|
Faire en sorte que les ordinateurs soient accessibles partout et pour tous, signifie rendre la reconnaissance vocale possible pour chaque langue. Le projet de Phonétique Universelle de Microsoft part de l’idée que les données peuvent être recueillies dans une seule langue, et qu’en effectuant une modification mathématique, il est possible de l’adapter à d’autres langues. Ce projet va s’intéresser dans un premier temps au recueil et partage de données pour l’anglais, le français et l’espagnol. L’objectif, à plus long terme, est de partager des sénones, la plus petite unité constituant un phonème, pour construire des modèles permettant de comprendre comment la bouche, la langue et les lèvres forment des sons.
Lorsqu’il s’agit des technologies de reconnaissance vocale à l’usage quotidien, la possibilité d’entrer du texte rapidement et facilement est l’un des atouts majeurs de ces applications. Deux grandes catégories, la reconnaissance vocale discrète et continue, sont utilisées dans différents scénarios. Lors de la dictée discrète, le système emmagasine un vocabulaire de mots reconnaissables prédéfinis et l’utilisateur doit faire une pause de quelques millisecondes entre chaque mots. La limite disparaît pour les produits de dictée en continu, se traduisant par une interaction plus naturelle. Les packages modernes sont à présent capables de distinguer entre une commande à l’ordinateur et une dictée continue, rendant les modes de dictée mot à mot (en mots isolés) et de commande, obsolètes. Une puissance de traitement limitée – typique pour les environnements intégrés- est actuellement l’un des rares motifs incitant à l’utilisation de la reconnaissance vocale discrète. Comparée à la vitesse d’énonciation moyenne de 180 mots par minute, des entrées de plus de 130 mots par minute réalisées par des systèmes de reconnaissance vocale bien entraînés, va doper la productivité dans des environnements basés sur des textes. «Bien entraîné » signifie que vous devrez passer un certain temps dans un processus appelé « enrolling » qui consiste à lire un certain nombre de phrases de base, en nombre suffisant pour créer un profil d’utilisateur de base. L’échec de cette étape peut se traduire par une performance médiocre et une productivité limitée. Il est à rappeler que même le meilleur système de reconnaissance vocale ne pourra fonctionner correctement sans appui matériel. Le bruit de fond réduit considérablement le taux de précision, par conséquent, des écouteurs conçus spécialement pour réduire le bruit sont recommandés pour les packs de reconnaissance.
Vous trouverez plus d’informations sur la technologie de reconnaissance vocale, de même que des explications des concepts de base dans le dossier spécial sur la reconnaissance vocale conçu par ZDNet. Cependant, la technologie de reconnaissance vocale ne se limite pas qu’aux PC. Un excellent article d’introduction du Speech Technology magazine intitulé « Applications vocales » décrit les technologies de reconnaissance vocale et de synthèse de la parole pour des applications bureautiques et de maison.
|