Recherche
Plan du site
Nous contacter
Newsletter

Parole d'experts > Réveille-moi à 7h30

Réveille-moi à 7h30 (1)
Des ordinateurs compatibles à la voix (2ème partie) : introduction à la technologie de reconnaissance de la parole.

Par Denis Susac

Suite de l'article

La reconnaissance de la parole ou reconnaissance vocale est la capacité d’un ordinateur à comprendre et à interpréter des mots énoncés. Grâce aux récents progrès en matière de logiciels et de matériel informatique, elle présente une alternative efficace et abordable aux périphériques d’entrée traditionnels. Les chercheurs s’intéressent également aux techniques de traitement du langage naturel en tant qu’extension de la reconnaissance vocale, fournissant ainsi une interface plus naturelle et plus intuitive. Les logiciels de reconnaissance vocale ont certes atteint plus de 90 % de taux de précision, mais attendez un peu avant de jeter votre clavier. Avec une moyenne de 10 erreurs sur 100 mots, c’est loin d’être parfait ! Cet article donnera un bref aperçu de cette technologie et de ses applications pratiques. Nous commencerons, comme d’habitude par un peu de théorie et nous poursuivrons par des exemples concrets.

Les premières tentatives de création d’une machine capable de comprendre le discours humain datent de la fin des années 40, au sein du Ministère de la Défense américain. Le but affiché était la traduction et l’interprétation des messages russes interceptés. Ces premières expériences s’appuyaient de manière spécifique sur une approche descendante, fournissant une recherche mot à mot. Cependant, essayez d’imaginer combien de temps et de ressources informatiques ont été nécessaires pour enregistrer et emmagasiner la représentation de chaque mot dans chaque langue. Même alors, la représentation de symboles en discours n’est pas unilatérale, d’autant que différents symboles peuvent résulter de sons similaires. Il s’est avéré que la reconnaissance vocale se situe à un niveau inférieur, au niveau du phonème. Le phonème est la plus petite unité du discours qui distingue un énoncé d’un autre. Le problème majeur réside dans le fait que les phonèmes, pris individuellement, se  « comportent mal » : les sons individuels peuvent varier en fonction des sons qui suivent et précèdent les phonèmes en question. Dans un système de reconnaissance vocale moderne, l’amplitude numérique d’un signal vocal, capturée par une carte son, est dans un premier temps transformé en composants de fréquence dominante. Chacun de ces composants est lié à un phonème spécifique, le système peut donc interpréter les mots d’un dictionnaire à partir des séquences de phonème qui les constituent. Le processus clé montrant la probabilité d’une combinaison de phonème successive s’appuie sur la technique du modèle de Markov caché (HMM). La plupart des algorithmes de reconnaissance vocale s’appuient actuellement sur le HMM, avec quelques nuances pour les calculs de probabilité, schémas de détection de endpoints (points d’arrivée) pour les dictées continues, etc. Le kit modèle de Markov (HTK) caché de Cambridge est un kit portable permettant de concevoir et de manipuler des modèles de Markov cachés. Si vous êtes intéressés par une approche plus directe, un manuel HTK vous propose un tutoriel approfondi pour construire ce type de systèmes. Le dernier chapitre décrit la construction d’un détecteur de voix d’applications (14 étapes complexes, décrites en 23 pages). Vous constaterez rapidement que créer un détecteur de voix, à partir de scratch est très difficile et nécessite beaucoup de temps- sans compter que le résultat est dépendant de la langue. Donc, après avoir créé un détecteur pour la langue anglaise, qu’en est-il des centaines d’autres langues ?

Suite de l'article


Recommander Agentland  -  Partenariat  -  Confidentialité  -  Crédits -  Goodies
Recherche  -  Plan du site  -  Nous contacter  -  Newsletter  -  Presse
AgentLand.fr / AgentLand.com


NEWSLETTER
Chaque semaine, recevez les dernières actualités des agents  

TOP 10 AGENTS