Recherche
Plan du site
Nous contacter
Newsletter

Parole d'experts > C'est votre ordinateur qui vous parle !

C'est votre ordinateur qui vous parle ! (1)
Un bref aperçu de la technologie de synthèse de la parole à partir du texte ainsi qu'une liste de produits existants et de packages gratuits.

Par Denis Susac

Suite de l'article

Créer une application vocale est quasiment devenu un jeu d'enfant grâce aux progrès en matière d'informatique, de linguistique, de traitement du signal et même de psychologie. L'un des éléments clés de ce type d'applications est la technologie de synthèse de la parole à partir du texte (TTS) ou moteur de synthèse vocale. La capacité de convertir du texte en phrases et mots compréhensibles et intelligibles est essentielle pour toute application, nécessitant une interaction humaine, spontanée. D'autre part, l'exploration de milliers de règles de prononciation et d'inflexion nécessite une grande puissance de traitement : plus simplement, tout le tract vocal de l'Homme doit être modelé et mimé pour une application TTS afin de parvenir à une qualité de voix humaine.

Il existe deux approches de base de la synthèse vocale : la synthèse par formant qui crée un discours totalement numérisé et synthétique à partir de « scratch »; la synthèse par concaténation par laquelle des segments de voix enregistrées sont stockés et serviront à convertir du texte en parole. La première méthode nécessite un petit CPU et de la configuration mémoire, elle présente l'avantage de s'adapter aux différentes langues, d'autant que la hauteur et la durée des mots peuvent être facilement modifiés. La qualité sonore est généralement inférieure et le discours généré paraît assez mécanique. L'approche « concaténative » permet de stocker des fragments enregistrés de discours humains dans des bases de données, pour les regrouper par la suite afin de former des mots et des phrases complets. La longueur des fragments individuels varie : la plus petite unité du discours qui différencie un énoncé d'un autre est appelée phonème. Cependant, les sons individuels peuvent varier en fonction des sons qui suivent et précèdent les différents phonèmes. De plus longues unités de discours diminuent la densité des points de concaténation, engendrant ainsi des discours de meilleure qualité. Les diphones, unités qui commencent au milieu d'un phonème stable et s'achève au milieu du phonème suivant, sont souvent choisis comme solutions. Des unités plus larges du discours telles que des triphones, tetraphones de même que des mots entiers sont utilisés avec la nouvelle génération de moteurs de TTS, nécessitant de plus grandes bases de données et des méthodes de recherche et de stockage plus efficaces

Quelque soit la méthode utilisée, les outils TTS renferment en règle générale deux modules : un module de traitement automatique du langage naturel (TAL) qui transcrit phonétiquement le texte écrit, et un module de traitement du signal numérique qui transforme les résultats de la section TAL en mots vocalisés. A la base, le processus de synthèse vocale débute par l'étape dite de normalisation du texte, qui établit comment chaque mot doit être prononcé. Il est à rappeler que des mots qui à première vue s'écrivent de la même manière, ne se prononcent pas nécessairement de la même manière (exemple du mot « read » en anglais qui peut se prononcer « red » ou « reed » en fonction du contexte). Certains mots doivent être développés ou même remplacés : chiffres, abbréviations, dates, heures, acronymes, etc. Les chiffres sont de bons candidats pour les analyseurs de contexte : un bon outil de TTS pour le marché américain « saura » que 556-9872 est certainement un numéro de téléphone et ne lira pas cinq cent cinquante six…Une fois le groupe de mots non ambigü extrait, la commande passe au convertisseur de phonème qui tente de trouver le mot juste dans une base de donnée de prononciation ou d'appliquer des règles de lettre à son (letter-to-sound). Pourtant même les meilleurs outils, dotés de base de données élaborées, devront s'appuyer sur des dictionnaires d'exception, stockant des mots qui défient toutes les autres règles de prononciation. La partie la plus ardue reste à venir, c'est la génération de la prosodie. Le terme prosodie renvoie à la variation des paramètres de hauteur, l'intensité et la durée syllabique. Le discours créé ne paraîtra naturel que si cette étape est effectuée correctement : autrement le son sera monotone et ennuyeux, ce qui peut être épuisant à long terme.

Les progrès en matière d'informatique et d'algorithmes de génération du discours sont à l'origine de multiples outils de TTS capables de générer un discours quasi indifférenciable du discours humain. RealSpeak de Lernout & Hauspie s'appuie sur des algorithmes de concaténation, il est idéal pour les secteurs de l'industrie, tel que la téléphonie qui nécessite une qualité haute définition. RealSpeak de L&H fait partie de la gamme de produits TTS qui inclut TTS3000 et L&H TruVoice, chacun disposant de CPU et de mémoire différents. La nouvelle version (5.0) de L&H Voice Xpress permet aux développeurs de rendre leurs applications compatibles à la voix en s'appuyant sur le Modèle Objet Composant de Microsoft (COM- Component Object Model) et la technologie standard ActiveX et l'Interface de Programmation d'Application Vocale (SAPI), définissant la fonctionnalité reconnaissance/génération du discours. La nouvelle fonction de transcription permet aux utilisateurs d'enregistrer leurs dictées dans un fichier wave et de disposer du texte, fichiers alternatifs et audio étant stockés ensemble. Les utilisateurs peuvent sélectionner une partie du texte et commencer une lecture du texte sélectionné avec la voix enregistrée de l'utilisateur et effectuer des corrections par le discours ou transmettre les fichiers à un tiers pour correction. Les langues actuellement supportées sont l'anglais américain et britannique, le français, le danois et l'espagnol, on trouve également des listes de vocabulaire dans différents domaines d'application.

Suite de l'article


Recommander Agentland  -  Partenariat  -  Confidentialité  -  Crédits -  Goodies
Recherche  -  Plan du site  -  Nous contacter  -  Newsletter  -  Presse
AgentLand.fr / AgentLand.com


NEWSLETTER
Chaque semaine, recevez les dernières actualités des agents  

TOP 10 AGENTS