Recherche
Plan du site
Nous contacter
Newsletter

Parole d'experts > C'est votre ordinateur qui vous parle !

C'est votre ordinateur qui vous parle ! (2)
Un bref aperçu de la technologie de synthèse de la parole à partir du texte ainsi qu'une liste de produits existants et de packages gratuits.

Par Denis Susac

Précédent

Lucent's Text-to-speech engine est un autre système TTS au son naturel et intelligible. Il est équipé d'outils de réglage de la vitesse, du volume, de la hauteur et du tract vocal. L'entrée du texte n'est pas restreinte et une voix aussi bien féminine que masculine peut être utilisée. Le moteur offre des abbréviations en fonction du contexte, expansion et une architecture ouverte de même que de riches options de prétraitement pour l'e-mail et le Web. Il supporte l'anglais américain, le français, le français canadien, l'espagnol (sud américain et castillan), l'allemand, l'italien. D'autres utilitaires comprennent l'éditeur de dictionnaire personnalisable, objet audio customisé et ActiveX control pour la création de fichiers .wav à partir de texte.

Implémenté en tant que Windows DLL, SoftVoice TTS est l'un des rares moteurs à utiliser l'approche de synthèse par formant. S'appuyant sur les avantages de cette technologie, le programmateur peut modifier n'importe quelle voix virtuellement de multiples façons, afin d'en créer de toutes nouvelles. Un lot complet de plus de 30 commandes diférentes peuvent être intégrées dans le texte pour contrôler les sorties vocales, de même qu'un support pour le chant ! Des mouvements de lèvres précis peuvent être animés à partir de données fournies par un synthétiseur vocale. Le système SoftVoice utilise les règles lettres à sons (letter to sound), un préprocesseur numérique et un dictionnaire permettant d'identifier la prononciation adéquate. Les programmateurs ou utilisateurs peuvent également utiliser l'éditeur de dictionnaire d'exceptions de SoftVoice pour créer leurs propres dictionnaires de mots et d'abbréviations mal prononcées. Il supporte l'anglais et l'espagnol.

e-Language d'Elan Informatique est une nouvelle gamme d'outils logiciels sophistiqués conçus pour offrir aux utilisateurs une nouvelle génération d'interface pour PDA, téléphones intelligents, systèmes d'aide à la navigation, etc. Il comprend le module Prosel qui extrait la prosodie d'une voix naturelle et l'applique à la voix synthétique, de même que Lexitool, un module qui permet de créer une base de données lexicale personnalisée pour les exceptions et les abbréviations spécifiques à l'application. Speech Cube et Proverbe fournissent un support logiciel et hardware multilingue (anglais américain, britannique, espagnol, allemand, français, russe, brésilien, portuguais, italien) et multi-canaux pour des serveurs d'applications TTS sous Windows NT, SCO, Linux, Qnx et Solaris. Les solutions bureautiques incluent Speech Engine SDK- version DLL, Speech Engine SAPI et Speech Engine pour OS/2. Elan propose également un large support pour les systèmes embarqués, y compris sous Windows CE.

Le Microsoft Speech SDK est un choix naturel pour la plupart des développeurs utilisant la plateforme Windows. La nouvelle version 5.0 inclut un certain nombre d'améliorations, des mises à jour d'outils de développement, échantillons, documentation et des versions améliorées du moteur de Reconnaissance Vocale Continue de Microsoft (MCSR) et le moteur de synthèse de la parole par concaténation. Il est possible d'allier les capacités vocales avec l'Interface de Programmation d'Applications de Téléphonie (TAPI) pour créer des applications en téléphonie avancée. La plupart des moteurs décrits dans cet article peuvent être utilisés avec Speech SDK- vous pouvez installer un nombre de produits TTS et sélectionner uniquement le moteur souhaité en utilisant une mini application de contrôle.

Le moins connu, mais néanmoins de haute qualité, est EULER 2.00 du laboratoire TCTS (Théorie des Circuits et de Traitement du Signal). Il est disponible gratuitement (GNU C++), facile à utiliser, facile à développer, un TTS générique pour Windows 95/98/NT. Il supporte actuellement le français, mais d'autres langues vont suivre. Un port Mac est en cours, de même que Unix/Linux. Un autre grand projet de TCTS est MBROLA, dont le but est de réaliser une gamme de synthétiseurs vocaux pour autant de langues possibles, et les mettre à disposition gratuitement pour des applications non-commerciales. Au cœur du projet MBROLA, une multiplateforme de synthétiseur vocal qui s'appuie sur la concaténation de diphones. Ce n'est pourtant pas un système TTS au sens général du terme, d'autant qu'il n'accepte pas comme entrée du texte brut. D'autre part, il supporte actuellement 24 ( !) langues, permettant une large acceptation de ce système dans le monde entier. Le Festival Speech Synthesis System est un système vocal multilingue généraliste et très puissant, il est considéré comme un standard en matière de recherche TTS. Il offre un texte entier au système vocal avec différents API, de même qu'un environnement pour le développement et la recherche des techniques de synthèses de la parole. Il est écrit en C++. Festival peut être connecté à MBROLA et peut par conséquent supporter un grand nombre de langues.

Si vous souhaitez débattre des moteurs de synthèse de la parole à partir du texte ou de tout autre sujet lié à l'intelligence artificielle, rejoignez le forum d'AgentLand .

Précédent


Recommander Agentland  -  Partenariat  -  Confidentialité  -  Crédits -  Goodies
Recherche  -  Plan du site  -  Nous contacter  -  Newsletter  -  Presse
AgentLand.fr / AgentLand.com


NEWSLETTER
Chaque semaine, recevez les dernières actualités des agents  

TOP 10 AGENTS