<C²: webløg />

Courriel - email address

Avatar Bleizig

lundi 26 avril 2004
par Bleizig

C² accessible par téléphone

Homme qui tend un téléphoneEt oui, vous ne rêvez pas, il est maintenant possible de consulter les dernières entrées ainsi que les denières réactions simplement en se munissant de son... téléphone ! Pour ce faire, si vous habitez l'Amérique du Nord, appelez le numéro vert 1-800-289-5570. Lorsque qu'il vous sera demandé d'entrer votre "application code", dites "9991420252" à l'anglaise ou entrez simplement ce code à l'aide des touches clavier du téléphone. Le numéro est aussi accessible pour le reste du monde mais, malheureusement, il vous en coûtera pour l'utiliser. Je suis à la recherche en ce moment d'un hébergeur en France afin de pouvoir vous proposer un numéro vert en "0800...".

En attendant, grâce à la magie de la voix sur IP vous pouvez télécharger Free World Dialup X-Lite: l'installation est très rapide. Le numéro à appeler avec FWD X-Lite est **869 1-999-142-0252 ; vous accèderez directement au site vocal. Il existe cependant un très gros problème avec FWD X-Lite, l'enregistrement utilise un filtre visuel que les malvoyants ne peuvent pas passer... dès que je trouve mieux, je vous en fais part, promis.

Mais laissez-moi vous raconter comment tout ceci est arrivé.

Réalisation de l'existence de VoiceXML

Tout a commencé le jour où je suis tombé sur plusieurs articles parlant de la nouvelle version 2.0 des recommendations du W3C sur le language VoiceXML. Je me suis demandé quelle pouvait bien être cette technologie dont je n'avais jamais entendu parler à ce jour. Après beaucoup de recherches sur la toile, je me suis rendu compte que le VoiceXML n'avait rien de nouveau puisque les travaux du consortium remontaient à octobre 1998. De plus, beaucoup d'applications en tirent parti, que ce soit le répondeur vocal qui vous annonce la météo ou les derniers résultats sportifs, l'application qui vous permet de tracer vos colis postaux, l'hôtesse virtuelle qui vous redirige vers le bon service après vous avoir posé deux trois questions et enfin le Père Noël virtuel pour les enfants (ho !, ho !, ho !). Il existe beaucoup d'entreprises proposant des services d'hébergement d'application vocales. Par chance, certains de ces hébergeurs proposent une section développeurs gratuite, permettant d'ouvrir un compte et mettant à disposition un numéro afin de tester l'application. Que demander de plus? Tous les outils étaient là pour que je me prenne à rêver de la possibilité d'offir une interface vocale à C².

Une application concrète pour weblogs

Quand j'ai décidé de me lancer dans le VoiceXML, j'avais trois objectifs en tête (par ordre de priorité) :

  1. Permettre de proposer une alternative aux lecteurs d'écran, en espérant que cette alternative soit beaucoup plus agréable.
  2. Permettre à n'importe qui de se connecter au site de n'importe où, pourvu qu'il ait un téléphone sous la main.
  3. Découvrir une technologie qui m'était jusqu'alors inconnue.

La recherche de l'hébergeur idéal a été très laborieuse. J'ai d'abord expérimenté TellMe, créé une petite application en anglais avec synthèse et reconnaissance vocale, tout marchait bien. TellMe propose un validateur de vxml ainsi qu'une interface permettant de simuler les appels. De plus ils offrent un numéro d'appel gratuit. Par contre, quand j'ai parcouru la documentation, pas de chance, les applications ne peuvent être que dans la langue de Shakespeare. Contraint de changer, je me suis dirigé vers VoiceGenie, dont j'avais beaucoup entendu parler mais je me suis très vite rendu compte qu'ils ne proposaient pas de numéro vert, du moins dans leur section développeurs. Je me suis enfin décidé à tenter l'expérience avec Voxeo, proposant une synthèse et reconnaisance vocale en français, un numéro vert et un numéro accessible du monde entier via "voix sur IP".

Mes débuts ont été très difficiles, car VoiceXML, bien qu'étant un standard du W3C n'est pas entièrement standardisé. Je m'explique : VoiceXML ne décrit que la structure de l'application, c'est à dire les messages à annoncer, les menus, les redirections... Par contre, les applications reposent sur l'utilisation propriétaire de logiciels de reconnaissance (ASR) et de synthèse (TTS) vocale. Ces applications sont paramétrables via la balise <property> spécifiée dans la définition de VoiceXML. Par exemple, dans le cadre de Voxeo, le moteur utilisé s'appelle Nuance et pour le passer en francais, il faut utiliser :

<property name="nuance.core.tts.ResourceName" value="fr-FR.default"/>

J'ai eu beaucoup de mal au départ à faire fonctionner un simple 'Bonjour le Monde !' à cause de cette simple propriété parce que la documentation de Voxeo était incorrecte et bien sûr la spécification de VoiceXML du Consortium ne la définit pas. Je n'ai toujours pas compris à ce jour pourquoi Nuance ne peut simplement pas utiliser xml:lang="fr".

Un autre aspect malheureusement non-standard est la définitions de grammaires. Une grammaire est utilisée pour spécifier au logiciel de reconnaissance vocale les commandes acceptées pour un menu particulier. Par exemple, vous pourriez spécifier que pour une application météo, à la question "Que voulez vous faire?", l'utilisateur aie le choix entre "prévisions", "température" ou "enneigement". S'il prononce un autre mot, le logiciel de reconnaissance signalera à l'application que le mot n'est pas reconnu. Pour définir ces grammaires, le Consortium a, une fois de plus, décidé d'un standard, le problème est que Nuance a aussi le sien. Au total, je suis tombé sur une poignée de définition de grammaires différentes.

En conclusion, si je décide d'héberger l'application ailleurs et qu'ils n'utilisent pas Nuance ... je suis bon pour reparamètrer le tout.

Après ces premiers balbutiements, le reste est passé sans problèmes : la norme du Consortium est très facile à comprendre. Très rapidement, une version permettant d'écouter les deniers carnets ainsi que leur commentaires est née. Il ne me restait plus qu'à tester l'application et surtout recueillir l'avis d'utilisateurs de lecteurs d'écran afin de savoir si mon but principal était atteint : l'utilisation de VoiceXML permet-elle d'offrir une alternative plus agréable aux lecteurs d'écrans ?

Avis de quelques utilisateurs

Après avoir lancé l'avis sur le site, plusieurs personnes se sont proposées pour tester le tout et j'ai reçu de leur part des critiques très constructives :

  • La synthèse vocale est unanimement appréciée : elle est parfois un peu nasillarde et monocorde et il existe des erreurs de prononciation éparses sur les mots anglophones mais rien qui n'ait dérangé les testeurs, au contraire.
  • Il est beaucoup plus rapide de surfer via ce système. En effet, à n'importe quel moment de la lecture des billets ou des commentaires, vous pouvez passer au billet suivant, précédent, passer aux commentaires immédiatement. C'est, je pense, l'avantage principal de cette méthode sur les lecteurs d'écran traditionnels.
  • Il est malheureusement seulement possible de consulter les derniers carnets et les derniers commentaires, pas d'accès aux archives. Ce n'est pas une limitation technologique mais je ne me suis simplement pas encore penché sur l'implémentation. À venir...
  • La reconnaissance vocale est trop réactive et il n'existe pas de moyen d'annuler la dernière commande. Par exemple, quand j'écoutais les déboires de Denis avec son félin et que je suis tombé sur "ce **** de chat", la synthèse s'est mise à lire "ce étoile étoile étoile étoile de chat" et je suis parti d'un éclat de rire ce qui à déclenché la reconnaissance vocale et j'ai du reprendre la lecture à zéro. Ce problème est malheuresement une limitation technologique et je n'ai trouvé aucun moyen de la coutourner pour l'instant.
  • Le choix des commandes vocales à utiliser pour naviguer n'est pas intuitif et tous m'ont fait la remarque. Voici les contraintes qui m'ont imposé un tel choix : plus la grammaire contient de mots, plus la reconnaissance vocale à de chances d'échouer. Il en est de même pour la longueur des mots et les ressemblance entre eux. Au final, il m'a fallu utiliser des mots de deux syllabes et assez distinct : un vrai casse-tête ! Cependant, étant donné qu'il est possible d'utiliser les touches du téléphone pour naviguer, le problème n'est pas majeur.

En conclusion, l'application est loin de pouvoir remplacer un lecteur d'écran mais certains avantages notables ont été mis en avant et m'ont motivé pour continuer à explorer cette voie.

Je tiens à vous remercier Sof, Lenjika, Gilles, Luc, Monique, Pascal-Eric et Jean-Pierre d'avoir pris le temps de répondre à l'avis et de m'avoir envoyé vos remarques ou recommendé d'autres testeurs, j'ai vraiment pu apprécier sous différents angles les avantages et inconvénients de l'application grâce à vous. Si j'ai oublié quelqu'un, merci de me taper sur les doigts au plus vite pour que je vous rajoute.

Les limitations de la reconnaisance vocale

Pendant la réalisation de l'application vocale, je me suis pris à rêver de la possibilité de poster des commentaires via téléphone. Au début je voulais y croire, je me disais que peut-être les technologies avaient évolué suffisamment pour permettre d'y arriver. Mais malheureusement, nous en sommes très loin. En effet, les logiciels de reconnaissance vocale disponibles sur le marché comme ViaVoice ou Dragon ne fonctionnent à peu près correctement qu'après une période d'apprentissage afin que le logiciel s'habitue à votre voix. Alors imaginez une reconnaissance vocale sans apprentissage via une source sonore téléphonique ! La seule possibilité offerte par VoiceXML serait de laisser un commentaire vocal, il faudrait ensuite une intervention humaine pour le convertir en texte.

Une technologie en pleine expansion

Depuis que j'ai commencé à m'intéresser au sujet, le W3C a déjà finalisé une nouvelle version de VoiceXML 2.0 (le 16 mars). Beaucoup d'entreprises (AT&T, Motorola, Avaya, Lucent, Nuance...) ont d'ailleurs profité de l'annonce pour réitérer leur soutien aux effort du W3C : "Nuance Applauds World Wide Web Consortium's Advancement of VoiceXML 2.0 [...] Nuance, the voice automation expert, today announced its support of the World Wide Web Consortium's (W3C) decision to advance VoiceXML 2.0 to W3C Recommendation, commonly regarded in the industry as a Web standard (article complet)".

Cette technologie a un bel avenir tracé devant elle. De part sa nature (XML), elle s'intègre très facilement aux applications existantes et est très facile d'apprentissage. Selon TellMe, le nombre d'utilisateurs de cette technologie ne va qu'augmenter : "As an editor of the standard in the W3C, Tellme Networks, Inc. announced today that VoiceXML has been called by more than 1 in 10 people in the United States; by next year more than 1 in 4 people in the U.S. will have called a VoiceXML application. (article complet)". TBL voit VoiceXML comme un sérieux atout pour le rapprochement des technologies de l'Internet et des télécommunications. Je suis persuadé que nous allons voir fleurir de plus en plus d'applications VoiceXML. Pourquoi pas l'arrivée d'un plugin pour navigateur permettant de lire directement les pages VoiceXML ? Cela permettrait d'avoir une meilleure qualité sonore que celle du téléphone.

Conclusion

Je ne pourrais conclure ce carnet sans vous raconter une histoire drôle. Et oui, voyez-vous, Microsoft a décidé de présenter au grand public, le 24 mars dernier, leur "Speech Server 2004", une plate forme vocale entrant directement en compétition avec celles de Nuance, Motorola, AT&T... et reposant sur SALT, un autre standard, qui est vouée à l'échec selon les experts : "It is unlikely, though, that Microsoft deployments ultimately will dominate this particular market segment. That is because its tech offering is based on the SALT, or Speech Application Language Tags [...] While SALT definitely is still a contender, the marketplace has spoken: VoiceXML is the de facto standard (article complet)". Une fois de plus, bien joué Billou.

En bref, VoiceXML est une technologie montante offrant des possibilités très intéressantes pour le mariage entre technologies de l'Internet et télécommunications. Je la suivrai de très près et vous tiendrai au courant de son évolution sur C². Je compte aussi mettre très prochainement en ligne un tutorial VoiceXML.

Bleizig | 2004.04.26 @ 07:03

Alors, qu'en pensez-vous ?

Voici ce que vous aviez à en dire... vos impressions, recueillies à vif.

2004.04.28 @ 14:22 par Stephanie

Depuis que j'utilise Dragon (automne 2002), et surtout, depuis que je suis allée au Forum Avaya à Barcelone (automne 2003) et que j'ai découvert ce qui existait sur le marché en matière d'applications vocales, je rêve de ça.

Et tu l'as fait!

Je pense que dans pas trop longtemps, utiliser un ASR comme Dragon pour écrire ses propres billets par téléphone devrait être faisable. La qualité de reconnaissance, une fois qu'on a un peu pris le pli et que le moteur a été bien 'coaché', est tout à fait satisfaisante. Le problème serait à ce moment-là l'absence de feedback textuel pour les corrections (même si repasser le texte dicté en TTS peut déjà beaucoup aider).

Bref, tu me fais beaucoup envie!

(Soit dit en passant, Nuance étant à ma connaissance le leader du marché pour l'ASR, qui fait le moteur de reconnaissance de ton hébergeur actuel?)

Haut retour au début de la page

2004.04.28 @ 21:38 par Denis

Merci pour ces bons mots Stephanie, je suis content que quelqu'un réagisse enfin sur ce billet. J'étais super excité à l'idée d'annoncer la bonne nouvelle de ce que je considère être un exploit de la part de Bleizig et personne ne relevait rien. Ton intervention fait donc doublement plaisir. :)

En plus, c'est très fonctionnel comme truc !

Haut retour au début de la page

2004.04.28 @ 23:21 par Bleizig

La reconnaissance et synthèse sont faites avec Nuance, l'hébergeur que j'utilise propose aussi des moteurs développés par Motorola mais après avoir fureté sur la toile, j'ai trouvé que Nuance était le plus reconnu.

En effet, ces technologies me font beaucoup rêver car quand elles seront bien intégrées aux technologies internet (en utilisant VoiceXML par exemple), elles ouvriront beaucoup de portes comme l'exemple que tu citais: dicter ses carnets.

Je suis content que ça te motive, si tu as des questions, surtout tu n'hésite pas ;)

Haut retour au début de la page

2004.04.30 @ 06:35 par w0arz

Mortel, j'ai envie de m'y mettre sans attendre !

Haut retour au début de la page

2004.04.30 @ 15:02 par Monique

Bonjour,

J'ai tendance à rester sans voix devant de telles prouesses !
D'un côté, l'aspect technique me dépasse.
De l'autre, mon émerveillement est sans limite... je me rappelle du poste de radio à lampes de mon enfance et du phonographe dont la manivelle était bien trop dure pour moi...

Que Cybercodeur soit un des pionniers en la matière, c'est formidable :-)
Mais le côté comique de l'histoire, c'est le rôle du chat 4 étoiles de Denis ;-)

Amicalement,
Monique

Haut retour au début de la page

2004.05.13 @ 08:48 par Tetsuo

euh je suis un peu a la bourre mais ton billet m'as motivé ...

Je m'y mets de ce pas ... d'autant que le systeme a l'air assez pratique.

merci <del>Denis</del> <ins>Fabien</ins>!

edit : Denis, 2004-05-13 @ 10:07 ;-)

Haut retour au début de la page

2004.05.13 @ 12:40 par Bleizig

Surtout, si tu as des questions ou des remarques, tu n'hésites pas.

Pour tous ceux qui ont décidé de tenter l'expérience, n'hésitez pas à poster vos impressions, vos découvertes. En collaborant, on pourra faire avancer le sujet beaucoup plus vite ;-)

PS: Denis, il va falloir vraiment que l'on songe à mette nos avatars en place ;-)

Haut retour au début de la page

2005.03.03 @ 07:38 par Marie

bonjour
je viens de tomber sur ce site, que je decouvre. Passionnée des technologies vocales, je suis moi-même en train de construire un beau serveur vocal tout neuf. Tu parle d’un tutorial voiceXML, est ce toujours d’actualité ? Parce que je serais super intéressée…
Quant au moteur de reco, nuance est un des plus « installé », mais il y a aussi les français (vecsys), loquendo, telisma, multitel…bref, il y en a quelques uns…mais c’est vrai que nuance ess le plus ouvert à ce jour…

Haut retour au début de la page

2005.04.08 @ 06:22 par hafid

Bonjour

Interessé par le développement de voicexml
Qui peut M'informer sur un hebergeur en France pas cher ?

Quel prix ?

Haut retour au début de la page

2005.11.01 @ 01:06 par Adjanakis

Bonjour !

Cet article est super plaisant et j'ai hâte d'aller voir dans l'actualités du site où en est le projet ! Sinon, vu que j'ai un peu travaillé sur VoiceXML, j'ai deux remarques qui pourraient peut-être intéresser les lecteurs.

Ainsi, nuance oblige à mettre un tag property pour choisir la lang du serveur vocal. En fait, c'est en partie du au fait que l'on ne mélange pas les choux et les carottes :o). xml-lang est purement xml, ses valeurs possibles sont donc spécifiées par le w3C. Le problème est que dans ces conditions, on ne peut avoir qu'une seule voix possible par langue alors que le but en VoiceXML est justement de pouvoir avoir différente voix. 'fr-FR.default' est la voix française par défaut(je suppose), mais bien d'autres peuvent se cacher derrière.

Sinon pour les caractère '*' qui se prononce, je crois(si mes souvenirs sont bons) qu'il y a moyen de créer en standard une liste de synonymes. Mais ça ne fait que repousser le problème :o).

Merci pour cette article, ça m'a redonné envie de m'y remettre!

Haut retour au début de la page

2006.04.18 @ 17:47 par jules

bonjour au fait je suis interessé par voicexml et comme projet de fin d'étude j'ai opté pour la création d'une page web vocale sous linux et j'aimerais avoir un peu plus d'informations surtout concernant la configuration d'un serveur vocal sous linux.
Merci pour vos suggestion et vos conseils.

Haut retour au début de la page

2006.05.09 @ 02:52 par ouazene

je suis un developpeur d'application, je developpe une application vocale en utilisant le voicexml et suis amene a faire les transfere d'appel. j'ai fait un programme qui fait le trasfere d'appel mais malheureusement il ne marche pas je ne sais pour quel raison. je fait hebergement de mon application gratuitementa la plateforme vexeo. je ne sais ou je devrais heberge mon application et je peux faire le transfere d'appel.
et c'est pour cela que je vous de mon de m'aider on m'indiquant s'il y a une technique ou une plateforme qui peut m'accepter de faire hebergement gratuitement et d'execute le trabsfere d'appel
a la procahine

Haut retour au début de la page

Les commentaires et trackbacks sont désormais fermés. Pour toute remarque, vous pouvez toujours nous contacter.

Pisteur (Trackback)

Carnet: VoiceXML
Extrait: CyberCodeur est maintenant disponible par téléphone!...
Weblog: Dive The Web
Traqué le: 2004.04.26 @ 08:19