Loading...
 
[Show/Hide Right Column]

Julian Zapata Rojas

Julian Zapata Rojas
Read Blog
View Profile

Pour le service en français, dites « français du Québec »

Published by Jzapa026@uottawa.ca on 2011-12-15

J’ai fait parler mon ordinateur! Cela m’a pris une éternité, mais j’ai réussi à lui faire dire en espagnol « Le mandataire a ajouté brièvement qu’il espérait avoir une très fluide relation avec le chef. » Il l’a dit avec une voix électronique conçue spécifiquement pour émuler un locuteur masculin de l’espagnol péninsulaire, selon l’alphabet SAMPA, et il l’a dit avec l’intonation que moi-même lui ai donnée : celle d’un lecteur de nouvelles à la radio. Pour réussir, il a fallu que je rentre une myriade de caractères et de chiffres pour chacun des silences, des consonnes et des voyelles de ma phrase, dans le logiciel Mbroli (voir Dutoit 1997).

 

Je commence finalement à mieux comprendre comment les ordinateurs parviennent à émuler la parole humaine et à nous comprendre lorsqu’on leur parle. C’était l’un de mes principaux objectifs au moment de m’inscrire à mon cours en catalan de Tractament de la parla / Lingüística computacional ce trimestre.

 

L’idée de faire en sorte que les ordinateurs traitent les langues naturelles est aussi vieille que l’idée même des ordinateurs, mais ce n’est que depuis une vingtaine d’années que les secteurs de la synthèse vocale et de la reconnaissance vocale connaissent un essor fulgurant partout dans le monde, et le nombre d’utilisateurs et les domaines d’application augmentent sans cesse (voir Jurafsky et Martin 2009).

 

Qui ne s’est pas encore plu à cliquer sur le bouton « Écouter » (petit hautparleur) dans Google Translate, au-dessous d'un texte traduit par le traducteur automatique? (Entendre une mauvaise traduction est beaucoup plus amusant que la lire tout simplement!) Qui ne s’est pas encore fait demander par cette gentille agente artificielle au service à la clientèle de « dire la raison pour laquelle vous appelez » afin de mieux vous servir et de vous diriger vers le département approprié? Vous êtes-vous déjà fâché avec elle parce qu’elle ne vous comprenait pas, et vous a-t-elle dit de vous calmer, de ne pas perdre votre patience?

 

En plus, on peut dire à notre téléphone portable d’appeler un tel contact ou un autre, de composer un numéro, d’accéder à notre boite de réception de messagerie texte ou d’ouvrir le menu Jeux ou le menu Paramètres. On peut aussi, tout comme au téléphone portable, dire à notre ordinateur de « chercher sur Google un restaurant indien sur la rue Somerset Ouest à Ottawa » ou « un hôtel trois étoiles près de la plage à Panama Beach, en Floride », et de nous en montrer la carte et des images.

 

Par ailleurs, les voix synthétiques des systèmes commerciaux de synthèse vocale sont aujourd’hui si réelles, que souvent nous ne nous rendons pas compte que c’est un ordinateur qui parle. Je suis sûr et certain que nous entendons au moins une fois par jour une voix artificielle : dans une annonce publicitaire à la radio ou à la télé, dans le service téléphonique à la clientèle, à la station d’autocars, dans le métro ou à l’aérogare…

 

Des systèmes non commerciaux comme celui que j’ai utilisé pour recréer un morceau d’une nouvelle à la radio espagnole s’avèrent d’une plus grande utilité du point de vue de la recherche. Mais les systèmes commerciaux qui utilisent des voix humaines réelles ayant des accents régionaux spécifiques se vendent aujourd’hui comme des petits pains chauds. Et les milieux d’application de ces systèmes ne sont limités que par notre imagination!

 

L’un des monstres de la conception et la commercialisation des technologies du traitement de la parole est l’entreprise Nuance, basée à Burlington, aux États-Unis. Ne se contentant pas uniquement de développer les solutions de la plus haute performance en matière de reconnaissance vocale (comme Dragon Naturally Speaking), ils avalent d’autres entreprises relativement plus petites, susceptibles de leur faire concurrence. Le 30 septembre dernier, Nuance a annoncé l’acquisition de l’entreprise italienne Loquendo, celle qui développe les systèmes de synthèse vocale les plus impressionnants que je n’ai jamais vus (ou entendus). En passant, au cours des trois dernières semaines, j’ai reçu plus de courriels de la part de Nuance que de ma propre mère! Que des offres généreuses pour le temps des Fêtes!

 

Néanmoins, ces systèmes sont encore loin de satisfaire tout utilisateur, peu importe sa langue, son accent ou sa situation géographique. Dans ce reportage vidéo, par exemple, nous voyons pourquoi les applications la reconnaissance vocale du nouveau iPhone 4S est décevante au Québec. Ce n’est pas non plus pour tout professionnel que ces technologies s’avèrent d’une utilité importante. Des policiers, des médecins et des agents de publicité, entre autres, témoignent déjà d’une nette amélioration de leur productivité et d'une considérable réduction du stress, losqu'ils se servent des systèmes de synthèse et de reconnaissance vocale dans leur travail quotidien. Mais ce n’est pas le cas nécessairement pour les traducteurs, les écrivains et les rédacteurs. Pour eux, ces technologies, même si elles sont prometteuses, sont encore frustrantes. Sachez pourtant que ces technologies sont des technologies langagières, mais ce ne sont pas des outils de traductique, tel que j’argumentais dans mon billet « The End of CAT ».

 

J’aimerais savoir quel contact vous avez avec les technologies du traitement de la parole dans votre quotidien. Vous en servez-vous dans votre travail? L’apercevez-vous dans les annonces à la radio, à la télé ou dans le métro? Faites-vous des commandes vocales à votre téléphone portable? Êtes-vous optimiste quant à l’amélioration de ces technologies et leur adaptation à votre accent et à votre milieu professionnel?

 

Me croyez-vous si je vous dis que je n’ai pas touché au clavier de mon ordinateur en rédigeant ce billet? Vous avez le droit de dire « non ».

 

Julian Zapata Rojas

 

 

2 comments


Évidemment, je répondrais "non"! Il vous aurait certainement fallu procéder à une correction exhaustive du texte dicté. Comme vous osiez l'admettre à l'inverse, faire dire une seule phrase à votre ordinateur vous a pris une éternité! Il est donc bien difficile d'imaginer que quelqu'un serait assez patient pour rédiger ainsi un si long texte!


Merci d'avoir répondu à la toute dernière question de mon billet ;) Oui, vous aviez le droit de dire « non ». Mais vous n'auriez eu pas tort complètement si vous aviez répondu « oui »...
D'abord, il ne faut pas confondre l’exercice que j'ai fait avec la voix synthétique et la rédaction d'un texte à l'aide d'un logiciel commercial de reconnaissance vocale. L’exercice de synthèse de la voix a été un exercice purement académique, où il fallait appliquer plusieurs notions liées au traitement de la parole (entre autres, amplitude, fréquence, durée, intonation) et cela m'a pris une éternité parce qu'il fallait que je mesure, à partir d'un morceau original, chacune des données pour chaque son et chaque silence, pour essayer de recréer à l'ordinateur une phrase originale par un locuteur humain, avec la même intonation.
Pour ce qui est de la reconnaissance vocale, la langue française est un cas exceptionnel d'excellente performance de ces logiciels. Je ne vous révèle pas la réponse (pour que d'autres lecteurs puissent y réfléchir eux aussi). Mais je vous dis que souvent les « erreurs » de ces logiciels ne sont dues qu'au manque de savoir-faire de l'utilisateur. Je vous invite à répondre aux autres questions.
Merci :-D