EP2002423A1

EP2002423A1 - Systeme de mise en coherence de prononciations

Info

Publication number: EP2002423A1
Application number: EP07731844A
Authority: EP
Inventors: Laurence Ferrieux
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-03-29
Filing date: 2007-03-29
Publication date: 2008-12-17
Also published as: US20100049518A1; WO2007110553A1

Abstract

Système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal (1), ledit serveur vocal comprenant un système (20) de reconnaissance vocal apte à reconnaître la prononciation du mot par l'utilisateur et à lui associer une étiquette textuelle, et un système (30) de synthèse de la parole apte à émettre ladite prononciation de confirmation à partir de ladite étiquette textuelle. Selon l'invention, ladite étiquette textuelle est une étiquette textuelle phonétique (21) construite par concaténation des phonèmes de la prononciation reconnue par le système (20) de reconnaissance vocale. Application aux services vocaux mettant en oevre des variantes de prononciations de mots.

Description

SYSTEME DE MISE EN COHERENCE DE PRONONCIATIONS

La présente invention concerne un système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal.

L'invention trouve une application particulièrement avantageuse dans le domaine des systèmes vocaux interactifs utilisant la reconnaissance vocale et la synthèse de la parole, notamment dans le cadre des applications mettant en œuvre la reconnaissance vocale pour les noms propres, tels que les noms de famille d'un annuaire et les contacts d'un répertoire, ou encore les noms de lieux dans les systèmes de reconnaissance de localisation. Ces systèmes de services vocaux interactifs utilisent généralement un moteur de reconnaissance vocale pour reconnaître ce que dit l'utilisateur lorsqu'il prononce un mot, un nom propre par exemple, et un moteur de synthèse de la parole pour émettre à destination de l'utilisateur une prononciation censée confirmer celle émise par l'utilisateur dans sa demande. Cette prononciation de confirmation est établie par le système de synthèse de la parole à partir d'une étiquette textuelle fournie par le système de reconnaissance vocale. Plus précisément, on entend par étiquette un identificateur de ce qui a été reconnu par le système de reconnaissance vocale. Dans la plupart des systèmes vocaux existants, les systèmes de reconnaissance vocale utilisés sont capables de prendre en compte plusieurs variantes de prononciation d'un même mot. Pour les noms propres, le nombre de variantes de prononciation calculées automatiquement par un phonétiseur à partir d'une même forme orthographique est souvent importante puisque la prononciation de ces noms est davantage affectée par les particularités régionales ou par la langue d'origine du nom que pour les nom communs. Les différences entre deux prononciations d'un même nom peuvent donc être significatives. Ainsi par exemple, pour le nom propre « Flécher », le phonétiseur peut établir de manière automatique deux prononciations associées, à savoir fl_ei_ch_ei et fl_ei_ch_ai_r.

Par contre, le système de synthèse de la parole ne fournit qu'une prononciation unique pour chaque nom à partir d'une seule étiquette textuelle.

Dans l'exemple précédent, l'étiquette textuelle associée au nom « Flécher » est « flécher » que le système de synthèse de la parole prononce fl_ei_ch_ei de manière unique.

On comprend que dans un système vocal mettant en œuvre des noms propres, il existe un risque important d'incohérence entre la prononciation de l'utilisateur et celle restituée par le système de synthèse de la parole. Cet écart est une source de difficultés lors du déroulement d'un dialogue homme- machines dans le contexte, par exemple, d'un annuaire ou d'une liste de contacts dans un répertoire. Ces difficultés peuvent être illustrées de la façon suivante. Imaginons qu'un utilisateur s'adresse à un serveur d'annuaire vocal pour obtenir le numéro de téléphone d'une personne dont le nom de famille est « Flécher » en prononçant ce nom fl_ei_ch_ai_r. Le système de reconnaissance vocal, dont on rappelle qu'il est capable de prendre en compte les variantes de prononciation d'un même nom, repère qu'il s'agit du nom « Flécher » et fournit au système de synthèse de la parole l'étiquette textuelle unique « flécher », laquelle est prononcé de manière unique sous la forme fl_ei_ch_ei. Il en résulte finalement qu'à sa demande prononcée fl_ei_ch_ai_r, l'utilisateur se voit répondre une confirmation prononcée fl_ei_ch_ei par le serveur. Devant une telle situation d'incompréhension apparente l'utilisateur renonce généralement à sa demande.

Pour résoudre cette difficulté, on pourrait utiliser comme approche permettant d'obtenir une meilleure cohérence entre les prononciations de transformer les noms ayant plusieurs variantes de prononciation en autant d'entrées distinctes avec des étiquettes textuelles ayant des orthographes donnant des prononciations non ambiguës. Dans l'exemple précédent, le nom « Flécher » serait associé à une première étiquette « fléché » prononcée fl_ei_ch_ei par le système de synthèse de la parole et une seconde étiquette « fléchaire » qui serait prononcée fl_ei_ch_ai_r.

Cependant, une telle approche ne permettrait pas au système de tirer directement profit des variantes générées automatiquement par le phonétiseur car il faudrait intervenir manuellement au cas par cas pour modifier les entrées et les étiquettes textuelles associées, ce qui n'est pas envisageable pour des applications à grands vocabulaires comme un annuaire national qui compte plusieurs millions d'entrées.

Aussi, le problème technique à résoudre par l'objet de la présente invention est de proposer un système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal, ledit serveur vocal comprenant un système de reconnaissance vocal apte à reconnaître la prononciation du mot par l'utilisateur et à lui associer une étiquette textuelle, et un système de synthèse de la parole apte à émettre ladite prononciation de confirmation à partir de ladite étiquette textuelle, qui permettrait de résoudre les difficultés mentionnées plus haut relatives aux incohérences pouvant se produire lors de dialogues entre un utilisateur et le serveur impliquant des noms propres à variantes de prononciation, tout en préservant les avantages de la génération automatique de ces variantes par le phonétiseur.

La solution au problème technique posé consiste, selon la présente invention, en ce que ladite étiquette textuelle est une étiquette textuelle phonétique construite par concaténation des phonèmes de la prononciation reconnue par le système de reconnaissance vocale. Ainsi, comme on le verra en détail plus loin, la cohérence est maintenue entre les mécanismes de reconnaissance et de synthèse en utilisant la transcription phonétique des variantes de prononciation générées automatiquement par l'outil de phonétisation des mots, ou phonétiseur. Cette approche ne nécessite donc pas de gérer manuellement des correspondances pseudo-orthographiques, c'est à dire des orthographes de mots conduisant à une prononciation unique, permettant de lever l'ambiguïté.

Le procédé conforme à l'invention a donc pour effet d'associer au résultat de la reconnaissance une étiquette correspondant à la concaténation des phonèmes de la variante reconnue. Dans l'exemple précité, à la variante de prononciation reconnue fl_ei_ch_ai_r le système associe l'étiquette textuelle phonétique « fl_ei_ch_ai_r » ou « fleichair » qui sera prononcée correctement fl_ei_ch_ai_r par le système de synthèse de la parole dans son message de confirmation.

Avantageusement, l'invention prévoit qu'un indicateur de prosodie est associé à ladite étiquette textuelle phonétique.

Cette disposition permet de conserver la prosodie calculée automatiquement par le système pour une phrase complète dans laquelle vient s'insérer le mot résultat. Par exemple, les noms propres ont tendance à être prononcés en baissant la voix en finale, contrairement aux noms communs.

Le fait d'entendre le système reformuler le nom en utilisant la même variante de prononciation que l'utilisateur limite le risque de voir ce dernier refuser la bonne solution simplement à cause d'une prononciation qu'il ne reconnaît pas.

Pour l'utilisation du mot reconnu dans d'autres actions du système, recherche dans une base de données par exemple, une table maintient la correspondance entre l'orthographe du mot et les chaînes de phonèmes correspondant aux variantes.

La description qui va suivre en regard du dessin annexé, donné à titre d'exemple non limitatif, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée.

La figure 1 est un schéma d'un système de service vocal mettant en oeuvre le système de mise en cohérence conforme à l'invention.

Sur la figure 1 est représenté un serveur vocal 1 associé à un service vocal d'annuaire téléphonique ou de répertoire, par exemple.

A partir d'une liste 2 contenant des noms propres en mode textuel, tels que les noms de famille d'un annuaire ou des contacts d'un répertoire, un phonétiseur 10 génère automatiquement les prononciations possibles pour les mots. S'agissant plus particulièrement des noms propres, le phonétiseur 10 fournit un nombre important de variantes qui peuvent être liées à l'origine régionale ou étrangère des mots, ou plus simplement à une ambiguïté des règles de prononciation non levée par l'usage.

Au moment de la génération du modèle de reconnaissance, le système fournit autant d'entrées qu'il y a de variantes importantes. Deux entrées divergeant par un « e muet » ne seront pas nécessairement considérées comme deux variantes différentes et peuvent être regroupées sous une seule étiquette textuelle, par convention sans « e muet ».

Dans l'exemple montré à la figure 1 , le phonétiseur 10 génère une seule prononciation d_y_r_an pour le nom « Durand » qui n'a pas de variante de prononciation et les deux variantes de prononciation fl_ei_ch_ei et fl_ei_ch_ai_r de « Flécher ».

Lorsque l'utilisateur prononce le nom qu'il recherche, ici le nom

« Flécher » prononcé « Fléchair », soit phonétiquement fl_ei_ch_ai_r, le système 20 de reconnaissance vocale reconnaît cette variante de prononciation et transmet au système 30 de synthèse de la parole une étiquette textuelle phonétique 21 correspondant à la liste des phonèmes reconnus qui peut s'écrire « fl_ei_ch_ai_r » ou « fleichair ».

Le système 30 de synthèse de la parole émet un message de confirmation dans lequel le nom demandé est correctement prononcé fl_ei_ch_ai_r , conformément à la prononciation initiale de l'utilisateur. Le message de confirmation peut être un message construit entièrement par synthèse ou un message en mode mixte combinant des segments enregistrés, comme « Avez-vous dit », et des segments de synthèse, comme le nom reconnu. De manière à assurer la génération d'une prosodie correcte de la phrase par le système 30 de synthèse, un indicateur de prosodie est associé à la liste des phonèmes afin d'indiquer qu'il s'agit d'un nom de famille et qu'il doit être prononcé en tant que tel.

Sur la figure 1 , on peut voir que l'étiquette textuelle phonétique 21 est accompagné de l'indicateur [Nfam] précisant que la liste des phonèmes associée, à savoir ici fl_ei_ch_ai_r , doit être prononcé comme un nom de famille. Bien entendu, cet indicateur de prosodie peut être quelconque et s'écrire par exemple [« Dupont »] pour un nom de famille.

Claims

REVENDICATIONS

1. Système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal (1 ), ledit serveur vocal comprenant un système (20) de reconnaissance vocal apte à reconnaître la prononciation du mot par l'utilisateur et à lui associer une étiquette textuelle, et un système (30) de synthèse de la parole apte à émettre ladite prononciation de confirmation à partir de ladite étiquette textuelle, caractérisé en ce que ladite étiquette textuelle est une étiquette textuelle phonétique (21 ) construite par concaténation des phonèmes de la prononciation reconnue par le système (20) de reconnaissance vocale.

2. Système selon la revendication 1 , caractérisé en ce qu'un indicateur de prosodie est associé à ladite étiquette textuelle phonétique (21 ).