EP2002423A1 - Systeme de mise en coherence de prononciations - Google Patents

Systeme de mise en coherence de prononciations

Info

Publication number
EP2002423A1
EP2002423A1 EP07731844A EP07731844A EP2002423A1 EP 2002423 A1 EP2002423 A1 EP 2002423A1 EP 07731844 A EP07731844 A EP 07731844A EP 07731844 A EP07731844 A EP 07731844A EP 2002423 A1 EP2002423 A1 EP 2002423A1
Authority
EP
European Patent Office
Prior art keywords
pronunciation
voice
word
user
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP07731844A
Other languages
German (de)
English (en)
Inventor
Laurence Ferrieux
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP2002423A1 publication Critical patent/EP2002423A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the phonetizer 10 generates a single pronunciation d_y_r_an for the name "Durand” which has no pronunciation variant and the two pronunciation variants fl_ei_ch_ei and fl_ei_ch_ai_r of "Arrow".

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal (1), ledit serveur vocal comprenant un système (20) de reconnaissance vocal apte à reconnaître la prononciation du mot par l'utilisateur et à lui associer une étiquette textuelle, et un système (30) de synthèse de la parole apte à émettre ladite prononciation de confirmation à partir de ladite étiquette textuelle. Selon l'invention, ladite étiquette textuelle est une étiquette textuelle phonétique (21) construite par concaténation des phonèmes de la prononciation reconnue par le système (20) de reconnaissance vocale. Application aux services vocaux mettant en oevre des variantes de prononciations de mots.

Description

SYSTEME DE MISE EN COHERENCE DE PRONONCIATIONS
La présente invention concerne un système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal.
L'invention trouve une application particulièrement avantageuse dans le domaine des systèmes vocaux interactifs utilisant la reconnaissance vocale et la synthèse de la parole, notamment dans le cadre des applications mettant en œuvre la reconnaissance vocale pour les noms propres, tels que les noms de famille d'un annuaire et les contacts d'un répertoire, ou encore les noms de lieux dans les systèmes de reconnaissance de localisation. Ces systèmes de services vocaux interactifs utilisent généralement un moteur de reconnaissance vocale pour reconnaître ce que dit l'utilisateur lorsqu'il prononce un mot, un nom propre par exemple, et un moteur de synthèse de la parole pour émettre à destination de l'utilisateur une prononciation censée confirmer celle émise par l'utilisateur dans sa demande. Cette prononciation de confirmation est établie par le système de synthèse de la parole à partir d'une étiquette textuelle fournie par le système de reconnaissance vocale. Plus précisément, on entend par étiquette un identificateur de ce qui a été reconnu par le système de reconnaissance vocale. Dans la plupart des systèmes vocaux existants, les systèmes de reconnaissance vocale utilisés sont capables de prendre en compte plusieurs variantes de prononciation d'un même mot. Pour les noms propres, le nombre de variantes de prononciation calculées automatiquement par un phonétiseur à partir d'une même forme orthographique est souvent importante puisque la prononciation de ces noms est davantage affectée par les particularités régionales ou par la langue d'origine du nom que pour les nom communs. Les différences entre deux prononciations d'un même nom peuvent donc être significatives. Ainsi par exemple, pour le nom propre « Flécher », le phonétiseur peut établir de manière automatique deux prononciations associées, à savoir fl_ei_ch_ei et fl_ei_ch_ai_r.
Par contre, le système de synthèse de la parole ne fournit qu'une prononciation unique pour chaque nom à partir d'une seule étiquette textuelle.
Dans l'exemple précédent, l'étiquette textuelle associée au nom « Flécher » est « flécher » que le système de synthèse de la parole prononce fl_ei_ch_ei de manière unique.
On comprend que dans un système vocal mettant en œuvre des noms propres, il existe un risque important d'incohérence entre la prononciation de l'utilisateur et celle restituée par le système de synthèse de la parole. Cet écart est une source de difficultés lors du déroulement d'un dialogue homme- machines dans le contexte, par exemple, d'un annuaire ou d'une liste de contacts dans un répertoire. Ces difficultés peuvent être illustrées de la façon suivante. Imaginons qu'un utilisateur s'adresse à un serveur d'annuaire vocal pour obtenir le numéro de téléphone d'une personne dont le nom de famille est « Flécher » en prononçant ce nom fl_ei_ch_ai_r. Le système de reconnaissance vocal, dont on rappelle qu'il est capable de prendre en compte les variantes de prononciation d'un même nom, repère qu'il s'agit du nom « Flécher » et fournit au système de synthèse de la parole l'étiquette textuelle unique « flécher », laquelle est prononcé de manière unique sous la forme fl_ei_ch_ei. Il en résulte finalement qu'à sa demande prononcée fl_ei_ch_ai_r, l'utilisateur se voit répondre une confirmation prononcée fl_ei_ch_ei par le serveur. Devant une telle situation d'incompréhension apparente l'utilisateur renonce généralement à sa demande.
Pour résoudre cette difficulté, on pourrait utiliser comme approche permettant d'obtenir une meilleure cohérence entre les prononciations de transformer les noms ayant plusieurs variantes de prononciation en autant d'entrées distinctes avec des étiquettes textuelles ayant des orthographes donnant des prononciations non ambiguës. Dans l'exemple précédent, le nom « Flécher » serait associé à une première étiquette « fléché » prononcée fl_ei_ch_ei par le système de synthèse de la parole et une seconde étiquette « fléchaire » qui serait prononcée fl_ei_ch_ai_r.
Cependant, une telle approche ne permettrait pas au système de tirer directement profit des variantes générées automatiquement par le phonétiseur car il faudrait intervenir manuellement au cas par cas pour modifier les entrées et les étiquettes textuelles associées, ce qui n'est pas envisageable pour des applications à grands vocabulaires comme un annuaire national qui compte plusieurs millions d'entrées.
Aussi, le problème technique à résoudre par l'objet de la présente invention est de proposer un système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal, ledit serveur vocal comprenant un système de reconnaissance vocal apte à reconnaître la prononciation du mot par l'utilisateur et à lui associer une étiquette textuelle, et un système de synthèse de la parole apte à émettre ladite prononciation de confirmation à partir de ladite étiquette textuelle, qui permettrait de résoudre les difficultés mentionnées plus haut relatives aux incohérences pouvant se produire lors de dialogues entre un utilisateur et le serveur impliquant des noms propres à variantes de prononciation, tout en préservant les avantages de la génération automatique de ces variantes par le phonétiseur.
La solution au problème technique posé consiste, selon la présente invention, en ce que ladite étiquette textuelle est une étiquette textuelle phonétique construite par concaténation des phonèmes de la prononciation reconnue par le système de reconnaissance vocale. Ainsi, comme on le verra en détail plus loin, la cohérence est maintenue entre les mécanismes de reconnaissance et de synthèse en utilisant la transcription phonétique des variantes de prononciation générées automatiquement par l'outil de phonétisation des mots, ou phonétiseur. Cette approche ne nécessite donc pas de gérer manuellement des correspondances pseudo-orthographiques, c'est à dire des orthographes de mots conduisant à une prononciation unique, permettant de lever l'ambiguïté.
Le procédé conforme à l'invention a donc pour effet d'associer au résultat de la reconnaissance une étiquette correspondant à la concaténation des phonèmes de la variante reconnue. Dans l'exemple précité, à la variante de prononciation reconnue fl_ei_ch_ai_r le système associe l'étiquette textuelle phonétique « fl_ei_ch_ai_r » ou « fleichair » qui sera prononcée correctement fl_ei_ch_ai_r par le système de synthèse de la parole dans son message de confirmation.
Avantageusement, l'invention prévoit qu'un indicateur de prosodie est associé à ladite étiquette textuelle phonétique.
Cette disposition permet de conserver la prosodie calculée automatiquement par le système pour une phrase complète dans laquelle vient s'insérer le mot résultat. Par exemple, les noms propres ont tendance à être prononcés en baissant la voix en finale, contrairement aux noms communs.
Le fait d'entendre le système reformuler le nom en utilisant la même variante de prononciation que l'utilisateur limite le risque de voir ce dernier refuser la bonne solution simplement à cause d'une prononciation qu'il ne reconnaît pas.
Pour l'utilisation du mot reconnu dans d'autres actions du système, recherche dans une base de données par exemple, une table maintient la correspondance entre l'orthographe du mot et les chaînes de phonèmes correspondant aux variantes.
La description qui va suivre en regard du dessin annexé, donné à titre d'exemple non limitatif, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée.
La figure 1 est un schéma d'un système de service vocal mettant en oeuvre le système de mise en cohérence conforme à l'invention.
Sur la figure 1 est représenté un serveur vocal 1 associé à un service vocal d'annuaire téléphonique ou de répertoire, par exemple.
A partir d'une liste 2 contenant des noms propres en mode textuel, tels que les noms de famille d'un annuaire ou des contacts d'un répertoire, un phonétiseur 10 génère automatiquement les prononciations possibles pour les mots. S'agissant plus particulièrement des noms propres, le phonétiseur 10 fournit un nombre important de variantes qui peuvent être liées à l'origine régionale ou étrangère des mots, ou plus simplement à une ambiguïté des règles de prononciation non levée par l'usage.
Au moment de la génération du modèle de reconnaissance, le système fournit autant d'entrées qu'il y a de variantes importantes. Deux entrées divergeant par un « e muet » ne seront pas nécessairement considérées comme deux variantes différentes et peuvent être regroupées sous une seule étiquette textuelle, par convention sans « e muet ».
Dans l'exemple montré à la figure 1 , le phonétiseur 10 génère une seule prononciation d_y_r_an pour le nom « Durand » qui n'a pas de variante de prononciation et les deux variantes de prononciation fl_ei_ch_ei et fl_ei_ch_ai_r de « Flécher ».
Lorsque l'utilisateur prononce le nom qu'il recherche, ici le nom
« Flécher » prononcé « Fléchair », soit phonétiquement fl_ei_ch_ai_r, le système 20 de reconnaissance vocale reconnaît cette variante de prononciation et transmet au système 30 de synthèse de la parole une étiquette textuelle phonétique 21 correspondant à la liste des phonèmes reconnus qui peut s'écrire « fl_ei_ch_ai_r » ou « fleichair ».
Le système 30 de synthèse de la parole émet un message de confirmation dans lequel le nom demandé est correctement prononcé fl_ei_ch_ai_r , conformément à la prononciation initiale de l'utilisateur. Le message de confirmation peut être un message construit entièrement par synthèse ou un message en mode mixte combinant des segments enregistrés, comme « Avez-vous dit », et des segments de synthèse, comme le nom reconnu. De manière à assurer la génération d'une prosodie correcte de la phrase par le système 30 de synthèse, un indicateur de prosodie est associé à la liste des phonèmes afin d'indiquer qu'il s'agit d'un nom de famille et qu'il doit être prononcé en tant que tel.
Sur la figure 1 , on peut voir que l'étiquette textuelle phonétique 21 est accompagné de l'indicateur [Nfam] précisant que la liste des phonèmes associée, à savoir ici fl_ei_ch_ai_r , doit être prononcé comme un nom de famille. Bien entendu, cet indicateur de prosodie peut être quelconque et s'écrire par exemple [« Dupont »] pour un nom de famille.

Claims

REVENDICATIONS
1. Système de mise en cohérence entre une prononciation d'un mot par un utilisateur et une prononciation de confirmation émise par un serveur vocal (1 ), ledit serveur vocal comprenant un système (20) de reconnaissance vocal apte à reconnaître la prononciation du mot par l'utilisateur et à lui associer une étiquette textuelle, et un système (30) de synthèse de la parole apte à émettre ladite prononciation de confirmation à partir de ladite étiquette textuelle, caractérisé en ce que ladite étiquette textuelle est une étiquette textuelle phonétique (21 ) construite par concaténation des phonèmes de la prononciation reconnue par le système (20) de reconnaissance vocale.
2. Système selon la revendication 1 , caractérisé en ce qu'un indicateur de prosodie est associé à ladite étiquette textuelle phonétique (21 ).
EP07731844A 2006-03-29 2007-03-29 Systeme de mise en coherence de prononciations Withdrawn EP2002423A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0651085 2006-03-29
PCT/FR2007/051040 WO2007110553A1 (fr) 2006-03-29 2007-03-29 Systeme de mise en coherence de prononciations

Publications (1)

Publication Number Publication Date
EP2002423A1 true EP2002423A1 (fr) 2008-12-17

Family

ID=36847646

Family Applications (1)

Application Number Title Priority Date Filing Date
EP07731844A Withdrawn EP2002423A1 (fr) 2006-03-29 2007-03-29 Systeme de mise en coherence de prononciations

Country Status (3)

Country Link
US (1) US20100049518A1 (fr)
EP (1) EP2002423A1 (fr)
WO (1) WO2007110553A1 (fr)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
EP2642482A1 (fr) * 2012-03-23 2013-09-25 Tata Consultancy Services Limited Procédé et système de traitement de la parole adaptés à la prononciation des locuteurs étrangers
GB201320334D0 (en) * 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
US10102852B2 (en) * 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
CN108288470B (zh) * 2017-01-10 2021-12-21 富士通株式会社 基于声纹的身份验证方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001024139A1 (fr) * 1999-09-27 2001-04-05 Kojima Co., Ltd. Systeme d'evaluation de la prononciation
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
EP1215661A1 (fr) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Appareil portable à reconnaissance de la parole
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
US7099828B2 (en) * 2001-11-07 2006-08-29 International Business Machines Corporation Method and apparatus for word pronunciation composition
US20050273337A1 (en) * 2004-06-02 2005-12-08 Adoram Erell Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2007110553A1 *

Also Published As

Publication number Publication date
US20100049518A1 (en) 2010-02-25
WO2007110553A1 (fr) 2007-10-04

Similar Documents

Publication Publication Date Title
EP2002423A1 (fr) Systeme de mise en coherence de prononciations
US7490039B1 (en) Text to speech system and method having interactive spelling capabilities
EP2453436A3 (fr) Mise à jour automatique de modèle de langage
US20120016674A1 (en) Modification of Speech Quality in Conversations Over Voice Channels
WO2006023631A3 (fr) Adaptation d'un systeme de transcription de documents
US20130080384A1 (en) Systems and methods for extracting and processing intelligent structured data from media files
Crocco Is Italian Clitic Right Dislocation grammaticalised? A prosodic analysis of yes/no questions and statements
Falk On the notion of salience in spoken discourse-prominence cues shaping discourse structure and comprehension
Bigi et al. Orthographic Transcription: which Enrichment is required for phonetization?
KR20190032557A (ko) 음성 기반 통신
Cardona Indian linguistics
Goad et al. Articles in Turkish/English interlanguage revisited
Tang et al. Aspects of Cantonese grammar
Reichl et al. Language modeling for content extraction in human-computer dialogues
Stromberg Observations on inner-scriptural scribal expansion in MT Ezekiel
Ward The relationship between sound and meaning in Japanese back-channel grunts
Eklund A comparative study of disfluencies in four Swedish travel dialogue corpora
Zainkó et al. A polyglot domain optimised text-to-speech system for railway station announcements
Chineze et al. Linguistic variation and change in Nawfija speech community
Tomokiyo Linguistic properties of non-native speech
Idiatov Word-final consonant epenthesis in Northeastern Nigerian English
Caspers Pitch accents, boundary tones and turn-taking in dutch map task dialogues
Fosler-Lussier et al. The buckeye corpus of speech: updates and enhancements.
Sahkai Expression of narrow focus in spontaneous Estonian dialogues
Côté Edge effects and the prosodic hierarchy: Evidence from stops and affricates in Basque

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20081014

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC MT NL PL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20110119

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20121002