CN1280782C - 给用户提供声音反馈的可扩展语音识别*** - Google Patents

给用户提供声音反馈的可扩展语音识别*** Download PDF

Info

Publication number
CN1280782C
CN1280782C CN200410087906.8A CN200410087906A CN1280782C CN 1280782 C CN1280782 C CN 1280782C CN 200410087906 A CN200410087906 A CN 200410087906A CN 1280782 C CN1280782 C CN 1280782C
Authority
CN
China
Prior art keywords
pronunciation
user
entry
speech recognition
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN200410087906.8A
Other languages
English (en)
Other versions
CN1604187A (zh
Inventor
学东·D黄
迈克尔·J·罗扎克
姜力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1604187A publication Critical patent/CN1604187A/zh
Application granted granted Critical
Publication of CN1280782C publication Critical patent/CN1280782C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一个语音识别***(36)时刻扩展的,新词条可以添加到由语音识别***(36)识别的词条清单(42)。该语音识别***(36)在新词条被添加时提供一个声音反馈以便用户能够听到***(36)期望该单词如何发音。然后用户可以接受这个发音或者提供自己的发音。用户还可以选择地改变一些单词的发音以便避免该***(36)的错误识别。该***(36)可以提供适当的用户界面元素用来使得用户改变单词的发音。***(36)还可以包括智能,用于根据经验地导出信息自动地改变在识别中使用的单词发音。

Description

给用户提供声音反馈的可扩展语音识别***
技术领域
本发明通常涉及到数据处理***,尤其是涉及到一种为用户提供声音反馈的可扩展语音识别***。
背景技术
语音识别***使得一个计算机***至少能够懂得输入到计算机***的选定的语音部分。一般来讲,语音识别***将输入的语音解析成可读取识别的部分。例如,输入的语音能够被解析到进一步处理的一些音素以便识别该语音的内容。典型地,一些语音识别***通过将输入语音中单词的发音与一些模式或者由语音识别***存储的样本比较来识别输入语音中的单词。这些样本是利用单词的语音学表示以及对于音素前后-依靠的样本来产生的。许多语音识别***包括一些语音识别***可识别词条的特定发音的字典。
语音识别***使用的一种场合是用在听写***中。这些听写***将输入的语音变换成文字。在这些听写***中,这些语音识别***用于确定输入语音中的单词,而这些听写***产生对应于这些确定单词的文字类型输出。遗憾地,这些听写***经常遇到来自某些用户输入的语音的较高等级的错误识别。使用在这种字典中的语音识别***对于每个单词有一种或者几种发音,但是这些单词的发音都是固定的并且代表该语音识别***期望要听到的发音。如果用户对一个单词使用一种不是该语音识别***期望的不同发音,则该语音识别***将经常错误地识别用户的输入。当一个词条具有多种适当的发音并且用户使用的是不能通过语音识别***变换的发音之一时,这个缺点特别使用户懊恼。
这种听写***的另一种局限是或者它们不能够扩展(即,用户不可以添加一个新的词条到字典中)或者它们允许一些新词条的添加但是不允许用户开发发音而产生新词条本身的发音。这样的***能够利用字母-到-声音启发式方法猜测新添加词条的发音。遗憾的是,这种启发式方法在许多例子中没有产生正确结果。通常,当一个用户添加一个新单词到一个听写***中使用的扩充字典时,用户仅仅输入了一个新单词而没有提供一个发音,但该语音识别***产生了一个新词条的发音。这个新发音可能是不正确的或者可能与用户期望的单词发音不对应。结果,相对于用户添加词条或者包括新添词条的语音输入,经常存在较高的错误识别。
发明内容
本发明克服了上面所描述已有技术的局限性。根据本发明的第一方面,一种方法由识别自讲话者输入的语音的计算机-执行的语音识别***来实施。根据这种方法,一种文字-到-语音的结构被提供用于创建一个文字的口语译文。利用这种文字-到-语音的结构产生一个给定单词的口语译文,并且这个给定单词口语译文在声音设备上输出以便语音识别***的用户知道该语音识别***期望一个给定单词将如何发音。该文字-到-语音的结构产生符合语音识别***期望听到给定单词发音的一个给定单词的发音。特别是,文字-到-语音的结构与给定语音识别***共享相同字母-到-声音的元素,以至于由该文字-到-语音的结构产生的给定单词口语译文与语音识别***期望听到的发音是完全相同的。
根据本发明的另一方面,这里提供由听写***识别的一些单词的发音清单。接受来自用户要将存储在列表清单中选定单词的现行发音改变成一个新发音的请求。响应该请求存储在列表清单中选定单词的发音变换成新的发音。
根据本发明的又一个方面,由计算机-执行的语音识别***实现了一种方法。提供一个语音识别***识别词条的字典,并且该字典确定语音识别***期望的每个词条如何发音。接受来自用户要添加一个新词条到字典中的请求并且该新词条的发音由语音识别***产生。利用文字-到-语音的结构(用语音识别***对信词条期望的发音作为输入),新词条的发音在一个声音输出设备上输出,并且该新的词条如产生的发音一样被添加到字典中。
再根据本发明的另一方面,对于一个选定单词的多种发音保存在一个语音识别***的字典中。对于选定词条的每个发音在声音输出设备上输出以便用户能够听到该发音。对应于用户选定的一种发音,该选定的发音由语音识别***利用去识别语音。
根据本发明的另一个方面,提供一个对每个词条具有发音的一些词条的字典。这些发音与语音识别***所期望这些词条将被如何发音相对应。在讲话者读出词条之一以便语音识别***识别该选定词条的一些例子中,用户所用选定词条的特定发音被确定。根据这种重复确定,该***识别用户最有可能使用的被选定单词的可替换的发音,并且更新该字典以便指定这个发音为语音识别***期望的发音。
再根据本发明的一方面,接受来自一个讲话者的已经给出发音词条的口语译文。提供一个对于该词条的期望发音。这个期望的发音对应于语音识别***期望讲话者如何读出该词条。将该词条的口语译文的给定发音与期望发音比较以便确定差别的等级。在差别等级超过可接受预定阈值的地方,在输出设备上产生的输出通知讲话者该差别等级超过了阈值。这个输出还可以包括文字-到-语音结构产生词条的期望发音。
根据本发明的一个附加方面,一个计算机-执行的语音识别***识别来自一个讲话者的口语语音。为一个给定单词提供一个期望的发音。该期望的发音构成语音识别***期望的一个给定词将如何由讲话者发音。统计是根据作为讲话者的口语的给定单词由语音识别***错误识别频率进行收集的。在统计显示出给定单词被较经常的错误识别超过一个阈值的情况下,显示设备上产生的输出促使用户去纠正给定单词的期望发音。
附图说明
将参照下面附图对本发明的一个最佳实施例进行更详细地描述。
图1是一个适合实现本发明最佳实施例的计算机***的方框图。
图2是一个图解说明语音识别***的部件的方框图。
图3是一个图解说明字典部分例子的视图。
图4是一个图解说明实现的步骤以便使用户改变字典中一个词条发音的流程图。
图5A-5D描述提供给用户来变换字典的词条发音的用户界面元素。
图6是说明添加一个新的词条到该字典中的实现步骤的流程。
图7A-7D图解说明提供给用户来添加一个具有给定发音的新词条到字典中的用户界面元素。
图8是一个图解说明没有交互的用户输入的替换存储在字典中的发音的步骤的流程。
具体实施方式
本发明最佳实施例为用户提供一种具有声音反馈的可扩展式的语音识别***,因此,当一个用户寻求添加一个单词或词条到由语音识别***使用的字典中时,用户被提供由声音反馈来识别该***如何确认该词条的发音。然后用户可以接受这个发音或者要求改变其发音。在一个替换的方法中,用户利用拼读该单词如何发音来确认其发音。在另一个替换的方法中,该***提供给用户该单词可替换的发音的清单并且用户来选择该单词。
本发明最佳实施例能使一个用户改变目前在字典中的任何单词的发音。此外,本发明最佳实施例使一个用户能够听到在字典中当前指定的一个单词的发音。该用户可以听到发音,然后如果需要的话可以改变该发音到一个可替换的发音。结果,用户大大地增强该语音识别***实现的词条识别的水平。
在另一种可替换方法中,该语音识别***所用的字典自动和明显地由该***来更新。该***处理一组发音数据以便在字典内为这些词条获得可替换的发音。当用户读出一个词条并且该词条被正确地识别出时,***识别该用户所读词条的那个替换发音。在一个固定数量的正确识别和比较之后,***获得一个用户正在读出的发音中的信任等级而改变该词典(包括以***的方式将在观察的入口中的变化向其他没有观察的入口中传播)以使用其发音以至于增强本***实现的识别等级。
下面将对应一个听写***描述本发明最佳实施例。在该听写***中,用户的讲话进入一语音输入装置,如一个话筒,以便输入所讲的文字。该听写***识别其讲话内容,并且生成一个相应的文字作为一个文件的一部分。那些技术上熟知的人们将认识到本发明还能够实际地交流而不只是一个听写***。本发明通常更多地应用于语音识别***。
图1是一个适合于实现本发明最佳实施例的计算机***10的方框图。该计算机***10包括一个能够访问主存贮器14和第二存贮器16的中央处理单元(CPU)12。第二存储器16可以包括一些可移动的媒体驱动器,如CD-ROM驱动器,它们能够读取存贮在一种计算机可读媒体(即CD-ROM)的信息。该计算机***10包括一些外设。这些外设可以包括,例如,一个键盘18,一个鼠标20,一个视频显示器22,一个扬声器24,以及一个语音话筒26。该计算机***可以附加地包括一个调制解调器28,一个声卡29和一个能够使计算机***与网络32接口的网络适配器30。存贮器14为该听写***34保存程序指令和数据。这些指令只在CPU12上运行以实现本发明最佳实施例。该听写***34可以使用应用程序35,如字处理程序和信息程序。该听写***包括一个语音识别***36。
那些技术上熟练的人们将认识到图1中所描述的计算机***结构仅仅是为了解释说明而本发明没有限制。本发明还可以用另一种替换的计算机***结构来实现,其包括多处理器***和分布***。为了下面讨论方便,假设本发明最佳实施例实现的步骤是在听写***34或语音辊***36的方向上。
一个适当的实现本发明最佳实施例的语音识别***描述在标题为“采用连续密度隐藏马尔可夫模式用于语音识别的方法和***”的专利申请中,申请号为No.08/655,273,其是在1996年5月1日申请的,它与本发明的申请指定给一个共同的受让人。图2描述对本发明最佳实施例的讨论特别感兴趣的话音识别***36的元件。语音识别***36包括一个利用字典42和字母-到-声音规则46的语音识别引擎40。该字典保存由语音识别引擎40来识别的词条清单和相关发音。图3描述字典42的一部分的一个例子。字典42中每个入口包括一个用于识别相关词条的字段50以及一个用于确定词条发音的字段52。图3显示对于词条“添加”的一个入口的例子。该词条的识别保存在字段54中而该词条的发音保存在字段56中。该字段的发音依靠音素***来确定。
语音识别***36还可以包括一个用于将文字变化成口语输出的文字-到-语音引擎44。文字-到-语音引擎44具有访问字典42和变换文字字符到相应声音的字符-到-声音的规则46的能力。文字-到-语音引擎44首先利用字典42定位发音,然后当要处理的字在字典中没有时再利用字符-到-语音规则46分类。那些技术上熟练的人将知道文字-到-语音引擎44不必是语音识别***的一部分,而可以是一个分开的语音合成单元的一部分。然而,为了下面描述方便,假设文字-到-语音引擎44是语音识别***36的一部分。一个适当的实现本发明最佳实施例的语音识别***描述在标题为“对于语音合成运行时间声学单位选择的方法和***”的相关专利申请中,申请号为No.08/648,808,其是在1996年4月30日申请的,它与本发明的申请指定给一个共同的受让人。那些技术上熟知的人还将认识到这种语音识别引擎40和文字-到-语音引擎可以有他们自己的字典与字母-到-声音的规则。
图4是一个流程图,它说明由该语音识别***36实现使一个用户能改变存贮在字典42中词条的发音的步骤。首先,用户需要听一个给定单词的发音(图4中的步骤60)。然后用户识别希望要听发音的词条(图4中步骤62)。图5A显示一个用户界面元素78的例子,该界面部件是在用户做出要听单词发音的请求时显示的。用户界面元素78包括一个对发声单词的可替换的清单80。在图5A显示的例子中,单词是按字母来安排的。用户可以通过移动清单选择所希望的单词。在图5A描述的例子中用户已经选择出现在选择框82“orange”的单词。然后用户通过激活按钮84听所选词的发音(图4中步骤64)。一种用于激活按钮84合适方法是定位一个鼠标光标在按钮84上并且当鼠标光标定位在按钮84上时单击一下鼠标按钮。
用户听到该单词的发音然后做出判断该发音是否正确。输出的发音是由语音识别***36使用的缺省发音。如果用户接受这个发音(参看图4中步骤66),用户可以激活“OK”按钮。另一方面,如果用户不喜欢用这个发音(看图4中步骤66),用户可以激活“改变”按钮87。在这种方式中,用户请求所选词条发音的改变(图4中步骤68)。
然后用户确定所选词条的新发音(图4中步骤68)。图5B显示由***为该词条提供的多个可替换发音的第一替换入口,而用户选择这些发音中的一个。尤其是,如图5B中所示,一个用户界面元素88提供给用户,即要求从清单90所列的发音中选择一个发音。用户可以通过激活“取消”按钮来取消改变发音的处理或者也可以选择清单90中发音之一并且单击“OK”按钮92以接受该选中的发音做为此词条的一个新的缺省发音。
那些技术上熟知的人认识到这可能是一些产生词条可替换发音的多种方法。***可以处理语言资料库以便为每个存贮在字典中词条产生多种发音。该***可以为每个采用不同发音的词条提供多种样板。再者,这些多种发音可以从用户已经输入到语音识别***36中的不同发音经验地推导出来。
第二种可替换描绘在图5C中。在这个第二可替换中,***不提供可替换的发音;而用户要输入一个替换的发音。一个如图5C中描述的用户界面元素96被显示,而用户在文字框内拼读出新的发音。用户无须为该发音输入音素而只是输入一个希望捕获单词发音的字母序列(即字符串)。例如,如果用户希望拼读出词“orange”的发音,用户可以输入字符串“ornj”。然后用户可以听到该***是如何翻译这个通过激活按钮100而输入在文字框98中的字符串。语音识别***36利用字母-到-声音的规则及字典处理输入在文字框98中的字符串。如果用户满意这个词条发音的输出结果,用户可以激活“OK”按钮102。如果希望不改变该发音,用户可以激活“取消”按钮104。如果用户不满意这个词条发音的输出结果但是希望试图输入另一个发音,用户在文字框98中键入替换的发音并且重复这个处理过程。
那些技术上熟知的人认识到其它的替换也可使用。例如,这些发音可以不做为可选字符串表示给用户(如在第一个可替换中),反而可以与特殊的用户界面元素有关,如一些用户可以激活按钮去听替换的发音。图5D显示一个按钮93被显示位置的例子,并且每个按钮可激活以便为一个单独的发音产生语音输出。
在用户已经确定接受新发音后(即,图4中步骤68),***需要相应地更新字典。具体地说,***用满足用户要求的新确定的发音代替该词条的发音(图4中步骤70)。再者,***能够以***的方式扩展特殊词条的变化到其它词条的变化。例如,如果一个用户发音“what”为“HH W AHT”,那么这个变化可以扩展到所有“wh”开始的词(例如,“where”和“which”)。那些技术上熟知的人们将认识到,在这些可替换的实施例中,字典可以保存多种发音以及具有一个单独发音作为缺省发音。在这种代替实施例中,发音的变化仅仅是一种由语音识别***36所用的缺省发音中的变化。
本发明最佳实施例的语音识别***是可扩展的,即在新词条可以加入字典中。图6是一个图解说明当用户希望添加新词条到字典中时执行步骤的流程图。首先用户请求添加一个新词条到字典中(图6中步骤110)。图7A显示一个用户界面结构的例子,该结构由听写***34提供以便使用户添加新词条到字典42中。图7A描述利用听写***34的应用程序的窗口26。窗口126包括一个在其上包含编辑菜单字头134的菜单框132。当用户定位鼠标光标在编辑(Edit)菜单字头134上并且按下鼠标按钮时,包括用于添加新词条到字典中的菜单项138的一个菜单136被拉出。用户可以通过定位鼠标的光标在项目138上并且释放鼠标按钮或在该项目上单击。窗口126保存文字126,该文字是通过利用语音识别***36的听写***34通过翻译用户经话筒26读出的输入而产生的。当时的指示位置表示在图7A中。
在用户选择一个菜单项入口138后,一个如图7B中所示的对话框140被显示出。这个对话框140要求用户输入他希望添加到字典的词条的字符。字符框142提供在对话框140内。在用户输入字符后,用户可以通过单击“OK”按钮144继续添加新词条的处理或者通过单击“取消”按纽146终止这个处理。所以,用户为该词条提供的字符被添加到字典中(图6中的步骤112)。听写***34在语音识别***36上传递该文字字符。语音识别***提供该字符给字典42和字母-到-声音的规则46以便产生新词条的发音(图6中的步骤114)。然后,生成的发音通过声音扬声器24输出给用户(图6中116步骤)以至于用户能够知道语音识别***36期望的词条要如何正确发音。然后如图7C中所示的用户界面元素150可以显示以使得用户接受或者拒绝这个发音。如图7C中所示例子,用户界面元素150询问用户是否接受该新词条的发音并且该界面包括一个用来接受发音的“是(Yes)”按钮152,一个用来拒绝该发音的“否(No)”按钮154和一个用来对新词条发音产生声音输出的声音输出按钮153。通过激活这些按钮,用户接受或拒绝由字符-到-语音引擎44产生的发音(图6中步骤118)。
在用户接受该发音的时,该词条和相应的发音被添加到字典42中(图6中步骤120)。这个相应的发音将在以后的拼读词条的识别中使用。然而,如果用户不接受该发音,***则提示该发音给用户(图6中步骤122)。语音识别***136实现由词典42产生的发音以及用户没有接受的字符-到-声音的规则,因此,要求用户为这个单词产生一个发音的表示。语音识别***36显示一个如图7D中描绘的对话框160以请求用户输入新词条的发音。对话框160包括一个用户可以键入新词条应如何发音的字符串的文字框162。用户输入文字到文字框162后,用户可以激活按钮164来听一下***如果翻译输入到文字框中的文字。具体地说,***产生的输入到文字框162中的发音表示在扬声器24输出。一旦用户已经输入一个产生可接受发音的字符串,用户可以通过激活“OK”按钮166改变这个发音。用户也可以通过激活“取消”按钮按钮168取消该发音的改变。一般来讲,***将提示该发音给用户(步骤122),接受由用户输入的发音(步骤124)以及输出该用户已接受的发音直到用户接受最终结果的发音。代替地,***可以将用户新加入的发音与当前的发音比较,并且如果足够接近则不再提示给用户接受或者拒绝。
该***也可以在没有明确的用户请求下明显地更新字典42中保存的发音。这种结构可以独立于上述的用户初始逼近使用,以更新保存在字典42中的发音或者与该近似一起可以使用。初始地,该***被提供有发音数据的语言资料库,以及该***应用一种如分类的算法和回归树(“CART(计算机自动化评价技术)”)算法来导出相关词条的可替换的发音(图8中步骤170)。CART算法,在本技术领域上是大家非常熟悉的并且描述在包括Breiman等人出版的大量出版物中,1984年的《类骤与回归树》。那些技术上熟知的人将认识到其它启发式的研究也可以应用于导出这个发音。这个推导出的发音为以后的使用保存起来。当一个用户读出一个词条而该词条被识别时,***将用户读出的词条与保存词条的可替换发音比较(图8中步骤172)。这个过程被重复(参考图8中返回到步骤172)执行直到***确信其能够肯定是用户使用的可替换发音(参看图8中步骤174)。例如,在***达到足够可信的水平之前,***要求对于接收到的可替换发音中的一个有一定量的命中以至于确定该发音为用户所使用的发音。语音识别***36然后改变字典42以便使用用户感兴趣的发音(即***确定为用户所用的发音)(图8中步骤176)。
虽然本发明最佳实施例已参考最佳实施例描述了,但是那些熟知此技术的人们应认识到在形式和细节上所能够做出的各种改变并没有脱离本发明权利要求所限定的范围。
尽管本发明已该参照最佳实施例描述过,但是那些技术上熟知的人们应认识到在没有脱离本发明的精神和范围的情况下是能够做出形式或细节上的改变的。

Claims (21)

1.在一个用于将来自讲话者的语音输入变换成文字的计算机-执行的听写***中使用的一种方法,该方法包括步骤:
为听写***识别的单词提供一个发音清单;
提供存储在该清单中的一个被选择单词的可听的当前发音;
接受来自用户的一个请求以便将存储在所述清单中选定单词的现行发音改编成一个新的发音,所述请求指定新的发音;以及
为选定单词改变存储在清单中的发音,从现行发音改变成新的发音。
2.根据权利要求1所述的方法,其特征在于还包括提供一个用户界面的步骤,通过该界面用户做出请求以改变选定单词的现行发音。
3.根据权利要求2所述的方法,其特征在于用户界面使得一个用户用字母拼读出选定单词的新发音。
4.根据权利要求1所述的方法,所述听写***具有一个声音输出设备,其特征在于所述方法还包括在接受请求之前输出选定单词的现行发音的步骤。
5.根据权利要求1所述的方法,其特征在于所述听写***包括一个声音输出设备,以及接受请求步骤还包括一些步骤:
接受一个字符串,该字符串说明用户所相信的选定单词发声的新发音;
提供一个用户界面元素,用于使用户听到所述听写***预想的所述字符串是如何发音的;
提供一个文字-到-语音引擎用于将文字变换成具有相关发音的语音;
响应使用该用户界面元素的用户,利用所述文字-到-语音引擎为字符串在声音输出设备上输出语音;以及
响应接受由所述文字-到-语音引擎为作为所述选定单词的一个正确发音的字符串所产生的语音的用户,产生一请求。
6.根据权利要求5所述的方法,其特征在于还包括为了用户提供一个附加用户界面元素以接受或者拒绝由所述文字-到-语音引擎输出的相关语音的发音的步骤。
7.在一个识别来自讲话者的语音输入以及包括一个声音输出设备的计算机-执行的语音识别***中使用的方法,该方法包括步骤:
提供一个所述语音识别***识别词条的字典,所述字典指定语音识别***期望的每个词条如何发音;
接受来自用户的一个请求以添加一个新词条到所述字典中;
由所述语音识别***为新词条产生一个发音;
在声音输出设备上为新词条输出所述发音以致用户可以监视并改变新词条的发音;以及
向字典添加所述新词条和产生的发音。
8.根据权利要求7所述的方法,其特征在于所述语音识别***包括一个用于变换文字到语音的文字-到-语音引擎,以及所述文字-到-语音引擎用来输出所述新词条的发音。
9.根据权利要求8所述的方法,其特征在于所述文字-到-语音引擎利用字母-到-声音的规则产生所述新词条的发音。
10.根据权利要求7所述的方法,其特征在于所述方法还包括提示用户检验产生的新词条发音正确的步骤。
11.根据权利要求10所述的方法,其特征在于当用户检验产生的新词条发音不正确时,接受来自用户的一个新词条的正确发音的指定并且添加所述正确发音到字典中。
12.在一个识别来自讲话者的口语语音的计算机-执行的语音识别***中使用的一种方法,所述***包括一个声音输出设备和一个用于从文字产生语音的一文字-到-语音引擎,该方法包括步骤:
将选定单词的多种发音存储在由文字-到-语音引擎使用的字典中;
在声音输出设备上输出每个发音以便用户能够听到这些发音;以及
响应选定的发音中的一个的用户,使用由语音识别***选定的发音去确认语音。
13.根据权利要求12所述的方法,其特征在于所述语音识别***是用在一个将讲话者口语语音变换成文字的听写***中。
14.在一个识别来自讲话者的口语语音的计算机-执行的语音识别***中的一种方法,该方法包括步骤:
为对应于所述语音识别***期望词条如何发音的词条提供一个具有发音的词条的字典;
进行试探以便引出所述词条的可替换的发音;
在讲话者读出词条之一以便语音识别***识别该选定词条的多个例子中,确定用户所用选定词条的可替换发音的哪一个发音;以及
根据这个确定步骤,确定用户最可能使用的选定单词的可替换发音中的哪一个,并更新字典以便指定这个用户最可能使用的发音为语音识别***期望的被选择词条的发音。
15.根据权利要求14所述的方法,其特征在于CART算法被应用于导出所述可替换发音。
16.在一个识别来自讲话者的口语语音的计算机-执行的语音识别***中使用的方法,所述***具有一个输出设备,该方法包括步骤:
从讲话者接受一个具有给定发音的词条的口语译本;
为与语音识别***期望讲话者讲出的词条相对应的词条提供一个期望的发音;
将所述词条口语译本的给定发音与期望所述词条的发音比较,以便确定所述词条口语译本的给定发音和所述词条的期望发音之间的差别等级;以及
在差别的等级超过一个可接受的预定阈值时,在输出设备上产生输出以便通知讲话者差别等级超过阈值。
17.根据权利要求16所述的方法,其特征在于语音识别***被用在字典***中以便从语音生成文字。
18.根据权利要求16所述的方法,其特征在于输出装置是一音频输出装置,并且该输出是音频输出。
19.根据权利要求16所述的方法,其特征在于输出装置是一视频输出装置,并且该输出是视频输出。
20.根据权利要求16所述的方法,其特征在于***包括文本-到-语音结构,其中文字-到-语音结构生成词条的发音版本。
21.在一个识别来自讲话者的语音输入的计算机-执行的语音识别***中使用的一种方法,所述***具有一个显示设备,该方法包括步骤:
提供一个给定单词的期望发音,其构成语音识别***期望讲话者对该给定单词的发音;
搜集关于来自讲话者口语语音的给定单词被所述语音识别***错误识别的频率的统计数;以及
在所述统计数表示给定单词被错误识别比一个阈值更频繁时,通过在显示设备上产生输出提示用户,通过一用户界面元素指示用户可以请求不同的发音,以便纠正给定单词的期望发音,由用户界面元素输出具有正确的期望的发音的给定单词的口语译本。
CN200410087906.8A 1997-04-10 1998-04-08 给用户提供声音反馈的可扩展语音识别*** Expired - Lifetime CN1280782C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/833,916 1997-04-10
US08/833,916 US5933804A (en) 1997-04-10 1997-04-10 Extensible speech recognition system that provides a user with audio feedback

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN98806081.7A Division CN1196105C (zh) 1997-04-10 1998-04-08 给用户提供声音反馈的可扩展语音识别***

Publications (2)

Publication Number Publication Date
CN1604187A CN1604187A (zh) 2005-04-06
CN1280782C true CN1280782C (zh) 2006-10-18

Family

ID=25265611

Family Applications (2)

Application Number Title Priority Date Filing Date
CN98806081.7A Expired - Lifetime CN1196105C (zh) 1997-04-10 1998-04-08 给用户提供声音反馈的可扩展语音识别***
CN200410087906.8A Expired - Lifetime CN1280782C (zh) 1997-04-10 1998-04-08 给用户提供声音反馈的可扩展语音识别***

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN98806081.7A Expired - Lifetime CN1196105C (zh) 1997-04-10 1998-04-08 给用户提供声音反馈的可扩展语音识别***

Country Status (6)

Country Link
US (1) US5933804A (zh)
EP (2) EP0974141B1 (zh)
JP (1) JP4570176B2 (zh)
CN (2) CN1196105C (zh)
DE (2) DE69834553T2 (zh)
WO (1) WO1998045834A1 (zh)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2219008C (en) * 1997-10-21 2002-11-19 Bell Canada A method and apparatus for improving the utility of speech recognition
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6462616B1 (en) 1998-09-24 2002-10-08 Ericsson Inc. Embedded phonetic support and TTS play button in a contacts database
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6324507B1 (en) 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
EP1074973B1 (en) * 1999-06-30 2006-03-15 International Business Machines Corporation Method of expanding a vocabulary of a speech system
ATE320650T1 (de) 1999-06-30 2006-04-15 Ibm Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems
US7149690B2 (en) * 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
US7107215B2 (en) * 2001-04-16 2006-09-12 Sakhr Software Company Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
DE10119677A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren zum Ermitteln von Datenbankeinträgen
US7493559B1 (en) * 2002-01-09 2009-02-17 Ricoh Co., Ltd. System and method for direct multi-modal annotation of objects
KR100467590B1 (ko) * 2002-06-28 2005-01-24 삼성전자주식회사 발음 사전 갱신 장치 및 방법
DE10304229A1 (de) * 2003-01-28 2004-08-05 Deutsche Telekom Ag Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten
WO2005027093A1 (en) * 2003-09-11 2005-03-24 Voice Signal Technologies, Inc. Generation of an alternative pronunciation
US20050114131A1 (en) * 2003-11-24 2005-05-26 Kirill Stoimenov Apparatus and method for voice-tagging lexicon
US7340395B2 (en) * 2004-04-23 2008-03-04 Sap Aktiengesellschaft Multiple speech recognition engines
US20050273337A1 (en) * 2004-06-02 2005-12-08 Adoram Erell Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8719021B2 (en) * 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
US20080104537A1 (en) * 2006-10-30 2008-05-01 Sherryl Lee Lorraine Scott Method of improved viewing of visual objects on a display, and handheld electronic device
WO2008096310A1 (en) * 2007-02-06 2008-08-14 Nuance Communications Austria Gmbh Method and system for creating or updating entries in a speech recognition lexicon
US8484034B2 (en) * 2008-03-31 2013-07-09 Avaya Inc. Arrangement for creating and using a phonetic-alphabet representation of a name of a party to a call
US9202460B2 (en) * 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
US9077933B2 (en) 2008-05-14 2015-07-07 At&T Intellectual Property I, L.P. Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system
US8160881B2 (en) * 2008-12-15 2012-04-17 Microsoft Corporation Human-assisted pronunciation generation
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法
CN101739459A (zh) * 2009-12-21 2010-06-16 中兴通讯股份有限公司 一种移动终端的词库添加方法和移动终端
US9640175B2 (en) 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
KR101179915B1 (ko) 2011-12-29 2012-09-06 주식회사 예스피치 통계적 언어 모델이 적용된 음성인식 시스템의 발화 데이터 정제 장치 및 방법
US9721587B2 (en) * 2013-01-24 2017-08-01 Microsoft Technology Licensing, Llc Visual feedback for speech recognition system
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
GB2524222B (en) * 2013-12-18 2018-07-18 Cirrus Logic Int Semiconductor Ltd Activating speech processing
US20150310851A1 (en) * 2014-04-24 2015-10-29 Ford Global Technologies, Llc Method and Apparatus for Extra-Vehicular Voice Recognition Training Including Vehicular Updating
US9613140B2 (en) * 2014-05-16 2017-04-04 International Business Machines Corporation Real-time audio dictionary updating system
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN104598791A (zh) * 2014-11-29 2015-05-06 深圳市金立通信设备有限公司 一种语音解锁方法
CN104505089B (zh) * 2014-12-17 2018-05-18 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
US10706210B2 (en) * 2016-08-31 2020-07-07 Nuance Communications, Inc. User interface for dictation application employing automatic speech recognition
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN109635096B (zh) * 2018-12-20 2020-12-25 广东小天才科技有限公司 一种听写提示方法及电子设备
CN111081084B (zh) * 2019-07-11 2021-11-26 广东小天才科技有限公司 一种听写内容的播报方法及电子设备
US11676572B2 (en) * 2021-03-03 2023-06-13 Google Llc Instantaneous learning in text-to-speech during dialog

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4516260A (en) * 1978-04-28 1985-05-07 Texas Instruments Incorporated Electronic learning aid or game having synthesized speech
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4749353A (en) * 1982-05-13 1988-06-07 Texas Instruments Incorporated Talking electronic learning aid for improvement of spelling with operator-controlled word list
JPS6221199A (ja) * 1985-07-22 1987-01-29 株式会社東芝 音声認識装置
JPS6287994A (ja) * 1985-10-14 1987-04-22 株式会社リコー 音声認識辞書更新方式
JPS63281196A (ja) * 1987-05-14 1988-11-17 沖電気工業株式会社 音声認識装置
GB8817705D0 (en) * 1988-07-25 1988-09-01 British Telecomm Optical communications system
JPH0778183A (ja) * 1993-06-25 1995-03-20 Ricoh Co Ltd デ−タベ−ス検索システム
US5623578A (en) * 1993-10-28 1997-04-22 Lucent Technologies Inc. Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words
JPH07306851A (ja) * 1994-05-12 1995-11-21 Ricoh Co Ltd 発音記号編集装置
US5681108A (en) * 1995-06-28 1997-10-28 Miller; Alan Golf scorekeeping system
US5737487A (en) * 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
JPH09292255A (ja) * 1996-04-26 1997-11-11 Pioneer Electron Corp ナビゲーション方法及び装置

Also Published As

Publication number Publication date
DE69834553T2 (de) 2007-04-26
CN1264468A (zh) 2000-08-23
JP2002511154A (ja) 2002-04-09
WO1998045834A1 (en) 1998-10-15
JP4570176B2 (ja) 2010-10-27
EP0974141A1 (en) 2000-01-26
EP1693827B1 (en) 2011-03-16
CN1604187A (zh) 2005-04-06
EP1693827A3 (en) 2007-05-30
US5933804A (en) 1999-08-03
EP0974141B1 (en) 2006-05-17
DE69842190D1 (de) 2011-04-28
CN1196105C (zh) 2005-04-06
DE69834553D1 (de) 2006-06-22
EP1693827A2 (en) 2006-08-23

Similar Documents

Publication Publication Date Title
CN1280782C (zh) 给用户提供声音反馈的可扩展语音识别***
US6366882B1 (en) Apparatus for converting speech to text
US6424943B1 (en) Non-interactive enrollment in speech recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US7680658B2 (en) Method and apparatus for speech recognition
US9640175B2 (en) Pronunciation learning from user correction
US7630878B2 (en) Speech recognition with language-dependent model vectors
US6529866B1 (en) Speech recognition system and associated methods
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
Rudnicky et al. Survey of current speech technology
Gardner-Bonneau et al. Human factors and voice interactive systems
GB2323694A (en) Adaptation in speech to text conversion
WO2007118020A2 (en) Method and system for managing pronunciation dictionaries in a speech application
JP2002014692A (ja) 音響モデル作成装置及びその方法
Fendji et al. Automatic speech recognition using limited vocabulary: A survey
US6591236B2 (en) Method and system for determining available and alternative speech commands
CA2417926C (en) Method of and system for improving accuracy in a speech recognition system
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
JP2002062891A (ja) 音素割当て方法
Imperl et al. Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones
Sharman Speech interfaces for computer systems: Problems and potential
Khan Speech Features Analysis of the Joint Speech Separation and Automatic Speech Recognition Model
Ellis Speech separation in humans and machines

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150430

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150430

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington, USA

Patentee before: Microsoft Corp.

CX01 Expiry of patent term

Granted publication date: 20061018

CX01 Expiry of patent term