CN1211779C - 语音识别***中确定非目标语言的方法和装置 - Google Patents

语音识别***中确定非目标语言的方法和装置 Download PDF

Info

Publication number
CN1211779C
CN1211779C CN01116330.5A CN01116330A CN1211779C CN 1211779 C CN1211779 C CN 1211779C CN 01116330 A CN01116330 A CN 01116330A CN 1211779 C CN1211779 C CN 1211779C
Authority
CN
China
Prior art keywords
target language
scoring
model
language
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN01116330.5A
Other languages
English (en)
Other versions
CN1317783A (zh
Inventor
J·纳维拉蒂
M·维斯沃纳塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1317783A publication Critical patent/CN1317783A/zh
Application granted granted Critical
Publication of CN1211779C publication Critical patent/CN1211779C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

公开了用置信评分检测音频转换或语音识别***中非目标语言的引用的方法和装置。该置信评分可根据(i)由语音识别***提供的引擎概率评分,(ii)背景模型的附加评分或(iii)前述的综合。引擎评分可与背景模型评分相结合以便为非目标语言标准化引擎评分。当置信评分低于预定的标准时本发明标识音频流中的非目标语言表达。当发现非目标语言中的语音时语言排斥机构可中断或修正转换过程。

Description

语音识别***中确定非目标语言的方法和装置
技术领域
本发明涉及语音识别***,特别是,涉及在单一语音识别***中检测非目标语言的方法和装置。
背景技术
语音识别和声频检索***一般为特定的目标语言而开发。这种单一语言***的词法、语法和声音模型反映了目标语言的典型属性。然而,实际上,这些单一语言的***可能接收其他非目标语言,导致了较差的性能,包括不正确的转换或检索、潜在的错误翻译或错误的***反馈。
例如,许多组织诸如广播新闻组织和信息检索服务组织必须处理大量音频信息以便存储和检索。音频信息常常必须用主题或讲话人名字或由两者来分类。为了用主题分类音频信息,语音识别***最初将音频信息转换成文本供自动分类或检索。之后,可用检索来执行查询资料的匹配以便将相关的文档返回给用户。
然而,如果原始的音频信息包含非目标语言引用,则语音识别***可能不正确地转换非目标语言的引用,这可能导致源信息的不正确分类或检索。因此,需要在声频转换或语音识别***中检测非目标语言引用的方法和装置。
随着通讯技术全球化和向广大的、多语言公众提供服务的发展,区分不同语言的能力变得越来越重要了。语言排斥问题与这种能力密切相关并因此涉及到语言自动标识(AL、I)的问题。对语言自动标识技术的详细讨论请见,例如,Y.K.Muthusamy等人的“自动语音识别评论”,IEEE信号处理杂志,11(4):33-41(1994,10);J.Navratil和W.Aühlke的“语言识别中的语音-上下文对应”(Phonetic-ContextMapping in Language Identification),EUROSPEECH-97会议录,第一卷,7-1-74(1997);以及J.Naviatil和W.Aühlke的“语言识别的高效音位结构学-声学***”(An Efficient Phonotatic-Acoustic System for Language Identifi-cation),Int’l论声学、语音和信号处理会议(ICASSP)录,第二卷,781-84,西雅图,华盛顿,IEEE(1998,5),这里作为参考资料引用。
已经建议和提出了若干自动的语言标识技术用于根据语音信号中包含的各种特性区分出各种语言。已经标识出好几种语言区分信息源作为语言识别任务相关的信息,包括,例如,韵律学、声学、和语法及词法结构。根据语音的韵律学或声学自动识别语言的技术试图分别根据典型的语调和发音模式来识别给定的语言。
然而,由于根据语法和词法结构的自动语言标识技术的复杂性,大多建议都有根据声-韵信息或派生的词法特性的先进技术以便用不太复杂的方式表示其语音结构。已开发了语音链中固有模型统计依存关系的ALI技术,称为音位结构学。在统计意义中,音位结构学可以被看作语言的语法和词法规则子集。因为在不同的语言中这些规则也不同,区分这些语言的能力自然就反映在音位结构特性中。
发明内容
根据本发明的一个方面,提供一种在音频流中识别非目标语言表达的方法,包含下列步骤:
用对目标语言训练的转换***转换所述音频流中的每种表达;
产生与每个所述转换表达相关的置信评分;和
如果所述置信评分不能满足预定的标准则标识转换的表达为非目标语言。
根据本发明的另一个方面,提供一种在音频流中识别非目标语言表达的***,包含:
一个存储计算机可读代码的存储器;和
与所述存储器操作连接的处理器,所述处理器配置成执行所述计算机可读代码,所述计算机可读代码配置成:用对目标语言训练的转换***转换所述音频流中的每种表达;
产生与所述每种转换表达相关的置信评分;和
如果所述置信评分未能满足预定的标准则标识转换的表达为非目标语言。
总体上,本发明公开了在音频转换或语言识别***中用置信评分探测非目标语言引用的方法和装置。该置信评分可能基于(i)由语音识别***提供的概率引擎评分,(ii)基于背景模型的附加分或(iii)前述的综合。由语音识别***为给定的输入语音的表达提供的引擎评分反映了声音和语言的表达与训练的目标语言的匹配度。在一个说明性实现方案中由语音识别***提供的概率引擎评分与背景模型评分结合以便标准化引擎评分以及考虑到可能出现非目标语言。标准化缩小了讲话者和通道的评分变化范围。
当置信评分低于预定标准时,本发明识别音频流中的非目标语言表达。根据本发明的一个方面当检测到非目标语言中的语音时,语言排斥机构中断或修正转换过程。本发明用这种方式防止不正确的转换和索引以及语音识别输出的错误翻译。
在出现非目标语言表达时,转换***不能根据其本地词汇、语言模型和声音模型发现良好的匹配。产生的识别文本将有较低的引擎评分值。因此,当引擎评分低于预定阈值时可能单独用引擎评分来识别非目标语言。
根据几种语言中的语音数据来建立或训练背景模型,它可能或可能不包含目标语言自身。可能为每种模型化的语言采用若干种背景语言模型,包括一个或多个(i)韵律模型;(ii)声音模型;(iii)音位结构模型和(iv)关键字识别(spotting)模型。
通过参考下面的详细说明和附图将更全面了解本发明以及本发明的进一步特性和优点。
附图说明
图1示出按本发明的非目标语言识别***;
图2是一幅示意方框图,示出图1的背景语言构型模块的结构;和
图3是一幅流程图,描述图2的背景语言构型模块采用的背景模型评分计算过程。
具体实施方式
图1示出按本发明的非目标语言标识***100。按本发明的一个特征,当发现了非目标语言中的语音时语言排斥机构中断或修正传统语音识别过程。本发明用这种方式防止不正确的转换和索引及语音识别输出的错误翻译。本发明采用由语音识别***提供的引擎概率评分结合根据背景模型的附加评分以便标准化非目标语言的引擎评分。
如图1所示,非目标语言标识***100包含一个转换***110,一个背景语言构型模块200、下面结合图2进一步,讨论一个标准化模块150和一个阈值决策模块160。如下面进一步讨论的那样,转换***110转换语音信号并提供表示给定转换中的置信度的引擎评分。另外,背景语言构型模块200产生一个背景(BG)模型评分表示假设的概率:给定的转换与(i)目标语言和(ii)非目标语言相关。如下面进一步讨论的那样,标准化模块150结合引擎和BG模型评分中的一或两者且阈值决策模块160将综合评分与预定的标准进行比较以确定是否给定的转换可能与非目标语言表达有关。
                      引擎评分
转换***110可由提供置信评分的任何语音识别或转换***诸如ViaVoicaTM语音识别***实现,ViaVoice由Armonk NY的IBM公司销售。该转换***110一般给出声音模型、发音词汇和语言模型的一些集合为译码音频流计算引擎概率评分。在本发明的单一语言环境中,对一种具体的目标语言训练这些模型。
在根据目标语言的语音识别期间,引擎评分值取决于语音的种类和通道的质量。尽管如此,识别的文本和声音论据间有很强的相关性。然而,在出现非目标语言表达时,转换***110不能根据其本地词汇、语言模型和声音模型找到良好的匹配。因此,最终识别的文本将出现较低的引擎评分值。在上述方式中,当引擎评分低于预定的阈值时可能单独用引擎评分来识别非目标语言。
                      背景模型评分
如以前所示的那样,本发明为转换***110提供的引擎评分增加了背景模型的附加评分。用这种方式,本发明用背景模型改进了识别目标和非目标语言表达的准确性。根据其他语言中的语音数据建立或训练背景模型,这些语言可能或可能不包含目标语言自身。为了识别目的,根据全部的背景模型计算评分然后用这些评分来标准化引擎评分。正如在下面一节题为“标准化”进一步讨论的那样,标准化有助于缩小讲话人的评分变化范围和通道的变化范围。
总体上,本发明为每个要构型的非目标语言采用多个类型的背景语言模型。背景模型的类型应是不同的并应在声音和语言的层次捕捉语言的特性。用于训练的特性范围可从幅度和基础频度的测量(韵律模型)到较高的语音特征诸如音素级统计(音位结构模型)、部分或整个字的关键字(关键字识别模型)直至经充分训练的(full-fledged)大词汇量识别器。
因此,背景语言模型可包含一个或多个(i)韵律模型;(ii)声音模型;(iii)音位结构模型和(iv)关键字识别模型。对更详细讨论各种模型请见,例如,Y.K.Muthusamy等人的“自动语言识别评论”,IEEE信号处理杂志,11(4):33-41(1994,10);J.Navratil和W.Zühlke的“语言识别中语音-上下文对应”,EUROSPEECH-97会议录,第一卷,7-1-74(1997);和J.Naviatil和W.Zühlke的“语言识别的高效音位结构学-声学***”,Int′l论声音、语音和信号处理会议(ICASSP)录,第二卷,781-84,西雅图,华盛顿,IEEE(1998,5),这里作为参考资料引用。
图2是一幅示意方框图,示出了按本发明的示例性背景语言构型模块200的结构。背景语言构型模块200可作为通用计算***来实现诸如示于图2的通用计算***。背景语言构型模块200包含处理器210和相关的存储器诸如数据存储设备220,它可以是分布的或本机的。处理器210可作为单一的处理器或多个本机或并行操作的分布处理器实现。数据存储设备220和/或只读存储器(ROM)可以存储一条或多条指令,可操作处理器210以检索、解释和执行这些指令。注意,背景语言构型模块200可与图1所示的转换***110集成或背景语言构型模块200可以是一个独立的设备,如图2所示;这对本领域的普通技术人员将是显而易见的。
数据存储设备220最好包含目标语言的一组背景模型250-1和一组用于每个模型化非目标语言的背景模型250-2至250-K。如以前所示,每组背景语言模型250-K可包含一或多个(i)韵律模型;(ii)声音模型;(iii)音位结构模型和(iv)关键字识别模型。在一个优先实施方案中,示于图2,由于良好的性能和价格比每组背景模型都含有声音和音位结构模型。此外,如下面结合图3进一步讨论的那样,数据存储设备220含有背景模型评分的计算过程300。示范性背景模型评分计算过程300计算每个背景模型的音位结构-声音评分。
注意虽然对某组语言训练背景模型,本发明的标准化方法可改进以前在训练数据集中从未见过的非目标语言的标识。
                  背景模型评分的计算
如以前所示,背景语言构型模块200执行背景模型的评分计算过程300以便为每个背景模型计算评分。图3是一幅流程图描述示例性背景模型的评分计算过程300。再注意示范性背景模型的评分计算过程300根据音位结构学(音素统计学)和声音学产生背景模型的评分。
如图3所示,背景模型的评分计算过程300起初在步骤310期间取回表达方式(语音样品)。ST-BG表示目标语言的背景评分,ST-BG(i)表示第i个非目标模型的背景评分。此后,在步骤320期间,为每个背景模型i计算音位结构-声音评分如下:
S N - BG ( i ) = log II t T = 1 P ( V t 1 a t , i ) · P ( a t 1 a t - 1 , . . . a t - k , i ) - - - ( 1 )
式中a1,...aT,表示从音素识别器获得的音序到诸如衡量冲击强度的标识器;例如在美国专利申请号09/015,150中或Ramabhadan等的“只基于语音学的自动声音基形的生成”Int′l论声学、语音和信号处理会议(ICASSP)录,西雅图,华盛顿,IEEE(1998.5),在此作为参考资料引用。此外,Vt代表音素at的语音部分中的声音证据(观察),P(at1at-1,...at-k,i)代表音素序列中音素的第R顺序构型(K+1)元组的音位结构模型。注意
方程(1)是多个可能获得音位结构评分的方法之一;这对本领域的普通技术人员来说是显而易见的。其它语言构型和语言标识技术可包括,例如,分别计算音位结构评分和声音评分并用加权方式将它们结合在记录域中。而且,例如,可以用Hidden Markov模型(HMM)以包括音素的持续信息。目标语言的背景评分ST-BG也是用方程(1)获得的。
                         标准化
准确地说,由标准化模块150(图1)执行的标准化可用几种方法表示;例如,如果引擎和背景评分是随机的,则可将标准化表述为目标和非目标评分的可能值之比。同理,如果将引擎和背景评分表述为对数相似度,则标准化可表述为目标和非目标的对数评分间的差。
在说明性实施方案中,ST-E表示引擎目标评分,ST-BG表示目标语言的背景评分,SN-BG(i)表示第i个非目标模型的背景评分。因此,可以获得标准化评分S如下:
S = a 1 S T - E f a 2 S T - GB - Σ i = 1 N b i · S N - BG ( i ) - - - ( 2 )
式中的N是背景模型数,ai,bi分别是目标和非目标评分的权重。注意背景语言模型的鲁棒性与背景模型数N成比例增加。因此,语言库应选择尽可能大和涵盖广泛。请再注意虽然背景模型是针对某组语言训练的,但本发明的标准化方法可能有助于改进对在训练数据集中以前从未见过的非目标语言的识别。
                         排斥机构
如以前所示,根据总的标准化评分标识非目标语言的表达,按照方程(2)计算并应用阈值T如下:
S-T≥0接受(目标语言)          (3)
S-T<0排斥(非目标语言)
方程(3)导致方程的左边为正或负,从而分别导致语言表达的接受或排斥。阈值T可从训练阶段获得和/或用适应方式从当前的音频流导出;这对本领域的普通技术人员将是显而易见的。
在转换期间的某个时间考虑到预定时期相似值的历史在一个窗口中计算标准化评分量度S;例如,可能利用在预定时期中基于字的相似性的平均值。
在一种应用中,本发明可用作语言排斥机构以便在探测出非目标语言中的语音时可中断或修改转换***110。换句话说,如果用本发明实时检测到非目标语言,那么可以挂起语音识别过程直至将音频流切换回目标语言。基于语音的文本存取***的性能完全依靠转换的准确性。一般,语音识别的准确度越高,信息检索性能就越好。本发明用这种方式防止不正确的转换和索引以及语音识别输出的错误翻译。
在另外的变化形式中,非目标语言标识***100可以用不同的阈值TRESUME从而在先前的排斥后切换回到目标语言的转换。阈值TRESUME可能是适应的或预先决定的,如上面为基本值T讨论的那样。而在再一种变化中,本发明用识别过程的预先计算的相似性(例如,副产品)和低计算的背景模型。
应理解这里所示和描述的实施方案和变化仅是本发明的原理的说明性举例且各种修正可由本领域的那些技术人员实现而没有离开本发明的范围和实质。

Claims (14)

1.一种在音频流中识别非目标语言表达的方法,包含下列步骤:
用对目标语言训练的转换***转换所述音频流中的每种表达;
产生与每个所述转换表达相关的置信评分;和
如果所述置信评分不能满足预定的标准则标识转换的表达为非目标语言。
2.权利要求1的方法,其中所述置信评分是由所述转换***产生的引擎评分。
3.权利要求1的方法,进一步包含当检测到所述非目标语言时中断所述转换***的步骤。
4.权利要求1的方法,进一步包含当检测到所述非目标语言时修改所述转换***的步骤。
5.权利要求1的方法,其中所述置信评分是根据对至少一个非目标语言训练的一个或多个背景模型。
6.权利要求5的方法,其中所述背景模型对每种模型化语言而言包含以下各项中的一个或多个:(i)韵律模型;(ii)声音模型;(iii)音位结构模型和(iv)关键字识别模型。
7.权利要求1的方法,其中所述置信评分是根据由所述转换***提供的引擎评分结合背景模型评分以便为所述非目标语言标准化所述引擎评分。
8.权利要求7的方法,进一步包含当检测到所述非目标语言时,中断所述转换***的步骤。
9.权利要求7的方法,进一步包含当检测到所述非目标语言时修正所述转换***的步骤。
10.权利要求7的方法,其中所述至少一个背景模型是对至少一个非目标语言训练的。
11.权利要求10的方法,其中所述至少一个背景模型为每种模型化语言包含以下各项中一个或多个:(i)韵律模型;(ii)声音模型;(iii)音位结构模型和(iv)关键字识别模型。
12.权利要求1的方法,其中所述置信评分为所述非目标语言标准化所述引擎评分。
13.一种在音频流中识别非目标语言表达的***,包含:
一个存储计算机可读代码的存储器;和
与所述存储器操作连接的处理器,所述处理器配置成执行所述计算机可读代码,所述计算机可读代码配置成:
用对目标语言训练的转换***转换所述音频流中的每种表达;
产生与所述每种转换表达相关的置信评分;和
如果所述置信评分未能满足预定的标准,则标识转换的表达为非目标语言。
14.如权利要求13的***,其中:
根据由所述转换***提供的引擎评分和至少一个背景模型评分产生与所述每种转换表达相关的置信评分。
CN01116330.5A 2000-04-07 2001-04-06 语音识别***中确定非目标语言的方法和装置 Expired - Fee Related CN1211779C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/544678 2000-04-07
US09/544,678 2000-04-07
US09/544,678 US6738745B1 (en) 2000-04-07 2000-04-07 Methods and apparatus for identifying a non-target language in a speech recognition system

Publications (2)

Publication Number Publication Date
CN1317783A CN1317783A (zh) 2001-10-17
CN1211779C true CN1211779C (zh) 2005-07-20

Family

ID=24173130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01116330.5A Expired - Fee Related CN1211779C (zh) 2000-04-07 2001-04-06 语音识别***中确定非目标语言的方法和装置

Country Status (3)

Country Link
US (1) US6738745B1 (zh)
CN (1) CN1211779C (zh)
DE (1) DE10111056B4 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002027709A2 (en) * 2000-09-29 2002-04-04 Lernout & Hauspie Speech Products N.V. Corpus-based prosody translation system
US20020077833A1 (en) * 2000-12-20 2002-06-20 Arons Barry M. Transcription and reporting system
US7191116B2 (en) * 2001-06-19 2007-03-13 Oracle International Corporation Methods and systems for determining a language of a document
US7437289B2 (en) * 2001-08-16 2008-10-14 International Business Machines Corporation Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
GB2409087A (en) * 2003-12-12 2005-06-15 Ibm Computer generated prompting
US8036893B2 (en) 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US20070106646A1 (en) * 2005-11-09 2007-05-10 Bbnt Solutions Llc User-directed navigation of multimedia search results
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US9697230B2 (en) 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
US9436759B2 (en) 2007-12-27 2016-09-06 Nant Holdings Ip, Llc Robust information extraction from utterances
US8312022B2 (en) 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8977645B2 (en) * 2009-01-16 2015-03-10 Google Inc. Accessing a search interface in a structured presentation
US8484218B2 (en) * 2011-04-21 2013-07-09 Google Inc. Translating keywords from a source language to a target language
US9129605B2 (en) * 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
US9190055B1 (en) * 2013-03-14 2015-11-17 Amazon Technologies, Inc. Named entity recognition with personalized models
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
US20180018961A1 (en) * 2016-07-13 2018-01-18 Google Inc. Audio slicer and transcription generator
CN111078937B (zh) * 2019-12-27 2021-08-10 北京世纪好未来教育科技有限公司 语音信息检索方法、装置、设备和计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6391699A (ja) * 1986-10-03 1988-04-22 株式会社リコー 音声認識方式
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP3034773B2 (ja) * 1994-12-27 2000-04-17 シャープ株式会社 電子通訳機
CA2160184A1 (en) * 1994-12-29 1996-06-30 James Lee Hieronymus Language identification with phonological and lexical models
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition

Also Published As

Publication number Publication date
CN1317783A (zh) 2001-10-17
DE10111056B4 (de) 2005-11-10
DE10111056A1 (de) 2001-10-18
US6738745B1 (en) 2004-05-18

Similar Documents

Publication Publication Date Title
CN1211779C (zh) 语音识别***中确定非目标语言的方法和装置
US8793130B2 (en) Confidence measure generation for speech related searching
US7475015B2 (en) Semantic language modeling and confidence measurement
CA2508946C (en) Method and apparatus for natural language call routing using confidence scores
EP1922653B1 (en) Word clustering for input data
EP1462950B1 (en) Method for language modelling
US7587308B2 (en) Word recognition using ontologies
US20030191625A1 (en) Method and system for creating a named entity language model
EP0834862A2 (en) Method of key-phrase detection and verification for flexible speech understanding
Raymond et al. On the use of finite state transducers for semantic interpretation
US20020087311A1 (en) Computer-implemented dynamic language model generation method and system
CN102176310A (zh) 具有巨大词汇量的语音识别***
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
CA2481080C (en) Method and system for detecting and extracting named entities from spontaneous communications
Gandhe et al. Using web text to improve keyword spotting in speech
US20050038647A1 (en) Program product, method and system for detecting reduced speech
Rose et al. Integration of utterance verification with statistical language modeling and spoken language understanding
Decadt et al. Transcription of out-of-vocabulary words in large vocabulary speech recognition based on phoneme-to-grapheme conversion
Sun et al. Using word confidence measure for OOV words detection in a spontaneous spoken dialog system.
Raymond et al. Belief confirmation in spoken dialog systems using confidence measures
CN115391506A (zh) 针对多段式回复的问答内容标准性检测方法及装置
Kellner Initial language models for spoken dialogue systems
JP2003308094A (ja) 音声認識における認識誤り箇所の訂正方法
Dinarelli Spoken language understanding: from spoken utterances to semantic structures
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: WEICHA COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090731

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090731

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc.

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050720

Termination date: 20170406