CN1211779C

CN1211779C - 语音识别***中确定非目标语言的方法和装置

Info

Publication number: CN1211779C
Application number: CN01116330.5A
Authority: CN
Inventors: J·纳维拉蒂; M·维斯沃纳塔
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2000-04-07
Filing date: 2001-04-06
Publication date: 2005-07-20
Anticipated expiration: 2021-04-06
Also published as: CN1317783A; DE10111056B4; DE10111056A1; US6738745B1

Abstract

公开了用置信评分检测音频转换或语音识别***中非目标语言的引用的方法和装置。该置信评分可根据(i)由语音识别***提供的引擎概率评分，(ii)背景模型的附加评分或(iii)前述的综合。引擎评分可与背景模型评分相结合以便为非目标语言标准化引擎评分。当置信评分低于预定的标准时本发明标识音频流中的非目标语言表达。当发现非目标语言中的语音时语言排斥机构可中断或修正转换过程。

Description

语音识别***中确定非目标语言的方法和装置

技术领域

本发明涉及语音识别***，特别是，涉及在单一语音识别***中检测非目标语言的方法和装置。

背景技术

语音识别和声频检索***一般为特定的目标语言而开发。这种单一语言***的词法、语法和声音模型反映了目标语言的典型属性。然而，实际上，这些单一语言的***可能接收其他非目标语言，导致了较差的性能，包括不正确的转换或检索、潜在的错误翻译或错误的***反馈。

例如，许多组织诸如广播新闻组织和信息检索服务组织必须处理大量音频信息以便存储和检索。音频信息常常必须用主题或讲话人名字或由两者来分类。为了用主题分类音频信息，语音识别***最初将音频信息转换成文本供自动分类或检索。之后，可用检索来执行查询资料的匹配以便将相关的文档返回给用户。

然而，如果原始的音频信息包含非目标语言引用，则语音识别***可能不正确地转换非目标语言的引用，这可能导致源信息的不正确分类或检索。因此，需要在声频转换或语音识别***中检测非目标语言引用的方法和装置。

随着通讯技术全球化和向广大的、多语言公众提供服务的发展，区分不同语言的能力变得越来越重要了。语言排斥问题与这种能力密切相关并因此涉及到语言自动标识(AL、I)的问题。对语言自动标识技术的详细讨论请见，例如，Y.K.Muthusamy等人的“自动语音识别评论”，IEEE信号处理杂志，11(4)：33-41(1994，10)；J.Navratil和W.Aühlke的“语言识别中的语音-上下文对应”(Phonetic-ContextMapping in Language Identification)，EUROSPEECH-97会议录，第一卷，7-1-74(1997)；以及J.Naviatil和W.Aühlke的“语言识别的高效音位结构学-声学***”(An Efficient Phonotatic-Acoustic System for Language Identifi-cation)，Int’l论声学、语音和信号处理会议(ICASSP)录，第二卷，781-84，西雅图，华盛顿，IEEE(1998，5)，这里作为参考资料引用。

已经建议和提出了若干自动的语言标识技术用于根据语音信号中包含的各种特性区分出各种语言。已经标识出好几种语言区分信息源作为语言识别任务相关的信息，包括，例如，韵律学、声学、和语法及词法结构。根据语音的韵律学或声学自动识别语言的技术试图分别根据典型的语调和发音模式来识别给定的语言。

然而，由于根据语法和词法结构的自动语言标识技术的复杂性，大多建议都有根据声-韵信息或派生的词法特性的先进技术以便用不太复杂的方式表示其语音结构。已开发了语音链中固有模型统计依存关系的ALI技术，称为音位结构学。在统计意义中，音位结构学可以被看作语言的语法和词法规则子集。因为在不同的语言中这些规则也不同，区分这些语言的能力自然就反映在音位结构特性中。

发明内容

根据本发明的一个方面，提供一种在音频流中识别非目标语言表达的方法，包含下列步骤：

用对目标语言训练的转换***转换所述音频流中的每种表达；

产生与每个所述转换表达相关的置信评分；和

如果所述置信评分不能满足预定的标准则标识转换的表达为非目标语言。

根据本发明的另一个方面，提供一种在音频流中识别非目标语言表达的***，包含：

一个存储计算机可读代码的存储器；和

与所述存储器操作连接的处理器，所述处理器配置成执行所述计算机可读代码，所述计算机可读代码配置成：用对目标语言训练的转换***转换所述音频流中的每种表达；

产生与所述每种转换表达相关的置信评分；和

如果所述置信评分未能满足预定的标准则标识转换的表达为非目标语言。

总体上，本发明公开了在音频转换或语言识别***中用置信评分探测非目标语言引用的方法和装置。该置信评分可能基于(i)由语音识别***提供的概率引擎评分，(ii)基于背景模型的附加分或(iii)前述的综合。由语音识别***为给定的输入语音的表达提供的引擎评分反映了声音和语言的表达与训练的目标语言的匹配度。在一个说明性实现方案中由语音识别***提供的概率引擎评分与背景模型评分结合以便标准化引擎评分以及考虑到可能出现非目标语言。标准化缩小了讲话者和通道的评分变化范围。

当置信评分低于预定标准时，本发明识别音频流中的非目标语言表达。根据本发明的一个方面当检测到非目标语言中的语音时，语言排斥机构中断或修正转换过程。本发明用这种方式防止不正确的转换和索引以及语音识别输出的错误翻译。

在出现非目标语言表达时，转换***不能根据其本地词汇、语言模型和声音模型发现良好的匹配。产生的识别文本将有较低的引擎评分值。因此，当引擎评分低于预定阈值时可能单独用引擎评分来识别非目标语言。

根据几种语言中的语音数据来建立或训练背景模型，它可能或可能不包含目标语言自身。可能为每种模型化的语言采用若干种背景语言模型，包括一个或多个(i)韵律模型；(ii)声音模型；(iii)音位结构模型和(iv)关键字识别(spotting)模型。

通过参考下面的详细说明和附图将更全面了解本发明以及本发明的进一步特性和优点。

附图说明

图1示出按本发明的非目标语言识别***；

图2是一幅示意方框图，示出图1的背景语言构型模块的结构；和

图3是一幅流程图，描述图2的背景语言构型模块采用的背景模型评分计算过程。

具体实施方式

图1示出按本发明的非目标语言标识***100。按本发明的一个特征，当发现了非目标语言中的语音时语言排斥机构中断或修正传统语音识别过程。本发明用这种方式防止不正确的转换和索引及语音识别输出的错误翻译。本发明采用由语音识别***提供的引擎概率评分结合根据背景模型的附加评分以便标准化非目标语言的引擎评分。

如图1所示，非目标语言标识***100包含一个转换***110，一个背景语言构型模块200、下面结合图2进一步，讨论一个标准化模块150和一个阈值决策模块160。如下面进一步讨论的那样，转换***110转换语音信号并提供表示给定转换中的置信度的引擎评分。另外，背景语言构型模块200产生一个背景(BG)模型评分表示假设的概率：给定的转换与(i)目标语言和(ii)非目标语言相关。如下面进一步讨论的那样，标准化模块150结合引擎和BG模型评分中的一或两者且阈值决策模块160将综合评分与预定的标准进行比较以确定是否给定的转换可能与非目标语言表达有关。

引擎评分

转换***110可由提供置信评分的任何语音识别或转换***诸如ViaVoica^TM语音识别***实现，ViaVoice由Armonk NY的IBM公司销售。该转换***110一般给出声音模型、发音词汇和语言模型的一些集合为译码音频流计算引擎概率评分。在本发明的单一语言环境中，对一种具体的目标语言训练这些模型。

在根据目标语言的语音识别期间，引擎评分值取决于语音的种类和通道的质量。尽管如此，识别的文本和声音论据间有很强的相关性。然而，在出现非目标语言表达时，转换***110不能根据其本地词汇、语言模型和声音模型找到良好的匹配。因此，最终识别的文本将出现较低的引擎评分值。在上述方式中，当引擎评分低于预定的阈值时可能单独用引擎评分来识别非目标语言。

背景模型评分

如以前所示的那样，本发明为转换***110提供的引擎评分增加了背景模型的附加评分。用这种方式，本发明用背景模型改进了识别目标和非目标语言表达的准确性。根据其他语言中的语音数据建立或训练背景模型，这些语言可能或可能不包含目标语言自身。为了识别目的，根据全部的背景模型计算评分然后用这些评分来标准化引擎评分。正如在下面一节题为“标准化”进一步讨论的那样，标准化有助于缩小讲话人的评分变化范围和通道的变化范围。

总体上，本发明为每个要构型的非目标语言采用多个类型的背景语言模型。背景模型的类型应是不同的并应在声音和语言的层次捕捉语言的特性。用于训练的特性范围可从幅度和基础频度的测量(韵律模型)到较高的语音特征诸如音素级统计(音位结构模型)、部分或整个字的关键字(关键字识别模型)直至经充分训练的(full-fledged)大词汇量识别器。

因此，背景语言模型可包含一个或多个(i)韵律模型；(ii)声音模型；(iii)音位结构模型和(iv)关键字识别模型。对更详细讨论各种模型请见，例如，Y.K.Muthusamy等人的“自动语言识别评论”，IEEE信号处理杂志，11(4)：33-41(1994，10)；J.Navratil和W.Zühlke的“语言识别中语音-上下文对应”，EUROSPEECH-97会议录，第一卷，7-1-74(1997)；和J.Naviatil和W.Zühlke的“语言识别的高效音位结构学-声学***”，Int′l论声音、语音和信号处理会议(ICASSP)录，第二卷，781-84，西雅图，华盛顿，IEEE(1998，5)，这里作为参考资料引用。

图2是一幅示意方框图，示出了按本发明的示例性背景语言构型模块200的结构。背景语言构型模块200可作为通用计算***来实现诸如示于图2的通用计算***。背景语言构型模块200包含处理器210和相关的存储器诸如数据存储设备220，它可以是分布的或本机的。处理器210可作为单一的处理器或多个本机或并行操作的分布处理器实现。数据存储设备220和/或只读存储器(ROM)可以存储一条或多条指令，可操作处理器210以检索、解释和执行这些指令。注意，背景语言构型模块200可与图1所示的转换***110集成或背景语言构型模块200可以是一个独立的设备，如图2所示；这对本领域的普通技术人员将是显而易见的。

数据存储设备220最好包含目标语言的一组背景模型250-1和一组用于每个模型化非目标语言的背景模型250-2至250-K。如以前所示，每组背景语言模型250-K可包含一或多个(i)韵律模型；(ii)声音模型；(iii)音位结构模型和(iv)关键字识别模型。在一个优先实施方案中，示于图2，由于良好的性能和价格比每组背景模型都含有声音和音位结构模型。此外，如下面结合图3进一步讨论的那样，数据存储设备220含有背景模型评分的计算过程300。示范性背景模型评分计算过程300计算每个背景模型的音位结构-声音评分。

注意虽然对某组语言训练背景模型，本发明的标准化方法可改进以前在训练数据集中从未见过的非目标语言的标识。

背景模型评分的计算

如以前所示，背景语言构型模块200执行背景模型的评分计算过程300以便为每个背景模型计算评分。图3是一幅流程图描述示例性背景模型的评分计算过程300。再注意示范性背景模型的评分计算过程300根据音位结构学(音素统计学)和声音学产生背景模型的评分。

如图3所示，背景模型的评分计算过程300起初在步骤310期间取回表达方式(语音样品)。S_T-BG表示目标语言的背景评分，S_T-BG(i)表示第i个非目标模型的背景评分。此后，在步骤320期间，为每个背景模型i计算音位结构-声音评分如下：

S_{N - BG (i)} = \log {II}_{t}^{T} = 1 P (V_{t} {1 a}_{t}, i) \cdot P (a_{t} {1 a}_{t - 1}, . . . a_{t - k}, i) - - - (1)

式中a₁，...a_T，表示从音素识别器获得的音序到诸如衡量冲击强度的标识器；例如在美国专利申请号09/015,150中或Ramabhadan等的“只基于语音学的自动声音基形的生成”Int′l论声学、语音和信号处理会议(ICASSP)录，西雅图，华盛顿，IEEE(1998.5)，在此作为参考资料引用。此外，V_t代表音素a_t的语音部分中的声音证据(观察)，P(a_t1a_t-1，...a_t-k，i)代表音素序列中音素的第R顺序构型(K+1)元组的音位结构模型。注意

方程(1)是多个可能获得音位结构评分的方法之一；这对本领域的普通技术人员来说是显而易见的。其它语言构型和语言标识技术可包括，例如，分别计算音位结构评分和声音评分并用加权方式将它们结合在记录域中。而且，例如，可以用Hidden Markov模型(HMM)以包括音素的持续信息。目标语言的背景评分S_T-BG也是用方程(1)获得的。

标准化

准确地说，由标准化模块150(图1)执行的标准化可用几种方法表示；例如，如果引擎和背景评分是随机的，则可将标准化表述为目标和非目标评分的可能值之比。同理，如果将引擎和背景评分表述为对数相似度，则标准化可表述为目标和非目标的对数评分间的差。

在说明性实施方案中，S_T-E表示引擎目标评分，S_T-BG表示目标语言的背景评分，S_N-BG(i)表示第i个非目标模型的背景评分。因此，可以获得标准化评分S如下：

S = a_{1} S_{T - E} f a_{2} S_{T - GB} - Σ_{i = 1}^{N} b_{i} \cdot S_{N - BG} (i) - - - (2)

式中的N是背景模型数，a_i，b_i分别是目标和非目标评分的权重。注意背景语言模型的鲁棒性与背景模型数N成比例增加。因此，语言库应选择尽可能大和涵盖广泛。请再注意虽然背景模型是针对某组语言训练的，但本发明的标准化方法可能有助于改进对在训练数据集中以前从未见过的非目标语言的识别。

排斥机构

如以前所示，根据总的标准化评分标识非目标语言的表达，按照方程(2)计算并应用阈值T如下：

S-T≥0接受(目标语言) (3)

S-T＜0排斥(非目标语言)

方程(3)导致方程的左边为正或负，从而分别导致语言表达的接受或排斥。阈值T可从训练阶段获得和/或用适应方式从当前的音频流导出；这对本领域的普通技术人员将是显而易见的。

在转换期间的某个时间考虑到预定时期相似值的历史在一个窗口中计算标准化评分量度S；例如，可能利用在预定时期中基于字的相似性的平均值。

在一种应用中，本发明可用作语言排斥机构以便在探测出非目标语言中的语音时可中断或修改转换***110。换句话说，如果用本发明实时检测到非目标语言，那么可以挂起语音识别过程直至将音频流切换回目标语言。基于语音的文本存取***的性能完全依靠转换的准确性。一般，语音识别的准确度越高，信息检索性能就越好。本发明用这种方式防止不正确的转换和索引以及语音识别输出的错误翻译。

在另外的变化形式中，非目标语言标识***100可以用不同的阈值T_RESUME从而在先前的排斥后切换回到目标语言的转换。阈值T_RESUME可能是适应的或预先决定的，如上面为基本值T讨论的那样。而在再一种变化中，本发明用识别过程的预先计算的相似性(例如，副产品)和低计算的背景模型。

应理解这里所示和描述的实施方案和变化仅是本发明的原理的说明性举例且各种修正可由本领域的那些技术人员实现而没有离开本发明的范围和实质。

Claims

1.一种在音频流中识别非目标语言表达的方法，包含下列步骤：

用对目标语言训练的转换***转换所述音频流中的每种表达；

产生与每个所述转换表达相关的置信评分；和

2.权利要求1的方法，其中所述置信评分是由所述转换***产生的引擎评分。

3.权利要求1的方法，进一步包含当检测到所述非目标语言时中断所述转换***的步骤。

4.权利要求1的方法，进一步包含当检测到所述非目标语言时修改所述转换***的步骤。

5.权利要求1的方法，其中所述置信评分是根据对至少一个非目标语言训练的一个或多个背景模型。

6.权利要求5的方法，其中所述背景模型对每种模型化语言而言包含以下各项中的一个或多个：(i)韵律模型；(ii)声音模型；(iii)音位结构模型和(iv)关键字识别模型。

7.权利要求1的方法，其中所述置信评分是根据由所述转换***提供的引擎评分结合背景模型评分以便为所述非目标语言标准化所述引擎评分。

8.权利要求7的方法，进一步包含当检测到所述非目标语言时，中断所述转换***的步骤。

9.权利要求7的方法，进一步包含当检测到所述非目标语言时修正所述转换***的步骤。

10.权利要求7的方法，其中所述至少一个背景模型是对至少一个非目标语言训练的。

11.权利要求10的方法，其中所述至少一个背景模型为每种模型化语言包含以下各项中一个或多个：(i)韵律模型；(ii)声音模型；(iii)音位结构模型和(iv)关键字识别模型。

12.权利要求1的方法，其中所述置信评分为所述非目标语言标准化所述引擎评分。

13.一种在音频流中识别非目标语言表达的***，包含：

一个存储计算机可读代码的存储器；和

与所述存储器操作连接的处理器，所述处理器配置成执行所述计算机可读代码，所述计算机可读代码配置成：

用对目标语言训练的转换***转换所述音频流中的每种表达；

产生与所述每种转换表达相关的置信评分；和

如果所述置信评分未能满足预定的标准，则标识转换的表达为非目标语言。

14.如权利要求13的***，其中：

根据由所述转换***提供的引擎评分和至少一个背景模型评分产生与所述每种转换表达相关的置信评分。