CN1228762C

CN1228762C - 用于语音识别的方法、组件、设备及服务器

Info

Publication number: CN1228762C
Application number: CNB028049195A
Authority: CN
Inventors: 弗雷德里克·苏夫莱; 努尔－埃迪·塔辛
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2001-02-13
Filing date: 2002-02-12
Publication date: 2005-11-23
Anticipated expiration: 2022-02-12
Also published as: MXPA03007178A; US7983911B2; WO2002065454A1; US20050102142A1; CN1491412A; JP2004530149A; FR2820872B1; JP4751569B2; ES2291440T3; DE60222093D1; FR2820872A1; EP1362343B1; DE60222093T2; KR100908358B1; EP1362343A1; KR20030076661A

Abstract

本发明涉及到一种在至少一个终端(114)执行的语音识别方法，这种语音识别方法使用了语言模型(311)，其特征在于包括步骤：在终端之一，检测(502)出至少一条未识别的表述；在终端中记录(503)表示未识别的表述(309)的数据；终端将所述记录的数据发送(603)到远程服务器(116)；在所述远程服务器端，考虑到至少所述未识别的表述的一部分，对数据进行分析(803)并生成(805)用于校正语言模型的信息；将来自服务器的校正信息发送到至少一个终端(114，117，118)，以允许将来对至少某些未识别校正进行校正。本发明还涉及到对应的组件、设备(102)和远程服务器(116)。

Description

用于语音识别的方法、组件、设备及服务器

技术领域

本发明涉及到语音接口领域。

更准确说，本发明涉及到在终端利用语音识别实现语言模型和/或语音装置的最优化。

背景技术

为了使与用户之间的信息交互更加迅速和/或更加直观，信息***或控制***越来越多地用到了语音接口。由于这些***变得越来越复杂，在语音识别方面的需求也越来越大，即识别的范围(非常大词汇表)和识别的速度(实时)。

现有技术的语音识别方法基于语言模型(在应用中，词汇表里给定词汇出现的概率由按照在句中出现的时间顺序排列的另一个词汇或一组词汇确定)和语音装置的使用。Frederic Jelinek所著的“Statistical Methodfor Speech Recognition”一书中详细地叙述了这些技术，该书由MIT出版社在1997年出版。

这些技术依赖于由有代表性的语音采样(例如，由终端发布命令的用户群体发出)生成的语言模型和语音装置。

在实际应用中，语言模型必须考虑到使用***的用户通常的讲话风格，特别是他的“缺点”：口吃、假开始、精神的改变，等等。

使用的语音模型的质量大大地影响了语音识别的可靠性。这种质量通常由一个被称为语言模型复杂度(perplexity)的指标来衡量，这种复杂度示意地表示了***对每一个已编码词汇作出的可能选择的数目。复杂度越低，语言模型的质量就越好。

将语音信号转化为文字的词汇串时，语言模型是必需的，对话***经常会用到这一步骤。因而有必要构建一个理解逻辑单元，该理解逻辑单元使得充分理解询问并进行答复成为可能。

生成大词汇表语言模型的标准方法有两种：

所谓的N-gram(N元)统计法，通常使用的为二元或三元，其特点在于假设一句话中某个词汇出现的概率只与该词汇前面的N个词有关，而与句中其余的上下文无关。

如果以三元模型为例，将其应用于大小为1000词的词汇表，为了定义语言模型需要确定1000³个概率值，这是不可能的。所以，要将这些词分成组，这些组可以由模型设计者明确定义，也可以由自组织方法推导而来。

所以由文本语言资料库可以自动地构造出这种语言模型。

该类型的语言模型主要应用于语音听写***，这种***的根本功能在于将语音信号转化为文本，而无需任何必要的理解阶段。

第二种方法指依靠概率性文法来描述句法，典型地，由一组规则确定与语境无关的文法，这种规则由所谓的Backus Naur形式(即BNF)，或是该形式在语境文法的延伸来描述。这种用于描述文法的规则通常是手写的。该类型的语言模型适用于命令或控制应用，其中设备的控制或数据库中信息的搜索阶段在识别阶段之后。

一个应用的语言模型描述了该应用中需要被识别的一组表述(例如句子)。已有技术的缺点在于，如果语言模型是劣质的，即使识别***在声学语音解码层的性能非常好，就这种表述的识别而言，***的性能是二流的。

确切地说，随机类型的语言模型对于该语言模型内部或外部的表述没有一个明确的界定。只不过与其它类型的相比，仅仅某些表述出现的先验概率更高。

概率性文法类型的语言模型明确地显示出了属于该语言模型的表述与该语言模型之外表述的区别。所以在这些模型中，无论所使用的语音模型的质量如何，都存在着一些永远不可能识别的表述。通常这些表述是无意义的，或它所具有的意义超出了所开发***应用的领域。

对于命令和控制应用来说，可以看出，概率类型语言模型及其派生物更为有效。这些文法通常都是手写的，而在对话***的开发过程中主要的困难之一就是提供一个优质的语言模型。

特别地，就考虑到文法类型的模型而言，尽其所能地详细定义一种易于被大量群体(例如大量市场设备的远程控制的情况)使用的语言是不可能的。不可能考虑到所有可能出现的表述、短语的说法(从正式语言到俚语)，和/或文法的错误等等。

发明内容

本发明涉及到一种语音识别方法和***，基于记录***未识别的表述，这种方法和***可以远程地调整并改进语言模型。

更准确地说，本发明的主题是一种实施于至少一个终端的语音识别方法，上述语音识别方法使用了语言模型，其特征在于包括以下步骤：

在终端之一检测出至少一个未识别的表述；

在终端记录下表示未识别的表述的数据；

经第一传输通道，终端将记录的数据传送给远程服务器；

在远程服务器端，对数据进行分析，并考虑到至少未识别的表述的一个部分，生成用于校正语言模型的信息；以及

经第二传输通道，将校正信息从服务器传送到至少一个终端，以允许将来对至少某些未识别的表述进行识别。

这样，本发明凭借一种完全新颖和有创造性的方法进行语音识别，这种方法可以更新不同的元件，作为本地功能，这些元件可以实现未识别的表述的语音识别，由拥有相当多资源(例如人和/或计算能力)的远程服务器产生校正信息。

应指出这里的语言模型包括：

严格意义的语言模型(例如，当数据，即识别的对象是纯粹文字类型的情况)；

由一个或多个严格意义的语言模型或一个或多个语音装置(特别地，这对应着通常对语音采样进行语音识别的情况)组形成的模型。

除了直接更新词汇表之外，本发明还有其他功能。特别地，尽管一个表述中的所有词在终端的语言模型使用的词汇表内都可以找到，但还是有可能不能识别出这个表述。只有更新语言模型本身才可能随后识别这个表述。只更新源自语言模型的信息条目之一的词汇表是不够的。

这里的表述是广义的，并涉及到终端及其用户之间的交互所允许的任何声音的表达方式。特别地，表述(或发言)包括句子、短语、孤立的或非孤立的词、对终端来说有某些意义的码字、指令和命令等等。

特别地，校正信息可能包括了允许部分或完全调整存在于每一个终端的语言模型和/或语音单元的信息，其中通过删除、覆盖或添加元素完成调整。

服务器可以接收来自各个终端的数据，这就允许改进存在于当前发送数据的终端和其他所有终端的语言模型和/或语音单元，每一个终端都受益于服务器从所有终端获取的共享经验。

这样，本发明就可以参照对一定用户来说特殊的语言风格或短语说法(例如，可以将表述“傍晚的下午8点”(很难推测先验知识的冗言)改为“下午8点”或“傍晚8点”)，而在构造使用的语言模型过程中，不用为处理这类信息预先做好准备。

而且，本发明考虑到了生活中语言的发展(新的短语说法或表述，等等)。

应指出本发明可以同样应用于随机类型语言模型和概率文法类型语言模型。当本发明被用于随机类型语言模型时，通常有许多对识别产生影响的校正数据，而用于概率文法类型模型的校正数据可能不足，并会明显地影响识别的效率和可靠性。

根据其特质，该方法的显著之处在于表示所述未识别的表述的所述数据包括压缩的语音记录，所述压缩的语音记录表示了描述声音信号的参数。

这样，本发明就可以方便地在服务器端精确地分析发送到各终端的语音数据，而同时限制了发送到远程服务器的数据总量。

根据其特质，该方法的显著之处在于在终端的发送步骤过程中，终端此外还将一组信息中的至少一项发送给服务器，组成这组信息一部分的包括：

当不能识别某个表述时，该语音识别方法使用的语境信息；和

与发出未识别的表述的说话者相关的信息。

这样，通过远程操作，就容易地实现了未被终端识别的表述的语音识别。

而且，作为语境的一项功能，可以检查未识别的表述内容的有效性。(例如，当终端从事的是录像机工作的时候，指令“记录传输”是有意义的，所以是有效的，而就移动电话而言，就是无意义的)。

根据其特殊性质，该方法的显著之处在于对记录的数据和/或校正信息进行了加扰和/或解扰。

这样，就有效地保证了数据的安全并保持机密性。

该信息还涉及到一种使用语言模型的语音识别组件，其特征在于包括：

分析器，用于检测未识别的表述；

记录器，用于记录表示至少一个未识的别表述的数据；

发送器，用于将记录的数据发送到远程服务器；以及

接收器，用于接收发送到组件的、允许校正语言模型的校正信息，允许该组件将来识别至少某些未识别的表述，在远程服务器端分析数据以及参照至少未识别的表述的一个部分而生成了校正语言模型的信息之后，由远程服务器发送校正信息。

本发明还涉及到一种使用语言模型的语音识别设备，其特征在于包括：

分析器，用于检测未识别的表述；

记录器，用于记录表示至少一个未识别的表述的数据；

发送器，用于将记录的数据发送到远程服务器；以及

接收器，用于接收发送到设备的、允许校正语言模型的校正信息，允许该设备将来识别至少某些未识别的表述，在远程服务器端分析数据以及参照至少未识别的表述的一个部分而生成了用于校正语言模型的信息之后，由远程服务器将校正信息发送给接收器。

本发明还涉及到一种语音识别服务器，该识别由一组至少一个远程终端通过语言模型而实现，其特征在于包括以下装置：

接收器，用于接收表示未被至少一个终端识别的至少一个表述的数据，该终端是一组至少一个远程终端中的一部分，并在一次识别操作期间被检测到了未识别的表述；

发送器，用于将校正信息发送到包括至少一个远程终端的一组终端，服务器端基于对所接收到数据的分析获得该校正信息，通过这组终端中的每一个，利用校正信息可以校正语言模型，利用该语言模型可以在将来识别至少未识的别表述中的一部分。

有关用于语音识别的组件、设备和服务器的特性及优点与语音识别方法的特性及优点是相同的，这里不再重复。

附图说明

通过以下对本发明优选实施例的说明，本发明的其它性质和优点会更加清晰，该实施例通过简单无限制的说明性例子和附图给出，其中：

图1所示为一个通用的***示意图，该***包括可以实施本发明技术的语音控制单元；

图2所示为图1***中语音识别单元的示意图；

图3描述了实现图2所示语音识别单元的电路示意图；

图4所示为图1***中服务器的示意图；

图5所示为一种检验表述和记录未识别的表述相关数据过程的流程图，该过程由图2中的识别引擎完成；

图6所示为一种发送未识别表述相关数据过程的流程图，该过程由图2中的拒绝组件完成；

图7所示为一种接收校正数据过程的流程图，该过程由图2中装载语言模型的组件完成；以及

图8所示为一种接收和处理校正数据过程的流程图，该过程由图4中的远程服务器完成。

具体实施方式

所以，本发明的普遍原理依赖于终端执行的语音识别，利用语言模型和/或一组语音装置进行的语音识别方法，远程服务器可以对该语言模型和/或语音装置进行更新，特别是当服务器认为有必要的时候。

通常情况下，每一个终端都可以识别说话者明确表达的表述(例如句子或命令)并执行相应的动作。

不过，经常会有某一表述可以完全被人类理解，却不能被执行语音识别的设备或组件识别。

导致这种失败识别的原因可能有多个：

说话者使用的词汇表不是组成语言模型的一部分；

特殊的发音(例如口音)；

语音识别设备或组件没有提供的特殊短语说法；

其它。

特别地，经常根据统计数据来构造语言模型和语音装置组，这些统计数据通常考虑到了典型群体使用的表述采样，而不(也无法)考虑词汇表里的特定词汇、发音、和/或短语的说法。

首先，本发明依赖于检测出不能被语音识别设备或组件识别的表述。

当无法识别一个表述时，终端记录下代表与未识别的表述相对应的信号(例如，诸如表述的语音数字记录)的数据，其目的是将这些数据发送到远程服务器。

在集中了来自一组终端的未识别的表述的远程服务器端，操作员可以对这些未识别的表述进行分析。

某些表述被证明是不可理解和/或不可利用的，则将其删除。

另一方面，其它的表述对操作员来说是完全可以理解的，操作员能够(如果他认为这样做有用)通过相连接的人/机将这些迄今为止未被终端识别的表述“翻译”为能被服务器理解的代码。

然后服务器综合考虑这些表述及其翻译，以生成用于校正语言模型和/或语音装置组的信息。

应指出这里理解的校正是指：

模型的调整；和/或

模型的补充。

接着，服务器将校正信息发送给各个能够更新其语言模型和/或语音装置组的终端，通过未被自身或其他终端识别的大量表述，充实了语言模型和/或语音装置组。对所述记录数据和/或所述校正信息进行了加扰和/或解扰。

这样，通过得益于所有终端共享的经验，每一个终端的语音识别功能都得到了改进。

根据本发明的一种特殊模式，分析不是由操作员而是由服务器本身完成，这样服务器需要配置的资源要远大于简单的终端。

根据特殊的实施方案，终端将语境数据(例如时间、日期、语音命令失败之后手动地或口动地执行的控制、位置、终端类型等等)和代表与未识别的表述对应的信号的数据一起发送给服务器。

这些可以促进操作员和/或服务器的分析工作。

图1所示为一个通用的***示意图，该***包括可以实施本发明技术的语音控制单元。

特别地，这个***包括；

由操作员122控制的远程服务器116；和

多个用户***114、117和118

远程服务器116分别经通信下行链接115、119和120与用户***114、117和118相连接。这些链接可以是永久的或暂时的以及本领域熟练技术人员所熟悉的任意类型。特别地，它们可以是广播类型和基于RF(射频)、卫星或用于电视的有线频道，或是其它任意类型，例如诸如Internet类型的链接之类。

图1详细说明了经通信上行链接121与服务器116相连接的用户***114。同样，该链接可以是本领域熟练技术人员所熟悉任意类型(特别是电话、Internet，等等)。

特别地，用户***114包括：

包括麦克风的语音信源100，用于对说话者产生的语音信号进行拾音；

语音识别单元102；

用于驱动设备107的控制单元105；

受控的设备107，例如，电视、录像机或移动通信终端类型；

装置109，用于存储经检测认为是未识别的表述；

接口112，允许与服务器116进行上行和下行通信。

信源100经链接101与语音识别单元102相连，允许信源将模拟信源的波形样本发送到单元102。

单元102经链接104可以重现语境信息104(例如被控制单元105控制的设备107的类型或控制码的列表)并经链接103将命令发送给控制单元105。

控制单元105将命令经例如是红外的链接106发送给设备107，该命令作为根据控制单元的语言模型及其字典所识别信息的功能。

控制单元105检测到不能识别的表述并发送一个非识别信号，而不是简单地拒绝这些表述，经链接108，控制单元将这些表述记录于存储装置109。

经链接111，存储未识别的表述的装置109将代表性的数据发送给接口112，经链接121，接口112将这些数据转发给服务器116。在正确传输之后，接口112将信号110发送给存储装置109，接着该装置将发送的数据删除。

此外，控制单元105经链接103接收来自接口112的校正数据，接口112本身经链接115从远程服务器接收该数据。控制单元105参照这些校正数据进行语言模型和/或语音装置组的更新。

根据设想的实施例，信源100、语音识别单元102、控制单元105、存储装置109以及接口112组成了同一设备的一部分，因此链接101、103、104、108、111、110和113是该设备的内部链接。典型地，链接106是无线链接。

根据图1所示发明的第一种实施例变形，元件100、102、105、109和112部分地或完全地独立而不能组成同一设备的一部分，在这种情况下，链接101、103、104、108、111、110和113为外部链接或其他链接。

根据第二种变形，信源100、单元102与105、存储装置109和接口112以及设备107组成同一设备的一部分并由内部总线(链接101、103、104、108、111、110、113和106)连接。这种变形特别有益于该设备是例如移动电话或其他便携式通信终端的情况。

图2所示为一种语音控制单元的示意图，例如参考图1所示的单元102。

注意到，单元102接收来自外部的由声音-语音解码器200或APD(即所谓的“前端”)处理的模拟源波101。APD200以常规的间隔(典型的间隔是10ms)对源波101进行采样以生成实矢量或属于码书的矢量，典型的矢量表示了经链接201发送给识别引擎203的口腔谐振信息。例如，APD基于Hynek Hermansky在论文“Perceptual Liner Prediction(PLP)analysis of speech”详细描述的PLP(Perceptual Liner Prediction，感知线性预测)，该论文发表于“Journal ofthe Acoustical Society of America”，Vol.97，No.4，1990，1738-1752页。

在字典202的帮助下，识别引擎203利用隐马尔可夫模型(或HMM)和语言模型(它表示了在其它词之后出现一个词的概率)将其接收到的实矢量进行分析。Frederic Jelinek所著的“Statistical Method for SpeechRecognition”一书中特别详细地说明了识别引擎，该书由MIT出版社在1997年出版。

语言模型允许识别引擎203(特别地，它可以使用隐马尔可夫网络)判断给定应用中，在说话者可用的任意表述中，紧随给定词汇后的应该是哪个词，并给出关联的概率。所述的这个词在该应用的词汇表里，词汇表的规模可以小(典型的从10到300个词)，也可以大(例如规模超过了300000个词)。

1999年11月29日Thomson Multimedia提交的专利申请PCT/FR00/03329中描述了一种包括多个句法模块的语言模型。本发明是这个专利申请的主体，结合这种类型的标准组件语言模型，特别有利于本发明的使用，由于可以分别地更新这些组件，避免了过度地下载大量文件。

语言模型装载组件207将语言模型发送出去。经链接113，组件207本身接收语言模型、由服务器发送的语言模型和/或语音装置的补充资料或修正量。

应指出字典202属于参考字典中词汇的语言模型。所以，通过组件207装载的语言模型，字典202自身可以进行更新和/或校正。

在执行了基于使用Viterbi算法的识别操作之后，识别引擎203向拒绝组件211提供一张依照语言模型得出的有序词汇序列表，展示了所说的表述的最佳得分。

拒绝组件211执行识别引擎203的后续工作，并根据下述原则中的一个或多个进行操作：

有时，由于Viterbi算法的特殊原因，因为得分过低以至于按照数学计算超出了机器所能接受的准确率限制范围，识别引擎可以不生成连贯的表。所以就没有了连贯的完成建议。因而，当拒绝组件检测到有一个或多个得分低于预定的可接受范围时，拒绝该表述。

因为根据语言模型，关联的得分包含在所有可能表述的最高相关得分中间，所以要保留表里由Viterbi算法计算得到的每一项。另外，结合了所有这些表述的马尔可夫网络可以估计出网络的本征概率，该网络生成了与观察到的得分相关联的表述。拒绝组件211将这个概率进行分析，如果这个值低于预设的可接受概率的阈值，就拒绝该表述。

根据另一种方法，对于经Viterbi算法得到的最佳建议，拒绝组件211利用在Viterbi推导过程中没有考虑的准则，对表述进行补充处理。例如，因为所发的声音与元音有关系，它就可以检查信号的那些部分。如果建议的表述不能满足这些条件，则将其拒绝。

如前所述，当拒绝组件211拒绝了一条表述，就认为该表述未被识别，并将指示了被拒绝的表述的信号发送到识别引擎203。同时，拒绝组件经链接108将未识别的表述的记录发送到存储装置109。

识别引擎203识别从APD200以语音采样形式发送的表述。因而，识别引擎203使用了：

语音装置，以马尔可夫模型的形式构造词汇的语音表示，词汇表202中的每一个词汇可能同时拥有几个“语音表示”；同时

严格意义的语言模型，用于识别复杂度较高或较低的表述。

识别引擎203将被识别的(即就是没有被组件211拒绝的)表述及由接收到的矢量确定的表述提供给装置205，把这些表述转化成能被设备107理解的命令。装置205使用了一种人工智能转化方法，该方法在将一个或多个命令103发送给控制单元105之前，参考了控制单元105提供的语境104。

结合图1所述和图2示意的操作，图3简要地说明了语音识别组件或设备102。

单元102包括通过地址和数据总线互连的：

声音接口301；

模拟-数字转换器302；

处理器304；

非易失性存储器305；

随机存取存储器306；

接收组件312；

发送组件313；以及

输入/输出接口307。

对于本领域熟练技术人员来说，图3所示的每一个元件都是众所周知的。这里不再说明这些普通的元件。

而且，可以看到说明中一直使用的“寄存器”一词指在所述的各个存储器内指定了区域作为寄存器，包括容量小的存储区域(几个字节)和容量大的存储区域(可以存储整个程序或所有的事务处理数据序列)。

特别地，非易失性存储器305(ROM)将用于操纵处理器304的程序保存在“prog”寄存器308中。

随机存取存储器306保存数据、变量和寄存器中的中间处理结果。为方便起见，这些寄存器拥有同它们所存储的数据(类型)相同的名字，包括：

寄存器309，该寄存器中保留着未识别的表述的记录，“Exp_Not_Rec”；

未识别的句子“Nb_Exp_Not_Rec”的计数器310；以及

寄存器311中的语言模型，“Model_Language”。

此外，接收组件312和发送组件313分别接收来自远程服务器116的数据或将数据发送给远程服务器116。对于电信领域的熟练技术人员来说，发送和接收的有线或无线技术是众所周知的，这里不再详细说明。

图4所示为***中的服务器116，该***参照图1。

注意到操作员122通过任意的人/机接口404来控制服务器116(例如，用键盘或屏幕类型)。

特别地，服务器116本身包括：

接收器400；

分析器401；

组件402，用于构造语言模型和/或一组语音装置的修正量；以及

发送器403；

接收器400与终端的发送器313相互兼容并可以经链接121接收来自每一个终端的表示未识别的表述的数据(例如记录)和可能的补充数据(例如语境数据)。

分析器401经链接121接收来自接收器400的一组数据，并将该数据经接口404将发送给操作员122，例如接口404是一种终端，配备有：

屏幕和键盘，允许与服务器116进行对话并允许它的控制；

用于接听未识别的记录的扬声器或音频耳机。

接口404还允许分析器401接收来自操作员122的信息，该信息表示：

仍然不能理解某个没有被语言模型覆盖的未识别的表述，它对于应用中的终端来说是无意义的，和/或与终端不相关的(所以没有被包含在语言模型中)，则在校正语言模型时忽略这个表述并由分析器401将其删除；

否则未识别的表述属于严格意义的语言模型(这就包含了纯识别问题)；在这种情况下，包含了语音装置的调整而不用调整严格意义的语言模型；或

在操作员鉴别了一条表述的内容之后，将不属于语言模型的未识别的表述和对于预定表述的终端来说有意义的未识别的表述翻译为，例如，控制码的形式；这包含了严格意义的语言模型校正。

有可能将第二和第三种解决方案相结合；在这种情况下，同时包含了语音装置和严格意义的语言模型的调整。

本实施方案对应着未识别的表述的手动处理。根据本实施方案，操作员122接听未识别的表述并分析其被拒绝的原因。特别地，操作员122判断该表述是否属于语言模型。在表述属于语言模型的情况下，操作员将表述进行分析以确定本质的识别问题(属于语言模型的表述中，哪些可以被识别而哪些不能被识别的其它原因包括：噪声、说话者的口音等等)。

根据第一种变形，处理是自动的，操作员的干涉是零。在这种情况下，服务器116和分析器401拥有非常大的相关计算能力，特别是这个能力要比终端大的多。根据这种变形，分析器401对每一个未识别的表述进行分析，采用的方式比终端采用的方式更为合理，例如，利用更为充实的语言模型和/或更复杂的语音装置。由于不要求可以同终端(经常需要对说话者的命令作出快速的反应)一样满足这种严格的实时计算需要，分析器401还允许，例如需要比终端中耗费更长处理时间的识别。

根据第二种变形，处理是半自动的，操作员的干涉限于分析器不能解决的情况。

根据这里描述的优选实施例，服务器116的一般结构与那种参照图3的终端的结构相同，特别地，它包括由地址和数据总线互连的：

处理器；

随机存取存储器；

非易失性存储器；

适当的发送组件；

接收组件；以及

人/机连接接口。

根据图5所示的检验表述和记录未识别表述相关数据过程的流程图，该过程由图2中的识别引擎203完成，在首先的初始化步骤500，微处理器304开始执行程序308，并初始化随机存取存储器306中的变量。

接着，在等待一条表述的步骤501，等待并接收由说话者发出的表述。

然后，在检验步骤502，在执行了接收到的表述的语音识别之后，根据一个或多个规则，判断该表述是否已被识别，具体规则参考对图2中拒绝组件211的说明。

如果已被识别，在控制步骤504，语音识别单元102参照接收到表述的语音识别结果并执行适当的操作，例如一条命令。

如果未被识别，在记录表述的步骤503，将未识别的表述压缩并记录于存储装置109，如图6所示，存储装置109等待将表述发送到远程服务器116。

当步骤503或504之一完成时，重复等待表述的步骤501。

图6所示为发送未识别的表述相关数据过程的流程图，该过程由图2中的拒绝组件完成，在第一个步骤初始化600，微处理器304开始执行程序308，并初始化随机存取存储器306中的变量。

接着，在等待未被语音识别组件102识别的表述的步骤601，微处理器304等待并接收未识别的表述的记录。

然后，在步骤602，根据电信领域的熟练技术人员众所周知的方法，将终端114与远程服务器116相连。

下一步，在步骤603，形成未识别的表述的记录，并将其发送到远程服务器116。

接着，在断开步骤604，断开终端与远程服务器116之间的链接，在接口112与存储了与未识别的表述相对应的数据的存储装置109之间发送指出表述记录已发送的信号，接着将这些与表述相对应的数据从存储装置109中删除。

然后，重复步骤601。

图7所示为一种接收校正数据过程的流程图，该过程由图2中装载语言模型的组件完成。

第一个步骤初始化700之后，在步骤701，终端自身为备用状态，等待由服务器116向多个终端广播的校正数据。

接着，在步骤702，终端参考校正数据，更新语言模型和/或语音识别组件使用的那组语音装置。根据校正数据的性质，特别地，这些数据可以：

替换语音模型和/或其语音装置中已有的数据；

调整已有的数据；

补充已有的数据；以及

删除已有的数据。

执行完步骤702之后，重复步骤701。

图8所示为一种接收和处理校正数据过程的流程图，该过程由图4中的远程服务器执行。

在第一个参数和管理服务器的激励程序初始化步骤800之后，服务器116自身为备用状态，等待源自终端(该终端执行图6中所示的步骤602)的连接请求，并根据电信领域的熟练技术人员众所周知的方法建立与该终端之间的连接。

接着，在步骤802，服务器116接收源自执行前面所述步骤603的已连接终端的数据。特别地，这些数据包括因为不能被终端的语音识别组件识别而被终端拒绝的一个或多个表述的记录。当接收完所有的数据，断开终端与服务器116之间的连接。

下一步，在处理接收到数据的步骤803，根据图4所示的多种选择，服务器116分别以利用了操作员122的手动方式或自动或半自动的方式，处理每一条接收到的表述的记录。

接着，在检验步骤804，服务器116判断是否可以理解接收到的一个或多个表述，而且就发送这个或这些表述的终端而言是否相关。语言模型和/或语音装置的更新是必要的。

如果不能理解，重复等待步骤801。

相反情况下，服务器116构造出语言模型的校正，在接收校正数据之后，在终端中的语言模型可以有几种形式执行步骤702(前面已述)。特别地，这些校正数据包括：

指示符，用于说明校正的性质(特别是替代、调整、补充或删除)；以及

作为指示符的函数的校正数据本身。

应指出，如果语言模型包括了多个句法模块(特别是如上述专利PCT/FR00/03329所述的情况)，则分别校正每一个组件。在这种情况下，校正数据还包括被校正的一个或多个组件的指示符。

接着，在步骤806，服务器将校正数据向一个或一组终端广播，根据步骤702，这些终端可以更新自己的语言模型和/或语音装置组。

接着重复步骤801。

这个过程是反复的，会重复几次。这里也允许通过添加新查询来更新应用。

当然，本发明并不限于上述的具体实施例。

特别地，本领域的熟练技术人员可以改变执行本发明的终端的定义，本发明涉及到任意类型的采用或能够采用语音识别方法的设备和/或组件(多媒体类型终端例如电视、录像机、多媒体数字解码器(或机顶盒)和音频或视频设备，固定或移动终端等等)。

同样，本发明涉及到任意类型的远程服务器(例如Internet服务器、电视节目播送器的耦合设备、移动通信网络的耦合设备和服务提供设备，等等)。

而且，根据本发明，特别地，任何用于发送与未识别的句子相对应数据的发送通道和发送校正的语言模型和/或语音装置的发送通道包括：

RF发送途径；

卫星发送途径；

电视播送网络的信道；

Internet类型网络的信道；

电话网的信道；

移动网络的信道；以及

可移动的介质。

而且，应指出本发明不仅涉及到未识别的句子，而且涉及到任何类型的有声表述，例如一个或多个句子、孤立的或非孤立的词汇、短语、允许机器及其用户对话的语音码。这些口头表述不仅关联到命令，而且关联到在机器及其用户之间的对话可以形成主题的任意类型数据，例如，用户发送到机器的信息数据、结构数据和规划数据等等。

还应指出本专利所述的语言模型更新方法不仅可以应用于严格意义的语音识别处理，还可以应用于支持拼写错误和/或键入错误的文字输入以及如本专利所述的基于马尔可夫模型或严格意义语言模型识别的处理。

应指出本发明并不局限于纯粹的硬件装置，也可以以计算机程序的指令序列或任意软件部分与硬件部分的混合体的方式来实现。在这种本发明被部分或整体地以软件形式安装情况下，可以将对应的指令序列存储于可移动存储装置(例如磁盘、CD-ROM或DVD-ROM)中，或者这种存储装置对计算机或微处理器来说部分或完全地可读取。

Claims

1.一种在至少一个终端(114)执行的语音识别方法，所述的语音识别方法使用了语言模型(311)，其特征在于包括步骤：

在所述终端之一，检测(502)出至少一条未识别的表述；

在所述终端中记录(503)表示未识别的表述(309)的数据；

经第一传输通道(121)，所述终端将所述记录的数据发送(603)到远程服务器(116)；

在所述远程服务器端，对所述数据进行分析(803)，并参照所述未识别的表述的至少一部分，生成(805)用于校正语言模型的信息；

经第二传输通道(115，119，120)，将来自所述服务器的所述校正信息发送到至少一个终端(114，117，118)，以允许将来对至少某些所述未识别的表述进行校正。

2.根据权利要求1所述的方法，其特征在于表示所述未识别的表述(309)的所述数据包括压缩的语音记录，所述压缩的语音记录表示了描述声音信号的参数。

3.根据权利要求1或2所述的方法，其特征在于，在所述终端的所述发送步骤过程中，所述终端还向所述服务器发送一组信息中的至少一条信息，组成这组信息的信息包括：

当不能识别一条表述时，使用的语音识别方法的语境信息；和

与发出未识别的表述的说话者相关的信息。

4.根据权利要求1或2所述的方法，其特征在于对所述记录数据和/或所述校正信息进行了加扰和/或解扰。

5.一种使用语言模型的语音识别组件(102)，其特征在于包括：

分析器，用于检测未识别的表述；

记录器，用于记录表示至少一个未识别的表述的数据；

发送器，用于将所述记录的数据发送到远程服务器；以及

接收器，用于接收发送到所述组件的、允许校正语言模型的校正信息，允许所述组件将来识别至少某些所述未识别的表述，当在所述远程服务器端将所述数据进行分析以及参照至少所述未识别的表述的一部分而生成用于校正所述语言模型的信息之后，由所述远程服务器发送校正信息。

6.一种使用语言模型的语音识别设备(102)，其特征在于包括：

分析器，用于检测未识别的表述；

记录器，用于记录表示至少一个未识别的表述的数据；

发送器，用于将所述记录的数据发送到远程服务器；以及

接收器，用于接收发送到所述设备的、允许校正语言模型的校正信息，允许所述设备将来识别至少某些所述未识别的表述，在所述远程服务器端对数据进行分析以及参照至少未所述识别的表述的一部分而生成用于校正所述语言模型的信息之后，由所述远程服务器发送校正信息。

7.一种语音识别服务器(116)，所述识别由一组至少一个远程终端通过语言模型实现，其特征在于包括以下装置：

接收器，用于接收表示未被至少一个终端识别的至少一个表述的数据，该终端是一组至少一个远程终端中的一部分，并在一次识别操作期间检测到了未识别的表述；

发送器，用于将校正信息发送到包括所述一组至少一个远程终端，所述校正信息在所述的服务器端基于对所接收到的数据的分析而获得，通过这组终端中的每一个，利用校正信息可以校正语言模型，利用该语言模型可以在将来识别至少未识别表述中的一部分。