CN1905007A

CN1905007A - 语音识别***和方法

Info

Publication number: CN1905007A
Application number: CNA2006101074544A
Authority: CN
Inventors: 花泽健
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-07-27
Filing date: 2006-07-25
Publication date: 2007-01-31
Anticipated expiration: 2026-07-25
Also published as: CN100590711C; US7809562B2; US20070027693A1; JP2007033901A

Abstract

一种语音识别***具有：识别词典，存储语音信息；初次语音识别装置，用于利用识别词典，响应用户所发出的输入语音信息，执行初次语音识别；和识别结果判断装置，用于判断接受还是拒绝初次语音识别结果。该语音识别***包括：收发机装置，用于当识别结果判断装置拒绝初次语音识别结果时，向额外语音识别装置发送用户的输入语音信息，并且接收额外语音识别装置的二次语音识别所产生的二次语音识别结果；和识别结果输出装置，用于向语音识别***外部输出初次或二次语音识别结果。该语音识别***还包括：确定结果输入装置，用于接收关于初次或二次语音识别结果的确定信息；和词典内容控制装置，用于根据确定信息更新识别词典。

Description

语音识别***和方法

技术领域

本发明涉及一种语音识别***和方法，更具体地，涉及一种服务器-客户端语音识别***和方法。本发明还涉及一种记录有用于语音识别的程序的计算机可读存储介质。本发明可应用于语音输入接口，例如蜂窝电话或个人数字助理。

本申请要求日本专利申请JP 2005-217534的优先权，其公开一并在此作为参考。

背景技术

图1是示出了传统服务器-客户端语音识别***示例的示意图，该***具有客户端设备和服务器设备。在传统服务器-客户端语音识别***中，客户端设备处理相对轻负荷的语音识别，而服务器设备处理相比较而言重负荷的语音识别。具体地，如图1所示，传统服务器-客户端语音识别***具有客户端设备310和服务器设备320，它们通过通信网络330彼此连接。

客户端设备310包括用于输入用户语音的语音输入单元311、用于执行预处理(例如，输入语音数据的波形分析)的语音预处理单元312、以及用于选择随后对预处理后语音数据的内容识别由内部处理(在客户端设备310中)执行还是由外部处理(在服务器设备320)执行的选择器单元313。客户端设备310还包括用于内部内容识别处理的初次语音识别单元314和初次识别词典315、用于与服务器设备320通信的通信单元316、以及用于向***外部发送语音识别结果的识别结果输出单元317。

服务器设备320包括用于与客户端设备310通信的通信单元321、二次语音识别单元322、和二次识别词典323。二次语音识别单元322和二次识别词典323用于外部语音识别处理。例如，在日本待审专利公开No.2003-241796和2004-133699中已经公开了这种类型的语音识别***。

在这种传统语音识别***中，客户端设备310和服务器设备320如下操作。

具体地，当语音数据输入到客户端设备310的语音输入单元311中时，语音预处理单元312对语音数据执行预处理，例如对输入语音数据的读音波形分析等。选择器单元313响应读音波形分析结果操作，并且选择对输入语音数据中内容的识别应该由客户端设备310中的初次语音识别单元314执行还是由服务器设备320中的二次语音识别单元322执行。

如果选择器单元313选择初次语音识别单元314，初次语音识别单元314利用初次识别词典315，对语音数据执行语音识别，并且将识别结果发送到识别结果输出单元317。如果选择器单元313选择二次语音识别单元322，则通过通信网络330将预处理后的语音数据从客户端设备310中的通信单元316发送到服务器设备320。当服务器设备320中的通信单元321从客户端设备310接收到预处理后的语音数据时，二次语音识别单元322立即操作，利用二次识别词典323对接收到的语音数据执行语音识别。通信单元321将语音识别结果通过通信网络330返回给客户端设备310。当客户端设备310中的通信单元316接收到语音识别结果时，识别结果输出单元317将结果提供给用户。

然而，在传统语音识别***中，客户端设备310中的初次识别词典315容量较小，以便减少语音识别所需的处理量。因此，客户端设备310用于识别的词汇量非常有限。这常常使得在传统语音识别***中难以依赖单词来识别用户语音。

在这种情况下，可以考虑由每个用户向客户端终端设备310中的初次识别词典315中连续添加未识别单词的方式。然而，这种向初次识别词典315添加未识别单词的方式对用户造成了严重负担，并且导致客户端一侧的计算量增加。这在语音识别处理期间带来各种问题，例如延迟。

另外，在传统示例中，当客户端设备310从服务器设备320接收到语音识别结果时，只是将这种结果传送给用户，而不积累在客户端设备310中。因此，传统语音识别***的不便之处在于不能满足用户获得频繁使用单词(词汇)或最近使用单词的需要。

发明内容

鉴于上述缺点，做出了本发明。因此，本发明的目的是提供一种语音识别***、一种语音识别方法、以及一种记录有用于语音识别的程序的计算机可读介质，可以有效地向用户提供满足用户需要的单词，例如，即便客户端设备处理能力较小。

根据本发明的第一方面，提供了一种可以有效地向用户提供满足用户需要的单词的语音识别***。该语音识别***具有：识别词典，存储语音信息；初次语音识别装置，用于根据识别词典，对用户的输入语音信息执行初次语音识别，以产生输入语音信息的初次语音识别结果；和识别结果判断装置，用于判断初次语音识别装置所产生的初次语音识别结果的可靠性，并决定接受还是拒绝初次语音识别结果。该语音识别***包括：收发机装置，用于当识别结果判断装置拒绝初次语音识别结果时，向额外语音识别装置发送用户的输入语音信息，并且接收额外语音识别装置的语音识别功能所产生的二次语音识别结果；和识别结果输出装置，用于将从识别结果判断装置输出的初次语音识别结果或者由收发机装置接收到的二次语音识别结果输出到语音识别***外部。

该语音识别***还包括：确定(settlement)结果输入装置，用于接收关于向语音识别***外部输出的初次语音识别结果或者二次语音识别结果的确定信息；和词典内容控制装置，用于根据确定结果输入装置输入的确定信息，更新识别词典。

根据本发明，即使初次语音识别装置处理能力较小，词典内容控制装置也能利用确定的识别结果，不断更新识别词典。因此，该语音识别***可以提供满足用户请求的识别单词。另外，即使用户说出或读出识别词典中没有记录的单词，除了初次语音识别装置的初次识别结果之外，通过额外语音识别装置的语音识别功能，可以容易地获得识别结果(二次语音识别结果)。于是，即使初次语音识别装置处理能力较小，该语音识别***也可以识别没有记录在识别词典中的单词。另外，服务器设备中已经识别的单词或词组可以由词典内容控制装置自动添加到识别词典。因此，当为用户定制识别词典时，可以减轻对用户施加的负担。

根据本发明的第二方面，上述对初次识别结果的接受或拒绝决定取决于外部判定***。具体地，识别结果判断装置包括：识别结果呈现装置，用于向外部判定***呈现初次语音识别装置所产生的初次语音识别结果；以及判定结果输入装置，用于从外部判定***接收判定结果：接收或拒绝初次语音识别结果。

这种布置也具有与本发明第一方面中所述功能相同的功能。另外，当外部判定***(例如，用户)发出判定结果(命令)时，采用该判定结果作为关于初次识别结果的判定信息。因此，用户可以确定是否更新识别词典。于是，可以生成对语音识别具有高处理效率的识别词典，以确保增强处理语音信息的可靠性。

初次语音识别装置可以包括：语音预处理单元，可操作来分析输入语音信息，以提取其特征，以及初次语音识别单元，可操作来根据语音预处理单元所提取的特征，输出初次语音识别结果。在这种情况下，初次语音识别装置可以迅速完成对输入语音信息的初次语音识别。另外，也可以高度准确地执行二次语音识别。

另外，词典内容控制装置可以被配置为在识别词典中的单词数量超过语音识别***的处理能力时，根据过去确定信息的顺序和过去确定信息的频率中至少之一，删除单词。在这种情况下，即使识别词典容量较小并且初次语音识别装置处理能力较小，也可以针对用户喜好迅速输出初次识别结果。另外，因为使用用户的过去使用历史作为针对用来获得初次识别结果的识别词典的信息，所以可以获得适于用户喜好的信息。

另外，词典内容控制装置可以被配置为在识别词典要更新时，向额外语音识别装置发送更新信息。在这种情况下，额外语音识别装置可以具有这样的识别词典，其包括由初次语音识别装置所使用的识别词典的内容。因此，可以迅速执行语音识别。

额外语音识别装置由具有语音识别功能的服务器设备配置。该服务器设备可以通过通信网络与收发机装置通信。

根据本发明的第三方面，提供了一种可以有效地向用户提供满足用户需要的单词的语音识别方法。在该方法中，输入用户的语音信息；根据存储语音信息的识别词典，对语音信息执行初次语音识别，以产生输入语音信息的初次语音识别结果。判断初次语音识别结果的可靠性，并决定接受还是拒绝初次语音识别结果。当拒绝初次语音识别结果时，向额外语音识别装置发送用户的输入语音信息。额外语音识别装置的语音识别功能或二次语音识别产生二次语音识别结果，并接收该结果。向语音识别***外部输出初次语音识别结果或二次语音识别结果。输入关于向语音识别***外部输出的初次语音识别结果或二次语音识别结果的确定信息，并且根据输入的确定信息，更新识别词典。

根据本发明，即使初次语音识别装置处理能力较小，该语音识别***也可以有效且迅速地提供适合用户喜好的识别单词。另外，服务器设备中已经识别的单词或词组可以由词典内容控制装置自动添加到识别词典。因此，当为用户定制识别词典时，可以减轻给用户带来的负担。

根据本发明的第四方面，上述对初次识别结果的接受或拒绝决定取决于外部判定***。具体地，不是进行上述判定过程，而是向外部判定***呈现初次语音识别结果，并从外部判定***接收判定结果：接收或拒绝初次语音识别结果。此配置具有与本发明第三方面中所述功能相同的功能。另外，当外部判定***(例如，用户)发出判定结果(命令)时，采用该判定结果作为关于初次识别结果的判定信息。因此，用户可以确定是否更新识别词典。于是，可以生成对语音识别具有高处理效率的识别词典，以确保增强处理语音信息的可靠性。

另外，当识别词典中的单词数量超过语音识别***的处理能力时，可以根据过去确定信息的顺序和过去确定信息的频率中至少之一，删除单词。另外，当要更新识别词典时，可以向额外语音识别装置发送更新信息。

根据本发明的第五方面，提供了一种记录有用于语音识别的程序的计算机可读存储介质，可以有效地向用户提供满足用户需要的单词。该计算机可读存储介质上记录的程序被配置为执行如下过程。输入用户的语音信息，并根据存储单词语音信息的识别词典，对语音信息执行初次语音识别，以产生输入语音信息的初次语音识别结果。判断初次语音识别结果的可靠性，并决定接受还是拒绝初次语音识别结果。当拒绝初次语音识别结果时，向额外语音识别装置发送用户的输入语音信息。额外语音识别装置的语音识别功能产生二次语音识别结果，并接收该结果。向语音识别***外部输出初次语音识别结果或二次语音识别结果。输入关于向语音识别***外部输出的初次语音识别结果或二次语音识别结果的确定信息，并根据输入的确定信息，更新识别词典。

根据本发明，即使初次语音识别装置处理能力较小，也可利用确定的识别结果，不断更新识别词典。因此，可以提供适合用户喜好的识别单词。另外，即使用户说出识别词典中没有记录的单词，除了初次语音识别装置的初次识别结果之外，通过额外语音识别装置的语音识别功能，可以容易地获得识别结果(二次语音识别结果)。于是，即使初次语音识别功能处理能力较小，也可以容易地识别没有记录在识别词典中的单词。另外，服务器设备中已经识别的单词或词组可以由词典内容控制功能自动添加到识别词典。因此，当为用户定制识别词典时，可以减轻给用户带来的负担。

根据本发明的第六方面，上述对初次识别结果的接受或拒绝决定取决于外部判定***。具体地，不是进行上述判定功能，而是向外部判定***呈现初次语音识别结果，并从外部判定***接收判定结果：接收或拒绝初次语音识别结果。此配置具有与本发明第五方面中所述功能相同的功能。另外，当外部判定***(例如，用户)发出判定结果(命令)时，采用该判定结果作为关于初次识别结果的判定信息。因此，用户可以确定是否更新识别词典。于是，可以生成对语音识别具有高处理效率的识别词典，以确保增强处理语音信息的可靠性。

因此，即使客户端设备处理能力较小，也可以提供满足用户需要的单词。

如上所述，根据本发明，即使客户端设备或语音识别装置对初次语音识别的处理能力较小，也可以提供适合用户喜好的单词，因为不断利用确定的识别结果更新识别词典。

根据如下结合附图的描述，本发明的上述及其他目的、特征和优点将显而易见，附图中图示了本发明的优选实施例作为示例。

附图说明

图1是示出了传统服务器-客户端语音识别***示例的示意图；

图2是示出了根据本发明第一实施例的语音识别***的布置的示意图；

图3是示出了图2所示的语音识别***中初次识别词典示例的说明图；

图4是示出了图2所示的语音识别***的操作的流程图；

图5是示出了根据本发明第二实施例的语音识别***的布置的示意图；

图6是示出了图5所示的语音识别***中单词历史列表和初次识别词典示例的说明图；

图7是示出了图5所示的语音识别***的操作的流程图；

图8是示出了根据本发明第三实施例的语音识别***的词典内容控制单元中单词历史列表示例的说明图。

具体实施方式

下面将参考图2至8描述根据本发明实施例的语音识别***。所有附图中相似或相应的部分由相似或相应的标号来表示，并且下面不重复描述。

图2示出了根据本发明第一实施例的语音识别***的整体。如图2所示，该语音识别***包括用于接收用户语音的客户端设备110、和通过通信网络130与客户端设备110可通信的服务器设备(额外语音识别装置)120。图示的客户端设备110对用户语音执行初次识别，产生用户语音的初次识别结果。服务器设备120对用户语音执行二次识别，产生用户语音的二次识别结果，并且向客户端设备110输出二次识别结果。

客户端设备110包括用于接收输入用户语音或读音的语音输入单元111、初次识别词典113、以及用于利用初次识别词典113对输入语音执行初次识别的初次语音识别装置112。另外，客户端设备110还包括结果判定单元(识别结果判定装置)115，用于确定接受还是拒绝初次识别的结果。另外，客户端设备110还包括通信单元(收发机装置)116，用于在拒绝语音数据的初次识别结果时向服务器设备(额外语音识别装置)120发送语音数据。在这种情况下，通信单元116请求服务器设备120对语音数据执行二次识别，并且接收二次识别的结果。在客户端设备110中，结果输出单元(识别结果输出装置)117用于向***外部输出识别结果。

用户确定或决定输出识别结果为识别的确定结果。客户端设备110包括确定结果输入单元(确定结果输入装置)118，用于接收识别的确定结果。客户端设备110还包括词典内容控制单元(词典内容控制装置)119，用于参考确定结果输入单元118接收到的识别确定结果，更新初次识别词典113。

图示的初次语音识别装置112对语音数据执行初次识别。具体地，初次语音识别装置112包括可操作来分析输入语音以从输入语音中提取特征的语音预处理单元112A，以及可操作来根据所提取的语音特征输出语音数据的初次识别结果的初次语音识别单元112B。

客户端设备110可以具有存储用于语音识别的程序的存储器(未示出)，以及可操作来执行存储器中所存储的程序的中央处理单元(CPU)。在这种情况下，CPU执行程序，以根据程序操作语音预处理单元112A、初次语音识别单元112B、结果判定单元115、通信单元116、结果输出单元117、确定结果输入单元118以及词典内容控制单元119。

接着，将描述该语音识别***中各个部件的操作。

例如，语音输入单元111可以包括麦克风，并接收用户的语音。语音预处理单元(特征输出装置)112A被配置为对输入语音执行读音分析，并从输入语音中提取语音特征。初次识别词典113具有词典数据，其中记录了词汇(单词)和单词的读音，如图3所示。

初次语音识别单元(语音识别装置)112B被配置为根据语音预处理单元112A所提取的语音特征，从初次识别词典113中检索与用户语音相对应的单词。例如，当用户说“e-mail address”时，初次语音识别单元112B从初次识别词典113中检索与用户语音相对应的单词。具体地，初次语音识别单元112B根据从语音预处理单元112A输入的特征，从初次识别词典113中读出单词“e-mail”和“address”。然后，初次语音识别单元112B将单词“e-mail”连到“address”，并产生或生成词组“e-mail address”。此后，初次语音识别单元112B将词组“e-mail address”提供给结果判定单元115。如果初次语音识别单元112B未能读出相应单词，则初次语音识别单元112B向结果判定单元115通知失败。

例如，当从初次语音识别单元112B向结果判定单元(识别结果判定装置)115输入单词时，结果判定单元115计算输入单词的似然或相似性。如果输入单词的似然较高，则结果判定单元115判断输入单词是用户所需单词，并且接受输入单词。如果输入单词的似然较低，则结果判定单元115判断输入单词不同于用户所需单词，并且拒绝输入单词。

例如，当输入单词是初次识别词典113中已经记录的“e-mailaddress”时，结果判定单元115判断输入单词的似然为高，并且接受输入单词。假设另一单词“registration”没有记录在初次识别词典113中。例如，如果初次语音识别单元112B将单词“registration”错误地识别为“change”并输入到结果判定单元115，则结果判定单元115判断输入单词的似然为低，并且拒绝输入单词。

如果从初次语音识别单元112B输出的单词被结果判定单元115拒绝，通信单元(收发机装置)116通过通信网络130向服务器设备120发送语音预处理单元112A所提取的语音特征。然后，通信单元116通过通信网络130从服务器设备120接收语音识别结果。结果输出单元(识别结果输出装置)117被配置为向***外部输出在客户端设备110或服务器设备120中产生的用户语音的语音识别结果(初次或二次识别结果)。

当用户输入确定或决定输出识别结果的请求时，确定或决定结果输入单元(确定结果输入装置)118向词典内容控制单元(词典内容控制装置)119输出该请求。词典内容控制单元(词典内容控制装置)119根据接收到的请求，将新的词典数据记录在初次识别词典113中。另外，如果已记录单词数超过客户端设备110的处理能力，词典内容控制单元119从初次识别词典113中删除最老的单词(执行单词删除功能)。

如图2所示，充当额外语音识别装置的服务器设备120包括通信单元121、二次识别词典122、和二次语音识别单元123。通信单元121被配置为通过通信网络130从客户端设备110接收特征，并且通过通信网络130向客户端设备110发送二次语音识别结果。

二次识别词典122记录词典数据，包括与客户端设备110不能识别的语音相对应的单词，以及其中所记录的单词的读音。另外，二次语音识别单元123具有如下功能：根据从客户端设备110接收到的语音特征，从二次识别词典122中检索与用户语音相对应的单词。另外，二次语音识别单元123对用户语音执行二次语音识别，并且向客户端设备110返回二次识别结果。

接着，将参考图4所示流程图描述第一实施例中语音识别***的操作。

如图4所示，用户语音输入到客户端设备110中的语音输入单元111中(步骤151)。输入语音在语音预处理单元112A中进行读音分析，以提取语音的特征(步骤152)。然后，初次语音识别单元112B根据语音预处理单元112A提取的特征，检索初次识别词典113，并执行初次语音识别(步骤153：语音识别处理)。

例如，当用户说出或发出“e-mail address”的读音时，初次语音识别单元112B从初次识别词典113中检索单词，根据两个单词的特征从初次识别词典113中读出单词“e-mail”和“address”，并将单词“e-mail address”输出到结果判定单元115。如果初次语音识别单元112B未能从初次识别词典113中读出任何相应单词，则初次语音识别单元112B可能向结果判定单元115输出错误单词。图3示出了初次识别词典113中存储的单词示例。

接着，结果判定单元115计算输入单词的似然，并且判定接受或拒绝每个单词(步骤154：识别结果判定处理)。如果结果判定单元115计算输入单词的似然为高，并决定接受输入单词(步骤154：接受)，则结果判定单元115向结果输出单元117输出从初次语音识别单元112B给出的识别结果的单词(步骤155)。然后，处理返回上述步骤152。另一方面，如果结果判定单元115计算输入单词的似然为低，并决定拒绝输入单词(步骤154：拒绝)，则结果判定单元115从语音预处理单元112A获得语音特征，并且将语音特征输出到通信单元116。通信单元116通过通信网络130向充当额外语音识别装置的服务器设备120中的通信单元121发送输入语音特征(步骤156)。

在服务器设备(额外语音识别装置)120中，当通信单元121接收到来自客户端设备110的语音特征时(步骤157)，通信单元121将接收到的语音特征输出到二次语音识别单元123。然后，二次语音识别单元123根据接收到的语音特征，从二次识别词典122中检索与用户语音相对应的单词，以执行二次语音识别(步骤158)。此后，二次语音识别单元123向通信单元121输出二次语音识别所获得的二次识别结果。通信单元121通过通信网络130向客户端设备110中的通信单元116发送二次识别结果(步骤159)。

当客户端设备110的通信单元116从充当额外语音识别装置的服务器设备120接收到二次识别结果时(步骤160：二次识别结果获取处理)，然后通信单元116将二次识别结果输出到结果输出单元117。结果输出单元117以用户可以识别结果的方式输出语音识别结果(步骤161：识别结果输出处理)。然后，当向确定结果输入单元118输入确定所输出识别结果的请求时，然后确定结果输入单元118将所输入的请求输出到词典内容控制单元119(步骤162：确定结果输入处理)。词典内容控制单元119根据接收到的请求，将新的词典数据记录在初次识别词典113中。另外，如果已记录单词数超过客户端设备110的处理能力，则词典内容控制单元119从初次识别词典113中删除最老的单词，以更新初次识别词典113中(步骤163：词典更新控制处理)。然后，处理终止。

根据第一实施例中的语音识别***，即使用户说出客户端设备110的初次识别词典113中没有记录的单词，也可以在服务器设备120中对该单词进行语音处理，并提供给用户。因此，即使客户端设备110的处理能力较小，该语音识别***也可以提供与用户的请求匹配的单词。

另外，根据第一实施例中的语音识别***，即使客户端设备110不能识别单词，该单词也极有可能被带有记录了大量单词的二次识别词典122的服务器设备120(额外语音识别装置)识别。因此，即使用户说出客户端设备110的初次识别词典113中没有记录的单词，该语音识别***也能识别这种单词。

此外，根据第一实施例中的语音识别***，服务器设备120中已经识别的单词或词组可以自动添加到客户端设备110的初次识别词典113中。因此，当对用户定制初次识别词典113时，可以减轻向用户施加的负担。

图5示出了根据本发明第二实施例的语音识别***的整体布置。如图5所示，该语音识别***包括客户端设备200和通过通信网络130与客户端设备200可通信、作为额外语音识别装置的服务器设备120。此配置类似于第一实施例中的语音识别***。

第二实施例中的客户端设备200包括用于向外部判定***呈现初次识别结果的结果呈现单元(识别结果呈现装置)205，以及用于从外部判定***获取判定结果作为判定信息的判定输入单元(判定输入装置)206。结果呈现单元205和判定输入单元206布置在初次语音识别装置112和结果判定单元(识别结果判断装置)115之间，初次语音识别装置112和结果判定单元115在第一实施例中已经描述过。

利用这种结构，外部判断***判断接受还是拒绝由结果呈现单元205所呈现的初次识别结果，并且向判定输入单元206输入判定结果。换句话说，客户端设备200的判断取决于外部判定***(可以是用户)的判定。在这种情况下，用户可以充当外部判定***。如图5所示，该语音识别***的其他布置与第一实施例中的语音识别***(见图2)相同。

第二实施例中的语音识别***具有与第一实施例相同的功能。另外，第二实施例中的语音识别***具有如下功能。具体地，当外部判定***(例如，用户)所发出的判定结果(命令)输入到该语音识别***中时，采用判定结果作为关于初次识别结果的判定信息。因此，用户可以确定是否更新初次识别词典。因此，可以生成对语音识别具有高处理效率的识别词典，以确保增强处理语音信息的可靠性。

客户端设备200可以具有存储用于语音识别的程序的存储器(未示出)，以及可操作来执行存储器中所存储的程序的中央处理单元(CPU)，以便操作语音识别装置112(语音预处理单元112A和初次语音识别单元112B)、结果呈现单元205、判定输入单元206、结果判定单元115、通信单元116、结果输出单元117、确定结果输入单元118以及词典内容控制单元119。

结果呈现单元(识别结果呈现装置)205被配置为向用户(外部判定***)呈现从初次语音识别单元112B输出的初次识别结果，呈现方式是使用户能够识别初次识别结果。然后，用户(外部判定***)将接受或拒绝所呈现的单词初次识别结果的判定结果输入到判定输入单元(判断输入装置)206中。判定输入单元206用于从用户(外部判定***)获取判定结果。无论如何，结果呈现单元205和判定输入单元206与结果判定单元或装置115一起可以统称为结果判断单元或装置，因为它们用来判定接受还是拒绝初次语音识别结果。

这里，词典内容控制单元119用来控制及更新初次识别词典113。词典内容控制单元119具有如图6所示的单词历史列表113a。单词历史列表113a包括由单词、音标或单词发音、使用顺序及使用频率构成的单词历史数据。使用顺序的最大值表示该单词最近使用过。当初次识别词典113记录满了单词时，词典内容控制单元119可以从初次识别词典113中删除单词历史列表113a中列出的使用顺序的值最小的单词(例如，图6中的单词“number”)。可选地，词典内容控制单元119可以删除使用频率最低的单词(例如，图6中的单词“change”)。

当词典内容控制单元119在初次识别词典113中记录新单词时，在单词历史列表113a中将单词历史数据中已记录单词中最大的使用顺序值或者使用频率“00001”存储给新的单词。这里，从初次识别词典113中已经删除的单词可能没有由词典内容控制单元119从单词历史列表113a中删除。因此，单词历史列表113a中记录的单词数等于或大于初次识别词典113中记录的单词数。

接着，将参考图7所示的流程图描述第二实施例中语音识别***的操作。

在该实施例中，当用户语音输入到客户端设备200中的语音输入单元111中时，语音输入单元111将语音输出到语音预处理单元112A(步骤251)。语音预处理单元112A通过读音分析，提取输入语音的语音特征(步骤252)。然后，初次语音识别单元112B根据语音预处理单元112A提取的特征，通过检索初次识别词典113，执行初次语音识别(步骤253)。

例如，当用户说出“e-mail address”时，初次语音识别单元112B从初次识别词典113中检索单词，根据语音特征从初次识别词典113中读出单词“e-mail”和“address”，并将单词“e-mail address”输出到结果呈现单元205。如果初次语音识别单元112B未能从初次识别词典113中读出任何相应单词，则初次语音识别单元112B向结果呈现单元205输出错误单词。

接着，结果呈现单元205将输入的单词呈现给外部判定***，例如用户(步骤254：识别结果呈现处理)。然后，判定输入单元206从外部判定***接收所呈现单词的判定结果(判定结果输入处理)，并向结果判定单元115输出判定结果。结果判定单元115根据输入的判定结果，决定接受还是拒绝所呈现的识别结果(步骤255)。如果结果判定单元115决定接受识别结果(步骤256：接受)，则结果判定单元115向结果输出单元117输出从初次语音识别单元112B输入的识别结果的单词。然后，处理返回上述步骤253。

另一方面，如果结果判定单元115决定拒绝识别结果(步骤255：拒绝)，则结果判定单元115通过通信单元116向服务器设备(额外语音识别装置)120输出从语音预处理单元112A获得的语音特征。通信单元116通过通信网络130向服务器设备120中的通信单元121发送从语音预处理单元112A输入的语音特征(步骤257)。

当服务器设备120中的通信单元121接收到来自客户端设备200的语音特征时(步骤258)，通信单元121将语音特征输出到二次语音识别单元123。然后，二次语音识别单元123根据输入语音特征，从二次识别词典122中检索与用户语音相对应的单词，以执行二次语音识别(步骤259)。此后，二次语音识别单元123向通信单元121输出二次语音识别所获得的二次识别结果。通信单元121通过通信网络130向客户端设备200中的通信单元116发送二次识别结果(步骤260)。

当客户端设备200的通信单元116从服务器设备120接收到二次识别结果时(步骤261)，然后通信单元116将二次识别结果输出到结果输出单元117。结果输出单元117以用户可以识别结果的方式输出二次识别结果(步骤262)。然后，当向确定结果输入单元118输入确定或决定所输出识别结果的请求时，然后确定结果输入单元118将所输入的请求输出到词典内容控制单元119(步骤263)。词典内容控制单元119参考单词历史列表113a，并且如果接收到的请求需要，则将新的词典数据记录在初次识别词典113中。如果初次识别词典113中已记录单词数超过客户端设备200的处理能力，则词典内容控制单元119从初次识别词典113中删除最老的单词，以更新初次识别词典113中(步骤264)。然后，处理终止。

第二实施例中的语音识别***具有与第一实施例中的语音识别***类似的效果。另外，因为在词典内容控制单元119的单词历史列表113a中使用用户的过去使用历史作为针对客户端设备200的初次识别词典113的信息，可以获得适于用户喜好的信息。

根据第一和第二实施例中的语音识别***，从语音预处理单元112A输出的语音特征输出作为要从客户端设备发送到服务器设备的语音数据。然而，读音波形数据可以直接发送到服务器设备。

另外，第一实施例中的语音识别***可以采用第二实施例中公开的词典内容控制单元119和初次识别词典113。

另外，第二实施例中的语音识别***采用使用顺序和使用频率作为历史操作数据。然而，历史操作数据不限于这些示例。另外，使用顺序和适应频率可以单独或组合使用。初次识别词典113中单词数的上限可以根据***的处理能力来设置。如果负荷根据环境变化，则可以动态改变上限。

图8是示出了根据本发明第三实施例的语音识别***的词典内容控制单元中单词历史列表213a示例的说明图。在第三实施例中，除了第一或第二实施例中语音识别***的词典内容控制单元119之外，另外设置图8所示的单词历史列表213a。词典内容控制单元119被配置为根据单词历史列表213a来控制初次识别词典113中的单词。在这种情况下，从客户端设备的通信单元116向服务器设备120发送关于单词历史列表213a的信息。服务器设备120于是接收关于单词历史列表213a的信息。因此，服务器设备120可以获得用户的输入历史，而不用请求用户呈现或者单独监视用户的使用条件。

图8所示的示例是针对蜂窝电话的市场搜索引擎设计的。根据图8所示的单词历史列表213a，可以猜测用户对购买电视感兴趣。因此，管理服务器设备的公司可以向用户发送新产品信息。于是，可以利用语音识别***来进行公司的促销。另外，在传统方法中，应该分析语音识别结果，以获得顾客信息。然而，根据第三实施例中的语音识别***，单词历史列表213a的使用使得不需要分析语音识别结果。

在第三实施例中，语音识别***从客户端设备200的通信单元116向服务器设备发送单词历史列表213a。然而，用户可以设置不向服务器设备发送单词历史列表213a。另外，用户可以设置每次客户端设备与服务器设备120通信以进行语音识别时向服务器设备发送单词历史列表213a。

虽然已经详细示出并描述了本发明的某些优选实施例，但是应该理解，不脱离所附权利要求的范围，可以做出各种改变和修改。

Claims

1.一种用于识别用户所发出的输入语音信息的语音识别***，包括：

识别词典，用于存储语音信息；

初次语音识别装置，用于利用所述识别词典，对输入语音信息执行初次语音识别，以产生输入语音信息的初次语音识别结果；

识别结果判断装置，用于判断接受还是拒绝初次语音识别结果；

收发机装置，用于当所述识别结果判断装置拒绝初次语音识别结果时，向用于执行二次语音识别的额外语音识别装置发送用户的输入语音信息，并且接收额外语音识别装置所产生的二次语音识别结果；

识别结果输出装置，用于将从所述识别结果判断装置输出的初次语音识别结果或者由所述收发机装置接收到的二次语音识别结果输出到所述语音识别***外部；

确定结果输入装置，用于接收关于向所述语音识别***外部输出的初次语音识别结果或者二次语音识别结果的确定信息；以及

词典内容控制装置，用于根据所述确定结果输入装置输入的确定信息，更新所述识别词典。

2.根据权利要求1所述的语音识别***，其中识别结果判断装置包括：

识别结果呈现装置，用于向外部判定***呈现所述初次语音识别装置所产生的初次语音识别结果；以及

判定结果输入装置，用于从外部判定***接收判定结果：接收或拒绝初次语音识别结果。

3.根据权利要求1所述的语音识别***，其中所述初次语音识别装置包括：

(i)语音预处理单元，可操作来分析输入语音信息，以提取其特征，以及

(ii)初次语音识别单元，可操作来根据所述语音预处理单元所提取的特征，输出初次语音识别结果。

4.根据权利要求1所述的语音识别***，其中所述词典内容控制装置可操作来在所述识别词典中的单词数量超过所述语音识别***的处理能力时，根据过去确定信息的顺序和过去确定信息的频率中至少之一，删除单词。

5.根据权利要求1所述的语音识别***，其中所述词典内容控制装置可操作来在所述识别词典要更新时，向额外语音识别装置发送更新信息。

6.根据权利要求1所述的语音识别***，其中由具有语音识别功能的服务器设备配置所述额外语音识别装置，服务器设备通过通信网络与所述收发机装置可通信。

7.一种语音识别方法，包括：

输入由用户所发出的输入语音信息；

根据存储语音信息的识别词典，对语音信息执行初次语音识别，以产生输入语音信息的初次语音识别结果；

决定接受还是拒绝初次语音识别结果；

当拒绝初次语音识别结果时，向用于执行二次语音识别的额外语音识别装置发送用户的输入语音信息；

接收额外语音识别装置所产生的二次语音识别结果；

向语音识别***外部输出初次语音识别结果或二次语音识别结果；

响应于向语音识别***外部输出的初次语音识别结果或二次语音识别结果，输入确定信息；以及

根据输入的确定信息，更新识别词典。

8.根据权利要求7所述的语音识别方法，其中决定步骤包括如下步骤：

向外部判定***呈现初次语音识别结果；以及

从外部判定***接收判定结果：接收或拒绝初次语音识别结果。

9.根据权利要求7所述的语音识别方法，其中更新识别词典的所述更新步骤包括如下步骤：

当识别词典中的单词数量超过语音识别***的处理能力时，根据过去确定信息的顺序和过去确定信息的频率中至少之一，删除单词。

10.根据权利要求7所述的语音识别方法，其中更新识别词典的所述更新步骤包括如下步骤：

当更新所述识别词典时，向额外语音识别装置发送更新信息。

11.一种计算机可读存储介质，记录有程序，用于与计算机一起执行过程，所述过程包括：

输入用户的语音信息；

判断接受还是拒绝初次语音识别结果；

接收额外语音识别装置所产生的二次语音识别结果；

根据输入的确定信息，更新识别词典。

12.根据权利要求11所述的计算机可读存储介质，其中判断步骤包括如下步骤：

向外部判定***呈现初次语音识别结果；以及

13.根据权利要求11所述的计算机可读存储介质，其中更新识别词典的所述更新步骤包括如下步骤：

14.根据权利要求11所述的计算机可读存储介质，其中更新识别词典的所述更新步骤包括如下步骤：当更新所述识别词典时，向额外语音识别装置发送更新信息。