CN101447187A

CN101447187A - 语音识别装置及方法

Info

Publication number: CN101447187A
Application number: CNA2008101781811A
Authority: CN
Inventors: 永江尚义
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-11-26
Filing date: 2008-11-25
Publication date: 2009-06-03
Also published as: US20090138266A1; JP2009128675A

Abstract

本发明涉及语音识别装置及方法。在该装置中，相连字识别单元基于声学模型和语言模型将语音识别为词素串。句子获取单元从正确句子存储单元中获取与所述语音相关的范句。基于匹配程度，句子对应进行单元将所识别出的词素串中所包含的第一词素与所获得的范句中所包含的第二词素进行对应。差异探查单元探查一个或多个与相对应的所述第二词素不匹配的所述第一词素，将其作为差异部分。原因信息获取单元从原因信息存储单元中获取输出信息，该输出信息对应着每个所述差异所符合的状态。输出单元输出所获得的输出信息。

Description

语音识别装置及方法

技术领域

本发明涉及到一种装置和方法，用来识别语音，并在语音被误识别时，确定与用户说出所述语音或说出输入句子的方式相关的问题。

背景技术

近年来，用户能够利用语音来输入句子的语音识别***已经具有了实际用途，并开始作为实际***而用在各种领域中。然而，迄今为止，还没有一个***得到用户的支持并具有非常好的销售量。原因之一在于，语音识别***有时会对输入语音进行误识别。尽管由于技术的进步，识别性能在逐年提高，但仍然没有一种语音识别***，其性能高到足以对所有用户的各种说话方式进行正确的识别。

为了处理这种情形，提出了各种方法来提高语音识别***的性能水平。例如，JP-A 2003-280683(KOKAI)提出了一种技术，根据每个输入句子的所属领域，改变语音识别处理中要处理的识别词汇，使得根据每个输入句子为合适的词汇和合适的同音异义词赋予较高的优先级，从而提高识别性能。

另外，在目前可用的语音识别***中，有时通过改善使用方法可以避免误识别。例如，一般的说，当用户向语音识别***输入语音发声时，希望用户“用恒定的节奏流畅地、慢慢地、仔细地、明白地说话”。另外，对于要输入语音识别***中的句子，希望“句子中的许多单词和表达法在语法上是正确的并且是常用的”。掌握了这种使用方法的用户与没有掌握这种使用方法的用户，其正确识别的百分比大大地不同。

此外，由于不同用户具有不同的语音特征，所以，什么类型的语音会导致什么类型的误识别会根据用户的不同而变化很大。另外，根据语音识别***所使用的数据库中所存储的数据的倾向的不同，误识别的倾向也会变化很大。因此，没有一种使用方法能够适用于所有的用户，并能完全避免误识别。

另外，在语音识别处理期间，将用户所发出的语音(它是一个模拟信号)输入到语音识别***中。因此，即使同一用户在使用语音识别***，输入到***的语音也会根据时间、地点和环境的不同而变化。因此，误识别的倾向也会变化。最后，只有当用户从经验中明白了机器的倾向和特征时，才能学会有效地使用语音识别***。例如，用户需要通过试错来学习有关如何说话以便被正确地识别、麦克风到用户嘴部的最佳距离是多少、以及什么词汇和表达法更可能获得希望的结果等的信息。

然而，像JP-A 2003-280683(KOKAI)之类所描述的那些常规方法把注意力集中在主要通过改善语音识别***内所进行的处理来实现高精度语音识别处理。因此，即使***内进行的处理得到改善，但语音识别处理的精度仍然有可能因***外部所进行的处理(诸如用户的不适当的使用方法)而降低。

发明内容

根据本发明的一个方面，一种语音识别装置包括：范句存储单元，该单元存储有范句；信息存储单元，该单元存储有若干状态和若干条输出信息，它们彼此对应，所述每个状态基于语音输入和某个所述范句之间的差异部分和差异内容提前被确定，而每条所述输出信息涉及所述相应差异的产生原因；输入单元，该单元接收语音的输入；第一识别单元，该单元基于用来确定音素的声学特性的声学模型和用来确定词素之间的连接关系的语言模型将所述输入的语音识别为词素串；句子获取单元，该单元从所述范句存储单元中获取一个与所述输入语音相关的范句；句子对应进行单元，该单元基于所识别出的词素串中所包含的每个第一词素与所获取的范句中所包含的某个第二词素的匹配程度，将每个第一词素与至少一个第二词素进行对应；差异探查单元，该单元探查一个或多个与相应的所述第二词素不匹配的第一词素，将其作为所述差异部分；信息获取单元，该单元从所述信息存储单元中获取与每个探查出的差异部分的状态相对应的一条输出信息；以及输出单元，该单元输出所述获得的各条输出信息。

根据本发明的另一方面，一种语音识别方法包括：接收语音的输入；基于用来确定音素的声学特性的声学模型和用来确定词素之间的连接关系的语言模型将所述输入的语音识别为词素串；从存储有范句的范句存储单元中获取一个与所述输入的语音相关的范句；基于所识别出的词素串中所包含的每个第一词素与所获取的范句中所包含的某个第二词素的匹配程度，将每个所述第一词素与至少一个所述第二词素进行对应；探查一个或多个与相应的一个所述第二词素不匹配的所述第一词素，将其作为所述差异部分；从信息存储单元中获取与每个探查出的差异部分的状态相对应的一条输出信息，其中所述信息存储单元中存储有若干状态和输出信息，它们彼此进行了对应，每个所述状态基于差异部分和差异内容提前被确定，而每条所述输出信息涉及差异的产生原因；以及该方法还包括输出所述获得的输出信息。

附图说明

图1是根据本发明的第一实施例的语音识别装置的方框图；

图2显示了正确句子存储单元中所存储的正确句子的数据结构的例子；

图3显示了原因信息存储单元中所存储的原因信息的数据结构的例子；

图4显示了相连字识别单元所产生的词素串的数据结构的例子；

图5是根据第一实施例所述的语音识别处理的全部过程的流程图；

图6是根据第一实施例所述的差异探查处理的全部过程的流程图；

图7显示了由句子对应进行单元进行了对应的词素的例子；

图8示出了显示屏的例子，在该显示屏上显示了若干条建议；

图9是根据本发明的第二实施例所述的语音识别装置的方框图；

图10显示了样本句子存储单元中所存储的样本句子的数据结构的例子；

图11是根据第二实施例所述的语音识别处理的全部过程的流程图；

图12是根据第二实施例所述的差异探查处理的全部过程的流程图；

图13显示了由句子对应进行单元进行了对应的词素的例子；

图14示出了显示屏的例子，在显示屏上显示了一条建议；

图15是根据本发明的第三实施例所述的语音识别装置的方框图；

图16显示了已经产生的单音节串的数据结构的例子；

图17是根据第三实施例所述的语音识别处理的全部过程的流程图；

图18是根据第三实施例所述的差异探查处理的全部过程的流程图；

图19显示了由句子对应进行单元进行了对应的词素的例子；

图20显示了由音节对应进行单元所进行的对应处理的结果的例子；

图21显示了对应处理的各个结果被结合起来的例子；

图22显示了显示屏的例子，在该显示屏上显示了若干条建议；

图23是根据本发明的第四实施例所述的语音识别装置的方框图；

图24显示了声学信息的数据结构的例子；

图25显示了原因信息存储单元中所存储的原因信息的数据结构的例子；

图26是根据第四实施例所述的语音识别处理的全部过程的流程图；

图27显示了样本句子存储单元中所存储的样本句子的数据结构的例子；

图28显示了相连字识别单元所产生的词素串的数据结构的例子；

图29显示了由句子对应进行单元进行了对应的词素的例子；

图30显示了由声学对应进行单元所进行的对应处理的结果的例子；

图31显示了对应处理的各结果被结合起来的例子；

图32显示了显示屏的例子，在显示屏上显示了若干条建议；以及

图33显示了根据所述第一到第四实施例所述的语音识别装置的硬件配置。

具体实施方式

下面将参考附图详细说明根据本发明所述的装置和方法的示范性实施例。

根据本发明的第一实施例所述的语音识别装置将一个正确的句子(它是提前存储的一个范句)与用户说该正确的句子时所输入的语音的语音识别处理结果进行比较，探查一个或多个差异部分，确定所述差异的成因(诸如不恰当的发声、用户的特点、或输入句子的异常部分)，并输出如何正确地说出该语音以及如何选择要输入的句子，作为建议提供给用户。

如图1所示，语音识别装置100包括麦克风131、显示设备132、声学模型存储单元121、语言模型存储单元122、正确句子存储单元123、原因信息存储单元124，作为其主要的硬件配置。另外，语音识别装置100包括输入单元101、相连字识别单元102、句子获取单元103、句子对应进行单元104、差异探查单元105、原因信息获取单元106、输出单元107，作为其主要的软件配置。

麦克风131接收用户所发出的语音输入。显示设备132显示进行语音识别处理所需要的各种屏幕和消息。

声学模型存储单元121中存储有声学模型，在该模型中定义了音素(phonemes)的声学特征。具体说，声学模型存储单元121中存储有每个音素的特征量(characteristic amount)的标准模式。例如，声学模型存储单元121中存储有利用隐马尔科夫模型(hidden Markov model，HMM)所表示的声学模型。

语言模型存储单元122中存储有语言模型，在该模型中提前定义了各词素之间的连接关系。例如，语言模型存储单元122中存储有利用N元语法模型(N-gram model)所表示的语言模型。

正确句子存储单元123中存储有正确的句子，每个正确句子都被提前定义为要输入的语音的范句。例如，根据第一实施例，用户从显示设备132上所显示的若干正确句子中指定一个正确句子，并通过说出所述指定的正确句子而将语音输入到语音识别装置100中。

如图2所示，正确句子存储单元123中存储有正确的句子，使用符号“|”将每个正确句子分成若干词素(morphemes)。另外，正确句子存储单元123为每个所述词素存储有一条词素信息，这条信息是由所述词素的读法和所述词素的词性部分(例如，名词、动词等)等构成的集合，同时使这些词素和这些条词素信息彼此对应。在图2中显示了一个例子，其中，若干条词素信息的存储顺序对应着各词素排列的顺序，而每条词素信息使用“(词素读法)、(词性)”这样的格式来表示。

回到图1的描述中，原因信息存储单元124中存储有多条原因信息，在每条原因信息中，含有(i)提前为输入语音和所选正确句子之间所能找出的差异部分的不同模式之一所定义的状态(condition)、(ii)所述差异的原因、以及(iii)要为用户输出的建议，并且以上各项彼此对应。

如图3所示，原因信息存储单元124中存储有多条原因信息，在每条原因信息中含有该条原因信息的编号、发声位置、有差异的音节/词素、误识别的产生原因、以及一条建议，它们彼此相对应。

“发声位置”是指相对于整个输入的语音而言与差异部分的位置相关的状态(即，位置状态)。在图3所示的例子中，指定了“发声的开始”(是指发声开始处的位置)、“发声的中部”(是指除了发声的开始和结尾之外的任何位置)、以及“发声的结尾”(是指发声结尾处的位置)。指定发声位置的方法不限于这些例子。只要能够相对于整个输入语音指定每个差异部分，那么使用任何其它方法都是可以接受的。

“有差异的音节/词素”是指与对输入语音进行的识别处理所得到的词素串和相应的正确句子中的词素串之间找到了差异的词汇(即，音节和/或词素)相关的状态(即，词汇状态)。例如，如果由于加入了一个或多个辅音和/或元音而使识别处理结果产生了差异，那么相应的状态就是“加入了辅音/元音”，这个状态由编号1003确定。

原因信息存储单元124中存储有这样的信息，该信息以数据库形式显示了在语音识别处理结果和正确句子之间预期所能找出的差异的不同情形中的误识别的产生原因。例如，如果从语音识别处理结果发现发声的开始部分丢失了，那么，就可以认为，原因是开始部分的用户语音没有被输入语音识别***中。因此，就将“声音被切断”指定为误识别的产生原因，在图中用编号1001来指定。作为另一个例子，如果在发声的开始部分加入了一个或多个不需要的音节(比如“fu”或“fufu”)，那么就可以认为，原因是因为用户的呼吸进入了麦克风131从而输入了一个或多个不需要的音节。因此，就将“由于呼吸而加入了不需要的声音”指定为误识别的产生原因，在图中用编号1002来指定。

当搜寻差异探查单元105所探查到的差异部分所符合的状态并获取与所述差异部分相对应的原因信息时，原因信息获取单元106就查阅原因信息存储单元124。

声学模型存储单元121、语言模型存储单元122、正确句子存储单元123、以及原因信息存储单元124可以由一个或多个通常使用的任何种类的存储介质来配置，这些存储介质有，例如，硬盘驱动器(HDD)、光盘、存储卡、和随机存取存储器(RAM)。

回到图1的描述中，输入单元101对通过麦克风131输入的输入语音模拟信号进行采样处理，将所述模拟信号转换成数字信号(例如，脉冲码调制(pulse code modulation，PCM)形式的数字信号)，并输出所述数字信号。输入单元101所进行的处理可以由通常使用的模拟-数字转换(A/D)技术来实现。也可以这样来配置输入单元101，使得输入单元101响应于预定操作(诸如，按下语音输入按钮(未显示)的操作)从麦克风131接收语音输入。此外，另一种配置也是可以接受的，其中，提前对用户语音的模拟信号单独进行数字化，这样，当使用所述***时，输入单元101就可以通过接收直接输入的数字数据来接收语音输入。在这种情形中，不需要提供麦克风或A/D转换器。

相连字识别单元102使用所述声学模型和语言模型来识别输入的语音，并由识别处理产生词素串。

具体说，首先，相连字识别单元102利用快速傅立叶变换(FFT)分析方法分析例如频率的时间变化来计算发声中的音频信号的特征量(characteristic amount)。之后，相连字识别单元102将声学模型存储单元121中所存储的声学模型与上述处理过程中计算出来的特征量进行比较，并为所述输入语音产生候选识别结果。

此外，相连字识别单元102利用语言模型基于某个假设从所产生的候选识别结果中选出最可能的候选结果，从而高精度地对语音进行识别。相连字识别单元102利用声学模型和语言模型所进行的语音识别处理可以用常规使用的语音听写技术来实现。

如图4所示，相连字识别单元102产生词素串，其中，识别出的各词素用符号“/”彼此分开。将每个词素与一条词素信息进行对应，所述一条词素信息是由语音片段、词素的读法、以及词素的词性(例如，名词、动词等)构成的集合。所述语音片段是指从发声开始时刻到发声结束时刻的一段时间，其中使用输入语音的开端作为参考点来表达所述时刻。在图4中显示了一个例子，其中，各条词素信息的产生顺序对应着词素的排列顺序，而每条词素信息的格式为“(语音片段)、(词素的读法)、(词性)”。

句子获取单元103从正确句子存储单元123中获取用户已经指定的正确句子，作为输入源的输入语音的范句。句子获取单元103也从正确句子存储单元123中获取已经与正确句子进行了对应的词素信息。为了允许用户指定一个正确句子，可以使用通常所用的任何方法，诸如，提醒用户从通过使用按钮(未显示)而显示出来的正确句子的列表中选择一个句子，等等。

句子对应进行单元104将所获得的正确句子中的词素串与识别处理结果中的词素串进行对应。具体说，句子对应进行单元104计算识别处理结果中的词素串所包含的词素与正确句子中的词素串所包含的词素相匹配的匹配程度，使得这些词素彼此对应，而这种对应的方式能使整个句子的匹配程度为最大。句子对应进行单元104所进行的处理可以利用例如动态编程(dynamic programming，DP)匹配方法来实现。

差异探查单元105将识别处理结果中的每个词素与进行了对应的正确句子中的一个词素相比较，探查一个或多个差异部分，其中每个差异部分都包含至少一个与正确句子中的对应词素不匹配的词素，并输出每个探查出的差异部分的时间信息。所述时间信息是指示输入语音中的每个差异部分语音片段的信息。具体说，对于每个差异部分，所述时间信息包括该差异部分中的第一个词素的起始时间和该差异部分中的最后一个词素的结束时间。

原因信息获取单元106分析每个探查出的差异部分，并从原因信息存储单元124中获取与所述差异的产生原因相关的原因信息。具体说，原因信息获取单元106确定输入语音中的每个差异部分的发声位置，并获得与正确句子中的对应词素不匹配的一个或多个音节或词素。之后，原因信息获取单元106在原因信息存储单元124中查找原因信息，在该原因信息中，所确定的发声位置符合所述位置状态(即，原因信息存储单元124中所存储的发声位置)，并且，其中所获得的音节或词素符合词汇状态(即，原因信息存储单元124中所存储的有差异的音节/词素)。此外，对于每个差异部分，原因信息获取单元106获取包括在所获得的原因信息中的误识别的产生原因作为所述差异的产生原因，并获取包括在所获得的原因信息中的建议作为要为用户输出的输出信息。

如果原因信息获取单元106在搜寻期间没有找到与原因信息存储单元124中的那些状态相匹配的原因信息，那么，原因信息获取单元106就获取一般的建议作为输出信息。例如，在这种情况中，原因信息获取单元106获取提前准备好的建议，诸如“识别处理失败。说得更慢更仔细些。”，作为输出信息。

输出单元107控制向显示设备132等输出各种类型的信息的处理。例如，输出单元107将所产生的识别处理结果和所获得的输出信息输出到显示设备132。另一种配置也是可行的，其中，输出单元107包括音频合成单元(未显示)，该音频合成单元将文本信息合成为音频信号，使得输出单元107可以向扬声器(未显示)等输出由所述音频合成单元所合成的输出信息的音频。

下面将参考图5说明如上配制的根据上述第一实施例的语音识别装置100所进行的语音识别处理。

首先，输入单元101接收用户所发出的语音输入(步骤S501)。例如，用户在正确句子存储单元123中所存储的正确句子中提前指定他/她将要说出的正确句子，并通过读出所指定的正确句子来输入该输入语音。另一种配置也是可行的，其中，用户读出由语音识别装置100所任意指定的一个正确句子。

接着，相连字识别单元102使用声学模型和语言模型对所述输入语音进行语音识别处理，并产生词素串作为识别处理的结果(步骤S502)。

之后，句子获取单元103从正确句子存储单元123中获取由用户所指定的一个正确句子，作为与所述输入语音相对应的正确句子，并获得所述正确句子的词素串(步骤S503)。

随后，句子对应进行单元104利用所述DP匹配方法或类似方法将识别处理结果中的词素串里的词素与正确句子中的词素串里的词素进行对应，并产生进行对应的处理结果M[k](k：1到N，其中，N为已经彼此对应了的词素组的总数)(步骤S504)。进行对应的处理结果M[k]包括识别处理结果中的词素串M[k].R和正确句子中的词素串M[k].E。

之后，差异探查单元105利用所述对应结果M[k]进行差异探查处理，以便探查一个或多个差异部分，其中，在每个该差异部分中，相对应的词素串不匹配(步骤S505)。后面将描述差异探查过程的细节。

随后，原因信息获取单元106从原因信息存储单元124中获取一条原因信息，其中，该条原因信息对应着每个探查出的差异部分所符合的状态(步骤S506)。之后，输出单元107向显示设备132输出所获得的原因信息中所包含的建议(步骤S507)，于是，语音识别处理就结束了。

通过进行上述处理，可以确定在输入语音和正确句子之间已经找出的每个差异部分中的差异的产生原因(即，误识别的产生原因)，并向用户显示建议，该建议可以用来避免误识别。换言之，通过输出能够使用户改善使用方法的信息，可以有望提高未来进行的识别处理的精度。

下面将参考图6来说明步骤S505中的差异探查过程的细节。

首先，差异探查单元105从句子对应进行单元104所产生的对应处理的结果中获得还没有被处理过的对应处理的结果M[i](其中1≤i≤N)(步骤S601)。之后，差异探查单元105将识别处理结果中的词素串M[i].R与正确句子中的词素串M[i].E进行比较，其中，M[i].R和M[i].E包含在M[i]内(步骤S602)。

随后，所述差异探查单元判断是否满足M[i].R＝M[i].E，即，它们是否匹配(步骤S603)。如果差异探查单元105判断出它们是匹配的(步骤S603：是)，那么，差异探查单元105就获取下一个未处理的对应处理结果，并重复上述过程(步骤S601)。

如果差异探查单元105判断出它们是不匹配的(步骤S603：否)，那么，差异探查单元105就将所述已经进行了对应的识别处理结果中的词素串M[i].R作为差异部分(步骤S604)。另外，差异探查单元105将所述识别处理结果中的词素串M[i].R中的第一个词素的开始时间和最后一个词素的结束时间分别指定为所述差异部分的开始时间和结束时间(步骤S605)。

之后，差异探查单元105判断对应处理的全部结果是否都被处理了(步骤S606)。如果差异探查单元105判断出不是所有的结果都被处理了(步骤S606：否)，那么，差异探查单元105就获取下一个未处理的对应处理的结果，并重复上述过程(步骤S601)。如果差异探查单元105判断出所有的结果都被处理了(步骤S606：是)，那么，差异探查单元105就结束差异探查处理。

下面将说明根据第一实施例所述的语音识别处理的具体例子。在下面的部分中，将说明一个例子，其中，指定了图2所示的用日语“Takushii nipasupooto o wasure chatta nodesu”(意思是“我将护照丢在出租车中了”)写成的正确句子，并输入了相应的输入语音。

相连字识别单元102识别所述语音输入，并产生词素串作为识别处理的结果(步骤S502)。在本例中，假设产生了如图4所示的词素串。

句子获取单元103从正确句子存储单元123中获取如图2所示的正确句子以及与所述正确句子对应的词素串(步骤S503)。

当获取了如图4所示的识别处理结果和如图2所示的正确句子时，句子对应进行单元104就通过判断这两个词素串之间的匹配程度使它们彼此对应(步骤S504)。在图7中，符号“|”指示出进行了对应的每个词素串的起始和结尾。图4所示的识别处理结果中的词素串显示在图7的顶部，而图2所示的正确句子则显示在图7的底部。

差异探查单元105将图7所示的进行了对应的各词素作相互比较，并探查出一个或多个差异部分(步骤S505)。在图7所示的例子中，差异探查单元105探查出位于发声开始处的差异部分701和位于发声中部的差异部分702。

之后，原因信息获取单元106分析每个差异部分在输入语音中的发声位置以及所述差异部分的内容。例如，原因信息获取单元106确定了差异部分701的发声位置在发声的开始处。另外，对于差异部分701来说，原因信息获取单元106确定了识别处理结果中的词素串“9C”的读法是“kushii”，并确定了它与正确句子中的词素“TAKUSHII”的读法(即“takushii)的后半部分(即“kushii”)部分地匹配(注意，在日语中，数字“9”的一种读法为“ku”，字母“C”可以读为“shii”)。

作为另一个例子，原因信息获取单元106也确定了差异部分702的发声位置在发声的中部。另外，对于差异部分702来说，原因信息获取单元106确定了识别处理结果中的词素“NDESU”的读法是“ndesu”，并确定了它与正确句子中的词素“NODESU”的读法“nodesu”不同，因为“no”变成了“n”。

之后，原因信息获取单元106在原因信息存储单元124中搜寻原因信息，其中该原因信息对应着每个差异的所确定的发声位置和内容所满足的状态(S506)。如果原因信息存储单元124中存储有如图3所示的若干条原因信息，那么原因信息获取单元106就获取由编号1001所指示的差异部分701的原因信息，因为，差异部分701的发声位置是在“发声的开始”处，而且其后半部分的读法与正确句子中的对应词素的读法部分地匹配。

另外，原因信息获取单元106获取由编号1007所指示的差异部分702的原因信息，因为，差异部分702的发声位置是在“发声的中部”处，而且，从“no”到“n”的改变对应着标示为“元音丢失”的差异。

于是，原因信息获取单元106就分别为差异部分701和702获取了由编号1001和1007所指示的建议。随后，输出单元107将所获得的若干条建议输出到显示设备132中(步骤S507)。

如图8所示，在显示屏800上，显示着输入语音811和相对应的正确句子812。另外，也显示了所获得的建议801和802。在图8中显示了一个例子，其中显示了为差异部分701所提供的建议801和为差异部分702所提供的建议802。

输出单元107在所述显示屏上显示了由图3中的编号1001所标示的建议，同时正确句子中的对应词素被嵌入图3中的被指示为“(正确词素)”的那个部分中。另外，输出单元107在所述显示屏上显示了由图3中的编号1007所标示的建议，同时识别处理结果中的对应词素被嵌入图3中的“(识别结果)”所指示的那个部分中。

另一种配置也是可行的，其中，输出单元107输出误识别的产生原因，与所述各条建议一起输出，或者替代所述各条建议来输出。还有一种配置也是可行的，其中，输出单元107以音频形式输出各条建议。

如上所述，根据第一实施例所述的语音识别装置通过将正确的句子与对输入语音进行的识别处理获得的结果进行比较来探查出一个或多个差异部分，通过参考存储有提前指定的误识别的产生原因的数据库来确定所述差异的产生原因，并显示所确定的原因和避免误识别的所确定的方法，一起显示的还有识别处理的结果。

于是，用户能够知道不恰当的发声以及他/她自身的发声特点。此外，用户能够在他/她输入其语音之后马上获得与他/她自身发声有关的具有建议。因此，用户能够很容易地知道如何正确地发声以及如何选择要输入的句子，使他/她将来的语音能够被正确地识别。此外，用户能够有效地获知语音识别装置的误识别的趋势和特征。因此，用户能够在短时间内学会有效地使用所述语音识别装置。用户改善其使用语音识别装置的方法最终就会导致改善语音识别处理的精度。

在根据本发明的第二个实施例的语音识别装置中，不使用正确句子，而使用提前寄存的样本句子作为要输入语音的范句。第二实施例的配置是为了适合于基于样本的搜寻方法，在这种方法中，利用语音识别处理被用作前端。换言之，根据第二实施例的语音识别装置在存储单元中搜寻与对输入语音进行的识别处理的结果完全匹配或类似的样本句子，并利用搜寻到的样本句子作为识别处理结果。也可以将根据第二实施例的语音识别装置运用到一种基于样本的翻译装置的语音识别功能中，其中所述翻译装置还包括能翻译所获得的样本句子的翻译单元。

如图9所示，语音识别装置900包括麦克风131、显示设备132、声学模型存储单元121、语言模型存储单元122、样本句子存储单元923、原因信息存储单元124，作为其主要的硬件配置。另外，语音识别装置900包括输入单元101、相连字识别单元102、句子获取单元903、句子对应进行单元104、差异探查单元905、原因信息获取单元106、输出单元107，作为其主要的硬件配置。

第二实施例不同于第一实施例之处在于，语音识别装置900用样本句子存储单元923替代了正确句子存储单元123，并且句子获取单元903和差异探查单元905具有不同于第一实施例的功能。其它配置和功能与图1所示的那些配置和功能相同，其中图1是根据第一实施例所述的语音识别装置100的方框图。因此，相同的配置和功能将用相同的参考字符来表示，并省略了其说明。

样本句子存储单元923中存储有样本句子，每个样本句子用作要输入语音的范句。图10说明了样本句子存储单元923中所存储的样本句子的数据结构的例子。像图2所示的正确句子存储单元123那样，样本句子存储单元923中存储有样本句子，利用符号“|”每个样本句子被分成各个词素。另外，样本句子存储单元923中为每个词素存储有一条词素信息，该信息是由词素的读法和词素的词性(例如，名词、动词等)所构成的集合，同时使词素和词素信息彼此相对应。

句子获取单元903从样本句子存储单元923中获取一个与对输入语音进行的识别处理的结果完全匹配或类似的样本句子。识别处理的结果与样本句子不必包含彼此完全相同的词素串。换言之，为了获取相应的样本句子，句子获取单元903搜寻具有相同意思的句子，即使该句子中的一些名词或数字以及该句子结尾处的表达或许会与识别处理结果有轻微的不同。样本句子的这种搜寻方法可以由例如Makoto NAGAO(编辑)，“IwanamiKouza Software Kagaku Vol.15，Shizen Gengo Shori”，12.8 Jitsurei-gataKikai Honyaku Houshiki(pp.502-510)，ISBN 4-00-010355-5中所描述的方法来实现。

差异探查单元905将识别处理结果中的每个词素与进行了对应的样本句子中的一个词素进行比较，探查出一个或多个差异部分，其中每个差异部分包含至少一个与所述样本句子中的相应词素不匹配的词素，并输出每个探查出的差异部分的时间信息。

当搜寻样本句子时，有可能搜寻出的样本句子作为整句来说类似于识别处理的结果，但会包含一个或多个根本不与相应词素匹配的词素。如果这些词素中的字符串彼此完全不同，那么，这些部分就不应该被认为是误识别部分。因此，除非识别处理结果中的每个词素内的字符串所包含的预定数目或更多的字符与样本句子中的相应词素内的字符串所包含的字符相匹配，否则，根据第二实施例所述的差异探查单元905不把所述句子的任何部分当作差异部分。例如，差异探查单元905可以这样配置，使得如果词素中不匹配字符的数目与字符总数之比等于或大于某个预定阈值(例如，80％)，那么，差异探查单元905就不把所述词素确定为差异部分。

下面将参考图11说明根据上述第二实施例所述的语音识别装置900所进行的语音识别处理。

步骤S1101到S1102中所进行的语音输入过程和词素串产生过程与根据第一实施例所述的语音识别装置100在步骤S501到S502中所进行的过程相同。因此，其说明就省略了。

之后，句子获取单元903在样本句子存储单元923中搜寻一个与对输入语音进行的识别处理的结果中的词素串完全匹配或类似的样本句子，以及该样本句子的词素信息(步骤S1103)。

步骤S1104中的处理与根据第一实施例所述的语音识别装置100所进行的步骤S504中的处理相同，只是有一点除外，即在步骤S1104中，使用样本句子中的词素串来替代正确句子中的词素串。

之后，差异探查单元905进行差异探查处理(步骤S1105)。后面将说明差异探查处理的细节。

在步骤S1106到S1107中进行的原因信息获取处理和输出处理与根据第一实施例所述的语音识别装置100在步骤S506到S507中所进行的处理相同。因此，其说明省略。

下面将参考图12来说明在步骤S1105中所进行的差异探查处理的细节。根据第二实施例，在步骤S1203中所进行处理不同于在图6所示的步骤S503中所进行的处理，其中图6示出了根据第一实施例所述的差异探查处理。因为在其它步骤中所进行的处理与第一实施例相同，所以其说明就省略了。

在步骤S1203中，除了判断M[i].R＝M[i].E是否被满足(即它们是否匹配)的处理之外，差异探查单元905还执行处理以对M[i].R中所包含的字符串和M[i].E中所包含的字符串进行比较。具体说，差异探查单元905数出M[i].R中所包含的字符串和M[i].E中所包含的字符串中的不匹配字符的数目。此外，差异探查单元905计算不匹配字符的数目与字符的总数之比。之后，差异探查单元905判断所计算出的比例是否等于或大于所述预定阈值(80％)。

如果M[i].R＝M[i].E被满足，或者M[i].R中所包含的字符串和M[i].E中所包含的字符串彼此有80％以上的不同(步骤S1203：是)，那么，差异探查单元905就不把M[i].R确定为差异部分。在任何其它情形中(步骤S1203：否)，差异探查单元905将M[i].R确定为差异部分(步骤S1204)。

下面将说明根据第二实施例所述的语音识别处理的具体例子。在下面的部分中，将说明一个例子，其中，输入了日语语音“Takushii ni pasupootoo wasure chatta nodesu”(意思是“我将护照丢在出租车中了”)。

相连字识别单元102识别所述输入语音，并产生词素串作为识别处理的结果(步骤S1102)。在本例中，假设产生了如图4所示的词素串。另外假设，句子获取单元903从样本句子存储单元923中获取如图10所示的样本句子，作为与图4所示词素串类似的样本句子(步骤S1103)。

当获得了图4所示的识别处理结果和图10所示的样本句子时，句子对应进行单元104通过确定这两个词素串之间的匹配程度使词素彼此对应(步骤S1104)。图13显示了由句子对应进行单元104进行了彼此对应的词素的例子。图4所示的识别处理结果中的词素串示于图13的顶部，而图10所示的样本句子示于图13的底部。

在图13所示的例子中，句子对应进行单元104使用符号“-”来分隔没有对应词素的任何一个词素。另外，如果某个字符串和与其对应的字符串的不匹配部分等于或超过了某个预定长度，那么句子对应进行单元104就整个地使一个片段与一个片段进行对应。在图13中，参考数字1302所指示的片段就这样整个地进行了对应。

差异探查单元905对如图13所示的彼此进行了对应的词素进行比较，并探查出一个或多个差异部分(步骤S1105)。在图13所示的例子中，差异探查单元905在发声的开始处探查出了差异部分1301。在片段1302中，由于不匹配字符的比例高于80％，所以，差异探查单元905不把片段1302确定为差异部分(步骤S1203：是)。

之后，原因信息获取单元106分析差异部分在输入语音中的发声位置以及差异内容。然后，原因信息获取单元106在原因信息存储单元124中搜寻一条原因信息，其中该信息对应着分析出的发声位置和差异内容所符合的状态(步骤S1106)。在图13所示的例子中，原因信息获取单元106获取了由图3中的数字1001所指示的一条原因信息。

于是，原因信息获取单元106就为差异部分1301获得了由数字1001所指示的一条建议。随后，输出单元107将所获得的这条建议输出到显示设备132(步骤S1107)。

如图14所示，在显示屏1400上，显示了输入语音1411和搜寻到的样本句子1412。另外，也显示了所获得的一条建议1401。

如上所述，尽管运用了基于例子的搜寻方法的语音识别处理，根据第二实施例所述的语音识别装置也能够获得与第一实施例类似的有利效果。

如前面所述，也可以将第二实施例所述的方法应用到基于例子的翻译装置中，这种翻译装置通过使用并行翻译样本(parallel translationsamples)来翻译输入语音。有一种可能，即，这种基于例子的翻译装置的用户可以在旅途中携带这种装置，并请不熟悉这种装置的操作以及发声方法的当地人对着这种装置说话。根据第二实施例所述的方法能够处理这种情形，并输出有关如何改善使用方法的建议。因此，所述语音识别装置能使用户流畅地进行交流。

根据本发明的第三实施例所述的语音识别装置进一步以音节为单位来识别输入语音，并将识别处理结果与以词素为单位进行的识别处理结果进行比较。因此，根据第三实施例所述的语音识别装置能够更精确地探查差异部分。

如图15所示，语音识别装置1500包括麦克风131、显示设备132、声学模型存储单元121、语言模型存储单元122、样本句子存储单元923、原因信息存储单元124，以及单音节词典1525，作为其主要的硬件配置。另外，语音识别装置1500包括输入单元101、相连字识别单元102、句子获取单元103、句子对应进行单元104、差异探查单元1505、原因信息获取单元106、输出单元107、单音节识别单元1508、音节对应进行单元1509、以及结合单元1510，作为其主要的软件配置。

第三实施例不同于第二实施例之处在于，另外提供了单音节词典、单音节识别单元1508、音节对应进行单元1509、以及结合单元1510，并且差异探查单元1505具有与第二实施例不同的功能。其它配置和功能与图9所示的那些配置和功能相同，其中图9是根据第二实施例所述的语音识别装置900的方框图。因此，相同的配置和功能将用相同的参考字符来表示，并省略了其说明。

单音节词典1525中存储有一部词典，当以单音节为单位来识别语音时，单音节识别单元1508会参考该词典。

单音节识别单元1508利用声学模型和所述词典来识别输入的语音，并产生单音节串作为识别处理的结果。单音节识别单元1508以单音节为单位来识别输入的语音，其中，每个单音节是一个元音或者是一个辅音和元音构成的集合，在日语中，单音节对应着表音符号，例如一个平假名字符(例如，与声音“a”、“i”、“u”、“ka”、“sa”、“ta”等相对应的日语字母)。然后，单音节识别单元1508输出单音节串作为识别处理结果。

如图16所示，单音节识别单元1508产生单音节串，其中，用符号“/”使识别出的各单音节彼此隔开。另外，使每个单音节与一个语音片段相对应，该语音片段指示了从发声开始时刻到发声结束时刻的一段时间，并且使用输入语音的开始作为参考点来表达。

音节对应进行单元1509将单音节识别单元1508所进行的识别处理所获得的单音节串与相连字识别单元102所进行的识别处理所获得的词素串进行对应。具体说，音节对应进行单元1509参考每个单音节的开始时刻和结束时刻以及每个词素的开始时刻和结束时刻，并使各所述时刻相匹配的那些音节彼此对应，其中，所述开始时刻和结束时刻的表示都以输入语音的开始作为参考点。

结合单元1510将句子对应进行单元104所进行的对应处理的结果和音节对应进行单元1509所进行的对应处理的结果相结合。因此，结合单元1510使单音节串、识别处理结果中的词素串、和样本句子中的词素串彼此对应起来。

差异探查单元1505通过比较已经进行了对应的所述单音节串、识别处理结果中的词素串、和样本句子来探查出一个或多个差异部分，并输出所探查出的差异部分的时间信息。当识别处理以单音节为单位进行时，可以只基于用户发出的语音中的信息来以声音为单位精确地识别输入的语音。因此，差异探查单元105能够通过比较以词素为单位进行的识别处理的结果和以单音节为单位进行的识别处理的结果来很精确地探查出差异部分。换言之，根据第三实施例，可以更精确地理解用户是如何发出语音的。

下面将参考图17来说明根据第三实施例的如上配制的语音识别装置1500所进行的语音识别处理。

步骤S1701到S1704中所进行的语音输入过程、词素串产生过程、样本句子搜寻过程、和句子对应进行过程与根据第二实施例所述的语音识别装置900在步骤S1101到S1104中所进行的过程相同。因此，其说明就省略了。

之后，单音节识别单元1508利用声学模型和词典对输入语音进行语音识别处理，并产生单音节串(步骤1705)。随后，通过参考所述时间信息，音节对应进行单元1509将识别处理结果中的词素串与识别处理结果中的单音节串进行对应，并产生对应处理的结果(步骤S1706)。

之后，结合单元1510将音节对应进行单元1509所进行的对应处理的结果与句子对应进行单元104所进行的对应处理所获得的结果M[k]相结合(步骤S1707)。因为所述每个对应处理的结果都包括作为识别处理结果的词素串，所以，通过使用所述词素串作为参考，结合单元1510能够将两个对应处理的结果结合起来。

步骤S1703到S1704中进行的处理和步骤S1705到S1706中进行的处理的顺序不限于上述例子。也可以首先进行步骤S1705到S1706中的处理。另一种安排也是可行的，其中，步骤S1703到S1704中的处理和步骤S1705到S1706中的处理同时进行。换言之，可以以任何顺序来进行这些处理，只要当结合单元1510要将这些对应处理的结果结合在一起时，这些对应处理的结果已经被产生。

之后，差异探查单元1505进行差异探查处理(步骤S1708)。后面将说明差异探查处理的细节。

在步骤S1709到S1710中进行的原因信息获取处理和输出处理与根据第二实施例所述的语音识别装置900在步骤S1106到S1107中所进行的处理相同。因此，其说明省略。

下面将参考图18说明在步骤S1708中所进行的差异探查处理的细节。

首先，差异探查单元1505从已经结合了的对应处理的各结果中获取还没有处理过的对应处理的结果M[i](其中1≤i≤N)(步骤S1801)。之后，差异探查单元1505获取所述识别处理结果中的词素串内的第一个词素以及所述第一个词素的开始时间(步骤S1802)。另外，差异探查单元1505获取所述识别处理结果中的词素串内的最后一个词素以及所述最后一个词素的结束时间(步骤S1803)。

随后，差异探查单元1505从所述识别处理结果中的词素串内所包含的音节中获取音节串Rp，该音节串是与从所获得的开始时刻到所获得的结束时刻这段时间相对应的一系列音节(步骤S1804)。此外，差异探查单元1505从所述识别处理结果中的单音节串中获取单音节串Tp，该单音节串对应着从所获得的开始时刻到所获得的结束时刻这段时间(步骤S1805)。

在步骤S1806中进行的词素串比较处理与根据第二实施例所述的语音识别装置900在步骤S1202中所进行的处理相同。因此，其说明省略。

之后，除了判断M[i].R＝M[i].E是否被满足(即它们是否匹配)的处理外，差异探查单元1505还对在步骤S1804中所获得的音节串Rp和在步骤S1805中所获得的单音节串Tp进行比较(步骤S1807)。

如果M[i].R＝M[i].E和Rp＝Tp都被满足(步骤S1807：是)，那么，差异探查单元1505就不把M[i].R确定为差异部分。在任何其它情形中(步骤S1807：否)，差异探查单元1505将M[i].R确定为差异部分(步骤S1808)。

在步骤S1809到S1810中进行的时间设置处理和完成判断处理与根据第二实施例所述的语音识别装置900在步骤S1205到S1206中所进行的处理相同。因此，其说明省略。

下面将说明根据第三实施例所述的语音识别处理的具体例子。在下面的部分中，将说明一个例子，其中，输入了日语的输入语音“Takushii nipasupooto o wasure chatta nodesu”(意思是“我将护照丢在出租车中了”)。

相连字识别单元102识别所述输入语音，并产生词素串作为识别处理的结果(步骤S1702)。在本例中，假设产生了如图4所示的词素串。另外假设，句子获取单元903从样本句子存储单元923中获取如图10所示的样本句子，作为与图4所示词素串类似的样本句子(步骤S1703)。

当获得了如图4所示的识别处理结果和如图10所示的样本句子时，句子对应进行单元104通过确定所述两个词素串之间的匹配程度使词素彼此对应(步骤S1704)。图19显示了由句子对应进行单元104进行了彼此对应的各词素的例子。图4所示的识别处理结果中的词素串示于图19的顶部，而图10所示的样本句子示于图19的底部。

此外，根据第三实施例，单音节识别单元1508对输入语音进行识别，并产生单音节串作为识别处理结果(步骤S1705)。在本例中，假设单音节识别单元1508产生了如图16所示的词素串。

当获得了如图16所示的单音节串和如图4所示的词素串作为识别处理结果时，通过参考所述时间信息，音节对应进行单元1509将所述单音节串和所述词素串进行相互对应(步骤S1706)。图20示出了音节对应进行单元1509所进行的对应处理的结果的一个例子。图16所示的单音节串示于图20的顶部，而图4所示的词素串示于图20的底部。

之后，通过使用所述词素串作为参考，结合单元1510将图19和图20中的对应处理的各结果结合在一起(步骤S1707)。在图21中，示于图21的顶部的图20中的对应处理的结果与示于图21底部的图19中的对应处理的结果结合起来。

对于没有音节或词素可以进行对应的任何部分，句子对应进行单元104、音节对应进行单元1509、和结合单元1510就用一个空音节或空词素进行对应。

差异探查单元1505对如图21所示的彼此进行了对应的词素和音节进行比较，并探查出一个或多个差异部分(步骤S1708)。在图21所示的例子中，差异探查单元1505能够在发声的开始处探查出差异部分2101，如在第二实施例的例子中那样。

此外，根据第三实施例所述的差异探查单元1505通过以音节为单位对词素和音节进行比较，能够探查出差异部分2102、2103、和2104。具体说，通过比较以单音节为单位所进行的识别处理的结果和以词素为单位所进行的识别处理的结果，差异探查单元1505不仅能够探查出在识别处理结果中的词素串和样本句子之间已被发现的差异部分2101，而且能探查出差异部分2102到2104，下面详细说明。

例如，尽管识别处理结果中的词素串包含小品词“o”，但在单音节串中不包含相应的单音节。因此，差异探查单元1505就探查出差异部分2102。另外，在词素串中所识别出的音节“cha”与以单音节为单位所识别出的音节“chi”不匹配。因此，差异探查单元1505就探查出差异部分2103。类似地，在词素串中所识别出的音节“ndesu”与以单音节为单位所识别出的音节“nde”不匹配。因此，差异探查单元1505就探查出差异部分2104。

之后，原因信息获取单元106分析输入语音中的每个差异部分的发声位置以及差异内容。然后，原因信息获取单元106在原因信息存储单元124中搜寻一条原因信息，该信息对应着与每个差异部分的分析出的发声位置和内容所满足的状态(步骤S1709)。

在图21所示的例子中，首先，原因信息获取单元106获取由图3中的编号1001所指示的一条原因信息，作为与差异部分2101相对应的原因信息。另外，对于差异部分2102，因为位于发声中部的词素中所包含的小品词“o”没有被识别出来，所以，原因信息获取单元106就获取由图3中的编号1008所指示的一条原因信息。此外，对应差异部分2103，因为位于发声中部的词素中所包含的辅音丢失了，所以，原因信息获取单元106就获取由图3中的编号1007所指示的一条原因信息。另外，对于差异部分2104，因为只有位于发声结尾处的读音的前一部分与相应词素匹配，所以，原因信息获取单元106就获取由图3中的编号1009所指示的一条原因信息。

于是，原因信息获取单元106就分别为差异部分2101到2104获取了由编号1001、1008、1007、和1009所指定的各条建议。之后，输出单元107将所获得的所述各条建议输出到显示设备132上(步骤S1107)。

如图22所示，在显示屏2200上，显示了输入语音2211和所搜寻到的样本句子2212。另外，也显示了为差异部分2101到2104所获得的建议2201到2204。

如上所述，根据第三实施例所述的语音识别装置不仅以词素为单位而且以音节为单位来识别输入语音。因此，通过比较以音节为单位所进行的识别处理的结果和以词素为单位所进行的识别处理的结果，所述语音识别装置能够更精确地探查差异部分。

根据本发明的第四实施例所述的语音识别装置能够进一步探查包括输入语音的音量在内的声学信息，并通过参考所探查出的声学信息进一步详细确认误识别的产生原因。

如图23所示，语音识别装置2300包括麦克风131、显示设备132、声学模型存储单元121、语言模型存储单元122、样本句子存储单元923、原因信息存储单元2324，以及声学信息存储单元2326，作为其主要的硬件配置。另外，语音识别装置2300包括输入单元101、相连字识别单元102、句子获取单元903、句子对应进行单元104、差异探查单元2305、原因信息获取单元2306、输出单元107、声学信息探查单元2311、声学对应进行单元2312、以及结合单元2313，作为其主要的软件配置。

第四实施例不同于第二实施例之处在于，另外提供了声学信息探查单元2311、声学对应进行单元2312、声学信息存储单元2326、以及结合单元2313，并且原因信息存储单元2324具有与第二实施例不同的数据结构，差异探查单元2305和原因信息获取单元2306具有与第二实施例不同的功能。其它配置和功能与图9所示的那些配置和功能相同，其中图9是根据第二实施例所述的语音识别装置900的方框图。因此，相同的配置和功能将用相同的参考字符来表示，并省略了其说明。

声学信息探查单元2311探查输入语音的声学信息。例如，声学信息探查单元2311探查诸如输入语音的功率(即，音量)、停顿长度(即，没有声音的片段的长度)、音调(pitch)(即，语音的速度)、和语调等声学信息。声学信息探查单元2311为每种不同类型的声学信息输出由所探查出的一条声学信息的值和时间信息(即，开始时间和结束时间)构成的集合，其中，所述时间信息指示探查出所述一条声学信息的片段，以输入语音的开始作为参考点来表示。

声学信息存储单元2326中存储有由声学信息探查单元2311所探查出的声学信息。如图24所示，声学信息存储单元2326中存储有若干条声学信息，这些声学信息根据声学信息的类型进行分类，并以“(该条声学信息的值)：(时间信息)”这样的格式来表示。在图24所示的例子中，使用从0(低)到10(高)的数值来表示功率，使用从1(快)到10(慢)的数值来表示音调(pitch)。

尽管在图中省略了，但如果探查出没有声音的片段作为声学信息的一部分，那么也将所述没有声音的片段的时间信息(即，开始时刻和结束时刻)存储在声学信息存储单元2326中。作为另一个例子，如果探查出语调作为声学信息的一部分，那么就将表明使用了升语调还是降语调的信息以及时间信息所构成的集合存储在声学信息存储单元2326中。

声学对应进行单元2312将声学信息探查单元2311所探查出的每条声学信息与相连字识别单元102所进行的识别处理所获得的词素串进行对应。具体说，通过参考探查出声学信息的每个片段的开始时间和结束时间以及每个词素的开始时间和结束时间，声学对应进行单元2312将时间相匹配的各条声学信息和词素串彼此进行对应。

结合单元2313将句子对应进行单元104所进行的对应处理的结果和声学对应进行单元2312所进行的对应处理的结果结合起来，使得各条所述声学信息、作为识别处理的结果所获得的词素串、和样本句子中的词素串彼此对应。

原因信息存储单元2324不同于上述示范性实施例中所述的原因信息存储单元124之处在于，原因信息存储单元2324中存储有还包括声学信息和优先级信息的若干条原因信息。在这种情形中，优先级信息显示了基于一条声学信息获得的一条建议是否比基于词素获得的一条建议具有更高的优先级。

如图25所示，原因信息存储单元2324中存储有若干条原因信息，在每条原因信息中包含标示该条原因信息的编号、发声位置、有差异的音节/词素、一条声学信息、误识别的产生原因、一条建议、和一条优先级信息，它们被保持为彼此对应。

在图25所示的例子中，只显示了若干条原因信息，在其中的每一条中都指定了一条声学信息。然而，另一种安排也是可行的，其中，原因信息存储单元2324中存储有这样的原因信息，在这些原因信息中，指定了有差异的音节/词素的状态，像根据上述示范性实施例的图3中的原因信息那样。

差异探查单元2305不同于根据第二实施例的差异探查单元905之处在于，差异探查单元2305输出探查出的差异部分，同时还使差异部分与时间信息匹配的声学信息彼此对应。

原因信息获取单元2306不同于根据第二实施例的原因信息获取单元106之处在于，原因信息获取单元2306搜寻这样的原因信息，该原因信息除了符合与发声位置和有差异的音节/词素相关的状态外，还符合与所述声学信息相关的状态，而且，不同之处在于，原因信息获取单元2306通过参考优先级信息来获取被赋予了较高优先级的原因信息。

下面将参考图26来说明根据如上配制的第四实施例所述的语音识别装置2300所进行的语音识别处理。

步骤S2601到S2604中的处理与根据第二实施例的语音识别装置900在步骤S1101到步骤S1104中所进行处理相同。因此，其说明省略。

之后，声学信息探查单元2311从输入语音中探查一条或多条声学信息(步骤S2605)。随后，通过参考所述时间信息，声学对应进行单元2312使识别处理结果中的词素串与所探查出的各条声学信息进行对应，并产生所述对应处理的结果(步骤S2606)。

之后，结合单元2313将声学对应进行单元2312所进行的对应处理的结果与句子对应进行单元104所进行的对应处理所获得的结果M[k]结合起来(步骤S2607)。由于所述对应处理的每个结果都包含识别处理结果中的词素串，所以，结合单元2313能够使用所述词素串作为参考将对应处理的两个结果结合起来。

步骤S2603到S2604中的处理和步骤S2605到S2606中的处理进行的顺序不限于上述例子。也可以首先进行步骤S2605到S2606中的处理。另一种安排也是可行的，其中，步骤S2603到S2604中的处理和步骤S2605到S2606中的处理并行进行。换言之，可以以任何顺序来进行这些处理，只要当结合单元2310要将这些对应处理的结果结合在一起时，这些对应处理的结果已经产生。

在步骤S2608中进行的差异探查处理与根据第二实施例的语音识别装置900在步骤S1105中进行的处理相同。因此，其说明省略。

之后，原因信息获取单元2306从原因信息存储单元124中获取一条原因信息，该原因信息对应着每个所探查出的差异部分所符合的状态(步骤S2609)。通过利用与每个探查出的差异部分相对应的声学信息，根据第四实施例所述的原因信息获取单元2306考虑与所述声学信息相关的状态来搜寻所述原因信息。

随后，输出单元107在显示设备132上输出所获得的原因信息中所包含的建议(步骤S2610)，语音识别处理就结束了。

下面将说明根据第四实施例的语音识别处理的具体例子。在下面的部分中，假设样本句子存储单元923中存储有样本句子，包括图27所示的样本句子。换言之，样本句子存储单元923中存储有日语样本句子“Takushiini pasupooto o wasureta nodesu”(意思是“我将护照丢在出租车中了”)。另外假设，用户说出了同样的样本句子，并将日语语音输入到语音识别装置2300中。

相连字识别单元102识别所述输入语音，并产生词素串作为识别处理的结果(步骤S2602)。在本例中，假设相连字识别单元102产生了如图28所示的词素串。另外假设，句子获取单元903从样本句子存储单元923中获取了如图27所示的样本句子，作为与图28所示词素串类似的样本句子(步骤S2603)。

当获得了如图28所示的识别处理结果和如图27所示的样本句子时，句子对应进行单元104通过确定这两个词素串之间的匹配程度使各词素彼此对应(步骤S2604)。图29显示了由句子对应进行单元104进行了彼此对应的词素的例子。图28所示的识别处理结果中的词素串示于图29的顶部，而图27所示的样本句子示于图29的底部。

根据第四实施例，声学信息探查单元2311进一步从输入语音中探查声学信息(步骤S2605)。在本例中，假设声学信息探查单元1311探查出了如图24所示的若干条声学信息(关于功率和音调(pitch))。

当获得了如图24所示的若干条声学信息和如图28所示的词素串时，声学对应进行单元2312通过参考所述时间信息将所述若干条声学信息和所述词素串进行相互对应(步骤S2606)。图30显示了由声学对应进行单元2312所进行的对应处理的结果的例子。

图24所示的声学信息示于图30的顶部，而图28所示的词素串示于图30的底部。另外，在图30中，功率用“v(功率值)”的格式来表示，而音调(pitch)则用“s(音调值)”的格式来表示。

之后，结合单元2313利用所述词素串作为参考将图29和图30所示的对应处理的结果结合起来(步骤S2607)。图31显示了这样一个例子，其中，所述对应处理的结果已经由结合单元2313结合起来了。图30所示的对应处理的结果示于图31的顶部，而图29所示的对应处理的结果示于图31的底部。

差异探查单元2305将如图31所示进行了对应的词素作比较，并探查一个或多个差异部分(步骤S2608)。在图31所示的例子中，差异探查单元2305能够探查出在发声开始处的差异部分3101、在发声中部的差异部分3102、以及在发声结尾处的差异部分3103。

随后，原因信息获取单元2306除了分析输入语音中的每个差异部分的发声位置和差异内容外，还分析与每个差异部分进行了对应的声学信息。然后，原因信息获取单元2306在原因信息存储单元2324中搜寻一条原因信息，该条原因信息对应着所述发声位置、差异内容和声学信息所符合的状态(步骤S2609)。

在图31所示的例子中，首先，原因信息获取单元2306获取由图3中的编号1001所指示的原因信息，作为差异部分3101的原因信息。另一方面，图25所示的原因信息存储单元2324中没有存储如下所述的原因信息，该原因信息包含差异部分3101进行了对应的功率值8和音调值5所符合的关于声学信息的状态。因此，原因信息获取单元2306为差异部分3101获取由编号1001所指示的建议。

另外，对于差异部分3102，由于没有识别出位于发声中部的词素中的小品词“o”，所以，原因信息获取单元2306获取由图3中的编号1008所指示的原因信息。图25中的原因信息存储单元2324存储有由编号1101所指示的原因信息，该原因信息包含差异部分3102进行了对应的功率值6和音调值2所符合的关于声学信息的状态。另外，这条原因信息没有被优先级信息指定为“被赋予了优先级”的一条原因信息。因此，原因信息获取单元2306获取由编号1008和1101所指示的两条建议。

此外，对于差异部分3103，由于发声结尾处的读音只有前一部分与相应的词素匹配，所以，原因信息获取单元2306获取由图3中的编号1009所指示的原因信息。图25所示的原因信息存储单元2324中存储有由编号1104所指示的原因信息，该原因信息包含与差异部分3103进行了对应的功率值2和音调值4所符合的关于声学信息的状态。另外，这条原因信息被优先级信息指定为“被赋予了优先级”的一条原因信息。因此，原因信息获取单元2306不获取由编号1009所指示的建议，而只获取由编号1104所指示的建议。

之后，输出单元107在显示设备132上输出所获得的各条建议(步骤S2610)。

如图32所示，在显示屏3200上，显示了输入语音3211和搜寻到的样本句子3212。另外，也显示了为差异部分3101、3102和3103所获得的各条建议3201、3202、和3203。

如上所述，根据第四实施例所述的语音识别装置通过参考与例如输入语音的音量相关的声学信息，能够进一步详细地确认误识别的产生原因。

在第三和第四实施例中，可以使用第一实施例中所述的正确句子存储单元来替代样本句子存储单元。另外，可以将第三和第四实施例结合起来，从而可以利用通过以单音节为单位进行识别处理来稿精度地探查差异部分的功能和通过探查声学信息来详细地确认差异的产生原因的功能。

下面将参考图33来说明根据所述第一到第四实施例所述的语音识别装置的硬件配置。

根据所述第一到第四实施例所述的每种语音识别装置都包括控制设备(如中央处理单元(CPU)51)、存储设备(如只读存储器(ROM)52和随机存取存储器(RAM)53)、以及通信接口(I/F)54(建立与网络的连接并进行通信)和总线61(使这些组件彼此相连)。

根据第一到第四实施例的每种语音识别装置所执行的语音识别计算机程序提前存储在ROM 52或类似存储器中以被提供。

另一种安排也是可行的，其中，由根据第一到第四实施例所述的每种语音识别装置所执行的语音识别计算机程序被记录在计算机可读记录介质(诸如，致密光盘只读存储器(CD-ROM)、软盘、可记录致密光盘(CD-R)、数字通用光盘(DVD)等)上以被提供，并储存在具有可安装格式或可执行格式的文件中来提供。

此外，还有一种安排是可行的，其中，由根据第一到第四实施例所述的每种语音识别装置所执行的语音识别计算机程序被存储在与网络(例如互联网)相连的计算机上，并通过网络可以下载。还有一种安排是可行的，其中，由根据第一到第四实施例所述的每种语音识别装置所执行的语音识别计算机程序通过网络(例如互联网)来提供或分配。

由根据第一到第四实施例所述的每种语音识别装置所执行的语音识别计算机程序具有模块化配置，该模块化配置包括上述各功能单元(例如，输入单元、相连字识别单元、句子获取单元、句子对应进行单元、差异探查单元、原因信息获取单元、和输出单元)。作为实际的硬件配置，当CPU51从ROM 52读取并执行语音识别计算机程序时，这些功能单元就被加载到主存储设备中，从而在主存储设备中产生这些功能单元。

Claims

1.一种语音识别装置，包括：

范句存储单元，用于存储范句；

信息存储单元，用于存储彼此进行了对应的若干状态和若干条输出信息，每个所述状态基于语音输入和任何所述范句之间的差异部分和差异内容提前被确定，而每条所述输出信息涉及相应差异的产生原因；

输入单元，该单元接收语音的输入；

第一识别单元，该第一识别单元基于用来确定音素的声学特性的声学模型和用来确定各词素之间的连接关系的语言模型将所输入的语音识别为词素串；

句子获取单元，该单元从所述范句存储单元中获取一个与所输入的语音相关的范句；

句子对应进行单元，该单元基于所识别出的词素串中所包含的每个第一词素与所获取的范句中所包含的任何第二词素的匹配程度将所述每个第一词素与至少一个所述第二词素进行对应；

差异探查单元，该单元探查与相应的一个所述第二词素不匹配的一个或多个所述第一词素，将其作为所述差异部分；

信息获取单元，该单元从所述信息存储单元中获取与每个探查出的所述差异部分的状态相对应的一条输出信息；以及

输出单元，该单元输出所获取的输出信息。

2.根据权利要求1所述的装置，还包括：

第二识别单元，该单元基于所述声学模型以及定义与单音节相对应的词汇的词典信息，将所述输入的语音识别为单音节串；以及

音节对应进行单元，该单元将所识别出的单音节串中所包含的每个单音节与在所述输入的语音中有匹配的发声片段的所述第一词素中所包含的任何音节进行对应，其中，

所述差异探查单元还探查一个或多个所含音节与相应的单音节不匹配的所述第一词素，将其作为所述差异部分。

3.根据权利要求1所述的装置，其中，所述句子获取单元从所述范句存储单元中获取一个指定的范句，作为与所述输入的语音相关的一个范句。

4.根据权利要求1所述的装置，其中，所述句子获取单元从所述范句存储单元中获取与所述输入的语音类似或与所述输入的语音完全匹配的一个范句。

5.根据权利要求4所述的装置，其中，所述差异探查单元计算每个所述第一词素中与相应的一个所述第二词素中的字符不匹配的字符的数目，计算每个所述第一词素中所述字符数目与字符总数的比值，并探查一个或多个所述比值小于预定阈值的所述第一词素，将其作为差异部分。

6.根据权利要求1所述的装置，还包括：

声学信息探查单元，该单元探查若干条声学信息，每条声学信息都显示了所述输入的语音的声学特性，并且该单元输出彼此对应的若干条片段信息和所探查出的若干条声学信息，所述多条片段信息中的每一条都显示了所述输入的语音中的一个语音片段，从中探查出了相应的一条声学信息；以及

声学对应进行单元，该单元将每条所探查出的声学信息与所述第一词素中所包含的任何所述音节相对应，其在所述输入的语音中的语音片段与所述声学信息所对应的所述片段信息中所显示的语音片段相匹配，其中，

所述信息存储单元存储有相互对应的若干状态和若干条输出信息，其中每个所述状态与一个所述差异部分中的一条所述声学信息相关，以及

所述信息获取单元从所述信息存储单元中获取这样一条输出信息，该条输出信息对应着与每个所探查出的差异部分相对应的所述声学信息的状态。

7.根据权利要求6所述的装置，其中，每条所述声学信息为音量、音调、无声片段的长度、和语调中的至少一个。

8.根据权利要求1所述的装置，其中，

所述信息存储单元存储有相互对应的位置状态、词汇状态、以及所述若干条输出信息，每个所述位置状态涉及所述输入的语音中的每个差异部分的发声位置，每个所述词汇状态涉及在与每个所述差异部分进行了对应的任何第二词素和所述差异部分之间不匹配的词汇，以及

所述信息获取单元抽取所述输入的语音中的每个探查出的差异部分的发声位置，以及在每个探查出的差异部分和与所述差异部分进行了对应的任何第二词素之间不匹配的词汇，并从所述信息存储单元中获取这样一条输出信息，该输出信息对应着所抽取出的发声位置所符合的一个位置状态和所抽取出的词汇所符合的一个词汇状态。

9.一种语音识别方法，包括：

接收语音的输入；

基于确定音素的声学特性的声学模型和确定各词素之间的连接关系的语言模型将所述输入的语音识别为词素串；

从存储有范句的范句存储单元中获取一个与所述输入的语音相关的范句；

基于所识别出的词素串中所包含的每个第一词素与所获取的范句中所包含的任何第二词素的匹配程度，将每个所述第一词素与至少一个所述第二词素进行对应；

探查一个或多个与相应的一个所述第二词素不匹配的所述第一词素，将其作为所述差异部分；

从信息存储单元中获取与每个探查出的所述差异部分的状态相对应的一条输出信息，其中所述信息存储单元中存储有彼此对应的若干状态和若干条输出信息，每个所述状态基于差异部分和差异内容被提前确定，而每条所述输出信息涉及差异的产生原因；以及

输出所述获得的若干条输出信息。