CN102770910A

CN102770910A - 声音识别装置

Info

Publication number: CN102770910A
Application number: CN2010800644564A
Authority: CN
Inventors: 山崎道弘; 丸田裕三
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-03-30
Filing date: 2010-03-30
Publication date: 2012-11-07
Anticipated expiration: 2030-03-30
Also published as: JPWO2011121649A1; CN102770910B; JP5274711B2; US20120239399A1; DE112010005425T5; WO2011121649A1

Abstract

对于成为识别对象的词汇数量为阈值以上的词汇，预先生成识别词典（静态生成词典），对于识别对象的词汇数量小于阈值的词汇，在对话情境中生成识别词典（动态生成词典）。

Description

声音识别装置

技术领域

本发明涉及对输入声音进行声音识别的声音识别装置。

背景技术

现有的声音识别装置中，以大词汇识别对利用对话成为识别对象的词汇的范围逐渐进行缩小这样的声音识别的情况下，一般预先生成与对话内容相对应的声音识别词典（以下称为识别词典）。因此，在需要分别生成与各种对话内容相对应的识别词典的情况下，为了将预先生成的识别词典进行存储而需要大容量的存储装置。

此外，除了上述的预先生成识别词典的情况以外，还有根据与使用者的对话进展状况在线收集识别对象词汇来生成识别词典的情况。在此情况下，若要在所有的声音识别的情境中都生成识别词典，则随着在线收集的词汇数量增多，使生成识别词典所需的时间（编译时间等）增加。该词典生成时间成为使用者在对话过程中的等待时间。

专利文献1中揭示了一种声音信息检索装置，其能根据与使用者的对话进展，动态地变更用于声音识别的词汇，根据来自使用者的要求，返回以前使用过的词汇。该装置中，基于以前的声音识别及词汇检索的结果的历史来选择识别对象的词汇，从而能高效地检索识别对象的词汇数量。

此外，在专利文献2中揭示了一种预测使用者的行动来动态地变更识别词典的声音识别装置。该装置保持有使用者的行动历史，基于从行动历史导出的行动时间带等来预测使用者的行动，并更新或变更识别对象词汇。由此，能根据使用者的行动历史缩小识别对象的词汇数量。

然而，在专利文献1中，由于基于以前的声音识别及词汇检索的结果的历史来选择识别对象的词汇，因此，存在以下的问题：无法根据对话内容来缩小识别对象的词汇数量，对话过程中的识别词典的生成长增加。

同样，在专利文献2中也存在无法根据使用者的行动历史内容来缩小识别对象的词汇数量、使识别词典的生成所需的时间增加的可能性。

本发明是为了解决上述问题而完成的，其目的在于得到一种能缩短与使用者的对话过程中生成识别词典所需的时间、且能降低将预先生成的识别词典进行存储所需的存储区域的使用容量的声音识别装置。

现有技术文献

专利文献

专利文献1：日本专利特开平7－219590号公报

专利文献2：日本专利特开2002－341892号公报

发明内容

本发明所涉及的声音识别装置利用对话边切换识别对象的词汇边进行声音识别，所述声音识别装置包括：静态生成部，该静态生成部对于成为识别对象的词汇数量为阈值以上的词汇预先生成识别词典；动态生成部，该动态生成部对于识别对象的词汇数量小于阈值的词汇，在对话情境中生成识别词典；以及声音识别部，该声音识别部参照由静态生成部或动态生成部所生成的识别词典来对输入声音进行声音识别。

根据本发明，对于成为识别对象的词汇数量为阈值以上的词汇，预先生成识别词典，对于识别对象的词汇数量小于阈值的词汇，在对话的情境中生成识别词典，因此，具有能缩短与使用者对话过程中生成识别词典所需的时间、且能降低将预先生成的识别词典进行存储所需的存储区域的使用容量这样的效果。

附图说明

图1是表示本发明的实施方式1的声音识别装置的结构的框图。

图2是表示本发明的实施方式2的声音识别装置的结构的框图。

图3是表示本发明的实施方式3的声音识别装置的结构的框图。

图4是表示实施方式3的识别词典动态生成判定部所进行的判定处理流程的流程图。

图5是表示实施方式3的识别词典静态生成判定部所进行的判定处理流程的流程图。

图6是表示本发明的实施方式4的声音识别装置的结构的框图。

图7是表示本发明的实施方式5的声音识别装置的结构的框图。

具体实施方式

以下，为了更详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1

图1是表示本发明的实施方式1的声音识别装置的结构的框图。实施方式1中的声音识别装置1在声音识别中使用以下识别词典：在利用与使用者的对话进行声音识别之前预先生成的识别词典；以及在与使用者的对话过程中生成的识别词典。本发明中，将在利用与使用者的对话进行声音识别之前、所谓的静态生成的识别词典称为“静态生成词典”，此外，将在与使用者的对话过程中、所谓的动态生成的识别词典称为“动态生成词典”。

识别词典静态生成判定部2是根据能成为声音识别对象的词汇数量来判定是否需要静态生成使用该词汇的识别词典的结构部。识别词典静态生成部（静态生成部）3是使用被识别词典静态生成判定部2判定为需要生成识别词典的词汇来静态生成识别词典的结构部。静态生成词典在不影响与使用者对话的情况下生成，而且，通过大量使用成为识别对象的词汇来进行生成，能在对话的任意时刻使用。

识别对象词汇存储部4是将在进行声音识别的各情境中能成为识别对象的词汇进行存储的存储部。例如，在将本发明应用于车载导航***、使该车载导航***具有对住所等进行声音识别的功能的情况下，在识别对象词汇存储部4中存储有县名、各县中包含的市城镇村的名称、各市城镇村中包含的区或地块等作为能成为识别对象的词汇。

静态生成词典存储部5是将由识别词典静态生成部3所生成的识别词典（静态生成词典）进行存储的存储部。对话管理部6是使用未图示的输入装置及显示装置来提供HMI（Human Machine Interface：人机界面）、从而与使用者进行对话处理的结构部。例如，对话管理部6基于从使用者输入的信息，从识别对象词汇存储部4选出成为声音识别对象的词汇（以下称为识别对象词汇）。

识别词典动态生成判定部7是根据与声音识别部10所执行的声音识别相对应的识别对象词汇的静态生成词典是否已经存储于静态生成词典存储部5内来判定是否需要动态生成该识别对象词汇的识别词典的结构部。

识别词典动态生成部（动态生成部）8是使用被识别词典动态生成判定部7判定为需要生成识别词典的词汇来动态生成识别词典的结构部。

例如，识别词典动态生成部8使用被对话管理部6选择的识别对象词汇或经由未图示的通信单元从外部在线取得的识别对象词汇来生成动态生成词典。另外，由于动态生成词典是使用根据与使用者的对话进展而变更的识别对象词汇来动态生成的，因此，与静态生成词典相比，能减少词典生成所使用的识别对象词汇数量，缩短词典生成所需的时间。

识别词典存储部9是将声音识别部10进行的声音识别处理中所使用的识别词典进行存储的存储部，用于存储从静态生成词典存储部5读取的静态生成词典或利用识别词典动态生成判定部7所生成的动态生成词典。声音识别部10是使用从识别词典存储部9读出的识别词典来执行声音识别的结构部。

此外，通过在计算机上执行按照本发明的要点的声音识别用程序，作为硬件和软件协同动作的具体单元，能在该计算机上实现识别词典静态生成判定部2、识别词典静态生成部3、对话管理部6、识别词典动态生成判定部7、识别词典动态生成部8、及声音识别部10。

而且，能由装载在上述计算机上的存储装置、例如硬盘装置或外部存储介质等来构建识别对象词汇存储部4、静态生成词典存储部5、及识别词典存储部9。

接下来，对动作进行说明。

（1）静态生成词典的生成

首先，识别词典静态生成判定部2对于存储在识别对象词汇存储部4中的各词汇，判定是否需要生成静态生成词典。

此处，例如，若词汇数量为动态生成识别词典的情况下所需的时间处于规定时间以内的词汇数量，则判定为不需要生成静态生成词典，若词汇数量为超过上述规定时间的词汇数量的情况下，判定为需要生成静态生成词典。

此外，在声音识别装置1中，也可以预先对使用进行声音识别的各情境中的识别对象词汇的词典生成时间（动态生成词典的生成时间）进行测量和存储，识别词典静态生成判定部2对于存储于声音识别装置1一侧的上述测量值超过规定时间的词汇，判定为需要生成静态生成词典。

在识别词典静态生成判定部2判定为需要生成静态生成词典时，识别词典静态生成部3使用从识别对象词汇存储部4读出的词汇来生成静态生成词典。识别词典的生成方法如下：在以文本字符串提供词汇的情况下，以G2P（Grapheme to Phoneme：字素音素转换）生成关于文本字符串的读音（音素等），以变换成声音识别部10能参照的格式的数据。例如，变换为二进制以成为声音识别部10能受理的格式，除此之外，根据需要，进行形态分析（morphological analysis）、单词分割来制成语言限制。

由识别词典静态生成部3生成的静态生成词典存储在静态生成词典存储部5中。静态生成词典存储部5例如构建在硬盘装置或非易失性存储器等的存储装置上。在静态生成词典中，在对住所进行声音识别的情况下，能将县名、各县中包含的市城镇村的名称、各市城镇村中包含的区或地块等的词汇的层次结构中的所有的层次的词汇用作识别对象词汇来进行生成。

另外，例如，在识别对象词汇不发生动态变化的住所的声音识别等中，静态生成词典也可以在声音识别装置1的外部进行生成，然后存储在静态生成词典存储部5内。

此外，也可以在声音识别装置1起动时，或在更新能成为识别对象的词汇的数据库即识别对象词汇存储部4的存储内容的定时，生成静态生成词典。

（2）对话情境中的动作

在声音识别装置1中，以与使用者的对话来进行声音识别时，对话管理部6基于使用者指定的声音识别的情境及与该使用者的对话历史等，从存储于识别对象词汇存储部4中的词汇中依次选择识别对象词汇。

例如，在对住所进行声音识别的情况下，在识别开始时，对话管理部6将存储于识别对象词汇存储部4内的词汇中的县名选作识别对象词汇，在使用者输入县名之后，从识别对象词汇存储部4中选出从属于该县名的词汇即市区城镇村的名称作为识别对象词汇。由此，对话管理部6通过与使用者的对话，来求出识别对象词汇及其词汇数量。

接下来，识别词典动态生成判定部7对使用由对话管理部6求出的识别对象词汇的静态生成词典是否已经生成，即是否已经存储于静态生成词典存储部5内进行判定。此处，在关于识别对象词汇的静态生成词典已经生成的情况下，识别词典动态生成判定部7从静态生成词典存储部5读出该静态生成词典，并作为声音识别部10进行的声音识别处理中使用的识别词典存储到识别词典存储部9内。

另一方面，若没有生成关于识别对象词汇的静态生成词典，则识别词典动态生成判定部7对识别词典动态生成部8发出生成关于该识别对象词汇的动态生成词典的指示。根据该指示，识别词典动态生成部8生成关于该识别对象词汇的动态生成词典，并作为声音识别部10进行的声音识别处理中使用的识别词典存储到识别词典存储部9内。另外，识别词典的生成方法与利用上述的识别词典静态生成部3进行的静态生成词典的生成方法相同。

例如，在对住所进行声音识别的情况下，若根据与使用者的对话进展将县名选作识别对象词汇，则生成将县名作为识别对象词汇的动态生成词典，接着，生成将市区城镇村的名称作为识别对象词汇的动态生成词典。

即，根据与使用者的对话进展，将县名、各县中包含的市城镇村的名称、各市城镇村中包含的区或地块等的词汇的层次结构中的各层次的词汇选作动态生成词典的识别对象词汇。

声音识别部10使用存储于识别词典存储部9内的识别词典来对输入声音进行声音识别。作为声音识别的方法，例如实施HMM（Hidden MarkovModel：隐马尔科夫模型）或DP匹配等，对输入声音求出登记在识别词典中的识别对象词汇的概率，将似然度（概率）最高的词汇作为声音识别结果进行输出。

另外，也可以不选择似然度最高的词汇，而是将识别对象词汇中似然度较高的前N个词汇作为声音识别结果。

如上所述，根据本实施方式1，对于成为识别对象的词汇数量为阈值以上的词汇，预先生成识别词典（静态生成词典），对于识别对象的词汇数量小于阈值的词汇，在对话情境中生成识别词典（动态生成词典），因此，能缩短与使用者对话过程中生成识别词典所需的时间，且能降低将预先生成的识别词典进行存储所需的存储区域的使用容量。

实施方式2

图2是表示本发明的实施方式2的声音识别装置的结构的框图。如图2所示，实施方式2中的声音识别装置1A在上述实施方式1所示的声音识别装置1的结构的基础上，还包括动态生成词典管理部（存储管理部）11及动态生成词典临时存储部（临时存储部）12。另外，在图2中，对与图1相同或与其相当的结构标注相同标号，并省略说明。

动态生成词典管理部11是对将由识别词典动态生成部8所生成的动态生成词典存储到动态生成词典临时存储部12内的存储处理进行管理的结构部。动态生成词典临时存储部12是将由动态生成词典管理部11判断为存储对象的动态生成词典进行临时存储的存储部。

此外，通过使计算机执行按照本发明的要点的声音识别用程序，作为硬件和软件协同动作的具体单元，能在该计算机上予以实现识别词典静态生成判定部2、识别词典静态生成部3、对话管理部6、识别词典动态生成判定部7、识别词典动态生成部8、声音识别部10、及动态生成词典管理部11。

而且，能以装载在上述计算机上的存储装置、例如硬盘装置或外部存储介质等中构建识别对象词汇存储部4、静态生成词典存储部5、识别词典存储部9、及动态生成词典临时存储部12。

接下来，对动作进行说明。

若由识别词典动态生成部8新生成动态生成词典，则动态生成词典管理部11对动态生成词典临时存储部12的存储容量是否超过规定容量进行判定。此处，若动态生成词典临时存储部12的存储容量小于规定容量，则动态生成词典管理部11将新生成的动态生成词典存储到动态生成词典临时存储部12内。

另一方面，在动态生成词典临时存储部12的存储容量超过规定容量的情况下，动态生成词典管理部11基于目前存储在动态生成词典临时存储部12内的动态生成词典的使用历史或使用频度来决定从动态生成词典临时存储部12删除的动态生成词典，并实施删除。

例如，将最终的使用日期时间最老的动态生成词典作为删除对象。

此外，也可以将声音识别装置1A运行中使用过的、平均使用间隔最长的动态生成词典作为删除对象。

若删除存储于动态生成词典临时存储部12内的动态生成词典，则动态生成词典管理部11将新生成的动态生成词典存储到动态生成词典临时存储部12内。

除此之外，动态生成词典管理部11除了对存储在动态生成词典临时存储部12内的动态生成词典进行管理以外，还可以对存储在静态生成词典存储部5及识别词典存储部9内的识别词典的使用历史或使用频度进行管理，并据此与上述相同地将词典存储到静态生成词典存储部5及识别词典存储部9内。

在静态生成词典存储部5及动态生成词典临时存储部12内均未存储有识别对象词汇的识别词典的情况下，识别词典动态生成判定部7对于识别词典动态生成部8判定为需要生成该识别对象词汇的动态生成词典。

此外，若识别对象词汇的识别词典已经存储在静态生成词典存储部5及动态生成词典临时存储部12中的的任一个中，则识别词典动态生成判定部7读出该识别词典并将其存储到识别词典存储部9内。声音识别部10使用存储于识别词典存储部9内的识别词典来对输入声音进行声音识别。

由此，作为识别对象词汇的识别词典，能利用临时存储在动态生成词典临时存储部12内的动态生成词典。由此，不必根据与使用者的对话进展每次都新生成动态生成词典，能减轻生成动态生成词典所需的处理负荷。

如上所述，根据本实施方式2，由于包括：动态生成词典临时存储部12，该动态生成词典临时存储部12将由识别词典动态生成部8所生成的识别词典（动态生成词典）进行临时存储；以及动态生成词典管理部11，该动态生成词典管理部11根据动态生成词典的使用状况对是否将该识别词典存储到动态生成词典临时存储部12内进行管理，因此，将存储识别词典的存储装置的使用量抑制成最小，且能减少用于生成词典的运算量。

实施方式3

图3是表示本发明的实施方式3的声音识别装置的结构的框图。实施方式3中的声音识别装置1B是利用与使用者的对话边切换识别对象词汇边进行声音识别的装置，设想为如音乐检索（例如，整个设备中的曲子、选择艺术家后的曲子、选择唱片后的曲子等）那样，沿词汇的层次结构，在每个对话情境（进行声音识别的情境）中识别对象词汇发生变化的声音识别装置。

如图3所示，声音识别装置1B包括：识别词典静态生成判定部2a、识别词典静态生成部3a、识别对象词汇存储部4a、静态生成词典存储部5a、对话管理部6a、识别词典动态生成判定部7、识别词典动态生成部8、识别词典存储部9、声音识别部10、识别对象词汇更新部13、及声音识别结果选择部14。

识别词典静态生成判定部2a是根据存储在识别对象词汇存储部4a内的词汇有无更新来判定是否需要静态生成使用识别对象词汇存储部4a中的词汇的识别词典的结构部。识别词典静态生成部（静态生成部）3a是使用识别词典静态生成判定部2a中判定为需要静态生成的识别对象词汇存储部4a中的词汇来静态生成识别词典的结构部。

识别对象词汇存储部4a是将在进行声音识别的情境中能成为识别对象的词汇进行存储的存储部，利用识别对象词汇更新部13来更新存储内容。静态生成词典存储部5a是将由识别词典静态生成部3a所生成的静态生成词典进行存储的存储部。

对话管理部6a是使用未图示的输入装置及显示装置来提供HMI、从而与使用者进行对话处理的结构部，从识别对象词汇存储部4a选择识别对象词汇。识别词典动态生成判定部7是根据与声音识别部10所执行的声音识别相对应的识别对象词汇的静态生成词典是否已经存储于静态生成词典存储部5a内来判定是否需要动态生成该识别对象词汇的识别词典的结构部。

识别词典动态生成部8是使用由识别词典动态生成判定部7判定为需要生成识别词典的词汇来动态生成识别词典的结构部。识别词典存储部9是对声音识别部10进行的声音识别处理中所使用的识别词典进行存储的存储部，用于存储从静态生成词典存储部5a读出的静态生成词典或利用识别词典动态生成判定部7所生成的动态生成词典。此外，声音识别部10是使用从识别词典存储部9读出的识别词典执行声音识别的结构部。

识别对象词汇更新部13是对存储在识别对象词汇存储部4a内的识别对象词汇进行更新的结构部。例如，如果是上述的音乐检索***，在连接有便携式音乐播放器的情况下，识别对象词汇更新部13从该便携式音乐播放器的存储器读出全部曲名词典、全部艺术家名字词典、全部唱片名字词典等的全部词汇，对存储在识别对象词汇存储部4a内的词汇进行更新。

声音识别结果选择部14是从声音识别部10的识别结果候选中仅选出与由对话管理部6a所选择的识别对象词汇相对应的识别结果候选、并作为声音识别的结果进行输出的结构部。

另外，通过使计算机执行按照本发明的要点的声音识别用程序，作为硬件和软件协同动作的具体单元，能在该计算机上实现识别词典静态生成判定部2a、识别词典静态生成部3a、对话管理部6a、识别词典动态生成判定部7、识别词典动态生成部8、声音识别部10、识别对象词汇更新部13、及声音识别结果选择部14。

而且，能以装载在上述计算机上的存储装置、例如硬盘装置或外部存储介质等来构建识别对象词汇存储部4a、静态生成词典存储部5a、及识别词典存储部9。

接下来，对动作进行说明。

（1a）静态生成词典的生成

实施方式3的声音识别装置1B适用于根据与使用者的对话进展边切换识别对象词汇边进行声音识别的***中以下那样的***：如音乐检索（例如，整个设备中的曲子、选择艺术家后的曲子、选择唱片后的曲子等）那样，沿词汇的层次结构，在每个对话情境缩小识别对象词汇。

在该***中，在识别对象词汇发生变化的情况下，识别对象词汇更新部13对存储在识别对象词汇存储部4a内的词汇进行更新。

此处，所谓的识别对象词汇发生变化的定时例如可以列举外部的便携式音乐播放器与声音识别装置1B相连接或断开的时候，***或排出CD的定时。

识别词典静态生成判定部2a在存储在识别对象词汇存储部4a内的识别对象词汇得到更新的定时，选择要生成的静态生成词典。例如，如果是上述的音乐检索***，在连接有便携式音乐播放器的情况下，对存储在识别对象词汇存储部4a内的词汇用曲名、艺术家名字、唱片名字等的词汇进行更新，将存储在该识别对象词汇存储部4a内的全部词汇的词典，即全部曲名词典、全部艺术家名字词典、全部唱片名字词典等的词典选作静态生成词典。

识别词典静态生成部3a与上述实施方式1相同，生成由识别词典静态生成判定部2a所选择的静态生成词典，并将其存储到静态生成词典存储部5a内。

（2a）对话情境中的动作

在声音识别时，对话管理部6a通过与使用者的对话求出识别对象词汇及其词汇数量Nn。这些信息（识别对象词汇及其词汇数量Nn）从对话管理部6a输出到识别词典动态生成判定部7。

识别词典动态生成判定部7使用存储在静态生成词典存储部5a内的静态生成词典的识别对象词汇的包含关系及识别对象词汇数量的比率，对是否需要让识别词典动态生成部8新生成识别词典、是否将存储在静态生成词典存储部5a内的静态生成词典用作识别词典进行判定。该判定例如按照以下那样进行。

图4是表示实施方式3的识别词典动态生成判定部7所进行的判定处理流程的流程图。

首先，识别词典动态生成判定部7对静态生成词典存储部5a内是否存在包含对话管理部6a利用与使用者的对话新选择的全部识别对象词汇的静态生成词典进行判定（步骤ST1）。例如，在对话中，选择类型，在将所选择的类型中包含的艺术家名字作为目前的识别情境的词汇进行设定时，由于全部艺术家名字词典中包含目前所选择的艺术家名字词典，因此判断为存在静态词典。

此处，若静态生成词典存储部5a内不存在上述静态生成词典（步骤ST1：否），则识别词典动态生成判定部7判定为需要利用识别词典动态生成部8新生成包含对话管理部6a所选择的识别对象词汇的动态生成词典（步骤ST8：情形3（Case3））。此后，识别词典动态生成判定部7对于识别词典动态生成部8发出生成关于该识别对象词汇的动态生成词典的指示。根据该指示，识别词典动态生成部8生成关于该识别对象词汇的动态生成词典，并将其作为声音识别部10进行的声音识别处理中使用的识别词典存储到识别词典存储部9内。

另一方面，在静态生成词典存储部5a内存在上述静态生成词典的情况下（步骤ST1：是），识别词典动态生成判定部7从存储在静态生成词典存储部5a内的、包含对话管理部6a新选择的全部识别对象词汇的静态生成词典中选择词汇数量最少的词典Ds（步骤ST2）。

接着，识别词典动态生成判定部7获取词典Ds中包含的词汇数量Ns（步骤ST3）。

此后，识别词典动态生成判定部7将对话管理部6a利用与使用者的对话新选择的识别对象词汇的词汇数量Nn和词典Ds中包含的词汇数量Ns进行比较，判定双方的词汇数量是否相等（步骤ST4）。此处，在词汇数量Nn和Ns相等的情况下（步骤ST4：是），识别词典动态生成判定部7判定为应该直接使用从静态生成词典存储部5a中选出的词典Ds，并将词典Ds作为识别词典存储到识别词典存储部9内（步骤ST6：情形1（Case1））。

此外，在词汇数量Nn和Ns不同的情况下（步骤ST4：否），识别词典动态生成判定部7对将预先确定的比率ThR（例如0.1）乘以词典Ds中包含的词汇数量Ns所得到的值是否小于由对话管理部6a新选择的识别对象词汇的词汇数量Nn（Ns×ThR＜Nn）进行判定（步骤ST5）。

在（Ns×ThR）的值小于词汇数量Nn的情况下（步骤ST5：是），识别词典动态生成判定部7转移至步骤ST7的处理（情形2（Case2））。

在步骤ST7中，识别词典动态生成判定部7将词典Ds作为识别词典存储到识别词典存储部9内。声音识别部10使用该词典Ds，对使用者的说话（输入声音）进行声音识别，将识别结果中概率较高的前N个（似然度较高的前N个）识别结果候选输出到声音识别结果选择部14。

声音识别结果选择部14仅选择（筛选）利用声音识别部10所得到的识别结果候选中的、对话管理部6a新选择的识别对象词汇中包含的识别结果候选，并将其作为声音识别的结果进行输出。

在（Ns×ThR）的值为词汇数量Nn以上的情况下（步骤ST5：否），识别词典动态生成判定部7判定为需要利用识别词典动态生成部8新生成包含对话管理部6a所选择的识别对象词汇的动态生成词典，并转移至步骤ST8的处理（Case3）。

在识别词典动态生成判定部7的判定结果为Case1或Case3的情况下，声音识别结果选择部14将从声音识别部10输出的识别结果候选作为识别结果进行输出。另一方面，在识别词典动态生成判定部7的判定结果为Case2的情况下，从由声音识别部10输出的识别结果候选中仅选出由对话管理部6a新选择的识别对象词汇中包含的识别结果候选，并将其进行输出。

由此，通过预先生成全部词汇的词典并将其存储在存储装置中，能降低更新识别词典时的识别词典制作时间。

此外，在存在包含识别对象词汇、且包含的识别对象词汇数量的比率为一定比例以上的识别词典的情况下，使用该词典进行声音识别，从其识别结果候选仅选出识别对象词汇中包含的识别结果候选，并将其作为识别结果进行输出。由此，能将对于识别率的影响抑制成最小，且减少对话中生成词典的机会。

上述说明中表示了识别词典静态生成判定部2a将全部词汇的识别词典判定为预先生成的对象的情况，但也可以进行以下的判定。

图5是表示实施方式3的识别词典动态生成判定部2a中所进行的判定处理流程的流程图。

首先，识别词典静态生成判定部2a在进行声音识别的各对话情境（以下称为识别情境）中参照识别对象词汇存储部4a的存储内容，分别求出各识别情境的识别对象词汇及其词汇数量。此处，识别词典静态生成判定部2a选择未对是否生成识别对象词汇的识别词典（静态生成词典）作出判定的识别情境中的、识别对象词汇的词汇数量最多的识别情境（步骤ST1a）。

接下来，识别词典静态生成判定部2a对在步骤ST1a中所选择的识别情境的识别对象词汇的词汇数量是否为一定数量以下进行判定（步骤ST2a）。此处，若识别对象词汇数量超过一定数量（步骤ST2a：否），则转移至步骤ST3a的处理。此外，若在一定数量以下（步骤ST2a：是），则转移至步骤ST7a的处理。

在步骤ST3a中，识别词典静态生成判定部2a对包含在步骤ST1a中所选择的识别情境的全部识别对象词汇的识别词典是否作为预先生成的对象本身完成登记进行判定。此处，若作为预先生成的对象完成登记（步骤ST3a：是），则转移至步骤ST4a的处理。此外，若未完成登记（步骤ST3a：否），则转移至步骤ST6a的处理。

识别词典静态生成判定部2a选择包含在步骤ST1a中所选择的识别情境的全部识别对象词汇的、作为预先生成的对象完成登记的识别词典中的词汇数量最小的识别词典（步骤ST4a）。

接着，识别词典静态生成判定部2a对在步骤ST1a中所选择的识别情境的识别对象词汇的词汇数量除以在步骤ST4a中所选择的识别词典的词汇数量所得到的值是否超过规定的阈值（是否是一定的比例）进行判定（步骤ST5a）。

若在步骤ST1a中所选择的识别情境的识别对象词汇的词汇数量除以在步骤ST4a中所选择的识别词典的词汇数量所得到的值为上述阈值以下（步骤ST5a：否），则识别词典静态生成判定部2a转移至步骤ST6a的处理。此外，若超过上述阈值（步骤ST5a：是），则转移至步骤ST7a的处理。

在步骤ST6a中，识别词典静态生成判定部2a将包含在步骤ST1a中所选择的识别情境的全部识别对象词汇的识别词典作为预先生成对象进行登记。

此外，在步骤ST1a中所选择的识别情境的识别对象词汇的词汇数量与在步骤ST4a中所选择的识别词典的词汇数量的比例超过上述阈值的情况下，即，对于作为静态生成词典预先进行生成来说词汇数量较少的情况下，不将该识别词典作为预先进行生成的对象（步骤ST7a）。

若完成了步骤ST6a或步骤ST7a的处理，则识别词典静态生成判定部2a判定是否对未判定是否需要生成静态生成词典的所有的识别情境实施了上述处理（步骤ST8a）。此处，若对所有的识别情境的处理未完成，则返回步骤ST1a的处理，若对所有的识别情境的处理已完成，则结束处理。

如上所述，根据本实施方式3，识别词典静态生成部3a预先生成关于成为识别对象的所有的词汇的识别词典，识别词典动态生成部8生成关于在对话情境中被选作识别对象的词汇的识别词典。由此，通过仅预先生成关于所有的词汇的识别词典，能削减更新词典时所需的识别词典的制作时间。

此外，根据本实施方式3，若识别词典静态生成部3a生成了包含对话情境中被选作识别对象的词汇、且包含的识别对象的词汇数量的比率为规定的比例以上的识别词典，则识别词典动态生成部8不在对话情境中生成关于该词汇的识别词典，声音识别部10参照由识别词典静态生成部3a所生成的该识别词典来对输入声音进行声音识别，将识别的似然度较高的前几个识别结果候选中的、本次的识别对象的词汇中包含的识别结果候选作为识别结果进行输出。

由此，将对声音识别的识别率的影响抑制成最小，且能削减对话过程中生成词典的机会。

而且，根据本实施方式3，利用识别词典静态词典生成判定部2a进行图5所示的判定，识别词典静态生成部3a以在对话情境中成为识别对象的词汇数量超过规定数量、且该对话情境中的识别对象的词汇数量成为识别词典的词汇数量的规定比例以下的方式，预先生成关于该识别对象的词汇的识别词典，因此，能将更新词典时所需的识别词典的生成时间的增加抑制成最小，且降低对话过程中因词典生成所带来的使用者的等待时间。

实施方式4

图6是表示本发明的实施方式4的声音识别装置的结构的框图。如图6所示，实施方式4中的声音识别装置1C在上述实施方式3所示的声音识别装置1B的结构的基础上设置了中间结果存储部15，而且，识别词典动态生成判定部7a的动作与上述实施方式3不同。另外，在图6中，对与图3相同或与其相当的结构标注相同标号，并省略说明。

在从识别对象词汇生成静态生成词典时，识别词典静态生成部3a将对识别对象词汇的语言的确定、进行从书写向读音的变换处理等的词典生成的中途结果作为中间结果存储到中间结果存储部15内。

识别词典动态生成判定部7a对识别词典动态生成部8发出指示以从与存储在静态生成词典存储部5a中的静态生成词典共用的识别对象词汇生成动态生成词典时，有关该词汇，读出存储在中间结果存储部15内的中间结果，并将其输出到识别词典动态生成部8。由此，识别词典动态生成部8利用该中间结果来生成动态生成词典。

如上所述，根据本实施方式4，由于包括中间结果存储部15，从而利用其将在静态生成词典的生成中所得到的对识别对象词汇的语言的确定、进行从书写向读音的变换处理的中途结果作为中间结果进行存储，因此，能减少动态生成词典的生成时间，降低对话过程中因词典生成所带来的使用者的等待时间。

实施方式5

图7是表示本发明的实施方式5的声音识别装置的结构的框图。如图7所示，实施方式5中的声音识别装置1D在上述实施方式4所示的声音识别装置1C的结构的基础上添加了动态生成词典管理部（存储管理部）16及动态生成词典临时存储部（临时存储部）17，而且，识别词典动态生成判定部7b的动作与上述实施方式4不同。

另外，在图7中，对与图6相同或与其相当的结构标注相同标号，并省略说明。

动态生成词典管理部16是对是否需要将由识别词典动态生成部8动态生成的识别词典临时存储到动态生成词典临时存储部17内进行判定的结构部。

动态生成词典临时存储部17是将由动态生成词典管理部16判定为存储对象的动态生成词典进行临时存储的存储部。

接下来，对动作进行说明。

若由识别词典动态生成部8新生成了动态生成词典，则动态生成词典管理部16对动态生成词典临时存储部17的存储容量是否超过规定容量进行判定。此处，若动态生成词典临时存储部17的存储容量小于规定容量，则动态生成词典管理部16将新生成的动态生成词典存储到动态生成词典临时存储部17内。

另一方面，在动态生成词典临时存储部17的存储容量超过规定容量的情况下，动态生成词典管理部16基于目前存储在动态生成词典临时存储部17内的动态生成词典的使用历史或使用频度来决定从动态生成词典临时存储部16删除的动态生成词典，并实施删除。例如，将最终的使用日期时间最老的动态生成词典作为删除对象。此外，也可以将声音识别装置1D运行中使用过的、平均使用间隔最长的动态生成词典作为删除对象。

若删除了存储于动态生成词典临时存储部17内的动态生成词典，则动态生成词典管理部16将新生成的动态生成词典存储到动态生成词典临时存储部17内。

除此之外，动态生成词典管理部16除了对存储在动态生成词典临时存储部17内的动态生成词典以外，还可以对存储在静态生成词典存储部5a及识别词典存储部9内的识别词典的使用历史或使用频度进行管理，并据此与上述相同地将词典存储到静态生成词典存储部5a及识别词典存储部9内。

在静态生成词典存储部5a及动态生成词典临时存储部17内均没有存储识别对象词汇的识别词典的情况下，识别词典动态生成判定部7b对于识别词典动态生成部8判定为需要新生成该识别对象词汇的动态生成词典。

此外，若识别对象词汇的识别词典已经存储在静态生成词典存储部5a及动态生成词典临时存储部17的任一个中，则识别词典动态生成判定部7b读出该识别词典并将其存储到识别词典存储部9内。声音识别部10使用存储于识别词典存储部9内的识别词典对输入声音进行声音识别。

如上所述，根据本实施方式5，由于在上述实施方式4的结构的基础上包括了将动态生成词典进行临时存储的动态生成词典临时存储部17，因此，能获得与上述实施方式4相同的效果，且能将存储装置的使用量抑制成最小，并减少用于生成词典的运算量。

工业上的实用性

本发明所涉及的声音识别装置能缩短与使用者的对话过程中生成识别词典所需的时间、且能降低将预先生成的识别词典进行存储所需的存储区域的使用容量，因此，适用于便携式音乐播放器、移动电话、车载导航***等的声音识别装置。

Claims

1.一种声音识别装置，该声音识别装置利用对话边切换识别对象的词汇边进行声音识别，其特征在于，包括：

静态生成部，该静态生成部对于成为识别对象的词汇数量为阈值以上的词汇，预先生成识别词典；

动态生成部，该动态生成部对于识别对象的词汇数量小于所述阈值的词汇，在对话情境中生成识别词典；以及

声音识别部，该声音识别部参照由所述静态生成部或所述动态生成部所生成的识别词典来对输入声音进行声音识别。

2.如权利要求1所述的声音识别装置，其特征在于，

所述静态生成部预先生成关于成为识别对象的所有词汇的识别词典，

所述动态生成部生成关于对话情境中被选作识别对象的词汇的识别词典。

3.如权利要求1所述的声音识别装置，其特征在于，

若所述静态生成部生成包含对话情境中被选作识别对象的词汇、且包含的识别对象的词汇数量的比率为规定比例以上的识别词典，则所述动态生成部不在所述对话情境中生成关于该词汇的识别词典，

所述声音识别部参照由所述静态生成部所生成的该识别词典来对输入声音进行声音识别，将识别的似然度较高的前几个识别结果候选中的、本次的识别对象的词汇中所包含的识别结果候选作为识别结果进行输出。

4.如权利要求3所述的声音识别装置，其特征在于，

以在对话情境中成为识别对象的词汇数量超过规定数量、且该对话情境中的所述识别对象的词汇数量成为识别词典的词汇数量的规定比例以下的方式，所述静态生成部预先生成关于该识别对象的词汇的识别词典。

5.如权利要求1所述的声音识别装置，其特征在于，

包括将所述静态生成部生成识别词典的中途结果进行存储的中间结果存储部，

所述动态生成部在对与由所述静态生成部所生成的识别词典共用的词汇生成识别词典时，使用从所述中间结果存储部读出的所述中途结果来生成识别词典。

6.如权利要求1所述的声音识别装置，其特征在于，包括：

临时存储部，该临时存储部将由所述动态生成部所生成的识别词典进行临时存储；以及

存储管理部，该存储管理部根据所述识别词典的使用状况，对是否将该识别词典存储到所述临时存储部内进行管理。