CN101689364B

CN101689364B - 声音识别装置和声音识别方法

Info

Publication number: CN101689364B
Application number: CN200780053719XA
Authority: CN
Inventors: 原田将治
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-07-09
Filing date: 2007-07-09
Publication date: 2011-11-23
Anticipated expiration: 2027-07-09
Also published as: US8738378B2; WO2009008055A1; US20100088098A1; JP4973731B2; CN101689364A; JPWO2009008055A1

Abstract

本发明提供声音识别装置和声音识别方法。该声音识别装置(1)具有声音核对部(17)，声音核对部(17)计算由声音分析部(11)转换的特征量和由词模型生成部(16)生成的词模型之间的各时刻的相似度。声音核对部(17)提取由词模型生成部(16)生成的词模型中的这样的词模型：在各时刻的相似度中最小的相似度或者由各时刻的相似度获得的整体相似度满足第2阈值条件，且说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间内的各时刻的相似度满足第1阈值条件，声音核对部(17)将与提取出的词模型对应的识别词作为识别结果来输出。

Description

声音识别装置和声音识别方法

技术领域

本发明涉及这样的声音识别装置、声音识别方法以及声音识别程序：依照转换规则将识别词的读音转换成音素串，并根据所转换的音素串生成作为标准模式串的词模型，从而识别人的说话声音。

背景技术

一般，声音识别装置具有这样的功能：将存储在识别词存储部内的识别词的读音转换成音素串，并根据所转换的音素串生成作为标准模式串的词模型，从而识别人的说话声音。具体地说，声音识别装置根据读音和音素之间的转换规则或者读音和音素串之间的转换规则，将识别词的读音转换成音素串。声音识别装置根据所转换的音素串生成作为标准模式串的词模型。声音识别装置计算所输入的说话声音和所生成的词模型在各时刻的相似度。声音识别装置提取所生成的词模型中、在各时刻的相似度是阈值以上的词模型。声音识别装置将与提取出的词模型对应的识别词作为识别结果来输出(例如，参照日本特开昭62-116999号公报、日本特开昭63-5395号公报、日本特开平01-302295号公报、或者日本特开平08-248979号公报)。

另外，人一般不会清楚地发出说话声音的所有音素。也就是说，人的说话声音包含有含糊音素。特别是，当人快速地发声时，人的说话声音容易包含有含糊音素。因此，存在这样的问题：即使在人发出了识别词的声音的情况下，声音识别装置有时也不能识别人的发声。

作为一例，假定在声音识别装置的识别词存储部内存储有识别词的读音“とよとみ(toyotomi)”。在该情况下，声音识别装置根据转换规则，将识别词的读音“とよとみ”转换成音素串“toyotomi”。另外，转换规则是

声音识别装置根据所转换的音素串 “toyotomi”生成作为标准模式串的“toyotomi”的词模型。这里，在人发出识别词“とよとみ”的声音的情况下，由于所发出的“とよとみ”中的“よ”是含糊发声，因而在声音识别装置中，判定为“とよとみ”中的“よ”(音素：yo)是省略了音素“y”的“お”(音素：o)，其结果，判定为说话声音是“とおとみ”。在说话声音“とおとみ”中的“お”和词模型“toyotomi”中的“yo”在各时刻的相似度为阈值以下的情况下，声音识别装置不能识别说话声音“とおとみ”。

为了解决上述问题，在现有的声音识别装置中，根据识别词的读音预先将包含容易变得含糊的音素的音素串追加给转换规则。在上述例子中，作为转换规则，不仅有还追加

由此，声音识别装置将识别词的读音“とよとみ”转换成音素串“toyotomi”和音素串“tootomi”。声音识别装置根据所转换的音素串“toyotomi”生成作为标准模式串的“toyotomi”的词模型，并根据所转换的音素串“tootomi”生成作为标准模式串的“tootomi”的词模型。所以，声音识别装置即使在判定为说话声音是“とおとみ”的情况下，由于说话声音“とおとみ”和词模型“tootomi”在各时刻的相似度为阈值以上，因而也能将说话声音“とおとみ”识别为“とよとみ”。

然而，在上述现有的声音识别装置中，虽然能识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音，但是在人发出识别词以外的词的声音的情况下，有时也仍将该词误识别为识别词。即，这是因为，在上述现有的声音识别装置中，根据识别词的读音预先将包含容易变得含糊的音素的音素串追加给了转换规则。

具体地说，在上述现有的声音识别装置中，能识别在人发出识别词“とよとみ”的声音的情况下的包含有含糊音素的说话声音“とおとみ”。然而，在上述现有的声音识别装置中，在人发出识别词“とよとみ”以外的词“ともとみ”的声音的情况下，说话声音“ともとみ”和词模型“tootomi”在各时刻的相似度有时为阈值以上，在该情况下，导致将说话声音“ともとみ”误识别为“とよとみ”。

发明内容

本发明是鉴于上述问题而作成的，本发明的目的是提供这样的声音识别装置、声音识别方法以及声音识别程序：能在识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音的同时，防止在人发出识别词以外的词的声音的情况下，将该词误识别为识别词。

为了达到上述目的，本发明中的声音识别装置具有：声音分析部，其将所输入的说话声音转换成特征量；识别词存储部，其存储有识别词的读音；转换规则存储部，其存储有读音与音素之间的转换规则或者读音与音素串之间的转换规则；音素串转换部，其根据存储在所述转换规则存储部内的转换规则，将存储在所述识别词存储部内的识别词的读音转换成音素串；音素模型存储部，其存储有对音素容易变成怎样的特征量进行建模而成的标准模式；词模型生成部，其根据由所述音素串转换部转换的音素串，提取存储在所述音素模型存储部内的标准模式，对提取出的标准模式进行连接，由此生成作为标准模式串的词模型；以及声音核对部，其计算由所述声音分析部转换的特征量与由所述词模型生成部生成的词模型之间的、各时刻的相似度，所述转换规则存储部还存储与所述转换规则中的至少1个转换规则的音素或音素串对应的第1阈值条件，所述声音核对部提取由所述词模型生成部生成的词模型中的这样的词模型：在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件，且所述说话声音的发声区间中、对应于与所述第1阈值条件对应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件，所述声音核对部将与提取出的词模型对应的识别词作为识别结果来输出。

通过将所述第1阈值条件设定成可识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音，而且将所述第1阈值条件设定成在人发出识别词以外的词的情况下可废弃该词，由此本发明的声音识别装置能在识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音的同时，防止在人发出识别词以外的词的声音的情况下，将该词误识别为识别词。例如，假定声音核对部计算在人发出识别词的声音的情况下的包含有含糊音素的说话声音的特征量与所生成的词模型之间的、各时刻的相似度。在该情况下，声音核对部提取所生成的词模型中的这样的词模型：在各时刻的相似度中最小的相似度或者由各时刻的相似度获得的整体相似度满足第2阈值条件，且说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件。由此，声音核对部能将与提取出的词模型对应的识别词作为识别结果来输出。另一方面，例如假定声音核对部计算在人发出识别词以外的词的声音的情况下的该词的特征量与所生成的词模型之间的、各时刻的相似度。在该情况下，说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件的词模型不存在。因此，声音核对部不提取词模型。由此，在人发出识别词以外的词的声音的情况下，声音核对部能废弃该词。

在上述本发明中的声音识别装置中，优选采用以下方式：所述转换规则存储部针对所述第1阈值条件表示的每个条件配备有多个，所述音素串转换部根据存储在所述识别词存储部内的识别词的读音数，从多个转换规则存储部中选择用于将识别词的读音转换成音素串的转换规则存储部，根据存储在所选择的转换规则存储部内的转换规则，将存储在所述识别词存储部内的识别词的读音转换成音素串。

根据上述结构，音素串转换部根据识别词的读音数，从多个转换规则存储部中选择用于将识别词的读音转换成音素串的转换规则存储部。例如，在识别词的读音数多到1000以上的情况下，音素串转换部仅选择存储有条件低的第1阈值条件的转换规则存储部。也就是说，这是因为，在存储有条件低的第1阈值条件的转换规则存储部内，通常存储有在人发出识别词的声音的情况下的包含容易变得含糊的音素的音素串的转换规则。另外，在存储有条件高的第1阈值条件的转换规则存储部内，通常存储有在人发出识别词的声音的情况下的包含很少变得含糊的音素的音素串的转换规则。另一方面，例如在识别词的读音数少到不足1000的情况下，音素串转换部选择所有转换规则存储部。音素串转换部根据存储在所选择的转换规则存储部内的转换规则，将识别词的读音转换成音素串。由此，例如在识别词的读音数多的情况下，音素串转换部能使用最低限度的转换规则存储部来将识别词的读音转换成音素串。所以，可抑制声音核对部的核对速度的下降。另一方面，例如在识别词的读音数少的情况下，音素串转换部能使用所有转换规则存储部来将识别词的读音转换成音素串。所以，声音核对部能可靠识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音。

在上述本发明中的声音识别装置中，优选采用以下方式：该声音识别装置还具有：使用频度计算部，其计算在生成与从所述声音核对部输出的识别结果的识别词对应的词模型时使用的转换规则的使用频度；以及第1阈值条件更新部，其在由所述使用频度计算部计算出的转换规则的使用频度大于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件降低，在由所述使用频度计算部计算出的转换规则的使用频度小于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件增高。

根据上述结构，使用频度计算部计算用于生成与识别结果的识别词对应的词模型的转换规则的使用频度。第1阈值条件更新部在转换规则的使用频度大于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件降低。也就是说，在转换规则的使用频度高的情况下，该转换规则频繁地用于生成词模型，因而第1阈值条件更新部能将第1阈值条件更新成使第1阈值条件降低。由此，声音识别装置的识别率提高。另一方面，第1阈值条件更新部在转换规则的使用频度小于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件增高。也就是说，在转换规则的使用频度低的情况下，该转换规则不频繁地用于生成词模型，因而第1阈值条件更新部能将第1阈值条件更新成使第1阈值条件增高。由此，声音识别装置的识别率下降。

在上述本发明中的声音识别装置中，优选采用以下方式：该声音识别装置还具有：输入部，其从用户处受理从所述声音核对部输出的识别结果是否错误的决定；使用频度计算部，其在所述输入部从用户处受理了从所述声音核对部输出的识别结果是错误的决定的情况下，计算在生成与该识别结果的识别词对应的词模型时使用的转换规则的使用频度；以及第1阈值条件更新部，其在由所述使用频度计算部计算出的转换规则的使用频度大于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件增高，在由所述使用频度计算部计算出的转换规则的使用频度小于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件降低。

根据上述结构，输入部从用户处受理从声音核对部输出的识别结果是否错误。在输入部从用户处受理了从声音核对部输出的识别结果是错误的情况下，使用频度计算部计算用于生成与该识别结果的识别词对应的词模型的转换规则的使用频度。第1阈值条件更新部在转换规则的使用频度大于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串相对应的该第1阈值条件增高。也就是说，在转换规则的使用频度高的情况下，该转换规则频繁地用于生成在识别词错误的情况下的词模型，因而第1阈值条件更新部能将第1阈值条件更新成使第1阈值条件增高。由此，声音识别装置的识别率下降。另一方面，第1阈值条件更新部在转换规则的使用频度小于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的第1阈值条件降低。也就是说，在转换规则的使用频度低的情况下，该转换规则不频繁地用于生成在识别词错误的情况下的词模型，因而第1阈值条件更新部能将第1阈值条件更新成使第1阈值条件降低。由此，声音识别装置的识别率提高。

在上述本发明中的声音识别装置中，优选采用以下方式：所述转换规则存储部还存储与所述转换规则的音素或音素串对应的持续时间，所述声音核对部判定所述说话声音的发声区间中、对应于与所述持续时间对应的音素或音素串的区间中的、发声时间是否是所述持续时间以上，在判定为所述区间中的发声时间是所述持续时间以上的情况下，废弃提取出的词模型，在判定为所述区间中的发声时间少于所述持续时间的情况下，将与提取出的词模型对应的识别词作为识别结果来输出。

根据上述结构，在判定为说话声音的发声区间中、对应于与持续时间对应的音素或音素串的区间中的、发声时间是持续时间以上的情况下，声音核对部废弃提取出的词模型。也就是说，在所述区间中的发声时间是持续时间以上的情况下，由于是人慢速地发声的情况，因而即使在提取出词模型的情况下，声音核对部也仍废弃提取出的词模型。由此，能防止声音识别装置的误识别。另一方面，在判定为说话声音的发声区间中、对应于与持续时间对应的音素或音素串的区间中的、发声时间少于持续时间的情况下，声音核对部将与提取出的词模型对应的识别词作为识别结果来输出。也就是说，在所述区间中的发声时间少于持续时间的情况下，由于是人快速地发声的情况，因而声音核对部将提取出的词模型作为识别结果来输出。由此，声音识别装置能识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音。

为了达到上述目的，本发明中的声音识别方法包含：声音分析步骤，由计算机具有的声音分析部将所输入的说话声音转换成特征量；音素串转换步骤，由所述计算机具有的音素串转换部根据在存储有读音与音素之间的转换规则或者读音与音素串之间的转换规则的转换规则存储部内存储的转换规则，将在存储有识别词的读音的识别词存储部内存储的识别词的读音转换成音素串；词模型生成步骤，由所述计算机具有的词模型生成部根据由所述音素串转换步骤转换的音素串，提取在存储有对音素容易变成怎样的特征量进行建模而成的标准模式的音素模型存储部内存储的标准模式，对提取出的标准模式进行连接，由此生成作为标准模式串的词模型；以及声音核对步骤，由所述计算机具有的声音核对部计算由所述声音分析步骤转换的特征量与由所述词模型生成步骤生成的词模型之间的、各时刻的相似度，所述转换规则存储部还存储与所述转换规则中的至少1个转换规则的音素或音素串对应的第1阈值条件，所述声音核对步骤提取由所述词模型生成步骤生成的词模型中的这样的词模型：在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件，且所述说话声音的发声区间中、对应于与所述第1阈值条件对应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件，所述声音核对步骤将与提取出的词模型对应的识别词作为识别结果来输出。

为了达到上述目的，本发明中的声音识别程序使计算机执行以下处理：声音分析处理，将所输入的说话声音转换成特征量；音素串转换处理，根据在存储有读音与音素之间的转换规则或者读音与音素串之间的转换规则的转换规则存储部内存储的转换规则，将在存储有识别词的读音的识别词存储部内存储的识别词的读音转换成音素串；词模型生成处理，根据由所述音素串转换处理转换的音素串，提取在存储有对音素容易变成怎样的特征量进行建模而成的标准模式的音素模型存储部内存储的标准模式，对提取出的标准模式进行连接，由此生成作为标准模式串的词模型；以及声音核对处理，计算由所述声音分析处理转换的特征量与由所述词模型生成处理生成的词模型之间的、各时刻的相似度，所述转换规则存储部还存储与所述转换规则中的至少1个转换规则的音素或音素串对应的第1阈值条件，所述声音核对处理使所述计算机执行这样的处理：提取由所述词模型生成处理生成的词模型中的这样的词模型：在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件，且所述说话声音的发声区间中、对应于与所述第1阈值条件对应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件，将与提取出的词模型对应的识别词作为识别结果来输出。

另外，本发明中的声音识别方法和声音识别程序取得与上述的声音识别装置相同的效果。

如上所述，本发明的声音识别装置、声音识别方法以及声音识别程序取得这样的效果：能在识别在人发出识别词的声音的情况下的含糊的说话声音的同时，防止在人发出识别词以外的词的声音的情况下，将该词误识别为识别词。

附图说明

图1是示出本发明的第1实施方式涉及的声音识别装置的概略结构的框图。

图2是示出上述声音识别装置中的识别词存储部的数据的内容一例的图。

图3是示出上述声音识别装置中的转换规则存储部的数据的内容一例的图。

图4是示出上述声音识别装置中的转换规则存储部的数据的内容的另一例的图。

图5是示出上述声音识别装置中的音素模型存储部的数据的内容一例的图。

图6是概略示出特征量“とおとみ”和词模型“tootomi”在各时刻的相似度的图。

图7是概略示出特征量“ともとみ”和词模型“tootomi”在各时刻的相似度的图。

图8是示出上述声音识别装置的动作一例的流程图。

图9是示出本发明的第2实施方式涉及的声音识别装置的概略结构的框图。

图10是分别示出上述声音识别装置中的转换规则存储部的数据的内容一例的图。

图11是示出本发明的第3实施方式涉及的声音识别装置的概略结构的框图。

图12是示出上述声音识别装置中的转换规则存储部的数据的内容一例的图。

图13是示出在由上述声音识别装置中的第1阈值条件更新部更新后的存储在上述转换规则存储部内的数据的内容一例的图。

图14是示出在由上述声音识别装置中的第1阈值条件更新部更新后的存储在上述转换规则存储部内的数据的内容一例的图。

图15是示出上述声音识别装置的动作一例的流程图。

图16是示出本发明的第4实施方式涉及的声音识别装置的概略结构的框图。

图17是示出上述声音识别装置中的转换规则存储部的数据的内容一例的图。

图18是示出在由上述声音识别装置中的第1阈值条件更新部更新后的存储在上述转换规则存储部内的数据的内容一例的图。

图19是示出在由上述声音识别装置中的第1阈值条件更新部更新后的存储在上述转换规则存储部内的数据的内容一例的图。

图20是示出上述声音识别装置的动作一例的流程图。

图21是示出本发明的第5实施方式涉及的声音识别装置的概略结构的框图。

图22是示出上述声音识别装置中的转换规则存储部的数据的内容一例的图。

图23是示出与音素串“t”“o”“o”的标准模式串对应的说话声音的发声区间V的一例的图。

图24是示出上述声音识别装置的动作一例的流程图。

具体实施方式

以下，参照附图详细说明本发明的更具体的实施方式。

[实施方式1]

图1是示出本实施方式涉及的声音识别装置1的概略结构的框图。图1所示的声音识别装置1例如用作声音识别引擎，该声音识别引擎从声音对话应用程序等的上位程序传递用户的说话声音，并将其识别结果返回给上位程序。并且，声音识别装置1由例如个人计算机、服务端等的通用计算机构成。另外，声音识别装置1可以由装入在例如车载信息终端、便携电话、家电产品等的电子设备内的计算机构成。

即，本实施方式涉及的声音识别装置1具有：声音分析部11，识别词存储部12，转换规则存储部13，音素串转换部14，音素模型存储部15，词模型生成部16以及声音核对部17。

声音分析部11将所输入的说话声音转换成每帧的特征量。特征量大多使用MFCC、LPC倒谱和功率、它们的一次和二次回归系数、以及将这些值通过主分量分析和判别分析进行了维数压缩的结果等的多维矢量，然而这里不作特别限定。转换后的特征量与各帧固有的信息(帧固有信息)一起被记录在内部的存储器内。另外，帧固有信息是表示例如帧序号、各帧的开始时点、结束时点、功率等的数据，帧序号表示各帧是从开头起的第几个帧。

识别词存储部12存储多个识别词的读音。图2是示出存储在识别词存储部12内的数据的内容一例的图。如图2所示，在识别词存储部12内存储有识别词的读音。例如，声音识别装置1的用户使声音识别装置1读取记录有词的读音数据的记录介质，从而在识别词存储部12内存储上述识别词的读音。

转换规则存储部13存储读音和音素之间的转换规则、以及读音和音素串之间的转换规则中的至少一方。并且，转换规则存储部13存储与转换规则中的至少1个转换规则的音素或音素串对应的第1阈值条件。图3是示出存储在转换规则存储部13内的数据的内容一例的图。如图3所示，在转换规则存储部13内存储有转换规则和第1阈值条件。在图3所示的例子中，在转换规则存储部13内对应于转换规则

的音素串“t”“o”“o”存储有第1阈值条件“70”。并且，在转换规则存储部13内对应于转换规则

以外的转换规则的音素或音素串存储有第1阈值条件“无”(图中，“-”)。也就是说，针对转换规则

以外的转换规则的音素或音素串，不设定第1阈值条件。另外，第1阈值条件表示用于由声音核对部17将识别词作为识别结果来输出的条件。

这里，在本实施方式中，存储在转换规则存储部13内的转换规则和第1阈值条件由声音识别装置1的管理者(例如，制造声音识别装置1的制造商的人员)预先设定。在本实施方式中，声音识别装置1的管理者根据经验将第1阈值条件设定在转换规则存储部13内，然而可以根据例如音素的核对精度将第1阈值条件设定在转换规则存储部13内。具体地说，首先，声音识别装置1的管理者针对每个音素预先调查音素的核对精度。另外，音素的核对精度是在声音识别装置1中可正确识别音素的程度，成为统计数据。例如，由于音素“m”和音素“n”在人的发音中非常相似，因而在声音识别装置1中，音素“m”容易误识别为音素“n”，并且，音素“n”容易误识别为音素“m”。所以，一般，音素“m”和音素“n”的核对精度降低。另一方面，与此相反，由于音素“a”是人可清楚发声的音素，因而在声音识别装置1中，音素“a”被误识别的可能性低。所以，一般，音素“a”的核对精度变高。

声音识别装置1的管理者计算要设定第1阈值条件的转换规则的音素串中的各音素的核对精度的平均值。例如，在要设定第1阈值条件的转换规则是

的情况下，声音识别装置1的管理者根据音素“t”的核对精度和音素“o”的核对精度，计算音素串“t”“o”“o”中的各音素的核对精度的平均值。声音识别装置1的管理者根据计算出的核对精度的平均值，决定应设定的第1阈值条件。例如，声音识别装置1的管理者在核对精度的平均值大的情况下，将阈值低的第1阈值条件设定在转换规则存储部13内。并且，声音识别装置1的管理者在核对精度的平均值小的情况下，将阈值高的第1阈值条件设定在转换规则存储部13内。

并且，在图3所示的例子中，说明了在转换规则存储部13内对应于转换规则

的音素串“t”“o”“o”存储有第1阈值条件“70”的例子，然而不限于此。例如，可以在转换规则存储部13内，如图4所示，对应于转换规则

的音素串“t”“o”“o”中的各音素分别存储有第1阈值条件。在图4所示的例子中，在转换规则存储部13内对应于音素串“t”“o”“o”中的第1音素“t”存储有第1阈值条件“50”。并且，在转换规则存储部13内对应于音素串“t”“o”“o”中的第2音素“o”存储有第1阈值条件“50”。而且，在转换规则存储部13内对应于音素串“t”“o”“o”中的第3音素“o”存储有第1阈值条件“70”。

音素串转换部14根据存储在转换规则存储部13内的转换规则，将存储在识别词存储部12内的识别词的读音转换成音素串。这里，音素串转换部14实际上根据转换规则，将存储在识别词存储部12内的所有识别词的读音转换成音素串。然而，在本实施方式中，为了简化说明，假定音素串转换部14根据

的转换规则，将识别词的读音“とよとみ”转换成音素串“toyotomi”。并且，假定音素串转换部14根据

的转换规则，将识别词的读音“とよとみ”转换成音素串“tootomi”。

音素模型存储部15存储对哪个音素容易变成怎样的特征量进行了建模的标准模式。图5是示出存储在音素模型存储部15内的数据的内容一例的图。如图5所示，在音素模型存储部15内存储有音素的标准模式。另外，音素的标准模式可使用例如HMM(Hidden Markov Model，隐式马尔可夫模型)、音素模板(代表点)等。

词模型生成部16根据由音素串转换部14所转换的音素串，提取存储在音素模型存储部15内的音素的标准模式。在本实施方式中，词模型生成部16根据由音素串转换部14所转换的音素串“toyotomi”和音素串“tootomi”，提取音素“t”的标准模式、音素“o”的标准模式、音素“y”的标准模式、音素“m”的标准模式、以及音素“i”的标准模式。词模型生成部16通过将提取出的音素的标准模式根据音素串“toyotomi”进行连接，生成“toyotomi”的词模型。并且，词模型生成部16通过将提取出的音素的标准模式根据音素串“tootomi”进行连接，生成“tootomi”的词模型。也就是说，词模型由标准模式串构成。所生成的词模型被记录在内部的存储器内。

声音核对部17将由声音分析部11所转换的特征量和由词模型生成部16所生成的词模型进行核对。核对结果，声音核对部17计算由声音分析部11所转换的特征量和由词模型生成部16所生成的词模型之间的、各时刻的相似度。声音核对部17提取由词模型生成部16所生成的词模型中的满足下述全部(1)～(3)的词模型。声音核对部17将与提取出的词模型对应的识别词作为识别结果来输出。另外，下述(1)中的阈值T₁预先被记录在内部的存储器内。在本实施方式中，假定阈值T₁是“60”。并且，下述(2)中的阈值T₂也预先被记录在内部的存储器内。在本实施方式中，假定阈值T₂是“50”。

(1)各时刻的相似度的平均值是阈值T₁以上。

(2)各时刻的相似度中最小的相似度是阈值T₂以上。

(3)说话声音的发声区间中、对应于与第1阈值条件相对应的音素或音素串的区间的、各时刻的相似度是第1阈值条件表示的阈值C以上。

以下，对下述的情况进行说明：在用户发出识别词“とよとみ”的声音的情况下，由于所发出的“とよとみ”中的“よ”是含糊发声，因而在声音识别装置1中，判定为“とよとみ”中的“よ”(音素：yo)是省略了音素“y”的“お”(音素：o)，其结果，判定为说话声音是“とおとみ”。具体地说，参照图6来说明声音核对部17在由声音分析部11所转换的特征量“とおとみ”和由词模型生成部16所生成的词模型“tootomi”之间进行的核对处理。另外，图6是概略示出特征量“とおとみ”和词模型“tootomi”在各时刻的相似度作为时序数据S₁的图。

声音核对部17首先计算各时刻的相似度的平均值(整体相似度)。在本实施方式中，假定各时刻的相似度的平均值是“85”。因此，声音核对部17判定为计算出的相似度的平均值是阈值T₁以上。另外，声音核对部17可以计算各时刻的相似度的总和，来取代计算各时刻的相似度的平均值。也就是说，各时刻的相似度的平均值或各时刻的相似度的总和是本发明的整体相似度的一实施方式。并且，声音核对部17判定为各时刻的相似度中最小的相似度是阈值T₂以上。而且，声音核对部17判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素串“t”“o”“o”的区间的、各时刻的相似度是第1阈值条件表示的阈值C“70”以上。

以上，由于词模型“tootomi”是满足上述全部(1)～(3)的词模型，因而声音核对部17将与词模型“tootomi”对应的识别词“とよとみ”作为识别结果来输出。由此，本实施方式涉及的声音识别装置1能识别在用户发出了识别词“とよとみ”的声音的情况下的包含有含糊音素的说话声音“とおとみ”。

并且，以下说明用户发出了识别词“とよとみ”以外的词“ともとみ”的声音的情况。具体地说，参照图7来说明声音核对部17在由声音分析部11所转换的特征量“ともとみ”和由词模型生成部16所生成的词模型“tootomi”之间进行的核对处理。另外，图7是概略示出特征量“ともとみ” 和词模型“tootomi”之间的各时刻的相似度作为时序数据S₂的图。

声音核对部17首先计算各时刻的相似度的平均值。在本实施方式中，假定各时刻的相似度的平均值是“75”。因此，声音核对部17判定为计算出的相似度的平均值是阈值T₁以上。并且，声音核对部17判定为各时刻的相似度中最小的相似度是阈值T₂以上。而且，声音核对部17判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素串“t”“o”“o”的区间的、各时刻的相似度小于第1阈值条件表示的阈值C“70”。

以上，由于词模型“tootomi”是满足上述(1)和(2)而不满足上述(3)的词模型，因而声音核对部17不将与词模型“tootomi”对应的识别词“とよとみ”作为识别结果来输出。由此，本实施方式涉及的声音识别装置1能防止在用户发出识别词“とよとみ”以外的词“ともとみ”的声音的情况下，将该词误识别为识别词。

另外，上述声音识别装置1也能通过将程序安装在个人计算机等的任意计算机内来实现。即，上述的声音分析部11、音素串转换部14、词模型生成部16以及声音核对部17通过由计算机的CPU根据实现它们的功能的程序进行动作来实现。因此，用于实现声音分析部11、音素串转换部14、词模型生成部16以及声音核对部17的功能的程序或者记录有该程序的记录介质也是本发明的一实施方式。并且，识别词存储部12、转换规则存储部13以及音素模型存储部15由计算机的内置存储装置或者能从该计算机进行存取的存储装置来实现。

下面，参照图8来说明上述结构涉及的声音识别装置1的动作。

图8是示出声音识别装置1的动作一例的流程图。即，如图8所示，音素串转换部14根据存储在转换规则存储部13内的转换规则，将存储在识别词存储部12内的识别词的读音转换成音素串(步骤Op1)。词模型生成部16根据在步骤Op1所转换的音素串，提取存储在音素模型存储部15内的音素的标准模式。词模型生成部16通过将提取出的音素的标准模式根据音素串进行连接，生成词模型(步骤Op2)。所生成的词模型被记录在内部的存储器内。

另一方面，声音分析部11将所输入的说话声音转换成每帧的特征量 (步骤Op3)。转换后的特征量与帧固有信息一起被记录在内部的存储器内。另外，在图8中，步骤Op1和步骤Op2的处理与步骤Op3的处理采用并行执行的方式，然而步骤Op1～步骤Op3的处理可以采用串行执行的方式。

声音核对部17计算在步骤Op3所转换的特征量和在步骤Op2所生成的词模型之间的各时刻的相似度(步骤Op4)。声音核对部17判定各时刻的相似度的平均值是否是阈值T₁以上(步骤Op5)。在判定为各时刻的相似度的平均值是阈值T₁以上的情况下(在步骤Op5“是”)，声音核对部17判定各时刻的相似度中最小的相似度是否是阈值T₂以上(步骤Op6)。另一方面，在判定为各时刻的相似度的平均值不是阈值T₁以上的情况下(在步骤Op5“否”)，声音核对部17结束图8的处理。

在判定为各时刻的相似度中最小的相似度是阈值T₂以上的情况下(在步骤Op6“是”)，声音核对部17判定说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度是否是第1阈值条件表示的阈值C以上(步骤Op7)。另一方面，在判定为各时刻的相似度中最小的相似度不是阈值T₂以上的情况下(在步骤Op6“否”)，声音核对部17结束图8的处理。

在判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度是第1阈值条件表示的阈值C以上(在步骤Op7“是”)时，声音核对部17将与在步骤Op2所生成的词模型对应的识别词作为识别结果来输出(步骤Op8)。另一方面，在判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度不是第1阈值条件表示的阈值C以上的情况下(在步骤Op7“否”)，声音核对部17结束图8的处理。

如以上所述，根据本实施方式涉及的声音识别装置1，通过将第1阈值条件设定成可识别人发出识别词的声音的情况下的包含有含糊音素的说话声音，而且将第1阈值条件设定成人发出识别词以外的词的声音的情况下，可废弃该词，本实施方式涉及的声音识别装置1能在识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音的同时，防止在人发出识别词以外的词的声音的情况下，将该词误识别为识别词。

另外，在上述中，说明了在判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度是第1阈值条件表示的阈值C以上的情况下，声音核对部17输出识别结果的例子，然而不限于此。例如，还可以通过将第1阈值条件表示的阈值设定为预定范围，在判定为与音素的标准模式或者音素串的标准模式串对应的说话声音的发声区间内的各时刻的相似度在预定范围内的情况下，使声音核对部17输出识别结果。

并且，还可以在判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的各时刻的相似度是第1阈值条件表示的阈值C以下的情况下，使声音核对部17输出识别结果。这里，作为一例，假定在转换规则存储部13内对应于转换规则

的音素串“t”“o”“o”存储有第1阈值条件“95”。并且，假定声音核对部17计算说话声音“とおとみ”和词模型“tootomi”在各时刻的相似度。在该情况下，在说话声音的发声区间中、对应于与第1阈值条件对应的音素串“t”“o”“o”的区间的、各时刻的相似度是第1阈值条件表示的阈值“95”以上的情况下，声音核对部17判定为，用户清楚地发出识别词“とよとみ”以外的词“とおとみ”的声音，而不是用户在发出识别词“とよとみ”的声音的情况下发出的说话声音“とおとみ”。因此，在该情况下，声音核对部17废弃说话声音“とおとみ”。

[实施方式2]

图9是示出本实施方式涉及的声音识别装置2的概略结构的框图。即，本实施方式涉及的声音识别装置2具有转换规则存储部21～23，而取代图1所示的转换规则存储部13。另外，在图9中，为了简化说明，图示出3个转换规则存储部21～23，然而构成声音识别装置2的转换规则存储部的数量是任意的。并且，本实施方式涉及的声音识别装置2具有音素串转换部24，而取代图1所示的音素串转换部14。另外，在图9中，对于具有与图1相同功能的结构，附上相同的参照标号，省略其详细说明。

转换规则存储部21～23与图1所示的转换规则存储部13一样，存储读音和音素之间的转换规则、以及读音和音素串之间的转换规则中的至少一方。并且，转换规则存储部21～23与图1所示的转换规则存储部13一样，存储与音素或音素串对应的第1阈值条件。转换规则存储部21～23针对第1阈值条件表示的每个条件配备多个。在本实施方式中，在转换规则存储部21内，如图10(a)所示，存储有与第1阈值条件“无”(图中“-”)对应的转换规则。另外，在转换规则存储部21内，例如如

那样，存储有通常的转换规则。并且，在转换规则存储部22内，如图10(b)所示，存储有与第1阈值条件“70”对应的转换规则。另外，在转换规则存储部22内，存储有在人发出识别词“とよとみ”的声音的情况下的包含容易变得含糊的音素的音素串的转换规则。而且，在转换规则存储部23内，如图10(c)所示，存储有与第1阈值条件“80”相对应的转换规则。另外，在转换规则存储部23内，存储有在人发出识别词“とよとみ”的声音的情况下的包含很少变得含糊的音素的音素串的转换规则。

另外，在图9中，示出转换规则存储部21～23分别由不同硬件构成的例子，然而不限于此。例如，转换规则存储部21～23可以分别构成为同一硬件内的不同区域。

音素串转换部24根据存储在识别词存储部12内的识别词的读音数，从多个转换规则存储部21～23中选择用于将识别词的读音转换成音素串的转换规则存储部。在本实施方式中，在识别词的读音数是1000以上的情况下，音素串转换部24选择转换规则存储部21、22。另一方面，在识别词的读音数少于1000的情况下，音素串转换部24选择所有转换规则存储部21～23。声音核对部24根据存储在所选择的转换规则存储部内的转换规则，将存储在识别词存储部12内的识别词的读音转换成音素串。

如以上所述，根据本实施方式涉及的声音识别装置2，例如，在识别词的读音数多到1000以上的情况下，音素串转换部24能使用最低限度的转换规则存储部21、22来将识别词的读音转换成音素串。所以，可抑制声音核对部17的核对速度的下降。另一方面，例如，在识别词的读音数少到不足1000的情况下，音素串转换部24能使用所有转换规则存储部21～23来将识别词的读音转换成音素串。所以，声音核对部17能可靠识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音。

[实施方式3]

图11是示出本实施方式涉及的声音识别装置3的概略结构的框图。即，本实施方式涉及的声音识别装置3不仅具有图1所示的声音识别装置1，而且还具有转换规则计数部31、使用频度计算部32以及第1阈值条件更新部34。并且，本实施方式涉及的声音识别装置3具有转换规则存储部33，而取代图1所示的转换规则存储部13。另外，上述的转换规则计数部31、使用频度计算部32以及第1阈值条件更新部34也可通过由计算机的CPU根据实现其功能的程序进行动作来实现。另外，在图11中，对于具有与图1相同功能的结构，附上相同的参照标号，省略其详细说明。

转换规则计数部31对转换规则进行计数，该转换规则用于生成与由声音核对部17所输出的识别结果的识别词对应的词模型。例如，在由声音核对部17所输出的识别结果的识别词是“とよとみ”的情况下，转换规则计数部31通过参照词模型生成部16，提取与识别词“とよとみ”对应的词模型“tootomi”。并且，转换规则计数部31对用于生成词模型“tootomi”的转换规则进行计数。在本实施方式中，转换规则计数部31计数为：转换规则

是“1”，转换规则

是“1”，以及转换规则

是“1”。转换规则计数部31将所计数的计数值输出到使用频度计算部32。另外，转换规则计数部31将由声音核对部17所输出的识别结果照原样输出到外部。

使用频度计算部32将从转换规则计数部31所输出的计数值按每个转换规则写入到转换规则存储部33内。这里，在从转换规则计数部31进一步输出了转换规则的计数值的情况下，使用频度计算部32提取存储在转换规则存储部33内的转换规则的计数值，计算提取出的转换规则的计数值与从转换规则计数部31所输出的转换规则的计数值之和(累积值)。使用频度计算部32将计算出的累积值用作使用频度。使用频度计算部32将存储在转换规则存储部33内的计数值更新为计算出的累积值。也就是说，每次从转换规则计数部31输出转换规则的计数值时，使用频度计算部32新计算累积值，并更新存储在转换规则存储部33内的累积值。另外，在上述中，说明了使用频度计算部32将转换规则的累积值用作使用频度的例子，然而不限于此。例如，使用频度计算部32可以将转换规则的累积值与所有转换规则的累积值之和的比例用作使用频度。

转换规则存储部33不仅对存储在图1所示的转换规则存储部13内的转换规则和第1阈值条件进行存储，而且还存储转换规则的使用频度(累积值)。图12是示出存储在转换规则存储部33内的数据的内容一例的图。如图12所示，在转换规则存储部33内存储有转换规则、第1阈值条件以及转换规则的使用频度。例如，转换规则

的使用频度“11”表示，为了生成与由声音核对部17所输出的识别结果的识别词对应的词模型，音素串转换部14使用了11次转换规则

在转换规则的使用频度大于边界条件的情况下，第1阈值条件更新部34更新第1阈值条件，使得与该转换规则的音素或音素串对应的第1阈值条件降低。并且，在转换规则的使用频度小于边界条件的情况下，第1阈值条件更新部34更新第1阈值条件，使得与该转换规则的音素或音素串对应的第1阈值条件增高。

具体地说，第1阈值条件更新部34按任意定时，提取存储在转换规则存储部33内的转换规则的使用频度。在本实施方式中，假定第1阈值条件更新部34提取出转换规则

的使用频度“11”。第1阈值条件更新部34判定提取出的转换规则的使用频度是否大于边界条件。另外，边界条件预先被记录在内部的存储器内。在本实施方式中，假定边界条件是“10”。在本实施方式中，由于提取出的转换规则

的使用频度“11”大于边界条件“10”，因而第1阈值条件更新部34更新存储在转换规则存储部33内的第1阈值条件，以使与转换规则

的音素串“t”“o”“o”对应的第1阈值条件“70”降低。图13是示出在由第1阈值条件更新部34更新后的存储在转换规则存储部33内的数据的内容一例的图。如图13所示，转换规则

的第1阈值条件由第1阈值条件更新部34从“70”更新为“65”。

另一方面，假如在边界条件是“15”的情况下，由于提取出的转换规则

的使用频度“11”小于边界条件“15”，因而第1阈值条件更新部34更新存储在转换规则存储部33内的第1阈值条件，以使与转换规则

的音素串“t”“o”“o”对应的第1阈值条件“70”增高。图14是示出在由第1阈值条件更新部34更新后的存储在转换规则存储部33内的数据的内容一例的图。如图14所示，转换规则

的第1阈值条件由第1阈值条件更新部34从“70”更新为“75”。

下面，参照图15来说明上述结构涉及的声音识别装置3的动作。

图15是示出声音识别装置3的动作一例的流程图。即，如图15所示，转换规则计数部31对转换规则进行计数，该转换规则用于生成与在图8所示的步骤Op8所输出的识别结果的识别词对应的词模型(步骤Op9)。使用频度计算部32通过累积在步骤Op9所计数的计数值，计算转换规则的使用频度(累积值)(步骤Op10)。使用频度计算部32将计算出的转换规则的使用频度写入到转换规则存储部33内。

在步骤Op10计算出的转换规则的使用频度大于边界条件的情况下(在步骤Op11“是”)，第1阈值条件更新部34更新第1阈值条件，以使与该转换规则的音素或音素串对应的第1阈值条件降低(步骤Op12)。另一方面，在步骤Op10计算出的转换规则的使用频度小于边界条件的情况下(在步骤Op11“否”)，第1阈值条件更新部34更新第1阈值条件，以使与该转换规则的音素或音素串对应的第1阈值条件增高(步骤Op13)。

如以上所述，根据本实施方式涉及的声音识别装置3，在转换规则的使用频度高的情况下，该转换规则频繁地用于生成词模型，因而第1阈值条件更新部34能将第1阈值条件更新成使第1阈值条件降低。由此，声音识别装置3的识别率提高。另一方面，在转换规则的使用频度低的情况下，该转换规则不频繁地用于生成词模型，因而第1阈值条件更新部34能将第1阈值条件更新成使第1阈值条件增高。由此，声音识别装置3的识别率下降。

[实施方式4]

图16是示出本实施方式涉及的声音识别装置4的概略结构的框图。即，本实施方式涉及的声音识别装置4不仅具有图1所示的声音识别装置1，而且还具有输入部41、转换规则计数部42、使用频度计算部43以及第1阈值条件更新部45。并且，本实施方式涉及的声音识别装置4具有转换规则存储部44，而取代图1所示的转换规则存储部13。另外，上述的输入部41、转换规则计数部42、使用频度计算部43以及第1阈值条件更新部45也通过由计算机的CPU根据实现其功能的程序进行动作来实现。另外，在图16中，对于具有与图1相同功能的结构，附上相同的参照标号，省略其详细说明。

输入部41从用户处受理由声音核对部17所输出的识别结果是否错误。在本实施方式中，输入部41在识别结果错误的情况下，从用户处受理识别结果是错误的情况。另外，输入部41由键盘、鼠标、十键、触摸面板等的任意输入器件构成。

在从用户处受理了识别结果错误的情况下，转换规则计数部42对转换规则进行计数，该转换规则用于生成与该识别结果的识别词对应的词模型。例如，在从用户处受理了识别结果“とよとみ”是错误的情况下，转换规则计数部42通过参照词模型生成部16，提取与识别词“とよとみ”对应的词模型“tootomi”。并且，转换规则计数部41对用于生成词模型“tootomi”的转换规则进行计数。在本实施方式中，转换规则计数部42计数为：转换规则

是“1”，转换规则

是“1”，以及转换规则

是“1”。转换规则计数部42将所计数的计数值输出到使用频度计算部43。另外，转换规则计数部42将由声音核对部17所输出的识别结果照原样输出到外部。

使用频度计算部43与图11所示的使用频度计算部32一样，将从转换规则计数部42所输出的计数值按每个转换规则写入到转换规则存储部44内。这里，在从转换规则计数部42进一步输出了转换规则的计数值的情况下，使用频度计算部43提取存储在转换规则存储部44内的转换规则的计数值，计算提取出的转换规则的计数值与从转换规则计数部42所输出的转换规则的计数值之和(累积值)。使用频度计算部43将计算出的累积值用作使用频度。使用频度计算部43将存储在转换规则存储部44内的计数值更新为累积值。也就是说，每次从转换规则计数部42输出转换规则的计数值时，使用频度计算部43新计算累积值，并更新存储在转换规则存储部44内的累积值。

转换规则存储部44与图11所示的转换规则存储部33一样，存储转换规则、第1阈值条件以及转换规则的使用频度(累积值)。图17是示出存储在转换规则存储部44内的数据的内容一例的图。例如，转换规则

的使用频度“6”表示，为了生成在从用户处受理了识别结果错误的情况下的与该识别结果的识别词对应的词模型，音素串转换部14使用了6次转换规则

在转换规则的使用频度大于边界条件的情况下，第1阈值条件更新部45更新第1阈值条件，以使与该转换规则的音素或音素串对应的第1阈值条件增高。并且，在转换规则的使用频度小于边界条件的情况下，第1阈值条件更新部45更新第1阈值条件，以使与该转换规则的音素或音素串对应的第1阈值条件降低。

具体地说，第1阈值条件更新部45按任意定时，提取存储在转换规则存储部44内的转换规则的使用频度。在本实施方式中，假定第1阈值条件更新部45提取出转换规则

的使用频度“6”。第1阈值条件更新部45判定提取出的转换规则的使用频度是否大于边界条件。另外，边界条件预先被记录在内部的存储器内。在本实施方式中，假定边界条件是“5”。在该情况下，由于提取出的转换规则的使用频度“6”大于边界条件“5”，因而第1阈值条件更新部45更新存储在转换规则存储部44内的第1阈值条件，以使与转换规则的音素串“t”“o”“o”对应的第1阈值条件“70”增高。图18是示出在由第1阈值条件更新部45更新后的存储在转换规则存储部44内的数据的内容一例的图。如图18所示，转换规则

的第1阈值条件由第1阈值条件更新部45从“70”更新为“75”。

另一方面，假如在边界条件是“10”的情况下，由于提取出的转换规则

的使用频度“6”小于边界条件“10”，因而第1阈值条件更新部45更新存储在转换规则存储部44内的第1阈值条件，以使与转换规则

的音素串“t”“o”“o”对应的第1阈值条件“70”降低。图19是示出在由第1阈值条件更新部45更新后的存储在转换规则存储部44内的数据的内容一例的图。如图19所示，转换规则

的第1阈值条件由第1阈值条件更新部45从“70”更新为“65”。

下面，参照图20来说明上述结构涉及的声音识别装置4的动作。

图20是示出声音识别装置4的动作一例的流程图。即，如图20所示，在图8所示的步骤Op8所输出的识别结果是错误的情况下，输入部41从用户处受理识别结果错误的情况(步骤Op14)。转换规则计数部42对转换规则进行计数，该转换规则用于生成与在步骤Op14所受理的识别结果的识别词对应的词模型(步骤Op15)。使用频度计算部43通过对在步骤Op15所计数的计数值进行累积，计算转换规则的使用频度(累积值)(步骤Op16)。使用频度计算部43将计算出的转换规则的使用频度写入到转换规则存储部44内。

在步骤Op16计算出的转换规则的使用频度大于边界条件的情况下(在步骤Op17“是”)，第1阈值条件更新部45更新第1阈值条件，以使与该转换规则的音素或音素串对应的第1阈值条件增高(步骤Op18)。另一方面，在步骤Op16计算出的转换规则的使用频度小于边界条件的情况下(在步骤Op17“否”)，第1阈值条件更新部45更新第1阈值条件，以使与该转换规则的音素或音素串对应的第1阈值条件降低(步骤Op19)。

如以上所述，根据本实施方式涉及的声音识别装置4，在转换规则的使用频度高的情况下，该转换规则频繁地用于生成在识别词错误的情况下的词模型，因而第1阈值条件更新部45能将第1阈值条件更新成使第1阈值条件增高。由此，声音识别装置4的识别率下降。另一方面，在转换规则的使用频度低的情况下，该转换规则不频繁地用于生成在识别词错误的情况下的词模型，因而第1阈值条件更新部45能将第1阈值条件更新成使第1阈值条件降低。由此，声音识别装置4的识别率提高。

[实施方式5]

图21是示出本实施方式涉及的声音识别装置5的概略结构的框图。即，本实施方式涉及的声音识别装置5具有转换规则存储部51和声音核对部52，而取代图1所示的转换规则存储部13和声音核对部17。另外，在图21中，对于具有与图1相同功能的结构，附上相同的参照标号，省略其详细说明。

转换规则存储部51不仅对存储在图1所示的转换规则存储部13内的转换规则和第1阈值条件进行存储，而且还存储持续时间。图22是示出存储在转换规则存储部51内的数据的内容一例的图。如图22所示，在转换规则存储部51内存储有转换规则、第1阈值条件以及持续时间。在图22所示的例子中，在转换规则存储部51内对应于转换规则

的音素串“t”“o”“o”存储有持续时间“150”。并且，在转换规则存储部51内对应于转换规则

以外的转换规则的音素或音素串存储有持续时间“无”(图中“-”)。也就是说，针对转换规则

以外的转换规则的音素或音素串，未设定持续时间。另外，在本实施方式中，持续时间由ms(毫秒)表示。

声音核对部52与图1所示的声音核对部17一样，将由声音分析部11所转换的特征量和由词模型生成部16所生成的词模型进行核对。核对结果，声音核对部52计算由声音分析部11所转换的特征量和由词模型生成部16所生成的词模型之间的、各时刻的相似度。声音核对部52提取由词模型生成部16所生成的词模型中、满足在实施方式1所说明的上述全部(1)～(3)的词模型。在本实施方式中，假定声音核对部52提取出由词模型生成部16所生成的词模型中的词模型“tootomi”。

并且，声音核对部52判定说话声音的发声区间中、对应于与持续时间对应的音素或音素串的区间中的发声时间是否是持续时间以上。具体地说，声音核对部52首先提取与持续时间“150”对应的音素串“t”“o”“o”。声音核对部52确定说话声音的发声区间中、与提取出的音素串“t”“o”“o” 对应的区间。该区间通过使用例如维特比(Viterbi)算法来确定。图23是示出说话声音的发声区间中、与音素串“t”“o”“o”对应的区间V的一例的图。如图23所示，声音核对部52确定说话声音的发声区间中、与音素串“t”“o”“o”对应的区间V。声音核对部52计算区间V中的发声时间。因此，声音核对部52具有时刻测量功能。在本实施方式中，假定声音核对部52计算出区间V中的发声时间“160”(ms)。

在本实施方式中，声音核对部52判定为区间V中的发声时间是持续时间以上。也就是说，在本实施方式中，由于区间V中的发声时间是持续时间以上，因而声音核对部52判定为用户慢速地发声。即，声音核对部52判定为，用户有意识地发出识别词“とよとみ”以外的词“とおとみ”的声音，而不是用户在发出识别词“とよとみ”的声音的情况下发出的说话声音为“とおとみ”。因此，声音核对部52废弃提取出的词模型“tootomi”。

另一方面，假如在声音核对部52判定为区间V中的发声时间少于持续时间的情况下，将与提取出的词模型“tootomi”对应的识别词“とよとみ”作为识别结果来输出。也就是说，在区间V中的发声时间少于持续时间的情况下，声音核对部52判定为用户快速地发声。即，声音核对部52判定为，在用户发出识别词“とよとみ”的声音的情况下说话声音为“とおとみ”。因此，声音核对部52输出与提取出的词模型“tootomi”对应的识别词“とよとみ”。

下面，参照图24来说明上述结构涉及的声音识别装置5的动作。另外，在图24中，对于表示与图8相同处理的部分，附上相同的参照标号，省略其详细说明。

图24是示出声音识别装置5的动作一例的流程图。即，在步骤Op7中，声音核对部52判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度是第1阈值条件表示的阈值C以上(在步骤OP7“是”)，之后判定说话声音的发声区间中、对应于与持续时间对应的音素或音素串的区间中的发声时间是否是持续时间以上(步骤Op20)。

声音核对部52在判定为说话声音的发声区间中、对应于与持续时间对应的音素或音素串的区间中的发声时间是持续时间以上的情况下(在步骤Op20“是”)，废弃在步骤Op2所生成的词模型(步骤Op21)。另一方面，声音核对部52在判定为说话声音的发声区间中、对应于与持续时间对应的音素或音素串的区间中的发声时间少于持续时间的情况下(在步骤Op20“否”)，将与在步骤Op2所生成的词模型对应的识别词作为识别结果来输出(步骤Op22)。

如以上所述，根据本实施方式涉及的声音识别装置5，在说话声音的发声区间中、对应于与持续时间对应的音素或音素串的区间中的发声时间是持续时间以上的情况下，由于是人慢速地发声的情况，因而声音核对部52即使在提取出词模型的情况下，也废弃提取出的词模型。由此，能防止声音识别装置5的误识别。另一方面，在说话声音的发声区间中、对应于与持续时间对应的音素或音素串的区间中的发声时间少于持续时间的情况下，由于是人快速地发声的情况，因而声音核对部52将提取出的词模型作为识别结果来输出。由此，声音识别装置5能识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音。

产业上的可利用性

如以上所述，本发明作为这样的声音识别装置、声音识别方法或者声音识别程序是有用的：依照转换规则将识别词的读音转换成音素串，并根据所转换的音素串生成作为标准模式串的词模型，从而识别人的说话声音。

Claims

1.一种声音识别装置，该声音识别装置具有：

声音分析部，其将所输入的说话声音转换成特征量；

识别词存储部，其存储有识别词的读音；

转换规则存储部，其存储有读音与音素之间的转换规则或者读音与音素串之间的转换规则；

音素串转换部，其根据存储在所述转换规则存储部内的转换规则，将存储在所述识别词存储部内的识别词的读音转换成音素串；

音素模型存储部，其存储有对音素容易变成怎样的特征量进行建模而成的标准模式；

词模型生成部，其根据由所述音素串转换部转换的音素串，提取存储在所述音素模型存储部内的标准模式，对提取出的标准模式进行连接，由此生成作为标准模式串的词模型；以及

声音核对部，其计算由所述声音分析部转换的特征量与由所述词模型生成部生成的词模型之间的、各时刻的相似度，

所述转换规则存储部还存储与所述转换规则中的至少1个转换规则的音素或音素串对应的第1阈值条件，

所述声音核对部提取由所述词模型生成部生成的词模型中的这样的词模型：在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件，且所述说话声音的发声区间中、对应于与所述第1阈值条件对应的音素或音素串的区间的各时刻的相似度满足该第1阈值条件，所述声音核对部将与提取出的词模型对应的识别词作为识别结果来输出。

2.根据权利要求1所述的声音识别装置，其中，

所述转换规则存储部针对所述第1阈值条件表示的每个条件配备有多个，

所述音素串转换部根据存储在所述识别词存储部内的识别词的读音数，从多个转换规则存储部中选择用于将识别词的读音转换成音素串的转换规则存储部，根据存储在所选择的转换规则存储部内的转换规则，将存储在所述识别词存储部内的识别词的读音转换成音素串。

3.根据权利要求1所述的声音识别装置，其中，

该声音识别装置还具有：

使用频度计算部，其计算在生成与由所述声音核对部输出的识别结果的识别词对应的词模型时使用的转换规则的使用频度；以及

第1阈值条件更新部，其在由所述使用频度计算部计算出的转换规则的使用频度大于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件降低，在由所述使用频度计算部计算出的转换规则的使用频度小于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件增高。

4.根据权利要求1所述的声音识别装置，其中，

该声音识别装置还具有：

输入部，其从用户处受理由所述声音核对部输出的识别结果是否错误的决定；

使用频度计算部，其在所述输入部从用户处受理了由所述声音核对部输出的识别结果是错误的决定的情况下，计算在生成与相应识别结果的识别词对应的词模型时使用的转换规则的使用频度；以及

第1阈值条件更新部，其在由所述使用频度计算部计算出的转换规则的使用频度大于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件增高，在由所述使用频度计算部计算出的转换规则的使用频度小于边界条件的情况下，更新第1阈值条件，使得与该转换规则的音素或音素串对应的该第1阈值条件降低。

5.根据权利要求1所述的声音识别装置，其中，

所述转换规则存储部还存储与所述转换规则的音素或音素串对应的持续时间，

所述声音核对部判定所述说话声音的发声区间中、对应于与所述持续时间对应的音素或音素串的区间中的发声时间是否是所述持续时间以上，在判定为所述区间中的发声时间是所述持续时间以上的情况下，废弃提取出的词模型，在判定为所述区间中的发声时间少于所述持续时间的情况下，将与提取出的词模型对应的识别词作为识别结果来输出。

6.一种声音识别方法，该声音识别方法包含：

声音分析步骤，由计算机具有的声音分析部将所输入的说话声音转换成特征量；

音素串转换步骤，由所述计算机具有的音素串转换部根据在存储有读音与音素之间的转换规则或者读音与音素串之间的转换规则的转换规则存储部内存储的转换规则，将在存储有识别词的读音的识别词存储部内存储的识别词的读音转换成音素串；

词模型生成步骤，由所述计算机具有的词模型生成部根据由所述音素串转换步骤转换的音素串，提取在存储有对音素容易变成怎样的特征量进行建模而成的标准模式的音素模型存储部内存储的标准模式，对提取出的标准模式进行连接，由此生成作为标准模式串的词模型；以及

声音核对步骤，由所述计算机具有的声音核对部计算由所述声音分析步骤转换的特征量与由所述词模型生成步骤生成的词模型之间的、各时刻的相似度，

所述声音核对步骤提取由所述词模型生成步骤生成的词模型中的这样的词模型：在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件，且所述说话声音的发声区间中、对应于与所述第1阈值条件对应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件，所述声音核对步骤将与提取出的词模型对应的识别词作为识别结果来输出。