CN105632499A

CN105632499A - 用于优化语音识别结果的方法和装置

Info

Publication number: CN105632499A
Application number: CN201410602377.4A
Authority: CN
Inventors: 雍坤; 丁沛; 朱会峰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2016-06-01
Anticipated expiration: 2034-10-31
Also published as: US9672817B2; US20160125874A1; JP6204959B2; CN105632499B; JP2016091028A

Abstract

本发明提供用于优化语音识别结果的方法和装置。根据一个实施方式，用于优化语音识别结果的装置包括：接收单元，其接收语音识别结果；计算单元，其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及替换单元，其在上述发音相似度高于第1阈值的情况下，将上述片段替换为上述关键词。

Description

用于优化语音识别结果的方法和装置

技术领域

本发明涉及语音识别技术，具体地，涉及用于优化语音识别结果的方法和装置。

背景技术

在语音识别的一些应用场景中，说话内容往往包含一些关键词，这些关键词能否被正确识别出来密切影响着语音识别***的用户体验。例如，在会议支援应用中，语音识别***把发言人说话的内容识别出来，而会议中所涉及的重要人名、地名、技术术语等词汇就是关键词，其识别率是此类应用最主要的性能指标。

关键词可以分为两类，如果关键词不在语音识别的***词典里，可称之为新词，如果在词典内，则可称之为核心词。由于新词未在***词典里注册，而语音识别***只能输出***词典里存在的词条，所以新词完全无法被直接识别出来。

虽然大部分新词可以由***词典里的词条拼接后间接输出，但由于这种拼接的情况在训练语料里很少见，导致其语言模型得分很低，因此被成功识别出来的概率依然很小。

对已在***词典里注册过的核心词而言，如果***词典里存在其他发音相同或相似但语言模型得分更高的非核心词，则语音识别***会错误的选择该非核心词作为输出结果。

因此，普通的语音识别***对关键词的识别率都很低，而错误的识别结果一般都是读音相同或相似的其他词汇。

提高关键词的识别率的关键是提升关键词的语言模型得分。通常，使用基于类的语音模型来提升关键词的语言模型得分。在该方法中，可以创建一些类来对应各种关键词，如人名类、地名类、技术术语类等，并在***词表里挑选一定数目符合某类别性质的典型词汇加入相应的类。在训练语言模型时，每个类的语言模型得分由对该类所包含的所有典型词汇共同统计后得出。在语音识别之前，把关键词添加到***词典里并关联到所属的类，而在语音识别的过程中，关键词则共享其所属类的语言模型得分。由于典型词汇的语言模型得分都比较高，所以关键词的语言模型得分被大为提升，其识别率也得以大幅度提高。

发明内容

本发明的发明人发现即使采用上述基于类的语言模型方法，仍然有一定比例的关键词不能被正确识别，从而影响语音识别***，尤其是会议支援***中的用户体验。

为了解决现有技术中存在的上述问题，本发明的实施方式提供是一种通过关键词列表优化语音识别结果的语音识别后处理技术，其不涉及对语音识别引擎的修改，功能实现非常容易，计算量非常小，使用方便，添加或更改关键词只需修改对应的关键词列表文件。具体而言，提供以下用于优化语音识别结果的技术方案。

[1]一种用于优化语音识别结果的方法，包括以下步骤：

接收语音识别结果；

计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及

在上述发音相似度高于第1阈值的情况下，将上述片段替换为上述关键词。

上述方案[1]的用于优化语音识别结果的方法，通过关键词列表对语音识别结果中被错误识别的关键词进行优化，能够提高语音识别结果的质量，改善语音识别***，尤其是会议支援***的性能。上述方案[1]的方法不涉及对语音识别引擎的修改，功能实现非常容易，计算量非常小，使用方便，添加或更改关键词只需修改对应的关键词列表文件。

[2]根据上述[1]所述的方法，其中，上述替换步骤包括以下步骤：

在上述发音相似度高于上述第1阈值且上述片段的语言模型得分低于第2阈值的情况下，将上述片段替换为上述关键词。

上述方案[2]的方法通过仅对语言模型得分低的片段进行替换，能够提高替换的正确率。另外，由于语言模型得分是利用语音识别结果中已有的数据，因此计算量非常小。

[3]根据上述[1]或[2]所述的方法，其中，上述计算步骤包括以下步骤：

计算上述语音识别结果中的语言模型得分低于第2阈值的片段和上述关键词列表中的关键词之间的发音相似度。

上述方案[3]的方法通过仅对语言模型得分低的片段进行计算，能够进一步降低计算量。

[4]根据上述[1]～[3]的任一方案所述的方法，其中，上述计算步骤包括以下步骤：

计算上述语音识别结果中的片段和关键词列表中的关键词之间的声学距离，并基于上述声学距离除以上述关键词的字数、音节数或音素数的平均声学距离，计算上述发音相似度。

上述方案[4]的方法中，由于声学距离计算是字一级或词一级的处理，因此计算量非常小。

[5]根据上述[1]～[4]的任一方案所述的方法，其中，上述计算步骤包括以下步骤：

计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。

[6]根据上述[5]所述的方法，其中，上述计算步骤包括以下步骤：

利用音素混淆矩阵作为权重来计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。

[7]根据上述[1]～[6]的任一方案所述的方法，其中，上述计算步骤包括以下步骤：

计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。

[8]根据上述[7]所述的方法，其中，上述计算步骤包括以下步骤：

利用音调混淆矩阵作为权重计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。

[9]根据上述[1]～[8]的任一方案所述的方法，其中，上述计算步骤包括以下步骤：

计算上述片段和上述关键词的音素序列之间的音素声学距离和上述片段和上述关键词的音调序列之间的音调声学距离的加权平均值，作为上述片段和上述关键词之间的上述声学距离。

[10]根据上述[1]～[9]的任一方案所述的方法，其中，

上述片段包括上述语音识别结果中的词、相邻的多个词的组合或相邻的多个字的组合。

[11]根据上述[1]～[10]的任一方案所述的方法，其中，

上述片段的语言模型得分基于与上述片段相关的词的语言模型得分计算。

[12]一种用于优化语音识别结果的装置，包括：

接收单元，其接收语音识别结果；

计算单元，其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及

替换单元，其在上述发音相似度高于第1阈值的情况下，将上述片段替换为上述关键词。

上述方案[12]的用于优化语音识别结果的装置，通过关键词列表对语音识别结果中被错误识别的关键词进行优化，能够提高语音识别结果的质量，改善语音识别***，尤其是会议支援***的性能。上述方案[12]的装置不涉及对语音识别引擎的修改，功能实现非常容易，计算量非常小，使用方便，添加或更改关键词只需修改对应的关键词列表文件。

[13]根据上述[12]所述的装置，其中，

上述替换单元，在上述发音相似度高于上述第1阈值且上述片段的语言模型得分低于第2阈值的情况下，将上述片段替换为上述关键词。

上述方案[13]的装置通过仅对语言模型得分低的片段进行替换，能够提高替换的正确率。另外，由于语言模型得分是利用语音识别结果中已有的数据，因此计算量非常小。

[14]根据上述[12]或[13]所述的装置，其中，

上述计算单元，计算上述语音识别结果中的语言模型得分低于第2阈值的片段和上述关键词列表中的关键词之间的发音相似度。

上述方案[14]的装置通过仅对语言模型得分低的片段进行计算，能够进一步降低计算量。

[15]根据上述[12]～[14]的任一方案所述的装置，其中，

上述计算单元，计算上述语音识别结果中的片段和关键词列表中的关键词之间的声学距离，并基于上述声学距离除以上述关键词的字数、音节数或音素数的平均声学距离，计算上述发音相似度。

上述方案[15]的装置中，由于声学距离计算是字一级或词一级的处理，因此计算量非常小。

[16]根据上述[12]～[15]的任一方案所述的装置，其中，

上述计算单元，计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。

[17]根据上述[16]所述的装置，其中，

上述计算单元，利用音素混淆矩阵作为权重来计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。

[18]根据上述[12]～[17]的任一方案所述的装置，其中，

上述计算单元，计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。

[19]根据上述[18]所述的装置，其中，

上述计算单元，利用音调混淆矩阵作为权重计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。

[20]根据上述[12]～[19]的任一方案所述的装置，其中，

上述计算单元，计算上述片段和上述关键词的音素序列之间的音素声学距离和上述片段和上述关键词的音调序列之间的音调声学距离的加权平均值，作为上述片段和上述关键词之间的上述声学距离。

[21]根据上述[12]～[20]的任一方案所述的装置，其中，

[22]根据上述[12]～[21]的任一方案所述的装置，其中，

附图说明

结合附图，从下面对本发明的实施例的详细描述中本发明的目的、特点和优点将显而易见，其中：

图1示出了根据本发明的一个实施方式的用于优化语音识别结果的方法的流程图。

图2示出了本发明的用于优化语音识别结果的方法的一个优选实施例的流程图。

图3示出了对语音识别结果和关键词列表进行匹配的一个实例。

图4示出了计算平均声学距离的一个具体实例。

图5示出了根据本发明的另一个实施方式的用于优化语音识别结果的装置的框图。

具体实施方式

下面，结合附图对本发明的实施方式进行详细描述。

<用于优化语音识别结果的方法>

本发明的第1实施方式提供一种用于优化语音识别结果的方法，包括以下步骤：接收语音识别结果；计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及在上述发音相似度高于第1阈值的情况下，将上述片段替换为上述关键词。

图1示出了根据本发明的第1实施方式的用于优化语音识别结果的方法的流程图。

首先，如图1所示，在步骤S101，接收来自语音识别引擎的语音识别结果10。

在本实施方式中，接收的语音识别结果10可以是利用本领域的技术人员公知的任何语音识别引擎或***获得的结果，其可以是各种语言的语音识别结果，例如汉语、英语、日语等，本发明对此没有任何限制。

接着，在步骤S105，计算语音识别结果10中的片段和关键词列表20中的关键词之间的发音相似度。

在本实施方式中，语音识别结果的片段包括语音识别结果中的词、相邻的多个词的组合或相邻的多个字的组合。

在本实施方式中，步骤S105计算发音相似度的过程实际上是对语音识别结果与关键词列表进行匹配的过程，即利用关键词列表捕捉语音识别结果中的错误输出片段的过程。

在步骤S105中，优选，从语音识别结果的开头进行匹配，直到对所有识别结果完成匹配。另外，为了节约计算量，也可以只对语音识别结果中的语言模型得分低于第2阈值的片段和关键词列表进行匹配。语音识别结果的片段的语言模型得分可以基于与该片段相关的词的语言模型得分计算，而语音识别结果的词的语言模型得分是语音识别结果中已有的数据。

如图3所示，语音识别结果“高强度{gao1qiang2du4,LMS1}茶{cha2,LMS2}果{guo3,LMS3}制作{zhi4zuo4,LMS4}”包括4个词、每个词的语言模型得分LMS和每个词的每个字的拼音和音调。关键词列表“关键词_1{PinYin_1}，...叉管{cha1guan3}，...关键词_N{PinYin_N}”包括N个关键词和每个关键词的每个字的拼音和音调。

在图3所示的实例中，将第2个词“茶{cha2,LMS2}”和第3个词“果{guo3,LMS3}”组合成一个片段，并将关键词列表中的每个关键词分别与语音识别结果的3个片段进行匹配，求出每个关键词与每个片段之间的发音相似度。

在该实例中，尽管示出了对于所有的关键词，都将第2个词“茶{cha2,LMS2}”和第3个词“果{guo3,LMS3}”组合成一个片段，但是本实施方式并不限于此，也可以针对每个关键词，对语音识别结果中的相邻的多个词或相邻的多个字进行组合。

下面以“高强度茶果制作”和“叉管”为例说明匹配方法。

语音识别结果：高强度茶果制作

待匹配的关键词：叉管

一种匹配方法是词一级别的模糊匹配：

待匹配片断将是一个或多个邻近词，至少包括了下面几种相似度计算:

茶<->叉管

茶果<->叉管

茶果制作<->叉管

果制作<->叉管

高强度茶果制作<->叉管

...

另一种匹配方法是字一级别的模糊匹配：

待匹配片断将是一个或多个邻近字，需要匹配的种类要比第一种情况多，至少包括了下面几种相似度计算:

强度<->叉管

度<->叉管

度茶<->叉管

茶<->叉管

茶果<->叉管

果制<->叉管

高强度茶果制作<->叉管

...

上述匹配方法的具体算法优选使用动态规划算法，可以有效降低算法的消耗时间。

在本实施方式中，片段和关键词之间的发音相似度是指二者的发音的相似程度，其优选通过二者的声学距离进行计算。如果二者的声学距离越小，则二者的相似程度越高。声学距离的计算将在下文中结合附图进行详细描述。

接着，在步骤S110，在片段和关键词的发音相似度高于第1阈值的情况下，将片段替换为关键词。

在本实施方式中，第1阈值和第2阈值可以根据实际需要进行设置，本实施方式对此没有任何限制。

下面结合图2至图4详细说明本发明的用于优化语音识别结果的方法的一个优选实施例。

如图2所述，在步骤S201，与步骤S101相同，接收语音识别结果10。

接着，在步骤S205，计算语音识别结果10中的片段和关键词列表20中的关键词之间的平均声学距离。

在本实施例中，声学距离的计算是比较语音识别结果10中的片段的音素序列和关键词音素序列的差异，优选通过音素混淆矩阵来加权每一个音素对之间的声学距离。音素是发音的基本单元，对中文而言，音素可以是拼音，也可以把拼音再拆为声母(Initial)和韵母(Final)，甚至把复韵母再细拆为各单韵母。一般情况下声母加韵母的音素划分对本实施方式的方法已非常精确。音素混淆矩阵是根据对识别结果的统计所得到的反映各音素彼此之间易混淆程度的定量描述，即为一种从语音识别角度对声学相似度的描述。两个发音比较类似的音素之间声学距离较近，比如“in”和“ing”发音比较类似，“in”被误识别成“ing”或者“ing”被误识别成“in”的概率都很大，所以当输出片段和关键词的音素序列中出现这种发音差异时，其对声学距离的贡献较小。反之两个发音差异较大的音素之间的声学距离也较大。

由于中文是带调语言，在计算声学距离时可再加入对音调序列的比较，且优选使用音调混淆矩阵进行加权。

在本实施方式中，音素序列的声学距离和音调序列的声学距离，优选通过一定权重相加，例如将两者的权重分别设为w和1-w。若只考虑计算音素序列的声学距离，则其对应于w＝1的情况。进而，语音识别结果的片段和关键词之间的声学距离再除以关键词的字的个数、音节的个数或音素的个数，得到单个字、单个音节或者单个音素的平均声学距离。

下面结合图4详细描述计算平均声学距离的过程。

如图4所述，以片段“茶{cha2}果{guo3}”和关键词“叉管{cha1guan3}”为例进行描述。

第一，基于片段“茶{cha2}果{guo3}”的音素序列“ch,a,g,uo”和关键词“叉管{cha1guan3}”的音素序列“ch,a,g,uan”计算二者的音素声学距离，在计算过程中，利用音素混淆矩阵对每个音素对之间的声学距离进行加权。

第二，基于片段“茶{cha2}果{guo3}”的音调序列“2,3”和关键词“叉管{cha1guan3}”的音调序列“1,3”计算二者的音调声学距离，在计算过程中，利用音调混淆矩阵对每个音调对之间的声学距离进行加权。

第三，将音素声学距离和音调声学距离的权重分别设为w和1-w，计算二者的加权平均值，作为上述片段和关键词之间的声学距离，

第四，将上述片段和关键词之间的声学距离再除以关键词的字数‘2’、音节数‘2’或音素数‘4’，得到单个字、单个音节或者单个音素的平均声学距离。

返回图2，接着，在步骤S210，对步骤S205计算得到的平均声学距离与第1阈值TH1进行比较，在平均声学距离小于TH1的情况下，进入步骤S215，否则，进入步骤S225。

在步骤S215，对片段“茶{cha2}果{guo3}”的语言模型得分与第2阈值进行比较。片段“茶{cha2}果{guo3}”的语言模型得分基于片段中的词“茶{cha2}”的语音模型得分LMS3和词“果{guo3}”的语音模型得分LMS4，例如将二者的乘积作为该片段的语音模型得分。

在步骤S215，在语言模型得分小于TH2的情况下，进入步骤S220，否则，进入步骤S225。

在步骤S220，将片段“茶{cha2}果{guo3}”替换为关键词“叉管{cha1guan3}”。在步骤S225，保留片段“茶{cha2}果{guo3}”而不进行替换。

本实施方式的用于优化语音识别结果的方法，通过关键词列表20对语音识别结果10中被错误识别的关键词进行优化，能够提高语音识别结果的质量，改善语音识别***，尤其是会议支援***的性能。本实施方式的方法不涉及对语音识别引擎的修改，功能实现非常容易，计算量非常小，使用方便，添加或更改关键词只需修改对应的关键词列表文件。

本实施方式的方法优选仅对语言模型得分低的片段进行替换，能够提高替换的正确率。另外，由于语言模型得分是利用语音识别结果中已有的数据，因此计算量非常小。本实施方式的方法优选仅对语言模型得分低的片段进行计算，能够进一步降低计算量。本实施方式的方法优选通过字一级或词一级的处理计算声学距离，因此计算量非常小。

<用于优化语音识别结果的装置>

在同一发明构思下，图5示出了根据本发明的另一个实施方式的用于优化语音识别结果的装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图5所示，本实施例的用于优化语音识别结果的装置500包括：接收单元501，其接收语音识别结果；计算单元505，其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及替换单元510，其在上述发音相似度高于第1阈值的情况下，将上述片段替换为上述关键词。

在本实施方式中，接收单元501接收来自语音识别引擎的语音识别结果10。

在本实施方式中，接收单元501接收的语音识别结果10可以是利用本领域的技术人员公知的任何语音识别引擎或***获得的结果，其可以是各种语言的语音识别结果，例如汉语、英语、日语等，本发明对此没有任何限制。

在本实施方式中，计算单元505计算语音识别结果10中的片段和关键词列表20中的关键词之间的发音相似度。

在本实施方式中，计算单元505计算发音相似度的过程实际上是对语音识别结果与关键词列表进行匹配的过程，即利用关键词列表捕捉语音识别结果中的错误输出片段的过程。

计算单元505，优选，从语音识别结果的开头进行匹配，直到对所有识别结果完成匹配。另外，为了节约计算量，也可以只对语音识别结果中的语言模型得分低于第2阈值的片段和关键词列表进行匹配。语音识别结果的片段的语言模型得分可以基于与该片段相关的词的语言模型得分计算，而语音识别结果的词的语言模型得分是语音识别结果中已有的数据。

计算单元505对语音识别结果和关键词列表进行匹配的具体实例如图3所示，具体内容与上述结合图3的描述相同，在此不再赘述。

计算单元505对语音识别结果和关键词进行匹配的方法可以使用上述步骤S105中描述的词一级别的模糊匹配方法或者字一级别的模糊匹配方法，在此不再赘述。这些匹配方法的具体算法优选使用动态规划算法，可以有效降低算法的消耗时间。

在本实施方式中，替换单元510在片段和关键词的发音相似度高于第1阈值的情况下，将片段替换为关键词。

下面详细说明本发明的用于优化语音识别结果的装置的一个优选实施例。

在本实施例中，接收单元501接收语音识别结果10。

在本实施例中，计算单元505计算语音识别结果10中的片段和关键词列表20中的关键词之间的平均声学距离。

下面以片段“茶{cha2}果{guo3}”和关键词“叉管{cha1guan3}”为例对计算单元505计算平均声学距离的过程进行描述。

第四，将上述片段和关键词之间的声学距离再除以关键词的字数‘2’、音节数‘2’或音素数‘4’，得到单个字、单个音节或单个音素的平均声学距离。

在本实施例中，还包括比较单元，其对计算单元505计算得到的平均声学距离与第1阈值TH1进行比较，在平均声学距离小于TH1的情况下，比较单元继续对片段“茶{cha2}果{guo3}”的语言模型得分与第2阈值进行比较。片段“茶{cha2}果{guo3}”的语言模型得分基于片段中的词“茶{cha2}”的语音模型得分LMS3和词“果{guo3}”的语音模型得分LMS4，例如将二者的乘积作为该片段的语音模型得分。

在语言模型得分小于TH2的情况下，替换单元510将片段“茶{cha2}果{guo3}”替换为关键词“叉管{cha1guan3}”。在平均声学距离大于等于TH1或者语言模型得分大于等于TH2的情况下，替换单元510不进行替换而保留片段“茶{cha2}果{guo3}”。

本实施方式的用于优化语音识别结果的装置，通过关键词列表20对语音识别结果10中被错误识别的关键词进行优化，能够提高语音识别结果的质量，改善语音识别***，尤其是会议支援***的性能。本实施方式的装置不涉及对语音识别引擎的修改，功能实现非常容易，计算量非常小，使用方便，添加或更改关键词只需修改对应的关键词列表文件。

本实施方式的装置优选仅对语言模型得分低的片段进行替换，能够提高替换的正确率。另外，由于语言模型得分是利用语音识别结果中已有的数据，因此计算量非常小。本实施方式的装置优选仅对语言模型得分低的片段进行计算，能够进一步降低计算量。本实施方式的装置优选通过字一级或词一级的处理计算声学距离，因此计算量非常小。

本领域的普通技术人员可以理解上述的方法和装置可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD－ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的方法和装置也可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以由上述硬件电路和软件的结合例如固件来实现。

虽然以上结合具体实施例对本发明的用于优化语音识别结果的方法和装置进行了详细描述，但本发明并不限于此，本领域普通技术人员能够理解可以对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围；本发明的保护范围由所附权利要求来限定。

Claims

1.一种用于优化语音识别结果的装置，包括：

接收单元，其接收语音识别结果；

2.根据权利要求1所述的装置，其中，

3.根据权利要求2所述的装置，其中，

上述计算单元，计算上述语音识别结果中的语言模型得分低于上述第2阈值的片段和上述关键词列表中的关键词之间的发音相似度。

4.根据权利要求1所述的装置，其中，

5.根据权利要求4所述的装置，其中，

6.根据权利要求5所述的装置，其中，

7.根据权利要求5所述的装置，其中，

8.根据权利要求7所述的装置，其中，

9.根据权利要求7所述的装置，其中，

10.一种用于优化语音识别结果的方法，包括以下步骤：

接收语音识别结果；