CN104464736A

CN104464736A - 语音识别文本的纠错方法和装置

Info

Publication number: CN104464736A
Application number: CN201410778108.3A
Authority: CN
Inventors: 时迎超; 周晓; 张海雷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-15
Filing date: 2014-12-15
Publication date: 2015-03-25
Anticipated expiration: 2034-12-15
Also published as: CN104464736B

Abstract

本发明实施例公开了一种语音识别文本的纠错方法和装置。所述语音识别文本的纠错方法包括：根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵，根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界，根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。本发明实施例提供的语音识别文本的纠错方法和装置实现了对语音识别结果文本的准确纠错。

Description

语音识别文本的纠错方法和装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别文本的纠错方法和装置。

背景技术

随着语音识别技术的日臻成熟，语音识别的应用领域也越来越广泛。相对于其他的文本输入方式，语音识别所实现的语音输入方式更为符合人们的日常习惯，也使得输入过程更为高效。可以预计，语音识别技术将广泛应用于工业生产、通信、医疗、家政服务等多个领域。

在语音识别技术的实际应用中，由于周围噪音、方言等因素的影响，语音识别的识别结果往往与用户的输入不一致。尤其在日常口语场景下，语音识别的识别错误更为普遍。而现有技术中缺乏对识别错误的纠错手段，因而影响了语音识别技术的进一步推广。

发明内容

有鉴于此，本发明实施例提出一种语音识别文本的纠错方法和装置，以对语音识别的结果文本进行准确的纠错。

第一方面，本发明实施例提供了一种语音识别文本的纠错方法，所述方法包括：

根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本；

确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵；

根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界；

根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

第二方面，本发明实施例还提供了一种语音识别文本的纠错装置，所述装置包括：

纠错文本拉取模块，用于根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本；

编辑距离矩阵计算模块，用于确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵；

路径回溯模块，用于根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界；

纠错模块，用于根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

本发明实施例提供的语音识别文本的纠错方法和装置，通过根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵，根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界，根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错，从而实现了对语音识别的结果文本的准确纠错。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明第一实施例提供的语音识别文本的纠错方法的流程图；

图2是本发明第二实施例提供的语音识别文本的纠错方法的流程图；

图3是本发明第二实施例提供的语音识别文本的纠错方法中编辑距离矩阵计算的流程图；

图4是本发明第二实施例提供的语音识别文本的纠错方法中路径回溯的流程图；

图5是本发明第三实施例提供的语音识别文本的纠错方法的流程图；

图6是本发明第三实施例提供的语音识别文本的纠错方法中纠错文本拉取的流程图；

图7是本发明第三实施例提供的语音识别文本的纠错方法中编辑距离矩阵计算的流程图；

图8是本发明第三实施例提供的语音识别文本的纠错方法中路径回溯的流程图；

图9是本发明第四实施例提供的语音识别文本的纠错方法的流程图；

图10是本发明第五实施例提供的语音识别文本的纠错方法中纠错的流程图；

图11是本发明第六实施例提供的语音识别文本的纠错装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

第一实施例

图1是本发明第一实施例提供的语音识别文本的纠错方法的流程图。参见图1，所述语音识别文本的纠错方法包括：

S110，根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本。

在对所述语音识别的结果文本进行纠错之前，首先建立所述结果文本的多层次K-Gram索引。在建立所述结果文本的多层次K-Gram索引之后，根据所述多层次K-Gram索引，从预置的语料库中拉取与所述结果文本最为相似的候选纠错文本。

具体的，所述多层次K-Gram索引包括汉字层次的K-Gram索引、拼音音节层次的K-Gram索引、全拼或简拼层次的K-Gram索引、声母韵母层次的K-Gram索引中的任意一个。

所述汉字层次的K-Gram索引是以所述结果文本中的汉字为组成K-Gram索引的元素而建立的K-Gram索引。所述拼音音节层次的K-Gram索引是以所述结果文本中汉字对应的拼音音节组成K-Gram索引的元素而建立的K-Gram索引。所述全拼或简拼层次的K-Gram索引是获取所述结果文本中汉字对应的全拼或简拼，并以所述全拼或简拼为组成K-Gram索引的元素而建立的K-Gram索引。所述声母韵母层次的K-Gram索引是从所述结果文本中汉字对应的全拼中区分出声母和韵母，并以区分出的声母和韵母为组成K-Gram索引的元素而建立的K-Gram索引。

拉取的候选纠错文本是用于从中选取对所述结果文本进行纠错的纠错文本的备选文本。为了能够更为准确的对所述结果文本进行纠错，在拉取候选纠错文本时，拉取的候选纠错文本的数量应该为至少一个。

S120，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵。

确定了至少一个候选纠错文本之后，确定每个候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。

编辑距离是指两个字符串之间，由一个字符串转换成另外一个字符串所需的最少的编辑操作次数。其中，所述编辑操作包括替换操作、***操作以及删除操作。所述替换操作是指利用一个字符替换另一个字符；所述***操作是指在字符串中***一个原来没有的字符；所述删除操作是指从字符串中删掉一个原有的字符。

编辑距离矩阵是一种用于计算两个字符串之间的编辑距离的矩阵。表1示出了字符串“kitten”与字符串“sitting”之间的编辑距离矩阵。

表1

		k	i	t	t	e	n
								0	1	2	3	4	5	6
s	1	1	2	3	4	5	6

i	2	2	1	2	3	4	5
								t	3	3	2	1	2	3	4
t	4	4	3	2	1	2	3
								i	5	5	4	3	2	2	2
n	6	6	5	4	3	3	2
								g	7	7	6	5	4	4	3

给出两个字符串，可以利用动态规划算法求解两个字符串之间的编辑距离矩阵。

利用动态规划算法求解得到两个字符串之间的编辑距离矩阵以后，将所述编辑距离矩阵中替换操作对应的元素替换为该元素对应的当前候选纠错文本中的字符与所述元素对应的所述结果文本中的字符之间的模糊音相似度，就得到了当前候选纠错文本与结果文本之间的模糊音编辑距离矩阵。所述模糊音相似度用于表征两个字符串之间在语音上的相似程度。具体的，在本实施例中，所述模糊音相似度用于表征当前候选纠错文本与结果文本在语音上的相似程度。

所述元素对应的当前候选纠错文本中的字符与所述元素对应的所述结果文本中的字符之间的模糊音相似度是通过查找预先设置的模糊音矩阵而得到。在所述模糊音矩阵中，记录有不同字符与它们之间的模糊音相似度的对应关系。因此，可以通过查找所述模糊音矩阵得到需要的模糊音相似度。

S130，根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界。

确定每个候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵之后，对于每个候选纠错文本，根据当前候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵，获取当前候选纠错文本与所述结果文本之间的模糊音编辑距离以及利用当前候选纠错文本对所述结果文本进行纠错时应该采用的候选纠错边界。

所述模糊音编辑距离是用来表示当前候选纠错文本与所述结果文本之间在语音上的相似程度的量。两个文本之间的模糊音编辑距离越大，表明这两个文本在语音上的相似程度越低。当一个候选纠错文本与所述结果文本之间在语音上的相似程度较低时，最终采用该候选纠错文本作为纠错文本对所述结果文本进行纠错的概率就较低。

一般来讲，采用一个候选纠错文本对所述结果文本进行纠错就是从所述候选纠错文本中选取一个纠错子字符串，替换掉所述结果文本中出错的错误子字符串。所述候选纠错边界表示所述纠错子字符串在所述候选纠错文本中的上边界及下边界，以及所述错误子字符串在所述结果文本中的上边界及下边界。例如，假设候选纠错文本为“亚太经济合作组织”，而语音识别的结果文本为“亚太积极合作组织是亚太地区最具影响的经济合作官方论坛”。经过识别，得到所述纠错子字符串为“亚太经济合作组织”，错误子字符串为“亚太积极合作组织”，则所述纠错子字符串“亚太经济合作组织”的上边界及下边界，以及所述错误子字符串“亚太积极合作组织”的上边界及下边界即为所述候选纠错边界。

S140，根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

获取到每个候选纠错文本与所述结果文本之间的模糊音编辑距离之后，根据每个候选纠错文本各自对应的模糊音编辑距离，从所述至少一个候选纠错文本中选取纠错文本。由于所述模糊音编辑距离越大，表明对应的候选纠错文本与所述结果文本在语音上的相似程度越低，所以，一般应当选取所述至少一个候选纠错文本中与所述结果文本之间的模糊音编辑距离较小的候选纠错文本，作为最终对所述结果文本进行纠错的纠错文本。

本实施例通过根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵，根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界，以及根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错，对语音识别文本进行了准确的纠错。

第二实施例

图2是本发明第二实施例提供的语音识别文本的纠错方法的流程图。所述语音识别文本的纠错方法以本发明第一实施例为基础，进一步的，所述语音识别文本的纠错方法包括：根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个非模板候选纠错文本；确定所述至少一个非模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵；根据确定的模糊音编辑距离矩阵获取所述至少一个非模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界；根据所述至少一个非模板候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

参见图2，所述语音识别文本的纠错方法包括：

S210，根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个非模板候选纠错文本。

具体的，根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本包括：根据汉字层次、拼音音节层次、全拼或简拼层次或者声母韵母层次的K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个非模板候选纠错文本。

在本实施例中，根据多层次K-Gram索引拉取候选纠错文本具体为根据汉字层次、拼音音节层次、全拼或简拼层次或者声母韵母层次的K-Gram索引，拉取至少一个候选纠错文本，所拉取的候选纠错文本为非模板候选纠错文本。所述非模板候选纠错文本是其中不包含通配符的候选纠错文本。

S220，确定所述至少一个非模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵。

S230，根据确定的模糊音编辑距离矩阵获取所述至少一个非模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界。

S240，根据所述至少一个非模板候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

图3是本发明第二实施例提供的语音识别文本的纠错方法中模糊音编辑距离矩阵计算的流程图。参见图3，确定所述至少一个非模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵包括：

S221，对于拉取到的每个非模板候选纠错文本，将初始化的模糊音编辑距离矩阵中替换操作对应元素的取值，设置为所述元素所对应的当前非模板候选纠错文本中的字符与所述元素所对应的结果文本中的字符之间的模糊音相似度。

在本实施例中，在拉取到至少一个非模板候选纠错文本之后，对于拉取到的每个非模板候选纠错文本，计算它与所述结果文本之间的模糊音编辑距离矩阵。在计算当前非模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵时，首先将所述模糊音编辑距离矩阵中替换操作对应元素的取值，设置为所述元素所对应的当前非模板候选纠错文本中的字符与所述元素所对应的结果文本中的字符之间的模糊音相似度。

对所述替换操作所对应的位置可以通过对所述非模板候选纠错文本及所述结果文本进行文本比较或者文本对应的语音比较而识别。例如，可以将所述非模板候选纠错文本及所述结果文本中语音相关对最高的两个字符在所述模糊音编辑距离矩阵中所对应的位置作为替换操作所对应的位置。

进一步的，如果根据上述方式确定的一个替换操作对应的位置上的元素的取值小于所述模糊音编辑距离矩阵中前一个替换操作对应的位置上的元素的取值，则以前一个替换操作对应的位置上的元素的取值为该元素的取值。因此，所有替换操作对应的位置上的元素的取值应该是依次递增的。

S222，根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值，得到当前非模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。

在设置所述模糊音编辑距离矩阵中替换操作所对应元素的取值之后，确定所述模糊音编辑距离中非替换操作对应元素，也就是除了替换操作对应元素之外的其他元素的取值。

具体的，所述非替换操作对应元素的取值依照动态规划算法的方式确定。进一步的，当所述元素的横轴索引或者纵轴索引的取值是0时，所述元素的取值是非0的横轴索引或纵轴索引。当所述元素的横轴索引及纵轴索引都不是0时，所述元素的取值依照下式确定：

d[i][j]＝min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+θ[i][j])。

其中，d[i][j]为横轴索引为i，纵轴索引为j的元素的取值，θ[i][j]为横轴索引为i，纵轴索引为j的元素所对应的非模板候选纠错文本中的字符与该元素所对应的纠错文本中的字符之间的模糊音相似度。

需要注意的是，在计算非替换操作对应元素的取值时，需要根据上式同步的更新替换操作所对应元素的取值。

表2示出了非模板候选纠错文本“不寒而栗”与结果文本“不含阿狸的成语解释”之间的模糊音编辑距离矩阵。参见表2，在所述非模板候选纠错文本与所述结果文本之间的替换操作所对应的位置上，也就是在所述表2的横轴索引与纵轴索引相等的位置上，所述模糊音编辑距离矩阵的元素是该元素对应的非模板候选纠错文本中的字符与该元素对应的结果文本中的字符之间的模糊音相似度。

表2

		不	寒	而	栗
							0	1	2	3	4
不	1	0	1	2	3
						含	2	1	0	1	2
阿	3	2	1	0.3369	1.3369
						狸	4	3	2	1.3369	0.3369
的	5	4	3	2.3369	1.3369
						成	6	5	4	3.3369	2.3369
语	7	6	5	4.3369	3.3369
						解	8	7	6	5.3369	4.3369

释

9

8

7

6.3369

5.3369

图4是本发明第二实施例提供的语音识别文本的纠错方法中路径回溯的流程图。参见图4，根据确定的模糊音编辑距离矩阵获取所述至少一个非模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界包括：

S231，对于确定的每个模糊音编辑距离矩阵，通过路径回溯获取当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界。

在进行路径回溯时，从所述模糊音编辑距离矩阵的第一个元素以最短路径移动至第一个替换操作所对应的元素，同时从所述模糊音编辑距离矩阵的最后一个元素以最短路径移动至最后一个替换操作所对应的元素。表3示出了在非模板候选纠错文本“不寒而栗”与结果文本“不含阿狸的成语解释”之间的模糊音编辑距离矩阵进行路径回溯的操作示意图。表3中的箭头具体标明了对所述模糊音编辑距离矩阵进行的路径回溯操作。

表3

		不	寒	而	栗
							0↘	1	2	3	4
不	1	0	1	2	3
						含	2	1	0	1	2
阿	3	2	1	0.3369	1.3369
						狸	4	3	2	1.3369	0.3369
的	5	4	3	2.3369	1.3369↑
						成	6	5	4	3.3369	2.3369↑
语	7	6	5	4.3369	3.3369↑

解	8	7	6	5.3369	4.3369↑
						释	9	8	7	6.3369	5.3369↑

S232，将当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界，作为当前模糊音编辑距离矩阵对应的非模板候选纠错文本与所述结果文本之间的模糊音编辑距离及候选纠错边界。

具体的，以最后一个替换操作对应的元素的取值为所述非模板候选纠错文本与所述结果文本的模糊音编辑距离。并且，以所述第一个替换操作对应的元素所对应所述非模板候选纠错文本中的字符和结果文本中的字符的边界，以及所述最后一个替换操作对应的元素所对应的所述非模板候选纠错文本中的字符和结果文本中的字符的边界为所述候选纠错边界。在上面的例子中，以候选纠错文本“不寒而栗”的上边界及下边界，以及结果文本中的字符串“不含阿狸”的上边界及下边界作为所述非模板候选纠错文本“不寒而栗”的候选纠错边界。

本实施例通过根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个非模板候选纠错文本，确定所述至少一个非模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵，根据确定的模糊音编辑距离矩阵获取所述至少一个非模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界，根据所述至少一个非模板候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错，实现了对语音识别的结果文本的准确纠错。

第三实施例

图5是本发明第三实施例提供的语音识别文本的纠错方法的流程图。所述语音识别文本的纠错方法以本发明第一实施例为基础，进一步的，所述语音识别文本的纠错方法包括：根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个模板候选纠错文本；确定所述至少一个模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵；根据确定的模糊音编辑距离矩阵获取所述至少一个模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界；根据所述至少一个模板候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

参见图5，所述语音识别文本的纠错方法包括：

S510，根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个模板候选纠错文本。

S520，确定所述至少一个模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵。

S530，根据确定的模糊音编辑距离矩阵获取所述至少一个模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界。

S540，根据所述至少一个模板候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

图6是本发明第三实施例提供的语音识别文本的纠错方法中纠错文本拉取的流程图。参见图6，根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个模板候选纠错文本包括：

S511，根据汉字层次、拼音音节层次、全拼或简拼层次或者声母韵母层次的K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本。

S512，识别每个候选纠错文本中包含的专有名词，并使用通配符替换所述专有名词，以得到至少一个模板候选纠错文本。

在拉取所述候选纠错文本之后，判断所述候选纠错文本中是否包含有专有名词。所述专有名词包括地名、国家名称、组织名称以及著名人物的人名。例如，“刘德华”是著名人物的人名，可以被识别为专有名词。

从所述候选纠错文本中识别出专有名词后，使用通配符替换所述专有名词，从而得到所述候选纠错文本对应的模板候选纠错文本。例如，对于候选纠错文本“我想听刘德华的歌”，识别专有名词“刘德华”并使用通配符对专有名词“刘德华”进行替换以后，就形成了模板候选纠错文本“我想听*的歌”。在上述例子中，“*”就是所述模板候选纠错文本中的通配符。

图7是本发明第三实施例提供的语音识别文本的纠错方法中编辑距离矩阵计算的流程图。参见图7，确定所述至少一个模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵包括：

S521，对于拉取到的每个模板候选纠错文本，将初始化的模糊音编辑距离矩阵中替换操作对应元素的取值，设置为所述元素所对应的当前模板候选纠错文本中的字符与所述元素所对应的结果文本中的字符之间的模糊音相似度。

对于包含通配符的模板候选纠错文本，与非模板候选纠错文本的模糊音编辑距离矩阵的确定方式类似，将替换操作对应元素的取值，设置为素数元素所对应的当前模板候选纠错文本中的字符与所述元素所对应的结果文本中字符之间的模糊音相似度。

表4示出了模板候选纠错文本“我想听*的歌”与结果文本“我想挺刘德华的哥”之间的模糊音编辑距离矩阵。

表4

		我	想	听	*	的	歌
									0	1	2	3	4	5	6
我	1	0	1	2	3	4	5
								想	2	1	0	1	2	3	4
挺	3	2	1	0	1	2	3
								刘	4	3	2	1	1	1.7	2.7
德	5	4	3	2	2	1	2
								华	6	5	4	3	3	2	1.8
的	7	6	5	4	4	3	2.8
								哥	8	7	6	5	5	4	3

参见表4，在所述模板候选纠错文本与所述结果文本之间的替换操作所对应的位置上，所述模糊音编辑距离矩阵的元素是该元素对应的模板候选纠错文本中的字符与该元素对应的结果文本中的字符之间的模糊音相似度。

与非模板候选纠错文本的模糊音编辑距离矩阵相同，所述替换操作对应的位置可以通过对所述非模板候选纠错文本及所述结果文本进行文本比较或者文本对应的语音比较而识别。

与非模板候选纠错文本的模糊音编辑距离矩阵不同的是，由于所述模板候选纠错文本中包含通配符，所述模板候选纠错文本中的字符与所述结果文本中的字符并不是一一对应。通常情况下，通配符会对应与至少两个所述结果文本中的字符。例如，在表4示出的例子中，所述通配符与所述结果文本中的三个字符：“刘”、“德”以及“华”相对应。

对于与所述通配符所对应的替换操作对应的位置上的元素，由于无法获取这些元素的模糊音相似度，它们的取值是它们的前一个替换操作对应的位置上的元素的取值加一。

S522，根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值，得到当前模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。

对于所述模糊音编辑距离矩阵中非替换操作对应元素，也就是所述模糊音编辑距离矩阵中除了替换操作对应元素的其他元素，根据动态规划算法确定其取值。并且，在根据动态规划算法确定非替换操作对应元素的取值时，还需要一起更新替换操作对应元素的取值。

图8是本发明第三实施例提供的语音识别文本的纠错方法中路径回溯的流程图。参见图8，根据确定的模糊音编辑距离矩阵获取所述至少一个模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界包括：

S531，对于确定的每个模糊音编辑距离矩阵，通过路径回溯获取当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界。

对于模板候选纠错文本，通过路径回溯获取当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界的过程与非模板候选纠错文本类似，在此不再赘述。

S532，确定当前模糊音编辑距离矩阵的模糊音编辑距离，与当前模糊音编辑距离矩阵对应的模板候选纠错文本中的通配符所对应的编辑距离之间的差值。

与非模板候选纠错文本的模糊音编辑距离获取过程不同的是，对于模板候选纠错文本，获取到它对应的模糊音编辑距离矩阵的模糊音编辑距离之后，需要将所述模糊音编辑距离矩阵与所述模板候选纠错文本中的通配符所对应的编辑距离做差。

所述模板候选纠错文本中的通配符对应的编辑距离也是通过路径回溯得到的。表5示出了所述模板候选纠错文本对应的模糊音编辑距离矩阵中通过路径回溯获取所述通配符对应的编辑距离的过程。参见表5，表中的箭头表示上述路径回溯的过程。

表5

		我	想	听	*	的	歌
									0↘	1	2	3	4	5	6
我	1	0↘	1	2	3	4	5
								想	2	1	0↘	1	2	3	4
挺	3	2	1	0↘	1	2	3
								刘	4	3	2	1	1	1.7	2.7
德	5	4	3	2	2	1	2
								华	6	5	4	3	3	2	1.8
的	7	6	5	4	4	3↖	2.8
								哥	8	7	6	5	5	4	3↖

通过上述示出的路径回溯，用所述通配符对应的最后一个元素的取值减去所述通配符对应的第一个元素的前一个替换操作对应位置上的元素的取值，就是通配符对应的编辑距离。在上面的例子中，所述通配符对应的编辑距离为3。由于所述模糊音编辑距离矩阵对应的模糊音编辑距离是3，所以，在表4及表5示出的例子中，所述模板候选纠错文本“我想听*的歌”与所述结果文本“我想挺刘德华的哥”之间的差值是0。

S533，将所述差值作为当前模糊音编辑距离矩阵对应的模板候选纠错文本与所述结果文本之间的模糊音编辑距离。

在上面的例子中，所述差值的取值是0。因此，所述模板候选纠错文本“我想听*的歌”与所述结果文本“我想挺刘德华的哥”之间的模糊音编辑距离为0。

本实施例通过根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个模板候选纠错文本，确定所述至少一个模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵，根据确定的模糊音编辑距离矩阵获取所述至少一个模板候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界，根据所述至少一个模板候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错，实现了对语音识别的结果文本的准确纠错。

第四实施例

图9是本发明第四实施例提供的语音识别文本的纠错方法的流程图。所述语音识别文本的纠错方法以本发明第一实施例为基础，进一步的，在拉取用于对所述结果文本进行纠错的至少一个候选纠错文本之后，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵之前，还包括：根据用户的所在地点或者经常经过地点，对所述至少一个候选纠错文本进行筛选，以筛选出与用户相关的至少一个地名性候选纠错文本。

参见图9，所述语音识别文本的纠错文本包括：

S910，根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本。

S920，根据用户的所在地点或者经常经过地点，对所述至少一个候选纠错文本进行筛选，以筛选出与用户相关的至少一个地名性候选纠错文本。

假设语音识别的结果文本是一个地名“石各庄”，拉取到的候选纠错文本包括在北京的“史各庄”，在青岛的“史格庄”以及在秦皇岛的“施各庄”，通过查询用户所在地点，得知用户的所在地点为青岛，则从上述候选纠错文本中筛选出地名性候选纠错文本“史格庄”作为地名性候选纠错文本。

S930，确定所述至少一个地名性候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵。

S940，根据确定的模糊音编辑距离矩阵获取所述至少一个地名性候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界；

S950，根据所述至少一个地名性候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

本实施例通过在拉取用于对所述结果文本进行纠错的至少一个候选纠错文本之后，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵之前，根据用户的所在地点或者经常经过地点，对所述至少一个候选纠错文本进行筛选，以筛选出与用户相关的至少一个地名性候选纠错文本，从而针对用户自身的所在地或者经过地实现候选纠错文本的拉取，实现了对语音识别的结果文本的个性化纠错。

第五实施例

图10是本发明第五实施例提供的语音识别文本的纠错方法中纠错的流程图。所述语音识别文本的纠错方法以本发明的第一实施例为基础，进一步的，根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本包括：若所述至少一个候选纠错文本的个数大于一个，则选择所述至少一个候选纠错文本中模糊音编辑距离最小的一个作为纠错文本；若所述至少一个候选纠错文本的个数为一个，则依据预先设定的模糊音编辑距离阈值和该候选纠错文本的模糊音编辑距离的大小关系，判断是否将所述候选纠错文本作为纠错文本。

参见图10，根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本包括：

S141，若所述至少一个候选纠错文本的个数大于一个，则选择所述至少一个候选纠错文本中模糊音编辑距离最小的一个作为纠错文本。

两个文本之间的模糊音编辑距离越大，这两个文本在语音上的相似程度越低，而两个文本之间的模糊音编辑距离越小，则这两个文本在语音上的相似程度越高。因此，当所述候选纠错文本的数量大于一个时，应该选择所述候选纠错文本中模糊音编辑距离最小的一个，也就是与所述结果文本在语音上的相似程度最高的一个作为纠错文本。

S142，若所述至少一个候选纠错文本的个数为一个，则依据预先设定的模糊音编辑距离阈值和该候选纠错文本的模糊音编辑距离的大小关系，判断是否将所述候选纠错文本作为纠错文本。

具体的，当所述候选纠错文本的个数为一个时，判断所述候选纠错文本与所述结果文本之间的模糊音编辑距离是否小于预设的模糊音编辑距离阈值。若所述候选纠错文本对应的模糊音编辑距离小于预设的模糊音编辑距离阈值，则可以将所述候选纠错文本作为纠错文本；若所述候选纠错文本对应的模糊音编辑距离大于预设的模糊音编辑距离阈值，则不将所述候选纠错文本作为纠错文本。

本实施例通过当所述候选纠错文本的个数大于一个时，选择所述候选纠错文本中模糊音编辑距离最小的一个为纠错文本，而当所述候选纠错文本的个数为一个时，依据预先设定的模糊音编辑距离阈值和该候选纠错文本的模糊音编辑距离的大小关系，判断是否将所述候选纠错文本作为纠错文本，实现了对语音识别的结果文本的准确纠错。

第六实施例

图11是本发明第六实施例提供的语音识别文本的纠错装置的结构图。参见图11，所述语音识别文本的纠错装置包括：纠错文本拉取模块1110、编辑距离矩阵计算模块1130、路径回溯模块1140以及纠错模块1150。

所述纠错文本拉取模块1110用于根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本。

所述编辑距离矩阵计算模块1130用于确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵。

所述路径回溯模块1140用于根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界。

所述纠错模块1150用于根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本，并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

优选的，所述纠错文本拉取模块1110包括：第一多层次拉取单元1111。

所述第一多层次拉取单元1111用于根据汉字层次、全拼层次或者声母韵母层次的K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个非模板候选纠错文本。

优选的，所述编辑距离矩阵计算模块1130包括：第一矩阵计算单元1131以及第一矩阵元素替换单元1132。

所述第一矩阵元素设置单元1131用于对于拉取到的每个非模板候选纠错文本，将初始化的模糊音编辑距离矩阵中替换操作对应元素的取值，设置为所述元素所对应的当前非模板候选纠错文本中的字符与所述元素所对应的结果文本中的字符之间的模糊音相似度。

所述第一矩阵计算单元1132用于根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值，得到当前非模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。

优选的，所述路径回溯模块1140包括：第一路径回溯单元1141以及第一编辑距离计算单元1142。

所述第一路径回溯单元1141用于对于确定的每个模糊音编辑距离矩阵，通过路径回溯获取当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界。

所述第一编辑距离计算单元1142用于将当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界，作为当前模糊音编辑距离矩阵对应的非模板候选纠错文本与所述结果文本之间的模糊音编辑距离及候选纠错边界。

优选的，所述纠错文本拉取模块1110包括：第二多层次拉取单元1112及通配符替换单元1113。

所述第二多层次拉取单元1112用于根据汉字层次、全拼层次或者声母韵母层次的K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本。

所述通配符替换单元1113用于识别每个候选纠错文本中包含的专有名词，并使用通配符替换所述专有名词，以得到至少一个模板候选纠错文本。

优选的，所述编辑距离矩阵计算模块1130包括：第二矩阵计算单元1133及第二矩阵元素替换单元1134。

所述第二矩阵元素设置单元1133用于对于拉取到的每个模板候选纠错文本，将初始化的模糊音编辑距离矩阵中替换操作对应元素的取值，设置为所述元素所对应的当前模板候选纠错文本中的字符与所述元素所对应的结果文本中的字符之间的模糊音相似度。

所述第二矩阵计算单元1134用于根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值，得到当前模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。

优选的，所述路径回溯模块1140包括：第二路径回溯单元1143、差值获取单元1144及第二编辑距离计算单元1145。

所述第二路径回溯单元1143用于对于确定的每个模糊音编辑距离矩阵，通过路径回溯获取当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界。

所述差值获取单元1144用于确定当前模糊音编辑距离矩阵的模糊音编辑距离，与当前模糊音编辑距离矩阵对应的模板候选纠错文本中的通配符对应的编辑距离之间的差值。

所述第二编辑距离计算单元1145用于将所述差值作为当前模糊音编辑距离矩阵对应的模板候选纠错文本与所述结果文本之间的模糊音编辑距离。

优选的，所述语音识别文本的纠错装置还包括：地名文本替换模块1120。

所述地名文本替换模块1120用于在拉取用于对所述结果文本进行纠错的至少一个候选纠错文本之后，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵之前，根据用户的所在地点或者经常经过地点，对所述至少一个候选纠错文本进行筛选，以筛选出与用户相关的至少一个地名性候选纠错文本。

优选的，根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本包括：

在所述至少一个候选纠错文本的个数大于一个之时，选择所述至少一个候选纠错文本中模糊音编辑距离最小的一个作为纠错文本；

在所述至少一个候选纠错文本的个数为一个之时，依据预先设定的模糊音编辑距离阈值和该候选纠错文本的模糊音编辑距离的大小关系，判断是否将所述候选纠错文本作为纠错文本。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别文本的纠错方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本包括：

根据汉字层次、拼音音节层次、全拼或简拼层次或者声母韵母层次的K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个非模板候选纠错文本。

3.根据权利要求2所述的方法，其特征在于，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵包括：

对于拉取到的每个非模板候选纠错文本，将初始化的模糊音编辑距离矩阵中替换操作对应元素的取值，设置为所述元素所对应的当前非模板候选纠错文本中的字符与所述元素所对应的结果文本中的字符之间的模糊音相似度；

根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值，得到当前非模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。

4.根据权利要求2所述的方法，其特征在于，获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界包括：

对于确定的每个模糊音编辑距离矩阵，通过路径回溯获取当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界；

将当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界，作为当前模糊音编辑距离矩阵对应的非模板候选纠错文本与所述结果文本之间的模糊音编辑距离及候选纠错边界。

5.根据权利要求1所述的方法，其特征在于，根据语音识别的结果文本的多层次K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本包括：

根据汉字层次、拼音音节层次、全拼或简拼层次或者声母韵母层次的K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本；

识别每个候选纠错文本中包含的专有名词，并使用通配符替换所述专有名词，以得到至少一个模板候选纠错文本。

6.根据权利要求5所述的方法，其特征在于，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵包括：

对于拉取到的每个模板候选纠错文本，将初始化的模糊音编辑距离矩阵中替换操作对应元素的取值，设置为所述元素所对应的当前模板候选纠错文本中的字符与所述元素所对应的结果文本中的字符之间的模糊音相似度；

根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值，得到当前模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。

7.根据权利要求5所述的方法，其特征在于，获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界包括：

确定当前模糊音编辑距离矩阵的模糊音编辑距离，与当前模糊音编辑距离矩阵对应的模板候选纠错文本中的通配符所对应的编辑距离之间的差值；

将所述差值作为当前模糊音编辑距离矩阵对应的模板候选纠错文本与所述结果文本之间的模糊音编辑距离。

8.根据权利要求1所述的方法，其特征在于，在拉取用于对所述结果文本进行纠错的至少一个候选纠错文本之后，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵之前，还包括：

根据用户的所在地点或者经常经过地点，对所述至少一个候选纠错文本进行筛选，以筛选出与用户相关的至少一个地名性候选纠错文本。

9.根据权利要求1所述的方法，其特征在于，根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本包括：

若所述至少一个候选纠错文本的个数大于一个，则选择所述至少一个候选纠错文本中模糊音编辑距离最小的一个作为纠错文本；

若所述至少一个候选纠错文本的个数为一个，则依据预先设定的模糊音编辑距离阈值和该候选纠错文本的模糊音编辑距离的大小关系，判断是否将所述候选纠错文本作为纠错文本。

10.一种语音识别文本的纠错装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述纠错文本拉取模块包括：

第一多层次拉取单元，用于根据汉字层次、拼音音节层次、全拼或简拼层次或者声母韵母层次的K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个非模板候选纠错文本。

12.根据权利要求11所述的装置，其特征在于，所述编辑距离矩阵计算模块包括：

第一矩阵元素设置单元，用于对于拉取到的每个非模板候选纠错文本，将初始化的模糊音编辑距离矩阵中替换操作对应元素的取值，设置为所述元素所对应的当前非模板候选纠错文本中的字符与所述元素所对应的结果文本中的字符之间的模糊音相似度；

第一矩阵计算单元，用于根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值，得到当前非模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。

13.根据权利要求11所述的装置，其特征在于，所述路径回溯模块包括：

第一路径回溯单元，用于对于确定的每个模糊音编辑距离矩阵，通过路径回溯获取当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界；

第一编辑距离计算单元，用于将当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界，作为当前模糊音编辑距离矩阵对应的非模板候选纠错文本与所述结果文本之间的模糊音编辑距离及候选纠错边界。

14.根据权利要求10所述的装置，其特征在于，所述纠错文本拉取模块包括：

第二多层次拉取单元，用于根据汉字层次、拼音音节层次、全拼或简拼层次或者声母韵母层次的K-Gram索引，拉取用于对所述结果文本进行纠错的至少一个候选纠错文本；

通配符替换单元，用于识别每个候选纠错文本中包含的专有名词，并使用通配符替换所述专有名词，以得到至少一个模板候选纠错文本。

15.根据权利要求14所述的装置，其特征在于，所述编辑距离矩阵计算模块包括：

第二矩阵元素设置单元，用于对于拉取到的每个模板候选纠错文本，将初始化的模糊音编辑距离矩阵中替换操作对应元素的取值，设置为所述元素所对应的当前模板候选纠错文本中的字符与所述元素所对应的结果文本中的字符之间的模糊音相似度；

第二矩阵计算单元，用于根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值，得到当前模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。

16.根据权利要求14所述的装置，其特征在于，所述路径回溯模块包括：

第二路径回溯单元，用于对于确定的每个模糊音编辑距离矩阵，通过路径回溯获取当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界；

差值获取单元，用于确定当前模糊音编辑距离矩阵的模糊音编辑距离，与当前模糊音编辑距离矩阵对应的模板候选纠错文本中的通配符对应的编辑距离之间的差值；

第二编辑距离计算单元，用于将所述差值作为当前模糊音编辑距离矩阵对应的模板候选纠错文本与所述结果文本之间的模糊音编辑距离。

17.根据权利要求10所述的装置，其特征在于，还包括：

地名文本替换模块，用于在拉取用于对所述结果文本进行纠错的至少一个候选纠错文本之后，确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵之前，根据用户的所在地点或者经常经过地点，对所述至少一个候选纠错文本进行筛选，以筛选出与用户相关的至少一个地名性候选纠错文本。

18.根据权利要求10所述的装置，其特征在于，根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本包括：