CN107103902B

CN107103902B - 完整语音内容递归识别方法

Info

Publication number: CN107103902B
Application number: CN201710449747.9A
Authority: CN
Inventors: 谢国雄
Original assignee: Shanghai Enjoy Culture Communication Co Ltd
Current assignee: Shanghai Enjoy Culture Communication Co Ltd
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2020-02-04
Anticipated expiration: 2037-06-14
Also published as: CN107103902A

Abstract

本发明涉及一种完整语音内容递归识别方法。为了提高语音识别准确率而设计。本发明所述的方法包括：初步识别每段子语音，并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义，计算每段子语音的初步识别、语义分析的置信度；对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果，对最初的S2中若干段子语音两两合并变成新的“合并子语音”，分别进行语音初步识别、语义分析，计算每段“合并子语音”的初步识别、语义分析的置信度，然后重复此合并步骤直到合并成最初完整的句子通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。

Description

完整语音内容递归识别方法

技术领域

本发明涉及一种完整语音内容递归识别方法。

背景技术

在客户端和服务器进行语音识别的现有的语音识别装置首先在客户端进行语音识别，在判定为客户端的语音识别结果的识别分数较低，识别精度较差的情况下，在服务器进行语音识别并采用服务器的语音识别结果。

现有语音识别技术，针对长篇幅的语音(超过1句话)的识别，还是基于较小的长度单元语音的逐个识别，没能利用完整篇幅的语音所包含的完整信息来进一步纠正和提升识别率。

鉴于上述，本设计人积极加以研究创新，以期创设一种完整语音内容递归识别方法，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明的目的是为提供一种利用完整篇幅的语音内容来提高计算机对语音的识别率的完整语音内容递归识别方法。

本发明完整语音内容递归识别方法，包括：

S1获取一段音频作为主语音；

S2模糊切割主语音成n段子语音；

S3初步识别每段子语音，并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义，计算每段子语音的初步识别、语义分析的置信度；

S4每一段子语音通过相邻的子语音的识别结果文案和语义对比，来重新计算各个元素的置信度，对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果，其中，所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音，会有各种不同版本的识别结果文案，每一种结果文案为一个识别版本；对于总共n段子语音，按如下方式[(1|2)，(2，3)，…，(n-1，n)]n＞1把括号中的2段子语音定义为相邻子语音；

S5将步骤S4中的子语音作为S1中的主语音，分割为预定段，重复上述步骤S2至S5，直至语音变成一个词；所述词是指，由一个或多个字组成的，包含语义的的一组字；

S6对将S1中获取的获取一段音频作为主语音，模糊切割主语音成n段子语音，将所述子语音两两合并变成新的“合并子语音”，分别进行语音初步识别、语义分析，计算每段“合并子语音”的初步识别、语义分析的置信度，然后重复此合并步骤直到合并成最初完整的句子通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。

进一步地，S2中根据预先训练的语音停顿模型，识别出语音的自然停顿，根据语音的自然停顿将主语音分割成若干段子语音。

进一步地，步骤S5中的预定段为3、4、5。

进一步地，通过音素声学模型对比方法初步识别每段子语音。

本发明完整语音内容递归识别***，包括：

音频获取单元，用于获取一段音频作为主语音，采用模糊切割主语音成n段子语音；

初步识别单元，用于初步识别每段子语音，并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义，计算每段子语音的初步识别、语义分析的置信度；

校正单元，用于每一段子语音通过相邻的子语音的识别结果文案和语义对比，来重新计算各个元素的置信度，对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果，其中，所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音，会有各种不同版本的识别结果文案，每一种结果文案为一个识别版本；对于总共n段子语音，按如下方式[(1|2)，(2，3)，…，(n-1，n)]n＞1把括号中的2段子语音定义为相邻子语音；

分割单元，用于将子语音作为音频获取单元的主语音，分割为预定段，重复运行初步识别单元、校正单元，直至语音变成一个词；所述词是指，由一个或多个字组成的，包含语义的的一组字；

合并单元，对将音频获取单元获取的获取一段音频作为主语音，模糊切割主语音成n段子语音，将所述子语音两两合并变成新的“合并子语音”，分别进行语音初步识别、语义分析，计算每段“合并子语音”的初步识别、语义分析的置信度，然后重复此合并步骤直到合并成最初完整的句子；

通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。

与现有技术相比，本发明完整语音内容递归识别方法具有以下优点：

与现有的小长度单元语音识别技术相比，能基于完整的语音内容以及最细分的词汇基础上，提高识别准确性，同时，通过设置递归次数、子语音长度，创造了预先设置识别速度和预估识别准确性的手段。本发明整个流程让计算机完整的识别并理解了整句句子和每个词汇，得出置信度最高的识别结果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明一种完整语音内容递归识别方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

如图1所示，本发明一种完整语音内容递归识别方法的最佳实施例，包括：

S1获取一段音频作为主语音；

S2模糊切割主语音成n段子语音；

S4每一段子语音通过相邻的子语音的识别结果文案和语义对比，来重新计算各个元素的置信度，对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果，其中，所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音，会有各种不同版本的识别结果文案，每一种结果文案为一个识别版本；对于总共n段子语音，按如下方式[(1|2)，(2，3)，…，(n一1，n)]n＞1把括号中的2段子语音定义为相邻子语音；

进一步地，步骤S5中的预定段为3、4、5。

本实施例中，利用完整篇幅的语音所包含的完整信息来进一步纠正和提升识别率。通过设置递归次数、子语音长度，创造了预先设置识别速度和预估识别准确性的手段。

实施例2

本发明一种完整语音内容递归识别***的最佳实施例，包括：

上述各实施例中，通过音素声学模型对比方法初步识别每段子语音。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种完整语音内容递归识别方法，其特征在于，包括：

S1获取一段音频作为主语音；

S2模糊切割主语音成n段子语音；

S4每一段子语音通过相邻的子语音的识别结果文案和语义对比，来重新计算每段子语音的初步识别、语义分析的置信度，对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果，其中，所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音，会有各种不同版本的识别结果文案，每一种结果文案为一个识别版本；对于总共n段子语音，按如下方式[(1|2),(2,3),…,(n-1,n)]n>1把括号中的2段子语音定义为相邻子语音；

S6对将S1中获取的一段音频作为主语音，模糊切割主语音成n段子语音，将所述子语音两两合并变成新的“合并子语音”，分别进行语音初步识别、语义分析，计算每段“合并子语音”的初步识别、语义分析的置信度，然后重复此合并步骤直到合并成最初完整的句子；通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。

2.根据权利要求1所述的完整语音内容递归识别方法，其特征在于，S2中根据预先训练的语音停顿模型，识别出语音的自然停顿，根据语音的自然停顿将主语音分割成若干段子语音。

3.根据权利要求1所述的完整语音内容递归识别方法，其特征在于，步骤S5中的预定段为3、4、5。

4.根据权利要求1所述的完整语音内容递归识别方法，其特征在于，通过音素声学模型对比方法初步识别每段子语音。

5.一种完整语音内容递归识别***，其特征在于，包括：

校正单元，用于每一段子语音通过相邻的子语音的识别结果文案和语义对比，来重新计算每段子语音的初步识别、语义分析的置信度，对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果，其中，所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音，会有各种不同版本的识别结果文案，每一种结果文案为一个识别版本；对于总共n段子语音，按如下方式[(1|2),(2,3),…,(n-1,n)]n>1把括号中的2段子语音定义为相邻子语音；

合并单元，对将音频获取单元获取的一段音频作为主语音，模糊切割主语音成n段子语音，将所述子语音两两合并变成新的“合并子语音”，分别进行语音初步识别、语义分析，计算每段“合并子语音”的初步识别、语义分析的置信度，然后重复此合并步骤直到合并成最初完整的句子；