CN106710587A

CN106710587A - 一种语音识别数据预处理方法

Info

Publication number: CN106710587A
Application number: CN201611184565.5A
Authority: CN
Inventors: 朱崇俊
Original assignee: Guangdong Dongtian Digital Technology Co Ltd
Current assignee: Guangdong Dongtian Digital Technology Co Ltd
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2017-05-24

Abstract

本发明通过提供一种语音识别数据预处理方法，包括标准音频文件组织模块,标准文本编辑模块,发音词典配置模块,语音模型生成模块,标准音特征数据识别处理模块.保存最终生成标准音数据模型到文件***,在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分,解决在实际应用中需要对标准音识别然后最对用户录音识别的效率低的问题。

Description

一种语音识别数据预处理方法

技术领域

本发明涉及语音识别领域，尤其涉及一种语音识别数据预处理方法。

背景技术

语音识别技术已广泛应用于手机,pc等用户终端中.如:输入法,语言学习***,搜索***产品.绝大部份语音识别应用产品在语音识别技术应用中都是采用用户终端采集用户录音数据,发送到后台服务器进行识别模式.例如公开号为CN103137129 A的一种语音识别方法及电子装置，其通过电子装置的用户使用情况收集用户特定信息，记录用户的发言，使远程服务器产生记录的发言的远程语音识别结果等等，这种模式的缺点是后台识别***需要有强大性能的硬件***支撑,搭建成本高,动辄上亿才能基本满足大用户量访问需求.而且用户必须在网络连接状态下使用语音识别应用产品.如果能够把用户终端机器计算能力利用起来,就能极大的减少硬件成本.但用户终端计算能力一般没有服务器***强,因此需要一种优化在用户终端进行语音识别计算的处理,提高识别效率的方法。

发明内容

本发明的目的是提供一种能够优化利用用户终端计算能力进行语音识别评分效率而进行的处理语音识别数据方法。

具体技术方案包含如下步骤：

步骤1)组织标准音频文件,整理需要生成数据模型的音频文件；

步骤2)编辑标准文本,整理编辑需要识别评分的文段,句子,单词等文本；

步骤3)配置发音词典,配置该文段需要用到的通用发音词典或者特殊发音词典；

步骤4)生成对应语音模型,根据以上步骤产出文件来生成对应语音模型,保存语音模型文件；

步骤5)采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理,生成并保存标准音数据模型；

步骤6)采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分。

进一步的，所述步骤1)具体分为如下步骤：

11)由于用户终端CPU计算能力限制，进行语音识别评分需要把识别目标设定在一定范围内.如设定为一个单元的课文内容；

进一步的，所述步骤2)中整理编辑文本的步骤如下：创建一个XML配置文件,给每个句子或者单词都在配置文件中创建一个节点,节点中包含音频文件引用路径和对应文本；

进一步的，所述步骤3)中配置发音词典的步骤如下：31)完成单词或句子配置后，针对每个单词的节点对应配置发音词典的发音，并进行关联；32)进一步的，发音词典分为常用发音词典和特殊发音词典，如果一篇文段里所有单词都在常用发音词典里,这时就不需要配置特殊发音词典,否则就需要创建对每个常用词典里没有的单词进行发音标注添加到特殊发音词典；

进一步的，所述步骤4)中标准音特征识别数据生成的步骤如下：使用步骤2)中编辑好的标准音频和标准文本配置文件和步骤3)中编辑好的发音词典使用语音识别引擎工具生成该文段的文段语音模型,文段语音模型是用于描述用户发音空间，在识别用户发音时,使语音识别引擎在约束词汇条件下进行快速高效剪枝,快速识别出用户发音内容；

进一步的，所述步骤5)中语音模型生成模块的步骤如下：调用语音识别引擎,传入声学模型和在步骤4)中生成的文段语音模型,依次对在步骤2)中生成配置文件里面的每个节点配置单词或者句子进行语音识别,保存识别引擎返回每个节点配置的音频文件识别数据到本地文本文件,至此,已获得每个单词或者句子标准音的文本,发音,节奏,重音,语调的特征数据模型.在对用户发音识别评分时只需把数据模型传入识别引擎,识别引擎把用户发音识别后直接跟标准音数据模型进行对比评分即可,无需对标准音进行识别来获取标准音数据模型。

本发明的有益效果在于：经过本发明的实施步骤,口语练习等语音识别应用在用户终端中的语音识别用时减少一半,识别效率的提高使得可以利用用户终端计算能力进行识别,无需搭建服务器***,无需网络访问,用户都可以在使用单机版语音识别应用中获得较好体验。

附图说明

结合附图对本发明作进一步详细说明：

图1为本申请的流程框图。

具体实施方式

以下将根据附图所示的优选实施例，对本发明进行详细解释，然而本发明不限于该实施例。

如图1所示步骤如下，前三个步骤为资源准备步骤：

1组织标准音频文件,整理需要生成数据模型的音频文件；由于用户终端CPU计算能力限制，进行语音识别评分需要把识别目标设定在一定范围内.如设定为一个单元的课文内容；

2编辑标准文本,整理编辑需要识别评分的文段,句子,单词等文本，创建一个XML配置文件,给每个句子或者单词都在配置文件中创建一个节点,节点中包含音频文件引用路径和对应文本；

3配置发音词典,配置该文段需要用到的通用发音词典或者特殊发音词典，完成单词或句子配置后，针对每个单词的节点对应配置发音词典的发音，并进行关联；进一步的，发音词典分为常用发音词典和特殊发音词典，如果一篇文段里所有单词都在常用发音词典里,这时就不需要配置特殊发音词典,否则就需要创建对每个常用词典里没有的单词进行发音标注添加到特殊发音词典；

资源准备完毕后，进行语音模型处理：

4生成对应语音模型,使用步骤2中编辑好的标准音频和标准文本配置文件和步骤3)中编辑好的发音词典使用语音识别引擎工具生成该文段的文段语音模型,文段语音模型是用于描述用户发音空间，在识别用户发音时,使语音识别引擎在约束词汇条件下进行快速高效剪枝,快速识别出用户发音内容；

5采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理,生成并保存标准音数据模型；调用语音识别引擎,传入声学模型和在步骤4中生成的文段语音模型,依次对在步骤2)中生成配置文件里面的每个节点配置单词或者句子进行语音识别,保存识别引擎返回每个节点配置的音频文件识别数据到本地文本文件,至此,已获得每个单词或者句子标准音的文本,发音,节奏,重音,语调的特征数据模型.在对用户发音识别评分时只需把数据模型传入识别引擎,识别引擎把用户发音识别后直接跟标准音数据模型进行对比评分即可,无需对标准音进行识别来获取标准音数据模型；

6采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分；

本发明的语音识别数据方法，包括标准音频文件组织模块,标准文本编辑模块,发音词典配置模块,语音模型生成模块,标准音特征数据识别处理模块.保存最终生成标准音数据模型到文件***,在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分,解决在实际应用中需要对标准音识别然后最对用户录音识别的效率低的问题。

以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种语音识别数据预处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤1)中整理编辑文本的步骤如下：

11)由于用户终端CPU计算能力限制，进行语音识别评分需要把识别目标设定在一定范围内.如设定为一个单元的课文内容。

3.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤2)中整理编辑文本的步骤如下：创建一个XML配置文件,给每个句子或者单词都在配置文件中创建一个节点,节点中包含音频文件引用路径和对应文本。

4.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤3)中配置发音词典的步骤如下：

31)完成单词或句子配置后，针对每个单词的节点对应配置发音词典的发音，并进行关联；

32)进一步的，发音词典分为常用发音词典和特殊发音词典，如果一篇文段里所有单词都在常用发音词典里,这时就不需要配置特殊发音词典,否则就需要创建对每个常用词典里没有的单词进行发音标注添加到特殊发音词典。

5.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤4)中标准音特征识别数据生成的步骤如下：使用步骤2)中编辑好的标准音频和标准文本配置文件和步骤3)中编辑好的发音词典使用语音识别引擎工具生成该文段的文段语音模型,文段语音模型是用于描述用户发音空间，在识别用户发音时,使语音识别引擎在约束词汇条件下进行快速高效剪枝,快速识别出用户发音内容。

6.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤5)中语音模型生成模块的步骤如下：调用语音识别引擎,传入声学模型和在步骤4)中生成的文段语音模型,依次对在步骤2)中生成配置文件里面的每个节点配置单词或者句子进行语音识别,保存识别引擎返回每个节点配置的音频文件识别数据到本地文本文件,至此,已获得每个单词或者句子标准音的文本,发音,节奏,重音,语调的特征数据模型，在对用户发音识别评分时只需把数据模型传入识别引擎,识别引擎把用户发音识别后直接跟标准音数据模型进行对比评分即可,无需对标准音进行识别来获取标准音数据模型。