CN105302795B

CN105302795B - 基于汉语模糊发音和语音识别的中文文本校验***及方法

Info

Publication number: CN105302795B
Application number: CN201510767379.3A
Authority: CN
Inventors: 冯钧; 张立霞; 王冲; 张进; 徐维纲; 孔胜球; 王臻; 陆佳民; 刘艺; 袁艳纯; 徐欢; 朱跃龙; 李士进; 万定生
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2018-03-20
Anticipated expiration: 2035-11-11
Also published as: CN105302795A

Abstract

本发明公开一种基于汉语模糊发音和语音识别的中文文本校验***及方法。***包括：语音采集与处理模块，采集音频，并完成音频的压缩与降噪处理；语音识别模块，将语音识别成文本；文本校验与分享模块，实现文本校验，同时支持文本编辑和分享。方法定义基于词性的中文判错规则；对语音识别后的中文文本进行分词；根据中文判错规则，扫描分词找出中文错词；基于汉语模糊发音规则，定义模糊发音表；通过笛卡尔乘积方式找出错词的所有模糊拼音；查询词典表获取每个模糊拼音的词语候选集；对所有模糊拼音的候选集词语按照词频排序选出纠错候选集。本发明解决了由于汉语模糊发音造成的语音识别中的中文错误，有效提高了校验算法的纠错正确率。

Description

基于汉语模糊发音和语音识别的中文文本校验***及方法

技术领域

本发明涉及一种基于汉语模糊发音和语音识别的中文文本校验***及方法，属于智能语音识别技术领域。

背景技术

语音识别技术作为智能识别领域的重要研究领域，已经有60多年的发展历史。语音识别是将声音识别成文字的过程，中文语音识别是根据说话人的发音将语音转换成中文文字。但是由于个人发音差异，不规范的中文拼音发音会造成语音识别的正确率大大降低，如果能够智能的对语音识别后的中文文本进行分析，查找出错词并进行纠正，必将极大地提高语音识别精确程度。

近今年，国内外不断涌现出对语音识别后文本的解决方法。东北大学李晶皎等人通过总结语音识别汉字序列错误的种类，写出词法、句法和语义规则，利用“词汇语义驱动”找出汉字序列中的错误并校正；北京邮电大学的龙丽霞提出了一种基于实例语境的语音识别后文本纠错方法，综合语法、语义、语境等多种信息对语音识别后的文本进行纠错；中科院的韦向风等人提出了一种基于语句语义分析和混淆音矩阵的语音识别纠错方法，在纠正语义搭配错误方面有比较好的表现。但上述研究都没有针对语音识别后文本的汉语发音规则给出定量的中文文本校验方法。

发明内容

发明目的：针对现有中文语音识别后文本校验技术的不足，本发明提出一种基于汉语模糊发音和语音识别的中文文本校验***及方法，将汉语语法规则和拼音模糊发音规则引入文本校验中，显著提高了语音识别后的中文文本校验的正确率。

本发明的思路是：采用音频编码技术对录制语音进行压缩以减少网络传输耗时，并通过语音降噪技术对语音进行降噪以提高语音识别率，利用讯飞语音识别器进行多语言的语音识别，通过总结汉语语法规则找出错词，并根据汉语模糊发音规则给出纠错候选集，调用邮件发送和QQ接口实现文本跨平台分享，有效降低经语音识别后的中文文本的错误率。

技术方案：一种基于汉语模糊发音和语音识别的中文文本校验***，包括如下模块：

语音采集与处理模块，用于获取手机麦克风采集的音频，并对音频进行降噪处理和压缩上传；

语音识别模块，用于解压缩音频并将长时段音频识别成文本；

文本校验与分享模块，用于对音频识别结果进行中文错误校验，并支持文本编辑与文本分享功能；

所述语音采集与处理模块，包含音频采集单元、音频编码处理单元和语音降噪单元；其中音频采集单元利用手机麦克风采集音频；音频编码处理单元将音频在上传到语音识别服务器前进行编码压缩；语音降噪单元采用speex语音降噪技术对音频进行降噪处理，以提高语音识别的精确度；

所述语音识别模块，包括音频解码单元、内存分片单元和讯飞语音识别单元；其中音频解码单元，用于对编码压缩后的音频进行解压缩处理；内存分片单元用于将长时段音频在***服务器中切分成短时段语音片段；讯飞语音识别单元采用讯飞接口将音频识别成对应的文本；

所述文本校验与分享模块，包括文本校验单元、文本编辑单元和文本分享单元；其中文本校验单元，用于纠正识别结果中错误的内容，并给出候选纠错集合；文本编辑单元，用于对语音识别结果进行修改编辑；所述文本分享单元，通过邮件和QQ将编辑与校验后的文本分享给其他人。

一种基于汉语模糊发音和语音识别的中文文本校验方法，包含如下步骤：

S-1：采用讯飞分词器对语音识别后的中文文本进行分词，并将分词结果按原先在文本中的顺序加入待校验集；

S-2：根据中文判错规则判断待校验集中的词语是否为错词，若是，将错词加入错词集，具体包含如下步骤：

步骤S-2-1：获取当前待校检集合中的词语和词性信息；

步骤S-2-2：对照判错规则表中的判错规则，判断该词的词性与判错规则的第一部分词性是否想匹配，若匹配，则转向步骤S-2-1，否则，转向步骤S-2-3，本***总结出得中文判错规则有如下5种：动词+动词、名词+副词、副词+数词、副词+量词、副词+代词；

步骤S-2-3：根据判错规则判断错词的词性和邻接词的词性组合是否符合判错规则，若符合，将该词加入错词集合；否则，转向步骤S-2-1；

S-3：查找汉语字典表，获取错词的发音拼音；

S-4：将错词的拼音按字拆分，并拆分每个字拼音的声母和韵母部分，具体包含如下步骤：

步骤S-4-1：将错词按照每个汉字拆分成对应的单字拼音，并临时存储；

步骤S-4-2：判断拼音是否由声母和韵母组成，若是，转向S-4-3，否则，直接转向步骤S-4-4；

步骤S-4-3：将该拼音按照声母和韵母进行划分；

步骤S-4-4：查询模糊发音表，判断声母或韵母是否符合模糊发音规则，若是，转向步骤S-4-5，否则，转向步骤S-4-6；

步骤S-4-5：获取模糊发音匹配结果并与原声母重新组合成新的单字拼音；

步骤S-4-6：对错词的所有模糊单字拼音按照笛卡尔乘积方式进行重新组合，获得该错词的所有模糊发音拼音。

S-5：结合汉语的声母和韵母发音特点，获得易错韵母的模糊发音，构建模糊发音表，将错词每个字的模糊拼音做笛卡尔积，得到错词对应的所有模糊发音拼音，易混淆的韵母发音规则如下：

表1韵母模糊发音规则

序号	韵母	出错读音	序号	韵母	出错读音
						1	a	an，ai，ao	5	u	un，iu，ui
2	e	en，ei，ie，er	6	an	ang
						3	i	in	7	en	eng
4	o	ou	8	in	ing

S-6：根据错词的模糊发音拼音查询汉语词典表，获得所有模糊拼音对应的词语候选集合；

S-7：对所有候选集中词语按词频进行排序，根据排序结果选取纠错候选集。

本发明采用上述技术方案，具有以下有益效果：采用编解码技术对音频进行压缩，减少音频在网络的传输耗时；通过语音降噪处理提高语音的识别精确度；采用讯飞语音识别引擎提供多种语音的语音识别；基于汉语语法规则的判错方法能够迅速定位错词；结合汉语拼音的模糊发音特性，能够有效提高语音识别后的中文文本校验正确率。

附图说明

图1为本发明实施例的基于汉语模糊发音和语音识别的中文文本校验***功能模块图；

图2为本发明实施例的基于汉语模糊发音和语音识别的中文文本校验方法流程图；

图3为本发明实施例的模糊发音错词纠错算法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于汉语模糊发音和语音识别的中文文本校验***由语音采集与处理模块、语音识别模块和文本校验与分享模块组成。

语音采集与处理模块，包括音频采集单元、音频编码处理单元和语音降噪单元。音频采集单元通过调用手机的麦克风采集用户的录音内容，音频采样频率越大，采样点之间的间隔就越小，数据量就越大，而对于人的说话8000Hz已经足够，因此，***采用8000Hz的频率进行音频采样；音频采集完成后通过音频编码处理单元进行音频编码压缩。经测试，压缩前录制一分钟语音所产生的文件大小为1M，压缩后音频大小为60KB，通过压缩处理极大地缩短了语音传输耗时。

为了提高语音识别的准确率，在语音识别采用第三方开放平台的前提下，***经语音降噪单元采用音频降噪处理，语音降噪单元采用speex语音降噪技术对音频进行降噪处理。在对speex编解码技术进行调研时发现，speex提供音频降噪接口，因此***的语音降噪采用speex的开源方法。对一篇2000多字的文本进行测试发现，采用语音降噪和未采用语音降噪的识别准确率分别是：96.3％和98.6％，也就验证了speex的语音降噪方法能够提高语音识别的准确率。

语音识别模块，包括音频解码单元、内存分片单元和语音识别单元。语音识别单元采用讯飞语音提供的识别方法，经测试发现讯飞语音识别提供的语音识别方法仅支持短时连续语音识别，对于长时段的语音连续识别并不支持，为了解决长时段的语音识别问题引入内存分片方法。内存分片单元在语音识别之前，首先在***服务器内存中对音频进行切片处理，每15秒切成一片，分片将语音上传至讯飞语音识别服务器进行识别。

文本校验与分享模块，包括文本校验单元、文本编辑单元和文本分享单元。该模块的功能是对校验后的文本进行修改并分享给他人。其中文本校验单元，用于纠正识别结果中错误的内容，并给出候选纠错集合；文本编辑单元，用于对语音识别结果进行修改编辑，用户能够对文本进行基本的添加、删除、复制、剪切和粘贴等操作，编辑完成后用户选择保存或者放弃保存。

文本分享单元目前支持邮件发送和QQ好友分享两种途径。通过QQ链接进行分享，链接的地址是利用文本在后台形成的一张网页，该网页在***服务器中生成并保存好友点击链接可打开该网页查看文本内容。表2是对两篇30分钟左右的文章《***五四北大讲话》和《俞敏洪：一个优秀人的品格和特质》的测试结果。

表2两篇文章的语音识别测试结果

通过表2的可见，上述两篇文章的语音识别正确率还是比较高的，平均达到97％以上，造成上述结果的原因：一方面由于科大讯飞提供强大的语音识别引擎，另一方面得益于采用了语音降噪技术。

文本校验方法按如下步骤进行实施：

步骤S-2-1：获取当前待校检集合中的词语和词性信息；

步骤S-2-2：对照判错规则表中的判错规则，判断该词的词性与判错规则的第一部分词性是否想匹配，若匹配，则转向步骤S-2-1，否则，转向步骤S-2-3；

中文判错规则是根据汉语语法总结而来。现代汉语按词性可以分为12类：名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词，其中前6种是实词，后6种是虚词。现代汉语句子成分有6类：主语、谓语、宾语、状语、定语、补语；每种句子成分都对应相应的搭配以及所表示的词性，如下：

表3现代汉语搭配规则

此外，汉语中还存在副词修饰副词等规则，根据以上规则，总结出以下5种判错规则搭配：动词+动词，名词+副词，副词+数词，副词+量词，副词+代词。

步骤S-2-3：根据上述判错规则判断错词的词性和邻接词的词性组合是否符合判错规则，若符合，将该词加入错词集合；否则，转向步骤S-2-1；

S-3：查找汉语字典表，获取错词的发音拼音；

步骤S-4-3：将该拼音按照声母和韵母进行划分；

S-5：结合汉语的声母和韵母发音特点，获得易错韵母的模糊发音，构建模糊发音表，将错词每个字的模糊拼音做笛卡尔积，得到错词对应的所有模糊发音拼音。

汉语模糊发音规则来自拼音的声母和韵母发音，其中声母中常出现的读音错误在于相似读音的混淆例如：z和zh、c和ch、s和sh。其中韵母中常出现的读音错误在于以下读音的混淆：

根据以上汉语模糊发音规则，根据笛卡尔乘积方式找出对应的所有模糊发音拼音。例如：洗完[xiwan]，根据上述模糊发音规则，通过笛卡尔乘积方式我们能够找出其所有的模糊发音：xiwan、xiwang、xinwan、xinwang。每一个模糊发音分别对应一个纠错候选集：

表4所有模糊发音的纠错候选

模糊发音	候选结果集
		xiwan	洗碗、西湾、西万
xiwang	希望、西王、喜旺
		xinwan	新湾、辛烷
xinwang	新网、鑫旺、新旺

将上述候选集中的候选结果按照词频排序后，选取前三个高词频词汇作为纠错候选集结果为：洗碗、希望、新湾。

***中采用的汉语词典表是通过整理搜狗开放词库得到，收录了300万条汉语常用词语并给出了发音和词频，通过查找该词典表获得错词的模糊拼音，根据词频给出错词的纠错候选集，具体的生成算法如下：

算法1模糊发音错词纠错算法

Claims

1.一种基于汉语模糊发音和语音识别的中文文本校验方法，其特征在于，包含如下步骤：

S-1：采用讯飞分词器对语音识别后的中文文本进行分词，并将分词结果按原顺序加入待校验集；

S-2：根据中文判错规则判断待校验集中的词语是否为错词，若是，将错词加入错词集；

S-3：查找汉语字典表，获取错词的发音拼音；

S-4：将错词的每个字的拼音按声母和韵母进行拆分；

S-5：结合汉语的声母和韵母发音特点，获得易错拼音的模糊发音，根据模糊发音表将错词每个字的模糊拼音作笛卡尔积，得到错词对应的所有模糊发音拼音；

2.如权利要求1所述的基于汉语模糊发音和语音识别的中文文本校验方法，其特征在于：所述步骤S-2具体包含如下实施步骤：

步骤S-2-1：获取当前待校检集合中的汉语词语和词性信息；

步骤S-2-2：对照判错规则表中的判错规则，判断该词的词性与判错规则的第一部分词性是否相匹配，若匹配，则转向步骤S-2-3，否则，转向步骤S-2-1；

步骤S-2-3：根据判错规则判断错词的词性和邻接词的词性组合是否符合判错规则，若符合，将该词加入错词集合；否则，转向步骤S-2-1。

3.如权利要求1所述的基于汉语模糊发音和语音识别的中文文本校验方法，其特征在于：所述步骤S-4具体包含如下实施步骤：

步骤S-4-3：将该拼音按照声母和韵母进行划分；

4.如权利要求1所述的基于汉语模糊发音和语音识别的中文文本校验方法，其特征在于：所述步骤S-2中的中文判错规则，根据中文语法的词性搭配规则获得错词的判错规则，所述判错规则中包含5种规则：动词+动词、名词+副词、副词+数词、副词+量词、副词+代词。