CN105302795B - 基于汉语模糊发音和语音识别的中文文本校验***及方法 - Google Patents

基于汉语模糊发音和语音识别的中文文本校验***及方法 Download PDF

Info

Publication number
CN105302795B
CN105302795B CN201510767379.3A CN201510767379A CN105302795B CN 105302795 B CN105302795 B CN 105302795B CN 201510767379 A CN201510767379 A CN 201510767379A CN 105302795 B CN105302795 B CN 105302795B
Authority
CN
China
Prior art keywords
word
chinese
wrong
fuzzy
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510767379.3A
Other languages
English (en)
Other versions
CN105302795A (zh
Inventor
冯钧
张立霞
王冲
张进
徐维纲
孔胜球
王臻
陆佳民
刘艺
袁艳纯
徐欢
朱跃龙
李士进
万定生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201510767379.3A priority Critical patent/CN105302795B/zh
Publication of CN105302795A publication Critical patent/CN105302795A/zh
Application granted granted Critical
Publication of CN105302795B publication Critical patent/CN105302795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种基于汉语模糊发音和语音识别的中文文本校验***及方法。***包括:语音采集与处理模块,采集音频,并完成音频的压缩与降噪处理;语音识别模块,将语音识别成文本;文本校验与分享模块,实现文本校验,同时支持文本编辑和分享。方法定义基于词性的中文判错规则;对语音识别后的中文文本进行分词;根据中文判错规则,扫描分词找出中文错词;基于汉语模糊发音规则,定义模糊发音表;通过笛卡尔乘积方式找出错词的所有模糊拼音;查询词典表获取每个模糊拼音的词语候选集;对所有模糊拼音的候选集词语按照词频排序选出纠错候选集。本发明解决了由于汉语模糊发音造成的语音识别中的中文错误,有效提高了校验算法的纠错正确率。

Description

基于汉语模糊发音和语音识别的中文文本校验***及方法
技术领域
本发明涉及一种基于汉语模糊发音和语音识别的中文文本校验***及方法,属于智能语音识别技术领域。
背景技术
语音识别技术作为智能识别领域的重要研究领域,已经有60多年的发展历史。语音识别是将声音识别成文字的过程,中文语音识别是根据说话人的发音将语音转换成中文文字。但是由于个人发音差异,不规范的中文拼音发音会造成语音识别的正确率大大降低,如果能够智能的对语音识别后的中文文本进行分析,查找出错词并进行纠正,必将极大地提高语音识别精确程度。
近今年,国内外不断涌现出对语音识别后文本的解决方法。东北大学李晶皎等人通过总结语音识别汉字序列错误的种类,写出词法、句法和语义规则,利用“词汇语义驱动”找出汉字序列中的错误并校正;北京邮电大学的龙丽霞提出了一种基于实例语境的语音识别后文本纠错方法,综合语法、语义、语境等多种信息对语音识别后的文本进行纠错;中科院的韦向风等人提出了一种基于语句语义分析和混淆音矩阵的语音识别纠错方法,在纠正语义搭配错误方面有比较好的表现。但上述研究都没有针对语音识别后文本的汉语发音规则给出定量的中文文本校验方法。
发明内容
发明目的:针对现有中文语音识别后文本校验技术的不足,本发明提出一种基于汉语模糊发音和语音识别的中文文本校验***及方法,将汉语语法规则和拼音模糊发音规则引入文本校验中,显著提高了语音识别后的中文文本校验的正确率。
本发明的思路是:采用音频编码技术对录制语音进行压缩以减少网络传输耗时,并通过语音降噪技术对语音进行降噪以提高语音识别率,利用讯飞语音识别器进行多语言的语音识别,通过总结汉语语法规则找出错词,并根据汉语模糊发音规则给出纠错候选集,调用邮件发送和QQ接口实现文本跨平台分享,有效降低经语音识别后的中文文本的错误率。
技术方案:一种基于汉语模糊发音和语音识别的中文文本校验***,包括如下模块:
语音采集与处理模块,用于获取手机麦克风采集的音频,并对音频进行降噪处理和压缩上传;
语音识别模块,用于解压缩音频并将长时段音频识别成文本;
文本校验与分享模块,用于对音频识别结果进行中文错误校验,并支持文本编辑与文本分享功能;
所述语音采集与处理模块,包含音频采集单元、音频编码处理单元和语音降噪单元;其中音频采集单元利用手机麦克风采集音频;音频编码处理单元将音频在上传到语音识别服务器前进行编码压缩;语音降噪单元采用speex语音降噪技术对音频进行降噪处理,以提高语音识别的精确度;
所述语音识别模块,包括音频解码单元、内存分片单元和讯飞语音识别单元;其中音频解码单元,用于对编码压缩后的音频进行解压缩处理;内存分片单元用于将长时段音频在***服务器中切分成短时段语音片段;讯飞语音识别单元采用讯飞接口将音频识别成对应的文本;
所述文本校验与分享模块,包括文本校验单元、文本编辑单元和文本分享单元;其中文本校验单元,用于纠正识别结果中错误的内容,并给出候选纠错集合;文本编辑单元,用于对语音识别结果进行修改编辑;所述文本分享单元,通过邮件和QQ将编辑与校验后的文本分享给其他人。
一种基于汉语模糊发音和语音识别的中文文本校验方法,包含如下步骤:
S-1:采用讯飞分词器对语音识别后的中文文本进行分词,并将分词结果按原先在文本中的顺序加入待校验集;
S-2:根据中文判错规则判断待校验集中的词语是否为错词,若是,将错词加入错词集,具体包含如下步骤:
步骤S-2-1:获取当前待校检集合中的词语和词性信息;
步骤S-2-2:对照判错规则表中的判错规则,判断该词的词性与判错规则的第一部分词性是否想匹配,若匹配,则转向步骤S-2-1,否则,转向步骤S-2-3,本***总结出得中文判错规则有如下5种:动词+动词、名词+副词、副词+数词、副词+量词、副词+代词;
步骤S-2-3:根据判错规则判断错词的词性和邻接词的词性组合是否符合判错规则,若符合,将该词加入错词集合;否则,转向步骤S-2-1;
S-3:查找汉语字典表,获取错词的发音拼音;
S-4:将错词的拼音按字拆分,并拆分每个字拼音的声母和韵母部分,具体包含如下步骤:
步骤S-4-1:将错词按照每个汉字拆分成对应的单字拼音,并临时存储;
步骤S-4-2:判断拼音是否由声母和韵母组成,若是,转向S-4-3,否则,直接转向步骤S-4-4;
步骤S-4-3:将该拼音按照声母和韵母进行划分;
步骤S-4-4:查询模糊发音表,判断声母或韵母是否符合模糊发音规则,若是,转向步骤S-4-5,否则,转向步骤S-4-6;
步骤S-4-5:获取模糊发音匹配结果并与原声母重新组合成新的单字拼音;
步骤S-4-6:对错词的所有模糊单字拼音按照笛卡尔乘积方式进行重新组合,获得该错词的所有模糊发音拼音。
S-5:结合汉语的声母和韵母发音特点,获得易错韵母的模糊发音,构建模糊发音表,将错词每个字的模糊拼音做笛卡尔积,得到错词对应的所有模糊发音拼音,易混淆的韵母发音规则如下:
表1韵母模糊发音规则
序号 韵母 出错读音 序号 韵母 出错读音
1 a an,ai,ao 5 u un,iu,ui
2 e en,ei,ie,er 6 an ang
3 i in 7 en eng
4 o ou 8 in ing
S-6:根据错词的模糊发音拼音查询汉语词典表,获得所有模糊拼音对应的词语候选集合;
S-7:对所有候选集中词语按词频进行排序,根据排序结果选取纠错候选集。
本发明采用上述技术方案,具有以下有益效果:采用编解码技术对音频进行压缩,减少音频在网络的传输耗时;通过语音降噪处理提高语音的识别精确度;采用讯飞语音识别引擎提供多种语音的语音识别;基于汉语语法规则的判错方法能够迅速定位错词;结合汉语拼音的模糊发音特性,能够有效提高语音识别后的中文文本校验正确率。
附图说明
图1为本发明实施例的基于汉语模糊发音和语音识别的中文文本校验***功能模块图;
图2为本发明实施例的基于汉语模糊发音和语音识别的中文文本校验方法流程图;
图3为本发明实施例的模糊发音错词纠错算法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于汉语模糊发音和语音识别的中文文本校验***由语音采集与处理模块、语音识别模块和文本校验与分享模块组成。
语音采集与处理模块,包括音频采集单元、音频编码处理单元和语音降噪单元。音频采集单元通过调用手机的麦克风采集用户的录音内容,音频采样频率越大,采样点之间的间隔就越小,数据量就越大,而对于人的说话8000Hz已经足够,因此,***采用8000Hz的频率进行音频采样;音频采集完成后通过音频编码处理单元进行音频编码压缩。经测试,压缩前录制一分钟语音所产生的文件大小为1M,压缩后音频大小为60KB,通过压缩处理极大地缩短了语音传输耗时。
为了提高语音识别的准确率,在语音识别采用第三方开放平台的前提下,***经语音降噪单元采用音频降噪处理,语音降噪单元采用speex语音降噪技术对音频进行降噪处理。在对speex编解码技术进行调研时发现,speex提供音频降噪接口,因此***的语音降噪采用speex的开源方法。对一篇2000多字的文本进行测试发现,采用语音降噪和未采用语音降噪的识别准确率分别是:96.3%和98.6%,也就验证了speex的语音降噪方法能够提高语音识别的准确率。
语音识别模块,包括音频解码单元、内存分片单元和语音识别单元。语音识别单元采用讯飞语音提供的识别方法,经测试发现讯飞语音识别提供的语音识别方法仅支持短时连续语音识别,对于长时段的语音连续识别并不支持,为了解决长时段的语音识别问题引入内存分片方法。内存分片单元在语音识别之前,首先在***服务器内存中对音频进行切片处理,每15秒切成一片,分片将语音上传至讯飞语音识别服务器进行识别。
文本校验与分享模块,包括文本校验单元、文本编辑单元和文本分享单元。该模块的功能是对校验后的文本进行修改并分享给他人。其中文本校验单元,用于纠正识别结果中错误的内容,并给出候选纠错集合;文本编辑单元,用于对语音识别结果进行修改编辑,用户能够对文本进行基本的添加、删除、复制、剪切和粘贴等操作,编辑完成后用户选择保存或者放弃保存。
文本分享单元目前支持邮件发送和QQ好友分享两种途径。通过QQ链接进行分享,链接的地址是利用文本在后台形成的一张网页,该网页在***服务器中生成并保存好友点击链接可打开该网页查看文本内容。表2是对两篇30分钟左右的文章《***五四北大讲话》和《俞敏洪:一个优秀人的品格和特质》的测试结果。
表2两篇文章的语音识别测试结果
通过表2的可见,上述两篇文章的语音识别正确率还是比较高的,平均达到97%以上,造成上述结果的原因:一方面由于科大讯飞提供强大的语音识别引擎,另一方面得益于采用了语音降噪技术。
文本校验方法按如下步骤进行实施:
S-1:采用讯飞分词器对语音识别后的中文文本进行分词,并将分词结果按原先在文本中的顺序加入待校验集;
S-2:根据中文判错规则判断待校验集中的词语是否为错词,若是,将错词加入错词集,具体包含如下步骤:
步骤S-2-1:获取当前待校检集合中的词语和词性信息;
步骤S-2-2:对照判错规则表中的判错规则,判断该词的词性与判错规则的第一部分词性是否想匹配,若匹配,则转向步骤S-2-1,否则,转向步骤S-2-3;
中文判错规则是根据汉语语法总结而来。现代汉语按词性可以分为12类:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词,其中前6种是实词,后6种是虚词。现代汉语句子成分有6类:主语、谓语、宾语、状语、定语、补语;每种句子成分都对应相应的搭配以及所表示的词性,如下:
表3现代汉语搭配规则
此外,汉语中还存在副词修饰副词等规则,根据以上规则,总结出以下5种判错规则搭配:动词+动词,名词+副词,副词+数词,副词+量词,副词+代词。
步骤S-2-3:根据上述判错规则判断错词的词性和邻接词的词性组合是否符合判错规则,若符合,将该词加入错词集合;否则,转向步骤S-2-1;
S-3:查找汉语字典表,获取错词的发音拼音;
S-4:将错词的拼音按字拆分,并拆分每个字拼音的声母和韵母部分,具体包含如下步骤:
步骤S-4-1:将错词按照每个汉字拆分成对应的单字拼音,并临时存储;
步骤S-4-2:判断拼音是否由声母和韵母组成,若是,转向S-4-3,否则,直接转向步骤S-4-4;
步骤S-4-3:将该拼音按照声母和韵母进行划分;
步骤S-4-4:查询模糊发音表,判断声母或韵母是否符合模糊发音规则,若是,转向步骤S-4-5,否则,转向步骤S-4-6;
步骤S-4-5:获取模糊发音匹配结果并与原声母重新组合成新的单字拼音;
步骤S-4-6:对错词的所有模糊单字拼音按照笛卡尔乘积方式进行重新组合,获得该错词的所有模糊发音拼音。
S-5:结合汉语的声母和韵母发音特点,获得易错韵母的模糊发音,构建模糊发音表,将错词每个字的模糊拼音做笛卡尔积,得到错词对应的所有模糊发音拼音。
汉语模糊发音规则来自拼音的声母和韵母发音,其中声母中常出现的读音错误在于相似读音的混淆例如:z和zh、c和ch、s和sh。其中韵母中常出现的读音错误在于以下读音的混淆:
根据以上汉语模糊发音规则,根据笛卡尔乘积方式找出对应的所有模糊发音拼音。例如:洗完[xiwan],根据上述模糊发音规则,通过笛卡尔乘积方式我们能够找出其所有的模糊发音:xiwan、xiwang、xinwan、xinwang。每一个模糊发音分别对应一个纠错候选集:
表4所有模糊发音的纠错候选
模糊发音 候选结果集
xiwan 洗碗、西湾、西万
xiwang 希望、西王、喜旺
xinwan 新湾、辛烷
xinwang 新网、鑫旺、新旺
将上述候选集中的候选结果按照词频排序后,选取前三个高词频词汇作为纠错候选集结果为:洗碗、希望、新湾。
S-6:根据错词的模糊发音拼音查询汉语词典表,获得所有模糊拼音对应的词语候选集合;
***中采用的汉语词典表是通过整理搜狗开放词库得到,收录了300万条汉语常用词语并给出了发音和词频,通过查找该词典表获得错词的模糊拼音,根据词频给出错词的纠错候选集,具体的生成算法如下:
算法1模糊发音错词纠错算法
S-7:对所有候选集中词语按词频进行排序,根据排序结果选取纠错候选集。

Claims (4)

1.一种基于汉语模糊发音和语音识别的中文文本校验方法,其特征在于,包含如下步骤:
S-1:采用讯飞分词器对语音识别后的中文文本进行分词,并将分词结果按原顺序加入待校验集;
S-2:根据中文判错规则判断待校验集中的词语是否为错词,若是,将错词加入错词集;
S-3:查找汉语字典表,获取错词的发音拼音;
S-4:将错词的每个字的拼音按声母和韵母进行拆分;
S-5:结合汉语的声母和韵母发音特点,获得易错拼音的模糊发音,根据模糊发音表将错词每个字的模糊拼音作笛卡尔积,得到错词对应的所有模糊发音拼音;
S-6:根据错词的模糊发音拼音查询汉语词典表,获得所有模糊拼音对应的词语候选集合;
S-7:对所有候选集中词语按词频进行排序,根据排序结果选取纠错候选集。
2.如权利要求1所述的基于汉语模糊发音和语音识别的中文文本校验方法,其特征在于:所述步骤S-2具体包含如下实施步骤:
步骤S-2-1:获取当前待校检集合中的汉语词语和词性信息;
步骤S-2-2:对照判错规则表中的判错规则,判断该词的词性与判错规则的第一部分词性是否相匹配,若匹配,则转向步骤S-2-3,否则,转向步骤S-2-1;
步骤S-2-3:根据判错规则判断错词的词性和邻接词的词性组合是否符合判错规则,若符合,将该词加入错词集合;否则,转向步骤S-2-1。
3.如权利要求1所述的基于汉语模糊发音和语音识别的中文文本校验方法,其特征在于:所述步骤S-4具体包含如下实施步骤:
步骤S-4-1:将错词按照每个汉字拆分成对应的单字拼音,并临时存储;
步骤S-4-2:判断拼音是否由声母和韵母组成,若是,转向S-4-3,否则,直接转向步骤S-4-4;
步骤S-4-3:将该拼音按照声母和韵母进行划分;
步骤S-4-4:查询模糊发音表,判断声母或韵母是否符合模糊发音规则,若是,转向步骤S-4-5,否则,转向步骤S-4-6;
步骤S-4-5:获取模糊发音匹配结果并与原声母重新组合成新的单字拼音;
步骤S-4-6:对错词的所有模糊单字拼音按照笛卡尔乘积方式进行重新组合,获得该错词的所有模糊发音拼音。
4.如权利要求1所述的基于汉语模糊发音和语音识别的中文文本校验方法,其特征在于:所述步骤S-2中的中文判错规则,根据中文语法的词性搭配规则获得错词的判错规则,所述判错规则中包含5种规则:动词+动词、名词+副词、副词+数词、副词+量词、副词+代词。
CN201510767379.3A 2015-11-11 2015-11-11 基于汉语模糊发音和语音识别的中文文本校验***及方法 Active CN105302795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510767379.3A CN105302795B (zh) 2015-11-11 2015-11-11 基于汉语模糊发音和语音识别的中文文本校验***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510767379.3A CN105302795B (zh) 2015-11-11 2015-11-11 基于汉语模糊发音和语音识别的中文文本校验***及方法

Publications (2)

Publication Number Publication Date
CN105302795A CN105302795A (zh) 2016-02-03
CN105302795B true CN105302795B (zh) 2018-03-20

Family

ID=55200074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510767379.3A Active CN105302795B (zh) 2015-11-11 2015-11-11 基于汉语模糊发音和语音识别的中文文本校验***及方法

Country Status (1)

Country Link
CN (1) CN105302795B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297797B (zh) * 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN106528532B (zh) * 2016-11-07 2019-03-12 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN108121455B (zh) * 2016-11-29 2021-10-26 百度在线网络技术(北京)有限公司 识别纠正方法及装置
CN107423317A (zh) * 2017-03-26 2017-12-01 北京联合大学 一种基于首字母序列的中文文本校对方法
CN107301866B (zh) * 2017-06-23 2021-01-05 北京百度网讯科技有限公司 信息输入方法
CN107316638A (zh) * 2017-06-28 2017-11-03 北京粉笔未来科技有限公司 一种诗词背诵评测方法及***、一种终端及存储介质
CN107729318B (zh) * 2017-10-17 2021-04-20 语联网(武汉)信息技术有限公司 一种自动更正部分文字的方法-由中文词性判断
CN109785842B (zh) * 2017-11-14 2023-09-05 蔚来(安徽)控股有限公司 语音识别纠错方法以及语音识别纠错***
CN110390930A (zh) * 2018-04-15 2019-10-29 高翔 一种音频文字校对的方法和***
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN109102797B (zh) * 2018-07-06 2024-01-26 平安科技(深圳)有限公司 语音识别测试方法、装置、计算机设备及存储介质
CN109036419A (zh) * 2018-07-23 2018-12-18 努比亚技术有限公司 一种语音识别匹配方法、终端及计算机可读存储介质
CN109410925A (zh) * 2018-08-30 2019-03-01 安徽声讯信息技术有限公司 一种基于多服务器解析传输的语音校验***及方法
CN109065056B (zh) * 2018-09-26 2021-05-11 珠海格力电器股份有限公司 一种语音控制空调的方法及装置
CN109461436B (zh) * 2018-10-23 2020-12-15 广东小天才科技有限公司 一种语音识别发音错误的纠正方法及***
CN110135879B (zh) * 2018-11-17 2024-01-16 华南理工大学 基于自然语言处理的客服质量自动评分方法
CN109710929A (zh) * 2018-12-18 2019-05-03 金蝶软件(中国)有限公司 一种语音识别文本的校正方法、装置、计算机设备和存储介质
CN110097880A (zh) * 2019-04-20 2019-08-06 广东小天才科技有限公司 一种基于语音识别的答题判定方法及装置
CN110033769B (zh) * 2019-04-23 2022-09-06 施永兵 一种录入语音处理方法、终端及计算机可读存储介质
CN110399608B (zh) * 2019-06-04 2023-04-25 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话***文本纠错***及方法
CN110334348B (zh) * 2019-06-28 2022-11-15 珍岛信息技术(上海)股份有限公司 一种基于纯文本中的文字校验方法
CN110265019B (zh) * 2019-07-03 2021-04-06 中通智新(武汉)技术研发有限公司 一种语音识别的方法及语音机器人***
CN112988955B (zh) * 2019-12-02 2024-03-15 卢文祥 多语语音识别及主题语意分析方法与装置
CN113536776B (zh) * 2021-06-22 2024-06-14 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN115019786A (zh) * 2022-05-23 2022-09-06 支付宝(杭州)信息技术有限公司 模型训练方法和装置及语音含义的理解方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441527A (zh) * 2008-12-24 2009-05-27 腾讯科技(深圳)有限公司 拼音输入中提示正确读音的方法及装置
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN104252864A (zh) * 2013-06-28 2014-12-31 国际商业机器公司 实时语音分析方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441527A (zh) * 2008-12-24 2009-05-27 腾讯科技(深圳)有限公司 拼音输入中提示正确读音的方法及装置
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN104252864A (zh) * 2013-06-28 2014-12-31 国际商业机器公司 实时语音分析方法和***

Also Published As

Publication number Publication date
CN105302795A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
CN105302795B (zh) 基于汉语模糊发音和语音识别的中文文本校验***及方法
KR102417045B1 (ko) 명칭을 강인하게 태깅하는 방법 및 시스템
Ueffing et al. Improved models for automatic punctuation prediction for spoken and written text.
CN100452025C (zh) 自动检测文件中搭配错误的***和方法
Sethy et al. Building topic specific language models from webdata using competitive models.
US20120010873A1 (en) Sentence translation apparatus and method
Li et al. Normalization of Text Messages Using Character-and Phone-based Machine Translation Approaches.
Lileikytė et al. Conversational telephone speech recognition for Lithuanian
CN111651999A (zh) 一种面向ad量表书写能力检测的文本语义分析自动评价***
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
US20100185438A1 (en) Method of creating a dictionary
KR102398683B1 (ko) 패러프레이징을 이용한 감정 사전 구축 및 이를 이용한 텍스트 상의 감정 구조 인식 시스템 및 방법
CN109783648B (zh) 一种利用asr识别结果改进asr语言模型的方法
Nikulasdóttir et al. Open ASR for Icelandic: Resources and a baseline system
Gale et al. Mixed Orthographic/Phonemic Language Modeling: Beyond Orthographically Restricted Transformers (BORT)
CN112183117B (zh) 一种翻译评价的方法、装置、存储介质及电子设备
Tsvetkov et al. Identification and modeling of word fragments in spontaneous speech
Chen et al. Minimal-resource phonetic language models to summarize untranscribed speech
Fetter et al. Improved modeling of OOV words in spontaneous speech
Allauzen et al. Voice Query Refinement.
Liang et al. DUKE: Distance Fusion and Knowledge Enhanced Framework for Chinese Spelling Check
Hori et al. An extremely large vocabulary approach to named entity extraction from speech
Sawaf et al. Hybrid Machine Translation Applied to Media Monitoring
Wang et al. Extracting key semantic terms from Chinese speech query for Web searches
Stenlund et al. Improving Translation Quality for Low-Resource Inuktitut with Various Preprocessing Techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant