CN109145276A - 一种基于拼音的语音转文字后的文本校正方法 - Google Patents

一种基于拼音的语音转文字后的文本校正方法 Download PDF

Info

Publication number
CN109145276A
CN109145276A CN201810922512.1A CN201810922512A CN109145276A CN 109145276 A CN109145276 A CN 109145276A CN 201810922512 A CN201810922512 A CN 201810922512A CN 109145276 A CN109145276 A CN 109145276A
Authority
CN
China
Prior art keywords
text
phonetic
editable
distance
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810922512.1A
Other languages
English (en)
Inventor
吕韶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhiyu Network Technology Co Ltd
Original Assignee
Hangzhou Zhiyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhiyu Network Technology Co Ltd filed Critical Hangzhou Zhiyu Network Technology Co Ltd
Priority to CN201810922512.1A priority Critical patent/CN109145276A/zh
Publication of CN109145276A publication Critical patent/CN109145276A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于拼音的语音转文字后的文本校正方法,该方法将通过语音识别转换而成的文本信息经过初步判断,当出现未识别出与内容相关的信息时,根据识别出的拼音信息,经过拼音相似度计算和相应文本替换,实现语音的纠正,以求得到准确的语义。本发明拼音相似程度判断,以较快的速度进行修正并以高准确率的语音文本输出,其实现方法简便,语音识别的准确率和服务质量能得到显著保证。

Description

一种基于拼音的语音转文字后的文本校正方法
技术领域
本发明涉及人工智能语音识别领域,尤其涉及一种基于拼音的语音转文字后的文本校正方法。
背景技术
近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。语音识别技术逐渐进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别的技术正在不断提升,各种基于语音识别的机器人开始应运而生,然而因为每个人的出生地、发音习惯等内在原因,以及信号干扰、网络不好等外在原因,语音识别的实际使用准确率远低于商家所吹嘘的97%。而实际语音识别的准确率极大地影响到需要利用语音识别进行后续操作的业务和工作,因此在实际运用过程中,需要耗费大量人力和时间去处理识别不准确而带来的麻烦,承担相应的经济上的损失。
现有的技术主攻方向是对语音识别的调优和改进,在识别的算法上进行技术的升级,达到更高的识别能力,很少将注意力转向对语音识别后进行二次处理校正这一方面,现存的也只是针对同音词进行校正。然而很多情况并非是识别能力不够,在现有标准普通话识别率几乎都能够准确识别的技术背景下,造成识别偏差的原因是由于人的发音差异和环境带来的干扰等,这些问题单靠提升识别能力很难攻克或者提升的空间极为有限。而同音字的校正虽然能够弥补一部分的错误,但是更多情况下是各种复杂原因而导致的非同音词情况,因此市场更需要的乃是一定的模糊处理能力的校正方法。
发明内容
针对现有技术的不足,本发明公开一种基于拼音的语音转文字后的文本校正方法,该方法得到的语音识别的准确率高,具体技术方案如下:
一种基于拼音的语音转文字后的文本校正方法,其特征在于,该方法包括如下步骤:
S1:将语音识别后的中文文本信息通过中文分词算法或工具进行切分,获得多个词语;
S2:查找数据库中该段语音的应用场景下,与S1中获得的词语相关的关键词,对S1中获得的多个词语与得到的关键词进行匹配;所述的数据库包含多个应用场景的子模块,每个子模块中存储与该场景相关的多个关键词;根据不同场景,设置需要匹配上关键词的个数,如果达到匹配要求,则不需要进行校正,直接将文本输出;否则,进入S3;
S3:计算S1获得的每个词语中第i个汉字和数据库中该场景下的每个关键词的第i个汉字的拼音的可编辑距离差异度Di,所述的拼音的可编辑距离差异度为对拼音的单个字符通过增加、删除或者替换的方式将两个拼音变得完全一样的最小修改次数,每个词语的可编辑距离差异度D=∑Di,设定阈值k,当S1获得的词语对于所有关键词的最小的可编辑距离差异度Dmin≤k时,则将该可编辑差异度对应的S1中的词语替换为数据库中对应的关键词;
S4:将替换之后的文本输出,即完成文本校正。
进一步地,在S2的数据库中查找关键词时,仅对S1切分后的名词进行匹配。
进一步地,所述的数据库包含多个应用场景的子模块,每个子模块中存储与该场景相关的多个关键词。
进一步地,所述的S3中的第i个汉字的拼音的可编辑距离差异度Di为声母、韵母和声调三种可编辑距离差异度的和,即Di=d1+d2+d3,其中声母和韵母的可编辑距离差异度d1、d2和S3中的定义相同,所述的声调的可编辑距离差异度定义d3为,声调相同为0,不同为1。
进一步地,所述的声母、韵母和声调的可编辑距离差异度的权重的分别为w1,w2,w3,则Di=w1d1+w2d2+w3d3,且w1≥w2≥w3。
本发明的有益效果如下:
本发明使用的拼音是中文语言的基础,是最贴近语言语音的语言语义承载模型,最大程度减小了识别过程中转化的语义损失,针对拼音的修正过程更加合理并且效率更高,其实现方法简便,手段灵活,语音识别的准确率和服务质量能得到显著保证。
附图说明
图1是基于拼音的语音转文字后的文本校正方法流程图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的基于拼音的语音转文字后的文本校正方法,具体包括如下步骤:
步骤一:将语音识别后的中文文本信息通过中文分词算法或工具进行切分,获得多个词语;
步骤二:查找数据库中该段语音的应用场景下的关键词,将步骤一中获得的多个词语与关键词进行匹配;所述的数据库包含多个应用场景的子模块,每个子模块中存储与该场景相关的多个名词性的关键词;根据不同场景,设置需要匹配上关键词的个数,如果达到匹配要求,则不需要进行校正,直接将文本输出;否则,进入步骤三;
步骤三:根据拼音的可编辑距离进行中文文本信息的校正。
该步骤是本发明的核心,分为以下子步骤。
1)计算步骤一获得的每个词语中第i个汉字和数据库中该场景下的每个关键词的第i个汉字的拼音的可编辑距离差异度Di,所述的拼音的可编辑距离差异度为对拼音的单个字符通过增加、删除或者替换的方式将两个拼音变得完全一样的最小修改次数,分别对对应汉字的声母、韵母和声调进行差异度的计算,声调的可编辑距离差异度定义为,声调相同为0,不同为1,计算结果为d1,d2和d3,同时根据发音规律,对于声母、韵母和声调的差异度分别设置权重系数w1,w2和w3,Di=d1*w1+d2*w2+d3*w3;
2)计算单个词语的可编辑距离差异度D=∑Di,根据设定的阈值k,当S1获得的词语对于所有关键词的最小的可编辑距离差异度Dmin≤k时,则将该可编辑差异度对应的S1中的词语替换为数据库中对应的关键词;
3)循环子步骤1和2,直至所有通过步骤一得到的词汇全部计算并处理完毕;
步骤四:将替换之后的文本输出,即完成文本校正。
下面以房产作为背景选择2个有代表性的实施例进行详细说明本发明,此处数据库包含“价格”、“位置”、“配套”关键词,阈值K=5,声母、韵母、声调权重为2:1:0.5。以下实施例为了方便说明,均设置当匹配一个关键词时即可认为匹配成功。
为了提高匹配效率,减少计算的工作量,在对S1中获得的多个词语与数据库中该段语言的应用场景下的关键词进行匹配时,仅对名词进行匹配。
实施例1:
正确文本:房子价格怎么样?
识别文本:房子价格肿么样?
步骤一:将语音识别后的中文文本信息通过中文分词算法或工具进行切分,获得多个词语,该例识别文本被切分为“房子”、“价格”、“肿么样”,其中名词有“房子”、“价格”;
步骤二:查找数据库中房产应用场景下的关键词,对步骤一中获得的多个词语中的名词与得到的关键词进行匹配,识别出“价格”关键词,直接将结果输出,因为已经得到了所需要的关键信息,“肿么样”作为次要信息不影响对语义的判断,可以不进行纠正,结束。
实施例2:
正确文本:你们这里房子配套(pei4 tao4)怎么样?
识别文本:你们这里房子被套(bei4 tao4)怎么样?
步骤一:将语音识别后的中文文本信息通过中文分词算法或工具进行切分,获得多个词语,该例中可以将识别出来文字切分为“你们”、“这里”、“房子”、“被套”、“怎么样”;
步骤二:查找数据库中房产应用场景下相关的关键词,将步骤一中获得的词语中的名词“房子”、“被套”与数据库中该场景下的关键词“价格”、“位置”、“配套”分别进行匹配,两个词语均未被识别出来,进入步骤三;
步骤三:根据拼音的可编辑距离进行中文文本信息的校正;
1)计算步骤一获得的每个词语中第i个汉字和数据库中该场景下的每个关键词的第i个汉字的拼音的可编辑距离差异度Di
该例中当词语a为“房子”,关键词b为“价格”,对比第1个字“房”和“价”的声母“f”和“j”,只需替换即可,因此声母可编辑距离差异度d1=1,韵母分别为“ang”和“ia”,需要将“ng”去掉再加上“i”才能使两个韵母相同,因此韵母的可编辑距离差异度为d2=3,音调一个为第二声,另一个第四声,声调的可编辑距离为d3=1,计算第一个汉字的拼音可编辑距离差异度D1=2*1+1*3+0.5*1=5.5;
同理对第二个汉字进行计算,可以算的D2=1*2+1*1+0.5=3.5。
最终“房子”对于关键词“价格”的可编辑距离差异度D=D1+D2=9;
类似的计算过程,
“房子”对于关键词“位置”的可编辑距离D=10;
“房子”对于关键词“配套”的可编辑距离D=13;
词语“房子”的Dmin=9,要大于K,不进行任何替换;
3)循环子步骤1和2,计算完所有步骤1提供的词语为止:
“被套”对于关键词“配套”的可编辑距离D=2;
“被套”对于关键词“价格”的可编辑距离差异度D=10;
“被套”对于关键词“位置”的可编辑距离为D=8;
因此,对于词语“被套”而言,最小的可编辑距离取值为2,即Dmin=2,Dmin比K值小,Dmin对应的词汇和关键词分别为“被套”和“配套”,将“被套”替换为“配套”;
4)将处理完毕的文本输出,文本“你们这里房子被套怎么样?”最终校正为“你们这里房子配套怎么样?”;
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (5)

1.一种基于拼音的语音转文字后的文本校正方法,其特征在于,该方法包括如下步骤:
S1:将语音识别后的中文文本信息通过中文分词算法或工具进行切分,获得多个词语;
S2:查找数据库中该段语音的应用场景下,与S1中获得的词语相关的关键词,对S1中获得的多个词语与得到的关键词进行匹配;所述的数据库包含多个应用场景的子模块,每个子模块中存储与该场景相关的多个关键词;根据不同场景,设置需要匹配上关键词的个数,如果达到匹配要求,则不需要进行校正,直接将文本输出;否则,进入S3;
S3:计算S1获得的每个词语中第i个汉字和数据库中该场景下的每个关键词的第i个汉字的拼音的可编辑距离差异度Di,所述的拼音的可编辑距离差异度为对拼音的单个字符通过增加、删除或者替换的方式将两个拼音变得完全一样的最小修改次数,每个词语的可编辑距离差异度D=∑Di,设定阈值k,当S1获得的词语对于所有关键词的最小的可编辑距离差异度Dmin≤k时,则将该可编辑差异度对应的S1中的词语替换为数据库中对应的关键词。
S4:将替换之后的文本输出,即完成文本校正。
2.根据权利要求1所述的基于拼音的语音转文字后的文本校正方法,其特征在于,在S2的数据库中查找关键词时,仅对S1切分后的名词进行匹配。
3.根据权利要求1所述的基于拼音的语音转文字后的文本校正方法,其特征在于,所述的数据库包含多个应用场景的子模块,每个子模块中存储与该场景相关的多个关键词。
4.根据权利要求1所述的基于拼音的语音转文字后的文本校正方法,其特征在于,所述的S3中的第i个汉字的拼音的可编辑距离差异度Di为声母、韵母和声调三种可编辑距离差异度的和,即Di=d1+d2+d3,其中声母和韵母的可编辑距离差异度d1、d2和S3中的定义相同,所述的声调的可编辑距离差异度定义d3为,声调相同为0,不同为1。
5.根据权利要求4所述的基于拼音的语音转文字后的文本校正方法,其特征在于,所述的声母、韵母和声调的可编辑距离差异度的权重的分别为w1,w2,w3,则Di=w1d1+w2d2+w3d3,且w1≥w2≥w3。
CN201810922512.1A 2018-08-14 2018-08-14 一种基于拼音的语音转文字后的文本校正方法 Pending CN109145276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810922512.1A CN109145276A (zh) 2018-08-14 2018-08-14 一种基于拼音的语音转文字后的文本校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810922512.1A CN109145276A (zh) 2018-08-14 2018-08-14 一种基于拼音的语音转文字后的文本校正方法

Publications (1)

Publication Number Publication Date
CN109145276A true CN109145276A (zh) 2019-01-04

Family

ID=64793340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810922512.1A Pending CN109145276A (zh) 2018-08-14 2018-08-14 一种基于拼音的语音转文字后的文本校正方法

Country Status (1)

Country Link
CN (1) CN109145276A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948124A (zh) * 2019-03-15 2019-06-28 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN109977412A (zh) * 2019-03-29 2019-07-05 北京林业大学 一种字段值纠错方法、装置、可读介质及存储控制器
CN110334348A (zh) * 2019-06-28 2019-10-15 珍岛信息技术(上海)股份有限公司 一种基于纯文本中的文字校验方法
CN110399608A (zh) * 2019-06-04 2019-11-01 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话***文本纠错***及方法
CN110767217A (zh) * 2019-10-30 2020-02-07 爱驰汽车有限公司 音频分割方法、***、电子设备和存储介质
CN110782892A (zh) * 2019-10-25 2020-02-11 四川长虹电器股份有限公司 语音文本纠错方法
CN110880316A (zh) * 2019-10-16 2020-03-13 苏宁云计算有限公司 一种音频的输出方法和***
CN110970026A (zh) * 2019-12-17 2020-04-07 用友网络科技股份有限公司 语音交互匹配方法、计算机设备以及计算机可读存储介质
CN111028834A (zh) * 2019-10-30 2020-04-17 支付宝(杭州)信息技术有限公司 语音信息提醒方法、装置、服务器和语音信息提醒设备
CN111611792A (zh) * 2020-05-21 2020-09-01 全球能源互联网研究院有限公司 一种语音转录文本的实体纠错方法及***
CN111831201A (zh) * 2020-05-25 2020-10-27 中国人民解放军陆军军医大学第二附属医院 一种骨髓细胞形态学自动检测人机交互***及其方法
CN112114926A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 基于语音识别的页面操作方法、装置、设备和介质
CN112259182A (zh) * 2020-11-05 2021-01-22 中国联合网络通信集团有限公司 一种电子病历的生成方法和装置
CN112560493A (zh) * 2020-12-17 2021-03-26 金蝶软件(中国)有限公司 命名实体纠错方法、装置、计算机设备和存储介质
CN112562668A (zh) * 2020-11-30 2021-03-26 广州橙行智动汽车科技有限公司 一种语义信息纠偏方法和装置
CN112863531A (zh) * 2021-01-12 2021-05-28 蒋亦韬 通过计算机识别后重新生成进行语音音频增强的方法
CN113053359A (zh) * 2019-12-27 2021-06-29 深圳Tcl数字技术有限公司 一种语音识别方法、智能终端及存储介质
CN113223509A (zh) * 2021-04-28 2021-08-06 华南理工大学 一种应用于多人混杂场景下的模糊语句识别方法及***
CN113297348A (zh) * 2021-04-15 2021-08-24 国网江苏省电力有限公司南京供电分公司 语音识别中文文本的校正方法
CN113744722A (zh) * 2021-09-13 2021-12-03 上海交通大学宁波人工智能研究院 一种用于有限句库的离线语音识别匹配装置与方法
CN113743093A (zh) * 2020-06-17 2021-12-03 北京沃东天骏信息技术有限公司 一种文本校正的方法和装置
CN113763961A (zh) * 2020-06-02 2021-12-07 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN116052657A (zh) * 2022-08-01 2023-05-02 荣耀终端有限公司 语音识别的字符纠错方法和装置
CN118053426A (zh) * 2024-04-16 2024-05-17 深圳市轻生活科技有限公司 一种互联互控的智能无线开关及其离线语音控制***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
US20160179774A1 (en) * 2014-12-18 2016-06-23 International Business Machines Corporation Orthographic Error Correction Using Phonetic Transcription
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
US20160179774A1 (en) * 2014-12-18 2016-06-23 International Business Machines Corporation Orthographic Error Correction Using Phonetic Transcription
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN109948124A (zh) * 2019-03-15 2019-06-28 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN109977412B (zh) * 2019-03-29 2022-12-27 北京林业大学 语音识别文本的字段值纠错方法、装置及存储控制器
CN109977412A (zh) * 2019-03-29 2019-07-05 北京林业大学 一种字段值纠错方法、装置、可读介质及存储控制器
CN110399608A (zh) * 2019-06-04 2019-11-01 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话***文本纠错***及方法
CN110399608B (zh) * 2019-06-04 2023-04-25 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话***文本纠错***及方法
CN110334348A (zh) * 2019-06-28 2019-10-15 珍岛信息技术(上海)股份有限公司 一种基于纯文本中的文字校验方法
CN110334348B (zh) * 2019-06-28 2022-11-15 珍岛信息技术(上海)股份有限公司 一种基于纯文本中的文字校验方法
CN110880316A (zh) * 2019-10-16 2020-03-13 苏宁云计算有限公司 一种音频的输出方法和***
CN110782892B (zh) * 2019-10-25 2022-03-25 四川长虹电器股份有限公司 语音文本纠错方法
CN110782892A (zh) * 2019-10-25 2020-02-11 四川长虹电器股份有限公司 语音文本纠错方法
CN110767217A (zh) * 2019-10-30 2020-02-07 爱驰汽车有限公司 音频分割方法、***、电子设备和存储介质
CN111028834A (zh) * 2019-10-30 2020-04-17 支付宝(杭州)信息技术有限公司 语音信息提醒方法、装置、服务器和语音信息提醒设备
CN110767217B (zh) * 2019-10-30 2022-04-12 爱驰汽车有限公司 音频分割方法、***、电子设备和存储介质
CN110970026A (zh) * 2019-12-17 2020-04-07 用友网络科技股份有限公司 语音交互匹配方法、计算机设备以及计算机可读存储介质
CN113053359A (zh) * 2019-12-27 2021-06-29 深圳Tcl数字技术有限公司 一种语音识别方法、智能终端及存储介质
CN111611792A (zh) * 2020-05-21 2020-09-01 全球能源互联网研究院有限公司 一种语音转录文本的实体纠错方法及***
CN111611792B (zh) * 2020-05-21 2023-05-23 全球能源互联网研究院有限公司 一种语音转录文本的实体纠错方法及***
CN111831201A (zh) * 2020-05-25 2020-10-27 中国人民解放军陆军军医大学第二附属医院 一种骨髓细胞形态学自动检测人机交互***及其方法
CN113763961A (zh) * 2020-06-02 2021-12-07 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN113763961B (zh) * 2020-06-02 2024-04-09 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN113743093B (zh) * 2020-06-17 2024-05-17 北京沃东天骏信息技术有限公司 一种文本校正的方法和装置
CN113743093A (zh) * 2020-06-17 2021-12-03 北京沃东天骏信息技术有限公司 一种文本校正的方法和装置
CN112114926A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 基于语音识别的页面操作方法、装置、设备和介质
CN112259182B (zh) * 2020-11-05 2023-08-11 中国联合网络通信集团有限公司 一种电子病历的生成方法和装置
CN112259182A (zh) * 2020-11-05 2021-01-22 中国联合网络通信集团有限公司 一种电子病历的生成方法和装置
CN112562668A (zh) * 2020-11-30 2021-03-26 广州橙行智动汽车科技有限公司 一种语义信息纠偏方法和装置
CN112560493B (zh) * 2020-12-17 2024-04-30 金蝶软件(中国)有限公司 命名实体纠错方法、装置、计算机设备和存储介质
CN112560493A (zh) * 2020-12-17 2021-03-26 金蝶软件(中国)有限公司 命名实体纠错方法、装置、计算机设备和存储介质
CN112863531A (zh) * 2021-01-12 2021-05-28 蒋亦韬 通过计算机识别后重新生成进行语音音频增强的方法
CN113297348A (zh) * 2021-04-15 2021-08-24 国网江苏省电力有限公司南京供电分公司 语音识别中文文本的校正方法
CN113223509B (zh) * 2021-04-28 2022-06-10 华南理工大学 一种应用于多人混杂场景下的模糊语句识别方法及***
CN113223509A (zh) * 2021-04-28 2021-08-06 华南理工大学 一种应用于多人混杂场景下的模糊语句识别方法及***
CN113744722A (zh) * 2021-09-13 2021-12-03 上海交通大学宁波人工智能研究院 一种用于有限句库的离线语音识别匹配装置与方法
CN116052657A (zh) * 2022-08-01 2023-05-02 荣耀终端有限公司 语音识别的字符纠错方法和装置
CN116052657B (zh) * 2022-08-01 2023-10-20 荣耀终端有限公司 语音识别的字符纠错方法和装置
CN118053426A (zh) * 2024-04-16 2024-05-17 深圳市轻生活科技有限公司 一种互联互控的智能无线开关及其离线语音控制***

Similar Documents

Publication Publication Date Title
CN109145276A (zh) 一种基于拼音的语音转文字后的文本校正方法
CN107315737B (zh) 一种语义逻辑处理方法及***
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN105718586B (zh) 分词的方法及装置
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及***
CN105869634B (zh) 一种基于领域的带反馈语音识别后文本纠错方法及***
US6879951B1 (en) Chinese word segmentation apparatus
US10515292B2 (en) Joint acoustic and visual processing
WO2017127296A1 (en) Analyzing textual data
CN114580382A (zh) 文本纠错方法以及装置
CN107564528B (zh) 一种语音识别文本与命令词文本匹配的方法及设备
CN110942767B (zh) 一种asr语言模型识别标注与优化方法及其装置
CN110516239B (zh) 一种基于卷积神经网络的分段池化关系抽取方法
CN113157918B (zh) 一种基于注意力机制的商品名称短文本分类方法和***
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及***
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN114722822B (zh) 命名实体识别方法、装置、设备和计算机可读存储介质
CN115098657A (zh) 自然语言转换数据库查询语句的方法、设备及介质
CN115618883A (zh) 一种业务语义识别方法及装置
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN111680524A (zh) 基于逆向矩阵分析的人机反馈翻译方法与***
CN114996463A (zh) 一种病例的智能分类方法和装置
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190104

WD01 Invention patent application deemed withdrawn after publication