CN107741928B - 一种基于领域识别的对语音识别后文本纠错的方法 - Google Patents

一种基于领域识别的对语音识别后文本纠错的方法 Download PDF

Info

Publication number
CN107741928B
CN107741928B CN201710952988.5A CN201710952988A CN107741928B CN 107741928 B CN107741928 B CN 107741928B CN 201710952988 A CN201710952988 A CN 201710952988A CN 107741928 B CN107741928 B CN 107741928B
Authority
CN
China
Prior art keywords
sentence
error correction
text
error
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710952988.5A
Other languages
English (en)
Other versions
CN107741928A (zh
Inventor
杨鑫
刘楚雄
唐军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201710952988.5A priority Critical patent/CN107741928B/zh
Publication of CN107741928A publication Critical patent/CN107741928A/zh
Application granted granted Critical
Publication of CN107741928B publication Critical patent/CN107741928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于语音识别文本处理领域,其公开了一种基于领域识别的对语音识别后文本纠错的方法,解决传统技术中的处理方法需要大量人工介入,纠错效率低,而且无法对专有名称进行纠错的问题。该方法包括以下步骤:a对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错。e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果。

Description

一种基于领域识别的对语音识别后文本纠错的方法
技术领域
本发明属于语音识别文本处理领域,具体涉及一种基于领域识别的对语音识别后文本纠错的方法。
背景技术
近年来,人工智能的需求和发展日益增加,让计算机正确的理解人类的语言成为重中之重。语音识别主要可以分为前处理和后处理过程,前处理过程主要包括了语音信号处理的过程,对人类/用户所说的话进行参数提取分析,集中在语音信号的处理;语音后处理则涉及到了音节到汉字的转变,换言之,即是把语音信号信息转为计算机可识别的内码的过程。实际语音识别后处理过程中,由于语音输入者(讲话人)可能的心理或者情绪的起伏、方言口音等问题,造成语速过快/过、声调变高/低、发音失真等共振峰和音调变化,产生语音识别信号错误,从而无法正确表达用户(讲话人)的真实内容给计算机做后续处理。
本申请着重语音识别后处理领域的后文本处理技术。目前语音识别后的文本主要的错误主要分为以下三类:同音字/同音词,比如,是\市\时;近音字/近音词,比如,幸福\信服;外因造成的漏音、冗余、前后粘连,比如,我/我的。
现有有效能够应用在实际中语音识别后文本处理技术主要都是基于统计或者基于规则的方法。采用替换字表结合主词典,通过加字和换字对侦测出来的错误字串提供纠错建议的纠错算法。但该算法的局限性在于纠错建议局限于纠错字表,同时,此方法涉及大量的人工介入建立大批量的可替代词以及可能出现的错词、错字,同时此方法涉及大量的检索步骤,在某些特定场景下无法保证速度要求,鲁棒性不强。
再则,从大量语料以及实例中挖掘其可能存在的关联关系,加入统计模型,此方法不需要词典,依靠的是词与词之间的关系。但是,此方法对于不常出现的词语组合,尤其是同音词的纠错困难,同时还有对于缺字或者漏子的情况无法做到一个很好的纠错。同时,在电视端,如果识别后的句子中带有专有电影名、演员名或者歌曲名等专有名称没有正确的识别或者纠正,将极大的降低后续开发的正确率以及用户体验效果。
发明内容
本发明所要解决的技术问题是:提出一种基于领域识别的对语音识别后文本纠错的方法,解决传统技术中的处理方法需要大量人工介入,纠错效率低,而且无法对专有名称进行纠错的问题。
本发明解决其技术问题所采用的技术方案是:
一种基于领域识别的对语音识别后文本纠错的方法,包括以下步骤:
a.对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;
b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;
c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;
d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;
e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果。
作为进一步优化,还包括步骤:
f.识别的原错误语句和对应的纠错结果加入混淆词库集,供以后的语音识别学习和训练。
作为进一步优化,步骤a具体包括:
将语音识别后的文本进行词元组合,并通过Bigrams模型对比不同词频文件进行识别,对识别后的词元进行两两组合,一直到整个句子组合识别完毕,选择识别错误词最少的词频库对应的领域为初步确定的领域;其中,词频文件由各个领域多个专有名词库组成。
作为进一步优化,步骤b具体包括:
根据预先训练的句式规则对待纠错句子进行切割,将句子分为冗余部分和核心部分,记录下待纠错句子的句式规则,并且将句子冗余部分和核心部分全部转化为拼音。
作为进一步优化,步骤c具体包括:
对确定后的句子核心部分进行分词,再利用搜索引擎whoosh对分词后的结果在步骤a中初步确定的领域内进行进行字符串模糊匹配。
作为进一步优化,步骤d具体包括:
d1.冗余部分纠错:
直接利用拼音对比正确词库的拼音,基于编辑距离计算相似性得分,选取合适的阈值,选择超过阈值中相似度得分的最高正确词组为冗余部分可接受的纠错候选结果;
d2.核心部分纠错:
根据确定的候选专有词库集,通过预先训练得到的句式规则,将候选的专有词库集根据句式规则进行排列组合,得到候选核心句集,计算核心句集与待纠错的核心句编辑距离相似性得分,根据不同的句式规则,确定合适的阈值,选择超过阈值中相似度得分最高的候选句作为核心部分可接受的纠错候选结果。
作为进一步优化,步骤e具体包括:
根据步骤b中记录下的待纠错句子的句式规则对冗余部分可接受的纠错候选结果以及核心部分可接受的纠错候选结果进行融合作为最佳纠错结果,并输出该最佳纠错结果。
作为进一步优化,步骤f具体包括:
构建混淆词库集,将识别的错误语句和对应的纠错结果建立映射关系,以供之后的纠错分析以及纠错优化。
本发明的有益效果是:不需要额外的人工建立可能出错的混淆词库集,仅通过现有的正确词库集就可以利用现有媒体库、数据直接开始进行语音识别后的文本纠错,减少因为数据集不够而无法建立有效的纠错的流程。
同时,对每一次的错误识别文本和纠错结果进行自动记录并关联,在达到一定的数据集规模后,能够对收集到的真实和有针对性的数据进行机器学习,建立更加合理的基于特征和自学习的模型,相比直接进行大规模的语料挖掘爬虫得到的数据更加准确真实,增强了可实践性和鲁棒性。
再则,因为将文本转换为拼音进行文本纠错后,解决了可能出现的同音词和多音字的问题,不需要计算机再进行一次额外判断识别后的中文字段是否为多音字或者同音字,减少了速度损耗。
此外,通过直接对整句进行基于编辑距离的得分计算,解决了因为发音或者用户(讲话人)口误所存在的多字、漏字、前后粘连等问题。加之,使用Bigrams模型和whoosh搜索引擎进行初步领域确定和下属领域的精确化,减少了因最后精确匹配可能出现数据集过大而产生的大量时间损耗的问题。
附图说明
图1为本发明中的基于领域识别的对语音识别后文本纠错的方法流程图;
图2为对核心部分纠错的处理流程图。
具体实施方式
本发明旨在提出一种基于领域识别的对语音识别后文本纠错的方法,解决传统技术中的处理方法需要大量人工介入,纠错效率低,而且无法对专有名称进行纠错的问题。
本发明采用了Bigram模型和whoosh搜索引擎对输入文本进行领域判断,Bigram通过引入马尔科夫假设,解决了n-grams中数据稀疏和参数空间过大的问题,假设一个词的出现仅依赖于前面出现的一个词,从而建立字与字之间的关系。而whoosh搜索引擎帮助建立领域判别,根据输入的文本建立索引,能够快速的实现模糊匹配的候选集识别,提升多领域的语义识别后文本纠错速度。具体而言,首先,利用Bigrams模型进行识错并且确定大领域,然后利用搜索引擎whoosh使用模糊匹配确定下属领域得到候选词\句集,最后通过训练得到的句式规则进行组成候选句,通过计算基于编辑距离的相似得分计算对比正确词库得出正确语句。
在具体实现上,本发明中的基于领域识别的对语音识别后文本纠错的方法如图1所示,其包括以下步骤:
1、对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;
本步骤中,将语音识别后的文本进行词元组合,并通过Bigrams模型对比不同词频文件进行识别,对识别后的词元进行两两组合,一直到整个句子组合识别完毕,选择识别错误词最少的词频库对应的领域为初步确定的领域;其中,词频文件主要由各个领域专有等个专有名词库组成,比如电影词频库由电影名人(演员、导演等),电影名字组成,音乐由歌手名、歌曲类别等组成。
Bigram引入马尔科夫假设,解决了n-grams中数据稀疏和参数空间过大的问题,这里假设一个词的出现仅依赖于前面出现的一个词,即:
P(T)=P(w1w2w3...wn)=P(w1)P(w2|w1)P(w3|w1w2)...P(wn|w1w2...wn-1)
≈P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1)
其中,T表示整个句子,wn表示在第n位置上的词,句子T是由词序w1,w2,w3...,wn组成。
2、根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;
本步骤中,根据预先训练的句式规则对待纠错句子进行切割,将句子分为冗余部分和核心部分,记录下待纠错句子的句式规则,并且将句子冗余部分和核心部分全部转化为拼音。
转换为拼音后,能够将多音字和同音字的问题解决,不需要计算机再进行一次额外判断识别后的中文字段是否为多音字或者同音字,减少了速度损耗。
3、利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;
本步骤中,对确定后的句子核心部分进行分词,再利用搜索引擎whoosh对分词后的结果在步骤a中初步确定的领域内进行进行字符串模糊匹配。进一步缩小精确匹配的范围,减少因为大量匹配而产生的速度损耗。
本发明在搜索引擎中加入正确词库的中文和拼音,通过对核心句子分词后的拼音模糊匹配正确词库的拼音,将领域范围进一步缩小,得到候选专有词库集,增加速度。
4、根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;
本步骤中,根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错:
4.1)冗余部分纠错:
相较而言,句子的冗余部分的正确词典比核心部分小得多,不要额外耗时进行模糊匹配缩小范围,因此,直接利用拼音对比正确词库的拼音,基于编辑距离计算相似性得分,选取合适的阈值,选择超过阈值中相似度得分最高正确词组为可接受的纠错候选结果。
4.2)核心部分纠错:
根据步骤3中确定的候选专有词库集,通过预先训练得到的句式规则,其中句式规则主要由‘和’、‘或’、‘非’三大类组成,将候选的专有词库集根据句式规则进行排列组合,得到候选核心句集,计算核心句集与待纠错的核心句编辑距离相似性得分,根据不同的句式规则,确定合适的阈值,选择超过阈值中相似度得分最高的候选句作为可接受的纠错候选结果。
核心部分纠错的流程如图2所示。
5、对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果;
本步骤中,根据步骤2中记录下的待纠错句子的句式规则对冗余部分可接受的纠错候选结果以及核心部分可接受的纠错候选结果进行融合作为最佳纠错结果,并输出最佳纠错结果。
6、识别的原错误语句和对应的纠错结果加入混淆词库集,供以后的语音识别学习和训练。
本步骤中,构建混淆词库集,将识别的错误语句和对应的纠错结果建立映射关系,以供之后的纠错分析以及纠错优化。
下面结合附图及实施例对本发明的方案作进一步的描述:
应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
假设预设领域有天气、音乐、电影三大类,其中音乐下分领域有歌手、歌曲名、歌曲流派、热门综艺歌曲等,电影下属领域分有名人名字(包括演员、导演、制作人等)、电影名、电影类型、电影年代等。
以错句‘点播吴秀播的北京遇到西雅图这部电’为例,我们可以预设知道此例句存在三个错误:一是演员名‘吴秀播’存在同音字错误;而是电影名‘北京遇上西雅图’存在用户输入认知错误,近似词错误;三是用户语音输出因为吞音错误‘这部电影’有漏字的错误。
通过Bigrams模型对实例句子进行识错分析,确认原实例句存在错误,并且该实例句子在电影领域的词频库的识别出来的错字最少,确定该实例句为电影领域。
将原实例句进行拆分为冗余部分和核心句部分,根据预判规则可知道,‘冗余部分’为‘点播’和‘这部电’组成,其中‘核心部分’构成为‘吴秀播的北京遇到西雅图’。
计算拆分得到‘冗余部分’和候选集中的句式可以得到最高的两个得分候选集分别P(‘点播’,’点播’)=100%,P(‘这部电’,’这部电影’)=97%,由此,确定‘冗余部分’的纠错结果。
再对‘核心部分’进行分词,因为一旦电影或者演员名存在错误,无法预设所有的分词规则和规律,所以在此并不考虑分词错误的情况。通过开源分词工具可以得到的5个分词有‘吴秀’,‘播的’,‘北京’,‘遇到’,‘西雅图’,通过whoosh对5个分词在电影领域下属的各个库中进行字符串模糊匹配并发搜索,得出在各下属领域中更加精确的范围,其中得到名人名的候选词集23个,电影名候选词集34个,类型和年代等候选词集为0个。
将通过whoosh模糊匹配得到的候选集根据预设的句式规则进行排列组合,得到P(‘吴秀播的北京遇到西雅图’,’吴秀波的北京遇上西雅图’)=87%,此值超过阈值,并且为所有超过阈值的候选句中得分最高的选项。
根据上述步骤,接受纠错结果,根据原始输入实例句式规则,组合其冗余部分和核心部分得分最高的候选集,最终输出‘点播吴秀波的北京遇上西雅图这部电影’,同时将此实例的句子纠错前和纠错后的放入数据库,可供之后进行学习训练。

Claims (7)

1.一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,包括以下步骤:
a.对语音识别后的文本进行识错分析,并初步确定文本语句所属领域;
b.根据预定义的语法规则对待纠错句子进行切分,划分为冗余部分以及核心部分;
c.利用搜索引擎进行字符串模糊匹配确定句子核心部分的候选专有词库集;
d.根据编辑距离计算相似度得分,分别对冗余部分和核心部分纠错;
e.对纠错后的冗余部分和核心部分进行融合,然后输出纠错结果;
步骤d具体包括:
d1.冗余部分纠错:
直接利用拼音对比正确词库的拼音,基于编辑距离计算相似性得分,选取合适的阈值,选择超过阈值中相似度得分的最高正确词组为冗余部分可接受的纠错候选结果;
d2.核心部分纠错:
根据确定的候选专有词库集,通过预先训练得到的句式规则,将候选的专有词库集根据句式规则进行排列组合,得到候选核心句集,计算核心句集与待纠错的核心句编辑距离相似性得分,根据不同的句式规则,确定合适的阈值,选择超过阈值中相似度得分最高的候选句作为核心部分可接受的纠错候选结果。
2.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,还包括步骤:
f.识别的原错误语句和对应的纠错结果加入混淆词库集,供以后的语音识别学习和训练。
3.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,步骤a具体包括:
将语音识别后的文本进行词元组合,并通过Bigrams模型对比不同词频文件进行识别,对识别后的词元进行两两组合,一直到整个句子组合识别完毕,选择识别错误词最少的词频库对应的领域为初步确定的领域;其中,词频文件由各个领域多个专有名词库组成。
4.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,步骤b具体包括:
根据预先训练的句式规则对待纠错句子进行切割,将句子分为冗余部分和核心部分,记录下待纠错句子的句式规则,并且将句子冗余部分和核心部分全部转化为拼音。
5.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,步骤c具体包括:
对确定后的句子核心部分进行分词,再利用搜索引擎whoosh对分词后的结果在步骤a中初步确定的领域内进行字符串模糊匹配。
6.如权利要求1所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,步骤e具体包括:
根据步骤b中记录下的待纠错句子的句式规则对冗余部分可接受的纠错候选结果以及核心部分可接受的纠错候选结果进行融合作为最佳纠错结果,并输出该最佳纠错结果。
7.如权利要求2所述的一种基于领域识别的对语音识别后文本纠错的方法,其特征在于,步骤f具体包括:
构建混淆词库集,将识别的错误语句和对应的纠错结果建立映射关系,以供之后的纠错分析以及纠错优化。
CN201710952988.5A 2017-10-13 2017-10-13 一种基于领域识别的对语音识别后文本纠错的方法 Active CN107741928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710952988.5A CN107741928B (zh) 2017-10-13 2017-10-13 一种基于领域识别的对语音识别后文本纠错的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710952988.5A CN107741928B (zh) 2017-10-13 2017-10-13 一种基于领域识别的对语音识别后文本纠错的方法

Publications (2)

Publication Number Publication Date
CN107741928A CN107741928A (zh) 2018-02-27
CN107741928B true CN107741928B (zh) 2021-01-26

Family

ID=61237644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710952988.5A Active CN107741928B (zh) 2017-10-13 2017-10-13 一种基于领域识别的对语音识别后文本纠错的方法

Country Status (1)

Country Link
CN (1) CN107741928B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111373473B (zh) * 2018-03-05 2023-10-20 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
CN108509416B (zh) * 2018-03-20 2022-10-11 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质
CN108664471B (zh) * 2018-05-07 2024-01-23 北京第一因科技有限公司 文字识别纠错方法、装置、设备及计算机可读存储介质
CN110600005B (zh) * 2018-06-13 2023-09-19 蔚来(安徽)控股有限公司 语音识别纠错方法及装置、计算机设备和记录介质
CN109344221B (zh) * 2018-08-01 2021-11-23 创新先进技术有限公司 录音文本生成方法、装置及设备
CN109145276A (zh) * 2018-08-14 2019-01-04 杭州智语网络科技有限公司 一种基于拼音的语音转文字后的文本校正方法
WO2020065840A1 (ja) * 2018-09-27 2020-04-02 株式会社オプティム コンピュータシステム、音声認識方法及びプログラム
CN109461436B (zh) * 2018-10-23 2020-12-15 广东小天才科技有限公司 一种语音识别发音错误的纠正方法及***
CN109599114A (zh) * 2018-11-07 2019-04-09 重庆海特科技发展有限公司 语音处理方法、存储介质和装置
CN109473093B (zh) * 2018-12-13 2023-08-04 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN111368506B (zh) * 2018-12-24 2023-04-28 阿里巴巴集团控股有限公司 文本处理方法及装置
CN109410923B (zh) * 2018-12-26 2022-06-10 中国联合网络通信集团有限公司 语音识别方法、装置、***及存储介质
CN109684643B (zh) * 2018-12-26 2021-03-12 湖北亿咖通科技有限公司 基于句向量的文本识别方法、电子设备及计算机可读介质
CN109918485B (zh) * 2019-01-07 2020-11-27 口碑(上海)信息技术有限公司 语音识别菜品的方法及装置、存储介质、电子装置
CN109922371B (zh) * 2019-03-11 2021-07-09 海信视像科技股份有限公司 自然语言处理方法、设备及存储介质
CN110148416B (zh) * 2019-04-23 2024-03-15 腾讯科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
CN110211571B (zh) * 2019-04-26 2023-05-26 平安科技(深圳)有限公司 错句检测方法、装置及计算机可读存储介质
CN112002311A (zh) * 2019-05-10 2020-11-27 Tcl集团股份有限公司 文本纠错方法、装置、计算机可读存储介质及终端设备
CN110349576A (zh) * 2019-05-16 2019-10-18 国网上海市电力公司 基于语音识别的电力***操作指令执行方法、装置及***
CN110210029B (zh) * 2019-05-30 2020-06-19 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、***、设备及介质
CN110399607B (zh) * 2019-06-04 2023-04-07 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话***文本纠错***及方法
CN110399608B (zh) * 2019-06-04 2023-04-25 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话***文本纠错***及方法
CN110176237A (zh) * 2019-07-09 2019-08-27 北京金山数字娱乐科技有限公司 一种语音识别方法及装置
CN110348021B (zh) * 2019-07-17 2021-05-18 湖北亿咖通科技有限公司 基于命名实体模型的字符串识别方法、电子设备、存储介质
CN110457695B (zh) * 2019-07-30 2023-05-12 安徽火蓝数据有限公司 一种在线文字纠错方法及***
CN110543555A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 一种用于智能客服中的标问召回方法和装置
CN110647987A (zh) * 2019-08-22 2020-01-03 腾讯科技(深圳)有限公司 一种应用程序中数据的处理方法、装置、电子设备及存储介质
CN110941720B (zh) * 2019-09-12 2023-06-09 贵州耕云科技有限公司 一种基于知识库的特定人员信息纠错方法
CN110556127B (zh) * 2019-09-24 2021-01-01 北京声智科技有限公司 语音识别结果的检测方法、装置、设备及介质
CN110750959B (zh) * 2019-10-28 2022-05-10 腾讯科技(深圳)有限公司 文本信息处理的方法、模型训练的方法以及相关装置
CN111291571A (zh) * 2020-01-17 2020-06-16 华为技术有限公司 语义纠错方法、电子设备及存储介质
CN111369996B (zh) * 2020-02-24 2023-08-18 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN114079797A (zh) * 2020-08-14 2022-02-22 阿里巴巴集团控股有限公司 直播字幕生成方法及装置和服务端、直播客户端及直播***
CN112017647B (zh) * 2020-09-04 2024-05-03 深圳海冰科技有限公司 一种结合语义的语音识别方法、装置和***
CN112183073A (zh) * 2020-11-27 2021-01-05 北京擎盾信息科技有限公司 一种适用于法律热线语音识别的文本纠错和补全方法
CN112417867B (zh) * 2020-12-07 2022-10-18 四川长虹电器股份有限公司 一种语音识别后的视频片名纠错方法及***
CN113051894A (zh) * 2021-03-16 2021-06-29 京东数字科技控股股份有限公司 一种文本纠错的方法和装置
CN113158649B (zh) * 2021-05-27 2023-04-21 广州广电运通智能科技有限公司 一种用于地铁站点名识别的纠错方法、设备、介质及产品
CN116994597B (zh) * 2023-09-26 2023-12-15 广州市升谱达音响科技有限公司 一种音频处理***、方法及存储介质
CN118013958A (zh) * 2024-04-08 2024-05-10 江苏网进科技股份有限公司 一种文本中搭配的纠错方法、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN106874362A (zh) * 2016-12-30 2017-06-20 中国科学院自动化研究所 多语言自动文摘方法
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909526B2 (en) * 2012-07-09 2014-12-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US10019984B2 (en) * 2015-02-27 2018-07-10 Microsoft Technology Licensing, Llc Speech recognition error diagnosis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN106874362A (zh) * 2016-12-30 2017-06-20 中国科学院自动化研究所 多语言自动文摘方法
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于实例语境的汉语语音识别后文本检错纠错方法;龙丽霞等;《中国计算机语言学研究前沿进展(2007-2009)》;20090724;第648-653页 *

Also Published As

Publication number Publication date
CN107741928A (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
CN107741928B (zh) 一种基于领域识别的对语音识别后文本纠错的方法
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN110517663B (zh) 一种语种识别方法及识别***
CN105957518B (zh) 一种蒙古语大词汇量连续语音识别的方法
US20180286385A1 (en) Method and system for predicting speech recognition performance using accuracy scores
CN105404621B (zh) 一种用于盲人读取汉字的方法及***
Kahn et al. Effective use of prosody in parsing conversational speech
JP5073024B2 (ja) 音声対話装置
Nguyen et al. Improving vietnamese named entity recognition from speech using word capitalization and punctuation recovery models
KR20090060631A (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
Christodoulides et al. Automatic detection and annotation of disfluencies in spoken French corpora
Al-Anzi et al. The impact of phonological rules on Arabic speech recognition
CN106202037B (zh) 基于组块的越南语短语树构建方法
Suzuki et al. Music information retrieval from a singing voice using lyrics and melody information
Juhár et al. Recent progress in development of language model for Slovak large vocabulary continuous speech recognition
Chen et al. Almost-unsupervised speech recognition with close-to-zero resource based on phonetic structures learned from very small unpaired speech and text data
Lin et al. Hierarchical prosody modeling for Mandarin spontaneous speech
JP2011175046A (ja) 音声検索装置および音声検索方法
CN114863914A (zh) 构建端到端语音评测模型的深度学习方法
Wray et al. Best practices for crowdsourcing dialectal arabic speech transcription
Zhang et al. Reliable accent-specific unit generation with discriminative dynamic Gaussian mixture selection for multi-accent Chinese speech recognition
CN111429886B (zh) 一种语音识别方法及***
Yeh et al. Speech recognition with word fragment detection using prosody features for spontaneous speech
Turunen et al. Speech retrieval from unsegmented Finnish audio using statistical morpheme-like units for segmentation, recognition, and retrieval
Petrik et al. Semantic and phonetic automatic reconstruction of medical dictations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant