CN113449090A - 一种用于智能问答的纠错方法、设备及介质 - Google Patents
一种用于智能问答的纠错方法、设备及介质 Download PDFInfo
- Publication number
- CN113449090A CN113449090A CN202110698868.3A CN202110698868A CN113449090A CN 113449090 A CN113449090 A CN 113449090A CN 202110698868 A CN202110698868 A CN 202110698868A CN 113449090 A CN113449090 A CN 113449090A
- Authority
- CN
- China
- Prior art keywords
- character data
- suspected
- error correction
- carrying
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于智能问答的纠错方法、设备及介质,该方案包括:对获取到的语音数据进行语音识别,将所述语音数据转换为相应的文字数据;通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集;基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换;对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正。优化了云化机器人中的纠错模块功能,解决了云化机器人进行语音识别时出现错误识别的问题。
Description
技术领域
本说明书实施例涉及人工智能领域,尤其涉及一种用于智能问答的纠错方法、设备及介质。
背景技术
随着人工智能的快速发展,机器人越来越多的成为生活中的辅助工具,例如百度小度、小米小爱同学。为了让机器人拥有更加强大的智能能力,我们把云计算和机器人相结合,形成云化机器人。
但是,云化机器人智能问答的准确度难以保证,语音识别经常会产生错误识别的问题,例如谐音字词,如配副眼睛-配副眼镜;混淆音字词,如流浪织女-牛郎织女等。
发明内容
本说明书实施例提供一种用于智能问答的纠错方法、设备及介质,用以解决现有技术中的如下技术问题:
云化机器人智能问答的准确度难以保证,语音识别经常会产生错误识别的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
一方面,本说明书实施例提供一种用于智能问答的纠错方法,包括:
对获取到的语音数据进行语音识别,将所述语音数据转换为相应的文字数据;通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集;基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换;对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正。
本申请通过粒度检测法得到语音识别过程中疑似错误的文字数据,基于预先存储的词典对这些疑似错误的文字数据进行替换,再对替换后的文字数据进行正确性检验,根据检验结果进行错误纠正。利用云计算强大的计算能力,全自动化的进行语音纠错,解决了云化机器人语音识别出现错误的问题,提高了智能问答的准确度。
在一种可行的实施方式中,所述通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集,具体包括:对所述文字数据进行分词;通过字粒度检测法和词粒度检测法,对分词后的文字数据进行错误检测,得到疑似错误的字和词,构成所述疑似错误的文字数据集。
采用字粒度检测法和词粒度检测法,对分词后的文字数据进行错误检测,字粒度检测法和词粒度检测法相互配合,有利于提高错误检测的准确性和效率,从而提高纠错能力。
在一种可行的实施方式中,所述基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换,具体包括:根据所述疑似错误的文字数据集,从所述预先存储的同音词词典和形似词词典中,确定与所述疑似错误的文字数据集匹配的同音词和形似词,构成候选集;根据所述候选集,对所述疑似错误的文字数据集进行替换。
在一种可行的实施方式中,所述对替换得到的文字数据进行正确性检验,并根据检验结果进行错误纠正,具体包括:基于预先构建的语言模型,获取所述替换得到的各文字数据分别对应的各文字困惑度,作为检验结果;从所述各文字困惑度中,确定最小文字困惑度对应的文字数据,作为正确文字数据,对相应的疑似错误的文字数据进行错误纠正。
在一种可行的实施方式中,在所述对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正之后,所述方法还包括:通过Transformer模型,对文本数据进行准确性检验,所述文本数据包含有所述进行错误纠正后的文字数据;若所述准确性检验结果为准确,则输出所述文本数据;若所述准确性检验结果为非准确,则通过所述Transformer模型进行深度错误纠正,得到所述深度错误纠正后的正确文本数据,并输出所述正确文本数据。
考虑到纠错可能会出现失误的情况,一旦纠错出现失误,智能问答***可能不能顺利地和用户进行交互,严重影响用户的体验,通过Transformer模型进行深度错误纠正,避免人工提取特征,可以进一步提高纠错的准确度,提升用户体验感。
在一种可行的实施方式中,所述通过Transformer模型,对文本数据进行准确性检验之前,所述方法还包括:使用指定数据集预训练得到机器学习模型;获取当前业务场景下的一个或多个成对数据,构成成对数据集;所述成对数据包括错误文本数据和对应的正确文本数据;将所述成对数据集输入到所述机器学习模型中,对所述机器学习模型进行微调,得到所述Transformer模型。
在一种可行的实施方式中,所述基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换,具体包括:确定所述疑似错误的文字数据集中疑似错误的文字数据的个数;若所述疑似错误的文字数据集为多个所述疑似错误的文字数据,基于预先存储的同音词词典和形似词词典,对每个疑似错误的文字数据依次替换,对替换后的多个所述疑似错误的文字数据进行排列组合,完成对所述疑似错误的文字数据集的替换。
在一种可行的实施方式中,所述根据检验结果进行错误纠正之后,所述方法还包括:根据所述深度错误纠正对应的报错情况,获取智能问答***的出错率;基于所述报错情况和所述出错率,持续优化所述Transformer模型,使得所述出错率在预设出错阈值范围之内。
另一方面,本说明书实施例提供一种用于智能问答的纠错设备,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令能被所述至少一个处理器执行,以使所述至少一个处理器能够:对获取到的语音数据进行语音识别,将所述语音数据转换为相应的文字数据;通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集;基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换;对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正。
本说明书实施例采用上述至少一个技术方案能够达到以下有益效果:优化了云化机器人中的纠错模块功能,极大地减少了云化机器人进行语音识别时出现错误识别问题的发生,提高了云化机器人智能问答的准确度。
附图说明
此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对申请的不当限定。在附图中:
图1为本申请实施例提供的一种用于智能问答的纠错方法的流程示意图;
图2为本申请实施例提供的一种智能问答的流程框架图;
图3为本申请实施例提供的一种用于智能问答的纠错设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种用于智能问答的纠错方法、设备及介质,下面进行具体说明:
图1为本申请实施例提供的一种用于智能问答的纠错方法的流程示意图,如图1所示,本申请实施例提供的一种用于智能问答的纠错方法可以包括以下步骤:
S101:对获取到的语音数据进行语音识别,将所述语音数据转换为相应的文字数据。
与机器进行语音交流,需要让机器明白用户在说什么,于是需要进行语音识别,将语音数据转换为相应的文字数据。不难理解,语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令。
S102:通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集。
在一种可行的实施方式中,所述通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集,具体包括:对所述文字数据进行分词;通过字粒度检测法和词粒度检测法,对分词后的文字数据进行错误检测,得到疑似错误的字和词,构成所述疑似错误的文字数据集。
考虑到语音识别的错误有可能是错字也有可能是错词,本申请采用字粒度检测法和词粒度检测法,使用Hanlp或者其他分词工具对文字数据进行分词,对分词后的文字数据进行错误检测,字粒度检测法和词粒度检测法相互配合,有利于提高错误检测的准确性和效率,从而提高纠错能力。
S103:基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换。
在一种可行的实施方式中,所述基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换,具体包括:根据所述疑似错误的文字数据集,从所述预先存储的同音词词典和形似词词典中,确定与所述疑似错误的文字数据集匹配的同音词和形似词,构成候选集;根据所述候选集,对所述疑似错误的文字数据集进行替换。
S104:对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正。
在一种可行的实施方式中,所述对替换得到的文字数据进行正确性检验,并根据检验结果进行错误纠正,具体包括:基于预先构建的语言模型,获取所述替换得到的各文字数据分别对应的各文字困惑度,作为检验结果;从所述各文字困惑度中,确定最小文字困惑度对应的文字数据,作为正确文字数据,对相应的疑似错误的文字数据进行错误纠正。
例如,疑似错误的文字数据集为“配副眼睛”的“睛”,通过从预先存储的同音词词典和形似词词典中确定出与“睛”匹配的同音词和形似词,构成候选集,候选集有“靖”、“精”、“镜”、“婧”等文字,再根据候选集,对“睛”进行替换,得到替换后的“配副眼睛”、“配副眼靖”、“配副眼精”、“配副眼镜”和“配副眼婧”各文字数据,基于预先构建的语言模型,比如通过kenlm提供的语言模型,分别得到“配副眼睛”、“配副眼靖”、“配副眼精”、“配副眼镜”和“配副眼婧”各文字数据对应的文字困惑度,其中“配副眼镜”的文字困惑度最小,为0.001%,因此“配副眼镜”就作为正确文字数据,对相应的疑似错误的文字数据进行错误纠正,将“配副眼睛”纠正为“配副眼镜”。
在一种可行的实施方式中,在所述对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正之后,所述方法还包括:通过Transformer模型,对文本数据进行准确性检验,所述文本数据包含有所述进行错误纠正后的文字数据;若所述准确性检验结果为准确,则输出所述文本数据;若所述准确性检验结果为非准确,则通过所述Transformer模型进行深度错误纠正,得到所述深度错误纠正后的正确文本数据,并输出所述正确文本数据。
考虑到纠错可能会出现失误的情况,一旦纠错出现失误,智能问答***可能不能顺利地和用户进行交互,严重影响用户的体验,通过Transformer模型进行深度错误纠正,可以进一步提高纠错的准确度,提升用户体验感。
在一种可行的实施方式中,在所述通过Transformer模型,对文本数据进行准确性检验之前,所述方法还包括:使用指定数据集预训练得到机器学习模型;获取当前业务场景下的一个或多个成对数据,构成成对数据集;所述成对数据包括错误文本数据和对应的正确文本数据;将所述成对数据集输入到所述机器学习模型中,对所述机器学习模型进行微调,得到所述Transformer模型。
为了更好的进行错误纠正,本申请提出基于Transformer模型和指定数据集进行训练,所述指定数据集可以是NLPCC2018数据集或者其他数据集,训练的数据集中的数据为成对数据,成对数据包括错误文本数据和对应的正确文本数据,例如:[前往凸目通面具,前往凸目铜面具],其中“前往凸目通面具”为错误文本数据,“前往凸目铜面具”为对应的正确文本数据。
在一种可行的实施方式中,所述基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换,具体包括:确定所述疑似错误的文字数据集中疑似错误的文字数据的个数;若所述疑似错误的文字数据集为多个所述疑似错误的文字数据,基于预先存储的同音词词典和形似词词典,对每个疑似错误的文字数据依次替换,对替换后的多个所述疑似错误的文字数据进行排列组合,完成对所述疑似错误的文字数据集的替换。
在一种可行的实施方式中,所述根据检验结果进行错误纠正之后,所述方法还包括:根据所述深度错误纠正对应的报错情况,获取智能问答***的出错率;基于所述报错情况和所述出错率,持续优化所述Transformer模型,使得所述出错率在预设出错阈值范围之内。
其中,报错情况是在人机交互过程中,用户对智能问答设备的语音输出是否正确的反馈。
语音识别出现错误会对智能问答后续的任务可能造成很大的影响,例如命名实体识别出现错误导致无法准确地提取槽值、影响意图分类等,因此需要严格控制智能问答***的出错率,持续优化Transformer模型,使得出错率在预设出错阈值范围之内
在本说明书的一些实施例中,图2为本申请实施例提供的一种智能问答的流程框架图,如图2所示,智能问答包括有语音识别、错误纠正、自然语言理解、对话管理和语音合成五部分。
综上,本申请提供的一种用于智能问答的纠错方法,能够优化云化机器人中的纠错模块功能,极大地减少云化机器人进行语音识别时出现错误识别问题的发生,提高云化机器人智能问答的准确度。
图3为本申请实施例提供的一种用于智能问答的纠错设备的结构示意图,如图3所示,本申请实施例提供的一种用于智能问答的纠错设备,可以包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令能被所述至少一个处理器执行,以使所述至少一个处理器能够:对获取到的语音数据进行语音识别,将所述语音数据转换为相应的文字数据;通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集;基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换;对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正。
处理器与存储器之间可以通过总线通信,设备还可以包括与其他设备通信的输入/输出接口。
本申请的一些实施例提供的对应于图1的一种生成组件配置器的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:对获取到的语音数据进行语音识别,将所述语音数据转换为相应的文字数据;通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集;基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换;对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的要求范围之内。
Claims (10)
1.一种用于智能问答的纠错方法,其特征在于,所述方法包括:
对获取到的语音数据进行语音识别,将所述语音数据转换为相应的文字数据;
通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集;
基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换;
对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正。
2.根据权利要求1所述的方法,其特征在于,所述通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集,具体包括:
对所述文字数据进行分词;
通过字粒度检测法和词粒度检测法,对分词后的文字数据进行错误检测,得到疑似错误的字和词,构成所述疑似错误的文字数据集。
3.根据权利要求1所述的方法,其特征在于,所述基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换,具体包括:
根据所述疑似错误的文字数据集,从所述预先存储的同音词词典和形似词词典中,确定与所述疑似错误的文字数据集匹配的同音词和形似词,构成候选集;
根据所述候选集,对所述疑似错误的文字数据集进行替换。
4.根据权利要求1所述的方法,其特征在于,所述对替换得到的文字数据进行正确性检验,并根据检验结果进行错误纠正,具体包括:
基于预先构建的语言模型,获取所述替换得到的各文字数据分别对应的各文字困惑度,作为检验结果;
从所述各文字困惑度中,确定最小文字困惑度对应的文字数据,作为正确文字数据,对相应的疑似错误的文字数据进行错误纠正。
5.根据权利要求1所述的方法,其特征在于,在所述对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正之后,所述方法还包括:
通过Transformer模型,对文本数据进行准确性检验,所述文本数据包含有所述进行错误纠正后的文字数据;
若所述准确性检验结果为准确,则输出所述文本数据;
若所述准确性检验结果为非准确,则通过所述Transformer模型进行深度错误纠正,得到所述深度错误纠正后的正确文本数据,并输出所述正确文本数据。
6.根据权利要求5所述的方法,其特征在于,所述通过Transformer模型,对文本数据进行准确性检验之前,所述方法还包括:
使用指定数据集预训练得到机器学习模型;
获取当前业务场景下的一个或多个成对数据,构成成对数据集;所述成对数据包括错误文本数据和对应的正确文本数据;
将所述成对数据集输入到所述机器学习模型中,对所述机器学习模型进行微调,得到所述Transformer模型。
7.根据权利要求1所述的方法,其特征在于,所述基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换,具体包括:
确定所述疑似错误的文字数据集中疑似错误的文字数据的个数;
若所述疑似错误的文字数据集为多个所述疑似错误的文字数据,基于预先存储的同音词词典和形似词词典,对每个疑似错误的文字数据依次替换,对替换后的多个所述疑似错误的文字数据进行排列组合,完成对所述疑似错误的文字数据集的替换。
8.根据权利要求5所述的方法,其特征在于,所述根据检验结果进行错误纠正之后,所述方法还包括:
根据所述深度错误纠正对应的报错情况,获取智能问答***的出错率;
基于所述报错情况和所述出错率,持续优化所述Transformer模型,使得所述出错率在预设出错阈值范围之内。
9.一种用于智能问答的纠错设备,其特征在于,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令能被所述至少一个处理器执行,以使所述至少一个处理器能够:
对获取到的语音数据进行语音识别,将所述语音数据转换为相应的文字数据;
通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集;
基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换;
对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
对获取到的语音数据进行语音识别,将所述语音数据转换为相应的文字数据;
通过粒度检测法对所述文字数据进行错误检测,得到疑似错误的文字数据集;
基于预先存储的同音词词典和形似词词典,对所述疑似错误的文字数据集进行替换;
对替换得到的各文字数据进行正确性检验,并根据检验结果进行错误纠正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110698868.3A CN113449090A (zh) | 2021-06-23 | 2021-06-23 | 一种用于智能问答的纠错方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110698868.3A CN113449090A (zh) | 2021-06-23 | 2021-06-23 | 一种用于智能问答的纠错方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449090A true CN113449090A (zh) | 2021-09-28 |
Family
ID=77812298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110698868.3A Pending CN113449090A (zh) | 2021-06-23 | 2021-06-23 | 一种用于智能问答的纠错方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449090A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
CN111191441A (zh) * | 2020-01-06 | 2020-05-22 | 广东博智林机器人有限公司 | 文本纠错方法、装置及存储介质 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
CN112599129A (zh) * | 2021-03-01 | 2021-04-02 | 北京世纪好未来教育科技有限公司 | 语音识别方法、装置、设备和存储介质 |
CN113010635A (zh) * | 2021-02-19 | 2021-06-22 | 网易(杭州)网络有限公司 | 一种文本纠错方法及装置 |
-
2021
- 2021-06-23 CN CN202110698868.3A patent/CN113449090A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
CN111191441A (zh) * | 2020-01-06 | 2020-05-22 | 广东博智林机器人有限公司 | 文本纠错方法、装置及存储介质 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN113010635A (zh) * | 2021-02-19 | 2021-06-22 | 网易(杭州)网络有限公司 | 一种文本纠错方法及装置 |
CN112599129A (zh) * | 2021-03-01 | 2021-04-02 | 北京世纪好未来教育科技有限公司 | 语音识别方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
刘纯燕: "中文文本纠错算法优化研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230080671A1 (en) | User intention recognition method and apparatus based on statement context relationship prediction | |
KR101666930B1 (ko) | 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 | |
CN111243571B (zh) | 文本的处理方法、装置、设备及计算机可读存储介质 | |
CN110287125B (zh) | 基于图像识别的软件例行化测试方法及装置 | |
CN110704597B (zh) | 对话***可靠性校验方法、模型生成方法及装置 | |
CN112084317A (zh) | 预训练语言模型的方法和装置 | |
CN115587598A (zh) | 多轮对话改写方法、设备及介质 | |
CN114120978A (zh) | 情绪识别模型训练、语音交互方法、装置、设备及介质 | |
CN110826325B (zh) | 一种基于对抗训练的语言模型预训练方法、***及电子设备 | |
CN111178098A (zh) | 一种文本翻译方法、装置、设备及计算机可读存储介质 | |
CN115859128B (zh) | 一种基于档案数据交互相似度的分析方法和*** | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
CN113449090A (zh) | 一种用于智能问答的纠错方法、设备及介质 | |
US20230153550A1 (en) | Machine Translation Method and Apparatus, Device and Storage Medium | |
CN117130593A (zh) | 代码处理方法、***和电子设备 | |
CN110516125A (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
CN113434630B (zh) | 客服服务评估方法、装置、终端设备及介质 | |
CN114297409A (zh) | 模型训练方法、信息抽取方法及装置、电子设备、介质 | |
CN114969372A (zh) | 关系抽取方法、***、设备及存储介质 | |
CN114203158A (zh) | 一种儿童中文口语评测和检错纠错方法及装置 | |
CN112765973A (zh) | 评分模型训练方法及装置、作文评分方法及装置 | |
CN113420121A (zh) | 文本处理模型训练方法、语音文本处理方法及装置 | |
CN112732868A (zh) | 解答题的答案分析方法、电子设备及存储介质 | |
CN110858457A (zh) | 互动式教育方法及教学电子装置 | |
CN113850235B (zh) | 一种文本处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210928 |