CN113449090A

CN113449090A - 一种用于智能问答的纠错方法、设备及介质

Info

Publication number: CN113449090A
Application number: CN202110698868.3A
Authority: CN
Inventors: 冯落落; 尹青山; 王建华; 高明
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-09-28

Abstract

本发明公开了一种用于智能问答的纠错方法、设备及介质，该方案包括：对获取到的语音数据进行语音识别，将所述语音数据转换为相应的文字数据；通过粒度检测法对所述文字数据进行错误检测，得到疑似错误的文字数据集；基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换；对替换得到的各文字数据进行正确性检验，并根据检验结果进行错误纠正。优化了云化机器人中的纠错模块功能，解决了云化机器人进行语音识别时出现错误识别的问题。

Description

一种用于智能问答的纠错方法、设备及介质

技术领域

本说明书实施例涉及人工智能领域，尤其涉及一种用于智能问答的纠错方法、设备及介质。

背景技术

随着人工智能的快速发展，机器人越来越多的成为生活中的辅助工具，例如百度小度、小米小爱同学。为了让机器人拥有更加强大的智能能力，我们把云计算和机器人相结合，形成云化机器人。

但是，云化机器人智能问答的准确度难以保证，语音识别经常会产生错误识别的问题，例如谐音字词，如配副眼睛-配副眼镜；混淆音字词，如流浪织女-牛郎织女等。

发明内容

本说明书实施例提供一种用于智能问答的纠错方法、设备及介质，用以解决现有技术中的如下技术问题：

云化机器人智能问答的准确度难以保证，语音识别经常会产生错误识别的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

一方面，本说明书实施例提供一种用于智能问答的纠错方法，包括：

对获取到的语音数据进行语音识别，将所述语音数据转换为相应的文字数据；通过粒度检测法对所述文字数据进行错误检测，得到疑似错误的文字数据集；基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换；对替换得到的各文字数据进行正确性检验，并根据检验结果进行错误纠正。

本申请通过粒度检测法得到语音识别过程中疑似错误的文字数据，基于预先存储的词典对这些疑似错误的文字数据进行替换，再对替换后的文字数据进行正确性检验，根据检验结果进行错误纠正。利用云计算强大的计算能力，全自动化的进行语音纠错，解决了云化机器人语音识别出现错误的问题，提高了智能问答的准确度。

在一种可行的实施方式中，所述通过粒度检测法对所述文字数据进行错误检测，得到疑似错误的文字数据集，具体包括：对所述文字数据进行分词；通过字粒度检测法和词粒度检测法，对分词后的文字数据进行错误检测，得到疑似错误的字和词，构成所述疑似错误的文字数据集。

采用字粒度检测法和词粒度检测法，对分词后的文字数据进行错误检测，字粒度检测法和词粒度检测法相互配合，有利于提高错误检测的准确性和效率，从而提高纠错能力。

在一种可行的实施方式中，所述基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换，具体包括：根据所述疑似错误的文字数据集，从所述预先存储的同音词词典和形似词词典中，确定与所述疑似错误的文字数据集匹配的同音词和形似词，构成候选集；根据所述候选集，对所述疑似错误的文字数据集进行替换。

在一种可行的实施方式中，所述对替换得到的文字数据进行正确性检验，并根据检验结果进行错误纠正，具体包括：基于预先构建的语言模型，获取所述替换得到的各文字数据分别对应的各文字困惑度，作为检验结果；从所述各文字困惑度中，确定最小文字困惑度对应的文字数据，作为正确文字数据，对相应的疑似错误的文字数据进行错误纠正。

在一种可行的实施方式中，在所述对替换得到的各文字数据进行正确性检验，并根据检验结果进行错误纠正之后，所述方法还包括：通过Transformer模型，对文本数据进行准确性检验，所述文本数据包含有所述进行错误纠正后的文字数据；若所述准确性检验结果为准确，则输出所述文本数据；若所述准确性检验结果为非准确，则通过所述Transformer模型进行深度错误纠正，得到所述深度错误纠正后的正确文本数据，并输出所述正确文本数据。

考虑到纠错可能会出现失误的情况，一旦纠错出现失误，智能问答***可能不能顺利地和用户进行交互，严重影响用户的体验，通过Transformer模型进行深度错误纠正，避免人工提取特征，可以进一步提高纠错的准确度，提升用户体验感。

在一种可行的实施方式中，所述通过Transformer模型，对文本数据进行准确性检验之前，所述方法还包括：使用指定数据集预训练得到机器学习模型；获取当前业务场景下的一个或多个成对数据，构成成对数据集；所述成对数据包括错误文本数据和对应的正确文本数据；将所述成对数据集输入到所述机器学习模型中，对所述机器学习模型进行微调，得到所述Transformer模型。

在一种可行的实施方式中，所述基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换，具体包括：确定所述疑似错误的文字数据集中疑似错误的文字数据的个数；若所述疑似错误的文字数据集为多个所述疑似错误的文字数据，基于预先存储的同音词词典和形似词词典，对每个疑似错误的文字数据依次替换，对替换后的多个所述疑似错误的文字数据进行排列组合，完成对所述疑似错误的文字数据集的替换。

在一种可行的实施方式中，所述根据检验结果进行错误纠正之后，所述方法还包括：根据所述深度错误纠正对应的报错情况，获取智能问答***的出错率；基于所述报错情况和所述出错率，持续优化所述Transformer模型，使得所述出错率在预设出错阈值范围之内。

另一方面，本说明书实施例提供一种用于智能问答的纠错设备，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令能被所述至少一个处理器执行，以使所述至少一个处理器能够：对获取到的语音数据进行语音识别，将所述语音数据转换为相应的文字数据；通过粒度检测法对所述文字数据进行错误检测，得到疑似错误的文字数据集；基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换；对替换得到的各文字数据进行正确性检验，并根据检验结果进行错误纠正。

本说明书实施例采用上述至少一个技术方案能够达到以下有益效果：优化了云化机器人中的纠错模块功能，极大地减少了云化机器人进行语音识别时出现错误识别问题的发生，提高了云化机器人智能问答的准确度。

附图说明

此处所说明的附图用来提供对本说明书实施例的进一步理解，构成本说明书实施例的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对申请的不当限定。在附图中：

图1为本申请实施例提供的一种用于智能问答的纠错方法的流程示意图；

图2为本申请实施例提供的一种智能问答的流程框架图；

图3为本申请实施例提供的一种用于智能问答的纠错设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种用于智能问答的纠错方法、设备及介质，下面进行具体说明：

图1为本申请实施例提供的一种用于智能问答的纠错方法的流程示意图，如图1所示，本申请实施例提供的一种用于智能问答的纠错方法可以包括以下步骤：

S101：对获取到的语音数据进行语音识别，将所述语音数据转换为相应的文字数据。

与机器进行语音交流，需要让机器明白用户在说什么，于是需要进行语音识别，将语音数据转换为相应的文字数据。不难理解，语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令。

S102：通过粒度检测法对所述文字数据进行错误检测，得到疑似错误的文字数据集。

考虑到语音识别的错误有可能是错字也有可能是错词，本申请采用字粒度检测法和词粒度检测法，使用Hanlp或者其他分词工具对文字数据进行分词，对分词后的文字数据进行错误检测，字粒度检测法和词粒度检测法相互配合，有利于提高错误检测的准确性和效率，从而提高纠错能力。

S103：基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换。

S104：对替换得到的各文字数据进行正确性检验，并根据检验结果进行错误纠正。

例如，疑似错误的文字数据集为“配副眼睛”的“睛”，通过从预先存储的同音词词典和形似词词典中确定出与“睛”匹配的同音词和形似词，构成候选集，候选集有“靖”、“精”、“镜”、“婧”等文字，再根据候选集，对“睛”进行替换，得到替换后的“配副眼睛”、“配副眼靖”、“配副眼精”、“配副眼镜”和“配副眼婧”各文字数据，基于预先构建的语言模型，比如通过kenlm提供的语言模型，分别得到“配副眼睛”、“配副眼靖”、“配副眼精”、“配副眼镜”和“配副眼婧”各文字数据对应的文字困惑度，其中“配副眼镜”的文字困惑度最小，为0.001％，因此“配副眼镜”就作为正确文字数据，对相应的疑似错误的文字数据进行错误纠正，将“配副眼睛”纠正为“配副眼镜”。

考虑到纠错可能会出现失误的情况，一旦纠错出现失误，智能问答***可能不能顺利地和用户进行交互，严重影响用户的体验，通过Transformer模型进行深度错误纠正，可以进一步提高纠错的准确度，提升用户体验感。

在一种可行的实施方式中，在所述通过Transformer模型，对文本数据进行准确性检验之前，所述方法还包括：使用指定数据集预训练得到机器学习模型；获取当前业务场景下的一个或多个成对数据，构成成对数据集；所述成对数据包括错误文本数据和对应的正确文本数据；将所述成对数据集输入到所述机器学习模型中，对所述机器学习模型进行微调，得到所述Transformer模型。

为了更好的进行错误纠正，本申请提出基于Transformer模型和指定数据集进行训练，所述指定数据集可以是NLPCC2018数据集或者其他数据集，训练的数据集中的数据为成对数据，成对数据包括错误文本数据和对应的正确文本数据，例如：[前往凸目通面具，前往凸目铜面具]，其中“前往凸目通面具”为错误文本数据，“前往凸目铜面具”为对应的正确文本数据。

其中，报错情况是在人机交互过程中，用户对智能问答设备的语音输出是否正确的反馈。

语音识别出现错误会对智能问答后续的任务可能造成很大的影响，例如命名实体识别出现错误导致无法准确地提取槽值、影响意图分类等，因此需要严格控制智能问答***的出错率，持续优化Transformer模型，使得出错率在预设出错阈值范围之内

在本说明书的一些实施例中，图2为本申请实施例提供的一种智能问答的流程框架图，如图2所示，智能问答包括有语音识别、错误纠正、自然语言理解、对话管理和语音合成五部分。

综上，本申请提供的一种用于智能问答的纠错方法，能够优化云化机器人中的纠错模块功能，极大地减少云化机器人进行语音识别时出现错误识别问题的发生，提高云化机器人智能问答的准确度。

图3为本申请实施例提供的一种用于智能问答的纠错设备的结构示意图，如图3所示，本申请实施例提供的一种用于智能问答的纠错设备，可以包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

处理器与存储器之间可以通过总线通信，设备还可以包括与其他设备通信的输入/输出接口。

本申请的一些实施例提供的对应于图1的一种生成组件配置器的非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：对获取到的语音数据进行语音识别，将所述语音数据转换为相应的文字数据；通过粒度检测法对所述文字数据进行错误检测，得到疑似错误的文字数据集；基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换；对替换得到的各文字数据进行正确性检验，并根据检验结果进行错误纠正。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的要求范围之内。

Claims

1.一种用于智能问答的纠错方法，其特征在于，所述方法包括：

对获取到的语音数据进行语音识别，将所述语音数据转换为相应的文字数据；

通过粒度检测法对所述文字数据进行错误检测，得到疑似错误的文字数据集；

基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换；

对替换得到的各文字数据进行正确性检验，并根据检验结果进行错误纠正。

2.根据权利要求1所述的方法，其特征在于，所述通过粒度检测法对所述文字数据进行错误检测，得到疑似错误的文字数据集，具体包括：

对所述文字数据进行分词；

通过字粒度检测法和词粒度检测法，对分词后的文字数据进行错误检测，得到疑似错误的字和词，构成所述疑似错误的文字数据集。

3.根据权利要求1所述的方法，其特征在于，所述基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换，具体包括：

根据所述疑似错误的文字数据集，从所述预先存储的同音词词典和形似词词典中，确定与所述疑似错误的文字数据集匹配的同音词和形似词，构成候选集；

根据所述候选集，对所述疑似错误的文字数据集进行替换。

4.根据权利要求1所述的方法，其特征在于，所述对替换得到的文字数据进行正确性检验，并根据检验结果进行错误纠正，具体包括：

基于预先构建的语言模型，获取所述替换得到的各文字数据分别对应的各文字困惑度，作为检验结果；

从所述各文字困惑度中，确定最小文字困惑度对应的文字数据，作为正确文字数据，对相应的疑似错误的文字数据进行错误纠正。

5.根据权利要求1所述的方法，其特征在于，在所述对替换得到的各文字数据进行正确性检验，并根据检验结果进行错误纠正之后，所述方法还包括：

通过Transformer模型，对文本数据进行准确性检验，所述文本数据包含有所述进行错误纠正后的文字数据；

若所述准确性检验结果为准确，则输出所述文本数据；

若所述准确性检验结果为非准确，则通过所述Transformer模型进行深度错误纠正，得到所述深度错误纠正后的正确文本数据，并输出所述正确文本数据。

6.根据权利要求5所述的方法，其特征在于，所述通过Transformer模型，对文本数据进行准确性检验之前，所述方法还包括：

使用指定数据集预训练得到机器学习模型；

获取当前业务场景下的一个或多个成对数据，构成成对数据集；所述成对数据包括错误文本数据和对应的正确文本数据；

将所述成对数据集输入到所述机器学习模型中，对所述机器学习模型进行微调，得到所述Transformer模型。

7.根据权利要求1所述的方法，其特征在于，所述基于预先存储的同音词词典和形似词词典，对所述疑似错误的文字数据集进行替换，具体包括：

确定所述疑似错误的文字数据集中疑似错误的文字数据的个数；

若所述疑似错误的文字数据集为多个所述疑似错误的文字数据，基于预先存储的同音词词典和形似词词典，对每个疑似错误的文字数据依次替换，对替换后的多个所述疑似错误的文字数据进行排列组合，完成对所述疑似错误的文字数据集的替换。

8.根据权利要求5所述的方法，其特征在于，所述根据检验结果进行错误纠正之后，所述方法还包括：

根据所述深度错误纠正对应的报错情况，获取智能问答***的出错率；

基于所述报错情况和所述出错率，持续优化所述Transformer模型，使得所述出错率在预设出错阈值范围之内。

9.一种用于智能问答的纠错设备，其特征在于，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令能被所述至少一个处理器执行，以使所述至少一个处理器能够：

10.一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：