CN115455948A

CN115455948A - 一种拼写纠错模型训练方法、拼写纠错方法及存储介质

Info

Publication number: CN115455948A
Application number: CN202211415838.8A
Authority: CN
Inventors: 马永亮; 甘子发; 周明
Original assignee: Beijing Lanzhou Technology Co ltd
Current assignee: Beijing Lanzhou Technology Co ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2022-12-09

Abstract

本发明涉及拼写纠错技术领域，特别涉及一种拼写纠错模型训练方法、拼写纠错方法及存储介质。拼写纠错模型训练方法包括以下步骤：获取包含领域知识的关键词词典，对每个关键词，利用预先总结的领域搜索范式为关键词加上包含领域知识的上下文，得到扩展领域文本；利用预设混淆集并按照预先设定的替换规则，对扩展领域文本中的文字进行替换，获得领域拼写纠错数据；基于领域拼写纠错数据训练拼写纠错模型。本发明由领域词典和少量的领域知识范式扩展上下文得到包含丰富领域知识的文本语料，在合成数据时，通过只对文本语料中部分文字进按照一定的规则替换，可以得到更贴合领域搜索场景的拼写纠错数据，使训练的模型具有更好的领域适应能力。

Description

一种拼写纠错模型训练方法、拼写纠错方法及存储介质

技术领域

本发明涉及拼写纠错技术领域，其特别涉及一种拼写纠错模型训练方法、拼写纠错方法及存储介质。

背景技术

中文搜索拼写纠错研究如何检测并纠正搜素引擎的查询输入（query）里的中文拼写错误，返回正确的query。在搜索引擎中，用户希望得到和输入query相关的质量较好的网页或文档，但是往往出于各种原因，用户输入的query本身质量不高或是错误的，便可能会导致召回错误的结果，或者结果少甚至没有结果，此时为了提高用户的体验，搜索引擎需要对query进行纠正。现有的中文搜索拼写纠错方案通常会根据关键词构建对应的索引数据，在纠错时，先对query进行切分，根据每个切分片段的相似拼音、编辑距离、用户搜索历史记录等从索引数据中得到纠正候选，然后用候选替换原来的片段，使用n元语法模型、预训练模型等对候选进行评价并选择最终结果。对于领域搜索引擎的拼写纠错，由于传统方案使用多种策略对query进行纠正，整体流程繁琐，且难以解决长文本以及其中较为复杂的拼写错误，而且领域内有知识更新时，需要为其构建相关的索引数据，以及训练相应的候选评价模型，领域适应性较差。

发明内容

为了解决现有拼写纠错模型难以适应领域需求变化的问题，本发明提供一种拼写纠错模型训练方法、拼写纠错方法及存储介质。

本发明为解决上述技术问题，提供如下的技术方案：一种拼写纠错模型训练方法，包括以下步骤：

获取包含领域知识的关键词词典，对每个关键词，利用预先总结的领域搜索范式为关键词加上包含领域知识的上下文，得到扩展领域文本；

利用预设混淆集并按照预先设定的替换规则，对扩展领域文本中的文字进行替换，获得领域拼写纠错数据；

基于领域拼写纠错数据训练拼写纠错模型。

优选地，拼写纠错模型采用Soft-Masked BERT拼写纠错模型。

优选地，混淆集包含各文字以及其对应的同音字、近音字和近形字。

优选地，利用预设混淆集并按照预先设定的替换规则，对文本中的文字进行替换包括以下步骤：

预先设定的替换规则为领域知识替换时，对扩展领域文本中的领域知识进行替换；和/或

预先设定的替换规则为文字替换时，利用混淆集对扩展领域文本的文字进行随机替换。

优选地，在利用混淆集对扩展领域文本的文字进行随机替换之前，先从所有扩展领域文本中统计文字字频并对混淆集中的文字进行排序，根据排序后的混淆集对扩展领域文本中进行文字替换。

优选地，对扩展领域文本中的文字进行替换时选择小于或等于15%的文字进行替换。

优选地，在利用预先总结的领域范式为关键词加上包含领域知识的上下文，得到扩展领域文本之后还包括以下步骤：

利用关键词和预先总结的领域范式在网络上获取相关的领域文本；

并将这些相关的领域文本也作为扩展领域文本。

优选地，基于领域拼写纠错数据训练拼写纠错模型包括以下步骤：

输入拼写纠错数据至拼写纠错模型中，每个字符看作一个token，将每个token转换为BERT词典中相对应的编号；

拼写纠错模型的Embedding层将拼写纠错数据中每个字符转换为一个向量；

提取向量的特征得到特征向量，之后将特征向量输入分类器将其转为与BERT字典大小相同维度的向量，作为最终输出向量；

最后将输出向量转化为预测结果。

本发明为解决上述技术问题，提供又一技术方案如下：一种拼写纠错方法，包括以下步骤：

获取拼写纠错模型，所述拼写纠错模型采用如前述的拼写纠错模型训练方法训练获得；

输入待纠错文本至拼写纠错模型中，由拼写纠错模型输出纠正后的文本。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的一种拼写纠错方法的步骤。

与现有技术相比，本发明所提供的一种拼写纠错模型训练方法、拼写纠错方法及存储介质，具有如下的有益效果：

1.本发明实施例提供的一种拼写纠错模型训练方法，由领域词典和少量的领域知识范式扩展上下文得到包含丰富领域知识的文本语料，此外，在合成数据时，通过只对文本语料中部分文字进按照一定的规则替换，比如只对文本语料中的领域知识按规则进行替换，可以得到更贴合领域搜索场景的拼写纠错数据，在合成语料文本后，还通过关键词在网络上搜索相关的领域文本，以丰富领域的语料，符合领域搜索的复杂场景，使训练的模型具有更好的领域适应能力，而且无须积累用户搜索的历史数据，使模型具有更加良好的冷启动效果。

2.本发明实施例提供的一种拼写纠错模型训练方法，采用Soft-Masked BERT拼写纠错模型，相比传统纠错方案，该模型强大的语义表征能力使其可以处理更加复杂的拼写错误，并且该模型为检测纠正一体化的端到端模型，中间没有额外输入输出，可以方便快速地迭代，能更好地适应领域知识的变化更新。

3.本发明实施例提供的一种拼写纠错模型训练方法，根据预先设置的替换规则不同，可以得到不同复杂程度的领域拼写纠错数据，可只对领域知识进行替换，使模型更加关注于领域知识的纠错；也可根据从语料中统计的字频对混淆集进行排序，选择领域中更常见的混淆字进行替换，更符合真实输入场景。

4.本发明实施例还提供一种拼写纠错方法，具有与采用上述一种拼写纠错模型训练方法训练获得的拼写纠错模型相同的有益效果，在此不做赘述。

5.本发明实施例还提供一种计算机存储介质，具有与上述一种拼写纠错方法相同的有益效果，在此不做赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种拼写纠错模型训练方法的步骤流程图。

图2是本发明第一实施例提供的一种拼写纠错模型训练方法之步骤S1之后的步骤流程图。

图3是本发明第一实施例提供的一种拼写纠错模型训练方法之步骤S2的步骤流程图。

图4是本发明第一实施例提供的一种拼写纠错模型训练方法之步骤S3的步骤流程图。

图5是本发明第一实施例提供的一种拼写纠错模型训练方法的流程示例图。

图6是本发明第二实施例提供的一种拼写纠错方法的步骤流程图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明第一实施例提供一种拼写纠错模型训练方法，包括以下步骤：

S1：获取包含领域知识的关键词词典，对每个关键词，利用预先总结的领域范式为关键词加上包含领域知识的上下文，得到扩展领域文本；

S2：利用预设混淆集并按照预先设定的替换规则，对扩展领域文本中的文字进行替换，获得领域拼写纠错数据；

S3：基于领域拼写纠错数据训练拼写纠错模型。

其中包含领域知识关键词可以是某一领域的实体名，比如金融领域的公司名、人名等等，添加的包含领域知识的上下文可以是金融领域的一些术语，比如利润、年报等，这些专业术语包含了金融领域知识，目的是让模型学习并识别这些领域相关的知识，由于上下文是人工总结出的领域知识，关键词也是领域关键词，所以结合后构建成领域文本。

具体地，请参阅图2，在利用预先总结的领域范式为关键词加上包含领域知识的上下文，得到扩展领域文本之后还包括以下步骤：

S11：利用关键词和预先总结的领域范式在网络上获取相关的领域文本；

S12：并将这些相关的领域文本也作为扩展领域文本。

继续利用这个关键词在网络上获取相关的领域文本，以此将新的领域知识融入语料，使语料中包含丰富的语义知识，以符合领域搜索的复杂场景。

具体地，在本实施例中，混淆集包含各文字以及其对应的同音字、近音字和近形字。

请继续参阅图3，步骤S2中“利用预设混淆集并按照预先设定的替换规则，对文本中的文字进行替换”包括以下步骤：

S21：预先设定的替换规则为领域知识替换时，对扩展领域文本中的领域知识进行替换；和/或

S22：预先设定的替换规则为文字替换时，利用混淆集对扩展领域文本的文字进行随机替换。

根据预先设置的替换规则不同，可以得到不同复杂程度的领域拼写纠错数据，比如只对扩展领域文本中的表示领域知识的文字进行替换，可以使模型更关注于对领域知识的纠错，或者对利用混淆集对文字进行随机替换，将其中的一些文字替换为文字对应的同音字、近音字或者近形字。

在利用混淆集对扩展领域文本的文字进行随机替换之前，先从所有扩展领域文本中统计文字字频并对混淆集中的文字进行排序，字频越大的字排在越前面，根据排序后的混淆集对扩展领域文本中进行文字替换，选择领域中更常见的混淆字进行替换，根据扩展领域文本中每个字在混淆集中的排序进行选择，比如其中某个文字相对于其他文字来讲在混淆集中的排序更靠前，则将该文字替换为改文字对应的同音字、近音字或者近形字，更符合真实输入场景。

具体地，在本实施例中，对扩展领域文本中的文字进行替换时选择小于或等于15%的文字进行替换。

具体地，请参阅图4和图5，基于领域拼写纠错数据训练拼写纠错模型包括以下步骤：

S31：输入拼写纠错数据至拼写纠错模型中，每个字符看作一个token，将每个token转换为BERT词典中相对应的编号；

S32：拼写纠错模型的Embedding层将拼写纠错数据中每个字符转换为一个向量；

S33：提取向量的特征得到特征向量，之后将特征向量输入分类器将其转为与BERT字典大小相同维度的向量，作为最终输出向量；

S34：最后将输出向量转化为预测结果。

具体地，在本实施例中，其中拼写纠错模型采用Soft-Masked BERT模型，该模型主要由检测模块、Soft-Masking模块和纠正模块三部分组成。

在训练Soft-Masked BERT模型时，检测模型预测可能为拼写错误的位置，并对每个位置输出其可能为拼写错误的概率，soft-masking模块利用这个概率将该位置的输入向量与[MASK]字符的向量按概率相加，可能为拼写错误的概率越大，[MASK]占比越大，BERT在预训练时学习将[MASK]字符恢复成汉字，因此soft-masking机制可以利用BERT的预训练知识来加强模型的检错和纠错能力。

具体地，输入文本序列，由数据导入函数将文本序列的每个字符转成该字符在BERT字典中的编号并输入模型中，模型的Embedding层按编号从embedding向量矩阵取出该字符的embedding向量，从而将输入字符序列转成向量，之后这些向量经过检测模型、纠错模型内部的多层神经网络，提取出向量的特征，然后纠错模型输出特征向量，同时检测模型预测出可能为错误的位置；之后将将特征向量输入分类器，分类器将特征向量转为与BERT字典大小相同维度的向量，作为模型最终输出向量，比如BERT字典有21128个token，则分类器输出向量维度为21128 ；对预测为错误的位置，将其对应的输出向量转为预测结果，取输出向量分数最大的那一维的下标，比如第100维的分数最大，则从BERT字典中取出编号为100的token，这个token就是模型纠正过的该位置的最终结果，其他位置输出的token与输入的token相同。

该Soft-Masked BERT模型使用Soft-Masking模块将检测模型与纠正模型动态地结合在一起，可以更好地利用BERT模型中包含的预训练知识，并且减少了错误检测不正确时对后续纠错的影响，而且因为BERT预训练模型强大的语义表征能力，使用该模型进行纠错比传统搜索纠错方案更能处理复杂的拼写错误，比如输入中包含多处拼写错误。并且模型的错误检测模块与纠正模块之间没有额外输入输出，整体性强，可以同时快速地进行迭代，适应领域知识的变化更新。

如图5所示一个例子的训练过程，假设输入拼写纠错模型中的文本是“公式大股东减持股份”，经过拼写纠错模型的学习，学习将“公式大股东减持股份”中的错别字进行纠正，纠正后的最终输出则为“公司大股东减持股份”。

请参阅图6，本发明第二实施例提供的一种拼写纠错方法，包括以下步骤：

S100：获取拼写纠错模型，其中拼写纠错模型采用如第一实施例所述的拼写纠错模型训练方法训练获得；

S200：输入待纠错文本至拼写纠错模型中，由拼写纠错模型输出纠正后的文本。

可以理解地，在领域搜索引擎的应用场景中，用户输入的query通常为复杂的专有名词，也可能为包含丰富语义的长文本，而且可能出现query中包含多处拼写错误的情况，通过第一实施例所述的拼写纠错模型训练方法训练获得的拼写纠错模型能够具有良好的领域适应能力，能够处理更加复杂的拼写错误。

本发明第三实施例还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述述的一种拼写纠错方法的步骤。具有和前述拼写纠错方法相同的有益效果，在此不做赘述。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

与现有技术相比，本发明所提供给的一种拼写纠错模型训练方法、拼写纠错方法及存储介质具有如下的有益效果：

以上对本发明实施例公开的一种拼写纠错模型训练方法、拼写纠错方法及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种拼写纠错模型训练方法，其特征在于：包括以下步骤：

获取包含领域知识的关键词词典，对每个关键词，利用预先总结的领域范式为关键词加上包含领域知识的上下文，得到扩展领域文本；

基于领域拼写纠错数据训练拼写纠错模型。

2.如权利要求1所述的拼写纠错模型训练方法，其特征在于：拼写纠错模型采用Soft-Masked BERT拼写纠错模型。

3.如权利要求1所述的拼写纠错模型训练方法，其特征在于：混淆集包含各文字以及其对应的同音字、近音字和近形字。

4.如权利要求1所述的拼写纠错模型训练方法，其特征在于：利用预设混淆集并按照预先设定的替换规则，对文本中的文字进行替换包括以下步骤：

5.如权利要求4所述的拼写纠错模型训练方法，其特征在于：在利用混淆集对扩展领域文本的文字进行随机替换之前，先从所有扩展领域文本中统计文字字频并对混淆集中的文字进行排序，根据排序后的混淆集对扩展领域文本中进行文字替换。

6.如权利要求4所述的拼写纠错模型训练方法，其特征在于：对扩展领域文本中的文字进行替换时选择小于或等于15%的文字进行替换。

7.如权利要求1所述的拼写纠错模型训练方法，其特征在于：在利用预先总结的领域范式为关键词加上包含领域知识的上下文，得到扩展领域文本之后还包括以下步骤：

并将这些相关的领域文本也作为扩展领域文本。

8.如权利要求1所述的拼写纠错模型训练方法，其特征在于：基于领域拼写纠错数据训练拼写纠错模型包括以下步骤：

最后将输出向量转化为预测结果。

9.一种拼写纠错方法，其特征在于：包括以下步骤：

获取拼写纠错模型，所述拼写纠错模型采用如权利要求1-8任一项所述的拼写纠错模型训练方法训练获得；

10.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被执行时实现如权利要求9所述的一种拼写纠错方法的步骤。