CN113449514B

CN113449514B - 一种适用于垂直领域的文本纠错方法及其纠错装置

Info

Publication number: CN113449514B
Application number: CN202110687769.5A
Authority: CN
Inventors: 励建科; 陈再蝶; 朱晓秋; 周杰; 樊伟东
Original assignee: Zhejiang Kangxu Technology Co ltd
Current assignee: Kangxu Technology Co ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2023-10-31
Anticipated expiration: 2041-06-21
Also published as: CN113449514A

Abstract

本发明公开了一种适用于垂直领域的文本纠错方法及其纠错装置，包括以下步骤：S1、将文本导入经过预训练的Bert纠错模型中，进行文本词义纠错；S2、将经过Bert纠错模型纠错后的文本导入拼音纠错模型中，进行二次纠错；S3、将经过拼音纠错模型进行二次纠错后的文本导入热词替换规则模型中，进行第三次纠错。本发明中，将用户输入的文本先倒入Bert纠错模型进行文本纠错，再将修正过一次的文本导入拼音纠错模型进行二次纠错，从而在对文本进行语义修正后，针对垂直领域的专有名词进行修正以达到加强效果，提高了文本纠错的准确率，之后再将二次纠错后的文本倒入热词替换规则模型进行热词替换，将方言等口语化文本转换为专有名词，再次增强纠错效果。

Description

一种适用于垂直领域的文本纠错方法及其纠错装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种适用于垂直领域的文本纠错方法及其纠错装置。

背景技术

自然语言处理（NLP）是一种专业分析人类语言的人工智能，现代NLP是一门融合了语言学、计算机科学和机器学习的混合学科，为了让NLP可以更准确的对输入的文本进行回应，我们需要对文本进行纠错，从而减少噪音。目前的文本纠错主要着重于进行语义分析，以寻找并替换错别字为主，市面上的文本纠错模型主要分为机器学习和深度学习两大类。

然而，首先，机器学习模型无法对数据进行拟合，因此准确率低下，而深度学习模型需要大量的准确语料，同时需要大量的时间进行训练，并且在垂直领域，因语料噪音问题，普通深度模型的准确率仍需要提升；

其次，在垂直领域中有许多该场景下才会使用的专有名词，仅依靠语义纠错难以检测出专有名词中的错别字，并且模型甚至有可能基于语料将正确的词改成错误的；

最后，因为方言或个人习惯，对同一种事物可能会有多种称呼方式，这些称呼可能会导致噪音，使得NLP难以取得正确的信息，但是，这些用语严格来说并不是错误的，一般的纠错难以对这些词产生反应。

发明内容

为了解决上述背景技术中所提到的技术问题，而提出的一种适用于垂直领域的文本纠错方法及其纠错装置。

为了实现上述目的，本发明采用了如下技术方案：

一种适用于垂直领域的文本纠错方法，包括以下步骤：

S1、将文本导入经过预训练的Bert纠错模型中，进行文本词义纠错；

S11、根据标点符号将文本切分为短句；

S12、对短句中的第一个字进行掩码处理；

S13、并通过经过预训练的Bert纠错模型对被掩码处理的字进行短句句以进行预测，并将所有的预测结果存储在列表一中，列表一中的预测结果按照预测分数从大到小的顺序排列；

S131、若被掩码的字在列表一中，则将被掩码的字视为正确的；

S132、若被掩码的字不在列表一中，则根据拼音获取所有与被掩码的字发音相同的常见字并存于列表二中；

S1321、若列表一和列表二中存在相同的字，则将被掩码的字

视为错别字，从列表一中选出预测分数最高的字代替被掩码的字以达到纠错目的；

S1322、若列表一和列表二中的字均不一致，则将被掩码的字

视为正确的；

S14、在判断完短句的第一个字后，将短句中的下一个字进行掩码处理并重复步骤S13，直到检测并纠正完文本中的所有汉字；

S2、将经过Bert纠错模型纠错后的文本导入拼音纠错模型中，进行二次纠错；

S21、将经过Bert纠错模型纠错后的所有文本转换为拼音；

S22、将热词的拼音和文本的拼音按字数由小到大依次对照；

S23、当热词拼音与文本拼音完全相同时，将文本中与热词拼音相同的

部分替换为热词；

S24、重复步骤S22和步骤S23，直到检查完所有热词。

S3、将经过拼音纠错模型进行二次纠错后的文本导入热词替换规则模型中，进行第三次纠错；

S31、将经过拼音纠错模型进行二次纠错后的文本导入热词替换规则模型中；

S32、使用key列表对文本进行遍历，当文本检测到key，即需要纠错的词时，将其替换为对应的value，即相对应的正确的词，并输出最终纠错后的文本。

作为上述技术方案的进一步描述：

所述文本纠错装置包括经过预训练的Bert纠错模型、拼音纠错模型和热词替换规则模型，所述Bert纠错模型是一个多层双向Transformers encoder，所述Bert纠错模型的Embedding由三种Embedding求和而成，三种所述Embedding分别是Token Embeddings、Segment Embeddings和Position Embeddings，所述Bert纠错模型使用Multi_HeadAttention进行编码，通过将输入的Embedding进行维度扩展，分别得到Key、Query以及Value三个维度并对每一个维度都进行Multi_head划分，划分出的每一个头则都与其他词进行self-attention，从而得到新的向量，再将每一个头的新向量进行拼接，并通过权重矩阵进行线性转换获得最终的多头注意力值。

作为上述技术方案的进一步描述：

所述拼音纠错模型包括数据库，所述数据库中包含某领域的热词和相应的热词拼音与字数，所述某领域的热词源自该领域的专有名词。

作为上述技术方案的进一步描述：

所述热词替换规则模型包括字典，所述字典中将需要纠正的词设置为key，对应正确的词设置为value，并将所有的key存进key列表中。

作为上述技术方案的进一步描述：

所述经过预训练的Bert纠错模型通过两种模型进行预训练，该两种模型包括Masked language mode 与 Next sentence prediction；

所述Masked language mode通过输入语料库中被随机遮盖的token，并预测这些被随机遮盖的token来对Bert纠错模型进行预训练；

所述Next sentence prediction通过输入句子A和句子B，其中，句子B有50%的可能性是句子A的下一句，有50%的可能性是语料库中的随机一句话，让Bert纠错模型对句子B是否是句子A的下一句进行预训练。

作为上述技术方案的进一步描述：

所述语料库中包含某领域垂直领域的热词的语料。

综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明中，将用户输入的文本先倒入Bert纠错模型进行文本纠错，再将修正过一次的文本导入拼音纠错模型进行二次纠错，从而在对文本进行语义修正后，针对垂直领域的专有名词进行修正以达到加强效果，提高了文本纠错的准确率，之后再将二次纠错后的文本倒入热词替换规则模型进行热词替换，将方言等口语化文本转换为专有名词，再次增强纠错效果，通过这样的三套纠错***，不但可以通过上下文对文本从语义上进行一个基本的纠错，还能针对垂直领域的专有名词、特定名词以及应用场景环境下的方言俚语进行一定程度的替换纠错，这一点是单个bert纠错模型所难以实现的。

附图说明

图1示出了根据本发明实施例提供的一种适用于垂直领域的文本纠错方法的流程示意图；

图2示出了根据本发明实施例提供的一种适用于垂直领域的文本纠错方法的Bert纠错流程示意图；

图3示出了根据本发明实施例提供的一种适用于垂直领域的文本纠错方法的拼音纠错流程示意图；

图4示出了根据本发明实施例提供的一种适用于垂直领域的文本纠错方法的热词替换规则流程示意图；

图5示出了根据本发明实施例提供的一种适用于特定垂直领域的文本纠错装置的Bert纠错模型输入部分结构示意图；

图6示出了根据本发明实施例提供的一种适用于特定垂直领域的文本纠错装置的Bert纠错模型中的Multi_Head Attention的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1-6，本发明提供一种技术方案：一种适用于垂直领域的文本纠错方法，包括以下步骤：

S11、根据标点符号将文本切分为短句；

S12、对短句中的第一个字进行掩码处理；

S1321、若列表一和列表二中存在相同的字，则将被掩码的字

S1322、若列表一和列表二中的字均不一致，则将被掩码的字

视为正确的；

S2、将经过Bert纠错模型纠错后的文本导入拼音纠错模型中，进行二次纠错，进行针对垂直领域的增强，因为在小场景中存在许多在该场景下才会使用的专有名词，Bert纠错模型可能无法发现这些错误甚至基于语料将原本正确的词改成错误的；

例如，文本错将“长正银行卡”打成了“长征银行卡”，仅靠Bert纠错模型的语义纠错可能无法感应这个错误，因此，我们使用拼音纠错模型进行加强，通过将小场景的专有名词，比如银行领域的五花八门的卡名，作为热词和相应的拼音与字数一起存入数据库中，形如[“长城***”，“chang+cheng+xin+yong+ka”，5]；

S21、将经过Bert纠错模型纠错后的所有文本转换为拼音；

S22、将热词的拼音和文本的拼音按字数由小到大依次对照；

部分替换为热词；

S24、重复步骤S22和步骤S23，直到检查完所有热词。

S3、将经过拼音纠错模型进行二次纠错后的文本导入热词替换规则模型中，进行第三次纠错，为了进一步优化纠错结果，我们使用热词替换规则模型对经过拼音纠错的文本进行进一步处理，因为像是口语化与方言的文本有很大可能被Bert纠错模型的语义纠错所忽略，同时因为与专有名词的读音差距巨大，拼音纠错模型也会无视这些文本；

例如，我们需要的文本是“个贷”，但文本输入的是“私人贷”，对于Bert纠错模型来说，“私人贷”的语义并没有问题，同时[“si+ren+dai”，3]与[“ge+dai”,2]有明显差别，拼音纠错也不会响应；

又例如，“我”在中文中有好几种不同的读法，像是“俺”、“侬”等等，这些词同样无法被Bert纠错模型与拼音纠错模型所识别，因此我们使用热词替换规则模型对这些文本进行纠错，将其替换成我们所需要的词；

请参阅图4和图5，一种适用于特定垂直领域的文本纠错装置，文本纠错装置包括经过预训练的Bert纠错模型、拼音纠错模型和热词替换规则模型，Bert纠错模型是一个多层双向Transformers encoder，Bert纠错模型的Embedding由三种Embedding求和而成，三种Embedding分别是Token Embeddings、Segment Embeddings和Position Embeddings，Bert纠错模型使用Multi_Head Attention进行编码，通过将输入的Embedding进行维度扩展，分别得到Key、Query以及Value三个维度并对每一个维度都进行Multi_head划分，划分出的每一个头则都与其他词进行self-attention，从而得到新的向量，再将每一个头的新向量进行拼接，并通过权重矩阵进行线性转换获得最终的多头注意力值；

Bert纠错模型，其依靠Multi_Head Attention和双向encoding让模型的无监督学习更加有效，因为使用了Transformer，使Bert纠错模型比以前的模型更加高效、能捕捉更长距离的依赖，可以捕捉到真正意义上的bidirectional context信息，为了使其能在垂直领域发挥更好的效果，我们在语料中添加了相关垂直领域的语料对Bert纠错模型进行训练，以提高Bert纠错模型在该领域的辨识能力。

具体的，拼音纠错模型包括数据库，数据库中包含某领域的热词和相应的热词拼音与字数，某领域的热词源自该领域的专有名词；

使用拼音纠错模型对Bert语义纠错后的文本进行二次纠错，着重纠正相关领域专有名词的修正，专有名词的错字难以通过上下文来检测，因此很有可能被语义纠错所忽略，使用拼音纠错模型，将专有名词设为热词，当热词拼音与文本拼音完全相同时，则将相对应的文字替换成热词，以确保专有名词文本的正确性，而且本方法更新方便，只需在热词列表中添加或删去专有名词，就可以完成更新，例如，银行领域等产品变动频繁的领域可以节省大量时间。

具体的，热词替换规则模型包括字典，字典中将需要纠正的词设置为key，对应正确的词设置为value，并将所有的key存进key列表中。

具体的，经过预训练的Bert纠错模型通过两种模型进行预训练，该两种模型包括Masked language mode 与 Next sentence prediction；

Masked language mode通过输入语料库中被随机遮盖的token，并预测这些被随机遮盖的token来对Bert纠错模型进行预训练；

Next sentence prediction通过输入句子A和句子B，其中，句子B有50%的可能性是句子A的下一句，有50%的可能性是语料库中的随机一句话，让Bert纠错模型对句子B是否是句子A的下一句进行预训练。

具体的，语料库中包含某领域垂直领域的热词的语料，预训练需要大量的语料支撑，为了提高Bert纠错模型在垂直领域的辨识能力，我们在语料中添加相对应领域热词的语料进行更新训练，例如，我们希望在银行领域使用相关模型，添加包含银行垂直领域热词的语料更新训练。

使用热词替换规则模型对二次纠错后的文本进行第三次纠错，以强化纠错效果，不同的人对同一种的事物可能有不同的称呼，对NLP来说，这可能造成噪音而影响任务效率，然而，这些词严格来说并不是错词，因此语义纠错和拼音纠错很可能忽略它们，因此将这些不同的称呼设为热词，当文本中存在这些热词时，将其替换为NLP所需要的词，以最大限度的减少杂音的生成，和拼音纠错部分一样，本方法的更新操作也十分简便，只需要在热词规则中添加需要纠正的词与对应的修正后的词即可；

本发明中，将用户输入的文本先倒入Bert纠错模型进行文本纠错，再将修正过一次的文本导入拼音纠错模型进行二次纠错，从而在对文本进行语义修正后，针对垂直领域的专有名词进行修正以达到加强效果，提高了文本纠错的准确率，之后再将二次纠错后的文本倒入热词替换规则模型进行热词替换，将方言等口语化文本转换为专有名词，再次增强纠错效果，通过这样的三套纠错***，不但可以通过上下文对文本从语义上进行一个基本的纠错，还能针对垂直领域的专有名词、特定名词以及应用场景环境下的方言俚语进行一定程度的替换纠错，这一点是单个bert纠错模型所难以实现的。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种适用于垂直领域的文本纠错方法，其特征在于，包括以下步骤：

S11、根据标点符号将文本切分为短句；

S12、对短句中的第一个字进行掩码处理；

S1321、若列表一和列表二中存在相同的字，则将被掩码的字

S1322、若列表一和列表二中的字均不一致，则将被掩码的字

视为正确的；

S21、将经过Bert纠错模型纠错后的所有文本转换为拼音；

S22、将热词的拼音和文本的拼音按字数由小到大依次对照；

部分替换为热词；

S24、重复步骤S22和步骤S23，直到检查完所有热词；

2.一种用于实现如权利要求1所述的适用于垂直领域的文本纠错方法的文本纠错装置，其特征在于，所述文本纠错装置包括经过预训练的Bert纠错模型、拼音纠错模型和热词替换规则模型，所述Bert纠错模型是一个多层双向Transformers encoder，所述Bert纠错模型的Embedding由三种Embedding求和而成，三种所述Embedding分别是TokenEmbeddings、Segment Embeddings和Position Embeddings，所述Bert纠错模型使用Multi_Head Attention进行编码，通过将输入的Embedding进行维度扩展，分别得到Key、Query以及Value三个维度并对每一个维度都进行Multi_head划分，划分出的每一个头则都与其他词进行self-attention，从而得到新的向量，再将每一个头的新向量进行拼接，并通过权重矩阵进行线性转换获得最终的多头注意力值。

3.根据权利要求2所述的文本纠错装置，其特征在于，所述拼音纠错模型包括数据库，所述数据库中包含某领域的热词和相应的热词拼音与字数，所述某领域的热词源自该领域的专有名词。

4.根据权利要求2所述的文本纠错装置，其特征在于，所述热词替换规则模型包括字典，所述字典中将需要纠正的词设置为key，对应正确的词设置为value，并将所有的key存进key列表中。

5.根据权利要求2所述的文本纠错装置，其特征在于，所述经过预训练的Bert纠错模型通过两种模型进行预训练，该两种模型包括Masked language mode 与 Next sentenceprediction；

6.根据权利要求5所述的文本纠错装置，其特征在于，所述语料库中包含某领域垂直领域的热词的语料。