CN115270771B

CN115270771B - 细粒度自适应字音预测任务辅助的中文拼写纠错方法

Info

Publication number: CN115270771B
Application number: CN202211219267.0A
Authority: CN
Inventors: 毛震东; 张勇东; 王泉; 郭俊波; 靳国庆; 李佳豪
Original assignee: University of Science and Technology of China USTC; Beijing University of Posts and Telecommunications; People Co Ltd
Current assignee: University of Science and Technology of China USTC; Beijing University of Posts and Telecommunications; Konami Sports Club Co Ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-01-17
Anticipated expiration: 2042-10-08
Also published as: CN115270771A

Abstract

本发明涉及自然语言理解领域，公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法，在多模态语言模型进行中文拼写纠错的基础上，为模型设计了一个细粒度的发音预测的辅助任务，并且为辅助任务设置一个自适应权重，可以引导模型正确地利用发音信息帮助中文拼写纠错；本发明还设计一种有约束的迭代策略，在能够解决具有连续错别字的困难样本的同时，也能一定程度上避免过度纠正的问题。

Description

细粒度自适应字音预测任务辅助的中文拼写纠错方法

技术领域

本发明涉及自然语言理解领域，具体涉及一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。

背景技术

随着语音识别技术、光学字符识别等智能信息转换***的广泛应用以及键盘写作的普及，识别错误和拼写错误的场景不可避免，那么就越来越需要计算机***能够更准确地理解和纠正人类语言。另外，在许多自然语言处理领域的应用中，文本纠错都是这些应用的重要组成部分，比如搜索优化，机器翻译，词性标注。而且相比较其他语言，中文的汉字众多，更加容易出现用词不规范，拼写错误导致的文本错误。因此，中文拼写纠错技术具有很高的研究价值与实用价值。

现有的中文拼写纠错技术多采用基于多模态模型进行端到端地预测纠正文本的方法。由于中文拼写错误一般是由正误字符之间发音相近导致的，那么使用多模态模型对字音和语义分别进行编码，从而联合预测纠正文本，这种方法是合理的。然而这里存在缺陷：对于新引入的字音编码，虽然可以提取文本的发音信息，但是发音信息在中文拼写纠错上的利用方式是没有显式的优化的，即没有设置显式的辅助任务来引导模型利用发音信息更好的进行中文拼写纠错，大部分纠错技术没有考虑到这一点。另外，在拼写错误中往往会出现连续错别字的困难样本，以及在纠错过程中模型往往会出现过度纠正的问题，这都会导致模型纠错性能的下降。

发明内容

为解决上述技术问题，本发明提供一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。以提升拼写纠错的表现。本发明提出两种创新性的思想，第一，在多模态语言模型进行中文拼写纠错的基础上，为模型设计了一个细粒度的发音预测的辅助任务，并且为辅助任务设置一个自适应权重，可以引导模型正确地利用发音信息帮助中文拼写纠错；第二，设计一种有约束的迭代策略，在能够解决连续错别字的困难样本的同时也能一定程度上避免过度纠正的问题。

为解决上述技术问题，本发明采用如下技术方案：

一种细粒度自适应字音预测任务辅助的中文拼写纠错方法，通过字音预测辅助任务来引导多模态语言模型利用发音信息进行在中文拼写纠错；多模态语言模型的训练步骤包括：

步骤一：将含错文本送到多模态编码器进行文本编码，将编码结果通过不同的映射得到字符编码和字音编码，将字符编码和字音编码分别输入至汉字解码器和字音解码器中，解码出纠正字符以及纠正字符对应的字音；其中，映射得到字音编码并解码出纠正字符对应字音的过程即为字音预测辅助任务；

步骤二：字音预测辅助任务的自适应权重计算：

文本第i个位置的纠正字符的优化目标

；

文本第i个位置的纠正字符对应字音的优化目标

；其中

分别表示第i个位置的纠正字符及对应的字音；

为文本长度，

表示预测为纠正字符对应字音的概率，

表示预测为纠正字符的概率；

字音预测辅助任务的自适应权重

；其中

表示文本中第i个位置的错误字符的编码结果经过映射后的字音编码，

表示第i个位置的纠正字符的字音编码；

表示文本第i个位置的错误字符和纠正字符的字音编码余弦相似度；

多模态语言模型的最终训练时的优化目标

；

通过训练完成的多模态语言模型对含错文本进行拼写纠错。

具体地，多模态编码器进行文本编码时，文本中第i个位置的错误字符即文本中第i个单词

，文本中第i个单词

的编码结果

文本中第i个单词

的编码结果经过映射后的字符编码

文本中第i个单词

的编码结果经过映射后的字音编码

其中S表示整个文本，

为映射层参数。

具体地，字音包括声母、韵母、音调；

文本中第i个单词

预测为词表中第j个单词可能性

文本中第i个单词

的声母预测为词表中第j个单词的声母的可能性

文本中第i个单词

的韵母预测为词表中第j个单词的韵母的可能性

文本中第i个单词

的音调预测为词表中第j个单词的音调的可能性

为词表长度，

分别代表声母总数量、韵母总数量、声调总数量，具体来说，声母为23个，韵母为34个，声调为5个，c表示纠正字符，

分别对应着纠正字符的声母、韵母和音调，Decoder选择多层感知机MLP。

进一步地，训练完成的多模态语言模型对含错文本进行中文拼写纠错时，对于每一个输入的文本，以迭代方式检测并纠正拼写错误：在每一次迭代中，满足条件A的纠正字符被保留下来，不满足条件A的纠正字符被舍弃，在迭代完成后，如果一个位置的字符在每次迭代时都会被纠正，则将该位置恢复成不做任何纠正的原始字符；

条件A：

，其中pos为本次迭代纠正字符的位置，a为上一次迭代纠正字符的位置，

为上一次迭代纠正字符的集合，w为人为设置的窗口大小参数；

即在每一次迭代中，只有出现在上次纠正位置附近窗口内的纠正字符被保留下来，其余不在窗口内的纠正字符被舍弃，当w=2时，以每个上次的纠正字符的位置为中心，取大小为4的窗口，窗口内新的纠正字符将被保留，其余将被舍弃。。

与现有技术相比，本发明的有益技术效果是：

本发明提出了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法，包括训练时的细粒度字音预测辅助任务的设置、该辅助任务自适应权重的设计、推理时带约束的迭代策略三部分：（1）字音预测辅助任务的设置使得在拼写纠错任务中多模态的字音编码发挥更大的作用；（2）进一步，在训练时针对不同样本输入输出发音上不同的相似度给予辅助任务以不同的优化权重，使得不同样本能通过辅助任务对拼写纠错不同程度上的增益充分发挥；（3）最后在模型推理时，带约束的迭代策略有效地解决了连续错别字的困难样本和模型容易过度纠正的问题。

另外，辅助任务的设置只存在于训练阶段，单纯地为了提升模型在中文拼写纠错任务上的性能而存在，并不会导致推理阶段模型占用内存的增大和推理时间的增加；带约束的迭代策略不局限于特定模型，具有通用性。

附图说明

图1为本发明的模型训练流程图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

中文拼写纠错任务通常被定义为：给定一段可能包含拼写错误的文本作为输入数据，确定错误文本位置（错误检测），然后针对错误位置进行字符纠正，生成对应的正确文本；即拼写纠错包括错误检测和字符纠正。

本发明提出的模型的训练流程如图1所示，包括以下部分：（1）模型训练时设置细粒度的字音预测辅助任务；（2）为字音预测辅助任务设置自适应权重；（3）另外，本发明在模型进行拼写纠错时引入：带有约束的迭代策略。

（1）细粒度的字音预测辅助任务

首先将含错文本送到多模态编码器进行文本编码，本实施例中，多模态编码器选择预训练模型ChineseBERT。

然后，将编码结果通过不同的映射得到字符编码和字音编码，最后分别送到汉字解码器和字音解码器中，解码出纠正字符以及纠正字符对应的字音，解码的过程也可称为预测；其中字音包括声母、韵母、音调三部分。

文本中第i个单词

的编码结果

文本中第i个单词

的编码结果经过映射后的字符编码

文本中第i个单词

的编码结果经过映射后的字音编码

其中S表示整个文本，

为映射层参数。

文本中第i个单词

预测为词表中第j个单词可能性

文本中第i个单词

的声母预测为词表中第j个单词的声母的可能性

文本中第i个单词

的韵母预测为词表中第j个单词的韵母的可能性

文本中第i个单词

的音调预测为词表中第j个单词的音调的可能性

其中，S表示整个文本，

为文本长度，

是映射层参数，

为词表长度，同理，

分别对应着纠正字符的声母、韵母和音调，这里Decoder可以是简单的多层感知机MLP，也可以是更加复杂的网络模型。

由于拼写错误与易混淆的字音息息相关，所以这里将字音预测作为辅助任务，会帮助模型提升在中文拼写纠错上的性能。另外辅助任务的细粒度体现在将汉字的字音分解为声母、韵母和音调，而不是直接预测整个拼音。

本发明中文本第i个单词

和第i个位置的纠正字符以及对应字音的关系为：文本中第i个单词

经过编码、映射后得到字符编码和字音编码，字符编码和字音编码经过解码器得到第i个位置的纠正字符以及对应的字音。

（2）自适应任务权重

上述拼写纠错任务和字音预测任务的优化目标可表示为：

文本第i个位置的纠正字符的优化目标

文本第i个位置的纠正字符对应字音的优化目标

其中，

分别表示文本第i个位置的纠正字符及其对应的字音（发音单元）。

为了在训练中为字音预测辅助任务添加自适应的权重，考虑到在错误和纠正字符对之间如果发音越相近，那么拼写错误就更有可能是由发音导致，那么字音预测辅助任务对于拼写纠错主任务就有更大的帮助，训练时给予这种样本的辅助任务优化目标更大的权重。

具体地，先根据映射后的字音编码来计算错误字符和纠正字符之间的发音相似度，然后将该相似度作为辅助任务优化目标的权重，与拼写纠错任务的优化目标一起得出最终的训练时优化目标：

字音预测辅助任务的自适应权重

；

多模态语言模型的最终训练时的优化目标

；

其中

表示第i个位置的纠正字符的字音编码；

表示文本第i个位置的错误字符和纠正字符的字音编码余弦相似度。

需要注意的是，自适应权重是不需要梯度反向传播的，只是数值计算；另外，字音预测辅助任务包括自适应权重计算只发生在训练阶段，拼写纠错阶段只需要字符解码这一分支即可，拼写纠错阶段也称为推理阶段。

（3）带约束的迭代策略

为了解决具有连续错别字的困难样本和模型容易过度纠正的问题，在模型推理阶段提出了一种简单但有效的有约束的迭代机制。

具体地，在推理的时候，对于每一个输入的句子，以一种迭代的方式检测和纠正拼写错误。在每一次迭代中，只有出现在上次纠正位置附近窗口内的纠正才被保留下来，其余不在窗口内地纠正被舍弃。在迭代完成后，如果一个位置的字符在每次迭代时都会被纠正，那么将该位置恢复成不做任何纠正原始字符。

对于纠正位置设置窗口的约束，可以在解决连续错别字的同时一定程度上防止纠错模型的错误传播。迭代完成后的后处理约束可以解决纠错模型过度纠正的问题。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种细粒度自适应字音预测任务辅助的中文拼写纠错方法，通过字音预测辅助任务来引导多模态语言模型利用发音信息进行在中文拼写纠错；多模态语言模型的训练步骤包括：

步骤二：字音预测辅助任务的自适应权重计算：

文本第i个位置的纠正字符的优化目标

；

文本第i个位置的纠正字符对应字音的优化目标

；其中

分别表示第i个位置的纠正字符及对应的字音；

为文本长度，

表示预测为纠正字符对应字音的概率，

表示预测为纠正字符的概率；

字音预测辅助任务的自适应权重

；其中

表示第i个位置的纠正字符的字音编码；

多模态语言模型的最终训练时的优化目标

；

通过训练完成的多模态语言模型对含错文本进行拼写纠错。

2.根据权利要求1所述的细粒度自适应字音预测任务辅助的中文拼写纠错方法，其特征在于：多模态编码器进行文本编码时，文本中第i个位置的错误字符即文本中第i个单词

，文本中第i个单词

的编码结果

文本中第i个单词

的编码结果经过映射后的字符编码

文本中第i个单词

的编码结果经过映射后的字音编码

其中S表示整个文本，

为映射层参数。

3.根据权利要求2所述的细粒度自适应字音预测任务辅助的中文拼写纠错方法，其特征在于：字音包括声母、韵母、音调；

文本中第i个单词

预测为词表中第j个单词可能性

文本中第i个单词

的声母预测为词表中第j个单词的声母的可能性

文本中第i个单词

的韵母预测为词表中第j个单词的韵母的可能性

文本中第i个单词

的音调预测为词表中第j个单词的音调的可能性

为词表长度，

分别代表声母总数量、韵母总数量、声调总数量，c表示纠正字符，

4.根据权利要求1所述的细粒度自适应字音预测任务辅助的中文拼写纠错方法，其特征在于：训练完成的多模态语言模型对含错文本进行中文拼写纠错时，对于每一个输入的文本，以迭代方式检测并纠正拼写错误：在每一次迭代中，满足条件A的纠正字符被保留下来，不满足条件A的纠正字符被舍弃，在迭代完成后，如果一个位置的字符在每次迭代时都会被纠正，则将该位置恢复成不做任何纠正的原始字符；

条件A：

为上一次迭代纠正字符的集合，w为人为设置的窗口大小参数。