CN115169331A

CN115169331A - 融入词语信息的中文拼写纠错方法

Info

Publication number: CN115169331A
Application number: CN202210850675.XA
Authority: CN
Inventors: 车万翔; 王重元; 赵妍妍; 刘挺
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-10-11
Anticipated expiration: 2042-07-19
Also published as: CN115169331B

Abstract

融入词语信息的中文拼写纠错方法，涉及自然语言处理技术领域，针对现有技术中由于缺少词语信息，并不能对整个词都写错的词语进行纠错的问题，本申请在模型当中有效地引入了词语信息，增强了模型的语义表示能力，大幅提升了模型对整个词都写错的情况的纠错能力，提升了模型整体文本纠错能力。本申请在模型中引入专门的神经网络结构用于表示词语信息，并将每个字所在词的词语信息融入到字的表示当中，从而有效引入了词语信息，增强了模型的语义表示能力，大幅提升了模型对整个词都写错的情况的纠错能力，提升了模型整体文本纠错能力。

Description

融入词语信息的中文拼写纠错方法

技术领域

本发明涉及自然语言处理技术领域，具体为融入词语信息的中文拼写纠错方法。

背景技术

中文拼写纠错任务是给定一句中文文本，检查文本中是否存在错别字，并给出错别字的纠正结果。基于BERT预训练模型的序列标注方法是一种常见的文本纠错方法，这种方法使用注意力机制将上下文信息融入到每一个字中，然后独立地考虑每一个字是否是错别字以及错别字应该被纠正为哪个字。但是这种方法存在很大的局限性，它无法明确地将词语信息引入到每一个字中。这种方法在考虑词语中的某个字时，是不会着重参考词语中的其他字的。当整个词语都写错时，在修改词语中的任意一个字时必须要着重参考整个词语才能将整个词语纠正正确。因此，它对于整个词语都写错的情况纠正的效果不佳。例如，在含有错别字的句子“已经早上九点半了，如果再不走就赤道了”中，“赤道”是错别字，正确的修改应该为将“赤道”修改为“迟到”。为了能解决这一类词语错误，必须要使用到词语信息。现有的方法由于缺少词语信息，难以解决此类问题。

发明内容

本发明的目的是：针对现有技术中由于缺少词语信息，并不能对整个词都写错的词语进行纠错的问题，提出融入词语信息的中文拼写纠错方法。

本发明为了解决上述技术问题采取的技术方案是：

融入词语信息的中文拼写纠错方法，包括以下步骤：

步骤一：获取文本纠错数据，所述文本纠错数据包括待检错句子和纠正后句子；

步骤二：对待检错句子进行分词，得到分词结果；

步骤三：将待检错句子和分词结果作为输入，将纠正后句子作为输出，训练纠错模型；

步骤四：利用训练好的纠错模型进行中文拼写纠错。

进一步的，所述分词通过分词模型进行。

进一步的，所述纠错模型为融入词语信息的中文拼写纠错模型，所述融入词语信息的中文拼写纠错模型具体执行如下步骤：

步骤1：利用预训练模型对输入句子中的每个字进行编码，得到字表示；

步骤2：利用双向长短时记忆网络将字表示转换为双向上下文字表示；

步骤3：获取输入句子的分词结果，并依据输入句子的分词结果以及双向上下文字表示得到词表示；

步骤4：将字表示与词表示进行拼接，得到包含词语信息的字向量；

步骤5：基于包含词语信息的字向量，并通过线性层得到纠错结果。

进一步的，所述预训练模型为BERT。

进一步的，所述双向上下文字表示为：

{D¹,…,D^t}＝BiLSTM({C¹,…,C^t})

其中，{C¹,…,C^t}为字表示。

进一步的，所述词表示为：

W^k＝D^j-Dⁱ

其中，k为当前词的位置，j为词尾字的位置，i为词首字的位置。

进一步的，所述包含词语信息的字向量表示为：

Eⁱ＝concatanate(W^k+Dⁱ)。

进一步的，所述纠错结果表示为：

{A¹,…,A^k}＝Linear(E¹,…,E^t})。

本发明的有益效果是：

本申请在模型当中有效地引入了词语信息，增强了模型的语义表示能力，大幅提升了模型对整个词都写错的情况的纠错能力，提升了模型整体文本纠错能力。

本申请在模型中引入专门的神经网络结构用于表示词语信息，并将每个字所在词的词语信息融入到字的表示当中，从而有效引入了词语信息，增强了模型的语义表示能力，大幅提升了模型对整个词都写错的情况的纠错能力，提升了模型整体文本纠错能力。

附图说明

图1为模型的运行流程图；

图2为本申请的流程图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的融入词语信息的中文拼写纠错方法，包括以下步骤：

步骤二：对待检错句子进行分词，得到分词结果；

步骤四：利用训练好的纠错模型进行中文拼写纠错。

本申请首先使用预训练模型(例如BERT)对输入句子中的每一个字进行编码，然后利用双向长短时记忆网络(LSTM)获得每个字的双向编码，接着依据输入句子的分词结果与词语中各个字的编码获得词语的编码，继而将字的编码与字所在词的编码进行拼接获得含有词语信息的字编码，最后利用含有词语信息的字编码预测字是否为错别字以及应该被如何纠正。

本申请使用基于预训练的语义表示模型对问答库中的问题做向量化处理得到句子的语义表示向量，然后使用近似检索算法对问答库建立索引，最终对查询进行近似最近邻检索。先来介绍一下融入词语信息的中文拼写纠错模型，然后再来介绍整个方法的使用流程。

融合词语信息的中文拼写纠错模型的运行流程如图1：

1.本方案使用预训练模型(例如BERT)对输入句子进行编码，从而获得输入句子中的每一个字的表示。从而获得了句子的字表示集合{C¹,…,C^t}。

2.接下来本方案将1中的字表示集合通过双向长短时记忆网络从而获得双向上下文字表示{D¹,…,D^t}。

{D¹,…,D^t}＝BiLSTM({C¹,…,C^t})

3.接下来本方案利用2中的双向上下文字表示与输入句子的分词结果获得每个词语的词表示{W¹,…,W^k}。具体来说，取出词语中每一个字的双向上下文字表示向量,使用词尾字向量减去词首字向量，所得结果即为词表示向量。在下面的公式中，k为当前词的位置，j为词尾字的位置，i为词首字的位置。

W^k＝D^j-Dⁱ

4.最终将每个字的字向量与其所在词的词向量拼接，从而获得包含词信息的字向量{E¹,…,E^k}。在下面的公式中，i为当前字的位置，k为当前字所属于词的位置。

Eⁱ＝concatanate(W^k+Dⁱ)

结合该向量与线性层，即可预测句中每个字是否应该被纠正以及应该被纠正为哪个字。记最终的纠正结果为{A¹,…,A^k}。

{A¹,…,A^k}＝Linear(E¹,…,E^t})

融合词语信息的中文拼写纠错方法的整体使用流程如图2：

a.为了训练文本纠错模型，本方法首先需要标注文本纠错数据集，每条数据的格式为一个二元组：(待检错句子，纠正后句子)。如果待检错句子当中没有错误，则纠正后句子与待检错句子相同。标注示例如下：(今天的添气不错，今天的天气不错)，(我做了一个梦，我做了一个梦)。

b.对数据集中的所有待检错句子，使用分词模型进行分词，获取分词结果。

c.接下来本方法使用a与b中的获得的数据集标注结果以及对应的分词结果对融入词语信息的中文拼写纠错模型进行训练。

d.对于待检错的句子，使用分词模型进行分词。将待检错句子与分词结果一同输入c中训练好的融入词语信息的中文拼写纠错模型，获得纠错结果。

实施例：

本申请将待纠错语句作为输入，待纠错的语句表示为S＝{c₁,c₂,…,c_i,…c_n}，S首先经过BERT编码器获取语句中每一个字的隐层表示H＝{h₁,h₂,…,h_i,…,h_n}，而后隐层表示H进入双向LSTM结构，通过双向LSTM结构获得新的上下文表示

本申请额外训练了一个模型M，M能够将带有错字的语句进行分词，使用M将待纠错语句S分词，获得分词结果S′＝{w₁,w₂,…,w_j,…,w_m}。依据分词结果，基于单字的隐层表示

获取词语的隐层表示

词语隐层表示获取方式具体表述如下，当W_k＝{c_i,c_i+1,…,c_j}即第k个词由第i个字到第j个字构成时。记第i个字通过BiLSTM后获得的表示为

根据BiLSTM的原理,

包含两部分：第一部分为从左向右获得的LSTM隐层表示，记为

第二部分为从右向左获得的LSTM隐层表示，记为

为了获得词语的表示，对于从左向右的LSTM，使用词尾的向量减去词首的向量。对于从右向左的LSTM，使用词首的向量减去词尾的向量。总的来说，使用词语中最后进入LSTM的字的隐向量减去词语中最先进入LSTM的字的隐向量。这一过程可以被公式化的表述，见公式(1-1)、(1-2)、(1-3)：

其中Concatenate为拼接操作，即将两个输入的隐层向量直接拼接起来。

而后将

与H进行对位拼接，即每一个字的表示之后拼接上其当前所在词的表示，这一过程可被公式化的表述，见公式(1-4)：

e_i＝Concatenate(h_i,w_k),其中第k个词含有第i个字(1-4)

在得到E＝{e₁,e₂,…,e_i,…,e_n}后，将之送入线性层，进行对纠正后句子位置各个字的预测。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.融入词语信息的中文拼写纠错方法，其特征在于包括以下步骤：

步骤二：对待检错句子进行分词，得到分词结果；

步骤四：利用训练好的纠错模型进行中文拼写纠错。

2.根据权利要求1所述的融入词语信息的中文拼写纠错方法，其特征在于所述分词通过分词模型进行。

3.根据权利要求2所述的融入词语信息的中文拼写纠错方法，其特征在于所述纠错模型为融入词语信息的中文拼写纠错模型，所述融入词语信息的中文拼写纠错模型具体执行如下步骤：

4.根据权利要求3所述的融入词语信息的中文拼写纠错方法，其特征在于所述预训练模型为BERT。

5.根据权利要求3所述的融入词语信息的中文拼写纠错方法，其特征在于所述双向上下文字表示为：

{D¹,…,D^t}＝BiLSTM({C¹,…,C^t})

其中，{C¹,…,C^t}为字表示。

6.根据权利要求5所述的融入词语信息的中文拼写纠错方法，其特征在于所述词表示为：

W^k＝D^j-Dⁱ

7.根据权利要求6所述的融入词语信息的中文拼写纠错方法，其特征在于所述包含词语信息的字向量表示为：

Eⁱ＝concatanate(W^k+Dⁱ)。

8.根据权利要求7所述的融入词语信息的中文拼写纠错方法，其特征在于所述纠错结果表示为：

{A¹,…,A^k}＝Linear(E¹,…,E^t})。