CN109492202B

CN109492202B - 一种基于拼音的编码与解码模型的中文纠错方法

Info

Publication number: CN109492202B
Application number: CN201811339730.9A
Authority: CN
Inventors: 吴健; 胡汉一; 王文哲; 陆逸飞; 吴福理
Original assignee: Shandong Industrial Technology Research Institute of ZJU
Current assignee: Shandong Industrial Technology Research Institute of ZJU
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2022-12-27
Anticipated expiration: 2038-11-12
Also published as: CN109492202A

Abstract

本发明公开了一种基于拼音的编码与解码模型的中文纠错方法，属于自然语言处理领域，包括：将中文转化为拼音序列，再将拼音序列向量化后输入编码模型，编码模型对拼音序列进行编码后，解码模型对当前目标中文文本序列使用注意机制正、反向解码。对正反向解码的中文序列概率加权相加后，再判断目标序列字符对应的概率是否大于阈值，若大于阈值使用预测字符，若小于阈值则使用原中文序列字符，所得最终的目标中文序列即为修正后的中文序列。使用了以编码模型与正反向解码模型的结构的深度学习模型，在编码与解码的过程中，提取有效的文本信息特征，从而提高了在中文纠错任务中上下文的相关性，以提高模型的准确率。

Description

一种基于拼音的编码与解码模型的中文纠错方法

技术领域

本发明涉及自然语言处理领域，具体地说，涉及一种基于拼音的编码与解码模型的中文纠错方法。

背景技术

随着深度学习在图像、语音识别等不同的领域取得的巨大发展，基于深度学习方法在自然语言处理的领域也被广泛的运用。目前，以深度学习为基础的计算机***，与传统的算法相比，在命名实体识别(Named Entity Recognition)、机器翻译(MachineTranslation)、方面提取(Aspect Extraction)等自然语言任务中都有着显著的效果。

中文文本纠错是计算机自然语言处理中的一个重要研究方向，近年来受到了计算机领域的广泛关注，其任务是通过计算机算法完成对中文文本根据其上下文语义信息，纠正其中人为因素产生的错误(错别字或不合乎语境的用词等)。

根据错误的来源，中文纠错可以分为两大类：输入法端以及文本端的纠错。当然这两者之间没有非常清晰的界限。输入法端主要包括了手写、拼音、字型输入以及语音输入。

在2014年，Sutskever等人提出的使用循环神经网络的编码器与解码器结构模型，相比于传统的统计机器翻译方法，有着显著的提高。该结构及后来在该结构基础上修改的模型，被广泛利用，其中最成功的范例之一，即是谷歌的翻译功能。

另有如公布号为CN108257650A的中国专利文献公开了一种应用于医技检查报告的智能纠错方法，包括预处理过程→训练过程→智能纠错过程，通过使用递归神经网络得到的纠错模型，可以在进行纠错时，既考虑到医技检查报告词库对检测的影响，又考虑到上下文的语义关系；同时在应用纠错模型过程中，采取不同的策略，当分词不在医技检查报告词库中时，由拼音和字形给出可替代当前分词的建议值，当分词在词库中时，由纠错模型判断是否进行纠错处理，并根据上下文语义关系给出相应结果。该专利需要经过两次判断，过程复杂。

本专利说明书中主要针对的是文本端的纠错，因任务本身特性更需要结合上下文的文本信息，所以更为适合使用基于统计或深度学习的语言模型或翻译模型来作为纠错任务的实施方案。且本专利书中所针对的中文文本纠错任务，本质上与机器翻译任务类似，也可以理解成一种语言/编码到另外一种语言/编码的映射关系。除却语言本身的复杂性与多样性等特点，相较于翻译任务，中文纠错任务逐字符的对应性更强，故而对模型要求的准确性也更高。因而需要使用相比与翻译模型对数据拟合能力更强的模型。

发明内容

本发明的目的为提供一种基于拼音的编码与解码模型的中文纠错方法，该方法通过提高在中文纠错任务中上下文的相关性，以提高模型的准确率，从而大大提高电子文本的准确性。

为了实现上述目的，本发明提供的基于拼音的编码与解码模型的中文纠错方法包括以下步骤：

1)将含有中文预料的数据集中的句子转换为对应的拼音序列，作为输入数据，原中文序列作为模型训练的标签；

2)采用基于神经网络的编码器作为编码模型，基于神经网络的解码器作为解码模型，将数据集中句子的拼音序列向量化后依次输入编码模型内，编码模型逐字产生对应字的隐藏层向量/矩阵h_t，直到完成编码完整的拼音序列；

3)将编码完整的拼音序列输入解码模型内，对每个字符拼音进行正向和反向解码，产生当前待解码字符对应的隐藏层向量/矩阵h_t’，并采用注意机制产生当前待解码字符对应的一组权重，该组权重包含拼音序列中每个字符拼音对应的重要性权重；

4)将所有字符拼音的隐藏层矩阵h_t和对应的权重进行加权求和，获得生成语境向量/矩阵C_t；

5)根据正向解码产生的第一语境向量与当前待解码字符对应的隐藏层矩阵得到当前待解码字符对应中文的概率，利用该概率计算正向解码产生的第一偏差；

6)根据反向解码产生的第二语境向量与当前待解码字符对应的隐藏层矩阵得到当前待解码字符对应中文的概率，利用该概率计算反向解码产生的第二偏差；

7)根据第一偏差和第二偏差加权求和值对编码模型和解码模型进行优化，获得训练好的编码模型和解码模型，构成编码与解码模型；

8)将需要纠错的中文文本输入编码与解码模型，得到输出的中文文本序列以及编码与解码模型对每个字的预测概率，将预测概率大于预设阈值t的字作为最终输出的字，将预测概率低于阈值t的字，使用原中文序列对应位置的字替换，产生最终的纠错的中文序列。

上述技术方案中，使用了以编码模型与正反向解码模型的结构的深度学习模型，在编码与解码的过程中，提取有效的文本信息特征，从而提高了在中文纠错任务中上下文的相关性，以提高模型的准确率。另外模型解码的过程中还采用了一种注意机制，能增加模型在预测时的长距离信息提取的能力以及针对性，加强解码模型的长距离信息提取能力。

上述技术方案中的“字符拼音”指的是一句话中对应一个字的拼音，比如“哪家医院”中“哪”字的字符拼音为“na”。

为了使得模型能够拟合的数据集分布更为符合与真实场景的分布，作为优选，步骤1)中，在将数据集中的句子转换为对应的拼音序列前还包括对含有中文预料的数据集进行预处理：

统计数据集中的句子频率，将句子按频率排列；

设定数据集的大小以及句子最大频率，使用统计学分布函数改变数据集中语句的分布频率。

其中，使用统计学分布函数改变数据集中语句的分布频率，包括但不仅限于使用正态分布、泊松分布、伯努利分布、自然指数分布等一系列分布函数及其变式。

作为优选，所述的神经网络为长短记忆网络(LSTM)，门控制基本单元(GRU)，递归神经网络(Feed-Forward Network)或其他类似神经网络。

作为优选，所述的神经网络为长短记忆网络或门控制基本单元，编码模型与解码模型的层数为2层或4层。

编码模型从输入拼音向量输入开始往上的循环神经网络单元的前n层单元使用双向单元，编码拼音序列正向与反向的序列信息；当总层数为2层时，双向单元为1层，当总层数为4层时，双向单元的层数取1层或2层。

作为优选，步骤5)中，Multinomial Cross Entropy Loss的计算公式为：

其中，K表示字典大小，m表示同时输入网络训练时的句子数量(batch size)，T表示每一句话的字数。

代表第i句话，第t个拼音字符的向量，

代表第i句话，第t个中文字符的类别，P代表当输入为x时，y为字典中第k个字的概率。

作为优选，步骤5)中，反向解码对应Loss的权值α的范围为[0.5，0.7]，正向解码对应Loss的权值为1-α。优选α的取值为0.5。

作为优选，步骤5)中，对编码模型和解码模型进行优化的方法为采用SGD或Adam算法更新模型参数。

作为要选，步骤6)中，阈值t的取值区间为[0.5，1)。

与现有技术相比，本发明的有益效果为：

本发明的基于拼音的编码与解码模型的中文纠错方法能够自动纠正因用户输入拼音产生错误的或不合乎语法逻辑的文本，大大提高电子文本的准确性。

附图说明

图1为本发明实施例中的编码模型与正向解码模型(同反向)的整体结构示意图；

图2为本发明实施例的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。

实施例

参见图1和图2，本实施例的基于拼音的编码与解码模型的中文纠错方法包括以下步骤：

S100中文文本数据集预处理

本发明采用控制文本训练集分布的预处理，使得模型能够更真实的拟合在纠错过程中的真实环境。

S101统计原数据集中句子频率，并将句子按照句子频率，从高到低排列；

S102控制数据集最大句子频率，使用自然指数函数，改变句子在数据集中的频率；

S103将数据集中的中文文本序列一一转化为其对应的拼音序列，拼音序列作为模型输入序列，例如：“na”，“jia”，“yi”，“yuan”的拼音序列，而数据集中文对应的中文文本序列的标签则为：“哪”，“家”，“医”，“院”；

S200训练纠错模型

S201将拼音序列向量化后输入编码模型，编码模型逐字产生对应字的隐藏层向量/矩阵h_t，直到完成编码完整的拼音序列。

S202解码模型根据当前解码的字符产生解码模型的隐藏层向量/矩阵h_t’。

S203将解码模型的隐藏层向量/矩阵h_t’与编码模型编码每一个拼音字符对应的隐藏层向量/矩阵h_t，采用注意机制产生一组加权系数，再将编码模型编码所有拼音字符对应的隐藏层根据产生的加权系数相加，并最终产生一个语境向量/矩阵。

S204将正向与反向解码产生的语境向量，分别使用Multinomial Cross EntropyLoss计算与目标的原中文序列的偏差。

以上Multinomial Cross Entropy Loss的计算公式为：

其中，K表示字典大小，m表示同时输入网络训练时的句子数量，T表示每一句话的字数。

代表第i句话，第t个拼音字符的向量，

S205将计算的正向与反向解码对应的Loss，加权相加，再将相加的Loss反向传播，更新编码器与解码器参数。

反向解码的准确率普遍略高于正向解码准确率，故而在加权相加的过程中，反向解码的权值α可略高于正向解码权值1-α，α的范围为[0.5，0.7]，而实验中采用的α取值为0.5，已达到了较为可观的准确率结果。

S300中文纠错

S301将需要纠错的目标中文序列，转换为对应的等长的拼音序列作为模型输入，并保留其中文序列。

S302将步骤S301转化的拼音序列的每一个拼音字符，转化为向量，再将转化的向量序列输入编码模型，编码模型逐字对向量产生对应的隐藏层向量/矩阵，直到完成编码完整的拼音序列。

S303使用解码模型，根据当前解码的字符产生解码模型的隐藏层向量/矩阵。

S304将步骤S303得到的隐藏层向量/矩阵与编码模型编码每一个拼音字符对应的隐藏层，采用注意机制产生一组加权系数，再将编码器编码所有拼音字符对应的隐藏层根据产生的加权系数相加，并最终产生一个语境向量/矩阵。

S305将步骤S304得到的语境向量，适用一层Dense Layer，将其映射到中文字典对应的分类，产生当前语境向量/矩阵，对应中文字典中每一个字的概率。

S306重复步骤S303至步骤S305，使用解码模型反向解码一组反向的中文序列以及得到对应中文字典中每一个字的概率。

S307将正向与反向解码得到的序列的概率，加权相加，得到最终的中文序列。

S308判断得到的中文序列中的每一个字符对应概率是否大于预设阈值t，若大于阈值t则使用模型预测字符，若小于阈值t则使用原中文序列对应字符。阈值t的取值区间为[0.5，1)。

Claims

1.一种基于拼音的编码与解码模型的中文纠错方法，其特征在于，包括以下步骤：

2)采用基于循环神经网络的编码器作为编码模型，基于循环神经网络的解码器作为解码模型，将数据集中句子的拼音序列向量化后依次输入编码模型内，编码模型逐字产生对应拼音字符的隐藏层矩阵h_t，直到完成编码完整的拼音序列；

3)将编码完整的拼音序列输入解码模型内，对每个字符拼音进行正向和反向解码，产生当前待解码字符对应的隐藏层矩阵h_t’，并采用注意机制产生当前待解码字符对应的一组权重，该组权重包含拼音序列中每个字符拼音对应的重要性权重；

4)将所有字符拼音的隐藏层矩阵h_t和对应的权重进行加权求和，获得语境矩阵C_t；

2.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法，其特征在于，步骤1)中，在将数据集中的句子转换为对应的拼音序列前还包括对含有中文预料的数据集进行预处理：

统计数据集中的句子频率，将句子按频率排列；

3.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法，其特征在于，所述的神经网络为长短记忆网络，门控制基本单元或递归神经网络。

4.根据权利要求3所述的基于拼音的编码与解码模型的中文纠错方法，其特征在于，所述的神经网络为长短记忆网络或门控制基本单元，编码模型与解码模型的层数为2层或4层。

5.根据权利要求4所述的基于拼音的编码与解码模型的中文纠错方法，其特征在于，编码模型从输入拼音向量输入开始往上的循环神经网络单元的前n层单元使用双向单元，编码拼音序列正向与反向的序列信息；当总层数为2层时，双向单元为1层，当总层数为4层时，双向单元的层数取1层或2层。

6.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法，其特征在于，步骤5)中，Multinomial Cross Entropy Loss的计算公式为：

其中，K表示字典大小，m表示同时输入网络训练时的句子数量，T表示每一句话的字数，

代表第i句话，第t个拼音字符的向量，

7.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法，其特征在于，步骤5)中，反向解码对应Loss的权值α的范围为[0.5，0.7]，正向解码对应Loss的权值为1-α。

8.根据权利要求7所述的基于拼音的编码与解码模型的中文纠错方法，其特征在于，α的取值为0.5。

9.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法，其特征在于，步骤7 )中，对编码模型和解码模型进行优化的方法为采用SGD或Adam算法更新模型参数。

10.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法，其特征在于，步骤8 )中，所述的阈值t的取值区间为[0.5，1)。