CN117010368A

CN117010368A - 一种基于字形相似的中文纠错数据增强方法

Info

Publication number: CN117010368A
Application number: CN202311276973.3A
Authority: CN
Inventors: 矫娟; 崔士川; 杨飞越; 戴林; 李玉
Original assignee: Shandong Qilu Yidian Media Co ltd
Current assignee: Shandong Qilu Yidian Media Co ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-11-07
Anticipated expiration: 2043-10-07
Also published as: CN117010368B

Abstract

本发明提供一种基于字形相似的中文纠错数据增强方法，包括：建立汉字数据集N={w₁,...,w_i,...,w_j,...,w_n}，第i个汉字w_i的标准化笔画笔顺编码为；根据标准化笔画笔顺编码计算数据集N中任意两个汉字w_i、w_j的字形相似度S_j,i，形成n×n的字形相似度矩阵S；利用概率分布模型计算目标词语w中第i个汉字w_i的异形错误写法的标准化笔画笔顺编码为的概率；筛选高于概率阈值的汉字，在其中选择一个与汉字w_i字形相似度S_i,j最高的汉字w_j作为，进而得到整个目标词语w的异形错误写法w^*。本发明通过对现有的数据样本进行扩展相较于现有的数据增强方法，提高数据集的质量和数量，能够更好地提高纠错模型在字形纠错方面的能力。

Description

一种基于字形相似的中文纠错数据增强方法

技术领域

本发明属于自然语言处理（NLP）技术领域，具体涉及一种基于字形相似的中文纠错数据增强方法。

背景技术

中文纠错是一个重要的自然语言处理任务，涉及到自然语言理解、语言模型、词向量等多个方面的知识，当前的中文纠错方法主要分为两类，一类是基于规则的方法，一类是基于统计机器学习的方法。其中，基于规则的方法主要是通过人工涉及的一些规则对文本进行纠错，例如使用语法规则、词汇表、拼音等知识来判断文本是否存在错误，这种方法的优点是对于一些简单的错误能够处理得很好，但是对于一些复杂的错误和异形词汇则表现不佳。

基于统计机器学习的方法则是利用机器学习算法，从大规模的语料库中作为训练集，创建语言模型对文本进行纠错，这种方法的优点是能够处理复杂的错误和异形词汇，但是需要大量的标注数据，才能训练出高质量、高效率的模型。但是通过人工标注的数据方式获取模型训练数据集，标注过程耗时且成本较高，而数据量也比较有限，对于中文纠错模型的训练和性能提升带来了一定的限制，因此如何增加数据集的数据量以及提升数据质量成为一个重要问题。

发明内容

针对现有技术的上述不足，本发明提供一种基于字形相似的中文纠错数据增强方法，以解决上述技术问题。

本发明提供一种基于字形相似的中文纠错数据增强方法，包括：

建立汉字数据集N={w1,...,wi,...,wj,...,wn}，并进行笔画笔顺编码，其中，第i个汉字wi的标准化笔画笔顺编码为；

根据标准化笔画笔顺编码计算数据集N中任意两个汉字wi、wj的字形相似度Sj,i，形成n×n的字形相似度矩阵S；

利用概率分布模型计算目标词语w中第i个汉字wi的异形错误写法的标准化笔画笔顺编码为/>的概率：

其中，汉字w_i的标准化的笔画编码为，/>是对汉字w_i所有可能的异形错误写法w^*的字形相似度求和的结果；

筛选高于概率阈值的汉字，在其中选择一个与汉字w_i字形相似度S_i,j最高的汉字w_j作为，进而得到整个目标词语w的异形错误写法w^*；

选择不同的目标词语w得到不同的异形错误写法w^*，将w和w^*的字形错误关系作为新的样本添加到数据集N中，得到新数据集，使用新数据集/>训练用于实现中文文本字形纠错的文本纠错模型。

进一步的，所述异形错误写法和w_i标准化笔画笔顺编码长度相同；所述异形错误写法/>和w_i差异在于包括替换、删除、添加的笔画、笔顺操作，而非语法、词性。

进一步的，任意两个汉字w_i、w_j的字形相似度S_j,i根据基于改进形码的单个汉字相似度检测算法进行计算，该基于改进形码的汉字相似度检测算法考虑的因素包括：汉字笔画笔顺编码最长公共子串占比、汉字笔画笔顺编码最长公共子串位置差、汉字笔画、汉字结构码，具体方法包括：

分别计算汉字a、b对应的笔顺编码、字形结构码和笔画数；

获取汉字a、b的笔画笔顺编码的公共子串，所述公共子串为两者的编码中连续相同的字符串，比较a、b汉字笔画笔顺编码的长短，得到两者编码中的较短的长度d=Min(lena，len b)，两者编码中的较长的长度s=Max(len a，len b)，计算最长公共子串长度为Lcs＿len，得到汉字笔画笔顺编码最长公共子串占比；

计算汉字笔画数差值c=|len a-len b|，得到笔画数差值对相似度的贡献比；

计算笔顺编码最长公共子串的位置差，获取汉字a的笔顺编码中最长公共子串位置a＿p，汉字b的笔顺编码中最长公共子串位置b＿p，其中a＿p和b＿p分别为最长公共子串第一位字符在笔画笔顺编码中的位置，汉字笔画笔顺编码最长公共子串位置差p=|a＿p-b＿p|，得到最长公共子串位置对字形相似度的贡献比；

计算两个汉字结构码的汉明距离ham，得到汉字结构码贡献度；

字形相似度计算公式Simxing(a，b)= ，其中，设置汉字笔画笔顺编码最长公共子串占比、汉字笔画数、汉字笔画笔顺编码最长公共子串位置差、汉字结构码的贡献参数α，β，i，j。

进一步的，基于汉字字形单个特征的中文字符串加权编辑距离相似度算法，计算中文字符串s1、s2的字形相似度Sim(s1，s2)；具体方法包括：

计算中文字符串s1、s2中的长度较短者min＿s=Min(s1，s2)，计算中文字符串s1、s2中的长度较长者max＿s=Max(s1，s2)，并将min＿s和max＿s中的所有汉字转为形码；

将min＿s中的所有汉字与max＿s中的所有汉字遍历进行单个汉字相似度计算，以min＿s中每个汉字为对照，对应寻找max＿s中的相似度最近的汉字，将max＿s重新排序；

如果min＿s与max＿s等长且完全匹配，即每个汉字匹配组相似度都为1，则不考虑位置因素直接计算字形相似度，其中sum＿sim为对应位置每组汉字的相似度和；否则计算位置影响因素/>，其中sum＿position为max＿s的字符位置交换前后的位置差的绝对值之和；

将发生位置交换的max＿s与min＿s用加权编辑距离算法求编辑距离，即lds(max＿s，min＿s)，具体的计算方法为：

；

根据编辑距离计算中文字符串s1、s2的字形相似度；

。

进一步的，通过求取N个正确的中文字符串，可以基于字形相似，创建出若干个包含字形相似错误的错误语句，作为纠错训练数据的噪声，增强针对字形纠错的训练数据。

本发明的有益效果在于：通过对汉字的笔顺笔画进行标准化编码，从而提取出相似字形的字词，提供改进形码的单个汉字相似度检测算法实现单个汉字的相似度计算，提供基于汉字字形单个特征的中文字符串加权编辑距离相似度算法实现汉字字符串的相似度计算。这样扩充的训练样本能够更好地反映出实际使用中的字形错误情况，从而增加文本纠错模型在字形纠错方面的能力。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

图1是本发明一个实施例的方法的示意性流程图。如图1所示，该方法包括：

步骤110，汉字样本笔画笔顺编码：

建立汉字数据集N={w₁,...,w_i,...,w_j,...,w_n}，并进行笔画笔顺编码，其中，第i个汉字w_i的标准化笔画笔顺编码为。

在本实施例中，原有的存储汉字样本的汉字数据集N可以采用信息交换用汉字编码字符集·基本集”(GB2312-80)的6763个汉字，或者，采用网页爬虫的获取的原始数据，并对原始数据进行预处理，包括去除特殊符号、停用词和数字等。编码部分使用《通用规范汉字笔顺编码表》获取汉字的编码结果，或者将汉字的基本笔画确定为六种：点、横、竖、撇、捺、折，遵守《现代汉语通用字笔顺规范》国家标准的笔顺，采用市面上已有的笔顺声码汉字输入技术方案或者八码笔顺笔画汉字编码方法进行编码。

步骤120，字形相似度计算：

根据标准化笔画笔顺编码计算数据集N中任意两个汉字w_i、w_j的字形相似度S_j,i，形成n×n的字形相似度矩阵S。

在本实施例中，计算得到的具体的S_j,i，按照i，j顺序排列成n×n的矩阵，0<i，j<n，且i，j为自然数，相似度计算方法可以采用现有的笔画相似度算法、轮廓距离算法等，本发明不作过多阐述。

步骤130，异形错误写法确定：

利用概率分布模型计算目标词语w中第i个汉字w_i的异形错误写法的标准化笔画笔顺编码为/>的概率：/>

其中，汉字w_i的标准化的笔画编码为，/>是对汉字w_i所有可能的异形错误写法w^*的字形相似度求和的结果。

在本实施例中，对于目标词语传统方式一般采用相似计算和词性比对等方法，计算得出目标词语的异形错误写法。本发明提供了一种全新的基于概率模型的计算方法，可以用于计算目标词语的异形错误写法，即确定目标词语被纠错的字形相似词语。

假设目标词语为w，其标准化的笔画编码为h_w，本发明计算得出w的异形错误写法w^*需要满足以下两点要求：一是保证字形不会出现较大差异而导致过拟合，w和w^*的编码长度相同，不能有较大差异，如口字与目字；二是w和w^*的差异主要集中在字形本身上，即w和w^*的差异主要是由于某些汉字的笔画被替换、删除、添加等操作导致的，而非由于语法、词性的不同。

为了计算w的异形错误写法w^*，本发明提供一种基于概率模型的计算方法。首先，将目标词语w中的每个汉字都作为一个随机变量，即w中的第 i个汉字为w_i，汉字w_i的标准化的笔画编码为，同理将w_i的异形错误写法/>也作为一个随机变量，并假设/>满足如下的概率分布：/>；

这个概率公式的含义是，对于第i个汉字w_i，可以通过字形相似度矩阵S计算出与w_i相似的所有汉字的概率分布，然后按照这个概率分布，随机选择一个字形相似度最高的汉字作为的值。通过上述方式遍历目标词语w中的所有的汉字w_i，然后将得到的/>重新按顺序拼接在一块，就可以得到整个目标词语w的异形错误写法w^*。

步骤140，汉字样本扩充：

通过本发明提供字形相似度矩阵和基于概率模型的计算方法实现了数据集的扩充，使得扩充后的数据集具备字形相似纠错的数据样本，通过扩充后的数据集训练文本纠错模型，使得文本纠错模型能够更好地捕捉到汉字字形之间的相似性，从而增加了文本纠错模型在字形纠错方面的能力。该文本纠错模型可以是基于bert的文本纠错模型，例如复旦大学和字节跳动联合发布的Soft-masked bert，该模型的结构不是本发明的创新点，在此不再赘述。

此外本发明实施例还提供一种方法对汉字形码进行改进，具体如下：

根据汉字编码规则，任何汉字的结构都可以分成横、竖、撇、捺、折，即五笔结构。按照这个思路，可以将每个汉字的书写笔画对应相应的五笔编码，然后根据笔画出现的顺序，依次记下编码，即得到笔顺编码，其中笔画数即笔顺编码的字符长度。而笔顺编码是比较成熟的汉字表示方式，比较容易得到。按照编码规则对任意汉字生成的编码字符串，简称汉字笔顺编码。汉字笔画编码规则见表1。

笔画	笔画编码
		横	1
竖	2
		撇	3
捺	4
		折	5

如，‘优’由撇、竖、横、撇、竖弯钩、点组成，根据对照表，对照生成笔顺编码“321354”。

笔顺编码反映了汉字的组成，相同的的编码说明有相同的笔画顺序组成，在一定程度上可以反映汉字的相似程度，再加上汉字的结构，这样从组成因素和组成方式大致描述了汉字字形，由这两部分编码计算出来的相似度，可以描述出汉字的直观形状。

本发明实施例还提供一种基于改进形码的单个汉字相似度检测方法，实现单个汉字相似度计算，即像该算法中输入汉字a、b，输出汉字a、b的字形相似度Simxing(a，b)。本方法综合考虑汉字笔顺编码最长公共子串占比、汉字笔顺编码最长公共子串位置差、汉字笔画、汉字结构码四个因素，设计基于改进形码的汉字相似度检测算法。

通常笔画在一定程度可以反馈汉字的复杂程度，笔画越多通常字形越复杂，笔画数差异越大则可以体现字形相似度越小。不同汉字的笔顺编码并不是等长的，所以其相似度可以根据编码的最长公共子串来度量，最长公共子串便是两个相似的字形笔画组成部分，相似笔画越多，即最长公共子串占比越多，字形越相似。相似笔画所在的位置也是影响字形相似度的一大因素。如，‘时’的笔顺编码为“2511124”，而‘如’的笔顺编码为“531251”，可知两个字的笔顺编码最长公共子串为“251”，根据人们看汉字字形相似的习惯，字形的相似很大程度受到相似结构位置的影响，由编码“251”可知，他们相似的结构分别为少最后一笔的‘日’以及‘口’。按照习惯，完全不会将这两个字联系在一起。因此需要考虑最长公共子串在笔顺编码里的位置差，位置差越小，相似度越高。

该方法的具体步骤如下：

分别计算汉字a、b对应的笔顺编码、字形结构码和笔画数；

获取汉字a、b的笔画笔顺编码的公共子串，所述公共子串为两者的编码中连续相同的字符串，比较a、b汉字笔画笔顺编码的长短，得到两者编码中的较短的长度d=Min(lena，len b)，两者编码中的较长的长度s=Max(len a，len b)，计算最长公共子串长度Lcs＿len，得到汉字笔画笔顺编码最长公共子串占比；

计算结构码的汉明距离ham，得到汉字结构码贡献度；

字形相似度计算公式Simxing(a，b)= ，其中，设置汉字笔画笔顺编码最长公共子串占比、汉字笔画数、汉字笔画笔顺编码最长公共子串位置差、汉字结构码的贡献参数α，β，i，j。在本实施例中，本文分别设置为α=0.6，β=0.2，i=0.1，j=0.1。

本发明实施例还提供一种基于汉字字形单个特征的中文字符串加权编辑距离相似度算法，计算中文字符串s1、s2的字形相似度Sim(s1，s2)；

将中文相似度计算分为一阶相似度计算和二阶相似度计算，即汉字相似度计算和中文字符串相似度计算。其中二阶相似度计算采用加权编辑距离，这种计算方式替换、删除的操作代价不单纯用0，1表示，而是利用单个汉字对比后的相似度表示。由于中文词语存在改变字的顺序而意思不变的情况，如，“互相-相互”，“察觉-觉察”等，按照此方法，没法识别这些词其实是同一个词，所以不能单纯按照字序分别比对词语中汉字的相似度。

基于加权编辑距离，将词语中的每个汉字转换编码后，分别比对，找出相互能够匹配的最高精度词语，然后计算其位置代价。如果词语中的每个汉字都能找到自己精确匹配的汉字，则不计算位置代价。如，“不好-好坏”，显然两个字符串都有共同的汉字‘好’，首先将各自最高精度的字符相互匹配，则得到“不好-坏好”，然后再用加权编辑进行计算相似度，最后考虑位置替换代价。但是如果单纯按照顺序比对，则无法将这两个字符串联系在一起。而“互相-相互”，则各自能完全匹配，这时则不计位置代价，可以得到其相似度为1。

该方法具体步骤包括：

将min＿s中的所有汉字与max＿s中的所有汉字遍历进行单个汉字相似度计算，以min＿s中每个汉字为对照，对应寻找max＿s中的相似度最近的汉字，将max＿s重新排序；如：“教师-你教的师”，则变成“教师-教师你的”；“相互-互相”，计算后得到“相互-相互”。

如果min＿s与max＿s等长且完全匹配，即每个汉字匹配组相似度都为1，则不考虑位置因素直接计算字形相似度，其中sum＿sim为对应位置每组汉字的相似度和；否则计算位置影响因素/>，其中sum＿position为max＿s的字符位置交换前后的位置差的绝对值之和；字符位置交换前后指的是前述的匹配时max＿s的字符位置发生交换。

；

根据编辑距离计算中文字符串s1、s2的字形相似度；

。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内或任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于字形相似的中文纠错数据增强方法，其特征在于，包括：

建立汉字数据集N={w₁,...,w_i,...,w_j,...,w_n}，并进行笔画笔顺编码，其中，第i个汉字w_i的标准化笔画笔顺编码为；

根据标准化笔画笔顺编码计算数据集N中任意两个汉字w_i、w_j的字形相似度S_j,i，形成n×n的字形相似度矩阵S；

利用概率分布模型计算目标词语w中第i个汉字w_i的异形错误写法的标准化笔画笔顺编码为/>的概率，所述概率分布模型为：

；

选择不同的目标词语w得到不同的异形错误写法w^*，将w和w^*的字形错误关系作为新的样本添加到数据集N中，得到新数据集N^*，使用新数据集N^*训练用于实现中文文本字形纠错的文本纠错模型。

2.根据权利要求1所述的方法，其特征在于，所述异形错误写法和w_i的标准化笔画笔顺编码长度相同；所述异形错误写法/>和w_i差异在于包括替换、删除、添加的笔画、笔顺操作，而非语法、词性。

3.根据权利要求1所述的方法，其特征在于，任意两个汉字w_i、w_j的字形相似度S_j,i根据基于改进形码的单个汉字相似度检测算法进行计算，该基于改进形码的汉字相似度检测算法考虑的因素包括：汉字笔画笔顺编码最长公共子串占比、汉字笔画笔顺编码最长公共子串位置差、汉字笔画、汉字结构码，具体方法包括：

分别计算汉字a、b对应的笔顺编码、字形结构码和笔画数；

获取汉字a、b的笔画笔顺编码的公共子串，所述公共子串为两者的编码中连续相同的字符串，比较a、b汉字笔画笔顺编码的长短，得到两者编码中的较短的长度d=Min(len a，len b)，两者编码中的较长的长度s=Max(len a，len b)，计算最长公共子串长度为Lcs＿len，得到汉字笔画笔顺编码最长公共子串占比；

字形相似度计算公式Simxing(a，b)=，其中，设置汉字笔画笔顺编码最长公共子串占比、汉字笔画数、汉字笔画笔顺编码最长公共子串位置差、汉字结构码的贡献参数α，β，i，j。

4.根据权利要求1所述的方法，其特征在于，还包括：基于汉字字形单个特征的中文字符串加权编辑距离相似度算法，计算中文字符串s1、s2的字形相似度Sim(s1，s2)；具体方法包括：

；

根据编辑距离计算中文字符串s1、s2的字形相似度：

。

5.根据权利要求4所述的方法，其特征在于，通过求取N个正确的中文字符串，基于字形相似，创建出若干个包含字形相似错误的错误语句，作为纠错训练数据的噪声，增强针对字形纠错的训练数据。