CN111178089A

CN111178089A - 一种双语平行数据一致性检测与纠正方法

Info

Publication number: CN111178089A
Application number: CN201911324133.3A
Authority: CN
Inventors: 杜权; 李自荐; 朱靖波; 肖桐; 张春良
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-19
Anticipated expiration: 2039-12-20
Also published as: CN111178089B

Abstract

本发明公开一种双语平行数据一致性检测与纠正方法，步骤为：对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作，并组成双语平行数据集；对双语平行数据集执行词对齐信息获取操作，得到数据集中句子的词汇对应关系并进行辅助判断，得出实体对应表；如果句对间序号不一致，则进行纠正；在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测；对检测到的存在括号内容不一致性进行评估，并给出修正或删除操作；获取数据中出现的单词粘连情况并进行拆分修正；得到最终经过数据处理后的双语平行数据集。本发明对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正，改善了双语数据质量，提升神经机器翻译性能。

Description

一种双语平行数据一致性检测与纠正方法

技术领域

本发明涉及机器翻译领域，具体为一种双语平行数据一致性检测与纠正方法。

背景技术

近年来，使用深度神经网络构建的机器翻译***，简称神经机器翻译技术，成为目前人工智能方向的主流。但是，作为一种具有超强学***行语料进行支撑。总体来说，双语数据语料质量的好坏将严重影响着神经机器翻译模型性能。但是，随着目前互联网技术的发展，网络上虽然存在大量的非结构化双语平行数据，但其质量并不能得到保证，而在现有的双语平行语料中，除去句子互译性极差的句对之外，如语种错误、句子严重漏译等问题，数据中的噪声主要来自于其中的一些微小的问题，但是这也将对神经机器翻译模型的训练效果产生严重影响。

在以往的研究工作中，基于神经机器翻译双语平行语料的有关工作中的一项重要任务数据一致性处理，对于数据中存在的某些实体对应不一致、单词黏连、序号不一致等情况，利用一般的检测方法很难正确识别出这些问题，原因是这些问题对于某些自动化句子互译性评估指标的影响往往是微小的。但是，对于这些微小问题的处理工作是重要的，原因是数据中存在以上情况将可能导致神经机器翻译模型最终的译文结果出现同样的问题，影响模型最终生成译文的效果。

在机器翻译领域，神经机器翻译模型训练语料质量提升一直都是研究的重点方向，其中一个最主要的原因即为由于目前数据语料来源的多样性，导致在双语数据中可能会存在各种各样的问题。在计算机视觉领域中，去除训练数据中的噪声，使训练数据呈现高质量的状态是训练神经网络模型的重中之重，改善模型学***行句对来支撑模型训练。因此，数据质量的不足往往造成了模型性能的缺陷。就神经机器翻译来说，其用于训练的深度神经机器翻译模型本身就具有超强的学习能力，因此对其训练数据中的细节问题非常敏感，如果在其训练数据中存在过多细节性的问题，很大可能将会造成最终模型性能的缺陷，影响翻译效果及使用体验。

发明内容

针对现有技术中神经机器翻译模型训练的过程中，双语数据语料质量参差不齐，需要在现有数据的基础上对数据中出现的各项问题进行根本性的改进，提升数据质量，本发明要解决的问题是提供一种双语平行数据一致性检测与纠正方法，用以解决由数据原因造成神经机器翻译模型翻译质量较差的问题。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种双语平行数据一致性检测与纠正方法，包括以下步骤：

1)在公开数据集网站中获取指定语种方向的双语平行语料公开数据集作为数据一致性纠正的基础数据集，在基础数据集中分别以源语言以及目标语句子分别组成单语数据集，作为后续句子一致性纠正规则学习的主要数据集；

2)使用开源的单词切分技术，对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作，并使用经过分词后的数据集组成最终经过分词后的双语平行数据集；

3)使用fast_align词对齐技术对分词后的双语平行数据集执行词对齐信息获取操作，得到数据集中句子的词汇对应关系；

4)根据分词后双语平行数据集，对每一个句子中出现的命名实体对应关系进行出现频率统计，同时，利用词汇对应关系进行辅助判断，得出实体对应表；利用该实体对应表进行句子命名实体一致性纠正；

5)根据获取得到的分词后的双语平行数据集，判断句对间是否存在序号不一致性情况，如果存在不一致情况，则对出现序号不一致情况的句对进行纠正，保证最终经过处理后的数据互译性；

6)根据获取得到的词汇对应关系，在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测；同时，对检测到的存在括号内容不一致性进行评估，由最终评估结果决定括号内容的对应情况并给出修正或删除操作；

7)从获取得到的分词后双语平行数据集中的数据实际情况出发，获取数据中出现的单词粘连情况并进行拆分修正，在修正前判别当前问题位置的可拆分性，最大限度地保证拆分准确性，保证数据质量；

8)对基础数据集中的全部句对进行上述一致性检测方法后，得到最终经过数据处理后的双语平行数据集，使该双语平行数据集相较于原本的基础数据集具有更少的数据噪声，更高的数据质量。

步骤4)中，使用数据集中词汇对应性出现频率以及词汇对应关系，利用词汇对应关系生成命名实体对应频率表，根据高频对应关系生成标准实体对应频率表，并根据标准实体对应频率表对出现对应性不一致句子的规范性进行纠正。

步骤5)中，使用词对齐信息和句对的实际情况进行句子序号对应，选择当前出现情况的具体处理方式，并将当前句对中的序号部分进行修正，保证其句子对应性，具体为以一端句子为标准，在保证序号部分一致性的前提下，对另一端的句子的序号部分使用标准句子的序号内容进行替换。

步骤6)中，使用词对齐信息对数据中的括号内容一致性进行评估，保证句子中存在括号情况的句子互译性与一致性，具体评估方法为提取一端句子括号部分内容，并利用词对齐信息计算该端括号部分内容与另一端句子内容对应概率，通过该概率值评估括号内容一致性。

步骤7)中，使用词对齐信息以及单词对应频率指标，句子中指定位置是否存在单词黏连情况，同时，对当前可能存在单词黏连问题位置的可处理性进行评估，作出最合理的处理方式。

本发明具有以下有益效果及优点：

1.本发明在原有数据处理任务的基础上，根据基础句子集合中的双语句对，使用基于词对齐技术以及新词发现思想的方法，能够有效的对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正，有效地改善了双语数据质量，并能够间接地提升神经机器翻译性能。

2.本发明使用基于词对齐技术以及对应频率统计的方式实现数据质量提升，架构透明，对存在对应不一致性、单词黏连等情况的句子均能够达到有效处理，是一种通用的数据清洗方法，能够快速地对句子问题进行纠正，根据其具体实际情况进行相应的处理操作，达到一种相对高效且准确的数据清洗方法。程序结构简单，运行速度快。

附图说明

图1为本发明方法中实体部分一致性检测及纠正方法流程图；

图2为本发明方法中括号内容对应性检测及纠正方法流程图；

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明提出一种有效的数据纠正方法，使用多种技术手段进行双语数据问题纠正，是一种轻便快捷的数据纠正方法。

步骤1)中，使用具有互译关系的公开双语数据集作为数据一致性纠正的基础数据集合。就机器翻译训练数据获取的实际情况来说，其中主要来源即为依赖公开数据集的收集与整理，但由于数据来源多样，数据质量的好坏并不能得到保证。

目前通常来说训练一个优质的神经机器翻译模型都需要高质量大规模的双语平行数据进行训练支撑。然而对于获取得到的大规模数据集来说，保证数据质量是困难的，因此使用计算机进行自动数据噪声处理是非常重要的操作。对于上述情况，本发明使用现有公开双语数据集，对数据集中出现的多种复杂的数据噪声情况进行处理，得到具有更高数据质量的双语互译句子，使最终获取得到的数据集合能够拥有更加优质的数据质量供给神经机器翻译模型训练，是最终的翻译模型拥有更好的性能。

步骤2)中，利用开源单词切分方法，根据源语数据以及目标语数据对应的语种方向对其分别进行单词切分操作，将原始句子切分成为单词序列的形式。

本发明根据现有双语句子序列，依据开源的单词切分方法对数据进行单词切分操作。其作用主要是为神经机器翻译模型训练的下游任务提供数据支持，其原因为后续许多操作步骤均需要依赖单词序列进行完成，进行这一步操作能够使后续步骤中的操作顺利进行。

步骤3)中，根据开源词对齐方法fast_align技术对步骤2)中获取得到的经过分词后的数据集进行词对齐处理，每一条双语句对的单词对应信息，方便后续步骤处理。

步骤4)中，使用数据集中词汇对应性出现频率以及词汇对应关系，利用词汇对应关系生成命名实体对应频率表，根据高频对应关系生成标准实体对应频率表，并根据标准实体对应频率表对出现对应性不一致句子的规范性进行纠正。其主要目的是用于纠正数据中的命名实体的不对应性，处理对象为组织机构名称缩写部分。其原因是该对象普遍长度较短，一般均为一定长度的英文大写字母表示，特殊情况较少，双语数据两端通常需要保持一致，处理过程能够产生较少的歧义性，保证数据质量。在处理过程中，方法将首先对源语言句子中由连续大写字母单词进行提取，同时设置长度阈值L对超过该阈值的被提取单词进行舍弃，原因是方法认为长度过长的组织机构名称处理操作风险程度较高。另外，根据步骤3)中获取的单词对应信息对目标语句子中的对应部分进行获取，能够正确对应的情况必须为源语当前位置与目标语对应位置具有双向对应性。另外，本步骤还将会对获取到的实体对应实例出现频率进行统计，选取高频出现的对应情况作为标准，频率阈值设置为θ。实体对应情况频率高于θ的部分将组合成为标准实体对应表。对于剩余不在表中的实体对应部分，将根据标准对应情况表进行规范化处理。如图1所示。

步骤5)中，使用词对齐信息和句对的实际情况进行句子序号对应，选择当前出现情况的具体处理方式，并将当前句对中的序号部分进行修正，保证其句子对应性，具体为以一端句子为标准，在保证序号部分一致性的前提下，对另一端的句子的序号部分使用标准句子的序号内容进行替换。根据步骤2)中获取得到的分词后的双语平行句对最终结果，判断双语句对中是否存在序号不一致性情况，并对出现的序号不一致情况句对进行相关纠正，并保证最终经过处理后的数据互译性；

在双语数据中，经常会出现句子句首部分出现序号的情况，但由于某些数据处理操作失误，可能造成句首序号不对应或序号丢失的情况，若训练数据中存在大量出现该问题的句对，将会造成模型在对带有序号内容的句子进行翻译的过程中，在其译文结果中造成序号不对应情况。在该步骤中，方法对句首部分长度范围为R的部分出现数字的句对进行提取，得到带序号数据集T_s。经过分析得知，对于T_s中序号不对应情况主要利用以下几种手段进行处理：

(1)两端均存在序号部分，序号部分格式健全，虽存在对应关系，但其序号格式不对应，需要对其格式进行纠正。具体纠正方法以源语句子序号部分作为标准，方法将去除目标语序号部分，并直接将源语句子中的序号添加到目标语句子原本的序号位置。

(2)源语以及目标语两端只有一端存在序号，另一端序号部分或全部丢失。对于存在此种情况的部分需要对其进行补齐。具体纠正方法为以存在序号一端句子作为标准，对该端句子序号部分进行提取并直接补充到另一端句子对应位置，保证其序号对应性。

(3)源语及目标语句首长度为R的部分存在数字，但不为序号，对于该种情况的句对将不对其进行处理。

在步骤6)中，使用词对齐信息对数据中的括号内容一致性进行评估，保证句子中存在括号情况的句子互译性与一致性，具体评估方法为提取一端句子括号部分内容，并利用词对齐信息计算该端括号部分内容与另一端句子内容对应概率，通过该概率值评估括号内容一致性。在双语平行数据集中，通常来说许多句子中将会包含一部分括号内容，括号中的部分在句中主要起到解释说明的作用。在现有训练数据集中，经常会出现源语句子与目标语句子括号内容不能正确对应的情况，也就是两端括号内容不互译或括号内容丢失的情况，使用带有这种句对的数据集对神经机器翻译模型训练后将对模型最终的翻译效果产生很大影响。

在该步骤中，方法首先根据在步骤1中得到的基础双语数据集，获取源语或目标语带有括号内容的句子，组成数据子集T_b。使用T_b数据集，在该数据集的基础上对每一条句对分别进行句子括号内容提取操作，若源语言句子以及目标语言句子均存在括号内容，则分别对其括号内容进行提取，并使用步骤3中获取的词对齐结果，获取两端括号内容的互译情况。若其括号内容互译，则不对当前句子进行处理。若其括号内容不对应，则方法视为当前句对存在漏译或错译的情况，需要对当前句对进行舍弃。另外，若当前句对只有一端句子存在括号内容，则直接对当前句对进行舍弃。

方法将句子互译性概率高于某一阈值θ的句子视为存在互译关系。互译性概率推断公式如下所示：

其中N_m为源语及目标语之间相互对应的单词数量，N_s及N_t分别为源语及目标语句子的单词数量。

另外，根据以上的对应性推断，我们可以得出以下几种情况：(1)源语或目标语句子中均存在含括号内容，且其括号内容相互对应。(2)源语或目标语句子均存在括号部分，但其括号内容不对应。(3)源语或目标语句子只有一端存在括号部分。该步骤方法具体实施方式如图2所示。

在步骤7)中，使用词对齐信息以及单词对应频率指标，句子中指定位置是否存在单词黏连情况，同时，对当前可能存在单词黏连问题位置的可处理性进行评估，作出最合理的处理方式。对源语句子以及目标语句子中的词汇黏连部分进行检测并拆分。在该步骤中，方法通过利用自动化的方式对存在单词黏连情况的句子进行提取，并按照标准的词表对其进行拆分。

方法首先根据步骤2)中获取得到的分词后的双语平行数据集，对两个语种方向所有出现的单词进行频率统计，使用频率高于阈值φ的单词组成对应语种方向的标准高频词表，限定频率阈值φ的目的主要是保证词表中的单词均为数据中高频出现的常见词，对于罕见词将不进行黏连词拆分处理。根据对应语种方向的高频词表检测句子中是否存在黏连词部分，具体检测方式为判断句子中是否出现在一定长度范围内的连续字符子串，字符子串由对应语种方向的高频词表中的多个单词组成，限定处理黏连词的阈值长度范围为[10，20]，设定该阈值的作用是避免当黏连词过长或过短出现拆分歧义性。

在步骤8)中，对基础数据集中的全部句对进行一致性检测后，得到最终经过数据处理后的双语平行数据集，相较于原本的基础数据集具有更少的数据噪声，更高的数据质量。

本实施例使用OPUS英-法双语数据集作为基础数据集，另外使用newtest2015测试数据集，使用本发明方法的数据一致性检测与纠正方法对基础数据集进行处理后，能够使存在内容不一致情况的句对内容得到纠正，得到高质量数据集，相较于基础数据集拥有更高的数据质量。使用高质量数据集训练后的神经机器翻译模型与使用基础数据集训练后的神经机器翻译模型能够具有更高的BLEU值评分。实验效果如下。

Base-Method代表使用基础数据集作为训练集合得到的神经机器翻译模型在测试集newtest2015上的BLEU值结果；Check-Method代表使用数据一致性检测与纠正方法进行改进后的高质量数据集作为训练集合得到的神经机器翻译模型在测试集newtest2015上的BLEU值结果；

由上述实验结果可知，本发明方法能够对数据集中存在数据内容不一致情况的句子进行准确检测与修正，以此来提升机器翻译模型效果。方法利用词对齐、新词发现等技术和思想，分别实现了在原有数据集的基础上对数据集的质量进行提升，修正数据中存在的几种主要的不对应性问题，为最终模型训练数据的整体质量提升作出了突出的贡献。

Claims

1.一种双语平行数据一致性检测与纠正方法，其特征在于包括以下步骤：

2.根据权利要求1所述的双语平行数据一致性检测与纠正方法，其特征在于：步骤4)中，使用数据集中词汇对应性出现频率以及词汇对应关系，利用词汇对应关系生成命名实体对应频率表，根据高频对应关系生成标准实体对应频率表，并根据标准实体对应频率表对出现对应性不一致句子的规范性进行纠正。

3.根据权利要求1所述的双语平行数据一致性检测与纠正方法，其特征在于：步骤5)中，使用词对齐信息和句对的实际情况进行句子序号对应，选择当前出现情况的具体处理方式，并将当前句对中的序号部分进行修正，保证其句子对应性，具体为以一端句子为标准，在保证序号部分一致性的前提下，对另一端的句子的序号部分使用标准句子的序号内容进行替换。

4.根据权利要求1所述的双语平行数据一致性检测与纠正方法，其特征在于：步骤6)中，使用词对齐信息对数据中的括号内容一致性进行评估，保证句子中存在括号情况的句子互译性与一致性，具体评估方法为提取一端句子括号部分内容，并利用词对齐信息计算该端括号部分内容与另一端句子内容对应概率，通过该概率值评估括号内容一致性。

5.根据权利要求1所述的双语平行数据一致性检测与纠正方法，其特征在于：步骤7)中，使用词对齐信息以及单词对应频率指标，句子中指定位置是否存在单词黏连情况，同时，对当前可能存在单词黏连问题位置的可处理性进行评估，作出最合理的处理方式。