CN108363704A

CN108363704A - 一种基于统计短语表的神经网络机器翻译语料扩展方法

Info

Publication number: CN108363704A
Application number: CN201810175915.4A
Authority: CN
Inventors: 黄河燕; 史学文; 鉴萍; 唐翼琨
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2018-08-03

Abstract

一种基于统计短语表的神经网络机器翻译语料扩展方法，属于机器翻译技术领域。本发明针对神经网络机器翻译技术提出了一种基于统计短语表的机器翻译语料扩展方法，可以在机器翻译原始训练集的基础上有效扩展语料规模；本方法主要包含：训练集扩展阶段和模型训练阶段；阶段一通过统计机器学习方法从原始训练集中学习短语表并将其按照一定的过滤规则与原始训练集融合成新的扩展后的训练集，阶段二对神经机器翻译模型进行训练，先通过扩展后的训练集进行预训练，再由原始训练集进行训练以调优，得到最终模型；实验结果表明，本发明与不使用语料扩展方法的机器翻译模型相比，BLEU测评指标明显提升。

Description

一种基于统计短语表的神经网络机器翻译语料扩展方法

技术领域

本发明涉及一种基于统计短语表的神经网络机器翻译语料扩展方法，属于计算机应用以及机器翻译技术领域。

背景技术

机器翻译是利用计算机自动地将一种语言(源语言)翻译成另外一种语言(目标语言)的技术。

随着人工神经网络和深度学习技术的发展，基于深度学习技术的神经网络机器翻译技术(以下简称神经机器翻译)在近几年取得了重要的成就。神经机器翻译具有：需要的语言学知识和人工的干预少，模型存储所占空间小，翻译输出的译文流畅自然等优势。在面向双语资源丰富的的翻译任务上，神经机器翻译通常被认为是最好的选择。目前，神经机器翻译已经受到机器翻译领域的广泛关注和认可，并已投入商用。

训练神经网络的数据以双语平行句对为主。通常，神经机器翻译所用的神经网络模型具有大规模的自由参数，理论上，这类模型需要大规模的双语平行语料对其进行训练。经验表明，包含千万级别自由参数的神经机器翻译模型通常需要至少百万句对级别的数据进行训练方可获得理想效果。对于一些双语平行资源较为稀缺的语言，应用神经网络进行翻译难以获得满意效果。

此外，神经机器翻译的训练通常以一个或一组(多个)完整的句对为单位进行，当语料资源稀缺时，对句对中包含的一些出现频率较低的短语学习的能力受限，尤其在单独翻译这些短语时。

发明内容

本发明针对资源稀缺语言的神经机器翻译的模型训练问题，提出了一种基于统计短语表的神经网络机器翻译语料扩展方法，能有效扩展神经机器翻译模型的训练数据，缓解语言资源稀缺对模型训练的不利影响。

本发明包含：训练集扩展阶段和模型训练阶段；

其中，A)训练集扩展阶段的操作如下：通过统计机器学***行短语对数据集，将新抽取出的数据集与原始训练集拼接得到新的双语平行伪数据，实现训练集的扩展；

B)模型训练阶段的操作分为两个步骤，步骤一是预训练，即将阶段A)得到的双语平行伪数据对模型进行预训练，训练后得到预训练好的模型b₁；步骤二利用原始训练集重新对模型b₂进行训练，目的为对模型进行调优，缓解伪数据中引入的噪声对模型的影响；

为实现上述目的和技术，本发明采用的技术方案如下：

首先进行相关定义，具体如下：

定义1：源语言，即机器翻译中，进行翻译时将要被翻译的内容所属的语言，例如从中文翻译到英文的机器翻译中，中文为源语言；

定义2：源语言数据，即属于源语言的数据，若源语言数据是一个自然语言句子，则该属于源语言的数据称为源语言句子，例如从中文翻译到英文的机器翻译中，输入的中文句子就是源语言数据，亦可称为源语言句子；

由源语言数据组成的集合称为源语言数据集；

定义3：目标语言，即机器翻译中，进行翻译时被翻译成的内容所属的语言，例如从中文翻译到英文的机器翻译中，英文为目标语言；

定义4：目标语言数据，即属于目标语言的数据，若目标语言数据是一个自然语言句子，则该属于目标语言的数据称为目标语言句子，例如从中文翻译到英文的机器翻译中，输出的英文句子就是目标语言数据，亦可称为目标语言句子；

由目标语言数据组成的集合称为目标语言数据集；

定义5：训练集，特指统计机器翻译模型的训练集，即用于训练统计机器翻译模型的数据集合，记为T；

定义6：原始训练集，即经过扩展前的训练集；

定义7：词对齐信息，简称词对齐，即训练集T中，源语言单词和目标语言单词之间的对齐关系，记为α；

其中，若训练集T中，源语言第j个单词与目标语言第i个单词存在对齐关系记为(j,i)；

定义8，短语，一个或多个单词组成的语言单位；

使用的语言为源语言的短语称为源语言短语，记为f，使用的语言为目标语言的短语称为目标语言短语，记为e；

定义9，翻译短语对，源语言短语和对齐的目标语言短语组成的短语对，例如“(‘长城’，‘The Great Wall’)”；

定义10，正向短语翻译概率，即给定源语言短语f时，翻译到目标语言短语e的条件概率，记为

定义11，反向短语翻译概率，即给定目标语言短语e时，翻译回源语言短语f的条件概率。记为

定义12，双向短语翻译概率，正向短语翻译概率和反向短语翻译概率合称为双向短语翻译概率；

定义13，正向词汇化短语翻译概率，给定源语言短语f时，翻译到目标语言短语e的词汇化翻译概率，记为lex(e|f)；

定义14，反向词汇化短语翻译概率，给定目标语言短语e时，翻译回源语言短语f的词汇化翻译概率，记为lex(f|e)；

定义15，双向词汇化短语翻译概率，正向词汇化翻译概率和反向词汇化翻译概率合称为双向词汇化翻译概率；

定义16，短语表，也称为短语翻译表，由多组翻译短语对构成的，并对每组翻译短语对附加上双向短语翻译概率和双向词汇化翻译概率；

定义17，过滤规则，即过滤短语表的规则，根据短语表内所包含的源语言短语、目标语言短语、双向短语翻译概率、双向词汇化短语翻译概率信息对短语表进行过滤的人工制定的规则；

训练集扩展阶段，包括如下步骤：

步骤A1，根据定义1、定义2、定义3、定义4和定义5，对原始训练集进行预处理，得到经过预处理后的原始训练集T_f；

其中，对原始训练集进行预处理的具体过程因不同源语言和目标语言而异，目的为对训练集进行规范化处理，得到经过预处理后的原始训练集T_f；

步骤A2，基于步骤A1得到的经预处理后的原始训练集T_f，并根据定义7和定义8学习词对齐信息，该过程通常利用开源词对齐工具包实现，将步骤A1中得到的经过预处理后的原始训练集作为输入，经过训练词对齐工具的训练，得到训练集的词对齐信息α；

步骤A3，根据定义6，定义7、定义8、定义9、定义10、定义11、定义12、定义13、定义14、定义15和定义16，结合步骤A1得到的经过预处理后的原始训练集T_f以及步骤A2得到的训练集的词对齐信息α，抽取翻译短语对，并对翻译短语对进行概率估计，得到每个翻译短语对的双向短语翻译概率和双向词汇化翻译概率，结合翻译短语对和翻译概率，得到短语表，短语表的每条记录由翻译短语对、词对齐信息、双向短语翻译概率和双向词汇化翻译概率组成；

步骤A4，根据定义9、定义12、定义15、定义16和定义17，利用人工定义的过滤规则，对步骤A3得到的短语表进行过滤，过滤掉概率较低的翻译短语对，得到过滤后的短语表,记为P_new；

步骤A5，根据定义5、定义16，将步骤A4得到的过滤后的短语表P_new中的翻译短语对部分与步骤A1得到的预处理后的原始训练集T_f拼接，得到新训练集T_new；

步骤A1至步骤A5，完成了本方法的训练集扩展阶段；

模型训练阶段，包括如下步骤：

步骤B1，利用步骤A5得到的新训练集T_new对模型进行预训练，得到模型b₁；

步骤B2，利用步骤A1得到的预处理后的原始训练集T_f，对步骤B1得到的模型b₁再次进行训练，得到新训练好的模型b₂；

至此，从步骤B1到步骤B2，完成了本方法的模型训练阶段；

至此，从步骤A1到步骤A5以及步骤B1到步骤B2，完成了一种基于统计短语表的神经网络机器翻译语料扩展方法。

有益效果

本发明一种基于统计短语表的神经网络机器翻译语料扩展方法，与现有的机器翻译训练集使用方法相比，具有如下有益效果：

1.本发明设计了基于统计短语表的神经网络机器翻译语料扩展方法，该方法在不需要额外的双语或单语数据的情况下，可以对原始训练集进行有效的扩展，缓解资源稀缺语言训练集规模小对神经机器翻译模型的训练带来的不利影响。

2.在训练集、开发集和测试集数据相同的情况下，本发明与不使用本发明的神经机器翻译模型训练方法相比，BLEU评测指标有明显提升。

附图说明

图1是本发明一种基于统计短语表的神经网络机器翻译语料扩展方法及实施例中的流程图。

具体实施方式

下面结合附图及实施例对本发明所述方法进行详细叙述。说明时按照本发明包含的两个主要阶段：1)训练集扩展阶段以及2)模型训练阶段，分别进行说明。

实施例1

本实施例叙述了本发明所述方法的流程及其具体实施例。

图1为本发明一种基于统计短语表的神经网络机器翻译语料扩展方法及在本实施例中的流程图。

从图1中可以看出本发明包含的两个阶段1)训练集扩展阶段以及2)模型训练阶段的操作流程。

以维吾尔语到汉语的翻译为例，其中维吾尔语为源语言，汉语为目标语言。

1)训练集扩展阶段：

步骤一，根据定义1、定义2、定义3、定义4、定义5，对原始训练集进行预处理，预处理具体过程因不同源语言和目标语言而异，目的为对训练集进行规范化处理，其中，对源语言维吾尔语以及目标语言汉语的数据的预处理过程均为：先进行词片段(word-piece)切分，再进行词切分(tokenization)，得到经过预处理后的原始训练集T_f；

步骤二，根据定义6和定义7，学习词对齐，在本实施例中，该过程利用开源词对齐工具包GIZA++实现，将步骤一中得到的经过预处理后的原始训练集作为输入，经过训练词对齐工具GIZA++的训练，得到训练集的词对齐信息α；

步骤三，根据定义6，定义7，定义8、定义9、定义10、定义11、定义12、定义13、定义14、定义15和定义16，结合步骤一得到的经过预处理后的原始训练集T_f以及步骤二得到的训练集的词对齐信息α，抽取翻译短语对，并对翻译短语对进行概率估计，本实施例中，利用Moses开源工具中的train-model.perl脚本实现上述功能，得到短语表P，短语表的每条记录由翻译短语对、词对齐信息、双向短语翻译概率和双向词汇化翻译概率组成；

步骤四，根据定义9、定义12、定义15、定义16、定义17，利用人工定义的过滤规则，对步骤三得到的短语表进行过滤，人工定义的规则如下：

保留该翻译短语对，当且仅当该翻译短语对的概率且且lex(e|f)≥0.025，且lex(f|e)≥0.025；

过滤掉概率较低的翻译短语对，得到过滤后的新短语表P_new；

步骤五，根据定义5、定义16，将步骤四得到的过滤后的新短语表P_new的翻译短语对部分与步骤一得到的预处理后的原始训练集T_f拼接，得到新训练集T_new；

2)模型训练阶段的步骤如下：

步骤六，进行模型预训练，本实施例中采用开源神经机器翻译模型tesnor2tensor，利用步骤五得到的新训练集T_new对模型进行预训练，得到模型b₁；

步骤七，利用步骤一得到的预处理后的原始训练集T_f，对步骤六得到的模型b₁再次进行训练，得到新训练好的模型b₂；

至此，从步骤一到步骤七，完成了一种基于统计短语表的神经网络机器翻译语料扩展方法。

实施例2

将CWMT2017提供的维吾尔语-汉语新闻翻译任务中的训练集随机地拆分为训练集、开发集以及测试集1，另外，将CWMT2017提供的维吾尔语-汉语新闻翻译评测任务的开发集数据作为测试集2，实验结果表明，在原始训练集、开发集、测试集数据和神经机器翻译模型相同的情况下，本发明与不使用本发明的神经机器翻译模型训练方法相比，采用基于汉字的BLEU作为评测指标，可以得到如下实验结果。

表1使用本发明提出的训练集扩展方法前后BLEU值对比

表1的实验结果表明：在训练集、开发集和测试集数据相同的情况下，采用本发明所述方法与不使用本发明的神经机器翻译模型训练方法相比，BLEU评测指标有明显提升。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于统计短语表的神经网络机器翻译语料扩展方法，其特征在于：包含：训练集扩展阶段和模型训练阶段；

B)模型训练阶段的操作分为两个步骤，步骤一是预训练，即将阶段A)得到的双语平行伪数据对模型进行预训练，训练后得到预训练好的模型b₁；步骤二利用原始训练集重新对模型b₂进行训练，目的为对模型进行调优，缓解伪数据中引入的噪声对模型的影响。

2.根据权利要求1所述的一种基于统计短语表的神经网络机器翻译语料扩展方法，其特征在于：为实现上述目的和技术，采用如下技术方案：

首先进行相关定义，具体如下：

由源语言数据组成的集合称为源语言数据集；

由目标语言数据组成的集合称为目标语言数据集；

定义6：原始训练集，即经过扩展前的训练集；

定义8，短语，一个或多个单词组成的语言单位；

定义11，反向短语翻译概率，即给定目标语言短语e时，翻译回源语言短语f的条件概率，记为

训练集扩展阶段，包括如下步骤：

步骤A5，根据定义5、定义16，将步骤A4得到的过滤后的短语表P_new中的翻译短语对部分与步骤A1得到的预处理后的原始训练集T_f拼接，得到新训练集T_new。

3.根据权利要求1所述的一种基于统计短语表的神经网络机器翻译语料扩展方法，其特征在于：模型训练阶段，包括如下步骤：

步骤B2，利用步骤A1得到的预处理后的原始训练集T_f，对步骤B1得到的模型b₁再次进行训练，得到新训练好的模型b₂。

4.根据权利要求1所述的一种基于统计短语表的神经网络机器翻译语料扩展方法，其特征在于：步骤A1中，其中，对原始训练集进行预处理的具体过程因不同源语言和目标语言而异，目的为对训练集进行规范化处理，得到经过预处理后的原始训练集T_f。