CN109190131B

CN109190131B - 一种基于神经机器翻译的英语单词及其大小写联合预测方法

Info

Publication number: CN109190131B
Application number: CN201811088021.8A
Authority: CN
Inventors: 张楠; 靳晓宁
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2023-04-14
Anticipated expiration: 2038-09-18
Also published as: CN109190131A

Abstract

本发明公开了一种基于神经机器翻译的英语单词及其大小写联合预测方法，主要包含，建立训练数据集并制作词表；根据词表将训练数据集转换为向量训练集；训练翻译模型，将预测单词的损失和预测单词大小写的损失相加作为翻译模型的总体预测损失；当训练过程中，总体损失不再减小时，停止训练模型；使用训练好的翻译模型翻译汉语；翻译完成后，根据得到的英语译文和对应单词大小写属性信息，将译文中单词还原成其应有形式，得到正式译文。本发明所述方法不仅减小了词表的大小和模型参数，翻译译文的质量也得到提升。

Description

一种基于神经机器翻译的英语单词及其大小写联合预测方法

技术领域

本发明涉及机器翻译方法，特别是涉及中译英中，英文单词大小写的预测方法

背景技术

受现实应用的驱动，机器翻译近几年一直是备受关注的研究热点。机器翻译之前主流的解决方案是统计机器翻译。最近几年深度学习、神经网络在图像领域得到了很好的发展，在分类领域都取得了超越人类的成绩。神经网络的方式也迅速在其他领域得到广泛应用。在2014年，Jacob Devlin提出了神经网络联合模型，相对于传统的统计机器翻译方法获得了显著的提升。今年，微软Hany等人又应用神经机器翻译，将翻译的质量首次超越人类。

很多语言是有大小写之分。同一单词的不同大小写代表了不同的含义，比如thewhite house可翻译为“白房子”，但是The White House则是特指“白宫”。即使不同的大小写形式不改变单词代表的含义，也会极大的阻碍文本的可读性，降低阅读速度。当前很多机器翻译方法得到的翻译结果是全小写的，需要额外的工作恢复单词的原有大小写信息，增强翻译结果的可读性。大小写恢复是对输入的单词序列，恢复其应有的大小写信息。单词在句子中一般可以有四种形式：全大写、首字母大写、全小写以及混合大写。单词的大小写形式和单词的属性、在句子中所处的位置以及上下文语境都有关系。某些单词会有不同属性，在不同的位置时，也会伴随有不同的大小写形式。大小写恢复在命名体识别和语音识别等领域中亦有广泛应用。

针对翻译译文恢复大小写，传统的方式主要有两种。一种是基于查表的方式，通过对训练语料单词的各种大小写形式进行统计，将含有特定大小写信息的单词制作成一个表。在翻译得到译文后，译文中的每个单词根据词表选择一个可行性最大的形式进行恢复。该方法一般需要较大的词表才能达到一定的词语覆盖度。由于没有考虑译文的上下文信息，也容易产生错误恢复。而且在实际的数据中，同一单词会有多种不同的大小写形式，也会造成恢复结果的歧义。另一种译文大小写恢复的方法是训练一个大小写恢复的模型。Lita等人使用trigram模型恢复句子中的大小写信息。Chelba和Acero将大小写恢复视为一个序列标注问题，并使用最大熵马尔科夫模型来融合单词和他们的大小写信息。Raymond利用循环神经网络来在字符级别上预测单词大小写信息。以上这些方法都是在单语料上进行，翻译结束后，针对目标端译文进行大小写恢复，增加了处理步骤和时间开销。并且这些方法都没有考虑源端语料的情况，当翻译结果不准确时将对单词大小写信息的恢复产生极大干扰。

发明内容

本发明提出了一种在神经机器翻译训练中联合预测英语单词及其大小写属性的方法，使翻译模型联合预测单词及其对应的大小写，生成英文译文的同时，预测英文对应的大小写类别信息。根据解码得到的大小写类别信息，对小写译文中的词语进行大小写还原。

本发明采用的技术方案如下：

一种基于神经机器翻译的英语单词及其大小写联合预测方法，包含以下特征：(1)建立训练数据集并制作词表；选取公开数据集中的中英文平行语料作为原始数据集，然后对原始数据集进行数据处理，建立训练数据集，分别是英语标签语料、汉语语料、英语语料，以及制作三种词表，分别是英语词表、汉语词表、英语标签词表，

其中，平行语料是由原文文本及其平行对应的译语文本构成的双语语料库，其对齐程度是句级。

英语标签语料的抽取方法为：据英文单词的四种大小写属性，即首字母大写、全大写、小写、其他，为原始数据集中的所有英文单词设定对应的大小写属性标记，所有的标记构成了英语标签语料；

英语语料的抽取方法为：英语标签语料制作完成后，将原始数据集中的所有英文单词全部转为小写，即为英语语料；

汉语语料的建立方法为：将原始数据集中的所有汉语句子进行分词处理，将单个汉字组合成词组，即为汉语语料；

英语词表由英语语料中的高频单词组成，且对英语语料的单词覆盖率达到a以上，100％≥a≥97％；

汉语词表由汉语语料中的高频词组组成，且对汉语语料的单词覆盖率达到b以上，100％≥b≥97％；

英语标签词表包括首字母大写、全大写、小写、其他一共四个组成元素；

三个词表中的每个词对应一个唯一的id编号；

(2)根据(1)中的词表将训练数据集转换为id表示，再将id表示的训练数据转为向量表示的向量训练集，向量训练集包括汉语词向量语料、英语词向量语料，以及英语标签词向量语料，然后分别向汉语词向量语料、英语词向量语料，以及英语标签词向量语料加入位置信息；其中，对得到的三种向量语料采用正弦和余弦函数加入位置信息。

(3)训练翻译模型，其中所述的翻译模型是在Transformer模型之上进行变化，即在Transformer模型的解码器输出端由一路输出增加为两路输出，一路输出是经过线性映射和softmax处理后预测单词，以(2)中英语词向量语料为真实标签求取预测损失；另一个经过线性映射和softmax处理后预测单词大小写，以(2)中英语词单词标签向量语料为真实标签求取预测损失；(2)中得到的汉语词向量语料输入到翻译模型的编码器端，对应的英语词向量语料输入解码器端，英语词向量语料在输入到解码器端时需向右移一位；在训练时，以英语词向量语料为翻译标签，计算翻译模型预测的单词与翻译标签的相似度；以对应的英语标签词向量语料为英语单词的大小写标签，计算翻译模型预测的单词大小写与大小写标签的相似度；相似度的计算采取计算交叉熵的方式，并以相似度作为模型的预测损失；将预测单词的损失和预测单词大小写的损失相加作为翻译模型的总体预测损失；当训练过程中，总体损失不再减小时，即认为翻译模型已收敛，可停止训练模型；

如图二所示，翻译模型是基于Transformer模型的，不同点在于增加了一路输出。Transformer模型由两部分组成即编码器和解码器。编码器由一个多头注意力结构和一个前向反馈组成，解码器由两个多头注意力结构和一个前向反馈组成。多头注意力结构是用于学习单词或者词组之间的注意力，前向反馈学习语言内部的关系。将(2)中得到的汉语词向量训练语料输入到编码器。经过多头注意力结构，编码器学习汉语词组之间的注意力，然后经过正则化处理做前向反馈，再经过正则处理输出到下一部分。此编码器处理过程重复N次。编码器每次正则化处理都要加上前一步的输入。编码器的输出即是解码器的部分输入。解码器的另一部分输入为(2)中英语词向量语料，再输入到解码器时，词向量序列要右移一位。将输入的英语词向量序列通过做标记的方式，屏蔽还未翻译到的单词。然后解码器首先通过多头注意力结构学习英语单词之间的注意力，将结果正则化处理后与编码器的输出再次输入到一个多头注意力结构中学习汉语与英语之间的注意力，再将结果正则化处理后进行前向反馈，对前向反馈的结果再正则化处理后输入到下一部分。此解码器处理过程处理N次。解码器每次正则化处理也都要加上前一步的输入。有异于Transformer模型，本模型的解码器输出有两个。一个是经过线性映射和softmax处理后预测单词，以(2)中英语词向量语料为真实标签求取预测损失；另一个经过线性映射和softmax处理后预测单词大小写，以(2)中英语词单词标签向量语料为真实标签求取预测损失；训练此翻译模型，当损失不再下降，模型收敛，停止训练。

(4)使用(3)中训练好的翻译模型翻译汉语；将所要翻译的汉语文本进行分词处理，根据(1)中的汉语词表将汉语分词数据转为id表示，进而再转成向量表示，得到待译汉语向量数据；待译汉语向量数据加入位置信息后，输入到翻译模型；在翻译时，以集束搜索Beam search的方式选取预测单词；在预测对应单词的大小写时，选取该单词大小写概率最大的一个类别作为该单词大小写属性的预测结果；翻译完成后，得到英语译文和译文中单词对应的大小写类别信息。

(5)根据(4)中得到的英语译文和对应单词大小写属性信息，将译文中单词还原成其应有形式，得到正式译文。

有益效果

本发明所述方法不仅减小了词表的大小和模型参数，翻译译文的质量也得到提升。

附图说明

图一为本发明技术方案的流程图；

图二为共享解码器联合预测架构图；

图三为点积注意力结构图；

图四为多头注意力结构图。

具体实施方式

1)采用的平行语料为2017年机器翻译研讨会(China Workshop on MachineTranslation，CWMT)英汉机器翻译评测语料，经过降噪、去重、删除不合理语句后得到700万条数据。训练数据集中包含汉语语料与英语语料，汉语语料中每一条汉语句子对应英语语料中的一条英语翻译句子。对英文单词的大小写我们将其分为四种类别：a)其他，b)小写，c)首字母大写，d)全大写。

根据英文语料，制作对应单词的大小写标签，形成英语标签语料。其中每个单词对应一个大小写标签，所以每条英语翻译对应一个大小写标签序列。将英文语料全部转成小写，统计英语语料中英语单词的出现频词，从频次高到低降序排列。英语单词中选取前6万单词制作英语词表。英语词表对英语语料中单词的覆盖率达到98％。对于汉语语料，我们首先用结巴(jieba)分词，将汉语语料进行分词。统计汉语语料中各词组的频次，选取前4万词组制作汉语词表，汉语词表对训练数据中分词后词组覆盖率达到97％。词表中未覆盖到的单词，在译文中全用UNK来表示。英语单词的分类很少，所以选取全部的类别制作英语标签词表，即首字母大写c、全大写a、小写b、其他d一共四个组成元素。三个词表中的每个词对应一个唯一非0的id编号。词表中编号0代表结束字符EOS。

例子

汉语分词结果：企业集团就网络安全法向中国提诉求。

英语翻译：Business groups appeal to China over Cybersecurity Law.

英语标签：c b b b c b c c

2)对三种语料中，每一条句子的结尾添加一个EOS字符表述句子结束。将汉语语料根据汉语词表转换成id序号表示，再将id转换成词向量表示。将英语语料根据英语词表转换成id序号表示，再将id转换成词向量表示。将英语标签语料根据英语标签词表转换成id序号表示，再将id转换成词向量表示。对得到的三种向量语料，采用正弦和余弦函数，加入位置编码，维度均为512维。

以下是对现有技术即Transformer翻译模型的基本介绍-由于我们采用的Transformer翻译模型没有使用循环神经网络或者卷积神经网络，为了使用序列的顺序信息，需要将序列的相对以及绝对位置信息加入到模型中去。模型中用正弦和余弦函数，在输入词向量的基础上加了一个“位置编码”。位置编码和词向量由同样的维度都是d_model所以两者可以直接相加。

其中pos是位置，i是维度，d_model是模型的维度，d_model＝1024

3)Transformer模型中采用了多头注意力(Multi-Head Attention)的结构。其中单个注意力机制中，注意力函数的输入Q、K、V，分别代表查询(query)、关键(key)，赋值(value)。具体实现具体操作如图三所示，根据Q和K的相似度计算注意力权重。然后根据注意力权重，对V每个词向量进行加权即得到注意力。模型采用了缩放点积注意力(Scaleddot-product attention):

其中Q和K的维度是相同的，都是d_k。V的维度是d_v。其中标记(Mask)主要是用来去除矩阵乘后对角线之间的关系。

如图四，多头注意力将Q、K、V进行h次不同的线性映射，然后再将线性映射的结果映射到d_k，d_k，d_v维。分别对每一个映射之后的得到的queries，keys以及values进行注意力函数的并行操作，生成d_v维的输出值。

MultiHead(Q,K,V)＝Concat(head₁,…,head_n)W^o (2)

其中

如图二所示，Transformer模型由两部分组成编码器和解码器。编码器的输入为(2)中得到的汉语词向量语料。经过多头注意力结构，解码器学习汉语词组之间的注意力，然后经过正则化处理做前向反馈，再经过正则处理输出到下一部分。此编码器处理过程重复N次，N＝4。编码器每次正则化处理都要加上前一步的输入。编码器的输出即是解码器的部分输入。解码器的另一部分输入为对应的(2)中英语词向量语料，再输入到解码器时，词向量序列要右移一位。将输入的英语词向量序列通过做标记的方式，屏蔽还未翻译到的单词。然后解码器首先通过多头注意力结构学习英语单词之间的注意力，将结果正则化处理后与编码器的输出再次输入到一个多头注意力结构中学习汉语与英语之间的注意力，再将结果正则化处理后进行前向反馈，对前向反馈的结果再正则化处理后输入到下一部分。此解码器处理过程处理N次，N＝4。解码器每次正则化处理也都要加上前一步的输入。有异于Transformer模型，本模型的解码器输出有两个。一个是经过线性映射和softmax处理后预测单词，以(2)中英语词向量语料为真实标签求取预测损失；另一个经过线性映射和softmax处理后预测单词大小写，以(2)中英语词单词标签向量语料为真实标签求取预测损失。模型的总体损失Loss为两部分预测损失的和。

Loss＝loss_task1+λloss_task2 (6)

其中λ＝1。两部分均使用交叉熵损失函数。英语标签词向量语料用于对预测的英语单词类别求交叉熵损失。训练模型，直至模型收敛。

4)使用(3)中训练好的翻译模型翻译汉语；将所要翻译的汉语文本进行分词处理，根据(1)中的汉语词表将汉语分词数据转为id表示，进而再转成向量表示，得到待译汉语向量数据；待译汉语向量数据加入位置信息后，输入到翻译模型；在翻译时，以集束搜索Beamsearch的方式选取预测单词；在预测对应单词的大小写时，选取该单词大小写概率最大的一个类别作为该单词大小写属性的预测结果；翻译完成后，得到英语译文和译文中单词对应的大小写类别信息。

在翻译时，使用(3)中训练得到的模型以集束搜(Beam search)的方式选取预测单词，束大小为4。大小写分类的选择并不参与搜索过程，只是选取对应单词概率最大的一个类别作为该单词大小写属性的预测结果。在搜索时，当单词的预测出现EOS字符表示一句翻译结束。5)根据(4)中得到的英语译文和对应单词大小写属性信息，将译文中单词还原成其应有形式，得到正式译文。即根据(5)中得到的翻译结果和对应单词大小写属性，预测类别为b的单词是小写，预测类别是c的单词还原成开头大写，预测类别标签是d的还原成全大写，预测类别为a的不采取其他措施。

我们使用linux操作***，两张Titan XP显卡，共2×12G显存，在tensor2tensor框架下，基于transformer模型，用python语言实现程序。共设计了三组实验Baseline1、Baseline2和实验(1)，实验(1)即本发明所述方法，三组实验的环境均相同。

第一组和第二组实验采用的均是transformer模型，两者仅中、英文词表不同。第三组实验采用本发明所模型。第一组实验里英文词表全为小写，所以译文也为小写，用于比较第三组实验在预测单词大小写的同时，是否影响(或降低了)英文译文的质量。第二组实验里英文词表含大写单词，直接得到含大小写信息的译文。这组实验与第三组实验对比，主要是用于验证在均能得到含大写单词译文的同时，第三组实验的方法是否比第二组方法取得的译文结果要好。

第一组Baseline1：将训练数据和验证集中英语转为小写，抽取英语词表大小6万，词表对英文数据中单词的覆盖率达到98％。汉语词表大小4万，对训练数据中分词后词组覆盖率达到97％。同时验证集的英语端也转小写，用于测试，作为baseline1。

第二组Baseline2：保留英语数据大小写信息，重新抽取英文词表，词表大小9.3万(与实验1英语词表的覆盖率保持一致)，中文词表大小不变。

我们提出的联合预测方法:

第三组实验(1)：根据单词所处的位置预测大小写信息。模型在预测单词的同时预测该单词可能的大小写信息。词表大小和baseline1相同，汉语词表4万，英文词表6万。

三组实验的词表大小，如表1所示：

表1实验词表大小

我们测试BLEU的方法来比较各个实验的结果,脚本使用Moses***提供的multi-bleu.pl。

表2基本实验结果

由上表可知，实验(1)在大小写敏感和不敏感的两个指标上均高于baseline2，高出baseline2一个BLEU左右。大小写不敏感也高于baseline1联合的方式.不仅在翻译的同时预测单词大小写，同时还提升了译文的质量。

由于三个实验的词表大小有所不同，我们还统计了四个实验结果中UNK字符的数量。

表3实验结果UNK数量

实验	UNK数量
		Baseline1	8306
Baseline2	1801
		实验(1)	1782

由表3可知，baseline2和实验(1)的UNK均比baseline1少。Baseline2的目标端英文词表(9.3万)比baseline1的词表(6W)要大，所以降低了译文中的UNK数量。Baseline1和实验(1)的英文词表虽然相同，但是由于实验(1)同时预测了单词的大小写信息，所以实验(1)的英文词表的可表示单词量远大于baseline1，以此降低了UNK的数量。

由于Baseline1的UNK数量非常多。在去除结果中所有的UNK后，再次测试了BLEU结果。

表4去除UNK后结果

由表4可知，在排除UNK影响后，baseline1的大小写不敏感结果要优于baseline2。Baseline2的英文词表9.3万虽然与baseline1的词表对训练语料具有相同的单词覆盖度，但是词表的增大也增加了模型的训练参数，提升了模型的训练难度，进而影响译文质量。由于baseline2和实验(1)的UNK数量较少，所以去除UNK后的结果基本没有变化。实验(1)结果依然比两个baseline的翻译质量要好。与baseline1相比，两者具有相同的词表大小，但是实验(1)由于预测了大小写属性，增加了可表示单词的数量，扩大了单词覆盖率。

Claims

1.一种基于神经机器翻译的英语单词及其大小写联合预测方法，包含以下特征：

(1)建立训练数据集并制作词表；选取公开数据集中的中英文平行语料作为原始数据集，然后对原始数据集进行数据处理，建立训练数据集，分别是英语标签语料、汉语语料、英语语料，以及制作三种词表，分别是英语词表、汉语词表、英语标签词表，

其中，平行语料是由原文文本及其平行对应的译语文本构成的双语语料库，其对齐程度是句级；

三个词表中的每个词对应一个唯一的id编号；

(2)根据(1)中的词表将训练数据集转换为id表示，再将id表示的训练数据转为向量表示的向量训练集，向量训练集包括汉语词向量语料、英语词向量语料，以及英语标签词向量语料，然后分别向汉语词向量语料、英语词向量语料，以及英语标签词向量语料加入位置信息；

(3)训练翻译模型，其中所述的翻译模型是在Transformer模型之上进行变化，即在Transformer模型的解码器输出端由一路输出增加为两路输出，一路输出是经过线性映射和softmax处理后预测单词，以(2)中英语词向量语料为真实标签求取预测损失；另一个经过线性映射和softmax处理后预测单词大小写，以(2)中英语词单词标签向量语料为真实标签求取预测损失；(2)中得到的汉语词向量语料输入到翻译模型的编码器端；对应的英语词向量语料输入解码器端，英语词向量语料在输入到解码器端时需向右移一位；在训练时，以英语词向量语料为翻译标签，计算翻译模型预测的单词与翻译标签的相似度；以对应的英语标签词向量语料为英语单词的大小写标签，计算翻译模型预测的单词大小写与大小写标签的相似度；相似度的计算采取计算交叉熵的方式，并以相似度作为模型的预测损失；将预测单词的损失和预测单词大小写的损失相加作为翻译模型的总体预测损失；当训练过程中，总体损失不再减小时，即认为翻译模型已收敛，可停止训练模型；

(4)使用(3)中训练好的翻译模型翻译汉语；将所要翻译的汉语文本进行分词处理，根据(1)中的汉语词表将汉语分词数据转为id表示，进而再转成向量表示，得到待译汉语向量数据；待译汉语向量数据加入位置信息后，输入到翻译模型；在翻译时，以集束搜索Beamsearch的方式选取预测单词；在预测对应单词的大小写时，选取该单词大小写概率最大的一个类别作为该单词大小写属性的预测结果；翻译完成后，得到英语译文和译文中单词对应的大小写类别信息；