CN107329960A

CN107329960A - 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法

Info

Publication number: CN107329960A
Application number: CN201710514935.5A
Authority: CN
Inventors: 杨沐昀; 朱聪慧; 赵铁军; 张红阳; 徐冰; 曹海龙; 郑德权
Original assignee: Harbin Institute of Technology
Current assignee: Heilongjiang Industrial Technology Research Institute Asset Management Co ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-11-07
Anticipated expiration: 2037-06-29
Also published as: CN107329960B

Abstract

本发明提出了一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法，属于词语翻译设备和方法技术领域。本发明提出的未登录词翻译装置通过查找模块、候选词提供模块、特征抽取模块、评价模块、排序模块和替换模块实现神经网络翻译工作，本发明提出的未登录词翻译装置解决了现有翻译装置和方法翻译准确度低的问题，并有效提高了神经网络翻译中未登录词翻译的准确度，同时，其适用于各种神经网络翻译领域。

Description

一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法

技术领域

本发明涉及一种词语翻译装置和方法，属于词语翻译设备和方法技术领域。

背景技术

神经网络机器翻译(neural machine translation，NMT)是一种新的机器翻译方法，核心是一种端到端训练的简单而且易于泛化的深度神经网路。这种网络使用一种编码-解码的结构，编码部分负责把原端句子编码成固定长度的语义向量表示，解码部分是一个循环神经网络(recurrent neural network，RNN)，它使用原端句子表示和目标端的历史信息一个一个词解码出目标端的机器翻译句子。这种网络被提出以来在多种语言间的机器翻译任务中都取得了目前最好的效果，如英法翻译，英德翻译，英捷克语翻译。

在实际的模型实现中，由于计算量和GPU内存的限制，NMT模型需要事先确定一个非常受限的常用词词表，其他词表外的未登录词(out of vocabulary，OOV)都使用特殊符号<unk>(unknown)标记，词表大小通常设成30000到80000。由于翻译是一个开放词表问题，所以把大量丰富语义的未登录词表示为一个没有语义的<unk>标记会极大地增加原端句子的歧义性。同时，一旦生成的翻译中包含<unk>，由于NMT模型翻译过程中丢弃了所有的未登录词信息，所以无法对这些<unk>进行处理，我们只能在翻译完成后对翻译结果中的<unk>进行后处理。

目前，应用最为广泛的是一种贪心的后处理方法：在NMT模型中记录词对齐信息，这里通常使用注意力机制(attention mechanism)，根据对齐信息找到<unk>对齐概率最大的原端词，之后通过一个事先实现构造好的翻译词典找到原端词的翻译候选，选择词典中翻译概率最大的词对翻译结果中的<unk>进行替换。这种方法也是本实施例实验中对比的基线方法。

这种方法给<unk>找到的替换词已经被很多实验证明可以提升NMT的翻译结果的质量，但是由于在替换的时候没有考虑到翻译结果中<unk>的上下文信息，所以仍然存在着很多问题。因为在翻译过程中，存在着大量“一对多”，“多对一”，“多对多”的翻译映射，同时即使是“一对一”翻译的情况下，同一个原端词在不同的语境下也可能需要翻译成不同的目标端词。面对这些复杂的翻译现象，使用上述的贪心后处理方法，则会造成大量的替换错误，替换重复，替换后句子不通顺的问题。

发明内容

本发明为了解决现有神经网络翻译机器的翻译无法符合和联系上下文语境或语义的问题，提出了一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法。

一种上下文敏感的神经网络机器翻译中未登录词翻译装置，所采取的技术方案如下：

所述未登录词翻译装置包括：

根据所有原端词，在翻译词典中搜索词语的查找模块；

根据所述查找模块获得的查找词语结果为<unk>标记提供可能的未登录词候选翻译的候选翻译提供模块；

用于针对所述候选翻译抽取上下文特征的特征抽取模块；

用于所述上下文特征，利用训练好的SVM rank模型获得所述未登录词候选翻译的评价指标，并根据评价指标对所述未登录词候选翻译按评价指标从高到底的顺序进行排序的排序模块；

用于将评价指标排序最高的未登录词候选翻译替换所述翻译句子中的<unk>标记的替换模块，获得符合上下文语境的完整翻译句子。

进一步地，所述特征抽取模块包括：

用于从NMT注意力对齐模型中提取词对齐特征的词对齐特征提取模块；

用于提取原端词和未登录词候选翻译的词粒度特征的词粒度特征提取模块；

用于提取原端词和未登录词候选翻译的短语粒度特征的短语粒度特征提取模块；

用于提取未登录词候选翻译出现在<unk>标记位置时，未登录词候选翻译附近的语言模型特征的语言模型特征提取模块。

进一步地，所述词粒度特征提取模块包括：

用于原端词翻译到未登录词候选翻译的正向翻译概率模块；

用于未登录词候选翻译翻译到原端词的反向翻译概率模块；

用于提取原端词在NMT训练平行语料中出现的次数的原端词次数提取模块；

用于提取未登录词候选翻译在NMT训练平行语料中出现的次数的未登录词候选翻译次数提取模块；

用于提取原端词和未登录词候选翻译在平行语料的平行句对中的共现次数的共现次数提取模块；

用于提取原端词的出现在词表中的位置的词表位置提取模块；

用于判断原端词是否为未登录词的判断模块。

进一步地，所述短语粒度特征提取包括：

用于提取原端词在短语表中出现的次数的原端词短语表中次数提取模块；

用于提取未登录词候选翻译在短语表中出现的次数的未登录词候选翻译短语表中次数提取模块一；

用于提取原端词和未登录词候选翻译在短语表的每个短语对中的共现次数的短语表中共现次数提取模块；

用于提取原端词与前后词构成的短语在短语表中出现次数的短语次数提取模块；

用于提取原端词与前后词构成短语时，未登录词候选翻译出现在对应目标短语中的次数的未登录词候选翻译短语表中次数提取模块二；

用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时，未登录词候选翻译短语的最大长度的未登录词候选翻译短语长度提取模块；

用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时，且未登录词候选翻译短语取得最大长度时，原端词短语长度的原端词短语长度提取模块。

进一步地，所述语言模型特征提取模块包括：

用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的正向n元语言模型概率的正向n元语言模型概率提取模块；

用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的反向n元语言模型概率的反向n元语言模型概率提取模块；

用于提取未登录词候选翻译出现在<unk>标记位置时，包含相应元数的未登录词候选翻译的词串数量的词串数量提取模块。

一种上下文敏感的神经网络机器翻译中未登录词翻译方法，所采取的技术方案如下：

所述未登录词翻译方法包括：

根据所有原端词，在翻译词典中搜索词语的查找步骤；

根据所述查找步骤获得的查找词语结果为<unk>标记提供可能的未登录词候选翻译的候选翻译提供步骤；

用于针对所述候选翻译抽取上下文特征的特征抽取步骤；

用于所述上下文特征，利用训练好的SVM rank模型获得所述未登录词候选翻译的评价指标，并根据评价指标对所述未登录词候选翻译按评价指标从高到底的顺序进行排序的排序步骤；

用于将评价指标排序最高的未登录词候选翻译替换所述翻译句子中的<unk>标记的替换步骤，获得符合上下文语境的完整翻译句子。

进一步地，所述特征抽取步骤包括：

用于从NMT注意力对齐模型中提取词对齐特征的词对齐特征提取步骤；

用于提取原端词和未登录词候选翻译的词粒度特征的词粒度特征提取步骤；

用于提取原端词和未登录词候选翻译的短语粒度特征的短语粒度特征提取步骤；

用于提取未登录词候选翻译出现<unk>标记位置时，未登录词候选翻译附近的语言模型特征的语言模型特征提取步骤。

进一步地，所述词粒度特征提取步骤包括：

用于原端词翻译到未登录词候选翻译的正向翻译概率步骤；

用于未登录词候选翻译翻译到原端词的反向翻译概率步骤；

用于提取原端词在NMT训练平行语料中出现的次数的原端词次数提取步骤；

用于提取未登录词候选翻译在NMT训练平行语料中出现的次数的未登录词候选翻译次数提取步骤；

用于提取原端词和未登录词候选翻译在平行语料的平行句对中的共现次数的共现次数提取步骤；

用于提取原端词的出现在词表中的位置的词表位置提取步骤；

用于判断原端词是否为未登录词的判断步骤。

进一步地，所述短语粒度特征提取包括：

用于提取原端词在短语表中出现的次数的原端词短语表中次数提取步骤；

用于提取未登录词候选翻译在短语表中出现的次数的未登录词候选翻译短语表中次数提取步骤一；

用于提取原端词和未登录词候选翻译在短语表的每个短语对中的共现次数的短语表中共现次数提取步骤；

用于提取原端词与前后词构成的短语在短语表中出现次数的短语次数提取步骤；

用于提取原端词与前后词构成短语时，未登录词候选翻译出现在对应目标短语中的次数的未登录词候选翻译短语表中次数提取步骤二；

用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时，未登录词候选翻译短语的最大长度的未登录词候选翻译短语长度提取步骤；

用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时，且未登录词候选翻译短语取得最大长度时，原端词短语长度的原端词短语长度提取步骤。

进一步地，所述语言模型特征提取步骤包括：

用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的正向n元语言模型概率的正向n元语言模型概率提取步骤；

用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的反向n元语言模型概率的反向n元语言模型概率提取步骤；

用于提取未登录词候选翻译出现在<unk>标记位置时，包含相应元数的未登录词候选翻译的词串数量的词串数量提取步骤。

本发明有益效果：

本发明所述上下文敏感的神经网络机器翻译中未登录词翻译装置和方法能够做到结合带翻译文字的上下文语境和语义进行翻译，使翻译出来的文字词语的BLEU值和未登录词召回率更好，在中-英翻译任务中的NIST数据集上其BLEU和未登录词召回率分别为33.405和6.53％比现有技术的贪心后处理方法的33.393和6.16％分别提升了0.012和0.37％；较为明显的提升了NMT翻译结果中未登录词的翻译质量。

附图说明

图1为本发明所述上下文敏感的神经网络机器翻译中未登录词翻译装置的结构示意图。

图2为本发明所述词粒度特征提取模块结构示意图。

图3为本发明所述短语粒度特征提取模块结构示意图。

图4为本发明所述语言模型特征提取模块结构示意图。

图5为本发明所述上下文敏感的神经网络机器翻译中未登录词翻译装置的案例示意图。

具体实施方式

下面结合具体实施例对本发明做进一步说明，但本发明不受实施例的限制。

实施例1：

如图1至图4所示，一种上下文敏感的神经网络机器翻译中未登录词翻译装置，所采取的技术方案如下：

所述未登录词翻译装置包括：

根据所有原端词，在翻译词典中搜索词语的查找模块；

根据所述查找模块获得的查找词语结果为未登录词提供可能的未登录词候选翻译的候选翻译提供模块；

用于针对所述候选翻译抽取上下文特征的特征抽取模块；

其中，所述特征抽取模块包括：

所述词粒度特征提取模块包括：

用于原端词翻译到未登录词候选翻译的正向翻译概率模块；

用于未登录词候选翻译翻译到原端词的反向翻译概率模块；

用于判断原端词是否为未登录词的判断模块。

所述短语粒度特征提取包括：

其中，所述语言模型特征提取模块包括：

所述未登录词翻译方法包括：

根据所有原端词，在翻译词典中搜索词语的查找步骤；

用于针对所述候选翻译抽取上下文特征的特征抽取步骤；

其中，所述特征抽取步骤包括：

用于提取未登录词候选翻译出现在<unk>标记位置时，未登录词候选翻译附近的语言模型特征的语言模型特征提取步骤。

所述词粒度特征提取步骤包括：

用于原端词翻译到未登录词候选翻译的正向翻译概率步骤；

用于未登录词候选翻译翻译到原端词的反向翻译概率步骤；

用于提取原端词的出现在词表中的词表位置的位置提取步骤；

用于判断原端词是否为未登录词的判断步骤。

所述短语粒度特征提取包括：

用于提取原端词与前后词构成短语时，未登录词候选翻译出现在对应目标短语表中的次数的未登录词候选翻译短语中次数提取步骤二；

所述语言模型特征提取步骤包括：

本实施例所述一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法，其实验结果见表1所示。在表1中，①代表NMT词对齐特征，②代表词粒度特征，③代表短语粒度特征，④代表语言模型特征。

从表1中可以看到，使用全部特征训练的模型达到了最高的准确率45.12％。

比贪心后处理方法的36.89％高了8.23％。

表1模型在未登录词后处理构造数据上的效果

在开放环境下NMT的实际翻译结果，实验结果如表2所示。这里我们比较的贪心后处理方法和后处理时直接删除<unk>标记两种方法，表中的BLEU和Recall(OOV)为所有测试集2上的平均值。从表2中我们可以看出，我们的模型在Recall(OOV)和BLEU上都超过了贪心的未登录词处理方法。这说明本发明所提取的上下文敏感的神经网络机器翻译中未登录词翻译装置和方法对于相对于现有的贪心后处理方法具有显著的技术进步。

表2扩展选词范围的模型在NMT真实翻译结果上的效果

实施例2

实施例2是对实施例1所述一种上下文敏感的神经网络机器翻译中未登录词翻译方法的进一步细化，利用上下文信息找到一个最合适的词去替换NMT翻译结果中的<unk>标记(NMT中用来表示未登录词)。未登录词翻译装置根据原端词和事先构造好的翻译词典提取未登录词候选翻译，同时记录产生这个未登录词候选翻译的原端词，针对每一个未登录词候选翻译和原端词对结合原句子和翻译结果从不同的角度提取了4类上下文特征：NMT词对齐特征，词粒度特征，短语粒度特征，语言模型特征，最后使用svm-rank模型结合所有4类特征去排序得到最优替换词，所述上下文敏感的神经网络机器翻译中未登录词翻译方法翻译<unk>标记的具体过程如下：

给定一个带有<unk>标记的翻译句子和其对应的原端句，本方法的翻译流程如下：

步骤一：根据所有的原端词查找翻译词典为<unk>提供可能的未登录词候选翻译。

步骤二：为每个<unk>的未登录词候选翻译抽取上下文特征。

步骤三：使用训练好的SVM rank模型根据上下文特征为所有的未登录词候选翻译进行排序。

使用排序最高的词替换翻译句子中的<unk>标记。

其中，所述SVM rank模型属于排序学习中的pairwise一类的方法，是用来学习给候选列表排序而不是二分类任务。Rank SVM的基本假设中假定对于排序列表rank存在一个线性函数f(x)＝w^tx+b满足可知SVMrank本质上也是在线性拟合某种分数，只不过这种分数与真实评价指标不保证相同，只能够保证使用这种分数对候选排序的结果与使用真实评价指标一致。本发明在SVM rank模型中加入了松弛变量来处理输入中的噪声并增加泛化能力，因此加入松弛变量后的模型数学形式上的结构为：

subjectto

其中x_i和y_i分别是候选i的特征和评价指标，x_j和y_j分别是候选j的特征和评价指标,ξ_i，j是松弛变量。

当SVM rank模型选定之后，输入的特征是否具有区分性是决定模型性能好坏的关键。

其中，模型训练的过程为：

1)、SVM rank模型训练数据集

本实施例从LDC2002E18，LDC2003E07，LDC2003E14，LDC2004T07，LDC2004T08，LDC2005T06和LDC2005T10这7个数据集中抽取了210万句中-英平行语料作为NMT的训练数据，其中分别包含5.4千万个中文词和6千万个英文词。本实施例从NMT训练语料中过滤出25万句带有未登录词的平行语料，用这些语料构造了32万个未登录词后处理训练实例。在每个训练实例中原端句子中的所有词都为<unk>标记提供未登录词候选翻译，候选的范围是在翻译词典中翻译概率最大的前100个词中的未登录词。最终平均每个训练实例有65个未登录词候选翻译。

表3排序模型训练数据样例

表3为排序模型训练数据样例，第1、2、3列分别为序号，候选翻译和对应的源端词。第5到32列分别为对齐特征，词粒度特征，短语粒度特征和语言模型特征。每个候选翻译通过源端词查找翻译词典得到。本实施例使用NMT强制解码的方式得到训练数据的注意力对齐特征，在210万平行语料中统计得到词粒度特征和语言模型特征，在Moses构建的短语表中抽取短语粒度特征。

本实施例使用GIZA++工具在210万平行语料上用标准的“grow-diag-final”方法得到一个双向的词对齐矩阵，基于这个词对齐结果，本实施例使用极大似然方法计算原端词到目标端词的正向翻译概率和目标端词到原端词的反向翻译概率，词典中每个词最多保持200个翻译候选翻译。最后本实施例得原端到目标端和目标端到原端的两个翻译词典用于提供未登录词候选和抽取正反向翻译概率特征。

另外，本实施例从不同角度提取了4类上下文特征，如图5所示，四类上下文特征包括：①为从NMT注意力对齐模型中提取的词对齐特征，②为提取源端词和未登录词候选翻译的词粒度特征，③为提取源端词和未登录词候选翻译的短语粒度特征，④为提取未登录词候选翻译出现在<unk>标记位置时，未登录词候选翻译附近的语言模型特征。

其中，如图2所示，以图2中的原端句子为例：

①NMT词对齐特征

对于每个候选翻译和产生它的原端词对，我们首先抽取一个NMT词对齐特征，这个特征是NMT产生<unk>时产生的注意力分数(attention scores)，其表示翻译结果中的<unk>对齐到原端词的概率。这个分数是NMT在模型中产生的，同时也是连接<unk>与原端词的重要信息。

②词粒度特征

对于每一个原端词和其对应的候选翻译，我们首先要提取的是这两个词在语料中的共现关系，以及它们本身在语料中的统计信息。本实施例抽取了7个词粒度上下文特征：

●p(t|s)：原端词翻译到候选翻译的正向翻译概率。

●p(s|t)：候选翻译翻译到原端词的反向概率。

●number_in_corpus(s)：原端词在NMT训练平行语料中出现的次数。

●number_in_corpus(t)：候选翻译在NMT训练平行语料中出现的次数。

●number_cooc_in_corpus(s,t)：原端词和候选翻译在平行语料的平行句对中的共现次数。

●freq_in_vocab(s)：在平行语料中按词的频数从大到小排列出词表，原端词的出现在词表中的位置。

●1if s is OOV else 0：原端词是否为未登录词，如果原端词是未登录词，特征值为1，否则为0。

③短语粒度特征

我们进一步捕捉了原端词和候选翻译与其前后词组成的短语间的共现关系与统计信息，这部分特征我们在统计机器翻译工具Moses生成的短语翻译表中进行统计和抽取。本实施例抽取了7个短语粒度上下文特征：

●number_in_phrase_table(s)：原端词在短语表中出现的次数。

●number_in_phrase_table(t)：候选翻译在短语表中出现的次数。

●number_cooc_in_phrase_table(s,t)：原端词和候选翻译在短语表的每个短语对中的共现次数。

●number_in_phrase_table(phrase(s))：原端词与前后词构成的短语在短语表中出现次数。

●number_in_phrase_table(phrase(s))if t in phrase table：原端词与前后词构成短语时，候选翻译出现在对应目标短语中的次数。

●max_length(t)if cooc(phrase(s),phrase(t))：原端词和候选翻译分别与前后词构成的短语对出现在短语表中时，候选翻译短语的最大长度。

●length(s)if max_length(t)and cooc(phrase(s),phrase(t))：原端词和候选翻译分别与前后词构成的短语对出现在短语表中时，且候选翻译短语取得最大长度时，原端词短语长度。

④语言模型特征

语言模型是表示句字上下文流畅度的重要特征，本实施例以候选翻译为中心，根据<unk>的前后词抽取了15个语言模型特征，对于5个连续的翻译词序列，A B OOV C D：

·p(OOV|B)，p(C|OOV)：包含OOV的正向2元语言模型特征。

●p(B|OOV)，p(OOV|C)：包含OOV的反向2元语言模型特征。

●p(OOV|B,A)，p(C|OOV,B)，p(D|C,OOV)：包含OOV的正向3元语言模型特征。

●p(A|B,OOV)，p(B|OOV,C)，p(OOV|C,D)：包含OOV的反向3元语言模型特征。

●count(B OOV)，count(OOV C)：包含OOV的2元词串数量。

●count(A B OOV)，count(B OOV C)，count(OOV C D)：句子中包含OOV的3元词

虽然本发明已以较佳的实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可以做各种改动和修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种上下文敏感的神经网络机器翻译中未登录词翻译装置，其特征在于，所述未登录词翻译装置包括：

根据所有原端词，在翻译词典中搜索词语的查找模块；

根据所述查找模块获得的查找词语结果为<unk>标记提供可能的未登录词候选翻译的词候选翻译提供模块；

用于针对所述词候选翻译抽取上下文特征的特征抽取模块；

2.根据权利要求1所述未登录词翻译装置，其特征在于，所述特征抽取模块包括：

3.根据权利要求3所述未登录词翻译装置，其特征在于，所述词粒度特征提取模块包括：

用于原端词翻译到未登录词候选翻译的正向翻译概率模块；

用于未登录词候选翻译翻译到原端词的反向翻译概率模块；

用于判断原端词是否为未登录词的判断模块。

4.根据权利要求3所述未登录词翻译装置，其特征在于，所述短语粒度特征提取模块包括：

5.根据权利要求3所述未登录词翻译装置，其特征在于，所述语言模型特征提取模块包括：

6.一种上下文敏感的神经网络机器翻译中未登录词翻译方法，其特征在于，所述未登录词翻译方法包括：

根据所有原端词，在翻译词典中搜索词语的查找步骤；

用于针对所述候选翻译抽取上下文特征的特征抽取步骤；

7.根据权利要求6所述未登录词翻译方法，其特征在于，所述特征抽取步骤包括：

8.根据权利要求7所述未登录词翻译方法，其特征在于，所述词粒度特征提取步骤包括：

用于原端词翻译到未登录词候选翻译的正向翻译概率步骤；

用于未登录词候选翻译翻译到原端词的反向翻译概率步骤；

用于判断原端词是否为未登录词的判断步骤。

9.根据权利要求7所述未登录词翻译方法，其特征在于，所述短语粒度特征提取步骤包括：

10.根据权利要求7所述未登录词翻译方法，其特征在于，所述语言模型特征提取步骤包括：