CN109446534B

CN109446534B - 机器翻译方法及装置

Info

Publication number: CN109446534B
Application number: CN201811109824.7A
Authority: CN
Inventors: 孙茂松; 刘洋; 张嘉成; 栾焕博; 翟飞飞; 许静芳
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2020-07-31
Anticipated expiration: 2038-09-21
Also published as: CN109446534A

Abstract

本发明实施例提供一种机器翻译方法及装置，其中方法包括：将源语句前文的词向量输入至预先训练的上下文编码器，输出所述源语句前文的编码标识；将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器，获得所述源语句的编码标识；将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中新翻译的词向量；根据所述目标语句中新翻译的词向量获得对应的翻译结果。本发明实施例能够解决机器翻译对上下文的依赖，显著提高翻译质量。

Description

机器翻译方法及装置

技术领域

本发明涉及机器学习技术领域，更具体地，涉及机器翻译方法及装置。

背景技术

随着神经网络机器翻译技术的飞速发展，机器翻译的质量得到了飞跃式的提升，机器翻译的多种衍生产品也开始逐渐走入人们的生活之中。

较常用的翻译模型是大有注意力机制(attention-based)的encoder-decoder模型。主要思想是将待翻译的语句既源语句经过编码器encoder编码，使用一个向量标识，然后利用解码器decoder对源语句的向量表示进行解码，翻译成为对应的译文，即目标语句。这种encoder-decoder框架是深度学习的核心思想。同样地，encoder-decoder框架也是NMT(neural machine translation，神经机器翻译)***常用的基本架构。目前主流的NMT***，encoder和decoder都利用FNN(Feed-forward neural network，前向神经网络)技术。

基于自注意力机制的神经网络机器翻译是当前效果最好的机器翻译模型。图1为现有技术提供的机器翻译方法的流程示意图，如图1所示，现有技术在对源语句进行翻译时，采用的是将源语言词向量输入至源语言编码器，通过自注意力层和前向神经网络层获得源语句的编码标识，将目标语句中已翻译的词向量输入至解码器中，已翻译的词向量输入自注意力层后，输出第一结果，将第一结果与源语句的编码标识一并输入至编码器-解码器注意力层中，输出第二结果，再将第二结果输入至解码器中的前向神经网络层，根据输出的第三结构进行分类预测，即可翻译出目标语言的词汇。由上述内容可知，现有技术只会考虑当前待翻译的源语句，并没有考虑句子的上下文，这导致了机器翻译无法处理一些和上下文依赖有关的问题，例如词语歧义性、指代消解、词汇衔接等问题。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的机器翻译方法及装置。

第一个方面，本发明实施例提供一种机器翻译方法，包括：

将源语句前文的词向量输入至预先训练的上下文编码器，输出所述源语句前文的编码标识；

将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器，获得所述源语句的编码标识；

将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中新翻译的词向量；

根据所述目标语句中新翻译的词向量获得对应的翻译结果；

其中，所述上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成；所述源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练二次；所述目标语言编码器根据样本目标语句中的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成。

第二个方面，本发明实施例提供一种机器翻译装置，包括：

前文标识模块，用于将源语句前文的词向量输入至预先训练的上下文编码器，输出所述源语句前文的编码标识；

源语句标识模块，用于将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器，获得所述源语句的编码标识；

词向量获取模块，用于将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中新翻译的词向量；

翻译结果模块，用于根据所述目标语句中新翻译的词向量获得对应的翻译结果；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的机器翻译方法及装置，将源语句前文的词向量输入至预先训练的上下文编码器，输出所述源语句前文的编码标识；将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器，获得所述源语句的编码标识；将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中新翻译的词向量；根据所述目标语句中新翻译的词向量获得对应的翻译结果，将上下文信息融合到基于自注意力机制的神经网络机器翻译模型中，解决机器翻译对上下文的依赖，显著提高翻译质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术提供的机器翻译方法的流程示意图；

图2为本发明实施例提供的机器翻译方法的训练过程的流程示意图；

图3为本发明实施例提供的机器翻译方法的应用过程的流程示意图；

图4为本发明另一个实施例提供的机器翻译方法的流程示意图；

图5为本发明实施例提供的机器翻译装置的结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有技术的上述缺陷，本发明实施例的发明构思为，将待翻译的源语句(以下简称源语句)前文的词向量输入至预先训练的上下文编码器中，获得源语句前文的编码标识，该编码标识表征了源语句的上下文信息，将上下文信息融合到基于自注意力机制的神经网络机器翻译模型中，解决机器翻译对上下文的依赖，显著提高翻译质量。

本发明实施例公开一种机器翻译方法，包括训练和应用两个过程，其中，图2为根据本发明实施例提供的机器翻译方法的训练流程示意图包括：

S201、将样本源语句前文的词向量输入至上下文编码器，输出样本源语句前文的编码标识。

本发明实施例在训练过程中选择了样本源语句和样本目标语句(样本源语句与样本目标语句的组合也称作平行语料)，样本源语句对应第一语言，而样本目标语句对应第二语言，机器翻译方法的训练目的是将样本源语句准确翻译为样本目标语句。本发明实施例在对样本源语句进行翻译前还获取了样本源语句的前文，这样就可以更准确地分析样本源语句的语境、语义等信息。在实际应用中，预先对样本源语句以及样本源语句前文中的每个单词初始化为一个词向量，词向量一般为一个多维的向量，向量中的每一维都是一个实数，实数的大小可以根据实验过程中的结果最终确定。例如，对于词汇“水杯”，对应的词向量可以是<0.24,0.21,-0.11,...,0.72>。在训练阶段，上下文编码器可以对样本源语句前文进行编码，即将样本源语句编码成一系列的向量，获得样本源语句的矩阵x＝<x₁,x₂,..x_j,x_T>。其中x_j为样本源语句中第j个词向量编码后的向量，该向量与词向量的维度相同，T表示样本源语句前文包含的词向量的数量。在本发明实施例中，样本源语句前文的词向量的数量不做具体的限定，既可以是前文所有的词向量，也可以是部分词向量，但这些词向量必须是紧挨着源语句的词向量。例如，篇章为：我爱北京，我爱北京的长城，我爱长城上的一颗松树。当翻译到“我爱长城上的一颗松树”时，既可以选择“我爱北京，我爱北京的长城”的全部词向量，也可以选择“我爱北京的长城”的词向量，但不能单独选择“我爱北京”的词向量，因为“我爱北京”与“我爱长城上的一颗松树”并不紧邻。

S202、将样本源语句的词向量以及样本源语句前文的编码标识输入至源语言编码器，获得样本源语句的编码标识。

在对样本源语句进行编码的过程中，区别于现有技术仅仅以样本源语句的词向量作为输入项进行训练，本发明实施例将样本源语句的词向量与样本源语句前文的编码标识一并输入至源语言编码器，使得样本源语句的编码标识中融入了上下文信息。

S203、将样本目标语句中已翻译的词向量、样本源语句前文的编码标识和样本源语句的编码标识输入至解码器，获得样本目标语句中新翻译的词向量。

本领域技术人员可以理解的是，在实际应用时，词汇是逐词翻译出来的，现有技术中的解码器的输入值是前一个生成词的翻译结果对应的词向量与编码器输出的词向量，而本发明实施例中的解码器的输入值为样本目标语句中已翻译的词向量、样本源语句前文的编码标识和样本源语句的编码标识，由此可知，本发明实施例的解码过程同样融合了上下文信息，并且该上下文信息即包括样本源语句前文的第一上下文信息(即源语句前文的编码标识)，还包括了样本源语句与样本源语句前文的上下文信息融合后的第二上下文信息(即源语句的编码标识)，相比仅仅融合源语句的上下文信息，翻译结果更加准确。

S204、根据样本目标语句中新翻译的词向量输入至当前正在训练的前向神经网络中计算输出概率，根据输出概率结果调整上下文编码器、源语言编码器、解码器以及前向神经网络中的参数。

需要说明的是，步骤S204的过程与现有技术中根据解码器的输出结果判定是否需要进一步训练是一致的。在实际应用时，当解码器输出词向量时，该词向量输入到一个专门用于计算输出概率的前向神经网络中，该前向神经网络用于计算该词向量对应输出单词的概率，例如某词向量对应输出“我”的概率为75％，对应输出“爱”的概率为20％，对应输出“长城”的概率为5％，那么最终将“我”字输出，在训练时，由于已经预先知道该输出的词汇，因此根据输出概率即可知道整个机器学习过程是否准确。比如前向神经网络预测输出“我”的概率为5％，但实际上应该输出“我”，说明还需要继续训练。需要注意的是，训练过程是每隔一定时间在一个比较小的开发集上进行测试，直到在开发集上的翻译质量不再显著增加就停止。

图3为本发明实施例提供的机器翻译方法的应用过程的流程示意图，如图所示，包括：

S301、将源语句前文的词向量输入至预先训练的上下文编码器，输出源语句前文的编码标识。

S302、将源语句的词向量以及源语句前文的编码标识输入至预先训练的源语言编码器，获得源语句的编码标识。

S303、将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中新翻译的词向量。

S304、根据目标语句中新翻译的词向量获得对应的翻译结果。

在上述各实施例的基础上，作为一种可选实施例，上下文编码器由N_c个依次连接的上下文编码层构成，每个上下文编码层依次包括第一自注意力层和第一前向神经网络层。也就是说，对于第n个上下文编码层，第n个上下文编码层中的第一自注意力层的输入端与第n-1个上下文编码层中的第一前向神经网络层的输出端连接，第n个上下文编码层中的第一自注意力层的输出端与第n个上下文编码层中的第一自注意力层的第一前向神经网络层的输入端，第n个上下文编码层中的第一前向神经网络层的输出端与第n+1个上下文编码层中的第一自注意力层的输入端连接。本发明实施例中上下文编码层的个数N_c是在训练是确定的。

在上述实施例的基础上，将源语句前文的词向量输入至预先训练的上下文编码器，输出源语句前文的编码标识，具体为：

将源语句前文的词向量输入至第1个上下文编码层中的第一自注意力层，输出矩阵A⁽¹⁾。将矩阵A⁽¹⁾输入至第1个上下文编码层中的第一前向神经网络层，输出矩阵C⁽¹⁾。

需要说明的是，自注意力层是多头注意力机制(Multi-headed self-attention)的一种特殊的形式，多头注意力机制的表达式为：

公式中，Q,K,V分别为编码器的层输出，d_k表示向量的维度，Q,K,V首先进过一个线性变换，然后输入到放缩点积attention，注意这里要做h次，其实也就是所谓的多头，每一次算一个头。而且每次Q，K，V进行线性变换的参数W是不一样的。然后将h次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。自注意力层的区别之处在于，K＝V＝Q，例如输入一个句子，那么里面的每个词都要和该句子中的所有词进行attention计算。目的是学习句子内部的词依赖关系，捕获句子的内部结构。

需要注意的是，由于输入至第一自注意力层中的词向量的数量可以不止一个，因此，在输入至第一个上下文编码层时，可以将这些词向量组成大小为词向量数*词向量维度的矩阵，而由注意力机制以及前向神经网络的计算逻辑可知，矩阵A⁽ⁿ⁾和C⁽ⁿ⁾也都是这个大小的矩阵。

对于第n个上下文编码层，将矩阵C^(n-1)输入至第n个上下文编码层中的第一自注意力层，输出矩阵A⁽ⁿ⁾。将矩阵A⁽ⁿ⁾输入至第n个上下文编码层中的第一前向神经网络层，输出矩阵C⁽ⁿ⁾；满足1＜n≤N_c。

将第N_c个上下文编码层的输出C^(Nc)作为源语句前文的编码标识。

对于第n个上下文编码层，可参照以下公式计算：

A⁽ⁿ⁾＝MultiHead(C^(n-1),C^(n-1),C^(n-1))

其中，MultiHead表示多头注意力机制，FFN表示前向反馈机制，

表示矩阵A⁽ⁿ⁾中的第一个向量，M为矩阵A⁽ⁿ⁾中向量的个数，C⁽ⁿ⁾即A⁽ⁿ⁾中各个向量经过前向神经网络层计算后得到的结果向量拼接而成的矩阵。

在上述各实施例的基础上，作为一个可选实施例，源语言编码器由N_s个依次连接的源语言编码层构成，每个源语言编码层依次包括第二自注意力层、第一上下文注意力层和第二前向神经网络层。

相应地，将源语句的词向量以及源语句前文的编码标识输入至预先训练的源语言编码器，获得源语句的编码标识；

将源语句的词向量输入至第1个源语言编码层中的第二自注意力层，输出矩阵B⁽¹⁾；将矩阵B⁽¹⁾以及矩阵C^(Nc)输入至第1个源语言编码层中的第一上下文注意力层，输出矩阵D⁽¹⁾；将矩阵D⁽¹⁾输入至第1个源语言编码层中的第二前向神经网络层，输出矩阵S⁽¹⁾。

由上述内容可知，本发明实施例的源语言编码器与现有技术的区别包括新增了第一上下文注意力层，第一上下文注意力层利用的也是多头注意力机制，相应地改变了源语言编码器中前向神经网络的输入，进而实现了将上下文信息融入至源语言词向量的编码中。具体地，对于第1个上下文编码层中的第一上下文注意力层，可参照以下公式计算输出值：

D⁽¹⁾＝MultiHead(B⁽¹⁾,C⁽¹⁾,C⁽¹⁾)

对于第m个源语言编码层，将矩阵S^(m-1)输入至第m个源语言编码层中的第二自注意力层，输出矩阵B^(m)；将矩阵B^(m)以及矩阵C^(Nc)输入至第m个源语言编码层中的第一上下文注意力层，输出矩阵D^(m)；将矩阵D^(m)输入至第m个源语言编码层中的第二前向神经网络层，输出矩阵S^(m)；满足1＜m≤N_s；

将第N_s个源语言编码层的输出S^(Ns)作为源语句的编码标识。

具体地，对于第m个源语言编码层，可参照以下公式计算：

B^(m)＝MultiHead(S^(m-1),S^(m-1),S^(m-1))

D^(m)＝MultiHead(B^(m-1),C^(Nc),C^(Nc))

其中，MultiHead表示多头注意力机制，FFN表示前向反馈机制，

是矩阵D^(m)中的第一个向量，I为矩阵D^(m)中向量的个数，S^(m)即D^(m)中各个向量经过第二前向神经网络层计算后得到的结果向量拼接而成的矩阵。

在上述各实施例的基础上，解码器由N_t个依次连接的解码层构成，每个解码层依次包括第三自注意力层、第二上下文注意力层、编码器-解码器注意力层和第三前向神经网络层。

相应地，将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中未翻译的词向量，具体为：

将目标语句中已翻译的词向量输入至第1个解码层中的第三自注意力层，输出矩阵E⁽¹⁾；将矩阵E⁽¹⁾以及矩阵C^(Nc)输入至第1个解码层中的第二上下文注意力层，输出矩阵F⁽¹⁾；将矩阵F⁽¹⁾以及矩阵S^(Ns)输入至第1个解码层中的编码器-解码器注意力层，输出矩阵G⁽¹⁾；将矩阵G⁽¹⁾输入至第1个解码层中第三前向神经网络层，输出矩阵T⁽¹⁾。

对于第u个解码层，将矩阵T^(u-1)输入至第u个解码层中的第三自注意力层，输出矩阵E^(u)；将矩阵E^(u)以及矩阵C^(Nc)输入至第u个解码层中的第二上下文注意力层，输出矩阵F^(u)；将矩阵F^(u)以及矩阵S^(Ns)输入至第u个解码层中的编码器-解码器注意力层，输出矩阵G^(u)；将矩阵G^(u)输入至第u个解码层中第三前向神经网络层，输出矩阵T^(u)；满足1＜u≤N_t；

将第N_t个解码层的输出T^(Nt)作为目标语句中未翻译的词向量。

具体地，对于第u个解码层，可参照以下公式计算：

E^(u)＝MultiHead(T^(u-1),T^(u-1),T^(u-1))

T^(u)＝MultiHead(E^(u),C^(Nc),C^(Nc))

G^(u)＝MultiHead(F^(u),S^(Ns),S^(Ns))

其中，MultiHead表示多头注意力机制，FFN表示前向反馈机制，

是矩阵G^(u)中的第一个向量，J为矩阵G^(u)中向量的个数，T^(u)即G^(u)中各个向量经过第三前向神经网络层计算后得到的结果向量拼接而成的矩阵。

在上述实施例的基础上，根据目标语句中新翻译的词向量获得对应的翻译结果，具体为：

将目标语句中新翻译的词向量输入至预先训练的前向神经网络中，获得新翻译的词向量对应目标语言的单词的概率，进而获得目标语言的单词，根据获得的目标语言的所有单词获得翻译结果；

其中，前向神经网络根据样本目标语句的词向量以及样本语句中的单词训练而成。

图4为本发明另一个实施例提供的机器翻译方法的流程示意图，为了更清楚地区别本发明实施例的机器翻译方法与现有技术(如图1所示)的区别，图4中的椭圆形框表示了现有技术不具备的层结构。具体地，在本发明实施例中，通过将源语句前文的词向量输入至上下文编码器，经过自注意力层和前向神经网络层，输出源语句前文的编码标识；将源语句的词向量输入至源语言编码器中的自注意力层，再将自注意力层的输出结果以及源语句前文的编码辨识输入至上下文注意力层，将上下文注意力层的输出输入至前向神经网络中，获得源语句的编码标识；将目标语句中已翻译的词向量输入至解码器中的自注意力层，将自注意力层的输出与源语句前文的编码标识输入至解码器中的上下文注意力层，将上下文注意力层的输出与源语句的编码标识输入至解码器-编码器注意力层中，再将解码器-编码器注意力层的输出输入至解码器中的前向神经网络中，最后根据前向神经网络的输出进行分类预测。

由于在实际应用中，篇章级别的平行语料(相邻的句子之间具有逻辑关系，属于同一个文档)规模比较少，而句子级别的平行语料(相邻的句子之间没有任何关系)较为丰富。对于神经网络机器翻译来说，越大的训练语料规模通过能带来更好的翻译质量。为此，本发明实施例使用了组合形式的训练法进行训练，以充分利用大规模的句级别平行语料：即样本源语句的语料为语句级语料和篇章级语料，而样本源语句前文的语料为篇章级语料。根据语句级语料和篇章级语料对源语言编码器的第一自注意力层和第一前向神经网络层、解码器中的第三自注意力层、编码器-解码器注意力层和第三前向神经网络层进行训练，根据篇章级语料对上下文编码器、源语言编码器中的第一上下文注意力层和解码器中的第二上下文注意力层进行训练。

图5为本发明实施例提供的机器翻译装置的结构示意图，如图5所示，该机器翻译装置包括：前文标识模块501、源语句标识模块502、词向量获取模块503、翻译结果模块504；

前文标识模块501，用于将源语句前文的词向量输入至预先训练的上下文编码器，输出所述源语句前文的编码标识。

源语句标识模块502，用于将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器，获得所述源语句的编码标识。

词向量获取模块503，用于将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中新翻译的词向量。

翻译结果模块504，用于根据所述目标语句中新翻译的词向量获得对应的翻译结果。

本发明实施例提供的机器翻译装置，具体执行上述各机器翻译方法实施例流程，具体请详见上述各机器翻译方法实施例的内容，在此不再赘述。本发明实施例提供的机器翻译装置解决机器翻译对上下文的依赖，显著提高翻译质量。

图6为本发明实施例提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储在存储器630上并可在处理器610上运行的计算机程序，以执行上述各实施例提供的机器翻译方法，例如包括：将源语句前文的词向量输入至预先训练的上下文编码器，输出源语句前文的编码标识；将源语句的词向量以及源语句前文的编码标识输入至预先训练的源语言编码器，获得源语句的编码标识；将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中新翻译的词向量；根据目标语句中新翻译的词向量获得对应的翻译结果；其中，上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成；源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练二次；目标语言编码器根据样本目标语句中的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的机器翻译方法，例如包括：将源语句前文的词向量输入至预先训练的上下文编码器，输出源语句前文的编码标识；将源语句的词向量以及源语句前文的编码标识输入至预先训练的源语言编码器，获得源语句的编码标识；将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中新翻译的词向量；根据目标语句中新翻译的词向量获得对应的翻译结果；其中，上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成；源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练二次；目标语言编码器根据样本目标语句中的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器翻译方法，其特征在于，包括：

根据所述目标语句中新翻译的词向量获得对应的翻译结果；

其中，所述上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成；所述源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成；所述解码器根据样本目标语句中已翻译的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成；

其中，所述上下文编码器由N_c个依次连接的上下文编码层构成，每个所述上下文编码层依次包括第一自注意力层和第一前向神经网络层；

相应地，所述将源语句前文的词向量输入至预先训练的上下文编码器，输出所述源语句前文的编码标识，具体为：

将源语句前文的词向量输入至第1个上下文编码层中的第一自注意力层，输出矩阵A⁽¹⁾；将所述矩阵A⁽¹⁾输入至第1个上下文编码层中的第一前向神经网络层，输出矩阵C⁽¹⁾；

对于第n个上下文编码层，将矩阵C^(n-1)输入至第n个上下文编码层中的第一自注意力层，输出矩阵A⁽ⁿ⁾；将矩阵A⁽ⁿ⁾ 输入至第n个上下文编码层中的第一前向神经网络层，输出矩阵C⁽ⁿ⁾；满足1＜n≤N_c；

将第N_c个上下文编码层的输出C^(Nc)作为所述源语句前文的编码标识。

2.根据权利要求1所述的机器翻译方法，其特征在于，所述源语言编码器由N_s个依次连接的源语言编码层构成，每个所述源语言编码层依次包括第二自注意力层、第一上下文注意力层和第二前向神经网络层；

相应地，所述将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器，获得所述源语句的编码标识；

将源语句的词向量输入至第1个源语言编码层中的第二自注意力层，输出矩阵B⁽¹⁾；将矩阵B⁽¹⁾以及矩阵C^(Nc)输入至第1个源语言编码层中的第一上下文注意力层，输出矩阵D⁽¹⁾；将矩阵D⁽¹⁾输入至第1个源语言编码层中的第二前向神经网络层，输出矩阵S⁽¹⁾；

将第N_s个源语言编码层的输出S^(Ns)作为所述源语句的编码标识。

3.根据权利要求2所述的机器翻译方法，其特征在于，所述解码器由N_t个依次连接的解码层构成，所述每个解码层依次包括第三自注意力层、第二上下文注意力层、编码器-解码器注意力层和第三前向神经网络层；

相应地，所述将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器，获得目标语句中新翻译的词向量，具体为：

将目标语句中已翻译的词向量输入至第1个解码层中的第三自注意力层，输出矩阵E⁽¹⁾；将矩阵E⁽¹⁾以及矩阵C^(Nc)输入至第1个解码层中的第二上下文注意力层，输出矩阵F⁽¹⁾；将矩阵F⁽¹⁾ 以及矩阵S^(Ns)输入至第1个解码层中的编码器-解码器注意力层，输出矩阵G⁽¹⁾；将矩阵G⁽¹⁾ 输入至第1个解码层中第三前向神经网络层，输出矩阵T⁽¹⁾；

对于第u个解码层，将矩阵T^(u-1)输入至第u个解码层中的第三自注意力层，输出矩阵E^(u)；将矩阵E^(u)以及矩阵C^(Nc)输入至第u个解码层中的第二上下文注意力层，输出矩阵F^(u)；将矩阵F^(u) 以及矩阵S^(Ns)输入至第u个解码层中的编码器-解码器注意力层，输出矩阵G^(u)；将矩阵G^(u) 输入至第u个解码层中第三前向神经网络层，输出矩阵T^(u)；满足1＜u≤N_t；

将第N_t个解码层的输出T^(Nt)作为所述目标语句中新翻译的词向量。

4.根据权利要求1所述的机器翻译方法，其特征在于，所述根据所述目标语句中新翻译的词向量获得对应的翻译结果，具体为：

将所述目标语句中新翻译的词向量输入至预先训练的前向神经网络中，获得所述新翻译的词向量对应目标语言的单词的概率，进而获得目标语言的单词，根据获得的目标语言的所有单词获得翻译结果；

其中，所述前向神经网络根据样本目标语句的词向量以及样本目标语句中的单词训练而成。

5.根据权利要求 3所述的机器翻译方法，其特征在于，所述样本源语句的语料为语句级语料和篇章级语料，所述样本源语句前文的语料为篇章级语料。

6.根据权利要求5所述的机器翻译方法，其特征在于，根据所述语句级语料和篇章级语料对所述源语言编码器的第一自注意力层和第一前向神经网络层、所述解码器中的第三自注意力层、编码器-解码器注意力层和第三前向神经网络层进行训练，根据篇章级语料对上下文编码器、源语言编码器中的第一上下文注意力层和解码器中的第二上下文注意力层进行训练。

7.一种机器翻译装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6中任意一项所述的翻译方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使计算机执行如权利要求1至6中任意一项所述的翻译方法。