CN106663092A

CN106663092A - 具有罕见词处理的神经机器翻译***

Info

Publication number: CN106663092A
Application number: CN201580033550.6A
Authority: CN
Inventors: 国·V·勒; 梁明唐; 伊利亚·苏特思科韦尔; 奥里奥尔·温亚尔斯; 沃伊切赫·扎连芭
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-10-24
Filing date: 2015-10-23
Publication date: 2017-05-10
Anticipated expiration: 2035-10-23
Also published as: CN106663092B; EP3210132A1; US20190188268A1; CN111291553A; WO2016065327A1; US10936828B2; US10133739B2; US20160117316A1; CN111291553B

Abstract

用于具有罕见词处理的神经翻译***的方法、***和设备，包括编码在计算机存储介质上的计算机程序。一种相应地用源语言和目标语言来训练神经网络翻译***以跟踪目标句中的未知词的源句中的源的方法。

Description

具有罕见词处理的神经机器翻译***

背景技术

本说明书涉及神经机器翻译(NMT)***。神经机器翻译***是包括将一种自然语言的源自然语言句映射到不同自然语言的目标句的任何神经网络的一个***。

神经网络是采用一个或多个模型层来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即，隐藏层或输出层)的输入。网络的每个层依照相应的一组参数的当前值从接收到的输入产生输出。

已经做出了开发纯神经翻译模型的许多尝试。NMT***用反向传播进行训练简单并且它们的解码器易于实现。

当前NMT***的主要局限是它们对固定且适度大小的词汇表的依赖。结果，当前NMT***不能翻译罕见词，而仅能够使用单个符号来表示所有词汇表以外的词。凭经验地，人们已观察到具有许多罕见词的句往往被NMT***拙劣地翻译。

发明内容

本说明书描述在一个或多个计算机上被实现为一个或多个计算机程序的***如何能够被训练成执行并且使用神经网络翻译模型和罕见词后处理来执行自然语言翻译。

本说明书中所描述的主题能够以特定实施例实现以便实现以下优点中的一个或多个。简单的基于对齐的技术能够减轻并且甚至克服当前NMT***无法翻译不在它们的词汇表中的词的缺点。本说明书中所描述的技术适用于任何NMT***。

根据本文中所描述的第一方面，提供用于将来自源语言的源句的自然语言文本翻译为目标语言的目标句的计算机实现的翻译***。该翻译***包括一个或多个计算机以及存储翻译指令和翻译数据的一个或多个存储装置。翻译数据包括词典和神经网络翻译模型，所述神经网络翻译模型被训练成跟踪目标句中的未知词的源句中的起源并且针对目标句中的每个词汇表外(OOV)词发出相应的未知标记。该模型能操作用于发出(i)指针标记和(ii)空未知标记，指针标记是标识与未知标记相对应的源句中的相应源词的未知标记，并且空未知标记是不标识源句中的任何源词的标记。

当由一个或多个计算机执行时，翻译指令能操作用于使所述一个或多个计算机针对由神经网络翻译模型从源句发出的目标句中的每个指针标记，根据源句中所对应的源词替换指针标记。

替换每个指针标记可以包括使用词典来根据源句中所对应的源词执行词翻译并且用翻译的结果替换指针标记。可替选地，如果在词典中不存在这样的翻译，则替换指针标记可以包括用来自源句的所对应的源词替换目标句中的指针标记。

该神经网络翻译模型可以包含深度编码器长短期记忆模型和深度解码器长短期记忆模型。编码器可以被训练成能操作用于读取源句，一次一个词，以产生概括整个源句的大隐藏状态。解码器可以被从编码器的最终隐藏状态初始化并且被训练成能操作用于产生目标翻译，一次一个词，直到解码器发出句结束符号为止。

该神经网络翻译模型可以是深度神经网络。

该神经网络翻译模型可以是大型深度长短期记忆模型。所述神经网络翻译模型可以是六层深度长短期记忆模型。

根据本文中所描述的第二方面，提供了相应地用源语言和目标语言来训练神经网络翻译***以跟踪目标句中的未知词的源句中的源的方法。未知源词是未在预定源语言词汇表中找到的词并且未知目标词是未在预定目标语言词汇表中找到的词。该方法包括从平行语料库(corpus)得到对齐数据，该对齐数据在平行语料库中的每对源语言句和目标语言句中标识对齐的源词和目标词。根据对齐数据和罕见词模型句在平行语料库中被作注解以产生成对的源语言句和目标语言句的训练数据集。神经网络翻译模型在训练数据集上被训练。

得到对齐数据可以包括使用无监督对齐器来得到对齐数据。

该无监督的对齐器可以是BerkeleyAligner软件包。

罕见词模型可以是多个标记被用于未知源词和未知目标词的模型。与未知源词对齐的每个未知目标词可以使用相同的未知标记。未对齐或者与已知源词对齐的每个未知目标词可以使用特殊的空未知标记。

该方法可以包括，针对训练数据集中的每对句，按顺序用不同的未知源标记来给源句中的未知源词作注解，其中，未知源词的多个实例被用相同的标记作注解。该方法还可以包括给目标句中的未知目标词作注解，包括：用与未知源词的未知标记相同的未知标记来给与未知源词对齐的未知目标词作注解；以及用空未知标记来给未对齐或者与已知源词对齐的未知目标词作注解。

罕见词模型可以是使用仅单个未知标记的模型。在目标句中，位置标记可以被***在指示在相对位置在预定范围内的情况下目标词如何通过相对于源词的位置被对齐或者目标词不与任何源词对齐的每个目标词之后。

该方法还可以包括，针对训练数据集中的每对句，用相同的未知标记来给源句中的每个未知源词作注解并且给目标句中的目标词作注解，包括：用空标记来给未对齐的目标词作注解；以及用指示目标句中已对齐的目标词相对于源句中已对齐的源词的位置的相对位置的位置标记来给在相对于已对齐的源词的位置的预定范围内的每个对齐的目标词作注解。

位置的范围可以是-7、-6、…-1、0、1、…7。

可以不给不在位置的预定范围内的对齐的目标词作注解。

罕见词模型可以是使用各自同时表示(a)未知目标词和(b)在相对位置的范围内相对于已对齐的源词的相对位置的不同标记的模型。通用未知标记可以被用于所有其它的未知源词和目标词。

该方法还可以包括，针对训练数据集中的每对句，给仅未知词作注解，包括：在相对位置在相对位置的范围内的情况下，用表示目标词相对于所对应的对齐的源词的相对位置的位置标记来给每个对齐的未知目标词作注解；以及用通用未知标记来给所有另外未作注解的未知源词和未知目标词作注解。

给仅未知词作注解还可以包括用空标记来给每个未对齐的未知目标词作注解。

相对位置的范围可以是-7、-6、…-1、0、1、…7。

该方法还可以包括，针对训练数据集中的每对句，将目标句上的第i个未知词视为与源句中的第i个未知词对齐。

该方法还可以包括从对齐数据构造词典以在对包括目标句中的词汇表外标记的神经网络产生的机器翻译所执行的后处理步骤中的词翻译中使用。

在本文中还描述了编码有指令的计算机存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机执行第二方面的操作。

在本文中还描述了包括一个或多个计算机以及存储指令的一个或多个存储装置的***，当由一个或多个计算机执行所述指令时，能操作用于使所述一个或多个计算机执行第二方面的操作。

在本文中还描述了编码有指令的计算机存储介质，当由一个或多个计算机执行所述指令时，使所述一个或多个计算机执行第一方面的***的操作。

在本文中还描述了包括第一方面的***的操作的计算机实现的方法。

在附图和以下描述中阐述本说明书中所描述的主题的一个或多个实施例的进一步细节。本主题的其它特征、方面和优点从本说明书、附图和权利要求书将变得显而易见。

附图说明

图1示出示例翻译***。

图2是用于训练神经翻译模型的示例过程的流程图。

图3是从源语言句产生目标语言句的流程图。

各个附图中的相同的附图标记和名称指示相同的元件。

具体实施方式

图1示出示例翻译***100。翻译***100是作为计算机程序被实现在一个或多个位置中的一个或多个计算机上的***的示例，在下面所描述的***、组件和技术被实现在所述一个或多个位置中。

翻译***100接收源自然语言的句，例如，源语言句110，并且将源自然语言句翻译成目标自然语言的目标句，例如，针对源语言句110的目标语言句150。

翻译***100包括神经网络翻译模型120、罕见词处理子***130和词典140。

神经网络翻译模型120是将源语言句映射到目标语言句的神经网络。神经网络翻译模型120可以是任何基于神经网络的翻译模型。例如，神经网络翻译模型120可以是深度神经网络。更具体地，神经网络翻译模型120可以是大型深度长短期记忆模型，例如，六层深度长短期记忆模型。

作为又一个示例，神经网络翻译模型120能够包含深度编码器长短期记忆模型和深度解码器长短期记忆模型，其中编码器被配置成能操作用于读取源句，一次一个词，以产生概括整个源句的大隐藏状态，并且解码器被从编码器的最终隐藏状态初始化并且被配置成能操作用于产生目标翻译，一次一个词，直到解码器发出句结束符号为止。在Sutskever、Ilya、Oriol Vinyals和Quoc V Le.“Sequence to sequence learning with neuralnetworks.”Advances in neural information processing systems.2014中更详细地描述了这样的神经网络翻译模型。

作为将源语言句映射到目标语言句的一部分，神经网络翻译模型120被配置成唯一地表示在预定源语言词汇表中找到的源词以及在预定目标语言词汇表中找到的目标词。也就是说，神经网络翻译模型120被配置成使用唯一地标识源词的标记来表示在源语言词汇表中的源词并且产生包括唯一地标识目标语言词汇表中的目标词的标记的目标句。

然而，在一些情况下，输入源语言句可以包括未被包括在源语言词汇表中的源词，即，不唯一地标识标记由神经网络翻译模型120识别并且该神经网络翻译模型因此不能够唯一地表示的源词。附加地，在一些情况下，神经网络翻译模型120可以确定目标句中的某些目标词不是来自目标语言词汇表的词。也就是说，针对目标语言句中的给定位置，神经网络翻译模型120可以确定该位置处的词不应该是目标语言词汇表中的词中的任一个而应该为未知词。不在源语言词汇表中的源词以及不在目标语言词汇表中的目标词将在本说明书中被称为词汇表外(OOV)词或未知词。

为了说明出现在目标语言句中的OOV词，翻译***100训练神经网络翻译模型120以跟踪目标句中的未知词的源句中的起源。特别地，翻译***100将神经网络翻译模型120训练成能操作用于发出(i)指针标记和(ii)空未知标记，指针标记是标识与未知标记相对应的源句中的相应源词的未知标记，并且空未知标记是不标识源句中的任何源词的标记。在下面参考图2更详细地描述训练神经网络翻译模型120以跟踪目标句中的未知词的源句中的起源。

一旦神经网络翻译模型120已被训练，罕见词处理子***130就能够针对由神经网络翻译模型120从源句发出的目标句中的每个指针标记，使用词典140来根据源句中所对应的源词替换指针标记。

词典140是将源语言的词映射到这些词变成目标语言的翻译的词典。在一些实施方式中并且如参考图2在下面所描述的，翻译***100与神经网络翻译模型120的训练相结合地产生词典140。在一些其它实施方式中，***使用常规的词典作为词典140。

特别地，当指针标记被包括在由神经网络翻译模型120发出的目标句中时，罕见词处理子***130使用词典140来根据由指针标记指向的源句中所对应的源词执行词翻译并且用翻译的结果替换指针标记。如果在词典140中不存在这样的翻译，则罕见词处理子***130用来自源句的所对应的源词替换目标句中的指针标记。在下面参考图3更详细地描述从源句产生目标句。

图2是用于训练神经网络翻译模型的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置中的一个或多个计算机的***来执行。例如，适当地编程的翻译***(例如，图1的翻译***100)能够执行过程200。

***获得平行语料库(步骤202)。该平行语料库包括句的对，其中每个对包括源语言句以及作为该源语言句变成目标语言的翻译的目标语言句。

***从平行语料库导出对齐数据(步骤204)。该对齐数据针对平行语料库中的每对句来标识对齐的源词和目标词。也就是说，该对齐数据针对目标语言句中的每个目标词来标识与目标词对齐的源语言句中的源词(若有的话)。***能够使用无监督词对齐算法来从平行语料库导出对齐数据。例如，词对齐算法可以是在例如可在https:// code.***.com/p/berkeleyaligner/得到的词对齐软件包BerkeleyAligner的版本2.0中实现的一个。

***根据对齐数据来给平行语料库中的句作注解以产生成对的源语言句和目标语言句的训练数据集(步骤206)。特别地，***依照通过将被称为罕见词模型的东西所指定的特定注解策略来给句作注解。本说明书特别地描述了三个罕见词模型注解策略：可复制模型、位置全模型以及位置未知模型。

在可复制模型中，多个标记被用于未知源词和未知目标词，与未知源词对齐的每个未知目标词使用与未知源词相同的未知标记，并且未对齐或者与已知源词对齐的每个未知目标词使用特殊的空未知标记。

特别地，在可复制模型中，***针对每对句按顺序用不同的未知源标记来给该对中的源语言句中的未知源词作注解，其例外是任何未知源词的多个实例被用相同的未知源标记作注解。***然后通过用与未知源词的未知标记相同的未知标记来给与未知源词对齐的未知目标词作注解并且用空未知标记来给未对齐或者与已知源词对齐的未知目标词作注解来给目标句中的未知目标词作注解。

在位置全模型中，使用仅单个未知标记，并且在每个目标句中，位置标记被***在指示(i)在相对位置在预定范围内的情况下目标词如何通过相对于源词的位置被对齐或者(ii)目标词不与任何源词对齐的目标句中的每个目标词之后。

特别地，在位置全模型中，***针对每对句用相同的未知标记来给源句中的每个未知源词作注解。***然后用空标记来给目标句中的每个未对齐的目标词作注解并且用指示目标句中已对齐的目标词相对于源句中已对齐的源词的位置的相对位置的位置标记来给在相对于已对齐的源词的位置的预定范围内的目标句中的每个对齐的目标词作注解。例如，位置的预定范围可以是-7、-6、…-1、0、1、…7。在一些实施方式中，不在位置的预定范围内的已对齐的目标词未被作注解。

在位置未知模型中，使用各自同时表示(a)未知目标词以及(b)在相对位置的范围内相对于已对齐的源词的相对位置的不同标记并且通用未知标记被用于所有其它的未知源词和目标词。例如，范围可以是-7、-6、…-1、0、1、…7。

特别地，在位置未知模型中，***仅给每对句中的源句和目标句中的未知词作注解。更具体地，***在相对位置在相对位置的范围内的情况下用表示目标词相对于所对应的对齐的源词的相对位置的位置标记来给每个对齐的未知目标词作注解，并且用通用未知标记来给所有另外未作注解的未知源词和未知目标词作注解。在一些实施方式中，***还用空标记来给每个未对齐的未知目标词作注解。

***在训练数据集上训练神经网络翻译模型(例如，图1的神经网络翻译模型120)(步骤208)。***使用常规的神经网络训练技术(例如，反向传播训练技术)来在训练数据集上训练神经网络翻译模型。

通过在训练数据集上训练神经网络翻译模型，***将该神经网络翻译模型训练成跟踪目标句中的未知词的源句中的起源并且针对目标句中的每个未知词发出相应的未知标记以及能操作用于发出(i)指针标记和(ii)空未知标记，指针标记是标识与未知标记相对应的源句中的相应源词的未知标记，并且空未知标记是不标识源句中的任何源词的标记。

***使用对齐数据来构造词典(步骤210)。***构造该词典以在对包括目标句中的词汇表外标记的神经网络产生的机器翻译所执行的后处理步骤中的词翻译中使用。特别地，***通过将目标句中对齐的未知目标词映射到与目标词对齐的源词来构造词典。在一些其它实施方式中，不是构造词典，而是***在后处理步骤中使用包括从源语言到目标语言的翻译的常规词典。

图3是用于从输入语言句产生目标语言句的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置中的一个或多个计算机的***来执行。例如，适当地编程的翻译***(例如，图1的翻译***100)能够执行过程300。

***接收源语言句(步骤302)。

***使用训练的神经网络翻译模型(例如，图1的神经网络翻译模型120)来处理句以产生目标语言句(步骤304)。

作为使用经训练的神经网络翻译模型来处理句的一部分，***依照在训练神经网络翻译模型时使用的罕见词模型注解策略来给源语言句作注解。

特别地，在可复制模型中，***按顺序用不同的未知源标记来给源语言句中的任何未知源词作注解，其中任何未知源词的多个实例被用相同的未知源标记作注解。在位置全模型和位置未知模型中，***用相同的未知标记来给源语言句中的每个未知源词作注解。

***提供已作注解的源句作为经训练的神经网络翻译模型的输入并且该神经网络翻译模型产生目标语言句。

如果在目标语言句中存在任何未知目标词，则神经网络翻译***已被训练成针对每个未知目标词发出(i)指针标记或(ii)空未知标记，指针标记是标识与未知标记相对应的源句中的相应源词的未知标记，空未知标记是针对每个未知目标词不标识源句中的任何源词的标记。

指针标记标识源句中的源词的方式依赖于在训练神经网络翻译模型时使用的罕见词模型注解策略。

特别地，在可复制模型中，每个指针标记与用来给源语言句中的特定未知源词作注解的未知源标记相同。在位置全模型和位置未知模型中，每个指针标记是指示目标词如何通过相对于所对应的源词的位置被对齐的未知标记。

***替换目标语言句中的任何指针标记以为源语言句产生最终翻译(步骤306)。也就是说，***使用目标语言的每个指针标记来标识对应于该指针标记的源词。***使用词典来根据源句中所对应的源词执行词翻译并且用翻译的结果替换指针标记，或者，在词典中不存在这样的翻译的情况下，用来自源句的所对应的源词替换目标句中的指针标记。

本说明书中所描述的主题和功能操作的实施例能够用数字电子电路、用有形地具体化的计算机软件或固件、用包括本说明书中所公开的结构及其结构等同物的计算机硬件或者用它们中的一个或多个的组合来实现。本说明书中所描述的主题的实施例能够作为一个或多个计算机程序(即，在有形非暂时性程序载体上编码以用于由数据处理设备执行或者控制数据处理设备的操作的计算机程序指令的一个或多个模块)被实现。可替选地或此外，能够将程序指令编码在人工产生的传播信号(例如，被产生来编码信息以便发送到适合的接收器设备以供数据处理设备执行的机器产生的电、光学或电磁信号)上。计算机存储介质可以是机器可读存储装置、机器可读存储基底、随机或串行存取存储器装置，或它们中的一个或多个的组合。

术语“数据处理设备”包含用于处理数据的所有类型的设备、装置和机器，作为示例包括可编程处理器、计算机或多个处理器或计算机。设备能够包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。设备除了包括硬件之外，还能够包括为所述的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理***、操作***或它们中的一个或多个的组合的代码。

计算机程序(其也可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或代码)能够用任何形式的编程语言(包括编译或解释语言)或者描述性或过程语言来编写，并且它能够被以任何形式(包括作为独立程序或者作为适合于在计算环境中使用的模块、组件、子例行程序或其它单元)部署。计算机程序可以但不必对应于文件***中的文件。能够在保持其它程序或数据的文件的一部分(例如，存储在标记语音文档中的一个或多个脚本)中、在专用于所述的程序的单个文件中或在多个协调文件(例如，存储一个或多个模块、子程序或代码的部分的文件)中存储程序。能够将计算机程序部署成在一个计算机上或者在位于一个站点处或跨越多个站点分布并且通过通信网络互连的多个计算机上执行。

本说明书中所描述的过程和逻辑流程能够由执行一个或多个计算机程序的一个或多个可编程计算机来执行以通过对输入数据进行操作并且产生输出来执行功能。过程和逻辑流程还能够由专用逻辑电路来执行，并且设备还能够作为专用逻辑电路被实现，所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

作为示例，适合于执行计算机程序的计算机能够基于通用微处理器或专用微处理器或两者，或任何其它类型的中央处理单元。一般地，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于依照指令执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器装置。一般地，计算机还将包括或者被可操作地耦合以从用于存储数据的一个或多个大容量存储装置(例如，磁盘、磁光盘或光盘)接收数据或者向一个或多个大容量存储装置传递数据或两者。然而，计算机不必具有这些装置。而且，能够将计算机嵌入在另一装置(例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位***(GPS)接收器或便携式存储装置(例如，通用串行总线(USB)闪存驱动器)等等)中。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质以及存储器装置，作为示例包括半导体存储器装置，例如，EPROM、EEPROM和闪存装置；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或者被并入专用逻辑电路。

为了提供与用户的交互，能够将本说明书中所描述的主题的实施例实现在具有用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示)监视器)以及用户能够通过其向计算机提供输入的键盘和指示装置(例如，鼠标或轨迹球)的计算机上。其它类型的装置也能够被用来提供与用户交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且能够以包括声输入、语音输入或触觉输入的任何形式接收来自用户的输入。此外，计算机能够通过向由用户使用的装置发送文档并且从由用户使用的装置接收文档(例如，通过响应于从web浏览器接收到的请求而向用户的客户端装置上的web浏览器发送web页面)来与用户交互。

本说明书中所描述的主题的实施例能够被实现在计算***中，所述计算***包括后端组件(例如，作为数据服务器)，或者其包括中间件组件(例如，应用服务器)，或者其包括前端组件(例如，具有用户能够通过其与本说明中所描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机)，或一个或多个这种后端组件、中间件组件或前端组件的任何组合。***的组件能够通过任何形式或介质的数字数据通信(例如，通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如，互联网。

计算***能够包括客户端和服务器。客户端和服务器一般地彼此远离并且典型地通过通信网络交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多特定实施方式细节，但是这些不应该被解释为对任何发明的范围或可能要求保护的范围构成限制，而应该被解释为可能特定于特定发明的特定实施例的特征的描述。还能够在单个实施例中相结合地实现在本说明书中在单独的实施例背景下所描述的特定特征。相反地，还能够单独地在多个实施例中或在任何适合的子组合中实现在单个实施例背景下所描述的各种特征。而且，尽管特征可以被以上描述为在特定组合中起作用并且甚至最初要求保护，但是来自要求保护的组合的一个或多个特征能够在一些情况下被从组合中删除，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然按特定次序在附图中描绘操作，但是这不应该被理解为要求这些操作被以所示出的特定次序或以顺序次序执行，或者要求执行所有图示的操作，以实现所希望的结果。在某些情况下，多任务处理和并行处理可能是有利的。而且，在上面所描述的实施例中使各种***模块和组件分离不应该被理解为在所有实施例中要求这种分离，而应该理解的是，所描述的程序组件和***一般地能够被一起集成在单个软件产品中或者被封装到多个软件产品中。

已经描述了本主题的特定实施例。其它实施例在以下权利要求的范围内。例如，权利要求中所记载的动作能够按照不同次序被执行并且仍然实现所希望的结果。作为一个示例，附图中所描绘的过程未必要求所示出的特定次序或顺序次序以实现所希望的结果。在某些实施方式中，多任务处理和并行处理可能是有利的。

Claims

1.一种用于将来自源语言的源句的自然语言文本翻译为目标语言的目标句的计算机实现的翻译***，所述翻译***包括一个或多个计算机以及存储翻译指令和翻译数据的一个或多个存储装置，其中：

所述翻译数据包括：

词典；

神经网络翻译模型，所述神经网络翻译模型被训练成跟踪目标句中的未知词在源句中的起源并且针对所述目标句中的每个词汇表外OOV的词发出相应的未知标记，所述模型能操作用于发出(i)指针标记和(ii)空未知标记，所述指针标记是标识与所述未知标记相对应的所述源句中的相应源词的未知标记，并且所述空未知标记是不标识所述源句中的任何源词的标记；

当由所述一个或多个计算机执行时，所述翻译指令能操作用于使所述一个或多个计算机执行包括以下的操作：

针对由所述神经网络翻译模型从源句发出的目标句中的每个指针标记，根据所述源句中的对应源词来替换所述指针标记。

2.根据权利要求1所述的翻译***，其中，替换每个指针标记包括：

使用所述词典来根据所述源句中的所述对应源词来执行词翻译并且用所述翻译的结果替换所述指针标记，或者，在所述词典中不存在此种翻译的情况下，用来自所述源句的所述对应源词来替换所述目标句中的所述指针标记。

3.根据权利要求1至2中的任一项所述的翻译***，其中：

所述神经网络翻译模型包含深度编码器长短期记忆模型和深度解码器长短期记忆模型，其中：

所述编码器被训练成能操作用于读取所述源句，一次一个词，以产生概括整个源句的大隐藏状态；以及

所述解码器被从所述编码器的最终隐藏状态初始化并且被训练成能操作用于产生目标翻译，一次一个词，直到所述解码器发出句结束符号为止。

4.根据权利要求1至3中的任一项所述的翻译***，其中：

所述神经网络翻译模型是深度神经网络。

5.根据权利要求1至3中的任一项所述的翻译***，其中：

所述神经网络翻译模型是大型深度长短期记忆模型。

6.根据权利要求1至3中的任一项所述的翻译***，其中：

所述神经网络翻译模型是六层深度长短期记忆模型。

7.一种相应地用源语言和目标语言来训练神经网络翻译***以跟踪目标句中的未知词在源句中的源的方法，

其中：

未知源词是在预定源语言词汇表中未找到的词；以及

未知目标词是在预定目标语言词汇表中未找到的词；

所述方法包括：

从平行语料库导出对齐数据，所述对齐数据在所述平行语料库中的每对源语言句和目标语言句中标识对齐的源词和目标词；

根据所述对齐数据和罕见词模型来给所述平行语料库中的所述句作注解，以产生成对的源语言句和目标语言句的训练数据集；以及

在所述训练数据集上训练神经网络翻译模型。

8.根据权利要求7所述的方法，其中，导出对齐数据包括：使用无监督的对齐器来导出对齐数据。

9.根据权利要求8所述的方法，其中，所述无监督的对齐器是BerkeleyAligner软件包。

10.根据权利要求7至9中的任一项所述的方法，其中，所述罕见词模型是多个标记被用于未知源词和未知目标词的模型，其中：

与未知源词对齐的每个未知目标词使用相同的未知标记；以及

未对齐或者与已知源词对齐的每个未知目标词使用特殊的空未知标记。

11.根据权利要求7至9中的任一项所述的方法，还包括：针对所述训练数据集中的每对句：

按顺序用不同的未知源标记来给所述源句中的所述未知源词作注解，其中，未知源词的多个实例被用相同的标记作注解；以及

给所述目标句中的所述未知目标词作注解，包括：

用与所述未知源词的未知标记相同的未知标记来给与未知源词对齐的未知目标词作注解；

用空未知标记来给未对齐或者与已知源词对齐的未知目标词作注解。

12.根据权利要求7至9中的任一项所述的方法，其中，所述罕见词模型是仅使用单个未知标记的模型，其中：

在所述目标句中，位置标记被***在下述每个目标词之后：该目标词指示在相对位置处于预定范围内的情况下如何通过相对于源词的位置来对齐所述目标词、或者所述目标词没有与任何源词对齐。

13.根据权利要求7至9中的任一项所述的方法，还包括：针对所述训练数据集中的每对句：

用相同的未知标记来给所述源句中的每个未知源词作注解；以及

给所述目标句中的目标词作注解，包括：

用空标记来给未对齐的目标词作注解；以及

用位置标记来给相对于对齐的源词处于位置的预定范围内的每个对齐的目标词作注解，所述位置标记指示所述目标句中对齐的目标词相对于所述源句中的对齐的源词位置的相对位置。

14.根据权利要求12或权利要求13所述的方法，其中：

所述位置的范围是-7、-6、…-1、0、1、…7。

15.根据权利要求12至14中的任一项所述的方法，其中，没有处于所述位置的预定范围内的对齐的目标词未被作注解。

16.根据权利要求7至9中的任一项所述的方法，其中，所述罕见词模型是使用下述不同标记的模型：该不同标记中的每个同时表示(a)未知目标词和(b)相对于对齐的源词的相对位置处于相对位置范围内；以及

通用未知标记被用于所有其它的未知源词和目标词。

17.根据权利要求16所述的方法，其中：

所述相对位置范围是-7、-6、…-1、0、1、…7。

18.根据权利要求7至9中的任一项所述的方法，还包括：针对所述训练数据集中的每对句：

仅给未知词作注解，包括：

在所述相对位置处于相对位置范围内的情况下，用位置标记来给每个对齐的未知目标词作注解，所述位置标记表示所述目标词相对于对应的对齐源词的相对位置；以及

用通用未知标记来给所有其他未作注解的未知源词和未知目标词作注解。

19.根据权利要求18所述的方法，其中，仅给未知词作注解还包括：

用空标记来给每个未对齐的未知目标词作注解。

20.根据权利要求18或权利要求19所述的方法，其中：

所述相对位置范围是-7、-6、…-1、0、1、…7。

21.根据权利要求7至9中的任一项所述的方法，还包括：针对所述训练数据集中的每对句：

所述目标句上的第i个未知词被视为与所述源句中的第i个未知词对齐。

22.根据权利要求7至21中任何一项所述的方法，还包括：

从所述对齐数据来构造词典，以在后处理步骤中的词翻译中使用，所述后处理步骤是对包括目标句中的词汇表外标记的神经网络产生的机器翻译所执行的。

23.一种编码有指令的计算机存储介质，当所述指令由一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求7至22中的任一项所述的相应方法的操作。

24.一种***，所述***包括：

一个或多个计算机以及存储指令的一个或多个存储装置，当所述指令由所述一个或多个计算机执行时，能操作用于使所述一个或多个计算机执行根据权利要求7至22中的任一项所述的相应方法的操作。

25.一种编码有指令的计算机存储介质，当所述指令由一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求1至6中的任一项所述的***的操作。

26.一种计算机实现的方法，所述方法包括根据权利要求1至6中的任一项所述的***的操作。