CN111783435B

CN111783435B - 共享词汇的选择方法、装置及存储介质

Info

Publication number: CN111783435B
Application number: CN201910204303.8A
Authority: CN
Inventors: 童毅轩; 张永伟; 董滨; 姜珊珊; 张佳师
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2024-06-25
Anticipated expiration: 2039-03-18
Also published as: CN111783435A

Abstract

本发明提供了一种共享词汇的选择方法、装置及存储介质。本发明实施例提供的共享词汇的选择方法，可以选择出神经机器翻译模型的编码器和解码器端共用的共享词汇对，从而减少了模型参数，使得后续神经机器翻译模型的训练时间得以减少，还可以减少训练神经机器翻译模型所需要的数据量，另外，本发明可以提高训练得到的神经机器翻译模型的泛化能力，提高翻译性能。

Description

共享词汇的选择方法、装置及存储介质

技术领域

本发明涉及自然语言处理(NLP，Natural Language Processing)中的神经机器翻译技术领域，具体涉及一种共享词汇的选择方法、装置及存储介质。

背景技术

神经机器翻译(NMT，Neural Machine Translation)是指直接采用神经网络以端到端方式进行翻译建模的机器翻译方法。区别于利用深度学习技术完善传统统计机器翻译中某个模块的方法，神经机器翻译采用一种简单直观的方法完成翻译工作：首先使用一个称为编码器(Encoder)的神经网络将源语言句子编码为一个稠密向量，然后使用一个称为解码器(Decoder)的神经网络从该向量中解码出目标语言句子。上述神经网络模型一般称之为“编码器-解码器”(Encoder-Decoder)结构。

目前，常见的NMT模型包括序列到序列(seq2seq)模型、卷积序列到序列(convS2S)模型以及transformer模型。现有技术在对神经机器翻译模型进行训练时，通常存在着训练时间较长的问题。另外，为了改善训练得到的神经机器翻译模型的翻译性能，通常需要依赖大量的训练数据。

发明内容

本发明实施例要解决的技术问题是提供一种共享词汇的选择方法、装置及存储介质，可以选择出神经机器翻译模型的编码器和解码器端共用的共享词汇，从而简化后续的神经机器翻译模型的训练过程，改善训练得到的神经机器翻译模型的翻译性能。

为解决上述技术问题，本发明实施例提供的共享词汇的选择方法，包括：

从源词汇表和目标词汇表中选择出多个候选词汇对，所述源词汇表为神经机器翻译模型的编码器端的源词汇组成的词汇表，所述目标词汇表为所述神经机器翻译模型的解码器端的目标词汇组成的词汇表；每个所述候选词汇对包括所述源词汇表中的一个候选源词汇和所述目标词汇表中的一个候选目标词汇；

为每个所述候选词汇对分别初始化一个共享倾向性参数，利用源句子和目标句子对所述神经机器翻译模型进行预训练，更新包括所述共享倾向性参数在内的模型参数，得到第一神经机器翻译模型及其模型参数，其中，在所述预训练的过程中，对于所述目标句子中存在的候选目标词汇，根据所属候选词汇对的共享倾向性参数，对该候选目标词汇的解码器词向量和该候选目标词汇对应的候选源词汇的编码器词向量进行加权求和后，输入至所述解码器；

根据预训练得到的每个所述候选词汇对的共享倾向性参数，从所述多个候选词汇对中选择出共享词汇对。

优选的，在所述预训练的过程中：

对于所述目标句子中存在的非候选目标词汇，将该非候选目标词汇的解码器词向量输入至所述解码器，所述非候选目标词汇为目标词汇表中除所述候选目标词汇外的剩余词汇；

对于所述源句子的词汇，将该词汇的编码器词向量输入至所述编码器。

优选的，从源词汇表和目标词汇表中选择出多个候选词汇对的步骤，包括：

选择出所述源词汇表和目标词汇表存在的相同词汇，作为一个候选词汇对；

或，

从所述源词汇表中选择第一词汇，以及，从目标词汇表中选择第二词汇，将所述第一词汇和第二词汇组合成一个候选词汇对，其中，所述第一词汇和第二词汇在预设词典中的含义相同或相近。

优选的，根据预训练得到的每个所述候选词汇对的共享倾向性参数，从所述多个候选词汇对中选择出共享词汇对的步骤，包括：

选择出所述共享倾向性参数大于预设阈值的候选词汇对，作为所述共享词汇对。

优选的，对于所述目标句子中存在的候选目标词汇，根据所属候选词汇对的共享倾向性参数，对该候选目标词汇的解码器词向量和该候选目标词汇对应的候选源词汇的编码器词向量进行加权求和后，输入至所述解码器的步骤，包括：

根据预设激活函数，将该所属候选词汇对的共享倾向性参数，映射为取值范围介于0和1之间的第一权重；

根据所述第一权重，对该候选目标词汇对应的候选源词汇的编码器词向量进行加权，得到第一中间向量；以及，根据第二权重，对该候选目标词汇的解码器词向量进行加权，得到第二中间向量，其中，所述第二权重与所述第一权重负相关；

计算所述第一中间向量和第二中间向量的向量和，得到该候选目标词汇的词向量并输入至所述解码器。

优选的，在选择出共享词汇对之后，所述方法还包括：

更新所述神经机器翻译模型的编码器词向量和解码器词向量，其中，对于每个共享词汇对在所述源词汇表和目标词汇表中的词汇，使用相同的词向量；

根据更新后的所述编码器词向量和解码器词向量，训练所述神经机器翻译模型，得到第二神经机器翻译模型。

本发明实施例还提供了一种共享词汇的选择装置，包括：

第一选择单元，用于从源词汇表和目标词汇表中选择出多个候选词汇对，所述源词汇表为神经机器翻译模型的编码器端的源词汇组成的词汇表，所述目标词汇表为所述神经机器翻译模型的解码器端的目标词汇组成的词汇表；每个所述候选词汇对包括所述源词汇表中的一个候选源词汇和所述目标词汇表中的一个候选目标词汇；

第一训练单元，用于为每个所述候选词汇对分别初始化一个共享倾向性参数，利用源句子和目标句子对所述神经机器翻译模型进行预训练，更新包括所述共享倾向性参数在内的模型参数，得到第一神经机器翻译模型及其模型参数，其中，在所述预训练的过程中，对于所述目标句子中存在的候选目标词汇，根据所属候选词汇对的共享倾向性参数，对该候选目标词汇的解码器词向量和该候选目标词汇对应的候选源词汇的编码器词向量进行加权求和后，输入至所述解码器；所述编码器词向量是对源词汇表中的词汇预先训练得到的词向量；所述解码器词向量是对目标词汇表中的词汇预先训练得到的词向量；

第二选择单元，用于根据预训练得到的每个所述候选词汇对的共享倾向性参数，从所述多个候选词汇对中选择出共享词汇对。

优选的，所述第一训练单元，还用于在所述预训练的过程中：对于所述目标句子中存在的非候选目标词汇，将该非候选目标词汇的解码器词向量输入至所述解码器，所述非候选目标词汇为目标词汇表中除所述候选目标词汇外的剩余词汇；对于所述源句子的词汇，将该词汇的编码器词向量输入至所述编码器。

优选的，所述第一选择单元包括：

第一选择子单元，用于选择出所述源词汇表和目标词汇表存在的相同词汇，作为一个候选词汇对；

或，

第二选择子单元，用于从所述源词汇表中选择第一词汇，以及，从目标词汇表中选择第二词汇，将所述第一词汇和第二词汇组合成一个候选词汇对，其中，所述第一词汇和第二词汇在预设词典中的含义相同或相近。

优选的，所述第二选择单元，还用于选择出所述共享倾向性参数大于预设阈值的候选词汇对，作为所述共享词汇对。

优选的，所述第一训练单元包括：

词向量计算单元，用于根据预设激活函数，将该所属候选词汇对的共享倾向性参数，映射为取值范围介于0和1之间的第一权重；根据所述第一权重，对该候选目标词汇对应的候选源词汇的编码器词向量进行加权，得到第一中间向量；以及，根据第二权重，对该候选目标词汇的解码器词向量进行加权，得到第二中间向量，其中，所述第二权重与所述第一权重负相关；计算所述第一中间向量和第二中间向量的向量和，得到该候选目标词汇的词向量并输入至所述解码器。

优选的，所述共享词汇的选择装置还包括：

词向量更新单元，用于更新所述神经机器翻译模型的编码器词向量和解码器词向量，其中，对于每个共享词汇对在所述源词汇表和目标词汇表中的词汇，使用相同的词向量；

第二训练单元，用于根据更新后的所述编码器词向量和解码器词向量，训练所述神经机器翻译模型，得到第二神经机器翻译模型。

本发明实施例还提供了一种共享词汇的选择装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的共享词汇的选择方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的共享词汇的选择方法的步骤。

与现有技术相比，本发明实施例提供的共享词汇的选择方法、装置及存储介质，通过为神经机器翻译模型的编码器和解码器端选择共用的共享词汇对，从而可以减少模型参数，使得后续神经机器翻译模型的训练时间得以减少，同时还可以减少训练神经机器翻译模型所需要的数据量。另外，本发明实施例还可以提高训练得到的神经机器翻译模型的泛化能力，提高翻译性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的共享词汇的选择方法的一种流程示意图；

图2为本发明实施例提供的神经机器翻译模型的一个示例图；

图3为本发明实施例提供的词汇共享层的一个示例图；

图4为本发明实施例的共享词汇的选择方法的另一种流程示意图；

图5为本发明实施例提供的词汇的选择装置的一种结构示意图；

图6为本发明实施例的共享词汇的选择装置的另一结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

为了帮助理解本发明实施例，首先对本发明实施例可能涉及的相关概念进行简单说明。

1)词(word)、字符(character)和词汇(vocabulary)

词是语言中能够独立运用的最小单位，是指词在句法结构中的地位和作用而言的。例如，在英文中，词通常是指单词(word)，可以包括一个或多个英文字母。另外，英文的语句表示中，词与词之间通常有空格或标点符号。在中文中，词通常是指词语，可以包括一个或多个汉字。中文的语句表示中，词和词之间通常没有边界。

字符：本文中的字符通常是指英文中的字母，中文中的汉字，以及各种标点符号(如句号、逗号等)。

词汇(vocabulary)，也可以称为词汇单元或子词单元(subword)，是介于字符与词之间的一种文本表示单元。例如，对于英文单词“homework”来说，它包括有8个字符，可能被拆分为2个子词单元，分别为“home”和“work”，还可能被拆分为3个子词单元，分别为“ho”、“me”和“work”。对于中文词语“生命探测仪”，它包括有5个字符，可能被拆分为2个子词单元，分别为“生命”和“探测仪”，还可能被拆分为3个子词单元，分别为“生命”、“探测”和“仪”。

2)源句子、目标句子和平行语料

平行语料为神经机器翻译模型训练所需要的语料。平行语料中通常包括源句子语料和目标句子语料。源句子语料包括多个源语言的源句子，目标句子语料包括多个目标语言的目标句子，每个源句子存在有与之对应的目标句子，两者组成一个平行语料。

3)神经机器翻译模型、编码器、解码器、编码器词向量和解码器词向量

神经机器翻译模型通常包括被称为编码器(Encoder)的神经网络和被称为解码器(Decoder)的神经网络。编码器将源语言句子(本文也简称为源句子)编码为一个稠密向量，然后使用解码器从该向量中解码出目标语言句子(本文也简称为目标句子)。

编码器端使用由源语言中的词汇(本文称之为源词汇)组成的源词汇表，对源词汇表中的词汇进行训练可以得到供编码器端使用的编码器词向量。类似的，解码器端使用由目标语言中的词汇(本文称之为目标词汇)组成的目标词汇表，对目标词汇表中的词汇进行训练可以得到供解码器端使用的解码器词向量。

神经机器翻译模型中，在编码器端和解码器端分别有一个独立的词向量搜索层，用于将源句子或目标句子的词汇ID组成的ID序列，转换为对应的词向量序列。其中，编码器端的词向量搜索层，需要使用编码器词向量进行上述词向量转换；解码器端的词向量搜索层，需要使用解码器词向量进行上述词向量转换。也就是说，在神经机器翻译模型中，源句子中的词汇将通过编码器端的词向量搜索层，转换为该词汇对应的编码器词向量，而目标句子中的词汇将通过解码器端的词向量搜索层转换为该词汇对应的解码器词向量。

请参照图1，给出了本发明实施例提供的共享词汇的选择方法的一种流程示意图，该共享词汇的选择方法可以选择出神经机器翻译模型的编码器和解码器端共用的共享词汇，从而简化后续的神经机器翻译模型的训练过程，提升训练得到的神经机器翻译模型的翻译性能。具体的，所述神经机器翻译模型为序列到序列(seq2seq)模型、卷积序列到序列(convS2S)模型或transformer模型，当然，本发明实施例还可以应用于其他类型的神经机器翻译模型，本发明对此不做具体限定。

如图1所示，本发明实施例提供的共享词汇的选择方法可以包括：

步骤101，从源词汇表和目标词汇表中选择出多个候选词汇对。

以上步骤中，所述源词汇表为神经机器翻译模型的编码器端的源词汇组成的词汇表，所述目标词汇表为所述神经机器翻译模型的解码器端的目标词汇组成的词汇表；每个所述候选词汇对包括所述源词汇表中的一个源词汇(本文称之为候选源词汇)和所述目标词汇表中的一个目标词汇(本文称之为候选目标词汇)。

通常，在训练神经机器翻译模型之前，需要预先获取源语言(如日文)和目标语言(如中文)的词汇表。这里，所述源词汇表提供了源语言的词汇，供神经机器翻译模型的编码器端使用；所述目标词汇表提供了目标语言的词汇，供神经机器翻译模型的解码器端使用。

上述源词汇表和目标词汇表的一种获取方式为：

从各种语料库和/或互联网上获取包括源语言和目标语言的原始语料。然后，对这些原始语料进行数据预处理，获得所述源词汇表和目标词汇表，具体的，数据预处理可以包括：

A)数据清洗。

去除原始语料中的噪声，噪声通常包括：统一资源定位符(URL，Uniform ResourceLocator)、电子邮件地址以及诸如“&lt；”、“&gt；”等由网页引入的符号；去除由网页引入的“<html>”、“<title>”以及“<body>”等xml标签，只保留标签之间的文本；

B)数据分割

按照句号对原始语料中的原始文本分句。然后，可以使用开源的文本数据分析工具kytea等工具，进一步将句子划分成词，得到组成句子的词序列。然后，可以使用字节对编码(BPE，Byte Pair Encoder)算法工具等，将词序列拆分成介于词和字之间的元素(即词汇)使用。

C)数据ID化

为了简化处理，可以为在编码器和解码器端为词汇分配ID。例如，从上述步骤B)中划分出的词汇中，根据词汇的出现频率，选择出第一数量(如30000个)的不同词汇作为神经机器翻译模型编码器端的词汇(即源词汇表)，选择出第二数量(如20000个)不同词汇作为神经机器翻译模型的解码器端的词汇(即目标词汇表)。

在所述编码器端，分别为每个词汇分配独有的标识(ID)。例如，为上述30000个词汇中的第1个词汇分配1作为ID，为第2个词汇分配2作为ID，以此类推。对于不在上述第一数量的词汇中的未知词汇，为其分配0作为其ID。然后，将划分出的词替换为对应的ID。

类似的，在解码器端也用相同方式为上述20000个词汇分配ID，为不在上述第二数量的词汇中的未知词汇分配0作为其ID。

在本发明实施例中，需要从源词汇表和目标词汇表中选择出编码器和解码器端共用的共享词汇，在上述步骤101中，将首先选择出多个候选词汇对，每个候选词汇对包括源词汇表中的一个词汇以及目标词汇表中的一个词汇，它们构成一个词汇对，且两者之间存在对应关系。

例如，对于源、目标语言分别为日文和中文来说，日文和中文中存在着大量外形相同的词汇，并且两者的含义相同或接近。对于源、目标语言分别为英文和中文来说，英文和中文中存在着大量外形相同的符号(符号也可以作为一种词汇)，因此候选词汇对的一种选择方式可以是：选择出所述源词汇表和目标词汇表存在的相同词汇，作为一个候选词汇对。

又例如，在相关词典提供了源、目标语言中的词汇的含义或对应关系时，可以从所述源词汇表中选择第一词汇，以及，从目标词汇表中选择第二词汇，将所述第一词汇和第二词汇组合成一个候选词汇对，其中，所述第一词汇和第二词汇在预设词典中的含义相同或相近。

当然，以上举例仅为本发明实施例可以采用的候选词汇对的若干选择方式。任何能够将源、目标语言中含义可能相同或接近的词汇选择出来的方式，均可以应用于本发明实施例。

步骤102，为每个所述候选词汇对分别初始化一个共享倾向性参数，利用源句子和目标句子对所述神经机器翻译模型进行预训练，更新包括所述共享倾向性参数在内的模型参数，得到第一神经机器翻译模型及其模型参数。

这里，为每个候选词汇对分别初始化一个与之对应的共享倾向性参数，该参数可以在模型训练过程中被更新。具体的，这里可以将其初始化成数值为-1的浮点数。共享倾向性参数是针对每个候选词汇对所设置的，该候选词汇对中的两个词汇均采用该候选词汇对的共享倾向性参数。

在常规的神经机器翻译模型的训练中，编码器的词向量输入为源句子中的词汇在编码器词向量中搜索到的词向量，解码器的词向量输入为目标句子中的词汇在解码器词向量中搜索到的词向量。本发明实施例在上述步骤102中，对解码器端的词向量输入进行了改变，具体的，在所述预训练的过程中，对于所述目标句子中存在的候选目标词汇，根据所属候选词汇对的共享倾向性参数，对该候选目标词汇的解码器词向量和该候选目标词汇对应的候选源词汇的编码器词向量进行加权求和后，输入至所述解码器。这里，该候选目标词汇对应的候选源词汇，是该候选目标词汇所属的候选词汇对中的候选源词汇。

例如，假设源词汇表中的词汇5，与目标词汇表中的词汇9为一个候选词汇对。那么，在步骤102中的模型预训练过程中，在解码的，若目标句子中存在词汇9，则将对词汇9的解码器词向量和词汇5的编码器词向量进行加权后，输入至解码器。

这里，本发明实施例提供了上述加权处理的一个示例，具体的：

1)根据预设激活函数，将该所属候选词汇对的共享倾向性参数，映射为取值范围介于0和1之间的第一权重；

2)根据所述第一权重，对该候选目标词汇对应的候选源词汇的编码器词向量进行加权，得到第一中间向量；以及，根据第二权重，对该候选目标词汇的解码器词向量进行加权，得到第二中间向量，其中，所述第二权重与所述第一权重负相关；

3)计算所述第一中间向量和第二中间向量的向量和，得到该候选目标词汇的词向量并输入至所述解码器。

另外，在上述预训练过程中，对于所述目标句子中存在的非候选目标词汇，可以将该非候选目标词汇的解码器词向量直接输入至所述解码器，所述非候选目标词汇为目标词汇表中除所述候选目标词汇外的剩余词汇；对于所述源句子的词汇，将该词汇的编码器词向量输入至所述编码器。

在步骤102中执行上述预训练过程，并在预训练过程中更新所有词向量以及所述共享倾向性参数，直至满足预定的训练结束条件，如达到预定训练次数或者训练到验证集的损失不再下降，从而可以得到第一神经机器翻译模型及其模型参数，所述模型参数中包括有每个候选词汇对的共享倾向性参数。

步骤103，根据预训练得到的每个所述候选词汇对的共享倾向性参数，从所述多个候选词汇对中选择出共享词汇对。

这里，可以设置一个预设阈值，然后选择出所述共享倾向性参数大于所述预设阈值的候选词汇对，作为所述共享词汇对。例如，将共享倾向性参数大于0的候选词汇对，作为所述共享词汇对。

通过以上步骤，本发明实施例选择出了可以供神经机器翻译模型的编码器和解码器端共用的共享词汇对，从而可以减少模型参数，使得后续神经机器翻译模型的训练时间得以减少，同时还可以减少训练神经机器翻译模型所需要的数据量。另外，采用了共享词汇对之后，还可以提高训练得到的神经机器翻译模型的泛化能力，改善神经机器翻译模型的翻译性能。

图2给出了本发明实施例的神经机器翻译模型的一个示例图，如图2所示，这是一个带有词汇共享层的序列到序列的神经机器翻译模型。该神经机器翻译模型中，编码器用来将日语输入转化为定长的句向量，解码器用来将句向量中的信息解码为中文语句。一般情况下，编码器和解码器都需要一个独立的词向量搜索层来将输入的词汇ID序列转换为对应的词向量序列。然而，如图2所示，本发明实施例引入了词汇共享层来生成解码器端的词向量。在模型预训练过程中，在词汇共享层将学习到候选词汇对的共享倾向性参数，进而以此决定使用解码器词向量或者使用编码器词向量，后者则对应于词汇共享的情况。

图2所示的神经机器翻译模型中：模块“LSTM”表示长短期记忆单元，用来为输入的序列信息建模；该模型在预训练过程中可以使用Adam算法更新模型参数，训练持续到验证集的损失不再下降。

可以看出，本发明实施例在现有的神经机器翻译模型的解码器端引入一个词汇共享层，替换了解码器端的词向量搜索层，而在编码器端仍然保留了词向量搜索层。图3则进一步给出了图2中的词向量共享层的一个具体示例，用于执行步骤102中的所述加权处理。需要指出的是，上述示例仅为本发明实施例可以采用的一种加权方式，并不用于限定本发明。

图3所示的词汇共享层中：

a)操作符“+”表示向量加法运算。对于n维向量A和B，向量A加向量B的结果向量C也是n维向量，且向量C中的元素C_i为：

C_i＝A_i+B_i,i∈(1,2,…,n) (1)

b)操作符“×”表示向量乘法运算。对于n维向量A和实数b，A与b的乘积向量C也是n维向量，且向量C中的元素C_i为：

C_i＝A_i×b,i∈(1,2,…,n) (2)

c)操作符“1-”对应映射函数f(x)，如公式3所示：

f(x)＝1-x (3)

d)操作符“σ”对应激活函数g(x)，如公式4所示：

e)词向量可以预先通过工具“word2vec”训练得到，例如，训练过程中词向量的维度可以设置为512。如果训练出的词向量中未包含有源词汇表或目标词汇表的某个词汇，则可以将该词汇随机初始化为一个词向量，如随机初始为512维向量；

f)对于未包含在源词汇表/目标词汇表中的未知词汇，也可以将该未知词汇随机初始化为一个词向量；

g)所有的词向量在预训练过程中一并更新；

h)将编码器和解码器端的共有词汇，作为共享候选集；这里，所述共有词汇可以是相同的词汇；

i)候选词汇对的共享倾向性参数可以是初值为-1的浮点数。每个候选词汇对中的词汇都采用该候选词汇对的共享倾向性参数，它是相应词汇共享倾向的量化。共享倾向性在模型预训练的过程中一并更新；

j)词汇共享层的输出作为序列到序列模型解码器端的词向量输入；

在获得共享词汇对之后，本发明实施例还可以进一步基于共享词汇对来优化目标模型的训练。如图4所示，本发明实施例提供的另一种共享词汇的选择方法，可以包括：

步骤401，从源词汇表和目标词汇表中选择出多个候选词汇对。

步骤402，为每个所述候选词汇对分别初始化一个共享倾向性参数，利用源句子和目标句子对所述神经机器翻译模型进行预训练，更新包括所述共享倾向性参数在内的模型参数，得到第一神经机器翻译模型及其模型参数。

步骤403，根据预训练得到的每个所述候选词汇对的共享倾向性参数，从所述多个候选词汇对中选择出共享词汇对。

以上步骤401～403，与图1中的步骤101～103类似，为节约篇幅，此处不再赘述。

步骤404，更新所述神经机器翻译模型的编码器词向量和解码器词向量，其中，对于每个共享词汇对在所述源词汇表和目标词汇表中的词汇，使用相同的词向量。

这里，根据所获得的共享词汇对，对该共享词汇对中的源词汇和目标词汇，均采用同一个词向量，而不分别采用编码器词向量和解码器词向量。优选的，可以都采用所述源词汇的编码器词向量，即，在解码器词向量中，将所述共享词汇对中的目标词汇的词向量，替换为所述共享词汇对中的源词汇的编码器词向量。

步骤405，根据更新后的所述编码器词向量和解码器词向量，训练所述神经机器翻译模型，得到第二神经机器翻译模型。

这里，可以按照现有的模型训练方式，在编码器端和解码器端分别使用词向量搜索层，将源句子和目标句子中的词向量转换为编码器词向量和解码器词向量，然后分别输入至编码器和解码器，以执行模型的训练，并在训练满足预定的结束条件时，结束训练，得到作为目标模型的第二神经机器翻译模型。

通过以上步骤，本发明实施例在神经机器翻译模型采用了共享词汇对，减少了模型参数，可以减少神经机器翻译模型的训练时间，同时还可以减少训练神经机器翻译模型所需要的数据量。另外，基于上述方式获得的神经机器翻译模型，具有较好的泛化能力。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图5，本发明实施例提供的共享词汇的选择装置500，包括：

第一选择单元501，用于从源词汇表和目标词汇表中选择出多个候选词汇对，所述源词汇表为神经机器翻译模型的编码器端的源词汇组成的词汇表，所述目标词汇表为所述神经机器翻译模型的解码器端的目标词汇组成的词汇表；每个所述候选词汇对包括所述源词汇表中的一个候选源词汇和所述目标词汇表中的一个候选目标词汇；

第一训练单元502，用于为每个所述候选词汇对分别初始化一个共享倾向性参数，利用源句子和目标句子对所述神经机器翻译模型进行预训练，更新包括所述共享倾向性参数在内的模型参数，得到第一神经机器翻译模型及其模型参数，其中，在所述预训练的过程中，对于所述目标句子中存在的候选目标词汇，根据所属候选词汇对的共享倾向性参数，对该候选目标词汇的解码器词向量和该候选目标词汇对应的候选源词汇的编码器词向量进行加权求和后，输入至所述解码器；

第二选择单元503，用于根据预训练得到的每个所述候选词汇对的共享倾向性参数，从所述多个候选词汇对中选择出共享词汇对。

通过以上单元，本发明实施例的共享词汇的选择装置500，可以选择出神经机器翻译模型的编码器和解码器端共用的共享词汇对，减少了模型参数，使得后续神经机器翻译模型的训练时间得以减少，还可以减少训练神经机器翻译模型所需要的数据量。

优选的，所述第一训练单元502，还用于在所述预训练的过程中：对于所述目标句子中存在的非候选目标词汇，将该非候选目标词汇的解码器词向量输入至所述解码器，所述非候选目标词汇为目标词汇表中除所述候选目标词汇外的剩余词汇；对于所述源句子的词汇，将该词汇的编码器词向量输入至所述编码器。

优选的，所述第一选择单元501可以包括以下单元：

或，

优选的，所述第二选择单元503，还用于选择出所述共享倾向性参数大于预设阈值的候选词汇对，作为所述共享词汇对。

优选的，所述第一训练单元502包括：

优选的，上述共享词汇的选择装置500还包括：

通过上述词向量更新单元和第二训练单元，本发明实施例可以训练得到具有较高泛化能力的第二神经机器翻译模型，并且可以减少训练所需要的时间以及数据。

请参考图6，本发明实施例还提供了共享词汇的选择装置的一种硬件结构框图，如图6所示，该共享词汇的选择装置600包括：

处理器602；和

存储器604，在所述存储器604中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器602执行以下步骤：

进一步地，如图6所示，该共享词汇的选择装置600还可以包括网络接口601、输入设备603、硬盘605、和显示设备606。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器602代表的一个或者多个中央处理器(CPU)，以及由存储器604代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口601，可以连接至网络(如因特网、局域网等)，从网络中收集源句子语料和目标句子语料，并可以将收集到的语料保存在硬盘605中。

所述输入设备603，可以接收操作人员输入的各种指令，并发送给处理器602以供执行。所述输入设备603可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等)。

所述显示设备606，可以将处理器602执行指令获得的结果进行显示，例如显示模型训练的进度以及显示待翻译句子的翻译结果等。

所述存储器604，用于存储操作***运行所必须的程序和数据，以及处理器602计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器604可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器604旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器604存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作***6041和应用程序6042。

其中，操作***6041，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6042，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6042中。

本发明上述实施例揭示的方法可以应用于处理器602中，或者由处理器602实现。处理器602可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器604，处理器602读取存储器604中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器602执行时还可实现如下步骤：

在所述预训练的过程中：对于所述目标句子中存在的非候选目标词汇，将该非候选目标词汇的解码器词向量输入至所述解码器，所述非候选目标词汇为目标词汇表中除所述候选目标词汇外的剩余词汇；对于所述源句子的词汇，将该词汇的编码器词向量输入至所述编码器。

或，

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的共享词汇的选择方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种共享词汇的选择方法，其特征在于，包括：

根据预训练得到的每个所述候选词汇对的共享倾向性参数，从所述多个候选词汇对中选择出共享词汇对；

其中，对于所述目标句子中存在的候选目标词汇，根据所属候选词汇对的共享倾向性参数，对该候选目标词汇的解码器词向量和该候选目标词汇对应的候选源词汇的编码器词向量进行加权求和后，输入至所述解码器的步骤，包括：根据预设激活函数，将该所属候选词汇对的共享倾向性参数，映射为取值范围介于0和1之间的第一权重；根据所述第一权重，对该候选目标词汇对应的候选源词汇的编码器词向量进行加权，得到第一中间向量；以及，根据第二权重，对该候选目标词汇的解码器词向量进行加权，得到第二中间向量，其中，所述第二权重与所述第一权重负相关；计算所述第一中间向量和第二中间向量的向量和，得到该候选目标词汇的词向量并输入至所述解码器；

根据预训练得到的每个所述候选词汇对的共享倾向性参数，从所述多个候选词汇对中选择出共享词汇对的步骤，包括：选择出所述共享倾向性参数大于预设阈值的候选词汇对，作为所述共享词汇对。

2.如权利要求1所述的方法，其特征在于，在所述预训练的过程中：

3.如权利要求1所述的方法，其特征在于，从源词汇表和目标词汇表中选择出多个候选词汇对的步骤，包括：

或，

4.如权利要求1至3任一项所述的方法，其特征在于，在选择出共享词汇对之后，所述方法还包括：

5.一种共享词汇的选择装置，其特征在于，包括：

第二选择单元，用于根据预训练得到的每个所述候选词汇对的共享倾向性参数，从所述多个候选词汇对中选择出共享词汇对；

所述第一训练单元包括：

词向量计算单元，用于根据预设激活函数，将该所属候选词汇对的共享倾向性参数，映射为取值范围介于0和1之间的第一权重；根据所述第一权重，对该候选目标词汇对应的候选源词汇的编码器词向量进行加权，得到第一中间向量；以及，根据第二权重，对该候选目标词汇的解码器词向量进行加权，得到第二中间向量，其中，所述第二权重与所述第一权重负相关；计算所述第一中间向量和第二中间向量的向量和，得到该候选目标词汇的词向量并输入至所述解码器；所述第二选择单元，还用于选择出所述共享倾向性参数大于预设阈值的候选词汇对，作为所述共享词汇对。

6.如权利要求5所述的选择装置，其特征在于，

所述第一训练单元，还用于在所述预训练的过程中：对于所述目标句子中存在的非候选目标词汇，将该非候选目标词汇的解码器词向量输入至所述解码器，所述非候选目标词汇为目标词汇表中除所述候选目标词汇外的剩余词汇；对于所述源句子的词汇，将该词汇的编码器词向量输入至所述编码器。

7.如权利要求5所述的选择装置，其特征在于，所述第一选择单元包括：

或，

8.如权利要求5至7任一项所述的选择装置，其特征在于，还包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的共享词汇的选择方法的步骤。