CN109933809A

CN109933809A - 一种翻译方法及装置、翻译模型的训练方法及装置

Info

Publication number: CN109933809A
Application number: CN201910198990.7A
Authority: CN
Inventors: 李长亮; 王怡然; 郭馨泽; 唐剑波
Original assignee: Chengdu Kingsoft Interactive Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-25
Anticipated expiration: 2039-03-15
Also published as: CN109933809B

Abstract

本申请提供一种翻译方法及装置、翻译模型的训练方法及装置，其中，所述方法包括：将目标文本进行拆分，得到至少两个分句；将每个分句输入至编码层，得到每个分句对应的句编码向量；根据每个分句对应的句编码向量，得到所述目标文本对应的文本编码向量；将文本编码向量输入至解码层，生成目标文本对应的翻译文本。与现有技术相比，增强了目标文本的语句依赖关系，从而使翻译模型在翻译长文本的情况下，能够获得更好的翻译效果。

Description

一种翻译方法及装置、翻译模型的训练方法及装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种翻译方法及装置、翻译模型的训练方法及装置、计算设备、计算机可读存储介质以及芯片。

背景技术

现有技术中，大多数翻译模型的框架为编码层-解码层结构，其中，编码层负责将源语言语句压缩为语义空间中的一个编码向量，并将该编码向量输入至解码器，其中，该编码向量包含源语言句子的主要信息；解码层将编码层提供的编码向量进行迭代，产生在语义上等价的目标语言语句，即机器翻译结果。

现有的翻译模型在对长文本的编码过程中，往往会丧失文本的长距离的依赖关系，导致不能获得好的翻译效果，存在大量的漏翻现象。

发明内容

有鉴于此，本申请实施例提供了一种翻译方法及装置、翻译模型的训练方法及装置、计算设备、计算机可读存储介质以及芯片，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种翻译方法，用于翻译模型，所述翻译模型包括编码层和解码层，所述方法包括：

将目标文本进行拆分，得到至少两个分句；

将每个分句输入至编码层，得到每个分句对应的句编码向量；

根据每个分句对应的句编码向量，得到所述目标文本对应的文本编码向量；

将文本编码向量输入至解码层，生成目标文本对应的翻译文本。

可选地，将每个分句输入至编码层，得到每个分句对应的句编码向量，包括：

对于第1个分句，将所述分句输入至编码层，得到第1个分句对应的句编码向量；

对于除去第1个分句之外的其他分句，将前一个分句对应的句编码向量和当前个分句输入至编码层，得到当前个分句对应的句编码向量。

可选地，根据每个分句对应的句编码向量，得到所述目标文本对应的文本编码向量，包括：

将最后一个分句对应的句编码向量作为所述目标文本对应的文本编码向量。

可选地，所述目标文本包括N个分句，每个分句包括M个单词，其中，M≥2、N≥2且M、N为正整数；

对于第i个分句，其中，i为正整数且1＜i≤N；

将前一个分句对应的句编码向量和当前个分句输入至编码层，得到当前个分句对应的句编码向量，包括：

S102、根据输入至编码层的第i个分句的第1个单词和第i-1个分句对应的句编码向量，得到第1个单词对应的编码隐层输出；

S104、根据输入至编码层的第i-1个分句对应的句编码向量、第j-1个单词对应的编码隐层输出和第i个分句的第j个单词，得到所述第j个单词对应的编码隐层输出，其中，2≤j≤M；

S106、将j自增1，判断自增1后的j是否大于M，若是，则执行步骤S108，若否，继续执行步骤S104；

S108、根据第i个分句的M个单词对应的编码隐层输出，得到第i个分句对应的句编码向量。

可选地，所述步骤S102包括：

根据输入至编码层的第i个分句的第1个单词得到对应的单词编码向量；

根据第i个分句的第1个单词对应的单词编码向量以及输入至编码层的第i-1个分句对应的句编码向量，得到第1个单词对应的编码隐层输出。

可选地，所述步骤S104包括：

根据输入至编码层的第i个分句的第j个单词得到对应的单词编码向量；

根据第i个分句的第j个单词对应的单词编码向量以及输入至解码层的第i-1个分句对应的句编码向量和第j-1个单词对应的编码隐层输出，得到第i个分句的第j个单词对应的编码隐层输出。

可选地，所述步骤S108包括：

将第i个分句的M个单词对应的编码隐层输出分别乘以对应的权重系数，然后求和，得到第i个分句对应的句编码向量。

可选地，将文本编码向量输入至解码层，生成目标文本对应的翻译文本，包括：

将文本编码向量和初始设定单词输入至解码层，生成至少两个解码单词；

根据所述至少两个解码单词，得到所述目标文本对应的翻译文本。

可选地，所述解码单词为P个，其中，P≥2且P为正整数；将文本编码向量和初始设定单词输入至解码层，生成至少两个解码单词，包括：

S202、根据输入至解码层的文本编码向量和初始设定单词，得到第1个解码隐层输出，并根据第1个解码隐层输出得到第1个解码单词；

S204、根据第q-1个解码单词和第q-1个解码隐层输出，得到第q个解码隐层输出，并根据第q个解码隐层输出得到第q个解码单词，其中，q为正整数且2≤q≤P；

S206、将q自增1，判断自增1后的q是否大于P，若是，则结束，若否，继续执行步骤S204。

本申请实施例提供了一种翻译模型的训练方法，所述翻译模型包括编码层和解码层；所述训练方法包括：

将目标语料的第一文本进行拆分，得到至少两个分句；

根据每个分句对应的句编码向量，得到所述第一文本对应的文本编码向量；

将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层，得到输出的训练翻译文本；

根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件；

若是，停止训练；

如否，继续执行将目标语料的第一文本进行拆分得到至少两个分句的步骤。

可选地，所述第二文本包括P个标签单词；

将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层，得到输出的训练翻译文本，包括：

S302、根据输入至解码层的文本编码向量和初始设定单词，得到第1个解码隐层输出，并根据第1个解码隐层输出得到第1个解码单词；

S304、根据第q-1个标签单词和第q-1个解码隐层输出，得到第q个解码隐层输出，并根据第q个解码隐层输出得到第q个解码单词，其中，q为正整数且2≤q≤P；

S306、将q自增1，判断自增1后的q是否大于P，若是，则执行步骤S308，若否，继续执行步骤S304；

S308、根据P个解码单词得到对应的训练翻译文本。

可选地，所述训练停止条件包括：所述训练翻译文本与所述第二文本的误差小于稳定阈值。

本申请实施例提供了一种翻译装置，用于翻译模型，所述翻译模型包括编码层和解码层，所述翻译装置包括：

第一拆分模块，被配置为将目标文本进行拆分，得到至少两个分句；

第一分句编码模块，被配置为将每个分句输入至编码层，得到每个分句对应的句编码向量；

第一文本编码模块，被配置为根据每个分句对应的句编码向量，得到所述目标文本对应的文本编码向量；

第一解码模块，被配置为将文本编码向量输入至解码层，生成目标文本对应的翻译文本。

本申请实施例提供了一种翻译模型的训练装置，所述翻译模型包括编码层和解码层，所述训练装置包括：

第二拆分模块，被配置为将目标语料的第一文本进行拆分，得到至少两个分句；

第二分句编码模块，被配置为将每个分句输入至编码层，得到每个分句对应的句编码向量；

第二文本编码模块，被配置为根据每个分句对应的句编码向量，得到所述第一文本对应的文本编码向量；

第二解码模块，被配置为将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层，得到输出的训练翻译文本；

训练模块，被配置为根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件，若是，停止训练，如否，继续执行第二拆分模块。

本申请实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的翻译方法或翻译模型的训练方法的步骤。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述的翻译方法或翻译模型的训练方法的步骤。

本申请实施例提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现如上所述的翻译方法或翻译模型的训练方法的步骤。

本申请提供的翻译方法及装置，通过将目标文本进行拆分得到分句，然后对每个分句进行编码得到对应的句编码向量，并根据每个分句对应的句编码向量得到目标文本对应的文本编码向量输入至解码层，与现有技术相比，增强了目标文本的语句依赖关系，从而使翻译模型在翻译长文本的情况下，能够获得更好的翻译效果。

另外，在生成每个分句对应的句编码向量的过程中，将前一个分句对应的句编码向量和当前个分句输入至编码层，得到当前个分句对应的句编码向量，减轻了目标文本的顺序靠后的单词在编码过程中的信息衰减，有助于翻译模型获得更好的翻译效果。

本实施例的翻译模型的训练方法，将目标语料的第一文本的每个分句输入至编码层得到对应的句编码向量，根据每个分句对应的句编码向量得到第一文本对应的文本编码向量，将文本编码向量以及第二文本输入至解码层，得到输出的训练翻译文本，并根据训练翻译文本与第二文本的误差继续训练翻译模型，从而可以得到减轻目标文本的单词信息衰减的翻译模型，有助于获得更好的翻译效果。

附图说明

图1是本申请一实施例的计算设备的架构示意图；

图2是本申请一实施例的翻译方法的流程示意图；

图3是本申请一实施例的编码层的编码隐层输出和句编码向量的生成过程示意图；

图4是本申请一实施例的翻译方法的架构示意图；

图5是本申请一实施例的翻译方法的流程示意图；

图6是本申请一实施例的编码层的解码隐层输出和句编码向量的生成过程示意图；

图7a是本申请另一实施例的翻译模型的编码层的编码隐层输出和句编码向量的生成过程示意图；

图7b是本申请另一实施例的翻译模型的解码层的解码隐层输出和句编码向量的生成过程示意图；

图8是本申请另一实施例的翻译模型的训练方法的流程示意图；

图9是本申请又一实施例的翻译装置的结构示意图；

图10是本申请再一实施例的翻译模型的训练装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

翻译模型：其主要思想是将待翻译语句经过编码层(encoder)编码成为一个编码向量，然后利用解码层(decoder)对编码向量进行解码，得到解码向量，然后将解码向量翻译成为对应的翻译语句。

LSTM(Long Short-Term Memory，长短期记忆网络)模型：是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型可以用来连接先前的信息到当前的任务上，例如使用过去的语句来推测对当前语句的理解。

编码(encoder)：将待翻译语句由文字转化为编码向量；

解码(decoder)：将编码向量转化为翻译语句的语言文字。

在本申请中，提供了一种翻译方法及装置、翻译模型的训练方法及装置、计算设备、计算机可读存储介质以及芯片，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的翻译方法的示意性流程图，用于翻译模型，翻译模型包括编码层和解码层。本实施例中，翻译模型可以使用LSTM模型。

本实施例的翻译方法包括下述步骤202～208：

202、将目标文本进行拆分，得到至少两个分句。

本实施例中，将目标文本拆分成分句，然后逐句进行编码得到对应的句编码向量，这样可以减少顺序在前的单词在编码过程中的语义信息损失，保证在编码过程中文本的语义信息能够向后传递得更远。

例如，目标文本为“风沙飞扬的岁月也一去不复返了，如今空气清爽、风和日丽，在宽阔的交通干道上，只看到***的菜园，生长着卷心菜、西红柿和翠绿的黄瓜，然后是果树林”，可以拆分为5个分句，分别是“风沙飞扬的岁月也一去不复返了”、“如今空气清爽、风和日丽”、“在宽阔的交通干道上”、“只看到***的菜园，生长着卷心菜、西红柿和翠绿的黄瓜”、“然后是果树林”。

204、将每个分句输入至编码层，得到每个分句对应的句编码向量。

具体地，步骤204包括：

S2042、对于第1个分句，将所述分句输入至编码层，得到第1个分句对应的句编码向量。

S2044、对于除去第1个分句之外的其他分句，将前一个分句对应的句编码向量和当前个分句输入至编码层，得到当前个分句对应的句编码向量。

为了便于说明，参见图3，图3为编码层的编码隐层输出和句编码向量的生成过程示意图。图3中，X⁽ⁱ⁾ _j代表第i个分句的第j个单词，C⁽ⁱ⁾代表第i个分句的句编码向量，h⁽ⁱ⁾ _j代表得到第i个分句的第j个单词对应的编码隐层输出。

下述内容以目标文本包括N个分句，以每个分句包括M个单词为例，对步骤S2042～S2042进行详细说明。其中，M≥2、N≥2且M、N为正整数。

参见图4，步骤S2042包括下述步骤402～408：

402、根据输入至编码层的第1个单词，得到第1个单词对应的编码隐层输出。

404、根据输入至编码层的第j-1个单词对应的编码隐层输出和第j个单词，得到第j个单词对应的编码隐层输出，其中，j为正整数且2≤j≤M。

具体地，步骤404包括：根据输入至编码层的第j个单词，得到对应的单词编码向量；然后根据输入至编码层的第j-1个单词对应的编码隐层输出和第j个单词对应的单词编码向量，得到第j个单词对应的编码隐层输出。

406、将j自增1，判断自增1后的j是否大于M，若是，则执行步骤408，若否，继续执行步骤404。

408、根据第1个分句的M个单词对应的编码隐层输出，得到第1个分句对应的句编码向量。

步骤408包括：将第1个分句的M个单词对应的编码隐层输出分别乘以对应的权重系数，然后求和，得到第1个分句对应的句编码向量。

具体地，参见下述计算第1个分句对应的句编码向量的公式(1)：

其中，C⁽ⁱ⁾代表第i个分句对应的句编码向量；

i代表第i个分句，对于第1个分句，此处i＝1；

j代表第i个分句的第j个单词，M代表第i个分句包括的单词数；

h代表第j个单词对应的编码隐层输出；

W代表每个编码隐层输出对应的权重系数。

参见图5，步骤S2044包括下述步骤502～508：

502、根据输入至编码层的第i个分句的第1个单词和第i-1个分句对应的句编码向量，得到第1个单词对应的编码隐层输出。

具体地，步骤502包括：根据输入至编码层的第i个分句的第1个单词得到对应的单词编码向量；然后根据第i个分句的第1个单词对应的单词编码向量以及输入至编码层的第i-1个分句对应的句编码向量，得到第1个单词对应的编码隐层输出。

504、根据输入至编码层的第i-1个分句对应的句编码向量、第j-1个单词对应的编码隐层输出和第i个分句的第j个单词，得到所述第j个单词对应的编码隐层输出，其中，2≤j≤M。

具体地，步骤504包括：根据输入至编码层的第i个分句的第j个单词得到对应的单词编码向量；然后根据第i个分句的第j个单词对应的单词编码向量以及输入至解码层的第i-1个分句对应的句编码向量和第j-1个单词对应的编码隐层输出，得到第i个分句的第j个单词对应的编码隐层输出。

506、将j自增1，判断自增1后的j是否大于M，若是，则执行步骤508，若否，继续执行步骤504。

508、根据第i个分句的M个单词对应的编码隐层输出，得到第i个分句对应的句编码向量。

步骤508包括：将第i个分句的M个单词对应的编码隐层输出分别乘以对应的权重系数，然后求和，得到第i个分句对应的句编码向量。

具体地，步骤508的第i个分句对应的句编码向量的计算参见前述公式(1)，在此便不再赘述。

206、根据每个分句对应的句编码向量，得到目标文本对应的文本编码向量。

本实施例中，根据每个分句对应的句编码向量得到目标文本对应的文本编码向量的方法有很多，例如：

第一种：将每个分句对应的句编码向量分别乘以系数，得到文本编码向量；

第二种：根据后几个分句对应的句编码向量得到文本编码向量；

第三种：将最后一个分句对应的句编码向量作为所述目标文本对应的文本编码向量。

本实施例中，由于在当前个分句对应的句编码向量的生成过程中，利用了前一个分句的句编码向量，所以对于最后一个分句对应的句编码向量，已经包括了前面的分句中包含的语义信息，从而将最后一个分句对应的句编码向量作为所述目标文本对应的文本编码向量，可以保证翻译过程的翻译准确度。

208、将文本编码向量输入至解码层，生成目标文本对应的翻译文本。

具体地，步骤208包括下述步骤S2082～S2084：

S2082、将文本编码向量和初始设定单词输入至解码层，生成至少两个解码单词。

S2084、根据所述至少两个解码单词，得到所述目标文本对应的翻译文本。

具体地，参见图6，图6为编码层的解码隐层输出和句编码向量的生成过程示意图。图6中，h₁代表得到第1个解码隐层输出，Y₁代表第1个解码单词，C^N代表目标文本对应的文本编码向量，<start>代表初始设定单词。

以解码单词为P个为例，其中，P≥2且P为正整数。参见图7，步骤S2082包括下述步骤702～706：

702、根据输入至解码层的文本编码向量和初始设定单词，得到第1个解码隐层输出，并根据第1个解码隐层输出得到第1个解码单词。

704、根据第q-1个解码单词和第q-1个解码隐层输出，得到第q个解码隐层输出，并根据第q个解码隐层输出得到第q个解码单词，其中，q为正整数且2≤q≤P。

706、将q自增1，判断自增1后的q是否大于P，若是，则结束，若否，继续执行步骤704。

本申请提供的翻译方法，通过将目标文本进行拆分得到分句，然后对每个分句进行编码得到对应的句编码向量，并根据每个分句对应的句编码向量得到目标文本对应的文本编码向量输入至解码层，与现有技术相比，增强了目标文本的语句依赖关系，从而使翻译模型在翻译长文本的情况下，能够获得更好的翻译效果。

为了便于理解本实施例的技术方案，下面以一个具体实例进行示意性的说明。以目标文本包括“我爱中国，我爱北京”为例进行示意性的说明。目标文本包括2个分句“我爱中国”和“我爱北京”，每个分句包括4个单词“我”、“爱”、“中”、“国”和“我”、“爱”、“北”、“京”。

参见图7a和图7b，图7a为编码层的编码隐层输出和句编码向量的生成过程示意图。图7b为解码层的解码隐层输出和句编码向量的生成过程示意图。

所述翻译方法包括：

1)将目标文本进行拆分，得到2个分句。

2)将第1个分句输入至编码层，得到第1个分句对应的句编码向量C⁽¹⁾。

具体地，步骤2)包括：根据第1个分句的第1个单词X⁽¹⁾ ₁，得到第1个单词对应的编码隐层输出h⁽¹⁾ ₁；根据第1个单词对应的编码隐层输出h⁽¹⁾ ₁和第2个单词X⁽¹⁾ ₂，得到第2个单词X⁽¹⁾ ₂对应的编码隐层输出h⁽¹⁾ ₂；根据第2个单词X⁽¹⁾ ₂对应的编码隐层输出h⁽¹⁾ ₂和第3个单词X⁽¹⁾ ₃，得到第3个单词X⁽¹⁾ ₃对应的编码隐层输出h⁽¹⁾ ₃；根据第3个单词X⁽¹⁾ ₃对应的编码隐层输出h⁽¹⁾ ₃和第4个单词X⁽¹⁾ ₄，得到第4个单词X⁽¹⁾ ₄对应的编码隐层输出h⁽¹⁾ ₄；最后将第1～4个单词的编码隐层输出h⁽¹⁾ ₁～h⁽¹⁾ ₄分别乘以权重系数然后求和，得到第1个分句对应的句编码向量C⁽¹⁾。

对于第1～4个单词对应的编码隐层输出h⁽¹⁾ ₁～h⁽¹⁾ ₄的具体生成过程，前述实施例已经详述，在此便不再赘述。

3)将第1个分句对应的句编码向量C⁽¹⁾以及第2个分句输入至编码层，得到第2个分句对应的句编码向量C⁽²⁾。

具体地，步骤3)包括：根据第2个分句的第1个单词X⁽²⁾ ₁和第1个分句对应的句编码向量C⁽¹⁾，得到第2个分句的第1个单词X⁽²⁾ ₁对应的编码隐层输出h⁽²⁾ ₁；根据第1个分句对应的句编码向量C⁽¹⁾、第1个单词X⁽²⁾ ₁对应的编码隐层输出h⁽²⁾ ₁和第2个分句的第2个单词X⁽²⁾ ₂，得到第2个单词X⁽²⁾ ₂对应的编码隐层输出h⁽²⁾ ₂；根据第1个分句对应的句编码向量C⁽¹⁾、第2个单词对应的编码隐层输出h⁽²⁾ ₂和第2个分句的第3个单词X⁽²⁾ ₃，得到第3个单词X⁽²⁾ ₃对应的编码隐层输出h⁽²⁾ ₃；根据第1个分句对应的句编码向量C⁽¹⁾、第3个单词X⁽²⁾ ₃对应的编码隐层输出h⁽²⁾ ₃和第2个分句的第4个单词X⁽²⁾ ₄，得到第4个单词X⁽²⁾ ₄对应的编码隐层输出h⁽²⁾ ₄；最后将第1～4个单词的编码隐层输出h⁽²⁾ ₁～h⁽²⁾ ₄分别乘以权重系数然后求和，得到第2个分句对应的句编码向量C⁽²⁾。

4)将第2个分句对应的句编码向量C⁽²⁾作为文本解码向量输入至解码层，生成6个解码单词。

本实施例中，6个解码单词包括“I”“love”“China”“I”“love”“Beijing”。

具体地，根据输入至解码层的文本编码向量C⁽²⁾和初始设定单词<START>，得到第1个解码隐层输出h₁，并根据第1个解码隐层输出h₁得到第1个解码单词Y₁；根据第1个解码单词Y₁和第1个解码隐层输出h₁，得到第2个解码隐层输出h₂，并根据第2个解码隐层输出h₂得到第2个解码单词Y₂；根据第2个解码单词Y₂和第2个解码隐层输出h₂，得到第3个解码隐层输出h₃，并根据第3个解码隐层输出h₃得到第3个解码单词Y₃；根据第3个解码单词Y₃和第3个解码隐层输出h₃，得到第4个解码隐层输出h₄，并根据第4个解码隐层输出h₄得到第4个解码单词Y₄；根据第4个解码单词Y₄和第4个解码隐层输出h₄，得到第5个解码隐层输出h₅，并根据第5个解码隐层输出h₅得到第5个解码单词Y₅；根据第5个解码单词Y₅和第5个解码隐层输出h₅，得到第6个解码隐层输出h₆，并根据第6个解码隐层输出h₆得到第6个解码单词Y₆。

5)根据6个解码单词，得到目标文本对应的翻译文本。

本实施例中，根据6个解码单词得到目标文本“我爱中国，我爱北京”对应的翻译文本“I love China,I love Beijing”。

本申请另一实施例还公开了一种翻译模型的训练方法，参见图8，包括：

802、将目标语料的第一文本进行拆分，得到至少两个分句。

804、将每个分句输入至编码层，得到每个分句对应的句编码向量。

806、根据每个分句对应的句编码向量，得到所述第一文本对应的文本编码向量。

808、将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层，得到输出的训练翻译文本。

具体地，以第二文本包括P个标签单词为例，步骤808包括下述步骤S8082～S8088：

S8082、根据输入至解码层的文本编码向量和初始设定单词，得到第1个解码隐层输出，并根据第1个解码隐层输出得到第1个解码单词；

S8084、根据第q-1个标签单词和第q-1个解码隐层输出，得到第q个解码隐层输出，并根据第q个解码隐层输出得到第q个解码单词，其中，q为正整数且2≤q≤P；

S8086、将q自增1，判断自增1后的q是否大于P，若是，则执行步骤S8088，若否，继续执行步骤S8084；

S8088、根据P个解码单词得到对应的训练翻译文本。

由上述步骤S8082～S8088可见，与翻译阶段不同，在翻译模型的训练阶段，根据第q-1个标签单词和第q-1个解码隐层输出得到第q个解码隐层输出，而翻译阶段是根据第q-1个解码单词和第q-1个解码隐层输出得到第q个解码隐层输出。

例如第一文本为“我爱中国”，第二文本为“I love China”。解码层在接收到“我爱中国”对应的句编码向量后，输入初始设定单词<start>，然后得到第1个解码单词you，而实际正确的解码单词应该为标签单词I；然后根据标签单词I和第1个解码隐层输出，得到第2个解码单词love；然后根据标签单词love和第2个解码隐层输出，得到第3个解码单词China。

最后，根据得到的解码单词得到训练翻译文本“You love China”，与第二文本“Ilove China”进行对比，得到二者之间的误差。

810、根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件，若是，停止训练，如否，继续执行步骤802。

具体的训练停止条件包括：训练翻译文本与第二文本的误差小于稳定阈值。

稳定阈值可以根据实际需求而设置，例如设置为10％。

本申请一实施例还公开了一种翻译装置，参见图9，用于翻译模型，所述翻译模型包括编码层和解码层，所述翻译装置包括：

第一拆分模块902，被配置为将目标文本进行拆分，得到至少两个分句；

第一分句编码模块904，被配置为将每个分句输入至编码层，得到每个分句对应的句编码向量；

第一文本编码模块906，被配置为根据每个分句对应的句编码向量，得到所述目标文本对应的文本编码向量；

第一解码模块908，被配置为将文本编码向量输入至解码层，生成目标文本对应的翻译文本。

可选地，第一分句编码模块904具体被配置为：

可选地，第一文本编码模块906具体被配置为：将最后一个分句对应的句编码向量作为所述目标文本对应的文本编码向量。

对于第i个分句，其中，i为正整数且1＜i≤N；

第一分句编码模块904具体被配置为：

可选地，第一分句编码模块904具体被配置为：

可选地，第一分句编码模块904具体被配置为：将第i个分句的M个单词对应的编码隐层输出分别乘以对应的权重系数，然后求和，得到第i个分句对应的句编码向量。

可选地，第一解码模块908具体被配置为：

可选地，解码单词为P个，其中，P≥2且P为正整数；第一解码模块908具体被配置为：

本申请提供的翻译装置通过将目标文本进行拆分得到分句，然后对每个分句进行编码得到对应的句编码向量，并根据每个分句对应的句编码向量得到目标文本对应的文本编码向量输入至解码层，与现有技术相比，增强了目标文本的语句依赖关系，从而使翻译模型在翻译长文本的情况下，能够获得更好的翻译效果。

上述为本实施例的翻译装置的示意性方案。需要说明的是，该翻译装置的技术方案与上述的翻译方法的技术方案属于同一构思，翻译装置的技术方案未详细描述的细节内容，均可以参见上述翻译方法的技术方案的描述。

本申请一实施例还公开了一种翻译模型的训练装置，参见图10，所述翻译模型包括编码层和解码层，所述训练装置包括：

第二拆分模块1002，被配置为将目标语料的第一文本进行拆分，得到至少两个分句；

第二分句编码模块1004，被配置为将每个分句输入至编码层，得到每个分句对应的句编码向量；

第二文本编码模块1006，被配置为根据每个分句对应的句编码向量，得到所述第一文本对应的文本编码向量；

第二解码模块1008，被配置为将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层，得到输出的训练翻译文本；

训练模块1010，被配置为根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件，若是，停止训练，如否，继续执行第二拆分模块1002。

其中，训练停止条件包括：训练翻译文本与第二文本的误差小于稳定阈值。

可选地，第二文本包括P个标签单词，第二解码模块1008具体被配置为：

S308、根据P个解码单词得到对应的训练翻译文本。

本实施例的翻译模型的训练装置，将目标语料的第一文本的每个分句输入至编码层得到对应的句编码向量，根据每个分句对应的句编码向量得到第一文本对应的文本编码向量，将文本编码向量以及第二文本输入至解码层，得到输出的训练翻译文本，并根据训练翻译文本与第二文本的误差继续训练翻译模型，从而可以得到减轻目标文本的单词信息衰减的翻译模型，有助于获得更好的翻译效果。

上述为本实施例的翻译模型的训练装置的示意性方案。需要说明的是，该翻译模型的训练装置的技术方案与上述的翻译模型的训练方法的技术方案属于同一构思，翻译模型的训练装置的技术方案未详细描述的细节内容，均可以参见上述翻译模型的训练方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述翻译方法或翻译模型的训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的翻译方法或翻译模型的训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述翻译方法或翻译模型的训练方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本申请一实施例还提供一种芯片，其存储有计算机指令，该指令被芯片执行时实现如前所述翻译方法或翻译模型的训练方法的步骤。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种翻译方法，其特征在于，用于翻译模型，所述翻译模型包括编码层和解码层，所述方法包括：

将目标文本进行拆分，得到至少两个分句；

2.如权利要求1所述的翻译方法，其特征在于，将每个分句输入至编码层，得到每个分句对应的句编码向量，包括：

3.如权利要求1所述的翻译方法，其特征在于，根据每个分句对应的句编码向量，得到所述目标文本对应的文本编码向量，包括：

4.如权利要求2所述的翻译方法，其特征在于，所述目标文本包括N个分句，每个分句包括M个单词，其中，M≥2、N≥2且M、N为正整数；

对于第i个分句，其中，i为正整数且1＜i≤N；

5.如权利要求4所述的翻译方法，其特征在于，所述步骤S102包括：

6.如权利要求4所述的翻译方法，其特征在于，所述步骤S104包括：

7.如权利要求4所述的翻译方法，其特征在于，所述步骤S108包括：

8.如权利要求1所述的翻译方法，其特征在于，将文本编码向量输入至解码层，生成目标文本对应的翻译文本，包括：

9.如权利要求8所述的翻译方法，其特征在于，所述解码单词为P个，其中，P≥2且P为正整数；

将文本编码向量和初始设定单词输入至解码层，生成至少两个解码单词，包括：

10.一种翻译模型的训练方法，其特征在于，所述翻译模型包括编码层和解码层，

所述训练方法包括：

将目标语料的第一文本进行拆分，得到至少两个分句；

若是，停止训练；

11.如权利要求10所述的训练方法，其特征在于，所述第二文本包括P个标签单词；

S308、根据P个解码单词得到对应的训练翻译文本。

12.如权利要求10所述的训练方法，其特征在于，所述训练停止条件包括：所述训练翻译文本与所述第二文本的误差小于稳定阈值。

13.一种翻译装置，其特征在于，用于翻译模型，所述翻译模型包括编码层和解码层，所述翻译装置包括：

14.一种翻译模型的训练装置，其特征在于，所述翻译模型包括编码层和解码层，所述训练装置包括：

15.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-9或者10-12任意一项所述方法的步骤。

16.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-9或者10-12任意一项所述方法的步骤。

17.一种芯片，其存储有计算机指令，其特征在于，该指令被芯片执行时实现权利要求1-9或者10-12任意一项所述方法的步骤。