CN109933809A - 一种翻译方法及装置、翻译模型的训练方法及装置 - Google Patents
一种翻译方法及装置、翻译模型的训练方法及装置 Download PDFInfo
- Publication number
- CN109933809A CN109933809A CN201910198990.7A CN201910198990A CN109933809A CN 109933809 A CN109933809 A CN 109933809A CN 201910198990 A CN201910198990 A CN 201910198990A CN 109933809 A CN109933809 A CN 109933809A
- Authority
- CN
- China
- Prior art keywords
- sentence
- coding
- text
- word
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供一种翻译方法及装置、翻译模型的训练方法及装置,其中,所述方法包括:将目标文本进行拆分,得到至少两个分句;将每个分句输入至编码层,得到每个分句对应的句编码向量;根据每个分句对应的句编码向量,得到所述目标文本对应的文本编码向量;将文本编码向量输入至解码层,生成目标文本对应的翻译文本。与现有技术相比,增强了目标文本的语句依赖关系,从而使翻译模型在翻译长文本的情况下,能够获得更好的翻译效果。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种翻译方法及装置、翻译模型的训练方法及装置、计算设备、计算机可读存储介质以及芯片。
背景技术
现有技术中,大多数翻译模型的框架为编码层-解码层结构,其中,编码层负责将源语言语句压缩为语义空间中的一个编码向量,并将该编码向量输入至解码器,其中,该编码向量包含源语言句子的主要信息;解码层将编码层提供的编码向量进行迭代,产生在语义上等价的目标语言语句,即机器翻译结果。
现有的翻译模型在对长文本的编码过程中,往往会丧失文本的长距离的依赖关系,导致不能获得好的翻译效果,存在大量的漏翻现象。
发明内容
有鉴于此,本申请实施例提供了一种翻译方法及装置、翻译模型的训练方法及装置、计算设备、计算机可读存储介质以及芯片,以解决现有技术中存在的技术缺陷。
本申请实施例提供了一种翻译方法,用于翻译模型,所述翻译模型包括编码层和解码层,所述方法包括:
将目标文本进行拆分,得到至少两个分句;
将每个分句输入至编码层,得到每个分句对应的句编码向量;
根据每个分句对应的句编码向量,得到所述目标文本对应的文本编码向量;
将文本编码向量输入至解码层,生成目标文本对应的翻译文本。
可选地,将每个分句输入至编码层,得到每个分句对应的句编码向量,包括:
对于第1个分句,将所述分句输入至编码层,得到第1个分句对应的句编码向量;
对于除去第1个分句之外的其他分句,将前一个分句对应的句编码向量和当前个分句输入至编码层,得到当前个分句对应的句编码向量。
可选地,根据每个分句对应的句编码向量,得到所述目标文本对应的文本编码向量,包括:
将最后一个分句对应的句编码向量作为所述目标文本对应的文本编码向量。
可选地,所述目标文本包括N个分句,每个分句包括M个单词,其中,M≥2、N≥2且M、N为正整数;
对于第i个分句,其中,i为正整数且1<i≤N;
将前一个分句对应的句编码向量和当前个分句输入至编码层,得到当前个分句对应的句编码向量,包括:
S102、根据输入至编码层的第i个分句的第1个单词和第i-1个分句对应的句编码向量,得到第1个单词对应的编码隐层输出;
S104、根据输入至编码层的第i-1个分句对应的句编码向量、第j-1个单词对应的编码隐层输出和第i个分句的第j个单词,得到所述第j个单词对应的编码隐层输出,其中,2≤j≤M;
S106、将j自增1,判断自增1后的j是否大于M,若是,则执行步骤S108,若否,继续执行步骤S104;
S108、根据第i个分句的M个单词对应的编码隐层输出,得到第i个分句对应的句编码向量。
可选地,所述步骤S102包括:
根据输入至编码层的第i个分句的第1个单词得到对应的单词编码向量;
根据第i个分句的第1个单词对应的单词编码向量以及输入至编码层的第i-1个分句对应的句编码向量,得到第1个单词对应的编码隐层输出。
可选地,所述步骤S104包括:
根据输入至编码层的第i个分句的第j个单词得到对应的单词编码向量;
根据第i个分句的第j个单词对应的单词编码向量以及输入至解码层的第i-1个分句对应的句编码向量和第j-1个单词对应的编码隐层输出,得到第i个分句的第j个单词对应的编码隐层输出。
可选地,所述步骤S108包括:
将第i个分句的M个单词对应的编码隐层输出分别乘以对应的权重系数,然后求和,得到第i个分句对应的句编码向量。
可选地,将文本编码向量输入至解码层,生成目标文本对应的翻译文本,包括:
将文本编码向量和初始设定单词输入至解码层,生成至少两个解码单词;
根据所述至少两个解码单词,得到所述目标文本对应的翻译文本。
可选地,所述解码单词为P个,其中,P≥2且P为正整数;将文本编码向量和初始设定单词输入至解码层,生成至少两个解码单词,包括:
S202、根据输入至解码层的文本编码向量和初始设定单词,得到第1个解码隐层输出,并根据第1个解码隐层输出得到第1个解码单词;
S204、根据第q-1个解码单词和第q-1个解码隐层输出,得到第q个解码隐层输出,并根据第q个解码隐层输出得到第q个解码单词,其中,q为正整数且2≤q≤P;
S206、将q自增1,判断自增1后的q是否大于P,若是,则结束,若否,继续执行步骤S204。
本申请实施例提供了一种翻译模型的训练方法,所述翻译模型包括编码层和解码层;所述训练方法包括:
将目标语料的第一文本进行拆分,得到至少两个分句;
将每个分句输入至编码层,得到每个分句对应的句编码向量;
根据每个分句对应的句编码向量,得到所述第一文本对应的文本编码向量;
将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层,得到输出的训练翻译文本;
根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件;
若是,停止训练;
如否,继续执行将目标语料的第一文本进行拆分得到至少两个分句的步骤。
可选地,所述第二文本包括P个标签单词;
将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层,得到输出的训练翻译文本,包括:
S302、根据输入至解码层的文本编码向量和初始设定单词,得到第1个解码隐层输出,并根据第1个解码隐层输出得到第1个解码单词;
S304、根据第q-1个标签单词和第q-1个解码隐层输出,得到第q个解码隐层输出,并根据第q个解码隐层输出得到第q个解码单词,其中,q为正整数且2≤q≤P;
S306、将q自增1,判断自增1后的q是否大于P,若是,则执行步骤S308,若否,继续执行步骤S304;
S308、根据P个解码单词得到对应的训练翻译文本。
可选地,所述训练停止条件包括:所述训练翻译文本与所述第二文本的误差小于稳定阈值。
本申请实施例提供了一种翻译装置,用于翻译模型,所述翻译模型包括编码层和解码层,所述翻译装置包括:
第一拆分模块,被配置为将目标文本进行拆分,得到至少两个分句;
第一分句编码模块,被配置为将每个分句输入至编码层,得到每个分句对应的句编码向量;
第一文本编码模块,被配置为根据每个分句对应的句编码向量,得到所述目标文本对应的文本编码向量;
第一解码模块,被配置为将文本编码向量输入至解码层,生成目标文本对应的翻译文本。
本申请实施例提供了一种翻译模型的训练装置,所述翻译模型包括编码层和解码层,所述训练装置包括:
第二拆分模块,被配置为将目标语料的第一文本进行拆分,得到至少两个分句;
第二分句编码模块,被配置为将每个分句输入至编码层,得到每个分句对应的句编码向量;
第二文本编码模块,被配置为根据每个分句对应的句编码向量,得到所述第一文本对应的文本编码向量;
第二解码模块,被配置为将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层,得到输出的训练翻译文本;
训练模块,被配置为根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件,若是,停止训练,如否,继续执行第二拆分模块。
本申请实施例提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的翻译方法或翻译模型的训练方法的步骤。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的翻译方法或翻译模型的训练方法的步骤。
本申请实施例提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现如上所述的翻译方法或翻译模型的训练方法的步骤。
本申请提供的翻译方法及装置,通过将目标文本进行拆分得到分句,然后对每个分句进行编码得到对应的句编码向量,并根据每个分句对应的句编码向量得到目标文本对应的文本编码向量输入至解码层,与现有技术相比,增强了目标文本的语句依赖关系,从而使翻译模型在翻译长文本的情况下,能够获得更好的翻译效果。
另外,在生成每个分句对应的句编码向量的过程中,将前一个分句对应的句编码向量和当前个分句输入至编码层,得到当前个分句对应的句编码向量,减轻了目标文本的顺序靠后的单词在编码过程中的信息衰减,有助于翻译模型获得更好的翻译效果。
本实施例的翻译模型的训练方法,将目标语料的第一文本的每个分句输入至编码层得到对应的句编码向量,根据每个分句对应的句编码向量得到第一文本对应的文本编码向量,将文本编码向量以及第二文本输入至解码层,得到输出的训练翻译文本,并根据训练翻译文本与第二文本的误差继续训练翻译模型,从而可以得到减轻目标文本的单词信息衰减的翻译模型,有助于获得更好的翻译效果。
附图说明
图1是本申请一实施例的计算设备的架构示意图;
图2是本申请一实施例的翻译方法的流程示意图;
图3是本申请一实施例的编码层的编码隐层输出和句编码向量的生成过程示意图;
图4是本申请一实施例的翻译方法的架构示意图;
图5是本申请一实施例的翻译方法的流程示意图;
图6是本申请一实施例的编码层的解码隐层输出和句编码向量的生成过程示意图;
图7a是本申请另一实施例的翻译模型的编码层的编码隐层输出和句编码向量的生成过程示意图;
图7b是本申请另一实施例的翻译模型的解码层的解码隐层输出和句编码向量的生成过程示意图;
图8是本申请另一实施例的翻译模型的训练方法的流程示意图;
图9是本申请又一实施例的翻译装置的结构示意图;
图10是本申请再一实施例的翻译模型的训练装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
翻译模型:其主要思想是将待翻译语句经过编码层(encoder)编码成为一个编码向量,然后利用解码层(decoder)对编码向量进行解码,得到解码向量,然后将解码向量翻译成为对应的翻译语句。
LSTM(Long Short-Term Memory,长短期记忆网络)模型:是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型可以用来连接先前的信息到当前的任务上,例如使用过去的语句来推测对当前语句的理解。
编码(encoder):将待翻译语句由文字转化为编码向量;
解码(decoder):将编码向量转化为翻译语句的语言文字。
在本申请中,提供了一种翻译方法及装置、翻译模型的训练方法及装置、计算设备、计算机可读存储介质以及芯片,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的翻译方法的示意性流程图,用于翻译模型,翻译模型包括编码层和解码层。本实施例中,翻译模型可以使用LSTM模型。
本实施例的翻译方法包括下述步骤202~208:
202、将目标文本进行拆分,得到至少两个分句。
本实施例中,将目标文本拆分成分句,然后逐句进行编码得到对应的句编码向量,这样可以减少顺序在前的单词在编码过程中的语义信息损失,保证在编码过程中文本的语义信息能够向后传递得更远。
例如,目标文本为“风沙飞扬的岁月也一去不复返了,如今空气清爽、风和日丽,在宽阔的交通干道上,只看到***的菜园,生长着卷心菜、西红柿和翠绿的黄瓜,然后是果树林”,可以拆分为5个分句,分别是“风沙飞扬的岁月也一去不复返了”、“如今空气清爽、风和日丽”、“在宽阔的交通干道上”、“只看到***的菜园,生长着卷心菜、西红柿和翠绿的黄瓜”、“然后是果树林”。
204、将每个分句输入至编码层,得到每个分句对应的句编码向量。
具体地,步骤204包括:
S2042、对于第1个分句,将所述分句输入至编码层,得到第1个分句对应的句编码向量。
S2044、对于除去第1个分句之外的其他分句,将前一个分句对应的句编码向量和当前个分句输入至编码层,得到当前个分句对应的句编码向量。
为了便于说明,参见图3,图3为编码层的编码隐层输出和句编码向量的生成过程示意图。图3中,X(i) j代表第i个分句的第j个单词,C(i)代表第i个分句的句编码向量,h(i) j代表得到第i个分句的第j个单词对应的编码隐层输出。
下述内容以目标文本包括N个分句,以每个分句包括M个单词为例,对步骤S2042~S2042进行详细说明。其中,M≥2、N≥2且M、N为正整数。
参见图4,步骤S2042包括下述步骤402~408:
402、根据输入至编码层的第1个单词,得到第1个单词对应的编码隐层输出。
404、根据输入至编码层的第j-1个单词对应的编码隐层输出和第j个单词,得到第j个单词对应的编码隐层输出,其中,j为正整数且2≤j≤M。
具体地,步骤404包括:根据输入至编码层的第j个单词,得到对应的单词编码向量;然后根据输入至编码层的第j-1个单词对应的编码隐层输出和第j个单词对应的单词编码向量,得到第j个单词对应的编码隐层输出。
406、将j自增1,判断自增1后的j是否大于M,若是,则执行步骤408,若否,继续执行步骤404。
408、根据第1个分句的M个单词对应的编码隐层输出,得到第1个分句对应的句编码向量。
步骤408包括:将第1个分句的M个单词对应的编码隐层输出分别乘以对应的权重系数,然后求和,得到第1个分句对应的句编码向量。
具体地,参见下述计算第1个分句对应的句编码向量的公式(1):
其中,C(i)代表第i个分句对应的句编码向量;
i代表第i个分句,对于第1个分句,此处i=1;
j代表第i个分句的第j个单词,M代表第i个分句包括的单词数;
h代表第j个单词对应的编码隐层输出;
W代表每个编码隐层输出对应的权重系数。
参见图5,步骤S2044包括下述步骤502~508:
502、根据输入至编码层的第i个分句的第1个单词和第i-1个分句对应的句编码向量,得到第1个单词对应的编码隐层输出。
具体地,步骤502包括:根据输入至编码层的第i个分句的第1个单词得到对应的单词编码向量;然后根据第i个分句的第1个单词对应的单词编码向量以及输入至编码层的第i-1个分句对应的句编码向量,得到第1个单词对应的编码隐层输出。
504、根据输入至编码层的第i-1个分句对应的句编码向量、第j-1个单词对应的编码隐层输出和第i个分句的第j个单词,得到所述第j个单词对应的编码隐层输出,其中,2≤j≤M。
具体地,步骤504包括:根据输入至编码层的第i个分句的第j个单词得到对应的单词编码向量;然后根据第i个分句的第j个单词对应的单词编码向量以及输入至解码层的第i-1个分句对应的句编码向量和第j-1个单词对应的编码隐层输出,得到第i个分句的第j个单词对应的编码隐层输出。
506、将j自增1,判断自增1后的j是否大于M,若是,则执行步骤508,若否,继续执行步骤504。
508、根据第i个分句的M个单词对应的编码隐层输出,得到第i个分句对应的句编码向量。
步骤508包括:将第i个分句的M个单词对应的编码隐层输出分别乘以对应的权重系数,然后求和,得到第i个分句对应的句编码向量。
具体地,步骤508的第i个分句对应的句编码向量的计算参见前述公式(1),在此便不再赘述。
206、根据每个分句对应的句编码向量,得到目标文本对应的文本编码向量。
本实施例中,根据每个分句对应的句编码向量得到目标文本对应的文本编码向量的方法有很多,例如:
第一种:将每个分句对应的句编码向量分别乘以系数,得到文本编码向量;
第二种:根据后几个分句对应的句编码向量得到文本编码向量;
第三种:将最后一个分句对应的句编码向量作为所述目标文本对应的文本编码向量。
本实施例中,由于在当前个分句对应的句编码向量的生成过程中,利用了前一个分句的句编码向量,所以对于最后一个分句对应的句编码向量,已经包括了前面的分句中包含的语义信息,从而将最后一个分句对应的句编码向量作为所述目标文本对应的文本编码向量,可以保证翻译过程的翻译准确度。
208、将文本编码向量输入至解码层,生成目标文本对应的翻译文本。
具体地,步骤208包括下述步骤S2082~S2084:
S2082、将文本编码向量和初始设定单词输入至解码层,生成至少两个解码单词。
S2084、根据所述至少两个解码单词,得到所述目标文本对应的翻译文本。
具体地,参见图6,图6为编码层的解码隐层输出和句编码向量的生成过程示意图。图6中,h1代表得到第1个解码隐层输出,Y1代表第1个解码单词,CN代表目标文本对应的文本编码向量,<start>代表初始设定单词。
以解码单词为P个为例,其中,P≥2且P为正整数。参见图7,步骤S2082包括下述步骤702~706:
702、根据输入至解码层的文本编码向量和初始设定单词,得到第1个解码隐层输出,并根据第1个解码隐层输出得到第1个解码单词。
704、根据第q-1个解码单词和第q-1个解码隐层输出,得到第q个解码隐层输出,并根据第q个解码隐层输出得到第q个解码单词,其中,q为正整数且2≤q≤P。
706、将q自增1,判断自增1后的q是否大于P,若是,则结束,若否,继续执行步骤704。
本申请提供的翻译方法,通过将目标文本进行拆分得到分句,然后对每个分句进行编码得到对应的句编码向量,并根据每个分句对应的句编码向量得到目标文本对应的文本编码向量输入至解码层,与现有技术相比,增强了目标文本的语句依赖关系,从而使翻译模型在翻译长文本的情况下,能够获得更好的翻译效果。
另外,在生成每个分句对应的句编码向量的过程中,将前一个分句对应的句编码向量和当前个分句输入至编码层,得到当前个分句对应的句编码向量,减轻了目标文本的顺序靠后的单词在编码过程中的信息衰减,有助于翻译模型获得更好的翻译效果。
为了便于理解本实施例的技术方案,下面以一个具体实例进行示意性的说明。以目标文本包括“我爱中国,我爱北京”为例进行示意性的说明。目标文本包括2个分句“我爱中国”和“我爱北京”,每个分句包括4个单词“我”、“爱”、“中”、“国”和“我”、“爱”、“北”、“京”。
参见图7a和图7b,图7a为编码层的编码隐层输出和句编码向量的生成过程示意图。图7b为解码层的解码隐层输出和句编码向量的生成过程示意图。
所述翻译方法包括:
1)将目标文本进行拆分,得到2个分句。
2)将第1个分句输入至编码层,得到第1个分句对应的句编码向量C(1)。
具体地,步骤2)包括:根据第1个分句的第1个单词X(1) 1,得到第1个单词对应的编码隐层输出h(1) 1;根据第1个单词对应的编码隐层输出h(1) 1和第2个单词X(1) 2,得到第2个单词X(1) 2对应的编码隐层输出h(1) 2;根据第2个单词X(1) 2对应的编码隐层输出h(1) 2和第3个单词X(1) 3,得到第3个单词X(1) 3对应的编码隐层输出h(1) 3;根据第3个单词X(1) 3对应的编码隐层输出h(1) 3和第4个单词X(1) 4,得到第4个单词X(1) 4对应的编码隐层输出h(1) 4;最后将第1~4个单词的编码隐层输出h(1) 1~h(1) 4分别乘以权重系数然后求和,得到第1个分句对应的句编码向量C(1)。
对于第1~4个单词对应的编码隐层输出h(1) 1~h(1) 4的具体生成过程,前述实施例已经详述,在此便不再赘述。
3)将第1个分句对应的句编码向量C(1)以及第2个分句输入至编码层,得到第2个分句对应的句编码向量C(2)。
具体地,步骤3)包括:根据第2个分句的第1个单词X(2) 1和第1个分句对应的句编码向量C(1),得到第2个分句的第1个单词X(2) 1对应的编码隐层输出h(2) 1;根据第1个分句对应的句编码向量C(1)、第1个单词X(2) 1对应的编码隐层输出h(2) 1和第2个分句的第2个单词X(2) 2,得到第2个单词X(2) 2对应的编码隐层输出h(2) 2;根据第1个分句对应的句编码向量C(1)、第2个单词对应的编码隐层输出h(2) 2和第2个分句的第3个单词X(2) 3,得到第3个单词X(2) 3对应的编码隐层输出h(2) 3;根据第1个分句对应的句编码向量C(1)、第3个单词X(2) 3对应的编码隐层输出h(2) 3和第2个分句的第4个单词X(2) 4,得到第4个单词X(2) 4对应的编码隐层输出h(2) 4;最后将第1~4个单词的编码隐层输出h(2) 1~h(2) 4分别乘以权重系数然后求和,得到第2个分句对应的句编码向量C(2)。
4)将第2个分句对应的句编码向量C(2)作为文本解码向量输入至解码层,生成6个解码单词。
本实施例中,6个解码单词包括“I”“love”“China”“I”“love”“Beijing”。
具体地,根据输入至解码层的文本编码向量C(2)和初始设定单词<START>,得到第1个解码隐层输出h1,并根据第1个解码隐层输出h1得到第1个解码单词Y1;根据第1个解码单词Y1和第1个解码隐层输出h1,得到第2个解码隐层输出h2,并根据第2个解码隐层输出h2得到第2个解码单词Y2;根据第2个解码单词Y2和第2个解码隐层输出h2,得到第3个解码隐层输出h3,并根据第3个解码隐层输出h3得到第3个解码单词Y3;根据第3个解码单词Y3和第3个解码隐层输出h3,得到第4个解码隐层输出h4,并根据第4个解码隐层输出h4得到第4个解码单词Y4;根据第4个解码单词Y4和第4个解码隐层输出h4,得到第5个解码隐层输出h5,并根据第5个解码隐层输出h5得到第5个解码单词Y5;根据第5个解码单词Y5和第5个解码隐层输出h5,得到第6个解码隐层输出h6,并根据第6个解码隐层输出h6得到第6个解码单词Y6。
5)根据6个解码单词,得到目标文本对应的翻译文本。
本实施例中,根据6个解码单词得到目标文本“我爱中国,我爱北京”对应的翻译文本“I love China,I love Beijing”。
本申请另一实施例还公开了一种翻译模型的训练方法,参见图8,包括:
802、将目标语料的第一文本进行拆分,得到至少两个分句。
804、将每个分句输入至编码层,得到每个分句对应的句编码向量。
806、根据每个分句对应的句编码向量,得到所述第一文本对应的文本编码向量。
808、将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层,得到输出的训练翻译文本。
具体地,以第二文本包括P个标签单词为例,步骤808包括下述步骤S8082~S8088:
S8082、根据输入至解码层的文本编码向量和初始设定单词,得到第1个解码隐层输出,并根据第1个解码隐层输出得到第1个解码单词;
S8084、根据第q-1个标签单词和第q-1个解码隐层输出,得到第q个解码隐层输出,并根据第q个解码隐层输出得到第q个解码单词,其中,q为正整数且2≤q≤P;
S8086、将q自增1,判断自增1后的q是否大于P,若是,则执行步骤S8088,若否,继续执行步骤S8084;
S8088、根据P个解码单词得到对应的训练翻译文本。
由上述步骤S8082~S8088可见,与翻译阶段不同,在翻译模型的训练阶段,根据第q-1个标签单词和第q-1个解码隐层输出得到第q个解码隐层输出,而翻译阶段是根据第q-1个解码单词和第q-1个解码隐层输出得到第q个解码隐层输出。
例如第一文本为“我爱中国”,第二文本为“I love China”。解码层在接收到“我爱中国”对应的句编码向量后,输入初始设定单词<start>,然后得到第1个解码单词you,而实际正确的解码单词应该为标签单词I;然后根据标签单词I和第1个解码隐层输出,得到第2个解码单词love;然后根据标签单词love和第2个解码隐层输出,得到第3个解码单词China。
最后,根据得到的解码单词得到训练翻译文本“You love China”,与第二文本“Ilove China”进行对比,得到二者之间的误差。
810、根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件,若是,停止训练,如否,继续执行步骤802。
具体的训练停止条件包括:训练翻译文本与第二文本的误差小于稳定阈值。
稳定阈值可以根据实际需求而设置,例如设置为10%。
本实施例的翻译模型的训练方法,将目标语料的第一文本的每个分句输入至编码层得到对应的句编码向量,根据每个分句对应的句编码向量得到第一文本对应的文本编码向量,将文本编码向量以及第二文本输入至解码层,得到输出的训练翻译文本,并根据训练翻译文本与第二文本的误差继续训练翻译模型,从而可以得到减轻目标文本的单词信息衰减的翻译模型,有助于获得更好的翻译效果。
本申请一实施例还公开了一种翻译装置,参见图9,用于翻译模型,所述翻译模型包括编码层和解码层,所述翻译装置包括:
第一拆分模块902,被配置为将目标文本进行拆分,得到至少两个分句;
第一分句编码模块904,被配置为将每个分句输入至编码层,得到每个分句对应的句编码向量;
第一文本编码模块906,被配置为根据每个分句对应的句编码向量,得到所述目标文本对应的文本编码向量;
第一解码模块908,被配置为将文本编码向量输入至解码层,生成目标文本对应的翻译文本。
可选地,第一分句编码模块904具体被配置为:
对于第1个分句,将所述分句输入至编码层,得到第1个分句对应的句编码向量;
对于除去第1个分句之外的其他分句,将前一个分句对应的句编码向量和当前个分句输入至编码层,得到当前个分句对应的句编码向量。
可选地,第一文本编码模块906具体被配置为:将最后一个分句对应的句编码向量作为所述目标文本对应的文本编码向量。
可选地,所述目标文本包括N个分句,每个分句包括M个单词,其中,M≥2、N≥2且M、N为正整数;
对于第i个分句,其中,i为正整数且1<i≤N;
第一分句编码模块904具体被配置为:
S102、根据输入至编码层的第i个分句的第1个单词和第i-1个分句对应的句编码向量,得到第1个单词对应的编码隐层输出;
S104、根据输入至编码层的第i-1个分句对应的句编码向量、第j-1个单词对应的编码隐层输出和第i个分句的第j个单词,得到所述第j个单词对应的编码隐层输出,其中,2≤j≤M;
S106、将j自增1,判断自增1后的j是否大于M,若是,则执行步骤S108,若否,继续执行步骤S104;
S108、根据第i个分句的M个单词对应的编码隐层输出,得到第i个分句对应的句编码向量。
可选地,第一分句编码模块904具体被配置为:
根据输入至编码层的第i个分句的第1个单词得到对应的单词编码向量;
根据第i个分句的第1个单词对应的单词编码向量以及输入至编码层的第i-1个分句对应的句编码向量,得到第1个单词对应的编码隐层输出。
可选地,第一分句编码模块904具体被配置为:
根据输入至编码层的第i个分句的第j个单词得到对应的单词编码向量;
根据第i个分句的第j个单词对应的单词编码向量以及输入至解码层的第i-1个分句对应的句编码向量和第j-1个单词对应的编码隐层输出,得到第i个分句的第j个单词对应的编码隐层输出。
可选地,第一分句编码模块904具体被配置为:将第i个分句的M个单词对应的编码隐层输出分别乘以对应的权重系数,然后求和,得到第i个分句对应的句编码向量。
可选地,第一解码模块908具体被配置为:
将文本编码向量和初始设定单词输入至解码层,生成至少两个解码单词;
根据所述至少两个解码单词,得到所述目标文本对应的翻译文本。
可选地,解码单词为P个,其中,P≥2且P为正整数;第一解码模块908具体被配置为:
S202、根据输入至解码层的文本编码向量和初始设定单词,得到第1个解码隐层输出,并根据第1个解码隐层输出得到第1个解码单词;
S204、根据第q-1个解码单词和第q-1个解码隐层输出,得到第q个解码隐层输出,并根据第q个解码隐层输出得到第q个解码单词,其中,q为正整数且2≤q≤P;
S206、将q自增1,判断自增1后的q是否大于P,若是,则结束,若否,继续执行步骤S204。
本申请提供的翻译装置通过将目标文本进行拆分得到分句,然后对每个分句进行编码得到对应的句编码向量,并根据每个分句对应的句编码向量得到目标文本对应的文本编码向量输入至解码层,与现有技术相比,增强了目标文本的语句依赖关系,从而使翻译模型在翻译长文本的情况下,能够获得更好的翻译效果。
上述为本实施例的翻译装置的示意性方案。需要说明的是,该翻译装置的技术方案与上述的翻译方法的技术方案属于同一构思,翻译装置的技术方案未详细描述的细节内容,均可以参见上述翻译方法的技术方案的描述。
本申请一实施例还公开了一种翻译模型的训练装置,参见图10,所述翻译模型包括编码层和解码层,所述训练装置包括:
第二拆分模块1002,被配置为将目标语料的第一文本进行拆分,得到至少两个分句;
第二分句编码模块1004,被配置为将每个分句输入至编码层,得到每个分句对应的句编码向量;
第二文本编码模块1006,被配置为根据每个分句对应的句编码向量,得到所述第一文本对应的文本编码向量;
第二解码模块1008,被配置为将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层,得到输出的训练翻译文本;
训练模块1010,被配置为根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件,若是,停止训练,如否,继续执行第二拆分模块1002。
其中,训练停止条件包括:训练翻译文本与第二文本的误差小于稳定阈值。
可选地,第二文本包括P个标签单词,第二解码模块1008具体被配置为:
S302、根据输入至解码层的文本编码向量和初始设定单词,得到第1个解码隐层输出,并根据第1个解码隐层输出得到第1个解码单词;
S304、根据第q-1个标签单词和第q-1个解码隐层输出,得到第q个解码隐层输出,并根据第q个解码隐层输出得到第q个解码单词,其中,q为正整数且2≤q≤P;
S306、将q自增1,判断自增1后的q是否大于P,若是,则执行步骤S308,若否,继续执行步骤S304;
S308、根据P个解码单词得到对应的训练翻译文本。
本实施例的翻译模型的训练装置,将目标语料的第一文本的每个分句输入至编码层得到对应的句编码向量,根据每个分句对应的句编码向量得到第一文本对应的文本编码向量,将文本编码向量以及第二文本输入至解码层,得到输出的训练翻译文本,并根据训练翻译文本与第二文本的误差继续训练翻译模型,从而可以得到减轻目标文本的单词信息衰减的翻译模型,有助于获得更好的翻译效果。
上述为本实施例的翻译模型的训练装置的示意性方案。需要说明的是,该翻译模型的训练装置的技术方案与上述的翻译模型的训练方法的技术方案属于同一构思,翻译模型的训练装置的技术方案未详细描述的细节内容,均可以参见上述翻译模型的训练方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述翻译方法或翻译模型的训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的翻译方法或翻译模型的训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述翻译方法或翻译模型的训练方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本申请一实施例还提供一种芯片,其存储有计算机指令,该指令被芯片执行时实现如前所述翻译方法或翻译模型的训练方法的步骤。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (17)
1.一种翻译方法,其特征在于,用于翻译模型,所述翻译模型包括编码层和解码层,所述方法包括:
将目标文本进行拆分,得到至少两个分句;
将每个分句输入至编码层,得到每个分句对应的句编码向量;
根据每个分句对应的句编码向量,得到所述目标文本对应的文本编码向量;
将文本编码向量输入至解码层,生成目标文本对应的翻译文本。
2.如权利要求1所述的翻译方法,其特征在于,将每个分句输入至编码层,得到每个分句对应的句编码向量,包括:
对于第1个分句,将所述分句输入至编码层,得到第1个分句对应的句编码向量;
对于除去第1个分句之外的其他分句,将前一个分句对应的句编码向量和当前个分句输入至编码层,得到当前个分句对应的句编码向量。
3.如权利要求1所述的翻译方法,其特征在于,根据每个分句对应的句编码向量,得到所述目标文本对应的文本编码向量,包括:
将最后一个分句对应的句编码向量作为所述目标文本对应的文本编码向量。
4.如权利要求2所述的翻译方法,其特征在于,所述目标文本包括N个分句,每个分句包括M个单词,其中,M≥2、N≥2且M、N为正整数;
对于第i个分句,其中,i为正整数且1<i≤N;
将前一个分句对应的句编码向量和当前个分句输入至编码层,得到当前个分句对应的句编码向量,包括:
S102、根据输入至编码层的第i个分句的第1个单词和第i-1个分句对应的句编码向量,得到第1个单词对应的编码隐层输出;
S104、根据输入至编码层的第i-1个分句对应的句编码向量、第j-1个单词对应的编码隐层输出和第i个分句的第j个单词,得到所述第j个单词对应的编码隐层输出,其中,2≤j≤M;
S106、将j自增1,判断自增1后的j是否大于M,若是,则执行步骤S108,若否,继续执行步骤S104;
S108、根据第i个分句的M个单词对应的编码隐层输出,得到第i个分句对应的句编码向量。
5.如权利要求4所述的翻译方法,其特征在于,所述步骤S102包括:
根据输入至编码层的第i个分句的第1个单词得到对应的单词编码向量;
根据第i个分句的第1个单词对应的单词编码向量以及输入至编码层的第i-1个分句对应的句编码向量,得到第1个单词对应的编码隐层输出。
6.如权利要求4所述的翻译方法,其特征在于,所述步骤S104包括:
根据输入至编码层的第i个分句的第j个单词得到对应的单词编码向量;
根据第i个分句的第j个单词对应的单词编码向量以及输入至解码层的第i-1个分句对应的句编码向量和第j-1个单词对应的编码隐层输出,得到第i个分句的第j个单词对应的编码隐层输出。
7.如权利要求4所述的翻译方法,其特征在于,所述步骤S108包括:
将第i个分句的M个单词对应的编码隐层输出分别乘以对应的权重系数,然后求和,得到第i个分句对应的句编码向量。
8.如权利要求1所述的翻译方法,其特征在于,将文本编码向量输入至解码层,生成目标文本对应的翻译文本,包括:
将文本编码向量和初始设定单词输入至解码层,生成至少两个解码单词;
根据所述至少两个解码单词,得到所述目标文本对应的翻译文本。
9.如权利要求8所述的翻译方法,其特征在于,所述解码单词为P个,其中,P≥2且P为正整数;
将文本编码向量和初始设定单词输入至解码层,生成至少两个解码单词,包括:
S202、根据输入至解码层的文本编码向量和初始设定单词,得到第1个解码隐层输出,并根据第1个解码隐层输出得到第1个解码单词;
S204、根据第q-1个解码单词和第q-1个解码隐层输出,得到第q个解码隐层输出,并根据第q个解码隐层输出得到第q个解码单词,其中,q为正整数且2≤q≤P;
S206、将q自增1,判断自增1后的q是否大于P,若是,则结束,若否,继续执行步骤S204。
10.一种翻译模型的训练方法,其特征在于,所述翻译模型包括编码层和解码层,
所述训练方法包括:
将目标语料的第一文本进行拆分,得到至少两个分句;
将每个分句输入至编码层,得到每个分句对应的句编码向量;
根据每个分句对应的句编码向量,得到所述第一文本对应的文本编码向量;
将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层,得到输出的训练翻译文本;
根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件;
若是,停止训练;
如否,继续执行将目标语料的第一文本进行拆分得到至少两个分句的步骤。
11.如权利要求10所述的训练方法,其特征在于,所述第二文本包括P个标签单词;
将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层,得到输出的训练翻译文本,包括:
S302、根据输入至解码层的文本编码向量和初始设定单词,得到第1个解码隐层输出,并根据第1个解码隐层输出得到第1个解码单词;
S304、根据第q-1个标签单词和第q-1个解码隐层输出,得到第q个解码隐层输出,并根据第q个解码隐层输出得到第q个解码单词,其中,q为正整数且2≤q≤P;
S306、将q自增1,判断自增1后的q是否大于P,若是,则执行步骤S308,若否,继续执行步骤S304;
S308、根据P个解码单词得到对应的训练翻译文本。
12.如权利要求10所述的训练方法,其特征在于,所述训练停止条件包括:所述训练翻译文本与所述第二文本的误差小于稳定阈值。
13.一种翻译装置,其特征在于,用于翻译模型,所述翻译模型包括编码层和解码层,所述翻译装置包括:
第一拆分模块,被配置为将目标文本进行拆分,得到至少两个分句;
第一分句编码模块,被配置为将每个分句输入至编码层,得到每个分句对应的句编码向量;
第一文本编码模块,被配置为根据每个分句对应的句编码向量,得到所述目标文本对应的文本编码向量;
第一解码模块,被配置为将文本编码向量输入至解码层,生成目标文本对应的翻译文本。
14.一种翻译模型的训练装置,其特征在于,所述翻译模型包括编码层和解码层,所述训练装置包括:
第二拆分模块,被配置为将目标语料的第一文本进行拆分,得到至少两个分句;
第二分句编码模块,被配置为将每个分句输入至编码层,得到每个分句对应的句编码向量;
第二文本编码模块,被配置为根据每个分句对应的句编码向量,得到所述第一文本对应的文本编码向量;
第二解码模块,被配置为将文本编码向量以及与第一文本对应的翻译后的第二文本输入至解码层,得到输出的训练翻译文本;
训练模块,被配置为根据所述训练翻译文本与所述第二文本的误差判断是否达到训练停止条件,若是,停止训练,如否,继续执行第二拆分模块。
15.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-9或者10-12任意一项所述方法的步骤。
16.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-9或者10-12任意一项所述方法的步骤。
17.一种芯片,其存储有计算机指令,其特征在于,该指令被芯片执行时实现权利要求1-9或者10-12任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910198990.7A CN109933809B (zh) | 2019-03-15 | 2019-03-15 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910198990.7A CN109933809B (zh) | 2019-03-15 | 2019-03-15 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933809A true CN109933809A (zh) | 2019-06-25 |
CN109933809B CN109933809B (zh) | 2023-09-15 |
Family
ID=66987429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910198990.7A Active CN109933809B (zh) | 2019-03-15 | 2019-03-15 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933809B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502762A (zh) * | 2019-08-27 | 2019-11-26 | 北京金山数字娱乐科技有限公司 | 一种翻译平台及其管理方法 |
CN111680528A (zh) * | 2020-06-09 | 2020-09-18 | 合肥讯飞数码科技有限公司 | 一种翻译模型压缩方法、装置、设备及存储介质 |
CN112347775A (zh) * | 2019-08-08 | 2021-02-09 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN112597778A (zh) * | 2020-12-14 | 2021-04-02 | 华为技术有限公司 | 一种翻译模型的训练方法、翻译方法以及设备 |
CN112926343A (zh) * | 2019-12-06 | 2021-06-08 | 搜狗(杭州)智能科技有限公司 | 一种数据处理方法、装置和电子设备 |
CN114386391A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
CN114692652A (zh) * | 2020-12-31 | 2022-07-01 | 北京金山数字娱乐科技有限公司 | 翻译模型训练方法及装置、翻译方法及装置 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060855A1 (en) * | 2015-08-25 | 2017-03-02 | Alibaba Group Holding Limited | Method and system for generation of candidate translations |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及*** |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN107368476A (zh) * | 2017-07-25 | 2017-11-21 | 深圳市腾讯计算机***有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
US20180011843A1 (en) * | 2016-07-07 | 2018-01-11 | Samsung Electronics Co., Ltd. | Automatic interpretation method and apparatus |
CN108170686A (zh) * | 2017-12-29 | 2018-06-15 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN108415906A (zh) * | 2018-03-28 | 2018-08-17 | 中译语通科技股份有限公司 | 基于领域自动识别篇章机器翻译方法、机器翻译*** |
CN108460028A (zh) * | 2018-04-12 | 2018-08-28 | 苏州大学 | 将句子权重融入神经机器翻译的领域适应方法 |
US20180285348A1 (en) * | 2016-07-19 | 2018-10-04 | Tencent Technology (Shenzhen) Company Limited | Dialog generation method, apparatus, and device, and storage medium |
CN108763227A (zh) * | 2018-05-21 | 2018-11-06 | 电子科技大学 | 一种基于分块机制的机器翻译方法 |
US20180329883A1 (en) * | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及*** |
US20180336183A1 (en) * | 2017-05-22 | 2018-11-22 | International Business Machines Corporation | Deep Embedding for Natural Language Content Based on Semantic Dependencies |
US20180373704A1 (en) * | 2017-06-21 | 2018-12-27 | Samsung Electronics Co., Ltd. | Method and apparatus for machine translation using neural network and method of training the apparatus |
CN109359309A (zh) * | 2018-12-11 | 2019-02-19 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
JP2019036093A (ja) * | 2017-08-14 | 2019-03-07 | 日本電信電話株式会社 | モデル学習装置、変換装置、方法、及びプログラム |
CN109446534A (zh) * | 2018-09-21 | 2019-03-08 | 清华大学 | 机器翻译方法及装置 |
-
2019
- 2019-03-15 CN CN201910198990.7A patent/CN109933809B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060855A1 (en) * | 2015-08-25 | 2017-03-02 | Alibaba Group Holding Limited | Method and system for generation of candidate translations |
US20180011843A1 (en) * | 2016-07-07 | 2018-01-11 | Samsung Electronics Co., Ltd. | Automatic interpretation method and apparatus |
US20180285348A1 (en) * | 2016-07-19 | 2018-10-04 | Tencent Technology (Shenzhen) Company Limited | Dialog generation method, apparatus, and device, and storage medium |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及*** |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
US20180329883A1 (en) * | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
US20180336183A1 (en) * | 2017-05-22 | 2018-11-22 | International Business Machines Corporation | Deep Embedding for Natural Language Content Based on Semantic Dependencies |
US20180373704A1 (en) * | 2017-06-21 | 2018-12-27 | Samsung Electronics Co., Ltd. | Method and apparatus for machine translation using neural network and method of training the apparatus |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN107368476A (zh) * | 2017-07-25 | 2017-11-21 | 深圳市腾讯计算机***有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
JP2019036093A (ja) * | 2017-08-14 | 2019-03-07 | 日本電信電話株式会社 | モデル学習装置、変換装置、方法、及びプログラム |
CN108170686A (zh) * | 2017-12-29 | 2018-06-15 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN108415906A (zh) * | 2018-03-28 | 2018-08-17 | 中译语通科技股份有限公司 | 基于领域自动识别篇章机器翻译方法、机器翻译*** |
CN108460028A (zh) * | 2018-04-12 | 2018-08-28 | 苏州大学 | 将句子权重融入神经机器翻译的领域适应方法 |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及*** |
CN108763227A (zh) * | 2018-05-21 | 2018-11-06 | 电子科技大学 | 一种基于分块机制的机器翻译方法 |
CN109446534A (zh) * | 2018-09-21 | 2019-03-08 | 清华大学 | 机器翻译方法及装置 |
CN109359309A (zh) * | 2018-12-11 | 2019-02-19 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
Non-Patent Citations (14)
Title |
---|
HEEYOUL CHOI 等: "Context-dependent word representation for neural machine translation", 《COMPUTER SPEECH & LANGUAGE》 * |
HEEYOUL CHOI 等: "Context-dependent word representation for neural machine translation", 《COMPUTER SPEECH & LANGUAGE》, vol. 45, 24 May 2017 (2017-05-24), pages 149 - 160, XP085039163, DOI: 10.1016/j.csl.2017.01.007 * |
JIACHENG ZHANG 等: "Improving the Transformer Translation Model with Document-Level Context", 《HTTPS://ARXIV.ORG/ABS/1810.03581》 * |
JIACHENG ZHANG 等: "Improving the Transformer Translation Model with Document-Level Context", 《HTTPS://ARXIV.ORG/ABS/1810.03581》, 8 October 2018 (2018-10-08), pages 1 - 10 * |
LONGYUE WANG 等: "Exploiting Cross-Sentence Context for Neural Machine Translation", 《HTTPS://ARXIV.ORG/ABS/1704.04347》 * |
LONGYUE WANG 等: "Exploiting Cross-Sentence Context for Neural Machine Translation", 《HTTPS://ARXIV.ORG/ABS/1704.04347》, 23 July 2017 (2017-07-23), pages 1 - 6 * |
刘婉婉 等: "基于LSTM的蒙汉机器翻译的研究", 《计算机工程与科学》 * |
刘婉婉 等: "基于LSTM的蒙汉机器翻译的研究", 《计算机工程与科学》, vol. 40, no. 10, 15 October 2018 (2018-10-15), pages 1890 - 1896 * |
刘婉婉 等: "基于门控循环神经网络词性标注的蒙汉机器翻译研究", 《中文信息学报》 * |
刘婉婉 等: "基于门控循环神经网络词性标注的蒙汉机器翻译研究", 《中文信息学报》, vol. 32, no. 08, 15 August 2018 (2018-08-15), pages 68 - 74 * |
叶绍林 等: "基于句子级BLEU指标挑选数据的半监督神经机器翻译", 《模式识别与人工智能》 * |
叶绍林 等: "基于句子级BLEU指标挑选数据的半监督神经机器翻译", 《模式识别与人工智能》, vol. 30, no. 10, 15 October 2017 (2017-10-15), pages 937 - 942 * |
邝少辉: "文档级神经机器翻译研究", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》 * |
邝少辉: "文档级神经机器翻译研究", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》, vol. 2019, no. 01, 15 January 2019 (2019-01-15), pages 085 - 648 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347775A (zh) * | 2019-08-08 | 2021-02-09 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110502762A (zh) * | 2019-08-27 | 2019-11-26 | 北京金山数字娱乐科技有限公司 | 一种翻译平台及其管理方法 |
CN112926343A (zh) * | 2019-12-06 | 2021-06-08 | 搜狗(杭州)智能科技有限公司 | 一种数据处理方法、装置和电子设备 |
CN111680528A (zh) * | 2020-06-09 | 2020-09-18 | 合肥讯飞数码科技有限公司 | 一种翻译模型压缩方法、装置、设备及存储介质 |
CN111680528B (zh) * | 2020-06-09 | 2023-06-30 | 合肥讯飞数码科技有限公司 | 一种翻译模型压缩方法、装置、设备及存储介质 |
CN112597778A (zh) * | 2020-12-14 | 2021-04-02 | 华为技术有限公司 | 一种翻译模型的训练方法、翻译方法以及设备 |
WO2022127613A1 (zh) * | 2020-12-14 | 2022-06-23 | 华为技术有限公司 | 一种翻译模型的训练方法、翻译方法以及设备 |
CN114692652A (zh) * | 2020-12-31 | 2022-07-01 | 北京金山数字娱乐科技有限公司 | 翻译模型训练方法及装置、翻译方法及装置 |
CN114386391A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
CN114386391B (zh) * | 2022-01-11 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109933809B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933809A (zh) | 一种翻译方法及装置、翻译模型的训练方法及装置 | |
CN109977428A (zh) | 一种答案获取的方法及装置 | |
CN109359309A (zh) | 一种翻译方法及装置、翻译模型的训练方法及装置 | |
CA2929018C (en) | Natural expression processing method, processing and response method, device and system | |
CN103117057B (zh) | 一种特定人语音合成技术在手机漫画配音中的应用方法 | |
CN111223498A (zh) | 情绪智能识别方法、装置及计算机可读存储介质 | |
CN111738020B (zh) | 一种翻译模型的训练方法及装置 | |
WO2019174450A1 (zh) | 一种对话生成的方法和装置 | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN109710953A (zh) | 一种翻译方法及装置、计算设备、存储介质和芯片 | |
CN110503945A (zh) | 一种语音处理模型的训练方法及装置 | |
CN106297773A (zh) | 一种神经网络声学模型训练方法 | |
CN110428820A (zh) | 一种中英文混合语音识别方法及装置 | |
CN109616093A (zh) | 端对端语音合成方法、装置、设备及存储介质 | |
CN109902312A (zh) | 一种翻译方法及装置、翻译模型的训练方法及装置 | |
CN108897797A (zh) | 对话模型的更新训练方法、装置、存储介质及电子设备 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN110942763A (zh) | 语音识别方法及装置 | |
CN110209802A (zh) | 一种提取摘要文本的方法及装置 | |
EP4390725A1 (en) | Video retrieval method and apparatus, device, and storage medium | |
CN110321962A (zh) | 一种数据处理方法及装置 | |
CN107316635A (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN107977676A (zh) | 文本相似度计算方法及装置 | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN109325178A (zh) | 用于处理信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |