CN111339789A - 一种翻译模型训练方法、装置、电子设备及存储介质 - Google Patents

一种翻译模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111339789A
CN111339789A CN202010105061.XA CN202010105061A CN111339789A CN 111339789 A CN111339789 A CN 111339789A CN 202010105061 A CN202010105061 A CN 202010105061A CN 111339789 A CN111339789 A CN 111339789A
Authority
CN
China
Prior art keywords
corpus
document
source
target
translation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010105061.XA
Other languages
English (en)
Other versions
CN111339789B (zh
Inventor
李磊
王明轩
曹军
孙泽维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010105061.XA priority Critical patent/CN111339789B/zh
Publication of CN111339789A publication Critical patent/CN111339789A/zh
Application granted granted Critical
Publication of CN111339789B publication Critical patent/CN111339789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本公开实施例公开了一种翻译模型训练方法、装置、电子设备及存储介质。该方法包括:获取源语种的第一源文档语料,将所述第一源文档语料拆分成第一源单语语料;将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;以及将所述平行双语语料作为训练样本来训练文档机器翻译模型。本公开实施例的技术方案能够实现以完整文档作为机器翻译模型的平行双语语料样本,对机器翻译模型进行训练,从而提高机器翻译模型的文档翻译的准确率。

Description

一种翻译模型训练方法、装置、电子设备及存储介质
技术领域
本公开实施例涉及机器翻译技术领域,尤其涉及一种翻译模型训练方法、装置、电子设备及存储介质。
背景技术
机器翻译是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。由于这一技术由机器完成,所以与人工翻译相比,可以以相对短的时间处理大量的翻译工作。
现有的机器翻译服务,一般都是将句子级别的源文本输入机器翻译模型进行翻译,一个句子一般是几个、十几个词汇构成的。也即,现有的机器翻译模型仅支持句子级别的翻译功能。当采用现有的机器翻译模型翻译文档中的各个语句时,由于不能整体考虑句子在文档中的上下文关系,其获得的翻译结果并不准确。因此,如何开发一种以文档为翻译对象的机器翻译模型是一个亟待解决的问题。
由于作为训练所需的文档级别的平行双语语料样本难以获得,因此,以文档为翻译对象的机器翻译模型难以训练成功。
发明内容
本公开实施例提供一种翻译模型训练方法、装置、电子设备及存储介质,实现以完整文档作为机器翻译模型的平行双语语料样本,对机器翻译模型进行训练,从而提高机器翻译模型的文档翻译的准确率。
第一方面,本公开实施例提供了一种翻译模型训练方法,包括:
获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;
将所述第一源文档语料拆分成第一源单语语料;
将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;
将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;
根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;以及
将所述平行双语语料作为训练样本来训练文档机器翻译模型。
第二方面,本公开实施例还提供了一种翻译模型训练装置,包括:
第一源文档语料获取模块,用于获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;
第一源单语语料拆分模块,用于将所述第一源文档语料拆分成第一源单语语料;
第一目标单语语料获取模块,用于将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;
第一目标文档语料获取模块,用于将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;
第一训练样本获取模块,用于根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;
第一文档机器翻译模型训练模块,用于将所述平行双语语料作为训练样本来训练文档机器翻译模型。
第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本公开任意实施例所提供的翻译模型训练方法。
第四方面,本公开实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开任意实施例所提供的翻译模型训练方法。
本公开实施例通过将获取的源语种的第一源文档语料拆分成第一源单语语料,并将第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料,然后将得到的第一目标单语语料拼接成目标语种的第一目标文档语料,最后根据第一源文档语料和第一目标文档语料组成平行双语语料,作为训练样本训练文档机器翻译模型,解决现有以文档为翻译对象的机器翻译模型难以训练成功的问题,实现以完整文档作为机器翻译模型的平行双语语料样本,对机器翻译模型进行训练,从而提高机器翻译模型的文档翻译的准确率。
附图说明
图1是本公开实施例提供的一种翻译模型训练方法的流程图;
图2a是本公开实施例提供的一种翻译模型训练方法的流程图;
图2b是本公开实施例提供的一种Seq2Seq模型的结构示意图;
图2c是本公开实施例提供的一种Seq2Seq模型中编码器的示意图;
图2d是本公开实施例提供的一种Seq2Seq模型中解码器的示意图;
图3是本公开实施例提供的一种文档翻译方法的流程图;
图4是本公开实施例提供的一种翻译模型训练装置的示意图;
图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
实施例
图1是本公开实施例提供的一种翻译模型训练方法的流程图,本实施例可适用于对以文档为翻译对象的机器翻译模型进行训练的情况,该方法可以由翻译模型训练装置来执行,该装置可以配置于电子设备中,电子设备可以是终端设备,可以包括手机、车载终端或笔记本电脑等,或者可以是服务器。相应的,如图1所示,该方法包括如下操作:
S110、获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料。
其中,源语种即为待翻译文档的语种。第一源文档语料可以是源语种对应的文档语料。第一源文档语料可以包括一个或多个段落,每个段落可以由多个句子组成。
对以文档为翻译对象的机器翻译模型进行训练的重点在于如何获取训练样本,也即如何获取为训练所需的文档级别的平行双语语料样本。为此,在本公开实施例中,可以首先获取源语种的第一源文档语料作为训练样本的数据源。
需要说明的是,第一源文档语料是源语种的真实文档语料,其获取方式可以为:从开源的语料库、公共的互联网资源(如网页资料等)或本地数据库收集存储的相关语料中获取,任何类型的源语种的真实文档语料均可以作为第一源文档语料,本公开实施例并不对第一源文档语料的获取方式进行限定。
S120、将所述第一源文档语料拆分成第一源单语语料。
其中,第一源单语语料可以是语句级别的源语种的单语语料。
相应的,在获取到源语种的第一源文档语料后,可以对第一源文档语料进行拆分,得到语句级别的第一源单语语料。需要说明的是,对第一源文档语料进行拆分时,需要按照文档中各语句的先后顺序依次拆分。
S130、将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料。
其中,成熟机器模型可以是已经训练成熟的机器翻译模型,机器翻译模型用于将任意文本翻译成任意语种的翻译文本,也即用于将M种文本翻译成N种的翻译文本。具体的,机器翻译模型包括机器学习模型,例如,神经网络模型,具体是单神经网络模型(如卷积神经网络模型)或融合神经网络模型(如融合卷积神经网络和循环神经网络的模型)等。可选的,可以将成熟的Seq2Seq模型作为成熟机器翻译模型。目标语种即为源语种对应的翻译语种。示例性的,对于中译英翻译模式,源语种为中文,目标语种为英文;对于中译法翻译模式,源语种为中文,目标语种为法文,也即,源语种和目标语种需要根据当前的翻译模式来确定,本公开实施例并不对源语种和目标语种的具体类型进行限定。第一目标单语语料可以是第一源单语语料经过成熟机器翻译模型翻译得到的目标语种的单语语料。第一目标单语语料是与第一源单语语料相匹配的语句级别的单语语料。
在本公开实施例中,得到语句级别的第一源单语语料后,可以将第一源单语语料输入成熟机器翻译模型,并将成熟机器模型的输出结果作为目标语种的第一目标单语语料。可以理解的是,由于输入的第一源单语语料是语句级别的语料,所以成熟机器模型输出的第一目标单语语料也是语句级别的语料。需要说明的是,第一源文档语料拆分成第一源单语语料的过程中保留了各第一源单语语料的顺序,因此,在对第一源单语语料进行翻译时,也可以按照保留的顺序依次进行翻译,从而保证输出的各第一目标单语语料的顺序与各第一源单语语料的顺序相一致。
S140、将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料。
其中,第一目标文档语料可以是第一源文档语料对应的翻译文档语料。
相应的,在得到第一源文档语料对应的各第一目标单语语料后,即可将第一目标单语语料拼接形成目标语种的第一目标文档语料。可选的,可以按照各第一目标单语语料的顺序依次对各第一目标单语语料进行拼接,以保证第一目标文档语料与第一源文档语料相匹配。
S150、根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料。
S160、将所述平行双语语料作为训练样本来训练文档机器翻译模型。
其中,平行双语语料为同时包括源文档语料和目标文档语料的双语语料。文档机器翻译模型可以是以文档为翻译对象的机器翻译模型。
在本公开实施例中,得到第一目标文档语料后,即可根据第一源文档语料和第一目标文档语料组成平行双语语料,并将平行双语语料作为训练样本训练文档机器翻译模型。
由此可见,通过将第一源文档语料拆分形成的各第一源单语语料对应的翻译结果进行拼接,可以形成目标语种的第一目标文档语料。需要说明的是,第一目标文档语料可以在一定程度上保持上下文联系。得到第一源单语语料对应的第一目标文档语料后,将第一源单语语料和对应的第一目标文档语料组成的平行双语语料作为文档机器翻译模型的训练样本,实现了以完整文档作为机器翻译模型的平行双语语料样本,从而实现对文档机器翻译模型的有效训练,使得文档机器翻译模型能够有效翻译文档资料,从而提高机器翻译模型文档翻译的准确率。
在本公开的一个可选实施例中,根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料,可以包括:根据所述第一源文档语料和所述第一目标文档语料组成正向平行双语语料。
其中,正向平行双语语料可以是源文档语料-目标文档语料组成的平行双语语料。其中,源文档语料可以是源语种的真实文档语料,目标文档语料可以是源文档语料对应的翻译文档语料。
在本公开实施例中,可选的,可以将第一源文档语料和第一目标文档语料组成的平行双语语料作为正向平行双语语料。示例性的,在中译英翻译模式中,中文源文档语料和其翻译出的英文目标文档语料可以组成正向平行双语语料。
需要说明的是,本公开实施例中所涉及到的“语句级别”的含义是一条或多条句子。示例性的,语句级别的源语种的单语语料可以是一条或两条源语种的单语语句,本公开实施例并不对语句级别包括的句子的数量进行限定。
本公开实施例通过将获取的源语种的第一源文档语料拆分成第一源单语语料,并将第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料,然后将得到的第一目标单语语料拼接成目标语种的第一目标文档语料,最后根据第一源文档语料和第一目标文档语料组成平行双语语料,作为训练样本训练文档机器翻译模型,解决现有以文档为翻译对象的机器翻译模型难以训练成功的问题,实现以完整文档作为机器翻译模型的平行双语语料样本,对机器翻译模型进行训练,从而提高机器翻译模型的文档翻译的准确率。
图2a是本公开实施例提供的一种翻译模型训练方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了根据第二目标文档语料和所述第二源文档语料组成反向平行双语语料的具体实现方式。相应的,如图2a所示,本实施例的方法可以包括:
S210、获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料。
S220、将所述第一源文档语料拆分成第一源单语语料。
S230、将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料。
S240、将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料。
S250、根据所述第一源文档语料和所述第一目标文档语料组成正向平行双语语料,将所述正向平行双语语料作为训练样本训练文档机器翻译模型。
S260、获取所述目标语种的第二目标文档语料,所述第二目标文档语料为所述目标语种的真实文档语料。
其中,第二目标文档语料可以是目标语种对应的真实文档语料。也即,第二目标文档语料为目标语种的待翻译真实文档语料。
在本公开实施例中,为了进一步提高机器翻译模型的文档翻译的准确率,还可以根据目标文档语料和源文档语料组成反向平行双语语料作为训练样本对文档机器翻译模型进行训练。为此,可以获取目标语种的真实文档语料作为第二目标文档语料。也即,将第二目标文档语料作为输入,并将得到输出结果作为源语种的源文档语料。
需要说明的是,第二目标文档语料是目标语种的真实文档语料,其获取方式可以为:从开源的语料库、公共的互联网资源(如网页资料等)或本地数据库收集存储的相关语料中获取,任何类型的目标语种的真实文档语料均可以作为第二目标文档语料,本公开实施例并不对第二目标文档语料的获取方式进行限定。
S270、将所述第二目标文档语料拆分成第二目标单语语料。
其中,第二目标单语语料可以是语句级别的目标语种的单语语料。
相应的,在获取到目标语种的第二目标文档语料后,可以对第二目标文档语料进行拆分,得到语句级别的第二目标单语语料。需要说明的是,对第二目标文档语料进行拆分时,需要按照文档中各语句的先后顺序依次拆分。
S280、将所述第二目标单语语料输入所述成熟机器翻译模型,将输出结果作为源语种的第二源单语语料。
其中,第二源单语语料可以是第二目标单语语料经过成熟机器翻译模型翻译得到的源语种的单语语料。第二源单语语料是与第二目标单语语料相匹配的语句级别的单语语料。
在本公开实施例中,得到语句级别的第二目标单语语料后,可以将第二目标单语语料输入成熟机器翻译模型,并将成熟机器模型的输出结果作为源语种的第二源单语语料。可以理解的是,由于输入的第二目标单语语料是语句级别的语料,所以成熟机器模型输出的第二源单语语料也是语句级别的语料。需要说明的是,第二目标文档语料拆分成第二目标单语语料的过程中保留了各第二目标单语语料的顺序,因此,在对第二目标单语语料进行翻译时,也可以按照保留的顺序依次进行翻译,从而保证输出的各第二源单语语料的顺序与各第二目标单语语料的顺序相一致。
S290、将各所述第二源单语语料进行拼接,形成所述源语种的第二源文档语料。
其中,第二源文档语料可以是第二目标文档语料对应的翻译文档语料。
相应的,在得到第二目标文档语料对应的各第二源单语语料后,即可将第二源单语语料拼接形成源语种的第二源文档语料。可选的,可以按照各第二源单语语料的顺序依次对各第二源单语语料进行拼接,以保证第二源文档语料与第二目标文档语料相匹配。
S2100、根据所述第二目标文档语料和所述第二源文档语料组成反向平行双语语料,将所述反向平行双语语料作为训练样本训练文档机器翻译模型。
其中,反向平行双语语料可以是目标文档语料-源文档语料组成的平行双语语料。其中,目标文档语料可以是目标语种的真实文档语料,源文档语料可以是目标文档语料对应的翻译文档语料。
在本公开实施例中,得到第二源文档语料后,即可根据第二目标文档语料和第二源文档语料组成反向平行双语语料,并将反向平行双语语料作为训练样本训练文档机器翻译模型。示例性的,在中译英翻译模式中,英文目标文档语料(待翻译的真实文档语料)和其翻译出的中文源文档语料可以组成反向平行双语语料。也即,在本公开实施例中,成熟机器翻译模型至少可以完成双语翻译功能,如,可以同时支持中译英和英译中,或同时支持英译法和法译英等翻译功能。
也即,在本公开实施例中,用于训练文档机器翻译模型的训练样本包括两种类型:一种是根据源语种的第一源文档语料和目标语种的第一目标文档语种组成的正向平行双语语料;另一种是根据目标语种的第二目标文档语料和源语种的第二源文档语料组成的反向平行双语语料。
需要说明的是,实际情况中,在支持双语翻译模式的情况下,源语种与目标语种的角色可以互换。示例性的,在中译英翻译模式下,源语种为中文,目标语种为英文;而在英译中翻译模式下,源语种为英文,目标语种为中文。为了避免混淆,本公开实施例中,源语种和目标语种始终对应相同的语种。示例性的,在本公开实施例中,在中译英翻译模式下,源语种为中文,目标语种为英文;在英译中翻译模式下,源语种依然为中文,目标语种依然为英文。因此,在支持中译英双语翻译模式的情况下,正向平行双语语料可以是中文文档语料和该中文文档语料翻译对应的英文文档语料;反向平行双语语料可以是英文文档语料和该英文文档语料翻译对应的中文文档语料。
另外还需说明的是,为了保证高质量的训练效果,在使用上述两种类型的训练样本对文档机器翻译模型进行训练时,可以始终将真实文档语料作为文档机器翻译模型的翻译结果。在一个具体的例子中,假设文档机器翻译模型支持中译英双语翻译模式。其中,无论是中译英翻译模式还是英译中翻译模式,源语种均为中文,目标语种均为英文。在训练中译英翻译功能时,可以采用反向平行双语语料作为训练样本,也即,采用真实的英文文档语料和该英文文档语料翻译对应的中文文档语料作为训练样本。在训练英译中翻译功能时,可以采用正向平行双语语料作为训练样本,也即,采用真实的中文文档语料和该中文文档语料翻译对应的英文文档语料作为训练样本。
S2200、采用至少一个预设评测指标对所述成熟机器翻译模型的输出结果进行评测,并根据评测结果对所述平行双语语料进行更新。
其中,预设评测指标可以是用于对成熟机器翻译模型的输出结果进行评测的指标。可选的,预设评测指标可以包括但不限于翻译准确率、文档长度及全文一致性。
为了进一步保障训练样本的准确性和可靠性,还可以采用至少一个预设评测指标对成熟机器翻译模型的输出结果进行评测,并根据评测结果对平行双语语料进行更新。其中,成熟机器翻译模型的输出结果可以包括目标语种的第一目标单语语料,也可以包括源语种的第二源单语语料。相应的,平行双语语料可以包括正向平行双语语料,也可以包括反向平行双语语料。
在利用不同的预设评测指标进行评测可以得到评测得分作为评测结果。示例性的,翻译准确率越高,表明成熟机器翻译模型的输出结果越准确,评测得分也越高;文档长度越端,表明成熟机器翻译模型的输出结果可靠性越低,评测得分也越低;全文一致性越高,表明成熟机器翻译模型的输出结果越准确,评测得分也越高。相应的,评测得分可以综合各个预设评测指标的得分得出,例如,将各预设评测指标的得分累加,或,将各预设评测指标的得分乘以匹配的权重值后再累加,本公开实施例并不对评测结果的具体实现方式进行限定。得到评测结果后,即可根据评测结果对平行双语语料进行更新。
在本公开的一个可选实施例中,根据评测结果对所述平行双语语料进行更新,可以包括:如果确定所述评测结果不满足评测标准,则删除所述成熟机器翻译模型的输出结果及所述输出结果匹配的输入语料。
其中,评测标准可以根据预设评测指标的类型及数量确定。例如,当预设评测指标仅包括翻译准确率时,评测标准可以是翻译准确率达60%。当预设评测指标包括翻译准确率和全文一致性时,可以根据最终的评测得分设定评测标准,如评测得分达60分以上,本公开实施例并不对评测标准的具体内容进行限定。
具体的,在根据评测结果对平行双语语料进行更新时,可以删除评测结果不满足评测标准的输出结果及该输出结果匹配的输入语料。其中,当输出结果为目标语种的第一目标单语语料时,输入语料为第一源单语语料;当输出结果为源语种的第二源单语语料时,输入语料为第二目标单语语料。如此,在反复训练的过程中,训练样本的整体准确性和可靠性会逐渐增高,直至训练结束。
需要说明的是,本公开实施例中所涉及到的“语句级别”的含义是一条或多条句子。示例性的,语句级别的源语种的单语语料可以是一条或两条源语种的单语语句,本公开实施例并不对语句级别包括的句子的数量进行限定。
在本公开的一个可选实施例中,所述成熟机器翻译模型与所述文档机器翻译模型可以为同一个机器翻译模型。
可选的,成熟机器翻译模型与文档机器翻译模型可以为同一个机器翻译模型,也即,可以直接利用平行双语语料的训练样本对成熟机器翻译模型进行训练,以使成熟机器模型能够实现对完整的文档进行翻译,从而提高机器翻译模型文档翻译的准确率。
在一个具体的例子中,可以将成熟的Seq2Seq模型(序列到序列模型)作为成熟机器翻译模型与或文档机器翻译模型。Seq2Seq模型是一种循环神经网络的变种,包括编码器(Encoder)和解码器(Decoder)。图2b是本公开实施例提供的一种Seq2Seq模型的结构示意图,如图2b所示,编码器用于编码序列的信息,将任意长度的序列信息(x)编码到特征向量(c),具体是将待翻译文本代表的文本序列进行切分以及编码转换成为特征向量。解码器用于根据上下文信息对特征向量(c)进行解析,形成文本序列(y),即翻译文本。特征向量实际用于表征待翻译文本的特征。
编码器在计算特征向量时,通常预先配置一个初始隐藏层向量,并将一个文本元素作为输入,计算得到当前时刻对应的隐藏层向量。而后依次将文本元素分别作为输入,对上一时刻得到的隐藏层向量进行变换,得到当前时刻对应的隐藏层向量,当全部文本元素均输入完成,得到隐藏层向量即为特征向量。
图2c是本公开实施例提供的一种Seq2Seq模型中编码器的示意图。示例性的,如图2c所示,h1、h2、h3……hn为隐藏层向量,与上一时刻的状态以及当前输入有关。h0为预设的初始隐藏层向量,x1、x2、x3……xn为文本元素,c为特征向量。根据h0以及此刻输入x1计算h1,再根据h1以及此刻输入x2计算h2,以此类推,根据hn以及此刻输入xn计算c。通过编码器对待翻译文本进行切分,形成至少一个文本元素,文本元素可以包括但不限于字、词和句子;对初始隐藏层向量进行变换,形成用于表征待翻译文本特征的特征向量,实现编码过程。
图2d是本公开实施例提供的一种Seq2Seq模型中解码器的示意图。示例性的,如图2d所示,h1’、h2’、h3’……hn’为隐藏层向量,与上一时刻的状态以及当前输入有关。h0’为预设的初始隐藏层向量,y1、y2、y3……yn为输出序列,c为特征向量。根据h0’以及c计算h1’,再根据h1’以及c计算h2,以此类推,根据hn-1’以及c计算hn’。同时根据h0、h1’、c计算多个备选翻译文本元素的概率,并从中确定目标文本元素作为y1输出,再根据h1’、y1和c计算多个备选文本片段的概率,并从中确定目标文本元素作为y2输出,以此类推,根据hn-1’、yn-1以及c输出yn
实际上,编码器和解码器均可以基于神经网络模型构建。其中,神经网络模块可以包括下述至少一项:卷积神经网络模型、循环神经网络模型、深度神经网络模型、反向传播神经网络模型、长短期记忆网络模型、门重复单元模型。通过采用神经网络模型构建编码器和解码器,可以提高待翻译文本的编码和特征向量解码的准确率,从而提高待翻译文本的翻译准确率。
此外,Seq2Seq模型还可以采用Attention机制,实际上,在解码器在对特征向量进行解析时,目标文本元素不仅和解码器的上一时刻隐藏层向量相关、特征向量、以及上一时刻对应的目标翻译语音片段有关,还与编码器中的隐藏层向量相关,通过Attention机制,针对每个目标文本元素的计算,确定编码器中各隐藏层向量的权重,将当前时刻的解码的输入与所有时刻的编码器的隐藏层向量进行加权求和,计算下一时刻的隐藏层向量以及目标文本元素,从而更加准确确定目标文本元素。
需要说明的是,图2a仅是一种实现方式的示意图,步骤S210-S250和步骤S260-S2100之间并没有先后顺序关系,可以先实施步骤S210-S250,再实施步骤S260-S2100,也可以先实施步骤S260-S2100,再实施步骤S210-S250,还可以两者并行实施或择一实施。
图3是本公开实施例提供的一种文档翻译方法的流程图,本实施例可适用于对文档进行翻译的情况,该方法可以由电子设备执行,电子设备可以是终端设备,可以包括手机、车载终端或笔记本电脑等,或者可以是服务器。相应的,如图3所示,该方法包括如下操作:
S310、获取第一语种的待翻译文档。
其中,第一语种可以是源语种,也可以是目标语种。待翻译文档可以是需要翻译的文档,可以由至少一个段落组成,每个段落可以多个句子。
S320、利用文档翻译模型将所述待翻译文档翻译成第二语种的目标文档。
其中,所述文档翻译模型是根据上述任一实施例所提供的翻译模型训练方法训练的翻译模型。其中,第二语种可以是源语种,也可以是目标语种。具体的,当第一语种为是源语种时,第二语种为目标语种;当第一语种为是目标语种时,第二语种为源语种。目标文档即为对待翻译文档进行翻译后得到的文档。
在本公开实施例中,电子设备可以配置文档翻译装置,文档翻译装置可以采用文档机器翻译模型对获取的第一语种的待翻译文档进行翻译,既可以实现对源语种的待翻译文档进行翻译,也可以实现对目标语种的待翻译文档进行翻译,得到第二语种的目标文档。
本公开实施例通过采用训练成熟的文档翻译模型,对获取的第一语种的待翻译文档进行翻译,得到第二语种的目标文档,解决现有的机器翻译服务难以实现文档翻译功能的问题,从而实现支持文档级别的翻译功能。
图4是本公开实施例提供的一种翻译模型训练装置的示意图,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于电子设备中。如图4所示,所述装置包括:第一源文档语料获取模块410、第一源单语语料拆分模块420、第一目标单语语料获取模块430、第一目标文档语料获取模块440、第一训练样本获取模块450以及第一文档机器翻译模型训练模块460,其中:
第一源文档语料获取模块410,用于获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;
第一源单语语料拆分模块420,用于将所述第一源文档语料拆分成第一源单语语料;
第一目标单语语料获取模块430,用于将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;
第一目标文档语料获取模块440,用于将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;
第一训练样本获取模块450,用于根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;
第一文档机器翻译模型训练模块460,用于将所述平行双语语料作为训练样本来训练文档机器翻译模型。
本公开实施例通过将获取的源语种的第一源文档语料拆分成第一源单语语料,并将第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料,然后将得到的第一目标单语语料拼接成目标语种的第一目标文档语料,最后根据第一源文档语料和第一目标文档语料组成平行双语语料,作为训练样本训练文档机器翻译模型,解决现有以文档为翻译对象的机器翻译模型难以训练成功的问题,实现以完整文档作为机器翻译模型的平行双语语料样本,对机器翻译模型进行训练,从而提高机器翻译模型的文档翻译的准确率。
可选的,第一训练样本获取模块450,具体用于根据所述第一源文档语料和所述第一目标文档语料组成正向平行双语语料。
可选的,所述装置还包括:第二目标文档语料获取模块,用于获取所述目标语种的第二目标文档语料,所述第二目标文档语料为所述目标语种的真实文档语料;第二目标单语语料拆分模块,用于将所述第二目标文档语料拆分成第二目标单语语料;第二源单语语料获取模块,用于将所述第二目标单语语料输入所述成熟机器翻译模型,将输出结果作为源语种的第二源单语语料;第二源文档语料获取模块,用于将各所述第二源单语语料进行拼接,形成所述源语种的第二源文档语料;第二训练样本获取模块,用于根据所述第二目标文档语料和所述第二源文档语料组成反向平行双语语料;将所述反向平行双语语料作为训练样本训练所述文档机器翻译模型。
可选的,所述装置还包括:输出结果评测模块,用于采用至少一个预设评测指标对所述成熟机器翻译模型的输出结果进行评测;平行双语语料更新模块,用于根据评测结果对所述平行双语语料进行更新。
可选的,平行双语语料更新模块,具体用于如果确定所述评测结果不满足评测标准,则删除所述成熟机器翻译模型的输出结果及所述输出结果匹配的输入语料。
可选的,所述预设评测指标包括翻译准确率、文档长度及全文一致性。
可选的,所述成熟机器翻译模型与所述文档机器翻译模型为同一个机器翻译模型。
上述翻译模型训练装置可执行本公开任意实施例所提供的翻译模型训练方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开任意实施例提供的翻译模型训练方法。
由于上述所介绍的翻译模型训练装置为可以执行本公开实施例中的翻译模型训练方法的装置,故而基于本公开实施例中所介绍的翻译模型训练方法,本领域所属技术人员能够了解本实施例的翻译模型训练装置的具体实施方式以及其各种变化形式,所以在此对于该翻译模型训练装置如何实现本公开实施例中的翻译模型训练方法不再详细介绍。只要本领域所属技术人员实施本公开实施例中翻译模型训练方法所采用的装置,都属于本申请所欲保护的范围。
图5为本公开实施例提供的一种电子设备的结构示意图。下面参考图5,其示出了适于用来实现本公开实施例的电子设备500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将源语音输入到预先训练的语音翻译模型中,并指定目标语种;获取所述语音翻译模型输出的与所述目标语种对应的翻译语音,其中,所述源语音对应的待翻译语种与所述目标语种不同。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;将所述第一源文档语料拆分成第一源单语语料;将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;以及将所述平行双语语料作为训练样本来训练文档机器翻译模型。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一源文档语料获取模块还可以被描述为“获取源语种的第一源文档语料的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,本公开提供了一种翻译模型训练方法,包括:
获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;
将所述第一源文档语料拆分成第一源单语语料;
将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;
将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;
根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;以及
将所述平行双语语料作为训练样本来训练文档机器翻译模型。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练方法中,根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料,包括:
根据所述第一源文档语料和所述第一目标文档语料组成正向平行双语语料。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练方法中,所述方法还包括:
获取所述目标语种的第二目标文档语料,所述第二目标文档语料为所述目标语种的真实文档语料;
将所述第二目标文档语料拆分成第二目标单语语料;
将所述第二目标单语语料输入所述成熟机器翻译模型,将输出结果作为源语种的第二源单语语料;
将各所述第二源单语语料进行拼接,形成所述源语种的第二源文档语料;
根据所述第二目标文档语料和所述第二源文档语料组成反向平行双语语料;
将所述反向平行双语语料作为训练样本训练所述文档机器翻译模型。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练方法中,在根据所述第二目标文档语料和所述第二源文档语料组成反向平行双语语料之后,还包括:
采用至少一个预设评测指标对所述成熟机器翻译模型的输出结果进行评测;
根据评测结果对所述平行双语语料进行更新。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练方法中,根据评测结果对所述平行双语语料进行更新,包括:
如果确定所述评测结果不满足评测标准,则删除所述成熟机器翻译模型的输出结果及所述输出结果匹配的输入语料。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练方法中,所述预设评测指标包括翻译准确率、文档长度及全文一致性。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练方法中,所述成熟机器翻译模型与所述文档机器翻译模型为同一个机器翻译模型。
根据本公开的一个或多个实施例,本公开提供了一种翻译模型训练装置,包括:
第一源文档语料获取模块,用于获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;
第一源单语语料拆分模块,用于将所述第一源文档语料拆分成第一源单语语料;
第一目标单语语料获取模块,用于将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;
第一目标文档语料获取模块,用于将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;
第一训练样本获取模块,用于根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;
第一文档机器翻译模型训练模块,用于将所述平行双语语料作为训练样本来训练文档机器翻译模型。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练装置中,第一训练样本获取模块,具体用于根据所述第一源文档语料和所述第一目标文档语料组成正向平行双语语料。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练装置中,所述装置还包括:第二目标文档语料获取模块,用于获取所述目标语种的第二目标文档语料,所述第二目标文档语料为所述目标语种的真实文档语料;第二目标单语语料拆分模块,用于将所述第二目标文档语料拆分成第二目标单语语料;第二源单语语料获取模块,用于将所述第二目标单语语料输入所述成熟机器翻译模型,将输出结果作为源语种的第二源单语语料;第二源文档语料获取模块,用于将各所述第二源单语语料进行拼接,形成所述源语种的第二源文档语料;第二训练样本获取模块,用于根据所述第二目标文档语料和所述第二源文档语料组成反向平行双语语料;第二文档机器翻译模型训练模块,用于将所述反向平行双语语料作为训练样本训练所述文档机器翻译模型。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练装置中,所述装置还包括:输出结果评测模块,用于采用至少一个预设评测指标对所述成熟机器翻译模型的输出结果进行评测;平行双语语料更新模块,用于根据评测结果对所述平行双语语料进行更新。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练装置中,平行双语语料更新模块,具体用于如果确定所述评测结果不满足评测标准,则删除所述成熟机器翻译模型的输出结果及所述输出结果匹配的输入语料。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练装置中,所述预设评测指标包括翻译准确率、文档长度及全文一致性。
根据本公开的一个或多个实施例,本公开提供的翻译模型训练装置中,所述成熟机器翻译模型与所述文档机器翻译模型为同一个机器翻译模型。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (11)

1.一种翻译模型训练方法,其特征在于,包括:
获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;
将所述第一源文档语料拆分成第一源单语语料;
将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;
将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;
根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;以及
将所述平行双语语料作为训练样本来训练文档机器翻译模型。
2.根据权利要求1所述的方法,其特征在于,根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料,包括:
根据所述第一源文档语料和所述第一目标文档语料组成正向平行双语语料。
3.根据权利要求1或2任一所述的方法,其特征在于,所述方法还包括:
获取所述目标语种的第二目标文档语料,所述第二目标文档语料为所述目标语种的真实文档语料;
将所述第二目标文档语料拆分成第二目标单语语料;
将所述第二目标单语语料输入所述成熟机器翻译模型,将输出结果作为源语种的第二源单语语料;
将各所述第二源单语语料进行拼接,形成所述源语种的第二源文档语料;
根据所述第二目标文档语料和所述第二源文档语料组成反向平行双语语料;
将所述反向平行双语语料作为训练样本训练所述文档机器翻译模型。
4.根据权利要求3所述的方法,其特征在于,在根据所述第二目标文档语料和所述第二源文档语料组成反向平行双语语料之后,还包括:
采用至少一个预设评测指标对所述成熟机器翻译模型的输出结果进行评测;
根据评测结果对所述平行双语语料进行更新。
5.根据权利要求4所述的方法,其特征在于,根据评测结果对所述平行双语语料进行更新,包括:
如果确定所述评测结果不满足评测标准,则删除所述成熟机器翻译模型的输出结果及所述输出结果匹配的输入语料。
6.根据权利要求5所述的方法,其特征在于,所述预设评测指标包括翻译准确率、文档长度及全文一致性。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述成熟机器翻译模型与所述文档机器翻译模型为同一个机器翻译模型。
8.一种文档翻译方法,其特征在于,所述方法包括:
获取第一语种的待翻译文档;
利用文档翻译模型将所述待翻译文档翻译成第二语种的目标文档,其中,所述文档翻译模型是根据权利要求1-7中任一项方法训练的翻译模型。
9.一种翻译模型训练装置,其特征在于,包括:
第一源文档语料获取模块,用于获取源语种的第一源文档语料,所述第一源文档语料为所述源语种的真实文档语料;
第一源单语语料拆分模块,用于将所述第一源文档语料拆分成第一源单语语料;
第一目标单语语料获取模块,用于将所述第一源单语语料输入成熟机器翻译模型,将输出结果作为目标语种的第一目标单语语料;
第一目标文档语料获取模块,用于将各所述第一目标单语语料进行拼接,形成所述目标语种的第一目标文档语料;
第一训练样本获取模块,用于根据所述第一源文档语料和所述第一目标文档语料组成平行双语语料;
第一文档机器翻译模型训练模块,用于将所述平行双语语料作为训练样本来训练文档机器翻译模型。
10.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202010105061.XA 2020-02-20 2020-02-20 一种翻译模型训练方法、装置、电子设备及存储介质 Active CN111339789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010105061.XA CN111339789B (zh) 2020-02-20 2020-02-20 一种翻译模型训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010105061.XA CN111339789B (zh) 2020-02-20 2020-02-20 一种翻译模型训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111339789A true CN111339789A (zh) 2020-06-26
CN111339789B CN111339789B (zh) 2023-08-01

Family

ID=71183560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010105061.XA Active CN111339789B (zh) 2020-02-20 2020-02-20 一种翻译模型训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111339789B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800780A (zh) * 2021-01-26 2021-05-14 浙江香侬慧语科技有限责任公司 一种多语种机器翻译方法、装置、存储介质及设备
CN114692652A (zh) * 2020-12-31 2022-07-01 北京金山数字娱乐科技有限公司 翻译模型训练方法及装置、翻译方法及装置
CN114757212A (zh) * 2022-03-30 2022-07-15 北京金山数字娱乐科技有限公司 翻译模型训练方法、装置、电子设备和介质
WO2022166267A1 (zh) * 2021-02-07 2022-08-11 语联网(武汉)信息技术有限公司 机器翻译后编辑方法及***
CN115549742A (zh) * 2022-09-01 2022-12-30 浙江大学 一种基于深度学习的csi压缩反馈方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326912A1 (en) * 2006-08-18 2009-12-31 Nicola Ueffing Means and a method for training a statistical machine translation system
CN102270242A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助语料提取方法
US20140006003A1 (en) * 2005-06-17 2014-01-02 Radu Soricut Trust scoring for language translation systems
US20160124944A1 (en) * 2014-11-04 2016-05-05 Xerox Corporation Predicting the quality of automatic translation of an entire document
US20160350290A1 (en) * 2015-05-25 2016-12-01 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
CN108549643A (zh) * 2018-04-08 2018-09-18 北京百度网讯科技有限公司 翻译处理方法和装置
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110598222A (zh) * 2019-09-12 2019-12-20 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理***的训练方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140006003A1 (en) * 2005-06-17 2014-01-02 Radu Soricut Trust scoring for language translation systems
US20090326912A1 (en) * 2006-08-18 2009-12-31 Nicola Ueffing Means and a method for training a statistical machine translation system
CN102270242A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助语料提取方法
US20160124944A1 (en) * 2014-11-04 2016-05-05 Xerox Corporation Predicting the quality of automatic translation of an entire document
US20160350290A1 (en) * 2015-05-25 2016-12-01 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
CN108549643A (zh) * 2018-04-08 2018-09-18 北京百度网讯科技有限公司 翻译处理方法和装置
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110598222A (zh) * 2019-09-12 2019-12-20 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理***的训练方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692652A (zh) * 2020-12-31 2022-07-01 北京金山数字娱乐科技有限公司 翻译模型训练方法及装置、翻译方法及装置
CN112800780A (zh) * 2021-01-26 2021-05-14 浙江香侬慧语科技有限责任公司 一种多语种机器翻译方法、装置、存储介质及设备
WO2022166267A1 (zh) * 2021-02-07 2022-08-11 语联网(武汉)信息技术有限公司 机器翻译后编辑方法及***
CN114757212A (zh) * 2022-03-30 2022-07-15 北京金山数字娱乐科技有限公司 翻译模型训练方法、装置、电子设备和介质
CN115549742A (zh) * 2022-09-01 2022-12-30 浙江大学 一种基于深度学习的csi压缩反馈方法
CN115549742B (zh) * 2022-09-01 2024-06-07 浙江大学 一种基于深度学习的csi压缩反馈方法

Also Published As

Publication number Publication date
CN111339789B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN111339789B (zh) 一种翻译模型训练方法、装置、电子设备及存储介质
US11775761B2 (en) Method and apparatus for mining entity focus in text
CN110969012B (zh) 文本纠错方法、装置、存储介质及电子设备
CN111008533B (zh) 一种翻译模型的获取方法、装置、设备和存储介质
CN111368559A (zh) 语音翻译方法、装置、电子设备及存储介质
CN111382261B (zh) 摘要生成方法、装置、电子设备及存储介质
CN111046677B (zh) 一种翻译模型的获取方法、装置、设备和存储介质
CN111563390B (zh) 文本生成方法、装置和电子设备
CN109933217B (zh) 用于推送语句的方法和装置
CN111368560A (zh) 文本翻译方法、装置、电子设备及存储介质
CN112270200B (zh) 一种文本信息的翻译方法、装置、电子设备和存储介质
CN112417902A (zh) 文本翻译方法、装置、设备及存储介质
CN111597825B (zh) 语音翻译方法、装置、可读介质及电子设备
CN112380876B (zh) 基于多语言机器翻译模型的翻译方法、装置、设备和介质
CN113139391A (zh) 翻译模型的训练方法、装置、设备和存储介质
CN111400454A (zh) 摘要生成方法、装置、电子设备及存储介质
CN111104796A (zh) 用于翻译的方法和装置
CN112257459B (zh) 语言翻译模型的训练方法、翻译方法、装置和电子设备
CN115967833A (zh) 视频生成方法、装置、设备计存储介质
WO2023011260A1 (zh) 翻译处理方法、装置、设备及介质
WO2022121859A1 (zh) 口语信息处理方法、装置和电子设备
CN111737572B (zh) 搜索语句生成方法、装置和电子设备
CN116821327A (zh) 文本数据处理方法、装置、设备、可读存储介质及产品
CN111581455B (zh) 文本生成模型的生成方法、装置和电子设备
CN112906371B (zh) 一种平行语料获取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant