CN111259676A - 翻译模型的训练方法、装置、电子设备、及存储介质 - Google Patents

翻译模型的训练方法、装置、电子设备、及存储介质 Download PDF

Info

Publication number
CN111259676A
CN111259676A CN202010026456.0A CN202010026456A CN111259676A CN 111259676 A CN111259676 A CN 111259676A CN 202010026456 A CN202010026456 A CN 202010026456A CN 111259676 A CN111259676 A CN 111259676A
Authority
CN
China
Prior art keywords
parallel
translation model
pairs
language
parallel language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010026456.0A
Other languages
English (en)
Inventor
俞春龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Jiaochi Artificial Intelligence Research Institute Co Ltd
Original Assignee
Suzhou Jiaochi Artificial Intelligence Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Jiaochi Artificial Intelligence Research Institute Co Ltd filed Critical Suzhou Jiaochi Artificial Intelligence Research Institute Co Ltd
Priority to CN202010026456.0A priority Critical patent/CN111259676A/zh
Publication of CN111259676A publication Critical patent/CN111259676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施例公开了一种翻译模型的训练方法、装置、电子设备、及存储介质,方法包括:基于训练用的第一平行语对集合进行模型训练得到正向翻译模型和反向翻译模型;将测试用的第二平行语对集合进行分类划分为多个测试子集,分别采用测试子集测试正向翻译模型和反向翻译模型,根据测试结果确定低质类别集;将第一平行语对集合拆分为属于低质类别集的第三平行语对子集和不属于低质类别集的第四平行语对子集;基于第三平行语对子集分别采用正向翻译模型和反向翻译模型进行翻译得到伪平行语对,与第四平行语对子集混合后再对正向翻译模型和反向翻译模型进行训练。本公开实施例能够利用反向翻译技术提升低质领域语料质量,能提升模型质量。

Description

翻译模型的训练方法、装置、电子设备、及存储介质
技术领域
本公开实施例涉及自然语言处理技术领域,具体涉及一种翻译模型的训练方法、装置、电子设备、及存储介质。
背景技术
目前机器翻译领域主要运用基于神经网络的机器翻译算法。算法模型主体由编码器(encoder)和解码器(decoder)组成。在该类算法中,以谷歌在2017年发表的Transformer模型最为流行。
虽然基于神经网络的翻译模型准确性很高,但是需要大量平行语料来训练模型,在低资源情况下,经训练后的翻译模型的性能可能会比较差。
发明内容
有鉴于此,本公开实施例提供一种翻译模型的训练方法、装置、电子设备、及存储介质,以提升模型质量。
本公开实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开实施例的实践而习得。
第一方面,本公开实施例提供了一种翻译模型的训练方法,包括:
基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型,其中,所述平行语对包括源语言的源语句和目标语言的目标语句;
将测试用的第二平行语对集合进行分类划分为多个测试子集,分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型,根据测试结果确定翻译效果指标最差的至少一个测试子集,获取所述至少一个测试子集对应的至少一个分类作为低质类别集;
将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集,其中,所述第三平行语对子集中的平行语对属于所述低质类别集,所述第四平行语对子集中的平行语对不属于所述低质类别集;
将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练。
于一实施例中:
基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型包括:
利用机器学***行语对集合中任一平行语对的源语句作为第一初始翻译模型的输入,将该平行语对的目标语句作为所述第一初始翻译模型的期望输出,训练得到正向翻译模型;
基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型包括:
利用机器学***行语对集合中任一平行语对的目标语句作为第二初始翻译模型的输入,将该平行语对的源语句作为所述第二初始翻译模型的期望输出,训练得到反向翻译模型。
于一实施例中,将测试用的第二平行语对集合进行分类划分为多个测试子集包括:
通过用于识别平行语对所属领域的领域分类模型,将测试用的第二平行语对集合进行领域分类划分为多个测试子集。
于一实施例中,将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集包括:
通过所述领域分类模型将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集。
于一实施例中,将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练包括:
将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,根据翻译结果得到第五平行语对集合,将所述第五平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述反向翻译模型进行训练;
以及,将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果得到第六平行语对集合,将所述第六平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述正向翻译模型进行训练。
于一实施例中,所述方法还包括:
在得到第五平行语对集合之后,对所述第五平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理;和/或
在得到第六平行语对集合之后,对所述六平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
于一实施例中,在对所述正向翻译模型和所述反向翻译模型进行训练之后,返回所述模型测试的步骤直到翻译效果指标满足预定条件。
于一实施例中,所述第一初始翻译模型和/或所述第二初始翻译模型为Transformer模型。
于一实施例中,在基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型之前还包括:
对所述第一平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
第二方面,本公开实施例还提供了一种翻译模型的训练装置,包括:
模型训练单元,用于基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型,其中,所述平行语对包括源语言的源语句和目标语言的目标语句;
低质类别确定单元,用于将测试用的第二平行语对集合进行分类划分为多个测试子集,分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型,根据测试结果确定翻译效果指标最差的至少一个测试子集,获取所述至少一个测试子集对应的至少一个分类作为低质类别集;
训练集拆分单元,用于将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集,其中,所述第三平行语对子集中的平行语对属于所述低质类别集,所述第四平行语对子集中的平行语对不属于所述低质类别集;
反向翻译训练单元,用于将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练。
于一实施例中,所述模型训练单元用于:
利用机器学***行语对集合中任一平行语对的源语句作为第一初始翻译模型的输入,将该平行语对的目标语句作为所述第一初始翻译模型的期望输出,训练得到正向翻译模型;
利用机器学***行语对集合中任一平行语对的目标语句作为第二初始翻译模型的输入,将该平行语对的源语句作为所述第二初始翻译模型的期望输出,训练得到反向翻译模型。
于一实施例中,所述低质类别确定单元用于:
通过用于识别平行语对所属领域的领域分类模型,将测试用的第二平行语对集合进行领域分类划分为多个测试子集。
于一实施例中,所述训练集拆分单元用于:
通过所述领域分类模型将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集。
于一实施例中,所述反向翻译训练单元用于:
将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,根据翻译结果得到第五平行语对集合,将所述第五平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述反向翻译模型进行训练;
以及,将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果得到第六平行语对集合,将所述第六平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述正向翻译模型进行训练。
于一实施例中,所述装置还包括平行语对预处理单元,用于:
在得到第五平行语对集合之后,对所述第五平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理;和/或
在得到第六平行语对集合之后,对所述六平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
于一实施例中,在通过所述反向翻译训练单元对所述正向翻译模型和所述反向翻译模型进行训练之后,返回所述低质类别确定单元执行所述模型测试的步骤直到翻译效果指标满足预定条件。
于一实施例中,所述第一初始翻译模型和/或所述第二初始翻译模型为Transformer模型。
于一实施例中,所述平行语对预处理单元还用于,在基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型之前:
对所述第一平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
第三方面,本公开实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一项所述方法的指令。
第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一项所述方法的步骤。
本公开实施例基于训练用的第一平行语对集合进行模型训练得到正向翻译模型和反向翻译模型;将测试用的第二平行语对集合进行分类划分为多个测试子集,分别采用测试子集测试正向翻译模型和反向翻译模型,根据测试结果确定低质类别集;将第一平行语对集合拆分为属于低质类别集的第三平行语对子集和不属于低质类别集的第四平行语对子集;基于第三平行语对子集分别采用正向翻译模型和反向翻译模型进行翻译得到伪平行语对,与第四平行语对子集混合后再对正向翻译模型和反向翻译模型进行训练,能够利用反向翻译技术提升低质领域语料质量,从而提升模型表现,在平行语料较少的情况下,能提高模型训练质量。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本公开实施例中的一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本公开实施例的内容和这些附图获得其他的附图。
图1是本公开实施例提供的一种翻译模型的训练方法的流程示意图;
图2是本公开实施例提供的另一种翻译模型的训练方法的流程示意图;
图3是本公开实施例提供的一种翻译模型的训练装置的结构示意图;
图4示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
为使本公开实施例解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本公开实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本公开实施例中的一部分实施例,而不是全部的实施例。基于本公开实施例中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开实施例保护的范围。
需要说明的是,本公开实施例中术语“***”和“网络”在本文中常被可互换使用。本公开实施例中提到的“和/或”是指包括一个或更多个相关所列项目的任何和所有组合。本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。
还需要说明是,本公开实施例中下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本公开实施例对此不作具体限制。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面结合附图并通过具体实施方式来进一步说明本公开实施例的技术方案。
图1示出了本公开实施例提供的一种翻译模型的训练方法的流程示意图,本实施例可适用于利用反向翻译技术提升低质领域语料质量进行翻译模型训练的情况,该方法可以由配置于电子设备中的翻译模型的训练装置来执行,如图1所示,本实施例所述的翻译模型的训练方法包括:
在步骤S110中,基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型,其中,所述平行语对包括源语言的源语句和目标语言的目标语句。
从语言A翻译到语言B,则语言A为源语言,语言B为目标语言。
为了从语言A翻译到语言B这一目标,将语言A翻译到语言B的模型作为正向模型,将语言B翻译到语言A的模型称为反向模型。
例如,利用机器学***行语对集合中任一平行语对的源语句作为第一初始翻译模型的输入,将该平行语对的目标语句作为所述第一初始翻译模型的期望输出,训练得到正向翻译模型;利用机器学***行语对集合中任一平行语对的目标语句作为第二初始翻译模型的输入,将该平行语对的源语句作为所述第二初始翻译模型的期望输出,训练得到反向翻译模型。
上述情况下,所述第一初始翻译模型和所述第二初始翻译模型可采用多种机器学习模型,例如可采用Transformer模型。
需要说明的是,在本步骤之前,还可对所述第一平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理,以提升模型训练的效果。
其中,可在符号标准化的步骤之后进行分词处理,过滤处理的步骤可以在清洗处理之后,也可以在分词处理后,还可以同时在清洗和分词处理后各进行一次过滤处理。
在步骤S120中,将测试用的第二平行语对集合进行领域分类划分为多个测试子集,分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型,根据测试结果确定翻译效果指标最差的至少一个测试子集,获取所述至少一个测试子集对应的至少一个分类作为低质类别集。
例如,可通过用于识别平行语对所属领域的领域分类模型,将测试用的第二平行语对集合进行领域分类划分为多个测试子集。又如,可通过用于识别平行语对所属文体的文体分类模型,将测试用的第二平行语对集合进行文体分类划分为多个测试子集。
一般来说,所述翻译效果指标的评判思想是:机器翻译结果越接近专业人工翻译的结果,则表明翻译效果越好,可用多种方式表示翻译效果指标,例如可采用BLEU值表示翻译效果指标。
在步骤S130中,将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集,其中,所述第三平行语对子集中的平行语对属于所述低质类别集,所述第四平行语对子集中的平行语对不属于所述低质类别集。
例如,通过步骤S130示例所述领域分类模型将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集。
其中,所述领域分类模型可基于互联网数据训练初始bert模型得到。
在步骤S140中,将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练。
例如,可将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,根据翻译结果得到第五平行语对集合,将所述第五平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述反向翻译模型进行训练。
例如,将所述第三平行语对子集中,任一平行语对Z(x,y),其中x为源语言的源语句,y为目标语言的目标语句。将源语句x采用所述正向翻译模型进行翻译后得到y’,将(x,y’)作为平行语对Z1,添加到第五平行语对集合。最后将第五平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述反向翻译模型进行训练。
以及,将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果得到第六平行语对集合,将所述第六平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述正向翻译模型进行训练。
例如,将所述第三平行语对子集中,任一平行语对Z(x,y),将目标语句y采用所述反向翻译模型进行翻译后得到x’,将(x’,y)作为平行语对Z2,添加到第六平行语对集合。最后将第六平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述正向翻译模型进行训练。
于一实施例中,为了提高得到的平行语对的质量,可进行预处理后再用以训练模型,以进一步提升模型训练的效果。例如,在得到第五平行语对集合之后,对所述第五平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。以及在得到第六平行语对集合之后,对所述六平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
其中,所述符号标准化处理主要用于对各平行语对中标点符号的不同写法进行一致性约定。
本实施例基于训练用的第一平行语对集合进行模型训练得到正向翻译模型和反向翻译模型;将测试用的第二平行语对集合进行分类划分为多个测试子集,分别采用测试子集测试正向翻译模型和反向翻译模型,根据测试结果确定低质类别集;将第一平行语对集合拆分为属于低质类别集的第三平行语对子集和不属于低质类别集的第四平行语对子集;基于第三平行语对子集分别采用正向翻译模型和反向翻译模型进行翻译得到伪平行语对,与第四平行语对子集混合后再对正向翻译模型和反向翻译模型进行训练,能够利用反向翻译技术提升低质领域语料质量,从而提升模型表现,在平行语料较少的情况下,能提高模型训练质量。
图2示出了本公开实施例提供的另一种翻译模型的训练方法的流程示意图,本实施例以前述实施例为基础,进行了改进优化。如图2所示,本实施例所述的翻译模型的训练方法包括:
在步骤S210中,基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型,其中,所述平行语对包括源语言的源语句和目标语言的目标语句,执行步骤S220。
例如,可利用机器学***行语对集合中任一平行语对的源语句作为第一初始翻译模型的输入,将该平行语对的目标语句作为所述第一初始翻译模型的期望输出,训练得到正向翻译模型;以及利用机器学***行语对集合中任一平行语对的目标语句作为第二初始翻译模型的输入,将该平行语对的源语句作为所述第二初始翻译模型的期望输出,训练得到反向翻译模型。
于一实施例中,在步骤S210之前,还可对所述第一平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理,以提升模型训练的效果。
在步骤S220中,将测试用的第二平行语对集合进行分类划分为多个测试子集,执行步骤S230。
例如,可通过用于识别平行语对所属领域的领域分类模型,将测试用的第二平行语对集合进行领域分类划分为多个测试子集。
在步骤S230中,分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型,执行步骤S240。
在步骤S240中,根据测试结果确定翻译效果指标是否满足预定条件,若是则结束,否则执行步骤S250。
在步骤S250中,根据测试结果确定翻译效果指标最差的至少一个测试子集,获取所述至少一个测试子集对应的至少一个分类作为低质类别集,执行步骤S260。
在步骤S260中,将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集,其中,所述第三平行语对子集中的平行语对属于所述低质类别集,所述第四平行语对子集中的平行语对不属于所述低质类别集,执行步骤S270。
本步骤也可通过步骤S220所述的领域分类模型将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集。
在步骤S270中,将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练,返回步骤S230。
例如,可将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,根据翻译结果得到第五平行语对集合,将所述第五平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述反向翻译模型进行训练;
以及,将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果得到第六平行语对集合,将所述第六平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述正向翻译模型进行训练。
进一步地,在得到所述第五平行语对集合之后,可对所述第五平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
同样的进由,在得到所述第六平行语对集合之后,也可对所述六平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
本实施例通过分类的测试子集检测模型的翻译质量,在翻译质量满足要求之前,根据检测结果获取双语语料中质量较差的领域,利用反向翻译技术提升较差领域语料质量,以提升模型表现,之后再重复通过分类的测试子集进行质量检测、较差领域获取、以及模型反向训练,直到翻译质量满足要求,不需要任何额外的单语语料,能通过不断的迭代训练将模型优化到较高程度。
作为上述各图所示方法的实现,本申请提供了一种翻译模型的训练装置的一个实施例,图3示出了本实施例提供的一种翻译模型的训练装置的结构示意图,该装置实施例与图1和图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。如图3所示,本实施例所述的翻译模型的训练装置包括模型训练单元310、低质类别确定单元320、训练集拆分单元330和反向翻译训练单元340。
所述模型训练单元310被配置为,用于基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型,其中,所述平行语对包括源语言的源语句和目标语言的目标语句。
所述低质类别确定单元320被配置为,用于将测试用的第二平行语对集合进行分类划分为多个测试子集,分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型,根据测试结果确定翻译效果指标最差的至少一个测试子集,获取所述至少一个测试子集对应的至少一个分类作为低质类别集。
所述训练集拆分单元330被配置为,用于将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集,其中,所述第三平行语对子集中的平行语对属于所述低质类别集,所述第四平行语对子集中的平行语对不属于所述低质类别集。
所述反向翻译训练单元340被配置为,用于将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练。
于一实施例中,所述模型训练单元310被配置为,还用于:
利用机器学***行语对集合中任一平行语对的源语句作为第一初始翻译模型的输入,将该平行语对的目标语句作为所述第一初始翻译模型的期望输出,训练得到正向翻译模型;
利用机器学***行语对集合中任一平行语对的目标语句作为第二初始翻译模型的输入,将该平行语对的源语句作为所述第二初始翻译模型的期望输出,训练得到反向翻译模型。
于一实施例中,所述低质类别确定单元320被配置为,还用于:
通过用于识别平行语对所属领域的领域分类模型,将测试用的第二平行语对集合进行领域分类划分为多个测试子集。
于一实施例中,所述训练集拆分单元330被配置为,用于通过所述领域分类模型将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集。
于一实施例中,所述反向翻译训练单元340被配置为,用于:
将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,根据翻译结果得到第五平行语对集合,将所述第五平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述反向翻译模型进行训练;
以及,将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果得到第六平行语对集合,将所述第六平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述正向翻译模型进行训练。
进一步地,所述装置还包括平行语对预处理单元(图3中未示出),用于:
在得到第五平行语对集合之后,对所述第五平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理;和/或
在得到第六平行语对集合之后,对所述六平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
于一实施例中,在通过所述反向翻译训练单元340根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练之后,返回所述低质类别确定单元320执行分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型的步骤直到翻译效果指标满足预定条件。
于一实施例中,所述第一初始翻译模型和/或所述第二初始翻译模型为Transformer模型。
于一实施例中,所述平行语对预处理单元被配置为,还用于在基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型之前:对所述第一平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
本实施例提供的翻译模型的训练装置可执行本公开方法实施例所提供的翻译模型的训练方法,具备执行方法相应的功能模块和有益效果。
下面参考图4,其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开实施例的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开实施例的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型,其中,所述平行语对包括源语言的源语句和目标语言的目标语句;
将测试用的第二平行语对集合进行分类划分为多个测试子集,分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型,根据测试结果确定翻译效果指标最差的至少一个测试子集,获取所述至少一个测试子集对应的至少一个分类作为低质类别集;
将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集,其中,所述第三平行语对子集中的平行语对属于所述低质类别集,所述第四平行语对子集中的平行语对不属于所述低质类别集;
将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开实施例各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
以上描述仅为本公开实施例的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开实施例中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种翻译模型的训练方法,其特征在于,包括:
基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型,其中,所述平行语对包括源语言的源语句和目标语言的目标语句;
将测试用的第二平行语对集合进行分类划分为多个测试子集,分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型,根据测试结果确定翻译效果指标最差的至少一个测试子集,获取所述至少一个测试子集对应的至少一个分类作为低质类别集;
将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集,其中,所述第三平行语对子集中的平行语对属于所述低质类别集,所述第四平行语对子集中的平行语对不属于所述低质类别集;
将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练。
2.根据权利要求1所述的方法,其特征在于:
基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型包括:
利用机器学***行语对集合中任一平行语对的源语句作为第一初始翻译模型的输入,将该平行语对的目标语句作为所述第一初始翻译模型的期望输出,训练得到正向翻译模型;
基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型包括:
利用机器学***行语对集合中任一平行语对的目标语句作为第二初始翻译模型的输入,将该平行语对的源语句作为所述第二初始翻译模型的期望输出,训练得到反向翻译模型。
3.根据权利要求1所述的方法,其特征在于,将测试用的第二平行语对集合进行分类划分为多个测试子集包括:
通过用于识别平行语对所属领域的领域分类模型,将测试用的第二平行语对集合进行领域分类划分为多个测试子集。
4.根据权利要求3所述的方法,其特征在于,将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集包括:
通过所述领域分类模型将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集。
5.根据权利要求1所述的方法,其特征在于,将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练包括:
将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,根据翻译结果得到第五平行语对集合,将所述第五平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述反向翻译模型进行训练;
以及,将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果得到第六平行语对集合,将所述第六平行语对集合和所述第四平行语对子集混合后,基于混合结果对所述正向翻译模型进行训练。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在得到第五平行语对集合之后,对所述第五平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理;和/或
在得到第六平行语对集合之后,对所述六平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
7.根据权利要求1所述的方法,其特征在于,在根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练之后,返回所述分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型的步骤直到翻译效果指标满足预定条件。
8.根据权利要求1所述的方法,其特征在于,所述第一初始翻译模型和/或所述第二初始翻译模型为Transformer模型。
9.根据权利要求1所述的方法,其特征在于,在基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型之前还包括:
对所述第一平行语对集合中的平行语对进行数据清洗处理、过滤处理、符号标准化处理、和/或分词处理。
10.一种翻译模型的训练装置,其特征在于,包括:
模型训练单元,用于基于训练用的第一平行语对集合的正向语言对训练第一初始翻译模型得到正向翻译模型,以及基于所述第一平行语对集合的反向语言对训练第二初始翻译模型得到反向翻译模型,其中,所述平行语对包括源语言的源语句和目标语言的目标语句;
低质类别确定单元,用于将测试用的第二平行语对集合进行分类划分为多个测试子集,分别采用所述测试子集测试所述正向翻译模型和所述反向翻译模型,根据测试结果确定翻译效果指标最差的至少一个测试子集,获取所述至少一个测试子集对应的至少一个分类作为低质类别集;
训练集拆分单元,用于将所述第一平行语对集合拆分为第三平行语对子集和第四平行语对子集,其中,所述第三平行语对子集中的平行语对属于所述低质类别集,所述第四平行语对子集中的平行语对不属于所述低质类别集;
反向翻译训练单元,用于将所述第三平行语对子集中的平行语对的源语句采用所述正向翻译模型进行翻译,以及将所述第三平行语对子集中的平行语对的目标语句采用所述反向翻译模型进行翻译,根据翻译结果生成平行语对集合,根据所生成的平行语对集合和所述第四平行语对子集,对所述正向翻译模型和所述反向翻译模型进行训练。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述方法的指令。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-9任一项所述方法的步骤。
CN202010026456.0A 2020-01-10 2020-01-10 翻译模型的训练方法、装置、电子设备、及存储介质 Pending CN111259676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010026456.0A CN111259676A (zh) 2020-01-10 2020-01-10 翻译模型的训练方法、装置、电子设备、及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010026456.0A CN111259676A (zh) 2020-01-10 2020-01-10 翻译模型的训练方法、装置、电子设备、及存储介质

Publications (1)

Publication Number Publication Date
CN111259676A true CN111259676A (zh) 2020-06-09

Family

ID=70948670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010026456.0A Pending CN111259676A (zh) 2020-01-10 2020-01-10 翻译模型的训练方法、装置、电子设备、及存储介质

Country Status (1)

Country Link
CN (1) CN111259676A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859996A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN114077843A (zh) * 2022-01-04 2022-02-22 阿里巴巴达摩院(杭州)科技有限公司 翻译模型训练方法、翻译方法、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670190A (zh) * 2018-12-25 2019-04-23 北京百度网讯科技有限公司 翻译模型构建方法和装置
CN110162800A (zh) * 2019-05-08 2019-08-23 北京百度网讯科技有限公司 翻译模型的训练方法和装置
CN110543645A (zh) * 2019-09-04 2019-12-06 网易有道信息技术(北京)有限公司 机器学习模型训练方法、介质、装置和计算设备
CN110543643A (zh) * 2019-08-21 2019-12-06 语联网(武汉)信息技术有限公司 文本翻译模型的训练方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670190A (zh) * 2018-12-25 2019-04-23 北京百度网讯科技有限公司 翻译模型构建方法和装置
CN110162800A (zh) * 2019-05-08 2019-08-23 北京百度网讯科技有限公司 翻译模型的训练方法和装置
CN110543643A (zh) * 2019-08-21 2019-12-06 语联网(武汉)信息技术有限公司 文本翻译模型的训练方法及装置
CN110543645A (zh) * 2019-09-04 2019-12-06 网易有道信息技术(北京)有限公司 机器学习模型训练方法、介质、装置和计算设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859996A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN111859996B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN114077843A (zh) * 2022-01-04 2022-02-22 阿里巴巴达摩院(杭州)科技有限公司 翻译模型训练方法、翻译方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110969012B (zh) 文本纠错方法、装置、存储介质及电子设备
CN111368562B (zh) 翻译图片中的文字的方法、装置、电子设备、及存储介质
CN111178056A (zh) 基于深度学习的文案生成方法、装置及电子设备
CN111339789B (zh) 一种翻译模型训练方法、装置、电子设备及存储介质
CN113378586B (zh) 语音翻译方法、翻译模型训练方法、装置、介质及设备
CN112613306A (zh) 抽取实体关系的方法、装置、电子设备、及存储介质
CN111368560A (zh) 文本翻译方法、装置、电子设备及存储介质
CN111738316B (zh) 零样本学习的图像分类方法、装置及电子设备
CN111680761B (zh) 信息反馈方法、装置和电子设备
CN111259676A (zh) 翻译模型的训练方法、装置、电子设备、及存储介质
CN116894188A (zh) 业务标签集更新方法、装置、介质及电子设备
CN112380883B (zh) 模型训练方法、机器翻译方法、装置、设备及存储介质
CN113971400B (zh) 一种文本检测方法、装置、电子设备及存储介质
CN112069786A (zh) 文本信息处理方法、装置、电子设备及介质
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN111026849A (zh) 数据处理方法和装置
CN110750994A (zh) 一种实体关系抽取方法、装置、电子设备及存储介质
CN110634024A (zh) 一种用户属性标记方法、装置、电子设备及存储介质
CN113807056B (zh) 一种文档名称序号纠错方法、装置和设备
CN111382577B (zh) 文档翻译方法、装置、电子设备、及存储介质
CN109857838B (zh) 用于生成信息的方法和装置
CN114416986A (zh) 一种文本数据清洗方法、装置及存储介质
CN113420723A (zh) 获取视频热点的方法、装置、可读介质和电子设备
CN110990528A (zh) 一种问答方法、装置及电子设备
CN111062201A (zh) 用于处理信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200609

RJ01 Rejection of invention patent application after publication