CN113761944B - 翻译模型的训练语料处理方法、装置、设备和存储介质 - Google Patents
翻译模型的训练语料处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113761944B CN113761944B CN202110553522.4A CN202110553522A CN113761944B CN 113761944 B CN113761944 B CN 113761944B CN 202110553522 A CN202110553522 A CN 202110553522A CN 113761944 B CN113761944 B CN 113761944B
- Authority
- CN
- China
- Prior art keywords
- parallel
- sentence
- quality
- original
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 274
- 238000003672 processing method Methods 0.000 title abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 448
- 238000001914 filtration Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000012216 screening Methods 0.000 claims abstract description 44
- 230000000873 masking effect Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 17
- 238000003058 natural language processing Methods 0.000 abstract description 10
- 230000014616 translation Effects 0.000 description 243
- 230000000875 corresponding effect Effects 0.000 description 220
- 238000013528 artificial neural network Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000010606 normalization Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种翻译模型的训练语料处理方法、装置、设备和存储介质。所述方法涉及自然语言处理技术领域,所述包括:获取用于训练翻译模型的原始训练语料;获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得原始训练语料中各平行语句所对应的质量评分,根据质量评分对原始训练语料进行过滤获得高质量训练语料,每组通用语言模型的模型结构不同;通过训练好的目标领域语言模型与通用领域语言模型,获得高质量训练语料中各平行语句所对应的领域评分,根据领域评分从高质量训练语料中筛选出目标领域的高质量训练语料。采用本方法能够在保证高质量的基础上筛选目标领域的语料,从而使得获得的语料能够极大提升翻译模型的翻译性能。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种翻译模型的训练语料处理方法、装置、计算机设备和存储介质。
背景技术
目前,神经网络已广泛应用于人工智能技术领域,包括语音识别、计算机视觉、自然语言处理等等,神经网络模型在自然语言处理的多种任务中表现出色,例如机器翻译任务。在机器翻译任务中,随着近几年翻译语料的规模不断增加,翻译模型的性能在早期有较明显的提升,这表明大规模语料对翻译模型的训练发挥了非常大的作用,然而后期使用更大规模的语料对翻译模型进行训练,翻译模型也无法得到更大的性能提升。
发明人经过研究后发现这其中有两方面的原因:1)大规模语料中语句质量参差不齐、噪音数据较多;2)大规模语料中来自不同领域的翻译语料之间有着分布上的差异,大规模语料的领域分布不均。
目前,仅有一些利用人工规则对大规模语料进行清洗或是利用单个语言模型对大规模语料进行单一质量方面过滤的方式,这些方式对大规模语料的处理不够全面,导致获得的语料仍然存在翻译性能无法提升的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种翻译模型的训练语料处理方法、装置、计算机设备和存储介质,能够保证获得高质量训练语料的同时,获得供目标领域的翻译模型进行模型训练的训练语料,从而提升目标领域翻译模型的性能。
一种翻译模型的训练语料处理方法,所述方法包括:
获取用于训练翻译模型的原始训练语料;
获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,根据所述质量评分对所述原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;
通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据所述领域评分从所述满足预设质量条件的训练语料中筛选出属于目标领域且满足预设质量条件的训练语料,所述目标领域语言模型与通用领域语言模型的模型结构相同;
其中,筛选出的训练语料,用于对所述翻译模型进行模型训练后,获得所述目标领域的翻译模型。
一种翻译模型的训练语料处理装置,所述装置包括:
语料获取模块,用于获取用于训练翻译模型的原始训练语料;
质量过滤模块,用于获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,根据所述质量评分对所述原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;
领域筛选模块,用于通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据所述领域评分从所述满足预设质量条件的训练语料中筛选出属于目标领域且满足预设质量条件的训练语料,所述目标领域语言模型与通用领域语言模型的模型结构相同;其中,筛选出的训练语料,用于对所述翻译模型进行模型训练后,获得所述目标领域的翻译模型。
在一个实施例中,所述质量过滤模块还用于通过每组通用语言模型,分别对所述原始训练语料中各平行语句中的原文语句与译文语句进行评分,分别获得所述平行语句对应每组通用语言模型的原文质量评分与译文质量评分;融合各所述平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各所述平行语句所对应的质量评分。
在一个实施例中,所述质量过滤模块包括原文评分单元和译文评分单元;
所述原文评分单元用于通过每组通用语言模型中的原文语言模型,分别对原始训练语料中各平行语句中的原文语句进行评分,分别获得所述平行语句的原文质量评分;
所述译文评分单元用于通过每组通用语言模型中的译文语言模型,分别对原始训练语料中各平行语句中的译文语句进行评分,分别获得所述平行语句的译文质量评分。
在一个实施例中,所述质量过滤模块还用于根据同组通用语言模型获得的所述原始训练语料中各平行语句的原文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的原文质量评分进行归一化处理,获得归一化原文质量评分;根据同组通用语言模型获得的所述原始训练语料中各平行语句的译文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的译文质量评分进行归一化处理,获得归一化译文质量评分;融合各所述平行语句对应每组通用语言模型的归一化原文质量评分和归一化译文质量评分,获得各所述平行语句所对应的质量评分。
在一个实施例中,所述质量过滤模块还用于对每组通用语言模型的原文质量评分和译文质量评分求和,获得组级评分;获取每组通用语言模型对应的加权系数;基于每组通用语言模型对应的加权系数,对所述平行语句对应每组通用语言模型的组级评分进行加权求和,获得所述平行语句所对应的质量评分。
在一个实施例中,当所述通用语言模型为基于高质量语料获得的统计语言模型时,所述质量过滤模块还用于依次从所述原始训练语料中获取平行语句;将所述平行语句中的原文语句输入原文的统计语言模型,通过所述原文的统计语言模型,基于所述原文语句中各个词对应的条件频数,获得所述平行语句的原文质量评分;将所述平行语句中的译文语句输入译文的统计语言模型,通过所述译文的统计语言模型,基于所述译文语句中各个词对应的条件频数,获得所述平行语句的译文质量评分;融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述统计语言模型的质量评分。
在一个实施例中,当所述通用语言模型为自回归语言模型时,所述质量过滤模块还用于依次从所述原始训练语料中获取平行语句;将所述平行语句中的原文语句输入原文的自回归语言模型,通过所述原文的自回归语言模型预测所述原文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得所述平行语句的原文质量评分;将所述平行语句中的译文语句输入译文的自回归语言模型,通过所述译文的自回归语言模型预测所述译文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得所述平行语句的译文质量评分;融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述自回归语言模型的质量评分。
在一个实施例中,当所述通用语言模型为自编码语言模型时,所述质量过滤模块还用于依次从所述原始训练语料中获取平行语句;依次将所述平行语句的原文语句中每个词作为遮掩词,将遮掩后的原文语句输入原文的自编码语言模型,通过所述原文的自编码语言模型输出遮掩词对应的预测概率,根据每个遮掩词所对应的预测概率,获得所述平行语句的原文质量评分;依次将所述平行语句的译文语句中每个词作为遮掩词,将遮掩后的译文语句输入译文的自编码语言模型,通过所述译文的自编码语言模型输出遮掩词对应的预测概率,根据每个遮掩词所对应的预测概率,获得所述平行语句的译文质量评分;融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述自编码语言模型的质量评分。
在一个实施例中,所述领域筛选模块还用于通过原文的目标领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得所述平行语句对应的第一领域评分;通过原文的通用领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得所述平行语句对应的第二领域评分;根据各所述平行语句对应的第一领域评分与所述第二领域评分之间的差异,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分。
在一个实施例中,所述领域筛选模块还用于通过译文的目标领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得所述平行语句对应的第三领域评分;通过译文的通用领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得所述平行语句对应的第四领域评分;根据各所述平行语句对应的第三领域评分与所述第四领域评分之间的差异,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分。
在一个实施例中,所述领域筛选模块还用于通过原文的目标领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得所述平行语句对应的第一领域评分;通过原文的通用领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得所述平行语句对应的第二领域评分;通过译文的目标领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得所述平行语句对应的第三领域评分;通过译文的通用领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得所述平行语句对应的第四领域评分;融合各所述平行语句对应的第一领域评分与所述第二领域评分之间的差异、第三领域评分与所述第四领域评分之间的差异,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分。
在一个实施例中,所述装置还包括:
第一训练模块,用于获取目标领域的平行语料,使用所述目标领域的平行语料对待训练语言模型进行模型训练,获得所述目标领域语言模型;
第二训练模块,用于对所述满足预设质量条件的训练语料进行采样获得采样语料,使用所述采样语料对所述待训练语言模型进行模型训练,获得所述通用领域语言模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用于训练翻译模型的原始训练语料;
获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,根据所述质量评分对所述原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;
通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据所述领域评分从所述满足预设质量条件的训练语料中筛选出属于目标领域且满足预设质量条件的训练语料,所述目标领域语言模型与通用领域语言模型的模型结构相同;
其中,筛选出的所述目标领域的、且满足预设质量条件的训练语料,用于对所述翻译模型进行模型训练后,获得所述目标领域的翻译模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取用于训练翻译模型的原始训练语料;
获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,根据所述质量评分对所述原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;
通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据所述领域评分从所述满足预设质量条件的训练语料中筛选出属于目标领域且满足预设质量条件的训练语料,所述目标领域语言模型与通用领域语言模型的模型结构相同;
其中,筛选出的训练语料,用于对所述翻译模型进行模型训练后,获得所述目标领域的翻译模型。
一种计算机程序,所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述翻译模型的训练语料处理方法的步骤。
上述翻译模型的训练语料处理方法、装置、计算机设备和存储介质,使用至少两组训练好的通用语言模型,对原始训练语料中各平行语句进行混合评分,与基于单一语言模型的质量过滤相比,由于每组通用语言模型的模型结构不同,集成多组语言模型能够从不同的角度全面地对平行语句进行评分,保证能够从原始训练语料中过滤出满足预设质量条件的训练语料,即高质量训练语料;进一步地,在此基础上,通过训练好的目标领域语言模型与通用领域语言模型获得高质量训练语料中平行语句对应的领域评分,实现从高质量训练语料中进一步筛选出符合属于目标领域且满足预设质量条件的训练语料,可供目标领域的翻译模型进行模型训练,相比于基于单一质量方面的过滤,可以保证高质量的基础上筛选目标领域的语料,从而使得获得的语料能够极大提升翻译模型的翻译性能;此外,通过这样一种先进行高质量方面的评分,再在高质量的基础上筛选目标领域的训练语料的流程化设置,相比于直接对原始训练语料进行质量和领域方面混合评分,能够极大程度保证输出语料是高质量同时最为接近目标领域的。
附图说明
图1为一个实施例中翻译模型的训练语料处理方法的应用环境图;
图2为一个实施例中翻译模型的性能随训练语料的规模变化的示意图;
图3为一个实施例中翻译模型的训练语料处理方法的流程示意图;
图4为一个实施例中翻译模型的训练语料处理流程的示意图;
图5为一个实施例中获得原始训练语料中各平行语句所对应的质量评分的流程示意图;
图6为一个实施例中获得平行语句对应每组通用语言模型的原文质量评分与译文质量评分的流程示意图;
图7为一个实施例中融合各平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各平行语句所对应的质量评分的流程示意图;
图8为一个实施例中质量过滤的流程示意图;
图9为另一个实施例中融合各平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各平行语句所对应的质量评分的流程示意图;
图10为一个实施例中通过统计语言模型获得原始训练语料中各平行语句所对应的质量评分的流程示意图;
图11为一个实施例中通过自回归语言模型获得原始训练语料中各平行语句所对应的质量评分的流程示意图;
图12为一个实施例中通过自编码语言模型获得原始训练语料中各平行语句所对应的质量评分的流程示意图;
图13为一个实施例中获得满足预设质量条件的训练语料中各平行语句所对应的领域评分的流程示意图;
图14为一个实施例中对满足预设质量条件的训练语料进行领域筛选的示意图;
图15为一个实施例中翻译模型的训练语料处理装置的结构框图;
图16为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在介绍本申请实施例之前,对本申请实施例涉及的一些名词解释如下:
深度学习(Deep Learning,简称DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。
神经网络(Neural Network,简称NN):在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。
机器翻译(Machine Translation,简称MT):利用电子计算机等装置自动地把一种语言文字译成另一种语言文字。
统计机器翻译:(Statistical Machine Translation,SMT):基于传统的统计方法的机器翻译技术。在神经网络方法出现之前,机器翻译主要是基于统计模型的翻译模型。
神经网络机器翻译(Neural Machine Translation,简称NMT):最新一代基于神经网络的机器翻译技术。
循环神经网络(Recurrent Neural Network,简称RNN):一种将序列建模转变为时序建模的网络模型,它将状态在自身网络中循环传递。
自关注神经网络(Self-Attention Network,简称SAN):基于自关注机制的神经网络结构模型。
卷积神经网络(Convolutional Neural Network,简称CNN):由一个或多个卷积层和顶端的全连通层组成,同时也包括关联权重和池化层。
注意力机制(Attention Mechanism):一种建模神经网络中编码器与解码器隐藏状态依赖关系的方法。
BLEU(Bilingual Evaluation Understudy):机器翻译评测指标,值越高表示翻译效果越好。
RNNsearch:基于RNN的编码器-解码器框架。
LightConv:基于CNN的编码器-解码器框架。
Transformer:基于SAN网络的编码器-解码器框架,是目前最主流的序列到序列生成(sequence-to-sequence generation)的模型结构。
平行语料库(parallel corpora):是由原文文本及其平行对应的译语文本构成的双语/多语语料库,其对齐程度可有词级、句级、段级和篇级几种,原文文本与译文文本构成的语句对,可以称之为平行语句,大量的平行语句构成平行语料。
语言模型(Language Model,LM):是使用各种统计和概率技术来确定给定词语在句子中出现的概率。语言模型通过分析文本数据的主体,为它们的单词预测提供基础。通俗的讲,语言模型能够从语法上判断语句是否通顺。
Masked LM(Mask Language Model):是一种为了避免词语“看到自己”,而同时利用双侧上下文的信息,随机遮挡输入序列的部分词语并预测这些被遮挡起来的词语的语言模型。
N-Gram LM(N-Gram Language Model):一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。
Transformer LM(Transformer Language Model):Transformer基于SAN网络的编码器-解码器框架,是目前最主流的序列到序列生成(sequence-to-sequence generation)的神经网络模型结构。Transformer LM是利用Transformer模型来统计和分析句子的语言模型。
BERT(Bidirectional Encoder Representations from Transformers):一种预训练神经网络模型,旨在通过考虑所有层中的双侧上下文信息来得到深度的双向表示。
PPL(Perplexity,困惑度):可以用来测量一个语言模型预测样本句子好坏的指标,困惑度越低则表明句子概率越大。
本申请实施例提供的翻译模型的训练语料处理方法,涉及人工智能(ArtificialIntelligence,AI)技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的翻译模型的训练语料处理方法,主要涉及人工智能的自然语言处理(Nature Language processing,NLP)技术,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的翻译模型的训练语料处理方法,主要涉及自然语言处理技术的机器翻译(Machine Translation)技术,机器翻译利用计算机设备自动地把一种语言文字翻译成另一种语言文字。例如,本申请实施例中,利用训练好的语言模型(LanguageModel,LM)对平行语句进行质量评分。又例如,本申请实施例中,对原始训练语料进行质量过滤与领域筛选获得目标领域的、且满足预设质量条件的训练语料后,可以基于该目标领域的、且满足预设质量条件的训练语料对翻译模型进行训练,获得用于对目标领域的文本进行翻译的翻译模型。
本申请提供的翻译模型的训练语料处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。各个终端102可以从网络爬取训练语料,搜集到大规模的用于训练翻译模型的原始训练语料后,服务器104可以获取该原始训练语料;获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得原始训练语料中各平行语句所对应的质量评分,根据质量评分对原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;通过训练好的目标领域语言模型与通用领域语言模型,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据领域评分从满足预设质量条件的训练语料中筛选出目标领域的、且满足预设质量条件的训练语料,目标领域语言模型与通用领域语言模型的模型结构相同。可选地,服务器104还可以基于筛选出的目标领域的、且满足预设质量条件的训练语料,对翻译模型进行模型训练,获得用于对目标领域的文本进行翻译的翻译模型。
在一些实施例中,可以由终端102在获取到原始训练语料后,直接执行本申请实施例提供的翻译模型的训练语料处理方法,获得目标领域的、且满足预设质量条件的训练语料。在一些实施例中,可以由终端102基于筛选出的目标领域的、且满足预设质量条件的训练语料,对翻译模型进行模型训练,获得用于对目标领域的文本进行翻译的翻译模型。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一些实施例中,服务器104可以是区块链网络中的区块链节点,筛选出的目标领域的、且满足预设质量条件的训练语料可以存储在该区块链节点之上。
不管是前文所提到的基于统计学的统计机器翻译,还是基于神经网络的神经机器翻译,均是数据驱动型模型,也就是翻译模型的性能与训练语料存在密切的联系。例如,经过发明人研究发现,近几年,基于深度学习的翻译模型在进行模型训练时用到的训练语料的规模也迅速增大,图2所示的是2016-2021年某个神经网络翻译模型的性能随训练语料的规模变化的示意图。由此可见,随着数据规模增加,翻译模型在早期提升明显,这表明基于大规模语料对神经网络机器翻译模型的性能提升发挥了非常大的作用,但后期即使增加更大规模语料也无法使翻译模型得到更大的性能提升。
发明人经过研究后发现这其中有两方面的原因:1)大规模语料中语句质量参差不齐、噪音数据较多。因为大规模的平行语料许多来源于网站上,在大批量获取相关语料时,难免夹杂着许多噪音,而这些数据噪音会导致模型在训练的过程中很难学习到正确的语义表征知识。2)大规模语料中来自不同领域的翻译语料之间有着分布上的差异,大规模语料的领域分布不均。机器翻译的准确性在一定程度上依赖于领域的分布,而来自不同领域的翻译语料之间有着分布上的差异,混杂一起,模型的学习不同领域特征时会相互干扰。
也就是说,提升训练语料的规模已经难以保证更好的模型,需要在扩充语料的同时保证语料中的数据质量。发明人提供了本申请实施例的翻译模型的训练语料处理方法,对原始训练语料进行质量过滤与领域筛选,获得高质量的目标领域的训练语料后再进行机器翻译模型的训练,可以使用更少的训练语料达到更好的翻译性能,节约资源浪费和训练代价;还可以通过过滤训练语料中的噪音,进一步提高翻译***性能;还可以通过调整训练语料的领域分布,获得性能更好的翻译模型。
在一个实施例中,如图3所示,提供了一种翻译模型的训练语料处理方法,以该方法应用于图1中的计算机设备(终端102或服务器104)为例进行说明,包括以下步骤:
步骤302,获取用于训练翻译模型的原始训练语料。
其中,翻译模型是通过计算机算法将一种语言文字翻译成另一种或另外多种语言文字的算法。待训练的翻译模型可以是基于统计学的统计翻译模型,也可以是基于神经网络的神经网络翻译模型。统计翻译模型例如可以是N-Gram LM。神经网络翻译模型例如可以是基于编码器-解码器框架的Transformer模型,Transformer模型可以是基于循环神经网络、卷积神经网络(CNN)或自关注神经网络来具体实现。用于训练翻译模型的原始训练语料可以是未做语料过滤或筛选处理的训练语料,原始训练语料也可以是先利用一些人为规则进行简单的人工筛选过的训练语料,例如通过正则表达式针对性的进行过滤后得到的训练语料。
为了训练翻译模型,计算机设备需要获取原始训练语料。原始训练语料可以是平行语料库中某一种语言的单语语料。例如,当计算机设备仅需要对平行语料库中的原文语料进行处理时,可以获取平行语料库中的原始原文语料,后续对该原始原文语料进行质量过滤与领域筛选,获得高质量的目标领域的原文语料。又例如,当计算机设备仅需要对平行语料库中的译文语料进行处理时,可以获取平行语料库中的原始译文语料,后续对该原始译文语料进行质量过滤与领域筛选,获得高质量的目标领域的译文语料。当然,计算机设备获取的原始训练语料还可以是平行语料库中的原始原文语料及其平行对应的原始译文语料,同时对其进行处理,获得高质量的目标领域的训练语料。其中,平行语料可以是双语语料,还可以是多语语料,本申请实施例主要以双语语料为主进行说明。计算机设备可以从一些平行语料数据库中获取用于训练翻译模型的原始训练语料。
步骤304,获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得原始训练语料中各平行语句所对应的质量评分,根据质量评分对原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同。
其中,训练好的通用语言模型,是利用通用训练语料进行模型训练得到的语言模型,通用语言模型相比于采用目标领域的训练语料进行模型训练得到的针对目标领域的语言模型而言,更为通用,针对性没有那么强。之所以先采用通用语言模型,是因为步骤304主要是为了提升训练语料的质量,先保证高质量的语料,再在高质量的基础上,利用后续的步骤306进行领域筛选,使得训练语料具有与任务相关性更强的领域性,这种流程化的设置,相比于直接对原始训练语料进行质量和领域方面混合评分后加权,能够极大程度保证输出语料是高质量同时最为接近目标领域的,避免输出的语料领域性强而参杂许多低质量语料的情况。
计算机设备获取的至少两组训练好的用于质量过滤的通用语言模型,可以包括统计语言模型,统计语言模型是从概率统计角度出发,描述词、语句乃至于整个文档这些不同的语法单元的概率分布的模型,能够用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。例如N-Gram,N-Gram是基于马尔科夫假设假设实现的,也就是文本中第T个词仅仅跟前面n-1个有限的词相关,根据N的取值不同,又可以分为一元语言模型(Uni-gram)、二元语言模型(Bi-gram)、三元语言模型(Tri-gram)。统计语言模型可以是基于N-Gram实现的Ken-LM,是一个C++编写的以更快的速度、更小的内存基于n-gram建立的语言模型。
计算机设备获取的至少两组训练好的用于质量过滤的通用语言模型,可以包括神经网络语言模型,神经网络语言模型可以是自回归语言模型(Autoregressive LanguageModel)或自编码语言模型(Autoencoder LM)。自回归语言模型利用自主学习方式(Autonomous Learner Model)从左到右或自右向左逐个预测语句中每个词出现的概率,也就是根据上文或下文来预测下一个词,自回归语言模型例如单向Transformer的GPT,或是拼接两个上文和下文LSTM的变形自回归语言模型。自编码语言模型能够把上下文信息融合到模型中,也就是利用当前位置的上下文信息预测当前位置的词,例如Bert-LM。
在一些实施例中,计算机设备获取的至少两组不同模型结构的通用语言模型,可以包括统计语言模型、自回归模型和自编码模型中的至少两种,可以是两种,可以是三种或三种以上。由于每组通用语言模型的模型结构不同,集成多组语言模型能够从不同的角度全面地对平行语句进行评分,保证能够从原始训练语料中过滤出满足预设质量条件的训练语料,即高质量训练语料。例如,第一组训练好的通用语言模型采用统计语言模型,第二组训练好的通用语言模型采用自回归语言模型,第三组训练好的通用语言模型采用自编码语言模型。由于不同的语言模型有不同的特点,对句子的评分也有不同的侧重点,如果仅使用单一的语言模型对句子进行评分是不够全面的。例如,仅使用Bert-LM对语料进行评分,针对一些未登录词Bert-LM不能很好地对其进行评分,一些偏僻词在Bert-LM的处理中都视为未登录词,因此不能很好的对这种情况进行评分,一些相对更符合训练要求的句子会因此而损失;而N-Gram模型就可以缓解这样的问题,因此更需要集成多种模型对训练语料进行混合评分过滤。
在一些实施例中,计算机设备获取的至少两组不同模型结构的通用语言模型,可以是相同类型的语言模型,但采用不同的训练方法得到。例如,第一组训练好的通用语言模型的模型结构采用统计语言模型N-Gram,其中N取值5;第二组训练好的通用语言模型的模型结构也采用统计语言模型N-Gram,其中N取值7;第三组训练好的通用语言模型的模型结构采用基于神经网络语言模型实现,可以是自回归语言模型,也可以是自编码语言模型。显然第一组与第二组模型的模型结构虽然相同,但训练方式略有差异,由于训练方式略有差异,其模型对句子的评分能力也是有差异的,集成这两种模型对语料进行混合打分,也能在一定程度上实现混合、全面打分的效果。
在一些实施例中,计算机设备可以直接获取训练好的通用语言模型,也可以采用一些训练语料自行训练得到这些通用语言模型。
计算机设备在获取到至少两组训练好的通用语言模型后,通过每组通用语言模型对原始训练语料中各平行语句进行评分,获得各平行语句所对应的质量评分。可选地,计算机设备可以只对原始训练语料中各平行语句中的原文语句进行评分,将原文语句对应的评分作为各平行语句对应的质量评分,根据该质量评分对原始训练语料进行质量过滤。可选地,计算机设备可以只对原始训练语料中各平行语句中的译文语句进行评分,将原文语句对应的评分作为各平行语句对应的质量评分,根据该质量评分对原始训练语料进行质量过滤。可选地,计算机设备可以对原始训练语料中各平行语句中的原文语句以及译文语句分别进行评分,获得各平行语句对应的质量评分,根据该质量评分对原始训练语料进行质量过滤。
可以理解,计算机设备对原始训练语料中各平行语句中的原文语句及译文语句分别进行评分获得各平行语句对应的质量评分时,计算机设备获取的至少两组训练好的通用语言模型中,每组通用语言模型需要包括模型结构相同的原文语言模型与译文语言模型。例如,第一组训练好的通用语言模型包括原文的统计语言模型和译文的统计语言模型,第二组训练好的通用语言模型包括原文的自回归语言模型和译文的自回归语言模型,第三组训练好的通用语言模型包括原文的自编码语言模型和译文的自编码语言模型。
若计算机设备只需要通过对原始训练语料中各平行语句中的原文语句或译文语句进行评分实现质量过滤时,计算机设备获取的至少两组训练好的通用语言模型中,每组通用语言模型就只需要包括原文语言模型或译文语言模型。例如,第一组通用语言模型为原文的统计语言模型,第二组通用语言模型为原文的自回归语言模型,第三组通用语言模型为原文的自编码语言模型。又例如,第一组通用语言模型为译文的统计语言模型,第二组通用语言模型为译文的自回归语言模型,第三组通用语言模型为译文的自编码语言模型。
由于计算机设备获取的至少两组通用语言模型是训练好的语言模型,具备确定哪个词序列的可能性更大,或者具备给定上文、下文或上下文的若干个词来预测下一个最可能出现的词语的能力,预测的下一个词出现的可能性在一定程度上能够表征语句的通顺程度,也就是质量好坏,就可以将这种可能性看作衡量语句质量的指标,也就是作为质量评分。若预测平行语句中每个词出现的可能性越大,那么该语句就越通顺,这样就能够依据质量评分从原始训练语料中过滤出满足预设质量条件的训练语料,即高质量训练语料。其中,预设质量条件是预设的用于从原始训练语料中确定高质量训练语料的过滤条件,可以根据实际需要进行设置。例如,预设质量条件可以是质量评分的排名大于预设阈值,还可以是质量评分大于预设阈值,也可以是质量评分的排名百分比大于预设阈值,等等。具体地,计算机设备可以在获得原始训练语料中各平行语句的质量评分后,按照质量评分和预设质量条件,从原始训练语料中过滤出高质量训练语料。例如,计算机设备可以将质量评分排名靠前M的语句作为高质量训练语料,M可以是百分比,也可以是排序序号,计算机设备也可以将质量评分高于N的语句作为高质量训练语料,N可以是预设阈值。
步骤306,通过训练好的目标领域语言模型与通用领域语言模型,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据领域评分从满足预设质量条件的训练语料中筛选出目标领域的、且满足预设质量条件的训练语料,目标领域语言模型与通用领域语言模型的模型结构相同。
目前一些语料过滤方法都是基于单一模型进行质量方面的过滤,而发明人认为,翻译需要同时保证质量和领域。计算机设备为了能够在保证高质量数据的基础上,筛选特定领域数据供特定领域的模型训练,在通过第一步的质量过滤获得高质量训练语料后,计算机设备需要获取目标领域语言模型与通用领域语言模型,通过目标领域语言模型与通用领域语言模型进一步筛选出目标领域的高质量训练语料。
其中,目标领域语言模型是利用目标领域的训练语料训练得到的语言模型,目标领域例如新闻领域、金融领域、医学领域、计算机技术领域等等。通用领域语言模型相比于目标领域语言模型,是更为通用领域相关性没有那么强的语言模型。目标领域语言模型与通用领域语言模型的模型结构相同,计算机设备可以将质量过滤后得到的满足预设质量条件的训练语料分别输入目标领域语言模型与通用领域语言模型,根据目标领域语言模型与通用领域语言模型输出之间的差异获得领域评分,根据领域评分从满足预设质量条件的训练语料中筛选出目标领域相关性更强的训练语料,也就是目标领域的、且满足预设质量条件的训练语料。
目标领域语言模型与通用领域语言模型的模型结构相同。例如,目标领域语言模型与通用领域语言模型可以均是统计语言模型,也可以均是自回归语言模型,还可以均是自编码语言模型。
可选地,目标领域语言模型可以包括原文的目标领域语言模型与译文的目标领域语言模型,相应地,通用领域语言模型可以包括原文的通用领域语言模型与译文的通用领域语言模型。例如,目标领域语言模型包括使用目标领域的原文进行模型训练得到的原文的统计语言模型,还包括使用目标领域的译文进行模型训练得到的译文的统计语言模型,通用领域语言模型也包括原文的统计语言模型与译文的统计语言模型。
可选地,由于上个步骤已经从原始训练语料中筛选出高质量训练语料,可以认为高质量训练语料中平行语句的原文与译文都是高质量训练语料,那么当前步骤就只需要以领域相关性为目标进行二次筛选即可,因此,目标领域语言模型可以仅包括原文的目标领域语言模型,相应地,通用领域语言模型可以仅包括原文的通用领域语言模型,计算机设备利用原文的目标领域语言模型与通用领域语言模型获得高质量训练语料中各平行语句中原文语句所对应的领域评分,作为各平行语句所对应的领域评分。例如,目标领域语言模型为原文的统计语言模型,通用领域语言模型为原文的统计语言模型。
可选地,目标领域语言模型可以仅包括译文的目标领域语言模型,相应地,通用领域语言模型可以仅包括译文的通用领域语言模型,计算机设备利用原文的目标领域语言模型与通用领域语言模型获得满足预设质量条件的训练语料中各平行语句中译文语句所对应的领域评分,作为各平行语句所对应的领域评分。例如,目标领域语言模型为译文的统计语言模型,通用领域语言模型为译文的统计语言模型。
在一些实施例中,借鉴质量过滤时集成多个模型进行质量过滤的思路,计算机设备也可以集成多个模型进行领域筛选,以实现全面地获得每个语句的领域相关性,从而提高从高质量语料中筛选目标领域的训练语料的准确性。例如,训练好的目标领域语言模型与通用领域语言模型包括两组,第一组包括原文的目标领域统计语言模型、原文的通用领域统计语言模型,第二组包括原文的目标领域自回归语言模型与原文的通用领域自回归语言模型。又例如,第一组包括为原文的目标领域统计语言模型、译文的目标领域统计语言模型、原文的通用领域统计语言模型与原文的通用领域统计语言模型,第二组包括原文的目标领域自回归语言模型、译文的目标领域自回归语言模型、原文的通用领域统计自回归语言模型与原文的通用领域自回归语言模型。
计算机设备利用两组或两组以上的目标领域语言模型与通用领域语言模型对高质量语料中各平行语句进行集成、混合的领域筛选,获得各平行语句对应每组模型的评分后再融合每组模型对应的评分,获得各平行语句最终的领域评分。计算机设备按照集成评分后的领域评分从满足预设质量条件的训练语料中筛选出目标领域的、且满足预设质量条件的训练语料。
由于计算机设备获取的训练好的目标领域语言模型与通用领域语言模型是训练好的语言模型,并且模型结构相同,均具备确定哪个词序列的可能性更大,或者具备给定上文、下文或上下文的若干个词来预测下一个最可能出现的词语的能力。其中,目标领域语言模型是使用目标领域语料训练得到的语言模型,其预测能力具有一定的领域相关性,通用领域语言模型的预测能力具备较弱的领域相关性,若目标领域语言模型预测的可能性与通用领域语言模型预测的可能性之间的差异越小,说明该语句与目标领域的相关性越大,反之,差异越大,说明该语句与目标领域的相关性越小,故而基于这种构思,计算机设备可以将这种差异性获得训练语料的领域评分。计算机设备可以在获得满足预设质量条件的训练语料中各平行语句的领域评分后,按照领域评分从满足预设质量条件的训练语料中过滤出目标领域的、且满足预设质量条件的训练语料。例如,计算机设备可以将领域评分排名靠前M的语句作为目标领域的、且满足预设质量条件的训练语料,M可以是百分比,也可以是排序序号,计算机设备也可以将领域评分高于N的语句作为目标领域的、且满足预设质量条件的训练语料,N可以是预设阈值。
在一个实施例中,上述方法还包括:获取目标领域的平行语料,使用目标领域的平行语料对待训练语言模型进行模型训练,获得目标领域语言模型;对满足预设质量条件的训练语料进行采样获得采样语料,使用采样语料对待训练语言模型进行模型训练,获得通用领域语言模型。
具体地,计算机设备可以获取目标领域的平行语料,使用目标领域的平行语料对构建的语言模型进行模型训练,获得目标领域语言模型。同时,计算机设备可以对待进行领域筛选的全体高质量的训练语料进行采样获得采样语料,使用该采样语料对构建的相同模型结构的语言模型进行模型训练,获得通用领域语言模型。其中,计算机设备可以通过爬虫或者其他的方式获取目标领域的平行语料,例如新闻领域、金融领域等等特定领域的语料。当然,通用领域语言模型也可以是通过其他渠道获取的领域相关性较弱的训练语料进行模型训练得到的。
可选地,当计算机设备仅需要使用原文的目标领域语言模型与通用领域语言模型获得领域评分时,计算机设备可以仅使用目标领域的平行语料中的原文语句对构建的语言模型进行模型训练,获得原文的目标领域语言模型,同时,计算机设备仅使用采样语料中的原文语句对构建的语言模型进行模型训练,获得原文的通用领域语言模型。可选地,当计算机设备仅需要使用译文的目标领域语言模型与通用领域语言模型获得领域评分时,计算机设备可以仅使用目标领域的平行语料中的译文语句对构建的语言模型进行模型训练,获得译文的目标领域语言模型,同时,计算机设备仅使用采样语料中的译文语句对构建的语言模型进行模型训练,获得译文的通用领域语言模型。
如图4所示,为一个实施例中翻译模型的训练语料处理流程的示意图。参照图4,原始训练语料经过至少两组通用语言模型进行混合评分后获得各平行语句对应的质量评分,根据质量评分进行过滤获得满足预设质量条件的训练语料,再利用训练好的目标领域语言模型与通用领域语言模型对满足预设质量条件的训练语料进行领域评分,按照领域评分筛选出目标领域的、且满足预设质量条件的训练语料。
计算机设备获得目标领域的、且满足预设质量条件的训练语料后,就可以使用该语料对翻译模型进行模型训练,获得用于对目标领域的文本进行翻译的翻译模型。
上述翻译模型的训练语料处理方法,使用至少两组训练好的通用语言模型,对原始训练语料中各平行语句进行混合评分,与基于单一语言模型的质量过滤相比,由于每组通用语言模型的模型结构不同,集成多组语言模型能够从不同的角度全面地对平行语句进行评分,保证能够从原始训练语料中过滤出满足预设质量条件的训练语料;进一步地,在此基础上,通过训练好的目标领域语言模型与通用领域语言模型获得满足预设质量条件的训练语料中平行语句对应的领域评分,实现从满足预设质量条件的训练语料中进一步筛选出符合目标领域的、且满足预设质量条件的训练语料,可供目标领域的翻译模型进行模型训练,相比于基于单一质量方面的过滤,可以保证高质量的基础上筛选目标领域的语料,从而使得获得的语料能够极大提升翻译模型的翻译性能;此外,通过这样一种先进行高质量方面的评分,再在高质量的基础上筛选目标领域的训练语料的流程化设置,相比于直接对原始训练语料进行质量和领域方面混合评分,能够极大程度保证输出语料是高质量同时最为接近目标领域的。
在一个实施例中,如图5所示,通过每组通用语言模型,获得原始训练语料中各平行语句所对应的质量评分,包括:
步骤502,通过每组通用语言模型,分别对原始训练语料中各平行语句中的原文语句与译文语句进行评分,分别获得平行语句对应每组通用语言模型的原文质量评分与译文质量评分。
本实施例中,每组通用语言模型包括原文的语言模型与译文的语言模型,原文的语言模型对原始训练语料中各平行语句中的原文语句进行评分,获得对应的原文质量评分,译文的语言模型对原始训练语料中各平行语句中的译文语句进行评分,获得对应的译文质量评分。计算机设备照这样的方式,不仅集成多个语言模型对平行语句进行评分,还结合原文与译文共同对平行语句进行评分,获得原始训练语料中各平行语句对应的每组通用语言模型的原文质量评分与译文质量评分,可进一步保证平行语句在两侧都是高质量的。
步骤504,融合各平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各平行语句所对应的质量评分。
本实施例中,通过对原始训练语料中各平行语句使用多种模型进行混合评分,与基于单一语言模型的质量过滤相比,由于每组通用语言模型的模型结构不同,集成多组语言模型能够从不同的角度全面地对平行语句进行评分,保证能够从原始训练语料中过滤出高质量训练语料。
在一个实施例中,如图6所示,步骤502包括:
步骤602,通过每组通用语言模型中的原文语言模型,分别对原始训练语料中各平行语句中的原文语句进行评分,分别获得平行语句的原文质量评分。
其中,每组通用语言模型包括原文语言模型。每个原文语言模型都需要对原始训练语料中各平行语句中的原文语句进行评分,分别获得该平行语句对应每个原文语言模型的原文质量评分。也就是说,每组通用语言模型中的模型结构不同的原文语言模型都需要对平行语句进行评分。
步骤604,通过每组通用语言模型中的译文语言模型,分别对原始训练语料中各平行语句中的译文语句进行评分,分别获得平行语句的译文质量评分。
其中,每组通用语言模型还包括译文语言模型。每个译文语言模型都需要对原始训练语料中各平行语句中的译文语句进行评分,分别获得该平行语句对应每个译文语言模型的译文质量评分。也就是说,每组通用语言模型中的模型结构不同的译文语言模型都需要对平行语句进行评分。
在本实施例中,每组通用语言模型都包括原文语言模型与译文语言模型,每组通用语言模型的模型结构不同,那么各组的原文语言模型的模型结构也就不同,各组的译文语言模型的模型结构也就不同,这样能够集成多种原文语言模型对原文语句进行全面打分,以及集成多种译文语言模型对译文语句进行全面打分,实现在综合两侧的评分后从原始训练语料中过滤出满足预设质量条件的训练语料。
在一个实施例中,如图7所示,504包括:
步骤702,对每组通用语言模型的原文质量评分和译文质量评分求和,获得组级评分。
具体地,计算机设备通过对平行语句对应每组通用语言模型的原文质量评分和译文质量评分进行求和,获得对应每组通用语言模型的组级评分。
可选地,计算机设备也可以对每组通用语言模型的原文质量评分和译文质量评分求均值,获得组级评分。
可以理解,无论是求和或是求均值,采用这样的融合方式,能够兼顾平行语句在原文及译文两侧的质量,也就是只有当评分之和,或者评分均值较高时,平行语句才会被作为高质量语料被过滤出来获得高质量的训练语料。
可以理解,若每组通用语言模型仅包括原文语言模型,平行语句对应的原文质量评分即为组级评分。若每组通用语言模型仅包括译文语言模型,平行语句对应的译文质量评分即为组级评分。
步骤704,获取每组通用语言模型对应的加权系数。
具体地,计算机设备可以获取设定好的对应每组通用语言模型的加权系数。每组通用语言模型对应的加权系数可以是随机设定的,也可以是人为设定的。当然,每组通用语言模型对应的加权系数的设定,也可以取决于每组通用语言模型的性能,例如,计算机设备获取的通用语言模型为三组,第一组通用语言模型的性能最好,那么其对应的加权系数最大,反之,若第一组通用语言模型的性能在三组中是最差的,那么其对应的加权系数最小。
此外,计算机设备还可以为加权系数设定限制条件,例如,每组通用语言模型对应的加权系数为λ1、λ2和λ3,在设定λ1、λ2和λ3的取值时,需满足:
λ1+λ2+λ3=0.5。
步骤706,基于每组通用语言模型对应的加权系数,对平行语句对应每组通用语言模型的组级评分进行加权求和,获得平行语句所对应的质量评分。
可以理解,若每组通用语言模型仅包括原文语言模型,计算机设备仅需要按加权系数对平行语句的原文质量评分进行加权求和,获得该平行语句所对应的质量评分。若每组通用语言模型仅包括译文语言模型,计算机设备仅需要按加权系数对平行语句的译文质量评分进行加权求和,获得该平行语句所对应的质量评分。
例如,计算机设备获取3组通用语言模型,每组通用语言模型包括原文语言模型与译文语言模型,第1组通用语言模型对平行语句的原文质量评分为S1,译文质量评分为S1*,第2组通用语言模型对平行语句的原文质量评分为S2,译文质量评分为S2*,第3组通用语言模型对平行语句的原文质量评分为S3,译文质量评分为S3*,该平行语句S对应的质量评分Q_Score可通过如下公式表示:
Q_Score=λ1×(S1+S1*)+λ2×(S2+S2*)+λ3×(S3+S3*)。
又例如,计算机设备获取3组通用语言模型,每组通用语言模型仅包括原文语言模型,该平行语句对应的质量评分Q_Score可通过如下公式表示:
Q_Score=λ1×S1+λ2×S2+λ3×S3。
又例如,计算机设备获取3组通用语言模型,每组通用语言模型仅包括译文语言模型,该平行语句对应的质量评分Q_Score可通过如下公式表示:
Q_Score=λ1×S1*+λ2×S2*+λ3×S3*。
本实施例中,通过加权系数对原文以及译文两侧的质量评分进行加权求和,得到的质量评分能够衡量平行语句在原文与译文两侧句子的质量。
如图8所示,为一个实施例中质量过滤的流程示意图。参照图8,以原始训练语料为中英双语语料、获取的通用语言模型为三组,且每组均包括原文的语言模型与译文的语言模型为例来说明:其中,第一组语言模型包括中文的统计语言模型与英文的统计语言模型,例如可以是Ken-LM,第二组语言模型包括中文的自回归语言模型与英文的自回归语言模型,例如可以是Transformer-LM,第三组语言模型包括中文的自编码语言模型与英文的自编码语言模型,例如可以是Bert-LM。通过中文的统计语言模型对平行语句中的中文进行评分,通过英文的统计语言模型对相应的英文进行评分,融合后得到该平行语句的第一组评分,以此类推,分别通过中文的自回归语言模型与英文的自回归语言模型获得该平行语句的第二组评分,分别通过中文的自编码语言模型与英文的自编码语言模型获得该平行语句的第三组评分,再利用加权器对这三组评分进行加权求和,获得该平行语句对应的质量评分。计算机设备可按照质量评分从原始训练语料中过滤出满足预设质量条件的训练语料。
在一个实施例中,如图9所示,步骤504包括:
步骤902,根据同组通用语言模型获得的原始训练语料中各平行语句的原文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的原文质量评分进行归一化处理,获得归一化原文质量评分。
由于不同模型结构的语言模型,预测的质量评分的范围可能存在不一致的情况,例如,对于第一组通用语言模型而言,预测的平行语句的质量评分如果大于80分则说明该语句质量较好,而对于第二组通用语言模型而言,预测的平行语句的质量评分如果大于0.85则说明该语句质量较好,如果直接将不同通用语言模型获得的质量评分进行加权求和,可能导致最终获得的质量评分不能客观地表示平行语句的质量。所以,在这种情况下,为了能够更合理、准确地衡量平行语句的质量,计算机设备还可以在获得每组通用语言模型预测的质量评分后,对不同通用语言模型得到的质量分数都各自做归一化处理。
具体地,对于同组通用语言模型中的原文语言模型所获得的各平行语句的原文质量评分,计算机设备可以确定其中的最高分和最低分,然后根据该最高分和最低分对该原文语言模型输出的原文质量评分进行归一化处理,获得归一化原文质量评分。
在一个实施例中,对同组通用语言模型获得的平行语句的原文质量评分进行归一化处理,获得归一化原文质量评分,可以通过如下公式实现:
其中,Si表示第i组通用语言模型获得的平行语句S的原文质量评分,Si_min表示第i组通用语言模型获得各平行语句的原文质量评分中的最低分,Si_max表示第i组通用语言模型获得各平行语句的原文质量评分中的最高分,Si'表示平行语句S的归一化原文质量评分。
步骤904,根据同组通用语言模型获得的原始训练语料中各平行语句的译文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的译文质量评分进行归一化处理,获得归一化译文质量评分。
具体地,对于同组通用语言模型中的译文语言模型所获得的各平行语句的译文质量评分,计算机设备可以确定其中的最高分和最低分,然后根据该最高分和最低分对该译文语言模型输出的译文质量评分进行归一化处理,获得归一化译文质量评分。
在一个实施例中,对同组通用语言模型获得的平行语句的译文质量评分进行归一化处理,获得归一化译文质量评分,可以通过如下公式实现:
其中,Si*表示第i组通用语言模型获得的平行语句S的译文质量评分,Si*_min表示第i组通用语言模型获得各平行语句的译文质量评分中的最低分,Si*_max表示第i组通用语言模型获得各平行语句的译文质量评分中的最高分,Si*'表示平行语句S的归一化译文质量评分。
步骤906,融合各平行语句对应每组通用语言模型的归一化原文质量评分和归一化译文质量评分,获得各平行语句所对应的质量评分。
例如,计算机设备获取3组通用语言模型,每组通用语言模型包括原文语言模型与译文语言模型,第1组通用语言模型对平行语句的原文质量评分为S1,译文质量评分为S1*,第2组通用语言模型对平行语句的原文质量评分为S2,译文质量评分为S2*,第3组通用语言模型对平行语句的原文质量评分为S3,译文质量评分为S3*,该平行语句S对应的质量评分Q_Score可通过如下公式表示:
Q_Score=λ1×(S1′+S1*′)+λ2×(S2′+S2*′)+λ3×(S3′+S3*′)。
需要说明的是,若计算机设备获取的至少两组通用语言模型中,不同组的通用语言模型所输出的质量评分的范围基本一致时,那么计算机设备无需对各原文质量评分和译文质量评分进行归一化处理,计算机设备可以直接对原文质量评分和原文质量评分进行加权求和,获得各平行语句最终的质量评分。
本实施例中,通过对各组通用语言模型输出的质量评分进行归一化处理,能够更加合理地对原始训练语料中各平行语句进行质量评分,从而提升从原始训练语料中过滤出高质量的训练语料的准确性。
下面继续对每种通用语言模型输出的质量评分的具体步骤进行介绍:
在一个实施例中,如图10所示,当通用语言模型为基于高质量语料获得的统计语言模型时,通过每组通用语言模型,获得原始训练语料中各平行语句所对应的质量评分,包括:
步骤1002,依次从原始训练语料中获取平行语句。
步骤1004,将平行语句中的原文语句输入原文的统计语言模型,通过原文的统计语言模型,基于原文语句中各个词对应的条件频数,获得平行语句的原文质量评分。
其中,原文的统计语言模型是基于原文的高质量语料获得的。计算机设备可以事先构建统计语言模型,将其在原文的高质量语料上进行统计训练,使用训练获得的原文的统计语言模型,对原始训练语料中各平行语句的原文语句进行评分,获得对应的原文质量评分。
统计语言模型基于马尔科夫假设,假设语句中第T个词出现的概率仅仅与前面已经出现的N-1个有限的词相关,那么,该语句出现的概率就是该语句中各个词出现的后验概率的乘积,也就是在已知该语句中各个词的情况下,该语句出现的概率。计算机设备可以根据统计语言模型统计得到的语句中各个词对应的条件频数,确定语句出现的概率,作为语句的质量评分。
统计语言模型采用多项式分布根据上下文来预测语句中各个词出行的概率,打分速度快,也十分简便,因此计算机设备获取的至少两组通用语言模型中,可以使用统计语言模型。
在一个实施例中,原文的统计语言模型输出的原文语句S的原文质量评分可通过以下公式计算得到:
p(wt|wt-1,wt-2,...,w1)≈p(wt|wt-1,wt-2,...,wt-N+1)。
例如,当N=3时,
其中,p(S)为原文语句S的原文质量评分,wt为原文语句S中的第t个词,p(wt|wt-1,wt-2,...,w1)表示的在已知前面第1个词至第t-1个词的前提下,下一个词wt出现的概率,其约等于在已知前面N-1个词的前提下该词出现的概率。
其中,
C表示括号内的语句序列在统计训练所使用的高质量语料中出现的次数。
步骤1006,将平行语句中的译文语句输入译文的统计语言模型,通过译文的统计语言模型,基于译文语句中各个词对应的条件频数,获得平行语句的译文质量评分。
类似地,计算机设备可以事先构建统计语言模型,将其在译文的高质量语料上进行统计训练,使用训练获得的译文的统计模型,对原始训练语料中各平行语句的译文语句进行评分,获得对应的译文质量评分。
同样地,译文的统计语言模型输出的语句S*的译文质量评分可通过以下公式计算得到:
p(wt|wt-1,wt-2,...,w1)≈p(wt|wt-1,wt-2,...,wt-N+1)。
其中,p(S*)为译文语句S*的译文质量评分,wt为译文语句S*中的第t个词,p(wt|wt-1,wt-2,...,w1)表示的在已知前面第1个词至第t-1个词的前提下,下一个词wt出现的概率,其约等于在已知前面N-1个词的前提下该词出现的概率。
步骤1008,融合各平行语句的原文质量评分与译文质量评分,获得各平行语句对应统计语言模型的质量评分。
关于统计语言模型融合原文质量评分与译文质量评分的方式,具体可以参考前文所提及到的方式,在此不再重复说明。
在一个实施例中,如图11所示,当通用语言模型为自回归语言模型时,通过每组通用语言模型,获得原始训练语料中各平行语句所对应的质量评分,包括:
步骤1102,依次从原始训练语料中获取平行语句。
步骤1104,将平行语句中的原文语句输入原文的自回归语言模型,通过原文的自回归语言模型预测原文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得平行语句的原文质量评分。
其中,原文的自回归语言模型是基于原文的训练语料进行模型训练获得的。计算机设备可以事先构建自回归语言模型,将其在原文训练语料上进行模型训练,使用训练获得的自回归语言模型,对原始训练语料中各平行语句的原文语句进行评分,获得对应的原文质量评分。
自回归模型的训练目标是预测下一个位置的词是什么,所以在训练时,需要通过遮掩手段(masking)将预测位置左边或右边的词进行遮挡,以确保模型学习到自左向右或自右向左逐个单词进行预测的能力。例如,训练语句为“我爱中国。”为使模型学习到自左向右进行预测的能力,在训练时,对于该训练语句,在预测第2个词时,需要将第2个位置右侧的“中国”和“。”进行遮掩,只根据在前的“我”来预测第2个词,在预测第3个词时,需要将第3个位置右侧的“。”进行遮掩,只根据在前的“我”、“爱”来预测第3个词。
在获得训练好的原文的自回归语言模型之后,计算机设备可将原始训练语料中各平行语句的原文语句输入原文的自回归语言模型,从左至右或从右至左逐个词进行预测,根据预测到的每个词的条件概率,按照以下公式获得原文语句对应的质量评分:
其中,wt表示原文语句S中的第t个词,W<t表示第t个词的先行词,也就是左侧或右侧已经出现的词,PALM(wt|W<t;Θ)表示模型逐词预测的第t个对应的条件概率,Θ表示模型训练时人为设置的超参数,score(S)表示自回归语言模型输出的原文语句S对应的质量评分。计算机设备按照上述公式获得原文语句中每个词对应的条件概率,并根据每个词对应的条件概率进行句子的联合概率的密度估计,用此值衡量语句质量好坏。
步骤1106,将平行语句中的译文语句输入译文的自回归语言模型,通过译文的自回归语言模型预测译文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得平行语句的译文质量评分。
类似地,计算机设备可以事先构建自回归语言模型,将其在译文训练语料上进行模型训练,使用训练获得的自回归语言模型,对原始训练语料中各平行语句的译文语句进行评分,获得对应的译文质量评分。
步骤1108,融合各平行语句的原文质量评分与译文质量评分,获得各平行语句对应自回归语言模型的质量评分。
关于自回归语言模型融合原文质量评分与译文质量评分的方式,具体可以参考前文所提及到的方式,在此不再重复说明。
在一个实施例中,如图12所示,当通用语言模型为自编码语言模型时,通过每组通用语言模型,获得原始训练语料中各平行语句所对应的质量评分,包括:
步骤1202,依次从原始训练语料中获取平行语句。
步骤1204,依次将平行语句的原文语句中每个词作为遮掩词,将遮掩后的原文语句输入原文的自编码语言模型,通过原文的自编码语言模型输出遮掩词对应的预测概率,根据每个遮掩词所对应的预测概率,获得平行语句的原文质量评分。
其中,原文的自编码语言模型是基于原文的训练语料进行模型训练获得的。计算机设备可以事先构建自编码语言模型,将其在原文训练语料上进行模型训练,使用训练获得的自编码语言模型,对原始训练语料中各平行语句的原文语句进行评分,获得对应的原文质量评分。
自编码模型的训练目标是根据语句中某个位置的上下文信息预测该位置出现某个词的概率,所以在训练时,需要通过遮掩手段(masking)将预测位置的词进行遮挡,输入该位置的上下文信息,将预测位置的词作为标签信息对自编码语言模型进行模型训练,以确保模型学习到根据每个位置的上下文信息进行预测的能力。
在获得训练好的原文的自编码语言模型之后,计算机设备可将原始训练语料中各平行语句的原文语句中每个词做遮掩处理后,依次输入原文的自回归语言模型,输出每个遮掩词对应的预测概率。可以理解,当输出的预测词不包括该遮掩词时,遮掩词对应的预测概率为0。计算机设备可以根据每个遮掩词的预测概率,确定该原文语句对应的质量评分。
计算机设备根据训练好的自编码语言模型,预测到的每个位置的遮掩词出现的概率,按照以下公式获得原文语句对应的质量评分:
其中,wt表示原文语句S中的第t个词,S\t表示从原文语句S中去除第t个遮掩词得到的序列,PMask_LM(wt|S\t;Θ)表示模型逐词预测的第t个遮掩词对应的预测概率,Θ表示模型训练时人为设置的超参数,score(S)表示自编码语言模型输出的原文语句S对应的质量评分。计算机设备按照上述公式获得原文语句中每个遮掩词对应的预测概率,并根据每个遮掩词对应的预测概率获得原文语句S的原文质量评分。
步骤1206,依次将平行语句的译文语句中每个词作为遮掩词,将遮掩后的译文语句输入译文的自编码语言模型,通过译文的自编码语言模型输出遮掩词对应的预测概率,根据每个遮掩词所对应的预测概率,获得平行语句的译文质量评分。
类似地,计算机设备可以事先构建自编码语言模型,将其在译文训练语料上进行模型训练,使用训练获得的自编码语言模型,对原始训练语料中各平行语句的译文语句进行评分,获得对应的译文质量评分。
步骤1208,融合各平行语句的原文质量评分与译文质量评分,获得各平行语句对应自编码语言模型的质量评分。
关于自编码语言模型融合原文质量评分与译文质量评分的方式,具体可以参考前文所提及到的方式,在此不再重复说明。
在完成质量过滤后,下面继续介绍领域筛选的具体实施方式。
由于上个步骤已经从原始训练语料中筛选出满足预设质量条件的训练语料,可以认为满足预设质量条件的训练语料中平行语句的原文与译文都是满足预设质量条件的训练语料,那么领域筛选时就只需要以领域相关性为目标进行二次筛选即可。原文语句越符合目标领域,相应的译文语句也必然符合目标领域,因此,计算机设备只需要对原文语句进行领域评分即可,也就是,目标领域语言模型可以仅包括原文的目标领域语言模型,相应地,通用领域语言模型可以仅包括原文的通用领域语言模型,计算机设备利用原文的目标领域语言模型与通用领域语言模型获得满足预设质量条件的训练语料中各平行语句中原文语句所对应的领域评分,作为各平行语句所对应的领域评分。
也就是,在一个实施例中,如图13所示,步骤306,通过训练好的目标领域语言模型与通用领域语言模型,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分,包括:
步骤1302,通过原文的目标领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第一领域评分。
具体地,目标领域语言模型是通过目标领域的语料训练得到的,使得目标领域语言模型的预测能力在一定程度上具有领域相关性,因此,计算机设备可以使用该原文的目标领域语言模型对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第一领域评分,可以记为H1(S)。
步骤1304,通过原文的通用领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第二领域评分。
具体地,通用领域语言模型是通过未进行过领域筛选的语料训练得到的,通用领域语言模型的预测能力具有较弱的领域相关性,计算机设备可以使用该原文的通用领域语言模型对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第二领域评分,可以记为H2(S)。
步骤1306,根据各平行语句对应的第一领域评分与第二领域评分之间的差异,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分。
目标领域语言模型与通用领域语言模型的模型结构是一样的,只是模型训练时所用到的语料不一样,前者使用的是目标领域的语料,后者使用的未经过领域筛选的语料,因此,输出的领域评分的范围应当是一致的,比如都是0至1之间的数值,若第一领域评分与第二领域评分之间的差异越大,说明原文语句的领域相关性较低,反之,差异越小,说明原文语句的领域相关性较高。
在一个实施例中,计算机设备可以根据第一领域评分与第二领域评分之间的差异,获得每个原文语句对应的交叉熵损失,作为原文语句对应的领域评分。计算机设备可以按照交叉熵损失越小的原则,根据原文语句的领域评分从满足预设质量条件的训练语料中筛选出符合目标领域的、且满足预设质量条件的训练语料。
参照图14的(a)部分,为一个实施例中对满足预设质量条件的训练语料中的原文语句进行领域筛选的示意图。计算机设备将目标领域的训练语料中的原文语句和待进行领域筛选的满足预设质量条件的训练语料中的原文语句,输入至语言模型。使用目标领域的训练语料中的原文语句训练该语言模型,获得原文的目标领域语言模型。使用待进行领域筛选的满足预设质量条件的训练语料中的原文语句中的一部分训练该语言模型,获得原文的通用领域语言模型。通过该目标领域语言模型与该通用领域语言模型分别对待进行领域筛选的满足预设质量条件的训练语料中的原文语句进行评分,根据评分差异从满足预设质量条件的训练语料中筛选出目标领域的、且满足预设质量条件的训练语料。
在一个实施例中,步骤306,通过训练好的目标领域语言模型与通用领域语言模型,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分,包括:通过译文的目标领域语言模型,对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第三领域评分;通过译文的通用领域语言模型,对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第四领域评分;根据各平行语句对应的第三领域评分与第四领域评分之间的差异,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分。
类似地,计算机设备可以使用译文的目标领域语言模型对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第三领域评分,可以记为H1(S*)。使用译文的通用领域语言模型对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第四领域评分,可以记为H2(S*)。计算机设备可以根据第三领域评分与第四领域评分之间的差异,获得每个译文语句对应的交叉熵损失,作为译文语句对应的领域评分。计算机设备可以按照交叉熵损失越小的原则,根据译文语句的领域评分从满足预设质量条件的训练语料中筛选出符合目标领域的、且满足预设质量条件的训练语料。
参照图14的(b)部分,为一个实施例中对满足预设质量条件的训练语料中的译文语句进行领域筛选的示意图。计算机设备将目标领域的训练语料中的译文语句和待进行领域筛选的满足预设质量条件的训练语料中的译文语句,输入至语言模型。使用目标领域的训练语料中的译文语句训练该语言模型,获得译文的目标领域语言模型。使用待进行领域筛选的满足预设质量条件的训练语料中的译文语句中的一部分训练该语言模型,获得译文的通用领域语言模型。通过该目标领域语言模型与该通用领域语言模型分别对待进行领域筛选的满足预设质量条件的训练语料中的译文语句进行评分,根据评分差异从满足预设质量条件的训练语料中筛选出目标领域的、且满足预设质量条件的训练语料。
在一个实施例中,通过训练好的目标领域语言模型与通用领域语言模型,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分,包括:通过原文的目标领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第一领域评分;通过原文的通用领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第二领域评分;通过译文的目标领域语言模型,对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第三领域评分;通过译文的通用领域语言模型,对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第四领域评分;融合各平行语句对应的第一领域评分与第二领域评分之间的差异、第三领域评分与第四领域评分之间的差异,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分。
本实施例中,目标领域语言模型可以包括原文的目标领域语言模型与译文的目标领域语言模型,相应地,通用领域语言模型可以包括原文的通用领域语言模型与译文的通用领域语言模型,那么计算机设备可以融合原文与译文两侧的领域评分,从满足预设质量条件的训练语料中筛选出目标领域的、且满足预设质量条件的训练语料。
融合两侧的领域评分的方式,具体可以是直接相加、加权相加或求平均值。
例如,计算机设备使用原文的目标领域语言模型获得平行语句中原文语句对应的第一领域评分,记为H1(S),使用原文的通用领域语言模型获得平行语句中原文语句对应的第二领域评分,记为H2(S),使用译文的目标领域语言模型获得平行语句中译文语句对应的第三领域评分,记为H1(S*),使用译文的通用领域语言模型获得平行语句中译文语句对应的第四领域评分,记为H2(S*),根据以下公式获得该平行语句对应的领域评分:
F_Score=|H1(S)-H2(S)|+|H1(S*)-H2(S*)|。
在一些实施例中,计算机设备也可以集成多个模型进行领域筛选,以实现全面地获得每个语句的领域相关性,从而提高从高质量语料中筛选目标领域的训练语料的准确性。例如,训练好的目标领域语言模型与通用领域语言模型包括两组,计算机设备对每组获得领域评分进行加权求和,获得平行语句最终的领域评分:
F_Score=λ1*(|H1(S)-H2(S)|+|H1(S*)-H2(S*)|)+λ2*(|H1(S)-H2(S)|+|H1(S*)-H2(S*)|)其中,λ1为第一组语言模型对应的加权系数,λ2为第二组语言模型输出的加权系数,前半部分(|H1(S)-H2(S)|+|H1(S*)-H2(S*)|)为第一组语言模型输出的领域评分,后半部分(|H1(S)-H2(S)|+|H1(S*)-H2(S*)|)为第二组语言模型输出的领域评分,F_Score为最终融合后的领域评分。
在一些实施例中,在两组语言模型采用的模型结构不同,输出的领域评分范围相差较大时,计算机设备还可以对各组语言模型输出的领域评分进行归一化处理,如图前文介绍的对质量评分进行归一化处理的方式一样,在此不再重复说明。
在一个具体的实施例中,翻译模型的训练语料处理方法包括以下步骤:
1、获取用于训练翻译模型的原始训练语料;
2、获取至少两组训练好的通用语言模型,每组通用语言模型的模型结构不同;
3、通过每组通用语言模型中的原文语言模型,分别对原始训练语料中各平行语句中的原文语句进行评分,分别获得平行语句的原文质量评分;
4、通过每组通用语言模型中的译文语言模型,分别对原始训练语料中各平行语句中的译文语句进行评分,分别获得平行语句的译文质量评分;
5、根据同组通用语言模型获得的原始训练语料中各平行语句的原文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的原文质量评分进行归一化处理,获得归一化原文质量评分;
6、根据同组通用语言模型获得的原始训练语料中各平行语句的译文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的译文质量评分进行归一化处理,获得归一化译文质量评分;
7、融合各平行语句对应每组通用语言模型的归一化原文质量评分和归一化译文质量评分,获得各平行语句所对应的质量评分;
8、根据质量评分对原始训练语料进行过滤获得满足预设质量条件的训练语料;
9、获取目标领域的平行语料,使用目标领域的平行语料中的原文语句对待训练语言模型进行模型训练,获得原文的目标领域语言模型;
10、对满足预设质量条件的训练语料进行采样获得采样语料,使用采样语料中的原文语句对待训练语言模型进行模型训练,获得原文的通用领域语言模型;
11、通过原文的目标领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第一领域评分;
12、通过原文的通用领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第二领域评分;
13、根据各平行语句对应的第一领域评分与第二领域评分之间的差异,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分;
14、根据各平行语句所对应的领域评分,从满足预设质量条件的训练语料中筛选出目标领域的、且满足预设质量条件的训练语料。
15、使用目标领域的、且满足预设质量条件的训练语料对翻译模型进行模型训练,获得用于对目标领域的文本进行翻译的翻译模型。
本申请实施例提供的翻译模型的训练语料处理方法,可以大大减少人工工作量,还可以挑选出目标领域的高质量语料,从而极大提升特定领域中翻译模型的性能,显著提高用户体验,具体性能如下表1所示。
训练语料规模 | BLEU |
100万小说基线模型 | 20.03 |
100万小说+100万小说领域数据混合训练模型 | 20.51 |
100万小说+300万小说领域数据混合训练模型 | 20.91 |
100万小说+500万小说领域数据混合训练模型 | 21.56 |
对上表进行示意说明:采用本申请实施例提供的翻译模型的训练语料处理方法,使用“100万小说”领域的训练语料对“大规模双语数据6亿”进行质量过滤与领域筛选之后得到“500万小说领域数据”,再利用这“100万小说+500万小说领域数据”组成新的语料训练翻译模型,得到翻译模型的性能指标为21.56。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图15所示,提供了一种翻译模型的训练语料处理装置1500,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:语料获取模块1502、质量过滤模块1504和领域筛选模块1506,其中:
语料获取模块1502,用于获取用于训练翻译模型的原始训练语料;
质量过滤模块1504,用于获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得原始训练语料中各平行语句所对应的质量评分,根据质量评分对原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;
领域筛选模块1506,用于通过训练好的目标领域语言模型与通用领域语言模型,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据领域评分从满足预设质量条件的训练语料中筛选出目标领域的、且满足预设质量条件的训练语料,目标领域语言模型与通用领域语言模型的模型结构相同;其中,筛选出的目标领域的、且满足预设质量条件的训练语料,用于对翻译模型进行模型训练后,获得用于对目标领域的文本进行翻译的翻译模型。
在一个实施例中,质量过滤模块1504还用于通过每组通用语言模型,分别对原始训练语料中各平行语句中的原文语句与译文语句进行评分,分别获得平行语句对应每组通用语言模型的原文质量评分与译文质量评分;融合各平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各平行语句所对应的质量评分。
在一个实施例中,质量过滤模块1504包括原文评分单元和译文评分单元;
原文评分单元用于通过每组通用语言模型中的原文语言模型,分别对原始训练语料中各平行语句中的原文语句进行评分,分别获得平行语句的原文质量评分;
译文评分单元用于通过每组通用语言模型中的译文语言模型,分别对原始训练语料中各平行语句中的译文语句进行评分,分别获得平行语句的译文质量评分。
在一个实施例中,质量过滤模块1504还用于根据同组通用语言模型获得的原始训练语料中各平行语句的原文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的原文质量评分进行归一化处理,获得归一化原文质量评分;根据同组通用语言模型获得的原始训练语料中各平行语句的译文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的译文质量评分进行归一化处理,获得归一化译文质量评分;融合各平行语句对应每组通用语言模型的归一化原文质量评分和归一化译文质量评分,获得各平行语句所对应的质量评分。
在一个实施例中,质量过滤模块1504还用于对每组通用语言模型的原文质量评分和译文质量评分求和,获得组级评分;获取每组通用语言模型对应的加权系数;基于每组通用语言模型对应的加权系数,对平行语句对应每组通用语言模型的组级评分进行加权求和,获得平行语句所对应的质量评分。
在一个实施例中,当通用语言模型为基于高质量语料获得的统计语言模型时,质量过滤模块1504还用于依次从原始训练语料中获取平行语句;将平行语句中的原文语句输入原文的统计语言模型,通过原文的统计语言模型,基于原文语句中各个词对应的条件频数,获得平行语句的原文质量评分;将平行语句中的译文语句输入译文的统计语言模型,通过译文的统计语言模型,基于译文语句中各个词对应的条件频数,获得平行语句的译文质量评分;融合各平行语句的原文质量评分与译文质量评分,获得各平行语句对应统计语言模型的质量评分。
在一个实施例中,当通用语言模型为自回归语言模型时,质量过滤模块1504还用于依次从原始训练语料中获取平行语句;将平行语句中的原文语句输入原文的自回归语言模型,通过原文的自回归语言模型预测原文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得平行语句的原文质量评分;将平行语句中的译文语句输入译文的自回归语言模型,通过译文的自回归语言模型预测译文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得平行语句的译文质量评分;融合各平行语句的原文质量评分与译文质量评分,获得各平行语句对应自回归语言模型的质量评分。
在一个实施例中,当通用语言模型为自编码语言模型时,质量过滤模块1504还用于依次从原始训练语料中获取平行语句;依次将平行语句的原文语句中每个词作为遮掩词,将遮掩后的原文语句输入原文的自编码语言模型,通过原文的自编码语言模型输出遮掩词对应的预测概率,根据每个遮掩词所对应的预测概率,获得平行语句的原文质量评分;依次将平行语句的译文语句中每个词作为遮掩词,将遮掩后的译文语句输入译文的自编码语言模型,通过译文的自编码语言模型输出遮掩词对应的预测概率,根据每个遮掩词所对应的预测概率,获得平行语句的译文质量评分;融合各平行语句的原文质量评分与译文质量评分,获得各平行语句对应自编码语言模型的质量评分。
在一个实施例中,领域筛选模块1506还用于通过原文的目标领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第一领域评分;通过原文的通用领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第二领域评分;根据各平行语句对应的第一领域评分与第二领域评分之间的差异,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分。
在一个实施例中,领域筛选模块1506还用于通过译文的目标领域语言模型,对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第三领域评分;通过译文的通用领域语言模型,对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第四领域评分;根据各平行语句对应的第三领域评分与第四领域评分之间的差异,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分。
在一个实施例中,领域筛选模块1506还用于通过原文的目标领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第一领域评分;通过原文的通用领域语言模型,对满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得平行语句对应的第二领域评分;通过译文的目标领域语言模型,对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第三领域评分;通过译文的通用领域语言模型,对满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得平行语句对应的第四领域评分;融合各平行语句对应的第一领域评分与第二领域评分之间的差异、第三领域评分与第四领域评分之间的差异,获得满足预设质量条件的训练语料中各平行语句所对应的领域评分。
在一个实施例中,上述翻译模型的训练语料处理装置1500还包括:
第一训练模块,用于获取目标领域的平行语料,使用目标领域的平行语料对待训练语言模型进行模型训练,获得目标领域语言模型;
第二训练模块,用于对满足预设质量条件的训练语料进行采样获得采样语料,使用采样语料对待训练语言模型进行模型训练,获得通用领域语言模型。
上述翻译模型的训练语料处理装置1500,使用至少两组训练好的通用语言模型,对原始训练语料中各平行语句进行混合评分,与基于单一语言模型的质量过滤相比,由于每组通用语言模型的模型结构不同,集成多组语言模型能够从不同的角度全面地对平行语句进行评分,保证能够从原始训练语料中过滤出满足预设质量条件的训练语料;进一步地,在此基础上,通过训练好的目标领域语言模型与通用领域语言模型获得满足预设质量条件的训练语料中平行语句对应的领域评分,实现从满足预设质量条件的训练语料中进一步筛选出符合目标领域的、且满足预设质量条件的训练语料,可供目标领域的翻译模型进行模型训练,相比于基于单一质量方面的过滤,可以保证高质量的基础上筛选目标领域的语料,从而使得获得的语料能够极大提升翻译模型的翻译性能;此外,通过这样一种先进行高质量方面的评分,再在高质量的基础上筛选目标领域的训练语料的流程化设置,相比于直接对原始训练语料进行质量和领域方面混合评分,能够极大程度保证输出语料是高质量同时最为接近目标领域的。
关于翻译模型的训练语料处理装置的具体限定可以参见上文中对于翻译模型的训练语料处理方法的限定,在此不再赘述。上述翻译模型的训练语料处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是图1中的服务器或终端,其内部结构图可以如图16所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种翻译模型的训练语料处理方法。
本领域技术人员可以理解,图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种翻译模型的训练语料处理方法,其特征在于,所述方法包括:
获取用于训练翻译模型的原始训练语料;
获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,根据所述质量评分对所述原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;
通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据所述领域评分从所述满足预设质量条件的训练语料中筛选出属于目标领域且满足预设质量条件的训练语料,所述目标领域语言模型与通用领域语言模型的模型结构相同;
其中,筛选出的所述训练语料,用于对所述翻译模型进行模型训练后,获得所述目标领域的翻译模型。
2.根据权利要求1所述的方法,其特征在于,所述通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,包括:
通过每组通用语言模型,分别对所述原始训练语料中各平行语句中的原文语句与译文语句进行评分,分别获得所述平行语句对应每组通用语言模型的原文质量评分与译文质量评分;
融合各所述平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各所述平行语句所对应的质量评分。
3.根据权利要求2所述的方法,其特征在于,所述通过每组通用语言模型,分别对所述原始训练语料中各平行语句中的原文语句与译文语句进行评分,分别获得所述平行语句对应每组通用语言模型的原文质量评分与译文质量评分,包括:
通过每组通用语言模型中的原文语言模型,分别对原始训练语料中各平行语句中的原文语句进行评分,分别获得所述平行语句的原文质量评分;
通过每组通用语言模型中的译文语言模型,分别对原始训练语料中各平行语句中的译文语句进行评分,分别获得所述平行语句的译文质量评分。
4.根据权利要求2所述的方法,其特征在于,所述融合各所述平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各所述平行语句所对应的质量评分,包括:
根据同组通用语言模型获得的所述原始训练语料中各平行语句的原文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的原文质量评分进行归一化处理,获得归一化原文质量评分;
根据同组通用语言模型获得的所述原始训练语料中各平行语句的译文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的译文质量评分进行归一化处理,获得归一化译文质量评分;
融合各所述平行语句对应每组通用语言模型的归一化原文质量评分和归一化译文质量评分,获得各所述平行语句所对应的质量评分。
5.根据权利要求2所述的方法,其特征在于,所述融合各所述平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各所述平行语句所对应的质量评分,包括:
对每组通用语言模型的原文质量评分和译文质量评分求和,获得组级评分;
获取每组通用语言模型对应的加权系数;
基于每组通用语言模型对应的加权系数,对所述平行语句对应每组通用语言模型的组级评分进行加权求和,获得所述平行语句所对应的质量评分。
6.根据权利要求1所述的方法,其特征在于,当所述通用语言模型为基于高质量语料获得的统计语言模型时,所述通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,包括:
依次从所述原始训练语料中获取平行语句;
将所述平行语句中的原文语句输入原文的统计语言模型,通过所述原文的统计语言模型,基于所述原文语句中各个词对应的条件频数,获得所述平行语句的原文质量评分;
将所述平行语句中的译文语句输入译文的统计语言模型,通过所述译文的统计语言模型,基于所述译文语句中各个词对应的条件频数,获得所述平行语句的译文质量评分;
融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述统计语言模型的质量评分。
7.根据权利要求1所述的方法,其特征在于,当所述通用语言模型为自回归语言模型时,所述通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,包括:
依次从所述原始训练语料中获取平行语句;
将所述平行语句中的原文语句输入原文的自回归语言模型,通过所述原文的自回归语言模型预测所述原文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得所述平行语句的原文质量评分;
将所述平行语句中的译文语句输入译文的自回归语言模型,通过所述译文的自回归语言模型预测所述译文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得所述平行语句的译文质量评分;
融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述自回归语言模型的质量评分。
8.根据权利要求1所述的方法,其特征在于,当所述通用语言模型为自编码语言模型时,所述通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,包括:
依次从所述原始训练语料中获取平行语句;
依次将所述平行语句的原文语句中每个词作为遮掩词,将遮掩后的原文语句输入原文的自编码语言模型,通过所述原文的自编码语言模型输出遮掩词对应的预测概率,根据每个遮掩词所对应的预测概率,获得所述平行语句的原文质量评分;
依次将所述平行语句的译文语句中每个词作为遮掩词,将遮掩后的译文语句输入译文的自编码语言模型,通过所述译文的自编码语言模型输出遮掩词对应的预测概率,根据每个遮掩词所对应的预测概率,获得所述平行语句的译文质量评分;
融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述自编码语言模型的质量评分。
9.根据权利要求1所述的方法,其特征在于,所述通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,包括:
通过原文的目标领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得所述平行语句对应的第一领域评分;
通过原文的通用领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得所述平行语句对应的第二领域评分;
根据各所述平行语句对应的第一领域评分与所述第二领域评分之间的差异,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分。
10.根据权利要求1所述的方法,其特征在于,所述通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,包括:
通过译文的目标领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得所述平行语句对应的第三领域评分;
通过译文的通用领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得所述平行语句对应的第四领域评分;
根据各所述平行语句对应的第三领域评分与所述第四领域评分之间的差异,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分。
11.根据权利要求1所述的方法,其特征在于,所述通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,包括:
通过原文的目标领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得所述平行语句对应的第一领域评分;
通过原文的通用领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的原文语句进行评分,获得所述平行语句对应的第二领域评分;
通过译文的目标领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得所述平行语句对应的第三领域评分;
通过译文的通用领域语言模型,对所述满足预设质量条件的训练语料中各平行语句中的译文语句进行评分,获得所述平行语句对应的第四领域评分;
融合各所述平行语句对应的第一领域评分与所述第二领域评分之间的差异、第三领域评分与所述第四领域评分之间的差异,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述方法还包括:
获取目标领域的平行语料,使用所述目标领域的平行语料对待训练语言模型进行模型训练,获得所述目标领域语言模型;
对所述满足预设质量条件的训练语料进行采样获得采样语料,使用所述采样语料对所述待训练语言模型进行模型训练,获得所述通用领域语言模型。
13.一种翻译模型的训练语料处理装置,其特征在于,所述装置包括:
语料获取模块,用于获取用于训练翻译模型的原始训练语料;
质量过滤模块,用于获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,根据所述质量评分对所述原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;
领域筛选模块,用于通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据所述领域评分从所述满足预设质量条件的训练语料中筛选出属于目标领域且满足预设质量条件的训练语料,所述目标领域语言模型与通用领域语言模型的模型结构相同;其中,筛选出的训练语料,用于对所述翻译模型进行模型训练后,获得所述目标领域的翻译模型。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110553522.4A CN113761944B (zh) | 2021-05-20 | 2021-05-20 | 翻译模型的训练语料处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110553522.4A CN113761944B (zh) | 2021-05-20 | 2021-05-20 | 翻译模型的训练语料处理方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113761944A CN113761944A (zh) | 2021-12-07 |
CN113761944B true CN113761944B (zh) | 2024-03-15 |
Family
ID=78787149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110553522.4A Active CN113761944B (zh) | 2021-05-20 | 2021-05-20 | 翻译模型的训练语料处理方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761944B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970569A (zh) * | 2022-05-12 | 2022-08-30 | 北京云思智学科技有限公司 | 一种汉译英翻译试题的自动解题方法、装置及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140499A (ja) * | 2007-12-07 | 2009-06-25 | Toshiba Corp | 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム |
JP2017021422A (ja) * | 2015-07-07 | 2017-01-26 | 国立研究開発法人情報通信研究機構 | 統計翻訳の最適化装置、統計翻訳システム、及びコンピュータプログラム |
CN110162800A (zh) * | 2019-05-08 | 2019-08-23 | 北京百度网讯科技有限公司 | 翻译模型的训练方法和装置 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN110874536A (zh) * | 2018-08-29 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语料质量评估模型生成方法和双语句对互译质量评估方法 |
CN111460838A (zh) * | 2020-04-23 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 智能翻译模型的预训练方法、装置和存储介质 |
CN111767712A (zh) * | 2019-04-02 | 2020-10-13 | 北京地平线机器人技术研发有限公司 | 基于语言模型的业务数据筛选方法和装置、介质、设备 |
CN112151021A (zh) * | 2020-09-27 | 2020-12-29 | 北京达佳互联信息技术有限公司 | 语言模型的训练方法、语音识别方法、装置及电子设备 |
CN112257472A (zh) * | 2020-11-13 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 一种文本翻译模型的训练方法、文本翻译的方法及装置 |
CN112347795A (zh) * | 2020-10-04 | 2021-02-09 | 北京交通大学 | 机器翻译质量评估方法、装置、设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9235567B2 (en) * | 2013-01-14 | 2016-01-12 | Xerox Corporation | Multi-domain machine translation model adaptation |
US11037028B2 (en) * | 2018-12-31 | 2021-06-15 | Charles University Faculty of Mathematics and Physics | Computer-implemented method of creating a translation model for low resource language pairs and a machine translation system using this translation model |
-
2021
- 2021-05-20 CN CN202110553522.4A patent/CN113761944B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140499A (ja) * | 2007-12-07 | 2009-06-25 | Toshiba Corp | 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム |
JP2017021422A (ja) * | 2015-07-07 | 2017-01-26 | 国立研究開発法人情報通信研究機構 | 統計翻訳の最適化装置、統計翻訳システム、及びコンピュータプログラム |
CN110874536A (zh) * | 2018-08-29 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语料质量评估模型生成方法和双语句对互译质量评估方法 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN111767712A (zh) * | 2019-04-02 | 2020-10-13 | 北京地平线机器人技术研发有限公司 | 基于语言模型的业务数据筛选方法和装置、介质、设备 |
CN110162800A (zh) * | 2019-05-08 | 2019-08-23 | 北京百度网讯科技有限公司 | 翻译模型的训练方法和装置 |
CN111460838A (zh) * | 2020-04-23 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 智能翻译模型的预训练方法、装置和存储介质 |
CN112151021A (zh) * | 2020-09-27 | 2020-12-29 | 北京达佳互联信息技术有限公司 | 语言模型的训练方法、语音识别方法、装置及电子设备 |
CN112347795A (zh) * | 2020-10-04 | 2021-02-09 | 北京交通大学 | 机器翻译质量评估方法、装置、设备及介质 |
CN112257472A (zh) * | 2020-11-13 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 一种文本翻译模型的训练方法、文本翻译的方法及装置 |
Non-Patent Citations (4)
Title |
---|
Joint Training for Neural Machine Translation Models with Monolingual Data;Zhirui Zhang;《Thirty-Second AAAI Conference on Artificial Intelligence 》;20180425;第32卷(第1期);第555-562页 * |
Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning;Xuebo Liu, Longyue Wang;《Computer Science 》;20201229;第1-14页 * |
基于翻译模型和语言模型相融合的双语句对选择方法;姚亮;洪宇;刘昊;刘乐;姚建民;;中文信息学报;20160915(05);第149-156页 * |
融合扩张卷积网络与SLAM的无监督单目深度估计;戴仁月;方志军;高永彬;;激光与光电子学进展;20201231(06);第114-122页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113761944A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416065B (zh) | 基于层级神经网络的图像-句子描述生成***及方法 | |
Badjatiya et al. | Attention-based neural text segmentation | |
CN106484674B (zh) | 一种基于深度学习的中文电子病历概念抽取方法 | |
CN109933789B (zh) | 一种基于神经网络的司法领域关系抽取方法及*** | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
Tamkin et al. | Language through a prism: A spectral approach for multiscale language representations | |
CN114023412B (zh) | 基于联合学习和去噪机制的icd代码预测方法及*** | |
US20220147713A1 (en) | Social bias mitigation in textual models | |
CN109741824B (zh) | 一种基于机器学习的医疗问诊方法 | |
CN112784532B (zh) | 用于短文本情感分类的多头注意力记忆*** | |
US20220138185A1 (en) | Scene graph modification based on natural language commands | |
EP4361843A1 (en) | Neural network searching method and related device | |
Fu et al. | Long short-term memory network over rhetorical structure theory for sentence-level sentiment analysis | |
Adi et al. | Analysis of sentence embedding models using prediction tasks in natural language processing | |
CN113761944B (zh) | 翻译模型的训练语料处理方法、装置、设备和存储介质 | |
CN110083842B (zh) | 译文质量检测方法、装置、机器翻译***和存储介质 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
Avramidis | Sentence-level ranking with quality estimation | |
CN112765201A (zh) | 一种sql语句解析为特定领域查询语句的方法及装置 | |
CN116502649A (zh) | 文本生成模型的训练方法、装置、电子设备及存储介质 | |
CN115938530A (zh) | 抗后门攻击的智能医疗影像诊断意见自动生成方法 | |
KR20200040032A (ko) | 양방향 lstm―attention 기반 한국어 게시글 분류 방법 | |
CN114942977A (zh) | 基于支持句预测的多任务文档级关系抽取方法及装置 | |
Dutta et al. | Unfolding sarcasm in twitter using c-rnn approach | |
Sun et al. | Conditional random fields for multiview sequential data modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |