CN112287696B - 译文后编辑方法、装置、电子设备和存储介质 - Google Patents
译文后编辑方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112287696B CN112287696B CN202011186869.1A CN202011186869A CN112287696B CN 112287696 B CN112287696 B CN 112287696B CN 202011186869 A CN202011186869 A CN 202011186869A CN 112287696 B CN112287696 B CN 112287696B
- Authority
- CN
- China
- Prior art keywords
- text
- translation
- sample
- post
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 303
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims description 13
- 238000012549 training Methods 0.000 claims abstract description 153
- 238000004088 simulation Methods 0.000 claims abstract description 30
- 239000012634 fragment Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 8
- 230000002194 synthesizing effect Effects 0.000 abstract description 5
- 230000014616 translation Effects 0.000 description 230
- 230000008569 process Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004040 coloring Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 239000009022 Jinqi Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种译文后编辑方法和装置,其中方法包括:确定待编辑的机器翻译译文文本;将机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到后编辑模型输出的后编辑译文文本;其中,后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本训练得到的。本发明实施例提供的方法和装置,通过预训练加微调的方式,以及错误模拟以合成译文数据的方式,提高了后编辑模型的训练效率和训练效果,提高了后编辑的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种译文后编辑方法、装置、电子设备和存储介质。
背景技术
后编辑是指给定待翻译的原文,调取其对应的机器翻译结果,然后译员在此基础上进行修改和润色,进而提升翻译的质量。其中,机器翻译结果可以为译员提供一个翻译结果作为参考,以免译员从头开始进行翻译,从而减少译员的工作负担。
在实际工作中,当机器翻译结果与期望的翻译结果差距较大时,后编辑模式会导致译员需要做很多修改编辑,反而进一步增加了译员的工作负担。例如,当机器翻译模型处理一些资源有限且面向某些专业领域的待翻译原文时,效果较差,得出的机器翻译结果也与正确翻译结果相差较远。或者机器翻译模型对于实体词,如人名、地名或机构名等,或是对数词进行了错误翻译时,得出的机器翻译结果准确性也欠佳。又或者机器翻译模型无法合理的处理长句子的翻译时,同样会造成机器翻译结果准确性不足,需要大量的后编辑工作。因此,自动后编辑模型在当前的辅助翻译中扮演着越来越重要的角色。该后编辑模型可以基于输入的待翻译原文和机器翻译的译文,对机器翻译的译文自动进行后编辑,实现译文错误的更正,并输出后编辑的译文,通过更进一步减少输出的译文与译员所期望的译文之间的差距,进一步减少了译员的工作量。
然而,现有的后编辑模型训练方法,需要数量众多的三元平行语料,即原文、机器翻译译文,和后编辑译文组成的三元组。而这些三元组训练数据较难获取且需要大量的人工标注成本,导致后编辑模型的训练效果欠佳、训练效率不高,进而造成译文后编辑的准确性欠佳。
发明内容
本发明实施例提供一种译文后编辑方法、装置、电子设备和存储介质,用以解决现有技术中后编辑模型训练效果欠佳、训练效率不高,译文后编辑的准确性欠佳的缺陷。
本发明实施例提供一种译文后编辑方法,包括:
确定待编辑的机器翻译译文文本;
将所述机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到所述后编辑模型输出的后编辑译文文本;
其中,所述后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及所述样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;
所述预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及所述样本预训练原文文本的模拟译文文本训练得到的。
根据本发明一个实施例的译文后编辑方法,所述样本机器翻译译文文本对应长句翻译错误、实体名翻译错误以及领域翻译错误中的至少一种错误类型。
根据本发明一个实施例的译文后编辑方法,所述样本机器翻译译文文本是基于以下至少一种方式确定的:
应用第一机器翻译模型对所述样本微调原文文本进行翻译,得到长句翻译错误类型的样本机器翻译译文文本;所述第一机器翻译模型是基于第一样本翻译原文文本及其第一样本翻译译文文本训练得到的,所述样本微调原文文本为长句,所述第一样本翻译原文文本为短句;
对所述样本微调后编辑译文文本中的实体名进行随机修改,得到实体名翻译错误类型的样本机器翻译译文文本;
应用第二机器翻译模型对所述样本微调原文文本进行翻译,得到领域翻译错误类型的样本机器翻译译文文本;所述第二机器翻译模型是基于与所述样本微调原文文本领域不同的第二样本翻译原文文本及其第二样本翻译译文文本训练得到的。
根据本发明一个实施例的译文后编辑方法,所述预训练后编辑模型包括预训练的原文语言编码器和预训练的译文语言编码器,以及解码器。
根据本发明一个实施例的译文后编辑方法,所述预训练的原文语言编码器和预训练的译文语言编码器是基于对应语言的样本单语文本以及对所述样本单语文本进行常规错误模拟得到的样本错误文本训练得到的。
根据本发明一个实施例的译文后编辑方法,所述模拟译文文本是基于如下步骤确定的:
对所述样本预训练原文文本或所述样本预训练后编辑译文文本进行常规错误模拟,得到所述模拟译文文本。
根据本发明一个实施例的译文后编辑方法,所述进行常规错误模拟具体包括:
随机选取对应文本中的若干文本片段,并对所述文本片段进行删除、重排、替换或转移操作。
本发明实施例还提供一种译文后编辑装置,包括:
译文确定单元,用于确定待编辑的机器翻译译文文本;
后编辑单元,用于将所述机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到所述后编辑模型输出的后编辑译文文本;
其中,所述后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及所述样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;
所述预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及所述样本预训练原文文本的模拟译文文本训练得到的。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述译文后编辑方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述译文后编辑方法的步骤。
本发明实施例提供的译文后编辑方法、装置、电子设备和存储介质,通过基于样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本训练得到预训练后编辑模型,并基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到后编辑模型,通过预训练加微调的方式,以及错误模拟以合成译文数据的方式,提高了后编辑模型的训练效率和训练效果,提高了后编辑的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的译文后编辑方法的流程示意图;
图2为本发明实施例提供的译文后编辑模型训练方法的流程示意图;
图3为本发明实施例提供的译文后编辑装置的结构示意图;
图4为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
后编辑是指给定待翻译的原文,调取其对应的机器翻译结果,然后译员在此基础上进行修改和润色,进而提升翻译的质量。其中,机器翻译结果可以为译员提供一个翻译结果作为参考,以免译员从头开始进行翻译,从而减少译员的工作负担。然而,当机器翻译结果与期望的翻译结果差距较大时,后编辑模式会导致译员需要做很多修改编辑,反而进一步增加了译员的工作负担。例如,当机器翻译模型处理一些资源有限且面向某些专业领域的待翻译原文时,对于实体词,如人名、地名或机构名等,或是对数词进行了错误翻译时,或机器翻译模型无法合理的处理长句子的翻译时,均会导致翻译效果较差,得出的机器翻译结果与正确翻译结果相差较远,需要大量的后编辑工作。因此,自动后编辑模型在当前的辅助翻译中扮演着越来越重要的角色。
然而,现有的后编辑模型训练方法,需要数量众多的三元平行语料,即原文、机器翻译译文,和后编辑译文组成的三元组。而这些三元组训练数据较难获取且需要大量的人工标注成本,导致后编辑模型的训练效果欠佳、训练效率不高,进而造成译文后编辑的准确性欠佳。
对此,本发明实施例提供了一种译文后编辑方法。图1为本发明实施例提供的译文后编辑方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待编辑的机器翻译译文文本;
步骤120,将机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到后编辑模型输出的后编辑译文文本;
其中,后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;
预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本训练得到的。
具体地,获取原文文本对应的机器翻译译文文本,以供后编辑模型对其进行自动后编辑。其中,机器翻译译文文本可以是将原文文本输入到机器翻译模型中进行翻译后得到的。
然后,将机器翻译译文文本及其对应的原文文本输入到后编辑模型中,后编辑模型会基于原文文本的语义信息以及机器翻译译文文本的语义信息,对机器翻译译文文本进行错误纠正,从而得到纠正后的后编辑译文文本。此处,后编辑译文文本所使用的语言与机器翻译译文文本所使用的语言相同。
其中,后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;而预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本训练得到的。
此处,在训练后编辑模型时,采用的是预训练加微调的方式。图2为本发明实施例提供的译文后编辑模型训练方法的流程示意图,如图2所示,译文后编辑模型的训练方法包括:
步骤210,基于样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本对初始模型进行训练,得到预训练后编辑模型;
步骤220,基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调,得到后编辑模型。
首先,利用大量的样本预训练原文文本及其样本预训练后编辑译文文本,以及模拟译文文本对初始模型进行预训练,得到预训练后编辑模型。其中,样本预训练原文文本及其样本预训练后编辑译文文本可以通过从网络上下载公共的双语平行语料数据得到,例如***政府公文以及国际机器翻译大赛(Conference on Machine Translation,WMT)给出的中英平行语料。然后,可以基于双语平行语料进行错误模拟,得到样本预训练原文文本的模拟译文文本,以模拟机器翻译的译文。由于在预训练时,只需获取双语平行语料,并以错误模拟的方式合成与机器翻译译文类似的模拟译文文本,大大减少了训练数据的获取难度,也省去了人工标注后编辑译文的成本,有助于提高整个训练过程的效率,并降低训练难度。
另外,预训练得到的预训练后编辑模型在训练过程中,根据样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本,可以学习到译文中可能出现的文本错误,例如字词重复、倒序、漏词等,并学习到如何根据原文文本对译文文本中的文本错误进行纠正,以得到正确的后编辑译文文本。
为了进一步提高后编辑的准确性,以更好地完成后编辑任务,可以基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调,得到后编辑模型。其中,样本微调原文文本与其样本微调后编辑译文文本也可以通过获取双语平行语料得到。此处,为了提高微调的准确性,可以获取翻译生产环境中所产生的双语平行语料。其中每一条双语平行语料包括待翻译的原文文本,以及人工翻译审校后所产生的高质量的译文文本。根据该生产环境中产生的双语平行语料,即可得到样本微调原文文本以及高质量的样本微调后编辑译文文本。而样本机器翻译译文文本中包括后编辑场景下,实际机器翻译过程中由于机器翻译模型的局限性导致的翻译错误。基于样本微调原文文本及其样本微调后编辑译文文本,以及样本机器翻译译文文本进行微调,可以使后编辑模型在常规的文本错误之外,还学习到机器翻译领域可能出现的翻译错误,从而提高后编辑模型在后编辑场景下的错误定位和纠正能力,进一步提高后编辑的准确性。此外,由于微调时所需的数据量相较于预训练阶段较少,因此可以减少<原文,机器翻译译文,后编辑译文>三元组的获取难度,进一步降低了模型训练难度,提高了模型训练效率。
本发明实施例提供的方法,通过基于样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本训练得到预训练后编辑模型,并基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到后编辑模型,通过预训练加微调的方式,以及错误模拟以合成译文数据的方式,提高了后编辑模型的训练效率和训练效果,提高了后编辑的准确性。
基于上述实施例,样本机器翻译译文文本对应长句翻译错误、实体名翻译错误以及领域翻译错误中的至少一种错误类型。
具体地,为了使后编辑模型在微调过程中学习到后编辑场景下,实际机器翻译过程中由于机器翻译模型的局限性导致的翻译错误,可以获取包含上述翻译错误的样本机器翻译译文文本。通常情况下,可能存在的翻译错误包括长句翻译错误、实体名翻译错误以及领域翻译错误等。其中,长句翻译错误是机器翻译模型无法合理的处理长句子时出现的错误;实体名翻译错误是机器翻译模型对于实体词,如人名、地名或机构名等,或是对数词进行翻译时出现的错误;领域翻译错误是当机器翻译模型处理一些资源有限且面向某些专业领域的待翻译原文时,由于机器翻译模型适用的领域与待翻译原文领域存在差别所导致的错误。因此,获取的样本机器翻译译文文本可以对应长句翻译错误、实体名翻译错误以及领域翻译错误中的至少一种错误类型。
基于上述任一实施例,样本机器翻译译文文本是基于以下至少一种方式确定的:
应用第一机器翻译模型对样本微调原文文本进行翻译,得到长句翻译错误类型的样本机器翻译译文文本;第一机器翻译模型是基于第一样本翻译原文文本及其第一样本翻译译文文本训练得到的,样本微调原文文本为长句,第一样本翻译原文文本为短句;
对样本微调后编辑译文文本中的实体名进行随机修改,得到实体名翻译错误类型的样本机器翻译译文文本;
应用第二机器翻译模型对样本微调原文文本进行翻译,得到领域翻译错误类型的样本机器翻译译文文本;第二机器翻译模型是基于与样本微调原文文本领域不同的第二样本翻译原文文本及其第二样本翻译译文文本训练得到的。
具体地,针对于长句翻译错误,可以基于第一样本翻译原文文本及其第一样本翻译译文文本训练得到第一机器翻译模型,第一机器翻译模型可以基于单Transformer模型构建得到。其中,第一样本翻译原文文本及其第一样本翻译译文文本可以是通过网络下载的双语平行语料。此处,第一样本翻译原文文本为短句,例如只包含1句话。由于第一机器翻译模型是基于短句训练得到的,因此该模型只擅长对短句进行翻译,若将长句输入到该模型中进行翻译,则得到的译文容易出现长句翻译错误。故选取长句,例如包含2个以上句子,作为样本微调原文文本,并将其输入到第一机器翻译模型中,得到长句翻译错误类型的样本机器翻译译文文本。
针对于实体名翻译错误,可以利用Spacy等实体识别工具对样本微调后编辑译文文本进行实体识别,例如对双语平行语料,如翻译生产环境中所产生的双语平行语料中的英文文本进行实体识别。筛选出样本微调后编辑译文文本中包含人名、地名、机构名,以及数字等实体的后编辑译文文本片段,并对其进行随机修改,例如删除或替换,得到实体名翻译错误类型的样本机器翻译译文文本。
针对于领域翻译错误,可以基于第二样本翻译原文文本及其第二样本翻译译文文本训练得到第二机器翻译模型,第二机器翻译模型可以基于单Transformer模型构建得到。其中,第二样本翻译原文文本及其第二样本翻译译文文本的所属领域,与样本微调原文文本的所属领域不同。例如,可以通过网络下载高质量但领域较偏较窄的***政府公文的双语平行语料,作为第二样本翻译原文文本及其第二样本翻译译文文本。由此训练得到的第二机器翻译模型只擅长对第二样本翻译原文文本及其第二样本翻译译文文本的所属领域文本进行翻译,因此若将不同领域的原文文本输入到该模型中进行翻译,则得到的译文容易出现领域翻译错误,故可将第二机器翻译模型对样本微调原文文本进行翻译得到的译文文本作为领域翻译错误类型的样本机器翻译译文文本。
本发明实施例提供的方法,通过不同的数据合成方式,可以高效生成对应三种不同翻译错误类型的样本机器翻译译文文本,省去了微调过程中的数据标注过程,可以进一步提高后编辑模型的训练效率。
基于上述任一实施例,预训练后编辑模型包括预训练的原文语言编码器和预训练的译文语言编码器,以及解码器。
具体地,预训练后编辑模型可以包括两个编码器,即原文语言编码器和译文语言编码器,以分别用于对原文文本和机器翻译译文文本进行编码,以及一个解码器,以用于基于原文文本的编码和机器翻译译文文本的编码进行解码,实现机器翻译译文文本的错误纠正,得到后编辑译文文本。其中,原文语言编码器、译文语言编码器以及解码器均可以基于单Transformer模型构建得到。此处,两个编码器可以通过预训练获得,以提高预训练后编辑模型的预训练效率,从而进一步提高后编辑模型整体的训练效率。
本发明实施例提供的方法,通过预训练的原文语言编码器和预训练的译文语言编码器,以及解码器共同构建预训练后编辑模型,进一步提高了后编辑模型整体的训练效率。
基于上述任一实施例,预训练的原文语言编码器和预训练的译文语言编码器是基于对应语言的样本单语文本以及对样本单语文本进行常规错误模拟得到的样本错误文本训练得到的。
具体地,为了使原文语言编码器和译文语言编码器可以学会从错误文本中提取正确的语义信息,从而编码得到包含正确语义信息的原文编码和译文编码,以提高编码的表达能力,可以基于对应语言的样本单语文本及其对应的样本错误文本,以及对应语言的词向量模型训练原文语言编码器和译文语言编码器。例如,若原文为汉语,译文为英语,则可以基于汉语的样本单语文本及其对应的样本错误文本,以及汉语词向量模型对原文语言编码器进行预训练,基于英语的样本单语文本及其对应的样本错误文本,以及英语词向量模型对译文语言编码器进行预训练。其中,样本单语文本可以通过收集大量的单语语料获取得到,例如可以从网络上下载公共的汉语单语语料,如中文***以及新闻语料,以及公共的英语语料,如英文***以及新闻语料。而为了降低训练数据的获取难度,可以从单语语料库中随机挑选部分单语语料,例如20%的单语语料,对挑选的单语语料,即样本单语文本,进行常规错误模拟,得到包含常规文本错误的样本错误文本。
本发明实施例提供的方法,对应语言的样本单语文本以及对所述样本单语文本进行常规错误模拟得到的样本错误文本预训练得到原文语言编码器和译文语言编码器,能够编码得到包含正确语义信息的原文编码和译文编码,提高了编码的表达能力。
基于上述任一实施例,模拟译文文本是基于如下步骤确定的:
对样本预训练原文文本或样本预训练后编辑译文文本进行常规错误模拟,得到模拟译文文本。
具体地,可以从双语平行语料库中随机挑选部分双语平行语料,例如10%的双语平行语料,将每一条语料中的样本预训练原文文本进行常规错误模拟,得到包含由常规文本错误的模拟译文文本,并将该双语平行语料中的样本预训练后编辑译文文本、该模拟译文文本以及该样本预训练原文文本作为预训练后编辑模型的一条训练数据。还可以从双语平行语料库中随机挑选部分双语平行语料,例如10%的双语平行语料,将其中的样本预训练后编辑译文文本进行常规错误模拟,得到包含由常规文本错误的模拟译文文本,并将双语平行语料中的样本预训练原文文本、该模拟译文文本以及该样本预训练后编辑译文文本作为预训练后编辑模型的一条训练数据。
基于上述任一实施例,进行常规错误模拟具体包括:
随机选取对应文本中的若干文本片段,并对文本片段进行删除、重排、替换或转移操作。
具体地,常规的文本错误包括漏词、倒序、错词、重复等,因此在进行常规错误模拟时,可以随机选取对应文本中的若干个文本片段,对每个文本片段进行删除、重排、替换或转移操作。其中,删除是指将该文本片段整体删除,重排是指颠倒该文本片段中各字词的顺序,替换是指利用原文本中其他位置的文本片段替换该文本片段,转移是指将原文本中其他位置的文本片段与该文本片段交换位置。例如,可以采用下表中的方式进行常规错误模拟:
原文本 | <zh>今天天气真好。 |
删除 | <zh>今天天DEL DEL好。 |
重排 | <zh>今天天真气好。 |
替换 | <zh>今天天今天好。 |
转移 | <zh>今气真天天好。 |
基于上述任一实施例,本发明又一实施例提供了一种后编辑模型构建方法。该方法包括:
首先,收集模型训练需要的语料数据,包括:
积累翻译生产环境中所产生的双语平行语料,记为双语平行语料库C。其中,每一条语料包括一条待翻译的原文文本和人工翻译审校后所产生的高质量的译文文本。
从网络上下载公共的双语平行语料,例如***以及WMT双语平行语料,记为双语平行语料库T。
从网络上下载公共的原文语言单语语料,例如中文***以及新闻语料,记为单语语料库Z。
从网络上下载公共的译文语言单语语料,例如英文***以及新闻语料,记为单语语料库E。
对所有语料进行分词处理。其中,对英文语料,可以利用spacy工具进行分词;对于中文语料,可以利用文法规则以字为单位进行分词,即将单独的汉字、连续的数字或英文字母和标点符号等单独作为词例。然后,在每条语料的开始加上语言标识符,如下表所示:
基于已分词的语料数据,利用Skip-Gram算法分别对原文语言和译文语言进行词向量训练。其中,词向量的维度可以设置为300,上下文窗口可以设置为5。
从Z中随机抽取20%的语料,进行常规错误模拟,合成包含可能被破坏的语料和原语料的平行语料,结合原文语言的词向量模型,预训练一个标准的Transformer模型的原文语言编码器。
从E中随机抽取20%的语料,进行常规错误模拟,合成包含可能被破坏的语料和原语料的平行语料,结合译文语言的词向量模型,预训练一个标准的Transformer模型的译文语言编码器。
从T中随机抽取10%的语料,对其中的原文语料进行常规错误模拟,即产生一个三元语料(可能被破坏的原文语料,原译文语料,初始原文语料)。同样再从T中随机抽取10%的语料,对其中的译文语料进行常规错误模拟,即产生一个三元语料(初始原文语料,可能被破坏的译文语料,原译文语料)。利用合成的三元平行语料进行一个双Transformer编码器到单Transformer解码器的预训练,得到预训练后编辑模型。其中双Transformer编码器为原文语言编码器和译文语言编码器。
随后,进行微调任务的训练数据获取,包括:
a)利用中文断句规则法对C中的原文语料进行断句,筛选出原文语料句子个数大于等于2的双语平行语料,形成一个子集C1。同样的,对T中的原文语料进行断句,筛选出原文语料句子个数为1的双语平行语料,形成另一个子集T1。利用语料库T1,构建一个基于Transformer模型的机器翻译引擎。然后将C1的原文语料输入至进该模型中进行解码产生机器翻译译文,产生三元组(C1原文,机器翻译译文,C1译文)。
b)利用Spacy工具对C中的译文语料进行实体识别,筛选出包含人名、地名、机构名,以及数字等实体的双语平行语料C2。随机修改C2译文语料中的实体名词,例如删除或替换,产生三元组(C2原文,实体名词被破坏的译文,C2译文)。
c)从T中筛选出***双语平行语料,构建一个基于Transformer模型的机器翻译引擎。从C中抽取一个子集C3,将C3的原文语料输入至该模型进行解码产生机器翻译译文,产生三元组(C3原文,机器翻译译文,C3译文)。
将a)、b)和c)中产生的三元组集合起来形成总的微调任务训练数据,对预训练后编辑模型进行微调,得到最终的后编辑模型。
下面对本发明实施例提供的译文后编辑装置进行描述,下文描述的译文后编辑装置与上文描述的译文后编辑方法可相互对应参照。
基于上述任一实施例,图3为本发明实施例提供的译文后编辑装置的结构示意图,如图3所示,该装置包括:译文确定单元310和后编辑单元320。
其中,译文确定单元310用于确定待编辑的机器翻译译文文本;
后编辑单元320用于将机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到后编辑模型输出的后编辑译文文本;
其中,后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;
预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本训练得到的。
本发明实施例提供的装置,通过基于样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本训练得到预训练后编辑模型,并基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到后编辑模型,通过预训练加微调的方式,以及错误模拟以合成译文数据的方式,提高了后编辑模型的训练效率和训练效果,提高了后编辑的准确性。
基于上述任一实施例,样本机器翻译译文文本对应长句翻译错误、实体名翻译错误以及领域翻译错误中的至少一种错误类型。
基于上述任一实施例,样本机器翻译译文文本是基于以下至少一种方式确定的:
应用第一机器翻译模型对样本微调原文文本进行翻译,得到长句翻译错误类型的样本机器翻译译文文本;第一机器翻译模型是基于第一样本翻译原文文本及其第一样本翻译译文文本训练得到的,样本微调原文文本为长句,第一样本翻译原文文本为短句;
对样本微调后编辑译文文本中的实体名进行随机修改,得到实体名翻译错误类型的样本机器翻译译文文本;
应用第二机器翻译模型对样本微调原文文本进行翻译,得到领域翻译错误类型的样本机器翻译译文文本;第二机器翻译模型是基于与样本微调原文文本领域不同的第二样本翻译原文文本及其第二样本翻译译文文本训练得到的。
本发明实施例提供的装置,通过不同的数据合成方式,可以高效生成对应三种不同翻译错误类型的样本机器翻译译文文本,省去了微调过程中的数据标注过程,可以进一步提高后编辑模型的训练效率。
基于上述任一实施例,预训练后编辑模型包括预训练的原文语言编码器和预训练的译文语言编码器,以及解码器。
本发明实施例提供的装置,通过预训练的原文语言编码器和预训练的译文语言编码器,以及解码器共同构建预训练后编辑模型,进一步提高了后编辑模型整体的训练效率。
基于上述任一实施例,预训练的原文语言编码器和预训练的译文语言编码器是基于对应语言的样本单语文本以及对样本单语文本进行常规错误模拟得到的样本错误文本训练得到的。
本发明实施例提供的装置,对应语言的样本单语文本以及对所述样本单语文本进行常规错误模拟得到的样本错误文本预训练得到原文语言编码器和译文语言编码器,能够编码得到包含正确语义信息的原文编码和译文编码,提高了编码的表达能力。
基于上述任一实施例,模拟译文文本是基于如下步骤确定的:
对样本预训练原文文本或样本预训练后编辑译文文本进行常规错误模拟,得到模拟译文文本。
基于上述任一实施例,该装置还包括常规错误模拟单元,用于:
随机选取对应文本中的若干文本片段,并对文本片段进行删除、重排、替换或转移操作。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行译文后编辑方法,该方法包括:确定待编辑的机器翻译译文文本;将所述机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到所述后编辑模型输出的后编辑译文文本;其中,所述后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及所述样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;所述预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及所述样本预训练原文文本的模拟译文文本训练得到的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的译文后编辑方法,该方法包括:确定待编辑的机器翻译译文文本;将所述机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到所述后编辑模型输出的后编辑译文文本;其中,所述后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及所述样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;所述预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及所述样本预训练原文文本的模拟译文文本训练得到的。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的译文后编辑方法,该方法包括:确定待编辑的机器翻译译文文本;将所述机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到所述后编辑模型输出的后编辑译文文本;其中,所述后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及所述样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;所述预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及所述样本预训练原文文本的模拟译文文本训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种译文后编辑方法,其特征在于,包括:
确定待编辑的机器翻译译文文本;
将所述机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到所述后编辑模型输出的后编辑译文文本;
其中,所述后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及所述样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;
所述预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及所述样本预训练原文文本的模拟译文文本训练得到的;
所述模拟译文文本是基于如下步骤确定的:
对所述样本预训练原文文本或所述样本预训练后编辑译文文本进行常规错误模拟,得到所述模拟译文文本。
2.根据权利要求1所述的译文后编辑方法,其特征在于,所述样本机器翻译译文文本对应长句翻译错误、实体名翻译错误以及领域翻译错误中的至少一种错误类型。
3.根据权利要求2所述的译文后编辑方法,其特征在于,所述样本机器翻译译文文本是基于以下至少一种方式确定的:
应用第一机器翻译模型对所述样本微调原文文本进行翻译,得到长句翻译错误类型的样本机器翻译译文文本;所述第一机器翻译模型是基于第一样本翻译原文文本及其第一样本翻译译文文本训练得到的,所述样本微调原文文本为长句,所述第一样本翻译原文文本为短句;
对所述样本微调后编辑译文文本中的实体名进行随机修改,得到实体名翻译错误类型的样本机器翻译译文文本;
应用第二机器翻译模型对所述样本微调原文文本进行翻译,得到领域翻译错误类型的样本机器翻译译文文本;所述第二机器翻译模型是基于与所述样本微调原文文本领域不同的第二样本翻译原文文本及其第二样本翻译译文文本训练得到的。
4.根据权利要求1所述的译文后编辑方法,其特征在于,所述预训练后编辑模型包括预训练的原文语言编码器和预训练的译文语言编码器,以及解码器。
5.根据权利要求4所述的译文后编辑方法,其特征在于,所述预训练的原文语言编码器和预训练的译文语言编码器是基于对应语言的样本单语文本以及对所述样本单语文本进行常规错误模拟得到的样本错误文本训练得到的。
6.根据权利要求1或5所述的译文后编辑方法,其特征在于,所述进行常规错误模拟具体包括:
随机选取对应文本中的若干文本片段,并对所述文本片段进行删除、重排、替换或转移操作。
7.一种译文后编辑装置,其特征在于,包括:
译文确定单元,用于确定待编辑的机器翻译译文文本;
后编辑单元,用于将所述机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到所述后编辑模型输出的后编辑译文文本;
其中,所述后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及所述样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;
所述预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及所述样本预训练原文文本的模拟译文文本训练得到的;
所述模拟译文文本是基于如下步骤确定的:
对所述样本预训练原文文本或所述样本预训练后编辑译文文本进行常规错误模拟,得到所述模拟译文文本。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述译文后编辑方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述译文后编辑方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011186869.1A CN112287696B (zh) | 2020-10-29 | 2020-10-29 | 译文后编辑方法、装置、电子设备和存储介质 |
PCT/CN2021/078814 WO2022088570A1 (zh) | 2020-10-29 | 2021-03-03 | 译文后编译方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011186869.1A CN112287696B (zh) | 2020-10-29 | 2020-10-29 | 译文后编辑方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287696A CN112287696A (zh) | 2021-01-29 |
CN112287696B true CN112287696B (zh) | 2024-02-23 |
Family
ID=74352729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011186869.1A Active CN112287696B (zh) | 2020-10-29 | 2020-10-29 | 译文后编辑方法、装置、电子设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112287696B (zh) |
WO (1) | WO2022088570A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287696B (zh) * | 2020-10-29 | 2024-02-23 | 语联网(武汉)信息技术有限公司 | 译文后编辑方法、装置、电子设备和存储介质 |
CN112836528B (zh) * | 2021-02-07 | 2023-10-03 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑方法及*** |
CN114091483B (zh) * | 2021-10-27 | 2023-02-28 | 北京百度网讯科技有限公司 | 翻译处理方法、装置、电子设备及存储介质 |
CN117273027B (zh) * | 2023-11-22 | 2024-04-30 | 四川语言桥信息技术有限公司 | 一种基于翻译错误纠正的机器翻译自动后校验方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670191A (zh) * | 2019-01-24 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 机器翻译的校准优化方法、装置与电子设备 |
CN111144137A (zh) * | 2019-12-17 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑模型语料的生成方法及装置 |
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
CN111597778A (zh) * | 2020-04-15 | 2020-08-28 | 哈尔滨工业大学 | 一种基于自监督的机器翻译译文自动优化的方法和*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6471074B2 (ja) * | 2015-09-30 | 2019-02-13 | 株式会社東芝 | 機械翻訳装置、方法及びプログラム |
CN105740218A (zh) * | 2015-12-31 | 2016-07-06 | 成都数联铭品科技有限公司 | 一种机器翻译后编辑处理方法 |
US10558762B2 (en) * | 2018-02-24 | 2020-02-11 | International Business Machines Corporation | System and method for adaptive quality estimation for machine translation post-editing |
CN112287696B (zh) * | 2020-10-29 | 2024-02-23 | 语联网(武汉)信息技术有限公司 | 译文后编辑方法、装置、电子设备和存储介质 |
-
2020
- 2020-10-29 CN CN202011186869.1A patent/CN112287696B/zh active Active
-
2021
- 2021-03-03 WO PCT/CN2021/078814 patent/WO2022088570A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670191A (zh) * | 2019-01-24 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 机器翻译的校准优化方法、装置与电子设备 |
CN111144137A (zh) * | 2019-12-17 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑模型语料的生成方法及装置 |
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
CN111597778A (zh) * | 2020-04-15 | 2020-08-28 | 哈尔滨工业大学 | 一种基于自监督的机器翻译译文自动优化的方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN112287696A (zh) | 2021-01-29 |
WO2022088570A1 (zh) | 2022-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287696B (zh) | 译文后编辑方法、装置、电子设备和存储介质 | |
CN110852117B (zh) | 一种提升神经机器翻译效果的有效数据增强方法 | |
WO2018010455A1 (zh) | 一种基于神经网络的翻译方法及装置 | |
CN109840331B (zh) | 一种基于用户词典的神经机器翻译方法 | |
CN112766000B (zh) | 基于预训练模型的机器翻译方法及*** | |
US8874433B2 (en) | Syntax-based augmentation of statistical machine translation phrase tables | |
CN111144140B (zh) | 基于零次学习的中泰双语语料生成方法及装置 | |
CN112329447B (zh) | 中文纠错模型的训练方法、中文纠错方法及装置 | |
CN112818712B (zh) | 基于翻译记忆库的机器翻译方法及装置 | |
CN111144137B (zh) | 机器翻译后编辑模型语料的生成方法及装置 | |
CN112541365B (zh) | 基于术语替换的机器翻译方法及装置 | |
Bertoldi et al. | A new decoder for spoken language translation based on confusion networks | |
CN111539199A (zh) | 文本的纠错方法、装置、终端、及存储介质 | |
CN115587590A (zh) | 训练语料集构建方法、翻译模型训练方法、翻译方法 | |
Afli et al. | Integrating optical character recognition and machine translation of historical documents | |
CN109657244B (zh) | 一种英文长句自动切分方法及*** | |
Ahmadnia et al. | Round-trip training approach for bilingually low-resource statistical machine translation systems | |
CN112836528B (zh) | 机器翻译后编辑方法及*** | |
CN114861628A (zh) | 训练机器翻译模型的***、方法、电子设备及存储介质 | |
CN114185573A (zh) | 一种人机交互机器翻译***的实现和在线更新***及方法 | |
CN117034968B (zh) | 神经机器翻译方法、装置、电子设备及介质 | |
CN110287496A (zh) | 一种基于神经网络的英译汉词义消歧方法 | |
CN116029310A (zh) | 机器翻译自动后编辑方法及装置 | |
CN114595703A (zh) | 交互式机器翻译方法和装置、存储介质、电子装置 | |
CN117709370A (zh) | 文本翻译方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |