CN112633017A

CN112633017A - 翻译模型训练、翻译处理方法、装置、设备和存储介质

Info

Publication number: CN112633017A
Application number: CN202011555680.5A
Authority: CN
Inventors: 姜博健; 张睿卿; 李芝; 何中军; 吴华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-09
Anticipated expiration: 2040-12-24
Also published as: CN112633017B

Abstract

本申请公开了翻译模型训练、翻译处理方法、装置、设备和存储介质，涉及深度学习等人工智能技术领域。具体实现方案为：通过获取多种语言训练语料，并对多种语言训练语料按照语种进行聚类，获取多个类簇训练语料，对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料，根据每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。由此，使用聚类方法让具有相似语言特征的语种共同训练，有利于提升翻译模型的泛化能力，以及增加低资源小语种的训练语料数据量进行训练翻译模型，从而提高翻译质量。

Description

翻译模型训练、翻译处理方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域的深度学习等人工智能技术领域，尤其涉及一种翻译模型训练、翻译处理方法、装置、设备和存储介质。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几个大方向。

随着深度学习技术和全球国际化的不断发展，机器翻译需求日渐增多，国际交流更加频繁，多语种机器翻译的需求也逐渐变多。

相关技术中，使用一对一翻译模型对双语句对进行建模，然而，多语种之间相互翻译方向比较多，部署成本较高，以及任意两个语种之间很可能不存在平行语料，导致某些翻译方向的翻译装置无法训练，翻译质量和效率都比较差。

发明内容

本公开提供了一种用于翻译模型训练、翻译处理的方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种翻译模型训练方法，包括：

获取多种语言训练语料，并对所述多种语言训练语料按照语种进行聚类，获取多个类簇训练语料；

对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料；

根据所述每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。

根据本公开的另一方面，提供了一种应用权里要求1-5任一项所述翻译模型的翻译处理方法，包括：

获取待翻译文本和目标语言；

在检测所述待翻译文本的源语言和所述目标语言属于同一类簇的情况下，获取翻译子模型，对所述待翻译文本进行翻译，获取翻译结果；

在检测所述待翻译文本的源语言和所述目标语言不属于同一类簇的情况下，获取第一翻译子模型对所述待翻译文本进行翻译，获取候选翻译结果；

获取第二翻译子模型，对所述候选翻译结果进行翻译，获取目标翻译结果。

根据本公开的又一方面，提供了一种翻译模型训练装置，包括：

第一获取模块，用于获取多种语言训练语料；

第二获取模块，用于对所述多种语言训练语料按照语种进行聚类，获取多个类簇训练语料；

第一处理模块，用于对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料；

训练模块，用于根据所述每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。

根据本公开的再一方面，提供了一种所述翻译模型的翻译处理装置，包括：

第四获取模块，用于获取待翻译文本和目标语言；

第五获取模块，用于在检测所述待翻译文本的源语言和所述目标语言属于同一类簇的情况下，获取翻译子模型，对所述待翻译文本进行翻译，获取翻译结果；

第六获取模块，用于在检测所述待翻译文本的源语言和所述目标语言不属于同一类簇的情况下，获取第一翻译子模型对所述待翻译文本进行翻译，获取候选翻译结果；

第七获取模块，用于获取第二翻译子模型，对所述候选翻译结果进行翻译，获取目标翻译结果。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例描述的翻译模型训练、翻译处理方法。

根据第六方面，提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述实施例描述的翻译模型训练、翻译处理方法。

根据第七方面，提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，使得服务器能够执行第一方面实施例所述的翻译模型训练、翻译处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的翻译模型训练方法的流程图；

图2是根据本申请第二实施例的翻译模型训练方法的流程图；

图3是根据本申请第三实施例的翻译模型训练方法的流程图；

图4是根据本申请第四实施例的翻译处理方法的流程图；

图5是根据本申请实施例的翻译处理的示例图；

图6是根据本申请第五实施例的翻译处理方法的流程图；

图7是根据本申请第六实施例的翻译模型训练装置的结构图；

图8是根据本申请第七实施例的翻译处理装置的结构图；

图9是用来实现本申请实施例的翻译模型训练、翻译处理的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

基于上述描述，在实际应用中，比如支持200个语种互译，翻译方向达到40000个，使用一对一翻译模型对双语句对进行建模需要40000个翻译装置，维护成本极高，以及任意两个语种之间很可能不存在平行语料，导致某些翻译方向的翻译装置无法训练，翻译质量和效率都比较差。

针对上述问题，本申请提出一种翻译模型训练方法，使用聚类方法让具有相似语言特征的语种共同训练，有利于提升翻译模型的泛化能力，以及增加低资源小语种的训练语料数据量，从而提高翻译质量，本申请还提出一种应用上述训练的翻译模型进行翻译处理，在翻译解码阶段，通过限制字候选集来提升翻译质量并加快解码速度。

首先，图1是根据本申请第一实施例的翻译模型训练方法的流程图，翻译模型训练方法用于电子设备中，其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑(Personal Computer，简称PC)、移动终端等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作***、触摸屏和/或显示屏的硬件设备。

如图1所示，该方法包括：

步骤101，获取多种语言训练语料，并对多种语言训练语料按照语种进行聚类，获取多个类簇训练语料。

在本申请实施例中，多种语言训练语料指的是不同种语种对应的训练语料，比如土耳其语的训练语料1、俄语的训练语料2和中文的训练语料3等，因此，训练语料1、训练语料2和训练语料3等构成多种语言训练语料。

在本申请实施例中，训练语料可以实时采集对应语种的文本信息，也可以基于历史记录对应的数据库中获取，以文本为例，比如可以实时获取用户输入的文本信息“今天天气如何”和“今天天气不错”等文本信息作为训练语料，也可以基于用户历史搜索记录等方式获取历史文本信息作为训练语料等，具体根据应用场景选择设置。

进一步地，对多种语言训练语料按照语种进行聚类，获取多个类簇训练语料，也就是说，按照相似语言特征按照语种进行聚类，可以根据应用场景需要选择设置，举例说明如下。

第一种示例，针对多种语言训练语料，在源语言的预设位置加入每种目标语言对应的标签，训练源语言到每种目标语言的语言翻译模型，在训练完成后，获取每个目标语言的标签编码，通过预设聚类算法根据每个目标语言的标签编码进行聚类，获取多个类簇，将多种语言训练语料按照多个类簇进行划分，获取多个类簇训练语料。

第二种示例，使用单语训练语料训练预训练语言模型，在每个句子前加上对应的标签，训练完成后，获取标签编码，根据标签编码进行聚类，获取多个类簇，将多种语言训练语料按照多个类簇进行划分，获取多个类簇训练语料。

步骤102，对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料。

在本申请实施例中，目标语种资源指的是需要进行增加训练语料数据量的资源，即低资源语种。因此，通过对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料，从而保证每个类簇中的每个语种的训练语料的数据量都比较多，从而提高训练获取的翻译模型的后续的翻译质量。

在本申请实施例中，对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料的方式有很多种，可以根据实际应用需要进行选择设置，举例说明如下。

第一种示例，获取目标语种资源的目标短语片段，获取与目标短语片段匹配的相关短语片段，并确定相关短语片段对应的相关语种资源，对相关语种资源的训练语料进行采样处理，获取候选训练语料，将候选训练语料添加到目标语种资源对应的训练语料中，获取每个类簇目标训练语料。

第二种示例，在每个类簇训练语料中获取与目标语种资源对应的候选语种资源，获取候选语种资源的候选训练语料，并对候选训练语料进行字词拆分，获取多个字词语料，将多个字词语料添加到目标语种资源对应的训练语料中，获取每个类簇目标训练语料。

第三种示例，在根据每个类簇目标训练语料对翻译模型进行训练的过程中，获取每个类簇目标训练语料中的单语料数据，通过预训练语言模型对单语料数据进行编码处理，将进行编码处理的训练向量进行翻译模型的训练。

步骤103，根据每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。

在本申请实施例中，在获取每个类簇的目标训练语料后，按照每个类簇进行翻译模型训练，比如由两个循环神经网络组成的处理输入的编码器网络和产生输出的解码器网络，根据目标训练语料进行训练，生成多个子翻译模型。

本申请实施例的翻译模型训练方法，通过获取多种语言训练语料，并对多种语言训练语料按照语种进行聚类，获取多个类簇训练语料，对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料，根据每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。由此，使用聚类方法让具有相似语言特征的语种共同训练，有利于提升翻译模型的泛化能力，以及增加低资源小语种的训练语料数据量进行训练翻译模型，从而提高翻译质量。

基于上述实施例，对目标语种的训练语料的数据量进行增加的方式有很多种，下面结合图2和图3分别以单一方式或者多种结合方式进行处理。

具体地，本申请提出另一种翻译模型训练方法，以单一方式进行数据处理，图2是根据本申请第二实施例的翻译模型训练方法的流程图，如图2所示：

步骤201，针对多种语言训练语料，在源语言的预设位置加入每种目标语言对应的标签，训练源语言到每种目标语言的语言翻译模型，在训练完成后，获取每个目标语言的标签编码。

在本申请实施例中，源语言通常为英语，即本申请的语言翻译模型为英语到小语种的翻译模型，在英文数据前加入目标语种的标签，训练完成后，可以将标签编码抽取出来进行聚类处理，比如目标语种分别为土耳其语、俄语和乌克兰语，在英文数据加入标签A训练后获取标签A编码，在英文数据加入标签B训练后获取标签B编码，其中，标签标识唯一语种。

步骤202，通过预设聚类算法根据每个目标语言的标签编码进行聚类，获取多个类簇，将多种语言训练语料按照多个类簇进行划分，获取多个类簇训练语料。

进一步地，使用预设聚类算法，比如Kmeans无监督聚类算法，对所有语种的标签编码进行无监督聚类，将具有相同属性语言的标签编码聚类在一起多个类簇，将多种语言训练语料按照多个类簇进行划分，获取多个类簇训练语料，比如将俄语和乌克兰语为一个类簇，从而从多种语言训练语料中俄语训练语料和乌克兰语训练语料作为这一类簇的训练语料。由此，使用聚类方法让具有相似语言特征的语种共同训练，有利于提升翻译模型的泛化能力。

步骤203，获取目标语种资源的目标短语片段，获取与目标短语片段匹配的相关短语片段，并确定相关短语片段对应的相关语种资源。

步骤204，对相关语种资源的训练语料进行采样处理，获取候选训练语料，将候选训练语料添加到目标语种资源对应的训练语料中，获取每个类簇目标训练语料。

在本申请实施例中，目标语种资源为低资源小语种的训练语料十分稀缺，双语数据搜集很困难，通常，低资源语种一般可以找到和其相关性较高的高资源语种，两者在语法、文字上有很强的相关性，也存在相同的连续短语片段，对含有相同短语片段的高资源语种的训练语料对进行过采样，通过这种方式变相增加低资源小语种训练数据量，缓解低资源小语种的数据稀缺问题。

步骤205，根据每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。

本申请实施例的翻译模型训练方法，通过针对多种语言训练语料，在源语言的预设位置加入每种目标语言对应的标签，训练源语言到每种目标语言的语言翻译模型，在训练完成后，获取每个目标语言的标签编码，通过预设聚类算法根据每个目标语言的标签编码进行聚类，获取多个类簇，将多种语言训练语料按照多个类簇进行划分，获取多个类簇训练语料，获取目标语种资源的目标短语片段，获取与目标短语片段匹配的相关短语片段，并确定相关短语片段对应的相关语种资源，对相关语种资源的训练语料进行采样处理，获取候选训练语料，将候选训练语料添加到目标语种资源对应的训练语料中，获取每个类簇目标训练语料，根据每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。由此，使用聚类方法让具有相似语言特征的语种共同训练，有利于提升翻译模型的泛化能力，以及增加低资源小语种的训练语料数据量进行训练翻译模型，从而提高翻译质量。

图3是根据本申请第三实施例的翻译模型训练方法的流程图，如图3所示：

步骤301，获取多种语言训练语料，并对多种语言训练语料按照语种进行聚类，获取多个类簇训练语料。

步骤302，获取目标语种资源的目标短语片段，获取与目标短语片段匹配的相关短语片段，并确定相关短语片段对应的相关语种资源。

步骤303，对相关语种资源的训练语料进行采样处理，获取候选训练语料，将候选训练语料添加到目标语种资源对应的训练语料中。

步骤304，在每个类簇训练语料中获取与目标语种资源对应的候选语种资源，获取候选语种资源的候选训练语料。

步骤305，对候选训练语料进行字词拆分，获取多个字词语料，将多个字词语料添加到目标语种资源对应的训练语料中，生成每个类簇目标训练语料。

在本申请实施例中，目标语种资源为低资源小语种，高资源语种(如土耳其语)和低资源语种(如阿塞拜疆语)混合训练，由于两个语种存在很大的相似性，低资源语种可以从高资源语种中学习到有用的知识表示，通常情况下，高资源语种的词根表示是唯一的，将高资源语种表示成多种词根粒度，那么低资源语种可以从混合粒度的高资源语种中学习到更多知识表示，也就是说，对候选训练语料进行字词拆分，获取多个字词语料，将多个字词语料添加到目标语种资源对应的训练语料中，生成每个类簇目标训练语料，增加低资源小语种训练数据量，缓解低资源小语种的数据稀缺问题。

步骤306，根据每个类簇目标训练语料对翻译模型进行训练的过程中，获取每个类簇目标训练语料中的单语料数据。

步骤307，通过预训练语言模型对单语料数据进行编码处理，将进行编码处理的训练向量进行翻译模型的训练，生成多个子翻译模型。

在本申请实施例中，采用预训练语言模型对单语料数据进行编码处理，将进行编码处理的训练向量进行翻译模型的训练，因为低资源语种虽然平行语料很少，但单语数据却可以通过互联网进行大量搜集，仅使用平行语料对翻译模型进行训练时，低资源语种的翻译方向训练很不充分，因此使用单语数据进行预训练语言模型再进行迁移学习，提高翻译模型训练效果。

因此，充分利用单语数据进行预训练语言模型，再进行迁移学习，丰富低资源小语种的语义表示，缓解低资源小语种训练数据不充分的问题。

本申请实施例的翻译模型训练方法，通过获取多种语言训练语料，并对多种语言训练语料按照语种进行聚类，获取多个类簇训练语料，获取目标语种资源的目标短语片段，获取与目标短语片段匹配的相关短语片段，并确定相关短语片段对应的相关语种资源，对相关语种资源的训练语料进行采样处理，获取候选训练语料，将候选训练语料添加到目标语种资源对应的训练语料中，在每个类簇训练语料中获取与目标语种资源对应的候选语种资源，获取候选语种资源的候选训练语料，对候选训练语料进行字词拆分，获取多个字词语料，将多个字词语料添加到目标语种资源对应的训练语料中，生成每个类簇目标训练语料，根据每个类簇目标训练语料对翻译模型进行训练的过程中，获取每个类簇目标训练语料中的单语料数据，通过预训练语言模型对单语料数据进行编码处理，将进行编码处理的训练向量进行翻译模型的训练，生成多个子翻译模型。由此，使用聚类方法让具有相似语言特征的语种共同训练，有利于提升翻译模型的泛化能力，以及增加低资源小语种的训练语料数据量进行训练翻译模型，从而提高翻译质量。

图4是根据本申请第四实施例的翻译处理方法的流程图，如图4所示：

步骤401，获取待翻译文本和目标语言。

步骤402，在检测待翻译文本的源语言和目标语言属于同一类簇的情况下，获取翻译子模型，对待翻译文本进行翻译，获取翻译结果。

步骤403，在检测待翻译文本的源语言和目标语言不属于同一类簇的情况下，获取第一翻译子模型对待翻译文本进行翻译，获取候选翻译结果。

步骤404，获取第二翻译子模型，对候选翻译结果进行翻译，获取目标翻译结果。

在本申请实施例中，接收客户端输入的待翻译文本和目标语言，根据待翻译文本的源语言和目标语言确定翻译子模型，在检测待翻译文本的源语言和目标语言属于同一类簇的情况下，获取翻译子模型，对待翻译文本进行翻译，获取翻译结果，在检测待翻译文本的源语言和目标语言不属于同一类簇的情况下，获取第一翻译子模型对待翻译文本进行翻译，获取候选翻译结果，再通过获取第二翻译子模型，对候选翻译结果进行翻译，获取目标翻译结果。

举例而言，上述实施例中，每个翻译子模型使用非英文语种到英文的平行语料进行训练，两个不同的子翻译子模型中的任意两个语种使用英文做跳转，如图5所示，比如待翻译文本的源语言为俄语和目标语言为乌克兰语，属于同一类簇，直接通过该类簇对应翻译子模型进行翻译获取翻译结果；再比如待翻译文本的源语言为土耳其语和目标语言为乌克兰语，不属于同一类簇的情况下，获取土耳其语所属类簇的第一翻译子模型对待翻译文本进行翻译，获取候选翻译结果，再通过获取乌克兰语所属类簇的第二翻译子模型对候选翻译结果进行翻译，获取目标翻译结果。

本申请实施例的翻译处理方法，通过获取待翻译文本和目标语言，在检测待翻译文本的源语言和目标语言属于同一类簇的情况下，获取翻译子模型，对待翻译文本进行翻译，获取翻译结果，在检测待翻译文本的源语言和目标语言不属于同一类簇的情况下，获取第一翻译子模型对待翻译文本进行翻译，获取候选翻译结果，获取第二翻译子模型，对候选翻译结果进行翻译，获取目标翻译结果。由此，能够快速获取高质量的翻译文本。

基于上述实施例的描述，图6是根据本申请第五实施例的翻译处理方法的流程图，如图6所示，在对待翻译文本进行翻译的过程中，可以进一步处理，通过限制字候选集来提升翻译质量并加快解码速度。具体地：

步骤501，在对待翻译文本进行翻译的过程中，获取待翻译文本中的每个待翻译字。

步骤502，获取与每个待翻译字对应的字候选集，获取每个待翻译字对应的字候选集中每个候选字的错误概率。

步骤503，在错误概率大于预设阈值的情况下，将候选字从字候选集中删除。

在本申请实施例中，由于目标语是多语种混合，自回归方式生成译文可能生成其他语种的字符，例如，英语到土耳其语的翻译任务，土耳其语作为目标语，不存在非拉丁文字符(如***语使用的字符)，但在翻译过程中，可能会出现***语的候选字，在自然语言处理的生成任务中，目标语词表的所有字作为字候选集，很难把控译文的忠实度。

因此，比如针对目标语是非拉丁文的翻译方向，限制目标语词表的字候选集，通过这种方式，明显改善稀缺资源小语种的译文忠实度，人工评价有很大提升。

其中，预设阈值可以根据应用场景选择设置。

举例而言，在“how are you”翻译成中文的过程中，比如在进行“are”翻译时，获取的字候选集中存在“是”的错误概率为百分之九十，大于预设阈值百分六十，将“是”这个候选字从字候选集中删除。

由此，不仅可以提高译文生成的忠实度，还可以加速翻译过程，以及使用小词表可以减少大量计算。

为了实现上述实施例，本申请还提出了一种翻译模型训练装置。图7是根据本申请第六实施例的翻译模型训练装置的结构示意图，如图7所示，该翻译模型训练装置包括：第一获取模块701、第二获取模块702、第一处理模块703和训练模块704。

其中，第一获取模块701，用于获取多种语言训练语料。

第二获取模块702，用于对所述多种语言训练语料按照语种进行聚类，获取多个类簇训练语料。

第一处理模块703，用于对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料。

训练模块704，用于根据所述每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。

在本申请实施例中，第二获取模块702，具体用于：针对多种语言训练语料，在源语言的预设位置加入每种目标语言对应的标签；

训练源语言到所述每种目标语言的语言翻译模型，在训练完成后，获取每个目标语言的标签编码；通过预设聚类算法根据每个目标语言的标签编码进行聚类，获取多个类簇，将多种语言训练语料按照多个类簇进行划分，获取多个类簇训练语料。

在本申请实施例中，第一处理模块703，具体用于：获取目标语种资源的目标短语片段；获取与目标短语片段匹配的相关短语片段，并确定相关短语片段对应的相关语种资源；对相关语种资源的训练语料进行采样处理，获取候选训练语料；将候选训练语料添加到目标语种资源对应的训练语料中，获取每个类簇目标训练语料。

在本申请实施例中，第一处理模块703，具体用于：在每个类簇训练语料中获取与目标语种资源对应的候选语种资源；获取候选语种资源的候选训练语料，并对候选训练语料进行字词拆分，获取多个字词语料；将多个字词语料添加到目标语种资源对应的训练语料中，获取每个类簇目标训练语料。

在本申请实施例中，翻译模型训练装置，还包括：第三获取模块，用于在根据所述每个类簇目标训练语料对翻译模型进行训练的过程中，获取每个类簇目标训练语料中的单语料数据；第二处理模块，用于通过预训练语言模型对所述单语料数据进行编码处理，将进行编码处理的训练向量进行所述翻译模型的训练。

需要说明的是，前述对翻译模型训练方法的解释说明，也适用于本发明实施例的翻译模型训练装置，其实现原理类似，在此不再赘述。

本申请实施例的翻译模型训练装置，通过获取多种语言训练语料，并对多种语言训练语料按照语种进行聚类，获取多个类簇训练语料，对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料，根据每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。由此，使用聚类方法让具有相似语言特征的语种共同训练，有利于提升翻译模型的泛化能力，以及增加低资源小语种的训练语料数据量进行训练翻译模型，从而提高翻译质量。

为了实现上述实施例，本申请还提出了一种翻译处理装置。图8是根据本申请第七实施例的翻译处理装置的结构示意图，如图8所示，该翻译处理装置包括：第四获取模块801、第五获取模块802、第六获取模块803和第七获取模块804。

其中，第四获取模块801，用于获取待翻译文本和目标语言。

第五获取模块802，用于在检测待翻译文本的源语言和目标语言属于同一类簇的情况下，获取翻译子模型，对待翻译文本进行翻译，获取翻译结果。

第六获取模块803，用于在检测待翻译文本的源语言和目标语言不属于同一类簇的情况下，获取第一翻译子模型对待翻译文本进行翻译，获取候选翻译结果。

第七获取模块804，用于获取第二翻译子模型，对候选翻译结果进行翻译，获取目标翻译结果。

在本申请实施例中，翻译处理装置，还包括：第八获取模块，用于在对待翻译文本进行翻译的过程中，获取待翻译文本中的每个待翻译字；第九获取模块，用于获取与每个待翻译字对应的字候选集，获取每个待翻译字对应的字候选集中每个候选字的错误概率；删除模块，用于在错误概率大于预设阈值的情况下，将候选字从字候选集中删除。

需要说明的是，前述对翻译处理方法的解释说明，也适用于本发明实施例的翻译处理装置，其实现原理类似，在此不再赘述。

本申请实施例的翻译处理装置，通过获取待翻译文本和目标语言，在检测待翻译文本的源语言和目标语言属于同一类簇的情况下，获取翻译子模型，对待翻译文本进行翻译，获取翻译结果，在检测待翻译文本的源语言和目标语言不属于同一类簇的情况下，获取第一翻译子模型对待翻译文本进行翻译，获取候选翻译结果，获取第二翻译子模型，对候选翻译结果进行翻译，获取目标翻译结果。由此，能够快速获取高质量的翻译文本。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的翻译模型训练、翻译处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的翻译模型训练、翻译处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的翻译模型训练、翻译处理的方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的翻译模型训练、翻译处理的方法对应的程序指令/模块(例如，附图7所示的第一获取模块701、第二获取模块702、第一处理模块703和训练模块704)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的翻译模型训练、翻译处理的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据翻译模型训练、翻译处理的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至翻译模型训练、翻译处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

翻译模型训练、翻译处理的方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与翻译模型训练、翻译处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷，服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，通过获取多种语言训练语料，并对多种语言训练语料按照语种进行聚类，获取多个类簇训练语料，对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料，根据每个类簇目标训练语料对翻译模型进行训练，生成多个子翻译模型。由此，使用聚类方法让具有相似语言特征的语种共同训练，有利于提升翻译模型的泛化能力，以及增加低资源小语种的训练语料数据量进行训练翻译模型，从而提高翻译质量。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种翻译模型训练方法，包括：

2.如权利要求1所述的翻译模型训练方法，其中，所述对所述多种语言训练语料按照语种进行聚类，获取多个类簇训练语料，包括：

针对所述多种语言训练语料，在源语言的预设位置加入每种目标语言对应的标签；

训练所述源语言到所述每种目标语言的语言翻译模型，在训练完成后，获取所述每个目标语言的标签编码；

通过预设聚类算法根据所述每个目标语言的标签编码进行聚类，获取多个类簇，将所述多种语言训练语料按照所述多个类簇进行划分，获取所述多个类簇训练语料。

3.如权利要求1所述的翻译模型训练方法，其中，所述对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料，包括：

获取所述目标语种资源的目标短语片段；

获取与所述目标短语片段匹配的相关短语片段，并确定所述相关短语片段对应的相关语种资源；

对所述相关语种资源的训练语料进行采样处理，获取候选训练语料；

将所述候选训练语料添加到所述目标语种资源对应的训练语料中，获取所述每个类簇目标训练语料。

4.如权利要求1所述的翻译模型训练方法，其中，所述对每个类簇训练语料中的目标语种资源进行训练语料处理，获取每个类簇目标训练语料，包括：

在所述每个类簇训练语料中获取与所述目标语种资源对应的候选语种资源；

获取所述候选语种资源的候选训练语料，并对所述候选训练语料进行字词拆分，获取多个字词语料；

将所述多个字词语料添加到所述目标语种资源对应的训练语料中，获取所述每个类簇目标训练语料。

5.如权利要求1所述的翻译模型训练方法，还包括：

在所述根据所述每个类簇目标训练语料对翻译模型进行训练的过程中，获取所述每个类簇目标训练语料中的单语料数据；

通过预训练语言模型对所述单语料数据进行编码处理，将进行编码处理的训练向量进行所述翻译模型的训练。

6.一种应用权里要求1-5任一项所述翻译模型的翻译处理方法，其特征在于，包括：

获取待翻译文本和目标语言；

7.如权利要求6所述的翻译处理方法，还包括：

在对所述待翻译文本进行翻译的过程中，获取所述待翻译文本中的每个待翻译字；

获取与所述每个待翻译字对应的字候选集，获取所述每个待翻译字对应的字候选集中每个候选字的错误概率；

在所述错误概率大于预设阈值的情况下，将所述候选字从所述字候选集中删除。

8.一种翻译模型训练装置，包括：

第一获取模块，用于获取多种语言训练语料；

9.如权利要求8所述的翻译模型训练装置，其中，所述第二获取模块，具体用于：

10.如权利要求8所述的翻译模型训练装置，其中，所述第一处理模块，具体用于：

获取所述目标语种资源的目标短语片段；

11.如权利要求8所述的翻译模型训练装置，其中，所述第一处理模块，具体用于：

12.如权利要求8所述的翻译模型训练装置，还包括：

第三获取模块，用于在所述根据所述每个类簇目标训练语料对翻译模型进行训练的过程中，获取所述每个类簇目标训练语料中的单语料数据；

第二处理模块，用于通过预训练语言模型对所述单语料数据进行编码处理，将进行编码处理的训练向量进行所述翻译模型的训练。

13.一种应用权里要求8--12任一项所述翻译模型的翻译处理装置，其特征在于，包括：

第四获取模块，用于获取待翻译文本和目标语言；

14.如权利要求13所述的翻译处理装置，还包括：

第八获取模块，用于在对所述待翻译文本进行翻译的过程中，获取所述待翻译文本中的每个待翻译字；

第九获取模块，用于获取与所述每个待翻译字对应的字候选集，获取所述每个待翻译字对应的字候选集中每个候选字的错误概率；

删除模块，用于在所述错误概率大于预设阈值的情况下，将所述候选字从所述字候选集中删除。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。