CN111950302A

CN111950302A - 基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质

Info

Publication number: CN111950302A
Application number: CN202010843014.5A
Authority: CN
Inventors: 袁秋龙
Original assignee: Shanghai Zhilv Information Technology Co ltd
Current assignee: Shanghai Zhilv Information Technology Co ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-17
Anticipated expiration: 2040-08-20
Also published as: CN111950302B

Abstract

本发明提供一种基于知识蒸馏的机器翻译模型训练方法、装置、设备和介质，该方法包括：获取教师模型和学生模型；获取样本数据集，包含训练语料；将训练语料输入教师模型，得到教师模型中被简化模块输出的中间内容、教师模型输出的最终结果；将训练语料输入学生模型，得到学生模型中被简化模块输出的中间内容、学生模型输出的最终结果；根据训练语料的标注翻译标签、教师模型中被简化模块输出的中间内容、教师模型输出的最终结果、学生模型中被简化模块输出的中间内容、学生模型输出的最终结果，确定模型损失函数；根据模型损失函数对学生模型进行迭代训练。本发明利用教师模型对学生模型进行训练，在模型结构简化的情况下，保证模型的性能效果。

Description

基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质。

背景技术

机器翻译(machine translation)，又称为自动翻译，是利用计算机将一种自然源语言转变为另一种自然目标语言的过程，一般指自然语言之间句子和全文的翻译。机器翻译是自然语言处理(Natural Language Processing)的一个分支，与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。使用机器进行翻译的思想最早由Warren Weaver于1949年提出。在很长一段时间里(20世纪50年代到80年代)，机器翻译都是通过研究源语言与目标语言的语言学信息来实现的，也就是基于词典和语法生成翻译，这被称为基于规则的机器翻译(RBMT)。随着统计学的发展，研究者开始将统计模型应用于机器翻译，这种方法是基于对双语文本数据库的分析来生成翻译结果。这种方法被称为统计机器翻译(SMT)，它的表现比RBMT更好，并且在1980年代到2000年代之间主宰了这一领域。1997年，Ramon Neco和MikelForcada提出了使用编码器-解码器(Encoder-Decoder)结构做机器翻译的想法。几年之后的2003年，蒙特利尔大学Yoshua Bengio领导的一个研究团队开发了一个基于神经网络的语言模型，改善了传统SMT模型的数据稀疏性问题。他们的研究工作为未来神经网络在机器翻译上的应用奠定了基础。

2017年，谷歌(Google)在论文《Attention Is All You Need》中提出了Transformer模型。这种基于自注意力机制的模型能够很好地解决序列模型的问题，其被应用于机器翻译任务中，大大提高了翻译的效果。然而，一方面，随着Transformer系列从BERT到GPT2再到XLNet模型的发展，翻译模型容量的增大，虽然在一定程度上能够改善翻译的效果，但导致翻译模型线上的推理性能(延迟和吞吐)却越来越差，如何提高线上翻译模型的推理性能是决定翻译模型能否被良好部署及提供用户友好型服务的关键因素；另一方面，随着接入的外语语种数量剧增，如何在不损失模型翻译效果的前提下对模型进行有效的压缩，便于模型存储和发布，是对算法模型进行工程部署所要面对的重要问题。

发明内容

针对上述现有技术的不足，本发明的目的在于提供一种基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质，以在尽量不影响模型效果的前提下，根据教师模型训练简化的学生模型，提升模型部署到线上时的吞吐量，降低模型的延迟，进而提升用户体验。

为了实现上述目的，本发明提供一种基于知识蒸馏的机器翻译模型训练方法，包括：

获取训练好的教师模型以及未训练的学生模型，所述学生模型通过简化所述教师模型中的部分模块得到；

获取样本数据集，所述样本数据集包含若干训练语料、以及所述训练语料对应的标注翻译标签；

将所述训练语料输入所述教师模型进行处理，得到所述教师模型中被简化模块输出的中间内容、以及所述教师模型输出的最终结果；

将所述训练语料输入所述学生模型进行处理，得到所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果；

根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果，确定模型损失函数；

根据所述模型损失函数对所述学生模型进行迭代训练。

在本发明一个优选实施例中，所述根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果，确定模型损失函数，包括：

根据所述教师模型中被简化模块输出的中间内容、以及所述学生模型中被简化模块输出的中间内容，确定第一损失函数；

根据所述训练语料对应的标注翻译标签、以及所述学生模型输出的最终结果，确定第二损失函数；

根据所述教师模型输出的最终结果、以及所述学生模型输出的最终结果，确定第三损失函数；

根据所述第一损失函数、第二损失函数和第三损失函数，确定所述模型损失函数。

在本发明一个优选实施例中，所述教师模型和学生模型分别包含嵌入模块、编码模块、解码模块和输出模块。

在本发明一个优选实施例中，所述学生模型与所述教师模型的嵌入模块、编码模块和输出模块的结构一致，所述学生模型的解码模块通过简化所述教师模型的解码模块得到，所述学生模型的解码模块与所述教师模型的解码模块之间设有全连接层。

在本发明一个优选实施例中，当获取所述样本数据集后，所述方法还包括：对所述训练语料进行预处理。

在本发明一个优选实施例中，所述对所述训练语料进行预处理，包括：

将所述训练语料中的文字转换为对应的数值；

将所述训练语料划分为不同的批次，并通过零值填充方式将每批次所述训练语料调整为相同长度。

为了实现上述目的，本发明还提供一种基于知识蒸馏的机器翻译模型训练装置，包括：

模型获取模块，用于获取训练好的教师模型以及未训练的学生模型，所述学生模型通过简化所述教师模型中的部分模块得到；

样本获取模块，用于获取样本数据集，所述样本数据集包含若干训练语料、以及所述训练语料对应的标注翻译标签；

教师模型处理模块，用于将所述训练语料输入所述教师模型进行处理，得到所述教师模型中被简化模块输出的中间内容、以及所述教师模型输出的最终结果；

学生模型处理模块，用于将所述训练语料输入所述学生模型进行处理，得到所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果；

模型损失函数确定模块，用于根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果，确定模型损失函数；

模型训练模块，用于根据所述模型损失函数对所述学生模型进行迭代训练。

在本发明一个优选实施例中，所述模型损失函数确定模块包括：

第一损失函数确定单元，用于根据所述教师模型中被简化模块输出的中间内容、以及所述学生模型中被简化模块输出的中间内容，确定第一损失函数；

第二损失函数确定单元，用于根据所述训练语料对应的标注翻译标签、以及所述学生模型输出的最终结果，确定第二损失函数；

第三损失函数确定单元，用于根据所述教师模型输出的最终结果、以及所述学生模型输出的最终结果，确定第三损失函数；

模型损失函数确定单元，用于根据所述第一损失函数、第二损失函数和第三损失函数，确定所述模型损失函数。

在本发明一个优选实施例中，所述装置还包括：预处理模块，用于当获取所述样本数据集后，对所述训练语料进行预处理。

在本发明一个优选实施例中，所述预处理模块包括：

数值转换单元，用于将所述训练语料中的文字转换为对应的数值；

长度调整单元，用于将所述训练语料划分为不同的批次，并通过零值填充方式将每批次所述训练语料调整为相同长度。

为了实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述机器翻译模型训练方法的步骤。

为了实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述机器翻译模型训练步骤。

通过采用上述技术方案，本发明具有如下有益效果：

本发明根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果，确定模型损失函数，并根据所述模型损失函数对所述学生模型进行迭代训练。相比于教师模型，训练得到的学生模型简化了模型结构，并且通过在训练过程中利用教师模型输出的中间内容和最终结果进行监督，使得学生模型能够参数变少的情况下尽可能保证模型的性能、效果，由于学生模型的模型结构简化，因而提升了模型部署到线上时的吞吐量，降低了模型延迟，进而提升了用户体验。

附图说明

图1为本发明实施例1中基于知识蒸馏的机器翻译模型训练方法的流程图；

图2为本发明实施例1中基于知识蒸馏的机器翻译模型训练方法的原理图；

图3为本发明实施例2中基于知识蒸馏的机器翻译模型训练装置的结构框图；

图4为本发明实施例3中电子设备的硬件架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

实施例1

本实施例提供一种基于知识蒸馏的机器翻译模型训练方法，如图1所示，该方法具体包括以下步骤：

S1，获取训练好的教师模型以及未训练的学生模型，所述学生模型通过简化所述教师模型中的部分模块得到。

需要解释的是，知识蒸馏是一种网络模型压缩方法，通过构建教师模型-学生模型框架，由教师模型指导学生模型的训练，将模型结构复杂、参数量大的教师模型所学到的关于特征表示的“知识”蒸馏出来，将这些“知识”迁移到模型结构简单、参数量少，学习能力弱的学生模型中。通过知识蒸馏的方式能够在不增加学生模型的复杂度的情况下，提升模型的性能。

在本实施例中，预先准备好已经训练好的机器翻译模型作为教师模型、以及通过简化所述教师模型中的部分模块得到的学生模型。其中，教师模型为预测模式，预测模式表示冻结教师模型的模型参数，即后续训练过程中教师模型的模型参数不会被修改；学生模型为训练模式，学生模型中的模型参数在训练过程中可以被修改。

例如，本实施例中的教师模型和学生模型可以是以Transformer为基本结构的翻译模型。如图2所示，所述教师模型和学生模型分别包含依次级联的嵌入模块、编码模块、解码模块和输出模块，其中该嵌入模块可以包括语料嵌入层和语言类型嵌入层。由于嵌入模块、编码模块和输出模块在推理时的占用少，所以学生模型的嵌入模块、编码模块和输出模块与教师模型的嵌入模块、编码模块和输出模块的结构一致，不进行缩减，并且参数可共享。即，本实施例仅针对教师模型的解码模块进行简化压缩通过缩减解码模块中的解码层数)作为学生模型的解码模块。为了保证学生模型的翻译效果，学生模型的嵌入模块和输出模块的神经元个数与教师模型的嵌入模块和输出模块的神经元个数保持一致。

此外，为了确保学生模型中解码模块输出的中间内容维度与教师模型中解码模块输出的中间内容维度一致，以便后续进行损失函数计算，本实施例在所述学生模型的解码模块与所述教师模型的解码模块之间设置有全连接层。

S2，获取样本数据集，所述样本数据集包含若干训练语料、以及所述训练语料对应的标注翻译标签，该训练语料还可以携带对应的语言类型。

S3，对所述样本数据集进行预处理。具体包括：首先，将所述训练语料中的文字转换为对应的数值，并将所述训练语料划分为不同的批次。由于训练语料的长度不一，因而可通过零值填充方式将每批次所述训练语料调整为相同长度。零值填充方式是指以同一批次训练语料中最长语句为基准，将其它语句中缺少的文字以0填充，使它们的长度调整为与该最长语句一致。从而，得到大小为Batch_size*Sequence_length的输入数据，其中Batch_size是指同一批次训练语料的数量，Sequence_length指同一批次训练语料中最长语料的长度。

S4，将预处理后的所述训练语料输入所述教师模型进行处理，得到所述教师模型中被简化模块输出的中间内容、以及所述教师模型输出的最终结果。

例如，当教师模型为图2所示的结构时，训练语料首先输入至教师模型的嵌入模块，以通过该嵌入模块的语料层和语言类型层分别对训练语料及其语言类型进行映射，再将语料嵌入结果及语言类型嵌入结果合并后输入至编码模块进行特征编码，而后再经过解码模块进行特征解码，并收集解码模块输出的中间内容，最后通过输出模块对解码结果进行处理，得到教师模型输出的最终结果。

S5，将所述训练语料输入所述学生模型进行处理，得到所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果。

例如，当学生模型为图2所示的结构时，训练语料首先输入至学生模型的嵌入模块，以通过该嵌入模块的语料层和语言类型层分别对训练语料及其语言类型进行映射，再将语料嵌入结果及语言类型嵌入结果合并后输入至编码模块进行特征编码，而后再经过解码模块进行特征解码，并收集解码模块输出的中间内容，最后通过输出模块对解码结果进行处理，得到学生模型输出的最终结果。

S6，根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果，确定模型损失函数。本步骤的具体实现过程如下：

S61，根据所述教师模型中被简化模块输出的中间内容、以及所述学生模型中被简化模块输出的中间内容，确定第一损失函数。

例如，当学生模型为图2所示的结构时，根据如下式(1)计算第一损失函数L_{AT_FMT}：

其中，C表示学生模型中解码模块的解码层数，D_kl表示计算KL散度的函数，

表示教师模型中第c层解码层输出的内容再经全连接层处理后的结果，

表示学生模型中第c层解码层输出的处理结果。

S62，根据所述训练语料对应的标注翻译标签、以及所述学生模型输出的最终结果，确定第二损失函数。

例如，当学生模型为图2所示的结构时，根据如下式(2)计算第二损失函数L_hard：

L_hard＝{-p′_ijlog(p_ij)-(1-p′_ij)log(1-p_ij)} (2)

其中，log(*)表示对数函数，p_ij表示学生模型输出的第i个词对应第j个翻译标签的概率值，p′_ij表示标注的第i个词对应第j个翻译标签的概率值(p′_ij可根据训练语料对应的标注翻译标签得到)。

S63，根据所述教师模型输出的最终结果、以及所述学生模型输出的最终结果，确定第三损失函数。

例如，当学生模型为图2所示的结构时，根据如下式(3)计算第三损失函数L_soft：

其中，log(*)表示对数函数，p_ij表示学生模型输出的第i个词对应第j个翻译标签的概率值，

表示教师模型输出的第i个词对应第j个翻译标签的概率值。

S64，根据所述第一损失函数L_{AT_FMT}、第二损失函数L_hard和第三损失函数L_soft，确定所述模型损失函数。

例如，根据如下式(4)计算模型损失函数Loss_all：

Loss_all＝αL_hard+(1-α)L_soft+βL_AT-FMT (4)

其中，α和β分别表示相应的损失值权重系数，α∈(0,1],β∈R，具体值可根据经验预先设置。

S7，根据所述模型损失函数对所述学生模型进行训练，即，根据所述损失函数更新所述学生模型的参数。

根据损失函数训练模型的过程为迭代过程，每训练一次，判断是否满足预定的训练终止条件。若不满足训练终止条件，则根据步骤S4至步骤S7继续进行训练，直至满足训练终止条件。

在一种可能实现方式中，满足训练终止条件包括但不限于以下三种情况：第一种，迭代训练次数达到次数阈值。次数阈值可以根据经验设置，也可以根据应用场景灵活调整，本申请实施例对此不加以限定。第二种，模型损失函数小于损失阈值。损失阈值可以根据经验设置，也可以根据应用场景自由调整，本申请实施例对此不加以限定。第三种，模型损失函数收敛。模型损失函数收敛是指随着迭代训练次数的增加，在参考次数的训练结果中，模型损失函数的波动范围在参考范围内。例如，假设参考范围为-10^-3～10^-3，假设参考次数为10次。若模型损失函数在10次的迭代训练结果中波动范围均在-10^-3～10^-3内，则认为模型损失函数收敛。当满足上述任一种情况时，说明满足训练终止条件，学生模型训练完成。

在本发明在利用模型损失函数更新模型参数的过程中，可以采用Adam(AdaptiveMoment Estimation，适应性矩估计)优化算法进行优化。在训练过程中，学生模型的编码模块lr_eb的学习率小于或等于解码模块的学习率lr_db。

另外，训练过程中可以使用层级训练方式对学生模型的解码模块进行逐级缩减。如图2所示，根据教师模型(包括K层解码层)训练得到学生模型(包括L层解码层)后，再将训练完成的学生模型作为新的教师模型，以训练出解码层数更少的学生模型，以此类推，直至训练得到仅包含预定层数(N层)解码层的学生模型，其中，K>M>N。在本实施例中，学生模型的压缩比例根据翻译模型推理性能的提升以及翻译模型的效果进行折中考虑，适当选取。学生模型训练完成后，去除教师模型。

本实施例训练得到的学生模型简化了模型结构，并且通过在训练过程中利用教师模型输出的中间内容和最终结果进行监督，使得学生模型能够参数变少的情况下尽可能保证模型的性能、效果，由于学生模型的模型结构简化，因而提升了模型部署到线上时的吞吐量，降低了模型延迟，进而提升了用户体验。

需要说明的是，对于前述实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

实施例2

本实施例提供一种基于知识蒸馏的机器翻译模型训练装置，如图3所示，该装置1具体包括：模型获取模块11、样本获取模块12、预处理模块13、教师模型处理模块14、学生模型处理模块15、模型损失函数确定模块16、模型训练模块17。

下面分别对每个模块进行详细描述：

模型获取模块11用于获取训练好的教师模型以及未训练的学生模型，所述学生模型通过简化所述教师模型中的部分模块得到。

样本获取模块12用于获取样本数据集，所述样本数据集包含若干训练语料、以及所述训练语料对应的标注翻译标签，该训练语料还可以携带对应的语言类型。

预处理模块13用于对所述样本数据集进行预处理。具体包括：数值转换单元131，用于将所述训练语料中的文字转换为对应的数值；长度调整单元132用于将所述训练语料划分为不同的批次，由于训练语料的长度不一，因而可通过零值填充方式将每批次所述训练语料调整为相同长度。零值填充方式是指以同一批次训练语料中最长语句为基准，将其它语句中缺少的文字以0填充，使它们的长度调整为与该最长语句一致。从而，得到大小为Batch_size*Sequence_length的输入数据，其中Batch_size是指同一批次训练语料的数量，Sequence_length指同一批次训练语料中最长语料的长度。

教师模型处理模块14用于将预处理后的所述训练语料输入所述教师模型进行处理，得到所述教师模型中被简化模块输出的中间内容、以及所述教师模型输出的最终结果。

学生模型处理模块15用于将所述训练语料输入所述学生模型进行处理，得到所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果。

模型损失函数确定模块16用于根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果，确定模型损失函数。本步骤的具体实现过程如下：

第一损失函数确定单元161用于根据所述教师模型中被简化模块输出的中间内容、以及所述学生模型中被简化模块输出的中间内容，确定第一损失函数。

表示学生模型中第c层解码层输出的处理结果。

第二损失函数确定单元162用于根据所述训练语料对应的标注翻译标签、以及所述学生模型输出的最终结果，确定第二损失函数。

L_hard＝{-p′_ijlog(p_ij)-(1-p′_ij)log(1-p_ij)} (2)

第三损失函数确定单元163用于根据所述教师模型输出的最终结果、以及所述学生模型输出的最终结果，确定第三损失函数。

模型损失函数确定单元164用于根据所述第一损失函数L_{AT_FMT}、第二损失函数L_hard和第三损失函数L_soft，确定所述模型损失函数。

例如，根据如下式(4)计算模型损失函数Loss_all：

Loss_all＝αL_hard+(1-α)L_soft+βL_AT-FMT (4)

模型训练模块17用于根据所述模型损失函数对所述学生模型进行训练，即，根据所述损失函数更新所述学生模型的参数。

根据损失函数训练模型的过程为迭代过程，每训练一次，判断是否满足预定的训练终止条件。若不满足训练终止条件，则继续进行训练，直至满足训练终止条件。

实施例3

本实施例提供一种电子设备，电子设备可以通过计算设备的形式表现(例如可以为服务器设备)，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中处理器执行计算机程序时可以实现实施例1提供的基于知识蒸馏的机器翻译模型训练方法。

图4示出了本实施例的硬件结构示意图，如图4所示，电子设备9具体包括：

至少一个处理器91、至少一个存储器92以及用于连接不同***组件(包括处理器91和存储器92)的总线93，其中：

总线93包括数据总线、地址总线和控制总线。

存储器92包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1提供的基于知识蒸馏的机器翻译模型训练方法。

电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备9使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1基于知识蒸馏的机器翻译模型训练方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1基于知识蒸馏的机器翻译模型训练方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于知识蒸馏的机器翻译模型训练方法，其特征在于，包括：

根据所述模型损失函数对所述学生模型进行迭代训练。

2.根据权利要求1所述的基于知识蒸馏的机器翻译模型训练方法，其特征在于，所述根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果，确定模型损失函数，包括：

3.根据权利要求1所述的基于知识蒸馏的机器翻译模型训练方法，其特征在于，所述教师模型和学生模型分别包含嵌入模块、编码模块、解码模块和输出模块。

4.根据权利要求3所述的基于知识蒸馏的机器翻译模型训练方法，其特征在于，所述学生模型与所述教师模型的嵌入模块、编码模块和输出模块的结构一致，所述学生模型的解码模块通过简化所述教师模型的解码模块得到，所述学生模型的解码模块与所述教师模型的解码模块之间设有全连接层。

5.根据权利要求1所述的基于知识蒸馏的机器翻译模型训练方法，其特征在于，当获取所述样本数据集后，所述方法还包括：对所述训练语料进行预处理。

6.根据权利要求5所述的基于知识蒸馏的机器翻译模型训练方法，其特征在于，所述对所述训练语料进行预处理，包括：

将所述训练语料中的文字转换为对应的数值；

7.一种基于知识蒸馏的机器翻译模型训练装置，其特征在于，包括：

8.根据权利要求7所述的基于知识蒸馏的机器翻译模型训练装置，其特征在于，所述模型损失函数确定模块包括：

9.根据权利要求7所述的基于知识蒸馏的机器翻译模型训练装置，其特征在于，所述教师模型和学生模型分别包含嵌入模块、编码模块、解码模块和输出模块。

10.根据权利要求9所述的基于知识蒸馏的机器翻译模型训练装置，其特征在于，所述学生模型与所述教师模型的嵌入模块、编码模块和输出模块的结构一致，所述学生模型的解码模块通过简化所述教师模型的解码模块得到，所述学生模型的解码模块与所述教师模型的解码模块之间设有全连接层。

11.根据权利要求7所述的基于知识蒸馏的机器翻译模型训练装置，其特征在于，所述装置还包括：预处理模块，用于当获取所述样本数据集后，对所述训练语料进行预处理。

12.根据权利要求11所述的基于知识蒸馏的机器翻译模型训练装置，其特征在于，所述预处理模块包括：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。