CN112016271A

CN112016271A - 语言风格转换模型的训练方法、文本处理方法以及装置

Info

Publication number: CN112016271A
Application number: CN201910465744.3A
Authority: CN
Inventors: 王黎杰; 涂眉
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2020-12-01

Abstract

本申请提供了一种风格转化模型的训练方法、文本处理方法、以及对应的装置，该训练方法包括：获取训练样本数据，训练样本数据包括第一训练文本和第二训练样本，每个第一训练文本包括原语言风格的源文本和源文本对应的目标语言风格的目标文本，每个第二训练样本包括原语言风格的源文本和源文本对应的非目标语言风格的目标文本；基于训练样本数据对语言风格转换模型进行训练，直至风格转换模型的总损失函数收敛。基于本申请实施例提供的方案，能够有效提高翻译结果中的敬语率。

Description

语言风格转换模型的训练方法、文本处理方法以及装置

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种语言风格转换模型的训练方法、文本处理方法以及装置。

背景技术

以编码(Encode)和解码(Decode)为代表的神经网络模型架构，在机器翻译、文本自动摘要、机器人自动问答等任务上有着广泛的运用。目前主流的该类型的架构主要是采用循环神经网络加注意力机制或者单纯的采用多头自注意力形式实现。但是对于在需要生成具有特定语言风格(如敬语)的文本时，现有的模型的效果较差。

发明内容

本申请的目的旨在提供了一种能够生成所需要的语言风格的文本的方案，为实现该目的，本申请提供的技术方案具体如下：

第一方面，本申请实施例提供了一种语言风格转换模型的训练方法，该方法包括：

获取训练样本数据，训练样本数据包括第一训练文本和第二训练样本，每个第一训练文本包括原语言风格的源文本和源文本对应的目标语言风格的目标文本，每个第二训练样本包括原语言风格的源文本和源文本对应的非目标语言风格的目标文本；

基于训练样本数据对语言风格转换模型进行训练，直至风格转换模型的总损失函数收敛，其中，总损失函数包括文本处理损失函数，文本处理损失函数用于表征风格转换模型输出的文本与对应的目标文本的差异。

第二方面，本申请实施例提供了一种文本处理方法，该方法包括：

获取待处理文本；

将待处理文本输入至语言风格转换模型，得到待处理文本对应的具有目标语言风格的目标文本，其中，语言风格转换模型是基于本申请第一方面所提供的方法训练得到的。

第三方面，本申请实施例提供了一种语言风格转换模型的训练装置，该装置包括：

训练样本获取模块，用于获取训练样本数据，训练样本数据包括第一训练文本和第二训练样本，每个第一训练文本包括原语言风格的源文本和源文本对应的目标语言风格的目标文本，每个第二训练样本包括原语言风格的源文本和源文本对应的非目标语言风格的目标文本；

模型训练模块，用于基于训练样本数据对语言风格转换模型进行训练，直至风格转换模型的总损失函数收敛，其中，总损失函数包括文本处理损失函数，文本处理损失函数用于表征风格转换模型输出的文本与对应的目标文本的差异。

第四方面，本申请实施例提供了一种文本处理装置，该装置包括：

待处理文本获取模块，用于获取待处理文本；

目标文本获取模型，用于将待处理文本输入至语言风格转换模型，得到待处理文本对应的具有目标语言风格的目标文本，其中，语言风格转换模型是基于本申请第一方面所提供的方法训练得到的。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于调用该计算机程序，以执行本申请第一方面或第二方面中所提供的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序被处理器执行时实现本申请第一方面或第二方面中所提供的方法。

本申请所提供的技术方案的有益效果将在后文中结合具体实施例以及附图进行详细的描述，在此不在介绍。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了现有技术中一种翻译模型的结构示意图；

图2示出了本申请实施例提供的一种模型的训练方法的流程示意图；

图3示出了本申请一示例中一种训练方法的原理示意图；

图4示出了本申请一示例中翻译模型的预训练原理示意图；

图5示出了本申请一示例中判别模型的预训练原理示意图

图6示出了本申请一示例中翻译模型的再训练原理示意图；

图7示出了本申请一示例中计算第一判别损失函数的原理示意图；

图8示出了本申请实施例提供的一种模型的训练装置的结构示意图；

图9示出了本申请实施例提供的一种电子设备的结构示意图；

图10示出了本申请实施例提供的计算损失函数的原理示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面以翻译模型为例，对现有的相关技术方案进行简单的介绍。

图1中示出了一种现有的机器翻译模型的结构示意图，如图中所示，该模型主要包括编码器和解码器两部分，对于待翻译文本，如图中所示的“我是一个学生”的中文文本，将该文本输入至模型的编码器中，可以由解码器输出对应于目标语言风格(该示例中为韩语)的翻译文本，如图中所示的输出部分的韩语文本。

虽然现有的机器翻译模型也能够较好的实现文本的翻译，但是本申请的申请人发现，对于带有敬语表达的语言，现有的机器翻译模型不能保证翻译结果是用敬语的方式来表达，具体的，语言中的敬语非常复杂，比如日语和韩语等语言中的名词和动词有专门的敬称，句子结尾也有形态变换，简单的词语替换(已有常用的翻译方案)会让生成的句子比较生硬，而在目标语言是带有敬语表述的语言时，不同的上下文语境下很可能是有不同的敬语表达方式的，如何在不同的任务框架(翻译或者问答)下自然的生成敬语仍是一个急需解决的问题。

同样的，除翻译模型之外，现有常用的其他神经网络模型也基本上无法满足需要生成具有特定语言风格的目标文本的应用需求。

另外，可以理解的是，语言风格指的是表达具有某一含义的文本的特定表达方式，比如，语言风格可以是敬语、非敬语、口语化、书面化等等。

为了解决现有技术中所存在的上述问题，本申请提供了一种语言风格转换模型的训练方法、文本处理方法以及装置，基于本申请提供的方案，能够生成具有目标语言风格的目标文本。下面结合具体实施例对本申请的方案进行具体说明。

图2中示出了本申请实施例提供的一种语言风格转换模型的训练方法的流程示意图，如图中所示，该训练方法主要可以包括以下步骤：

步骤S110：获取训练样本数据，训练样本数据包括第一训练文本和第二训练样本，每个第一训练文本包括原语言风格的源文本和源文本对应的目标语言风格的目标文本，每个第二训练样本包括原语言风格的源文本和源文本对应的非目标语言风格的目标文本。

也就是说，训练样本数据中的每个训练样本是一对文本，即源文本和该文本对应的目标文本，且训练数据中既包括目标语言风格的目标文本，又包括非目标语言风格是目标文本。例如，目标语言风格为敬语，则目标样本中包括敬语文本和非敬语文本。

其中，语言风格转换模型指的是具有文本语言风格转换功能的模型，但模型具体的种类本申请并不作限定，对于不同的应用需求，该模型可以是具有实际应用需求对应的功能模型。例如，该风格转换模型可以包括但不限于翻译模型或问答模型等。

可以理解的是，对于不同的该风格转换模型，训练样本数据也是可以不同的，例如，对于翻译模型而言，其训练样本数据中的源文本和目标文本的语言种类是不同的，此时源文本是对应源语言的文本(可简称为源语言文本)，目标文本则为对应于目标语言的文本(可简称为目标语言文本)，如需要训练的翻译模型是将英文翻译成韩语的模型，则英语为源语言，韩语为目标语言，训练样本数据中的每个训练文本则都包括一个英文文本以及该英文文本对应的韩语文本；再例如，对于问答模型而言，源文本则为提问文本，目标文本则为对应的答案文本。

可见，本申请实施例中，源文本和目标文本可以是同种语言的文本，也可以是不同种语言的文本。此外，源文本和目标文本也可以是实质内容相同的两个文本，也就是目标文本是源文本的另一种语言风格的表述，也就是说，本申请实施例中的该语言风格转换模型可以是具有语言风格转换功能和其他功能(如翻译、问答等)的模型，也可以只是具有语言风格转换功能的模型。另外，对于除了具有除语言风格转换外之外，还具有其他功能的模型，原语言风格和目标语言风格可以相同，也可以不同。

步骤S120：基于训练样本数据对语言风格转换模型进行训练，直至风格转换模型的总损失函数收敛。

在训练阶段，语言风格转换模型的输入为源文本，输出为预测得到的目标文本。例如，对于翻译模型而言，其输入为源语言文本，输出为该源语言文本的翻译结果，也就是预测得到的目标文本。

本申请实施例中，总损失函数包括文本处理损失函数，文本处理损失函数用于风格转换模型输出的文本与对应的目标文本(训练样本中的目标文本)的差异。由于训练样本数据中的目标文本既包括目标语言风格的文本和非目标语言风格的文本，因此，通过模型训练，能够使得模型的输出结果偏向于目标语言风格的表述。

其中，文本处理损失函数的具体形式本申请实施例不做限定，可以根据需求选择。作为一可选方案，在每次训练时，对于一个样本数据，其对应的文本处理损失函数的值可以通过计算模型输出的文本与该样本数据中的目标文本的差异得到。

本申请的可选实施例中，基于训练样本数据对语言风格转换模型进行训练，包括：

标注训练样本数据中的源文本的第一标签，第一标签用于表征源文本的语言风格是否为目标语言风格；

基于带标签的源文本和对应的目标文本对风格转换模型进行训练。

作为一可选方案，在风格转换模型的训练阶段，可以通过设定标准或者由人工对样本数据中的各源文本进行标签的标注，通过该标签可以知晓源文本对应的目标文本是否为具有目标语言风格的文本，例如，对于翻译模型而言，假设目标语言风格为敬语，该标签则用于指示目标语言文本中是否含有敬语。

其中，标签标注的具体形式可以根据需求设置，作为一可选方式，可以在源文本的末尾加标签，例如，如果源文本对应的目标文本是目标语言风格的文本，则可以在源文本的末尾加上标签“P”，如源文本对应的目标文本是目标语言风格的文本，则可以在源文本的末尾加上标签“np”。另外，在实际应用中，为了使模型在处理文本时，该标签的特征更显著，可以对文本本身和该标签进行一些特殊的处理，如，可以在文本本身和标签之间加上一空格或者下划线(如“_”)等。以翻译模型、目标语言风格为敬语为例，如果目标语言文本中含有敬语，则可以在训练前在源语言文本的末尾加上标签“_p”，如果目标语言文本中不含有敬语，则可以在对应的源语言文本的末端加上“_np”。

基于带标签数据的训练方式，在完成模型的训练后，在使用模型进行待处理文本的处理时，能够使得模型输出的结果偏向于具有目标语言风格的结果。

作为一个示例，图3中示出了本申请实施例提供的一种带标签数据的训练方法的流程示意图，该示例中，语言风格转换模型为翻译模型，目标语言风格为敬语风格，如图中所示，该示例中的虚线框所示的部分即为翻译模型(本申请的示例中为了便于对模型不同部分的描述，将语言风格转换模型的词嵌入(embedding)模型与模型的其他部分进行了分开示意，但其他部分仍用整个模型的名称进行了指代，如该示例中的翻译模型其实是翻译模型中除输入段的词嵌入部分以外的模型部分)，图中的数据_p表示样本数据中的目标语言文本中含有敬语，数据_np表示目标语言文本中不含有敬语。在对模型进行训练时，将各训练样本中的源语言文本输入至词嵌入模型，翻译模型则根据词嵌入模型输出的词向量进行编码以及解码处理，输出对应的翻译结果，每次训练过程中，基于总损失函数是否收敛来判断训练是否结束。

基于带标签数据的训练方式，在完成模型的训练后，在使用模型进行翻译时，对于待翻译文本，可以在将待翻译文本输入至模型前，对待翻译模型标注标签，如在待翻译文本的末尾加标签“p”，将带标签的待翻译文本输入至训练后的模型中，基于该方式，能够使得模型输出的翻译结果偏向于含有敬语的结果。

本申请的可选实施例中，基于训练样本数据对语言风格转换模型进行训练，直至风格转换模型的总损失函数收敛，包括：

设置语言风格判别模型，该判别模型用于判定风格转换模型的输出的文本是具有目标语言风格的文本的概率，其中，总损失函数还包括对应于判别模型的第一判别损失函数；

基于训练样本数据和判别模型，对风格转换模型进行训练，直至总损失函数收敛。

该方案中，通过在风格转换模型的训练过程中增加判别模型来约束转换模型的处理结果，从而能够使得训练得到的风格转换模型在应用时，使得模型输出的结果的语言风格偏向于目标语言风格，如偏向于含有敬语的表达。

相应的，为了保证训练得到的风格转换模型的输出效果，在增加了判别模型时，也相应增加了对应的第一判别损失函数，以通过该损失函数来提升判别模型的判别效果和风格转换模型的处理效果。

可以理解的是，判别模型的实质可以是分类网络，其作用即用于判断其输入对应的文本是否是具有目标语言风格的文本。作为一可选方式，该判别模型可以选用卷积神经网络(Convolutional Neural Networks，CNN)分类模型(classifier)。

其中，第一判别损失函数的具体函数形式可以根据实际需求选择，如可以选择神经网络训练时常用的判别损失函数，也就是分类损失函数。作为一可选方式，第一判别损失函数可以是根据判别模型的判别结果和该判别结果所对应的判别模型的输入所对应的文本确定的，也就是该函数的值可以是由判别模型判别出的结果是否为具有目标语言风格的文本的概率，以及判别模型的输入对应的文本否为具有目标语言风格的文本的实际情况确定。

本申请的可选实施例中，第一判别损失函数的值是基于风格转换模型的各候选输出的得分，以及各候选输出所对应的判别结果是具有目标语言风格文本的概率确定的。

例如，对于翻译模型，若目标语言风格为敬语风格，第一判别损失函数的值则可以是基于翻译模型的各候选翻译结果的翻译得分，以及各候选翻译结果所对应的判别结果是敬语的概率确定的。

也就是说，在实际训练过程中，可以选择风格转换模型的多个候选输出结果，判别模型可以对选择出的多个候选输出结果分别进行判别，第一判别损失函数的值则可以由多个候选输出结果的得分以及对应的判别结果计算得到。

作为一可选方案，总损失函数Traing Loss可以表示为：

其中，γ和(1-γ)均为调节系数，可以根据实际需求配置和调整，0≤γ≤1，N为样本数量，也就是每次训练时输入至模型中的源文本的数量，Loss(N)可以是常用的样本处理损失函数，γ*Loss(N)表示本可选方式中的文本处理损失函数，

表示一个样本对应的第一判别损失函数，K表示候选输出结果的数量，score(f_{g_i})表示第i个候选输出结果的得分，

表示第i个候选输出结果对应的判别结果，即第i个候选输出结果所对应的文本是具有目标语言风格的文本的概率，

表示对

进行对数运算。

基于训练样本数据对翻译模型进行预训练，直至文本处理损失函数收敛；

基于训练样本数据对预训练后的风格转换模型进行训练，直至总损失函数收敛。

也就是说，在对风格转换模型进行训练之前，可以基于文本处理损失函数对该初始的风格转换模型进行预训练，后续再基于总损失函数，对预训练后的风格转换模型进行训练。通过预训练的步骤，可以提升模型的文本处理准确度，也就是可以提升模型输出的目标文本的内容的准确性，在预训练后的具有相对较好的准确度的基础上再进行模型训练，还可以减少训练时间，提升模型的训练速度。

基于预训练后的风格转换模型的输出对判别模型进行预训练，直至第二判别损失函数收敛；

基于训练样本数据和预训练后的判别模型，对预训练后的风格转换模型进行训练，直至总损失函数收敛。

也就是说，在完成风格转换模型的预训练后，再次进行风格转换模型的训练之前，可以对判别模型也进行预训练，以使预训练后的判别模型能够较好的判别出其输入所对应的文本是目标语言风格或非目标语言风格，基于该方案，能够有效提高后续再次进行翻译模型训练时所使用的判别模型的准确性，提升再次进行风格转换模型训练时的效率，并进一步提升最终训练后的风格转换模型的文本处理效果以及输出具有目标语言风格的文本的概率。

本申请的可选实施例中，第二判别损失函数的值是基于判别模型的判别结果和判别结果所对应的风格转换模型的输出的第二标签确定的，其中，第二标签用于表征是否风格转换模型的输出是否是具有目标语言风格的输出。

作为一可选方式，第二判别损失函数可以采用神经网络训练时常用的损失函数，即可以根据模型的判别结果和其输入(也就是分割转换模型的输出)是否是具有目标语言风格的输入的实际情况计算该函数的值。

作为一可选方式，第二判别损失函数Loss(C)可以表示为：

其中，M表示每次训练时判别模型的输入的数量，y_j表示判别模型的输入的标签，该标签表征该输入是否具有目标语言风格，y_j的取值范围可以为{0，1}，具体的，y_j取值为0表示不具有目标语言风格即非目标语言风格，y_j取值为1表示具有目标语言风格，y_p表示判别模型的判别结果，也就是模型判定风格转换模型的输出是否是具有目标语言风格的输出。

本申请的可选实施例中，基于预训练后的风格转换模型的输出对判别模型进行预训练，直至第二判别损失函数收敛，包括：

固定预训练后的风格转换模型的模型参数，将训练样本数据中的源文本输入至预训练后的风格转换模型中，基于预训练后的风格转换模型的输出所对应的词向量对判别模型进行训练，直至第二判别损失函数收敛。

也就是说，在完成风格转换模型的预训练之后，对判别模型进行预训练时，由于风格转换模型已经是完成预训练的模型，此时可以固定该风格转换模型的模型参数，并基于该模型的输出文本所对应的词向量对判别模型进行训练，并在训练过程中不断调整判别模型的参数，直至第二判别损失函数收敛时结束判别模型的预训练。

可以理解的是，在实际应用中，除了用上述词向量作为判别模型的输入，对该判别模型进行预训练外，也可以是用风格转换模型的输出结果对判别模型进行训练。

作为一可选方案，在完成风格转换模型的预训练，对判别模型预训练时，可以采用训练样本中的部分或全部源样本对判别模型进行训练，也就是说可以抽取在进行风格转换模型训练时所采用的部分或全部源(source)语料(即样本中的源文本)，对于每一个source语料，将其输入至预训练后的风格转换模型，可以选取风格转换模型的得分高的N₁(最好的前N₁，即前best-N₁)个输出对判别模型进行训练，具体的，对于风格转换模型所输出的每个source语料的前best-N₁个输出进行第二标签的标注，如标签0和1分别表示输出是非目标语言分割的输出和目标语言风格的输出，基于这些带标注的输出对判别模型进行训练直至第二损失函数收敛。该示例中，上述公式中的M即为对判别模型进行训练时所抽取的source语料的个数和N₁的乘积。

例如，对于翻译模型，以目标语言风格为敬语为例，可以在用于神经机器翻译(NMT，Neural Machine Translation)预训练的source语料里抽一部分，取预训练后的NMT对每个source语料的best-N₁个(一个source语料输入、NMT会有多个候选输出)翻译结果，然后对翻译结果进行敬语标注，0和1分别表示非敬语和敬语，然后用来训练敬语判别模型。其中，N₁的取值可以根据实际配置，如可以取值为5。

本申请的可选实施例中，基于训练样本数据和预训练后的判别模型，对预训练后的风格转换模型进行训练，包括：

固定预训练后的判别模型的模型参数，将训练样本数据中的源文本输入至预训练后的风格转换模型中，得到预训练后的风格转换模型的输出；

将预训练后的风格转换模型的输出对应的词向量输入至预训练后的判别模型中，得到对应的判别结果。

由于判别模型是已经预训练后的模型，因此，在后续再次对风格转换模型进行训练时，可以固定该判别模型的模型参数，基于文本处理损失函数和第一判别损失函数实现对风格转换模型再训练的约束，提升最终得到的风格转换模型的处理效果，保证文本内容处理准确性的基础上，提升模型输出具有目标语言风格的文本的可能性。

本申请的可选实施例中，风格转换模型包括词嵌入模型，固定预训练后的判别模型的模型参数，包括：

固定预训练后的判别模型的模型参数以及词嵌入模型的参数。

在实际应用中，词嵌入模型一般包括模型输入端的词嵌入模型(可称为Inputsembedding，输入嵌入)和输出端的词嵌入模型(称为Outputsembedding，输出嵌入)，如图3中所示的词嵌入即为输入嵌入，其中，输入嵌入用于将输入文本(模型训练时的源文本，模型使用时的待处理文本)中的每个字或词映射为固定维度的词向量，输出嵌入用于解码器前一步预测输出的字或词映射为固定维度的词向量，解码器可以基于该词向量以及编码器的输出预测当前的字或词。

在对风格转换模型进行预训练时，词嵌入模型作为风格转换模型的一部分，其参数已经是经过预训练的参数，因此，在再次对翻译模型进行训练时，可以不再对词嵌入模型的参数进行训练即固定该参数，而对风格转换模型其他网络结构部分的参数再次进行训练，提高模型的处理效果。另外，由于在对判别模型进行预训练时，是基于已经预训练后得到的词嵌入模型对该判别模型进行的预训练时，也就是说，预训练时判别模型是所用到的词向量是基于该预训练后的词嵌入模型得到的，因此，再次进行训练时固定词嵌入模型的参数，既可以对判别模型造成影响，又可以提升模型训练速度。

为了更好的说明及理解本申请实施例所提供的方案，下面结合示例对进一步的说明。

该示例中以风格转换模型是翻译模型，目标语言风格是敬语为例，对本申请实施例所提供的方案进行说明。

图4中示出了本示例中的翻译模型的示意图，图5中示出了本示例中的判别模型的示意图，图6中示出了本示例中基于判别模型对翻译模型进行训练的原理示意图。如图4中所示，该示例中的翻译模型包括词嵌入模型(图中只示出了输入词嵌入)和翻译模型，图5和图6中所示的敬语判别模型(Discriminator，图中所示的D)即为本示例中的判别模型，由图6中可以看出，判别模型的输入为翻译模型的输出词嵌入层的输出(进行了敬语标签或非敬语标签标注的输出)。

本示例中的翻译损失函数采用通用的翻译损失函数，记为Loss(N)，第二判别损失函数记为Loss(C)，可以采用前文中公式(2)，即：

第一判别损失函数可以采用前文中公式(1)中的表示，即：

下面对本示例中的训练流程进行详细说明：

步骤一：如图4中所示，预先训练翻译模型，即对图3中所示的翻译模型结构进行预训练。

具体的，该预训练步骤中所使用的损失函数可以直接采用翻译损失函数Loss(N)，将训练样本数据(图中所示的训练数据)中的源语言样本输入至翻译模型中，对模型进行训练，直至Loss(N)收敛，通过该预训练步骤可以得到初步满足翻译质量的翻译模型。

需要说明的是，该预训练步骤中，所需要训练的模型参数包括翻译模型的词嵌入模型的参数和其他分部(图中所示的翻译模型)的模型参数。将预训练完成后的翻译模型中的词嵌入模型的参数作为后续训练过程中的词嵌入模型的参数，也就是说，完成该预训练步骤后，后续训练过程中词嵌入模型的参数固定。

步骤二：如图5中所示，该步骤对敬语判别模型进行预训练，通过步骤一中得到的风格转换模型，采用固定翻译模型(也就是固定翻译模型中词嵌入部分以及其他部分的模型参数)的方式训练判别模型，最终判别模型能正确的区分敬语和非敬语。

具体的，基于第二判别损失函数即Loss(C)对判别模型进行预训练时，判别模型的输入为预训练后的翻译模型的输出嵌入层的输出，也就是说，图5中所示的词嵌入为翻译模型的输出嵌入。如图5中所示，在对判别模型(也就是分类网络)进行训练时，会对翻译模型的输出进行敬语和非敬语的事先标注，也就是标注第二标签，如可以翻译模型的输出为敬语文本，则可以设置标签为“1”，如果翻译模型的输出为非敬语文本，则可以设置标签为“0”，在预训练时，将抽取的部分或全部源语言文本输入至预训练后的翻译模型中，将预训练后的翻译模型的目标端的词向量(即输出嵌入层的输出)输入至判别模型中，判别模型输出该输入数据所对应的文本是敬语文本的概率，采用上述训练过程对判别模型进行不断训练，直至Loss(C)收敛，则可以结束对判别模型的预训练。

步骤三：如图6中所示，该步骤对翻译模型进行再训练。

具体的，在步骤一中预训练好的翻译模型的基础上，同时敬语判别模型使用步骤二中预训练得到的判别器模型，再训练过程中判别模型的参数固定，翻译模型的词嵌入模型的参数固定(也就是采用固定词嵌入的方式)，最终联合判别模型的损失(对应于第一判别损失函数)和翻译模型的损失(对应于文本处理损失函数)用来更新翻译模型的参数，该步骤中可以采用上述公式(1)中的总损失函数Traing Loss进行再训练。

图7中示出了本申请一示例中在通过翻译模型的解码器得到翻译结果所对应的词向量后，如何根据该词向量得到对应的字或词或子词(即目标端的token)的示意图，在实际应用中，对于解码器的输出，可以首先经过一线性层(Linear，也就是全连接神经网络)将解码器输出的向量映射成一个更长的向量，例如，目标端的词典大小为V，那么线性层所输出的向量的维度就是V，线性层输入的向量经过图中所示的最底层所示的softmax层，由softmax层将向量转化为概率向量(即通过softmax得到输出概率，即OutputProbabilities)，该概率向量第i个维度的元素值则代表了预测字或词为该维度在词典中对应的字或词的概率。

该示例中假设句长为T(也就是说文本由T个字和/或词组成)，翻译模型的候选翻译结果为k个，如图7中所示，翻译模型是循环解码的过程，会不断生成目标端(即解码端)的token(目标文本中的字或词)，在第i次解码时，需要生成第i个字或词，经过softmax后得到维度为V的概率向量，可以通过有放回的多项式采样方式对该概率向量中的元素进行k词采样(即采样K次，即sampling K times)，得到k个采样结果，并可以得到每个结果对应的token(图中所示的K tokens)，通过该方式，在经过T个k次采样后，对于目标文本的T个token中的每个token，都可以得到k个候选token，如图中所示，对于第1个token，其对应的k个候选token可以表示为tok1_1、tok1_2、…、tok1_k，对于第T个token，其对应的k个候选token可以表示为tokT_1、tokT_2、…、tokT_k。在得到候选token后，即可以得到k个候选翻译结果，即k个候选句子，如图中所示的scorel至scorek，可以理解的是，对于第i个候选句子，该句子是由tok1_i、tok2i、…、tokT_i得到的句子。

确定出候选句子之后，即可基于每个候选句子的T个候选token对应的概率值计算出每个句子的翻译得分，例如，对于第一个候选句子scorel，其翻译得到即为图中所示的Ptok1_1*Ptok2_1*…*PtokT_1，其中，Ptoki_j表示在生成第i个token时，第j次采样的结果对应的概率值，如Ptok1_1则表示在生成第一个token时，第一次采样的结果对应的概率值。也就是说，将每个候选句子中的各个token对应的概率相乘即可得到该句子的翻译得分，作为一可选方式，在得到每个候选句子的得分后，还可以通过一softmax的处理得到各候选句子间的相对得分，也就是得到各候选句子的归一化得分。

对于每个候选句子，判别器则用于判断每个候选句子为敬语的概率值，如图中所示的

表示第i个候选句子含有敬语的概率值，基于该概率值以及每个句子的归一化得分，即可计算出第一判别损失函数(图7中所示的loss(C))的值。

需要说明的是，作为一可选方式，在计算第一判别损失函数时，对于每个候选句子而言，可以采用基于各概率相乘得到的候选句子的得分，也可以采用上述归一化得分，采用归一化得分的方式，可以使参与计算的各得分相对更加客观化。

对于本领域人员清楚的是，在实际应用中，作为一可选方案，在循环解码过程中，可以获取每次得到的Output Probabilities中的最大元素值对应token，得到概率最大的T个token，这T个token所对应的句子可以作为翻译模型的最终翻译结果，可以基于T个token和样本数据中对应的目标语言文本计算Loss(N)。

如图6中所示，在再次训练的过程中，可以基于由第一判别损失函数和翻译损失函数确定的总损失函数Training Loss(如公式(1)中所示的总损失函数)来指导翻译模型的进一步训练，直至Training Loss收敛，将此次训练得到的翻译模型作为最终的翻译模型。

本申请实施例提供的该基于判别模型对风格转换模型进行训练的方案，与现有技术相比，在风格转换模型的训练过程中引入了基于判别模型的最小风险训练和风格转换模型的最大似然训练的方式，通过引如事先训练的判别器(能判定翻译结果是敬语还是非敬语)，加入到正常的风格转换模型的训练中，即将判别模型的损失融合到风格转换模型的损失里面。在训练过程中如果风格转换模型的输出结果是具有目标语言风格的结果(如翻译结果是敬语)，则判别模型的损失小，那么训练时模型整体的损失小，模型参数更新小；如果在输出结果是非目标语言风格的结果，那判别模型的损失大，那么训练时模型整体的损失大，模型参数更新大，基于该训练方式得到的风格转换模型，在线阶段使用该模型时，模型的输出结果会偏向于目标语言风格。

本申请实施例所提供的方案，适用于各种通用的需要进行输出目标语言风格的文本的应用场景中。例如，对于翻译模型，可以适用于需要输出目标语言是具有特定语言风格的各种文本翻译场景中，如可以基于该方案使模型输出目标语言是敬语的情况，比如韩文、日语等。本申请实施例的方案，适用于文本风格的变换，针对不同的风格也可以采用类似的方案来实现。

如图10所示，为本申请实施例提出的计算损失函数的示意图，输入Token，首先转换为对应的词嵌入，经过NMT得到对应的文本处理损失函数并预测得到NMT输出，对NMT输出进行K次采样得到K个采样后的句子，计算得到K个句子的得分，同时将K个句子输入到判别模型，预测得到各句子的敬语概率值，最后对K个句子求负log并与K个句子的得分相乘得到第一判别损失函数。

对于本申请实施例所提供的方案，以需要输出敬语风格的翻译模型为例，假设源语言为中文，目标语言为韩语，随机抽取了2133句的中文文本对现有的翻译模型和本申请实施例所提供的翻译模型进行了测试，测试结果如下表所示：

	BLEU	敬语率
			现有翻译模型	34.21	44.77％
本申请方案一	33.57	79.23％
			本申请方案二	34.17	99.40％

其中，方案一是指本申请实施例中提供的基于带敬语标签和非敬语标签的样本数据训练得到的翻译模型，方案二是指基于训练样本数据和设置的判别模型对翻译模型进行训练得到的翻译模型。

如表中所示，BLEU(bilingual evaluation understudy，双语评估替换)为翻译质量评价标准，分数越高表示翻译质量越高。该表中所示的测试结果中的BLEU和敬语率均为测试得到的BLEU得分top5的测试结果的均值计算得到。由表中可以看出，基于本申请实施例所提供的方案，在BLEU基本不变的情况下，翻译结果中的敬语率均能够大幅提高。

基于与图2中所示的方法相同的原理，本申请实施例还提供了一种语言风格转换模型的训练装置，如图8中所示，该语言风格转换模型的训练装置100可以包括训练样本获取模块110和模型训练模块120。其中：

训练样本获取模块110，用于获取训练样本数据，训练样本数据包括第一训练文本和第二训练样本，每个第一训练文本包括原语言风格的源文本和源文本对应的目标语言风格的目标文本，每个第二训练样本包括原语言风格的源文本和源文本对应的非目标语言风格的目标文本；

模型训练模块120，用于基于训练样本数据对语言风格转换模型进行训练，直至风格转换模型的总损失函数收敛，其中，总损失函数包括文本处理损失函数，文本处理损失函数用于表征风格转换模型输出的文本与对应的目标文本的差异。

可选的，语言风格转换模型包括翻译模型或问答模型。

可选的，目标语言风格包括敬语风格。

可选的，模型训练模块120在基于训练样本数据对语言风格转换模型进行训练时，可以具体用于：

可选的，模型训练模块120在基于训练样本数据对语言风格转换模型进行训练，直至风格转换模型的总损失函数收敛时，具体用于：

设置语言风格判别模型，判别模型用于判定风格转换模型的输出的文本是具有目标语言风格的文本的概率，其中，总损失函数还包括对应于判别模型的第一判别损失函数；

可选的，第一判别损失函数的值是基于风格转换模型的各候选输出的得分，以及各候选输出所对应的判别结果是具有目标语言风格的文本的概率确定的。

可选的，第二判别损失函数的值是基于判别模型的判别结果和判别结果所对应的风格转换模型的输出的第二标签确定的，其中，第二标签用于表征风格转换模型的输出是否为具有目标语言风格的输出。

可选的，模型训练模块120在基于预训练后的风格转换模型的输出对判别模型进行预训练，直至第二判别损失函数收敛时，具体用于：

可选的，模型训练模块120在基于训练样本数据和预训练后的判别模型，对预训练后的风格转换模型进行训练时，具体用于：

可选的，风格转换模型包括词嵌入模型，模型训练模块120在固定预训练后的判别模型的模型参数时，可以具体用于：

可以理解的是，本申请实施例的所提供的训练装置的各模块，可以具有实现本申请实施例所提供的训练方法中的相应步骤的功能。其中，该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。上述各模块可以是软件和/或硬件，各模块可以单独实现，也可以多个模块集成实现。对于训练装置的各模块的功能描述具体可以参见上述各实施例中的训练方法中的相应描述，在此不再赘述。

基于本申请实施例所提供的训练方法的原理，本申请实施例还提供了一种文本处理方法，该方法可以包括：

获取待处理文本；

将待处理文本输入至语言风格转换模型，得到待处理文本对应的具有目标语言风格的目标文本，其中，语言风格转换模型是基于本申请任一实施例中所提供语言风格转换模型的训练方法训练得到的。

可选的，若语言风格转换模型是基于图3中所示的示例中所对应的训练方法训练得到的，将待处理文本输入至风格转换模型之前，还包括：

标注待处理文本的标签，标签用于表征待处理文本所对应的目标文本的语言风格为目标语言风格。

也就是说，在采用通过对训练样本数据标注用于表征源文本所对应的目标文本是否为具有目标语言风格的文本的标签的方式，对风格转换模型进行训练时，在基于训练完成的模型对待处理文本进行处理时，为了使输出是倾向于具有目标语言风格的文本，可以对待处理文本也进行标签的标注，且该标签是对应于具有目标语言风格的标签，如在待处理文本的结尾标注标签“_p”。

基于本申请实施例所提供的训练方法的原理，本申请实施例还提供了一种文本处理装置，该装置可以包括待处理文本获取模块和目标文本获取模型。其中：

待处理文本获取模块，用于获取待处理文本；

目标文本获取模型，用于将待处理文本输入至语言风格转换模型，得到待处理文本对应的具有目标语言风格的目标文本，其中，语言风格转换模型是基于本申请任一实施例中所提供语言风格转换模型的训练方法训练得到的。

可选的，若语言风格转换模型是基于图3中所示的示例中所对应的训练方法训练得到的，目标文本获取模块还用于：

在将待处理文本输入至风格转换模型之前，标注待处理文本的标签，标签用于表征待处理文本所对应的目标文本的语言风格为目标语言风格。

基于与前文中所描述的方案相同的原理，本申请实施例还提供了一种文本处理方法，该方法可以包括：

获取待处理文本；

标注所述待处理文本的标签，所述标签用于表征所述待处理文本所对应的目标文本的语言风格为目标语言风格；

将所述待处理文本输入至语言风格转换模型，得到所述待处理文本对应的目标文本。

可选的，目标语言风格包括但不限于敬语风格或非敬语风格。

相应的，本申请实施例还提供了一种文本处理装置，该装置可以包括：

待处理文本获取模块，用于获取待处理文本；

文本标注模块，用于标注待处理文本的标签，标签用于表征待处理文本所对应的目标文本的语言风格为目标语言风格；

目标文本获取模型，用于将待处理文本输入至语言风格转换模型，得到待处理文本对应的目标文本。

基于与本申请上述所提供的各方法以及装置相同的原理，本申请实施例还提供了一种电子设备，该电子设备可以包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于调用该计算机程序，以执行本申请任一实施例中所提供的方法或者任一装置所执行的步骤。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序被处理器执行时实现本申请任一实施例中所提供的方法或者任一装置所执行的步骤。

作为一可选方案，图9中示出了本申请实施例所适用的一种电子设备的结构示意图，如图9所示，图该电子设备4000可以包括处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述任一方法实施例所示的内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本处理方法，其特征在于，包括：

获取待处理文本；

2.根据权利要求1所述的方法，其特征在于，所述目标语言风格为敬语风格或非敬语风格。

3.一种语言风格转换模型的训练方法，其特征在于，包括：

获取训练样本数据，所述训练样本数据包括第一训练文本和第二训练样本，每个所述第一训练文本包括原语言风格的源文本和源文本对应的目标语言风格的目标文本，每个所述第二训练样本包括原语言风格的源文本和源文本对应的非目标语言风格的目标文本；

基于所述训练样本数据对语言风格转换模型进行训练，直至所述风格转换模型的总损失函数收敛，其中，所述总损失函数包括文本处理损失函数，所述文本处理损失函数用于表征所述风格转换模型输出的文本与对应的目标文本的差异。

4.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本数据对语言风格转换模型进行训练，包括以下任一种：

标注所述训练样本数据中的源文本的第一标签，所述第一标签用于表征源文本的语言风格是否为目标语言风格；基于带标签的源文本和对应的目标文本对所述风格转换模型进行训练；

设置语言风格判别模型，所述判别模型用于判定所述风格转换模型的输出的文本是具有目标语言风格的文本的概率，其中，所述总损失函数还包括对应于所述判别模型的第一判别损失函数；基于所述训练样本数据和所述判别模型，对所述风格转换模型进行训练。

5.根据权利要求4所述的方法，其特征在于，所述基于所述训练样本数据对语言风格转换模型进行训练，直至所述风格转换模型的总损失函数收敛，包括：

基于所述训练样本数据对所述翻译模型进行预训练，直至所述文本处理损失函数收敛；

基于所述训练样本数据对预训练后的所述风格转换模型进行训练，直至所述总损失函数收敛。

6.根据权利要求5所述的方法，其特征在于，所述基于所述训练样本数据对语言风格转换模型进行训练，直至所述风格转换模型的总损失函数收敛，包括：

基于预训练后的所述风格转换模型的输出对所述判别模型进行预训练，直至第二判别损失函数收敛；

基于所述训练样本数据和预训练后的所述判别模型，对预训练后的所述风格转换模型进行训练，直至总损失函数收敛。

7.一种文本处理装置，其特征在于，包括：

待处理文本获取模块，用于获取待处理文本；

文本标注模块，用于标注所述待处理文本的标签，所述标签用于表征所述待处理文本所对应的目标文本的语言风格为目标语言风格；

目标文本获取模型，用于将所述待处理文本输入至语言风格转换模型，得到所述待处理文本对应的目标文本。

8.一种语言风格转换模型的训练装置，其特征在于，包括：

训练样本获取模块，用于获取训练样本数据，所述训练样本数据包括第一训练文本和第二训练样本，每个所述第一训练文本包括原语言风格的源文本和源文本对应的目标语言风格的目标文本，每个所述第二训练样本包括原语言风格的源文本和源文本对应的非目标语言风格的目标文本；

模型训练模块，用于基于所述训练样本数据对语言风格转换模型进行训练，直至所述风格转换模型的总损失函数收敛，其中，所述总损失函数包括文本处理损失函数，所述文本处理损失函数用于表征所述风格转换模型输出的文本与对应的目标文本的差异。

9.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于调用所述计算机程序，以执行权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。