CN116127316A

CN116127316A - 模型的训练方法、文本摘要生成方法及相关设备

Info

Publication number: CN116127316A
Application number: CN202310065714.XA
Authority: CN
Inventors: 杨森; 蒋宁; 肖冰; 李宽
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-05-16

Abstract

本申请公开了一种模型的训练方法、文本摘要生成方法及相关设备。预训练方法包括：获取样本应答文本及其在对话文本中关联的上下文文本；通过语言模型对上下文文本的掩码文本进行编码得到掩码表示向量；基于掩码表示向量预测上下文文本中被掩码的词语所在位置对应的预测词语信息和上下文文本关联的预测应答文本；通过语言模型对上下文文本中的句子进行编码得到句子的句向量，并确定上下文文本中相邻句子的句向量之间的相似度；基于被掩码的词语及预测词语信息、预测应答文本及样本应答文本、以及上下文文本中相邻句子的句向量之间的相似度，调整语言模型的模型参数。由此，训练所得的预训练语言模型能够准确表示文本，有利于提高下游任务效果。

Description

模型的训练方法、文本摘要生成方法及相关设备

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种模型的训练方法、文本摘要生成方法及相关设备。

背景技术

近年来预训练模型在自然语言处理(Natural Language Processing，NLP)领域应用非常广泛，该类模型首先在大量无标签样本上通过自监督方式进行训练，学习到通用的文本表示，然后应用时只需在特定任务上进行微调(Finetune)。相比于从头开始训练，在预训练模型基础上进行微调所需样本更少，并且有更强的泛化能力。当前主流的预训练模型，如BERT(Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-Training，生成式预训练)模型等，训练语料和所适应的对话场景语料差异较大，并且该类模型没有专门针对对话型随时间训练任务学习对话中的上下文结构，因此基于对话型语料来专门设计预训练模型非常有必要。

目前基于对话型语料的预训练方式，主要将对话型语料中的句子拼接后输入到语言模型中，由语言模型通过掩码词语任务和间隙句子生成(Gap Sentences Generation，GSG)任务学习到通用的文本表示。然而，这种方式使得语言模型无法细粒度地理解和学习对话中的上下文关系，进而导致所得的预训练语言模型无法得到对文本准确表示，最终影响下游任务效果。

发明内容

本申请实施例的目的提供一种模型的训练方法、文本摘要生成方法及相关设备，由此使得训练所得的预训练语言模型能够准确表示文本，有利于提高下游任务效果。

为了实现上述目的，本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种语言模型的预训练方法，包括：获取样本文本对，所述样本文本对包括样本应答文本及所述样本应答文本在对话文本中关联的上下文文本；通过语言模型对所述上下文文本的掩码文本进行编码，得到用于表示所述掩码文本的掩码表示向量，所述掩码文本为对所述上下文文本中的至少一个词语进行掩码后得到；基于所述掩码表示向量预测所述上下文文本中被掩码的词语所在位置对应的预测词语信息以及预测所述上下文文本关联的预测应答文本；通过所述语言模型对所述上下文文本中的句子进行编码，得到用于表示所述句子的句向量，并确定所述上下文文本中相邻句子的句向量之间的相似度；基于所述上下文文本中被掩码的词语及所述词语所在位置对应的预测词语信息、所述上下文文本关联的预测应答文本及样本应答文本、以及所述上下文文本中相邻句子的句向量之间的相似度，调整所述语言模型的模型参数，以得到预训练语言模型，所述预训练语言模型用于将输入的文本编码为对应的表示向量。

本申请实施例提供的语言模型的预训练方法，使用样本应答文本及其在对话文本中关联的上下文文本作为样本文本对来训练语言模型，使得语言模型能够在预训练过程中理解和学习对话文本中的上下文关系，有利于提升语言模型对文本表示的准确性；在语言模型的训练过程中，引入掩码词语预测任务、文本预测任务以及上下文中相邻句子的句向量对比任务，对于掩码词语预测任务和文本预测任务而言，通过对样本文本对中的上下文文本中的至少一个词语进行掩码，由语言模型对掩码后的掩码文本进行编码得到相应的掩码表示向量，掩码表示向量能够表示上下文文本中与被掩码的词语关联的其他词语的语义；然后，基于掩码表示向量预测上下文文本中被掩码词语所在位置对应的预测词语信息以及预测上下文关联的预测应答文本，使得语言模型能够充分学习上下文文本中词语之间的联系以及上下文文本与样本应答文本之间在对话文本中的联系，掌握文本语义理解能力，从而有利于语言模型从对话型语料中学习到通用、准确的文本表示；对于上下文中相邻句子的句向量对比任务而言，通过语言模型对上下文文本中的句子进行编码，得到各个句子的句向量，并确定上下文文本中相邻句子的句向量之间的相似度，使得语言模型能够从结构化的上下文文本中，细粒度地理解和学习上下文文本中句子之间的关系，从而学习到更丰富的上下文表示能力，提高语言模型的文本表示准确性；进一步，综合上述三个任务的学习效果调整语言模型的模型参数，所得的预训练语言模型能够更准确地表示文本，有利于提高下游任务效果。

第二方面，本申请实施例提供一种文本摘要生成模型的训练方法，包括：获取样本对话文本及所述样本对话文本对应的样本摘要文本；将所述样本对话文本输入文本摘要生成模型，得到所述样本对话文本对应的预测摘要文本，其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述样本对话文本进行编码，得到用于表示所述样本对话文本的样本表示向量，所述生成模块用于基于所述样本表示向量对所述样本对话文本进行语义解析和总结，得到所述预测摘要文本；所述预训练语言模型为基于第一方面所述的语言模型的预训练方法训练得到；基于所述样本对话文本对应的样本摘要文本及预测摘要文本，调整所述文本摘要生成模型的模型参数。

本申请实施例提供的文本摘要生成模型的训练方法，在通过上述预训练方法训练好语言模型之后，在预训练语言模型的下游增加用于执行文本摘要生成任务的生成模块，即可得到文本摘要生成模型；进一步，由于预训练语言模型已经具备了准确表示文本的能力，在过预训练语言模型对样本对话文本进行编码以得到相应的文本表示向量之后，将样本对话文本对应的样本摘要文本作为监督信号，通过生成模块基于该监督信号和用于表示样本对话文本的样本表示向量对样本对话文本进行语义解析和总结，得到用于总结样本对话文本的预测摘要文本，以及基于得到预测摘要文本和样本对文本对应的样本摘要文本，对文本摘要生成模型进行微调(Finetune)，即可完成对文本摘要生成模型的训练，不仅能够提高文本摘要生成模型的预测准确性，还相对于从头开始训练模型(Training a modelfrom scatch)，能够省去大量计算资源和计算时间，提高文本摘要生成模型的训练效率。

第三方面，本申请实施例提供一种文本摘要生成方法，包括：获取待处理对话文本；

将所述待处理对话文本输入文本摘要生成模型，得到所述待处理对话文本对应的摘要文本；其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述待处理对话文本进行编码，得到用于表示所述待处理对话文本的目标表示向量，所述生成模块用于基于所述目标表示向量对所述待处理对话文本进行语义解析和总结，得到所述摘要文本；所述文本摘要生成模型为基于第二方面所述的调整模型参数后的文本摘要生成模型。

本申请实施例提供的文本摘要生成方法，由于上述文本摘要生成模型的训练方法训练得到的文本摘要生成模型具有较高的准确性力，利用该文本摘要生成模型生成待处理对话文本的摘要文本，使得所生成的摘要文本能够准确表示待处理对话文本的内容。

第四方面，本申请实施例提供一种语言模型的预训练装置，包括：第一获取单元，用于获取样本文本对，所述样本文本对包括样本应答文本及所述样本应答文本在对话文本中关联的上下文文本；第一编码单元，用于通过语言模型对所述上下文文本的掩码文本进行编码，得到用于表示所述掩码文本的掩码表示向量，所述掩码文本为对所述上下文文本中的至少一个词语进行掩码后得到；第一预测单元，用于基于所述掩码表示向量预测所述上下文文本中被掩码的词语所在位置对应的预测词语信息以及预测所述上下文文本关联的预测应答文本；第二编码单元，用于通过所述语言模型对所述上下文文本中的句子进行编码，得到用于表示所述句子的句向量，并确定所述上下文文本中相邻句子的句向量之间的相似度；第一调整单元，用于基于所述上下文文本中被掩码的词语及所述词语所在位置对应的预测词语信息、所述上下文文本关联的预测应答文本及样本应答文本、以及所述上下文文本中相邻句子的句向量之间的相似度，调整所述语言模型的模型参数，以得到预训练语言模型，所述预训练语言模型用于将输入的文本编码为对应的表示向量。

第五方面，本申请实施例提供一种文本摘要生成模型的训练装置，包括：第二获取单元，用于获取样本对话文本及所述样本对话文本对应的样本摘要文本；第一生成单元，用于将所述样本对话文本输入文本摘要生成模型，得到所述样本对话文本对应的预测摘要文本，其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述样本对话文本进行编码，得到用于表示所述样本对话文本的样本表示向量，所述生成模块用于基于所述样本表示向量对所述样本对话文本进行语义解析和总结，得到所述预测摘要文本，所述预训练语言模型为基于第一方面所述的语言模型的预训练方法训练得到；第二调整单元，用于基于所述样本对话文本对应的样本摘要文本及预测摘要文本，调整所述文本摘要生成模型的模型参数。

第六方面，本申请实施例提供一种文本摘要生成装置，包括：第三获取单元，用于获取待处理对话文本；第二生成单元，用于将所述待处理对话文本输入文本摘要生成模型，得到所述待处理对话文本对应的摘要文本；其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述待处理对话文本进行编码，得到用于表示所述待处理对话文本的目标表示向量，所述生成模块用于基于所述目标表示向量对所述待处理对话文本进行语义解析和总结，得到所述摘要文本；

所述文本摘要生成模型为基于第二方面所述的调整模型参数后的文本摘要生成模型。

第七方面，本申请实施例提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的语言模型的预训练方法；或者，所述处理器被配置为执行所述指令，以实现如第二方面所述的文本摘要生成模型的训练方法；或者，所述处理器被配置为执行所述指令，以实现如第三方面所述的文本摘要生成方法。

第八方面，本申请实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的语言模型的预训练方法；或者，使得电子设备能够执行如第二方面所述的文本摘要生成模型的训练方法；或者，使得电子设备能够执行如第三方面所述的文本摘要生成方法。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请的一个实施例提供的一种语言模型的预训练方法的流程示意图；

图2为本申请的一个实施例提供的一种语言模型的结构示意图；

图3为本申请的一个实施例提供的一种损失函数的计算方式示意图；

图4为本申请的一个实施例提供的一种文本摘要生成模型的训练方法的流程示意图；

图5为本申请的一个实施例提供的一种文本摘要生成模型的训练过程示意图；

图6为本申请的一个实施例提供的一种文本摘要生成方法的流程示意图；

图7为本申请的一个实施例提供的一种语言模型的预训练装置的结构示意图；

图8为本申请的一个实施例提供的一种文本摘要生成模型的结构示意图；

图9为本申请的一个实施例提供的一种文本摘要生成装置的结构示意图；

图10为本申请的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应理解，这样使用的数据在适当的情况下可以互换，以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联的对象是一种“或”的关系。

部分概念说明：

Transformer：深度学习中的一种网络结构，BERT模型就是由多个TransformerEncoder组成。

BERT：全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方式进行预训练，而是采用新的掩码语言模型(MaskedLanguage Model，MLM)，以致能生成深度的双向语言表示。

对比学习(Contrastive Learning，CL)：通过将数据分别与正例样本和负例样本在特征空间进行对比，来学习样本的特征表示，主要的难点在于如何构造正负样本。

如背景技术中所述，目前基于对话型语料的预训练方式，主要将对话型语料中的句子拼接后输入到语言模型中，由语言模型通过掩码词语任务和GSG任务学习到通用的文本表示。然而，这种方式使得语言模型无法细粒度地理解和学习对话中的上下文关系，进而导致所得的预训练语言模型无法对文本准确表示，最终影响下游任务效果。

有鉴于此，本申请实施例旨在提出一种语言模型的预训练方法，使用样本应答文本及其在对话文本中关联的上下文文本作为样本文本对来训练语言模型，使得语言模型能够在预训练过程中理解和学习对话文本中的上下文关系，有利于提升语言模型的文本表示准确性；在语言模型的训练过程中，引入掩码词语预测任务、文本预测任务以及上下文中相邻句子的句向量对比任务，对于掩码词语预测任务和文本预测任务而言，通过对样本文本对中的上下文文本中的至少一个词语进行掩码，由语言模型对掩码后的掩码文本进行编码得到相应的掩码表示向量，掩码表示向量能够表示上下文文本中与被掩码的词语关联的其他词语的语义；然后，基于掩码表示向量预测上下文文本中被掩码词语所在位置对应的预测词语信息以及预测上下文关联的预测应答文本，使得语言模型能够充分学习上下文文本中词语之间的联系以及上下文文本与样本应答文本之间在对话文本中的联系，掌握文本语义理解能力，从而有利于语言模型从对话型语料中学习到通用、准确的文本表示；对于上下文中相邻句子的句向量对比任务而言，通过语言模型对上下文文本中的句子进行编码，得到各个句子的句向量，并确定上下文文本中相邻句子的句向量之间的相似度，使得语言模型能够从结构化的上下文文本中，细粒度地理解和学习上下文文本中句子之间的关系，从而学习到更丰富的上下文表示能力，提高语言模型的文本表示准确性；进一步，综合上述三个任务的学习效果调整语言模型的模型参数，所得的预训练语言模型能够更准确地表示文本，有利于提高下游任务效果。

进一步，本申请实施例还提出一种文本摘要生成模型的训练方法，在通过上述预训练方法训练好语言模型之后，在预训练语言模型的下游增加用于执行文本摘要生成任务的生成模块，即可得到文本摘要生成模型；进一步，由于预训练语言模型已经具备了准确表示文本的能力，在过预训练语言模型对样本对话文本进行编码以得到相应的文本表示向量之后，将样本对话文本对应的样本摘要文本作为监督信号，通过生成模块基于该监督信号和用于表示样本对话文本的样本表示向量对样本对话文本进行语义解析和总结，得到用于总结样本对话文本的预测摘要文本，以及基于得到预测摘要文本和样本对文本对应的样本摘要文本，对文本摘要生成模型进行微调，即可完成对文本摘要生成模型的训练，不仅能够提高文本摘要生成模型的预测准确性，还相对于从头开始训练模型，能够省去大量计算资源和计算时间，提高文本摘要生成模型的训练效率。

进一步，本申请实施例还提出一种文本摘要生成方法，由于上述文本摘要生成模型的训练方法训练得到的文本摘要生成模型具有较高的准确性力，利用该文本摘要生成模型生成待处理对话文本的摘要文本，使得所生成的摘要文本能够准确表示待处理对话文本的内容。

应理解，本申请实施例提供的语言模型的训练方法、文本摘要生成模型的训练方法以及文本摘要生成方法均可以由电子设备或安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备，比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等；或者，电子设备还可以包括服务器，比如独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。

以下结合附图，详细说明本申请各实施例提供的技术方案。

请参见图1，为本申请的一个实施例提供的一种语言模型的预训练方法的流程示意图，该方法可以包括如下步骤：

S102，获取样本文本对，样本文本对包括样本应答文本及所述样本应答文本在对话文本中关联的上下文文本。

本申请实施例提供的语言模型的训练方法可适用于多种对话场景，相应地，对话文本、从对话文本中获取的样本应答文本和上下文文本可以根据实际对话场景进行选择，本申请实施例对此不作限定。示例地，对于业务方与用户之间的对话场景，为了便于业务方准确理解用户的意图，样本应答文本可以包括业务方与用户之间的对话文本中属于用户的用户对话文本，上下文文本可以包括业务方与用户之间的对话文本中除样本应答文本之外的其他对话文本。

实际应用中，一个对话场景下可能存在多次对话，每次对话均具有对应的对话文本。样本应答文本及其关联的上下文文本可以从多次对话的对话文本中获取得到。

在一种可选的实现方式中，上述S102可以包括如下步骤：获取多个历史对话文本；对于每个历史对话文本，将该历史对话文本中的句子按照预设比例划分为上下文文本和样本应答文本，然后将划分得到的上下文文本和样本应答文本进行组合，得到相应的样本文本对，即<该历史对话文本中的上下文文本，该历史对话文本中的样本应答文本>；通过对每个历史对话文本均执行上述处理，即可得到多个样本文本对。其中，预设比例可以根据实际需要进行设置，本申请实施例对此不作限定。

示例地，假设某个历史对话文本如下：

该历史对话文本包含4个句子，可将该历史对话文本中前3/4的句子“请问有什么事吗？帮我把订单取消了。为什么要取消订单呢？”作为上下文文本，以及将该历史对话文本中后1/4的句子“因为行程改变了。”作为样本应答文本，由此得到一个样本文本对。

可以理解的是，通过上述方式构建样本文本对以用于语言模型的预训练，有利于语言模型在预训练过程中理解和学习对话文本中的上下文关系，从而有利于提升语言模型的文本表示准确性。

在另一种可选的实现方式中，用于训练语言模型的样本对可以包括第一样本文本对和第二样本文本对。相应地，上述S102可以包括如下步骤：首先，获取多个历史对话文本，并将每个历史对话文本中的句子按照预设比例划分为上下文文本和样本应答文本；然后，将第一历史对话文本中的上下文文本和样本应答文本进行组合，得到第一样本文本对，也即第一样本文本对为<第一历史对话文本中的上下文文本，第一历史对话文本中的样本应答文本>，其中，第一历史对话文本为上述多个历史对话文本中的任一个；此外，还确定第一历史对话文本中的上下文文本与第二历史对话文本中的样本应答文本之间的相似度，若该相似度超过预设阈值，则将第一历史对话文本中的上下文文本与第二历史对话文本中的样本应答文本进行组合，得到第二样本文本对，也即第二样本文本对为<第一历史对话文本中的上下文文本，第二历史对话文本中的样本应答文本>，其中，第二历史对话文本为上述多个历史对话文本中除第一历史对话文本以外的其他历史对话文本。实际应用中，预设阈值可以根据实际需要进行设置，比如0.7等，本申请实施例对此不作限定。另外，两个文本之间的相似度可以采用各种适当的方式计算，比如余弦相似度等，本申请实施例对此也不作限定。

示例地，假设某对话场景下包含如下所示的两个历史对话文本：

对于上述历史对话文本1，可将第一历史对话文本1中前3/4的句子“请问有什么事吗？帮我把订单取消了。为什么要取消订单呢？”作为上下文文本，以及将历史对话文本1中后1/4的句子“因为行程改变了。”作为样本应答文本，将两者进行组合，得到一个第一样本文本对<历史对话文本1中的上下文文本,历史对话文本1中的样本应答文本>。

对于上述历史对话文本2，可将历史对话文本2中前3/4的句子“请问有什么可以帮到您？帮我把机票取消了。为什么要取消机票呢？”作为上下文文本，以及将历史对话文本2中后1/4的句子“计划临时有变。”作为样本应答文本，将两者进行组合，得到另一个第一样本文本对<历史对话文本2中的上下文文本,历史对话文本2中的样本应答文本>。

此外，对于历史对话文本1而言，若历史对话文本1中的上下文文本与历史对话文本2中的样本应答文本之间的相似度超过预设阈值，则可以将两者进行组合，得到一个第二样本文本对<历史对话文本1中的上下文文本,历史对话文本2中的样本应答文本>。

同样地，对于历史对话文本2而言，若历史对话文本2中的上下文文本与历史对话文本1中的样本应答文本之间的相似度超过预设阈值，则可以将两者进行组合，得到另一个第二样本文本对<历史对话文本2中的上下文文本,历史对话文本1中的样本应答文本>。

可以理解的是，在获取样本文本对的过程中，针对每个历史对话文本，除了从该历史对话文本获取样本应答文本，还基于相似度从其他历史对话文本中检索相似的样本应答文本以生成样本文本对，这样，不仅可以起到对样本文本对的扩充作用，以丰富用于训练语言模型的语料，还可以强制语言模型在预训练时不只是倾向于直接从每个历史对话文本本身进行样本应答文本的复制，而是要充分理解上下文语义后进行样本应答文本的生成，进一步提升了语言模型的文本生成能力，从而有利于提升语言模型的文本表示准确性。

S104，通过语言模型对上下文文本的掩码文本进行编码，得到用于表示所述掩码文本的掩码表示向量，掩码文本为对上下文文本中的至少一个词语进行掩码后得到。

值得说明的是，上下文文本中被掩码的词语可以根据实际需要确定，本申请实施例对此不作限定。示例地，可从上下文文本中选取不同词性的词语进行掩码，且相同词性的词语只能被掩码一次。

本申请实施例中，可通过任意适当的方式对上下文文本中的至少一个词语进行掩码。可选地，可针对每个样本文本对，将该样本文本包含的上下文文本中的至少一个词语替换为预设掩码字符，得到样本文本对的掩码文本。其中，预设掩码字符可以根据实际需要进行设置，比如设置为[MASK]以便明显区别于上下文文本中未被掩码的词语，本申请实施例对预设掩码字符的形式不作限定。

示例地，如图2所示，以上文示例所示的上下文文本“请问有什么事吗？帮我把订单取消了。为什么要取消订单呢？”为例，可将词语“什么”、“订单”和“取消”作为待掩码的词语，通过将这些词语分别替换为预设掩码字符[MASK]，即可得到掩码文本“请问有[MASK]事吗？帮我把[MASK]取消了。为什么要[MASK]订单呢？”。

可以理解的是，通过将上下文文本中的至少一个词语替换为预设掩码字符，实现简单，有利于提高语言模型的预训练效率。

其中，对掩码文本进行编码处理，也即对掩码文本序列进行嵌入(Embedding)，是指将掩码文本映射到一定维度的向量空间，得到能够被计算机能够识别和处理的向量)，该向量能够用于表示掩码文本，称为掩码表示向量。

本申请实施例中，语言模型可以具有任意适当的结构，具体可根据实际需要进行选择，本申请实施例对此不作限定。实际应用中，本申请实施例中的语言模型可以为本领域常用的各种具有编码能力的语言模型，例如包括但不限于如下模型中的一种或多种的组合等：BERT模型、seq2seq模型等。

在一种较为优选的方案中，如图2所示，语言模型可以采用seq2seq模型，seq2seq模型是一种重要的循环神经网络(Recurrent Neural Network，RNN)模型，也称为编码模块(Encoder)-解码模块(Decoder)模型。也就是说，语言模型包括编码模块和解码模块。其中，编码模块可以包括12层的Transformer Encoder，解码模块可以包括12层的TransformerDecoder。

基于图2所示的语言表示模型，上述S104可以包括：通过编码模块对上下文文本的掩码文本进行编码，得到掩码表示向量。示例地，如图2所示，将掩码文本“请问有[MASK]事吗？帮我把[MASK]取消了。为什么要[MASK]订单呢？”输入编码模块，由编码模块对该掩码文本进行编码，即可得到用于表示该掩码文本的掩码表示向量。

S106，基于掩码表示向量预测上下文文本中被掩码的词语所在位置对应的预测词语信息以及预测上下文文本关联的预测应答文本。

本申请实施例中，基于掩码表示向量预测上下文文本中被掩码的词语所在位置对应的预测词语信息，相当于是基于掩码表示向量理解和学习上下文文本中被掩码的词语与其他未被掩码的词语之间的联系，对上下文文本中被掩码词语所在位置进行填空，得到该位置对应的预测词语信息。其中，被掩码的词语所在位置对应的预测词语信息可以包括该位置对应的预测词语及预测词语的预测概率，预测词语的预测概率是指该预测词语与其对应的被掩码词语所在位置相匹配的概率等。

本申请实施例中，基于掩码表示向量预测预测上下文文本关联的预测应答文本，相当于是将样本应答文本从上下文文本中抽取出来，由语言模型基于掩码表示向量理解和学习样本文本对中上下文文本与样本应答文本之间的联系，然后对抽取出的样本应答文本所在位置进行文本预测，得到上下文文本关联的预测应答文本。

可选地，在图2所示的语言模型中，编码模块具有能够执行词语预测任务的输出层，该输出层可用于基于掩码表示向量预测上下文文本中被掩码的词语所在位置对应的预测词语信息；解码模块具有能够执行文本预测任务的输出层，使得解码模块可用于应答文本预测。也就是说，上述S106可以包括：通过编码模块基于掩码表示向量预测上下文文本中被掩码的词语所在位置对应的预测词语信息，以及通过解码模块基于掩码表示向量预测上下文文本关联的预测应答文本。

示例地，如图2所示，将掩码文本“请问有[MASK]事吗？帮我把[MASK]取消了。为什么要[MASK]订单呢？”输入到编码模块，以及将样本文本对中的样本应答文本“因为行程改变了。”抽取出来后作为监督信号输入到解码模块；由此，对于编码模块而言，其一方面对掩码文本进行编码得到掩码表示向量，并利用自身具有的输出层基于掩码表示向量分别对各个[MASK]所在位置进行词语预测，即可得到各个[MASK]所在位置对应的预测词语，比如“什么”、“订单”、“取消”；另一方面将掩码表示向量提供给解码模块，由解码模块基于掩码表示向量和监督信号，对抽取出的样本应答文本所在位置进行文本预测，得到上下文文本关联的预测应答文本，比如“因为行程变了。<eos>”，其中，<eos>是用于标记句子结束的标识符。

可选地，也可以在语言模型的下游设置一预先训练好的预测模型，该预测模型可用于执行掩码预测任务。也就是说，在上述S106中，可将掩码表示向量输入该预测模型，经该预测模型执行掩码预测任务后，即可得到上下文文本中被掩码的词语所在位置对应的预测词语信息。此外，还将掩码表示向量输入解码模块，通过解码模块基于掩码表示向量预测上下文文本关联的预测应答文本。

S108，通过语言模型对上下文文本中的句子进行编码，得到用于表示上下文文本中的句子的句向量，并确定上下文文本中相邻句子的句向量之间的相似度。

具体而言，可针对样本对中上下文文本包含的每个句子，通过语言模型对该句子进行编码，得到用于表示该句子的句向量，然后计算该句子的句向量与相邻句子的句向量之间的相似度。值得说明的是，两个句子的句向量之间的相似度可采用本领域常用的各种相似度计算方法确定，比如欧式距离等，本申请实施例对此不作限定。

S110，基于上下文文本中被掩码的词语及该词语所在位置对应的预测词语信息、上下文文本关联的预测应答文本及样本应答文本、以及上下文文本中相邻句子的句向量之间的相似度，调整语言模型的模型参数，以得到预训练语言模型。

其中，预训练语言模型用于将输入的文本编码为对应的表示向量。

其中，语言模型的模型参数可以包括语言模型中各网络层的节点(如神经元)数量、不同网络层中的节点之间的连接关系以及连接边权重、各网络层中的节点对应的偏置等。

可选地，上述S110可以包括如下步骤：S1101，基于上下文文本中被掩码的词语及该词语所在位置对应的预测词语信息、上下文文本关联的预测应答文本及样本应答文本、以及上下文文本中相邻句子的句向量之间的相似度，确定语言模型的预测损失；S1102，基于语言模型的预测损失，调整语言模型的模型参数，以得到预训练语言模型。

本申请实施例中，由于在语言模型的预训练过程中引入了掩码词语预测任务、文本预测任务以及上下文中相邻句子的句向量对比任务，语言模型对每个任务的实际执行结果与预期结果都可能存在一定差异，因而语言模型的预测损失可用于表示这些任务的实际执行结果与预期结果之间的差异，该差异够量化反映语言模型的训练效果。

对于上述步骤S1101，由于每个任务的实际执行结果与预期结果都可能存在一定差异，也即每个任务都会产生一定的预测损失。基于此，为准确计算语言模型的预测损失，以提高语言模型的训练效果，可选地，如图3所示，可分别计算每个任务对应的预测损失，并对这些预测损失进行加权求和，得到语言模型的预测损失。

具体而言，上述S1101具体可实现包括如下步骤：

步骤A1，基于第一损失函数确定上下文文本中被掩码的词语及词语所在位置对应的预测词语信息之间的差异程度，以得到词语预测损失。

也就是说，词语预测损失用于表示上下文文本中被掩码的词语及词语所在位置对应的预测词语信息之间的差异程度，其能够反映语言模型在预训练过程中对上下文文本中词语之间的联系的掌握能力。

实际应用中，第一损失函数可以根据实际需要进行设置，本申请实施例对此不作限定。示例地，为了准确表示被掩码的词语及词语所在位置对应的预测词语信息之间的差异程度，第一损失函数可采用如下公式(1)所示的损失函数：

其中，L_mlm表示词语预测损失，x_m表示上下文文本中第m个被掩码的词语，P(x_m)表示第m个被掩码的词语所在位置对应的预测词语与该第m个被掩码的词语相同的概率，M表示上下文文本中被掩码的词语数量。

步骤A2，基于第二损失函数确定上下文文本关联的预测应答文本及样本应答文本之间的差异程度，以得到文本预测损失。

也就是说，文本预测损失用于表示上下文文本关联的预测应答文本及样本应答文本之间的差异程度，其能够反映语言模型在预训练过程中对话文本中上下文文本与样本应答文本之间的联系的掌握能力。

实际应用中，第二损失函数可以根据实际需要进行设置，本申请实施例对此不作限定。示例地，为了准确表示预测应答文本及样本应答文本之间的差异程度，第二损失函数可采用如下公式(2)所示的损失函数：

其中，L_NLL表示文本预测损失，表示预测应答文本的长度(即预测应答文本包含的字符数量)，θ表示语言模型当前的模型参数，x₁′,…x_m′表示当前预测出的预测应答文本包含的词语，P(y|x₁′,…x_m′)表示在预测出词语x₁′,…x_m′的情况下得到的预测应答文本，P(y|x₁′,…x_m′；θ)表示预测应答文本与样本应答文本相同的概率。

步骤A3，基于上下文文本中相邻句子的句向量之间的相似度，确定语言模型的对比损失。

其中，语言模型的对比损失用于表示上下文文本中的句子之间的相似度。

可选地，为了使语言模型的对比损失能够表示上下文文本中的句子之间的相似度，如图3所示，上述步骤A3具体可以实现为：将上下文文本中相邻两个句子进行组合，得到多个句子对；计算目标句子对中第一句子的句向量与第二句子的句向量之间的第一相似度以及第一句子的句向量与第三句子的句向量之间的第二相似度，目标句子对为上述多个句子对中的任一个，第一句子为目标句子对中的任一个句子，第二句子为目标句子对中除第一句子以外的句子，所述第三句子为所述上下文文本中除所述第一句子和所述第二句子以外的其他句子；基于上述第一相似度、上述第二相似度以及上下文文本中每个句子对应的权重，确定目标句子对对应的对比损失；将多个句子对各自对应的对比损失之和，确定为语言模型的对比损失。

示例地，假设上下文文本为“亲亲，很高兴为您服务，请问有什么可以帮您的呢？我没有申请过购买过A商品，我的这里显示我购买了A商品，账单都出来了。确认一下您的问题哦，是需要咨询A商品，是吗，亲亲？不是A商品，我没有在你们平台购买过A商品，但是我这边有一个购买记录，账单都出来了。亲亲，您是咨询为什么没有购买A商品，但是有购买记录和账单是吗，亲亲，是在哪里查看到的？我的订单。”，那么，将该上下文文本中相邻两个句子进行组合，可以得到下述多个句子对：

句子对1：亲亲，很高兴为您服务，请问有什么可以帮您的呢？|我没有申请过购买过A商品，我的这里显示我购买了A商品，账单都出来了。

句子对2：我没有申请过购买过A商品，我的这里显示我购买了A商品，账单都出来了。|确认一下您的问题哦，是需要咨询A商品，是吗，亲亲？

句子对3：确认一下您的问题哦，是需要咨询A商品，是吗，亲亲？|不是A商品，我没有在你们平台购买过A商品，但是我这边有一个购买记录，账单都出来了。

句子对4：不是A商品，我没有在你们平台购买过A商品，但是我这边有一个购买记录，账单都出来了。|亲亲，您是咨询为什么没有购买A商品，但是有购买记录和账单是吗，亲亲，是在哪里查看到的？

句子对5：亲亲，您是咨询为什么没有购买A商品，但是有购买记录和账单是吗，亲亲，是在哪里查看到的？|我的订单。

接着，以句子对1为例，可计算其包含的两个句子各自的句向量之间的相似度以及句子“亲亲，很高兴为您服务，请问有什么可以帮您的呢？”与其他句子对中的各句子之间的相似度；进一步，通过如下公式(3)可确定语言模型的对比损失：

其中，L_CL表示语言模型的对比损失，I表示上述多个句子对，i表示上述多个句子对中的句子对i，

表示句子对i对应的对比损失，e_i表示句子对i中的第一句子的句向量，

表示句子对i中的第二句子的句向量，e_j表示第三句子的句向量，

表示第一句子的句向量与第二句子的句向量之间的第一相似度，sim(e_i,e_j)表示第一句子的句向量与第三句子的句向量之间的第二相似度，α_ij表示第一句子对应的权重，τ表示预设调节参数，其用于调节语言模型对困难样本的关注程度，exp表示指数函数e。其中，α_ij和τ可以根据实际需要进行设置，本申请实施例对此不作限定。

步骤A4，对词语预测损失、文本预测损失以及对比损失进行加权求和，得到语言模型的预测损失。

示例地，语言模型的预测损失可以通过如下公式(4)确定：

Loss＝L_mlm+L_NLL+L_CL (4)

其中，Loss表示语言模型的预测损失，L_mlm表示词语预测损失，L_NLL表示文本预测损失，L_CL表示对比损失。

对于上述步骤S1102，可采用反向传播算法和梯度下降算法，基于语言模型的预测损失，调整语言模型的模型参数，以得到预训练语言模型。可以理解的是，由于语言模型的预测损失能够表示语言模型对上述三个任务的实际执行结果与预期结果之间的差异，该差异够量化反映语言模型的训练效果，基于语言模型的预测损失调整语言模型的模型参数，有利于在提高语言模型的表征准确性的基础上，加快语言模型收敛，提高语言模型的预训练效率。

本申请实施例在此示出了上述S110的一种具体实现方式。当然，应理解，上述S110也可以采用其他的方式实现，本申请实施例对此不作限定。

需要说明的是，上述过程仅为一次模型参数调整过程，实际应用中，可能需要对语言模型的模型参数进行多次调整，因而可重复执行上述S102～S110对此，直至满足第一预设训练停止条件为止，此时得到的语言模型即可作为预训练语言模型。其中，第一预设训练停止条件可以包括语言模型的预测损失小于预设损失阈值或者调整次数达到预设次数阈值等，具体可根据实际需要进行设置，本申请实施例对此不作限定。

通过本申请的一个或多个实施例提供的语言模型的预训练方法，使用样本应答文本及其在对话文本中关联的上下文文本作为样本文本对来训练语言模型，使得语言模型能够在预训练过程中理解和学习对话文本中的上下文关系，有利于提升语言模型的文本表示准确性；在语言模型的训练过程中，引入掩码词语预测任务、文本预测任务以及上下文中相邻句子的句向量对比任务，对于掩码词语预测任务和文本预测任务而言，通过对样本文本对中的上下文文本中的至少一个词语进行掩码，由语言模型对掩码后的掩码文本进行编码得到相应的掩码表示向量，掩码表示向量能够表示上下文文本中与被掩码的词语关联的其他词语的语义；然后，基于掩码表示向量预测上下文文本中被掩码词语所在位置对应的预测词语信息以及预测上下文关联的预测应答文本，使得语言模型能够充分学习上下文文本中词语之间的联系以及上下文文本与样本应答文本之间在对话文本中的联系，掌握文本语义理解能力，从而有利于语言模型从对话型语料中学习到通用、准确的文本表示；对于上下文中相邻句子的句向量对比任务而言，通过语言模型对上下文文本中的句子进行编码，得到各个句子的句向量，并确定上下文文本中相邻句子的句向量之间的相似度，使得语言模型能够从结构化的上下文文本中，细粒度地理解和学习上下文文本中句子之间的关系，从而学习到更丰富的上下文表示能力，提高语言模型的文本表示准确性；进一步，综合上述三个任务的学习效果调整语言模型的模型参数，所得的预训练语言模型能够更准确地表示文本，有利于提高下游任务效果。

基于本申请实施例提供的语言模型的预训练方法，本申请实施例还提供一种文本摘要生成模型的训练方法，下面对文本摘要生成模型的训练过程进行详细说明。请参见图4，为本申请的一个实施例提供的一种文本摘要生成模型的训练方法的流程示意图，该方法可以包括如下步骤：

S402，获取样本对话文本及样本对话文本对应的样本摘要文本。

其中，样本对话文本对应的样本摘要文本是指用于总结样本对话文本的内容的文本。

示例地，假设样本对话文本为“亲亲，很高兴为您服务，请问有什么可以帮您的呢？我没有申请过购买过A商品，我的这里显示我购买了A商品，账单都出来了。确认一下您的问题哦，是需要咨询A商品，是吗，亲亲？不是A商品，我没有在你们平台购买过A商品，但是我这边有一个购买记录，账单都出来了。亲亲，您是咨询为什么没有购买A商品，但是有购买记录和账单是吗，亲亲，是在哪里查看到的？我的订单。”，那么，该样本对话文本对应的样本摘要文本可以为“用户反馈没有购买A商品但是出现账单”。

S404，将样本对话文本输入文本摘要生成模型，得到样本对话文本对应的预测摘要文本。

其中，如图5所示，文本摘要生成模型包括预训练语言模型和生成模块，预训练语言模型用于对样本对话文本进行编码，得到用于表示样本对话文本的样本表示向量，生成模块用于基于样本表示向量对样本对话文本进行语义解析和总结，得到预测摘要文本。预训练语言模型为基于本申请实施例提供的语言模型的预训练方法训练得到，在此不再赘述。

实际应用中，生成模块可以具有任意适当的结构，具体可根据实际需要进行设置，本申请实施例对此不作限定。示例地，生成模块可以包括线性层(Linear)和归一化层(Softmax)。

S406，基于样本对话文本对应的样本摘要文本及预测摘要文本，调整文本摘要生成模型的模型参数。

其中，文本摘要生成模型的模型参数可以包括预训练语言模型的模型参数和生成模块的模型参数。生成模块可以包括生成模块中各网络层的节点(如神经元)数量、不同网络层中的节点之间的连接关系以及连接边权重、各网络层中的节点对应的偏置等。当然，应理解，实际应用中，由于预训练语言模型已经具备了准确表征文本语义的能力，在上述S406中，可仅调整生成模块的模型参数。

如图5所示，在上述S406中，可基于样本对话文本对应的样本摘要文本及预测摘要文本，计算文本摘要生成模型的预测损失，其中，文本摘要生成模型的预测损失用于表示样本对话文本对应的样本摘要文本与预测摘要文本之间的差异，其能够量化反映文本摘要生成模型对样本对话文本进行总结的准确性；然后，基于文本摘要生成模型的预测损失，调整文本摘要生成模型的模型参数。更为具体地，可采用反向传播算法和梯度下降算法，基于文本摘要生成模型的预测损失，调整文本摘要生成模型的模型参数。

可以理解的是，由于文本摘要生成模型的预测损失能够量化反映文本摘要生成模型对样本对话文本进行总结的准确性，基于文本摘要生成模型的预测损失调整文本摘要生成模型的模型参数，有利于在提高文本摘要生成模型的准确性的基础上，加快文本摘要生成模型收敛，提高文本摘要生成模型的预训练效率。

本申请实施例在此示出了上述S406的一种具体实现方式。当然，应理解，上述S406也可以采用其他的方式实现，本申请实施例对此不作限定。

上述过程仅为一次模型参数调整过程，实际应用中，可能需要对文本摘要生成模型的模型参数进行多次调整，因而可重复执行上述S402～S406对此，直至满足第二预设训练停止条件为止，此时得到的文本摘要生成模型即可用于文本摘要生成任务。其中，第二预设训练停止条件可以包括文本摘要生成模型的预测损失小于预设损失阈值或者调整次数达到预设次数阈值等，具体可根据实际需要进行设置，本申请实施例对此不作限定。

通过本申请的一个或多个实施例提供的文本摘要生成模型的训练方法，在通过上述预训练方法训练好语言模型之后，在预训练语言模型的下游增加用于执行文本摘要生成任务的生成模块，即可得到文本摘要生成模型；进一步，由于预训练语言模型已经具备了准确表示文本的能力，在过预训练语言模型对样本对话文本进行编码以得到相应的文本表示向量之后，将样本对话文本对应的样本摘要文本作为监督信号，通过生成模块基于该监督信号和用于表示样本对话文本的样本表示向量对样本对话文本进行语义解析和总结，得到用于总结样本对话文本的预测摘要文本，以及基于得到预测摘要文本和样本对文本对应的样本摘要文本，对文本摘要生成模型进行微调(Finetune)，即可完成对文本摘要生成模型的训练，不仅能够提高文本摘要生成模型的预测准确性，还相对于从头开始训练模型(Training a model from scatch)，能够省去大量计算资源和计算时间，提高文本摘要生成模型的训练效率。

请参见图6，为本申请的一个实施例提供的一种文本摘要生成方法的流程示意图，该方法可以包括如下步骤：

S602，获取待处理对话文本。

S604，将待处理对话文本输入文本摘要生成模型，得到待处理对话文本对应的摘要文本。

其中，文本摘要生成模型包括预训练语言模型和生成模块，预训练语言模型用于对待处理对话文本进行编码，得到用于表示待处理对话文本的目标表示向量，生成模块用于基于目标表示向量对待处理对话文本进行语义解析和总结，得到摘要文本。文本摘要生成模型为基于本申请实施例提供的文本摘要生成模型的训练方法训练得到，不再赘述。

通过本申请的一个或多个实施例提供的文本摘要生成方法，由于上述文本摘要生成模型的训练方法训练得到的文本摘要生成模型具有较高的准确性力，利用该文本摘要生成模型生成待处理对话文本的摘要文本，使得所生成的摘要文本能够准确表示待处理对话文本的内容。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

此外，与上述图1所示的语言模型的预训练方法相对应地，本申请实施例还提供一种语言模型的预训练装置。请参见图7，为本申请的一个实施例提供的一种语言模型的预训练装置700的结构示意图，该装置700可以包括：

第一获取单元710，用于获取样本文本对，所述样本文本对包括样本应答文本及所述样本应答文本在对话文本中关联的上下文文本；

第一编码单元720，用于通过语言模型对所述上下文文本的掩码文本进行编码，得到用于表示所述掩码文本的掩码表示向量，所述掩码文本为对所述上下文文本中的至少一个词语进行掩码后得到；

第一预测单元730，用于基于所述掩码表示向量预测所述上下文文本中被掩码的词语所在位置对应的预测词语信息以及预测所述上下文文本关联的预测应答文本；

第二编码单元740，用于通过所述语言模型对所述上下文文本中的句子进行编码，得到用于表示所述句子的句向量，并确定所述上下文文本中相邻句子的句向量之间的相似度；

第一调整单元750，用于基于所述上下文文本中被掩码的词语及所述词语所在位置对应的预测词语信息、所述上下文文本关联的预测应答文本及样本应答文本、以及所述上下文文本中相邻句子的句向量之间的相似度，调整所述语言模型的模型参数，以得到预训练语言模型，所述预训练语言模型用于将输入的文本编码为对应的表示向量。

显然，本申请实施例提供的语言模型的预训练装置能够作为图1所示的语言模型的预训练方法的执行主体，例如图1所示的语言模型的预训练方法中，步骤S102可由图7所示的语言模型的预训练装置中的第一获取单元710执行，步骤S104可由图7所示的语言模型的预训练装置中的第一编码单元720执行，步骤S106可由图7所示的语言模型的预训练装置中的第一预测单元730执行，步骤S108可由图7所示的语言模型的预训练装置中的第二编码单元740执行，步骤S110可由图7所示的语言模型的预训练装置中的第一调整单元750执行。

根据本申请的另一个实施例，图7所示的语言模型的预训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其他实施例中，语言模型的预训练装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CentralProcessing Unit，CPU)、随机存取存储介质(Random Access Memory，RAM)、只读存储介质(Read-Only Memory，ROM)等处理元件和存储元件的例如计算机的通用计算设备上，运行能够执行如图1所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的语言模型的预训练装置，以及来实现本申请实施例的语言模型的预训练方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质转载于电子设备中，并在其中运行。

此外，与上述图4所示的文本摘要生成模型的训练方法相对应地，本申请实施例还提供一种文本摘要生成模型的训练装置。请参见图8，为本申请的一个实施例提供的一种文本摘要生成模型的训练装置800的结构示意图，该装置800可以包括：

第二获取单元810，用于获取样本对话文本及所述样本对话文本对应的样本摘要文本；

第一生成单元820，用于将所述样本对话文本输入文本摘要生成模型，得到所述样本对话文本对应的预测摘要文本，其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述样本对话文本进行编码，得到用于表示所述样本对话文本的样本表示向量，所述生成模块用于基于所述样本表示向量对所述样本对话文本进行语义解析和总结，得到所述预测摘要文本，所述预训练语言模型为基于本申请实施例提供的语言模型的预训练方法训练得到；

第二调整单元830，用于基于所述样本对话文本对应的样本摘要文本及预测摘要文本，调整所述文本摘要生成模型的模型参数。

显然，本申请实施例提供的文本摘要生成模型的训练装置能够作为图4所示的文本摘要生成模型的训练方法的执行主体，例如图4所示的文本摘要生成模型的训练方法中，步骤S402可由图8所示的文本摘要生成模型的训练装置中的第二获取单元810执行，步骤S404可由图8所示的文本摘要生成模型的训练装置中的第一生成单元820执行，步骤S406可由图8所示的文本摘要生成模型的训练装置中的第二调整单元830执行。

根据本申请的另一个实施例，图8所示的文本摘要生成模型的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其他实施例中，文本摘要生成模型的训练装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括CPU、RAM、ROM等处理元件和存储元件的例如计算机的通用计算设备上，运行能够执行如图4所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的文本摘要生成模型的训练装置，以及来实现本申请实施例的文本摘要生成模型的训练方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质转载于电子设备中，并在其中运行。

此外，与上述图6所示的文本摘要生成方法相对应地，本申请实施例还提供一种文本摘要生成装置。请参见图9，为本申请的一个实施例提供的一种文本摘要生成装置900的结构示意图，该装置900可以包括：

第三获取单元910，用于获取待处理对话文本；

第二生成单元920，用于将所述待处理对话文本输入文本摘要生成模型，得到所述待处理对话文本对应的摘要文本；

其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述待处理对话文本进行编码，得到用于表示所述待处理对话文本的目标表示向量，所述生成模块用于基于所述目标表示向量对所述待处理对话文本进行语义解析和总结，得到所述摘要文本；所述文本摘要生成模型为基于本申请实施例所述的调整模型参数后的文本摘要生成模型。

显然，本申请实施例提供的文本摘要生成装置能够作为图6所示的文本摘要生成方法的执行主体，例如图6所示的文本摘要生成方法中，步骤S602可由图9所示的文本摘要生成装置中的第三获取单元910执行，步骤S604可由图9所示的文本摘要生成装置中的第二生成单元920执行。

根据本申请的另一个实施例，图9所示的文本摘要生成装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其他实施例中，文本摘要生成装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括CPU、RAM、ROM等处理元件和存储元件的例如计算机的通用计算设备上，运行能够执行如图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的文本摘要生成装置，以及来实现本申请实施例的文本摘要生成方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质转载于电子设备中，并在其中运行。

图10是本申请的一个实施例电子设备的结构示意图。请参考图10，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成语言模型的预训练装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：获取样本文本对，所述样本文本对包括样本应答文本及所述样本应答文本在对话文本中关联的上下文文本；通过语言模型对所述上下文文本的掩码文本进行编码，得到用于表示所述掩码文本的掩码表示向量，所述掩码文本为对所述上下文文本中的至少一个词语进行掩码后得到；基于所述掩码表示向量预测所述上下文文本中被掩码的词语所在位置对应的预测词语信息以及预测所述上下文文本关联的预测应答文本；通过所述语言模型对所述上下文文本中的句子进行编码，得到用于表示所述句子的句向量，并确定所述上下文文本中相邻句子的句向量之间的相似度；基于所述上下文文本中被掩码的词语及所述词语所在位置对应的预测词语信息、所述上下文文本关联的预测应答文本及样本应答文本、以及所述上下文文本中相邻句子的句向量之间的相似度，调整所述语言模型的模型参数，以得到预训练语言模型，所述预训练语言模型用于将输入的文本编码为对应的表示向量。

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成文本摘要生成模型的训练装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：获取样本对话文本及所述样本对话文本对应的样本摘要文本；将所述样本对话文本输入文本摘要生成模型，得到所述样本对话文本对应的预测摘要文本，其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述样本对话文本进行编码，得到用于表示所述样本对话文本的样本表示向量，所述生成模块用于基于所述样本表示向量对所述样本对话文本进行语义解析和总结，得到所述预测摘要文本；所述预训练语言模型为基于本申请实施例提供的语言模型的预训练方法训练得到；基于所述样本对话文本对应的样本摘要文本及预测摘要文本，调整所述文本摘要生成模型的模型参数。

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成文本摘要生成装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：获取待处理对话文本；将所述待处理对话文本输入文本摘要生成模型，得到所述待处理对话文本对应的摘要文本；其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述待处理对话文本进行编码，得到用于表示所述待处理对话文本的目标表示向量，所述生成模块用于基于所述目标表示向量对所述待处理对话文本进行语义解析和总结，得到所述摘要文本；所述文本摘要生成模型为基于本申请实施例所述的调整模型参数后的文本摘要生成模型。

上述如本申请图1所示实施例揭示的语言模型的预训练装置执行的方法、上述如本申请图4所示实施例揭示的文本摘要生成模型的训练装置执行的方法以及上述如本申请图6所示实施例揭示的文本摘要生成装置执行的方法均可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的语言模型的预训练方法，并实现语言模型的预训练装置在图1～图3所示实施例的功能，或者，该电子设备还可执行图4的文本摘要生成模型的训练方法，并实现文本摘要生成模型的训练装置在图4、图5所示实施例的功能，或者，该电子设备还可执行图6的文本摘要生成方法，并实现文本摘要生成装置在图6所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：获取样本文本对，所述样本文本对包括样本应答文本及所述样本应答文本在对话文本中关联的上下文文本；通过语言模型对所述上下文文本的掩码文本进行编码，得到用于表示所述掩码文本的掩码表示向量，所述掩码文本为对所述上下文文本中的至少一个词语进行掩码后得到；基于所述掩码表示向量预测所述上下文文本中被掩码的词语所在位置对应的预测词语信息以及预测所述上下文文本关联的预测应答文本；通过所述语言模型对所述上下文文本中的句子进行编码，得到用于表示所述句子的句向量，并确定所述上下文文本中相邻句子的句向量之间的相似度；基于所述上下文文本中被掩码的词语及所述词语所在位置对应的预测词语信息、所述上下文文本关联的预测应答文本及样本应答文本、以及所述上下文文本中相邻句子的句向量之间的相似度，调整所述语言模型的模型参数，以得到预训练语言模型，所述预训练语言模型用于将输入的文本编码为对应的表示向量。

或者，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图4所示实施例的方法，并具体用于执行以下操作：获取样本对话文本及所述样本对话文本对应的样本摘要文本；将所述样本对话文本输入文本摘要生成模型，得到所述样本对话文本对应的预测摘要文本，其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述样本对话文本进行编码，得到用于表示所述样本对话文本的样本表示向量，所述生成模块用于基于所述样本表示向量对所述样本对话文本进行语义解析和总结，得到所述预测摘要文本；所述预训练语言模型为基于本申请实施例提供的语言模型的预训练方法训练得到；基于所述样本对话文本对应的样本摘要文本及预测摘要文本，调整所述文本摘要生成模型的模型参数。

或者，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图6所示实施例的方法，并具体用于执行以下操作：获取待处理对话文本；将所述待处理对话文本输入文本摘要生成模型，得到所述待处理对话文本对应的摘要文本；其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述待处理对话文本进行编码，得到用于表示所述待处理对话文本的目标表示向量，所述生成模块用于基于所述目标表示向量对所述待处理对话文本进行语义解析和总结，得到所述摘要文本；所述文本摘要生成模型为基于本申请实施例所述的调整模型参数后的文本摘要生成模型。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种语言模型的预训练方法，其特征在于，包括：

获取样本文本对，所述样本文本对包括样本应答文本及所述样本应答文本在对话文本中关联的上下文文本；

通过语言模型对所述上下文文本的掩码文本进行编码，得到用于表示所述掩码文本的掩码表示向量，所述掩码文本为对所述上下文文本中的至少一个词语进行掩码后得到；

基于所述掩码表示向量预测所述上下文文本中被掩码的词语所在位置对应的预测词语信息以及预测所述上下文文本关联的预测应答文本；

通过所述语言模型对所述上下文文本中的句子进行编码，得到用于表示所述句子的句向量，并确定所述上下文文本中相邻句子的句向量之间的相似度；

基于所述上下文文本中被掩码的词语及所述词语所在位置对应的预测词语信息、所述上下文文本关联的预测应答文本及样本应答文本、以及所述上下文文本中相邻句子的句向量之间的相似度，调整所述语言模型的模型参数，以得到预训练语言模型，所述预训练语言模型用于将输入的文本编码为对应的表示向量。

2.根据权利要求1所述的方法，其特征在于，所述样本文本对包括第一样本文本对和第二样本文本对；所述获取样本文本对，包括：

获取多个历史对话文本；

将每个历史对话文本中的句子按照预设比例划分为上下文文本和样本应答文本；

将第一历史对话文本中的上下文文本和样本应答文本进行组合，得到第一样本文本对，其中，所述第一历史对话文本为所述多个历史对话文本中的任一个；

确定所述第一历史对话文本中的上下文文本与第二历史对话文本中的样本应答文本之间的相似度，其中，所述第二历史对话文本为所述多个历史对话文本中除所述第一历史对话文本以外的其他历史对话文本；

若所述相似度超过预设阈值，则将所述第一历史对话文本中的上下文文本与所述第二历史对话文本中的样本应答文本进行组合，得到第二样本文本对。

3.根据权利要求1所述的方法，其特征在于，所述基于所述上下文文本中被掩码的词语及所述词语所在位置对应的预测词语信息、所述上下文文本关联的预测应答文本及样本应答文本、以及所述上下文文本中相邻句子的句向量之间的相似度，调整所述语言模型的模型参数，以得到预训练语言模型，包括：

基于第一损失函数确定所述上下文文本中被掩码的词语及所述词语所在位置对应的预测词语信息之间的差异程度，以得到词语预测损失；

基于第二损失函数确定所述上下文文本关联的预测应答文本及样本应答文本之间的差异程度，以得到文本预测损失；

基于所述上下文文本中相邻句子的句向量之间的相似度，确定所述语言模型的对比损失，所述对比损失用于表示所述上下文文本中的句子之间的相似度；

对所述词语预测损失、所述文本预测损失以及所述对比损失进行加权求和，得到所述语言模型的预测损失；

基于所述语言模型的预测损失，调整所述语言模型的模型参数，以得到预训练语言模型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述上下文文本中相邻句子的句向量之间的相似度，确定所述语言模型的对比损失，包括：

将所述上下文文本中相邻两个句子进行组合，得到多个句子对；

计算目标句子对中第一句子的句向量与第二句子的句向量之间的第一相似度以及所述第一句子的句向量与第三句子的句向量之间的第二相似度，所述目标句子对为所述多个句子对中的任一个，所述第一句子为所述目标句子对中的任一个句子，所述第二句子为所述目标句子对中除所述第一句子以外的句子，所述第三句子为所述上下文文本中除所述第一句子和所述第二句子以外的其他句子；

基于所述第一相似度、所述第二相似度以及所述上下文文本中每个句子对应的权重，确定所述目标句子对对应的对比损失；

将所述多个句子对各自对应的对比损失之和，确定为所述语言模型的对比损失。

5.根据权利要求1所述的方法，其特征在于，所述语言模型包括编码模块和解码模块；

所述通过语言模型对所述上下文文本的掩码文本进行编码，得到用于表示所述掩码文本的掩码表示向量，包括：

通过所述编码模块对所述上下文文本的掩码文本进行编码，得到所述掩码表示向量；

所述基于所述掩码表示向量预测所述上下文文本中被掩码的词语所在位置对应的预测词语信息以及预测所述上下文文本关联的预测应答文本，包括：

通过所述编码模块基于所述掩码表示向量预测所述上下文文本中被掩码的词语所在位置对应的预测词语信息；

通过所述解码模块基于所述掩码表示向量预测所述上下文文本关联的预测应答文本。

6.一种文本摘要生成模型的训练方法，其特征在于，包括：

获取样本对话文本及所述样本对话文本对应的样本摘要文本；

将所述样本对话文本输入文本摘要生成模型，得到所述样本对话文本对应的预测摘要文本，其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述样本对话文本进行编码，得到用于表示所述样本对话文本的样本表示向量，所述生成模块用于基于所述样本表示向量对所述样本对话文本进行语义解析和总结，得到所述预测摘要文本；所述预训练语言模型为基于权利要求1至5中任一项所述的语言模型的预训练方法训练得到；

基于所述样本对话文本对应的样本摘要文本及预测摘要文本，调整所述文本摘要生成模型的模型参数。

7.一种文本摘要生成方法，其特征在于，包括：

获取待处理对话文本；

将所述待处理对话文本输入文本摘要生成模型，得到所述待处理对话文本对应的摘要文本；

其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述待处理对话文本进行编码，得到用于表示所述待处理对话文本的目标表示向量，所述生成模块用于基于所述目标表示向量对所述待处理对话文本进行语义解析和总结，得到所述摘要文本；

所述文本摘要生成模型为基于权利要求6所述的调整模型参数后的文本摘要生成模型。

8.一种语言模型的预训练装置，其特征在于，包括：

第一获取单元，用于获取样本文本对，所述样本文本对包括样本应答文本及所述样本应答文本在对话文本中关联的上下文文本；

第一编码单元，用于通过语言模型对所述上下文文本的掩码文本进行编码，得到用于表示所述掩码文本的掩码表示向量，所述掩码文本为对所述上下文文本中的至少一个词语进行掩码后得到；

第一预测单元，用于基于所述掩码表示向量预测所述上下文文本中被掩码的词语所在位置对应的预测词语信息以及预测所述上下文文本关联的预测应答文本；

第二编码单元，用于通过所述语言模型对所述上下文文本中的句子进行编码，得到用于表示所述句子的句向量，并确定所述上下文文本中相邻句子的句向量之间的相似度；

第一调整单元，用于基于所述上下文文本中被掩码的词语及所述词语所在位置对应的预测词语信息、所述上下文文本关联的预测应答文本及样本应答文本、以及所述上下文文本中相邻句子的句向量之间的相似度，调整所述语言模型的模型参数，以得到预训练语言模型，所述预训练语言模型用于将输入的文本编码为对应的表示向量。

9.一种文本摘要生成模型的训练装置，其特征在于，包括：

第二获取单元，用于获取样本对话文本及所述样本对话文本对应的样本摘要文本；

第一生成单元，用于将所述样本对话文本输入文本摘要生成模型，得到所述样本对话文本对应的预测摘要文本，其中，所述文本摘要生成模型包括预训练语言模型和生成模块，所述预训练语言模型用于对所述样本对话文本进行编码，得到用于表示所述样本对话文本的样本表示向量，所述生成模块用于基于所述样本表示向量对所述样本对话文本进行语义解析和总结，得到所述预测摘要文本，所述预训练语言模型为基于权利要求1至5中任一项所述的语言模型的预训练方法训练得到；

第二调整单元，用于基于所述样本对话文本对应的样本摘要文本及预测摘要文本，调整所述文本摘要生成模型的模型参数。

10.一种文本摘要生成装置，其特征在于，包括：

第三获取单元，用于获取待处理对话文本；

第二生成单元，用于将所述待处理对话文本输入文本摘要生成模型，得到所述待处理对话文本对应的摘要文本；

11.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的语言模型的预训练方法；或者，所述处理器被配置为执行所述指令，以实现如权利要求7所述的文本摘要生成模型的训练方法；或者，所述处理器被配置为执行所述指令，以实现如权利要求8所述的文本摘要生成方法。

12.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的语言模型的预训

练方法；或者，使得电子设备能够执行如权利要求7所述的文本摘要生成模型的训练方法；

或者，使得电子设备能够执行如权利要求8所述的文本摘要生成方法。