CN116108157B

CN116108157B - 训练文本生成模型的方法、文本生成方法及装置

Info

Publication number: CN116108157B
Application number: CN202310387160.5A
Authority: CN
Inventors: 袁正; 苑洪意; 谭传奇; 黄非; 黄松芳
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-09-12
Anticipated expiration: 2043-04-11
Also published as: CN116108157A

Abstract

本申请实施例公开了一种训练文本生成模型的方法、文本生成方法及装置。主要技术方案包括：获取包含多个训练样本的训练数据，所述训练样本包括输入文本样本和输出文本样本构成的样本对；获取样本对中输出文本样本的特征表示，对所述输出文本样本的特征表示进行加噪扩散处理，得到加噪后的特征表示；将该样本对的输入文本样本和所述加噪后的特征表示作为输入训练文本生成模型，所述文本生成模型在训练过程中，基于输入文本样本和所述加噪后的特征表示模拟所述加噪扩散的逆扩散处理，以将所述输出文本样本作为目标输出。本申请将扩散概率生成机制引入文本生成领域，能够提高文本生成的效果。

Description

训练文本生成模型的方法、文本生成方法及装置

技术领域

本申请涉及自然语言处理和人工智能技术领域，特别是涉及一种训练文本生成模型的方法、文本生成方法及装置。

背景技术

文本到文本的生成技术主要指对输入文本进行变换和处理，从而获得新文本的技术。主要包括文本摘要、文本改写、机器翻译、自动问答等等。文本到文本的生成所使用的文本生成模型大多使用encoder（编码器）-decoder（解码器）架构，但传统文本生成模型通常采用极大似然估计的方式，就是利用期望的样本结果反推最大概率导致这样结果的参数值，就是确定模型的参数值使得出现期望的样本结果的概率最大。然而，极大似然估计方式产生的文本生成效果仍有待提高。

发明内容

有鉴于此，本申请提供了一种训练文本生成模型的方法、文本生成方法及装置，以便于提高文本生成的效果。

本申请提供了如下方案：

第一方面，提供了一种训练文本生成模型的方法，所述方法包括：

获取包含多个训练样本的训练数据，所述训练样本包括输入文本样本和输出文本样本构成的样本对；

获取样本对中输出文本样本的特征表示，对所述输出文本样本的特征表示进行加噪扩散处理，得到加噪后的特征表示；

将该样本对的输入文本样本和所述加噪后的特征表示作为输入训练文本生成模型，所述文本生成模型在训练过程中，基于输入文本样本和所述加噪后的特征表示模拟所述加噪扩散的逆扩散处理，以将所述输出文本样本作为目标输出。

根据本申请实施例中一可实现的方式，所述文本生成模型包括编码器和解码器；

所述编码器获取输入文本生成模型的输入文本样本的特征表示，所述解码器利用所述输入文本样本的特征表示和所述加噪后的特征表示进行所述逆扩散处理，得到所述输出文本样本；

所述训练的目标包括：最小化所述加噪扩散过程产生的分布与所述逆扩散过程产生的分布之间的差异。

根据本申请实施例中一可实现的方式，所述训练的目标还包括：最小化最后一时间步的扩散处理得到的特征表示的分布与正态分布之间的差异；和/或，最小化最后一时间步的逆扩散得到的特征表示与所述输出文本样本的特征表示之间的差异。

根据本申请实施例中一可实现的方式，所述获取样本对中输出文本样本的特征表示包括：

利用嵌入网络对所述输出文本样本进行词嵌入处理，得到所述输出文本样本的特征表示；或者，

利用所述文本生成模型中的编码器对所述输出文本样本进行编码处理，得到所述输出文本样本的特征表示。

根据本申请实施例中一可实现的方式，所述加噪扩散处理中，第一时间步的扩散处理在所述输出文本样本的特征表示上加噪声，后续每一时间步的扩散处理均在上一时间步的扩散处理得到的特征表示上加噪声，各时间步的扩散处理得到的特征表示符合正态分布。

根据本申请实施例中一可实现的方式，在所述逆扩散处理中，各时间步的逆扩散处理得到的特征表示是在基于上一时间步的逆扩散处理得到的特征表示的后验分布上采样得到的；或者，各时间步的逆扩散处理得到的特征表示是在基于预测得到的的先验分布上采样得到的，所述/>为对第一步扩散处理得到的特征表示的预测结果。

第二方面，提供了一种文本生成方法，所述方法包括：

获取输入文本；

将所述输入文本和随机噪声输入文本生成模型，由所述文本生成模型基于所述输入文本和所述随机噪声进行逆扩散处理，得到输出文本；

其中，所述文本生成模型采用如上第一方面所述的方法预先训练得到。

所述编码器获取所述输入文本的特征表示；

所述解码器利用所述输入文本的特征表示和所述随机噪声进行逆扩散处理，预测输出文本；其中在所述逆扩散处理中，各时间步的逆扩散处理得到的特征表示是在基于上一时间步的逆扩散处理得到的特征表示的后验分布上采样得到的；或者，各时间步的逆扩散处理得到的特征表示是在基于预测得到的的先验分布上采样得到的，所述/>为对第一步扩散处理得到的特征表示的预测结果。

第三方面，提供了一种摘要生成方法，所述方法包括：

获取输入文本；

将所述输入文本和随机噪声输入文本生成模型，由所述文本生成模型基于所述输入文本和所述随机噪声进行逆扩散处理，得到所述输入文本的摘要；

第四方面，提供了一种机器翻译方法，所述方法包括：

获取采用第一语种的文本；

将所述采用第一语种的文本和随机噪声输入文本生成模型，由所述文本生成模型基于所述采用第一语种的文本和所述随机噪声进行逆扩散处理，得到采用第二语种的文本；

第五方面，提供了一种训练文本生成模型的装置，所述装置包括：

样本获取单元，被配置为获取包含多个训练样本的训练数据，所述训练样本包括输入文本样本和输出文本样本构成的样本对；

加噪扩散单元，被配置为获取样本对中输出文本样本的特征表示，对所述输出文本样本的特征表示进行加噪扩散处理，得到加噪后的特征表示；

模型训练单元，被配置为将该样本对的输入文本样本和所述加噪后的特征表示作为输入训练文本生成模型，所述文本生成模型在训练过程中，基于输入文本样本和所述加噪后的特征表示模拟所述加噪扩散的逆扩散处理，以将所述输出文本样本作为目标输出。

第六方面，提供了一种文本生成装置，所述装置包括：

文本获取单元，被配置为获取输入文本；

文本生成单元，被配置为将所述输入文本和随机噪声输入文本生成模型，获取所述文本生成模型基于所述输入文本和所述随机噪声进行逆扩散处理得到的输出文本；

其中，所述文本生成模型由上第五方面所述的装置预先训练得到。

根据七方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

根据第八方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1）本申请不再采用极大似然估计的方式进行文本生成模型的训练，而是提供了一种全新的思路，将扩散概率生成机制引入文本生成领域，将文本生成过程模拟为加噪扩散的逆扩散处理，消除因噪声产生的信息丢失对文本生成所带来的影响，从而得到更好的文本生成效果。

2）本申请在实际预测过程中，编码器的输入和处理不变，也就是说，编码器仍然只需要进行一次神经网络的前馈计算，而不必参与逆扩散过程，逆扩散过程可能需要成百上千时间步的处理，因此可以极大地节省计算资源。

3）本申请在逆扩散处理中，基于预测得到的输出文本样本的特征表示的先验分布的采样方式更接近训练目标，可以得到更加高质量的特征表示。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的***架构图；

图2为本申请实施例提供的训练文本生成模型的方法流程图；

图3为本申请实施例提供的文本生成模型的训练原理示意图；

图4为本申请实施例提供的文本生成方法的流程图；

图5为本申请实施例提供的文本生成模型的预测原理示意图；

图6为本申请实施例提供的训练文本生成模型的装置的示意性框图；

图7为本申请实施例提供的文本生成装置的示意性框图；

图8为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

为了方便对本申请的理解，首先对本申请所适用的***架构进行简单描述。图1示出了可以应用本申请实施例的示例性***架构，如图1中所示，该***架构包括模型训练装置和文本生成装置。

其中，模型训练装置在离线阶段获取训练数据后，可以采用本申请实施例提供的方法进行模型训练，得到文本生成模型。

文本生成装置在线利用已经建立的文本生成模型，基于输入文本生成输出文本。文本生成模型实际上是一个序列到序列（seq2seq）模型，实现从文本序列到文本序列的预测。

模型训练装置和文本生成装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPs，Virtual Private Server）服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和文本生成装置还可以设置于具有较强计算能力的计算机终端。

需要说明的是，上述文本生成装置除了在线上进行文本生成之外，也可以采用离线的方式进行文本生成，例如针对批量的文本生成摘要。

应该理解，图1中的模型训练装置、文本生成装置以及文本生成模型的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、文本生成装置以及文本生成模型。

图2为本申请实施例提供的训练文本生成模型的方法流程图，该方法流程可以由图1所示***中的模型训练装置执行。如图2中所示，该方法可以包括：

步骤202：获取包含多个训练样本的训练数据，训练样本包括输入文本样本和输出文本样本构成的样本对。

步骤204：获取样本对中输出文本样本的特征表示，对输出文本样本的特征表示进行加噪扩散处理，得到加噪后的特征表示。

步骤206：将该样本对的输入文本样本和加噪后的特征表示作为输入训练文本生成模型，文本生成模型在训练过程中，基于输入文本样本和加噪后的特征表示模拟加噪扩散的逆扩散处理，以将输出文本样本作为目标输出。

由上述流程可以看出，本申请不再采用极大似然估计的方式进行文本生成模型的训练，而是提供了一种全新的思路，将扩散概率生成机制引入文本生成领域，将文本生成过程模拟为加噪扩散的逆扩散处理，消除因噪声产生的信息丢失对文本生成所带来的影响，从而得到更好的文本生成效果。

下面分别对上述流程中的各步骤进行详细描述。首先结合实施例对上述步骤202即“获取包含多个训练样本的训练数据”进行详细描述。

本申请虽然不在采用极大似然估计的方式，但获取的训练数据仍与传统极大似然估计采用的训练数据相同。训练数据包含多个训练样本，每个训练样本均为输入文本样本和输出文本样本/>构成的样本对。

例如，在摘要生成应用场景下，可以将一些文章作为输入文本样本，将这些文章的摘要作为输出文本样本。

再例如，在文本改写领域，可以将一些句子或段落作为输入文本样本，将这些句子或段落的另一种表达的文本即改写文本作为输出文本。

再例如，在机器翻译领域，可以将采用第一语种的文本作为输入文本样本，将该文本样本对应的采用第二语种的文本作为输出文本样本。例如将中文句子作为输入文本样本，将中文句子翻译后对应的英文句子作为输出文本样本。

下面结合实施例对上述步骤204即“获取样本对中输出文本样本的特征表示，对输出文本样本的特征表示进行加噪扩散处理，得到加噪后的特征表示”。

去噪扩散概率模型在图像生成领域已经被应用，达到了超越传统生成对抗模型的效果，但在自然语言处理领域仍处于空白。去噪扩散概率模型主要包括：向前加噪扩散和向后去噪两个过程，本步骤中是向前加噪扩散的过程，即在输出文本样本的基础上逐时间步增加噪声的过程。

在自然语言处理领域，由于自然语言的离散化特点，并不能够直接将去噪扩散概率模型应用于自然语言生成任务上。本申请实施例中可以首先将包含各Token（元素）构成的序列的映射为连续的特征表示/>，即由各Token的词向量构成的特征表示。其中，文本的各Token指的是构成文本的元素。对于文本而言，将文本切分为字符或者词语序列，则文本序列中的字符或者词语、以及起始符、分隔符均为Token。/>，/>和/>分别为/>的长度和词向量的维度。

作为其中一种可以可实现的方式，可以利用嵌入网络对输出文本样本进行词嵌入处理，得到输出文本样本/>的特征表示/>。

作为另一种可实现的方式，利用文本生成模型中的编码器对输出文本样本进行编码处理，得到输出文本样本/>的特征表示/>。

加噪扩散的过程是在输出文本样本的特征表示上施加的多时间步的扩散过程。第一时间步的扩散处理在输出文本样本的特征表示上加噪声得到/>。后续每一时间步的扩散处理均在上一时间步的扩散处理得到的特征表示上加噪声。各时间步的扩散处理得到的特征表示符合正态分布，也就是说，向前加噪扩散的过程可以看做是添加了一个额外的马尔科夫转换分布。

如图3中所示，第一时间步的扩散处理中的马尔科夫转换分布可以定义为，例如：

（1）

后续其他时间步的扩散处理中，以第+1时间步为例的马尔科夫转换分布可以定义为/>：

（2）

其中，是关于/>的分布，该分布是以/>为均值、以/>为方差的正态分布。上述每一时间步的扩散处理中采用的/>,/>为预设的参数，/>为单位矩阵。/>和/>是第/>+1时间步和第/>时间步的扩散处理得到的特征表示。通过预设时间步数（例如T+1个时间步）的扩散后，得到/>，尽可能让/>接近正态分布。其中扩散的时间步数越多，/>越接近正态分布，效果越好，但相应对计算资源的占用越多，耗时越长，因此需要根据经验或实验取一个相对均衡的值，例如取2000时间步。

通过上述前向加噪扩散过程，将离散的输出文本样本融入连续的去噪扩散概率模型中，逐渐在上添加噪声来获得符合上述先验分布的样本/>，本申请实施例中采用的先验分布为正态分布。

下面结合实施例对上述步骤206即“将该样本对的输入文本样本和加噪后的特征表示输入文本生成模型，文本生成模型在训练过程中，基于输入文本样本和加噪后的特征表示模拟加噪扩散的逆扩散处理，以将输出文本样本作为目标输出”进行详细描述。

文本生成模型的训练实际上是在上述向前加噪扩散的基础上模拟（即学习）逆扩散的过程，本申请实施例采用的文本生成模型的架构为编码器-解码器结构。如图3中所示，输入文本样本输入编码器，编码器对/>进行编码，获取输入文本样本/>的特征表示。

其中，编码器可以基于预训练语言模型实现，将诸如BERT（BidirectionalEncoder Representation from Transformers，基于转换的双向编码表示）、XLNet（一种通过排列语言模型实现双向上下文信息的自回归模型）、GPT（Generative Pre-Training，生成式预训练）模型等预训练语言模型作为初始的编码器，在此基础上进行进一时间步训练。其中，BERT是一种双向预训练语言模型，使用Transformer Encoder（转换编码器）作为模型结构，BERT能够很好地利用上下文信息进行特征学习。XLNet 是一个类似 BERT 的模型，是一种更加泛化的自回归预训练模型。GPT使用Transformer Decoder（转换解码器）结构，并在Transformer Decoder中仅保留了掩码多头注意力。

Transformer（转换）网络是一个采用自注意力机制对输入的各Token进行编码以转换为特征表示的模型。另外，除了使用基于Transformer实现的编码器-解码器架构之外，还可以采用基于其他网络实现的编码器-解码器结构，例如基于RNN（Recurrent NeuralNetwork，循环神经网络）等实现。

解码器利用输入文本样本的特征表示和加噪后的特征表示进行逆扩散处理，得到输出文本样本。

对于文本生成任务，每个时间步可以看做是在输入文本样本为条件下，对上一时间步逆扩散得到的特征表示上去除噪声。其中对于第一时间步逆扩散而言，是在加噪后的特征表示上去除噪声。

每一时间步去噪（即逆扩散处理）可以认为是模拟加噪处理的逆过程，即模拟向前加噪扩散过程的后验分布，表示为，其遵循高斯分布族的形式。/>表示在/>和/>基础上的/>的分布，可以表示为：

（3）

是关于/>的分布，该分布的均值是/>，方差为。

其中，（4）

（5）

（6）

（7）

其中，是预设的参数，/>就是文本生成模型需要模拟的处理函数，也可以认为是模型学习到的去噪函数。/>指代模型参数。

基于上述描述可以看出，作为其中一种可实现的方式，在逆扩散处理中，各时间步的逆扩散处理得到的特征表示是在基于上一时间步的逆扩散处理得到的特征表示的后验分布上采样得到的。即是在/>上采样得到的。

作为另一种可实现的方式，加噪扩散过程中的各时间步均可以得到基于的先验分布，表示为：

（8）

因此在逆扩散处理中，各时间步的逆扩散处理得到的特征表示可以是在基于预测得到的/>的先验分布上采样得到的，/>为对第一步扩散处理得到的特征表示的预测结果。也就是说，每一步逆扩散处理都可以预测一个/>，然后基于先验分布/>采样得到/>。初始的/>是不准确的，但随着时间步的进行，对/>的预测越来越准确，并在最后一步逆扩散处理得到/>时，目标是使得/>与/>一致。这样的采样方法和训练目标更加相近，可以得到更加高质量的特征表示。

因为去噪过程是加噪扩散的逆过程，理想的情况就是文本生成模型完全学习到加噪扩散的逆过程从而最终预测得到，因此本申请实施例中训练文本生成模型采用的训练目标主要包括：最小化加噪扩散过程产生的分布与逆扩散过程产生的分布之间的差异。

更进一步地，在加噪扩散过程中，理想的状况是最后一时间步的扩散处理得到的特征表示与随机噪声一样，因此，上述训练目标还可以包括：最小化最后一时间步的扩散处理得到的特征表示的分布与正态分布之间的差异。

更进一步地，在逆扩散（即去噪）过程中，理想的状况是完全模拟加噪扩散的逆过程，在最后一时间步逆扩散得到的特征表示与完全一致。因此，上述训练目标还可以包括最小化最后一时间步逆扩散得到的特征表示与所述文本样本的特征表示之间的差异。

在本说明书实施例中，可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

作为其中一种可实现的方式，可以构造损失函数如下：

其中,上述公式中的是取期望的处理，例如/>指的是在约束下取/>中内容的期望。

指的是基于/>的/>符合/>的分布。体现的是逆扩散过程产生的分布与加噪扩散过程产生的分布之间的差异。/>表示最后一时间步的扩散处理得到的特征表示的期望值，以此能够体现最后一时间步的扩散处理得到的特征表示与正态分布的差异。表示在逆扩散处理得到的/>的前提下预测得到/>的概率，因此/>体现的实际上是最后一时间步逆扩散得到的特征表示与输出文本样本的特征表示/>之间的差异。

在上述训练得到的文本生成模型的基础上，可以利用文本生成模型执行具体的文本生成任务。图4为本申请实施例提供的文本生成方法的流程图，该方法可以由图1所示***中的文本生成装置执行。如图4中所示，该方法可以包括以下步骤：

步骤402：获取输入文本。

步骤404：将输入文本和随机噪声输入文本生成模型，由文本生成模型基于输入文本和随机噪声进行逆扩散处理，得到输出文本。其中，文本生成模型采用如图2所示的方法预先训练得到。

本申请实施例预先训练得到的文本生成模型的结构如图5中所示，包括编码器和解码器。

编码器获取输入文本的特征表示。

解码器利用输入文本的特征表示和随机噪声进行逆扩散处理，预测输出文本。其中在逆扩散处理中，各时间步的逆扩散处理得到的特征表示是在基于上一时间步的逆扩散处理得到的特征表示的后验分布上采样得到的；或者，各时间步的逆扩散处理得到的特征表示是在基于预测得到的的先验分布上采样得到的，/>为对第一步扩散处理得到的特征表示的预测结果。

也就是说在实际预测过程中，编码器的输入和处理不变，也就是说，编码器仍然只需要进行一次神经网络的前馈计算，而不必参与逆扩散过程，逆扩散过程可能需要成百上千时间步的处理，因此可以极大地节省计算资源。

解码器的输入除了是编码器的输出之外，还会将随机噪声输入解码器，解码器依据输入文本的特征表示逐时间步进行去燥处理，在最后一个时间步得到特征表示，然后将/>进行映射得到输出文本。

作为其中一种可实现的方式，上述文本生成方法可以由云端服务器执行，也就是说在云端集成文本生成的功能。云端服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPS，Virtual PrivateServer）服务中存在的管理难度大，服务扩展性弱的缺陷。

当用户希望针对输入文本生成输出文本时，可以将输入文本通过用户终端上传至云端服务器。

上述用户终端可以是但不限于诸如：手机、平板电脑、笔记本电脑、PDA（PersonalDigital Assistant，个人数字助理）、可穿戴式设备、PC（Personal Computer，个人计算机）等。

云端服务器获取来自用户终端的输入文本；然后利用基于预先训练得到的文本生成模型利用该输入文本和随机噪声进行逆扩散处理，得到输出文本生成输出文本，并将该输出文本返回给用户终端。

本申请实施例提供的上述方法可以应用于多种应用场景，在此仅列举其中几种进行描述：

应用场景1：摘要生成场景

在本场景下，训练文本生成模型时，可以将一些文章作为输入文本样本，将这些文章的摘要作为输出文本样本，从而构成样本对。例如，可以将一些新闻文本作为输入文本样本，将新闻文本的摘要作为输出文本样本。再例如，可以将一些论文作为输入文本样本，将论文的摘要作为输出文本样本。上述新闻文本及其摘要、论文及其摘要等均是在网络上较为容易获取的，因此可以获得大量的训练样本来作为训练数据。

然后获取样本对中输出文本样本的特征表示，对输出文本样本的特征表示进行加噪扩散处理，得到加噪后的特征表示；将该样本对的输入文本样本和加噪后的特征表示输入文本生成模型，文本生成模型在训练过程中，基于输入文本样本和加噪后的特征表示模拟加噪扩散的逆扩散处理，以得到输出文本样本。具体训练过程可以参见方法实施例中针对图2和图3的相关记载，在此不做赘述。

在实际进行摘要生成时，获取输入文本，将输入文本和随机噪声输入预先训练得到的文本生成模型，由文本生成模型基于上述输入文本和随机噪声进行逆扩散处理，得到输入文本的摘要。

通过这种方式能够自动针对输入文本生成准确的摘要，可以在新闻文本、论文文本进行线上发布时，自动生成摘要并一并发布。也可以将文本生成装置作为工具提供给用户，由用户上传自己的文档作为输入文本，使用该工具获取自动生成的摘要。

应用场景2：机器翻译场景

在本场景下，训练文本生成模型时，可以将一些双语语料作为样本对，其中双语语料包括采用第一语种的文本作为输入文本样本，还包括采用第二语种的文本作为输出文本样本。例如，可以将一些中文文本和对应英文文本构成样本对，作为训练样本。

在实际进行机器翻译时，获取采用第一语种的文本，将采用第一语种的文本和随机噪声输入预先训练得到的文本生成模型，由文本生成模型基于上述采用第一语种的文本和随机噪声进行逆扩散处理，得到采用第二语种的文本。

通过这种方式能够自动将采用第一语种的文本翻译成第二语种的文本。例如可以在线上发布文本时，自动将文本翻译成另外一种语言，以便不同国家或地区的用户观看。再例如，可以将文本生成装置作为工具提供给用户，由用户上传要翻译的文档作为输入文本，使用该工具获取自动翻译得到的指定语种的文本。

还可以应用于其他应用场景，在此不做一一列举。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种训练文本生成模型的装置。图6示出根据一个实施例的训练文本生成模型的装置的示意性框图，该装置即图1所示架构中的模型训练装置。如图6所示，该装置600可以包括：样本获取单元601、加噪扩散单元602和模型训练单元603。其中各组成单元的主要功能如下：

样本获取单元601，被配置为获取包含多个训练样本的训练数据，训练样本包括输入文本样本和输出文本样本构成的样本对。

加噪扩散单元602，被配置为获取样本对中输出文本样本的特征表示，对输出文本样本的特征表示进行加噪扩散处理，得到加噪后的特征表示。

模型训练单元603，被配置为将该样本对的输入文本样本和加噪后的特征表示作为输入训练文本生成模型，文本生成模型在训练过程中，基于输入文本样本和加噪后的特征表示模拟加噪扩散的逆扩散处理，以将上述输出文本样本作为目标输出。

其中文本生成模型包括编码器和解码器。编码器获取输入文本生成模型的输入文本样本的特征表示，解码器利用输入文本样本的特征表示和加噪后的特征表示进行逆扩散处理，得到输出文本样本。

模型训练单元603训练文本生成模型时，采用的训练目标包括：最小化加噪扩散过程产生的分布与逆扩散过程产生的分布之间的差异。

更进一步地，模型训练单元603训练文本生成模型时，采用的训练目标可以进一步包括：最小化最后一时间步的扩散处理得到的特征表示的分布与正态分布之间的差异；和/或，最小化最后一时间步逆扩散得到的特征表示与输出文本样本的特征表示之间的差异。

作为其中一种可实现的方式，加噪扩散单元602可以利用嵌入网络对输出文本样本进行词嵌入处理，得到输出文本样本的特征表示。

作为其中一种可实现的方式，加噪扩散单元602可以利用文本生成模型中的编码器对输出文本样本进行编码处理，得到输出文本样本的特征表示。

作为其中一种可实现的方式，加噪扩散单元602在加噪扩散处理中，第一时间步的扩散处理在所述输出文本样本的特征表示上加噪声，后续每一时间步的扩散处理均在上一时间步的扩散处理得到的特征表示上加噪声，各时间步的扩散处理得到的特征表示符合正态分布。

作为其中一种可实现的方式，文本生成模型在逆扩散处理中，各时间步的逆扩散处理得到的特征表示是在基于上一时间步的逆扩散处理得到的特征表示的后验分布上采样得到的。

作为另一种可实现的方式，文本生成模型在逆扩散处理中，各时间步的逆扩散处理得到的特征表示是在基于预测得到的的先验分布上采样得到的，所述/>为对第一步扩散处理得到的特征表示的预测结果。

根据另一方面的实施例，提供了一种文本生成装置。图7示出根据一个实施例的文本生成装置的示意性框图。如图7所示，该装置700可以包括：文本获取单元701和文本生成单元702。其中各组成单元的主要功能如下：

文本获取单元701，被配置为获取输入文本。

文本生成单元702，被配置为将输入文本和随机噪声输入文本生成模型，获取文本生成模型基于输入文本和随机噪声进行逆扩散处理得到的输出文本。其中，文本生成模型由图6所示的模型训练装置预先训练得到。

其中，文本生成模型包括编码器和解码器。编码器获取输入文本的特征表示。解码器利用输入文本的特征表示和随机噪声进行逆扩散处理，预测输出文本；其中在逆扩散处理中，各时间步的逆扩散处理得到的特征表示是在基于上一时间步的逆扩散处理得到的特征表示的后验分布上采样得到的；或者，各时间步的逆扩散处理得到的特征表示是在基于预测得到的的先验分布上采样得到的，/>为对第一步扩散处理得到的特征表示的预测结果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图8示例性的展示出了电子设备的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU、微处理器、应用专用集成电路（ApplicationSpecific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作***821，用于控制电子设备800的低级别操作的基本输入输出***(BIOS) 822。另外，还可以存储网页浏览器823，数据存储管理***824，以及模型训练装置/文本生成装置825等等。上述模型训练装置/文本生成装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线830包括一通路，在设备的各个组件（例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种训练文本生成模型的方法，其特征在于，所述方法包括：

将该样本对的输入文本样本和所述加噪后的特征表示作为输入训练文本生成模型，所述文本生成模型在训练过程中，基于输入文本样本和所述加噪后的特征表示模拟所述加噪扩散的逆扩散处理，以将所述输出文本样本作为目标输出；

其中在所述逆扩散处理的各时间步中，每一步逆扩散处理均对第一步扩散处理得到的特征表示进行预测，得到预测结果/>，基于预测得到的/>的先验分布上采样得到当前时间步逆扩散处理得到的特征表示。

2.根据权利要求1所述的方法，其特征在于，所述文本生成模型包括编码器和解码器；

3.根据权利要求2所述的方法，其特征在于，所述训练的目标还包括：最小化最后一时间步的扩散处理得到的特征表示的分布与正态分布之间的差异；和/或，最小化最后一时间步的逆扩散得到的特征表示与所述输出文本样本的特征表示之间的差异。

4.根据权利要求2所述的方法，其特征在于，所述获取样本对中输出文本样本的特征表示包括：

5.根据权利要求1所述的方法，其特征在于，所述加噪扩散处理中，第一时间步的扩散处理在所述输出文本样本的特征表示上加噪声，后续每一时间步的扩散处理均在上一时间步的扩散处理得到的特征表示上加噪声，各时间步的扩散处理得到的特征表示符合正态分布。

6.一种文本生成方法，其特征在于，所述方法包括：

获取输入文本；

其中，所述文本生成模型采用如权利要求1至5中任一项所述的方法预先训练得到。

7.一种摘要生成方法，其特征在于，所述方法包括：

获取输入文本；

8.一种机器翻译方法，其特征在于，所述方法包括：

获取采用第一语种的文本；

9.一种训练文本生成模型的装置，其特征在于，所述装置包括：

模型训练单元，被配置为将该样本对的输入文本样本和所述加噪后的特征表示作为输入训练文本生成模型，所述文本生成模型在训练过程中，基于输入文本样本和所述加噪后的特征表示模拟所述加噪扩散的逆扩散处理，以将所述输出文本样本作为目标输出；其中在所述逆扩散处理的各时间步中，每一步逆扩散处理均对第一步扩散处理得到的特征表示进行预测，得到预测结果/>，基于预测得到的/>的先验分布上采样得到当前时间步逆扩散处理得到的特征表示。

10.一种文本生成装置，其特征在于，所述装置包括：

文本获取单元，被配置为获取输入文本；

其中，所述文本生成模型由权利要求9所述的装置预先训练得到。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至8中任一项所述的方法的步骤。