CN109885667A

CN109885667A - 文本生成方法、装置、计算机设备及介质

Info

Publication number: CN109885667A
Application number: CN201910067379.0A
Authority: CN
Inventors: 毕野; 黄博; 吴振宇; 王建明
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-06-14
Also published as: WO2020151310A1

Abstract

本发明属于模型构建领域，公开了一种文本生成方法、装置、设备及介质，该方法包括：从真实文本数据集中获取文本正样本，然后建立初始生成器模型，用文本正样本对初始生成器模型进行预训练得到生成器模型，用生成器模型生成文本负样本；接着建立初始判别器模型，用文本正样本和文本负样本进行预训练得到判别器模型；再让生成器模型与判别器模型不断对抗并更新模型的参数，当判别器模型收敛时，根据收敛时的生成器模型得到文本生成模型；获取待识别文本，并将待识别文本输入至文本生成模型中，基于文本生成模型生成目标文本。本发明的文本生成方法可以提高文本生成模型的构建效率和生成文本的精度。

Description

文本生成方法、装置、计算机设备及介质

技术领域

本发明属于模型构建领域，更具体地说，是涉及一种文本生成方法、装置、计算机设备及介质。

背景技术

随着科技的发展，我们希望计算机能够像人类一样会写作，能够撰写出高质量的自然语言文本，而文本自动生成技术就是实现这一目标的关键技术。

目前，常用的方法是利用长短期记忆网络(Long Short-Term Memory Networks，简称LSTM)来进行文本生成，LSTM是递归神经网络(Recurrent/Recursive NeuralNetwork，简称RNN)的一种。其中，训练RNN常用的方式是最大似然估计，即在给定前t-1个单词的情况下，通过最大化第t个单词的对数似然来给出下一个单词。但是，使用RNN的不足在于是会产生逐步递增的偏差，因为在生成一句话的时候，RNN是逐个单词依次生成的，下一单词是在前面单词给定的基础上生成的，这样就导致产生了一个偏差，而且随着序列的长度的增加，偏差也会越来越大。

另外，RNN不能进行自我改进，对于RNN的某些应用，可以加入最小化损失函数来改进模型。但是对于文本生成模型，由于输入的数据为离散型数据，因此没有直接可用的损失函数，没有一种合适方式来指导文本生成模型进行自我改进以获得接近真实的输出。

综上所述，目前用以生成文本的模型的效率较低，亟待找到一种文本生成模型可以较快速、较准确的生成文本。

发明内容

本发明实施例提供一种文本生成方法、装置、计算机设备及存储介质，以解决目前生成文本的效率较低的问题。

一种文本生成方法，包括：

获取真实文本数据集，从所述真实文本数据集中获取文本正样本；

建立初始生成器模型，将所述文本正样本输入至所述初始生成器模型进行预训练，得到生成器模型，并根据所述生成器模型生成第一文本负样本；

建立初始判别器模型，将所述文本正样本与所述第一文本负样本输入至所述初始判别模型中进行预训练，得到判别器模型；

基于所述生成器模型生成测试文本，将所述测试文本输入至所述判别器模型中获取所述测试文本的奖励值，根据所述奖励值计算所述生成器模型的梯度，并根据所述梯度更新所述生成器模型；

根据更新后的所述生成器模型生成第二文本负样本，将所述第二文本负样本与所述文本正样本输入至判别器模型中，根据最小化交叉熵更新所述判别器模型；

交替更新所述生成器模型和所述判别器模型，若所述判别器模型的输出收敛，则根据收敛时的所述生成器模型得到文本生成模型；

获取待识别文本，并将所述待识别文本输入至所述文本生成模型中，基于所述文本生成模型生成目标文本。

一种文本生成装置，包括：

文本正样本获取模块，用于获取真实文本数据集，从所述真实文本数据集中获取文本正样本；

生成器模型获取模块，用于建立初始生成器模型，将所述文本正样本输入至所述初始生成器模型进行预训练，得到生成器模型，并根据所述生成器模型生成第一文本负样本；

判别器模型获取模块，用于建立初始判别器模型，将所述文本正样本与所述第一文本负样本输入至所述初始判别模型中进行预训练，得到判别器模型；

生成器模型更新模块，用于基于所述生成器模型生成测试文本，将所述测试文本输入至所述判别器模型中获取所述测试文本的奖励值，根据所述奖励值计算所述生成器模型的梯度，并根据所述梯度更新所述生成器模型；

判别器模型更新模块，用于根据更新后的所述生成器模型生成第二文本负样本，将所述第二文本负样本与所述文本正样本输入至判别器模型中，根据最小化交叉熵更新所述判别器模型；

文本生成模型获取模块，用于交替更新所述生成器模型和所述判别器模型，若所述判别器模型的输出收敛，则根据收敛时的所述生成器模型得到文本生成模型；

目标文本生成模块，用于获取待识别文本，并将所述待识别文本输入至所述文本生成模型中，基于所述文本生成模型生成目标文本。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文本生成方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文本生成方法。

上述文本生成方法、装置、计算机设备及存储介质，通过获取真实文本数据集，从真实文本数据集中获取文本正样本；建立初始生成器模型，将文本正样本输入至初始生成器模型进行预训练，得到生成器模型，并根据生成器模型生成第一文本负样本；建立初始判别器模型，将文本正样本与第一文本负样本输入至初始判别模型中进行预训练，得到判别器模型；基于生成器模型生成测试文本，将测试文本输入至判别器模型中获取测试文本的奖励值，根据奖励值计算生成器模型的梯度，并根据梯度更新生成器模型；根据更新后的生成器模型生成第二文本负样本，将第二文本负样本与文本正样本输入至判别器模型中，根据最小化交叉熵更新判别器模型；交替更新生成器模型和判别器模型，若判别器模型的输出收敛，则根据收敛时的生成器模型得到文本生成模型，获取待识别文本，并将待识别文本输入至文本生成模型中，基于文本生成模型生成目标文本。通过构建生成器模型和判别器模型，再让生成器模型与判别器模型不断对抗，不断自我改进，可以快速构建文本生成模型，并且生成文本的准确性高，提高了文本生成模型的构建效率和生成文本的精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中文本生成方法的一应用环境示意图；

图2是本发明一实施例中文本生成方法的一流程图；

图3是本发明一实施例中文本生成方法的另一流程图；

图4是本发明一实施例中文本生成方法的另一流程图；

图5是本发明一实施例中文本生成方法的另一流程图；

图6是本发明一实施例中文本生成方法的另一流程图；

图7是本发明一实施例中文本生成装置的一原理框图；

图8是本发明一实施例中文本生成装置中生成器模型获取模块的一原理框图；

图9是本发明一实施例中文本生成装置中判别器模型获取模块的一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的文本生成方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信，服务端通过客户端获取真实文本数据集，从真实文本数据库中获取文本正样本；然后根据客户端的输入建立初始生成器模型，将文本正样本输入至初始生成器模型进行预训练，得到生成器模型，并根据生成器模型生成第一文本负样本；接着根据客户端的输入建立初始判别器模型，将文本正样本与第一文本负样本输入至初始判别器模型中进行预训练，得到判别器模型；再接着服务端基于生成器模型生成测试文本，将测试文本输入至判别器模型中获取测试文本的奖励值，根据奖励值计算生成器模型的梯度，并根据梯度更新生成器模型；服务端根据更新后的生成器模型生成第二文本负样本，将第二文本负样本与文本正样本输入至判别器模型中，根据最小化交叉熵更新判别器模型；交替更新生成器模型和判别器模型，若判别器模型的输出收敛，则根据收敛时的生成器模型得到文本生成模型；最后获取待识别文本，并将待识别文本输入至文本生成模型中，基于文本生成模型生成目标文本返回客户端。其中，客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种文本生成方法，以该方法应用在图1中的服务端为例进行说明，具体可以包括如下步骤：

S10：获取真实文本数据集，从真实文本数据集中获取文本正样本。

其中，真实文本数据集是指希望文本生成模型最终输出的文本对应的原始文本数据集，例如，若希望文本生成模型输出是诗，则真实文本数据集就是各种诗组成的数据集。本实施例中的文本可以为诗、问题答案或者对话等，本实施例以最终输出诗为例子进行说明。

其中，文本正样本是指从真实文本数据集中抽取的多个样本，例如是从真实文本数据集中抽取的多首诗。

具体地，可以预先收集大量诗的数据集存储于服务端的数据库中作为真实文本数据集，开始训练时，服务端随机从数据库中获取真实文本数据集，并从真实文本数据集中抽取一些诗(样本)作为文本正样本。

在一实施例中，如图3所示，为了使生成器模型和判别器模型得到更好的训练，可以将真实文本数据集转化为向量的形式，即步骤S10具体可以包括以下步骤：

S11：从真实文本数据集中选取N个文本数据，N为正整数。

具体地，服务端从数据库中选取N个样本作为文本正样本，其中N为正整数，可以理解，抽取N的数目越多，训练的效果越好。可选地，具体选取哪些样本作为文本正样本可以通过客户端的输入得到，例如客户端输入样本的编号，然后服务端根据客户端输入的样本的编号从数据库中选取相应的样本。

S12：将N个文本数据用词向量模型转化为向量形式，将转化为向量形式的N个文本数据作为文本正样本。

其中，词向量模型为word2vec模型，word2vec模型包括两种神经网络结构，分别是CBOW和Skip-gram。具体地，服务端可以将诗(真实文本数据集)输入至word2vec模型中进行训练，训练完成之后word2vec模型就可用来映射诗的每个词条到一个向量。例如，若一首诗可以表示为{词条1，词条2，…，词条n}，调用word2vec算法，可以将词条i转化x_i,该首诗可以用向量表示为X^T＝(x₁,x₂,…x_T)。

具体地，服务端将选取的N个文本数据通过word2vec模型转化为向量形式，再将这些转化为向量形式的N个文本数据作为文本正样本。

在图3对应的实施例中，通过从真实文本数据集中选取N个文本数据，再将N个文本数据用词向量模型转化为向量形式，最后将转化为向量形式的N个文本数据作为文本正样本。通过将文本数据转化为向量形式，可以文本中的词条相关性更好，方便后续生成器模型和判别器模型的训练。

S20：建立初始生成器模型，将文本正样本输入至初始生成器模型进行预训练，得到生成器模型，并根据生成器模型生成第一文本负样本。

应理解，这里的初始生成器模型及后续的初始判别器模型都是基于神经网络构建的模型。可选地，由于输入数据文本为离散型数据，因此初始生成器模型的建立可以采用递归神经网络(RNN)；而为了加快神经网络的训练，减少运算量，初始判别器模型的建立可以用卷积神经网络(CNN)。可选地，初始生成器模型和初始判别器模型的建立也可以采用其它神经网络，这里不做具体限定。本实施例以初始生成器模型为递归神经网络和初始判别器模型为卷积神经网络为例进行说明。

具体地，随机选取RNN的参数建立初始生成器模型，建立初始生成器模型后，将步骤S10获取的文本正样本输入至初始生成器模型中进行预训练，预训练之后就可以得到生成器模型，再根据生成器模型生成一些负样本作为第一文本负样本，以便对初始判别器模型进行预训练。应理解，初始生成器模型和生成器模型只是为了区分预训练前后的神经网络。可选地，服务端也可以从真实文本数据集中另外选取样本数据输入至初始生成器模型中进行预训练。

S30：建立初始判别器模型，将文本正样本与第一文本负样本输入至初始判别模型中进行预训练，得到判别器模型。

具体地，服务端随机选取CNN的参数建立初始判别器模型，建立初始判别器模型后，将获取的文本正样本和第一文本负样本分别进行标注。示例性地，可以将文本正样本标注为1，第一文本负样本标注为0。再将标注后的文本正样本和第一文本负样本输入至初始判别器模型中进行预训练，得到判别器模型。其中，文本正样本和第一文本负样本都为N个，N的个数可以根据实际情况决定，样本越多，得到的判别器模型判别精度越高。采用CNN建立判别器模型，是由于CNN中可以设置适当的池化层，采用池化操作，可以防止判别器模型对数据的过拟合，也可以加快判别器模型训练的速度，减少运算量。

S40：基于生成器模型生成测试文本，将测试文本输入至判别器模型中获取测试文本的奖励值，根据奖励值计算生成器模型的梯度，并根据梯度更新生成器模型。

其中，测试文本的奖励值是指判别器模型输出的数值。

具体地，服务端采用生成器模型生成测试文本，然后将测试文本输入至判别器模型中，获取判别器模型输出的数值作为奖励值。为了使生成器模型不断改进，这里生成器模型采用的是强化学习((Reinforcement Learning，简称RL)中的策略梯度(PolicyGradient)，即当判别器模型对测试文本的输出数值比较高时，增加生成器模型中RNN相应动作的概率；当判别器模型对测试文本的输出数值比较低时，减少生成器模型中RNN相应动作的概率。应理解，这里判别器模型输出数值的高低是一个相对的概念，不同的训练阶段数值的高低是不一样的，可以根据经验进行预置，例如，刚开始训练时生成器模型的输出比较差，则可以将判别器模型输出高于0.3设定为比较高的数值，将低于0.2设定为比较低的数值；到训练后期，则可以将判别器模型输出高于0.4作为比较高的数值，将低于0.3设定为比较低的数值。

具体地，根据测试文本的奖励值计算生成器的策略梯度，最后用计算出来的策略梯度更新生成器模型。用以下公式表示：

其中，是指求策略梯度，J(θ)是指生成器模型的目标函数，E指求期望值，G_θ是指生成器模型，Y_1:t-1～G_θ是指生成器模型生成的文本Y服从概率分布G_θ，G_θ(y_t|Y_1:t-1)是指在生成器模型下y_t出现在Y_1:t-1的概率，D_φ是指判别器模型，是指生成器模型G_θ生成的文本在判别器模型D_φ得到的奖励。上述梯度中的期望可以用采样近似，然后更新生成器模型G_θ参数θ：

其中，α_h是指隐藏层的学习率。

S50：根据更新后的生成器模型生成第二文本负样本，将第二文本负样本与文本正样本输入至判别器模型中，根据最小化交叉熵更新判别器模型。

具体地，服务端采用更新后的生成器模型生成一些文本作为第二文本负样本，再将第二文本负样本和文本正样本分别标注后输入至判别器模型中进行训练。其中，第二文本负样本标注为0，文本正样本标注为1，应理解，这里的文本正样本与前面训练用的文本正样本可以为相同的样本，也可以从真实文本数据集中抽取另外的样本数据作为文本正样本。

应理解，判别器模型的训练的目的是当输入的是真实文本数据时，输出的数值越接近1越好；当输入的是生成器生成的文本时，输出的数值越接近0越好，从而在给定一个任意样本时可以输出一个准确的数值。具体地，用以下的最小化交叉熵可以得到预训练后的判别器参数：

其中，判别器D_φ(Y)返回的是样本Y属于真实样本的概率，是一个属于[0,1]的数。Y～p_data表示Y服从概率分布p_data，p_data是指真实文本数据集服从的概率分布。Y～G_θ表示Y服从概率分布G_θ，E指求期望值；最小化交叉熵可以使得上式第一部分和第二部分尽可能大，即真实数据的概率尽可能大，生成数据的概率尽可能小。

根据最小化交叉熵可以更新判别器模型的参数，更新判别器模型。其中，在更新判别器模型时，是在固定生成器模型的基础上的，而更新判别器模型的次数可以为多次，具体根据实际情况进行设定，这里不做具体限定。

S60：交替更新生成器模型和判别器模型，若判别器模型的输出收敛，则根据收敛时的生成器模型得到文本生成模型。

具体地，服务端交替更新生成器模型和判别器模型，即当判别器模型未收敛时，重复更新生成器模型和判别器模型，让生成器模型和判别器模型不断对抗训练。其中，更新时先更新生成器模型，判别器模型保持不变；然后保持生成器模型不变，更新判别器模型。即让判别器模型的参数固定，训练生成器模型；然后让生成器模型的参数固定，训练判别器模型；不断重复这个过程，直到判别器模型的输出收敛。若判别器模型的输出收敛，则根据收敛时的生成器模型得到文本生成模型。其中，输出收敛是指判别器对于给定样本(正样本或者负样本)输出的数值接近0.5，则认为判别器无法分辨正负样本，服务端判定判别器的输出收敛，再根据收敛时的生成器模型可以得到最终的文本生成模型。

S70：获取待识别文本，并将待识别文本输入至文本生成模型中，基于文本生成模型生成目标文本。

其中，待识别文本为文本生成模型的输入，目标文本为文本生成模型的输出。可以理解，待识别文本和目标文本是与真实文本数据集对应的，即如果用诗的数据集来训练文本生成模型，那么文本生成模型对应的待识别文本和目标文本也为诗；如果用对话的数据集来训练文本生成模型，那么文本生成模型对应的待识别文本和目标文本也为对话。可选地，待识别文本和目标文本还可以是问题答案、演讲稿或短文等。

具体地，服务端通过客户端获取用户输入的待识别文本，然后将待识别文本输入至文本生成模型中，由文本生成模型生成目标文本，服务端再将目标文本输出至客户端。例如，服务端通过客户端获取用户输入的对话中的上文，如“今天的天气怎么样？”，然后服务端将对话中的上文输入至文本生成模型中，由文本生成模型生成与上文对应的下文的目标文本，如：“今天的天气很好！”或“根据天气预报，今天会下雨。”等，从而可以形成相应的对话，最后服务端将目标文本输出至客户端。

在图2对应的实施例中，通过获取真实文本数据集，从真实文本数据集中获取文本正样本；建立初始生成器模型，将文本正样本输入至初始生成器模型进行预训练，得到生成器模型，并根据生成器模型生成第一文本负样本；建立初始判别器模型，将文本正样本与第一文本负样本输入至初始判别模型中进行预训练，得到判别器模型；基于生成器模型生成测试文本，将测试文本输入至判别器模型中获取测试文本的奖励值，根据奖励值计算生成器模型的梯度，并根据梯度更新生成器模型；根据更新后的生成器模型生成第二文本负样本，将第二文本负样本与文本正样本输入至判别器模型中，根据最小化交叉熵更新判别器模型；交替更新生成器模型和判别器模型，若判别器模型的输出收敛，则根据收敛时的生成器模型得到文本生成模型；获取待识别文本，并将待识别文本输入至文本生成模型中，基于文本生成模型生成目标文本。通过构建生成器模型和判别器模型，再让生成器模型与判别器模型不断对抗，不断自我改进，可以快速构建文本生成模型，并且生成文本的准确性高，提高了文本生成模型的构建效率和生成文本的精度。

在一实施例中，如图4所示，在步骤S20中，即建立初始生成器模型，将文本正样本输入至初始生成器模型进行预训练，得到生成器模型，并根据生成器模型生成第一文本负样本，具体可以包括以下步骤：

S21：将初始生成参数输入递归神经网络建立初始生成器模型。

可选地，初始生成参数可以为随机选取的递归神经网络(RNN)的参数。即在预训练之前，可以随机选取参数输入到RNN中，得到初始生成器模型。

S22：将文本正样本输入至初始生成器模型中进行预训练，并根据概率分布函数转化为概率输出，得到预训练后的参数。

具体地，服务端将文本正样本输入至初始生成器模型中进行预训练，文本正样本例如是(x₁,x₂,…x_T)，首先将(x₁,x₂,…x_T)在RNN中递归映射到隐藏状态(h₁,h₂,…h_T)，其中隐藏状态是指递归神经网络的隐藏层(hidden layers)的输入参数，同时也是一个神经元的输出参数，用以下公式表示：

h_t＝g(h_t-1,x_t)＝σ(Wx_t+Uh_t-1)

其中，W是权重矩阵，U是h_t-1的隐藏状态(或称为过渡矩阵)。σ可以是sigmoid函数或双曲正切函数(tanh)，σ可以视具体情况而定。

然后，用概率分布函数转化为输出概率，可选地，概率分布函数可以用soft max函数，用以下公式进行表示：

P(y_t|x₁,x₂,…x_t)＝z(h_t)＝soft max(c+Vh_t)

其中，以上公式是指在已知(x₁,x₂,…x_T)的情况下，RNN的输出y_t的分布为softmax(c+Vh_t)，z(h_t)是指需要一个h_t的函数z将输出转换成概率的形式，其输出值属于[0,1]，这个函数z可以取为soft max函数。

具体地，服务端将文本正样本输入至初始生成器模型的RNN中进行预训练后，可以得到预训练后的参数c和V。

S23：根据预训练后的参数更新初始生成器模型的参数，得到生成器模型。

具体地，根据预训练后得到的参数c和V更新初始生成器模型原来的初始生成参数，得到生成器模型。可以理解，生成器模型可以用G_θ来进行表示，由参数c和V可以得到生成器模型G_θ的模型参数θ。得到生成器模型G_θ之后，就可以从真实文本数据集中抽取一定样本数据输入至生成器模型G_θ中，生成第一文本负样本。

在图4对应的实施例中，通过将初始生成参数输入递归神经网络建立初始生成器模型，然后将文本正样本输入至初始生成器模型中进行预训练，并根据概率分布函数转化为概率输出，得到预训练后的参数；最后根据预训练后的参数更新初始生成器模型的参数，得到生成器模型。通过递归神经网络建立生成器模型，可以结合文本生成为离散型数据的特点，使最终生成文本模型输出文本的效率更高；另外，首先预训练生成器模型，可以通过预训练后的生成器模型生成一些负样本，实现对判别器模型的预训练。

在一实施例中，如图5所示，在步骤S30中，即建立初始判别器模型，将文本正样本与第一文本负样本输入至初始判别器模型进行预训练，得到判别器模型，具体可以包括以下步骤：

S31：将初始判别参数输入至卷积神经网络建立初始判别器模型。

可选地，初始判别参数可以为随机选取的卷积神经网络(CNN)的参数，即在预训练之前，可以随机选取参数输入至CNN中，得到初始判别器模型。

S32：将文本正样本与第一文本负样本输入至初始判别器模型中进行预训练，根据概率分布函数转化为概率输出，并根据最小化交叉熵更新初始判别器的初始判别参数，得到预训练后的判别参数。

具体地，对训练样本进行标注，即将文本正样本标注为1，第一文本负本样标注为0。

首先，将文本正样本例如是(x₁,x₂,…x_T)输入至初始判别模型的CNN中，CNN用卷积核ω∈R^l×k作用于文本正样本，得到文本正样本的特征，用以下公式表示：

其中，卷积核ω∈R^l×k表示卷积核为一个l×k的实矩阵，ε_i:i+l-1指的是文本正样本中的的第i到第i+l-1行，也是一个l×k的实矩阵，b是要求的参数，是一个实数，是指矩阵中对应元素乘积的和。

然后用最大池化(Max pooling)进行池化：

其中，上述池化是指提取的文本正样本的特征c_i取最大值。可选地，这里也可以采用均值池化，具体不做限定。

经过一定数量的卷积和池化操作后，经过全连接层(fully connected layers，FC)，亦即输出层，用sigmoid函数转化为概率输出。

同样地，将标注为0的第一文本负样本输入至CNN中，经过相同的过程，最后用sigmoid函数转化为概率输出。

最后，经过文本正样本和第一文本负样本的预训练后，可以得到预训练后的判别参数，即ω和b。

可选地，为了使判别器模型得到一个好的效果，在最大池化得到以后，可以采用高速神经网络对判别器模型进行训练，其中高速神经网络可以通过以下公式进行计算：

其中，τ是指生成文本的一组行为序列，W_T，b_T和W_H是高速层的权重，H是一个仿射变换再加一个非线性激活函数(例如线性整流函数ReLU)，记线性整流函数为f，则最后用sigmoid函数转化为概率输出。

其中，W₀和b₀是判别器的输出层的的权重和偏差。

S33：根据预训练后的判别参数更新初始判别器模型的参数，得到判别器模型。

具体地，根据预训练后的判别参数ω和b更新初始判别器模型的参数，得到判别器模型。可以理解，判别器模型可以用D_φ来进行表示，其中，由参数ω和b可以得到判别器模型的参数φ。得到判别器模型后，就可以进行生成器模型与判别器模型的对抗训练，交替更新生成器模型与判别器模型，直到模型收敛，得到最终的文本生成模型。

在图5对应的实施例中，通过将初始判别参数输入至卷积神经网络建立初始判别器模型；然后将文本正样本与第一文本负样本输入至初始判别器模型中进行预训练，根据概率分布函数转化为概率输出，并根据最小化交叉熵更新初始判别器的初始判别参数，得到预训练后的判别参数；最后预训练后的判别参数更新初始判别器模型的参数，得到判别器模型。通过生成器模型生成的负样本与文本正样本训练初始判别器模型，可以得到判别器模型，在得到判别器模型之后，就可以使生成器模型与判别器模型进行对抗训练，从而最终生成文本生成模型。

在一实施例中，如图6所示，在步骤S40中，即基于生成器模型生成测试文本，将测试文本输入至判别器模型中获取测试文本的奖励值，根据奖励值计算生成器模型的梯度，并根据梯度更新生成器模型，具体可以包括以下步骤：

S41：获取生成测试文本过程中的文本作为测试子文本。

可以理解，生成器模型在生成测试文本的过程中会有很多中间步骤，例如，若最终生成的文本为“床前明月光”，那么生成器模型会生成“床”，“床前”，“床前明”……等这些过程中的文本，服务端可以获取这些过程中的测试文本作为测试子文本。

S42：根据每一测试子文本采用蒙特卡洛搜索方式生成M个假设文本。

其中，蒙特卡洛搜索方式(Monte Carlo method)是指使用随机数(或更常见的伪随机数)来解决计算问题的方法。

应理解，由于判别器模型只能判断一整句话的真伪，因此，当生成器模型生成的测试文本的过程中，需要获取测试子文本的奖励值，以便生成器模型的学习和梯度的计算。具体地，服务端用蒙特卡洛搜索方式根据测试子文本生成N个假设文本，再将N个假设文本输入至判别器模型中获取奖励值，将这些奖励值的均值作为测试子文本的奖励值。具体地，用蒙特卡洛搜索方式生成N个假设文本可以用以下式子表示：

以上式子表示在给定测试子文本Y_1:t的情况下，用蒙特卡洛搜索方式生成N个假设文本。其中，用蒙特卡洛搜索要遵循一个概率分布，这个概率分布就是G_β，这里令G_β＝G_θ，即可以采用蒙特卡洛搜索方式生成N个假设文本。

S43：将M个假设文本输入至判别器模型中，获取M个假设文本的奖励均值作为测试子文本的奖励值，并将测试文本输入至判别器模型中，获取测试文本的奖励值。

具体地，可以用以下公式计算测试子文本和测试文本的奖励值：

其中，判别器模型D_φ(Y)返回的是测试样本Y属于真实样本的概率，是一个属于[0,1]的数；T时刻指整首诗生成完毕，因此T时候的奖励值可以直接由判别器给出。而t＝1:T-1时刻(即t从1到T-1时刻)的奖励值，需要用蒙特卡洛搜索模拟的方式给出。在t时刻的测试子文本为Y_1:t-1,，然后用蒙特卡洛搜索方式进行N次得到N个假设文本Y_1:T，用这N个假设文本的奖励值的平均值作为t时刻的奖励值。这样，由于每个中间步骤都定义了奖励值，便可以用强化学习(RL)中进行训练生成器模型。

S44：根据测试子文本的奖励值和测试文本的奖励值计算生成器模型的梯度，并根据梯度更新生成器模型的参数，得到更新后的生成器模型。

具体地，在获得测试子文本的奖励值和测试文本的奖励值后，可以用以下公式计算生成器模型的策略梯度：

上述梯度中的期望E可以用采样近似，然后更新生成器模型的参数θ为

然后，服务端根据更新后的生成器模型的参数得到更新后的生成器模型，再用更新后的生成器模型去更新判别器模型，交替更新生成器模型和判别器模型，直到判别器模型收敛，最后根据收敛时的生成器模型得到文本生成模型。其中，在更新生成器模型时，是在固定的判别器模型的基础上进行的，而更新生成器模型的参数的次数可以根据实际情况进行设定，这里不做具体限定。

在图6对应的实施例中，通过获取生成测试文本过程中的文本作为测试子文本，根据每一测试子文本采用蒙特卡洛搜索方式生成M个假设文本；然后将M个假设文本输入至判别器模型中，获取M个假设文本的奖励均值作为测试子文本的奖励值，并将测试文本输入至判别器模型中，获取测试文本的奖励值；最后根据测试子文本的奖励值和测试文本的奖励值计算生成器模型的梯度，并根据梯度更新生成器模型的参数，得到更新后的生成器模型。通过采用蒙特卡洛搜索方式，使生成器模型生成的中间文本可以得到相应地奖励值，从而可以使用强化学习进行训练生成器模型，提高生成器模型的训练效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种文本生成装置，该文本生成装置与上述实施例中文本生成方法一一对应。如图7所示，该文本生成装置包括文本正样本获取模块10、生成器模型获取模块20、判别器模型获取模块30、生成器模型更新模块40、判别器模型更新模块50和文本生成模型获取模块60。各功能模块详细说明如下：

文本正样本获取模块10，用于获取真实文本数据集，从真实文本数据集中获取文本正样本；

生成器模型获取模块20，用于建立初始生成器模型，将文本正样本输入至初始生成器模型进行预训练，得到生成器模型，并根据生成器模型生成第一文本负样本；

判别器模型获取模块30，用于建立初始判别器模型，将文本正样本与第一文本负样本输入至初始判别模型中进行预训练，得到判别器模型；

生成器模型更新模块40，用于基于生成器模型生成测试文本，将测试文本输入至判别器模型中获取测试文本的奖励值，根据奖励值计算生成器模型的梯度，并根据梯度更新生成器模型；

判别器模型更新模块50，用于根据更新后的生成器模型生成第二文本负样本，将第二文本负样本与文本正样本输入至判别器模型中，根据最小化交叉熵更新判别器模型；

文本生成模型获取模块60，用于交替更新生成器模型和判别器模型，若判别器模型的输出收敛，则根据收敛时的生成器模型得到文本生成模型；

目标文本生成模块70，用于获取待识别文本，并将待识别文本输入至文本生成模型中，基于文本生成模型生成目标文本。

进一步地，文本正样本获取模块10还用于：

从真实文本数据集中选取N个文本数据，N为正整数；

将N个文本数据用词向量模型转化为向量形式，将转化为向量形式的N个文本数据作为文本正样本。

进一步地，如图8所示，生成器模型获取模块20包括初始生成模型建立单元21、初始生成模型预训练单元22和生成器模型获取单元23。

初始生成模型建立单元21，用于将初始生成参数输入递归神经网络建立初始生成器模型；

初始生成模型预训练单元22，用于将文本正样本输入至初始生成器模型中进行预训练，并根据概率分布函数转化为概率输出，得到预训练后的参数；

生成器模型获取单元23，用于根据预训练后的参数更新初始生成器模型的参数，得到生成器模型。

进一步，如图9所示，判别器模型获取模块30包括初始判别模型建立单元31、初始判别模型预训练单元32和判别器模型获取单元33。

初始判别模型建立单元31，用于将初始判别参数输入至卷积神经网络建立初始判别器模型；

初始判别模型预训练单元32，用于将文本正样本与第一文本负样本输入至初始判别器模型中进行预训练，根据概率分布函数转化为概率输出，并根据最小化交叉熵更新初始判别器的初始判别参数，得到预训练后的判别参数；

判别器模型获取单元33，用于根据预训练后的判别参数更新初始判别器模型的参数，得到判别器模型。

进一步地，生成器模型更新模块40还用于：

获取生成测试文本过程中的文本作为测试子文本；

根据每一测试子文本采用蒙特卡洛搜索方式生成M个假设文本；

将M个假设文本输入至判别器模型中，获取M个假设文本的奖励均值作为测试子文本的奖励值，并将测试文本输入至判别器模型中，获取测试文本的奖励值；

根据测试子文本的奖励值和测试文本的奖励值计算生成器模型的梯度，并根据梯度更新生成器模型的参数，得到更新后的生成器模型。

关于文本生成装置的具体限定可以参见上文中对于文本生成方法的限定，在此不再赘述。上述文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储真实文本数据集、文本正样本、文本负样本和词向量模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本生成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取真实文本数据集，从真实文本数据集中获取文本正样本；

建立初始生成器模型，将文本正样本输入至初始生成器模型进行预训练，得到生成器模型，并根据生成器模型生成第一文本负样本；

建立初始判别器模型，将文本正样本与第一文本负样本输入至初始判别模型中进行预训练，得到判别器模型；

基于生成器模型生成测试文本，将测试文本输入至判别器模型中获取测试文本的奖励值，根据奖励值计算生成器模型的梯度，并根据梯度更新生成器模型；

根据更新后的生成器模型生成第二文本负样本，将第二文本负样本与文本正样本输入至判别器模型中，根据最小化交叉熵更新判别器模型；

交替更新生成器模型和判别器模型，若判别器模型的输出收敛，则根据收敛时的生成器模型得到文本生成模型；

获取待识别文本，并将待识别文本输入至文本生成模型中，基于文本生成模型生成目标文本。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种文本生成方法，其特征在于，包括：

2.如权利要求1所述的文本生成方法，其特征在于，所述从所述真实文本数据集中获取文本正样本，包括：

从所述真实文本数据集中选取N个文本数据，N为正整数；

将N个所述文本数据用词向量模型转化为向量形式，将转化为向量形式的N个所述文本数据作为文本正样本。

3.如权利要求1所述的文本生成方法，其特征在于，所述建立初始生成器模型，将所述文本正样本输入至所述初始生成器模型进行预训练，得到生成器模型，并根据所述生成器模型生成第一文本负样本，包括：

将初始生成参数输入递归神经网络建立初始生成器模型；

将所述文本正样本输入至所述初始生成器模型中进行预训练，并根据概率分布函数转化为概率输出，得到预训练后的参数；

根据所述预训练后的参数更新所述初始生成器模型的参数，得到生成器模型。

4.如权利要求1所述的文本生成方法，其特征在于，所述建立初始判别器模型，将所述文本正样本与所述第一文本负样本输入至所述初始判别模型中进行预训练，得到判别器模型，包括：

将初始判别参数输入至卷积神经网络建立初始判别器模型；

将所述文本正样本与所述第一文本负样本输入至所述初始判别器模型中进行预训练，根据概率分布函数转化为概率输出，并根据最小化交叉熵更新所述初始判别器的初始判别参数，得到预训练后的判别参数；

根据所述预训练后的判别参数更新所述初始判别器模型的参数，得到判别器模型。

5.如权利要求1所述的文本生成方法，其特征在于，所述基于所述生成器模型生成测试文本，将所述测试文本输入至所述判别器模型中获取所述测试文本的奖励值，根据所述奖励值计算所述生成器模型的梯度，并根据所述梯度更新所述生成器模型，包括：

获取生成所述测试文本过程中的文本作为测试子文本；

根据每一所述测试子文本采用蒙特卡洛搜索方式生成M个假设文本；

将M个所述假设文本输入至所述判别器模型中，获取M个所述假设文本的奖励均值作为所述测试子文本的奖励值，并将所述测试文本输入至所述判别器模型中，获取所述测试文本的奖励值；

根据所述测试子文本的奖励值和所述测试文本的奖励值计算所述生成器模型的梯度，并根据所述梯度更新所述生成器模型的参数，得到更新后的生成器模型。

6.一种文本生成装置，其特征在于，包括：

7.如权利要求6所述的文本生成装置，其特征在于，所述生成器模型获取模块包括初始生成模型建立单元、初始生成模型预训练单元和生成器模型获取单元；

所述初始生成模型建立单元，用于将初始生成参数输入递归神经网络建立初始生成器模型；

所述初始生成模型预训练单元，用于将所述文本正样本输入至所述初始生成器模型中进行预训练，并根据概率分布函数转化为概率输出，得到预训练后的参数；

所述生成器模型获取单元，用于根据所述预训练后的参数更新所述初始生成器模型的参数，得到生成器模型。

8.如权利要求6所述的文本生成装置，其特征在于，所述判别器模型获取模块包括初始判别模型建立单元、初始判别模型预训练单元和判别器模型获取单元；

所述初始判别模型建立单元，用于将初始判别参数输入至卷积神经网络建立初始判别器模型；

所述初始判别模型预训练单元，用于将所述文本正样本与所述第一文本负样本输入至所述初始判别器模型中进行预训练，根据概率分布函数转化为概率输出，并根据最小化交叉熵更新所述初始判别器的初始判别参数，得到预训练后的判别参数；

所述判别器模型获取单元，用于根据所述预训练后的判别参数更新所述初始判别器模型的参数，得到判别器模型。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述文本生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本生成方法。