CN111428448B

CN111428448B - 文本生成方法、装置、计算机设备及可读存储介质

Info

Publication number: CN111428448B
Application number: CN202010136551.6A
Authority: CN
Inventors: 邓悦; 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2024-05-07
Anticipated expiration: 2040-03-02
Also published as: WO2021174827A1; CN111428448A

Abstract

本发明公开了文本生成方法、装置、计算机设备及可读存储介质，属于文本处理领域。文本生成方法、装置、计算机设备及可读存储介质通过预先训练得到的文本生成对抗网络模型根据目标引导数据生成目标文本数据，解决了离散输出不可更新的问题，实现了采用文本生成对抗网络模型可根据句首数据生成文本语句的目的。

Description

文本生成方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及文本处理领域，尤其涉及文本生成方法、装置、计算机设备及可读存储介质。

背景技术

在智能面试场景中，人工智能(Artificial Intelligence，简称AI)除了需要按照事先预设的问题对候选人进行提问之外，还应根据实际情况向候选人提出开放性的问题，以测试候选人的实际应对能力。开放性的问题需要AI采用生成模型生成提问文本。

目前的生成模型主要采用生成对抗网络(GAN)，由于生成对抗网络需要基于连续型的输出数据更新参数变量，因此主要应用于图像处理中，各类图像生成任务包括无监督生成、带标签生成、超分辨率还原、以及自动上色、街景生成等，其所生成图片的质量逼真至人眼都难以分辨真伪。

当将生成对抗网络应用于文本生成任务上时，由于在文本生成过程中，生成对抗网络需基于已经生成的文本序列输出下一个词语在词汇表中的概率分布，然后选择词语，其所输出的结果为离散型的数据，离散型的数据无法实现网络的训练更新。因此目前的生成对抗网络无法应用于文本生成任务中。

发明内容

针对现有生成对抗网络只支持连续型输出的问题，现提供一种基于可根据离散数据实现更新的文本生成对抗网络的文本生成方法、装置、计算机设备及可读存储介质。

为实现上述目的，本发明提供一种文本生成方法，包括下述步骤：

采集业务对象在问答场景中生成的回答数据；

对所述回答数据进行提取，并获取目标引导数据；

通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据；

所述目标引导数据为所述目标文本数据的句首数据。

在一个实施例中，在所述通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据的步骤之前，包括：

获取样本引导集合和样本文本集合，所述样本引导集合包括至少一个样本引导数据，所述样本文本集合包括至少一个样本文本数据，所述样本引导数据为所述样本文本数据的句首数据；

根据所述样本引导集合和所述样本文本集合对初始对抗网络模型进行训练，并得到文本生成对抗网络模型。

在一个实施例中，所述初始对抗网络模型包括生成器和判别器，所述根据所述样本引导集合和所述样本文本集合对初始对抗网络模型进行训练，并得到文本生成对抗网络模型的步骤，包括：

通过所述生成器并根据所述样本引导集合中的至少一个样本引导数据生成至少一个样本文本数据；

采用蒙特卡洛模拟对所述至少一个样本文本数据进行模拟并获取多个样本模拟文本数据；

通过所述判别器并根据所述样本文本集合中的目标文本数据对所述多个样本模拟文本数据进行识别，根据识别结果更新所述生成器的参数值；

基于更新的所述生成器并根据损失函数更新所述判别器；

循环更新所述生成器和所述判别器直至所述初始对抗网络模型符合预设的收敛条件，并得到由更新后的生成器构成的所述文本生成对抗网络模型。

在一个实施例中，通过所述生成器并根据所述样本引导集合中至少一个的样本引导数据生成至少一个样本文本数据的步骤，包括：

通过所述生成器并根据所述样本引导数据进行计算，获取词汇表中概率最大的第一样本词，将所述第一样本词添加于所述样本引导数据的末尾；

通过所述生成器并根据所述第一样本词进行计算，获取词汇表中概率最大的第二样本词，将所述第二样本词添加于所述第一样本词的末尾，循环执行上述步骤直至获取预设长度的样本文本数据。

在一个实施例中，采用蒙特卡洛模拟对所述至少一个样本文本数据进行模拟并获取多个样本模拟文本数据的步骤，包括：

采用蒙特卡洛模拟对每一个样本文本数据中的词逐个进行模拟，并生成与所述样本文本数据对应的多个样本模拟文本数据。

在一个实施例中，通过所述判别器并根据所述样本文本集合中的目标文本数据对所述多个样本模拟文本数据进行识别，根据识别结果更新所述生成器的参数值的步骤，包括：

通过所述判别器并根据所述样本文本集合中的目标文本数据对所述多个样本模拟文本数据进行识别，根据识别结果获取状态价值函数；

根据所述状态价值函数计算目标函数，根据所述目标函数更新所述生成器的参数值。

在一个实施例中，所述通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据的步骤，包括：

采用所述文本生成对抗网络模型的生成器对所述目标引导数据进行计算，以获取词汇表中概率最大的第一样本词，将所述第一样本词添加于所述目标引导数据的末尾；

采用所述生成器对所述第一样本词进行计算，获取词汇表中概率最大的第二样本词，将所述第二样本词添加于所述第一样本词的末尾，循环执行上述步骤直至获取预设长度的目标文本数据。

为实现上述目的，本发明还提供一种文本生成装置，包括：

采集单元，用于采集业务对象在问答场景中生成的回答数据；

获取单元，用于对所述回答数据进行提取，并获取目标引导数据；

生成单元，用于通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据；

所述目标引导数据为所述目标文本数据的句首数据。

为实现上述目的，本发明还提供一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述技术方案的有益效果：

本技术方案中，文本生成方法、装置、计算机设备及可读存储介质通过预先训练得到的文本生成对抗网络模型根据目标引导数据(例如：句首数据)生成目标文本数据，解决了离散输出不可更新的问题，实现了采用文本生成对抗网络模型可根据句首数据生成文本语句(例如：文本问题)的目的。

附图说明

图1为本发明所述文本生成方法的一种实施例的方法流程图；

图2为获取文本生成对抗网络模型的一种实施例的方法流图；

图3为根据样本引导集合和样本文本集合对初始对抗网络模型进行训练，获取文本生成对抗网络模型的一种实施例的方法流程图；

图4为本发明所述的文本生成装置的一种实施例的模块图；

图5为本发明所述的计算机设备一实施例的硬件架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的文本生成方法、装置、计算机设备及可读存储介质，适用于保险、金融等业务领域，为贷款***、保险***及金融***提供一种可自动生成开放性文本问题便于测试候选人的思维能力的文本生成方法。本发明通过预先训练得到的文本生成对抗网络模型根据目标引导数据(例如：句首数据)生成目标文本数据，解决了离散输出不可更新的问题，实现了采用文本生成对抗网络模型可根据句首数据生成文本语句(例如：文本问题)的目的。

实施例一

请参阅图1，本实施例的一种文本生成方法，包括下述步骤：

S1.采集业务对象在问答场景中生成的回答数据；

在本步骤中，业务对象可以是对业务咨询的咨询用户，或是网上交易平台的买家，或是面试过程中的面试人员。可通过采集设备(例如：音频接收装置，麦克风或带有录音功能的移动终端等)采集回答数据。

本实施例中的文本生成方法主要应用于对话场景中(至少两种用户)，基于目标对象的回答信息生成问题文本，以供目标对象对该问题文本进行回答，例如：文本生成方法应用于面试场景时，根据面试人员提供的关键字生成开放式的文本问题。

S2.对所述回答数据进行提取，并获取目标引导数据；

在步骤S2中可对回答数据进行语义分析提取所述回答数据中的关键字，将该关键字作为目标引导数据；对所述回答数据进行分析提取回答数据中的名词，将该名词作为目标引导数据。

需要说明的是：目标引导数据可以是关键字，或一句话的句首词语。

S3.通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据；

需要说明的是：所述目标引导数据为所述目标文本数据的句首数据。例如：目标引导数据为：“今天”；目标文本数据为：“今天天气如何？”。目标引导数据为句首词可以是两个词或三个词，此处不做限定。

参考图2所示，在执行步骤S3之前，获取所述文本生成对抗网络模型的步骤可包括：

S31.获取样本引导集合和样本文本集合，所述样本引导集合包括至少一个样本引导数据，所述样本文本集合包括至少一个样本文本数据，所述样本引导数据为所述样本文本数据的句首数据；

于本实施例中，样本引导集合是由样本引导数据(句首数据)组成的序列；样本文本集合是由样本文本数据(完整语句)组成真实文本数据的序列。样本引导数据是真实文本数据的句首数据。

S32.根据所述样本引导集合和所述样本文本集合对初始对抗网络模型进行训练，并得到文本生成对抗网络模型。

目前生成对抗网络在图像处理过程中，生成的图像各个点的像素值为连续值，因此整个网络的计算图，从生成器的权重到其输出，再进入到判别器的权重和输出分类，都是可微分(可微、可导)的，误差可以正常地反向传播、梯度和权重都可以正常更新。然而文本生成的过程中，生成器实际是输出一个序列，每一轮基于已经生成出来的文本序列输出下一个词语在词汇表中的概率分布，然后选出概率最大的词语，这一“选择”过程是不可微的，生成器输出的是离散的token，在训练过程中，误差反向传播到此处，无法在每个token上像图像生成任务那样对像素值进行梯度更新，从而更新生成器的权重值。另一方面，判别器可以直接接收一个完整文本序列的输入，输出句子的真假，却无法对生成器生成到一半尚未完成的句子进行评判，导致判别器无法针对生成文本序列中的每一个词语对生成器的训练提供监督。

因此，在本实施例的生成对抗网络模型的训练过程中，为了解决生成器的离散输出造成的不可微问题，在本实施例中，将文本序列的生成过程视作一个序列决策过程，采用了强化学习中的策略梯度(policy gradient)方法，将判别器的评判结果作为奖励(reward)，生成器已生成出来的部分文本作为状态(state)，生成器作为智能体(agent)，预测下一个词语作为动作(action)，生成器即为需要更新的策略(policy)，这样一来解决了离散输出的损失函数不可微问题。对于未完成序列的评判方法上，本实施例采用了蒙特卡洛搜索(Monte Carlo search)，基于已生成的序列，生成器继续生成直至序列完成，判别器对该序列进行评判，模拟多次，将最终reward的均值作为当前未完成序列的reward的估计。

需要说明的是：所述初始对抗网络模型包括生成器和判别器；参图3所示，在步骤S32中，根据所述样本引导集合和所述样本文本集合对初始对抗网络模型进行训练，并得到文本生成对抗网络模型的步骤，包括：

作为举例而非限定，生成器可采用输出序列的长短期记忆网络(LSTM)，用于从一个给定的初始状态生成文本序列；判别器可采用二分类的长短期记忆网络，用于接收生成器的输出文本和真实文本，判断输出文本的真假。

S321.通过所述生成器并根据所述样本引导集合中的至少一个样本引导数据生成至少一个样本文本数据；

进一步地，步骤S321中的步骤可包括：

通过所述生成器并根据所述第一样本词进行计算，获取词汇表中概率最大的第二样本词，将所述第二样本词添加于所述第一样本词的末尾，循环执行上述步骤(以此类推)直至获取预设长度的样本文本数据。

在本步骤中，初始化生成器G_θ和判别器D_φ；样本引导数据为真实文本集合S＝{X_1～T}，真实文本集合中每一个真实文本的句子长度为T，长度不足T的末尾用零补齐；样本引导集合为单词集合{Y₁}。

将单词集合{Y₁}输入至生成器G_θ，生成器G_θ的输入层对输入的单词映射到词汇表中相应的单词对应的标签信息(token化)，进行嵌入表示，在实际应用中将(y₁,y₂,…,y_t-1)作为输入发送至生成器G_θ，生成器G_θ根据输入的数据，softmax分类器输出下一个词在词汇表中各个词的概率，将概率最大的词作为y_t，以此类推，循环处理直至句末y_T，由此得到一组长度为T(长度不足补零)的生成样本文本集合{Y_1～T}。

其中，(y₁,y₂,…,y_t-1)表示一个由t-1个词组成的不完整的句子，y₁表示一句话中的第1个词；y₂表示一句话中的第2个词；y_t-1表示一句话中的第t-1个词；y_T一句话中的第T个词(句末)。

在步骤中，仅使用生成器G_θ，传入一个词语y₁，生成器G_θ将其嵌入后传到LSTM中，输出生成的token序列和其在词汇表中对应的词语，即得到生成的文本序列(y₁,y₂,…,y_T)。

S322.采用蒙特卡洛模拟对所述至少一个样本文本数据进行模拟并获取多个样本模拟文本数据；

进一步地，步骤S322的步骤，包括：

于本实施中，对于样本文本集合{Y_1～T}中的各个序列，以(y₁,y₂,…,y_T)序列为例，遍历序列中各个词y_t，进行N次蒙特卡洛模拟，不同于之前选择概率最大的词语作为y_t，此处每次使用生成器G_θ根据输出词语的多项分布采样，重复直至到达句末y_T，从而得到N个不同的完整样本模拟文本集合{Y_1～T ¹,Y_1～T ²,…,Y_1～T ^N}。

需要说明的是，样本文本集合中位于句中不同位置的词的模拟次数可以相同，也可以不同。

S323.通过所述判别器并根据所述样本文本集合中的目标文本数据对所述多个样本模拟文本数据进行识别，根据识别结果更新所述生成器的参数值；

进一步地，步骤S323可包括：

在实施例中，将获取的样本模拟文本集合{Y_1～T ¹,Y_1～T ²,…,Y_1～T ^N}输入到判别器D_φ中进行二分类，将每一样本模拟文本与相应的真实文本进行比对，若是一致，则表示生成器生成的样本模拟文本是真实的(标记1)；若不一致，则示生成器生成的样本模拟文本是假的(标记0)。对于完整的句子，直接将判别器D_φ输出结果作为状态价值；对于不完整的句子，将蒙特卡洛模拟得到的N个完整句子的判别结果取平均。综上，状态价值函数可表示为：

其中，i表示蒙特卡洛模拟的模拟次数。

根据状态价值函数，更新生成器G_θ的参数θ，生成器的目标函数是尽可能地产生更真实的样本欺骗判别器，即最大化其在策略G_θ下获得的奖励：

其中，G_θ(y_t|Y_1～t-1)表示策略输出，实质可看作一个概率，输出y_t在词汇表中的概率值；Y_1～t-1为所有y_t出现过的取值。参数θ为生成器G_θ中的权重参数；生成器G_θ的参数在J(θ)上更新，换言之，策略的梯度来自于J(θ)：

其中，α_θ为学习率。

S324.基于更新的所述生成器并根据损失函数更新所述判别器；

在本步骤中，使用更新后的生成器G_θ，生成一组文本序列{Y_1～T}，同时从真实文本集合S＝{X_1～T}中选出相同数量的文本序列集合{X_1～T}，输入到判别器D_φ中分类，损失函数为二分类对数损失函数：

D_φ的参数在J(φ)上更新：

其中，α_φ为学习率。

S325.循环更新所述生成器和所述判别器直至所述初始对抗网络模型符合预设的收敛条件，并得到由更新后的生成器构成的所述文本生成对抗网络模型。

在本步骤中，每一轮训练中，重复训练生成器n_G次，重复训练判别器n_D次，直至模型符合预设的收敛条件。如：预设的收敛条件为n_D>n_G，以保证判别器能正确地指导生成器更新。

在步骤S3中，所述通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据的步骤，包括：

采用所述生成器对所述第一样本词进行计算，获取词汇表中概率最大的第二样本词，将所述第二样本词添加于所述第一样本词的末尾，循环执行上述步骤(以此类推)直至获取预设长度的目标文本数据。从而实现根据回答数据生成用于提问的目标文本数据，实现了基于业务对象的答复进行开放式问答的目的，便于测试业务对象对开放性问题的临时应对能力。

在本实施例中，文本生成方法基于对抗式长短期记忆网络和策略梯度，使用基于LSTM的判别器—生成器的结构，可以准确地实现生成文本序列和判断文本真伪任务；借助对抗训练，判别器能动态地更新其参数，不断提高识别能力，为生成器提供合适的指导，比纯粹基于其他静态基准评价生成文本的质量更具潜力；借助强化学习的思想，将序列生成过程转化为序列决策过程，解决了离散输出带来的损失函数不可微问题，使得生成对抗网络的训练成为可能；使用蒙特卡洛搜索，对策略模拟得到对每一步的完整序列和其在判别器中的评分结果，将均值作为当前时间步的reward值，解决了无法直接得到未完成的序列的reward问题；另外，在训练阶段仅需保留生成器部分，而和Gumbel-softmax等其他处理离散化不可微的技巧相比，不需要训练额外的参数、模型占用内存更小。

实施例二

如图4所示，本发明还提供了一种文本生成装置1，包括：采集单元11、获取单元12和生成单元13，其中：

采集单元11，用于采集业务对象在问答场景中生成的回答数据；

业务对象可以是对业务咨询的咨询用户，或是网上交易平台的买家，或是面试过程中的面试人员。可通过采集设备(例如：音频接收装置，麦克风或带有录音功能的移动终端等)采集回答数据。

本实施例中的文本生成装置1主要应用于对话场景中(至少两种用户)，基于目标对象的回答信息生成问题文本，以供目标对象对该问题文本进行回答，例如：文本生成装置1应用于面试场景时，根据面试人员提供的关键字生成开放式的文本问题。

获取单元12，用于对所述回答数据进行提取，并获取目标引导数据；

采用获取单元12可对回答数据进行语义分析提取所述回答数据中的关键字，将该关键字作为目标引导数据；对所述回答数据进行分析提取回答数据中的名词，将该名词作为目标引导数据。

生成单元13，用于通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据；

所述目标引导数据为所述目标文本数据的句首数据。

具体地，生成单元13采用所述文本生成对抗网络模型的生成器根据所述目标引导数据进行计算，获取词汇表中概率最大的第一样本词，将所述第一样本词添加于所述目标引导数据的末尾；

所述生成器根据所述第一样本词进行计算，获取词汇表中概率最大的第二样本词，将所述第二样本词添加于所述第一样本词的末尾，以此类推直至获取预设长度的目标文本数据。

在本实施例中，文本生成装置1基于对抗式长短期记忆网络和策略梯度，使用基于LSTM的判别器—生成器的结构，可以准确地实现生成文本序列和判断文本真伪任务；借助对抗训练，判别器能动态地更新其参数，不断提高识别能力，为生成器提供合适的指导，比纯粹基于其他静态基准评价生成文本的质量更具潜力；借助强化学习的思想，将序列生成过程转化为序列决策过程，解决了离散输出带来的损失函数不可微问题，使得生成对抗网络的训练成为可能；使用蒙特卡洛搜索，对策略模拟得到对每一步的完整序列和其在判别器中的评分结果，将均值作为当前时间步的reward值，解决了无法直接得到未完成的序列的reward问题；另外，在训练阶段仅需保留生成器部分，而和Gumbel-softmax等其他处理离散化不可微的技巧相比，不需要训练额外的参数、模型占用内存更小。

实施例三

为实现上述目的，本发明还提供一种计算机设备2，该计算机设备2包括多个计算机设备2，实施例二的文本生成装置1的组成部分可分散于不同的计算机设备2中，计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于：可通过***总线相互通信连接的存储器21、处理器23、网络接口22以及文本生成装置1(参考图5)。需要指出的是，图5仅示出了具有组件-的计算机设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，所述存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作***和各类应用软件，例如实施例一的文本生成方法的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的文本生成装置1等。

所述网络接口22可包括无线网络接口或有线网络接口，该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如，所述网络接口22用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图5仅示出了具有部件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述文本生成装置1还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器23)所执行，以完成本发明。

实施例四：

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储文本生成装置1，被处理器23执行时实现实施例一的文本生成方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本生成方法，其特征在于，基于问答场景，所述方法包括下述步骤：

采集业务对象在问答场景中生成的回答数据；

对所述回答数据进行提取，并获取目标引导数据；

所述目标引导数据为所述目标文本数据的句首数据；

其中，所述通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据的步骤，包括：

采用所述生成器对所述第一样本词进行计算，获取词汇表中概率最大的第二样本词，将所述第二样本词添加于所述第一样本词的末尾；

循环执行上述步骤直至获取预设长度的目标文本数据；

生成器采用输出序列的长短期记忆网络LSTM，用于从一个给定的初始状态生成文本序列；判别器采用二分类的长短期记忆网络，使用基于LSTM的判别器—生成器的结构生成文本序列和判断文本真伪任务；

在所述通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据的步骤之前，包括：

根据所述样本引导集合和所述样本文本集合对初始对抗网络模型进行训练，并得到文本生成对抗网络模型；

将文本序列的生成过程视作一个序列决策过程，采用了强化学习中的策略梯度方法，将判别器的评判结果作为奖励，生成器已生成出来的部分文本作为状态，生成器作为智能体，预测下一个词语作为动作，生成器即为需要更新的策略。

2.根据权利要求1所述的文本生成方法，其特征在于，所述初始对抗网络模型包括生成器和判别器，所述根据所述样本引导集合和所述样本文本集合对初始对抗网络模型进行训练，并得到文本生成对抗网络模型的步骤，包括：

基于更新的所述生成器并根据损失函数更新所述判别器；

3.根据权利要求2所述的文本生成方法，其特征在于，通过所述生成器并根据所述样本引导集合中的至少一个样本引导数据生成至少一个样本文本数据的步骤，包括：

通过所述生成器并根据所述第一样本词进行计算，获取词汇表中概率最大的第二样本词，将所述第二样本词添加于所述第一样本词的末尾；

循环执行上述步骤直至获取预设长度的样本文本数据。

4.根据权利要求2所述的文本生成方法，其特征在于，采用蒙特卡洛模拟对所述至少一个样本文本数据进行模拟并获取多个样本模拟文本数据的步骤，包括：

5.根据权利要求2所述的文本生成方法，其特征在于，通过所述判别器并根据所述样本文本集合中的目标文本数据对所述多个样本模拟文本数据进行识别，根据识别结果更新所述生成器的参数值的步骤，包括：

6.一种文本生成装置，其特征在于，基于问答场景，包括：

所述目标引导数据为所述目标文本数据的句首数据；

其中，所述通过预先训练得到的文本生成对抗网络模型并根据所述目标引导数据生成目标文本数据，包括：

循环执行上述步骤直至获取预设长度的目标文本数据；

所述文本生成装置还用于：

7.一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。