CN113435183A

CN113435183A - 文本生成方法、装置及存储介质

Info

Publication number: CN113435183A
Application number: CN202110745108.3A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-24
Anticipated expiration: 2041-06-30
Also published as: CN113435183B

Abstract

本发明提供了文本生成方法、装置及存储介质；其中文本生成方法包括：获取输入文本；为输入文本配置第一标签、第一隐状态信息和第一指向参数；根据第一隐状态信息得到第一生成概率；计算输入文本的显著性系数，根据显著性系数筛选出第二标签；迭代训练强化学习模型直至回报最大化，将当前反馈作为目标反馈；根据目标反馈将第一指向参数更新为第二指向参数；解码第二指向参数得到目标标签,筛选出目标生成文本。该文本生成方法根据输入文本的第一标签在强化学习过程中将生成文本导向特定的目标标签，针对性地生成与目标标签对应的文本，保证了生成文本的高可读性和标签一致性，使生成文本在整体语句结构方面更多样性化。

Description

文本生成方法、装置及存储介质

技术领域

本发明实施例涉及但不限于人工智能领域，尤其涉及文本生成方法、装置及存储介质。

背景技术

文本生成技术是自然语言处理领域的一个重要技术。通过文本生成技术可以利用既定信息与文本生成模型生成满足特定目标的文本序列。文本生成模型的应用场景丰富，包括生成式阅读理解、人机对话或者智能写作等。但文本生成在指定类型的情况下常出现数据集稀缺的难题。为了解决数据集稀缺的难题，通常会将包含少量相关文本数据的数据集进行数据增强，但增强的文本数据无法保证可读性和相关性，且通常是进行单词级或短语级替换，增强的文本数据缺乏多样性。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了多用户配对方法、装置、基站及计算机可读存储介质，能够保证多个用户的权值的正交性，以保证用户接收端能够消除其他用户带来的干扰。

第一方面，本发明实施例提供了一种文本生成方法，包括：

获取输入文本；

为所述输入文本配置第一标签、第一隐状态信息和第一指向参数，所述第一指向参数用于将所述输入文本指向所述第一隐状态信息；

根据所述第一隐状态信息和预设的第一预生成文本，对所述输入文本进行概率预测，得到多个与第一预生成文本一一对应的第一生成概率；

计算所述输入文本的显著性系数，根据所述显著性系数对所述第一标签进行筛选，得到第二标签；

将所述输入文本、所述第一预生成文本和所述第一生成概率输入至所述强化学习模型进行迭代训练，直至所述强化学习模型的回报最大化，得到回报最大化的所述强化学习模型所对应的反馈作为目标反馈，所述强化学习模型的状态为所述输入文本，所述强化学习模型的动作为所述第一预生成文本；

根据所述目标反馈将所述第一指向参数更新为第二指向参数，所述第二指向参数用于将所述第二标签指向目标标签；

解码所述第二指向参数得到所述目标标签,根据所述目标标签对所述第一预生成文本进行筛选，得到目标生成文本。

第二方面，本发明实施例还提供了一种文本生成装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的文本生成方法。

第三方面，本发明实施例还提供了一种存储介质，所述存储介质中存储有可执行指令，所述可执行指令被处理器执行时实现如上所述的文本生成方法。

本发明实施例包括：获取输入文本；为输入文本配置第一标签、第一隐状态信息和第一指向参数，第一指向参数用于将输入文本指向第一隐状态信息；根据第一隐状态信息和预设的第一预生成文本，对输入文本进行概率预测，得到多个与第一预生成文本一一对应的第一生成概率；计算输入文本的显著性系数，根据显著性系数对第一标签进行筛选，得到第二标签；将输入文本、第一预生成文本和第一生成概率输入至强化学习模型进行迭代训练，直至强化学习模型的回报最大化，得到回报最大化的强化学习模型所对应的反馈作为目标反馈，强化学习模型的状态为输入文本，强化学习模型的动作为第一预生成文本；根据目标反馈将第一指向参数更新为第二指向参数，第二指向参数用于将第二标签指向目标标签；解码第二指向参数得到目标标签,根据目标标签对第一预生成文本进行筛选，得到目标生成文本。该文本生成方法根据输入文本的第一标签在强化学习过程中将生成文本导向特定的目标标签，针对性地生成与目标标签对应的文本，保证了生成文本的高可读性和标签一致性，使生成文本在整体语句结构方面更多样性化。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例一种文本生成方法的流程图；

图2是图1中步骤S400的具体流程图；

图3是得到第二生成概率、第二标签与目标标签的相似系数的流程图；

图4是图1中步骤S500的具体流程图；

图5是图1中步骤S700的具体流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

本发明提供了文本生成方法、装置及存储介质。其中包括：获取输入文本；为输入文本配置第一标签、第一隐状态信息和第一指向参数，第一指向参数用于将输入文本指向第一隐状态信息；根据第一隐状态信息和预设的第一预生成文本，对输入文本进行概率预测，得到多个与第一预生成文本一一对应的第一生成概率；计算输入文本的显著性系数，根据显著性系数对第一标签进行筛选，得到第二标签；将输入文本、第一预生成文本和第一生成概率输入至强化学习模型进行迭代训练，直至强化学习模型的回报最大化，得到回报最大化的强化学习模型所对应的反馈作为目标反馈，强化学习模型的状态为输入文本，强化学习模型的动作为第一预生成文本；根据目标反馈将第一指向参数更新为第二指向参数，第二指向参数用于将第二标签指向目标标签；解码第二指向参数得到目标标签,根据目标标签对第一预生成文本进行筛选，得到目标生成文本。该文本生成方法根据输入文本的第一标签在强化学习过程中将生成文本导向特定的目标标签，针对性地生成与目标标签对应的文本，保证了生成文本的高可读性和标签一致性，使生成文本在整体语句结构方面更多样性化。

下面结合附图，对本发明实施例作进一步阐述。

参照图1，图1是一种文本生成方法的流程图。

如图1所示，一种文本生成方法，包括：

步骤S100、获取输入文本。

对于步骤S100，获取的输入文本包括一个或多个子文本，子文本可以是字，也可以是词汇。一般地，考虑到语句的语法意义，通常子文本采用词汇，输入文本被分割为多个词汇。这样也便于后续为每个词汇添加第一标签。

通过输入设备，例如键盘、触摸屏、麦克风等，将输入文本输入到文本生成模型中，通常文本生成模型部署在处理设备中。

步骤S200、为输入文本配置第一标签、第一隐状态信息和第一指向参数；第一指向参数用于将输入文本指向第一隐状态信息，即通过第一指向参数可以构建输入文本指向第一隐状态信息的映射。

对于步骤S200，由于输入文本包括一个或多个子文本，需要分别为每个子文本配置第一标签、第一隐状态信息和第一指向参数，第一指向参数用于将子文本指向第一隐状态信息。

需要说明的是，第一标签通常根据子文本的词性决定。例如第一标签可以包括正向标签、中性标签和负向标签这三种标签；即正向标签表示子文本具有正向语义，例如喜欢；中性标签表示子文本具有中性语义，例如平淡；反向标签表示子文本具有反向语义，例如悲伤。当然，正向标签、中性标签和负向标签仅仅作为举例，在其他实施例中，也可以根据实际需要设置对应的标签。

第一指向参数用θ表示，第一隐状态信息用

表示。第一隐状态信息应用于马尔可夫决策过程。

步骤S300、根据第一隐状态信息和预设的第一预生成文本，对输入文本进行概率预测，得到多个与第一预生成文本一一对应的第一生成概率。

在文本生成模型中，文本生成实际上是对一个词汇的预测过程，该词汇具有被放置在输入文本序列末尾的最大概率。

对于文本生成模型，可以采用生成式预训练(Generative Pre-Training,GPT)模型，当然在其他实施例中，也可以采用其他文本生成模型，例如指针生成网络等。在GPT模型中，将所有单词构成词汇表，通过为每一个单词赋予ID值，这样能将每个单词转换为数字向量。根据词汇表，将输入文本进行编码，每个子文本均可以编码成由1和0构成的一维数字向量；则输入文本的多个子文本可以构成由1和0构成的多维向量矩阵。

由于编码成的多维向量矩阵通常充斥着大量的0，容易浪费存储空间和运算空间。因此需要将该多维向量矩阵进行向量化，通过嵌入函数将单词含义的信息投影到更小的空间中。即将每个单词的数字向量分别传递给嵌入函数，每个单词编码对应于多维向量矩阵的每一行；嵌入函数即为embedding权重矩阵。

然后对多维向量矩阵进行位置信息编码。再通过多头注意力机制的模型，对于序列中的每个输出，预测输入标记对输出的影响程度。GPT模型具有前馈模块，前馈模块为一个具有单个隐藏层的多层感知器；通过该前馈模块将输入与学习的权重相乘，并连续添加学习偏差，经过线性整流函数激活，线性整流函数即为ReLU函数。

需要说明的是，在多头注意力机制的模型和前馈模块之后，需要将模块的输入添加至其输出中，并对结果进行归一化。通过归一化指数函数根据隐状态得到多个与第一预生成文本一一对应的第一生成概率，归一化指数函数即softmax函数，第一生成概率表示为

其中第一预生成文本为词汇表中的所有单词；第一生成概率的数量与词汇表中的所有单词的数量相等，第一生成概率与词汇表的单词一一对应。第一生成概率表示由输入文本所预测的生成第一预生成文本的概率。

步骤S400、计算输入文本的显著性系数，根据显著性系数对第一标签进行筛选，得到第二标签；

参照图2，对于步骤S400，具体步骤如下：

步骤S410、分别计算每个子文本的显著性系数；其中，显著性系数表示为：

式中，S_x,c表示显著性系数，V表示子文本的总数，GM表示几何平均数，c为第一标签，x表示子文本，K为第一标签的总数。

步骤S420、将显著性系数按照由大到小的顺序排序，选取排名位于预设数量值之前的所有子文本作为第一子文本；即根据显著性系数的数值大小将子文本从大至小排序，选择排序后的文本序列中的前N个子文本作为第一子文本，N为预设数量值。其中预设数量值可以根据实际需要人为设定。当然，也可以将将显著性系数按照由小到大的顺序排序，选取排名位于预设数量值之后的所有子文本作为第一子文本。

步骤S430、将第一子文本所对应的第一标签作为第二标签。实际上生成文本所对应的目标标签是从第二标签中选出的。

参照图3，图3是得到第二生成概率以及第二标签与目标标签的相似系数的流程图。

在步骤S400，计算输入文本的显著性系数，根据显著性系数由第一标签得到第二标签的步骤之后，还包括以下步骤：

步骤S441、为第二标签配置第二隐状态信息；同样地，第二隐状态信息应用于马尔可夫决策过程；

步骤S442、选取第一标签与第二标签相同的第一预生成文本作为第二预生成文本；即可以先得到与第二标签相同的第一标签，然后根据这些与第二标签相同的第一标签得到与这些第一标签对应的第一预生成文本，最后将得到的第一预生成文本作为第二预生成文本；

步骤S443、根据第二隐状态信息对第二预生成文本进行概率预测，得到多个与第二预生成文本一一对应的第二生成概率；需要说明的是，得到第二生成概率的过程与得到第一生成概率的过程相同，在此不再详述。

在步骤S443，根据第二隐状态信息对第二预生成文本进行筛选，得到多个与第二预生成文本一一对应的第二生成概率的步骤之后，还包括以下步骤：

步骤S450、根据显著性系数和第二生成概率进行相似度计算，得到第二标签与目标标签的相似系数；计算相似系数的过程可以通过以下的式子表示：

式中，

表示第二标签与目标标签的相似系数，

为第二隐状态信息，

为第二生成概率。

步骤S500、将输入文本、第一预生成文本和第一生成概率输入至强化学习模型进行迭代训练，直至强化学习模型的回报最大化，得到回报最大化的强化学习模型所对应的反馈作为目标反馈，强化学习模型的状态为输入文本，强化学习模型的动作为第一预生成文本。

参照图4，对于步骤S500，具体步骤如下:

步骤S510、将输入文本、第一预生成文本、第一生成概率、第二生成概率和相似系数输入至强化学习模型，强化学习模型的状态为输入文本，强化学习模型的动作为第一预生成文本；具体地，对于强化学习模型，t时刻的状态为输入文本，即s_t＝x_＜t，其中s_t表示为t时刻强化学习模型的状态，x_＜t表示为t时刻的输入文本，t时刻的动作为所有第一预生成文本中的其中一个，即a_t＝x_t，其中a_t表示为t时刻强化学习模型的动作，x_t表示为一个第一预生成文本；则在t时刻，在s_t的状态下产生a_t的动作的概率为第一生成概率，通过数学式可以表示为

其中π_θ(a_a|s_t)表示在状态s_t产生动作a_t的概率；

步骤S520、将第一生成概率、第二生成概率、第二标签与目标标签的相似系数依照强化学习模型的价值函数计算，得到第一子反馈，第一子反馈用于表示当前强化学习模型的未来反馈期望；第一子反馈通过数学式表示为:

其中E_t为强化学习模型的价值函数，价值函数用于计算强化学习模型基于t时刻的状态所能获得的未来反馈的期望或者用于计算强化学习模型基于t时刻的状态采取动作所能获得的未来反馈的期望，

表示第二生成概率，

步骤S530、根据第一生成概率和第二生成概率，得到相对熵，相对熵通过数学式表示为

其中KL(θ||θ_c)表示相对熵，相对熵表示第一指向参数对强化学习模型的影响与第二指向参数对强化学习模型的影响的差别；

步骤S540、根据相对熵确定折扣值，将第一子反馈扣除折扣值得到第二子反馈，其中折扣值用于表示相对熵对第一子反馈的负面影响；则第二子反馈通过数学式表示为

其中

表示第二子反馈，β表示权重，能动态改变第一指向参数到第二指向参数的转变；

步骤S550、使强化学习模型以第二子反馈作为每次迭代的反馈进行迭代训练，直至强化学习模型的回报最大化，其中回报为强化学习模型在迭代训练过程中所产生的所有第二子反馈之和；需要说明的是，强化学习模型是标准的马尔可夫决策过程；强化学习模型的基本原理为如果主体的行为策略导致环境正的反馈，那么主体以后产生这个行为策略的趋势便会加强。主体的目标是动态地调整参数，以达到回报最大，在每个离散状态发现最优策略以使期望的反馈和最大；主体选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个反馈给主体，主体根据反馈和环境当前状态再选择下一个动作，选择的原则是使受到正的反馈的概率增大；选择的动作不仅影响即时反馈值，而且影响环境下一时刻的状态及最终反馈值；

步骤S560、将回报最大化的强化学习模型所对应的第二子反馈作为目标反馈；当强化学习模型迭代训练至回报最大化，此时强化学习模型完成训练并达到目标，此时的第二子反馈能作为目标反馈。

步骤S600、根据目标反馈将第一指向参数更新为第二指向参数。

对于步骤S600，其具体为根据目标反馈利用梯度算法对第一指向参数进行更新，得到第二指向参数。即通过第二指向参数可以构建第二标签指向目标标签的映射，其中第二指向参数采用θ_c表示。

步骤S600通过数学式能表示为：

其中η表示强化学习模型的学习速率；T为温度，用于控制随机采样和对

的缩放；

表示梯度。

需要说明的是，步骤S600是在强化学习模型中执行的在强化学习的过程中，通过在某个文本序列状态下执行的生成下一个词汇的动作所带来的反馈更新参数，以优化强化学习模型，从而使得文本的生成带有目标标签的色彩。

步骤S700、解码第二指向参数得到目标标签,根据目标标签由第一预生成文本得到目标生成文本。

参照图5，具体地，步骤S700包括以下的子步骤：

步骤S710、通过第二生成概率解码第二指向参数得到目标标签；

步骤S720、选取第一标签与目标标签相同的第一预生成文本作为第三预生成文本；

步骤S730、将第一生成概率的最大值所对应的第三预生成文本作为目标生成文本。

具体地，步骤S700可以通过argmax函数实现。即对于一个映射f：X→Y，在该实施例中，X为第一生成概率，Y为第一预生成文本，该映射为第一生成概率到第一预生成文本的映射，通过argmax函数在第一标签为目标标签的指定条件下，将第一生成概率的最大值所对应的第一预生成文本作为输出。将第一标签为目标标签作为指定条件，即限定了argmax函数的X的范围，因此将第一标签与目标标签对应的第一预生成文本作为第三预生成文本。并将第一生成概率的最大值所对应的第三预生成文本作为输出的目标生成文本。

实际上，强化学习模型位于文本生成模型的softmax函数与argmax函数之间；强化学习模型是一个条件生成器，在解码过程中将生成器导向由输入文本决定的目标标签，在这样的条件下能生成与目标标签类别响应的文本数据，使得该文本数据在语义与可读性方面类似于输入文本这些原始数据。

需要说明的是，当原始输入文本输入到文本生成模型中，经过文本生成模型的计算后输出得到第一次的目标生成文本；然后可以将原始输入文本和第一次的目标生成文本合并作为新的输入文本输入到文本生成模型，并继续计算输出得到第二次的目标生成文本；而第二次的目标生成文本的目标标签是根据新的输入文本，即原始输入文本和第一次的目标生成文本所有单词的标签得到的，从而保证了目标生成文本与新的输入文本的标签一致性；如此类推，根据原始输入文本可以陆续依次输出不同的目标生成文本，组成新的长文本序列，使得生成文本更多样性化。

另外，本发明的一个实施例还提供了一种文本生成装置，该文本生成装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。处理器执行计算机程序时实现如上的文本生成装置方法。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的信息处理方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的文本生成方法，例如，执行以上描述的步骤S100至步骤S700。

以上所描述的节点实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被一个处理器执行，可使得上述处理器执行上述实施例中的文本生成方法，例如，执行以上描述的步骤S100至步骤S700。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种文本生成方法，其特征在于，包括：

获取输入文本；

2.根据权利要求1所述的文本生成方法，其特征在于，所述输入文本包括若干个子文本，所述为所述输入文本配置第一标签、第一隐状态信息和第一指向参数，包括：

分别为每个所述子文本配置第一标签、第一隐状态信息和第一指向参数。

3.根据权利要求2所述的文本生成方法，其特征在于，所述计算所述输入文本的显著性系数，根据所述显著性系数对所述第一标签进行筛选，得到第二标签，包括：

分别计算每个所述子文本的显著性系数；

将所述显著性系数按照由大到小的顺序排序，选取排名位于预设数量值之前的所有所述子文本作为第一子文本；

将所述第一子文本所对应的所述第一标签作为所述第二标签。

4.根据权利要求1所述的文本生成方法，其特征在于，在所述计算所述输入文本的显著性系数，根据所述显著性系数对所述第一标签进行筛选，得到第二标签的步骤之后，所述文本生成方法还包括：

为所述第二标签配置第二隐状态信息；

选取所述第一标签与所述第二标签相同的所述第一预生成文本作为第二预生成文本；

根据所述第二隐状态信息对所述第二预生成文本进行概率预测，得到多个与所述第二预生成文本一一对应的第二生成概率。

5.根据权利要求4所述的文本生成方法，其特征在于，在根据所述第二隐状态信息对所述第二预生成文本进行筛选，得到多个与所述第二预生成文本一一对应的第二生成概率的步骤之后，所述文本生成方法还包括：

根据所述显著性系数和所述第二生成概率进行相似度计算，得到所述第二标签与所述目标标签的相似系数。

6.根据权利要求5所述的文本生成方法，其特征在于，所述将所述输入文本、所述第一预生成文本和所述第一生成概率输入至所述强化学习模型进行迭代训练，直至所述强化学习模型的回报最大化，得到回报最大化的所述强化学习模型所对应的反馈作为目标反馈，包括：

将所述输入文本、所述第一预生成文本、所述第一生成概率、所述第二生成概率和所述相似系数输入至所述强化学习模型；

将所述第一生成概率、所述第二生成概率、所述第二标签与目标标签的相似系数依照所述强化学习模型的价值函数计算，得到第一子反馈，所述第一子反馈用于表示当前所述强化学习模型的未来反馈期望；

根据所述第一生成概率和所述第二生成概率，得到相对熵，所述相对熵表示所述第一指向参数对所述强化学习模型的影响与所述第二指向参数对所述强化学习模型的影响的差别；

根据所述相对熵确定折扣值，将所述第一子反馈扣除所述折扣值得到所述第二子反馈，所述折扣值用于表示所述相对熵对所述第一子反馈的负面影响；

使所述强化学习模型以所述第二子反馈作为每次迭代的反馈进行迭代训练，直至所述强化学习模型的回报最大化，所述回报为所述强化学习模型在迭代训练过程中所产生的所有所述第二子反馈之和；

将回报最大化的所述强化学习模型所对应的所述第二子反馈作为目标反馈。

7.根据权利要求1所述的文本生成方法，其特征在于，所述根据所述目标反馈将所述第一指向参数更新为第二指向参数，包括：

根据所述目标反馈利用梯度算法对所述第一指向参数进行更新，得到所述第二指向参数。

8.根据权利要求4所述的文本生成方法，其特征在于，所述解码所述第二指向参数得到目标标签,根据所述目标标签对所述第一预生成文本进行筛选，得到目标生成文本，包括:

通过所述第二生成概率解码所述第二指向参数得到所述目标标签；

选取所述第一标签与所述目标标签相同的第一预生成文本作为第三预生成文本；

将所述第一生成概率的最大值所对应的所述第三预生成文本作为所述目标生成文本。

9.一种文本生成装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的文本生成方法。

10.一种存储介质，其特征在于，所述存储介质中存储有可执行指令，所述可执行指令被处理器执行时实现如权利要求1至8任一项所述的文本生成方法。