CN112464657A

CN112464657A - 混合式文本摘要生成方法、***、终端及存储介质

Info

Publication number: CN112464657A
Application number: CN202011429791.1A
Authority: CN
Inventors: 金耀辉; 何浩; 肖力强; ***; 田济东
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-09
Anticipated expiration: 2040-12-07
Also published as: CN112464657B

Abstract

本发明提供了一种混合式文本摘要生成方法、***，对输入文本进行分句和分词，记录每一个词语所在句子的索引；对分句和分词的结果先后进行词语和句子的表征，获得句子向量；将每一个句子向量进行复制，并对两个向量分别打上拷贝和重写的向量标记；提取重要的句子向量，并根据向量标记做出拷贝或重写的决策；对需要重写的句子进行编辑修改，获得文本摘要；对采用的神经网络进行训练，完成参数的梯度更新。同时提供了相应的终端及存储介质。本发明首次将抽取的句子和抽象的句子混合在摘要中，通过复制或重写机制区分直接用于摘要的句子和重写的句子；分层强化学习方法训练方法，以抽取的句子作为管理者到工人的任务，提高了两个网络之间的协作性。

Description

混合式文本摘要生成方法、***、终端及存储介质

技术领域

本发明涉及自然语言处理技术领域，具体地，涉及一种基于分层强化学习的混合式文本摘要生成方法、***、终端及存储介质。

背景技术

摘要的目标是将一篇长文章改写成一个简短流畅的版本，同时保持最显著的内容。随着神经网络在自然语言处理(NLP)任务中的成功应用，两个数据驱动的分支抽取和抽象摘要，从各种方法中脱颖而出。提取方法一般从源文章中选出最突出的句子作为摘要，内容选择准确，结果信息量大，但由于不重写句子，冗余度高。相反，抽象方法通过压缩和释义可以生成更简洁的摘要，但现有的模型在内容选择上比较薄弱，容易丢失关键信息。由此可以看到，这两个分支是相辅相成的，这促使可以把它们的优势结合起来，形成既翔实又简洁的总结。本领域已经存在一些用于完成合并这两个分支的技术，这些技术大都使用先提取后抽象的框架，该框架首先提取出值得总结的句子，然后对每个句子进行抽象。然而，由于所有的句子都是不加区分地压缩和删减的，它们在抽象阶段会遭受信息丢失。当整句话至关重要时，一些重要内容会被错误删除，造成严重的信息损失。此外，由于缺乏一个有效的强化学习框架来连接两个模块，这些技术的训练方法也不是端到端的。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于分层强化学习的混合式文本摘要生成方法、***、终端及存储介质。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种混合式文本摘要生成方法，包括：

对输入文本进行分句和分词，并记录每一个词语所在句子的索引；

对分句和分词的结果先后进行词语和句子的表征，获得句子向量；

将每一个句子向量进行复制，并对原句子向量和复制得到的句子向量分别加上拷贝和重写向量作为向量标记；

提取重要的句子向量，并根据向量标记做出拷贝或重写的决策；

对需要重写的句子进行编辑修改，获得文本摘要；

对提取重要的句子向量和对需要重写的句子进行编辑修改过程中采用的神经网络进行训练，完成对所有神经网络参数的梯度更新。

优选地，所述对输入文本进行分句和分词，并记录每一个词语所在句子的索引，包括：

对于输入文本，以标点符号作为句子结束符号，进行分句；

对于分句得到的每一个句子进行分词；

记录分词得到的每一个词语所在句子中的位置信息，所述位置信息用于表示每个词语在输入文本的第几个句子。

优选地，所述对分句和分词的结果先后进行词语和句子的表征，获得句子向量，包括：

使用预训练语言模型，将分词得到的词语表示为向量；

对每一个句子的词语向量求平均值，获得句子向量。

优选地，所述预训练语言模型采用BERT模型。

优选地，所述提取重要的句子向量，包括：

使用指针网络，对句子向量进行上下文表示；

使用注意力模型，计算每一个句子向量之间的关系，并计算每一个句子向量应得的权重；

对指针网络的状态变量进行转移，根据每一个句子向量的权重，顺序选取多个重要的句子向量。

优选地，所述对需要重写的句子进行编辑修改，包括：

根据每一个词语所在句子的索引，从输入文本中获取对应的句子原文；

使用指针生成网络进行编码解码操作，实现对文本的重写。

优选地，所述提取重要的句子向量和所述对需要重写的句子进行编辑修改分别采用了指针网络和指针生成网络；使用分层强化学习对上述过程中采用的神经网络进行训练，包括：

顺序完成提取和重写两个步骤的操作；

使用自动化评价指标对提取和重写结果进行评价；

将评价作为回报构建目标函数，对指针网络和指针生成网络的参数进行统一的梯度更新。

优选地，所述将评价作为回报构建目标函数，对指针网络和指针生成网络的参数进行统一的梯度更新，包括：

构建目标函数L(θ)为：

其中，a_t、c_t、r、R_t、y_t、b_t分别为行为函数、状态函数、回报函数、反馈函数、编辑后的文本以及基准；r(a_t)为指针网络的回报，表示行为a_t对摘要质量的当前影响，R_t(a_t+1)为行为a_t的反馈函数，表示行为a_t对摘要质量的长期影响，λ为反馈函数的加权系数，r_w(y_t)为指针生成网络的回报，β为指针生成网络回报r_w(y_t)的加权系数；所述行为函数，用于指示网络下一步的行为即抽取哪个句子；所述状态函数，用于表示模型当前所在的状态；所述回报函数，用于评价当前行为a_t的价值；所述反馈函数，用于评价当前行为a_t对于模型后续行为的长远影响；所述编辑后的文本，用于构成输出摘要的一个句子；所述基准，用于评价当前状态的价值，可以减少回报函数的波动；

对所述目标函数L(θ)进行迭代直到收敛。

优选地，采用同步动作-评价A2C算法产生基准。

根据本发明的另一个方面，提供了一种混合式文本摘要生成***，包括：

分句分词模块，该模块对输入文本进行分句和分词，并记录每一个词语所在句子的索引；

句子向量获取模块，该模块对分句和分词的结果先后进行词语和句子的表征，获得句子向量；

向量标记模块，该模块将每一个句子向量进行复制，并对原句子向量和复制得到的句子向量分别加上拷贝和重写向量作为向量标记；

决策模块，该模块提取重要的句子向量，并根据向量标记做出拷贝或重写的决策；

文本摘要生成模块，该模块对需要重写的句子进行编辑修改，获得文本摘要；

更新模块，该模块对上述过程进行训练，完成对所述决策模块和所述文本摘要生成模块中所有参数的梯度更新。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项所述的方法。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项有益效果：

本发明提供的混合式文本摘要生成方法、***、终端及存储介质，可以根据冗余度灵活地在复制语句和重写语句之间切换，因此，可以有效地结合摘要两个分支的优点，兼顾信息性和简洁性。此外，基于分层强化学习，提出了一种端到端的强化方法，将抽取模块和重写模块连接起来，增强了它们之间的协作性，在训练过程中动态地相互适应。

本发明提供的混合式文本摘要生成方法、***、终端及存储介质，采用两步方法构建框架：首先从输入的文章中提取显著性句子，使用一个拷贝重写决策机制根据冗余来区分句子；然后，通过相应地复制或重写所选句子生成最终摘要。

本发明提供的混合式文本摘要生成方法、***、终端及存储介质，其生成的摘要比现有常用的模型信息更加丰富、语言更加简洁。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中混合式文本摘要生成方法流程图；

图2为本发明一优选实施例中混合式文本摘要生成方法流程图；

图3为本发明一优选实施例中混合式文本摘要生成方法流程图；

图4为本发明一优选实施例中混合式文本摘要生成方法工作过程示意图；

图5为本发明一实施例中混合式文本摘要生成***组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

图1为本发明一实施例中混合式文本摘要生成方法流程图。

如图1所示，该实施例提供的混合式文本摘要生成方法，可以包括以下步骤：

S100，对输入文本进行分句和分词，并记录每一个词语所在句子的索引；

S200，对分句和分词的结果先后进行词语和句子的表征，获得句子向量；

S300，将每一个句子向量进行复制，并对原句子向量和复制得到的句子向量分别加上拷贝和重写向量作为向量标记；

S400，提取重要的句子向量，并根据向量标记做出拷贝或重写的决策；

S500，对需要重写的句子进行编辑修改，获得文本摘要；

S600，对提取重要的句子向量和对需要重写的句子进行编辑修改过程中采用的神经网络进行训练，完成对所有神经网络参数的梯度更新。

在该实施例的S100中，对输入文本进行分句和分词，并记录每一个词语所在句子的索引，优选包括：

S101，对于输入文本，以标点符号作为句子结束符号，进行分句；

S102，对于分句得到的每一个句子进行分词；

S103，记录分词得到的每一个词语所在句子中的位置信息，位置信息用于表示每个词语在输入文本的第几个句子。

在该实施例的S200中，对分句和分词的结果先后进行词语和句子的表征，获得句子向量，优选包括：

S201，使用预训练语言模型，将分词得到的词语表示为向量；

S202，对每一个句子的词语向量求平均值，获得句子向量。

在该实施例的一具体应用实例中，预训练语言模型优选采用BERT模型。

在该实施例的S400中，提取重要的句子向量，优选包括：

S401，使用指针网络，对句子向量进行上下文表示；

S402，使用注意力模型，计算每一个句子向量之间的关系，并计算每一个句子向量应得的权重；

S403，对指针网络的状态变量进行转移，根据每一个句子向量的权重，顺序选取多个重要的句子向量。

在该实施例的S500中，对需要重写的句子进行编辑修改，优选包括：

S501，根据每一个词语所在句子的索引，从输入文本中获取对应的句子原文；

S502，使用指针生成网络进行编码解码操作，实现对文本的重写。

在该实施例的S600中，提取重要的句子向量和对需要重写的句子进行编辑修改分别采用了指针网络和指针生成网络；优选地，使用分层强化学习对上述过程中采用的神经网络进行训练，优选包括：

S601，顺序完成提取和重写两个步骤的操作；

S602，使用自动化评价指标对提取和重写结果进行评价；

S603，将评价作为回报构建目标函数，对指针网络和指针生成网络的参数进行统一的梯度更新。

在该实施例的一具体应用实例中，将评价作为回报构建目标函数，对指针网络和指针生成网络的参数进行统一的梯度更新，优选包括：

S6031，构建目标函数L(θ)为：

其中，a_t、c_t、r、R_t、y_t、b_t分别为行为函数、状态函数、回报函数、反馈函数、编辑后的文本以及基准；r(a_t)为指针网络的回报，表示行为a_t对摘要质量的当前影响，R_t(a_t+1)为行为a_t的反馈函数，表示行为a_t对摘要质量的长期影响，λ为反馈函数的加权系数，r_w(y_t)为指针生成网络的回报，β为指针生成网络回报r_w(y_t)的加权系数；行为函数，用于指示网络下一步的行为即抽取哪个句子；状态函数，用于表示模型当前所在的状态；回报函数，用于评价当前行为a_t对摘要质量的当前影响；反馈函数，用于评价当前行为a_t对于模型后续行为的长远影响；编辑后的文本，用于构成输出摘要的一个句子；基准，用于评价当前状态的价值，可以减少回报函数的波动；

S6032，对目标函数L(θ)进行迭代直到收敛。

在该实施例的一具体应用实例中，优选采用同步动作-评价A2C算法产生基准。

图2为本发明一优选实施例中混合式文本摘要生成方法流程图。

如图2所示，该优选实施例提供的混合式文本摘要生成方法，可以包括以下步骤：

步骤1，对输入文本进行分句和分词，并记录每一个词语所在句子的索引；

步骤2，对分句和分词的结果先后进行词语和句子的表征，获得句子向量；

步骤3，将每一个句子向量进行复制，并对复制得到的两个向量分别加上拷贝和重写向量作为标记；

步骤4，使用指针网络(Pointer Network)提取重要的句子向量，并根据向量标记做出拷贝或重写的决策；

步骤5，使用指针生成式网络(Pointer-Generator)对需要重写的句子进行编辑修改，获得文本摘要；

步骤6，使用分层强化学习对上述过程中使用的指针网络和指针生成网络进行训练，完成对所有神经网络参数的梯度更新。

作为一优选实施例，步骤1中，对输入文本进行分句和分词，并记录每一个词语所在句子的索引，包括：

步骤1.1，对于输入文本，根据句子结束符号，进行分句；

步骤1.2，对于分句得到的每一个句子，基于空格进行分词；

步骤1.3，记录分词得到的每一个词语所在句子中的位置信息。该位置信息指每个词语在输入文本的第几个句子。

作为一优选实施例，步骤2中，对先后进行词语和句子的表征，获得句子向量，包括：

步骤2.1，使用预训练语言模型，将分词得到的词语表示为向量；

步骤2.2，对每一个句子的词语向量求平均值，获得句子向量。

作为一优选实施例，预训练语言模型采用BERT模型。

作为一优选实施例，步骤4中，使用指针网络(Pointer Network)提取重要的句子向量，包括：

步骤4.1，使用指针网络(Pointer Network)，对句子向量进行上下文表示；

步骤4.2，使用注意力模型，计算每一个句子向量之间的关系，并计算每一个句子向量应得的权重；

步骤4.3，对指针网络的状态变量进行转移，根据每一个句子向量的权重，顺序选取多个重要的句子向量。

作为一优选实施例，步骤5中，使用指针生成式网络(Pointer-Generator)对需要重写的句子进行编辑修改，包括：

步骤5.1，根据每一个词语所在句子的索引，从输入文本中获取对应的句子原文；

步骤5.2，使用指针网络进行编码解码操作，实现对文本的重写。

作为一优选实施例，步骤6中，使用分层强化学习对上述过程进行训练，包括：

步骤6.1，顺序完成提取和重写两个步骤的操作；

步骤6.2，使用自动化评价指标(例如ROUGE)对提取和重写结果进行评价；

步骤6.3，将评价作为回报构建目标函数，对采用的指针网络和指针生成网络的参数进行统一的梯度更新。

作为一优选实施例，步骤6.3中，将评价作为回报构建目标函数，对采用的指针网络和指针生成网络的参数进行统一的梯度更新，包括：

步骤6.31，构建目标函数L(θ)为：

其中，a_t、c_t、r、R_t、y_t、b_t分别为行为函数、状态函数、回报函数、反馈函数、编后的文本以及基准；r(a_t)为指针网络的回报，表示行为a_t对摘要质量的当前影响，Rt(a_t+1)为行为a_t的反馈函数，表示行为a_t对摘要质量的长期影响，λ为反馈函数的加权系数；r_w(y_t)为指针生成网络的回报，β为指针生成网络回报r_w(y_t)的加权系数；行为函数，用于指示网络下一步的行为，即抽取哪个句子；状态函数，用于表示模型当前所在的状态；回报函数，用于评价当前行为a_t对摘要质量的当前影响；反馈函数，用于评价当前行为a_t对于模型后续行为的长远影响；编辑后的文本，用于构成输出摘要的一个句子；基准，用于评价当前状态的价值，可以减少回报函数的波动；

S6.32，对目标函数L(θ)进行迭代直到收敛。

作为一优选实施例，采用同步动作-评价A2C算法产生基准。

图3为本发明另一优选实施例所中混合式文本摘要生成方法流程图。

如图3所示，该优选实施例所提供的混合式文本摘要生成方法，可以包括如下步骤：

步骤S101：对输入文本进行分句和分词，并记录每个词语所在句子的索引：

首先对于输入的文本我们先根据句子结束符号，进行分句。对每一句话基于空格进行分词。在这一过程中我们记录每一个词语属于那一个句子的位置信息。

步骤S102：利用分层BERT表示机制，对输入文本分句和分词的结果先后进行词语和句子的表征，获得句子向量：

本实施例采用了BERT模型，本步骤提供了一种基于两层BERT网络的句子编码的层次BERT表示方法。首先将整篇文章放入一个预训练的BERT模型(即预训练语言模型)，使每个单词都有广泛的上下文，有助于更准确地表示其含义。然后，通过合并BERT网络最后四层的隐向量并传入多层感知器层来获得单词表示。这一步将上下文以及整篇文章中的单词位置注入到单词向量中。

通过对单词向量进行平均池操作来获得每个句子的初步表示。

然后，为了将句子位置信息和句子级上下文嵌入到表示中，进一步将它们输入到一个单层的BERT中，得到最终的句子向量h_i。

步骤S103：将每个句子向量进行复制，并对两个复制向量分别打上拷贝和重写的向量标记：

在句子向量表示之后，复制句子向量，并分别添加两个不同的标记向量，拷贝向量h^c和重写向量h^r。

其中，

为拷贝向量，

为为重写向量；

标记向量是可训练的参数，有助于模型区分每个句子的两种不同操作。现在每个句子都有向量的两个不同版本。当指针网络择句子的复制版本时，它将直接添加到摘要中而不需要任何版本。相反，如果选择重写版本，则会重写(压缩或改写)句子以减少冗余。

步骤S104：使用指针网络提取重要的句子，并根据向量标签做出拷贝或重写的决策。

现在每个句子都有向量的两个不同版本。使用指针网络来对步骤S103中的向量进行选择，其中指针网络使用注意力机制来选择重要的句子。指针网络选择每一个句子的时候有两个选择。一个句子选择拷贝

版本时，它将直接添加到摘要中，而不需要任何编辑。相反，如果选择重写版本

则将重写(压缩或改写)句子以减少冗余。通过这种方法，可以成功地将两个动作空间合并为一个，使之适合当前的强化学习。

步骤S105：对需要重写的句子使用编码解码器进行编辑修改使之简洁通顺：

此步骤根据步骤S104的决策来复制或重写相应的句子，生成最终摘要。它们的复制操作是在提取的句子已经足够简洁的情况下保留所有信息，而重写操作则是用来简化或解释多余的句子。使用带复制机制的编码器-对齐器-解码器网络来重写需要相应的句子。

步骤S106：使用分层强化学习对上述过程中采用的指针网络和指针生成网络进行训练，完成对所有神经网络参数的梯度更新：

在分层强化学习HRL方法中，把抽取模块即指针网络(Pointer Network)看作是在句子层操作的管理者，而句子编辑模块即指针生成网络(Pointer-Generator)则看作是在单词层运行的工人。任务是选定的句子和复制或重写的决定。我们在估计管理者的回报时也考虑了的工作者的回报，这更准确地描述了管理者行为的对摘要产生的影响。其中管理者在每一轮使用目标函数

进行参数更新，其中r(a_t)为管理者(抽取模块)自身的回报，而r_w(y_t)为工人(编辑模块)的回报。

对于工人我们使用如下目标函数进行参数更新：

其中b_t可以为任意方法产生的基准函数。

本发明上述实施例所提供的混合式文本摘要生成方法，其基本构思是：如图4所示，使用两步方法构建的框架。首先从输入文本中提取显著性句子(重要的语句)，使用一个拷贝或重写机制根据冗余来区分句子。然后，通过相应地拷贝或重写所选句子生成最终摘要。此外，本发明实施例基于分层强化学习，提供了一种端到端的神经网络训练方法，将抽取和编辑两个独立的步骤连接起来，增强了它们之间的协作性，在训练过程中动态地相互适应。

本发明另一实施例提供了一种混合式文本摘要生成***，如图5所示，可以包括：分句分词模块、句子向量获取模块、向量标记模块、决策模块、文本摘要生成模块以及更新模块。

其中：

更新模块，该模块对上述过程进行训练，完成对决策模块和文本摘要生成模块中所有参数的梯度更新。

本发明第三个实施例提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，处理器执行计算机程序时能够用于执行上述实施例中任一项的方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明第四个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法。

本发明上述实施例提供的混合式文本摘要生成方法、***、终端及存储介质，使用大规模预训练语言模型进行文本的向量表示；将句子向量进行复制并打上拷贝或重写向量标签以辅助对句子拷贝或重写的决策；利用指针网络提取对摘要最为关键的句子并决定进行拷贝或重写；使用指针生成网络(Pointer-Generator)对要重写的句子进行重写使之简洁流畅；对指针网络(Pointer Network)和指针生成网络(Pointer-Generator)两个网络构建分层行强化训练。本发明上述实施例提供的基于分层强化学习的混合式自动文本摘要方法、终端，结合了拷贝和重写两种摘要生成的操作，最大程度保留了重要信息，并且避免了不必要的语法错误提升了生成质量，并且分层式的强化学习优化了抽取和重写两个神经网络之间的合作关系。

综上，本发明上述实施例提供的混合式文本摘要生成方法、***、终端及存储介质，是一种新的混合式摘要框架，首次将抽取的句子和重写的句子混合在摘要中。本发明上述实施例设计了一种复制或重写机制来区分可直接用于摘要的句子和需要重写的句子。此外，本发明上述实施例还提出了一种端到端的分层强化学习方法来训练抽取重-编辑两步模型，该方法以抽取的句子作为管理者到工人的任务，极大地提高了作为抽取网络的指针网络(Pointer Network)和作为编辑网络的指针生成网络(Pointer-Generator)两个网络之间的协作性。

本领域技术人员应该能够意识到，本文中所描述的模块以及方法和步骤，能够以任意的硬件基础，操作***，编程语言，以及深度学习框架来实现。以哪种载体来实现本技术方案，取决于技术方案的特定应用和设计约束条件。本领域的技术人员可以对每个特定的应用场景或者硬件载体来使用不同的方法实现所描述的功能，但是这种实现不应认为超出了本发明的范围。

需要说明的是，本发明提供的方法中的步骤，可以利用***中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现***的组成，即，方法中的实施例可理解为构建***的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的***及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种混合式文本摘要生成方法，其特征在于，包括：

对需要重写的句子进行编辑修改，获得文本摘要；

2.根据权利要求1所述的混合式文本摘要生成方法，其特征在于，所述对输入文本进行分句和分词，并记录每一个词语所在句子的索引，包括：

对于输入文本，以标点符号作为句子结束符号，进行分句；

对于分句得到的每一个句子进行分词；

3.根据权利要求1所述的混合式文本摘要生成方法，其特征在于，所述对分句和分词的结果先后进行词语和句子的表征，获得句子向量，包括：

使用预训练语言模型，将分词得到的词语表示为向量；

对每一个句子的词语向量求平均值，获得句子向量。

4.根据权利要求3所述的混合式文本摘要生成方法，其特征在于，所述预训练语言模型采用BERT模型。

5.根据权利要求1所述的混合式文本摘要生成方法，其特征在于，所述提取重要的句子向量，包括：

使用指针网络，对句子向量进行上下文表示；

6.根据权利要求1所述的混合式文本摘要生成方法，其特征在于，所述对需要重写的句子进行编辑修改，包括：

使用指针生成网络进行编码解码操作，实现对文本的重写。

7.根据权利要求1所述的混合式文本摘要生成方法，其特征在于，所述提取重要的句子向量和所述对需要重写的句子进行编辑修改分别采用了指针网络和指针生成网络；使用分层强化学习对上述过程中采用的神经网络进行训练，包括：

顺序完成提取和重写两个步骤的操作；

使用自动化评价指标对提取和重写结果进行评价；

8.根据权利7所述的混合式文本摘要生成方法，其特征在于，所述将评价作为回报构建目标函数，对指针网络和指针生成网络的参数进行统一的梯度更新，包括：

构建目标函数L(θ)为：

其中，a_t、c_t、r、R_t、y_t、b_t分别为行为函数、状态函数、回报函数、反馈函数、编辑后的文本以及基准；r(a_t)为指针网络的回报，表示行为a_t对摘要质量的当前影响，R_t(a_t+1)为行为a_t的反馈函数，表示行为a_t对摘要质量的长期影响，λ为反馈函数的加权系数，r_w(y_t)为指针生成网络的回报，β为指针生成网络回报r_w(y_t)的加权系数；所述行为函数，用于指示网络下一步的行为即抽取哪个句子；所述状态函数，用于表示模型当前所在的状态；所述回报函数，用于评价当前行为a_t的价值；所述反馈函数，用于评价当前行为a_t对于模型后续行为的长远影响；所述编辑后的文本，用于构成输出摘要的一个句子；所述基准，用于评价当前状态的价值；

对所述目标函数L(θ)进行迭代直到收敛。

9.根据权利8所述的混合式文本摘要生成方法，其特征在于，采用同步动作-评价A2C算法产生基准。

10.一种混合式文本摘要生成***，其特征在于，包括：

11.一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时能够用于执行权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-9中任一项所述的方法。