CN110929024A

CN110929024A - 一种基于多模型融合的抽取式文本摘要生成方法

Info

Publication number: CN110929024A
Application number: CN201911262119.5A
Authority: CN
Inventors: 冯骁骋; 秦兵; 刘挺; 孙卓; 孔常青; 高建清
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-03-27
Anticipated expiration: 2039-12-10
Also published as: CN110929024B

Abstract

一种基于多模型融合的抽取式文本摘要生成方法，本发明涉及抽取式文本摘要生成方法。本发明的目的是为了解决现有的单一的抽取式模型无法学习到摘要文本的全部重要信息，导致摘要抽取准确率及召回率低的问题。过程为：一、将每个句子的词向量输入双向双层LSTM，输出全文中的每一个句子的特征表示；二、将句子的特征表示按文章顺序输入双向双层LSTM，输出隐层序列，并利用最大池化层得到池化后的向量作为全文的特征表示；三、构建序列预测模型架构；四、构建分段联合序列预测摘要模型；五、构建编码器解码器模型；六、构建加入强化学习机制的编码器解码器联合训练模型；七、使用模型融合方法生成文本摘要。本发明用于抽取式文本摘要领域。

Description

一种基于多模型融合的抽取式文本摘要生成方法

技术领域

本发明涉及抽取式文本摘要生成方法。

背景技术

随着近几年文本信息的爆发式增长，人们每天能接触到海量的文本信息，如新闻、会议、博客、聊天、报告、论文、微博等。目前现有的长文本摘要等总结性工作如工作会议记录和总结等，大多数都由人工完成。这一工作也大大损耗了劳动者的时间和人力。因此，从大量文本信息中提取重要的内容，也变得越来越重要，自动文本摘要这门可以使用户更加快速准确的获取信息的技术也因此应运而生。从大量文本信息中提取重要的内容，已成为我们的一个迫切需求，而自动文本摘要(automatic text summarization)则提供了一个高效的解决方案。自动文本摘要技术对文档信息进行有效的压缩提炼，帮助用户从海量信息中检索出所需的相关信息，避免通过搜索引擎来检索可能产生过多冗余片面信息的问题，有效地解决了信息过载的问题。

国外抽取式摘要研究现状中有：ACL19中，Bouscarrat等人提出利用句子嵌入空间中的语义信息以计算有效的方式提取摘要。ACL18中，Jadhav、Rajan等人直接使用Seq2Seq模型来交替生成词语和句子的索引序列来完成抽取式摘要任务。在解码的每一步，先计算一个该步该生成词语还是句子。最后解码出词语和句子的混合序列。最终摘要由本身概率高且包含了生成词语的句子。NAACL18中，Narayan等人提出模型REFRESH，其将摘要抽取作为一种句子排序工作并加入强化学习进行训练。这篇工作没有采用交叉熵Cross-entropy作为目标函数，而是使用强化学习引入ROUGE作为奖励，使用强化学习的方法进行参数更新。AAAI17中，Nallapati等人提出序列标注模型SummaRuNNer。其使用双向GRU分别建模词语级别和句子级别的表示，对于每一个句子表示有一个0、1标签的输出，指示其是否是摘要。EMNLP17中，Isonuma等人提出结合文档分类任务来辅助完成抽取式摘要任务，模型采用Encoder-Decoder框架，在Decoder每一步预测一个代表该句是否是摘要句的概率。其核心想法在于将文档的主题也可以作为一种摘要，能够预测出文章的主题可以说明模型具备了抽取与主题相关句的能力。因此使用文档分类任务和句子抽取任务相互辅助，提高模型抽取关键句的能力。

国内抽取式摘要研究现状中有：ACL19中，Zhang等人[12]提出使用一个Hierachical Transformer(句子级别的Transformer和文章级别的Transformer)来完成抽取式摘要。ACL19中，Wang等人提出一种以自监督的方式训练抽取模型的方法。它允许更快地训练并获得CNN/DM的轻微改进。所提出的方法还可以以自监督的方式导致更长的文本表示。EMNLP18中，Zhang等人提出在序列标注的基础上使用Seq2Seq学习一个句子压缩模型，使用该模型来衡量选择句子的好坏，并结合强化学习完成模型训练的方法。ACL18中，Zhou等人提出模型NeuSUM，使用句子受益作为打分方式，考虑到了句子之间的相互关系。其句子编码部分与之前基本相同，单向GRU用于记录过去抽取句子的情况，双层MLP用于打分。最后选择最大化收益的句子，直到无法满足该条件或者达到停止条件为止。

以上国际顶会中提及的前沿摘要方法种类繁多但目标相同，不同的模型方法能够学到不同的信息，但可能在各自的方法中能够学习到不同的侧重，因此本发明提出一种基于多模型融合的抽取式文本摘要生成方法。

发明内容

本发明的目的是为了解决现有的单一抽取式摘要无法学习到摘要文本的全部重要信息，导致摘要抽取准确率及召回率低的问题，而提出一种基于多模型融合的抽取式文本摘要生成方法。

一种基于多模型融合的抽取式文本摘要生成方法具体过程为：

步骤一、使用wiki中文词向量得到全文中所有词的词向量x_t，将每个句子内所有词的词向量输入双向双层的LSTM模型，输出全文中的每一个句子的特征表示O_t；

步骤二、将步骤一得到的全文中的每一个句子的特征表示O_t按文章顺序输入双向双层的LSTM模型，输出隐层序列

并根据隐层序列

利用最大池化层得到池化后的向量doc作为全文的特征表示；

步骤三、构建序列预测模型架构；

步骤四、基于步骤三构建的序列预测模型架构，构建分段联合预测摘要模型；

步骤五、构建编码器解码器模型；

步骤六、基于步骤五构建的编码器解码器模型使用强化学习进行联合训练，得到训练好的编码器解码器模型；

步骤七、将步骤四构建的分段联合预测摘要模型与步骤五构建的编码器解码器模型融合，生成文本摘要。

本发明的有益效果为：

本发明一种基于多模型融合的抽取式摘要生成方法，通过训练多种不同架构的模型并引入模型融合方法，让模型能够更好的读懂文章并更加准确的完成摘要抽取任务，使模型在生成摘要时，综合考虑了多方面的信息，避免单一模型的偏见性。

本方法的目的在抽取式摘要生成任务上，改进单一模型在预测时，无法全面考虑文章信息、数据等，导致预测结果不理想的情况，而提出的一种基于多模型融合的抽取式摘要生成方法，即融合多种不同架构的模型进行摘要抽取任务的训练，然后使用多专家模型对每一句子是否被抽出进行综合考虑，最后选出可以组成摘要句的句子序列，提高了文本摘要抽取的精准率与召回率。

本发明提出了利用分段联合训练提升序列预测模型效果、利用强化学习提升编码器解码器模型、最后利用多专家模型对序列预测模型和编码器解码器模型进行融合，提升最终抽取式模型摘要效果。本发明提出的方式在序列预测模型以及编码器解码器模型模型上都进行了实验。该方法在讯飞提供的大规模会议数据集上进行了实验，生成的摘要结果和事实类指标上都证明了提出的方法的有效性，且均优于目前本任务下已得到的所有单一模型的效果。

事实类指标为准确率ACC、精准率P、召回率R、二者调和值F1、接受者操作特性曲线下面积AUC、基于召回率的相似性度量方法ROUGE值。

附图说明

图1为本发明流程图；

图2为本发明模型一操作流程图；

图3为本发明模型二操作流程图。

具体实施方式

具体实施方式一：本实施方式一种基于多模型融合的抽取式文本摘要生成方法具体过程为：

并根据隐层序列

利用最大池化层(MaxPooling)得到池化后的向量doc作为全文的特征表示(隐层序列

中的每一个隐层都表示进行全文建模后的包含了上下文的单个句子信息，隐层序列池化后得到该文章的总体表示)；

步骤三、构建序列预测模型架构；

步骤五、构建编码器解码器模型；

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二中将步骤一得到的全文中的每一个句子的特征表示O_t按文章顺序输入双向双层的LSTM模型，输出隐层序列

并根据隐层序列

中的每一个隐层都表示进行全文建模后的包含了上下文的单个句子信息，隐层序列池化后得到该文章的总体表示)；表达式为：

式中，

表示一篇文章中进行全文建模后的包含了上下文的全部的单个句子信息，len表示文章长度，即句子个数；通过MaxPooling，得到该文章的总体表示；MaxPooling为最大池化。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤三中构建序列预测模型架构；具体过程为：

基于步骤二得到的全文的特征表示和步骤一得到的句子的特征表示按照文章内的句子序列顺序计算每个句子的内容相关度h_j ^TW_sdoc、独特性W_ch_j、新颖性-h_j ^TW_rtanh(O_j)等信息；

然后使用sigmoid函数作为二分类器，得到句子的0-1之间的概率，将句子的概率值从高到低进行排序，抽取前k个句子为摘要，(或者设置阈值，取句子的概率值大于阈值的句子为摘要)；

P(y_j＝1|O_j,h_j,doc)＝sigmoid(W_ch_j+h_j ^TW_sdoc-h_j ^TW_rtanh(O_j)+b)

式中，h_j为步骤二得到的时刻j的隐藏层输出，h_j ^T为h_j的转置，doc为步骤二得到的全文的特征表示，W_s、W_c、W_r为训练参数，O_j为步骤一得到的第j个句子的句子特征表示，b为偏置参数；y_j为0或1值为标准摘要，代表每个句子是否被抽成摘要，是为1，否为0；

训练时使用交叉熵损失函数；

W_ch_j为计算当前隐层的内容信息，h_j ^TW_sdoc为计算当前隐层信息与整篇文章的相关度，h_j ^TW_rtanh(O_j)为计算当前句子与当前隐层所含信息的重叠性，为负值是为了保证抽出的句子具有新颖性；

P(y_j＝1|O_j,h_j,doc)是每个句子是否被抽取的概率值做为摘要抽取模型的输出；y_j为0或1值为标准摘要，代表每个句子是否被抽成摘要，是为1，否为0；loss1为摘要抽取模型的输出与标准摘要序列0或1值计算得到的交叉熵损失。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤四中基于步骤三构建的序列预测模型架构，构建分段联合预测摘要模型；具体过程为：

该步骤操作为步骤三的序列预测模型架构加入分段预测联合训练方式，力求得到更好的摘要模型。

将步骤二得到的隐层序列

通过双向单层LSTM得到隐层表示，然后将隐层通过一层带有偏置的全连接层和一个sigmoid函数，得到对于每个句子的0-1之间概率值(接近1作为全文每个段落的首句，接近0不作为全文每个段落的首句，作为该句子是否是每个段落的首句)；

训练时使用交叉熵损失函数，

叠加步骤三的损失共同计算梯度；

loss3＝a loss1+(1-a)loss2

式中，a为损失函数的权重比例；

P(z_j＝1|O_j)是每个句子是否是文章段落首句的概率值；z_j代表每个句子是否是文章段落首句的真实值，是为1，否为0；loss2为分段预测模型的输出与标准段落序列0或1值计算得到的交叉熵损失，loss3为loss1和loss2的加权求和；

设置训练轮次为20，每一轮次在开发集上进行测试，选出开发集上F1值最高的分段联合预测摘要模型作为训练好的模型。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤五中构建编码器解码器模型；具体过程为：

基于步骤一的双向双层的LSTM、步骤二的双向双层的LSTM模型构成编码器，基于单向单层的GRU模型构成解码器，将步骤二得到的全文的特征表示doc作为解码器的隐层的初始化，将步骤一得到的句子的特征表示O_t按照时间顺序或逆序作为解码器的输入，输出隐层序列sent_out，将该隐层序列中的隐层分别与步骤二得到的隐层序列

中相应隐层进行拼接(比如步骤二的隐层序列1、2、3、4、5、6、7中的3和步骤五得到的隐层序列1、2、3、4、5、6、7中的3相叠加)，得到拼接后的隐层序列，将拼接后的隐层序列输入多层感知机MLP，多层感知机MLP输出作为sigmoid函数的输入，得到句子的0-1之间的概率值；

公式如下：

式中，sent_out_t为解码的时刻t时生成的隐层，MLP为多层感知机，

为编码器端第t-1个句子编码得到的隐层(使用上一时刻的隐层，是为了更好的结合上文判断当前时刻的句子的重要性)，sigmoid为二分类器函数，p为最后得到的0-1之间概率(是否被抽取成摘要的概率)；

编码器解码器模型使用交叉熵损失函数：

式中，

是每个句子是否被抽取的概率值做为摘要抽取模型的输出，y_j为0或1值为标准摘要，代表每个句子是否被抽成摘要，是为1，否为0；loss4为摘要抽取模型的输出与标准摘要序列0、1值计算得到的交叉熵损失。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述步骤六中基于步骤五构建的编码器解码器模型使用强化学习进行联合训练，得到训练好的编码器解码器模型；具体过程为：

在以上模型中，得到每个句子的概率之后，选择哪些句子作为摘要的方法我们采用阈值法，即概率值大于某个阈值的句子要被抽取出作为摘要。在训练过程中，我们希望摘要句的概率趋向于1，非摘要句的概率趋向于0；但在测试过程中，我们希望摘要句的概率大于阈值，非摘要句的概率低于阈值，这就出现了训练测试不统一的问题。因此我们在此编码器解码器模型基础上加入了强化学习，辅助编码器解码器模型学到这两种信息。

具体过程为：

将步骤五得到句子的0-1之间的概率序列，N次使用伯努利采样函数，根据概率来采样0或1的值，得到N个随机采样之后的0或1的离散值序列，在其中选择出F1值(采样之后的0或1序列与标准的0或1序列计算的F1值)最高的序列(此处必须高于采样之前的句子概率序列，否则继续采样)，将此序列与步骤五得到的句子的0-1的概率值序列计算交叉熵损失函数loss5，叠加步骤五得到的交叉熵损失函数loss4，得到叠加后的交叉熵损失函数loss6，计算叠加后的交叉熵损失loss6的梯度，然后更新步骤五的编码器解码器模型的参数；

loss6＝βloss5+(1-β)loss4

式中，β是为损失函数的权重比例；

设置训练轮次为20，每一轮次在开发集上进行测试，选出开发集上F1值最高的模型作为训练好的编码器解码器模型。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述步骤七中将步骤四构建的分段联合预测摘要模型与步骤五构建的编码器解码器模型融合，生成文本摘要；具体过程为：

在预测摘要的时候，使用上述训练好的步骤四分段联合预测摘要模型与步骤五编码器解码器模型进行摘要句的预测选择。

将步骤四得到的概率值序列和步骤五得到的句子0-1之间概率值序列进行加权求和，得到句子的最终概率值；

将句子的最终概率值从高到低进行排序，抽取前k个句子为摘要，(或者设置阈值，取句子的概率值大于阈值的句子为摘要)。

其它步骤及参数与具体实施方式一至六之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例一，具体是按照以下步骤制备的：

搭建模型一(序列预测模型)，利用现有数据，在模型一上进行该方法的验证：

模型一方法如图2所示。

搭建模型二(编码解码预测模型)，利用现有数据，在模型二上进行该方法的验证：

模型二方法如图3所示。

然后在进行融合之后的模型上进行该方法的验证，在评价指标ACC、F1值以及AUC等事实类评价指标上，本发明取得了优于单个模型的结果，证明了本方法的有效性。

本发明的基于模型融合的抽取式摘要方法，和单个模型相比，在指标F1值以及AUC上均得到了提升，达到了本数据集上最好的效果。

F1值表示召回率r与精准率p的调和值，值越高表示抽取的摘要越准确；AUC表示由TPR与FPR组成的ROC曲线所覆盖的区域面积，值越高表示抽取的摘要越准确。TPR＝TP/(TP+FN)描述的是所有正例模型能够发现多少，即召回率。FPR＝FP/(FP+TN)描述的是所有负例中模型预测错误的比，ROC曲线由两个变量FPR和TPR绘制得到。ROUGE值表示基于召回率的相似性度量方法，比较候选答案和参***里的n-gram重合程度，重合程度越高就认为模型生成质量越好。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于多模型融合的抽取式文本摘要生成方法，其特征在于：所述方法具体过程为：

并根据隐层序列

利用最大池化层得到池化后的向量doc作为全文的特征表示；

步骤三、构建序列预测模型架构；

步骤五、构建编码器解码器模型；

2.根据权利要求1所述一种基于多模型融合的抽取式文本摘要生成方法，其特征在于：所述步骤二中将步骤一得到的全文中的每一个句子的特征表示O_t按文章顺序输入双向双层的LSTM模型，输出隐层序列

并根据隐层序列

利用最大池化层得到池化后的向量doc作为全文的特征表示；表达式为：

式中，

表示一篇文章中进行全文建模后的包含了上下文的全部的单个句子信息，len表示文章长度，即句子个数；MaxPooling为最大池化。

3.根据权利要求1或2所述一种基于多模型融合的抽取式文本摘要生成方法，其特征在于：所述步骤三中构建序列预测模型架构；具体过程为：

基于步骤二得到的全文的特征表示和步骤一得到的句子的特征表示按照文章内的句子序列顺序计算每个句子的内容相关度h_j ^TW_sdoc、独特性W_ch_j、新颖性-h_j ^TW_rtanh(O_j)信息；

然后使用sigmoid函数作为二分类器，得到句子的0-1之间的概率，将句子的概率值从高到低进行排序，抽取前k个句子为摘要；

P(y_j＝1|O_j,h_j,doc)＝sigmoid(W_ch_j+h_j ^TW_sdoc-h_j ^TW_rtanh(O_j)+b)

训练时使用交叉熵损失函数；

4.根据权利要求3所述一种基于多模型融合的抽取式文本摘要生成方法，其特征在于：所述步骤四中基于步骤三构建的序列预测模型架构，构建分段联合预测摘要模型；具体过程为：

将步骤二得到的隐层序列

通过双向单层LSTM得到隐层表示，然后将隐层通过一层带有偏置的全连接层和一个sigmoid函数，得到对于每个句子的0-1之间概率值；

训练时使用交叉熵损失函数，

叠加步骤三的损失共同计算梯度；

loss3＝a loss1+(1-a)loss2

式中，a为损失函数的权重比例；

5.根据权利要求4所述一种基于多模型融合的抽取式文本摘要生成方法，其特征在于：所述步骤五中构建编码器解码器模型；具体过程为：

中相应隐层进行拼接，得到拼接后的隐层序列，将拼接后的隐层序列输入多层感知机MLP，多层感知机MLP输出作为sigmoid函数的输入，得到句子的0-1之间的概率值；

编码器解码器模型使用交叉熵损失函数：

式中，

6.根据权利要求5所述一种基于多模型融合的抽取式文本摘要生成方法，其特征在于：所述步骤六中基于步骤五构建的编码器解码器模型使用强化学习进行联合训练，得到训练好的编码器解码器模型；具体过程为：

将步骤五得到句子的0-1之间的概率序列，N次使用伯努利采样函数，根据概率来采样0或1的值，得到N个随机采样之后的0或1的离散值序列，在其中选择出F1值最高的序列，将此序列与步骤五得到的句子的0-1的概率值序列计算交叉熵损失函数loss5，叠加步骤五得到的交叉熵损失函数loss4，得到叠加后的交叉熵损失函数loss6，计算叠加后的交叉熵损失loss6的梯度，然后更新步骤五的编码器解码器模型的参数；

loss6＝βloss5+(1-β)loss4

式中，β是为损失函数的权重比例；

7.根据权利要求6所述一种基于多模型融合的抽取式文本摘要生成方法，其特征在于：所述步骤七中将步骤四构建的分段联合预测摘要模型与步骤五构建的编码器解码器模型融合，生成文本摘要；具体过程为：

将句子的最终概率值从高到低进行排序，抽取前k个句子为摘要。