CN110929024A - 一种基于多模型融合的抽取式文本摘要生成方法 - Google Patents

一种基于多模型融合的抽取式文本摘要生成方法 Download PDF

Info

Publication number
CN110929024A
CN110929024A CN201911262119.5A CN201911262119A CN110929024A CN 110929024 A CN110929024 A CN 110929024A CN 201911262119 A CN201911262119 A CN 201911262119A CN 110929024 A CN110929024 A CN 110929024A
Authority
CN
China
Prior art keywords
model
sentence
abstract
sequence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911262119.5A
Other languages
English (en)
Other versions
CN110929024B (zh
Inventor
冯骁骋
秦兵
刘挺
孙卓
孔常青
高建清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201911262119.5A priority Critical patent/CN110929024B/zh
Publication of CN110929024A publication Critical patent/CN110929024A/zh
Application granted granted Critical
Publication of CN110929024B publication Critical patent/CN110929024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于多模型融合的抽取式文本摘要生成方法,本发明涉及抽取式文本摘要生成方法。本发明的目的是为了解决现有的单一的抽取式模型无法学习到摘要文本的全部重要信息,导致摘要抽取准确率及召回率低的问题。过程为:一、将每个句子的词向量输入双向双层LSTM,输出全文中的每一个句子的特征表示;二、将句子的特征表示按文章顺序输入双向双层LSTM,输出隐层序列,并利用最大池化层得到池化后的向量作为全文的特征表示;三、构建序列预测模型架构;四、构建分段联合序列预测摘要模型;五、构建编码器解码器模型;六、构建加入强化学习机制的编码器解码器联合训练模型;七、使用模型融合方法生成文本摘要。本发明用于抽取式文本摘要领域。

Description

一种基于多模型融合的抽取式文本摘要生成方法
技术领域
本发明涉及抽取式文本摘要生成方法。
背景技术
随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、会议、博客、聊天、报告、论文、微博等。目前现有的长文本摘要等总结性工作如工作会议记录和总结等,大多数都由人工完成。这一工作也大大损耗了劳动者的时间和人力。因此,从大量文本信息中提取重要的内容,也变得越来越重要,自动文本摘要这门可以使用户更加快速准确的获取信息的技术也因此应运而生。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(automatic text summarization)则提供了一个高效的解决方案。自动文本摘要技术对文档信息进行有效的压缩提炼,帮助用户从海量信息中检索出所需的相关信息,避免通过搜索引擎来检索可能产生过多冗余片面信息的问题,有效地解决了信息过载的问题。
国外抽取式摘要研究现状中有:ACL19中,Bouscarrat等人提出利用句子嵌入空间中的语义信息以计算有效的方式提取摘要。ACL18中,Jadhav、Rajan等人直接使用Seq2Seq模型来交替生成词语和句子的索引序列来完成抽取式摘要任务。在解码的每一步,先计算一个该步该生成词语还是句子。最后解码出词语和句子的混合序列。最终摘要由本身概率高且包含了生成词语的句子。NAACL18中,Narayan等人提出模型REFRESH,其将摘要抽取作为一种句子排序工作并加入强化学习进行训练。这篇工作没有采用交叉熵Cross-entropy作为目标函数,而是使用强化学习引入ROUGE作为奖励,使用强化学习的方法进行参数更新。AAAI17中,Nallapati等人提出序列标注模型SummaRuNNer。其使用双向GRU分别建模词语级别和句子级别的表示,对于每一个句子表示有一个0、1标签的输出,指示其是否是摘要。EMNLP17中,Isonuma等人提出结合文档分类任务来辅助完成抽取式摘要任务,模型采用Encoder-Decoder框架,在Decoder每一步预测一个代表该句是否是摘要句的概率。其核心想法在于将文档的主题也可以作为一种摘要,能够预测出文章的主题可以说明模型具备了抽取与主题相关句的能力。因此使用文档分类任务和句子抽取任务相互辅助,提高模型抽取关键句的能力。
国内抽取式摘要研究现状中有:ACL19中,Zhang等人[12]提出使用一个Hierachical Transformer(句子级别的Transformer和文章级别的Transformer)来完成抽取式摘要。ACL19中,Wang等人提出一种以自监督的方式训练抽取模型的方法。它允许更快地训练并获得CNN/DM的轻微改进。所提出的方法还可以以自监督的方式导致更长的文本表示。EMNLP18中,Zhang等人提出在序列标注的基础上使用Seq2Seq学习一个句子压缩模型,使用该模型来衡量选择句子的好坏,并结合强化学习完成模型训练的方法。ACL18中,Zhou等人提出模型NeuSUM,使用句子受益作为打分方式,考虑到了句子之间的相互关系。其句子编码部分与之前基本相同,单向GRU用于记录过去抽取句子的情况,双层MLP用于打分。最后选择最大化收益的句子,直到无法满足该条件或者达到停止条件为止。
以上国际顶会中提及的前沿摘要方法种类繁多但目标相同,不同的模型方法能够学到不同的信息,但可能在各自的方法中能够学习到不同的侧重,因此本发明提出一种基于多模型融合的抽取式文本摘要生成方法。
发明内容
本发明的目的是为了解决现有的单一抽取式摘要无法学习到摘要文本的全部重要信息,导致摘要抽取准确率及召回率低的问题,而提出一种基于多模型融合的抽取式文本摘要生成方法。
一种基于多模型融合的抽取式文本摘要生成方法具体过程为:
步骤一、使用wiki中文词向量得到全文中所有词的词向量xt,将每个句子内所有词的词向量输入双向双层的LSTM模型,输出全文中的每一个句子的特征表示Ot
步骤二、将步骤一得到的全文中的每一个句子的特征表示Ot按文章顺序输入双向双层的LSTM模型,输出隐层序列
Figure BDA0002311852690000021
并根据隐层序列
Figure BDA0002311852690000022
利用最大池化层得到池化后的向量doc作为全文的特征表示;
步骤三、构建序列预测模型架构;
步骤四、基于步骤三构建的序列预测模型架构,构建分段联合预测摘要模型;
步骤五、构建编码器解码器模型;
步骤六、基于步骤五构建的编码器解码器模型使用强化学习进行联合训练,得到训练好的编码器解码器模型;
步骤七、将步骤四构建的分段联合预测摘要模型与步骤五构建的编码器解码器模型融合,生成文本摘要。
本发明的有益效果为:
本发明一种基于多模型融合的抽取式摘要生成方法,通过训练多种不同架构的模型并引入模型融合方法,让模型能够更好的读懂文章并更加准确的完成摘要抽取任务,使模型在生成摘要时,综合考虑了多方面的信息,避免单一模型的偏见性。
本方法的目的在抽取式摘要生成任务上,改进单一模型在预测时,无法全面考虑文章信息、数据等,导致预测结果不理想的情况,而提出的一种基于多模型融合的抽取式摘要生成方法,即融合多种不同架构的模型进行摘要抽取任务的训练,然后使用多专家模型对每一句子是否被抽出进行综合考虑,最后选出可以组成摘要句的句子序列,提高了文本摘要抽取的精准率与召回率。
本发明提出了利用分段联合训练提升序列预测模型效果、利用强化学习提升编码器解码器模型、最后利用多专家模型对序列预测模型和编码器解码器模型进行融合,提升最终抽取式模型摘要效果。本发明提出的方式在序列预测模型以及编码器解码器模型模型上都进行了实验。该方法在讯飞提供的大规模会议数据集上进行了实验,生成的摘要结果和事实类指标上都证明了提出的方法的有效性,且均优于目前本任务下已得到的所有单一模型的效果。
事实类指标为准确率ACC、精准率P、召回率R、二者调和值F1、接受者操作特性曲线下面积AUC、基于召回率的相似性度量方法ROUGE值。
附图说明
图1为本发明流程图;
图2为本发明模型一操作流程图;
图3为本发明模型二操作流程图。
具体实施方式
具体实施方式一:本实施方式一种基于多模型融合的抽取式文本摘要生成方法具体过程为:
步骤一、使用wiki中文词向量得到全文中所有词的词向量xt,将每个句子内所有词的词向量输入双向双层的LSTM模型,输出全文中的每一个句子的特征表示Ot
步骤二、将步骤一得到的全文中的每一个句子的特征表示Ot按文章顺序输入双向双层的LSTM模型,输出隐层序列
Figure BDA0002311852690000031
并根据隐层序列
Figure BDA0002311852690000032
利用最大池化层(MaxPooling)得到池化后的向量doc作为全文的特征表示(隐层序列
Figure BDA0002311852690000033
中的每一个隐层都表示进行全文建模后的包含了上下文的单个句子信息,隐层序列池化后得到该文章的总体表示);
步骤三、构建序列预测模型架构;
步骤四、基于步骤三构建的序列预测模型架构,构建分段联合预测摘要模型;
步骤五、构建编码器解码器模型;
步骤六、基于步骤五构建的编码器解码器模型使用强化学习进行联合训练,得到训练好的编码器解码器模型;
步骤七、将步骤四构建的分段联合预测摘要模型与步骤五构建的编码器解码器模型融合,生成文本摘要。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤二中将步骤一得到的全文中的每一个句子的特征表示Ot按文章顺序输入双向双层的LSTM模型,输出隐层序列
Figure BDA0002311852690000041
并根据隐层序列
Figure BDA0002311852690000042
利用最大池化层(MaxPooling)得到池化后的向量doc作为全文的特征表示(隐层序列
Figure BDA0002311852690000043
中的每一个隐层都表示进行全文建模后的包含了上下文的单个句子信息,隐层序列池化后得到该文章的总体表示);表达式为:
Figure BDA0002311852690000044
式中,
Figure BDA0002311852690000045
表示一篇文章中进行全文建模后的包含了上下文的全部的单个句子信息,len表示文章长度,即句子个数;通过MaxPooling,得到该文章的总体表示;MaxPooling为最大池化。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤三中构建序列预测模型架构;具体过程为:
基于步骤二得到的全文的特征表示和步骤一得到的句子的特征表示按照文章内的句子序列顺序计算每个句子的内容相关度hj TWsdoc、独特性Wchj、新颖性-hj TWrtanh(Oj)等信息;
然后使用sigmoid函数作为二分类器,得到句子的0-1之间的概率,将句子的概率值从高到低进行排序,抽取前k个句子为摘要,(或者设置阈值,取句子的概率值大于阈值的句子为摘要);
P(yj=1|Oj,hj,doc)=sigmoid(Wchj+hj TWsdoc-hj TWrtanh(Oj)+b)
式中,hj为步骤二得到的时刻j的隐藏层输出,hj T为hj的转置,doc为步骤二得到的全文的特征表示,Ws、Wc、Wr为训练参数,Oj为步骤一得到的第j个句子的句子特征表示,b为偏置参数;yj为0或1值为标准摘要,代表每个句子是否被抽成摘要,是为1,否为0;
训练时使用交叉熵损失函数;
Figure BDA0002311852690000051
Wchj为计算当前隐层的内容信息,hj TWsdoc为计算当前隐层信息与整篇文章的相关度,hj TWrtanh(Oj)为计算当前句子与当前隐层所含信息的重叠性,为负值是为了保证抽出的句子具有新颖性;
P(yj=1|Oj,hj,doc)是每个句子是否被抽取的概率值做为摘要抽取模型的输出;yj为0或1值为标准摘要,代表每个句子是否被抽成摘要,是为1,否为0;loss1为摘要抽取模型的输出与标准摘要序列0或1值计算得到的交叉熵损失。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤四中基于步骤三构建的序列预测模型架构,构建分段联合预测摘要模型;具体过程为:
该步骤操作为步骤三的序列预测模型架构加入分段预测联合训练方式,力求得到更好的摘要模型。
将步骤二得到的隐层序列
Figure BDA0002311852690000052
通过双向单层LSTM得到隐层表示,然后将隐层通过一层带有偏置的全连接层和一个sigmoid函数,得到对于每个句子的0-1之间概率值(接近1作为全文每个段落的首句,接近0不作为全文每个段落的首句,作为该句子是否是每个段落的首句);
训练时使用交叉熵损失函数,
Figure BDA0002311852690000053
叠加步骤三的损失共同计算梯度;
loss3=a loss1+(1-a)loss2
式中,a为损失函数的权重比例;
P(zj=1|Oj)是每个句子是否是文章段落首句的概率值;zj代表每个句子是否是文章段落首句的真实值,是为1,否为0;loss2为分段预测模型的输出与标准段落序列0或1值计算得到的交叉熵损失,loss3为loss1和loss2的加权求和;
设置训练轮次为20,每一轮次在开发集上进行测试,选出开发集上F1值最高的分段联合预测摘要模型作为训练好的模型。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤五中构建编码器解码器模型;具体过程为:
基于步骤一的双向双层的LSTM、步骤二的双向双层的LSTM模型构成编码器,基于单向单层的GRU模型构成解码器,将步骤二得到的全文的特征表示doc作为解码器的隐层的初始化,将步骤一得到的句子的特征表示Ot按照时间顺序或逆序作为解码器的输入,输出隐层序列sent_out,将该隐层序列中的隐层分别与步骤二得到的隐层序列
Figure BDA0002311852690000061
中相应隐层进行拼接(比如步骤二的隐层序列1、2、3、4、5、6、7中的3和步骤五得到的隐层序列1、2、3、4、5、6、7中的3相叠加),得到拼接后的隐层序列,将拼接后的隐层序列输入多层感知机MLP,多层感知机MLP输出作为sigmoid函数的输入,得到句子的0-1之间的概率值;
公式如下:
Figure BDA0002311852690000062
式中,sent_outt为解码的时刻t时生成的隐层,MLP为多层感知机,
Figure BDA0002311852690000063
为编码器端第t-1个句子编码得到的隐层(使用上一时刻的隐层,是为了更好的结合上文判断当前时刻的句子的重要性),sigmoid为二分类器函数,p为最后得到的0-1之间概率(是否被抽取成摘要的概率);
编码器解码器模型使用交叉熵损失函数:
Figure BDA0002311852690000064
式中,
Figure BDA0002311852690000065
是每个句子是否被抽取的概率值做为摘要抽取模型的输出,yj为0或1值为标准摘要,代表每个句子是否被抽成摘要,是为1,否为0;loss4为摘要抽取模型的输出与标准摘要序列0、1值计算得到的交叉熵损失。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤六中基于步骤五构建的编码器解码器模型使用强化学习进行联合训练,得到训练好的编码器解码器模型;具体过程为:
在以上模型中,得到每个句子的概率之后,选择哪些句子作为摘要的方法我们采用阈值法,即概率值大于某个阈值的句子要被抽取出作为摘要。在训练过程中,我们希望摘要句的概率趋向于1,非摘要句的概率趋向于0;但在测试过程中,我们希望摘要句的概率大于阈值,非摘要句的概率低于阈值,这就出现了训练测试不统一的问题。因此我们在此编码器解码器模型基础上加入了强化学习,辅助编码器解码器模型学到这两种信息。
具体过程为:
将步骤五得到句子的0-1之间的概率序列,N次使用伯努利采样函数,根据概率来采样0或1的值,得到N个随机采样之后的0或1的离散值序列,在其中选择出F1值(采样之后的0或1序列与标准的0或1序列计算的F1值)最高的序列(此处必须高于采样之前的句子概率序列,否则继续采样),将此序列与步骤五得到的句子的0-1的概率值序列计算交叉熵损失函数loss5,叠加步骤五得到的交叉熵损失函数loss4,得到叠加后的交叉熵损失函数loss6,计算叠加后的交叉熵损失loss6的梯度,然后更新步骤五的编码器解码器模型的参数;
loss6=βloss5+(1-β)loss4
式中,β是为损失函数的权重比例;
设置训练轮次为20,每一轮次在开发集上进行测试,选出开发集上F1值最高的模型作为训练好的编码器解码器模型。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述步骤七中将步骤四构建的分段联合预测摘要模型与步骤五构建的编码器解码器模型融合,生成文本摘要;具体过程为:
在预测摘要的时候,使用上述训练好的步骤四分段联合预测摘要模型与步骤五编码器解码器模型进行摘要句的预测选择。
将步骤四得到的概率值序列和步骤五得到的句子0-1之间概率值序列进行加权求和,得到句子的最终概率值;
将句子的最终概率值从高到低进行排序,抽取前k个句子为摘要,(或者设置阈值,取句子的概率值大于阈值的句子为摘要)。
其它步骤及参数与具体实施方式一至六之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本实施例一,具体是按照以下步骤制备的:
搭建模型一(序列预测模型),利用现有数据,在模型一上进行该方法的验证:
模型一方法如图2所示。
搭建模型二(编码解码预测模型),利用现有数据,在模型二上进行该方法的验证:
模型二方法如图3所示。
然后在进行融合之后的模型上进行该方法的验证,在评价指标ACC、F1值以及AUC等事实类评价指标上,本发明取得了优于单个模型的结果,证明了本方法的有效性。
本发明的基于模型融合的抽取式摘要方法,和单个模型相比,在指标F1值以及AUC上均得到了提升,达到了本数据集上最好的效果。
F1值表示召回率r与精准率p的调和值,值越高表示抽取的摘要越准确;AUC表示由TPR与FPR组成的ROC曲线所覆盖的区域面积,值越高表示抽取的摘要越准确。TPR=TP/(TP+FN)描述的是所有正例模型能够发现多少,即召回率。FPR=FP/(FP+TN)描述的是所有负例中模型预测错误的比,ROC曲线由两个变量FPR和TPR绘制得到。ROUGE值表示基于召回率的相似性度量方法,比较候选答案和参***里的n-gram重合程度,重合程度越高就认为模型生成质量越好。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (7)

1.一种基于多模型融合的抽取式文本摘要生成方法,其特征在于:所述方法具体过程为:
步骤一、使用wiki中文词向量得到全文中所有词的词向量xt,将每个句子内所有词的词向量输入双向双层的LSTM模型,输出全文中的每一个句子的特征表示Ot
步骤二、将步骤一得到的全文中的每一个句子的特征表示Ot按文章顺序输入双向双层的LSTM模型,输出隐层序列
Figure FDA0002311852680000011
并根据隐层序列
Figure FDA0002311852680000012
利用最大池化层得到池化后的向量doc作为全文的特征表示;
步骤三、构建序列预测模型架构;
步骤四、基于步骤三构建的序列预测模型架构,构建分段联合预测摘要模型;
步骤五、构建编码器解码器模型;
步骤六、基于步骤五构建的编码器解码器模型使用强化学习进行联合训练,得到训练好的编码器解码器模型;
步骤七、将步骤四构建的分段联合预测摘要模型与步骤五构建的编码器解码器模型融合,生成文本摘要。
2.根据权利要求1所述一种基于多模型融合的抽取式文本摘要生成方法,其特征在于:所述步骤二中将步骤一得到的全文中的每一个句子的特征表示Ot按文章顺序输入双向双层的LSTM模型,输出隐层序列
Figure FDA0002311852680000013
并根据隐层序列
Figure FDA0002311852680000014
利用最大池化层得到池化后的向量doc作为全文的特征表示;表达式为:
Figure FDA0002311852680000015
式中,
Figure FDA0002311852680000016
表示一篇文章中进行全文建模后的包含了上下文的全部的单个句子信息,len表示文章长度,即句子个数;MaxPooling为最大池化。
3.根据权利要求1或2所述一种基于多模型融合的抽取式文本摘要生成方法,其特征在于:所述步骤三中构建序列预测模型架构;具体过程为:
基于步骤二得到的全文的特征表示和步骤一得到的句子的特征表示按照文章内的句子序列顺序计算每个句子的内容相关度hj TWsdoc、独特性Wchj、新颖性-hj TWrtanh(Oj)信息;
然后使用sigmoid函数作为二分类器,得到句子的0-1之间的概率,将句子的概率值从高到低进行排序,抽取前k个句子为摘要;
P(yj=1|Oj,hj,doc)=sigmoid(Wchj+hj TWsdoc-hj TWrtanh(Oj)+b)
式中,hj为步骤二得到的时刻j的隐藏层输出,hj T为hj的转置,doc为步骤二得到的全文的特征表示,Ws、Wc、Wr为训练参数,Oj为步骤一得到的第j个句子的句子特征表示,b为偏置参数;yj为0或1值为标准摘要,代表每个句子是否被抽成摘要,是为1,否为0;
训练时使用交叉熵损失函数;
Figure FDA0002311852680000021
P(yj=1|Oj,hj,doc)是每个句子是否被抽取的概率值做为摘要抽取模型的输出;yj为0或1值为标准摘要,代表每个句子是否被抽成摘要,是为1,否为0;loss1为摘要抽取模型的输出与标准摘要序列0或1值计算得到的交叉熵损失。
4.根据权利要求3所述一种基于多模型融合的抽取式文本摘要生成方法,其特征在于:所述步骤四中基于步骤三构建的序列预测模型架构,构建分段联合预测摘要模型;具体过程为:
将步骤二得到的隐层序列
Figure FDA0002311852680000022
通过双向单层LSTM得到隐层表示,然后将隐层通过一层带有偏置的全连接层和一个sigmoid函数,得到对于每个句子的0-1之间概率值;
训练时使用交叉熵损失函数,
Figure FDA0002311852680000023
叠加步骤三的损失共同计算梯度;
loss3=a loss1+(1-a)loss2
式中,a为损失函数的权重比例;
P(zj=1|Oj)是每个句子是否是文章段落首句的概率值;zj代表每个句子是否是文章段落首句的真实值,是为1,否为0;loss2为分段预测模型的输出与标准段落序列0或1值计算得到的交叉熵损失,loss3为loss1和loss2的加权求和;
设置训练轮次为20,每一轮次在开发集上进行测试,选出开发集上F1值最高的分段联合预测摘要模型作为训练好的模型。
5.根据权利要求4所述一种基于多模型融合的抽取式文本摘要生成方法,其特征在于:所述步骤五中构建编码器解码器模型;具体过程为:
基于步骤一的双向双层的LSTM、步骤二的双向双层的LSTM模型构成编码器,基于单向单层的GRU模型构成解码器,将步骤二得到的全文的特征表示doc作为解码器的隐层的初始化,将步骤一得到的句子的特征表示Ot按照时间顺序或逆序作为解码器的输入,输出隐层序列sent_out,将该隐层序列中的隐层分别与步骤二得到的隐层序列
Figure FDA0002311852680000031
中相应隐层进行拼接,得到拼接后的隐层序列,将拼接后的隐层序列输入多层感知机MLP,多层感知机MLP输出作为sigmoid函数的输入,得到句子的0-1之间的概率值;
编码器解码器模型使用交叉熵损失函数:
Figure FDA0002311852680000032
式中,
Figure FDA0002311852680000033
是每个句子是否被抽取的概率值做为摘要抽取模型的输出,yj为0或1值为标准摘要,代表每个句子是否被抽成摘要,是为1,否为0;loss4为摘要抽取模型的输出与标准摘要序列0、1值计算得到的交叉熵损失。
6.根据权利要求5所述一种基于多模型融合的抽取式文本摘要生成方法,其特征在于:所述步骤六中基于步骤五构建的编码器解码器模型使用强化学习进行联合训练,得到训练好的编码器解码器模型;具体过程为:
将步骤五得到句子的0-1之间的概率序列,N次使用伯努利采样函数,根据概率来采样0或1的值,得到N个随机采样之后的0或1的离散值序列,在其中选择出F1值最高的序列,将此序列与步骤五得到的句子的0-1的概率值序列计算交叉熵损失函数loss5,叠加步骤五得到的交叉熵损失函数loss4,得到叠加后的交叉熵损失函数loss6,计算叠加后的交叉熵损失loss6的梯度,然后更新步骤五的编码器解码器模型的参数;
loss6=βloss5+(1-β)loss4
式中,β是为损失函数的权重比例;
设置训练轮次为20,每一轮次在开发集上进行测试,选出开发集上F1值最高的模型作为训练好的编码器解码器模型。
7.根据权利要求6所述一种基于多模型融合的抽取式文本摘要生成方法,其特征在于:所述步骤七中将步骤四构建的分段联合预测摘要模型与步骤五构建的编码器解码器模型融合,生成文本摘要;具体过程为:
将步骤四得到的概率值序列和步骤五得到的句子0-1之间概率值序列进行加权求和,得到句子的最终概率值;
将句子的最终概率值从高到低进行排序,抽取前k个句子为摘要。
CN201911262119.5A 2019-12-10 2019-12-10 一种基于多模型融合的抽取式文本摘要生成方法 Active CN110929024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911262119.5A CN110929024B (zh) 2019-12-10 2019-12-10 一种基于多模型融合的抽取式文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911262119.5A CN110929024B (zh) 2019-12-10 2019-12-10 一种基于多模型融合的抽取式文本摘要生成方法

Publications (2)

Publication Number Publication Date
CN110929024A true CN110929024A (zh) 2020-03-27
CN110929024B CN110929024B (zh) 2021-07-02

Family

ID=69858790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911262119.5A Active CN110929024B (zh) 2019-12-10 2019-12-10 一种基于多模型融合的抽取式文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN110929024B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及***
CN111723196A (zh) * 2020-05-21 2020-09-29 西北工业大学 基于多任务学习的单文档摘要生成模型构建方法及装置
CN111737453A (zh) * 2020-05-29 2020-10-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法
CN112052329A (zh) * 2020-09-02 2020-12-08 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112784587A (zh) * 2021-01-07 2021-05-11 国网福建省电力有限公司泉州供电公司 一种基于多模型融合的文本相似性度量方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210436A1 (en) * 2007-10-30 2009-08-20 General Instrument Corporation Encoding a hierarchical multi-layer data package
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN108763211A (zh) * 2018-05-23 2018-11-06 中国科学院自动化研究所 融合蕴含知识的自动文摘方法及***
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109325110A (zh) * 2018-08-24 2019-02-12 广东外语外贸大学 印尼语文档摘要生成方法、装置、存储介质及终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210436A1 (en) * 2007-10-30 2009-08-20 General Instrument Corporation Encoding a hierarchical multi-layer data package
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN108763211A (zh) * 2018-05-23 2018-11-06 中国科学院自动化研究所 融合蕴含知识的自动文摘方法及***
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109325110A (zh) * 2018-08-24 2019-02-12 广东外语外贸大学 印尼语文档摘要生成方法、装置、存储介质及终端设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAMESH NALLAPATI等: "a recurrent neural summarunner a recurrent neural network based sequence model for extractive summarization", 《ARXIV》 *
邱俊: "基于强化学习的混合式文本摘要模型", 《计算机应用技术》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723196A (zh) * 2020-05-21 2020-09-29 西北工业大学 基于多任务学习的单文档摘要生成模型构建方法及装置
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及***
CN111737453A (zh) * 2020-05-29 2020-10-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法
CN111639175B (zh) * 2020-05-29 2023-05-02 电子科技大学 一种自监督的对话文本摘要方法及***
CN111737453B (zh) * 2020-05-29 2024-04-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法
CN112052329A (zh) * 2020-09-02 2020-12-08 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
WO2021159803A1 (zh) * 2020-09-02 2021-08-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112784587A (zh) * 2021-01-07 2021-05-11 国网福建省电力有限公司泉州供电公司 一种基于多模型融合的文本相似性度量方法及装置
CN112784587B (zh) * 2021-01-07 2023-05-16 国网福建省电力有限公司泉州供电公司 一种基于多模型融合的文本相似性度量方法及装置

Also Published As

Publication number Publication date
CN110929024B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN110929024B (zh) 一种基于多模型融合的抽取式文本摘要生成方法
Wang et al. Chat more: Deepening and widening the chatting topic via a deep model
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN111639176B (zh) 一种基于一致性监测的实时事件摘要方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN113779996A (zh) 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质
CN110597968A (zh) 一种回复选择方法及装置
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN111340006A (zh) 一种手语识别方法及***
CN112287687B (zh) 基于案件属性感知的案件倾向性抽取式摘要方法
Fang et al. Using bidirectional LSTM with BERT for Chinese punctuation prediction
CN116450848B (zh) 一种基于事理图谱的计算思维水平评估方法、装置及介质
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN115859989A (zh) 基于远程监督的实体识别方法及***
CN114896969A (zh) 一种基于深度学习的方面词提取方法
CN115495566A (zh) 一种增强文本特征的对话生成方法和***
CN115081445A (zh) 一种基于多任务学习的短文本实体消歧方法
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN114385803A (zh) 一种基于外部知识和片段选择的抽取式阅读理解方法
CN114925695A (zh) 一种命名实体识别方法、***、设备及存储介质
CN113421593A (zh) 语音测评方法、装置、计算机设备和存储介质
CN112380874A (zh) 一种基于图卷积网络的多人对话语篇分析方法
Jacobs et al. Leveraging multilingual transfer for unsupervised semantic acoustic word embeddings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant