CN105488021B - 一种生成多文档摘要的方法和装置 - Google Patents

一种生成多文档摘要的方法和装置 Download PDF

Info

Publication number
CN105488021B
CN105488021B CN201410469449.2A CN201410469449A CN105488021B CN 105488021 B CN105488021 B CN 105488021B CN 201410469449 A CN201410469449 A CN 201410469449A CN 105488021 B CN105488021 B CN 105488021B
Authority
CN
China
Prior art keywords
phrase
abstract
sentence
pond
generation device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410469449.2A
Other languages
English (en)
Other versions
CN105488021A (zh
Inventor
邴立东
林伟
张轶博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410469449.2A priority Critical patent/CN105488021B/zh
Publication of CN105488021A publication Critical patent/CN105488021A/zh
Application granted granted Critical
Publication of CN105488021B publication Critical patent/CN105488021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种生成多文档摘要的方法和装置,用于使得生成的多文档摘要在保证对多文档重要信息的高覆盖率的同时降低冗余度。本发明实施例方法包括:先将多篇文档的句子集合解构为短语池,获取短语池中各个短语的特征和关系,根据该特征和关系选取短语池中满足预置约束条件的短语集合作为摘要短语集合,再按照预置组合方式将选出的摘要短语集合组合为摘要句子,生成多文档摘要。

Description

一种生成多文档摘要的方法和装置
技术领域
本发明涉及数据处理领域,尤其涉及一种生成多文档摘要的方法和装置。
背景技术
信息***时代中,人们面对海量信息,越来越迫切需要迅速、有效的信息处理手段。作为资讯的获取渠道之一,新闻阅读占据了人们生活中相当部分时间。而新闻的海量性、冗余性给人们的阅读带来很大不便。多文档摘要(Multi-Document Summarization,MDS)技术,以同一主题下的多篇文档作为输入,按照需要自动地生成特定长度摘要文本,供用户阅读。从而提高信息阅读、资讯获取的效率。
目前可以将来自多文档的句子聚类,然后利用的依存关系树dependency tree/依存图dependency graph进行子句融合,从而生成新句子。
然而采用这种方式对多文档生成摘要,聚类中以句子为单位,粒度过粗,导致相似度计算容易受句子内冗长且非重要部分误导,造成生成的多文档摘要对重要信息的判断不够准确且冗余度较高。
发明内容
本发明实施例提供了一种生成多文档摘要的方法和装置,用于使得生成的多文档摘要在保证对多文档重要信息的高覆盖率的同时降低冗余度。
本发明实施例第一方面提供了一种生成多文档摘要的方法,包括:
摘要生成装置将多篇文档的句子集合解构为短语池;
所述摘要生成装置获取所述短语池中各个短语的特征和关系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与其他短语之间的关系;
所述摘要生成装置根据所述各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
所述摘要生成装置按照预置组合方式将所述摘要短语集合组合为摘要句子,生成所述多篇文档的摘要。
结合本发明实施例的第一方面,本发明实施例第一方面的第一种实现方式中,所述摘要生成装置获取所述短语池中各个短语的特征和关系具体包括:
所述摘要生成装置获取所述短语池中各短语的重要度以及各短语之间的兼容度和相似度,所述重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程度,所述兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于衡量短语之间语义相似的程度。
结合本发明实施例第一方面的第一种实现方式,本发明实施例第一方面的第二种实现方式中,所述摘要生成装置根据所述各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合具体包括:
所述摘要生成装置应用求解规划问题的方法,在最大程度满足所述预置约束条件构成的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预置约束条件给出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及对短语相似度的约束。
结合本发明实施例第一方面的第二种实现方式,本发明实施例第一方面的第三种实现方式中,所述预置约束条件还包括对短语候选权重的约束;
所述方法还包括:
所述摘要生成装置根据所述短语池中各个短语的重要度以及各个短语之间的兼容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重,其中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合构成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最大而冗余度最小。
结合本发明实施例的第一方面至第一方面的第三种实现方式中任一种实现方式,本发明实施例第一方面的第四种实现方式中,所述将多篇文档的句子集合解构为短语池具体包括:
将所述多篇文档的句子集合利用语义分析工具构建语法树;
抽取所述语法树上全部短语组成短语池。
结合本发明实施例的第一方面至第一方面的第三种实现方式中任一种实现方式,本发明实施例第一方面的第五种实现方式中,所述摘要生成装置按照预置组合方式将所述摘要短语集合组合为摘要句子,生成所述多篇文档的摘要具体包括:
所述摘要生成装置按照所述摘要短语集合中各摘要短语在所述多篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子;
将所述摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要。
结合本发明实施例第一方面的第五种实现方式,本发明实施例第一方面的第六种实现方式中,所述将所述摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要的步骤之前还包括:
对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词。
本发明实施例第二方面提供了一种摘要生成装置,包括:
解构模块,用于将多篇文档的句子集合解构为短语池;
第一获取模块,用于获取所述解构模块解构得到的短语池中各个短语的特征和关系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与其他短语之间的关系;
选取模块,用于根据所述第一获取模块获取的各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
组合模块,用于按照预置组合方式将所述选取模块选取出的摘要短语集合组合为摘要句子,生成所述多篇文档的摘要。
结合本发明实施例的第二方面,本发明实施例第二方面的第一种实现方式中,所述第一获取模块具体用于,获取所述短语池中各短语的重要度以及各短语之间的兼容度和相似度,所述重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程度,所述兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于衡量短语之间语义相似的程度。
结合本发明实施例第二方面的第一种实现方式,本发明实施例第二方面的第二种实现方式中,所述选取模块具体用于,应用求解规划问题的方法,在最大程度满足所述预置约束条件构成的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预置约束条件给出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及对短语相似度的约束。
结合本发明实施例第二方面的第二种实现方式,本发明实施例第二方面的第三种实现方式中,所述预置约束条件还包括对短语候选权重的约束;
所述摘要生成装置还包括:
第二获取模块,用于根据所述短语池中各个短语的重要度以及各个短语之间的兼容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重,其中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合构成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最大而冗余度最小。
结合本发明实施例的第二方面至第二方面的第三种实现方式中任一种实现方式,本发明实施例第二方面的第四种实现方式中,所述解构模块具体包括:
构建单元,用于将所述多篇文档的句子集合利用语义分析工具构建语法树;
抽取单元,用于抽取所述构建单元构建的语法树上全部短语组成短语池。
结合本发明实施例的第二方面至第二方面的第三种实现方式中任一种实现方式,本发明实施例第二方面的第五种实现方式中,所述组合模块具体包括:
短语排列单元,用于按照所述选取模块选取出的摘要短语集合中各摘要短语在所述多篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子;
句子排列模块,用于将所述短语排列单元排列得到的摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要。
结合本发明实施例第二方面的第五种实现方式,本发明实施例第二方面的第六种实现方式中,所述组合模块中还包括:
添加单元,用于对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词。
从以上技术方案可以看出,本发明实施例具有以下优点:本发明实施例中先将多篇文档的句子集合解构为短语池,获取短语池中各个短语的特征和关系,根据该特征和关系选取短语池中满足预置约束条件的短语集合作为摘要短语集合,再按照预置组合方式将选出的摘要短语集合组合为摘要句子,生成多文档摘要,这样根据短语的特征和关系选取短语,采用短语作为重要性以及冗余度判断的基本单位,判断更加精细化,通过对短语的选取与组合,使得生成的多文档摘要在保证对多文档重要信息的高覆盖率的同时降低了冗余度。
附图说明
图1为本发明实施例中生成多文档摘要的方法一个流程示意图;
图2为本发明实施例中生成多文档摘要的方法另一个流程示意图;
图3为本发明实施例中构建兼容性关系一个实例示意图;
图4为本发明实施例中摘要生成装置一个结构示意图;
图5为本发明实施例中摘要生成装置另一个结构示意图;
图6为本发明实施例中摘要生成装置另一个结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中生成多文档摘要的方法一个实施例包括:
101、摘要生成装置将多篇文档的句子集合解构为短语池;
若需要对多篇文档生成一个多文档摘要,摘要生成装置将多篇文档的句子集合解构为短语池。
该短语池中可以包含有名词短语,动词短语,还可以包括其他词性的短语,例如形容词短语,数词短语等等,具体依多篇文档中含有的短语而定,此处不做限定。可以理解的是,在自然语言处理中,名词短语实际上包含代词,代词被认为是名词的一种。
102、摘要生成装置获取所述短语池中各个短语的特征和关系;
摘要生成装置将句子集合解构为短语池后,获取该短语池中各个短语的特征和关系,其中,特征表示各个短语自身的特性,例如重要度等,关系用于表示各短语与其他短语之间的关系,例如兼容性或相似性等。
103、摘要生成装置根据所述各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
摘要生成装置获取到各个短语的特征和关系后,根据该特征和关系,从短语池中选取满足预置约束条件的短语集合作为摘要短语集合。
可以理解的是,预置约束条件中包含了对短语的特征和关系的约束,不符合预置约束条件的短语都会被剔除掉,至保留满足预置约束条件的短语集合构成摘要短语集合,用来组成摘要。
可以理解的是,短语的特征可以用来表示短语的在文档中的重要性,短语的关系可以用来表示在文档中的冗余度,预置约束条件通过对特征和关系的约束可以对短语的重要性和冗余度进行筛选。
104、摘要生成装置按照预置组合方式将所述摘要短语集合组合为摘要句子,生成所述多篇文档的摘要。
摘要生成装置得到摘要短语集合后,按照预置组合方式将该摘要短语集合组合为摘要句子,生成该多篇文档的多文档摘要。
本发明实施例中先将多篇文档的句子集合解构为短语池,获取短语池中各个短语的特征和关系,根据该特征和关系选取短语池中满足预置约束条件的短语集合作为摘要短语集合,再按照预置组合方式将选出的摘要短语集合组合摘要句子,生成多文档摘要,这样根据短语的特征和关系选取短语,采用短语作为重要性以及冗余度判断的基本单位,判断更加精细化,通过对短语的选取与组合,使得生成的多文档摘要在保证对多文档重要信息的高覆盖率的同时降低了冗余度。
下面对本发明实施例中生成多文档摘要的方法进行具体描述,请参阅图2,本发明实施例中生成多文档摘要的方法包括:
201、摘要生成装置将所述多篇文档的句子集合利用语义分析工具构建语法树;
在本步骤中,语义分析工具可以通过对多篇文档中各句子的语义分析,构建语法树将各句子分解为各个短语,分解出的各个短语成为语法树的分支。
可以理解的是,该语义分析工具可以是由摘要生成装置自身包含的,也可以是摘要生成装置通过网络请求的语义分析工具,此处不作限定。
202、摘要生成装置抽取所述语法树上全部短语组成短语池;
摘要生成装置对多篇文档的句子集合构建语法树后,抽取语法树上全部短语组成短语池。
该短语池中可以包含有名词短语,动词短语,还可以包括其他词性的短语,例如形容词短语,数词短语等等,具体依多篇文档中含有的短语而定,此处不做限定。可以理解的是,在自然语言处理中,名词短语实际上包含代词,代词被认为是名词的一种。
可以理解的是,步骤201至步骤202是将多篇文档的句子集合中分解成短语的过程,在实际应用中,除了采用构建语法树的方式将句子分解成短语,还可以采用很多其他的方式,只要是能将多篇文档的句子集合分解成短语即可,此处不作具体限定。
203、摘要生成装置获取所述短语池中各个短语的重要度以及各短语之间的兼容度和相似度;
摘要生成装置得到包含有多篇文档的句子集合分解成的全部短语的短语池后,获取短语池中各个短语的重要度以及各短语之间的兼容度和相似度,其中,重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程度,兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,相似度用于衡量短语之间语义相似的程度。
可以理解的是,各短语的重要度体现了各短语的特征,各短语之间的兼容度和相似度体现了各短语之间的关系。
其中,对于重要度,相似度,以及兼容度的具体计算方式,可以采用多种方式,下面以其中一种来进行说明:
一、对短语重要度的计算,可以采用附加位置权重的概念频率统计,具体过程为:
1、构建概念集合,概念包括:unigram(单词)、bigram(双词)、named entity(实体名)。
2、统计附加位置权重的概念频率:对于某一概念,统计其在多篇文档中的出现次数,同时根据出现的位置,对每次出现进行加权,出现越靠前权重越大。
3、短语的重要度为其所包含的全部概念的频率之和。
二、对短语相似度的计算可以通过cosine similarity(余弦相似度)或jaccardindex(指数函数)计算动词短语的两两相似度、名词短语的两两相似度。
三、短语兼容度是对各短语的之间的兼容性的数值体现,兼容性具体指一个名词短语和一个动词短语,是否可以共同构成一个句子,对兼容性的具体判断方法如下:
1、对每一个名词或动词短语,找其若干个最近邻居,每一个最近邻居被视为替换当前短语的候选。
2、构建兼容性关系,如图3所示为构建兼容性关系一个实例示意图,其中NP表示名词短语,VP表示动词短语,角标相同表示来自同一个句子,角标不同表示来自不同的句子中。NP0和VP0来自同一个句子,NP1和NP0是最近邻。其中虚线为新添加的兼容的NP与VP对,实线为原来存在的兼容关系。
3、根据构建的兼容关系,即可将其数值化为各短语之间的兼容度,兼容性好的兼容度数值高,兼容性差的兼容度数值低。
可以理解的是,上述重要度,相似度,兼容度的计算方式仅仅只是一个示例,还可以有更多其他的计算重要度,相似度,兼容度的方式,此处不做限定。
204、摘要生成装置根据短语池中各个短语的重要度以及各个短语之间的兼容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的候选权重。
其中,目标函数由各个短语的重要度,以及各个短语之间的兼容度和相似度组合构成,该目标函数用于描述组合的信息量和冗余度,当目标函数取极值时,信息量最大而冗余度最小。
可以理解的是,短语的重要度与信息量相关,短语的相似度与冗余度相关,则为了使目标函数取极值时,信息量最大而冗余度最小,需要在目标函数中,对重要度相关参数进行奖励,对相似度相关参数进行惩罚。
可选的,一个目标函数如下所示:
将短语池中名词短语和动词短语分别编号,其中S为短语的重要度参数,与重要度相关。下标i为选取的短语的序号为i,下标j表示选取的短语的序号为j,上标n表示选取的是名词短语,上标v表示选取的是动词短语,则Si n表示序号为i的名词短语的重要度参数,Si v表示序号为i的动词短语的重要度参数,Sj n表示序号为j的名词短语的重要度参数,Sj v表示序号为j的动词短语的重要度参数。R表示短语的冗余度参数,与相似度相关。由于相似度是短语之间的关系,则R的下标是两个名词短语或两个动词短语的序号,表示这选取的这两个短语之前的冗余度,Rij n表示序号为i和序号为j的名词短语之间的冗余度,Rij v表示序号为i和序号为j的动词短语之间的冗余度。目标函数的第一项和第三项对短语的重要度参数进行奖励,将各个短语的重要度权重之和相加得到目标函数的重要度之和部分,目标函数的第二项和第四项对短语的冗余度参数进行惩罚,减去各个短语的冗余度参数权重之和。αi表示序号为i的名词短语的候选权重,βi表示序号为i的动词短语的候选权重,αij表示序号为i和j的名词短语之间的联系权重,βij表示序号为i和j的动词短语之间的联系权重。
通过对上述目标函数求解极值,即可解出使得信息量最大冗余度最小时的短语池中各短语的候选权重和各短语间的联系权重。
可以理解的是,上述只是目标函数一个实例,还可以有其他各种形式的目标函数,可以得到各短语的候选权重或联系权重,只要在目标函数中对重要度进行奖励,对冗余度进行惩罚,目标函数的具体形式此处不作限定。
可以理解的是,若在后续步骤中不需要用到目标函数解出的候选权重或联系权重,也可以不执行步骤204,此处不作限定。
205、摘要生成装置应用求解规划问题的方法,在最大程度满足预置约束条件构成的情况下,从所述短语池中选取摘要短语集合。
其中,该规划问题有预置约束条件给出,该预置约束条件可以包括对短语重要度的约束,对短语兼容度的约束,对短语相似度的约束。
可选的,该预置约束条件还可以包括更多的其他的约束,例如对短语数量和摘要总长度的约束等。进一步的,该预置约束条件还可以包括对短语的候选权重的约束,也可以包括对短语之间的联系权重的约束等,此处步骤限定。
可以理解的是,预置约束条件是将对摘要短语的要求采用数学的方式来表示出来,在实际应用中,预置约束条件可以表现为一系列的不等式的集合,用于限定短语的重要度,兼容度,相似度、候选权重等的取值范围,选取出满足要求的摘要短语集合。
以下选取几种约束条件为例:
Ni,Vi表示序号为i的名词短语和序号为i的动词短语;
αi表示序号为i的名词短语的候选权重,βi表示序号为i的动词短语的候选权重,αij表示序号为i和j的名词短语之间的联系权重,βij表示序号为i和j的动词短语之间的联系权重;
Si n表示序号为i的名词短语的重要度参数,Si v表示序号为i的动词短语的重要度参数;
Rij n表示序号为i和序号为j的名词短语之间的冗余度,Rij v表示序号为i和序号为j的动词短语之间的冗余度;
γij表示用于衡量序号为i的名词短语Ni和序号为j的动词短语Vj之间的兼容性的兼容度参数;
如下公式(1)为一个约束条件,可以用于对名词有效性限制进行约束:
如下公式(2)为另一个约束条件,可以用于对动词有效性限制进行约束:
如下公式(3)为另一个约束条件,可以用于对短语包含规避进行约束:
如下公式(4)为另一个约束条件,可以用于对单句长度限制进行约束:
如下公式(5)为另一个约束条件,可以用于对摘要总长进行约束:
如下公式(6)或(7)为另一个约束条件,可以用于对词语重复限制进行约束:
如下公式(8)为另一个约束条件,可以用于对代词规避进行约束:
if Ni is pronoun,then αi=0. (8)
如下公式(9)为另一个约束条件,可以用于对超短句规避进行约束:
if l(S)<M,Vi∈S,then βi=0, (9)
可以理解的是,以上这些约束条件仅仅只是预置约束条件的一些例子,还可以有另外更多的约束条件,根据实际应用的需求,这些约束条件可以单独使用,也可以多个组合使用,此处不作限定。
206、摘要生成装置按照所述摘要短语集合中各摘要短语在所述多篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子;
摘要生成装置得到摘要短语集合后,按照各摘要短语在多篇文档的句子中的顺序,对摘要短语进行排序,得到摘要句子。
需要说明的是,在将摘要短语排列成摘要句子的过程中,名词短语和动词短语形成短语组,该短语组中名词短语和动词短语之间的顺序由该名词短语和动词短语在文档中出现的顺序决定;多个短语组之间的相互顺序由每个短语组中的动词短语在文档中出现的顺序决定,具体的:1)来自同一文档的动词短语,按在该文档中的自然顺序排序。2)来自不同文档的动词短语,根据各动词短语所在的原文档的时间戳排序。
207、对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词;
摘要生成装置得到摘要句子后,对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词,以增强摘要句子的可读性和平滑度。
208、将所述摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要。
摘要生成装置将摘要句子按照多篇文档中动词短语出现的最早时间进行排列,得到多篇文档的摘要。
其中,将摘要句子按照多篇文档中动词短语出现的最早时间进行排列,具体过程可以为:
1、将各摘要句子的时间戳定义为句子中最早出现的动词短语的时间戳;
2、按照各摘要句子的时间戳对各摘要句子进行排序。
可以理解的是,步骤206至步骤208中,主要按照动词短语在原多篇文档句子中的顺序以及出现的时间顺序对摘要短语集合中的短语进行排列,在实际应用中,除了采用这种排列方式,还可以采用其他的排列方式,例如其他的基于统计的排列方式或基于组合规则或组合模板的排列方式等,此处不做限定。
本发明实施例中,摘要生成装置通过预置约束条件对短语重要度和候选权重的约束,保证了多文档摘要对重要信息的覆盖率,通过对相似度,兼容性或联系权重的约束,降低了多文档摘要中摘要句子的冗余度,进一步的,在含有多个动词短语的摘要句子中添加连词,保证了组合成的新句子的平滑性。
下面对本发明实施例中以短语为粒度形成多文档摘要的效果与现有技术中以句子为粒度形成多文档摘要的效果进行说明:
为了评价本发明的重要信息覆盖能力,我们采用Pyramid method测试方法进行测评,评测结果如下表1所示:
表1
其中,Pyramid method是由Ani Nenkova和Rebecca J.Passonneau于2004年在“Evaluating content selection in summarization”这篇论文中提出的一种评价摘要结果的评价方法,被业界普遍使用,TAC比赛是一个业界权威的评价摘要结果的比赛。上表1为对选取的在2011年TAC比赛中排名前三的队伍的摘要结果与采用本发明实施例的方法得到的摘要结果,采用Pyramid method对摘要结果的重要度覆盖率得到的测评分数的对比。表1的第一列为在TAC比赛中队伍的编号,得到前三名的队伍的编号分别为22号、43号和17号,本发明表示采用本发明实施例中的方案;表1的第二列和第三列分别为Pyramid method测评模型中基准线取值为0.6和0.625时对各队伍摘要结果的重要信息覆盖率进行自动测评获得的分数,表1第三列为在2011年TAC比赛中各队伍获取的名次。从表1中可见,采用本发明实施例中的方案得到的摘要结果在重要信息覆盖率上明显高于其他队伍采取的方案得到的摘要结果,即使他们是在TAC比赛中获取前三名的队伍。
在完成了以上高覆盖度的同时,本发明的冗余度更低。具体地,摘要长度对比如下表2所示:
表2
2011年TAC比赛中队伍的编号 摘要长度
本发明 94.3
22 99.4
43 99.8
17 99.6
从上表2中可见,采用本发明实施例的方案得到的摘要结果在冗余度上也明显低于在TAC比赛中取得前三名的队伍得到的的摘要结果的冗余度。
本发明生成的摘要中,三类句子,即新句子、压缩的句子、原句子,的比例如下表3所示:
表3
句子类型 占据比例
新句子 33.0%
压缩的句子 44.3%
原句子 22.7%
由表3可知,采用本发明实施例的方案得到的摘要结果中既有新句子,又有压缩的句子,也有原多篇文档中的原句子。因此,本发明与现有方法部分的兼容,同时提供了新的选择。
同时,我们对句子可读性进行了人工评测,首先句子分值定义如下:
3分表示:新生成的句子恰当地融合了同一个NP的相关事实,并且具有较好的流畅性和可读性。
2分表示:新生成的句子正确地融合了同一个NP的相关事实,并且可读性较好。但流畅性一般。
1分表示:新生成的句子正确地融合了同一个NP的相关事实,但是读者需要付出一定的努力来阅读和理解。
0分表示:由于短语融合,导致新生成的句子包含错误的事实。
我们选取20个新生成的摘要句子进行评测,得到的平均分值为2.65,因此新句子的可读性足够好。
下面对本发明实施例中的摘要生成装置进行描述,请参阅图4,本发明实施例中摘要生成装置包括:
解构模块401,用于将多篇文档的句子集合解构为短语池;
第一获取模块402,用于获取所述解构模块401解构得到的短语池中各个短语的特征和关系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与其他短语之间的关系;
选取模块403,用于根据所述第一获取模块402获取的各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
组合模块404,用于按照预置组合方式将所述选取模块403选取出的摘要短语集合组合为摘要句子,生成所述多篇文档的摘要。
本发明实施例中解构模块401先将多篇文档的句子集合解构为短语池,第一获取模块402获取短语池中各个短语的特征和关系,选取模块403根据该特征和关系选取短语池中满足预置约束条件的短语集合作为摘要短语集合,组合模块404再按照预置组合方式将选出的摘要短语集合组合摘要句子,生成多文档摘要,这样根据短语的特征和关系选取短语,采用短语作为重要性以及冗余度判断的基本单位,判断更加精细化,通过对短语的选取与组合,使得生成的多文档摘要在保证对多文档重要信息的高覆盖率的同时降低了冗余度。
下面对本发明实施例中摘要生成装置进行具体描述,请参阅图5,本发明实施例中摘要生成装置具体包括:
解构模块501,用于将多篇文档的句子集合解构为短语池;
第一获取模块502,用于获取所述解构模块501解构得到的短语池中各个短语的特征和关系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与其他短语之间的关系;
选取模块503,用于根据所述第一获取模块502获取的各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
组合模块504,用于按照预置组合方式将所述选取模块403选取出的摘要短语集合组合为摘要句子,生成所述多篇文档的摘要;
本实施例中,该第一获取模块502具体用于,获取所述短语池中各短语的重要度以及各短语之间的兼容度和相似度,所述重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程度,所述兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于衡量短语之间语义相似的程度;
该选取模块503具体用于,应用求解规划问题的方法,在最大程度满足所述预置约束条件构成的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预置约束条件给出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及对短语相似度的约束;
可选的,该预置约束条件中还可以包括对候选权重的约束;
该摘要生成装置还可以包括:
第二获取模块505,用于根据所述短语池中各个短语的重要度以及各个短语之间的兼容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重,其中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合构成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最大而冗余度最小;
可选的,该解构模块501具体可以包括:
构建单元5011,用于将所述多篇文档的句子集合利用语义分析工具构建语法树;
抽取单元5012,用于抽取所述构建单元5011构建的语法树上全部短语组成短语池;
可选的,该组合模块504具体可以包括:
短语排列单元5041,用于按照所述选取模块503选取出的摘要短语集合中各摘要短语在所述多篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子;
句子排列单元5042,用于将所述短语排列单元5041排列得到的摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要;
可选的,该组合模块504还可以包括:
添加单元5043,用于对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词。
本发明实施例中,选取模块503通过预置约束条件对短语重要度和候选权重的约束,保证了多文档摘要对重要信息的覆盖率,通过对相似度,兼容性或联系权重的约束,降低了多文档摘要中摘要句子的冗余度,进一步的,添加单元5043在含有多个动词短语的摘要句子中添加连词,保证了组合成的新句子的平滑性。
上面从单元化功能实体的角度对本发明实施例中的摘要生成装置进行了描述,下面从硬件处理的角度对本发明实施例中的摘要生成装置进行描述,请参阅图6,本发明实施例中的摘要生成装置600另一实施例包括:
输入装置601、输出装置602、处理器603和存储器604(其中摘要生成装置600中的处理器603的数量可以一个或多个,图6中以一个处理器603为例)。在本发明的一些实施例中,输入装置601、输出装置602、处理器603和存储器604可通过总线或其它方式连接,其中,图6中以通过总线连接为例。
其中,通过调用存储器604存储的操作指令,处理器603,用于执行如下步骤:
将多篇文档的句子集合解构为短语池;
获取所述短语池中各个短语的特征和关系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与其他短语之间的关系;
根据所述各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
按照预置组合方式将所述摘要短语集合组合为摘要句子,生成所述多篇文档的摘要;
本发明的一些实施例中,该处理器603具体执行如下步骤:
获取所述短语池中各短语的重要度以及各短语之间的兼容度和相似度,所述重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程度,所述兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于衡量短语之间语义相似的程度;
本发明的一些实施例中,该处理器603具体执行如下步骤:
应用求解规划问题的方法,在最大程度满足所述预置约束条件构成的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预置约束条件给出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及对短语相似度的约束;
本发明的一些实施例中,该预置约束条件还包括对短语候选权重的约束,则该处理器603还执行如下步骤:
根据所述短语池中各个短语的重要度以及各个短语之间的兼容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重,其中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合构成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最大而冗余度最小;
本发明的一些实施例中,该处理器603具体执行如下步骤:
将所述多篇文档的句子集合利用语义分析工具构建语法树;
抽取所述语法树上全部短语组成短语池;
本发明的一些实施例中,该处理器603具体执行如下步骤:
按照所述摘要短语集合中各摘要短语在所述多篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子;
按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要;
本发明的一些实施例中,该处理器603还执行如下步骤:
对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种生成多文档摘要的方法,其特征在于,包括:
摘要生成装置将多篇文档的句子集合解构为短语池;
所述摘要生成装置获取所述短语池中各个短语的特征和关系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与其他短语之间的关系;
所述摘要生成装置根据所述各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
所述摘要生成装置按照预置组合方式将所述摘要短语集合组合为摘要句子,生成所述多篇文档的摘要;
所述摘要生成装置获取所述短语池中各个短语的特征和关系具体包括:
所述摘要生成装置获取所述短语池中各短语的重要度以及各短语之间的兼容度和相似度,所述重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程度,所述兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于衡量短语之间语义相似的程度;
所述摘要生成装置根据所述各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合具体包括:
所述摘要生成装置应用求解规划问题的方法,在最大程度满足所述预置约束条件构成的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预置约束条件给出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及对短语相似度的约束。
2.根据权利要求1所述的方法,其特征在于,
所述预置约束条件还包括对短语候选权重的约束;
所述方法还包括:
所述摘要生成装置根据所述短语池中各个短语的重要度以及各个短语之间的兼容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重,其中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合构成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最大而冗余度最小。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述将多篇文档的句子集合解构为短语池具体包括:
将所述多篇文档的句子集合利用语义分析工具构建语法树;
抽取所述语法树上全部短语组成短语池。
4.根据权利要求1至2中任一项所述的方法,其特征在于,所述摘要生成装置按照预置组合方式将所述摘要短语集合组合为摘要句子,生成所述多篇文档的摘要具体包括:
所述摘要生成装置按照所述摘要短语集合中各摘要短语在所述多篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子;
将所述摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要。
5.根据权利要求4所述的方法,其特征在于,所述将所述摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要的步骤之前还包括:
对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词。
6.一种摘要生成装置,其特征在于,包括:
解构模块,用于将多篇文档的句子集合解构为短语池;
第一获取模块,用于获取所述解构模块解构得到的短语池中各个短语的特征和关系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与其他短语之间的关系;
选取模块,用于根据所述第一获取模块获取的各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
组合模块,用于按照预置组合方式将所述选取模块选取出的摘要短语集合组合为摘要句子,生成所述多篇文档的摘要;
所述第一获取模块具体用于,获取所述短语池中各短语的重要度以及各短语之间的兼容度和相似度,所述重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程度,所述兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于衡量短语之间语义相似的程度;
所述选取模块具体用于,应用求解规划问题的方法,在最大程度满足所述预置约束条件构成的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预置约束条件给出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及对短语相似度的约束。
7.根据权利要求6所述的摘要生成装置,其特征在于,所述预置约束条件还包括对短语候选权重的约束;
所述摘要生成装置还包括:
第二获取模块,用于根据所述短语池中各个短语的重要度以及各个短语之间的兼容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重,其中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合构成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最大而冗余度最小。
8.根据权利要求6至7中任一项所述的摘要生成装置,其特征在于,所述解构模块具体包括:
构建单元,用于将所述多篇文档的句子集合利用语义分析工具构建语法树;
抽取单元,用于抽取所述构建单元构建的语法树上全部短语组成短语池。
9.根据权利要求6至7中任一项所述的摘要生成装置,其特征在于,所述组合模块具体包括:
短语排列单元,用于按照所述选取模块选取出的摘要短语集合中各摘要短语在所述多篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子;
句子排列模块,用于将所述短语排列单元排列得到的摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要。
10.根据权利要求9所述的摘要生成装置,其特征在于,所述组合模块中还包括:
添加单元,用于对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词。
CN201410469449.2A 2014-09-15 2014-09-15 一种生成多文档摘要的方法和装置 Active CN105488021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410469449.2A CN105488021B (zh) 2014-09-15 2014-09-15 一种生成多文档摘要的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410469449.2A CN105488021B (zh) 2014-09-15 2014-09-15 一种生成多文档摘要的方法和装置

Publications (2)

Publication Number Publication Date
CN105488021A CN105488021A (zh) 2016-04-13
CN105488021B true CN105488021B (zh) 2018-09-28

Family

ID=55675005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410469449.2A Active CN105488021B (zh) 2014-09-15 2014-09-15 一种生成多文档摘要的方法和装置

Country Status (1)

Country Link
CN (1) CN105488021B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912700A (zh) * 2016-04-26 2016-08-31 上海电机学院 一种基于tmpp模型的摘要生成方法
CN106844341B (zh) * 2017-01-10 2020-04-07 北京百度网讯科技有限公司 基于人工智能的新闻摘要提取方法及装置
CN108733682B (zh) * 2017-04-14 2021-06-22 华为技术有限公司 一种生成多文档摘要的方法及装置
CN107169049B (zh) * 2017-04-25 2023-04-28 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN108959312B (zh) 2017-05-23 2021-01-29 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN108280112B (zh) * 2017-06-22 2021-05-28 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
CN107391460A (zh) * 2017-07-04 2017-11-24 北京航空航天大学 一种工业安全主题多文档摘要自动生成方法及装置
CN109657053B (zh) * 2018-12-13 2021-09-14 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN110162618B (zh) * 2019-02-22 2021-09-17 北京捷风数据技术有限公司 一种非对照语料的文本概要生成方法及装置
CN110705273B (zh) * 2019-09-02 2023-06-13 腾讯科技(深圳)有限公司 基于神经网络的信息处理方法及装置、介质和电子设备
CN112836016B (zh) * 2021-02-05 2022-02-22 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8402369B2 (en) * 2008-05-28 2013-03-19 Nec Laboratories America, Inc. Multiple-document summarization using document clustering

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Generating Natural Language Summaries from Multiple On-Line Sources;Dragomir R. Radev 等;《Computational Linguistics》;19980930;第24卷(第3期);470-500 *
中文短语摘要的研究和***开发;胡柏;《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》;20070615(第6期);I138-269,第三章 *
基于统计的多文档关键短语和文摘抽取研究;张永刚;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100115(第1期);I138-1317 *
多文档自动文摘关键技术研究;徐永东;《中国博士学位论文全文数据库 信息科技辑》;20081215(第12期);I138-102 *

Also Published As

Publication number Publication date
CN105488021A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN105488021B (zh) 一种生成多文档摘要的方法和装置
Campr et al. Comparing semantic models for evaluating automatic document summarization
Habibi et al. Keyword extraction and clustering for document recommendation in conversations
CN108563620A (zh) 文本自动写作方法和***
US10095685B2 (en) Phrase pair collecting apparatus and computer program therefor
Liu et al. Can syntactic networks indicate morphological complexity of a language?
Llewellyn et al. Summarizing newspaper comments
US20160357854A1 (en) Scenario generating apparatus and computer program therefor
CN104182059A (zh) 自然语言的生成方法及***
JP2014041481A (ja) 文書分類装置および文書分類処理プログラム
US8428933B1 (en) Usage based query response
CN102609424B (zh) 评价信息抽取方法和设备
JP2014106665A (ja) 文書検索装置、文書検索方法
CN107122404A (zh) 一种用户意图数据提取方法和装置
Ferro et al. CLEF 2009 ad hoc track overview: TEL and persian tasks
Liu et al. Towards computation of novel ideas from corpora of scientific text
CN107908649B (zh) 一种文本分类的控制方法
Sobh et al. An optimized dual classification system for Arabic extractive generic text summarization
Litvak et al. Mining the gaps: Towards polynomial summarization
Chiriatti et al. What Makes a Review helpful? Predicting the Helpfulness of Italian TripAdvisor Reviews.
Diebowski Gender acquisition in Spanish: effects of language and age
Zaghouani et al. Can crowdsourcing be used for effective annotation of Arabic?
Tohalino et al. Extractive multi-document summarization using dynamical measurements of complex networks
Evans et al. Identifying similarities and differences across english and arabic news
Kovatchev et al. Fairly Accurate: Learning Optimal Accuracy vs. Fairness Tradeoffs for Hate Speech Detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant