CN103246687A - 基于特征信息的Blog自动摘要方法 - Google Patents

基于特征信息的Blog自动摘要方法 Download PDF

Info

Publication number
CN103246687A
CN103246687A CN2012101938833A CN201210193883A CN103246687A CN 103246687 A CN103246687 A CN 103246687A CN 2012101938833 A CN2012101938833 A CN 2012101938833A CN 201210193883 A CN201210193883 A CN 201210193883A CN 103246687 A CN103246687 A CN 103246687A
Authority
CN
China
Prior art keywords
sentence
score
information
comment
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101938833A
Other languages
English (en)
Other versions
CN103246687B (zh
Inventor
赵朋朋
鲜学丰
陈明
刘全
崔志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201210193883.3A priority Critical patent/CN103246687B/zh
Publication of CN103246687A publication Critical patent/CN103246687A/zh
Application granted granted Critical
Publication of CN103246687B publication Critical patent/CN103246687B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明在于公开了一种基于特征信息的Blog自动摘要方法,其步骤包括:基于特征信息的语句得分;基于潜在语义的评论关注得分;摘要复选与合并;经过如上处理后,即为本发明最终所得到的摘要句集合;该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余;本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题;本方法生成的摘要对读者更为友好,准确性更高。

Description

基于特征信息的Blog自动摘要方法
技术领域
本发明涉及自动摘要领域,尤其涉及一种基于特征信息的Blog自动摘要方法。 
背景技术
    随着Web2.0的兴起,Blog这种新的信息传播和交互方式不断流行,其影响力也在日益扩大,在即时性与多样性方面已经超过传统媒体,给现实世界带来了巨大影响,越来越受到网民和企业界的重视。 
面对巨大的Blog用户规模所带来的海量Blog信息,读者如何去查找和阅读自己感兴趣的内容就变成了一个难题。在自动摘要研究中,一方面更为多样化的表达方式和更为复杂的段落结构给面向Blog的自动摘要带来了挑战,但另一方面,由于Blog本身比传统网页增加了标签、评论等额外信息,也提供了生成更为准确的自动摘要的可能。传统搜索引擎基于截取式的摘要提供,往往不能准确反映文章内容的大意,而一个好的摘要能够让用户在不浏览详细内容的情况下快速地了解文章的大意,并迅速判断有无必要继续深入阅读,在如今这个信息***的时代,这无疑具有十分重要的意义。 
发明内容
    针对现有摘要方法所存在的问题和不足,本发明的目的是提供一种基于特征信息的Blog自动摘要方法,从而提高摘要的准确率和用户阅读的阅读体验。 
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现: 
基于特征信息的Blog自动摘要方法,包括以下步骤:
步骤1)基于特征信息的语句得分,其包括词条特征信息得分和语句特征信息得分;
(a)词条特征信息得分
利用分词工具对待处理的博文进行分词和词性标注,过滤掉数词、量词、介词等对句意表达不大的词,将预处理后得到的词条集合记为
Figure 2012101938833100002DEST_PATH_IMAGE001
然后综合考虑博文词频、图的描述信息、标题和标签等因素对WS中的词条进行打分,词条的综合得分公式如下:
Figure 505064DEST_PATH_IMAGE002
(b)语句特征信息得分
所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
步骤2)基于潜在语义的评论关注得分
(a)找出原文中的每个句子被哪些评论所关注以及关注的程度;
(b)根据每个句子所得到的评论关注程度和评论价值,来确定该句子被关注的权重得分;
步骤3)摘要复选与合并
    (a)初次摘要生成
    经过上述两步处理后,每条语句最终的得分由特征得分和评论关注得分两部分组成,可以记为
Figure 627872DEST_PATH_IMAGE004
,并计算权值;
在得到博文内每条语句的权值后,首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n,然后将博文内的句子按权值进行排名,取出排名前n位的句子,即为初次生成的摘要,记为FA;
(b)二次摘要的抽取
将第一次抽取出的摘要句还原到原文,然后把没有包含摘要句的自然段落提取出来,组成候选自然段落集合CPS:
Figure 2012101938833100002DEST_PATH_IMAGE005
假定CPS中某个自然段落
Figure 305453DEST_PATH_IMAGE006
,其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS,其后面包含摘要句的最相邻自然段落内的摘要句集合为NAS,分别计算
Figure 2012101938833100002DEST_PATH_IMAGE007
和这两个集合的相似度;利用TF-IDF将PAS和
Figure 234226DEST_PATH_IMAGE006
量化成对应的向量
Figure 2012101938833100002DEST_PATH_IMAGE009
,直接以余弦相似度来衡量
Figure 367715DEST_PATH_IMAGE010
以同样的方式计算出NAS和
Figure 801102DEST_PATH_IMAGE012
的相似度
Figure 321514DEST_PATH_IMAGE013
;如果
Figure 219063DEST_PATH_IMAGE010
Figure 808307DEST_PATH_IMAGE013
中任意一个超过预先设定的阈值,则认为该段落是和其上下文表达的同一主题,并且已经通过上下文的摘要句得到表达,将其从CPS中移除;否则认为该段落是独立表达某个主题,需要从中抽取能够代表该主题的摘要句,即进行二次摘要抽取;
若某个候选自然段落
Figure 525728DEST_PATH_IMAGE014
需要进行二次摘要抽取,先根据其所包含句子数量和摘要的抽取比例确定所要抽取的摘要句数量。设r为抽取比例,
Figure 858620DEST_PATH_IMAGE015
为段落内的语句数,则抽取数量可表示为
Figure 548358DEST_PATH_IMAGE016
,即两者乘积后取下限值;因为这里需要抽取能够体现该段落主题的句子,故对于词频信息得分进行改进后重新给每个语句打分,改进后的词频打分公式如下:
Figure 243257DEST_PATH_IMAGE017
其中
Figure 385657DEST_PATH_IMAGE018
Figure 522240DEST_PATH_IMAGE019
在该段落中出现的频率,PN为博文内的段落数目,
Figure 128802DEST_PATH_IMAGE020
为包含词条
Figure 59849DEST_PATH_IMAGE021
的段落数目;经过改进后,语句得分更能体现该段落的主题;然后将段落内的句子按得分排名,并取出前n位的句子,得到其对应段落的二次摘要句集合,记为
Figure 751861DEST_PATH_IMAGE022
对CPS中的所有自然段落都进行如上一系列处理,将得到的所有段落二次摘要句集合合并在一起,记为;其中有些段落摘要句集合对应的自然段落在原文中可能是连在一起的,并为表达同一主题服务。对于这些集合需要进行一次相似度计算,并将相似度超过阈值的集合进行合并;经过这样的处理后,得到最终的二次摘要句集合SA:
Figure 156134DEST_PATH_IMAGE024
(c)合并摘要句
记二次摘要句集合SA中子集合的数量为w,同时用
Figure 258082DEST_PATH_IMAGE025
表示对FA中删除语句的数量并初始化为0,则具体处理算法可描述如下:
1) 计算FA中句子和句子之间的两两相似度,构造摘要句之间的相似度矩阵,该矩阵为一对称矩阵,记为:
2) 扫描相似度矩阵,找到矩阵中最大的值:
Figure DEST_PATH_IMAGE027
,其表示
Figure 791142DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
为摘要句集合中最为相似的两句,保留权值较大的句子,将权值较小的句子从FA和矩阵中删除,同时删除句子数加1,即:
Figure 44400DEST_PATH_IMAGE030
3) 不断循环第二步,直到,即删除的句子数量满足大于等于
Figure 517583DEST_PATH_IMAGE032
4) 检查矩阵中相似度最大的值看其是否已经满足小于指定的相似度阈值
Figure DEST_PATH_IMAGE033
,若没有则一直进行上述步骤直到满足此条件,否则终止,最终得到删除的句子数为(
Figure DEST_PATH_IMAGE035
),以及删除后的初次摘要集合FA;
5) 从SA中选择
Figure 13734DEST_PATH_IMAGE036
句补充进FA。将SA中每个子集合中得分最高的一句加入FA,以保证每个主题都有代表句被选入最终的摘要中;对剩下的数量,则按SA内各子集合的摘要句数量比进行分配,并按得分高低从每个子集合取出对应数量的句子加入到FA中;
步骤4)经过如上处理后,FA即为本发明最终所得到的摘要句集合。
进一步,步骤1(a)中所述因素包括博文词频得分、图的描述信息、标题和标签; 
所述博文词频得分:词频信息对于词条权重的贡献采用TF-IDF的方式来判定,计算方法如式:
Figure 136147DEST_PATH_IMAGE038
 ;             
所述图片的描述信息:把这些描述信息作为一种有价值的信息引入进来,对于在这些描述信息里出现过的词条会给定一个加权系数
Figure DEST_PATH_IMAGE039
所述标题:标题信息往往是全文的概括,所以如果某个词条出现在标题里则意味着该词条具有很高的主题相关性,为其设定加权系数
所述标签:如果某个词条出现在标签中,则应该具有一个较高的权重,设为
Figure DEST_PATH_IMAGE041
对于以上的加权信息,取值分别为1.1,1.2,1.2,考虑以上的各个因素之后则词条的综合得分为:
Figure 546848DEST_PATH_IMAGE002
进一步,步骤1(b)中所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词; 
所述位置信息:位于段首或者段尾的句子通常会用来概括整段的内容,所以对于位置信息采用加权规则,设定加权系数
Figure 367036DEST_PATH_IMAGE042
所述格式信息:对于一些重要的信息,或者想提示给读者的信息,往往会被用特殊的字体,或者不同的颜色表示出来,这里设定加权系数
Figure DEST_PATH_IMAGE043
所述提示词:在进行主题或者内容概括时,往往会用一些提示词来引出,对于包含这些词的句子,设定加权系数
Figure 591957DEST_PATH_IMAGE044
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
Figure 472188DEST_PATH_IMAGE003
其中,
Figure DEST_PATH_IMAGE045
为该语句中包含的词条信息得分和,
Figure 491725DEST_PATH_IMAGE046
为相应的加权系数,这里位置信息权值设为1.1,格式信息权值设为1.2,提示词权值设为1.1, 
Figure DEST_PATH_IMAGE047
为句子的长度。
进一步的,步骤2的具体方法为,假定语句
Figure 483470DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE049
衍生出的评论集合为CS,则语句
Figure 221750DEST_PATH_IMAGE048
的评论关注得分可以用下式进行衡量,
Figure 383741DEST_PATH_IMAGE050
为相似度,
Figure DEST_PATH_IMAGE051
为评论
Figure 586184DEST_PATH_IMAGE052
的价值得分; 
Figure DEST_PATH_IMAGE053
接下来确定
Figure 477392DEST_PATH_IMAGE054
的值;
将博文和其对应的评论内容看成文档,并进行相应预处理,然后在分类后的每一子类中进行SVD(奇异值)分解,从而构造每个分类下潜在的词-文档语义空间
Figure DEST_PATH_IMAGE055
;计算评论和句子相似度时,在对应的类别的语义空间中,首先将待处理的评论和句子根据词频信息表示成对应的评论向量和句子向量,接着将其在k维语义空间中映射成对应的语义向量;
经过映射处理后,对于某条评论和某个语句的相似度则可以用其语义余弦相似度来衡量,表示如下: 
Figure DEST_PATH_IMAGE057
在上式中,
Figure 787916DEST_PATH_IMAGE058
Figure DEST_PATH_IMAGE059
为语句
Figure 118534DEST_PATH_IMAGE060
与评论各自映射后的语义向量,k为语义空间的维数,
Figure DEST_PATH_IMAGE063
为各自语义向量中第t维的权值;确定
Figure 60832DEST_PATH_IMAGE064
的值,从而得到每个语句的评论关注得分;
进一步due,步骤3(a)中,所述 
Figure 300183DEST_PATH_IMAGE065
的计算如下式,其中
Figure 864020DEST_PATH_IMAGE033
为权重参数用来调节两者对总得分的贡献比:
Figure 923242DEST_PATH_IMAGE066
进一步的,步骤3(c)的第一步中,所述
Figure 230727DEST_PATH_IMAGE067
为SA中子集合的数量。
本发明有益效果是: 
本发明在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余;本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题;本方法生成的摘要对读者更为友好,准确性更高。
附图说明
图1是本发明摘要抽取流程图; 
    图2是本发明的评论关注关系图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。 
基于特征信息的Blog自动摘要方法,包括以下步骤: 
一、基于特征信息的语句得分
1)词条特征信息得分
利用分词工具对待处理的博文进行分词和词性标注,过滤掉数词、量词、介词等对句意表达不大的词。将进行这些预处理后得到的词条集合记为
Figure 321655DEST_PATH_IMAGE068
。然后综合考虑下面一些因素对WS中的词条进行打分。
博文词频得分:词频信息对于词条权重的贡献采用TF-IDF的方式来判定,计算方法如式:
Figure DEST_PATH_IMAGE069
 。              
图片的描述信息:把这些描述信息作为一种有价值的信息引入进来。对于在这些描述信息里出现过的词条会给定一个加权系数
Figure 994076DEST_PATH_IMAGE039
标题:标题信息往往是全文的概括,所以如果某个词条出现在标题里则意味着该词条具有很高的主题相关性,为其设定加权系数
Figure 540595DEST_PATH_IMAGE040
。 
标签:如果某个词条出现在标签中,则应该具有一个较高的权重,设为。 
对于以上的加权信息,在一些参考文献的基础上结合实验分析,取值分别为1.1,1.2,1.2。考虑以上的各个因素之后则词条的综合得分为:
Figure 334556DEST_PATH_IMAGE070
。                      
2) 语句特征信息得分
位置信息:位于段首或者段尾的句子通常会用来概括整段的内容,所以本文对于位置信息采用加权规则,设定加权系数
Figure 240195DEST_PATH_IMAGE042
格式信息:对于一些重要的信息,或者想提示给读者的信息,往往会被用特殊的字体,或者不同的颜色表示出来,这里设定加权系数
Figure 274010DEST_PATH_IMAGE043
。 
提示词:在进行主题或者内容概括时,往往会用一些提示词来引出,对于包含这些词的句子,设定加权系数
Figure DEST_PATH_IMAGE071
。 
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下: 
Figure 739276DEST_PATH_IMAGE003
其中,
Figure 542147DEST_PATH_IMAGE072
为该语句中包含的词条信息得分和,
Figure 139799DEST_PATH_IMAGE043
为相应的加权系数,这里位置信息权值设为1.1,格式信息权值设为1.2,提示词权值设为1.1,
Figure 247225DEST_PATH_IMAGE047
为句子的长度。
二、基于潜在语义的评论关注得分
使用Blog评论可以有效提高信息抽取的准确率,同时由于评论体现的是读者对博文中内容的关注点,所以引入评论能够更好地发现读者感兴趣的主题,生成对读者更为友好的摘要。将评论的关注因素引进句子的权重得分计算,使得用来表达读者所关注的主题点的句子更有可能被抽取出来。
为了能够衡量这种关注权重得分需要进行两步处理:1)找出原文中的每个句子被哪些评论所关注以及关注的程度。2)根据每个句子所得到的评论关注程度和评论价值,来确定该句子被关注的权重得分。 
假定语句
Figure 494666DEST_PATH_IMAGE060
衍生出的评论集合为CS,则语句
Figure 494163DEST_PATH_IMAGE048
的评论关注得分可以用下式进行衡量,
Figure 271626DEST_PATH_IMAGE050
为相似度,
Figure 689969DEST_PATH_IMAGE051
为评论
Figure DEST_PATH_IMAGE073
的价值得分。 
Figure 123356DEST_PATH_IMAGE053
接下来则需要确定
Figure 667206DEST_PATH_IMAGE054
的值。由于评论是由不同的人所提交的,和博文内容之间往往存在着大量的同义噪音,利用词频向量进行相似度计算反映不了真实的相似度。另外由于信息量有限,利用词频信息生成的评论向量和博文语句向量中大部分的元素都为0,存在过于稀疏的问题。基于潜在语义分析(Latent Semantic Analysis,LSA)来计算评论和语句的相似度,可以很好地解决同义噪音问题。LSA将文档从稀疏的高维词汇空间映射到一个低维的向量空间,该向量空间通常被称为隐含语义空间(Latent Semantic Space)。 
本方法中,将博文和其对应的评论内容看成文档,并进行相应预处理,然后在分类后的每一子类中进行SVD分解,从而构造每个分类下潜在的词-文档语义空间
Figure 299175DEST_PATH_IMAGE055
。计算评论和句子相似度时,在对应的类别的语义空间中,首先将待处理的评论和句子根据词频信息表示成对应的评论向量和句子向量,接着将其在k维语义空间中映射成对应的语义向量。 
经过映射处理后,对于某条评论
Figure 153999DEST_PATH_IMAGE061
和某个语句
Figure 871419DEST_PATH_IMAGE048
的相似度则可以用其语义余弦相似度来衡量,表示如下: 
Figure 204312DEST_PATH_IMAGE057
在上式中,
Figure 956367DEST_PATH_IMAGE058
Figure 716513DEST_PATH_IMAGE059
为语句
Figure 855982DEST_PATH_IMAGE060
与评论
Figure 992566DEST_PATH_IMAGE061
各自映射后的语义向量,k为语义空间的维数,
Figure 536811DEST_PATH_IMAGE062
Figure 467857DEST_PATH_IMAGE063
为各自语义向量中第t维的权值。至此我们可以确定
Figure 159870DEST_PATH_IMAGE064
的值,从而得到每个语句的评论关注得分。
三、摘要复选与合并
1)初次摘要生成
经过上述两步处理后,每条语句最终的得分由特征得分和评论关注得分两部分组成,可以记为
Figure 834565DEST_PATH_IMAGE065
,计算如下式,其中
Figure 49295DEST_PATH_IMAGE074
为权重参数用来调节两者对总得分的贡献比。
在得到博文内每条语句的权值后,首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n,然后将博文内的句子按权值进行排名,取出排名前n位的句子,即为初次生成的摘要,记为FA(First Abstract)。FA在语句本身的特征权重中同时融入了语句被读者关注的情况,所以其对读者更为友好。 
)二次摘要的抽取
将第一次抽取出的摘要句还原到原文,然后把没有包含摘要句的自然段落提取出来,组成候选自然段落集合CPS:
Figure DEST_PATH_IMAGE075
假定CPS中某个自然段落
Figure 281617DEST_PATH_IMAGE076
,其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS,其后面包含摘要句的最相邻自然段落内的摘要句集合为NAS,分别计算
Figure DEST_PATH_IMAGE077
和这两个集合的相似度。利用TF-IDF将PAS和
Figure 432107DEST_PATH_IMAGE076
量化成对应的向量
Figure 950944DEST_PATH_IMAGE008
,由于这里不存在计算评论相似度时所存在的问题,直接以余弦相似度来衡量
Figure 881609DEST_PATH_IMAGE078
。 
Figure DEST_PATH_IMAGE079
以同样的方式计算出NAS和
Figure 835790DEST_PATH_IMAGE080
的相似度。如果
Figure 146817DEST_PATH_IMAGE082
Figure 793830DEST_PATH_IMAGE081
中任意一个超过预先设定的阈值,则认为该段落是和其上下文表达的同一主题,并且已经通过上下文的摘要句得到表达,将其从CPS中移除。否则认为该段落是独立表达某个主题,需要从中抽取能够代表该主题的摘要句,即进行二次摘要抽取。 
若某个候选自然段落
Figure 679222DEST_PATH_IMAGE012
需要进行二次摘要抽取,先根据其所包含句子数量和摘要的抽取比例确定所要抽取的摘要句数量。设r为抽取比例,
Figure DEST_PATH_IMAGE083
为段落内的语句数,则抽取数量可表示为
Figure 437093DEST_PATH_IMAGE084
,即两者乘积后取下限值。因为这里需要抽取能够体现该段落主题的句子,故对于词频信息得分进行改进后重新给每个语句打分,改进后的词频打分公式如下: 
Figure DEST_PATH_IMAGE085
其中
Figure 664943DEST_PATH_IMAGE086
Figure 545175DEST_PATH_IMAGE019
在该段落中出现的频率,PN为博文内的段落数目,
Figure 920792DEST_PATH_IMAGE087
为包含词条
Figure 279093DEST_PATH_IMAGE021
的段落数目。经过改进后,语句得分更能体现该段落的主题。然后将段落内的句子按得分排名,并取出前n位的句子,得到其对应段落的二次摘要句集合,记为
对CPS中的所有自然段落都进行如上一系列处理,将得到的所有段落二次摘要句集合合并在一起,记为
Figure 805725DEST_PATH_IMAGE023
。其中有些段落摘要句集合对应的自然段落在原文中可能是连在一起的,并为表达同一主题服务。对于这些集合需要进行一次相似度计算,并将相似度超过阈值的集合进行合并。经过这样的处理后,得到最终的二次摘要句集合SA(second abstract):。 
)合并摘要句
第一次的摘要抽取,其保证了大主题的充分体现,但却可能抽取了过多体现同一大主题的类似句子,带来了信息冗余,同时忽略了一些次要主题。第二次的摘要抽取,从那些没有摘要句被选出的自然段落出发,寻找出可能被忽略了的次要主题。本方法通过合并两次抽取出来的摘要来平衡大主题的信息冗余和次要主题的覆盖率。
记二次摘要句集合SA中子集合的数量为w,同时用
Figure 768312DEST_PATH_IMAGE088
表示对FA中删除语句的数量并初始化为0,则具体处理算法可描述如下: 
1) 计算FA中句子和句子之间的两两相似度,构造摘要句之间的相似度矩阵,该矩阵为一对称矩阵,记为:
Figure 767492DEST_PATH_IMAGE089
2) 扫描相似度矩阵,找到矩阵中最大的值:
Figure 989526DEST_PATH_IMAGE027
,其表示
Figure 339736DEST_PATH_IMAGE028
Figure 305418DEST_PATH_IMAGE029
为摘要句集合中最为相似的两句,保留权值较大的句子,将权值较小的句子从FA和矩阵中删除,同时删除句子数加1,即:
Figure 359437DEST_PATH_IMAGE030
3) 不断循环第二步,直到
Figure 486793DEST_PATH_IMAGE090
,即删除的句子数量满足大于等于
Figure 324299DEST_PATH_IMAGE032
(
Figure 828093DEST_PATH_IMAGE032
为SA中子集合的数量)。 
4) 检查矩阵中相似度最大的值看其是否已经满足小于指定的相似度阈值
Figure 67445DEST_PATH_IMAGE033
,若没有则一直进行上述步骤直到满足此条件,否则终止。最终得到删除的句子数为(
Figure 690504DEST_PATH_IMAGE091
),以及删除后的初次摘要集合FA。 
5) 从SA中选择
Figure 12637DEST_PATH_IMAGE092
句补充进FA。将SA中每个子集合中得分最高的一句加入FA,以保证每个主题都有代表句被选入最终的摘要中。对剩下的数量
Figure 840916DEST_PATH_IMAGE093
,则按SA内各子集合的摘要句数量比进行分配,并按得分高低从每个子集合取出对应数量的句子加入到FA中。 
经过如上处理后,FA即为本发明最终所得到的摘要句集合。 
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所作出的等效的变化或修饰,都应涵盖在本发明的保护范围内。 

Claims (6)

1.基于特征信息的Blog自动摘要方法,其特征在于,包括以下步骤:
步骤1)基于特征信息的语句得分,其包括词条特征信息得分和语句特征信息得分;
(a)词条特征信息得分
利用分词工具对待处理的博文进行分词和词性标注,过滤掉数词、量词、介词等对句意表达不大的词,将预处理后得到的词条集合记为
Figure 2012101938833100001DEST_PATH_IMAGE001
然后综合考虑博文词频、图的描述信息、标题和标签等因素对WS中的词条进行打分,词条的综合得分公式如下:
Figure 576430DEST_PATH_IMAGE002
(b)语句特征信息得分
所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
Figure 2012101938833100001DEST_PATH_IMAGE003
步骤2)基于潜在语义的评论关注得分
(a)找出原文中的每个句子被哪些评论所关注以及关注的程度;
(b)根据每个句子所得到的评论关注程度和评论价值,来确定该句子被关注的权重得分;
步骤3)摘要复选与合并
   (a)初次摘要生成
    经过上述两步处理后,每条语句最终的得分由特征得分和评论关注得分两部分组成,可以记为
Figure 463134DEST_PATH_IMAGE004
,并计算权值;
在得到博文内每条语句的权值后,首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n,然后将博文内的句子按权值进行排名,取出排名前n位的句子,即为初次生成的摘要,记为FA;
(b)二次摘要的抽取
把没有包含摘要句的自然段落提取出来,组成候选自然段落集合CPS:
Figure DEST_PATH_IMAGE005
假定CPS中某个自然段落
Figure 329590DEST_PATH_IMAGE006
,其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS(后面为NAS),分别计算
Figure 107053DEST_PATH_IMAGE006
和这两个集合的相似度,直接以余弦相似度来衡量
Figure DEST_PATH_IMAGE007
Figure 463079DEST_PATH_IMAGE008
以同样的方式计算出NAS和
Figure DEST_PATH_IMAGE009
的相似度;如果
Figure 298103DEST_PATH_IMAGE007
Figure 930073DEST_PATH_IMAGE010
中任意一个超过预先设定的阈值,则认为已经通过上下文的摘要句得到表达,将其从CPS中移除;否则认为该段落是独立表达某个主题,需要进行二次摘要抽取;
若某个候选自然段落
Figure DEST_PATH_IMAGE011
需要进行二次摘要抽取,设r为抽取比例,
Figure 457000DEST_PATH_IMAGE012
为段落内的语句数,则抽取数量可表示为
Figure DEST_PATH_IMAGE013
;因为这里需要抽取能够体现该段落主题的句子,故对于词频信息得分进行改进后重新给每个语句打分:
Figure 368894DEST_PATH_IMAGE014
其中
Figure DEST_PATH_IMAGE015
Figure 577152DEST_PATH_IMAGE016
在该段落中出现的频率,PN为博文内的段落数目,
Figure DEST_PATH_IMAGE017
为包含词条
Figure 938995DEST_PATH_IMAGE018
的段落数目;将段落内的句子按得分排名,并取出前n位的句子,得到其对应段落的二次摘要句集合,记为
Figure DEST_PATH_IMAGE019
对CPS中的所有自然段落都进行如上一系列处理,将得到的所有段落的二次摘要句集合合并在一起,记为;将在原文中连在一起的,并为表达同一主题服务的段落进行合并处理,得到最终的二次摘要句集合SA:
Figure 41873DEST_PATH_IMAGE021
(c)合并摘要句
记二次摘要句集合SA中子集合的数量为w,同时用
Figure 850560DEST_PATH_IMAGE022
表示对FA中删除语句的数量并初始化为0,则具体处理算法可描述如下:
1) 计算FA中句子和句子之间的两两相似度,构造摘要句之间的相似度矩阵,该矩阵为一对称矩阵,记为:
Figure 394805DEST_PATH_IMAGE023
2) 扫描相似度矩阵,找到矩阵中最大的值:,其表示
Figure 833843DEST_PATH_IMAGE025
为摘要句集合中最为相似的两句,保留权值较大的句子,将权值较小的句子从FA和矩阵中删除,同时删除句子数加1,即:
Figure 235186DEST_PATH_IMAGE027
3) 不断循环第二步,直到
Figure 337134DEST_PATH_IMAGE028
,即删除的句子数量满足大于等于
Figure 451196DEST_PATH_IMAGE029
4) 检查矩阵中相似度最大的值看其是否已经满足小于指定的相似度阈值
Figure 929582DEST_PATH_IMAGE030
,若没有则一直进行上述步骤直到满足此条件,否则终止,最终得到删除的句子数为
Figure 245156DEST_PATH_IMAGE031
(
Figure 783585DEST_PATH_IMAGE032
),以及删除后的初次摘要集合FA;
5) 从SA中选择
Figure 184611DEST_PATH_IMAGE033
句补充进FA,将SA中每个子集合中得分最高的一句加入FA,以保证每个主题都有代表句被选入最终的摘要中;对剩下的数量
Figure 466687DEST_PATH_IMAGE034
,则按SA内各子集合的摘要句数量比进行分配,并按得分高低从每个子集合取出对应数量的句子加入到FA中;
步骤4)经过如上处理后,FA即为本发明最终所得到的摘要句集合。
2.根据权利要求1所述的基于特征信息的Blog自动摘要方法,其特征在于:步骤1(a)中所述因素包括博文词频得分、图的描述信息、标题和标签;
所述博文词频得分:词频信息对于词条权重的贡献采用TF-IDF的方式来判定,计算方法如式:
Figure 792363DEST_PATH_IMAGE035
 ;             
所述图片的描述信息:把这些描述信息作为一种有价值的信息引入进来,对于在这些描述信息里出现过的词条会给定一个加权系数
Figure 173797DEST_PATH_IMAGE036
所述标题:标题信息往往是全文的概括,所以如果某个词条出现在标题里则意味着该词条具有很高的主题相关性,为其设定加权系数
Figure 327697DEST_PATH_IMAGE037
所述标签:如果某个词条出现在标签中,则应该具有一个较高的权重,设为
Figure 147886DEST_PATH_IMAGE038
对于以上的加权信息,取值分别为1.1,1.2,1.2,考虑以上的各个因素之后则词条的综合得分为:
Figure 438053DEST_PATH_IMAGE002
3.根据权利要求1所述的基于特征信息的Blog自动摘要方法,其特征在于:步骤1(b)中所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;
所述位置信息:位于段首或者段尾的句子通常会用来概括整段的内容,所以对于位置信息采用加权规则,设定加权系数
Figure 52705DEST_PATH_IMAGE039
所述格式信息:对于一些重要的信息,或者想提示给读者的信息,往往会被用特殊的字体,或者不同的颜色表示出来,这里设定加权系数
Figure 428323DEST_PATH_IMAGE040
所述提示词:在进行主题或者内容概括时,往往会用一些提示词来引出,对于包含这些词的句子,设定加权系数
Figure 924639DEST_PATH_IMAGE041
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
其中,
Figure 120445DEST_PATH_IMAGE042
为该语句中包含的词条信息得分和,
Figure 921042DEST_PATH_IMAGE039
Figure 83033DEST_PATH_IMAGE040
Figure 288405DEST_PATH_IMAGE043
为相应的加权系数,这里位置信息权值设为1.1,格式信息权值设为1.2,提示词权值设为1.1, 
Figure 448122DEST_PATH_IMAGE044
为句子的长度。
4.根据权利要求1所述的基于特征信息的Blog自动摘要方法,其特征在于:
步骤2的具体方法为,假定语句
Figure 532752DEST_PATH_IMAGE045
衍生出的评论集合为CS,则语句
Figure 617700DEST_PATH_IMAGE047
的评论关注得分可以用下式进行衡量,为相似度,
Figure 1
为评论的价值得分;
接下来确定
Figure 824297DEST_PATH_IMAGE052
的值;
将博文和其对应的评论内容看成文档,并进行相应预处理,然后在分类后的每一子类中进行SVD分解,从而构造每个分类下潜在的词-文档语义空间
Figure 821203DEST_PATH_IMAGE053
;计算评论和句子相似度时,在对应的类别的语义空间中,首先将待处理的评论和句子根据词频信息表示成对应的评论向量和句子向量,接着将其在k维语义空间中映射成对应的语义向量;
经过映射处理后,对于某条评论
Figure 128688DEST_PATH_IMAGE054
和某个语句
Figure 213757DEST_PATH_IMAGE047
的相似度则用其语义余弦相似度来衡量,表示如下: 
Figure 948494DEST_PATH_IMAGE055
在上式中,
Figure 495013DEST_PATH_IMAGE056
为语句
Figure 288974DEST_PATH_IMAGE045
与评论各自映射后的语义向量,k为语义空间的维数,
Figure 166111DEST_PATH_IMAGE058
Figure 812469DEST_PATH_IMAGE059
为各自语义向量中第t维的权值;确定
Figure 880919DEST_PATH_IMAGE060
的值,从而得到每个语句的评论关注得分。
5.根据权利要求1所述的基于特征信息的Blog自动摘要方法,其特征在于:步骤3(a)中,所述 
Figure DEST_PATH_IMAGE061
的计算如下式,其中
Figure 832826DEST_PATH_IMAGE062
为权重参数用来调节两者对总得分的贡献比:
Figure 26041DEST_PATH_IMAGE063
6.根据权利要求1所述的基于特征信息的Blog自动摘要方法,其特征在于:步骤3(c)的第一步中,所述
Figure 479019DEST_PATH_IMAGE064
为SA中子集合的数量。
CN201210193883.3A 2012-06-13 2012-06-13 基于特征信息的Blog自动摘要方法 Expired - Fee Related CN103246687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210193883.3A CN103246687B (zh) 2012-06-13 2012-06-13 基于特征信息的Blog自动摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210193883.3A CN103246687B (zh) 2012-06-13 2012-06-13 基于特征信息的Blog自动摘要方法

Publications (2)

Publication Number Publication Date
CN103246687A true CN103246687A (zh) 2013-08-14
CN103246687B CN103246687B (zh) 2016-08-17

Family

ID=48926211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210193883.3A Expired - Fee Related CN103246687B (zh) 2012-06-13 2012-06-13 基于特征信息的Blog自动摘要方法

Country Status (1)

Country Link
CN (1) CN103246687B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156452A (zh) * 2014-08-18 2014-11-19 中国人民解放军国防科学技术大学 一种网页文本摘要生成方法和装置
WO2015035898A1 (en) * 2013-09-13 2015-03-19 Tencent Technology (Shenzhen) Company Limited Method, system and apparatus for adding network comment information
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
CN107273474A (zh) * 2017-06-08 2017-10-20 成都数联铭品科技有限公司 基于潜在语义分析的自动摘要抽取方法及***
CN108052686A (zh) * 2018-01-26 2018-05-18 腾讯科技(深圳)有限公司 一种摘要提取方法及相关设备
CN108108447A (zh) * 2017-12-27 2018-06-01 掌阅科技股份有限公司 电子缩略书生成方法、电子设备及计算机存储介质
CN108197103A (zh) * 2017-12-27 2018-06-22 掌阅科技股份有限公司 电子缩略书生成方法、电子设备及计算机存储介质
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN111651589A (zh) * 2020-08-10 2020-09-11 中南民族大学 一种针对长文档的两阶段文本摘要生成方法
CN112364225A (zh) * 2020-09-30 2021-02-12 昆明理工大学 一种结合用户评论的司法舆情文本摘要方法
CN113673215A (zh) * 2021-07-13 2021-11-19 北京搜狗科技发展有限公司 文本的摘要生成方法、装置、电子设备及可读介质
CN114741499A (zh) * 2022-06-08 2022-07-12 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和***
CN114925920A (zh) * 2022-05-25 2022-08-19 中国平安财产保险股份有限公司 离线位置预测方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080033970A1 (en) * 2006-08-07 2008-02-07 Chacha Search, Inc. Electronic previous search results log
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080033970A1 (en) * 2006-08-07 2008-02-07 Chacha Search, Inc. Electronic previous search results log
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈明等: "一种基于特征信息的Blog自动文摘研究", 《计算机应用研究》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10129188B2 (en) 2013-09-13 2018-11-13 Tencent Technology (Shenzhen) Company Limited Method, system and apparatus for adding network comment information
WO2015035898A1 (en) * 2013-09-13 2015-03-19 Tencent Technology (Shenzhen) Company Limited Method, system and apparatus for adding network comment information
CN104156452A (zh) * 2014-08-18 2014-11-19 中国人民解放军国防科学技术大学 一种网页文本摘要生成方法和装置
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN104503958B (zh) * 2014-11-19 2017-09-26 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
CN107273474A (zh) * 2017-06-08 2017-10-20 成都数联铭品科技有限公司 基于潜在语义分析的自动摘要抽取方法及***
CN108197103B (zh) * 2017-12-27 2019-05-17 掌阅科技股份有限公司 电子缩略书生成方法、电子设备及计算机存储介质
CN108197103A (zh) * 2017-12-27 2018-06-22 掌阅科技股份有限公司 电子缩略书生成方法、电子设备及计算机存储介质
CN108108447B (zh) * 2017-12-27 2020-12-08 掌阅科技股份有限公司 电子缩略书生成方法、电子设备及计算机存储介质
CN108108447A (zh) * 2017-12-27 2018-06-01 掌阅科技股份有限公司 电子缩略书生成方法、电子设备及计算机存储介质
CN108052686A (zh) * 2018-01-26 2018-05-18 腾讯科技(深圳)有限公司 一种摘要提取方法及相关设备
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN111651589A (zh) * 2020-08-10 2020-09-11 中南民族大学 一种针对长文档的两阶段文本摘要生成方法
CN112364225A (zh) * 2020-09-30 2021-02-12 昆明理工大学 一种结合用户评论的司法舆情文本摘要方法
CN113673215A (zh) * 2021-07-13 2021-11-19 北京搜狗科技发展有限公司 文本的摘要生成方法、装置、电子设备及可读介质
CN114925920A (zh) * 2022-05-25 2022-08-19 中国平安财产保险股份有限公司 离线位置预测方法、装置、电子设备及存储介质
CN114925920B (zh) * 2022-05-25 2024-05-03 中国平安财产保险股份有限公司 离线位置预测方法、装置、电子设备及存储介质
CN114741499A (zh) * 2022-06-08 2022-07-12 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和***
CN114741499B (zh) * 2022-06-08 2022-09-06 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和***

Also Published As

Publication number Publication date
CN103246687B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103246687B (zh) 基于特征信息的Blog自动摘要方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
Al-Kabi et al. An opinion analysis tool for colloquial and standard Arabic
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
Xu et al. Using deep linguistic features for finding deceptive opinion spam
Velldal et al. NoReC: The norwegian review corpus
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
Smith et al. Automatic summarization as means of simplifying texts, an evaluation for swedish
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
Claster et al. Naïve Bayes and unsupervised artificial neural nets for Cancun tourism social media data analysis
Saad et al. Extracting comparable articles from wikipedia and measuring their comparabilities
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Hai et al. Coarse-to-fine review selection via supervised joint aspect and sentiment model
Sağlam et al. Developing Turkish sentiment lexicon for sentiment analysis using online news media
González et al. Siamese hierarchical attention networks for extractive summarization
Novotný et al. Ensembling ten math information retrieval systems
JP2006244305A (ja) クチコミ情報判定方法及び装置及びプログラム
Rasheed et al. Building a text collection for Urdu information retrieval
Liu et al. An Efficient Machine-Generated Data Modeling Approach Based on Domain-Aware Knowledge for Intelligent Consumer Electronics
Sharaff et al. Document Summarization by Agglomerative nested clustering approach
Alam et al. Bangla news trend observation using LDA based topic modeling
Vaseeharan et al. Review on sentiment analysis of twitter posts about news headlines using machine learning approaches and naïve bayes classifier
Jeong et al. Efficient keyword extraction and text summarization for reading articles on smart phone
Li et al. Confidence estimation and reputation analysis in aspect extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20210613