CN103246687A

CN103246687A - 基于特征信息的Blog自动摘要方法

Info

Publication number: CN103246687A
Application number: CN2012101938833A
Authority: CN
Inventors: 赵朋朋; 鲜学丰; 陈明; 刘全; 崔志明
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2012-06-13
Filing date: 2012-06-13
Publication date: 2013-08-14
Anticipated expiration: 2032-06-13
Also published as: CN103246687B

Abstract

本发明在于公开了一种基于特征信息的Blog自动摘要方法，其步骤包括：基于特征信息的语句得分；基于潜在语义的评论关注得分；摘要复选与合并；经过如上处理后，即为本发明最终所得到的摘要句集合；该方法在充分利用Blog特征信息的基础上，基于潜在语义相关性来融合评论中的关注点，生成对读者更为友好的摘要，同时通过摘要复选的方法平衡了主题覆盖与信息冗余；本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题；本方法生成的摘要对读者更为友好，准确性更高。

Description

基于特征信息的Blog自动摘要方法

技术领域

本发明涉及自动摘要领域，尤其涉及一种基于特征信息的Blog自动摘要方法。

背景技术

随着Web2.0的兴起，Blog这种新的信息传播和交互方式不断流行，其影响力也在日益扩大，在即时性与多样性方面已经超过传统媒体，给现实世界带来了巨大影响，越来越受到网民和企业界的重视。

面对巨大的Blog用户规模所带来的海量Blog信息，读者如何去查找和阅读自己感兴趣的内容就变成了一个难题。在自动摘要研究中，一方面更为多样化的表达方式和更为复杂的段落结构给面向Blog的自动摘要带来了挑战，但另一方面，由于Blog本身比传统网页增加了标签、评论等额外信息，也提供了生成更为准确的自动摘要的可能。传统搜索引擎基于截取式的摘要提供，往往不能准确反映文章内容的大意，而一个好的摘要能够让用户在不浏览详细内容的情况下快速地了解文章的大意，并迅速判断有无必要继续深入阅读，在如今这个信息***的时代，这无疑具有十分重要的意义。

发明内容

针对现有摘要方法所存在的问题和不足，本发明的目的是提供一种基于特征信息的Blog自动摘要方法，从而提高摘要的准确率和用户阅读的阅读体验。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

基于特征信息的Blog自动摘要方法，包括以下步骤：

步骤1)基于特征信息的语句得分，其包括词条特征信息得分和语句特征信息得分；

（a）词条特征信息得分

利用分词工具对待处理的博文进行分词和词性标注，过滤掉数词、量词、介词等对句意表达不大的词，将预处理后得到的词条集合记为

Figure 2012101938833100002DEST_PATH_IMAGE001

；

然后综合考虑博文词频、图的描述信息、标题和标签等因素对WS中的词条进行打分，词条的综合得分公式如下：

；

（b）语句特征信息得分

所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词；

在综合考虑句子的特征以及其所包含的词条信息的基础上，可以利用公式计算句子的权重得分，公式如下：

；

步骤2）基于潜在语义的评论关注得分

（a）找出原文中的每个句子被哪些评论所关注以及关注的程度；

（b）根据每个句子所得到的评论关注程度和评论价值，来确定该句子被关注的权重得分;

步骤3）摘要复选与合并

（a）初次摘要生成

经过上述两步处理后，每条语句最终的得分由特征得分和评论关注得分两部分组成，可以记为

，并计算权值；

在得到博文内每条语句的权值后，首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n，然后将博文内的句子按权值进行排名，取出排名前n位的句子，即为初次生成的摘要，记为FA；

（b）二次摘要的抽取

将第一次抽取出的摘要句还原到原文，然后把没有包含摘要句的自然段落提取出来，组成候选自然段落集合CPS:

Figure 2012101938833100002DEST_PATH_IMAGE005

；

假定CPS中某个自然段落

，其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS，其后面包含摘要句的最相邻自然段落内的摘要句集合为NAS，分别计算

Figure 2012101938833100002DEST_PATH_IMAGE007

和这两个集合的相似度；利用TF-IDF将PAS和

量化成对应的向量、

Figure 2012101938833100002DEST_PATH_IMAGE009

，直接以余弦相似度来衡量

；

以同样的方式计算出NAS和

的相似度

；如果

和

中任意一个超过预先设定的阈值，则认为该段落是和其上下文表达的同一主题，并且已经通过上下文的摘要句得到表达，将其从CPS中移除；否则认为该段落是独立表达某个主题，需要从中抽取能够代表该主题的摘要句，即进行二次摘要抽取；

若某个候选自然段落

需要进行二次摘要抽取，先根据其所包含句子数量和摘要的抽取比例确定所要抽取的摘要句数量。设r为抽取比例，

为段落内的语句数，则抽取数量可表示为

，即两者乘积后取下限值；因为这里需要抽取能够体现该段落主题的句子，故对于词频信息得分进行改进后重新给每个语句打分，改进后的词频打分公式如下：

其中

为

在该段落中出现的频率，PN为博文内的段落数目，

为包含词条

的段落数目；经过改进后，语句得分更能体现该段落的主题；然后将段落内的句子按得分排名，并取出前n位的句子，得到其对应段落的二次摘要句集合，记为

；

对CPS中的所有自然段落都进行如上一系列处理，将得到的所有段落二次摘要句集合合并在一起，记为；其中有些段落摘要句集合对应的自然段落在原文中可能是连在一起的，并为表达同一主题服务。对于这些集合需要进行一次相似度计算，并将相似度超过阈值的集合进行合并；经过这样的处理后，得到最终的二次摘要句集合SA:

；

（c）合并摘要句

记二次摘要句集合SA中子集合的数量为w，同时用

表示对FA中删除语句的数量并初始化为0，则具体处理算法可描述如下：

1) 计算FA中句子和句子之间的两两相似度，构造摘要句之间的相似度矩阵,该矩阵为一对称矩阵，记为：

2) 扫描相似度矩阵，找到矩阵中最大的值：

，其表示

和

为摘要句集合中最为相似的两句，保留权值较大的句子，将权值较小的句子从FA和矩阵中删除，同时删除句子数加1，即：

；

3) 不断循环第二步，直到，即删除的句子数量满足大于等于

；

4) 检查矩阵中相似度最大的值看其是否已经满足小于指定的相似度阈值

,若没有则一直进行上述步骤直到满足此条件，否则终止，最终得到删除的句子数为(

)，以及删除后的初次摘要集合FA；

5) 从SA中选择

句补充进FA。将SA中每个子集合中得分最高的一句加入FA，以保证每个主题都有代表句被选入最终的摘要中；对剩下的数量，则按SA内各子集合的摘要句数量比进行分配，并按得分高低从每个子集合取出对应数量的句子加入到FA中；

步骤4）经过如上处理后，FA即为本发明最终所得到的摘要句集合。

进一步，步骤1（a）中所述因素包括博文词频得分、图的描述信息、标题和标签；

所述博文词频得分：词频信息对于词条权重的贡献采用TF-IDF的方式来判定，计算方法如式：

；

所述图片的描述信息：把这些描述信息作为一种有价值的信息引入进来，对于在这些描述信息里出现过的词条会给定一个加权系数

；

所述标题：标题信息往往是全文的概括，所以如果某个词条出现在标题里则意味着该词条具有很高的主题相关性，为其设定加权系数；

所述标签：如果某个词条出现在标签中，则应该具有一个较高的权重，设为

；

对于以上的加权信息，取值分别为1.1，1.2，1.2，考虑以上的各个因素之后则词条的综合得分为：

。

进一步，步骤1（b）中所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词；

所述位置信息：位于段首或者段尾的句子通常会用来概括整段的内容，所以对于位置信息采用加权规则，设定加权系数

；

所述格式信息：对于一些重要的信息，或者想提示给读者的信息，往往会被用特殊的字体，或者不同的颜色表示出来，这里设定加权系数

；

所述提示词：在进行主题或者内容概括时，往往会用一些提示词来引出，对于包含这些词的句子，设定加权系数

；

其中，

为该语句中包含的词条信息得分和，、、

为相应的加权系数，这里位置信息权值设为1.1，格式信息权值设为1.2，提示词权值设为1.1，

为句子的长度。

进一步的，步骤2的具体方法为，假定语句

衍生出的评论集合为CS，则语句

的评论关注得分可以用下式进行衡量，

为相似度，

为评论

的价值得分；

接下来确定

的值；

将博文和其对应的评论内容看成文档，并进行相应预处理，然后在分类后的每一子类中进行SVD（奇异值）分解，从而构造每个分类下潜在的词-文档语义空间

；计算评论和句子相似度时，在对应的类别的语义空间中，首先将待处理的评论和句子根据词频信息表示成对应的评论向量和句子向量，接着将其在k维语义空间中映射成对应的语义向量；

经过映射处理后，对于某条评论和某个语句的相似度则可以用其语义余弦相似度来衡量，表示如下：

在上式中，

和

为语句

与评论各自映射后的语义向量，k为语义空间的维数，和

为各自语义向量中第t维的权值；确定

的值，从而得到每个语句的评论关注得分；

进一步due，步骤3（a）中，所述

的计算如下式，其中

为权重参数用来调节两者对总得分的贡献比：

进一步的，步骤3（c）的第一步中，所述

为SA中子集合的数量。

本发明有益效果是：

本发明在充分利用Blog特征信息的基础上，基于潜在语义相关性来融合评论中的关注点，生成对读者更为友好的摘要，同时通过摘要复选的方法平衡了主题覆盖与信息冗余；本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题；本方法生成的摘要对读者更为友好，准确性更高。

附图说明

图1是本发明摘要抽取流程图；

图2是本发明的评论关注关系图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

基于特征信息的Blog自动摘要方法，包括以下步骤：

一、基于特征信息的语句得分

1)词条特征信息得分

利用分词工具对待处理的博文进行分词和词性标注，过滤掉数词、量词、介词等对句意表达不大的词。将进行这些预处理后得到的词条集合记为

。然后综合考虑下面一些因素对WS中的词条进行打分。

博文词频得分：词频信息对于词条权重的贡献采用TF-IDF的方式来判定，计算方法如式：

。

图片的描述信息：把这些描述信息作为一种有价值的信息引入进来。对于在这些描述信息里出现过的词条会给定一个加权系数

。

标题：标题信息往往是全文的概括，所以如果某个词条出现在标题里则意味着该词条具有很高的主题相关性，为其设定加权系数

。

标签：如果某个词条出现在标签中，则应该具有一个较高的权重，设为。

对于以上的加权信息，在一些参考文献的基础上结合实验分析，取值分别为1.1，1.2，1.2。考虑以上的各个因素之后则词条的综合得分为：

。

2) 语句特征信息得分

位置信息：位于段首或者段尾的句子通常会用来概括整段的内容，所以本文对于位置信息采用加权规则，设定加权系数

。

格式信息：对于一些重要的信息，或者想提示给读者的信息，往往会被用特殊的字体，或者不同的颜色表示出来，这里设定加权系数

。

提示词：在进行主题或者内容概括时，往往会用一些提示词来引出，对于包含这些词的句子，设定加权系数

。

其中，

为该语句中包含的词条信息得分和，、

、为相应的加权系数，这里位置信息权值设为1.1，格式信息权值设为1.2，提示词权值设为1.1，

为句子的长度。

二、基于潜在语义的评论关注得分

使用Blog评论可以有效提高信息抽取的准确率，同时由于评论体现的是读者对博文中内容的关注点，所以引入评论能够更好地发现读者感兴趣的主题，生成对读者更为友好的摘要。将评论的关注因素引进句子的权重得分计算，使得用来表达读者所关注的主题点的句子更有可能被抽取出来。

为了能够衡量这种关注权重得分需要进行两步处理：1)找出原文中的每个句子被哪些评论所关注以及关注的程度。2)根据每个句子所得到的评论关注程度和评论价值，来确定该句子被关注的权重得分。

假定语句

衍生出的评论集合为CS，则语句

的评论关注得分可以用下式进行衡量，

为相似度，

为评论

的价值得分。

接下来则需要确定

的值。由于评论是由不同的人所提交的，和博文内容之间往往存在着大量的同义噪音，利用词频向量进行相似度计算反映不了真实的相似度。另外由于信息量有限，利用词频信息生成的评论向量和博文语句向量中大部分的元素都为0，存在过于稀疏的问题。基于潜在语义分析(Latent Semantic Analysis，LSA)来计算评论和语句的相似度，可以很好地解决同义噪音问题。LSA将文档从稀疏的高维词汇空间映射到一个低维的向量空间，该向量空间通常被称为隐含语义空间(Latent Semantic Space)。

本方法中，将博文和其对应的评论内容看成文档，并进行相应预处理，然后在分类后的每一子类中进行SVD分解，从而构造每个分类下潜在的词-文档语义空间

。计算评论和句子相似度时，在对应的类别的语义空间中，首先将待处理的评论和句子根据词频信息表示成对应的评论向量和句子向量，接着将其在k维语义空间中映射成对应的语义向量。

经过映射处理后，对于某条评论

和某个语句

的相似度则可以用其语义余弦相似度来衡量，表示如下：

在上式中，

和

为语句

与评论

各自映射后的语义向量，k为语义空间的维数，

和

为各自语义向量中第t维的权值。至此我们可以确定

的值，从而得到每个语句的评论关注得分。

三、摘要复选与合并

1）初次摘要生成

，计算如下式，其中

为权重参数用来调节两者对总得分的贡献比。

在得到博文内每条语句的权值后，首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n，然后将博文内的句子按权值进行排名，取出排名前n位的句子，即为初次生成的摘要，记为FA(First Abstract)。FA在语句本身的特征权重中同时融入了语句被读者关注的情况，所以其对读者更为友好。

）二次摘要的抽取

。

假定CPS中某个自然段落

和这两个集合的相似度。利用TF-IDF将PAS和

量化成对应的向量

、，由于这里不存在计算评论相似度时所存在的问题，直接以余弦相似度来衡量

。

以同样的方式计算出NAS和

的相似度。如果

和

中任意一个超过预先设定的阈值，则认为该段落是和其上下文表达的同一主题，并且已经通过上下文的摘要句得到表达，将其从CPS中移除。否则认为该段落是独立表达某个主题，需要从中抽取能够代表该主题的摘要句，即进行二次摘要抽取。

若某个候选自然段落

为段落内的语句数，则抽取数量可表示为

，即两者乘积后取下限值。因为这里需要抽取能够体现该段落主题的句子，故对于词频信息得分进行改进后重新给每个语句打分，改进后的词频打分公式如下：

其中

为

在该段落中出现的频率，PN为博文内的段落数目，

为包含词条

的段落数目。经过改进后，语句得分更能体现该段落的主题。然后将段落内的句子按得分排名，并取出前n位的句子，得到其对应段落的二次摘要句集合，记为。

对CPS中的所有自然段落都进行如上一系列处理，将得到的所有段落二次摘要句集合合并在一起，记为

。其中有些段落摘要句集合对应的自然段落在原文中可能是连在一起的，并为表达同一主题服务。对于这些集合需要进行一次相似度计算，并将相似度超过阈值的集合进行合并。经过这样的处理后，得到最终的二次摘要句集合SA(second abstract):。

）合并摘要句

第一次的摘要抽取，其保证了大主题的充分体现，但却可能抽取了过多体现同一大主题的类似句子，带来了信息冗余，同时忽略了一些次要主题。第二次的摘要抽取，从那些没有摘要句被选出的自然段落出发，寻找出可能被忽略了的次要主题。本方法通过合并两次抽取出来的摘要来平衡大主题的信息冗余和次要主题的覆盖率。

记二次摘要句集合SA中子集合的数量为w，同时用

2) 扫描相似度矩阵，找到矩阵中最大的值：

，其表示

和

。

3) 不断循环第二步，直到

，即删除的句子数量满足大于等于

(

为SA中子集合的数量)。

,若没有则一直进行上述步骤直到满足此条件，否则终止。最终得到删除的句子数为(

)，以及删除后的初次摘要集合FA。

5) 从SA中选择

句补充进FA。将SA中每个子集合中得分最高的一句加入FA，以保证每个主题都有代表句被选入最终的摘要中。对剩下的数量

，则按SA内各子集合的摘要句数量比进行分配，并按得分高低从每个子集合取出对应数量的句子加入到FA中。

经过如上处理后，FA即为本发明最终所得到的摘要句集合。

上述实施例只是为了说明本发明的技术构思及特点，其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所作出的等效的变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.基于特征信息的Blog自动摘要方法，其特征在于，包括以下步骤：

（a）词条特征信息得分

Figure 2012101938833100001DEST_PATH_IMAGE001

；

；

（b）语句特征信息得分

Figure 2012101938833100001DEST_PATH_IMAGE003

；

步骤2）基于潜在语义的评论关注得分

步骤3）摘要复选与合并

（a）初次摘要生成

，并计算权值；

（b）二次摘要的抽取

把没有包含摘要句的自然段落提取出来，组成候选自然段落集合CPS:

；

假定CPS中某个自然段落

，其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS（后面为NAS），分别计算

和这两个集合的相似度，直接以余弦相似度来衡量

；

以同样的方式计算出NAS和

的相似度；如果

和

中任意一个超过预先设定的阈值，则认为已经通过上下文的摘要句得到表达，将其从CPS中移除；否则认为该段落是独立表达某个主题，需要进行二次摘要抽取；

若某个候选自然段落

需要进行二次摘要抽取，设r为抽取比例，

为段落内的语句数，则抽取数量可表示为

；因为这里需要抽取能够体现该段落主题的句子，故对于词频信息得分进行改进后重新给每个语句打分：

其中

为

在该段落中出现的频率，PN为博文内的段落数目，

为包含词条

的段落数目；将段落内的句子按得分排名，并取出前n位的句子，得到其对应段落的二次摘要句集合，记为

；

对CPS中的所有自然段落都进行如上一系列处理，将得到的所有段落的二次摘要句集合合并在一起，记为；将在原文中连在一起的，并为表达同一主题服务的段落进行合并处理，得到最终的二次摘要句集合SA:

；

（c）合并摘要句

记二次摘要句集合SA中子集合的数量为w，同时用

2) 扫描相似度矩阵，找到矩阵中最大的值：，其表示

和为摘要句集合中最为相似的两句，保留权值较大的句子，将权值较小的句子从FA和矩阵中删除，同时删除句子数加1，即：

；

3) 不断循环第二步，直到

，即删除的句子数量满足大于等于

；

,若没有则一直进行上述步骤直到满足此条件，否则终止，最终得到删除的句子数为

(

)，以及删除后的初次摘要集合FA；

5) 从SA中选择

句补充进FA，将SA中每个子集合中得分最高的一句加入FA，以保证每个主题都有代表句被选入最终的摘要中；对剩下的数量

，则按SA内各子集合的摘要句数量比进行分配，并按得分高低从每个子集合取出对应数量的句子加入到FA中；

2.根据权利要求1所述的基于特征信息的Blog自动摘要方法，其特征在于：步骤1（a）中所述因素包括博文词频得分、图的描述信息、标题和标签；

；

；

所述标题：标题信息往往是全文的概括，所以如果某个词条出现在标题里则意味着该词条具有很高的主题相关性，为其设定加权系数

；

；

。

3.根据权利要求1所述的基于特征信息的Blog自动摘要方法，其特征在于：步骤1（b）中所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词；

；

；

；

其中，

为该语句中包含的词条信息得分和，

、

、

为句子的长度。

4.根据权利要求1所述的基于特征信息的Blog自动摘要方法，其特征在于：

步骤2的具体方法为，假定语句

衍生出的评论集合为CS，则语句

的评论关注得分可以用下式进行衡量，为相似度，

为评论的价值得分；

接下来确定

的值；

将博文和其对应的评论内容看成文档，并进行相应预处理，然后在分类后的每一子类中进行SVD分解，从而构造每个分类下潜在的词-文档语义空间

经过映射处理后，对于某条评论

和某个语句

的相似度则用其语义余弦相似度来衡量，表示如下：

在上式中，

和为语句

与评论各自映射后的语义向量，k为语义空间的维数，

和

为各自语义向量中第t维的权值；确定

的值，从而得到每个语句的评论关注得分。

5.根据权利要求1所述的基于特征信息的Blog自动摘要方法，其特征在于：步骤3（a）中，所述

的计算如下式，其中

为权重参数用来调节两者对总得分的贡献比：

。

6.根据权利要求1所述的基于特征信息的Blog自动摘要方法，其特征在于：步骤3（c）的第一步中，所述

为SA中子集合的数量。