CN101441662A

CN101441662A - 基于网络拓扑的主题信息采集方法

Info

Publication number: CN101441662A
Application number: CNA2008102275821A
Authority: CN
Inventors: 刘云; 熊菲; 李勇; 沈波; 张振江; 贾凡; 程辉; 张立; 张彦超; 司夏萌
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2008-11-28
Filing date: 2008-11-28
Publication date: 2009-05-27
Anticipated expiration: 2028-11-28
Also published as: CN101441662B

Abstract

本发明涉及一种基于网络拓扑的主题信息采集方法。它是从搜索引擎获取初始网页集，经净化、分词和去停止词后，表示成向量集合，使用向量空间模型计算文本相似性。利用网络结构，对抽取出的URL先进行链接分析，通过URL的目录层次过滤链接，再根据网络的无标度性，修正URL的权值，进行优先吸附选择。同时反馈不相关的主题区域，并通过URL与种子集合的距离设置不相关URL的缓冲区长度。对采集到的主题计算其热度，以此选择主题获取其新的回复。

Description

基于网络拓扑的主题信息采集方法

技术领域

本发明涉及基于网络拓扑的主题信息采集方法，属于网络安全领域。

背景技术

随着信息网络化的日益普及，互联网上的信息与日俱增，巨大的潜在价值蕴含在这些海量异构的Web信息资源中。互联网方便快捷的信息发布方式以及受众互动的交流平台，使得网络已经超越传统媒体，成为实时信息获取的主要方式。新闻事件通常最早出现在互联网上，并在网络中引起讨论。

如何有效地提取并利用网络信息成为一个巨大的挑战。搜索引擎通过查询的方式为用户提供快捷有效的信息获取途径。网络信息采集***为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分(J.Cho，Crawling the web：Discovery and Maintenance of Large-Saled Web Data，Computer Science，2001.)。通用宽度优先(BFS)采集***在完成当前层次的搜索后，才进行下一层次的搜索，覆盖面广，往往包含用户不关心的信息。基于特定话题主题信息采集***很好的解决了这个问题。主题信息采集***根据既定的抓取目标，采用网页分析算法，有选择的访问相关链接，获取所需要的信息，它的目的是为面向主题的用户查询准备数据资源(周立柱，林玲，聚焦爬虫技术研究综述，计算机应用，2005，25(9)：1965-1969.)。

Jyh-Jong Tsay等(Jyh-Jong Tsay，Chen-Yang Shih，Bo-Liang Wu.Auto Crawler：an Integrated System For Automatic Topical Crawler.Computer and InformationScience，2005.Fourth Annual ACIS International Conference on 2005：462-467.)在宽度优先搜索的基础上，使用了相关反馈并合理设置隧道长度，使采集***尽早脱离不相关区域，挖掘隐藏不相关链接后的相关内容。Jamali M.(Jamali M.，Sayyadi H.，Hariri B.B.，et al.A Method for Focused Crawling Using Combination ofLink Structure and Content Similarity.Web Intelligence，2006.IEEE/WIC/ACMInternational Conference on，2006：753-756.)结合链接结构及文本相似性处理URL，将URL权值定义为网页相似性与URL链入链出度之和的乘积，是后效性的URL处理方式。汪涛、樊孝忠(汪涛，樊孝忠.链接分析对主题爬虫的改进.计算机应用，2004，24(B12)：174-176.)在使用向量空间模型的基础上，通过对链接进行物理结构及逻辑结构分析过滤URL，以略微降低查全率为代价，追求更高的查准率。

通用的主题信息采集***，将同一网页中提取的URL不加区分地对待，保留了较多不相关的链接，且无法降低相似性判决错误带来的影响。

发明内容

本发明目的在于避免上述现有技术中的不足之处而提供一种基于网络拓扑的主题信息采集方法，本发明根据互联网拓扑处理URL，对URL进行链接分析，根据无标度网络特征修正权值，并进行了隧道调整。同时根据主题热度访问已采集主题，获取其回复信息。

本发明的目的可以通过以下技术方案来达到：

基于网络拓扑的主题信息采集方法，包括如下步骤：

a、从搜索引擎获取种子网页集合；

b、对种子网页集合中的每篇网页根据主题词进行分词，表示为向量集合，提取出URL，初始化未访问URL队列；

c、选择未访问URL队列，采集相应网页，计算采集网页与种子网页集合的相似性；

d、把采集网页与种子网页集合的相似性与设定的阈值进行比较。

所述的步骤d具体包括：

如果相似性大于设定的阈值，

1)从网页中解析出URL，去重后***未访问URL队列，比较父URL与子URL的路径关系，给子URL分配不同的权值；

2)计算子URL的链接权，子网页i对父网页j的链接加权系数为：link_ji＝path_ji+freq_i，其中，path_ji为不同的URL路径权值，freq_i为归一化的锚文本关键词频率；

3)对子URL的加权值修正，修正后的权值如下：

score (i) = Σ_{t = 1}^{n} {link}_{ti} \cdot η (k_{t}) \cdot sim (V_{t}, D)

其中，n为网页i的入度，sim(V_t，D)是父网页与种子集合的相关性，link_ti是网页i对父网页的链接加权系数，

η (k_{t}) = k_{t} / \underset{j}{Σ} k_{j}

为主题网页的偏向概率，k_t为父网页引用的有效链接数；

如果相似性不大于设定的阈值，根据URL与种子集合的距离设置隧道长度内。隧道长度为

step (i) = floor (\frac{σ}{n (i)}),

floor是向下取整，σ为初始深度参数常量，n(i)为种子集合至网页i的链接深度。若URL的隧道长度大于0，子URL处理方法与相似性大于阈值的情况相同，反之，减少所有子URL权值。

所述的给子URL分配不同的链接权重具体包括为：

1)子URL包含父URL，则子网页处于父网页的下级目录中，子网页的主题是父网页主题的扩展和延伸，子URL分配的权值为t；

2)子URL与父URL具有相似的路径，子网页与父网页目录深度和文件夹长度相同，新主题是前期或跟踪报道，子URL分配的权值为t；

3)子URL为背景插图、广告等冗余链接，子URL分配的权值为

；

其中0.4<t<0.6。

本发明基于网络拓扑的主题信息采集方法还可以为如下步骤实现：

a、从搜索引擎获取种子网页集合；

b、对种子网页集合中的每篇网页根据主题词进行分词，表示为向量集合，提取出URL；

c、将已访问队列的URL进行模板匹配，当网页包含回复信息时，根据主题热度，优先选取热度高的主题URL获取新回复；

主题热度为：

heft (t) = {(n + 1)}^{α} e^{- (1 + t - \overset{&OverBar;}{t}) / β}, \overset{&OverBar;}{t} = Σ_{i = 1}^{n} t_{i} / n;

其中t为主题的平均回复时刻，即活跃时间点；n为初始时刻到当前时刻该主题的总回复数目，α、β为常数；0<α<1，α是偏向概率的加权指数；β决定了主题热度函数的平滑程度。

下面详细介绍本发明的具体方法与步骤：

首先获取种子网页。根据聚焦关键词，访问各搜索引擎，获取前m条记录，作为聚焦的初始链接。抓取初始链接的源文件，得到种子网页集合D＝<D₁，D₂，D₃...D_m>。对集合中的每篇网页D_i，提取主题信息进行分词，去调无意义的助词、副词和停用词，表示成文档向量形式。若文档D_i包含的词条为<t₁，t₂，t₃...t_n>，则对应的n维文档向量为<w_i1，w_i2，w_i3...w_in>，其中w_ij词条j的权重。w_ij采用经典的TF×IDF定义。IDF根据文档总数增量更新。种子网页集合被映射成了文档向量集W＝<W₁，W₂，W₃...W_m>。从种子网页集中解析出的URL，赋予初始权值1，加入采集***的搜索队列，采集时优先搜索较高权值的链接。

新抓取到的网页，经预处理及分词后，转化成词条向量，计算新网页与种子网页集合的相似性。文档间的相似性使用文档向量夹角的余弦来度量，两网页D_i，D_j，它们之间的相似性为

sim &lang; D_{i}, D_{j} &rang; = = \frac{D_{i} \cdot D_{j}}{| D_{i} | \times | D_{j} |} = \frac{Σ_{k = 1}^{n} w_{ik} \times w_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2}} \times \sqrt{Σ_{k = 1}^{n} w_{jk}^{2}}} .

种子网页集合D，新网页V，新网页与种子网页集的相似性为该网页与网页集合所有网页相似性的平均值

sim &lang; V, D &rang; = \frac{1}{m} Σ_{k = 1}^{m} sim &lang; V, D_{k} &rang; .

相似性较高的网页，在向量空间中的夹角越小，倾向于描述同一话题，反之，相似度越低的网页，属于不同话题的概率越大。若网页与种子网页集合的相似度高于门限值，则把该网页加入种子集合。

对网页中解析出的URL进行链接分析过滤URL。一篇网页中引用的链接所指向的网页，称为该父网页的子网页。父网页中解析出的URL，其结构反映了子网页与父网页的关系，视以下几种情况分配不同权值(权参量为t，0.4<t<0.6)：

(1)子URL包含父URL，如父URL为“http://mil\.news\.sina\.com\.cn/”，子URL为“http://mil\.news\.sina\.com\.cn/\w/\d{4}-\d{2}-\d{2}/\d+\.html”，或“http://mil\.news\.sina\.com\.cn/\d{4}-\d{2}-\d{2}/\d+\.html”，则子网页处于父网页的下级目录中。子网页的主题是父网页主题的扩展和延伸，子URL分配权值t。

(2)子URL与父URL具有相似的路径。子网页与父网页目录深度和文件夹长度相同，新主题是前期或跟踪报道，分配权值t。

(3)背景插图、广告等冗余链接，分配权。

同时，较多与主题相关的URL，链接附近一段文本中都包含聚焦关键字。因此网页i对父网页j的链接加权系数为：link_ji＝path_ji+freq_i，其中，path_ji为上述3种不同的URL路径权值，freq_i为归一化的锚文本关键词频率。

在链接分析的基础上，对URL加权、排序，根据URL权值选择链接加入未访问URL队列。万维网具有无标度网络的特征，网页或站点作为网络的节点，链接作为网络的边，网络具有幂率的度分布(SEN QIN，GUAN-ZHONG DAI，YAN-LING LI，Design and Implementation of Web Hot-topic Talk Mining Basedon Scale-free Network，Proceedings of the Fifth International Conferenceon Machine Learning and Cybernetics，2006，pp.13-16.)。无标度网络的成长和优先吸附原则，使得那些包含链接数较多的网页越可能获得新链接。新加入网络的主题链接到已存在主题的偏向概率与主题包含的链接数成正比。相似性判断失误，会将不相关的网页归入聚焦话题，仅靠链接分析不能有效地过滤掉这些网页中抽取出的链接。但这些错误聚焦的网页，通常包含的有效链接数较少。因此使用无标度网络的偏向概率对URL加权，降低了这些判决失误网页中抽取出的链接的权值，提高了查准率。在pagerank算法基础上，兼顾相关性计算，链接分析及无标度网络特性的影响，修正后的加权值如下：

score (i) = Σ_{t = 1}^{n} {link}_{ti} \cdot η (k_{t}) \cdot sim (V_{t}, D)

η (k_{t}) = k_{t} / \underset{j}{Σ} k_{j}

为主题网页的偏向概率，k_t为父网页引用的有效链接数。sim(V_t，D)是URL权值的重要部分，相似性的阈值决定着子URL的取向。

一篇网页的内容与聚焦话题相关，其解析出的子URL与话题相关的可能性较大，反之，子URL倾向于描述新的话题。相关性较高的网页，可能引用了大量的推荐链接，使得抽取出的子URL并非属于聚焦话题，但由于其继承了父网页的相关性而权值较高。抓取这些子URL，将会得到过多不相关的内容，影响***性能。因此，抓取由同一父网页解析出的子URL时，若连续数次均得到话题无关的信息，则减小所有子URL权值。

主题网络中，从一相关网页到另一相关网页的路径中可能包含不相关的区域，使得相关的主题网页隐藏在无关的链接中，这称为隧道现象。与种子集合相似性较低的网页，在经过多级链接后，可能链接到相似性高的网页。忽略相似性低于阈值的网页中抽取的URL，将会失去隐藏在这些网页后的相关链接，获得的主题减少。对不相关网页设定适当的缓冲，提高主题信息采集***的查全率。因此采用原子模型来分配缓冲的链接跳数。种子集合是话题聚焦的依据，作为原子核，原子核不断更新。从种子集合中提取的URL，作为核外电子。同一URL可能有多个入链，与种子集合的最小距离作为其的链接深度。处于同一深度的URL视为相同能级。URL的深度越小，越靠近原子核，受到原子核的束缚力越大，通过其获得相关主题网页的概率较大，设置较大的缓冲级数。相反，URL深度越大，挣脱原子核束缚逃逸的概率也较大，不易获得聚焦主题。缓冲跳数(即隧道长度)的设定为

step (i) = floor (\frac{σ}{n (i)}),

其中step(i)为网页i的缓冲网页跳数，floor是向下取整，σ为初始深度参数常量，n(i)为种子集合至网页i的链接深度。若不相关网页中的URL的缓冲跳数等于0，且减小该网页中所有子URL权值。

已访问的主题URL并不释放，加入已访问URL队列。对URL进行链接模板匹配，若网页为所关注新闻评论、电子公告牌、博客等带回复的信息，则根据主题热度选取URL获取热门度大的主题的新回复。考虑到那些具有较多回复的主题帖子，吸引了大众兴趣，它们获得回复的概率也越大；同时随着时间的推移，过时的主题帖子获得的回复减少，吸附力逐渐趋于0。定义主题热度如下：

heft (t) = {(n + 1)}^{α} e^{- (1 + t - \overset{&OverBar;}{t}) / β}, \overset{&OverBar;}{t} = Σ_{i = 1}^{n} t_{i} / n .

其中t为主题的平均回复时刻，即活跃时间点，n为初始时刻到当前时刻该主题的总回复数目，α、β为常数。0<α<1，α是偏向概率的加权指数。β决定了主题热度函数的平滑程度，β越小，越能反应一些细节，β越大，函数越平缓。由于平缓的函数更能估计出主题未来的回复趋势，β一般大于2。

主题的热度通常介于0到30之间，大于15的主题可认为是热门主题，选择已访问队列时，优先选择热门度高的新闻评论、电子公告牌或博客主题URL。

本发明相比现有技术具有如下优点：

(1)对URL进行链接分析，过滤冗余及无关链接，节省***资源。

(2)使用无标度网络的偏向概率修正URL权值，以充分互联网信息聚集的特征，减少相似性判决错误但来的影响。

(3)对URL进行相关反馈，使***尽快脱离不相关区域，提高准确率。

(4)使用主题热度评价带回复的主题，使***时间主要分配在热点主题上。

附图说明

图1为整个方法的工作流程图；

图2为主题信息采集***与BFS采集***的查准率比较图；

图3为主题信息采集***与BFS采集***的相关主题采集率比较图；

图4为链接分析与未链接分析的查准率比较图；

图5为不同权值下的查准率比较图；

图6为相似性反馈前后的查准率比较图。

具体实施方式

主题信息采集***的性能通过查准率来衡量。查准率是获得相关主题网页精度的度量，若M为捕获主题总数，T为所获取网页中的相关主题数，则查准率为precision＝T/M。通过对关键字“北京奥运”聚焦，抓取了上百个网站的多份主题网页，比较主题信息采集***与通用采集***的相关主题采集效率及不同***参数对主题信息采集性能的影响(权参量t取0.5)。如图1所示，为基于网络拓扑的主题信息采集方法工作流程图，如图2至图6所示，的结果均为多次仿真数据的平均值，由于网络更新快，信息采集的准确率与网站结构有关，为了保证可比较性，主题采集***的种子集合与BFS采集***的初始队列一致。

图2为主题信息采集***与BFS采集***的查准率随抓取网页总数的变化。从搜索引擎获取主题采集***的种子网页集及BFS的初始URL队列，连续抓取10000多份网页。图3为对应的相关网页采集率。可以看出，本文所提的主题采集***查准率明显高于BFS采集***，且随着收集网页数的增多，BFS相关主题采集缓慢，查准率降低至40％以下，而主题采集***仍维持在70％以上。

图4反映了链接分析对主题采集***查准率的影响。初始种子网页集为10，抓取3500份网页。可见，未进行链接分析，采集了大量主题网页中的无效及冗余链接而影响了***的性能，在抓取2500网页后查准率已降至0.6以下。

图5为查准率在不同加权方式下随采集网页数的变化。基于互联网拓扑的权值分配方式查准率较pagerank权值高，降幅更平缓。而等增益权值分配，在采集初期查准率较高，但随着***的运行，片面追求最高的相似性，极易陷入局部最优，查准率迅速降低。

图6是相似性反馈前后查准率的比较。相似性反馈使***在陷入不相关区域后，能较快地退出抓取误区，防止性能进一步恶化。

下表1是聚焦不同话题，选取10个初始链接，抓取5000网页时，主题采集***与BFS采集***的查准率。

表1 不同话题的查准率

	主题采集***	BFS采集***
	主题采集***	BFS采集***	中国大飞机项目	0.38	0.071
神舟六号	0.65	0.12	中国大飞机项目	0.38	0.071
神舟六号	0.65	0.12	汶川地震	0.76	0.28
笔记本计算机	0.73	0.13	汶川地震	0.76	0.28

Claims

1.基于网络拓扑的主题信息采集方法，其特征在于包括如下步骤：

a、从搜索引擎获取种子网页集合；

2、根据权利要求1所述的基于网络拓扑的主题信息采集方法，其特征在于所述的步骤d具体包括：

如果相似性大于设定的阈值，

3)对子URL的加权值修正，修正后的权值如下：

score (i) = Σ_{t = 1}^{n} {link}_{ti} \cdot η (k_{t}) \cdot sim (V_{t}, D)

η (k_{t}) = k_{t} / \underset{j}{Σ} k_{j}

为主题网页的偏向概率，k_t为父网页引用的有效链接数；

step (i) = floor (\frac{σ}{n (i)}),

floor是向下取整，σ为初始深度参数常量，n(i)为种子集合至网页i的链接深度；若URL的隧道长度大于0，子URL处理方法与相似性大于阈值的情况相同，反之，减少所有子URL权值。

3、根据权利要求2所述的基于网络拓扑的主题信息采集方法，其特征在于所述的给子URL分配不同的链接权重具体包括为：

3)子URL为背景插图、广告等冗余链接，子URL分配的权值为

；

其中0.4<t<0.6。

4、根据权利要求1所述的基于网络拓扑的主题信息采集方法，其特征在于包括如下步骤：

a、从搜索引擎获取种子网页集合；

主题热度为：

heft (t) = {(n + 1)}^{α} e^{- (1 + t - \overset{&OverBar;}{t}) / β}, \overset{&OverBar;}{t} = Σ_{i = 1}^{n} t_{i} / n;