CN102591926A

CN102591926A - 一种基于用户本体的初始URLs选择方法

Info

Publication number: CN102591926A
Application number: CN2011104361363A
Authority: CN
Inventors: 杜亚军; 李曦; 王玉婷; 韩保川
Original assignee: Xihua University
Current assignee: Xihua University
Priority date: 2011-12-23
Filing date: 2011-12-23
Publication date: 2012-07-18

Abstract

本发明公开了基于用户本体的初始URLs选择方法包括以下步骤：第一步：提交用户关键词给搜索引擎，获得用户日志；第二步：处理用户特征文件，提取特征词汇，并向量化；第三步：构建用户本体，利用提取的特征词并结合WordNet来构建用户本体；第四步：得到根集、候选页面；第五步：得到语义化的页面向量；第六步：计算第二步得到的用户兴趣特征向量和语义化的页面向量的相似度，排序，选择相似度高的加入根集得到基础集；第七步：获取二分图；第八步：得到完全二分图；第九步：选取完全二分图中的URLs作为初始URLs。本发明提出的方法在较少迭代数的情况下，使用本发明提出的方法可以下载更多与用户兴趣主题相关的网页。

Description

一种基于用户本体的初始URLs选择方法

技术领域

本发明涉及一种基于用户本体的初始URLs选择方法，属于搜索引擎技术领域。

背景技术

随着Web应用的迅猛发展，传统的通用搜索引擎存在着网页更新速度过慢、有效性差等缺点。“面向主题的智能搜索引擎”在这种背景下应运而生。这类搜索引擎区别于通用搜索引擎的主要特点是，具有一个实时的、智能的、能够识别主题信息的爬行虫来选择爬行区域。目前，大多数主题搜索的研究主要集中在确定主题区域以及在主题区域内的爬行策略上。但是关于如何根据用户查询词自动选择初始URLs的研究相对较少。

网页间的超链接反映了网页创建者的一种判断同时也引导网页浏览的过程，即有理由认为，如果网页A存在一条超链接指向网页B，那么网页A的作者是认为网页B包含了有价值的信息。因此，充分利用互联网的链接结构信息对互联网应用技术的研究将具有极为重要的意义。事实上，越来越多的学者已经开始致力于互联网链接结构的研究。总体来说主要包括以下几个方面：1.链接结构分析在Web信息搜索中的应用；2.链接结构特征与互联网中出现的潜在主题区域之间的关联；3.链接结构在理解互联网自身属性特点和成长模式方面所处的地位和作用。

另一方面，受到自然语言的限制，使得大多数基于关键字匹配的检索结果有效性非常低。将本体应用于智能搜索引擎，可以把信息采集从基于关键词的相关度匹配技术层面提高到基于语义层面的查找。因此，把面向用户的个性化智能搜索引擎和本体这两种技术结合起来，为开发新一代网络信息检索***提供了广阔的天地。

总的来说，目前国内外很多研究都表明初始URLs对于一个主题爬行虫的重要性。但是真正关于如何在不同主题或者主题区域间选择初始URLs的方法凤毛麟角。因此，关于主题爬行虫初始URLs的选择方法有很大的研究空间。

发明内容

本发明所要解决的技术问题是针对现有技术的不足提供一种基于用户本体的初始URLs选择方法。

一种基于用户本体的初始URLs选择方法，包括以下步骤：

第一步：提交用户关键词给搜索引擎，获得用户日志。该用户日志主要用来构建用户本体和用户兴趣特征向量。

第二步：处理用户特征文件，提取特征词汇，并向量化；

第三步：构建用户本体，利用提取的特征词并结合WordNet来构建用户本体；

第四步：用户提交关键词到Google，并得到搜索结果，通过HITS算法，可以得到根集，包含了权威网页和中心网页集合，从而，得到候选页面；

第五步：用户关键词提交给用户本体，进行加权扩展，得到扩展的特征向量，结合候选页面，得到语义化的页面向量；

第六步：计算第二步得到的用户兴趣特征向量和语义化的页面向量的相似度，排序，选择相似度高的加入根集得到基础集；

第七步：对得到的基础集，通过改进的HITS算法，获取二分图；

第八步：针对二分图，采用完全二分有向图获取算法得到完全二分图；

第九步：通过选取完全二分图中的URLs作为初始URLs，具体实现步骤：

D1、通过第八步从二分图中提取完全二分图，得到权威网页集和中心网页集两个集合；

D2、从中心网页集合中选择一个网页作为爬行虫的一个初始URL；

D3、使用中心网页和权威网页存在链接，发现完全二分图的其他部分，作为初始URLs加入到结果集中；

D4、把发现的中心网页和权威网页分别从两个集合中删除，更新集合中权威网页和中心网页的权威值和中心值；

D5、如果初始URLs结果集的数量不够，再次返回步骤1；否则，结束。

所述的基于用户本体的初始URLs选择方法，所述第七步，改进的HITS算法，获取二分图的方法为：

B1、搜集特定关键词的网页集合，存储网页链接关系；

B2、对于每一个网页分为链入和链出页面集合，通过语义化页面构建方法重新构建页面；

B3、计算语义化页面和返回结果的相似度，满足条件的作为候选集合，并得到基础集；

B4、通过迭代算法计算基础集每个网页的权威值和中心值，由此得到二分图。

所述的基于用户本体的初始URLs选择方法，所述第八步，所述完全二分有向图获取算法；

C1、按照权威值大小依次选取网页，并通过对应页面得到链接中心值网页；选取的网页标记，以防止再次选取；

C2、按照中心值大小依次选取网页；并通过对应页面得到权威值网页；选取的网页标记，以防止再次选取；

C3、重复C1-C2操作，直到遍历完所有网页为止，得到完全二分图。

附图说明

图1为本发明方法流程图；

图2为DS1在不同的迭代次数时抽取的Hset and Aset的大小；

图3为DS2在不同的迭代次数时抽取的Hset and Aset的大小；

图4为比较数据集DS1上得到的网页的PageRank值；

图5为比较数据集DS1上得到的网页的数量；

图6为比较数据集DS2上得到的网页的PageRank值；

图7为比较数据集DS2上得到的网页的数量。

具体实施方式

以下结合具体实施例，对本发明进行详细说明。

实施例1

第二步：处理用户特征文件(预处理等方法)，提取特征词汇，并向量化。

第三步：构建用户本体，利用提取的特征词并结合WordNet来构建用户本体。构建用户本体方法很多，但大都是比较繁琐的。有很多成熟的方法，手动构建、半自动构建方法等。

第四步：用户提交关键词到Google，并得到搜索结果，通过HITS算法，可以得到根集，包含了权威网页和中心网页集合，从而，得到候选页面。

第五步：用户关键词提交给用户本体，进行加权扩展，得到扩展的特征向量，结合候选页面，得到语义化的页面向量。

加权扩展方法：

定义1一个用户本体O_u＝(C，R，H，I)，其中概念c_i，c_j∈C。对于该用户本体中的任意一个概念c_i而言，他与其他任何一个概念c_j之间可能存在的关系有以下三种：

1.c_j是c_i的子概念，即满足关系c_j∈Subclass of(c_i)，那么把c_j记为Lc_i；

2.c_j是c_i的父概念，即满足关系c_j∈Superclass of(c_i)，那么把c_j记为Hc_i；

3.c_j与c_i是同义词，那么把c_j记为Sc_i，(这种关系借用WordNet来得到)。

因此，把关系集合

称为概念c _i的可被扩展的关系集合。M_α表示其中的一个可扩展关系，α＝1，2或3。也就是说

依次类推。

“信息内容相似度”表示一个本体上词之间的关系，计算公式如下：

ice (c_{i}, c_{j}) = \frac{2 \times \log f (c)}{\log f (c_{i}) + \log f (c_{j})}

其中c_i和c_j是两个不同的词，c是c_i和c_j的共同父接点。

f (c) = \frac{fre (c)}{M}

其中freq(c)是词c在文本集中出现的频率，M是文本集中所有词的数量。由于本体中的概念是单独的词表示，因此，借助“信息内容相似度”的公式，可以计算一个本体上概念之间的相似度。

定义2对一个词k_i，他可能扩展的关系

因此，k_i与它可扩展的词之间的“信息内容相似度”分别是

和

“信息内容相似度”的值越大，则可扩展词的内容与k_i越相似。将这3个“信息内容相似度”值表示成可扩展词在用户本体上的权重，即w_M＝ice(k_i，M_α)，根据权重来决定k _i是否要扩展某个关系。如果权重大，即相似度大，那么这个关系应该被扩展；反之，不能扩展。这个过程称为“加权扩展”。

构建语义化的页面方法：

通过用户本体来获取与用户兴趣主题相关的语义信息，使用这些语义信息来表示网页，这样的页面称为语义化页面。构建语义化页面的具体的方法如下：

A1、通过用户日志得到兴趣特征词向量；

A2、候选集页面也通过向量形式表示；

A3、通过用户本体对兴趣特征词进行扩展；

A4、计算扩展后的特征词在候选页面向量的TF值，重新利用该值来表示候选集页面得到语义化页面。

第六步：计算第二步得到的用户兴趣特征向量和语义化的页面向量的相似度，排序，选择相似度高的加入根集得到基础集。

第七步：对得到的基础集，通过改进的HITS算法，获取二分图。该算法是对HITs算法的改进，通过改进基础集来提高精度。

B1、搜集特定关键词的网页集合，存储网页链接关系；

B2、针对于每一个网页分为链入和链出页面集合，通过语义化页面构建方法重新构建页面；

第八步：针对于二分图，采用完全二分有向图获取算法得到完全二分图。下面是完全二分有向图获取算法。

第九步：通过选取完全二分图中的URLs作为初始URLs。具体实现步骤：

实施例2

实验过程与结果评价：

通过实验，验证了本发明所提出的方法的有效性。在实验过程中，先通过本发明提出的选择初始URLs的算法，在以前爬取的网页所组成的Web图上来选择初始URLs。然后，让爬行虫从这些指定的初始URLs开始在这个数据集上爬取。最后通过2种评价策略来评价本发明提出的算法是否有效。

2.1数据集

米兰大学的Web算法实验室提供了不同的Web结构图。实验中使用了由EuropeanProject-DELIS提供的UK-2007-02和UK-2007-05两个数据集，分别记为DS1和DS2，是爬行虫在2007年2月和2007年5月分别进行爬取的结果。DS1对应的图结构包括105,896,555个结点和3,738,733,648条边。DS2对应的图结构包括了110,123,614个结点和3,944,932,566条边。

2.2数据集特征

Web图的直径是指图中任意两个关联的结点之间的最短路径的总和与图中边的数目的比值。两个没有关联的结点之间的距离认为是无穷大的，这种距离不考虑。爬行深度是爬行虫下载网页时爬行的最大层次。表1是获取的DS1和DS2两个数据集的特征描述。

表1两个数据集的特征

数据集	结点数	边的数量	直径	爬行深度
					DS1	105,896,555	3,738,733,648	13.9	16
DS2	110,123,614	3,944,932,566	15.6	16

2.3数据预处理

在数据集中，存在很多冗余链接，其中大多数是同一个站点上的不同页面之间的链接。这些冗余链接会影响算法的效率，因此，将属于同一个站点的URL移除。在进行预处理过程中，认为具有相同主机名称的URL是属于同一个站点的。表2是DS1和DS2两个数据集经过处理后的数据特征描述。

表2两个数据集修剪后的特征

数据集	结点数	边的数量
			DS1	105,896,555	965,270,534
DS2	110,123,614	982,512,411

2.4初始URLs选择结果

本发明提出的算法是在数据集上发现Hub和Authority页面集合，并进行排序、提取完全二分子图、选择初始URLs、删除完全二分子图，更新Hub和Authority页面集合，再重复这个过程，迭代循环直到找到足够的初始URLs为止。在实验过程中，使用本发明提出的算法在数据集DS1上选择了10个URLs作为爬行虫的初始URLs，然后让它回到数据集DS1上去爬，并计算爬行虫在每个深度所下载的网页数量和PageRank平均值。再在同一个数据集上随机选择10个URLs作为爬行虫的初始URLs去爬，计算爬行虫在每个深度所下载的网页数量和PageRank平均值，并与前一种方法作比较。图2和图3分别显示了在DS1和DS2上进行不同迭代次数时，抽取的完全二分子图中所包含的Hset和Aset集的大小，即包含结点的数量。

一般的，Hset中结点数量比Aset多。在使用DS1数据集的实验中，把数量限制在999个。

2.5分析与评价

2.5.1分析评价策略

本发明使用不同的策略来评价选择初始URLs的算法。

第一个策略从这些指定的初始URLs开始爬，记录每层所爬取网页的PageRank值。如果在每一层，尤其是在开始阶段，爬行虫爬取的网页PageRank平均值高于随机选择的初始URLs，则说明利用本发明提出的方法所选择的初始URLs可以抓取更好的页面。

第二个策略是比较爬行虫每层爬取的网页数量。在这一策略中，假设爬行虫是一个高效率的爬行虫，即能够在较少的迭代次数内下载大量的高质量页面，分别让爬行虫使用本发明提出的方法选择初始URLs开始爬、以及任意选择初始URLs开始爬，比较两种情况下爬行虫在每一层爬取的网页数量。若前一种方法能够爬取更多的网页，则说明本发明提出的初始URLs选择方法可以保证爬行虫在较少的迭代次数内访问更多的网页。

2.5.2PageRank平均值和访问量的结果分析

在DS1数据集上根据本发明方法选择10个初始URLs，让爬行虫开始爬取，计算在每一层所访问网页的PageRank平均值，同时记录每一层所访问页面的数量。图4显示了在DS1数据集上，利用本发明的方法选择初始URLs、以及任意指定初始URLs所爬回网页的PageRank平均值。从图中可以看出，从第1次到第4次本发明提出的算法是有效的，尤其是第2次和第3次，爬回的PageRank值很高。4次以后，PageRank的平均值比较接近。图5对比显示了在DS1数据集上这两种方法所下载网页的数量。图中的纵坐标的值是网页数量取了对数后的值。从图5明显看出利用本发明提出的初始URLs选择方法下载的网页数量均大于随机选择初始URLs方法。

图6显示了在DS2数据集上，利用本发明的方法选择初始URLs和任意指定初始URL所爬回网页的PageRank平均值。图7对比显示了在DS2数据集上这两种方法所下载网页的数量。结果与数据集DS1一致。

2.6初始URLs在更新数据集上的实验结果

在真实环境中，为爬行虫选择了初始URLs，在以后采集数据时将使用该初始URLs来指导爬行。因此，此处在DS1上使用本发明方法选择初始URLs后，让爬行虫在DS2上去采集数据，再使用前面的两种评价策略进行对比评价。在实验过程中发现，由于网页的更新，在DS1上选择的初始URLs在DS2中还能找到的概率大约为10％。在DS1上选择100个种子，在DS2上还能找到的有11个。因此，使用这11个URLs作为爬行虫的初始URLs。实验结果表明，相对于随机在DS2上选择的11个URLs，本发明方法从第3次开始，PageRank平均值均高于随机选择。本发明方法从第4次到15次，每一层下载的网页数量均大于随机选择。因此，再次证明，在较少迭代次数的情况下，使用本发明提出的方法可以下载更多与用户兴趣主题相关的网页。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于用户本体的初始URLs选择方法，其特征在于，包括以下步骤：

第一步：提交用户关键词给搜索引擎，获得用户日志；该用户日志主要用来构建用户本体和用户兴趣特征向量。

第二步：处理用户特征文件，提取特征词汇，并向量化；

第八步：针对于二分图，采用完全二分有向图获取算法得到完全二分图；

2.根据权利要求1所述的基于用户本体的初始URLs选择方法，其特征在于，所述第七步，改进的HITS算法，获取二分图的方法为：

B1、搜集特定关键词的网页集合，存储网页链接关系；

3.根据权利要求1所述的基于用户本体的初始URLs选择方法，其特征在于，所述第八步，所述完全二分有向图获取算法：