CN102750380A

CN102750380A - 一种结合差异特征分布与链接特征的网页排序方法

Info

Publication number: CN102750380A
Application number: CN2012102158608A
Authority: CN
Inventors: 张化祥; 张悦童; 刘阳
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2012-06-27
Filing date: 2012-06-27
Publication date: 2012-10-24
Anticipated expiration: 2032-06-27
Also published as: CN102750380B

Abstract

本发明涉及一种结合差异特征分布与链接特征的网页排序方法。首先通过TrustRank算法计算网页信任值；分析已标记为正常与垃圾网页的差异特征分布，选择正常网页与垃圾网页差异特征分布有明显差异的特征，称为差异特征；根据网页差异特征分布，计算网页差异特征的信任贡献值；结合网页信任值与网页差异特征的信任贡献值计算网页信任度；根据网页信任度对网页排序。本发明利用正常网页与垃圾网页在分布上存在差异的内容特征，结合网页链接特征，更好地提高好网页的排序，降低垃圾网页的排序。

Description

一种结合差异特征分布与链接特征的网页排序方法

技术领域

本发明涉及一种结合差异特征分布与链接特征的网页排序方法，属于互联网信息检索领域。

背景技术

搜索引擎是用户查找有用信息的主要途径之一，根据2009年的一项调查显示[CNNIC(China Internet Network Information Center)[R].the 23rd report indevelopment of Internet in China,2009：1-3]，68％的人经常使用搜索引擎，84.5％的人把搜索引擎作为获取新信息的主要方法。据研究表明[SILVERSTEIN C，MARAISH，HENZINGER M，MORICZ M.Analysis of a very large Web search engine querylog[C].Proceedings of the 22nd Annual International ACM SIGIR Conference onResearch and Development in Information Retrieval，ACM Press，California，1999,33(1)：6-12]，在搜索引擎返回结果中，多数用户只查看前三页，因此排序越靠前的网页点击量越高，带来的利润越大。为了在搜索引擎结果中获得更高排序，网站管理者会努力提高网页质量。而在商业利益的驱使下，有些网站采用作弊手段欺骗搜索引擎，提高垃圾网页排序，严重干扰了用户获取有用信息，检测垃圾网页是搜索引擎面临重大挑战之一[HENZINGER M R，MOTWANI R，SILVERSTEIN C.Challenges in web search engines[C].Proceedings ofACM Special Interest Group on Information Retrieval(SIGIR)Forum，2002，36(2)：11-22]。

目前，搜索引擎主要依靠内容相关度和网页重要程度确定网页排序。内容相关度可以由TF/IDF算法[BAEZA-YATES，RIBEIRO-NETOB B.Modern informationretrieval[M].Addison Wesley Longman 1999]等信息检索方法计算，而网页重要程度由HIST[KLEINBERG J M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM，1999,46(5)：604-632]、PageRank算法[BIANCHINI M，GORI M，SCARSELLI F.Inside PageRank[J].Journal of the ACM，2005，5(1)：92-128]和TrustRank算法[GYONGYI Z，GARCIA-MOLINA H，PEDERSEN J.Combating web spam withTrustRank[C].Proceedings of the 30th VLDB Conference，ACM Press，2004：576-587]等基于链接分析的算法得出。

PageRank算法利用网页链接特征对网页进行排序，网页重要程度越高，得分越高，排序越靠前。PageRank算法中，网页p的得分定义为：

r (p) = α \cdot \underset{q : (q, p) &Element; ϵ}{Σ} \frac{r (q)}{p (q)} + (1 - α) \cdot \frac{1}{N} - - - (1)

其中α为衰减系数，o(q)为网页q的出链接数量，即网页q内有多少个超链接指向其他网页。q:(q，p)∈ε表示指向网页p的任意一个网页，(q，p)∈ε表示网页q有出链接指向网页p，ε表示所有指向网页p的出链接集合，N表示网页个数。网页p的得分由两部分组成：一部分来源于那些指向网页p的网页，另一部分是全部网页对p所做的贡献。所有网页的PageRank值计算为：

r = α \cdot T \cdot r + (1 - α) \cdot \frac{1}{N} \cdot 1_{N} - - - (2)

其中T为整个网络图N×N的跃迁矩阵，r为N×1的矩阵，表示N个网页的得分，1N表示N×1的1矩阵。网络图是指将web定义为一个图结构G＝(v,ε)，其中v为web图中网页的集合，ε为网页间链接的集合。每一个网页都有一些被指向的链接，称为入链接，将指向其他网页的链接称为出链接。网页p的入链接数量定义为入度，用i(p))表示，出度o(p)表示网页p出链接数量。若一个网页没有入链接，称之为未被引用网页，没有出链接的网页用未引用网页表示，孤立网页是指既没有入链接也没有出链接的网页。跃迁矩阵T的表达公式为：

T (p, q) = \{\begin{matrix} 0 & (p, q) &NotElement; ϵ \\ 1 / o (p) & (p, q) &Element; ϵ \end{matrix} - - - (3)

其中

表示网页p没有出链接指向网页q，(p,q)∈ε表示网页p有出链接指向网页q。TrustRank在PageRank基础上利用信任传播方式对每个网页赋一个信任值，根据信任值大小对网页进行排序。计算网页信任值时，利用近似完全孤立的好网页，并且期望好网页不指向垃圾网页。从人工标记网页中，选取一些网页组成集合S，并将好的网页集用S+表示，作为种子集合[GYONGYI Z，GARCIA-M H.Seed selection in TrustRank.Technical report[R].Stanford University，2004]，将种子集合中网页的信任值设为1。垃圾网页集用S-表示，信任值定为0。如果一个好网页经过M步数或者更少步数能够到达某个网页，则将该网页信任值赋为1。信任传播(TM)公式为：

q →Mp表示网页q到p的最大路径长度为M，且该路径中不包含垃圾网页。

信任传播过程中，由于不能确定路径上的网页是否为好网页，所以随着传播距离的扩大，信任值应逐渐递减。有两种信任值衰减方法：第一种方法为信任抑制。网页A有指向网页B的链接时，网页B的信任值为网页A的信任值与β的乘积，β为衰减因子；第二种方法为信任***。如果一个网页的信任值为A，指向n个网页，则它所指向的每个网页从A中得到的信任值为A网页信任值的

而一个网页的信任值为它从所有入链接得到信任值的总和。整个web图的信任值公式为：

TR＝β·T·TR+(1-β)·d (6)

其中，β为衰减因子(通常取值为0.85)，T为web图的跃迁矩阵，d为种子集合中好网页的初始信任值。公式(6)收敛，所以经过一定次数(通常取值为20)迭代后，TR值即为web图中网页的信任值。

利用基于网页重要程度的上述算法对网页进行排序时，只考虑了网页的链接信息。研究表明[FETTERLY D，MANASSE M，and NAJORK M.Spam，damn spam，and statistics：Using statistical analysis to locate spam web pages[C].In Proceedingsof the seventh workshop on the Web and databases(WebDB)，pages 1-6，Paris，France，June 2004；Ntoulas A，Najork M.Detecting Spam Web Pages throughContent Analysis[C].the International World Wide Web Conference，2006，May 23-26，2006，Edinburgh，Scotland]正常网页与垃圾网页在内容上表现出不同的统计特性，如正常网页标题长度、网页字数、锚文本数量等近似服从正态分布，而垃圾网页这些特征的分布与正常网页上述特征的分布存在明显差异。

TrustRank基于链接特征计算网页信任值，并依据信任值对网页排序，降低垃圾网页排序。但该方法不是对所有垃圾网页有效。比如一组网页提供一些有用资源，吸引其他网站链接，但这组网页包含了许多指向目标垃圾网页的链接，这些链接可能是隐蔽的，目标垃圾网页的信任值就有可能很高，且有些垃圾网页的拓扑结构和正常网页的拓扑结构相似，这时计算网页信任值时结合网页差异特征分布信息，网页排序效果会更好。

发明内容

本发明的目的就是为解决上述问题，提供一种结合差异特征分布与链接特征的网页排序方法，可实现好的网页排序靠前，垃圾网页排序靠后，降低垃圾网页对搜索引擎搜索结果的影响。

为实现上述目的，本发明采用如下技术方案:

一种结合差异特征分布与链接特征的网页排序方法，首先通过TrustRank算法计算网页信任值；分析已标记为正常与垃圾网页的特征分布，选择正常网页与垃圾网页特征分布有明显差异的特征，称为差异特征；根据网页差异特征分布，计算网页差异特征的信任贡献值；结合网页信任值与网页差异特征的信任贡献值计算网页信任度；根据网页信任度对网页排序。

具体包括以下步骤：

步骤1.利用TrustRank算法计算web图中每个网页的信任值；

步骤2.统计web图中已经标记为正常及垃圾的网页内容特征，根据统计信息分析正常网页特征分布与垃圾网页特征分布的不同，确定正常网页与垃圾网页特征分布有明显差异的特征，称为差异特征，同时确定正常页面各差异特征的近似分布函数；

步骤3.根据差异特征分布计算网页差异特征的信任贡献值；

步骤4.利用步骤1得到的网页信任值与步骤3得到的网页差异特征信任贡献值，计算web图中网页信任度；

步骤5.根据步骤4得到的网页信任度对web图中的网页进行排序，信任度大的排序靠前，信任度小的排序靠后。网页信任度越高表示网页是正常网页的概率越大，网页信任度越小，表示网页是垃圾网页的概率越大。

所述步骤2中的差异特征，以网页标题长度为例加以说明。使用搜索引擎查找信息时，一般通过输入关键词，很多垃圾网站将大量与网页内容不相关的关键词放在一起作为网页标题，这就是所谓的关键词堆砌。正常网页标题长度字数分布近似正态分布，垃圾网页标题因恶意填充或由大量重复目标关键词等方法构成，分布没有规律。随着网页标题长度的增大，网页为垃圾网页的可能性也增大。有些垃圾网页为获得较高排序，将大量与网页内容不相关关键词堆积在一起作为网页标题。

所述步骤2中，正常页面各差异特征的近似分布函数以正态分布函数近似，统计已标记的正常页面各差异特征的均值及方差，得到各差异特征对应的正态分布函数。

所述步骤3中，网页p的内容特征信任贡献值计算公式为：

g | p | = Π_{i = 1}^{n} | f_{i} (x) - y_{pi} (x) | - - - (7)

其中

为网页第i个差异特征对应的正态分布函数，μ_i为网页第i个差异特征的均值，σ_i为网页第i个差异特征的标准差。y_pi(x)为网页p的第i个差异特征值为x的网页所占比例，n为差异特征个数。

所述步骤4中，网页p的信任度计算为：

td (p) = \frac{TR (p)}{{1 + λ}^{(1 + 1 nn)} \cdot g (p)} - - - (8)

其中TR(p)表示网页p的信任值，由步骤1得到。λ为参数，控制g(p)值对网页信任值的惩罚，取值为9。lnn表示以e为底n的自然对数。

本发明的有益效果：本发明提出了一种同时结合网页差异特征分布信息与链接信息对网页进行排序的方法。使用本发明方法，好的网页排序靠前，垃圾网页排序靠后。可实现好的网页排序靠前，垃圾网页排序靠后，降低垃圾网页对搜索引擎搜索结果的影响。

附图说明

图1为信任传播示意图；

图2为信任***示意图；

图3为网页差异特征选择示意图；

图4为垃圾网页差异特征分布(以网页标题长度特征为例)示意图；

图5为正常网页差异特征分布(以网页标题长度特征为例)示意图；

图6为网页信任度计算整体流程图；

具体实施方式

下面结合附图与实例对本发明作进一步说明。

如图1和图2所示，TrustRank利用信任传播、信任***或者结合两者计算web图中每个网页的信任值；如图3所示，统计表明，正常网页与垃圾网页在部分特征上存在分布差异性，以网页标题长度为例，其分布分别如图4和图5所示。

图6中，本发明的具体过程为：

步骤1.利用TrustRank算法计算web图中每个网页的信任值；

步骤3.根据提取的差异特征分布计算网页差异特征的信任贡献值；

所述步骤3中，网页p的内容特征信任贡献值计算公式为：

g | p | = Π_{i = 1}^{n} | f_{i} (x) - y_{pi} (x) | - - - (7)

其中

为网页第i个差异特征对应的正态分布函数，μ_i为

网页第i个差异特征的均值，σ_i为网页第i个差异特征的标准差。y_pi(x)为网页p的第i个差异特征值为x的网页所占比例，n为差异特征个数。

所述步骤4中，网页p的信任度计算为：

td (p) = \frac{TR (p)}{{1 + λ}^{(1 + 1 nn)} \cdot g (p)} - - - (8)

以网页标题长度为例，根据网页标题长度分布计算该特征的信任贡献值|f(x)-y(x)|，其中为正态分布的概率密度函数。x表示网页标题长度变量，μ网页标题长度的均值，σ为网页标题长度的标准差，y(x)为网页标题长度为x的网页所占比例；

图6所示将网页信任值与差异特征的信任贡献度结合，按公式(8)计算web图中网页信任度。

Claims

1.一种结合差异特征分布与链接特征的网页排序方法，其特征是，首先通过TrustRank算法计算网页信任值；分析已标记为正常与垃圾网页的特征分布，选择正常网页与垃圾网页特征分布有明显差异的特征，称为差异特征；然后根据差异特征分布，计算网页差异特征信任贡献值；结合网页信任值与网页内容特征值计算网页信任度；根据网页信任度对网页排序。

2.如权利要求1所述的结合差异特征分布与链接特征的网页排序方法，其特征是，具体步骤如下：

步骤1.利用TrustRank算法计算web图中每个网页的信任值；

步骤3.根据差异特征分布计算网页p差异特征的信任贡献值；

步骤4.利用步骤1得到的网页p信任值与步骤3得到的网页p的差异特征信任贡献值，计算web图中网页p的信任度；

步骤5.根据步骤4得到的网页信任度对web图中的网页进行排序，信任度大的排序靠前，信任度小的排序靠后；网页信任度越高表示网页是正常网页的概率越大，网页信任度越小，表示网页是垃圾网页的概率越大。

3.权利要求2所述的结合差异特征分布与链接特征的网页排序方法，其特征是，所述步骤2中的差异特征选择为：网页字数、网页标题字数、网页锚文本字数占网页内容的比例、网页可视内容占网页内容的比例、网页内容的压缩率。正常页面上述5种特征基本服从正态分布，而垃圾网页上述5种特征的分布没有较为明显的分布规律。所述步骤2中，正常页面各差异特征的近似分布函数以正态分布函数近似，统计己标记的正常页面各差异特征的均值及方差，得到各差异特征对应的正态分布函数。

4.权利要求2所述的结合差异特征分布与链接特征的网页排序方法，其特征是，所述步骤3中，网页p的内容特征信任贡献值计算公式为：

g | p | = Π_{i = 1}^{n} | f_{i} (x) - y_{pi} (x) | - - - (7)

其中

为网页第i个差异特征对应的正态分布函数，μ_i为网页第i个差异特征的均值，σ_i为网页第j个差异特征的标准差。y_pi(x)为网页p的第i个差异特征值为刀的网页所占比例，n＝5为差异特征个数。

5.权利要求2所述的结合差异特征分布与链接特征的网页排序方法，其特征是，所述步骤4，网页p的信任度计算为：

td (p) = \frac{TR (p)}{{1 + λ}^{(1 + 1 nn)} \cdot g (p)} - - - (8)

其中TR(p)表示网页p的信任值，由步骤1得到，λ为参数，控制g(p)值对网页信任值的惩罚，取值为9；1nn表示以e为底n的自然对数。