CN102750380A - 一种结合差异特征分布与链接特征的网页排序方法 - Google Patents
一种结合差异特征分布与链接特征的网页排序方法 Download PDFInfo
- Publication number
- CN102750380A CN102750380A CN2012102158608A CN201210215860A CN102750380A CN 102750380 A CN102750380 A CN 102750380A CN 2012102158608 A CN2012102158608 A CN 2012102158608A CN 201210215860 A CN201210215860 A CN 201210215860A CN 102750380 A CN102750380 A CN 102750380A
- Authority
- CN
- China
- Prior art keywords
- webpage
- page
- characteristic
- normal
- difference characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种结合差异特征分布与链接特征的网页排序方法。首先通过TrustRank算法计算网页信任值;分析已标记为正常与垃圾网页的差异特征分布,选择正常网页与垃圾网页差异特征分布有明显差异的特征,称为差异特征;根据网页差异特征分布,计算网页差异特征的信任贡献值;结合网页信任值与网页差异特征的信任贡献值计算网页信任度;根据网页信任度对网页排序。本发明利用正常网页与垃圾网页在分布上存在差异的内容特征,结合网页链接特征,更好地提高好网页的排序,降低垃圾网页的排序。
Description
技术领域
本发明涉及一种结合差异特征分布与链接特征的网页排序方法,属于互联网信息检索领域。
背景技术
搜索引擎是用户查找有用信息的主要途径之一,根据2009年的一项调查显示[CNNIC(China Internet Network Information Center)[R].the 23rd report indevelopment of Internet in China,2009:1-3],68%的人经常使用搜索引擎,84.5%的人把搜索引擎作为获取新信息的主要方法。据研究表明[SILVERSTEIN C,MARAISH,HENZINGER M,MORICZ M.Analysis of a very large Web search engine querylog[C].Proceedings of the 22nd Annual International ACM SIGIR Conference onResearch and Development in Information Retrieval,ACM Press,California,1999,33(1):6-12],在搜索引擎返回结果中,多数用户只查看前三页,因此排序越靠前的网页点击量越高,带来的利润越大。为了在搜索引擎结果中获得更高排序,网站管理者会努力提高网页质量。而在商业利益的驱使下,有些网站采用作弊手段欺骗搜索引擎,提高垃圾网页排序,严重干扰了用户获取有用信息,检测垃圾网页是搜索引擎面临重大挑战之一[HENZINGER M R,MOTWANI R,SILVERSTEIN C.Challenges in web search engines[C].Proceedings ofACM Special Interest Group on Information Retrieval(SIGIR)Forum,2002,36(2):11-22]。
目前,搜索引擎主要依靠内容相关度和网页重要程度确定网页排序。内容相关度可以由TF/IDF算法[BAEZA-YATES,RIBEIRO-NETOB B.Modern informationretrieval[M].Addison Wesley Longman 1999]等信息检索方法计算,而网页重要程度由HIST[KLEINBERG J M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632]、PageRank算法[BIANCHINI M,GORI M,SCARSELLI F.Inside PageRank[J].Journal of the ACM,2005,5(1):92-128]和TrustRank算法[GYONGYI Z,GARCIA-MOLINA H,PEDERSEN J.Combating web spam withTrustRank[C].Proceedings of the 30th VLDB Conference,ACM Press,2004:576-587]等基于链接分析的算法得出。
PageRank算法利用网页链接特征对网页进行排序,网页重要程度越高,得分越高,排序越靠前。PageRank算法中,网页p的得分定义为:
其中α为衰减系数,o(q)为网页q的出链接数量,即网页q内有多少个超链接指向其他网页。q:(q,p)∈ε表示指向网页p的任意一个网页,(q,p)∈ε表示网页q有出链接指向网页p,ε表示所有指向网页p的出链接集合,N表示网页个数。网页p的得分由两部分组成:一部分来源于那些指向网页p的网页,另一部分是全部网页对p所做的贡献。所有网页的PageRank值计算为:
其中T为整个网络图N×N的跃迁矩阵,r为N×1的矩阵,表示N个网页的得分,1N表示N×1的1矩阵。网络图是指将web定义为一个图结构G=(v,ε),其中v为web图中网页的集合,ε为网页间链接的集合。每一个网页都有一些被指向的链接,称为入链接,将指向其他网页的链接称为出链接。网页p的入链接数量定义为入度,用i(p))表示,出度o(p)表示网页p出链接数量。若一个网页没有入链接,称之为未被引用网页,没有出链接的网页用未引用网页表示,孤立网页是指既没有入链接也没有出链接的网页。跃迁矩阵T的表达公式为:
其中表示网页p没有出链接指向网页q,(p,q)∈ε表示网页p有出链接指向网页q。TrustRank在PageRank基础上利用信任传播方式对每个网页赋一个信任值,根据信任值大小对网页进行排序。计算网页信任值时,利用近似完全孤立的好网页,并且期望好网页不指向垃圾网页。从人工标记网页中,选取一些网页组成集合S,并将好的网页集用S+表示,作为种子集合[GYONGYI Z,GARCIA-M H.Seed selection in TrustRank.Technical report[R].Stanford University,2004],将种子集合中网页的信任值设为1。垃圾网页集用S-表示,信任值定为0。如果一个好网页经过M步数或者更少步数能够到达某个网页,则将该网页信任值赋为1。信任传播(TM)公式为:
q →Mp表示网页q到p的最大路径长度为M,且该路径中不包含垃圾网页。
信任传播过程中,由于不能确定路径上的网页是否为好网页,所以随着传播距离的扩大,信任值应逐渐递减。有两种信任值衰减方法:第一种方法为信任抑制。网页A有指向网页B的链接时,网页B的信任值为网页A的信任值与β的乘积,β为衰减因子;第二种方法为信任***。如果一个网页的信任值为A,指向n个网页,则它所指向的每个网页从A中得到的信任值为A网页信任值的而一个网页的信任值为它从所有入链接得到信任值的总和。整个web图的信任值公式为:
TR=β·T·TR+(1-β)·d (6)
其中,β为衰减因子(通常取值为0.85),T为web图的跃迁矩阵,d为种子集合中好网页的初始信任值。公式(6)收敛,所以经过一定次数(通常取值为20)迭代后,TR值即为web图中网页的信任值。
利用基于网页重要程度的上述算法对网页进行排序时,只考虑了网页的链接信息。研究表明[FETTERLY D,MANASSE M,and NAJORK M.Spam,damn spam,and statistics:Using statistical analysis to locate spam web pages[C].In Proceedingsof the seventh workshop on the Web and databases(WebDB),pages 1-6,Paris,France,June 2004;Ntoulas A,Najork M.Detecting Spam Web Pages throughContent Analysis[C].the International World Wide Web Conference,2006,May 23-26,2006,Edinburgh,Scotland]正常网页与垃圾网页在内容上表现出不同的统计特性,如正常网页标题长度、网页字数、锚文本数量等近似服从正态分布,而垃圾网页这些特征的分布与正常网页上述特征的分布存在明显差异。
TrustRank基于链接特征计算网页信任值,并依据信任值对网页排序,降低垃圾网页排序。但该方法不是对所有垃圾网页有效。比如一组网页提供一些有用资源,吸引其他网站链接,但这组网页包含了许多指向目标垃圾网页的链接,这些链接可能是隐蔽的,目标垃圾网页的信任值就有可能很高,且有些垃圾网页的拓扑结构和正常网页的拓扑结构相似,这时计算网页信任值时结合网页差异特征分布信息,网页排序效果会更好。
发明内容
本发明的目的就是为解决上述问题,提供一种结合差异特征分布与链接特征的网页排序方法,可实现好的网页排序靠前,垃圾网页排序靠后,降低垃圾网页对搜索引擎搜索结果的影响。
为实现上述目的,本发明采用如下技术方案:
一种结合差异特征分布与链接特征的网页排序方法,首先通过TrustRank算法计算网页信任值;分析已标记为正常与垃圾网页的特征分布,选择正常网页与垃圾网页特征分布有明显差异的特征,称为差异特征;根据网页差异特征分布,计算网页差异特征的信任贡献值;结合网页信任值与网页差异特征的信任贡献值计算网页信任度;根据网页信任度对网页排序。
具体包括以下步骤:
步骤1.利用TrustRank算法计算web图中每个网页的信任值;
步骤2.统计web图中已经标记为正常及垃圾的网页内容特征,根据统计信息分析正常网页特征分布与垃圾网页特征分布的不同,确定正常网页与垃圾网页特征分布有明显差异的特征,称为差异特征,同时确定正常页面各差异特征的近似分布函数;
步骤3.根据差异特征分布计算网页差异特征的信任贡献值;
步骤4.利用步骤1得到的网页信任值与步骤3得到的网页差异特征信任贡献值,计算web图中网页信任度;
步骤5.根据步骤4得到的网页信任度对web图中的网页进行排序,信任度大的排序靠前,信任度小的排序靠后。网页信任度越高表示网页是正常网页的概率越大,网页信任度越小,表示网页是垃圾网页的概率越大。
所述步骤2中的差异特征,以网页标题长度为例加以说明。使用搜索引擎查找信息时,一般通过输入关键词,很多垃圾网站将大量与网页内容不相关的关键词放在一起作为网页标题,这就是所谓的关键词堆砌。正常网页标题长度字数分布近似正态分布,垃圾网页标题因恶意填充或由大量重复目标关键词等方法构成,分布没有规律。随着网页标题长度的增大,网页为垃圾网页的可能性也增大。有些垃圾网页为获得较高排序,将大量与网页内容不相关关键词堆积在一起作为网页标题。
所述步骤2中,正常页面各差异特征的近似分布函数以正态分布函数近似,统计已标记的正常页面各差异特征的均值及方差,得到各差异特征对应的正态分布函数。
所述步骤3中,网页p的内容特征信任贡献值计算公式为:
所述步骤4中,网页p的信任度计算为:
其中TR(p)表示网页p的信任值,由步骤1得到。λ为参数,控制g(p)值对网页信任值的惩罚,取值为9。lnn表示以e为底n的自然对数。
本发明的有益效果:本发明提出了一种同时结合网页差异特征分布信息与链接信息对网页进行排序的方法。使用本发明方法,好的网页排序靠前,垃圾网页排序靠后。可实现好的网页排序靠前,垃圾网页排序靠后,降低垃圾网页对搜索引擎搜索结果的影响。
附图说明
图1为信任传播示意图;
图2为信任***示意图;
图3为网页差异特征选择示意图;
图4为垃圾网页差异特征分布(以网页标题长度特征为例)示意图;
图5为正常网页差异特征分布(以网页标题长度特征为例)示意图;
图6为网页信任度计算整体流程图;
具体实施方式
下面结合附图与实例对本发明作进一步说明。
如图1和图2所示,TrustRank利用信任传播、信任***或者结合两者计算web图中每个网页的信任值;如图3所示,统计表明,正常网页与垃圾网页在部分特征上存在分布差异性,以网页标题长度为例,其分布分别如图4和图5所示。
图6中,本发明的具体过程为:
步骤1.利用TrustRank算法计算web图中每个网页的信任值;
步骤2.统计web图中已经标记为正常及垃圾的网页内容特征,根据统计信息分析正常网页特征分布与垃圾网页特征分布的不同,确定正常网页与垃圾网页特征分布有明显差异的特征,称为差异特征,同时确定正常页面各差异特征的近似分布函数;
步骤3.根据提取的差异特征分布计算网页差异特征的信任贡献值;
步骤4.利用步骤1得到的网页信任值与步骤3得到的网页差异特征信任贡献值,计算web图中网页信任度;
步骤5.根据步骤4得到的网页信任度对web图中的网页进行排序,信任度大的排序靠前,信任度小的排序靠后。网页信任度越高表示网页是正常网页的概率越大,网页信任度越小,表示网页是垃圾网页的概率越大。
所述步骤2中的差异特征,以网页标题长度为例加以说明。使用搜索引擎查找信息时,一般通过输入关键词,很多垃圾网站将大量与网页内容不相关的关键词放在一起作为网页标题,这就是所谓的关键词堆砌。正常网页标题长度字数分布近似正态分布,垃圾网页标题因恶意填充或由大量重复目标关键词等方法构成,分布没有规律。随着网页标题长度的增大,网页为垃圾网页的可能性也增大。有些垃圾网页为获得较高排序,将大量与网页内容不相关关键词堆积在一起作为网页标题。
所述步骤2中,正常页面各差异特征的近似分布函数以正态分布函数近似,统计已标记的正常页面各差异特征的均值及方差,得到各差异特征对应的正态分布函数。
所述步骤3中,网页p的内容特征信任贡献值计算公式为:
网页第i个差异特征的均值,σi为网页第i个差异特征的标准差。ypi(x)为网页p的第i个差异特征值为x的网页所占比例,n为差异特征个数。
所述步骤4中,网页p的信任度计算为:
其中TR(p)表示网页p的信任值,由步骤1得到。λ为参数,控制g(p)值对网页信任值的惩罚,取值为9。lnn表示以e为底n的自然对数。
以网页标题长度为例,根据网页标题长度分布计算该特征的信任贡献值|f(x)-y(x)|,其中为正态分布的概率密度函数。x表示网页标题长度变量,μ网页标题长度的均值,σ为网页标题长度的标准差,y(x)为网页标题长度为x的网页所占比例;
图6所示将网页信任值与差异特征的信任贡献度结合,按公式(8)计算web图中网页信任度。
Claims (5)
1.一种结合差异特征分布与链接特征的网页排序方法,其特征是,首先通过TrustRank算法计算网页信任值;分析已标记为正常与垃圾网页的特征分布,选择正常网页与垃圾网页特征分布有明显差异的特征,称为差异特征;然后根据差异特征分布,计算网页差异特征信任贡献值;结合网页信任值与网页内容特征值计算网页信任度;根据网页信任度对网页排序。
2.如权利要求1所述的结合差异特征分布与链接特征的网页排序方法,其特征是,具体步骤如下:
步骤1.利用TrustRank算法计算web图中每个网页的信任值;
步骤2.统计web图中已经标记为正常及垃圾的网页内容特征,根据统计信息分析正常网页特征分布与垃圾网页特征分布的不同,确定正常网页与垃圾网页特征分布有明显差异的特征,称为差异特征,同时确定正常页面各差异特征的近似分布函数;
步骤3.根据差异特征分布计算网页p差异特征的信任贡献值;
步骤4.利用步骤1得到的网页p信任值与步骤3得到的网页p的差异特征信任贡献值,计算web图中网页p的信任度;
步骤5.根据步骤4得到的网页信任度对web图中的网页进行排序,信任度大的排序靠前,信任度小的排序靠后;网页信任度越高表示网页是正常网页的概率越大,网页信任度越小,表示网页是垃圾网页的概率越大。
3.权利要求2所述的结合差异特征分布与链接特征的网页排序方法,其特征是,所述步骤2中的差异特征选择为:网页字数、网页标题字数、网页锚文本字数占网页内容的比例、网页可视内容占网页内容的比例、网页内容的压缩率。正常页面上述5种特征基本服从正态分布,而垃圾网页上述5种特征的分布没有较为明显的分布规律。所述步骤2中,正常页面各差异特征的近似分布函数以正态分布函数近似,统计己标记的正常页面各差异特征的均值及方差,得到各差异特征对应的正态分布函数。
5.权利要求2所述的结合差异特征分布与链接特征的网页排序方法,其特征是,所述步骤4,网页p的信任度计算为:
其中TR(p)表示网页p的信任值,由步骤1得到,λ为参数,控制g(p)值对网页信任值的惩罚,取值为9;1nn表示以e为底n的自然对数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210215860.8A CN102750380B (zh) | 2012-06-27 | 2012-06-27 | 一种结合差异特征分布与链接特征的网页排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210215860.8A CN102750380B (zh) | 2012-06-27 | 2012-06-27 | 一种结合差异特征分布与链接特征的网页排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102750380A true CN102750380A (zh) | 2012-10-24 |
CN102750380B CN102750380B (zh) | 2014-10-15 |
Family
ID=47030565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210215860.8A Expired - Fee Related CN102750380B (zh) | 2012-06-27 | 2012-06-27 | 一种结合差异特征分布与链接特征的网页排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102750380B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064984A (zh) * | 2013-01-25 | 2013-04-24 | 清华大学 | 垃圾网页的识别方法及*** |
CN105930365A (zh) * | 2016-04-11 | 2016-09-07 | 天津大学 | 基于内容的网络链接拓扑重构方法 |
CN108984630A (zh) * | 2018-06-20 | 2018-12-11 | 天津大学 | 复杂网络中节点重要性在垃圾网页检测中的应用方法 |
CN109831451A (zh) * | 2019-03-07 | 2019-05-31 | 北京华安普特网络科技有限公司 | 基于防火墙的防挂马方法 |
CN109902236A (zh) * | 2019-03-07 | 2019-06-18 | 成都数之联科技有限公司 | 一种基于非概率模型的垃圾网页降级方法 |
CN111368092A (zh) * | 2020-02-21 | 2020-07-03 | 中国科学院电子学研究所苏州研究院 | 一种基于可信网页资源的知识图谱构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060069982A1 (en) * | 2004-09-30 | 2006-03-30 | Microsoft Corporation | Click distance determination |
CN1996299A (zh) * | 2006-12-12 | 2007-07-11 | 孙斌 | 对网页和网站评级的方法 |
CN102012934A (zh) * | 2010-11-30 | 2011-04-13 | 百度在线网络技术(北京)有限公司 | 图片搜索方法及搜索*** |
-
2012
- 2012-06-27 CN CN201210215860.8A patent/CN102750380B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060069982A1 (en) * | 2004-09-30 | 2006-03-30 | Microsoft Corporation | Click distance determination |
CN1996299A (zh) * | 2006-12-12 | 2007-07-11 | 孙斌 | 对网页和网站评级的方法 |
CN102012934A (zh) * | 2010-11-30 | 2011-04-13 | 百度在线网络技术(北京)有限公司 | 图片搜索方法及搜索*** |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064984A (zh) * | 2013-01-25 | 2013-04-24 | 清华大学 | 垃圾网页的识别方法及*** |
CN103064984B (zh) * | 2013-01-25 | 2016-08-10 | 清华大学 | 垃圾网页的识别方法及*** |
CN105930365A (zh) * | 2016-04-11 | 2016-09-07 | 天津大学 | 基于内容的网络链接拓扑重构方法 |
CN108984630A (zh) * | 2018-06-20 | 2018-12-11 | 天津大学 | 复杂网络中节点重要性在垃圾网页检测中的应用方法 |
CN108984630B (zh) * | 2018-06-20 | 2021-08-24 | 天津大学 | 复杂网络中节点重要性在垃圾网页检测中的应用方法 |
CN109831451A (zh) * | 2019-03-07 | 2019-05-31 | 北京华安普特网络科技有限公司 | 基于防火墙的防挂马方法 |
CN109902236A (zh) * | 2019-03-07 | 2019-06-18 | 成都数之联科技有限公司 | 一种基于非概率模型的垃圾网页降级方法 |
CN109902236B (zh) * | 2019-03-07 | 2021-06-11 | 成都数之联科技有限公司 | 一种基于非概率模型的垃圾网页降级方法 |
CN111368092A (zh) * | 2020-02-21 | 2020-07-03 | 中国科学院电子学研究所苏州研究院 | 一种基于可信网页资源的知识图谱构建方法 |
CN111368092B (zh) * | 2020-02-21 | 2020-12-04 | 中国科学院电子学研究所苏州研究院 | 一种基于可信网页资源的知识图谱构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102750380B (zh) | 2014-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xue et al. | Optimizing web search using web click-through data | |
CN102750380B (zh) | 一种结合差异特征分布与链接特征的网页排序方法 | |
EP1653380A1 (en) | Web page ranking with hierarchical considerations | |
Lu et al. | An improved focused crawler: using web page classification and link priority evaluation | |
CN103853831A (zh) | 一种基于用户兴趣的个性化搜索实现方法 | |
US7890502B2 (en) | Hierarchy-based propagation of contribution of documents | |
CN101706812A (zh) | 一种文档的检索方法和装置 | |
Hati et al. | An approach for identifying URLs based on division score and link score in focused crawler | |
Yan et al. | Research on PageRank and hyperlink-induced topic search in web structure mining | |
Tao et al. | Query-sensitive self-adaptable web page ranking algorithm | |
Batra et al. | Content based hidden web ranking algorithm (CHWRA) | |
Kumar et al. | Focused crawling based upon tf-idf semantics and hub score learning | |
Bianchini et al. | PageRank and web communities | |
Mukhopadhyay et al. | FlexiRank: an algorithm offering flexibility and accuracy for ranking the web pages | |
Huang et al. | TC-PageRank algorithm based on topic correlation | |
Liu et al. | Webpage importance analysis using conditional markov random walk | |
Singh et al. | A meta search approach to find similarity between web pages using different similarity measures | |
Chen et al. | Postingrank: Bringing order to web forum postings | |
Pawar et al. | Effective utilization of page ranking and HITS in significant information retrieval | |
Ganeshiya et al. | Hierarchicalrank: webpage rank improvement using HTML taglevel similarity. | |
Chibane et al. | Relevance propagation model for large hypertext document collections | |
Mousakazemi et al. | Popularity-based relevance propagation | |
Jiang et al. | Applying associative relationship on the clickthrough data to improve web search | |
Ferguson et al. | Físréal: a low cost terabyte search engine | |
Wang et al. | Preliminary work on xml retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141015 Termination date: 20200627 |