CN103064984A - 垃圾网页的识别方法及*** - Google Patents

垃圾网页的识别方法及*** Download PDF

Info

Publication number
CN103064984A
CN103064984A CN201310029963XA CN201310029963A CN103064984A CN 103064984 A CN103064984 A CN 103064984A CN 201310029963X A CN201310029963X A CN 201310029963XA CN 201310029963 A CN201310029963 A CN 201310029963A CN 103064984 A CN103064984 A CN 103064984A
Authority
CN
China
Prior art keywords
inquiry
results
spam
web page
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310029963XA
Other languages
English (en)
Other versions
CN103064984B (zh
Inventor
刘奕群
马少平
张敏
金奕江
张阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Sogou Technology Development Co Ltd
Original Assignee
Tsinghua University
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Sogou Technology Development Co Ltd filed Critical Tsinghua University
Priority to CN201310029963.XA priority Critical patent/CN103064984B/zh
Publication of CN103064984A publication Critical patent/CN103064984A/zh
Application granted granted Critical
Publication of CN103064984B publication Critical patent/CN103064984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提出一种垃圾网页的识别方法及***。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合;从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。

Description

垃圾网页的识别方法及***
技术领域
本发明涉及网络信息智能处理技术领域,特别涉及一种垃圾网页的识别方法及***。
背景技术
互联网信息量的飞速增长使搜索引擎成为人们日常工作和生活中不可或缺的信息获取手段。根据中国互联网络信息中心2011年12月的统计,我国的网民群体中搜索引擎用户的数量已经达到3.96亿,应用普及率近80%,是网民使用最多的互联网服务之一。搜索引擎在用户的上网过程中发挥着重要的入口作用,因此,在搜索引擎检索结果中取得有利的排名已经成为网络资源尽快获得用户关注的最有效途径。
在这种以搜索引擎为主要入口的信息获取方式下,高搜索排名带来的高流量和高收益诱使不少网络内容提供者使用作弊方式对搜索引擎算法进行欺诈,以获取较有利的结果排名,而这种使用作弊方式基于欺诈获利的网页就是垃圾网页。垃圾网页的定义为:利用搜索引擎运行算法的缺陷,采取针对搜索引擎的作弊手段,使其获得高于其网络信息质量排名效果以谋求直接或间接利益的网页。
Fetterly等人在2003年通过对英文网络页面的采样分析,认为其中至少有8.1%的页面是垃圾网页;而等人在2004年则估计Web中大约有10%至15%的垃圾内容;根据我们在搜狗搜索引擎协助下对约8亿个中文网页的抽样分析,中文网络资源中约有15%的网页属于垃圾网页。
垃圾网页对于网络用户、网络资源环境和搜索引擎都会产生显著的不利影响。对于网络用户而言,垃圾网页排在检索结果列表中靠前的位置以欺骗用户点击,这种行为增加了用户查找想要的有用信息的难度,降低用户的信息获取效率;垃圾网页还往往与病毒、木马软件等结合,对用户的信息安全造成严重的影响。对于网络资源环境而言,由于国家法律法规的限制,搜索引擎通常不会为色情、赌博等非法网络内容提供竞价广告服务,这使得借助作弊方式提升排名成为了这些内容提供网站的主要选择,垃圾网页中因而也充斥着各类非法内容,而这种加入作弊技术的非法内容网页往往会造成更广泛的不良影响,更严重的破坏网络资源环境。对于搜索引擎***而言,垃圾网页的存在导致数据索引里充斥无用页面,浪费大量存储空间和处理时间,从而加大搜索引擎在处理每个查询时的消耗,降低搜索处理效率,同时降低用户对搜索引擎的信任度。
现有垃圾网页识别方法的一种是针对基于内容作弊的识别研究工作方面,针对垃圾页面的URL特征及常用短语特征进行了分析,并对基于MSN搜索抓取的1.05亿网页进行了页面内容特征提取,使用了包括标题长度、词语的平均长度、可见内容的比例、内容压缩比等特征来区分垃圾网页与正常网页。在此基础上还使用了更多的内容特征来进行识别工作,其特征包括锚文本的数量、页面中含有热门词汇的数量等,并使用了排序学习方法对特征加以融合进行垃圾网页的识别。
另一种是基于链接结构分析的垃圾网页识别。
Figure BDA00002779716100021
等人在2004年提出的TrustRank算法则开启了一条利用链接结构信息识别垃圾网页的新途径,可以应用于包括内容作弊和链接作弊在内的多种垃圾网页的识别。尽管该方法缺乏对于链接结构图中噪音数据的应对方式,但仍有相当数量的研究者基于对TrustRank算法的改进提出了多个链接分析算法应用于垃圾网页识别,这些算法包括Anti-TrustRank,TruncatedPageRank等。
以上垃圾网页识别工作在相对固定的网页测试集合上都获得了较好的识别效果,国际知名的垃圾网页评测Web Spam Challenge给出的评测结果很多达到80%以上的识别准确率,而不少相关论文给出的实验结果准确率则往往超过90%。然而,种种原因造成这些识别算法在应用于真实互联网环境时仍然面临着巨大的挑战,很难充分发挥其识别效果,这也造成了当今垃圾网页仍旧对搜索引擎应用造成巨大影响的事实。
现有技术的缺点主要如下:
(1)这些算法往往只能针对某种特定类型的垃圾网页进行识别,缺乏识别的鲁棒性,且垃圾网页的作弊形式层出不穷,尽管识别算法对于某类垃圾网页的识别性能很高,但无法对其他类型的垃圾进行识别,垃圾网页作者一旦采用新的作弊形式,这些算法就往往会失去识别效用。
(2)随着作弊形式的发展,不少算法需要耗费大量计算、存储或带宽资源的方式进行垃圾识别,例如,对网页内容进行多元语言模型构建、对网页进行多次抓取、对网页脚本进行深层解析等,这使得这些算法识别垃圾网页的效率与搜索引擎的在线服务需求不相符合,因而无法应用于实际搜索引擎服务中。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
为达到上述目的,本发明一方面的实施例提出一种垃圾网页的识别方法,包括以下步骤:S1:获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;S2:从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;S3:从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;S4:根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;以及S5:如果所述查询-结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页,并将所述结果网页添加到所述垃圾网页集合中。
根据本发明实施例的方法,通过搜索引擎查询日志数据,从而发现和识别垃圾网页降低了算法复杂度,并且结构和参数简单,识别结果全面可靠,具有较好的推广性和适应性。
本发明的一个实例中,所述步骤S1具体包括:S11:获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;S12:对所述转换后的查询日志进行整理获得预处理查询日志。
本发明的一个实例中,所述步骤S2具体包括:S21:对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合;S22:计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;S23:计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
本发明的一个实例中,所述步骤S4具体包括:S41:设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;S42:计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及S43:计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
为达到上述目的,本发明的实施例另一方面提出一种垃圾网页的识别***,包括:预处理模块,用于获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;筛选模块,用于从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;提取模块,用于从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;计算模块,用于根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;判断模块,用于判断所述查询-结果集合中结果网页的垃圾得分是否大于阈值,如果大于阈值则为垃圾网页;以及处理模块,用于将所述结果网页添加到所述垃圾网页集合中。
根据本发明实施例的***,通过搜索引擎查询日志数据,从而发现和识别垃圾网页降低了算法复杂度,并且结构和参数简单,识别结果全面可靠,具有较好的推广性和适应性。
本发明的一个实例中,所述预处理模块包括:获取转换单元,用于获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;预处理单元,用于对所述转换后的查询日志进行整理获得预处理查询日志。
本发明的一个实例中,所述筛选模块包括:构建单元,用于对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合;第一计算单元,用于计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;第二计算单元,用于计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
本发明的一个实例中,所述计算模块包括:设置单元,用于设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;第三计算单元,用于计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及第四计算单元,用于计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的垃圾网页的识别方法的流程图;
图2为根据本发明一个实施例的预处理后的日志组织结构图;
图3为根据本发明一个实施例的查询-结果集合的垃圾得分的计算示意图;
图4为根据本发明另一个实施例的垃圾网页的识别***的框架图
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在本发明的描述中,需要理解的是,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1为根据本发明一个实施例的垃圾网页的识别方法的流程图。如图1所示,根据本发明实施例的垃圾网页的识别方法,包括以下步骤:
步骤S101,获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志,其中,预处理查询日志包括多个查询和结果网页。
具体地,首先获取搜索引擎的查询日志,并对查询日志转换为GBK格式。然后,对转换后的查询日志进行整理获得预处理查询日志,其预处理查询日志的结构图,如图2所示。表1为预处理后搜索引擎查询日志包括的内容。
表1
Figure BDA00002779716100051
在本发明的一个实施例中,所使用的日志包括了搜狗搜索引擎在2011年3月1日至9日的9天时间内的所有查询。其中,包含8,443,963个不同的查询,12,470,865个不同的点击网页,这些网页属于1,055,001个不同的站点。日志中包括的信息如表2所示。
表2
Figure BDA00002779716100052
表2的日志信息中包含了足够的用于搜索引擎自动评价的信息项,因此可以利用这个日志进行各中文搜索引擎的性能评价。
步骤S102,从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合。
具体地,对预处理查询日志的每个查询分词为多个关键词,并将每个关键词与用户的点击结果网页构建第一查询-结果集合。然后计算第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合,再计算第二查询-结果集合中每个结果在第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
步骤S103,从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合。
具体地,从查询-结果集合中随机抽取多个数量的搜索结果,例如,1000个查询-结果,并对其中的结果网页进行是否为垃圾网页的标注,直到标注出的垃圾网页数量达到预定数量,例如,200个时停止标注,如果垃圾网页的数量达不到预定数量,则从查询-结果集合中继续抽取1000个进行标注,以此类推,直到垃圾网页数量达到预定数量为止。将标注出的垃圾网页作为垃圾网页样例集合。
步骤S104,根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分。
具体地,设置查询-结果集合中每一个查询的初始作弊得分为0,并设置查询-结果集合中结果网页的初始垃圾得分,如果查询-结果集合中的结果网页在垃圾网页样例集合中,则将对应的初始垃圾得分设置为1,否则其对应的初始垃圾得分设置为0。然后,计算与查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分。最后,计算与查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果结果网页不在垃圾网页中则将作弊得分的平均值作为对应网页的垃圾得分,否则不更改垃圾得分。在本发明的实施例中,通过上述垃圾得分和作弊得分的更新方法按顺序重复多次一般为20-30次,得到的最终的垃圾得分为结果网页的垃圾得分。
图3为根据本发明一个实施例的查询-结果集合的垃圾得分的计算示意图。如图3所示,查询-结果集合包含了查询与结果之间的对应关系,而两者之间关联强度的大小则由查询-结果集合的出现频率(在图3中由wii表示)记录。从手工标注的小规模垃圾网页样例集合出发,可以逐步迭代计算各个网页的垃圾网页得分。假设URL1为垃圾网页样例集合中的网页(其垃圾得分为1),而URL2不是垃圾网页样例集合中的网页(其初始垃圾得分为0),则Query1和Query3第一次迭代时的关键词作弊得分均为URL1和URL2的垃圾网页得分平均值(可以按等权重直接平均,也可以按关联强度大小加权平均);进一步,URL2的垃圾网页得分值为Query1和Query3的关键词作弊得分平均值(可以按等权重直接平均,也可以按关联强度大小加权平均),从而实现了垃圾网页得分从样例集合到其他网页的扩散。以此类推,即可以计算所有网页的垃圾网页得分。
步骤S105,将查询-结果集合中结果网页的垃圾得分大于阈值的结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。
在本发明的一个实施例中,垃圾网页判定标准的垃圾得分阈值可根据情况而定,例如,设为0.8。将所识别出的垃圾网页添加到垃圾网页集合中作为识别垃圾网页的数据使用。
根据本发明实施例的方法,通过搜索引擎查询日志数据,从而发现和识别垃圾网页降低了算法复杂度,并且结构和参数简单,识别结果全面可靠,具有较好的推广性和适应性。
图4为根据本发明另一个实施例的垃圾网页的识别***的框架图。如图4所示,根据本发明实施例的垃圾网页的识别***包括预处理模块100、筛选模块200、提取模块300、计算模块400、判断模块500和处理模块600。
预处理模块100用于获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志,其中,预处理查询日志包括多个查询和结果网页。
在本发明的一个实施例中,预处理模块100包括获取转换单元110和预处理单元120。
获取转换单元110用于获取搜索引擎的查询日志,并对查询日志转换为GBK格式。
预处理单元120用于对转换后的查询日志进行整理获得预处理查询日志。
在本发明的一个实施例中,获取搜索引擎的查询日志,并对查询日志统一编码转换为GBK格式。对转换后的查询日志进行整理并过滤无用信息获得预处理查询日志,图2为预处理查询日志的结构图。
筛选模块200用于从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合。
在本发明的一个实施例中,筛选模块200包括构建单元210、第一计算单元220和第二计算单元230。
构建单元210用于对预处理查询日志的每个查询分词为多个关键词,并将每个关键词与用户的点击结果网页构建第一查询-结果集合。
第一计算单元220用于计算第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合。
第二计算单元230用于计算第二查询-结果集合中每个结果在第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
在本发明的一个实施例中,从查询-结果集合中随机抽取多个数量的搜索结果,例如,1000个查询-结果,并对其中的结果网页进行是否为垃圾网页的标注,直到标注出的垃圾网页数量达到预定数量,例如,200个时停止标注,如果垃圾网页的数量达不到预定数量,则从查询-结果集合中继续抽取1000个进行标注,以此类推,直到垃圾网页数量达到预定数量为止。将标注出的垃圾网页作为垃圾网页样例集合。
提取模块300用于从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合。
在本发明的一个实施例中,从查询-结果集合中随机抽取多个数量的搜索结果,例如,1000个查询-结果,并对其中的结果网页进行是否为垃圾网页的标注,直到标注出的垃圾网页数量达到预定数量,例如,200个时停止标注,如果垃圾网页的数量达不到预定数量,则从查询-结果集合中继续抽取1000个进行标注,以此类推,直到垃圾网页数量达到预定数量为止。将标注出的垃圾网页作为垃圾网页样例集合。
计算模块400用于根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分。
在本发明的一个实施例中,计算模块400包括设置单元410、第三计算单元420和第四计算单元430。
设置单元410用于设置查询-结果集合中每一个查询的初始作弊得分,并设置查询-结果集合中结果网页的初始垃圾得分。
第三计算单元420用于计算与查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分。
第四计算单元430用于计算与查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果结果网页不在垃圾网页中则将作弊得分的平均值作为对应网页的垃圾得分,否则不更改垃圾得分。
在本发明的实施例中,通过第三计算单元和第四计算单元按顺序重复多次更新垃圾得分和作弊得分一般为20-30次,得到的最终的垃圾得分为结果网页的垃圾得分。
图3为根据本发明一个实施例的查询-结果集合的垃圾得分的计算示意图。如图3所示,查询-结果集合包含了查询与结果之间的对应关系,而两者之间关联强度的大小则由查询-结果集合的出现频率(在图3中由wii表示)记录。从手工标注的小规模垃圾网页样例集合出发,可以逐步迭代计算各个网页的垃圾网页得分。假设URL1为垃圾网页样例集合中的网页(其垃圾得分为1),而URL2不是垃圾网页样例集合中的网页(其初始垃圾得分为0),则Query1和Query3第一次迭代时的关键词作弊得分均为URL1和URL2的垃圾网页得分平均值(可以按等权重直接平均,也可以按关联强度大小加权平均);进一步,URL2的垃圾网页得分值为Query1和Query3的关键词作弊得分平均值(可以按等权重直接平均,也可以按关联强度大小加权平均),从而实现了垃圾网页得分从样例集合到其他网页的扩散。以此类推,即可以计算所有网页的垃圾网页得分。
判断模块500用于判断查询-结果集合中结果网页的垃圾得分是否大于阈值,如果大于阈值则为垃圾网页。在本发明的一个实施例中,垃圾网页判定标准的垃圾得分阈值可根据情况而定,例如,设为0.8等。
处理模块600用于将结果网页添加到垃圾网页集合中。将所识别出的垃圾网页添加到垃圾网页集合中作为识别垃圾网页的数据使用。
根据本发明实施例的***,通过搜索引擎查询日志数据,从而发现和识别垃圾网页降低了算法复杂度,并且结构和参数简单,识别结果全面可靠,具有较好的推广性和适应性。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种垃圾网页的识别方法,其特征在于,包括以下步骤:
S1:获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;
S2:从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;
S3:从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;
S4:根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;以及
S5:如果所述查询-结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页,并将所述结果网页添加到所述垃圾网页集合中。
2.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤S1具体包括:
S11:获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;
S12:对所述转换后的查询日志进行整理获得预处理查询日志。
3.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤S2具体包括:
S21:对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合;
S22:计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;
S23:计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
4.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤S4具体包括:
S41:设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;
S42:计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及
S43:计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
5.一种垃圾网页的识别***,其特征在于,包括:
预处理模块,用于获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;
筛选模块,用于从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;
提取模块,用于从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;
计算模块,用于根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;
判断模块,用于判断所述查询-结果集合中结果网页的垃圾得分是否大于阈值,如果大于阈值则为垃圾网页;以及
处理模块,用于将所述结果网页添加到所述垃圾网页集合中。
6.根据权利要求5所述的垃圾网页的识别***,其特征在于,所述预处理模块包括:
获取转换单元,用于获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;
预处理单元,用于对所述转换后的查询日志进行整理获得预处理查询日志。
7.根据权利要求5所述的垃圾网页的识别***,其特征在于,所述筛选模块包括:
构建单元,用于对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合;
第一计算单元,用于计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;
第二计算单元,用于计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
8.根据权利要求5所述的垃圾网页的识别***,其特征在于,所述计算模块包括:
设置单元,用于设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;
第三计算单元,用于计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及
第四计算单元,用于计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
CN201310029963.XA 2013-01-25 2013-01-25 垃圾网页的识别方法及*** Active CN103064984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310029963.XA CN103064984B (zh) 2013-01-25 2013-01-25 垃圾网页的识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310029963.XA CN103064984B (zh) 2013-01-25 2013-01-25 垃圾网页的识别方法及***

Publications (2)

Publication Number Publication Date
CN103064984A true CN103064984A (zh) 2013-04-24
CN103064984B CN103064984B (zh) 2016-08-10

Family

ID=48107614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310029963.XA Active CN103064984B (zh) 2013-01-25 2013-01-25 垃圾网页的识别方法及***

Country Status (1)

Country Link
CN (1) CN103064984B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103595732A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网络攻击取证的方法及装置
CN104598460A (zh) * 2013-10-30 2015-05-06 腾讯科技(深圳)有限公司 垃圾锚文本识别方法及装置
CN104933055A (zh) * 2014-03-18 2015-09-23 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
CN106844685A (zh) * 2017-01-26 2017-06-13 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN106844371A (zh) * 2015-12-03 2017-06-13 阿里巴巴集团控股有限公司 搜索优化方法和装置
CN109255069A (zh) * 2018-07-31 2019-01-22 阿里巴巴集团控股有限公司 一种离散文本内容风险识别方法和***
CN109361957A (zh) * 2018-10-18 2019-02-19 广州酷狗计算机科技有限公司 发送点赞请求的方法和装置
CN109831451A (zh) * 2019-03-07 2019-05-31 北京华安普特网络科技有限公司 基于防火墙的防挂马方法
CN110147472A (zh) * 2017-07-14 2019-08-20 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814093A (zh) * 2010-04-02 2010-08-25 南京邮电大学 一种基于相似性的半监督学习垃圾网页检测方法
CN102184208A (zh) * 2011-04-29 2011-09-14 武汉慧人信息科技有限公司 一种基于多维数据异常簇挖掘的垃圾网页检测方法
US20110314122A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Discrepancy detection for web crawling
CN102750380A (zh) * 2012-06-27 2012-10-24 山东师范大学 一种结合差异特征分布与链接特征的网页排序方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814093A (zh) * 2010-04-02 2010-08-25 南京邮电大学 一种基于相似性的半监督学习垃圾网页检测方法
US20110314122A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Discrepancy detection for web crawling
CN102184208A (zh) * 2011-04-29 2011-09-14 武汉慧人信息科技有限公司 一种基于多维数据异常簇挖掘的垃圾网页检测方法
CN102750380A (zh) * 2012-06-27 2012-10-24 山东师范大学 一种结合差异特征分布与链接特征的网页排序方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598460A (zh) * 2013-10-30 2015-05-06 腾讯科技(深圳)有限公司 垃圾锚文本识别方法及装置
CN104598460B (zh) * 2013-10-30 2018-11-02 腾讯科技(深圳)有限公司 垃圾锚文本识别方法及装置
CN103595732B (zh) * 2013-11-29 2017-09-15 北京奇虎科技有限公司 一种网络攻击取证的方法及装置
CN103595732A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网络攻击取证的方法及装置
CN104933055B (zh) * 2014-03-18 2020-01-31 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
CN104933055A (zh) * 2014-03-18 2015-09-23 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
CN106844371B (zh) * 2015-12-03 2020-09-08 阿里巴巴集团控股有限公司 搜索优化方法和装置
CN106844371A (zh) * 2015-12-03 2017-06-13 阿里巴巴集团控股有限公司 搜索优化方法和装置
CN106844685B (zh) * 2017-01-26 2020-07-28 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN106844685A (zh) * 2017-01-26 2017-06-13 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN110147472A (zh) * 2017-07-14 2019-08-20 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置
CN110147472B (zh) * 2017-07-14 2021-10-15 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置
CN109255069A (zh) * 2018-07-31 2019-01-22 阿里巴巴集团控股有限公司 一种离散文本内容风险识别方法和***
CN109361957A (zh) * 2018-10-18 2019-02-19 广州酷狗计算机科技有限公司 发送点赞请求的方法和装置
CN109361957B (zh) * 2018-10-18 2021-02-12 广州酷狗计算机科技有限公司 发送点赞请求的方法和装置
CN109831451A (zh) * 2019-03-07 2019-05-31 北京华安普特网络科技有限公司 基于防火墙的防挂马方法

Also Published As

Publication number Publication date
CN103064984B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN103064984A (zh) 垃圾网页的识别方法及***
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN100405371C (zh) 一种提取新词的方法和***
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其***
CN103793434A (zh) 一种基于内容的图片搜索方法和装置
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN101788988B (zh) 信息抓取方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
WO2008098502A1 (fr) Procédé et dispositif destinés à créer un index et procédé et système de récupération
CN101169780A (zh) 一种基于语义本体的检索***和方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN104679825A (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN102955771A (zh) 中文单字串模式和词缀模式的新词自动识别技术及***
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN110012122B (zh) 一种基于词嵌入技术的域名相似性分析方法
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及***
CN101968801A (zh) 一种单篇文本关键词的提取方法
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
CN103530429A (zh) 一种网页正文抽取的方法
CN109460477B (zh) 信息收集分类***和方法及其检索和集成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant