CN103064984B - 垃圾网页的识别方法及*** - Google Patents
垃圾网页的识别方法及*** Download PDFInfo
- Publication number
- CN103064984B CN103064984B CN201310029963.XA CN201310029963A CN103064984B CN 103064984 B CN103064984 B CN 103064984B CN 201310029963 A CN201310029963 A CN 201310029963A CN 103064984 B CN103064984 B CN 103064984B
- Authority
- CN
- China
- Prior art keywords
- inquiry
- results
- web page
- page
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000010813 municipal solid waste Substances 0.000 claims abstract description 59
- 238000012216 screening Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 7
- 239000002699 waste material Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 230000005094 fruit set Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009931 harmful effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提出一种垃圾网页的识别方法及***。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询‑结果集合;从查询‑结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询‑结果集合和垃圾网页样例集合计算查询‑结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。
Description
技术领域
本发明涉及网络信息智能处理技术领域,特别涉及一种垃圾网页的识别方法及***。
背景技术
互联网信息量的飞速增长使搜索引擎成为人们日常工作和生活中不可或缺的信息获取手段。根据中国互联网络信息中心2011年12月的统计,我国的网民群体中搜索引擎用户的数量已经达到3.96亿,应用普及率近80%,是网民使用最多的互联网服务之一。搜索引擎在用户的上网过程中发挥着重要的入口作用,因此,在搜索引擎检索结果中取得有利的排名已经成为网络资源尽快获得用户关注的最有效途径。
在这种以搜索引擎为主要入口的信息获取方式下,高搜索排名带来的高流量和高收益诱使不少网络内容提供者使用作弊方式对搜索引擎算法进行欺诈,以获取较有利的结果排名,而这种使用作弊方式基于欺诈获利的网页就是垃圾网页。垃圾网页的定义为:利用搜索引擎运行算法的缺陷,采取针对搜索引擎的作弊手段,使其获得高于其网络信息质量排名效果以谋求直接或间接利益的网页。
Fetterly等人在2003年通过对英文网络页面的采样分析,认为其中至少有8.1%的页面是垃圾网页;而等人在2004年则估计Web中大约有10%至15%的垃圾内容;根据我们在搜狗搜索引擎协助下对约8亿个中文网页的抽样分析,中文网络资源中约有15%的网页属于垃圾网页。
垃圾网页对于网络用户、网络资源环境和搜索引擎都会产生显著的不利影响。对于网络用户而言,垃圾网页排在检索结果列表中靠前的位置以欺骗用户点击,这种行为增加了用户查找想要的有用信息的难度,降低用户的信息获取效率;垃圾网页还往往与病毒、木马软件等结合,对用户的信息安全造成严重的影响。对于网络资源环境而言,由于国家法律法规的限制,搜索引擎通常不会为色情、赌博等非法网络内容提供竞价广告服务,这使得借助作弊方式提升排名成为了这些内容提供网站的主要选择,垃圾网页中因而也充斥着各类非法内容,而这种加入作弊技术的非法内容网页往往会造成更广泛的不良影响,更严重的破坏网络资源环境。对于搜索引擎***而言,垃圾网页的存在导致数据索引里充斥无用页面,浪费大量存储空间和处理时间,从而加大搜索引擎在处理每个查询时的消耗,降低搜索处理效率,同时降低用户对搜索引擎的信任度。
现有垃圾网页识别方法的一种是针对基于内容作弊的识别研究工作方面,针对垃圾页面的URL特征及常用短语特征进行了分析,并对基于MSN搜索抓取的1.05亿网页进行了页面内容特征提取,使用了包括标题长度、词语的平均长度、可见内容的比例、内容压缩比等特征来区分垃圾网页与正常网页。在此基础上还使用了更多的内容特征来进行识别工作,其特征包括锚文本的数量、页面中含有热门词汇的数量等,并使用了排序学习方法对特征加以融合进行垃圾网页的识别。
另一种是基于链接结构分析的垃圾网页识别。等人在2004年提出的TrustRank算法则开启了一条利用链接结构信息识别垃圾网页的新途径,可以应用于包括内容作弊和链接作弊在内的多种垃圾网页的识别。尽管该方法缺乏对于链接结构图中噪音数据的应对方式,但仍有相当数量的研究者基于对TrustRank算法的改进提出了多个链接分析算法应用于垃圾网页识别,这些算法包括Anti-TrustRank,TruncatedPageRank等。
以上垃圾网页识别工作在相对固定的网页测试集合上都获得了较好的识别效果,国际知名的垃圾网页评测Web Spam Challenge给出的评测结果很多达到80%以上的识别准确率,而不少相关论文给出的实验结果准确率则往往超过90%。然而,种种原因造成这些识别算法在应用于真实互联网环境时仍然面临着巨大的挑战,很难充分发挥其识别效果,这也造成了当今垃圾网页仍旧对搜索引擎应用造成巨大影响的事实。
现有技术的缺点主要如下:
(1)这些算法往往只能针对某种特定类型的垃圾网页进行识别,缺乏识别的鲁棒性,且垃圾网页的作弊形式层出不穷,尽管识别算法对于某类垃圾网页的识别性能很高,但无法对其他类型的垃圾进行识别,垃圾网页作者一旦采用新的作弊形式,这些算法就往往会失去识别效用。
(2)随着作弊形式的发展,不少算法需要耗费大量计算、存储或带宽资源的方式进行垃圾识别,例如,对网页内容进行多元语言模型构建、对网页进行多次抓取、对网页脚本进行深层解析等,这使得这些算法识别垃圾网页的效率与搜索引擎的在线服务需求不相符合,因而无法应用于实际搜索引擎服务中。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
为达到上述目的,本发明一方面的实施例提出一种垃圾网页的识别方法,包括以下步骤:S1:获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;S2:从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;S3:从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;S4:根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;以及S5:如果所述查询-结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页,并将所述结果网页添加到所述垃圾网页集合中。
根据本发明实施例的方法,通过搜索引擎查询日志数据,从而发现和识别垃圾网页降低了算法复杂度,并且结构和参数简单,识别结果全面可靠,具有较好的推广性和适应性。
本发明的一个实例中,所述步骤S1具体包括:S11:获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;S12:对所述转换后的查询日志进行整理获得预处理查询日志。
本发明的一个实例中,所述步骤S2具体包括:S21:对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合;S22:计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;S23:计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
本发明的一个实例中,所述步骤S4具体包括:S41:设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;S42:计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及S43:计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
为达到上述目的,本发明的实施例另一方面提出一种垃圾网页的识别***,包括:预处理模块,用于获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;筛选模块,用于从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;提取模块,用于从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;计算模块,用于根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;判断模块,用于判断所述查询-结果集合中结果网页的垃圾得分是否大于阈值,如果大于阈值则为垃圾网页;以及处理模块,用于将所述结果网页添加到所述垃圾网页集合中。
根据本发明实施例的***,通过搜索引擎查询日志数据,从而发现和识别垃圾网页降低了算法复杂度,并且结构和参数简单,识别结果全面可靠,具有较好的推广性和适应性。
本发明的一个实例中,所述预处理模块包括:获取转换单元,用于获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;预处理单元,用于对所述转换后的查询日志进行整理获得预处理查询日志。
本发明的一个实例中,所述筛选模块包括:构建单元,用于对所述预处理查询日志的每个查询分词为多个关键词,并将所述每个关键词与用户的点击结果网页构建第一查询-结果集合;第一计算单元,用于计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;第二计算单元,用于计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
本发明的一个实例中,所述计算模块包括:设置单元,用于设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;第三计算单元,用于计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及第四计算单元,用于计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的垃圾网页的识别方法的流程图;
图2为根据本发明一个实施例的预处理后的日志组织结构图;
图3为根据本发明一个实施例的查询-结果集合的垃圾得分的计算示意图;
图4为根据本发明另一个实施例的垃圾网页的识别***的框架图
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在本发明的描述中,需要理解的是,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1为根据本发明一个实施例的垃圾网页的识别方法的流程图。如图1所示,根据本发明实施例的垃圾网页的识别方法,包括以下步骤:
步骤S101,获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志,其中,预处理查询日志包括多个查询和结果网页。
具体地,首先获取搜索引擎的查询日志,并对查询日志转换为GBK格式。然后,对转换后的查询日志进行整理获得预处理查询日志,其预处理查询日志的结构图,如图2所示。表1为预处理后搜索引擎查询日志包括的内容。
表1
在本发明的一个实施例中,所使用的日志包括了搜狗搜索引擎在2011年3月1日至9日的9天时间内的所有查询。其中,包含8,443,963个不同的查询,12,470,865个不同的点击网页,这些网页属于1,055,001个不同的站点。日志中包括的信息如表2所示。
表2
表2的日志信息中包含了足够的用于搜索引擎自动评价的信息项,因此可以利用这个日志进行各中文搜索引擎的性能评价。
步骤S102,从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合。
具体地,对预处理查询日志的每个查询分词为多个关键词,并将每个关键词与用户的点击结果网页构建第一查询-结果集合。然后计算第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合,再计算第二查询-结果集合中每个结果在第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
步骤S103,从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合。
具体地,从查询-结果集合中随机抽取多个数量的搜索结果,例如,1000个查询-结果,并对其中的结果网页进行是否为垃圾网页的标注,直到标注出的垃圾网页数量达到预定数量,例如,200个时停止标注,如果垃圾网页的数量达不到预定数量,则从查询-结果集合中继续抽取1000个进行标注,以此类推,直到垃圾网页数量达到预定数量为止。将标注出的垃圾网页作为垃圾网页样例集合。
步骤S104,根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分。
具体地,设置查询-结果集合中每一个查询的初始作弊得分为0,并设置查询-结果集合中结果网页的初始垃圾得分,如果查询-结果集合中的结果网页在垃圾网页样例集合中,则将对应的初始垃圾得分设置为1,否则其对应的初始垃圾得分设置为0。然后,计算与查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分。最后,计算与查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果结果网页不在垃圾网页中则将作弊得分的平均值作为对应网页的垃圾得分,否则不更改垃圾得分。在本发明的实施例中,通过上述垃圾得分和作弊得分的更新方法按顺序重复多次一般为20-30次,得到的最终的垃圾得分为结果网页的垃圾得分。
图3为根据本发明一个实施例的查询-结果集合的垃圾得分的计算示意图。如图3所示,查询-结果集合包含了查询与结果之间的对应关系,而两者之间关联强度的大小则由查询-结果集合的出现频率(在图3中由wii表示)记录。从手工标注的小规模垃圾网页样例集合出发,可以逐步迭代计算各个网页的垃圾网页得分。假设URL1为垃圾网页样例集合中的网页(其垃圾得分为1),而URL2不是垃圾网页样例集合中的网页(其初始垃圾得分为0),则Query1和Query3第一次迭代时的关键词作弊得分均为URL1和URL2的垃圾网页得分平均值(可以按等权重直接平均,也可以按关联强度大小加权平均);进一步,URL2的垃圾网页得分值为Query1和Query3的关键词作弊得分平均值(可以按等权重直接平均,也可以按关联强度大小加权平均),从而实现了垃圾网页得分从样例集合到其他网页的扩散。以此类推,即可以计算所有网页的垃圾网页得分。
步骤S105,将查询-结果集合中结果网页的垃圾得分大于阈值的结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。
在本发明的一个实施例中,垃圾网页判定标准的垃圾得分阈值可根据情况而定,例如,设为0.8。将所识别出的垃圾网页添加到垃圾网页集合中作为识别垃圾网页的数据使用。
根据本发明实施例的方法,通过搜索引擎查询日志数据,从而发现和识别垃圾网页降低了算法复杂度,并且结构和参数简单,识别结果全面可靠,具有较好的推广性和适应性。
图4为根据本发明另一个实施例的垃圾网页的识别***的框架图。如图4所示,根据本发明实施例的垃圾网页的识别***包括预处理模块100、筛选模块200、提取模块300、计算模块400、判断模块500和处理模块600。
预处理模块100用于获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志,其中,预处理查询日志包括多个查询和结果网页。
在本发明的一个实施例中,预处理模块100包括获取转换单元110和预处理单元120。
获取转换单元110用于获取搜索引擎的查询日志,并对查询日志转换为GBK格式。
预处理单元120用于对转换后的查询日志进行整理获得预处理查询日志。
在本发明的一个实施例中,获取搜索引擎的查询日志,并对查询日志统一编码转换为GBK格式。对转换后的查询日志进行整理并过滤无用信息获得预处理查询日志,图2为预处理查询日志的结构图。
筛选模块200用于从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合。
在本发明的一个实施例中,筛选模块200包括构建单元210、第一计算单元220和第二计算单元230。
构建单元210用于对预处理查询日志的每个查询分词为多个关键词,并将每个关键词与用户的点击结果网页构建第一查询-结果集合。
第一计算单元220用于计算第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合。
第二计算单元230用于计算第二查询-结果集合中每个结果在第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合。
在本发明的一个实施例中,从查询-结果集合中随机抽取多个数量的搜索结果,例如,1000个查询-结果,并对其中的结果网页进行是否为垃圾网页的标注,直到标注出的垃圾网页数量达到预定数量,例如,200个时停止标注,如果垃圾网页的数量达不到预定数量,则从查询-结果集合中继续抽取1000个进行标注,以此类推,直到垃圾网页数量达到预定数量为止。将标注出的垃圾网页作为垃圾网页样例集合。
提取模块300用于从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合。
在本发明的一个实施例中,从查询-结果集合中随机抽取多个数量的搜索结果,例如,1000个查询-结果,并对其中的结果网页进行是否为垃圾网页的标注,直到标注出的垃圾网页数量达到预定数量,例如,200个时停止标注,如果垃圾网页的数量达不到预定数量,则从查询-结果集合中继续抽取1000个进行标注,以此类推,直到垃圾网页数量达到预定数量为止。将标注出的垃圾网页作为垃圾网页样例集合。
计算模块400用于根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分。
在本发明的一个实施例中,计算模块400包括设置单元410、第三计算单元420和第四计算单元430。
设置单元410用于设置查询-结果集合中每一个查询的初始作弊得分,并设置查询-结果集合中结果网页的初始垃圾得分。
第三计算单元420用于计算与查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分。
第四计算单元430用于计算与查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果结果网页不在垃圾网页中则将作弊得分的平均值作为对应网页的垃圾得分,否则不更改垃圾得分。
在本发明的实施例中,通过第三计算单元和第四计算单元按顺序重复多次更新垃圾得分和作弊得分一般为20-30次,得到的最终的垃圾得分为结果网页的垃圾得分。
图3为根据本发明一个实施例的查询-结果集合的垃圾得分的计算示意图。如图3所示,查询-结果集合包含了查询与结果之间的对应关系,而两者之间关联强度的大小则由查询-结果集合的出现频率(在图3中由wii表示)记录。从手工标注的小规模垃圾网页样例集合出发,可以逐步迭代计算各个网页的垃圾网页得分。假设URL1为垃圾网页样例集合中的网页(其垃圾得分为1),而URL2不是垃圾网页样例集合中的网页(其初始垃圾得分为0),则Query1和Query3第一次迭代时的关键词作弊得分均为URL1和URL2的垃圾网页得分平均值(可以按等权重直接平均,也可以按关联强度大小加权平均);进一步,URL2的垃圾网页得分值为Query1和Query3的关键词作弊得分平均值(可以按等权重直接平均,也可以按关联强度大小加权平均),从而实现了垃圾网页得分从样例集合到其他网页的扩散。以此类推,即可以计算所有网页的垃圾网页得分。
判断模块500用于判断查询-结果集合中结果网页的垃圾得分是否大于阈值,如果大于阈值则为垃圾网页。在本发明的一个实施例中,垃圾网页判定标准的垃圾得分阈值可根据情况而定,例如,设为0.8等。
处理模块600用于将结果网页添加到垃圾网页集合中。将所识别出的垃圾网页添加到垃圾网页集合中作为识别垃圾网页的数据使用。
根据本发明实施例的***,通过搜索引擎查询日志数据,从而发现和识别垃圾网页降低了算法复杂度,并且结构和参数简单,识别结果全面可靠,具有较好的推广性和适应性。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (4)
1.一种垃圾网页的识别方法,其特征在于,包括以下步骤:
S1:获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;
S2:从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;
S3:从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;
S4:根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;以及
S5:如果所述查询-结果集合中结果网页的垃圾得分大于阈值则所述结果网页为垃圾网页,并将所述结果网页添加到所述垃圾网页集合中,
所述步骤S2具体包括:
S21:对所述预处理查询日志的每个查询分词为多个关键词,并将所述多个关键词的每个关键词与用户的点击结果网页构建第一查询-结果集合;
S22:计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;
S23:计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合,
所述步骤S4具体包括:
S41:设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;
S42:计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及
S43:计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
2.根据权利要求1所述的垃圾网页的识别方法,其特征在于,所述步骤S1具体包括:
S11:获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;
S12:对所述转换后的查询日志进行整理获得预处理查询日志。
3.一种垃圾网页的识别***,其特征在于,包括:
预处理模块,用于获取搜索引擎的查询日志并对所述查询日志进行预处理获得预处理查询日志,其中,所述预处理查询日志包括多个查询和结果网页;
筛选模块,用于从所述预处理查询日志的多个查询和结果网页中筛选出所述查询的用户点击率和所述结果网页的出现次数大于阈值的查询-结果集合;
提取模块,用于从所述查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;
计算模块,用于根据所述查询-结果集合和垃圾网页样例集合计算所述查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;
判断模块,用于判断所述查询-结果集合中结果网页的垃圾得分是否大于阈值,如果大于阈值则为垃圾网页;以及
处理模块,用于将所述结果网页添加到所述垃圾网页集合中,
所述筛选模块包括:
构建单元,用于对所述预处理查询日志的每个查询分词为多个关键词,并将所述多个关键词的每个关键词与用户的点击结果网页构建第一查询-结果集合;
第一计算单元,用于计算所述第一查询-结果集合中每个查询的用户结果网页点击频率,并从中筛选出用户点击率大于阈值的查询和结果网页生成第二查询-结果集合;
第二计算单元,用于计算所述第二查询-结果集合中每个结果在所述第二查询-结果集合中出现的次数,并从中筛选出现次数大于阈值的查询和结果网页生成查询-结果集合,
所述计算模块包括:
设置单元,用于设置所述查询-结果集合中每一个查询的初始作弊得分,并设置所述查询-结果集合中结果网页的初始垃圾得分;
第三计算单元,用于计算与所述查询-结果集合中的每个查询相关联的所有结果网页的垃圾得分的平均值作为对应查询的作弊得分;以及
第四计算单元,用于计算与所述查询-结果集合中的每个结果网页相关联的所有查询的作弊得分的平均值,如果所述结果网页不在垃圾网页中则将所述作弊得分的平均值作为对应网页的垃圾得分,否则不更改所述垃圾得分。
4.根据权利要求3所述的垃圾网页的识别***,其特征在于,所述预处理模块包括:
获取转换单元,用于获取搜索引擎的查询日志,并对所述查询日志转换为GBK格式;
预处理单元,用于对所述转换后的查询日志进行整理获得预处理查询日志。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310029963.XA CN103064984B (zh) | 2013-01-25 | 2013-01-25 | 垃圾网页的识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310029963.XA CN103064984B (zh) | 2013-01-25 | 2013-01-25 | 垃圾网页的识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103064984A CN103064984A (zh) | 2013-04-24 |
CN103064984B true CN103064984B (zh) | 2016-08-10 |
Family
ID=48107614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310029963.XA Active CN103064984B (zh) | 2013-01-25 | 2013-01-25 | 垃圾网页的识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103064984B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598460B (zh) * | 2013-10-30 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 垃圾锚文本识别方法及装置 |
CN103595732B (zh) * | 2013-11-29 | 2017-09-15 | 北京奇虎科技有限公司 | 一种网络攻击取证的方法及装置 |
CN104933055B (zh) * | 2014-03-18 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 网页识别方法及网页识别装置 |
CN106844371B (zh) * | 2015-12-03 | 2020-09-08 | 阿里巴巴集团控股有限公司 | 搜索优化方法和装置 |
CN106844685B (zh) * | 2017-01-26 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 用于识别网站的方法、装置及服务器 |
CN110147472B (zh) * | 2017-07-14 | 2021-10-15 | 北京搜狗科技发展有限公司 | 作弊站点的检测方法、装置以及用于作弊站点的检测装置 |
CN109255069A (zh) * | 2018-07-31 | 2019-01-22 | 阿里巴巴集团控股有限公司 | 一种离散文本内容风险识别方法和*** |
CN109361957B (zh) * | 2018-10-18 | 2021-02-12 | 广州酷狗计算机科技有限公司 | 发送点赞请求的方法和装置 |
CN109831451A (zh) * | 2019-03-07 | 2019-05-31 | 北京华安普特网络科技有限公司 | 基于防火墙的防挂马方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814093A (zh) * | 2010-04-02 | 2010-08-25 | 南京邮电大学 | 一种基于相似性的半监督学习垃圾网页检测方法 |
CN102184208A (zh) * | 2011-04-29 | 2011-09-14 | 武汉慧人信息科技有限公司 | 一种基于多维数据异常簇挖掘的垃圾网页检测方法 |
CN102750380A (zh) * | 2012-06-27 | 2012-10-24 | 山东师范大学 | 一种结合差异特征分布与链接特征的网页排序方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639773B2 (en) * | 2010-06-17 | 2014-01-28 | Microsoft Corporation | Discrepancy detection for web crawling |
-
2013
- 2013-01-25 CN CN201310029963.XA patent/CN103064984B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814093A (zh) * | 2010-04-02 | 2010-08-25 | 南京邮电大学 | 一种基于相似性的半监督学习垃圾网页检测方法 |
CN102184208A (zh) * | 2011-04-29 | 2011-09-14 | 武汉慧人信息科技有限公司 | 一种基于多维数据异常簇挖掘的垃圾网页检测方法 |
CN102750380A (zh) * | 2012-06-27 | 2012-10-24 | 山东师范大学 | 一种结合差异特征分布与链接特征的网页排序方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103064984A (zh) | 2013-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103064984B (zh) | 垃圾网页的识别方法及*** | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN105138558B (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN104679825B (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
US20090319449A1 (en) | Providing context for web articles | |
CN109522562B (zh) | 一种基于文本图像融合识别的网页知识抽取方法 | |
DE112013004082T5 (de) | Suchsystem der Emotionsentität für das Microblog | |
CN107239564B (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
CN104035972B (zh) | 一种基于微博的知识推荐方法与*** | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及*** | |
CN108345686A (zh) | 一种基于搜索引擎技术的数据分析方法及*** | |
CN105787121B (zh) | 一种基于多故事线的微博事件摘要提取方法 | |
CN111581956A (zh) | 基于bert模型和k近邻的敏感信息识别方法及*** | |
CN103530429A (zh) | 一种网页正文抽取的方法 | |
CN110555154A (zh) | 一种面向主题的信息检索方法 | |
CN113971398A (zh) | 一种面向网络安全领域实体快速识别的词典构造方法 | |
CN107527289B (zh) | 一种投资组合行业配置方法、装置、服务器和存储介质 | |
CN112287240A (zh) | 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置 | |
CN110162651A (zh) | 基于语义内容摘要的新闻内容图文不符鉴别***及鉴别方法 | |
CN113901228A (zh) | 融合领域知识图谱的跨境民族文本分类方法及装置 | |
CN112418269B (zh) | 社交媒体网络事件传播关键时间预测方法、***、介质 | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN112966507A (zh) | 构建识别模型及攻击识别方法、装置、设备及存储介质 | |
CN114302227B (zh) | 基于容器采集的网络视频采集与解析的方法和*** | |
CN114238735B (zh) | 一种互联网数据智能采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |