CN105653550A - 网页过滤方法和装置 - Google Patents

网页过滤方法和装置 Download PDF

Info

Publication number
CN105653550A
CN105653550A CN201410648193.1A CN201410648193A CN105653550A CN 105653550 A CN105653550 A CN 105653550A CN 201410648193 A CN201410648193 A CN 201410648193A CN 105653550 A CN105653550 A CN 105653550A
Authority
CN
China
Prior art keywords
node
webpage
collections
web pages
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410648193.1A
Other languages
English (en)
Other versions
CN105653550B (zh
Inventor
朱龙军
孙钟前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410648193.1A priority Critical patent/CN105653550B/zh
Publication of CN105653550A publication Critical patent/CN105653550A/zh
Application granted granted Critical
Publication of CN105653550B publication Critical patent/CN105653550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页过滤方法和装置,属于互联网技术领域。所述方法包括:获取待分析的网页集合,所述网页集合中包括多个网页,每个网页中包括多个节点;对于每个网页中的每个节点,计算所述节点的可能性特征值,所述可能性特征值用于表示所述节点是指定类型节点的可能性大小;将可能性特征值大于指定阈值的节点确定为所述指定类型节点;基于已确定的指定类型节点,对待展示网页进行过滤。本发明通过计算网页集合中每个网页中每个节点的可能性特征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确定的指定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省了时间成本和人力成本。

Description

网页过滤方法和装置
技术领域
本发明涉及互联网技术领域,特别涉及一种网页过滤方法和装置。
背景技术
随着互联网的普及,很多厂商会在网页中发布广告,以宣传其生产的产品,这就导致网页中包括各种各样的广告,严重影响用户正常浏览网页。
为了过滤掉网页中的广告,网站运营人员可以根据每个网页中的广告,人工配置过滤模板,并上传至网站服务器,网站服务器可以根据该过滤模板,对网页进行过滤。该过滤模板可以为黑名单或者白名单,当该过滤模板为黑名单时,网站服务器提取网页中与该过滤模板匹配的网页内容,将提取到的网页内容过滤掉,当该过滤模板为白名单时,网站服务器提取网页中与该过滤模板匹配的网页内容,将网页中的其他网页内容过滤掉。
在实现本发明的过程中,发明人发现现有技术至少存在以下缺陷:为海量的网页配置过滤模板时,需要耗费过多的人力成本。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种网页过滤方法和装置。所述技术方案如下:
第一方面,提供了一种网页过滤方法,所述方法包括:
获取待分析的网页集合,所述网页集合中包括多个网页,每个网页中包括多个节点;
对于每个网页中的每个节点,计算所述节点的可能性特征值,所述可能性特征值用于表示所述节点是指定类型节点的可能性大小;
将可能性特征值大于指定阈值的节点确定为所述指定类型节点;
基于已确定的指定类型节点,对待展示网页进行过滤。
第二方面,提供了一种网页过滤装置,所述装置包括:
网页集合获取模块,用于获取待分析的网页集合,所述网页集合中包括多个网页,每个网页中包括多个节点;
计算模块,用于对于每个网页中的每个节点,计算所述节点的可能性特征值,所述可能性特征值用于表示所述节点是指定类型节点的可能性大小;
指定类型节点确定模块,用于将可能性特征值大于指定阈值的节点确定为所述指定类型节点;
过滤模块,用于基于已确定的指定类型节点,对待展示网页进行过滤。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的方法和装置,通过计算网页集合中每个网页中每个节点的可能性特征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确定的指定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省了时间成本和人力成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种网页过滤方法的流程图;
图2是本发明实施例提供的一种网页过滤方法的流程图;
图3是本发明实施例提供的网页示意图;
图4是本发明实施例提供的指定树形结构示意图;
图5是本发明实施例提供的可能性特征值计算流程图;
图6是本发明实施例提供的一种网页过滤装置结构示意图;
图7是本发明实施例提供的一种服务器结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种网页过滤方法的流程图。该发明实施例的执行主体为服务器,参见图1,该方法包括:
101、获取待分析的网页集合,该网页集合中包括多个网页,每个网页中包括多个节点。
102、对于每个网页中的每个节点,计算该节点的可能性特征值,该可能性特征值用于表示该节点是指定类型节点的可能性大小。
103、将可能性特征值大于指定阈值的节点确定为该指定类型节点。
104、基于已确定的指定类型节点,对待展示网页进行过滤。
本发明实施例提供的方法,通过计算网页集合中每个网页中每个节点的可能性特征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确定的指定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省了时间成本和人力成本。
可选地,该对于每个网页中的每个节点,计算该节点的可能性特征值包括:
根据每个节点的内容,计算该节点与该网页集合中除该网页以外的其他网页中每个节点的相似度;
对该节点与该其他网页中每个节点的相似度进行统计,得到该节点的可能性特征值。
可选地,该方法还包括:
根据每个节点在对应网页中的位置,对该多个网页中的多个节点进行分组,得到多个节点集合,每个节点集合中的多个节点位于不同网页中的相同位置。
可选地,该对于每个网页中的每个节点,计算该节点的可能性特征值包括:
对于每个节点集合中的每个节点,根据每个节点的内容,计算该节点与该节点集合中的其他节点的相似度;
对该节点与该节点集合中的其他节点的相似度进行统计,得到该节点的可能性特征值。
可选地,该获取待分析的网页集合包括:
获取在当前时间点之前的指定时长内生成的多个网页;
对该多个网页进行分组,得到多个网页集合。
可选地,该对该多个网页进行分组,得到多个网页集合包括:
按照每个网页的发布账号,对该多个网页进行分组,得到多个网页集合;或者,
按照每个网页的存储目录,对该多个网页进行分组,得到多个网页集合;或者,
按照每个网页的子域名称,对该多个网页进行分组,得到多个网页集合。
可选地,该基于已确定的指定类型节点,对待展示网页进行过滤包括:
将已确定的指定类型节点输出至黑名单模板配置文件中;
当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;
基于该黑名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节点。
可选地,该基于已确定的指定类型节点,对待展示网页进行过滤包括:
将该多个网页中除该指定类型节点以外的节点输出至白名单模板配置文件中;
当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;
基于该白名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节点。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种网页过滤方法的流程图。该发明实施例的执行主体为服务器,参见图2,该方法包括:
201、该服务器对待分析的多个网页进行分组,得到多个网页集合。
在本发明实施例中,该服务器用于为终端提供网页,该终端可以为固定终端或者移动终端,如计算机、手机等。当用户希望浏览网页时,可以在终端上触发访问网页的操作,当该终端获取到访问网页的操作时,向该服务器发送网页展示请求,该网页展示请求携带网页地址。该服务器接收到该网页展示请求时,可以根据该网页地址,获取该网页展示请求对应的原始网页,如果该终端为固定终端,该服务器向该固定终端发送该原始网页,该固定终端即可展示该原始网页,如果该终端为移动终端,该服务器对该原始网页进行转码,向该移动终端发送转码后的网页,该移动终端即可展示该转码后的网页。
在实际应用中,该原始网页中可能包括广告、使用说明、推荐信息、垃圾信息等内容,这些内容与网页本身的内容无关,但易对用户的浏览造成影响,很多用户希望在浏览网页时过滤掉这些内容。为了满足用户的需求,该服务器可以在每次向终端发送待展示网页之前,确定该待展示网页中要过滤的内容,从而对该待展示网页进行过滤。而为了便于确定该待展示网页中要过滤的内容,该服务器可以对多个网页进行训练,识别出每个网页中要过滤的内容。
进一步地,为了提高训练精确度,该服务器可以对多个网页进行分组,得到多个网页集合,对每个网页集合分别进行训练。具体地,该服务器可以对所有网页进行分组,也可以从所有网页中,选取多个样本网页,对该多个样本网页进行分组,还可以获取每个网页的网页快照,对获取到的多个网页快照进行分组,本发明实施例对此不做限定。
可选地,该服务器按照指定规则,对该多个网页进行分组,得到多个网页集合。其中,该指定规则可以为网页的发布账号、存储目录或者子域名称等,本发明实施例对此不做限定。该服务器中包括由多个账号发布的网页,当该指定规则为网页的发布账号时,该服务器按照每个网页的发布账号,对该多个网页进行分组,得到多个网页集合,同一网页集合中网页的发布账号相同,不同网页集合中网页的发布账号不同。该服务器将多个网页存储于不同的存储目录中,当该指定规则为网页的存储目录时,该服务器按照每个网页的存储目录,对该多个网页进行分组,得到多个网页集合,同一网页集合中网页的存储目录相同,不同网页集合中网页的存储目录不同。该服务器为每个网页生成对应的网页地址,该网页地址中包括子域名称,当该指定规则为网页的子域名称时,该服务器按照每个网页的子域名称,对该多个网页进行分组,得到多个网页集合,同一网页集合中网页的子域名称相同,不同网页集合中网页的子域名称不同。在实际应用过程中,该服务器还可以采用其他的指定规则,对该多个网页进行分组,本发明实施例对此不做限定。
在本发明实施例中,不同的网页集合属于不同的组别,后续当该服务器获取到待展示网页时,可以按照该指定规则,对该待展示网页进行划分,确定与该待展示网页属于同一组别的网页集合,从而根据该网页集合中的训练结果,确定该待展示网页中要过滤的内容。例如,当该服务器获取到待展示网页时,获取该待展示网页的发布账号,确定该发布账号对应的网页集合,即为与该待展示网页属于同一组别的网页集合。
202、对于每个网页集合中每个网页中的每个节点,该服务器计算该节点的可能性特征值,该可能性特征值用于表示该节点是指定类型节点的可能性大小。
该服务器可以将网页划分为多个节点,该多个节点可以包括文本节点、图片节点、视频节点、网页链接地址节点等多种格式的节点。具体地,该服务器可以将网页中的文本内容按照段落划分为多个文本节点,将网页中的每个图片作为一个图片节点,将网页中的每个视频作为一个视频节点,将网页中的每个网页链接地址作为一个网页链接地址节点,本发明实施例对该服务器划分节点的方式不做限定。
其中,有些节点的内容是该网页本身的内容,而有些节点的内容与该网页的内容无关。将内容与其当前所在网页的内容无关的节点作为指定类型节点,则该指定类型节点即为网页中要过滤的节点。
对于每个网页集合来说,为了过滤掉网页中的指定类型节点,该服务器对该网页集合中的每个网页进行分析,从中找出最有可能是指定类型节点的节点。具体地,对于该网页集合中每个网页中的每个节点,该服务器计算该节点的可能性特征值,该可能性特征值用于表示该节点是指定类型节点的可能性大小,也即是,节点的可能性特征值越大,表示该节点越有可能是指定类型节点,节点的可能性特征值越小,表示该节点越不可能是指定类型节点。
在实际应用中,对于同一网页集合中的不同网页来说,其所包括的指定类型节点的内容往往相同或者相似。例如,图3是本发明实施例提供的网页示意图,其包括同一账号发布的两个网页,这两个网页中包括两篇不同的文章:“文章1”和“文章2”,但两个网页的上方和下方都包括相同内容的节点,该相同内容的节点很可能是指定类型节点。
基于上述特点,对于每个节点来说,当该网页集合中包括的与该节点相似的节点越多时,可以认为该节点越有可能是指定类型节点,而该网页集合中包括的与该节点相似的节点越少时,可以认为该节点越不可能是指定类型节点。
为此,对于每个网页中的每个节点,该服务器可以根据各个节点的内容,计算该节点与该网页集合中除该节点所在网页以外的其他网页中的每个节点的相似度,则可以得到该节点与多个节点的多个相似度,该服务器对计算得到的多个相似度进行统计,得到该节点的可能性特征值,该可能性特征值能够用于表示该节点是指定类型节点的可能性大小。在对该多个相似度进行统计时,该服务器可以计算该多个相似度的和值或者平均值等,作为该节点的可能性特征值,本发明实施例对此不做限定。
参见表1,该网页集合包括网页A和网页B,该网页A中包括节点1、该网页B中包括节点2和节点3,则对于节点1来说,计算节点1与节点2的相似度,以及节点1与节点3的相似度,将计算得到的两个相似度的平均值作为节点1的相似度。
表1
网页 节点
网页A 节点1
网页B 节点2和节点3
进一步地,对于文本节点来说,该服务器可以预先设定节点内容与特征值之间的对应关系,如文本节点中每个字对应的特征值,根据该对应关系,确定每个文本节点所对应的多个特征值,将得到的多个特征值组成特征向量,即可得到每个文本节点的特征向量。而对于图片节点或者网页链接地址节点来说,该服务器可以预先设定URL(UniformResourceLocator,统一资源定位符)与特征向量之间的对应关系,则该服务器获取每个图片节点或者网页链接地址节点的URL,根据该对应关系,确定每个图片节点或者网页链接地址节点的特征向量。对于每个网页中的每个节点来说,该服务器可以计算该节点的特征向量与其他网页中每个节点的特征向量的相似度,得到多个相似度。该服务器可以计算该节点的特征向量与其他网页中每个节点的特征向量的余弦相似度或者欧式距离相似度等,本发明实施例对此不做限定。
在实际应用中,对于同一网页集合中的不同网页来说,其所包括的指定类型节点在对应网页中的位置往往相同或相近,例如,网站服务器会在该网页每个网页的右下角添加广告节点。基于该特点,对于每个节点来说,为了减少计算量,该服务器仅计算该节点与其他网页中相同位置节点的相似度。具体地,该服务器根据每个节点在对应网页中的位置,对该多个网页中的多个节点进行分组,得到多个节点集合,每个节点集合中的多个节点分别位于不同网页中的相同位置。则对于每个节点集合中的每个节点,根据每个节点的内容,计算该节点与该节点集合中的其他节点的相似度,对该节点与该节点集合中的其他节点的相似度进行统计,得到该节点的可能性特征值。
基于表1的举例,假设节点3在网页B中的位置与节点1在网页A中的位置相同,则该服务器计算节点1与节点3的相似度,作为节点1的可能性特征值。
可选地,该服务器可以对该网页集合中的每个网页进行分析,建立每个网页的指定树形结构,该指定树形结构中包括多个节点,该服务器可以基于该指定树形结构,计算每个节点的可能性特征值。其中,该指定树形结构可以为DOM(DocumentObjectModel)树形结构或者其他树形结构,本发明实施例对此不做限定。
在该指定树形结构中,该多个节点具有层级关系,每个节点具有一个上一层节点,且可能具有多个下一层节点。例如,网页中的一段文本节点可以包括多行的文本节点。
以计算第一网页的第一节点的可能性特征值为例,第二网页为该网页集合中除该第一网页以外的任一网页,对于该第二网页中的每个节点来说,该第一节点与该节点相似时,与该节点的上一层节点也可能相似,此时,为了提高可能性特征值的精确度,该服务器可以选取与该第一节点相似的最大节点,将该第一节点与该最大节点的相似度应用于计算该可能性特征值的过程。
图4是本发明实施例提供的第二网页的指定树形结构示意图,图5是本发明实施例提供的可能性特征值计算流程图,参见图4和图5,该服务器计算该第一节点的可能性特征值时,可以执行以下步骤(1)-(9):
(1)该服务器选取该第二网页的指定树形结构中最下层的节点111。
(2)该服务器计算该第一节点与节点111的第一相似度,判断该第一相似度是否大于第一阈值,如果是,执行步骤(4),如果否,执行步骤(3)。
在本发明实施例中,当该第一相似度大于该第一阈值时,表示该第一节点与节点111相似,当该第一相似度不大于该第一阈值时,表示该第一节点与节点111不相似。其中,该第一阈值可以由技术人员预先确定,或者由该服务器通过对该第一节点与每个最下层节点的相似度进行统计确定,本发明实施例对此不做限定。
(3)该服务器选取另一个最下层的节点112,继续执行步骤(2),直至选取到每个最下层的节点。
(4)该服务器选取位于节点111上一层的节点11。
(5)该服务器计算该第一节点与节点11的第二相似度,判断该第二相似度是否大于该第一阈值,如果是,执行步骤(8),如果否,执行步骤(6)。
(6)该服务器将该第一相似度作为待统计的相似度。
当该第一相似度大于该第一阈值,而该第二相似度不大于该第一阈值时,可以确定该第一节点与节点111相似,与节点11不相似,则该服务器确定选取该第一相似度,作为后续统计该第一节点可能性特征值的相似度。
(7)该服务器从该指定树形结构的最下层节点中,选取一个与节点11位于不同分支的节点121,继续执行步骤(2)。
(8)该服务器选取位于节点11上一层的节点1,继续执行步骤(5),直至选取到最上层的节点。
(9)对于该网页集合中除该第一网页以外的每个网页,该服务器重复执行上述步骤,当得到每个网页对应的待统计相似度时,对得到的多个相似度进行统计,得到该第一节点的可能性特征值。
上述步骤(1)-(9)仅是给出了该服务器计算可能性特征值的示例性步骤,在实际应用中,该服务器还可以采用其他方式,确定每个网页中与该第一节点相似的最大节点,获取每个网页对应的待统计相似度,从而计算出该可能性特征值,本发明实施例对此不做限定。
203、该服务器将该网页集合中可能性特征值大于指定阈值的节点确定为该指定类型节点。
其中,该指定阈值可以由该服务器通过对每个节点的可能性特征值以及该网页集合中的节点数量进行分析得到,不同网页集合对应的指定阈值可以相同,也可以不同,本发明实施例对此不做限定。
在本发明实施例中,可以认为可能性特征值大于该指定阈值的节点与该网页集合中其他网页的很多节点相似,即该节点在该网页集合中出现“频繁”,则将该节点作为该指定类型节点。而可能性特征值不大于该指定阈值的节点与该网页集合中其他网页的很少节点相似,即该节点在该网页集合中出现不“频繁”,则该节点不是该指定类型节点。
204、该服务器基于已确定的指定类型节点,对待展示网页进行过滤。
当该服务器确定了该网页集合中的指定类型节点时,即可对与该网页集合属于同一组别的待展示网页进行过滤,过滤掉该待展示网页中的指定类型节点。具体地,该服务器根据确定的指定类型节点,生成模板配置文件,后续再基于该模板配置文件,对待展示网页进行过滤。
在本发明实施例中,当用户希望在过滤掉指定类型节点的前提下浏览网页时,可以在该终端上触发访问过滤网页的操作,当该终端获取到访问过滤网页的操作时,向该服务器发送网络过滤展示请求,该网页过滤展示请求携带网页地址,该服务器接收到该网页展示请求时,可以根据该网页地址,获取该网页展示请求对应的原始网页,按照该指定规则,确定与该原始网页属于同一组别的网页集合,获取该网页集合对应的模板配置文件,再基于该模板配置文件,对该原始网页进行过滤,过滤掉该原始网页中包括的指定类型节点,将过滤后的网页发送给该终端,该终端接收到该过滤后的网页时,展示该过滤后的网页。该过滤后的网页中包括网页本身的内容,而不包括与该网页内容无关的指定类型节点,使得用户浏览该网页时,可以避免指定类型节点的干扰,为用户提供了更加清爽的浏览体验。
其中,该模板配置文件可以为白名单或者黑名单,相应的,该步骤204可以包括以下步骤204a和204b中的任一项:
204a、该服务器将已确定的指定类型节点输出至黑名单模板配置文件中,当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页,基于该黑名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节点。
该服务器可以为该网页集合生成黑名单模板配置文件,将已确定的指定类型节点输出至该黑名单模板配置文件中,保存该黑名单模板配置文件,则该黑名单模板配置文件中的节点是应过滤掉的指定类型节点,当该服务器接收到终端发送的网页过滤展示请求时,获取对应的原始网页,基于该黑名单模板配置文件,过滤掉该原始网页中该黑名单模板配置文件中包括的节点,从而过滤掉该原始网页中包括的指定类型节点。
204b、该服务器将该多个网页中除该指定类型节点以外的节点输出至白名单模板配置文件中,当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页,基于该白名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节点。
该服务器可以为该网页集合生成白名单模板配置文件,将该多个网页中除该指定类型节点以外的节点输出至白名单模板配置文件中,保存该白名单模板配置文件,则该白名单模板配置文件中的节点是应保留的网页节点,当该服务器接收到终端发送的网页过滤展示请求时,获取对应的原始网页,基于该白名单模板配置文件,过滤掉该原始网页中该白名单模板配置文件中不包括的节点,从而过滤掉该原始网页中包括的指定类型节点。
当用户使用移动终端时,该步骤204可以应用于该服务器的转码过程中,当该服务器获取到该原始网页时,基于该模板配置文件,对该原始网页进行转码,使得转码后的网页中不包括指定类型节点。
需要说明的是,本发明实施例仅以该服务器将当前生成的网页作为待分析的网页为例进行说明,而在实际应用中,该服务器很可能会由于业务升级、反抓取等原因而更新网页,一旦网页被更新,网页中的内容或者网页内容的位置可能会发生变化,则网页中的指定类型节点也会发生变化。为了保证模板配置文件的时效性,该服务器也要对该模板配置文件进行更新。
可选地,该服务器获取在当前时间点之前的指定时长内生成的多个网页,也即是,每隔该指定时长,该服务器即获取在当前时间点之前的指定时长内生成的多个网页,对该多个网页执行上述步骤201-204,得到更新的模板配置文件,基于该更新的模板配置文件,对待展示网页进行过滤。其中,该指定时长可以由该服务器根据更新网页的时间点之间的间隔确定,可以为一天或者几天等,本发明实施例对此不做限定。
为了避免该更新过程对该服务器的当前业务造成影响,该服务器获取到该多个网页时,可以离线地执行上述步骤201-204,在此过程中,该服务器可以基于旧的模板配置文件,对待展示网页进行过滤,当该服务器获取到更新的模板配置文件时,再加载该更新的模板配置文件,基于该更新的模板配置文件,对待展示网页进行过滤。
目前的相关技术中,由人工配置过滤模板,当网站服务器更新了网页时,原来配置的过滤模板就会失效,运营人员需要监控每个网页的更新情况,才能发现失效的模板,再重新配置新的模板,耗费了过多的人力成本。且在实际应用中,运营人员很难及时发现失效的模板,时效性差。而在本发明实施例中,该服务器每隔该指定时长,自动地获取新生成的多个网页,重复滚动地执行训练步骤,及时地更新模板配置文件,整个训练过程无监督且自动化可重复,大大减少了人力成本,保证了模板配置文件的时效性,且采用离线训练的方式,避免了对当前业务的影响。
本发明实施例提供的方法,通过计算网页集合中每个网页中每个节点的可能性特征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确定的指定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省了时间成本和人力成本。进一步地,自动地获取新生成的多个网页,重复执行训练步骤,及时地更新模板配置文件,大大减少了人力成本,保证了模板配置文件的时效性,且采用离线训练的方式,避免了对当前业务的影响。
图6是本发明实施例提供的一种网页过滤装置结构示意图,参见图6,该装置包括:
网页集合获取模块601,用于获取待分析的网页集合,该网页集合中包括多个网页,每个网页中包括多个节点;
计算模块602,用于对于每个网页中的每个节点,计算该节点的可能性特征值,该可能性特征值用于表示该节点是指定类型节点的可能性大小;
指定类型节点确定模块603,用于将可能性特征值大于指定阈值的节点确定为该指定类型节点;
过滤模块604,用于基于已确定的指定类型节点,对待展示网页进行过滤。
本发明实施例提供的装置,通过计算网页集合中每个网页中每个节点的可能性特征值,将可能性特征值大于指定阈值的节点作为指定类型节点,能够直接基于已确定的指定类型节点,对待展示网页进行过滤,无需人工配置过滤模板,操作简便快捷,节省了时间成本和人力成本。
可选地,该计算模块602用于根据每个节点的内容,计算该节点与该网页集合中除该网页以外的其他网页中每个节点的相似度;对该节点与该其他网页中每个节点的相似度进行统计,得到该节点的可能性特征值。
可选地,该装置还包括:
节点分组模块,用于根据每个节点在对应网页中的位置,对该多个网页中的多个节点进行分组,得到多个节点集合,每个节点集合中的多个节点位于不同网页中的相同位置。
可选地,该计算模块602用于对于每个节点集合中的每个节点,根据每个节点的内容,计算该节点与该节点集合中的其他节点的相似度;对该节点与该节点集合中的其他节点的相似度进行统计,得到该节点的可能性特征值。
可选地,该网页集合获取模块601用于获取在当前时间点之前的指定时长内生成的多个网页;对该多个网页进行分组,得到多个网页集合。
可选地,该网页集合获取模块601具体用于按照每个网页的发布账号,对该多个网页进行分组,得到多个网页集合;或者,按照每个网页的存储目录,对该多个网页进行分组,得到多个网页集合;或者,按照每个网页的子域名称,对该多个网页进行分组,得到多个网页集合。
可选地,该过滤模块604用于将已确定的指定类型节点输出至黑名单模板配置文件中;当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;基于该黑名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节点。
可选地,该过滤模块604用于将该多个网页中除该指定类型节点以外的节点输出至白名单模板配置文件中;当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;基于该白名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节点。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的网页过滤装置在对网页进行过滤时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网页过滤装置与网页过滤方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本发明实施例提供的一种服务器结构示意图,该服务器可以用于上述实施例示出的网页过滤方法中服务器所执行的功能。具体来讲:参见图7,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(CentralProcessingUnit,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作***741,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。
一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,该一个或者一个以上程序包含用于进行以下操作的指令:
获取待分析的网页集合,该网页集合中包括多个网页,每个网页中包括多个节点;
对于每个网页中的每个节点,计算该节点的可能性特征值,该可能性特征值用于表示该节点是指定类型节点的可能性大小;
将可能性特征值大于指定阈值的节点确定为该指定类型节点;
基于已确定的指定类型节点,对待展示网页进行过滤。
可选地,还包含用于进行以下操作的指令:
根据每个节点的内容,计算该节点与该网页集合中除该网页以外的其他网页中每个节点的相似度;
对该节点与该其他网页中每个节点的相似度进行统计,得到该节点的可能性特征值。
可选地,还包含用于进行以下操作的指令:
根据每个节点在对应网页中的位置,对该多个网页中的多个节点进行分组,得到多个节点集合,每个节点集合中的多个节点位于不同网页中的相同位置。
可选地,还包含用于进行以下操作的指令:
对于每个节点集合中的每个节点,根据每个节点的内容,计算该节点与该节点集合中的其他节点的相似度;
对该节点与该节点集合中的其他节点的相似度进行统计,得到该节点的可能性特征值。
可选地,还包含用于进行以下操作的指令:
获取在当前时间点之前的指定时长内生成的多个网页;
对该多个网页进行分组,得到多个网页集合。
可选地,还包含用于进行以下操作的指令:
按照每个网页的发布账号,对该多个网页进行分组,得到多个网页集合;或者,
按照每个网页的存储目录,对该多个网页进行分组,得到多个网页集合;或者,
按照每个网页的子域名称,对该多个网页进行分组,得到多个网页集合。
可选地,还包含用于进行以下操作的指令:
将已确定的指定类型节点输出至黑名单模板配置文件中;
当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;
基于该黑名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节点。
可选地,还包含用于进行以下操作的指令:
将该多个网页中除该指定类型节点以外的节点输出至白名单模板配置文件中;
当接收到网页过滤展示请求时,获取该网页过滤展示请求对应的原始网页;
基于该白名单模板配置文件,对该原始网页进行过滤,以过滤掉该原始网页中包括的指定类型节点。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种网页过滤方法,其特征在于,所述方法包括:
获取待分析的网页集合,所述网页集合中包括多个网页,每个网页中包括多个节点;
对于每个网页中的每个节点,计算所述节点的可能性特征值,所述可能性特征值用于表示所述节点是指定类型节点的可能性大小;
将可能性特征值大于指定阈值的节点确定为所述指定类型节点;
基于已确定的指定类型节点,对待展示网页进行过滤。
2.根据权利要求1所述的方法,其特征在于,所述对于每个网页中的每个节点,计算所述节点的可能性特征值包括:
根据每个节点的内容,计算所述节点与所述网页集合中除所述网页以外的其他网页中每个节点的相似度;
对所述节点与所述其他网页中每个节点的相似度进行统计,得到所述节点的可能性特征值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据每个节点在对应网页中的位置,对所述多个网页中的多个节点进行分组,得到多个节点集合,每个节点集合中的多个节点位于不同网页中的相同位置。
4.根据权利要求3所述的方法,其特征在于,所述对于每个网页中的每个节点,计算所述节点的可能性特征值包括:
对于每个节点集合中的每个节点,根据每个节点的内容,计算所述节点与所述节点集合中的其他节点的相似度;
对所述节点与所述节点集合中的其他节点的相似度进行统计,得到所述节点的可能性特征值。
5.根据权利要求1所述的方法,其特征在于,所述获取待分析的网页集合包括:
获取在当前时间点之前的指定时长内生成的多个网页;
对所述多个网页进行分组,得到多个网页集合。
6.根据权利要求5所述的方法,其特征在于,所述对所述多个网页进行分组,得到多个网页集合包括:
按照每个网页的发布账号,对所述多个网页进行分组,得到多个网页集合;或者,
按照每个网页的存储目录,对所述多个网页进行分组,得到多个网页集合;或者,
按照每个网页的子域名称,对所述多个网页进行分组,得到多个网页集合。
7.根据权利要求1所述的方法,其特征在于,所述基于已确定的指定类型节点,对待展示网页进行过滤包括:
将已确定的指定类型节点输出至黑名单模板配置文件中;
当接收到网页过滤展示请求时,获取所述网页过滤展示请求对应的原始网页;
基于所述黑名单模板配置文件,对所述原始网页进行过滤,以过滤掉所述原始网页中包括的指定类型节点。
8.根据权利要求1所述的方法,其特征在于,所述基于已确定的指定类型节点,对待展示网页进行过滤包括:
将所述多个网页中除所述指定类型节点以外的节点输出至白名单模板配置文件中;
当接收到网页过滤展示请求时,获取所述网页过滤展示请求对应的原始网页;
基于所述白名单模板配置文件,对所述原始网页进行过滤,以过滤掉所述原始网页中包括的指定类型节点。
9.一种网页过滤装置,其特征在于,所述装置包括:
网页集合获取模块,用于获取待分析的网页集合,所述网页集合中包括多个网页,每个网页中包括多个节点;
计算模块,用于对于每个网页中的每个节点,计算所述节点的可能性特征值,所述可能性特征值用于表示所述节点是指定类型节点的可能性大小;
指定类型节点确定模块,用于将可能性特征值大于指定阈值的节点确定为所述指定类型节点;
过滤模块,用于基于已确定的指定类型节点,对待展示网页进行过滤。
10.根据权利要求9所述的装置,其特征在于,所述计算模块用于根据每个节点的内容,计算所述节点与所述网页集合中除所述网页以外的其他网页中每个节点的相似度;对所述节点与所述其他网页中每个节点的相似度进行统计,得到所述节点的可能性特征值。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
节点分组模块,用于根据每个节点在对应网页中的位置,对所述多个网页中的多个节点进行分组,得到多个节点集合,每个节点集合中的多个节点位于不同网页中的相同位置。
12.根据权利要求11所述的装置,其特征在于,所述计算模块用于对于每个节点集合中的每个节点,根据每个节点的内容,计算所述节点与所述节点集合中的其他节点的相似度;对所述节点与所述节点集合中的其他节点的相似度进行统计,得到所述节点的可能性特征值。
13.根据权利要求9所述的装置,其特征在于,所述网页集合获取模块用于获取在当前时间点之前的指定时长内生成的多个网页;对所述多个网页进行分组,得到多个网页集合。
14.根据权利要求13所述的装置,其特征在于,所述网页集合获取模块具体用于按照每个网页的发布账号,对所述多个网页进行分组,得到多个网页集合;或者,按照每个网页的存储目录,对所述多个网页进行分组,得到多个网页集合;或者,按照每个网页的子域名称,对所述多个网页进行分组,得到多个网页集合。
15.根据权利要求9所述的装置,其特征在于,所述过滤模块用于将已确定的指定类型节点输出至黑名单模板配置文件中;当接收到网页过滤展示请求时,获取所述网页过滤展示请求对应的原始网页;基于所述黑名单模板配置文件,对所述原始网页进行过滤,以过滤掉所述原始网页中包括的指定类型节点。
16.根据权利要求9所述的装置,其特征在于,所述过滤模块用于将所述多个网页中除所述指定类型节点以外的节点输出至白名单模板配置文件中;当接收到网页过滤展示请求时,获取所述网页过滤展示请求对应的原始网页;基于所述白名单模板配置文件,对所述原始网页进行过滤,以过滤掉所述原始网页中包括的指定类型节点。
CN201410648193.1A 2014-11-14 2014-11-14 网页过滤方法和装置 Active CN105653550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410648193.1A CN105653550B (zh) 2014-11-14 2014-11-14 网页过滤方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410648193.1A CN105653550B (zh) 2014-11-14 2014-11-14 网页过滤方法和装置

Publications (2)

Publication Number Publication Date
CN105653550A true CN105653550A (zh) 2016-06-08
CN105653550B CN105653550B (zh) 2019-11-05

Family

ID=56479084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410648193.1A Active CN105653550B (zh) 2014-11-14 2014-11-14 网页过滤方法和装置

Country Status (1)

Country Link
CN (1) CN105653550B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326455A (zh) * 2016-08-26 2017-01-11 乐视控股(北京)有限公司 网页浏览过滤处理方法及***、终端、云加速服务器
CN106599246A (zh) * 2016-12-20 2017-04-26 维沃移动通信有限公司 一种显示内容的拦截方法、移动终端及控制服务器
CN107423059A (zh) * 2017-07-07 2017-12-01 北京小米移动软件有限公司 页面的显示方法、装置及终端
WO2018171189A1 (zh) * 2017-03-21 2018-09-27 中兴通讯股份有限公司 一种浏览器广告拦截方法、装置及终端
CN109756393A (zh) * 2018-12-27 2019-05-14 网易无尾熊(杭州)科技有限公司 信息处理方法、***、介质和计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399818A (zh) * 2007-09-25 2009-04-01 日电(中国)有限公司 基于导航路径信息的主题相关网页过滤方法和***
CN103678313A (zh) * 2012-08-31 2014-03-26 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN103870590A (zh) * 2014-03-28 2014-06-18 北京奇虎科技有限公司 具有报错特征的网页识别方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399818A (zh) * 2007-09-25 2009-04-01 日电(中国)有限公司 基于导航路径信息的主题相关网页过滤方法和***
CN103678313A (zh) * 2012-08-31 2014-03-26 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN103870590A (zh) * 2014-03-28 2014-06-18 北京奇虎科技有限公司 具有报错特征的网页识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
秦超: "网页噪声识别与消除方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326455A (zh) * 2016-08-26 2017-01-11 乐视控股(北京)有限公司 网页浏览过滤处理方法及***、终端、云加速服务器
CN106599246A (zh) * 2016-12-20 2017-04-26 维沃移动通信有限公司 一种显示内容的拦截方法、移动终端及控制服务器
CN106599246B (zh) * 2016-12-20 2020-02-11 维沃移动通信有限公司 一种显示内容的拦截方法、移动终端及控制服务器
WO2018171189A1 (zh) * 2017-03-21 2018-09-27 中兴通讯股份有限公司 一种浏览器广告拦截方法、装置及终端
CN107423059A (zh) * 2017-07-07 2017-12-01 北京小米移动软件有限公司 页面的显示方法、装置及终端
CN109756393A (zh) * 2018-12-27 2019-05-14 网易无尾熊(杭州)科技有限公司 信息处理方法、***、介质和计算设备

Also Published As

Publication number Publication date
CN105653550B (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN104239298B (zh) 文本信息推荐方法、服务器、浏览器及***
CN103942712A (zh) 基于产品相似度的电子商务推荐***及其方法
CN105653550A (zh) 网页过滤方法和装置
CN102663062A (zh) 一种处理搜索结果中无效链接的方法及装置
CN102402518A (zh) 一种访问网页的方法及装置
CN107145556B (zh) 通用的分布式采集***
CN105183912A (zh) 异常日志确定方法和装置
CN103064989B (zh) 网页保存、打开方法及装置
CN103744856A (zh) 联动性扩展搜索方法及装置、***
CN103885987A (zh) 一种音乐推荐方法和***
CN104778208A (zh) 一种搜索引擎 seo 网站数据的优化抓取方法及***
CN102710795A (zh) 热点聚合方法及装置
CN103324682A (zh) 一种基于图片来搜索视频的方法及装置
CN106817391A (zh) 文件断点续传方法和装置
CN105302807A (zh) 一种获取信息类别的方法和装置
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN108959580A (zh) 一种标签数据的优化方法及***
CN103077250A (zh) 一种网页内容抓取方法及装置
CN104361092A (zh) 搜索方法及装置
CN102663049A (zh) 一种更新搜索引擎网址库方法及装置
CN104765746A (zh) 用于移动通讯终端浏览器的数据处理方法和装置
CN104978406A (zh) 互联网络平台的用户行为分析方法
CN110535974A (zh) 待投放资源的推送方法、推送装置、设备及存储介质
CN106202513A (zh) 浏览器的浏览主站推荐方法和装置
CN105404672A (zh) 网页数据存储和操作的***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant