CN105302815B - 网页的统一资源定位符url的过滤方法和装置 - Google Patents

网页的统一资源定位符url的过滤方法和装置 Download PDF

Info

Publication number
CN105302815B
CN105302815B CN201410284750.6A CN201410284750A CN105302815B CN 105302815 B CN105302815 B CN 105302815B CN 201410284750 A CN201410284750 A CN 201410284750A CN 105302815 B CN105302815 B CN 105302815B
Authority
CN
China
Prior art keywords
url
current
configuration file
matching
current url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410284750.6A
Other languages
English (en)
Other versions
CN105302815A (zh
Inventor
何双宁
董昭
马杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410284750.6A priority Critical patent/CN105302815B/zh
Publication of CN105302815A publication Critical patent/CN105302815A/zh
Application granted granted Critical
Publication of CN105302815B publication Critical patent/CN105302815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页的统一资源定位符URL的过滤方法和装置,其中,该方法包括:获取待处理URL集合,其中,待处理URL集合包括多个待处理网页的URL;对待处理URL集合中的每个URL执行以下过滤操作,其中,待处理URL集合中当前执行以下过滤操作的URL为当前URL:根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL;若URL为待检测URL,则根据配置文件中的过滤字段对当前URL进行匹配;若根据过滤字段成功对当前URL进行匹配,则从待处理URL集合中过滤掉当前URL。本发明解决了由于现有技术无法过滤垃圾网页的URL的技术问题,从而实现了在过滤掉垃圾网页的URL之后进行Web安全扫描,提高Web安全扫描的效率。

Description

网页的统一资源定位符URL的过滤方法和装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种网页的统一资源定位符URL的过滤方法和装置。
背景技术
在对通用网关接口(CGI,Common Gateway Interface)进行网页Web安全扫描时,通常需要尽可能的收集所有CGI,并过滤掉其中的垃圾页面,提高Web安全扫描的效率。目前,本领域技术人员通常采集CGI的方法主要包括以下两种:一是通过网络爬虫,在互联网上爬取URL;二是通过旁路WAF的流量来获取CGI。然而,上述这两种获取CGI的方法,都不可避免的收集到很多垃圾网页,其中,上述垃圾网页可以为不能访问的或者不存在的网页,这些垃圾网页在对Web安全扫描毫无意义,甚至在很大程度上影响了Web安全扫描的效率。
随着采集到的CGI的数量不断增加,通过上述CGI采集方法收集到的垃圾网页也随之增加,这样,在网页Web安全扫描的过程中,快速地从海量的URL中筛选出垃圾网页,并过滤掉垃圾网页对应的URL,就变得十分重要。
然而,针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网页的统一资源定位符URL的过滤方法和装置,以至少解决由于现有技术无法过滤垃圾网页的URL的技术问题。
根据本发明实施例的一个方面,提供了一种网页的统一资源定位符URL的过滤方法,包括:获取待处理URL集合,其中,上述待处理URL集合包括多个待处理网页的URL;对上述待处理URL集合中的每个URL执行以下过滤操作,其中,上述待处理URL集合中当前执行以下过滤操作的URL为当前URL:根据预设的配置文件中的过滤标识符判断上述当前URL是否为待检测URL;若上述URL为上述待检测URL,则根据上述配置文件中的过滤字段对上述当前URL进行匹配;若根据上述过滤字段成功对上述当前URL进行匹配,则从上述待处理URL集合中过滤掉上述当前URL。
根据本发明实施例的另一方面,还提供了一种网页的统一资源定位符URL的过滤装置,包括:获取单元,用于获取待处理URL集合,其中,上述待处理URL集合包括多个待处理网页的URL;过滤单元,用于对上述待处理URL集合中的每个URL执行以下过滤操作,其中,上述待处理URL集合中当前执行以下过滤操作的URL为当前URL:根据预设的配置文件中的过滤标识符判断上述当前URL是否为待检测URL;在上述URL为上述待检测URL时,根据上述配置文件中的过滤字段对上述当前URL进行匹配;在根据上述过滤字段成功对上述当前URL进行匹配时,从上述待处理URL集合中过滤掉上述当前URL。
在本发明实施例中,通过利用配置文件对获取的待处理URL进行过滤,其中,上述配置文件中至少包括过滤标识符、过滤字段,通过利用过滤标识符判断上述待处理URL是否为待检测URL,以达到对上述URL进行初步筛选的目的,然后通过过滤字段对待检测的URL进行匹配,进而对成功匹配的URL进行过滤,从而实现了在Web安全扫描的过程中,不再对不必要的垃圾网页所对应的URL进行扫描,从而实现了提高Web安全扫描的效率。进而解决了由于现有技术无法过滤垃圾网页的URL的技术问题。
此外,通过利用过滤字段中的特征参数和/或特征字符串,对上述待检测URL按照预定的匹配方式进行匹配,达到了对URL的准确过滤的目的,从而实现了提高对网页的统一资源定位符URL的过滤的准确性的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的应用网页的统一资源定位符URL的过滤方法的硬件环境示意图;
图2是根据本发明实施例的一种可选的网页的统一资源定位符URL的过滤方法的流程图;
图3是根据本发明实施例的一种可选的获取网页的统一资源定位符URL的方法的流程图;
图4是根据本发明实施例的一种可选的网页的统一资源定位符URL的过滤方法中的配置文件的示意图;
图5是根据本发明实施例的另一种可选的网页的统一资源定位符URL的过滤方法的流程图;
图6是根据本发明实施例的另一种可选的网页的统一资源定位符URL的过滤方法中的配置文件的示意图;
图7是根据本发明实施例的一种可选的网页的统一资源定位符URL的过滤装置的示意图;以及
图8是根据本发明实施例的一种可选的应用网页的统一资源定位符URL的过滤方法的服务器的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种网页的统一资源定位符URL的过滤方法,上述网页的统一资源定位符URL的过滤方法可以应用于如图1所示的硬件环境中,其中,用于对网页的统一资源定位符URL执行过滤的过滤服务器102可以通过网络与上述网页所在的网页服务器104建立链接,并对由上述网页服务器104发送的待处理的URL进行过滤。其中,上述网络包括但不限于:广域网、城域网或局域网。
可选地,如图2所示,本实施例中的网页的URL的过滤方法包括:
S202,获取待处理URL集合,其中,待处理URL集合包括多个待处理网页的URL;
S204,对待处理URL集合中的每个URL执行以下过滤操作,其中,待处理URL集合中当前执行以下过滤操作的URL为当前URL:
S2042,根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL;
S2044,若URL为待检测URL,则根据配置文件中的过滤字段对当前URL进行匹配;
S2046,若根据过滤字段成功对当前URL进行匹配,则从待处理URL集合中过滤掉当前URL;
S2048,若URL不为待检测URL,或者,若根据过滤字段没有对当前URL进行成功匹配,则不从待处理URL集合中过滤掉当前URL。
可选地,在本实施例中,上述网页的统一资源定位符URL的过滤方法可以应用于Web安全扫描的过程中。例如,结合图1所示,在执行对上述Web安全扫描之前,获取上述待处理的URL集合,其中,上述待处理URL集合包括多个待处理网页的URL,对上述URL集合中的每个URL执行过滤操作,以使从过滤服务器102所获取的海量的URL中过滤掉不必要执行Web安全扫描的垃圾网页所对应的URL。上述举例只是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,结合图3所示,在获取待处理的URL集合之前,过滤服务器102与网页服务器104之间的交互过程:
S302,过滤服务器102会通过网络向网页服务器104发送获取待处理的URL集合的请求;
S304,响应上述请求上述网页服务器104会向过滤服务器102返回待处理的URL集合。
可选地,在本实施例中,上述配置文件为由包括过滤标识符和过滤字段的json字符串形成的文件,其中,json为一种轻量级的数据交换语言JavaScript Object Notation,上述语言以文字为基础,且易于让人阅读,同时也方便了机器进行解析和生成。其中,上述过滤标识符可以包括但不限于:对上述待处理URL集合执行过滤的适用范围。例如,上述适用范围可以包括但不限于:全局网页、局部网页,其中,上述局部网页可以通过预设域名的方式来进行筛选。上述过滤字段可以包括但不限于:指示对上述待检测URL执行过滤的匹配结果,其中,上述过滤字段中可以包括但不限于多个过滤子字段。例如,上述匹配结果可以包括但不限于:用于匹配的特征参数及其匹配方式、用于匹配的特征字符串及其匹配方式。
例如,如图4中402所示,用“host”标识上述过滤标识符,当上述“host”的取值为“*”,则表示上述过滤适用于对所有网页的过滤;当上述“host”的取值为“域名/IP”,则表示上述过滤适用于对应于上述“域名/IP”的网页。当判断出上述当前执行过滤操作的当前URL满足上述过滤标识符,则判断出上述当前URL为待检测URL。
又例如,如图4中404所示,用“rule”标识上述过滤字段,其中,上述“rule”中可以包括但不限于如下所示的子字段:1)设置状态码“HttpCode”的特征参数;2)设置消息正文“Content”的特征字符串。例如,配置文件配置状态码“HttpCode”的取值“等于”数值“200”,配置消息正文“Content”的字符串为“http://qzone.qq.com/gy/404/data.js”,当上述待检测URL与上述过滤字段中的所有子字段均匹配成功,则可以判断出上述待检测URL匹配成功,从上述待处理URL集合中过滤掉上述当前URL。
可选地,在本实施例中,上述配置文件还可以包括但不限于:配置文件的类型名称、配置文件的属性,其中,上述配置文件的属性可以包括但不限于:配置文件的添加时间、配置文件的添加者。例如,如图4中406所示,配置文件的类型名称为“gongyi404”,如图4中408所示,配置文件的添加时间为“2013-10-13”,配置文件的添加者为“zhangsan”。
可选地,在本实施例中,在对上述待处理的URL执行完过滤后,将过滤掉垃圾网页所对应的URL保存,以便于Web安全扫描时调用进行扫描,达到提高Web安全扫描的效率。
可选地,在本实施例中,上述配置文件可以以哈希表的形式保存,保存的位置可以为以下至少之一:磁盘文本文件中、数据库服务器的文件中。可选地,当需要对上述待处理的URL执行过滤时,就由上述位置加载上述配置文件实现对上述待处理URL集合中的URL进行过滤。可选地,在本实施例中,加载上述配置文件的方式可以但不限于为在上述哈希表中遍历查找与当前URL对应的配置文件。
可选地,上述预设的配置文件为多个配置文件,其中,通过以下步骤执行根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL、根据配置文件中的过滤字段对当前URL进行匹配、从待处理URL集合中过滤掉当前URL:从多个配置文件中查找匹配配置文件,其中,根据匹配配置文件中的过滤标识符判断出当前URL为待检测URL、且根据匹配配置文件中的过滤字段成功对当前URL进行匹配;只要从多个配置文件中查找出一个匹配配置文件,则从待处理URL集合中过滤掉当前URL。
具体结合图1和图5所示的流程图,说明上述网页的统一资源定位符URL的过滤流程,假设URL集合中包括URL_1、URL_2、URL_3、URL_4、URL_5,多个配置文件分别是P_1、P_2、P_3。
如图1和图5所示,本实施例中的网页的URL的过滤方法包括:
S502,过滤服务器102向网页服务器104请求获取待处理的URL集合;
S504,网页服务器104向过滤服务器102返回待处理的URL集合;
S506,过滤服务器102判断是否已对所有URL执行过滤操作,其中,上述URL集合中包括URL_1、URL_2、URL_3,若判断出上述URL集合中还有URL未执行过滤操作,则执行步骤S508;若判断出上述URL集合中的URL均已执行过过滤操作,则结束本次过滤;
S508,过滤服务器102读取一个URL(例如,读取URL_3),其中,上述URL(例如,URL_3)还未执行过滤操作;
S510,过滤服务器102查找判断是否已对所有配置文件执行了匹配操作,若判断出还有配置文件未执行匹配操作,则执行步骤S512,若判断出已对所有配置文件执行了匹配操作(S514,或者,S514和S516),则返回S506;其中,在过滤服务器102第一次判断是否已对所有配置文件匹配完时,过滤服务器102首先加载所有的配置文件(例如,配置文件P_1、P_2、P_3);
S512,过滤服务器102读取一个配置文件(例如,配置文件P_2),其中,上述被读取的配置文件(例如,配置文件P_2)还未执行匹配操作;
S514,过滤服务器102判断当前URL是否满足过滤标识符所指示的匹配结果,若满足,则执行步骤S516,否则,返回重新查找判断新的配置文件;
S516,过滤服务器102将当前URL(例如,URL_3)与过滤字段中的子字段依次匹配;
S518,过滤服务器102判断是否成功匹配,若成功匹配,则判断出上述当前URL(例如,URL_3)为垃圾网页对应的URL,执行步骤S520,若未成功匹配,则返回S510,判断是否已对所有配置文件执行了匹配操作(例如,配置文件P_3尚未执行匹配操作);
S520,过滤服务器102将过滤掉上述垃圾网页对应的URL,并返回执行步骤S506,以判断是否已对URL集合中所有URL执行过滤操作。
由上述过程中的步骤S518可知,当前URL(例如,URL_3)与当前正在执行匹配的配置文件P_2未成功匹配,则返回重新查找判断新的配置文件,例如从多个配置文件中再读取一个还未执行匹配操作的配置文件,例如,该配置文件为配置文件P_3。若当前URL(例如,URL_3)与当前正在执行匹配的为配置文件P_2成功匹配,即配置文件P_2为查找出的匹配配置文件,则执行步骤S520,将上述被判断出为垃圾网页的网页所对应的当前URL(例如,URL_3)过滤掉。然后,返回执行步骤S506,判断是否已对URL集合中所有URL执行过滤操作。
通过本发明提供的实施例,通过预设的配置文件中的过滤标识符从海量的待处理URL集合中筛选出待检测URL,进一步,利用配置文件中的过滤字段对上述待检测URL中进行匹配,以得到需要从上述待处理URL集合中过滤掉的URL,进而实现了对获取到的URL集合中不必要的垃圾网页所对应的URL进行有效过滤,从而在Web安全扫描的过程中,无需对垃圾网页所对应的URL进行扫描,达到提高Web安全扫描的效率的效果。
作为一种可选的方案,步骤S2042,根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL包括:
1)若过滤标识符为用于指示对所有网页进行过滤的字段,则判断出当前URL为待检测URL;或者
2)若过滤标识符为用于指示对预设域名进行过滤的字段,则判断当前URL中是否包括预设域名,若当前URL中包括预设域名,则判断出当前URL为待检测URL。
具体结合以下示例进行说明,如图4中402所示,用“host”标识上述过滤标识符,当上述“host”的取值为“*”,则表示上述过滤适用于对所有网页的过滤,则判断出上述所有网页所对应的URL为待检测URL,上述待检测URL将用于执行之后的匹配判断。
具体结合以下示例进行说明,如图6中所示的配置文件,当上述“host”602的取值为“www.sina.com/168.1.1.3”,则表示上述过滤适用于上述新浪网中相应的网页。当判断出上述当前执行过滤操作的当前URL包括上述预设的域名,则判断出上述当前URL为所述待检测URL。
可选地,在本实施例中,若上述当前URL不满足过滤标识符指示的范围,则说明上述当前URL不为垃圾网页对应的URL,则不再继续执行过滤操作的判断。
通过本发明提供的实施例,通过过滤标识符对上述待处理的URL集合进行筛选,以得到对应范围内的待检测URL,进而在上述范围内将垃圾网页对应的URL过滤掉,实现了对预定范围内的URL执行过滤操作,以达到提高对URL过滤准确性。
作为一种可选的方案,步骤S2044,根据配置文件中的过滤字段对当前URL进行匹配包括:
S1,对当前URL执行过滤字段中指示的匹配操作;
S2,根据执行匹配操作得到的结果是否满足过滤字段中指示的匹配结果判断是否成功对当前URL进行匹配。
可选地,在本实施例中,上述过滤字段中指示的匹配操作包括但不限于:特征参数匹配、特征字符串匹配。其中,上述特征参数可以包括但不限于以下至少之一:当前URL所对应的网页的状态码,和/或用于表示当前URL所对应的网页的大小的内容长度字段。上述特征字符串可以包括但不限于以下至少之一:当前URL的链接、当前URL链接中的部分字符串。
可选地,在本实施例中,在上述过滤字段中可以设置特征参数和/或特征字符串及其对应的匹配方式,以实现对所述待检测URL执行匹配操作。可选地,在本实施例中,上述特征参数的匹配方式可以包括但不限于为:大于上述特征参数的取值、小于上述特征参数的取值、等于上述特征参数的取值。在本实施例中,上述特征字符串的匹配方式可以包括但不限于为:查找匹配、正则匹配。
例如,将用于执行过滤操作的当前URL与上述过滤字段中指示的匹配结果进行匹配,若当前URL执行匹配操作得到的结果满足过滤字段中指示的匹配结果,则判断出成功对当前URL进行匹配。
通过本发明提供的实施例,通过利用过滤字段对待检测URL执行匹配操作,进一步判断上述待检测URL是否为不必要的垃圾网页对应的URL,实现了对垃圾网页对应的URL进行准确的判断,以实现提高Web安全扫描的效率,降低Web安全扫描的成本。
作为一种可选的方案,S1,对当前URL执行过滤字段中指示的匹配操作包括:S10,判断当前URL中的特征参数与过滤字段中的特征参数之间是否满足配置文件中的匹配式,其中,特征参数包括:当前URL所对应的网页的状态码,和/或用于表示当前URL所对应的网页的大小的内容长度字段;S2,根据执行匹配操作得到的结果是否满足过滤字段中指示的匹配结果判断是否成功对当前URL进行匹配包括:S20,若当前URL中的特征参数与过滤字段中的特征参数之间满足配置文件中的匹配式时,则判断出成功对当前URL进行匹配。
具体结合以下示例进行说明,结合图6所示,假设对当前URL执行过滤字段中指示的匹配操作为对特征参数进行匹配,则判断当前URL中的特征参数是否与过滤字段中的特征参数满足预定的匹配式。例如,上述过滤字段中的特征参数为状态码“HttpCode”,预定的匹配式为“=,200”,则判断当前URL中的特征参数(即,状态码“HttpCode”)是否等于200,若判断出当前URL中的状态码“HttpCode”满足上述匹配式,则判断出成功对上述当前URL进行匹配。
作为一种可选的方案,S1,对当前URL执行过滤字段中指示的匹配操作包括:S10,判断当前URL中的特征字符串与过滤字段中的特征字符串之间是否满足配置文件中的匹配条件,其中,特征字符串包括以下至少之一:当前URL的链接、当前URL链接中的部分字符串;S2,根据执行匹配操作得到的结果是否满足过滤字段中指示的匹配结果判断是否成功对当前URL进行匹配包括:S20,若当前URL中的特征字符串与过滤字段中的字符串之间满足配置文件中的匹配条件时,则判断出成功对当前URL进行匹配。
具体结合以下示例进行说明,结合图6所示,假设对当前URL执行过滤字段中指示的匹配操作为对特征字符串进行匹配,则判断当前URL中的特征字符串是否与过滤字段中的特征字符串满足预定的匹配条件。例如,上述过滤字段中的特征字符串为消息正文“Content”,预定的匹配条件为“substr=,stc=\“http://news.sina.com/gj/303/data.js””,则判断当前URL中的特征字符串(即,消息正文“Content”)是否满足上述匹配条件,例如图6所示的指示新浪新闻中的国际新闻的链接字符串,若在当前URL中查找到上述特征字符串,则判断出成功对上述当前URL进行匹配。
又例如,设置正则匹配式,将完整字符串中的部分字符串作为特征字符串,采用正则匹配的方式,判断上述当前URL中是否包括正则匹配式中所设置的特征字符串,以实现对包含某种特定的部分字符串的URL进行过滤,使得本实施例中对当前URL的过滤,可以只针对包含某种特定一类字符串的URL进行过滤。
通过本发明提供的实施例,通过将当前URL中的特征参数和/或特征字符串与过滤字段中所设置的特征参数和/或特征字符串按照预定的匹配方式进行匹配,实现了准确判断出上述待检测URL中的垃圾网页对应的URL,从而将上述垃圾网页对应的URL进行准确过滤,进而对过滤后的URL进行Web安全扫描,达到了提高Web安全扫描的效率的效果。
作为一种可选的方案,在步骤S206,对待处理URL集合中的每个URL执行过滤操作之后,还包括:
S1,对由已过滤掉当前URL的待处理URL集合中的每个URL所指示的待处理网页执行网页安全扫描操作。
具体结合以下示例进行说明,在已过滤掉垃圾网页对应的URL之后,将上述URL集合中过滤掉垃圾网页对应的URL之后剩余的URL保存,当在执行网页安全扫描操作时,直接调用上述已保存的不含垃圾网页的URL。
通过本发明提供的实施例,通过对已过滤掉垃圾网页对应的URL的待处理URL集合中的每个URL所指示的待处理网页执行网页安全扫描操作,从而实现了避免对垃圾网页对应的URL执行网页安全扫描操作,达到了提高Web安全扫描的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,提供了一种网页的统一资源定位符URL的过滤装置,上述网页的统一资源定位符URL的过滤装置可以应用于如图1所示的硬件环境中,其中,上述装置位于用于对网页的统一资源定位符URL执行过滤的过滤服务器102中,过滤服务器102可以通过网络与上述网页所在的网页服务器104建立链接,并对由上述网页服务器104发送的待处理的URL进行过滤。其中,上述网络包括但不限于:广域网、城域网或局域网。
根据本发明实施例,还提供了一种网页的统一资源定位符URL的过滤装置,如图7所示,该装置包括:
1)获取单元702,用于获取待处理URL集合,其中,待处理URL集合包括多个待处理网页的URL;
2)过滤单元704,用于对待处理URL集合中的每个URL执行以下过滤操作,其中,待处理URL集合中当前执行以下过滤操作的URL为当前URL:
i)根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL;
ii)URL为待检测URL时,根据配置文件中的过滤字段对当前URL进行匹配;
iii)根据过滤字段成功对当前URL进行匹配时,从待处理URL集合中过滤掉当前URL。
可选地,在本实施例中,上述网页的统一资源定位符URL的过滤方法可以应用于Web安全扫描的过程中。例如,结合图1所示,在执行对上述Web安全扫描之前,获取上述待处理的URL集合,其中,上述待处理URL集合包括多个待处理网页的URL,对上述URL集合中的每个URL执行过滤操作,以使从过滤服务器102所获取的海量的URL中过滤掉不必要执行Web安全扫描的垃圾网页所对应的URL。上述举例只是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,结合图3所示,在获取待处理的URL集合之前,过滤服务器102与网页服务器104之间的交互过程:
S302,过滤服务器102会通过网络向网页服务器104发送获取待处理的URL集合的请求;
S304,响应上述请求上述网页服务器104会向过滤服务器102返回待处理的URL集合。
可选地,在本实施例中,上述配置文件为由包括过滤标识符和过滤字段的json字符串形成的文件,其中,json为一种轻量级的数据交换语言JavaScript Object Notation,上述语言以文字为基础,且易于让人阅读,同时也方便了机器进行解析和生成。其中,上述过滤标识符可以包括但不限于:对上述待处理URL集合执行过滤的适用范围。例如,上述适用范围可以包括但不限于:全局网页、局部网页,其中,上述局部网页可以通过预设域名的方式来进行筛选。上述过滤字段可以包括但不限于:指示对上述待检测URL执行过滤的匹配结果,其中,上述过滤字段中可以包括但不限于多个过滤子字段。例如,上述匹配结果可以包括但不限于:用于匹配的特征参数及其匹配方式、用于匹配的特征字符串及其匹配方式。
例如,如图4中402所示,用“host”标识上述过滤标识符,当上述“host”的取值为“*”,则表示上述过滤适用于对所有网页的过滤;当上述“host”的取值为“域名/IP”,则表示上述过滤适用于对应于上述“域名/IP”的网页。当判断出上述当前执行过滤操作的当前URL满足上述过滤标识符,则判断出上述当前URL为待检测URL。
又例如,如图4中404所示,用“rule”标识上述过滤字段,其中,上述“rule”中可以包括但不限于如下所示的子字段:1)设置状态码“HttpCode”的特征参数;2)设置消息正文“Content”的特征字符串。例如,配置文件配置状态码“HttpCode”的取值“等于”数值“200”,配置消息正文“Content”的字符串为“http://qzone.qq.com/gy/404/data.js”,当上述待检测URL与上述过滤字段中的所有子字段均匹配成功,则可以判断出上述待检测URL匹配成功,从上述待处理URL集合中过滤掉上述当前URL。
可选地,在本实施例中,上述配置文件还可以包括但不限于:配置文件的类型名称、配置文件的属性,其中,上述配置文件的属性可以包括但不限于:配置文件的添加时间、配置文件的添加者。例如,如图4中406所示,配置文件的类型名称为“gongyi404”,如图4中408所示,配置文件的添加时间为“2013-10-13”,配置文件的添加者为“zhangsan”。
可选地,在本实施例中,在对上述待处理的URL执行完过滤后,将过滤掉垃圾网页所对应的URL保存,以便于Web安全扫描时调用进行扫描,达到提高Web安全扫描的效率。
可选地,在本实施例中,上述配置文件可以以哈希表的形式保存,保存的位置可以为以下至少之一:磁盘文本文件中、数据库服务器的文件中。可选地,当需要对上述待处理的URL执行过滤时,就由上述位置加载上述配置文件实现对上述待处理URL集合中的URL进行过滤。可选地,在本实施例中,加载上述配置文件的方式可以但不限于为在上述哈希表中遍历查找与当前URL对应的配置文件。
可选地,上述预设的配置文件为多个配置文件,其中,上述网页的URL的过滤装置通过以下步骤执行根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL、根据配置文件中的过滤字段对当前URL进行匹配、从待处理URL集合中过滤掉当前URL:从多个配置文件中查找匹配配置文件,其中,根据匹配配置文件中的过滤标识符判断出当前URL为待检测URL、且根据匹配配置文件中的过滤字段成功对当前URL进行匹配;只要从多个配置文件中查找出一个匹配配置文件,则从待处理URL集合中过滤掉当前URL。
具体结合图1和图5所示的流程图,说明上述网页的统一资源定位符URL的过滤流程,假设URL集合中包括URL_1、URL_2、URL_3、URL-4、URL_5,多个配置文件分别是P_1、P_2、P_3。
S502,过滤服务器102向网页服务器104请求获取待处理的URL集合;
S504,网页服务器104向过滤服务器102返回待处理的URL集合;
S506,过滤服务器102判断是否已对所有URL执行过滤操作,其中,上述URL集合中包括URL_1、URL_2、URL_3,若判断出上述URL集合中还有URL未执行过滤操作,则执行步骤S508;若判断出上述URL集合中的URL均已执行过过滤操作,则结束本次过滤;
S508,过滤服务器102读取一个URL(例如,读取URL_3),其中,上述URL(例如,URL_3)还未执行过滤操作;
S510,过滤服务器102查找判断是否已对所有配置文件执行了匹配操作,若判断出还有配置文件未执行匹配操作,则执行步骤S512,若判断出已对所有配置文件执行了匹配操作(S514,或者,S514和S516),则返回S506;其中,在过滤服务器102第一次判断是否已对所有配置文件匹配完时,过滤服务器102首先加载所有的配置文件(例如,配置文件P_1、P_2、P_3);
S512,过滤服务器102读取一个配置文件(例如,配置文件P_2),其中,上述被读取的配置文件(例如,配置文件P_2)还未执行匹配操作;
S514,过滤服务器102判断当前URL是否满足过滤标识符所指示的匹配结果,若满足,则执行步骤S516,否则,返回重新查找判断新的配置文件;
S516,过滤服务器102将当前URL(例如,URL_3)与过滤字段中的子字段依次匹配;
S518,过滤服务器102判断是否成功匹配,若成功匹配,则判断出上述当前URL(例如,URL_3)为垃圾网页对应的URL,执行步骤S520,若未成功匹配,则返回S510,判断是否已对所有配置文件执行了匹配操作(例如,配置文件P_3尚未执行匹配操作);
S520,过滤服务器102将过滤掉上述垃圾网页对应的URL,并返回执行步骤S506,判断是否已对URL集合中所有URL执行过滤操作。
通过本发明提供的实施例,通过预设的配置文件中的过滤标识符从海量的待处理URL集合中筛选出待检测URL,进一步,利用配置文件中的过滤字段对上述待检测URL中进行匹配,以得到需要从上述待处理URL集合中过滤掉的URL,进而实现了对获取到的URL集合中不必要的垃圾网页所对应的URL进行有效过滤,从而在Web安全扫描的过程中,无需对垃圾网页所对应的URL进行扫描,达到提高Web安全扫描的效率的效果。
作为一种可选的方案,上述过滤单元704包括:
1)第一判断模块,用于在过滤标识符为用于指示对所有网页进行过滤的字段,判断出当前URL为待检测URL;或者
2)第二判断模块,用于在过滤标识符为用于指示对预设域名进行过滤的字段,则判断当前URL中是否包括预设域名,若当前URL中包括预设域名,判断出当前URL为待检测URL。
具体结合以下示例进行说明,如图4中402所示,用“host”标识上述过滤标识符,当上述“host”的取值为“*”,则表示上述过滤适用于对所有网页的过滤,则判断出上述所有网页所对应的URL为待检测URL,上述待检测URL将用于执行之后的匹配判断。
具体结合以下示例进行说明,如图6中所示的配置文件,当上述“host”602的取值为“www.sina.com/168.1.1.3”,则表示上述过滤适用于上述新浪网中相应的网页。当判断出上述当前执行过滤操作的当前URL包括上述预设的域名,则判断出上述当前URL为所述待检测URL。
可选地,在本实施例中,若上述当前URL不满足过滤标识符指示的范围,则说明上述当前URL不为垃圾网页对应的URL,则不再继续执行过滤操作的判断。
通过本发明提供的实施例,通过过滤标识符对上述待处理的URL集合进行筛选,以得到对应范围内的待检测URL,进而在上述范围内将垃圾网页对应的URL过滤掉,实现了对预定范围内的URL执行过滤操作,以达到提高对URL过滤准确性。
作为一种可选的方案,上述过滤单元704包括:
1)匹配模块,用于对当前URL执行过滤字段中指示的匹配操作;
2)第三判断模块,用于根据执行匹配操作得到的结果是否满足过滤字段中指示的匹配结果判断是否成功对当前URL进行匹配。
可选地,在本实施例中,上述过滤字段中指示的匹配操作包括但不限于:特征参数匹配、特征字符串匹配。其中,上述特征参数可以包括但不限于以下至少之一:当前URL所对应的网页的状态码,和/或用于表示当前URL所对应的网页的大小的内容长度字段。上述特征字符串可以包括但不限于以下至少之一:当前URL的链接、当前URL链接中的部分字符串。
可选地,在本实施例中,在上述过滤字段中可以设置特征参数和/或特征字符串及其对应的匹配方式,以实现对所述待检测URL执行匹配操作。可选地,在本实施例中,上述特征参数的匹配方式可以包括但不限于为:大于上述特征参数的取值、小于上述特征参数的取值、等于上述特征参数的取值。在本实施例中,上述特征字符串的匹配方式可以包括但不限于为:查找匹配、正则匹配。
例如,将用于执行过滤操作的当前URL与上述过滤字段中指示的匹配结果进行匹配,若当前URL执行匹配操作得到的结果满足过滤字段中指示的匹配结果,则判断出成功对当前URL进行匹配。
通过本发明提供的实施例,通过利用过滤字段对待检测URL执行匹配操作,进一步判断上述待检测URL是否为不必要的垃圾网页对应的URL,实现了对垃圾网页对应的URL进行准确的判断,以实现提高Web安全扫描的效率,降低Web安全扫描的成本。
作为一种可选的方案,上述匹配模块通过执行以下步骤以实现对当前URL执行过滤字段中指示的匹配操作包括:判断当前URL中的特征参数与过滤字段中的特征参数之间是否满足配置文件中的匹配式,其中,特征参数包括:当前URL所对应的网页的状态码,和/或用于表示当前URL所对应的网页的大小的内容长度字段;上述第三判断模块通过执行以下步骤以实现根据执行匹配操作得到的结果是否满足过滤字段中指示的匹配结果判断是否成功对当前URL进行匹配包括:若当前URL中的特征参数与过滤字段中的特征参数之间满足配置文件中的匹配式时,则判断出成功对当前URL进行匹配。
具体结合以下示例进行说明,结合图6所示,假设对当前URL执行过滤字段中指示的匹配操作为对特征参数进行匹配,则判断当前URL中的特征参数是否与过滤字段中的特征参数满足预定的匹配式。例如,上述过滤字段中的特征参数为状态码“HttpCode”,预定的匹配式为“=,200”,则判断当前URL中的特征参数(即,状态码“HttpCode”)是否等于200,若判断出当前URL中的状态码“HttpCode”满足上述匹配式,则判断出成功对上述当前URL进行匹配。
作为一种可选的方案,上述匹配模块通过执行以下步骤以实现对当前URL执行过滤字段中指示的匹配操作包括:判断当前URL中的特征字符串与过滤字段中的特征字符串之间是否满足配置文件中的匹配条件,其中,特征字符串包括以下至少之一:当前URL的链接、当前URL链接中的部分字符串;上述第三判断模块通过执行以下步骤以实现根据执行匹配操作得到的结果是否满足过滤字段中指示的匹配结果判断是否成功对当前URL进行匹配包括:若当前URL中的特征字符串与过滤字段中的字符串之间满足配置文件中的匹配条件时,则判断出成功对当前URL进行匹配。
具体结合以下示例进行说明,结合图6所示,假设对当前URL执行过滤字段中指示的匹配操作为对特征字符串进行匹配,则判断当前URL中的特征字符串是否与过滤字段中的特征字符串满足预定的匹配条件。例如,上述过滤字段中的特征字符串为消息正文“Content”,预定的匹配条件为“substr=,stc=\“http://news.sina.com/gj/303/data.js””,则判断当前URL中的特征字符串(即,消息正文“Content”)是否满足上述匹配条件,例如图6所示的指示新浪新闻中的国际新闻的链接字符串,若在当前URL中查找到上述特征字符串,则判断出成功对上述当前URL进行匹配。
又例如,设置正则匹配式,将完整字符串中的部分字符串作为特征字符串,采用正则匹配的方式,判断上述当前URL中是否包括正则匹配式中所设置的特征字符串,以实现对包含某种特定的部分字符串的URL进行过滤,使得本实施例中对当前URL的过滤,可以只针对包含某种特定一类字符串的URL进行过滤。
通过本发明提供的实施例,通过将当前URL中的特征参数和/或特征字符串与过滤字段中所设置的特征参数和/或特征字符串按照预定的匹配方式进行匹配,实现了准确判断出上述待检测URL中的垃圾网页对应的URL,从而将上述垃圾网页对应的URL进行准确过滤,进而对过滤后的URL进行Web安全扫描,达到了提高Web安全扫描的效率的效果。
作为一种可选的方案,预设的配置文件为多个配置文件,其中,过滤单元704包括:
1)查找模块,用于从多个配置文件中查找匹配配置文件,其中,根据匹配配置文件中的过滤标识符判断出当前URL为待检测URL、且根据匹配配置文件中的过滤字段成功对当前URL进行匹配;
2)过滤模块,用于只要从多个配置文件中查找出一个匹配配置文件,则从待处理URL集合中过滤掉当前URL。
具体结合图5所示进行说明,由上述过程中的步骤S518可知,当前URL(例如,URL_3)与当前正在执行匹配的配置文件P_2未成功匹配,则返回重新查找判断新的配置文件,通过上述查找模块从多个配置文件中再查找并读取一个还未执行匹配操作的配置文件,例如,该配置文件为配置文件P_3。若当前URL(例如,URL_3)与当前正在执行匹配的为配置文件P_2成功匹配,即配置文件P_2为查找模块查找出的匹配配置文件,则通过上述过滤模块执行步骤S520,将上述被判断出为垃圾网页的网页所对应的当前URL(例如,URL_3)过滤掉。
作为一种可选的方案,上述装置还包括:
1)扫描单元,用于在对待处理URL集合中的每个URL执行过滤操作之后,对由已过滤掉当前URL的待处理URL集合中的每个URL所指示的待处理网页执行网页安全扫描操作。
具体结合以下示例进行说明,在已过滤掉垃圾网页对应的URL之后,将上述URL集合中过滤掉垃圾网页对应的URL之后剩余的URL保存,当在执行网页安全扫描操作时,直接调用上述已保存的不含垃圾网页的URL。
通过本发明提供的实施例,通过对已过滤掉垃圾网页对应的URL的待处理URL集合中的每个URL所指示的待处理网页执行网页安全扫描操作,从而实现了避免对垃圾网页对应的URL执行网页安全扫描操作,达到了提高Web安全扫描的效果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
实施例3
根据本发明实施例,还提供了一种用于实施上述网页的统一资源定位符URL的过滤的服务器,如图8所示,该服务器包括:
1)存储器802,被设置为存储上述用于执行对网页的统一资源定位符URL进行过滤的配置文件以及完成过滤后的URL。
可选地,在本实施例中,上述存储器802中存储的内容也可以从除过滤服务器102之外的其他服务器获取,本实施例对此不做任何限定。
可选地,在本实施例中,上述存储器802还可以用于存储上述实施例1中的过滤过程中所存储的其他数据。
2)处理器804,被设置为对上述网页的统一资源定位符URL的过滤装置中的各个模块执行以下操作;
S1,获取待处理URL集合,其中,待处理URL集合包括多个待处理网页的URL;
S2,对待处理URL集合中的每个URL执行以下过滤操作,其中,待处理URL集合中当前执行以下过滤操作的URL为当前URL:
S20,根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL;
S22,若URL为待检测URL,则根据配置文件中的过滤字段对当前URL进行匹配;
S24,若根据过滤字段成功对当前URL进行匹配,则从待处理
URL集合中过滤掉当前URL。
可选地,在本实施例中,上述存处理器804还被设置为执行以下操作以实现根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL:
S1,若过滤标识符为用于指示对所有网页进行过滤的字段,则判断出当前URL为待检测URL;或者
S2,若过滤标识符为用于指示对预设域名进行过滤的字段,则判断当前URL中是否包括预设域名,若当前URL中包括预设域名,则判断出当前URL为待检测URL。
可选地,在本实施例中,上述存处理器804还被设置为执行以下操作以实现根据配置文件中的过滤字段对当前URL进行匹配:
S1,对当前URL执行过滤字段中指示的匹配操作;
S2,根据执行匹配操作得到的结果是否满足过滤字段中指示的匹配结果判断是否成功对当前URL进行匹配。
3)通讯接口806,被设置为与上述网页服务器104进行数据交互。
可选地,在本实施例中,上述通讯接口806还被设置为与网页的统一资源定位符URL进行过滤的过程中除上述网页服务器104之外的其他服务器进行数据交互。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例4
根据本发明实施例,提供了一种存储介质,上述存储介质可以应用于如图1所示的硬件环境中。可选地,上述存储介质可以但不限于位于用于对网页的统一资源定位符URL执行过滤的过滤服务器102中。
可选地,在本实施例中,上述存储介质可以应用于网页的统一资源定位符URL的过滤中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取待处理URL集合,其中,待处理URL集合包括多个待处理网页的URL;
S2,对待处理URL集合中的每个URL执行以下过滤操作,其中,待处理URL集合中当前执行以下过滤操作的URL为当前URL:
S20,根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL;
S22,若URL为待检测URL,则根据配置文件中的过滤字段对当前URL进行匹配;
S24,若根据过滤字段成功对当前URL进行匹配,则从待处理URL集合中过滤掉当前URL。
可选地,存储介质还被设置为存储用于执行以下步骤以实现根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL的程序代码:
S1,若过滤标识符为用于指示对所有网页进行过滤的字段,则判断出当前URL为待检测URL;或者
S2,若过滤标识符为用于指示对预设域名进行过滤的字段,则判断当前URL中是否包括预设域名,若当前URL中包括预设域名,则判断出当前URL为待检测URL。
可选地,存储介质还被设置为存储用于执行以下步骤以实现根据配置文件中的过滤字段对当前URL进行匹配的程序代码:
S1,对当前URL执行过滤字段中指示的匹配操作;
S2,根据执行匹配操作得到的结果是否满足过滤字段中指示的匹配结果判断是否成功对当前URL进行匹配。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (16)

1.一种网页的统一资源定位符URL的过滤方法,其特征在于,包括:
获取待处理URL集合,其中,所述待处理URL集合包括多个待处理网页的URL;
对所述待处理URL集合中的每个URL执行以下过滤操作,其中,所述待处理URL集合中当前执行以下过滤操作的URL为当前URL:
根据预设的配置文件中的过滤标识符判断所述当前URL是否为待检测URL;
若所述URL为所述待检测URL,则根据所述配置文件中的过滤字段对所述当前URL进行匹配;
若根据所述过滤字段成功对所述当前URL进行匹配,则从所述待处理URL集合中过滤掉所述当前URL。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的配置文件中的过滤标识符判断所述当前URL是否为待检测URL包括:
若所述过滤标识符为用于指示对所有网页进行过滤的字段,则判断出所述当前URL为所述待检测URL;或者
若所述过滤标识符为用于指示对预设域名进行过滤的字段,则判断所述当前URL中是否包括所述预设域名,若所述当前URL中包括所述预设域名,则判断出所述当前URL为所述待检测URL。
3.根据权利要求1所述的方法,其特征在于,所述根据所述配置文件中的过滤字段对所述当前URL进行匹配包括:
对所述当前URL执行所述过滤字段中指示的匹配操作;
根据执行所述匹配操作得到的结果是否满足所述过滤字段中指示的匹配结果判断是否成功对所述当前URL进行匹配。
4.根据权利要求3所述的方法,其特征在于,
对所述当前URL执行所述过滤字段中指示的匹配操作包括:判断所述当前URL中的特征参数与所述过滤字段中的特征参数之间是否满足所述配置文件中的匹配式,其中,所述特征参数包括:所述当前URL所对应的网页的状态码,和/或用于表示所述当前URL所对应的所述网页的大小的内容长度字段;
根据执行所述匹配操作得到的结果是否满足所述过滤字段中指示的匹配结果判断是否成功对所述当前URL进行匹配包括:若所述当前URL中的特征参数与所述过滤字段中的特征参数之间满足所述配置文件中的匹配式时,则判断出成功对所述当前URL进行匹配。
5.根据权利要求3所述的方法,其特征在于,
对所述当前URL执行所述过滤字段中指示的匹配操作包括:判断所述当前URL中的特征字符串与所述过滤字段中的特征字符串之间是否满足所述配置文件中的匹配条件,其中,所述特征字符串包括以下至少之一:所述当前URL的链接、所述当前URL链接中的部分字符串;
根据执行所述匹配操作得到的结果是否满足所述过滤字段中指示的匹配结果判断是否成功对所述当前URL进行匹配包括:若所述当前URL中的特征字符串与所述过滤字段中的字符串之间满足所述配置文件中的匹配条件时,则判断出成功对所述当前URL进行匹配。
6.根据权利要求1所述的方法,其特征在于,所述配置文件为由包括所述过滤标识符和所述过滤字段的json字符串形成的文件。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述预设的配置文件为多个配置文件,其中,通过以下步骤执行所述根据预设的配置文件中的过滤标识符判断所述当前URL是否为待检测URL、根据所述配置文件中的过滤字段对所述当前URL进行匹配、从所述待处理URL集合中过滤掉所述当前URL:
从所述多个配置文件中查找匹配配置文件,其中,根据所述匹配配置文件中的所述过滤标识符判断出所述当前URL为所述待检测URL、且根据所述匹配配置文件中的所述过滤字段成功对所述当前URL进行匹配;
只要从所述多个配置文件中查找出一个所述匹配配置文件,则从所述待处理URL集合中过滤掉所述当前URL。
8.根据权利要求1至6中任一项所述的方法,其特征在于,在对所述待处理URL集合中的每个URL执行所述过滤操作之后,还包括:
对由已过滤掉所述当前URL的所述待处理URL集合中的每个URL所指示的所述待处理网页执行网页安全扫描操作。
9.一种网页的统一资源定位符URL的过滤装置,其特征在于,包括:
获取单元,用于获取待处理URL集合,其中,所述待处理URL集合包括多个待处理网页的URL;
过滤单元,用于对所述待处理URL集合中的每个URL执行以下过滤操作,其中,所述待处理URL集合中当前执行以下过滤操作的URL为当前URL:
根据预设的配置文件中的过滤标识符判断所述当前URL是否为待检测URL;
在所述URL为所述待检测URL时,根据所述配置文件中的过滤字段对所述当前URL进行匹配;
在根据所述过滤字段成功对所述当前URL进行匹配时,从所述待处理URL集合中过滤掉所述当前URL。
10.根据权利要求9所述的装置,其特征在于,所述过滤单元包括:
第一判断模块,用于在所述过滤标识符为用于指示对所有网页进行过滤的字段时,判断出所述当前URL为所述待检测URL;或者
第二判断模块,用于在所述过滤标识符为用于指示对预设域名进行过滤的字段时,则判断所述当前URL中是否包括所述预设域名,若所述当前URL中包括所述预设域名,判断出所述当前URL为所述待检测URL。
11.根据权利要求9所述的装置,其特征在于,所述过滤单元包括:
匹配模块,用于对所述当前URL执行所述过滤字段中指示的匹配操作;
第三判断模块,用于根据执行所述匹配操作得到的结果是否满足所述过滤字段中指示的匹配结果判断是否成功对所述当前URL进行匹配。
12.根据权利要求11所述的装置,其特征在于,
所述匹配模块通过执行以下步骤以实现对所述当前URL执行所述过滤字段中指示的匹配操作包括:判断所述当前URL中的特征参数与所述过滤字段中的特征参数之间是否满足所述配置文件中的匹配式,其中,所述特征参数包括:所述当前URL所对应的网页的状态码,和/或用于表示所述当前URL所对应的所述网页的大小的内容长度字段;
所述第三判断模块通过执行以下步骤以实现根据执行所述匹配操作得到的结果是否满足所述过滤字段中指示的匹配结果判断是否成功对所述当前URL进行匹配包括:若所述当前URL中的特征参数与所述过滤字段中的特征参数之间满足所述配置文件中的匹配式时,则判断出成功对所述当前URL进行匹配。
13.根据权利要求11所述的装置,其特征在于,
所述匹配模块通过执行以下步骤以实现对所述当前URL执行所述过滤字段中指示的匹配操作包括:判断所述当前URL中的特征字符串与所述过滤字段中的特征字符串之间是否满足所述配置文件中的匹配条件,其中,所述特征字符串包括以下至少之一:所述当前URL的链接、所述当前URL链接中的部分字符串;
所述第三判断模块通过执行以下步骤以实现根据执行所述匹配操作得到的结果是否满足所述过滤字段中指示的匹配结果判断是否成功对所述当前URL进行匹配包括:若所述当前URL中的特征字符串与所述过滤字段中的字符串之间满足所述配置文件中的匹配条件时,则判断出成功对所述当前URL进行匹配。
14.根据权利要求9所述的装置,其特征在于,所述配置文件为由包括所述过滤标识符和所述过滤字段的json字符串形成的文件。
15.根据权利要求9至14中任一项所述的装置,其特征在于,所述预设的配置文件为多个配置文件,其中,所述过滤单元包括:
查找模块,用于从所述多个配置文件中查找匹配配置文件,其中,根据所述匹配配置文件中的所述过滤标识符判断出所述当前URL为所述待检测URL、且根据所述匹配配置文件中的所述过滤字段成功对所述当前URL进行匹配;
过滤模块,用于只要从所述多个配置文件中查找出一个所述匹配配置文件,则从所述待处理URL集合中过滤掉所述当前URL。
16.根据权利要求9至14中任一项所述的装置,其特征在于,还包括:
扫描单元,用于在对所述待处理URL集合中的每个URL执行所述过滤操作之后,对由已过滤掉所述当前URL的所述待处理URL集合中的每个URL所指示的所述待处理网页执行网页安全扫描操作。
CN201410284750.6A 2014-06-23 2014-06-23 网页的统一资源定位符url的过滤方法和装置 Active CN105302815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410284750.6A CN105302815B (zh) 2014-06-23 2014-06-23 网页的统一资源定位符url的过滤方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410284750.6A CN105302815B (zh) 2014-06-23 2014-06-23 网页的统一资源定位符url的过滤方法和装置

Publications (2)

Publication Number Publication Date
CN105302815A CN105302815A (zh) 2016-02-03
CN105302815B true CN105302815B (zh) 2019-06-07

Family

ID=55200091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410284750.6A Active CN105302815B (zh) 2014-06-23 2014-06-23 网页的统一资源定位符url的过滤方法和装置

Country Status (1)

Country Link
CN (1) CN105302815B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227741B (zh) * 2016-07-12 2019-08-30 国家计算机网络与信息安全管理中心 一种基于多级哈希索引链表的大规模url匹配方法
CN106168977B (zh) * 2016-07-15 2019-07-02 山谷网安科技股份有限公司 一种用于网站安全监测的栏目识别方法
CN107066510B (zh) * 2017-01-22 2021-12-03 南方科技大学 一种信息处理方法及装置
CN108595586B (zh) * 2018-04-19 2021-12-24 杭州迪普科技股份有限公司 一种搜索关键字的确定方法及装置
CN109639686B (zh) * 2018-12-17 2022-02-25 江苏满运软件科技有限公司 分布式网页过滤方法、装置、电子设备、存储介质
CN111259282B (zh) * 2020-02-13 2023-08-29 深圳市腾讯计算机***有限公司 Url去重方法、装置、电子设备及计算机可读存储介质
CN113411332B (zh) * 2021-06-18 2022-10-04 杭州安恒信息技术股份有限公司 一种cors漏洞检测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1798147A (zh) * 2004-12-28 2006-07-05 华为技术有限公司 一种统一资源定位符的匹配方法
CN102110132A (zh) * 2010-12-08 2011-06-29 北京星网锐捷网络技术有限公司 统一资源定位符匹配查找方法、装置和网络侧设备
CN102780681A (zh) * 2011-05-11 2012-11-14 中兴通讯股份有限公司 Url过滤***及过滤url的方法
CN103793462A (zh) * 2013-12-02 2014-05-14 北京奇虎科技有限公司 网址净化方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1798147A (zh) * 2004-12-28 2006-07-05 华为技术有限公司 一种统一资源定位符的匹配方法
CN102110132A (zh) * 2010-12-08 2011-06-29 北京星网锐捷网络技术有限公司 统一资源定位符匹配查找方法、装置和网络侧设备
CN102780681A (zh) * 2011-05-11 2012-11-14 中兴通讯股份有限公司 Url过滤***及过滤url的方法
CN103793462A (zh) * 2013-12-02 2014-05-14 北京奇虎科技有限公司 网址净化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于综合接入设备的防火墙研究与实现;刘涛;《中国优秀硕士学位论文全文数据库》;20090615(第2009年06期);全文

Also Published As

Publication number Publication date
CN105302815A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
CN105302815B (zh) 网页的统一资源定位符url的过滤方法和装置
US10410128B2 (en) Method, device, and server for friend recommendation
US20180219907A1 (en) Method and apparatus for detecting website security
CN108092962A (zh) 一种恶意url检测方法及装置
CN104536973B (zh) 图片识别的方法和浏览器客户端
US20160188723A1 (en) Cloud website recommendation method and system based on terminal access statistics, and related device
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫***
US10073886B2 (en) Search results based on a search history
CN103077254B (zh) 网页获取方法和装置
US20150128272A1 (en) System and method for finding phishing website
RU2015156608A (ru) Сетевое устройство и способ управления процессом службы
CN108227954A (zh) 一种提供搜索输入联想词的方法、装置及电子设备
CN106453216A (zh) 恶意网站拦截方法、装置及客户端
CN103617241B (zh) 搜索信息处理方法、浏览器终端与服务器
CN107547671A (zh) 一种url匹配方法及装置
CN106534145B (zh) 一种应用识别方法及设备
CN109325161A (zh) 舆情数据抓取方法、装置、设备及存储介质
CN104036003B (zh) 搜索结果整合方法和装置
US20150120692A1 (en) Method, device, and system for acquiring user behavior
CN109981745A (zh) 一种日志文件处理方法及服务器
CN114528457A (zh) Web指纹检测方法及相关设备
CN104967698B (zh) 一种爬取网络数据的方法和装置
CN108768982A (zh) 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
CN111209325A (zh) 业务***接口识别方法、装置及存储介质
CN107832221A (zh) 基于Burpsuit插件的平台半自动化功能测试方法、装置及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant