CN104933056B

CN104933056B - 统一资源定位符去重方法及装置

Info

Publication number: CN104933056B
Application number: CN201410100765.2A
Authority: CN
Inventors: 何双宁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2014-03-18
Filing date: 2014-03-18
Publication date: 2019-08-13
Anticipated expiration: 2034-03-18
Also published as: CN104933056A

Abstract

本发明提出一种统一资源定位符去重方法及装置，其统一资源定位符去重方法包括：根据统一资源定位符的结构预设去重规则库；从网站访问数据中获取要去重的统一资源定位符数据；根据统一资源定位符的结构和分段参数，将所述要去重的统一资源定位符与所述去重规则库中的去重规则进行匹配；以及将匹配出的与相同去重规则对应的统一资源定位符进行过滤，并对应每个去重规则保留一个统一资源定位符。通过本发明实施例的方法及装置，可以通过去重规则对海量URL数据进行过滤去重，避免在URL安全漏洞检测时，安全漏洞扫描器重复的扫描同一个CGI，从而提高安全漏洞的检测效率。

Description

统一资源定位符去重方法及装置

技术领域

本发明涉及网络技术领域，特别涉及一种统一资源定位符去重方法及装置，以及相应的去重规则生成方法及装置。

背景技术

URL Rewrite是互联网中一种对URL（Uniform Resource Locator，统一资源定位符）进行重写的技术，它首先获得用户端发送来的访问网站的URL请求，然后把它重新写成网站可以处理的另一个URL，用户得到的是经过处理后的URL地址的返回内容。

举例来说，许多新闻网站上的新闻有很多个类别，比如体育、科技等，且每天都有新的新闻发布，也就是按日期分类，而这些每天的新闻下边还有新闻索引ID。用户端访问一个体育类的新闻页面时，网站服务器接收到访问请求后，会通过CGI（Common GatewayInterface，通用网管接口）形成一个中间URL地址来统一访问后台数据，如公式（1）所示：

http://www.qq.com/news/getNews?type=sports&date=20131120&id=1 (1)

而像公式（1）这样的中间URL结构有居多缺点：不易记忆，不易阅读，在手机、平板电脑等移动终端上不便传播等。因此，许多网站服务器会通过URL重写技术将该中间URL结构重写成如公式（2）的形式：

http://www.qq.com/news/sports/20131120/1.html (2)

公式（2）的这种URL结构克服了公式(1)那种中间URL的缺点，使得URL更短，更容易阅读记忆，同时方便传播。

但是，URL重写技术带来居多好处的同时，也导致了这样一个现象：一个动态CGI会被多个URL重写，导致一个网址的URL数量剧增。例如，公式（1）中的分段参数包括“getNews?type”、“date”和“id”；现假设用户端访问一个科技类的新闻页面，公式（3）是通过CGI构成的中间URL地址：

http://www.qq.com/news/getNews?type=science&date=20131121&id=2 (3)

可以看到，公式（3）中的分段参数同样包括“getNews?type”、“date”和“id”，不同的仅是各个分段参数的值，所以公式（3）和公式（1）这两个中间RUL地址实质上是通过同一个动态CGI生成的。公式（4）是公式（3）通过URL重写技术重写后的URL地址：

http://www.qq.com/news/science/20131121/2.html (4)

可见，公式（4）的URL地址和公式（2）的URL地址是两个不同的URL地址，所以，通过一个动态CGI生成的地址会被重写成多个URL地址。而这种现象会带来如下问题：

在做URL安全漏洞检测时，由于URL重写技术可能会将多个URL重写到一个动态CGI，对这些URL的安全漏洞检测，其实检测的是重写后的同一个动态CGI，因而会导致一个CGI被重复扫描检测多次。而且，对于大型的网站，由于URL数量太多，加上一个URL可能会有多个参数，最终导致URL安全漏洞扫描器对公司业务安全漏洞的检测效率极低。同时，重复扫描检测同一个动态CGI，也给公司业务网站带来不必要的性能损失和运营成本。

发明内容

本发明实施例的目的是提供一种统一资源定位符去重方法及装置，以解决URL重写技术会使URL安全漏洞检测的效率降低，以及给网站服务器带来性能损失和增加运营成本的问题。

本发明实施例提出一种统一资源定位符去重方法，包括：

根据统一资源定位符的结构预设去重规则库，所述去重规则库中存放多个去重规则，每个去重规则对应统一资源定位符的不同结构，且所述去重规则中设置有表示对应统一资源定位符中重写过的分段参数的重写标识；

从网站访问数据中获取要去重的统一资源定位符数据；

根据统一资源定位符的结构和分段参数，将所述要去重的统一资源定位符与所述去重规则库中的去重规则进行匹配；以及

将匹配出的与相同去重规则对应的统一资源定位符进行过滤，并对应每个去重规则保留一个统一资源定位符。

本发明实施例还提出一种去重规则生成方法，包括：

获取要生成去重规则的域名下的统一资源定位符数据；

对所述获取的统一资源定位符进行聚类；

将聚类后的统一资源定位符按照域名参数部分、后缀部分、分段数目部分以及分段参数部分进行分割，并形成多条统计信息；

获取经过分割后相同结构的统计信息；以及

将相同结构的统计信息中值不同的对应分段参数值替换为重写标识，并通过替换过重写标识的统计信息生成新的去重规则。

本发明实施例另提出一种去重规则生成方法，包括：

获取预设的去重规则库中已有的去重规则，所述去重规则的结构包括域名参数部分、后缀部分、分段数目部分以及重写规则部分；

获取要生成去重规则的域名下的多个统一资源定位符数据；

通过已有的去重规则的后缀部分和重写规则部分，对要生成去重规则的域名下的多个统一资源定位符进行匹配；以及

当匹配到的统一资源定位符的数目大于设定的阈值，则将要生成去重规则的域名替换对应的去重规则中的域名参数部分，并生成新的去重规则。

本发明实施例提出一种统一资源定位符去重装置，包括：

去重规则库设置模块，用于根据统一资源定位符的结构预设去重规则库，所述去重规则库中存放多个去重规则，每个去重规则对应统一资源定位符的不同结构，且所述去重规则中设置有表示对应统一资源定位符中重写过的分段参数的重写标识；

统一资源定位符抓取模块，用于从网站访问数据中获取要去重的统一资源定位符数据；

匹配模块，用于根据统一资源定位符的结构和分段参数，将所述要去重的统一资源定位符与所述去重规则库中的去重规则进行匹配；以及

去重模块，用于将匹配出的与相同去重规则对应的统一资源定位符进行过滤，并对应每个去重规则保留一个统一资源定位符。

本发明实施例还提出一种去重规则生成装置，包括：

统一资源定位符获取模块，用于获取要生成去重规则的域名下的统一资源定位符数据；

聚类模块，用于对所述获取的统一资源定位符进行聚类；

分割模块，用于将聚类后的统一资源定位符按照域名参数部分、后缀部分、分段数目部分以及分段参数部分进行分割，并形成多条统计信息；

统计信息获取模块，用于获取经过分割后相同结构的统计信息；以及

分段参数替换模块，用于将相同结构的统计信息中值不同的对应分段参数值替换为重写标识，并通过替换过重写标识的统计信息生成新的去重规则。

本发明实施例另提出一种去重规则生成装置，包括：

去重规则获取模块，用于获取预设的去重规则库中已有的去重规则，所述去重规则的结构包括域名参数部分、后缀部分、分段数目部分以及重写规则部分；

统一资源定位符获取模块，用于获取要生成去重规则的域名下的多个统一资源定位符数据；

后缀和重写规则匹配模块，用于通过已有的去重规则的后缀部分和重写规则部分，对要生成去重规则的域名下的多个统一资源定位符进行匹配；以及

域名参数替换模块，用于当匹配到的统一资源定位符的数目大于设定的阈值，则将要生成去重规则的域名替换对应的去重规则中的域名参数部分，并生成新的去重规则。

相对于现有技术，本发明的有益效果是：通过本发明实施例的方法及装置，可以通过去重规则对海量URL数据进行过滤去重，从大量的URL数据中还原出极少量它们重写后的动态CGI，避免在URL安全漏洞检测时，安全漏洞扫描器重复的扫描同一个CGI，从而提高安全漏洞的检测效率。

附图说明

图1为本发明实施例的一种登陆地址记录方法及装置的运行环境示意图；

图2为图1中一种网站服务器的结构图；

图3为本发明实施例的一种统一资源定位符去重方法的流程图；

图4为本发明实施例的一种要去重的URL与去重规则进行匹配时的流程图；

图5为本发明实施例的第一种去重规则生成方法的流程图；

图6为本发明实施例的第一种去重规则生成方法的另一种流程图；

图7为本发明实施例的第二种去重规则生成方法的流程图；

图8为本发明实施例的第二种去重规则生成方法的另一种流程图；

图9为本发明实施例的一种统一资源定位符去重装置的结构图；

图10为本发明实施例的一种匹配模块的的结构图；

图11为本发明实施例的第一种去重规则生成装置的结构图；

图12为本发明实施例的第一种去重规则生成装置的另一种结构图；

图13为本发明实施例重写过滤模块的一种的结构图；

图14为本发明实施例验证模块的一种的结构图；

图15为本发明实施例的第二种去重规则生成装置的结构图；

图16为本发明实施例的第二种去重规则生成装置的另一种结构图。

具体实施方式

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

本发明实施例提出一种统一资源定位符去重方法及装置，以及相应的去重规则生成方法及装置，用于重写后的URL地址进行去重过滤，以及生成去重规则以便于对URL地址进行去重。请参见图1，其为上述的方法及装置的运行环境示意图。一个或多个用户端100可通过网络300与一个或多个网站服务器200（图1中只绘示一个）相连。所述用户端100可以是平板电脑、手机、电子阅读器、遥控器、PC、笔记本电脑、车载设备、网络电视、可穿戴设备等具有网络功能的智能设备。所述的网络300例如可为互联网、局域网、企业内部网等。

进一步参阅图2，其为上述的网站服务器200的一个实施例的结构框图。如图2所示，网站服务器200包括：存储器102、存储控制器104、一个或多个（图中仅示出一个）处理器106、外设接口108以及网络控制器112。可以理解，图2所示的结构仅为示意，其并不对网站服务器200的结构造成限定。例如，网站服务器200还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

存储器102可用于存储软件程序以及模块，如本发明实施例中的统一资源定位符去重方法及装置对应的程序指令/模块，处理器104通过运行存储在存储器102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。

存储器102可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器102可进一步包括相对于处理器106远程设置的存储器，这些远程存储器可以通过网络连接至网站服务器200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。

外设接口108将各种输入/输入装置耦合至处理器106。处理器106运行存储器102内的各种软件、指令，以及进行数据处理。在一些实施例中，外设接口108、处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

网络控制器112用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。在一个实例中，上述网络信号为有线网络信号。此时，网络控制器112可包括处理器、随机存储器、转换器、晶体振荡器等元件。

上述的软件程序以及模块包括：操作***122以及网站服务器模块224。其中操作***122例如可为LINUX,UNIX,WINDOWS，其可包括各种用于管理***任务（例如内存管理、存储设备控制、电源管理等）的软件组件和/或驱动，并可与各种硬件或软件组件相互通讯，从而提供其他软件组件的运行环境。网站服务器模块224运行在操作***122的基础上，并通过操作***122的网络服务监听来自网络的网页访问请求，根据网页访问请求完成相应的数据处理，并返回结果网页或者其他格式的数据给用户端100。上述的网站服务器模块224例如可包括动态网页脚本以及脚本解释器等。上述的脚本解释器例如可为Apache网站服务器程序，其用于将动态网页脚本处理成客户端可以接受的格式，例如超文本标记（HTML）语言格式或者可扩展标记语言（XML）格式等。

实施例一

请参见图3，其为本发明实施例的一种统一资源定位符去重方法的流程图，其包括以下步骤：

S301，根据统一资源定位符的结构预设去重规则库，所述去重规则库中存放多个去重规则，每个去重规则对应统一资源定位符的不同结构，且所述去重规则中设置有表示对应统一资源定位符中重写过的分段参数的重写标识。

S302，从网站访问数据中获取要去重的统一资源定位符数据。

S303，根据统一资源定位符的结构和分段参数，将所述要去重的统一资源定位符与所述去重规则库中的去重规则进行匹配。

S304，将匹配出的与相同去重规则对应的统一资源定位符进行过滤，并对应每个去重规则保留一个统一资源定位符。

根据W3C（World Wide Web Consortium，万维网联盟）标准从一个URL的结构可以分解出三个主要的部分：域名参数部分（本发明实施例中也称之为“host部分”），路径参数部分（本发明实施例中也称之为“path部分”），查询参数部分（本发明实施例中也称之为“query部分”）。例如URL形式为http://www.qq.com/nba/lbj.php?age=30&sex=1，其host部分为“www.qq.com”，path部分为“/nba/lbj.php”,query部分为“age=30&sex=1”，其中，query部分的参数名词的组合为“age&sex”。根据path部分的后缀不同也可将URL分成三大类：第一类，没有后缀的URL；第二类，有后缀的URL，后缀如php、jsp、html、htm等；第三类，后缀为“/”的URL。

步骤S301中，所述的去重规则在本发明实施例中用来辨识URL是否被重写过。藉于上述W3C标准对没有重写过的URL结构特征的划分，因此本发明实施例针对URL重写前后的结构关系，优选的将去重规则设定成包括域名参数部分、后缀部分、分段数目部分以及重写规则部分，为便于描述，本实施例将去重规则的形式表示为｛host,suffix,sections,rule_path｝。可以看到，该去重规则由四个部分组成：host（域名参数部分），suffix（后缀部分），sections（分段数目部分）以及rule_path（重写规则部分）。

host部分对应重写后URL中的host；suffix部分对应重写后URL中path部分的后缀；sections部分对应重写后URL的path由“/”符号分割出来的分段的数目，分割出来的字符串称为分段参数；rule_path是重写后URL中path部分的重写规则，将重写的分段参数用重写标识替换（本发明实施例中用“*”表示重写标识），表示该段为重写过分段参数，没有重写的分段参数，在rule_path中保留不变。

以公式(2)的URL为例：http://www.qq.com/news/sports/20131120/1.html，该URL中，参数值“sports”、“20131120”和“1”字段都被重写到了动态CGI的参数中，因而用“*”替换它们，而参数“news”没有被重写，故而保留在去重规则中，因此该URL的去重规则可表示为：｛www.qq.com,html,4,news/*/*/*｝。

可见，去重规则对应于URL的结构，并且通过其中的重写标识可以表示出该URL是否被重写过。

步骤S302中，抓取网站服务器的URL数据主要可以采用两种方法：第一，通过网络爬虫获取所述要去重的统一资源定位符数据，第二，从网页访问的原始日志中过滤得到所述要去重的统一资源定位符数据。

步骤S303中，将要去重的URL与去重规则进行匹配时，可以逐一将要去重的URL与去重规则库中的去重规则进行匹配，如果一个URL匹配到对应的去重规则，则说明这个URL是被重写过的，可能需要去重过滤。而且，判断一条URL是否被重写过，还需要考虑其rule_path的分段参数是否有重写标识，如果有重写标识则确定这条URL被重写过。

进一步来说，在URL与去重规则匹配过程中，要将匹配不到去重规则的URL过滤掉，请参见图4，具体还可以包括以下步骤：

S3031，根据所述去重规则中的域名参数部分，过滤掉所述要去重的统一资源定位符中域名不对应的统一资源定位符。例如，如果一个URL的域名为“www.sina.com”，而在去重规则库中，没有一个去重规则的host部分为www.sina.com，那么将这个URL过滤掉。

S3032，根据所述去重规则中的后缀部分和分段数目部分，过滤掉所述要去重的统一资源定位符中，与所有去重规则结构都不对应的统一资源定位符中。即如果一个URL的的后缀部分和分段参数部分，与去重规则库中的任意一个去重规则的suffix部分和sections都不对应，那么将这个URL过滤掉。

S3033，根据所述去重规则中的重写规则部分，过滤掉所述要去重的统一资源定位符中没有重写过的统一资源定位符。

为进一步理解URL与去重规则的匹配过程，本实施例公开了一种匹配算法如表1所示：

表1

其中，如果匹配成功，返回匹配到的去重规则，代表该URL为重写的URL；否则，返回空字符串，代表该URL不是重写的URL。第1步和第2步为输入和输出说明；第3步表示算法开始；第4步判断是否存在与输入的URL域名参数相同的去重规则，如果没有，则过滤掉输入的URL；第5、6步判断是否存在与输入的URL的后缀部分和分段数目部分相同的去重规则，如果没有，则过滤掉输入的URL；第8、9、10步表示当找到存在至少一个去重规则，其域名参数部分、后缀部分和分段数目部分与输入的URL相同，那么依次判断输入的URL和找出的这些去重规则的重写规则部分是否一致。第11步依次判断找出的这些去重规则，其重写规则部分段的数量是否与分段数目部分的值相同；第13、14、15步表示如果找出与输入的URL对应的去重规则，那么输出该去重规则，如果找不到与输入的URL对应的去重规则，那么过滤掉该输入的URL。

步骤S304中，当所有要去重的URL都匹配完毕后，找出对匹配出的去重规则对应的统一资源定位符进行统计，由于相同去重规则对应的URL是由同一个CGI产生的中间URL重写而成的，所以对相同去重规则对应的URL进行过滤，并相对于每个去重规则仅保留一个URL，以供后续的漏洞检测或其它的数据分析。

例如，“http://www.qq.com/news/sports/20131120/1.html”和“http://www.qq.com/news/science/20131121/2.html”这两个URL，都能匹配出｛www.qq.com,html,4,news/*/*/*｝这个去重规则，那么，说明这两个URL都是被重写过的，即这两个URL没有重写之前的URL是通过同一个CGI生成的，所以可以从这两个URL中任意过滤掉一个。

通过本实施例的方法，可以通过去重规则对海量URL数据进行过滤去重，从大量的URL数据中还原出极少量它们重写后的动态CGI，避免在URL安全漏洞检测时，安全漏洞扫描器重复的扫描同一个CGI，从而提高安全漏洞的检测效率。

此外，在做网页访问请求流量分析时，统计到的页面访问请求流量是被重写后的URL流量，而不能统计到真正CGI的流量。而在网站CC攻击（Challenge Collapsar，是一种常见的网站攻击方法，攻击者控制某些主机不停地发大量数据包给对方服务器造成服务器资源耗尽，一直到宕机崩溃）防御***中，需要统计审计的是重写后的CGI的流量。通过本实施例的方法，也可以提高对CC攻击的数据分析效率。

本发明实施例还提出了实施例一种去重规则的生成方法，去重规则的生成和URL的去重可以反复循环进行，例如可以将URL去重匹配时，过滤出来的没有去重过的URL作为去重规则的生成基准，以完善去重规则库以及扩大URL去重范围。本发明实施例公开了两种方法生成该去重规则，一种是通过URL的数据结构生成去重规则，另一种是通过将已经存在的去重规则应用到新的域名下，并形成新的去重规则。以下作详细介绍：

实施例二

请参见图5，其为本发明实施例的第一种去重规则生成方法的流程图，其包括以下步骤：

S501，获取要生成去重规则的域名下的统一资源定位符数据。即从网站服务器的数据中心读取host部分相同的URL，读取的URL需要是没有重写过的。

S502，对所述获取的统一资源定位符进行聚类。具体来说，按照长度和字符字典序进行对步骤S501读取的URL进行聚类。经过聚类后的URL可以使***运算更快速，提高去重规则生成的效率。

所述长度是指URL的段的长度，或者说URL中由“/”符号分割出来的段的数目，例如，“http://www.qq.com/news/getNews?type=sports&date=20131120&id=1”和“http://www.qq.com/news/getNews?type=science&date=20131121&id=2”这两个URL中包括的“/”符号的数目均为两个，则认为这两个URL长度相同。

所述字符字典序是指URL中的字符在字典中的排序，例如“http://www.aa.com/news/getNews?type=sports&date=20131120&id=1”和“http://www.aa.com/news/getNews?type=science&date=20131121&id=2“这两个URL的域名部分都包括“aa”,可以将这两个URL归为同一类；“http://www.bb.com/news/getNews?type=sports&date=20131120&id=1”和“http://www.bb.com/news/getNews?type=science&date=20131121&id=2“这两个URL的域名部分都包括“bb”,可以将这两个URL归为同一类。

S503，将聚类后的统一资源定位符按照域名参数部分、后缀部分、分段数目部分以及分段参数部分进行分割，并形成多条统计信息。

具体来说，本步骤即是对聚类后的URL进行结构分析，并形成如{host,suffix,sections,index,path}这种形式的统计信息。统计信息可以存放到网站服务器的存储器中，也可以存放到***缓存中。其中，index是path部分的索引位置。

例如，“http://www.qq.com/news/sports/20131120/1.html”这个URL的统计信息是｛www.qq.com,html,4,0/1/2/3,news/sport/20131120/1｝，index表示path部分的存储位置，即“0/1/2/3”与“news/sport/20131120/1”一一对应。

S504，获取经过分割后相同结构的统计信息。

例如，“http://www.qq.com/news/sports/20131120/1.html”这个URL的统计信息是｛www.qq.com,html,4,0/1/2/3,news/sport/20131120/1｝;“http://www.qq.com/news/science/20131121/2.html”这个URL的统计信息是｛www.qq.com,html,4,0/1/2/3,news/science/20131121/2｝，则认为这两个URL的统计信息的结构相同。

S505，将相同结构的统计信息中值不同的对应分段参数值替换为重写标识，并通过替换过重写标识的统计信息生成新的去重规则。

例如，对于｛www.qq.com,html,4,0/1/2/3,news/sport/20131120/1｝和｛www.qq.com,html,4,0/1/2/3,news/science/20131121/2｝这两个统计信息，根据index的数值，分别对path部分的各个分段参数进行比对，如果对应分段参数的值不同，则将其替换成重写标识，这两个统计信息经过重写标识的替换后即生成｛www.qq.com,html,4,0/1/2/3,news/*/*/*｝，然后去掉统计信息中的index部分，便形成了新的去重规则：｛www.qq.com,html,4,news/*/*/*｝。至此，将新生成的去重规则存入去重规则库中，以供URL去重匹配时查询使用。

请参见图6，其为本发明实施例的第一种去重规则生成方法的另一种流程图，其包括以下步骤：

S601，获取要生成去重规则的域名下的统一资源定位符数据。

S602，过滤掉获取的所述统一资源定位符数据中重写过的统一资源定位符。由于生成统计信息时，要对URL的结构以及分段参数和参数值进行分析，而重写后的URL无法识别分段参数，为了确保运算不出错，因而本步骤进一步地对获取的URL进行过滤，去除重写过的URL。

具体来说，可以将步骤S601获取的URL按照实施例一中所述的匹配算法（即表1的去重匹配算法）与去重规则库中已有的去重规则进行匹配，如果一个URL可以匹配出对应的去重规则，那么说明这个URL是被重写过的，则将其过滤掉。

S603，对所述获取的统一资源定位符按照长度和字符字典序进行聚类。

S604，将聚类后的统一资源定位符按照域名参数部分、后缀部分、分段数目部分以及分段参数部分进行分割，并形成多条统计信息。

S605，获取经过分割后相同结构的统计信息。

S606，将相同结构的统计信息中值不同的对应分段参数值替换为重写标识，并通过替换过重写标识的统计信息生成新的去重规则。

S607，将新的去重规则与同一域名下所有相同结构的统一资源定位符进行匹配验证。本步骤的目的是对新生成的去重规则作的可用性作进一步的验证。

具体来说，验证的过程仍然可以采用实施例一中所述的匹配算法（即表1的去重匹配算法）。首先，获取与新的去重规则拥有相同域名参数、后缀、分段数目的URL；其次，将新的去重规则与所述获取的URL进行匹配；当匹配到对应的URL的数目超过设定阈值时，说明这个新生成的去重规则可以被用来识别URL是否被重写，则验证通过。

S608，对新的去重规则设置一个待审核标识。为了进一步防止***运算出错，影响后续去重规则的自动生成以及URL去重程序的自动运行，所以对于新生成的去重规则打上一个待审核标识，以供人工对该新的去重规则进行核实检查，当核实通过后便去除该待审核标识使该去重规则被正式投入使用。

本实施例的方法可以自动生成去重规则，对去重规则库进一步地完善，从而使实施例一的去重方法在对URL去重时更加高效与准确，进而可以进一步地提高对URL安全漏洞的检测效率以及在统计CGI的流量时提高数据分析效率。

实施例三

请参见图7，其为本发明实施例的第二种去重规则生成方法的流程图，其包括以下步骤：

S701，获取预设的去重规则库中已有的去重规则，所述去重规则的结构包括域名参数部分、后缀部分、分段数目部分以及重写规则部分。

S702，获取要生成去重规则的域名下的多个统一资源定位符数据。获取的URL数量不能太少，一般来说不能少于5000个。

S703，通过已有的去重规则的后缀部分和重写规则部分，对要生成去重规则的域名下的多个统一资源定位符进行匹配。

S704，当匹配到的统一资源定位符的数目大于设定的阈值，则将要生成去重规则的域名替换对应的去重规则中的域名参数部分，并生成新的去重规则。

举例来说，假设｛www.qq.com,html,4,news/*/*/*｝是去重规则库中一个已有的去重规则，其后缀部分和重写规则部分分别是“html”和“news/*/*/*”，用这两部分对要生成去重规则的URL进行匹配，匹配可以采用实施例一中所述的匹配算法（即表1的去重匹配算法），如果匹配出的URL超过设定的阈值（如100个），那么说明这匹配出的100个URL是被重写过的，也可以说明这些要去重的URL适用“html”和“news/*/*/*”这两部分来去重，那么直接要去重的URL的域名替换到对应的去重规则中的域名参数部分，假如要去重的URL的域名是“www.sina.com”，那么替换后生成的新的去重规则就是：｛www.qq.com,html,4,news/*/*/*｝。

请参见图8，其为本发明实施例的第二种去重规则生成方法的另一种流程图，其包括以下步骤：

S801，获取预设的去重规则库中已有的去重规则，所述去重规则的结构包括域名参数部分、后缀部分、分段数目部分以及重写规则部分。

S802，对已有的去重规则中后缀部分和重写规则部分相同的去重规则，按照不同域名的数目进行排序。

S803，根据排序结果，获取不同域名的数目最多的设定数量个去重规则的后缀部分和重写规则部分。

去重规则库中的去重规则的数量通常是很多的，如果将已有的所有去重规则都作一次匹配，那么势必生成去重规则的效率会很低。因而为了提高运算效率，步骤S802中先对相同suffix部分和rule_pathe部分的已有去重规则进行排序，然后在步骤S803中找出排序结果中，不同域名的数目最多的设定数量个去重规则。

例如，假设去重规则库中包括，6个去重规则：

｛www.aa.com,html,4,news/*/*/*｝

｛www.bb.com,html,4,news/*/*/*｝

｛www.cc.com,html,4,news/*/*/*｝

｛www.aa.com,html,3,news/*/*｝

｛www.bb.com,html,3,news/*/*｝

｛www.aa.com,html,3,news/*｝

经过排序后，包含“html”和“news/*/*/*”的不同域名有3个，即“www.aa.com”、“www.bb.com”、“www.cc.com”；包含“html”和“news/*/*”的不同域名有2个，即“www.aa.com”、“www.bb.com”；包含“html”和“news/*”的不同域名有1个，即“www.aa.com”。现在假设要选取两组后缀部分和重写规则部分，根据排序结果，“html”和“news/*/*/*”、“html”和“news/*/*”对应的不同域名的数量最多，将这两组后缀部分和重写规则部分提取出来。而“html”和“news/*”对应的域名只有一组，说明其适用的域名较少，即通用性低，将其过滤掉。

S804，获取要生成去重规则的域名下的多个统一资源定位符数据。

S805，通过获取的不同域名的数目最多的设定数量个去重规则的后缀部分和重写规则部分，对要生成去重规则的域名下的多个统一资源定位符进行匹配。匹配时，同样可以采用实施例一中所述的匹配算法（即表1的去重匹配算法）。

S806，当匹配到的统一资源定位符的数目大于设定的阈值，则将要生成去重规则的域名替换对应的去重规则中的域名参数部分，并生成新的去重规则。

实施例四

相应于前述实施例一的方法，本发明实施例还提出一种统一资源定位符去重装置，请参见图9，该装置包括：去重规则库设置模块901、统一资源定位符抓取模块902、匹配模块903以及去重模块904。

去重规则库设置模块901用于根据统一资源定位符的结构预设去重规则库，所述去重规则库中存放多个去重规则，每个去重规则对应统一资源定位符的不同结构，且所述去重规则中设置有表示对应统一资源定位符中重写过的分段参数的重写标识。所述去重规则的结构可以包括域名参数部分、后缀部分、分段数目部分以及重写规则部分。所述重写标识可以设置在所述重写规则部分。

统一资源定位符抓取模块902用于从网站访问数据中获取要去重的统一资源定位符数据。所述统一资源定位符抓取模块902通过网络爬虫获取所述要去重的统一资源定位符数据，或者从网页访问的原始日志中获取所述要去重的统一资源定位符数据。

匹配模块903用于根据统一资源定位符的结构和分段参数，将所述要去重的统一资源定位符与所述去重规则库中的去重规则进行匹配。

去重模块904用于将匹配模块903匹配出的与相同去重规则对应的统一资源定位符进行过滤，并对应每个去重规则保留一个统一资源定位符。

进一步来说，在URL与去重规则匹配过程中，匹配模块903要将匹配不到去重规则的URL过滤掉，请参见图10，匹配模块903进一步还可以包括：第一过滤单元9031、第二过滤单元9032以及第三过滤单元9033。

第一过滤单元9031用于根据所述去重规则中的域名参数部分，过滤掉所述要去重的统一资源定位符中域名不对应的统一资源定位符。

第二过滤单元9032用于根据所述去重规则中的后缀部分和分段数目部分，过滤掉所述要去重的统一资源定位符中，与所有去重规则结构都不对应的统一资源定位符中。

第三过滤单元9033用于根据所述去重规则中的重写规则部分，过滤掉所述要去重的统一资源定位符中没有重写过的统一资源定位符。

通过本实施例的装置，可以通过去重规则对海量URL数据进行过滤去重，从大量的URL数据中还原出极少量它们重写后的动态CGI，避免在URL安全漏洞检测时，安全漏洞扫描器重复的扫描同一个CGI，从而提高安全漏洞的检测效率。

实施例五

相应于前述实施例二，本发明实施例还提出第一种去重规则生成装置，请参见图11，该装置包括：统一资源定位符获取模块1101、聚类模块1102、分割模块1103、统计信息获取模块1104以及分段参数替换模块1105。

统一资源定位符获取模块1101用于获取要生成去重规则的域名下的统一资源定位符数据。

聚类模块1102用于对所述获取的统一资源定位符进行聚类。聚类模块1102可以对所述获取的统一资源定位符按照长度和字符字典序进行聚类。

分割模块1103用于将聚类后的统一资源定位符按照域名参数部分、后缀部分、分段数目部分以及分段参数部分进行分割，并形成多条统计信息。

统计信息获取模块1104用于获取经过分割后相同结构的统计信息。

分段参数替换模块1105用于将相同结构的统计信息中值不同的对应分段参数值替换为重写标识，并通过替换过重写标识的统计信息生成新的去重规则。

请参见图12，其为本发明实施例的第一种去重规则生成装置的另一种结构图，其包括除了包括：统一资源定位符获取模块1101、聚类模块1102、分割模块1103、统计信息获取模块1104以及分段参数替换模块1105，还包括：重写过滤模块1106、验证模块1107以及审核标识设置模块1108。

重写过滤模块1106用于在所述统一资源定位符获取模块1101获取了要生成去重规则的域名下的统一资源定位符数据后，过滤掉所述统一资源定位符获取模块获取的所述统一资源定位符数据中重写过的统一资源定位符。

验证模块1107用于在所述分段参数替换模块1105生成新的去重规则后，将新的去重规则与同一域名下所有相同结构的统一资源定位符进行匹配验证。

审核标识设置模块1108用于在所述分段参数替换模块1105生成新的去重规则后，对新的去重规则设置一个待审核标识。

请参见图13，其为本发明实施例重写过滤模块的一种的结构图，该重写过滤模块1106包括：去重规则匹配单元11061和统一资源定位符数据过滤单元11062。

去重规则匹配单元11061用于将所述统一资源定位符获取模块1101获取的所述统一资源定位符数据与已有的去重规则进行匹配。

过滤单元11062用于过滤掉所述去重规则匹配单元11061匹配出对应的去重规则的统一资源定位符。

请参见图14，其为本发明实施例验证模块的一种的结构图，该验证模块1107包括：选取单元11071和匹配判别单元11072。

选取单元11071用于获取与新的去重规则拥有相同域名参数、后缀、分段数目的所有统一资源定位符。

匹配判别单元11072用于将新的去重规则与所述选取单元11071获取的统一资源定位符进行匹配，当匹配到对应的统一资源定位符的数目超过设定阈值时，验证通过。

本实施例的装置可以自动生成去重规则，对去重规则库进一步地完善，从而使实施例一的去重方法和实施例四的去重装置在对URL去重时更加高效与准确，进而可以进一步地提高对URL安全漏洞的检测效率以及在统计CGI的流量时提高数据分析效率。

实施例六

相应于前述实施例三，本发明实施例还提出第二种去重规则生成装置，请参见图15，该装置包括：去重规则获取模块1501、统一资源定位符获取模块1502、后缀和重写规则匹配模块1503以及域名参数替换模块1504。

去重规则获取模块1501用于获取预设的去重规则库中已有的去重规则，所述去重规则的结构包括域名参数部分、后缀部分、分段数目部分以及重写规则部分。

统一资源定位符获取模块1502用于获取要生成去重规则的域名下的多个统一资源定位符数据。

后缀和重写规则匹配模块1503用于通过已有的去重规则的后缀部分和重写规则部分，对要生成去重规则的域名下的多个统一资源定位符进行匹配。

域名参数替换模块1504用于当匹配到的统一资源定位符的数目大于设定的阈值，则将要生成去重规则的域名替换对应的去重规则中的域名参数部分，并生成新的去重规则。

请参见图16，其为本发明实施例的第二种去重规则生成装置的另一种结构图，该装置除了包括：去重规则获取模块1501、统一资源定位符获取模块1502、后缀和重写规则匹配模块1503以及域名参数替换模块1504，还包括：排序模块1505以及去重规则筛选模块1506。

排序模块1505用于对所述去重规则获取模块1501获取的已有的去重规则中后缀部分和重写规则部分相同的去重规则，按照不同域名的数目进行排序。

去重规则筛选模块1506用于根据所述排序模块1502的排序结果，获取不同域名的数目最多的设定数量个去重规则的后缀部分和重写规则部分。

所述后缀和重写规则匹配模块1503通过获取的不同域名的数目最多的设定数量个去重规则的后缀部分和重写规则部分，对要生成去重规则的域名下的多个统一资源定位符进行匹配。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或网络设备等）执行本发明实施例各个实施场景所述的方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种统一资源定位符去重方法，其特征在于，包括：

从网站访问数据中获取要去重的统一资源定位符数据；

2.如权利要求1所述的统一资源定位符去重方法，其特征在于，所述去重规则的结构包括域名参数部分、后缀部分、分段数目部分以及重写规则部分。

3.如权利要求2所述的统一资源定位符去重方法，其特征在于，所述去重规则的所述重写规则部分设置有对应统一资源定位符中重写过的分段参数的重写标识。

4.如权利要求3所述的统一资源定位符去重方法，其特征在于，所述将所述要去重的统一资源定位符与所述去重规则库中的去重规则进行匹配的步骤包括：

根据所述去重规则中的域名参数部分，过滤掉所述要去重的统一资源定位符中域名不对应的统一资源定位符；

根据所述去重规则中的后缀部分和分段数目部分，过滤掉所述要去重的统一资源定位符中，与所有去重规则结构都不对应的统一资源定位符中；以及

根据所述去重规则中的重写规则部分，过滤掉所述要去重的统一资源定位符中没有重写过的统一资源定位符。

5.如权利要求1所述的统一资源定位符去重方法，其特征在于，所述从网站访问数据中获取要去重的统一资源定位符数据的步骤包括：通过网络爬虫获取所述要去重的统一资源定位符数据，或者从网页访问的原始日志中获取所述要去重的统一资源定位符数据。

6.一种如权利要求1～5任一项所述的统一资源定位符去重方法，其特征在于，所述去重规则的生成方法包括：

获取要生成去重规则的域名下的统一资源定位符数据；

对所述获取的统一资源定位符进行聚类；

获取经过分割后相同结构的统计信息；以及

7.如权利要求6所述的统一资源定位符去重方法，其特征在于，所述对所述获取的统一资源定位符进行聚类的步骤包括：对所述获取的统一资源定位符按照长度和字符字典序进行聚类。

8.如权利要求6所述的统一资源定位符去重方法，其特征在于，所述获取要生成去重规则的域名下的统一资源定位符数据的步骤之后包括：过滤掉获取的所述统一资源定位符数据中重写过的统一资源定位符。

9.如权利要求8所述的统一资源定位符去重方法，其特征在于，所述过滤掉获取的所述统一资源定位符数据中重写过的统一资源定位符的步骤包括：

将获取的所述统一资源定位符数据与已有的去重规则进行匹配；以及

过滤掉匹配出对应的去重规则的统一资源定位符。

10.如权利要求6所述的统一资源定位符去重方法，其特征在于，所述生成新的去重规则的步骤之后包括：将新的去重规则与同一域名下所有相同结构的统一资源定位符进行匹配验证。

11.如权利要求10所述的统一资源定位符去重方法，其特征在于，所述将新的去重规则与同一域名下所有相同结构的统一资源定位符进行匹配验证的步骤包括：

获取与新的去重规则拥有相同域名参数、后缀、分段数目的所有统一资源定位符；

将新的去重规则与所述获取的统一资源定位符进行匹配；以及

当匹配到对应的统一资源定位符的数目超过设定阈值时，验证通过。

12.如权利要求6所述的统一资源定位符去重方法，其特征在于，所述生成新的去重规则的步骤之后包括：对新的去重规则设置一个待审核标识。

13.一种如权利要求1～5任一项所述的统一资源定位符去重方法，其特征在于，所述去重规则的生成方法包括：

获取要生成去重规则的域名下的多个统一资源定位符数据；

14.如权利要求13所述的统一资源定位符去重方法，其特征在于，所述获取预设的去重规则库中已有的去重规则的步骤之后还包括：

对已有的去重规则中后缀部分和重写规则部分相同的去重规则，按照不同域名的数目进行排序；

根据排序结果，获取不同域名的数目最多的设定数量个去重规则的后缀部分和重写规则部分；

所述通过已有的去重规则的后缀部分和重写规则部分，对要生成去重规则的域名下的多个统一资源定位符进行匹配的步骤包括：通过获取的不同域名的数目最多的设定数量个去重规则的后缀部分和重写规则部分，对要生成去重规则的域名下的多个统一资源定位符

进行匹配。

15.一种统一资源定位符去重装置，其特征在于，包括：

16.如权利要求15所述的统一资源定位符去重装置，其特征在于，所述去重规则的结构包括域名参数部分、后缀部分、分段数目部分以及重写规则部分。

17.如权利要求16所述的统一资源定位符去重装置，其特征在于，所述去重规则的所述重写规则部分设置有对应统一资源定位符中重写过的分段参数的重写标识。

18.如权利要求17所述的统一资源定位符去重装置，其特征在于，所述匹配模块进一步包括：

第一过滤单元，用于根据所述去重规则中的域名参数部分，过滤掉所述要去重的统一资源定位符中域名不对应的统一资源定位符；

第二过滤单元，用于根据所述去重规则中的后缀部分和分段数目部分，过滤掉所述要去重的统一资源定位符中，与所有去重规则结构都不对应的统一资源定位符中；以及

第三过滤单元，用于根据所述去重规则中的重写规则部分，过滤掉所述要去重的统一资源定位符中没有重写过的统一资源定位符。

19.如权利要求15所述的统一资源定位符去重装置，其特征在于，所述统一资源定位符抓取模块通过网络爬虫获取所述要去重的统一资源定位符数据，或者从网页访问的原始日志中获取所述要去重的统一资源定位符数据。

20.一种如权利要求15～19任一项所述的统一资源定位符去重装置，其特征在于，所述统一资源定位符去重装置包括去重规则生成装置，所述去重规则生成装置包括：

聚类模块，用于对所述获取的统一资源定位符进行聚类；

21.如权利要求20所述的统一资源定位符去重装置，其特征在于，所述聚类模块对所述获取的统一资源定位符按照长度和字符字典序进行聚类。

22.如权利要求20所述的统一资源定位符去重装置，其特征在于，所述去重规则生成装置还包括：

重写过滤模块，用于在所述统一资源定位符获取模块获取了要生成去重规则的域名下的统一资源定位符数据后，过滤掉所述统一资源定位符获取模块获取的所述统一资源定位符数据中重写过的统一资源定位符。

23.如权利要求22所述的统一资源定位符去重装置，其特征在于，所述重写过滤模块进一步包括：

去重规则匹配单元，用于将所述统一资源定位符获取模块获取的所述统一资源定位符数据与已有的去重规则进行匹配；以及

统一资源定位符数据过滤单元，用于过滤掉所述去重规则匹配单元匹配出对应的去重规则的统一资源定位符。

24.如权利要求20所述的统一资源定位符去重装置，其特征在于，所述去重规则生成装置还包括：

验证模块，用于在所述分段参数替换模块生成新的去重规则后，将新的去重规则与同一域名下所有相同结构的统一资源定位符进行匹配验证。

25.如权利要求24所述的统一资源定位符去重装置，其特征在于，所述验证模块进一步包括：

选取单元，用于获取与新的去重规则拥有相同域名参数、后缀、分段数目的所有统一资源定位符；以及

匹配判别单元，用于将新的去重规则与所述获取的统一资源定位符进行匹配，当匹配到对应的统一资源定位符的数目超过设定阈值时，验证通过。

26.如权利要求20所述的统一资源定位符去重装置，其特征在于，所述去重规则生成装置还包括：

审核标识设置模块，用于在所述分段参数替换模块生成新的去重规则后，对新的去重规则设置一个待审核标识。

27.一种如权利要求15～19任一项所述的统一资源定位符去重装置，其特征在于，所述统一资源定位符去重装置包括去重规则生成装置，所述去重规则生成装置包括：

28.如权利要求27所述的统一资源定位符去重装置，其特征在于，所述去重规则生成装置还包括：

排序模块，用于对所述去重规则获取模块获取的已有的去重规则中后缀部分和重写规则部分相同的去重规则，按照不同域名的数目进行排序；

去重规则筛选模块，用于根据所述排序模块的排序结果，获取不同域名的数目最多的设定数量个去重规则的后缀部分和重写规则部分；

所述后缀和重写规则匹配模块通过获取的不同域名的数目最多的设定数量个去重规则的后缀部分和重写规则部分，对要生成去重规则的域名下的多个统一资源定位符进行匹配。