CN111935133A

CN111935133A - 白名单生成方法及装置

Info

Publication number: CN111935133A
Application number: CN202010786161.3A
Authority: CN
Inventors: 蔡鹏�; 史博
Original assignee: Beijing Dingxiang Technology Co ltd
Current assignee: Beijing Dingxiang Technology Co ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-13

Abstract

本发明提供了一种白名单生成方法及装置，涉及通信的技术领域，包括：先获取目标网站的流量数据；其中，流量数据包含目标网站下多个网页的统一资源定位符URL；然后针对每一个URL，提取URL的路径部分，并对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息；其中，URL的第一泛化路径信息用于表征URL的初始模式；再将初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息；其中，URL的第二泛化路径信息用于表征URL的最终模式；最后基于URL的第二泛化路径信息生成与目标网站对应的白名单，能够自动生成白名单，及时应用于Web应用防火墙，具有成本低，时效性强的有益效果。

Description

白名单生成方法及装置

技术领域

本发明涉及通信技术领域，尤其是涉及一种白名单生成方法及装置。

背景技术

为了防止Web应用程序受到漏洞攻击，目前的Web应用防火墙(Web ApplicationFirewall，简称WAF)产品中都配置有黑白名单。现在的白名单由安全运维手工维护，成本高且时效性差。成本高的原因在于：手工维护，白名单的长度和精细度都受到显著限制，无法将全部的正常业务纳入到白名单，从而保护正常业务不被WAF所中断。而时效性差的原因是：当业务变化非常迅速时，白名单往往事后添加到Web应用防火墙，即发生了Web应用防火墙影响正常业务后才手工添加白名单来进行故障恢复。

综上所述，现有技术中的白名单生成方法具有成本高和时效性差的技术问题。

发明内容

本发明的目的在于提供一种白名单生成方法及装置，以缓解现有技术中存在的白名单生成方法具有成本高和时效性差的技术问题。

第一方面，本发明提供的一种白名单生成方法，其中，包括：获取目标网站的流量数据；其中，所述流量数据包含所述目标网站下多个网页的统一资源定位符URL；针对每一个所述URL，提取URL的路径部分，并对所述URL的路径部分进行泛化替换，得到URL的第一泛化路径信息；其中，所述URL的第一泛化路径信息用于表征URL的初始模式；将所述初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息；其中，所述URL的第二泛化路径信息用于表征URL的最终模式；基于所述URL的第二泛化路径信息生成与目标网站对应的白名单。

进一步的，所述对所述URL的路径部分进行泛化替换，得到URL的第一泛化路径信息，包括：计算所述URL的路径部分的相似度；若所述相似度大于或等于预设阈值，则基于预设泛化规则对所述URL的路径部分进行泛化替换，得到所述URL的第一泛化路径信息。

进一步的，所述计算所述URL的路径部分的相似度，包括：将所述URL的路径部分解析为多层级的目录；记录所述目录的总层数和最长公共层数；基于所述目录的总层数和所述最长公共层数，计算所述URL的路径部分的相似度。

进一步的，所述基于预设泛化规则对所述URL的路径部分进行泛化替换，得到所述URL的第一泛化路径信息，包括：确定所述URL的路径部分中的待泛化目录；其中，所述待泛化目录为所述URL的路径部分中的任一层级的目录；基于预设泛化规则对所述URL的路径部分中的待泛化目录进行泛化处理，得到所述URL的第一泛化路径信息。

进一步的，所述将所述初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息，包括：基于所述相似度，判断多个URL的初始模式是否相似；若相似，则将所述初始模式相似的所述多个URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息。

进一步的，在提取URL的路径部分之前，所述方法还包括：对所述URL进行预处理；所述预处理包括以下一种或几种：解码处理，过滤处理和标准化处理。

进一步的，所述基于所述URL的第二泛化路径信息生成与目标网站对应的白名单，包括：统计每个所述URL的第二泛化路径信息的出现次数；将出现次数达到预设条件的第二泛化路径信息转化为正则表达式作为与目标网站对应的白名单输出。

第二方面，本发明提供的一种白名单生成装置，其中，包括：获取单元，用于获取目标网站的流量数据；其中，所述流量数据包含所述目标网站下多个网页的统一资源定位符URL；泛化替换单元，用于针对每一个所述URL，提取URL的路径部分，并对所述URL的路径部分进行泛化替换，得到URL的第一泛化路径信息；其中，所述URL的第一泛化路径信息用于表征URL的初始模式；合并处理单元，用于将所述初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息；其中，所述URL的第二泛化路径信息用于表征URL的最终模式；生成单元，用于基于所述URL的第二泛化路径信息生成与目标网站对应的白名单。

第三方面，本发明还提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现的所述的白名单生成方法的步骤。

第四方面，本发明还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，其中，所述程序代码使所述处理器执行所述的白名单生成方法。

本发明提供的一种白名单生成方法及装置，先获取目标网站的流量数据；其中，流量数据包含目标网站下多个网页的统一资源定位符URL；然后针对每一个URL，提取URL的路径部分，并对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息；其中，URL的第一泛化路径信息用于表征URL的初始模式；再将初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息；其中，URL的第二泛化路径信息用于表征URL的最终模式；最后基于URL的第二泛化路径信息生成与目标网站对应的白名单。本发明通过对获取的目标网站的流量数据进行泛化替换和合并处理的方式，能够自动生成白名单，及时应用于Web应用防火墙，因此本发明具有成本低，时效性强的有益效果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有的防火墙产品网络拓扑结构部署的结构示意图；

图2为本发明实施例提供的一种白名单生成方法的流程图；

图3为URL的组成部分的示意图；

图4为图2中步骤S103的流程图；

图5为图4中步骤S201的流程图；

图6为图4中步骤S202的流程图；

图7为本发明实施例提供的另一种白名单生成方法的流程图；

图8为本发明实施例提供的一种白名单生成装置的结构示意图。

图标：

11-获取单元；12-泛化替换单元；13-合并处理单元；14-生成单元。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在Web应用越来越丰富的同时，Web服务器以其强大的计算能力、处理性能及蕴含的较高价值逐渐成为主要攻击目标。Web应用防护墙(WebApplication Firewall，简称WAF)是通过执行一系列针对HTTP/HTTPS的安全策略专门为Web应用提供保护的一款产品(如图1所示)，主要用于防御针对网络应用层的攻击，像结构化查询语言(Structured QueryLanguage，SQL)注入、跨站脚本攻击、参数篡改、应用平台漏洞攻击、拒绝服务攻击等。WAF部署在web应用程序的前面，在用户请求到达Web服务器前对用户请求进行扫描和过滤，分析并校验每个用户请求的网络包，确保每个用户请求有效且安全，对无效或有攻击行为的用户请求进行阻断或隔离。通过检查HTTP流量，可以防止源自Web应用程序的安全漏洞(如SQL注入，跨站脚本攻击，文件包含和安全配置错误)的攻击。

但是WAF的检测引擎无法实现100％准确地区分攻击行为，因此在现有的WAF产品中都有黑白名单的配置项，并由安全运维手工维护。常规的白名单由安全运维手工维护，因此成本高且时效性差。

基于此，本发明提供一种白名单生成方法及装置，用于自动生成白名单，及时应用于Web应用防火墙，降低成本低，提高时效性。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种白名单生成方法进行详细描述。

实施例1：

根据本发明实施例，提供了一种白名单生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2为本发明实施例提供的一种白名单生成方法的流程图，如图2所示，该方法包括如下步骤：

步骤S101，获取目标网站的流量数据；其中，流量数据包含目标网站下多个网页的统一资源定位符URL。

在本发明实施例中，目标网站可以称为Web站点，包含主网站和子网站；其中，主网站可以指网站的首页，子网站可以指该网站下的其他子页面。因此目标网站的多个网站之间存在级联关系，作为首页的主网站其级别最高，可以指一级网站，而子网站又可以包含二级网站、三级网站等不同级别的多个网站。上述流量数据可以指多个客户端向该目标网站发送的用户请求，也可以指其他信息，本发明实施例对此不做具体限定。另外，本实施例获取目标网站的流量数据的方式可以是实时导入，还可以是从历史访问日志导入，本发明实施例对获取目标网站的流量数据的方式也不做具体限定。

步骤S103，针对每一个URL，提取URL的路径部分，并对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息。

在本发明实施例中，URL的组成部分如图3所示，URL包括：Host，Path和Query。其中，上述Path表示本实施例中的路径部分。URL的第一泛化路径信息用于表征URL的初始模式。该初始模式是指初次进行泛化替换得到的模式，初始模式可以用pattern表示。初始模式的数量小于该目标网站下多个页面的URL的数量。需要注意的是，泛化替换的目的是利用少量的第一泛化路径信息即可表示该目标网站下多个页面的URL的路径部分。步骤S103中URL的泛化替换方法简单高效，非常适合URL对应的白名单生成。

步骤S104，将初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息。

在本发明实施例中，URL的第二泛化路径信息用于表征URL的最终模式。该最终模式是指进行了多次泛化替换之后得到的模式，最终模式可以用Top pattern表示。最终模式的数量小于初始模式的数量。需要注意的是，合并处理的目的是利用少于第一泛化路径信息的第二泛化路径信息来表示该目标网站下多个页面的URL的路径部分。上述步骤S104是对相似pattern的合并，该合并机制通过对pattern的反复泛化替换，使格式类似的URL不断的被合并到相同的pattern上，得到Top pattern。

步骤S105，基于URL的第二泛化路径信息生成与目标网站对应的白名单。

在本发明实施例中，本实施例可以通过统计URL的第二泛化路径信息的方式来确定最终模式的访问量大小，进而可以确定该目标网站的主要业务，以此来保证生成的白名单覆盖面大、精度高。

本发明实施例提供的一种白名单生成方法，先获取目标网站的流量数据；其中，流量数据包含目标网站下多个网页的统一资源定位符URL；然后针对每一个URL，提取URL的路径部分，并对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息；其中，URL的第一泛化路径信息用于表征URL的初始模式；再将初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息；其中，URL的第二泛化路径信息用于表征URL的最终模式；最后基于URL的第二泛化路径信息生成与目标网站对应的白名单。本发明实施例通过对获取的目标网站的流量数据进行泛化替换和合并处理的方式，能够自动生成白名单，及时应用于Web应用防火墙，因此本发明实施例具有成本低，时效性强的有益效果。

在一个可选的实施例中，如图4所示，步骤S103中的对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息，包括以下步骤：

步骤S201，计算URL的路径部分的相似度；

步骤S202，若相似度大于或等于预设阈值，则基于预设泛化规则对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息。

在本发明实施例中，通过计算URL的路径部分的相似度的方式可以快速确定需要泛化替换的URL，通过预设阈值的设置可以适配不同架构、不同活跃度的网站。示例性的，当目标网站为淘宝网站或京东网站时，该预设阈值可以设为0.8，当目标网站为某国企网站时，该预设阈值可以设为0.5。本发明实施例还可以使用其他方式计算pattern，例如生成语法树方法，但是生成语法树方法的计算量显著大于本发明中的泛化替换，且生成语法树方法比较适合使用kv格式来区分不同业务的网站结构。

在一个可选的实施例中，如图5所示，步骤S201，计算URL的路径部分的相似度，包括以下步骤：

步骤S301，将URL的路径部分解析为多层级的目录；

步骤S302，记录目录的总层数和最长公共层数；

步骤S303，基于目录的总层数和最长公共层数，计算URL的路径部分的相似度。

在本实施例中，URL可以分割为Host，Path和Query三个部分(通常对不同Host设定不同的白名单列表，因此Host部分可剔除)，Path部分(即上述URL的路径部分)需要将每一级目录都切分开来。然后计算Path部分的相似度：S＝common_n/lens，其中lens为当前URL所对应的Path的层数(即上述目录的总层数)；common_n为当前URL所对应的最长公共层数。

在一个可选的实施例中，如图6所示，步骤S202中的基于预设泛化规则对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息，包括以下步骤：

步骤S401，确定URL的路径部分中的待泛化目录；其中，待泛化目录为URL的路径部分中的任一层级的目录；

步骤S402，基于预设泛化规则对URL的路径部分中的待泛化目录进行泛化处理，得到URL的第一泛化路径信息。

若上述相似度S大于预设阈值V，则基于预设泛化规则进行泛化替换。预设泛化规则可以为：数字(包括小数和负数)替换为D；字母串替换为S，数字和字母混合串替换为DS。需要注意的是，本发明实施例中的预设泛化规则可以自动以设置，对此含义不作具体限定。另外，在泛化替换后得到的结果(即pattern)可以进行保存。

例如，下述表1给出了9个URL的Path，其中，第1～6个Path可以泛化替换为：/dataset/bricklink/set/D-D/inventory/DS-D.xml-，第7～9个Path可以泛化替换为：/drugbank/S/targets/D-。

表1URL的Path和lens

序号	Path	lens
			1	/dataset/bricklink/set/6609-1/inventory/122c01-11.xml-	6
2	/dataset/bricklink/set/8646-1/inventory/44352pb03-7.xml-	6
			3	/dataset/bricklink/set/180-1/inventory/x487c01-11.xml-	6
4	/dataset/bricklink/set/353-1/inventory/3068a-5.xml-	6
			5	/dataset/bricklink/data/6609-1/inventory/fabac3-5.xml-	6
6	/dataset/bricklink/depot/6609-1/inventory/mcjens3-9.xml-	6
			7	/drugbank/data/targets/4620-	4
8	/drugbank/resource/targets/3863-	4
			9	/drugbank/resource/targets/5483-	4

在一个可选的实施例中，步骤S104，将初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息，包括以下步骤：

步骤1，基于相似度，判断多个URL的初始模式是否相似；

步骤2，若相似，则将初始模式相似的多个URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息。

在本发明实施例中，对pattern重复上述步骤S103中的相似度计算和泛化替换的操作，直到无法替换。示例性的，例如有3个Path，若Path1与Path2相似，Path3与Path1、Path2均不相似，但是在Path1和Path2结合之后可以与Path13相似。

在一个可选的实施例中，如图7所示，在步骤S103提取URL的路径部分之前，方法还包括：

步骤S102，对URL进行预处理。

在本发明实施例中，预处理包括以下一种或几种：解码处理，过滤处理和标准化处理。

在本发明实施例中，可以对导入的URL进行预处理，上述的过滤处理包括但不限于：特殊字符过滤，敏感路径过滤和敏感文件过滤。标准化处理可以指小写化等处理逻辑。本发明实施例预处理的实现可以是同步实现，也可以分步骤实现，因此最终实现方式可以存在非常多的排列组合。

在一个可选的实施例中，步骤S105，基于URL的第二泛化路径信息生成与目标网站对应的白名单，包括以下步骤：

步骤11，统计每个URL的第二泛化路径信息的出现次数；

步骤12，将出现次数达到预设条件的第二泛化路径信息转化为正则表达式作为与目标网站对应的白名单输出。

在本发明实施例中，可以统计所有Top pattern的出现次数，将出现频率高的Toppattern生成正则表达式作为白名单输出。

在本发明实施例具有以下优势：(1)对pattern进行多轮泛化替换后的白名单输出量大。通过对多个不同目标网站的测试发现，出现次数排名靠前的前20-100个Top pattern即可覆盖超过90％的网站流量，可以保护网站的主要业务不被WAF打扰。这是因为Web网站的业务相对比较固定，大多数流量集中访问少量的Web应用，而且这些访问对应的URL往往具有相似的格式，也就是相同的pattern。访问量较大的一个或多个pattern可以代表网站的主要业务；而攻击流量往往***，并没有固定的格式，会生成大量低频的pattern，因此大量低频的这些pattern不添加到白名单列表中，因此本实施例提供的方法生成的白名单列表覆盖面大、且精度高。(2)由于获取目标网站的流量数据之后的泛化替换、合并处理以及生成白名单等步骤均可以离线化处理，实现用户无感升级，而生成的正则表达式可以供在线检测，执行效率高。(3)本实施例可以自动化输出白名单，而且还可以自动化的迭代来自适应网站业务的变化。(4)通过对预设阈值V的设定，可以更好的适配不同结构的网站使用。

实施例2：

本发明实施例提供了一种白名单生成装置，该白名单生成装置主要用于执行实施例1上述内容所提供的白名单生成方法，以下对本发明实施例提供的白名单生成装置做具体介绍。

图8为本发明实施例提供的一种白名单生成装置的结构示意图。如图8所示，该白名单生成装置，主要包括：获取单元11，泛化替换单元12，合并处理单元13和生成单元14，其中：

获取单元11，用于获取目标网站的流量数据；其中，流量数据包含目标网站下多个网页的统一资源定位符URL；

泛化替换单元12，用于针对每一个URL，提取URL的路径部分，并对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息；其中，URL的第一泛化路径信息用于表征URL的初始模式；

合并处理单元13，用于将初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息；其中，URL的第二泛化路径信息用于表征URL的最终模式；

生成单元14，用于基于URL的第二泛化路径信息生成与目标网站对应的白名单。

本发明实施例提供的一种白名单生成装置，先利用获取单元11获取目标网站的流量数据；其中，流量数据包含目标网站下多个网页的统一资源定位符URL；然后利用泛化替换单元12针对每一个URL，提取URL的路径部分，并对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息；其中，URL的第一泛化路径信息用于表征URL的初始模式；再利用合并处理单元13将初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息；其中，URL的第二泛化路径信息用于表征URL的最终模式；最后利用生成单元14基于URL的第二泛化路径信息生成与目标网站对应的白名单。本发明实施例通过各个单元可以实现对获取的目标网站的流量数据进行泛化替换和合并处理，该方式能够自动生成白名单，及时应用于Web应用防火墙，因此本发明实施例具有成本低，时效性强的有益效果。

可选地，泛化替换单元12包括计算模块和泛化替换模块，其中：

计算模块，用于计算URL的路径部分的相似度；

泛化替换模块，用于若相似度大于或等于预设阈值，则基于预设泛化规则对URL的路径部分进行泛化替换，得到URL的第一泛化路径信息。

可选地，计算模块包括解析子模块，记录子模块和计算子模块，其中：

解析子模块，用于将URL的路径部分解析为多层级的目录；

记录子模块，用于记录目录的总层数和最长公共层数；

计算子模块，用于基于目录的总层数和最长公共层数，计算URL的路径部分的相似度。

可选地，泛化替换模块包括：确定子模块和泛化处理子模块，其中；

确定子模块，用于确定URL的路径部分中的待泛化目录；其中，待泛化目录为URL的路径部分中的任一层级的目录；

泛化处理子模块，用于基于预设泛化规则对URL的路径部分中的待泛化目录进行泛化处理，得到URL的第一泛化路径信息。

可选地，合并处理单元，包括：判断模块和合并处理模块，其中：

判断模块，用于基于相似度，判断多个URL的初始模式是否相似；

合并处理模块，用于若相似，则将初始模式相似的多个URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息。

可选地，所述装置还包括预处理单元，其中：

预处理单元，用于对URL进行预处理；预处理包括以下一种或几种：解码处理，过滤处理和标准化处理。

可选地，生成单元包括统计模块和生成模块，其中：

统计模块，用于统计每个URL的第二泛化路径信息的出现次数；

生成模块，用于将出现次数达到预设条件的第二泛化路径信息转化为正则表达式作为与目标网站对应的白名单输出。

在一个可选的实施例中，本实施例还提供一种电子设备，包括存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法实施例方法的步骤。

在一个可选的实施例中，本实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，其中，所述程序代码使所述处理器执行上述方法实施例方法。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本实施例的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本实施例所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种白名单生成方法，其特征在于，包括：

获取目标网站的流量数据；其中，所述流量数据包含所述目标网站下多个网页的统一资源定位符URL；

针对每一个所述URL，提取URL的路径部分，并对所述URL的路径部分进行泛化替换，得到URL的第一泛化路径信息；其中，所述URL的第一泛化路径信息用于表征URL的初始模式；

将所述初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息；其中，所述URL的第二泛化路径信息用于表征URL的最终模式；

基于所述URL的第二泛化路径信息生成与目标网站对应的白名单。

2.根据权利要求1所述的白名单生成方法，其特征在于，所述对所述URL的路径部分进行泛化替换，得到URL的第一泛化路径信息，包括：

计算所述URL的路径部分的相似度；

若所述相似度大于或等于预设阈值，则基于预设泛化规则对所述URL的路径部分进行泛化替换，得到所述URL的第一泛化路径信息。

3.根据权利要求2所述的白名单生成方法，其特征在于，所述计算所述URL的路径部分的相似度，包括：

将所述URL的路径部分解析为多层级的目录；

记录所述目录的总层数和最长公共层数；

基于所述目录的总层数和所述最长公共层数，计算所述URL的路径部分的相似度。

4.根据权利要求3所述的白名单生成方法，其特征在于，所述基于预设泛化规则对所述URL的路径部分进行泛化替换，得到所述URL的第一泛化路径信息，包括：

确定所述URL的路径部分中的待泛化目录；其中，所述待泛化目录为所述URL的路径部分中的任一层级的目录；

基于预设泛化规则对所述URL的路径部分中的待泛化目录进行泛化处理，得到所述URL的第一泛化路径信息。

5.根据权利要求2所述的白名单生成方法，其特征在于，所述将所述初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息，包括：

基于所述相似度，判断多个URL的初始模式是否相似；

若相似，则将所述初始模式相似的所述多个URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息。

6.根据权利要求1所述的白名单生成方法，其特征在于，在提取URL的路径部分之前，还包括：

对所述URL进行预处理；所述预处理包括以下一种或几种：解码处理，过滤处理和标准化处理。

7.根据权利要求1所述的白名单生成方法，其特征在于，所述基于所述URL的第二泛化路径信息生成与目标网站对应的白名单，包括：

统计每个所述URL的第二泛化路径信息的出现次数；

将出现次数达到预设条件的第二泛化路径信息转化为正则表达式作为与目标网站对应的白名单输出。

8.一种白名单生成装置，其特征在于，包括：

获取单元，用于获取目标网站的流量数据；其中，所述流量数据包含所述目标网站下多个网页的统一资源定位符URL；

泛化替换单元，用于针对每一个所述URL，提取URL的路径部分，并对所述URL的路径部分进行泛化替换，得到URL的第一泛化路径信息；其中，所述URL的第一泛化路径信息用于表征URL的初始模式；

合并处理单元，用于将所述初始模式相似的URL的第一泛化路径信息进行合并处理，得到URL的第二泛化路径信息；其中，所述URL的第二泛化路径信息用于表征URL的最终模式；

生成单元，用于基于所述URL的第二泛化路径信息生成与目标网站对应的白名单。

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行如权利要求1至7任一项所述的方法。