CN109714341A

CN109714341A - 一种Web恶意攻击识别方法、终端设备及存储介质

Info

Publication number: CN109714341A
Application number: CN201811619182.5A
Authority: CN
Inventors: 陈奋; 陈荣有; 程长高; 姚鸿富; 吴顺祥; 高云龙; 陈柏华
Original assignee: Xiamen Service Cloud Mdt Infotech Ltd
Current assignee: Xiamen Service Cloud Mdt Infotech Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-03

Abstract

本发明涉及Web安全技术领域，提出了一种Web恶意攻击识别方法、终端设备及存储介质，在该方法中，包括模型建立和数据识别两大步骤，在模型建立中，包括步骤一：分别采集大量的Web访问数据的黑名单和白名单样本数据，对样本数据中的网络地址进行统一解码后，将解码后的网络地址进行字符处理；步骤二：通过TF‑IDF算法对经过步骤一处理过的样本数据进行特征提取，计算每个样本数据的特征值；步骤三：根据黑名单和白名单样本数据的特征值，通过支持向量机算法进行训练，得到训练后的分类模型并保存，所述分类模型用于区分黑名单数据和白名单数据。本发明将TF‑IDF与支持向量机应用于Web安全检测，以快速的识别恶意攻击请求。

Description

一种Web恶意攻击识别方法、终端设备及存储介质

技术领域

本发明涉及Web安全技术领域，尤其涉及一种Web恶意攻击识别方法、终端设备及存储介质。

背景技术

随着全球互联网的发展，世界已经进入到一个高速信息化时代。通过网络，人们可以很方便地浏览和共享巨大的网络数据，同时，越来越多企业的核心业务采用Web应用实现，这使得企业财富与网络安全紧密相关，进而与广大群众的生活紧密相关。然而，因为Web本身的开放性、不可控性，使得黑客利用网络漏洞攻击的安全事件层出不穷。最近，全球领先的网络安全和应用交付解决方案提供商Radware公司发布了第二份年度Web应用安全调查报告：Radware2018年Web应用安全现状。报告指出，多数企业(67％)认为黑客仍然可以侵入企业网络。报告同时指出，至少89％的受访者在过去一年都遭遇过针对Web应用或Web服务器的攻击，尤其是，声称遭受过加密Web攻击的受访者从2017年的12％增长到了2018年的50％。多数受访者(59％)称每天或每周都会有攻击事件发生。随着Web攻击的频率和复杂性不断得增长，传统的Web防护手段面临的挑战也随之增大，缺点也逐渐突显。

到目前为止，传统的Web防护手段，基本是依赖于规则的黑名单检测机制，无论是Web应用防火墙或ids等等，主要依赖于检测引擎的正则，进行报文的匹配。虽然能够抵御大部分的攻击，但仍存在以下几个问题：

1、规则库维护困难。目前，攻击者的攻击手段变形越来多，如使用不同的编码方式、大小写变化以及替代性语句等技巧，就有可能绕过检测，实施各种变形攻击。如果对这些变形攻击都添加特征规则，会使得特征库臃肿，维护困难。

2、规则的制定要求高。规则写得太宽泛易误杀，规则写得太细，易绕过。

3、正则条数过多时，严重影响防护性能。

4、对新的攻击手段，防护能力较差。

通过对传统依赖于规则的黑色名单检测机制的分析，能够得出，如何做到在海量请求中又快又准确地识别出恶意攻击请求，是我们目前需要解决的难题。

发明内容

针对上述问题，本发明旨在提供一种Web恶意攻击识别方法、终端设备及存储介质，通过在Web安全领域引入机器学习相关技术，将TF-IDF与支持向量机应用于Web安全检测，以快速的识别恶意攻击请求。

具体方案如下：

一种Web恶意攻击识别方法，包括以下步骤：

(1)、分类模型建立

步骤一：分别采集大量的Web访问数据的黑名单和白名单样本数据，对样本数据中的网络地址进行统一解码，将其转换为统一的编码格式后，将解码后的网络地址进行字符处理，以避免无意义字符影响和进行格式的统一；

步骤二：通过TF-IDF算法对经过步骤一处理过的样本数据进行特征提取，计算每个样本数据的特征值；

步骤三：根据黑名单和白名单样本数据的特征值，通过支持向量机算法进行训练，得到训练后的分类模型并保存，所述分类模型用于区分黑名单数据和白名单数据；

(2)、数据识别

步骤四：对接收到的访问数据的网络地址进行解码后，将其转换为步骤一中使用的编码格式，同时将解码后的网络地址进行字符处理；

步骤五：通过TF-IDF算法对经过步骤四处理过的数据进行特征提取，计算数据的特征值；

步骤六：根据数据的特征值，通过分类模型对访问数据进行识别，判断其是否属于黑名单数据。

进一步的，所述字符处理为：将所有字母统一设定为大写字符或小写字符，将所有中文和数字统一设定为特定字符，所述特定字符为与网络地址中除中文和数字之外的字符均不同的字符。

进一步的，所述特征值的计算过程为：

(1)、设定数据中词的长度为s，按照词的长度s将数据按照顺序分为多个长度为s的词；

(2)、计算每个词的词频TF：TF＝1+ln(N)，其中：N为数据中该词出现的次数；

(3)、计算每个词的逆文本频率指数IDF：IDF＝1+ln(p/q)，其中，p为数据总数，q为包含该词的数据数；

(4)、计算该数据的特征值TF-IDF：

进一步的，所述词的长度s＝3。

进一步的，步骤三中筛选了步骤二中TF-IDF值最大的1000个样本数据作为支持向量机算法的训练数据。

一种Web恶意攻击识别终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，通过在Web安全领域引入机器学习相关技术，将TF-IDF与支持向量机应用于Web安全检测，以快速的识别恶意攻击请求，同时建立的模型对sql注入攻击、XSS攻击都有很高的预测精度，并且模型具有变形攻击识别、新攻击方式识别以及语义分析的能力。

附图说明

图1所示为本发明实施例一的流程示意图。

图2所示为本发明实施例一的支持向量机算法的示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

参考图1所示，本发明提供了一种Web恶意攻击识别方法，包括以下步骤：

(1)、分类模型建立

步骤一：分别采集大量的Web访问数据的黑名单和白名单样本数据，对样本数据中的网络地址(URL)进行统一解码，将其转换为统一的编码格式后，将解码后的网络地址进行字符处理，以避免无意义字符影响和进行格式的统一。

所述字符处理本领域技术人员可以根据需求进行设定，该实施例中具体为为：将所有字母统一设定为大写字符或小写字符，将所有中文和数字统一设定为特定字符，所述特定字符为与网络地址中除中文和数字之外的字符均不同的字符。

所述将中文和数字统一设定为特定字符是用于剔除无用数据的影响，应为对于Web黑名单的判断来说，中文和数字相对于黑名单判断来说为无意义字符，因此，将其设定为特定的字符能够简化特征提取的过程，加快识别的速度。

该实施例中，将所有字母均修改为小写，因此，该实施例中将特定字符设定为大写字母“N”。本领域技术人员也可以设定为其他字符。

步骤二：通过TF-IDF算法对经过步骤一处理过的样本数据进行特征提取，计算每个样本数据的特征值。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。用于评估一字或一词对于一个文件集或一个语料库中的其中一份文件的重要程度。该实施例中，将其灵活的应用到Web安全领域中，通过TF-IDF这种基于统计的方法，来对大量的Web访问数据进行特征提取，获得最具有代表性关键词，从而实现特征转化。

(1)、在特征转化的过程中，首先，需要对经过步骤一处理过的样本数据进行词频TF(Term frequency)的统计。在具体实施的过程中，将三个字符设定为一个词的长度，还同时考虑了对数据进行平滑处理以及对数据进行归一化处理，以提高特征转化后分类的预测精度。

在平滑处理过程中时，词频TF的计算公式优化为：

TF＝1+ln(N)

其中：N为数据中某词出现的次数。

下面以一个具体例子进行详细说明：

假设，一条访问数据为“/css/css_js.php”，按照三个字符设定为一个词的长度，该访问数据可拆分成13个词，分别为：/cs、css、ss/、s/c、/cs、css、ss_、s_j、_js、js.、s.p、.ph、php，其中“/cs”和“css”共出现两次，其余11个词，只出现了一次，那么通过词频TF的计算公式计算得到：“/cs”和“css”的TF值为：1.693，其余词的TF值为1。

(2)、上述例子中，“/cs”和“css”以及其他词的TF值就可以作为特征转化后该访问数据的维度，提供给分类算法进行检测，其中“/cs”和“css”出现频率相对其他词的频率较高，在检测的过程中，将起到更大的作用，但是，如果这些词在黑名单样本中和白名单样本中都大量出现，比如“/cs”和“css”在区分黑名单和白名单样本中的代表性就非常小，它们在检测中发挥的作用就变得微乎其微，如果采用只考虑词频的方法进行特征转化，就难以统计出黑名单和白名单样本的关键特征，以致难以检测出Web访问中的正常数据和异常数据。如果某个词，只在黑名单样本中出现，尽管相对样本总数，它出现的次数少，但它在检测黑名单样本中所占的权重还是很高。那么，考虑根据每个词在黑名单和白名单样本中的代表性，给每一个词一个对应的权重。一个词能够预测正常和异常数据的能力越大，权重越大，反之，权重越小。假定词“css”只在黑名单样本中出现，那么它在预测黑样本时的权重就越大，反之越小。该实施例中，使用逆文本频率指数IDF(Inverse document frequency)来进行衡量。

设定IDF的计算公式为：

IDF＝1+ln(p/q)

其中，p为样本总数，q为包含该词的样本数。

假定有10万条样本数据，这些样本数据的各类型数据量相当，其中有200条样本数据中包含了“css”词，1000条样本数据中包含了“/cs”，那么，

“css”在样本中的权重为：IDF＝1+ln(100000/200)＝7.215，

“/cs”在样本中的权重为：IDF＝1+ln(100000/1000)＝5.605。

(3)、根据上面计算的TF值，再引入IDF值后，计算每个词的TF-IDF值：

TF-IDF＝TF*IDF

则：“/cs”和“css”的TF-IDF值分别为9.489和12.215。

根据上述结果得出，词“css”在检测过程中，将发挥更大的作用。

(4)、根据下列公式计算样本数据的特征值，即TF-IDF值：

其中，n为样本数据中包含的词的个数。

(5)、样本数据的特征值进行归一化处理，该实施例中采用Frobenius范数归一化处理，计算公式为：

通过该实施例中上述方法，综合考虑了词频和词在样本中的“代表性”，将每条数据的按三个字符为长度进行词的拆分，再计算每个词的综合指标TF-IDF值作为特征值，最终，达到特征转化的目的。

步骤三：根据黑名单和白名单样本数据的特征值，通过支持向量机算法进行训练，通过参数调整，得到训练后的最佳分类模型，并对模型进行保存，所述分类模型用于区分黑名单数据和白名单数据。

因为考虑到维度越高，计算越复杂，在训练数据巨大时，容易造成“维数灾难”，同时，过多的维度，不一定对精确度的提高有很大的帮助，我们在具体实施中，筛选了TF-IDF值最大的1000个词作为支持向量机算法的训练和测试的维度。

通过支持向量机(support vector machine，SVM)算法对数据进行训练和预测。支持向量机是一种分类算法，通过寻求结构化风险最小来提高泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。如图2所示，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化。根据黑名单和白名单样本数据的特征值，通过支持向量机算法训练出的分类模型能够区分黑名单数据和白名单数据。

选用支持向量机作为分类算法的原因有以下几点：

1、基于结构风险最小化原则，这样可以避免过拟合问题，泛化能力强。

2、支持向量机有坚实理论基础的小样本学习方法。它基本上不涉及概率测度及大数定律。从本质上看，避开了从归纳到演绎的传统过程，实现了高效的从训练样本到预测样本的“转导推理”，大大简化了通常的分类和回归等问题。

3、支持向量机的最终决策函数只由少数的支持向量所确定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数，这在某种意义上避免了“维数灾难”。

4、少数支持向量决定了最终结果，这有助于抓住关键样本、“剔除”大量冗余样本，而且注定了该方法算法简单，同时具有较好的“鲁棒”性。

(2)、数据识别

在建立了分类模型后，就可以对新接收到的Web访问数据进行预测，判断其是否为黑名单数据。

步骤四：对接收到的访问数据的网络地址进行解码后，将其转换为步骤一中使用的编码格式，同时将解码后的网络地址中的中文和数字统一设定为步骤一中使用的字符；

该实施例中，选用了14万条真实数据作为训练和测试，其中随机抽选80％作为训练数据，20％作为测试数据，如此交叉验证10次求取预测平均精确度，实验中采用了N-gram+SVM、TF-IDF+SVM、TF-IDF+KNN、TF-IDF+Logistic Regression算法四种方式进行实验，如表1所示，实验表明，TF-IDF+SVM的模型，精确度最高，精确度为99.89％，同时该模型对sql注入攻击、XSS攻击都有很高的预测精度，并且模型具有变形攻击识别、新攻击方式识别以及语义分析的能力。

表1

实施例二：

本发明还提供一种Web恶意攻击识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述Web恶意攻击识别终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述Web恶意攻击识别终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述Web恶意攻击识别终端设备的组成结构仅仅是Web恶意攻击识别终端设备的示例，并不构成对Web恶意攻击识别终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述Web恶意攻击识别终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述Web恶意攻击识别终端设备的控制中心，利用各种接口和线路连接整个Web恶意攻击识别终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述Web恶意攻击识别终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述Web恶意攻击识别终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种Web恶意攻击识别方法，其特征在于：包括以下步骤：

(1)、分类模型建立

(2)、数据识别

2.根据权利要求1所述的Web恶意攻击识别方法，其特征在于：所述字符处理为：将所有字母统一设定为大写字符或小写字符，将所有中文和数字统一设定为特定字符，所述特定字符为与网络地址中除中文和数字之外的字符均不同的字符。

3.根据权利要求1所述的Web恶意攻击识别方法，其特征在于：所述特征值的计算过程为：

(4)、计算该数据的特征值TF-IDF：

4.根据权利要求3所述的Web恶意攻击识别方法，其特征在于：所述词的长度s＝3。

5.根据权利要求1所述的Web恶意攻击识别方法，其特征在于：步骤三中筛选了步骤二中TF-IDF值最大的1000个样本数据作为支持向量机算法的训练数据。

6.一种Web恶意攻击识别终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～5所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～5所述方法的步骤。