CN106209845A

CN106209845A - 一种基于贝叶斯学习理论的恶意http请求判定方法

Info

Publication number: CN106209845A
Application number: CN201610546795.5A
Authority: CN
Inventors: 何清林; 马秀娟; 张家琦; 王子厚; 王大伟; 朱佳伟; 刘培朋; 王维晟
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2016-12-07

Abstract

本发明公开了一种基于贝叶斯学习理论的恶意HTTP请求判定方法，该方法包括步骤如下：收集设定数量的正常HTTP请求和恶意HTTP请求；将收集的正常HTTP请求和恶意HTTP请求分别进行处理获得样本集，样本集中的样本包括样本类别和样本特征空间：将样本集作为训练集输入，利用贝叶斯分类学习算法，学习获得一个二次分类器；对待判定的HTTP请求，提取判定特征，获得判定特征空间，利用二次分类器中进行预测，判定是恶意的HTTP请求还是正常的HTTP请求，并以判定结果为待判定的HTTP请求添加标签，由此获得判定结果。该方法能够判断从用户终端侧发起的HTTP请求时恶意的请求还是正常的请求。

Description

一种基于贝叶斯学习理论的恶意HTTP请求判定方法

技术领域

本发明属于网络安全技术领域，具体涉及一种基于贝叶斯学习理论的恶意HTTP请求判定方法。

背景技术

由于HTTP协议的标准性和适用性，除了普通的web网站类服务外，很多新兴的各种移动应用程序APP也开始使用HTTP协议来进行数据通讯。有很多应用都通过偷偷驻留后台的方式，自动向服务端发送HTTP请求消息传输数据。如果是恶意应用，这些HTTP请求会涉及到窃取用户隐私，僵尸木马消息传播等恶意行为。

HTTP请求是从用户测向服务端测发起的消息，一般使用HTTP GET方式或者HTTPPOST方式。对于HTTP GET方法，请求消息如下所示：

“/domain-name/demo_form.jsp？name1＝value1&name2＝value2”

对于POST方法，请求消息如下所示：

“POST/test/demo_form.jsp HTTP/1.1，Host:w3schools.com

name1＝value1&name2＝value2”。

从以上可得知，不管是HTTP GET请求，还是HTTP POST请求，请求中都含有类似“name＝value”字段，这些字段是应用程序自己添加的字段，应用程序正是通过这些字段来传送用户侧的内容。该字段是判断HTTP请求是否是恶意行为的关键所在。

如何去判定从用户侧发出的HTTP请求时正常的还是恶意的，是一个需要解决的技术难题，本发明提出了一种基于贝叶斯理论的方法，能够对HTTP请求是否是恶意行为进行自动预测和判定。该方法主要基于贝叶斯学习分类理论，该理论已经被应用于垃圾邮件过滤等应用。贝叶斯原理是概率学的一种基本原理，根据条件概率理论和全概率理论，用先验概率来判断后验概率。

发明内容

有鉴于此，本发明提供了一种基于贝叶斯学习理论的恶意HTTP请求判定方法，能够判断从用户终端侧发起的HTTP请求时恶意的请求还是正常的请求。

为了达到上述目的，本发明的技术方案为：一种基于贝叶斯学习理论的恶意HTTP请求判定方法，该方法包括步骤如下：

S1、收集设定数量的正常HTTP请求和恶意HTTP请求。

S2、将收集的正常HTTP请求和恶意HTTP请求分别进行如下S2.1～S2.4的处理，以此获得样本集，具体为：

S2.1、对收集到的HTTP请求进行人工标签分类，如果是正常的HTTP请求，则打上标签0，如果是恶意的HTTP请求，则打上标签1。

S2.2、对所有收集到的HTTP请求，提取其中的“name＝value”字段中的“value”字符值信息，以样本集中所有HTTP请求中出现过的“value”字符作为特征空间。

S2.3、将每一条HTTP请求作为一个样本，形成样本集，样本包括样本类别和样本特征空间：

样本的类别为S2.1中已经人工标记好的标签，为0或者1。

样本特征空间为S2.2中的特征空间，并将样本特征空间中对应该样本中出现过的所有“value”字符值的字段标记为1，否则记为0。

S3、将步骤S2中的样本集合作为训练集输入，利用贝叶斯分类学习算法，学习获得一个二次分类器。

S4、对待判定的HTTP请求，提取判定特征，判定特征提取过程如下：建立与S2.2中的特征空间一致的判定特征空间，其中所有字段均初始标记为0，然后将待判定的HTTP请求中出现过的所有“value”字符值对应字段更新为1，其他保持为0不变。

S5、将S4中的待判定的HTTP请求放到S3中的二次分类器中进行预测，判定是恶意的HTTP请求还是正常的HTTP请求，并以判定结果为待判定的HTTP请求添加标签，由此获得判定结果。

进一步地，在S5中，获得判定结果之后，将判定结果中添加了标签的待判定的HTTP请求，作为新的样本加入到训练集中，重复步骤S2和S3，更新二次分类器，直到分类器稳定。

有益效果：

该方法基于贝叶斯学习分类理论，根据已知分类HTTP请求中“name＝value”字段出现的概率学习是否是恶意HTTP请求，然后提取未分类HTTP请求中的“name＝value”字段信息，来判断该HTTP请求是否恶意的请求，该方法能够快速并准确地判断HTTP请求是否恶意。

具体实施方式

下面举实施例，对本发明进行详细描述。

本发明提出了一种基于贝叶斯理论的方法，能够对HTTP请求是否是恶意行为进行自动预测和判定。该方法主要基于贝叶斯学习分类理论，该理论已经被应用于垃圾邮件过滤等应用。贝叶斯原理是概率学的一种基本原理，根据条件概率理论和全概率理论，用先验概率来判断后验概率。根据已知分类HTTP请求中“name＝value”字段出现的概率学习是否是恶意HTTP请求，然后提取未分类HTTP请求中的“name＝value”字段信息，来判断该HTTP请求是否恶意的请求。该方法包括步骤如下：

S1.首先收集一定数量的正常HTTP请求和恶意HTTP请求；

S2.对收集的HTTP请求进行打标签和提取特征，作为训练集输入；

其中，S2还包括如下步骤：

S2.1首先对收集到的HTTP请求进行人工标签分类，如果是正常的HTTP请求，则打上标签0，如果是恶意的HTTP请求，则打上标签1；

S2.2对所有收集到的HTTP请求，提取其中的“name＝value”字段中的“value”字符值信息，将所有出现过的“value”字符作为特征空间；

S2.3将每一条HTTP请求作为一个样本，样本的类别为S2.1中已经人工标记好的标签，为0或者1；样本的特征空间为S2.2中的特征空间:如果在该样本中某个“value”字符值出现过，则将该特征字段标记为1，否则记为0；

S2.4将每一个收集的HTTP请求样本作为训练集进行输入；

S3.将步骤S2中的样本集合作为训练集输入，利用贝叶斯分类学习算法，学习到一个二次分类器；

S4.对需要进行判定的HTTP请求，首先提取和计算特征，作为一个样本准备开始预测。特征计算过程如下：将S2.2中的特征空间作为特征空间，全部标记为0，提取该HTTP请求中出现过的所有“name＝value”中的“value”字符值，将这些“value”字符值对应的特征更新为1，其他保持为0不变；

S5.将S4中的待预测样本放到S3中学习到的二次分类器中进行预测，判定是否是恶意的HTTP请求还是正常的HTTP请求；

S6.将S5中预测的样本，有选择性进行人工判定确认后，作为新的样本加入到训练集中，重复步骤S2，S3的内容，强化分类器学习，直到分类器稳定。

综上，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于贝叶斯学习理论的恶意HTTP请求判定方法，其特征在于，该方法包括步骤如下：

S1、收集设定数量的正常HTTP请求和恶意HTTP请求；

S2.1、对收集到的HTTP请求进行人工标签分类，如果是正常的HTTP请求，则打上标签0，如果是恶意的HTTP请求，则打上标签1；

S2.2、对所有收集到的HTTP请求，提取其中的“name＝value”字段中的“value”字符值信息，以样本集中所有HTTP请求中出现过的“value”字符作为特征空间；

样本的类别为S2.1中已经人工标记好的标签，为0或者1；

样本特征空间为S2.2中的特征空间，并将样本特征空间中对应该样本中出现过的所有“value”字符值的字段标记为1，否则记为0；

S3、将步骤S2中的样本集合作为训练集输入，利用贝叶斯分类学习算法，学习获得一个二次分类器；

S4、对待判定的HTTP请求，提取判定特征，判定特征提取过程如下：建立与S2.2中的特征空间一致的判定特征空间，其中所有字段均初始标记为0，然后将待判定的HTTP请求中出现过的所有“value”字符值对应字段更新为1，其他保持为0不变；

2.如权利要求1所述的一种基于贝叶斯学习理论的恶意HTTP请求判定方法，其特征在于，在所述S5中，获得判定结果之后，将判定结果中添加了标签的待判定的HTTP请求，作为新的样本加入到训练集中，重复步骤S2和S3，更新二次分类器，直到分类器稳定。