CN111382780A

CN111382780A - 一种基于http不同版本的加密网站细粒度分类方法和装置

Info

Publication number: CN111382780A
Application number: CN202010090768.8A
Authority: CN
Inventors: 熊刚; 苟高鹏; 张子青; 李镇; 管洋洋; 王炳旭
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-07-07
Anticipated expiration: 2040-02-13
Also published as: CN111382780B

Abstract

本发明涉及一种基于HTTP不同版本的加密网站细粒度分类方法和装置。该方法包括以下步骤：对待分类的加密网站建立本地请求和响应序列特征；将待分类的加密网站的本地请求和响应序列特征输入深度森林模型；所述深度森林模型是利用由训练数据建立的网页的本地请求和响应序列特征进行训练而得到的深度森林模型；通过深度森林模型得到加密网站细粒度分类结果本发明可以对使用不同版本的HTTP协议的加密网站进行分类，既适用于粗粒度网站指纹，即对不同网站的主页分类，也适用于细粒度网站指纹，即对同一个网站下不同网页分类；不仅可以在双向流场景中使用，也可以在单向流场景中使用。

Description

一种基于HTTP不同版本的加密网站细粒度分类方法和装置

技术领域

本发明涉及一种基于HTTP不同版本的加密网站细粒度分类方法和装置，属于计算机软件技术领域。

背景技术

随着加密协议如SSL/TLS的广泛使用，传统的基于包内容的方法很难识别网络流量。因此，最近的研究对网络流量提取了各种特征并使用机器学习算法进行分类。加密网站细粒度分类是指利用流量的基本时空特征、行为特征和协议特征在加密信道中精细化地识别特定加密Web网页，又称为网站指纹技术。

以前的网站指纹工作只是对基于HTTP/1.1的加密网站分类。据W3Techs称，截至2019年1月，前1000万网站中有32.5％支持HTTP/2.0。SearchDatalogy还报告，在2018年4月的200个顶级网站中，44％的网站支持HTTP/2.0。HTTP/2.0中的多路复用和并发技术导致HTTP/2.0与以前版本的HTTP协议有很大的不同。以往关于网站指纹的研究主要集中在基于HTTP/1.0和HTTP/1.1的特征上，这些特征不适用于HTTP/2.0协议。随着技术的发展，HTTP/2被广泛使用。HTTP/2中的复用和并发技术使得它与HTTP/1.1有很大的不同。因此需要提出既适用于HTTP/1.1网站也适用于HTTP/2网站的特征。

另外，现有的大部分工作仅仅对每个网站的主页进行分类，但事实上，用户也访问网站的其他页面。几乎所有传统的机器学习算法都没有充分利用网络流量中天然具有的时序特性。

发明内容

本发明针对上述问题，提供一种基于HTTP不同版本的加密网站细粒度分类方法和装置。

为了解决特征兼容性问题，本发明使用本地请求和响应序列(Local Request andResponse Sequence，简称LRRS)作为特征。由于使用了局部序列，LRRS不仅可以适用于使用不同版本HTTP的加密网站，还可以从不同的细粒度角度描述流量。

本发明在处理特征时使用卷积，它可以通过滑动窗口学习特征中的顺序关系。为了在同一个网站上对不同的网页进行指纹识别，本发明引入了深度森林来提取细粒度特征。它采用卷积结构，充分利用了LRRS序列特征；另外深度森林使用了多层结构，增强了特征表示能力。

本发明采用的技术方案如下：

一种基于HTTP不同版本的加密网站细粒度分类方法，包括以下步骤：

对待分类的加密网站建立本地请求和响应序列特征；

将待分类的加密网站的本地请求和响应序列特征输入深度森林模型；所述深度森林模型是利用由训练数据建立的网页的本地请求和响应序列特征进行训练而得到的深度森林模型；

通过深度森林模型得到加密网站细粒度分类结果。

进一步地，所述本地请求和响应序列特征包括三部分：第一部分特征描述网页的整体统计特征；第二部分特征包含页面加载期间每个时间片中传入和传出数据包的数量和总大小；第三部分特征描述网页的详细信息。

进一步地，所述第一部分特征包括10维统计特征：c2s的数据包总字节数，s2c的数据包总字节数，c2s的数据包总包数，s2c的数据包总包数，前30个c2s数据包的总字节数，前10个s2c数据包的总字节数，前30个数据包中c2s数据包个数，前10个数据包中s2c数据包个数，最后10个s2c数据包的总字节数，最后10个数据包s2c数据包个数；所述第二部分特征包括80维统计特征：由页面加载期间分成的20个时间片中，每个时间片的c2s数据包的总字节数，s2c的数据包个数，c2s的数据包个数，s2c数据包的总字节数；所述第三部分特征包括60维统计特征：前20个c2s的数据包的包长序列，前20个s2c的数据包的包长序列，最后20个s2c的数据包的包长序列。

进一步地，所述深度森林模型包括多粒度扫描模块和层次森林模块；所述多粒度扫描模块分别用不同长度滑动窗口扫描输入的第二部分特征和第三部分特征；所述层次森林模块中，第一层随机森林的输入是第一部分特征加上滑动窗口产生的细粒度特征，之后的每一层随机森林的输入包括第一部分特征和滑动窗口产生的细粒度特征，还包括上一层随机森林投票的特征。

进一步地，所述多粒度扫描模块分别使用维度为3、4、5的滑动窗口扫描输入的特征。

进一步地，所述深度森林模型的训练过程包括：

利用训练数据建立网页的本地请求和响应序列特征；

利用本地请求和响应序列特征对深度森林模型进行训练，首先使用不同长度的滑动窗口对特征进行多粒度的扫描，接着将不同粒度的特征输入到层次森林中，最终得到训练完成的深度森林模型。

进一步地，双向流场景使用所述本地请求和响应序列特征的所有特征，单向流场景只使用所述本地请求和响应序列特征的c2s特征。

一种基于HTTP不同版本的加密网站细粒度分类装置，其包括：

特征建立模块，用于对待分类的加密网站建立本地请求和响应序列特征；

分类模块，用于将待分类的加密网站的本地请求和响应序列特征输入深度森林模型，通过深度森林模型得到加密网站细粒度分类结果；所述深度森林模型是利用由训练数据建立的网页的本地请求和响应序列特征进行训练而得到的深度森林模型。

进一步地，还包括训练模块，用于采用以下操作训练所述深度森林模型：

利用训练数据建立网页的本地请求和响应序列特征；

本发明的有益效果如下：

本发明可以对使用不同版本的HTTP协议的加密网站进行分类。本发明既适用于粗粒度网站指纹(对不同网站的主页分类)，也适用于细粒度网站指纹(对同一个网站下不同网页分类)。除此之外，本发明不仅可以在双向流场景中使用，也可以在单向流场景中使用。

本发明使用LRRS作为特征，该特征既适用于HTTP1.1也适用于HTTP2。LRRS不仅可以解决细粒度网站分类问题，还可以解决应用分类、应用行为精细化分类等问题。另外，本发明将深度森林首次引入到网站分类领域，验证了深度森林在网络流量分类中的可行性，为后续研究提供了参考。

附图说明

图1为深度森林中的多粒度扫描图。

图2为本发明使用的深度森林算法***架构图。

图3为本发明的加密网站细粒度分类方法的步骤流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

在本发明中，提出了本地请求和响应序列(后文简称LRRS)作为特征。其中“请求”和“响应”是指传入和传出数据包。LRRS可以从不同的细粒度角度描述流量。此外，还引入了深度森林，充分利用了LRRS中的时序关系，通过多层结构增强了表示学习能力。现有的研究只关注基于HTTP/1.1的流量。本发明的工作不仅集中在基于HTTP/1.1的指纹网站上，还集中在基于HTTP/2.0的指纹网站上。此外，本发明还考虑了一种常见的单向流情形，这种情形是由非对称路由引起的，但在以往的研究中被忽略了。

1.特征

如表1所示，LRRS的第一部分特征主要描述网页的整体统计特征，共有10维。其中s2c表示服务器端到客户端的数据包，即传出数据包，c2s表示从客户端到服务器端的数据包，即传入数据包。LRRS的第二部分包含页面加载期间每个时间片中传入和传出数据包的数量和总大小。第二部分大致描述了不同请求和响应资源长度的总和及其在HTML中的分布。例如，如果第一个时间片中传出数据包的数量和传入数据包的大小相对较大，可以推断HTML页面中的资源主要分布在开头，资源基本上很大。例如，如果在最后一个时间切片中，传出数据包的数量相对较大，传入数据包的大小相对较小，可以推测HTML页面中的资源集中在HTML的末尾，但资源可能不太大。通过这80个特性，可以更清楚地获得嵌入在HTML中的源的大小和分布。

第一部分和第二部分可以帮助我们大致构建网页的整体框架。但是对于同一个网站中的不同网页，它们的CSS(层叠样式表，用于修饰页面内容的显示)和JS(脚本文件)基本上是相同的，这就导致了LRRS功能的两部分不能很好地区分它们。由于HTTP2使用复用和并发，响应包具有无序性。因此不能使用同一个方向上响应包的累加作为特征。因此，本发明提出了第三部分的LRRS特征，以更好地完善网页的描述。第三部分的LRRS特征包括前20个传入数据包、前20个传出数据包和后20个传出数据包的长度用于描述网页的详细信息。

表1 LRRS特征概述

2.算法

图1为深度森林中的多粒度扫描图。根据上文，第二部分和第三部分的特征一共140维，本发明将这两部分特征分成7个频道。每个频道有140/7＝20维。图1中3维是指滑动窗口的维度；100维是指特征经过cf和crf处理后生成的维度；50维是指经过池化操作后的维度；3150维是指使用3维的滑动窗口细粒度扫描原始特征得到的特征的维度(7×50×9＝3150)。

如图1所示，使用7×1×3×7的滑动窗口扫描1×7×1×20的输入特征，步长为1×1，得到了18×7×1×3这些特征，接着把这些特征分别放入随机森林(rf)和完全随机森林(crf)这两个分类器中。随机森林每次***时选取基尼系数最小的特征，而完全随机森林每次***则随机选取特征。假定数据集中有50个分类，每个分类器都会产生18×7×1×50特征。将这两个分类器的结果按行合并得到18×7×1×100特征。然后使用2×2的池化层将冗余的特征压缩，得到9×7×1×50特征，最后这些特征被拉成(图1中的“伸展”)1×3150维的特征。

图2为深度森林算法***架构图。如该图所示，左侧的“多粒度”是指分别用3,4,5不同长度的滑动窗口扫描输入特征。在层级森林中第一层随机森林的输入是10维统计特征加上滑动窗口产生的细粒度特征，之后的每一层随机森林的输入除了10维统计特征和滑动窗口产生的细粒度特征，还包括上一层随机森林投票的特征。图2中最后得到的“预测概率”是综合4个随机森林(rf)和4个完全随机森林(crf)得到的最终结果。

浏览器根据每个资源的优先级加载页面内的所有资源。所以每次加载的顺序都可能不同，如果把每个优先级称作一个块，资源加载顺序基本上符合块间有序，块内无序。而这种规律使用传统的机器学习方法很难学习得到，因此借助卷积层(即图1、图2的滑动窗口)，通过它可以更好地学习这些时间相关性特征。深度森林有许多层次，每个层中又有许多不同类型的分类器，每种类型的分类器又包含许多个实例。深度学习最大的优势在于通过多层网络来更好地表示特征，学习特征间的关系。而多层次森林正式利用这一点，通过构建多层次的森林更好地表示特征。

由于LRRS采用了三部分特征，可以适用于使用不同版本HTTP的加密网站。而深度森林每层都有不同类型的分类器和每个分类器都有许多实例，深度学习的最大优势在于通过多层网络更好地表示功能，充分利用这一点，可以从不同的细粒度角度描述流量。

3.本发明方法的整体步骤流程

本发明的基于HTTP不同版本的加密网站细粒度分类方法，其整体步骤包括：

训练阶段：

1)利用训练数据建立网页的LRRS特征。其中双向流场景使用LRRS的所有特征，单向流场景只使用LRRS的c2s特征。

2)利用LRRS特征，对深度森林模型进行训练。首先如图2左半部分所示，使用3,4,5作为滑动窗口，对原有特征进行多粒度的扫描。接着如图2右半部分，将不同粒度的特征输入到层次森林中，最终得到训练完成的深度森林模型。

分类阶段，如图3所示，包括以下步骤：

1)对待分类的加密网站建立LRRS特征；其中双向流场景使用LRRS的所有特征，单向流场景只使用LRRS的c2s特征。

2)将LRRS特征输入训练完成的深度森林模型，得到加密网站细粒度分类结果。

4.本发明的实例

在数据收集中，利用Wireshark捕捉网页引用时的流量，导入Selenium工具而不是传统的网页爬行方式。Selenium可以在浏览器中直接导入，就像真正的用户一样。例如，Selenium可以在网页中加载JavaScript和AJAX格式，但传统的网络爬虫方法不能做。由Firefox团队开发和维护的Firefox驱动程序是实现web driver有线协议的单独服务。它可以通过Firefox的自动代理框架来控制浏览器。流量是通过selenium和Firefox驱动程序以pcap文件格式捕获的。一共有四个数据集：T50、T5P5、P25/1.1和P25/2.0。T50包括了50个网页的主页。T5P5包括5个网站，每个网站随机选择5个网页。P25/1.1和P25/2.0分别代表了代表了一个HTTP1.1网站下的25个网页和一个HTTP2.0网站下的25个网页。这四个数据集中每个网页都有100个pcap文件。

本发明提出了由几种类型的本地请求和响应序列组成的LRRS特征。为了更好地利用LRRS特性，提出了利用深度森林算法解决网站指纹问题的方案。此外，还构建了四个具有不同难度级别的数据集来评估。其中，有两个细粒度数据集，分别包含HTTP/1.1和HTTP/2.0协议的流量。然后，在四个数据集上对所提出的LRRS特征和深林算法进行了评估，并将两个最先进的模型KFP、CUMUL和一些著名的机器学习算法进行了比较，如随机森林、决策树、逻辑回归、朴素贝叶斯、SVM和K-NN。最后，实验结果表明，在双向流和单向流两种情况下，由LRRS特征和深森林算法组成的模型在总体性能上均优于其他方法。其中，双向流场景是指既有客户端到服务器端的流量，又有服务器端到客户端的流量；单向流场景是指只有客户端到服务器端的流量。

实例1：在双向流场景下对不同HTTP版本的加密网站的不同粒度分类

首先比较了LRRS+Deep Forest(本发明的方案)与KFP+Random Forest和CUMUL+SVM模型，表明本发明的模型是强大的。在T50上，LRRS+Deep Forest得到F1分数的99.23％，而KFP+Random Forest得到97.86％。它们在T50上的差别非常细微。随着数据集样本之间的相似性，LRRS+Deep Forest与KFP+Random Forest之间的F1得分差距也逐渐增大。LRRS+Deep Forest在T5P5和P25/1.1上分别优于KFP+Random约14.5％和40％，在P25/2.0上，所提出的模型LRRS+Deep Forest得到了F1分数的88.3％，优于KFP+Random Forest 56％以上，表明局部请求和响应序列特征可以描述网页指纹。很明显，由局部序列特征构成的所提出的LRRS明显改善了性能。由于传统的特征缺少局部特征，使得KFP和CUMUL特性无法在细粒度数据集P25/1.1和P25/2.0上工作。结果还表明，LRRS特性不仅适用于基于HTTP/1.1的网站，而且也适用于基于HTTP/2.0的网站。

实例2：在单向流场景下对不同HTTP版本的加密网站的不同粒度分类

在T50和T5P5上，LRRS+Deep Forest的F1分数分别超过KFP+Random Forest约0.8％和2.5％。随着数据集样本相似性的增加，三个模型的分类结果都有所下降。与其他两种方法相比，提出的LRRS+深林法的下降幅度较小。在P25/1.1上，LRRS+Deep Forest达到了F1分数的70.30％，著名的模型CUMUL+SVM得到了23.05％。LRRS+Deep Forest的表现优于累积+SVM超过47％。在P25/2.0上，最佳模型，即LRRS+深森林模型，比KFP+随机森林模型高出8％以上。这表明，在同一网站上区分不同页面时，不同页面上的相同框架给指纹识别带来了巨大的挑战，使得传统的统计特征不再适用。因此，所提出的局部序列特征能够更好地描述不同网页的具体细节。很明显，所提出的LRRS特性不仅能很好地描述双向流场景下的网页访问过程，而且能很好地描述单向流场景下的网页访问过程。

基于同一发明构思，本发明的另一个实施例提供一种基于HTTP不同版本的加密网站细粒度分类装置，其包括：

分类模块，用于将待分类的加密网站的本地请求和响应序列特征输入深度森林模型，通过深度森林模型得到加密网站细粒度分类结果；所述深度森林模型是利用由训练数据建立的网页的本地请求和响应序列特征进行训练而得到的深度森林模型；

训练模块，用于采用以下操作训练所述深度森林模型：利用训练数据建立网页的本地请求和响应序列特征；利用本地请求和响应序列特征对深度森林模型进行训练，首先使用不同长度的滑动窗口对特征进行多粒度的扫描，接着将不同粒度的特征输入到层次森林中，最终得到训练完成的深度森林模型。

其中各模块的具体实施过程参加前文对本发明方法的描述。

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于HTTP不同版本的加密网站细粒度分类方法，其特征在于，包括以下步骤：

对待分类的加密网站建立本地请求和响应序列特征；

通过深度森林模型得到加密网站细粒度分类结果。

2.根据权利要求1所述的方法，其特征在于，所述本地请求和响应序列特征包括三部分：第一部分特征描述网页的整体统计特征；第二部分特征包含页面加载期间每个时间片中传入和传出数据包的数量和总大小；第三部分特征描述网页的详细信息。

3.根据权利要求2所述的方法，其特征在于，所述第一部分特征包括10维统计特征：c2s的数据包总字节数，s2c的数据包总字节数，c2s的数据包总包数，s2c的数据包总包数，前30个c2s数据包的总字节数，前10个s2c数据包的总字节数，前30个数据包中c2s数据包个数，前10个数据包中s2c数据包个数，最后10个s2c数据包的总字节数，最后10个数据包s2c数据包个数；所述第二部分特征包括80维统计特征：由页面加载期间分成的20个时间片中，每个时间片的c2s数据包的总字节数，s2c的数据包个数，c2s的数据包个数，s2c数据包的总字节数；所述第三部分特征包括60维统计特征：前20个c2s的数据包的包长序列，前20个s2c的数据包的包长序列，最后20个s2c的数据包的包长序列。

4.根据权利要求2或3所述的方法，其特征在于，所述深度森林模型包括多粒度扫描模块和层次森林模块；所述多粒度扫描模块分别用不同长度滑动窗口扫描输入的第二部分特征和第三部分特征；所述层次森林模块中，第一层随机森林的输入是第一部分特征加上滑动窗口产生的细粒度特征，之后的每一层随机森林的输入包括第一部分特征和滑动窗口产生的细粒度特征，还包括上一层随机森林投票的特征。

5.根据权利要求4所述的方法，其特征在于，所述多粒度扫描模块分别使用维度为3、4、5的滑动窗口扫描输入的特征。

6.根据权利要求4所述的方法，其特征在于，所述深度森林模型的训练过程包括：

利用训练数据建立网页的本地请求和响应序列特征；

7.根据权利要求1～6中任一权利要求所述的方法，其特征在于，双向流场景使用所述本地请求和响应序列特征的所有特征，单向流场景只使用所述本地请求和响应序列特征的c2s特征。

8.一种基于HTTP不同版本的加密网站细粒度分类装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，还包括训练模块，用于采用以下操作训练所述深度森林模型：

利用训练数据建立网页的本地请求和响应序列特征；

10.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述的方法的指令。