CN110311870B

CN110311870B - 一种基于密度数据描述的ssl vpn流量识别方法

Info

Publication number: CN110311870B
Application number: CN201910498412.5A
Authority: CN
Inventors: 刘扬; 吕思才; 黄俊恒; 孙云霄; 王佰玲; 王超
Original assignee: Hit Weihai Innovation Pioneer Park Co ltd; Harbin Institute of Technology Weihai
Current assignee: Hit Weihai Innovation Pioneer Park Co ltd; Harbin Institute of Technology Weihai
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2022-08-02
Anticipated expiration: 2039-06-10
Also published as: CN110311870A

Abstract

本发明属于网络数据处理技术领域，涉及SSL VPN流量识别方法。一种基于密度数据描述的SSL VPN流量识别方法，包括：从网络流量中抓取使用SSL协议来保证安全传输的流量；将抓取到的SSL流量进行特征提取；以基于密度描述的SSL VPN的数据描述域作为判别依据，对提取到的特征向量进行分类判别，如果落在数据描述域内，则认为是SSL VPN流量，否则认为是普通的SSL流量。本发明的基于密度数据描述的SSL VPN流量识别方法，可以将SSL VPN流量转换成特征向量，由提出了一种的基于密度的数据描述，可以基于密度找到数据描述域，用于对SSL VPN流量进行分类。

Description

一种基于密度数据描述的SSL VPN流量识别方法

技术领域

本发明属于网络数据处理技术领域，涉及SSL VPN流量识别方法。

背景技术

随着大数据时代的到来，数据的采集也变得越来越方便，当数据采集完成之后，如何从数据中获取需要的信息成了新的挑战。分类问题作为机器学习的一个重要类别，基于已有的数据构建模型，进而对获取到未知类别数据的所属类别进行判断。但是分类需要的带标签的训练数据的获取并不容易，如VPN流量，往往可以通过多种方法获取带标签的VPN流量，而非VPN流量种类繁多，通常获取的反例集很难囊括所有的非VPN的流量种类。这种情况下可以用于训练的有标签的数据只有一类。

目前，针对这种仅可获得单类数据的情况，学者们也提出了相应的分类模型，其中使用最为广泛的就是One-Class SVM和SVDD。One-Class SVM的核心思想将坐标原点作为奇异点，找到超平面使得单类数据集与坐标原点分别落于超平面的两侧，同时使得坐标原点于超平面的距离尽可能的大，预测时将与训练样本落于同一侧的数据认为是目标类的数据，否则认为不是目标类的数据。SVDD则是通过核函数将原始样本映射到高维空间，在高维空间中寻找一个包含大部分数据的超球体，同时使得超球体的体积尽可能的小，进行预测时，认为落于超球内的数据为目标类的数据，否则不是。这两种算法被证明在处理单分类问题上效果相似。

还有一些学者将单分类问题作为异常检测问题来处理，将非目标类的数据作为异常点。应用比较广泛的有孤立森林(Isolation Forest)，构造孤立树时，会随机选取一个特征，在该特征的取值范围中随机选择一个值划分数据集，迭代多轮，直到叶节点中只有一个数据点，就得到一个孤立树(Isolation Tree)，同时构建多棵孤立树得到孤立森林。由于异常值是离群点，所以会比较快的划分到叶子节点；而非离群点往往需要经过更多次划分才能落到叶节点。可以通过叶节点和根节点的路径长度来判断是否为异常点。

VPN是在公共网络上建立专用网络，进行通信加密。所以，VPN流量必然涵盖多种类型流量，获得的VPN数据集内部通常含有多个类簇，所以，如何将 VPN流量数据进行分类、识别，获取需要的信息显得非常必要。

发明内容

为了解决VPN流量识别问题，本发明提出了基于密度数据描述的SSL VPN 流量识别方法。该方法从VPN流量数据的内部分布出发，划分数据描述域，从而实现VPN流量识别。

本发明解决其技术问题采用的技术方案是：一种基于密度数据描述的SSL VPN流量识别方法，包括：

从网络流量中抓取使用SSL协议来保证安全传输的流量；

将抓取到的SSL流量进行特征提取；

以基于密度描述的SSL VPN的数据描述域作为判别依据，对提取到的特征向量进行分类判别，如果落在数据描述域内，则认为是SSL VPN流量，否则认为是普通的SSL流量。

进一步的，所述基于密度描述的SSL VPN的数据描述域的获取方法为：

构建SSL VPN流量数据密度描述模型函数；

对所述的模型函数进行初步训练，得到一个密度最大的超球；

对所述的模型函数进行进一步训练，将散落在密度最大的超球面外的数据点重新划分数据描述域，得到多个超球面；

整合所有超球面内部的数据，构成SSL VPN的数据描述域。

进一步的，所述的SSL VPN流量数据密度描述模型函数为：

其中ρ(R，a)表示密度，R表示超球的半径，a表示超球的球心，n为数据集中的样本数，C_nRⁿ为n维超球的体积。

所述的初步训练方法为：

采用梯度上升的方法，首先对R和a求偏导数：

给定初始值R₀和a₀，学习率η，则迭代的计算式如下：

使用Adadelta方法自适应的调整学习率，根据每次计算出的梯度，来调节学习率，调整的公式为：

所述的进一步训练的步骤为：

1.初始化误差上界γ，设定球平面内的样本点的最小密度α或最小样本数 min_sample；

2.梯度上升求解当前数据集的密度最大的球平面；

3.计算出数据集中在该超球面中的点，如果点的数量小于min_sample或密度小于α，跳到步骤5；否则去除这些点，将剩下的超平面作为新的数据集；

4.计算新的数据集中的点的数量，如果比例小于γ，跳至步骤5；否则跳到步骤2；

5.输出得到的所有超球面。

本发明的基于密度数据描述的SSL VPN流量识别方法，可以将SSL VPN流量转换成特征向量，由提出了一种的基于密度的数据描述，可以基于密度找到数据描述域，用于对SSL VPN流量进行分类。具有以下有益效果：

(1)VPN流量识别可以帮助管理者或运营商监管网络流量；

(2)对数据内部的数据分布不敏感，可以对任意形状的数据划分数据描述域，可以适用于VPN隧道传输多种流量的特点；

(3)对数据集中的异常点不敏感，数据中的异常点不会影响数据描述域的划分。

附图说明

图1是本发明的基于密度数据描述的SSL VPN流量识别方法流程图；

图2是模型中进行类型判别的标志函数；

图3是模型中标志函数的替代函数，具有连续和可导的优点；

图4展示了一种模型函数求解之后遇到的特殊情况；

图5是模型训练以及求解的流程图。

具体实施方案

下面结合附图和实施例对本发明的基于密度数据描述的SSL VPN流量识别方法进行详细的阐述。

本发明的基于密度数据描述的SSL VPN流量识别方法，流程如图1所示，具体步骤如下：

一、从网络流量中抓取使用SSL协议来保证安全传输的流量；

二、将抓取到的SSL流量进行特征提取

SSL VPN流量分类重点关注流量在握手协议中的信息，首先是第一阶段，第一阶段包含Client Hello和Server Hello，Client Hello可以记录cipher suite(支持的加密协议)，以及extension各部分的长度。Server Hello包中直接包含了第二阶段的证书等内容，以及ServerHelloDone，可以记录certificate的长度，certificate status的长度，ServerKey Exchange的长度。所有的SSL VPN流量特征如表1所示。

表1 SSL VPN流量特征

特征	描述
		Extension各部分长度	拓展字段长度
Server Hello中各部分长度	证书，Server Key Exchange等长度
		正向分组到达时间统计量	正向分组到达时间的均值，方差，最大最小值等
反向分组到达时间统计量	反向分组到达时间的均值，方差，最大最小值等
		正向包长统计量	正向包长的均值，方差，最大最小值
反向包长统计量	反向包长的均值，方差，最大最小值

三、构建SSL VPN流量数据密度描述模型函数

一般来说同一类数据彼此之间会有一定的相似性，这也就会使得数据集中在某一区域之中，而不落在此区域中的数据就有较大的把握认为其不是该类的数据 (异常值)，这个区域称为数据描述域。

基于这一特征，可以给出基于密度的数据描述(Density-based DataDescription，DBDD)的核心思想：通过给定数据集找到该数据集中密度最大的超球体，从而可得以下模型函数：

其中ρ(R，a)表示密度，R表示超球的半径，a表示超球的球心，n为数据集中的样本数，C_nRⁿ为n维超球的体积。该目标函数的意义是使得落入以a为球心R为半径的超球体的样本点于超球体积的比最大，即密度最大。

对于ρ(R，a)，函数的分子部分是不可导的，如图2所示，这也就使使函数值最大的R和a十分困难，可以用sigmoid函数代替函数的分子中的函数f(x)。 sigmoid函数如图3所示。

使用sigmoid函数代替有以下好处:1.使得目标函数可导，方便求解；2.对于靠近边界的点处理更好，f(x)在处理边界点的时候直接将其划分为0或1，而 sigmoid函数在处理边界点时使用一个与点到边界距离成正比的值代替，类似于 SVM中的软间隔，这样可以在一定程度上防止过拟合。

四、对构建好的模型函数进行初步训练

1、采用梯度上升的方法，首先对R和a求偏导数：

2、给定初始值R₀和a₀，学习率η，则迭代的计算式如下：

然而直接指定一个合适的学习率是十分困难的，学习率过大可能会使得迭代无法收敛，学习率过小则会使得每次迭代步长小，从而使得收敛缓慢。

3、使用Adadelta方法自适应的调整学习率，根据每次计算出的梯度，来调节学习率，调整的公式如下：

4、以上经过初步训练的模型可以找到一个密度最大的超球，如图4所示。

但是，球中包含的数据仅为所有数据的一小部分，所以初步训练出的这个超球并不能代表该类数据的分布区域，需要进行进一步的训练。

五、对模型函数进一步训练，如图5所示，具体步骤如下：

Step 1.初始化误差上界γ，设定球平面内的样本点的最小密度α或最小样本数min_sample；

Step 2.梯度上升求解当前数据集的密度最大的球平面；

Step 3.计算出数据集中在该超球面中的点，如果点的数量小于min_sample 或密度小于α，跳到step 5；否则去除这些点，将剩下的超平面作为新的数据集；

Step 4.计算新的数据集中的点的数量，如果比例小于γ，跳至step 5；否则跳到step 2；

Step 5.输出得到的所有超球面。

通过以上训练步骤，可以将散落在密度最大的超球面外的数据点再次划分数据描述域，通过迭代的跳出方法可以防止数据在稀疏的数据上划分数据描述域，并防止因超球面中数据量过少而基于异常点划分出数据描述域。

六、整合所有超球面内的数据，获得基于密度描述的SSL VPN的数据描述域。

七、以基于密度描述的SSL VPN的数据描述域作为判别依据，对从特征到的SSLVPN流量特征向量进行判别，如果落在数据描述域内，则认为是SSL VPN 流量，否则认为是普通的SSL流量。