CN110311870B - 一种基于密度数据描述的ssl vpn流量识别方法 - Google Patents
一种基于密度数据描述的ssl vpn流量识别方法 Download PDFInfo
- Publication number
- CN110311870B CN110311870B CN201910498412.5A CN201910498412A CN110311870B CN 110311870 B CN110311870 B CN 110311870B CN 201910498412 A CN201910498412 A CN 201910498412A CN 110311870 B CN110311870 B CN 110311870B
- Authority
- CN
- China
- Prior art keywords
- data
- density
- ssl vpn
- ssl
- hypersphere
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/46—Interconnection of networks
- H04L12/4633—Interconnection of networks using encapsulation techniques, e.g. tunneling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/46—Interconnection of networks
- H04L12/4641—Virtual LANs, VLANs, e.g. virtual private networks [VPN]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明属于网络数据处理技术领域,涉及SSL VPN流量识别方法。一种基于密度数据描述的SSL VPN流量识别方法,包括:从网络流量中抓取使用SSL协议来保证安全传输的流量;将抓取到的SSL流量进行特征提取;以基于密度描述的SSL VPN的数据描述域作为判别依据,对提取到的特征向量进行分类判别,如果落在数据描述域内,则认为是SSL VPN流量,否则认为是普通的SSL流量。本发明的基于密度数据描述的SSL VPN流量识别方法,可以将SSL VPN流量转换成特征向量,由提出了一种的基于密度的数据描述,可以基于密度找到数据描述域,用于对SSL VPN流量进行分类。
Description
技术领域
本发明属于网络数据处理技术领域,涉及SSL VPN流量识别方法。
背景技术
随着大数据时代的到来,数据的采集也变得越来越方便,当数据采集完成之后,如何从数据中获取需要的信息成了新的挑战。分类问题作为机器学习的一个重要类别,基于已有的数据构建模型,进而对获取到未知类别数据的所属类别进行判断。但是分类需要的带标签的训练数据的获取并不容易,如VPN流量,往往可以通过多种方法获取带标签的VPN流量,而非VPN流量种类繁多,通常获取的反例集很难囊括所有的非VPN的流量种类。这种情况下可以用于训练的有标签的数据只有一类。
目前,针对这种仅可获得单类数据的情况,学者们也提出了相应的分类模型,其中使用最为广泛的就是One-Class SVM和SVDD。One-Class SVM的核心思想将坐标原点作为奇异点,找到超平面使得单类数据集与坐标原点分别落于超平面的两侧,同时使得坐标原点于超平面的距离尽可能的大,预测时将与训练样本落于同一侧的数据认为是目标类的数据,否则认为不是目标类的数据。SVDD则是通过核函数将原始样本映射到高维空间,在高维空间中寻找一个包含大部分数据的超球体,同时使得超球体的体积尽可能的小,进行预测时,认为落于超球内的数据为目标类的数据,否则不是。这两种算法被证明在处理单分类问题上效果相似。
还有一些学者将单分类问题作为异常检测问题来处理,将非目标类的数据作为异常点。应用比较广泛的有孤立森林(Isolation Forest),构造孤立树时,会随机选取一个特征,在该特征的取值范围中随机选择一个值划分数据集,迭代多轮,直到叶节点中只有一个数据点,就得到一个孤立树(Isolation Tree),同时构建多棵孤立树得到孤立森林。由于异常值是离群点,所以会比较快的划分到叶子节点;而非离群点往往需要经过更多次划分才能落到叶节点。可以通过叶节点和根节点的路径长度来判断是否为异常点。
VPN是在公共网络上建立专用网络,进行通信加密。所以,VPN流量必然涵盖多种类型流量,获得的VPN数据集内部通常含有多个类簇,所以,如何将 VPN流量数据进行分类、识别,获取需要的信息显得非常必要。
发明内容
为了解决VPN流量识别问题,本发明提出了基于密度数据描述的SSL VPN 流量识别方法。该方法从VPN流量数据的内部分布出发,划分数据描述域,从而实现VPN流量识别。
本发明解决其技术问题采用的技术方案是:一种基于密度数据描述的SSL VPN流量识别方法,包括:
从网络流量中抓取使用SSL协议来保证安全传输的流量;
将抓取到的SSL流量进行特征提取;
以基于密度描述的SSL VPN的数据描述域作为判别依据,对提取到的特征向量进行分类判别,如果落在数据描述域内,则认为是SSL VPN流量,否则认为是普通的SSL流量。
进一步的,所述基于密度描述的SSL VPN的数据描述域的获取方法为:
构建SSL VPN流量数据密度描述模型函数;
对所述的模型函数进行初步训练,得到一个密度最大的超球;
对所述的模型函数进行进一步训练,将散落在密度最大的超球面外的数据点重新划分数据描述域,得到多个超球面;
整合所有超球面内部的数据,构成SSL VPN的数据描述域。
进一步的,所述的SSL VPN流量数据密度描述模型函数为:
其中ρ(R,a)表示密度,R表示超球的半径,a表示超球的球心,n为数据集中的样本数,CnRn为n维超球的体积。
所述的初步训练方法为:
采用梯度上升的方法,首先对R和a求偏导数:
给定初始值R0和a0,学习率η,则迭代的计算式如下:
使用Adadelta方法自适应的调整学习率,根据每次计算出的梯度,来调节学习率,调整的公式为:
所述的进一步训练的步骤为:
1.初始化误差上界γ,设定球平面内的样本点的最小密度α或最小样本数 min_sample;
2.梯度上升求解当前数据集的密度最大的球平面;
3.计算出数据集中在该超球面中的点,如果点的数量小于min_sample或密度小于α,跳到步骤5;否则去除这些点,将剩下的超平面作为新的数据集;
4.计算新的数据集中的点的数量,如果比例小于γ,跳至步骤5;否则跳到步骤2;
5.输出得到的所有超球面。
本发明的基于密度数据描述的SSL VPN流量识别方法,可以将SSL VPN流量转换成特征向量,由提出了一种的基于密度的数据描述,可以基于密度找到数据描述域,用于对SSL VPN流量进行分类。具有以下有益效果:
(1)VPN流量识别可以帮助管理者或运营商监管网络流量;
(2)对数据内部的数据分布不敏感,可以对任意形状的数据划分数据描述域,可以适用于VPN隧道传输多种流量的特点;
(3)对数据集中的异常点不敏感,数据中的异常点不会影响数据描述域的划分。
附图说明
图1是本发明的基于密度数据描述的SSL VPN流量识别方法流程图;
图2是模型中进行类型判别的标志函数;
图3是模型中标志函数的替代函数,具有连续和可导的优点;
图4展示了一种模型函数求解之后遇到的特殊情况;
图5是模型训练以及求解的流程图。
具体实施方案
下面结合附图和实施例对本发明的基于密度数据描述的SSL VPN流量识别方法进行详细的阐述。
本发明的基于密度数据描述的SSL VPN流量识别方法,流程如图1所示,具体步骤如下:
一、从网络流量中抓取使用SSL协议来保证安全传输的流量;
二、将抓取到的SSL流量进行特征提取
SSL VPN流量分类重点关注流量在握手协议中的信息,首先是第一阶段,第一阶段包含Client Hello和Server Hello,Client Hello可以记录cipher suite(支持的加密协议),以及extension各部分的长度。Server Hello包中直接包含了第二阶段的证书等内容,以及ServerHelloDone,可以记录certificate的长度,certificate status的长度,ServerKey Exchange的长度。所有的SSL VPN流量特征如表1所示。
表1 SSL VPN流量特征
特征 | 描述 |
Extension各部分长度 | 拓展字段长度 |
Server Hello中各部分长度 | 证书,Server Key Exchange等长度 |
正向分组到达时间统计量 | 正向分组到达时间的均值,方差,最大最小值等 |
反向分组到达时间统计量 | 反向分组到达时间的均值,方差,最大最小值等 |
正向包长统计量 | 正向包长的均值,方差,最大最小值 |
反向包长统计量 | 反向包长的均值,方差,最大最小值 |
三、构建SSL VPN流量数据密度描述模型函数
一般来说同一类数据彼此之间会有一定的相似性,这也就会使得数据集中在某一区域之中,而不落在此区域中的数据就有较大的把握认为其不是该类的数据 (异常值),这个区域称为数据描述域。
基于这一特征,可以给出基于密度的数据描述(Density-based DataDescription,DBDD)的核心思想:通过给定数据集找到该数据集中密度最大的超球体,从而可得以下模型函数:
其中ρ(R,a)表示密度,R表示超球的半径,a表示超球的球心,n为数据集中的样本数,CnRn为n维超球的体积。该目标函数的意义是使得落入以a为球心R为半径的超球体的样本点于超球体积的比最大,即密度最大。
对于ρ(R,a),函数的分子部分是不可导的,如图2所示,这也就使使函数值最大的R和a十分困难,可以用sigmoid函数代替函数的分子中的函数f(x)。 sigmoid函数如图3所示。
使用sigmoid函数代替有以下好处:1.使得目标函数可导,方便求解;2.对于靠近边界的点处理更好,f(x)在处理边界点的时候直接将其划分为0或1,而 sigmoid函数在处理边界点时使用一个与点到边界距离成正比的值代替,类似于 SVM中的软间隔,这样可以在一定程度上防止过拟合。
四、对构建好的模型函数进行初步训练
1、采用梯度上升的方法,首先对R和a求偏导数:
2、给定初始值R0和a0,学习率η,则迭代的计算式如下:
然而直接指定一个合适的学习率是十分困难的,学习率过大可能会使得迭代无法收敛,学习率过小则会使得每次迭代步长小,从而使得收敛缓慢。
3、使用Adadelta方法自适应的调整学习率,根据每次计算出的梯度,来调节学习率,调整的公式如下:
4、以上经过初步训练的模型可以找到一个密度最大的超球,如图4所示。
但是,球中包含的数据仅为所有数据的一小部分,所以初步训练出的这个超球并不能代表该类数据的分布区域,需要进行进一步的训练。
五、对模型函数进一步训练,如图5所示,具体步骤如下:
Step 1.初始化误差上界γ,设定球平面内的样本点的最小密度α或最小样本数min_sample;
Step 2.梯度上升求解当前数据集的密度最大的球平面;
Step 3.计算出数据集中在该超球面中的点,如果点的数量小于min_sample 或密度小于α,跳到step 5;否则去除这些点,将剩下的超平面作为新的数据集;
Step 4.计算新的数据集中的点的数量,如果比例小于γ,跳至step 5;否则跳到step 2;
Step 5.输出得到的所有超球面。
通过以上训练步骤,可以将散落在密度最大的超球面外的数据点再次划分数据描述域,通过迭代的跳出方法可以防止数据在稀疏的数据上划分数据描述域,并防止因超球面中数据量过少而基于异常点划分出数据描述域。
六、整合所有超球面内的数据,获得基于密度描述的SSL VPN的数据描述域。
七、以基于密度描述的SSL VPN的数据描述域作为判别依据,对从特征到的SSLVPN流量特征向量进行判别,如果落在数据描述域内,则认为是SSL VPN 流量,否则认为是普通的SSL流量。
Claims (1)
1.一种基于密度数据描述的SSL VPN流量识别方法,其特征在于:包括:
从网络流量中抓取使用SSL协议来保证安全传输的流量;
将抓取到的SSL流量进行特征提取;
以基于密度描述的SSL VPN的数据描述域作为判别依据,对提取到的特征向量进行分类判别,如果落在数据描述域内,则认为是SSL VPN流量,否则认为是普通的SSL流量;
所述的数据描述域的获取方法为:
构建SSL VPN流量数据密度描述模型函数;
对所述的模型函数进行初步训练,得到一个密度最大的超球;
对所述的模型函数进行进一步训练,将散落在密度最大的超球面外的数据点重新划分数据描述域,得到多个超球面;
整合所有超球面内部的数据,构成SSL VPN的数据描述域;
所述的SSL VPN流量数据密度描述模型函数为:
所述的初步训练方法为:
采用梯度上升的方法,首先对R和a求偏导数
使用Adadelta方法自适应的调整学习率,根据每次计算出的梯度,来调节学习率,调整的公式为:
所述的进一步训练的步骤为:
初始化误差上界γ,设定球平面内的样本点的最小密度α或最小样本数min_sample;
梯度上升求解当前数据集的密度最大的球平面;
计算出数据集中在该超球面中的点,如果点的数量小于min_sample或密度小于α,跳到步骤 5;否则去除这些点,将剩下的超平面作为新的数据集;
计算新的数据集中的点的数量,如果比例小于γ,跳至步骤 5;否则跳到步骤 2;
输出得到的所有超球面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910498412.5A CN110311870B (zh) | 2019-06-10 | 2019-06-10 | 一种基于密度数据描述的ssl vpn流量识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910498412.5A CN110311870B (zh) | 2019-06-10 | 2019-06-10 | 一种基于密度数据描述的ssl vpn流量识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110311870A CN110311870A (zh) | 2019-10-08 |
CN110311870B true CN110311870B (zh) | 2022-08-02 |
Family
ID=68077099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910498412.5A Active CN110311870B (zh) | 2019-06-10 | 2019-06-10 | 一种基于密度数据描述的ssl vpn流量识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110311870B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112019500B (zh) * | 2020-07-15 | 2021-11-23 | 中国科学院信息工程研究所 | 一种基于深度学习的加密流量识别方法及电子装置 |
CN113364703B (zh) * | 2021-06-03 | 2023-08-08 | 天翼云科技有限公司 | 网络应用流量的处理方法、装置、电子设备和可读介质 |
CN114513435A (zh) * | 2022-01-14 | 2022-05-17 | 深信服科技股份有限公司 | 检测vpn隧道的方法、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101296228A (zh) * | 2008-06-19 | 2008-10-29 | 上海交通大学 | 基于流量分析的ssl vpn协议检测方法 |
CN108921123A (zh) * | 2018-07-17 | 2018-11-30 | 重庆科技学院 | 一种基于双重数据增强的人脸识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014100605A1 (en) * | 2012-12-21 | 2014-06-26 | Highspot, Inc. | Interest graph-powered search |
US11482307B2 (en) * | 2017-03-02 | 2022-10-25 | Drexel University | Multi-temporal information object incremental learning software system |
US10838420B2 (en) * | 2017-07-07 | 2020-11-17 | Toyota Jidosha Kabushiki Kaisha | Vehicular PSM-based estimation of pedestrian density data |
-
2019
- 2019-06-10 CN CN201910498412.5A patent/CN110311870B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101296228A (zh) * | 2008-06-19 | 2008-10-29 | 上海交通大学 | 基于流量分析的ssl vpn协议检测方法 |
CN108921123A (zh) * | 2018-07-17 | 2018-11-30 | 重庆科技学院 | 一种基于双重数据增强的人脸识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110311870A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967294B (zh) | 一种无监督域自适应的行人重识别方法 | |
Tuor et al. | Overcoming noisy and irrelevant data in federated learning | |
CN109241317B (zh) | 基于深度学习网络中度量损失的行人哈希检索方法 | |
CN110311870B (zh) | 一种基于密度数据描述的ssl vpn流量识别方法 | |
US10013636B2 (en) | Image object category recognition method and device | |
CN110880019B (zh) | 通过无监督域适应训练目标域分类模型的方法 | |
CN108647736B (zh) | 一种基于感知损失和匹配注意力机制的图像分类方法 | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及*** | |
CN109617888B (zh) | 一种基于神经网络的异常流量检测方法及*** | |
CN111181939A (zh) | 一种基于集成学习的网络入侵检测方法及装置 | |
US11403559B2 (en) | System and method for using a user-action log to learn to classify encrypted traffic | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN110225001B (zh) | 一种基于主题模型的动态自更新网络流量分类方法 | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
CN108108743A (zh) | 异常用户识别方法和用于识别异常用户的装置 | |
WO2022062419A1 (zh) | 基于非督导金字塔相似性学习的目标重识别方法及*** | |
CN110929848A (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN114172688B (zh) | 基于gcn-dl的加密流量网络威胁关键节点自动提取方法 | |
CN112087447A (zh) | 面向稀有攻击的网络入侵检测方法 | |
CN107358172B (zh) | 一种基于人脸朝向分类的人脸特征点初始化方法 | |
CN111598004A (zh) | 一种渐进增强自学习的无监督跨领域行人再识别方法 | |
WO2020024444A1 (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN114006870A (zh) | 一种基于自监督卷积子空间聚类网络的网络流量识别方法 | |
Shrivastav et al. | Network traffic classification using semi-supervised approach | |
CN110765329A (zh) | 一种数据的聚类方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |