CN110311870B - 一种基于密度数据描述的ssl vpn流量识别方法 - Google Patents

一种基于密度数据描述的ssl vpn流量识别方法 Download PDF

Info

Publication number
CN110311870B
CN110311870B CN201910498412.5A CN201910498412A CN110311870B CN 110311870 B CN110311870 B CN 110311870B CN 201910498412 A CN201910498412 A CN 201910498412A CN 110311870 B CN110311870 B CN 110311870B
Authority
CN
China
Prior art keywords
data
density
ssl vpn
ssl
hypersphere
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910498412.5A
Other languages
English (en)
Other versions
CN110311870A (zh
Inventor
刘扬
吕思才
黄俊恒
孙云霄
王佰玲
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hit Weihai Innovation Pioneer Park Co ltd
Harbin Institute of Technology Weihai
Original Assignee
Hit Weihai Innovation Pioneer Park Co ltd
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hit Weihai Innovation Pioneer Park Co ltd, Harbin Institute of Technology Weihai filed Critical Hit Weihai Innovation Pioneer Park Co ltd
Priority to CN201910498412.5A priority Critical patent/CN110311870B/zh
Publication of CN110311870A publication Critical patent/CN110311870A/zh
Application granted granted Critical
Publication of CN110311870B publication Critical patent/CN110311870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4633Interconnection of networks using encapsulation techniques, e.g. tunneling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4641Virtual LANs, VLANs, e.g. virtual private networks [VPN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于网络数据处理技术领域,涉及SSL VPN流量识别方法。一种基于密度数据描述的SSL VPN流量识别方法,包括:从网络流量中抓取使用SSL协议来保证安全传输的流量;将抓取到的SSL流量进行特征提取;以基于密度描述的SSL VPN的数据描述域作为判别依据,对提取到的特征向量进行分类判别,如果落在数据描述域内,则认为是SSL VPN流量,否则认为是普通的SSL流量。本发明的基于密度数据描述的SSL VPN流量识别方法,可以将SSL VPN流量转换成特征向量,由提出了一种的基于密度的数据描述,可以基于密度找到数据描述域,用于对SSL VPN流量进行分类。

Description

一种基于密度数据描述的SSL VPN流量识别方法
技术领域
本发明属于网络数据处理技术领域,涉及SSL VPN流量识别方法。
背景技术
随着大数据时代的到来,数据的采集也变得越来越方便,当数据采集完成之后,如何从数据中获取需要的信息成了新的挑战。分类问题作为机器学习的一个重要类别,基于已有的数据构建模型,进而对获取到未知类别数据的所属类别进行判断。但是分类需要的带标签的训练数据的获取并不容易,如VPN流量,往往可以通过多种方法获取带标签的VPN流量,而非VPN流量种类繁多,通常获取的反例集很难囊括所有的非VPN的流量种类。这种情况下可以用于训练的有标签的数据只有一类。
目前,针对这种仅可获得单类数据的情况,学者们也提出了相应的分类模型,其中使用最为广泛的就是One-Class SVM和SVDD。One-Class SVM的核心思想将坐标原点作为奇异点,找到超平面使得单类数据集与坐标原点分别落于超平面的两侧,同时使得坐标原点于超平面的距离尽可能的大,预测时将与训练样本落于同一侧的数据认为是目标类的数据,否则认为不是目标类的数据。SVDD则是通过核函数将原始样本映射到高维空间,在高维空间中寻找一个包含大部分数据的超球体,同时使得超球体的体积尽可能的小,进行预测时,认为落于超球内的数据为目标类的数据,否则不是。这两种算法被证明在处理单分类问题上效果相似。
还有一些学者将单分类问题作为异常检测问题来处理,将非目标类的数据作为异常点。应用比较广泛的有孤立森林(Isolation Forest),构造孤立树时,会随机选取一个特征,在该特征的取值范围中随机选择一个值划分数据集,迭代多轮,直到叶节点中只有一个数据点,就得到一个孤立树(Isolation Tree),同时构建多棵孤立树得到孤立森林。由于异常值是离群点,所以会比较快的划分到叶子节点;而非离群点往往需要经过更多次划分才能落到叶节点。可以通过叶节点和根节点的路径长度来判断是否为异常点。
VPN是在公共网络上建立专用网络,进行通信加密。所以,VPN流量必然涵盖多种类型流量,获得的VPN数据集内部通常含有多个类簇,所以,如何将 VPN流量数据进行分类、识别,获取需要的信息显得非常必要。
发明内容
为了解决VPN流量识别问题,本发明提出了基于密度数据描述的SSL VPN 流量识别方法。该方法从VPN流量数据的内部分布出发,划分数据描述域,从而实现VPN流量识别。
本发明解决其技术问题采用的技术方案是:一种基于密度数据描述的SSL VPN流量识别方法,包括:
从网络流量中抓取使用SSL协议来保证安全传输的流量;
将抓取到的SSL流量进行特征提取;
以基于密度描述的SSL VPN的数据描述域作为判别依据,对提取到的特征向量进行分类判别,如果落在数据描述域内,则认为是SSL VPN流量,否则认为是普通的SSL流量。
进一步的,所述基于密度描述的SSL VPN的数据描述域的获取方法为:
构建SSL VPN流量数据密度描述模型函数;
对所述的模型函数进行初步训练,得到一个密度最大的超球;
对所述的模型函数进行进一步训练,将散落在密度最大的超球面外的数据点重新划分数据描述域,得到多个超球面;
整合所有超球面内部的数据,构成SSL VPN的数据描述域。
进一步的,所述的SSL VPN流量数据密度描述模型函数为:
Figure BDA0002089380390000021
其中ρ(R,a)表示密度,R表示超球的半径,a表示超球的球心,n为数据集中的样本数,CnRn为n维超球的体积。
所述的初步训练方法为:
采用梯度上升的方法,首先对R和a求偏导数:
Figure BDA0002089380390000031
给定初始值R0和a0,学习率η,则迭代的计算式如下:
Figure BDA0002089380390000032
使用Adadelta方法自适应的调整学习率,根据每次计算出的梯度,来调节学习率,调整的公式为:
Figure BDA0002089380390000033
所述的进一步训练的步骤为:
1.初始化误差上界γ,设定球平面内的样本点的最小密度α或最小样本数 min_sample;
2.梯度上升求解当前数据集的密度最大的球平面;
3.计算出数据集中在该超球面中的点,如果点的数量小于min_sample或密度小于α,跳到步骤5;否则去除这些点,将剩下的超平面作为新的数据集;
4.计算新的数据集中的点的数量,如果比例小于γ,跳至步骤5;否则跳到步骤2;
5.输出得到的所有超球面。
本发明的基于密度数据描述的SSL VPN流量识别方法,可以将SSL VPN流量转换成特征向量,由提出了一种的基于密度的数据描述,可以基于密度找到数据描述域,用于对SSL VPN流量进行分类。具有以下有益效果:
(1)VPN流量识别可以帮助管理者或运营商监管网络流量;
(2)对数据内部的数据分布不敏感,可以对任意形状的数据划分数据描述域,可以适用于VPN隧道传输多种流量的特点;
(3)对数据集中的异常点不敏感,数据中的异常点不会影响数据描述域的划分。
附图说明
图1是本发明的基于密度数据描述的SSL VPN流量识别方法流程图;
图2是模型中进行类型判别的标志函数;
图3是模型中标志函数的替代函数,具有连续和可导的优点;
图4展示了一种模型函数求解之后遇到的特殊情况;
图5是模型训练以及求解的流程图。
具体实施方案
下面结合附图和实施例对本发明的基于密度数据描述的SSL VPN流量识别方法进行详细的阐述。
本发明的基于密度数据描述的SSL VPN流量识别方法,流程如图1所示,具体步骤如下:
一、从网络流量中抓取使用SSL协议来保证安全传输的流量;
二、将抓取到的SSL流量进行特征提取
SSL VPN流量分类重点关注流量在握手协议中的信息,首先是第一阶段,第一阶段包含Client Hello和Server Hello,Client Hello可以记录cipher suite(支持的加密协议),以及extension各部分的长度。Server Hello包中直接包含了第二阶段的证书等内容,以及ServerHelloDone,可以记录certificate的长度,certificate status的长度,ServerKey Exchange的长度。所有的SSL VPN流量特征如表1所示。
表1 SSL VPN流量特征
特征 描述
Extension各部分长度 拓展字段长度
Server Hello中各部分长度 证书,Server Key Exchange等长度
正向分组到达时间统计量 正向分组到达时间的均值,方差,最大最小值等
反向分组到达时间统计量 反向分组到达时间的均值,方差,最大最小值等
正向包长统计量 正向包长的均值,方差,最大最小值
反向包长统计量 反向包长的均值,方差,最大最小值
三、构建SSL VPN流量数据密度描述模型函数
一般来说同一类数据彼此之间会有一定的相似性,这也就会使得数据集中在某一区域之中,而不落在此区域中的数据就有较大的把握认为其不是该类的数据 (异常值),这个区域称为数据描述域。
基于这一特征,可以给出基于密度的数据描述(Density-based DataDescription,DBDD)的核心思想:通过给定数据集找到该数据集中密度最大的超球体,从而可得以下模型函数:
Figure BDA0002089380390000051
其中ρ(R,a)表示密度,R表示超球的半径,a表示超球的球心,n为数据集中的样本数,CnRn为n维超球的体积。该目标函数的意义是使得落入以a为球心R为半径的超球体的样本点于超球体积的比最大,即密度最大。
对于ρ(R,a),函数的分子部分是不可导的,如图2所示,这也就使使函数值最大的R和a十分困难,可以用sigmoid函数代替函数的分子中的函数f(x)。 sigmoid函数如图3所示。
使用sigmoid函数代替有以下好处:1.使得目标函数可导,方便求解;2.对于靠近边界的点处理更好,f(x)在处理边界点的时候直接将其划分为0或1,而 sigmoid函数在处理边界点时使用一个与点到边界距离成正比的值代替,类似于 SVM中的软间隔,这样可以在一定程度上防止过拟合。
四、对构建好的模型函数进行初步训练
1、采用梯度上升的方法,首先对R和a求偏导数:
Figure BDA0002089380390000052
2、给定初始值R0和a0,学习率η,则迭代的计算式如下:
Figure BDA0002089380390000061
然而直接指定一个合适的学习率是十分困难的,学习率过大可能会使得迭代无法收敛,学习率过小则会使得每次迭代步长小,从而使得收敛缓慢。
3、使用Adadelta方法自适应的调整学习率,根据每次计算出的梯度,来调节学习率,调整的公式如下:
Figure BDA0002089380390000062
4、以上经过初步训练的模型可以找到一个密度最大的超球,如图4所示。
但是,球中包含的数据仅为所有数据的一小部分,所以初步训练出的这个超球并不能代表该类数据的分布区域,需要进行进一步的训练。
五、对模型函数进一步训练,如图5所示,具体步骤如下:
Step 1.初始化误差上界γ,设定球平面内的样本点的最小密度α或最小样本数min_sample;
Step 2.梯度上升求解当前数据集的密度最大的球平面;
Step 3.计算出数据集中在该超球面中的点,如果点的数量小于min_sample 或密度小于α,跳到step 5;否则去除这些点,将剩下的超平面作为新的数据集;
Step 4.计算新的数据集中的点的数量,如果比例小于γ,跳至step 5;否则跳到step 2;
Step 5.输出得到的所有超球面。
通过以上训练步骤,可以将散落在密度最大的超球面外的数据点再次划分数据描述域,通过迭代的跳出方法可以防止数据在稀疏的数据上划分数据描述域,并防止因超球面中数据量过少而基于异常点划分出数据描述域。
六、整合所有超球面内的数据,获得基于密度描述的SSL VPN的数据描述域。
七、以基于密度描述的SSL VPN的数据描述域作为判别依据,对从特征到的SSLVPN流量特征向量进行判别,如果落在数据描述域内,则认为是SSL VPN 流量,否则认为是普通的SSL流量。

Claims (1)

1.一种基于密度数据描述的SSL VPN流量识别方法,其特征在于:包括:
从网络流量中抓取使用SSL协议来保证安全传输的流量;
将抓取到的SSL流量进行特征提取;
以基于密度描述的SSL VPN的数据描述域作为判别依据,对提取到的特征向量进行分类判别,如果落在数据描述域内,则认为是SSL VPN流量,否则认为是普通的SSL流量;
所述的数据描述域的获取方法为:
构建SSL VPN流量数据密度描述模型函数;
对所述的模型函数进行初步训练,得到一个密度最大的超球;
对所述的模型函数进行进一步训练,将散落在密度最大的超球面外的数据点重新划分数据描述域,得到多个超球面;
整合所有超球面内部的数据,构成SSL VPN的数据描述域;
所述的SSL VPN流量数据密度描述模型函数为:
Figure DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE004
表示密度,R表示超球的半径,a表示超球的球心,n为数据集中的样本数,
Figure DEST_PATH_IMAGE006
为n维超球的体积;
所述的初步训练方法为:
采用梯度上升的方法,首先对R和a求偏导数
Figure DEST_PATH_IMAGE008
给定初始值
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
,学习率
Figure DEST_PATH_IMAGE014
,则迭代的计算式如下:
Figure DEST_PATH_IMAGE016
使用Adadelta方法自适应的调整学习率,根据每次计算出的梯度,来调节学习率,调整的公式为:
Figure DEST_PATH_IMAGE018
所述的进一步训练的步骤为:
初始化误差上界γ,设定球平面内的样本点的最小密度α或最小样本数min_sample;
梯度上升求解当前数据集的密度最大的球平面;
计算出数据集中在该超球面中的点,如果点的数量小于min_sample或密度小于α,跳到步骤 5;否则去除这些点,将剩下的超平面作为新的数据集;
计算新的数据集中的点的数量,如果比例小于γ,跳至步骤 5;否则跳到步骤 2;
输出得到的所有超球面。
CN201910498412.5A 2019-06-10 2019-06-10 一种基于密度数据描述的ssl vpn流量识别方法 Active CN110311870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910498412.5A CN110311870B (zh) 2019-06-10 2019-06-10 一种基于密度数据描述的ssl vpn流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910498412.5A CN110311870B (zh) 2019-06-10 2019-06-10 一种基于密度数据描述的ssl vpn流量识别方法

Publications (2)

Publication Number Publication Date
CN110311870A CN110311870A (zh) 2019-10-08
CN110311870B true CN110311870B (zh) 2022-08-02

Family

ID=68077099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910498412.5A Active CN110311870B (zh) 2019-06-10 2019-06-10 一种基于密度数据描述的ssl vpn流量识别方法

Country Status (1)

Country Link
CN (1) CN110311870B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112019500B (zh) * 2020-07-15 2021-11-23 中国科学院信息工程研究所 一种基于深度学习的加密流量识别方法及电子装置
CN113364703B (zh) * 2021-06-03 2023-08-08 天翼云科技有限公司 网络应用流量的处理方法、装置、电子设备和可读介质
CN114513435A (zh) * 2022-01-14 2022-05-17 深信服科技股份有限公司 检测vpn隧道的方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296228A (zh) * 2008-06-19 2008-10-29 上海交通大学 基于流量分析的ssl vpn协议检测方法
CN108921123A (zh) * 2018-07-17 2018-11-30 重庆科技学院 一种基于双重数据增强的人脸识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014100605A1 (en) * 2012-12-21 2014-06-26 Highspot, Inc. Interest graph-powered search
US11482307B2 (en) * 2017-03-02 2022-10-25 Drexel University Multi-temporal information object incremental learning software system
US10838420B2 (en) * 2017-07-07 2020-11-17 Toyota Jidosha Kabushiki Kaisha Vehicular PSM-based estimation of pedestrian density data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296228A (zh) * 2008-06-19 2008-10-29 上海交通大学 基于流量分析的ssl vpn协议检测方法
CN108921123A (zh) * 2018-07-17 2018-11-30 重庆科技学院 一种基于双重数据增强的人脸识别方法

Also Published As

Publication number Publication date
CN110311870A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
Tuor et al. Overcoming noisy and irrelevant data in federated learning
CN109241317B (zh) 基于深度学习网络中度量损失的行人哈希检索方法
CN110311870B (zh) 一种基于密度数据描述的ssl vpn流量识别方法
US10013636B2 (en) Image object category recognition method and device
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
CN108647736B (zh) 一种基于感知损失和匹配注意力机制的图像分类方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及***
CN109617888B (zh) 一种基于神经网络的异常流量检测方法及***
CN111181939A (zh) 一种基于集成学习的网络入侵检测方法及装置
US11403559B2 (en) System and method for using a user-action log to learn to classify encrypted traffic
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN110225001B (zh) 一种基于主题模型的动态自更新网络流量分类方法
CN109918498B (zh) 一种问题入库方法和装置
CN108108743A (zh) 异常用户识别方法和用于识别异常用户的装置
WO2022062419A1 (zh) 基于非督导金字塔相似性学习的目标重识别方法及***
CN110929848A (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN114172688B (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN112087447A (zh) 面向稀有攻击的网络入侵检测方法
CN107358172B (zh) 一种基于人脸朝向分类的人脸特征点初始化方法
CN111598004A (zh) 一种渐进增强自学习的无监督跨领域行人再识别方法
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN114006870A (zh) 一种基于自监督卷积子空间聚类网络的网络流量识别方法
Shrivastav et al. Network traffic classification using semi-supervised approach
CN110765329A (zh) 一种数据的聚类方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant