CN111817982B - 一种面向类别不平衡下的加密流量识别方法 - Google Patents

一种面向类别不平衡下的加密流量识别方法 Download PDF

Info

Publication number
CN111817982B
CN111817982B CN202010733979.9A CN202010733979A CN111817982B CN 111817982 B CN111817982 B CN 111817982B CN 202010733979 A CN202010733979 A CN 202010733979A CN 111817982 B CN111817982 B CN 111817982B
Authority
CN
China
Prior art keywords
samples
sample
data
flow
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010733979.9A
Other languages
English (en)
Other versions
CN111817982A (zh
Inventor
翟江涛
吉小鹏
崔永富
林鹏
石怀峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010733979.9A priority Critical patent/CN111817982B/zh
Publication of CN111817982A publication Critical patent/CN111817982A/zh
Application granted granted Critical
Publication of CN111817982B publication Critical patent/CN111817982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种面向类别不平衡下的加密流量识别方法,步骤如下:S1、获取数据集;S2、平衡数据集:采用基于密度估计的改进SMOTE算法,对原始实验数据集进行处理;S3、数据预处理:读取数据流,截断数据,并进行归一化处理;S4、最优化特征集:通过变分自动编码器模型自动提取特征,通过网络流量来识别领域常用的特征,并利用基于树模型的特征选择法得到最优化特征集;S5、识别流量:将最优化特征集输入到基于遗传算法改进的随机森林CGA‑RF分类器算法,识别目的加密流量;S6、对获得的指标结果分析,优化加密流量识别方法。本发明识别率高,误报率低,适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。

Description

一种面向类别不平衡下的加密流量识别方法
技术领域
本发明涉及加密流量识别领域,具体涉及一种面向类别不平衡下的加密流量识别方法。
背景技术
随着网络技术的快速发展,越来越多的网络应用都用加密协议来保证信息在网络中安全的传输,加密流量在现实的网络流量中占有越来越大比重。但是,由于加密流量的隐蔽性的特点往往成为网络攻击的载体,近年来网络安全事件愈演愈烈,究其原因网络安全问题尚没有得到足够的重视,网络攻击往往以加密的网络流量为载体不断攻击***网络。现有以僵尸网络、高级持续性威胁、木马等为主要形式的网络攻击往往采用了相关隐匿技术绕过安全设备入侵***。一些恶意软件通过加密技术绕过防火墙和入侵检测***,识别加密流量是异常流量检测的首要任务,恶意流量的有效识别事关网络安全,如果不能有效地检测异常入侵,就会时刻威胁着网络空间的安全,对加密流量的识别已经成为防御网络攻击的重点。因此,加密流量的有效识别对保护网络安全有重要意义,同时也是提升网络管理与安全监测水平和改善服务质量的基础。
网络安全的威胁越来越受到人们的关注,针对其的识别受到研究者的青睐。加密流量的识别目前方法主要有6类:基于端口的识别方法、基于深层数据包的识别方法、基于负载随机性的识别方法、基于主机行为的识别方法、基于机器学***衡的现象,现实网络中加密数据流相比其他数据流稀少得多,当一个样本的个数远大于或小于其他样本个数,就存在样本类别不平衡的问题。无论是浅层机器学***衡的。然而,现实网络中各种加密应用数据流分布很不均衡,比如通过加密协议承载的音、视频流远大于即时通信、纯网页加密流等,SSH、IPsec等加密协议的数据流远远少于HTTPS协议。网络应用流类别不平衡是指数据集中存在的类别样本数量不均衡,通过训练,这些分类算法可能会忽略少数类别的流样本导致欠拟合,或重视少数类的差别造成过拟合,降低算法识别效果。
发明内容
本发明针对现有技术中的不足,提供一种在类别不平衡条件下的有效识别加密流量的方法。
为实现上述目的,本发明采用以下技术方案:一种面向类别不平衡下的加密流量识别方法,包括以下步骤:
S1、获取数据集:捕获网络数据流量,生成会话,通过五元组【源ip、目的ip、源端口、目的端口、协议类型】对网络数据流量过滤分流并获取原始实验数据集;
S2、平衡数据集:采用基于密度估计的改进SMOTE算法,对原始实验数据集进行处理;
S3、数据预处理:读取平衡数据集后的数据流,截断数据,并进行归一化处理;
S4、最优化特征集:通过变分自动编码器模型自动提取特征,通过网络流量来识别领域常用的特征,并利用基于树模型的特征选择法得到最优化特征集;
S5、识别流量:将最优化特征集输入到基于遗传算法改进的随机森林CGA-RF分类器算法,识别目的加密流量;
S6、对获得的指标结果分析,并选取参数,优化加密流量识别方法。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1包括:定义TCP流为以握手协议中的SYN标志位开始,并且以FIN标志位或以RST标志位结尾的TCP双向流。
进一步地,步骤S1包括:
定义UDP流为以第一个数据包到达为开始,如果两个数据包到达的时间间隔超过一分钟,则认为数据流结束,新数据流的开始。
进一步地,步骤S2为,基于密度估计的改进SMOTE算法,采用SN-SMOTE算法的领域计算策略,为少数类样本分配不同的领域参数。
进一步地,步骤S2具体包括以下步骤:
S21、分离原始实验数据集中的多数类和少数类的样本,分别在多数类和少数类样本上训练GMM模型,得到类内样本概率密度的信息;
S22、对少数类中的样本按照概率密度从大到小的顺序进行排列,并按照排序选取排在前面的类内样本个数*β1个样本,β1为比例参数,这部分样本则记为安全样本;
S23、将少数类中除安全样本外剩余的样本放在多数类的GMM模型中,计算得到剩余的样本在异类分布中的概率密度,并将概率密度按照从大到小的顺序进行排序;
S24、按照排序选取排在前面的类内样本个数*β2个样本,β2为比例参数,记为边界样本,剩下部分的样本则标记为离群样本;
S25、随机选取少数类中的一个样本作为主样本,并选取与其样本类型相对应的邻域参数进行计算,合成新样本,重复此过程直到数据集平衡。
进一步地,步骤S3具体包括以下步骤:
S31、读取平衡数据集后的数据流,判断数据流长度是否大于n个字节;
S32、若数据流长度大于等于n个字节,进行去除数据链路层和对UDP头部填充0;
S33、若长度小于n个字节,则进行对数据包填充0;
S34、对提取的数据进行归一化处理。
进一步地,步骤S5中CGA-RF分类器算法步骤包括:
S51、用训练集构建决策树,组成原始的决策树集合;
S52、从原始的决策树集合中筛选出性能较优的决策树,构成新的决策树集合;
S53、利用遗传算法重复步骤S52,直到得到最优的随机森林模型。
本发明的有益效果是:本发明通过基于密度估计的改进SMOTE算法,采用SN-SMOTE算法的领域计算策略并更合理的为少数类样本分配不同的领域参数,有效避免传统SMOTE算法易受噪声干扰、泛化能力差的问题,解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题。本发明融合变分自动编码器算法自动提取特征和网络流量识别领域常用特征的思想,并通过引入基于树模型的特征选择法得到对识别贡献度最大的特征集,有效地避免了由于特征冗余导致识别效率底的问题。本发明识别率高,误报率低,适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。
附图说明
图1为本发明的类别不平衡下的加密流量识别模型整体流程图。
图2为本发明的数据流字节长度与准确率的关系示意图。
图3为本发明VAE模型隐层变量Z维度与准确率的关系示意图。
图4为本发明的改进SMOTE平衡数据集和传统SMOTE平衡数据集和不平衡数据集的实验准确率的结果图。
图5为本发明与对比实验指标精确率的结果对比图。
图6为本发明与对比实验指标召回率的结果对比图。
图7为本发明与对比实验指标F1-Measure的结果对比图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
本发明提供了一种面向类别不平衡下的加密流量识别方法,针对样本数据集的类别不平衡性和特征提取困难和特征冗余的问题,通过基于密度估计的改进SMOTE算法平衡原始数据集,接着提取网络流量识别领域常用的特征并使用变分自动编码器模型自动提取特征,之后利用基于树模型的特征选择法得到对识别贡献度最大的特征集,最后输入CGA-RF分类器进行识别评估。
如图1所示,面向类别不平衡下的加密流量识别方法过程至少包括:获取数据集、平衡数据集、数据预处理、最优化特征集、识别流量和指标结果分析几个步骤。
获取数据集是用Wireshark软件抓取网络流量,生成会话,通过五元组对流量过滤分流获取原始实验数据集。其中对于TCP流,本发明实验判定条件是以握手协议中的SYN标志位开始,并且以FIN标志位或者RST标志位结尾的TCP双向流。对于UDP流,由于UDP协议设计特点不同于TCP协议有着显式的FIN结束标志,本发明则以第一个数据包到达为开始,如果两个数据包到达的时间间隔超过一分钟,则可认为数据流结束,意味着新数据流的开始。
平衡数据集就是实验采用基于密度估计的改进SMOTE算法对不平衡数据集进行处理。合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)是一种基于随机过采样的改进算法,其避免了通过简单的复制过采样策略导致的模型过拟合、不具有泛化效果的缺陷。传统SMOTE算法基本思想是计算每个少数样本的欧氏距离,并利用K近邻思想随机选择若干个样本,然后随机的线性插值生成新的样本,从而增加少数样本进而平衡数据集,避免了模型的过拟合。传统的SMOTE算法采取随机选择K近邻中N个样本进行线性插值,或者采用随机选择K近邻中的N个样本并以一定概率选用样本点周围的点,原则是欧式距离越近,选用概率值越大,欧式距离越远则概率值越小,呈指数下降趋势。传统的SMOTE算法具体过程实现如下:
(1)设训练集的少数类的样本数为T,目标合成少数类到NT个新样本(N必须是正整数),少数类的一个样本Xi,其特征向量为Xi,i∈{1,...,T};
(2)在少数类的全部T个样本中用欧氏距离找到样本Xi的k个近邻,记为xi(near),near∈{1,...,k};
(3)这xi(near)中选择概率值最大的一个样本xi(nn),再生成一个0到1之间的随机数ζ1,从而合成一个新样本Xi1,其中Xi1=Xi+ζ1*(Xi(nn)-Xi);
(4)将步骤(3)重复进行N次,从而可以合成N个新样本:Xinew,new∈1,...,N;
(5)对全部的T个少数类样本进行(2)~(4)操作,即完成为少数类合成NT个新样本。
但是,SMOTE算法在合成少数类的过程中易受噪声和离群样本的影响,未考虑到样本先验分布信息的作用,对所有样本分配相同的参数,并且其存在不能改变原有样本分布的***轮廓特征的可能,泛化能力较差。针对此,本发明提出基于密度估计的改进SMOTE算法,采用SN-SMOTE算法的领域计算策略并更合理的为少数类样本分配不同的领域参数,有效地提升算法的泛化性,同时降低了采样风险。
改进的SMOTE算法不再采取传统的SMOTE算法随机选择K近邻中N个样本进行线性插值,或者随机选择K近邻中的N个样本并以一定概率选用样本点周围的点。改进的SMOTE算法具体的领域计算策略是:在少数类样本中找到主样本的最近邻样本,其作为一近邻;找到少数类中距主样本和其一近邻连线中心点最近的样本,其作为二近邻;找到距离主样本点与其一、二两近邻所构成的三角形质心点最近的少数类样本,其作为三近邻;同样的,以此类推找到其全部的K近邻即可。之后,在主样本与其某个随机近邻的连线上随机生成新样本:
Xinew=Xi+ζ1*(Xi′-Xi)
式中,Xinew代表生成的新样本,Xi代表主样本,Xi′代表主样本的某个随机近邻样本,ζ1代表0到1之间的随机数。
改进的SMOTE算法针对每类样本的特点分配个性化的SMOTE参数,不再是传统的对所有样本分配相同的参数。本发明主要思想根据少数类样本的概率密度分布特点,设置阈值把样本分为安全样本、边界样本和离群样本,其各自比重为α1、α2、α3,并且有:
α123=1
本发明引入高斯混合模型(Gaussian Mixture Model,GMM)进行样本划分,根据少数类GMM模型计算样本的概率密度,确定对应于α1比例的高概率密度样本,则为安全样本。之后把剩余的样本放入多数类GMM模型,对应参数α2,选取其中概率密度较大的样本,则为边界样本。最后,对于剩下样本,则为离群样本。针对3种不同类型样本,本发明设置不同的SMOTE参数,对于安全样本,本发明取K=6;对于边界样本,本发明取K=3;对于离群样本,本发明取K=1。
基于密度估计的改进SMOTE算法具体过程实现如下:
(1)将分离流量数据集中的多数类和少数类样本,分别在每类样本上训练GMM模型,得到类内样本概率密度的信息;
(2)对少数类中的样本按照概率密度从大到小的顺序进行排列,并按照排序选取排在前类内样本个数*β1个样本,这部分样本则记为安全样本;
(3)将少数类中剩余样本放在多数类的GMM模型计算得到这些样本在异类分布中的概率密度,并按照从大到小的顺序进行排序;
(4)按照排序选取排在前类内样本个数*β2个样本,这部分样本则记为边界样本,剩下部分的样本则标记为离群样本;
(5)随机选取少数类中的一个样本作为主样本,并选取与其样本类型相对应的邻域参数进行计算,合成新样本,重复此过程直到平衡数据集,一般来说,设定比值不大于10倍为平衡数据集。
数据预处理就是提取数据包负载,截断数据流前n个字节,不够n个字节数填充0。为了防止物理硬件对分类的影响,需要去除数据包的数据链路层字节。由于UDP头部比TCP头部少12字节,为了消除实验误差影响需要在UDP头部填充0。为了得到最佳算法识别效果,需要对提取的数据包字节进行归一化处理。
最优化特征集就是融合变分自动编码器(Variational Auto-Encoder,VAE)算法自动提取特征和网络流量识别领域常用特征的思想,并通过引入基于树模型的特征选择法得到对识别贡献度最大的特征集。VAE是深度学习领域常用的一个深度学习模型,通过学习样本的分布规律,训练出来的自编码不仅能重构样本,还具有仿照样本的功能。VAE区别于传统的自编码器,VAE有两个Encoder,其中计算方差的Encoder用来动态调节噪声的强度,另一个计算均值的Encoder通过不断优化均值为零让Encoder的结果能够对噪声有鲁棒性。Encoder编码后的隐藏变量Z通过Decoder还原成样本
Figure BDA0002603319430000061
找到原始样本x与生成样本
Figure BDA0002603319430000062
的最小损失函数,而训练模型中的隐层变量Z可代表样本的特征,非常适合用来识别网络中的加密流量。本发明采用网络流量识别领域常用流级特征,流级特征使用最广泛,特征信息大多位于传输层或网络层。数据流级的特征是从一段时间间隔内具有相同五元组(源IP地址、源端口、目的IP地址、目的端口、应用类别)信息的数据包的集合中提取。比如时间相关的流特征,如网络流的持续时间,以文件传输为主要目的FTP流,其持续时间就远大于以网页浏览为目的的Web流。因此从网络流特征的角度度量,可以有效地流识别网络中的加密流量。从属性易获取的角度出发,本发明提取了23项常用于加密识别的网络流属性,如数据包大小、时间戳等等。从机器学习角度出发,特征太少不能表现样本的特点,但过多的特征也会带来特征冗余的问题,会造成特征偏置降低分类的性能和效率。因此,本发明使用树模型中GBDT作为基模型进行特征选择,使用feature_selection库的SelectFromModel类结合GBDT模型,训练基模型,选择权值系数较高的特征,最终得到对识别贡献度最大的特征集。
识别流量就是把最优化特征集输入基于遗传算法改进的随机森林CGA-RF分类器算法识别目的加密流量,通过交叉验证方式调试分类器参数,得到最优的分类器模型并决策评估。其中CGA-RF(Combine Genetic Algorithm random forest)算法主要流程如下:
(1)用训练集构建一定数量的决策树,组成原始的决策树集合;
(2)根据选择性集成的思路,从原始的决策树集合中筛选出性能较优的决策树,构成新的决策树集合;
(3)利用遗传算法迭代多次,直至损失函数最低,直到收敛,得到最优的随机森林模型。
基于遗传算法改进的随机森林CGA-RF分类器算法避免了由于个体学习器之间的差异性减少,从而使得集成模型的效果下降,更有利于加密流量的识别效果。
指标结果分析就是对实验结果得到的指标结果进行分析,并选取合适的参数,优化算法,提高识别率。
如图2所示,数据流字节长度的观察窗口的大小对模型的识别率有很大的影响。在数据流字节长度小于1000时,本发明实验识别模型平均准确率与截取的数据流字节长度呈正比例关系,从统计学的角度上因为数据量不足不能充分反映样本的特点,局限性太大。当数据流字节长度为1000时平均准确率最高达到98.4%,之后两者的呈振荡关系上下浮动,考虑到模型时间效率和计算机的资源开销,本发明实验选择数据流字节长度为1000个能达到最理想状况。
如图3所示,隐层变量Z的维度同样影响着识别模型的准确率,隐层变量Z的维度为2时,模型的准确率95.5%,其特征维度较小不能充分反映待测样本的特点。随着隐层变量Z的维度增加到6时模型有最高的准确率98.6%,之后随着隐层变量Z的维度的增大准确率下降,可见本发明识别模型的隐层变量Z观察窗口大小设置为6时具有最好的实验效果。
如图4所示,可以看出类别不平衡数据集下的识别准确率仅有82.7%,使用传统SMOTE算法平衡数据集的准确率93.2%,本发明基于概率密度改进的SMOTE算法具有明显的提升识别效果,其识别准确率达98.3%以上,具有良好的识别效果。这是由于在训练模型时,类别不平衡的样本会导致算法重视少数类的差别造成过拟合或者因为少数类别样本太少学习能力不足造成欠拟合的现象,实验效果不佳,而本发明采用SN-SMOTE算法的领域计算策略并更合理的为少数类样本分配不同的领域参数,有效避免传统SMOTE算法易受噪声干扰、泛化能力差的问题,有着良好的实验效果。
如图5-7所示,为了测试并对比本发明方法加密流量识别性能,本发明选择最基本的深度学***均的精确率、召回率和F1-Measure仅有95.2%、94.7%和94.9%。本发明模型融合变分自动编码器算法自动提取特征和网络流量识别领域常用特征的思想,并通过引入基于树模型的特征选择法得到对识别贡献度最大的特征集,模型平均的精确率、召回率和F1-Measure达到了98.3%、97.8%和98.0%以上,本发明模型取得了良好的识别效果。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (4)

1.一种面向类别不平衡下的加密流量识别方法,其特征在于,包括以下步骤:
S1、获取数据集:捕获网络数据流量,生成会话,通过五元组对网络数据流量过滤分流并获取原始实验数据集;
S2、平衡数据集:采用基于密度估计的改进SMOTE算法,对原始实验数据集进行处理;具体为:采用SN-SMOTE算法的邻域计算策略,为少数类样本分配不同的邻域参数;包括以下步骤:
S21、分离原始实验数据集中的多数类和少数类的样本,分别在多数类和少数类样本上训练GMM模型,得到类内样本概率密度的信息;
S22、对少数类中的样本按照概率密度从大到小的顺序进行排列,并按照排序选取排在前面的类内样本个数*β1个样本,β1为比例参数,这部分样本则记为安全样本;
S23、将少数类中除安全样本外剩余的样本放在多数类的GMM模型中,计算得到剩余的样本在异类分布中的概率密度,并将概率密度按照从大到小的顺序进行排序;
S24、按照排序选取排在前面的类内样本个数*β2个样本,β2为比例参数,记为边界样本,剩下部分的样本则标记为离群样本;
S25、随机选取少数类中的一个样本作为主样本,并选取与其样本类型相对应的邻域参数进行计算,合成新样本,重复此过程直到数据集平衡;
S3、数据预处理:读取平衡数据集后的数据流,截断数据,并进行归一化处理;
S4、最优化特征集:通过变分自动编码器模型自动提取特征,以及提取网络流量识别领域常用的流级特征,并利用基于树模型的特征选择法从上述两种特征中得到对识别贡献度最大的特征集作为最优化特征集;所述利用基于树模型的特征选择法从上述两种特征中得到对识别贡献度最大的特征集作为最优化特征集具体包括以下步骤:
S41、使用树模型中的GBDT作为基模型进行特征选择;
S42、使用feature_selection库的SelectFromModel类结合GBDT模型,训练基模型;
S43、选择权值系数较高的特征得到最优化特征集;
S5、识别流量:将最优化特征集输入到结合遗传算法的随机森林CGA-RF分类器算法,识别目的加密流量;所述CGA-RF分类器算法具体为:
S51、用训练集构建决策树,组成原始的决策树集合;
S52、从原始的决策树集合中筛选出性能较优的决策树,构成新的决策树集合;
S53、利用遗传算法重复步骤S52,直到得到最优的随机森林模型;
S6、对获得的指标结果分析,并选取参数,优化加密流量识别方法。
2.根据权利要求1所述的面向类别不平衡下的加密流量识别方法,其特征在于,步骤S1包括:定义TCP流为以握手协议中的SYN标志位开始,并且以FIN标志位或以RST标志位结尾的TCP双向流。
3.根据权利要求1所述的面向类别不平衡下的加密流量识别方法,其特征在于,步骤S1包括:
定义UDP流为以第一个数据包到达为开始,如果两个数据包到达的时间间隔超过一分钟,则认为数据流结束,新数据流的开始。
4.根据权利要求1所述的面向类别不平衡下的加密流量识别方法,其特征在于,步骤S3具体包括以下步骤:
S31、读取平衡数据集后的数据流,判断数据流长度是否大于n个字节;
S32、若数据流长度大于等于n个字节,进行去除数据链路层和对UDP头部填充0;
S33、若长度小于n个字节,则进行对数据包填充0;
S34、对提取的数据进行归一化处理。
CN202010733979.9A 2020-07-27 2020-07-27 一种面向类别不平衡下的加密流量识别方法 Active CN111817982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010733979.9A CN111817982B (zh) 2020-07-27 2020-07-27 一种面向类别不平衡下的加密流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010733979.9A CN111817982B (zh) 2020-07-27 2020-07-27 一种面向类别不平衡下的加密流量识别方法

Publications (2)

Publication Number Publication Date
CN111817982A CN111817982A (zh) 2020-10-23
CN111817982B true CN111817982B (zh) 2023-04-07

Family

ID=72862759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010733979.9A Active CN111817982B (zh) 2020-07-27 2020-07-27 一种面向类别不平衡下的加密流量识别方法

Country Status (1)

Country Link
CN (1) CN111817982B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364365B (zh) * 2020-11-23 2023-05-23 中国联合网络通信集团有限公司 工业数据加密方法、边缘服务器及计算机可读存储介质
CN112633426B (zh) * 2021-03-11 2021-06-15 腾讯科技(深圳)有限公司 处理数据类别不均衡的方法、装置、电子设备及存储介质
CN113657428B (zh) * 2021-06-30 2023-07-14 北京邮电大学 网络流量数据的抽取方法及装置
CN113408707A (zh) * 2021-07-05 2021-09-17 哈尔滨理工大学 一种基于深度学习的网络加密流量识别方法
CN113923133B (zh) * 2021-09-29 2023-07-25 广东天镝科技有限公司 基于quic的加密网页流量的体验质量指标监控方法
CN113904846B (zh) * 2021-10-09 2022-06-17 北京理工大学 结合高斯混合模型与排序学习的多阶段入侵检测方法
CN113938410B (zh) * 2021-10-14 2023-05-23 广东电网有限责任公司 一种终端协议的识别方法及装置
US20230133720A1 (en) * 2021-10-29 2023-05-04 Nokia Solutions And Networks Oy Encryption segments for security in communication networks
CN115051828A (zh) * 2022-04-22 2022-09-13 江苏科技大学 面向类别不平衡下的ssl vpn加密流量识别分类方法
CN115174170B (zh) * 2022-06-23 2023-05-09 东北电力大学 一种基于集成学习的vpn加密流量识别方法
CN115914141A (zh) * 2022-09-23 2023-04-04 暨南大学 一种基于p4硬件交换机的网络数据流分类预测方法
CN116668186B (zh) * 2023-07-18 2024-02-02 哈尔滨工业大学 一种基于多视角特征和集成学习的加密代理协议识别的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639481B (zh) * 2018-12-11 2020-10-27 深圳先进技术研究院 一种基于深度学习的网络流量分类方法、***及电子设备
CN110138849A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于随机森林的协议加密算法类型识别方法
CN111385145B (zh) * 2020-03-04 2023-04-25 南京信息工程大学 一种基于集成学习的加密流量识别方法

Also Published As

Publication number Publication date
CN111817982A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111817982B (zh) 一种面向类别不平衡下的加密流量识别方法
Janarthanan et al. Feature selection in UNSW-NB15 and KDDCUP'99 datasets
Gogoi et al. MLH-IDS: a multi-level hybrid intrusion detection method
He et al. Software-defined-networking-enabled traffic anomaly detection and mitigation
CN111385145B (zh) 一种基于集成学习的加密流量识别方法
CN111107102A (zh) 基于大数据实时网络流量异常检测方法
CN108632224B (zh) 一种apt攻击检测方法和装置
CN110166454B (zh) 一种基于自适应遗传算法的混合特征选择入侵检测方法
CN107370752B (zh) 一种高效的远控木马检测方法
CN113420802B (zh) 基于改进谱聚类的报警数据融合方法
CN112434298B (zh) 一种基于自编码器集成的网络威胁检测***
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
CN111224994A (zh) 一种基于特征选择的僵尸网络检测方法
CN109218321A (zh) 一种网络入侵检测方法及***
CN114866485B (zh) 一种基于聚合熵的网络流量分类方法及分类***
CN114143037A (zh) 一种基于进程行为分析的恶意加密信道检测方法
Kong et al. Identification of abnormal network traffic using support vector machine
CN113821793A (zh) 一种基于图卷积神经网络的多阶段攻击场景构建方法及***
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
Perona et al. Service-independent payload analysis to improve intrusion detection in network traffic
CN112235242A (zh) 一种c&c信道检测方法及***
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法
CN116527307A (zh) 一种基于社区发现的僵尸网络检测算法
Liu et al. MSCA: An unsupervised anomaly detection system for network security in backbone network
CN110912895B (zh) 一种基于感知哈希的网络数据流溯源方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant