CN110113338A - 一种基于特征融合的加密流量特征提取方法 - Google Patents

一种基于特征融合的加密流量特征提取方法 Download PDF

Info

Publication number
CN110113338A
CN110113338A CN201910379472.5A CN201910379472A CN110113338A CN 110113338 A CN110113338 A CN 110113338A CN 201910379472 A CN201910379472 A CN 201910379472A CN 110113338 A CN110113338 A CN 110113338A
Authority
CN
China
Prior art keywords
burst
feature
data packet
plen
ptime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910379472.5A
Other languages
English (en)
Other versions
CN110113338B (zh
Inventor
沈蒙
张晋鹏
祝烈煌
陈偲祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910379472.5A priority Critical patent/CN110113338B/zh
Publication of CN110113338A publication Critical patent/CN110113338A/zh
Application granted granted Critical
Publication of CN110113338B publication Critical patent/CN110113338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于特征融合的加密流量特征提取方法,属于机器学习、网络服务安全以及流量识别技术领域。包括如下步骤:步骤1、抽取一条加密流中加密数据包不同维度的特征值;步骤2、计算特征贡献度并归一化,再基于特征贡献度进行特征选择,挑选出参与融合的最优特征数量n,并选择前n个特征作为参与融合的最优特征量;步骤3、基于最优融合特征数量n对不同维度的特征进行归类、使用核函数对步骤2选出的参与融合的最优特征进行升维和融合,输出最终参与分类的特征集合。所述方法可以更好地刻画加密网络流量指纹;可表征不同特征之间的联系;能快速确定参与融合的特征数量,提高特征融合的效率;实现更高的准确率。

Description

一种基于特征融合的加密流量特征提取方法
技术领域
本发明涉及一种基于特征融合的加密流量特征提取方法,尤其涉及对不同维度的流量特征进行维度升高和融合,旨在为识别加密流量提供高维度可靠特征,属于机器学习、网络服务安全以及流量识别技术领域。
背景技术
流量是网络信息传输的载体。为了保护用户隐私,现有的网络传输协议采用加密方式传输数据。通过对加密网络流量进行分析识别,可以为网络服务供应商能够更好地制定路由策略、提高关键传输节点的数据分发效率提供理论依据,进一步提升网络用户的用户体验。现有的加密流量识别方法依赖于单一维度的网络流量特征如数据包长度、数据包的标志位信息、数据包的时间信息登,仅依靠单维度的特征对加密流量的识别帮助有限,通过不同维度的特征融合能够更好地提升加密网络流量分类效果。
现有的流量识别方法主要包含两大类:明文流量识别和加密流量识别。在明文流量识别中采取的主要技术是深度数据包检测和端口检测。随着加密技术的采用和跳变端口技术的采用,网络通信过程中的数据包被加密,深度数据包检测技术和端口检测技术逐渐失去了效用。现在的研究热点主要集中在加密流量识别中。
在加密应用网络流量分类和识别方面,可检索到的关联最大的两项专利为:
(1)已有文献A提出一种基于马尔科夫链的加密网络流识别方法。该方法利用SSL/TLS加密后数据包的标志位信息构建不同加密应用的马尔科夫指纹,在分类未知应用的加密流量时计算该未知应用被分类成其它不同应用的概率,使用极大似然法来决断该未知应用的所属类别。在构建马尔可夫指纹时用到的标志位状态有限,不同加密应用的指纹可能会非常相似,不同加密应用的指纹部分重合的情况时有发生,这导致该种方法在加密应用识别上的准确度降低。
(2)已有文献B提出了一种基于数据包长度特征的加密流量识别方法。该方法利用每条加密流的数据包长度统计特征值,如最小值、最大值、中位数、平均数等,总计54个统计特征值构建不同加密应用的指纹,之后使用随机森林分类器进行加密流量的识别于分类。随着待分类流量的数量和种类增加,该种分类方法在分类准确率上的表现页大打折扣。
综上所述,在现有的加密流量分类领域,加密流量分类方法依靠单维度的特征构建加密应用的指纹,单维度的特征随着应用数量增加,单维度特征构建的加密应用指纹难以提供足够的区分信息,会导致对加密应用的分类准确率降低。
发明内容
本发明的目的在于克服现有加密流量特征提取方法中的特征数量少、特征表征力弱的技术缺陷,为识别加密应用提供区分度大的流量特征,进而辅助于加密应用的流量分类,通过对流量不同维度的特征进行提取及融合,将融合过后的特征用到分类以提升分类效果,提出了一种基于特征融合的加密流量特征提取方法。
一种基于特征融合的加密流量特征提取方法,包括如下步骤:
步骤1、抽取一条加密流中加密数据包不同维度的特征值;
具体地,以五元组定义一条包含i个数据包的加密流,记为flow=[pkt1,…,pkti];其中,五元组是指源端口、目的端口、源IP、目的IP以及传输协议;pkti表示第i个数据包;
其中,数据包不同维度的特征值包括数据包长度统计特征值、数据包时间信息统计特征值以及数据包Burst行为统计特征值;
步骤1又包括如下子步骤:
步骤1.1对捕获到的数据包计算长度统计特征值;
其中,数据包长度统计特征值包括三个方向的数据包长度统计特征值;
其中,每个方向的统计特征值数量为19个,三个方向的数据包长度统计特征值的数量共57个,记为Plen=[[plen1],…,[plen57]];
每个方向的统计特征值包括最小值Lminimum、最大值Lmaximum、平均值Lmean、中位数绝对偏差Lmedian_absolute_deviation、标准差Lstandard deviation、方差Lvar、斜率Lskew、峭度Lkurtosis、百分位数Lpercentiles10%、Lpercentiles20%、Lpercentiles30%、Lpercentiles40%、Lpercentiles50%、Lpercentiles60%、Lpercentiles70%、Lpercentiles80%、Lpercentiles90%、序列中的数据包个数Lnumbers和数据包长度之和Lsum;
步骤1.2对捕获到的数据包计算时间信息统计特征值;
其中,数据包时间信息统计特征值包括三个方向的数据包时间信息统计特征值;
其中,每个方向的统计特征值数量为18个,三个方向的数据包长度统计特征值的数量共54个,记为Ptime=[[ptime1],…,[ptime54]];
每个方向的统计特征值包括最小值Tminimum、最大值Tmaximum、平均值Tmean、中位数绝对偏差Tmedian_absolute_deviation、标准差Tstandard_deviation、方差Tvar、斜率Tskew、峭度Tkurtosis、百分位数Tpercentiles10%、Tpercentiles20%、Tpercentiles30%、Tpercentiles40%、Tpercentiles50%、Tpercentiles60%、Tpercentiles70%、Tpercentiles80%、Tpercentiles90%和序列中的元素个数Tnumbers;
步骤1.3对捕获到的数据包计算Burst行为统计特征值;
其中,Burst指一条流中相同方向连续传输的数据包;
Burst行为统计特征值包含Burst Size和Burst Length,Burst Size指一个Burst中的数据包个数,Burst Length指一个Burst中所有数据包长度之和;
Burst Size和Burst Length均考虑Ingress Burst方向和Egress Burst方向的统计特征值,四个方向的统计特征值共计72个,记为PBurst=[[burst1],…,[burst72]];
每个方向的统计特征值包括最小值Bminimum、最大值Bmaximum、平均值Bmean、中位数绝对偏差Bmedian_absolute_deviation、标准差Bstandard_deviation、方差Bvariance、斜率Bskew、峭度Bkurtosis、百分位数Bpercentiles10%、Bpercentiles20%、Bpercentiles30%、Bpercentiles40%、Bpercentiles50%、Bpercentiles60%、Bpercentiles70%、Bpercentiles80%、Bpercentiles90%以及序列中的元素个数Bnumbers,共计18个;故所有Burst的Burst Size和Burst Length包含Ingress Burst方向和Egress Burst方向的统计特征值为72个;
步骤2、计算特征贡献度并归一化,再基于特征贡献度进行特征选择,挑选出参与融合的最优特征数量n,并选择前n个特征作为参与融合的最优特征,具体包括如下子步骤:
步骤2.1计算特征贡献度;
使用随机森林中的基尼系数计算每种特征的特征贡献度VIMi
其中,每种特征指的是步骤1.1、步骤1.2以及步骤1.3计算出的Plen=[[plen1],…,[plen57]]、Ptime=[[ptime1],…,[ptime54]]以及PBurst=[[burst1],…,[burst72]]中的一种;
其中,i代表第i个特征,i的取值范围是1到c且c=183,是57、54以及72的和,分别对应着Plen、Ptime以及PBurst的种类数量;
步骤2.2基于公式(1)对步骤2.1计算的特征贡献度VIMj进行归一化处理:
其中,c代表所有特征个数;VIMi代表第i个特征的特征贡献度;
步骤2.3计算特征选择标准值CFC;
按从大到小的顺序对步骤2.2所得的特征贡献度进行排序,根据(2)计算每个特征的特征选择标准值CFC:
其中,CFCj表示第j个特征的特征选择标准值CFC;j的取值范围是1到c且c=183;
步骤2.3根据步骤2.2中计算的CFC值画出特征CFC值随特征数j的变化趋势图,找出图中拐点并记此拐点对应的j为n,此n即为参与融合的最优特征数量;
步骤3、基于最优融合特征数量n对不同维度的特征进行归类、使用核函数对步骤2选出的参与融合的最优特征进行升维和融合,输出最终参与分类的特征集合;
步骤3,具体又包含如下子步骤:
步骤3.1根据步骤2中获取的最优融合特征数量n对不同维度的特征进行归类;
其中,不同维度的特征包括数据包长度特征、数据包时间信息特征以及数据包Burst行为特征,三者数量分别为i、j以及k个;归类数据包长度特征,记为Plen=[[plen1],…,[pleni]],数据包时间信息特征,记为Ptime=[[ptime1],…,[ptimej]],数据包Burst行为特征,记为Burst=[[burst1],…,[burstk]];
且Plen=[[plen1],…,[pleni]]更新和替换了步骤1中的数据包长度统计特征Plen=[[plen1],…,[plen57]];Ptime=[[ptime1],…,[ptimej]]更新和替换了步骤1中的Ptime=[[ptime1],…,[ptime54]],Burst=[[burst1],…,[burstk]]更新和替换了步骤1中的数据包Burst行为统计特征PBurst=[[burstr1],…,[burst72]];
步骤3.2使用核函数对单维度特征进行融合,即进行单维度特征升维,具体为:用x代表特征集合f=[Plen,Ptime,Burst]中的任意一个维度特征,对x首先根据(3)计算x的转置矩阵x′,x是一个n*1的矩阵,x′是一个1*n的矩阵;
x′=xT (3)
使用径向基核函数(4)进行特征升维:
其中,K(x,x′)是一个n*n的矩阵,δ∈(0,1);
经过步骤3.2后,特征数量分别为i、j、k的Plen,Ptime,Burst的特征数量分别变为i2、j2以及k2
步骤3.3对步骤3.2升维后的i2、j2以及k2个特征进行融合,具体为:依次遍历Plen,Ptime,Burst升高维度后的矩阵,将元素加入Feature中,返回Feature作为最终参与分类的特征集合。
有益效果
本发明提出了一种基于特种融合的加密流量特征提取方法,与现有加密流量特征提取方法相比,具有如下有益效果:
1.本发明引入了数据包长度、数据包时间信息和网络流中数据包Burst行为的统计信息,从多个维度提取加密网络流量的特征集,可以更好地刻画加密网络流量指纹;
2.本发明使用了径向基核函数来增加特征个数,表征不同特征之间的联系;
3.本发明设计了最优融合特征数量的衡量方法,通过使用该方法,具体体现在步骤2.3,通过对要参与特征融合的特征进行选择可以减少无用特征的干扰,能快速确定参与融合的特征数量,提高特征融合的效率;
4.本发明通过大量实验数据实验证明,与现有的加密网络流量分类和识别方法相比,使用经过特征融合后的特征分类器能够实现更高的准确率。
附图说明
图1为本发明一种基于特征融合的加密流量特征提取方法的整体流程图;
图2为本发明一种基于特种融合的加密流量特征提取方法步骤1中的Burst行为示意图;
图3为本发明一种基于特种融合的加密流量特征提取方法步骤2中的CFC值随特征个数变化示意图。
具体实施方式
下面结合附图和实施例,更具体地说明本发明“一种基于特征融合的加密流量特征提取方法”的过程,并阐述其优点。应当指出,本发明的实施并不局限于下面的实施例,对本发明所做的任何形式上的变通或改变均将落入本发明的保护范围。
实施例1
本实施例是基于本发明的步骤1到步骤3进行的完整的加密流量特征提取仿真,整体流程图如图1所示,Dataset Collection为数据采集阶段,可以采集淘宝、京东等使用加密协议传输数据的网站流量,然后进行特征后去,接着进行特征选择和特征融合,最后将融合后的特征用于机器学习分类器进行分类。通过抽取不同维度的特征,使用径向基核函数进行特征升维来获得最后参与分类的特征集合。
采集淘宝、京东、网易云、亚马逊、支付宝、微信等采用加密协议传输的流量,以五元组的形式进行分流,具体为:
首先是提取数据包关于数据包长度、数据包时间信息和数据包Burst行为的统计特征值,具体流程如图1所示。假设捕获到的某条数据流表示为F=(p1,…,pn),提取这条流的数据包长度统计特征Plen=[[plen1],…,[plen57]],数据包时间信息统计特征Ptime=[[ptime1],…,[ptime54]],和数据包Burst行为统计特征Burst=[[burst1],…,[burst72]]。Burst行为示意图如图2所示,一条流中的Burst包含两个方向Ingress Burst和Egress Burst,Burst Size为Burst中的数据包个数,Burst Length为Burst中数据包长度之和。
使用随机森林中的基尼系数来计算这些特征的贡献度,部分特征的特征贡献度如表1所示。根据特征贡献度和排序后的特征位数计算随特征个数变化的CFC值,随特征个数变化的CFC值示意图如图3所示,选择图中的拐点作为融合特征的最优数量,在本次示例中,我们选择120作为融合特征的最优数量。
表1部分特征特征贡献度
特征 贡献度 特征 贡献度
plen_18 0.030011 burst_11 0.016430
plen_38 0.027685 plen_35 0.015731
plen_55 0.025450 burst_17 0.015577
plen_47 0.018072 plen_33 0.015150
plen_34 0.017442 plen_40 0.014951
plen_42 0.016791 burst_16 0.014811
接着将选择出来的特征按照步骤3中的方法进行特征升维和融合,将融合后的特征用于流量分类。
实施例2
本实施例是将本发明所述方法提取的流量特征用于机器学习分类器,与其它只用单维度特征分类器进行对比,以验证本发明的优势及有效性。将本发明所述的基于特征融合的加密流量特征提取方法与传统机器学习算法随机森林结合,作为本方法的分类器,记为FFP。
要对比的方法包括只用数据包标志位作为特征的马尔可夫分类器(MARK)和只用数据包长度作为特征的随机森林分类器(APPS)。对比的指标包括分类器的准确率(Accuracy)和F1-score,F1-Score综合考虑了精确率(Precision)和召回率(Recall)对分类器的评估标准。对比结果如表2所示。
表2与先进的流量分类模型分类效果对比
分类方法 MARK APPS FFP
准确率 0.5879 0.8080 0.9181
F1-Score 0.5665 0.7977 0.9175
从表2可以看出,本发明与现有的流量分类方法相比,具有明显优势,分类的准确率和F1-Score都高于其他两种分类算法。本发明对使用加密协议加密后的流量可以提取良好的流量特征,助力于加密流量分类检测,能够提高分类准确率,可以投入实际应用中。
虽然本文结合附图实例描述了本专利的实施方式,但是对于本领域技术人员来说,在不脱离本专利原理的前提下,还可以做出若干改进,这些也是为属于本专利的保护范围。

Claims (7)

1.一种基于特征融合的加密流量特征提取方法,其特征在于:包括如下步骤:
步骤1、抽取一条加密流中加密数据包不同维度的特征值;
具体地,以五元组定义一条包含i个数据包的加密流,记为flow=[pkt1,…,pkti];pkti表示第i个数据包;
其中,数据包不同维度的特征值包括数据包长度统计特征值、数据包时间信息统计特征值以及数据包Burst行为统计特征值;
步骤1 又包括如下子步骤:
步骤1.1 对捕获到的数据包计算长度统计特征值;
其中,数据包长度统计特征值包括三个方向的数据包长度统计特征值;
其中,每个方向的统计特征值数量为19个,三个方向的数据包长度统计特征值的数量共57个,记为Plen=[[plen1],…,[plen57]];
步骤1.2 对捕获到的数据包计算时间信息统计特征值;
其中,数据包时间信息统计特征值包括三个方向的数据包时间信息统计特征值;
其中,每个方向的统计特征值数量为18个,三个方向的数据包长度统计特征值的数量共54个,记为Ptime=[[ptime1],…,[ptime54]];
步骤1.3 对捕获到的数据包计算Burst行为统计特征值;
其中,Burst指一条流中相同方向连续传输的数据包;
其中,Burst行为统计特征值包含Burst Size和Burst Length,Burst Size指一个Burst中的数据包个数,Burst Length指一个Burst中所有数据包长度之和;
Burst的Burst Size和Burst Length包含Ingress Burst方向和Egress Burst方向的统计特征值共计72个,记为PBurst=[[burst1],…,[burst72]];
步骤2、计算特征贡献度并归一化,再基于特征贡献度进行特征选择,挑选出参与融合的最优特征数量n,并选择前n个特征作为参与融合的最优特征,具体包括如下子步骤:
步骤2.1 计算特征贡献度;
使用随机森林中的基尼系数计算每种特征的特征贡献度VIMi
其中,i代表第i个特征,i的取值范围是1到c且c=183,是57、54以及72的和,分别对应着Plen、Ptime以及PBurst的种类数量;
步骤2.2 基于公式(1)对步骤2.1计算的特征贡献度VIMj进行归一化处理:
其中,c代表所有特征个数;VIMi代表第i个特征的特征贡献度;
步骤2.3 计算特征选择标准值CFC;
按从大到小的顺序对步骤2.2所得的特征贡献度进行排序,根据(2)计算每个特征的特征选择标准值CFC:
其中,CFCj表示第j个特征的特征选择标准值CFC;j的取值范围是1到c且c=183;
步骤2.3 根据步骤2.2中计算的CFC值画出特征CFC值随特征数j的变化趋势图,找出图中拐点并记此拐点对应的j为n,此n即为参与融合的最优特征数量;
步骤3、基于最优融合特征数量n对不同维度的特征进行归类、使用核函数对步骤2选出的参与融合的最优特征进行升维和融合,输出最终参与分类的特征集合;
步骤3,具体又包含如下子步骤:
步骤3.1 根据步骤2中获取的最优融合特征数量n对不同维度的特征进行归类;
其中,不同维度的特征包括数据包长度特征、数据包时间信息特征以及数据包Burst行为特征,三者数量分别为i、j以及k个;归类数据包长度特征,记为Plen=[[plen1],…,[pleni]],数据包时间信息特征,记为Ptime=[[ptime1],…,[ptimej]],数据包Burst行为特征,记为Burst=[[burst1],…,[burstk]];
步骤3.2 使用核函数对单维度特征进行融合,即进行单维度特征升维,具体为:用x代表特征集合f=[Plen,Ptime,Burst]中的任意一个维度特征,对x首先根据(3)计算x的转置矩阵x′,x是一个n*1的矩阵,x′是一个1*n的矩阵;
x′=xT (3)
使用径向基核函数(4)进行特征升维:
其中,K(x,x′)是一个n*n的矩阵,δ∈(0,1);
经过步骤3.2后,特征数量分别为i、j、k的Plen,Ptime,Burst的特征数量分别变为i2、j2以及k2
步骤3.3 对步骤3.2升维后的i2、j2以及k2个特征进行融合,具体为:依次遍历Plen,Ptime,Burst升高维度后的矩阵,将元素加入Feature中,返回Feature作为最终参与分类的特征集合。
2.根据权利要求1所述的一种基于特征融合的加密流量特征提取方法,其特征在于:步骤1中的五元组是指源端口、目的端口、源IP、目的IP以及传输协议。
3.根据权利要求1所述的一种基于特征融合的加密流量特征提取方法,其特征在于:步骤1.1中每个方向的统计特征值包括最小值Lminimum、最大值Lmaximum、平均值Lmean、中位数绝对偏差Lmedian_absolute_deviation、标准差Lstandard deviation、方差Lvar、斜率Lskew、峭度Lkurtosis、百分位数Lpercentiles10%、Lpercentiles20%、Lpercentiles30%、Lpercentiles40%、Lpercentiles50%、Lpercentiles60%、Lpercentiles70%、Lpercentiles80%、Lpercentiles90%、序列中的数据包个数Lnumbers和数据包长度之和Lsum。
4.根据权利要求1所述的一种基于特征融合的加密流量特征提取方法,其特征在于:步骤1.2中每个方向的统计特征值包括最小值Tminimum、最大值Tmaximum、平均值Tmean、中位数绝对偏差Tmedian_absolute_deviation、标准差Tstandard_deviation、方差Tvar、斜率Tskew、峭度Tkurtosis、百分位数Tpercentiles10%、Tpercentiles20%、Tpercentiles30%、Tpercentiles40%、Tpercentiles50%、Tpercentiles60%、Tpercentiles70%、Tpercentiles80%、Tpercentiles90%和序列中的元素个数Tnumbers。
5.根据权利要求1所述的一种基于特征融合的加密流量特征提取方法,其特征在于:步骤1.3中所述Burst Size和Burst Length均考虑Ingress Burst方向和Egress Burst方向的统计特征值,四个方向中每个方向的统计特征值包括最小值Bminimum、最大值Bmaximum、平均值Bmean、中位数绝对偏差Bmedian_absolute_deviation、标准差Bstandard_deviation、方差Bvariance、斜率Bskew、峭度Bkurtosis、百分位数Bpercentiles10%、Bpercentiles20%、Bpercentiles30%、Bpercentiles40%、Bpercentiles50%、Bpercentiles60%、Bpercentiles70%、Bpercentiles80%、Bpercentiles90%以及序列中的元素个数Bnumbers,共计18个。
6.根据权利要求1所述的一种基于特征融合的加密流量特征提取方法,其特征在于:步骤2.1中,每种特征指的是步骤1.1、步骤1.2以及步骤1.3计算出的Plen=[[plen1],…,[plen57]]、Ptime=[[ptime1],…,[ptime54]]以及PBurst=[[burst1],…,[burst72]]中的一种。
7.根据权利要求1所述的一种基于特征融合的加密流量特征提取方法,其特征在于:步骤3.1中Plen=[[plen1],…,[pleni]]更新和替换了步骤1中的数据包长度统计特征Plen=[[plen1],…,[plen57]];Ptime=[[ptime1],…,[ptimej]]更新和替换了步骤1中的Ptime=[[ptime1],…,[ptime54]],Burst=[[burst1],…,[burstk]]更新和替换了步骤1中的数据包Burst行为统计特征PBurst=[[burst1],…,[burst72]]。
CN201910379472.5A 2019-05-08 2019-05-08 一种基于特征融合的加密流量特征提取方法 Active CN110113338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379472.5A CN110113338B (zh) 2019-05-08 2019-05-08 一种基于特征融合的加密流量特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379472.5A CN110113338B (zh) 2019-05-08 2019-05-08 一种基于特征融合的加密流量特征提取方法

Publications (2)

Publication Number Publication Date
CN110113338A true CN110113338A (zh) 2019-08-09
CN110113338B CN110113338B (zh) 2020-06-26

Family

ID=67488756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379472.5A Active CN110113338B (zh) 2019-05-08 2019-05-08 一种基于特征融合的加密流量特征提取方法

Country Status (1)

Country Link
CN (1) CN110113338B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN110958233A (zh) * 2019-11-22 2020-04-03 上海交通大学 一种基于深度学习的加密型恶意流量检测***和方法
CN111526100A (zh) * 2020-04-16 2020-08-11 中南大学 基于动态标识与路径隐藏的跨网络流量识别方法与装置
CN112001452A (zh) * 2020-08-27 2020-11-27 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及可读存储介质
CN114363061A (zh) * 2021-12-31 2022-04-15 深信服科技股份有限公司 一种异常流量检测方法、***、存储介质和终端
CN116016365A (zh) * 2023-01-06 2023-04-25 哈尔滨工业大学 一种加密流量下基于数据包长度信息的网页识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135385A (zh) * 2014-07-30 2014-11-05 南京市公安局 Tor匿名通信流量应用分类的方法
US20180260705A1 (en) * 2017-03-05 2018-09-13 Verint Systems Ltd. System and method for applying transfer learning to identification of user actions
CN108650194A (zh) * 2018-05-14 2018-10-12 南开大学 基于K_means和KNN融合算法的网络流量分类方法
CN109194657A (zh) * 2018-09-11 2019-01-11 北京理工大学 一种基于累积数据包长度的网页加密流量特征提取方法
CN109286576A (zh) * 2018-10-10 2019-01-29 北京理工大学 一种数据包频度分析的网络代理加密流量特征提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135385A (zh) * 2014-07-30 2014-11-05 南京市公安局 Tor匿名通信流量应用分类的方法
US20180260705A1 (en) * 2017-03-05 2018-09-13 Verint Systems Ltd. System and method for applying transfer learning to identification of user actions
CN108650194A (zh) * 2018-05-14 2018-10-12 南开大学 基于K_means和KNN融合算法的网络流量分类方法
CN109194657A (zh) * 2018-09-11 2019-01-11 北京理工大学 一种基于累积数据包长度的网页加密流量特征提取方法
CN109286576A (zh) * 2018-10-10 2019-01-29 北京理工大学 一种数据包频度分析的网络代理加密流量特征提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KHALED AL-NAAMI等: "Adaptive encrypted traffic fingerprinting with bi-directional dependence", 《ACSAC’16:PROCEEDINGS OF THE 32ND ANNUAL CONFERENCE ON COMPUTER SECURITY》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN110958233A (zh) * 2019-11-22 2020-04-03 上海交通大学 一种基于深度学习的加密型恶意流量检测***和方法
CN110958233B (zh) * 2019-11-22 2021-08-20 上海交通大学 一种基于深度学习的加密型恶意流量检测***和方法
CN111526100A (zh) * 2020-04-16 2020-08-11 中南大学 基于动态标识与路径隐藏的跨网络流量识别方法与装置
CN111526100B (zh) * 2020-04-16 2021-08-24 中南大学 基于动态标识与路径隐藏的跨网络流量识别方法与装置
CN112001452A (zh) * 2020-08-27 2020-11-27 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及可读存储介质
CN112001452B (zh) * 2020-08-27 2021-08-27 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及可读存储介质
CN114363061A (zh) * 2021-12-31 2022-04-15 深信服科技股份有限公司 一种异常流量检测方法、***、存储介质和终端
CN116016365A (zh) * 2023-01-06 2023-04-25 哈尔滨工业大学 一种加密流量下基于数据包长度信息的网页识别方法
CN116016365B (zh) * 2023-01-06 2023-09-19 哈尔滨工业大学 一种加密流量下基于数据包长度信息的网页识别方法

Also Published As

Publication number Publication date
CN110113338B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN110113338A (zh) 一种基于特征融合的加密流量特征提取方法
CN108768986B (zh) 一种加密流量分类方法及服务器、计算机可读存储介质
CN112235264B (zh) 一种基于深度迁移学习的网络流量识别方法及装置
CN108881192B (zh) 一种基于深度学习的加密型僵尸网络检测***及方法
CN111340191A (zh) 基于集成学习的僵尸网络恶意流量分类方法及***
CN104135385B (zh) Tor匿名通信流量应用分类的方法
CN113364787B (zh) 一种基于并联神经网络的僵尸网络流量检测方法
CN110958233B (zh) 一种基于深度学习的加密型恶意流量检测***和方法
CN104244035A (zh) 基于多层聚类的网络视频流分类方法
Ahn et al. Explaining deep learning-based traffic classification using a genetic algorithm
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
Niu et al. A heuristic statistical testing based approach for encrypted network traffic identification
Liu et al. A distance-based method for building an encrypted malware traffic identification framework
CN109286576A (zh) 一种数据包频度分析的网络代理加密流量特征提取方法
Kong et al. Identification of abnormal network traffic using support vector machine
CN114257428A (zh) 一种基于深度学习的加密网络流量识别及分类方法
CN108123962A (zh) 一种利用Spark实现BFS算法生成攻击图的方法
Xu et al. [Retracted] DDoS Detection Using a Cloud‐Edge Collaboration Method Based on Entropy‐Measuring SOM and KD‐Tree in SDN
Zheng et al. Two-layer detection framework with a high accuracy and efficiency for a malware family over the TLS protocol
CN110493253B (zh) 一种基于树莓派设计的家用路由器的僵尸网络分析方法
Chung et al. An effective similarity metric for application traffic classification
CN113254743B (zh) 一种车联网中动态空间数据的安全语义感知搜索方法
Khoei et al. Residual convolutional network for detecting attacks on intrusion detection systems in smart grid
CN107124410A (zh) 基于机器深度学习的网络安全态势特征聚类方法
CN106557983A (zh) 一种基于模糊多类svm的微博垃圾用户检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant