CN112910853A - 基于混合特征的加密流量分类方法 - Google Patents

基于混合特征的加密流量分类方法 Download PDF

Info

Publication number
CN112910853A
CN112910853A CN202110062223.0A CN202110062223A CN112910853A CN 112910853 A CN112910853 A CN 112910853A CN 202110062223 A CN202110062223 A CN 202110062223A CN 112910853 A CN112910853 A CN 112910853A
Authority
CN
China
Prior art keywords
mixed
stream
data
feature vector
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110062223.0A
Other languages
English (en)
Inventor
翟江涛
许历隆
崔永富
林鹏
陈伟
王勤凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110062223.0A priority Critical patent/CN112910853A/zh
Publication of CN112910853A publication Critical patent/CN112910853A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于混合特征的加密流量分类方法,包括以下步骤:数据集采集、数据预处理、搭建CNN模型、CNN自动提取特征、提取流级特征、组合特征、SVM输出分类结果。本发明分别从一维空间中提取出流的具体特征和从二维空间中提取出流的抽象特征,组成了混合特征,提升了特征结构的复杂性,有效的提高了加密流量分类的准确率。

Description

基于混合特征的加密流量分类方法
技术领域
本发明涉及一种网络流量分类方法,尤其涉及一种基于混合特征的加密流量分类方法。
背景技术
网络流量的精准识别与分类是网络安全与网络管理的重要前提,有助于提升网络管理与安全监测水平,改善服务质量。近年来,随着网络技术的飞速发展,流量加密技术得到了广泛应用。越来越多的网络应用采用加密协议保证信息在网络中传输的安全性,也一定程度上保证了私人信息的机密性与完整性。2015年,有21%的网站流量被加密,截至2019年,有超过80%的网站流量被加密,同比增长了90%以上。但网络攻击也以加密流量的隐蔽性为载体,威胁网络安全。2018年思科公司对超过40万的恶意软件进行了分析,发现其中有超过70%的恶意软件在通信时使用了加密。现有以僵尸网络、高级持续性威胁(APT)、木马等为主要形式的网络攻击往往采用了相关隐匿技术绕过安全设备入侵***。因此对加密流量的识别已经成为防御网络攻击的重点。
流量分类模型已被广泛应用于从大规模网络流量中自动识别异常流量。这些模型可以分为四类:基于端口的分类方法,深度包检查(DPI),统计分类方法和行为分类方法。基于端口的方法对于具有特定端口号的应用程序(例如,具有端口21的FTP流量)的分类性能很好,但是由于随机端口和端口伪装技术的普遍使用,基于端口的方法对加密流量分类的精确率低,已不再适用于加密流量的分类。DPI分析整个数据包数据,然后识别其网络协议和应用程序。因为流量负载数据通常用协议加密或封装,包含较少的恒定特征,使得DPI在加密流量分类任务中不再可行。基于统计的方法和基于行为的方法是当前加密流量分类任务中使用的主要方法。这两种方法都是浅层学习机器学习的方法,其一般工作流程如下:首先手工设计特征(如流级特征或分组特征),然后从原始流量中提取和选择合适特征,最后用人工设计的分类器(如决策树、朴素贝叶斯,随机森林和支持向量机等)对流量进行分类。然而,这些方法极大地依赖于特征选择和人工提取特征的准确性,并且分类准确率不高,这也是目前在加密流量分类中浅层机器学习方法所遇到的瓶颈之一。
发明内容
发明目的:本发明的目的在于提供一种有效提高加密流量分类准确率的基于混合特征的加密流量分类方法。
技术方案:本发明的基于混合特征的加密流量分类方法,包括以下步骤:
(1)从网络数据流中进行数据采集;
(2)对采集的数据进行预处理;
(3)搭建卷积神经网络模型;
(4)将预处理后的数据输入卷积神经网络模型,提取出一维高层抽象特征向量V1;
(5)将预处理后的数据提取出一维流级特征向量V2;
(6)将一维高层抽象特征向量V1和一维流级特征向量V2进行组合,生成混合特征向量;
(7)将混合特征向量导入SVM中进行训练,并输出分类结果。
进一步地,步骤(1)中,所述数据采集是使用Wireshark进行流量的捕获并生成原始PCAP文件,再按照五元组对捕获的流量包进行分流,形成原始实验数据集。
进一步地,步骤(2)中,所述预处理是保留含有有效负载的数据流,并对少于m个字节的数据流进行补零,对超过的m个字节的数据流进行截断,将处理好的数据流进行归一化并生成k*k的包字节矩阵,最终制作成灰度图像集。
进一步地,步骤(3)中,所述搭建卷积神经网络模型是基于三个卷积层,两个最大池化层与全连接层搭建模型,其中结构为卷积C1->池化S2->卷积C3->池化S4->卷积C5->全连接F6。
进一步地,步骤(4)中,所述提取出一维高层抽象特征向量V1是将灰度图像集样本输入至模型训练,最后从全连接层中提取出1*n的一维特征向量。
进一步地,步骤(5)中,所述提取出一维流级特征向量V2是通过scapy模块解析每条流并提取相应特征,所述特征包括流包到达时间间隔,流的持续时间,拥塞窗口大小的总和,包的数目、速率,包的长度,包头部长度;这六类达60种特征,最后生成1*60的流级特征向量。
进一步地,步骤(6)中,所述组合是根据五元组,对每条流进行特征向量组合,最后生成1*(n+60)的混合特征向量。
进一步地,步骤(7)中,所述SVM采用高斯核函数为核函数,容忍度C设置为0.7-0.9。
有益效果:与现有技术相比,本发明具有如下显著优点:
(1)本发明分别从一维空间中提取出流的具体特征和从二维空间中提取出流的抽象特征,组成了混合特征,提升了特征结构的复杂性,有效的提高了加密流量分类的准确率。
(2)与传统机器学习分类算法不同,本方法通过cnn自动提取特征,减弱了分类器对特征设计与选择的依赖,在不同的数据集上与不同分类任务中有较好的适用性。
附图说明
图1为本发明的加密流量分类模型整体流程图;
图2为本发明数据预处理流程图;
图3为本发明中采用的CNN模型结构;
图4为本发明中SVM算法最优平面。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,
通过捕获互联网真实网络流量数据,对其按五元组进行分流从而生成实验数据集。接着预处理数据集,将网络流数据进行截断补零后最终制成灰度图像集,以便提取流的二维特征。然后搭建CNN模型,利用CNN提取高维抽象特征生成一维高层抽象特征向量V1与提取出的一维流级特征向量V2组合,从而生成混合特征向量V,最终利用SVM基于混合特征向量实现加密流量的分类。其具体操作步骤如下:
步骤1:数据集采集
采集数据集是用Wireshark抓取网络流量,生成PCAP格式文件,通过五元组对流量过滤分流获取原始实验数据集。其中对于TCP流,本发明实验判定条件是以握手协议中的SYN标志位开始,并且以FIN标志位或者RST标志位结尾的TCP双向流。对于UDP流,由于UDP协议设计特点不同于TCP协议有着显式的FIN结束标志,本发明则以第一个数据包到达为开始,如果两个数据包到达的时间间隔超过一分钟,则可认为数据流结束,意味着新数据流的开始。
步骤2:数据集预处理
如图2,对采集的数据集进行进一步处理,过滤不包含负载的数据流,对少于m个字节的流进行补零,对超过的m个字节的流进行截断。将处理好的数据流归一化并生成k*k的包字节矩阵,最终制作成灰度图像集。本发明中将数据流截断的长度定在1521个字节,最后每个数据流生成的灰度图像的像素为39*39。
步骤3:搭建CNN模型
卷积神经网络(CNN)是一种多层的监督学习神经网络,隐含层的卷积层和池化层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数,对网络中的权重参数逐层反向调节,通过频繁的迭代训练提高网络的精度。卷积神经网络的低隐层是由卷积层和最大池化层交替组成,高层是全连接层,对应传统多层感知器的隐含层和逻辑回归分类器。
如图3,本发明搭建的CNN模型由三个卷积层,两个最大池化层与全连接层组成:C1(卷积)->S2(池化)->C3(卷积)->S4(池化)->C5(卷积)->F6(全连接)。输入层维度为39*39*1,经过C1后维度为39*39*32,经过S2后维度为20*20*32,经过C3后维度为20*20*64,经过S4后维度为10*10*64,经过C5后维度为1*1*6400。F6全连接层中神经元数量依次为1024,n,6。根据步骤4中要提取出的抽象特征向量长度可以对n进行设计,本发明将n定为60,即提取1*60的抽象特征向量。最后通过激活函数Softmax输出该模型的分类效果。
为避免出现梯度消失现象,激活函数选择Relu。为了防止过拟合,在每组卷积池化层之间设置Dropout。在每层激活函数前加入BatchNormalization,以提高模型收敛速度。优化器选择Adam。最后,输出层选用Softmax函数输出分类结果。
步骤4:cnn自动提取特征
CNN自动提取特征,是为了提取出数据流在二维空间中的结构特征以及高层的抽象特征,具体步骤如下:
步骤41将灰度图像集以8:2比例划分为训练集与测试集,并把标签热编码。
步骤42将图像集导入CNN中多次训练,找到使模型性能达到最优的超参数。本发明经过多次实验,将迭代次数设置为300,Batchsize设置为128,学习率设置为0.001,Dropoutrate设置为0.3.
步骤43将图像集导入模型中训练,最后从全连接层中提取出1*n高层抽象特征向量,根据目标特征向量的长度设计全连接层结构。本发明中提取1*60的高层抽象特征向量。
步骤5:提取流级特征
本专利采用网络流量分类领域常用流级特征,流级特征使用最广泛,特征信息大多位于传输层或网络层。数据流级的特征是从一段时间间隔内具有相同五元组<源IP地址、源端口、目的IP地址、目的端口、应用类别>信息的数据包的集合中提取。提取流特征是通过python的scapy模块解析每条流并提取相应特征。特征包括:流包到达时间间隔,流的持续时间,拥塞窗口大小的总和,包的数目\速率,包的长度,包头部长度,这六类达60种特征,最后生成1*60的流级特征向量并归一化。
步骤6:组合特征
将提取出的1*60抽象特征向量V1与1*60的流级特征向量V2按照五元组做增广矩阵,最终形成1*120的混合特征向量V。最后将混合特征向量生成SVM的训练集与测试数据集T1,T2。
步骤7:SVM输出分类结果
SVM的基本原理是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如图4所示,w·x+b=0即为分离超平面,w为权重向量,w={w_1,w_2,…,w_n},n是特征值个数,x为训练实例,b为偏置。对于线性可分的数据集来说,这样的超平面有无穷多个,但是几何间隔最大的分离超平面却是唯一的。本发明中SVM采用的核函数为高斯核函数,容忍度C设置为0.9。最后将训练集与测试集先后导入SVM中进行训练,并最后输出分类结果。

Claims (8)

1.一种基于混合特征的加密流量分类方法,其特征在于,包括以下步骤:
(1)从网络数据流中进行数据采集;
(2)对采集的数据进行预处理;
(3)搭建卷积神经网络模型;
(4)将预处理后的数据输入卷积神经网络模型,提取出一维高层抽象特征向量V1;
(5)将预处理后的数据提取出一维流级特征向量V2;
(6)将一维高层抽象特征向量V1和一维流级特征向量V2进行组合,生成混合特征向量;
(7)将混合特征向量导入SVM中进行训练,并输出分类结果。
2.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(1)中,所述数据采集是使用Wireshark进行流量的捕获并生成原始PCAP文件,再按照五元组对捕获的流量包进行分流,形成原始实验数据集。
3.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(2)中,所述预处理是保留含有有效负载的数据流,并对少于m个字节的数据流进行补零,对超过的m个字节的数据流进行截断,将处理好的数据流进行归一化并生成k*k的包字节矩阵,最终制作成灰度图像集。
4.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(3)中,所述搭建卷积神经网络模型是基于三个卷积层,两个最大池化层与全连接层搭建模型,其中结构为卷积C1->池化S2->卷积C3->池化S4->卷积C5->全连接F6。
5.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(4)中,所述提取出一维高层抽象特征向量V1是将灰度图像集样本输入至模型训练,最后从全连接层中提取出1*n的一维特征向量。
6.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(5)中,所述提取出一维流级特征向量V2是通过scapy模块解析每条流并提取相应特征,所述特征包括流包到达时间间隔,流的持续时间,拥塞窗口大小的总和,包的数目、速率,包的长度,包头部长度。
7.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(6)中,所述组合是根据五元组,对每条流进行特征向量组合,最后生成1*(n+60)的混合特征向量。
8.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(7)中,所述SVM采用高斯核函数为核函数,容忍度C设置为0.7-0.9。
CN202110062223.0A 2021-01-18 2021-01-18 基于混合特征的加密流量分类方法 Pending CN112910853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110062223.0A CN112910853A (zh) 2021-01-18 2021-01-18 基于混合特征的加密流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110062223.0A CN112910853A (zh) 2021-01-18 2021-01-18 基于混合特征的加密流量分类方法

Publications (1)

Publication Number Publication Date
CN112910853A true CN112910853A (zh) 2021-06-04

Family

ID=76114918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110062223.0A Pending CN112910853A (zh) 2021-01-18 2021-01-18 基于混合特征的加密流量分类方法

Country Status (1)

Country Link
CN (1) CN112910853A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114157411A (zh) * 2021-11-29 2022-03-08 中信数智(武汉)科技有限公司 一种基于LeNet5-SVM的分组加密识别方法
CN114615093A (zh) * 2022-05-11 2022-06-10 南京信息工程大学 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN114785623A (zh) * 2022-06-21 2022-07-22 南京信息工程大学 基于离散化特征能量体系的网络入侵检测方法与装置
CN115834495A (zh) * 2022-10-12 2023-03-21 中国科学院计算技术研究所 一种用于加密流量的识别方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150635A1 (en) * 2016-11-28 2018-05-31 The United States Of America As Represented By The Secretary Of The Navy Apparatus and Method for Using a Support Vector Machine and Flow-Based Features to Detect Peer-to-Peer Botnet Traffic
CN110197234A (zh) * 2019-06-13 2019-09-03 四川大学 一种基于双通道卷积神经网络的加密流量分类方法
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN111147396A (zh) * 2019-12-26 2020-05-12 哈尔滨工程大学 一种基于序列特征的加密流量分类方法
CN112163594A (zh) * 2020-08-28 2021-01-01 南京邮电大学 一种网络加密流量识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150635A1 (en) * 2016-11-28 2018-05-31 The United States Of America As Represented By The Secretary Of The Navy Apparatus and Method for Using a Support Vector Machine and Flow-Based Features to Detect Peer-to-Peer Botnet Traffic
CN110197234A (zh) * 2019-06-13 2019-09-03 四川大学 一种基于双通道卷积神经网络的加密流量分类方法
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN111147396A (zh) * 2019-12-26 2020-05-12 哈尔滨工程大学 一种基于序列特征的加密流量分类方法
CN112163594A (zh) * 2020-08-28 2021-01-01 南京邮电大学 一种网络加密流量识别方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114157411A (zh) * 2021-11-29 2022-03-08 中信数智(武汉)科技有限公司 一种基于LeNet5-SVM的分组加密识别方法
CN114157411B (zh) * 2021-11-29 2024-04-05 中信数智(武汉)科技有限公司 一种基于LeNet5-SVM的分组加密识别方法
CN114615093A (zh) * 2022-05-11 2022-06-10 南京信息工程大学 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN114615093B (zh) * 2022-05-11 2022-07-26 南京信息工程大学 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN114785623A (zh) * 2022-06-21 2022-07-22 南京信息工程大学 基于离散化特征能量体系的网络入侵检测方法与装置
CN115834495A (zh) * 2022-10-12 2023-03-21 中国科学院计算技术研究所 一种用于加密流量的识别方法和***

Similar Documents

Publication Publication Date Title
Iliyasu et al. Semi-supervised encrypted traffic classification with deep convolutional generative adversarial networks
WO2022041394A1 (zh) 一种网络加密流量识别方法及装置
CN113179223B (zh) 一种基于深度学习和序列化特征的网络应用识别方法及***
Wang et al. A survey of techniques for mobile service encrypted traffic classification using deep learning
CN112910853A (zh) 基于混合特征的加密流量分类方法
Wang et al. End-to-end encrypted traffic classification with one-dimensional convolution neural networks
Dong et al. CETAnalytics: Comprehensive effective traffic information analytics for encrypted traffic classification
CN113162908B (zh) 一种基于深度学习的加密流量检测方法及***
CN110730140A (zh) 基于时空特性相结合的深度学习流量分类方法
CN110417729B (zh) 一种加密流量的服务与应用分类方法及***
CN111064678A (zh) 基于轻量级卷积神经网络的网络流量分类方法
CN113037730A (zh) 基于多特征学习的网络加密流量分类方法及***
CN112804253B (zh) 一种网络流量分类检测方法、***及存储介质
CN111611280A (zh) 一种基于cnn和sae的加密流量识别方法
CN114257428B (zh) 一种基于深度学习的加密网络流量识别及分类方法
CN113364787A (zh) 一种基于并联神经网络的僵尸网络流量检测方法
Kong et al. Identification of abnormal network traffic using support vector machine
CN114239737A (zh) 一种基于时空特征与双层注意力的加密恶意流量检测方法
CN116684877A (zh) 一种基于gyac-lstm的5g网络流量异常检测方法及***
Zhou et al. Encrypted network traffic identification based on 2d-cnn model
Han et al. An effective encrypted traffic classification method based on pruning convolutional neural networks for cloud platform
CN117056797A (zh) 基于非平衡数据的加密流量分类方法、设备及介质
Dener et al. RFSE-GRU: Data balanced classification model for mobile encrypted traffic in big data environment
CN116248530A (zh) 一种基于长短时神经网络的加密流量识别方法
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604