CN115334005B

CN115334005B - 基于剪枝卷积神经网络和机器学习的加密流量识别方法

Info

Publication number: CN115334005B
Application number: CN202210337870.2A
Authority: CN
Inventors: 李小勇; 栗仕超; 刘芸杉; 亢超群; 李二霞; 李灵慧; 苑洁; 高雅丽
Original assignee: China Online Shanghai Energy Internet Research Institute Co ltd; Beijing University of Posts and Telecommunications
Current assignee: China Online Shanghai Energy Internet Research Institute Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2024-03-22
Anticipated expiration: 2042-03-31
Also published as: CN115334005A

Abstract

本发明公开了一种基于剪枝卷积神经网络和机器学习的加密流量识别方法，包括数据预处理、构建CNN模型、模型剪枝、使用CNN提取高级特征向量和使用LightGBM分类的步骤。本发明的基于剪枝卷积神经网络和机器学习的加密流量识别方法，无需手工提取特征，利用CNN模型自动从原始流量文件中自动提取高级特征并进行分类，同时构建了一种基于剪枝的卷积神经网络模型，减少模型参数量，降低了计算开销，使用LightGBM根据加密流量的高级特征进行分类，以弱分类器来达到强分类的效果，提高了准确率，最终的模型会达到比其他分类模型更高的性能和精准率。

Description

基于剪枝卷积神经网络和机器学习的加密流量识别方法

技术领域

本发明涉及网络流量识别技术领域，尤其涉及一种基于剪枝卷积神经网络和机器学习的加密流量识别方法。

背景技术

网络流量识别技术在网络服务质量控制、流量计费、网络资源使用规划、恶意软件检测等应用中有着重要作用。随着网络信息技术的不断发展，越来越多的软件使用了SSL、SSH、VPN和Tor等加密或者端口混淆技术，加密流量的占比越来越高。

调查统计机构Netmarketshare称截至到2019年10月，加密Web流量的比例已经超过了九成，互联网上排名前100位的非Google网站中默认使用HTTPS的已有90位，在全球范围内，美国的HTTPS比例为92％，俄罗斯为85％，日本为80％，印尼为74％。这一变化对当前的流量检测方法带来了新的挑战，使得网络流量识别和分析变得愈加困难。

流量分类的前提便是不同流量的特征是独一无二的，当前的流量分类方法大致可以分为以下几种：

1)基于端口的分类方法。该方法基于应用服务都使用了IANA所分配的端口且保持不变这一前提上，根据流量所使用的端口号来区分不同流量类型。

2)基于有效载荷的分类方法。该方法又称为深度包检测，即根据静态的有效载荷特征来区分协议，可用于一些粗粒度的流量分类上。

3)基于统计学的分类方法。此类方法采用机器学习技术较多，是根据流量的统计学上的特征来区分不同类型的。这些特征大致可分为包级别和流级别两种，前者包括一些包长度、包到达间隔时间和方向等，后者包括一些上下行流量包数量、网络流时长、不同类型的流量包所占比例等。

当前的流量分类方法具有以下缺点：

1)基于端口的分类方法，当遇到应用软件使用了IANA规定之外的端口时，准确率会大大降低，并且恶意软件流量会使用随机或动态端口，该方法不能识别恶意软件流量。

2)基于有效载荷的分类方法，流量加密后会破坏它所依赖的载荷特征，只适合粗粒度的流量分类或未完全加密的场景。

3)基于深度学习的分类方法，该方法训练出来的分类模型参数量巨大，限制了模型部署条件。

发明内容

本发明针对基于深度学习的分类方法训练出来的分类模型参数量巨大的技术问题，提出一种基于剪枝卷积神经网络和机器学习的加密流量识别方法，无需手工提取特征，直接从原始流量文件中自动提取高级特征并进行分类，并且对模型进行剪枝，减少模型参数量，卷积神经网络用于提取特征自动提取，LightGBM以弱分类器来达到强分类的效果，最终的模型会达到比其他分类模型更高的性能和精准率，适用于加密流量的高效检测。

为了实现上述目的，本发明提供如下技术方案：

本发明提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法，包括以下步骤：

S1：数据预处理；

S2：构建CNN模型，卷积神经网络主要由以下几层组成：输入层、卷积层、ReLU层、池层和全连接层；

S3：模型剪枝，重新训练模型，经过若干次迭代后得到一个优化的CNN模型；

S4：优化后CNN模型输出一个256维度的特征向量，作为LightGBM分类器的输入；

S5：LightGBM分类，LightGBM算法中的梯度决策树是通过对给定的训练数据集进行多次迭代得到的，每次迭代时，用梯度信息重新调整一棵新树，以加入前一棵迭代树，在函数空间中，上述过程为一个连续变化的线性组合过程，LightGBM集成所有叶节点的权重作为构建树的参考，然后确定分割点并计算一阶梯度和二阶梯度，经过多次迭代后，使得LightGBM分类器性能达到最优。

与现有技术相比，本发明的有益效果为：

本发明提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法，无需手工提取特征，利用CNN模型自动从原始流量文件中自动提取高级特征并进行分类，同时构建了一种基于剪枝的卷积神经网络模型，减少模型参数量，降低了计算开销，使用LightGBM根据加密流量的高级特征进行分类，以弱分类器来达到强分类的效果，提高了准确率，最终的模型会达到比其他分类模型更高的性能和精准率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于剪枝卷积神经网络和机器学习的加密流量识别方法流程图。

图2为本发明实施例提供的数据预处理流程图。

图3为本发明实施例提供的剪枝步骤流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法，如图1所示，包括以下步骤：

S1：数据预处理：对原始流量文件进行处理，以适合CNN模型的标准输入；

步骤S1输入的加密流量使用公开数据集ISCXVPN2016，该数据集包含了6种传统的加密流量：Email、Chat、Streaming、File transfer、VoIP和P2P，6种对应的VPN加密流量：VPN-Email、VPN-Chat、VPN-Streaming、VPN-File transfer、VPN-VoIP和VPN-P2P。流量数据均是由Wireshark和tcpdump工具在真实环境中获取，共计28GB。

数据预处理步骤具体流程如图2所示。其中关键点如下：

去除不相关报文：即去除影响模型预测或有效载荷为空的数据包。真实环境中的流量会包含一些用于TCP建立、断开连接的数据包，比如包含SYN、ACK或FIN标志位的数据包，还有一些用于域名解析的数据包和有效载荷为空的数据包，这些数据包对于流量分类是不起作用的，反而会影响分类准确性，所以需要去除。

去除以太网帧头：以太网帧头包含了MAC地址，用于确认网络设备位置和在网络节点之间传输数据包，但是在流量分类中作用很小，所以需要删除以太网帧头。

掩盖IP地址：IP地址在流量分类中对模型有过拟合的影响，需要将源IP地址与目标IP地址置为0。

检查包长度：本方法使用了卷积神经网络，要求固定大小的输入，但是数据包的长度并不是一成不变的，所以要检查数据包的长度，如果长度小于规定的输入大小，需要在数据包末尾进行零填充。如果长度大于固定的输入大小，需要对数据包进行截断。确保流量包的长度符合CNN模型的输入大小。

归一化：不同评价指标往往具有不同的量纲，为解决数据指标之间的可比性，需要对数据包进行归一化处理，以字节为单位除以255，使得输入大小都在0到1之间。

S2：构建CNN模型。

卷积神经网络是一种包括卷积计算并具有深度结构的前馈神经网络，是目前最流行的深度学习算法之一。随着学习理论的深入和计算性能的提高，卷积神经网络得到了迅速的发展并已应用于计算机视觉、自然语言处理等。卷积神经网络主要由以下几层组成：输入层、卷积层、ReLU层、池层和全连接层。通过将这些层叠加，形成一个完整的卷积神经网络，最终输出256维度的特征向量，供后续的LightGBM分类器使用。输出的特征向量维度过高易导致结果过拟合且增加开销，维度过低会使得分类准确率降低，本发明经实验证明，特征向量维度选取为256最为合适。本发明使用的CNN模型结构如表1所示，其中关键点如下：

卷积层：Conv2D，二维卷积，流量数据包可转换成灰度图像，更适合用二维卷积进行处理。

激活函数：ReLU，如公式(1)所示，只在输入大于0时才激活一个节点，当输入小于0时，输出为0，当输入大于0时，输出等于输入。该函数可以去除卷积结果中的负值，保留正值不变。

ReLU(x)＝max(0,x) (1)

批标准化：Batch Normalization，和普通的数据标准化类似,是将分散的数据统一的一种做法,也是优化神经网络的一种方法，把数据分成小批量进行随机梯度下降。如公式(2)所示，其中α_i是某个神经元原始激活值，为经过标准化操作后的规范值。

损失函数：交叉熵损失函数(CrossEntropy Loss)，如公式(3)所示，表示真实概率分布与预测概率分布之间的差异，交叉熵的值越小，模型预测效果越好。

输出层的激活函数：Softmax，当一个样本经过Softmax层并输出一个T*1的向量时，就会取这个向量中值最大的那个数的index作为这个样本的预测标签，公式如(4)所示。

Dropout：训练的时候会随机停止训练一些神经元，提高模型的鲁棒性，本模型设置dropout为0.5。

表1 CNN模型主要参数

网络层

操作

输入

卷积核

步长

填充

输出

权重数量

1

Conv2D+ReLU+BN

30*30

3*3

1

Same

8*30*30

80

2

Conv2D+ReLU+BN

8*30*30

3*3

2

Same

16*14*14

1168

3

Conv2D+ReLU+BN

16*14*14

3*3

2

Same

32*6*6

4640

4

Conv2D+ReLU+BN

32*6*6

3*3

1

Same

64*4*4

18496

5

全连接+Dropout

64*4*4

Null

None

256

262400

通常来说，神经网络的层数和参数越多，结果越好，但与此同时，消耗的计算资源随之增多。所以可使用剪枝技术来去除那些对预测结果影响较小的参数，根据模型的神经元对输出结果贡献程度进行排序，摒弃低贡献度的神经元，这样使得模型运行速度更快、模型文件更小。如图3所示，假设第一层有4个神经元，第二层有5个神经元，那么相应的权重矩阵就是4*5大小。剪枝过程如下：

将相邻两层神经元权重按照绝对值大小进行排序；

根据剪枝速率P剪去绝对值较小(如0.4)的权重，即将其置为0。

剪枝后，重新训练模型，经过若干次迭代后得到一个优化的CNN模型。

S5：LightGBM分类。

LightGBM是一个实现了GBDT算法的框架，GBDT是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。与使用常规的CNN的全连接层作为分类器相比，LightGBM分类器支持高效率并行训练，并且具有更快的训练速度、更低的内存消耗，支持分布式快速处理海量数据，降低了检测模型的部署要求。

LightGBM算法中的梯度决策树是通过对给定的训练数据集进行多次迭代得到的，每次迭代时，用梯度信息重新调整一棵新树，以加入前一棵迭代树，在函数空间中，上述过程为一个连续变化的线性组合过程，如公式(6)所示：

χ为迭代树的函数空间，f_q(x_i)表示第q个树中第i个示例的预测值。

树的每个分割节点采用最佳分割点，在构建树模型时实际使用了贪婪方法。LightGBM集成所有叶节点的权重作为构建树的参考，然后确定分割点并计算一阶梯度和二阶梯度。

对于任何给定的树结构，LightGBM定义了每个特征在迭代树中被分割的总次数T_Split和特征在所有决策树中被用来分割后所带来的增益总和T_Gain作为衡量特征重要性的度量标准，具体定义如下：

其中，K为K轮迭代产生的K棵决策树。

经过多次迭代后，使得LightGBM分类器性能达到最优。

LightGBM与原始的CNN模型分类相比，提高了准确率和召回率，识别速度也有所加快。

本发明提供的一种基于剪枝卷积神经网络和机器学习的加密流量识别方法，无需手工提取特征，利用CNN模型自动从原始流量文件中自动提取高级特征并进行分类，同时构建了一种基于剪枝的卷积神经网络模型，减少模型参数量，降低了计算开销，使用LightGBM根据加密流量的高级特征进行分类，以弱分类器来达到强分类的效果，提高了准确率，最终的模型会达到比其他分类模型更高的性能和精准率(见表2)。

表2本申请额模型与其他分类模型的对比

方法	准确率	召回率	F1值
				1D CNN	0.89	0.89	0.89
CNN+LSTM	0.91	0.91	0.91
				SAE	0.92	0.92	0.92
2D-CNN	0.91	0.91	0.91
				剪枝前的模型	0.90	0.86	0.88
剪枝后的模型(本申请)	0.94	0.93	0.93

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特殊进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，包括以下步骤：

S1：数据预处理；步骤S1输入的加密流量使用公开数据集ISCXVPN2016，该数据集包含了6种传统的加密流量：Email、Chat、Streaming、File transfer、VoIP和P2P，6种对应的VPN加密流量：VPN-Email、VPN-Chat、VPN-Streaming、VPN-File transfer、VPN-VoIP和VPN-P2P；

2.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，步骤S1输入的流量数据均是由Wireshark和tcpdump工具在真实环境中获取，共计28GB。

3.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，步骤S1数据预处理过程包括：

S11：读取pcap文件；

S12：去除不相关报文；

S13：去除以太网帧头；

S14：掩盖IP地址；

S15：检查包长度是否大于规定的输入大小，是则对数据包进行截断，否则在数据包末尾进行零填充，生成字节矩阵；

S16：对数据包进行归一化处理，以字节为单位除以255，使得输入大小都在0到1之间。

4.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，步骤S2通过将输入层、卷积层、ReLU层、池层和全连接层的叠加，形成一个完整的卷积神经网络；

其中，卷积层为二维卷积；

激活函数ReLU如公式(1)所示：

ReLU(x)＝max(0，x) (1)

批标准化如公式(2)所示：

其中α_i是某个神经元原始激活值，为经过标准化操作后的规范值；

损失函数如公式(3)所示：

输出层的激活函数Softmax公式如(4)所示：

本模型设置dropout为0.5。

5.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，步骤S3剪枝过程如下：

S31：将相邻两层神经元权重按照绝对值大小进行排序；

S32：根据剪枝速率P剪去绝对值小于0.4的权重，即将其置为0；

S33：剪枝后，重新训练模型，经过若干次迭代后得到一个优化的CNN模型。

6.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，步骤S5的连续变化的线性组合过程如公式(6)所示：

7.根据权利要求1所述的基于剪枝卷积神经网络和机器学习的加密流量识别方法，其特征在于，步骤S5对于任何给定的树结构，LightGBM定义了每个特征在迭代树中被分割的总次数T_Split和特征在所有决策树中被用来分割后所带来的增益总和T_Gain作为衡量特征重要性的度量标准，具体定义如下：

其中，K为K轮迭代产生的K棵决策树。