CN114257428A

CN114257428A - 一种基于深度学习的加密网络流量识别及分类方法

Info

Publication number: CN114257428A
Application number: CN202111509168.1A
Authority: CN
Inventors: 凌捷; 康健豪; 罗玉; 黄慧武; 区奕宁; 区旸; 刘艺彬
Original assignee: Guangdong University of Technology; China ComService Construction Co Ltd
Current assignee: Guangdong University of Technology; China ComService Construction Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-29
Anticipated expiration: 2041-12-10
Also published as: CN114257428B

Abstract

本发明公开了一种基于深度学习的加密网络流量识别及分类方法，所述识别方法包括以下步骤：S1：获取加密网络流量数据并进行预处理得到若干单独的会话；S2：对于预处理后的流量数据进行统计特征的选择；S3：对预处理后的流量数据进行有效载荷截取；S4：将统计特征和有效载荷进行特征整合并进行特征标准化；S5：利用整合后的特征对识别模型进行训练，得到训练好的识别模型；S6：利用训练好的识别模型对加密网络流量进行识别和分类。本发明提高了加密网络流量识别及分类的准确度，实现了更高的分类性能，并且能够对细粒度的加密网络流量进行识别和分类同时具有更强的场景适用性。

Description

一种基于深度学习的加密网络流量识别及分类方法

技术领域

本发明涉及计算机网络安全领域，更具体地，涉及一种基于深度学习的加密网络流量识别及分类方法。

背景技术

网络流量分类是指将相似或相关的流量数据归为同一类别，准确实时的网络流量分类对网络管理、安全监控和入侵检测都是至关重要。但随着网络技术的不断发展和网络规模的迅速扩大，人们对隐私保护的需求增加，VPN、Tor等具有加密与匿名性的网络技术被用于网络通信的隐私保护。这些技术给普通用户带来便利的同时，也被许多非法分子利用，在匿名网络中利用流量加密技术进行传播恶意软件、分发违法内容和入侵网络主机***等违法犯罪行为。现今，传统的网络流量分类方法无法应对现今的网络环境，给网络监管带来巨大困难。

传统的网络流量分类方案可分为基于端口和基于有效载荷两种方法，这两类方法均有较大局限性。端口隐藏和动态端口技术的广泛使用，使得基于端口的分类方法已趋于无效；同时，现今大部分流量数据都以加密形式传输，使得基于有效载荷的方法无法获取加密流量中的特征字串，并且其需要访问流量的有效载荷，一定程度上侵犯用户隐私，因此这种方法也存在缺陷。

近年来，机器学习方法被用于网络流量识别与分类中，与传统的方法比较，机器学习方法有更好的分类精度和拓展性，但这些方法也存在不足。

一是依赖人工特征作为分类依据，需要专业人士进行流量特征的统计、手工提取，再使用机器学习的方法进行训练并识别。这需要丰富的专业背景，并且难以泛化推广使用；

二是由于在实际网络中加密网络流量的类别多样，获取的样本往往极不平衡，导致分类性能低。有学者提出使用对抗生成网络进行数据生成，但对抗生成网络训练数据计算开销大，且极不稳定，数据生成难度大。

三是分类的粒度不够精细，现有研究大多集中在加密流量服务类别的分类，对具体应用类别的分类研究较少，没有综合考虑加密网络流量的统计特征和有效载荷深层特征，因而对细粒度的加密网络流量分类性能较差。

综上所述，上述方案均有不足，或者方法陈旧不适用于当今的网络环境；或者仅依赖人工选择的特征进行分类，忽略加密流量深层特征，且未考虑样本不均衡的问题，细粒度加密网络流量分类性能较差。因此，亟需提出一种能对加密网络流量进行准确分类的方法。

发明内容

本发明为克服上述现有技术中对加密网络流量识别方法分类性能和分类准确度较低的缺陷，提供一种基于深度学习的加密网络流量识别及分类方法。

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种基于深度学习的加密网络流量识别方法，包括以下步骤：

S1：获取加密网络流量数据并进行预处理得到若干单独的会话；

S2：对于预处理后的流量数据进行统计特征的选择；

S3：对预处理后的流量数据进行有效载荷截取；

S4：将统计特征和有效载荷进行特征整合并进行特征标准化；

S5：利用整合后的特征对识别模型进行训练，得到训练好的识别模型；

S6：利用训练好的识别模型对加密网络流量进行识别。

进一步的，步骤S1所述的获取加密网络流量数据并进行预处理具体步骤为：

利用网络抓包工具收集网络通信工具通信的加密网络流量；

对格式为pcap的原始流量文件进行清洗；

将清洗后的原始流量切分成多个单独的会话。

进一步的，步骤S2所述的对于预处理后的流量数据进行统计特征的选择具体步骤为：

利用网络流量特征提取工具提取每个会话的统计特征；

删除Flow ID、Src IP、Dst IP、Timestamp这4个与分类无关的特征，保留其余网络流量统计特征作为识别模型训练的输入之一。

进一步的，步骤S3所述的对预处理后的流量数据进行有效载荷截取具体步骤为：

截取每条切分后的流量会话中密文形式的有效载荷前945个字节，若不足945个字节，则使用0进行填充补齐至945，将其作为模型训练的输入之一。

进一步的，步骤S4所述将统计特征和有效载荷进行特征整合并进行特征标准化具体步骤为：

将步骤S2选择的统计特征和步骤S3得到的有效载荷字节整合成固定长度的特征向量；

使用min-max标准化方法将每个特征缩放至0-1之间，计算方法为

其中x^*为标准化后的特征，x为输入特征，min和max分别对应输入特征的最小值和最大值。

进一步的，S5所述的利用整合后的特征对识别模型进行训练，得到训练好的识别模型具体过程为：

将整合后的特征转换成预设的格式输入Mogrifier LSTM中进行全局时序特征提取；

将Mogrifier LSTM输出的特征矩阵输入至SKCNN网络进行空间局部特征提取，得到空间局部特征的特征图；

利用全连接分类对得到的特征进行分类，经由softmax输出预测结果，最后，使用CBFocalLoss计算损失值，利用反向传播更新权重，优化模型。

进一步的，输入至SKCNN网络的特征矩阵处理过程为：

特征矩阵中的特征图依次经过5×5的卷积、最大池化、两次5×5卷积、一个SK卷积、一次1×1卷积和最后的全局平均池化，最终得到一个长度为8的特征向量；所述SK卷积为一种卷积神经网络的注意力机制，用于对通道加权，具体包括Split，Fuse，Select三个操作，其中：

Split：将输入的加密网络流量特征图通过两个的卷积核变换得到两个分支

和

Fuse：将两个分支输出的逐个元素进行相加，即

然后，对两个输出U进行全局平均池化操作

得每个通道上的全局信息s，即

最后，对输出s做全连接获得每个通道的权重z，即

其中δ为relu激活函数，

为批量归一化(batchnorm)；

Select：生成的权重z经由softmax运算得到权重a，再计算权重b＝1-a，a和b分别对应

和

的权重，两两对应相乘得到U₁和U₂，计算U_out＝U₁+U₂，U_out为最终加权后的输出的特征图。

进一步的，CBFocalLoss计算损失值表达式为：

Z为softmax输出的预测结果，y是样本标签，超参数β∈[0,1)，n_y为加密流量的类别数量，

进一步的，步骤S6所述的利用训练好的识别模型对加密网络流量进行识别具体为：

将预先人工识别并标记的网络流量数据其作为训练数据，重复训练模型直至最优，保存最优模型；向保存的最优模型中输入未识别的网络流量数据，自动识别出加密网络流量并进行标记。

本发明第二方面提供了一种基于深度学习的加密网络流量分类方法，包括以下步骤：

S2：对于预处理后的流量数据进行统计特征的选择；

S3：对预处理后的流量数据进行有效载荷截取；

S6：利用训练好的识别模型对加密网络流量进行分类。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过将加密流量中的有效载荷的深度特征和统计特征整合，实现了更高的分类性能，并且能够对细粒度的加密网络流量进行识别和分类从而提高分类的准确度；通过截取加密网络流量的有效载荷作为部分输入，无需将加密后的有效载荷解密成明文，降低了计算开销，保护用户隐私，并且不受流量端口隐藏技术和网络流量加密技术的影响，方法的场景适用性更强。

附图说明

图1为本发明实施例基于深度学习的加密网络流量识别方法流程图。

图2为本发明实施例用于时序特征提取的Mogrifier LSTM网络结构图

图3为本发明实施例基于卷积神经网络设计的SKCNN网络结构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明实施例提供了一种基于深度学***衡的CBFocalLoss损失函数进行训练，有效减轻类别不平衡对分类的影响。本发明该方法整合了两种流量特征，且利用两种不同角度的特征提取模块分别对加密网络流量进行特征提取，最后使用针对数据不平衡的损失函数进行训练，实现对加密网络流量的准确识别及分类。

实施例1

如图1所示，一种基于深度学习的加密网络流量识别方法，包括以下步骤：

在一个具体的实施例中，步骤S1的过程如下：

利用网络抓包工具Wireshark收集网络通信工具(如VPN、TOR等)通信的加密网络流量的原始pcap格式文件，本发明实施例中使用CIC-Darknet2020数据集中的原始pcap文件作为实验中的原始加密网络流量数据，其中包含VPN和TOR两种类型的加密网络流量，共有Audio-Stream、Browsing、Chat、Email、P2P、Transfer、Video-Stream和VOIP共8种服务类别；

对格式为pcap的原始流量文件进行清洗；将清洗后的原始流量切分成多个单独的会话，所述清洗即将pcap文件中的重复、冗余和空白等噪声流量删除；然后利用USTC-TK2016工具集将清洗完毕的流量按会话层的形式进行切分，最终形成一条条单独的会话流量。

S2：对于预处理后的流量数据进行统计特征的选择；

在一个具体的实施例中，步骤S2的过程如下：

利用网络流量特征提取工具CICFlowMeter提取每个会话的统计特征，共包含83个特征；

删除Flow ID、Src IP、Dst IP、Timestamp这4个与分类无关的特征，保留79个网络流量统计特征作为识别模型训练的输入之一。

S3：对预处理后的流量数据进行有效载荷截取；

在一个具体实施例中，步骤S3的过程如下：

需要说明的是，将切分出来的每条流量会话进行有效载荷截取，其中有效载荷是每条网络流量传输的有效数据。加密网络流量中的有效载荷是被加密过的密文，这些密文由一系列大小在0-255的字节组成。截取每条切分后的流量会话中密文形式的有效载荷前945个字节，若不足945个字节，则使用0进行填充补齐至945，将其作为模型训练的输入之一。

需要说明的是，本发明截取加密网络流量的有效载荷作为部分输入，无需将加密后的有效载荷解密成明文，可直接将密文对应的逐个字节作为输入，保护用户隐私，并且不受流量端口隐藏技术和网络流量加密技术的影响，因此有更广泛的应用场景。

在一个具体实施例中，步骤S3的过程如下：

将步骤S2选择的79个统计特征和步骤S3得到的945个有效载荷字节整合成固定长度为1024的特征向量；

使用min-max标准化方法将每个特征缩放至0-1之间，计算方法为

其中x^*为标准化后的特征，x为输入特征，min和max分别对应输入特征的最小值和最大值，采用上述方法对特征进行标准化避免大方差特征的干扰，便于模型训练。

需要说明的是，本发明综合考虑有效载荷的深度特征和统计特征，实现了更高的分类性能，并且能够对细粒度的加密网络流量识别并进行分类。

在一个具体实施例中，步骤S3的过程如下：

将整合后的1024个特征转换成32x32的特征矩阵并输入Mogrifier LSTM中进行全局时序特征提取；如图2所示Mogrifier LSTM将当前输入状态(图2中的X[-1,0…,32])和隐藏状态(图3中的H[0,2,…,32])的充分交互后再输入LSTM中，这种方式可以很好地对上下文无关的输入进行表征。本发明中的输入为两种加密网络流量特征整合的特征矩阵，无明显上下文关系，采用Mogrifier LSTM可有效提取时序特征。

将Mogrifier LSTM输出的特征矩阵输入至SKCNN网络进行空间局部特征提取，得到空间局部特征的特征图；如图3，SKCNN的输入是通道为1(C＝1)，大小为32×32的特征图，先后经过5×5的卷积、最大池化、两次5×5卷积、一个SK卷积、一次1×1卷积和最后的全局平均池化，最终得到一个长度为8的特征向量。

所述SK卷积为一种卷积神经网络的注意力机制，用于对通道加权，具体包括Split，Fuse，Select三个操作，其中：

Split：将输入的加密网络流量特征图通过3×3和5×5的的卷积核变换得到两个分支

和

Fuse：将两个分支输出的逐个元素进行相加，即

然后，对两个输出U进行全局平均池化操作

得每个通道上的全局信息s，即

其中H＝6，W＝6；最后，对输出s做全连接获得每个通道的权重z，即

其中δ为relu激活函数，

为批量归一化(batchnorm)；

和

经过SK卷积加权后，使用8个1×1卷积和全局平局池化，得到长度为8的特征向量Z＝[z₁,z₂,z₃,z₄,z₅,z₆,z₇,z₈]，输入softmax计算出模型预测的流量类别。最后，使用CBFocalLoss计算损失值，利用反向传播更新权重，优化模型。CBFocalLoss计算方法为：

Z＝[z₁,z₂,z₃,z₄,z₅,z₆,z₇,z₈]为模型输出的特征向量，y是样本标签，超参数β∈[0,1)，n_y为加密流量的类别数量，

需要说明的是，本发明将一种循环神经网络变体Mogrifier LSTM作为时序特征提取模块，再将学***衡的损失函数CBFocalLoss训练模型，减少了不平衡数据的影响，无需额外收集或生成数据，有效解决了数据收集困难导致模型性能下降的问题。

S6：利用训练好的识别模型对加密网络流量进行识别。

根据前述实施例中模型训练步骤，将预先人工识别并标记的网络流量数据其作为训练数据，重复训练模型直至最优，保存最优模型；向保存的最优模型中输入未识别的网络流量数据，自动识别出加密网络流量并进行标记。

实施例2

S2：对于预处理后的流量数据进行统计特征的选择；

S3：对预处理后的流量数据进行有效载荷截取；

S6：利用训练好的识别模型对加密网络流量进行分类。

实施例3

根据前述实施例中模型训练步骤具体阐述加密网络流量进行分类过程：将预先人工识别并标记的加密网络流量数据其作为训练数据，将其作为训练数据重复训练模型直至最优，保存最优模型；向保存的最优模型中输入未分类的加密网络流量数据，将其分类为不同应用类型的网络流量。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。