CN111611280A

CN111611280A - 一种基于cnn和sae的加密流量识别方法

Info

Publication number: CN111611280A
Application number: CN202010358549.3A
Authority: CN
Inventors: 陆一飞; 李艳
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-01

Abstract

本发明公开了一种基于CNN和SAE的加密流量识别方法。***结构设计为两层，第一层是有监督的CNN分类器，用来分类已知类型的流量；第二层是无监督的SAE分类器，用来分类未知类型的流量。流量到达之后先进入第一层分类器，如果某个流匹配到每一个类别的概率都低于给定阈值，就认为这条流不属于任何类别，是未知类型，进入第二层分类器(如果在第一层就分好了，就不用进入第二层)。第二层收集到一定数量的流量后，用无监督分类器进行分类，人工对这些分好类的流进行标记，然后再用这些新标记的数据重训练第一层的有监督分类器。本发明既可以对已知流量进行分类，也可以对未知流量进行分类。

Description

一种基于CNN和SAE的加密流量识别方法

技术领域

本发明属于加密流量识别技术领域，特别是一种基于CNN和SAE的加密流量识别方法。

背景技术

随着网络技术的发展以及人们对隐私的重视，各种加密技术在网络通信中得到了广泛的应用。对于特定类型的流量，加密甚至已经成为了法律的强制性要求。然而，流量加密后负载统计特征和流统计特征都会发生变化，为加密网络协议和加密网络应用的精细化识别和准确识别带来了额外挑战，使得流量分析和网络管理还存在一定的难度。目前主流的加密流量识别手段有两种，解密后识别和不解密识别。但是解密再重新加密的手段成本很高，而且违反了加密的初衷。

目前最常用的不解密的加密流量分类方法就是基于机器学习的分类方法。基于机器学习的识别方法首先会对网络流量进行标记，提取网络流量的特征属性，如报文的间隔时间、报文大小、流持续时间等，再用分类器训练和分类。如，Taylor VF等利用机器学习和流量分析来实现自动指纹识别和实时识别Android应用程序的加密网络流量(Taylor,V.F.,Spolaor,R.,Conti,M.,&Martinovic,I.(2016,March).Appscanner:Automaticfingerprinting of smartphone apps from encrypted network traffic.In 2016IEEEEuropean Symposium on Security and Privacy(EuroS&P)(pp.439-454).IEEE.)。He G等提出一种针对Tor应用的识别方法，该方法首先选择一些应用行为的代表性流特征，如爆发量和流方向，并采用机器学习算法来模拟不同的应用，如HMM模型，然后，使用建立的模型对Tor流量进行识别(He,G.,Yang,M.,Luo,J.,&Gu,X.(2015).A novel applicationclassification attack against Tor.Concurrency and Computation:Practice andExperience,27(18),5640-5661.)。但是机器学习方法耗时，而且需要人工提取特征。此外，绝大多数的方法都会把未知流量错误地分类到已知的几种类别中。

发明内容

本发明的目的在于提供一种可以同时对已知流量和未知流量进行分类的加密流量识别方法。

实现本发明目的的技术解决方案为：一种基于CNN和SAE的加密流量识别方法，所述识别方法包括以下步骤：

步骤1、根据分类要求收集加密流量数据，生成pcap文件；

步骤2、将pcap文件分割成流，并对流数据进行预处理，包括数据清洗、特征提取、标准化；之后将预处理后的m字节的数据转换成

的矩阵，并用索引文件打包；

步骤3、利用步骤2处理后的数据对CNN分类器进行训练；

步骤4、捕获待识别的流量，并按照步骤2的过程对该流量进行处理，之后利用步骤3训练后的CNN模型对流数据进行分类，针对未实现分类即未知类型的流数据，执行步骤5；

步骤5、利用SAE分类器对所述未知类型的流数据进行分类，利用分类后的流数据重新训练所述CNN分类器，返回执行步骤4。

进一步地，步骤1所述收集加密流量数据的方式包括：从公开数据集中采集加密流量数据，或主动捕获加密流量数据。

进一步地，所述主动捕获加密流量数据的过程包括：

从客户端、服务端、网络边缘、网络核心以及它们之间的任何地方捕获网络流量数据包，并利用流分析器对网络流量数据包进行标记。

进一步地，步骤2中所述数据清洗包括：删除重复数据，删除数据中的无效值，以及填充缺失值；

所述特征提取包括提取以下特征：

1)时空特征：包括数据包长度、间隔时间、连续分组方向，包大小转移矩阵以及熵值；

2)头部特征：网络层和传输层头部，包括端口号、协议类型以及数据包长度；

3)握手特征：包括协议版本、支持的扩展项；

4)证书特征：包括证书链长度、使用者正常度；

5)统计特征：整个流的特征，包括平均数据包长度、最小到达间隔时间；

所述标准化包括：将提取的特征值缩放为[-1,+1]或[0,1]范围内的值。

进一步地，所述数据清洗具体包括：

1)删除数据包重传、冗余ACK带来的重复数据；

2)去除以太网头部；

3)对输入到神经网络CNN中的数据的大小进行统一；

4)将数据包长度统一截断或填充至1480字节；

5)丢弃SYN、ACK、FIN包；

6)删除IP地址和MAC地址。

进一步地，步骤4所述利用步骤3训练后的CNN模型对流数据进行分类，针对未实现分类即未知类型的流数据，执行步骤5，具体过程包括：

步骤4-1，计算某个流匹配到每个类别的概率，并从中提取最大值M_p：

M_p＝max{p₁,p₂,…,p_n}

式中，p_i表示流匹配到第i个类别的概率，i＝1,2,...,n，n表示类别数；

步骤4-2，判断条件M_p＜λ_p是否成立，若成立，表示该流不属于任何类别，是未知类型，执行步骤5；反之，表示该流存在所属类别，且该流对应的类别为匹配概率最大的类别。

进一步地，步骤5所述利用SAE分类器对所述未知类型的流数据进行分类，利用分类后的流数据重新训练所述CNN分类器，具体包括：

步骤5-1，SAE分类器从接收到第一条未知类型流数据开始实时计算经过的时间T和收到的流数据的个数N，在T≥λ_t或N≥λ_n时，利用SAE分类器对收集到的流数据进行分类；

步骤5-2，假设SAE分类器将收集到的流数据分成了m个类别，对m个类别以及这些流数据进行标记；

步骤5-3，利用标记后的流数据重新训练所述CNN分类器。

本发明与现有技术相比，其显著优点为：1)除了需要对未知类别进行标记外，很少依赖人工；2)可以同时对已知流量和未知流量进行分类；3)对于已知类型的流量，准确率高；对于未知类型的流量，也不会将它错误地分类到已知的类别中。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为一个实施例中基于CNN和SAE的加密流量识别方法的流程图。

图2为一个实施例中基于CNN和SAE的加密流量识别***的框架图。

图3为一个实施例中CNN结构示意图。

图4为一个实施例中SAE结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，结合图1和图2，提供了一种基于CNN和SAE的加密流量识别方法，所述识别方法包括以下步骤：

步骤1、根据分类要求收集加密流量数据，生成pcap文件；

这里，假如分类是为了做网络资源调度，那就按应用类型收集数据，收集一些聊天加密流量、视频加密流量之类的。如果为了是为了做入侵检测，就收集一些加密正常流量和加密攻击流量。

的矩阵，并用索引文件打包；

步骤3、利用步骤2处理后的数据对CNN分类器进行训练；

进一步地，在其中一个实施例中，步骤1所述收集加密流量数据的方式包括：从公开数据集中采集加密流量数据，或主动捕获加密流量数据。

进一步地，在其中一个实施例中，所述主动捕获加密流量数据的过程包括：

利用Wireshark从客户端、服务端、网络边缘、网络核心以及它们之间的任何地方捕获网络流量数据包，并利用流分析器对网络流量数据包进行标记。其中受控的客户端是标记数据最容易的地方。

进一步地，在其中一个实施例中，步骤2中数据清洗包括：删除重复数据，删除数据中的无效值，以及填充缺失值；

所述特征提取包括提取以下特征：

1)时空特征：包括数据包长度、间隔时间、连续分组方向，包大小转移矩阵以及熵值等；

2)头部特征：网络层和传输层头部，包括端口号、协议类型以及数据包长度等；

3)握手特征：包括协议版本、支持的扩展项等；

4)证书特征：包括证书链长度、使用者正常度等；

5)统计特征：整个流的特征，包括平均数据包长度、最小到达间隔时间等；

进一步地，在其中一个实施例中，所述数据清洗具体包括：

1)删除数据包重传、冗余ACK带来的重复数据；

2)去除以太网头部；这是因为数据是在数据链路层捕获的，包括以太网头部，这些信息对于流量识别没有帮助；

3)对输入到神经网络CNN中的数据的大小进行统一；例如，TCP头部有20字节，UDP头部有8字节，用0填充使UDP头部也达到20字节；

4)将数据包长度统一截断或填充至1480字节；这是因为96％的数据包的负载长度小于1480字节；

5)丢弃SYN、ACK、FIN包；这是因为这些包没有有效负载；

6)删除IP地址和MAC地址；这是因为模型可能直接使用这些信息进行分类，导致过拟合。

进一步地，在其中一个实施例中，步骤4所述利用步骤3训练后的CNN模型对流数据进行分类，针对未实现分类即未知类型的流数据，执行步骤5，具体过程包括：

M_p＝max{p₁,p₂,…,p_n}

进一步地，在其中一个实施例中，步骤5所述利用SAE分类器对所述未知类型的流数据进行分类，利用分类后的流数据重新训练所述CNN分类器，具体包括：

步骤5-3，利用标记后的流数据重新训练所述CNN分类器。

在智能手机的流量中，70％是背景流量，只有30％的流量和用户交互直接相关。而使用自己捕获的数据时，即使在完全受控的环境中，完全把背景流量区分和移除也不是一件容易的事情。此外，网络拥塞水平、流量强度和用户行为等都会影响到网络和应用的状态，进而影响分类结果。

作为一种具体示例，对本发明基于CNN和SAE的加密流量识别方法进行进一步说明，具体包括：

利用ISCX VPN-nonVPN数据集进行应用分类和流量分类，ISCX VPN-nonVPN数据集中是pcap文件格式的数据包，包括7种常规流量和7种协议封装流量，分别是Browsing、VPN-Browsing、Email、VPN-Email、Chat、VPN-Chat、Streaming、VPN-Streaming、FTP、VPN-FTP、VoIP、VPN-VoIP、P2P、VPN-P2P。因此分类粒度为协议类型+应用类型。步骤包括：

1、利用SplitCap将pcap文件分割成流。数据预处理，包括数据清洗、特征提取、标准化等。具体包括：

(1)数据清洗，包括删除重复数据；对数据中的无效值进行删除，缺失值进行填充。具体包括：

1)删除数据包重传、冗余ACK带来的重复数据；

5)丢弃SYN、ACK、FIN包；这是因为这些包没有有效负载；

(2)特征选择，主要有以下几类特征：时空特征、头部特征、握手特征、证书特征、统计特征等。

3)握手特征：包括协议版本、支持的扩展项等；

4)证书特征：包括证书链长度、使用者正常度等；

(3)标准化，将特征值缩放为[0,1]范围内的值，转换函数为

2、转换成索引文件。经过特征提取和标准化后，原来1480字节的数据变成了625字节，把625字节转换成25*25的矩阵，用索引文件进行打包。

3、利用70K-100K条数据对CNN分类器进行训练，获得训练好的CNN分类器，如图3所示。

4、捕获待识别的流量，并按照上述过程2对该流量进行处理，利用上述过程3训练后的CNN模型对流数据进行分类：

计算某个流匹配到每个类别的概率，并从中提取最大值M_p：

M_p＝max{p₁,p₂,…,p_n}

判断条件M_p＜λ_p是否成立，取λ_p＝0.5，若成立，表示该流不属于任何类别，是未知类型，执行过程5；反之，表示该流存在所属类别，且该流对应的类别为匹配概率最大的类别。

5、利用SAE分类器对未知类型的流数据进行分类，利用分类后的流数据重新训练所述CNN分类器，具体包括：

SAE分类器(如图4所示)从接收到第一条未知类型流数据开始实时计算经过的时间T和收到的流数据的个数N，在T≥λ_t或N≥λ_n时，利用SAE分类器对收集到的流数据进行分类；取λ_t＝24h，λ_n＝10000；

假设SAE分类器将收集到的流数据分成了m个类别，对m个类别以及这些流数据进行标记；

利用标记后的流数据重新训练所述CNN分类器。

综上，未加密流量的特征提取方式大多聚焦在数据包大小和一些与时间有关的参数上，但是对于加密流量，本发明充分利用了握手阶段的未加密字段及证书信息等。本发明的方法应用于不要求实时分类的场景中，既可以对已知流量进行分类，也可以对未知流量进行分类。分类前需要确定分类目标和分类粒度。分类目标，如网络资源调度、入侵检测、个性化推荐等。分类粒度，如加密/非加密、协议类型、应用类型、网站类型、用户特殊行为、设备类型等。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于CNN和SAE的加密流量识别方法，其特征在于，所述识别方法包括以下步骤：

步骤1、根据分类要求收集加密流量数据，生成pcap文件；

的矩阵，并用索引文件打包；

步骤3、利用步骤2处理后的数据对CNN分类器进行训练；

2.根据权利要求1所述的基于CNN和SAE的加密流量识别方法，其特征在于，步骤1所述收集加密流量数据的方式包括：从公开数据集中采集加密流量数据，或主动捕获加密流量数据。

3.根据权利要求2所述的基于CNN和SAE的加密流量识别方法，其特征在于，所述主动捕获加密流量数据的过程包括：

4.根据权利要求1所述的基于CNN和SAE的加密流量识别方法，步骤2中所述数据清洗包括：删除重复数据，删除数据中的无效值，以及填充缺失值；

所述特征提取包括提取以下特征：

3)握手特征：包括协议版本、支持的扩展项；

4)证书特征：包括证书链长度、使用者正常度；

5.根据权利要求4所述的基于CNN和SAE的加密流量识别方法，其特征在于，所述数据清洗具体包括：

1)删除数据包重传、冗余ACK带来的重复数据；

2)去除以太网头部；

3)对输入到神经网络CNN中的数据的大小进行统一；

4)将数据包长度统一截断或填充至1480字节；

5)丢弃SYN、ACK、FIN包；

6)删除IP地址和MAC地址。

6.根据权利要求1所述的基于CNN和SAE的加密流量识别方法，其特征在于，步骤4所述利用步骤3训练后的CNN模型对流数据进行分类，针对未实现分类即未知类型的流数据，执行步骤5，具体过程包括：

M_p＝max{p₁,p₂,…,p_n}

7.根据权利要求1所述的基于CNN和SAE的加密流量识别方法，其特征在于，步骤5所述利用SAE分类器对所述未知类型的流数据进行分类，利用分类后的流数据重新训练所述CNN分类器，具体包括：

步骤5-3，利用标记后的流数据重新训练所述CNN分类器。