CN112019500B

CN112019500B - 一种基于深度学习的加密流量识别方法及电子装置

Info

Publication number: CN112019500B
Application number: CN202010680117.4A
Authority: CN
Inventors: 郑超; 石逢钊; 崔一鸣; 刘庆云
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2021-11-23
Anticipated expiration: 2040-07-15
Also published as: CN112019500A

Abstract

本发明提供一种基于深度学习的加密流量识别方法及电子装置，包括：收集网络中的若干TLS流，获取每一TLS流中的ClientHello报文整数序列、ServerHello报文整数序列、end‑entity certificate整数序列及前n个TLS应用数据报文组成的序列；提取ClientHello报文特征、ServerHello报文特征、end‑entity certificate特征及序列特征，计算若干TLS流的时间相关性，得到流特征；将流特征输入一加密流量分类器进行分类，根据加密流量分类器输出的各数据来源预测概率值，获取产生若干TLS流的数据来源。本发明从原始的流量中提取特征，无需人工进行特征分析；结合了报文层次和流层次的特征，使得分类效果较好；使用浅层的网络结构，减小了分类时间，使得分类器适用于实时分类。

Description

一种基于深度学习的加密流量识别方法及电子装置

技术领域

本发明涉及网络安全领域，尤其涉及为一种基于深度学习的加密流量识别方法及电子装置。

背景技术

随着互联网不断地扩大，网络分类技术在网络管理中的地位愈发重要。例如中国专利申请CN101119321B公开的网络流量分类处理方法及网络流量分类处理装置、中国专利申请CN103973589B公开的网络流量分类方法及装置、中国专利申请公开的CN104767692B一种网络流量分类方法都从各方面研讨了如何才能更好地进行相应的流量分类。

而目前越来越多的手机应用使用TLS加密传输来保护用户隐私。尽管这种方法增强了通信双方的安全性，但是也使得很多传统的网络服务功能无法使用。同时，流量加密也使得恶意程序可以通过加密的方法绕过防火墙，从而造成严重的损失。

目前，比较常用的方法是基于机器学习的方法来进行网络流量的识别，但是由于传统机器学习方法将特征提取和分类任务一分为二，且难以将原始特征全部转换为可用的特征向量，例如中国专利申请CN111030941A公开了一种基于决策树的HTTPS加密流量分类方法，使得分类效果不佳。另一方面，现有的基于深度学习的方案以流序列特征为输入，难以做到实时识别。

发明内容

为了克服现有的方案难以自动提取特征、准确率不高、无法实时识别的不足,本发明提供一种基于深度学习的加密流量分类、识别方法及电子装置。本发明通过使用深度学习方法构造的多属性关联网络，从原始TLS握手报文和部分TLS应用报文中自动提取特征，在保证实时识别的情况下实现了很好的准确率。

为达到上述目的，本发明采用的具体技术方案如下：

一种基于深度学习的加密流量识别方法，其步骤包括：

1)1)收集网络中的若干TLS流，获取每一TLS流中的ClientHello报文整数序列、ServerHello报文整数序列、end-entitycertificate整数序列及前n个TLS应用数据报文组成的序列，n≥1；

2)提取ClientHello报文特征、ServerHello报文特征、end-entitycertificate特征及序列特征，计算若干TLS流的时间相关性，得到流特征；

3)将流特征输入一加密流量分类器进行分类，根据加密流量分类器输出的各数据来源预测概率值，获取产生若干TLS流的数据来源；

通过以下步骤训练所述加密流量分类器：

a)对各样本数据来源产生的若干样本TLS流赋予相应标签，并获取每一样本TLS流中的样本ClientHello报文整数序列、样本ServerHello报文整数序列、样本end-entitycertificate整数序列及每一样本数据来源的前n个TLS应用数据报文组成的样本序列；

b)提取样本ClientHello报文特征、样本ServerHello报文特征、样本end-entitycertificate特征及样本序列特征，计算各样本数据来源产生的样本TLS流时间相关性，得到每一样本数据来源的样本TLS流流特征；

c)将各样本TLS流流特征输入一分类器进行训练，得到所述加密流量分类器。

进一步地，通过wireshark收集网络中的若干TLS流；所述数据来源包括APP。

进一步地，通过以下步骤提取每一TLS流中的ClientHello报文整数序列、ServerHello报文整数序列与end-entitycertificate整数序列：

1)提取每一TLS流中的ClientHello报文、ServerHello报文与end-entitycertificate；

2)ClientHello报文、ServerHello报文与end-entitycertificate按照2-byte长度进行切分，分别转化为指定长度为x、y、z的整数序列，其中每一2-byte的块转换为整数p，p∈[1,65536]；

3)截断超过指定长度的整数，对不足指定长度整数序列的后面补0。

进一步地，分别将ClientHello报文特征、ServerHello报文特征与end-entitycertificate特征输入由一embedding层、一1D-CNN层、globalmax-pooling层和一全连接层组成的报文特征提取器，得到ClientHello报文特征、ServerHello报文特征与end-entitycertificate特征。

进一步地，1D-CNN使用两种核提取特征构成双通道。

进一步地，将前n个TLS应用数据报文组成的序列输入一embedding层，得到与lientHello报文特征、ServerHello报文特征及end-entitycertificate特征维度相同的序列特征。

进一步地，将ClientHello报文特征、ServerHello报文特征、end-entitycertificate特征及序列特征输入一双向GRU网络，得到流特征。

进一步地，将流特征输入分类器前，将流特征输入一单层全连接网络进行降维；分类器包括softmax函数。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明具有以下有益效果：

1)从原始的流量中提取特征，无需人工进行特征分析；

2)结合了报文层次和流层次的特征，使得分类效果较好；

3)使用浅层的网络结构，减小了分类时间，使得分类器适用于实时分类。

附图说明

图1是本发明的应用流程图。

图2是本发明的整体架构图。

图3是图2中MSFG的架构图。

具体实施方式

为了使得本技术领域的研究人员更全面地理解本发明，下面将结合附图和实施例对本发明中的核心技术做详细的说明。

本发明解决其技术问题所采用的技术方案是：本发明主要解决SSL/TLS(安全套接字协议/传输层安全协议，以下简称TLS)流的分类问题，主要是将单条TLS流分类为相应的App。本发明首先通过主动收集的方法收集到App产生的TLS流量进行模型训练和测试，收集过程如下：将手机接入计算机的wify接入点，在手机中一次运行一个App，在接入点处使用wireshark收集产生的TLS流，并将其标注为对应的App。然后使用训练好的模型在网关处进行流量分类，具体过程如图1所示。

图2为本发明的整体架构：首先，考虑到TLS流的握手报文中含有相应的App身份信息,且TLS应用报文的长度反映了上层应用的交互逻辑，因此提取两部分特征：一类是每一条TLS流原始的ClientHello报文、ServerHello报文、end-entitycertificate，二是前10个TLS应用数据报文组成的序列(仅包含报文的长度特征)。然后将提取到的特征分别经过报文切分层，报文特征提取层、流特征提取层、全连接层和分类层，最终输出结果。各层结构和作用描述如下：

报文切分层：由于ClientHello报文、ServerHello报文和end-entitycertificate均为二进制形式，无法直接由神经网络进行计算，需要利用该层将其转化为整数序列。具体做法为：对ClientHello报文、ServerHello报文和end-entitycertificate按照2-byte长度进行切分，然后将其转化为长度分别x、y、z的整数序列，其中每个2-byte的块转换为整数p(x、y、z分别为300、300、5000，p的取值范围为[1,65536])。对于超过指定长度的序列将其截断，长度不足的序列在其后补0。

报文特征提取层：由于握手报文具有一定的局部特征，同时为了加快特征提取过程，因此使用CNN进行特征提取。该层分为两个部分处理——一部分处理由原始报文生成的整数序列，一部分处理前十个TLS应用报文长度组成的序列。对于第一部分，将其交由图3所示的MSFG(报文序列特征生成器)进行报文特征的提取。首先将其送入一个embedding层(embeding的维度为60)，然后依次通过1个1D-CNN层、globalmax-pooling层和一个全连接层。为了获得更好的特征，1D-CNN使用两种核大小(2和4)提取特征构成双通道。对于第二部分，只将其通过一个embedding层提取报文层次的特征，该层特征输出维度与MSFG的输出维度相同。

流特征提取层：由于网络流本身具有时间相关性，因而RNN适合提取流层次的特征，因此在该层使用双向GRU进行特征提取。本发明将上述提取的报文特征构成一个报文特征序列，然后交由双向GRU进行特征提取。最终将所有GRU单元的输出连接起来作为最终输出送入下一层。

全连接层：该层使用单层全连接网络对流特征提取层的结果进行降维，以减小过拟合。

分类层：该层使用softmax层输出每个App(比如：淘宝，高德地图等)的预测概率值，其中值最大的那一类即为最终结果。

为了证明本发明的有效性，发明人收集了16个App共59065条流，其数据集总体如表1所示。将该数据集按照4：1的比例划分为训练集和测试集，使用训练集对MAAN的参数进行了调优，其结果如表2所示。用调优后的模型在测试集上进行测试，最终分类效果如表3所示：可以看到，所有的应用其精确率和召回率均在95％以上，总体的准确率为98.22％，说明本发明具有很好的分类效果。此外使用本发明进行测试时，分类单条流所用的时间为1ms，该分类时间较短适合进行实时分类。

表1：数据集

表2：最优参数

表3：实验结果。其中Acc.、Prec.、Rec.分别表示Accuracy、Precision、Recall。

以上通过形式表达和实施例对本发明方法进行了详细的说明，但本发明的具体实现形式并不局限于此。本领域的一般技术人员，可以在不背离本发明所述方法的精神和原则的情况下对其进行各种显而易见的变化与修改。本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于深度学习的加密流量识别方法，其步骤包括：

1）收集网络中的若干TLS流，获取每一TLS流中的ClientHello报文整数序列、ServerHello报文整数序列、end-entity certificate整数序列及前n个TLS应用数据报文组成的序列，n≥1；

2）提取ClientHello报文特征、ServerHello报文特征、end-entity certificate特征及序列特征，计算若干TLS流的时间相关性，得到流特征，其中序列特征由前n个TLS应用数据报文的长度组成；

3）将流特征输入一加密流量分类器进行分类，根据加密流量分类器输出的各数据来源预测概率值，获取产生若干TLS流的数据来源；

通过以下步骤训练所述加密流量分类器：

a）对各样本数据来源产生的若干样本TLS流赋予相应标签，并获取每一样本TLS流中的样本ClientHello报文整数序列、样本ServerHello报文整数序列、样本end-entitycertificate整数序列及每一样本数据来源的前n个TLS应用数据报文组成的样本序列；

b）提取样本ClientHello报文特征、样本ServerHello报文特征、样本end-entitycertificate特征及样本序列特征，计算各样本数据来源产生的样本TLS流时间相关性，得到每一样本数据来源的样本TLS流流特征，其中样本序列特征由每一样本数据来源的前n个TLS应用数据报文的长度组成；

c）将各样本TLS流流特征输入一分类器进行训练，得到所述加密流量分类器。

2.如权利要求1所述的方法，其特征在于，通过wireshark收集网络中的若干TLS流；所述数据来源包括APP。

3.如权利要求1所述的方法，其特征在于，通过以下步骤提取每一TLS流中的ClientHello报文整数序列、ServerHello报文整数序列与end-entity certificate整数序列：

1）提取每一TLS流中的ClientHello报文、ServerHello报文与end-entitycertificate；

2）ClientHello报文、ServerHello报文与end-entity certificate按照2-byte长度进行切分，分别转化为指定长度为x、y、z的整数序列，其中每一2-byte的块转换为整数p，p∈[1,65536]；

3）截断超过指定长度的整数，对不足指定长度整数序列的后面补0。

4.如权利要求1所述的方法，其特征在于，分别将ClientHello报文特征、ServerHello报文特征与end-entity certificate特征输入由一embedding层、一1D-CNN层、globalmax-pooling层和一全连接层组成的报文特征提取器，得到ClientHello报文特征、ServerHello报文特征与end-entity certificate特征。

5.如权利要求1所述的方法，其特征在于，1D-CNN使用两种核提取特征构成双通道。

6.如权利要求1所述的方法，其特征在于，将前n个TLS应用数据报文组成的序列输入一embedding层，得到与ClientHello报文特征、ServerHello报文特征及end-entitycertificate特征维度相同的序列特征。

7.如权利要求1所述的方法，其特征在于，将ClientHello报文特征、ServerHello报文特征、end-entity certificate特征及序列特征输入一双向GRU网络，得到流特征。

8.如权利要求1所述的方法，其特征在于，将流特征输入分类器前，将流特征输入一单层全连接网络进行降维；分类器包括softmax函数。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。