CN111970169A

CN111970169A - 一种基于gru网络的协议流量识别方法

Info

Publication number: CN111970169A
Application number: CN202010820902.5A
Authority: CN
Inventors: 余顺争; 汪擎天
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-20
Anticipated expiration: 2040-08-14
Also published as: CN111970169B

Abstract

本发明公开了一种基于GRU网络的协议流量识别方法，包括以下步骤：对不同协议流量样本进行数据预处理，得到符合GRU网络输入数据格式的训练样本集，并使用该训练样本集对GRU网络模型进行训练；对未知协议流量进行数据预处理，得到具有时间序列的空间位置特征数据，并输入至训练完成的GRU网络模型中；使用训练完成的GRU网络模型对数据预处理后的未知协议流量进行识别，最终得到预测标签。本发明通过数据预处理完成数据包的特征提取，能够有效克服人工提取特征的困难；而且，GRU网络模型的构建和使用，有效提高了协议识别的准确率；另外，流量交互过程中的信息，因为涉及空间位置特征、时序特征两个层次，使得协议流量识别的效果更加显著。

Description

一种基于GRU网络的协议流量识别方法

技术领域

本发明涉及计算机网络流量分析领域，更具体地，涉及一种基于GRU网络的协议流量识别方法。

背景技术

协议流量识别是指通过人工分析或自动化手段从TCP/IP协议承载的网络流量中提取出能够标识网络协议的关键特征，然后以这些特征为基础准确标识网络流量所隶属的协议。协议识别技术有助于对网络流量的组成进行分析，能够为网络管理与维护、网络内容审计、网络安全防御等多个研究领域提供数据支撑。但是面对如今大规模、多元化、高容量的网络流量，如何提高协议识别的准确率是一项巨大的挑战。

协议流量识别方法主要包括基于预设规则的协议识别方法、基于载荷特征的协议识别方法、基于主机行为的协议识别方法以及基于机器学习的协议识别方法四种。深度学习在分类方面存在着优势，不过现有的协议流量识别方法也存在着人工提取特征困难的问题。

在现有技术中，公开号为CN107682216A的中国发明专利，于2018年02月09日公开了一种基于深度学习的网络流量协议识别方法，利用网络流数据与图像的相似性，绕过流量特征值选择和提取的工作，直接将网络流数据作为卷积神经网络的输入，进行监督学习，训练网络流量协议识别模型，实现网络流量协议识别功能。虽然该方案将待识别网络流量协议样本用于对卷积神经网络的训练，便能在一定程度上自动提取到有利于分类任务的特征，但是并未解决现有人工提取特征困难、协议识别准确率不高的问题，因此，用户急需一种基于GRU网络的协议流量识别方法。

发明内容

本发明为解决现有人工提取特征困难、协议识别准确率不高的问题，提供了一种基于GRU网络的协议流量识别方法。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

一种基于GRU网络的协议流量识别方法，包括以下步骤：

S1：对不同协议流量样本进行数据预处理，得到符合GRU网络输入数据格式的训练样本集，并使用该训练样本集对GRU网络模型进行训练；

S2：对未知协议流量进行数据预处理，得到具有时间序列的空间位置特征数据，并输入至训练完成的GRU网络模型中；

S3：使用训练完成的GRU网络模型对数据预处理后的未知协议流量进行识别，最终得到预测标签。

优选地，步骤S1、S2中所述数据预处理包括流量切分、数据包聚类、会话数据转换。

优选地，所述流量切分的基本单元为会话。

优选地，所述数据包聚类采用K均值算法进行。

优选地，所述会话数据转换是将流量切分后的各数据包的内容格式替换为距离集合，所采用的距离计算公式为：

其中，Max Subsequence函数为各数据包与各聚类中心之间的最长公共连续序列识别算法；D_(x,centroid)为各数据包与各聚类中心的距离。

优选地，所述GRU网络模型包括输入层、Masking层、第一GRU层、第二GRU层、全连接层、输出层；其中：

所述Masking层分别连接至输入层和第一GRU层；

所述第二GRU层分别连接至第一GRU层和全连接层；

所述输出层与全连接层连接。

优选地，所述第一GRU层、第二GRU层提取特征值的维度均设置为64。

优选地，所述全连接层采用ReLU函数作为激活函数。

优选地，所述全连接层采用Dropout设置其比率为0.5。

优选地，所述输出层采用Sigmoid函数作为激活函数。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过数据预处理完成数据包的特征提取，能够有效克服人工提取特征的困难；而且，GRU网络模型的构建和使用，有效提高了协议识别的准确率；另外，流量交互过程中的信息，因为涉及数据包本身空间位置特征、数据包之间时序特征两个层次，使得协议流量识别的效果更加显著。

附图说明

图1为本发明的总流程图；

图2为本发明中所述GRU网络模型识别未知协议流量的流程图；

图3为本发明中所述GRU网络模型的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1所示，一种基于GRU网络的协议流量识别方法，包括以下步骤：

上述方案中，可见本方法分为两个阶段，第一阶段是训练阶段，使用训练样本集完成对GRU网络模型的训练；第二阶段是识别阶段，使用训练完成后的GRU网络模型对数据预处理后的未知协议流量进行识别，得到预测标签。

如图2所示，具体地，步骤S1、S2中所述数据预处理包括流量切分、数据包聚类、会话数据转换。

上述方案中，数据预处理是未知协议流量识别过程中的基础步骤，其中：流量切分，负责将未知协议流量按照一定依据切分成对应形式的数据集；数据包聚类，负责对数据集中的所有数据包进行聚类，并得到聚类中心；会话数据转换，负责将所有数据包的内容转换为各数据包与各聚类中心之间的距离；最后，按照各数据包的时序关系进行整合，将未知协议流量转化为具有时间序列的空间位置特征数据，符合GRU网络模型的输入数据格式。

具体地，所述流量切分的基本单元为会话。

上述方案中，在流量粒度的选择上，采用了目前研究较多的会话，其具有相同五元组(源IP、源端口、目的IP、目的端口、传输层协议)的所有包，且五元组中的源和目的地址可以互换。

具体地，所述数据包聚类采用K均值算法进行。

上述方案中，K均值算法不仅易于实现，而且具有优化迭代功能，能消除训练样本集分类存在的不合理。

具体地，所述会话数据转换是将流量切分后的各数据包的内容格式替换为距离集合，所采用的距离计算公式为：

上述方案中，采用该距离计算公式，完成各数据包与各聚类中心之间距离的计算。

如图3所示，具体地，所述GRU网络模型包括输入层、Masking层、第一GRU层、第二GRU层、全连接层、输出层；其中：

所述Masking层分别连接至输入层和第一GRU层；

所述第二GRU层分别连接至第一GRU层和全连接层；

所述输出层与全连接层连接。

上述方案中，首先，Masking层将训练样本集中的补齐数据作跳过处理；其次连续两层的GRU门控循环单元，第一GRU层的参数return_sequences＝TRUE，将每一个时间步的结果输出到第二GRU层中，在计算过程中，由于GRU网络存在更新门和重置门机制，可以保留前一时刻的状态信息传递至当前时刻，并带入到相同的程度，能充分提取会话流中的时序特征信息；再者，全连接层设有256个神经元，保证GRU网络模型的学习能力非线性表达能力；最后，输出层将识别结果输出。

具体地，所述第一GRU层、第二GRU层提取特征值的维度均设置为64。

上述方案中，所设置的维度能确保两层GRU门控循环单元找出最有效的特征，达到降维效果，避免冗余。

具体地，所述全连接层采用ReLU函数作为激活函数。

上述方案中，采用ReLU函数作为激活函数，不仅时间和空间复杂度更低，而且能避免梯度消失的问题。

具体地，所述全连接层采用Dropout设置其比率为0.5。

上述方案中，采用Dropout机制以丢失50％的特征，能够很大程度上简化结构，以防治神经网络过拟合问题，并且能避免过多时间的花费。

具体地，所述输出层采用Sigmoid函数作为激活函数。

上述方案中，输出层只设置了一个输出节点，输出结果为未知协议流量属于某一种协议类型的概率，而采用Sigmoid函数作为激活函数，使输出值介于0至1，符合二分类的需求。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于GRU网络的协议流量识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于GRU网络的协议流量识别方法，其特征在于，步骤S1、S2中所述数据预处理包括流量切分、数据包聚类、会话数据转换。

3.根据权利要求2所述的一种基于GRU网络的协议流量识别方法，其特征在于，所述流量切分的基本单元为会话。

4.根据权利要求2所述的一种基于GRU网络的协议流量识别方法，其特征在于，所述数据包聚类采用K均值算法进行。

5.根据权利要求2所述的一种基于GRU网络的协议流量识别方法，其特征在于，所述会话数据转换是将流量切分后的各数据包的内容格式替换为距离集合，所采用的距离计算公式为：

6.根据权利要求1所述的一种基于GRU网络的协议流量识别方法，其特征在于，所述GRU网络模型包括输入层、Masking层、第一GRU层、第二GRU层、全连接层、输出层；其中：

所述Masking层分别连接至输入层和第一GRU层；

所述第二GRU层分别连接至第一GRU层和全连接层；

所述输出层与全连接层连接。

7.根据权利要求6所述的一种基于GRU网络的协议流量识别方法，其特征在于，所述第一GRU层、第二GRU层提取特征值的维度均设置为64。

8.根据权利要求6所述的一种基于GRU网络的协议流量识别方法，其特征在于，所述全连接层采用ReLU函数作为激活函数。

9.根据权利要求6所述的一种基于GRU网络的协议流量识别方法，其特征在于，所述全连接层采用Dropout设置其比率为0.5。

10.根据权利要求6所述的一种基于GRU网络的协议流量识别方法，其特征在于，所述输出层采用Sigmoid函数作为激活函数。