CN116248530A

CN116248530A - 一种基于长短时神经网络的加密流量识别方法

Info

Publication number: CN116248530A
Application number: CN202211588408.6A
Authority: CN
Inventors: 刘旭生; 王晨飞; 张晓慧; 李晓红; 陈森; 徐李阳; 赵文华; 谢瑞楠
Original assignee: State Grid Co ltd Customer Service Center; Tianjin University
Current assignee: State Grid Co ltd Customer Service Center; Tianjin University
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-06-09

Abstract

本发明公开了一种基于长短时神经网络的加密流量识别方法，步骤1，将待分类的加密应用程序的网络流量进行预处理，得到网络流量中每个网络流包含的数据包；步骤2，进行当前网络流量数据包的特征提取；步骤3，构建长短时神经网络流量检测模型，将M个连续的整合后网路流量数据包的特征作为模型输入；步骤4，进行长短时神经网络流量检测模型参数训练，即将带标签的网络流量特征输入到长短时神经网络流量检测模型，根据模型预测结果对加密网络应用程序的网络流量进行分类。与现有技术相比，本发明提出了一种端到端的加密流量分类方法，利用加密网络应用程序的时间序列数据样本的相关性实现了一种基于长短时记忆网络的深度学习的加密网络流量分类。

Description

一种基于长短时神经网络的加密流量识别方法

技术领域

本发明涉及计算机网络技术领域，具体涉及一种针对网络加密流量的处理和网络流量识别方法。

背景技术

近年来，由于加密技术的进步，流量加密在互联网上得到了广泛的应用。许多服务和应用程序使用加密算法作为保护信息的主要方法。加密流量的识别和分类受到了学术界和工业界的广泛关注。加密技术的发展使得数据包经过加密算法(如对称加密或非对称加密算法等)后，由明文变为密文，大量的信息变得不可见，给加密流量分类带来了很大的挑战。实际场景通常需要识别特定的协议或应用程序类型。对于加密的应用程序流量，这也使得流量分类变得困难，因为应用程序类型较多，不同类型之间几乎没有差异。

现有对加密网络流量分类方法的研究，大概有以下几类：

1、基于有效载荷的方法。基于有效载荷的方法一次处理一个数据包，因此具有较高的处理速度。然而，这种方法在描述用户行为方面有所欠缺，而用户行为对于分类网络流量却至关重要。现有研究在不对数据包进行解密的情况下分析加密的数据包负载也受到了更多的关注。然而，这种方法仅能对数据包大小和传输时间特征具有明显区分性的一些特定应用程序有效，例如HTTP、VoIP、视频流和P2P；

2、基于流的方法。流是一组具有相同源互联网协议(Internet Protocal,IP)地址、目标IP地址、源传输层端口、目标传输层端口和传输协议的数据包。现有的部分方法展示了基于流的方法的有效性，如基于时间的数据包属性进行网络流量分析发的方法。然而，这些属性需要大量存储空间保存在一段时间内的数据包，在提取特征之前将许多数据包收集到一个流中，这种方法会产生非常大的时间消耗。

3、基于有效载荷和流的组合方法。基于有效载荷流的组合方法，包括分组特征和流特征，广泛应用于许多著名的基准数据集，该方法提取数据包和相应流的特征，从而快速呈现流量行为的特征。此方法适用于加密的网络流量，因为它可以提取未加密的数据包头以及加密的负载。此外，该方法可以使用基于流的技术来准确地表示网络流量行为。因此，基于分组流的组合方法被广泛应用于入侵检测***中，以识别网络恶意流量。

尽管上述方法已实现了针对加密网络流量的分类，但仍存在一下问题待解决。加密算法试图混入数据包的数据结构，从而减少基于有效载荷分类的精度。基于流的方法通常利用网络流的统计特征，与基于有效载荷的方法相比，增加了计算资源，降低了精度。因此，传统的基于有效载荷和基于流的技术在计算效率和表示用于分类的加密分组方面并没有产生理想的效果。虽然已经引入了许多基于机器学习的分类方法来克服传统方法的局限性，但它们的有效性在很大程度上取决于特征提取过程的准确性和有效性。

发明内容

本发明的目的在于克服现有技术的不足，而提出了一种基于长短时神经网络的加密流量识别方法，基于长短时神经网络流量检测模型实现对加密网络应用程序的网络流量的分类。

本发明利用以下技术方案实现：

一种基于长短时神经网络的加密流量识别方法，该方法包括以下步骤：

步骤1，将待分类的加密应用程序的网络流量进行预处理，得到网络流量中每个网络流包含的数据包，具体操作包括：将多个原始网络流量pcap文件根据五元组信息包括源IP、目的IP、源端口、目的端口和协议，进行网络流划分进行网络流量分流，得到多个带标签的网络流量数据包，作为步骤2的输入；

步骤2，进行当前网络流量数据包的特征提取，即针对加密网络应用程序的每个网络流量数据包结构进行特征提取，得到时间序列数据样本，每个时间序列样本均包括源端口信息、目标端口信息、协议特征和前n个字节长度的载荷的数据在内的特征；其中，所述协议特征至少包括IP协议特征和TCP/UCP协议特征；

将以上特征进行整合，得到整合后的网路流量数据包的特征；

步骤3，构建长短时神经网络流量检测模型，将M个连续的整合后网路流量数据包的特征作为模型输入；

步骤4，进行长短时神经网络流量检测模型参数训练，即将带标签的网络流量特征输入到长短时神经网络流量检测模型，通过前向传播算法和反向传播算法训练好用于目标网络流量分类的神经网络模型参数，根据模型预测结果对加密网络应用程序的网络流量进行分类。

所述整合后的网路流量数据包依序包括源端口信息、目标端口信息、协议信息、数据长度、IP协议头部信息、和TCP/UCP协议头部信息以及前n个字节长度的载荷的数据的特征。

本发明的一种基于长短时神经网络的加密流量识别方法能够达成的有益效果如下：

(1)利用加密网络应用程序的时间序列数据样本的相关性实现了一种基于长短时记忆网络的深度学习的加密网络流量分类；

(2)提出了一种端到端的加密流量分类方法，它能够学习流量输入和分类输出之间的非线性关系，比传统的机器学习方法具有更高的学习能力。

附图说明

图1是本发明的一种基于长短时神经网络的加密流量识别方法流程示意图；

图2是网络流量数据包特征提取的特征示意图；

图3是长短时神经网络模型架构图。

图4是本发明的一种基于长短时神经网络的加密流量识别方法数据流示意图。

具体实施方式

下面将结合附图和实施例，对本发明的技术方案进行清楚地描述。

如图1所示，是本发明的一种基于长短时神经网络的加密流量识别方法流程示意图。该流程包括以下步骤：

步骤2，进行当前网络流量数据包的特征提取，即针对加密网络应用程序的每个网络流量数据包结构进行特征提取，得到时间序列数据样本，本步骤提出了一种特征工程技术，通过分析接收数据包的时间序列数据样本来提取加密网络流量行为的重要属性，具体如下：

每个时间序列样本均包括发送端端口信息(source port)、目标端口信息(Destination Port)、协议特征和当前网络流量数据包的前n个字节长度的载荷的数据特征(Data)在内的特征；

其中，获取网络流量数据包中的协议特征，如IP协议特征包括协议信息(Protocol)、数据长度(Data length)、IP地址头部信息(IP header)、TCP/UDP协议特征包括TCP/UCP协议头部信息(TCP/UDP header)；

如图2所示，是网络流量数据包特征提取的特征示意图。按照图2的方式将以上特征进行整合，得到整合后的网路流量数据包的特征；所述整合后的网路流量数据包依序包括源端口信息、目标端口信息、协议信息、数据长度、IP协议头部信息、和TCP/UCP协议头部信息以及前n个字节长度的载荷的数据的特征

步骤3，构建长短时神经网络流量检测模型，将整合后的网路流量数据包的特征作为模型输入，例如提取连续的M个数据包的以上特征，构成长短时神经网络模型输入数据，其中M可根据具体分类任务进行调整，对模型进行训练，具体如下：

如图3所示，是长短时神经网络模型架构图；

步骤4，进行长短时神经网络流量检测模型参数训练，即将带标签的网络流量特征输入到长短时神经网络流量检测模型，通过前向传播算法和反向传播算法，训练好用于目标网络流量分类的神经网络模型参数，根据模型预测结果对加密网络应用程序的网络流量进行分类。

对前向传播算法和反向传播算法过程描述如下：

1、前向传播算法过程包括：

z^[L]＝w^La^[L-1]+b^[L]

a^[L]＝σ(h^[L])

其中，x为输入特征向量，a为隐含层输出，σ(*)为激活函数，[L]表示网络模型的第L层，E表示损失函数，这里以平方差损失函数为例，y为真实值。

2、反向传播算法过程包括：

对隐含层神经元的权重参数

求偏导，有如下定义/>

其中，

i为第i个输入向量，j为输入向量中的第j个特征；

对隐含层神经元的偏置参数

求偏导：

更新权重参数W^[L]和偏置参数b^[L]：

其中α为学习速率。

Claims

1.一种基于长短时神经网络的加密流量识别方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的一种基于长短时神经网络的加密流量识别方法，其特征在于，所述整合后的网路流量数据包依序包括源端口信息、目标端口信息、协议信息、数据长度、IP协议头部信息、和TCP/UCP协议头部信息以及前n个字节长度的载荷的数据的特征。

3.如权利要求1所述的一种基于长短时神经网络的加密流量识别方法，其特征在于，所述长短时神经网络流量检测模型包括三个隐藏层即LSTM层和两个完全连接层；其中每个LSTM层有128个神经元，两个完全连接层分别有128个和12个神经元，最后是一个softmax分类器层。