CN116248530A - 一种基于长短时神经网络的加密流量识别方法 - Google Patents

一种基于长短时神经网络的加密流量识别方法 Download PDF

Info

Publication number
CN116248530A
CN116248530A CN202211588408.6A CN202211588408A CN116248530A CN 116248530 A CN116248530 A CN 116248530A CN 202211588408 A CN202211588408 A CN 202211588408A CN 116248530 A CN116248530 A CN 116248530A
Authority
CN
China
Prior art keywords
network flow
network
long
neural network
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211588408.6A
Other languages
English (en)
Inventor
刘旭生
王晨飞
张晓慧
李晓红
陈森
徐李阳
赵文华
谢瑞楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
Tianjin University
Original Assignee
State Grid Co ltd Customer Service Center
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center, Tianjin University filed Critical State Grid Co ltd Customer Service Center
Priority to CN202211588408.6A priority Critical patent/CN116248530A/zh
Publication of CN116248530A publication Critical patent/CN116248530A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于长短时神经网络的加密流量识别方法,步骤1,将待分类的加密应用程序的网络流量进行预处理,得到网络流量中每个网络流包含的数据包;步骤2,进行当前网络流量数据包的特征提取;步骤3,构建长短时神经网络流量检测模型,将M个连续的整合后网路流量数据包的特征作为模型输入;步骤4,进行长短时神经网络流量检测模型参数训练,即将带标签的网络流量特征输入到长短时神经网络流量检测模型,根据模型预测结果对加密网络应用程序的网络流量进行分类。与现有技术相比,本发明提出了一种端到端的加密流量分类方法,利用加密网络应用程序的时间序列数据样本的相关性实现了一种基于长短时记忆网络的深度学习的加密网络流量分类。

Description

一种基于长短时神经网络的加密流量识别方法
技术领域
本发明涉及计算机网络技术领域,具体涉及一种针对网络加密流量的处理和网络流量识别方法。
背景技术
近年来,由于加密技术的进步,流量加密在互联网上得到了广泛的应用。许多服务和应用程序使用加密算法作为保护信息的主要方法。加密流量的识别和分类受到了学术界和工业界的广泛关注。加密技术的发展使得数据包经过加密算法(如对称加密或非对称加密算法等)后,由明文变为密文,大量的信息变得不可见,给加密流量分类带来了很大的挑战。实际场景通常需要识别特定的协议或应用程序类型。对于加密的应用程序流量,这也使得流量分类变得困难,因为应用程序类型较多,不同类型之间几乎没有差异。
现有对加密网络流量分类方法的研究,大概有以下几类:
1、基于有效载荷的方法。基于有效载荷的方法一次处理一个数据包,因此具有较高的处理速度。然而,这种方法在描述用户行为方面有所欠缺,而用户行为对于分类网络流量却至关重要。现有研究在不对数据包进行解密的情况下分析加密的数据包负载也受到了更多的关注。然而,这种方法仅能对数据包大小和传输时间特征具有明显区分性的一些特定应用程序有效,例如HTTP、VoIP、视频流和P2P;
2、基于流的方法。流是一组具有相同源互联网协议(Internet Protocal,IP)地址、目标IP地址、源传输层端口、目标传输层端口和传输协议的数据包。现有的部分方法展示了基于流的方法的有效性,如基于时间的数据包属性进行网络流量分析发的方法。然而,这些属性需要大量存储空间保存在一段时间内的数据包,在提取特征之前将许多数据包收集到一个流中,这种方法会产生非常大的时间消耗。
3、基于有效载荷和流的组合方法。基于有效载荷流的组合方法,包括分组特征和流特征,广泛应用于许多著名的基准数据集,该方法提取数据包和相应流的特征,从而快速呈现流量行为的特征。此方法适用于加密的网络流量,因为它可以提取未加密的数据包头以及加密的负载。此外,该方法可以使用基于流的技术来准确地表示网络流量行为。因此,基于分组流的组合方法被广泛应用于入侵检测***中,以识别网络恶意流量。
尽管上述方法已实现了针对加密网络流量的分类,但仍存在一下问题待解决。加密算法试图混入数据包的数据结构,从而减少基于有效载荷分类的精度。基于流的方法通常利用网络流的统计特征,与基于有效载荷的方法相比,增加了计算资源,降低了精度。因此,传统的基于有效载荷和基于流的技术在计算效率和表示用于分类的加密分组方面并没有产生理想的效果。虽然已经引入了许多基于机器学习的分类方法来克服传统方法的局限性,但它们的有效性在很大程度上取决于特征提取过程的准确性和有效性。
发明内容
本发明的目的在于克服现有技术的不足,而提出了一种基于长短时神经网络的加密流量识别方法,基于长短时神经网络流量检测模型实现对加密网络应用程序的网络流量的分类。
本发明利用以下技术方案实现:
一种基于长短时神经网络的加密流量识别方法,该方法包括以下步骤:
步骤1,将待分类的加密应用程序的网络流量进行预处理,得到网络流量中每个网络流包含的数据包,具体操作包括:将多个原始网络流量pcap文件根据五元组信息包括源IP、目的IP、源端口、目的端口和协议,进行网络流划分进行网络流量分流,得到多个带标签的网络流量数据包,作为步骤2的输入;
步骤2,进行当前网络流量数据包的特征提取,即针对加密网络应用程序的每个网络流量数据包结构进行特征提取,得到时间序列数据样本,每个时间序列样本均包括源端口信息、目标端口信息、协议特征和前n个字节长度的载荷的数据在内的特征;其中,所述协议特征至少包括IP协议特征和TCP/UCP协议特征;
将以上特征进行整合,得到整合后的网路流量数据包的特征;
步骤3,构建长短时神经网络流量检测模型,将M个连续的整合后网路流量数据包的特征作为模型输入;
步骤4,进行长短时神经网络流量检测模型参数训练,即将带标签的网络流量特征输入到长短时神经网络流量检测模型,通过前向传播算法和反向传播算法训练好用于目标网络流量分类的神经网络模型参数,根据模型预测结果对加密网络应用程序的网络流量进行分类。
所述整合后的网路流量数据包依序包括源端口信息、目标端口信息、协议信息、数据长度、IP协议头部信息、和TCP/UCP协议头部信息以及前n个字节长度的载荷的数据的特征。
本发明的一种基于长短时神经网络的加密流量识别方法能够达成的有益效果如下:
(1)利用加密网络应用程序的时间序列数据样本的相关性实现了一种基于长短时记忆网络的深度学习的加密网络流量分类;
(2)提出了一种端到端的加密流量分类方法,它能够学习流量输入和分类输出之间的非线性关系,比传统的机器学习方法具有更高的学习能力。
附图说明
图1是本发明的一种基于长短时神经网络的加密流量识别方法流程示意图;
图2是网络流量数据包特征提取的特征示意图;
图3是长短时神经网络模型架构图。
图4是本发明的一种基于长短时神经网络的加密流量识别方法数据流示意图。
具体实施方式
下面将结合附图和实施例,对本发明的技术方案进行清楚地描述。
如图1所示,是本发明的一种基于长短时神经网络的加密流量识别方法流程示意图。该流程包括以下步骤:
步骤1,将待分类的加密应用程序的网络流量进行预处理,得到网络流量中每个网络流包含的数据包,具体操作包括:将多个原始网络流量pcap文件根据五元组信息包括源IP、目的IP、源端口、目的端口和协议,进行网络流划分进行网络流量分流,得到多个带标签的网络流量数据包,作为步骤2的输入;
步骤2,进行当前网络流量数据包的特征提取,即针对加密网络应用程序的每个网络流量数据包结构进行特征提取,得到时间序列数据样本,本步骤提出了一种特征工程技术,通过分析接收数据包的时间序列数据样本来提取加密网络流量行为的重要属性,具体如下:
每个时间序列样本均包括发送端端口信息(source port)、目标端口信息(Destination Port)、协议特征和当前网络流量数据包的前n个字节长度的载荷的数据特征(Data)在内的特征;
其中,获取网络流量数据包中的协议特征,如IP协议特征包括协议信息(Protocol)、数据长度(Data length)、IP地址头部信息(IP header)、TCP/UDP协议特征包括TCP/UCP协议头部信息(TCP/UDP header);
如图2所示,是网络流量数据包特征提取的特征示意图。按照图2的方式将以上特征进行整合,得到整合后的网路流量数据包的特征;所述整合后的网路流量数据包依序包括源端口信息、目标端口信息、协议信息、数据长度、IP协议头部信息、和TCP/UCP协议头部信息以及前n个字节长度的载荷的数据的特征
步骤3,构建长短时神经网络流量检测模型,将整合后的网路流量数据包的特征作为模型输入,例如提取连续的M个数据包的以上特征,构成长短时神经网络模型输入数据,其中M可根据具体分类任务进行调整,对模型进行训练,具体如下:
如图3所示,是长短时神经网络模型架构图;
步骤4,进行长短时神经网络流量检测模型参数训练,即将带标签的网络流量特征输入到长短时神经网络流量检测模型,通过前向传播算法和反向传播算法,训练好用于目标网络流量分类的神经网络模型参数,根据模型预测结果对加密网络应用程序的网络流量进行分类。
对前向传播算法和反向传播算法过程描述如下:
1、前向传播算法过程包括:
z[L]=wLa[L-1]+b[L]
a[L]=σ(h[L])
Figure BDA0003993028060000051
其中,x为输入特征向量,a为隐含层输出,σ(*)为激活函数,[L]表示网络模型的第L层,E表示损失函数,这里以平方差损失函数为例,y为真实值。
2、反向传播算法过程包括:
对隐含层神经元的权重参数
Figure BDA0003993028060000052
求偏导,有如下定义/>
Figure BDA0003993028060000053
其中,
Figure BDA0003993028060000054
i为第i个输入向量,j为输入向量中的第j个特征;
Figure BDA0003993028060000055
对隐含层神经元的偏置参数
Figure BDA0003993028060000056
求偏导:
Figure BDA0003993028060000057
更新权重参数W[L]和偏置参数b[L]
Figure BDA0003993028060000061
Figure BDA0003993028060000062
其中α为学习速率。

Claims (3)

1.一种基于长短时神经网络的加密流量识别方法,其特征在于,该方法包括以下步骤:
步骤1,将待分类的加密应用程序的网络流量进行预处理,得到网络流量中每个网络流包含的数据包,具体操作包括:将多个原始网络流量pcap文件根据五元组信息包括源IP、目的IP、源端口、目的端口和协议,进行网络流划分进行网络流量分流,得到多个带标签的网络流量数据包,作为步骤2的输入;
步骤2,进行当前网络流量数据包的特征提取,即针对加密网络应用程序的每个网络流量数据包结构进行特征提取,得到时间序列数据样本,每个时间序列样本均包括源端口信息、目标端口信息、协议特征和前n个字节长度的载荷的数据在内的特征;其中,所述协议特征至少包括IP协议特征和TCP/UCP协议特征;
将以上特征进行整合,得到整合后的网路流量数据包的特征;
步骤3,构建长短时神经网络流量检测模型,将M个连续的整合后网路流量数据包的特征作为模型输入;
步骤4,进行长短时神经网络流量检测模型参数训练,即将带标签的网络流量特征输入到长短时神经网络流量检测模型,通过前向传播算法和反向传播算法训练好用于目标网络流量分类的神经网络模型参数,根据模型预测结果对加密网络应用程序的网络流量进行分类。
2.如权利要求1所述的一种基于长短时神经网络的加密流量识别方法,其特征在于,所述整合后的网路流量数据包依序包括源端口信息、目标端口信息、协议信息、数据长度、IP协议头部信息、和TCP/UCP协议头部信息以及前n个字节长度的载荷的数据的特征。
3.如权利要求1所述的一种基于长短时神经网络的加密流量识别方法,其特征在于,所述长短时神经网络流量检测模型包括三个隐藏层即LSTM层和两个完全连接层;其中每个LSTM层有128个神经元,两个完全连接层分别有128个和12个神经元,最后是一个softmax分类器层。
CN202211588408.6A 2022-12-12 2022-12-12 一种基于长短时神经网络的加密流量识别方法 Pending CN116248530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211588408.6A CN116248530A (zh) 2022-12-12 2022-12-12 一种基于长短时神经网络的加密流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211588408.6A CN116248530A (zh) 2022-12-12 2022-12-12 一种基于长短时神经网络的加密流量识别方法

Publications (1)

Publication Number Publication Date
CN116248530A true CN116248530A (zh) 2023-06-09

Family

ID=86630366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211588408.6A Pending CN116248530A (zh) 2022-12-12 2022-12-12 一种基于长短时神经网络的加密流量识别方法

Country Status (1)

Country Link
CN (1) CN116248530A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117439820A (zh) * 2023-12-20 2024-01-23 国家电网有限公司客户服务中心 一种动态调整门限的网络入侵检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117439820A (zh) * 2023-12-20 2024-01-23 国家电网有限公司客户服务中心 一种动态调整门限的网络入侵检测方法
CN117439820B (zh) * 2023-12-20 2024-03-19 国家电网有限公司客户服务中心 一种动态调整门限的网络入侵检测方法

Similar Documents

Publication Publication Date Title
CN112163594B (zh) 一种网络加密流量识别方法及装置
Lin et al. TSCRNN: A novel classification scheme of encrypted traffic based on flow spatiotemporal features for efficient management of IIoT
Wang et al. A survey of techniques for mobile service encrypted traffic classification using deep learning
Shapira et al. FlowPic: A generic representation for encrypted traffic classification and applications identification
CN110197234B (zh) 一种基于双通道卷积神经网络的加密流量分类方法
CN110311829B (zh) 一种基于机器学习加速的网络流量分类方法
Wang The applications of deep learning on traffic identification
CN110796196B (zh) 一种基于深度判别特征的网络流量分类***及方法
WO2018054342A1 (zh) 一种网络数据流分类的方法及***
Yang et al. TLS/SSL encrypted traffic classification with autoencoder and convolutional neural network
CN111565156B (zh) 一种对网络流量识别分类的方法
Soleymanpour et al. CSCNN: cost-sensitive convolutional neural network for encrypted traffic classification
CN114257428B (zh) 一种基于深度学习的加密网络流量识别及分类方法
CN112910853A (zh) 基于混合特征的加密流量分类方法
CN111611280A (zh) 一种基于cnn和sae的加密流量识别方法
CN112491894A (zh) 一种基于时空特征学习的物联网网络攻击流量监测***
CN114650229B (zh) 基于三层模型sftf-l的网络加密流量分类方法与***
CN116248530A (zh) 一种基于长短时神经网络的加密流量识别方法
Dixit et al. Internet traffic detection using naïve bayes and K-Nearest neighbors (KNN) algorithm
Zhou et al. Encrypted network traffic identification based on 2d-cnn model
Xu et al. Trafficgcn: Mobile application encrypted traffic classification based on gcn
CN113128626A (zh) 基于一维卷积神经网络模型的多媒体流细分类方法
Al-Saadi et al. Unsupervised machine learning-based elephant and mice flow identification
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法
Pradhan Network traffic classification using support vector machine and artificial neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination