CN117633657A - 基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质 - Google Patents
基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117633657A CN117633657A CN202311805721.5A CN202311805721A CN117633657A CN 117633657 A CN117633657 A CN 117633657A CN 202311805721 A CN202311805721 A CN 202311805721A CN 117633657 A CN117633657 A CN 117633657A
- Authority
- CN
- China
- Prior art keywords
- graph
- session
- data packet
- flow
- encrypted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 title claims abstract description 40
- 238000012512 characterization method Methods 0.000 title claims abstract description 31
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 238000010276 construction Methods 0.000 claims abstract description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000005096 rolling process Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 7
- 238000007635 classification algorithm Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 10
- 235000019580 granularity Nutrition 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于多图表征增强实现加密应用流量识别处理的方法,包括以下步骤:基于多类型交互信息的数据包图构建;基于流序列关联关系的会话流图构建;基于层次图卷积网络的加密应用流量分类。本发明还涉及一种用于实现基于多图表征增强的加密应用流量识别处理的装置、处理器及其计算机可读存储介质。采用了本发明的基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质,针对现有基于深度学习的加密流量分类算法特征构建存在易被攻击,且忽略会话间语义关联等问题。该方法创新性地构建了数据包图和会话流图,充分挖掘会话流及会话流间的信息,具有一定的创新性。
Description
技术领域
本发明涉及深度学习中的图神经网络处理技术领域,尤其涉及加密应用流量分类领域,具体是指一种基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质。
背景技术
加密应用流量分类是网络***领域中的一个重要问题,加密通信不仅能够有效地保护数据传输的安全,还会阻挡大部分侵入式攻击与截获。但这也给网络***带来了挑战,因此,对加密应用流量进行分类与识别成为加强网络***的关键技术之一。
在加密应用流量分类方面,现有算法可以根据其工作原理和分类方法进行分类,主要有以下几类:(1)基于规则的算法:基于专家经验或先验知识构建规则集合,从而对传输报文的格式和结构等特征进行判别,并对流量进行分类。这类算法不需要建立模型训练,因此速度较快,但分类的精度和适用场景受限制,且需要依赖于人工经验。(2)基于传统机器学习的算法:利用统计或机器学习等方法从加密流量中提取特征,然后对提取得到的特征进行匹配、分类。这种算法需要对数据集建立合适的特征表示,以提高分类准确率,但仍存在一些局限性,如提取的特征与具体的加密算法相关。(3)基于深度学习的算法:基于卷积神经网络(CNN)、循环神经网络(RNN)等深度学习模型进行建模,能够从原始数据中学习到抽象的和高维的特征表示,进而对加密流量进行分类。这种算法需要大量的数据样本和计算资源,但分类效果比其他方法更好。
上述三类方法在加密应用流量分类领域均取得了不错的效果,尤其是基于深度学习的算法,效果更为明显。但是现有基于深度学习的加密应用流量分类算法存在以下几个问题:(1)更关注单条会话流的序列特征。即通过将加密流量序列转化为灰度图,采用CNN等模型对灰度图进行特征学习并完成最终分类。但是由于灰度图的构建存在被攻击的风险,即在原始流量添加一个很小的扰动(数据包),会对流量灰度图造成极大影响,从而达到欺骗模型,使得分类预测错误。(2)忽略了会话流之间的语义关联。现有算法模型更关注单条会话流的数据特征,忽略了多条加密会话之间丰富的语义关系,即没有对具有相关关系的多条加密会话进行关联分析,从而导致现有会话流特征局限在单条会话流自身。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足高精度、操作简便、适用范围较为广泛的基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质。
为了实现上述目的,本发明的基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质如下:
该基于多图表征增强实现加密应用流量识别处理的方法,其主要特点是,所述的方法包括以下步骤:
(1)从加密应用流量数据集中取出一条加密应用流量的所有会话流数据;
(2)构建数据包图;
(3)在数据包图中引入图卷积网络,不断更新数据包节点状态信息;
(4)表示原始加密流量灰度图,选取合适长度字节用于表征构建;
(5)表示原始加密流量灰度图图卷积网络;
(6)构建会话流图;
(7)表示会话流图图卷积,在会话流图中也引入图卷积网络;
(8)计算加密应用流量分类;
(9)进行加密应用流量分类预测。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)将原始流量按照会话粒度进行划分,并提取会话流中用于构建数据包图的基本信息;
(2.2)将单条会话流中的各个数据包定义为数据包图中的节点;
(2.3)将第一个数据包传输方向定义为正向,则后续数据包与之方向相同的为正值,否则为负值;
(2.4)将同一方向连续数据包传输称为簇,根据会话流中数据包的时序交互和访问交互信息,将数据包图边分为簇内边和簇外边,对不同簇间采用全连接方式。
较佳地,所述的步骤(5)具体包括以下步骤:
(5.1)将握手信息字节流转化为灰度图,利用embedding操作将原始字节映射到固定长度的特征;
(5.2)使用一维卷积操作对灰度图进行处理,获取每个字节的上下文关联信息,获得更丰富的语义表示信息。
较佳地,所述的步骤(6)具体包括以下步骤:
(6.1)在会话粒度上对加密流量进行处理,按照相同五元组进行加密会话划分,删除未加密的会话流和不完整的会话流;
(6.2)将加密流量中完整的会话流作为会话流图的节点;
(6.3)根据访问网络服务和包序列相似定义会话流图中的边。
较佳地,所述的步骤(3)中更新数据包节点状态信息,具体为:
根据以下公式更新数据包节点状态信息:
其中,为数据包图的邻接矩阵,D是/>的度矩阵,初始特征矩阵设定为Vi,m为数据包基于数据包载荷的嵌入表示。
较佳地,所述的步骤(8)中计算加密应用流量分类,具体为:
根据以下公式计算加密应用流量分类:
其中,表示加密会话流i属于类别c的概率,C表示加密流量的类别数。
该用于实现基于多图表征增强的加密应用流量识别处理的装置,其主要特点是,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。
该用于实现基于多图表征增强的加密应用流量识别处理的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。
该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。
采用了本发明的基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质,针对现有基于深度学习的加密流量分类算法特征构建存在易被攻击,且忽略会话间语义关联等问题。首先,基于数据包负载长度、方向、包序列、簇信息等交互特征,构建数据包级的加密会话拓扑图,以充分挖掘加密应用流量中会话流信息。进一步,突破单条会话流的表征限制,基于加密会话间访问网络服务相同和数据包序列相似,构建基于流序列关联关系的加密应用会话流图。最后,引入层次图卷积网络,对基于单条会话构建的数据包图和基于多条会话构建的会话流图进行表征学习,从而解决单一会话流表征不足等问题,实现加密流量高精度识别和分类。该方法创新性地构建了数据包图和会话流图,充分挖掘会话流及会话流间的信息,具有一定的创新性。
附图说明
图1为本发明的基于多图表征增强实现加密应用流量识别处理的方法的基本结构示意图。
图2为本发明的基于多图表征增强实现加密应用流量识别处理的方法的实施例的流程图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于多图表征增强实现加密应用流量识别处理的方法,其中包括以下步骤:
(1)从加密应用流量数据集中取出一条加密应用流量的所有会话流数据;
(2)构建数据包图;
(3)在数据包图中引入图卷积网络,不断更新数据包节点状态信息;
(4)表示原始加密流量灰度图,选取合适长度字节用于表征构建;
(5)表示原始加密流量灰度图图卷积网络;
(6)构建会话流图;
(7)表示会话流图图卷积,在会话流图中也引入图卷积网络;
(8)计算加密应用流量分类;
(9)进行加密应用流量分类预测。
作为本发明的优选实施方式,所述的步骤(2)具体包括以下步骤:
(2.1)将原始流量按照会话粒度进行划分,并提取会话流中用于构建数据包图的基本信息;
(2.2)将单条会话流中的各个数据包定义为数据包图中的节点;
(2.3)将第一个数据包传输方向定义为正向,则后续数据包与之方向相同的为正值,否则为负值;
(2.4)将同一方向连续数据包传输称为簇,根据会话流中数据包的时序交互和访问交互信息,将数据包图边分为簇内边和簇外边,对不同簇间采用全连接方式。
作为本发明的优选实施方式,所述的步骤(5)具体包括以下步骤:
(5.1)将握手信息字节流转化为灰度图,利用embedding操作将原始字节映射到固定长度的特征;
(5.2)使用一维卷积操作对灰度图进行处理,获取每个字节的上下文关联信息,获得更丰富的语义表示信息。
作为本发明的优选实施方式,所述的步骤(6)具体包括以下步骤:
(6.1)在会话粒度上对加密流量进行处理,按照相同五元组进行加密会话划分,删除未加密的会话流和不完整的会话流;
(6.2)将加密流量中完整的会话流作为会话流图的节点;
(6.3)根据访问网络服务和包序列相似定义会话流图中的边。
作为本发明的优选实施方式,所述的步骤(3)中更新数据包节点状态信息,具体为:
根据以下公式更新数据包节点状态信息:
其中,为数据包图的邻接矩阵,D是/>的度矩阵,初始特征矩阵设定为Vi,m为数据包基于数据包载荷的嵌入表示。
作为本发明的优选实施方式,所述的步骤(8)中计算加密应用流量分类,具体为:
根据以下公式计算加密应用流量分类:
其中,表示加密会话流i属于类别c的概率,C表示加密流量的类别数。
本发明的该用于实现基于多图表征增强的加密应用流量识别处理的装置,其主要特点是,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。
本发明的该用于实现基于多图表征增强的加密应用流量识别处理的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。
本发明的该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。
本发明的具体实施方式中,针对加密应用流量识别和分类,加密流量多维度表征入手,(1)提出了一种基于多类型交互信息的数据包图构建方法,以解决传统单条会话灰度图表征易被攻击的问题;(2)提出了一种基于流序列关联关系的会话流图构建方法,突破单条会话流表征限制,通过多条加密会话间的关联关系丰富各个加密会话的语义表征;(3)引入图卷积神经网络技术,通过融合多级图神经网络,对基于单条会话构建的数据包图和基于多条会话构建的会话流图进行表征学习,以实现加密应用流量高精度识别和分类。
本发明采用如下技术方案。一种基于多图表征增强的加密应用流量识别方法,首先,分别地,针对数据包图构建,提出了一种基于多类型交互信息的数据包图构建方法,从而提升基于数据包模式的单条会话流的表征能力;针对会话流图构建,提出一种基于流序列关联关系的会话流图构建方法,以解决加密流量表征中会话关联信息缺失问题,从而提升基于加密会话上下文的会话流表征能力。然后提出一种层次图卷积网络结构,构建基于数据包级和会话流级的加密应用流量快速识别和分类模型。方法包含的步骤具体如下:
步骤一,基于多类型交互信息的数据包图构建。本发明以单条会话流中的数据包为主,综合考虑会话流数据包交互特征差异(如数据包负载、数据包流向、包序列等),以构建数据包交互拓扑图(Package Graph),主要包括:(1)加密流量预处理。将原始流量按照会话粒度进行划分,并提取会话流中的数据包五元组、数据包载荷、数据包流向等基本信息以构建数据包图;(2)数据包图节点构建。本发明将单条会话流中的各个数据包定义为数据包图的节点,并将数据包载荷和数据包流向作为节点的初始值;(3)数据包图边构建。将同一方向连续数据包传输称为簇,根据会话流中数据包的时序交互和访问交互信息,将数据包图边分为簇内边和簇外边。本发明对不同簇内外采用全连接方式,以获取更丰富的节点关系信息。
步骤二,基于流序列关联关系的会话流图构建。本发明基于流序列关联关系构建会话流图(Record Graph),以此获得更丰富的多条加密会话间的语义信息,主要包括:(1)加密流量预处理。在会话粒度上对加密流量进行处理,保留加密且会话完整的会话流;(2)会话流图节点构建。本发明将加密流量中完整的会话流作为会话流图的节点,并将数据包图表征、原始加密流量灰度图表征作为节点的初始值;(3)会话流图边构建。两个会话流的目的IP地址和目的端口号相同,则两个会话流建立连接(访问网络服务关联)。两个会话流相似度大于阈值时,两个会话流承载同一类型应用可能性越大,则两个会话流建立连接(包序列相似)。
步骤三,基于层次图卷积网络的加密应用流量分类。本发明采用图卷积网络(Graph Convolutional Network,GCN)作为图表征抽取的基础网络。首先,在数据包图中引入图卷积网络,通过不断更新数据包节点状态信息,聚合邻居节点的不同状态信息,从而丰富单条会话流的表征;其次,为了捕捉数据包级、会话流级等不同粒度的表征,将会话流的数据包特征表示、原始加密流量灰度图表征作为会话流图节点的初始表征,进一步引入图卷积网络,从而获得更丰富、更鲁棒的特征表征;然后,在多层图卷积网络表征层之后使用线性函数对输出数据进行线性变化,并利用Softmax层预测不同加密流量应用类别分布特征,通过概率分布计算出加密流量所属的应用类别。
本发明的实施例参见附图2,本发明的加密应用流量识别方法包括以下步骤:
1、数据准备。从加密应用流量数据集中取出一条加密应用流量的所有会话流数据。
2、数据包图构建。1)将原始流量按照会话粒度进行划分,并提取会话流中用于构建数据包图的基本信息,包括数据包五元组(传输协议、源端口号、源IP地址、目的端口号、目的IP地址)、数据包载荷、数据包流向等。2)将单条会话流中的各个数据包定义为数据包图中的节点,Vi,j(i=1,2…,n;j=1,2,…,m)表示第i个会话流中第j个数据包,其中n表示某一段加密流量中会话流的数量,m表示单条会话流中数据包的数量;3)采用数据包载荷长度符号表示数据包流向,即将第一个数据包传输方向定义为正向,如(V11,10),则后续数据包与之方向相同的为正值,否则为负值。4)将同一方向连续数据包传输称为簇,根据会话流中数据包的时序交互和访问交互信息,将数据包图边分为簇内边和簇外边,对不同簇间采用全连接方式。
3、数据包图图卷积网络表示。在数据包图中,引入图卷积网络,根据公式(1)不断更新数据包节点状态信息。
其中,是数据包图的邻接矩阵,D是/>的度矩阵,是上一次卷积的输出,初始特征矩阵设定为Vi,m为数据包基于数据包载荷的嵌入表示。
4、原始加密流量灰度图表示。选取合适长度字节(前B个字节)用于表征构建,保证前B个字节中包含ClientHello、ServerHello和Certificate消息等。会话i中的握手信息表示如下:
RawBytes(i)=(bi,1,bi,2,…,bi,b,…bi,B)……(2)
其中,bi,b表示第i个会话流中握手信息的第b个字节,bi,b∈[0,255]。
5、原始加密流量灰度图图卷积网络表示。将握手信息字节流转化为灰度图,并利用embedding操作将原始字节映射到固定长度的特征相应,然后使用一维卷积操作对灰度图进行处理,获取每个字节的上下文关联信息,从而获得更丰富的语义表示信息。则第i个会话流的灰度图表征为:
RawHi=Conv1D(embedding(RBytes(i)))……(3)
6、会话流图构建。1)会话流图构建的基础单元是会话流,因此将在会话粒度上对加密流量进行处理,包括拆分、过滤等步骤。将原始加密流量拆分成独立的会话流单元,即按照相同五元组进行加密会话划分,其中源IP和Port可以与目标IP和Port互换。同时删除未加密的会话流和不完整的会话流,以此减少后续不必要的计算开销。2)将加密流量中完整的会话流作为会话流图的节点,Ri(i=1,2,…,n)表示第i个会话节点,n表示某一段加密流量中的会话总数。3)会话流图中边的定义基于会话流序列的关联关系,拟包括访问网络服务和包序列相似两部分。其中:访问网络服务关联是指两个会话流是否共享相同目的IP地址和目的端口号,具体公式如下,1表示两个会话流之间建立连接。
包序列相似关联是指当两个会话流相似度大于阈值时,两个会话流之间将建立连接。相似度越大,两个会话流属于承载同一类型应用的可能性越大。采用欧式距离计算两个会话流的相似度,计算方法如下。
7.会话流图图卷积表示。在会话流图中也引入图卷积网络,不同的是,会话流图中会话流节点的初始表征包括了数据包特征表示以及原始加密流量灰度图表征,从而使得在会话流节点可以捕捉到数据包级、会话流级等不同粒度的表征信息,表达能力更丰富、更鲁棒。具体公式如下:
其中,
8.加密应用流量分类计算。采用Softmax预测加密应用流量的类别概率分布,如下式(8)所示。
其中,表示加密会话流i属于类别c的概率,C表示加密流量的类别数。
9.加密应用流量分类预测。对于选取的加密应用流量的分类概率计算结果分别为:{Twitter:0.93;Telegram:0.02;Facebook:0.04;YouTube:0.01},那么最后模型的分类结果为:Twitter。
本实施例的具体实现方案可以参见上述实施例中的相关说明,此处不再赘述。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
采用了本发明的基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质,针对现有基于深度学习的加密流量分类算法特征构建存在易被攻击,且忽略会话间语义关联等问题。首先,基于数据包负载长度、方向、包序列、簇信息等交互特征,构建数据包级的加密会话拓扑图,以充分挖掘加密应用流量中会话流信息。进一步,突破单条会话流的表征限制,基于加密会话间访问网络服务相同和数据包序列相似,构建基于流序列关联关系的加密应用会话流图。最后,引入层次图卷积网络,对基于单条会话构建的数据包图和基于多条会话构建的会话流图进行表征学习,从而解决单一会话流表征不足等问题,实现加密流量高精度识别和分类。该方法创新性地构建了数据包图和会话流图,充分挖掘会话流及会话流间的信息,具有一定的创新性。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (9)
1.一种基于多图表征增强实现加密应用流量识别处理的方法,其特征在于,所述的方法包括以下步骤:
(1)从加密应用流量数据集中取出一条加密应用流量的所有会话流数据;
(2)构建数据包图;
(3)在数据包图中引入图卷积网络,不断更新数据包节点状态信息;
(4)表示原始加密流量灰度图,选取合适长度字节用于表征构建;
(5)表示原始加密流量灰度图图卷积网络;
(6)构建会话流图;
(7)表示会话流图图卷积,在会话流图中也引入图卷积网络;
(8)计算加密应用流量分类;
(9)进行加密应用流量分类预测。
2.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)将原始流量按照会话粒度进行划分,并提取会话流中用于构建数据包图的基本信息;
(2.2)将单条会话流中的各个数据包定义为数据包图中的节点;
(2.3)将第一个数据包传输方向定义为正向,则后续数据包与之方向相同的为正值,否则为负值;
(2.4)将同一方向连续数据包传输称为簇,根据会话流中数据包的时序交互和访问交互信息,将数据包图边分为簇内边和簇外边,对不同簇间采用全连接方式。
3.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法,其特征在于,所述的步骤(5)具体包括以下步骤:
(5.1)将握手信息字节流转化为灰度图,利用embedding操作将原始字节映射到固定长度的特征;
(5.2)使用一维卷积操作对灰度图进行处理,获取每个字节的上下文关联信息,获得更丰富的语义表示信息。
4.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法,其特征在于,所述的步骤(6)具体包括以下步骤:
(6.1)在会话粒度上对加密流量进行处理,按照相同五元组进行加密会话划分,删除未加密的会话流和不完整的会话流;
(6.2)将加密流量中完整的会话流作为会话流图的节点;
(6.3)根据访问网络服务和包序列相似定义会话流图中的边。
5.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法,其特征在于,所述的步骤(3)中更新数据包节点状态信息,具体为:
根据以下公式更新数据包节点状态信息:
其中,为数据包图的邻接矩阵,D是/>的度矩阵,初始特征矩阵设定为Vi,m为数据包基于数据包载荷的嵌入表示。
6.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法,其特征在于,所述的步骤(8)中计算加密应用流量分类,具体为:
根据以下公式计算加密应用流量分类:
其中,表示加密会话流i属于类别c的概率,C表示加密流量的类别数。
7.一种用于实现基于多图表征增强的加密应用流量识别处理的装置,其特征在于,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1至6中任一项所述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。
8.一种用于实现基于多图表征增强的加密应用流量识别处理的处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1至6中任一项所述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求1至6中任一项所述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311805721.5A CN117633657A (zh) | 2023-12-26 | 2023-12-26 | 基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311805721.5A CN117633657A (zh) | 2023-12-26 | 2023-12-26 | 基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117633657A true CN117633657A (zh) | 2024-03-01 |
Family
ID=90032279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311805721.5A Pending CN117633657A (zh) | 2023-12-26 | 2023-12-26 | 基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117633657A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118101357A (zh) * | 2024-04-29 | 2024-05-28 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种结合数据包语义的网络流量分类方法 |
-
2023
- 2023-12-26 CN CN202311805721.5A patent/CN117633657A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118101357A (zh) * | 2024-04-29 | 2024-05-28 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种结合数据包语义的网络流量分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022041394A1 (zh) | 一种网络加密流量识别方法及装置 | |
Sun et al. | Internet traffic classification based on incremental support vector machines | |
CN108900432B (zh) | 一种基于网络流行为的内容感知方法 | |
Zeng et al. | DeepVCM: A deep learning based intrusion detection method in VANET | |
WO2018054342A1 (zh) | 一种网络数据流分类的方法及*** | |
Wei et al. | ABL-TC: A lightweight design for network traffic classification empowered by deep learning | |
CN117633657A (zh) | 基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质 | |
Soleymanpour et al. | CSCNN: cost-sensitive convolutional neural network for encrypted traffic classification | |
Divakaran et al. | Slic: Self-learning intelligent classifier for network traffic | |
Cheng et al. | Real-time encrypted traffic classification via lightweight neural networks | |
CN112949702B (zh) | 一种网络恶意加密流量识别方法和*** | |
CN113452676B (zh) | 一种检测器分配方法和物联网检测*** | |
CN111431819A (zh) | 一种基于序列化的协议流特征的网络流量分类方法和装置 | |
CN112491894A (zh) | 一种基于时空特征学习的物联网网络攻击流量监测*** | |
CN113472751B (zh) | 一种基于数据包头的加密流量识别方法及装置 | |
CN111565156A (zh) | 一种对网络流量识别分类的方法 | |
US12014277B2 (en) | Physical layer authentication of electronic communication networks | |
Soleymanpour et al. | An efficient deep learning method for encrypted traffic classification on the web | |
Tan et al. | Recognizing the content types of network traffic based on a hybrid DNN-HMM model | |
CN114826776A (zh) | 一种用于加密恶意流量的弱监督检测方法及*** | |
CN114650229A (zh) | 基于三层模型sftf-l的网络加密流量分类方法与*** | |
CN112468324B (zh) | 基于图卷积神经网络的加密流量分类方法及装置 | |
Hu et al. | TCGNN: Packet-grained network traffic classification via Graph Neural Networks | |
Wang et al. | A two-phase approach to fast and accurate classification of encrypted traffic | |
Huo et al. | A novel approach for semi-supervised network traffic classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |