CN117633657A

CN117633657A - 基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质

Info

Publication number: CN117633657A
Application number: CN202311805721.5A
Authority: CN
Inventors: 王志宏; 杨莹; 朱彬
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-03-01

Abstract

本发明涉及一种基于多图表征增强实现加密应用流量识别处理的方法，包括以下步骤：基于多类型交互信息的数据包图构建；基于流序列关联关系的会话流图构建；基于层次图卷积网络的加密应用流量分类。本发明还涉及一种用于实现基于多图表征增强的加密应用流量识别处理的装置、处理器及其计算机可读存储介质。采用了本发明的基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质，针对现有基于深度学习的加密流量分类算法特征构建存在易被攻击，且忽略会话间语义关联等问题。该方法创新性地构建了数据包图和会话流图，充分挖掘会话流及会话流间的信息，具有一定的创新性。

Description

基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及计算机可读存储介质

技术领域

本发明涉及深度学习中的图神经网络处理技术领域，尤其涉及加密应用流量分类领域，具体是指一种基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质。

背景技术

加密应用流量分类是网络***领域中的一个重要问题，加密通信不仅能够有效地保护数据传输的安全，还会阻挡大部分侵入式攻击与截获。但这也给网络***带来了挑战，因此，对加密应用流量进行分类与识别成为加强网络***的关键技术之一。

在加密应用流量分类方面，现有算法可以根据其工作原理和分类方法进行分类，主要有以下几类：(1)基于规则的算法：基于专家经验或先验知识构建规则集合，从而对传输报文的格式和结构等特征进行判别，并对流量进行分类。这类算法不需要建立模型训练，因此速度较快，但分类的精度和适用场景受限制，且需要依赖于人工经验。(2)基于传统机器学习的算法：利用统计或机器学习等方法从加密流量中提取特征，然后对提取得到的特征进行匹配、分类。这种算法需要对数据集建立合适的特征表示，以提高分类准确率，但仍存在一些局限性，如提取的特征与具体的加密算法相关。(3)基于深度学习的算法：基于卷积神经网络(CNN)、循环神经网络(RNN)等深度学习模型进行建模，能够从原始数据中学习到抽象的和高维的特征表示，进而对加密流量进行分类。这种算法需要大量的数据样本和计算资源，但分类效果比其他方法更好。

上述三类方法在加密应用流量分类领域均取得了不错的效果，尤其是基于深度学习的算法，效果更为明显。但是现有基于深度学习的加密应用流量分类算法存在以下几个问题：(1)更关注单条会话流的序列特征。即通过将加密流量序列转化为灰度图，采用CNN等模型对灰度图进行特征学习并完成最终分类。但是由于灰度图的构建存在被攻击的风险，即在原始流量添加一个很小的扰动(数据包)，会对流量灰度图造成极大影响，从而达到欺骗模型，使得分类预测错误。(2)忽略了会话流之间的语义关联。现有算法模型更关注单条会话流的数据特征，忽略了多条加密会话之间丰富的语义关系，即没有对具有相关关系的多条加密会话进行关联分析，从而导致现有会话流特征局限在单条会话流自身。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足高精度、操作简便、适用范围较为广泛的基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质。

为了实现上述目的，本发明的基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质如下：

该基于多图表征增强实现加密应用流量识别处理的方法，其主要特点是，所述的方法包括以下步骤：

(1)从加密应用流量数据集中取出一条加密应用流量的所有会话流数据；

(2)构建数据包图；

(3)在数据包图中引入图卷积网络，不断更新数据包节点状态信息；

(4)表示原始加密流量灰度图，选取合适长度字节用于表征构建；

(5)表示原始加密流量灰度图图卷积网络；

(6)构建会话流图；

(7)表示会话流图图卷积，在会话流图中也引入图卷积网络；

(8)计算加密应用流量分类；

(9)进行加密应用流量分类预测。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)将原始流量按照会话粒度进行划分，并提取会话流中用于构建数据包图的基本信息；

(2.2)将单条会话流中的各个数据包定义为数据包图中的节点；

(2.3)将第一个数据包传输方向定义为正向，则后续数据包与之方向相同的为正值，否则为负值；

(2.4)将同一方向连续数据包传输称为簇，根据会话流中数据包的时序交互和访问交互信息，将数据包图边分为簇内边和簇外边，对不同簇间采用全连接方式。

较佳地，所述的步骤(5)具体包括以下步骤：

(5.1)将握手信息字节流转化为灰度图，利用embedding操作将原始字节映射到固定长度的特征；

(5.2)使用一维卷积操作对灰度图进行处理，获取每个字节的上下文关联信息，获得更丰富的语义表示信息。

较佳地，所述的步骤(6)具体包括以下步骤：

(6.1)在会话粒度上对加密流量进行处理，按照相同五元组进行加密会话划分，删除未加密的会话流和不完整的会话流；

(6.2)将加密流量中完整的会话流作为会话流图的节点；

(6.3)根据访问网络服务和包序列相似定义会话流图中的边。

较佳地，所述的步骤(3)中更新数据包节点状态信息，具体为：

根据以下公式更新数据包节点状态信息：

其中，为数据包图的邻接矩阵，D是/>的度矩阵，初始特征矩阵设定为V_i,m为数据包基于数据包载荷的嵌入表示。

较佳地，所述的步骤(8)中计算加密应用流量分类，具体为：

根据以下公式计算加密应用流量分类：

其中，表示加密会话流i属于类别c的概率，C表示加密流量的类别数。

该用于实现基于多图表征增强的加密应用流量识别处理的装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。

该用于实现基于多图表征增强的加密应用流量识别处理的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。

采用了本发明的基于多图表征增强实现加密应用流量识别处理的方法、装置、处理器及其计算机可读存储介质，针对现有基于深度学习的加密流量分类算法特征构建存在易被攻击，且忽略会话间语义关联等问题。首先，基于数据包负载长度、方向、包序列、簇信息等交互特征，构建数据包级的加密会话拓扑图，以充分挖掘加密应用流量中会话流信息。进一步，突破单条会话流的表征限制，基于加密会话间访问网络服务相同和数据包序列相似，构建基于流序列关联关系的加密应用会话流图。最后，引入层次图卷积网络，对基于单条会话构建的数据包图和基于多条会话构建的会话流图进行表征学习，从而解决单一会话流表征不足等问题，实现加密流量高精度识别和分类。该方法创新性地构建了数据包图和会话流图，充分挖掘会话流及会话流间的信息，具有一定的创新性。

附图说明

图1为本发明的基于多图表征增强实现加密应用流量识别处理的方法的基本结构示意图。

图2为本发明的基于多图表征增强实现加密应用流量识别处理的方法的实施例的流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该基于多图表征增强实现加密应用流量识别处理的方法，其中包括以下步骤：

(2)构建数据包图；

(5)表示原始加密流量灰度图图卷积网络；

(6)构建会话流图；

(7)表示会话流图图卷积，在会话流图中也引入图卷积网络；

(8)计算加密应用流量分类；

(9)进行加密应用流量分类预测。

作为本发明的优选实施方式，所述的步骤(2)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(5)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(6)具体包括以下步骤：

(6.2)将加密流量中完整的会话流作为会话流图的节点；

(6.3)根据访问网络服务和包序列相似定义会话流图中的边。

作为本发明的优选实施方式，所述的步骤(3)中更新数据包节点状态信息，具体为：

根据以下公式更新数据包节点状态信息：

作为本发明的优选实施方式，所述的步骤(8)中计算加密应用流量分类，具体为：

根据以下公式计算加密应用流量分类：

本发明的该用于实现基于多图表征增强的加密应用流量识别处理的装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

本发明的该用于实现基于多图表征增强的加密应用流量识别处理的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。

本发明的该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。

本发明的具体实施方式中，针对加密应用流量识别和分类，加密流量多维度表征入手，(1)提出了一种基于多类型交互信息的数据包图构建方法，以解决传统单条会话灰度图表征易被攻击的问题；(2)提出了一种基于流序列关联关系的会话流图构建方法，突破单条会话流表征限制，通过多条加密会话间的关联关系丰富各个加密会话的语义表征；(3)引入图卷积神经网络技术，通过融合多级图神经网络，对基于单条会话构建的数据包图和基于多条会话构建的会话流图进行表征学习，以实现加密应用流量高精度识别和分类。

本发明采用如下技术方案。一种基于多图表征增强的加密应用流量识别方法，首先，分别地，针对数据包图构建，提出了一种基于多类型交互信息的数据包图构建方法，从而提升基于数据包模式的单条会话流的表征能力；针对会话流图构建，提出一种基于流序列关联关系的会话流图构建方法，以解决加密流量表征中会话关联信息缺失问题，从而提升基于加密会话上下文的会话流表征能力。然后提出一种层次图卷积网络结构，构建基于数据包级和会话流级的加密应用流量快速识别和分类模型。方法包含的步骤具体如下：

步骤一，基于多类型交互信息的数据包图构建。本发明以单条会话流中的数据包为主，综合考虑会话流数据包交互特征差异(如数据包负载、数据包流向、包序列等)，以构建数据包交互拓扑图(Package Graph)，主要包括：(1)加密流量预处理。将原始流量按照会话粒度进行划分，并提取会话流中的数据包五元组、数据包载荷、数据包流向等基本信息以构建数据包图；(2)数据包图节点构建。本发明将单条会话流中的各个数据包定义为数据包图的节点，并将数据包载荷和数据包流向作为节点的初始值；(3)数据包图边构建。将同一方向连续数据包传输称为簇，根据会话流中数据包的时序交互和访问交互信息，将数据包图边分为簇内边和簇外边。本发明对不同簇内外采用全连接方式，以获取更丰富的节点关系信息。

步骤二，基于流序列关联关系的会话流图构建。本发明基于流序列关联关系构建会话流图(Record Graph)，以此获得更丰富的多条加密会话间的语义信息，主要包括：(1)加密流量预处理。在会话粒度上对加密流量进行处理，保留加密且会话完整的会话流；(2)会话流图节点构建。本发明将加密流量中完整的会话流作为会话流图的节点，并将数据包图表征、原始加密流量灰度图表征作为节点的初始值；(3)会话流图边构建。两个会话流的目的IP地址和目的端口号相同，则两个会话流建立连接(访问网络服务关联)。两个会话流相似度大于阈值时，两个会话流承载同一类型应用可能性越大，则两个会话流建立连接(包序列相似)。

步骤三，基于层次图卷积网络的加密应用流量分类。本发明采用图卷积网络(Graph Convolutional Network，GCN)作为图表征抽取的基础网络。首先，在数据包图中引入图卷积网络，通过不断更新数据包节点状态信息，聚合邻居节点的不同状态信息，从而丰富单条会话流的表征；其次，为了捕捉数据包级、会话流级等不同粒度的表征，将会话流的数据包特征表示、原始加密流量灰度图表征作为会话流图节点的初始表征，进一步引入图卷积网络，从而获得更丰富、更鲁棒的特征表征；然后，在多层图卷积网络表征层之后使用线性函数对输出数据进行线性变化，并利用Softmax层预测不同加密流量应用类别分布特征，通过概率分布计算出加密流量所属的应用类别。

本发明的实施例参见附图2，本发明的加密应用流量识别方法包括以下步骤：

1、数据准备。从加密应用流量数据集中取出一条加密应用流量的所有会话流数据。

2、数据包图构建。1)将原始流量按照会话粒度进行划分，并提取会话流中用于构建数据包图的基本信息，包括数据包五元组(传输协议、源端口号、源IP地址、目的端口号、目的IP地址)、数据包载荷、数据包流向等。2)将单条会话流中的各个数据包定义为数据包图中的节点，V_i,j(i＝1,2…,n；j＝1,2,…,m)表示第i个会话流中第j个数据包，其中n表示某一段加密流量中会话流的数量，m表示单条会话流中数据包的数量；3)采用数据包载荷长度符号表示数据包流向，即将第一个数据包传输方向定义为正向，如(V₁₁，10)，则后续数据包与之方向相同的为正值，否则为负值。4)将同一方向连续数据包传输称为簇，根据会话流中数据包的时序交互和访问交互信息，将数据包图边分为簇内边和簇外边，对不同簇间采用全连接方式。

3、数据包图图卷积网络表示。在数据包图中，引入图卷积网络，根据公式(1)不断更新数据包节点状态信息。

其中，是数据包图的邻接矩阵，D是/>的度矩阵，是上一次卷积的输出，初始特征矩阵设定为V_i,m为数据包基于数据包载荷的嵌入表示。

4、原始加密流量灰度图表示。选取合适长度字节(前B个字节)用于表征构建，保证前B个字节中包含ClientHello、ServerHello和Certificate消息等。会话i中的握手信息表示如下：

RawBytes(i)＝(b_i,1,b_i,2,…,b_i,b,…b_i,B)……(2)

其中，b_i,b表示第i个会话流中握手信息的第b个字节，b_i,b∈[0,255]。

5、原始加密流量灰度图图卷积网络表示。将握手信息字节流转化为灰度图，并利用embedding操作将原始字节映射到固定长度的特征相应，然后使用一维卷积操作对灰度图进行处理，获取每个字节的上下文关联信息，从而获得更丰富的语义表示信息。则第i个会话流的灰度图表征为：

RawH_i＝Conv1D(embedding(RBytes(i)))……(3)

6、会话流图构建。1)会话流图构建的基础单元是会话流，因此将在会话粒度上对加密流量进行处理，包括拆分、过滤等步骤。将原始加密流量拆分成独立的会话流单元，即按照相同五元组进行加密会话划分，其中源IP和Port可以与目标IP和Port互换。同时删除未加密的会话流和不完整的会话流，以此减少后续不必要的计算开销。2)将加密流量中完整的会话流作为会话流图的节点，R_i(i＝1,2,…,n)表示第i个会话节点，n表示某一段加密流量中的会话总数。3)会话流图中边的定义基于会话流序列的关联关系，拟包括访问网络服务和包序列相似两部分。其中：访问网络服务关联是指两个会话流是否共享相同目的IP地址和目的端口号，具体公式如下，1表示两个会话流之间建立连接。

包序列相似关联是指当两个会话流相似度大于阈值时，两个会话流之间将建立连接。相似度越大，两个会话流属于承载同一类型应用的可能性越大。采用欧式距离计算两个会话流的相似度，计算方法如下。

7.会话流图图卷积表示。在会话流图中也引入图卷积网络，不同的是，会话流图中会话流节点的初始表征包括了数据包特征表示以及原始加密流量灰度图表征，从而使得在会话流节点可以捕捉到数据包级、会话流级等不同粒度的表征信息，表达能力更丰富、更鲁棒。具体公式如下：

其中，

8.加密应用流量分类计算。采用Softmax预测加密应用流量的类别概率分布，如下式(8)所示。

9.加密应用流量分类预测。对于选取的加密应用流量的分类概率计算结果分别为：{Twitter：0.93；Telegram：0.02；Facebook：0.04；YouTube：0.01}，那么最后模型的分类结果为：Twitter。

本实施例的具体实现方案可以参见上述实施例中的相关说明，此处不再赘述。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于多图表征增强实现加密应用流量识别处理的方法，其特征在于，所述的方法包括以下步骤：

(2)构建数据包图；

(5)表示原始加密流量灰度图图卷积网络；

(6)构建会话流图；

(7)表示会话流图图卷积，在会话流图中也引入图卷积网络；

(8)计算加密应用流量分类；

(9)进行加密应用流量分类预测。

2.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法，其特征在于，所述的步骤(2)具体包括以下步骤：

3.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法，其特征在于，所述的步骤(5)具体包括以下步骤：

4.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法，其特征在于，所述的步骤(6)具体包括以下步骤：

(6.2)将加密流量中完整的会话流作为会话流图的节点；

(6.3)根据访问网络服务和包序列相似定义会话流图中的边。

5.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法，其特征在于，所述的步骤(3)中更新数据包节点状态信息，具体为：

根据以下公式更新数据包节点状态信息：

6.根据权利要求1所述的基于多图表征增强实现加密应用流量识别处理的方法，其特征在于，所述的步骤(8)中计算加密应用流量分类，具体为：

根据以下公式计算加密应用流量分类：

7.一种用于实现基于多图表征增强的加密应用流量识别处理的装置，其特征在于，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求1至6中任一项所述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。

8.一种用于实现基于多图表征增强的加密应用流量识别处理的处理器，其特征在于，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求1至6中任一项所述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现权利要求1至6中任一项所述的基于多图表征增强实现加密应用流量识别处理的方法的各个步骤。