CN114978593A

CN114978593A - 基于图匹配的不同网络环境的加密流量分类方法及***

Info

Publication number: CN114978593A
Application number: CN202210397693.7A
Authority: CN
Inventors: 张晓宇; 李文灏; 刘峰
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-30
Anticipated expiration: 2042-04-15
Also published as: CN114978593B

Abstract

本发明公开了一种基于图匹配的的不同网络环境的加密流量分类方法及***，属于网络流量管理领域，利用设计的加密流量聚类算法与基于图匹配的加密流量匹配分类方法，分别聚合不同网络的同种类加密流量，并且匹配不同网络下的同种加密流量簇，将已知标签映射到匹配的加密流量簇中，从而分类待测加密流量。

Description

基于图匹配的不同网络环境的加密流量分类方法及***

技术领域

本发明属于网络流量管理领域，涉及加密网络流量识别和分类技术，具体涉及一种基于图匹配的不同网络环境的加密流量分类方法及***。

背景技术

加密流量识别和分类技术是网络流量管理技术的主要分支之一。该技术通过分析收集的加密网络流量，识别和分类流量归属的网络应用。加密流量识别和分类技术被广泛用于网络安全和网络监管领域，智能入侵检测***(IDS)等用于检测和过滤恶意流量的防御设备也应用了流量识别和分类技术。近年来，随着加密技术的逐渐普及，网络流量也从明文传输转变为密文传输。因此，传统的基于深度包的网络流量检测和分类方法适用于加密流量。于是新型的加密流量分类技术放弃在明文信息中匹配模式的方法，转而使用加密流量的侧信道信息作为训练特征，学习侧信道特征的分布，以识别和分类加密流量。

目前，新型智能加密流量识别和分类技术存在着以下难以解决的挑战：由于网络拓扑架构的复杂性与不确定性，目前的加密流量识别与分类技术无法保证稳定的普适性。不同网络环境下，由于存在不可预知的网络波动，网络延迟，网络带宽与拓扑结构，来自同一网络应用的加密流量在同组特征向量下的特征分布容易受到干扰，不稳定的特征分布使得目前的在单一网络下初始化的加密流量识别与分类模型无法达到稳定的识别和分类效果。该挑战产生的原因是：目前的加密流量识别与分类技术的训练用料是加密流量的侧信道信息，在不同网络环境下的侧信道信息是不稳定的，这导致了模型学习到的单一分布无法适应收到扰动的侧信道特征分布；目前的加密流量识别与分类模型的训练和测试方法，是在已知的单一网络环境下初始化模型，初始化后的模型在不同的网络环境下部署测试，这同样导致了模型学习到的单一分布无法适应收到扰动的侧信道特征分布。

发明内容

本发明的目的在于提供一种基于图匹配的的不同网络环境的加密流量分类方法及***，利用设计的加密流量聚类算法与基于图匹配的加密流量匹配分类方法，分别聚合不同网络的同种类加密流量，并且匹配不同网络下的同种加密流量簇，将已知标签映射到匹配的加密流量簇中，从而分类待测加密流量。

为实现上述目的，本发明采用的技术方案如下：

一种基于图匹配的不同网络环境的加密流量分类方法，包括以下步骤：

收集不同网络环境下的加密流量数据，对于其中同一网络环境下的加密流量数据，以网络会话为单位进行分割；

对于分割出的每一个网络会话，提取其多维静态特征；

根据网络会话的多维静态特征，对网络会话进行多次聚类，得到对应于不同网络环境的不同根簇集合；

每次选择一个上述得到的根簇集合，该根簇集合为未知标签的待测根簇集合，与一个已知标签的根簇集合进行匹配；对于进行匹配的这两个根簇集合，计算每个根簇集合中的所有根簇之间的相似度，得到每个根簇集合的相似矩阵；

遍历所述两个根簇集合并得到候选匹配对集合，遍历匹配对集合中的候选匹配对，计算匹配对之间的共存值，得到候选匹配对集合的匹配矩阵；

根据候选匹配对集合的匹配矩阵，计算匹配对集合中的每个候选匹配对的正确性，筛选得到所述两个根簇集合中的一对一映射的匹配对；

将已知标签的根簇集合中的标签信息一对一地映射到未知标签的待测根簇集合中，则该未知标签的待测根簇集合中的加密流量被预测为已知的标签，实现分类。

进一步地，使用网络流量嗅探器在不同网络环境下分别收集对应应用的加密流量数据。

进一步地，使用预设的五元组{目的IP，目的端口，源IP，源端口，传输层协议}作为键值进行网络会话分割。

进一步地，多维静态特征包括会话的证书特征、地址特征、域名特征与时间特征。

进一步地，聚类的步骤包括：

根据网络会话的加密握手的证书特征，将具有相同证书信息特征的网络会话聚合到一起，形成原有的根簇集合；

根据网络会话的地址特征，在上述原有的根簇集合基础上，将具有相同目的网络地址的会话聚合在一起，补充原有根簇集合，得到补充的根簇集合；

根据网络会话的域名特征，在上述扩充的根簇集合的基础上，将具有相似的域名特征的会话聚合在一起，进一步扩充根簇集合；

根据时间特征，将剩下的未被聚合的网络会话聚合到具有最相似的时间特征的根簇中。

进一步地，若有N个网络应用产生来自M个网络环境下的加密流量数据，则聚合得到M个根簇集合，每个根簇集合包含N个根簇，共计N×M个根簇。

进一步地，通过光谱匹配算法计算匹配对集合中的每个候选匹配对的正确性，该光谱匹配算法的处理步骤为：输入匹配对集合的匹配矩阵，计算得到匹配矩阵的主特征向量，两个对应的主特征向量的每一个值所对应的下标，对应匹配对集合中的匹配对顺序。

进一步地，通过接受-拒绝算法筛选得到所述两个根簇集合中的一对一映射的匹配对，该接受-拒绝算法的处理步骤为：主特征向量中的下标按照对应的值的大小排序，从较大的值对应的下标所对应的匹配对开始，接受该匹配对，形成从一个根簇集合中的某一根簇到另一个根簇集合中的某一根簇的唯一映射，同时拒绝掉所有涉及这两个根簇的匹配对，直至所有根簇都有唯一匹配时停止。

一种基于图匹配的不同网络环境的加密流量分类***，包括存储器和处理器，在该存储器上存储有计算机程序，该处理器执行该程序时实现上述方法的步骤。

一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明的方法可以使用在单一网络下的收集的流量数据作为初始样本，稳定地识别与分类不同网络环境下收集的网络应用流量数据，其中，本发明所使用针对于加密流量的聚类方法，相比于传统的聚类算法，针对加密流量有更高效的聚合效果。本发明所使用的加密流量识别与分类方法不需要大量的计算资源，以非学习的框架实现高效稳定的加密流量识别与分类效果。本发明方法可以有效解决在单一网络初始化模型后，无法适应于不同网络下的同种网络应用流量识别分类任务的问题。

附图说明

图1是本发明实施例的基于图匹配的不同网络环境的加密流量分类示意图。

图2是本发明实施例的同一网络环境下的加密流量聚类算法的流程图。

图3是本发明实施例的不同网络环境下的加密流量匹配分类算法的流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提供一种基于图匹配的不同网络环境的加密流量分类方法，适用于准确稳定地识别和分类不同网络应用产生的加密流量，即使这些加密流量产生于不同的网络环境下，如图1所示。本方法分为同一网络下的加密流量聚类算法与不同网络下的加密流量匹配分类算法，其中图2是同一网络下的加密流量聚类算法流程图，图3是不同网络下的加密流量匹配分类算法流程图。

本实施例首先对于不同网络环境下加密流量，聚合同一应用的加密流量，形成不同网络环境下的加密流量根簇集合；然后利用设计的图匹配的加密流量分类方法，匹配已知标签的网络下的加密流量根簇集合与待测网络环境下的未知标签的加密流量根簇集合，同种网络应用的加密流量根簇形成一对一的匹配，已知标签的加密流量簇将标签映射到匹配的待测加密流量簇，从而实现待测加密流量的识别与分类。

本方法具体包括以下步骤：

收集不同网络环境下的加密流量数据：使用网络流量嗅探器在不同的网络环境下分别收集对应应用的加密流量数据；

1)同一网络环境下的加密流量聚类算法：

首先，对于同一网络环境下的加密流量，使用预定义的五元组作为键值将整体流量数据以网络会话为单位分割。

然后，对于每一个网络会话，提取其多维静态特征作为其表征向量，静态特征包括该会话的证书特征、地址特征、域名特征与时间特征等；证书特征指的是提取加密流量会话中标准加密握手阶段的明文加密证书信息作为特征；地址特征指的是加密流量会话的包括目的IP地址在内的地址特征；域名特征指的是在半加密流量会话中嵌入的域名信息和在加密流量会话的加密握手阶段嵌入的明文域名信息；时间特征指的是加密流量会话的首位流量包到达时间之间的过程时间。

最后，对同一网络环境下的加密流量进行聚类，聚类算法分为四个步骤：

(1)根据网络会话的加密握手的证书特征，将具有相同证书信息特征的网络会话聚合到一起，形成根簇集合；以下是证书特征聚合的形式化表示：

其中，ζ_n是单个独立的加密流量会话，f_cert是证书特征提取函数，

是以证书特征为聚合键值得到的根簇集合。i，j表示两个进行聚合的网络会话，n表示网络会话数量。遍历在同一网络环境下的加密流量会话ζ_n，使用证书特征提取函数f_cert提取其证书特征；对于具备相同证书特征的加密会话，聚合到同一个根簇中，得到以证书特征为键值聚合的根簇集合

然后将以证书特征为键值聚合的根簇集合

归纳至该网络环境下的根簇集合RCs。

(2)根据网络会话的地址特征，在原有的根簇集合基础上，将具有相同目的网络地址的会话聚合在一起，扩充原有的根簇集合；以下是地址特征聚合的形式化表示：

RCs＝RC^cert∪RC^ip

其中，f_ip是地址特征提取函数。遍历剩余未被聚合的加密流量会话，将具备与根簇相同地址特征的会话聚合到对应的证书特征根簇

中；对于不具备与根簇有相同地址特征的加密流量会话，根据其地址特征相似度，将具有相同地址特征的加密流量会话聚合，形成以地址特征为键值的根簇

然后，将以地址特征为键值的根簇

归入现有的根簇集合RCs中，形成补充后的根簇集合。

(3)根据网络会话的域名特征，在扩充的根簇集合的基础上，将具有相似的域名特征的会话聚合在一起，扩充根簇集合；以下是计算两个根簇之间域名特征相似性的形式化表达：

其中，α是根簇集合中的一个根簇的域名特征(域名列表)，β是根簇集合中的另一个根簇的域名特征(域名列表)，Simhash是计算两个域名之间相似度的函数。遍历计算同一个根簇集合中根簇对之间的相似度；循环聚合高相似度的根簇，直到根簇集合中的根簇数量与收集的网络应用数量相等。

(4)根据时间特征，将剩下的未被聚合的网络会话聚合到具有最相似的时间特征的根簇中。

通过加密流量聚类算法，N个网络应用产生的来自M个网络环境下的加密流量数据形成了M个根簇集合，每个根簇集合包含了N个根簇。

2)不同网络环境下的加密流量匹配分类算法：

首先，对于加密流量聚类算法得到的N个网络应用产生的来自M个网络环境下的N×M个根簇，一一匹配每两个根簇集合的N个根簇。对于两个待匹配的根簇集合，其中一个是已知标签的训练集中的根簇集合，另一个是未知标签的测试集中的根簇集合。对于每一个根簇集合，计算根簇之间的相似度，得到每个根簇集合的相似矩阵；以下是计算两个根簇间相似度的形式化表达：

其中，对于相同网络环境下的根簇集合，遍历根簇，计算根簇对之间的域名特征相似度，得到两个根簇之间的相似度。

然后，遍历上述两个待匹配的根簇集合，得到候选匹配对集合；遍历候选匹配对集合中的候选匹配对，计算匹配对之间的共存值，得到该候选匹配对集合的匹配矩阵；以下是匹配对集合的匹配矩阵计算方法的形式化表达：

其中，

是根簇集合a中相似度矩阵的一个点值，是匹配对α对应的两个根簇的相似度；

是根簇集合b中相似度矩阵的一个点值，是匹配对β对应的两个根簇的相似度；θ_a，b是根簇集合a，b对应的相似度矩阵的噪声容忍值。遍历候选匹配对集合，计算匹配对之间的共存值，得到匹配对集合的匹配矩阵。

再然后，对于得到的匹配对集合的匹配矩阵，通过光谱匹配算法，计算匹配对集合中的每个候选匹配对的正确性；通过“接受-拒绝”算法，形成两个根簇集合中的一对一匹配。其中，所述光谱匹配算法的流程：输入匹配对集合的匹配矩阵，计算得到匹配矩阵的主特征向量，两个对应的主特征向量的每一个值所对应的下标，对应匹配对集合中的匹配对顺序。所述的“接受-拒绝”算法：主特征向量中的下标按照对应的值的大小排序，从较大的值对应的下标所对应的匹配对开始，接受该匹配对，形成从根簇集合a中的某一根簇到根簇集合b中的某一根簇的唯一映射，同时，拒绝掉所有涉及这两个根簇的匹配对，直至所有根簇都有唯一匹配，算法停止。

最后，将标签信息从已知标签的根簇集合一对一地映射到未知标签的待测根簇集合中，达到待测网络下的加密流量的匹配分类目的。具体地，上述得到的两个已有一对一映射关系的根簇集合，其中一个根簇集合是来自已知网络，集合中的根簇的对应网络应用标签是已知的，另一个根簇集合来自待测网络，集合中的根簇的对应网络应用标签是未知的；通过一对一的唯一映射关系，将已知标签中的根簇标签信息等值映射到未知标签的根簇中，未知标签的根簇中聚合的加密流量会话被预测为该已知的标签。

以下列举一个实例：

一、使用加密流量聚类方法算法对同一网络下的加密流量进行聚合

以独立收集的数据集CrossNet2021作为数据集，CrossNet2021数据集包含了两个网络环境下收集的加密流量数据，对于每个网络环境下收集相同网络应用产生的加密流量数据，这些流量产生于10种常用的网络应用：

1)首先，对于其中一个网络环境下收集的10种网络应用的加密流量数据，以{目的IP，目的端口，源IP，源端口，传输层协议}的五元组为键值进行网络会话分割。将收集的原始数据包集合分割为单个网络会话；

2)分别提取1)中得到的网络会话的多维静态特征，包括证书特征、地址特征、域名特征与时间特征；

3)首先聚合具有相同证书特征的网络会话，对于具备相同证书特征的加密会话，聚合到同一个根簇中，得到以证书特征为键值聚合的根簇集合。然后将以证书特征为键值聚合的根簇集合归纳至该网络环境下的根簇集合；

4)进一步聚合具有相同地址特征的网络会话，并扩充3)中得到的根簇集合，遍历剩余未被聚合的加密流量会话，将具备与根簇相同地址特征的会话聚合到对应的证书特征根簇中；对于不具备与根簇有相同地址特征的加密流量会话，根据其地址特征相似度，将具有相同地址特征的加密流量会话聚合，形成以地址特征为键值的根簇；然后，将以地址特征为键值的根簇归入现有的根簇集合中，形成补充后的根簇集合；

5)进一步聚合具有高相似域名特征的网络会话，并扩充4)中得到的根簇集合，对于具备高相似度的域名特征的根簇，根据其域名特征相似性，聚合具有高相似度的域名特征的会话，融合并压缩现有的根簇集合。遍历计算同一个根簇集合中根簇对之间的相似度；循环聚合高相似度的根簇，直到根簇集合中的根簇数量与收集的网络应用数量相等。由于CrossNet2021中包含了10个应用的网络流量，因此，现在聚合得到的根簇集合中，包含了10个根簇；

6)根据时间特征相似度，将孤立的网络会话归纳入具有最相似时间特征的根簇中，最后，对于每个网络环境下收集到的网络流量数据，分别得到包含了10个根簇的根簇集合。

比较本发明提出的加密流量聚类算法与其他方法的结果，与经典的无监督聚类算法对比结果如表1所示。

表1.在CrossNet2021数据集中的两个不同网络环境下的聚类纯度对比

数据集	本发明方法	BIRCH	DBSCAN	K-Means	Mean-Shift
						CrossNet2021_A	0.998	0.456	0.407	0.462	0.789
CrossNet2021_B	0.984	0.546	0.356	0.517	0.889

注：表1使用的度量参数是类内纯度分数(IPS)。

二、使用基于图匹配的加密流量匹配分类算法对识别和分类不同网络环境下的加密流量

使用CrossNet2021的两个子数据集作为实例样本，其中CrossNet2021_A中的数据作为训练集，其标签是已知的；CrossNet2021_B中的数据作为测试集，其标签需要分类预测。

1)使用提出的加密流量聚类算法，分别聚合CrossNet2021_A与CrossNet2021_B中的流量数据，得到两个根簇集合RCa与RCb，RCa与RCb中分别包含了10个根簇；

2)对于1)中得到的RCa与RCb，分别计算其根簇间的相似度，得到大小为10×10的Ga与Gb的两个相似矩阵；

3)遍历RCa与RCb中的根簇，得到大小为100的候选匹配对集合；

4)遍历候选匹配对集合中的候选匹配对，计算两个匹配对之间的共存值，得到大小为100×100的匹配矩阵M。

5)对于4)中得到的匹配对集合的匹配矩阵M，通过光谱匹配算法，计算匹配对集合中的每个候选匹配对的正确性；通过“接受-拒绝”算法，形成两个根簇集合中的一对一匹配。首先，输入匹配对集合的匹配矩阵M，计算得到匹配矩阵的主特征向量x，对应的主特征向量x的每一个值对应的下标i对应匹配对集合中的匹配对顺序。然后，主特征向量x中的下标i按照对应的值的大小排序，从较大的值对应的下标所对应的匹配对开始，接受该匹配对，形成从根簇集合RCa中的某一根簇到根簇集合RCb中的某一根簇的唯一映射，同时，拒绝掉所有涉及这两个根簇的匹配对，直至所有根簇都有唯一匹配，算法停止。

6)在5)得到的两个已有一对一映射关系的根簇集合，RCa是来自已知网络，集合中的根簇的对应网络应用标签是已知的，RCb来自待测网络，集合中的根簇的对应网络应用标签是未知的；通过一对一的唯一映射关系，将已知标签中的根簇标签信息等值映射到未知标签的根簇中，未知标签的根簇中聚合的加密流量会话被预测为该已知的标签。

比较本发明方法与其他方法的结果，所有方法在CrossNet2021_A中初始化和训练，在CrossNet2021_B中进行跨网络环境测试，表2是加密流量跨网络环境分类的准确率。

表2.加密流量跨网络环境的分类准确率

数据集	本发明方法	Flowprint	XGboost	RBRN	FC-Net
						CrossNet2021	95.87	36.01	49.51	61.69	72.74

根据表1和表2的结果，分别体现了本发明方法提出的基于图匹配的加密流量聚类和匹配分类方法的优越性。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于图匹配的不同网络环境的加密流量分类方法，其特征在于，包括以下步骤：

对于分割出的每一个网络会话，提取其多维静态特征；

2.如权利要求1所述的方法，其特征在于，使用网络流量嗅探器在不同网络环境下分别收集对应应用的加密流量数据。

3.如权利要求1所述的方法，其特征在于，使用预设的五元组{目的IP，目的端口，源IP，源端口，传输层协议}作为键值进行网络会话分割。

4.如权利要求1所述的方法，其特征在于，多维静态特征包括会话的证书特征、地址特征、域名特征与时间特征。

5.如权利要求4所述的方法，其特征在于，聚类的步骤包括：

6.如权利要求1所述的方法，其特征在于，若有N个网络应用产生来自M个网络环境下的加密流量数据，则聚合得到M个根簇集合，每个根簇集合包含N个根簇，共计N×M个根簇。

7.如权利要求1所述的方法，其特征在于，通过光谱匹配算法计算匹配对集合中的每个候选匹配对的正确性，该光谱匹配算法的处理步骤为：输入匹配对集合的匹配矩阵，计算得到匹配矩阵的主特征向量，两个对应的主特征向量的每一个值所对应的下标，对应匹配对集合中的匹配对顺序。

8.如权利要求7所述的方法，其特征在于，通过接受-拒绝算法筛选得到所述两个根簇集合中的一对一映射的匹配对，该接受-拒绝算法的处理步骤为：主特征向量中的下标按照对应的值的大小排序，从较大的值对应的下标所对应的匹配对开始，接受该匹配对，形成从一个根簇集合中的某一根簇到另一个根簇集合中的某一根簇的唯一映射，同时拒绝掉所有涉及这两个根簇的匹配对，直至所有根簇都有唯一匹配时停止。

9.一种基于图匹配的不同网络环境的加密流量分类***，其特征在于，包括存储器和处理器，在该存储器上存储有计算机程序，该处理器执行该程序时实现权利要求1-8任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。