CN114048795A

CN114048795A - 一种基于PCA和XGBoost融合的业务类型识别方法

Info

Publication number: CN114048795A
Application number: CN202111202293.8A
Authority: CN
Inventors: 刘旭; 胡俊华; 朱晓荣; 杨龙祥; 朱洪波; 江婷
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-02-15

Abstract

本发明公开了一种基于PCA和XGBoost融合的业务类型识别方法，包括以下步骤：步骤S1、采集带有标签的网络流量数据集，网络流量数据集的业务类型包括HTTP、NTP、DNS、QQ、微信、视频和邮件；步骤S2、对步骤S1中的网络流量数据集进行数据清洗和特征提取，从而得到含有多维特征的网络流量数据集；步骤S3、利用主成分分析特征降维的方法将步骤S2中的多维特征简化成低维特征，得到带标签的低维数据集；步骤S4、得到训练好的极限梯度提升XGBoost分类模型；步骤S5、将待测的网络流量数据集输入到步骤S4中的极限梯度提升XGBoost分类模型，得到业务类型分类结果。本发明不仅可以降低识别方法的复杂度，同时还能够提高对业务类型识别的精度。

Description

一种基于PCA和XGBoost融合的业务类型识别方法

技术领域

本发明涉及通信网络技术领域，特别是一种基于PCA和XGBoost融合的业务类型识别方法。

背景技术

随着信息技术的不断发展，互联网流量规模也在逐年增大，网络新业务层出不穷。虽然这大大促进了我们社会的进步与发展，这些新业务的普及也为电信运营商吸纳了大量的客户资源，但是网络中包含了各种各样的加密流量，对网络的底层流量模型和上层应用模式产生了很大的冲击，而为了提高网络管理、改善网络服务、保障网络环境安全，有效地识别各类应用业务的加密流量，从而构建“可运营、可管理”的网络成了现在一个关键的研究方向。

传统的业务类型识别方法有基于端口的流量识别方法和基于深度包检测(DPI)的流量识别方法。基于端口的流量识别是通过TCP/UDP数据包报头中的已知端口号对网络流量进行分类，最初，这种方法对于实时流量分类非常有效且易于实现，但是，如今各种网络应用程序并未使用众所周知的端口来避免被检测到，而且某些网络应用程序在使用时可能使用动态端口号。因此，现在基于端口的流量分类不能产生真实的结果，分类精度不高。而基于深度包检测(DPI)的流量识别方法，本质上是一种数据报文过滤技术，DPI除了支持L2层数据链路层、L3层网络层、L4层传输层的报文首部解析之外，还增加了对L7层应用层有效载荷的解析，可以识别各种应用类型及其内容。但是由于目前大多数业务使用各种加密技术来禁止对包有效载荷进行检查，因此深度包检测(DPI)的分类精度也不是很高。当前的趋势是使用机器学习的方法来进行IP流量分类。

近年来，基于机器学习的人工智能技术在计算机视觉、自然语言处理、语音识别、图像医疗等方面取得了瞩目的成就，在很多领域的表现都远远优于传统解决方案。这充分彰显了机器学习在处理分类任务时的科学性以及有效性，机器学习和数据挖掘技术也逐渐在网络空间安全领域得到应用与发展，因此机器学习技术也为解决传统方法解决的加密流量分类问题提供了可能性。传统的业务类型识别方法无法识别加密流量且存在识别的准确率较低等问题。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于PCA和XGBoost融合的业务类型识别方法，不仅可以降低识别方法的复杂度，同时还能够提高对业务类型识别的精度。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于PCA和XGBoost融合的业务类型识别方法，包括以下步骤：

步骤S1、采集带有标签的网络流量数据集，网络流量数据集的业务类型包括HTTP、NTP、DNS、QQ、微信、视频和邮件；

步骤S2、对步骤S1中的网络流量数据集进行数据清洗和特征提取，从而得到含有多维特征的网络流量数据集；

步骤S3、利用主成分分析特征降维的方法将步骤S2中的多维特征简化成低维特征，得到带标签的低维数据集；

步骤S4、从步骤S3中带标签的低维数据集中选出影响衡量业务类型的相关性高的关键性能指标，该关键性能指标组成带标签的数据集，该数据集分为训练集和测试集，将训练集输入到极限梯度提升XGBoost分类模型进行训练，并采用改进的参数调优的方法对该XGBoost分类模型的学习率γ和正则化参数λ进行调优，得到最适合该网络流量数据集的学习率γ和正则化参数λ，并对参数调优后的XGBoost分类模型进行测试，得到训练好的极限梯度提升XGBoost分类模型；

学习率γ和正则化参数λ进行调优的方法具体如下：

步骤S4.1、极限梯度提升XGBoost分类模型为：

其中，T指叶节点的数量，obj指目标函数，G_j指目标函数在第j个叶节点泰勒展开式中的一阶导，H_j指目标函数在第j个叶节点泰勒展开的二阶导；

步骤S4.2、对步骤S4.1中的学习率γ和正则化参数λ进行参数调优：

步骤S4.2.1、设置学习率γ和正则化参数λ的各自的搜索空间Φ及搜索步长μ，设置如下所示：

γ＝(γ_start,γ_end,μ_γ)

λ＝(λ_start,λ_end,μ_λ)

其中，γ_start和γ_end分别为学习率γ的搜索空间Φ_γ的上边界和下边界，μ_γ为学习率γ的搜索步长；λ_start和λ_end分别为正则化参数λ的搜索空间Θ_λ上边界和下边界，μ_λ为正则化参数λ的搜索步长；

步骤S4.2.2、根据设置的搜索空间和搜索步长，生成二维搜索参数组矩阵H_S，定义如下:

其中，p是整数，q是整数，

步骤S4.2.3、针对步骤S4.2.2中的H_S中每个参数组，评估XGBoost分类模型在每个参数组的平均分类精度，选出评估出的平均分类精度最高的参数组，若平均分类精度最高的参数组为1个则该参数组为选取的参数组，若评估平均分类精度最高的参数组有多个，则选取这多个参数组中λ_start+qμ_λ最小的一个参数组；

步骤S4.2.4、步骤S4.2.3选取的参数组中的λ_start+qμ_λ、γ_start+pμ_γ即为XGBoost分类模型对应步骤S3中带标签的低维数据集的最优的学习率γ和正则化参数λ；

步骤S5、将待测的网络流量数据集输入到步骤S4中的极限梯度提升XGBoost分类模型，得到业务类型分类结果。

作为本发明所述的一种基于PCA和XGBoost融合的业务类型识别方法进一步优化方案，步骤S2中的多维特征F，具体表示方式为：

F＝[f₁,f₂,f₃…f_d]

F含有d个特征的向量，f_i表示第i个关键特征指标，d≥i≥1，对f_i的最大值分别进行归一化处理，处理的具体方式为：

max(f_i)是第i个关键特征指标出现的最大值，

是经过归一化处理后的第i个关键特征指标。

作为本发明所述的一种基于PCA和XGBoost融合的业务类型识别方法进一步优化方案，利用步骤S3中的主成分分析特征降维的方法将多维特征简化成低维特征，假设原始的多维特征为d维，简化后的低维特征为k维，其中k＜d；

步骤S3.1、将步骤S2中的含有多维特征的网络流量数据集组成一个d行n列的矩阵X，其中含有多维特征的网络流量数据集有n个样本，每个样本有d维特征；

步骤S3.2、对步骤S2中的d行n列的矩阵X进行去中心化处理，得到去中心化后的矩阵X'；

步骤S3.3、求出步骤S3.2中矩阵X'的协方差矩阵Cov：

其中，上标T'为转置；

步骤S3.4、求出协方差矩阵的特征值及对应的特征向量；

步骤S3.5、将求出来的特征向量按照对应特征值的大小从上到下按行排列成一个矩阵，取前k行组成矩阵P；

步骤S3.6、Y＝PX，Y为经过主成分分析特征降维的方法降维到k维后的低维特征。

作为本发明所述的一种基于PCA和XGBoost融合的业务类型识别方法进一步优化方案，通过网络抓包工具Wireshark获取不带标签的实际的数据集输入到经过PCA降维的极限梯度提升模型XGBoost分类模型，得到业务类型分类结果。

作为本发明所述的一种基于PCA和XGBoost融合的业务类型识别方法进一步优化方案，步骤S4中，相关性高的关键性能指标包括源IP、目的IP、源端口号、目的端口号、协议类型和数据长度。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明方法解决了传统的业务类型识别方法无法识别加密流量且识别的准确率较低等问题；利用主成分分析和XGBoost算法对测试集的准确性和算法的复杂度进行了平衡，从而可以实现高效并且可靠的业务类型识别。

附图说明

图1是本发明提供的基于PCA和XGBoost的业务类型识别***流程图。

图2是利用主成分分析(PCA)算法特征降维的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

本发明提出将特征降维和深度学习的思维应用到业务类型识别场景中，首先通过wireshark网络抓包工具获取到网络流量大数据，提出了一种基于PCA和XGBoost融合的业务类型识别方法。利用特征降维的思想，基于主成分分析(PCA)算法将复杂的多维特征简化成低维特征，降低了模型训练的复杂度，然后利用极限梯度提升模型(XGBoost)对大量可靠的带有标签的数据集进行训练，最后对实际获取的数据流量进行业务类型识别。该方法融合了PCA和XGBoost，在降低算法复杂度的同时，还能够提高对业务类型识别。

基于业务类型识别应用场景，本发明提出了一种基于PCA和XGBoost融合的业务类型识别方法，如图1所示，所述方法包括以下步骤：

步骤S1、通过Wireshark采集部分带有标签的网络流量数据集，包括HTTP、NTP、DNS、QQ、微信、视频、邮件等业务类型的数据集，数据集特征的具体表示方式如下：

F＝[f₁,f₂,f₃…f_d]

F是含有d个特征的向量，f_i表示第i个关键特征指标。

步骤S2、将步骤1中采集到的带有标签的数据集进行数据清洗和特征提取，去除重复样本以及不完整数据的无效样本并基于每个关键特征的最大值分别进行归一化处理。具体处理方式如下：

其中

指经过了归一化后的第i个关键特征指标。max(f_i)指第i个关键特征指标出现的最大值。

步骤S3、在进行分类模型训练之前，为保证分类模型准确率的同时，降低数据维度的复杂度，利用主成分分析特征降维的方法将步骤2中复杂的多维特征简化成低维特征，即将原有的d维数据集转换成k维数据集，其中k＜d。从而保留数据最重要的一些特征，主成分分析数据降维的具体处理方式如下：

步骤S3.3、求出步骤S3.2中矩阵X'的协方差矩阵Cov：

其中，上标T'为转置；

步骤S3.4、求出协方差矩阵的特征值及对应的特征向量；

步骤S4、从步骤S3中带标签的低维数据集选出影响衡量业务类型的相关性高的关键性能指标，该关键性能指标组成带标签的数据集，该数据集分为训练集和测试集，训练集输入到极限梯度提升模型(XGBoost)进行训练，并对该分类器进行参数调优，并对参数调优后的模型进行测试，极限梯度提升模型(XGBoost)的具体表现形式如下：

步骤S4.1、定义目标函数：

其中

为损失函数，用来度量预测值

和目标值y_i之间的差异，在此发明中就是指预测的业务类型标签与真实的业务类型标签之间的差异。

为正则化项，定义为：

其中T指叶节点的数量，λ为正则化参数，γ为学习率，w_j表示第j个叶节点的预测值。由于XGBoost是前向分布算法，所以第t次结果就是前t-1次结果加上当前弱分类器的结果。因此每一次迭代寻找使损失函数降低最大的CART树，因此目标函数可以改写为：

const是指在第t轮时，前t-1次迭代正则项可以看作是常数。经过泰勒展开对目标函数进行近似，得到：

其中，

移除对第t轮迭代来说的常数项

得到目标函数：

所以目标函数只依赖于每条数据在误差函数上的一阶导数和二阶导数。对正则化项进行处理后，最后目标函数可以改写为：

其中：

I_j定义为样本的索引集，其值与叶节点j相关联。

假设决策树的结构已经确定，每个叶节点上的预测值可以通过使损失函数的导数为零得到，可以写成：

因此，最后目标函数可以写为:

γ＝(γ_start,γ_end,μ_γ)

λ＝(λ_start,λ_end,μ_λ)

其中，p是整数，q是整数，

为了说明本发明所提方法的有效性，本发明给出了实例。示例数据的采集由图1所搭建的***通过网络抓包工具Wireshark获得，主要获取的协议类型和业务类型有HTTP协议、NTP协议、DNS协议、QQ、微信、腾讯视频、E-mail邮件等。另外考虑8种关键特征指标，分别是时间戳、源IP、目的IP、数据包的长度、中间协议、源端口号、目的端口号和是否含有ACK/SYN等字段。

步骤1、通过Wireshark采集部分带有标签的网络流量数据集，并对数据集进行数据清洗和特征提取，去除重复样本以及不完整数据的无效样本。数据集特征的具体表示方式如下所示：

F＝[f₁,f₂,f₃…f_d]

步骤2、为了方便分析，将历史数据进行归一化处理，归一化处理的具体表示方式如下所示：

其中

步骤3、利用主成分分析特征降维的方法将复杂的多维特征简化成低维特征，即将原有的d维数据集转换成k维数据集，从而保留数据集种最重要的一些特征，PCA特征降维的具体方式如下：

(1)将原始数据集组成一个d行n列的矩阵X。

(2)对原始数据集进行去中心化处理，即

其中x_i为一个样本。

(3)求出去中心化后的数据集的协方差矩阵：

(4)求出协方差矩阵的特征值及对应的特征向量。

(5)将求出来的特征向量按照对应特征值的大小从上到下按行排列成一个矩阵，取前k行组成矩阵P。

(6)Y＝PX即为降维到k维后的数据。

最后利用主成分分析算法选出了6种衡量业务类型的最相关的特征指标，如图2所示，利用此算法可以降低之后模型训练的复杂度。

步骤4、将带标签的数据集分为训练集和测试集，输入到极限梯度提升模型(XGBoost)进行训练，并对该分类器进行参数调优，并对参数调优后的模型进行测试，极限梯度提升模型(XGBoost)的目标函数如下：

其中：

然后采用贪心算法寻找最优分割方法。基本思想是从根节点一次拆分一个叶子节点，并根据每个可能的拆分的特定条件选择拆分。XGBoost也有特定的标准来选择最佳分割。将预测值代入损失函数，得到损失函数的最小值。

步骤5、将实际获取到的不带标签的数据集，输入到XGBoost分类模型进行测试，得到业务类型识别结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种基于PCA和XGBoost融合的业务类型识别方法，其特征在于，包括以下步骤：

学习率γ和正则化参数λ进行调优的方法具体如下：

步骤S4.1、极限梯度提升XGBoost分类模型为：

γ＝(γ_start,γ_end,μ_γ)

λ＝(λ_start,λ_end,μ_λ)

其中，p是整数，q是整数，

2.根据权利要求1所述的一种基于PCA和XGBoost融合的业务类型识别方法，其特征在于，步骤S2中的多维特征F，具体表示方式为：

F＝[f₁,f₂,f₃…f_d]

max(f_i)是第i个关键特征指标出现的最大值，

是经过归一化处理后的第i个关键特征指标。

3.根据权利要求1所述的一种基于PCA和XGBoost融合的业务类型识别方法，其特征在于，利用步骤S3中的主成分分析特征降维的方法将多维特征简化成低维特征，假设原始的多维特征为d维，简化后的低维特征为k维，其中k＜d；

步骤S3.3、求出步骤S3.2中矩阵X'的协方差矩阵Cov：

其中，上标T'为转置；

步骤S3.4、求出协方差矩阵的特征值及对应的特征向量；

4.根据权利要求1所述的一种基于PCA和XGBoost融合的业务类型识别方法，其特征在于，通过网络抓包工具Wireshark获取不带标签的实际的数据集输入到经过PCA降维的极限梯度提升模型XGBoost分类模型，得到业务类型分类结果。

5.根据权利要求1所述的一种基于PCA和XGBoost融合的业务类型识别方法，其特征在于，步骤S4中，相关性高的关键性能指标包括源IP、目的IP、源端口号、目的端口号、协议类型和数据长度。