CN114048795A - 一种基于PCA和XGBoost融合的业务类型识别方法 - Google Patents

一种基于PCA和XGBoost融合的业务类型识别方法 Download PDF

Info

Publication number
CN114048795A
CN114048795A CN202111202293.8A CN202111202293A CN114048795A CN 114048795 A CN114048795 A CN 114048795A CN 202111202293 A CN202111202293 A CN 202111202293A CN 114048795 A CN114048795 A CN 114048795A
Authority
CN
China
Prior art keywords
data set
xgboost
dimensional
parameter
network traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111202293.8A
Other languages
English (en)
Inventor
刘旭
胡俊华
朱晓荣
杨龙祥
朱洪波
江婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202111202293.8A priority Critical patent/CN114048795A/zh
Publication of CN114048795A publication Critical patent/CN114048795A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于PCA和XGBoost融合的业务类型识别方法,包括以下步骤:步骤S1、采集带有标签的网络流量数据集,网络流量数据集的业务类型包括HTTP、NTP、DNS、QQ、微信、视频和邮件;步骤S2、对步骤S1中的网络流量数据集进行数据清洗和特征提取,从而得到含有多维特征的网络流量数据集;步骤S3、利用主成分分析特征降维的方法将步骤S2中的多维特征简化成低维特征,得到带标签的低维数据集;步骤S4、得到训练好的极限梯度提升XGBoost分类模型;步骤S5、将待测的网络流量数据集输入到步骤S4中的极限梯度提升XGBoost分类模型,得到业务类型分类结果。本发明不仅可以降低识别方法的复杂度,同时还能够提高对业务类型识别的精度。

Description

一种基于PCA和XGBoost融合的业务类型识别方法
技术领域
本发明涉及通信网络技术领域,特别是一种基于PCA和XGBoost融合的业务类型识别方法。
背景技术
随着信息技术的不断发展,互联网流量规模也在逐年增大,网络新业务层出不穷。虽然这大大促进了我们社会的进步与发展,这些新业务的普及也为电信运营商吸纳了大量的客户资源,但是网络中包含了各种各样的加密流量,对网络的底层流量模型和上层应用模式产生了很大的冲击,而为了提高网络管理、改善网络服务、保障网络环境安全,有效地识别各类应用业务的加密流量,从而构建“可运营、可管理”的网络成了现在一个关键的研究方向。
传统的业务类型识别方法有基于端口的流量识别方法和基于深度包检测(DPI)的流量识别方法。基于端口的流量识别是通过TCP/UDP数据包报头中的已知端口号对网络流量进行分类,最初,这种方法对于实时流量分类非常有效且易于实现,但是,如今各种网络应用程序并未使用众所周知的端口来避免被检测到,而且某些网络应用程序在使用时可能使用动态端口号。因此,现在基于端口的流量分类不能产生真实的结果,分类精度不高。而基于深度包检测(DPI)的流量识别方法,本质上是一种数据报文过滤技术,DPI除了支持L2层数据链路层、L3层网络层、L4层传输层的报文首部解析之外,还增加了对L7层应用层有效载荷的解析,可以识别各种应用类型及其内容。但是由于目前大多数业务使用各种加密技术来禁止对包有效载荷进行检查,因此深度包检测(DPI)的分类精度也不是很高。当前的趋势是使用机器学习的方法来进行IP流量分类。
近年来,基于机器学习的人工智能技术在计算机视觉、自然语言处理、语音识别、图像医疗等方面取得了瞩目的成就,在很多领域的表现都远远优于传统解决方案。这充分彰显了机器学习在处理分类任务时的科学性以及有效性,机器学习和数据挖掘技术也逐渐在网络空间安全领域得到应用与发展,因此机器学习技术也为解决传统方法解决的加密流量分类问题提供了可能性。传统的业务类型识别方法无法识别加密流量且存在识别的准确率较低等问题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于PCA和XGBoost融合的业务类型识别方法,不仅可以降低识别方法的复杂度,同时还能够提高对业务类型识别的精度。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于PCA和XGBoost融合的业务类型识别方法,包括以下步骤:
步骤S1、采集带有标签的网络流量数据集,网络流量数据集的业务类型包括HTTP、NTP、DNS、QQ、微信、视频和邮件;
步骤S2、对步骤S1中的网络流量数据集进行数据清洗和特征提取,从而得到含有多维特征的网络流量数据集;
步骤S3、利用主成分分析特征降维的方法将步骤S2中的多维特征简化成低维特征,得到带标签的低维数据集;
步骤S4、从步骤S3中带标签的低维数据集中选出影响衡量业务类型的相关性高的关键性能指标,该关键性能指标组成带标签的数据集,该数据集分为训练集和测试集,将训练集输入到极限梯度提升XGBoost分类模型进行训练,并采用改进的参数调优的方法对该XGBoost分类模型的学习率γ和正则化参数λ进行调优,得到最适合该网络流量数据集的学习率γ和正则化参数λ,并对参数调优后的XGBoost分类模型进行测试,得到训练好的极限梯度提升XGBoost分类模型;
学习率γ和正则化参数λ进行调优的方法具体如下:
步骤S4.1、极限梯度提升XGBoost分类模型为:
Figure BDA0003305417460000021
其中,T指叶节点的数量,obj指目标函数,Gj指目标函数在第j个叶节点泰勒展开式中的一阶导,Hj指目标函数在第j个叶节点泰勒展开的二阶导;
步骤S4.2、对步骤S4.1中的学习率γ和正则化参数λ进行参数调优:
步骤S4.2.1、设置学习率γ和正则化参数λ的各自的搜索空间Φ及搜索步长μ,设置如下所示:
γ=(γstartendγ)
λ=(λstartendλ)
其中,γstart和γend分别为学习率γ的搜索空间Φγ的上边界和下边界,μγ为学习率γ的搜索步长;λstart和λend分别为正则化参数λ的搜索空间Θλ上边界和下边界,μλ为正则化参数λ的搜索步长;
步骤S4.2.2、根据设置的搜索空间和搜索步长,生成二维搜索参数组矩阵HS,定义如下:
Figure BDA0003305417460000031
其中,p是整数,q是整数,
Figure BDA0003305417460000032
步骤S4.2.3、针对步骤S4.2.2中的HS中每个参数组,评估XGBoost分类模型在每个参数组的平均分类精度,选出评估出的平均分类精度最高的参数组,若平均分类精度最高的参数组为1个则该参数组为选取的参数组,若评估平均分类精度最高的参数组有多个,则选取这多个参数组中λstart+qμλ最小的一个参数组;
步骤S4.2.4、步骤S4.2.3选取的参数组中的λstart+qμλ、γstart+pμγ即为XGBoost分类模型对应步骤S3中带标签的低维数据集的最优的学习率γ和正则化参数λ;
步骤S5、将待测的网络流量数据集输入到步骤S4中的极限梯度提升XGBoost分类模型,得到业务类型分类结果。
作为本发明所述的一种基于PCA和XGBoost融合的业务类型识别方法进一步优化方案,步骤S2中的多维特征F,具体表示方式为:
F=[f1,f2,f3…fd]
F含有d个特征的向量,fi表示第i个关键特征指标,d≥i≥1,对fi的最大值分别进行归一化处理,处理的具体方式为:
Figure BDA0003305417460000033
max(fi)是第i个关键特征指标出现的最大值,
Figure BDA0003305417460000034
是经过归一化处理后的第i个关键特征指标。
作为本发明所述的一种基于PCA和XGBoost融合的业务类型识别方法进一步优化方案,利用步骤S3中的主成分分析特征降维的方法将多维特征简化成低维特征,假设原始的多维特征为d维,简化后的低维特征为k维,其中k<d;
步骤S3.1、将步骤S2中的含有多维特征的网络流量数据集组成一个d行n列的矩阵X,其中含有多维特征的网络流量数据集有n个样本,每个样本有d维特征;
步骤S3.2、对步骤S2中的d行n列的矩阵X进行去中心化处理,得到去中心化后的矩阵X';
步骤S3.3、求出步骤S3.2中矩阵X'的协方差矩阵Cov:
Figure BDA0003305417460000041
其中,上标T'为转置;
步骤S3.4、求出协方差矩阵的特征值及对应的特征向量;
步骤S3.5、将求出来的特征向量按照对应特征值的大小从上到下按行排列成一个矩阵,取前k行组成矩阵P;
步骤S3.6、Y=PX,Y为经过主成分分析特征降维的方法降维到k维后的低维特征。
作为本发明所述的一种基于PCA和XGBoost融合的业务类型识别方法进一步优化方案,通过网络抓包工具Wireshark获取不带标签的实际的数据集输入到经过PCA降维的极限梯度提升模型XGBoost分类模型,得到业务类型分类结果。
作为本发明所述的一种基于PCA和XGBoost融合的业务类型识别方法进一步优化方案,步骤S4中,相关性高的关键性能指标包括源IP、目的IP、源端口号、目的端口号、协议类型和数据长度。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明方法解决了传统的业务类型识别方法无法识别加密流量且识别的准确率较低等问题;利用主成分分析和XGBoost算法对测试集的准确性和算法的复杂度进行了平衡,从而可以实现高效并且可靠的业务类型识别。
附图说明
图1是本发明提供的基于PCA和XGBoost的业务类型识别***流程图。
图2是利用主成分分析(PCA)算法特征降维的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本发明提出将特征降维和深度学习的思维应用到业务类型识别场景中,首先通过wireshark网络抓包工具获取到网络流量大数据,提出了一种基于PCA和XGBoost融合的业务类型识别方法。利用特征降维的思想,基于主成分分析(PCA)算法将复杂的多维特征简化成低维特征,降低了模型训练的复杂度,然后利用极限梯度提升模型(XGBoost)对大量可靠的带有标签的数据集进行训练,最后对实际获取的数据流量进行业务类型识别。该方法融合了PCA和XGBoost,在降低算法复杂度的同时,还能够提高对业务类型识别。
基于业务类型识别应用场景,本发明提出了一种基于PCA和XGBoost融合的业务类型识别方法,如图1所示,所述方法包括以下步骤:
步骤S1、通过Wireshark采集部分带有标签的网络流量数据集,包括HTTP、NTP、DNS、QQ、微信、视频、邮件等业务类型的数据集,数据集特征的具体表示方式如下:
F=[f1,f2,f3…fd]
F是含有d个特征的向量,fi表示第i个关键特征指标。
步骤S2、将步骤1中采集到的带有标签的数据集进行数据清洗和特征提取,去除重复样本以及不完整数据的无效样本并基于每个关键特征的最大值分别进行归一化处理。具体处理方式如下:
Figure BDA0003305417460000051
其中
Figure BDA0003305417460000052
指经过了归一化后的第i个关键特征指标。max(fi)指第i个关键特征指标出现的最大值。
步骤S3、在进行分类模型训练之前,为保证分类模型准确率的同时,降低数据维度的复杂度,利用主成分分析特征降维的方法将步骤2中复杂的多维特征简化成低维特征,即将原有的d维数据集转换成k维数据集,其中k<d。从而保留数据最重要的一些特征,主成分分析数据降维的具体处理方式如下:
步骤S3.1、将步骤S2中的含有多维特征的网络流量数据集组成一个d行n列的矩阵X,其中含有多维特征的网络流量数据集有n个样本,每个样本有d维特征;
步骤S3.2、对步骤S2中的d行n列的矩阵X进行去中心化处理,得到去中心化后的矩阵X';
步骤S3.3、求出步骤S3.2中矩阵X'的协方差矩阵Cov:
Figure BDA0003305417460000061
其中,上标T'为转置;
步骤S3.4、求出协方差矩阵的特征值及对应的特征向量;
步骤S3.5、将求出来的特征向量按照对应特征值的大小从上到下按行排列成一个矩阵,取前k行组成矩阵P;
步骤S4、从步骤S3中带标签的低维数据集选出影响衡量业务类型的相关性高的关键性能指标,该关键性能指标组成带标签的数据集,该数据集分为训练集和测试集,训练集输入到极限梯度提升模型(XGBoost)进行训练,并对该分类器进行参数调优,并对参数调优后的模型进行测试,极限梯度提升模型(XGBoost)的具体表现形式如下:
步骤S4.1、定义目标函数:
Figure BDA0003305417460000062
其中
Figure BDA0003305417460000063
为损失函数,用来度量预测值
Figure BDA0003305417460000064
和目标值yi之间的差异,在此发明中就是指预测的业务类型标签与真实的业务类型标签之间的差异。
Figure BDA0003305417460000065
为正则化项,定义为:
Figure BDA0003305417460000066
其中T指叶节点的数量,λ为正则化参数,γ为学习率,wj表示第j个叶节点的预测值。由于XGBoost是前向分布算法,所以第t次结果就是前t-1次结果加上当前弱分类器的结果。因此每一次迭代寻找使损失函数降低最大的CART树,因此目标函数可以改写为:
Figure BDA0003305417460000071
const是指在第t轮时,前t-1次迭代正则项可以看作是常数。经过泰勒展开对目标函数进行近似,得到:
Figure BDA0003305417460000072
其中,
Figure BDA0003305417460000073
移除对第t轮迭代来说的常数项
Figure BDA0003305417460000074
得到目标函数:
Figure BDA0003305417460000075
所以目标函数只依赖于每条数据在误差函数上的一阶导数和二阶导数。对正则化项进行处理后,最后目标函数可以改写为:
Figure BDA0003305417460000076
其中:
Figure BDA0003305417460000077
Figure BDA0003305417460000078
Ij定义为样本的索引集,其值与叶节点j相关联。
假设决策树的结构已经确定,每个叶节点上的预测值可以通过使损失函数的导数为零得到,可以写成:
Figure BDA0003305417460000079
因此,最后目标函数可以写为:
Figure BDA0003305417460000081
其中,T指叶节点的数量,obj指目标函数,Gj指目标函数在第j个叶节点泰勒展开式中的一阶导,Hj指目标函数在第j个叶节点泰勒展开的二阶导;
步骤S4.2、对步骤S4.1中的学习率γ和正则化参数λ进行参数调优:
步骤S4.2.1、设置学习率γ和正则化参数λ的各自的搜索空间Φ及搜索步长μ,设置如下所示:
γ=(γstartendγ)
λ=(λstartendλ)
其中,γstart和γend分别为学习率γ的搜索空间Φγ的上边界和下边界,μγ为学习率γ的搜索步长;λstart和λend分别为正则化参数λ的搜索空间Θλ上边界和下边界,μλ为正则化参数λ的搜索步长;
步骤S4.2.2、根据设置的搜索空间和搜索步长,生成二维搜索参数组矩阵HS,定义如下:
Figure BDA0003305417460000082
其中,p是整数,q是整数,
Figure BDA0003305417460000083
步骤S4.2.3、针对步骤S4.2.2中的HS中每个参数组,评估XGBoost分类模型在每个参数组的平均分类精度,选出评估出的平均分类精度最高的参数组,若平均分类精度最高的参数组为1个则该参数组为选取的参数组,若评估平均分类精度最高的参数组有多个,则选取这多个参数组中λstart+qμλ最小的一个参数组;
步骤S4.2.4、步骤S4.2.3选取的参数组中的λstart+qμλ、γstart+pμγ即为XGBoost分类模型对应步骤S3中带标签的低维数据集的最优的学习率γ和正则化参数λ;
步骤S5、将待测的网络流量数据集输入到步骤S4中的极限梯度提升XGBoost分类模型,得到业务类型分类结果。
为了说明本发明所提方法的有效性,本发明给出了实例。示例数据的采集由图1所搭建的***通过网络抓包工具Wireshark获得,主要获取的协议类型和业务类型有HTTP协议、NTP协议、DNS协议、QQ、微信、腾讯视频、E-mail邮件等。另外考虑8种关键特征指标,分别是时间戳、源IP、目的IP、数据包的长度、中间协议、源端口号、目的端口号和是否含有ACK/SYN等字段。
步骤1、通过Wireshark采集部分带有标签的网络流量数据集,并对数据集进行数据清洗和特征提取,去除重复样本以及不完整数据的无效样本。数据集特征的具体表示方式如下所示:
F=[f1,f2,f3…fd]
步骤2、为了方便分析,将历史数据进行归一化处理,归一化处理的具体表示方式如下所示:
Figure BDA0003305417460000091
其中
Figure BDA0003305417460000092
指经过了归一化后的第i个关键特征指标。max(fi)指第i个关键特征指标出现的最大值。
步骤3、利用主成分分析特征降维的方法将复杂的多维特征简化成低维特征,即将原有的d维数据集转换成k维数据集,从而保留数据集种最重要的一些特征,PCA特征降维的具体方式如下:
(1)将原始数据集组成一个d行n列的矩阵X。
(2)对原始数据集进行去中心化处理,即
Figure BDA0003305417460000093
其中xi为一个样本。
(3)求出去中心化后的数据集的协方差矩阵:
Figure BDA0003305417460000094
(4)求出协方差矩阵的特征值及对应的特征向量。
(5)将求出来的特征向量按照对应特征值的大小从上到下按行排列成一个矩阵,取前k行组成矩阵P。
(6)Y=PX即为降维到k维后的数据。
最后利用主成分分析算法选出了6种衡量业务类型的最相关的特征指标,如图2所示,利用此算法可以降低之后模型训练的复杂度。
步骤4、将带标签的数据集分为训练集和测试集,输入到极限梯度提升模型(XGBoost)进行训练,并对该分类器进行参数调优,并对参数调优后的模型进行测试,极限梯度提升模型(XGBoost)的目标函数如下:
Figure BDA0003305417460000101
其中:
Figure BDA0003305417460000102
Figure BDA0003305417460000103
然后采用贪心算法寻找最优分割方法。基本思想是从根节点一次拆分一个叶子节点,并根据每个可能的拆分的特定条件选择拆分。XGBoost也有特定的标准来选择最佳分割。将预测值代入损失函数,得到损失函数的最小值。
Figure BDA0003305417460000104
步骤5、将实际获取到的不带标签的数据集,输入到XGBoost分类模型进行测试,得到业务类型识别结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (5)

1.一种基于PCA和XGBoost融合的业务类型识别方法,其特征在于,包括以下步骤:
步骤S1、采集带有标签的网络流量数据集,网络流量数据集的业务类型包括HTTP、NTP、DNS、QQ、微信、视频和邮件;
步骤S2、对步骤S1中的网络流量数据集进行数据清洗和特征提取,从而得到含有多维特征的网络流量数据集;
步骤S3、利用主成分分析特征降维的方法将步骤S2中的多维特征简化成低维特征,得到带标签的低维数据集;
步骤S4、从步骤S3中带标签的低维数据集中选出影响衡量业务类型的相关性高的关键性能指标,该关键性能指标组成带标签的数据集,该数据集分为训练集和测试集,将训练集输入到极限梯度提升XGBoost分类模型进行训练,并采用改进的参数调优的方法对该XGBoost分类模型的学习率γ和正则化参数λ进行调优,得到最适合该网络流量数据集的学习率γ和正则化参数λ,并对参数调优后的XGBoost分类模型进行测试,得到训练好的极限梯度提升XGBoost分类模型;
学习率γ和正则化参数λ进行调优的方法具体如下:
步骤S4.1、极限梯度提升XGBoost分类模型为:
Figure FDA0003305417450000011
其中,T指叶节点的数量,obj指目标函数,Gj指目标函数在第j个叶节点泰勒展开式中的一阶导,Hj指目标函数在第j个叶节点泰勒展开的二阶导;
步骤S4.2、对步骤S4.1中的学习率γ和正则化参数λ进行参数调优:
步骤S4.2.1、设置学习率γ和正则化参数λ的各自的搜索空间Φ及搜索步长μ,设置如下所示:
γ=(γstartendγ)
λ=(λstartendλ)
其中,γstart和γend分别为学习率γ的搜索空间Φγ的上边界和下边界,μγ为学习率γ的搜索步长;λstart和λend分别为正则化参数λ的搜索空间Θλ上边界和下边界,μλ为正则化参数λ的搜索步长;
步骤S4.2.2、根据设置的搜索空间和搜索步长,生成二维搜索参数组矩阵HS,定义如下:
Figure FDA0003305417450000021
其中,p是整数,q是整数,
Figure FDA0003305417450000022
步骤S4.2.3、针对步骤S4.2.2中的HS中每个参数组,评估XGBoost分类模型在每个参数组的平均分类精度,选出评估出的平均分类精度最高的参数组,若平均分类精度最高的参数组为1个则该参数组为选取的参数组,若评估平均分类精度最高的参数组有多个,则选取这多个参数组中λstart+qμλ最小的一个参数组;
步骤S4.2.4、步骤S4.2.3选取的参数组中的λstart+qμλ、γstart+pμγ即为XGBoost分类模型对应步骤S3中带标签的低维数据集的最优的学习率γ和正则化参数λ;
步骤S5、将待测的网络流量数据集输入到步骤S4中的极限梯度提升XGBoost分类模型,得到业务类型分类结果。
2.根据权利要求1所述的一种基于PCA和XGBoost融合的业务类型识别方法,其特征在于,步骤S2中的多维特征F,具体表示方式为:
F=[f1,f2,f3…fd]
F含有d个特征的向量,fi表示第i个关键特征指标,d≥i≥1,对fi的最大值分别进行归一化处理,处理的具体方式为:
Figure FDA0003305417450000023
max(fi)是第i个关键特征指标出现的最大值,
Figure FDA0003305417450000024
是经过归一化处理后的第i个关键特征指标。
3.根据权利要求1所述的一种基于PCA和XGBoost融合的业务类型识别方法,其特征在于,利用步骤S3中的主成分分析特征降维的方法将多维特征简化成低维特征,假设原始的多维特征为d维,简化后的低维特征为k维,其中k<d;
步骤S3.1、将步骤S2中的含有多维特征的网络流量数据集组成一个d行n列的矩阵X,其中含有多维特征的网络流量数据集有n个样本,每个样本有d维特征;
步骤S3.2、对步骤S2中的d行n列的矩阵X进行去中心化处理,得到去中心化后的矩阵X';
步骤S3.3、求出步骤S3.2中矩阵X'的协方差矩阵Cov:
Figure FDA0003305417450000031
其中,上标T'为转置;
步骤S3.4、求出协方差矩阵的特征值及对应的特征向量;
步骤S3.5、将求出来的特征向量按照对应特征值的大小从上到下按行排列成一个矩阵,取前k行组成矩阵P;
步骤S3.6、Y=PX,Y为经过主成分分析特征降维的方法降维到k维后的低维特征。
4.根据权利要求1所述的一种基于PCA和XGBoost融合的业务类型识别方法,其特征在于,通过网络抓包工具Wireshark获取不带标签的实际的数据集输入到经过PCA降维的极限梯度提升模型XGBoost分类模型,得到业务类型分类结果。
5.根据权利要求1所述的一种基于PCA和XGBoost融合的业务类型识别方法,其特征在于,步骤S4中,相关性高的关键性能指标包括源IP、目的IP、源端口号、目的端口号、协议类型和数据长度。
CN202111202293.8A 2021-10-15 2021-10-15 一种基于PCA和XGBoost融合的业务类型识别方法 Pending CN114048795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111202293.8A CN114048795A (zh) 2021-10-15 2021-10-15 一种基于PCA和XGBoost融合的业务类型识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111202293.8A CN114048795A (zh) 2021-10-15 2021-10-15 一种基于PCA和XGBoost融合的业务类型识别方法

Publications (1)

Publication Number Publication Date
CN114048795A true CN114048795A (zh) 2022-02-15

Family

ID=80205105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111202293.8A Pending CN114048795A (zh) 2021-10-15 2021-10-15 一种基于PCA和XGBoost融合的业务类型识别方法

Country Status (1)

Country Link
CN (1) CN114048795A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978585A (zh) * 2022-04-12 2022-08-30 国家计算机网络与信息安全管理中心 基于流量特征的深度学习对称加密协议识别方法
CN115277585A (zh) * 2022-07-08 2022-11-01 南京邮电大学 一种基于机器学习的多粒度业务流量识别方法
CN116975401A (zh) * 2023-09-19 2023-10-31 杭州美创科技股份有限公司 数据库字段识别方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978585A (zh) * 2022-04-12 2022-08-30 国家计算机网络与信息安全管理中心 基于流量特征的深度学习对称加密协议识别方法
CN114978585B (zh) * 2022-04-12 2024-02-27 国家计算机网络与信息安全管理中心 基于流量特征的深度学习对称加密协议识别方法
CN115277585A (zh) * 2022-07-08 2022-11-01 南京邮电大学 一种基于机器学习的多粒度业务流量识别方法
CN115277585B (zh) * 2022-07-08 2023-07-28 南京邮电大学 一种基于机器学习的多粒度业务流量识别方法
CN116975401A (zh) * 2023-09-19 2023-10-31 杭州美创科技股份有限公司 数据库字段识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN112163594B (zh) 一种网络加密流量识别方法及装置
CN114048795A (zh) 一种基于PCA和XGBoost融合的业务类型识别方法
CN110311829B (zh) 一种基于机器学习加速的网络流量分类方法
CN110796196B (zh) 一种基于深度判别特征的网络流量分类***及方法
CN112671757B (zh) 一种基于自动机器学习的加密流量协议识别方法及装置
CN113037730A (zh) 基于多特征学习的网络加密流量分类方法及***
CN114172688B (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN110751222A (zh) 基于cnn和lstm的在线加密流量分类方法
CN112564974A (zh) 一种基于深度学习的物联网设备指纹识别方法
CN114615093A (zh) 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN109033833B (zh) 一种基于多特征与特征选择的恶意代码分类方法
CN113364787B (zh) 一种基于并联神经网络的僵尸网络流量检测方法
CN116260642A (zh) 一种基于知识蒸馏时空神经网络的轻量化物联网恶意流量识别方法
CN112383488B (zh) 一种适用于加密与非加密数据流的内容识别方法
CN116260736A (zh) 一种基于深度学习的去中心化应用流量识别方法和***
CN114979017B (zh) 基于工控***原始流量的深度学习协议识别方法及***
Wu et al. Identifying potential standard essential patents based on text mining and generative topographic mapping
CN115225310B (zh) 基于优化元学习的轻量恶意软件流量检测方法及装置
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法
CN114024748B (zh) 一种结合活跃节点库和机器学习的高效以太坊流量识别方法
CN112367325B (zh) 基于闭合频繁项挖掘的未知协议报文聚类方法和***
CN116094971A (zh) 一种工控协议识别方法、装置、电子设备及存储介质
Yang et al. Deep learning-based reverse method of binary protocol
CN114553790A (zh) 一种基于多模态特征的小样本学习物联网流量分类方法及***
CN114124565A (zh) 一种基于图嵌入的网络入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination