CN111953701B - 基于多维特征融合和堆栈集成学习的异常流量检测方法 - Google Patents
基于多维特征融合和堆栈集成学习的异常流量检测方法 Download PDFInfo
- Publication number
- CN111953701B CN111953701B CN202010835255.5A CN202010835255A CN111953701B CN 111953701 B CN111953701 B CN 111953701B CN 202010835255 A CN202010835255 A CN 202010835255A CN 111953701 B CN111953701 B CN 111953701B
- Authority
- CN
- China
- Prior art keywords
- primary
- learning
- data sets
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于多维特征融合和堆栈集成学习的异常流量检测方法,包括以下步骤:步骤S1:从网络数据流中采集相关维度数据,预处理后构成若干个基础特征数据集;步骤S2:将得到的若干个基础特征数据集进行排列组合,构成若干个综合特征数据集;步骤S3:利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练,生成初级模型;步骤S4:所有初级模型的预测概率输出作为次级学习算法的输入,得到次级检测识别模型;步骤S5:根据初级模型和次级检测识别模型,构建两级堆栈式集成学习模型;步骤S6:进一步得到分类结果。本发明结合多维数据之间的关联关系,通过多个显著特征的粒度融合对网络数据流检测,提高了检测精度。
Description
技术领域
本发明涉及入侵检测和机器学习领域,具体涉及一种基于多维特征融合和堆栈集成学习的异常流量检测方法。
背景技术
如今,网络已成为日常生活中非常重要的一部分,恶意攻击无处不在,并且数量不断增加,因此,设计一种可以有效检测异常流量的方法非常迫切和必要。网络流量包含了大量不同类别信息,当前的异常流量检测方法没有考虑到数据从不同粒度或者不同角度进行表达之后在检测效果上的影响。缺乏多粒度、多角度数据特征的引入,以及不同特征之间相互支持或互补关系。不同的流量特征对检测算法的检测精度具有决定性的影响,如何构建数据特征,是非常重要和复杂的工程。
发明内容
有鉴于此,本发明的目的在于提供一种基于多维特征融合和堆栈集成学习的异常流量检测方法,结合多维数据之间的关联关系,通过基于多个显著特征的粒度融合对网络数据流检测,提高了检测精度。
为实现上述目的,本发明采用如下技术方案:
一种基于多维特征融合和堆栈集成学习的异常流量检测方法,包括以下步骤:
步骤S1:从网络数据流中采集相关维度数据,预处理后构成若干个基础特征数据集;
步骤S2:将得到的若干个基础特征数据集进行排列组合,构成若干个综合特征数据集;
步骤S3:利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练,生成初级模型;
步骤S4:所有初级模型的预测概率输出作为次级学习算法的输入,得到次级检测识别模型;
步骤S5:根据初级模型和次级检测识别模型,构建两级堆栈式集成学习模型;
步骤S6:将待检测数据输入两级堆栈式集成学习模型,得到分类结果。
进一步的,所述相关维度数据包括基本特征、内容特征、时间特征、通用特征和连接特征等。
进一步的,所述步骤S2具体为:
步骤S21:选取n组特征进行融合,1<n<m,m为基础特征集个数;
进一步的,所述步骤S4具体为:
步骤S41:将各个初级训练模型的预测概率
作为次级学习算法的输入;
步骤S42:利用初级模型结果的集成,对差异性分类器的结果D'={ε1,ε2,…,εk-1,εk}进行整合训练,得到次级检测识别模型R。
进一步的,所述两级堆栈式集成学习模型具体为:
一种基于多维特征融合和堆栈集成学习的异常流量检测***,包括依次连接数据采集模块和预处理模块、多维特征融合模块和堆栈集成学习模块。
本发明与现有技术相比具有以下有益效果:
本发明结合多维数据之间的关联关系,通过基于多个显著特征的粒度融合对网络数据流检测,提高了检测精度。
附图说明
图1是本发明一实施例中的方法流程示意图。
图2是本发明一实施例中的数据预处理流程图。
图3是本发明一实施例中的特征分组示意图。
图4是本发明一实施例中的集成学习策略结果分析。
图5是本发明一实施例中的多维特征的排列组合策略对比分析。
图6是本发明一实施例中的三维特征粒度划分示意图。
图7是本发明一实施例中的多维特征粒度划分对比分析。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明提供一种基于多维特征融合和堆栈集成学习的异常流量检测方法,首先对公开UNSW-NB15数据集进行数据标准化和数据集分割;然后从分割重组的五组特征集中取两组进行串联融合,训练出个具有差异性的基分类器;再进行堆栈集成学习,正确地融合多个子模型以得到一个更好的集成模型;最后,采用训练好的异常流量检测模型对实时流量进行异常检测。如图1所示,具体包括以下步骤:
步骤(1):采集网络流量并进行预处理;
本实施例中使用公开UNSW-NB15数据集中的训练数据集,该训练数据集共有45个特征,除去id,以及attack_cat和lable标签类型,原始特征维数为42。然后对其进行数据标准化和数据集分割,如图2所示;
优选的,在本实施例中,数据标准化包括以下步骤:
步骤(1.1)将原始数据中的离散型字符都映射为整数值;
步骤(1.2)把所有数据映射到0-1之间。
优选的,在本实施例中,数据集分割具体为:将原始特征集分为基本特征、内容特征、时间特征、通用特征和连接特征5类相关数据,构成对应的5个基础特征集。图3具体描述了五个特征类别所包含的字段属性。
步骤(2):多维特征融合:
优选的,在本实施例中,取两组特征融合。
步骤(3):堆栈集成学习;
每个初级检测算法LightGBM分别对多维子空间的综合数据集进行训练,然后将初级检测算法的预测概率作为次级检测识别算法RandomForest的输入,训练次级检测识别模型,实现宏观角度的整体检测识别效果。
优选的,在本实施例中,所述堆栈集成学习具体流程为:在多个多维子空间数据集{D1,D2,…D9,D10}上,分别训练和测试相应的LightGBM检测识别算法,得到初级训练模型{L1,L2,…L9,L10};再将各个初级训练模型的预测概率作为检测识别算法RandomForest的输入,利用众多决策树的集成,有效地对差异性分类器的结果D'={ε1,ε2,…,εk-1,εk}进行整合训练,得到次级训练模型R。以此建立一个两级堆栈式集成学习模型H(x1,x2,…,x9,x10)=R(L1(x1),L2(x2),…,L9(x9),L10(x10)),最终得到检测识别结果Z=H(x1,x2,…,x9,x10)。
本实施例中还提供了一种计算机可读存储介质,即堆栈集成训练后保存的融合模型,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的检测方法。
优选的,本实施例进行仿真实验过程中,训练集由70%的样本组成,其余30%用于构建测试集。图4是集成学习策略的实验结果,可以发现堆栈集成学习除了召回率不占优势之外,准确率和误报率都达到最优效果,分别为98.08%和2.10%。图5是多维特征的排列组合策略对比分析,特征组合方式重复率为40%,特征组合方式重复率为60%,特征组合方式重复率为80%,而特征组合方式很明显重复率为100%,从图中可以发现特征组合方式时,各方面评价指标都是最优的,说明重复率越低,差异性越大,则性能越好。而时,虽然特征都不重复,但是单组特征不能很好地反映流量特性,从而导致基本分类器的性能较差。图6是从时间粒度、空间粒度和数据内容三个方面对流量数据进行分析所对应的特征项,图7是两种划分粒度的对比实验,可以发现,特征粒度为更精确的五类划分时,准确率和召回率更高,误报率也更低。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (3)
1.一种基于多维特征融合和堆栈集成学习的异常流量检测方法,其特征在于,包括以下步骤:
步骤S1:从网络数据流中采集相关维度数据,预处理后构成若干个基础特征数据集;
步骤S2:将得到的若干个基础特征数据集进行排列组合,构成若干个综合特征数据集;
步骤S3:利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练,生成初级模型;
步骤S4:所有初级模型的预测概率输出作为次级学习算法的输入,得到次级检测识别模型;
步骤S5:根据初级模型和次级检测识别模型,构建两级堆栈式集成学习模型;
步骤S6:将待检测数据输入两级堆栈式集成学习模型,得到分类结果;
所述步骤S2具体为:
步骤S21:选取n组特征进行融合,1<n<m,m为基础特征集个数;
所述步骤S4具体为:
步骤S41:将各个初级训练模型的预测概率
作为次级学习算法的输入;
步骤S42:利用初级模型结果的集成,对差异性分类器的结果D'={ε1,ε2,…,εk-1,εk}进行整合训练,得到次级检测识别模型R;
所述两级堆栈式集成学习模型具体为:
2.根据权利要求1所述的基于多维特征融合和堆栈集成学习的异常流量检测方法,其特征在于,所述相关维度数据包括基本特征、内容特征、时间特征、通用特征和连接特征。
3.一种实现权利要求1-2任一所述基于多维特征融合和堆栈集成学习的异常流量检测方法的***,其特征在于,包括依次连接数据采集模块和预处理模块、多维特征融合模块和堆栈集成学习模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010835255.5A CN111953701B (zh) | 2020-08-19 | 2020-08-19 | 基于多维特征融合和堆栈集成学习的异常流量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010835255.5A CN111953701B (zh) | 2020-08-19 | 2020-08-19 | 基于多维特征融合和堆栈集成学习的异常流量检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111953701A CN111953701A (zh) | 2020-11-17 |
CN111953701B true CN111953701B (zh) | 2022-10-11 |
Family
ID=73342973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010835255.5A Active CN111953701B (zh) | 2020-08-19 | 2020-08-19 | 基于多维特征融合和堆栈集成学习的异常流量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111953701B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108123931A (zh) * | 2017-11-29 | 2018-06-05 | 浙江工商大学 | 一种软件定义网络中的DDoS攻击防御装置及方法 |
CN108156166A (zh) * | 2017-12-29 | 2018-06-12 | 百度在线网络技术(北京)有限公司 | 异常访问识别和接入控制方法及装置 |
KR102055915B1 (ko) * | 2018-11-14 | 2019-12-13 | 주식회사 케이티 | 오토인코더 기반 코어망 장애 예측 시스템 및 방법 |
CN111428789A (zh) * | 2020-03-25 | 2020-07-17 | 广东技术师范大学 | 一种基于深度学习的网络流量异常检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11537615B2 (en) * | 2017-05-01 | 2022-12-27 | Futurewei Technologies, Inc. | Using machine learning to estimate query resource consumption in MPPDB |
-
2020
- 2020-08-19 CN CN202010835255.5A patent/CN111953701B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108123931A (zh) * | 2017-11-29 | 2018-06-05 | 浙江工商大学 | 一种软件定义网络中的DDoS攻击防御装置及方法 |
CN108156166A (zh) * | 2017-12-29 | 2018-06-12 | 百度在线网络技术(北京)有限公司 | 异常访问识别和接入控制方法及装置 |
KR102055915B1 (ko) * | 2018-11-14 | 2019-12-13 | 주식회사 케이티 | 오토인코더 기반 코어망 장애 예측 시스템 및 방법 |
CN111428789A (zh) * | 2020-03-25 | 2020-07-17 | 广东技术师范大学 | 一种基于深度学习的网络流量异常检测方法 |
Non-Patent Citations (4)
Title |
---|
PCCN: Parallel Cross Convolutional Neural Network for Abnormal Network Traffic Flows Detection in Multi-Class Imbalanced Network Traffic Flows;YONG ZHANG 等;《IEEE Access》;20190805;第7卷;119904 - 119916 * |
一种用于构建用户画像的二级融合算法框架;李恒超 等;《计算机科学》;20180131;第45卷(第1期);157-161 * |
基于深度学习的软件定义网络应用策略冲突检测方法;李传煌 等;《电信科学》;20171130(第11期);27-36 * |
基于贝叶斯网络的海量数据多维分类学习方法研究;陈池梅等;《计算机应用研究》;20160331;第33卷(第03期);689-692 * |
Also Published As
Publication number | Publication date |
---|---|
CN111953701A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109768985B (zh) | 一种基于流量可视化与机器学习算法的入侵检测方法 | |
CN109902740B (zh) | 一种基于多算法融合并行的再学习工业控制入侵检测方法 | |
CN110460605B (zh) | 一种基于自动编码的异常网络流量检测方法 | |
CN111556016B (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
CN104601565A (zh) | 一种智能优化规则的网络入侵检测分类方法 | |
CN114553545A (zh) | 一种入侵流量检测识别方法及*** | |
CN109446804B (zh) | 一种基于多尺度特征连接卷积神经网络的入侵检测方法 | |
CN102291392A (zh) | 一种基于Bagging算法的复合式入侵检测方法 | |
CN110826617A (zh) | 态势要素分类方法及其模型的训练方法、装置及服务器 | |
Zhang et al. | Hierarchical community detection based on partial matrix convergence using random walks | |
CN113887642B (zh) | 一种基于开放世界的网络流量分类方法及*** | |
Rani et al. | Design of an intrusion detection model for IoT-enabled smart home | |
CN115277189A (zh) | 基于生成式对抗网络的无监督式入侵流量检测识别方法 | |
CN114500396A (zh) | 区分匿名Tor应用流量的MFD色谱特征提取方法及*** | |
CN111953701B (zh) | 基于多维特征融合和堆栈集成学习的异常流量检测方法 | |
CN113010705A (zh) | 标签预测方法、装置、设备及存储介质 | |
Zhang et al. | A two-stage intrusion detection method based on light gradient boosting machine and autoencoder | |
CN115879030A (zh) | 一种针对配电网的网络攻击分类方法和*** | |
CN114492569B (zh) | 一种基于宽度学习***的台风路径分类方法 | |
CN113098910B (zh) | 基于时空粒度和三宽度学习的网络入侵检测方法及*** | |
CN114826764A (zh) | 一种基于集成学习的边缘计算网络攻击识别方法及*** | |
CN114358177A (zh) | 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及*** | |
Yang et al. | A High-dimensional Anomaly Detection Algorithm Based on IForest with Autoencoder | |
Luo et al. | Network attack classification and recognition using hmm and improved evidence theory | |
CN114584350B (zh) | 基于流形的网络数据包特征的降维及聚类的攻击识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |