CN111953701B - 基于多维特征融合和堆栈集成学习的异常流量检测方法 - Google Patents

基于多维特征融合和堆栈集成学习的异常流量检测方法 Download PDF

Info

Publication number
CN111953701B
CN111953701B CN202010835255.5A CN202010835255A CN111953701B CN 111953701 B CN111953701 B CN 111953701B CN 202010835255 A CN202010835255 A CN 202010835255A CN 111953701 B CN111953701 B CN 111953701B
Authority
CN
China
Prior art keywords
primary
learning
data sets
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010835255.5A
Other languages
English (en)
Other versions
CN111953701A (zh
Inventor
张�浩
李杰铃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010835255.5A priority Critical patent/CN111953701B/zh
Publication of CN111953701A publication Critical patent/CN111953701A/zh
Application granted granted Critical
Publication of CN111953701B publication Critical patent/CN111953701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多维特征融合和堆栈集成学习的异常流量检测方法,包括以下步骤:步骤S1:从网络数据流中采集相关维度数据,预处理后构成若干个基础特征数据集;步骤S2:将得到的若干个基础特征数据集进行排列组合,构成若干个综合特征数据集;步骤S3:利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练,生成初级模型;步骤S4:所有初级模型的预测概率输出作为次级学习算法的输入,得到次级检测识别模型;步骤S5:根据初级模型和次级检测识别模型,构建两级堆栈式集成学习模型;步骤S6:进一步得到分类结果。本发明结合多维数据之间的关联关系,通过多个显著特征的粒度融合对网络数据流检测,提高了检测精度。

Description

基于多维特征融合和堆栈集成学习的异常流量检测方法
技术领域
本发明涉及入侵检测和机器学习领域,具体涉及一种基于多维特征融合和堆栈集成学习的异常流量检测方法。
背景技术
如今,网络已成为日常生活中非常重要的一部分,恶意攻击无处不在,并且数量不断增加,因此,设计一种可以有效检测异常流量的方法非常迫切和必要。网络流量包含了大量不同类别信息,当前的异常流量检测方法没有考虑到数据从不同粒度或者不同角度进行表达之后在检测效果上的影响。缺乏多粒度、多角度数据特征的引入,以及不同特征之间相互支持或互补关系。不同的流量特征对检测算法的检测精度具有决定性的影响,如何构建数据特征,是非常重要和复杂的工程。
发明内容
有鉴于此,本发明的目的在于提供一种基于多维特征融合和堆栈集成学习的异常流量检测方法,结合多维数据之间的关联关系,通过基于多个显著特征的粒度融合对网络数据流检测,提高了检测精度。
为实现上述目的,本发明采用如下技术方案:
一种基于多维特征融合和堆栈集成学习的异常流量检测方法,包括以下步骤:
步骤S1:从网络数据流中采集相关维度数据,预处理后构成若干个基础特征数据集;
步骤S2:将得到的若干个基础特征数据集进行排列组合,构成若干个综合特征数据集;
步骤S3:利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练,生成初级模型;
步骤S4:所有初级模型的预测概率输出作为次级学习算法的输入,得到次级检测识别模型;
步骤S5:根据初级模型和次级检测识别模型,构建两级堆栈式集成学习模型;
步骤S6:将待检测数据输入两级堆栈式集成学习模型,得到分类结果。
进一步的,所述相关维度数据包括基本特征、内容特征、时间特征、通用特征和连接特征等。
进一步的,所述步骤S2具体为:
步骤S21:选取n组特征进行融合,1<n<m,m为基础特征集个数;
步骤S22:采用
Figure BDA0002639449080000021
特征组合方式对基础特征数据集进行排列组合,构成若干个综合特征数据集。
进一步的,在若干多维子空间数据集
Figure BDA0002639449080000022
上,分别训练和测试相应的初级学习算法,得到初级训练模型
Figure BDA0002639449080000023
进一步的,所述步骤S4具体为:
步骤S41:将各个初级训练模型的预测概率
Figure BDA0002639449080000031
作为次级学习算法的输入;
步骤S42:利用初级模型结果的集成,对差异性分类器的结果D'={ε12,…,εk-1k}进行整合训练,得到次级检测识别模型R。
进一步的,所述两级堆栈式集成学习模型具体为:
Figure BDA0002639449080000032
一种基于多维特征融合和堆栈集成学习的异常流量检测***,包括依次连接数据采集模块和预处理模块、多维特征融合模块和堆栈集成学习模块。
本发明与现有技术相比具有以下有益效果:
本发明结合多维数据之间的关联关系,通过基于多个显著特征的粒度融合对网络数据流检测,提高了检测精度。
附图说明
图1是本发明一实施例中的方法流程示意图。
图2是本发明一实施例中的数据预处理流程图。
图3是本发明一实施例中的特征分组示意图。
图4是本发明一实施例中的集成学习策略结果分析。
图5是本发明一实施例中的多维特征的排列组合策略对比分析。
图6是本发明一实施例中的三维特征粒度划分示意图。
图7是本发明一实施例中的多维特征粒度划分对比分析。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明提供一种基于多维特征融合和堆栈集成学习的异常流量检测方法,首先对公开UNSW-NB15数据集进行数据标准化和数据集分割;然后从分割重组的五组特征集中取两组进行串联融合,训练出
Figure BDA0002639449080000041
个具有差异性的基分类器;再进行堆栈集成学习,正确地融合多个子模型以得到一个更好的集成模型;最后,采用训练好的异常流量检测模型对实时流量进行异常检测。如图1所示,具体包括以下步骤:
步骤(1):采集网络流量并进行预处理;
本实施例中使用公开UNSW-NB15数据集中的训练数据集,该训练数据集共有45个特征,除去id,以及attack_cat和lable标签类型,原始特征维数为42。然后对其进行数据标准化和数据集分割,如图2所示;
优选的,在本实施例中,数据标准化包括以下步骤:
步骤(1.1)将原始数据中的离散型字符都映射为整数值;
步骤(1.2)把所有数据映射到0-1之间。
优选的,在本实施例中,数据集分割具体为:将原始特征集分为基本特征、内容特征、时间特征、通用特征和连接特征5类相关数据,构成对应的5个基础特征集。图3具体描述了五个特征类别所包含的字段属性。
步骤(2):多维特征融合:
从步骤(1)分割重组的五组特征集中任取两组进行特征串联融合,训练出
Figure BDA0002639449080000051
个具有差异性的综合特征数据集;
优选的,在本实施例中,取两组特征融合。
步骤(3):堆栈集成学习;
每个初级检测算法LightGBM分别对多维子空间的综合数据集进行训练,然后将初级检测算法的预测概率作为次级检测识别算法RandomForest的输入,训练次级检测识别模型,实现宏观角度的整体检测识别效果。
优选的,在本实施例中,所述堆栈集成学习具体流程为:在多个多维子空间数据集{D1,D2,…D9,D10}上,分别训练和测试相应的LightGBM检测识别算法,得到初级训练模型{L1,L2,…L9,L10};再将各个初级训练模型的预测概率
Figure BDA0002639449080000052
作为检测识别算法RandomForest的输入,利用众多决策树的集成,有效地对差异性分类器的结果D'={ε12,…,εk-1k}进行整合训练,得到次级训练模型R。以此建立一个两级堆栈式集成学习模型H(x1,x2,…,x9,x10)=R(L1(x1),L2(x2),…,L9(x9),L10(x10)),最终得到检测识别结果Z=H(x1,x2,…,x9,x10)。
本实施例中还提供了一种计算机可读存储介质,即堆栈集成训练后保存的融合模型,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的检测方法。
优选的,本实施例进行仿真实验过程中,训练集由70%的样本组成,其余30%用于构建测试集。图4是集成学习策略的实验结果,可以发现堆栈集成学习除了召回率不占优势之外,准确率和误报率都达到最优效果,分别为98.08%和2.10%。图5是多维特征的排列组合策略对比分析,
Figure BDA0002639449080000061
特征组合方式重复率为40%,
Figure BDA0002639449080000062
特征组合方式重复率为60%,
Figure BDA0002639449080000063
特征组合方式重复率为80%,而
Figure BDA0002639449080000064
特征组合方式很明显重复率为100%,从图中可以发现
Figure BDA0002639449080000065
特征组合方式时,各方面评价指标都是最优的,说明重复率越低,差异性越大,则性能越好。而
Figure BDA0002639449080000066
时,虽然特征都不重复,但是单组特征不能很好地反映流量特性,从而导致基本分类器的性能较差。图6是从时间粒度、空间粒度和数据内容三个方面对流量数据进行分析所对应的特征项,图7是两种划分粒度的对比实验,可以发现,特征粒度为更精确的五类划分时,准确率和召回率更高,误报率也更低。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (3)

1.一种基于多维特征融合和堆栈集成学习的异常流量检测方法,其特征在于,包括以下步骤:
步骤S1:从网络数据流中采集相关维度数据,预处理后构成若干个基础特征数据集;
步骤S2:将得到的若干个基础特征数据集进行排列组合,构成若干个综合特征数据集;
步骤S3:利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练,生成初级模型;
步骤S4:所有初级模型的预测概率输出作为次级学习算法的输入,得到次级检测识别模型;
步骤S5:根据初级模型和次级检测识别模型,构建两级堆栈式集成学习模型;
步骤S6:将待检测数据输入两级堆栈式集成学习模型,得到分类结果;
所述步骤S2具体为:
步骤S21:选取n组特征进行融合,1<n<m,m为基础特征集个数;
步骤S22:采用
Figure FDA0003784049180000011
特征组合方式对基础特征数据集进行排列组合,构成若干个综合特征数据集;
所述步骤S3具体为:在若干多维子空间数据集
Figure FDA0003784049180000021
上,分别训练和测试相应的初级学习算法,得到初级训练模型
Figure FDA0003784049180000022
所述步骤S4具体为:
步骤S41:将各个初级训练模型的预测概率
Figure FDA0003784049180000023
作为次级学习算法的输入;
步骤S42:利用初级模型结果的集成,对差异性分类器的结果D'={ε12,…,εk-1k}进行整合训练,得到次级检测识别模型R;
所述两级堆栈式集成学习模型具体为:
Figure FDA0003784049180000024
2.根据权利要求1所述的基于多维特征融合和堆栈集成学习的异常流量检测方法,其特征在于,所述相关维度数据包括基本特征、内容特征、时间特征、通用特征和连接特征。
3.一种实现权利要求1-2任一所述基于多维特征融合和堆栈集成学习的异常流量检测方法的***,其特征在于,包括依次连接数据采集模块和预处理模块、多维特征融合模块和堆栈集成学习模块。
CN202010835255.5A 2020-08-19 2020-08-19 基于多维特征融合和堆栈集成学习的异常流量检测方法 Active CN111953701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010835255.5A CN111953701B (zh) 2020-08-19 2020-08-19 基于多维特征融合和堆栈集成学习的异常流量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010835255.5A CN111953701B (zh) 2020-08-19 2020-08-19 基于多维特征融合和堆栈集成学习的异常流量检测方法

Publications (2)

Publication Number Publication Date
CN111953701A CN111953701A (zh) 2020-11-17
CN111953701B true CN111953701B (zh) 2022-10-11

Family

ID=73342973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010835255.5A Active CN111953701B (zh) 2020-08-19 2020-08-19 基于多维特征融合和堆栈集成学习的异常流量检测方法

Country Status (1)

Country Link
CN (1) CN111953701B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108123931A (zh) * 2017-11-29 2018-06-05 浙江工商大学 一种软件定义网络中的DDoS攻击防御装置及方法
CN108156166A (zh) * 2017-12-29 2018-06-12 百度在线网络技术(北京)有限公司 异常访问识别和接入控制方法及装置
KR102055915B1 (ko) * 2018-11-14 2019-12-13 주식회사 케이티 오토인코더 기반 코어망 장애 예측 시스템 및 방법
CN111428789A (zh) * 2020-03-25 2020-07-17 广东技术师范大学 一种基于深度学习的网络流量异常检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537615B2 (en) * 2017-05-01 2022-12-27 Futurewei Technologies, Inc. Using machine learning to estimate query resource consumption in MPPDB

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108123931A (zh) * 2017-11-29 2018-06-05 浙江工商大学 一种软件定义网络中的DDoS攻击防御装置及方法
CN108156166A (zh) * 2017-12-29 2018-06-12 百度在线网络技术(北京)有限公司 异常访问识别和接入控制方法及装置
KR102055915B1 (ko) * 2018-11-14 2019-12-13 주식회사 케이티 오토인코더 기반 코어망 장애 예측 시스템 및 방법
CN111428789A (zh) * 2020-03-25 2020-07-17 广东技术师范大学 一种基于深度学习的网络流量异常检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PCCN: Parallel Cross Convolutional Neural Network for Abnormal Network Traffic Flows Detection in Multi-Class Imbalanced Network Traffic Flows;YONG ZHANG 等;《IEEE Access》;20190805;第7卷;119904 - 119916 *
一种用于构建用户画像的二级融合算法框架;李恒超 等;《计算机科学》;20180131;第45卷(第1期);157-161 *
基于深度学习的软件定义网络应用策略冲突检测方法;李传煌 等;《电信科学》;20171130(第11期);27-36 *
基于贝叶斯网络的海量数据多维分类学习方法研究;陈池梅等;《计算机应用研究》;20160331;第33卷(第03期);689-692 *

Also Published As

Publication number Publication date
CN111953701A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN109902740B (zh) 一种基于多算法融合并行的再学习工业控制入侵检测方法
CN110460605B (zh) 一种基于自动编码的异常网络流量检测方法
CN111556016B (zh) 一种基于自动编码器的网络流量异常行为识别方法
CN104601565A (zh) 一种智能优化规则的网络入侵检测分类方法
CN114553545A (zh) 一种入侵流量检测识别方法及***
CN109446804B (zh) 一种基于多尺度特征连接卷积神经网络的入侵检测方法
CN102291392A (zh) 一种基于Bagging算法的复合式入侵检测方法
CN110826617A (zh) 态势要素分类方法及其模型的训练方法、装置及服务器
Zhang et al. Hierarchical community detection based on partial matrix convergence using random walks
CN113887642B (zh) 一种基于开放世界的网络流量分类方法及***
Rani et al. Design of an intrusion detection model for IoT-enabled smart home
CN115277189A (zh) 基于生成式对抗网络的无监督式入侵流量检测识别方法
CN114500396A (zh) 区分匿名Tor应用流量的MFD色谱特征提取方法及***
CN111953701B (zh) 基于多维特征融合和堆栈集成学习的异常流量检测方法
CN113010705A (zh) 标签预测方法、装置、设备及存储介质
Zhang et al. A two-stage intrusion detection method based on light gradient boosting machine and autoencoder
CN115879030A (zh) 一种针对配电网的网络攻击分类方法和***
CN114492569B (zh) 一种基于宽度学习***的台风路径分类方法
CN113098910B (zh) 基于时空粒度和三宽度学习的网络入侵检测方法及***
CN114826764A (zh) 一种基于集成学习的边缘计算网络攻击识别方法及***
CN114358177A (zh) 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及***
Yang et al. A High-dimensional Anomaly Detection Algorithm Based on IForest with Autoencoder
Luo et al. Network attack classification and recognition using hmm and improved evidence theory
CN114584350B (zh) 基于流形的网络数据包特征的降维及聚类的攻击识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant