CN111953701B

CN111953701B - 基于多维特征融合和堆栈集成学习的异常流量检测方法

Info

Publication number: CN111953701B
Application number: CN202010835255.5A
Authority: CN
Inventors: 张�浩; 李杰铃
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2022-10-11
Anticipated expiration: 2040-08-19
Also published as: CN111953701A

Abstract

本发明涉及一种基于多维特征融合和堆栈集成学习的异常流量检测方法，包括以下步骤：步骤S1:从网络数据流中采集相关维度数据，预处理后构成若干个基础特征数据集；步骤S2:将得到的若干个基础特征数据集进行排列组合，构成若干个综合特征数据集；步骤S3:利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练，生成初级模型;步骤S4:所有初级模型的预测概率输出作为次级学习算法的输入，得到次级检测识别模型;步骤S5:根据初级模型和次级检测识别模型，构建两级堆栈式集成学习模型；步骤S6:进一步得到分类结果。本发明结合多维数据之间的关联关系，通过多个显著特征的粒度融合对网络数据流检测，提高了检测精度。

Description

基于多维特征融合和堆栈集成学习的异常流量检测方法

技术领域

本发明涉及入侵检测和机器学习领域，具体涉及一种基于多维特征融合和堆栈集成学习的异常流量检测方法。

背景技术

如今，网络已成为日常生活中非常重要的一部分，恶意攻击无处不在，并且数量不断增加，因此，设计一种可以有效检测异常流量的方法非常迫切和必要。网络流量包含了大量不同类别信息，当前的异常流量检测方法没有考虑到数据从不同粒度或者不同角度进行表达之后在检测效果上的影响。缺乏多粒度、多角度数据特征的引入，以及不同特征之间相互支持或互补关系。不同的流量特征对检测算法的检测精度具有决定性的影响，如何构建数据特征，是非常重要和复杂的工程。

发明内容

有鉴于此，本发明的目的在于提供一种基于多维特征融合和堆栈集成学习的异常流量检测方法，结合多维数据之间的关联关系，通过基于多个显著特征的粒度融合对网络数据流检测，提高了检测精度。

为实现上述目的，本发明采用如下技术方案：

一种基于多维特征融合和堆栈集成学习的异常流量检测方法，包括以下步骤：

步骤S1:从网络数据流中采集相关维度数据，预处理后构成若干个基础特征数据集；

步骤S2:将得到的若干个基础特征数据集进行排列组合，构成若干个综合特征数据集；

步骤S3:利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练，生成初级模型；

步骤S4:所有初级模型的预测概率输出作为次级学习算法的输入，得到次级检测识别模型；

步骤S5:根据初级模型和次级检测识别模型，构建两级堆栈式集成学习模型；

步骤S6:将待检测数据输入两级堆栈式集成学习模型，得到分类结果。

进一步的，所述相关维度数据包括基本特征、内容特征、时间特征、通用特征和连接特征等。

进一步的，所述步骤S2具体为：

步骤S21:选取n组特征进行融合，1＜n＜m，m为基础特征集个数；

步骤S22:采用

特征组合方式对基础特征数据集进行排列组合，构成若干个综合特征数据集。

进一步的，在若干多维子空间数据集

上，分别训练和测试相应的初级学习算法，得到初级训练模型

进一步的，所述步骤S4具体为：

步骤S41:将各个初级训练模型的预测概率

作为次级学习算法的输入；

步骤S42:利用初级模型结果的集成，对差异性分类器的结果D'＝{ε₁,ε₂,…,ε_k-1,ε_k}进行整合训练，得到次级检测识别模型R。

进一步的，所述两级堆栈式集成学习模型具体为：

一种基于多维特征融合和堆栈集成学习的异常流量检测***，包括依次连接数据采集模块和预处理模块、多维特征融合模块和堆栈集成学习模块。

本发明与现有技术相比具有以下有益效果：

本发明结合多维数据之间的关联关系，通过基于多个显著特征的粒度融合对网络数据流检测，提高了检测精度。

附图说明

图1是本发明一实施例中的方法流程示意图。

图2是本发明一实施例中的数据预处理流程图。

图3是本发明一实施例中的特征分组示意图。

图4是本发明一实施例中的集成学习策略结果分析。

图5是本发明一实施例中的多维特征的排列组合策略对比分析。

图6是本发明一实施例中的三维特征粒度划分示意图。

图7是本发明一实施例中的多维特征粒度划分对比分析。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明提供一种基于多维特征融合和堆栈集成学习的异常流量检测方法，首先对公开UNSW-NB15数据集进行数据标准化和数据集分割；然后从分割重组的五组特征集中取两组进行串联融合，训练出

个具有差异性的基分类器；再进行堆栈集成学习，正确地融合多个子模型以得到一个更好的集成模型；最后，采用训练好的异常流量检测模型对实时流量进行异常检测。如图1所示，具体包括以下步骤：

步骤(1):采集网络流量并进行预处理；

本实施例中使用公开UNSW-NB15数据集中的训练数据集，该训练数据集共有45个特征，除去id，以及attack_cat和lable标签类型，原始特征维数为42。然后对其进行数据标准化和数据集分割，如图2所示；

优选的，在本实施例中，数据标准化包括以下步骤：

步骤(1.1)将原始数据中的离散型字符都映射为整数值；

步骤(1.2)把所有数据映射到0-1之间。

优选的，在本实施例中，数据集分割具体为：将原始特征集分为基本特征、内容特征、时间特征、通用特征和连接特征5类相关数据，构成对应的5个基础特征集。图3具体描述了五个特征类别所包含的字段属性。

步骤(2)：多维特征融合：

从步骤(1)分割重组的五组特征集中任取两组进行特征串联融合，训练出

个具有差异性的综合特征数据集；

优选的，在本实施例中，取两组特征融合。

步骤(3)：堆栈集成学习；

每个初级检测算法LightGBM分别对多维子空间的综合数据集进行训练，然后将初级检测算法的预测概率作为次级检测识别算法RandomForest的输入，训练次级检测识别模型，实现宏观角度的整体检测识别效果。

优选的，在本实施例中，所述堆栈集成学习具体流程为：在多个多维子空间数据集{D₁,D₂,…D₉,D₁₀}上，分别训练和测试相应的LightGBM检测识别算法，得到初级训练模型{L₁,L₂,…L₉,L₁₀}；再将各个初级训练模型的预测概率

作为检测识别算法RandomForest的输入，利用众多决策树的集成，有效地对差异性分类器的结果D'＝{ε₁,ε₂,…,ε_k-1,ε_k}进行整合训练，得到次级训练模型R。以此建立一个两级堆栈式集成学习模型H(x₁,x₂,…,x₉,x₁₀)＝R(L₁(x₁),L₂(x₂),…,L₉(x₉),L₁₀(x₁₀))，最终得到检测识别结果Z＝H(x₁,x₂,…,x₉,x₁₀)。

本实施例中还提供了一种计算机可读存储介质，即堆栈集成训练后保存的融合模型，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的检测方法。

优选的，本实施例进行仿真实验过程中，训练集由70％的样本组成，其余30％用于构建测试集。图4是集成学习策略的实验结果，可以发现堆栈集成学习除了召回率不占优势之外，准确率和误报率都达到最优效果，分别为98.08％和2.10％。图5是多维特征的排列组合策略对比分析，

特征组合方式重复率为40％，

特征组合方式重复率为60％，

特征组合方式重复率为80％，而

特征组合方式很明显重复率为100％，从图中可以发现

特征组合方式时，各方面评价指标都是最优的，说明重复率越低，差异性越大，则性能越好。而

时，虽然特征都不重复，但是单组特征不能很好地反映流量特性，从而导致基本分类器的性能较差。图6是从时间粒度、空间粒度和数据内容三个方面对流量数据进行分析所对应的特征项，图7是两种划分粒度的对比实验，可以发现，特征粒度为更精确的五类划分时，准确率和召回率更高，误报率也更低。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。