CN112784881A

CN112784881A - 网络异常流量检测方法、模型及***

Info

Publication number: CN112784881A
Application number: CN202110013425.6A
Authority: CN
Inventors: 史增树; 杜怡曼; 杨滨茂; 麻文刚
Original assignee: Beijing Southwest Jiaotong University Shengyang Technology Co ltd
Current assignee: Beijing Southwest Jiaotong University Shengyang Technology Co ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-11
Anticipated expiration: 2041-01-06
Also published as: CN112784881B

Abstract

本发明提出一种基于残差门控循环单元(Re‑GRU)与集成动态极限学习(ELM)优化的网络异常流量检测方法、模型及***。首先建立Fisher Score与最大信息系数的特征优化方法；其次将原有GRU候选隐状态激活函数改为非饱和激活函数，并在GRU候选隐状态中引入残差结构，从而避免梯度消失问题，使网络对梯度变化更敏感，达到缓解网络退化的目的。然后模型优化设计为双向残差GRU结构，使得模型提取网络流量特征性能更优越；最后提出两步博弈的集成动态ELM网络流量检测方法，利用全连接层与Dropout层缓解过拟合问题以提升检测精度，输出检测结果。本发明通过搭建实验仿真模型，根据不同参数对比结果验证有效性，相比于传统检测方法本发明在检测网络异常流量时具有更好的检测效果与精确率。

Description

网络异常流量检测方法、模型及***

技术领域

本发明属于互联网技术领域，涉及一种网络异常流量监测的方法、模型、模型训练的方法及***。

背景技术

随着网络技术的快速发展，网络结构越来越趋于复杂，由此发生网络入侵及异常流量攻击的风险也越来越大，如何辨识各种网络入侵成为人们高度关注的问题。而网络规模、网络速率及入侵类型的持续增大与增多，使得入侵检测技术面临越来越多的挑战。因此如何设计一种面向复杂网络环境与未来智能化的网络入侵检测方法，同时提高入侵检测的检测精度、降低漏报率，改善检测性能成为了相关领域关注的核心问题。

针对不同的网络环境，很多检测方法已经被提出，其中基于流量特征提取优化的分类判决方法是当前的主流检测方法，该类方法包含特征优化、样本训练及分类判决等环节，同时考虑到网络流量数据较大且很难直接用于异常流量分类，获取数据后一般都要进行数据预处理与特征选择，随后经过训练模型的不断训练，结合分类技术进行网络流量的异常检测分类。当前比较流行的特征提取与样本训练为深度神经网络、卷积神经网络及循环神经网络。

其中循环神经网络具有捕获长序依赖的能力，因此它被广泛应用于数据特征分类、样本训练分类及机器翻译等领域。然而普通循环神经网络会因为梯度消失(VanishingGradient)与梯度***(Exploding Gradient)问题而变得不稳定，于是研究人员提出一种长短期记忆单元(Long Short Term Memory,LSTM)的神经网络来改善上述问题。虽然LSTM确实有效，但其门限繁杂导致检测结果不理想，检测性能随着网络层数的增加而越来越糟糕。现有方法中，Highway-Networks方法能够缓解网络的退化问题，但这种方法会增加网络参数量与训练耗时。而近两年备受关注的SRU网络也包含了类似Highway- Networks结构，同时SRU舍去了循环单元中的时间参数，因此在运行快速的同时也能够进行更深层的网络训练，但是在复杂网络环境中进行检测时，还是会出现梯度消失问题。再者，随着数据流的间断性到达，初始样本的不平衡度难以恒定。在当前的网络流量样本区间内，也会出现标签严重不平衡与不平衡度偏转现象，而采用邻域样本重采样与欠采样数据处理方式，难以保证新样本可信度，新增数据信息可能导致过拟合现象。尤其是针对多类标签分类，将多分类问题分解为多个二分类问题，会造成模型冗余与难以计算等问题。如果不能建立模型与数据之间关系，会导致分类器受限于多个参数类别，难以获得最优权重，无法保证模型稳定性。

复杂的网络流量存在多类样本标签，而传统循环神经网络(Recurrent NeuralNetwork, RNN)在网络异常检测时易发生梯度消失和网络退化问题，导致检测精度较低与漏报率较高。因此设计发明一种能够改善神经网络梯度消失的方法对于网络流量检测具有重要意义，能够使得后续检测更加有效，检测性能更加优越。

发明内容

为了实现以上目的，本发明提出一种网络流量异常信息检测方法、模型、模型训练的方法及***，从而可以监测网络流量异常信息，提升检测的准确度。

有鉴于此，本发明的第一方面提供了一种网络异常流量检测方法，包括：

根据目标网络流量数据获取目标流量特征信息，其中，所述目标网络流量特征信息为对目标原始收发数据预处理得到的，所述目标原始收发数据属于所述目标网络流量数据；

通过目标网络异常流量检测模型确定所述目标网络流量特征信息所对应的目标网络流量异常信息，其中，所述目标网络异常流量检测模型是通过对流量信息进行检测准确度训练生成的；

根据所述目标网络流量信息生成网络异常流量检测结果。

具体地，所述预处理包括特征筛选步骤，所述特征筛选步骤包括对特征重要性排序、冗余信息删除、信息最大化处理，所述的信息最大化处理使用支持向量机(SVM)模型预测所述目标网络流量的异常结果，根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优。

具体地，所述检测准确度训练包括特征抽取步骤、数据生成步骤和分类步骤，所述特征抽取步骤采用双向残差GRU模型，将门控循环单元(GRU)的候选隐状态激活函数改为线性整流函数(Rectified Linear Unit,ReLU)，有效克服梯度消失的问题，同时，使用残差结构有效缓解网络退化的问题。具体地，每个GRU处理单元仅有两个门限，并且GRU单元只有一个时序输出，所以GRU在保证能有效传递时序相关信息的条件下，拥有更少参数量。本发明通过对GRU改进来解决梯度消失与网络退化的问题，由于GRU输出值与前一时刻隐状态的输出值共同决定GRU隐状态的最终输出，因而本发明改进主要针对GRU候选隐状态公式，将GRU候选隐状态激活函数改为线性整流函数，并参考CNN中的残差网络方式添加残差结构与改变GRU激活函数连接，再运用批标准化(Batch Normalization，BN)性质，可消除传统GRU中梯度消失与网络退化。

具体地，所述数据生成步骤采用生成对抗网络的形式，通过两个动态集成动态极限学***衡不同类别样本分布，同时利用信息熵量化整体拟合程度，并根据所述特征抽取步骤后的样本数据的主成分分析(PrincipalComponent Analysis，PCA)结果，对生成的所述少数类样本片段进行筛选，解决了数据标签平衡度偏移与重构数据不准确的问题；所述分类步骤采用Adaboost集成学习方法，将个体预测模型组合成强分类器，个体预测模型为ELM结构，也被称作基分类器，即所述分类步骤将基分类器组合成强分类器。

具体地，本发明利用非饱和激活函数克服梯度消失问题，同时借鉴卷积神经网络(Convolutional Neural Network,CNN)中的残差结构缓解网络退化，在门控循环神经网络(Gated Recurrent Unit,GRU)的基础上设计一种改进的残差门控循环单元(Re-GRU)与集成动态极限学习(ELM)优化的网络异常流量检测方法。

本发明的第二方面提供了一种网络异常流量检测模型，包括预处理模型、特征抽取模型、数据生成模型、分类模型；

所述预处理模型基于改进Fisher Score与最大信息系数对目标网络流量特征进行选择，并使用SVM模型预测所述目标网络流量的异常结果，根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优；

所述特征抽取模型基于双向残差GRU模型对所述目标网络流量特征进行抽取；

所述数据生成模型采用生成对抗网络(Generative Adversarial Networks，GAN)的形式，通过两个动态ELM相互对抗，生成少数类样本片段，同时利用信息熵量化整体拟合程度，并根据所述特征抽取步骤后的样本数据的主成分分析结果，对生成的所述少数类样本片段进行筛选；

所述分类模型采用集成学习方法使用多个基分类器对目标网络流量异常结果进行预测，其中所述多个基分类器为ELM结构。

具体地，所述双向残差GRU模型将原有GRU候选隐状态激活函数改为非饱和激活函数，优选地，将原有GRU候选隐状态激活函数改为线性整流函数，有效克服梯度消失的问题，并在GRU候选隐状态中引入残差结构，使其对长序列特征更为鲁棒，有效缓解网络退化的问题。

具体地，残差结构进行优化GRU后，本发明针对每个训练序列分别提出不同的GRU网络，为双向残差GRU结构。优化后的双向残差GRU模型不仅能为输出层提供输入序列历史信息，也为输入序列的每个时间节点提供未来信息，包含六个独特权值，且每个权值在每一个时序中被重复利用，权值分别为：输入层到前向隐藏层(w₁)、前向隐藏层到隐藏层(w₂)、输入层到后向隐藏层(w₃)、前向隐藏层到输出层(w₄)、后向隐藏层到隐藏层(w₅)、后向隐藏层到输出层(w₆)，具体如图4所示。在一个具体的实施方式中，本发明优选使用128个核双向残差GRU模型提取网络数据集特征，具体流程：网络数据集经过Fisher Score与最大信息系数预处理方法进行特征选择，得到无冗余与最优的特征子集，然后特征集数据进入双向残差GRU网络结构进行特征提取，加入一个dropout 层来防止过拟合并加快训练过程，之后通过1个Flatten层来多维输入进行一维化操作，最后使用2个全连接层将前述所有网络层综合起来。其中第一个层参数为128个核，激活函数为ReLU，第二个层选择与输出维度大小一致的2个核，且激活函数为sigmoid。

具体地，所述数据生成模型采用生成对抗网络(Generative AdversarialNetworks，GAN) 的形式，通过两个动态ELM相互对抗，生成少数类样本片段，同时利用信息熵量化整体拟合程度，并根据所述特征抽取步骤后的样本数据的主成分分析结果，对生成的所述少数类样本片段进行筛选。

具体地，数据生成模型通过生成模型与判别模型相互博弈来获得“以假乱真”的样本数据。生成器G通过特征表征，得到与原数据片段相似的数据序列；判别器D通过二值分类，区分真实数据与生成数据。二者相互对抗博弈提高模型映射能力，直到生成器G 与判别器D无法继续提升自身性能，则得到足够真实生成样本，达到数据生成扩增的效果。

本发明的第三方面提供了一种网络异常流量检测模型训练的方法，包括：

获取目标网络流量数据，对所述目标网络流量数据进行预处理以获取目标流量特征信息，其中所述预处理基于改进Fisher Score与最大信息系数对目标网络流量特征进行选择，并使用SVM模型预测所述目标网络流量的异常结果，根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优，筛选目标特征集合；

获取流量特征优化信息，其中，所述流量特征优化信息采用双向残差GRU模型对所述目标网络流量特征进行特征抽取，所述双向残差GRU模型将原有GRU候选隐状态激活函数改为非饱和激活函数，优选地，将原有GRU候选隐状态激活函数改为线性整流函数，有效克服梯度消失的问题，并在GRU候选隐状态中引入残差结构，有效缓解网络退化的问题；

生成少数类样本片段，其中，根据所述流量特征优化信息生成少数类样本片段，所述少数类样本片段通过两个动态ELM相互对抗生成，解决了数据标签平衡度偏移与重构数据不准确的问题；

对所述流量特征优化信息和所述少数类样本片段进行训练，得到集成动态ELM模型参数，生成目标网络流量异常检测模型，所述目标网络流量异常检测模型用于检测流量异常信息。

在一个具体的实施方式中，本发明优选使用128个核双向残差GRU模型提取网络数据集特征，具体流程：网络数据集经过Fisher Score与最大信息系数预处理方法进行特征选择，得到无冗余与最优的特征子集，然后特征集数据进入双向残差GRU网络结构进行特征提取，加入一个dropout层来防止过拟合并加快训练过程，之后通过1个 Flatten层来多维输入进行一维化操作，最后使用2个全连接层将前述所有网络层综合起来。其中第一个层参数为128个核，激活函数为ReLU，第二个层选择与输出维度大小一致的2个核，且激活函数为sigmoid。

本发明的第四方面提供了一种网络异常流量检测***，包括：

获取模块，所述获取模块获取目标网络流量数据；

预处理模块，所述预处理模块对所述目标网络流量数据进行预处理以获取目标流量特征信息；

特征抽取模块，所述抽取模块获取流量特征优化信息，其中，所述流量特征优化信息采用双向残差GRU模型对所述目标网络流量特征进行特征抽取；

数据生成模块，所述数据生成模块根据所述流量特征优化信息生成少数类样本片段，其中，所述少数类样本片段基于双向残差GRU模型抽取结果通过两个动态ELM相互对抗生成；

检测模块，所述检测模块对所述流量特征优化信息和所述少数类样本片段进行训练，得到集成动态ELM模型参数，生成目标网络流量异常检测模型，所述目标网络流量异常检测模型用于检测流量异常信息。

具体地，所述预处理模块基于改进Fisher Score与最大信息系数对目标网络流量特征进行选择，并使用SVM模型预测所述目标网络流量的异常结果，根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优，筛选目标特征集合。

本发明的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的目标网络流量异常检测方法，通过预处理步骤对原始特征进行筛选得到目标特征集合，并通过改进GRU模型为双向残差GRU模型进行特征抽取，使其对长序列特征更为鲁棒，缓解网络退化的问题，同时引入动态ELM博弈，生成少数类样本片段实现样本数据生成扩增，减缓了由于样本不均衡造成的问题，从而提升了目标网络流量异常检测精度和检测准确度。

本发明的网络异常流量检测***通过预处理模型、特征抽取模型、数据生成模型、分类模型的组合，提高了网络流量的检测精度，具体地，预处理模型可有效对流量特征进行筛选，特征抽取模型可对筛选结果进一步进行抽取，数据生成模型通过生成少数类样本片段减缓了样本不平衡带来的问题，分类模型使用集成学习的方式组合多个基分类器构成强分类器，提升了分类的准确度；本发明的网络异常流量检测使用的多个模型组合为一个有机的整体，共同起到了提升网络异常流量检测准确度的技术效果。

在一种具体的实施方式中，本发明利用非饱和激活函数克服梯度消失问题，同时借鉴卷积神经网络(CNN)中的残差结构缓解网络退化，在门控循环神经网络(GRU)的基础上设计一种改进的残差门控循环单元(Re-GRU)与集成动态极限学习机(ELM)优化的网络异常流量检测方法。

第一，将原有GRU候选隐状态激活函数改为非饱和激活函数，并在GRU候选隐状态中引入残差信息，从而避免由饱和激活函数带来的梯度消失问题，同时也使得网络对梯度变化更敏感，达到缓解网络退化的目的，使其对长序列特征更为鲁棒。在此基础上，将模型继续进行优化，设计为双向残差GRU结构，使得模型提取网络流量特征性能更加优越。

第二，针对复杂的网络流量存在多类样本标签分类精度低问题，设计出了两步博弈的集成动态ELM方法，即两个动态ELM相互对抗，解决数据标签平衡度偏移与重构数据不准确的问题。该策略采用动态ELM博弈模型生成少数类样本片段，平衡不同类别样本分布，保证每个样本片段真实性，同时利用信息熵量化整体拟合程度，建立权重与损失程度之间的关系，采用博弈论集合模型计算组合权重，形成稳定的网络体系结构，提高模型对快速变化数据拟合效果；

第三，利用全连接层与Dropout层缓解过拟合问题进一步提升检测精度，输出最终检测结果；

第四，在NSL-KDD数据集的基础上，首先根据改进Fisher Score与最大信息系数特征选择方法得到了最优的特征子集，利用不同方法在不同训练集与测试集组合下的准确率对比实验，得到最优的训练组合，同时与不同特征选择方法对比，验证了所提特征选择预处理方法的有效性与优越性。然后选择一部分样本数据进行训练，分别得到了二分类与多分类下的ROC曲线，并且同时得到了不同分类方法对于网络流量特征检测分类的指标参数对比分析；

最后利用多种深度学习方法在检测过程中的PPL值、时间消耗及稳定性分析来进一步验证其发明方法的有效性。

根据最终的参数对比表明，本发明基于双向残差GRU与集成动态ELM优化的检测方法性能较好，时间复杂度适宜，可有效用于网络流量特征的检测。

在一种具体的实施方式中，本发明的网络异常流量检测方法包括以下内容。

1、网络流量特征预处理

本发明通过对原始网络流量特征进行筛选预处理，使得所得到的网络流量数据的冗余特征较少，用于后续的数据训练可使得特征分类结果精度较高。具体的预处理步骤包括以下内容。

结合Fisher Score与最大信息系数(MIC)构建一种新的网络流量特征优化选择方法。首先，考虑到网络流量特征分布不均匀与重叠性问题，采用Fisher Score计算方法构建特征指标重要度排序规则；之后在考虑冗余特征对有效特征表征的影响基础上，利用最大信息系数方法构建特征间的关联性评价，对冗余特征实现更新排序；在此基础上，以分类准确率为判断依据，建立基于Fisher Score与最大信息系数的网络流量特征优化选择方法。

1.1Fisher Score相关理论

假设存在一个样本集x_k∈R^m,k＝1,2,3,...,m，其中s类与q类的样本数分别为n_s与n_q。第i个特征的Fisher Score被定义为：

其中：u_i是第i个特征在数据集上的均值，

与

分别是s与q类数据集上的均值；

与

分别为第k个s类与q类第i个特征的特征值。Fisher Score值越大，特征辨别力越强，但该模型针对二分类问题时，未考虑特征两类一致性问题，因此交叉系数思想被提出，如下：

M_k＝m_sk+m_qk-m_sqk (2)

其中：M_k表示s类与q类两类特征x_k的样本数，m_sk表示s类x_k的样本数，m_qk表示 q类x_k的样本数，m_sqk表示s类与q类两类特征取值相同的样本数。针对分布均匀情况，可利用交叉系数计算方法，而针对分布不均匀情况，又提出了一种多类之间的类间散度计算方法：

其中：

代表选取两种类别s类与q类的所有可能组合，并进行求和，n_s与n_q分别代表第s类与q类的样本数，N为总体样本数，

与

分别代表第k个特征在第s类、 q类样本上的均值。综合特征表现为重叠性与分布不均匀情况，对多类Fisher Score值计算方法进行优化，则有：

其中：N为代表去除重复特征值的样本总数，n_j为第j类的样本数，

为第k个j 类第i个特征的特征值，

为第k个特征在第i样本上的均值，通过上述过程，可构建一种特征指标重要度排序规则，进而对特征进行最优排序，获得特征重要度。

1.2最大信息系数更新排序

Fisher Score模型虽可以评价特征重要度，但无法确定特征之间的相关性及特征集中的冗余特征。因此本发明利用信息论中的度量标准-最大信息系数方法，挖掘特征之间的非函数依赖关系，具体如下：

假设存在一个有限有序对集合D{(x_i,y_i),i＝1,2,3,...,n}，将集合D中x_i与y_i构成散点，并进行x×y的点阵形式划分，分别计算每个点阵中的I(X:Y)，选取不同划分方式下 I(X:Y)的最大值作为划分x×y点阵下的互信息值。将最大I(X:Y)记为Max(I(X:Y))；得到最大互信息值之后，按照式(5)操作完成归一化，得到最大信息系数，记为Mic(I(X:Y))，如下：

其中：Max(I(x,y))表示最大互信息值，B为网格划分x×y的上限值，随数据样本数n变化的增长函数。根据Mic(x,y)来判别特征之间的相关性，因此需给定n条样本特征集 F＝{f₁,f₂,...,f_k}，其特征数为k，将特征集的任意两类特征f_i,f_j相关性记为Mic(f_i,f_j)。Mic(f_i,f_j)值越大，说明特征f_i与f_j之间冗余性越强；当Mic(f_i,f_j)值为0时，则说明特征f_i与f_j相互独立。由此对冗余特征定义如下：对于特征集F，特征f_i与特征f_j的Fisher Score值F_i＞F_j,且Mic(f_i,f_j)＞0.8,则视f_i为f_j的冗余特征。

1.3基于改进Fisher Score与最大信息系数特征选择方法

本发明设计的Fisher Score与最大信息系数的特征选择模型流程如图1所示，主要分为两个阶段。

如图1，经过两个阶段选择后的特征子集作为最后特征子集，具体步骤如下：

输入：特征数据集F＝{f₁,f₂,...,f_k}

输出：最优特征子集F_out。

第一阶段：特征重要度分析

step1：通过式(4)依次计算特征数据集F中对应的Fisher Score值F_k；

step2：对特征集F按F_k进行降序排列.

第二阶段：特征冗余度分析

step1：按照F排序，对F进行遍历，逐次选取F_k值较大的特征f_i与比其F_k值小的特征f_j计算Mic(f_i,f_j)；

step2：判断Mic(f_i,f_j)＞0.8，如果大于0.8，则将特征f_j顺序F^·调整至末端，更新F并排序；

step3：遍历完成，输出F_out。

2基于双向残差GRU的网络流量特征提取优化

利用非饱和激活函数可以有效克服梯度消失，借鉴卷积神经网络(ConvolutionalNeural Network,CNN)中的残差结构能够有效缓解网络退化的特性本发明在门控循环神经网络(Gated Recurrent Unit,GRU)基础上提出残差门控循环单元(Re-GRU)来缓解梯度消失与网络退化问题，同时将模型继续进行优化，引入残差结构，优化后的双向残差 GRU结构使得模型提取网络流量特征性能更加优越。

2.1残差门控循环单元

2.1.1门控循环单元

GRU为LSTM的简化改进，每个GRU处理单元仅有两个门限，并且GRU单元只有一个时序输出，所以GRU在保证能有效传递时序相关信息的条件下，拥有更少参数量，单元结构如图2所示，公式定义如下：

z_t＝σ(E_zx_t+R_zh_t-1+Q_z) (6)

s_t＝σ(E_sx_t+R_sh_t-1+Q_s) (7)

a_t＝Tanh(E_aR_a(h_t-1*s_t)+Q_a) (8)

h_t＝(1-z_t)*h_t-1+z_t*a_t (9)

其中，x_t表示当前层t时刻的输入值，h_t-1是t-1时刻状态的输出值，z_t与s_t分别为t时刻更新门与重置门，更新门与重置门的激活函数σ是Sigmoid函数，a_t为t时刻的候选隐状态，h_t表示当前时间的状态向量，t Tanh是候选隐状态的双曲正切激活函数(hyperbolic tangent activation function,Tanh)，模型权重参数是E_z、E_s、E_a及R_z、R_s、R_a，偏置向量为Q_z、Q_s、Q_a。

2.1.2残差优化

在循环神经网络中，梯度消失与网络退化尤为严重，本发明通过对GRU改进来解决。在GRU算法中，输出值与前一时刻隐状态的输出值共同决定GRU隐状态的最终输出。因此本发明改进主要针对GRU候选隐状态公式，主要分为以下3点：

(1)非饱和激活函数

将GRU候选隐状态激活函数改为线性整流函数(Rectified Linear Unit,ReLU)，能够使得改进网络很好地避免由饱和函数引起的梯度消失，进而能够应对更深度的网络训练，ReLU激活函数可以使得信息传输更加直接，相比饱和激活函数来说，ReLU不存在饱和激活函数带来的梯度消失问题，且能更好地配合残差信息的传递，因此将a_t改为下式：

a_t＝ReLU(E_ax_t+R_a(h_t-1*s_t)+Q_a) (10)

其中，a_t为t时刻的候选隐状态；E_a、R_a为模型权重参数；x_t表示当前层t时刻的输入值；h_t-1是t-1时刻状态的输出值；s_t为t时刻的重置门；Q_a为偏置向量。

(2)添加残差连接

参考CNN中的残差网络方式来对GRU进行改进，从而解决GRU中梯度消失与网络退化问题。具体来说，是将残差连接引入到优化后的a_t表达式中。残差信息为前一层未激活的候选隐状态值

Re-GRU每一层都有残差连接，改进后的隐状态如下：

其中，

表示k层t时刻的候选隐状态输出，

为k-1层的还未激活候选隐状态值，

为k层t时刻的输入值；

为k层的权重参数；

表示t-1时刻的k层状态向量，

为k层的还未激活候选隐状态，U^k为第k层的维度匹配矩阵，

为更新后的第 k层重置向量，

为更新后的第k层偏置向量，当网络上下层维度相同时，则不需要维度匹配矩阵。

(3)批标准化

通过对每个训练小批量的预激活均值与方差进行规范化，缓解梯度***问题。本发明通过改变GRU激活函数与添加残差连接，再运用批标准化(Batch Normalization，BN)性质，可消除传统GRU中梯度消失与网络退化。Res-GRU第1层的细胞公式如式 (13)～(17)所示，单元结构如图3所示。由于批标准化性质就是消除偏差，上述中的偏置向量被忽略。

其中，

为k层t时刻的更新向量；

表示k层t时刻的候选隐状态输出；

为k层 t时刻的输入值；

为t时刻的k层状态向量；

为k层的更新向量；

为k层的候选重置向量；

为k层的重置向量；σ为Sigmoid函数；

为第 k层的模型权重参数；U^k为第k层的维度匹配矩阵；

为k层的还未激活候选隐状态；

为k-1层的还未激活候选隐状态值。

2.2双向GRU变形优化

通过上述残差结构进行优化GRU后，本发明针对每个训练序列分别提出不同的GRU网络，为双向残差GRU结构。此优化模型不仅能为输出层提供输入序列历史信息，也为输入序列的每个时间节点提供未来信息，包含六个独特权值，且每个权值在每一个时序中被重复利用，权值分别为：输入层到前向隐藏层(w₁)、前向隐藏层到隐藏层 (w₂)、输入层到后向隐藏层(w₃)、前向隐藏层到输出层(w₄)、后向隐藏层到隐藏层(w₅)、后向隐藏层到输出层(w₆)，具体如图4所示。

因此最终使用一个由128个核双向残差GRU来提取网络数据集特征，具体流程：网络数据集经过Fisher Score与最大信息系数预处理方法进行特征选择，得到无冗余与最优的特征子集，然后特征集数据进入双向残差GRU网络结构进行特征提取，加入一个dropout层来防止过拟合并加快训练过程，之后通过1个Flatten层来多维输入进行一维化操作，最后使用2个全连接层将前述所有网络层综合起来。其中第一个层参数为 128个核，激活函数为Relu，第二个层选择与输出维度大小一致的2个核，且激活函数为sigmoid。训练迭代次数为350批，批量大小d为2500，学习率设置为0.005，优化器选为Adam，具体的优化过程结构图如图5所示。

3集成动态ELM优化

上述对网络流量特征模型优化完成后，本发明继续针对网络流量数据集多样本标签不平衡序列而导致的分类精度低问题，设计了两步博弈的集成动态ELM方法，解决数据标签平衡度偏移与重构数据不准确的问题，从而提高检测精度。

3.1基于博弈ELM数据生成

利用博弈论思想，通过两个动态ELM相互博弈，实现少数片段生成。生成数据后，结合主成分分析(PCA)，去除冗余数据，减缓过拟合发生的概率，框架如图6所示。

该模型采用生成对抗网络(Generative Adversarial Networks，GAN)，通过生成模型与判别模型相互博弈来获得“以假乱真”的样本数据。生成器G通过特征表征，得到与原数据片段相似的数据序列；判别器D通过二值分类，区分真实数据与生成数据。二者相互博弈来提高模型映射能力，直到生成器G与判别器D无法继续提升自身性能，则得到足够真实生成样本。考虑到当前样本块

少数类样本整体特征表示为

Z_i表示与

尺寸相同的噪声片段。截止到当前时间段，样本累积数量N_m为

将每个标签期望均值作为判断标准，用来区分多数类与少数类，具体表示如下：

其中，L_m是第k个样本片段到达后的标签类型数目，此时不平衡度IR_k为最小样本数目

与最大样本数目

的比值，可表示为

每个少数类class⁺的生成次数

通过样本分布确定为

其中，

表示第k个样本片段内类别最多的样本数目，

表示当前少数类样本数目，

为向下取整。两个极限学习机结构分别组成生成器G与判别器D，判别器D 实现经典ELM结构，输入向量为生成样本，输出向量为原标签。设置隐层节点数目等于输入节点数目，因此最终的最小化输出差异判决器的主要目标为：

其中，Y_D为对应数据片段的实际值，Y_k为k个样本片段的输出标签；H_D为隐层输出的随机矩阵。求解过程通过M-P广义逆计算模型参数，即

其中β_D为输出层权重，H_D为极限学习机隐层输出的随机矩阵，

为H_D的M-P广义逆。生成器G隐层节点数目逐步增加，从初始数目L到N_k变化，当生成器执行N_k-L次时，判别器D执行一次。当生成器G输入为随机噪声序列

输出为生成特征X_G，通过神经网络映射，得到两者关联关系为

X_G＝H_Gβ_G (23)

其中，H_G为G在初始时刻的隐层输出矩阵，在第L+1次生成过程中，新增一个隐层节点，其输出形式用d表示，d为N_k维随机变量，可以得到新的生成器G表达

H_G,L+1＝[H_G,L d] (24)

整个数据生成过程中，生成器G采用矩阵变换方式进行运算，避免对动态ELM模型复杂的求解过程，保证模型的收敛性。G与D进行联合优化，目标函数为最小化交叉熵期望，具体表达式为

其中，P_data(X_k)为原始少数类数据片段概率分布，P_Z(Z)为服从高斯白噪声的概率分布。生成器G与判别器D优化过程交替进行，初始条件下生成器G先随机生成一组数据，随后计算最优判别器D：

其中，P_g(Z)为极小极大策略得到全局最优解时生成器数据概率分布，目标函数进一步被描述为

对于任意隐层的输出矩阵H_l，都满足基本ELM映射关系，G还原数据片段分布，最佳生成器G由近似误差确定，解析表达式可表示为：

其中，l表示隐层节点数目，f(·)为指示函数。在判别器D中，如果预测值与类别标签匹配，函数返回0，否则，函数返回1。如果D识别率接近0.5(在区间0.45,0.55内)，则认为判别器无法识别真实数据与生成数据，满足生成数据足够真实的条件，得到暂态特征片段数据

对于原始数据片段，主成分边界确定最大空间距离，第k个样本片段特征可写成如下矩阵形式：

对上述矩阵中的变量，进行标准化处理如下：

其中，x_ij为矩阵中的元素，μ_j，δ_j分别为第j个特征向量均值与方差，处理后得到标准化特征矩阵

将对应协方差矩阵

进行特征值分解，得到特征向量

分别计算主成分得分，则有：

其中，

为标准特征矩阵的第i个样本，θ_j为第j个特征向量。选取两个最大特征值对应的主成分p₁与p₂作为二维平面的直角坐标轴，描述特征空间分布，两组主成分最大值p_1,max与p_2,max作为空间分布边界。生成片段主成分得分

遵循边界约束条件，如下：

且

上式表明：生成片段每个样本的最大主成分得分，必须分别小于对应目标片段主成分得分最大的两个值。对不满足边界约束条件的样本集合进行重建，替代已经生成的样本，直到生成样本空间达到N_k，完成生成过程，得到新的特征片段

因此通过上述分析，本发明的生成器G与判别器D结构设计为：G与D均需去除反卷积，只保留普通卷积层；通过UpSampling2D与AvgPooling2D实现上下采样；卷积核大小为3×3，步长为1。G除最后一层使用Tanh激活函数，其余均为ReLU；D使用 ReLU作为激活函数。生成器G模型中Batch normalization(BN)层将对隐藏层输入进行归一化，具体模型图分别如图7与8所示。

3.2、集成动态ELM模型分类预测

上述内容利用两个动态ELM数据生成后，本发明继续采用Adaboost集成学习思想，将个体预测模型组合成强分类器。个体预测模型为ELM结构，也被称作基学习器(baselearner)。假设初始样本片段为

特征x与标签y之间映射关系如下：

其中：N₀表示初始阶段样本数目，L表示隐层节点数目，y_i为第i个标签；β_P为判别权重；b_p为判别器的偏置；选取不同权重a与偏置b，得到个体预测模型的表达式，如下：

Y₀＝H₀β₀ (34)

其中，满足

式中：，H₀为随机矩阵，β₀为权重参数。

根据近似误差理论，得到输出向量表达式为

式中：

为M-P广义逆，满足最小二乘解范数的必要条件，表达式为

根据错误率χ₀描述当前模型的评价情况，具体为

其中，f(·)是返回值为0或1的典型指示函数，N₀表示初始阶段样本数目；Y₀为原始输出；因此存在R个基学习器，分别计算每个基学习器预测误差，第r(r＝1,2,3,...,R)个基学习器的最小误差χ_0,r为：

在Adaboost策略中，每个基学习器权重为ω_0,r，考虑预测正确与错误两种情况，整体损失函数Loss如下：

其中，χ_0,r表示基学习器错误率，H_0,r为第r个基学习器的随机矩阵，β_0,r为第r个基学习器的权重参数，χ₀为错误率，χ_0,r为第r个基学习器的错误率，当整体损失函数Los 最小时，上式对ω_0,r偏导数

为零，可以得到对应第r个基学习器权值表达式为

计算所有R个基分类器的权重后，利用加权学习得到最终的输出表达式为：

式中：ω_0,r为基学习器权重，H_0,r为第r个基学习器的随机矩阵，β_0,r为第r个基学习器的权重参数。

当数据片段

到达时，根据集合模型预测结果对模型权重进行调整。对于所有R个基学习器，当前第k个片段预测误差可表示为如下形式

其中，χ_k,r为第r个基学习器第k个片段的预测误差，

为第r个基学习器第i个片段的预测误差；

为第k个样本在第r个基分类器的预测值，Y_k,r为对应真实值， i＝1,2,3,...,N_k表示样本标记号，标准化得到的误差矩阵中每个元素为

此时利用信息熵IE_r量化整体拟合程度，分析误差对模型的影响，具体表达式为

式中：e_i,r为标准化得到的误差矩阵中的元素。

综合所有个体预测模型信息熵，确定权重向量表达式，可以得到

同时根据当前基学习器权重向量ω_k,r，将权重向量ω_χ,r与ω_k,r作为整体模型权重的两个决定参数，得到基本权重为

其中，s_p为优化系数，P表示决定参数集合的个数，利用博弈论可知，两个参量博弈过程可转化为最优化过程，优化目标为权值差异最小值，如下式：

进一步对s_p进行标准化，得到

最终的整体模型权重为

在当前参数基础上，对于第k+1个片段特征集合X_k+1与标签集合Y_k+1，输出层向量表达式为

其中，

对于R个基分类器，得到更新后的分类预测模型为

综上，本发明通过两步博弈策略，实现多类网络流量特征数据的检测与分类，考虑到数据生成过程和模型更新过程的特点，所提模型的具体实现步骤流程图如9所示。

3.3双向残差GRU与集成动态ELM网络异常流量检测

本发明最终设计的双向残差GRU与集成动态ELM的网络异常流量检测模型如图 10所示，网络数据集在通过改进Fisher Score与最大信息系数方法进行特征选择之后，将输出作为SVM输入进行准确率判别从而确定输出是否为最优子集；将其最优子集的输出Y输入到双向残差GRU框架当中，进行特征检测提取，引入残差信息使网络对梯度变化更敏感，从而达到缓解网络退化目的；最后根据基于两步博弈的集成动态ELM 方法，解决数据标签平衡度偏移与重构数据不准确问题，避免模型适应性差的弱点，设计合适的生成器与判别器来提高模型对快速变化数据的拟合效果，同时利用批归一化 Batch Normalization与激活函数relu进一步优化，降低深层网络缺陷，最后得到分类结果Y^*。本发明在训练过程中采用批训练方法，交替训练G与D。训练G时，固定D的参数，获取batch-size大小的随机噪声Z与随机条件向量，输入G中生成batch-size(64)大小的生成样本，生成样本首先传入到基于动态集成的ELM中，然后进入D中进行训练，反向传播并更新G的参数。训练D时，固定G参数，从训练样本中获取batch-size大小的数据输入D中以得到对应损失函数，获取batch-size大小的噪声Z与随机条件向量，输入G中生成batch-size大小生成样本，生成样本传入D得到对应损失函数，反向传播并更新D参数。重复交替训练G与D，直至网络训练完成，每完整循环一次训练样本即完成一轮训练，保存G与D相关参数。

本发明的有益效果在于：

(1)本发明提出一种特征筛选方法，用于网络流量特征预处理。第一阶段，通过Fisher Score评价特征集中的所有特征重要性，并依此进行特征排序；第二阶段，利用最大信息系数评价特征与特征之间的相关性，从而确定冗余特征，重新对排序结果进行调整；最后依据SVM学习算法分类精度来选择特征子集，相比传统仅仅只用归一化处理网络流量特征，本发明提出的方法克服了时间复杂度过高、局部最优缺陷等问题，所得到的网络流量数据冗余特征较少，用于数据训练可使得分类结果精度较高。

(2)本发明改进GRU结构，通过修改其候选隐状态激活函数，同时添加残差连接，有效解决原始GRU梯度消失与网络退化问题，使其对长序列特征更为鲁棒，从而对网络流量特征的检测性能更加优越。同时对于使用非饱和激活函数而可能导致的梯度*** 隐患，本发明采用批标准化方法来解决，在此基础上，将模型继续进行优化，设计为双向残差GRU结构，用于提取网络流量特征。由饱和激活函数带来的梯度消失会影响神经网络的检测与提取性能，虽然LSTM与GRU相比传统RNN具备缓解梯度消失问题能力，但这种缓解非常有限，本发明相对传统技术，提取网络流量特征性能更为优越。

(3)本发明针对网络数据分类预测不平衡导致的分类精度低问题，提出基于两步博弈集成的动态ELM方法进行数据生成扩增。该方法采用数据处理与模型更新联合策略，进而自动匹配样本的结构变化；在数据处理阶段，利用生成对抗动态ELM模型生成少数类样本片段，平衡不同类别样本分布，减缓了由于样本不均造成的问题；本发明的数据生成方法融合博弈对抗策略和主成分分析阈值判决，保证每个样本片段真实性；在模型更新阶段，根据损失程度和初始权重，建立新权重与个体模型之间关系，采用博弈论中的集合模型计算组合权重，形成稳定的网络体系结构，提高了模型对快速变化数据的拟合效果，使得最终的分类精度进一步提高。

(4)本发明针对网络异常流量的检测，通过预处理模型、特征抽取模型、数据生成模型、分类模型的组合，提高了网络流量的检测精度，具体地，预处理模型可有效对流量特征进行筛选，特征抽取模型可对筛选结果进一步进行抽取，数据生成模型通过生成少数类样本片段减缓了样本不平衡带来的问题，分类模型使用集成学习的方式组合多个基分类器构成强分类器，提升了分类的准确度；本发明的网络异常流量检测使用的多个模型组合为一个有机的整体，共同起到了提升网络异常流量检测准确度的技术效果。

附图说明

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是网络特征流量预处理选择的流程示意图；

图2是GRU单元结构示意图；

图3是残差GRU单元结构示意图；

图4是双向GRU变形结构示意图；

图5是双向残差GRU特征检测流程示意图；

图6是集成动态数据生成框架示意图；

图7是生成器架构示意图；

图8是判别器架构示意图；

图9是集成动态ELM样本分类流程示意图；

图10是双向残差GRU与集成动态ELM的网络异常流量检测与分类示意图；

图11a-d是本发明实施例中不同训练集与测试集组合下的准确率对比图，其中图11a 给出了训练集50％+测试集50％的准确率对比图，图11b训练集60％+测试集40％的准确率对比图，图11c给出了训练集70％+测试集30％的准确率对比图，图11d给出了训练集75％+测试集25％的准确率对比图；

图12a-d分别给出了训练迭代轮数分别在10、20、25及30轮时学习率与基学习器权重对于模型训练损失率影响的对比图，其中图12a给出了训练迭代轮数10轮时学习率与基学习器权重对于模型训练损失率影响的对比图，图12b给出了训练迭代轮数20、 30轮时学习率与基学习器权重对于模型训练损失率影响的对比图，图12c给出了训练迭代轮数25轮时学习率与基学习器权重对于模型训练损失率影响的对比图，图12d给出了训练迭代轮数30轮时学习率与基学习器权重对于模型训练损失率影响的对比图；

图13a-b分别给出了两种流量类型(正常流量Normal、攻击流量Attack)在不同检测方法下的ROC曲线，其中图13a给出了正常流量Normal类型在不同检测方法下的 ROC曲线，图13b给出了攻击流量Attack类型在不同检测方法下的ROC曲线；

图14a-d分别给出了NSL-KDD数据集中的Probe、DoS、R2L及U2R四种攻击流量数据在不同检测方法下的ROC曲线对比图，其中，图14a给出了Probe攻击流量数据在不同检测方法下的ROC曲线对比图，图14b给出了DoS攻击流量数据在不同检测方法下的ROC曲线对比图，图14c给出了R2L攻击流量数据在不同检测方法下的ROC 曲线对比图，图14d给出了U2R攻击流量数据在不同检测方法下的ROC曲线对比图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、 “第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

结合上述介绍，下面将对本发明中网络异常流量监测的方法进行介绍，请参阅图10，本发明实施例中异常流量监测的方法一个实施例包括

101、实验数据集选取

仿真实验数据选自NSL-KDD数据集，该数据集不仅能有效地解决KDDCup99数据集固有的数据冗余问题，使得训练集与测试集中的记录数目合理，同时也添加了一个新的difficulty level属性，该属性使每个连接与该记录在KDD数据集的比例成反比，突出了不同机器学习方法的分类率差异，更有利于准确评估不同学习技术的效率。训练集包括前7周总共超过500万条网络连接记录，被保存为二进制TCPdump压缩数据，该 TCPdump数据超过4GB，测试集包括最后2周超过200万条的网络连接记录，网络数据按照src流向dst。具体分类为：若为正常连接记录则被标记为normal，否则被标记为一个明确类型的入侵(attack)，如表1所示。

表1NSL-KDD数据集

102、特征优化选择与数据集预处理

第一阶段，特征重要度分析，按照改进算法分别计算每一个特征Fisher Score值并按Fisher Score值进行特征排序；第二阶段，利用最大信息系数评价特征之间的冗余性，重新对特征进行排序，将结果添加至支持向量机，再使用正向添加策略，对特征子集进行扩充，添加至最后一个特征，以分类准确率作为特征选择子集依据。经过两个阶段选择后特征子集作为最后特征子集。

对于NSL-KDD数据集，分别在不同训练集与测试集组合下进行验证分析。具体为：在训练集上各特征选择算法选择出相应的样本特征，然后在测试集中仅保留筛选出特征，由支持向量机(SVM)对测试样本进行预测，并计算预测样本的正确率，得出相应的实验分类结果。本次实验中选择5种对比算法，分别是：高效鲁棒特征选择算法(RFS)、拉普拉斯得分法(LaplacianScore)、局部敏感半监督特征选择(LSDF)、基于相关性和冗余标准的半监督特性选择(RRPC)、重新调节线性回归的半监督特征选择算法(RLSR)。同时由于随机地选择样本，这可能导致分类准确性不稳定，因此每次实验进行20次，以获得具有高可靠性的实验结果，并采用平均值作为对比的结果，图11a-d给出了训练集 50％+测试集50％、训练集60％+测试集40％、训练集70％+测试集30％及训练集75％+ 测试集25％的准确率对比图。

图11a-d示出了不同训练集与测试集组合下的准确率对比。从图11a-d可以看出，在四种不同训练集与测试集组合下，本发明提出的特征选择算法均优于所比较的特征选择算法。但是对比图图11a-d，可以看出当训练集75％与测试集25％组合时，各个方法获得的准确率都较好，同时随着选择的特征数的增加，本发明提出方法的分类精度也会随之提高，这表明改进Fisher Score与最大信息系数特征选择方法可以利用最优特征子集选择来提高分类精度，验证了本发明方法的有效性。

103、双向残差GRU提取网络流量特征

网络数据集经过Fisher Score与最大信息系数预处理方法进行特征选择，得到无冗余与最优的特征子集，然后特征集数据进入双向残差GRU网络结构进行特征提取检测，加入一个dropout层来防止过拟合并加快训练过程，之后通过1个Flatten层来将多维输入进行一维化操作，用于从卷积层过渡到全连接层，最后使用2个全连接层将前述所有网络层综合起来。

104、集成动态ELM优化

图12a-d分别给出了训练迭代轮数分别在10、20、25及30轮时学习率与基学习器权重对于模型训练损失率影响的对比图。从图12a-d可看到，不同的训练迭代轮数与学习率参数对于模型训练影响较大，当训练轮数较少(图12a)时，模型存在欠拟合情况，因此导致损失率较大，当训练轮迭代轮数较大(图12d)时，又存在过拟合情况，也会导致损失率较大；从图12a-d的四种模型也可看出，当学习率过小时，虽然能保证模型的收敛性，但会降低优化速度，此时将需要更多轮的迭代才能达到一个比较理想的优化效果。而当学习率过大时，可能导致参数在极优值两侧来回移动，无法寻找到最优值，导致模型训练不佳，损失率较大；同时，也从图12a-d看出，提出的集成动态ELM中基学习器权重参数对于模型训练的影响较大，当基学习器权重较小时，在训练过程中，模型损失都会很大，因此适宜选择权重对于模型训练非常重要，因此根据上述实验分析，本发明设计训练轮数为25轮，此时的模型训练损失最小，训练效果最好。

105、网络异常流量分类预测

(1)、二分类验证

实验将NSL-KDD数据集的四类攻击合并为Attack，正常流量记为Normal，进行二分类对比实验，图13a-b给出了两种流量类型在不同检测方法下的ROC曲线。

从图13a-b可看到，在各算法中，无论检测正常数据还是攻击类型数据，本发明方法检测的AUC值均较优，其中4种传统机器学习方法的AUC值都较低，这是传统机器学习方法对于网络流量特征数据的处理效果一般，能够检测与提取到的特征较少，对于流量类型分类效果较差。在大多数情况下，KNN、DT及RF三种方法的AUC值均低于SVM方法，这是因为SVM方法比较适用于二分类任务；9种深度学习方法中，CNN 取得的AUC值最差，RNN、DBN及LSTM三种方法取得的AUC较为相近，但是AUC 值均在0.85以下；这是因为此三种方法在分类过程中，都容易产生梯度消失问题，导致分类效果不佳；GRU、ELM、FARF-OSKBIELM、Hessian-ELM都是基于半监督学习的分类方法，因此取得的AUC值较之前述几种方法都好，但是较之本发明方法，AUC值都略低。这充分说明，ELM潜在的参数问题对于分类性能的影响，突出了本发明方法的必要性。验证了基于双向残差GRU与集成动态ELM网络异常流量检测方法对于二分类的入侵检测具有较好地检测性能。

表2给出了各算法的精确率、真正率、假正率、F值及AUC值对2分类进行评价的实验对比。从表2可知，对于测试精确率对比，四种传统机器学***均精确率为81.679％，但比本发明方法的平均精确率低了9.61％，而精确率最差的为KNN方法，平均精确率仅为65.609％，比本发明方法的平均精确率低了25.68％。DT与RF两种方法虽在检测Attack流量时，精确率较高，但是对于Normal流量的检测精确率却较低，因此稳定性一般，分类效果不佳。而9种深度学***均检测率为70.315％与77.274％，此两种方法都是由于其自身神经网络的训练损失而导致的检测结果不佳。剩余7种方法中精确率虽都在80％以上，但检测精确率最高的为本发明方法，平均检测精确率为91.289％，均高于其它深度学***均召回率为82.161％，高于CNN与 RNN两种检测方法，但是却低于其余7种深度学***均召回率分别为84.752％、 84.982％及88.719％，分别比本发明方法低了8.456％、8.266％及4.489％。ELM、FARF- OSKBIELM及Hessian-ELM三种方法都与ELM方法相关，其中平均召回率最高的是Hessian-ELM方法，平均为91.076％，比本发明方法低了2.132％，因此综合对比召回率，本发明方法具有很大优越性。对于误报率对比情况，每种方法在检测Attack流量时取得的误报率都低于Normal流量数据，这是由于测试集是随机选取数据集的数据组成，其 Attack流量比Normal流量所占比重大，相比其它检测方法，本发明方法检测取得的误报率最低，平均为1.846％，远低于4种传统的机器学***均值F-mesure的对比来看，几种传统的机器学***均仅为69.557％，本发明模型取得的F- mesure值最好，在9种深度学***均调和值是最大的，平均为92.239％，均高于其它检测方法。对于AUC值对比情况，从图13a-b与表2可知，本发明AUC值均较优，这是因为本发明在训练过程选择了合适的训练轮数，使得数据丢失率较小。综上，通过对比几类参数，验证可以得出本发明方法对于二分类任务的优越性，从而也验证了本发明方法在网络异常流量检测中的整体性能优越性。

表2各算法的性能评价指标

(2)、多分类验证

为了验证本发明在多分类任务中的分类性能，实验将NSL-KDD数据集中的Normal、Probe、DoS、R2L及U2R各为一类，给出四种攻击流量数据在不同检测方法下的ROC 曲线对比图(篇幅原因，不再给出Normal的ROC曲线图)，具体如图14a-d所示。

从图14a-d可看出，四种Attack流量类型中，Probe类型流量获得的AUC值是最好的，R2L流量类型获得的AUC值是最差的，这是因为R2L流量类型本身属于来自远程的非授权访问攻击，其特征难以检测，能够获得的有用特征较少，因此分类效果较差。同时从四种Attack流量类型的ROC曲线可以看出，传统机器学习方法取得的AUC值都比较低，原因与二分类任务中论述的一致。9种深度学习方法中，本发明方法获得的 AUC值均是最优，除了R2L类型流量，其余三种Attack流量类型的AUC值均在0.85 以上，突出了本发明方法的有效性，验证了多分类任务的有效性与优越性。

表3～7给出了5种流量类型在不同的算法上精确率、真正率、误报率、F值及AUC 值进行的实验对比。从表3可知，对于Normal流量类型数据，4种机器学***均精确率为68.845％，召回率平均为77.264％，但误报率却平均高达16.240％，F–mesure值平均为72.764％， AUC值平均为0.625，因此分类效果一般。本发明方法的分类性能在9种深度学习方法中是最好的，取得的参数值都是最优，性能均有很大提升，因此对于Normal流量的分类效果较好。

表3各算法在Normal上的性能评价指标

从表4可知，对于Probe流量的检测，四种机器学***均为87.723％，比本发明方法低了5.401％，平均召回率为88.199％，比本发明低了4.17％，平均F-mesure 为87.960％，比本发明低了4.785％，平均AUC为0.888，比本发明方法低了0.059。这是由于此四种神经网络方法在训练时存在过拟合情况，导致训练结果不佳，分类性能不好。GRU、ELM、FARF-OSKBIELM及Hessian-ELM四种方法的检测精确率均高于90％，其中检测精确率与AUC最好的为Hessian-ELM方法，为92.363％与0.934，分别比本发明低了0.761％与0.13，召回率与F–mesure最好的为FARF-OSKBIELM方法，分别为 92.362％与92.173％，比本发明低了0.07％与0.572％，同时本发明方法的误报率最低，为0.696％，由此验证了对于Probe流量检测的有效性。

表4各算法在Probe上的性能评价指标

从表5可知，对于Dos流量的检测，四种机器学***均检测精确率为70.477％，平均召回率为73.904％，平均F-mesure值为72.178％，平均AUC值为 0.745，分别比比本发明方法低了22.509％、19.454％、20.994％及0.186，同时四种机器方法的误报率也较高，平均高达16.907％，比本发明高了15.824％。9种深度学***均为检测准确率为84.377％，平均召回率为86.334％，平均F-mesure值为 85.344％，平均AUC值为0.867，均比本发明方法低。而ELM、FARF-OSKBIELM及Hessian-ELM三种方法的精确率、召回率及F-mesure值虽都在90％以上，但是低于本发明方法，同时三种方法的误报率平均为3.078％，比本发明方法高了1.995％，因此稳定性弱于本发明方法。本发明方法根据残差结构优化检测模型，改善了检测模型存在的过拟合与网络退化情况，因此对于Dos流量的分类性能最好。

表5各算法在Dos上的性能评价指标

从表6可知，对于U2R流量检测，4种传统机器学***均精确率为87.681％，平均召回率为87.125％，平均F-mesure值为87.401％，平均 AUC值为0.884，均比本发明方法低；FARF-OSKBIELM与Hessian-ELM两种方法的分类性能参数虽然较好，但是当检测样本较少时，也会出现检测不稳定的现象，会导致误报率过高，同时这也证明了本发明引入集成动态ELM生成数据的必要性，验证了对于 U2R检测的有效性。

表6各算法在U2R上的性能评价指标

从表7可知，对于R2L流量类型检测情况，无论是4种机器学***均检测准确率为56.599％，平均召回率为60.187％，平均F-mesure 值为58.328％，平均AUC值为0.657，均远低于本发明方法，但是与CNN方法较为相近，原因与前述一致。9种深度学习方法的精确率都低于90％，但是相比较其他方法，本发明方法的性能还是最好，分类效果较为理想。

表7各算法在R2L上的性能评价指标

综上，从表3～7的各项性能参数对比来看，本发明检测模型无论是对Normal数据还是四种攻击数据，其取得的性能指标值都比较好，能够对NSL-KDD的数据集进行有效分类，由此验证了本发明方法对于多分类任务的有效性与优越性。

(3)、时间复杂度分析

为了进一步验证本发明方法在时间复杂度上的优越性，实验选择9种深度学习方法在不同网络层数下的困惑度(Perplexity,PPL)值(其值越小越好)与时间消耗(时间越短越好)对比，具体如表8所示。

表8 9种深度学习方法的时间复杂度对比

通过表8可以发现，神经网络层数设置会影响到训练模型的性能与时间消耗，其中CNN、RNN及DBN这三种方法在这个实验任务中的表现并不理想。与GRU及LSTM 的测试结果相对比，CNN的性能较差，其PPL值达到了144.36，在网络层数增加到5 层时，PPL值虽有一定减小，但还是很大，为135.19，同时其时间消耗也是9种方法中最高的。其余各方法的PPL值，相对较小，但是随着网络层数的增加，其时间也在不断增大，但是PPL值变化较小，因此效果并不理想。几种方法中，时间消耗最短的为GRU 方法，但是PPL值过大，本发明方法之所以比GRU与ELM方法的时间消耗高，是因为本发明方法使用残差GRU进行优化网路，利用两步博弈ELM进行数据生成与更新，因此时间复杂度较高，但在9种方法中，其PPL值最低，因此性能最好。同时也可看出，当网络层数不断增加时，其PPL值会相应减小，但时间消耗也会增大，因此综合对比，当网络层数为5层时，效果最佳，此时本发明方法的时间消耗为43.13S，在可接受范围之内，复杂度较为适宜。

(4)、泛化能力及鲁棒性验证

为了进一步验证本发明方法的鲁棒性与复杂环境适用性，实验分别在被测样本在不同程度的噪声干扰下，设置数据属性特征破坏率分别为0.1，0.2及0.3，对比9种深度学***均值，实验结果如表9所示。

表9多分类场景不同模型检测含噪流量的准确率

由表9可知，当被测数据特征遭到破坏时，基于CNN的异常检测模型流量检测准确率最差，RMSE值最大，因此受到的影响最大，随着破坏率增大其准确率持续下降， RMSE值持续增大；基于RNN、DBN、LSTM及GRU的检测准确率下降幅度较前者小，但是RMSE值还是较大，因此检测模型不稳定。而在ELM、FARF-OSKBIELM与 Hessian-ELM三种方法的稳定性能相较前述几种方法较好，但加大特征破坏率也会进一步降低其准确率，相比较本发明方法，准确率下降幅度较大，RMSE值增大幅度较大，本发明方法随着破坏率增大会有性能下降，但是幅度较小，在可接受范围之内，由此验证了本发明方法的稳定与鲁棒性。

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，但本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种网络异常流量检测方法，其特征在于，

根据目标网络流量数据获取目标流量特征信息，其中，所述目标网络流量特征信息为对目标原始收发数据预处理得到的，所述目标原始收发数据属于所述目标网络流量数据；所述预处理包括特征筛选步骤，所述特征筛选步骤包括对特征重要性排序、冗余信息删除、信息最大化处理，所述的信息最大化处理使用SVM模型预测所述目标网络流量的异常结果，根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优；

根据所述目标网络流量信息生成网络异常流量检测结果。

2.如权利要求1所述的网络异常流量检测方法，其特征在于，所述检测准确度训练包括特征抽取步骤、数据生成步骤和分类步骤，

所述特征抽取步骤采用双向残差GRU模型，将GRU的候选隐状态激活函数改为线性整流函数；

所述数据生成步骤采用生成对抗网络的形式，通过两个动态ELM相互对抗，生成少数类样本片段，同时利用信息熵量化整体拟合程度，并根据所述特征抽取步骤后的样本数据的主成分分析结果，对生成的所述少数类样本片段进行筛选；

所述分类步骤采用集成学习方法将基分类器组合成强分类器，其中，基分类器为ELM结构。

3.一种网络异常流量检测模型，其特征在于，包括预处理模型、特征抽取模型、数据生成模型、分类模型；

所述数据生成模型采用生成对抗网络的形式，通过两个动态ELM相互对抗，生成少数类样本片段，同时利用信息熵量化整体拟合程度，并根据所述特征抽取步骤后的样本数据的主成分分析结果，对生成的所述少数类样本片段进行筛选；

4.如权利要求3所述的网络异常流量检测模型，其特征在于，所述双向残差GRU模型将原有GRU候选隐状态激活函数改为非饱和激活函数，优选地，将原始GRU候选隐状态激活函数改为线性整流函数，并在GRU候选隐状态中引入残差结构。

5.如权利要求3所述的网络异常流量检测模型，其特征在于，所述数据生成模型采用生成对抗网络的形式，通过两个动态ELM相互对抗，生成少数类样本片段，同时利用信息熵量化整体拟合程度，并根据所述特征抽取步骤后的样本数据的主成分分析结果，对生成的所述少数类样本片段进行筛选。

6.一种网络异常流量检测模型训练的方法，其特征在于，包括：

获取流量特征优化信息，其中，所述流量特征优化信息采用双向残差GRU模型对所述目标网络流量特征进行特征抽取，所述双向残差GRU模型将原有GRU候选隐状态激活函数改为非饱和激活函数，优选地，将原有GRU候选隐状态激活函数改为线性整流函数，并在GRU候选隐状态中引入残差结构；

生成少数类样本片段，其中，根据所述流量特征优化信息生成少数类样本片段，所述少数类样本片段通过两个动态ELM相互对抗生成；

7.一种网络异常流量检测***，其特征在于，包括：

获取模块，所述获取模块获取目标网络流量数据；

预处理模块，所述预处理模块对所述目标网络流量数据进行预处理以获取目标流量特征信息，优选地，所述预处理模块基于改进Fisher Score与最大信息系数对目标网络流量特征进行选择，并使用SVM模型预测所述目标网络流量的异常结果，根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优，筛选目标特征集合；

8.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至3中任一项所述的方法，或执行如权利要求6中所述的方法。