CN112784881A - 网络异常流量检测方法、模型及*** - Google Patents

网络异常流量检测方法、模型及*** Download PDF

Info

Publication number
CN112784881A
CN112784881A CN202110013425.6A CN202110013425A CN112784881A CN 112784881 A CN112784881 A CN 112784881A CN 202110013425 A CN202110013425 A CN 202110013425A CN 112784881 A CN112784881 A CN 112784881A
Authority
CN
China
Prior art keywords
model
target network
gru
information
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110013425.6A
Other languages
English (en)
Other versions
CN112784881B (zh
Inventor
史增树
杜怡曼
杨滨茂
麻文刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Southwest Jiaotong University Shengyang Technology Co ltd
Original Assignee
Beijing Southwest Jiaotong University Shengyang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Southwest Jiaotong University Shengyang Technology Co ltd filed Critical Beijing Southwest Jiaotong University Shengyang Technology Co ltd
Priority to CN202110013425.6A priority Critical patent/CN112784881B/zh
Publication of CN112784881A publication Critical patent/CN112784881A/zh
Application granted granted Critical
Publication of CN112784881B publication Critical patent/CN112784881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于残差门控循环单元(Re‑GRU)与集成动态极限学习(ELM)优化的网络异常流量检测方法、模型及***。首先建立Fisher Score与最大信息系数的特征优化方法;其次将原有GRU候选隐状态激活函数改为非饱和激活函数,并在GRU候选隐状态中引入残差结构,从而避免梯度消失问题,使网络对梯度变化更敏感,达到缓解网络退化的目的。然后模型优化设计为双向残差GRU结构,使得模型提取网络流量特征性能更优越;最后提出两步博弈的集成动态ELM网络流量检测方法,利用全连接层与Dropout层缓解过拟合问题以提升检测精度,输出检测结果。本发明通过搭建实验仿真模型,根据不同参数对比结果验证有效性,相比于传统检测方法本发明在检测网络异常流量时具有更好的检测效果与精确率。

Description

网络异常流量检测方法、模型及***
技术领域
本发明属于互联网技术领域,涉及一种网络异常流量监测的方法、模型、模型训练的方法及***。
背景技术
随着网络技术的快速发展,网络结构越来越趋于复杂,由此发生网络入侵及异常流 量攻击的风险也越来越大,如何辨识各种网络入侵成为人们高度关注的问题。而网络规模、网络速率及入侵类型的持续增大与增多,使得入侵检测技术面临越来越多的挑战。 因此如何设计一种面向复杂网络环境与未来智能化的网络入侵检测方法,同时提高入侵 检测的检测精度、降低漏报率,改善检测性能成为了相关领域关注的核心问题。
针对不同的网络环境,很多检测方法已经被提出,其中基于流量特征提取优化的分 类判决方法是当前的主流检测方法,该类方法包含特征优化、样本训练及分类判决等环节,同时考虑到网络流量数据较大且很难直接用于异常流量分类,获取数据后一般都要 进行数据预处理与特征选择,随后经过训练模型的不断训练,结合分类技术进行网络流 量的异常检测分类。当前比较流行的特征提取与样本训练为深度神经网络、卷积神经网 络及循环神经网络。
其中循环神经网络具有捕获长序依赖的能力,因此它被广泛应用于数据特征分类、 样本训练分类及机器翻译等领域。然而普通循环神经网络会因为梯度消失(VanishingGradient)与梯度***(Exploding Gradient)问题而变得不稳定,于是研究人员提出一种长 短期记忆单元(Long Short Term Memory,LSTM)的神经网络来改善上述问题。虽然LSTM确实有效,但其门限繁杂导致检测结果不理想,检测性能随着网络层数的增加而越来越 糟糕。现有方法中,Highway-Networks方法能够缓解网络的退化问题,但这种方法会增 加网络参数量与训练耗时。而近两年备受关注的SRU网络也包含了类似Highway- Networks结构,同时SRU舍去了循环单元中的时间参数,因此在运行快速的同时也能 够进行更深层的网络训练,但是在复杂网络环境中进行检测时,还是会出现梯度消失问 题。再者,随着数据流的间断性到达,初始样本的不平衡度难以恒定。在当前的网络流 量样本区间内,也会出现标签严重不平衡与不平衡度偏转现象,而采用邻域样本重采样 与欠采样数据处理方式,难以保证新样本可信度,新增数据信息可能导致过拟合现象。 尤其是针对多类标签分类,将多分类问题分解为多个二分类问题,会造成模型冗余与难 以计算等问题。如果不能建立模型与数据之间关系,会导致分类器受限于多个参数类别, 难以获得最优权重,无法保证模型稳定性。
复杂的网络流量存在多类样本标签,而传统循环神经网络(Recurrent NeuralNetwork, RNN)在网络异常检测时易发生梯度消失和网络退化问题,导致检测精度较低与漏报率 较高。因此设计发明一种能够改善神经网络梯度消失的方法对于网络流量检测具有重要 意义,能够使得后续检测更加有效,检测性能更加优越。
发明内容
为了实现以上目的,本发明提出一种网络流量异常信息检测方法、模型、模型训练的方法及***,从而可以监测网络流量异常信息,提升检测的准确度。
有鉴于此,本发明的第一方面提供了一种网络异常流量检测方法,包括:
根据目标网络流量数据获取目标流量特征信息,其中,所述目标网络流量特征信息 为对目标原始收发数据预处理得到的,所述目标原始收发数据属于所述目标网络流量数 据;
通过目标网络异常流量检测模型确定所述目标网络流量特征信息所对应的目标网 络流量异常信息,其中,所述目标网络异常流量检测模型是通过对流量信息进行检测准确度训练生成的;
根据所述目标网络流量信息生成网络异常流量检测结果。
具体地,所述预处理包括特征筛选步骤,所述特征筛选步骤包括对特征重要性排序、 冗余信息删除、信息最大化处理,所述的信息最大化处理使用支持向量机(SVM)模型预测所述目标网络流量的异常结果,根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优。
具体地,所述检测准确度训练包括特征抽取步骤、数据生成步骤和分类步骤,所述特征抽取步骤采用双向残差GRU模型,将门控循环单元(GRU)的候选隐状态激活函数 改为线性整流函数(Rectified Linear Unit,ReLU),有效克服梯度消失的问题,同时, 使用残差结构有效缓解网络退化的问题。具体地,每个GRU处理单元仅有两个门限, 并且GRU单元只有一个时序输出,所以GRU在保证能有效传递时序相关信息的条件 下,拥有更少参数量。本发明通过对GRU改进来解决梯度消失与网络退化的问题,由 于GRU输出值与前一时刻隐状态的输出值共同决定GRU隐状态的最终输出,因而本 发明改进主要针对GRU候选隐状态公式,将GRU候选隐状态激活函数改为线性整流 函数,并参考CNN中的残差网络方式添加残差结构与改变GRU激活函数连接,再运 用批标准化(Batch Normalization,BN)性质,可消除传统GRU中梯度消失与网络退 化。
具体地,所述数据生成步骤采用生成对抗网络的形式,通过两个动态集成动态极限 学***衡不同类别样本分布,同时利用信息熵量化整体拟合程度,并根据所述特征抽取步骤后的样本数据的主成分分析(PrincipalComponent Analysis,PCA)结果,对生成的所述少数类样本片段进行筛选,解决了数据 标签平衡度偏移与重构数据不准确的问题;所述分类步骤采用Adaboost集成学习方法, 将个体预测模型组合成强分类器,个体预测模型为ELM结构,也被称作基分类器,即 所述分类步骤将基分类器组合成强分类器。
具体地,本发明利用非饱和激活函数克服梯度消失问题,同时借鉴卷积神经网络(Convolutional Neural Network,CNN)中的残差结构缓解网络退化,在门控循环神经网络(Gated Recurrent Unit,GRU)的基础上设计一种改进的残差门控循环单元(Re-GRU)与集成动态极限学习(ELM)优化的网络异常流量检测方法。
本发明的第二方面提供了一种网络异常流量检测模型,包括预处理模型、特征抽取 模型、数据生成模型、分类模型;
所述预处理模型基于改进Fisher Score与最大信息系数对目标网络流量特征进行选 择,并使用SVM模型预测所述目标网络流量的异常结果,根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优;
所述特征抽取模型基于双向残差GRU模型对所述目标网络流量特征进行抽取;
所述数据生成模型采用生成对抗网络(Generative Adversarial Networks,GAN)的形式, 通过两个动态ELM相互对抗,生成少数类样本片段,同时利用信息熵量化整体拟合程 度,并根据所述特征抽取步骤后的样本数据的主成分分析结果,对生成的所述少数类样本片段进行筛选;
所述分类模型采用集成学习方法使用多个基分类器对目标网络流量异常结果进行 预测,其中所述多个基分类器为ELM结构。
具体地,所述双向残差GRU模型将原有GRU候选隐状态激活函数改为非饱和激活函数,优选地,将原有GRU候选隐状态激活函数改为线性整流函数,有效克服梯度消 失的问题,并在GRU候选隐状态中引入残差结构,使其对长序列特征更为鲁棒,有效 缓解网络退化的问题。
具体地,残差结构进行优化GRU后,本发明针对每个训练序列分别提出不同的GRU网络,为双向残差GRU结构。优化后的双向残差GRU模型不仅能为输出层提供输入 序列历史信息,也为输入序列的每个时间节点提供未来信息,包含六个独特权值,且每 个权值在每一个时序中被重复利用,权值分别为:输入层到前向隐藏层(w1)、前向隐藏 层到隐藏层(w2)、输入层到后向隐藏层(w3)、前向隐藏层到输出层(w4)、后向隐藏层到 隐藏层(w5)、后向隐藏层到输出层(w6),具体如图4所示。在一个具体的实施方式中, 本发明优选使用128个核双向残差GRU模型提取网络数据集特征,具体流程:网络数 据集经过Fisher Score与最大信息系数预处理方法进行特征选择,得到无冗余与最优的 特征子集,然后特征集数据进入双向残差GRU网络结构进行特征提取,加入一个dropout 层来防止过拟合并加快训练过程,之后通过1个Flatten层来多维输入进行一维化操作, 最后使用2个全连接层将前述所有网络层综合起来。其中第一个层参数为128个核,激 活函数为ReLU,第二个层选择与输出维度大小一致的2个核,且激活函数为sigmoid。
具体地,所述数据生成模型采用生成对抗网络(Generative AdversarialNetworks,GAN) 的形式,通过两个动态ELM相互对抗,生成少数类样本片段,同时利用信息熵量化整 体拟合程度,并根据所述特征抽取步骤后的样本数据的主成分分析结果,对生成的所述 少数类样本片段进行筛选。
具体地,数据生成模型通过生成模型与判别模型相互博弈来获得“以假乱真”的样本 数据。生成器G通过特征表征,得到与原数据片段相似的数据序列;判别器D通过二值 分类,区分真实数据与生成数据。二者相互对抗博弈提高模型映射能力,直到生成器G 与判别器D无法继续提升自身性能,则得到足够真实生成样本,达到数据生成扩增的效 果。
本发明的第三方面提供了一种网络异常流量检测模型训练的方法,包括:
获取目标网络流量数据,对所述目标网络流量数据进行预处理以获取目标流量特征 信息,其中所述预处理基于改进Fisher Score与最大信息系数对目标网络流量特征进行 选择,并使用SVM模型预测所述目标网络流量的异常结果,根据所述目标网络流量的 异常结果的预测结果判断所述目标网络流量特征集合是否最优,筛选目标特征集合;
获取流量特征优化信息,其中,所述流量特征优化信息采用双向残差GRU模型对所述目标网络流量特征进行特征抽取,所述双向残差GRU模型将原有GRU候选隐状 态激活函数改为非饱和激活函数,优选地,将原有GRU候选隐状态激活函数改为线性 整流函数,有效克服梯度消失的问题,并在GRU候选隐状态中引入残差结构,有效缓 解网络退化的问题;
生成少数类样本片段,其中,根据所述流量特征优化信息生成少数类样本片段,所述少数类样本片段通过两个动态ELM相互对抗生成,解决了数据标签平衡度偏移与重 构数据不准确的问题;
对所述流量特征优化信息和所述少数类样本片段进行训练,得到集成动态ELM模型参数,生成目标网络流量异常检测模型,所述目标网络流量异常检测模型用于检测流 量异常信息。
在一个具体的实施方式中,本发明优选使用128个核双向残差GRU模型提取网络数据集特征,具体流程:网络数据集经过Fisher Score与最大信息系数预处理方法进行 特征选择,得到无冗余与最优的特征子集,然后特征集数据进入双向残差GRU网络结 构进行特征提取,加入一个dropout层来防止过拟合并加快训练过程,之后通过1个 Flatten层来多维输入进行一维化操作,最后使用2个全连接层将前述所有网络层综合起 来。其中第一个层参数为128个核,激活函数为ReLU,第二个层选择与输出维度大小 一致的2个核,且激活函数为sigmoid。
本发明的第四方面提供了一种网络异常流量检测***,包括:
获取模块,所述获取模块获取目标网络流量数据;
预处理模块,所述预处理模块对所述目标网络流量数据进行预处理以获取目标流量 特征信息;
特征抽取模块,所述抽取模块获取流量特征优化信息,其中,所述流量特征优化信息采用双向残差GRU模型对所述目标网络流量特征进行特征抽取;
数据生成模块,所述数据生成模块根据所述流量特征优化信息生成少数类样本片段, 其中,所述少数类样本片段基于双向残差GRU模型抽取结果通过两个动态ELM相互 对抗生成;
检测模块,所述检测模块对所述流量特征优化信息和所述少数类样本片段进行训练, 得到集成动态ELM模型参数,生成目标网络流量异常检测模型,所述目标网络流量异常检测模型用于检测流量异常信息。
具体地,所述预处理模块基于改进Fisher Score与最大信息系数对目标网络流量特 征进行选择,并使用SVM模型预测所述目标网络流量的异常结果,根据所述目标网络 流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优,筛选目标特征集 合。
本发明的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存 储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的目标网络流量异常检测方法,通过预处理步骤对原始特征进行筛选得到目 标特征集合,并通过改进GRU模型为双向残差GRU模型进行特征抽取,使其对长序 列特征更为鲁棒,缓解网络退化的问题,同时引入动态ELM博弈,生成少数类样本片 段实现样本数据生成扩增,减缓了由于样本不均衡造成的问题,从而提升了目标网络流 量异常检测精度和检测准确度。
本发明的网络异常流量检测***通过预处理模型、特征抽取模型、数据生成模型、分类模型的组合,提高了网络流量的检测精度,具体地,预处理模型可有效对流量特征 进行筛选,特征抽取模型可对筛选结果进一步进行抽取,数据生成模型通过生成少数类 样本片段减缓了样本不平衡带来的问题,分类模型使用集成学习的方式组合多个基分类 器构成强分类器,提升了分类的准确度;本发明的网络异常流量检测使用的多个模型组 合为一个有机的整体,共同起到了提升网络异常流量检测准确度的技术效果。
在一种具体的实施方式中,本发明利用非饱和激活函数克服梯度消失问题,同时借 鉴卷积神经网络(CNN)中的残差结构缓解网络退化,在门控循环神经网络(GRU)的基础上设计一种改进的残差门控循环单元(Re-GRU)与集成动态极限学习机(ELM)优化的网 络异常流量检测方法。
第一,将原有GRU候选隐状态激活函数改为非饱和激活函数,并在GRU候选隐状 态中引入残差信息,从而避免由饱和激活函数带来的梯度消失问题,同时也使得网络对 梯度变化更敏感,达到缓解网络退化的目的,使其对长序列特征更为鲁棒。在此基础上, 将模型继续进行优化,设计为双向残差GRU结构,使得模型提取网络流量特征性能更 加优越。
第二,针对复杂的网络流量存在多类样本标签分类精度低问题,设计出了两步博弈 的集成动态ELM方法,即两个动态ELM相互对抗,解决数据标签平衡度偏移与重构 数据不准确的问题。该策略采用动态ELM博弈模型生成少数类样本片段,平衡不同类 别样本分布,保证每个样本片段真实性,同时利用信息熵量化整体拟合程度,建立权重 与损失程度之间的关系,采用博弈论集合模型计算组合权重,形成稳定的网络体系结构, 提高模型对快速变化数据拟合效果;
第三,利用全连接层与Dropout层缓解过拟合问题进一步提升检测精度,输出最终检测结果;
第四,在NSL-KDD数据集的基础上,首先根据改进Fisher Score与最大信息系数特征选择方法得到了最优的特征子集,利用不同方法在不同训练集与测试集组合下的准确率对比实验,得到最优的训练组合,同时与不同特征选择方法对比,验证了所提特征 选择预处理方法的有效性与优越性。然后选择一部分样本数据进行训练,分别得到了二 分类与多分类下的ROC曲线,并且同时得到了不同分类方法对于网络流量特征检测分 类的指标参数对比分析;
最后利用多种深度学习方法在检测过程中的PPL值、时间消耗及稳定性分析来进一 步验证其发明方法的有效性。
根据最终的参数对比表明,本发明基于双向残差GRU与集成动态ELM优化的检测方法性能较好,时间复杂度适宜,可有效用于网络流量特征的检测。
在一种具体的实施方式中,本发明的网络异常流量检测方法包括以下内容。
1、网络流量特征预处理
本发明通过对原始网络流量特征进行筛选预处理,使得所得到的网络流量数据的冗 余特征较少,用于后续的数据训练可使得特征分类结果精度较高。具体的预处理步骤包括以下内容。
结合Fisher Score与最大信息系数(MIC)构建一种新的网络流量特征优化选择方法。 首先,考虑到网络流量特征分布不均匀与重叠性问题,采用Fisher Score计算方法构建 特征指标重要度排序规则;之后在考虑冗余特征对有效特征表征的影响基础上,利用最大信息系数方法构建特征间的关联性评价,对冗余特征实现更新排序;在此基础上,以 分类准确率为判断依据,建立基于Fisher Score与最大信息系数的网络流量特征优化选 择方法。
1.1Fisher Score相关理论
假设存在一个样本集xk∈Rm,k=1,2,3,...,m,其中s类与q类的样本数分别为ns与nq。 第i个特征的Fisher Score被定义为:
Figure BDA0002885824650000081
其中:ui是第i个特征在数据集上的均值,
Figure BDA0002885824650000082
Figure BDA0002885824650000083
分别是s与q类数据集上的均值;
Figure BDA0002885824650000084
Figure BDA0002885824650000085
分别为第k个s类与q类第i个特征的特征值。Fisher Score值越大,特征辨别力 越强,但该模型针对二分类问题时,未考虑特征两类一致性问题,因此交叉系数思想被 提出,如下:
Mk=msk+mqk-msqk (2)
其中:Mk表示s类与q类两类特征xk的样本数,msk表示s类xk的样本数,mqk表示 q类xk的样本数,msqk表示s类与q类两类特征取值相同的样本数。针对分布均匀情况, 可利用交叉系数计算方法,而针对分布不均匀情况,又提出了一种多类之间的类间散度 计算方法:
Figure BDA0002885824650000086
其中:
Figure BDA0002885824650000087
代表选取两种类别s类与q类的所有可能组合,并进行求和,ns与nq分别代表第s类与q类的样本数,N为总体样本数,
Figure BDA0002885824650000088
Figure BDA0002885824650000089
分别代表第k个特征在第s类、 q类样本上的均值。综合特征表现为重叠性与分布不均匀情况,对多类Fisher Score值 计算方法进行优化,则有:
Figure BDA00028858246500000810
其中:N为代表去除重复特征值的样本总数,nj为第j类的样本数,
Figure BDA00028858246500000811
为第k个j 类第i个特征的特征值,
Figure BDA00028858246500000812
为第k个特征在第i样本上的均值,通过上述过程,可构建一 种特征指标重要度排序规则,进而对特征进行最优排序,获得特征重要度。
1.2最大信息系数更新排序
Fisher Score模型虽可以评价特征重要度,但无法确定特征之间的相关性及特征集中 的冗余特征。因此本发明利用信息论中的度量标准-最大信息系数方法,挖掘特征之间 的非函数依赖关系,具体如下:
假设存在一个有限有序对集合D{(xi,yi),i=1,2,3,...,n},将集合D中xi与yi构成散点, 并进行x×y的点阵形式划分,分别计算每个点阵中的I(X:Y),选取不同划分方式下 I(X:Y)的最大值作为划分x×y点阵下的互信息值。将最大I(X:Y)记为Max(I(X:Y));得到最大互信息值之后,按照式(5)操作完成归一化,得到最大信息系数,记为Mic(I(X:Y)),如下:
Figure BDA0002885824650000091
其中:Max(I(x,y))表示最大互信息值,B为网格划分x×y的上限值,随数据样本数n变化的增长函数。根据Mic(x,y)来判别特征之间的相关性,因此需给定n条样本特征集 F={f1,f2,...,fk},其特征数为k,将特征集的任意两类特征fi,fj相关性记为Mic(fi,fj)。Mic(fi,fj)值越大,说明特征fi与fj之间冗余性越强;当Mic(fi,fj)值为0时,则说明特 征fi与fj相互独立。由此对冗余特征定义如下:对于特征集F,特征fi与特征fj的Fisher Score值Fi>Fj,且Mic(fi,fj)>0.8,则视fi为fj的冗余特征。
1.3基于改进Fisher Score与最大信息系数特征选择方法
本发明设计的Fisher Score与最大信息系数的特征选择模型流程如图1所示,主要 分为两个阶段。
如图1,经过两个阶段选择后的特征子集作为最后特征子集,具体步骤如下:
输入:特征数据集F={f1,f2,...,fk}
输出:最优特征子集Fout
第一阶段:特征重要度分析
step1:通过式(4)依次计算特征数据集F中对应的Fisher Score值Fk
step2:对特征集F按Fk进行降序排列.
第二阶段:特征冗余度分析
step1:按照F排序,对F进行遍历,逐次选取Fk值较大的特征fi与比其Fk值小的特征fj计算Mic(fi,fj);
step2:判断Mic(fi,fj)>0.8,如果大于0.8,则将特征fj顺序F·调整至末端, 更新F并排序;
step3:遍历完成,输出Fout
2基于双向残差GRU的网络流量特征提取优化
利用非饱和激活函数可以有效克服梯度消失,借鉴卷积神经网络(ConvolutionalNeural Network,CNN)中的残差结构能够有效缓解网络退化的特性本发明在门控循环神经网络(Gated Recurrent Unit,GRU)基础上提出残差门控循环单元(Re-GRU)来缓解梯度消失与网络退化问题,同时将模型继续进行优化,引入残差结构,优化后的双向残差 GRU结构使得模型提取网络流量特征性能更加优越。
2.1残差门控循环单元
2.1.1门控循环单元
GRU为LSTM的简化改进,每个GRU处理单元仅有两个门限,并且GRU单元只 有一个时序输出,所以GRU在保证能有效传递时序相关信息的条件下,拥有更少参数 量,单元结构如图2所示,公式定义如下:
zt=σ(Ezxt+Rzht-1+Qz) (6)
st=σ(Esxt+Rsht-1+Qs) (7)
at=Tanh(EaRa(ht-1*st)+Qa) (8)
ht=(1-zt)*ht-1+zt*at (9)
其中,xt表示当前层t时刻的输入值,ht-1是t-1时刻状态的输出值,zt与st分别为t时刻更新门与重置门,更新门与重置门的激活函数σ是Sigmoid函数,at为t时刻的候 选隐状态,ht表示当前时间的状态向量,t Tanh是候选隐状态的双曲正切激活函数(hyperbolic tangent activation function,Tanh),模型权重参数是Ez、Es、Ea及Rz、Rs、Ra,偏置向量为Qz、Qs、Qa
2.1.2残差优化
在循环神经网络中,梯度消失与网络退化尤为严重,本发明通过对GRU改进来解决。在GRU算法中,输出值与前一时刻隐状态的输出值共同决定GRU隐状态的最终 输出。因此本发明改进主要针对GRU候选隐状态公式,主要分为以下3点:
(1)非饱和激活函数
将GRU候选隐状态激活函数改为线性整流函数(Rectified Linear Unit,ReLU),能 够使得改进网络很好地避免由饱和函数引起的梯度消失,进而能够应对更深度的网络训 练,ReLU激活函数可以使得信息传输更加直接,相比饱和激活函数来说,ReLU不存在 饱和激活函数带来的梯度消失问题,且能更好地配合残差信息的传递,因此将at改为下 式:
at=ReLU(Eaxt+Ra(ht-1*st)+Qa) (10)
其中,at为t时刻的候选隐状态;Ea、Ra为模型权重参数;xt表示当前层t时刻的输入值;ht-1是t-1时刻状态的输出值;st为t时刻的重置门;Qa为偏置向量。
(2)添加残差连接
参考CNN中的残差网络方式来对GRU进行改进,从而解决GRU中梯度消失与网 络退化问题。具体来说,是将残差连接引入到优化后的at表达式中。残差信息为前一层 未激活的候选隐状态值
Figure BDA0002885824650000111
Re-GRU每一层都有残差连接,改进后的隐状态如下:
Figure BDA0002885824650000112
Figure BDA0002885824650000113
其中,
Figure BDA0002885824650000114
表示k层t时刻的候选隐状态输出,
Figure BDA0002885824650000115
为k-1层的还未激活候选隐状态值,
Figure BDA0002885824650000116
为k层t时刻的输入值;
Figure BDA0002885824650000117
为k层的权重参数;
Figure BDA0002885824650000118
表示t-1时刻的k层状态向 量,
Figure BDA0002885824650000119
为k层的还未激活候选隐状态,Uk为第k层的维度匹配矩阵,
Figure BDA00028858246500001110
为更新后的第 k层重置向量,
Figure BDA00028858246500001111
为更新后的第k层偏置向量,当网络上下层维度相同时,则不需要维 度匹配矩阵。
(3)批标准化
通过对每个训练小批量的预激活均值与方差进行规范化,缓解梯度***问题。本发 明通过改变GRU激活函数与添加残差连接,再运用批标准化(Batch Normalization,BN)性质,可消除传统GRU中梯度消失与网络退化。Res-GRU第1层的细胞公式如式 (13)~(17)所示,单元结构如图3所示。由于批标准化性质就是消除偏差,上述中的偏置 向量被忽略。
Figure BDA00028858246500001112
Figure BDA00028858246500001113
Figure BDA00028858246500001114
Figure BDA00028858246500001115
Figure BDA00028858246500001116
其中,
Figure BDA00028858246500001117
为k层t时刻的更新向量;
Figure BDA00028858246500001118
表示k层t时刻的候选隐状态输出;
Figure BDA00028858246500001119
为k层 t时刻的输入值;
Figure BDA00028858246500001120
为t时刻的k层状态向量;
Figure BDA00028858246500001121
为k层的更新向量;
Figure BDA00028858246500001122
为k层的候选 重置向量;
Figure BDA0002885824650000121
为k层的重置向量;σ为Sigmoid函数;
Figure BDA0002885824650000122
为第 k层的模型权重参数;Uk为第k层的维度匹配矩阵;
Figure BDA0002885824650000123
为k层的还未激活候选隐状态;
Figure BDA0002885824650000124
为k-1层的还未激活候选隐状态值。
2.2双向GRU变形优化
通过上述残差结构进行优化GRU后,本发明针对每个训练序列分别提出不同的GRU网络,为双向残差GRU结构。此优化模型不仅能为输出层提供输入序列历史信 息,也为输入序列的每个时间节点提供未来信息,包含六个独特权值,且每个权值在每 一个时序中被重复利用,权值分别为:输入层到前向隐藏层(w1)、前向隐藏层到隐藏层 (w2)、输入层到后向隐藏层(w3)、前向隐藏层到输出层(w4)、后向隐藏层到隐藏层(w5)、 后向隐藏层到输出层(w6),具体如图4所示。
因此最终使用一个由128个核双向残差GRU来提取网络数据集特征,具体流程: 网络数据集经过Fisher Score与最大信息系数预处理方法进行特征选择,得到无冗余与 最优的特征子集,然后特征集数据进入双向残差GRU网络结构进行特征提取,加入一 个dropout层来防止过拟合并加快训练过程,之后通过1个Flatten层来多维输入进行一 维化操作,最后使用2个全连接层将前述所有网络层综合起来。其中第一个层参数为 128个核,激活函数为Relu,第二个层选择与输出维度大小一致的2个核,且激活函数 为sigmoid。训练迭代次数为350批,批量大小d为2500,学习率设置为0.005,优化 器选为Adam,具体的优化过程结构图如图5所示。
3集成动态ELM优化
上述对网络流量特征模型优化完成后,本发明继续针对网络流量数据集多样本标签 不平衡序列而导致的分类精度低问题,设计了两步博弈的集成动态ELM方法,解决数 据标签平衡度偏移与重构数据不准确的问题,从而提高检测精度。
3.1基于博弈ELM数据生成
利用博弈论思想,通过两个动态ELM相互博弈,实现少数片段生成。生成数据后,结合主成分分析(PCA),去除冗余数据,减缓过拟合发生的概率,框架如图6所示。
该模型采用生成对抗网络(Generative Adversarial Networks,GAN),通过生成模型与 判别模型相互博弈来获得“以假乱真”的样本数据。生成器G通过特征表征,得到与原数 据片段相似的数据序列;判别器D通过二值分类,区分真实数据与生成数据。二者相互博弈来提高模型映射能力,直到生成器G与判别器D无法继续提升自身性能,则得到足 够真实生成样本。考虑到当前样本块
Figure BDA0002885824650000131
少数类样本整体特征表示为
Figure BDA0002885824650000132
Zi表示与
Figure BDA0002885824650000133
尺寸相同的噪声片段。截止到当前时间段,样本累积数量Nm
Figure BDA0002885824650000134
将每个标签期望均值作为判断标准,用来区分多数类与少数类,具体表示如下:
Figure BDA0002885824650000135
其中,Lm是第k个样本片段到达后的标签类型数目,此时不平衡度IRk为最小样本数目
Figure BDA0002885824650000136
与最大样本数目
Figure BDA0002885824650000137
的比值,可表示为
Figure BDA0002885824650000138
每个少数类class+的生成次数
Figure BDA0002885824650000139
通过样本分布确定为
Figure BDA00028858246500001310
其中,
Figure BDA00028858246500001311
表示第k个样本片段内类别最多的样本数目,
Figure BDA00028858246500001312
表示当前少数类样本数目,
Figure BDA00028858246500001313
为向下取整。两个极限学习机结构分别组成生成器G与判别器D,判别器D 实现经典ELM结构,输入向量为生成样本,输出向量为原标签。设置隐层节点数目等 于输入节点数目,因此最终的最小化输出差异判决器的主要目标为:
Figure BDA00028858246500001314
其中,YD为对应数据片段的实际值,Yk为k个样本片段的输出标签;HD为隐层输出的随机矩阵。求解过程通过M-P广义逆计算模型参数,即
Figure BDA00028858246500001315
其中βD为输出层 权重,HD为极限学习机隐层输出的随机矩阵,
Figure BDA00028858246500001316
为HD的M-P广义逆。生成器G隐层 节点数目逐步增加,从初始数目L到Nk变化,当生成器执行Nk-L次时,判别器D执行 一次。当生成器G输入为随机噪声序列
Figure BDA00028858246500001317
输出为生成特征XG,通过神经 网络映射,得到两者关联关系为
XG=HGβG (23)
其中,HG为G在初始时刻的隐层输出矩阵,在第L+1次生成过程中,新增一个隐层节点,其输出形式用d表示,d为Nk维随机变量,可以得到新的生成器G表达
HG,L+1=[HG,L d] (24)
整个数据生成过程中,生成器G采用矩阵变换方式进行运算,避免对动态ELM模 型复杂的求解过程,保证模型的收敛性。G与D进行联合优化,目标函数为最小化交叉 熵期望,具体表达式为
Figure BDA0002885824650000141
其中,Pdata(Xk)为原始少数类数据片段概率分布,PZ(Z)为服从高斯白噪声的概率分 布。生成器G与判别器D优化过程交替进行,初始条件下生成器G先随机生成一组数据,随后计算最优判别器D:
Figure BDA0002885824650000142
其中,Pg(Z)为极小极大策略得到全局最优解时生成器数据概率分布,目标函数进一 步被描述为
Figure BDA0002885824650000143
对于任意隐层的输出矩阵Hl,都满足基本ELM映射关系,G还原数据片段分布, 最佳生成器G由近似误差确定,解析表达式可表示为:
Figure BDA0002885824650000144
其中,l表示隐层节点数目,f(·)为指示函数。在判别器D中,如果预测值与类别标签匹配,函数返回0,否则,函数返回1。如果D识别率接近0.5(在区间0.45,0.55内), 则认为判别器无法识别真实数据与生成数据,满足生成数据足够真实的条件,得到暂态 特征片段数据
Figure BDA0002885824650000145
对于原始数据片段,主成分边界确定最大空间距离,第k个样本片段 特征可写成如下矩阵形式:
Figure BDA0002885824650000146
对上述矩阵中的变量,进行标准化处理如下:
Figure BDA0002885824650000151
其中,xij为矩阵中的元素,μj,δj分别为第j个特征向量均值与方差,处理后得到标准化特征矩阵
Figure BDA0002885824650000152
将对应协方差矩阵
Figure BDA0002885824650000153
进行特征值分解,得到特征向量
Figure BDA0002885824650000154
分别计算主成分得分,则有:
Figure BDA0002885824650000155
其中,
Figure BDA0002885824650000156
为标准特征矩阵的第i个样本,θj为第j个特征向量。选取两个最大特征值对应的主成分p1与p2作为二维平面的直角坐标轴,描述特征空间分布,两组主成分最大 值p1,max与p2,max作为空间分布边界。生成片段主成分得分
Figure BDA0002885824650000157
遵循边界约束条件, 如下:
Figure BDA0002885824650000158
Figure BDA0002885824650000159
上式表明:生成片段每个样本的最大主成分得分,必须分别小于对应目标片段主成 分得分最大的两个值。对不满足边界约束条件的样本集合进行重建,替代已经生成的样本,直到生成样本空间达到Nk,完成生成过程,得到新的特征片段
Figure BDA00028858246500001510
因此通过上述分析,本发明的生成器G与判别器D结构设计为:G与D均需去除反 卷积,只保留普通卷积层;通过UpSampling2D与AvgPooling2D实现上下采样;卷积核 大小为3×3,步长为1。G除最后一层使用Tanh激活函数,其余均为ReLU;D使用 ReLU作为激活函数。生成器G模型中Batch normalization(BN)层将对隐藏层输入进行归 一化,具体模型图分别如图7与8所示。
3.2、集成动态ELM模型分类预测
上述内容利用两个动态ELM数据生成后,本发明继续采用Adaboost集成学习思想,将个体预测模型组合成强分类器。个体预测模型为ELM结构,也被称作基学习器(baselearner)。假设初始样本片段为
Figure BDA00028858246500001511
特征x与标签y之间映射关系如下:
Figure RE-GDA0002961619880000166
其中:N0表示初始阶段样本数目,L表示隐层节点数目,yi为第i个标签;βP为判 别权重;bp为判别器的偏置;选取不同权重a与偏置b,得到个体预测模型的表达式, 如下:
Y0=H0β0 (34)
其中,满足
Figure RE-GDA0002961619880000167
Figure BDA0002885824650000162
式中:,H0为随机矩阵,β0为权重参数。
根据近似误差理论,得到输出向量表达式为
Figure BDA0002885824650000163
式中:
Figure BDA0002885824650000164
为M-P广义逆,满足最小二乘解范数的必要条件,表达式为
Figure BDA0002885824650000165
根据错误率χ0描述当前模型的评价情况,具体为
Figure BDA0002885824650000166
其中,f(·)是返回值为0或1的典型指示函数,N0表示初始阶段样本数目;Y0为原始输出;因此存在R个基学习器,分别计算每个基学习器预测误差,第r(r=1,2,3,...,R)个基学习器的最小误差χ0,r为:
Figure BDA0002885824650000167
在Adaboost策略中,每个基学习器权重为ω0,r,考虑预测正确与错误两种情况,整体损失函数Loss如下:
Figure BDA0002885824650000168
其中,χ0,r表示基学习器错误率,H0,r为第r个基学习器的随机矩阵,β0,r为第r个基学习器的权重参数,χ0为错误率,χ0,r为第r个基学习器的错误率,当整体损失函数Los 最小时,上式对ω0,r偏导数
Figure BDA0002885824650000169
为零,可以得到对应第r个基学习器权值表达式为
Figure BDA00028858246500001610
计算所有R个基分类器的权重后,利用加权学习得到最终的输出表达式为:
Figure BDA0002885824650000171
式中:ω0,r为基学习器权重,H0,r为第r个基学习器的随机矩阵,β0,r为第r个基学习器的权重参数。
当数据片段
Figure BDA0002885824650000172
到达时,根据集合模型预测结果对模型权重进行调整。 对于所有R个基学习器,当前第k个片段预测误差可表示为如下形式
Figure BDA0002885824650000173
其中,χk,r为第r个基学习器第k个片段的预测误差,
Figure BDA0002885824650000174
为第r个基学习器第i个片段的预测误差;
Figure BDA0002885824650000175
为第k个样本在第r个基分类器的预测值,Yk,r为对应真实值, i=1,2,3,...,Nk表示样本标记号,标准化得到的误差矩阵中每个元素为
Figure BDA0002885824650000176
此时利用信息熵IEr量化整体拟合程度,分析误差对模型的影响,具体表达式为
Figure BDA0002885824650000177
式中:ei,r为标准化得到的误差矩阵中的元素。
综合所有个体预测模型信息熵,确定权重向量表达式,可以得到
Figure BDA0002885824650000178
同时根据当前基学习器权重向量ωk,r,将权重向量ωχ,r与ωk,r作为整体模型权重的两 个决定参数,得到基本权重为
Figure BDA0002885824650000179
其中,sp为优化系数,P表示决定参数集合的个数,利用博弈论可知,两个参量博弈过程可转化为最优化过程,优化目标为权值差异最小值,如下式:
Figure BDA00028858246500001710
进一步对sp进行标准化,得到
Figure BDA0002885824650000181
最终的整体模型权重为
Figure BDA0002885824650000182
在当前参数基础上,对于第k+1个片段特征集合Xk+1与标签集合Yk+1,输出层向量表达式为
Figure BDA0002885824650000183
其中,
Figure BDA0002885824650000184
对于R个基分类器,得到更新后的分类预测模型为
Figure BDA0002885824650000185
综上,本发明通过两步博弈策略,实现多类网络流量特征数据的检测与分类,考虑到数据生成过程和模型更新过程的特点,所提模型的具体实现步骤流程图如9所示。
3.3双向残差GRU与集成动态ELM网络异常流量检测
本发明最终设计的双向残差GRU与集成动态ELM的网络异常流量检测模型如图 10所示,网络数据集在通过改进Fisher Score与最大信息系数方法进行特征选择之后, 将输出作为SVM输入进行准确率判别从而确定输出是否为最优子集;将其最优子集的 输出Y输入到双向残差GRU框架当中,进行特征检测提取,引入残差信息使网络对梯 度变化更敏感,从而达到缓解网络退化目的;最后根据基于两步博弈的集成动态ELM 方法,解决数据标签平衡度偏移与重构数据不准确问题,避免模型适应性差的弱点,设 计合适的生成器与判别器来提高模型对快速变化数据的拟合效果,同时利用批归一化 Batch Normalization与激活函数relu进一步优化,降低深层网络缺陷,最后得到分类结 果Y*。本发明在训练过程中采用批训练方法,交替训练G与D。训练G时,固定D的参 数,获取batch-size大小的随机噪声Z与随机条件向量,输入G中生成batch-size(64)大 小的生成样本,生成样本首先传入到基于动态集成的ELM中,然后进入D中进行训练, 反向传播并更新G的参数。训练D时,固定G参数,从训练样本中获取batch-size大小 的数据输入D中以得到对应损失函数,获取batch-size大小的噪声Z与随机条件向量, 输入G中生成batch-size大小生成样本,生成样本传入D得到对应损失函数,反向传播 并更新D参数。重复交替训练G与D,直至网络训练完成,每完整循环一次训练样本即 完成一轮训练,保存G与D相关参数。
本发明的有益效果在于:
(1)本发明提出一种特征筛选方法,用于网络流量特征预处理。第一阶段,通过Fisher Score评价特征集中的所有特征重要性,并依此进行特征排序;第二阶段,利用最大信息系数评价特征与特征之间的相关性,从而确定冗余特征,重新对排序结果进行调整;最后依据SVM学习算法分类精度来选择特征子集,相比传统仅仅只用归一化处理 网络流量特征,本发明提出的方法克服了时间复杂度过高、局部最优缺陷等问题,所得 到的网络流量数据冗余特征较少,用于数据训练可使得分类结果精度较高。
(2)本发明改进GRU结构,通过修改其候选隐状态激活函数,同时添加残差连接,有效解决原始GRU梯度消失与网络退化问题,使其对长序列特征更为鲁棒,从而对网 络流量特征的检测性能更加优越。同时对于使用非饱和激活函数而可能导致的梯度*** 隐患,本发明采用批标准化方法来解决,在此基础上,将模型继续进行优化,设计为双 向残差GRU结构,用于提取网络流量特征。由饱和激活函数带来的梯度消失会影响神 经网络的检测与提取性能,虽然LSTM与GRU相比传统RNN具备缓解梯度消失问题 能力,但这种缓解非常有限,本发明相对传统技术,提取网络流量特征性能更为优越。
(3)本发明针对网络数据分类预测不平衡导致的分类精度低问题,提出基于两步博弈集成的动态ELM方法进行数据生成扩增。该方法采用数据处理与模型更新联合策 略,进而自动匹配样本的结构变化;在数据处理阶段,利用生成对抗动态ELM模型生 成少数类样本片段,平衡不同类别样本分布,减缓了由于样本不均造成的问题;本发明 的数据生成方法融合博弈对抗策略和主成分分析阈值判决,保证每个样本片段真实性; 在模型更新阶段,根据损失程度和初始权重,建立新权重与个体模型之间关系,采用博 弈论中的集合模型计算组合权重,形成稳定的网络体系结构,提高了模型对快速变化数 据的拟合效果,使得最终的分类精度进一步提高。
(4)本发明针对网络异常流量的检测,通过预处理模型、特征抽取模型、数据生成模型、分类模型的组合,提高了网络流量的检测精度,具体地,预处理模型可有效对流 量特征进行筛选,特征抽取模型可对筛选结果进一步进行抽取,数据生成模型通过生成 少数类样本片段减缓了样本不平衡带来的问题,分类模型使用集成学习的方式组合多个 基分类器构成强分类器,提升了分类的准确度;本发明的网络异常流量检测使用的多个 模型组合为一个有机的整体,共同起到了提升网络异常流量检测准确度的技术效果。
附图说明
为了更清楚地说明本发明具体实施方式中的技术方案,下面将对具体实施方式中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附 图获得其他的附图。
图1是网络特征流量预处理选择的流程示意图;
图2是GRU单元结构示意图;
图3是残差GRU单元结构示意图;
图4是双向GRU变形结构示意图;
图5是双向残差GRU特征检测流程示意图;
图6是集成动态数据生成框架示意图;
图7是生成器架构示意图;
图8是判别器架构示意图;
图9是集成动态ELM样本分类流程示意图;
图10是双向残差GRU与集成动态ELM的网络异常流量检测与分类示意图;
图11a-d是本发明实施例中不同训练集与测试集组合下的准确率对比图,其中图11a 给出了训练集50%+测试集50%的准确率对比图,图11b训练集60%+测试集40%的准确率对比图,图11c给出了训练集70%+测试集30%的准确率对比图,图11d给出了训 练集75%+测试集25%的准确率对比图;
图12a-d分别给出了训练迭代轮数分别在10、20、25及30轮时学习率与基学习器权重对于模型训练损失率影响的对比图,其中图12a给出了训练迭代轮数10轮时学习 率与基学习器权重对于模型训练损失率影响的对比图,图12b给出了训练迭代轮数20、 30轮时学习率与基学习器权重对于模型训练损失率影响的对比图,图12c给出了训练 迭代轮数25轮时学习率与基学习器权重对于模型训练损失率影响的对比图,图12d给 出了训练迭代轮数30轮时学习率与基学习器权重对于模型训练损失率影响的对比图;
图13a-b分别给出了两种流量类型(正常流量Normal、攻击流量Attack)在不同检测方法下的ROC曲线,其中图13a给出了正常流量Normal类型在不同检测方法下的 ROC曲线,图13b给出了攻击流量Attack类型在不同检测方法下的ROC曲线;
图14a-d分别给出了NSL-KDD数据集中的Probe、DoS、R2L及U2R四种攻击流 量数据在不同检测方法下的ROC曲线对比图,其中,图14a给出了Probe攻击流量数 据在不同检测方法下的ROC曲线对比图,图14b给出了DoS攻击流量数据在不同检测 方法下的ROC曲线对比图,图14c给出了R2L攻击流量数据在不同检测方法下的ROC 曲线对比图,图14d给出了U2R攻击流量数据在不同检测方法下的ROC曲线对比图。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理 解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、 “第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。 应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够 以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及 他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、 方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚 地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
结合上述介绍,下面将对本发明中网络异常流量监测的方法进行介绍,请参阅图10, 本发明实施例中异常流量监测的方法一个实施例包括
101、实验数据集选取
仿真实验数据选自NSL-KDD数据集,该数据集不仅能有效地解决KDDCup99数据 集固有的数据冗余问题,使得训练集与测试集中的记录数目合理,同时也添加了一个新 的difficulty level属性,该属性使每个连接与该记录在KDD数据集的比例成反比,突 出了不同机器学习方法的分类率差异,更有利于准确评估不同学习技术的效率。训练集 包括前7周总共超过500万条网络连接记录,被保存为二进制TCPdump压缩数据,该 TCPdump数据超过4GB,测试集包括最后2周超过200万条的网络连接记录,网络数 据按照src流向dst。具体分类为:若为正常连接记录则被标记为normal,否则被标记为 一个明确类型的入侵(attack),如表1所示。
表1NSL-KDD数据集
Figure BDA0002885824650000211
Figure BDA0002885824650000221
102、特征优化选择与数据集预处理
第一阶段,特征重要度分析,按照改进算法分别计算每一个特征Fisher Score值并 按Fisher Score值进行特征排序;第二阶段,利用最大信息系数评价特征之间的冗余性, 重新对特征进行排序,将结果添加至支持向量机,再使用正向添加策略,对特征子集进行扩充,添加至最后一个特征,以分类准确率作为特征选择子集依据。经过两个阶段选 择后特征子集作为最后特征子集。
对于NSL-KDD数据集,分别在不同训练集与测试集组合下进行验证分析。具体为:在训练集上各特征选择算法选择出相应的样本特征,然后在测试集中仅保留筛选出特征,由支持向量机(SVM)对测试样本进行预测,并计算预测样本的正确率,得出相应的实验 分类结果。本次实验中选择5种对比算法,分别是:高效鲁棒特征选择算法(RFS)、拉 普拉斯得分法(LaplacianScore)、局部敏感半监督特征选择(LSDF)、基于相关性和冗余标 准的半监督特性选择(RRPC)、重新调节线性回归的半监督特征选择算法(RLSR)。同时 由于随机地选择样本,这可能导致分类准确性不稳定,因此每次实验进行20次,以获 得具有高可靠性的实验结果,并采用平均值作为对比的结果,图11a-d给出了训练集 50%+测试集50%、训练集60%+测试集40%、训练集70%+测试集30%及训练集75%+ 测试集25%的准确率对比图。
图11a-d示出了不同训练集与测试集组合下的准确率对比。从图11a-d可以看出,在四种不同训练集与测试集组合下,本发明提出的特征选择算法均优于所比较的特征选择算法。但是对比图图11a-d,可以看出当训练集75%与测试集25%组合时,各个方法 获得的准确率都较好,同时随着选择的特征数的增加,本发明提出方法的分类精度也会 随之提高,这表明改进Fisher Score与最大信息系数特征选择方法可以利用最优特征子 集选择来提高分类精度,验证了本发明方法的有效性。
103、双向残差GRU提取网络流量特征
网络数据集经过Fisher Score与最大信息系数预处理方法进行特征选择,得到无冗 余与最优的特征子集,然后特征集数据进入双向残差GRU网络结构进行特征提取检测,加入一个dropout层来防止过拟合并加快训练过程,之后通过1个Flatten层来将多维输 入进行一维化操作,用于从卷积层过渡到全连接层,最后使用2个全连接层将前述所有 网络层综合起来。
104、集成动态ELM优化
图12a-d分别给出了训练迭代轮数分别在10、20、25及30轮时学习率与基学习器权重对于模型训练损失率影响的对比图。从图12a-d可看到,不同的训练迭代轮数与学 习率参数对于模型训练影响较大,当训练轮数较少(图12a)时,模型存在欠拟合情况, 因此导致损失率较大,当训练轮迭代轮数较大(图12d)时,又存在过拟合情况,也会导 致损失率较大;从图12a-d的四种模型也可看出,当学习率过小时,虽然能保证模型的 收敛性,但会降低优化速度,此时将需要更多轮的迭代才能达到一个比较理想的优化效 果。而当学习率过大时,可能导致参数在极优值两侧来回移动,无法寻找到最优值,导 致模型训练不佳,损失率较大;同时,也从图12a-d看出,提出的集成动态ELM中基 学习器权重参数对于模型训练的影响较大,当基学习器权重较小时,在训练过程中,模 型损失都会很大,因此适宜选择权重对于模型训练非常重要,因此根据上述实验分析, 本发明设计训练轮数为25轮,此时的模型训练损失最小,训练效果最好。
105、网络异常流量分类预测
(1)、二分类验证
实验将NSL-KDD数据集的四类攻击合并为Attack,正常流量记为Normal,进行二分类对比实验,图13a-b给出了两种流量类型在不同检测方法下的ROC曲线。
从图13a-b可看到,在各算法中,无论检测正常数据还是攻击类型数据,本发明方法检测的AUC值均较优,其中4种传统机器学习方法的AUC值都较低,这是传统机 器学习方法对于网络流量特征数据的处理效果一般,能够检测与提取到的特征较少,对 于流量类型分类效果较差。在大多数情况下,KNN、DT及RF三种方法的AUC值均低 于SVM方法,这是因为SVM方法比较适用于二分类任务;9种深度学习方法中,CNN 取得的AUC值最差,RNN、DBN及LSTM三种方法取得的AUC较为相近,但是AUC 值均在0.85以下;这是因为此三种方法在分类过程中,都容易产生梯度消失问题,导致 分类效果不佳;GRU、ELM、FARF-OSKBIELM、Hessian-ELM都是基于半监督学习的 分类方法,因此取得的AUC值较之前述几种方法都好,但是较之本发明方法,AUC值 都略低。这充分说明,ELM潜在的参数问题对于分类性能的影响,突出了本发明方法 的必要性。验证了基于双向残差GRU与集成动态ELM网络异常流量检测方法对于二 分类的入侵检测具有较好地检测性能。
表2给出了各算法的精确率、真正率、假正率、F值及AUC值对2分类进行评价 的实验对比。从表2可知,对于测试精确率对比,四种传统机器学***均精确率为81.679%,但比本发明方法的平 均精确率低了9.61%,而精确率最差的为KNN方法,平均精确率仅为65.609%,比本 发明方法的平均精确率低了25.68%。DT与RF两种方法虽在检测Attack流量时,精确 率较高,但是对于Normal流量的检测精确率却较低,因此稳定性一般,分类效果不佳。 而9种深度学***均检测 率为70.315%与77.274%,此两种方法都是由于其自身神经网络的训练损失而导致的检 测结果不佳。剩余7种方法中精确率虽都在80%以上,但检测精确率最高的为本发明方 法,平均检测精确率为91.289%,均高于其它深度学***均召回率为82.161%,高于CNN与 RNN两种检测方法,但是却低于其余7种深度学***均召回率分别为84.752%、 84.982%及88.719%,分别比本发明方法低了8.456%、8.266%及4.489%。ELM、FARF- OSKBIELM及Hessian-ELM三种方法都与ELM方法相关,其中平均召回率最高的是Hessian-ELM方法,平均为91.076%,比本发明方法低了2.132%,因此综合对比召回率, 本发明方法具有很大优越性。对于误报率对比情况,每种方法在检测Attack流量时取得 的误报率都低于Normal流量数据,这是由于测试集是随机选取数据集的数据组成,其 Attack流量比Normal流量所占比重大,相比其它检测方法,本发明方法检测取得的误 报率最低,平均为1.846%,远低于4种传统的机器学***均值F-mesure的对比来看,几种传统的机器学***均仅为69.557%,本发明模型取得的F- mesure值最好,在9种深度学***均调和值是最大的,平均为92.239%,均高于 其它检测方法。对于AUC值对比情况,从图13a-b与表2可知,本发明AUC值均较 优,这是因为本发明在训练过程选择了合适的训练轮数,使得数据丢失率较小。综上, 通过对比几类参数,验证可以得出本发明方法对于二分类任务的优越性,从而也验证了 本发明方法在网络异常流量检测中的整体性能优越性。
表2各算法的性能评价指标
Figure BDA0002885824650000251
(2)、多分类验证
为了验证本发明在多分类任务中的分类性能,实验将NSL-KDD数据集中的Normal、Probe、DoS、R2L及U2R各为一类,给出四种攻击流量数据在不同检测方法下的ROC 曲线对比图(篇幅原因,不再给出Normal的ROC曲线图),具体如图14a-d所示。
从图14a-d可看出,四种Attack流量类型中,Probe类型流量获得的AUC值是最好的,R2L流量类型获得的AUC值是最差的,这是因为R2L流量类型本身属于来自远程 的非授权访问攻击,其特征难以检测,能够获得的有用特征较少,因此分类效果较差。 同时从四种Attack流量类型的ROC曲线可以看出,传统机器学习方法取得的AUC值 都比较低,原因与二分类任务中论述的一致。9种深度学习方法中,本发明方法获得的 AUC值均是最优,除了R2L类型流量,其余三种Attack流量类型的AUC值均在0.85 以上,突出了本发明方法的有效性,验证了多分类任务的有效性与优越性。
表3~7给出了5种流量类型在不同的算法上精确率、真正率、误报率、F值及AUC 值进行的实验对比。从表3可知,对于Normal流量类型数据,4种机器学***均精确率为68.845%, 召回率平均为77.264%,但误报率却平均高达16.240%,F–mesure值平均为72.764%, AUC值平均为0.625,因此分类效果一般。本发明方法的分类性能在9种深度学习方法 中是最好的,取得的参数值都是最优,性能均有很大提升,因此对于Normal流量的分 类效果较好。
表3各算法在Normal上的性能评价指标
Figure BDA0002885824650000261
从表4可知,对于Probe流量的检测,四种机器学***均为87.723%,比 本发明方法低了5.401%,平均召回率为88.199%,比本发明低了4.17%,平均F-mesure 为87.960%,比本发明低了4.785%,平均AUC为0.888,比本发明方法低了0.059。这 是由于此四种神经网络方法在训练时存在过拟合情况,导致训练结果不佳,分类性能不 好。GRU、ELM、FARF-OSKBIELM及Hessian-ELM四种方法的检测精确率均高于90%, 其中检测精确率与AUC最好的为Hessian-ELM方法,为92.363%与0.934,分别比本发 明低了0.761%与0.13,召回率与F–mesure最好的为FARF-OSKBIELM方法,分别为 92.362%与92.173%,比本发明低了0.07%与0.572%,同时本发明方法的误报率最低, 为0.696%,由此验证了对于Probe流量检测的有效性。
表4各算法在Probe上的性能评价指标
Figure BDA0002885824650000271
从表5可知,对于Dos流量的检测,四种机器学***均检测精确率 为70.477%,平均召回率为73.904%,平均F-mesure值为72.178%,平均AUC值为 0.745,分别比比本发明方法低了22.509%、19.454%、20.994%及0.186,同时四种机器 方法的误报率也较高,平均高达16.907%,比本发明高了15.824%。9种深度学***均为检测准确率为84.377%,平均召回率为86.334%,平均F-mesure值为 85.344%,平均AUC值为0.867,均比本发明方法低。而ELM、FARF-OSKBIELM及Hessian-ELM三种方法的精确率、召回率及F-mesure值虽都在90%以上,但是低于本 发明方法,同时三种方法的误报率平均为3.078%,比本发明方法高了1.995%,因此稳 定性弱于本发明方法。本发明方法根据残差结构优化检测模型,改善了检测模型存在的 过拟合与网络退化情况,因此对于Dos流量的分类性能最好。
表5各算法在Dos上的性能评价指标
Figure BDA0002885824650000281
从表6可知,对于U2R流量检测,4种传统机器学***均精确率为87.681%,平均召回率为87.125%,平均F-mesure值为87.401%,平均 AUC值为0.884,均比本发明方法低;FARF-OSKBIELM与Hessian-ELM两种方法的分 类性能参数虽然较好,但是当检测样本较少时,也会出现检测不稳定的现象,会导致误 报率过高,同时这也证明了本发明引入集成动态ELM生成数据的必要性,验证了对于 U2R检测的有效性。
表6各算法在U2R上的性能评价指标
Figure BDA0002885824650000291
从表7可知,对于R2L流量类型检测情况,无论是4种机器学***均检测准确率为56.599%,平均召回率为60.187%,平均F-mesure 值为58.328%,平均AUC值为0.657,均远低于本发明方法,但是与CNN方法较为相 近,原因与前述一致。9种深度学习方法的精确率都低于90%,但是相比较其他方法, 本发明方法的性能还是最好,分类效果较为理想。
表7各算法在R2L上的性能评价指标
Figure BDA0002885824650000292
综上,从表3~7的各项性能参数对比来看,本发明检测模型无论是对Normal数据还是四种攻击数据,其取得的性能指标值都比较好,能够对NSL-KDD的数据集进行有 效分类,由此验证了本发明方法对于多分类任务的有效性与优越性。
(3)、时间复杂度分析
为了进一步验证本发明方法在时间复杂度上的优越性,实验选择9种深度学习方法 在不同网络层数下的困惑度(Perplexity,PPL)值(其值越小越好)与时间消耗(时间越短越 好)对比,具体如表8所示。
表8 9种深度学习方法的时间复杂度对比
Figure BDA0002885824650000301
通过表8可以发现,神经网络层数设置会影响到训练模型的性能与时间消耗,其中CNN、RNN及DBN这三种方法在这个实验任务中的表现并不理想。与GRU及LSTM 的测试结果相对比,CNN的性能较差,其PPL值达到了144.36,在网络层数增加到5 层时,PPL值虽有一定减小,但还是很大,为135.19,同时其时间消耗也是9种方法中 最高的。其余各方法的PPL值,相对较小,但是随着网络层数的增加,其时间也在不断 增大,但是PPL值变化较小,因此效果并不理想。几种方法中,时间消耗最短的为GRU 方法,但是PPL值过大,本发明方法之所以比GRU与ELM方法的时间消耗高,是因 为本发明方法使用残差GRU进行优化网路,利用两步博弈ELM进行数据生成与更新, 因此时间复杂度较高,但在9种方法中,其PPL值最低,因此性能最好。同时也可看 出,当网络层数不断增加时,其PPL值会相应减小,但时间消耗也会增大,因此综合对 比,当网络层数为5层时,效果最佳,此时本发明方法的时间消耗为43.13S,在可接受 范围之内,复杂度较为适宜。
(4)、泛化能力及鲁棒性验证
为了进一步验证本发明方法的鲁棒性与复杂环境适用性,实验分别在被测样本在不 同程度的噪声干扰下,设置数据属性特征破坏率分别为0.1,0.2及0.3,对比9种深度 学***均值,实验结果如表9所示。
表9多分类场景不同模型检测含噪流量的准确率
Figure BDA0002885824650000311
由表9可知,当被测数据特征遭到破坏时,基于CNN的异常检测模型流量检测准 确率最差,RMSE值最大,因此受到的影响最大,随着破坏率增大其准确率持续下降, RMSE值持续增大;基于RNN、DBN、LSTM及GRU的检测准确率下降幅度较前者 小,但是RMSE值还是较大,因此检测模型不稳定。而在ELM、FARF-OSKBIELM与 Hessian-ELM三种方法的稳定性能相较前述几种方法较好,但加大特征破坏率也会进一 步降低其准确率,相比较本发明方法,准确率下降幅度较大,RMSE值增大幅度较大, 本发明方法随着破坏率增大会有性能下降,但是幅度较小,在可接受范围之内,由此验 证了本发明方法的稳定与鲁棒性。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解: 其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术 特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实 施例技术方案的范围。

Claims (8)

1.一种网络异常流量检测方法,其特征在于,
根据目标网络流量数据获取目标流量特征信息,其中,所述目标网络流量特征信息为对目标原始收发数据预处理得到的,所述目标原始收发数据属于所述目标网络流量数据;所述预处理包括特征筛选步骤,所述特征筛选步骤包括对特征重要性排序、冗余信息删除、信息最大化处理,所述的信息最大化处理使用SVM模型预测所述目标网络流量的异常结果,根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优;
通过目标网络异常流量检测模型确定所述目标网络流量特征信息所对应的目标网络流量异常信息,其中,所述目标网络异常流量检测模型是通过对流量信息进行检测准确度训练生成的;
根据所述目标网络流量信息生成网络异常流量检测结果。
2.如权利要求1所述的网络异常流量检测方法,其特征在于,所述检测准确度训练包括特征抽取步骤、数据生成步骤和分类步骤,
所述特征抽取步骤采用双向残差GRU模型,将GRU的候选隐状态激活函数改为线性整流函数;
所述数据生成步骤采用生成对抗网络的形式,通过两个动态ELM相互对抗,生成少数类样本片段,同时利用信息熵量化整体拟合程度,并根据所述特征抽取步骤后的样本数据的主成分分析结果,对生成的所述少数类样本片段进行筛选;
所述分类步骤采用集成学习方法将基分类器组合成强分类器,其中,基分类器为ELM结构。
3.一种网络异常流量检测模型,其特征在于,包括预处理模型、特征抽取模型、数据生成模型、分类模型;
所述预处理模型基于改进Fisher Score与最大信息系数对目标网络流量特征进行选择,并使用SVM模型预测所述目标网络流量的异常结果,根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优;
所述特征抽取模型基于双向残差GRU模型对所述目标网络流量特征进行抽取;
所述数据生成模型采用生成对抗网络的形式,通过两个动态ELM相互对抗,生成少数类样本片段,同时利用信息熵量化整体拟合程度,并根据所述特征抽取步骤后的样本数据的主成分分析结果,对生成的所述少数类样本片段进行筛选;
所述分类模型采用集成学习方法使用多个基分类器对目标网络流量异常结果进行预测,其中所述多个基分类器为ELM结构。
4.如权利要求3所述的网络异常流量检测模型,其特征在于,所述双向残差GRU模型将原有GRU候选隐状态激活函数改为非饱和激活函数,优选地,将原始GRU候选隐状态激活函数改为线性整流函数,并在GRU候选隐状态中引入残差结构。
5.如权利要求3所述的网络异常流量检测模型,其特征在于,所述数据生成模型采用生成对抗网络的形式,通过两个动态ELM相互对抗,生成少数类样本片段,同时利用信息熵量化整体拟合程度,并根据所述特征抽取步骤后的样本数据的主成分分析结果,对生成的所述少数类样本片段进行筛选。
6.一种网络异常流量检测模型训练的方法,其特征在于,包括:
获取目标网络流量数据,对所述目标网络流量数据进行预处理以获取目标流量特征信息,其中所述预处理基于改进Fisher Score与最大信息系数对目标网络流量特征进行选择,并使用SVM模型预测所述目标网络流量的异常结果,根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优,筛选目标特征集合;
获取流量特征优化信息,其中,所述流量特征优化信息采用双向残差GRU模型对所述目标网络流量特征进行特征抽取,所述双向残差GRU模型将原有GRU候选隐状态激活函数改为非饱和激活函数,优选地,将原有GRU候选隐状态激活函数改为线性整流函数,并在GRU候选隐状态中引入残差结构;
生成少数类样本片段,其中,根据所述流量特征优化信息生成少数类样本片段,所述少数类样本片段通过两个动态ELM相互对抗生成;
对所述流量特征优化信息和所述少数类样本片段进行训练,得到集成动态ELM模型参数,生成目标网络流量异常检测模型,所述目标网络流量异常检测模型用于检测流量异常信息。
7.一种网络异常流量检测***,其特征在于,包括:
获取模块,所述获取模块获取目标网络流量数据;
预处理模块,所述预处理模块对所述目标网络流量数据进行预处理以获取目标流量特征信息,优选地,所述预处理模块基于改进Fisher Score与最大信息系数对目标网络流量特征进行选择,并使用SVM模型预测所述目标网络流量的异常结果,根据所述目标网络流量的异常结果的预测结果判断所述目标网络流量特征集合是否最优,筛选目标特征集合;
特征抽取模块,所述抽取模块获取流量特征优化信息,其中,所述流量特征优化信息采用双向残差GRU模型对所述目标网络流量特征进行特征抽取;
数据生成模块,所述数据生成模块根据所述流量特征优化信息生成少数类样本片段,其中,所述少数类样本片段基于双向残差GRU模型抽取结果通过两个动态ELM相互对抗生成;
检测模块,所述检测模块对所述流量特征优化信息和所述少数类样本片段进行训练,得到集成动态ELM模型参数,生成目标网络流量异常检测模型,所述目标网络流量异常检测模型用于检测流量异常信息。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至3中任一项所述的方法,或执行如权利要求6中所述的方法。
CN202110013425.6A 2021-01-06 2021-01-06 网络异常流量检测方法、模型及*** Active CN112784881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110013425.6A CN112784881B (zh) 2021-01-06 2021-01-06 网络异常流量检测方法、模型及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110013425.6A CN112784881B (zh) 2021-01-06 2021-01-06 网络异常流量检测方法、模型及***

Publications (2)

Publication Number Publication Date
CN112784881A true CN112784881A (zh) 2021-05-11
CN112784881B CN112784881B (zh) 2021-08-27

Family

ID=75755824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110013425.6A Active CN112784881B (zh) 2021-01-06 2021-01-06 网络异常流量检测方法、模型及***

Country Status (1)

Country Link
CN (1) CN112784881B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269356A (zh) * 2021-05-18 2021-08-17 中国人民解放***箭军工程大学 一种面向缺失数据的设备剩余寿命预测方法及***
CN113364702A (zh) * 2021-06-04 2021-09-07 上海明略人工智能(集团)有限公司 广告流量异常检测方法、***、存储介质及电子设备
CN113409092A (zh) * 2021-07-12 2021-09-17 上海明略人工智能(集团)有限公司 一种异常特征信息提取方法、***、电子设备及介质
CN113485244A (zh) * 2021-07-27 2021-10-08 同济大学 一种基于刀具磨损预测的数控机床控制***及其方法
CN113505611A (zh) * 2021-07-09 2021-10-15 中国人民解放军战略支援部队信息工程大学 在生成对抗中获得更好的语音翻译模型的训练方法和***
CN113554474A (zh) * 2021-08-11 2021-10-26 上海明略人工智能(集团)有限公司 模型的验证方法及装置、电子设备和计算机可读存储介质
CN113609096A (zh) * 2021-07-19 2021-11-05 北京智思迪科技有限公司 一种数据处理方法及装置
CN115021973A (zh) * 2022-05-11 2022-09-06 桂林电子科技大学 一种基于sgru的新型入侵检测方法
CN115174178A (zh) * 2022-06-28 2022-10-11 南京邮电大学 基于生成对抗网络的半监督网络流量异常检测方法
CN115277098A (zh) * 2022-06-27 2022-11-01 深圳铸泰科技有限公司 一种基于智能学习的网络流量异常检测装置及方法
WO2023016159A1 (zh) * 2021-08-12 2023-02-16 北京邮电大学 智慧城市网络流量预测方法及***
CN115811440A (zh) * 2023-01-12 2023-03-17 南京众智维信息科技有限公司 一种基于网络态势感知的实时流量检测方法
WO2024000944A1 (zh) * 2022-06-28 2024-01-04 南京邮电大学 一种基于elm和深度森林的混合模型异常流量检测***及方法
CN117354056A (zh) * 2023-12-04 2024-01-05 中国西安卫星测控中心 基于卷积神经网络和集成学习算法的网络入侵检测方法
CN117914629A (zh) * 2024-03-18 2024-04-19 台州市大数据发展有限公司 一种网络安全检测方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101610516A (zh) * 2009-08-04 2009-12-23 华为技术有限公司 自组织网络中的入侵检测方法与设备
CN109412900A (zh) * 2018-12-04 2019-03-01 腾讯科技(深圳)有限公司 一种网络状态识别的方法、模型训练的方法及装置
CN109818961A (zh) * 2019-01-30 2019-05-28 广东工业大学 一种网络入侵检测方法、装置和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101610516A (zh) * 2009-08-04 2009-12-23 华为技术有限公司 自组织网络中的入侵检测方法与设备
CN109412900A (zh) * 2018-12-04 2019-03-01 腾讯科技(深圳)有限公司 一种网络状态识别的方法、模型训练的方法及装置
CN109818961A (zh) * 2019-01-30 2019-05-28 广东工业大学 一种网络入侵检测方法、装置和设备

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269356A (zh) * 2021-05-18 2021-08-17 中国人民解放***箭军工程大学 一种面向缺失数据的设备剩余寿命预测方法及***
CN113269356B (zh) * 2021-05-18 2024-03-15 中国人民解放***箭军工程大学 一种面向缺失数据的设备剩余寿命预测方法及***
CN113364702A (zh) * 2021-06-04 2021-09-07 上海明略人工智能(集团)有限公司 广告流量异常检测方法、***、存储介质及电子设备
CN113364702B (zh) * 2021-06-04 2024-04-12 上海明略人工智能(集团)有限公司 广告流量异常检测方法、***、存储介质及电子设备
CN113505611A (zh) * 2021-07-09 2021-10-15 中国人民解放军战略支援部队信息工程大学 在生成对抗中获得更好的语音翻译模型的训练方法和***
CN113409092A (zh) * 2021-07-12 2021-09-17 上海明略人工智能(集团)有限公司 一种异常特征信息提取方法、***、电子设备及介质
CN113409092B (zh) * 2021-07-12 2024-03-26 上海明略人工智能(集团)有限公司 一种异常特征信息提取方法、***、电子设备及介质
CN113609096A (zh) * 2021-07-19 2021-11-05 北京智思迪科技有限公司 一种数据处理方法及装置
CN113485244A (zh) * 2021-07-27 2021-10-08 同济大学 一种基于刀具磨损预测的数控机床控制***及其方法
CN113554474A (zh) * 2021-08-11 2021-10-26 上海明略人工智能(集团)有限公司 模型的验证方法及装置、电子设备和计算机可读存储介质
WO2023016159A1 (zh) * 2021-08-12 2023-02-16 北京邮电大学 智慧城市网络流量预测方法及***
CN115021973B (zh) * 2022-05-11 2024-04-05 桂林电子科技大学 一种基于sgru的新型入侵检测方法
CN115021973A (zh) * 2022-05-11 2022-09-06 桂林电子科技大学 一种基于sgru的新型入侵检测方法
CN115277098B (zh) * 2022-06-27 2023-07-18 深圳铸泰科技有限公司 一种基于智能学习的网络流量异常检测装置及方法
CN115277098A (zh) * 2022-06-27 2022-11-01 深圳铸泰科技有限公司 一种基于智能学习的网络流量异常检测装置及方法
CN115174178B (zh) * 2022-06-28 2023-07-04 南京邮电大学 基于生成对抗网络的半监督网络流量异常检测方法
WO2024000944A1 (zh) * 2022-06-28 2024-01-04 南京邮电大学 一种基于elm和深度森林的混合模型异常流量检测***及方法
CN115174178A (zh) * 2022-06-28 2022-10-11 南京邮电大学 基于生成对抗网络的半监督网络流量异常检测方法
CN115811440A (zh) * 2023-01-12 2023-03-17 南京众智维信息科技有限公司 一种基于网络态势感知的实时流量检测方法
CN117354056A (zh) * 2023-12-04 2024-01-05 中国西安卫星测控中心 基于卷积神经网络和集成学习算法的网络入侵检测方法
CN117354056B (zh) * 2023-12-04 2024-02-13 中国西安卫星测控中心 基于卷积神经网络和集成学习算法的网络入侵检测方法
CN117914629A (zh) * 2024-03-18 2024-04-19 台州市大数据发展有限公司 一种网络安全检测方法及***
CN117914629B (zh) * 2024-03-18 2024-05-28 台州市大数据发展有限公司 一种网络安全检测方法及***

Also Published As

Publication number Publication date
CN112784881B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN112784881B (zh) 网络异常流量检测方法、模型及***
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN113705526B (zh) 一种高光谱遥感影像分类方法
CN110084610B (zh) 一种基于孪生神经网络的网络交易欺诈检测***
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
Yu et al. Auto-fas: Searching lightweight networks for face anti-spoofing
CN110147321A (zh) 一种基于软件网络的缺陷高风险模块的识别方法
CN107292097B (zh) 基于特征组的中医主症选择方法
CN112560596B (zh) 一种雷达干扰类别识别方法及***
CN111914728A (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
Li et al. Mining static code metrics for a robust prediction of software defect-proneness
CN113269647A (zh) 基于图的交易异常关联用户检测方法
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN116248392A (zh) 一种基于多头注意力机制的网络恶意流量检测***及方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN112613032B (zh) 基于***调用序列的主机入侵检测方法及装置
CN117851863A (zh) 一种面向微服务异常检测的特征指标选取方法
CN117349743A (zh) 一种基于多模态数据的超图神经网络的数据分类方法及***
CN117134969A (zh) 基于扩散生成对抗网络和改进白鲸优化的入侵检测算法
CN111401440A (zh) 目标分类识别方法、装置、计算机设备及存储介质
Xiao et al. Group-wise feature selection for supervised learning
CN115643153A (zh) 基于图神经网络的报警关联分析方法
CN114330650A (zh) 基于进化元学习模型训练的小样本特征分析方法及装置
CN115249513A (zh) 一种基于Adaboost集成思想的神经网络拷贝数变异检测方法与***
Binu et al. Support vector neural network and principal component analysis for fault diagnosis of analog circuits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant