CN104869126A - 一种网络入侵异常检测方法 - Google Patents
一种网络入侵异常检测方法 Download PDFInfo
- Publication number
- CN104869126A CN104869126A CN201510345440.5A CN201510345440A CN104869126A CN 104869126 A CN104869126 A CN 104869126A CN 201510345440 A CN201510345440 A CN 201510345440A CN 104869126 A CN104869126 A CN 104869126A
- Authority
- CN
- China
- Prior art keywords
- network
- feature set
- model
- classification
- rvfl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 238000000513 principal component analysis Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 40
- 238000012512 characterization method Methods 0.000 claims description 36
- 238000012360 testing method Methods 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 33
- 230000005856 abnormality Effects 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000005284 excitation Effects 0.000 claims description 4
- JOCBASBOOFNAJA-UHFFFAOYSA-N N-tris(hydroxymethyl)methyl-2-aminoethanesulfonic acid Chemical compound OCC(CO)(CO)NCCS(O)(=O)=O JOCBASBOOFNAJA-UHFFFAOYSA-N 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 14
- 230000007547 defect Effects 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 41
- 230000008569 process Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000009545 invasion Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种网络入侵异常检测方法。本发明针对网络入侵异常检测模型输入特征的高维共线性问题,首先通过基于主元分析(PCA)的特征提取技术对输入变量进行潜在特征提取,消除变量间的共线性;然后采用基于互信息(MI)的特征选择技术对PCA提取的潜在变量进行选择,进而实现与异常检测模型输出类别最为相关的相互独立的特征变量的选择;最后,以这些特征输入,基于具有较快学习速度的随机向量泛函联接(RVFL)网络建立检测模型。抵消了主元分析提取的特征与模型输出不相关、基于互信息的特征选择需要考虑变量间的相关性的缺点,有效地解决了网络入侵异常检测模型输入特征的高维共线性问题。
Description
技术领域
本发明涉及网络安全技术,具体涉及一种网络入侵异常检测方法。
背景技术
随着网络的无线化、移动化,以及工业4.0的逐步深入和推广,信息安全形势日趋严峻,关乎到国家安全的关键基础设施的安全防护更需要高度重视。网络入侵检测是指通过收集操作***、***程序、应用程序、网络包等信息,发现***中违背安全策略或危及***安全的行为。现有的网络入侵异常检测技术包括统计分析、模式预测、神经网络、遗传算法、序列匹配与学习、免疫***、基于规范、数据挖掘、完整性检查和贝叶斯技术等。针对当前入侵检测***缺少对经常动态变化网络环境的自适应能力的缺点,部分现有技术提出了基于Adaboost在线参数识别方法的动态分布式网络入侵检测。可见,网络入侵异常检测与统计建模、机器学习、人工智能等前言技术具有较强的关联性。
网络入侵异常检测本质上是个分类问题,而分类器复杂程度、学习速度和分类精度等性能与其输入变量维数密切相关。维数约简可降低测量成本并提高建模精度,特征提取和特征选择技术是各有优缺点的两种常用方法。
选择适合的识别模型构建方法对快速适应频繁变化的动态网络环境,提高入侵异常检测模型的快速构建和在线批次更新极为重要。传统的误差反向逆传播神经网络(BPNN)被过拟合、训练时间长、学习参数难以优化选择等问题所困扰,部分现有技术提出了基于改进的遗传算法(GA)优化BPNN权值的入侵检测方法。基于结构风险最小化的支持向量机(SVM)建模方法具有较好的预测性能,部分现有技术提出混合杂草算法优化SVM的网络入侵检测,以及基于深度信念网络的入侵检测模型。但是,SVM模型需要花费较多时间求解最优解,其在线递推模型则是以次优解替代最优解,难以适用采用重新训练方式实现快速更新。
发明内容
有鉴于此,本发明提出一种网络入侵异常检测方法,以提高模型训练速度,便于网络入侵异常检测模型的快速更新以适应动态网络的频繁变化。
本发明的网络入侵异常检测方法包括:
S100、基于贡献率期望值对网络特征训练样本进行主元分析(PCA),获取由相互独立的特征向量组成的第一特征集合;
S200、计算第一特征集合中各特征向量与网络特征训练样本对应的网络入侵类别之间的互信息,选取互信息大于选择阈值的特征向量作为第二特征集合的元素,并记录第二特征集合的元素在第一特征集合中的位置;
S300、以最小化训练误差和输出权值范数为目标,基于结构参数以随机向量泛函连接(RVFL)建模方法根据所述第二特征集合以及对应的网络入侵类别计算RVFL模型的输出权值;
S400、判断根据当前的贡献率期望值、选择阈值以及结构参数建立的检测模型的识别率是否最大,如果否,执行步骤S500,如果是,执行步骤S600;
S500、调整所述贡献率期望值、选择阈值以及结构参数,执行步骤S100;
S600、将当前PCA模型、第二特征集合的元素在第一特征集合中的位置以及RVFL模型的输出权值记录为模型参数;
S700、检测获取网络特征测试样本;
S800、基于训练样本构建的主元分析模型获取所述网络特征测试样本的第一特征集合;
S900、根据第二特征集合的元素在第一特征集合中的位置选择获取所述网络特征测试样本的第二特征集合;
S1000、根据RVFL模型的输出权值以及所述网络特征测试样本的第二特征集合计算获取网络入侵类别。
优选地,S100包括:
S101、将网络特征训练样本标准化为均值为0、方差为1的协方差矩阵;
S102、求取协方差矩阵的特征值和特征向量;
S103、选取累计贡献率大于所述贡献率期望值的特征向量集合作为所述第一特征集合。
优选地,S200包括:
S201、根据如下公式计算第一特征集合中各特征向量与网络特征训练样本对应的网络入侵类别之间的互信息:
其中,Z0 h为第一特征集合的特征向量,y0为对应的网络入侵类别,Muin(y0;z0 h)为所述互信息,和p(y0)是和y0的边际概率密度;是联合概率密度;是条件熵,是信息熵;
S202、计算互信息的最大值和最小值之间的差值;
S203、根据选择参数和所述差值计算选择阈值;
S204、选择第一特征集合中互信息大于等于所述选择阈值的特征组成所述第二特征集合。
优选地,S300包括根据如下公式计算所述RVFL模型的输出权值:
其中,H+表示隐含层矩阵的Moore-Penrose广义逆,为所述隐含层矩阵,h(x)=[G(a1,b1,x),…,G(ai,bi,x)],G(ai,bi,zsel)=g(ai·zsel+bi)为表示第i个隐含节点的激励函数;NRVFL为结构参数,用于限定隐含层节点的个数;ai和bi是隐含层参数,ai·x表示内积,βi是连接第i个隐含节点的输出权值,Y为所有网络特征训练样本对应的网络入侵类别组成的向量。
优选地,所述结构参数根据如下公式计算获得:
NRVFL=2*h’+1
其中,h’为第二特征集合的元素数量。
优选地,S800包括:
S801、将网络特征测试样本标准化为均值为0、方差为1的协方差矩阵;
S802、求取协方差矩阵的特征值和特征向量;
S803、选取累计贡献率大于所述模型参数的贡献率期望值的特征向量集合作为所述网络特征测试样本的第一特征集合。
优选地,S1000包括根据如下公式计算计算获取网络入侵类别:
其中,ytest为所述网络入侵类别,Zsel为所述网络测试样本的第二特征集合。
本发明针对网络入侵异常检测模型输入特征的高维共线性问题,以及网络环境动态变化频繁等问题,提出基于主元分析(PCA)和互信息(MI)维数约简策略的快速网络入侵异常检测模型构建方法。该方法首先通过基于PCA的特征提取技术对输入变量进行潜在特征提取,消除变量间的共线性;然后采用基于MI的特征选择技术对PCA提取的潜在变量进行选择,进而实现与异常检测模型输出类别最为相关的相互独立的特征变量的选择;最后,以这些特征输入,基于具有较快学习速度的随机向量泛函联接(RVFL)网络建立检测模型。抵消了主元分析提取的特征与模型输出不相关、基于互信息的特征选择需要考虑变量间的相关性的缺点,有效地解决了网络入侵异常检测模型输入特征的高维共线性问题。采用具有快速学习能力的基于随机向量函数联接网络算法,提高了模型训练速度,便于网络入侵异常检测模型的快速更新以适应动态网络的频繁变化。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的网络入侵异常检测方法的流程图;
图2是本发明实施例的网络入侵异常检测方法的数据流图;
图3是本发明实施例进行PCA特征提取时的主元累计方差贡献率变化曲线;
图4是本发明实施例针对PCA提取的特征进一步计算的MI分布示意图;
图5是本发明实施例原始特征与输出类别间的MI值;
图6是本发明实施例基于MI进行特征选的参量分布示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是本发明实施例的网络入侵异常检测方法的流程图。图2是本发明实施例的网络入侵异常检测方法的数据流图。图1和图2分别从不同角度描述本发明实施例所述方法,如图1和图2所示,所述方法包括:
S100、基于贡献率期望值对网络特征训练样本进行主元分析(PCA),获取由相互独立的特征向量组成的第一特征集合。
主元分析(Principal Component Analysis,PCA)是一种多变量统计方法,能够在不丢失原有信息的基础上,将原始相关的高维输入变量转换为低维空间内相互独立的新变量。
具体地,步骤S100可以包括:
S101、将网络特征训练样本标准化为均值为0、方差为1的协方差矩阵。
S102、求取协方差矩阵的特征值和特征向量。
S103、选取累计贡献率大于所述贡献率期望值的特征向量集合作为所述第一特征集合。
假设网络特征训练样本由k个样本(行)和p个变量组成(列),则首先被标准化为0均值1方差的协方差矩阵Xk,将协方差矩阵Xk按下式分解:
其中和分别是特征值和特征向量。
从几何意义上讲,PCA就是坐标系旋转的过程,各主成份表达式就是新坐标与原始坐标系的转换关系,新坐标系坐标轴的方向就是原始数据方差最大的方向。每个主元的方差和总方差的比值称为该主元对样本总方差的贡献率。一般情况下需要选取h(h<p)个主元来代替原来的p个相关变量,并要求这h个主元能够概括原p个变量所提供的绝大部分信息。
在PCA中,可以通过贡献率预期值CPVlimit来控制选取的主元数量h。
本文采用如下公式确定方差累计贡献率(CPV)的计算公式为:
其中,是协方差矩阵的特征值;p是网络特征训练样本变量个数;h是选择的主元个数。CPVh值大于期望值CPVlimit时对应的h值就是应该保留的主元个数。
保留的主元(也即特征向量)可以构成第一特征集合
由上述描述可知,PCA主要考虑输入数据空间的变化信息,未考虑输入与输出数据间的关系。有可能前面的主元中包含着较多的与被预测变量相关的信息,也可能较少。研究表明,该现象与不同工业背景的具体数据有关。若是提取的主元中具有较小贡献率的主元对建模具有较大的贡献,采用此类主元建模会导致软测量模型稳定性降低。因此,需要在给定贡献率下获得的主元特征中进行重新选择。
S200、计算第一特征集合中各特征向量与网络特征训练样本对应的网络入侵类别之间的互信息,选取互信息大于选择阈值的特征作为第二特征集合的元素,并记录第二特征集合的元素在第一特征集合中的位置。
互信息(Mutual Information,MI)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。MI可用于定量的度量两个变量间的互相依靠程度。基于MI的特征选择就是基于高阶统计矩进行特征向量选择,主要优点是对噪声和数据变换具有较好的鲁棒性。本发明采用简化的特征选择算法对PCA提取的特征向量进行选择,即只是依据自适应设定的阈值选择特征,主要原因是经PCA提取的特征之间已经相互独立。
具体地,步骤S200可以包括:
S201、根据如下公式计算第一特征集合中各特征向量与网络特征训练样本对应的网络入侵类别之间的互信息:
其中,Z0 h为第一特征集合的特征向量,y0为对应的网络入侵类别,Muin(y0;z0 h)为所述互信息,和p(y0)是和y0的边际概率密度;是联合概率密度;是条件熵,是信息熵。
S202、计算互信息的最大值和最小值之间的差值。
也即,计算所有潜在特征中MI的最小和最大值的间隔值:
其中,和是所有特征向量中MI的最小值和最大值。
S203、根据选择参数和所述差值计算选择阈值。
进行潜在特征选择的MI阈值θth可以采用下式自适应计算:
其中,{nMI,NMI}为选择参数,其在步骤S100开始前预先设定。
S204、选择第一特征集合中互信息大于等于所述选择阈值的特征组成所述第二特征集合。
具体地,采用下式进行特征选择:
将的潜在特征统一标记为作为第二特征集合。显然特征数量h′是计算MI的参数{nMI,NMI}的函数。
S300、以最小化训练误差和输出权值范数为目标,基于结构参数以随机向量泛函连接(RVFL)建模方法根据所述第二特征集合以及对应的网络入侵类别计算RVFL模型的输出权值。
RVFL建模方法具有学习速度快、泛化性能好的特点。RVFL建模算的输出可以表示为:
其中,gi=G(ai,bi,zsel)=g(ai·zsel+bi)表示第i个隐含节点的激励函数;NRVFL为隐含层节点的个数(也即,结构参数);ai和bi是隐含层参数;ai·x表示内积;βi是连接第i个隐含节点的输出权值;隐层核映射表示为:h(x)=[G(a1,b1,x),…,G(ai,bi,x)]。
RVFL建模算的输出可以表示为:Hβ=Y
其中, k为训练样本数量; Y=[y1,…,yk,]T k×1,其中,yk为网络特征测试样本对应的网络入侵类别。
如果隐含节点的数量足够多,RVFL就能够在输入权值随机产生时逼近任何连续的函数。
因此,采用同时最小化训练误差和输出权值范数的学习原则,也即:
minmize:∑||β·h(xi)-yi||2
and
minmize:||β||
由此,输出权值可以表示为:
其中,H+表示隐含层矩阵的Moore-Penrose广义逆。
由于隐含节点的输入权值随机产生,只需要给定激励函数和隐含节点数,便可以快速计算得到输出权值。
优选地,在本发明实施例中,隐含节点的数量采用下式随输入特征个数自适应计算:NRVFL=2*h′+1
S400、判断根据当前的贡献率期望值、选择阈值以及结构参数建立的检测模型的识别率是否最大,如果否,执行步骤S500,如果是,执行步骤S600。
S500、调整所述贡献率期望值、选择阈值以及结构参数,执行步骤S100。
S600、将当前PCA模型、第二特征集合的元素在第一特征集合中的位置以及RVFL模型的输出权值记录为模型参数。
总体来说,可以用和yo分别表示动态网络环境下采集的网络特征训练样本和对应的网络入侵类型,其中yo基于领域专家根据经验进行类别标定获得。表示经PCA提取的相互独立的潜在变量,其数量h由PCA提取特征的贡献率期望值CPVlimit确定;表示经MI选择的潜在变量,其特征数量h′由特征选择参数{nMI,NMI}确定;NRVFL表示RVFL模型的结构参数。
由此,以异常检测的识别率最大为准则,建立基于维数约简和RVFL的网络入侵异常检测模型优化需要选择合适参数{CPVlimit,nMI,NMI,NRVFL},可以表述为如下优化问题:
CPVh≤CPVlimit,1≤h≤p
1≤h′≤h
s.t.
h′=f(NMI,nMI),NMI≥2,2≤nMI≤NMI
NRVFL=2*h′+1
其中,E表示检测模型的预测精度,k表示样本数量,为对应的标定的网络入侵类别,为模型的预测输出。表示分类正确的样本数量,h′=f(NMI,nMI)表示h′是{nMI,NMI}的函数。
由此,通过反复调整参数以获得全局最优或局部最优的网络入侵异常检测模型。
根据该模型可以额进行网络入侵异常的检测。
具体地,将采集到的网络特征测试样本基于训练样本的PCA模型获得第一特征集合再经过基于MI的特征选择获得第二特征集合在基于RVFL模型预测获得网络入侵类别。
S700、检测获取网络特征测试样本。
通过在服务器端检测网络参数变化或行为可以获得所需要的多维度网络特征测试样本。
S800、基于训练样本构建的主元分析模型获取所述网络特征测试样本的第一特征集合。
本步骤和步骤S100类似,可以包括:
S801、将网络特征测试样本标准化为均值为0、方差为1的协方差矩阵。
S802、基于训练样本的PCA模型获得网络特征测试样本的第一特征集合。
S900、根据第二特征集合的元素在第一特征集合中的位置选择获取所述网络特征测试样本的第二特征集合。
由于在模型建立时在模型参数中记录了最优模型的第二特征集合中的元素在第一特征集合中的位置,因此,直接在第一特征集合中按照预定的位置选择获取第二特征集合即可。
S1000、根据RVFL模型的输出权值以及所述网络特征测试样本的第二特征集合计算获取网络入侵类别。
S1000包括根据如下公式计算计算获取网络入侵类别:
其中,ytest为所述网络入侵类别,Zsel为所述网络则是样本的第二特征集合。
针对网络入侵异常检测模型输入特征的高维共线性问题,以及网络环境动态变化频繁等问题,提出基于主元分析(PCA)和互信息(MI)维数约简策略的快速网络入侵异常检测模型构建方法。该方法首先通过基于PCA的特征提取技术对输入变量进行潜在特征提取,消除变量间的共线性;然后采用基于MI的特征选择技术对PCA提取的潜在变量进行选择,进而实现与异常检测模型输出类别最为相关的相互独立的特征变量的选择;最后,以这些特征输入,基于具有较快学习速度的随机向量泛函联接(RVFL)网络建立检测模型。抵消了主元分析提取的特征与模型输出不相关、基于互信息的特征选择需要考虑变量间的相关性的缺点,有效地解决了网络入侵异常检测模型输入特征的高维共线性问题。采用具有快速学习能力的基于随机向量函数联接网络算法,提高了模型训练速度,便于网络入侵异常检测模型的快速更新以适应动态网络的频繁变化。
基于本发明实施例的网络入侵异常检测方法,可以基于测试数据进行仿真验证。
美国国防部高级规划署为了进行网络入侵异常检测评估,在MIT林肯实验室建立了模拟美国空军局域网的网络环境仿真各种用户类型、各种不同的网络流量和攻击手段,从而获得了原始的网络连接记录数据集。哥伦比亚大学的和北卡罗莱纳州立大学的学者采用数据挖掘等技术对以上数据集进行特征分析和数据预处理后形成著名的KDD99数据集,已经成为基于计算智能的网络入侵异常检测领域测试平台。下文中基于KDD99数据集进行仿真验证。
KDD99数据集中的每个连接用41个特征来描述,其中34个为连续变量,7个为符号变量。首先进行数据预处理,需要将文本型数据转化为数值型数据,以“协议类型”、“目标主机的网络服务类型”和“连接正常或错误的状态”三个负符号变量为例,转换成的编号如表1所示。
表1
KDD99数据集的是输出异常类别包含拒绝服务攻击(Dos)、扫描与探测(Probe)、未经授权远程访问(R2L)和对本地超级用户的非法访问(R2R)四大类共39种攻击类型,其中训练集中出现22种,其它的17种只在测试集中出现,进而该数据集可有效检验分类器模型的泛化能力。输出类别的处理如表2所示。
表2
训练数据采用“kddcup.data_10_percent.gz”,测试数据采用“corrected.gz”。由于原始数据量较大,本文中分别从训练数据和测试数据中随机抽取0.5%和1%的作为训练和测试数据,其样本数量分别为2470和3110。由于训练数据和测试数据的不同,首先需要去除训练数据中的值为0的列,同时对测试数据做类似处理,处理后的输入变量的维数为39维。为了对所提方法进行较全面的测试,所提方法运行20次。
首先进行基于PCA的特征提取。将原始输入数据标准化为0均值1方差并去除标准化后为“NaN”的列,然后进行PCA处理,运行20次。其中第一次的累计方差贡献率如图3所示。
由图3可知,第一个主成分(PC)的贡献率为31%,前5个的累积贡献率为65%,前10个的累积贡献率为80%。由于需要对提取的潜在变量进行二次选择,这里将CPVlimit取为95%,则选择的潜在特征个数为16。可见维数从34维约简到了16维。
所提方法20次运行的前5个PC的累积贡献率和选择的特征个数如表3所示。
表3
由表3可知,PCA提取的特征值的变化较为稳定。
完成特征提取后,对潜变量特征进行基于MI的特征选择。与特征提取过程相同,首先对13维的潜在变量进行标准化处理,然后计算潜在变量与输出类别间的MI值,其中第一次计算结果如图4所示。
由图4可知,此次随机选择的训练样本中提取的特征与输出间的最大MI值为0.6838,最小为0.0295,并且分布也没有规律。因此,对提取的特征进行重新选择是必要的。为了进行比较,图5给出了原始特征与输出类别间的MI值。
特征提取的潜在变量的MI值显著增加,进一步表明了所提方法的有效性。
选定NMI=10,nMI=1,图6给出了本发明实施例所述方法20次运行的最大MI值,最小MI值,自适应选择的MI阈值和最终选择的特征个数。
图6表明,MI值的波动范围是有限的,但对于相差不大的MI阈值,其选择的特征数量的变化范围却是从8~16,表明随机选择的建模数据间还是存在差异性的。表明运行多次对所提方法进行评价是合理的。
应理解,本发明可以涉及用于执行本申请中所述操作中的一项或多项操作的设备。所述设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备,所述通用计算机有存储在其内的程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、随即存储器(RAM)、只读存储器(ROM)、电可编程ROM、电可擦ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁性卡片或光线卡片。可读介质包括用于以由设备(例如,计算机)可读的形式存储或传输信息的任何机构。例如,可读介质包括随即存储器(RAM)、只读存储器(ROM)、磁盘存储介质、光学存储介质、闪存装置、以电的、光的、声的或其他的形式传播的信号(例如载波、红外信号、数字信号)等。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种网络入侵异常检测方法,包括:
S100、基于贡献率期望值对网络特征训练样本进行主元分析(PCA),获取由相互独立的特征向量组成的第一特征集合;
S200、计算第一特征集合中各特征向量与网络特征训练样本对应的网络入侵类别之间的互信息,选取互信息大于选择阈值的特征向量作为第二特征集合的元素,并记录第二特征集合的元素在第一特征集合中的位置;
S300、以最小化训练误差和输出权值范数为目标,基于结构参数以随机向量泛函连接(RVFL)建模方法根据所述第二特征集合以及对应的网络入侵类别计算RVFL模型的输出权值;
S400、判断根据当前的贡献率期望值、选择阈值以及结构参数建立的检测模型的识别率是否最大,如果否,执行步骤S500,如果是,执行步骤S600;
S500、调整所述贡献率期望值、选择阈值以及结构参数,执行步骤S100;
S600、将当前PCA模型、第二特征集合的元素在第一特征集合中的位置以及RVFL模型的输出权值记录为模型参数;
S700、检测获取网络特征测试样本;
S800、基于训练样本构建的主元分析模型获取所述网络特征测试样本的第一特征集合;
S900、根据第二特征集合的元素在第一特征集合中的位置选择获取所述网络特征测试样本的第二特征集合;
S1000、根据RVFL模型的输出权值以及所述网络特征测试样本的第二特征集合计算获取网络入侵类别。
2.根据权利要求1所述的方法,其特征在于,S100包括:
S101、将网络特征训练样本标准化为均值为0、方差为1的协方差矩阵;
S102、求取协方差矩阵的特征值和特征向量;
S103、选取累计贡献率大于所述贡献率期望值的特征向量集合作为所述第一特征集合。
3.根据权利要求1所述的方法,其特征在于,S200包括:
S201、根据如下公式计算第一特征集合中各特征向量与网络特征训练样本对应的网络入侵类别之间的互信息:
其中,Z0 h为第一特征集合的特征向量,y0为对应的网络入侵类别,Muin(y0;z0 h)为所述互信息,和p(y0)是和y0的边际概率密度;是联合概率密度;是条件熵,是信息熵;
S202、计算互信息的最大值和最小值之间的差值;
S203、根据选择参数和所述差值计算选择阈值;
S204、选择第一特征集合中互信息大于等于所述选择阈值的特征组成所述第二特征集合。
4.根据权利要求1所述的方法,其特征在于,S300包括根据如下公式计算所述RVFL模型的输出权值:
其中,H+表示隐含层矩阵的Moore-Penrose广义逆,为所述隐含层矩阵,h(x)=[G(a1,b1,x),…,G(ai,bi,x)],G(ai,bi,zsel)=g(ai·zsel+bi)为表示第i个隐含节点的激励函数;NRVFL为结构参数,用于限定隐含层节点的个数;ai和bi是隐含层参数,ai·x表示内积,βi是连接第i个隐含节点的输出权值,Y为所有网络特征训练样本对应的网络入侵类别组成的向量。
5.根据权利要求4所述的方法,其特征在于,所述结构参数根据如下公式计算获得:
NRVFL=2*h’+1
其中,h’为第二特征集合的元素数量。
6.根据权利要求1所述的方法,其特征在于,S800包括:
S801、将网络特征测试样本标准化为均值为0、方差为1的协方差矩阵;
S802、基于训练样本的PCA模型获取所述网络特征测试样本的第一特征集合。
7.根据权利要求4所述的方法,其特征在于,S1000包括根据如下公式计算计算获取网络入侵类别:
其中,ytest为所述网络入侵类别,Zsel为所述网络测试样本的第二特征集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510345440.5A CN104869126B (zh) | 2015-06-19 | 2015-06-19 | 一种网络入侵异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510345440.5A CN104869126B (zh) | 2015-06-19 | 2015-06-19 | 一种网络入侵异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104869126A true CN104869126A (zh) | 2015-08-26 |
CN104869126B CN104869126B (zh) | 2018-02-09 |
Family
ID=53914649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510345440.5A Expired - Fee Related CN104869126B (zh) | 2015-06-19 | 2015-06-19 | 一种网络入侵异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104869126B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105429950A (zh) * | 2015-10-29 | 2016-03-23 | 国家计算机网络与信息安全管理中心 | 一种基于动态数据包采样的网络流量识别***和方法 |
CN106060008A (zh) * | 2016-05-10 | 2016-10-26 | 中国人民解放军61599部队计算所 | 一种网络入侵异常检测方法 |
CN106990769A (zh) * | 2017-06-08 | 2017-07-28 | 辽宁省农业科学院 | 一种温室环境综测仪及方法 |
CN107463993A (zh) * | 2017-08-04 | 2017-12-12 | 贺志尧 | 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法 |
CN108009437A (zh) * | 2016-10-27 | 2018-05-08 | 中兴通讯股份有限公司 | 数据发布方法和装置及终端 |
CN108038155A (zh) * | 2017-12-02 | 2018-05-15 | 宝牧科技(天津)有限公司 | 一种网络url异常的检测方法 |
CN109657947A (zh) * | 2018-12-06 | 2019-04-19 | 西安交通大学 | 一种面向企业行业分类的异常检测方法 |
CN110661802A (zh) * | 2019-09-27 | 2020-01-07 | 湖南大学 | 一种基于pca-svm算法的慢速拒绝服务攻击检测方法 |
CN112565177A (zh) * | 2020-10-19 | 2021-03-26 | 东南大学 | 一种源网荷***安全防护方法 |
CN113255750A (zh) * | 2021-05-17 | 2021-08-13 | 安徽大学 | 一种基于深度学习的vcc车辆攻击检测方法 |
CN113283479A (zh) * | 2021-05-11 | 2021-08-20 | 西安交通大学 | 一种适用于电力变压器故障的特征提取与诊断方法 |
CN113326509A (zh) * | 2021-06-17 | 2021-08-31 | 浙江工业大学 | 基于互信息的深度学习模型中毒攻击检测方法及其装置 |
CN115296851A (zh) * | 2022-07-06 | 2022-11-04 | 国网山西省电力公司信息通信分公司 | 一种基于互信息与灰狼提升算法的网络入侵检测方法 |
CN115454781A (zh) * | 2022-10-08 | 2022-12-09 | 杭银消费金融股份有限公司 | 基于企业架构***的数据可视化展现方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7733224B2 (en) * | 2006-06-30 | 2010-06-08 | Bao Tran | Mesh network personal emergency response appliance |
CN102609716A (zh) * | 2012-01-10 | 2012-07-25 | 银江股份有限公司 | 一种基于改进的hog特征和pca的行人检测方法 |
-
2015
- 2015-06-19 CN CN201510345440.5A patent/CN104869126B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7733224B2 (en) * | 2006-06-30 | 2010-06-08 | Bao Tran | Mesh network personal emergency response appliance |
CN102609716A (zh) * | 2012-01-10 | 2012-07-25 | 银江股份有限公司 | 一种基于改进的hog特征和pca的行人检测方法 |
Non-Patent Citations (1)
Title |
---|
戚名钰: "基于PCA的SVM网络入侵检测研究", 《技术研究》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105429950A (zh) * | 2015-10-29 | 2016-03-23 | 国家计算机网络与信息安全管理中心 | 一种基于动态数据包采样的网络流量识别***和方法 |
CN105429950B (zh) * | 2015-10-29 | 2019-04-23 | 国家计算机网络与信息安全管理中心 | 一种基于动态数据包采样的网络流量识别***和方法 |
CN106060008A (zh) * | 2016-05-10 | 2016-10-26 | 中国人民解放军61599部队计算所 | 一种网络入侵异常检测方法 |
CN106060008B (zh) * | 2016-05-10 | 2019-11-19 | 中国人民解放军61599部队计算所 | 一种网络入侵异常检测方法 |
CN108009437A (zh) * | 2016-10-27 | 2018-05-08 | 中兴通讯股份有限公司 | 数据发布方法和装置及终端 |
CN108009437B (zh) * | 2016-10-27 | 2022-11-22 | 中兴通讯股份有限公司 | 数据发布方法和装置及终端 |
CN106990769A (zh) * | 2017-06-08 | 2017-07-28 | 辽宁省农业科学院 | 一种温室环境综测仪及方法 |
CN107463993A (zh) * | 2017-08-04 | 2017-12-12 | 贺志尧 | 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法 |
CN108038155A (zh) * | 2017-12-02 | 2018-05-15 | 宝牧科技(天津)有限公司 | 一种网络url异常的检测方法 |
CN109657947B (zh) * | 2018-12-06 | 2021-03-16 | 西安交通大学 | 一种面向企业行业分类的异常检测方法 |
CN109657947A (zh) * | 2018-12-06 | 2019-04-19 | 西安交通大学 | 一种面向企业行业分类的异常检测方法 |
CN110661802A (zh) * | 2019-09-27 | 2020-01-07 | 湖南大学 | 一种基于pca-svm算法的慢速拒绝服务攻击检测方法 |
CN112565177A (zh) * | 2020-10-19 | 2021-03-26 | 东南大学 | 一种源网荷***安全防护方法 |
CN113283479A (zh) * | 2021-05-11 | 2021-08-20 | 西安交通大学 | 一种适用于电力变压器故障的特征提取与诊断方法 |
CN113255750A (zh) * | 2021-05-17 | 2021-08-13 | 安徽大学 | 一种基于深度学习的vcc车辆攻击检测方法 |
CN113255750B (zh) * | 2021-05-17 | 2022-11-08 | 安徽大学 | 一种基于深度学习的vcc车辆攻击检测方法 |
CN113326509A (zh) * | 2021-06-17 | 2021-08-31 | 浙江工业大学 | 基于互信息的深度学习模型中毒攻击检测方法及其装置 |
CN113326509B (zh) * | 2021-06-17 | 2022-07-19 | 浙江工业大学 | 基于互信息的深度学习模型中毒攻击检测方法及其装置 |
CN115296851A (zh) * | 2022-07-06 | 2022-11-04 | 国网山西省电力公司信息通信分公司 | 一种基于互信息与灰狼提升算法的网络入侵检测方法 |
CN115454781A (zh) * | 2022-10-08 | 2022-12-09 | 杭银消费金融股份有限公司 | 基于企业架构***的数据可视化展现方法及*** |
CN115454781B (zh) * | 2022-10-08 | 2023-05-16 | 杭银消费金融股份有限公司 | 基于企业架构***的数据可视化展现方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN104869126B (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104869126A (zh) | 一种网络入侵异常检测方法 | |
US9569615B2 (en) | Cyber security | |
CN106060008B (zh) | 一种网络入侵异常检测方法 | |
CN109040027B (zh) | 基于灰色模型的网络脆弱性节点的主动预测方法 | |
Hu et al. | Cloud belief rule base model for network security situation prediction | |
Ahmadi et al. | A new false data injection attack detection model for cyberattack resilient energy forecasting | |
Wang et al. | Research on network security situation assessment and forecasting technology | |
Ibor et al. | Novel hybrid model for intrusion prediction on cyber physical systems’ communication networks based on bio-inspired deep neural network structure | |
Qin et al. | Association analysis-based cybersecurity risk assessment for industrial control systems | |
CN114124517B (zh) | 一种基于高斯过程的工业互联网入侵检测方法 | |
Planas et al. | Extrapolation with gaussian random processes and evolutionary programming | |
CN112668697B (zh) | 一种无人机飞控控制参数的模糊测试方法及*** | |
Zhu et al. | Least square support vector machine for structural reliability analysis | |
Berthier et al. | Abstraction and symbolic execution of deep neural networks with Bayesian approximation of hidden features | |
Cao et al. | A grey wolf optimizer–cellular automata integrated model for urban growth simulation and optimization | |
CN116545679A (zh) | 一种工业情境安全基础框架及网络攻击行为特征分析方法 | |
Do et al. | A Horizontal Federated-Learning Model for Detecting Abnormal Traffic Generated by Malware in IoT Networks | |
Khoei et al. | ACapsule Q-learning based reinforcement model for intrusion detection system on smart grid | |
Lu et al. | Robust and reliable solutions in bilevel optimization problems under uncertainties | |
Lian et al. | Critical meter identification and network embedding based attack detection for power systems against false data injection attacks | |
Cai et al. | Machine learning-based threat identification of industrial internet | |
Kumari et al. | Random Forest Algorithm for Solar Forecasting in Jamshedpur–India | |
Liu et al. | Variance analysis and adaptive control in intelligent system based on Gaussian model | |
Bombatkar et al. | Efficient method for intrusion detection and classification and compression of data | |
Yang et al. | Identify Parameters of Digital Twins by Gray-Box Evolutionary Dynamic Optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180209 Termination date: 20180619 |
|
CF01 | Termination of patent right due to non-payment of annual fee |