CN106060008B - 一种网络入侵异常检测方法 - Google Patents

一种网络入侵异常检测方法 Download PDF

Info

Publication number
CN106060008B
CN106060008B CN201610306040.8A CN201610306040A CN106060008B CN 106060008 B CN106060008 B CN 106060008B CN 201610306040 A CN201610306040 A CN 201610306040A CN 106060008 B CN106060008 B CN 106060008B
Authority
CN
China
Prior art keywords
matrix
vector
current
potential
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610306040.8A
Other languages
English (en)
Other versions
CN106060008A (zh
Inventor
汤健
孙春来
张健
贾美英
李东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese People's Liberation Army 61599 Force Computing Institute
Nanjing University of Information Science and Technology
Original Assignee
Chinese People's Liberation Army 61599 Force Computing Institute
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese People's Liberation Army 61599 Force Computing Institute, Nanjing University of Information Science and Technology filed Critical Chinese People's Liberation Army 61599 Force Computing Institute
Priority to CN201610306040.8A priority Critical patent/CN106060008B/zh
Publication of CN106060008A publication Critical patent/CN106060008A/zh
Application granted granted Critical
Publication of CN106060008B publication Critical patent/CN106060008B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

对于入侵检测模型构建问题,本发明提出一种新的监督非线性特征提取和正则化随机权重神经网络(RRWNN)的网络入侵异常检测方法。核偏最小二乘(KPLS)算法用于处理输入特征的共线性和复杂非线性映射。这些提取的潜在特征输入RRWNN算法用于构建具有较高学习速度和较好泛化性能的入侵检测模型。采用全局优化策略选择基于KPLS‑RRWNN的入侵检测模型的建模参数。基于KDD99数据的仿真表明了方法的有效性。

Description

一种网络入侵异常检测方法
技术领域
本发明涉及网络安全技术,具体涉及一种网络入侵异常检测方法。
背景技术
随着网络的无线化、移动化,以及工业4.0的逐步深入和推广,信息安全形势日趋严峻,关乎到国家安全的关键基础设施的安全防护更需要高度重视。网络入侵检测是指通过收集操作***、***程序、应用程序、网络包等信息,发现***中违背安全策略或危及***安全的行为。现有的网络入侵异常检测技术包括统计分析、模式预测、神经网络、遗传算法、序列匹配与学习、免疫***、基于规范、数据挖掘、完整性检查和贝叶斯技术等。
在此背景下,研究具有高检测准确性和低训练时间的入侵检测技术对于入侵检测***(IDS)是非常重要的。实施上,入侵检测的主要目标是进行网络正常行为和异常行为的识别;其可以看作为分类问题。因此,在很多研究中均采用不同的机器学习算法用以构建入侵检测模型(例如如下文献“Tsai,C.F.,Hsu,Y.F.,Lin,C.Y.,Lin,W.Y.:Intrusiondetection by machine learning:areview,Expert Syst.Appl.36(2009)11994–12000.”,“Weller-Fahy,D.J.,Borghetti,B.J.,Sodemann.A,A:A Survey of distance andsimilarity measures used within network intrusion anomaly detection.IEEECommunication Surveys&Tutorials,2014,44(1):66-83.”以及“Gianluigi.F.,Pietro.S.,:Ensemble based Collaborative and DistributedIntrusion DetectionSystems:A Survey.Journal of Network and Computer Applications,2016,66:1-16.”)。
通常,具有良好预测性能的网络入侵检测模型应该是一个有效的分类器。因此,首先面对的问题是维数约简。两种方法,特征选择和特征提取,可以使用:前者只是选择与分类目标相关的部分主要的特征,但那些丢弃的特征可能导致分类器模型泛化性能的下降;相反,后者采用线性或非线性的方式确定一个低维空间替代原始空间。最常用的特征提取方法是主成分分析(PCA),可以采用线性子空间有效近似原始数据。但是,PCA未考虑输入和输出变量间的相关性(参见文献“Tang,J.,Yu,W.,Chai,T.,Liu,Z.,&Zhou,X.(2015).Selective ensemble modeling load parameters of ball mill based on multi-scale frequency spectral features and sphere criterion.Mechanical Systems&Signal Processing,66,485-504..”),导致提取的潜在特征(LVs)与输出变量间的相关性较弱(参见文献“Tang,J.,Chai,T.,Zhao,L.,Yu,W.,Yue,H.:Soft sensor for parametersof mill load based on multi-spectral segments pls sub-models and on-lineadaptive weighted fusion algorithm.Neurocomputing,78(1),38-47(2012).”)。有监督的特征提取方法,如偏最小二乘(PLS)算法能够提取与输入输出数据同时相关的LVs。但是,现实世界的***多数都是非线性的。核方法已经成为一种简单、出色的提取非线性潜在特征的方法。通过采用核PLS(KPLS)方法(参见文献“Tang,J.,Chai,T.,Liu,Z.,Yu,W.:Selective ensemble modeling based on nonlinear frequency spectral featureextraction for predicting load parameter in ball mills.Chinese Journal ofChemical Engineering,23(12),2020-2028(2015).”),输入特征的维数可以被有效约简。但是,如何选择核参数和潜在特征数量还是一个开放问题。
常用的用以构建网络入侵检测模型的方法是人工神经网络(ANN)和支持向量机(SVM)(例如,文献“Wang,G.,Hao,J.X.,Ma,J.,Huang,L.H.:A new approach to intrusiondetection usingartificial neural networks and fuzzy clustering,ExpertSyst.Appl.37,6225-6232(2010).”和文献“Khan,L.,Awad,M.,Thuraisingham,B:A newintrusion detection system usingsupport vector machines and hierarchicalclustering,Int.J.Very Data Bases 16,507-521(2007).”)。尽管逆传播神经网络(BPNN)已经在不同的应用背景中广泛应用,但其始终面临着局部最小、不可控的收敛速度和过拟合等众多问题。对于SVM,必须以较长的学习时间解决二次规划(QP)问题;尽管有学者提出在线SVM(参见文献“Gu,B.,Sheng,V.S.,Wang,Z.,Ho,D.,Osman,S.,Li,S.:Incrementallearning forν-support vector regression.Neural Networks the Official Journalof the International Neural Network Society,67,140-150(2015).”和文献“Gu,B.,Sheng,V.S.,Tay,K.Y.,Romano,W.,Li,S.:Incremental support vector learning forordinal regression.IEEE Transactions on Neural Networks&Learning Systems,26(7),1403-1416(2015).”),但是仅能够获得次优解。文献(Schmidt,W.F.,Kraaijveld,M.A.,Duin,R.P.W.:Feed Forward Neural Networks With Random Weights,In:PatternRecognition,1992.Vol.II.Conference B:Pattern Recognition Methodology andSystems,Proceedings.,11th IAPR International Conference on30Aug 1992-03Sep1992,pp.1-4.)提出了一种基于随机权重的单隐层前馈网络,其隐含层节点的权重和偏置是在均匀分布的[-1,1]之间进行随机选择。但是,它不能保证构建的随机权重神经网络(RWNN)模型具有普遍近似能力(在概率1意义下),这主要是由于其随机给定输入权重和偏置的方式(参见文献“Cao,F.L,Wang,D.H,Zhu,H.:An iterative learning algorithm forfeedforward neural networks with random weights.Information Sciences1(9),546-557(2016).”)。随机向量函数链接网络(RVFLs)可以克服梯度学习算法的缺点(参见文献“Pao,Y.H.,Takefuji,Y.:Functional-link net computing:theory,systemarchitecture,and functionalities.Computer 25(5),76-79(1992).”以及文献“Igelnik,B.,Pao,Y.H.:Stochastic choice of basis functions in adaptivefunction approximation and the functional-link net.IEEE Transactions onNeural Networks 6(6),1320-1329(1995).”)。无直接链接情况的RVFL的普遍近似能力的理论证据表明,随机设定的输入权重和偏置的范围依靠于建模数据。显然,RWNN最吸引人的优点在于其快速的学习能力。较小的训练误差和权重范数意味着前馈网络的更好的泛化性能(参见文献“Bartlett,P.L.:The sample complexity of pattern classificationwith neural networks:the size of the weights is more important than the sizeof the network,IEEE Trans.Inform.Theory 44(2),525-536(1998).”),这导致最近研究中提出的正则化RWNN(RRWNN)(参见文献“Cao,F.L.,Tan,Y.P.,Cai,M.M.:Sparsealgorithms of random weight networks and applications,Expert Syst.Appl.41,2457-2462(2014).”)。显然,需要为不同的建模数据选择不同的正则化参数。因此,RRWNN有三个建模参数,即隐含层节点、输入权重和偏置的范围,以及正则化参数,均取决于建模数据。
显然,很有必要基于全局优化的视角选择潜在特征和构建入侵检测模型。
发明内容
有鉴于此,本发明提出一种网络入侵异常检测方法,以提高模型训练速度,便于网络入侵异常检测模型的快速更新以适应动态网络的频繁变化。
本发明的网络入侵异常检测方法包括:
S100、基于当前核参数将训练样本中的输入向量通过核映射方法映射到高维特征空间获取对应的高维核矩阵,并基于核偏最小二乘方法(KPLS)提取所述高维核矩阵的全部潜在特征;
S200、基于当前输入数据的累计方差百分比阈值从全部潜在特征中选取期望的潜在特征;
S300、以期望的潜在特征为输入,以训练样本的输出向量为输出,根据当前随机参数的取值范围、当前隐含层节点数量和当前正则化因子,基于随机权重神经网络方法训练获取当前入侵检测模型,所述入侵检测模型包括当前随机隐含层输入权重和当前输入偏置以及当前隐含层节点数量,所述随机参数的取值范围用于限定所述随机隐含层输入权重和输入偏置的范围;
S400、判断根据当前的核参数、累计方差百分比阈值、随机参数取值范围、隐含层节点数量和正则化因子获得的检测模型的识别率是否最大,如果否,执行步骤S500,如果是,执行步骤S600;
S500、调整当前的核参数、累计方差百分比阈值、随机参数取值范围、隐含层节点数量和正则化因子,执行步骤S100;
S600、将当前核参数以及期望的潜在特征提取方式和当前入侵检测模型记录为选定的核参数、选定的期望潜在特征提取方式和选定的入侵检测模型;
S700、检测获取网络特征测试样本;
S800、基于选定的核参数、选定的期望潜在特征提取方式提取测试样本的期望的潜在特征;
S900、根据所述测试样本的期望的潜在特征和选定的入侵检测模型计算获取网络入侵类别。
优选地,S100包括基于如下公式获取高维核矩阵:
其中,K=Φ(xl)TΦ(xm),l=1,2,...,k,m=1,2,...,k,,Φ(xl)是向量xl基于当前核参数的高维映射,I是k维的单位矩阵;1k是值为1长度为k的向量;k是训练样本中输入样本的数量。
优选地,S100还包括:
步骤S110、令i=1,Yi=Y,其中,是训练样本的输出矩阵,yl为第l个训练样本的真值,是用于计算的中间核矩阵,Yi是用于计算的中间的训练样本真值;
步骤S120、随机获取Yi中一列赋值给ui
步骤S130、根据如下公式计算低维得分矩阵的得分向量ti和ui的初始值:
ui=Yici;其中,ci为用于计算的中间量;
步骤S140、根据如下公式迭代计算低维得分矩阵的得分向量ti和ui的值:
ti←ti/||ti||,ci←ci/||ci||,ui=Yici;其中,←表示进行赋值,||ti||为ti的范数,||ci||为ci的范数
步骤S150、在ti收敛时,转向步骤S160,否则,转向步骤S140;
步骤S160、根据如下公式计算输入和输出矩阵的残差:
步骤S170、令i=i+1,如果i≥h,则转向步骤S180;否则转到步骤S120;其中,h为预定的核特征的数量;
步骤S180、根据如下公式计算获取潜在特征向量矩阵Zall
其中,T=[t1,t2,...,th],U=[u1,u2,...,uh],z1,...,zh表示特征向量矩阵Zall中的第1列到第h列向量。
优选地,步骤S200包括选取对应的与输出数据的协方差矩阵特征值最大的h′个潜在特征向量作为期望的潜在特征向量,其中,h′满足:
其中,是输入矩阵的潜在特征向量与对应的输出向量之间的协方差矩阵的特征值,CPVlimit为当前输入数据的累计方差百分比阈值,CPVh′表示前h′个潜在特征向量累积和与全部潜在特征变量累积和的比。
优选地,所述步骤S300包括:
步骤310、在范围[-α,α]内随机选择iNN=1,2,….L其中,α为当前随机参数取值范围,为第iNN个随机输入权重,为第iNN个输入偏置,L是当前的隐含层节点数量,R表示全体实数的集合;
步骤S320、根据如下公式计算隐含层的数据矩阵H:
其中,zl∈Rh′是第l个训练样本对应的期望的潜在特征向量,L是当前的隐含层节点数量,g()为预定的激活函数,Rh′表示h′维的实数向量;;
步骤S330、根据如下公式计算输出权重
其中,λ为当前正则化因子。
优选地,步骤S500包括以网格寻优方法或启发式优化方法调整当前的核参数、累计方差百分比阈值、随机参数取值范围、隐含层节点数量和正则化因子。
优选地,步骤S800包括:
步骤S810、基于如下公式获取高维核矩阵:
其中,Kt=Φ((xtest)l)TΦ(xm),l=1,2,...,kt,m=1,2,...,kt,,Φ((xtest)l)是测试样本(xtest)l基于当前核参数的高维映射,I是kt维的单位矩阵;1k是值为1长度为k的向量;kt是测试样本的数量,1k,t为值为1,长度为kt的向量;
步骤S820、根据如下公式计算获取潜在特征向量矩阵(Ztest)all
步骤S830、根据选定的期望潜在特征提取方式从潜在特征向量矩阵提取测试样本的期望的潜在特征。
优选地,步骤900包括根据如下公式计算获取网络入侵类别
其中,
其中,ztest l∈Rh′是第l个测试样本对应的期望的潜在特征向量,L是选定的隐含层节点数量,为所述选定的入侵检测模型的随机输入权重,为所述选定的入侵检测模型的输入偏置,g()为预定的激活函数。
对于入侵检测模型构建问题,本发明提出一种新的监督非线性特征提取和正则化随机权重神经网络(RRWNN)建模,用于入侵检测***。核偏最小二乘(KPLS)算法用于处理输入特征的共线性和复杂非线性映射。这些提取的潜在特征输入RRWNN算法用于构建具有较高学习速度和较好泛化性能的入侵检测模型。采用全局优化策略选择基于KPLS-RRWNN的入侵检测模型的建模参数。基于KDD99数据的仿真表明了方法的有效性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的网络入侵异常检测方法的流程图;
图2是本发明实施例的网络入侵异常检测方法的数据流图;
图3是本发明实施例基于不同核参数进行特征提取的方差百分比示意图;
图4是本发明实施例的方法不同建模参数与预测精度间的关系的示意图;
图5是本发明实施例的方法基于不同维数约简方法运行20次的预测精度示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是本发明实施例的网络入侵异常检测方法的流程图。图2是本发明实施例的网络入侵异常检测方法的数据流图。如图1和图2所示,所述方法包括:
S100、基于当前核参数将训练样本中的输入向量通过核映射方法映射到高维特征空间获取对应的高维核矩阵,并基于核偏最小二乘方法(KPLS)提取所述高维核矩阵的全部潜在特征;
S200、基于当前输入数据的累计方差百分比阈值从全部潜在特征中选取期望的潜在特征;
S300、以期望的潜在特征为输入,以训练样本的输出向量为输出,根据当前隐含层输入权重和输入偏置(也即,随机参数)取值范围、当前隐含层节点数量和当前正则化因子,基于随机权重神经网络方法训练获取当前入侵检测模型,所述入侵检测模型包括当前随机输入权重和当前输入偏置以及当前隐含层节点数量
S400、判断根据当前的核参数、累计方差百分比阈值、随机参数取值范围、隐含层节点数量和正则化因子获得的检测模型的识别率是否最大,如果否,执行步骤S500,如果是,执行步骤S600;
S500、调整当前的核参数、累计方差百分比阈值、随机参数取值范围、隐含层节点数量和正则化因子,执行步骤S100;
S600、将当前核参数以及期望的潜在特征提取方式和当前入侵检测模型记录为选定的核参数、选定的期望潜在特征提取方式和选定的入侵检测模型;
S700、检测获取网络特征测试样本;
S800、基于选定的核参数、选定的期望潜在特征提取方式提取测试样本的期望的潜在特征;
S900、根据所述测试样本的期望的潜在特征和选定的入侵检测模型计算获取网络入侵类别。
其中,在步骤S100和步骤S200,需要进行特征提取。特征提取是指线性/非线性方式确定适当的低维数据替代原始的高维数据。本发明实施例通过应用核方法(也称核技巧,kernel trick)将网络检测数据映射到高维空间,然后再应用核偏最小二乘法进行降维,从而可以对于非线性的网络检测数据进行有效的特征提取。PLS算法的目标是最大化输入数据和输出数据间的协方差,其中k为训练样本数量。
具体地,在步骤S100,首先基于如下公式获取高维核矩阵:
其中,K=Φ(xl)TΦ(xm),l=1,2,...,k,m=1,2,...,k,为k阶矩阵,Φ(xl)是向量xl基于当前核参数的高维映射,I是k维的单位矩阵,1k是值为1长度为k的向量,k是训练样本中输入样本的数量。
然后,基于KPLS算法获取高维核矩阵的全部潜在特征向量。
具体地,步骤S100利用KPLS进行全部潜在特征向量提取的流程如表1所示:
表1 KPLS算法
步骤S100包括:
步骤S110、令i=1,Yi=Y,其中,Y是训练样本的输出矩阵,是用于计算的中间核矩阵,Yi是用于计算的中间的训练样本真值;
步骤S120、随机获取Yi中一列赋值给ui
步骤S130、根据如下公式计算低维得分矩阵的得分向量ti和ui的初始值:
ui=Yici;其中,ci为用于计算的中间量;
步骤S140、根据如下公式迭代计算低维得分矩阵的得分向量ti和ui的值:
ti←ti/||ti||,ci←ci/||ci||,ui=Yici;其中,←表示进行赋值,||ti||为ti的范数,||ci||为ci的范数
步骤S150、在ti收敛时,转向步骤S160,否则,转向步骤S140;
步骤S160、根据如下公式计算输入和输出矩阵的残差:
步骤S170、令i=i+1,如果i≥h,则转向步骤S180;否则转到步骤S120;其中,h为预定的核向量的数量;
步骤S180、根据如下公式计算获取潜在特征向量矩阵Zall
其中,T=[t1,t2,...,th],U=[u1,u2,...,uh],由上述公式可知z1,...,zh表示特征向量矩阵Zall中的第1列到第h列向量。
由此,原始输入矩阵X的维数缩减到h维。
通常,实际期望的KLV数量(h′)远远小于原始的全部KLV数量(h)。因此,可以通过将潜在特征向量(KLV)中贡献较大的一部分选取出来作为期望的特征向量,从而进一步减少特征维度。
具体地,通过输入数据的累计百分比方差(CPV)确定h′。在步骤S200,选取对应的与输出数据的协方差矩阵特征值最大的h′个潜在特征向量作为期望的潜在特征向量,其中,h′满足:
其中,是输入矩阵的潜在特征向量与对应的输出向量之间的协方差矩阵的特征值,CPVlimit为当前输入数据的累计方差百分比阈值,由上式定义可知CPVh 表示前h′个潜在特征向量累积和与全部潜在特征变量累积和的比。
更具体地,可以针对每个潜在特征向量计算对应的特征值,并进行排序,排序后通过搜索算法获取符合上述条件的h′值。
因此,选择适当的核参数Pker和CPV的阈值CPVlimit对获得期望的潜在特征非常必要。
在步骤S300,根据提取的期望的潜在特征,本发明实施例以期望的潜在特征为输入,以训练样本的输出向量为输出,根据当前随机参数取值范围α、当前隐含层节点数量L和当前正则化因子λ基于随机权重神经网络方法(RWNN)训练获取当前入侵检测模型。
随机权重神经网络(RWNN)可以采用下式表示:
其中,β=[β12,...,βL]∈RL是输出层权重;L是隐含层节点数量;z∈Rh′是输入特征向量;和bi∈R是在一定范围[-α,α]内取值的输入权重和输入偏置。对于给定的训练样本,令以均匀分布在设定范围内随机选择,可以得到如下的线性等式:
Hβ=Y,其中,
在很多情况下,H不是列满秩,甚至是病态的。因此,可以通过下式估计输出权重:
通过求解最小二乘问题,其解可以通过解析方式获得,也即:
其中,H+是矩阵H的Moore-Penrose广义逆。当HTH非奇异时,则有:H+=(HTH)-1HT
但是,最小二乘问题通常都是病态的。正则化模型通常用于找到合适的解。因此,正则化RWNN(RRWNN)的学习问题可以用下式表示:
上式可以重新写为:
其中,λ>0,用于调整训练误差和惩罚过拟合之间的均衡。因此,学习模型的泛化能力和稳定性得到进一步的提高。上式的解可以表示为:
基于此,可以通过确定H和正则化因子λ确定输出权重,从而获取模型。由于H由随机隐含层输入权重以及输入偏置确定。因此,需要确定输入权重以及输入偏置和正则化因子λ则可确定对应的入侵检测模型。
具体地,本发明实施例通过不断调整上述参数并评估不同入侵检测模型的预测效果确定最优的入侵检测模型。
其中,步骤S300的流程如表2所示:
表2:
步骤300包括:
步骤S310、在范围[-α,α]内随机选择iNN=1,2,….L其中,α为当前随机参数取值范围,为第iNN个随机隐含层输入权重,为第iNN个输入偏置,L是当前的隐含层节点数量,R表示全体实数的集合;
步骤S320、根据如下公式计算隐含层的数据矩阵H:
其中,zl∈Rh′是第l个训练样本对应的期望的潜在特征向量,L是当前的隐含层节点数量,g()为预定的激活函数,Rh′表示h′维的实数向量;
步骤S330、根据如下公式计算输出权重
其中,λ为当前正则化因子。
在步骤S400,对于通过RRWNN获取的入侵检测模型进行评价,如果达到最优则转入后续流程,否则,进行调整进行特征提取的参数以及进行模型建立参数以获取新的入侵检测模型。
具体地,通过入侵检测模型的识别率来判断入侵检测模型是否最优。
基于优化选择的建模参数集合{CPVlimit,Pker,α,L,λ},最大化入侵识别模型识别准确率的过程可以表述为如下优化问题:
其中,表示正确识别的样本数量;(Pker)limitlimit和Llimit是Pker,α和L的上限。
上述优化问题可以优选通过网格寻优算法或启发式优化算法予以解决。
由此,在步骤S500,可以通过如上所述的策略调整当前的核参数、累计方差百分比阈值、随机参数取值范围、隐含层节点数量和正则化因子,并返回S100开始新一轮迭代。
由此,通过多次迭代,可以获取到优化的入侵检测模型。
在获取到入侵检测模型后,既可以基于特征提取参数和入侵检测模型来进行网络入侵异常检测。
具体地,在步骤S700,检测获取网络特征测试样本,已获得一组输入向量。
在步骤800,基于选定的特征提取参数进行特征提取。
具体地,步骤S800包括:
步骤S810、基于如下公式获取高维核矩阵:
Kt=Φ((xtest)l)TΦ(xm),l=1,2,...,kt,m=1,2,...,kt,,Φ((xtest)l)是测试样本(xtest)l基于当前核参数的高维映射,I是kt维的单位矩阵;1k是值为1长度为k的向量;kt是测试样本的数量,1k,t为值为1,长度为kt的向量;
步骤S820、根据如下公式计算获取潜在特征向量矩阵(Ztest)all
由于参数U、T以及核矩阵之前已经由训练样本确定,因此,可以直接进行计算。
步骤S830、根据选定的期望潜在特征提取方式从潜在特征向量矩阵提取测试样本的期望的潜在特征。步骤S830基于步骤S200确定的期望的潜在特征数量h’来提取特征。
最后,在步骤S900,基于对测试样本提取获得的期望的潜在特征,以及之前获得的优化的入侵检测模型,可以计算模型输出,也即入侵异常的类别。
步骤900包括根据如下公式计算获取网络入侵类别
其中,
其中,ztest l∈Rh′是第l个测试样本对应的期望的潜在特征向量,L是选定的隐含层节点数量,为所述选定的入侵检测模型的随机输入权重,为所述选定的入侵检测模型的输入偏置,g()为预定的激活函数。上述参数为模型参数,在模型建立时获得确定。
基于本发明实施例的网络入侵异常检测方法,可以基于测试数据进行仿真验证。
美国国防部高级规划署为了进行网络入侵异常检测评估,在MIT林肯实验室建立了模拟美国空军局域网的网络环境仿真各种用户类型、各种不同的网络流量和攻击手段,从而获得了原始的网络连接记录数据集。哥伦比亚大学的和北卡罗莱纳州立大学的学者采用数据挖掘等技术对以上数据集进行特征分析和数据预处理后形成著名的KDD99数据集,已经成为基于计算智能的网络入侵异常检测领域测试平台。下文中基于KDD99数据集进行仿真验证。
KDD99数据集中的每个连接用41个特征来描述,其中34个为连续变量,7个为符号变量。首先进行数据预处理,需要将文本型数据转化为数值型数据,以“协议类型”、“目标主机的网络服务类型”和“连接正常或错误的状态”三个负符号变量为例,转换成的编号如表1所示。
表1
KDD99数据集的是输出异常类别包含拒绝服务攻击(Dos)、扫描与探测(Probe)、未经授权远程访问(R2L)和对本地超级用户的非法访问(R2R)四大类共39种攻击类型,其中训练集中出现22种,其它的17种只在测试集中出现,进而该数据集可有效检验分类器模型的泛化能力。输出类别的处理如表2所示。
表2
训练数据采用“kddcup.data_10_percent.gz”,测试数据采用“corrected.gz”。本文中分别从训练数据和测试数据中随机抽取0.5%和1%的作为训练和测试数据,其样本数量分别为2470和3110。由于训练数据和测试数据的不同,首先需要去除训练数据中的值为0的列,同时对测试数据做类似处理,处理后的输入变量的维数为39维。
图3是本发明实施例基于不同核参数进行特征提取的方差百分比示意图。在KPLS算法中采用径向基函数(RBF)进行潜在特征提取。图3示出了基于不同核参数(以Pker=0.1,1,10和100为例)提取的前10个潜在特征的方差百分比(PV)的变化。图3表明:需要少数的几个非线性KLVs就可以表征原始输入特征大部分变化;并且,采用不同核参数时,不同KLVs的贡献(表征的方差百分比(PV))是不同的。因此,采用不同CPVlimit时,构建入侵检测模型所用潜在特征也是不同的。通常,取CPVlimit大于85%,基于Z-block的CPV进行KLVs的选择。可见,通过结合入侵检测模型的预测精度选择Pker和CPVlimit是非常必要的。
图4是本发明实施例的方法不同建模参数与预测精度间的关系的示意图。依据先验知识,将5个建模参数的初值选择为:Pker=1,CPVlimit=90,α=1,L=200和λ=0.2。基于测试样本预测精度评估模型性能,如下所示:
在采用网格寻优方法选择建模参数时,通过每次改变一个参数来观察参数变化对模型预测精度的影响。考虑到训练和测试样本的随机选择过程,以及RRWNN模型初始化的随机过程,模型重复运行20次。不同建模参数和预测性能的最大值、平均值和最小值间的关系如图4所示。在实验中,本文最终选择的建模参数为:Pker=50,CPVlimit=0.8,α=1,L=200和λ=0.2。采用这些建模参数,建模模型重复运行20次的统计结果为:KLVs的平均数量为3,远小于原始输入特征的数量;预测精度的最小值、最大值和平均值分别为0.89804,0.9170和0.9090,具有较好的预测稳定性和稳定性。
图5是本发明实施例的方法基于不同维数约简方法运行20次的预测精度示意图。监督的线性潜在特征提取(基于PLS)方法、非监督线性特征提取(基于PCA)方法。这些方法重复运行20次的预测精度和统计结果如图5所示。相对于基于PCA的方法,基于PLS/KPLS的方法具有较高的预测精度(平均精度)和较好的预测稳定性(最大和最小预测精度之差),其主要的原因是基于PCA的方法属于非监督特征提取方法。也就是说,这些提取的特征与输出数据间的相关性较弱。基于PLS的方法在训练样本上具有更高的预测精度,但其平均预测精度低于基于KPLS的方法,即基于PLS的方法存在一定程度的过拟合。上述结果表明了网络入侵特征和行为类别间的复杂非线性映射关系和本文所提方法的有效性。
对于入侵检测模型构建问题,本发明提出一种新的监督非线性特征提取和正则化随机权重神经网络(RRWNN)建模,用于入侵检测***。核偏最小二乘(KPLS)算法用于处理输入特征的共线性和复杂非线性映射。这些提取的潜在特征输入RRWNN算法用于构建具有较高学习速度和较好泛化性能的入侵检测模型。采用全局优化策略选择基于KPLS-RRWNN的入侵检测模型的建模参数。基于KDD99数据的仿真表明了方法的有效性。
应理解,本发明可以涉及用于执行本申请中所述操作中的一项或多项操作的设备。所述设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备,所述通用计算机有存储在其内的程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、随即存储器(RAM)、只读存储器(ROM)、电可编程ROM、电可擦ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁性卡片或光线卡片。可读介质包括用于以由设备(例如,计算机)可读的形式存储或传输信息的任何机构。例如,可读介质包括随即存储器(RAM)、只读存储器(ROM)、磁盘存储介质、光学存储介质、闪存装置、以电的、光的、声的或其他的形式传播的信号(例如载波、红外信号、数字信号)等。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种网络入侵异常检测方法,包括:
S100、基于当前核参数将训练样本中的输入向量通过核映射方法映射到高维特征空间获取对应的高维核矩阵,并基于核偏最小二乘方法(KPLS)提取所述高维核矩阵的全部潜在特征;
S200、基于当前输入数据的累计方差百分比阈值从全部潜在特征中选取期望的潜在特征;
S300、以期望的潜在特征为输入,以训练样本的输出向量为输出,根据当前随机参数的取值范围、当前隐含层节点数量和当前正则化因子,基于随机权重神经网络方法训练获取当前入侵检测模型,所述入侵检测模型包括当前随机隐含层输入权重和当前输入偏置以及当前隐含层节点数量,所述随机参数的取值范围用于限定所述随机隐含层输入权重和输入偏置的范围;
S400、判断根据当前的核参数、累计方差百分比阈值、随机参数取值范围、隐含层节点数量和正则化因子获得的入侵检测模型的识别率是否最大,如果否,执行步骤S500,如果是,执行步骤S600;
S500、调整当前的核参数、累计方差百分比阈值、随机参数取值范围、隐含层节点数量和正则化因子,执行步骤S100;
S600、将当前核参数以及期望的潜在特征提取方式和当前入侵检测模型记录为选定的核参数、选定的期望潜在特征提取方式和选定的入侵检测模型;
S700、检测获取网络特征测试样本;
S800、基于选定的核参数、选定的期望潜在特征提取方式提取测试样本的期望的潜在特征;
S900、根据所述测试样本的期望的潜在特征和选定的入侵检测模型计算获取网络入侵类别。
2.根据权利要求1所述的方法,其特征在于,S100包括基于如下公式获取高维核矩阵:
其中,K=Φ(xl)TΦ(xm),l=1,2,...,k,m=1,2,...,k,Φ(xl)是向量xl基于当前核参数的高维映射,I是k维的单位矩阵;1k是值为1长度为k的向量;k是训练样本中输入样本的数量。
3.根据权利要求2所述的方法,其特征在于,S100还包括:
步骤S110、令i=1,Yi=Y,其中,是训练样本的输出矩阵,yl为第l个训练样本的真值,是用于计算的中间核矩阵,Yi是用于计算的中间的训练样本真值;
步骤S120、随机获取Yi中一列赋值给ui
步骤S130、根据如下公式计算低维得分矩阵的得分向量ti和ui的初始值:
ci=Yi Tti,ui=Yici;其中,ci为用于计算的中间量;
步骤S140、根据如下公式迭代计算低维得分矩阵的得分向量ti和ui的值:
ti←ti/||ti||,ci←ci/||ci||,ui=Yici;其中,←表示进行赋值,||ti||为ti的范数,||ci||为ci的范数;
步骤S150、在ti收敛时,转向步骤S160,否则,转向步骤S140;
步骤S160、根据如下公式计算输入和输出矩阵的残差:
步骤S170、令i=i+1,如果i≥h,则转向步骤S180;否则转到步骤S120;其中,h为预定的核特征的数量;
步骤S180、根据如下公式计算获取潜在特征向量矩阵Zall
其中,T=[t1,t2,...,th],U=[u1,u2,...,uh],z1,...,zh表示特征向量矩阵Zall中的第1列到第h列向量。
4.根据权利要求3所述的方法,其特征在于,步骤S200包括选取对应的与输出数据的协方差矩阵特征值最大的h′个潜在特征向量作为期望的潜在特征向量,其中,h′满足:
其中,是输入矩阵的潜在特征向量与对应的输出向量之间的协方差矩阵的特征值,CPVlimit为当前输入数据的累计方差百分比阈值,CPVh′表示前h′个潜在特征向量累积和与全部潜在特征变量累积和的比。
5.根据权利要求3所述的方法,其特征在于,所述步骤S300包括:
步骤S310、在范围[-α,α]内随机选择其中,α为当前随机参数取值范围,为第iNN个随机输入权重,为第iNN个输入偏置,L是当前的隐含层节点数量,R表示全体实数的集合;
步骤S320、根据如下公式计算隐含层的数据矩阵H:
其中,zl∈Rh′是第l个训练样本对应的期望的潜在特征向量,g()为预定的激活函数,Rh′表示h′维的实数向量;
步骤S330、根据如下公式计算输出权重
其中,λ为当前正则化因子。
6.根据权利要求1所述的方法,其特征在于,步骤S500包括以网格寻优方法或启发式优化方法调整当前的核参数、累计方差百分比阈值随机参数取值范围、隐含层节点数量和正则化因子。
7.根据权利要求4所述的方法,其特征在于,步骤S800包括:
步骤S810、基于如下公式获取高维核矩阵:
其中,Kt=Φ((xtest)l)TΦ(xm),l=1,2,...,kt,m=1,2,...,kt,Φ((xtest)l)是测试样本(xtest)l基于当前核参数的高维映射,I是kt维的单位矩阵;1k是值为1长度为k的向量;kt是测试样本的数量,1k,t为值为1,长度为kt的向量;
步骤S820、根据如下公式计算获取潜在特征向量矩阵(Ztest)all
步骤S830、根据选定的期望潜在特征提取方式从潜在特征向量矩阵提取测试样本的期望的潜在特征。
8.根据权利要求5所述的方法,其特征在于,步骤900包括根据如下公式计算获取网络入侵类别
其中,
其中,ztest l∈Rh′是第l个测试样本对应的期望的潜在特征向量,L是选定的隐含层节点数量,为所述选定的入侵检测模型的随机输入权重,为所述选定的入侵检测模型的输入偏置,g()为预定的激活函数。
CN201610306040.8A 2016-05-10 2016-05-10 一种网络入侵异常检测方法 Expired - Fee Related CN106060008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610306040.8A CN106060008B (zh) 2016-05-10 2016-05-10 一种网络入侵异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610306040.8A CN106060008B (zh) 2016-05-10 2016-05-10 一种网络入侵异常检测方法

Publications (2)

Publication Number Publication Date
CN106060008A CN106060008A (zh) 2016-10-26
CN106060008B true CN106060008B (zh) 2019-11-19

Family

ID=57176314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610306040.8A Expired - Fee Related CN106060008B (zh) 2016-05-10 2016-05-10 一种网络入侵异常检测方法

Country Status (1)

Country Link
CN (1) CN106060008B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106603531A (zh) * 2016-12-15 2017-04-26 中国科学院沈阳自动化研究所 一种基于工业控制网络的入侵检测模型的自动建立方法及装置
CN106657073A (zh) * 2016-12-26 2017-05-10 北京五八信息技术有限公司 筛选异常登录用户的方法及***
CN107370732B (zh) * 2017-07-14 2021-08-17 成都信息工程大学 基于神经网络和最优推荐的工控***异常行为发现***
CN108429753A (zh) * 2018-03-16 2018-08-21 重庆邮电大学 一种快速特征匹配的工业网络DDoS入侵检测方法
CN108388233B (zh) * 2018-03-21 2020-07-17 北京科技大学 一种工控现场设备隐蔽攻击检测方法
CN108848068A (zh) * 2018-05-29 2018-11-20 上海海事大学 基于深度信念网络-支持向量数据描述的apt攻击检测方法
CN110909753B (zh) * 2018-09-14 2022-07-01 ***通信集团广东有限公司 数据分类方法、***和设备
CN110620760A (zh) * 2019-07-30 2019-12-27 东南大学 一种SVM和贝叶斯网络的FlexRay总线融合入侵检测方法和检测装置
CN112291213A (zh) * 2020-10-16 2021-01-29 北京方研矩行科技有限公司 一种基于智能终端的异常流量分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446831A (zh) * 2008-12-30 2009-06-03 东北大学 一种分散的过程监测方法
CN101841533A (zh) * 2010-03-19 2010-09-22 中国科学院计算机网络信息中心 分布式拒绝服务攻击检测方法和装置
CN104009886A (zh) * 2014-05-23 2014-08-27 南京邮电大学 基于支持向量机的入侵检测方法
CN104869126A (zh) * 2015-06-19 2015-08-26 中国人民解放军61599部队计算所 一种网络入侵异常检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9306966B2 (en) * 2001-12-14 2016-04-05 The Trustees Of Columbia University In The City Of New York Methods of unsupervised anomaly detection using a geometric framework
US8504504B2 (en) * 2008-09-26 2013-08-06 Oracle America, Inc. System and method for distributed denial of service identification and prevention

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446831A (zh) * 2008-12-30 2009-06-03 东北大学 一种分散的过程监测方法
CN101841533A (zh) * 2010-03-19 2010-09-22 中国科学院计算机网络信息中心 分布式拒绝服务攻击检测方法和装置
CN104009886A (zh) * 2014-05-23 2014-08-27 南京邮电大学 基于支持向量机的入侵检测方法
CN104869126A (zh) * 2015-06-19 2015-08-26 中国人民解放军61599部队计算所 一种网络入侵异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于偏最小二乘算法的高维谱数据特征选择》;汤健等;《控制工程》;20160106;全文 *

Also Published As

Publication number Publication date
CN106060008A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106060008B (zh) 一种网络入侵异常检测方法
Wang et al. Locational detection of the false data injection attack in a smart grid: A multilabel classification approach
CN109302410B (zh) 一种内部用户异常行为检测方法、***及计算机存储介质
Adhao et al. Feature selection using principal component analysis and genetic algorithm
CN104869126A (zh) 一种网络入侵异常检测方法
CN111062036A (zh) 恶意软件识别模型构建、识别方法及介质和设备
CN112437053B (zh) 入侵检测方法及装置
CN110602120A (zh) 一种面向网络的入侵数据检测方法
CN115238827B (zh) 保护隐私的样本检测***训练方法及装置
CN116432184A (zh) 基于语义分析和双向编码表征的恶意软件检测方法
Olivato et al. A comparative analysis on the use of autoencoders for robot security anomaly detection
Ravi et al. Hybrid classification and regression models via particle swarm optimization auto associative neural network based nonlinear PCA
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN112613032B (zh) 基于***调用序列的主机入侵检测方法及装置
Basterrech et al. A Continual Learning System with Self Domain Shift Adaptation for Fake News Detection
CN115577259A (zh) 高压直流输电***故障选极方法、装置和计算机设备
Dhlamini et al. Condition monitoring of HV bushings in the presence of missing data using evolutionary computing
Gomathy et al. Network intrusion detection using genetic algorithm and neural network
CN113469816A (zh) 基于多组学技术的数字货币识别方法、***和存储介质
Parihar et al. IDS with deep learning techniques
Hamadeh et al. Predicting forest fire hazards using data mining techniques: decision tree and neural networks
CN116579337B (zh) 一种融合证据可信度的虚假新闻检测方法
Li et al. On Testing and Evaluation of Artificial Intelligence Models
CN115831339B (zh) 基于深度学习的医疗***风险管控事前预测方法、***
Sharma et al. A step towards intelligent EBSD microscopy: machine‐learning prediction of twin activity in MgAZ31

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191119

Termination date: 20200510

CF01 Termination of patent right due to non-payment of annual fee