CN109257383B - 一种bgp异常检测方法及*** - Google Patents

一种bgp异常检测方法及*** Download PDF

Info

Publication number
CN109257383B
CN109257383B CN201811331848.7A CN201811331848A CN109257383B CN 109257383 B CN109257383 B CN 109257383B CN 201811331848 A CN201811331848 A CN 201811331848A CN 109257383 B CN109257383 B CN 109257383B
Authority
CN
China
Prior art keywords
feature
model
distance
features
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811331848.7A
Other languages
English (en)
Other versions
CN109257383A (zh
Inventor
王娜
杜学绘
戴仙波
任志宇
王文娟
单棣斌
杨智
刘敖迪
李少卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN201811331848.7A priority Critical patent/CN109257383B/zh
Publication of CN109257383A publication Critical patent/CN109257383A/zh
Application granted granted Critical
Publication of CN109257383B publication Critical patent/CN109257383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本申请公开了一种BGP异常检测方法及***,方法包括:获取异常数据集,对异常数据集进行数据标准化处理,从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值,优化高斯核函数,参数寻优,确定最优特征子集。本申请能够基于改进的高斯核函数以及基于网格搜索与交叉验证进行参数寻优,以提高模型分类准确率,基于最优特征子集来评价模型综合性能。

Description

一种BGP异常检测方法及***
技术领域
本申请涉及异常检测技术领域,尤其涉及一种BGP(Border Gateway Protocol,边界网关协议)异常检测方法及***。
背景技术
根据事件后果,BGP异常可分为数据流劫持异常和更新报文激增异常。数据流劫持异常会导致受害网络数据流的重定向,形成流量黑洞等,破坏了受害网络的可达性。更新报文激增异常会导致在极短时间内产生大量的BGP更新报文,破坏了全球互联网的稳定性。
目前BGP异常检测方法一般分为五类,分别是基于统计模式识别的方法、基于历史BGP更新报文的方法、基于可达性验证的方法,以及基于时间序列分析的方法和基于机器学习的方法。基于统计模式识别的方法采用统计概率论进行模式识别,根据模式之间的距离函数来判定异常,能够同时检测数据流劫持异常和更新报文激增异常。但该方法面临着正确估计高维数据分布的困难性,检测速度慢,实际应用中需人工确定模型参数的阈值。基于历史BGP更新报文的方法和基于可达性验证的方法仅能检测数据流劫持异常,前者利用历史数据来对BGP异常路由进行检测,后者根据目标前缀的可达性验证结果进行异常检测。基于时间序列分析的方法和基于机器学习的方法能够检测更新报文激增异常。其中,基于时间序列分析的方法将BGP更新报文视为一个多维的时间序列,通过选择合适的滑动时间窗口实现异常检测。但该方法难以确定时间窗口的大小,时间窗口过小会导致模型可利用的信息量不够,时间窗口过大又会导致模型对局部异常不敏感,使得漏报率上升。近年来,机器学习方法在BGP异常检测领域得到了一定应用。从机器学习角度来看,BGP异常检测问题可抽象为二分类问题,目的是将未知的BGP更新报文识别为正常报文或异常报文,从而实现BGP异常检测。
综上所述,传统的BGP异常检测方法存在着诸如检测准确率较低、参数阈值估计困难、检测速度较慢、部署难度大、依赖于知识库的完备性等一系列实际问题。
因此,如何解决现有技术分类准确率较低,效果不太良好,未对模型的综合性能做出评价,是一项亟待解决的问题。
发明内容
有鉴于此,本申请提供了一种BGP异常检测方法,能够基于改进的高斯核函数以及基于网格搜索与交叉验证进行参数寻优,以提高模型分类准确率,基于最优特征子集来评价模型综合性能。
本申请提供了一种BGP异常检测方法,所述方法包括:
获取异常数据集;
对所述异常数据集进行数据标准化处理;
采用Fisher-Markov Selector特征选择算法,从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值;
采用曼哈顿距离和特征权值优化高斯核函数,其中,所述曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法;
基于网格搜索与交叉验证对支持向量机模型进行参数寻优;
确定最优特征子集。
优选地,所述获取异常数据集包括:
从自治***中获取异常数据集。
优选地,所述对所述异常数据集进行数据标准化处理包括:
采用样本均值代替总体均值,采用样本标准差代替总体标准差。
优选地,所述优化高斯核函数包括:
采用曼哈顿距离和特征权值优化高斯核函数,其中,所述曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法。
优选地,所述参数寻优包括:
基于网格搜索与交叉验证对支持向量机模型进行参数寻优。
一种BGP异常检测***,包括:
获取模块,用于获取异常数据集;
处理模块,用于对所述异常数据集进行数据标准化处理;
第一确定模块,用于采用Fisher-Markov Selector特征选择算法从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值;
优化模块,用于采用曼哈顿距离和特征权值优化高斯核函数,其中,所述曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法;
寻优模块,用于基于网格搜索与交叉验证对支持向量机模型进行参数寻优;
第二确定模块,用于确定最优特征子集。
优选地,所述获取模块具体用于:
从自治***中获取异常数据集。
优选地,所述处理模块具体用于:
采用样本均值代替总体均值,采用样本标准差代替总体标准差。
优选地,所述优化模块具体用于:
采用曼哈顿距离和特征权值优化高斯核函数,其中,所述曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法。
优选地,所述寻优模块具体用于:
基于网格搜索与交叉验证对支持向量机模型进行参数寻优。
综上所述,本申请公开了一种BGP异常检测方法,当需要对边界网关协议进行异常检测时,首先获取异常数据集,然后,对异常数据集进行数据标准化处理,从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值,优化高斯核函数,参数寻优,确定最优特征子集。本申请能够基于改进的高斯核函数以及基于网格搜索与交叉验证进行参数寻优,以提高模型分类准确率,基于最优特征子集来评价模型综合性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请公开的一种BGP异常检测方法实施例1的流程图;
图2为本申请公开的一种BGP异常检测方法实施例2的流程图;
图3为本申请公开的一种BGP异常检测***实施例1的结构示意图;
图4为本申请公开的一种BGP异常检测***实施例2的结构示意图;
图5为本申请公开的网格搜索示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本申请公开的一种BGP异常检测方法实施例1的流程图,所述方法可以包括以下步骤:
S101、获取异常数据集;
当需要对BGP(Border Gateway Protocol,边界网关协议)进行异常检测时,首先获取异常数据集,即获取检测样本。所述BGP是互联网上一个核心的去中心化的自治路由协议,通过维护路由表来实现自治***之间的可达性,属于矢量路由协议。
S102、对异常数据集进行数据标准化处理;
当获取到异常数据集后,进一步对获取到的异常数据集进行数据标准化处理,以消除量纲和数值大小的影响,从而使得不同特征能够进行比较和加权。
S103、从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值;
然后,采用FMS(Fisher-Markov Selector)特征选择算法,从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值。
S104、优化高斯核函数;
然后,基于曼哈顿距离和特征权值的改进高斯核函数构造SVM(Super VectorMachine,支持向量机)分类模型。SVM是在分类与回归分析中分析数据的监督式学习模型与相关的机器学习算法。
S105、参数寻优;
然后,基于网格搜索与交叉验证对SVM模型进行参数寻优。
S106、确定最优特征子集。
最后,基于模型分类准确率与模型训练时间两方面的考量,提出最优特征子集的概念,并给出构造方法,在最优特征子集下,模型性能可达到综合最优。
综上所述,在上述实施例中,当需要对边界网关协议进行异常检测时,首先获取异常数据集,然后,对异常数据集进行数据标准化处理,从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值,优化高斯核函数,参数寻优,确定最优特征子集。本申请能够基于改进的高斯核函数以及基于网格搜索与交叉验证进行参数寻优,以提高模型分类准确率,基于最优特征子集来评价模型综合性能。
如图2所示,为本申请公开的一种BGP异常检测方法实施例2的流程图,所述方法可以包括以下步骤:
S201、从自治***中获取异常数据集;
当需要对BGP(Border Gateway Protocol,边界网关协议)进行异常检测时,从AS513(RIPE RIS,rcc04,CIXP,Geneva)下载Slammer、Nimda以及Code Red I爆发时的BGP更新报文作为BGP异常数据集。利用libBGPdump工具将路由数据从MRT格式转换为ASCII格式,而后基于C#编写的解析工具来解析ASCII文件并提取37个特征(如表1所示)的统计信息。五天内每间隔一分钟抽样统计一次特征值,从而可获得每个异常事件的7200个样本。每个事件前后两天的样本被认为是正常数据集,第三天是每个异常活动的高峰期。
表1特征提取
Figure GDA0003051872960000061
Figure GDA0003051872960000071
S202、对异常数据集进行数据标准化处理;
然后,采用Z-score标准化方法消除量纲和数值大小的影响,从而使得不同特征能够进行比较和加权。鉴于BGP数据集来自于抽样统计,本发明用样本均值代替总体均值,用样本标准差代替总体标准差。处理方法如下式所示:
Figure GDA0003051872960000072
式中
Figure GDA0003051872960000073
代表样本均值,S代表样本标准差。
S203、从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值;
由于冗余特征的存在,基于高维特征构造分类模型会增大计算开销,并且噪声数据还会降低模型的分类准确率。因此,在数据预处理阶段经由特征提取过程得到相应特征集合的基础上,需要进一步删除冗余和不相关特征,寻找区分类别能力最优的特征子集,以达到降低特征矩阵的维数和计算复杂度,同时提高模型分类准确率的目的。
FMS特征选择算法能够根据Fisher线性分析和Markov随机场技术选择出能同时最大化类间距离和最小化类内距离的特征,采用FMS算法的特征选择过程与分类过程相互独立,根据数据内在属性来衡量相关性,对每一个特征的权值大小进行排序,权值越大表示该特征区分类别的能力越强。该方法效率较高,不仅可以保证全局最优,而且计算复杂度较低,适合处理大规模数据。将训练数据表示为
Figure GDA0003051872960000074
xk∈Rp表示p维特征向量,
Figure GDA0003051872960000078
表示类标签,Ci,i=1,...,g表示第i个类,每一个类Ci有ni个样本。
定义1:类内散布矩阵、类间散布矩阵和总体散布矩阵分为记为Sw,Sb和St,式中
Figure GDA0003051872960000075
表示Cj类的第i个样本,
Figure GDA0003051872960000076
表示Cj类的样本均值,
Figure GDA0003051872960000077
表示总体均值。
Figure GDA0003051872960000081
定义2:从输入空间Rp到核空间RD的非线性映射φ(·)定义如下:
φ:Rp→RD (2)
定义3:核函数k(·,·)满足:
<φ(x1),φ(x2)>=k(x1,x2) (3)
式中运算<·,·>代表核空间下的点积。
定义4:K和K(i)分别为n阶和ni阶方阵,且满足:
Figure GDA0003051872960000082
式中k,l∈{1,...,n},u,v∈{1,...,ni},i=1,...,g
定义5:Sw,Sb和St在核空间下分别记为
Figure GDA0003051872960000083
Figure GDA0003051872960000084
它的迹分别为:
Figure GDA0003051872960000085
式中Sum(·)表示计算矩阵所有元素的总和。
定义6:定义特征选择向量为:
α=[α1,...,αp]T∈{0,1}p (6)
式中αk=1表明第k个特征被选中,αk=0表明第k个特征没有被选中。
从特征向量x选定的特征由x(α)=x⊙α给出,⊙表示Hadamard积。因此可将最大化类分离的特征选择准则转化为如下一个无约束最优化问题。
Figure GDA0003051872960000086
其中γ是自由参数,分析表明γ≤0能得到一个更好的分类效果,在γ的合理波动范围内,分类器的实验效果对γ是不敏感的。为了能处理线性不可分离和冗余特征带来的高噪声数据集,加入l0范数,即特征选择准则优化为:
Figure GDA0003051872960000091
式中正则因子β表示全局阈值。
考虑如下一个线性核函数:
Figure GDA0003051872960000092
代入到式(8),得:
Figure GDA0003051872960000093
其中θj定义如式(11)所示,θj用来衡量特征在类分离判别的重要程度,即特征的权值。θj值越大,表明第j个特征越重要。
Figure GDA0003051872960000094
对于给定的β和γ,结合式(10),FMS特征选择算法得到一个最优的特征选择向量α*∈{0,1}p满足:
Figure GDA0003051872960000095
Figure GDA0003051872960000096
表明第j个特征被选中;否则,若
Figure GDA0003051872960000097
则表明第j个特征未被选中。
算法伪代码如下表2算法1所示,该算法的计算复杂度为O(n2p)。
表2
Figure GDA0003051872960000098
Figure GDA0003051872960000101
S204、采用曼哈顿距离和特征权值优化高斯核函数,其中,所述曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法;
传统高斯核函数采用Euclidean距离度量两个向量之间的距离。但是,Euclidean距离在一定程度上会放大较大误差元素在距离计算中的作用,影响SVM的分类准确率。基于此,本发明采用曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法。曼哈顿距离中各元素的误差对整体距离的影响都相同,使得数值更具有可比性,并且运算量较低。
如果在距离计算中能够体现出各特征对分类的贡献程度,将会使分类方法更贴合BGP的数据特点,可进一步提高分类准确率。据此,引入特征权值来度量特征对分类的贡献程度,提出基于曼哈顿距离与特征权值的改进高斯核函数,记为k′(x,y),如式(13)所示:
k′(x,y)=exp(-γδ(x,y)) (13)
式中δ(x,y)表示两向量间的曼哈顿距离,如式(14)所示:
Figure GDA0003051872960000111
S205、基于网格搜索与交叉验证对支持向量机模型进行参数寻优;
SVM模型的性能依赖一对重要的参数(C,gamma)。其中C被称为惩罚因子,表示对误差的容忍度。C越高,表明模型越不能容忍出现误差,易导致模型过拟合;相反,C越小,又易导致模型欠拟合。C过大或过小,均会降低模型的泛化能力,因此参数C的适当取值对模型分类准确率和泛化能力的提升具有重要意义。gamma是多项式核、高斯核以及Sigmoid核中的一个参数,它隐含决定了数据映射到新的特征空间后的分布。gamma值越大,则支持向量越少,gamma值越小,则支持向量越多,支持向量的个数会影响模型训练与预测的速度。
考虑到训练数据集两类样本的不平衡性(如表3示),以总体分类准确率为评价目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。为此,在(C,gamma)的寻优过程中,需要充分照顾少数类样本数据,使两类样本在训练过程中具有相同的“话语权”。本文按照两类样本数目大小比值的反比来分别为两类样本赋予权值,这样可以有效解决数据不均衡情况。
表3两类样本权值
Figure GDA0003051872960000112
核参数的选取是一个难点,目前还没有国际公认的普适性的方法,实际应用中只能依靠实验比较或经验所得。因此,本文在不平衡数据集约束下结合网格搜索与交叉验证进行参数寻优(如图5示),将(C,gamma)的搜索范围按照取值划分成网格,网格中的每个点代表一种参数组合方案。网格搜索的范围满足式(15),步长为1,即C∈{2-5,2-4,...,25}且gamma∈{2-4,2-3,...,20}。
Figure GDA0003051872960000121
在每一个网格点,按如下流程进行交叉验证:把总的训练集平均分成N个子集,其中N-1个作为训练集,余下1个用作测试集。每次用测试集去测试训练后的模型会得到一个分类准确率,当N个子集都做过测试集后,取N折交叉验证分类准确率的平均值。这样遍历网格内所有点,取分类准确率平均值最大的点即为对应的性能最优的(C,gamma)。需要指出的是,本文采用5折交叉验证,且由于(C,gamma)在搜索过程中均选取搜索范围有限且离散的值,所以(C,gamma)或许只是局部最优解。
S206、确定最优特征子集。
基于FMS特征选择算法可以得到各特征的权值,将各个特征按权值降序排列,根据排序结果将特征依次加入模型训练集中。实验发现,因为前期加入训练集中特征的权值较大,模型的分类准确率会逐渐提高,但随着后期权值较低特征的加入,且数据集中噪声和冗余数据的存在,此时模型分类准确率的增长速度就会放缓甚至是准确率下降。但与此同时,SVM模型的训练时间则一直会随着特征数量的增加而增加。因此,一味地增加特征用于模型训练是不合适的。基于此,本文提出最优特征子集的概念,当根据特征权值排序,用于模型训练的特征集合恰为最优特征子集时,模型性能(即模型的分类准确率和训练时间)达到综合最优。进一步,本文提出特征效率函数来度量模型分类准确率和模型训练时间之间的关系,以确定最优特征子集,使得模型性能达到综合最优。
定义7:函数f(n)是模型分类准确率关于特征数量n的函数,n∈Z。
定义8:函数g(n)是模型训练时间关于特征数量n的函数,n∈Z。
由上述定义可知,函数f(n)和g(n)分别描述了当模型训练集包含一定数量的特征时,模型的分类准确率与模型训练时间的大小。为了评价模型的最优综合性能,定义了特征效率函数,如定义9所示。
定义9:h(n)是关于特征数量n的特征效率函数,其表达式如下:
Figure GDA0003051872960000131
直观地,h(n)描述了单位时间内分类准确率的大小,若单位时间内分类准确率越大,也即h(n)越大,则模型综合性能越优。自然地,得到了如下最优点的概念,如定义10所示。
定义10:使h(n)取得最大值的点n0叫做模型的最优点。
最优点描述了当n=n0时,模型在单位时间内能取得最大的分类准确率,此时模型综合性能达到了最优。显然地,根据特征权值排序,TOPn0即为最优特征子集。
如图3所示,为本申请公开的一种BGP异常检测***实施例1的结构示意图,所述***可以包括:
获取模块301,用于获取异常数据集;
当需要对BGP(Border Gateway Protocol,边界网关协议)进行异常检测时,首先获取异常数据集,即获取检测样本。所述BGP是互联网上一个核心的去中心化的自治路由协议,通过维护路由表来实现自治***之间的可达性,属于矢量路由协议。
处理模块302,用于对异常数据集进行数据标准化处理;
当获取到异常数据集后,进一步对获取到的异常数据集进行数据标准化处理,以消除量纲和数值大小的影响,从而使得不同特征能够进行比较和加权。
第一确定模块303,用于从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值;
然后,采用FMS特征选择算法,从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值。
优化模块304,用于优化高斯核函数;
然后,基于曼哈顿距离和特征权值的改进高斯核函数构造SVM(Super VectorMachine,支持向量机)分类模型。SVM是在分类与回归分析中分析数据的监督式学习模型与相关的机器学习算法。
寻优模块305,用于参数寻优;
然后,基于网格搜索与交叉验证对SVM模型进行参数寻优。
第二确定模块306,用于确定最优特征子集。
最后,基于模型分类准确率与模型训练时间两方面的考量,提出最优特征子集的概念,并给出构造方法,在最优特征子集下,模型性能可达到综合最优。
综上所述,在上述实施例中,当需要对边界网关协议进行异常检测时,首先获取异常数据集,然后,对异常数据集进行数据标准化处理,从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值,优化高斯核函数,参数寻优,确定最优特征子集。本申请能够基于改进的高斯核函数以及基于网格搜索与交叉验证进行参数寻优,以提高模型分类准确率,基于最优特征子集来评价模型综合性能。
如图4所示,为本申请公开的一种BGP异常检测***实施例2的结构示意图,所述***可以包括:
获取模块401,用于从自治***中获取异常数据集;
当需要对BGP(Border Gateway Protocol,边界网关协议)进行异常检测时,从AS513(RIPE RIS,rcc04,CIXP,Geneva)下载Slammer、Nimda以及Code Red I爆发时的BGP更新报文作为BGP异常数据集。利用libBGPdump工具将路由数据从MRT格式转换为ASCII格式,而后基于C#编写的解析工具来解析ASCII文件并提取37个特征(如表1所示)的统计信息。五天内每间隔一分钟抽样统计一次特征值,从而可获得每个异常事件的7200个样本。每个事件前后两天的样本被认为是正常数据集,第三天是每个异常活动的高峰期。
表1特征提取
Figure GDA0003051872960000151
处理模块402,用于对异常数据集进行数据标准化处理;
然后,采用Z-score标准化方法消除量纲和数值大小的影响,从而使得不同特征能够进行比较和加权。鉴于BGP数据集来自于抽样统计,本发明用样本均值代替总体均值,用样本标准差代替总体标准差。处理方法如下式所示:
Figure GDA0003051872960000152
式中
Figure GDA0003051872960000153
代表样本均值,S代表样本标准差。
第一确定模块403,用于从特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值;
由于冗余特征的存在,基于高维特征构造分类模型会增大计算开销,并且噪声数据还会降低模型的分类准确率。因此,在数据预处理阶段经由特征提取过程得到相应特征集合的基础上,需要进一步删除冗余和不相关特征,寻找区分类别能力最优的特征子集,以达到降低特征矩阵的维数和计算复杂度,同时提高模型分类准确率的目的。
FMS特征选择算法能够根据Fisher线性分析和Markov随机场技术选择出能同时最大化类间距离和最小化类内距离的特征,采用FMS算法的特征选择过程与分类过程相互独立,根据数据内在属性来衡量相关性,对每一个特征的权值大小进行排序,权值越大表示该特征区分类别的能力越强。该方法效率较高,不仅可以保证全局最优,而且计算复杂度较低,适合处理大规模数据。将训练数据表示为
Figure GDA0003051872960000161
xk∈Rp表示p维特征向量,
Figure GDA0003051872960000166
表示类标签,Ci,i=1,...,g表示第i个类,每一个类Ci有ni个样本。
定义1:类内散布矩阵、类间散布矩阵和总体散布矩阵分为记为Sw,Sb和St,式中
Figure GDA0003051872960000162
表示Cj类的第i个样本,
Figure GDA0003051872960000163
表示Cj类的样本均值,
Figure GDA0003051872960000164
表示总体均值。
Figure GDA0003051872960000165
定义2:从输入空间Rp到核空间RD的非线性映射φ(·)定义如下:
φ:Rp→RD (2)
定义3:核函数k(·,·)满足:
<φ(x1),φ(x2)>=k(x1,x2) (3)
式中运算<·,·>代表核空间下的点积。
定义4:K和K(i)分别为n阶和ni阶方阵,且满足:
Figure GDA0003051872960000171
式中k,l∈{1,...,n},u,v∈{1,...,ni},i=1,...,g
定义5:Sw,Sb和St在核空间下分别记为
Figure GDA0003051872960000172
Figure GDA0003051872960000173
它的迹分别为:
Figure GDA0003051872960000174
式中Sum(·)表示计算矩阵所有元素的总和。
定义6:定义特征选择向量为:
α=[α1,...,αp]T∈{0,1}p (6)
式中αk=1表明第k个特征被选中,αk=0表明第k个特征没有被选中。
从特征向量x选定的特征由x(α)=x⊙α给出,⊙表示Hadamard积。因此可将最大化类分离的特征选择准则转化为如下一个无约束最优化问题。
Figure GDA0003051872960000175
其中γ是自由参数,分析表明γ≤0能得到一个更好的分类效果,在γ的合理波动范围内,分类器的实验效果对γ是不敏感的。为了能处理线性不可分离和冗余特征带来的高噪声数据集,加入l0范数,即特征选择准则优化为:
Figure GDA0003051872960000176
式中正则因子β表示全局阈值。
考虑如下一个线性核函数:
Figure GDA0003051872960000177
代入到式(8),得:
Figure GDA0003051872960000181
其中θj定义如式(11)所示,θj用来衡量特征在类分离判别的重要程度,即特征的权值。θj值越大,表明第j个特征越重要。
Figure GDA0003051872960000182
对于给定的β和γ,结合式(10),FMS特征选择算法得到一个最优的特征选择向量α*∈{0,1}p满足:
Figure GDA0003051872960000183
Figure GDA0003051872960000184
表明第j个特征被选中;否则,若
Figure GDA0003051872960000185
则表明第j个特征未被选中。
算法伪代码如下表2算法1所示,该算法的计算复杂度为O(n2p)。
表2
Figure GDA0003051872960000186
Figure GDA0003051872960000191
优化模块404,用于采用曼哈顿距离和特征权值优化高斯核函数,其中,曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法;
传统高斯核函数采用Euclidean距离度量两个向量之间的距离。但是,Euclidean距离在一定程度上会放大较大误差元素在距离计算中的作用,影响SVM的分类准确率。基于此,本发明采用曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法。曼哈顿距离中各元素的误差对整体距离的影响都相同,使得数值更具有可比性,并且运算量较低。
如果在距离计算中能够体现出各特征对分类的贡献程度,将会使分类方法更贴合BGP的数据特点,可进一步提高分类准确率。据此,引入特征权值来度量特征对分类的贡献程度,提出基于曼哈顿距离与特征权值的改进高斯核函数,记为k′(x,y),如式(13)所示:
k′(x,y)=exp(-γδ(x,y)) (13)
式中δ(x,y)表示两向量间的曼哈顿距离,如式(14)所示:
Figure GDA0003051872960000192
寻优模块405,用于基于网格搜索与交叉验证对支持向量机模型进行参数寻优;
SVM模型的性能依赖一对重要的参数(C,gamma)。其中C被称为惩罚因子,表示对误差的容忍度。C越高,表明模型越不能容忍出现误差,易导致模型过拟合;相反,C越小,又易导致模型欠拟合。C过大或过小,均会降低模型的泛化能力,因此参数C的适当取值对模型分类准确率和泛化能力的提升具有重要意义。gamma是多项式核、高斯核以及Sigmoid核中的一个参数,它隐含决定了数据映射到新的特征空间后的分布。gamma值越大,则支持向量越少,gamma值越小,则支持向量越多,支持向量的个数会影响模型训练与预测的速度。
考虑到训练数据集两类样本的不平衡性(如表3示),以总体分类准确率为评价目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。为此,在(C,gamma)的寻优过程中,需要充分照顾少数类样本数据,使两类样本在训练过程中具有相同的“话语权”。本文按照两类样本数目大小比值的反比来分别为两类样本赋予权值,这样可以有效解决数据不均衡情况。
表3两类样本权值
Figure GDA0003051872960000201
核参数的选取是一个难点,目前还没有国际公认的普适性的方法,实际应用中只能依靠实验比较或经验所得。因此,本文在不平衡数据集约束下结合网格搜索与交叉验证进行参数寻优(如图5示),将(C,gamma)的搜索范围按照取值划分成网格,网格中的每个点代表一种参数组合方案。网格搜索的范围满足式(15),步长为1,即C∈{2-5,2-4,...,25}且gamma∈{2-4,2-3,...,20}。
Figure GDA0003051872960000202
在每一个网格点,按如下流程进行交叉验证:把总的训练集平均分成N个子集,其中N-1个作为训练集,余下1个用作测试集。每次用测试集去测试训练后的模型会得到一个分类准确率,当N个子集都做过测试集后,取N折交叉验证分类准确率的平均值。这样遍历网格内所有点,取分类准确率平均值最大的点即为对应的性能最优的(C,gamma)。需要指出的是,本文采用5折交叉验证,且由于(C,gamma)在搜索过程中均选取搜索范围有限且离散的值,所以(C,gamma)或许只是局部最优解。
第二确定模块406,用于确定最优特征子集。
基于FMS特征选择算法可以得到各特征的权值,将各个特征按权值降序排列,根据排序结果将特征依次加入模型训练集中。实验发现,因为前期加入训练集中特征的权值较大,模型的分类准确率会逐渐提高,但随着后期权值较低特征的加入,且数据集中噪声和冗余数据的存在,此时模型分类准确率的增长速度就会放缓甚至是准确率下降。但与此同时,SVM模型的训练时间则一直会随着特征数量的增加而增加。因此,一味地增加特征用于模型训练是不合适的。基于此,本文提出最优特征子集的概念,当根据特征权值排序,用于模型训练的特征集合恰为最优特征子集时,模型性能(即模型的分类准确率和训练时间)达到综合最优。进一步,本文提出特征效率函数来度量模型分类准确率和模型训练时间之间的关系,以确定最优特征子集,使得模型性能达到综合最优。
定义7:函数f(n)是模型分类准确率关于特征数量n的函数,n∈Z。
定义8:函数g(n)是模型训练时间关于特征数量n的函数,n∈Z。
由上述定义可知,函数f(n)和g(n)分别描述了当模型训练集包含一定数量的特征时,模型的分类准确率与模型训练时间的大小。为了评价模型的最优综合性能,定义了特征效率函数,如定义9所示。
定义9:h(n)是关于特征数量n的特征效率函数,其表达式如下:
Figure GDA0003051872960000211
直观地,h(n)描述了单位时间内分类准确率的大小,若单位时间内分类准确率越大,也即h(n)越大,则模型综合性能越优。自然地,得到了如下最优点的概念,如定义10所示。
定义10:使h(n)取得最大值的点n0叫做模型的最优点。
最优点描述了当n=n0时,模型在单位时间内能取得最大的分类准确率,此时模型综合性能达到了最优。显然地,根据特征权值排序,TOPn0即为最优特征子集。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种BGP异常检测方法,其特征在于,所述方法包括:
获取异常数据集,并针对所述异常数据集进行特征提取,得到特征集;
对所述异常数据集进行数据标准化处理;
采用Fisher-Markov Selector特征选择算法,从所述特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值;
采用曼哈顿距离和特征权值优化高斯核函数,并基于所述高斯核函数构造支持向量机模型,其中,所述曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法;
基于网格搜索与交叉验证对所述支持向量机模型进行参数寻优,其中包括:将所述支持向量机所依赖的一对参数[C,gamma]的搜索范围按照参数取值划分成网格,所述网格中的每个点代表一种参数组合方案;在每一个网格点,把总的训练集平均分成N个子集,其中N-1个子集作为训练集,余下1个子集用作测试集;每次用测试集去测试训练后的支持向量机模型会得到一个分类准确率,当所述N个子集都做过测试集后,取N折交叉验证分类准确率的平均值,遍历所述网格内所有点,取分类准确率平均值最大的点作为对应的性能最优的[C,gamma];
通过特征效率函数来度量支持向量机模型分类准确率和支持向量机模型训练时间之间的关系,以确定最优特征子集;
所述特征效率函数如下:
Figure FDA0003051872950000021
其中,h(n)是关于特征数量n的特征效率函数;f(n)是模型分类准确率关于特征数量n的函数;g(n)是模型训练时间关于特征数量n的函数;使h(n)取得最大值的点n0叫做模型的最优点,根据特征权值排序,TOPn0即为最优特征子集。
2.根据权利要求1所述的方法,其特征在于,所述获取异常数据集包括:
从自治***中获取异常数据集。
3.根据权利要求1所述的方法,其特征在于,所述对所述异常数据集进行数据标准化处理包括:
采用样本均值代替总体均值,采用样本标准差代替总体标准差。
4.一种BGP异常检测***,其特征在于,包括:
获取模块,用于获取异常数据集,并针对所述异常数据集进行特征提取,得到特征集;
处理模块,用于对所述异常数据集进行数据标准化处理;
第一确定模块,用于采用Fisher-Markov Selector特征选择算法从所述特征集中选择出能同时最大化类间距离和最小化类内距离的特征,并得到各个特征度量分类能力的特征权值;
优化模块,用于采用曼哈顿距离和特征权值优化高斯核函数,其中,所述曼哈顿距离作为高斯核函数中衡量两个向量之间的距离测度方法;
所述***还用于,基于所述高斯核函数构造支持向量机模型,所述高斯核函数构造支持向量机模型;
寻优模块,用于基于网格搜索与交叉验证对所述支持向量机模型进行参数寻优,其中包括:将所述支持向量机所依赖的一对参数[C,gamma]的搜索范围按照参数取值划分成网格,所述网格中的每个点代表一种参数组合方案;在每一个网格点,把总的训练集平均分成N个子集,其中N-1个子集作为训练集,余下1个子集用作测试集;每次用测试集去测试训练后的支持向量机模型会得到一个分类准确率,当所述N个子集都做过测试集后,取N折交叉验证分类准确率的平均值,遍历所述网格内所有点,取分类准确率平均值最大的点作为对应的性能最优的[C,gamma];
第二确定模块,用于通过特征效率函数来度量支持向量机模型分类准确率和支持向量机模型训练时间之间的关系,以确定最优特征子集;
所述特征效率函数如下:
Figure FDA0003051872950000031
其中,h(n)是关于特征数量n的特征效率函数;f(n)是模型分类准确率关于特征数量n的函数;g(n)是模型训练时间关于特征数量n的函数;使h(n)取得最大值的点n0叫做模型的最优点,根据特征权值排序,TOPn0即为最优特征子集。
5.根据权利要求4所述的***,其特征在于,所述获取模块具体用于:
从自治***中获取异常数据集。
6.根据权利要求4所述的***,其特征在于,所述处理模块具体用于:
采用样本均值代替总体均值,采用样本标准差代替总体标准差。
CN201811331848.7A 2018-11-09 2018-11-09 一种bgp异常检测方法及*** Active CN109257383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811331848.7A CN109257383B (zh) 2018-11-09 2018-11-09 一种bgp异常检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811331848.7A CN109257383B (zh) 2018-11-09 2018-11-09 一种bgp异常检测方法及***

Publications (2)

Publication Number Publication Date
CN109257383A CN109257383A (zh) 2019-01-22
CN109257383B true CN109257383B (zh) 2021-09-21

Family

ID=65044099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811331848.7A Active CN109257383B (zh) 2018-11-09 2018-11-09 一种bgp异常检测方法及***

Country Status (1)

Country Link
CN (1) CN109257383B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112702221B (zh) * 2019-10-23 2022-12-27 中国电信股份有限公司 Bgp异常路由监测方法和装置
CN111835791B (zh) * 2020-07-30 2022-10-28 哈尔滨工业大学 一种bgp安全事件快速检测***
CN112653675A (zh) * 2020-12-12 2021-04-13 海南师范大学 一种基于深度学习的智能入侵检测方法及其装置
CN112905572A (zh) * 2021-01-29 2021-06-04 铁道警察学院 一种数据异常的信息研判模型及方法
CN114535142B (zh) * 2022-01-11 2023-09-26 华南理工大学 基于数据驱动的注塑制品尺寸合格性智能判定方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101594361A (zh) * 2009-06-02 2009-12-02 浙江大学 基于支持向量机简化算法的网络入侵检测***
CN102903075A (zh) * 2012-10-15 2013-01-30 西安电子科技大学 基于图像特征点全局校正的鲁棒水印方法
US20180262525A1 (en) * 2017-03-09 2018-09-13 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184316B (zh) * 2015-08-28 2019-05-14 国网智能电网研究院 一种基于特征权学习的支持向量机电网业务分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101594361A (zh) * 2009-06-02 2009-12-02 浙江大学 基于支持向量机简化算法的网络入侵检测***
CN102903075A (zh) * 2012-10-15 2013-01-30 西安电子科技大学 基于图像特征点全局校正的鲁棒水印方法
US20180262525A1 (en) * 2017-03-09 2018-09-13 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于RS和WSVM的网络入侵检测算法研究》;杨光、巫春玲等;《计算机仿真》;20110515;正文第2-3节 *
《基于马氏距离多核学习的高光谱图像分类》;高巍、彭宇;《仪器仪表学报》;20180315;正文第1-2节及摘要 *

Also Published As

Publication number Publication date
CN109257383A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109257383B (zh) 一种bgp异常检测方法及***
EP3680639B1 (en) Abnormality model learning device, method, and program
CN110826648B (zh) 一种利用时序聚类算法实现故障检测的方法
TWI672925B (zh) 網路異常事件分析裝置、方法及其電腦程式產品
US8630962B2 (en) Error detection method and its system for early detection of errors in a planar or facilities
CN111475680A (zh) 检测异常高密子图的方法、装置、设备及存储介质
CN107493277B (zh) 基于最大信息系数的大数据平台在线异常检测方法
CN108073158A (zh) 基于pca和knn密度算法风电机组轴承故障诊断方法
CN108737406A (zh) 一种异常流量数据的检测方法及***
CN109359665B (zh) 一种基于支持向量机的家电负荷识别方法及装置
EP1958034B1 (en) Use of sequential clustering for instance selection in machine condition monitoring
CN110083507B (zh) 关键性能指标分类方法及装置
CN113125903A (zh) 线损异常检测方法、装置、设备及计算机可读存储介质
CN112134862A (zh) 基于机器学习的粗细粒度混合网络异常检测方法及装置
CN112437053A (zh) 入侵检测方法及装置
CN112463848A (zh) 检测用户异常行为的检测方法、***、装置和存储介质
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN117094184A (zh) 基于内网平台的风险预测模型的建模方法、***及介质
CN114564814A (zh) 一种针对稀疏数据的动态阈值高斯核密度估计***和方法
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN110770753B (zh) 高维数据实时分析的装置和方法
CN115033893B (zh) 一种改进型聚类算法的信息漏洞数据分析方法
CN111343165B (zh) 基于birch和smote的网络入侵检测方法及***
US12019433B2 (en) Periodicity analysis apparatus, method and program recording medium
CN112598118B (zh) 有监督学习的标注异常处理方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant