CN108319987A

CN108319987A - 一种基于支持向量机的过滤-封装式组合流量特征选择方法

Info

Publication number: CN108319987A
Application number: CN201810152887.4A
Authority: CN
Inventors: 曹杰; 曲朝阳; 李楠; 杨杰明; 娄建楼; 奚洋
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2018-02-20
Filing date: 2018-02-20
Publication date: 2018-07-24
Anticipated expiration: 2038-02-20
Also published as: CN108319987B

Abstract

一种基于支持向量机的过滤‑封装式组合流量特征选择方法，其特点是，包括：初次过滤式特征选择法和嵌入改进序列前向搜索策略的二次封装式特征选择法。初次过滤式特征选择法是考察某个特征量对于网络流量分类的贡献，并根据原始特征集中每个特征的权重，将小于设定阈值δ的特征删除，这一过程可以显著降低后续特征子集筛选的计算复杂度；嵌入改进序列前向搜索策略的二次封装式特征选择法基于支持向量机分类器，嵌入改进序列前向搜索策略进行二次特征选择，选择具有强区分能力的组合流量特征子集，克服组合特征被误删，以及特征评价结果与最终分类算法存在偏差的问题，从而显著提高网络流量分类精度。该方法科学合理，可适用于各种流量分类网络。

Description

一种基于支持向量机的过滤-封装式组合流量特征选择方法

技术领域

本发明属于计算机网络流量分类技术领域，涉及一种基于支持向量机的过滤-封装式组合流量特征选择方法。

背景技术

网络流量分类数据往往包含较多的特征，这些含较多特征的高维数据会导致训练过程中时间和空间复杂度增高，甚至产生“维数灾难”，使现有算法完全失效。另外，高维数据中大量冗余和不相关特征(噪声)会导致分类模型性能的急剧下降。特征选择可以从原始高维特征中去除对分类结果贡献不大、不相关的特征。通过特征选择可以避免“维数灾难”，降低算法训练过程中的时间和空间复杂度，减少高维数据带来的“过拟合”问题，提高机器学习算法的泛化能力。特征选择是指选择最能代表原始数据分布特性的最优特征子集。其评价标准为是否依赖后续的机器学习算法。根据这个评价标准，特征选择方法主要包括过滤式和封装式两种。

过滤式特征选择：依据数据的信息及统计特征选择最优特征子集。独立于机器学习算法，在学习算法之前进行特征选择。目前主流的过滤特征选择算法有，基于距离准则的Relief算法，基于相关度准则的信息增益算法(Information Gain，IG)、关联算法(Correlation-based Feature Selection，CFS)等。过滤式特征选择直接利用数据的信息及统计特征来评估特征，因此，其计算代价小、特征选择速度较快，适合处理高维数据，但也存在一定的局限性：1)无法完全去除冗余特征。当某个冗余特征与目标类高度相关时，该特征不会被剔除。2)组合特征选择能力较差。某些特征组合出现时会具备很强的区分能力，这些特征之间存在一定的相关性，过滤式特征选择往往只会选择一个或者其中某几个特征，而把其它组合在一起具备强区分能力的特征当成冗余筛选掉。3)由于直接依据数据的信息及统计特征选择最优特征子集，独立于学习算法，分类效果往往不十分理想。

封装式特征选择：依据特征子集的分类性能作为其评价标准，选择最优特征子集。依赖于机器学习算法，将分类器看作“黑盒”不考虑分类器内部结构。由于其利用分类器验证特征子集，将学习算法用来评价得到的特征子集，因此可以得到相对较高的分类精度。但其计算复杂度较高，如果有n个特征可生成最多2ⁿ个特征子集，采用穷尽搜索，在每个子集上比较数据集的分类性能，当特征数n较大时，穷尽2ⁿ个特征子集是非常困难的。因此，封装式特征选择需要结合较优的搜索策略，才能得到相应的最优特征子集。

发明内容

本发明的目的是，克服现有单纯使用过滤式或者封装式特征选择方法的不足，引入改进的搜索策略，提供一种科学合理，适用性强，能够较好的去除冗余特征，且组合特征选择能力较强，同时取得较好分类精度的基于支持向量机的过滤-封装式组合流量特征选择方法。

本发明的目的是由以下技术方案来实现的：一种基于支持向量机的过滤-封装式组合流量特征选择方法，其特征是，它包括的内容有：

1.初次过滤式特征选择法

将原始数据集进行预处理生成数据集S₀，进行初次过滤式特征选择，采用基于熵的一种评估法，即为信息增益(Information Gain，IG)算法对分类有贡献的每一个特征的信息增益进行性能评估，变量具有的信息量越多，熵值越大，若类特征变量S(s₁,s₂,...s_n)对应出现的概率为P(p₁,p₂,...p_n)，则S的熵为公式(1)，属性特征W的信息增益是具有特征W和不具有特征W的信息量差，信息增益为公式(2)，P(S_i)为类S出现的概率，P(S_i|w)为属性特征w同时属于类别S_i的条件概率，为不出现属性特征w同时属于类别S_i的条件概率，信息增益IG(W)值越大，说明特征W对分类的贡献越大，将特征属性与类相关的信息增益进行排序，信息增益值越高的特征属性，代表其对分类的贡献越大，

根据公式(2)每一个流量特征的信息增益值，引入启发式单独最优特征选择搜索策略对特征信息增益值进行排序，将阈值δ＜0的特征筛除，构成目标特征子集F₁；

引入的启发式单独最优特征选择搜索策略为：输入原始特征集F₀，同时对目标特征子集F₁进行初始化，根据公式(2)计算每个特征w_i的信息增益(IG)值，对每个特征w_i在特征集合F₀中进行搜索并根据特征的信息增益(IG)值进行排序，当信息增益(IG)值小于或等于设定阈值δ时，则删除该特征w_i，进行下一个特征的搜索，当信息增益(IG)值大于设定阈值δ时，将搜索到的特征w_i选入目标特征子集F₁，循环搜索过程，直到搜索到特征集F₀中最后一个特征w_m，搜索过程结束，输出初次特征选择后的目标特征子集F₁；

2.二次封装式特征选择法

在经过初次过滤式特征选择后的目标特征子集F₁及数据集S₁上，进行封装式二次特征选择，基于支持向量机(SVM)学习算法，引入改进的启发式序列前向搜索策略，再次选择出具有高分类准确率的最优特征子集F₂，最终将过滤-封装式组合特征选择模型选出的最优特征子集F₂构成的数据集S₂分成训练集与测试集，基于支持向量机(SVM)分类器训练，在测试集上得到网络流量分类结果，

其中，基于支持向量机(SVM)多分类器构造法采用构造n类二分类器，每类分类器基于二值分类规则，识别两个类别，最后将判别结果组合实现多类分类，具体步骤：①构造n个二分类规则，设二分类规则f_k(x),k＝1,···,n，其中，f(x)＝ω·x+b，且ω·x+b＝0为SVM的分类方程，将第k类的训练样本与其它类别样本分离，若x_i为第k类样本，则sgn[f_k(x_i)]＝1，否则sgn[f_k(x_i)]＝-1，②确定f_k(x),k＝1,···,n中最大值所属于的类别，m＝argmax{f₁(x_i),···,f_n(x_i)}；由步骤①和②就能构造多类分类器并可对n类数据样本进行分类，已知训练样本集其中上标n表示向量为第n类，则需要分类面满足不等式(3)，分类平面为公式(4)，其中，α_i为拉格朗日乘子，

基于公式(4)，支持向量机(SVM)的多分类器构造采用一对一组合(one againstone)法构造个分类器解决多分类问题，假设每个分类器的训练数据分别来自第i层和第j层，如公式(5)，其中，C为惩罚因子，ξ为引入的松弛变量，φ(x)为将原始低维空间样本映射到高维特征空间中的非线性映射，

当个分类器构造完成后，在后期的分类器训练中采用投票方式，如果sgn[(ω^ij)^Tφ(x)+b^ij]代表x样本数据属于第i层，则投票将第i层数据加一，否则第j层数据加一，投票结束后，x样本数据属于的那一层投票结果值最大；

二次封装式特征选择法引入改进的启发式序列前向选择搜索策略是从空集出发，每次将能使候选子集的分类器准确率最高的一个或若干个特征增加到当前候选特征子集F₂'中，直到特征数超出特征总个数时结束，即从初始特征空间，即空集开始，每次从过滤式特征选择后的目标特征子集F₁中挑选m个特征增加到当前候选特征子集F₂'中，经过若干次循环筛选，生成新的最优特征子集F₂，直到满足约束条件为止，使得当搜索最大直径为N时，计算复杂度为O(N)，减少了搜索的计算代价，得到最优特征子集。

本发明的一种基于支持向量机的过滤-封装式组合特征选择方法，由于采用初次过滤式特征选择法，能够考察某个特征量对于网络流量分类的贡献，并根据原始特征集中每个特征的权重，将小于设定阈值δ的特征删除，可以显著降低后续特征子集筛选的计算复杂度；又由于在生成的新特征子集上，采用封装式特征选择方法基于支持向量机分类器，引入改进序列前向搜索策略进行二次特征选择，选择具有强区分能力的组合特征子集，克服组合特征被误删，以及特征评价结果与最终分类算法存在偏差的问题，从而显著提高网络流量分类精度。该方法科学合理，适用性强，可广泛适用于各种流量分类网络。

附图说明

图1为一种基于支持向量机的过滤-封装式组合流量特征选择方法功能示意图；

图2为一种基于支持向量机的过滤-封装式组合流量特征选择方法算法框架图；

图3为初次过滤式特征选择方法中引入的单独最优选择搜索策略流程图。

具体实施方式

下面利用附图和具体实施方式对本发明作进一步说明。

本发明的一种基于支持向量机的过滤-封装式组合流量特征选择方法分为初次过滤式特征选择和二次封装式特征选择过程。

1.方法的功能框架

参照图1，采用初次过滤式特征选择法，根据原始特征集中每个特征的权重，将小于设定阈值δ的特征删除。在生成的新特征子集上采用封装方式，基于支持向量机分类器并引入相应搜索策略进行二次特征筛选，选择具有强区分能力的组合流量特征子集。此方法流量特征选择过程：1)将预处理后数据集S₀先进行过滤式特征选择。采用信息增益(Information Gain，IG)算法，根据对分类有贡献的每一个特征的信息增益进行性能评估，引入启发式单独最优特征选择搜索策略对特征属性增益(IG)值进行排序。最终，将权重小于设定阈值δ的特征从原始数据集中删除，得到目标特征子集F₁；2)在经过初次滤式特征选择后的目标特征子集F₁及数据集S₁上，进行封装式二次特征选择。基于支持向量机(SVM)学习算法，引入改进的启发式序列前向搜索策略，再次进行特征选择，选择出具有高分类精度的最优特征子集F₂；3)将过滤-封装式组合流量特征选择模型选出的最优特征子集F₂构成的数据集S₂分成训练集与测试集，基于支持向量机(SVM)分类器训练，在测试集上得到网络流量分类结果。

2.方法的算法框架

根据流量组合特征选择方法功能框架，该方法的算法框架如图2所示，从图中可以看出通过组合特征选择方法能够对输入特征集进行选择、降维，同时提高了分类性能。图2中，F₀(f₁,f₂,...,f_i...,f_n)表示经过规范化的原始特征集，S_filter＝search(F₀)代表初次过滤式特征选择阶段，引入启发式单独最优特征组合搜索策略在特征空间F₀上搜索初次过滤式特征选择后的目标特征子集F₁，E_IG＝evalute(S_filter,F₀)表示通过信息增益评价策略对目标特征子集F₁进行评估，如果evalute＞evalute_best，更新评估值E_IG以及过滤式特征选择阶段的目标特征子集F₁，否则不更新。循环此过程，直到满足阈值δ的停止条件，结束过滤式特征选择过程，输出此阶段特征选择的目标特征子集F₁(f₁,f₂,...,f_i...,f_n),n*＜n。S_wrapper＝search(F₁)表示二次封装式特征选择阶段引入改进的启发式序列前向搜索策略在目标特征子集F₁构成的特征空间中搜索最优特征子集F₂。E_{svm_test}＝evalute(S_wrapper,F₂)表示通过支持向量机分类算法建立训练模型后，对最优特征子集F₂进行测试，如果在测试集上Test_accuracy＞Test_best，更新评估值E_{svm_test}以及二次封装式特征选择阶段的最优特征子集F₂，否则不更新。循环此过程，直到满足阈值δ的停止条件，结束封装式特征选择过程，输出此阶段特征选择的最优特征子集F₂(f₁,f₂,...,f_i...,f_m)，m为特征维数。

3.方法的评价策略

基于支持向量机的过滤-封装式组合流量特征选择方法中，封装式二次特征选择阶段直接采用支持向量机(SVM)学习算法作为评价策略，即基于支持向量机的分类性能对特征子集进行评估。而初次过滤式特征选择阶段则采用独立于学习算法的信息增益(Information Gain，IG)算法作为评价策略。信息增益是基于熵的一种评估法，根据对分类有贡献的每一个特征的信息增益进行性能评估。变量具有的信息量越多，熵值越大。属性特征W的信息增益是具有特征W和不具有特征W的信息量差。信息增益值越大，说明特征W对分类的贡献越大。将特征属性与类相关的信息增益进行排序，增益值越高的特征属性，如公式(2)，代表其对分类的贡献越大。根据公式(2)每一个流量特征的信息增益值，引入启发式单独最优特征选择搜索策略对特征增益值进行排序，将阈值δ＜0的特征筛除，即构成新的目标特征子集F₁。

4.方法的搜索策略

初次过滤式特征选择阶段引入启发式单独最优特征组合搜索策略。其特征选择流程如图3所示。输入为原始特征集F₀，同时对目标特征子集F₁进行初始化。根据公式(2)计算每个特征w_i的信息增益(IG)值，对每个特征w_i在特征集合F₀中进行搜索并根据特征的信息增益(IG)值进行排序。当信息增益(IG)值小于或等于设定阈值δ时，则删除该特征w_i，进行下一个特征的搜索，当信息增益(IG)值大于设定阈值δ时，将搜索到的特征w_i选入目标特征子集F₁。循环搜索过程，直到搜索到特征集F₀中最后一个特征w_m，搜索过程结束，输出最终目标特征子集F₁。该搜索策略对特征集单个特征的信息增益值进行排序，根据设定阈值进行选择，将k个最好的特征进行组合形成候选特征子集。虽然单独最优特征组合策略没有考虑特征间的相互依赖性，但其效率高，速度快，非常适合过滤-封装式流量组合特征选择方法的初次特征筛选，最大程度的降低了后期二次封装式特征选择阶段的计算复杂度，且组合特征能力及分类效果均可在二次封装式特征选择阶段实现。

二次封装式特征选择阶段引入改进的启发式序列前向搜索策略在过滤式特征选择后的目标特征子集F₁构成的特征空间中搜索最优特征子集F₂。该搜索策略为：选择空集作为当前候选特征子集F₂'，从过滤式特征选择后的流量特征F₁(f₁,f₂,...,f_i...,f_n*)空间中，选择k个特征增加到当前候选特征子集F₂'中。计算过滤式特征选择后形成的数据集S₁在当前候选特征子集F₂'上的分类准确率A₀，利用当前候选特征子集F₂'结合搜索策略生成最优特征子集F₂，即采用序列前向选择策略，循环从剩余特征中挑选m个特征增加到当前候选特征子集F₂'中生成新的最优特征子集F₂。计算最优特征子集F₂上的分类准确率A₁，并与A₀比较，若A₁＞A₀，则更新当前候选特征子集F₂'，使F₂'＝F₂，否则不更新F₂'。当特征集中特征数i不能满足阈值条件时，即i超过最大特征个数，则所有特征都循环搜索完毕，算法结束。该搜索策略的伪代码如下：

输入：当前候选特征子集F₂'，

输出：最优特征子集F₂，

1.指的是初始值为空集，即空集赋值给F₂'，

2.选择k个特征增加到初始特征子集F₂'中，从过滤式特征选择后的流量特征F₁(f₁,f₂,...,f_i...,f_n*)空间中进行选择，

3.For i≤δdo，δ为特征个数阈值，

4.计算数据集S₁在F₂'上的分类准确率A₀，S₁为初次过滤式特征选择后的数据集，

5.从剩余特征中挑选m个特征增加到F₂'中，生成新的最优特征子集F₂，

6.计算数据集S1在F2上的分类准确率A₁，

7.if A₁＞A₀，then F₂'＝F₂，

8.else，F₂'不变，

9.End if，

10.End For，

11.F₂＝F₂'，输出最优特征子集F₂。

综上，基于支持向量机的过滤-封装式组合流量特征选择方法，降低了各流量样本空间的特征维度，缩短了训练时间，提高了支持向量机分类器的分类精度。由于其在过滤式特征选择基础上进行二次封装式特征选择，因此，克服了单纯使用过滤式特征选择法引起的不考虑组合特征能力以及分类效果差的问题。同时，由于先进行了过滤式特征子集筛选，大大降低了二次封装式特征选择时的计算复杂度，分类效果理想。

本发明的软件程序依据自动化、网络和计算机处理技术编制，是本领域技术人员所熟悉的技术。

Claims

1.一种基于支持向量机的过滤-封装式组合流量特征选择方法，其特征是，它包括的内容有：

1)初次过滤式特征选择法

引入的启发式单独最优特征选择搜索策略为：输入原始特征集F₀，同时对目标特征子集F₁进行初始化，根据公式(2)计算每个特征w_i的信息增益(IG)值，对每个特征w_i在特征集合F₀中进行搜索并根据特征的信息增益(IG)值进行排序，当信息增益(IG)值小于或等于设定阈值δ时，则删除该特征w_i，进行下一个特征的搜索，当信息增益(IG)值大于设定阈值δ时，将搜索到的特征w_i选入目标特征子集F₁，循环搜索过程，直到搜索到特征集F₀中最后一个特征w_m，搜索过程结束，输出最终目标特征子集F₁；

2)二次封装式特征选择法

基于公式(4)，支持向量机(SVM)的多分类器构造采用一对一组合(one against one)法构造个分类器解决多分类问题，假设每个分类器的训练数据分别来自第i层和第j层，如公式(5)，其中，C为惩罚因子，ξ为引入的松弛变量，φ(x)为将原始低维空间样本映射到高维特征空间中的非线性映射，

二次封装式特征选择法引入改进的启发式序列前向选择搜索策略是从空集出发，每次将能使候选子集的分类器准确率最高的一个或若干个特征增加到当前特征候选子集F₂'中，直到特征数超出特征总个数时结束，即从初始特征空间空集开始，每次从过滤式特征选择后的目标特征子集F₁中挑选m个特征增加到当前候选特征子集F₂'中，经过若干次循环筛选，生成新的最优特征子集F₂，直到满足约束条件为止，使得当搜索最大直径为N时，计算复杂度为O(N)，减少了搜索的计算代价，得到近似最优特征子集。