CN104751200B

CN104751200B - 一种svm网络业务分类的方法

Info

Publication number: CN104751200B
Application number: CN201510167001.XA
Authority: CN
Inventors: 张庚; 孙勇; 汪洋; 刘世栋; 张然; 孙振超; 苏斓; 周禹; 丁慧霞; 王智慧; 钟卓健; 高强; 李思珍
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2015-04-10
Filing date: 2015-04-10
Publication date: 2019-05-21
Anticipated expiration: 2035-04-10
Also published as: CN104751200A

Abstract

本发明提供一种SVM网络业务分类的方法，所述方法包括：(1)利用串行分割反馈方法对网络业务的初始SVM分类器进行初始训练，得到分类超平面；(2)利用有效边界淘汰方法，淘汰分类超平面构建无用的样本点，得到最优分类超平面。本发明提供了一种相对高效的方法来对机器学习算法进行改进，在保证分类精度基本不变的前提下，有效降低机器学习分类器的训练时间，伎网络流量数据的分类成本得以降低。

Description

一种SVM网络业务分类的方法

技术领域

本发明涉及一种网络业务分类方法，具体涉及一种SVM网络业务分类的方法。

背景技术

web2.0时代给互联网经历了全新的飞速发展，网络应用种类与数量极大丰富，网民的数量急剧增加，网络流量成倍增长，如此的发展速度无论是对主干网、局域网还是交换设备都会带来巨大挑战，而如何能够在网络资源有限的前提下给用户提供更好的用户体验成为新的研究热点。诸多网络分析软件如sniffer、Wireshark相继问世，凸显网络业务的分类越来越重要。

传统的网络分类方法面对如今的复杂多变的网络环境已经捉襟见肘，传统的端口分析法由于现在动态端口技术的广泛采用而准确率大大下降，深度包检测DPI方法由于现在的加密算法以及P2P业务的大量私有协议的使用而变得举步维艰。近年来兴起的机器学习方法尚不能提出很好的解决方案，在分类器的训练上、分类器的拟合上都存着各种各样的问题。建立在机器学习的VC维理论和结构风险最小化原理上的SVM算法，体现了追求学习能力与模型复杂性的初衷，但是因为其分类器训练时间复杂度高、并且是针对二维分类而设计的，其在网络分类中的应用始终乏力。

发明内容

为了克服上述现有技术的不足，本发明提供一种SVM网络业务分类的方法。本发明提供了一种相对高效的方法来对机器学习算法进行改进，在保证分类精度基本不变的前提下，有效降低机器学习分类器的训练时间，使网络流量数据的分类成本得以降低。

为了实现上述发明目的，本发明采取如下技术方案：

一种SVM网络业务分类的方法，其特征在于，所述方法包括步骤如下：

(1)利用串行分割反馈方法对网络业务的初始SVM分类器进行初始训练，得到分类超平面；

(2)利用有效边界淘汰方法，淘汰分类超平面构建无用的样本点，得到最优分类超平面。

本发明提供的优选技术方案中，所述步骤(1)中串行分割反馈方法包括步骤如下：

A.将网络数据作为用于训练的网络数据样本集；

B.将样本集划分为若干不超过一定大小的子集；

C.对划分得到的每个子集利用SMO算法进行求解，得到其支持向量集；

D.随机选取两支持向量集混合，组成新的训练样本集；

E.将新的样本集同样用SMO算法进行训练后得到新的支持向量集，比较前后两次的支持向量集的相似度是否在90％以上，若是，则将新的样本集再混合，否则，重新随机划分样本集；

F.对新的样本集用SMO算法求解，求出其支持向量集；

G.得到最终的支持向量集。

本发明提供的第二优选技术方案中，所述步骤(2)中有效边界淘汰方法包括如下步骤：

A.利用当前的支持向量集计算出当前的分类超平面；

B.新增学***面的欧式距离；

C.将增量学***面的距离从小到大排序；

D.保留步骤C排序后的样本点中的前20％；

E.将原支持向量集与削减后的增量学习样本集混合；

F.将混合后的数据集利用SMO算法进行求解；

G.得到新的支持向量集，从而得出新的最优分类超平面。

本发明提供的第三优选技术方案中，所述一定大小为网络流量数据条目为1000条。

与最接近的现有技术比，本发明的有益效果在于：

本发明提供了一种相对高效的方法来对机器学习算法进行改进，在保证分类精度基本不变的前提下，有效降低机器学习分类器的训练时间，使网络流量数据的分类成本得以降低。

本发明采用串行分割反馈算法极大地提升SVM分类器的训练效率，减少了训练所需要的总时间，使用界限淘汰算法能够有效降低增量学习过程中的样本规模。

附图说明

图1是串行分割反馈SVM方法流程图

图2是分界距离淘汰方法用于网络流量分类的方法流程图

具体实施方式

下面结合附图对本发明作进一步详细说明。

在局域网的网关附近部署的网络监测设备，需要对网络的数据进行分类，先行的初始化分类过程由初始的已知数据集进行训练，为了减少训练所需要的总时间，首先采用串行分割反馈算法，在保证分类器分类精度的前提下构建最优初始分类器，然后在之后实用的一段阶段内每隔一段时间根据实际情况对分类器进行调整，以获得能够长时间有效的网络流量数据分类器。这里我们的理论依据是SVM分类器训练求解的时间复杂度为O(n3)，即使采用业内公认的最好求解算法SMO，其时间复杂度依然维持在高于O(n2)的水平上，在短期内难以找到更加优化的直接求解算法的情况下，使用串行分割反馈能够极大地提升SVM分类器的训练效率，使用分界淘汰算法能够有效降低增量学习过程中的样本规模。而将两种方法结合使用并且将其引入到网络流量数据的分类则是本发明的最创新之处。

一种SVM网络业务分类的方法，该方法具体步骤如下：

如图1所示，串行分割反馈SVM方法的具体流程如下：

步骤101：将用于训练分类器的样本集分为若干不超过一定大小的子集(例如，本图中4个)

步骤102：对划分得到的每个子集利用SMO算法进行求解，得到其支持向量集

步骤103：随机选取两支持向量集混合，组成新的训练样本集

步骤104：将新的样本集同样用SMO算法进行训练后得到新的支持向量集，比较前后两次的支持向量集的相似度是否在90％以上，如果是，则将新的样本集再混合，如果不是，重新随机划分样本集，重新进行学习

步骤105：对新的样本集用SMO算法求解，求出其支持向量集

步骤106：得到最终的支持向量集。

如图2所示，有效边界淘汰方法具体流程如下：

步骤201：利用当前的支持向量集计算出当前的分类超平面

步骤202：计算增量学***面的欧氏距离

步骤203：将增量学***面的距离从小到大排序

步骤204：保留步骤203排序后的样本点中的前20％

步骤205：将原支持向量集与削减后的增量学习样本集混合

步骤206：将混合后的数据集利用SMO算法进行求解

步骤207：得到新的支持向量集。

将样本集规模很大的网络流量数据进行分割，分别进行训练，非线性降低每个训练集的训练时间，降低原整个样本集的训练时间。

将长时间处于工作状态的网络流量分类设备定期进行更新，根据过去一段时间的网络流量对分类器的分类超平面参数进行调整。

对网络流量分类器的增量学***面的调整没有意义的点，减少总体计算量。

将关于样本集分割反馈算法与训练时的无用样本点淘汰算法结合引入到网络流量的分类问题中。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种SVM网络业务的分类方法，其特征在于，所述方法包括步骤如下：

(1)用串行分割反馈方法初始训练网络业务初始SVM分类器，得到分类超平面；

(2)用有效边界淘汰方法，淘汰分类超平面构建无用的样本点，得到最优分类超平面；所述步骤(2)中有效边界淘汰方法包括如下步骤：

A.用当前的支持向量集得出当前的分类超平面；

B.新增学***面的欧式距离；

C.按到超平面的距离对增量学习样本集中的样本从小到大排序；

D.保留步骤C排序后的样本点中的前20％；

E.将原支持向量集与削减后的增量学习样本集混合；

F.用SMO算法对混合后的数据集求解；

G.得到新的支持向量集，从而得出新的最优分类超平面。

2.根据权利要求1所述的一种SVM网络业务的分类方法，其特征在于，所述步骤(1)中串行分割反馈方法包括步骤如下：

A.将网络数据作为用于训练的网络数据样本集；

B.将样本集划分为若干不超过一定大小的子集；

C.用SMO算法求解B步得到的每个子集的支持向量集；

D.随机选取两支持向量集混合，组成新的训练样本集；

E.将新的样本集同样用SMO算法进行训练后得到新的支持向量集，比较前后两次的支持向量集的相似度是否在90％以上，若是，则将新的样本集再混合，否则，

重新随机划分样本集；

F.对新的样本集用SMO算法求解，求出其支持向量集；

G.得到最终的支持向量集。

3.根据权利要求2所述的一种SVM网络业务分类的方法，其特征在于，所述一定大小为网络流量数据条目为1000条。