CN104751200B - 一种svm网络业务分类的方法 - Google Patents
一种svm网络业务分类的方法 Download PDFInfo
- Publication number
- CN104751200B CN104751200B CN201510167001.XA CN201510167001A CN104751200B CN 104751200 B CN104751200 B CN 104751200B CN 201510167001 A CN201510167001 A CN 201510167001A CN 104751200 B CN104751200 B CN 104751200B
- Authority
- CN
- China
- Prior art keywords
- sample set
- supporting vector
- sample
- new
- vector collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 239000012141 concentrate Substances 0.000 claims description 2
- 238000013479 data entry Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 7
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种SVM网络业务分类的方法,所述方法包括:(1)利用串行分割反馈方法对网络业务的初始SVM分类器进行初始训练,得到分类超平面;(2)利用有效边界淘汰方法,淘汰分类超平面构建无用的样本点,得到最优分类超平面。本发明提供了一种相对高效的方法来对机器学习算法进行改进,在保证分类精度基本不变的前提下,有效降低机器学习分类器的训练时间,伎网络流量数据的分类成本得以降低。
Description
技术领域
本发明涉及一种网络业务分类方法,具体涉及一种SVM网络业务分类的方法。
背景技术
web2.0时代给互联网经历了全新的飞速发展,网络应用种类与数量极大丰富,网民的数量急剧增加,网络流量成倍增长,如此的发展速度无论是对主干网、局域网还是交换设备都会带来巨大挑战,而如何能够在网络资源有限的前提下给用户提供更好的用户体验成为新的研究热点。诸多网络分析软件如sniffer、Wireshark相继问世,凸显网络业务的分类越来越重要。
传统的网络分类方法面对如今的复杂多变的网络环境已经捉襟见肘,传统的端口分析法由于现在动态端口技术的广泛采用而准确率大大下降,深度包检测DPI方法由于现在的加密算法以及P2P业务的大量私有协议的使用而变得举步维艰。近年来兴起的机器学习方法尚不能提出很好的解决方案,在分类器的训练上、分类器的拟合上都存着各种各样的问题。建立在机器学习的VC维理论和结构风险最小化原理上的SVM算法,体现了追求学习能力与模型复杂性的初衷,但是因为其分类器训练时间复杂度高、并且是针对二维分类而设计的,其在网络分类中的应用始终乏力。
发明内容
为了克服上述现有技术的不足,本发明提供一种SVM网络业务分类的方法。本发明提供了一种相对高效的方法来对机器学习算法进行改进,在保证分类精度基本不变的前提下,有效降低机器学习分类器的训练时间,使网络流量数据的分类成本得以降低。
为了实现上述发明目的,本发明采取如下技术方案:
一种SVM网络业务分类的方法,其特征在于,所述方法包括步骤如下:
(1)利用串行分割反馈方法对网络业务的初始SVM分类器进行初始训练,得到分类超平面;
(2)利用有效边界淘汰方法,淘汰分类超平面构建无用的样本点,得到最优分类超平面。
本发明提供的优选技术方案中,所述步骤(1)中串行分割反馈方法包括步骤如下:
A.将网络数据作为用于训练的网络数据样本集;
B.将样本集划分为若干不超过一定大小的子集;
C.对划分得到的每个子集利用SMO算法进行求解,得到其支持向量集;
D.随机选取两支持向量集混合,组成新的训练样本集;
E.将新的样本集同样用SMO算法进行训练后得到新的支持向量集,比较前后两次的支持向量集的相似度是否在90%以上,若是,则将新的样本集再混合,否则,重新随机划分样本集;
F.对新的样本集用SMO算法求解,求出其支持向量集;
G.得到最终的支持向量集。
本发明提供的第二优选技术方案中,所述步骤(2)中有效边界淘汰方法包括如下步骤:
A.利用当前的支持向量集计算出当前的分类超平面;
B.新增学***面的欧式距离;
C.将增量学***面的距离从小到大排序;
D.保留步骤C排序后的样本点中的前20%;
E.将原支持向量集与削减后的增量学习样本集混合;
F.将混合后的数据集利用SMO算法进行求解;
G.得到新的支持向量集,从而得出新的最优分类超平面。
本发明提供的第三优选技术方案中,所述一定大小为网络流量数据条目为1000条。
与最接近的现有技术比,本发明的有益效果在于:
本发明提供了一种相对高效的方法来对机器学习算法进行改进,在保证分类精度基本不变的前提下,有效降低机器学习分类器的训练时间,使网络流量数据的分类成本得以降低。
本发明采用串行分割反馈算法极大地提升SVM分类器的训练效率,减少了训练所需要的总时间,使用界限淘汰算法能够有效降低增量学习过程中的样本规模。
附图说明
图1是串行分割反馈SVM方法流程图
图2是分界距离淘汰方法用于网络流量分类的方法流程图
具体实施方式
下面结合附图对本发明作进一步详细说明。
在局域网的网关附近部署的网络监测设备,需要对网络的数据进行分类,先行的初始化分类过程由初始的已知数据集进行训练,为了减少训练所需要的总时间,首先采用串行分割反馈算法,在保证分类器分类精度的前提下构建最优初始分类器,然后在之后实用的一段阶段内每隔一段时间根据实际情况对分类器进行调整,以获得能够长时间有效的网络流量数据分类器。这里我们的理论依据是SVM分类器训练求解的时间复杂度为O(n3),即使采用业内公认的最好求解算法SMO,其时间复杂度依然维持在高于O(n2)的水平上,在短期内难以找到更加优化的直接求解算法的情况下,使用串行分割反馈能够极大地提升SVM分类器的训练效率,使用分界淘汰算法能够有效降低增量学习过程中的样本规模。而将两种方法结合使用并且将其引入到网络流量数据的分类则是本发明的最创新之处。
一种SVM网络业务分类的方法,该方法具体步骤如下:
(1)利用串行分割反馈方法对网络业务的初始SVM分类器进行初始训练,得到分类超平面;
(2)利用有效边界淘汰方法,淘汰分类超平面构建无用的样本点,得到最优分类超平面。
如图1所示,串行分割反馈SVM方法的具体流程如下:
步骤101:将用于训练分类器的样本集分为若干不超过一定大小的子集(例如,本图中4个)
步骤102:对划分得到的每个子集利用SMO算法进行求解,得到其支持向量集
步骤103:随机选取两支持向量集混合,组成新的训练样本集
步骤104:将新的样本集同样用SMO算法进行训练后得到新的支持向量集,比较前后两次的支持向量集的相似度是否在90%以上,如果是,则将新的样本集再混合,如果不是,重新随机划分样本集,重新进行学习
步骤105:对新的样本集用SMO算法求解,求出其支持向量集
步骤106:得到最终的支持向量集。
如图2所示,有效边界淘汰方法具体流程如下:
步骤201:利用当前的支持向量集计算出当前的分类超平面
步骤202:计算增量学***面的欧氏距离
步骤203:将增量学***面的距离从小到大排序
步骤204:保留步骤203排序后的样本点中的前20%
步骤205:将原支持向量集与削减后的增量学习样本集混合
步骤206:将混合后的数据集利用SMO算法进行求解
步骤207:得到新的支持向量集。
将样本集规模很大的网络流量数据进行分割,分别进行训练,非线性降低每个训练集的训练时间,降低原整个样本集的训练时间。
将长时间处于工作状态的网络流量分类设备定期进行更新,根据过去一段时间的网络流量对分类器的分类超平面参数进行调整。
对网络流量分类器的增量学***面的调整没有意义的点,减少总体计算量。
将关于样本集分割反馈算法与训练时的无用样本点淘汰算法结合引入到网络流量的分类问题中。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种SVM网络业务的分类方法,其特征在于,所述方法包括步骤如下:
(1)用串行分割反馈方法初始训练网络业务初始SVM分类器,得到分类超平面;
(2)用有效边界淘汰方法,淘汰分类超平面构建无用的样本点,得到最优分类超平面;所述步骤(2)中有效边界淘汰方法包括如下步骤:
A.用当前的支持向量集得出当前的分类超平面;
B.新增学***面的欧式距离;
C.按到超平面的距离对增量学习样本集中的样本从小到大排序;
D.保留步骤C排序后的样本点中的前20%;
E.将原支持向量集与削减后的增量学习样本集混合;
F.用SMO算法对混合后的数据集求解;
G.得到新的支持向量集,从而得出新的最优分类超平面。
2.根据权利要求1所述的一种SVM网络业务的分类方法,其特征在于,所述步骤(1)中串行分割反馈方法包括步骤如下:
A.将网络数据作为用于训练的网络数据样本集;
B.将样本集划分为若干不超过一定大小的子集;
C.用SMO算法求解B步得到的每个子集的支持向量集;
D.随机选取两支持向量集混合,组成新的训练样本集;
E.将新的样本集同样用SMO算法进行训练后得到新的支持向量集,比较前后两次的支持向量集的相似度是否在90%以上,若是,则将新的样本集再混合,否则,
重新随机划分样本集;
F.对新的样本集用SMO算法求解,求出其支持向量集;
G.得到最终的支持向量集。
3.根据权利要求2所述的一种SVM网络业务分类的方法,其特征在于,所述一定大小为网络流量数据条目为1000条。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510167001.XA CN104751200B (zh) | 2015-04-10 | 2015-04-10 | 一种svm网络业务分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510167001.XA CN104751200B (zh) | 2015-04-10 | 2015-04-10 | 一种svm网络业务分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104751200A CN104751200A (zh) | 2015-07-01 |
CN104751200B true CN104751200B (zh) | 2019-05-21 |
Family
ID=53590851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510167001.XA Active CN104751200B (zh) | 2015-04-10 | 2015-04-10 | 一种svm网络业务分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104751200B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184316B (zh) * | 2015-08-28 | 2019-05-14 | 国网智能电网研究院 | 一种基于特征权学习的支持向量机电网业务分类方法 |
CN106959967B (zh) * | 2016-01-12 | 2019-11-19 | 中国科学院声学研究所 | 一种链路预测模型的训练及链路预测方法 |
CN107729952B (zh) * | 2017-11-29 | 2021-04-30 | 新华三信息安全技术有限公司 | 一种业务流分类方法及装置 |
CN110728289B (zh) * | 2018-07-16 | 2022-06-03 | 中移动信息技术有限公司 | 一种家庭宽带用户的挖掘方法及设备 |
CN109190719A (zh) * | 2018-11-30 | 2019-01-11 | 长沙理工大学 | 支持向量机学习方法、装置、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7552098B1 (en) * | 2005-12-30 | 2009-06-23 | At&T Corporation | Methods to distribute multi-class classification learning on several processors |
CN101944122A (zh) * | 2010-09-17 | 2011-01-12 | 浙江工商大学 | 一种融合增量学习的支持向量机多类分类方法 |
CN102176701A (zh) * | 2011-02-18 | 2011-09-07 | 哈尔滨工业大学 | 一种基于主动学习的网络数据异常检测方法 |
-
2015
- 2015-04-10 CN CN201510167001.XA patent/CN104751200B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7552098B1 (en) * | 2005-12-30 | 2009-06-23 | At&T Corporation | Methods to distribute multi-class classification learning on several processors |
CN101944122A (zh) * | 2010-09-17 | 2011-01-12 | 浙江工商大学 | 一种融合增量学习的支持向量机多类分类方法 |
CN102176701A (zh) * | 2011-02-18 | 2011-09-07 | 哈尔滨工业大学 | 一种基于主动学习的网络数据异常检测方法 |
Non-Patent Citations (1)
Title |
---|
基于SVM的并行网络流量分类方法;裴杨等;《计算机工程与设计》;20130831;第34卷(第8期);第一节 |
Also Published As
Publication number | Publication date |
---|---|
CN104751200A (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104751200B (zh) | 一种svm网络业务分类的方法 | |
CN109726744B (zh) | 一种网络流量分类方法 | |
CN104767692B (zh) | 一种网络流量分类方法 | |
CN104699772B (zh) | 一种基于云计算的大数据文本分类方法 | |
CN107038167A (zh) | 基于模型评估的大数据挖掘分析***及其分析方法 | |
CN103116605B (zh) | 一种基于监测子网的微博热点事件实时检测方法及*** | |
CN103812872B (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及*** | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN104063472A (zh) | 一种优化训练样本集的knn文本分类方法 | |
CN104766098A (zh) | 一种分类器的构建方法 | |
CN109726735A (zh) | 一种基于K-means聚类和随机森林算法的移动应用程序识别方法 | |
CN104901847B (zh) | 一种社交网络僵尸账号检测方法及装置 | |
CN104951842B (zh) | 一种新的油田产量预测方法 | |
CN104281674A (zh) | 一种基于集聚系数的自适应聚类方法及*** | |
CN109218223A (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及*** | |
CN101251896B (zh) | 一种基于多分类器的物体检测***及方法 | |
Fitzgerald et al. | A bootstrapping approach to reduce over-fitting in genetic programming | |
CN105976385B (zh) | 一种基于图像数据场的图像分割方法 | |
CN104462329B (zh) | 一种适用于多样性环境的业务流程挖掘方法 | |
CN104077412A (zh) | 一种基于多Markov链的微博用户兴趣预测方法 | |
CN112612970A (zh) | 一种基于微博事件关系的谣言检测方法及其*** | |
Xiao et al. | A traffic classification method with spectral clustering in SDN | |
CN103324888A (zh) | 基于家族样本的病毒特征自动提取方法及*** | |
CN106557983B (zh) | 一种基于模糊多类svm的微博垃圾用户检测方法 | |
CN104268214B (zh) | 一种基于微博用户关系的用户性别识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |