CN104767692A - 一种网络流量分类方法 - Google Patents

一种网络流量分类方法 Download PDF

Info

Publication number
CN104767692A
CN104767692A CN201510176138.1A CN201510176138A CN104767692A CN 104767692 A CN104767692 A CN 104767692A CN 201510176138 A CN201510176138 A CN 201510176138A CN 104767692 A CN104767692 A CN 104767692A
Authority
CN
China
Prior art keywords
algorithm
net flow
training
classification
assorted method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510176138.1A
Other languages
English (en)
Other versions
CN104767692B (zh
Inventor
张庚
孙勇
孙振超
张然
周禹
钟卓健
李思珍
汪洋
刘世栋
郭经红
苏斓
丁慧霞
王智慧
王妙心
李哲
高强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Beijing University of Posts and Telecommunications, China Electric Power Research Institute Co Ltd CEPRI, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201510176138.1A priority Critical patent/CN104767692B/zh
Publication of CN104767692A publication Critical patent/CN104767692A/zh
Application granted granted Critical
Publication of CN104767692B publication Critical patent/CN104767692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种网络流量分类方法,所述方法包括(1)提取网络流量行为特征集;(2)获取分类器模型,将所述行为特征集输入分类器,进行分类训练,得到相应参数;分类器性能评估,并优化分类器性能。本发明结合机器学习方法中无监督和有监督两种算法进行分类。二者结合可以在保证较高分类准确率的前提下降低***时间和内存开销,提升分类效率。对聚类算法加以改进,提升聚类准确率,从而提高整体性能。

Description

一种网络流量分类方法
技术领域
本发明涉及一种网络流量分类方法,具体涉及一种网络流量分类方法。
背景技术
随着互联网规模的扩大和各种高带宽、多种类网络服务的广泛应用,网络业务数据量急剧上升,网络数据流智能化管理日益重要。前提就是对数据流类型进行分类识别。
流量分类不仅要保证准确率,降低时间和内存开销也成为研究热点。现有分类技术中机器学习方法是研究热点,分为无监督算法和有监督算法,其中无监督算法根据样本相似性进行类簇划分,聚类是应用比较广泛的无监督算法,主要有基于划分聚类、基于层次聚类、基于密度聚类和基于网格聚类的算法,其中k-means算法是应用最为广泛的聚类算法;有监督算法通过训练已知类别的样本集调整分类器参数,得到分类器模型。主要有神经网络、分类决策树、贝叶斯理论、支持向量机(SVM)等方法。聚类算法准确率较低,有监督算法消耗的***时间和内存较高。
发明内容
为了克服上述现有技术的不足,本发明提供一种网络流量分类方法,该方法通过聚类和有监督算法的结合,可以使时间复杂度降低,分类准确率升高,提升了分类效率。
为了实现上述发明目的,本发明采取如下技术方案:
一种网络流量分类方法,所述方法包括如下步骤:
(1)提取网络流量行为特征集;
(2)获取分类器模型,将所述行为特征集输入分类器,进行分类训练,得到相应参数;分类器性能评估,并优化分类器性能。
本发明提供的优选技术方案中,所述步骤(1)包括如下步骤:
A.网络流量抓取并筛选未知流量数据的关键信息;
B.处理所述关键信息,得到更直观有效的数据信息,以表示未知流量的行为特征;
C.确定特征集维数,整合所述行为特征,避免信息冗余,并保留有效识别数据流的信息。
本发明提供的第二优选技术方案中,所述关键信息包括数据业务类型、数据包协议、时间和类型。
本发明提供的第三优选技术方案中,所述步骤(2)包括如下步骤:
A.选取部分已提取的网络流量行为特征集进行类别标注,作为新加入的一项行为特征,得到分类器训练的训练集和测试集;
B.将训练集进行聚类算法,得到新的训练集;
C.将新的训练集进行监督算法,确定分类准则;
D.测试集输入分类器进行分类准则测试,并进行准确率评估;
E.判断准确率是否符合要求,是则结束;否则返回步骤B,至准确率符合要求。
本发明提供的第四优选技术方案中,所述步骤B包括如下步骤:
(a)聚类算法参数初始化,训练集输入进行训练;
(b)判断聚类中心是否收敛,是则执行步骤(c),否则执行步骤(a);
(c)聚类训练结束后,保存聚类中心和收敛半径,调整训练集并去除已聚类的样本,形成新的训练集。
本发明提供的第五优选技术方案中,所涉步骤(C)包括如下步骤:
(a)监督算法参数初始化,输入新的训练集进行训练;
(b)判断算法是否收敛,是则执行步骤(c),否则执行步骤(a);
(c)监督算法参数确定,分类准则确定。
本发明提供的第六优选技术方案中,所述训练集包括部分已标注的特征集和部分未标注的特征集。
本发明提供的第七优选技术方案中,所述测试集包括部分已标注的特征集和部分未标注的特征集。
本发明提供的第八优选技术方案中,所述类别标注采用深度包检测技术。
本发明提供的第九优选技术方案中,所述分类器性能评估包括对分类器准确率、***时间和内存开销的评估。
与现有技术相比,本发明的有益效果在于:
本发明结合机器学习方法中无监督和有监督两种算法进行分类。二者结合可以在保证较高分类准确率的前提下降低***时间和内存开销,提升分类效率。
本发明对聚类算法加以改进,在聚类过程中加入了标注过的样本点,可以检测聚类中心是否选取得当,修正误差和错误,降低不符合实际情况的样本中心点,提升聚类准确率,从而提高整体性能。
附图说明
图1是一种网络流量分类方法流程图
图2是网络流量行为特征集提取的流程示意图
图3是分类器模型获取和优化流程图
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,一种基于聚类和有监督算法的网络流量分类方法,步骤如下:
步骤S101:网络数据流提取行为特征;
步骤S102:获取分类器模型,将上述行为特征集输入分类器,进行分类器训练,得到相应参数;
步骤S103:分类器性能评估,包括准确率、***时间和内存开销等,测试集输入分类器进行分类,根据准确率调整分类器算法和参数,优化分类器性能。
如图2所示,网络流量行为特性集提取方法,步骤如下:
步骤S201:网络流量抓取并筛选未知流量数据的关键信息,关键信息包括数据业务类型、数据包协议、时间和大小;
步骤S202:对上述关键信息处理,得到更直观有效的数据信息,以表示未知流量的行为特征;
步骤S203:确定特征集维数,整合上述行为特征集,避免信息冗余,并保留有效识别数据流的信息。
如图3所示,分类器模型获取和优化方法,步骤如下:
步骤S301:选取部分已提取的网络流量行为特征集进行类别标注,作为新加入的一项行为特征,得到分类器训练的训练集和测试集;其中标注方法可采用人工或DPI(深度包检测技术,基于应用层的流量检测和控制)方法;
步骤S302:聚类算法参数初始化,训练集输入进行训练;
步骤S303:判断聚类中心是否收敛,是则执行S304,否则执行步骤S302;
具体算法为:随机选取部分标注过的样本与大量未标注过的样本共同训练聚类算法,选取聚类中心,标注过的样本点可以检测样本中心点是否选取得当,修正误差和错误,降低因无监督,仅凭聚类准则得到结果得到不符合实际情况的样本中心点。根据聚类准则迭代训练样本集,终止条件为算法收敛。此时聚类中心和适宜的聚类范围确定,聚类范围采用收敛半径表示;
步骤S304:保存聚类中心,收敛半径,调整训练集,去除已聚类的样本点并保存;
聚类训练结束后,保存聚类中心和收敛半径,作为未知流量数据分类的聚类判定依据,去除聚类过的样本点,有监督算法训练的数据量有所降低,如SVM算法的复杂度在O(n2)~O(n3)之间,n为样本数目,这样有监督算法复杂度大为降低,可以提升训练效率;
步骤S305:有监督算法参数初始化,输入新的训练集进行训练;
步骤S306:判断算法是否收敛,是则执行S307,否则执行S305;
步骤S307:有监督算法参数确定,分类准则确定;
步骤S308:测试集输入分类器进行分类测试,并进行准确率评估;
步骤S309:判断准确率是否符合要求,不满足则返回S302,至分类效果符合要求,主要为分类准确率较高;满足则确定该分类器模型可行,结束算法。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种网络流量分类方法,其特征在于,所述方法包括如下步骤:
(1)提取网络流量行为特征集;
(2)获取分类器模型,将所述行为特征集输入分类器,进行分类训练,得到相应参数;分类器性能评估,并优化分类器性能。
2.根据权利要求1所述网络流量分类方法,其特征在于,所述步骤(1)包括如下步骤:
A.网络流量抓取并筛选未知流量数据的关键信息;
B.处理所述关键信息,得到更直观有效的数据信息,以表示未知流量的行为特征;
C.确定特征集维数,整合所述行为特征,避免信息冗余,并保留有效识别数据流的信息。
3.根据权利要求2所述网络流量分类方法,其特征在于,所述关键信息包括数据业务类型、数据包协议、时间和类型。
4.根据权利要求1所述网络流量分类方法,其特征在于,所述步骤(2)包括如下步骤:
A.选取部分已提取的网络流量行为特征集进行类别标注,作为新加入的一项行为特征,得到分类器训练的训练集和测试集;
B.将训练集进行聚类算法,得到新的训练集;
C.将新的训练集进行监督算法,确定分类准则;
D.测试集输入分类器进行分类准则测试,并进行准确率评估;
E.判断准确率是否符合要求,是则结束;否则返回步骤B,至准确率符合要求。
5.根据权利要求4所述网络流量分类方法,其特征在于,所述步骤B包括如下步骤:
(a)聚类算法参数初始化,训练集输入进行训练;
(b)判断聚类中心是否收敛,是则执行步骤(c),否则执行步骤(a);
(c)聚类训练结束后,保存聚类中心和收敛半径,调整训练集并去除已聚类的样本,形成新的训练集。
6.根据权利要求4所述网络流量分类方法,其特征在于,所涉步骤(C)包括如下步骤:
(a)监督算法参数初始化,输入新的训练集进行训练;
(b)判断算法是否收敛,是则执行步骤(c),否则执行步骤(a);
(c)监督算法参数确定,分类准则确定。
7.根据权利要求4所述网络流量分类方法,其特征在于,所述训练集包括部分已标注的特征集和部分未标注的特征集。
8.根据权利要求4所述网络流量分类方法,其特征在于,所述测试集包括部分已标注的特征集和部分未标注的特征集。
9.根据权利要求4所述网络流量分类方法,其特征在于,所述类别标注采用深度包检测技术。
10.根据权利要求1所述网络流量分类方法,其特征在于,所述分类器性能评估包括对分类器准确率、***时间和内存开销的评估。
CN201510176138.1A 2015-04-15 2015-04-15 一种网络流量分类方法 Active CN104767692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510176138.1A CN104767692B (zh) 2015-04-15 2015-04-15 一种网络流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510176138.1A CN104767692B (zh) 2015-04-15 2015-04-15 一种网络流量分类方法

Publications (2)

Publication Number Publication Date
CN104767692A true CN104767692A (zh) 2015-07-08
CN104767692B CN104767692B (zh) 2018-05-29

Family

ID=53649314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510176138.1A Active CN104767692B (zh) 2015-04-15 2015-04-15 一种网络流量分类方法

Country Status (1)

Country Link
CN (1) CN104767692B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022960A (zh) * 2015-08-10 2015-11-04 济南大学 基于网络流量的多特征移动终端恶意软件检测方法及***
CN106411775A (zh) * 2016-08-31 2017-02-15 国家计算机网络与信息安全管理中心 一种互联网流量分类样本标注方法
CN106713324A (zh) * 2016-12-28 2017-05-24 北京奇艺世纪科技有限公司 一种流量检测方法及装置
CN106959967A (zh) * 2016-01-12 2017-07-18 中国科学院声学研究所 一种链路预测模型的训练及链路预测方法
CN108197666A (zh) * 2018-01-30 2018-06-22 咪咕文化科技有限公司 一种图像分类模型的处理方法、装置及存储介质
CN109376797A (zh) * 2018-11-20 2019-02-22 大连理工大学 一种基于二进制编码器和多哈希表的网络流量分类方法
CN109450740A (zh) * 2018-12-21 2019-03-08 青岛理工大学 一种基于dpi和机器学习算法进行流量分类的sdn控制器
CN109922083A (zh) * 2019-04-10 2019-06-21 武汉金盛方圆网络科技发展有限公司 一种网络协议流量控制***
CN110149280A (zh) * 2019-05-27 2019-08-20 中国科学技术大学 网络流量分类方法和装置
CN110445800A (zh) * 2019-08-15 2019-11-12 上海寰创通信科技股份有限公司 一种基于自学习的深度报文解析***
CN110753049A (zh) * 2019-10-21 2020-02-04 清华大学 一种基于工控网络流量的安全态势感知***
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、***及电子设备
CN111126419A (zh) * 2018-10-30 2020-05-08 顺丰科技有限公司 网点聚类方法及装置
CN111983429A (zh) * 2020-08-19 2020-11-24 Oppo广东移动通信有限公司 芯片验证***、芯片验证方法、终端及存储介质
CN112637084A (zh) * 2020-12-10 2021-04-09 中山职业技术学院 分布式网络流量新奇检测方法及分类器
US11586971B2 (en) 2018-07-19 2023-02-21 Hewlett Packard Enterprise Development Lp Device identifier classification

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060443A (zh) * 2006-04-17 2007-10-24 中国科学院自动化研究所 基于改进的自适应提升算法的互联网入侵检测方法
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN103793510A (zh) * 2014-01-29 2014-05-14 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060443A (zh) * 2006-04-17 2007-10-24 中国科学院自动化研究所 基于改进的自适应提升算法的互联网入侵检测方法
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN103793510A (zh) * 2014-01-29 2014-05-14 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022960B (zh) * 2015-08-10 2017-11-21 济南大学 基于网络流量的多特征移动终端恶意软件检测方法及***
CN105022960A (zh) * 2015-08-10 2015-11-04 济南大学 基于网络流量的多特征移动终端恶意软件检测方法及***
CN106959967A (zh) * 2016-01-12 2017-07-18 中国科学院声学研究所 一种链路预测模型的训练及链路预测方法
CN106411775A (zh) * 2016-08-31 2017-02-15 国家计算机网络与信息安全管理中心 一种互联网流量分类样本标注方法
CN106411775B (zh) * 2016-08-31 2019-06-14 国家计算机网络与信息安全管理中心 一种互联网流量分类样本标注方法
CN106713324A (zh) * 2016-12-28 2017-05-24 北京奇艺世纪科技有限公司 一种流量检测方法及装置
CN108197666A (zh) * 2018-01-30 2018-06-22 咪咕文化科技有限公司 一种图像分类模型的处理方法、装置及存储介质
US11586971B2 (en) 2018-07-19 2023-02-21 Hewlett Packard Enterprise Development Lp Device identifier classification
US12026597B2 (en) 2018-07-19 2024-07-02 Hewlett Packard Enterprise Development Lp Device identifier classification
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、***及电子设备
CN111126419B (zh) * 2018-10-30 2023-12-01 顺丰科技有限公司 网点聚类方法及装置
CN111126419A (zh) * 2018-10-30 2020-05-08 顺丰科技有限公司 网点聚类方法及装置
CN109376797A (zh) * 2018-11-20 2019-02-22 大连理工大学 一种基于二进制编码器和多哈希表的网络流量分类方法
CN109450740A (zh) * 2018-12-21 2019-03-08 青岛理工大学 一种基于dpi和机器学习算法进行流量分类的sdn控制器
CN109922083A (zh) * 2019-04-10 2019-06-21 武汉金盛方圆网络科技发展有限公司 一种网络协议流量控制***
CN110149280A (zh) * 2019-05-27 2019-08-20 中国科学技术大学 网络流量分类方法和装置
CN110149280B (zh) * 2019-05-27 2020-08-28 中国科学技术大学 网络流量分类方法和装置
CN110445800B (zh) * 2019-08-15 2022-06-14 上海寰创通信科技股份有限公司 一种基于自学习的深度报文解析***
CN110445800A (zh) * 2019-08-15 2019-11-12 上海寰创通信科技股份有限公司 一种基于自学习的深度报文解析***
CN110753049A (zh) * 2019-10-21 2020-02-04 清华大学 一种基于工控网络流量的安全态势感知***
CN111983429A (zh) * 2020-08-19 2020-11-24 Oppo广东移动通信有限公司 芯片验证***、芯片验证方法、终端及存储介质
CN112637084A (zh) * 2020-12-10 2021-04-09 中山职业技术学院 分布式网络流量新奇检测方法及分类器
CN112637084B (zh) * 2020-12-10 2022-09-23 中山职业技术学院 分布式网络流量新奇检测方法及分类器

Also Published As

Publication number Publication date
CN104767692B (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN104767692A (zh) 一种网络流量分类方法
Kayacik et al. A hierarchical SOM-based intrusion detection system
CN102315974B (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN102176698A (zh) 一种基于迁移学习的用户异常行为检测方法
CN101841440B (zh) 基于支持向量机与深层包检测的对等网络流量识别方法
CN104102700A (zh) 一种面向因特网不平衡应用流的分类方法
CN101996241A (zh) 一种基于贝叶斯算法的内容过滤方法
CN107846326A (zh) 一种自适应的半监督网络流量分类方法、***及设备
CN105141455B (zh) 一种基于统计特征的有噪网络流量分类建模方法
CN110266528B (zh) 基于机器学习的车联网通信的流量预测方法
CN109981474A (zh) 一种面向应用软件的网络流量细粒度分类***及方法
CN109167680A (zh) 一种基于深度学习的流量分类方法
CN109462853B (zh) 一种基于神经网络模型的网络容量预测方法
CN108199863A (zh) 一种基于两阶段序列特征学习的网络流量分类方法及***
CN103116766A (zh) 一种基于增量神经网络和子图编码的图像分类方法
CN107656152B (zh) 一种基于ga-svm-bp变压器故障诊断方法
CN109547251B (zh) 一种基于监控数据的业务***故障与性能预测方法
CN110225001A (zh) 一种基于主题模型的动态自更新网络流量分类方法
CN109995611B (zh) 流量分类模型建立及流量分类方法、装置、设备和服务器
CN111478904A (zh) 一种基于概念漂移的物联网设备通信异常检测方法及装置
Binglei et al. Fuzzy-logic-based traffic incident detection algorithm for freeway
CN105791151A (zh) 一种动态流量控制方法,及装置
CN110009005A (zh) 一种基于特征强相关的网络流量分类方法
CN103634829B (zh) 一种基于路测信息的路段筛选方法和设备
CN105553574A (zh) 一种认知无线电中基于支持向量机的mac协议识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant