CN111786903A - 一种基于约束模糊聚类和粒计算的网络流量分类方法 - Google Patents

一种基于约束模糊聚类和粒计算的网络流量分类方法 Download PDF

Info

Publication number
CN111786903A
CN111786903A CN202010465413.2A CN202010465413A CN111786903A CN 111786903 A CN111786903 A CN 111786903A CN 202010465413 A CN202010465413 A CN 202010465413A CN 111786903 A CN111786903 A CN 111786903A
Authority
CN
China
Prior art keywords
flow
traffic
network traffic
particle
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010465413.2A
Other languages
English (en)
Other versions
CN111786903B (zh
Inventor
靖旭阳
赵晶晶
闫峥
维托尔德·佩德里茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010465413.2A priority Critical patent/CN111786903B/zh
Publication of CN111786903A publication Critical patent/CN111786903A/zh
Application granted granted Critical
Publication of CN111786903B publication Critical patent/CN111786903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于网络流量分类技术领域,公开了一种基于约束模糊聚类和粒计算的网络流量分类方法,在训练阶段,使用流量信息将带有标签的数据集与不带标签的数据集合并;通过CCFCM对合并的数据集进行操作,并将一组聚类中心以数值格式输出;围绕数值型的聚类中心构建网络流量粒,将在合理粒度准则的指导下不断进行优化;将获得的最佳NTG借助带有标记的流,每个流量粒将会被映射到相应的流量类别;从NTG提取数据包级别和流级别特征,构建分类规则库;在测试阶段,粒分类器借助分类规则识别新的网络流或网络异常。由于网络流量粒可以详细地描述流量数据的潜在结构,因此对流量的分类精度将得到极大的提高。

Description

一种基于约束模糊聚类和粒计算的网络流量分类方法
技术领域
本发明属于网络流量分类技术领域,尤其涉及一种基于约束模糊聚类和粒计算的网络流量分类方法。
背景技术
目前,网络流量分类旨在识别由不同应用程序和协议生成的流量的所属类别,它可以为网络管理员提供网络状况的细粒度或粗粒度视图,例如服务质量测量,资源分配和入侵检测,进而帮助其方便地管理网络。随着越来越多的新型网络服务和网络访问设备的出现,网络流量分类吸引了越来越多的关注以便以智能的方式管理网络。
目前的流量分类方法主要分为五种:第一种是基于相关性的分类,它先依据流量的相关性对其进行聚合,然后对聚合的流量使用一些机器学习算法。第二种是基于特征的分类算法,这种方法通过对基于流或者基于包的统计特征进行分析来实现分类。第三种方法是基于行为的分类算法,它使用主机的交互行为来判断该主机在网络中的角色,然后基于这些角色的行为进行分类。第四种是基于端口的分类方法,该方法通过检查知名应用程序使用的标准端口来标识相应的流量。最后一种方法是基于数据包负载的分类方法,它使用深度包检查技术来匹配有效负载中的应用程序/协议的签名。
以上这些方法中存在一些问题。首先,大部分方法都存在对未知流量的错误分类情况。它们在训练阶段无法识别未知的流量类别,从而将他们归于已知的流量类别之中。这将在很大程度上影响分类的准确度。第二个问题是有些方法并不总是可靠的,比如说基于负载的分类方法在处理加密数据时就会变得无效;基于端口的分类方法在面临动态端口机制时也会变得无效。第三个问题是它们无法与数据包级别和流级别特征结合使用来执行流量分类。它们的分类规则基于数据包级别或流级别流量特征。当处理某些精心设计的流量(例如由隐秘的分布式拒绝服务攻击生成的异常流量)时,它们将变得无效。因此,在当前的网络管理中,诸如网络异常检测和网络可视化,需要已融合的不同流量级别信息。为了克服上述问题,迫切需要研究出具有以下要求的新型流量分类方法:准确度高、具有识别未知流量类别的能力、使用不同流量级别特征以精细的粒来详细描述潜在的流量数据结构、可以解决由训练数据短缺带来的问题。
本发明是一种基于相关性的分类方法。与大部分基于相关性的分类方法相似的是,本发明利用了数据流之间的相关性来增加分类的准确度。但是,需要指出的是,现有的基于相关性的分类方案存在上述讨论的某些问题,比如,无法准确识别未知的流量;没有充分利用不同层次的流量信息等。
通过上述分析,现有技术存在的问题及缺陷为:
(1)大部分方法都存在对未知流量的错误分类情况。它们在训练阶段无法识别未知的流量类别,从而将他们归于已知的流量类别之中。这将在很大程度上影响分类的准确度;
(2)有些方法并不总是可靠的。当网络出现波动或者网络环境发生变化时,大部分方法的准确度会变低;
(3)它们无法与数据包级别和流级别特征结合使用来执行流量分类。
解决以上问题及缺陷的难度为:虽然有很多方法在不断尝试提高分类的准确度和可靠性,但是可靠稳定的流量分类依然面临很多困难。首先,由于网络的不断发展,越来越多的应用程序带来了海量的数据流量,很多未知的流量甚至恶意流量夹杂其中,给分类带来了很大困难。其次,数据集和标签的采集对流量分类来讲也是一个难题。如何在不侵犯用户隐私的前提下获取大量真实可靠的网络流量和正确的数据标签依旧需要进一步研究。
解决以上问题及缺陷的意义为:解决这些问题可以帮助网络用户获得更好的服务,以及更加安全的网络环境。帮助研究者在进一步提高分类的准确度基础上,提高分类的细粒度,能够更为精准的描述流量数据结构。
发明内容
针对现有技术存在的问题,本发明提供了一种基于约束模糊聚类和粒计算的网络流量分类方法。
本发明是这样实现的,该基于约束模糊聚类和粒计算的网络流量分类方法为:
在训练阶段,使用流量信息将带有标签的数据集与不带标签的数据集合并;
通过CCFCM对合并的数据集进行操作,并将一组聚类中心以数值格式输出;
围绕数值型的聚类中心构建网络流量粒,将在合理粒度准则的指导下不断进行优化;
将获得的最佳NTG借助带有标记的流,每个流量粒将会被映射到相应的流量类别;
从NTG提取数据包级别和流级别特征,构建分类规则库;
在测试阶段,粒分类器借助分类规则识别新的网络流或网络异常。
进一步,构建网络流量粒的方法包括以下步骤:
步骤一,利用约束模糊聚类对网络流量进行聚类;
步骤二,根据聚类结果,建立网络流量信息粒并构建粒度分类器;
步骤三,基于粒度分类器对网络流量进行分类。
进一步,在步骤一中,
首先,采集网络流量,从每个流中提取以下特征:流大小,流间隔,数据包大小的最大、最小、均值和标准差,数据包到达间隔的最大、最小、均值和标准差,传输的字节数量;给定一个标签为L={l1,l2,...,ln}的数据流集合S={s1,s2,...,sn},其中si∈Rq,q是特征维数,li∈(Class1,Class2,...ClassK),i∈[1,n],Classp(p∈[1,K])是流量类别,对另一个未标记的数据集T={t1,t2,...};
其次,聚类网络流量,使用增强系数来指导聚类过程中隶属度变化的方向,该增强系数仅通过每个簇中包含must-link数据流的比率来计算,CCFCM的目标函数为:
Figure BDA0002512464830000041
其中,m是模糊系数,c是簇的数量,N是数据流的数量,0≤uik≤1是数据流xk对聚类中心vi的隶属度并且必须满足
Figure BDA0002512464830000042
·是标准欧几里得距离,βik是增强系数;
βik的计算公式如下:
Figure BDA0002512464830000043
其中,RLl是RLS中的一个相关流子集,Card(Ci)是在第i个簇中与xk为must-link关系的数据流的数量,Card(RLl)是RLl中数据流的数量。
进一步,在步骤二中,围绕由数值数据表示的聚类中心v1,v2,...,vc构建网络流量粒,将流量粒表示为NTG={G1,G2,...,Gc},其中Gi={Gi1,Gi2,...,Giq},q是流量特征维数,i=1,2,...,c。
进一步,流量粒的构建过程如下:
(1)生成网络流量粒,使用ε-信息粒规则来生成网络流量粒,网络流量粒Gi在结构上类似于超级立方体结构,其每一维的计算方式为Gij=[vij-ε/2*rangej,vij+ε/2*rangej],其中vij是数值型中心vi第j维的值,i=1,2,...,c,j=1,2,...,q,ε是Gi的大小,rangej是原始数据值第j维的数值变化范围;
(2)基于网络流量粒重构原始数据点,从NTG={G1,G2,...,Gc}中重构数据点xk,重构的数据为一个间隔值,表示为
Figure BDA0002512464830000044
k=1,2,...,N;如果
Figure BDA0002512464830000045
那么这个网络流量粒对xk的表达能力就认为是好的;
(3)优化网络流量粒。
进一步,计算隶属度的方法包括:
(1)如果xk∈Gi,i=1,2,...,c,那么xk对Gi的隶属度为
Figure BDA0002512464830000051
而对其他流量粒的隶属度则为
Figure BDA0002512464830000052
使用Gi表示,
Figure BDA0002512464830000053
(2)如果
Figure BDA00025124648300000511
通过隶属度聚合和已构建的网络流量信息粒进行去模糊运算以计算
Figure BDA0002512464830000054
的计算公式如下:
Figure BDA0002512464830000055
其中
Figure BDA0002512464830000056
Figure BDA0002512464830000057
是Gi的下界与上界。对第j个维度,
Figure BDA0002512464830000058
的计算公式为:
Figure BDA0002512464830000059
其中
Figure BDA00025124648300000510
进一步,在步骤三中,基于粒中包含的数据点来判断类别,如果一个流量粒中不包含任何带有标签的流,就将其视为未知类别,在分类阶段不使用它;对于至少包含一个带标签的流的粒,根据其中不同标记的流的数量比较来分配其流量类别;
设置包级别和流级别的规则库,从每个网络流量粒中提取的单个流的分类规则,以及从每个流量类别中提取的应用程序行为的识别规则;对于单个流分类,计算流与每个网络流量粒之间的距离。
进一步,对一个新的流y∈Rq,按照一下步骤进行分类:
·如果y∈Gi(i=1,2,...,r),即yj在流量粒Gij(j=1,2,...,q)内部,这里Gi∈TCp(p∈[1,K]),那么我们就把流y的标签记为Classp
·如果
Figure BDA0002512464830000061
我们需要计算流y与流量粒Gi(i=1,2,...,r)之间的距离,将其分到包含与流y最近的Gi的集合类别TCp(p∈[1,K])中。
本发明的另一目的在于提供一种实施基于约束模糊聚类和粒计算的网络流量分类方法的网络异常检测与预防方法。
本发明的另一目的在于提供一种实施基于约束模糊聚类和粒计算的网络流量分类方法的大数据分析方法。
结合上述的所有技术方案,本发明旨在从粒度的角度对网络流量进行分类,这是用于信息处理的新的计算方法,本发明所具备的优点及积极效果为:
(1)有效性:由于本发明将相关流量信息作为群集网络流量的先验知识,因此本专利是有效的。设计的“自定义约束模糊C均值”(CCFCM)算法是一种使用机器学习的半监督学习方法,该算法结合了先验知识以获得接近用户期望的结果。在CCFCM中,本发明通过考虑must-link数据点的比率,采用增强系数来调整成员隶属度。与其他约束FuzzyC-means算法相比,CCFCM的隶属矩阵和聚类中心的更新过程简单并且有效。
(2)准确性:网络流量粒的优化过程使本发明的分类方法比其他现有方法更准确。为了挖掘流量数据的基础结构,本发明首先使用CCFCM获得粗略描述,然后使用合理粒度原理的优化规则基于聚类结果构建网络流量粒。双重挖掘步骤可以完全描述流量数据的结构,并使描述更加具体。本发明提高了粒分类器的准确性。
(3)鲁棒性:本专利是鲁棒的,因为它具有识别未知流量类别的能力。未知流量类别的发现非常重要,因为未知类别的数量会极大地影响流量分类的准确性。如果无法识别未知流量并将其错误地分类为已知类别,分类器的性能将下降。本发明的方法可以准确地发现未知流量,因为它可以提供流量结构的详细描述。此属性使本发明的分类方法在存在未知流量的情况下更加鲁棒。
(4)多功能性:本发明是通用的,因为它可以执行流量分类和异常检测。当前流量测量中非常需要这两个功能。本发明从网络流量颗粒中提取数据包级别和流级别特征,以建立两个规则库,以对流量类别进行分类并识别应用行为。通过调整规则库,还可以实现更多的流量测量功能。显然,本发明的分类方法可以应用于发现异常网络行为,从而可以作为有效的网络入侵和威胁检测方法。
(5)可扩展性:本发明的方法可以容易地扩展本专利以实现网络安全性测量的任务。本发明提供了一种通过创新CCFCM并采用粒度计算理论来分析和建模网络数据的新方法。本发明可以使用类似的原理来处理更多类型的流量数据和其他类型的数据,例如,分析异常流量数据以执行网络异常检测。
(6)由于网络流量粒可以详细地描述流量数据的潜在结构,因此对流量的分类精度将得到极大的提高。
(7)现有技术直接在聚类中心上建立分类规则,其中会包含离群值进而导致分类不够精确。现有技术的分类的准确性取决于聚类的质量。本发明在簇中心周围构建网络流量粒,并使用从每个流量粒中提取的规则对流量进行分类。
(8)本发明的提取规则更加具体,将大大提高分类的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的CCFCM示例图。
图2是本发明实施例提供的网络流量信息粒图。
图3是本发明实施例提供的基于约束模糊聚类和粒计算的网络流量分类方法流程图。
图4是本发明实施例提供的实施的具体步骤图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提出了网络流量粒的概念,并旨在建立用于对网络流量进行分类的基于粒的分类器。粒和粒度是源自粒计算的概念。它是一种用于解决复杂问题,大规模数据挖掘和模糊信息处理的不断发展而强大的理论。在本发明中,设计自定义约束模糊C均值(Customized Constrained Fuzzy C-Means,CCFCM)的新型聚类算法。该算法结合了关于流量信息的先验知识以增强网络流量聚类的准确度。流量信息的先验知识是相关流之间的必须链接关系,即两个数据流必须被聚类到同一个簇中。相关流是具有相同的目标地址,目标端口和传输协议的流。考虑到网络环境的稳定性,在某个短时间内它们是由同一应用程序产生的。在对流量进行聚类后,可以获得由数值表示的多个簇中心。本发明围绕这些由数值表示的簇中心构建网络流量粒,以提高对流量数据结构描述的质量。由于网络流量粒的构建是一个优化问题,因此粒会根据粒优化准则不断地进行优化更新,为了详细地描述流量结构。在每个网络流量粒中,本发明提取数据包级别和流级别规则以构建不同的粒分类器。通过结合两级流量规则,本发明的分类器可以有效、准确地对各种流量类别进行分类,以进一步检测网络异常。下面结合附图对本发明作详细的描述。
该发明可以实现网络流量度量的两个重要功能:流量类别分类和异常检测。在训练阶段,本发明使用相关流量信息将带有标签的数据集与不带标签的数据集合并。本发明不仅可以找到相关流,还可以扩展训练数据集。CCFCM对合并的数据集进行操作,并将一组聚类中心以数值格式输出。然后,围绕这些数值型的聚类中心构建网络流量粒(NTG)。他们将在合理粒度准则的指导下不断进行优化。此步骤是本发明分类方法的核心。优化过程完成后,本发明将获得最佳NTG。借助带有标记的流,每个流量粒将会被映射到相应的流量类别。从NTG提取数据包级别和流级别特征,以构建分类规则库。在测试阶段,粒分类器借助分类规则识别新的网络流或网络异常。
所述的基于约束模糊聚类和粒计算的网络流量分类方法包括以下步骤:
步骤一,利用约束模糊聚类对网络流量进行聚类。
步骤二,根据聚类结果,建立网络流量信息粒并构建粒度分类器。
步骤三,基于粒度分类器对网络流量进行分类。
所述步骤一具体包括:
(1)采集网络流量:流定义为具有一个或多个相同属性的数据包的集合。这些相同的属性(通常称为流关键字)通常包括数据包头信息、数据包内容和元信息。流比数据包更能概括网络流量信息。本发明选择流关键字为源IP地址,目标IP地址,源端口,目标端口和传输协议。本发明将从每个流中提取以下特征:流大小(数据包的数量);流间隔(从第一个数据包到达到流过期的时间间隔);数据包大小的最大、最小、均值和标准差;数据包到达间隔的最大、最小、均值和标准差;传输的字节数量。
相关流是具有相同目的地址,目的端口和传输协议的流。因为提供某些应用程序的主机不会在短时间内更改其服务,所以相关流由同一应用程序生成。因此,在聚类过程中,应将相关流聚到同一簇中。另外,在网络流量信息中不存在cannot-link约束关系,因为本发明无法根据数据包头信息确定两个流是否属于不同的流量类别。
给定一个标签为L={l1,l2,...,ln}的数据流集合S={s1,s2,...,sn},其中si∈Rq,q是特征维数,li∈(Class1,Class2,...ClassK),i∈[1,n],Classp(p∈[1,K])是流量类别。对另一个未标记的数据集T={t1,t2,...},本发明使用相关流信息合并S和T来很获得一个更大的训练数据集,以此来解决训练数据集短缺的问题。这个合并的训练数据集包括两个部分:相关流集合RLS={RL1,RL2,...}和单独流集合IS。本发明赋予在同一个相关流集合中的数据流为must-link关系。并且,如果RLl中包含带有标签的流,本发明就把RLl中所有的流归为带有标签流所属的类别。
(2)聚类网络流量:自定义约束模糊C均值(CCFCM)的目标是在聚类过程中将数据流尽可能地分到包含与该数据流具有must-link关系的数据流最多的簇中。本发明使用一个增强系数来指导聚类过程中隶属度变化的方向。该增强系数仅通过每个簇中包含must-link数据流的比率来计算。
CCFCM的目标函数为:
Figure BDA0002512464830000101
其中,m是模糊系数,c是簇的数量,N是数据流的数量,0≤uik≤1是数据流xk对聚类中心vi的隶属度并且必须满足
Figure BDA0002512464830000102
||·||是标准欧几里得距离,βik是增强系数。
βik的计算公式如下:
Figure BDA0002512464830000103
其中,RLl是RLS中的一个相关流子集,Card(Ci)是在第i个簇中与xk为must-link关系的数据流的数量,Card(RLl)是RLl中数据流的数量,满足Card(Ci)≤Card(RLl).
βik的作用是增大数据流xk对包含与其具有must-link关系数据流的簇的隶属度即拉近xk与该簇的距离。图1中给出了一个示例。两个聚类中心用v1和v2表示,它们的成员用黑点和绿点表示。绿点与xk之间具有must-link的关系。本发明可以看到簇v1中的绿点数量大于v2中的绿点数量。因此,本发明通过提高xk与v1的隶属度提高到来拉近它们之间的距离。
图1是CCFCM示例图,CCFCM的隶属度和聚类中心的更新公式如下:
Figure BDA0002512464830000111
Figure BDA0002512464830000112
所述步骤二具体包括:
CCFCM完成之后,本发明可以得到由数值数据表示的聚类中心,即v1,v2,...,vc。围绕这些数值型的聚类中心便可以构建网络流量粒。本发明将流量粒表示为NTG={G1,G2,...,Gc},其中Gi={Gi1,Gi2,...,Giq},q是流量特征维数,i=1,2,...,c。流量粒的构建过程如下所述。
(1)生成网络流量粒:这一步的目的是基于原始数值中心构建流量信息粒。本发明使用ε-信息粒规则来生成网络流量粒。网络流量粒Gi在结构上类似于超级立方体结构,其每一维的计算方式为Gij=[vij-ε/2*rangej,vij+ε/2*rangej],其中vij是数值型中心vi第j维的值,i=1,2,...,c,j=1,2,...,q,ε是Gi的大小,rangej是原始数据值第j维的数值变化范围(也就是第j维的最大值与最小值之间的差值)。
为了细化Gij的边界,本发明首先找出Gij中距离vi最远的点。然后,本发明删除最远的数据点和边界之间的空白区域,以使这些点位于边界处。图2显示了二维流量信息粒的格式。带有点线边界是原始的网络流量粒,带有实线的边界的是压缩后的网络流量粒。本发明通过丢弃未使用的区域可以压缩流量粒的大小。此压缩过程使网络流量粒度更加具体。
而且,从图2中可以看出一个网络流量粒实际上一系列数据点的集合。使用粒进行表示,本发明可以使用更少的数据点以一种可读的方式表示流量信息。
(2)基于网络流量粒重构原始数据点:这一步的目的是从网络流量粒来重构原始数据点,以便更好的测试他们的代表能力。比如,本发明想从NTG={G1,G2,...,Gc}中重构数据点xk,重构的数据为一个间隔值,表示为
Figure BDA0002512464830000121
k=1,2,...,N。如果
Figure BDA0002512464830000122
那么这个网络流量粒对xk的表达能力就可以认为是好的。为了计算
Figure BDA0002512464830000123
本发明需要知道xk对Gi,i=1,2,...,c的隶属度。这里有两种方法来计算隶属度。
1)如果xk∈Gi,i=1,2,...,c,那么xk对Gi的隶属度为
Figure BDA0002512464830000124
而对其他流量粒的隶属度则为
Figure BDA0002512464830000125
这代表本发明可以使用Gi表示xk。因此,使用这种方法的话,
Figure BDA0002512464830000126
2)如果
Figure BDA00025124648300001215
本发明通过隶属度聚合和已构建的网络流量信息粒进行去模糊运算以计算
Figure BDA0002512464830000127
的计算公式如下:
Figure BDA0002512464830000128
其中
Figure BDA0002512464830000129
Figure BDA00025124648300001210
是Gi的下界与上界。对第j个维度,
Figure BDA00025124648300001211
的计算公式为:
Figure BDA00025124648300001212
其中
Figure BDA00025124648300001213
(3)优化网络流量粒:这一步非常重要,因为它指导了网络流量粒度的构建方向。本发明首先介绍合理粒度的原理,这是具有两个性能指标(即覆盖率和特异性)的优化规则。
覆盖率:覆盖率要求流量粒能包含尽可能多的原始数据点。一个网络流量粒中包含越多的数据点,就代表这个网络流量粒具有更好的表示能力。通过第二步执行的原始数据点的重构过程,本发明可以计算一个网络流量粒中包含的原始数据点的数量。覆盖率的计算如下:
Figure BDA00025124648300001214
其中N是原始数据点的数量,
Figure BDA0002512464830000131
是其重构中包含的数据点数。覆盖率将随着ε的增加而变大。
特异性:特异性指导网络流量粒覆盖尽可能具体的原始数据点。这意味着流量粒的大小应该更小以获得对流量清晰定义的语义。网络流量粒越小,其中包含的数据点就越相似。因此,特异性会随着ε的增加而减少。特定性的定义如下:
Figure BDA0002512464830000132
Figure BDA0002512464830000133
代表
Figure BDA0002512464830000134
的特异性,计算如下:
Figure BDA0002512464830000135
Figure BDA0002512464830000136
其中aj和bj是原始数据点第j维上最大和最小的值。
从覆盖率和特异性的定义中,本发明可以得出这两个性能指标之间存在竞争关系。覆盖率越大,特异性就越小。这两个指标都受网络流量粒大小ε的影响。因此,如何平衡覆盖率和特异性来获得最优的ε,是合理粒度原则的主要动机。本发明使用以下质量评估来衡量这种竞争关系:
QA(ε)=Coverage*Specificityα
其中α是一个非负参数,当α>1,特异性就更为重要,当α<1,覆盖率就更为重要。当α=1,覆盖率和特异性一样重要。
所述步骤三具体包括:
对每一个NTG,本发明首先基于粒中包含的数据点来判断它的类别。如果一个流量粒中不包含任何带有标签的流,本发明就将其视为未知类别,在分类阶段不使用它。一切其他的技术可以用来对其进行分析,比如深度数据包检查。对于至少包含一个带标签的流的粒,本发明根据其中不同标记的流的数量比较来分配其流量类别。
例如,在流量粒Gi(i=1,2,...,r,r≤c)中,带标签的流是{lfi1,lfi2,...lfiu},它们对应的类别分别是{lli1,lli2,...,lliu},这里llio∈(Class1,Class2,...ClassK),o=1,2,..,u。本发明可以按一下公式将流量粒Gi的标签(记为LGi)设置为Classp(p∈[1,K]):
Figure BDA0002512464830000141
对所有的流量粒进行标记之后,流量类别Classp(p∈[1,K])可以由网络流量粒类别的集合来表示,如下所示:
TCp={Gi,i=1,2,...,r|LGi=Classp}
接下来,本发明可以设置包级别和流级别的规则库。规则库包含两个部分:从每个网络流量粒中提取的单个流的分类规则,以及从每个流量类别中提取的应用程序行为的识别规则。对于单个流分类,本发明需要计算流与每个网络流量粒之间的距离。下面是粒分类器的实现过程。
对一个新的流y∈Rq,本发明对按照一下步骤进行分类:
·如果y∈Gi(i=1,2,...,r),即yj在流量粒Gij(j=1,2,...,q)内部,这里Gi∈TCp(p∈[1,K]),那么本发明就把流y的标签记为Classp
·如果
Figure BDA0002512464830000143
本发明需要计算流y与流量粒Gi(i=1,2,...,r)之间的距离,将其分到包含与流y最近的Gi的集合类别TCp(p∈[1,K])中。
本发明使用dis(y,Gi)来表示y到Gi(i=1,2,...,r)的距离,它的计算如下:
Figure BDA0002512464830000142
dis(yj,Gij)是y和Gi(i=1,2,...,r)在第j维上的距离。
Figure BDA0002512464830000151
下一步,本发明首先计算y和Gi(i=1,2,...,r)在每一个流量类别TCp(p∈[1,K])上的最短距离。然后,对所有p个流量类别,本发明将y的类别标记为与其具有最短距离的类别TCp(p∈[1,K])。公式如下:
Figure BDA0002512464830000152
本发明提出了一种新型约束模糊C均值算法来对流量进行聚类并解决了训练数据集过小的问题。本发明可以将网络流量中存在的相关流量信息视为半监督学习中的must-link关系(即两个相关流量必须被分到同一个簇中)。因此,在对网络流量进行聚类时,本发明应该让相关流尽可能的近。CCFCM将相关性信息作为先验知识,通过考虑每个簇中must-link数据点的基数来连续调整给定数据点的隶属度。与其他受约束的FCM算法相比,CCFCM效率更高,速度更快,因为它仅通过考虑每个簇中must-link的数据点的比率来更新隶属矩阵,而不是一个个地判断关系。
本发明建立了对网络流量的新型表达形式,称为网络流量粒。每个网络流量粒都是包含许多数据点的超多维数据集。由于其构建是一个优化过程,因此可以完全捕获流量数据的基础结构。流量粒将带来许多好处,例如识别不兼容的数据,减少所需表达的数据量,在多个流量数据级别上构建规则库。
本发明基于网络流量粒建立了两个用于网络流量度量的规则库,即包级别规则库以及流级别规则库。使用这些规则库,可以实现网络安全度量的许多功能,例如异常应用程序检测,恶意流量识别。
基于以上讨论,本发明的网络流量分类方案符合以下步骤。首先,本发明使用相关流量信息在训练数据集中找到相关流。然后,通过考虑先验知识,使用CCFCM将流量数据划分为几个簇类。CCFCM执行完毕后,本发明获得了一组以数值形式表示的聚类中心。接下来,本发明在合理粒度原则的优化指导下,围绕这些数值型的聚类中心构建网络流量粒。通过这种方式,本发明成功地将流量数据的表示形式从数字格式提升为粒度格式。在每个流量粒中,本发明提取数据包级别和流级别特征以构建两个规则库。基于这些库,粒度分类器可以识别新的流,这些新的流或应用程序行为可以用于检测网络异常,以进行网络安全性度量。
在图4中,首先在训练阶段,本发明使用相关流量信息将带有标签的数据集与不带标签的数据集合并。这样,本发明不仅可以找到相关流,还可以扩展训练数据集。CCFCM对合并的数据集进行操作,并将一组聚类中心以数值格式输出。然后,围绕这些数值型的聚类中心构建网络流量粒(NTG)。他们将在合理粒度准则的指导下不断进行优化。此步骤是本发明分类方法的核心。优化过程完成后,本发明将获得最佳NTG。借助带有标记的流,每个流量粒将会被映射到相应的流量类别。从NTG提取数据包级别和流级别特征,以构建分类规则库。在测试阶段,粒分类器借助分类规则识别新的网络流。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于约束模糊聚类和粒计算的网络流量分类方法,其特征在于,所述基于约束模糊聚类和粒计算的网络流量分类方法为:
在训练阶段,使用流量信息将带有标签的数据集与不带标签的数据集合并;
通过CCFCM对合并的数据集进行操作,并将一组聚类中心以数值格式输出;
围绕数值型的聚类中心构建网络流量粒,将在合理粒度准则的指导下不断进行优化;
将获得的最佳NTG借助带有标记的流,每个流量粒将会被映射到相应的流量类别;
从NTG提取数据包级别和流级别特征,构建分类规则库;
在测试阶段,粒分类器借助分类规则识别新的网络流或网络异常。
2.如权利要求1所述的基于约束模糊聚类和粒计算的网络流量分类方法,其特征在于,构建网络流量粒的方法包括以下步骤:
步骤一,利用约束模糊聚类对网络流量进行聚类;
步骤二,根据聚类结果,建立网络流量信息粒并构建粒度分类器;
步骤三,基于粒度分类器对网络流量进行分类。
3.如权利要求2所述的基于约束模糊聚类和粒计算的网络流量分类方法,其特征在于,在步骤一中,
首先,采集网络流量,从每个流中提取以下特征:流大小,流间隔,数据包大小的最大、最小、均值和标准差,数据包到达间隔的最大、最小、均值和标准差,传输的字节数量;给定一个标签为L={l1,l2,...,ln}的数据流集合S={s1,s2,...,sn},其中si∈Rq,q是特征维数,li∈(Class1,Class2,...ClassK),i∈[1,n],Classp(p∈[1,K])是流量类别,对另一个未标记的数据集T={t1,t2,...};
其次,聚类网络流量,使用增强系数来指导聚类过程中隶属度变化的方向,该增强系数仅通过每个簇中包含must-link数据流的比率来计算,CCFCM的目标函数为:
Figure FDA0002512464820000021
其中,m是模糊系数,c是簇的数量,N是数据流的数量,0≤uik≤1是数据流xk对聚类中心vi的隶属度并且必须满足
Figure FDA0002512464820000022
||·||是标准欧几里得距离,βik是增强系数;
βik的计算公式如下:
Figure FDA0002512464820000023
如果xk∈RLl并且Card(Ci)≠0
其中,RLl是RLS中的一个相关流子集,Card(Ci)是在第i个簇中与xk为must-link关系的数据流的数量,Card(RLl)是RLl中数据流的数量。
4.如权利要求3所述的基于约束模糊聚类和粒计算的网络流量分类方法,其特征在于,在步骤二中,围绕由数值数据表示的聚类中心v1,v2,...,vc构建网络流量粒,将流量粒表示为NTG={G1,G2,...,Gc},其中Gi={Gi1,Gi2,...,Giq},q是流量特征维数,i=1,2,...,c。
5.如权利要求4所述的基于约束模糊聚类和粒计算的网络流量分类方法,其特征在于,流量粒的构建过程如下:
(1)生成网络流量粒,使用ε-信息粒规则来生成网络流量粒,网络流量粒Gi在结构上类似于超级立方体结构,其每一维的计算方式为Gij=[vij-ε/2*rangej,vij+ε/2*rangej],其中vij是数值型中心vi第j维的值,i=1,2,...,c,j=1,2,...,q,ε是Gi的大小,rangej是原始数据值第j维的数值变化范围;
(2)基于网络流量粒重构原始数据点,从NTG={G1,G2,...,Gc}中重构数据点xk,重构的数据为一个间隔值,表示为
Figure FDA0002512464820000031
如果
Figure FDA0002512464820000032
那么这个网络流量粒对xk的表达能力就认为是好的;
(3)优化网络流量粒。
6.如权利要求5所述的基于约束模糊聚类和粒计算的网络流量分类方法,其特征在于,计算隶属度的方法包括:
(1)如果xk∈Gi,i=1,2,...,c,那么xk对Gi的隶属度为
Figure FDA0002512464820000033
而对其他流量粒的隶属度则为
Figure FDA0002512464820000034
使用Gi表示,
Figure FDA0002512464820000035
(2)如果
Figure FDA0002512464820000036
通过隶属度聚合和已构建的网络流量信息粒进行去模糊运算以计算
Figure FDA0002512464820000037
Figure FDA0002512464820000038
的计算公式如下:
Figure FDA0002512464820000039
其中
Figure FDA00025124648200000310
Figure FDA00025124648200000311
是Gi的下界与上界.对第j个维度,
Figure FDA00025124648200000312
的计算公式为:
Figure FDA00025124648200000313
其中
Figure FDA00025124648200000314
7.如权利要求6所述的基于约束模糊聚类和粒计算的网络流量分类方法,其特征在于,在步骤三中,基于粒中包含的数据点来判断类别,如果一个流量粒中不包含任何带有标签的流,就将其视为未知类别,在分类阶段不使用它;对于至少包含一个带标签的流的粒,根据其中不同标记的流的数量比较来分配其流量类别;
设置包级别和流级别的规则库,从每个网络流量粒中提取的单个流的分类规则,以及从每个流量类别中提取的应用程序行为的识别规则;对于单个流分类,计算流与每个网络流量粒之间的距离。
8.如权利要求7所述的基于约束模糊聚类和粒计算的网络流量分类方法,其特征在于,对一个新的流y∈Rq,按照一下步骤进行分类:
·如果y∈Gi(i=1,2,...,r),即yj在流量粒Gij(j=1,2,...,q)内部,这里Gi∈TCp(p∈[1,K]),那么我们就把流y的标签记为Classp
·如果
Figure FDA0002512464820000041
我们需要计算流y与流量粒Gi(i=1,2,...,r)之间的距离,将其分到包含与流y最近的Gi的集合类别TCp(p∈[1,K])中。
9.一种实施权利要求1~8任意一项基于约束模糊聚类和粒计算的网络流量分类方法的网络异常检测与预防方法。
10.一种实施权利要求1~8任意一项所述基于约束模糊聚类和粒计算的网络流量分类方法的大数据分析方法。
CN202010465413.2A 2020-05-28 2020-05-28 一种基于约束模糊聚类和粒计算的网络流量分类方法 Active CN111786903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010465413.2A CN111786903B (zh) 2020-05-28 2020-05-28 一种基于约束模糊聚类和粒计算的网络流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010465413.2A CN111786903B (zh) 2020-05-28 2020-05-28 一种基于约束模糊聚类和粒计算的网络流量分类方法

Publications (2)

Publication Number Publication Date
CN111786903A true CN111786903A (zh) 2020-10-16
CN111786903B CN111786903B (zh) 2022-02-25

Family

ID=72753907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010465413.2A Active CN111786903B (zh) 2020-05-28 2020-05-28 一种基于约束模糊聚类和粒计算的网络流量分类方法

Country Status (1)

Country Link
CN (1) CN111786903B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252541A (zh) * 2008-04-09 2008-08-27 中国科学院计算技术研究所 一种网络流量分类模型的建立方法及相应***
US20130100849A1 (en) * 2011-10-20 2013-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN106452868A (zh) * 2016-10-12 2017-02-22 中国电子科技集团公司第三十研究所 一种支持多维度聚合分类的网络流量统计实现方法
CN109726744A (zh) * 2018-12-14 2019-05-07 深圳先进技术研究院 一种网络流量分类方法
CN109981474A (zh) * 2019-03-26 2019-07-05 中国科学院信息工程研究所 一种面向应用软件的网络流量细粒度分类***及方法
CN110311829A (zh) * 2019-05-24 2019-10-08 西安电子科技大学 一种基于机器学习加速的网络流量分类方法
CN110572382A (zh) * 2019-09-02 2019-12-13 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法
CN110765329A (zh) * 2019-10-28 2020-02-07 北京天融信网络安全技术有限公司 一种数据的聚类方法和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252541A (zh) * 2008-04-09 2008-08-27 中国科学院计算技术研究所 一种网络流量分类模型的建立方法及相应***
US20130100849A1 (en) * 2011-10-20 2013-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN106452868A (zh) * 2016-10-12 2017-02-22 中国电子科技集团公司第三十研究所 一种支持多维度聚合分类的网络流量统计实现方法
CN109726744A (zh) * 2018-12-14 2019-05-07 深圳先进技术研究院 一种网络流量分类方法
CN109981474A (zh) * 2019-03-26 2019-07-05 中国科学院信息工程研究所 一种面向应用软件的网络流量细粒度分类***及方法
CN110311829A (zh) * 2019-05-24 2019-10-08 西安电子科技大学 一种基于机器学习加速的网络流量分类方法
CN110572382A (zh) * 2019-09-02 2019-12-13 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法
CN110765329A (zh) * 2019-10-28 2020-02-07 北京天融信网络安全技术有限公司 一种数据的聚类方法和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VANDANA M,ETC: "Self Learning Network Traffic Classification", 《IEEE》 *

Also Published As

Publication number Publication date
CN111786903B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN108900432B (zh) 一种基于网络流行为的内容感知方法
Shafiq et al. A machine learning approach for feature selection traffic classification using security analysis
Janarthanan et al. Feature selection in UNSW-NB15 and KDDCUP'99 datasets
Shi et al. Efficient and robust feature extraction and selection for traffic classification
US9729571B1 (en) System, method, and computer program for detecting and measuring changes in network behavior of communication networks utilizing real-time clustering algorithms
Atli et al. Anomaly-based intrusion detection using extreme learning machine and aggregation of network traffic statistics in probability space
Jha et al. Intrusion detection system using support vector machine
US8069210B2 (en) Graph based bot-user detection
CN109067586B (zh) DDoS攻击检测方法及装置
CN112381121A (zh) 一种基于孪生网络的未知类别网络流量的检测与识别方法
Alsaadi et al. Computational intelligence algorithms to handle dimensionality reduction for enhancing intrusion detection system
Kong et al. Identification of abnormal network traffic using support vector machine
Jin et al. Mobile network traffic pattern classification with incomplete a priori information
Sankaranarayanan et al. SVM-based traffic data classification for secured IoT-based road signaling system
Zhao et al. A novel network traffic classification approach via discriminative feature learning
CN112055007B (zh) 一种基于可编程节点的软硬件结合威胁态势感知方法
CN111786903B (zh) 一种基于约束模糊聚类和粒计算的网络流量分类方法
Wu et al. Quantum walks-based classification model with resistance for cloud computing attacks
CN116127400B (zh) 基于异构计算的敏感数据识别***、方法及存储介质
Zhang et al. A Step-Based Deep Learning Approach for Network Intrusion Detection.
He et al. A data skew-based unknown traffic classification approach for TLS applications
Zhao et al. Prototype-based malware traffic classification with novelty detection
Alizadeh et al. Timely classification and verification of network traffic using Gaussian mixture models
Sarhan et al. Doc-nad: A hybrid deep one-class classifier for network anomaly detection
Lu et al. TCFOM: a robust traffic classification framework based on OC-SVM combined with MC-SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant