CN105005629A - 一种基于混合高斯的sdn流聚类方法 - Google Patents

一种基于混合高斯的sdn流聚类方法 Download PDF

Info

Publication number
CN105005629A
CN105005629A CN201510488828.0A CN201510488828A CN105005629A CN 105005629 A CN105005629 A CN 105005629A CN 201510488828 A CN201510488828 A CN 201510488828A CN 105005629 A CN105005629 A CN 105005629A
Authority
CN
China
Prior art keywords
theta
omega
sigma
sdn
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510488828.0A
Other languages
English (en)
Other versions
CN105005629B (zh
Inventor
郑相涵
陈锋情
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201510488828.0A priority Critical patent/CN105005629B/zh
Publication of CN105005629A publication Critical patent/CN105005629A/zh
Application granted granted Critical
Publication of CN105005629B publication Critical patent/CN105005629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于混合高斯的SDN流聚类方法,通过对基本高斯混合模型算法进行了改进,引入流的边信息,构造基于边信息等价集约束的高斯混合模型,提高聚类效果,并将其运用到SDN数据流聚类中。本发明使得聚类结果的准确度和聚类速度得到很大的提升。

Description

一种基于混合高斯的SDN流聚类方法
技术领域
本发明涉及SDN数据流聚类,特别是一种基于混合高斯的SDN流聚类方法。
背景技术
软件定义网络(Software Defined Network,SDN),是Emulex网络一种新型网络创新架构,是网络虚拟化的一种实现方式,其核心技术OpenFlow通过将网络设备控制面与数据面分离开来,从而实现了网络流量的灵活控制,使网络作为管道变得更加智能。
目前在软件定义网络(SDN)环境下,针对SDN流的高效、准确地归类问题的研究还没有很大进展。
发明内容
有鉴于此,本发明的目的是提出一种基于混合高斯的SDN流聚类方法,使得聚类结果的准确度和聚类速度得到很大的提升。
本发明采用以下方案实现:一种基于混合高斯的SDN流聚类方法,具体包括以下步骤;
步骤S1:对原始SDN数据进行五元组记录,并且采用KMeans聚类算法,完成SND数据流与用户之间的映射关系;
步骤S2:利用高斯混合模型GMM以及公式对SDN数据流的概率密度分布进行估计,其中K为高斯模型的个数,ai为第i个高斯模型的权重,pi(x|θi)为第i个高斯模型的概率密度函数,所述pi(x|θi)的均值为μk,方差为σk;θi=(μi,∑i),μi,∑i为待求解的数据生成模型的参数;
步骤S3:采用流持续时间、数据包数量、流大小、数据包大小、数据包间隔时间作为SDN流向量属性,通过边信息获得SDN流等价集;
步骤S4:对高斯混合模型GMM的数据生成模型进行调整;
步骤S5:采用must-link成对点约束和cannot-link成对点约束来辅助聚类。
进一步的,所述步骤S4具体包括以下步骤:
步骤S41:将SDN流边信息的取值空间表示为 Ω = { Y | ( y 1 s = ... = y i s = ... = y N s s = Y s ) , s = 1 , ... , M } , 其中,Y={y1,…,yi,…,yN},yi表示第i个数据点的聚类中心,表示在第s个等价集中第i个数据点的聚类中心,Ys表示第s个等价集Xs的概率分布,Xs包含Ns条数据流,所有等价集包含的数据条数x={x1,…xN}表示N条数据流,X={X1,…XM}表示M个等价集,Xs是X1至XM中的其中一个等价集,yi∈{1,…,K},K为聚类中心的个数;
步骤S42:建立基于约束最大化的log-likelyhood function: Q C ( θ , θ g ) = E [ log p ( X , Y | Y ∈ Ω , θ ) | X , Y ∈ Ω , θ g ] = Σ y ∈ Ω log p ( X , y | y ∈ Ω , θ ) P ( y | X , y ∈ Ω , θ g ) , 根据所述数据生成模型可以得到 l o g p ( X , y | y ∈ Ω , θ ) = l o g p ( y | y ∈ Ω , θ ) p ( X | y , y ∈ Ω , θ ) = Σ s = 1 M l o g a Y S + Σ s = 1 M l o g p ( X S | Y S , y ∈ Ω , θ ) , 边缘概率分布为: P ( y | X , y ∈ Ω , θ g ) = P ( y ∈ Ω | X , y , θ g ) P ( y | X , θ g ) P ( y ∈ Ω | X , θ g ) = Π s = 1 M δ Y S P ( Y S | X S , θ g ) Σ Y 1 ... Σ Y M Π j = 1 M δ Y j P ( Y j | X j , θ g ) , δ Y j = 1 , y 1 j = ... = y N j j 0 , o t h e r w i s e ; 其中θg是当前参数估计,θ是迭代计算后的参数估计,X表示等价集,Y为等价集在各个聚类中心点的分布概率,y=yi表示每一个聚类中心的先验概率;
步骤S43:将log-likelyhood function简化为其中,每一个等价集的后验概率计算定义如下: P ( Y s = l | X s , y ∈ Ω , θ g ) ≡ P ( y 1 s = l , ... y N l s = l | X s , y ∈ Ω , θ g ) = Π n = 1 N s [ a l g p l ( x n s | θ l g ) ] Σ j = 1 K Π n = 1 N s [ [ a j g p j ( x n s | θ l g ) ] ] , 其中为当前l类的权重,表示当前参数估计下x的概率,为等价集Xs的元素,表示旧的参数估计,θl表示新的参数估计,l表示第l的聚类中心;
步骤S44:使用带约束的最大似然估计的方法求解数据生成模型的参数,使得QC(θ,θg)的取值最大化;其中其中表示等价集Xs的元素; Σ i = Σ s = 1 M P ( l | X s , y ∈ Ω , θ g ) Σ n = 1 N s ( x n s - μ i ) ( x n s - μ i ) T Σ s = 1 M P ( l | X s , y ∈ Ω , θ g ) N S ; a i = 1 M Σ s = 1 M P ( l | X s , y ∈ Ω , θ g ) .
进一步的,所述的五元组包括源IP、源端口、目标IP、目标端口以及协议。
进一步的,所述的SDN流等价集为独立同分布。
进一步的,所述边信息SDN流的目标ip、目标端口、协议。
与现有技术相比,本发明有以下有益效果:因此本发明引入半监督式聚类算法,根据用户历史数据,分析数据包与数据关联特征。本发明是通过对基本高斯混合模型算法进行了改进,引入流的边信息,构造基于边信息等价集约束的高斯混合模型,提高聚类效果,并将其运用到SDN数据流聚类中。本发明的基于边信息等价集约束的高斯混合模型比较与高斯混合模型以及K-Means聚类结果准确度和聚类速度均有较大的提升。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本实施例提供了一种基于混合高斯的SDN流聚类方法,具体包括以下步骤;
步骤S1:对原始SDN数据进行五元组记录,并且采用KMeans聚类算法,完成SND数据流与用户之间的映射关系;
步骤S2:利用高斯混合模型GMM以及公式对SDN数据流的概率密度分布进行估计,其中K为高斯模型的个数,ai为第i个高斯模型的权重,pi(x|θi)为第i个高斯模型的概率密度函数,所述pi(x|θi)的均值为μk,方差为σk;θi=(μi,∑i),μi,∑i为待求解的数据生成模型的参数;
步骤S3:采用流持续时间、数据包数量、流大小、数据包大小、数据包间隔时间作为SDN流向量属性,通过边信息获得SDN流等价集;
步骤S4:对高斯混合模型GMM的数据生成模型进行调整;
步骤S5:采用must-link成对点约束和cannot-link成对点约束来辅助聚类。
在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41:将SDN流边信息的取值空间表示为 Ω = { Y | ( y 1 s = ... = y i s = ... = y N s s = Y s ) , s = 1 , ... , M } , 其中,Y={y1,…,yi,…,yN},yi表示第i个数据点的聚类中心,表示在第s个等价集中第i个数据点的聚类中心,Ys表示第s个等价集Xs的概率分布,Xs包含Ns条数据流,所有等价集包含的数据条数x={x1,…xN}表示N条数据流,X={X1,…XM}表示M个等价集,Xs是X1至XM中的其中一个等价集,yi∈{1,…,K},K为聚类中心的个数;
步骤S42:建立基于约束最大化的log-likelyhood function: Q C ( θ , θ g ) = E [ log p ( X , Y | Y ∈ Ω , θ ) | X , Y ∈ Ω , θ g ] = Σ y ∈ Ω log p ( X , y | y ∈ Ω , θ ) P ( y | X , y ∈ Ω , θ g ) , 根据所述数据生成模型可以得到 l o g p ( X , y | y ∈ Ω , θ ) = l o g p ( y | y ∈ Ω , θ ) p ( X | y , y ∈ Ω , θ ) = Σ s = 1 M l o g a Y S + Σ s = 1 M l o g p ( X S | Y S , y ∈ Ω , θ ) , 边缘概率分布为: P ( y | X , y ∈ Ω , θ g ) = P ( y ∈ Ω | X , y , θ g ) P ( y | X , θ g ) P ( y ∈ Ω | X , θ g ) = Π s = 1 M δ Y S P ( Y S | X S , θ g ) Σ Y 1 ... Σ Y M Π j = 1 M δ Y j P ( Y j | X j , θ g ) , δ Y j = 1 , y 1 j = ... = y N j j 0 , o t h e r w i s e ; 其中θg是当前参数估计,θ是迭代计算后的参数估计,X表示等价集,Y为等价集在各个聚类中心点的分布概率,y=yi表示每一个聚类中心的先验概率;
步骤S43:将log-likelyhood function简化为 Q C ( θ , θ g ) = Σ s = 1 M Σ l = 1 K P ( Y s = l | X s , y ∈ Ω , θ g ) Σ n = 1 N s l o g p l ( x n s | θ l ) + Σ s = 1 M Σ l = 1 K P ( Y s = l | X s , y ∈ Ω , θ g ) N s l o g a l , 其中,每一个等价集的后验概率计算定义如下: P ( Y s = l | X s , y ∈ Ω , θ g ) ≡ P ( y 1 s = l , ... y N l s = l | X s , y ∈ Ω , θ g ) = Π n = 1 N s [ a l g p l ( x n s | θ l g ) ] Σ j = 1 K Π n = 1 N s [ [ a j g p j ( x n s | θ l g ) ] ] , 其中为当前l类的权重,表示当前参数估计下x的概率,为等价集Xs的元素,表示旧的参数估计,θl表示新的参数估计,l表示第l的聚类中心;
步骤S44:使用带约束的最大似然估计的方法求解数据生成模型的参数,使得QC(θ,θg)的取值最大化;其中其中表示等价集Xs的元素; Σ i = Σ s = 1 M P ( l | X s , y ∈ Ω , θ g ) Σ n = 1 N s ( x n s - μ i ) ( x n s - μ i ) T Σ s = 1 M P ( l | X s , y ∈ Ω , θ g ) N S ; a i = 1 M Σ s = 1 M P ( l | X s , y ∈ Ω , θ g ) .
在本实施例中,所述的五元组包括源IP、源端口、目标IP、目标端口以及协议。
在本实施例中,所述的SDN流等价集为独立同分布。
在本实施例中,所述边信息SDN流的目标ip、目标端口、协议。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (5)

1.一种基于混合高斯的SDN流聚类方法,其特征在于包括以下步骤;
步骤S1:对原始SDN数据进行五元组记录,并且采用KMeans聚类算法,完成SND数据流与用户之间的映射关系;
步骤S2:利用高斯混合模型GMM以及公式对SDN数据流的概率密度分布进行估计,其中K为高斯模型的个数,ai为第i个高斯模型的权重,pi(x|θi)为第i个高斯模型的概率密度函数,所述pi(x|θi)的均值为μk,方差为σk;θi=(μii),μi,Σi为待求解的数据生成模型的参数;
步骤S3:采用流持续时间、数据包数量、流大小、数据包大小、数据包间隔时间作为SDN流向量属性,通过边信息获得SDN流等价集;
步骤S4:对高斯混合模型GMM的数据生成模型进行调整;
步骤S5:采用must-link成对点约束和cannot-link成对点约束来辅助聚类。
2.根据权利要求1所述的一种基于混合高斯的SDN流聚类方法,其特征在于:所述步骤S4具体包括以下步骤:
步骤S41:将SDN流边信息的取值空间表示为 Ω = { Y | ( y 1 s = ... = y i s = ... = y N s s = Y s ) , s = 1 , ... , M } , 其中,Y={y1,…,yi,…,yN},yi表示第i个数据点的聚类中心,表示在第s个等价集中第i个数据点的聚类中心,Ys表示第s个等价集Xs的概率分布,Xs包含Ns条数据流,所有等价集包含的数据条数x={x1,…xN}表示N条数据流,X={X1,…XM}表示M个等价集,Xs是X1至XM中的其中一个等价集,yi∈{1,…,K},K为聚类中心的个数;
步骤S42:建立基于约束最大化的log-likelyhood function: Q C ( θ , θ g ) = E [ log p ( X , Y | Y ∈ Ω , θ ) | X , Y ∈ Ω , θ g ] = Σ y ∈ Ω log p ( X , y | y ∈ Ω , θ ) P ( y | X , y ∈ Ω , θ g ) , 根据所述数据生成模型可以得到 l o g p ( X , y | y ∈ Ω , θ ) = l o g p ( y | y ∈ Ω , θ ) p ( X | y , y ∈ Ω , θ ) = Σ s = 1 M l o g a Y S + Σ s = 1 M l o g p ( X S | Y S , y ∈ Ω , θ ) , 边缘概率分布为: P ( y | X , y ∈ Ω , θ g ) = P ( y ∈ Ω | X , y , θ g ) P ( y | X , θ g ) P ( y ∈ Ω | X , θ g ) = Π s = 1 M δ Y S P ( Y S | X S , θ g ) Σ Y 1 ... Σ Y M Π j = 1 M δ Y j P ( Y j | X j , θ g ) , δ Y j = 1 , y 1 j = ... = y N j j 0 , o t h e r w i s e ; 其中θg是当前参数估计,θ是迭代计算后的参数估计,X表示等价集,Y为等价集在各个聚类中心点的分布概率,y=yi表示每一个聚类中心的先验概率;
步骤S43:将log-likelyhood function简化为 Q C ( θ , θ g ) = Σ s = 1 M Σ l = 1 K P ( Y s = l | X s , y ∈ Ω , θ g ) Σ n = 1 N s l o g p l ( x n s | θ l ) + Σ s = 1 M Σ l = 1 K P ( Y s = l | X s , y ∈ Ω , θ g ) N s l o g a l , 其中,每一个等价集的后验概率计算定义如下: P ( Y s = l | X s , y ∈ Ω , θ g ) ≡ P ( y 1 s = l , ... y N l s = l | X s , y ∈ Ω , θ g ) = Π n = 1 N s [ a l g p l ( x n s | θ l g ) ] Σ j = 1 K Π n = 1 N s [ [ a j g p j ( x n s | θ l g ) ] ] , 其中为当前l类的权重,表示当前参数估计下x的概率,为等价集Xs的元素,表示旧的参数估计,θl表示新的参数估计,l表示第l的聚类中心;
步骤S44:使用带约束的最大似然估计的方法求解数据生成模型的参数,使得QC(θ,θg)的取值最大化;其中其中表示等价集Xs的元素; Σ i = Σ s = 1 M P ( l | X s , y ∈ Ω , θ g ) Σ n = 1 N s ( x n s - μ i ) ( x n s - μ i ) T Σ s = 1 M P ( l | X s , y ∈ Ω , θ g ) N S ; a i = 1 M Σ s = 1 M P ( l | X s , y ∈ Ω , θ g ) .
3.根据权利要求1所述的一种基于混合高斯的SDN流聚类方法,其特征在于:所述的五元组包括源IP、源端口、目标IP、目标端口以及协议。
4.根据权利要求1所述的一种基于混合高斯的SDN流聚类方法,其特征在于:所述的SDN流等价集为独立同分布。
5.根据权利要求1所述的一种基于混合高斯的SDN流聚类方法,其特征在于:所述边信息SDN流的目标ip、目标端口、协议。
CN201510488828.0A 2015-08-11 2015-08-11 一种基于混合高斯的sdn流聚类方法 Active CN105005629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510488828.0A CN105005629B (zh) 2015-08-11 2015-08-11 一种基于混合高斯的sdn流聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510488828.0A CN105005629B (zh) 2015-08-11 2015-08-11 一种基于混合高斯的sdn流聚类方法

Publications (2)

Publication Number Publication Date
CN105005629A true CN105005629A (zh) 2015-10-28
CN105005629B CN105005629B (zh) 2017-07-04

Family

ID=54378305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510488828.0A Active CN105005629B (zh) 2015-08-11 2015-08-11 一种基于混合高斯的sdn流聚类方法

Country Status (1)

Country Link
CN (1) CN105005629B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787076A (zh) * 2005-12-13 2006-06-14 浙江大学 基于混合支持向量机的说话人识别方法
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法
CN103927412A (zh) * 2014-04-01 2014-07-16 浙江大学 基于高斯混合模型的即时学习脱丁烷塔软测量建模方法
CN104506435A (zh) * 2014-12-12 2015-04-08 杭州华为数字技术有限公司 Sdn控制器和sdn中的最短路径确定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787076A (zh) * 2005-12-13 2006-06-14 浙江大学 基于混合支持向量机的说话人识别方法
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法
CN103927412A (zh) * 2014-04-01 2014-07-16 浙江大学 基于高斯混合模型的即时学习脱丁烷塔软测量建模方法
CN104506435A (zh) * 2014-12-12 2015-04-08 杭州华为数字技术有限公司 Sdn控制器和sdn中的最短路径确定方法

Also Published As

Publication number Publication date
CN105005629B (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
WO2017157183A1 (zh) 一种自动多阀值特征过滤方法及装置
Arora et al. A convergence analysis of gradient descent for deep linear neural networks
US12056605B2 (en) System and method for improved neural network training
US11783198B2 (en) Estimating the implicit likelihoods of generative adversarial networks
CN109711544A (zh) 模型压缩的方法、装置、电子设备及计算机存储介质
CN108962237A (zh) 混合语音识别方法、装置及计算机可读存储介质
CN107358293A (zh) 一种神经网络训练方法及装置
CN101231702A (zh) 一种分类器集成方法
CN107133607A (zh) 基于视频监控的人群统计方法及***
CN106203628A (zh) 一种增强深度学习算法鲁棒性的优化方法和***
Gao et al. Piecewise function approximation and vertex partitioning schemes for multi-dividing ontology algorithm in AUC criterion setting (I)
CN102637199B (zh) 一种基于半监督主题建模的图像标注方法
Li et al. On the effectiveness of partial variance reduction in federated learning with heterogeneous data
CN111079547A (zh) 一种基于手机惯性传感器的行人移动方向识别方法
CN105913353A (zh) 一种基于K-means聚类多权重自适应的学生学习行为分析方法
Li et al. Class balanced adaptive pseudo labeling for federated semi-supervised learning
CN104881651A (zh) 一种基于随机投影和Fisher向量的人物行为识别方法
CN105005629A (zh) 一种基于混合高斯的sdn流聚类方法
CN106339072A (zh) 一种基于左右脑模型的分布式大数据实时处理***及方法
Doğru et al. Finite mixtures of skew Laplace normal distributions with random skewness
Li et al. Exponential family restricted Boltzmann machines and annealed importance sampling
Kholghi et al. Active learning framework combining semi-supervised approach for data stream mining
CN114330672A (zh) 多信息聚合的图残差生成模型、分类方法、电子设备及存储介质
Fiosina et al. Density-based clustering in cloud-oriented collaborative multi-agent systems
Guo et al. Bayesian network learning based on relationship prediction PSO and its application in agricultural expert system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant