CN105005629A

CN105005629A - 一种基于混合高斯的sdn流聚类方法

Info

Publication number: CN105005629A
Application number: CN201510488828.0A
Authority: CN
Inventors: 郑相涵; 陈锋情
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2015-10-28
Anticipated expiration: 2035-08-11
Also published as: CN105005629B

Abstract

本发明涉及一种基于混合高斯的SDN流聚类方法，通过对基本高斯混合模型算法进行了改进，引入流的边信息，构造基于边信息等价集约束的高斯混合模型，提高聚类效果，并将其运用到SDN数据流聚类中。本发明使得聚类结果的准确度和聚类速度得到很大的提升。

Description

一种基于混合高斯的SDN流聚类方法

技术领域

本发明涉及SDN数据流聚类，特别是一种基于混合高斯的SDN流聚类方法。

背景技术

软件定义网络(Software Defined Network,SDN)，是Emulex网络一种新型网络创新架构，是网络虚拟化的一种实现方式，其核心技术OpenFlow通过将网络设备控制面与数据面分离开来，从而实现了网络流量的灵活控制，使网络作为管道变得更加智能。

目前在软件定义网络(SDN)环境下，针对SDN流的高效、准确地归类问题的研究还没有很大进展。

发明内容

有鉴于此，本发明的目的是提出一种基于混合高斯的SDN流聚类方法，使得聚类结果的准确度和聚类速度得到很大的提升。

本发明采用以下方案实现：一种基于混合高斯的SDN流聚类方法，具体包括以下步骤；

步骤S1：对原始SDN数据进行五元组记录，并且采用KMeans聚类算法，完成SND数据流与用户之间的映射关系；

步骤S2：利用高斯混合模型GMM以及公式对SDN数据流的概率密度分布进行估计，其中K为高斯模型的个数，a_i为第i个高斯模型的权重，p_i(x|θ_i)为第i个高斯模型的概率密度函数，所述p_i(x|θ_i)的均值为μ_k，方差为σ^k；θ_i＝(μ_i,∑_i)，μ_i,∑_i为待求解的数据生成模型的参数；

步骤S3：采用流持续时间、数据包数量、流大小、数据包大小、数据包间隔时间作为SDN流向量属性，通过边信息获得SDN流等价集；

步骤S4：对高斯混合模型GMM的数据生成模型进行调整；

步骤S5：采用must-link成对点约束和cannot-link成对点约束来辅助聚类。

进一步的，所述步骤S4具体包括以下步骤：

步骤S41：将SDN流边信息的取值空间表示为

Ω = {Y | (y_{1}^{s} = ... = y_{i}^{s} = ... = y_{N s}^{s} = Y_{s}), s = 1, ..., M},

其中，Y＝{y₁,…,y_i,…,y_N}，y_i表示第i个数据点的聚类中心，表示在第s个等价集中第i个数据点的聚类中心，Y_s表示第s个等价集X_s的概率分布，X_s包含N_s条数据流，所有等价集包含的数据条数x＝{x₁,…x_N}表示N条数据流，X＝{X₁,…X_M}表示M个等价集，X_s是X₁至X_M中的其中一个等价集，y_i∈{1,…,K}，K为聚类中心的个数；

步骤S42：建立基于约束最大化的log-likelyhood function：

\begin{matrix} Q^{C} (θ, θ^{g}) = E [\log p (X, Y | Y &Element; Ω, θ) | X, Y &Element; Ω, θ^{g}] \\ = \underset{y &Element; Ω}{Σ} \log p (X, y | y &Element; Ω, θ) P (y | X, y &Element; Ω, θ^{g}) \end{matrix},

根据所述数据生成模型可以得到

\begin{matrix} l o g p (X, y | y &Element; Ω, θ) = l o g p (y | y &Element; Ω, θ) p (X | y, y &Element; Ω, θ) \\ = Σ_{s = 1}^{M} l o g a_{Y_{S}} + Σ_{s = 1}^{M} l o g p (X_{S} | Y_{S}, y &Element; Ω, θ) \end{matrix},

边缘概率分布为：

P (y | X, y &Element; Ω, θ^{g}) = \frac{P (y &Element; Ω | X, y, θ^{g}) P (y | X, θ^{g})}{P (y &Element; Ω | X, θ^{g})} = \frac{Π_{s = 1}^{M} δ_{Y_{S}} P (Y_{S} | X_{S}, θ^{g})}{\underset{Y_{1}}{Σ} ... \underset{Y_{M}}{Σ} Π_{j = 1}^{M} δ_{Y_{j}} P (Y_{j} | X_{j}, θ^{g})},

δ_{Y_{j}} = \{\begin{matrix} 1, & y_{1}^{j} = ... = y_{N_{j}}^{j} \\ 0, & o t h e r w i s e \end{matrix};

其中θ^g是当前参数估计，θ是迭代计算后的参数估计，X表示等价集，Y为等价集在各个聚类中心点的分布概率，y＝y_i，表示每一个聚类中心的先验概率；

步骤S43：将log-likelyhood function简化为其中，每一个等价集的后验概率计算定义如下：

\begin{matrix} P (Y_{s} = l | X_{s}, y &Element; Ω, θ^{g}) &equiv; P (y_{1}^{s} = l, ... y_{N l}^{s} = l | X_{s}, y &Element; Ω, θ^{g}) \\ = \frac{Π_{n = 1}^{N_{s}} [a_{l}^{g} p_{l} (x_{n}^{s} | θ_{l}^{g})]}{Σ_{j = 1}^{K} Π_{n = 1}^{N_{s}} [[a_{j}^{g} p_{j} (x_{n}^{s} | θ_{l}^{g})]]} \end{matrix},

其中为当前l类的权重，表示当前参数估计下x的概率，为等价集X_s的元素，表示旧的参数估计，θ_l表示新的参数估计，l表示第l的聚类中心；

步骤S44：使用带约束的最大似然估计的方法求解数据生成模型的参数，使得Q^C(θ,θ^g)的取值最大化；其中其中表示等价集X_s的元素；

Σ_{i} = \frac{Σ_{s = 1}^{M} P (l | X_{s}, y &Element; Ω, θ^{g}) Σ_{n = 1}^{N_{s}} (x_{n}^{s} - μ_{i}) {(x_{n}^{s} - μ_{i})}^{T}}{Σ_{s = 1}^{M} P (l | X_{s}, y &Element; Ω, θ^{g}) N_{S}};

a_{i} = \frac{1}{M} Σ_{s = 1}^{M} P (l | X_{s}, y &Element; Ω, θ^{g}) .

进一步的，所述的五元组包括源IP、源端口、目标IP、目标端口以及协议。

进一步的，所述的SDN流等价集为独立同分布。

进一步的，所述边信息SDN流的目标ip、目标端口、协议。

与现有技术相比，本发明有以下有益效果：因此本发明引入半监督式聚类算法，根据用户历史数据，分析数据包与数据关联特征。本发明是通过对基本高斯混合模型算法进行了改进，引入流的边信息，构造基于边信息等价集约束的高斯混合模型，提高聚类效果，并将其运用到SDN数据流聚类中。本发明的基于边信息等价集约束的高斯混合模型比较与高斯混合模型以及K-Means聚类结果准确度和聚类速度均有较大的提升。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本实施例提供了一种基于混合高斯的SDN流聚类方法，具体包括以下步骤；

步骤S4：对高斯混合模型GMM的数据生成模型进行调整；

在本实施例中，所述步骤S4具体包括以下步骤：

步骤S41：将SDN流边信息的取值空间表示为

Ω = {Y | (y_{1}^{s} = ... = y_{i}^{s} = ... = y_{N s}^{s} = Y_{s}), s = 1, ..., M},

步骤S42：建立基于约束最大化的log-likelyhood function：

\begin{matrix} Q^{C} (θ, θ^{g}) = E [\log p (X, Y | Y &Element; Ω, θ) | X, Y &Element; Ω, θ^{g}] \\ = \underset{y &Element; Ω}{Σ} \log p (X, y | y &Element; Ω, θ) P (y | X, y &Element; Ω, θ^{g}) \end{matrix},

根据所述数据生成模型可以得到

\begin{matrix} l o g p (X, y | y &Element; Ω, θ) = l o g p (y | y &Element; Ω, θ) p (X | y, y &Element; Ω, θ) \\ = Σ_{s = 1}^{M} l o g a_{Y_{S}} + Σ_{s = 1}^{M} l o g p (X_{S} | Y_{S}, y &Element; Ω, θ) \end{matrix},

边缘概率分布为：

P (y | X, y &Element; Ω, θ^{g}) = \frac{P (y &Element; Ω | X, y, θ^{g}) P (y | X, θ^{g})}{P (y &Element; Ω | X, θ^{g})} = \frac{Π_{s = 1}^{M} δ_{Y_{S}} P (Y_{S} | X_{S}, θ^{g})}{\underset{Y_{1}}{Σ} ... \underset{Y_{M}}{Σ} Π_{j = 1}^{M} δ_{Y_{j}} P (Y_{j} | X_{j}, θ^{g})},

δ_{Y_{j}} = \{\begin{matrix} 1, & y_{1}^{j} = ... = y_{N_{j}}^{j} \\ 0, & o t h e r w i s e \end{matrix};

步骤S43：将log-likelyhood function简化为

\begin{matrix} Q^{C} (θ, θ^{g}) = Σ_{s = 1}^{M} Σ_{l = 1}^{K} P (Y_{s} = l | X_{s}, y &Element; Ω, θ^{g}) Σ_{n = 1}^{N_{s}} l o g p_{l} (x_{n}^{s} | θ_{l}) \\ + Σ_{s = 1}^{M} Σ_{l = 1}^{K} P (Y_{s} = l | X_{s}, y &Element; Ω, θ^{g}) N_{s} l o g a_{l} \end{matrix},

其中，每一个等价集的后验概率计算定义如下：

\begin{matrix} P (Y_{s} = l | X_{s}, y &Element; Ω, θ^{g}) &equiv; P (y_{1}^{s} = l, ... y_{N l}^{s} = l | X_{s}, y &Element; Ω, θ^{g}) \\ = \frac{Π_{n = 1}^{N_{s}} [a_{l}^{g} p_{l} (x_{n}^{s} | θ_{l}^{g})]}{Σ_{j = 1}^{K} Π_{n = 1}^{N_{s}} [[a_{j}^{g} p_{j} (x_{n}^{s} | θ_{l}^{g})]]} \end{matrix},

Σ_{i} = \frac{Σ_{s = 1}^{M} P (l | X_{s}, y &Element; Ω, θ^{g}) Σ_{n = 1}^{N_{s}} (x_{n}^{s} - μ_{i}) {(x_{n}^{s} - μ_{i})}^{T}}{Σ_{s = 1}^{M} P (l | X_{s}, y &Element; Ω, θ^{g}) N_{S}};

a_{i} = \frac{1}{M} Σ_{s = 1}^{M} P (l | X_{s}, y &Element; Ω, θ^{g}) .

在本实施例中，所述的五元组包括源IP、源端口、目标IP、目标端口以及协议。

在本实施例中，所述的SDN流等价集为独立同分布。

在本实施例中，所述边信息SDN流的目标ip、目标端口、协议。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于混合高斯的SDN流聚类方法，其特征在于包括以下步骤；

步骤S2：利用高斯混合模型GMM以及公式对SDN数据流的概率密度分布进行估计，其中K为高斯模型的个数，a_i为第i个高斯模型的权重，p_i(x|θ_i)为第i个高斯模型的概率密度函数，所述p_i(x|θ_i)的均值为μ_k，方差为σ^k；θ_i＝(μ_i,Σ_i)，μ_i，Σ_i为待求解的数据生成模型的参数；

步骤S4：对高斯混合模型GMM的数据生成模型进行调整；

2.根据权利要求1所述的一种基于混合高斯的SDN流聚类方法，其特征在于：所述步骤S4具体包括以下步骤：

步骤S41：将SDN流边信息的取值空间表示为

Ω = {Y | (y_{1}^{s} = ... = y_{i}^{s} = ... = y_{N s}^{s} = Y_{s}), s = 1, ..., M},

步骤S42：建立基于约束最大化的log-likelyhood function：

\begin{matrix} Q^{C} (θ, θ^{g}) = E [\log p (X, Y | Y &Element; Ω, θ) | X, Y &Element; Ω, θ^{g}] \\ = \underset{y &Element; Ω}{Σ} \log p (X, y | y &Element; Ω, θ) P (y | X, y &Element; Ω, θ^{g}) \end{matrix},

根据所述数据生成模型可以得到

\begin{matrix} l o g p (X, y | y &Element; Ω, θ) = l o g p (y | y &Element; Ω, θ) p (X | y, y &Element; Ω, θ) \\ = Σ_{s = 1}^{M} l o g a_{Y_{S}} + Σ_{s = 1}^{M} l o g p (X_{S} | Y_{S}, y &Element; Ω, θ) \end{matrix},

边缘概率分布为：

P (y | X, y &Element; Ω, θ^{g}) = \frac{P (y &Element; Ω | X, y, θ^{g}) P (y | X, θ^{g})}{P (y &Element; Ω | X, θ^{g})} = \frac{Π_{s = 1}^{M} δ_{Y_{S}} P (Y_{S} | X_{S}, θ^{g})}{\underset{Y_{1}}{Σ} ... \underset{Y_{M}}{Σ} Π_{j = 1}^{M} δ_{Y_{j}} P (Y_{j} | X_{j}, θ^{g})},

δ_{Y_{j}} = \{\begin{matrix} 1, & y_{1}^{j} = ... = y_{N_{j}}^{j} \\ 0, & o t h e r w i s e \end{matrix};

步骤S43：将log-likelyhood function简化为

\begin{matrix} Q^{C} (θ, θ^{g}) = Σ_{s = 1}^{M} Σ_{l = 1}^{K} P (Y_{s} = l | X_{s}, y &Element; Ω, θ^{g}) Σ_{n = 1}^{N_{s}} l o g p_{l} (x_{n}^{s} | θ_{l}) \\ + Σ_{s = 1}^{M} Σ_{l = 1}^{K} P (Y_{s} = l | X_{s}, y &Element; Ω, θ^{g}) N_{s} l o g a_{l} \end{matrix},

其中，每一个等价集的后验概率计算定义如下：

\begin{matrix} P (Y_{s} = l | X_{s}, y &Element; Ω, θ^{g}) &equiv; P (y_{1}^{s} = l, ... y_{N l}^{s} = l | X_{s}, y &Element; Ω, θ^{g}) \\ = \frac{Π_{n = 1}^{N_{s}} [a_{l}^{g} p_{l} (x_{n}^{s} | θ_{l}^{g})]}{Σ_{j = 1}^{K} Π_{n = 1}^{N_{s}} [[a_{j}^{g} p_{j} (x_{n}^{s} | θ_{l}^{g})]]} \end{matrix},

步骤S44：使用带约束的最大似然估计的方法求解数据生成模型的参数，使得Q^C(θ,θ^g)的取值最大化；其中其中表示等价集Xs的元素；

Σ_{i} = \frac{Σ_{s = 1}^{M} P (l | X_{s}, y &Element; Ω, θ^{g}) Σ_{n = 1}^{N_{s}} (x_{n}^{s} - μ_{i}) {(x_{n}^{s} - μ_{i})}^{T}}{Σ_{s = 1}^{M} P (l | X_{s}, y &Element; Ω, θ^{g}) N_{S}};

a_{i} = \frac{1}{M} Σ_{s = 1}^{M} P (l | X_{s}, y &Element; Ω, θ^{g}) .

3.根据权利要求1所述的一种基于混合高斯的SDN流聚类方法，其特征在于：所述的五元组包括源IP、源端口、目标IP、目标端口以及协议。

4.根据权利要求1所述的一种基于混合高斯的SDN流聚类方法，其特征在于：所述的SDN流等价集为独立同分布。

5.根据权利要求1所述的一种基于混合高斯的SDN流聚类方法，其特征在于：所述边信息SDN流的目标ip、目标端口、协议。