CN102495876A

CN102495876A - 一种基于非负局部坐标分解的聚类方法

Info

Publication number: CN102495876A
Application number: CN2011103946863A
Authority: CN
Inventors: 何晓飞; 陈琰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-12-02
Filing date: 2011-12-02
Publication date: 2012-06-13

Abstract

本发明公开了一种基于非负局部坐标分解的聚类方法，包括：(1)构建样本特征矩阵；(2)迭代输出低维稀疏矩阵；(3)对低维稀疏矩阵聚类分析。本发明通过在NMF过程中引入稀疏编码的理念，对高维样本特征矩阵进行非负局部坐标分解，使分解得到的系数矩阵作为高维样本特征矩阵的低维表示，对该低维矩阵进行聚类分析，可使得聚类分析变得简单而有效；同时本发明降维后的数据具有良好的可解释性，且相对于现有技术的降维方法，能够使得聚类分析的判别能力得到进一步的提高。

Description

一种基于非负局部坐标分解的聚类方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于非负局部坐标分解的聚类方法。

背景技术

聚类是机器学***均消费来鉴定汽车保险单持有者的分组，同时根据住宅类型，价值，地理位置来鉴定一个城市的房产分组；在互联网应用中，聚类分析被用来对网络中的文档进行归类，对虚拟社区中的用户进行分组。

常见的聚类分析方法主要包括如下几种：

(1)***法，又称划分方法，首先创建K个划分，K为要创建的划分的个数；然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有：Kmeans、Kmedoids和CLARA(Clustering LARgeApplication)等。

(2)层次法，通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。典型的层次方法有：BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)、CURE(Clustering Using REprisentatives)和CHEMALOEN等。

(3)基于密度的方法，根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有：DBSCAN(Densit-based SpatialClustering of Application with Noise)和OPTICS(Ordering Points To Identity theClustering Structure)。

(4)基于网格的方法，首先将对象空间划分为有限个单元以构成网格结构，然后利用网格结构完成聚类。

(5)基于模型的方法，它假设每个聚类的模型并发现适合相应模型的数据。

这些传统的聚类方法已经比较成功的解决了低维数据的聚类问题，但是由于实际应用中数据的复杂性，在处理许多高维数据时经常失效。因为传统聚类方法对高维数据集中进行聚类时，主要遇到两个问题：(1)高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零；(2)高维带来的维度灾难使得某些聚类算法的实用性几乎为零。

针对以上两个问题，也就是为了解决维数灾难和消除数据中对于聚类来说不必要的冗余信息，在进行聚类之前，先进行数据降维是必要的。目前主要的降维方法有：

(1)主成分分析(Principal Component Analysis，PCA)：经典的无监督线性降维方法。其是一种掌握事物主要特征的方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。

(2)线性判别分析(Linear DiscriminantAnalysis，LDA)：经典的有监督降维方法。这种方法能够在低维子空间中保持类的相关结构，适用于以分类和识别为目的的降维，但重构效果不如PCA方法。

(3)非负矩阵分解(Nonnegative Matrix Factorization，NMF)：非负矩阵分解法通过将数据矩阵分解为基矩阵U和系数矩阵V来达到降维的目的，在矩阵分解过程中非负矩阵分解保持了基矩阵和系数矩阵的非负性。

PCA是传统而经典的无监督降维方法，目前已经广泛应用于各种应用，该方法可以有效地找出数据的主要特征，但是不能有效地提取出数据的类别特征；LDA作为一种有监督的降维方法，尽管效果不错，但该方法需要大量的含有标签信息的数据作为训练数据，故其只适合于作为分类的降维手段，并不适合于作为聚类分析的降维手段；NMF作为一种基本的降维框架，其降维得到的数据具有良好的可解释性而成为目前的热点，但其降维后进行聚类分析，效果并不理想，聚类分析时的判别能力仍有提高的空间。

发明内容

针对现有技术所存在的上述技术缺陷，本发明提供了一种基于非负局部坐标分解的聚类方法，能够改善聚类分析的效果，提高聚类分析的判别能力。

一种基于非负局部坐标分解的聚类方法，包括如下步骤：

(1)获取样本集合，进而构建样本集合的样本特征矩阵；

(2)根据所述的样本特征矩阵，通过非负局部坐标分解迭代算法求解出样本集合的低维稀疏矩阵；

(3)对所述的低维稀疏矩阵进行聚类。

所述的步骤(2)中，通过以下迭代方程组，求解出样本集合的低维稀疏矩阵；

u_{(j, p)}^{t} = u_{(j, p)}^{t - 1} \frac{{(X {(V^{t - 1})}^{T} + μ Σ_{i = 1}^{n} x_{i} l^{T} Λ_{i}^{t - 1})}_{(j, p)}}{{(U^{t - 1} V^{t - 1} {(V^{t - 1})}^{T} + μ Σ_{i = 1}^{n} U^{t - 1} Λ_{i}^{t - 1})}_{(j, p)}}

v_{(p, i)}^{t} = v_{(p, i)}^{t - 1} \frac{2 (μ + 1) {({(U^{t})}^{T} X)}_{(p, i)}}{{(2 {(U^{t})}^{T} U^{t} V^{t - 1} + μC + μ D^{t})}_{(p, i)}}

Σ_{i = 1}^{n} ({| | x_{i} - U^{t} v_{i}^{t} | |}^{2} + μ Σ_{p = 1}^{k} | v_{(p, i)}^{t} | {| | u_{p}^{t} - x_{i} | |}^{2}) < ρ

其中：X为m×n维的样本特征矩阵，n为样本个数，m为样本的特征个数，X中的元素值为样本各特征的特征值，U为m×k维的基矩阵，V为k×n维的系数矩阵，k为聚类个数；U^t和V^t分别为t次迭代后的基矩阵和系数矩阵，U⁰和V⁰分别为随机非负初始化的基矩阵和系数矩阵，为U^t中第j行第p列的元素值，

为V^t中第p行第i列的元素值；

为V^t-1中的第i列向量，

为U^t中的第p列向量，x_i为X中的第i列向量；μ为稀疏因子且为实际经验值，l为k维的元素值均为1的列向量，ρ为收敛阈值且为实际经验值；C和D^t均为k×n维的矩阵，其中，C中的行向量均为c^T，c＝diag(X^TX)，D^t中的列向量均为d^t，d^t＝diag((U^t)^TU^t)。

当迭代收敛或达到最大迭代次数，则对应的V^t即为样本集合的低维稀疏矩阵。

所述的步骤(3)中，对低维稀疏矩阵进行聚类的过程为：分析低维稀疏矩阵每一列向量中的最大元素值，若第i列向量中的最大元素值为第p行，则第i列向量所对应的样本归属于第p类。

本发明通过在NMF过程中引入稀疏编码的理念，对高维样本特征矩阵进行非负局部坐标分解，使分解得到的系数矩阵作为高维样本特征矩阵的低维表示，对该低维矩阵进行聚类分析，可使得聚类分析变得简单而有效；同时本发明降维后的数据具有良好的可解释性，且相对于现有技术的降维方法，能够使得聚类分析的判别能力得到进一步的提高。

附图说明

图1为本发明聚类方法的步骤流程示意图。

图2(a)为Kmeans、NMF、NMF-SC和本发明四种聚类方法的精确度曲线图。

图2(b)为Kmeans、NMF、NMF-SC和本发明四种聚类方法的标准化互信息曲线图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的聚类方法进行详细说明。

如图1所示，一种基于非负局部坐标分解的聚类方法，包括如下步骤：

(1)构建样本特征矩阵。

本实施方式以ORL人脸数据集为例，该数据集合的统计信息如表1所示。

表1：ORL人脸数据集统计信息

数据集	人脸图像帧数	人脸类别数	图像特征个数
				ORL	400	40	1024

其中，ORL人脸数据集中有400帧人脸图像，400帧人脸图像由40个不同相貌的人的人脸图像组成(每个人各10帧人脸图像)。

选取ORL人脸数据集中两类实例作为原始的高维数据集合，并构建对应的样本特征矩阵X，X为m×n维矩阵，n为样本个数(即图像帧数)，m为样本的特征个数，样本特征矩阵中的元素值为样本各特征的特征值；n＝2×10＝20，m＝1024。

(2)迭代输出低维稀疏矩阵。

根据样本特征矩阵X，通过以下非负局部坐标分解迭代算法求解出样本集合的低维稀疏矩阵；

u_{(j, p)}^{t} = u_{(j, p)}^{t - 1} \frac{{(X {(V^{t - 1})}^{T} + μ Σ_{i = 1}^{n} x_{i} l^{T} Λ_{i}^{t - 1})}_{(j, p)}}{{(U^{t - 1} V^{t - 1} {(V^{t - 1})}^{T} + μ Σ_{i = 1}^{n} U^{t - 1} Λ_{i}^{t - 1})}_{(j, p)}}

v_{(p, i)}^{t} = v_{(p, i)}^{t - 1} \frac{2 (μ + 1) {({(U^{t})}^{T} X)}_{(p, i)}}{{(2 {(U^{t})}^{T} U^{t} V^{t - 1} + μC + μ D^{t})}_{(p, i)}}

Σ_{i = 1}^{n} ({| | x_{i} - U^{t} v_{i}^{t} | |}^{2} + μ Σ_{p = 1}^{k} | v_{(p, i)}^{t} | {| | u_{p}^{t} - x_{i} | |}^{2}) < ρ

其中：U为m×k维的基矩阵，V为k×n维的系数矩阵，k为聚类个数，本实施例中k＝2；U^t和V^t分别为t次迭代后的基矩阵和系数矩阵，U⁰和V⁰分别为随机非负初始化的基矩阵和系数矩阵，

为U^t中第j行第p列的元素值，

为V^t中第p行第i列的元素值；

为V^t-1中的第i列向量，为U^t中的第p列向量，x_i为X中的第i列向量；μ为稀疏因子，本实施例中μ＝1，l为k维的元素值均为1的列向量，ρ为收敛阈值，本实施例中ρ＝10^-7；C和D^t均为k×n维的矩阵，其中，C中的行向量均为c^T，c＝diag(X^TX)，D^t中的列向量均为d^t，d^t＝diag((U^t)^TU^t)。

当迭代收敛或达到最大迭代次数，则对应的V^t即为样本集合的低维稀疏矩阵，本实施例中最大迭代次数为200。

(3)对低维稀疏矩阵聚类分析。

分析低维稀疏矩阵每一列向量中的最大元素值，若第i列向量中的最大元素值为第p行，则第i列向量所对应的样本归属于第p类。

以下依次使聚类个数k＝2，4，8，12，16，20，25，30，40，通过分析精确度(accuracy，简写为AC)和标准化互信息(normalized mutual information，简写为

)两个指标来比较Kmeans(未降维)聚类、NMF(非负矩阵分解)聚类、NMF-SC(带稀疏限制的非负矩阵分解)聚类和本实施方式四种聚类方法下的聚类效果；最终的数据结果如表2和图2所示。

精确度是用来计量正确标记的数据的百分比：

标准化互信息是用来度量两个集合之间的相关性的信息度量，给定两个集合C和C′：

MI (C, C^{'}) = \underset{c_{i} &Element; C, c_{j}^{'} &Element; C^{'}}{Σ} p (c_{i}, c_{j}^{'}) \cdot \log \frac{p (c_{i}, c_{j}^{'})}{p (c_{i}) \cdot p (c_{j}^{'})}

\hat{MI} (C, C^{'}) = \frac{MI (C, C^{'})}{\max (H (C), H (C^{'}))}

其中：p(c_i)，p(c′_j)表示从数据集中任意选取某一数据，分别属于c_i，c′_j的概率，p(c_i，c′_j)则表示同时属于两类的概率；H(C)和H(C′)分别表示C和C′的熵。

表2：Kmeans、NMF、NMF-SC和本实施方式四种聚类方法的指标数据

由表2和图2可见，本实施方式相比现有技术的三种聚类方法，聚类的效果和判别能力能够得到明显的改善和提高。

Claims

1.一种基于非负局部坐标分解的聚类方法，包括如下步骤：

(1)获取样本集合，进而构建样本集合的样本特征矩阵；

(3)对所述的低维稀疏矩阵进行聚类。

2.根据权利要求1所述的基于非负局部坐标分解的聚类方法，其特征在于：所述的步骤(2)中，通过以下迭代方程组，求解出样本集合的低维稀疏矩阵；

u_{(j, p)}^{t} = u_{(j, p)}^{t - 1} \frac{{(X {(V^{t - 1})}^{T} + μ Σ_{i = 1}^{n} x_{i} l^{T} Λ_{i}^{t - 1})}_{(j, p)}}{{(U^{t - 1} V^{t - 1} {(V^{t - 1})}^{T} + μ Σ_{i = 1}^{n} U^{t - 1} Λ_{i}^{t - 1})}_{(j, p)}}

v_{(p, i)}^{t} = v_{(p, i)}^{t - 1} \frac{2 (μ + 1) {({(U^{t})}^{T} X)}_{(p, i)}}{{(2 {(U^{t})}^{T} U^{t} V^{t - 1} + μC + μ D^{t})}_{(p, i)}}

Σ_{i = 1}^{n} ({| | x_{i} - U^{t} v_{i}^{t} | |}^{2} + μ Σ_{p = 1}^{k} | v_{(p, i)}^{t} | {| | u_{p}^{t} - x_{i} | |}^{2}) < ρ

其中：X为样本特征矩阵，U为基矩阵，V为系数矩阵；U^t和V^t分别为t次迭代后的基矩阵和系数矩阵，U⁰和V⁰分别为随机非负初始化的基矩阵和系数矩阵，

为U^t中第j行第p列的元素值，

为V^t中第p行第i列的元素值；

为V^t-1中的第i列向量，

为U^t中的第p列向量，x_i为X中的第i列向量；μ为稀疏因子，l为元素值均为1的列向量，ρ为收敛阈值；C和D^t均为矩阵，其中，C中的行向量均为c^T，c＝diag(X^TX)，D^t中的列向量均为d^t，d^t＝diag((U^t)^TU^t)；当迭代收敛或达到最大迭代次数，则对应的V^t即为样本集合的低维稀疏矩阵。

3.根据权利要求1所述的基于非负局部坐标分解的聚类方法，其特征在于：所述的步骤(3)中，对低维稀疏矩阵进行聚类的过程为：分析低维稀疏矩阵每一列向量中的最大元素值，若第i列向量中的最大元素值为第p行，则第i列向量所对应的样本归属于第p类。