CN102495876A - 一种基于非负局部坐标分解的聚类方法 - Google Patents
一种基于非负局部坐标分解的聚类方法 Download PDFInfo
- Publication number
- CN102495876A CN102495876A CN2011103946863A CN201110394686A CN102495876A CN 102495876 A CN102495876 A CN 102495876A CN 2011103946863 A CN2011103946863 A CN 2011103946863A CN 201110394686 A CN201110394686 A CN 201110394686A CN 102495876 A CN102495876 A CN 102495876A
- Authority
- CN
- China
- Prior art keywords
- matrix
- column vector
- local coordinate
- low
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 72
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000007621 cluster analysis Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 6
- 238000000513 principal component analysis Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于非负局部坐标分解的聚类方法,包括:(1)构建样本特征矩阵;(2)迭代输出低维稀疏矩阵;(3)对低维稀疏矩阵聚类分析。本发明通过在NMF过程中引入稀疏编码的理念,对高维样本特征矩阵进行非负局部坐标分解,使分解得到的系数矩阵作为高维样本特征矩阵的低维表示,对该低维矩阵进行聚类分析,可使得聚类分析变得简单而有效;同时本发明降维后的数据具有良好的可解释性,且相对于现有技术的降维方法,能够使得聚类分析的判别能力得到进一步的提高。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种基于非负局部坐标分解的聚类方法。
背景技术
聚类是机器学***均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在互联网应用中,聚类分析被用来对网络中的文档进行归类,对虚拟社区中的用户进行分组。
常见的聚类分析方法主要包括如下几种:
(1)***法,又称划分方法,首先创建K个划分,K为要创建的划分的个数;然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有:Kmeans、Kmedoids和CLARA(Clustering LARgeApplication)等。
(2)层次法,通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的层次方法有:BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)、CURE(Clustering Using REprisentatives)和CHEMALOEN等。
(3)基于密度的方法,根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有:DBSCAN(Densit-based SpatialClustering of Application with Noise)和OPTICS(Ordering Points To Identity theClustering Structure)。
(4)基于网格的方法,首先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类。
(5)基于模型的方法,它假设每个聚类的模型并发现适合相应模型的数据。
这些传统的聚类方法已经比较成功的解决了低维数据的聚类问题,但是由于实际应用中数据的复杂性,在处理许多高维数据时经常失效。因为传统聚类方法对高维数据集中进行聚类时,主要遇到两个问题:(1)高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;(2)高维带来的维度灾难使得某些聚类算法的实用性几乎为零。
针对以上两个问题,也就是为了解决维数灾难和消除数据中对于聚类来说不必要的冗余信息,在进行聚类之前,先进行数据降维是必要的。目前主要的降维方法有:
(1)主成分分析(Principal Component Analysis,PCA):经典的无监督线性降维方法。其是一种掌握事物主要特征的方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。
(2)线性判别分析(Linear DiscriminantAnalysis,LDA):经典的有监督降维方法。这种方法能够在低维子空间中保持类的相关结构,适用于以分类和识别为目的的降维,但重构效果不如PCA方法。
(3)非负矩阵分解(Nonnegative Matrix Factorization,NMF):非负矩阵分解法通过将数据矩阵分解为基矩阵U和系数矩阵V来达到降维的目的,在矩阵分解过程中非负矩阵分解保持了基矩阵和系数矩阵的非负性。
PCA是传统而经典的无监督降维方法,目前已经广泛应用于各种应用,该方法可以有效地找出数据的主要特征,但是不能有效地提取出数据的类别特征;LDA作为一种有监督的降维方法,尽管效果不错,但该方法需要大量的含有标签信息的数据作为训练数据,故其只适合于作为分类的降维手段,并不适合于作为聚类分析的降维手段;NMF作为一种基本的降维框架,其降维得到的数据具有良好的可解释性而成为目前的热点,但其降维后进行聚类分析,效果并不理想,聚类分析时的判别能力仍有提高的空间。
发明内容
针对现有技术所存在的上述技术缺陷,本发明提供了一种基于非负局部坐标分解的聚类方法,能够改善聚类分析的效果,提高聚类分析的判别能力。
一种基于非负局部坐标分解的聚类方法,包括如下步骤:
(1)获取样本集合,进而构建样本集合的样本特征矩阵;
(2)根据所述的样本特征矩阵,通过非负局部坐标分解迭代算法求解出样本集合的低维稀疏矩阵;
(3)对所述的低维稀疏矩阵进行聚类。
所述的步骤(2)中,通过以下迭代方程组,求解出样本集合的低维稀疏矩阵;
其中:X为m×n维的样本特征矩阵,n为样本个数,m为样本的特征个数,X中的元素值为样本各特征的特征值,U为m×k维的基矩阵,V为k×n维的系数矩阵,k为聚类个数;Ut和Vt分别为t次迭代后的基矩阵和系数矩阵,U0和V0分别为随机非负初始化的基矩阵和系数矩阵,为Ut中第j行第p列的元素值,为Vt中第p行第i列的元素值; 为Vt-1中的第i列向量,为Ut中的第p列向量,xi为X中的第i列向量;μ为稀疏因子且为实际经验值,l为k维的元素值均为1的列向量,ρ为收敛阈值且为实际经验值;C和Dt均为k×n维的矩阵,其中,C中的行向量均为cT,c=diag(XTX),Dt中的列向量均为dt,dt=diag((Ut)TUt)。
当迭代收敛或达到最大迭代次数,则对应的Vt即为样本集合的低维稀疏矩阵。
所述的步骤(3)中,对低维稀疏矩阵进行聚类的过程为:分析低维稀疏矩阵每一列向量中的最大元素值,若第i列向量中的最大元素值为第p行,则第i列向量所对应的样本归属于第p类。
本发明通过在NMF过程中引入稀疏编码的理念,对高维样本特征矩阵进行非负局部坐标分解,使分解得到的系数矩阵作为高维样本特征矩阵的低维表示,对该低维矩阵进行聚类分析,可使得聚类分析变得简单而有效;同时本发明降维后的数据具有良好的可解释性,且相对于现有技术的降维方法,能够使得聚类分析的判别能力得到进一步的提高。
附图说明
图1为本发明聚类方法的步骤流程示意图。
图2(a)为Kmeans、NMF、NMF-SC和本发明四种聚类方法的精确度曲线图。
图2(b)为Kmeans、NMF、NMF-SC和本发明四种聚类方法的标准化互信息曲线图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的聚类方法进行详细说明。
如图1所示,一种基于非负局部坐标分解的聚类方法,包括如下步骤:
(1)构建样本特征矩阵。
本实施方式以ORL人脸数据集为例,该数据集合的统计信息如表1所示。
表1:ORL人脸数据集统计信息
数据集 | 人脸图像帧数 | 人脸类别数 | 图像特征个数 |
ORL | 400 | 40 | 1024 |
其中,ORL人脸数据集中有400帧人脸图像,400帧人脸图像由40个不同相貌的人的人脸图像组成(每个人各10帧人脸图像)。
选取ORL人脸数据集中两类实例作为原始的高维数据集合,并构建对应的样本特征矩阵X,X为m×n维矩阵,n为样本个数(即图像帧数),m为样本的特征个数,样本特征矩阵中的元素值为样本各特征的特征值;n=2×10=20,m=1024。
(2)迭代输出低维稀疏矩阵。
根据样本特征矩阵X,通过以下非负局部坐标分解迭代算法求解出样本集合的低维稀疏矩阵;
其中:U为m×k维的基矩阵,V为k×n维的系数矩阵,k为聚类个数,本实施例中k=2;Ut和Vt分别为t次迭代后的基矩阵和系数矩阵,U0和V0分别为随机非负初始化的基矩阵和系数矩阵,为Ut中第j行第p列的元素值,为Vt中第p行第i列的元素值; 为Vt-1中的第i列向量,为Ut中的第p列向量,xi为X中的第i列向量;μ为稀疏因子,本实施例中μ=1,l为k维的元素值均为1的列向量,ρ为收敛阈值,本实施例中ρ=10-7;C和Dt均为k×n维的矩阵,其中,C中的行向量均为cT,c=diag(XTX),Dt中的列向量均为dt,dt=diag((Ut)TUt)。
当迭代收敛或达到最大迭代次数,则对应的Vt即为样本集合的低维稀疏矩阵,本实施例中最大迭代次数为200。
(3)对低维稀疏矩阵聚类分析。
分析低维稀疏矩阵每一列向量中的最大元素值,若第i列向量中的最大元素值为第p行,则第i列向量所对应的样本归属于第p类。
以下依次使聚类个数k=2,4,8,12,16,20,25,30,40,通过分析精确度(accuracy,简写为AC)和标准化互信息(normalized mutual information,简写为)两个指标来比较Kmeans(未降维)聚类、NMF(非负矩阵分解)聚类、NMF-SC(带稀疏限制的非负矩阵分解)聚类和本实施方式四种聚类方法下的聚类效果;最终的数据结果如表2和图2所示。
精确度是用来计量正确标记的数据的百分比:
标准化互信息是用来度量两个集合之间的相关性的信息度量,给定两个集合C和C′:
其中:p(ci),p(c′j)表示从数据集中任意选取某一数据,分别属于ci,c′j的概率,p(ci,c′j)则表示同时属于两类的概率;H(C)和H(C′)分别表示C和C′的熵。
表2:Kmeans、NMF、NMF-SC和本实施方式四种聚类方法的指标数据
由表2和图2可见,本实施方式相比现有技术的三种聚类方法,聚类的效果和判别能力能够得到明显的改善和提高。
Claims (3)
1.一种基于非负局部坐标分解的聚类方法,包括如下步骤:
(1)获取样本集合,进而构建样本集合的样本特征矩阵;
(2)根据所述的样本特征矩阵,通过非负局部坐标分解迭代算法求解出样本集合的低维稀疏矩阵;
(3)对所述的低维稀疏矩阵进行聚类。
2.根据权利要求1所述的基于非负局部坐标分解的聚类方法,其特征在于:所述的步骤(2)中,通过以下迭代方程组,求解出样本集合的低维稀疏矩阵;
3.根据权利要求1所述的基于非负局部坐标分解的聚类方法,其特征在于:所述的步骤(3)中,对低维稀疏矩阵进行聚类的过程为:分析低维稀疏矩阵每一列向量中的最大元素值,若第i列向量中的最大元素值为第p行,则第i列向量所对应的样本归属于第p类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103946863A CN102495876A (zh) | 2011-12-02 | 2011-12-02 | 一种基于非负局部坐标分解的聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103946863A CN102495876A (zh) | 2011-12-02 | 2011-12-02 | 一种基于非负局部坐标分解的聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102495876A true CN102495876A (zh) | 2012-06-13 |
Family
ID=46187701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103946863A Pending CN102495876A (zh) | 2011-12-02 | 2011-12-02 | 一种基于非负局部坐标分解的聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102495876A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834746A (zh) * | 2015-05-23 | 2015-08-12 | 华东交通大学 | 基于图形处理单元的异构特征时序数据演化聚类方法 |
CN105095275A (zh) * | 2014-05-13 | 2015-11-25 | 中国科学院自动化研究所 | 文档聚类的方法及装置 |
CN107368913A (zh) * | 2017-06-15 | 2017-11-21 | 中国汽车技术研究中心 | 一种基于最小二乘支持向量机的油耗预测方法 |
CN107480685A (zh) * | 2016-06-08 | 2017-12-15 | 国家计算机网络与信息安全管理中心 | 一种基于GraphX的分布式幂迭代聚类方法和装置 |
CN108664368A (zh) * | 2017-03-30 | 2018-10-16 | 华为技术有限公司 | 处理器性能指标评估方法及设备 |
CN109118469A (zh) * | 2018-06-20 | 2019-01-01 | 国网浙江省电力有限公司 | 用于视频显著性的预测方法 |
CN109754008A (zh) * | 2018-12-28 | 2019-05-14 | 上海理工大学 | 基于矩阵分解的高维对称稀疏网络缺失信息的估计方法 |
CN113408548A (zh) * | 2021-07-14 | 2021-09-17 | 贵州电网有限责任公司电力科学研究院 | 变压器异常数据检测方法、装置、计算机设备和存储介质 |
-
2011
- 2011-12-02 CN CN2011103946863A patent/CN102495876A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095275B (zh) * | 2014-05-13 | 2019-04-05 | 中国科学院自动化研究所 | 文档聚类的方法及装置 |
CN105095275A (zh) * | 2014-05-13 | 2015-11-25 | 中国科学院自动化研究所 | 文档聚类的方法及装置 |
CN104834746B (zh) * | 2015-05-23 | 2017-12-12 | 华东交通大学 | 基于图形处理单元的异构特征时序数据演化聚类方法 |
CN104834746A (zh) * | 2015-05-23 | 2015-08-12 | 华东交通大学 | 基于图形处理单元的异构特征时序数据演化聚类方法 |
CN107480685B (zh) * | 2016-06-08 | 2021-02-23 | 国家计算机网络与信息安全管理中心 | 一种基于GraphX的分布式幂迭代聚类方法和装置 |
CN107480685A (zh) * | 2016-06-08 | 2017-12-15 | 国家计算机网络与信息安全管理中心 | 一种基于GraphX的分布式幂迭代聚类方法和装置 |
CN108664368A (zh) * | 2017-03-30 | 2018-10-16 | 华为技术有限公司 | 处理器性能指标评估方法及设备 |
CN107368913B (zh) * | 2017-06-15 | 2020-06-12 | 中国汽车技术研究中心 | 一种基于最小二乘支持向量机的油耗预测方法 |
CN107368913A (zh) * | 2017-06-15 | 2017-11-21 | 中国汽车技术研究中心 | 一种基于最小二乘支持向量机的油耗预测方法 |
CN109118469A (zh) * | 2018-06-20 | 2019-01-01 | 国网浙江省电力有限公司 | 用于视频显著性的预测方法 |
CN109118469B (zh) * | 2018-06-20 | 2020-11-17 | 国网浙江省电力有限公司 | 用于视频显著性的预测方法 |
CN109754008A (zh) * | 2018-12-28 | 2019-05-14 | 上海理工大学 | 基于矩阵分解的高维对称稀疏网络缺失信息的估计方法 |
CN109754008B (zh) * | 2018-12-28 | 2022-07-19 | 上海理工大学 | 基于矩阵分解的高维对称稀疏网络缺失信息的估计方法 |
CN113408548A (zh) * | 2021-07-14 | 2021-09-17 | 贵州电网有限责任公司电力科学研究院 | 变压器异常数据检测方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102495876A (zh) | 一种基于非负局部坐标分解的聚类方法 | |
CN102411610A (zh) | 一种用于高维数据聚类的半监督降维方法 | |
Clogg | Some models for the analysis of association in multiway cross-classifications having ordered categories | |
Shao et al. | Multiple incomplete views clustering via weighted nonnegative matrix factorization with regularization | |
Erichson et al. | Randomized nonnegative matrix factorization | |
Sussman et al. | A consistent adjacency spectral embedding for stochastic blockmodel graphs | |
CN102722578B (zh) | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 | |
Olteanu et al. | On-line relational and multiple relational SOM | |
CN113065974B (zh) | 一种基于动态网络表示学习的链路预测方法 | |
CN109657611A (zh) | 一种用于人脸识别的自适应图正则化非负矩阵分解方法 | |
CN102156878A (zh) | 一种基于带有流形信息稀疏映射的人脸识别方法 | |
Guo et al. | Principal component analysis with sparse fused loadings | |
Brownlees et al. | Community detection in partial correlation network models | |
CN102779162B (zh) | 一种带局域限制的矩阵概念分解方法 | |
Møller et al. | An introduction to simulation-based inference for spatial point processes | |
CN113516019B (zh) | 高光谱图像解混方法、装置及电子设备 | |
López-Rubio | Probabilistic self-organizing maps for qualitative data | |
Aerts et al. | Cellwise robust regularized discriminant analysis | |
Farhadi et al. | Improving random forest algorithm by selecting appropriate penalized method | |
CN105389560B (zh) | 基于局部约束的图优化维数约简方法 | |
Wang | Mixtures of common factor analyzers for high-dimensional data with missing information | |
Scott | Partial mixture estimation and outlier detection in data and regression | |
Aljumily | Agglomerative hierarchical clustering: an introduction to essentials.(1) proximity coefficients and creation of a vector-distance matrix and (2) construction of the hierarchical tree and a selection of methods | |
Shi et al. | Blind source separation of more sources than mixtures using sparse mixture models | |
CN104951651B (zh) | 一种基于黑森正则约束与a优化的非负图像数据降维方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120613 |