CN112417234B

CN112417234B - 一种数据聚类方法和装置，及计算机可读存储介质

Info

Publication number: CN112417234B
Application number: CN201910784526.6A
Authority: CN
Inventors: 赵剑; 邱思远
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2024-01-26
Anticipated expiration: 2039-08-23
Also published as: CN112417234A

Abstract

本发明实施例公开了一种数据聚类方法和装置，及计算机可读存储介质，上述数据聚类方法包括：接收并转换原始数据集；根据原始数据集确定原始数据集对应的低秩字典和权值矩阵；根据低秩字典和权值矩阵，确定原始数据集对应的表示系数；按照表示系数建立与原始数据集对应的相似度矩阵；基于相似度矩阵，利用谱聚类获得原始数据集对应的聚类结果，从而可以获得理想的聚类效果，有效地提高聚类性能。

Description

一种数据聚类方法和装置，及计算机可读存储介质

技术领域

本发明涉及数据检测技术，尤其涉及一种数据聚类方法和装置，及计算机可读存储介质。

背景技术

在高维数据的数据集进行聚类时，可以根据数据集的潜在子空间结构，将来自不同子空间的高维数据分割到各自所属的低维子空间，不同的子空间对应着不同的类别。在很多领域，子空间聚类算法得到了广泛应用，其中以稀疏子空间聚类算法(Sparsesubspace clustering，SSC)、低秩表示子空间聚类算法(Low rank representation forsubspace clustering，LRR)以及最小二乘回归子空间聚类算法(Robust and efficientsubspace segmentation via least squares regression，LSR)为代表的基于线性表示的子空间聚类算法由于其算法的简单性和高维数据聚类的有效性引起了研究者们的广泛兴趣。

目前，常用的基于线性表示的子空间聚类算法，通过l₁-范数、核范数或者F-范数约束表示系数，来求得具有块对角结构的表示系数Z，然而单一的范数约束表示系数Z，求得的表示系数Z通常具有不足之处，使得最终的聚类结果不够理想，聚类性能较低。

发明内容

为解决上述技术问题，本发明实施例期望提供一种数据聚类方法和装置，及计算机可读存储介质，

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种数据聚类方法，所述方法包括：

接收并转换原始数据集；

根据所述原始数据集确定所述原始数据集对应的低秩字典和权值矩阵；

根据所述低秩字典和所述权值矩阵，确定所述原始数据集对应的表示系数；

按照所述表示系数建立与所述原始数据集对应的相似度矩阵；

基于所述相似度矩阵，利用谱聚类获得所述原始数据集对应的聚类结果。

本申请实施例提出的一种数据聚类方法和装置，及计算机可读存储介质，数据聚类装置接收并转换原始数据集；根据原始数据集确定原始数据集对应的低秩字典和权值矩阵；根据低秩字典和权值矩阵，确定原始数据集对应的表示系数；按照表示系数建立与原始数据集对应的相似度矩阵；基于相似度矩阵，利用谱聚类获得原始数据集对应的聚类结果。由此可见，在本申请的实施例中，数据聚类装置可以先从原始数据集中获取一个去噪后的低秩字典，然后结合根据原始数据集获得的权值矩阵，对目标系数进行构建，从而获得原始数据集对应的相似度矩阵，以利用相似度矩阵对原始数据集进行聚类处理，获得对应的聚类结果，正是由于本申请实施例提出的平滑低秩表示子空间聚类算法能够通过低秩恢复技术获得低秩字典，并用于线性表示原始数据集，从而可以获得理想的聚类效果，有效地提高聚类性能，并且，实现起来简单方便，便于普及，适用范围更广。

附图说明

图1为基于线性表示的子空间聚类算法的基本框架；

图2为本申请实施例提出的一种数据聚类方法的实现流程示意图一；

图3为局部关系示意图；

图4为本申请实施例提出的一种数据聚类方法的实现流程示意图二；

图5为本申请实施例提出的数据聚类装置的组成结构示意图一；

图6为本申请实施例提出的数据聚类装置的组成结构示意图二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅仅用于解释相关申请，而非对该申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关申请相关的部分。

随着信息技术的快速发展，数据在我们的日常生活中无处不在，数据庞大的规模以及复杂的结构给数据处理带来了许多挑战，如何有效地从数据中挖掘出有价值的信息，成为一大难题。随着经典的聚类算法的提出，聚类算法已经能够有效地解决低维数据聚类问题，但应用环境日新月异，高维数据在工作生活中随处可见，其中各种图像数据、视频数据以及文本数据的维度，常常高达上万维，比如一部智能手机拍摄的图片会达到数万个像素，传统的聚类算法，在处理高维数据聚类问题时，往往得不到理想的结果。高维数据聚类主要面临的问题是：高维空间中的数据分布比低维空间中数据分布更加稀疏，数据间的距离几乎相等，并且数据中存在一些不相关的属性，因此在高维空间中通常无法根据数据间的距离关系实现聚类，然而传统聚类方法大多是基于距离进行聚类的，如何设计新的聚类算法，解决高维数据的聚类问题，已经成为数据挖掘、机器学习等领域研究的重点。子空间聚类算法是对传统聚类算法的一种扩展，根据数据集的潜在子空间结构，将来自不同子空间的高维数据分割到各自所属的低维子空间，不同的子空间对应着不同的类别。在很多领域，子空间聚类算法得到了广泛应用，例如：图像聚类，运动分割等。当前，在子空间聚类的算法中，基于线性表示的子空间聚类算法由于其优越的聚类性能成为该领域的研究热点。

基于线性表示的子空间聚类算法期望通过利用数据点间的全局信息来更好地构造相似度矩阵。其中以稀疏子空间聚类算法(Sparse subspace clustering，SSC)，低秩表示子空间聚类算法(Low rank representation for subspace clustering，LRR)和最小二乘回归子空间聚类算法(Robust and efficient subspace segmentation via leastsquares regression，LSR)为代表的基于线性表示的子空间聚类算法由于其算法的简单性和高维数据聚类的有效性引起了研究者们的广泛兴趣。算法不需要知道子空间的维数，利用数据的自表示求得每个数据点的表示系数，并用求得的表示系数建立相似度矩阵，应用于谱聚类得到聚类结果。

SSC算法在线性表示的假设下，通过l₁-范数最小化强制表示系数矩阵的稀疏性，使得类间的表示系数为零，类内表示系数稀疏。LRR算法通过最小化核范数揭示数据的全局结构的最低秩表示，能够很好地将高相关性的数据聚到一起。并且在处理含噪声和重大污染的数据时，同样能够获得了很好的鲁棒性。LSR算法使用F-范数对表示系数进行约束，使得系数之间具有分组效应，保持相关数据的聚集性能。在子空间独立的假设下，LSR算法所获得的表示矩阵具有块对角结构。当数据点不充分时，在子空间正交的假设下，所获得的表示系数矩阵也具有块对角结构。同时，LSR算法的目标函数能够求出解析解，避免了迭代求解过程，大大降低了算法的时间复杂度。图1为基于线性表示的子空间聚类算法的基本框架，如图1所示，基于线性表示的子空间聚类算法，主要是对输入的数据集进行线性表示，获得表示系数，然后按照表示系数对相似度矩阵进行构造，再利用构造获得的相似度矩阵进行谱聚类，从而可以获得聚类结果。

经典的基于线性表示的子空间聚类算法，通过l₁-范数、核范数或者F-范数约束表示系数，来求得具有块对角结构的表示系数Z，然而单一的范数约束表示系数Z，求得的表示系数Z通常具有不足之处，比如SSC算法通过最小化l₁-范数来获得样本的最稀疏表示作为系数矩阵，如果来自同一子空间的数据具有高相关性，最小化l₁-范数通常随机选择少量数据点进行线性表示，而忽略其它相关数据点，求得的系数矩阵不能保证类内数据点之间联系，因此，虽然SSC算法能够构造一个稀疏的相似性矩阵，但是可能得不到满意的效果。LRR算法寻找高维数据之间的最低秩表示，能够获得数据的全局结构。LRR算法使用最小化核范数代替秩最小化来求解优化问题。低秩表示聚类算法虽然能够获得具有良好块对角性质的表示系数矩阵，但算法只关注全局秩的约束，使得最终的表示系数矩阵缺乏稀疏性，类间表示系数仍然存在大量非零元素，并且类内表示系数差异较大，使得其最终的聚类结果不够理想。

为了解决经典的基于线性表示的子空间聚类算法的不足，非负低秩稀疏图用于半监督学***滑表示聚类通过数据间的局部关系来约束表示系数，使得类内表示系数趋于平滑，获得了理想的聚类质量。

基于结构化约束的低秩表示算法和平滑表示聚类，本申请提出了一种数据聚类方法，该数据聚类方法可以利用平滑低秩表示子空间聚类算法(Structured smooth low-rank representation subspace clustering，SSLRR)将局部相似性约束引入LRR目标函数中，通过数据点间的局部关系来提高表示系数的类内一致性，同时将结构化稀疏约束引入目标函数中，增加表示系数的类间稀疏性。为了使算法更好地处理含有噪声的数据，算法首先通过低秩恢复技术获得低秩结构字典，用于线性表示原始数据集，从而提高算法处理噪声数据的鲁棒性，同时可以获得较高的聚类性能。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

本发明实施例提出了一种数据聚类方法，图2为本申请实施例提出的一种数据聚类方法的实现流程示意图一，如图2所示，在本发明的实施例中，数据聚类装置进行数据聚类的方法可以包括以下步骤：

步骤101、接收并转换原始数据集。

在本申请的实施例中，数据聚类装置可以先接收原始数据集，并在接收到原始数据集之后，对原始数据集进行维度的转换。

进一步地，在本申请的实施例中，原始数据集可以为高维数据，例如，原始数据集可以为Extended Yale B人脸数据集、增强现实技术(Augmented Reality，AR)人脸数据集或则和手写数字数据集等高维数据。

需要说明的是，在本申请的实施例中，数据聚类装置可以为集成有数据聚类算法的装置，数据聚类装置可以用于对数据集进行聚类、分析以及实验。例如，数据聚类装置可以安装有子空间聚类应用，例如，数据聚类装置可以安装有人脸聚类应用或者手写数字聚类应用。

进一步地，在本申请的实施例中，原始数据集可以为高维数据集，例如，原始数据集X＝[x₁,x₂,...,x_n]∈R^m×n，其中，每一列表示一个数据样本，n表示数据个数，m表示数据的维度，x_i表示数据集中第i个样本。

需要说明的是，在本申请的实施例中，数据聚类装置可以在接收到原始数据集之后，对原始数据集进行降低维度的处理，从而对原始数据集进行维度的转换。具体地，数据聚类装置在对原始数据集进行降低维度的处理时，可以通过主成分分析法(PrincipleComponent Analysis，PCA)将数据的维度降到6×k维，其中，k表示类别参数。

步骤102、根据原始数据集确定原始数据集对应的低秩字典和权值矩阵。

在本申请的实施中，数据聚类装置在接收并转换原始数据集之后，可以根据原始数据集分别确定出与原始数据集对应的低秩字典和权值矩阵。

需要说明的是，在本申请的实施例中，数据聚类装置接收到的原始数据集可能携带有随机噪声，即原始数据集中可能存在有被噪声污染的数据。为了能够更好地处理噪声数据聚类问题，数据聚类装置可以使用鲁棒主成分分析法(Robust principle componentanalysis，RPCA)从原始数据集中恢复出一个鉴别的低秩字典。

进一步地，在本申请的实施例中，数据聚类装置可以按照第一目标函数从原始数据集中提取低秩字典，其中，第一目标函数可以用于对原始数据集进行去噪处理，具体地，第一目标函数的表达式如公式(1)所示，

min_A,E‖A‖_*+γ‖E‖₁ s.t.X＝A+E (1)

其中，‖A‖_*表示矩阵的核范数，‖E‖₁表示矩阵的l₁-范数，具体地，第一目标函数可以利用不精确的拉格朗日乘子算法求解，最终得到低秩字典A。

进一步地，在本申请的实施例中，数据聚类装置还可以根据原始数据集获得与原始数据集对应的权值矩阵。其中，权值矩阵可以包括第一权值矩阵和第二权值矩阵。具体地，第一权值矩阵用于对表示系数进行降低；第二权值矩阵用于表征原始数据集中的数据在原始空间中的局部关系。

需要说明的是，在本申请的实施例中，数据聚类装置在对原始数据集进行聚类时所使用的第三目标函数中可以涉及到第一权值矩阵和第二权值矩阵，因此，数据聚类装置可以先根据原始数据集对第一权值矩阵和第二权值矩阵进行确定。

进一步地，在本申请的实施例中，第一权值矩阵中的权值可以通过公式(2)获得，

其中，W_ij为第一权值矩阵中的权重值，和/>分别是数据点x_i和x_j的归一化，按照公式(3)对矩阵B进行定义，

参数σ是矩阵B中所有元素的平均值。通过公式(2)可以对第一权值矩阵进行定义，从而可以使原始数据集中处于不同子空间的数据点间的权值较大，原始数据集中处于相同子空间的数据点间的权值趋于零，进而可以通过最小化数据项‖W⊙Z‖₁来更好降低处于不同子空间的数据点之间的表示系数，其中，⊙为哈达马积，在本申请的实施例中，定义H＝‖W⊙Z‖₁。

进一步地，在本申请的实施例中，为了更好的表征原始数据集中数据点间的局部关系，数据聚类装置可以通过局部线性嵌入算法(locally linear embedding，LLE)图来确定数据点间的局部关系。首先确定每个数据点x_i的K近邻，然后使用数据点x_i的K近邻点对x_i进行线性重构，利用最小化重构误差来求解权值，第二权值矩阵中的权重值M_ij表示第j个数据点重构第i个数据点的贡献，当两个数据点越相近时，两者之间的权值也就越大。例如，图3为局部关系示意图，在高维空间中，当近邻点数K＝3时，数据点x_i与3个近邻点x_j、x_k、x_l之间的线性重构关系如图3所示，其中，W_ij、W_ik、W_il分别为数据点x_i与x_j、x_k、x_l之间的权值。基于两个约束条件：(1)每个数据点由最近邻的K个数据点线性重构，当某个数据点x_j不属于数据点的K近邻时，M_ij＝0；(2)每个数据点的重构权值系数之和为1，数据聚类装置求解第二权值矩阵的第二目标函数可以表示为公式(4)，

其中，n表示数据点的个数，Q_i表示每个数据点x_i的K近邻点的下标集合，定义公式(5)，

V_jk＝(x_i-x_j)^T(x_i-x_k) (5)

那么，M_ij可以表示为公式(6)，

进一步地，在本申请的实施例中，数据聚类装置可以根据公式(6)对第二权值矩阵进行确定，具体地，第二权值矩阵可以为一个对称的非负权值矩阵，例如，第二权值矩阵M可以通过公式(7)表示，

需要说明的是，在本申请的实施例中，数据聚类装置在接收到原始数据集之后，便可以基于原始数据集，按照上述公式(1)值公式(7)确定出低秩字典、第一权值矩阵以及第二权值矩阵，以继续根据低秩字典和权值矩阵对表示系数进行确定。

步骤103、根据低秩字典和权值矩阵，确定原始数据集对应的表示系数。

在本申请的实施例中，数据聚类装置在根据原始数据集确定原始数据集对应的低秩字典和权值矩阵之后，可以根据低秩字典和权值矩阵，进一步确定原始数据集对应的表示系数。

需要说明的是，在本申请的实施例中，LRR算法通过低秩准则能够很好地获得数据的全局结构，但类间表示系数产生了大量的非零元素，从而影响聚类的精确度。在本申请的实施例中，可以将l₁-范数引入LRR目标函数中，即引入到进行聚类处理的第三目标函数中，也就是说，第三目标函数可以为LRR算法对应的目标函数，从而可以利用l₁-范数提高表示系数的稀疏性。具体地，第三目标函数可以根据公式(8)进行表示，

min_Z,E‖Z‖_*+β‖Z‖₁+γ‖E‖₁ s.t.X＝AZ+E (8)

其中，β、γ用于平衡低秩、稀疏以及噪声项的影响。具体地，在本申请的实施例中，结构化稀疏约束项最小化优于标准l₁-范数最小化，因此，可以将公式(8)转换成公式(9)来表示第三目标函数，

min_Z,E‖Z‖_*+βH+γ‖E‖_2,1 s.t.X＝AZ+E (9)

其中，W为权值矩阵中的第一权值矩阵。为了能够更好地获得原始数据集中数据的局部关系，可以假设如果数据点x_i与x_j在数据分布的潜在几何结构中是相近的，那么这两个数据点在嵌入或投影到新的空间中也是相近的，具体地，数据聚类装置可以先定义L＝D-M为拉普拉斯矩阵，D为度矩阵然后通过公式拉普拉斯矩阵对公式(9)进行转换，获得转换后的第三目标函如公式(10)所示，即在数学中，可以将这种假设关系表示为公式(10)，

其中，M为权值矩阵中的第二权值矩阵，反映原始数据集中的数据在原始空间中的局部关系，z_i与z_j分别是数据点x_i与x_j对应的表示系数。对公式(9)和公式(10)进行融合，通过数据点间的局部关系，约束表示系数，使得类内表示系数趋于平滑，促进最终聚类精确度的提高，转换后的第三目标函数可以通过公式(11)进行表示，

其中，α用于平衡图正则项与其它三项的影响。

进一步地，在本申请的实施例中，为了有效地对上述公式(11)进行求解，数据聚类装置可以采用交替方向乘子算法对公式(11)进行迭代求解。具体地，数据聚类装置可以引入预设辅助变量J、T∈R^n×n，上述公式(11)可以转换为公式(12)，

使用拉格朗日乘子重构公式(12)，可以获得公式(13)，

其中，Y^A、Y^B以及Y^C表示拉格朗日乘子，μ表示惩罚参数，以控制第三目标函数的收敛性。

需要说明的是，在本申请的实施例中，数据聚类装置可以利用奇异值软阈值操作，基于Y^C和Z，对J进行更新迭代；同时，数据聚类装置也可以利用收缩阈值操作，基于Y^b和Z，对T进行更新迭代；进一步地，数据聚类装置还可以使用Bartels-Stewart算法进行求解，基于低秩字典进行迭代，在迭代过程中，表示系数Z有唯一解，既可以获得表示系数的最优值。

步骤104、按照表示系数建立与原始数据集对应的相似度矩阵。

在本申请的实施例中，数据聚类装置在根据低秩字典和权值矩阵，确定原始数据集对应的表示系数之后，便可以按照表示系数建立与原始数据集对应的相似度矩阵。

需要说明的是，在本申请的实施例中，数据聚类装置在获得表示系数之后，便可以根据表示系数对相似度矩阵进行构造，具体地，数据聚类装置可以通过公式(14)进行建立相似度矩阵，

需要说明的是，在本申请的实施例中，数据聚类装置根据公式(14)确定出的相似度矩阵，可以用于对原始数据集进行谱聚类。

步骤105、基于相似度矩阵，利用谱聚类获得原始数据集对应的聚类结果。

在本申请的实施例中，数据聚类装置在按照表示系数建立与原始数据集对应的相似度矩阵之后，便可以基于相似度矩阵，利用谱聚类获得原始数据集对应的聚类结果。

进一步地，在本申请的实施例中，数据聚类装置在对原始数据集进行降低维度处理之后，还可以确定原始数据集对应的类别参数。

需要说明的是，在本申请的实施例中，数据聚类装置在确定出相似度矩阵之后，可以进一步根据相似度矩阵进行规范化对称拉普拉斯矩阵的确定，然后可以根据原始数据集的类别参数k获得规范化对称拉普拉斯矩阵中k个特征向量，并将k个特征向量构成的目标矩阵进行归一化处理，进而可以对归一化后的目标矩阵使用K-means聚类算法，最终便可以输出原始数据集的类分配，即获得原始数据集对应的聚类结果。

本申请实施例提出的一种数据聚类方法，数据聚类装置接收并转换原始数据集；根据原始数据集确定原始数据集对应的低秩字典和权值矩阵；根据低秩字典和权值矩阵，确定原始数据集对应的表示系数；按照表示系数建立与原始数据集对应的相似度矩阵；基于相似度矩阵，利用谱聚类获得原始数据集对应的聚类结果。由此可见，在本申请的实施例中，数据聚类装置可以先从原始数据集中获取一个去噪后的低秩字典，然后结合根据原始数据集获得的权值矩阵，对目标系数进行构建，从而获得原始数据集对应的相似度矩阵，以利用相似度矩阵对原始数据集进行聚类处理，获得对应的聚类结果，正是由于本申请实施例提出的平滑低秩表示子空间聚类算法能够通过低秩恢复技术获得低秩字典，并用于线性表示原始数据集，从而可以获得理想的聚类效果，有效地提高聚类性能，并且，实现起来简单方便，便于普及，适用范围更广。

实施例二

基于上述实施例一，在本申请的又一实施例中，数据聚类装置在对转换后的第三目标函数求解时，即对上述公式(11)进行求解时，可以按照预设辅助变量对转换后的第三目标函数进行迭代求解，获得表示系数。

进一步地，在本申请的实施例中，数据聚类装置可以引入预设辅助变量J、T∈R^n×n，并在引入预设辅助变量之后使用增广拉格朗日乘子法进行重构，从而可以获得上述公式(13)，然后依次对预设辅助变量J、预设辅助变量T、Z、E、拉格朗日乘子以及μ进行更新，从而可以获得最优表示系数Z^*。

在本申请的实施例中，示例性的，在对原始数据集X＝[x₁,x₂,...,x_n]∈R^m×n进行表示系数的确定时，数据聚类装置提出的平滑低秩表示子空间聚类算法可以包括以下步骤：

步骤201、初始化变量。

设置最大迭代次数maxIter＝1000，当前迭代数k＝0，初始化Z＝J＝T＝0，E＝0，Y^A＝0，Y^B＝Y^C＝0，μ＝10^-6，max_μ＝10¹⁰，ρ＝1.1，ε＝10^-8。其中，||Z-J||_∞>ε或者||Z-T||_∞>ε或者||X-AZ-E||_∞>ε。

步骤202、更新预设辅助变量J。

固定其它变量更新预设辅助变量J，具体地，更新变量J时，利用奇异值软阈值操作，令/>对P做奇异值分解，SVD(P)＝[U,∑,V]，对奇异值矩阵∑进行阈值化处理：G_τ(∑)＝diag((σ_i-τ)₊)，其中σ_i是∑的主对角元素，也为矩阵P的奇异值，τ是阈值，取/>G_τ(∑)表示：如果对角元素σ_i比τ大，则取σ_i＝σ_i-τ，否则σ_i＝0。最终J的每次迭代最优解为J＝UG_τ(∑)V^T。

步骤203、更新预设辅助变量T。

固定其它变量更新预设辅助变量T，具体地，更新变量T时，利用收缩阈值操作，令/>此时，变量T可以表示为T＝S_ε(Q)，对于T中每一个元素T_ij，满足以下公式(15)的关系：

步骤204、更新变量Z。

固定其它变量更新变量Z，具体地，更新变量Z时，使用Bartels-Stewart算法求解方程μA^TAZ+αZ(2I+L)+(-A^TY^A+Y^B+Y^C+μ(A^TE-A^TX-J-T))＝0。A^TA是半正定矩阵，因此对于A^TA的任意特征值p_i满足p_i≥0，2I+L是正定矩阵，因此对于2I+L的任意特征值μ_i满足μ_i>0。因为对于任意特征值p_i与μ_i满足p_i+μ_i>0，迭代过程中，变量Z有唯一解。

步骤205、更新变量E。

固定其它变量更新变量E，其中，E满足以下公式(16)：

具体地，更新变量E时，设u_i表示矩阵U的每一列，E的每一列满足以下公式(17)的条件：

步骤206、更新拉格朗日乘子。

对拉格朗日乘子Y^A、Y^B以及Y^C进行更新。具体地，可以按照Y^A＝Y^A+μ(X-AZ-E)、Y^B＝Y^B+μ(Z-T)以及Y^C＝Y^C+μ(Z-J)分别对Y^A、Y^B以及Y^C进行更新。

步骤207、更新惩罚参数μ。

按照μ＝min(ρμ,max_μ)对惩罚参数进行更新。

步骤208、令k＝k+1，重复上述步骤202至步骤207，直到输出最优表示系数Z^*。

本申请实施例提出的一种数据聚类方法，数据聚类装置接收并转换原始数据集；根据原始数据集确定原始数据集对应的低秩字典和权值矩阵；根据低秩字典和权值矩阵，确定原始数据集对应的表示系数；按照表示系数建立与原始数据集对应的相似度矩阵；基于相似度矩阵，利用谱聚类获得原始数据集对应的聚类结果。由此可见，在本申请的实施例中，数据聚类装置可以先从原始数据集中获取一个去噪后的低秩字典，然后结合根据原始数据集获得的权值矩阵，对目标系数进行构建，从而获得原始数据集对应的相似度矩阵，以利用相似度矩阵对原始数据集进行聚类处理，获得对应的聚类结果，正是由于本申请实施例提出的平滑低秩表示子空间聚类算法能够通过低秩恢复技术获得低秩字典，并用于线性表示原始数据集，从而可以获得理想的聚类效果，有效地提高聚类性能，并且，实现起来简单方便，便于普及，适用范围更广。实施例三

基于上述实施例一和实施例二，在本申请的再一实施例中，图4为本申请实施例提出的一种数据聚类方法的实现流程示意图二，如图4所示，数据聚类装置基于相似度矩阵，利用谱聚类获得原始数据集对应的聚类结果的方法可以包括以下步骤：

步骤301、根据相似度矩阵计算获得原始数据集对应的规范化对称拉普拉斯矩阵。

在本申请的实施例中，数据聚类装置在确定出相似度矩阵之后后，可以按照规范化对称谱聚类算法对原始数据集进行聚类处理。

进一步地，在本申请的实施例中，数据聚类装置可以先根据相似度矩阵对原始数据集对应的规范化对称拉普拉斯矩阵进行获取。例如，基于通过上述公式(14)获得的相似度矩阵C，计算获得原始数据集对应的规范化对称拉普拉斯矩阵L_sym。

步骤302、按照类别参数和规范化对称拉普拉斯矩阵，构成目标矩阵。

在本申请的实施例中，数据聚类装置在根据相似度矩阵获得规范化对称拉普拉斯矩阵之后，可以结合原始数据集对应的类别参数，进一步构建目标矩阵。

需要说明的是，在本申请的实施例中，当类型参数为k时，数据聚类装置可以先计算拉普拉斯矩阵L_sym的前k个特征向量u₁,u₂,…,u_k，然后按照k个特征向量u₁,u₂,…,u_k构成目标矩阵U＝[u₁,u₂,…,u_k]∈R^n×k。

步骤303、对目标矩阵进行归一化处理，获得归一化后的目标矩阵。

在本申请的实施例中，数据聚类装置在按照类别参数和规范化对称拉普拉斯矩阵，构成目标矩阵之后，可以对目标矩阵进行归一化处理，从而可以获得归一化后的目标矩阵。具体的，数据聚类装置可以对目标矩阵U按行归一化得到归一化后的目标矩阵T∈R^n×k。

步骤304、对归一化后的目标矩阵进行聚类处理，获得原始数据集对应的聚类结果。

在本申请的实施例中，数据聚类装置在对目标矩阵进行归一化处理，获得归一化后的目标矩阵之后，可以对归一化后的目标矩阵进行聚类处理，获得原始数据集对应的聚类结果。

进一步地，在本申请的实施例中，数据聚类装置可以将归一化后的目标矩阵T中的每一行q_i∈R^k看作是R^k空间中的一个点，然后对其使用K-means聚类算法，从而可以获得原始数据集对应的聚类结果。

实施例四

基于上述实施例一至实施例三，数据聚类装置按照SSLRR对原始数据集进行聚类处理，获得对应的聚类结果，为了对SSLRR的聚类效果进行验证，本申请的实施例从理论角度提出了以下两点证明方式。

方式一：SSLRR的最优解具有块对角结构。

在不考虑噪声的情况下，对于公式(18)的问题：

给定一组m维数据集X＝[x₁,x₂,...,x_n]＝[X₁,X₂,…,X_k]∈R^m×n，且数据集X取自k个独立线性子空间其中X_i是m×n_i的矩阵，它的每一列都来自同一个子空间S_i，并且n₁+n₂+…+n_i＝n，Z^*是最小化问题(18)的最优解，那么表示系数Z^*具有块对角结构。

假设Z^*是目标函数(18)的最优解，定义公式(19)，

并且Z^C＝Z^*-Z^D，Z^C≥0，根据子空间的正交性的假设，Z^D同样为目标函数(17)的可行解，并且由矩阵的核范数性质可得||Z^*||_*≥||Z^D||_*。由Z^C≥0，可以推导出tr(Z^*LZ^*T)＝tr((Z^D+Z^C)L(Z^D+Z^C)^T)≥tr(Z^DL(Z^D)^T)，因为权值矩阵W为非负矩阵，因此，对于H，可得：

其中，L＝‖W⊙Z^D‖₁，由||Z^*||_*≥||Z^D||_*、tr(Z^*LZ^*T)≥tr(Z^DL(Z^D)^T)以及‖W⊙Z^*‖₁≥‖W⊙Z^D‖₁可以推出：

||Z^*||_*+tr(Z^*LZ^*T)+‖W⊙Z^*‖₁≥||Z^D||_*+tr(Z^DL(Z^D)^T)+L (21)

又因为Z^*是式(18)的最优解，因此可得||Z^*||_*+tr(Z^*LZ^*T)+‖W⊙Z^*‖₁＝||Z^D||_*+tr(Z^DL(Z^D)^T)+L，Z^C＝0，从而可得Z^*＝Z^D，因此式(18)的最优解Z*具有块对角结构。

方式二：时间复杂度分析。

对于数据集X＝[x₁,x₂,...,x_n]∈R^m×n，在上述步骤101中，使用RPCA恢复一个低秩字典A的时间复杂度为O(t₁n³)，t₁表示算法迭代次数。上述步骤202至步骤207中更新J、T、E与拉格朗日乘子Y^A、Y^B、Y^c的时间复杂度分别为O(n³)、O(n²)、O(mn²)、O(mn²)、O(n²)、O(n²)，在更新Z时，使用Bartels-Stewart算法求解Sylvester方程，因此时间复杂度为O(n³)，所以上述步骤202至步骤207中的整体时间复杂度为O(3t₂n²+2t₂mn²+2t₂n³)，如果m<n，时间复杂度为O(2t₂n³)，t₂表示交替方向乘子算法的迭代次数。步骤105谱聚类的整体时间复杂度为O(n³)。因此本章所提算法SSLRR的时间复杂度为O((t₁+2t₂+1)n³)。

实施例五

基于上述实施例一至实施例四，图5为本申请实施例提出的数据聚类装置的组成结构示意图一，如图5所示，在本发明的实施例中，数据聚类装置1包括接收单元11，转换单元12，确定单元13，建立单元14以及获取单元15，

所述接收单元11，用于接收原始数据集。

所述转换单元12，用于转换所述原始数据集。

所述确定单元13，用于根据所述原始数据集确定所述原始数据集对应的低秩字典和权值矩阵；以及根据所述低秩字典和所述权值矩阵，确定所述原始数据集对应的表示系数。

所述建立单元14，用于按照所述表示系数建立与所述原始数据集对应的相似度矩阵。

所述获取单元15，用于基于所述相似度矩阵，利用谱聚类获得所述原始数据集对应的聚类结果。

进一步地，在本申请的实施例中，所述转换单元12，具体用于在接收所述原始数据集之后，对所述原始数据集进行降低维度处理。

进一步地，在本申请的实施例中，所述确定单元13，具体用于按照第一目标函数从所述原始数据集中确定所述低秩字典；其中，所述第一目标函数用于对所述原始数据集进行去噪处理；或者，所述确定单元13，还具体用于根据所述第一权值矩阵获得第三目标函数；按照所述第二权值矩阵获得拉普拉斯矩阵；以及根据所述拉普拉斯矩阵对所述第三目标函数进行转换，获得转换后的第三目标函数；以及求解所述转换后的第三目标函数，获得所述表示系数。

进一步地，在本申请的实施例中，所述权值矩阵包括第一权值矩阵和所述第二权值矩阵，所述确定单元13，还具体用于按照所述原始数据集计算所述第一权值矩阵；其中，所述第一权值矩阵用于对所述表示系数进行降低；以及按照第二目标函数和所述原始数据集确定所述第二权值矩阵；其中，所述第二权值矩阵用于表征所述原始数据集中的数据在原始空间中的局部关系。

进一步地，在本申请的实施例中，所述确定单元13，还具体用于按照预设辅助变量对所述转换后的第三目标函数进行迭代求解，获得所述表示系数。

进一步地，在本申请的实施例中，所述确定单元13，还用于对所述原始数据集进行降低维度处理之后，确定所述原始数据集对应的类别参数。

进一步地，在本申请的实施例中，所述获取单元15，具体用于根据所述相似度矩阵计算获得所述原始数据集对应的规范化对称拉普拉斯矩阵；以及按照所述类别参数和所述规范化对称拉普拉斯矩阵，构成目标矩阵；以及对所述目标矩阵进行归一化处理，获得归一化后的目标矩阵；以及对所述归一化后的目标矩阵进行聚类处理，获得所述原始数据集对应的聚类结果。

图6为本申请实施例提出的数据聚类装置的组成结构示意图二，如图6所示，本申请实施例提出的数据聚类装置1还可以包括处理器16、存储有处理器16可执行指令的存储器17，进一步地，数据聚类装置1还可以包括通信接口18，和用于连接处理器16、存储器17以及通信接口18的总线19。

在本申请的实施例中，处理器16可以为特定用途集成电路(ApplicationSpecific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(ProgRAMmable Logic Device，PLD)、现场可编程门阵列(Field ProgRAMmable GateArray，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。数据聚类装置1还可以包括存储器17，该存储器17可以与处理器16连接，其中，存储器17用于存储可执行程序代码，该程序代码包括计算机操作指令，存储器17可能包含高速RAM存储器，也可能还包括非易失性存储器，例如，至少两个磁盘存储器。

在本申请的实施例中，总线19用于连接通信接口18、处理器16以及存储器17以及这些器件之间的相互通信。

在本申请的实施例中，存储器17，用于存储指令和数据。

进一步地，在本申请的实施例中，处理器16，用于接收并转换原始数据集；根据所述原始数据集确定所述原始数据集对应的低秩字典和权值矩阵；根据所述低秩字典和所述权值矩阵，确定所述原始数据集对应的表示系数；按照所述表示系数建立与所述原始数据集对应的相似度矩阵；基于所述相似度矩阵，利用谱聚类获得所述原始数据集对应的聚类结果。

在实际应用中，存储器17可以是易失性存储器(volatile memor)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard DiskDrive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器16提供指令和数据。

另外，在本实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提出的一种数据聚类装置，该数据聚类装置数据聚类装置接收并转换原始数据集；根据原始数据集确定原始数据集对应的低秩字典和权值矩阵；根据低秩字典和权值矩阵，确定原始数据集对应的表示系数；按照表示系数建立与原始数据集对应的相似度矩阵；基于相似度矩阵，利用谱聚类获得原始数据集对应的聚类结果。由此可见，在本申请的实施例中，数据聚类装置可以先从原始数据集中获取一个去噪后的低秩字典，然后结合根据原始数据集获得的权值矩阵，对目标系数进行构建，从而获得原始数据集对应的相似度矩阵，以利用相似度矩阵对原始数据集进行聚类处理，获得对应的聚类结果，正是由于本申请实施例提出的平滑低秩表示子空间聚类算法能够通过低秩恢复技术获得低秩字典，并用于线性表示原始数据集，从而可以获得理想的聚类效果，有效地提高聚类性能，并且，实现起来简单方便，便于普及，适用范围更广。

本申请实施例提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上所述的数据聚类方法。

具体来讲，本实施例中的一种数据聚类方法对应的程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种数据聚类方法对应的程序指令被一电子设备读取或被执行时，包括如下步骤：

接收并转换原始数据集；

本领域内的技术人员应明白，本申请的实施例可提供为方法、显示器、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种数据聚类方法，其特征在于，应用于数据聚类装置，所述方法包括：

接收并转换原始数据集；所述原始数据集为以下至少之一：人脸数据集和手写数字数据集；其中，所述原始数据集为含有随机噪声的高维图像数据集；

基于所述相似度矩阵，利用谱聚类获得所述原始数据集对应的聚类结果；

其中，所述权值矩阵包括第一权值矩阵和第二权值矩阵，所述根据所述原始数据集确定所述原始数据集对应的权值矩阵，包括：按照所述原始数据集计算所述第一权值矩阵；其中，所述第一权值矩阵用于对所述表示系数进行降低；按照第二目标函数和所述原始数据集确定所述第二权值矩阵；其中，所述第二权值矩阵用于表征所述原始数据集中的数据在原始空间中的局部关系；

其中，所述根据所述低秩字典和所述权值矩阵，确定所述原始数据集对应的表示系数，包括：根据所述第一权值矩阵获得第三目标函数；按照所述第二权值矩阵获得拉普拉斯矩阵；根据所述拉普拉斯矩阵对所述第三目标函数进行转换，获得转换后的第三目标函数；求解所述转换后的第三目标函数，获得所述表示系数。

2.根据权利要求1所述的方法，其特征在于，所述转换原始数据集，包括：

在接收所述原始数据集之后，对所述原始数据集进行降低维度处理。

3.根据权利要求1所述的方法，其特征在于，所述根据所述原始数据集确定所述原始数据集对应的低秩字典，包括：

按照第一目标函数从所述原始数据集中确定所述低秩字典；其中，所述第一目标函数用于对所述原始数据集进行去噪处理。

4.根据权利要求1所述的方法，其特征在于，所述求解所述转换后的第三目标函数，获得所述表示系数，包括：

按照预设辅助变量对所述转换后的第三目标函数进行迭代求解，获得所述表示系数。

5.根据权利要求2所述的方法，其特征在于，所述对所述原始数据集进行降低维度处理之后，所述方法还包括：

确定所述原始数据集对应的类别参数。

6.根据权利要求5所述的方法，其特征在于，所述基于所述相似度矩阵，利用谱聚类获得所述原始数据集对应的聚类结果，包括：

根据所述相似度矩阵计算获得所述原始数据集对应的规范化对称拉普拉斯矩阵；

按照所述类别参数和所述规范化对称拉普拉斯矩阵，构成目标矩阵；

对所述目标矩阵进行归一化处理，获得归一化后的目标矩阵；

对所述归一化后的目标矩阵进行聚类处理，获得所述原始数据集对应的聚类结果。

7.一种数据聚类装置，其特征在于，所述数据聚类装置包括：接收单元，转换单元，确定单元，建立单元以及获取单元，

所述接收单元，用于接收原始数据集；所述原始数据集为以下至少之一：人脸数据集和手写数字数据集；其中，所述原始数据集为含有随机噪声的高维图像数据集；

所述转换单元，用于转换所述原始数据集；

所述确定单元，用于根据所述原始数据集确定所述原始数据集对应的低秩字典和权值矩阵；以及根据所述低秩字典和所述权值矩阵，确定所述原始数据集对应的表示系数；

所述建立单元，用于按照所述表示系数建立与所述原始数据集对应的相似度矩阵；

所述获取单元，用于基于所述相似度矩阵，利用谱聚类获得所述原始数据集对应的聚类结果；

所述确定单元，还具体用于根据第一权值矩阵获得第三目标函数；按照第二权值矩阵获得拉普拉斯矩阵；以及根据所述拉普拉斯矩阵对所述第三目标函数进行转换，获得转换后的第三目标函数；以及求解所述转换后的第三目标函数，获得所述表示系数；

其中，所述权值矩阵包括所述第一权值矩阵和所述第二权值矩阵，所述确定单元，还具体用于按照所述原始数据集计算所述第一权值矩阵；其中，所述第一权值矩阵用于对所述表示系数进行降低；以及按照第二目标函数和所述原始数据集确定所述第二权值矩阵；其中，所述第二权值矩阵用于表征所述原始数据集中的数据在原始空间中的局部关系。

8.根据权利要求7所述的数据聚类装置，其特征在于，

所述转换单元，具体用于在接收所述原始数据集之后，对所述原始数据集进行降低维度处理。

9.根据权利要求7所述的数据聚类装置，其特征在于，

所述确定单元，具体用于按照第一目标函数从所述原始数据集中确定所述低秩字典；其中，所述第一目标函数用于对所述原始数据集进行去噪处理。

10.根据权利要求7所述的数据聚类装置，其特征在于，

所述确定单元，还具体用于按照预设辅助变量对所述转换后的第三目标函数进行迭代求解，获得所述表示系数。

11.根据权利要求8所述的数据聚类装置，其特征在于，

所述确定单元，还用于对所述原始数据集进行降低维度处理之后，确定所述原始数据集对应的类别参数。

12.根据权利要求11所述的数据聚类装置，其特征在于，

所述获取单元，具体用于根据所述相似度矩阵计算获得所述原始数据集对应的规范化对称拉普拉斯矩阵；以及按照所述类别参数和所述规范化对称拉普拉斯矩阵，构成目标矩阵；以及对所述目标矩阵进行归一化处理，获得归一化后的目标矩阵；以及对所述归一化后的目标矩阵进行聚类处理，获得所述原始数据集对应的聚类结果。

13.一种数据聚类装置，其特征在于，所述数据聚类装置包括处理器、存储有所述处理器可执行指令的存储器、通信接口，和用于连接所述处理器、所述存储器以及所述通信接口的总线，当所述指令被所述处理器执行时，实现如权利要求1-6任一项所述的方法。

14.一种计算机可读存储介质，其上存储有程序，应用于数据聚类装置中，其特征在于，所述程序被处理器执行时，实现如权利要求1-6任一项所述的方法。