CN108764276A

CN108764276A - 一种鲁棒自动加权多特征聚类方法

Info

Publication number: CN108764276A
Application number: CN201810325323.6A
Authority: CN
Inventors: 肖云; 王长青; 任鹏真; 雷文龙; 高颢函; 许鹏飞; 郭军; 王欣; 陈晓江; 房鼎益
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-11-06

Abstract

本发明提出了一种鲁棒自动加权多特征聚类方法，用于处理数据集中异常值的多视图聚类问题。在提出的方法中，采用鲁棒L1标准来测量最终学习相似矩阵的距离和不同视图的相似矩阵之间的距离，通过引入超参数来学习权重，使用最好的超参数，该方法直接获得每个数据点的簇标签，而无需任何后处理，如K‑means；通过对两个合成数据集的评价表明了该方法的有效性。与基于四种实际数据集的多视图聚类方法相比，本方法的性能优于其他所有的比较方法。

Description

一种鲁棒自动加权多特征聚类方法

技术领域

本发明属于计算机图像处理技术领域，具体是合计一种鲁棒自动加权多特征聚类方法，用于处理多视图聚类问题。

背景技术

随着互联网和大数据时代的到来，在机器学习中广泛存在着关于多视图数据的聚类任务。如何依据最初输入的多视图数据对原始的数据进行聚类是以至关重要的。例如，对于一个图片的聚类，我们可以从颜色、尺寸、纹理等多个角度对图片的特征进行描述。

通过将多视图数据集X转化为无向图当中的节点，依据每对数据点之间的相似度为节点之间的边赋相应的权重，从而实现多视图数据集向图的转化，每个图都代表研究对象一个视图，通过将多个视图进行相应的整合，来完成最终的聚类任务，生成标记矩阵。

在多视图学习中，如果存在质量较差的视图，则会严重影响聚类结果；而对于视图中存在的噪声或异常值，现有聚类方法对抗干扰能力比较差。因此，如何设计一个健壮的方法是多视图聚类任务的关键。

发明内容

传统的基于图的半监督学习方法普遍存在对于噪声过于敏感的现象，一些相对较小的噪声会对最终的聚类结果产生很坏的影响。为解决现有技术存在的问题，本发明提供一种鲁棒自动加权多特征聚类方法。

本发明的技术方案如下：

步骤1，构建原始多视图数据集X＝{X⁽¹⁾,X⁽²⁾,...,X^(m)}的邻接矩阵集A＝{A⁽¹⁾,A⁽²⁾,...,A^(m)}，其中A^(v)表示X^(v)对应的邻接矩阵，邻接矩阵A中的元素表示第v个视图X^(v)中的第i个数据节点x_i与第j个数据节点x_j的之间的相似度，v＝1,2,…,m，m表示视图个数；

步骤2，引入相似矩阵S，并建立目标函数：

s.t.α^(ν)≥0,α^T1m＝1,s_ij≥0,s_i1n＝1,rank(L_s)＝n-c.

上式中，S表示相似矩阵，A^(v)表示邻接矩阵A的第v个视图，s_ij表示相似矩阵S的第i行第j个元素，α^(v)为视图权重向量α的第v个元素，1m表示有m个元素的单位列向量，α^T1m＝1表示视图权重向量α的所有元素之和为1，1n表示n行1列的单位向量，s_i1n＝1表示相似矩阵S的每一行之和等于1，L_s是相似矩阵S的拉普拉斯矩阵，rank(L_s)是拉普拉斯矩阵L_s的秩，c表示相似矩阵S中连通子图的个数，||·||₁表示L1范数；

步骤3，对目标函数进行正则化，得到正则化后的目标函数：

s.t.α^(ν)≥0,α^T1m＝1,s_ij≥0,s_i1n＝1,rank(L_S)＝n-c.

上式中，为正则化项，||·||₂表示L2范数，γ表示超参数；

步骤4，对相似矩阵S和视图权重向量α进行更新，具体如下：

步骤4.1，在目标函数中，固定视图权重向量α和相似矩阵S，并对特征矩阵F进行更新，更新函数为：

上式中，特征矩阵F为拉普拉斯矩阵L_s的前k个最小特征值对应的特征向量组成的矩阵；

步骤4.2，在目标函数中，固定视图权重向量α和特征矩阵F，并且对相似矩阵S迭代更新，更新函数为：

上式中，表示对角矩阵U^(v)的对角线上第i个对角元素，η表示拉格朗日乘子，β_ij为拉格朗日乘子向量β_i的第j个元素；(·)₊表示取括号内的最大值；

步骤4.3，在目标函数中，固定相似矩阵S，并且对视图权重向量α迭代更新，更新函数为：

上式中，e^(ν)＝||S-A^(ν)||₁，e＝{e⁽¹⁾,e⁽²⁾,...,e^(m)}，v＝1,2,…,m；

步骤5，不断执行步骤4，直至目标函数收敛，输出相似矩阵S，得到原始的多视图数据集中每个数据样本的聚类标记。

附图说明

图1为本发明方法的流程示意图；

图2为合成数据集1的原始数据集和本发明方法的处理结果；其中(a)为噪声为0.6时的处理结果，(b)为噪声为1.0时的处理结果，(c)为本方法的处理结果；

图3为合成数据集2的原始数据集和本发明方法的处理结果；其中(a)为噪声为0.6，0.8时的处理结果，(b)为噪声为0.7，1.0时的处理结果，(c)为本方法的处理结果；

图4在数据集MSRCv上互信息/纯度随参数γ的变化曲线；

图5在手写数字Digits数据集上互信息/纯度随参数γ的变化曲线；

图6在Cal101-20数据集上互信息/纯度随参数γ的变化曲线；

图7在Cal101-7数据集上互信息/纯度随参数γ的变化曲线；

图8四种数据集上所有比较算法的性能比较(与标准差)；

图9算法的聚类纯度评估对比图；

图10算法的NMI评估对比图。

具体实施方式

本发明通过添加α作为多视图数据集中各个视图的权重，同时为了方便调节参数引入超参数γ，利用L1-norm作为距离的度量，来构建鲁棒自动加权多特征聚类学习模型，并将其应用于多视图领域进行了详细的探究。最后，在两个包含噪声的合成数据集和4个实际的数据集上进行了相关的实验，并最终取得了很好的实验结果。

本发明中，原始的多视图数据集表示为X＝{X⁽¹⁾,X⁽²⁾,...,X^(m)}，其中m表示总共有m个视图，表示从第v个角度观察得到的原始多视图数据矩阵(即第v个视图)，n表示有n个数据样本，d^(v)表示第v个视图数据的维度。相应的，根据X^(v)我们可以采用K近邻的方式来构建对应的临接矩阵A^(v)∈R^n×n，其中a_ij ^(v)∈A^(v)为临接矩阵A^(v)中的第i行第j列的元素，表示第v个视图X^(v)中的第i个样本与第j个样本之间的相似度。A＝{A⁽¹⁾,A⁽²⁾,...,A^(m)}将被我们作为算法初始输入的临接矩阵(相似矩阵)。如何依据初始输入的临接矩阵A把原始的n个多视图样本数据X聚成k类是至关重要的。

本发明提供了一种鲁棒自动加权多特征聚类方法，具体包括以下步骤：

步骤1，构建原始多视图数据集X＝{X⁽¹⁾,X⁽²⁾,...,X^(m)}的邻接矩阵集A＝{A⁽¹⁾,A⁽²⁾,...,A^(m)}，其中A^(v)表示X^(v)对应的邻接矩阵，邻接矩阵集A中的元素表示第v个视图X^(v)中的第i个数据节点x_i与第j个数据节点x_j的之间的相似度，且越大表明两个数据节点之间的相似度越高，反之亦然；v＝1,2,…,m，m表示视图个数。

具体地，构建邻接矩阵的方法采用K-NN算法，该算法中，首先采用高斯核函数来计算数据节点之间的相似度，然后对于每个数据节点，计算其他数据节点与该条数据节点的相似度大小，并将相似度值按照从大到小的顺序进行排列，将前k个相应的相似度值保持不变，其他剩余的相似度值均设为0。

步骤2，引入相似矩阵S，并建立目标函数：

s.t.α^(ν)≥0,α^T1m＝1,s_ij≥0,s_i1n＝1,rank(L_s)＝n-c.

上式中，S表示相似矩阵，A^(v)表示邻接矩阵A的第v个视图，s_ij表示相似矩阵S的第i行第j个元素，α^(v)为1视图权重向量α的第v个元素，1m表示有m个元素的单位列向量，α^T1m＝1表示视图权重向量α的所有元素之和为1，1n表示n行1列的单位向量，S_i1n＝1表示相似矩阵S的每一行之和等于1，L_s是相似矩阵S的拉普拉斯矩阵，rank(L_s)是拉普拉斯矩阵L_s的秩，c表示相似矩阵S中连通子图的个数，||·||₁表示L1范数；

具体地，建立所述的目标函数的推导过程如下：

步骤2.1，得出要求解的相似矩阵的目标函数

在单视图的情况下，首先构造一个邻接矩阵A′来表示所有数据样本的亲和度，然后基于L1范数和图论，目标函数可以表示为：

上式中，s_i是相似矩阵S的第i行，s_ij表示相似矩阵S的第i行第j个元素，1n表示n行1列的单位向量，s_i1n＝1表明矩阵S的每一行之和等于1。C表示有c个连通子图、维度为n的方阵的集合。相似矩阵S∈R^n×n为需要求解的具有c个最大连通子图的相似矩阵，并且c等于原始数据集X的聚类个数k。接着可以根据相似矩阵对应的图的最大连通分支的个数等于矩阵特征值为0的个数这个性质得到最终原始数据X的每个样本数据的聚类标记。

步骤2.2，根据约束条件修改目标函数

在本步骤中，基于L1范数和图论，连通性约束可以用秩约束代替，公式(1)变成：

rank(L_S)是L_S的秩，相似矩阵S的拉普拉斯矩阵L_S＝D_S-(S^T+S)/2。度矩阵D_S∈R^n×n被定义为一个对角矩阵，其中第i个对角元素∑_j(s_ij+s_ji)/2，目标相似矩阵S可以求解并直接用于聚类。

步骤2.3，由单视图聚类模型推广到多视图，将公式(2)中的A′用步骤1得到的邻接矩阵集A替换，并为A＝{A⁽¹⁾,A⁽²⁾,...,A^(m)}中的每个视图添加一组视图权重向量α＝{α⁽¹⁾,α⁽²⁾,...,α^(m)}，则公式(2)表示为：

s.t.α^(ν)≥0,α^T1m＝1,s_ij≥0,s_i1n＝1,rank(L_s)＝n-c.

上式中，α^(v)为视图权重向量α的第v个元素，代表第v个视图在所有视图中的重要程度，α中的值是随机初始化，使其相加等于1，最后迭代更新；A^(v)表示算法初始输入的临接矩阵A的第v个视图。

步骤3，为了便于参数调整，对目标函数进行正则化，加上一个正则化项，得到正则化后的目标函数。在本步骤中，我们的目标是找出满足公式(3)中约束的相似矩阵S，并且相似矩阵S同时可以近似于每个初始输入的临接矩阵A^(ν)，v＝1,2,…,m。为了防止模型过于复杂，造成过拟合，为公式(3)加入关于权重向量的正则项得到如下式子：

s.t.α^(ν)≥0,α^T1m＝1,s_ij≥0,s_i1n＝1,rank(L_S)＝n-c.

L_S表示S的拉普拉斯矩阵，其中超参数γ用于平衡公式(4)当中的前后两项；超参数γ的更新策略如下：首先对γ进行随机初始化一个大于0的数，当公式(4)中的第一项小于时，则γ除以2；当公式(4)中的第一项大于时，则γ乘以2；否则，γ保持不变；当目标函数收敛结束时，γ停止更新。

步骤4，对相似矩阵S和视图权重向量α进行更新，具体如下：

上式中，特征矩阵F为拉普拉斯矩阵L_S的前k个最小特征值对应的特征向量组成的矩阵。

上式中，表示对角矩阵U^(v)的对角线上第i个对角元素，η表示拉格朗日乘子，β_ij为拉格朗日乘子向量β_i的第j个元素；(·)₊表示取括号内的最大值。

具体推导过程如下：

在目标函数(4)中，当α被固定时，则公式(4)中的第二项相当于是一个常数，则需要解决以下问题：

将S的拉普拉斯矩阵L_s的特征值从小到大进行排序，则σ_i(L_s)表示L_s的第i个特征值，因为L_s是半正定的，所以L_S的σ_i(L_s)≥0。给定一个足够大的λ，对于λ的选择，采用迭代更新的策略进行选取，具体策略如下：

首先随机给λ赋一个大于0的值，例如λ＝1，接下来，计算每一次迭代过程中的L_s特征值等于0的个数，如果L_s特征值等于0的个数大于k，则λ除以2；如果L_s特征值等于0的个数小于k，则λ乘以2；否则，停止迭代。

公式(5)中的秩约束可以消除，公式(5)可以改写为：

因为λ足够大，并且对于每个i，σ_i(L_s)≥0，因此对于公式(6)，最优解S将使得第二项等于零，并且约束等级rank(L_S)＝n-c将被满足。此外，根据Ky Fan的理论，可以写出下面的等式：

上式中，特征矩阵F为L_s的前k(k＝c)个最小的特征值对应的特征向量组成的矩阵，I为维度为n的单位方阵。然后，将公式(7)带入公式(6)变成以下问题：

s.t.s_ij≥0,s_i1n＝1,F∈R^n×c,F^TF＝I.

对于公式(8)可以通过解决如下两个子问题来进行解决(注意此时的α保持不变)：

子问题一：当S固定时求解F，公式(8)可以被写成：

子问题二：在公式(8)中，当固定F时，对S进行更新；

上式中，f_i、f_j为F的第i、j行，为矩阵A^(v)的第i行第j列元素。

由于公式(10)在不同的i之间是独立的，所以下面的问题可以被解决：

公式(11)可以变成以下矢量形式：

其中v_i是行向量，使其第i个元素为a_i ^(v)为矩阵A^(v)的第i行的行向量；利用迭代重加权法，公式(12)可以通过迭代求解以下问题来解决：

其中U^(v)是对角矩阵，使其对角线第i个对角元素为是公式(13)求得的解；则公式(13)可以修改为：

对于每一个i，设那么问题可以写成如下：

其中，

公式(15)的拉格朗日函数是：

其中η和β_i≥0是拉格朗日乘子向量；令公式(16)对s_i的求导结果为零，则：

上式中，η1n表示拉格朗日乘子向量η的所有元素之和为1；

对于s_i中的第j个元素，它将变为：

根据KKT条件(所有不等式约束条件加和等于0)，则有s_ijβ_ij＝0，β_ij为拉格朗日乘子向量β_i的第j个元素。对公式(18)有：

上式中，(·)₊表示取括号内的最大值。

以下与η相关函数被定义为：

根据公式(19)-(20)和约束，s_i1n＝1，就有了：

g_i(η)＝0 (21)

显然，函数g_i(x)的根是η的值。因为g_i(x)是一个分段线性和单调增函数，所以η可以用牛顿法很容易地计算出来。在计算η之后，公式(15)的最优解可以通过公式(19)获得，这样就可以对相似矩阵S进行求解。

通过对公式(9)-公式(21)的求解，可以完成对公式(8)求解，即解决了在固定α的情况下，F和S的更新问题。

上式中，α≥0表示行向量α的每个元素都大于等于0，e^(ν)＝||S-A^(ν)||₁，e＝{e⁽¹⁾,e⁽²⁾,...,e^(m)}，v＝1,2,…,m；

具体地：

当S固定时，公式(4)相当于最小化以下问题：

由于e^(ν)＝||S-A^(ν)||₁，则问题可以转换为：

这个问题可以通过牛顿法来进行解决。通过解决公式(23)，α可以被求解出来。

步骤5，不断执行步骤4，直至目标函数收敛，输出相似矩阵S，根据相似矩阵对应的图的最大连通分支的个数等于矩阵特征值为0的个数这个性质得到原始的多视图数据集X中每个数据样本的聚类标记。

相关实验：

发明人设计了一些实验来验证本发明所提出的方法的有效性。在基于拉普拉斯矩阵秩约束方法之后，为多视图数据集的每个视图构建作为初始输入矩阵A^(v)的图。我们不使用常规的基于内核的方法。相反，使用一种称为“邻居”的组合方法。该方法只需要设置一个参数k，k表示邻居节点的个数。显然，参数k值越小，邻接矩阵越稀疏，算法复杂度越小。但是，k值太小会导致性能下降。因此，k值过大会导致算法的复杂度急剧增加，但这并不意味着算法的准确性大大提高。而且，这样的k值不利于我们算法的应用。因此，良好的k值对图的构建质量至关重要。

1.合成数据集

在这部分，对合成数据集1和合成数据集2进行了两次实验，验证了RAMC算法(本发明方法)的有效性。

合成数据集1和合成数据集2分别包含两个视图。每个视图由90×90矩阵组成。在合成数据集1和合成数据集2的每个特征中有三个对角布置的块矩阵。每个特征的三块矩阵中的元素从0到1被随机地设置。对于合成数据集1，每个矩阵中的其他数据是噪声数据，其随机地从0到e设置，其中e＝0.6在第二个特征中e＝1。对于合成数据集2，它与合成数据集1具有相同的比例，同时具有不同的噪声设置。在特征1和特征2中的初始噪声e＝0.6和e＝0.7的情况下，对于第一和第二块数据，特征1的输入矩阵通过e＝0.8获得，而特征2的输入矩阵通过e＝1.0为第二个块和第三个数据。

图2和图3显示了归一化的原始输入图和由RAMC算法处理的聚类结果的灰度。实验结果表明，RAMC算法能够成功去除噪声，得到纯块矩阵。也就是说，所提出的算法表现出对具有噪声的多特征数据的最佳聚类性能。

2.测试比较不同实际数据集的聚类效应

我们在实验中使用了两个常规子集Caltech101-7和Caltech101-20和数字[亚松森和纽曼，2007]数据集。所提出的RAMC与以下方法进行比较：

共正则化谱聚类(Co reg)，多视图谱聚类(MVSC)，鲁棒多视图谱聚类(RMSC)，参数加权多视图聚类(PwMC)，自加权多视图聚类(SwMC)。CLR的结果也作为实验的基线进行比较。

每种比较方法中的参数设置为最佳。为了增加所提出的算法的通用性，每个特征的α^(v)被初始化为0和1之间的随机权重，并且所有权重都被归一化。对于每种比较方法，我们在每个数据集上重复实验五次，并用标准偏差(std)报告平均性能。如图4～图7，与其他六种方法相比，所提出的RAMC在三个真实世界的数据集上达到了最佳(或至少相等)的聚类纯度和NMI。还可以看出，聚类性能的标准偏差由RAMC方法非常小，这意味着所提出的RAMC方法具有稳定的聚类性能。值得一提的是，数据集Caltech101-20上提出的RAMC的平均聚类NMI甚至比其他方法的最佳性能高10个百分点。而且，Caltech 101-7数据集中的聚类NMI也得到了改进。

为了节省显示器上的空间，图3显示了五种聚类性能之一。可以看出，实线显示了以从0到5以步长0.5(对数形式)以对数形式(logγ10)搜索的参数γ的聚类结果。理论上，如果搜索到所有可能的γ，就可以得到最好的聚类结果。以可接受的方式，步长从0.5减小到0.1，因此可以获得更准确的聚类结果。为了清楚起见，虚线展示了在步长为0.1的最佳值附近的一些聚类结果。

3.评估健壮性

为了证明算法的鲁棒性，设计了以下实验。首先，需要基于原始数据集构造一组噪声数据集。假设r是随机噪声的比率，n是原始数据集中的数字，我们从原始数据集中随机挑选n×r个数据点。所选数据被添加到平均值为300和标准差为30的正态分布，因此一组嘈杂的数据集形成不同的r从0到0.5，步长为0.05。

对于空间限制，我们仅以MSRCv1数据集为例。为了使比较更清楚，我们只比较第二好和第三好的算法。我们在本节中使用聚类纯度和NMI作为评估指标。实验结果如图4和图5所示。从实验结果我们有以下观察。虽然随着随机噪声的比例增加，所提出比较算法的性能下降，所提算法的性能增益更加显着。例如，与PwMC相比，当随机噪声比从0增加到0.5时，RAMC对纯度的性能增益从0.59％增加到67.00％。同时，随机噪声比从0增加到0.5时，与PwMC相比，RAMC对NMI的性能增益从1.22％增加到498.55％，这种现象证实了该算法的鲁棒性。

Claims

1.一种鲁棒自动加权多特征聚类方法，其特征在于，包括以下步骤：

步骤2，引入相似矩阵S，并建立目标函数：

s.t.α^(ν)≥0,α^T1m＝1,s_ij≥0,s_i1n＝1,rank(L_s)＝n-c.

步骤3，对目标函数进行正则化，得到正则化后的目标函数：

s.t.α^(ν)≥0,α^T1m＝1,s_ij≥0,s_i1n＝1,rank(L_S)＝n-c.

上式中，为正则化项，||·||₂表示L2范数，γ表示超参数；

步骤4，对相似矩阵S和视图权重向量α进行更新，具体如下：