CN109978066A

CN109978066A - 基于多尺度数据结构的快速谱聚类方法

Info

Publication number: CN109978066A
Application number: CN201910257841.3A
Authority: CN
Inventors: 陈旻昕; 张重阳; 朱国丰; 吴晨健; 陈虹
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-07-05
Anticipated expiration: 2039-04-01
Also published as: CN109978066B

Abstract

本发明公开了一种基于多尺度数据结构的快速谱聚类方法。本发明一种基于多尺度数据结构的快速谱聚类方法，包括：步骤1：对于输入d维空间数据V＝{v₁，v₂，...，v_n}，其中采用K‑d tree算法对数据进行预处理得到一系列数据集合U＝{u₁，u₂，...，u_m}(其中n为数据点个数，d为数据的维度，m为数据集合的个数)和树形结构；步骤2：计算集合与集合间的相似度矩阵W；其中计算W所使用的核函数为具体实现时，是通过从集合中选取一些采样点，用采样点间的欧式距离来衡量两个集合的相似程度。本发明的有益效果：本方法创新性的采用k‑d tree算法来获得一系列的数据集合，通过计算集合与集合之间的相似度矩阵来代替原本的基于数据构建的相似度矩阵。

Description

基于多尺度数据结构的快速谱聚类方法

技术领域

本发明涉及聚类领域，具体涉及一种基于多尺度数据结构的快速谱聚类方法。

背景技术

从机器视觉和机器学习的角度上来说，聚类是一种无监督学习的过程，它依据数据之间的相似程度来对数据进行归类，使得同一类别内的数据，彼此的相似度最大，而不同类别间的数据，彼此的相似度最小。数据聚类被广泛应用在医学图像的分割，金融数据的归类等方面；近年来，随着人工智能，机器学习，计算机视觉的发展，数据聚类方法的研究已变得尤为重要。目前而言，数据聚类的方法一般基于以下几点：1、基于划分的聚类方法；2、基于密度的聚类方法；3、基于图论的聚类方法。

K-means算法[1]，作为基于划分的聚类算法的代表，由于其实现简单，高效等特点，已是目前最常用的数据聚类方法之一。该算法先随机选取k个数据作为聚类的初始的聚类中心，然后计算每一个数据与这些聚类中心之间的距离，将数据分配给距离它最近的聚类中心。当所有数据分配完毕后，重新计算每一个聚类的聚类中心。如果没有数据被重新分配给其他的聚类中心或者所有的聚类中心都没有发生变化，则结束运算，否则不断重复上述过程直到满足上面的终止条件。

DBSCAN算法[2]，作为基于密度的聚类算法的代表，可以有效避免噪声干扰，同时能够把足够高密度的区域划分为簇。该方法有两个参数，搜索半径r和最小包含点数minPoints。随机选取一个未被访问(unvisited)的数据开始，将这个数据定为初始点，在搜索半径r的距离内，找出附近所有的数据点。如果数据点的个数大于等于minPoints，则当前数据与附近的数据形成一个簇，并且初始点被标记为已访问(visited)。然后按照相同的方法递归式的处理所有的unvisited数据，对簇进行扩充。如果数据点的个数小于minPoints，则该数据暂时被定为噪声数据。如果簇内所有点都被标记为visited，那么按照上述同样的方法重新处理那些为被访问的点，知道所有的数据都被标记为visited。

Spectral Clustering算法[3]，谱聚类算法从图论发展而来，该算法对数据分布的适应性更强，聚类效果也更优秀。该算法首先根据输入的数据，构建数据的相似度矩阵W和度矩阵D，根据式L＝D^-1/2WD^-1/2来构建Laplacian矩阵L，计算L最小的前k个特征值及其特征向量f，将各自特征向量f构成的矩阵按行进行归一化，将归一化后的矩阵的每一行作为一个样本，共n个样本，用k-means对其进行聚类，得到最终的聚类结果。

传统技术存在以下技术问题：

K-means算法虽然处理数据效率高，但并不能有效处理非凸数据集，往往只能作为数据处理方法的一个小部分，不能独立完成一些数据分类任务。

DBSCAN算法不能很好的反映高维度的数据，同时如果数据的密度分布不均匀，聚类间距差别较大时，其聚类结果较差。

Spectral Clustering算法，谱聚类算法作为目前最为有效的聚类算法之一，可以很好的处理各种类型的数据，同时由于其算法特性，在处理高维数据时，也有自己的优势，但是由于谱聚类算法在数据处理中，需要构建相似度矩阵，还需要求解相似度矩阵的特征向量，这两步的计算开销很大，对于现在的大规模数据和较大尺度的图像数据而言，这样的计算负担是不可接受。

发明内容

本发明要解决的技术问题是提供一种基于多尺度数据结构的快速谱聚类方法，由于谱聚类方法在数据处理中表现十分优异，但计算开销又是一个很大的问题。本发明针对谱聚类算法中相似度矩阵的构建和特征向量的分解这两步进行了优化改进，有效的提升了谱聚类算法的运行效率，使谱聚类算法能成功应用于较大规模的数据上。

为了解决上述技术问题，本发明提供了一种基于多尺度数据结构的快速谱聚类方法，包括：

步骤1：对于输入d维空间数据V＝{v₁，v₂，...，v_n}，其中采用K-dtree算法对数据进行预处理得到一系列数据集合U＝{u₁，u₂，...，u_m}(其中n为数据点个数，d为数据的维度，m为数据集合的个数)、转换矩阵H和树形结构；

步骤2：计算集合与集合间的相似度矩阵W；其中计算W所使用的核函数为

步骤3、选取深度为l_initl_init的层，作为K-dtree的初始层，依次遍历该层的每一个节点，对每一个节点进行操作，最终得到根节点的特征向量Evector；

步骤4、令Y＝H×Evector，将特征向量转回原数据空间。

步骤5、对Y按行进行归一化；

步骤6、将Y的每一个行当做一个数据点，用FuzzyC-means算法，对特征向量进行聚类，把其聚为k类C₁，C₂，...，C_k；

步骤7、若Y的第i行隶属于第j类，那么就把原始的数据x_i归到第j类中。

在其中一个实施例中，步骤1具体步骤如下：

步骤1.1构造根节点S⁰,S⁰中的数据为整个数据集V，计算数据集中每一维度上的方差V，找出方差maxV对应的最大维度，设为maxDim，

步骤1.2：以maxDim坐标轴的平均数作为切分点，将原数据集V，切分为V₁和V₂两个子集切分由通过切分点并与坐标轴maxDim垂直的超平面实现；由根节点生成深度为1的左、右子节点和左节点对应于坐标maxDim中小于切分点的数据，右结点对应于坐标maxDim大于切分点的数据；

步骤1.3对每一个节点重复上述过程，如果该节点计算的maxV小于某一阈值或者该节点只包含一个数据时停止；找出所有的叶子节点作为前文提到的数据集合；其中,其中l表示树的深度，i表示当前深度的节点标号；

步骤1.4根据得到的数据集合U＝{u₁，u₂，...，u_m}，基于下式得到转换矩阵H＝{h₁，h₂，...，h_m}，其中h_i＝{h_1i，h_2i，...，h_ni}；其中|u_j|表示数据集合u_j中数据的个数；

在其中一个实施例中，步骤3具体步骤如下：

步骤3.1、计算每一个节点的相似度矩阵为W的s阶主子式，即具体方法是直接从W中选取出对应的行和列，其中m₁为节点S^l-1中集合的个数；

步骤3.2基于公式得到一个更低维度的相似度矩阵对于初始层，这个Q^l为大小为m₁×m₁的单位矩阵；

步骤3.3计算的“行和”得到度矩阵

步骤3.4计算Laplacian矩阵

步骤3.5计算Laplacian矩阵前k个特征向量，得到m₁×k大小的特征向量e，将得到的特征向量通过公式将特征向量转回原空间，将得到的结果添加到其父节点S^l-1的转换矩阵Q^l-1中，添加方式如下：

步骤3.6、该层所有节点计算完毕后，令l＝l-1，转到树的上一层，重复步骤3，直到深度为0的层为止，得到第0层也就是原数据层的前k个特征值对应的特征向量矩阵Evector。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

本方法创新性的采用K-d tree算法来获得一系列的数据集合，通过计算集合与集合之间的相似度矩阵来代替原本的基于数据构建的相似度矩阵，因为数据集合的个数m是远小于数据的个数n的，因此基于集合的相似度矩阵的维度也将远远小于基于数据的。

此外本方法还创新性的利用了K-d tree的树形结构，用多个低维度的特征分解问题来近似一个高维度的特征分解问题，很直观的解决了谱聚类算法特征分解计算量大的问题。

从数学上，复杂度的角度分析，原来谱聚类算法构建相似度矩阵的复杂度为O(n²)，特征分解的复杂度为O(n³)。本方法中，谱聚类算法预处理的复杂度O(ndlog(n))，构建相似度矩阵的复杂度为O(m²)，特征分解的复杂度为O(n)。其中m为数据集合的个数，n为数据的个数，d为数据的维度，可以发现从复杂度的角度，本方法体现出自己高效的优势。

附图说明

图1是本发明基于多尺度数据结构的快速谱聚类方法中的K-dtree得到的树形结构示意图。

图2是本发明基于多尺度数据结构的快速谱聚类方法中的人工数据集示意图。

图3是本发明基于多尺度数据结构的快速谱聚类方法中的聚类结构图。

图4是本发明基于多尺度数据结构的快速谱聚类方法中的从Weizmann数据集选出的图片示意图。

图5是本发明基于多尺度数据结构的快速谱聚类方法中的分五类后的结果。

图6是本发明基于多尺度数据结构的快速谱聚类方法中的根据金标准提取的目标边界。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

步骤1：对于输入d维空间数据V＝{v₁，v₂，...，v_n}，其中采用K-d tree算法对数据进行预处理得到一系列数据集合U＝{u₁，u₂，...，u_m}(其中n为数据点个数，d为数据的维度，m为数据集合的个数)和树形结构。具体步骤如下：

步骤1.1构造根节点S⁰,S⁰中的数据为整个数据集V，计算数据集中每一维度上的方差V，找出方差maxV对应的最大维度，设为maxDim(因为方差越大，说明数据间的耦合度越低，数据间的相似度越小)，

步骤1.2：以maxDim坐标轴的平均数作为切分点，将原数据集V，切分为V₁和V₂两个子集(亦可分为多个子集，这里以两个子集为例)，切分由通过切分点并与坐标轴maxDim垂直的超平面实现。由根节点生成深度为1的左、右子节点和左节点对应于坐标maxDim中小于切分点的数据，右结点对应于坐标maxDim大于切分点的数据。

步骤1.3对每一个节点重复上述过程，如果该节点计算的maxV小于某一阈值或者该节点只包含一个数据时停止。找出所有的叶子节点作为前文提到的数据集合。这里，每一个数据集合内的耦合度都很高。并得到了如图1所示的树形结构。其中,其中I表示树的深度，i表示当前深度的节点标号

步骤1.4根据得到的数据集合U＝{u₁，u₂，...，u_m}，基于下式得到转换矩阵H＝{h₁，h₂，...，h_m}，其中h_i＝{h_1i，h_2i，...，h_ni}。其中|u_j|表示数据集合u_j中数据的个数。

步骤2：计算集合与集合间的相似度矩阵W。其中计算W所使用的核函数为具体实现时，是通过从集合中选取一些采样点，用采样点间的欧式距离来衡量两个集合的相似程度。

步骤3、选取深度为l_init的层，作为K-d tree的初始层，依次遍历该层的每一个节点，对每一个节点进行如下操作：

步骤3.1、计算每一个节点的相似度矩阵为W的s阶主子式，即具体方法是直接从W中选取出对应的行和列，其中m₁为节点S^l-1中集合的个数。

步骤3.2基于公式得到一个更低维度的相似度矩阵对于初始层，这个Q^l为大小为m₁×m₁的单位矩阵。

步骤3.3计算的“行和”得到度矩阵

步骤3.4计算Laplacian矩阵

步骤4、令Y＝H×Evector_R，将特征向量转回原数据集空间。

步骤5、对Y按行进行归一化。

步骤6、将Y的每一个行当做一个数据点，用Fuzzy C-means算法，对特征向量进行聚类，把其聚为k类C₁，C₂，...，C_k。

从之前的技术方案中可以看出，本方法创新性的采用K-d tree算法来获得一系列的数据集合，通过计算集合与集合之间的相似度矩阵来代替原本的基于数据构建的相似度矩阵，因为数据集合的个数m是远小于数据的个数n的，因此基于集合的相似度矩阵的维度也将远远小于基于数据的。

这里举出两个实例，从有效性和效率两个角度来体现本方法的可靠性。

首先是一个该方法在可视化的人工数据集上处理效果。

如图2所示的人工数据集，

1、首先按前文所述步骤，对该数据集进行处理，其中K-d tree的阈值为0.001，结果共得到了126个数据集合。K-d tree得到的树结构的高度为10。

2、根据得到的数据集合U＝{u₁，u₂，...，u_m}，基于下式得到转换矩阵H＝{h₁，h₂，...，h_m}，其中h_i＝{h_1i，h_2i，...，h_ni}。其中|u_j|表示数据集合u_j中数据的个数。

举个例子，u₁中有四个数据，分别对应原数据集V中第4到第7个数据，那么h₁＝[0 00 0.5 0.5 0.5 0.5 0...0]^T,0.5便是通过得到的。

2、计算集合与集合间的相似度矩阵W。使用的核函数为这里尺度参数σ的值是通过文献[4]中自适应谱聚类算法，通过从集合中选取一些采样点，用采样点间的欧式距离来衡量两个集合的相似程度。

3、选取深度为4的层，作为k-d tree的初始层，依次遍历该层的每一个节点，对每一个节点进行如下操作：

3.1计算每一个节点的相似度矩阵为W的s阶主子式，即具体方法是直接从W中选取出对应的行和列，其中m₁为节点S^l中集合的个数。

3.2基于公式得到一个更低维度的相似度矩阵对于初始层，这个Q^l为大小为m₁×m₁的单位矩阵。

3.3计算的“行和”得到度矩阵

3.4计算Laplacian矩阵

3.5计算Laplacian矩阵前3个特征向量，得到一个大小为m₁×3大小的特征向量e，将得到的特征向量通过公式将特征向量转回原空间，将该结果添加到其父节点S^l的转换矩阵Q^l-1中。添加方式如下：

3.6、该层所有节点计算完毕后，令l＝l-1，转到树的上一层，即深度为3的层，重复步骤3，直到深度为0的层为止，得到第0层也就是原数据层的前3个特征值对应的特征向量矩阵Evector。

4、令Y＝H×Evector，将特征向量转回原数据集空间。

5、对Y按行进行归一化。

6、将Y的每一个行当做一个数据点，用Fuzzy C-means算法，对特征向量进行聚类，把其聚为3类C₁，C₂，C₃。

7、若Y的第i行隶属于第j类，那么就把原始的数据x_i归到第j类中。

其实验结果如下图所示：

该实例证明了该方法的有效性。

另一实例，我们将该方法应用于UCI数据中的skin数据集中，该数据集中数据的个数为245057为大规模的数据集。采用与上述相同的步骤对其进行处理，所用的硬件设备为一台配置为Inter(R)Core(TM)i7-3770的CPU，8GB内存的个人电脑。该方法在该数据集上所用时间为4.31秒，正确率为73.2％，而传统谱聚类算法由于数据的规模较大，导致无法在该电脑上运行。

再举一个图像数据的例子，如图所示的图像选自We i zmann数据集。图像大小为300×225。

对图像数据的格式进行处理，使得数据的格式为[像素横坐标，像素纵坐标，像素值]，以便后续处理。

使用与处理数据相同的方法处理这组数据，其中k-d tree的阈值为10，分类个数为5类，初始深度选择为4。

图5和图6所示为分五类后的结果和根据金标准提取的目标边界

该方法在该图像上所用时间为1.56秒；然而同样的图片传统谱聚类算法的运行时间为26.38秒。

以上例子均证明了本方法分类结果较好，而且运行的效率非常高，拓宽了谱聚类的应用面。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于多尺度数据结构的快速谱聚类方法，其特征在于，包括：

步骤4、令Y＝H×Evector，将特征向量转回原数据空间。

步骤5、对Y按行进行归一化；

2.如权利要求1所述的基于多尺度数据结构的快速谱聚类方法，其特征在于，步骤1具体步骤如下：

步骤1.3对每一个节点重复上述过程，如果该节点计算的maxV小于某一阈值或者该节点只包含一个数据时停止；找出所有的叶子节点作为前文提到的数据集合；其中,其中I表示树的深度，i表示当前深度的节点标号；

3.如权利要求1所述的基于多尺度数据结构的快速谱聚类方法，其特征在于，步骤3具体步骤如下：

步骤3.3计算的“行和”得到度矩阵

步骤3.4计算Laplacian矩阵

步骤3.5计算Laplacian矩阵前k个特征向量，得到m₁×k大小的特征向量e，将得到的特征向量通过公式将特征向量转回原空间，将得到的结果添加到其父节点S^l ^-1的转换矩阵Q^l-1中，添加方式如下：

4.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到3任一项所述方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到3任一项所述方法的步骤。

6.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到3任一项所述的方法。