CN109271427A

CN109271427A - 一种基于近邻密度和流形距离的聚类方法

Info

Publication number: CN109271427A
Application number: CN201811208454.2A
Authority: CN
Inventors: 王妍; 李俊; 杨冰清; 曾辉; 李玉诺
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-01-25

Abstract

一种基于近邻密度和流形距离的聚类方法，步骤为：1)根据改进信息熵计算每个特征的权重)；2)根据加权欧氏距离计算每个样本的近邻密度，并依据近邻密度选取中心点；3)计算步骤2得到的数据集中的每个样本的欧式距离，并构建邻接图；4)计算邻接图中每两点之间的流形距离，组成流形距离矩阵；5)选取k个初始聚类中心，将每一个点归入与其流形距离最小的聚类中心所代表的聚类；6)更新聚类中心，然后重复步骤5直到聚类中心不再发生变化或者达到迭代次数上限。本发明通过上述方法，提供了一种算法运行效率高、聚类精度好的聚类方法。

Description

一种基于近邻密度和流形距离的聚类方法

技术领域

本发明创造涉及一种聚类方法，尤其是一种基于近邻密度和流形距离的聚类方法。

背景技术

随着信息技术和物联网技术的发展，现代工业随着时间累积了大量的数据，但是由于在生产过程中各个变量相互影响，相互联系，导致这些数据在样本空间分布复杂。工业大数据蕴含着大价值，而如何提高工业大数据的可用性，从分布复杂的工业大数据中挖掘价值已经成为了一个研究热点。

聚类作为一种重要的数据挖掘方法，能够将一个数据集划分为若干个类内对象尽可能相似而类间数据对象相异的类簇，从而在数据集中发现潜在的数据模式与内在联系。聚类算法多数使用欧氏距离作为相似度度量，但是欧氏距离仅对空间分布为单一环形、球形或超球形的数据具有良好的性能。而对于工业大数据来说，其空间分布复杂，存在多种数据分布结构混合的情况，例如，在同一数据集中环形和球形并存的情况。欧氏距离无法精确的对其进行描述，无法发现任意形状的簇。另外，多数学者在进行聚类分析研究时，将数据的所有属性视为同等重要，即每个属性在算法设计时都设为相同的权值，没有考虑因数据属性权重不相等对数据挖掘分析结果的影响。事实上，只有数据样本的某几个特定属性才会得到有意义的聚类模式和结果。因此，在聚类过程中提高有实际意义的属性权值，削减不重要属性对聚类结果的影响，使得基于权重属性分析的聚类算法能够提高聚类结果的质量。

发明内容

为了解决现有技术存在的问题，本发明提供一种基于近邻密度和流形距离的聚类算法。本方法采用利用改进信息熵衡量样本特征对聚类结果的影响程度，提高聚类准确率；采用近邻密度思想减少了数据量，提高了算法运行效率；利用加权流形距离详细地描述了复杂分布数据的真实结构，完成了对复杂分布数据的精确聚类。

为了实现上述目的，本发明创造采用的技术方案为：一种基于近邻密度和流形距离的聚类方法，其特征在于，其步骤为：

步骤1)、计算数据样本的每个特征的权重；

步骤2)、利用步骤1)中得到的权重，根据加权欧氏距离计算每两个样本的近邻密度，依据近邻密度选取中心点，并将其保存在新数据集中；

步骤3)、计算步骤2)得到的数据集中的每个样本的欧式距离，构建邻接图；

步骤4)、计算邻接图中每两点之间的流形距离，组成流形距离矩阵；

步骤5)、选取k个初始聚类中心，将每一个点归入与其流形距离最小的聚类中心所代表的聚类；

步骤6)、更新聚类中心：重复步骤5)直到聚类中心不再发生变化或者达到迭代次数上限。

所述的步骤1)中，具体方法如下：

给定数据集X＝{x₁,x₂,x₃…,x_n}，X∈R^n×d。R＝{r₁,r₂,r₃,…r_n}为标准化后的数据。标准化公式为：

其中：max_jx_ij和min_jx_ij分别表示n个数据样本中第j个特征的最大值和最小值；

r_ij是第i个数据样本中第j个特征经过标准化后的值；

借助于该过程，将数据数都映射到[0,1]区间上，引入香农熵的定义：

其中：pro_ij表示第i个数据样本的第j个特征取值在整个第j个特征中所占比重；

δ为调整参数；

e^-n是一个收敛函数，用来调整δ的大小；

H_j为整个数据集的第j个特征的熵；

当pro_ij为0时，则令H_j也为0；

在计算出每个特征的熵后，通过式(4)计算每个特征的权重ω_j，过程如下：

其中ω_j表示第j个特征的熵在所有熵值中所占的比例；

d是一个常数，是特征的个数。

所述的步骤2)中，具体方法如下：

根据式(5)计算每两个数据点之间的加权欧式距离，计算每个样本的k近邻和反k近邻，并根据式(6)计算每个数据点的近邻密度；

其中：N_k(x)为样本点x的k邻域，为x的反k邻域；

如果DoN_x≥0.5，则认为该数据点是中心点，并将其保存在新数据集中。

所述的步骤3)中，具体方法如下：

搜索数据集中每个点x_i,i＝1,2,…d的k邻域和反k邻域，构建输入空间中所有数据点的邻接图G＝(V,E)，如果x_j是x_i的一个k近邻，则连接两点间的有向线段的长度为两点之间的改进欧氏距离d(x_i,x_j)，该距离由式(5)计算得到；否则，

所述的步骤4)中，具体方法如下：

计算邻接图G＝(V,E)中两点之间的最短路径d_G(x_i,x_j)；令P_ij表示图G上点x_i到x_j的所有路径集合，则

计算邻接图G＝(V,E)中任意两点间的流形距离d_M：

并将其放入流形距离矩阵MD中。

所述的步骤6中，更新聚类中心的过程如下：

步骤6.1)、判断类簇中的数据点数目，若数目小于等于2，则直接输出原聚类中心；否则根据流形距离矩阵得到类簇中每一个数据点的流形距离，计算其信用度；

步骤6.2)、将类中所有点的信用度按照降序排列；

步骤6.3)、将信用度最大的点作为新的聚类中心；

步骤6.4)、输出新的聚类。

本发明创造的有益效果为：

本发明与现有技术相比，本发明提出的基于近邻密度和流形距离的复杂分布数据聚类算法，利用改进信息熵衡量样本特征对聚类结果的影响程度，提高聚类准确率；采用近邻密度思想减少了数据量，提高了算法运行效率；利用加权流形距离详细地描述了复杂分布数据的真实结构，完成了对复杂分布数据的精确聚类。

附图说明

图1为本发明方法流程图。

具体实施方式

一种基于互信息的实时特征提取方法，包括如下步骤：

1)、计算数据样本的每个特征的权重，具体步骤如下：

给定数据集X＝{x₁,x₂,x₃…,x_n}，X∈R^n×d。R＝{r₁,r₂,r₃,…r_n}为标准化后的数据；标准化公式为：

其中max_jx_ij和min_jx_ij分别表示n个数据样本中第j个特征的最大值和最小值；

r_ij是第i个数据样本中第j个特征经过标准化后的值。

式(2)中p(x_i)原指变量的一个取值在所有取值中出现的概率，但是概率无法描绘复杂数据结构的特点,具有极大的偶然性。

因此我们将其进行改进：

其中pro_ij表示第i个数据样本的第j个特征取值在整个第j个特征中所占比重；δ为一个调整参数；H_j表示整个数据集的第j个特征的熵；特别地，当pro_ij为0时，则令H_j也为0。

由于熵值与权重呈反比，直接使用熵作为权重与客观事实不符，因此在计算出每个特征的熵后，通过式(4)计算每个特征的权重ω_j，过程如下：

其中ω_j表示第j个特征的熵在所有熵值中所占的比例。

d是一个常数，是特征的个数。

2)、根据加权欧氏距离计算每两个个样本的近邻密度，并依据近邻密度选取中心点，具体步骤如下：

根据式(5)计算每两个数据点之间的加权欧式距离，计算每个样本的k近邻和反k近邻，并根据式(6)计算每个数据点的近邻密度。

其中：记N_k(x)为样本点x的k邻域，为x的反k邻域，即x是哪些样本的k近邻。

3)、计算步骤2)得到的数据集中的每个样本的欧式距离，并构建邻接图，具体步骤如下：

4)、计算邻接图中每两点之间的流形距离，组成流形距离矩阵；

计算邻接图G＝(V,E)中两点之间的最短路径d_G(x_i,x_j)。令P_ij表示图G上点x_i到x_j的所有路径集合，则

计算邻接图G＝(V,E)中任意两点间的流形距离d_M：

d_M(x_i,x_j)＝1-exp{-d_G(x_i,x_j)} (8)

并将其放入流形距离矩阵MD中。

5)、选取k个初始聚类中心，将每一个点归入与其流形距离最小的聚类中心所代表的聚类。

6)、更新聚类中心，然后重复步骤5直到聚类中心不再发生变化或者达到迭代次数上限。更新聚类中心的过程如下：

步骤6.1)、判断类簇中的数据点数目，若数目小于等于2，则直接输出原聚类中心。否则根据流形距离矩阵得到类簇中每一个数据点的流形距离，计算其信用度。

步骤6.2)、将类中所有点的信用度按照降序排列。

步骤6.3)、将信用度最大的点作为新的聚类中心。

步骤6.4)、输出新的聚类中心。

实施例1:

1)、实验数据集

为了检测MD-CDData算法的聚类性能和效率，本文采用3个人工数据集和3个UCI数据集进行实验，并将MD-CDData算法、标准k均值算法、TPC算法、DBSCAN算法和TPC-ABC算法进行对比分析。表1给出了实验所用数据集的部分性质。

表1实验中所用数据集

其中前3个数据集是具有复杂非线性分布结构的人工数据集，其分布形状大致呈：两个平行的线段、一个半环两个实心块和两长两短四条平行的线段。后3个数据集来自UCI公开数据集，其维数较高，且包含多种数据分布结构。

2)、实验结果与分析

实验环境为：Intel奔腾3.0GHz的CPU，4GB内存，操作***是WIN7，编程软件是MATLAB2008b.算法迭代次数设为150。

表2和表3给出MD-CDData算法，k均值算法、TPC算法、DBSCAN算法和TPC-ABC算法在每个数据集上的f-measure值和运行时间，表中数据是分别对每种算法进行20次实验后取平均值得到。

表2各算法的F-measure值

由表2可以看出：在聚类准确率上，对于Long1，Line-blobs，Sticks这3个人工数据集，本文提出的MD-CDData算法的准确率是最高的。与TPC算法和TPC-ABC算法很接近、由于人工数据集的密度比较均匀，所以DBSCAN算法也有比较好的性能。而k均值算法准确率远低于MD-CDData算法，只对Line-blobs这种有球形簇存在的数据集有比较好的聚类效果；在Iris，German数据集上，本文提算法的准确率在所有算法中之中是最高的，在Wine数据集上本文提出的算法的准确率略低于TPC-ABC算法。上述实验结果表明本文提出的基于流形距离的聚类算法能很好的揭示复杂分布数据的流形结构，将其正确聚类；而使用欧氏距离作为相似度度量的聚类算法对复杂分布数据的聚类效果较差。

表3各算法的运行时间

从表3从时间上来看，对于人工数据集和UCI数据集，MD-CDData算法整体上使用的时间是最少的。与TPC算法和TPC-ABC算法相比，也有较大的优势，并且远远低于k均值算法，k均值算法由于聚类中心难以固定，因此收敛速度很慢，导致运行时间很长。

由于本文采用特征权重和流形距离，使聚类准确率在所用实验集上均有了一定提高；采用近邻密度对样本进行选择，在保持准确率的前提下，使得算法运行的时间也大大减少。

Claims

1.一种基于近邻密度和流形距离的聚类方法，其特征在于，其步骤为：

步骤1)、计算数据样本的每个特征的权重；

2.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法，其特征在于：所述的步骤1)中，具体方法如下：

r_ij是第i个数据样本中第j个特征经过标准化后的值；

δ为调整参数；e^-n是一个收敛函数，用来调整δ的大小；

H_j为整个数据集的第j个特征的熵；

当pro_ij为0时，则令H_j也为0；

其中ω_j表示第j个特征的熵在所有熵值中所占的比例；

d是一个常数，是特征的个数。

3.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法，其特征在于：所述的步骤2)中，具体方法如下：

其中：N_k(x)为样本点x的k邻域，为x的反k邻域；

4.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法，其特征在于：所述的步骤3)中，具体方法如下：

5.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法，其特征在于：所述的步骤4)中，具体方法如下：

计算邻接图G＝(V,E)中任意两点间的流形距离d_M：

d_M(x_i,x_j)＝1-exp{-d_G(x_i,x_j)} (8)

并将其放入流形距离矩阵MD中。

6.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法，其特征在于：所述的步骤6中，更新聚类中心的过程如下：

步骤6.2)、将类中所有点的信用度按照降序排列；

步骤6.3)、将信用度最大的点作为新的聚类中心；

步骤6.4)、输出新的聚类。