CN109271427A - 一种基于近邻密度和流形距离的聚类方法 - Google Patents
一种基于近邻密度和流形距离的聚类方法 Download PDFInfo
- Publication number
- CN109271427A CN109271427A CN201811208454.2A CN201811208454A CN109271427A CN 109271427 A CN109271427 A CN 109271427A CN 201811208454 A CN201811208454 A CN 201811208454A CN 109271427 A CN109271427 A CN 109271427A
- Authority
- CN
- China
- Prior art keywords
- data
- neighbour
- point
- density
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于近邻密度和流形距离的聚类方法,步骤为:1)根据改进信息熵计算每个特征的权重);2)根据加权欧氏距离计算每个样本的近邻密度,并依据近邻密度选取中心点;3)计算步骤2得到的数据集中的每个样本的欧式距离,并构建邻接图;4)计算邻接图中每两点之间的流形距离,组成流形距离矩阵;5)选取k个初始聚类中心,将每一个点归入与其流形距离最小的聚类中心所代表的聚类;6)更新聚类中心,然后重复步骤5直到聚类中心不再发生变化或者达到迭代次数上限。本发明通过上述方法,提供了一种算法运行效率高、聚类精度好的聚类方法。
Description
技术领域
本发明创造涉及一种聚类方法,尤其是一种基于近邻密度和流形距离的聚类方法。
背景技术
随着信息技术和物联网技术的发展,现代工业随着时间累积了大量的数据,但是由于在生产过程中各个变量相互影响,相互联系,导致这些数据在样本空间分布复杂。工业大数据蕴含着大价值,而如何提高工业大数据的可用性,从分布复杂的工业大数据中挖掘价值已经成为了一个研究热点。
聚类作为一种重要的数据挖掘方法,能够将一个数据集划分为若干个类内对象尽可能相似而类间数据对象相异的类簇,从而在数据集中发现潜在的数据模式与内在联系。聚类算法多数使用欧氏距离作为相似度度量,但是欧氏距离仅对空间分布为单一环形、球形或超球形的数据具有良好的性能。而对于工业大数据来说,其空间分布复杂,存在多种数据分布结构混合的情况,例如,在同一数据集中环形和球形并存的情况。欧氏距离无法精确的对其进行描述,无法发现任意形状的簇。另外,多数学者在进行聚类分析研究时,将数据的所有属性视为同等重要,即每个属性在算法设计时都设为相同的权值,没有考虑因数据属性权重不相等对数据挖掘分析结果的影响。事实上,只有数据样本的某几个特定属性才会得到有意义的聚类模式和结果。因此,在聚类过程中提高有实际意义的属性权值,削减不重要属性对聚类结果的影响,使得基于权重属性分析的聚类算法能够提高聚类结果的质量。
发明内容
为了解决现有技术存在的问题,本发明提供一种基于近邻密度和流形距离的聚类算法。本方法采用利用改进信息熵衡量样本特征对聚类结果的影响程度,提高聚类准确率;采用近邻密度思想减少了数据量,提高了算法运行效率;利用加权流形距离详细地描述了复杂分布数据的真实结构,完成了对复杂分布数据的精确聚类。
为了实现上述目的,本发明创造采用的技术方案为:一种基于近邻密度和流形距离的聚类方法,其特征在于,其步骤为:
步骤1)、计算数据样本的每个特征的权重;
步骤2)、利用步骤1)中得到的权重,根据加权欧氏距离计算每两个样本的近邻密度,依据近邻密度选取中心点,并将其保存在新数据集中;
步骤3)、计算步骤2)得到的数据集中的每个样本的欧式距离,构建邻接图;
步骤4)、计算邻接图中每两点之间的流形距离,组成流形距离矩阵;
步骤5)、选取k个初始聚类中心,将每一个点归入与其流形距离最小的聚类中心所代表的聚类;
步骤6)、更新聚类中心:重复步骤5)直到聚类中心不再发生变化或者达到迭代次数上限。
所述的步骤1)中,具体方法如下:
给定数据集X={x1,x2,x3…,xn},X∈Rn×d。R={r1,r2,r3,…rn}为标准化后的数据。标准化公式为:
其中:maxjxij和minjxij分别表示n个数据样本中第j个特征的最大值和最小值;
rij是第i个数据样本中第j个特征经过标准化后的值;
借助于该过程,将数据数都映射到[0,1]区间上,引入香农熵的定义:
其中:proij表示第i个数据样本的第j个特征取值在整个第j个特征中所占比重;
δ为调整参数;
e-n是一个收敛函数,用来调整δ的大小;
Hj为整个数据集的第j个特征的熵;
当proij为0时,则令Hj也为0;
在计算出每个特征的熵后,通过式(4)计算每个特征的权重ωj,过程如下:
其中ωj表示第j个特征的熵在所有熵值中所占的比例;
d是一个常数,是特征的个数。
所述的步骤2)中,具体方法如下:
根据式(5)计算每两个数据点之间的加权欧式距离,计算每个样本的k近邻和反k近邻,并根据式(6)计算每个数据点的近邻密度;
其中:Nk(x)为样本点x的k邻域,为x的反k邻域;
如果DoNx≥0.5,则认为该数据点是中心点,并将其保存在新数据集中。
所述的步骤3)中,具体方法如下:
搜索数据集中每个点xi,i=1,2,…d的k邻域和反k邻域,构建输入空间中所有数据点的邻接图G=(V,E),如果xj是xi的一个k近邻,则连接两点间的有向线段的长度为两点之间的改进欧氏距离d(xi,xj),该距离由式(5)计算得到;否则,
所述的步骤4)中,具体方法如下:
计算邻接图G=(V,E)中两点之间的最短路径dG(xi,xj);令Pij表示图G上点xi到xj的所有路径集合,则
计算邻接图G=(V,E)中任意两点间的流形距离dM:
并将其放入流形距离矩阵MD中。
所述的步骤6中,更新聚类中心的过程如下:
步骤6.1)、判断类簇中的数据点数目,若数目小于等于2,则直接输出原聚类中心;否则根据流形距离矩阵得到类簇中每一个数据点的流形距离,计算其信用度;
步骤6.2)、将类中所有点的信用度按照降序排列;
步骤6.3)、将信用度最大的点作为新的聚类中心;
步骤6.4)、输出新的聚类。
本发明创造的有益效果为:
本发明与现有技术相比,本发明提出的基于近邻密度和流形距离的复杂分布数据聚类算法,利用改进信息熵衡量样本特征对聚类结果的影响程度,提高聚类准确率;采用近邻密度思想减少了数据量,提高了算法运行效率;利用加权流形距离详细地描述了复杂分布数据的真实结构,完成了对复杂分布数据的精确聚类。
附图说明
图1为本发明方法流程图。
具体实施方式
一种基于互信息的实时特征提取方法,包括如下步骤:
1)、计算数据样本的每个特征的权重,具体步骤如下:
给定数据集X={x1,x2,x3…,xn},X∈Rn×d。R={r1,r2,r3,…rn}为标准化后的数据;标准化公式为:
其中maxjxij和minjxij分别表示n个数据样本中第j个特征的最大值和最小值;
rij是第i个数据样本中第j个特征经过标准化后的值。
借助于该过程,将数据数都映射到[0,1]区间上,引入香农熵的定义:
式(2)中p(xi)原指变量的一个取值在所有取值中出现的概率,但是概率无法描绘复杂数据结构的特点,具有极大的偶然性。
因此我们将其进行改进:
其中proij表示第i个数据样本的第j个特征取值在整个第j个特征中所占比重;δ为一个调整参数;Hj表示整个数据集的第j个特征的熵;特别地,当proij为0时,则令Hj也为0。
由于熵值与权重呈反比,直接使用熵作为权重与客观事实不符,因此在计算出每个特征的熵后,通过式(4)计算每个特征的权重ωj,过程如下:
其中ωj表示第j个特征的熵在所有熵值中所占的比例。
d是一个常数,是特征的个数。
2)、根据加权欧氏距离计算每两个个样本的近邻密度,并依据近邻密度选取中心点,具体步骤如下:
根据式(5)计算每两个数据点之间的加权欧式距离,计算每个样本的k近邻和反k近邻,并根据式(6)计算每个数据点的近邻密度。
其中:记Nk(x)为样本点x的k邻域,为x的反k邻域,即x是哪些样本的k近邻。
如果DoNx≥0.5,则认为该数据点是中心点,并将其保存在新数据集中。
3)、计算步骤2)得到的数据集中的每个样本的欧式距离,并构建邻接图,具体步骤如下:
搜索数据集中每个点xi,i=1,2,…d的k邻域和反k邻域,构建输入空间中所有数据点的邻接图G=(V,E),如果xj是xi的一个k近邻,则连接两点间的有向线段的长度为两点之间的改进欧氏距离d(xi,xj),该距离由式(5)计算得到;否则,
4)、计算邻接图中每两点之间的流形距离,组成流形距离矩阵;
计算邻接图G=(V,E)中两点之间的最短路径dG(xi,xj)。令Pij表示图G上点xi到xj的所有路径集合,则
计算邻接图G=(V,E)中任意两点间的流形距离dM:
dM(xi,xj)=1-exp{-dG(xi,xj)} (8)
并将其放入流形距离矩阵MD中。
5)、选取k个初始聚类中心,将每一个点归入与其流形距离最小的聚类中心所代表的聚类。
6)、更新聚类中心,然后重复步骤5直到聚类中心不再发生变化或者达到迭代次数上限。更新聚类中心的过程如下:
步骤6.1)、判断类簇中的数据点数目,若数目小于等于2,则直接输出原聚类中心。否则根据流形距离矩阵得到类簇中每一个数据点的流形距离,计算其信用度。
步骤6.2)、将类中所有点的信用度按照降序排列。
步骤6.3)、将信用度最大的点作为新的聚类中心。
步骤6.4)、输出新的聚类中心。
实施例1:
1)、实验数据集
为了检测MD-CDData算法的聚类性能和效率,本文采用3个人工数据集和3个UCI数据集进行实验,并将MD-CDData算法、标准k均值算法、TPC算法、DBSCAN算法和TPC-ABC算法进行对比分析。表1给出了实验所用数据集的部分性质。
表1实验中所用数据集
其中前3个数据集是具有复杂非线性分布结构的人工数据集,其分布形状大致呈:两个平行的线段、一个半环两个实心块和两长两短四条平行的线段。后3个数据集来自UCI公开数据集,其维数较高,且包含多种数据分布结构。
2)、实验结果与分析
实验环境为:Intel奔腾3.0GHz的CPU,4GB内存,操作***是WIN7,编程软件是MATLAB2008b.算法迭代次数设为150。
表2和表3给出MD-CDData算法,k均值算法、TPC算法、DBSCAN算法和TPC-ABC算法在每个数据集上的f-measure值和运行时间,表中数据是分别对每种算法进行20次实验后取平均值得到。
表2各算法的F-measure值
由表2可以看出:在聚类准确率上,对于Long1,Line-blobs,Sticks这3个人工数据集,本文提出的MD-CDData算法的准确率是最高的。与TPC算法和TPC-ABC算法很接近、由于人工数据集的密度比较均匀,所以DBSCAN算法也有比较好的性能。而k均值算法准确率远低于MD-CDData算法,只对Line-blobs这种有球形簇存在的数据集有比较好的聚类效果;在Iris,German数据集上,本文提算法的准确率在所有算法中之中是最高的,在Wine数据集上本文提出的算法的准确率略低于TPC-ABC算法。上述实验结果表明本文提出的基于流形距离的聚类算法能很好的揭示复杂分布数据的流形结构,将其正确聚类;而使用欧氏距离作为相似度度量的聚类算法对复杂分布数据的聚类效果较差。
表3各算法的运行时间
从表3从时间上来看,对于人工数据集和UCI数据集,MD-CDData算法整体上使用的时间是最少的。与TPC算法和TPC-ABC算法相比,也有较大的优势,并且远远低于k均值算法,k均值算法由于聚类中心难以固定,因此收敛速度很慢,导致运行时间很长。
由于本文采用特征权重和流形距离,使聚类准确率在所用实验集上均有了一定提高;采用近邻密度对样本进行选择,在保持准确率的前提下,使得算法运行的时间也大大减少。
Claims (6)
1.一种基于近邻密度和流形距离的聚类方法,其特征在于,其步骤为:
步骤1)、计算数据样本的每个特征的权重;
步骤2)、利用步骤1)中得到的权重,根据加权欧氏距离计算每两个样本的近邻密度,依据近邻密度选取中心点,并将其保存在新数据集中;
步骤3)、计算步骤2)得到的数据集中的每个样本的欧式距离,构建邻接图;
步骤4)、计算邻接图中每两点之间的流形距离,组成流形距离矩阵;
步骤5)、选取k个初始聚类中心,将每一个点归入与其流形距离最小的聚类中心所代表的聚类;
步骤6)、更新聚类中心:重复步骤5)直到聚类中心不再发生变化或者达到迭代次数上限。
2.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法,其特征在于:所述的步骤1)中,具体方法如下:
给定数据集X={x1,x2,x3…,xn},X∈Rn×d。R={r1,r2,r3,…rn}为标准化后的数据。标准化公式为:
其中:maxjxij和minjxij分别表示n个数据样本中第j个特征的最大值和最小值;
rij是第i个数据样本中第j个特征经过标准化后的值;
借助于该过程,将数据数都映射到[0,1]区间上,引入香农熵的定义:
其中:proij表示第i个数据样本的第j个特征取值在整个第j个特征中所占比重;
δ为调整参数;e-n是一个收敛函数,用来调整δ的大小;
Hj为整个数据集的第j个特征的熵;
当proij为0时,则令Hj也为0;
在计算出每个特征的熵后,通过式(4)计算每个特征的权重ωj,过程如下:
其中ωj表示第j个特征的熵在所有熵值中所占的比例;
d是一个常数,是特征的个数。
3.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法,其特征在于:所述的步骤2)中,具体方法如下:
根据式(5)计算每两个数据点之间的加权欧式距离,计算每个样本的k近邻和反k近邻,并根据式(6)计算每个数据点的近邻密度;
其中:Nk(x)为样本点x的k邻域,为x的反k邻域;
如果DoNx≥0.5,则认为该数据点是中心点,并将其保存在新数据集中。
4.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法,其特征在于:所述的步骤3)中,具体方法如下:
搜索数据集中每个点xi,i=1,2,…d的k邻域和反k邻域,构建输入空间中所有数据点的邻接图G=(V,E),如果xj是xi的一个k近邻,则连接两点间的有向线段的长度为两点之间的改进欧氏距离d(xi,xj),该距离由式(5)计算得到;否则,
5.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法,其特征在于:所述的步骤4)中,具体方法如下:
计算邻接图G=(V,E)中两点之间的最短路径dG(xi,xj);令Pij表示图G上点xi到xj的所有路径集合,则
计算邻接图G=(V,E)中任意两点间的流形距离dM:
dM(xi,xj)=1-exp{-dG(xi,xj)} (8)
并将其放入流形距离矩阵MD中。
6.根据权利要求1所述的一种基于近邻密度和流形距离的聚类方法,其特征在于:所述的步骤6中,更新聚类中心的过程如下:
步骤6.1)、判断类簇中的数据点数目,若数目小于等于2,则直接输出原聚类中心;否则根据流形距离矩阵得到类簇中每一个数据点的流形距离,计算其信用度;
步骤6.2)、将类中所有点的信用度按照降序排列;
步骤6.3)、将信用度最大的点作为新的聚类中心;
步骤6.4)、输出新的聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811208454.2A CN109271427A (zh) | 2018-10-17 | 2018-10-17 | 一种基于近邻密度和流形距离的聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811208454.2A CN109271427A (zh) | 2018-10-17 | 2018-10-17 | 一种基于近邻密度和流形距离的聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109271427A true CN109271427A (zh) | 2019-01-25 |
Family
ID=65192811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811208454.2A Pending CN109271427A (zh) | 2018-10-17 | 2018-10-17 | 一种基于近邻密度和流形距离的聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271427A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948701A (zh) * | 2019-03-19 | 2019-06-28 | 太原科技大学 | 一种基于轨迹间时空关联性的数据聚类方法 |
CN111191687A (zh) * | 2019-12-14 | 2020-05-22 | 贵州电网有限责任公司 | 基于改进K-means算法的电力通信数据聚类方法 |
CN112183281A (zh) * | 2020-09-21 | 2021-01-05 | 中国人民解放军国防科技大学 | 基于改进密度峰值算法的通信辐射源个体识别方法 |
CN112288571A (zh) * | 2020-11-24 | 2021-01-29 | 重庆邮电大学 | 一种基于快速构建邻域覆盖的个人信用风险评估方法 |
CN112348360A (zh) * | 2020-11-06 | 2021-02-09 | 华润三九(枣庄)药业有限公司 | 一种基于大数据技术的中药生产工艺参数分析*** |
WO2022063150A1 (zh) * | 2020-09-27 | 2022-03-31 | 阿里云计算有限公司 | 数据存储方法及装置、数据查询方法及装置 |
CN114358207A (zh) * | 2022-01-12 | 2022-04-15 | 国网浙江省电力有限公司电力科学研究院 | 一种改进的k-means异常负荷检测方法及*** |
-
2018
- 2018-10-17 CN CN201811208454.2A patent/CN109271427A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948701A (zh) * | 2019-03-19 | 2019-06-28 | 太原科技大学 | 一种基于轨迹间时空关联性的数据聚类方法 |
CN111191687A (zh) * | 2019-12-14 | 2020-05-22 | 贵州电网有限责任公司 | 基于改进K-means算法的电力通信数据聚类方法 |
CN111191687B (zh) * | 2019-12-14 | 2023-02-10 | 贵州电网有限责任公司 | 基于改进K-means算法的电力通信数据聚类方法 |
CN112183281A (zh) * | 2020-09-21 | 2021-01-05 | 中国人民解放军国防科技大学 | 基于改进密度峰值算法的通信辐射源个体识别方法 |
WO2022063150A1 (zh) * | 2020-09-27 | 2022-03-31 | 阿里云计算有限公司 | 数据存储方法及装置、数据查询方法及装置 |
CN112348360A (zh) * | 2020-11-06 | 2021-02-09 | 华润三九(枣庄)药业有限公司 | 一种基于大数据技术的中药生产工艺参数分析*** |
CN112288571A (zh) * | 2020-11-24 | 2021-01-29 | 重庆邮电大学 | 一种基于快速构建邻域覆盖的个人信用风险评估方法 |
CN112288571B (zh) * | 2020-11-24 | 2022-06-10 | 重庆邮电大学 | 一种基于快速构建邻域覆盖的个人信用风险评估方法 |
CN114358207A (zh) * | 2022-01-12 | 2022-04-15 | 国网浙江省电力有限公司电力科学研究院 | 一种改进的k-means异常负荷检测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271427A (zh) | 一种基于近邻密度和流形距离的聚类方法 | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
CN104217015B (zh) | 基于互为共享最近邻的层次聚类方法 | |
CN103888541A (zh) | 一种融合拓扑势和谱聚类的社区发现方法及*** | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN107832456B (zh) | 一种基于临界值数据划分的并行knn文本分类方法 | |
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN107301328B (zh) | 基于数据流聚类的癌症亚型精准发现与演化分析方法 | |
CN108564592A (zh) | 基于动态多种群集成差分进化算法的图像分割方法 | |
CN108280236A (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
CN106934417A (zh) | 一种面向混合属性的数据流自适应聚类方法 | |
CN109686402A (zh) | 基于动态加权相互作用网络中关键蛋白质识别方法 | |
CN109213951A (zh) | 一种基于信任计算和矩阵分解的推荐算法 | |
CN108427756A (zh) | 基于同类用户模型的个性化查询词补全推荐方法和装置 | |
CN106778869A (zh) | 一种基于参考点的快速精确近邻分类算法 | |
Xing et al. | Fuzzy c-means algorithm automatically determining optimal number of clusters | |
CN110378402A (zh) | 一种自学习属性权重的K-means聚类方法 | |
CN109858667A (zh) | 一种基于雷电气候对负荷影响的短期负荷聚类方法 | |
CN113206756A (zh) | 基于组合模型的网络流量预测方法 | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
CN116204647A (zh) | 一种目标比对学习模型的建立、文本聚类方法及装置 | |
CN105760478A (zh) | 一种基于机器学习的大规模分布式的数据聚类方法 | |
CN109447833A (zh) | 一种大规模微博用户兴趣群体发现方法 | |
CN106897292A (zh) | 一种互联网数据聚类方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190125 |