CN109063769B

CN109063769B - 基于变异系数自动确认簇数量的聚类方法、***及介质

Info

Publication number: CN109063769B
Application number: CN201810864958.3A
Authority: CN
Inventors: 刘腾腾; 曲守宁; 张坤; 杜韬; 王凯; 郭庆北; 朱连江; 王钦
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2021-04-09
Anticipated expiration: 2038-08-01
Also published as: CN109063769A

Abstract

本发明公开了基于变异系数自动确认簇数量的聚类方法、***及介质，计算数据集中每个数据点的密度值，根据密度值计算密度指数，选择密度指数最大的数据点作为第一个聚类中心；计算每个数据点与当前已有聚类中心之间的最短距离，然后根据最短距离计算每个数据点被选为聚类中心的概率，按照轮盘法预选聚类中心；直至选择出设定个聚类中心，根据选择出的初始聚类中心进行k‑means聚类从而产生相应个数的簇；计算平均簇内变异系数和最小簇间变异系数，然后，计算平均簇内变异系数和最小簇间变异系数的差值，将差值与设定值进行比较，如果差值小于设定值，则将两个簇间变异系数最小的两个簇进行合并；直至差值大于等于设定值，则输出聚类结果。

Description

基于变异系数自动确认簇数量的聚类方法、***及介质

技术领域

本发明涉及基于变异系数自动确认簇数量的聚类方法、***及介质。

背景技术

随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料，这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，因此迅速发展的还有数据挖掘技术，聚类分析技术是数据挖掘中的一个重要的研究领域，已经被广泛的用在许多应用中，包括模式识别、数据分析、图像处理以及市场研究。

聚类分析技术是一种无监督的学习方法，其中基于划分的聚类算法简单并且可以用于各种数据类型，但是需要事先设置簇的数量且对初始聚类中心敏感，k-means++算法对传统的k-means算法进行了改进，但仍然存在人工设置簇的数量的缺陷。

发明内容

为了解决现有技术的不足，本发明提供了基于变异系数自动确认簇数量的聚类方法、***及介质，其解决传统的k-means++聚类算法人工设置簇的数量以及初始质心选取不当的缺陷，利用变异系数以及密度指数的概念对基于划分的k-means++聚类算法进行了改进，无需人工设置簇的数量，也确保了聚类结果的准确性；

为了解决上述技术问题，本发明采用如下技术方案：

作为本发明的第一方面，提供了基于变异系数自动确认簇数量的聚类方法；

基于变异系数自动确认簇数量的聚类方法，包括：

步骤(1)：计算数据集中每个数据点的密度值，根据密度值计算密度指数，选择密度指数最大的数据点作为第一个聚类中心；

步骤(2)：计算每个数据点与当前已有聚类中心之间的最短距离，然后根据最短距离计算每个数据点被选为聚类中心的概率，最后，按照轮盘法预选聚类中心；所述预选聚类中心的密度指数大于设定阈值；

步骤(3)：重复步骤(2)，直至选择出设定个数的聚类中心，然后根据选择出的初始聚类中心进行k-means聚类从而产生相应个数的簇；

步骤(4)：计算平均簇内变异系数和最小簇间变异系数，然后，计算平均簇内变异系数和最小簇间变异系数的差值，将差值与设定值进行比较，如果差值小于设定值，则将两个簇间变异系数最小的两个簇进行合并；重复步骤(4)，直至差值大于等于设定值，则输出聚类结果。

进一步的，计算数据集中每个数据点的密度值的步骤为：

假设数据集(S₁，S₂，…，S_d)具有d维属性，并且数据空间S＝S₁×S₂×…×S_d是d维数据空间，x∈(x₁,x₂,…,x_d)表示在d维数据空间上数据集中的数据点。

首先，设定初始簇的数量k^*(k₁<k^*<k₂)的值，其中k₁和k₂均为大于目标簇的数量。

然后，计算数据点x的密度值ρ_x，并用公式(1)和(2)表示：

其中，num为数据点的个数，d_xy为数据集中数据点y到数据点x的距离，R为密度范围，f(X)为判断数据点y与数据点x的距离是否小于或等于密度范围R的函数；

进一步的，根据密度值计算密度指数，选择密度指数最大的数据点作为第一个聚类中心；的步骤为：

根据密度值ρ_x计算数据密度指数DI(Density Index)，并将密度指数最大的数据点作为第一个聚类中心：

进一步的，计算每个数据点与当前已有聚类中心之间的最短距离的步骤为：

根据k-means++算法中选择初始聚类中心的方式，对于数据集中的剩余数据点，依次计算该数据点与已经选择出的初始聚类中心的距离，比较选择出最短的距离作为该数据点与当前已有聚类中心之间的最短距离D(x)。

进一步的，根据最短距离计算每个数据点被选为聚类中心的概率的步骤为：

其中，D(x)表示每个数据点与当前已有聚类中心之间的最短距离；P(x)表示每个数据点被选为聚类中心的概率；

进一步的，按照轮盘法预选聚类中心的步骤为：

设置阈值τ，只有当预选聚类中心的密度指数达到τ时，才可作为正式的聚类中心，否则重新选择新的数据点作为聚类中心；一直重复轮盘法直到选择出k^*个聚类中心。

进一步的，计算平均簇内变异系数的步骤为：

首先，计算每个簇的簇内变异系数CV_i：

然后，计算平均簇内变异系数

其中，μ_i为簇i的质心，m_i为簇i的数据点个数，x_j为簇i中的第j个数据点，k^*表示预选出的聚类中心的个数。

因为，变异系数越大说明数据点越离散，所以通过计算簇内变异系数来反映簇的凝聚度的好坏。

进一步的，计算最小簇间变异系数的步骤为：

首先，计算簇间变异系数CV_ij：

然后，计算最小簇间变异系数D_min：

D_min＝min{CV_ij,i＝1,2,…,k^*,j＝1,2,…,k^*} (8)

其中，m_ij为簇i和簇j的数据点数量，μ_ij为簇i和簇j的质心，x_l为簇i和簇j中的第l个数据点。

进一步的，计算平均簇内变异系数和最小簇间变异系数的差值，将差值与设定值进行比较，如果差值小于设定值，则将两个簇间变异系数最小的两个簇进行合并；如果差值大于等于设定值，则输出聚类结果的步骤为：

计算平均簇内变异系数和最小簇间变异系数的差值T，根据差值判断是否需要进行簇的合并：

若T<0，即

合并簇间变异系数最小的两个簇；

若T≥0，即

当0≤T<ε时，合并簇间变异系数最小的两个簇；

当ε≤T时，输出簇的数量以及每个簇所对应的数据点。

作为本发明的第二方面，提供了基于变异系数自动确认簇数量的聚类***；

基于变异系数自动确认簇数量的聚类***，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

作为本发明的第三方面，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本发明的有益效果是：

利用变异系数以及密度指数的概念对基于划分的k-means++聚类算法进行了改进，无需人工设置簇的数量，也确保了聚类结果的准确性。

选择密度指数最大的数据点作为第一个聚类中心，是由于基于划分的聚类算法对初始质心的选择较为敏感，这样可以有效避开数据集中的异常值。

改进的自动确认簇数量的聚类算法，利用变异系数的概念在簇数量的确认以及初始质心的选择上都进行了优化，在聚类质量上会有很大的提升，可以有效的应用于数据的聚类分析。

用簇内变异系数表示簇的簇内凝聚度，用簇间变异系数表示簇的簇间分离度，当凝聚度和分离度均达到最大时，聚类效果最优。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为基于变异系数自动确认簇数量的聚类算法流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，基于变异系数自动确认簇数量的聚类方法，包括：

Step1：计算数据集中每个数据点的密度值ρ_x，根据密度值计算密度指数DI，选择密度指数最大的数据点作为第一个聚类中心。

Step2：计算每个数据点与当前已有聚类中心之间的最短距离D(x)，然后根据距离大小计算每个数据点被选为下一个聚类中心的概率P(x)，最后按轮盘法选择预选聚类中心,当预选聚类中心的密度指数达到阈值τ时，才可作为新的聚类中心，否则重新计算选择。

Step3：重复Step2，直到选择k^*(k₁<k^*<k₂)个聚类中心，并进行k-means聚类产生k^*个簇。

Step4：计算平均簇内变异系数

和最小簇间变异系数D_min，得到差值T，若T<0，即

将分离度较小的两个簇进行合并；若T≥0，即

当0≤T<ε时，将分离度较小的两个簇进行合并，当ε≤T时，聚类效果最优。

Step5：循环执行Step4，直到聚类效果达到最优。

首先利用密度指数的概念选择初始聚类中心，提高聚类质量。初始聚类中心的选择是通过计算每个数据点的密度值，根据密度值计算密度指数，选择密度指数最大的数据点作为第一个聚类中心，然后根据与已有聚类中心的距离计算数据点被选为下一个聚类中心的概率，以此来确认其他的聚类中心，同时聚类中心的密度指数要达到一定阈值，最后进行k-means算法形成初始聚类。

会议论文的主题多种多样，所以需要对会议论文进行聚类分析，将具有相似主题的论文聚集到一起。但是一开始我们并不知道具体的类别数量，为了获得高质量的聚类效果，所以将提出的自动确认簇数量的聚类算法应用于此。我们以1987年到2015年的NIPS会议论文为实验数据集，主要根据数据集中的会议论文中使用英文单词的次数对会议论文进行聚类分析。该数据集具有11463维属性以及5811个样本数据，并且数据空间S＝S₁×S₂×…×S₁₁₄₆₃是11463维数据空间，x∈(x₁,x₂,…,x₅₈₁₁)表示一篇NIPS会议论文中每个单词出现次数的情况。

确认初始会议论文类别的数量，随机确认k^*(k₁<k^*<k₂)的值，其中k₁和k₂均为明显大于目标会议论文类别数量的值。

计算会议论文数据集(S₁，S₂，…，S₁₁₄₆₃)中会议论文x的密度值ρ_x，即与会议论文x的差异度小于或等于密度范围内的会议论文的数量，

其中，num为会议论文的数量，d_xy为会议论文数据集中会议论文y与会议论文x的差异度，R为密度范围，f(X)为判断会议论文y与会议论文x的差异度是否小于或等于密度范围R的函数。

根据每篇会议论文的密度值ρ_x计算其密度指数DI(Density Index)，并将密度指数最大的会议论文作为第一个聚类中心，即DI_max，并用公式(3)表示，

选择密度指数最大的会议论文为作为第一个聚类中心，是因为基于划分的聚类算法对初始质心的选择较为敏感，选择密度较大的会议论文作为聚类中心可以有效的避开异常的论文数据，从而提高聚类的质量。

计算每个会议论文与当前已有聚类中心的最小的差异度D(x)，接着根据差异度计算每个会议论文被选为下一个聚类中心的概率，

对于初始聚类中心的选择，应该选择相互差异度较大的会议论文作为聚类中心，因此，计算每个会议论文被选为聚类中心的概率，与已有聚类中心的差异度越大，则被选中作为聚类中心的概率越大，使得选择出的聚类中心相对离散。

根据概率按轮盘法选择预选聚类中心，由于基于划分的聚类算法对异常值较为敏感，所以设置阈值τ，只有当预选聚类中心的密度指数达到τ时，才可作为正式的聚类中心，否则重新选择新的会议论文作为聚类中心。一直重复此过程直到选择出k^*个聚类中心，根据得到的k^*个初始聚类中心，进行传统的k-means算法形成k^*个簇。

由于初始选择的论文类别数量k^*明显大于目标k值，所以需要进行簇的合并将簇的个数减少到k，但是一开始并不知道目标的论文类别数量，所以引入了变异系数的概念，确定何时停止簇的合并。通过计算k^*个簇的平均簇内变异系数和最小簇间变异系数的关系确定论文的类别数量是否达到最优，即用簇内变异系数表示簇的簇内凝聚度，用簇间变异系数表示簇的簇间分离度，当凝聚度和分离度均达到最大时，聚类效果最优。

引入变异系数的概念，变异系数是表示数据分布状况的一个统计量，用来反映数据的离散程度，其好处是不需要参照数据的平均值，是一个无量纲量，在比较两组量纲不同或均值不同的数据时，应该用变异系数而不是标准差作为比较的参考，因此采用变异系数计算簇数量的阈值适用于所有类型的数据集。

其含义是一组数据的变异指标与其平均指标之比，即标准差σ与平均值μ的比值，并用公式(5)和(6)表示，

根据变异系数计算每个簇的簇内变异系数，然后求簇内变异系数的平均值

并用公式(7)和(8)表示，

其中，μ_i为簇i的质心，m_i为簇i的会议论文的数量，x_j为簇i中的第j篇会议论文。因为，变异系数越大说明会议论文的分布越分散，所以通过计算簇内变异系数来反映每个簇的凝聚度的好坏。

根据变异系数计算任意两个簇之间的簇间变异系数，然后求簇间变异系数的最小值D_min，并用公式(9)和(10)表示，

D_min＝min{CV_ij,i＝1,2,…,k^*,j＝1,2,…,k^*} (10)

其中，m_ij为簇i和簇j的会议论文的数量和，μ_ij为簇i和簇j的质心，x_l为簇i和簇j中的第l篇会议论文。通过计算簇间变异系数来反映两个簇分离度的好坏。

计算平均簇内变异系数和最小簇间变异系数的差值T，根据差值判断是否需要进行簇的合并，

若T<0，即

说明存在簇间变异系数较小的两个簇。簇间变异系数越小，两个簇中的会议论文的分布越凝聚，分离度就越低；由于初始设置的簇的数量大于目标簇的数量，所以平均簇内变异系数均较小且变化幅度比较小，每个簇的凝聚度就越高，所以只需要进行簇的合并。合并的策略是合并分离度最小的两个簇，即簇间变异系数为D_min的两个簇。

若T≥0，即

当0≤T<ε时，差值较小，说明存在簇间变异系数较小的两个簇，簇间变异系数和簇内变异系数越相近，两个簇中会议论文的分布越凝聚，分离度就越低，且每个簇的凝聚度较高，则需要进行簇的合并；当ε≤T时，存在一定的差值，说明簇间变异系数均比较大，簇间变异系数和簇内变异系数相差越大，两个簇中的会议论文分布越离散，分离度就越大，同时每个簇的凝聚度较高，当所有簇之间的分离度达到一定程度时，此时聚类效果良好，可以获得最佳的会议论文类别的数量。

若进行簇的合并，则需要重新计算平均簇内变异系数

和最小簇间变异系数D_min，然后根据两者的差值判断是否达到最优聚类效果，否则继续进行簇的合并，循环执行此过程，直到达到终止条件。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于变异系数自动确认会议论文簇数量的聚类方法，其特征是，包括：

以1987年到2015年的NIPS会议论文为实验数据集，根据数据集中的会议论文中使用英文单词的次数对会议论文进行聚类分析，该数据集具有11463维属性以及5811个样本数据，并且数据空间S＝S₁×S₂×…×S₁₁₄₆₃是11463维数据空间，x∈(x₁，x₂，...，x₅₈₁₁)表示一篇NIPS会议论文中每个单词出现次数的情况；

步骤(1)确认初始会议论文类别的数量，随机确认k^*(k₁＜k^*＜k₂)的值，其中k₁和k₂均为大于目标会议论文类别数量的值，