CN107704872A

CN107704872A - 一种基于相对最离散维分割的K‑means聚类初始中心选取方法

Info

Publication number: CN107704872A
Application number: CN201710844898.4A
Authority: CN
Inventors: 吴造林; 胡长俊
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2018-02-16

Abstract

本发明公开了一种基于相对最离散维分割的K‑means聚类初始中心点选取的方法。该方法思路为：给定一个D维的数据集，s1.对数据集进行降维处理；s2.评估降维后的数据集每个维度的离散程度；s3.选择相对最离散维进行分割，依照该维均值点将所有数据分为两类；s4.选取进行分割后的类别中数据点最多的一类，按照s2和s3选取相对最离散维，将其继续按照最离散维均值点处进行分割，依照上述步骤直到分割为所需的类别数为止；s5.对每个分割好的类别中数据求均值；s6.将每个类别的均值进行升维操作，并作为K‑means聚类的初始中心点。本发明的有益效果是：降维后的数据能减少运算量，加快运算速度，使得K‑means聚类能够以更少的迭代次数达到更高的聚类准确率。

Description

一种基于相对最离散维分割的K-means聚类初始中心选取方法

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种基于相对最离散维分割的K-means聚类初始中心选取方法。

背景技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

聚类就是把一组个体按照相似性归成若干类别，即“物以类聚”。它的目的是使得属于同一类别的个体之间距离尽可能小，而不同类别个体间的距离尽可能大。每个类别称为簇，簇内对象的相似性较高，而簇间对象的相似性较低。根据这种特点，聚类可分为基于划分，密度，层次和网格的聚类算法等。

K-means是一种基于划分的经典聚类算法，因其简单有效的特点被广泛应用于数据挖掘，机器学习，模式识别等任务上。

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

K-means基本原理如下：

设待聚类的数据集合：X＝{x_i|x_i∈R^D,i＝1,2,3,…,N}；

聚类类别数为K，且K个聚类中心分别为C₁,C₂,…,C_K；

从N个数据对象中随机选择K个初始中心；

计算每个对象与簇中心(均值点)对象的距离，并根据最近距离将对象分配给相应的簇；

对象间距离定义为欧氏距离，任意两数据点间(设为x_i，x_j)欧氏距离为

重新计算各个簇的均值；

重复[0010]～[0012]，直到目标函数不再变化为止。

数据集中各对象与该对象所在簇的簇中心的欧氏距离之和称为目标函数,一般用字母J表示；

上述是传统的K-means算法，传统的K-means算法很容易受初始中心点的影响，如果初始中心点选的不好，可能使迭代次数增多导致计算量增大，甚至会使聚类陷入局部最优解，并不能达到想要的效果。

发明内容

本发明实施方法提出一种K-means初始中心点选取方法，可以减少K-means算法的迭代次数。

本发明实施方法提出一种K-means初始中心点选取方法，应用此方法可以使得K-means聚类结果准确率更高，不会陷入局部最优。

传统K-means算法中，初始聚类中心都是随机指定的，这样会使得K-means聚类过程中迭代次数增加，以及陷入局部最优，因此，在本发明中，设计一种初始中心点选取方法如下：

给定一个任意待聚类数据集U(包含N个D维数据点)，以及聚类数K；

首先对数据集进行降维得到数据集X(包含N个d维数据点，d<＝D)，因为在原始数据集中，可能存在线性相关的维，通过将线性相关的维变换为线性无关的的表示，从而提取数据的主要特征分量。

在数据集Y中评估每一维的离散程度，也即计算每一维数据的方差，设x_ij表示第第i个数据的第j维的值，并定义X_j表示第j维的所有数据的值；

计算离散程度方法如下：

上述公式中var()表示求方差，对Y中的每一维数据求方差后，取方差值最大的那一维作为最离散维。

记最离散维数据为S(S为N×1的向量)。

计算向量S的均值Ms＝mean(S)。

将S中大于Ms的值所对应的数据点划分到第一个box，S中小于Ms的值对应的数据点划分到第二个box中。

计算每个box中的数据点个数，并选择包含最多数据点的box作为下一次待操作的数据集，记为box_max。

根据[0020]-[0026],将box_max继续划分为两个box，并重复上述步骤，直到box的数量与聚类数K一致为止。

计算每个box中数据的均值M_b＝[M_b1,M_b2,...,M_bK]^T，M_b为K×d的矩阵。

根据[0019]中的降维方法，将M_b进行升维到原始数据的维度得到C_b＝[C_b1,C_b2,...,C_bK]^T，C_b为K×D的矩阵。

此时的C_b即为K-means聚类初始中心。

附图说明

图1为本发明实施例中基于相对最离散维分割的K-means聚类初始中心选取方法的流程图。

图2为某二维数据集的可视图。

图3为本发明实施例中使用本发明的初始中心选取方法选出的初始中心点与聚类后的中心点对比图，红色小圆圈表示本发明方法选取的初始中心点，黑色小方框表示聚类后的各类别中心。

图4为在本发明方法选择的初始中心上的聚类结果。

具体实施方式

为使本发明的目的，技术方案和优点更加清晰，下面结合附图对本发明作进一步的详细描述。

具体实施方式及流程如下：

为了数据可视化，只使用二维数据点作为实施例子，给定数据集U(420个二维数据点)，聚类数为4。

因为数据集U为二维数据，故不再降维，此举并不影响对高维数据降维后的有效性。

评估二维数据的相对最离散维，根据该维将数据集一分为二。

选取两个数据集中数据点较多的那个数据集，对该数据集评估相对最离散维，再对其进行分割操作，此时，形成了3个数据集。

继续上述步骤，将选取三个数据集中数据点较多的一个数据集，评估其相对最离散维后进行分割操作，将其分为两个数据集，此时，形成四个数据集，与聚类数目一致。

对这四个数据集计算均值，因为一开始未对该数据集U进行降维操作，此处不需要对U进行升维操作，这四个数据集的均值即为K-means聚类初始中心。经过本发明方法选取的初始中心见图3。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种K-means聚类中心点初始化方法，其特征在于，该方法包括：

对任意给定的D维含N个数据的数据集，将该数据集变换为一组各维之间线性无关的表示，可用于提取该数据集的主要特征分量，即对该数据集进行降维。然后对于该数据集选取相对最离散维根据均值点进行分割，分割后得到所需的聚类类别数后，再对每个分割出的类别求均值，并进行升维操作后的数据点作为K-means聚类的初始中心点。

2.根据权利要求1的K-means聚类中心点初始化方法，其特征在于，所述的根据相对最离散维分割的方法包括：

对每一维数据的离散程度进行评估，对于相对最离散的那个维度，以该维的均值作为阈值点，数据集依据该维被分割为两个类，这两个类的数据点分别被放入两个box，再在这两个box中选取拥有更多的数据点的box作为下一个准备操作的数据集，记为box_max；对于box_max，继续计算每一维的方差，按照上述方法选取最离散的那一维，根据该维对box_max进行分割，将box_max又分割为两个box，重复上述做法，直到box的数量与聚类数K一致为止。

3.根据权利要求2中相对最离散分割方法，其特征在于，所述的相对最离散方法包括：

在进行数据分割之前，对每一维数据进行归一化(因为每一维数据可能并不是处于同一数量级)，归一化后计算每一维的方差，选择方差最大的那个维作为相对最离散维。

4.根据权利要求1中K-means聚类中心点初始化方法，其特征在于，所述的降维升维方法包括：

在原始数据集中，可能存在线性相关的维，通过将线性相关的维变换为线性无关的的表示，从而提取数据的主要特征分量，在降维中用到的变换矩阵可被后面的升维操作使用以将降维后的初始聚类中心点还原为初始的维数D。