CN104598565A

CN104598565A - 一种基于随机梯度下降算法的k均值大规模数据聚类方法

Info

Publication number: CN104598565A
Application number: CN201510011974.4A
Authority: CN
Inventors: 韩海韵; 丁杰; 戴江鹏; 周爱华; 孙玉宝
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Smart Grid Research Institute of SGCC
Priority date: 2015-01-09
Filing date: 2015-01-09
Publication date: 2015-05-06
Anticipated expiration: 2035-01-09
Also published as: CN104598565B

Abstract

本发明提供一种基于随机梯度下降算法的K均值大规模数据聚类方法，包括以下步骤：随机初始化K个聚类中心；采样数据样本，并将该数据样本划分到所属类型；对目标函数进行迭代；重复步骤1-3，使得聚类中心收敛。本发明提供的基于随机梯度下降算法的K均值大规模数据聚类方法，大大提高了算法的执行效率，达到了更好的聚类效果。能够更加快速有效的对数据进行挖掘，该方法的提出为处理电力大数据以及其它数据问题提供了一种可能。

Description

一种基于随机梯度下降算法的K均值大规模数据聚类方法

技术领域

本发明涉及一种聚类方法，具体涉及一种基于随机梯度下降算法的K均值大规模数据聚类方法。

背景技术

近年来随着数据收集手段和能力的提升，个人、特别是企业可以获取的数据量急剧增加。例如，国家电网公司在SG186工程建成之后，八大业务应用平均日增数据记录达5000余万条(144G)；而随着智能电网和SG-ERP的建设，公司的数据增长速度还会再翻几番。超大规模复合型信息存储、备份与容灾都将成为重要的技术领域，数据中心与容灾中心的建设效果将直接影响到企业整体业务的连续性。如何通过强大的算法，充分利用电力生产控制和企业经营中产生的历史数据、实时数据、预测数据以及不同地域空间、层级的数据，更迅速地完成数据的价值“提纯”，是电力大数据亟待解决的难题。

企业数据来源广泛，规模日益增长。从某种意义上讲，对公司来说有价值的信息所占的比重正在下降，如何从海量的信息中找到有用的信息正在变得越来越困难。对数据进行有效、充分地整理和分析，减少或压缩无价值的数据，提高有效数据的利用价值，可缩小数据存储规模、降低数据分析占用的计算资源，从而直接引导企业信息资产优化。

随着计算机技术和存储设备的快速发展,人们能够轻易地获取数以万计甚至百万计的数据。如何从这些数据中分析出对我们有用的或者感兴趣的信息，成为当前迫切需要解决的问题。传统的K均值聚类算法是数据挖掘领域使用的比较多的方法，首先随机初始化K个聚类中心，然后根据每个样本到聚类中心的距离将所有的样本分成K个不同的类型，最后用每一类中所有样本的平均值来更新聚类中心，整个过程不断迭代，直到收敛。显然，每次迭代时需要计算所有样本到K个聚类中心的距离，当面对大规模数据时，其计算过程需要花费大量的时间，大大降低了算法的执行效率。

目前，大数据的处理流程一般可以概括为四步：数据采集、导入及预处理、统计与分析、挖掘及决策支持。其中，挖掘与决策支持主要是在现有数据上面进行基于各种算法的计算，从而起到预测和决策支持的效果，以此来实现一些高级别数据分析的需求，比较典型的有用于聚类的K均值聚类算法。然而，传统的数据挖掘技术面临的最大问题就是实时性差，需要花费大量的时间来对数据进行处理。对于实时变化的数据来说，很难及时获取有用的信息，从而影响企业的决策。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于随机梯度下降算法的K均值大规模数据聚类方法，大大提高了算法的执行效率，达到了更好的聚类效果。能够更加快速有效的对数据进行挖掘，该方法的提出为处理电力大数据以及其它数据问题提供了一种可能。

为了实现上述发明目的，本发明采取如下技术方案：

本发明提供一种基于随机梯度下降算法的K均值大规模数据聚类方法，所述方法包括以下步骤：

步骤1：随机初始化K个聚类中心；

步骤2：采样数据样本，并将该数据样本划分到所属类型；

步骤3：对目标函数进行迭代；

步骤4：重复步骤1-3，直到聚类中心收敛。

所述步骤1中，对于需要处理的K类数据集，随机初始化K个聚类中心w₁,w₂，…，w_k,…,w_K∈R^d，其中，R表示实数，d表示维度，于是R^d表示d维实数，w_k表示第k类数据集对应的聚类中心。

所述步骤1中，将每个聚类中心中数据样本的个数n₁,n₂,…,n_k,…,n_K∈N初始化为0，其中N表示整数，n_k表示第k类数据集对应的数据样本个数。

所述步骤2中，随机采样数据样本z∈R^d，并根据最小距离对应的聚类中心将数据样本z划分到所属类型。

最小距离对应的聚类中心中数据集的代号用k^*表示，有：

k^{*} = \arg \min_{k} {(z - w_{k})}^{2}

其中，(z-w_k)²表示数据样本z到w_k的距离。

所述步骤3具体包括以下步骤：

步骤3-1：设目标函数为Q_kmeans，有：

Q_{kmeans} = \min_{k} \frac{1}{2} {(z - w_{k})}^{2}

Q_kmeans关于的导数用表示，有：

{&dtri;}_{w_{k^{*}}} Q_{kmeans} = \frac{&PartialD; Q_{kmeans}}{&PartialD; w_{k^{*}}} = - (z - w_{k^{*}}) = w_{k^{*}} - z

其中，为第k^*类数据集对应的聚类中心；

步骤3-2：设表示第k^*类数据集对应的数据样本个数，采用Q_kmeans和分别更新和

所述步骤4中，重复执行步骤1-3，若满足前后两次迭代的聚类中心距离阈值小于10^-6，则表明聚类中心w₁,w₂，…，w_k,…,w_K收敛。

与现有技术相比，本发明的有益效果在于：

本发明提供的基于随机梯度下降算法的K均值大规模数据聚类方法大大降低了算法的计算复杂度，能够更加快速的达到收敛，并且还能够获得更好的聚类效果。由于每次迭代时都是随机的选取样本，而不需要考虑之前样本的情况，因此本质上随机梯度下降算法是一个期望风险最小化的过程。该方法的提出为处理电力大数据以及其它数据问题提供了一种可能。

附图说明

图1是本发明实施例中随机梯度下降算法的原理图；

图2是本发明实施例中原始数据的分布图；

图3是现有技术中的K均值聚类方法的聚类结果图；

图4是本发明实施例中基于随机梯度下降算法的K均值聚类结果图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

实施例

首先随机生成两个“月儿”形的样本族，分别用三角形和圆点表示，如图2所示。数据由两个维度的特征组成，每类数据包含200000个样本，总共有400000个数据，属于大数据处理问题，为了显示的方便，选择部分数据进行作图。本实施例所做实验的计算机配置为：64位的操作***、16GB的内存、英特尔处理器，软件运行环境为MATLAB R2012a版本。具体过程如下：

a)随机初始化2个聚类中心w₁,w₂∈R²，每类样本的个数n₁,n₂∈N初始化为0；

b)随机采样一个数据样本z∈R²，根据公式将其划分到相应的类型；

c)对目标函数

Q_{kmeans} = \min_{k = 1,2} \frac{1}{2} {(z - w_{k})}^{2}

关于求其导数

d)更新和：

e)步骤b)到d)不断重复，直到聚类中心w₁,w₂收敛。

图3是经典的K均值聚类算法在经过3次迭代时得到的结果图，总共耗时32秒，而图4是基于梯度下降算法的K均值聚类算法在耗时17秒时得到的结果，经过了500次迭代，“x”型圆圈表示两个聚类中心。由图可知，两幅图的聚类中心几乎一致。量化的结果中，经典的K均值聚类需要花费32秒，而基于随机梯度下降算法的k均值聚类只需要花费17秒，准确率达到了78.41％，略微高于经典的k均值聚类的78.1％。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于随机梯度下降算法的K均值大规模数据聚类方法，其特征在于：所述方法包括以下步骤：

步骤1：随机初始化K个聚类中心；

步骤2：采样数据样本，并将该数据样本划分到所属类型；

步骤3：对目标函数进行迭代；

步骤4：重复步骤1-3，直到聚类中心收敛。

2.根据权利要求1所述的基于随机梯度下降算法的K均值大规模数据聚类方法，其特征在于：所述步骤1中，对于需要处理的K类数据集，随机初始化K个聚类中心w₁,w₂，…，w_k,…,w_K∈R^d，其中，R表示实数，d表示维度，于是R^d表示d维实数，w_k表示第k类数据集对应的聚类中心。

3.根据权利要求2所述的基于随机梯度下降算法的K均值大规模数据聚类方法，其特征在于：所述步骤1中，将每个聚类中心中数据样本的个数n₁,n₂,…,n_k,…,n_K∈N初始化为0，其中N表示整数，n_k表示第k类数据集对应的数据样本个数。

4.根据权利要求3所述的基于随机梯度下降算法的K均值大规模数据聚类方法，其特征在于：所述步骤2中，随机采样数据样本z∈R^d，并根据最小距离对应的聚类中心将数据样本z划分到所属类型。

5.根据权利要求4所述的基于随机梯度下降算法的K均值大规模数据聚类方法，其特征在于：最小距离对应的聚类中心中数据集的代号用k^*表示，有：

k^{*} = \arg \min_{k} {(z - w_{k})}^{2}

其中，(z-w_k)²表示数据样本z到w_k的距离。

6.根据权利要求4所述的基于随机梯度下降算法的K均值大规模数据聚类方法，其特征在于：所述步骤3具体包括以下步骤：

步骤3-1：设目标函数为Q_kmeans，有：

Q_{kmeans} = \min_{k} \frac{1}{2} {(z - w_{k})}^{2}

Q_kmeans关于的导数用表示，有：

{&dtri;}_{w_{k^{*}}} Q_{kmeans} = \frac{&PartialD; Q_{kmeans}}{&PartialD; w_{k^{*}}} = - (z - w_{k^{*}}) = w_{k^{*}} - z

其中，为第k^*类数据集对应的聚类中心；

步骤3-2：设表示第k^*类数据集对应的数据样本个数，采用和

n_{k^{*}} &LeftArrow; n_{k^{*}} + 1

分别更新和

7.根据权利要求6所述的基于随机梯度下降算法的K均值大规模数据聚类方法，其特征在于：所述步骤4中，重复执行步骤1-3，若满足前后两次迭代的聚类中心距离阈值小于10^-6，则表明聚类中心w₁,w₂，…，w_k,…,w_K收敛。