CN104598565A - 一种基于随机梯度下降算法的k均值大规模数据聚类方法 - Google Patents

一种基于随机梯度下降算法的k均值大规模数据聚类方法 Download PDF

Info

Publication number
CN104598565A
CN104598565A CN201510011974.4A CN201510011974A CN104598565A CN 104598565 A CN104598565 A CN 104598565A CN 201510011974 A CN201510011974 A CN 201510011974A CN 104598565 A CN104598565 A CN 104598565A
Authority
CN
China
Prior art keywords
msub
data
msup
steps
clustering method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510011974.4A
Other languages
English (en)
Other versions
CN104598565B (zh
Inventor
韩海韵
丁杰
戴江鹏
周爱华
孙玉宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Smart Grid Research Institute of SGCC
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI filed Critical State Grid Corp of China SGCC
Priority to CN201510011974.4A priority Critical patent/CN104598565B/zh
Publication of CN104598565A publication Critical patent/CN104598565A/zh
Application granted granted Critical
Publication of CN104598565B publication Critical patent/CN104598565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种基于随机梯度下降算法的K均值大规模数据聚类方法,包括以下步骤:随机初始化K个聚类中心;采样数据样本,并将该数据样本划分到所属类型;对目标函数进行迭代;重复步骤1-3,使得聚类中心收敛。本发明提供的基于随机梯度下降算法的K均值大规模数据聚类方法,大大提高了算法的执行效率,达到了更好的聚类效果。能够更加快速有效的对数据进行挖掘,该方法的提出为处理电力大数据以及其它数据问题提供了一种可能。

Description

一种基于随机梯度下降算法的K均值大规模数据聚类方法
技术领域
本发明涉及一种聚类方法,具体涉及一种基于随机梯度下降算法的K均值大规模数据聚类方法。
背景技术
近年来随着数据收集手段和能力的提升,个人、特别是企业可以获取的数据量急剧增加。例如,国家电网公司在SG186工程建成之后,八大业务应用平均日增数据记录达5000余万条(144G);而随着智能电网和SG-ERP的建设,公司的数据增长速度还会再翻几番。超大规模复合型信息存储、备份与容灾都将成为重要的技术领域,数据中心与容灾中心的建设效果将直接影响到企业整体业务的连续性。如何通过强大的算法,充分利用电力生产控制和企业经营中产生的历史数据、实时数据、预测数据以及不同地域空间、层级的数据,更迅速地完成数据的价值“提纯”,是电力大数据亟待解决的难题。
企业数据来源广泛,规模日益增长。从某种意义上讲,对公司来说有价值的信息所占的比重正在下降,如何从海量的信息中找到有用的信息正在变得越来越困难。对数据进行有效、充分地整理和分析,减少或压缩无价值的数据,提高有效数据的利用价值,可缩小数据存储规模、降低数据分析占用的计算资源,从而直接引导企业信息资产优化。
随着计算机技术和存储设备的快速发展,人们能够轻易地获取数以万计甚至百万计的数据。如何从这些数据中分析出对我们有用的或者感兴趣的信息,成为当前迫切需要解决的问题。传统的K均值聚类算法是数据挖掘领域使用的比较多的方法,首先随机初始化K个聚类中心,然后根据每个样本到聚类中心的距离将所有的样本分成K个不同的类型,最后用每一类中所有样本的平均值来更新聚类中心,整个过程不断迭代,直到收敛。显然,每次迭代时需要计算所有样本到K个聚类中心的距离,当面对大规模数据时,其计算过程需要花费大量的时间,大大降低了算法的执行效率。
目前,大数据的处理流程一般可以概括为四步:数据采集、导入及预处理、统计与分析、挖掘及决策支持。其中,挖掘与决策支持主要是在现有数据上面进行基于各种算法的计算,从而起到预测和决策支持的效果,以此来实现一些高级别数据分析的需求,比较典型的有用于聚类的K均值聚类算法。然而,传统的数据挖掘技术面临的最大问题就是实时性差,需要花费大量的时间来对数据进行处理。对于实时变化的数据来说,很难及时获取有用的信息,从而影响企业的决策。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于随机梯度下降算法的K均值大规模数据聚类方法,大大提高了算法的执行效率,达到了更好的聚类效果。能够更加快速有效的对数据进行挖掘,该方法的提出为处理电力大数据以及其它数据问题提供了一种可能。
为了实现上述发明目的,本发明采取如下技术方案:
本发明提供一种基于随机梯度下降算法的K均值大规模数据聚类方法,所述方法包括以下步骤:
步骤1:随机初始化K个聚类中心;
步骤2:采样数据样本,并将该数据样本划分到所属类型;
步骤3:对目标函数进行迭代;
步骤4:重复步骤1-3,直到聚类中心收敛。
所述步骤1中,对于需要处理的K类数据集,随机初始化K个聚类中心w1,w2,…,wk,…,wK∈Rd,其中,R表示实数,d表示维度,于是Rd表示d维实数,wk表示第k类数据集对应的聚类中心。
所述步骤1中,将每个聚类中心中数据样本的个数n1,n2,…,nk,…,nK∈N初始化为0,其中N表示整数,nk表示第k类数据集对应的数据样本个数。
所述步骤2中,随机采样数据样本z∈Rd,并根据最小距离对应的聚类中心将数据样本z划分到所属类型。
最小距离对应的聚类中心中数据集的代号用k*表示,有:
k * = arg min k ( z - w k ) 2
其中,(z-wk)2表示数据样本z到wk的距离。
所述步骤3具体包括以下步骤:
步骤3-1:设目标函数为Qkmeans,有:
Q kmeans = min k 1 2 ( z - w k ) 2
Qkmeans关于的导数用表示,有:
▿ w k * Q kmeans = ∂ Q kmeans ∂ w k * = - ( z - w k * ) = w k * - z
其中,为第k*类数据集对应的聚类中心;
步骤3-2:设表示第k*类数据集对应的数据样本个数,采用Qkmeans分别更新
所述步骤4中,重复执行步骤1-3,若满足前后两次迭代的聚类中心距离阈值小于10-6,则表明聚类中心w1,w2,…,wk,…,wK收敛。
与现有技术相比,本发明的有益效果在于:
本发明提供的基于随机梯度下降算法的K均值大规模数据聚类方法大大降低了算法的计算复杂度,能够更加快速的达到收敛,并且还能够获得更好的聚类效果。由于每次迭代时都是随机的选取样本,而不需要考虑之前样本的情况,因此本质上随机梯度下降算法是一个期望风险最小化的过程。该方法的提出为处理电力大数据以及其它数据问题提供了一种可能。
附图说明
图1是本发明实施例中随机梯度下降算法的原理图;
图2是本发明实施例中原始数据的分布图;
图3是现有技术中的K均值聚类方法的聚类结果图;
图4是本发明实施例中基于随机梯度下降算法的K均值聚类结果图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
实施例
首先随机生成两个“月儿”形的样本族,分别用三角形和圆点表示,如图2所示。数据由两个维度的特征组成,每类数据包含200000个样本,总共有400000个数据,属于大数据处理问题,为了显示的方便,选择部分数据进行作图。本实施例所做实验的计算机配置为:64位的操作***、16GB的内存、英特尔处理器,软件运行环境为MATLAB R2012a版本。具体过程如下:
a)随机初始化2个聚类中心w1,w2∈R2,每类样本的个数n1,n2∈N初始化为0;
b)随机采样一个数据样本z∈R2,根据公式将其划分到相应的类型;
c)对目标函数 Q kmeans = min k = 1,2 1 2 ( z - w k ) 2 关于求其导数
d)更新
e)步骤b)到d)不断重复,直到聚类中心w1,w2收敛。
图3是经典的K均值聚类算法在经过3次迭代时得到的结果图,总共耗时32秒,而图4是基于梯度下降算法的K均值聚类算法在耗时17秒时得到的结果,经过了500次迭代,“x”型圆圈表示两个聚类中心。由图可知,两幅图的聚类中心几乎一致。量化的结果中,经典的K均值聚类需要花费32秒,而基于随机梯度下降算法的k均值聚类只需要花费17秒,准确率达到了78.41%,略微高于经典的k均值聚类的78.1%。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (7)

1.一种基于随机梯度下降算法的K均值大规模数据聚类方法,其特征在于:所述方法包括以下步骤:
步骤1:随机初始化K个聚类中心;
步骤2:采样数据样本,并将该数据样本划分到所属类型;
步骤3:对目标函数进行迭代;
步骤4:重复步骤1-3,直到聚类中心收敛。
2.根据权利要求1所述的基于随机梯度下降算法的K均值大规模数据聚类方法,其特征在于:所述步骤1中,对于需要处理的K类数据集,随机初始化K个聚类中心w1,w2,…,wk,…,wK∈Rd,其中,R表示实数,d表示维度,于是Rd表示d维实数,wk表示第k类数据集对应的聚类中心。
3.根据权利要求2所述的基于随机梯度下降算法的K均值大规模数据聚类方法,其特征在于:所述步骤1中,将每个聚类中心中数据样本的个数n1,n2,…,nk,…,nK∈N初始化为0,其中N表示整数,nk表示第k类数据集对应的数据样本个数。
4.根据权利要求3所述的基于随机梯度下降算法的K均值大规模数据聚类方法,其特征在于:所述步骤2中,随机采样数据样本z∈Rd,并根据最小距离对应的聚类中心将数据样本z划分到所属类型。
5.根据权利要求4所述的基于随机梯度下降算法的K均值大规模数据聚类方法,其特征在于:最小距离对应的聚类中心中数据集的代号用k*表示,有:
k * = arg min k ( z - w k ) 2
其中,(z-wk)2表示数据样本z到wk的距离。
6.根据权利要求4所述的基于随机梯度下降算法的K均值大规模数据聚类方法,其特征在于:所述步骤3具体包括以下步骤:
步骤3-1:设目标函数为Qkmeans,有:
Q kmeans = min k 1 2 ( z - w k ) 2
Qkmeans关于的导数用表示,有:
▿ w k * Q kmeans = ∂ Q kmeans ∂ w k * = - ( z - w k * ) = w k * - z
其中,为第k*类数据集对应的聚类中心;
步骤3-2:设表示第k*类数据集对应的数据样本个数,采用 n k * ← n k * + 1 分别更新
7.根据权利要求6所述的基于随机梯度下降算法的K均值大规模数据聚类方法,其特征在于:所述步骤4中,重复执行步骤1-3,若满足前后两次迭代的聚类中心距离阈值小于10-6,则表明聚类中心w1,w2,…,wk,…,wK收敛。
CN201510011974.4A 2015-01-09 2015-01-09 一种基于随机梯度下降算法的k均值大规模数据聚类方法 Active CN104598565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510011974.4A CN104598565B (zh) 2015-01-09 2015-01-09 一种基于随机梯度下降算法的k均值大规模数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510011974.4A CN104598565B (zh) 2015-01-09 2015-01-09 一种基于随机梯度下降算法的k均值大规模数据聚类方法

Publications (2)

Publication Number Publication Date
CN104598565A true CN104598565A (zh) 2015-05-06
CN104598565B CN104598565B (zh) 2018-08-14

Family

ID=53124350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510011974.4A Active CN104598565B (zh) 2015-01-09 2015-01-09 一种基于随机梯度下降算法的k均值大规模数据聚类方法

Country Status (1)

Country Link
CN (1) CN104598565B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139277A (zh) * 2015-08-18 2015-12-09 国家电网公司 一种电力配网信息聚类***及方法
CN105681089A (zh) * 2016-01-26 2016-06-15 上海晶赞科技发展有限公司 网络用户行为聚类方法、装置及终端
CN108460499A (zh) * 2018-04-02 2018-08-28 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN108846532A (zh) * 2018-03-21 2018-11-20 宁波工程学院 应用于物流供应链平台的企业风险评估方法及装置
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的***故障诊断方法及装置
US10503580B2 (en) 2017-06-15 2019-12-10 Microsoft Technology Licensing, Llc Determining a likelihood of a resource experiencing a problem based on telemetry data
CN111385243A (zh) * 2018-12-27 2020-07-07 ***通信集团山西有限公司 一种DDoS检测方法、装置及设备
US10805317B2 (en) 2017-06-15 2020-10-13 Microsoft Technology Licensing, Llc Implementing network security measures in response to a detected cyber attack
US10922627B2 (en) 2017-06-15 2021-02-16 Microsoft Technology Licensing, Llc Determining a course of action based on aggregated data
US11062226B2 (en) 2017-06-15 2021-07-13 Microsoft Technology Licensing, Llc Determining a likelihood of a user interaction with a content element

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070118492A1 (en) * 2005-11-18 2007-05-24 Claus Bahlmann Variational sparse kernel machines
CN101488189A (zh) * 2009-02-04 2009-07-22 天津大学 基于独立分量自动聚类处理的脑电信号处理方法
US20100095254A1 (en) * 2005-08-12 2010-04-15 Demaris David L System and method for testing pattern sensitive algorithms for semiconductor design
CN101872343A (zh) * 2009-04-24 2010-10-27 罗彤 半监督式的海量数据层次分类方法
CN103810261A (zh) * 2014-01-26 2014-05-21 西安理工大学 一种基于商空间理论的K-means聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100095254A1 (en) * 2005-08-12 2010-04-15 Demaris David L System and method for testing pattern sensitive algorithms for semiconductor design
US20070118492A1 (en) * 2005-11-18 2007-05-24 Claus Bahlmann Variational sparse kernel machines
CN101488189A (zh) * 2009-02-04 2009-07-22 天津大学 基于独立分量自动聚类处理的脑电信号处理方法
CN101872343A (zh) * 2009-04-24 2010-10-27 罗彤 半监督式的海量数据层次分类方法
CN103810261A (zh) * 2014-01-26 2014-05-21 西安理工大学 一种基于商空间理论的K-means聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴小涛等: "基于遗传算法和梯度下降法的聚类新算法", 《计算技术与信息发展》 *
汪宝彬等: "随机梯度下降法的一些性质", 《数学杂志》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139277B (zh) * 2015-08-18 2018-09-11 国家电网公司 一种电力配网信息聚类***及方法
CN105139277A (zh) * 2015-08-18 2015-12-09 国家电网公司 一种电力配网信息聚类***及方法
CN105681089B (zh) * 2016-01-26 2019-10-18 上海晶赞科技发展有限公司 网络用户行为聚类方法、装置及终端
CN105681089A (zh) * 2016-01-26 2016-06-15 上海晶赞科技发展有限公司 网络用户行为聚类方法、装置及终端
US10503580B2 (en) 2017-06-15 2019-12-10 Microsoft Technology Licensing, Llc Determining a likelihood of a resource experiencing a problem based on telemetry data
US10805317B2 (en) 2017-06-15 2020-10-13 Microsoft Technology Licensing, Llc Implementing network security measures in response to a detected cyber attack
US10922627B2 (en) 2017-06-15 2021-02-16 Microsoft Technology Licensing, Llc Determining a course of action based on aggregated data
US11062226B2 (en) 2017-06-15 2021-07-13 Microsoft Technology Licensing, Llc Determining a likelihood of a user interaction with a content element
CN108846532A (zh) * 2018-03-21 2018-11-20 宁波工程学院 应用于物流供应链平台的企业风险评估方法及装置
CN108460499A (zh) * 2018-04-02 2018-08-28 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN108460499B (zh) * 2018-04-02 2022-03-08 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN111385243A (zh) * 2018-12-27 2020-07-07 ***通信集团山西有限公司 一种DDoS检测方法、装置及设备
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的***故障诊断方法及装置

Also Published As

Publication number Publication date
CN104598565B (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN104598565B (zh) 一种基于随机梯度下降算法的k均值大规模数据聚类方法
Yang et al. A scalable data chunk similarity based compression approach for efficient big sensing data processing on cloud
CN113705793B (zh) 决策变量确定方法及装置、电子设备和介质
CN102682089A (zh) 一种利用鉴别随机邻域嵌入分析的数据降维方法
CN106295690A (zh) 基于非负矩阵分解的时间序列数据聚类方法及***
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
Modarresi Unsupervised feature extraction using singular value decomposition
Hu et al. Parallel clustering of big data of spatio-temporal trajectory
CN111612319A (zh) 基于一维卷积自编码器的负荷曲线深度嵌入聚类方法
Wu et al. AAE-SC: A scRNA-seq clustering framework based on adversarial autoencoder
CN114595635A (zh) 火电机组主汽温度数据的特征选择方法、***及设备
CN114090601A (zh) 一种数据筛选方法、装置、设备以及存储介质
CN111090679B (zh) 基于时序影响和图嵌入的时序数据表示学习方法
CN106021170A (zh) 采用半监督低秩表示模型的图构建方法
CN117060401A (zh) 新能源功率预测方法、装置、设备和计算机可读存储介质
CN114913921B (zh) 一种标志基因识别的***和方法
CN103778329B (zh) 一种构造数据补足值的方法
CN112000389B (zh) 一种配置推荐方法、***、装置及计算机存储介质
CN111402042B (zh) 一种用于股市大盘形态分析的数据分析与显示方法
CN102663141A (zh) 一种基于多核并行的多路量化分级聚类方法
Ramkumar et al. An effective analysis of data clustering using distance-based K-means Algorithm
CN109447131B (zh) 相似高维目标信息识别方法及***
CN104794235B (zh) 金融时间序列分段分布特征计算方法及***
CN109189775B (zh) 一种工业监控平台海量数据处理***及方法
CN110210003A (zh) 一种基于符号转移熵数据统计分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160425

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: State Grid Smart Grid Institute

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

CB02 Change of applicant information

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

Applicant before: State Grid Smart Grid Institute

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant