CN111783850A - 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法 - Google Patents
一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法 Download PDFInfo
- Publication number
- CN111783850A CN111783850A CN202010543636.6A CN202010543636A CN111783850A CN 111783850 A CN111783850 A CN 111783850A CN 202010543636 A CN202010543636 A CN 202010543636A CN 111783850 A CN111783850 A CN 111783850A
- Authority
- CN
- China
- Prior art keywords
- tree
- data set
- clustering
- canopy
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims description 13
- 230000007547 defect Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 241000820057 Ithone Species 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 241001134453 Lista Species 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于Kd树与Canopy优化Bisecting K‑means的负荷聚类方法,包括以下步骤:S1.采集指定时间段内各个用户的用电负荷数据,并对用电负荷数据进行预处理得到负荷数据集X;S2.将负荷数据集X输入Canopy算法中,得到聚类个数K,同时,建立负荷数据集X的Kd树;S3.将步骤S2中得到聚类个数K作为参数输入Bisecting K‑means算法,再将负荷数据集X输入Bisecting K‑means算法进行聚类分析,Kd树对Bisecting K‑means算法进行加速计算;S4.得到聚类结果。本发明能够对高维度的数据集进行快速运算,且聚类结果稳定准确,运算成本低。
Description
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法。
背景技术
随着电力***的不断发展与大量智能电表的安装,电力***积累了海量的用电数据。与此同时,当今电网中的供需不平衡问题也越发严峻,用户侧资源越来越受到重视。用户用电负荷分析是供电企业了解用户用电负荷模式所必不可少的课题,而用户负荷数据聚类是其中最重要的一环。良好有效的用户负荷数据聚类分析有利于供电企业总结出不同的用户类别,从而提供针对性的个性化服务。
目前在电力负荷数据聚类方面,已经有许多学者进行了探索。一部分研究使用了基于层次聚类等算法,此类算法可自动确定聚类数,在小样本集上能取得较好的效果,但是此类方法大多计算量冗杂,不适用于海量高纬度的负荷曲线数据。另一部分研究采用了K-means等基于划分的聚类方法,此类算法相对能更好的处理大数据集,但是需要预先给定聚类数等参数,且运算结果不稳定,有一定局限性。虽然已经有学者使用轮廓系数,手肘法等方法来获得K-means所需的聚类数。但这些方法涉及多种评价指标,基于不同指标常给出不同的聚类数目。中国专利公开号CN106530132A,公开时间2017年3月22日,该申请公开了一种电力负荷聚类的方法及装置,采集电力负荷数据;将所述电力负荷数据进行Canopy聚类,生成若干Canopy类和Canopy中心;将所述Canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果,但是再该申请中对海量数据进行指标的交叉验证费时费力,而且现实负荷数据伴随有维度高,分布稀疏,缺损值多,异常值多等问题,因此其聚类的结果也不够理想。
发明内容
本发明的目的在于克服对于用户用电负荷数据进行聚类过程中交叉验证费时费力,且现实负荷数据伴随有维度高,分布稀疏,缺损值多,异常值多,导致聚类结果不理想的缺点,提供一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法。本发明不需要人为设定聚类个数K,而是根据具体数据集分布由Canopy算法给出,更加科学准确,且利用了Kd树加速计算高维数据距离运算,能够对高维度的数据集进行快速运算,且聚类结果稳定准确,运算成本低。
为解决上述技术问题,本发明采用的技术方案是:一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,包括以下步骤:
S1.采集指定时间段内各个用户的用电负荷数据,并对用电负荷数据进行预处理得到负荷数据集X;
S2.将负荷数据集X输入Canopy算法中,得到聚类个数K,同时,建立负荷数据集X的Kd树;
S3.将步骤S2中得到聚类个数K作为参数Bisecting K-means算法的参数,再将负荷数据集X输入Bisecting K-means算法进行聚类分析,Kd树对BisectingK-means算法进行加速计算;
S4.得到聚类结果。
本技术方案中,现实负荷数据伴随有维度高,分布稀疏,缺损值多,异常值多等问题,故在开始进行聚类之前需要对用电负荷数据进行预处理;Canopy算法为接下来的Bisecting k-means提供了聚类个数K,不再需要人为设定,更加科学准确;在Bisecting k-means中输入聚类个数K,Kd树对Bisecting k-means进行了加速计算,最终Bisecting k-means给出了聚类结果;该聚类方法既保证其结果的准确度,计算效率高,又可以应对不同的负荷数据情况。
进一步的,在步骤S1中,对用电负荷数据进行缺损值填充,异常值替换,降维和归一化的预处理之后得到负荷数据集X。
进一步的,在步骤S2中,Canopy算法包括以下步骤:
S211.复制负荷数据集X得到数据集Xcopy,根据先验知识或交叉验证调整初始距离阈值T1、T2,且T1≥T2;
S212.从数据集Xcopy中随机选择一个样本x1作为第一个Canopy的聚簇质心c1,质心集记为C,c1∈C,并将c1从数据集Xcopy中删除。
S213.从数据集Xcopy中随机选择一个样本xi计算其到质心集中所有质心的距离dij(代表第i个样本到第j个质心的距离),考察其中最小的距离如果则给xi一个弱标记,表示xi属于cj,并将xi加入其中;如果则给xi一个强标记,表示xi属于该cj,且和质心非常接近,因此将xi从Xcopy中删除;如果则xi形成一个新的聚簇质心cnew,加入质心集C,并将xi从Xcopy中删除;
S214.重复步骤S213直到数据集Xcopy为空,得到聚簇质心数量即聚类个数K。
进一步的,所述步骤S2中,Kd树的建立使用递归的KdConstruct(X,h=0,H=d)函数,包括以下步骤:
S221.输入负荷数据集X,Kd树的当前深度h和截止深度H,其中H=d,d为数据集的维度;
S222.计算负荷数据集X中每一维数据的方差值,将维度序号按方差大小来排序,形成Split List,取Split List中第h维的中点值作为分割点MidPoint,将负荷数据中的数据X分为两个集合和根节点Root包含整个样本集X。
S223.建立根节点Root的左右子节点,Lchild为左子节点,包含样本集Xleft,Rchild为右子节点,包含样本集Xright,Lchild=KdConstruct(Xleft,h+1,H),Rchild=KdConstruct(Xright,h+1,H),递归地调用直到子节点为叶子节点,或h=H;
S224返回根节点Root。
在步骤S222中,当负荷数据X中的数据xi小于等于分割点MidPoint则归类为集合Xleft,当负荷数据X中的数据xi大于分割点MidPoint则归类为Xright。本技术方法是通过递归方程生成Kd树,在建立完根节点之后,开始建立左右子节点,左右子节点分别建立俩个子Kd树(通过调用kdConstruct实现),而左右子节点自身又可以看成是子Kd树的根节点,再往下建立下一级左右子节点。如此递归,直到最后节点只有一个样本(即叶节点)或深度到达H。
进一步的,步骤S3包括以下具体步骤:
S31.将Canopy算法中得出的聚类个数K作为参数输入Bisecting K-means算法;
S32.在数据集Xcopy的d维中取一维排序成等区间间隔的子集,取2个初始簇心,形成簇C,运行经Kd树加速的k=2K-means算法,反复计算更新簇心及其簇,直到损失函数收敛,得出最终簇心及其簇;
S33.计算当前所有簇中,对损失函数贡献最大的簇cj,将该簇作为下一次迭代的目标数据集,Xcopy={xi|xi∈cj},再重复步骤S32,直到簇心个数达到K。
其中,Kd树本质上是一种二元搜索树,可以快速而准确地找到某一点的最近邻,从而加速Bisecting K-means中的计算,节约计算成本。
进一步的,步骤S32包括以下具体步骤:
S321.从Kd树的根节点Root开始,修建Kd树中各个节点即样本数据xi的候选簇心集Cnew;
S322.计算节点对象到候选簇心的距离,并把数据xi分配给距离最小的簇心,如果节点的候选簇心集Cnew中只有一个簇心,直接将数据xi全部分给该簇;
S323.根据步骤S322中分好的簇集重新计算簇心,根据新得的簇心再次进行步骤S322中的分类,反复进行计算分类,直到损失函数收敛,得出最终簇心及其簇。
进一步的,步骤S33的损失函数的计算公式如下
K代表总簇数,xi∈cj代表第i个属于簇cj的样本,d(cj,xi)代表簇心cj到样本点xi的距离。
进一步的,步骤S322中,距离的计算是采用欧几里得距离公式计算得出。
进一步的,所述步骤S4的聚类结果就是步骤S33中的K个簇心及它们各自对应的簇。
与现有技术相比,本发明的有益效果是:
1.本发明对用电负荷数据进行缺损值填充,异常值替换,降维和归一化的预处理,避免由于样本数据的不稳定导致聚类结果不准确;
2.本发明通过Canopy算法得出Bisecting K-means算法需要提前指定的聚类个数K,提高聚类结果的稳定性;
3.本发明在Bisecting K-means算法中引入Kd树,大量减少参与计算的点和候选的簇心之间的距离计算量,从而显著的减少运行时间和成本;
4.本发明通过使用Bisecting K-means取代传统K-means,使类中心互相之间尽可能远离,来得到稳定可靠的聚类结果,避免陷入局部最优。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例
如图1所示为本发明一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法的实施例。一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法的实施例,包括以下步骤:
S1.采集指定时间段内各个用户的用电负荷数据,并对用电负荷数据进行预处理得到负荷数据集X;
S2.将负荷数据集X输入Canopy算法中,得到聚类个数K,同时,建立负荷数据集X的Kd树;
S3.将步骤S2中得到聚类个数K作为参数输入Bisecting K-means算法,再将负荷数据集X输入Bisecting K-means算法进行聚类分析,Kd树对BisectingK-means算法进行加速计算;
S4.得到聚类结果。
其中,在步骤S1中,采集到的电负荷数据进行缺损值填充,异常值替换,降维和归一化的预处理后得到负荷数据集X。
其中,在步骤S2中,Canopy算法的具体实行步骤如下文所示:
1.复制负荷数据集X得到数据集Xcopy,根据先验知识或交叉验证调整初始距离阈值T1、T2,且T1≥T2;
2.从数据集Xcopy中随机选择一个样本x1作为第一个Canopy的聚簇质心c1,质心集记为C,c1∈C,并将c1从数据集Xcopy中删除;
3.从数据集Xcopy中随机选择一个样本xi计算其到质心集中所有质心的距离dij,dij代表第i个样本到第j个质心的距离,考察其中最小的距离如果则给xi一个弱标记,表示xi属于cj,并将xi加入其中;如果则给xi一个强标记,表示xi属于该cj,且和质心非常接近,因此将xi从Xcopy中删除;如果则xi形成一个新的聚簇质心cnew,加入质心集C,并将xi从Xcopy中删除;
4.重复上一步骤直到数据集Xcopy为空,得到聚簇质心数量即聚类个数K.
其中,在步骤S2中,Kd树的建立包括以下步骤:
1.输入负荷数据集X,Kd树的当前深度h和截止深度H,其中H=d,d为数据集的维度,负荷数据集X的维度是已知的;
2.计算负荷数据集X中每一维数据的方差值,将维度序号按方差大小来排序,形成Split List,取Split List中第h维的中点值作为分割点MidPoint,将负荷数据中的数据X分为两个集合和根节点Root包含整个样本集X。
3.建立根节点Root的左右子节点,Lchild为左子节点,包含样本集Xleft,Rchild为右子节点,包含样本集Xright,Lchild=KdConstruct(Xleft,h+1,H),Rchild=KdConstruct(Xright,h+1,H),递归地调用直到子节点为叶子节点,或h=H;
4.返回根节点Root。
其中,在步骤S3中,包括以下具体步骤:
1.将Canopy算法中得出的聚类个数K作为参数输入Bisecting K-means算法;
2.在数据集Xcopy的d维中取一维排序成等区间间隔的子集,取2个初始簇心,形成簇C,运行经Kd树加速的k=2K-means算法,反复计算更新簇心及其簇,直到损失函数收敛,得出最终簇心及其簇;
3.计算当前所有簇中,找出对损失函数贡献最大的簇cj,将该簇作为下一次迭代的目标数据集,Xcopy={xi|xi∈cj},再重复上一步骤,直到簇心个数达到K,K个簇心及其簇就是最终得到的聚类结果。
Kd树在Bisecting K-means算法中进行加速运算具体步骤如下所示:
1.从Kd树的根节点Root开始,修建Kd树中各个节点即样本数据xi的候选簇心集Cnew;
2.计算节点对象到候选簇心的距离,并把数据xi分配给距离最小的簇心,如果节点的候选簇心集Cnew中只有一个簇心,直接将数据xi全部分给该簇;
3.根据上一步骤中分好的簇集重新计算簇心,根据新得的簇心再次进行步骤S322中的分类,反复进行计算分类,直到损失函数收敛,得出最终簇心及其簇。
损失函数的公式如下文所示
K代表总簇数,xi∈cj代表第i个属于簇cj的样本,d(cj,xi)代表簇心cj到样本点xi的距离。
本实施例中所有的距离计算均采用欧几里得距离公式进行计算得到。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (9)
1.一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:包括以下步骤:
S1.采集指定时间段内各个用户的用电负荷数据,并对用电负荷数据进行预处理得到负荷数据集X;
S2.将负荷数据集X输入Canopy算法中,得到聚类个数K,同时,建立负荷数据集X的Kd树;
S3.将步骤S2中得到聚类个数K作为参数输入Bisecting K-means算法,再将负荷数据集X输入Bisecting K-means算法进行聚类分析,Kd树对Bisecting K-means算法进行加速计算;
S4.得到聚类结果。
2.根据权利要求1所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S1中,对用电负荷数据进行缺损值填充,异常值替换,降维和归一化的预处理之后得到负荷数据集X。
3.根据权利要求2所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S2中,Canopy算法包括以下步骤:
S211.复制负荷数据集X得到数据集Xcopy,根据先验知识或交叉验证调整初始距离阈值T1、T2,且T1≥T2;
S212.从数据集Xcopy中随机选择一个样本x1作为第一个Canopy的聚簇质心c1,质心集记为C,c1∈C,并将c1从数据集Xcopy中删除。
S213.从数据集Xcopy中随机选择一个样本xi,计算其到质心集中所有质心的距离dij,dij代表第i个样本到第j个质心的距离,考察其中最小的距离如果则给xi一个弱标记,表示xi属于cj,并将xi加入其中;如果则给xi一个强标记,表示xi属于该cj,且和质心非常接近,因此将xi从Xcopy中删除;如果则xi形成一个新的聚簇质心cnew,加入质心集C,并将xi从Xcopy中删除;
S214.重复步骤S213直到数据集Xcopy为空,得到聚簇质心数量即聚类个数K。
4.根据权利要求3所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S2中,Kd树的建立使用递归的KdConstruct(X,h=0,H=d)函数,包括以下步骤:
S221.输入负荷数据集X,Kd树的当前深度h和截止深度H,其中H=d,d为数据集的维度;
S222.计算负荷数据集X中每一维数据的方差值,将维度序号按方差大小来排序,形成Split List,取Split List中第h维的中点值作为分割点MidPoint,将负荷数据中的数据X分为两个集合和根节点Root包含整个样本集X。
S223.建立根节点Root的左右子节点,Lchild为左子节点,包含样本集Xleft,Rchild为右子节点,包含样本集Xright,Lchild=KdConstruct(Xleft,h+1,H),Rchild=KdConstruct(Xright,h+1,H),递归地调用直到子节点为叶子节点,或h=H;
S224.返回根节点Root。
5.根据权利要求4所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S3包括以下具体步骤:
S31.将Canopy算法中得出的聚类个数K作为参数输入Bisecting K-means算法;
S32.在数据集Xcopy的d维中取一维排序成等区间间隔的子集,取2个初始簇心,形成簇C,运行经Kd树加速的k=2K-means算法,反复计算更新簇心及其簇,直到损失函数收敛,得出最终簇心及其簇;
S33.计算当前所有簇中,找出对损失函数贡献最大的簇cj,将该簇作为下一次迭代的目标数据集,Xcopy={xi|xi∈cj},再重复步骤S32,直到簇心个数达到K。
6.根据权利要求5所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S32包括以下具体步骤:
S321.从Kd树的根节点Root开始,修建Kd树中各个节点即样本数据xi的候选簇心集Cnew;
S322.计算节点对象到候选簇心的距离,并把数据xi分配给距离最小的簇心,如果节点的候选簇心集Cnew中只有一个簇心,直接将数据xi全部分给该簇;
S323.根据步骤S322中分好的簇集重新计算簇心,根据新得的簇心再次进行步骤S322中的分类,反复进行计算分类,直到损失函数收敛,得出最终簇心及其簇。
8.根据权利要求7所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S322中,距离的计算是采用欧几里得距离公式计算得出。
9.根据权利要求7所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S4的聚类结果就是步骤S33中的K个簇心及它们各自对应的簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543636.6A CN111783850A (zh) | 2020-06-15 | 2020-06-15 | 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543636.6A CN111783850A (zh) | 2020-06-15 | 2020-06-15 | 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111783850A true CN111783850A (zh) | 2020-10-16 |
Family
ID=72755955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010543636.6A Pending CN111783850A (zh) | 2020-06-15 | 2020-06-15 | 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783850A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883403A (zh) * | 2021-03-18 | 2021-06-01 | 广西师范大学 | 一种可验证的加密图像检索隐私保护方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129451A (zh) * | 2011-02-17 | 2011-07-20 | 上海交通大学 | 图像检索***中数据聚类方法 |
WO2017176145A1 (en) * | 2016-04-05 | 2017-10-12 | Huawei Technologies Co., Ltd. | Accelerated k-means clustering |
CN110929169A (zh) * | 2019-11-22 | 2020-03-27 | 北京网聘咨询有限公司 | 基于改进Canopy聚类协同过滤算法的职位推荐方法 |
-
2020
- 2020-06-15 CN CN202010543636.6A patent/CN111783850A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129451A (zh) * | 2011-02-17 | 2011-07-20 | 上海交通大学 | 图像检索***中数据聚类方法 |
WO2017176145A1 (en) * | 2016-04-05 | 2017-10-12 | Huawei Technologies Co., Ltd. | Accelerated k-means clustering |
CN110929169A (zh) * | 2019-11-22 | 2020-03-27 | 北京网聘咨询有限公司 | 基于改进Canopy聚类协同过滤算法的职位推荐方法 |
Non-Patent Citations (2)
Title |
---|
商莹: "基于文本挖掘的生鲜电商平台网络口碑评价研究", 《万方》, 25 May 2020 (2020-05-25), pages 35 - 37 * |
高亮 等: "基于Kd树改进的高效K-means聚类算法", 《计算技术与自动化》, 31 December 2015 (2015-12-31), pages 69 - 70 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883403A (zh) * | 2021-03-18 | 2021-06-01 | 广西师范大学 | 一种可验证的加密图像检索隐私保护方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xia et al. | Research on parallel adaptive canopy-k-means clustering algorithm for big data mining based on cloud platform | |
CN106682116B (zh) | 基于Spark内存计算大数据平台的OPTICS点排序聚类方法 | |
CN114021799A (zh) | 风电场日前风电功率预测方法及*** | |
CN107705212B (zh) | 一种基于粒子群随机游走的角色识别方法 | |
CN107301328B (zh) | 基于数据流聚类的癌症亚型精准发现与演化分析方法 | |
CN108280236A (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
CN109271427A (zh) | 一种基于近邻密度和流形距离的聚类方法 | |
CN110263834B (zh) | 一种新能源电能质量异常值的检测方法 | |
CN112016175A (zh) | 一种基于树状层次聚类的供水管网测压点优化布置方法 | |
CN110738232A (zh) | 一种基于数据挖掘技术的电网电压越限成因诊断方法 | |
CN111815054A (zh) | 基于大数据的工业蒸汽热网短期负荷预测方法 | |
CN110544047A (zh) | 一种不良数据辨识方法 | |
CN117951619A (zh) | 基于离群点检测和k-means结合的用户用电行为分析方法及*** | |
CN115309906A (zh) | 一种基于知识图谱技术的数据智能分类技术 | |
CN111783850A (zh) | 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法 | |
CN113554079B (zh) | 一种基于二次检测法的电力负荷异常数据检测方法及*** | |
CN110830291A (zh) | 一种基于元路径的异质信息网络的节点分类方法 | |
CN113094448B (zh) | 住宅空置状态的分析方法及分析装置、电子设备 | |
CN109858667A (zh) | 一种基于雷电气候对负荷影响的短期负荷聚类方法 | |
CN111985690B (zh) | 一种风电基地升压站选址方法 | |
CN117633597A (zh) | 基于自适应谱聚类的居民峰谷用电特性分类方法及*** | |
CN110135511B (zh) | 电力***时间断面的确定方法、装置以及电子设备 | |
Liu et al. | Study on Chinese text clustering algorithm based on K-mean and evaluation method on effect of clustering for software-intensive system | |
CN114861858A (zh) | 一种路面异常数据检测方法、装置、设备及可读存储介质 | |
Mortezanezhad et al. | Big-data clustering with genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |