CN111797899B - 一种低压台区kmeans聚类方法及*** - Google Patents
一种低压台区kmeans聚类方法及*** Download PDFInfo
- Publication number
- CN111797899B CN111797899B CN202010502448.9A CN202010502448A CN111797899B CN 111797899 B CN111797899 B CN 111797899B CN 202010502448 A CN202010502448 A CN 202010502448A CN 111797899 B CN111797899 B CN 111797899B
- Authority
- CN
- China
- Prior art keywords
- clustering
- data set
- bird nest
- low
- kmeans
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 48
- 230000009467 reduction Effects 0.000 claims abstract description 27
- 241000544061 Cuculus canorus Species 0.000 claims abstract description 20
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000005611 electricity Effects 0.000 claims abstract description 4
- 235000005770 birds nest Nutrition 0.000 claims description 102
- 235000005765 wild carrot Nutrition 0.000 claims description 102
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000008030 elimination Effects 0.000 claims description 12
- 238000003379 elimination reaction Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000005265 energy consumption Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明提出了一种低压台区kmeans聚类方法及***。包括以下步骤:首先,依托用电信息采集***,采集若干台区的相关电气特征参数,建立样本数据集;其次,采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;然后,基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;最后,运用t‑SNE方法对聚类结果进行降维三维分类结果显示。本发明相较于传统的kmeans聚类算法,减少了对于初始值的依赖,提高了低压台区聚类的准确性,为下一步进行典型台区的线损计算分析提供了技术支撑。
Description
技术领域
本发明涉及一种数据挖掘聚类方法,具体涉及一种低压台区kmeans聚类方法及***。
背景技术
低压台区线损是反映电力公司经营管理水平的一项重要指标。目前对于台区线损的评价主要依靠专家经验,管理缺乏针对性。传统方式计算的台区理论线损是基于线路参数得到的纯技术线损,但计算过程依赖于台区拓扑、供电半径、线路老化情况、线路长度等一系列参数数据,而实际计算中缺少分支线路参数等拓扑数据,导致不能直接沿用这种在中高压线路线损中比较成熟的算法,因此难以准确计算台区理论线损值。
台区线损分析是实现台区精益化管理的最重要途径,当前台区理论线损值存在计算难度大及台区线损评价主观化、分布式电源的接入等问题。
发明内容
本发明提出了一种低压台区kmeans聚类方法,相较于传统的kmeans聚类方法,减少了对于初始值的依赖,提高了低压台区聚类的准确性,为下一步进行典型台区的线损计算分析提供了技术支撑。
为实现上述目的,本发明实施方式的一方面提供一种低压台区kmeans聚类方法,包括以下步骤:
步骤1:依托用电信息采集***,采集若干台区的相关电气特征参数,建立样本数据集;
步骤2:采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
步骤3:基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
步骤4:运用t-SNE方法对聚类结果进行降维三维分类结果显示。
进一步的,所述步骤1中,首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集***提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
进一步的,所述步骤2运用pca主成分分析法将标准化数据集降维到n×p维:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT;
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2 … Zp]构成降维后的数据集。
进一步的,所述步骤3基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
(1)确定样本的聚类数目k,初始化改进布谷鸟算法各类参数,以k个随机聚类中心为1个鸟巢,对N个鸟巢初始化;
(2)依据初始化的鸟巢的聚类中心用kmeans算法进行划分聚类,以准则函数作为适应度函数,并更新聚类中心;
(3)开始迭代,对更新的鸟巢的聚类中心进行自适应步长的Levy飞行,产生新的鸟巢,计算新生成的鸟巢的适应度函数值;
(4)生成随机数,依据自适应鸟巢淘汰概率判断是否抛弃该鸟巢并重新初始化,是,抛弃该鸟巢并重新随机产生新的鸟巢,否则,不改变鸟巢;
(5)对新一代的鸟巢进行聚类划分并计算适应度函数值,选出最优鸟巢保存;
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
进一步的,所述步骤4运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
为实现上述目的,本发明实施方式的另一方面还提供一种低压台区kmeans聚类***,包括:数据采集模块、降维模块、聚类模块和显示模块;
所述数据采集模块,用于依托用电信息采集***,采集若干台区的相关电气特征参数,建立样本数据集;
所述降维模块,用于采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
所述聚类模块,用于使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
所述显示模块,用于运用t-SNE方法对聚类结果进行降维三维分类结果显示。
进一步的,还包括预处理模块,所述预处理模块首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集***提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
进一步的,所述降维模块运用pca主成分分析法将标准化数据集降维到n×p维:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT;
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2 … Zp]构成降维后的数据集。
进一步的,所述聚类模块使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
(1)确定样本的聚类数目k,初始化改进布谷鸟算法各类参数,以k个随机聚类中心为1个鸟巢,对N个鸟巢初始化;
(2)依据初始化的鸟巢的聚类中心用kmeans算法进行划分聚类,以准则函数作为适应度函数,并更新聚类中心;
(3)开始迭代,对更新的鸟巢的聚类中心进行自适应步长的Levy飞行,产生新的鸟巢,计算新生成的鸟巢的适应度函数值;
(4)生成随机数,依据自适应鸟巢淘汰概率判断是否抛弃该鸟巢并重新初始化,是,抛弃该鸟巢并重新随机产生新的鸟巢,否则,不改变鸟巢;
(5)对新一代的鸟巢进行聚类划分并计算适应度函数值,选出最优鸟巢保存;
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
进一步的,所述显示模块运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
本发明的有益效果在于:
(1)本发明针对低压台区线损分析的复杂性,提出了一种基于改进布谷鸟搜索的kmeans聚类算法对影响低压台区线损的高维的电气特征参数进行聚类,降低了传统kmeans算法对于初始聚类中心的敏感度,提高了聚类的准确性。
(2)本发明提出的基于改进布谷鸟搜索的kmeans聚类算法,参数精简,自适应鸟巢淘汰概率提高了种群的多样性,改进的自适应步长增强了算法跳出局部最优解的能力。该聚类算法降低了线损数据分析的复杂性,为后续复杂环境下的低压台区线损分析提供了技术支撑,使线损分析更加精细化,提高线损管理的有效性。
附图说明
图1基于改进布谷鸟搜索的低压台区kmeans聚类方法的流程示意图;
图2最佳初始分类图;
图3k=4的ICS-kmeans算法的适应度进化曲线;
图4k=4的样本分类百分比;
图5k=4的样本离散点检测图;
图6k=4的降维分类显示图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
台区线损分析是实现台区精益化管理的最重要途径,鉴于当前台区理论线损值计算难度大及台区线损评价主观化、分布式电源的接入等问题,本发明考虑对低压台区进行聚类,并利用大数据分析方法进行复杂低压台区的线损合理值分析,为基层台区负责人进行台区线损管理时提供合理的参考值,可进一步提高低压台区的管理水平。
如图1所示为本发明方法流程图。一种低压台区kmeans聚类方法,包括以下步骤:
步骤1:从某地区用电采集***终端提取600个台区某一天的电气特征参数(包括居民户数、居民容量、非居民户数、非居民容量、有功电量、无功电量、均方根电流、最大最小负荷电流、平均负荷率等15个电气参数),剔除异常数据,整理得到n=577个台区的电气特征参数数据集D,D∈Rn×m用于表示实数矩阵的值域;
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,m为电气特征参数总个数。分析数据,由于不同台区的参数有所差异,需消除统计方差的影响,故采用标准差标准化如式(2)对数据集进行归一化。
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
步骤2:由于电气特征参数有m=15维之多,对于后续数据聚类带来一定困难,因此采用主成分分析法进行降维,将15维的数据降维p=5维。其具体实施如下:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT;
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2 … Zp]构成降维后的数据集。
步骤3:对降维后的数据集进行聚类分析,本发明提出的基于改进布谷鸟搜索的kmeans聚类算法对低压台区样本数据集进行聚类的具体实施如下。
(1)初始化:设定聚类参数k、最大迭代次数maxiter、鸟巢数popsize、鸟巢淘汰概率范围(Pamin,Pamax)以及步长变化范围(αmin,αmax)。每个鸟巢代表一个解即k组聚类中心的数据集合C,(C∈Rk×p)。在Z数据集中随机产生popsize个k组聚类中心作为初始鸟巢。
(2)适应度计算:依据每个鸟巢的k组聚类中心,采用基于欧几里得距离的kmeans算法进行聚类计算,并选取误差平方和SSE作为准则函数,将其定义为适应度函数用来评价每个鸟巢。
式中Ei为第i个聚类簇,ei为簇Ei的聚类中心。进一步采用簇内聚类好的数据均值进行各自簇聚类中心的更新。
(3)更新:对每一个鸟巢的聚类中心进行自适应levy飞行,按公式(4)更新其位置。式中表示第popi个鸟巢的第t代的聚类中心组合;/>表示第t代中最优解;/>表示点对点乘法;α表示自适应步长控制量,如式(5)所示,其形为反正切函数,可以在算法初期以较小步长进行细搜索,在后期以较大步长帮助跳出局部最优解;L(λ)表示服从参数(1<λ≤3)的Levy分布产生的一个随机搜索向量,如式(6)所示。对新产生的鸟巢进行kmeans分类,并计算适应度函数值,保存最优鸟巢。
α=(αmin+αmax)/2+(αmin+αmax)·arctan(t-maxiter/2)/π (5)
L(λ)~u=t-λ(1<λ≤3) (6)
(4)发现:对每个鸟巢均产生随机数rand,如果rand<Pa,则抛弃该鸟巢并重新随机产生新的鸟巢;否则,不改变鸟巢。Pa为自适应鸟巢淘汰概率,如式(7)所示,其形式同样为反正切函数,使得算法后期的淘汰概率增大,保证种群的多样性。
Pa=(Pamin+Pamax)/2+(Pamin+Pamax)·arctan(t-maxiter/2)/π (7)
(5)对新一代的鸟巢进行kmeans分类,并计算适应度函数值,保存最优鸟巢。
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
为了分析本发明提出的算法性能,从统计学角度,选取不同k值下的运行10次基于改进布谷鸟搜索的kmeans(ICS-kmeans)算法与传统kmeans算法和基本的布谷鸟kmeans聚类算法(CS-kmeans)求解本案例得到准则函数的平均值和最优值进行对比,如表1所示。表中可以看出k值较小时,ICS-kmeans算法的平均值等于或优于其他两种算法。随着k值的增大,两者平均值的差值也逐渐增大,显示了ICS-kmeans算法改善了kmeans算法依赖于初始聚类中心的缺点。最优值的对比,显示了ICS-kmeans算法跳出局部最优解的能力优于其他两种算法。
表1 kmeans、CS-kmeans和ICS-kmeans算法的求解结果对比
在实际算例中,聚类参数k值的确定可以由线损分析人员主观确定,也可以由最佳初始分类图来确定。取k=2,3,…,8,从统计学角度,运行本发明提出的聚类算法10次取其适应度函数值(即准则函数)的平均值,绘制最佳初始分类图,如图2所示。图形中,可以看出随着初始分类k的增大,准则函数下降得很快,经过拐点后,下降速度减慢。拐点就是最佳初始分类,针对本实施案例,即k=4时为最佳初始分类。
针对本实施案例,选定k=4时,设定参数max iter=100、鸟巢数popsize=20、鸟巢淘汰概率范围Pamin=0.25、Pamax=0.55以及自适应步长范围αmin=0.001、αmax=1,绘制ICS-kmeans算法的适应度进化曲线如图3所示。从图中可以看出,进化初期10代之内,算法已求解了聚类优化结果,求解效率较高。聚类算法的结果输出如图4所示。1类的样本数百分比为52%,2类的样本数百分比为6%,3类的样本数百分比为31%,4类的样本数百分比为11%。进一步,可以对聚类数据进行离散点检测,帮助管理人员分析异常数据。如设定距离阈值为10,离散点检测图如图5所示。可以看出,最远的样本点距离误差为14.0208。管理人员可以主观设置距离阈值,来筛选聚类数据,提高聚类效果。
步骤4:聚类结果的视图化能帮助管理人员直观地查看聚类效果。本实施案例采用t-SNE算法将数据投影到3维空间观察。将数据点之间的相似度转化为条件概率,原始空间中数据点的相似度由高斯联合分布表示,嵌入空间中数据点的相似度由t分布表示。通过原始空间和嵌入空间的联合概率分布的KL散度(用于评估两个分布的相似度的指标)来评估嵌入效果的好坏,即将有关KL散度的函数作为损失函数(loss function),通过梯度下降算法最小化损失函数,最终获得收敛结果。本实施案例聚类结果进行t-SNE降维后,显示结果如图6所示。
本发明实施方式的另一方面还提供一种低压台区kmeans聚类***,包括:数据采集模块、降维模块、聚类模块和显示模块;
所述数据采集模块,用于依托用电信息采集***,采集若干台区的相关电气特征参数,建立样本数据集;
所述降维模块,用于采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
所述聚类模块,用于使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
所述显示模块,用于运用t-SNE方法对聚类结果进行降维三维分类结果显示。
进一步的,还包括预处理模块,所述预处理模块首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集***提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
进一步的,所述降维模块运用pca主成分分析法将标准化数据集降维到n×p维:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT;
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2 … Zp]构成降维后的数据集。
进一步的,所述聚类模块使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
(1)确定样本的聚类数目k,初始化改进布谷鸟算法各类参数,以k个随机聚类中心为1个鸟巢,对N个鸟巢初始化;
(2)依据初始化的鸟巢的聚类中心用kmeans算法进行划分聚类,以准则函数作为适应度函数,并更新聚类中心;
(3)开始迭代,对更新的鸟巢的聚类中心进行自适应步长的Levy飞行,产生新的鸟巢,计算新生成的鸟巢的适应度函数值;
(4)生成随机数,依据自适应鸟巢淘汰概率判断是否抛弃该鸟巢并重新初始化,是,抛弃该鸟巢并重新随机产生新的鸟巢,否则,不改变鸟巢;
(5)对新一代的鸟巢进行聚类划分并计算适应度函数值,选出最优鸟巢保存;
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
进一步的,所述显示模块运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (8)
1.一种低压台区kmeans聚类方法,其特征在于,包括以下步骤:
步骤1:依托用电信息采集***,采集若干台区的相关电气特征参数,建立样本数据集;
步骤2:采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
步骤3:基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
所述步骤3基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
步骤3.1:初始化:确定样本的聚类数目k、最大迭代次数maxiter、鸟巢数popsize、鸟巢淘汰概率范围(Pamin,Pamax)以及步长变化范围(αmin,αmax);每个鸟巢代表一个解即k组聚类中心的数据集合C,C∈Rk×p;在所述低维数据集中随机产生popsize个k组聚类中心作为初始鸟巢;
步骤3.2:适应度计算:依据每个鸟巢的k组聚类中心,采用基于欧几里得距离的kmeans算法进行聚类计算,并选取误差平方和SSE作为准则函数,将其定义为适应度函数用来评价每个鸟巢;
式中Ei为第i个聚类簇,ei为簇Ei的聚类中心;进一步采用簇内聚类好的数据均值进行各自簇聚类中心的更新;
步骤3.3:更新:对每一个鸟巢的聚类中心进行自适应levy飞行,按公式(4)更新其位置;对新产生的鸟巢进行kmeans分类,并计算适应度函数值,保存最优鸟巢;
α=(αmin+αmax)/2+(αmin+αmax)·arctan(t-max iter/2)/π (5)
L(λ)~u=t-λ(1<λ≤3) (6)
式(4)中表示第popi个鸟巢的第t代的聚类中心组合;/>表示第t代中最优解;/>表示点对点乘法;α表示自适应步长控制量,如式(5)所示;L(λ)表示服从参数1<λ≤3)的Levy分布产生的一个随机搜索向量,如式(6)所示;
步骤3.4:发现:对每个鸟巢均产生随机数rand,如果rand<Pa,则抛弃该鸟巢并重新随机产生新的鸟巢;否则,不改变鸟巢;Pa为自适应鸟巢淘汰概率,如式(7)所示;
Pa=(Pamin+Pamax)/2+(Pamin+Pamax)·arctan(t-maxiter/2)/π (7)
步骤3.5:对新一代的鸟巢进行kmeans分类,并计算适应度函数值,选出最优鸟巢保存;
步骤3.6:如未达到最大迭代次数返回步骤3.3继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分;
步骤4:运用t-SNE方法对聚类结果进行降维三维分类结果显示。
2.根据权利要求1所述的一种低压台区kmeans聚类方法,其特征在于,所述步骤1中,首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集***提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
3.根据权利要求2所述的一种低压台区kmeans聚类方法,其特征在于,所述步骤2运用pca主成分分析法将标准化数据集降维到n×p维:
步骤2.1:对所有样本进行中心化;
步骤2.2:计算中心化的样本的协方差矩阵XXT;
步骤2.3:对协方差矩阵进行特征值分解;
步骤2.4:取最大的特征值对应的特征向量,得到特征向量矩阵W;
步骤2.5:对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
步骤2.6:Z=[Z1 Z2…Zp]构成降维后的数据集。
4.根据权利要求1所述的一种低压台区kmeans聚类方法,其特征在于,所述步骤4运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
5.一种低压台区kmeans聚类***,其特征在于,包括:数据采集模块、降维模块、聚类模块和显示模块;
所述数据采集模块,用于依托用电信息采集***,采集若干台区的相关电气特征参数,建立样本数据集;
所述降维模块,用于采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
所述聚类模块,用于使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
所述聚类模块使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
步骤3.1:初始化:确定样本的聚类数目k、最大迭代次数maxiter、鸟巢数popsize、鸟巢淘汰概率范围(Pamin,Pamax)以及步长变化范围(αmin,αmax);每个鸟巢代表一个解即k组聚类中心的数据集合C,C∈Rk×p;在所述低维数据集中随机产生popsize个k组聚类中心作为初始鸟巢;
步骤3.2:适应度计算:依据每个鸟巢的k组聚类中心,采用基于欧几里得距离的kmeans算法进行聚类计算,并选取误差平方和SSE作为准则函数,将其定义为适应度函数用来评价每个鸟巢;
式中Ei为第i个聚类簇,ei为簇Ei的聚类中心;进一步采用簇内聚类好的数据均值进行各自簇聚类中心的更新;
步骤3.3:更新:对每一个鸟巢的聚类中心进行自适应levy飞行,按公式(4)更新其位置;对新产生的鸟巢进行kmeans分类,并计算适应度函数值,保存最优鸟巢;
α=(αmin+αmax)/2+(αmin+αmax)·arctan(t-max iter/2)/π (5)
L(λ)~u=t-λ(1<λ≤3) (6)
式(4)中表示第popi个鸟巢的第t代的聚类中心组合;/>表示第t代中最优解;/>表示点对点乘法;α表示自适应步长控制量,如式(5)所示;L(λ)表示服从参数1<λ≤3)的Levy分布产生的一个随机搜索向量,如式(6)所示;
步骤3.4:发现:对每个鸟巢均产生随机数rand,如果rand<Pa,则抛弃该鸟巢并重新随机产生新的鸟巢;否则,不改变鸟巢;Pa为自适应鸟巢淘汰概率,如式(7)所示;
Pa=(Pamin+Pamax)/2+(Pamin+Pamax)·arctan(t-maxiter/2)/π (7)
步骤3.5:对新一代的鸟巢进行kmeans分类,并计算适应度函数值,选出最优鸟巢保存;
步骤3.6:如未达到最大迭代次数返回步骤3.3继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分;
所述显示模块,用于运用t-SNE方法对聚类结果进行降维三维分类结果显示。
6.根据权利要求5所述的一种低压台区kmeans聚类***,其特征在于,还包括预处理模块,所述预处理模块首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集***提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
式中Xj为标准化后数据集X的第j列向量,Xj′为原数据集的第j列向量,为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
7.根据权利要求6所述的一种低压台区kmeans聚类***,其特征在于,所述降维模块运用pca主成分分析法将标准化数据集降维到n×p维:
步骤2.1:对所有样本进行中心化;
步骤2.2:计算中心化的样本的协方差矩阵XXT;
步骤2.3:对协方差矩阵进行特征值分解;
步骤2.4:取最大的特征值对应的特征向量,得到特征向量矩阵W;
步骤2.5:对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
步骤2.6:Z=[Z1 Z2…Zp]构成降维后的数据集。
8.根据权利要求5所述的一种低压台区kmeans聚类***,其特征在于,所述显示模块运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010502448.9A CN111797899B (zh) | 2020-06-04 | 2020-06-04 | 一种低压台区kmeans聚类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010502448.9A CN111797899B (zh) | 2020-06-04 | 2020-06-04 | 一种低压台区kmeans聚类方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797899A CN111797899A (zh) | 2020-10-20 |
CN111797899B true CN111797899B (zh) | 2023-11-07 |
Family
ID=72804226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010502448.9A Active CN111797899B (zh) | 2020-06-04 | 2020-06-04 | 一种低压台区kmeans聚类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797899B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378998B (zh) * | 2021-07-12 | 2022-07-22 | 西南石油大学 | 一种基于机器学习的地层岩性随钻识别方法 |
CN114710114B (zh) * | 2022-05-23 | 2022-09-13 | 北京华清未来能源技术研究院有限公司 | 光伏逆变器故障预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169557A (zh) * | 2017-05-12 | 2017-09-15 | 淮阴师范学院 | 一种对布谷鸟优化算法进行改进的方法 |
JP2017182528A (ja) * | 2016-03-31 | 2017-10-05 | 株式会社デンソーウェーブ | パラメータ調整装置 |
CN107767019A (zh) * | 2017-09-11 | 2018-03-06 | 中国兵器科学研究院 | 一种产品可靠性鉴定的方法 |
CN110428093A (zh) * | 2019-07-19 | 2019-11-08 | 北京工商大学 | 基于改进的布谷鸟算法的城市轨道列车运行优化方法 |
CN110569316A (zh) * | 2019-08-07 | 2019-12-13 | 浙江大学 | 基于t-SNE降维技术和BIRCH聚类的低压台区用户拓扑辨识方法 |
CN110619360A (zh) * | 2019-09-09 | 2019-12-27 | 国家电网有限公司 | 一种考虑历史样本相似性的超短期风功率预测方法 |
CN111126429A (zh) * | 2019-11-10 | 2020-05-08 | 国网浙江省电力有限公司 | 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10326537B2 (en) * | 2006-01-31 | 2019-06-18 | Silicon Laboratories Inc. | Environmental change condition detection through antenna-based sensing of environmental change |
US9026964B2 (en) * | 2013-03-13 | 2015-05-05 | University Of North Texas | Intelligent metamodel integrated Verilog-AMS for fast and accurate analog block design exploration |
US11327475B2 (en) * | 2016-05-09 | 2022-05-10 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for intelligent collection and analysis of vehicle data |
-
2020
- 2020-06-04 CN CN202010502448.9A patent/CN111797899B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017182528A (ja) * | 2016-03-31 | 2017-10-05 | 株式会社デンソーウェーブ | パラメータ調整装置 |
CN107169557A (zh) * | 2017-05-12 | 2017-09-15 | 淮阴师范学院 | 一种对布谷鸟优化算法进行改进的方法 |
CN107767019A (zh) * | 2017-09-11 | 2018-03-06 | 中国兵器科学研究院 | 一种产品可靠性鉴定的方法 |
CN110428093A (zh) * | 2019-07-19 | 2019-11-08 | 北京工商大学 | 基于改进的布谷鸟算法的城市轨道列车运行优化方法 |
CN110569316A (zh) * | 2019-08-07 | 2019-12-13 | 浙江大学 | 基于t-SNE降维技术和BIRCH聚类的低压台区用户拓扑辨识方法 |
CN110619360A (zh) * | 2019-09-09 | 2019-12-27 | 国家电网有限公司 | 一种考虑历史样本相似性的超短期风功率预测方法 |
CN111126429A (zh) * | 2019-11-10 | 2020-05-08 | 国网浙江省电力有限公司 | 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法 |
Non-Patent Citations (6)
Title |
---|
"Data clustering using hybrid improved cuckoo search method";A. C. Pandey;《2016 Ninth International Conference on Contemporary Computing (IC3)》;第1-6页 * |
"K-means clustering algorithm based on improved Cuckoo search algorithm and its application";S. Ye;《2018 IEEE 3rd International Conference on Big Data Analysis (ICBDA)》;第422-426页 * |
"An Improved Cuckoo Search Clustering Method for Line Loss Data of Transformer District with DGs";Yu, L.等;《Journal of Physics: Conference Series》;第2093卷(第1期);第012017页 * |
"基于ICS-K-means聚类算法和WNN的有源低压台区线损估算方法";伍栋文等;《智慧电力》;第50卷(第4期);第8-14页 * |
"基于自适应布谷鸟搜索算法的K-means聚类算法及其应用";杨辉华;《计算机应用》;第36卷(第8期);第5页 * |
"自适应调整的布谷鸟搜索K-均值聚类算法";王日宏;《计算机应用研究》;第35卷(第12期);第3593-3597页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111797899A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112381137B (zh) | 新能源电力***可靠性评估方法、装置、设备及存储介质 | |
CN109376772B (zh) | 一种基于神经网络模型的电力负荷组合预测方法 | |
CN112037009A (zh) | 一种基于随机森林算法的消费信贷场景的风险评估方法 | |
CN111797899B (zh) | 一种低压台区kmeans聚类方法及*** | |
CN112186761B (zh) | 一种基于概率分布的风电功率场景生成方法及*** | |
CN108345908A (zh) | 电网数据的分类方法、分类设备及存储介质 | |
CN110795690A (zh) | 风电场运行异常数据检测方法 | |
CN113839926B (zh) | 一种基于灰狼算法特征选择的入侵检测***建模方法、***及装置 | |
CN110929399A (zh) | 基于BIRCH聚类和Wasserstein距离的风电出力典型场景生成方法 | |
CN115116537A (zh) | 生物分子功能性动力学多转变路径的计算方法及*** | |
CN113127464B (zh) | 农业大数据环境特征处理方法、装置及电子设备 | |
CN111275074A (zh) | 基于栈式自编码网络模型的电力cps信息攻击辨识方法 | |
CN108763926B (zh) | 一种具有安全免疫能力的工业控制***入侵检测方法 | |
CN113094448B (zh) | 住宅空置状态的分析方法及分析装置、电子设备 | |
CN109858667A (zh) | 一种基于雷电气候对负荷影响的短期负荷聚类方法 | |
CN116365519B (zh) | 一种电力负荷预测方法、***、存储介质及设备 | |
CN112053006A (zh) | 基于迁移学习的冷热电联供***优化时间加速方法及*** | |
CN116561692A (zh) | 一种动态更新的实时量测数据检测方法 | |
CN110991743A (zh) | 一种基于聚类分析和优化神经网络的风电功率短期组合预测方法 | |
CN115017988A (zh) | 一种用于状态异常诊断的竞争聚类方法 | |
Saroj et al. | A genetic algorithm with entropy based probabilistic initialization and memory for automated rule mining | |
Feng et al. | A genetic k-means clustering algorithm based on the optimized initial centers | |
Gong et al. | Research on data filling algorithm based on improved k-means and information entropy | |
CN117609822A (zh) | 一种基于极端天气情况下的区域负荷分类方法及介质 | |
CN117911034A (zh) | 一种***异常交易检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |