CN109657891A

CN109657891A - 一种基于自适应k-means++算法的负荷特性分析方法

Info

Publication number: CN109657891A
Application number: CN201811088277.9A
Authority: CN
Inventors: 李婧; 万灿; 李植鹏; 徐胜蓝; 肖明; 谢莹华; 候惠勇; 郑睿敏
Original assignee: Shenzhen Power Supply Planning Design Institute Co ltd; Shenzhen Power Supply Co ltd; Zhejiang University ZJU
Current assignee: Shenzhen Power Supply Planning Design Institute Co ltd; Shenzhen Power Supply Co ltd; Zhejiang University ZJU
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-04-19
Anticipated expiration: 2038-09-18
Also published as: CN109657891B

Abstract

本发明公开了一种基于自适应k‑means++算法的负荷特性分析方法，其包括如下步骤：步骤S10、采集电网需求侧用户的日负荷曲线；步骤S12、对数据进行预处理，筛选出有效的数据记录并进行归一化处理；步骤S14、设定不同聚类数，采用k‑means++算法对日负荷曲线进行聚类，综合不同聚类数时的聚类结果，构建判断矩阵；步骤S16、对判断矩阵对应的加权邻接图迭代进行图切分，获得日负荷曲线数据集的最佳聚类数；步骤S18、以步骤S16所获得的最佳聚类数，采用k‑means++算法对日负荷曲线进行聚类。实施本发明，可以，可以确定最佳聚类数，并获得较优的聚类结果。

Description

一种基于自适应k-means++算法的负荷特性分析方法

技术领域

本发明涉及供电网的负荷特性分析领域，尤其是涉及一种基于自适应k-means++算法的负荷特性分析方法。

背景技术

目前，在供电网的负荷特性分析中，在实际应用中往往根据用户的行业对电力负荷进行分类，如划分为工业负荷、商业负荷、农业负荷、居民负荷以及其他负荷。但研究表明：有些用户尽管属于同一行业，但其负荷特性差异较大；有些用户虽然所属行业不同，但其负荷特性却存在一定的相似性，甚至极为接近。因此以行业为分类依据的负荷特性分析结果是不准确的。

在现有技术中，有学者提出采用聚类算法来对电力用户负荷曲线进行聚类，将数量众多的电力负荷曲线归类，提炼出不同类中众多电力负荷曲线的共性特征，以辨识不同类电力负荷曲线的差异特征，帮助掌握电力用户用电的规律。但是，聚类分析结果的准确性依赖于聚类数的设定，若聚类数不恰当，将会引起较大的偏差。

发明内容

本发明所要解决的技术问题在于，提供一种基于自适应k-means++算法的负荷特性分析方法，可以确定最佳聚类数，并获得较优的聚类结果。

为了解决上述技术问题，本发明所采用的技术方案为，提供一种基于自适应k-means++算法的负荷特性分析方法，包括如下步骤：

步骤S10、采集电网需求侧用户的日负荷曲线；

步骤S12、对数据进行预处理，筛选出有效的数据记录并进行归一化处理；

步骤S14、设定不同聚类数，采用k-means++算法对日负荷曲线进行聚类，综合不同聚类数时的聚类结果，构建判断矩阵；

步骤S16、对判断矩阵对应的加权邻接图迭代进行图切分，求日负荷曲线数据集的最佳聚类数；

步骤S18、以步骤S16所求最佳聚类数，采用k-means++算法对日负荷曲线进行聚类。

优选地，步骤S10具体包括，周期性对终端用户的负荷数据进行采样获得日负荷曲线，所述周期性为每15min采样一次。

优选地，步骤S12中有效的数据记录为排除存在缺失值、负值、暴增及骤降情况的日负荷曲线之后的日负荷曲线。

优选地，步骤S12中进行归一化处理具体为采用最大值归一化方法进行处理。

优选地，步骤S14中综合不同聚类数时的聚类结果构建判断矩阵的步骤具体包括：

步骤S141、给定一个最大聚类数k，取[2，k]的范围内每个整数作为聚类数C，分别进行一次聚类；

步骤S142、从每次聚类的结果中可以得到一维向量L＝[l₁ l₂…l_k…l_N]，其中，N为数据集的样本个数，l_k(1≤k≤N)表示第k个样本所属的聚类类别；

步骤S143、根据一维向量L，定义一个邻接矩阵O_C＝[o_ij]_N×N，其中，Oij定义如下：

步骤S144、对每一次聚类，均获得一个邻接矩阵，将所有得到的邻接矩阵进行相加，得到一个判断矩阵

优选地，步骤S16的具体包括如下步骤：

步骤S161、输入判断矩阵J，设n＝0，J^previous＝J；

步骤S162、通过判断矩阵J^previous得到对应的加权邻接图G_subgraphs[n]和邻接图中的子图个数Clusternumber[n]，同时判断矩阵减1，具体操作为：

步骤S163、如果矩阵J^new不为零矩阵，J^previous＝J^new，n＝n+1，转至步骤S162；如果矩阵J^new为零矩阵，图切分过程结束，转至步骤S164；

步骤S164、统计数组Clusternumber[n]中不同子图个数出现的次数，排除掉子图个数等于1的情况，数组Clusternumber[n]余下项中出现次数最多的子图个数即为所求最佳聚类数。

优选地，根据步骤S18所得聚类结果，获得电力用户负荷特性以及用户用电规律。

实施本发明实施例，具有如下的有益效果：

本发明提出一种自适应k-means++算法对电力负荷特性进行聚类分析的方法，不依赖于单一聚类结果，而是通过集成不同聚类数时的聚类结果来验证数据集里各样本的相似性，采用迭代图切分方法确定最佳聚类数，避免了聚类数不恰当引起的单一聚类结果的过大偏差，提高电力负荷聚类的精确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明涉及的下k-means++算法的一个例子中的数据集中各样本分布示意图；

图2为本发明提供的一种基于自适应k-means++算法的负荷特性分析方法的主流程示意图；

图3为图2中进行聚类后获得的聚集结果中第一个类的曲线示意图；

图4为图2中进行聚类后获得的聚集结果中第二个类的曲线示意图；

图5为图2中进行聚类后获得的聚集结果中第三个类的曲线示意图；

图6为图2中进行聚类后获得的聚集结果的DBI指标图；

图7为图2中进行聚类后获得的聚集结果的SSE指标图；

图8为图2中进行聚类后获得的聚集结果的CHI指标图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明提出一种自适应k-means++算法对电力负荷特性进行聚类分析，其不依赖于单一聚类结果，而是通过集成不同聚类数时的聚类结果来验证数据集里各样本的相似性，采用迭代图切分方法确定最佳聚类数，避免了聚类数不恰当引起的单一聚类结果的过大偏差。

为便于理解本发明的实施例，首先，简要介绍一下k-means++算法的原理。k-means++算法是在原始k-means算法上发展而来，此两种算法都属于“硬聚类”算法，即数据集中每一个样本都是被100％确定得分到某一个类别中。其中，原始K-means算法最开始随机选取数据集中K个点作为聚类中心，而K-means++按照如下的思想选取K个聚类中心：假设已经选取了n个初始聚类中心(0<n<K)，则在选取第n+1个聚类中心时：距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。在选取第一个聚类中心(n＝1)时同样通过随机的方法。可以说这也符合我们的直觉：聚类中心当然是互相离得越远越好。这个改进虽然直观简单，但是却非常得有效。

更具体地，在一个例子中，可以通过如下的步骤对K-means++算法进行描述：

步骤1：从数据集中随机选取一个样本作为初始聚类中心c₁；

步骤2：首先计算每个样本与当前已有聚类中心之间的最短距离(即与最近一个聚类中心的距离)，用D(x)表示；接着计算每个样本被选为下一聚类中心的概率最后，按照轮盘法选择出下一个聚类中心；

步骤3：重复步骤2直到选择出共K个聚类中心；

步骤4：针对数据集中每个样本x_i，计算它到K个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中；

步骤5：针对每个类别c_i，重新计算它的聚类中心(即属于该类的所有样本的质心)；

步骤6：重复步骤4和步骤5，直到聚类中心的位置不再变化。

下面结合一个简单的例子说明K-means++是如何选取初始聚类中心的。在这个例子中，数据集中共有8个样本，分布以及对应序号可参见图1所示。

假设经过上述的步骤1后6号点被选择为第一个初始聚类中心，那在进行步骤2时每个样本的D(x)和被选择为第二个聚类中心的概率如下表所示：

表1第二聚类中心的概率分布表

其中的P(x)就是每个样本被选为下一个聚类中心的概率。最后一行的Sum是概率P(x)的累加和，用于轮盘法选择出第二个聚类中心。方法是随机产生出一个0～1之间的随机数，判断它属于哪个区间，那么该区间对应的序号就是被选择出来的第二个聚类中心了。例如1号点的区间为[0,0.2)，2号点的区间为[0.2,0.525)，依次类推。

从上表可以直观的看到第二个初始聚类中心是1号，2号，3号，4号中的一个的概率为0.9。而这4个点正好是离第一个初始聚类中心6号点较远的四个点。这也验证了K-means的改进思想：即离当前已有聚类中心较远的点有更大的概率被选为下一个聚类中心。可以看到，该例的K值取2是比较合适的。当K值大于2时，每个样本会有多个距离，需要取最小的那个距离作为D(x)。

如图2所示，示出了本发明提供的一种基于自适应k-means++算法的负荷特性分析方法的主流程示意图。一并参考图3至图5所示。在本实施例，本发明的方法包括如下的步骤：

步骤S10、采集电网需求侧用户的日负荷曲线；具体地，周期性对终端用户的负荷数据进行采样获得日负荷曲线。下面结合某地区7月份某一工作日的用户负荷数据对本发明进一步说明，在本实施例中，所述周期性为每15分钟(min)采样一次，每日总共采样96次所得的日负荷曲线，原始数据集总共有约3200条负荷记录。

筛选排除掉数据集中存在缺失值、负值、暴增及骤降情况的日负荷曲线，余下的则为有效的数据记录，总计2828条。对有效的数据记录进行最大值归一化处理。其中，所述最大值归一化处理。其中，最大值归一化处理是指将原始数据线性化的方法转换到[0 1]的范围，可以采用的归一化公式如下：

其中x_max为样本数据的最大值，x_minn为样本数据的最小值。

步骤S14、设定不同聚类数，采用k-means++算法对日负荷曲线进行聚类，综合不同聚类数时的聚类结果，构建判断矩阵；具体地，可以包括如下步骤：

步骤S140、给定一个最大聚类数60，取[2，60]的范围内每个整数作为聚类数C，采用k-means++算法分别进行一次聚类；

步骤S142、从每次聚类的结果中得到一维向量L＝[l₁ l₂…l_N]，其中，N为数据集的样本个数，l_k(1≤k≤N)表示第k个样本所属的聚类类别；

步骤S143、根据一维向量L，得到邻接矩阵O_C＝[o_ij]_N×N，其中，O_ij定义如下：

步骤S144、对每一次聚类，均获得一个邻接矩阵，对所有得到的邻接矩阵进行相加，得到一个判断矩阵：

其中，如何获得邻接矩阵为本领域的常用技术，在此不进行详述。

步骤S16、对判断矩阵对应的加权邻接图迭代进行图切分，求日负荷曲线数据集的最佳聚类数；具体地，包括如下步骤：

步骤S160：输入判断矩阵J，设n＝0，J^previous＝J；

步骤S162：通过判断矩阵J^previous得到对应的加权邻接图G_subgraphs[n]和邻接图中的子图个数Clusternumber[n]，同时判断矩阵减1，具体操作为：

步骤S164：如果矩阵J^new不为零矩阵，J^previous＝J^new，n＝n+1，转至步骤S162；如果矩阵J^new为零矩阵，图切分过程结束，转至步骤S164；

步骤S166：统计数组Clusternumber[n]中不同子图个数出现的次数，排除掉子图个数等于1的情况，数组Clusternumber[n]＝[3，3，3，3，3，3，3，4，4，4，4，4，4，5，5，5，6，6，7，9，10，13，12，12，16，19，19，28，31，35，36，41，51，55，66，80，95，116，138，160，190，225，279，329，396，468，559，639，753，906，1049，1215，1397，1584，1800，2038，2341]。余下项中出现次数最多的子图个数为3，即3为所求最佳聚类数。

步骤S18、以步骤S16所获得最佳聚类数，采用k-means++算法对日负荷曲线进行聚类。在本实施例中，以上述所求得的最佳聚类数3对数据集进行k-means++算法聚类，得到日负荷曲线分类与综合结果，如附图3至5所示。

如图3至图5所示，示出了本发明实施例中经过聚类后的三类日负荷曲线。

其中，由附图3中可见：其横坐标为样本点(Sample dots)，其纵坐标为有功功率(active power)，第一类曲线属于双峰型负荷类，具体表现为：在晚上8时至次日早上8时，负荷水平较低，早上8时起快速攀升至峰值，午间12时午休导致负荷稍有些下降，午间过去后回升至峰值，一直保持至下午5时，下午5时开始下降，到晚上8时降至较低水平。该类负荷所含用户数为1397，约占总用户数的49.40％，其构成以大工业用电、商业用电与其他用电为主。

如附图4所示，第二类曲线属于避峰型负荷类，具体表现为：在早上5时至晚上7时左右都维持在一个较低的水平，而在晚上7时迅速升到峰值，一直保持着峰值至晚上11时，晚上11时负荷开始有所下降，但直至次日早上5时都维持在一个较高水平。该类负荷所含用户数为440，约占总用户数的15.56％，构成以其他用电为主，包括非居民照明，学校教育与学生生活用电等负荷类别。

如附图5所示，第三类曲线属于峰平型负荷类，具体表现为：在凌晨0时至早上8时都维持在一个较低的水平，在早上8时至晚上24时都维持在一个较高的水平。该类负荷所含用户数为991，约占总用户数的35.04％，构成以居民用电、商业用电和其他用电为主。其中大部分居民负荷被归于这一类负荷中。

为了验证聚类结果的有效性，可以采取DBI(戴维森堡丁指数)、SSE(误差平方和)以及CHI(Calinski-Harabasz指标)三种有效性指标对聚类结果进行有效性评判，可以理解的是，其中DBI、SSE、CHI指标为本领域的习知技术，在此不进行详述。

其中，如图6所示，取聚类数(cluster number)为3时，DBI最小，其次为4，当聚类数取其余值时，DBI指标相对较大，取聚类数＝3或4为佳。

如图7所示，在图5中寻找SSE曲线的拐点，可得聚类数为3和4时，曲线斜率有一定幅度减小，所以最佳聚类数可选为3或4。

由附图8可得：CHI指标随聚类数增大而减小，由于聚类数过小会导致聚类失去意义，所以2不可取，则取聚类数为3或4较为合适。

综合DBI、SSE和CHI指标可以得出：最佳聚类数为3，其次为4，与通过迭代的图切分方法得出的结果一致。

实施本发明的实施例，具有如下的有益效果：

要注意的是，以上列举的仅为本发明的具体实施例，显然本发明不限于以上实施例，随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形，均应属于本发明的保护范围。

Claims

1.一种基于自适应k-means++算法的负荷特性分析方法，其特征在于，包括如下步骤：

步骤S10、采集电网需求侧用户的日负荷曲线；

步骤S16、对判断矩阵对应的加权邻接图迭代进行图切分，获得日负荷曲线数据集的最佳聚类数；

步骤S18、以步骤S16所获得的最佳聚类数，采用k-means++算法对日负荷曲线进行聚类。

2.如权利要求1所述的方法，其特征在于，步骤S10具体包括，周期性对终端用户的负荷数据进行采样获得日负荷曲线，所述周期性为每15min采样一次。

3.如权利要求2所述的方法，其特征在于，步骤S12中有效的数据记录为排除存在缺失值、负值、暴增及骤降情况的日负荷曲线之后的日负荷曲线。

4.如权利要求3所述的方法，其特征在于，步骤S12中进行归一化处理具体为采用最大值归一化方法进行处理。

5.如权利要求1至4任一项所述的方法，其特征在于，步骤S14中综合不同聚类数时的聚类结果构建判断矩阵的步骤具体包括：

步骤S142、从每次聚类的结果中得到一维向量L＝[l₁ l₂ …l_k…l_N]，其中，N为数据集的样本个数，l_k(1≤k≤N)表示第k个样本所属的聚类类别；

步骤S143、根据一维向量L，定义一个邻接矩阵O_C＝[o_ij]_N×N，其中，O_ij定义如下：

6.如权利要求5所述的方法，其特征在于，步骤S16的具体包括如下步骤：

步骤S161、输入判断矩阵J，设n＝0，J^previous＝J；

7.如权利要求6所述的方法，其特征在于，根据步骤S18所得聚类结果，获得电力用户负荷特性以及用户用电规律。