CN115759393A

CN115759393A - 基于集成学习的累积负荷基线预测方法

Info

Publication number: CN115759393A
Application number: CN202211426225.4A
Authority: CN
Inventors: 艾芊; 张宇帆; 黄兴德; 陈赟; 李昭昱
Original assignee: Shanghai Jiaotong University; State Grid Shanghai Electric Power Co Ltd
Current assignee: Shanghai Jiaotong University; State Grid Shanghai Electric Power Co Ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-03-07

Abstract

本发明提供一种基于集成学习的累积负荷基线预测方法，包含步骤：S1、基于聚类算法，为M个电力用户生成N种不同的划分方式，共得到多个集群；S2、将集群在一天中的累积负荷、累积负荷基线作为集群在该天的输入特征、标签；基于各集群在不同日期的输入特征，分别建立训练集、验证集、测试集；S3、通过训练集训练网络模型，网络模型根据单天所述多个集群的输入特征，在多个分位点预测各种划分方式下，M个电力用户的累积负荷基线；S4、将验证集中的样本输入训练好的网络模型，基于损失函数，在各分位点，为网络模型预测的N种划分方式下的累积负荷基线分别设置权重系数；S5、基于训练好的网络模型和设置的权重系数，通过测试集检验预测方法的准确性。

Description

基于集成学习的累积负荷基线预测方法

技术领域

本发明涉及电力控制技术领域，特别涉及一种基于集成学习的累积负荷基线预测方法。

背景技术

在多种商业模式中，需求响应(DemandResponse，DR)旨在通过价格信号或金融激励来改变消费模式，从而推迟新电力基础设施的建设以满足用电高峰需求。总体而言，居民负荷具有良好的需求响应潜力。根据中国国家能源局的报告，2019年，中国居民用户用电量10.25亿千瓦时，占能源消费总量的14.19％。虽然居民用电的需求响应潜力很大，但单个用户很难单独参与需求响应项目，因此需求响应聚合商(Demand Response Aggregators,DRA)是用户参与DR计划的重要工具。为了定量测量DRA在DR事件中的响应能力，获得它的聚合负荷基线(Aggregated baseline load，ABL)非常重要。因此，研究DRA层面的ABL估计具有重要意义。

虽然对于聚合商的ABL估计和对于用户的累积负荷估计/预测存在一些差异，但累积负荷预测的结果对于ABL估计具有十分重要的参考价值。通常采用完全分解方法、完全聚合方法和基于聚类的方法进行累积负荷预测。对于完全分解的方法，首先单独估计/预测单个用户的负荷；然后，将预测的所有用户的负荷相加以形成最终的累积负荷预测结果。完全聚合方法首先对用户的用电曲线进行汇总，并据此估计/预测用户的累积负荷，它被证明是比完全分解的方法更好的方法。对于基于聚类的方法，首先通过聚类算法将所有用户分为不同的组。然后，分别估计/预测每个组的负载并将所有结果直接相加以形成用户集群的累积负荷预测结果。

目前的研究多针对单一用户进行累积负荷基线的预测。尤其是随着聚合体等市场主体的出现，对用户集群进行累积负荷基线预测的需求更加紧迫。

目前用户集群的累积负荷基线的预测方法往往依赖于对单一用户的预测结果，没有考虑到可以将用户集群按不同的方式进行划分，并将各种划分方式下的累积负荷基线预测结果进行合理组合，可能会带来的预测精度的提高。

发明内容

本发明的目的是提供一种基于集成学习的累积负荷基线预测方法，首先采用聚类算法，通过不同的划分方式将电力用户划分为多个集群，然后在训练阶段通过网络模型预测各种划分方式下的，最后在集成学习阶段，为各种划分方式下预测的累积负荷基线设置权重系数，大大提高了对用户集群预测累积负荷基线的精度。

为了达到上述目的，本发明提供一种基于集成学习的累积负荷基线预测方法，包含步骤：

S1、基于聚类算法，根据电力用户一年内的负荷曲线，为M个电力用户生成N种不同的划分方式，共得到

个集群；N_k表示通过第k种划分方式得到的集群数量，k∈[1,N]，N为设定的常数；

S2、将集群在一天中的累积负荷、累积负荷基线作为集群在该天的输入特征、标签；基于各集群在第1天

第N_tr天、第N_tr+1天

第N_tr+N_va天、第N_tr+N_va+1

第N_tr+N_va+N_test天的输入特征，分别建立训练集、验证集、测试集；

S3、通过训练集训练网络模型；所述网络模型根据单天

个集群的输入特征，在多个分位点预测各种划分方式下，M个电力用户的累积负荷基线；

S4、将验证集中的样本输入训练好的网络模型，基于损失函数，在各分位点，为网络模型预测的N种划分方式下的累积负荷基线分别设置权值，一个权值对应一种划分方式；

S5、基于训练好的网络模型和步骤S4中设置的权值，通过测试集中的样本预测M个电力用户的累积负荷基线的最终预测结果，并基于损失函数检验所述预测方法的准确性。

可选的步骤S1中：

令

为由第i用户一年的负荷曲线组成的矩阵，X_i中的一行对应在一天内的T个时间点采集的用电负荷；第i用户的年平均负荷

作为聚类算法的输入，i∈[1,M]；通过k-means聚类算法或层次聚类方法，对M个电力用户进行聚类分组。

可选的，通过k-means聚类算法对M个电力用户进行聚类分组时，分组结果满足；

其中，P^*为与k-means聚类方法等效的NP-hard优化问题；K为给定集群的数量；p_j表示聚类分组得到的第j个集群，j∈[1,K]；c_j是集群p_j的质心，||·||²表示求二范数平方的运算。

可选的，通过层次聚类算法对M个电力用户进行聚类分组，包含步骤：

S11、计算M个电力用户之间的欧几里得距离矩阵，D(i,j)为所述欧几里得距离矩阵中第i行第j列的元素，表示第i用户与第j用户之间的欧几里得距离；

为第j用户的年平均负荷，j∈[1,M]；若

将第i用户与第j用户划分为同一个簇；

S12、计算任意两个簇之间的距离，记当前的簇数为N′，N′>N₁，N₁为目标簇数；将与第i₁簇的欧几里得距离最小的一个簇与第i₁簇合并，

更新N′；重复步骤S12，直至N′＝N₁。

可选的，步骤S2包含：

S21、建立训练集

训练集包含N_tr个样本，一次向网络模型输入训练集中的一个样本；

训练集中的第t个样本XL_t为特征向量

表示第k种划分方式得到的第j个集群在第t天的累积负荷；agg表示累积，Tr表示训练集，

n_k,j为第k次聚类分组得到的第j个集群中的电力用户数量；x_i,t表示第k种划分方式得到的第j个集群中的第i个电力用户在第t天的用电负荷；

为

设置标签

为与

对应的累积负荷基线；

y_i,t为第k种划分方式得到的第j个集群中的第i个电力用户在第t天的负荷基线；

S22、建立验证集

验证集包含N_va个样本，一次向网络模型输入验证集中的一个样本；

验证集中的第t′-N_tr个样本

为特征向量

t′∈[N_tr+1,N_tr+N_va]，

表示第k种划分方式得到的第j个集群在第t′天的累积负荷；Vali表示验证集，

x_i,t′表示第k种划分方式得到的第j个集群中的第i个电力用户在第t′+N_tr天的用电负荷；

为

设置标签

为与

对应的累积负荷基线；

y_i,t′为第k种划分方式得到的第j个集群中的第i个电力用户在第t′天的负荷基线；

S23、建立测试集

测试集包含N_test个样本，一次向网络模型输入测试集中的一个样本；

测试集中的第t″-N_tr-N_va个样本

为特征向量

t″∈[N_tr+N_va+1，N_tr+N_va+N_test]；Test表示测试集，

表示第k种划分方式得到的第j个集群在第t″天的累积负荷；

x_i,t″表示第k种划分方式得到的第j个集群中的第i个电力用户在第t″天的用电负荷；

为

设置标签

为与

对应的累积负荷基线；

y_i,t″为第k种划分方式得到的第j个集群中的第i个电力用户在第t″天的负荷基线。

可选的，步骤S3中，网络模型在第q个分位点预测的与

对应的累积负荷基线记为

q∈[1,Q]，Q为设定的分位点的总数；

在第q个分位点，网络模型基于

预测的第k种划分方式下的累积负荷基线记为

可选的，步骤S4包含：

S41、令

表示网络模型基于

预测的，第k种划分方式下第j个集群在第q个分位点的累积负荷基线；

令

表示在第q个分位点，网络模型基于

预测的第k种划分方式下的累积负荷基线；

令

表示为各种划分方式设置权重系数之后，基于测试集，在第q个分位点预测的所有用户的累积负荷基线；

ω_k,q为与

对应的权重系数；

S42、定义弹球损失函数

其中I_{·}是指示函数，

表明验证集上对应时间t′的标签；

S43、构建优化问题以确定权重系数，所述优化问题的数学表达式如下：

ω_q为在各种划分方式下得到权重系数的集合；

S44、引入辅助决策变量

将上述优化问题转化成为线性规划问题，所述线性规划问题的数学表达式如下：

可选的，步骤S5包含：

步骤S51、将验证集的样本输入训练好的网络模型；令

表示网络模型基于

预测的，第k种划分方式下的第j个集群在第q个分位点的累积负荷基线；

令

表示在第q个分位点，网络模型基于

预测的第k种划分方式下的累积负荷基线；

令

表示采用步骤S4中确定的权重系数之后，在第q个分位点，基于

预测的所有用户的累积负荷基线；

S52、基于弹球损失函数检验

的准确性。

可选的，网络模型为用于分位点回归的梯度提升决策树模型。

与现有技术相比，本发明的基于集成学习的累积负荷基线预测方法的有益效果在于：

现有技术中仅对单一用户预测累积负荷基线，没有考虑到可以将用户集群按不同的方式进行划分，并将各种划分方式下的累积负荷基线预测结果进行合理组合，可能会带来的预测精度的提高。

本发明中首先采用聚类算法，通过不同的划分方式将电力用户划分为多个集群，然后在训练阶段通过网络模型预测各种划分方式下的累积负荷基线，最后在集成学习阶段，为各种划分方式下预测的累积负荷基线设置权重系数，大大提高了对用户集群预测累积负荷基线的精度。

附图说明

为了更清楚地说明本发明技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图：

图1为本发明的基于集成学习的累积负荷基线预测方法的流程图；

图2为本发明实施例中，采用不同聚类算法的预测结果在不同分位数的弹球损失排名示意图；

图3为本发明实施例中，不同聚类算法在不同分位数的权重热图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本发明提供一种基于集成学习的累积负荷基线预测方法，包含步骤：

步骤S1中：

令

在一个实施例中，通过k-means聚类算法对M个电力用户进行聚类分组时，分组结果满足；

其中，P^*为与k-means聚类方法等效的NP-hard优化问题；K为给定集群的数量；p_j表示聚类分组得到的第j个集群，j∈[1,K]；c_j是集群p_j的质心，||·||²表示求二范数平方的运算。由于不同的集群的数量会导致不同的划分结果，本实施例中，将簇数设置为2、4和6，以获得3种不同的用户划分方式以用于随后的集成学习过程。

在另一个实施例中，通过层次聚类算法对M个电力用户进行聚类分组，包含步骤：

为第j用户的年平均负荷，j∈[1,M]；若

将第i用户与第j用户划分为同一个簇；

更新N′；重复步骤S12，直至N′＝N₁。

在另一个实施例中，选择集群的数量为1、3、5和7，以获得4种不同的用户划分方式以用于随后的集成学习过程。

第N_tr天、第N_tr+1天

第N_tr+N_va天、第N_tr+N_va+1

步骤S2包含：

S21、建立训练集

训练集包含N_tr个样本，一次向网络模型输入训练集中的一个样本；本发明中使用的网络模型为用于分位点回归的梯度提升决策树模型。

训练集中的第t个样本XL_t为特征向量

为

设置标签

为与

对应的累积负荷基线；

S22、建立验证集

验证集中的第t′-N_tr个样本

为特征向量

t′∈[N_tr+1,N_tr+N_va]，

为

设置标签

为与

对应的累积负荷基线；

S23、建立测试集

测试集中的第t″-N_tr-N_va个样本

为特征向量

t″∈[N_tr+N_va+1，N_tr+N_va+N_test]；Test表示测试集，

表示第k种划分方式得到的第j个集群在第t″天的累积负荷；

为

设置标签

为与

对应的累积负荷基线；

S3、通过训练集训练网络模型；所述网络模型根据单天

步骤S3中，网络模型在第q个分位点预测的与

对应的累积负荷基线记为

q∈[1,Q]，Q为设定的分位点的总数；

在第q个分位点，网络模型基于

预测的第k种划分方式下的累积负荷基线记为

可选的，步骤S4包含：

S41、令

表示网络模型基于

令

表示在第q个分位点，网络模型基于

预测的第k种划分方式下的累积负荷基线；

令

ω_k,q为与

对应的权重系数；

S42、定义弹球损失函数

其中I_{·}是指示函数，

表明验证集上对应时间t′的标签；

ω_q为在各种划分方式下得到权重系数的集合；

S44、引入辅助决策变量

步骤S5包含：

步骤S51、将验证集的样本输入训练好的网络模型；令

表示网络模型基于

令

表示在第q个分位点，网络模型基于

预测的第k种划分方式下的累积负荷基线；

令

预测的所有用户的累积负荷基线；

S52、基于弹球损失函数检验

的准确性。

上述步骤中，步骤S3为训练阶段，步骤S4为集成学习阶段，步骤S5为测试检验阶段。

数据描述

本实施例中，用户的智能电表量测数据来自伦敦低碳(Low Carbon London,LCL)提供的智能电表数据集。本发明随机挑选出从2013年1月1日到2013年12月31日，441个接受固定电价用户的每半个小时一次的量测量，此外，将比较方法总结于表1中，其中3-K为基于3个子集群K-means聚类算法得到的估计结果，2-H指基于2个子集群层次聚类算法得到的估计结果，K-E是基于完全聚合的方法、3-K,5-K,7-K得到的集成学习结果，H-E是基于完全聚合的方法、2-H,4-H,6-H得到的集成学习结果.

表1比较方法

预测结果

对于概率估计，基于回归的方法对不同分位数估计的比较如图2所示。结果表明，对于第20和第80分位数，所提出的方法取得了最佳结果。对于第60个分位数，所提出的方法产生了第二好的结果。

此外，对于每个分位数估计，最佳的个体方法是不同的。我们将它们总结在表2中。这表明任何单独的方法都无法始终产生最佳结果。因此，在所有情况下都部署单一算法是不可靠的。相比之下，所提出的方法具有相对稳定的良好性能，可以免去为特定情况选择一种特定算法的努力。

表2不同分位数估计下的最优方法

此外，不同分位数估计的不同模型的权重在图3中可视化。对于每个分位数估计，模型对在验证集上具有更好性能的算法赋予更多权重。

本发明中首先采用聚类算法，通过不同的划分方式将电力用户划分为多个集群，然后在训练阶段通过网络模型预测各种划分方式下的，最后在集成学习阶段，为各种划分方式下预测的累积负荷基线设置权重系数，大大提高了对用户集群预测累积负荷基线的精度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。