CN111582567B

CN111582567B - 一种基于递阶集成的风电功率概率预测方法

Info

Publication number: CN111582567B
Application number: CN202010348291.9A
Authority: CN
Inventors: 金怀平; 石立贤; 金怀康
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2022-07-01
Anticipated expiration: 2040-04-28
Also published as: CN111582567A

Abstract

本发明公开了一种基于递阶集成的风电功率概率预测方法。所述方法通过重采样和偏最小二乘法构建子空间集，在每个子空间上利用GMM聚类得到多个局部区域，并建立相应的局部GPR模型，利用贝叶斯推理策略和有限混合机制融合局部模型建立第一层集成模型。采用遗传算法挑选出适合的第一层集成模型进行选择性自适应集成，得到选择性递阶集成高斯过程回归概率预测模型。为了解决风电数据特征的变化导致的性能恶化问题，通过引入自适更新策略，使预测模型有自适应更新的能力。本发明将选择性递阶集成学习框架用于超短期的风电功率预测，与传统集成学习预测方法相比，本发明具有更高的预测精度和稳定性，而且产生的预测区间能为电力调度提供有效参考。

Description

一种基于递阶集成的风电功率概率预测方法

技术领域

本发明涉及风电功率预测技术领域，尤其涉及一种基于递阶集成的风电功率概率预测方法。

背景技术

风能是一种无污染、分布广泛的可再生能源，风力发电技术在近些年得到了迅速发展。但是由于风能的随机性和波动性，不稳定的风电入网会对电力***的安全、稳定产生冲击，从而会影响电网的设备的稳定运行。因此，准确高效的风电功率预测，可以有效促进安排合理的电力调度，为电网安排发电计划、停机检修提供可靠参考，有利于保证***的安全可靠和经济运行。风电功率预测对于发电行业朝着环保、清洁方向发展起着至关重要的作用，有很大的工程应用价值。

集成学习是一种通过构建并结合多个子模型来完成学习任务的策略，常可获得比单一模型更好的性能，从而在风电功率预测领域有着广泛应用。正如我们所知道的，高性能且具有丰富多样性的子模型才能集成出更好的性能。然而，大部分针对于集成学习的风电功率预测研究忽视了从输入数据上来构建子模型的多样性，这不利于得到具有丰富多样性子模型。此外，随着模型的预测时间变长，由于模型是利用历史的数据来建立的，概念漂移现象会不可避免的发生，所以模型应该拥有一定的自适应能力。对于集成模型的自适应有两部分组成，一是子模型要有一定的自适应更新能力，二是集成子模型的权值应不应该是固定的，应是自适应变化的。然而，集成模型的自适应问题在最近的研究中鲜有探讨。

最后，由于风能的随机性强、不确定性高的特点，传统的单点预测不能对风的不确定性做出较好的估计，对于电力***的稳定来说，风电的并网需要对风电的波动范围有比较精确的估计，仅有单点的预测是远远不够的。因此，能够产生概率预测区间的概率建模方法应该被应用于子模型。

发明内容

针对现有技术的不足，本发明提供一种基于递阶集成的风电功率概率预测方法，有效提高了预测模型的准确性和稳定性。

本发明为解决技术问题采用如下技术方案：一种基于递阶集成的风电功率概率预测方法，所述方法包括以下步骤：

步骤(1)选取一段风电场的历史气象数据D作为建模的样本集，将样本集划分为训练集D_train、验证集D_val和测试集D_test，利用Bootstrapping的方式对D_train进行多次重采样，得到L个子样本集{(X₁，y₁)，...，(X_L，y_L)}，利用偏最小二乘法(PLS)对子样本集的输入特征变量进行选择并进行重要性排序，删除相同的样本子集，构建出N个子空间{S₁，...，S_N}，保存N个子空间对应训练集样本的输入特征变量索引；

步骤(2)将子空间的索引映射到训练集D_train，得到N个子空间训练数据集{D_tra，1，...，D_tra，N}，然后利用高斯混合模型GMM在每个子空间上进行聚类，则假设在第i个子空间训练数据集D_tra，i上得到z个局部区域{LD₁，LD₂，...，LD_z}，在每个局部区域上利用高斯过程回归进行建模，得到GPR模型集{GPR₁，GPR₂，...，GPR_z}；对于一个新样本x^*，利用贝叶斯推理策略和有限混合机制得到第i个子空间上第一层集成EGPR模型的预测输出；同理，有N个子空间，可以得到N个第一层集成EGPR模型{EGPR₁，EGPR₂，...，EGPR_N}的预测输出；

步骤(3)根据步骤(2)，计算出验证集D_val上N个第一层集成EGPR模型的预测精度RMSE与标准差STD，并将RMSE和STD加权混合后作为模型选择的优化目标，利用遗传算法选择出性能好且稳定的第一层集成EGPR模型，假定选择了M个第一层集成EGPR模型并作为第二层集成的子模型；

步骤(4)利用一种自适应集成的方式将第二层集成的子模型集成获得最终的SHEGPR模型；

步骤(5)随着预测时间的增加，对局部区域LD、GPR模型和GMM模型进行更新。

进一步地，所述步骤(1)中历史气象数据D为风电场过去2～4个月内的气象数据和运行数据，D＝{X，y}，

其中p为样本个数，q＝f×l，其中f为输入特征的数目，l为延迟变量数；y为预测功率；输入特征包括历史的风速W_S、历史的功率P和历史的风向W_D。

进一步地，步骤(1)中偏最小二乘法(PLS)对子样本集进行特征选择的具体过程为：

①利用PLS对L个子样本集进行训练，得到子样本集上回归系数β_r，其中

r∈{1，...，L}，代表着在此子样本集上输入X中的特征对于y的重要程度；

②对β_r中的数据从大到小排序，得到{b₁，b₂，b₃，...，b_q}，根据式(1)判断：

式(1)中，b_i为β_r中第i个数据，th为设定为0.8～0.9；如果式(1)成立，则将前i个特征对应的索引保存下来；

③重复②直至在L个样本子集上选出L个子空间，删除重复的子空间得到最终的N个子空间。

进一步地，步骤(2)中利用高斯混合模型GMM对子空间聚类后并建立第一层集成EGPR模型的过程如下：

在训练集D_train上，设产生的第n个子空间，

其中p为样本的个数，c为此子空间上的特征数；设置最大聚类个数v，第n个子空间建立GMM模型，设第n个子空间数据聚为z类，z≤v，即z个局部区域{LD₁，LD₂，...，LD_z}；随后，利用高斯过程回归对z个局部区域建立局部模型，得到z个GPR模型，记为{GPR₁，GPR₂，...，GPR_z}；

详细地说，对于一个新的样本x^*，第i个局部区域GPR模型可描述为

式(3)中，k_i，*＝[C(x^*，x_i，1)，...，C(x^*，x_i，p)]，C表示为一个p×p的正定协方差矩阵，

和

分别为子模型GPR_i的预测均值和方差；

在实际的预测过程中，对于一个新的样本x^*，假设在第n个子空间上，

GMM聚类后局部区域数为z，则x^*的后验概率通过贝叶斯推断策略可得：

式(4)中，i∈{1，2，3，...，z}，LD_i代表第i个局部区域；P(x^*|LD_i)为条件概率，P(LD_i)为先验概率；则通过有限混合机制可以得到在第n个子空间上预测输出为：

式(5)中，

为第i个局部区域GPR模型的预测值，P(LD_i|x^*)是联合后验概率；

同理，可计算出混合方差为：

式(6)中，

为局部模型GPR_i的预测方差；

则对于一个新的样本x^*，在第n个子空间上，第一层预测EGPR模型的预测输出和预测方差为：

进一步地，所述步骤(3)详细过程如下：

①将子空间的索引映射到验证集D_val，得到在N个子空间上的验证数据集{D_val，1，...，D_val，N}，根据步骤(2)获得了N个EGPR模型，在验证集D_val上，得到了N个EGPR模型的预测输出为

②设置遗传算法的初始种群数和迭代数，将EGPR模型的预测精度和混合标准差和加权和作为目标函数：

f_obj＝λRMSE+(1-λ)σ (8)

式(8)中，λ为一个0-1之间的参数，σ为预测的混合标准差，RMSE代表的是优化过程中的均方根误差；

进一步详细过程如下：假设在某次优化的过程中，利用简单平均的方式对m个被选择的EGPR的预测输出进行集成，得到集成的预测结果

其计算如下：

式(9)中，m为当前被选择的EGPR模型个数；则与真实值对比得到的RMSE为：

式(10)中，N_val为验证集D_val中样本的个数；

通过多次迭代去寻找min{f_obj}，在验证集D_val将性能好的模型挑选出来，并保存模型的索引。

进一步地，所述步骤(4)详细过程如下：

假设根据步骤(3)选择出来的EGPR模型数为M个，当预测一个新的测试样本x^*时，第二层集成预测输出

和预测方差

为：

其中，

为被挑选出的第i个EGPR模型的输出，w_i为集成的权重，则w_i如下所示：

其中，

为条件概率，

为先验概率，在没有一些先验知识的情况下，假设每一个模型的

是相等的，其值为

可表示为：

其中，γ为一个控制权值的参数。

进一步地，所述步骤(5)详细过程如下：

当一个新的样本(x_t+1，y_t+1)到来时，首先估计新样本(x_t+1，y_t+1)属于不同局部区域的后验概率，然后选择后验概率值最大对EGPR模型进行更新，假设新样本点x_t+1在LD_k上具有最大的后验概率(LD_k|x_t+1)，则更新操作包括两个步骤：

①利用移动窗口的方式对第k个局部区域的GPR模型中的协方差矩阵Σ_GPR进行更新；

②利用增量更新的方式第k个局部区域中的均值向量μ_k、协方差矩阵∑_k和GMM的混合系数π_k进行更新：

π_k ^(t+1)＝π_k ^(t)+α(P(k|x_t+1)-π_k ^(t)) (17)

其中α为

T为混合更新中使用的已获取样品的数量。

本发明的特点如下：本发明提供的基于递阶集成的风电功率概率预测方法，首先，从样本信息和特征信息两个扰动角度产生数据的多样性，通过特征的选择建立多样性的子空间，利用GMM将子空间聚类后建模不仅加快了训练的速度，而且子空间在混合建模后的性能得到了显著的提升。随后，以优化的方式修剪第一层集成后的子模型，这样不仅提升第二层集成模型的性能，而且降低了自适应更新时的运算复杂度。最后，利用自适应集成方式对第二层子模型进行加权融合，使得最终的SHEGPR模型有一定的自适应能力。由于本发明采用GPR作为建模的子模型，使得集成后的SHEGPR模型不仅有较好的预测性能，而且能给出预测区间。

与现有技术相比，本发明的有益效果是：本发明将选择性递阶集成学习框架用于超短期的风电功率预测，与传统的集成学习预测方法相比，所提方法具有更高的预测精度和稳定性，而且产生的预测区间能为电力调度提供有效参考。

附图说明

图1为SHEGPR风电功率预测流程图；

图2为风电场功率和风速、风向之间的映射关系三维图；

图3为4h风电功率预测子空间上GPR和EGPR对比图；

图4为预测间隔为15min、1h、2h和4h的风电功率预测趋势曲线图；

具体实施方式

以下结合附图和具体实施例对本发明的技术方案作进一步详细说明。

实施例1

如图1所示，在本实施例中，以美国可再生能源实验室(NREL)的某风电场的风电功率数据为例，选用其中历史风速、历史功率、历史风向数据作为输入，延迟变量设置为8，功率作为SHEGPR的输出。

步骤1：选取美国可再生能源实验室(NREL)某风电场1-3月的时间分辨率为15分钟的风电功率、风速和风向的历史数据(1天96个数据点)，将数据按照顺序划分为训练集D_train(3000)、验证集D_val(1000)和测试集D_test(4000)，具体的风电场功率和风速、风向之间的映射关系如图2所示。

步骤2：利用Bootstrapping的方式对D_train进行多次重采样，得到L个子样本集{(X₁，y₁)，...，(X_L，y_L)}，利用偏最小二乘法(PLS)对样本的特征进行重要性排序，重复R次并删除重复子空间，得到N个D_train的子空间{S₁，...，S_N}，并保存N个子空间对应训练样本的特征索引。

偏最小二乘法(PLS)对子样本集进行特征选择的过程为：

①对训练集D_train进行Z-score归一化，利用PLS对L子集进行训练，PLS的主成分个数由交叉验证确定，得到子集回归系数β_r，其中

r∈{1，...，L}，代表着在此子集上输入X中的特征对于y的重要程度。

②对β_r中的数据从大到小排序，得到{b₁，b₂，b₃，...，b_q}，判断

其中，b_i为β_r中第i个数据，th设定为0.85。如果上式成立，则将前i个特征对应的索引保存下来。

步骤3：①将子空间的索引映射到D_train，得到N个子空间训练数据集{D_tra，1，...，D_tra，N}，设置GMM的最大聚类数为v，然后对每一个子空间训练数据集建立高斯混合模型(GMM)，并保存每一个子空间上GMM模型得到N个GMM模型。假设在第i个子空间训练数据集D_tra，i上进行聚类，得到z个局部区域{LD₁，LD₂，...，LD_z}。上述的GMM算法为：

对于任意一个

有

其中，

是GMM的模型参数，c为高斯成分的个数，λ_k为第k个高斯成分的权重，μ_k，∑_k分别代表第k个高斯成分的均值和协方差矩，GMM模型的参数由期望最大化算法求得。

②对D_tra，i上的z个局部区域{LD₁，LD₂，...，LD_z}中的每一个LD利用高斯过程回归(GPR)进行建模，得到一个GPR模型集，记为{GPR₁，GPR₂，...，GPR_z}。详细的说，对于一个新的样本x^*，第i个局部区域GPR模型可描述为：

其中，k_i，*＝[C(x^*，x_i，1)，...，C(x^*，x_i，p)]，C表示为一个p×p的正定协方差矩阵。

和

分别为子模型GPR_i的预测均值和方差。

③重复②N次，对N个子空间训练数据集都建立GPR模型集。

步骤4：将子空间的索引映射到D_val，得到N个子空间验证数据集{D_val，1，...，D_val，N}，将每个子空间上的数据进行Z-score归一化。随后，根据步骤3建好的N个GMM模型、GPR模型集和贝叶斯推断策略和有限混合机制得到N个EGPR模型在{D_val，1，...，D_val，N}的预测输出和方差分别为

其具体建立EGPR模型如下的过程如下：

假定对于一个新的样本x^*，假设在第n个子空间上，

其中，i∈{1，2，3，...，z}，LD_i代表第i个局部区域。P(x^*|LD_i)为条件概率，P(LD_i)为先验概率。则通过有限混合机制可以得到在第n个子空间上预测输出为：

其中，

为第i个局部区域GPR模型的预测值，P(LD_i|x^*)是联合后验概率。

同理，可计算出混合方差为：

其中，

为子模型GPR_i的预测方差。

步骤5：此步骤构建一个优化问题来选择第二层集成的EGPR模型；首先，已知第一层集成获得了N个EGPR模型，即{EGPR₁，EGPR₂，...，EGPR_N}，对所有EGPR模型的索引进行二进制编码，其中1表示选中该模型，0表示未选中；然后，将步骤4得到的EGPR模型在验证集上的预测精度和混合标准差和加权和作为目标函数，采用遗传算法(GA)作为优化算法，通过多次迭代去寻找min{f_obj}，将性能和差异性好的模型挑选出来，并保存模型的索引，假设最终选出M个优异的EGPR模型用于第二层集成。

优化目标的构建具体如下：

f_obj＝λRMSE+(1-λ)σ (8)

其中，λ为一个0-1之间的参数，σ为预测的混合标准差，RMSE代表的是优化过程中的均方根误差，详细介绍如下：

假设在某次优化的过程中，利用简单平均的方式对m个被选择的EGPR的预测输出进行集成，得到集成的预测结果

其计算如下

其中m为当前被选择的EGPR模型个数，则与真实值对比得到的RMSE为：

其中，N_val为验证集D_val中样本的个数；

步骤6：对于在线预测阶段，对测试集D_test的样本x^*进行预测，预测过程如下：

①将子空间的索引映射到x^*，得到N个子空间训练数据集

将每个子空间上的数据进行Z-score归一化；同步骤4的理，根据步骤3建好的N个GMM模型、GPR模型集和贝叶斯推断策略和有限混合机制得到N个EGPR模型在

的预测输出和方差分别为

②利用方差集成的方式对步骤5选出的M个EGPR模型，第二层集成预测输出

和预测方差

为：

其中，

其中

为条件概率，

为先验概率。在没有一些先验知识的情况下，假设每一个模型的

是相等的，其值为

可表示为：

其中，γ为一个控制权值的参数。

③最终，对于一个测试样本，在95％的置信区间下的预测区间范围为

步骤7：当预测的时间变长，模型的性能无可厚非的会发生退化，所以对模型的进行自适应更新变得非常有必要。当一个新的样本(x_t+1，y_t+1)到来时，首先估计新样本(x_t+1，y_t+1)属于不同局部区域的后验概率，然后选择后验概率值最大对EGPR模型进行更新，假设新样本点x_t+1在LD_k上具有最大的后验概率(LD_k|x_t+1)，则更新操作包括两个步骤：

①利用移动窗口的方式对第k个局部区域的GPR模型中的协方差矩阵Σ_GPR进行更新。

π_k ^(t+1)＝π_k ^(t)+α(P(k|x_t+1)-π_k ^(t)) (17)

其中α为

T为混合更新中使用的已获取样品的数量。

本发明实施案例采用均方根误差RMSE和决定系数R2对预测效果进行评价，其定义为：

式中，N_test为测试样本的数量，y_i，

分别为第i个样本的实际值和预测值，

为实际值的平均值。

本发明比较了如下方法：(1)GPR全局模型；(2)持续法；(3)基于选择性递阶集成的高斯过程回归(SHEGPR)模型。(4)带自适应更新的基于选择性递阶集成的高斯过程回归SHEGPR(With update)模型(实施例1)，比较结果如表1和表2所示。

表1不同预测方法在2小时***性能比较

表2不同预测方法在4小时***性能比较

从表1、表2可以看出，本实施例提出的方法相比于GPR全局和持续法都有较大的改进，从RMSE和R²显著提升都可证明了本发明的有效性和普适性。遗憾的是，GPR全局模型只与持续法性能相当，这是因为GPR建模数据用的是历史样本，由于发生概念漂移，测试集中的性能会下降，而持续法的预测思路是将最近的前一个样本输出作为下一个的预测，此方法利用的是最近的样本信息。所以说，为了对功率进行更准确的预测，模型的自适应更新是风电功率预测中关键的一部分。

从图3中可以看出，在子空间上利用GMM聚类后再利用GPR建模得到EGPR模型与子空间上GPR模型性能有着显著的差异。所以说，本发明提出的GMM聚类后再按类建子模型的做法不仅速度更快，而且性能更好。图4从上到下分别为基于SHEGPR(With update)方法的15min、1h、2h和4h的风电功率预测趋势曲线图，可以看出预测值和实际值拟合的较好。毫无疑问的是，预测时间越短，拟合程度越好。值得一提的是，本发明不仅能对风电功率的趋势进行预测，而且可以得到预测区间来评估风电功率的不确定性，预测区间为电力***的稳定调度提供了强有力的保障。从图4中可以看出，预测时间越短，95％置信区间越窄，说明区间预测的效果越好，越有利于电力***的稳定调度。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于递阶集成的风电功率概率预测方法，其特征在于，所述方法包括以下步骤：

步骤(1)选取一段风电场的历史气象数据D作为建模的样本集，将样本集划分为训练集D_train、验证集D_val和测试集D_test，利用Bootstrapping的方式对D_train进行多次重采样，得到L个子样本集{(X₁，y₁)，...，(X_L，y_L)}，利用偏最小二乘法PLS对子样本集的输入特征变量进行选择并进行重要性排序，删除相同的样本子集，构建出N个子空间{S₁，...，S_N}，保存N个子空间对应训练集样本的输入特征变量索引；

所述步骤(1)中历史气象数据D为风电场过去2～4个月内的气象数据和运行数据，

其中p为样本个数，q＝f×l，其中f为输入特征的数目，l为延迟变量数；y为预测功率；输入特征包括历史的风速W_S、历史的功率P和历史的风向W_D；

步骤(2)将子空间的索引映射到训练集D_train，得到N个子空间训练数据集{D_tra，1，...，D_tra，N}，然后利用高斯混合模型GMM在每个子空间上进行聚类，则设在第i个子空间训练数据集D_tra，i上得到z个局部区域{LD₁，LD₂，...，LD_z}，在每个局部区域上利用高斯过程回归进行建模，得到GPR模型集{GPR₁，GPR₂，...，GPR_z}；对于一个新样本x^*，利用贝叶斯推理策略和有限混合机制得到第i个子空间上第一层集成EGPR模型的预测输出；同理，有N个子空间，可以得到N个第一层集成EGPR模型{EGPR₁，EGPR₂，...，EGPR_N}的预测输出；

步骤(3)根据步骤(2)，计算出验证集D_val上N个第一层集成EGPR模型的预测精度RMSE与标准差STD，并将RMSE和STD加权混合后作为模型选择的优化目标，利用遗传算法选择出性能好且稳定的第一层集成EGPR模型，选择了M个第一层集成EGPR模型并作为第二层集成的子模型；

所述步骤(3)详细过程如下：