CN111985711B

CN111985711B - 一种风电功率概率预测模型建立方法

Info

Publication number: CN111985711B
Application number: CN202010834929.XA
Authority: CN
Inventors: 李永刚; 王月; 吴滨源
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2024-02-02
Anticipated expiration: 2040-08-19
Also published as: CN111985711A

Abstract

本发明公开了一种风电功率概率预测模型建立方法，包括以下步骤：剔除初始数据集中的异常值，并基于灰色关联理论，选取与风电功率关联度大于预设阈值的气象变量作为风电功率概率预测模型的训练数据集；建立改进自然梯度提升元模型：实现参数向量更新；对多个改进自然梯度提升元模型进行Blending模型融合，建立新的元模型进行训练，从而输出最终预测统计参数向量。本发明提供的风电功率概率预测模型建立方法，可提供完整风电功率不确定性信息，具有更高预测区域覆盖率和更小预测区间平均宽度占比，为构建高效智能的新能源电力***提供更准确参考。

Description

一种风电功率概率预测模型建立方法

技术领域

本发明涉及风电场风电功率预测技术领域，特别是涉及一种风电功率概率预测模型建立方法。

背景技术

随着能源结构低碳式发展，以风电为代表的可再生能源电网渗透率逐年攀升。但受制于风能的强随机性，风电功率存在严重波动，仅对其进行点预测无法获取完整的不确定性信息，电网安全稳定运行面临挑战。因此，为了更好利用风力发电，有效调整调度计划，扩大风电竞价并网优势，对风电功率进行精确概率预测是关键。但是应建立怎样的概率预测模型，如何选取模型输入变量，如何对模型进行优化以提高预测能力和泛化能力，尚没有明确的定义。

发明内容

本发明的目的是提供一种风电功率概率预测模型建立方法，可预测获取风电功率的不确定性信息，有利于提升风电网的运行可靠性，解决了由于风电功率缺少不确定信息导致的风力发电消纳水平低、调度计划制定困难的问题。

为实现上述目的，本发明提供了如下方案：

一种风电功率概率预测模型建立方法，该方法包括以下步骤：

S1，数据预处理：剔除初始数据集中的异常值，并基于灰色关联理论，选取与风电功率关联度大于预设阈值的气象变量作为风电功率概率预测模型的训练数据集；

S2，建立改进自然梯度提升元模型：基于训练数据集，预测风电功率概率分布的参数向量，通过Fisher信息量在一般梯度和自然梯度间建立联系，选取分类和回归树作为基学习器，建立改进自然梯度提升元模型，实现参数向量更新；

S3，Blending模型融合：对多个改进自然梯度提升元模型进行Blending模型融合，建立新的元模型进行训练，从而输出最终预测统计参数向量。

可选的，所述步骤S1中，剔除初始数据集中的异常值，并基于灰色关联理论，选取与风电功率关联度大于预设阈值的气象变量作为风电功率概率预测模型的训练数据集，具体包括：

S101，利用箱型图剔除初始数据中的异常值；

S102，以风电功率为参考数据列，相关气象变量为对比数据列，对各序列进行初值化处理，基于灰色关联理论，计算关联系数以表征两组序列的关联度，选取关联度大于阈值的气象变量作为预测模型的训练数据集。

可选的，所述步骤S101中，利用箱型图剔除初始数据中的异常值，具体包括：

异常值截断上下限由式(1)确定：

式中：min、max代表数据截断的上限和下限；Q₁、Q₃分别代表上、下四分位数；IQR＝Q₃-Q₁。

可选的，所述步骤S102中，以风电功率为参考数据列，相关气象变量为对比数据列，对各序列进行初值化处理，基于灰色关联理论，计算关联系数以表征两组序列的关联度，选取关联度大于阈值的气象变量作为预测模型的训练数据集，具体包括：

1)对各变量时间序列做归一化处理，以n个气象变量序列中的第k个为比较序列S^k(t)，风电功率序列为参考序列S⁰(t)，求取两者差计作绝对值序列Δ^k(t)，如式(2)所示，其中k∈(1,n)，

Δ^k(t)＝|S^k(t)-S⁰(t)| (2)

2)计算关联系数η^k(t)：

式中：Min(·)、Max(·)表示求取序列的最小、最大值，ρ为分辨系数；

3)求解关联度γ^k：

式中：T_n为序列长度；

4)设定阈值选取关联度大于阈值的气象变量，组成训练数据集。

可选的，所述步骤S2中，基于训练数据集，预测风电功率概率分布的参数向量，通过Fisher信息量在一般梯度和自然梯度间建立联系，选取分类和回归树作为基学习器，建立改进自然梯度提升元模型，实现参数向量更新，具体包括：

S201，设训练数据集D包含n_D个样本，m个特征，即D＝{(x_i，y_i)}(x_i∈R^m，y_i∈R)，其中x_i表征第i个样本的特征向量，y_i表征第i个样本对应标签值，i∈(1，n_D)；

S202，以y_i的香农信息量为基准建立评分函数S(θ，y_i)：

S(θ,y_i)＝-log P_θ(y_i) (8)

式中：P_θ(y_i)为y_i在预测概率分布中的概率值；θ为预测概率分布的参数向量；

S203，令-log P_θ(y_i)＝f(θ)，对f(θ+d’)进行泰勒展开并舍去三阶及以上余项：

式中：d′为θ沿移动的无穷小步长向量；/>表示自然梯度；

将欧式空间转化为统计流形，在黎曼空间下处理式(12)：

其中一次项的计算可简化为：

将剩余部分表示为：

式中：ψ(θ)即θ处统计流形的黎曼度量，用来表征P_θ(yi)带来的Fisher信息量，即：

由此实现通过一般梯度计算自然梯度

S204，选取分类和回归树作为基学习器，基学习器每次迭代沿一般化自然梯度方向生成一组新的基学习器，由此建立改进自然梯度提升元模型；

S205，更新风电功率概率分布的参数向量θ：

式中：θ⁰为初始参数向量，α^m为比例因子，β为统一学习率，B^m为基学习器的统一表示。

可选的，所述步骤S3中，对多个改进自然梯度提升元模型进行Blending模型融合，建立新的元模型进行训练，从而输出最终预测统计参数向量，具体包括：

S301，初始数据集分割：将原始训练数据集按比例划分为子训练集DT和测试集DA，定义原始预测数据集为DP；

S302，模型融合：

给定置信水平，构建V个NGBoost元模型MO₁、MO₂、…、MO_V，利用这些元模型对DT进行学习，训练完成后，输出DA、DP在元模型上的预测结果DA_P、DP_P，其中DA_P、DP_P为DA、DP对应预测值的初始统计参数向量；

将DA_P确定的预测均值与原DA数据对应实际结果DA_OUT组成新的数据集，建立新的元模型MO_DA进行训练并得到预测输出MO_DA_P，其中MO_DA_P为修正后预测统计参数向量；

将MO_DA_P与DP_P组成新的数据集，建立新的元模型MO_P进行训练，从而输出最终预测统计参数向量，通过这个向量计算出给定置信水平下预测值的上限和下限，由这些点连接成预测值上下限曲线。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的风电功率概率预测模型建立方法，利用一般化自然梯度计算的自然梯度提升元模型；提出Blending融合对元模型进行强化，克服数据穿越的同时提升模型概率预测效果，与传统的点预测模型相比，本发明提出的模型解决了传统Boosting类算法在解决风电功率概率预测问题时的应用缺陷，模型具备更高的泛化性和鲁棒性，具有更高的预测区域覆盖率和更小的预测区间平均宽度占比，元模型具有强化预测效果的同时，模型冗余度更低，模型建立方法更适用于实际工程应用，有利于提高含可再生能源并网的电网调度经济性和风电场的运行安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例初始数据图；

图2(a)为本发明实施例气象变量箱型图；

图2(b)为本发明实施例关联系数堆叠柱状图；

图3为本发明实施例普通梯度与自然梯度计算过程对比图。

图4为本发明实施例Blending融合步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例初始数据图，如图1所示，所有数据均由我国东北某风电场2019年SCADA***实测。数据采样间隔为15min，取1月1日至1月10日的960条样本组成初始数据集。其中：输入气象变量包括风电场采集点风向、温度、湿度、气压、风速，输出变量为风电功率。从图1中可以看出：风电功率本身及相关气象变量具有强随机性和波动性，对风电功率进行概率预测正是为了提取相关不确定性信息。

本发明提供的风电功率概率预测模型建立方法，包括以下步骤：

其中，所述步骤S1中，剔除初始数据集中的异常值，并基于灰色关联理论，选取与风电功率关联度大于预设阈值的气象变量作为风电功率概率预测模型的训练数据集，具体包括：

S101，利用箱型图剔除初始数据中的异常值；

如图2(a)所示，所述步骤S101中，利用箱型图剔除初始数据中的异常值，具体包括：

异常值截断上下限由式(1)确定：

风电功率与温度、风速等气象变量相关。然而，受风电场地理位置及所在地局部小气候等因素影响，这种相关性在不同风电场间存在差异。为提高模型泛化能力及鲁棒性，本专利采用灰色关联分析对输入数据进行特征气象变量筛选，筛选结果如图2(b)所示。所述步骤S102中，以风电功率为参考数据列，相关气象变量为对比数据列，对各序列进行初值化处理，基于灰色关联理论，计算关联系数以表征两组序列的关联度，选取关联度大于阈值的气象变量作为预测模型的训练数据集，具体包括：

Δ^k(t)＝|S^k(t)-S⁰(t)| (2)

2)计算关联系数η^k(t)：

3)求解关联度γ^k：

式中：T_n为序列长度；

所述步骤S2中，基于训练数据集，预测风电功率概率分布的参数向量，通过Fisher信息量在一般梯度和自然梯度间建立联系，选取分类和回归树作为基学习器，建立改进自然梯度提升元模型，实现参数向量更新，具体包括：

S202，以y_i的香农信息量为基准建立评分函数S(θ，y_i)：

S(θ,y_i)＝-log P_θ(y_i) (8)

式中：d’为θ沿移动的无穷小步长向量；/>表示自然梯度；

将欧式空间转化为统计流形，在黎曼空间下处理式(12)：

其中一次项的计算可简化为：

将剩余部分表示为：

由此实现通过一般梯度计算自然梯度

S205，更新风电功率概率分布的参数向量θ：

比例因子α^m的设置是为了避免局部近似在计算过程中远离当前参数位置导致训练失败的情况发生，具体数值以线性搜索方式进行选取。学习率β的通常为0.1或0.01。

本发明在步骤1的基础上，分析传统Boosting类方法在风电功率概率预测问题中的应用缺陷，针对性提出一种新的自然梯度计算方法，通过Fisher信息量在一般梯度和自然梯度间建立联系，选取分类和回归树作为基学习器，建立自然梯度提升元模型。其中，分析普通梯度应用缺陷：

传统Boosting类方法在解决点预测问题时，以寻找最优近似函数F(x_i)为目标，使损失函数L在训练集上的损失期望值最小。其中L和F(x_i)可分别表示为：

式中：下标M表示第M个梯度提升阶段；权值γ_M为通过线性搜索得到的最优步长；为普通梯度，算法每次迭代沿该方向产生新的基学习器，从而使损失函数最大程度减小，即：

式中：d为F(xi)沿移动的无穷小步长。

与点预测不同的是：概率预测问题以求解y_i的完整概率分布P_θ(y_i)为目标。当P_θ(y_i)重新参数化为时，从θ到θ+d与/>到/>计算得到的普通梯度发生变化，无法真实反映更新参数在分布空间中的移动规律。即：普通梯度无法对重新参数化保持不变，在解决概率预测问题时存在缺陷。

为描述自然梯度奠定基础，类比点预测问题中的损失函数，本发明以y_i的香农信息量为基准建立评分函数S(θ，y_i)。

S(θ,y_i)＝-log P_θ(y_i) (8)

式中：P_θ(y_i)为y_i在预测概率分布中的概率值；θ为预测概率分布的参数向量。

假设Q为y_i的真实分布，总有式(9)成立。

式中不等号右侧减左侧的部分为该评分函数下的散度D_KL(Q||P)，代表预测分布与实际分布之间的差别。即：

自然梯度为统计流形上按KL散度确定的一种梯度，为黎曼空间中的最速上升方向，对重新参数化具有不变性。每次迭代θ沿自然梯度方向产生新的基学习器，获取最大分数提升，即：

式中：表示自然梯度；d′为θ沿/>移动的无穷小步长向量。

因为，自然梯度求解的相关概念取自信息几何学，为实际工程中的推广应用带来不便。本发明着重对自然梯度的求解过程进行改进，通过Fisher信息量在一般梯度和自然梯度间建立起联系，通过一般梯度计算自然梯度。

与其他发明提出的点预测模型不同的是：针对风电功率概率预测，本发明提出的模型建立方法更强调预测风电功率概率分布的参数向量θ，即：可预测获取风电功率的不确定性信息。具体计算过程如下：

计算首先以θ⁰为初始参数向量，本质是拟合y_i的边缘分布；随后在第m次迭代时，计算y_i及其对应参数向量的自然梯度/>沿此方向拟合生成一组新的基学习器，从而实现参数向量更新。

对元模型进行融合既能强化学习效果，又不至于造成整体模型的过度冗余，当前相关领域发明只有部分点预测模型中采用了Stacking模型融合。然而，Stacking模型融合过于复杂，计算过程中会出现训练数据引用全局统计量的数据穿越问题，不适用于解决风电功率概率预测问题。

针对上述缺陷，本发明基于Blending模型融合简单，克服数据穿越的优点，对多个改进自然梯度提升元模型进行融合，融合步骤如图4所示。所述步骤S3中，对多个改进自然梯度提升元模型进行Blending模型融合，建立新的元模型进行训练，从而输出最终预测统计参数向量，具体包括：

S302，模型融合：

将DA_P确定的预测均值与原DA数据对应实际结果DA_OUT组成新的数据集，建立新的元模型MO_DA进行训练并得到预测输出MO_DA_P，其中MO_DA_P为修正后预测统计参数向量；与DA_P相比，MODA_P具有更高的准确性和更小的锐度表现，体现出模型融合的优势；

本发明提供的风电功率概率预测模型建立方法，利用一般化自然梯度计算的自然梯度提升元模型；提出Blending融合对元模型进行强化，克服数据穿越的同时提升模型概率预测效果，与传统的点预测模型相比，本发明提出的模型解决了传统Boosting类算法在解决风电功率概率预测问题时的应用缺陷，模型具备更高的泛化性和鲁棒性，具有更高的预测区域覆盖率和更小的预测区间平均宽度占比，元模型具有强化预测效果的同时，模型冗余度更低，模型建立方法更适用于实际工程应用，有利于提高含可再生能源并网的电网调度经济性和风电场的运行安全性。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种风电功率概率预测模型建立方法，其特征在于，包括以下步骤：

S3，Blending模型融合：对多个改进自然梯度提升元模型进行Blending模型融合，建立新的元模型进行训练，从而输出最终预测统计参数向量；

所述步骤S1中，剔除初始数据集中的异常值，并基于灰色关联理论，选取与风电功率关联度大于预设阈值的气象变量作为风电功率概率预测模型的训练数据集，具体包括：

S101，利用箱型图剔除初始数据中的异常值；

S102，以风电功率为参考数据列，相关气象变量为对比数据列，对各序列进行初值化处理，基于灰色关联理论，计算关联系数以表征两组序列的关联度，选取关联度大于阈值的气象变量作为预测模型的训练数据集；

所述步骤S101中，利用箱型图剔除初始数据中的异常值，具体包括：

异常值截断上下限由式(1)确定：

式中：min、max代表数据截断的上限和下限；Q₁、Q₃分别代表上、下四分位数；IQR＝Q₃-Q₁；

以风电功率为参考数据列，相关气象变量为对比数据列，对各序列进行初值化处理，基于灰色关联理论，计算关联系数以表征两组序列的关联度，选取关联度大于阈值的气象变量作为预测模型的训练数据集，具体包括：

Δ^k(t)＝|S^k(t)-S⁰(t)| (2)

2)计算关联系数η^k(t)：

3)求解关联度γ^k：

式中：T_n为序列长度；

4)设定阈值选取关联度大于阈值的气象变量，组成训练数据集；

S202，以y_i的香农信息量为基准建立评分函数S(θ，y_i)：

S(θ,y_i)＝-logP_θ(y_i) (8)

S203，令-logP_θ(y_i)＝f(θ)，对f(θ+d’)进行泰勒展开并舍去三阶及以上余项：

式中：d’为θ沿移动的无穷小步长向量；/>表示自然梯度；

将欧式空间转化为统计流形，在黎曼空间下处理式(12)：

其中一次项的计算可简化为：

将剩余部分表示为：

由此实现通过一般梯度计算自然梯度

S205，更新风电功率概率分布的参数向量θ：

式中：θ₀为初始参数向量，α^m为比例因子，β为统一学习率，B^m为基学习器的统一表示；

所述步骤S3中，对多个改进自然梯度提升元模型进行Blending模型融合，建立新的元模型进行训练，从而输出最终预测统计参数向量，具体包括：

S302，模型融合：