CN115775045A

CN115775045A - 一种基于历史相似日和实时多维研判的光伏平衡预测方法

Info

Publication number: CN115775045A
Application number: CN202211512958.XA
Authority: CN
Inventors: 陈龙; 杨卫东; 李盛盛; 张子谦; 梁淼; 涂金金; 邓箫
Original assignee: NARI Group Corp; Nari Information and Communication Technology Co
Current assignee: NARI Group Corp; Nari Information and Communication Technology Co
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-10

Abstract

本发明公开了一种基于历史相似日和实时多维研判的光伏平衡预测方法，建立了历史相似日聚类筛选机制，提出了基于突变调整的历史相似日拟合策略和基于ARIMA、LSTM、LightGBM等多元模型的实时趋势预测策略，并对两种策略进行了动态权重拟合。本发明实现了历史日的合理聚类，并可以高效选择与预测日最相似的若干个历史日；优化了分布式光伏实时趋势预测机制，实现了多元模型预测结果的高效融合；提出了历史和实时预测结果多元拟合和动态调整方法，提升了分布式光伏平衡预测的准确性。本方法的预测结果可以满足调度、设备、营销、发展等业务条线的专业需求，对新型电力***的安全稳定运行具有重要意义。

Description

一种基于历史相似日和实时多维研判的光伏平衡预测方法

技术领域

本发明涉及一种基于历史相似日和实时多维研判的光伏平衡预测方法，属于电网数字化技术领域。

背景技术

在推进新型电力***建设的大背景下，光伏发电已成为现代能源互联网中重要的能源来源形式之一。光伏发电作为一种可再生能源发电技术,使用规模日益扩大,光伏发电的精准预测已成为数据挖掘的重要研究领域,但是光伏发电本身具有的波动性和间歇性使电力***能源管理和调度问题变得越来越复杂，现有的分布式光伏平衡预测难以达到理想的高度,对电网的运行稳定性造成了不利的影响。因此，精准可靠的分布式光伏平衡预测有助于满足调度、设备、营销、发展等业务条线的专业需求，对新型电力***的建设具有重要意义。

为落实推进分布式光伏有序接入、灵活消纳、保障电网安全运行，解决光伏间歇性出力给电网造成的负荷难平衡、频率不稳定、电能质量差等问题。依托企业级中台，融合分布式光伏用户电类、非电类采集数据，支撑台区光伏运行监测以及电能质量分析；结合天气、光照强度等影响因素，开展按天、小时、分钟级的负荷预测分析，构建光伏监测、分析、告警、预测共享服务能力，促进分布式光伏灵活消纳，保障新型电力***安全稳定运行。

目前在分布式光伏平衡预测方面还存在着以下不足：

一、海量历史数据未进行有效汇聚和合理分析。随着整县屋顶光伏规模化试点等工作的推进，分布式光伏发电装机容量不断增大，产生了海量的历史数据，造成了光伏量测数据分散采集、分散存储的问题，台区侧光伏量测数据分布在配电自动化、用电信息采集两套主站***。目前这些数据未实现有效汇聚和合理分析，导致光伏量测数据集成方式复杂、数据应用链条过长，需要进一步推进一平台汇聚多地海量历史数据，且需要通过合理的方法实现对相关数据的分析研判。

二、实时运行数据未实现及时接入和精准分析。台区分布式光伏目前主要依赖表计监测，缺乏并网开关、逆变器、防孤岛装置的监测，也暂未实现配自融合终端、用采光伏表计监测数据分钟级接入，包括光伏电类采集项(遥测、遥信、状态、事件)以及非电类采集项(气象、温度、湿度、光照强度、风力等)等数据，需进一步实现光伏采集项精准、高效、全面、稳定接入，并在此基础上开展光伏平衡预测分析计算。

三、分布式光伏平衡预测的及时性和准确性问题。光伏发电本身具有的波动性和间歇性使电力***能源管理和调度问题变得越来越复杂，并且信息采集的采集频度不一，存在小时级、15分钟级，需要不断提高采集频率，满足调度分钟级甚至秒级预测需求。现有的分布式光伏平衡预测难以达到理想的高度,对电网的运行稳定性造成了不利的影响，需要提高分布式光伏平衡预测的及时性和准确性，支撑调度、设备、营销、发展等业务条线的专业需求。

综上所述，本领域技术人员急需要解决以上分布式光伏平衡预测中的技术问题。

发明内容

目的：为了克服现有技术中存在的不足，本发明提供一种基于历史相似日和实时多维研判的光伏平衡预测方法。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

一种基于历史相似日和实时多维研判的光伏平衡预测方法，包括如下步骤：

步骤1：根据历史日数据中气象要素筛选出贡献度高的输入特征向量。

步骤2：对筛选过输入特征的历史日数据进行聚类，得到聚类后的簇。

步骤3:通过皮尔逊相关系数法选择历史日数据K个簇中与预测日最相似的簇作为历史相似日，筛选历史相似日的输入特征值。

步骤4：调整历史相似日的输入特征值的突变点，得到调整后的历史相似日的输入特征值。

步骤5：将调整后的历史相似日的输入特征值通过历史相似日权重拟合算法计算，得到历史相似日权重拟合结果。

步骤6：根据调整后的历史相似日的输入特征值进行多元实时趋势预测，获得实时预测结果。

步骤7：对历史相似日权重拟合结果和实时预测结果进行拟合，得到最终实时预测结果。

作为优选方案，所述步骤1，包括如下步骤：

步骤1-1：获取历史日数据

D表示所有历史日数据的集合，d是D其中一天的数据，n₁为历史日的总天数。d＝{(y_i，X_i)，i＝1，2，...，m₁}，

为第i个时刻输入特征向量，

为第i个时刻第j个输入特征值，y_i为第i个时刻实际光伏出力的输出特征值。

步骤1-2：根据历史日数据D采用皮尔逊相关系数法计算每个输入特征的特征贡献度，筛选出特征贡献度大于等于阈值的输入特征向量。

作为优选方案，所述步骤2，包括如下步骤：

步骤2-1：根据春、秋、夏、冬、晴天和非晴天将历史日数据

分为六个不相交子集D₁，D₂，...，D₆，用v＝v₁，v₂，...，v₆表示历史日数据子集对应的聚类中心，n₁为历史日的总天数。

步骤2-2：计算子集D_i中所有元素的平均值后存入v_i，作为该聚类中心的初始点，i取1，2，3，…，6。

步骤2-3：当K＝v的个数时，将v_i作为k-means的聚类中心初始点。

步骤2-4：当K＜v的个数时，采用皮尔逊相关系数法计算所有的v_i之间的相关性后存入上三角矩阵R中，找出相关系数r_pq最大的两个聚类中心。

其中，r_pq是聚类中心v_p和v_q之间的皮尔逊相关系数。

步骤2-5：将相关性最大的两个聚类中心对应的集合进行合并，得到融合后的聚类中心v′。

步骤2-6：重复以上步骤，直到v的个数等于K，导出聚类中心初始点v′。

步骤2-7：将v′＝v′₁，v′₂，...，v′_K作为聚类中心的初始点。

步骤2-8：针对历史日数据中每个样本d_i计算它到K个聚类中心的欧式距离并将其分到距离最小的聚类中心所对应的簇中。

步骤2-9：针对每个簇D_i，重新计算它的聚类中心v′。

步骤2-10：重复步骤2-8，步骤2-9，直到聚类中心稳定，输出聚类后的簇。

步骤2-11：计算聚类后的簇的轮廓系数，选取轮廓系数最大值对应的K作为最终的集群数目。

作为优选方案，融合后的聚类中心v′的计算公式如下：

式中：D_i表示第i个需要融合的集合，D_j表示第j个需要融合的集合，m₂表示需要同时进行融合的集合的个数，|D_i|表示簇D_i中样本的个数，K是将要聚合成的簇数，v_i为需要融合集合D_i的聚类中心，v′为m₂个集合融合后的聚类中心。

作为优选方案，所述步骤3，包括如下步骤：

步骤3-1：采用皮尔逊相关系数法选择K个簇中与预测日最相似的簇，作为历史相似日。

步骤3-2：对历史相似日的数据进行历史相似日特征值筛选算法，获取历史相似日的输入特征值。

所述历史相似日特征值筛选算法，计算公式如下：

其中：

代表选择从n₁个历史日中选择特征值与预测日相差最小的m₃个历史日，

为历史日第i个时刻的第p个输入特征值，r_p代表第p个输入特征值对应的皮尔逊相似系数。

为预测日第i个时刻的第p个的输入特征值，r_j为第j个输入特征值对应的皮尔逊相似系数，a₃为输入特征值的个数，n₃为预测日当前时刻值的数量。

作为优选方案，所述步骤4，包括如下步骤：

步骤4-1：将历史相似日各时刻的特征值执行最小二乘法的高次多项式拟合算法，得到回归拟合曲线f(x)。

步骤4-2：计算历史相似日所有特征值X_i的绝对偏差的中位值MAD＝median(|X_i-X′_i|)，其中，median(X)表示求X的中位值，X′_i为回归拟合曲线f(x)上与X_i的对应值，X_i表示历史日数据中第i个时刻值的输入特征值。

步骤4-3：获得历史相似日的输入特征值的突变点调整值X″_i，计算公如下：

其中，X″_i为X_i调整后的值，α_mad为系数。

作为优选方案，所述步骤5，包括如下步骤：

步骤5-1：将经过突变点调整的m₃个最相似历史日数据依次与预测日数据进行皮尔逊相关系数的计算，得到最相似历史日之间的皮尔逊相似度r_i′。

步骤5-2：将历史日数据按照时序进行排布，分t₁年以内、t₁-t₂年之间、t₂年以上三个时间段，分别设置不同的权重β＝β₁，β₂，β₃。即β₁为0-t₁范围内的事件的权重，β₂为t₁-t₂范围内的事件的权重，β₃为大于t₂范围的事件的权重，其中0＜β₁，β₂，β₃＜1，且β₃＝1-β₁-β₂。

步骤5-3：根据历史相似日权重拟合算法，获取历史相似日权重拟合结果d_history。所述历史相似日权重拟合算法，计算公式如下：

其中，r_i′、r_j′表示第i、j个最相似历史日数据与预测日的皮尔逊相关系数，T_i、T_j表示第i、j个历史日数据属于三个时间段中对应的权重β，(y′_i，X′_i)＝d′_i表示第i个最相似历史日数据，θ_i是第i个历史日光伏实际出力功率的参数，m₃表示历史相似日的个数。

作为优选方案，

其中，V_i为第i个历史日时该区域光伏的总装机容量，V₀为预测日时该区域的总装机容量。

作为优选方案，所述步骤6，具体步骤如下：

步骤6-1：将调整后的历史相似日的输入特征值输入各个时间序列预测算法，得到预测结果d_i-future。

步骤6-2：计算出各个时间序列预测算法的准确率，剔除准确率小于准确率阈值的时间序列预测算法，剩余的m₆个时间序列预测算法按照准确率进行降序排序，并计算各算法对应的权重γ_i。

其中，i为剩余的m₆个算法排序后的序号，j为剩余的m₆个算法的第j个算法。

步骤6-3：根据预测结果d_i-future和各算法对应的权重γ_i，获得实时预测结果d_future。

其中，γ_i第i个算法的权重，d_i-future为第i个算法的预测结果。

作为优选方案，所述准确率计算公式如下

C＝1-E_rmse

其中：

式中：n是所有样本的个数，

是i时刻的实际功率，

是i时刻的预测功率，V_i是i时刻的开机容量。

所述准确率阈值C₀计算公式如下：

其中，C_i为第i个算法的准确率，n₆表示共有n₆个算法进行了实时趋势预测。

作为优选方案，所述步骤7，包括如下步骤：

步骤7-1：根据历史相似日权重拟合结果d_history，计算出调整历史值d′_history。

其中，

是i时刻的实际功率，

是i时刻的历史日功率，n₇为相似日总时刻数。

步骤7-2：分别计算历史相似日权重拟合结果d_history、调整历史值d′_history、实时预测结果d_future与预测日当前时刻之前的三个时刻点的欧氏距离。

步骤7-3：将第i时刻点的三个欧式距离进行升序排序，此时排第j个的欧氏距离为s_ij，该欧式距离对应的预测结果记为

计算第一拟合结果d_fitting-1，第二拟合结果d_fitting-2。

式中，σ_i表示预测日当前时刻之前的第i个时刻点在拟合中的权重，K是根据聚类分成的簇数。

步骤7-4：分别计算历史相似日权重拟合结果d_history、调整历史值d′_history、实时预测结果d_future、第一拟合结果d_fitting-1，第二拟合结果d_fitting-2的准确率，选择准确率最高的结果，作为最终实时预测结果。

作为优选方案，其中

有益效果：本发明提供的一种基于历史相似日和实时多维研判的光伏平衡预测方法，建立了历史相似日聚类筛选机制，提出了基于突变调整的历史相似日拟合策略和基于ARIMA、LSTM、LightGBM等多元模型的实时趋势预测策略，并对两种策略进行了动态权重拟合。从而提升了分布式光伏平衡预测的准确性，支撑新型电力***的安全稳定运行。其相对于现有技术优点如下：

一、建立了历史相似日聚类筛选策略。提出了聚类中心初始点选取策略和多元初始聚类融合算法，设计了一种改进的历史相似日聚类分析算法,可以将历史日进行最合理的聚类。基于光伏电类采集项(遥测、遥信、状态、事件)以及非电类采集项(气象、温度、湿度、光照强度、风力等)等多元特征值，执行历史相似日特征值筛选算法，可以在目标聚类中选择与预测日最相似的若干个历史日。

二、优化了分布式光伏实时趋势预测机制。融合时序模型ARIMA、LSTM、LightGBM等算法模型，并基于多元模型实际运行准确率提出了多元预测结果融合策略，从而增强了融合模型的泛化能力，提升了对分布式光伏实时趋势预测的准确率。

三、提出了历史和实时预测结果多元拟合和动态调整方法。提出了历史相似日权重拟合算法，形成了基于历史数据的预测结果，并根据实际运行值对历史预测结果进行调整。使用历史和实时预测拟合算法提升了预测结果的准确性，并根据多元预测结果与实际值的匹配度实时调整总体分布式光伏平衡预测方法。

附图说明

图1是本发明方法整体流程图。

图2是聚类中心初始点选取策略流程图。

图3是多元预测结果融合策略图。

具体实施方式

下面结合具体实施例对本发明作更进一步的说明。

如图1所示，一种基于历史相似日和实时多维研判的光伏平衡预测方法，包括如下步骤：

S01：根据历史日数据中气象要素筛选出贡献度高的输入特征向量。

历史日数据中包含温度、湿度、辐照度、风速、风向、压强气象要素，这些气象要素对光伏出力的影响度不同，光伏出力预测中使用过多无关的气象要素，会造成计算的冗余和准确率的下降。通过皮尔逊相关系数法进行特征贡献度定量分析，初步简化输入的特征向量，排除对光伏出力无关和影响很小的气象要素。

获取历史日数据

为第i个时刻输入特征向量，

为第i个时刻第j个输入特征值，包括温度、湿度、辐照度、风速、风向、压强，y_i为第i个时刻实际光伏出力的输出特征值。i对应一天中每一段时间一个的时刻值，例如15分钟一个点，则一天总共有96个时刻值，即每个历史日数据都包含96个时刻值对应的输入特征向量和实际光伏出力的输出特征值，j为输入特征值的个数。

根据历史日数据D采用皮尔逊相关系数法计算每个输入特征的特征贡献度，筛选出特征贡献度大于等于阈值的输入特征向量。

针对影响光伏发电的所有因素，包括温度、湿度、辐照度、风速、风向、压强，进行特征贡献度定量分析。皮尔逊相关系数法如下：

其中，x_i为输入特征值；

为输入特征平均数；y_i为实际光伏出力；

为实际光伏出力的平均数；m₁为输入时刻值的个数；r为皮尔逊相关系数，此处作为贡献度。将贡献度记为r_w，若|r_w|＜r₀，则表明该输入特征对光伏实际出力的影响因素小，删除该输入特征。若|r_w|≥r₀，则保留该贡献度高的输入特征，计算所有输入特征的贡献度从而初步简化输入特征向量。r₀可以由用户按本地实际情况自行配置。

S02：对筛选过输入特征的历史日数据进行聚类，得到聚类后的簇。

由于不同季节、不同天气的历史日的气象要素(包括温度、湿度、辐照度、风速、风向、压强)相差较大，且呈现典型的聚类特征。因此，将所有历史日进行聚类分析，有利于在更短的时间内找到相似度最大的历史相似日。

聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术。K-means算法是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。它基于给定的聚类目标函数，算法采用迭代更新的方法，每一次迭代过程都是向目标函数减小的方向进行，最终聚类结果使得目标函数取得极小值，达到较好的分类效果。

但是原始的k-means算法也存在一些缺陷,比如对初始聚类中心敏感。对于不同的初始中心,可能会导致不同的聚类结果。针对原始k-means聚类算法这一缺陷,本发明此处使用一种改进的算法,实现聚类中心的初始点的选取,使k-means聚类的效果要好于随机选取初始点时的效果。

在本发明中，使用k-means对数据预处理，需要事先指定将要聚合成的簇数K。在先验知识缺乏的情况下，想要确定K是比较困难的。分别计算k＝3,4,5,6时的聚类效果，使用轮廓系数来评价K不同值时的聚类效果，最后选取轮廓系数最大的值对应的K作为最终的集群数目。

聚类中心初始点选取策略如图2所示，包括以下步骤：

(1)根据季节(春、秋、夏、冬)和(晴天、非晴天)将历史日数据

(2)计算子集D_i中所有元素的平均值后存入v_i，作为该聚类中心的初始点，i取1，2，3，…，6。

(3)当K＝v的个数时，将v_i作为k-means的聚类中心初始点。

(4)当K＜v的个数时，采用皮尔逊相关系数法计算所有的v_i之间的相关性后存入上三角矩阵R中，找出相关系数r_pq最大的两个聚类中心。

其中，r_pq是聚类中心v_p和v_q之间的皮尔逊相关系数。

(5)将相关性最大的两个聚类中心对应的集合进行合并，得到融合后的聚类中心v′，特别的，此处使用多元初始聚类融合算法进行合并。

本发明提出了多元初始聚类融合算法来进行多个集合的合并，具体如下：

(6)重复以上步骤，直到v的个数等于K，导出聚类中心初始点v′。

将通过上述步骤计算出聚类中心的初始点用于k-means的聚类计算中，k-means会将历史日数据聚合成K′簇。具体步骤如下：

(1)使用已经确定好的v′＝v′₁，v′₂，...，v′_K作为聚类中心的初始点。

(2)针对数据集中每个样本d_i计算它到K个聚类中心的欧式距离并将其分到距离最小的聚类中心所对应的簇中。根据以下算法进行欧式距离ρ_ij的计算：

其中，d_i是数据集中的第i个样本，v′_j为融合后的第j个聚类中心。

(3)针对每个簇D_i，重新计算它的聚类中心v′，通过以下算法计算属于该簇的所有样本的质心作为新的聚类中心。

其中，D_i是经过聚类形成的簇，|D_i|表示簇D_i中样本的个数，d表示簇D_i中的样本。

(4)重复上述2、3步骤，直到聚类中心稳定，输出聚类后的簇。

(5)计算聚类后的簇的轮廓系数，选取轮廓系数最大值对应的K作为最终的集群数目。

通过上述步骤可以计算出当前K值时的聚合簇。k-means算法对K值敏感，不同的K值会导致不同的聚合效果。此时就要使用轮廓系数来评价K不同值时的聚类效果，最后选取轮廓系数最大的值对应的K作为最终的集群数目。

轮廓系数结合了聚类的凝聚度和分离度，用于评估聚类的效果。对于每个簇中的每个样本点d_i，分别计算其轮廓系数。具体地，需要对每个样本点d_i计算以下两个指标：

a(i)：样本点d_i到与其属于同一个簇的其他样本点的距离的平均值。a(i)越小，说明该样本属于该类的可能性越大，用于量化簇内的凝聚度。

b(i)：选取d_i外的其他簇D_j，计算d_i与D_j中所有样本的距离的平均值b_ij，遍历所有其他簇，找到平均距离的最小值，记作b(i)，b(i)＝min(b_i1，b_i1，...，b_ik)，用于量化簇之间的分离度。

样本点d_i的轮廓系数为：

计算所有样本点d_i的轮廓系数，求出平均值即为当前K值下聚类的整体轮廓系数S，度量数据聚类的紧密程度。S∈[-1，1]，S越接近1，聚类效果越好。

最后选取轮廓系数最大的值对应的K作为最终簇的数目，并将K个簇固化。每月1日0:00执行一次历史相似日聚类分析流程，本月应用此聚类结果。

S03：通过皮尔逊相关系数法选择历史日数据K个簇中与预测日最相似的簇作为历史相似日，筛选历史相似日的输入特征值。

历史日记录了电气量(光伏发电功率)、气象要素(温度、湿度、辐照度、风速、风向、压强)。选择与预测日气象要素最相似的历史日，首先采用皮尔逊相关系数法选择K个簇中与预测日最相似的簇，然后对该簇中所有的历史日执行以下历史相似日特征值筛选算法：

其中

代表选择从n₁个历史日中选择特征值与预测日相差最小的m₃个历史日。

为预测日第i个时刻的第p个的输入特征值，r_j为S01步骤中计算的第j个输入特征值对应的皮尔逊相似系数，a₃为输入特征值的个数，n₃为预测日当前时刻值的数量。

S04：调整历史相似日的输入特征值的突变点，得到调整后的历史相似日的输入特征值。

判断步骤S03中选取的历史日的各时刻特征值中是否存在突变点，如果存在则使用基于回归拟合的中位数绝对偏差方法实现突变点的调整。具体步骤如下：

(1)将历史相似日各时刻的特征值执行最小二乘法的高次多项式拟合算法，用最小二乘法来衡量数据点与拟合曲线之间的偏差，当拟合曲线纵坐标与数据点纵坐标的差值平方和最小时，认为拟合度最好，此时得到回归拟合曲线f(x)

(2)计算所有元素X_i的绝对偏差的中位值MAD＝median(|X_i-X′_i|)，其中，median(X)表示求X的中位值，X′_i为回归拟合曲线f(x)上与X_i的对应值，X_i表示历史日数据中第i个时刻值的输入特征值。

(3)则可以用以下算法调整所有数据，实现突变点的调整：

其中，X″_i为调整后的X_i值，α_mad为系数，

k为簇的数目。

S05：将调整后的历史相似日的输入特征值通过历史相似日权重拟合算法计算，得到历史相似日权重拟合结果。

将经过突变点调整的m₃个最相似历史日数据依次与预测日数据进行皮尔逊相关系数的计算，得到最相似历史日之间的皮尔逊相似度r_i′，相似度越高赋予越高的权重。对于不同时间段的相似日，认为越接近预测日的数据参考的价值越大，将赋予更高的权重。将历史日数据按照时序进行排布，分t₁年以内、t₁-t₂年之间、t₂年以上三个时间段，分别设置不同的权重β＝β₁，β₂，β₃。即β₁为0-t₁范围内的事件的权重，β₂为t₁-t₂范围内的事件的权重，β₃为大于t₂范围的事件的权重，其中0＜β₁，β₂，β₃＜1，且β₃＝1-β₁-β₂，可以由用户按本地实际情况自行配置。

历史相似日权重拟合算法如下：

其中，r_i′、r_j′表示第i、j个最相似历史日数据与预测日的皮尔逊相关系数，T_i、T_j表示第i、j个历史日数据属于三个时间段中对应的权重β，(y′_i，X′_i)＝d′_i表示第i个最相似历史日数据，

是第i个历史日光伏实际出力功率的参数，V_i为第i个历史日时该区域光伏的总装机容量，V₀为预测日时该区域的总装机容量，m₃表示历史相似日的个数，d_history表示m₃个最相似历史日根据权重拟合后的结果。

本发明为了解决光伏量测数据有着海量的历史数据，在历史相似日筛选中存在计算开销大，筛选速度慢，相似日选择不够准确，突变点干扰预测结果这些问题，就需要通过合理的方法实现对相关数据的分析研判。

原始的K-means算法存在一些缺陷，比如对初始聚类中心敏感。对于不同的初始中心，可能会导致不同的聚类结果。针对原始K-means聚类算法这一缺陷，本发明使用一种改进的算法——聚类中心初始点选取策略,实现聚类中心的初始点的选取,使K-means聚类的效果要好于随机选取初始点时的效果。

通过本发明的历史相似日特征值筛选算法对历史日数据进行特征值筛选，可以从簇中更快的找到与预测日最相似的历史日数据，提高了计算速度与查找相似的准确率。

通过本发明的历史相似日突变点调整算法调整历史日相似日数据中存在的突变点，减少在之后的拟合与预测中突变点带来的误差。

通过本发明的历史相似日权重拟合算法对多个历史日相似日数据进行处理与拟合，使得历史相似日更具有参考性与提高了预测的准确率。

S06：根据调整后的历史相似日的输入特征值进行多元实时趋势预测，获得实时预测结果。

现有技术中时间序列预测算法在面对不同的情况下，会有不同的表现，一个预测算法不会在所有情况都表现出良好的预测能力，并且在外界发生较大变化时，往往会有较大偏差，所以需要提高预测算法的鲁棒性和泛化能力。

本发明选取预测能力较为优秀的多个算法，根据历史数据计算出各个预测算法的准确率，使用多元预测结果融合策略剔除准确率不高的结果，并给准确率高的结果赋予更高的权重后拟合多元的预测结果，提高融合模型的泛化能力和抗干扰能力。

本发明将融合时序模型ARIMA、LSTM、LightGBM等多元时间序列分析模型，调整各模型权重，使用多元预测结果融合策略提高融合模型的泛化能力，形成最终集成算法进行实时趋势预测。时间序列分析主要针对时间序列问题的两个领域，一个是历史区间数据的分析，根据历史数据特征的提取总结进行异常检测和分类；另一种是对未来数据的分析，即基于过去时间点的数据来预测未来某个时间点或某些时间点的状态或实际值。

1.ARIMA(p,d,q)——差分自回归移动平均模型

ARIMA(Autoregressive Integrated Moving Average model)，差分自回归移动平均模型，写作ARIMA(p,d,q)，由AR(自回归)、I(表示差分)、MA(滑动平均)三部分组成，是一种基于时间序列历史值和历史值上的预测误差来对当前做预测的模型。AR是自回归项，p是自回归项数，需要加权计算多少天之前的时间序列数据。MA是移动平均项，q是移动平均项数，需要加权计算多少天之前的误差数据。I表示差分，d为时间序列变得平稳的时候，所需要做的差分次数。ARIMA模型可以被视为一个“过滤器”，它试图将信号与噪声分开，然后将信号外推到未来以获得预测，该模型特别适合于拟合显示非平稳性的数据。

ARIMA建模基本步骤：

(1)首先需要对观测值序列进行平稳性检测，如果不平稳，则对其进行差分运算直到差分后的数据平稳；

(2)在数据平稳后则对其进行白噪声检验，白噪声是指零均值常方差的随机平稳序列；

(3)如果是平稳非白噪声序列就计算ACF(自相关系数)、PACF(偏自相关系数)，进行ARMA等模型识别；

(4)对已识别好的模型，确定模型参数，最后应用预测并进行误差分析。

2.LSTM——长短期记忆模型

长短期记忆(Long short-term memory,LSTM)是一种特殊的RNN，可以学习长距离依赖信息，主要是为了解决长序列训练过程中的梯度消失和梯度***问题。LSTM模型在RNN模型的基础上通过增加门限(Gates)来解决RNN短期记忆的问题，使得循环神经网络能够真正有效地利用长距离的时序信息。所有RNN都具有一种重复神经网络单元的链式形式。在标准的RNN中，这个重复的单元只有一个非常简单的结构，例如一个tanh层。LSTM在RNN的基础结构上增加了遗忘门(Forget Gate)、输入门(Input Gate)、输出门(Output Gate)3个逻辑控制单元，且各自连接到了一个乘法元件上，通过设定神经网络的记忆单元与其他部分连接的边缘处的权值，选择性地遗忘部分历史信息，加入部分当前输入信息，最终整合到当前状态并产生输出状态。

遗忘门：这个阶段主要是对上一个节点传进来的输入进行选择性忘记，即“忘记不重要的，记住重要的”，控制上一时刻细胞单元中的信息是否积累到当前时刻细胞单元中。

输入门：这个阶段将这个阶段的输入有选择性地进行“记忆”。主要是会对输入信息进行选择记忆。重要信息则着重记录下来，不重要信息则少记一些，控制输入信息是否流入细胞单元中。

遗忘门：这个阶段将决定哪些将会被当成当前状态的输出。

3.LightGBM

GBDT主要思想是利用弱分类器(决策树)迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。而LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。为实现这些优点，lightGBM在传统的GBDT算法上进行了如下优化：

(1)直方图优化

原始的GBDT算法在进行决策树节点***时，需要对全局数据集中的每一个特征分量进行遍历，以求出当前***节点的最优***特征值；但算法在构建决策树时需要遍历全局样本，这是非常耗时的。基于此，LightGBM采用了直方图优化策略，其主要原理是：在训练前，通过对样本中每一维特征进行排序，在排序后，对特征进行直方图划分(算法默认划分256个直方图)，在后续的训练中，算法仅需要使用直方图作为"特征"进行决策树的构建，这大大减少了对样本集的遍历次。

(2)深度优先***策略(leaf-wise)

在LightGBM算法之前，大多数树模型在进行决策树构建时，均采用了层次宽度优先***(level-wise策略)，即节点***时，在同一层的节点可以同时***，这在一定程度上可以多线程并行，加快构建决策树速度，但从另外一个角度讲，level-wise策略构建时只会考虑当前节点集合内的样本进行最优***，因此存在一种局部最优解的可能。另外，并行生成可能存在在同一层的部分节点没有必要进行额外的***。基于此，LightGBM算法采用深度优先***策略，即每次对叶节点进行***时，均考虑了全局的样本，不会造成局部最优解的问题，同时也减少了后剪枝操作次数的可能。对于深度优先***策略，由于树的深度可能更深，造成过拟合，因此模型参数增加了对最大深度的限制，以减少过拟合的风险。

(3)梯度单边采样策略(Gradient-based One-Side Sampling,GOSS)

原始的GBDT的算法是利用了损失函数的负梯度近似等于残差的思想来实现的。与LightGBM算法相比，其他基于Boosting框架的树模型算法在每一次构建决策树时，使用了随机采样的策略抽取一定数量的样本进行梯度更新，参与决策树的构建，而LightGBM算法使用单边采样的策略，有针对性的对梯度较大的样本全部参与决策树构建，为保证样本的数据分布不被破坏，同时随机采样了梯度较小的样本参与构建决策树，实验证明，LightGBM算法侧单边采样策略好于随机采样策略。

(4)互斥特征捆绑策略(Exclusive Feature Bundling,EFB)

互斥特征捆绑是将样本中不同维度的稀疏特征进行合并，作为一个特征进入模型参与决策树构建。针对特征维度高，而高维的数据通常是稀疏的，能否设计一种无损的方法来减少特征的维度。特别的，稀疏特征空间中，许多特征是互斥的，例如他们从不同时为非零值。因此，可以绑定互斥的特征为单一特征，参与最终特征直方图的构建。

此外，Holt-Winters、Facebook Prophet、WaveNet等算法也可以用来做实时趋势预测，和其他所有模型的预测结果进行融合形成最后的预测结果，提高融合模型的泛化能力。

各个时间序列预测算法的预测效果有好有坏，需要对各个算法的预测结果进行评估。根据《调度侧风电或光伏功率预测***技术要求》引入均方根误差和准确率来评估算法预测结果的好坏。准确率计算公式如下：

C＝1-E_rmse

均方根误差计算公式如下：

式中：n是所有样本的个数，

是i时刻的实际功率，

是i时刻的预测功率，V_i是i时刻的开机容量。

计算出各个时间序列预测算法的准确率，根据多元预测结果融合策略剔除准确率不高的结果，并给准确率高的结果赋予更高的权重后拟合多元的预测结果。如图3所示，多元预测结果融合策略包括如下步骤：

(1)根据准确率阈值计算算法确定实时预测算法准确率的剔除阈值，算法如下：

(2)将准确率C_i＜C₀的算法的预测结果进行剔除，并将剩余的m₆个算法按照准确率进行降序排序，此时各算法对应的权重为：

其中，γ_i为经过剔除和降序排序后的第i个算法的权重。

(3)准确率越高的算法获得的权重越大，将时间序列预测算法计算得到的趋势预测值乘以权重后相加得到最终拟合的实时预测结果。多元预测结果拟合算法如下：

其中，γ_i第i个算法的权重，d_i-_future为第i个算法的实时预测结果，d_future表示多元趋势预测算法拟合后的实时预测结果。

S07：对历史相似日权重拟合结果和实时预测结果进行拟合，得到最终实时预测结果。

现有技术中历史相似日预测和实时趋势预测是通过两种不同途径得到对光伏出力的预测结果，直接将两种方法的结果提交用户会造成用户对结果的困扰，用户并不清楚这两种方***度。

本发明提出了历史和实时预测结果多元拟合和动态调整方法，使两个独立的预测结果更好的融合，两种方法的结果相互对照也提升了预测结果的准确性，减少了使用一种方法时可能存在的设计误差，并根据多元预测结果与实际值的匹配度实时调整总体分布式光伏平衡预测方法。

为了提高预测结果的准确率，动态调整原始历史日数据、调整历史值以及实时预测值的权重，得到最后的拟合结果。

使用调整历史值算法，根据原始历史值d_history算出调整历史值d′_history。调整历史值算法为：

其中，

是i时刻的实际功率，

是i时刻的历史日功率。d_history表示原始历史日数据，d′_history为d_history经过调整后的历史日数据。

分别计算最相似历史日拟合值d_history、调整历史值d′_history、多元趋势预测算法拟合值d_future与预测日当前时刻之前的三个时刻点的欧氏距离。将第i时刻点的三个欧式距离进行升序排序，此时排第j个的欧氏距离为s_ij，该欧式距离对应的预测结果记为

使用历史和实时预测拟合算法：

式中，σ_i表示预测日当前时刻之前的第i个时刻点在拟合中的权重，其中

d_fitting-1、d_fitting-2表示历史和实时预测值通过不同策略拟合得到的结果，K是根据聚类分成的簇数，对权重进行调整的历史和实时预测拟合结果。

最后，分别计算最相似历史日拟合值d_history、调整历史值d′_history、多元趋势预测算法拟合值d_future、历史和实时预测拟合结果d_fitting-1、d_fitting-2的准确率，选择准确率最高的结果，即最终实时预测结果：

本发明建立了历史相似日聚类筛选策略，实现了历史日的合理聚类，并可以高效选择与预测日最相似的若干个历史日；优化了分布式光伏实时趋势预测机制，实现了多元模型预测结果的高效融合；提出了历史和实时预测结果多元拟合和动态调整方法，提升了分布式光伏平衡预测的准确性。本方法的预测结果可以满足调度、设备、营销、发展等业务条线的专业需求，对新型电力***的安全稳定运行具有重要意义。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：包括如下步骤：

步骤1：根据历史日数据中气象要素筛选出贡献度高的输入特征向量；

步骤2：对筛选过输入特征的历史日数据进行聚类，得到聚类后的簇；

步骤3：通过皮尔逊相关系数法选择历史日数据K个簇中与预测日最相似的簇作为历史相似日，筛选历史相似日的输入特征值；

步骤4：调整历史相似日的输入特征值的突变点，得到调整后的历史相似日的输入特征值；

步骤5：将调整后的历史相似日的输入特征值通过历史相似日权重拟合算法计算，得到历史相似日权重拟合结果；

步骤6：根据调整后的历史相似日的输入特征值进行多元实时趋势预测，获得实时预测结果；

2.根据权利要求1所述的一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：所述步骤1，包括如下步骤：

步骤1-1：获取历史日数据

D表示所有历史日数据的集合，d是D其中一天的数据，n₁为历史日的总天数；d＝{(y_i，X_i)，i＝1，2，...，m₁}，

为第i个时刻输入特征向量，

为第i个时刻第j个输入特征值，y_i为第i个时刻实际光伏出力的输出特征值；

3.根据权利要求1所述的一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：所述步骤2，包括如下步骤：

步骤2-1：根据春、秋、夏、冬、晴天和非晴天将历史日数据

分为六个不相交子集D₁，D₂，...，D₆，用v＝v₁，v₂，...，v₆表示历史日数据子集对应的聚类中心，n₁为历史日的总天数；

步骤2-2：计算子集D_i中所有元素的平均值后存入v_i，作为该聚类中心的初始点，i取1，2，3，…，6；

步骤2-3：当K＝v的个数时，将v_i作为k-means的聚类中心初始点；

步骤2-4：当K＜v的个数时，采用皮尔逊相关系数法计算所有的v_i之间的相关性后存入上三角矩阵R中，找出相关系数r_pq最大的两个聚类中心；

其中，r_pq是聚类中心v_p和v_q之间的皮尔逊相关系数；

步骤2-5：将相关性最大的两个聚类中心对应的集合进行合并，得到融合后的聚类中心v′；

步骤2-6：重复以上步骤，直到v的个数等于K，导出聚类中心初始点v′；

步骤2-7：将v′＝v′₁，v′₂，...，v′_K作为聚类中心的初始点；

步骤2-8：针对历史日数据中每个样本d_i计算它到K个聚类中心的欧式距离并将其分到距离最小的聚类中心所对应的簇中；

步骤2-9：针对每个簇D_i，重新计算它的聚类中心v′；

步骤2-10：重复步骤2-8，步骤2-9，直到聚类中心稳定，输出聚类后的簇；

4.根据权利要求3所述的一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：融合后的聚类中心v′的计算公式如下：

5.根据权利要求1所述的一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：所述步骤3，包括如下步骤：

步骤3-1：采用皮尔逊相关系数法选择K个簇中与预测日最相似的簇，作为历史相似日；

步骤3-2：对历史相似日的数据进行历史相似日特征值筛选算法，获取历史相似日的输入特征值；

所述历史相似日特征值筛选算法，计算公式如下：

其中：

代表选择从n₁个历史日中选择特征值与预测日相差最小的例₃个历史日，

为历史日第i个时刻的第p个输入特征值，r_p代表第p个输入特征值对应的皮尔逊相似系数；

6.根据权利要求1所述的一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：所述步骤4，包括如下步骤：

步骤4-1：将历史相似日各时刻的特征值执行最小二乘法的高次多项式拟合算法，得到回归拟合曲线f(x)；

步骤4-2：计算历史相似日所有特征值X_i的绝对偏差的中位值MAD＝median(|X_i-X′_i|)，其中，median(X)表示求X的中位值，X′_i为回归拟合曲线f(x)上与X_i的对应值，X_i表示历史日数据中第i个时刻值的输入特征值；

其中，X″_i为X_i调整后的值，α_mad为系数。

7.根据权利要求1所述的一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：所述步骤5，包括如下步骤：

步骤5-1：将经过突变点调整的m₃个最相似历史日数据依次与预测日数据进行皮尔逊相关系数的计算，得到最相似历史日之间的皮尔逊相似度r_i′；

步骤5-2：将历史日数据按照时序进行排布，分t₁年以内、t₁-t₂年之间、t₂年以上三个时间段，分别设置不同的权重β＝β₁，β₂，β₃；即β₁为0-t₁范围内的事件的权重，β₂为t₁-t₂范围内的事件的权重，β₃为大于t₂范围的事件的权重；

步骤5-3：根据历史相似日权重拟合算法，获取历史相似日权重拟合结果d_history；所述历史相似日权重拟合算法，计算公式如下：

8.根据权利要求7所述的一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：所述步骤6，具体步骤如下：

步骤6-1：将调整后的历史相似日的输入特征值输入各个时间序列预测算法，得到预测结果d_i-future；

步骤6-2：计算出各个时间序列预测算法的准确率，剔除准确率小于准确率阈值的时间序列预测算法，剩余的m₆个时间序列预测算法按照准确率进行降序排序，并计算各算法对应的权重γ_i；

其中，i为剩余的m₆个算法排序后的序号，j为剩余的m₆个算法的第j个算法；

步骤6-3：根据预测结果d_i-future和各算法对应的权重γ_i，获得实时预测结果d_future；

9.根据权利要求8所述的一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：所述准确率计算公式如下

C＝1-E_rmse

其中：

式中：n是所有样本的个数，

是i时刻的实际功率，

是i时刻的预测功率，V_i是i时刻的开机容量；

所述准确率阈值C₀计算公式如下：

10.根据权利要求9所述的一种基于历史相似日和实时多维研判的光伏平衡预测方法，其特征在于：所述步骤7，包括如下步骤：

步骤7-1：根据历史相似日权重拟合结果d_history，计算出调整历史值d′_history；

其中，

是i时刻的实际功率，

是i时刻的历史日功率，n₇为相似日总时刻数；

步骤7-2：分别计算历史相似日权重拟合结果d_history、调整历史值d′_history、实时预测结果d_future与预测日当前时刻之前的三个时刻点的欧氏距离；

计算第一拟合结果d_fitting-1，第二拟合结果d_fitting-2；

式中，σ_i表示预测日当前时刻之前的第i个时刻点在拟合中的权重，K是根据聚类分成的簇数；