CN114154684A - 基于数据挖掘和多核支持向量机的短期光伏功率预测方法 - Google Patents

基于数据挖掘和多核支持向量机的短期光伏功率预测方法 Download PDF

Info

Publication number
CN114154684A
CN114154684A CN202111348117.5A CN202111348117A CN114154684A CN 114154684 A CN114154684 A CN 114154684A CN 202111348117 A CN202111348117 A CN 202111348117A CN 114154684 A CN114154684 A CN 114154684A
Authority
CN
China
Prior art keywords
data
photovoltaic power
irradiance
core
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111348117.5A
Other languages
English (en)
Inventor
孙丰杰
撖奥洋
周生奇
刘宏波
张子矜
董文妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co
State Grid Corp of China SGCC
Original Assignee
QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co, State Grid Corp of China SGCC filed Critical QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co
Priority to CN202111348117.5A priority Critical patent/CN114154684A/zh
Publication of CN114154684A publication Critical patent/CN114154684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • G06F2218/06Denoising by applying a scale-space analysis, e.g. using wavelet analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法,该预测方法针对光伏预测所需多源气象数据难以获得,部分光伏电站可能只存储辐照度数据和光伏发电功率的问题,通过数据预处理、数据挖掘以及最优多核选取,提高了光伏出力预测精度,使得仅利用辐照度和光伏功率数据也能获得高精度的光伏预测结果。这种预测方法一方面利用数据挖掘技术,充分利用每项数据,另一方面所提的多核支持向量机能够区分处理多源数据,极大地提高了预测精度。本发明的预测方法,实现了在气象数据无法获取、只有辐照度与光伏功率数据的情况下的高精度光伏功率预测,具有重大意义。

Description

基于数据挖掘和多核支持向量机的短期光伏功率预测方法
技术领域
本发明涉及新能源功率预测领域,特别是与光伏相关的领域,具体是一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法。
背景技术
能源在历史的进程上推动了数次工业革命,是世界经济发展的重要动力。但与此同时,大量地使用化石能源,也带来了能源资源短缺、全球气候变暖、环境恶化等一系列问题。为解决这些问题,我国提出了“力争2030年前实现碳达峰、在2060年前实现碳中和”的重大战略决策。在“双碳目标”的推动下,中国电力结构正从“适应高比例新能源”转变为“新能源为主体”的新型电力结构,新能源将在未来的电力***中发挥更重要的作用。
作为新能源发电中的重要组成部分的光伏发电也得到了长足的发展,光伏发电在电网中的渗透率日益增高。根据国家能源局于2020年2月28日发布的2019年光伏发电并网运行情况,截止2019年底,我国光伏发电装机容量累计达到20430万千瓦,同比增长17.3%,其中集中式光伏14167万千瓦,同比增长14.5%,分布式光伏6263万千瓦,同比增长24.2%;预计2020年我国光伏装机容量为3500-4500万千瓦。然而,光伏出力的随机性和波动性会对电力***的安全稳定运行产生不利影响。因此,高精度的光伏功率预测在电力调度中具有重要意义。
通过对现有技术的调研,光伏功率预测方法主要有BP神经网络、长短期记忆网络(LSTM)、支持向量机和物理模型预测法。目前机器学习模型对光伏出力进行预测,是利用很多气象数据以及历史光伏功率数据进行直接预测,或者通过预测辐照度,再利用相关公式计算光伏出力。但是,这些方法都需要很多种类数据,如气象数据中的辐照度、风速、温度、风向等,如果仅仅利用其中某种影响因素来进行光伏出力预测,则结果并不理想;同样地,在考虑这些多种类数据时,未计及其多源特性。
因此针对目前有的光伏电站的数据存储容量有限,只有辐照度与光伏出力被存储,并未存储其他种类的相关气象数据的问题,如何充分利用数据,挖掘数据内在潜力,并充分考虑多源数据中各数据源的特征和物理意义,提高预测精度,是很有意义的。
目前没有发现同本发明类似的技术,也尚未收集到国内外类似的资料。
发明内容
针对上述问题,本发明提出了一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法。通过数据填充和小波去噪等数据预处理方法,降低了噪声对聚类算法的干扰。利用辐照度和光伏功率的特征表示参数,采用SOM和K-Means的二次聚类算法对相似日进行选取。此外,利用多核支持向量机充分考虑多源数据中各数据源的特征和物理意义,提高预测精度。最后,通过实例验证了该方法仅利用辐照度即可准确预测光伏功率。
本发明的技术解决方案如下:
一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法,主要包括五个部分:获取多源原始数据;对所获取的原始数据进行数据预处理,得到各数据源对应的可用样本集;基于生成的样本集,利用辐照度和功率的特征表示参数进行k-means与SOM结合的二次聚类选取历史相似日,组成相似日样本集;利用相似日样本集,判断数据来源,在线性核函数、多项式核函数、高斯核函数与Sigmoid核函数中两两选择组成多核函数;根据组成的多核函数,在每种多核函数组合下,利用多核支持向量机进行光伏发电功率预测,得到预测结果,计算误差,得到最佳多核函数组合与最佳预测结果,具体步骤如下:
1、原始数据选取
只需获取光伏电站的发电功率和辐照度,获得方法是选取待预测日的当年前三个月,前一年待预测日当月及前后各一个月的光伏发电功率和辐照度作为原始数据。
2、数据预处理
数据预处理包括数据清洗与数据去噪两部分:
a)数据清洗,包括异常数据检测、缺失数据填补两部分:
①缺失数据对预测精度影响很大,因此有必要对缺失数据进行补全,本发明采用牛顿插值法对缺失数据进行补全:
f(tk)=f(tk-2)+f[tk-2,tk-1](tk-tk-2)+f[tk-2,tk-1,tk+1](tk-tk-2)(tk-tk-1)+f[tk-2,tk-1,tk+1,tk+2](tk-tk-2)(tk-tk-1)(tk-tk+1)
其中,f(t)是数据在时刻t的值,tk是数据缺失的时刻,tk-2、tk-1、tk+1和tk+2是发生数据缺失的时刻附近的四个采样时间,f[t0,t1,…,tm]是f(t)的m阶差商;
②异常数据对预测精度的影响也很大,因此在去噪前应先发现异常数据,通过横向和纵向对比的方法确定数据是否异常:如果
Figure BDA0003354971550000021
或者
Figure BDA0003354971550000022
其中,f(i,t)代表数据在第i天时刻t的值,
Figure BDA0003354971550000031
表示最近几日t时刻数据的平均值,
Figure BDA0003354971550000032
表示第i天t时刻前后数据的平均值,ε和σ是误差界限,则数据f(i,t)是异常数据,将异常数据视为缺失数据,按照填补缺失数据的方法修改异常数据;
b)数据去噪:
光伏发电功率数据和辐照度数据属于实测数据,在采集过程中不可避免会有噪声污染,从而导致信号波动大、毛刺较多,小波变换具有局部多分辨性、低熵性,因此采用小波软阈值去噪方法对数据进行平滑处理后再作为预测模型的输入,所述的光伏功率和辐照度采用小波阈值去噪,具体步骤如下:
①利用小波函数对两信号进行三层小波分解,得到小波系数ωj,k,其中,j为离散小波变换频率,k为离散小波变换时变量;
②选定合适的阈值T,对各尺度小波系数采用软阈值函数,进行非线性阈值处理,得到估计小波系数
Figure BDA0003354971550000033
Figure BDA0003354971550000034
③基于各尺度估计小波系数
Figure BDA0003354971550000035
采用离散小波反变换,得到去噪之后的估计信号集合;
④过零处理:由于功率和辐照度不能为负,因此需要对步骤③得到的估计信号集合进行过零处理,将负的部分替换为0,得到最终可用的样本集
Figure BDA0003354971550000036
Figure BDA0003354971550000037
阈值去噪的优点是噪声几乎完全得到抑制,且反映原始信号的特征尖峰点得到很好的保留。用软阈值的方法去噪能够使估计信号实现最大均方误差最小化,即去噪后的估计信号是原始信号的近似最优估计;且估计信号至少和原始信号同样光滑而不会产生附加振荡。同时,上述的数据清洗避免了在信号不连续点处,去噪后可能出现的伪吉布斯现象。
3、特征参数表示及二次聚类
a)特征参数选取
辐照度特征表示:考虑时间序列数据的总体特征与离散特征,以辐照度最大值Smax、辐照度平均值Savg、辐照度方差Vg、辐照度三阶差分最大值TODmax、晴朗指数Kt、辐照度归一化离散差Ls为特征参数,各参数的具体表达式如下所示:
Figure BDA0003354971550000038
Figure BDA0003354971550000041
Figure BDA0003354971550000042
Figure BDA0003354971550000043
Figure BDA0003354971550000044
Figure BDA0003354971550000045
其中,ss,i是采样点的辐照度,N是一天的样本数,
Figure BDA0003354971550000046
是辐照度的三阶差分,s0,i是对应的地外辐照度理论计算值,并且s0,0=s0,N+1=0,ss,0=ss,N+1=0。
功率特征表示:选择光伏每日最大功率Pmax和光伏每日平均功率Pavg作为功率特征参数:
Figure BDA0003354971550000047
Figure BDA0003354971550000048
其中,pi是采样点的光伏功率,N是一天的样本数。
因此,相似日与待预测日的输入变量有8个特征参数X=[x1,x2,x3,x4,x5,x6,x7,x8],其中,x1~x6分别为提取的6个辐照度特征参数,x7~x8为提取的2个功率特征参数。输出Y为训练点的实际光伏发电功率数据。最终相似日样本集为{(Xi,Yi)|i=1,2,…N},N为相似日样本总数。
b)基于二次聚类的相似日选择
k-means聚类算法具有简单、容易理解、计算方便、速度快以及能够有效处理大型数据库的优点,然而k-means算法还有着如初始值对聚类结果影响较大、容易陷入局部最优、依赖经验判断最优类的个数以及对“噪音”和孤立点数据比较敏感等缺点。SOM神经网络是一个无监督的学习模式,能够将数据从高维空间映射到低维空间上,通过降维寻找多维数据的主要统计特征,并根据数据间的相似性自动将数据分成不同的类别,从而达到增强有用信息,降低噪声的影响。
为了获得更好的基于特征参数的聚类效果,将k-means聚类与SOM聚类相结合,进行二次聚类。首先,利用SOM聚类方法对聚类样本集进行初始聚类,得到聚类权值,然后将该权值作为K-means聚类的初始聚类中心进行二次聚类。
4、多核函数组成
核函数法是支持向量机实现非线性分类和回归的重要方法。支持向量机最初是基于单核函数的。但当输入数据属于多源数据时,使用单核函数对所有数据进行相同的处理会导致准确性不足。目前最常见的单核函数有:线性核函数、多项式核函数、RBF核函数和S型核函数。
多核函数是由一组单核函数以某种方式组合形成的,多核支持向量机是用多核函数代替单核函数。由于每个样本含有8个特征参数,分别属于辐照度源与光伏发电数据源两种数据源,因此在线性核函数、多项式核函数、高斯核函数与Sigmoid核函数中两两选择,共6种多核函数组合。线性组合的多核函数的表达式为:
Figure BDA0003354971550000051
其中,λh∈[0,1]是核权重,m是单核函数的个数,Kh(x,y)是单核函数;
5、最优多核支持向量机预测光伏功率
基于l1范数的多核SVM模型如下所示:
Figure BDA0003354971550000052
Figure BDA0003354971550000053
Figure BDA0003354971550000054
Figure BDA0003354971550000055
λh≥0,h=1,2,...,m
||λh||1=1
其中,x为训练样本输入特征,y为训练样本的目标值,N为训练样本个数,m为多核函数所含单核函数数量,C为惩罚因子,ε为精度,α、
Figure BDA0003354971550000056
为拉格朗日乘子;
采用双层多核学习算法来求解参数,多核SVM回归估计函数可表达如下:
Figure BDA0003354971550000057
其中,
Figure BDA0003354971550000058
Figure BDA0003354971550000059
是最优拉格朗日乘子,b是阈值参数。
本发明选取平均绝对百分比误差MAPE和均方根误差RMSE作为光伏功率预测结果的评价指标:
Figure BDA0003354971550000061
Figure BDA0003354971550000062
利用每种多核函数组合下的支持向量机进行光伏发电功率预测,得到预测结果,计算误差,从而得到最佳多核函数组合。根据选择的最优多核函数进行光伏功率预测,得到最优预测结果。基于数据挖掘和多核支持向量机的光伏功率预测具体过程如图1所示。
与现有技术相比,本发明的特点如下:
1.提出一种基于数据预处理与特征表示的多核支持向量机预测算法;
2.所需数据来源较少且易获得,只需光伏电站的辐照度与光伏功率数据,无需其他气象数据,所需数据采集装置少,极大减少数据采集的难度,节省资金,可应用于分布式光伏电站的功率预测;
3.依据数据特征,构建特征参数,基于特征表示参数而非数据本身进行相似日选择,充分挖掘数据潜力,选择出的相似日更具有代表性;
4.利用多核支持向量机区分处理多源数据,与神经网络、单核支持向量机相比,提高了光伏功率的预测精度,有利于光伏电站的上网申报及电网对光伏出力的掌握,降低可再生能源接入电网后的不确定性。
附图说明
图1是本发明一种短期光伏功率预测方法的体系结构;
图2是本发明一具体实例中单核支持向量机、多核支持向量机与BP神经网络预测结果示意图;
图3是本发明一具体实例中不同多核函数预测结果示意图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,结合实施例和附图对本发明作进一步说明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法,主要包括五个部分:获取多源原始数据;对所获取的原始数据进行数据预处理,得到各数据源对应的可用样本集;基于生成的样本集,利用辐照度和功率的特征表示参数进行k-means与SOM结合的二次聚类选取历史相似日,组成相似日样本集;利用相似日样本集,判断数据来源,在线性核函数、多项式核函数、高斯核函数与Sigmoid核函数中两两选择组成多核函数;根据组成的多核函数,在每种多核函数组合下,利用多核支持向量机进行光伏发电功率预测,得到预测结果,计算误差,得到最佳多核函数组合与最佳预测结果,具体步骤如下:
1、原始数据选取
只需获取光伏电站的发电功率和辐照度,获得方法是选取待预测日的当年前三个月,前一年待预测日当月及前后各一个月的光伏发电功率和辐照度作为原始数据。
2、数据预处理
数据预处理包括数据清洗与数据去噪两部分:
a)数据清洗,包括异常数据检测、缺失数据填补两部分:
数据丢失可能是由于间歇性通信故障、监控设备停机、接触不良等造成的。极端的环境变化或紧急情况也可能导致数据丢失。缺失数据对预测精度影响很大,因此有必要对缺失数据进行补全。采用牛顿插值法对缺失数据进行补全:
f(tk)=f(tk-2)+f[tk-2,tk-1](tk-tk-2)+f[tk-2,tk-1,tk+1](tk-tk-2)(tk-tk-1)+
f[tk-2,tk-1,tk+1,tk+2](tk-tk-2)(tk-tk-1)(tk-tk+1)
其中,f(t)是数据在时刻t的值,tk是数据缺失的时刻,tk-2、tk-1、tk+1和tk+2是发生数据缺失的时刻附近的四个采样时间,f[t0,t1,…,tm]是f(t)的m阶差商。
数据异常可能是由于通信传输异常、突发事件、重大政治事件等原因造成的。异常数据对预测精度的影响也很大,因此在去噪前应先发现异常数据。通过横向和纵向对比的方法确定数据是否异常。如果
Figure BDA0003354971550000071
或者
Figure BDA0003354971550000072
其中,f(i,t)代表数据在第i天时刻t的值,
Figure BDA0003354971550000073
表示最近几日t时刻数据的平均值,
Figure BDA0003354971550000074
表示第i天t时刻前后数据的平均值,ε和σ是误差界限,则数据f(i,t)是异常数据。将异常数据视为缺失数据,按照填补缺失数据的方法修改异常数据。
b)小波阈值去噪
光伏发电功率数据与辐照度数据属于实测数据,在采集过程中不可避免会有噪声污染,从而导致信号波动大、毛刺较多。小波变换具有局部多分辨性、低熵性,因此采用小波软阈值去噪方法对数据进行平滑处理后再作为预测模型的输入。光伏功率和辐照度小波阈值去噪的具体步骤如下:
步骤1:利用小波函数对两信号进行三层小波分解,得到小波系数ωj,k,其中,j为离散小波变换频率,k为离散小波变换时变量;
步骤2:选定合适的阈值T,对各尺度小波系数采用软阈值函数,进行非线性阈值处理,得到估计小波系数
Figure BDA0003354971550000081
Figure BDA0003354971550000082
步骤3:基于各尺度估计小波系数
Figure BDA0003354971550000083
采用离散小波反变换,得到去噪之后的估计信号集合;
步骤4:进行过零处理。由于功率和辐照度不能为负,因此需要对步骤3得到的估计信号集进行过零处理,将负的部分替换为0。并得到最终可用的样本集
Figure BDA0003354971550000084
Figure BDA0003354971550000085
阈值去噪的优点是噪声几乎完全得到抑制,且反映原始信号的特征尖峰点得到很好的保留。用软阈值的方法去噪能够使估计信号实现最大均方误差最小化,即去噪后的估计信号是原始信号的近似最优估计;且估计信号至少和原始信号同样光滑而不会产生附加振荡。同时,上述的数据清洗避免了在信号不连续点处,去噪后可能出现的伪吉布斯现象。
3、特征参数表示及二次聚类
a)特征参数选取
辐照度特征表示:考虑时间序列数据的总体特征与离散特征,以辐照度最大值Smax、辐照度平均值Savg、辐照度方差Vg、辐照度三阶差分最大值TODmax、晴朗指数Kt、辐照度归一化离散差Ls为特征参数,各参数的具体表达式如下所示:
Figure BDA0003354971550000086
Figure BDA0003354971550000087
Figure BDA0003354971550000088
Figure BDA0003354971550000089
Figure BDA0003354971550000091
Figure BDA0003354971550000092
其中,ss,i是采样点的辐照度,N是一天的样本数,
Figure BDA0003354971550000093
是辐照度的三阶差分,s0,i是对应的地外辐照度理论计算值,并且s0,0=s0,N+1=0,ss,0=ss,N+1=0。
功率特征表示:选择光伏每日最大功率Pmax和光伏每日平均功率Pavg作为功率特征参数:
Figure BDA0003354971550000094
Figure BDA0003354971550000095
其中,pi是采样点的光伏功率,N是一天的样本数。
因此,相似日与待预测日的输入变量有8个特征参数X=[x1,x2,x3,x4,x5,x6,x7,x8],其中,x1~x6分别为提取的6个辐照度特征参数,x7~x8为提取的2个功率特征参数。输出Y为训练点的实际光伏发电功率数据。最终相似日样本集为{(Xi,Yi)|i=1,2,…N},N为相似日样本总数。
b)基于二次聚类的相似日选择
k-means聚类算法具有简单、容易理解、计算方便、速度快以及能够有效处理大型数据库的优点,然而k-means算法还有着如初始值对聚类结果影响较大、容易陷入局部最优、依赖经验判断最优类的个数以及对“噪音”和孤立点数据比较敏感等缺点。SOM神经网络是一个无监督的学习模式,能够将数据从高维空间映射到低维空间上,通过降维寻找多维数据的主要统计特征,并根据数据间的相似性自动将数据分成不同的类别,从而达到增强有用信息,降低噪声的影响。
为了获得更好的基于特征参数的聚类效果,将k-means聚类与SOM聚类相结合,进行二次聚类。首先,利用SOM聚类方法对聚类样本集进行初始聚类,得到聚类权值,然后将该权值作为K-means聚类的初始聚类中心进行二次聚类。提出的针对光伏发电预测相似日选择的具体步骤如下:
步骤1:选取待预测日的当年前三个月,前一年待预测日当月及前后各一个月的数据作为聚类样本集;
步骤2:计算每个样本用于聚类输入的特征数据(辐照度特征表示参数,共6个特征数据)及训练点前一日的日最高光伏发电功率、日平均光伏发电功率;
步骤3:确定聚类种类数目,进行SOM聚类,得到聚类权值;
步骤4:将步骤3中的聚类权值作为k-means的初始聚类中心,进行二次聚类,得到待预测日的相似日,保存相似日的辐照度数据、光伏发电功率数据。
4、多核函数组成
核函数法是支持向量机实现非线性分类和回归的重要方法。支持向量机最初是基于单核函数的。但当输入数据属于多源数据时,使用单核函数对所有数据进行相同的处理会导致准确性不足。目前最常见的单核函数有:线性核函数、多项式核函数、RBF核函数和S型核函数。
多核函数是由一组单核函数以某种方式组合形成的,多核支持向量机是用多核函数代替单核函数。由于每个样本含有8个特征参数,分别属于辐照度源与光伏发电数据源两种数据源,因此在线性核函数、多项式核函数、高斯核函数与Sigmoid核函数中两两选择,共6种多核函数组合。线性组合的多核函数的表达式为:
Figure BDA0003354971550000101
其中,λh∈[0,1]是核权重,m是单核函数的个数,Kh(x,y)是单核函数;
5、最优多核支持向量机预测光伏功率
基于l1范数的多核SVM模型如下所示:
Figure BDA0003354971550000102
Figure BDA0003354971550000103
Figure BDA0003354971550000104
Figure BDA0003354971550000105
λh≥0,h=1,2,...,m
||λh||1=1
其中,x为训练样本输入特征,y为训练样本的目标值,N为训练样本个数,m为多核函数所含单核函数的数量,C为惩罚因子,ε为精度,α、
Figure BDA0003354971550000106
为拉格朗日乘子;
采用双层多核学习算法来求解参数,多核SVM回归估计函数可表达如下:
Figure BDA0003354971550000107
其中,
Figure BDA0003354971550000111
Figure BDA0003354971550000112
是最优拉格朗日乘子,b是阈值参数。
选取平均绝对百分比误差(MAPE)和均方根误差(RMSE)作为光伏功率预测结果的评价指标:
Figure BDA0003354971550000113
Figure BDA0003354971550000114
利用权利要求5中的每种多核函数组合下的支持向量机进行光伏发电功率预测,得到预测结果,计算误差,从而得到最佳多核函数组合。根据选择的最优多核函数进行光伏功率预测,得到最优预测结果。基于数据挖掘和多核支持向量机的光伏功率预测具体过程如附图1所示。
下面结合一具体实例,对本发明上述的技术方案作进一步说明。
本具体实例的实验数据来自山东省的一个光伏电站。数据样本采集时间为2018年1月1日至2019年12月31日,每天采集27个样本点。该数据被用于预测2019年10月15日至17日这三天的光伏发电功率。
选取平均绝对百分比误差(MAPE)和均方根误差(RMSE)作为光伏功率预测结果的评价指标:
Figure BDA0003354971550000115
Figure BDA0003354971550000116
其中,Pi是实际值,Pi'是预测值,n是每天的预测样本点数;
利用去噪后的数据,分别基于单核支持向量机、多核支持向量机和BP神经网络对2019年10月15日至17日的光伏功率进行了预测。结果如图2和表1所示。由此可见,多核函数可以大大提高支持向量机的精度。此外,与BP神经网络相比,支持向量机在实际光伏功率较小的情况下具有更高的精度。
表1单核支持向量机、多核支持向量机与BP神经网络预测误差比较
Figure BDA0003354971550000117
采用六组多核函数对待预测日光伏功率进行预测,预测结果如图3和表2所示。由表2可知,线性+多项式多核函数的精度最高,是最优的多核函数。
表2不同多核函数预测误差的比较
Figure BDA0003354971550000121

Claims (6)

1.一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法,其特征在于,包括:
获取多源原始数据;
对所获取的原始数据进行数据预处理,得到各数据源对应的样本集;
基于生成的样本集,利用辐照度和功率的特征表示参数进行k-means与SOM结合的二次聚类选取历史相似日,组成相似日样本集;
利用相似日样本集,判断数据来源,在线性核函数、多项式核函数、高斯核函数与Sigmoid核函数中两两选择组成多核函数;
根据组成的多核函数,在每种多核函数组合下,利用多核支持向量机进行光伏发电功率预测,得到预测结果,计算误差,得到最佳多核函数组合与最佳预测结果。
2.根据权利要求1所述的基于数据挖掘和多核支持向量机的短期光伏功率预测方法,其特征在于,获取多源原始数据,是指获取光伏发电功率和辐照度的原始数据,获得方法是选取待预测日的当年前三个月,前一年待预测日当月及前后各一个月的光伏发电功率和辐照度作为原始数据。
3.根据权利要求1所述的短期光伏功率预测方法,其特征在于,对原始数据进行数据预处理,包括:
a)数据清洗:
①采用牛顿插值法对缺失数据进行补全:
f(tk)=f(tk-2)+f[tk-2,tk-1](tk-tk-2)+f[tk-2,tk-1,tk+1](tk-tk-2)(tk-tk-1)+f[tk-2,tk-1,tk+1,tk+2](tk-tk-2)(tk-tk-1)(tk-tk+1)
其中,f(t)是数据在时刻t的值,tk是数据缺失的时刻,tk-2、tk-1、tk+1和tk+2是发生数据缺失的时刻附近的四个采样时间,f[t0,t1,…,tm]是f(t)的m阶差商;
②异常数据判断:通过横向和纵向对比的方法确定数据是否异常:如果
Figure FDA0003354971540000011
或者
Figure FDA0003354971540000012
则数据f(i,t)是异常数据,将异常数据视为缺失数据,按照填补缺失数据的方法修改异常数据;其中,f(i,t)代表数据在第i天时刻t的值,
Figure FDA0003354971540000013
表示最近几日t时刻数据的平均值,
Figure FDA0003354971540000014
表示第i天t时刻前后数据的平均值,ε和σ是误差界限,
b)数据去噪:
①利用小波函数对光伏功率和辐照度进行三层小波分解,得到小波系数ωj,k,其中,j为离散小波变换频率,k为离散小波变换时变量;
②选定合适的阈值T,对各尺度小波系数采用软阈值函数,进行非线性阈值处理,得到估计小波系数
Figure FDA0003354971540000021
Figure FDA0003354971540000022
③基于各尺度估计小波系数
Figure FDA0003354971540000023
采用离散小波反变换,得到去噪之后的估计信号集合;
④过零处理:对步骤③得到的估计信号集合进行过零处理,将负的部分替换为0,得到最终可用的样本集
Figure FDA0003354971540000024
Figure FDA0003354971540000025
4.根据权利要求1所述的短期光伏功率预测方法,其特征在于,特征参数的选取及二次聚类的方法,具体步骤包括:
a)特征参数选取:
辐照度特征表示:考虑时间序列数据的总体特征与离散特征,以辐照度最大值Smax、辐照度平均值Savg、辐照度方差Vg、辐照度三阶差分最大值TODmax、晴朗指数Kt、辐照度归一化离散差Ls为特征参数,各参数表达式如下所示:
Figure FDA0003354971540000026
Figure FDA0003354971540000027
Figure FDA0003354971540000028
Figure FDA0003354971540000029
Figure FDA00033549715400000210
Figure FDA00033549715400000211
其中,ss,i是采样点的辐照度,N是一天的样本数,
Figure FDA00033549715400000212
是辐照度的三阶差分,s0,i是对应的地外辐照度理论计算值,并且s0,0=s0,N+1=0,ss,0=ss,N+1=0;
功率特征表示:选择光伏每日最大功率Pmax和光伏每日平均功率Pavg作为功率特征参数:
Figure FDA0003354971540000031
Figure FDA0003354971540000032
其中,pi是采样点的光伏功率,N是一天的样本数;
相似日与待预测日的输入变量有8个特征参数X=[x1,x2,x3,x4,x5,x6,x7,x8],其中,x1~x6分别为提取的6个辐照度特征参数,x7~x8为提取的2个功率特征参数。输出Y为训练点的实际光伏发电功率数据。最终相似日样本集为{(Xi,Yi)|i=1,2,…N},N为相似日样本总数。
b)基于二次聚类的相似日选择:
利用SOM聚类方法对聚类样本集进行初始聚类,得到聚类权值;
将该聚类权值作为K-means聚类的初始聚类中心进行二次聚类,得到二次聚类的光伏发电预测相似日,保存相似日的辐照度数据、光伏发电功率数据;
5.根据权利要求1所述的短期光伏功率预测方法,其特征在于,基于数据来源,判断多核函数组成形式,具体包括:
在线性核函数、多项式核函数、高斯核函数与Sigmoid核函数中两两选择,共6种多核函数组合,多核函数是由一组单核函数以某种方式组合形成的,多核支持向量机是用多核函数代替单核函数,线性组合的多核函数的表达式为:
Figure FDA0003354971540000033
其中,λh∈[0,1]是核权重,m是单核函数的个数,Kh(x,y)是单核函数。
6.根据权利要求1所述的短期光伏功率预测方法及权利要求5所述的多核函数组成形式,其特征在于,采用最优多核支持向量机预测光伏功率,包括:
基于l1范数的多核SVM模型如下所示:
Figure FDA0003354971540000041
Figure FDA0003354971540000042
Figure FDA0003354971540000043
λh≥0,h=1,2,...,m
||λh||1=1
其中,x为训练样本输入特征,y为训练样本的目标值,N为训练样本个数,m为多核函数所含单核函数数量,C为惩罚因子,ε为精度,α、
Figure FDA0003354971540000044
为拉格朗日乘子;
采用双层多核学习算法来求解参数,多核SVM回归估计函数可表达如下:
Figure FDA0003354971540000045
其中,
Figure FDA0003354971540000046
Figure FDA0003354971540000049
是最优拉格朗日乘子,b是阈值参数;
选取平均绝对百分比误差MAPE和均方根误差RMSE作为光伏功率预测结果的评价指标:
Figure FDA0003354971540000047
Figure FDA0003354971540000048
利用每种多核函数组合下的支持向量机进行光伏发电功率预测,得到预测结果,计算误差,从而得到最佳多核函数组合。根据选择的最优多核函数进行光伏功率预测,得到最优预测结果。
CN202111348117.5A 2021-11-15 2021-11-15 基于数据挖掘和多核支持向量机的短期光伏功率预测方法 Pending CN114154684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111348117.5A CN114154684A (zh) 2021-11-15 2021-11-15 基于数据挖掘和多核支持向量机的短期光伏功率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111348117.5A CN114154684A (zh) 2021-11-15 2021-11-15 基于数据挖掘和多核支持向量机的短期光伏功率预测方法

Publications (1)

Publication Number Publication Date
CN114154684A true CN114154684A (zh) 2022-03-08

Family

ID=80459925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111348117.5A Pending CN114154684A (zh) 2021-11-15 2021-11-15 基于数据挖掘和多核支持向量机的短期光伏功率预测方法

Country Status (1)

Country Link
CN (1) CN114154684A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001147A (zh) * 2022-08-02 2022-09-02 广东邦盛新能源科技发展有限公司 一种光伏发电数据采集方法、***及云平台
CN115859775A (zh) * 2022-11-07 2023-03-28 国网江苏省电力有限公司镇江供电分公司 一种面向光储虚拟电厂划分的典型日场景提取方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001147A (zh) * 2022-08-02 2022-09-02 广东邦盛新能源科技发展有限公司 一种光伏发电数据采集方法、***及云平台
CN115001147B (zh) * 2022-08-02 2022-11-08 广东邦盛新能源科技发展有限公司 一种光伏发电数据采集方法、***及云平台
CN115859775A (zh) * 2022-11-07 2023-03-28 国网江苏省电力有限公司镇江供电分公司 一种面向光储虚拟电厂划分的典型日场景提取方法及装置

Similar Documents

Publication Publication Date Title
Cali et al. Short-term wind power forecasting using long-short term memory based recurrent neural network model and variable selection
CN110909919A (zh) 融合注意力机制的深度神经网络模型的光伏功率预测方法
CN107194495B (zh) 一种基于历史数据挖掘的光伏功率纵向预测方法
CN114792156B (zh) 基于曲线特征指标聚类的光伏输出功率预测方法和***
CN110059891B (zh) 一种基于vmd-svm-wsa-gm组合模型的光伏电站输出功率预测方法
CN110929953A (zh) 基于聚类分析的光伏电站超短期出力预测方法
Xiong et al. A short-term wind power forecast method via xgboost hyper-parameters optimization
CN114154684A (zh) 基于数据挖掘和多核支持向量机的短期光伏功率预测方法
CN113822418A (zh) 一种风电场功率预测方法、***、设备和存储介质
CN113177366A (zh) 一种综合能源***规划方法、装置和终端设备
Mayer et al. Probabilistic modeling of future electricity systems with high renewable energy penetration using machine learning
CN112348287A (zh) 基于lstm分位数回归的电力***短期负荷概率密度预测方法
CN115660232A (zh) 风电功率的超短期预测方法、装置及***
CN117744916A (zh) 储能容量的预测方法、装置、计算机设备及可读存储介质
CN115860190A (zh) 负荷检测模型的训练、用电负荷的检测方法及相关装置
Luo et al. A multi-step prediction method for wind power based on improved TCN to correct cumulative error
CN113505909B (zh) 一种面向短期风电功率趋势预测的误差补偿方法
CN114676622A (zh) 基于自编码器深度学习模型的短期光伏功率预测方法
CN117592615A (zh) 一种基于iceemdan和集成lstm-tcn模型的短期电力负荷预测方法
Li et al. Deep learning model for short-term photovoltaic power forecasting based on variational mode decomposition and similar day clustering
Yang et al. Day‐ahead wind power combination forecasting based on corrected numerical weather prediction and entropy method
Wang et al. Multiscale prediction of wind speed and output power for the wind farm
Dehghan et al. Photovoltaic Power Forecasting With an Ensemble Multi-Input Deep Learning Approach
CN116128211A (zh) 基于风光不确定性预报场景的风光水联合短期优化调度方法
CN113779861B (zh) 光伏功率的预测方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Sun Fengjie

Inventor after: Ao Ao Yang

Inventor after: Zhou Shengqi

Inventor after: Liu Hongbo

Inventor after: Zhang Zijin

Inventor after: Dong Wenyan

Inventor before: Sun Fengjie

Inventor before: Ao Ao Yang

Inventor before: Zhou Shengqi

Inventor before: Liu Hongbo

Inventor before: Zhang Ziguan

Inventor before: Dong Wenyan