CN117439053A - 一种Stacking集成模型电量预测方法、装置、存储介质 - Google Patents

一种Stacking集成模型电量预测方法、装置、存储介质 Download PDF

Info

Publication number
CN117439053A
CN117439053A CN202311328852.9A CN202311328852A CN117439053A CN 117439053 A CN117439053 A CN 117439053A CN 202311328852 A CN202311328852 A CN 202311328852A CN 117439053 A CN117439053 A CN 117439053A
Authority
CN
China
Prior art keywords
combination
optimal
electric quantity
prediction
base learner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311328852.9A
Other languages
English (en)
Inventor
丁一
刘念
魏立勇
史佳琪
王恩
李欣芝
庞超
高齐
赵晨阳
尚学军
徐科
吴磊
陈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
North China Electric Power University
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
North China Electric Power University
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, North China Electric Power University, Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202311328852.9A priority Critical patent/CN117439053A/zh
Publication of CN117439053A publication Critical patent/CN117439053A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/003Load forecast, e.g. methods or systems for forecasting future load demand
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Power Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法,包括以下步骤:基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合;在选出的最优特征组合的基础上,利用鲸鱼优化算法选择堆叠方法Stacking中的最优基学习器组合;基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测。本发明能够解决模型泛化性能差、忽视特征组合对预测的影响、集成算法中基学习器选择形式单一的技术问题。

Description

一种Stacking集成模型电量预测方法、装置、存储介质
技术领域
本发明属于电量预测技术领域,涉及一种Stacking集成模型电量预测方法及装置,尤其是一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法及装置。
背景技术
随着全球经济的发展和人口的增长,能源消耗已然成为一个全球性的问题,特别是电能在工业、商业和居民生活方面占据了重要地位,电量消耗庞大。引导电量消耗,促进能源的高效利用和可持续发展,也是我国电力市场改革目标之一。在电力市场改革的背景下,电量预测成为了一个关键的技术和工具,通过对电力需求的准确预测,电力公司可以更好地调配资源和规划供应,以满足不同时间段和地区的需求,提高发电计划的合理性。此外,电量预测也有助于优化能源消耗和降低碳排放,从而实现可持续发展的目标。
电量预测方法可主要分为3大类:经典预测方法、传统预测技术、现代新型预测技术。经典预测方法是依靠的工作经验或简单的数学推理来对未来电量值做简单的数学的推论,缺乏数学理论支持,预测精度较差。传统预测方法的数学模型较为完整,用各种指标来衡量所搭建的模型与电量历史数据的吻合程度,具有完善的参数估计和误差检验算法。现代新型预测技术是随着数学理论的不断更新、数据挖掘技术的发展,利用机器学习和深度学习等方法进行预测,预测精度大幅提高。其中,机器学习模型是通过学习历史数据中的模式和规律,以预测未来的电量需求。常用的机器学习模型包括支持向量机(SVM)、决策树(Decision Tree)、随机森林(Random Forest)等;深度学习模型是一种基于神经网络的机器学习方法,能够处理复杂的非线性关系和大规模数据。深度学习模型在电量预测中表现出色,常用的模型包括长短期记忆网络(LSTM)和卷积神经网络(CNN)等。但这些算法都是单一模型预测,每种算法挖掘电量基础数据的特点不同,单一模型预测受电量预测的随机性的影响泛化能力较差,对影响电量的特征挖掘深度不够。对特征工程而言,较多研究单一特征对模型的贡献度,没有考虑不同特征组合对模型预测的影响,忽视不同特征之间的影响。近年来Stacking集成预测模型逐步发展,预测效果得到一定的提升,但选择基学习器类别较少,且组合选择原理简单、形式单一,在最终预测模型搭建前没有明确的依据选择基学习器组合,因此会导致过拟合现象的发生,预测的精度提升效果不明显。
经检索,未发现与本发明相同或相似的现有技术的专利文献。
发明内容
本发明的目的在于克服现有技术的不足,一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法及装置,能够解决模型泛化性能差、忽视特征组合对预测的影响、集成算法中基学习器选择形式单一的技术问题。
本发明解决其现实问题是采取以下技术方案实现的:
一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法,包括以下步骤:
基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合;
在选出的最优特征组合的基础上,利用鲸鱼优化算法选择堆叠方法Stacking中的最优基学习器组合;
基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测。
而且,所述基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合的具体步骤包括:
根据人工经验先选择影响电量的特征,包括电量信息、电价信息、日历信息和天气信息;
其中,电量信息包括历史时段的电量数据和历史时段中电量最大值、最小值、波动值数据;电价信息包括日前市场电价和实时市场电价;日历信息包括小时、星期、月份、季度、天数、周数和节假日数据;天气信息包括温度、湿度、降雨量、辐射、风速数据;
根据人工经验所选取的各个特征,计算皮尔逊相关性指数、互信息熵、斯皮尔曼相关性指数以及三者融合相关性指标,分析各个特征与电量之间的相关性,按相关性将各特征排序,删除相关性指标中极小且趋于0的特征;
依据排序后的特征,指定不同的提取特征标准,将满足标准的特征聚合;根据不同的提取标准组成多种特征组合,训练并测试当前特征组合下SVM模型预测效果,评估预测性能,为Stacking集成预测模型的基学习器选择和构建筛选效果最优的特征组合。
而且,所述在选出的最优特征组合的基础上,利用鲸鱼优化算法选择堆叠方法Stacking中的最优基学习器组合的具体步骤包括:
选择五类不同类别算法组成基学习器库,包括基于树算法、支持向量机、近邻算法、回归分析和神经网络,利用算法不同的原理从不同的角度观测数据空间与结构;
利用鲸鱼优化算法从基学习器库中选择最优基学习器组合,每次鲸鱼算法的迭代过程中选取一个基学习器组合,并将当前基学习器组合输入Stacking集成预测模型,以此为Stacking集成预测的第一层模型预测,以最后的预测误差做为适应度,多次迭代后选取最低适应度值对应的基学习器组合为最优基学习器组合。
而且,所述利用鲸鱼优化算法从基学习器库中选择最优基学习器组合的方法为:
首先在已建成的基学习器库中初始化基学习器组合,根据初始基学习器组合搭建Stacking集成预测模型,计算当前适应度值做为初始最优适应度值;然后利用交叉变异操作更新基学习器组合,建立新的Stacking模型,并计算新基学习器组合下适应度值,与最优适应度值比较,若当前适应度值小于最优适应度值,则更新当前基学习器组合为最优基学习器组合,当前适应度值为最优适应度值,否则保留原来最优组合和适应度,一直迭代计算;最后,达到迭代条件时终止,输出最后的全局最优基学习器组合。
而且,所述基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测的具体方法为:
基于选出的最优特征组合和鲸鱼优化算法选出的最优基学习器组合,完成最优基学习器组合的Stacking集成模型构建,并实现电量预测;首先按照鲸鱼优化算法选出的最优基学习器的个数,划分电量数据和筛选后的特征数据,将划分后的数据分别输入选择后的基学习器进行第一层预测,然后将第一层预测结果汇总输入第二层预测模型,得到最终预测结果,由此完成预测。
一种基于鲸鱼优化算法改进的Stacking集成模型电量预测装置,包括:
特征筛选模块,基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合;
Stacking基学习器组合选择模块,在选出的最优特征组合的基础上,利用鲸鱼优化算法选择堆叠方法Stacking中的最优基学习器组合;
电量预测模块,基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测。
而且,所述特征筛选模块还包括:
人工经验选择特征模块,根据人工经验先选择影响电量的特征,包括电量信息、电价信息、日历信息和天气信息;
其中,电量信息包括历史时段的电量数据和历史时段中电量最大值、最小值、波动值数据;电价信息包括日前市场电价和实时市场电价;日历信息包括小时、星期、月份、季度、天数、周数和节假日数据;天气信息包括温度、湿度、降雨量、辐射、风速数据;
相关性计算模块,根据人工经验所选取的各个特征,计算皮尔逊相关性指数、互信息熵、斯皮尔曼相关性指数以及三者融合相关性指标,分析各个特征与电量之间的相关性,按相关性将各特征排序,删除相关性指标中极小且趋于0的特征;
最优特征组合选择模块,依据排序后的特征,指定不同的提取特征标准,将满足标准的特征聚合;根据不同的提取标准组成多种特征组合,训练并测试当前特征组合下SVM模型预测效果,评估预测性能,为Stacking集成预测模型的基学习器选择和构建筛选效果最优的特征组合。
而且,所述Stacking基学习器组合选择模块还包括:
基学习器库组成模块,选择五类不同类别算法组成基学习器库,包括基于树算法、支持向量机、近邻算法、回归分析和神经网络,利用算法不同的原理从不同的角度观测数据空间与结构;
最优基学习器组合选择模块,利用鲸鱼优化算法从基学习器库中选择最优基学习器组合,每次鲸鱼算法的迭代过程中选取一个基学习器组合,并将当前基学习器组合输入Stacking集成预测模型,以此为Stacking集成预测的第一层模型预测,以最后的预测误差做为适应度,多次迭代后选取最低适应度值对应的基学习器组合为最优基学习器组合。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的电量预测方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的电量预测方法的步骤。
本发明的优点和有益效果:
1、本发明提出了一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法及装置,为解决单一模型泛化能力较差的问题,本发明采用多模型融合Stacking集成算法,有益效果是选取多类别基础算法集成预测,实现不同类别算法之间的取长补短,从不同角度观测数据,提升预测性能。
2、本发明提出了一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法及装置,为避免不同特征之间的相互影响,本发明基于SVM算法和多相关性指标融合进行特征筛选,利用多种指标从不同的角度探索特征与电量之间相关性,以特征组合的形式选择考虑特征内部相互影响,利用SVM算法选择为特征组合的选择提供理论依据,提升特征选择的质量。
3、本发明提出了一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法及装置,为解决集成算法种基学习器选择形式单一的缺点,本发明提出基于鲸鱼算法的Stacking基学习器组合选择方法,与现有的根据模型相关性指标选择相比,本发明提升了基学习器选择的速率和效果,并为基学习器选择提供理论依据,同时避免过多基学习器导致的过拟合现象。
附图说明
图1为本发明的基于鲸鱼优化算法改进的Stacking集成模型电量预测方法处理流程图;
图2是本发明的基于SVM算法和多相关性融合指标特征筛选流程图。
图3是本发明的最优特征组合和最优基学习器组合下Stacking集成模型电量预测流程图(以3个基学习器为例)。
具体实施方式
以下结合附图对本发明实施例作进一步详述:
一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法,包含基于SVM算法和多相关性融合指标特征筛选,利用鲸鱼优化算法的Stacking基学习器组合选择,最终实现最优特征组合和最优基学习器组合下Stacking集成模型电量预测。
如图1所示,包括以下步骤:
基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合;
如图2所示,所述基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合的具体步骤包括:
首先进行特征筛选,根据人工经验先选择影响电量的特征包括电量信息、电价信息、日历信息和天气信息;
其中,电量信息包括历史时段的电量数据和历史时段中电量最大值、最小值、波动值数据,电价信息包括日前市场电价和实时市场电价,日历信息包括小时、星期、月份、季度、天数、周数和节假日等数据,天气信息包括温度、湿度、降雨量、辐射、风速数据;
根据人工经验所选取的各个特征,计算皮尔逊相关性指数、互信息熵、斯皮尔曼相关性指数以及三者融合相关性指标,分析各个特征与电量之间的相关性,按相关性将各特征排序,删除相关性指标中极小且趋于0的特征;
依据排序后的特征,指定不同的提取特征标准,将满足标准的特征聚合。根据不同的提取标准组成多种特征组合,训练并测试当前特征组合下SVM模型预测效果,评估预测性能,为选择预测效果最优的特征组合。
在本实施例中,所述基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合的工作原理为:
(1)相关性指标
1)皮尔逊相关性指数
皮尔逊相关性指数是一种衡量两个数据之间相关性强弱的统计学方法,可以有效反映两个数据之间波形相似度,评估多个特征与电量之间的冲突性。计算公式如下:
式中,X表示电量数据;Y表示某一个特征变量;E表示数学期望;cov表示二者协方差;N表示变量个数。
皮尔逊相关性指数的计算结果在[-1,1]内,其值越接近1表示特征与电量数据之间正相关性越强,越接近-1表示特征与电量数据之间负相关性越强,接近0表示特征与电量数据之间相关性越弱。
2)互信息熵
特征与电量之间互信息熵是衡量两者之间的不确定性,表示两者之间所共有的信息含量。计算公式如下:
式中,I(Z,Y)表示互信息熵;Z表示特征变量;Y表示电量数据;p(z,Y)表示联合概率分布;p(z)和p(Y)表示边缘分布。
特征和电量之间的互信息值越小,说明该特征与电量之间相关性越小,两者之间不存在相同信息,相反则相关性越高,两者之间依赖程度越大。
3)斯皮尔曼相关性指数
斯皮尔曼相关性指数是一种具有非参数性质的等级统计指标,考察特征与电量数据之间单调关系的强度,可以度量两者在变大变小趋势上的一致性。计算公式如下:
式中,r为相关系数;n为原始数据集的个数,有n组数据(xi,yi)(i=1,2,…,n);di为第i对样本的等级差。
斯皮尔曼相关性指数取值范围在-1到1之间,若指数为正,则电量随特征数值的增大而增大,若为负则电量随特征数值的增大而增大,为0时表示电量与该特征在变大变小的趋势上没有关系。
4)融合相关性指标
本发明采取均值算法做为融合三个相关性指标的方法计算每个特征的总指标系数。计算公式如下:
式中,Wi表示某一特征的融合相关性指标;为某一特征皮尔逊相关性指数值;为某一特征互信息熵值;ri为某一特征斯皮尔曼相关性指数值;n为指标个数,本发明中n=3。
(2)SVM模型
SVM按照监督类学习方式运行,对数据进行二分类,对于特征数据而言SVM采用类似于过度边界的方式,使得泛化性能更好,在特征数据的敏感度方面有更好的表现效果。
基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合;
所述基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合的具体步骤包括:
首先建立基学习器库:选择五类不同类别算法组成基学习器库,包括基于树算法、支持向量机、近邻算法、回归分析和神经网络,利用不同算法的原理从不同的角度对数据空间与结构进行观测;
利用鲸鱼优化算法从基学习器库中选择最优基学习器组合,每次鲸鱼算法的迭代过程中选取一个基学习器组合,并以当前基学习器组合为第一层模型构建Stacking集成预测模型,以预测的最后误差做为适应度,多次迭代后选取最低适应度值对应的基学习器组合为最优基学习器组合。
所述利用鲸鱼优化算法从基学习器库中选择最优基学习器组合的方法为:
首先在已建成的基学习器库中初始化基学习器组合,根据初始基学习器组合搭建Stacking集成预测模型,计算当前适应度值做为初始最优适应度值;然后利用交叉变异操作更新基学习器组合,建立新的Stacking模型,并计算新基学习器组合下适应度值,与最优适应度值比较,若当前适应度值小于最优适应度值,则更新当前基学习器组合为最优基学习器组合,当前适应度值为最优适应度值,否则保留原来最优组合和适应度,一直迭代计算;最后,达到迭代条件时终止,输出最后的全局最优基学习器组合。
所述基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合的工作原理是:
(1)基学习器库
Stacking集成模型中第一层模型基学习器的选择直接关系到最终的预测准确性,因为每一个基学习器都会对输入的数据集输出一个预测结果,合成新数据集后输入第二层进行预测,因此在Stacking的预测过程中每一个基学习器都发挥了单独预测的作用,间接的参与到最终电量预测中。不同的算法可以从不同的角度对数据空间与结构进行观测,使得不同算法取长补短,从而实现预测效果的提升。本发明选择的基学习器库包括基于树算法、支持向量机、近邻算法、回归分析和神经网络五类不同类别算法,充分融合了不同类别基学习器的优势和预测性能。
1)基于树算法
基于树算法包括随机森林(Random Forest,RF)、梯度提升树(Gradient BoostingTrees,GBDT)、LightGBM和XGBoost四种模型。
随机森林是一种监督式学习算法,采用Bagging集成学习的方式,减少决策树由于过度拟合数据而导致的过拟合,从而提高模型的性能。随机森林工作主要分为三步骤,即随机采样、随机选特征和多数表决。当训练数据被输入模型时,随机森林采用不同的子集和特征属性建立多个小的决策树,然后对多个决策树的结果进行组合,将它们合并成一个更强大的模型,该算法学习过程很迅速的同时,学习能力也较高。
梯度提升树采用Boosting的集成学习方式,但与传统Boosting不同之处在于其每一次计算都沿着残差减少的梯度方向建立模型,以消除残差。GBDT的核心思想是利用损失函数的负梯度在当前模型的值作为残差的一个近似值,进行拟合回归树。损失函数的负梯度可表示为:
LightGBM采用完全贪心的树生长策略和基于直方图的内存和计算优化,多项实验表明LightGBM要比现有其他的梯度提升树的实现快几倍,尤其在海量数据处理方面具有突出的效果。其主要包括直方图算法、GOSS算法、EFB算法和深度限制的叶子生长策略等对模型进行优化。
XGBoost在各种领域内得到了广泛应用,是一种性能优异且用途广泛的工具,是从梯度提升树模型改进和扩展而来,具有较强的泛化能力。XGBoost在目标函数中引入了一个正则化项来防止过拟合,与GBDT不同的是其使用的是二阶泰勒展开目标函数。其关键的模型损失函数包含两部分:
式中,第一部分为预测值和目标真实值之间的训练误差;第二部分为树的复杂度之和,是用于控制模型的复杂度的正则项;γ和λ表示对模型的惩罚系数。
2)支持向量机
支持向量机是一种有监督的二元分类方法,主要思想是寻找最大间隔超平面,增加模型的泛化能力。由于超平面由少量支持向量决定,使得支持向量机在解决小样本、非线性及高维度的回归问题方面具有极大的优势。
支持向量机基于给定的数据,在线性范围内搜寻特征空间的分割超平面,比较之后保留最优超平面,以达到全局最优效果。超平面的数学表达式可用下式表示:
g(x)=wTx+b=0 (15)
式中,w为系数;b为截距。
进一步计算每个点到达分类超平面的距离,设定数据集中的一个点O(x1,x2,…,xi,…,xN),其中xi为第i个变量,N表示维度。计算距离公式如下:
式中,X为(x1,x2,…,xi,…,xN)T;b为超平面公式中的截距;||w||为超平面的范数;d表示直线距离。
最终通过应用拉格朗日乘子法将所建立的目标函数转换为对偶问题,采用序列最小化算法求解,即确定问题的决策超平面。其中,目标函数如下式所示:
式中,y为数据点的标签,可以取1或-1。当样本点相对于平面在正方向,y取1,相反y取-1,从而保证距离值为正。
3)近邻算法
近邻算法主要为k-近邻算法,其是最简单的分类器,没有显式的学习过程或训练过程,适用于只有很少或者没有任何先验知识的数据。工作原理为扫描训练样本集,找到与测试样本最相似的训练样本,根据相似样本的类别进行投票确定测试样本的类别。实现流程为:计算已知类别数据集中的点与当前点之间的距离;按距离递增次序排序;选取与当前点距离最小的k个点;统计前k个点所在的类别出现的频率;返回前k个点出现频率最高的类别作为当前点的预测分类。整个流程中最重要的是k值的选择、距离度量和分类决策规则,当这三个要素确定后,对于任何一个新的输入实例,它所属的类唯一地确定。
4)回归分析
回归分析包括了线性回归模型和逻辑回归模型。其中,线性回归是对一个或多个独立变量和因变量之间关系进行建模的一种分析方式。设独立变量为X,因变量为Y,则对于每个确定的X值,Y都有它的分布。线性回归的通用公式为:
h(w)=w1x1+w2x2+w3x3…+b=wTx+b (18)
逻辑回归的计算过程与线性回归类似,通过给定的训练集来训练模型,并在训练结束后对给定的测试集进行分类。因为逻辑回归不用事先假设数据分布,有效避免了假设分布不准确所带来的问题,并且计算代价不高,容易理解实现。对于传统的线性回归而言,函数图像类似于一条斜线,目标值无法达到想要的0或1取值,逻辑回归引入了Sigmoid函数以达到该目标。简单线性模型与Sigmoid函数如下:
z=wTx+b (19)
如公式(19)和(20)所示,依次搭建线性模型和Sigmoid函数便将取值控制在了0或1上,初步达成了目标。之后通过条件概率和极大似然估计可求解出w值,完成模型训练。
5)神经网络
神经网络是一种模拟人脑的神经网络的人工智能的机器学习技术,本发明将长短记忆网络(Long Short Term Memory,LSTM)做为基学习器中的一种模型。LSTM神经网络是应用广泛的深度学习算法,一般由输入层、输出层和隐藏层堆叠组成,在一定程度上克服了长期依赖的问题,有效解决梯度消失问题,极大提升控制存储状态方面的能力。
神经网络模型中的细胞元组具有一定的记忆功能,在t时刻的状态记为ct。输入门、遗忘门和输出门的作用是接收信息状态,其中包括当前状态xt、上一时刻元组的状态ht-1和记忆单元的状态ct-1,并通过内部计算判断是否激活该细胞元组。信号在输入门中经过非线性函数变化,在遗忘门中形成新的记忆单元状态ct,最终由输出门形成LSTM单元的输出ht。各状态之间的计算公式如下:
it=sigmoid[Whi×ht-1+Wxi×xt+Wci×ct-1+bi] (21)
ft=sigmoid[Whf×ht-1+Wxf×xt+Wcf×ct-1+bf] (22)
ot=sigmoid[Who×ht-1+Wxo×xt+Wco×ct+bo] (23)
ct=ftct-1+tttanh[Whg×ht-1+Wxg×xt+bc] (24)
ht=ottanh[ct] (25)
式中,xt对应的权重系数分别为Wxc、Wxi、Wxf、Wxo;ht对应的权重系数分别为Whc、Whi、Whf、Who;ct对应的权值系数分别为Wci、Wcf、Wco;偏置向量分别为bi、bc、bf、bo
(2)鲸鱼优化算法
鲸鱼优化方法于2016年由Seyedali Mirjalili教授提出,是一种元启发式优化算法,模拟座头鲸狩猎行为的优化算法。由于其采用随机或最佳搜索代理来模拟捕猎行为,并使用螺旋来模拟座头鲸的泡泡网攻击机制,与其他优化算法相比原理简单、参数少、精度和速度都大大提高。其优化思路是先在全局解空间中搜索,确定解的范围后所有鲸鱼采取包围策略,使用螺旋气泡方式寻找猎物即寻优。为实现充分搜索,根据鲸鱼彼此之间的距离来更新位置。
搜索猎物的行为用公式表示如下:
D=∣C·X*(t)-X(t)∣ (7)
x(t+1)=x*(t)-A·D (8)
式中,t表示当前迭代次数;A和C是系数向量;X*(t)是目前得到的最佳解的位置向量;X(t)向量是位置向量;·表示逐元素相乘。
A和C计算公式如下:
A=4(1-t/tmax)Xr1-2(1-1t/tmax) (9)
C=2·r2 (10)
式中,r1和r2是[0,1]中的随机向量;t为当前迭代次数;tmax为最大迭代次数。
气泡网捕食猎物的行为可用如下对数螺旋公式表示:
x(t+1)=D′×ebl×cos(2πl)+X*(t) (11)
D′=∣X*(t)-X(t)∣ (12)
式中,D'是当前搜索个体与当前最优解的距离;B是螺旋形状参数;l是[-1,1]中随机数。
鲸鱼优化算法的流程如下:
1)设置鲸鱼数量N和最大迭代次数tmax,初始化位置信息;
2)根据计算得到的适应度,找到并保留最优鲸鱼位置;
3)计算系数向量A、C,采用气泡网捕食机制。判断系数向量A的绝对值是否小于1,是则包围猎物,否则继续迭代搜寻猎物;
4)新鲸鱼适应度与先前最优鲸鱼的位置比较,若优于,则利用新的最优解替换;
5)若达到迭代结束条件,获取最优解,计算结束,否则返回步骤3。
(3)适应度
鲸鱼优化算法中适应度函数的选择至关重要,直接关系到鲸鱼优化算法的结果,对最优基学习器的选择起到决定性作用。本发明中以指定的基学习器组合建立Stacking集成预测模型,完成模型的训练后,将测试集的预测相对均方误差做为适应度值,以此为依据选择最优基学习器组合。适应度函数如下:
式中,n为测试集样本个数;x(i)为测试集实际值;y(i)为Stacking集成预测模型最终预测值。
基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测。
如图3所示,所述基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测的具体方法为:
基于步骤1所选择的最优特征组合和步骤2的最优基学习器组合,完成Stacking集成模型电量预测。首先按照步骤二最优基学习器的个数,划分电量数据和步骤一筛选的特征数据,将划分后的数据分别输入选择后的基学习器进行第一层预测,然后将第一层预测结果汇总输入第二层预测模型,得到最终预测结果,由此完成预测。
所述基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测的工作原理为:
(1)Stacking模型介绍
Stacking的集成学习是一种机器学习技术,通过模型对原数据拟合的堆叠进行建模,将多个基础模型组合成一个更强大的模型来进行预测。首先通过基学习器对划分后的原数据进行输出,然后将输出按照一定方式进行堆叠,构成与原数据集规模相同的新数据,最后将新的样本数据交给第二层模型进行拟合,输出预测结果。
Stacking集成模型使用多种基学习器模型进行训练,能够自动融合不同模型的优点,大大提升了模型的泛化能力和预测性能。此外,交叉验证的方法实现Stacking预测过程有效避免了过拟合的过程,诸多实例表明Stacking预测的准确度优于其他单一模型预测。
(2)最优基学习器组合下Stacking集成模型电量预测伪代码
输入:数据集S={(yn,xn),n=1,…,N}
输出:Stacking集成学习模型
(1)将数据划分成K个大小基本相等的子集S1,S2,…,Sk,其中S-k=S-Sk。其中,K为鲸鱼优化算法所选择基学习器的个数。
(2)对鲸鱼优化算法选择的最优基学习器组合进行训练
for k=1to K
基于数据集S-k训练第一层的基学习器Lk
end
(3)构成新数据集
Snew={(yn,z1n,…,zkn),n=1,…,N}
(4)基于Snew对第二层预测模型进行Lnew训练,开展电量预测。
一种基于鲸鱼优化算法改进的Stacking集成模型电量预测装置,包括:
特征筛选模块,基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合;
Stacking基学习器组合选择模块,在选出的最优特征组合的基础上,利用鲸鱼优化算法选择堆叠方法Stacking中的最优基学习器组合;
电量预测模块,基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测。
所述特征筛选模块还包括:
人工经验选择特征模块,根据人工经验先选择影响电量的特征,包括电量信息、电价信息、日历信息和天气信息;
其中,电量信息包括历史时段的电量数据和历史时段中电量最大值、最小值、波动值数据;电价信息包括日前市场电价和实时市场电价;日历信息包括小时、星期、月份、季度、天数、周数和节假日数据;天气信息包括温度、湿度、降雨量、辐射、风速数据;
相关性计算模块,根据人工经验所选取的各个特征,计算皮尔逊相关性指数、互信息熵、斯皮尔曼相关性指数以及三者融合相关性指标,分析各个特征与电量之间的相关性,按相关性将各特征排序,删除相关性指标中极小且趋于0的特征;
最优特征组合选择模块,依据排序后的特征,指定不同的提取特征标准,将满足标准的特征聚合;根据不同的提取标准组成多种特征组合,训练并测试当前特征组合下SVM模型预测效果,评估预测性能,为Stacking集成预测模型的基学习器选择和构建筛选效果最优的特征组合。
所述Stacking基学习器组合选择模块还包括:
基学习器库组成模块,选择五类不同类别算法组成基学习器库,包括基于树算法、支持向量机、近邻算法、回归分析和神经网络,利用算法不同的原理从不同的角度观测数据空间与结构;
最优基学习器组合选择模块,利用鲸鱼优化算法从基学习器库中选择最优基学习器组合,每次鲸鱼算法的迭代过程中选取一个基学习器组合,并将当前基学习器组合输入Stacking集成预测模型,以此为Stacking集成预测的第一层模型预测,以最后的预测误差做为适应度,多次迭代后选取最低适应度值对应的基学习器组合为最优基学习器组合。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的电量预测方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的电量预测方法的步骤。
从整个电量预测中可看到,鲸鱼算法所筛选的最优基学习器组合在预测过程中发挥关键性作用。对于基学习器的选择而言,既要分析每个基模型的单独预测能力,同时也要综合比较各个基模型的组合效果。在基学习器库的选择中将单独预测能力优异的模型选择在内保证了单个基学习器的质量。鲸鱼算法就是综合比较不同组合形式的效果,由于选择相同类别的基学习器原理相似,可能出现过度挖掘数据问题,导致过拟合现象,而减少基学习器的选择有可能会忽视到部分数据特征,无法达到较高的预测精度,鲸鱼算法通过计算不同基学习器组合下Stacking电量预测结果的RMSE做为适应度值,根据适应度值选择最优组合,并将最优结果传到Stacking预测模型中,有效避免了过拟合和欠拟合现象的发生。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法,其特征在于:包括以下步骤:
基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合;
在选出的最优特征组合的基础上,利用鲸鱼优化算法选择堆叠方法Stacking中的最优基学习器组合;
基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测。
2.根据权利要求1所述的一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法,其特征在于:所述基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合的具体步骤包括:
根据人工经验先选择影响电量的特征,包括电量信息、电价信息、日历信息和天气信息;
其中,电量信息包括历史时段的电量数据和历史时段中电量最大值、最小值、波动值数据;电价信息包括日前市场电价和实时市场电价;日历信息包括小时、星期、月份、季度、天数、周数和节假日数据;天气信息包括温度、湿度、降雨量、辐射、风速数据;
根据人工经验所选取的各个特征,计算皮尔逊相关性指数、互信息熵、斯皮尔曼相关性指数以及三者融合相关性指标,分析各个特征与电量之间的相关性,按相关性将各特征排序,删除相关性指标中极小且趋于0的特征;
依据排序后的特征,指定不同的提取特征标准,将满足标准的特征聚合;根据不同的提取标准组成多种特征组合,训练并测试当前特征组合下SVM模型预测效果,评估预测性能,为Stacking集成预测模型的基学习器选择和构建筛选效果最优的特征组合。
3.根据权利要求1所述的一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法,其特征在于:所述在选出的最优特征组合的基础上,利用鲸鱼优化算法选择堆叠方法Stacking中的最优基学习器组合的具体步骤包括:
选择五类不同类别算法组成基学习器库,包括基于树算法、支持向量机、近邻算法、回归分析和神经网络,利用算法不同的原理从不同的角度观测数据空间与结构;
利用鲸鱼优化算法从基学习器库中选择最优基学习器组合,每次鲸鱼算法的迭代过程中选取一个基学习器组合,并将当前基学习器组合输入Stacking集成预测模型,以此为Stacking集成预测的第一层模型预测,以最后的预测误差做为适应度,多次迭代后选取最低适应度值对应的基学习器组合为最优基学习器组合。
4.根据权利要求3所述的一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法,其特征在于:所述利用鲸鱼优化算法从基学习器库中选择最优基学习器组合的方法为:
首先在已建成的基学习器库中初始化基学习器组合,根据初始基学习器组合搭建Stacking集成预测模型,计算当前适应度值做为初始最优适应度值;然后利用交叉变异操作更新基学习器组合,建立新的Stacking模型,并计算新基学习器组合下适应度值,与最优适应度值比较,若当前适应度值小于最优适应度值,则更新当前基学习器组合为最优基学习器组合,当前适应度值为最优适应度值,否则保留原来最优组合和适应度,一直迭代计算;最后,达到迭代条件时终止,输出最后的全局最优基学习器组合。
5.根据权利要求1所述的一种基于鲸鱼优化算法改进的Stacking集成模型电量预测方法,其特征在于:所述基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测的具体方法为:
基于选出的最优特征组合和鲸鱼优化算法选出的最优基学习器组合,完成最优基学习器组合的Stacking集成模型构建,并实现电量预测;首先按照鲸鱼优化算法选出的最优基学习器的个数,划分电量数据和筛选后的特征数据,将划分后的数据分别输入选择后的基学习器进行第一层预测,然后将第一层预测结果汇总输入第二层预测模型,得到最终预测结果,由此完成预测。
6.一种基于鲸鱼优化算法改进的Stacking集成模型电量预测装置,其特征在于:包括:
特征筛选模块,基于支持向量机SVM算法和多相关性融合指标筛选特征,获得最优特征组合;
Stacking基学习器组合选择模块,在选出的最优特征组合的基础上,利用鲸鱼优化算法选择堆叠方法Stacking中的最优基学习器组合;
电量预测模块,基于选出的最优特征组合和鲸鱼优化算法选择的最优基学习器组合,构建堆叠方法Stacking集成模型进行电量预测。
7.根据权利要求6所述的一种基于鲸鱼优化算法改进的Stacking集成模型电量预测装置,其特征在于:所述特征筛选模块还包括:
人工经验选择特征模块,根据人工经验先选择影响电量的特征,包括电量信息、电价信息、日历信息和天气信息;
其中,电量信息包括历史时段的电量数据和历史时段中电量最大值、最小值、波动值数据;电价信息包括日前市场电价和实时市场电价;日历信息包括小时、星期、月份、季度、天数、周数和节假日数据;天气信息包括温度、湿度、降雨量、辐射、风速数据;
相关性计算模块,根据人工经验所选取的各个特征,计算皮尔逊相关性指数、互信息熵、斯皮尔曼相关性指数以及三者融合相关性指标,分析各个特征与电量之间的相关性,按相关性将各特征排序,删除相关性指标中极小且趋于0的特征;
最优特征组合选择模块,依据排序后的特征,指定不同的提取特征标准,将满足标准的特征聚合;根据不同的提取标准组成多种特征组合,训练并测试当前特征组合下SVM模型预测效果,评估预测性能,为Stacking集成预测模型的基学习器选择和构建筛选效果最优的特征组合。
8.根据权利要求6所述的一种基于鲸鱼优化算法改进的Stacking集成模型电量预测装置,其特征在于:所述Stacking基学习器组合选择模块还包括:
基学习器库组成模块,选择五类不同类别算法组成基学习器库,包括基于树算法、支持向量机、近邻算法、回归分析和神经网络,利用算法不同的原理从不同的角度观测数据空间与结构;
最优基学习器组合选择模块,利用鲸鱼优化算法从基学习器库中选择最优基学习器组合,每次鲸鱼算法的迭代过程中选取一个基学习器组合,并将当前基学习器组合输入Stacking集成预测模型,以此为Stacking集成预测的第一层模型预测,以最后的预测误差做为适应度,多次迭代后选取最低适应度值对应的基学习器组合为最优基学习器组合。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-5任一项所述的电量预测方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-5任一项所述的电量预测方法的步骤。
CN202311328852.9A 2023-10-15 2023-10-15 一种Stacking集成模型电量预测方法、装置、存储介质 Pending CN117439053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311328852.9A CN117439053A (zh) 2023-10-15 2023-10-15 一种Stacking集成模型电量预测方法、装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311328852.9A CN117439053A (zh) 2023-10-15 2023-10-15 一种Stacking集成模型电量预测方法、装置、存储介质

Publications (1)

Publication Number Publication Date
CN117439053A true CN117439053A (zh) 2024-01-23

Family

ID=89557574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311328852.9A Pending CN117439053A (zh) 2023-10-15 2023-10-15 一种Stacking集成模型电量预测方法、装置、存储介质

Country Status (1)

Country Link
CN (1) CN117439053A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648646A (zh) * 2024-01-30 2024-03-05 西南石油大学 基于特征选择和堆叠异构集成学习的钻采成本预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648646A (zh) * 2024-01-30 2024-03-05 西南石油大学 基于特征选择和堆叠异构集成学习的钻采成本预测方法
CN117648646B (zh) * 2024-01-30 2024-04-26 西南石油大学 基于特征选择和堆叠异构集成学习的钻采成本预测方法

Similar Documents

Publication Publication Date Title
Shamshirband et al. A survey of deep learning techniques: application in wind and solar energy resources
CN109754113B (zh) 基于动态时间规整与长短时间记忆的负荷预测方法
Ding et al. Research on using genetic algorithms to optimize Elman neural networks
CN111148118A (zh) 基于时间序列的流量预测和载波关断方法和***
CN110751318A (zh) 一种基于ipso-lstm的超短期电力负荷预测方法
CN112116144A (zh) 一种区域配电网短期负荷预测方法
CN116596044B (zh) 基于多源数据的发电负荷预测模型训练方法及装置
CN110674965A (zh) 基于动态特征选取的多时间步长风功率预测方法
CN117439053A (zh) 一种Stacking集成模型电量预测方法、装置、存储介质
CN111598329A (zh) 基于自动化参数调整循环神经网络的时序数据预测方法
Zou et al. Deep non-crossing probabilistic wind speed forecasting with multi-scale features
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN115640901A (zh) 一种基于混合神经网络和生成对抗的小样本负荷预测方法
CN113627070A (zh) 一种短期光伏功率预测方法
Wang et al. Multivariate time series prediction based on optimized temporal convolutional networks with stacked auto-encoders
CN113762591B (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及***
CN114817571A (zh) 基于动态知识图谱的成果被引用量预测方法、介质及设备
CN114548350A (zh) 一种基于樽海鞘群和bp神经网络的电力负荷预测方法
CN113033898A (zh) 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及***
CN108846057B (zh) 一种基于带状时变模糊信息粒的时间序列长期预测方法
Rademaker et al. Modelling the niches of wild and domesticated Ungulate species using deep learning
CN116341929A (zh) 一种基于聚类和自适应梯度提升决策树的预测方法
CN115481788A (zh) 相变储能***负荷预测方法及***
CN115965160A (zh) 一种数据中心能耗预测方法、装置、存储介质及电子设备
CN115310355A (zh) 考虑多能耦合的综合能源***多元负荷预测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination