CN116341767A - 基于随机森林的新能源功率预测特征递归筛选方法 - Google Patents

基于随机森林的新能源功率预测特征递归筛选方法 Download PDF

Info

Publication number
CN116341767A
CN116341767A CN202310612978.2A CN202310612978A CN116341767A CN 116341767 A CN116341767 A CN 116341767A CN 202310612978 A CN202310612978 A CN 202310612978A CN 116341767 A CN116341767 A CN 116341767A
Authority
CN
China
Prior art keywords
feature
meteorological
features
weather
new energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310612978.2A
Other languages
English (en)
Inventor
包涛
马溪原
李鹏
习伟
陈炎森
程凯
周长城
李卓环
胡旭东
潘世贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202310612978.2A priority Critical patent/CN116341767A/zh
Publication of CN116341767A publication Critical patent/CN116341767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种基于随机森林的新能源功率预测特征递归筛选方法。所述方法包括:获取新能源电力***的初始气象特征;根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征;根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征;分别将所述第一气象特征和所述第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征和所述第二气象特征中确定出目标气象特征;根据所述目标气象特征,对所述新能源电力***进行功率预测。采用本方法能够提高新能源功率预测的精度。

Description

基于随机森林的新能源功率预测特征递归筛选方法
技术领域
本申请涉及电力技术领域,特别是涉及一种基于随机森林的新能源功率预测特征递归筛选方法。
背景技术
新能源出力受气象因素影响,具有较强的随机性和波动性。随着新能源电网的发展,大规模的新能源并网对电力***的安全稳定运行带来挑战,其中,功率预测是解决新能源并网的关键措施之一。
现有技术中,针对新能源功率预测,通常考虑如何选取功率预测模型,由于未能充分发掘气象特征之间的联系,使得功率预测的精度受限,难以显著提高新能源功率预测的精度。而且,由于影响新能源出力的气象特征繁多,目前的新能源功率预测过程中,数据处理的复杂度较高。
因此,目前的新能源功率预测技术中存在难以提高功率预测精度的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高功率预测精度的基于随机森林的新能源功率预测特征递归筛选方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种基于随机森林的新能源功率预测特征递归筛选方法。所述方法包括:
获取新能源电力***的初始气象特征;
根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征;
根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征;
分别将所述第一气象特征和所述第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征和所述第二气象特征中确定出目标气象特征;
根据所述目标气象特征,对所述新能源电力***进行功率预测。
在其中一个方法中,所述方法还包括:
获取预设的第三气象特征,以及在所述新能源电力***的历史功率预测中所使用的第四气象特征;
分别将所述第一气象特征、所述第二气象特征、所述第三气象特征和所述第四气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征、所述第二气象特征、所述第三气象特征和所述第四气象特征中确定出所述目标气象特征。
在其中一个方法中,所述根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征,包括:
从所述初始气象特征中筛选出与所述发电功率的功率变化相关联的第一候选气象特征;
确定所述第一候选气象特征与所述发电功率之间的相关性系数,并根据所述相关性系数,从所述第一候选气象特征中确定出所述第一气象特征。
在其中一个方法中,所述从所述初始气象特征中筛选出与所述发电功率的功率变化相关联的第一候选气象特征,包括:
基于随机森林,对所述初始气象特征进行分类,得到所述初始气象特征的特征分类结果;
根据所述特征分类结果,确定出所述第一候选气象特征。
在其中一个方法中,所述根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征,包括:
将所述第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型;
根据所述第一气象特征对所述预训练的特征消除模型的重要性,从所述第一气象特征中确定出第二候选气象特征,并将所述第二候选气象特征作为所述第一气象特征,返回至所述将所述第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型的步骤,直至符合第一预设停止条件;
将所述第二候选气象特征,作为所述第二气象特征。
在其中一个方法中,所述将所述第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型,包括:
从所述第一气象特征中确定出训练特征和测试特征;
将所述训练特征作为所述训练样本,对待训练的候选特征消除模型进行训练,得到预训练的候选特征消除模型,使用所述测试特征对所述预训练的候选特征消除模型进行测试,得到所述预训练的候选特征消除模型的模型精度,并返回至所述从所述第一气象特征中确定出训练特征和测试特征的步骤,直至符合第二预设停止条件;
根据至少一个所述模型精度,从所述预训练的候选特征消除模型中确定出所述预训练的特征消除模型。
在其中一个方法中,所述获取新能源电力***的初始气象特征,包括:
获取所述新能源电力***的原始气象特征;
根据预设的限电时段对所述原始气象特征进行剔除处理,得到剔除后气象特征;
对所述剔除后气象特征中的缺失值进行插补处理,得到插补后气象特征;
对所述插补后气象特征进行标准化处理,得到所述新能源电力***的所述初始气象特征。
第二方面,本申请还提供了一种基于随机森林的新能源功率预测特征递归筛选装置。所述装置包括:
特征获取模块,用于获取新能源电力***的初始气象特征;
第一筛选模块,用于根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征;
第二筛选模块,用于根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征;
目标筛选模块,用于分别将所述第一气象特征和所述第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征和所述第二气象特征中确定出目标气象特征;
功率预测模块,用于根据所述目标气象特征,对所述新能源电力***进行功率预测。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取新能源电力***的初始气象特征;
根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征;
根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征;
分别将所述第一气象特征和所述第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征和所述第二气象特征中确定出目标气象特征;
根据所述目标气象特征,对所述新能源电力***进行功率预测。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取新能源电力***的初始气象特征;
根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征;
根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征;
分别将所述第一气象特征和所述第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征和所述第二气象特征中确定出目标气象特征;
根据所述目标气象特征,对所述新能源电力***进行功率预测。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取新能源电力***的初始气象特征;
根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征;
根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征;
分别将所述第一气象特征和所述第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征和所述第二气象特征中确定出目标气象特征;
根据所述目标气象特征,对所述新能源电力***进行功率预测。
上述基于随机森林的新能源功率预测特征递归筛选方法、装置、计算机设备、存储介质和计算机程序产品,通过获取新能源电力***的初始气象特征,根据初始气象特征与新能源电力***的发电功率之间的相关性,从初始气象特征中筛选出第一气象特征,根据第一气象特征对新能源电力***的功率预测的重要性,从第一气象特征中确定出第二气象特征,分别将第一气象特征和第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从第一气象特征和第二气象特征中确定出目标气象特征,根据目标气象特征,对新能源电力***进行功率预测;可以从新能源电力***的初始气象特征中筛选出与发电功率相关性较强的第一气象特征,以及从第一气象特征中筛选出对功率预测较为重要的第二气象特征,通过分别使用第一气象特征和第二气象特征进行模型训练,并对得到的功率预测模型的预测精度进行比较,可以从第一气象特征和第二气象特征中确定出功率预测精度较高的目标气象特征,使用目标气象特征进行功率预测,能够提高新能源功率预测的精度。
附图说明
图1为一个实施例中基于随机森林的新能源功率预测特征递归筛选方法的流程示意图;
图2为一个实施例中数据预处理模块的结构框图;
图3为一个实施例中基于随机森林和相关性分析的特征递归消除与交叉验证方法的流程示意图;
图4为一个实施例中递归消除处理训练特征个数与交叉验证得分之间映射关系的曲线图;
图5为一个实施例中基于交叉验证的特征递归消除过程的示意图;
图6为另一个实施例中基于随机森林的新能源功率预测特征递归筛选方法的流程示意图;
图7为一个实施例中基于随机森林的新能源功率预测特征递归筛选装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于随机森林的新能源功率预测特征递归筛选方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S110,获取新能源电力***的初始气象特征。
其中,新能源电力***可以为新能源场站,例如,风电场或者光伏电站。
其中,初始气象特征可以为预处理后的气象特征,例如,预处理后的温度、云量等气象数据。
具体实现中,可以采集新能源电力***的原始气象特征,将采集到的原始气象特征输入至终端,终端对原始气象特征进行预处理后,得到初始气象特征。
图2提供了一个数据预处理模块的结构框图。根据图2,可以以一小时为间隔,采集风电场或者光伏电站过去一年内的气温,作为原始气象特征,对原始气象特征进行限电时段剔除、负功率数据置零、错数据剔除、缺失值处理和数据标准化处理,得到初始气象特征。
其中,限电时段剔除是指由于风电场和光伏电站功率的间歇性和波动性,供出的电能质量较差;而且,由于电网是一个实时供需平衡的***,可能会出现弃风限电和弃光限电的情况,这就导致样本集中存在一个明显的特点,即在一个适宜风电场或光伏电站发电的对应时段下的风速或辐照度等数值天气预报条件下,且在一个较长的时段,新能源场站的输出功率突然下降,此时判定该时段为限电时段,或者样本集中直接提供了限电时段的信息,此时,可以将限电时段的数据予以剔除。
其中,负功率数据置零是指新能源发电功率应是大于或者等于0的数值,若功率数据小于0,则把该时段的功率数据置零。
其中,错数据剔除是指新能源发电功率数据可能会出现时段错误、数值超过装机容量、某时段的功率数值为空或错误字段等问题,数值天气预报数据可能会出现时段错误、数值为空、字段错误、无穷大或无穷小等明显不符合实际情况的问题,此时需要同时将对应时段的功率数据和数值天气预报数据予以剔除。
其中,缺失值处理是指假设功率数据和数值天气预报数据的分辨率均为15分钟,样本属性的距离清晰明确,因此可以使用均值插补法对对应属性有效值的平均值来插补缺失的值。
其中,数据标准化是指由于需要消除数值天气预报或历史功率等不同属性具有不同量级时的影响,一方面,数量级的差异将导致量级较大的属性占据主导地位;另一方面,数量级的差异还将导致神经网络迭代收敛速度减慢。因此,可以使用z-score(z分数)对样本进行标准化,即基于原始数据的均值和标准差进行数据的标准化,例如,将原始值x使用z-score标准化到新数据x',则新数据=(原数据-均值)/标准差。
步骤S120,根据初始气象特征与新能源电力***的发电功率之间的相关性,从初始气象特征中筛选出第一气象特征。
其中,相关性可以为通过相关性分析得到的线性关系的程度。
其中,第一气象特征可以为与发电功率相关性较强的气象特征。
具体实现中,可以对初始气象特征进行相关性分析,得到初始气象特征与新能源电力***的发电功率之间的相关性,将得到的相关性与预设的相关性阈值相比较,若相关性低于相关性阈值,则舍弃该相关性对应的初始气象特征,否则,若相关性高于或者等于相关性阈值,则保留该相关性对应的初始气象特征,最后将所有保留的初始气象特征作为第一气象特征。
实际应用中,可以先基于随机森林算法对所有初始气象特征进行评分和初次筛选。随机森林是一个包含多个决策树的数据分类器,评分基于袋外数据误差,随机改变某个气象特征的值,如果袋外数据误差大幅度上升,则说明该气象特征对于样本的分类结果影响很大,重要程度高,将该气象特征予以保留,并对其进行相关性分析。
在相关性分析过程中,可以通过统计学上的相关系数r,研究不同气象特征与功率之间线性关系的程度。将所有特征与功率的相关性系数绝对值进行比对,舍弃相关性系数绝对值低于临界值(门槛值)的特征。临界值作为相关性分析的可变参数,可手动调整,一般来说,相关性系数绝对值0-0.09认为没有相关性,0.1-0.3为弱相关,0.3-0.5为中等相关,0.5-1.0为强相关。设定光伏的相关性系数临界值默认值为0.2,风电的相关性系数临界值默认值为0.45。相关系数r的计算公式可以为
Figure SMS_1
其中,X i 表示气象特征,Y i 表示功率,
Figure SMS_2
表示气象特征平均值,/>
Figure SMS_3
表示功率平均值。
步骤S130,根据第一气象特征对新能源电力***的功率预测的重要性,从第一气象特征中确定出第二气象特征。
其中,第二气象特征可以为对功率预测较为重要的气象特征。
具体实现中,可以采用特征递归消除(Recursive Feature Elimination,RFE)算法,从第一气象特征中筛选出对新能源电力***功率预测重要性较高的第二气象特征。
实际应用中,可以采用递归消除法对随机森林和相关性分析得出的第一气象特征集合进行进一步筛选,特征递归消除通过增加或者移除特定特征变量,获得能最大化模型性能的最优组合变量。具体地,特征递归消除使用所有第一气象特征进行模型训练,计算每个第一气象特征的重要性,并根据重要性对第一气象特征进行排序,提取排在前面的重要性较高的若干个第一气象特征,重复上述过程,再次进行模型训练,直至符合预设的停止条件,例如,达到指定的循环次数,对循环过程中得到的若干个模型的效果进行比较,从中选取效果最好的模型,将该模型对应的气象特征作为第二气象特征。
步骤S140,分别将第一气象特征和第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从第一气象特征和第二气象特征中确定出目标气象特征。
其中,功率预测模型可以是基于反向传播神经网络(Back Propagation NeuralNetwork,BPNN)构建的用于进行功率预测的模型,包括第一功率预测模型和第二功率预测模型。
其中,预测精度包括第一预测精度和第二预测精度。
其中,目标气象特征可以是用于进行功率预测的气象特征。
具体实现中,可以将第一气象特征作为训练样本,对待训练的第一功率预测模型进行训练,得到预训练的第一功率预测模型,将该模型的预测精度作为第一预测精度;还可以将第二气象特征作为训练样本,对待训练的第二功率预测模型进行训练,得到预训练的第二功率预测模型,将该模型的预测精度作为第二预测精度。对第一预测精度和第二预测精度进行比较,若第一预测精度大于或者等于第二预测精度,则将与第一预测精度相对应的第一气象特征作为目标气象特征;否则,若第一预测精度小于第二预测精度,则将与第二预测精度相对应的第二气象特征作为目标气象特征。
步骤S150,根据目标气象特征,对新能源电力***进行功率预测。
具体实现中,可以选取目标气象特征作为新能源电力***功率预测的训练特征,将训练特征作为训练样本,对功率预测模型进行训练,得到训练好的功率预测模型,使用训练好的功率预测模型进行功率预测。
上述基于随机森林的新能源功率预测特征递归筛选方法,通过获取新能源电力***的初始气象特征,根据初始气象特征与新能源电力***的发电功率之间的相关性,从初始气象特征中筛选出第一气象特征,根据第一气象特征对新能源电力***的功率预测的重要性,从第一气象特征中确定出第二气象特征,分别将第一气象特征和第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从第一气象特征和第二气象特征中确定出目标气象特征,根据目标气象特征,对新能源电力***进行功率预测;可以从新能源电力***的初始气象特征中筛选出与发电功率相关性较强的第一气象特征,以及从第一气象特征中筛选出对功率预测较为重要的第二气象特征,由于第一气象特征具有相关且数量多的优势,第二气象特征具有相关且重要程度高的优势,通过分别使用第一气象特征和第二气象特征进行模型训练,并对得到的功率预测模型的预测精度进行比较,可以从第一气象特征和第二气象特征中确定出功率预测精度较高的目标气象特征,使用目标气象特征进行功率预测,能够提高新能源功率预测的精度。
在一个实施例中,上述方法还包括:获取预设的第三气象特征,以及在新能源电力***的历史功率预测中所使用的第四气象特征;分别将第一气象特征、第二气象特征、第三气象特征和第四气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从第一气象特征、第二气象特征、第三气象特征和第四气象特征中确定出目标气象特征。
其中,第三气象特征可以是人工设置的气象特征。
其中,第四气象特征可以是在历史功率预测过程中所使用的气象特征,例如,上一次功率预测所使用的气象特征。
其中,功率预测模型可以包括第一功率预测模型、第二功率预测模型、第三功率预测模型和第四功率预测模型。
其中,预测精度可以包括第一预测精度、第二预测精度、第三预测精度和第四预测精度。
具体实现中,可以分别将第一气象特征、第二气象特征、第三气象特征和第四气象特征作为训练样本,对待训练的功率预测模型进行训练,依次得到预训练的第一功率预测模型、第二功率预测模型、第三功率预测模型和第四功率预测模型,确定各功率预测模型的预测精度,分别得到第一预测精度、第二预测精度、第三预测精度和第四预测精度,将所有预测精度中的最大值作为目标预测精度,并将目标预测精度对应的气象特征作为目标气象特征。
实际应用中,可以采用基于BPNN的多种较优特征组合筛选方法来确定目标气象特征,具体包括:预先设定默认的、常用的、与新能源功率预测精度相关性一般最大且产生的预测精度较高的4-5类特征组A;保留基于随机森林得到的相关性最大的特征组B;保留基于随机森林和特征递归消除得到的特征组C;保留上一次功率预测所使用的特征组D;基于BPNN开展新能源功率预测,对以上四类特征组A、B、C、D分别使用同一个样本集开展模型训练和功率预测,在同样的测试集下,对比以上四类特征组的预测精度,取精度最高的特征组,作为目标气象特征输出。
本实施例中,通过获取预设的第三气象特征,以及在新能源电力***的历史功率预测中所使用的第四气象特征;分别将第一气象特征、第二气象特征、第三气象特征和第四气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从第一气象特征、第二气象特征、第三气象特征和第四气象特征中确定出目标气象特征,可以从人工设置的气象特征、相关性高的气象特征、重要性强的气象特征以及历史最优的气象特征中选取出能够使预测精度最高的一组气象特征,使用该组气象特征进行功率预测,可以进一步提高功率预测的精度。
在一个实施例中,上述步骤S120,可以具体包括:从初始气象特征中筛选出与发电功率的功率变化相关联的第一候选气象特征;确定第一候选气象特征与发电功率之间的相关性系数,并根据相关性系数,从第一候选气象特征中确定出第一气象特征。
其中,第一候选气象特征可以是与功率变化相关的气象特征。
具体实现中,可以基于随机森林算法,对所有初始气象特征进行评分和初次筛选,随机森林是一个包含多个决策树的数据分类器,评分基于袋外数据误差,随机改变某个初始气象特征的值,如果袋外数据误差上升幅度超过预设幅度阈值,则说明该初始气象特征对于样本的分类结果影响很大,与功率变化的关联性强,重要程度高,将该初始气象特征作为第一候选气象特征,否则,如果袋外数据误差上升幅度未超过预设幅度阈值,则舍弃该初始气象特征。
对筛选得到的第一候选气象特征进行相关性分析,得到相关性系数绝对值,相关性系数绝对值可以反映第一候选气象特征与发电功率之间线性关系的程度,舍弃相关性系数绝对值低于预设系数阈值的第一候选气象特征,保留相关性系数绝对值高于或者等于预设系数阈值的第一候选气象特征,得到第一气象特征。
本实施例中,通过从初始气象特征中筛选出与发电功率的功率变化相关联的第一候选气象特征;确定第一候选气象特征与发电功率之间的相关性系数,并根据相关性系数,从第一候选气象特征中确定出第一气象特征,可以从初始气象特征中筛选出与功率变化相关程度较高的气象特征,进行功率预测模型的训练,进而提高功率预测的精度。
在一个实施例中,上述从初始气象特征中筛选出与发电功率的功率变化相关联的第一候选气象特征的步骤,可以具体包括:基于随机森林,对初始气象特征进行分类,得到初始气象特征的特征分类结果;根据特征分类结果,确定出第一候选气象特征。
具体实现中,可以基于随机森林算法对所有初始气象特征进行分类,得到至少一个特征分类结果,每个特征分类结果与一定的袋外数据误差相对应,将指定袋外数据误差对应的初始气象特征,作为第一候选气象特征,其中,指定袋外数据误差可以是对气象特征变化较为敏感的袋外数据误差,例如,随机改变气象特征的值,袋外数据误差上升幅度超过预设幅度阈值,则表示该袋外数据误差对气象特征变化较为敏感。
本实施例中,通过基于随机森林,对初始气象特征进行分类,得到初始气象特征的特征分类结果;根据特征分类结果,确定出第一候选气象特征,可以从初始气象特征中快速确定出与功率变化相关联的气象特征,提高功率预测的效率。
在一个实施例中,上述步骤S130,可以具体包括:将第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型;根据第一气象特征对预训练的特征消除模型的重要性,从第一气象特征中确定出第二候选气象特征,并将第二候选气象特征作为第一气象特征,返回至将第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型的步骤,直至符合第一预设停止条件;将第二候选气象特征,作为第二气象特征。
其中,特征消除模型可以但不限于是功率预测模型。
其中,第一预设停止条件可以为满足预设的迭代次数。
具体实现中,将第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型,统计第一气象特征对预训练的特征消除模型的重要性,对重要性进行排序,将排在前面的若干个重要性所对应的第一气象特征作为第二候选气象特征,之后将第二候选气象特征作为第一气象特征,重复上述过程,将最后得到的第二候选气象特征作为第二气象特征。
本实施例中,通过将第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型;根据第一气象特征对预训练的特征消除模型的重要性,从第一气象特征中确定出第二候选气象特征,并将第二候选气象特征作为第一气象特征,返回至将第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型的步骤,直至符合第一预设停止条件;将第二候选气象特征,作为第二气象特征,可以通过特征递归消除,从第一气象特征中筛选出重要性较高的第二气象特征,使用第二气象特征进行功率预测,可以提高功率预测的精度。
在一个实施例中,上述将第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型的步骤,可以具体包括:从第一气象特征中确定出训练特征和测试特征;将训练特征作为训练样本,对待训练的候选特征消除模型进行训练,得到预训练的候选特征消除模型,使用测试特征对预训练的候选特征消除模型进行测试,得到预训练的候选特征消除模型的模型精度,并返回至从第一气象特征中确定出训练特征和测试特征的步骤,直至符合第二预设停止条件;根据至少一个模型精度,从预训练的候选特征消除模型中确定出预训练的特征消除模型。
其中,候选特征消除模型可以为候选的特征消除模型。
其中,模型精度可以为使用模型进行功率预测的精度。
其中,第二预设停止条件可以为每个第一气象特征均做过测试特征。
具体实现中,可以将第一气象特征随机分为K份,在每一次迭代过程中,挑选其中1份作为测试特征,并将其余K-1份作为训练特征,使用训练特征作为训练样本进行模型训练,得到预训练的候选特征消除模型,使用测试特征对预训练的候选特征消除模型进行测试,得到该模型的模型精度,重复上述迭代过程,直至每个第一气象特征均做过一次测试特征,从每次迭代得到的模型精度中选取最大精度,将最大精度对应的预训练的候选特征消除模型,确定为预训练的特征消除模型。
本实施例中,通过从第一气象特征中确定出训练特征和测试特征;将训练特征作为训练样本,对待训练的候选特征消除模型进行训练,得到预训练的候选特征消除模型,使用测试特征对预训练的候选特征消除模型进行测试,得到预训练的候选特征消除模型的模型精度,并返回至从第一气象特征中确定出训练特征和测试特征的步骤,直至符合第二预设停止条件;根据至少一个模型精度,从预训练的候选特征消除模型中确定出预训练的特征消除模型,可以通过交叉验证确定出特征消除模型,提高特征消除模型的模型精度。
在一个实施例中,上述步骤S110,可以具体包括:获取新能源电力***的原始气象特征;根据预设的限电时段对原始气象特征进行剔除处理,得到剔除后气象特征;对剔除后气象特征中的缺失值进行插补处理,得到插补后气象特征;对插补后气象特征进行标准化处理,得到新能源电力***的初始气象特征。
其中,原始气象特征可以是原始采集到的未经处理的气象特征。
其中,限电时段可以是新能源电力***的输出功率突然下降的时段。
具体实现中,可以采集新能源电力***的原始气象特征输入至终端,在终端中预先设置限电时段,终端将限电时段对应的原始气象特征进行剔除,得到剔除后气象特征,终端还可以识别剔除后气象特征中的缺失值,通过插值,例如,线性插值,对缺失值进行插补,得到插补后气象特征,之后可以对插补后气象特征进行标准化处理,例如,可以使用z分数对插补后气象特征进行标准化,得到初始气象特征。
本实施例中,通过获取新能源电力***的原始气象特征;根据预设的限电时段对原始气象特征进行剔除处理,得到剔除后气象特征;对剔除后气象特征中的缺失值进行插补处理,得到插补后气象特征;对插补后气象特征进行标准化处理,得到新能源电力***的初始气象特征,可以对获取到的原始气象特征进行预处理,得到适于进行功率预测的初始气象特征。
为了便于本领域技术人员深入理解本申请实施例,以下将结合一个具体示例进行说明。
图3提供了一个基于随机森林和相关性分析的特征递归消除与交叉验证方法的流程示意图。根据图3,可以首先基于随机森林算法,筛选出对新能源功率变化影响最大的气象特征因素组合,在此基础上,运用统计学的相关性分析,研究气象特征之间的相关性,对气象特征做进一步筛选,最后,使用特征递归消除法和交叉验证,确定最终筛选出来用于预测的特征集合。在功率预测时运用该方法进行气象特征选取,能够提升新能源功率预测精度。
实际生产中,数据大部分均不完整和不一致,无法直接进行数据挖掘,或挖掘结果差强人意。数据质量决定了新能源功率预测的上限,而在风电场或光伏电站功率预测实践中,历史功率数据和数值天气预报数据可能会存在有缺失值、重复值等,为了提高数据挖掘的质量,在使用数据之前需要进行数据预处理,从而提高功率预测的准确率。新能源功率预测数据预处理主要包括了:限电时段剔除、负功率数据置零、错数据剔除、缺失值处理、数据标准化。具体如下:
限电时段剔除:由于风电场和光伏电站功率的间歇性和波动性,供出的电能质量较差;另一方面,由于电网是一个实时供需平衡的***,因此难免会出现弃风限电和弃光限电的情况。这在样本集中存在明显的特点,即在一个适宜风电场或光伏电站发电的对应是时段下的风速或辐照度等数值天气预报条件下,且在一个较长的时段,新能源场站的输出功率突然下降,此时判定该时段为限电时段。或者样本集中直接提供了限电时段的信息。此时把该时段的数据剔除。
负功率数据置零:新能源发电功率应是大于或等于0的数值,若功率数据小于0,则把该时段的功率数据置零。
错数据剔除:新能源发电功率数据可能会出现时段错误、数值超过装机容量、某时段的功率数值为空或错误字段等问题,数值天气预报数据可能会出现时段错误、数值为空、字段错误或出现无穷大或无穷小等明显不符合实际情况的问题,这类数据需同时把对应时段的功率数据和数值天气预报数据剔除。
缺失值处理:由于功率数据和数值天气预报数据的分辨率均为15分钟,样本属性的距离清晰明确,因此使用均值插补法对对应属性有效值的平均值来插补缺失的值。
数据标准化:由于需要消除数值天气预报或历史功率等不同属性具有不同量级时的影响,包括数量级的差异将导致量级较大的属性占据主导地位,以及数量级的差异将导致神经网络迭代收敛速度减慢。因此,使用z-score对样本进行标准化,即基于原始数据的均值和标准差进行数据的标准化。将原始值x使用z-score标准化到x'。新数据=(原数据-均值)/标准差。
基于随机森林和相关性分析的特征递归消除与交叉验证方法,可以具体包括:
首先,基于随机森林算法,对所有气象特征进行评分和初次筛选。随机森林是一个包含多个决策树的数据分类器。评分基于袋外数据误差,随机改变某个气象特征的值,如果袋外数据误差大幅度上升,则说明该气象特征对于样本的分类结果影响很大,重要程度高。
其次,基于相关性分析,通过统计学上的相关系数r,研究不同气象特征与功率之间线性关系的程度。将所有特征与功率的相关性系数绝对值进行比对,舍弃相关性系数绝对值低于临界值(门槛值)的特征。临界值作为本特征选取方法的可变参数,可手动调整,一般来说,相关性系数绝对值0-0.09认为没有相关性,0.1-0.3为弱相关,0.3-0.5为中等相关,0.5-1.0为强相关。本方法中设定光伏的相关性系数临界值默认值为0.2,风电的相关性系数临界值默认值为0.45。相关系数r的计算公式如下:
Figure SMS_4
然后,采用递归消除法对随机森林和相关性分析的出的特征并集进行进一步筛选。使用特征递归消除算法,通过增加或移除特定特征变量获得能最大化模型性能的最优组合变量。具体步骤如下:
使用所有特征变量训练模型,计算每个特征变量的重要性并进行排序。对每一个变量子集S_{i}, i=1...S,提取前S_{i}个最重要的特征变量,基于新数据集训练模型重新计算每个特征变量的重要性并进行排序,并计算比较每个子集获得的模型的效果。基于此决定最优的特征变量集合,选择最优变量集合的模型为最终模型。
递归地构建决策树模型,根据相关性系数选出最好的特征,然后在剩余的特征上重复这个过程,直到遍历了所有的特征,称为递归。在递归的过程中对特征进行排序,并最多保留排名靠前的k个特征,作为特征集合保存。k值作为本特征选取方法的入参,可手动调整,本方法中设定特征数量默认为4个。图4提供了一个递归消除处理训练特征个数与交叉验证得分之间映射关系的曲线图。根据图4,可以确定训练特征个数为4时,模型预测精度最高。
还可以采用基于交叉验证的特征递归消除算法,通过对k个不同分组训练的结果进行平均来减少方差,降低模型性能对数据划分的敏感性。图5提供了一个基于交叉验证的特征递归消除过程的示意图。根据图5,基于交叉验证的特征递归消除算法,具体包括以下步骤:
1、不重复抽样将原始数据随机分为k份。
2、每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练。
3、重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集。在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标。
4、计算k组测试结果的平均值作为模型精度的估计,并作为当前k折交叉验证下模型的性能指标。
最后,将特征集合以列表形式作为特征工程的输出,亦可输出并保存为csv格式的配置文件,用于将来进行训练或研究。在功率预测过程中,调用上述特征选取方法,在随机森林和相关性系数分析的基础上,采用特征递归消除和交叉验证RFE算法,在返回特征工程筛选得到的特征集合,亦可输出为csv格式的配置文件。
在基于神经网络构建分析模型、预测模型的过程中,需使用多个特征作为模型的输入节点,然而不同的特征在模型中的重要性存在较大区别,也即是不同的特征对模型的输出结果具有不同的影响,多个特征相互组合所得到的组合特征可用于体现组合特征之间的关联关系。传统的模型构建过程中均是将所有特征作为模型的输入节点,或是通过人工选择的方式对特征进行组合及筛选后将得到的部分组合特征作为模型的输入节点,然而通过人工选择的方式所选择得到的组合特征构建的模型无法获取客观、准确的输出结果,无法满足用户对组合特征的使用需求。因而,现有技术中存在对组合特征进行筛选的效率不高的问题。本申请提供了一种组合特征筛选方法,具体包括:
1、预先设定默认的、常用的、与新能源功率预测精度相关性一般最大且产生的预测精度较高的4-5类特征组A。
2、保留随机森林得到的相关性最大的特征组B。
3、保留基于随机森林和递归得到的特征组C。
4、保留上一轮特征筛选后的最优特征组D。
5、基于BPNN开展新能源功率预测。对以上四类特征组A、B、C、D分别使用同一个样本集开展模型训练和功率预测,在同样的测试集下,对比以上四类特征的预测精度,取精度第一的特征组输出。
基于BPNN的功率预测方法如下:
1、训练BPNN
本申请使用包含风电场或光伏电站的历史功率和数值天气预报的训练集作为BPNN的训练集。以云南某风电场和宁夏某光伏电站为例,具体如下:
(1)云南某风电场
(i)模型关键参数设定:统一使用相同的模型超参数。比如隐藏层个数hidden_layers为100层;学习率learning_rate为0.01。
(ii)训练集数据
时间:2020/7/1 8:00:00——2020/11/1 7:45:00,共123天
每一测试时间步长:15min
数据量:11777个时刻数据训练
数值天气预报数据特征量:分别输入特征组A、B、C、D。
(iii)每一训练步长输入与输出
输入特征量描述:前15min历史功率+预测时间段的数值天气预报数据(特征组A、B、C、D,如100m风速、100m风向、湿度、气压)。每一训练步长的输入与输出如表1所示,其中NWP(Numerical Weather Prediction)表示数值天气预报。
表1
Figure SMS_5
(2)宁夏某光伏电站
(i)模型关键参数设定:统一使用相同的模型超参数。比如隐藏层个数hidden_layers为100层;学习率learning_rate为0.01。
(ii)训练集数据
时间:2017/1/1 2:15:00——2018/1/2 2:00:00,共364天(其中28-May-2017 02:15:00——29-May-7017 02:00:00;11-Aug-2017 02:15:00——12-Aug-2017 02:00:00两天的数据缺失)
每一测试时间步长:15min
数据量:34944个时刻数据训练
数值天气预报数据特征量:分别输入特征组A、B、C、D。
表2
Figure SMS_6
(iii)每一训练步长输入与输出
输入特征量描述:前15min历史功率+预测时间段的NWP数据(特征组A、B、C、D,如温度,云量,短波辐射,长波辐射,地表气压,大尺度降水,对流降水,湿度)。每一训练步长的输入与输出如表2所示。
经过训练集的训练,BPNN分别在云南某风电场和宁夏某光伏电站得到了最优的算法模型。
2、新能源功率预测
基于BPNN分别在云南某风电场和宁夏某光伏电站得到的最优算法模型,开展测试集的新能源功率预测。测试集样本分别为:
(1)云南某风电场
(i)测试集数据
时间:2020/11/1 8:00:00——2021/12/31 7:45:00,共60天
每一测试时间步长:15min
数据量:17280个时刻数据训练(60天*3天*96时刻)
数值天气预报数据特征量:分别输入特征组A、B、C、D。
训练集与测试集比例为2.05:1。
(ii)每一测试步长输入与输出
输入特征量描述:前一历史时刻历史功率+预测时间段的NWP数据(100m风速、100m风向、湿度、气压)。每一测试步长的输入与输出如表3所示。
表3
Figure SMS_7
(2)宁夏某光伏电站
①测试集数据
时间:2018/1/2 2:15:00——2018/12/31 2:00:00,共363天
每一测试时间步长:15min
数据量:34848个时刻数据训练
数值天气预报数据特征量:分别输入特征组A、B、C、D。
训练集与测试集比例为1.003:1(各特征组统一)。
②每一测试步长输入与输出
输入特征量描述:前一历史时刻历史功率+预测时间段的NWP数据(分别输入特征组A、B、C、D,如温度,云量,短波辐射,长波辐射,地表气压,大尺度降水,对流降水,湿度等)。每一测试步长的输入与输出如表4所示。
表4
Figure SMS_8
3、新能源功率预测结果评价分析
经过BPNN算法对风电场或光伏电站的功率进行预测后,要对功率预测的结果进行评价分析,计算公式如下所示:
Figure SMS_9
其中,r1表示预测准确率;n表示测试集的样本数量;PM,k表示k时段的功率实际值;PP,k表示k时段的功率预测值;Ck表示k时段的开机总容量,在云南某风电场中为188,宁夏某光伏电站数据中为100。
最后对比不同特征组A、B、C、D产生的精度排名,选出精度最优的特征组作为最优特征输出。
上述方法首先基于随机森林算法对影响功率,筛选出对新能源功率变化影响最大的气象特征因素组合,在此基础上,运用统计学的相关性分析,研究气象特征之间的相关性,对气象特征做进一步筛选,然后,使用交叉验证法和递归特征消除法。最后,使用同一个样本集和模型参数等基于BPNN算法开展功率预测,对比不同的特征量在测试集的预测精度,取最高精度的特征组作为最优特征输出。这样,在功率预测时运用本方法进行气象特征选取,能够提升新能源功率预测精度。本方法挑选了云南、贵州等地的7个新能源场站,进行气象特征选取,经过特征工程,相比未经特征工程的新能源功率预测准确率均有一定提升,其中短期预测(预测未来72小时)准确率提升最小值0.22%,最大值7.09%,平均提升2.08%;超短期预测(预测未来4小时)准确率提升最小值0.14%,最大值11.16%,平均提升2.72%。
在一个实施例中,如图6所示,提供了一种基于随机森林的新能源功率预测特征递归筛选方法,以该方法应用于终端为例进行说明,包括以下步骤:
步骤S201,获取新能源电力***的初始气象特征,预设的第三气象特征,以及在新能源电力***的历史功率预测中所使用的第四气象特征;
步骤S202,基于随机森林,对初始气象特征进行分类,得到初始气象特征的特征分类结果,根据特征分类结果,确定出第一候选气象特征;
步骤S203,确定第一候选气象特征与发电功率之间的相关性系数,并根据相关性系数,从第一候选气象特征中确定出第一气象特征;
步骤S204,将第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型,根据第一气象特征对预训练的特征消除模型的重要性,从第一气象特征中确定出第二候选气象特征,并将第二候选气象特征作为第一气象特征,返回至将第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型的步骤,直至符合第一预设停止条件,将第二候选气象特征,作为第二气象特征;
步骤S205,分别将第一气象特征、第二气象特征、第三气象特征和第四气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从第一气象特征、第二气象特征、第三气象特征和第四气象特征中确定出目标气象特征;
步骤S206,根据目标气象特征,对新能源电力***进行功率预测。
具体实现中,可以获取新能源电力***的初始气象特征,基于随机森林和相关性分析,从初始气象特征中筛选出第一气象特征,并通过进行特征递归消除和交叉验证,进一步从第一气象特征中筛选出第二气象特征,之后可以分别使用第一气象特征、第二气象特征、第三气象特征和第四气象特征进行模型训练,根据训练得到的模型的预测精度,从第一气象特征、第二气象特征、第三气象特征和第四气象特征中确定出目标气象特征,使用目标气象特征进行功率预测。
上述基于随机森林的新能源功率预测特征递归筛选方法,可以从新能源电力***的初始气象特征中筛选出与发电功率相关性较强的第一气象特征,以及从第一气象特征中筛选出对功率预测较为重要的第二气象特征,以及获取第三气象特征和第四气象特征,由于第一气象特征具有相关性强且数量多的优势,第二气象特征具有相关性强且重要程度高的优势,第三气象特征具备人工设置的优势,第四气象特征具有历史最优的优势,通过分别使用第一气象特征、第二气象特征、第三气象特征和第四气象特征进行模型训练,并对得到的功率预测模型的预测精度进行比较,可以从第一气象特征、第二气象特征、第三气象特征和第四气象特征中确定出功率预测精度较高的目标气象特征,使用目标气象特征进行功率预测,能够提高新能源功率预测的精度。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于随机森林的新能源功率预测特征递归筛选方法的基于随机森林的新能源功率预测特征递归筛选装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于随机森林的新能源功率预测特征递归筛选装置实施例中的具体限定可以参见上文中对于基于随机森林的新能源功率预测特征递归筛选方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种基于随机森林的新能源功率预测特征递归筛选装置,包括:特征获取模块310、第一筛选模块320、第二筛选模块330、目标筛选模块340和功率预测模块350,其中:
特征获取模块310,用于获取新能源电力***的初始气象特征;
第一筛选模块320,用于根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征;
第二筛选模块330,用于根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征;
目标筛选模块340,用于分别将所述第一气象特征和所述第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征和所述第二气象特征中确定出目标气象特征;
功率预测模块350,用于根据所述目标气象特征,对所述新能源电力***进行功率预测。
在一个实施例中,上述方法还包括:
获取模块,用于获取预设的第三气象特征,以及在所述新能源电力***的历史功率预测中所使用的第四气象特征;
训练模块,用于分别将所述第一气象特征、所述第二气象特征、所述第三气象特征和所述第四气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征、所述第二气象特征、所述第三气象特征和所述第四气象特征中确定出所述目标气象特征。
在一个实施例中,上述第一筛选模块320,还用于从所述初始气象特征中筛选出与所述发电功率的功率变化相关联的第一候选气象特征;确定所述第一候选气象特征与所述发电功率之间的相关性系数,并根据所述相关性系数,从所述第一候选气象特征中确定出所述第一气象特征。
在一个实施例中,上述第一筛选模块320,还用于基于随机森林,对所述初始气象特征进行分类,得到所述初始气象特征的特征分类结果;根据所述特征分类结果,确定出所述第一候选气象特征。
在一个实施例中,上述第二筛选模块330,还用于将所述第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型;根据所述第一气象特征对所述预训练的特征消除模型的重要性,从所述第一气象特征中确定出第二候选气象特征,并将所述第二候选气象特征作为所述第一气象特征,返回至所述将所述第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型的步骤,直至符合第一预设停止条件;将所述第二候选气象特征,作为所述第二气象特征。
在一个实施例中,上述第二筛选模块330,还用于从所述第一气象特征中确定出训练特征和测试特征;将所述训练特征作为所述训练样本,对待训练的候选特征消除模型进行训练,得到预训练的候选特征消除模型,使用所述测试特征对所述预训练的候选特征消除模型进行测试,得到所述预训练的候选特征消除模型的模型精度,并返回至所述从所述第一气象特征中确定出训练特征和测试特征的步骤,直至符合第二预设停止条件;根据至少一个所述模型精度,从所述预训练的候选特征消除模型中确定出所述预训练的特征消除模型。
在一个实施例中,上述特征获取模块310,还用于获取所述新能源电力***的原始气象特征;根据预设的限电时段对所述原始气象特征进行剔除处理,得到剔除后气象特征;对所述剔除后气象特征中的缺失值进行插补处理,得到插补后气象特征;对所述插补后气象特征进行标准化处理,得到所述新能源电力***的所述初始气象特征。
上述基于随机森林的新能源功率预测特征递归筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于随机森林的新能源功率预测特征递归筛选方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于随机森林的新能源功率预测特征递归筛选方法,其特征在于,所述方法包括:
获取新能源电力***的初始气象特征;
根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征;
根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征;
分别将所述第一气象特征和所述第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征和所述第二气象特征中确定出目标气象特征;
根据所述目标气象特征,对所述新能源电力***进行功率预测。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预设的第三气象特征,以及在所述新能源电力***的历史功率预测中所使用的第四气象特征;
分别将所述第一气象特征、所述第二气象特征、所述第三气象特征和所述第四气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征、所述第二气象特征、所述第三气象特征和所述第四气象特征中确定出所述目标气象特征。
3.根据权利要求1所述的方法,其特征在于,所述根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征,包括:
从所述初始气象特征中筛选出与所述发电功率的功率变化相关联的第一候选气象特征;
确定所述第一候选气象特征与所述发电功率之间的相关性系数,并根据所述相关性系数,从所述第一候选气象特征中确定出所述第一气象特征。
4.根据权利要求3所述的方法,其特征在于,所述从所述初始气象特征中筛选出与所述发电功率的功率变化相关联的第一候选气象特征,包括:
基于随机森林,对所述初始气象特征进行分类,得到所述初始气象特征的特征分类结果;
根据所述特征分类结果,确定出所述第一候选气象特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征,包括:
将所述第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型;
根据所述第一气象特征对所述预训练的特征消除模型的重要性,从所述第一气象特征中确定出第二候选气象特征,并将所述第二候选气象特征作为所述第一气象特征,返回至所述将所述第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型的步骤,直至符合第一预设停止条件;
将所述第二候选气象特征,作为所述第二气象特征。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一气象特征作为训练样本,对待训练的特征消除模型进行训练,得到预训练的特征消除模型,包括:
从所述第一气象特征中确定出训练特征和测试特征;
将所述训练特征作为所述训练样本,对待训练的候选特征消除模型进行训练,得到预训练的候选特征消除模型,使用所述测试特征对所述预训练的候选特征消除模型进行测试,得到所述预训练的候选特征消除模型的模型精度,并返回至所述从所述第一气象特征中确定出训练特征和测试特征的步骤,直至符合第二预设停止条件;
根据至少一个所述模型精度,从所述预训练的候选特征消除模型中确定出所述预训练的特征消除模型。
7.根据权利要求1所述的方法,其特征在于,所述获取新能源电力***的初始气象特征,包括:
获取所述新能源电力***的原始气象特征;
根据预设的限电时段对所述原始气象特征进行剔除处理,得到剔除后气象特征;
对所述剔除后气象特征中的缺失值进行插补处理,得到插补后气象特征;
对所述插补后气象特征进行标准化处理,得到所述新能源电力***的所述初始气象特征。
8.一种基于随机森林的新能源功率预测特征递归筛选装置,其特征在于,所述装置包括:
特征获取模块,用于获取新能源电力***的初始气象特征;
第一筛选模块,用于根据所述初始气象特征与所述新能源电力***的发电功率之间的相关性,从所述初始气象特征中筛选出第一气象特征;
第二筛选模块,用于根据所述第一气象特征对所述新能源电力***的功率预测的重要性,从所述第一气象特征中确定出第二气象特征;
目标筛选模块,用于分别将所述第一气象特征和所述第二气象特征作为训练样本,对待训练的功率预测模型进行训练,并根据得到的预训练的功率预测模型的预测精度,从所述第一气象特征和所述第二气象特征中确定出目标气象特征;
功率预测模块,用于根据所述目标气象特征,对所述新能源电力***进行功率预测。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202310612978.2A 2023-05-29 2023-05-29 基于随机森林的新能源功率预测特征递归筛选方法 Pending CN116341767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310612978.2A CN116341767A (zh) 2023-05-29 2023-05-29 基于随机森林的新能源功率预测特征递归筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310612978.2A CN116341767A (zh) 2023-05-29 2023-05-29 基于随机森林的新能源功率预测特征递归筛选方法

Publications (1)

Publication Number Publication Date
CN116341767A true CN116341767A (zh) 2023-06-27

Family

ID=86884459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310612978.2A Pending CN116341767A (zh) 2023-05-29 2023-05-29 基于随机森林的新能源功率预测特征递归筛选方法

Country Status (1)

Country Link
CN (1) CN116341767A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330935A (zh) * 2022-03-10 2022-04-12 南方电网数字电网研究院有限公司 基于多种结合策略集成学习的新能源功率预测方法和***
CN115329880A (zh) * 2022-08-19 2022-11-11 南方电网数字电网研究院有限公司 气象特征提取方法、装置、计算机设备和存储介质
CN115358060A (zh) * 2022-08-12 2022-11-18 南方电网数字电网研究院有限公司 一种支持新能源发电功率高精度预测的高效算法框架

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330935A (zh) * 2022-03-10 2022-04-12 南方电网数字电网研究院有限公司 基于多种结合策略集成学习的新能源功率预测方法和***
CN115358060A (zh) * 2022-08-12 2022-11-18 南方电网数字电网研究院有限公司 一种支持新能源发电功率高精度预测的高效算法框架
CN115329880A (zh) * 2022-08-19 2022-11-11 南方电网数字电网研究院有限公司 气象特征提取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乐无异KOP: "RFECV方法实现特征选择", pages 12 - 52, Retrieved from the Internet <URL:《https://blog.csdn.net/ws19920726/article/details/105526541》> *

Similar Documents

Publication Publication Date Title
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN111612055B (zh) 天气形势的分型方法、空气污染状况的预测方法及装置
CN112232526B (zh) 一种基于集成策略的地质灾害易发性评价方法及***
CN112330050A (zh) 一种基于双层XGBoost考虑多特征的电力***负荷预测方法
CN114493052B (zh) 多模型融合自适应新能源功率预测方法和***
CN112180471A (zh) 天气预报方法、装置、设备及存储介质
CN116739172B (zh) 一种基于爬坡识别的海上风电功率超短期预测方法及装置
CN111861781A (zh) 一种居民用电行为聚类中的特征优选方法及***
CN111697560B (zh) 一种基于lstm预测电力***负荷的方法及***
CN116128141A (zh) 风暴潮预测方法、装置、存储介质及电子设备
CN114498619A (zh) 一种风电功率预测方法及装置
CN114330934A (zh) 一种模型参数自适应的gru新能源短期发电功率预测方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN115689055A (zh) 一种短期太阳辐照度预测方法及装置
CN112612822A (zh) 一种北斗坐标时间序列的预测方法、装置、设备和存储介质
CN116127833A (zh) 基于vmd和lstm融合模型的风电功率预测方法、***、装置及介质
CN116799796A (zh) 一种光伏发电功率预测方法、装置、设备及介质
CN116933152A (zh) 一种基于多维emd-pso-lstm神经网络的海浪信息预测方法及***
CN114648060A (zh) 基于机器学习的故障信号规范化处理及分类方法
CN114897264A (zh) 一种基于迁移学习的小样本场景下光伏出力区间预测方法
CN116881624B (zh) 复合型极端事件预报方法、装置、计算机设备和存储介质
CN117408167A (zh) 基于深度神经网络的泥石流灾害易发性预测方法
CN113449920A (zh) 一种风电功率预测方法、***及计算机可读介质
CN116796649A (zh) 一种基于机器学习的spei粗分辨率数据空间降尺度方法及装置
CN116341767A (zh) 基于随机森林的新能源功率预测特征递归筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230627