CN111414717A - 一种基于XGBoost-LightGBM的机组功率预测方法 - Google Patents

一种基于XGBoost-LightGBM的机组功率预测方法 Download PDF

Info

Publication number
CN111414717A
CN111414717A CN202010135920.XA CN202010135920A CN111414717A CN 111414717 A CN111414717 A CN 111414717A CN 202010135920 A CN202010135920 A CN 202010135920A CN 111414717 A CN111414717 A CN 111414717A
Authority
CN
China
Prior art keywords
xgboost
ightgbm
data
prediction method
unit power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010135920.XA
Other languages
English (en)
Inventor
陈棋
杨秦敏
陈积明
王琳
孙优贤
孙勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Zhejiang Windey Co Ltd
Original Assignee
Zhejiang University ZJU
Zhejiang Windey Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Zhejiang Windey Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202010135920.XA priority Critical patent/CN111414717A/zh
Publication of CN111414717A publication Critical patent/CN111414717A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于XGBoost‑LightGBM的机组功率预测方法,包括以下步骤:离线建模;收集训练样本集;对于训练集数据采用XGBoost做特征提取;划分训练集和测试集;学习出LightGBM模型;在线预测。上述技术方案采用极端梯度增强算法用于对特征的选择,筛选出对输出功率的预测更为有效和敏感的特征,将筛选出的有效特征变量代入到Light Gradient Boosting Machine模型,建立功率预测模型,该技术方案充分考虑了采集到的变量对机组功率预测的有效性,对于风力发电机组功率预测具有更高的准确性。

Description

一种基于XGBoost-LightGBM的机组功率预测方法
技术领域
本发明涉及风力发电领域,尤其涉及一种基于XGBoost-LightGBM的机组功率预测方法。
背景技术
由于社会经济快速发展,世界各国对能源资源的需求出现井喷式增长,导致常规化石能源的开采及消耗大幅度攀升,并由此带来常规化石能源的枯竭及环境污染等问题。为了应对出现的能源危机,世界各国已经从两个方面来解决这些问题:一方面通过采取相应的措施来控制化石能源的开采,通过优化工业产业结构来实现节能减排;另一方面积极探索新能源技术,大力开发经济环保的可持续能源。风力发电就是在能源出现危机的环境下快速发展起来的,它不像煤、石油等常规化石能源在使用的过程中会对自然环境造成污染,再加上风能的获取范围广泛且可以循环利用等优点,使得风力发电技术在可持续能源研发和利用领域具有重要意义。
有资料显示,以风力发电为代表的装备是目前最有发展前景的新能源高端装备,大力发展以风力发电为代表的新能源装备已成为我国的战略选择。但风电机组结构复杂,多变的边界条件和运行工况更是加剧了机组能效的不确定性,使得传统的基于机组信息的功率预测方法难以适用,带来了高成本、低效率、低精度、机组差异性大等问题。
风机功率预测通常分为物理方法和统计方法。运用物理方法进行风机功率预测,需要涉及的建模对象很多,例如,需要风机所在地周围的障碍物、温度以及等高线等信息作为参考进行分析。由于数值气象预报模型的数据更新速度不够快,所以物理方法适用于中期预测。利用统计方法来建立预测模型,实质是建立***输入与风电功率之间的映射关系,可以直接利用气象数据对发电功率进行预测。主要方法有神经网络、粒子群算法、灰色理论算法和支持向量机等。针对预测模型普遍存在的延时问题,有些学者先通过离散小波变换将信号分解为高低频段的信号,再用遗传算法优化的BP神经网络分别进行建模,最后求和各层预测信号。有些学者利用小波变换将原始风速信号分解为高频部分和低频部分,针对高频信号相邻的两个数据之间相似度较低,波动较大的特点,采用滑动平均法进行预测,而低频信号仍然采用持续法预测,最后通过小波重构以及风电功率特性曲线转换得到风电功率预测值。还有采用人工蜂群算法优化得到神经网络的权值和阈值,构建ABC-BP神经网络风电功率预测模型。但是,以上方法都有其自己的适用范围和局限性,使得有时预测效果不佳。
中国专利文献CN104636823A公开了一种“风电功率预测方法”。包括以下步骤:收集样本数据并进行处理;利用处理后的样本数据建立BP神经网络模型,对BP神经网络模型进行训练,得到最终的权值、阈值以及预测值相对于样本值的相对误差序列;根据训练完毕的权值、阈值求得输出功率的初始预测值;根据相对误差的序列,利用马尔科夫链误差修正模型计算输出功率的初始预测值对应的计算相对误差状态;将输出功率的初始预测值与与其对应的计算相对误差状态结合,计算得到修正功率。上述技术方案存在局限性,适用范围有限,不适用于中期预测。
发明内容
本发明主要解决原有的技术问题,提供一种基于XGBoost-LightGBM的机组功率预测方法,采用极端梯度增强算法用于对特征的选择,筛选出对输出功率的预测更为有效和敏感的特征,将筛选出的有效特征变量代入到Light Gradient Boosting Machine模型,建立功率预测模型,该技术方案充分考虑了采集到的变量对机组功率预测的有效性,对于风力发电机组功率预测具有更高的准确性。
本发明的上述技术问题主要是通过下述技术方案得以解决的:本发明包括以下步骤:
①离线建模;
②收集训练样本集;
③对于训练集数据采用XGBoost做特征提取;
④划分训练集和测试集;
⑤学习出LightGBM模型;
⑥在线预测。
作为优选,所述的步骤1离线建模过程如下:
假设风电机组运行过程中采集的监测数据构成原始数据集
X=[x1,x2,…,xn]T∈Rn×m
其中m表示监控变量的个数,n表示样本个数,xi∈Rn×m,i=1,…,n表示第i个样本,Y=[y1,y2,L,yn]T∈Rn×1,yi∈R,i=1,L,n表示第i个样本的功率值。
作为优选,所述的步骤2收集的训练样本集,即风电机组运行SCADA数据,包括风机状态、功率、风速、风向、温度、机舱位置、对风误差、转速、转矩、桨距角、电网参数。
作为优选,所述的步骤3特征提取通过XGBoost降低预处理后的原始数据集的维度,在保留数据集主要信息的同时,减少模型的计算量。
作为优选,所述的步骤3对于给定的数据集,在树模型构建的过程中,每一层贪心地选取一个特征分割点作为叶子节点,使得在分割之后整棵树增益值最大,分割过程中,每个叶子节点的权值可以表示为w(gi,hi),其中
Figure BDA0002397322710000041
Figure BDA0002397322710000042
训练误差
Figure BDA0002397322710000043
表示目标值和预测值之间的差距,根据所有叶子节点的权值,考虑每个特征作为分割点的增益gain,有:
Figure BDA0002397322710000044
XGBoost在每一次迭代的时候都会增加一棵树,则构建K棵树的线性组合为
Figure BDA0002397322710000045
其中,F表征包含所有树的函数空间,fk(xi)表示的是第i个样本在第k棵树中被分类到所在叶子的权重。决策树模型作为一种非参数监督式学习模型,不需要对数据有任何的先验假设,能够快速地根据数据的特征找到决策规则。而XGBoost在决策树的基础上采用了集成策略,利用梯度提升算法不断减小前面生成的决策树的损失,并产生新树构成模型,确保最终决策的可靠性。
作为优选,所述的步骤3中XGBoost根据特征***的次数FScore、特征平均增益值Average Gain或特征平均覆盖率Average Cover来作为其构建决策树的依据,以便准确的完成分类任务,对于上述3种重要性度量指标,有
FScore=|X| (5)
Figure BDA0002397322710000046
Figure BDA0002397322710000047
其中,X是所求特征分类到叶子节点的集合;gain是X中每个叶子节点由式(3)得到的在分割时节点增益值;cover是X中落在每个节点的样本个数。
作为优选,所述的步骤5中的Light GBM包括GOSS和EFB,所述GOS技术的具体操作为:对数据集进行排序,按照梯度绝对值排序。排序以后挑选前a*100%的数据集。对剩余的数据进行随机抽样,比例为b*100%,之后具体计算信息增益时,对随机抽取的数据放大一个常数。此项功能可以实现剔除梯度相对较小的数据集,筛选梯度较大的数据集,用这部分的数据计算信息增益,此时计算出的信息增益肯定占的比重较大。GOSS减少了需要分析的数据量,也保证了计算信息增益时能得到较好的效果。GOSS的理论部分:
输入空间为χs,梯度空间为ζ。假设我们独立同分布的数据集,维度为n,如{x1,...,xn},其中每个xi是在空间χs中具有维度s的向量。在每次梯度增强迭代中,损失函数相对于模型输出的负梯度表示为{g1,...,gn}。决策树模型将具有最大信息增益的特征分割成每个节点。对于GBDT,信息增益通常是通过***后的方差来衡量的,定义如下,
设O是决策树固定节点上的训练数据集。这个节点在点d处的***特征j的方差增益被定义为
Figure BDA0002397322710000051
其中
Figure BDA0002397322710000052
对特征j,决策树算法选择
Figure BDA0002397322710000053
并计算最大的信息增益
Figure BDA0002397322710000054
然后,在节点
Figure BDA0002397322710000055
根据特征j*分割成左侧子节点和右侧子节点。在GOSS方法中,首先是对训练样本进行排序,排序准则是训练样本的梯度绝对值,将所有训练样本从大到小排下来;其次,保留较大梯度的top-a×100%数据集并得到一个数据子集A;那么,对于剩余集合(1-a)×100%具有较小梯度的实例Ac,我们进一步随机地采样一个大小为b×|Ac|的子集B;最后,我们根据子集A∪B的估计方差增益
Figure BDA0002397322710000056
分割数据,
Figure BDA0002397322710000061
其中
Figure BDA0002397322710000062
系数
Figure BDA0002397322710000063
被用于将B上的梯度之和归一化为Ac的大小。
作为优选,所述的步骤5中的EFB技术为特征捆绑,将互斥特征进行捆绑,即它们很少同时取非零值,以有效减少特征数量。寻找最优的捆绑特征在理论上可以证明是NP-hard问题,无法用枚举方法得出,实际操作中用贪心算法逼近最优解,这就能够减少特征数量的同时不会影响***节点的准确性。高维数据在很多情况下都很稀疏。其稀疏性可以让我们设计出减少特征数量并且不影响模型效果的方法。特征空间是稀疏时,会有一些特征会有相互排斥的情况,排斥的意义就是两个特征的具体数值不会同时为零,经过特征数值遍历扫描后进行特征捆绑,构建特征直方图。这样,直方图构建的复杂度从(n(数据)×n(特征))变为(n(数据)×n(捆绑特征)),而n(捆绑特征)都会比n(特征)小,n(捆绑特征)的减小会加快模型的训练速度,并在精确程度上并不会损失太大。
作为优选,所述的步骤6包括在线采集风力发电机组运行过程的数据,并对于采集到的样本点,使用训练好的LightGBM模型对测试集的输出功率进行预测。
本发明的有益效果是:采用极端梯度增强算法用于对特征的选择,筛选出对输出功率的预测更为有效和敏感的特征,将筛选出的有效特征变量代入到Light GradientBoosting Machine模型,建立功率预测模型,该技术方案充分考虑了采集到的变量对机组功率预测的有效性,对于风力发电机组功率预测具有更高的准确性。
具体实施方式
下面通过实施例,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种基于XGBoost-LightGBM的机组功率预测方法,包括以下步骤:
1.离线建模。过程如下:
假设风电机组运行过程中采集的监测数据构成原始数据集
X=[x1,x2,…,xn]T∈Rn×m
其中m表示监控变量的个数,n表示样本个数,xi∈Rn×m,i=1,…,n表示第i个样本,Y=[y1,y2,L,yn]T∈Rn×1,yi∈R,i=1,L,n表示第i个样本的功率值。
2.收集训练样本集。收集的训练样本集,即风电机组运行SCADA数据,包括风机状态、功率、风速、风向、温度、机舱位置、对风误差、转速、转矩、桨距角、电网参数。
3.对于训练集数据采用XGBoost做特征提取。通过XGBoost降低预处理后的原始数据集的维度,在保留数据集主要信息的同时,减少模型的计算量。
对于给定的数据集,在树模型构建的过程中,每一层贪心地选取一个特征分割点作为叶子节点,使得在分割之后整棵树增益值最大,分割过程中,每个叶子节点的权值可以表示为w(gi,hi),其中
Figure BDA0002397322710000071
Figure BDA0002397322710000072
训练误差
Figure BDA0002397322710000073
表示目标值和预测值之间的差距,根据所有叶子节点的权值,考虑每个特征作为分割点的增益gain,有:
Figure BDA0002397322710000074
决策树模型作为一种非参数监督式学习模型,不需要对数据有任何的先验假设,能够快速地根据数据的特征找到决策规则。而XGBoost在决策树的基础上采用了集成策略,利用梯度提升算法不断减小前面生成的决策树的损失,并产生新树构成模型,确保最终决策的可靠性。
XGBoost在每一次迭代的时候都会增加一棵树,则构建K棵树的线性组合为
Figure BDA0002397322710000081
其中,F表征包含所有树的函数空间,fk(xi)表示的是第i个样本在第k棵树中被分类到所在叶子的权重。
XGBoost根据特征***的次数FScore、特征平均增益值Average Gain或特征平均覆盖率Average Cover来作为其构建决策树的依据,以便准确的完成分类任务,对于上述3种重要性度量指标,有
FScore=|X| (5)
Figure BDA0002397322710000082
Figure BDA0002397322710000083
其中,X是所求特征分类到叶子节点的集合;gain是X中每个叶子节点由式(3)得到的在分割时节点增益值;cover是X中落在每个节点的样本个数。
4.划分训练集和测试集。采用简单交叉验证方法,找到合适的简单交叉验证划分比率,即测试集在数据集中的占比,将降维后的数据集划分成训练集和测试集。其中训练集用于LightGBM算法学习出功率预测模型,测试集用于检验学习好的LightGBM模型的效果。
5.学习出LightGBM模型。其中,Light GBM包括GOSS和EFB。
GOSS技术能够实现剔除梯度相对较小的数据集,筛选梯度较大的数据集,用这部分的数据计算信息增益,此时计算出的信息增益肯定占的比重较大。GOSS减少了需要分析的数据量,也保证了计算信息增益时能得到较好的效果。
GOSS技术具体操作为:对数据集进行排序,按照梯度绝对值排序。排序以后挑选前a*100%的数据集。对剩余的数据进行随机抽样,比例为b*100%,之后具体计算信息增益时,对随机抽取的数据放大一个常数。
GOSS的理论部分:
输入空间为χs,梯度空间为ζ。假设我们独立同分布的数据集,维度为n,如{x1,...,xn},其中每个xi是在空间χs中具有维度s的向量。在每次梯度增强迭代中,损失函数相对于模型输出的负梯度表示为{g1,...,gn}。决策树模型将具有最大信息增益的特征分割成每个节点。对于GBDT,信息增益通常是通过***后的方差来衡量的,定义如下,
设O是决策树固定节点上的训练数据集。这个节点在点d处的***特征j的方差增益被定义为
Figure BDA0002397322710000091
其中
Figure BDA0002397322710000092
对特征j,决策树算法选择
Figure BDA0002397322710000093
并计算最大的信息增益
Figure BDA0002397322710000094
然后,在节点
Figure BDA0002397322710000095
根据特征j*分割成左侧子节点和右侧子节点。在GOSS方法中,首先是对训练样本进行排序,排序准则是训练样本的梯度绝对值,将所有训练样本从大到小排下来;其次,保留较大梯度的top-a×100%数据集并得到一个数据子集A;那么,对于剩余集合(1-a)×100%具有较小梯度的实例Ac,我们进一步随机地采样一个大小为b×|Ac|的子集B;最后,我们根据子集A∪B的估计方差增益
Figure BDA0002397322710000101
分割数据,
Figure BDA0002397322710000102
其中
Figure BDA0002397322710000103
系数
Figure BDA0002397322710000104
被用于将B上的梯度之和归一化为Ac的大小。
因此,在GOSS中,使用较小实例子集的估计
Figure BDA0002397322710000105
代替所有数据集上的准确值来确定***点。这样可以大大减少计算成本。在减少计算成本的同时,可以通过下面定理证明在计算精度上也不会降低很多,且要优于随机抽样得到的结果。将近似误差写为
Figure BDA0002397322710000106
Figure BDA0002397322710000107
有1-δ的可能得到
Figure BDA0002397322710000108
其中
Figure BDA0002397322710000109
并且
Figure BDA00023973227100001010
可以得到:
①GOSS的渐进逼近比率是
Figure BDA00023973227100001011
随着n→∞,误差会趋向于0。这意味着当数据量很大时,逼近是相当准确的。
②随机抽样中a=0是GOSS的一个特例,在许多情况下,GOSS可以胜过随机抽样,在C0,β>Ca,β-a的条件下,这相当于
Figure BDA0002397322710000111
Figure BDA0002397322710000112
接下来,讨论GOSS的泛化能力。我们考虑
Figure BDA0002397322710000113
中的泛化误差,此泛化误差代表抽样得出的数据集合所得方差波动与完整数据集合的方差波动的差距,可得
Figure BDA0002397322710000114
因此,如果GOSS近似准确,则GOSS的泛化误差会接近运用完整数据集合计算得到的误差。另一方面,抽样会令基础学习树多样化,很大程度上能够提高模型泛化性能。
EFB技术为特征捆绑,将互斥特征进行捆绑,即它们很少同时取非零值,以有效减少特征数量。寻找最优的捆绑特征在理论上可以证明是NP-hard问题,无法用枚举方法得出,实际操作中用贪心算法逼近最优解,这就能够减少特征数量的同时不会影响***节点的准确性。
高维数据在很多情况下都很稀疏。其稀疏性可以让我们设计出减少特征数量并且不影响模型效果的方法。特征空间是稀疏时,会有一些特征会有相互排斥的情况,排斥的意义就是两个特征的具体数值不会同时为零,经过特征数值遍历扫描后进行特征捆绑,构建特征直方图。这样,直方图构建的复杂度从(n(数据)×n(特征))变为(n(数据)×n(捆绑特征)),而n(捆绑特征)都会比n(特征)小,n(捆绑特征)的减小会加快模型的训练速度,并在精确程度上并不会损失太大。
EFB算法在极大程度上减少了特征维度,捆绑以后的特征中值为零的情况可以大量减少。还有一种方法,从特征表出发,以直方图为基础的算法,这样也可以达到记录非零值的特征,略过零特征值的情况。由此得到的数据集合,数量级别从O(data)变为O(atanon_zero_d)。以上方法看起来比较高效,但为了在整体树形成过程中存储各个特征表,需要额外的计算代价以及内存。Light GBM已经将此项优化作为功能之一,仍然可以在捆绑稀疏时使用,不会与EFB产生冲突。
6.在线预测。包括在线采集风力发电机组运行过程的数据,并对于采集到的样本点,使用训练好的LightGBM模型对测试集的输出功率进行预测。

Claims (9)

1.一种基于XGBoost-LightGBM的机组功率预测方法,其特征在于,包括以下步骤:
①离线建模;
②收集训练样本集;
③对于训练集数据采用XGBoost做特征提取;
④划分训练集和测试集;
⑤学习出LightGBM模型;
⑥在线预测。
2.根据权利要求1所述的一种基于XGBoost-LightGBM的机组功率预测方法,其特征在于,所述步骤1离线建模过程如下:
假设风电机组运行过程中采集的监测数据构成原始数据集
X=[x1,x2,…,xn]T∈Rn×m
其中m表示监控变量的个数,n表示样本个数,xi∈Rn×m,i=1,…,n表示第i个样本,Y=[y1,y2,L,yn]T∈Rn×1,yi∈R,i=1,L,n表示第i个样本的功率值。
3.根据权利要求1或2所述的一种基于XGBoost-LightGBM的机组功率预测方法,其特征在于,所述步骤2收集的训练样本集,即风电机组运行SCADA数据,包括风机状态、功率、风速、风向、温度、机舱位置、对风误差、转速、转矩、桨距角、电网参数。
4.根据权利要求1所述的一种基于XGBoost-LightGBM的机组功率预测方法,其特征在于,所述步骤3特征提取通过XGBoost降低预处理后的原始数据集的维度,在保留数据集主要信息的同时,减少模型的计算量。
5.根据权利要求1或4所述的一种基于XGBoost-LightGBM的机组功率预测方法,其特征在于,所述步骤3对于给定的数据集,在树模型构建的过程中,每一层贪心地选取一个特征分割点作为叶子节点,使得在分割之后整棵树增益值最大,分割过程中,每个叶子节点的权值可以表示为w(gi,hi),其中
Figure FDA0002397322700000021
Figure FDA0002397322700000022
训练误差
Figure FDA0002397322700000023
表示目标值和预测值之间的差距,根据所有叶子节点的权值,考虑每个特征作为分割点的增益gain,有:
Figure FDA0002397322700000024
XGBoost在每一次迭代的时候都会增加一棵树,则构建K棵树的线性组合为
Figure FDA0002397322700000025
其中,F表征包含所有树的函数空间,fk(xi)表示的是第i个样本在第k棵树中被分类到所在叶子的权重。
6.根据权利要求1或5所述的一种基于XGBoost-LightGBM的机组功率预测方法,其特征在于,所述步骤3中XGBoost根据特征***的次数FScore、特征平均增益值Average Gain或特征平均覆盖率Average Cover来作为其构建决策树的依据,以便准确的完成分类任务,对于上述3种重要性度量指标,有
FScore=|X| (5)
Figure FDA0002397322700000026
Figure FDA0002397322700000027
其中,X是所求特征分类到叶子节点的集合;gain是X中每个叶子节点由式(3)得到的在分割时节点增益值;cover是X中落在每个节点的样本个数。
7.根据权利要求6所述的一种基于XGBoost-LightGBM的机组功率预测方法,其特征在于,所述步骤5中的Light GBM包括GOSS和EFB,所述GOSS技术的具体操作为:对数据集进行排序,按照梯度绝对值排序。排序以后挑选前a*100%的数据集。对剩余的数据进行随机抽样,比例为b*100%,之后具体计算信息增益时,对随机抽取的数据放大一个常数。
8.根据权利要求7所述的一种基于XGBoost-LightGBM的机组功率预测方法,其特征在于,所述步骤5中的EFB技术为特征捆绑,将互斥特征进行捆绑,即它们很少同时取非零值,以有效减少特征数量。
9.根据权利要求8所述的一种基于XGBoost-LightGBM的机组功率预测方法,其特征在于,所述步骤6包括在线采集风力发电机组运行过程的数据,并对于采集到的样本点,使用训练好的LightGBM模型对测试集的输出功率进行预测。
CN202010135920.XA 2020-03-02 2020-03-02 一种基于XGBoost-LightGBM的机组功率预测方法 Pending CN111414717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010135920.XA CN111414717A (zh) 2020-03-02 2020-03-02 一种基于XGBoost-LightGBM的机组功率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010135920.XA CN111414717A (zh) 2020-03-02 2020-03-02 一种基于XGBoost-LightGBM的机组功率预测方法

Publications (1)

Publication Number Publication Date
CN111414717A true CN111414717A (zh) 2020-07-14

Family

ID=71491102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010135920.XA Pending CN111414717A (zh) 2020-03-02 2020-03-02 一种基于XGBoost-LightGBM的机组功率预测方法

Country Status (1)

Country Link
CN (1) CN111414717A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967652A (zh) * 2020-07-22 2020-11-20 国网浙江省电力有限公司电力科学研究院 一种双层协同实时校正光伏预测方法
CN112364901A (zh) * 2020-10-30 2021-02-12 上海欣方智能***有限公司 一种基于lgb算法的诈骗电话识别方法
CN112580899A (zh) * 2021-02-23 2021-03-30 国能日新科技股份有限公司 一种融合机器学习模型的中长期风力发电预测方法及***
CN112598148A (zh) * 2020-09-30 2021-04-02 新天绿色能源股份有限公司 基于协同表达和LightGBM算法的风机变桨电机温度故障预警方法
CN112598172A (zh) * 2020-12-21 2021-04-02 北京华能新锐控制技术有限公司 一种风电机组轴承温度预警方法
CN113088359A (zh) * 2021-03-30 2021-07-09 重庆大学 一种工艺参数驱动的三甘醇脱水装置三甘醇损耗量在线预测方法
CN113221453A (zh) * 2021-04-30 2021-08-06 华风数据(深圳)有限公司 风电机组齿轮箱输出轴故障监测预警方法
CN113297527A (zh) * 2021-06-09 2021-08-24 四川大学 基于多源城市大数据的pm2.5全面域时空计算推断方法
CN113378335A (zh) * 2021-05-07 2021-09-10 广州观必达数据技术有限责任公司 一种基于机器学习的供水管网压力预测方法及***
CN113449934A (zh) * 2021-08-31 2021-09-28 国能日新科技股份有限公司 一种基于数据迁移的风力发电功率预测方法及装置
CN113901448A (zh) * 2021-09-03 2022-01-07 燕山大学 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN114997475A (zh) * 2022-05-17 2022-09-02 电子科技大学 一种基于Kmeans的融合模型光伏发电短期预测方法
CN115544115A (zh) * 2022-09-24 2022-12-30 湖南万脉医疗科技有限公司 一种呼吸机故障预测方法和呼吸机
CN116861260A (zh) * 2023-09-04 2023-10-10 成都星云智联科技有限公司 一种基于遗传算法和LightGBM的鼓风机电机故障诊断方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760945A (zh) * 2014-12-19 2016-07-13 国家电网公司 风力发电功率的确定方法及装置
CN110472778A (zh) * 2019-07-29 2019-11-19 上海电力大学 一种基于Blending集成学习的短期负荷预测方法
CN110570030A (zh) * 2019-08-22 2019-12-13 国网山东省电力公司经济技术研究院 基于深度学习的风电集群功率区间预测的方法及***
CN110717610A (zh) * 2018-07-11 2020-01-21 华北电力大学(保定) 一种基于数据挖掘的风电功率预测方法
CN110782658A (zh) * 2019-08-16 2020-02-11 华南理工大学 一种基于LightGBM算法的交通量预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760945A (zh) * 2014-12-19 2016-07-13 国家电网公司 风力发电功率的确定方法及装置
CN110717610A (zh) * 2018-07-11 2020-01-21 华北电力大学(保定) 一种基于数据挖掘的风电功率预测方法
CN110472778A (zh) * 2019-07-29 2019-11-19 上海电力大学 一种基于Blending集成学习的短期负荷预测方法
CN110782658A (zh) * 2019-08-16 2020-02-11 华南理工大学 一种基于LightGBM算法的交通量预测方法
CN110570030A (zh) * 2019-08-22 2019-12-13 国网山东省电力公司经济技术研究院 基于深度学习的风电集群功率区间预测的方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAN, LI等: "Deep Feature Combination Based Multi-Model Wind Power Prediction", 《2019 IEEE 2ND INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATION ENGINEERING TECHNOLOGY》 *
李占山等: "基于 XGBoost 的特征选择算法", 《通信学报》 *
郭佳琦: "基于机器学习的Gstore消费额预测", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967652A (zh) * 2020-07-22 2020-11-20 国网浙江省电力有限公司电力科学研究院 一种双层协同实时校正光伏预测方法
CN111967652B (zh) * 2020-07-22 2023-10-24 国网浙江省电力有限公司电力科学研究院 一种双层协同实时校正光伏预测方法
CN112598148A (zh) * 2020-09-30 2021-04-02 新天绿色能源股份有限公司 基于协同表达和LightGBM算法的风机变桨电机温度故障预警方法
CN112364901A (zh) * 2020-10-30 2021-02-12 上海欣方智能***有限公司 一种基于lgb算法的诈骗电话识别方法
CN112598172A (zh) * 2020-12-21 2021-04-02 北京华能新锐控制技术有限公司 一种风电机组轴承温度预警方法
CN112580899A (zh) * 2021-02-23 2021-03-30 国能日新科技股份有限公司 一种融合机器学习模型的中长期风力发电预测方法及***
CN113088359A (zh) * 2021-03-30 2021-07-09 重庆大学 一种工艺参数驱动的三甘醇脱水装置三甘醇损耗量在线预测方法
CN113221453A (zh) * 2021-04-30 2021-08-06 华风数据(深圳)有限公司 风电机组齿轮箱输出轴故障监测预警方法
CN113378335A (zh) * 2021-05-07 2021-09-10 广州观必达数据技术有限责任公司 一种基于机器学习的供水管网压力预测方法及***
CN113297527B (zh) * 2021-06-09 2022-07-26 四川大学 基于多源城市大数据的pm2.5全面域时空计算推断方法
CN113297527A (zh) * 2021-06-09 2021-08-24 四川大学 基于多源城市大数据的pm2.5全面域时空计算推断方法
CN113449934A (zh) * 2021-08-31 2021-09-28 国能日新科技股份有限公司 一种基于数据迁移的风力发电功率预测方法及装置
CN113901448A (zh) * 2021-09-03 2022-01-07 燕山大学 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN114997475A (zh) * 2022-05-17 2022-09-02 电子科技大学 一种基于Kmeans的融合模型光伏发电短期预测方法
CN114997475B (zh) * 2022-05-17 2024-04-09 电子科技大学 一种基于Kmeans的融合模型光伏发电短期预测方法
CN115544115A (zh) * 2022-09-24 2022-12-30 湖南万脉医疗科技有限公司 一种呼吸机故障预测方法和呼吸机
CN116861260A (zh) * 2023-09-04 2023-10-10 成都星云智联科技有限公司 一种基于遗传算法和LightGBM的鼓风机电机故障诊断方法

Similar Documents

Publication Publication Date Title
CN111414717A (zh) 一种基于XGBoost-LightGBM的机组功率预测方法
CN113962364B (zh) 一种基于深度学习的多因素用电负荷预测方法
CN110766200A (zh) 一种基于K-means均值聚类的风电机组发电功率预测方法
CN111832812A (zh) 一种基于深度学习的风电功率短期预测方法
CN114219181A (zh) 基于迁移学习的风电功率概率预测方法
CN114021483A (zh) 基于时域特征与XGBoost的超短期风电功率预测方法
CN114386718A (zh) 一种结合粒子群神经网络的风电场输出功率短时预测算法
CN115995810A (zh) 一种考虑气象波动自适应匹配的风电功率预测方法及***
Ma et al. Very short-term renewable energy power prediction using XGBoost optimized by TPE algorithm
CN107844872B (zh) 一种用于风力发电的短期风速预报方法
CN112766590B (zh) 一种居民典型电力消费模式的提取方法与***
CN114298132A (zh) 风电功率预测方法及装置、电子设备
CN113297805A (zh) 一种风电功率爬坡事件间接预测方法
CN116885691B (zh) 一种风电功率爬坡事件间接预测方法
Wenting et al. Short-term wind power forecasting model based on random forest algorithm and TCN
CN113449466B (zh) 基于pca和混沌gwo优化relm的太阳辐射预测方法及***
CN113962357A (zh) 基于gwo-wnn的分布式光伏功率数据虚拟采集方法
Hu et al. Intelligent design and optimization of wind turbines
CN113344243A (zh) 基于改进哈里斯鹰算法优化elm的风速预测方法及***
Sangeetha et al. Integrating Machine Learning Algorithms for Predicting Solar Power Generation
CN111340291B (zh) 一种基于云计算技术的中长期电力负荷组合预测***及方法
CN116307089A (zh) 一种基于arma和svr的风速预测方法
Liu et al. Wind power prediction based on meteorological data visualization
Li et al. Short-term forecasting method for lighting energy consumption of large buildings based on time series analysis
Li et al. Dynamic Wind Farm Power Prediction Method Based on Cluster Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination