CN115688588B - 一种基于改进xgb方法的海表面温度日变化振幅预测方法 - Google Patents

一种基于改进xgb方法的海表面温度日变化振幅预测方法 Download PDF

Info

Publication number
CN115688588B
CN115688588B CN202211376526.0A CN202211376526A CN115688588B CN 115688588 B CN115688588 B CN 115688588B CN 202211376526 A CN202211376526 A CN 202211376526A CN 115688588 B CN115688588 B CN 115688588B
Authority
CN
China
Prior art keywords
model
xgb
representing
lds
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211376526.0A
Other languages
English (en)
Other versions
CN115688588A (zh
Inventor
宋振亚
冯跃玲
肖衡
杨晓丹
高振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Institute of Oceanography MNR
Original Assignee
First Institute of Oceanography MNR
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Institute of Oceanography MNR filed Critical First Institute of Oceanography MNR
Priority to CN202211376526.0A priority Critical patent/CN115688588B/zh
Publication of CN115688588A publication Critical patent/CN115688588A/zh
Application granted granted Critical
Publication of CN115688588B publication Critical patent/CN115688588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及海洋表面温度预测技术领域,提供一种基于改进XGB方法的海表面温度日变化振幅预测方法,包括如下的步骤:S1:获取数据集并进行预处理,所述数据集包括风速数据及短波辐射值数据;S2:建立XGBoost模型;S3:应用LDS算法修改XGBoost模型的算法权重,建立LDS‑XGB模型;S4:从数据集中选出训练集,利用训练集对LDS‑XGB模型进行训练;S5:利用训练后的LDS‑XGB模型对海表面温度日变化振幅进行预测。本发明创新性地在SST日变化振幅预测中使用XGB算法,将机器学***滑,使得传统不平衡分类方法可以运用到回归问题中。

Description

一种基于改进XGB方法的海表面温度日变化振幅预测方法
技术领域
本发明涉及海洋表面温度预测技术领域,具体涉及一种基于改进XGB方法的海表面温度日变化振幅预测方法。
背景技术
SST代表海表面温度,目前对于SST日变化研究的主要方法有观测研究、经验模型和数值模拟。
海洋观测的发展极大促进了SST日变化过程研究的发展,但受限于观测手段和数据,对SST日变化过程的理解仍存在较大不足。
目前,利用机器学习对SST日变化进行预测这一领域存在空缺。具体表现在:
(1)传统经验模型虽能够抓住SST日变化基本特征,但应用范围有限、精度不高。目前人们对于SST日变化的理解仍存在较大不足,传统经验模型仍存在精度不高、计算复杂等问题,这使得目前对SST日变化过程的合理模拟和预测仍是一个挑战。
(2)数值模拟是模拟和预测SST日变化过程的有效手段,但受限于数值模式发展水平,精准的模拟和预测仍是一个挑战。此外,由于对SST日变化过程本身的不了解以及模式本身存在参数化等不确定性因素,模拟的精度也很难保证。
(3)机器学习在海洋环境研究、模拟和预测等方面的应用越来越受到重视,在物理约束下有望在SST日变化过程研究方面发挥重要作用。机器学习方法在海温等预测方面取得了***的成果,但目前利用机器学习对SST日变化进行预测这一领域存在空缺。
发明内容
为解决背景技术中存在的问题,本发明提供一种基于改进XGB方法的海表面温度日变化振幅预测方法,其包括如下的步骤:
S1:获取数据集并进行预处理,所述数据集包括风速数据及短波辐射值数据;
S2:建立XGBoost模型;
S3:应用LDS算法修改XGBoost模型的算法权重,建立LDS-XGB模型;
S4:从数据集中选出训练集,利用训练集对LDS-XGB模型进行训练;
S5:利用训练后的LDS-XGB模型对海表面温度日变化振幅进行预测。
优选的方案中,所述数据集包括若干天内每间隔三小时的平均风速数据,以及每间隔三小时的平均短波辐射值数据。
进一步,所述步骤S2的具体过程包括:
XGBoost模型是基于当前的模型加入另一个模型,使得组合模型的效果优于当前模型的机器学习算法模型,其建立过程如下:
Figure GDA0004245145530000021
式中,
Figure GDA0004245145530000022
表示模型的预测值,K表示决策树的数量,fk表示第k棵树模型,xi表示第i个训练样本,/>
Figure GDA0004245145530000023
表示所有决策树模型的集合;
构造目标函数,然后对其进行优化:
Figure GDA0004245145530000024
式中,n为训练样本的数量;目标函数由两部分组成,一部分是损失函数l,为均方误差,另一部分是正则化项Ω,即每棵树的复杂度之和,目的是控制模型的复杂度,防止过拟合;
公式(2)的树集合模型以函数作为参数,所以不能直接使用传统的优化方法进行优化,而是采用加法学习方式(Additvetraining)训练;每一次保留原来的模型不变,加入一个新的函数f到模型中,如下:
Figure GDA0004245145530000031
式中:
Figure GDA0004245145530000032
为第i个样本迭代t次后的预测值;/>
Figure GDA0004245145530000033
为第i个样本的初始值;
通过最小化损失函数来构建最优模型,得到第t轮的目标函数:
Figure GDA0004245145530000034
式中,cons为常数项,为前t-1棵树的复杂度;
对第t轮的目标函数进行二阶泰勒展开:
Figure GDA0004245145530000035
Figure GDA0004245145530000036
式中:gi,hi分别表示目标函数对
Figure GDA0004245145530000037
的一阶导数和二阶导数;
由于损失函数
Figure GDA0004245145530000038
是固定值,因此将其并入常数项cons;常数项对优化求解没有影响,因此可以去除;目标函数只依赖于每个样本点的在损失函数上的一阶导数和二阶导数,得到新的目标函数:
Figure GDA0004245145530000039
接下来考虑决策树的复杂度项Ω;首先定义每棵树,我们将树结构表达式转化为叶子结构的表达式;将决策树分为结构部分q和叶子权重部分ω;
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,…,T} (8)
式中:T为回归树的叶子节点的总数,ω是由叶子节点的值组成的T维向量,q(x)表示样本x在某个叶子节点上,ωq(x)是该节点的得分,即该样本的模型预测值;
XGBoost算法中对树的复杂度项包含了两个部分,一个是叶子节点总数,一个是叶子节点得分,针对每个叶子结点的得分添加L2平滑项,用以避免过拟合;
Figure GDA0004245145530000041
式中:
Figure GDA0004245145530000042
为叶子节点向量的模;γ表示节点切分的难度,λ表示L2正则化系数,γ和λ的值表示对具有较多叶子节点的树的惩罚力度;
根据叶子结构重新改写目标函数:
Figure GDA0004245145530000043
式中:Ij={i|q(xi)=j}是叶子节点j上的样本集合;
目标函数中包含了T个相互独立的单变量二次函数;我们可以定义:
Figure GDA0004245145530000044
最终目标函数化简为:
Figure GDA0004245145530000045
对未知变量ωj求偏导,令导数为0,得到极值点后代入损失函数,得到极值
Figure GDA0004245145530000051
将/>
Figure GDA0004245145530000052
代入式(12)得到最优目标函数:
Figure GDA0004245145530000053
目标函数是用来衡量第t棵树结构的好坏,***过程中利用贪心算法遍历所有的分割点,分别计算损失值,然后选择增益值最大的分割点,增益损失的最大值数值越小,代表模型预测越好;最终增益表达式如下:
Figure GDA0004245145530000054
式中:
Figure GDA00042451455300000513
表示左子树得分,/>
Figure GDA00042451455300000514
表示右子树得分,/>
Figure GDA00042451455300000515
表示不分割时的得分,λ表示加入新节点引入的复杂度代价。若判定值大于0则可以分割,反之则不分割。
进一步,所述步骤S3的具体过程包括:
Figure GDA0004245145530000056
表示样本量为n的训练集,其中/>
Figure GDA0004245145530000057
表示输入,/>
Figure GDA0004245145530000058
表示标签,y是连续型的;
在标签空间y中,我们将y以相等的间隔划分为B组,
即[y0,y1),[y1,y2),…,[yB-1,yB);我们使用
Figure GDA0004245145530000059
来表示目标值的组索引,用
Figure GDA00042451455300000510
表示索引空间;
在SST日变化振幅的预测中,我们定义
Figure GDA00042451455300000511
根据δy计算训练集中的标签值SST日变化振幅的密度分布,称为经验密度分布;之前的研究表明,由于相邻标签上的数据样本之间存在依赖性,所以在标签值为连续的情况下,标签的经验密度分布并不能反映真实的标签密度分布;LDS使用核密度估计,来改善连续型数据集中的不平衡现象;
LDS使用一个对称核函数,我们选择使用高斯核函
Figure GDA00042451455300000512
高斯核函数是一个对称核函数,满足k(y,y′)=k(y′,y)和
Figure GDA0004245145530000061
它刻画了目标值y′和y之间的相似度;然后用经验密度分布与之进行卷积,得到一个新的分布,称为有效密度分布;计算公式如下:
Figure GDA0004245145530000062
式中,p(y)代表了经验密度分布,
Figure GDA0004245145530000063
代表了标签值y′的有效密度分布;
在一般的XGboost算法中,回归树损失函数一般选择为平方损失;通过计算,得到有效密度分布后,再利用重加权方法改进权重进行预测;
Figure GDA0004245145530000064
具体来说就是,我们通过将损失函数乘以每个训练样本的有效密度分布的倒数来对其进行加权;得到的损失函数为:
Figure GDA0004245145530000065
Figure GDA0004245145530000066
式中:
Figure GDA0004245145530000067
代表重加权后的损失函数。
本发明所达到的有益效果为:
在对SST日变化振幅预测中,采用Bagging,RF等机器学***滑,使得传统不平衡分类方法可以运用到回归问题中。
附图说明
图1是本发明的整体流程示意图;
图2是经验标签密度与误差分布图;
图3是有效标签密度与误差分布图;
图4是XGB模型预测结果示意图;
图5是LDS-XGB模型预测结果示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,另外,在以下的实施方式中记载的各结构的形态只不过是例示,本发明并不限定于在以下的实施方式中记载的各结构,在本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施方式都属于本发明保护的范围。
参照图1-5,一种基于改进XGB方法的海表面温度日变化振幅预测方法,其包括如下的步骤:S1:获取数据集并进行预处理,所述数据集包括风速数据及短波辐射值数据;S2:建立XGBoost模型;S3:应用LDS算法修改XGBoost模型的算法权重,建立LDS-XGB模型;S4:从数据集中选出训练集,利用训练集对LDS-XGB模型进行训练;S5:利用训练后的LDS-XGB模型对海表面温度日变化振幅进行预测。
所述步骤S2的具体过程包括:
XGBoost模型是基于当前的模型加入另一个模型,使得组合模型的效果优于当前模型的机器学习算法模型,其建立过程如下:
Figure GDA0004245145530000071
式中,
Figure GDA0004245145530000072
表示模型的预测值,K表示决策树的数量,fk表示第k棵树模型,xi表示第i个训练样本,/>
Figure GDA0004245145530000073
表示所有决策树模型的集合;
构造目标函数,然后对其进行优化:
Figure GDA0004245145530000081
式中,n为训练样本的数量;目标函数由两部分组成,一部分是损失函数l,为均方误差,另一部分是正则化项Ω,即每棵树的复杂度之和,目的是控制模型的复杂度,防止过拟合;
公式(2)的树集合模型以函数作为参数,所以不能直接使用传统的优化方法进行优化,而是采用加法学习方式(Additvetraining)训练;每一次保留原来的模型不变,加入一个新的函数f到模型中,如下:
Figure GDA0004245145530000082
式中:
Figure GDA0004245145530000083
为第i个样本迭代t次后的预测值;/>
Figure GDA0004245145530000084
为第i个样本的初始值;
通过最小化损失函数来构建最优模型,得到第t轮的目标函数:
Figure GDA0004245145530000085
式中,cons为常数项,为前t-1棵树的复杂度;
对第t轮的目标函数进行二阶泰勒展开:
Figure GDA0004245145530000086
Figure GDA0004245145530000087
式中:gi,hi分别表示目标函数对
Figure GDA0004245145530000088
的一阶导数和二阶导数;
由于损失函数
Figure GDA0004245145530000089
是固定值,因此将其并入常数项cons;常数项对优化求解没有影响,因此可以去除;目标函数只依赖于每个样本点的在损失函数上的一阶导数和二阶导数,得到新的目标函数:
Figure GDA0004245145530000091
接下来考虑决策树的复杂度项Ω;首先定义每棵树,我们将树结构表达式转化为叶子结构的表达式;将决策树分为结构部分q和叶子权重部分ω;
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,…,T} (8)
式中:T为回归树的叶子节点的总数,ω是由叶子节点的值组成的T维向量,q(x)表示样本x在某个叶子节点上,wq(x)是该节点的得分,即该样本的模型预测值;
XGBoost算法中对树的复杂度项包含了两个部分,一个是叶子节点总数,一个是叶子节点得分,针对每个叶子结点的得分添加L2平滑项,用以避免过拟合;
Figure GDA0004245145530000092
式中:
Figure GDA0004245145530000093
为叶子节点向量的模;γ表示节点切分的难度,λ表示L2正则化系数,γ和λ的值表示对具有较多叶子节点的树的惩罚力度;
根据叶子结构重新改写目标函数:
Figure GDA0004245145530000094
式中:Ij={i|q(xi)=j}是叶子节点j上的样本集合;
目标函数中包含了T个相互独立的单变量二次函数;我们可以定义:
Figure GDA0004245145530000095
最终目标函数化简为:
Figure GDA0004245145530000101
对未知变量ωj求偏导,令导数为0,得到极值点后代入损失函数,得到极值
Figure GDA0004245145530000102
将/>
Figure GDA0004245145530000103
代入式(12)得到最优目标函数:
Figure GDA0004245145530000104
目标函数是用来衡量第t棵树结构的好坏,***过程中利用贪心算法遍历所有的分割点,分别计算损失值,然后选择增益值最大的分割点,增益损失的最大值数值越小,代表模型预测越好;最终增益表达式如下:
Figure GDA0004245145530000105
式中:
Figure GDA00042451455300001013
表示左子树得分,/>
Figure GDA00042451455300001014
表示右子树得分,/>
Figure GDA00042451455300001015
表示不分割时的得分,λ表示加入新节点引入的复杂度代价。若判定值大于0则可以分割,反之则不分割。
进一步,所述步骤S3的具体过程包括:
Figure GDA0004245145530000107
表示样本量为n的训练集,其中/>
Figure GDA0004245145530000108
表示输入,/>
Figure GDA0004245145530000109
表示标签,y是连续型的;
在标签空间y中,我们将y以相等的间隔划分为B组,
即[y0,y1),[y1,y2),…,[yB-1,yB);我们使用
Figure GDA00042451455300001010
来表示目标值的组索引,用
Figure GDA00042451455300001011
表示索引空间;
在SST日变化振幅的预测中,我们定义
Figure GDA00042451455300001012
根据δy计算训练集中的标签值SST日变化振幅的密度分布,称为经验密度分布;之前的研究表明,由于相邻标签上的数据样本之间存在依赖性,所以在标签值为连续的情况下,标签的经验密度分布并不能反映真实的标签密度分布;LDS使用核密度估计,来改善连续型数据集中的不平衡现象;
LDS使用一个对称核函数,我们选择使用高斯核函
Figure GDA0004245145530000111
高斯核函数是一个对称核函数,满足k(y,y′)=k(y′,y)和
Figure GDA0004245145530000112
它刻画了目标值y′和y之间的相似度;然后用经验密度分布与之进行卷积,得到一个新的分布,称为有效密度分布;计算公式如下:
Figure GDA0004245145530000113
式中,p(y)代表了经验密度分布,
Figure GDA0004245145530000114
代表了标签值y′的有效密度分布;
在一般的XGboost算法中,回归树损失函数一般选择为平方损失;通过计算,得到有效密度分布后,再利用重加权方法改进权重进行预测;
Figure GDA0004245145530000115
具体来说就是,我们通过将损失函数乘以每个训练样本的有效密度分布的倒数来对其进行加权;得到的损失函数为:
Figure GDA0004245145530000116
Figure GDA0004245145530000117
式中:
Figure GDA0004245145530000118
代表重加权后的损失函数。
实施例1:
本实施例应用到海表面温度日变化振幅预测中,发展了适用于预测海表面温度日变化振幅的LDS-XGB模型。采用热带海洋与全球大气—海气耦合响应实验(TOGACOARE)观测期间的观测资料,包括感热、潜热、短波辐射、风应力、海表面温度等参数。选取133个站点的浮标数据,分布范围为全球范围内25°S-21°N,时间分辨率为1小时或者10分钟,时间跨度为1992年10月-2021年8月。
对实验数据集进行预处理,按8:2比例划分训练集与测试集,计算SST日变化振幅,每日平均风速与每日最大短波辐射。同时计算每三小时平均风速及每三小时平均短波辐射。其中每三小时平均风速及每三小时平均短波辐射作为输入,对SST日变化振幅进行预测。
首先计算经验标签密度与误差分布之间的皮尔逊相关系数为-0.38,经验标签密度与误差分布之间的相关较弱。结果如图2所示:
有效标签密度与误差分布之间的皮尔逊相关系数为-0.56,结果表明通过LDS计算得到的有效标签密度与误差分布有很好的相关性。结果如图3所示:
用XGBoost与LDS-XGB分别对训练集进行训练,训练完后对测试集进行预测。预测结果显示重加权后的模型LDS-XGB在训练集和验证集中均有良好的性能。XGBoost与LDS-XGB的预测结果如图4和图5所示:
未修改权重的XGB模型和LDS-XGB模型的拟合度和预测误差的评估结果如表1-表2所示。
表1SST日变化振幅预测模型评估结果
Figure GDA0004245145530000121
表2SST日变化振幅模型预测结果统计
Figure GDA0004245145530000122
从表1-表2可以看出:无论是训练集还是测试集,两个模型均得到较高的拟合度和较小的误差值,证明模型在SST日变化振幅的预测上均有良好的性能。从拟合度方面分析,XGB模型和LDS-XGB模型的拟合度均达到了70%以上。在误差方面以RMSE为评价指标,模型的RMSE分别达到了17.773%和17.771%。未修改权重时,预测的SST日变化振幅值99%以上在2℃以下,对权重进行修改后,模型能够预测到2℃以上的值,说明在改善数据不平衡方面,模型起到了一定的效果。LDS_XGB模型后对高值的预测有一定提升。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于改进XGB方法的海表面温度日变化振幅预测方法,其特征在于,其包括如下的步骤:
S1:获取数据集并进行预处理,所述数据集包括风速数据及短波辐射值数据;
S2:建立XGBoost模型;
S3:应用LDS算法修改XGBoost模型的算法权重,建立LDS-XGB模型;
S4:从数据集中选出训练集,利用训练集对LDS-XGB模型进行训练;
S5:利用训练后的LDS-XGB模型对海表面温度日变化振幅进行预测;
所述步骤S2的具体过程包括:
XGBoost模型是基于当前的模型加入另一个模型,使得组合模型的效果优于当前模型的机器学习算法模型,其建立过程如下:
Figure FDA0004245145510000011
式中,
Figure FDA0004245145510000012
表示模型的预测值,K表示决策树的数量,fk表示第k棵树模型,/>
Figure FDA0004245145510000013
表示所有决策树模型的集合;
构造目标函数,然后对其进行优化:
Figure FDA0004245145510000014
式中,n为训练样本的数量;目标函数由两部分组成,一部分是损失函数l,为均方误差,另一部分是正则化项Ω,即每棵树的复杂度之和,目的是控制模型的复杂度,防止过拟合;
公式(2)的树集合模型以函数作为参数,所以不能直接使用传统的优化方法进行优化,而是采用加法学习方式训练;每一次保留原来的模型不变,加入一个新的函数f到模型中,如下:
Figure FDA0004245145510000021
Figure FDA0004245145510000022
Figure FDA0004245145510000023
……
Figure FDA0004245145510000024
式中:
Figure FDA0004245145510000025
为第i个样本迭代t次后的预测值;/>
Figure FDA0004245145510000026
为第i个样本的初始值,xi表示第i个训练样本;
通过最小化损失函数来构建最优模型,得到第t轮的目标函数:
Figure FDA0004245145510000027
式中,cons为常数项,为前t-1棵树的复杂度;
对第t轮的目标函数进行二阶泰勒展开:
Figure FDA0004245145510000028
Figure FDA0004245145510000029
式中:gi,hi分别表示目标函数对
Figure FDA00042451455100000210
的一阶导数和二阶导数;
由于损失函数
Figure FDA00042451455100000211
是固定值,因此将其并入常数项cons;常数项对优化求解没有影响,因此可以去除;目标函数只依赖于每个样本点的在损失函数上的一阶导数和二阶导数,得到新的目标函数:
Figure FDA00042451455100000212
接下来考虑决策树的复杂度项Ω;首先定义每棵树,我们将树结构表达式转化为叶子结构的表达式;将决策树分为结构部分q和叶子权重部分ω;
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,…,T} (8)
式中:T为回归树的叶子节点的总数,ω是由叶子节点的值组成的T维向量,q(x)表示样本x在某个叶子节点上,ωq(x)是该节点的得分,即该样本的模型预测值;
XGBoost算法中对树的复杂度项包含了两个部分,一个是叶子节点总数,一个是叶子节点得分,针对每个叶子结点的得分添加L2平滑项,用以避免过拟合;
Figure FDA0004245145510000031
式中:
Figure FDA0004245145510000032
为叶子节点向量的模;γ表示节点切分的难度,λ表示L2正则化系数,γ和λ的值表示对具有较多叶子节点的树的惩罚力度;
根据叶子结构重新改写目标函数:
Figure FDA0004245145510000033
式中:Ij={i|q(xi)=j}是叶子节点j上的样本集合;
目标函数中包含了T个相互独立的单变量二次函数;我们可以定义:
Figure FDA0004245145510000034
最终目标函数化简为:
Figure FDA0004245145510000035
对未知变量ωj求偏导,令导数为0,得到极值点后代入损失函数,得到极值
Figure FDA0004245145510000036
将/>
Figure FDA0004245145510000037
代入式(12)得到最优目标函数:
Figure FDA0004245145510000038
目标函数是用来衡量第t棵树结构的好坏,***过程中利用贪心算法遍历所有的分割点,分别计算损失值,然后选择增益值最大的分割点,增益损失的最大值数值越小,代表模型预测越好;最终增益表达式如下:
Figure FDA0004245145510000041
式中:
Figure FDA0004245145510000042
表示左子树得分,/>
Figure FDA0004245145510000043
表示右子树得分,/>
Figure FDA0004245145510000044
表示不分割时的得分,λ表示加入新节点引入的复杂度代价,若判定值大于0则可以分割,反之则不分割;
所述步骤S3的具体过程包括:
Figure FDA0004245145510000045
表示样本量为n的训练集,其中/>
Figure FDA0004245145510000046
表示输入,/>
Figure FDA0004245145510000047
表示标签,y是连续型的;
在标签空间
Figure FDA0004245145510000048
中,我们将/>
Figure FDA0004245145510000049
以相等的间隔划分为B组,
即[y0,y1),[y1,y2),…,[yB-1,yB);我们使用
Figure FDA00042451455100000410
来表示目标值的组索引,用
Figure FDA00042451455100000411
表示索引空间;
在SST日变化振幅的预测中,我们定义
Figure FDA00042451455100000412
根据δy计算训练集中的标签值SST日变化振幅的密度分布,称为经验密度分布;之前的研究表明,由于相邻标签上的数据样本之间存在依赖性,所以在标签值为连续的情况下,标签的经验密度分布并不能反映真实的标签密度分布;LDS使用核密度估计,来改善连续型数据集中的不平衡现象;
LDS使用一个对称核函数,我们选择使用高斯核函
Figure FDA00042451455100000413
高斯核函数是一个对称核函数,满足k(y,y′)=k(y′,y)和
Figure FDA00042451455100000414
它刻画了目标值y′和y之间的相似度;然后用经验密度分布与之进行卷积,得到一个新的分布,称为有效密度分布;计算公式如下:
Figure FDA0004245145510000051
式中,p(y)代表了经验密度分布,
Figure FDA0004245145510000052
代表了标签值y′的有效密度分布;
在XGboost算法中,回归树损失函数选择为平方损失;通过计算,得到有效密度分布后,再利用重加权方法改进权重进行预测;
Figure FDA0004245145510000053
具体来说就是,我们通过将损失函数乘以每个训练样本的有效密度分布的倒数来对其进行加权;得到的损失函数为:
Figure FDA0004245145510000054
Figure FDA0004245145510000055
式中:
Figure FDA0004245145510000056
代表重加权后的损失函数。
2.根据权利要求1所述的一种基于改进XGB方法的海表面温度日变化振幅预测方法,其特征在于:所述数据集包括若干天内每间隔三小时的平均风速数据,以及每间隔三小时的平均短波辐射值数据。
CN202211376526.0A 2022-11-04 2022-11-04 一种基于改进xgb方法的海表面温度日变化振幅预测方法 Active CN115688588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211376526.0A CN115688588B (zh) 2022-11-04 2022-11-04 一种基于改进xgb方法的海表面温度日变化振幅预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211376526.0A CN115688588B (zh) 2022-11-04 2022-11-04 一种基于改进xgb方法的海表面温度日变化振幅预测方法

Publications (2)

Publication Number Publication Date
CN115688588A CN115688588A (zh) 2023-02-03
CN115688588B true CN115688588B (zh) 2023-06-27

Family

ID=85048709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211376526.0A Active CN115688588B (zh) 2022-11-04 2022-11-04 一种基于改进xgb方法的海表面温度日变化振幅预测方法

Country Status (1)

Country Link
CN (1) CN115688588B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116976149B (zh) * 2023-09-22 2023-12-29 广东海洋大学 一种海表温度预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537336A (zh) * 2021-03-10 2021-10-22 沈阳工业大学 基于XGBoost的短临雷雨大风的预测方法
CN114595624A (zh) * 2022-01-10 2022-06-07 山西中节能潞安电力节能服务有限公司 基于XGBoost算法的伴热带装置寿命状态预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543929B (zh) * 2019-08-29 2023-11-14 华北电力大学(保定) 一种基于Lorenz***的风速区间预测方法及***
CN111340273B (zh) * 2020-02-17 2022-08-26 南京邮电大学 一种基于GEP参数优化XGBoost的电力***短期负荷预测方法
CN113159364A (zh) * 2020-12-30 2021-07-23 ***通信集团广东有限公司珠海分公司 一种大型交通场站的客流预测方法及***
CN113051795B (zh) * 2021-03-15 2023-04-28 哈尔滨工程大学 一种面向海上平台保障的三维温盐场分析预报方法
CN113256066B (zh) * 2021-04-23 2022-05-06 新疆大学 基于PCA-XGBoost-IRF的作业车间实时调度方法
CN113743013A (zh) * 2021-09-08 2021-12-03 成都卡普数据服务有限责任公司 一种基于XGBoost气温预测数据修正的方法
CN114898819A (zh) * 2022-04-06 2022-08-12 中国石油大学(北京) 一种混合原油黏度预测模型训练方法、装置及应用方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537336A (zh) * 2021-03-10 2021-10-22 沈阳工业大学 基于XGBoost的短临雷雨大风的预测方法
CN114595624A (zh) * 2022-01-10 2022-06-07 山西中节能潞安电力节能服务有限公司 基于XGBoost算法的伴热带装置寿命状态预测方法

Also Published As

Publication number Publication date
CN115688588A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN113568055B (zh) 一种基于lstm网络的航空瞬变电磁数据反演方法
CN110083125B (zh) 一种基于深度学习的机床热误差建模方法
CN111523778A (zh) 基于粒子群算法和梯度提升树的电网运行安全评估方法
CN112085254B (zh) 基于多重分形协同度量门控循环单元的预测方法及模型
CN112926265A (zh) 基于遗传算法优化神经网络的大气多孔探针测量校准方法
CN112989711B (zh) 基于半监督集成学习的金霉素发酵过程软测量建模方法
CN115688588B (zh) 一种基于改进xgb方法的海表面温度日变化振幅预测方法
CN108182500A (zh) 基于加速寿命试验的弹药贮存可靠性预测方法
CN112307536B (zh) 一种大坝渗流参数反演方法
CN109284662B (zh) 一种基于迁移学习的水下声音信号分类方法
CN111859249A (zh) 一种基于解析四维集合变分的海洋数值预报方法
CN108520310A (zh) 基于G-L混合噪声特性v-支持向量回归机的风速预报方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN114004153A (zh) 一种基于多源数据融合的侵彻深度预测方法
CN115964923A (zh) 一种基于VMD-PSO-LSTM的临近空间80-100km大气风速预报的建模方法
CN114897204A (zh) 一种海上风电场短期风速预测方法和装置
Qin et al. A wireless sensor network location algorithm based on insufficient fingerprint information
CN111914488B (zh) 一种基于对抗神经网络的有资料地区水文参数率定方法
CN110909492B (zh) 一种基于极端梯度提升算法的污水处理过程软测量方法
CN112163632A (zh) 基于蝙蝠算法的半监督极限学习机在工业检测中的应用
CN117291069A (zh) 一种基于改进de与注意力机制的lstm污水水质预测方法
CN116054144A (zh) 分布式光伏接入的配电网重构方法、***及存储介质
CN116189794A (zh) 一种夯土水盐含量测量方法
CN113642785B (zh) 基于先验信息的空间碎片轨道长期预报方法、***及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant