CN115688588B - 一种基于改进xgb方法的海表面温度日变化振幅预测方法 - Google Patents
一种基于改进xgb方法的海表面温度日变化振幅预测方法 Download PDFInfo
- Publication number
- CN115688588B CN115688588B CN202211376526.0A CN202211376526A CN115688588B CN 115688588 B CN115688588 B CN 115688588B CN 202211376526 A CN202211376526 A CN 202211376526A CN 115688588 B CN115688588 B CN 115688588B
- Authority
- CN
- China
- Prior art keywords
- model
- xgb
- representing
- lds
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及海洋表面温度预测技术领域,提供一种基于改进XGB方法的海表面温度日变化振幅预测方法,包括如下的步骤:S1:获取数据集并进行预处理,所述数据集包括风速数据及短波辐射值数据;S2:建立XGBoost模型;S3:应用LDS算法修改XGBoost模型的算法权重,建立LDS‑XGB模型;S4:从数据集中选出训练集,利用训练集对LDS‑XGB模型进行训练;S5:利用训练后的LDS‑XGB模型对海表面温度日变化振幅进行预测。本发明创新性地在SST日变化振幅预测中使用XGB算法,将机器学***滑,使得传统不平衡分类方法可以运用到回归问题中。
Description
技术领域
本发明涉及海洋表面温度预测技术领域,具体涉及一种基于改进XGB方法的海表面温度日变化振幅预测方法。
背景技术
SST代表海表面温度,目前对于SST日变化研究的主要方法有观测研究、经验模型和数值模拟。
海洋观测的发展极大促进了SST日变化过程研究的发展,但受限于观测手段和数据,对SST日变化过程的理解仍存在较大不足。
目前,利用机器学习对SST日变化进行预测这一领域存在空缺。具体表现在:
(1)传统经验模型虽能够抓住SST日变化基本特征,但应用范围有限、精度不高。目前人们对于SST日变化的理解仍存在较大不足,传统经验模型仍存在精度不高、计算复杂等问题,这使得目前对SST日变化过程的合理模拟和预测仍是一个挑战。
(2)数值模拟是模拟和预测SST日变化过程的有效手段,但受限于数值模式发展水平,精准的模拟和预测仍是一个挑战。此外,由于对SST日变化过程本身的不了解以及模式本身存在参数化等不确定性因素,模拟的精度也很难保证。
(3)机器学习在海洋环境研究、模拟和预测等方面的应用越来越受到重视,在物理约束下有望在SST日变化过程研究方面发挥重要作用。机器学习方法在海温等预测方面取得了***的成果,但目前利用机器学习对SST日变化进行预测这一领域存在空缺。
发明内容
为解决背景技术中存在的问题,本发明提供一种基于改进XGB方法的海表面温度日变化振幅预测方法,其包括如下的步骤:
S1:获取数据集并进行预处理,所述数据集包括风速数据及短波辐射值数据;
S2:建立XGBoost模型;
S3:应用LDS算法修改XGBoost模型的算法权重,建立LDS-XGB模型;
S4:从数据集中选出训练集,利用训练集对LDS-XGB模型进行训练;
S5:利用训练后的LDS-XGB模型对海表面温度日变化振幅进行预测。
优选的方案中,所述数据集包括若干天内每间隔三小时的平均风速数据,以及每间隔三小时的平均短波辐射值数据。
进一步,所述步骤S2的具体过程包括:
XGBoost模型是基于当前的模型加入另一个模型,使得组合模型的效果优于当前模型的机器学习算法模型,其建立过程如下:
构造目标函数,然后对其进行优化:
式中,n为训练样本的数量;目标函数由两部分组成,一部分是损失函数l,为均方误差,另一部分是正则化项Ω,即每棵树的复杂度之和,目的是控制模型的复杂度,防止过拟合;
公式(2)的树集合模型以函数作为参数,所以不能直接使用传统的优化方法进行优化,而是采用加法学习方式(Additvetraining)训练;每一次保留原来的模型不变,加入一个新的函数f到模型中,如下:
通过最小化损失函数来构建最优模型,得到第t轮的目标函数:
式中,cons为常数项,为前t-1棵树的复杂度;
对第t轮的目标函数进行二阶泰勒展开:
接下来考虑决策树的复杂度项Ω;首先定义每棵树,我们将树结构表达式转化为叶子结构的表达式;将决策树分为结构部分q和叶子权重部分ω;
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,…,T} (8)
式中:T为回归树的叶子节点的总数,ω是由叶子节点的值组成的T维向量,q(x)表示样本x在某个叶子节点上,ωq(x)是该节点的得分,即该样本的模型预测值;
XGBoost算法中对树的复杂度项包含了两个部分,一个是叶子节点总数,一个是叶子节点得分,针对每个叶子结点的得分添加L2平滑项,用以避免过拟合;
根据叶子结构重新改写目标函数:
式中:Ij={i|q(xi)=j}是叶子节点j上的样本集合;
目标函数中包含了T个相互独立的单变量二次函数;我们可以定义:
最终目标函数化简为:
目标函数是用来衡量第t棵树结构的好坏,***过程中利用贪心算法遍历所有的分割点,分别计算损失值,然后选择增益值最大的分割点,增益损失的最大值数值越小,代表模型预测越好;最终增益表达式如下:
进一步,所述步骤S3的具体过程包括:
在标签空间y中,我们将y以相等的间隔划分为B组,
根据δy计算训练集中的标签值SST日变化振幅的密度分布,称为经验密度分布;之前的研究表明,由于相邻标签上的数据样本之间存在依赖性,所以在标签值为连续的情况下,标签的经验密度分布并不能反映真实的标签密度分布;LDS使用核密度估计,来改善连续型数据集中的不平衡现象;
在一般的XGboost算法中,回归树损失函数一般选择为平方损失;通过计算,得到有效密度分布后,再利用重加权方法改进权重进行预测;
具体来说就是,我们通过将损失函数乘以每个训练样本的有效密度分布的倒数来对其进行加权;得到的损失函数为:
本发明所达到的有益效果为:
在对SST日变化振幅预测中,采用Bagging,RF等机器学***滑,使得传统不平衡分类方法可以运用到回归问题中。
附图说明
图1是本发明的整体流程示意图;
图2是经验标签密度与误差分布图;
图3是有效标签密度与误差分布图;
图4是XGB模型预测结果示意图;
图5是LDS-XGB模型预测结果示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,另外,在以下的实施方式中记载的各结构的形态只不过是例示,本发明并不限定于在以下的实施方式中记载的各结构,在本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施方式都属于本发明保护的范围。
参照图1-5,一种基于改进XGB方法的海表面温度日变化振幅预测方法,其包括如下的步骤:S1:获取数据集并进行预处理,所述数据集包括风速数据及短波辐射值数据;S2:建立XGBoost模型;S3:应用LDS算法修改XGBoost模型的算法权重,建立LDS-XGB模型;S4:从数据集中选出训练集,利用训练集对LDS-XGB模型进行训练;S5:利用训练后的LDS-XGB模型对海表面温度日变化振幅进行预测。
所述步骤S2的具体过程包括:
XGBoost模型是基于当前的模型加入另一个模型,使得组合模型的效果优于当前模型的机器学习算法模型,其建立过程如下:
构造目标函数,然后对其进行优化:
式中,n为训练样本的数量;目标函数由两部分组成,一部分是损失函数l,为均方误差,另一部分是正则化项Ω,即每棵树的复杂度之和,目的是控制模型的复杂度,防止过拟合;
公式(2)的树集合模型以函数作为参数,所以不能直接使用传统的优化方法进行优化,而是采用加法学习方式(Additvetraining)训练;每一次保留原来的模型不变,加入一个新的函数f到模型中,如下:
通过最小化损失函数来构建最优模型,得到第t轮的目标函数:
式中,cons为常数项,为前t-1棵树的复杂度;
对第t轮的目标函数进行二阶泰勒展开:
接下来考虑决策树的复杂度项Ω;首先定义每棵树,我们将树结构表达式转化为叶子结构的表达式;将决策树分为结构部分q和叶子权重部分ω;
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,…,T} (8)
式中:T为回归树的叶子节点的总数,ω是由叶子节点的值组成的T维向量,q(x)表示样本x在某个叶子节点上,wq(x)是该节点的得分,即该样本的模型预测值;
XGBoost算法中对树的复杂度项包含了两个部分,一个是叶子节点总数,一个是叶子节点得分,针对每个叶子结点的得分添加L2平滑项,用以避免过拟合;
根据叶子结构重新改写目标函数:
式中:Ij={i|q(xi)=j}是叶子节点j上的样本集合;
目标函数中包含了T个相互独立的单变量二次函数;我们可以定义:
最终目标函数化简为:
目标函数是用来衡量第t棵树结构的好坏,***过程中利用贪心算法遍历所有的分割点,分别计算损失值,然后选择增益值最大的分割点,增益损失的最大值数值越小,代表模型预测越好;最终增益表达式如下:
进一步,所述步骤S3的具体过程包括:
在标签空间y中,我们将y以相等的间隔划分为B组,
根据δy计算训练集中的标签值SST日变化振幅的密度分布,称为经验密度分布;之前的研究表明,由于相邻标签上的数据样本之间存在依赖性,所以在标签值为连续的情况下,标签的经验密度分布并不能反映真实的标签密度分布;LDS使用核密度估计,来改善连续型数据集中的不平衡现象;
在一般的XGboost算法中,回归树损失函数一般选择为平方损失;通过计算,得到有效密度分布后,再利用重加权方法改进权重进行预测;
具体来说就是,我们通过将损失函数乘以每个训练样本的有效密度分布的倒数来对其进行加权;得到的损失函数为:
实施例1:
本实施例应用到海表面温度日变化振幅预测中,发展了适用于预测海表面温度日变化振幅的LDS-XGB模型。采用热带海洋与全球大气—海气耦合响应实验(TOGACOARE)观测期间的观测资料,包括感热、潜热、短波辐射、风应力、海表面温度等参数。选取133个站点的浮标数据,分布范围为全球范围内25°S-21°N,时间分辨率为1小时或者10分钟,时间跨度为1992年10月-2021年8月。
对实验数据集进行预处理,按8:2比例划分训练集与测试集,计算SST日变化振幅,每日平均风速与每日最大短波辐射。同时计算每三小时平均风速及每三小时平均短波辐射。其中每三小时平均风速及每三小时平均短波辐射作为输入,对SST日变化振幅进行预测。
首先计算经验标签密度与误差分布之间的皮尔逊相关系数为-0.38,经验标签密度与误差分布之间的相关较弱。结果如图2所示:
有效标签密度与误差分布之间的皮尔逊相关系数为-0.56,结果表明通过LDS计算得到的有效标签密度与误差分布有很好的相关性。结果如图3所示:
用XGBoost与LDS-XGB分别对训练集进行训练,训练完后对测试集进行预测。预测结果显示重加权后的模型LDS-XGB在训练集和验证集中均有良好的性能。XGBoost与LDS-XGB的预测结果如图4和图5所示:
未修改权重的XGB模型和LDS-XGB模型的拟合度和预测误差的评估结果如表1-表2所示。
表1SST日变化振幅预测模型评估结果
表2SST日变化振幅模型预测结果统计
从表1-表2可以看出:无论是训练集还是测试集,两个模型均得到较高的拟合度和较小的误差值,证明模型在SST日变化振幅的预测上均有良好的性能。从拟合度方面分析,XGB模型和LDS-XGB模型的拟合度均达到了70%以上。在误差方面以RMSE为评价指标,模型的RMSE分别达到了17.773%和17.771%。未修改权重时,预测的SST日变化振幅值99%以上在2℃以下,对权重进行修改后,模型能够预测到2℃以上的值,说明在改善数据不平衡方面,模型起到了一定的效果。LDS_XGB模型后对高值的预测有一定提升。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于改进XGB方法的海表面温度日变化振幅预测方法,其特征在于,其包括如下的步骤:
S1:获取数据集并进行预处理,所述数据集包括风速数据及短波辐射值数据;
S2:建立XGBoost模型;
S3:应用LDS算法修改XGBoost模型的算法权重,建立LDS-XGB模型;
S4:从数据集中选出训练集,利用训练集对LDS-XGB模型进行训练;
S5:利用训练后的LDS-XGB模型对海表面温度日变化振幅进行预测;
所述步骤S2的具体过程包括:
XGBoost模型是基于当前的模型加入另一个模型,使得组合模型的效果优于当前模型的机器学习算法模型,其建立过程如下:
构造目标函数,然后对其进行优化:
式中,n为训练样本的数量;目标函数由两部分组成,一部分是损失函数l,为均方误差,另一部分是正则化项Ω,即每棵树的复杂度之和,目的是控制模型的复杂度,防止过拟合;
公式(2)的树集合模型以函数作为参数,所以不能直接使用传统的优化方法进行优化,而是采用加法学习方式训练;每一次保留原来的模型不变,加入一个新的函数f到模型中,如下:
……
通过最小化损失函数来构建最优模型,得到第t轮的目标函数:
式中,cons为常数项,为前t-1棵树的复杂度;
对第t轮的目标函数进行二阶泰勒展开:
接下来考虑决策树的复杂度项Ω;首先定义每棵树,我们将树结构表达式转化为叶子结构的表达式;将决策树分为结构部分q和叶子权重部分ω;
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,…,T} (8)
式中:T为回归树的叶子节点的总数,ω是由叶子节点的值组成的T维向量,q(x)表示样本x在某个叶子节点上,ωq(x)是该节点的得分,即该样本的模型预测值;
XGBoost算法中对树的复杂度项包含了两个部分,一个是叶子节点总数,一个是叶子节点得分,针对每个叶子结点的得分添加L2平滑项,用以避免过拟合;
根据叶子结构重新改写目标函数:
式中:Ij={i|q(xi)=j}是叶子节点j上的样本集合;
目标函数中包含了T个相互独立的单变量二次函数;我们可以定义:
最终目标函数化简为:
目标函数是用来衡量第t棵树结构的好坏,***过程中利用贪心算法遍历所有的分割点,分别计算损失值,然后选择增益值最大的分割点,增益损失的最大值数值越小,代表模型预测越好;最终增益表达式如下:
所述步骤S3的具体过程包括:
根据δy计算训练集中的标签值SST日变化振幅的密度分布,称为经验密度分布;之前的研究表明,由于相邻标签上的数据样本之间存在依赖性,所以在标签值为连续的情况下,标签的经验密度分布并不能反映真实的标签密度分布;LDS使用核密度估计,来改善连续型数据集中的不平衡现象;
在XGboost算法中,回归树损失函数选择为平方损失;通过计算,得到有效密度分布后,再利用重加权方法改进权重进行预测;
具体来说就是,我们通过将损失函数乘以每个训练样本的有效密度分布的倒数来对其进行加权;得到的损失函数为:
2.根据权利要求1所述的一种基于改进XGB方法的海表面温度日变化振幅预测方法,其特征在于:所述数据集包括若干天内每间隔三小时的平均风速数据,以及每间隔三小时的平均短波辐射值数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211376526.0A CN115688588B (zh) | 2022-11-04 | 2022-11-04 | 一种基于改进xgb方法的海表面温度日变化振幅预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211376526.0A CN115688588B (zh) | 2022-11-04 | 2022-11-04 | 一种基于改进xgb方法的海表面温度日变化振幅预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115688588A CN115688588A (zh) | 2023-02-03 |
CN115688588B true CN115688588B (zh) | 2023-06-27 |
Family
ID=85048709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211376526.0A Active CN115688588B (zh) | 2022-11-04 | 2022-11-04 | 一种基于改进xgb方法的海表面温度日变化振幅预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115688588B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116976149B (zh) * | 2023-09-22 | 2023-12-29 | 广东海洋大学 | 一种海表温度预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537336A (zh) * | 2021-03-10 | 2021-10-22 | 沈阳工业大学 | 基于XGBoost的短临雷雨大风的预测方法 |
CN114595624A (zh) * | 2022-01-10 | 2022-06-07 | 山西中节能潞安电力节能服务有限公司 | 基于XGBoost算法的伴热带装置寿命状态预测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543929B (zh) * | 2019-08-29 | 2023-11-14 | 华北电力大学(保定) | 一种基于Lorenz***的风速区间预测方法及*** |
CN111340273B (zh) * | 2020-02-17 | 2022-08-26 | 南京邮电大学 | 一种基于GEP参数优化XGBoost的电力***短期负荷预测方法 |
CN113159364A (zh) * | 2020-12-30 | 2021-07-23 | ***通信集团广东有限公司珠海分公司 | 一种大型交通场站的客流预测方法及*** |
CN113051795B (zh) * | 2021-03-15 | 2023-04-28 | 哈尔滨工程大学 | 一种面向海上平台保障的三维温盐场分析预报方法 |
CN113256066B (zh) * | 2021-04-23 | 2022-05-06 | 新疆大学 | 基于PCA-XGBoost-IRF的作业车间实时调度方法 |
CN113743013A (zh) * | 2021-09-08 | 2021-12-03 | 成都卡普数据服务有限责任公司 | 一种基于XGBoost气温预测数据修正的方法 |
CN114898819A (zh) * | 2022-04-06 | 2022-08-12 | 中国石油大学(北京) | 一种混合原油黏度预测模型训练方法、装置及应用方法 |
-
2022
- 2022-11-04 CN CN202211376526.0A patent/CN115688588B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537336A (zh) * | 2021-03-10 | 2021-10-22 | 沈阳工业大学 | 基于XGBoost的短临雷雨大风的预测方法 |
CN114595624A (zh) * | 2022-01-10 | 2022-06-07 | 山西中节能潞安电力节能服务有限公司 | 基于XGBoost算法的伴热带装置寿命状态预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115688588A (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN113568055B (zh) | 一种基于lstm网络的航空瞬变电磁数据反演方法 | |
CN110083125B (zh) | 一种基于深度学习的机床热误差建模方法 | |
CN111523778A (zh) | 基于粒子群算法和梯度提升树的电网运行安全评估方法 | |
CN112085254B (zh) | 基于多重分形协同度量门控循环单元的预测方法及模型 | |
CN112926265A (zh) | 基于遗传算法优化神经网络的大气多孔探针测量校准方法 | |
CN112989711B (zh) | 基于半监督集成学习的金霉素发酵过程软测量建模方法 | |
CN115688588B (zh) | 一种基于改进xgb方法的海表面温度日变化振幅预测方法 | |
CN108182500A (zh) | 基于加速寿命试验的弹药贮存可靠性预测方法 | |
CN112307536B (zh) | 一种大坝渗流参数反演方法 | |
CN109284662B (zh) | 一种基于迁移学习的水下声音信号分类方法 | |
CN111859249A (zh) | 一种基于解析四维集合变分的海洋数值预报方法 | |
CN108520310A (zh) | 基于G-L混合噪声特性v-支持向量回归机的风速预报方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及*** | |
CN114004153A (zh) | 一种基于多源数据融合的侵彻深度预测方法 | |
CN115964923A (zh) | 一种基于VMD-PSO-LSTM的临近空间80-100km大气风速预报的建模方法 | |
CN114897204A (zh) | 一种海上风电场短期风速预测方法和装置 | |
Qin et al. | A wireless sensor network location algorithm based on insufficient fingerprint information | |
CN111914488B (zh) | 一种基于对抗神经网络的有资料地区水文参数率定方法 | |
CN110909492B (zh) | 一种基于极端梯度提升算法的污水处理过程软测量方法 | |
CN112163632A (zh) | 基于蝙蝠算法的半监督极限学习机在工业检测中的应用 | |
CN117291069A (zh) | 一种基于改进de与注意力机制的lstm污水水质预测方法 | |
CN116054144A (zh) | 分布式光伏接入的配电网重构方法、***及存储介质 | |
CN116189794A (zh) | 一种夯土水盐含量测量方法 | |
CN113642785B (zh) | 基于先验信息的空间碎片轨道长期预报方法、***及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |