CN113537336A - 基于XGBoost的短临雷雨大风的预测方法 - Google Patents

基于XGBoost的短临雷雨大风的预测方法 Download PDF

Info

Publication number
CN113537336A
CN113537336A CN202110789924.4A CN202110789924A CN113537336A CN 113537336 A CN113537336 A CN 113537336A CN 202110789924 A CN202110789924 A CN 202110789924A CN 113537336 A CN113537336 A CN 113537336A
Authority
CN
China
Prior art keywords
thunderstorm
model
strong wind
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110789924.4A
Other languages
English (en)
Inventor
于霞
王清霖
段勇
艾德润
李召鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang University of Technology
Original Assignee
Shenyang University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang University of Technology filed Critical Shenyang University of Technology
Publication of CN113537336A publication Critical patent/CN113537336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于XGBoost的短临雷雨大风的预测方法:第一步骤:基于多类原始数据的处理并建立样本集;第二步骤:将样本集输入到模型当中进行训练并分析结果;1)根据雷雨大风的特征属性,将雷雨大风预测模型的输入确定为NCEP中的数据集;输出为地面雷达数据集;2)对雷雨大风预测模型进行训练,将预测结果,训练策略采用贪心策略确定***特征及特征值,减少在寻找***特征时算法的复杂度;预测是否会发生雷雨大风;3)训练模型拥有降雨和大风两个属性,将其定义为机器学习当中的回归问题,训练两个模型,4)采用气象领域常用的TS评分检验预测效果。第三步骤:模型布置在实际的气象预报***中,并且实时得到预测结果。

Description

基于XGBoost的短临雷雨大风的预测方法
技术领域
本发明属于机器学习及气象技术领域,涉及基于XGBoost的短临(即短时临近)雷雨大风的预测方法。
背景技术
天气预报的发展在对工业、农业、商业贸易、日常生活等发挥着重要的保障作用。雷雨大风即出现雷、雨天气现象时,风力值大于10.8m/s,降雨量大于20mm的一种天气现象。短临即短时临近,捕捉瞬息风雨。相对于短期、中期、长期预报而言,短临预报在天气预报领域中是最“年轻”的成员,发展潜力巨大。雷雨大风是一种典型的灾害性天气过程,属于强对流天气的一种,具有突发性强度大等特点,对社会经济和人民生命安全带来不利影响。另外降雨量的精确预测也有利于水资源的管理和调度。
在对雷雨大风预测研究中,目前,雷雨大风短临预报上采用机器学习方法的研究较少,多数都是基于实况场要素对当前时刻降雨和大风进行预报和研究,因此具有计算代价大、依赖专家知识、难以适应错综复杂变化等问题。
发明内容
发明目的
本发明为解决目前雷雨大风短临预报存在计算代价大、依赖专家知识、难以适应错综复杂变化等问题,本发明将代替人工预测,通过计算机中机器学习方法实现短临雷雨大风天气的自动化预测。
技术方案
基于XGBoost的短临雷雨大风的预测方法,其特征在于:该方法的实现过程分为三步骤:
第一步骤:基于多类原始数据的处理并建立样本集;
第二步骤:将样本集输入到模型当中进行训练并分析结果;
第三步骤:模型布置在实际的气象预报***中,并且实时得到预测结果。
所述第一步骤,找寻两处精准的原始数据,处理并建立样本集;利用地面雷达观测站和环境预报中心每隔几小时采集的数据进行预处理为对应的数据集,再分析两类数据集;
所述第二步骤,建立基于XGBoost的雷雨大风预测模型,将第一步骤中的训练样本集导入所述模型进行训练并分析结果;
1)根据雷雨大风的特征属性,将雷雨大风预测模型的输入确定为NCEP中的数据集,即为降雨数据集;输出为地面雷达数据集,即为降雨和大风的数据集;
2)对雷雨大风预测模型进行训练,将上述样本在XGBoost***中的预测结果,其训练策略采用贪心策略确定***特征及特征值,从而减少在寻找***特征时算法的复杂度;并采用交叉验证、分布式训练等特点使模型有较好的训练与预测性能;基于以上,根据降雨和大风数值,预测是否会发生雷雨大风;
3)训练模型拥有降雨和大风两个属性,将其定义为机器学习当中的回归问题,训练两个模型,最终能够得出:大风模型的测试决定系数R2和降雨模型的决定系数R2,决定系数越接近1说明模型效果越好;
4)采用气象领域常用的TS评分检验预测效果其值;
所述第三步骤,将所述第二步骤中训练得到的模型布置在气象局气象预测***上,来实时预测雷雨大风情况:
1)通过气象局与CIMISS***的对接,生成预测雷雨大风所需要的气象实时数据文件,即为NCEP当中的与雷雨大风相关属性的数据,作为输入;
2)通过所述训练好的模型,得到输出为降雨和大风的数据值;
3)将输出得到的数据值即预测结果,进行可视化处理;
优点及效果
本发明对雷雨大风的短临预报业务开展及研究具有重要的学术意义和广泛的应用价值。本发明以气象天气中常见的降雨和大风做为研究对象,判断未来3小时之内是否具有雷雨大风天气,此外,本项目将建立两个模型,使用机器学习的方法分别对降雨和大风数据值进行分析,进而对雷雨大风进行预测,为灾害天气的预测预报研究和应用提供一定的参考价值。
通过分析不同预警时间下影响降雨和大风的主要气候因素,并采用机器学习方法对降雨和大风短临预报进行研究,并将其应用到实际的预警业务***中。这对雷雨大风的短临预报业务开展及研究具有重要的学术意义和广泛的应用价值。此外,本项目将建立两个模型,使用机器学习的方法分别对降雨和大风数据值进行分析,进而对雷雨大风进行预测,为灾害天气的预测预报研究和应用提供一定的参考价值。
附图说明
图1为本发明的预测与实际分析图;
图2为本发明的数据预测可视化结果图;
图3为本发明的雷雨大风等级划分图。
具体实施方式
下面结合附图对本发明做进一步的说明:
基于XGBoost的短临雷雨大风的预测方法,该方法的实现过程分为三步骤:
第一步骤:基于多类原始数据的处理并建立样本集;
第二步骤:将样本集输入到模型当中进行训练并分析效果;
第三步骤:模型布置在实际的气象预报***中,并且实时得到预测结果。
过程具体如下:
第一步骤,找寻两处精准的原始数据,处理并建立样本集;如利用地面雷达观测站和美国国家环境预报中心(National Centers for Environmental Prediction:NCEP)每六小时采集的数据进行预处理为对应的数据集,再分析两类数据集,构建模型训练样本集。
1)对利用地面雷达观测和美国国家环境预报中心采集的数据进行数据预处理,即对采集到的原始数据进行解析处理,形成数据文件。
2)处理数据文件,进行去除缺失值及异常值、重复值等一些处理,形成完整的数据文件。
3)通过筛选与雷雨大风相关的属性,删除其中不相关或不重要的属性,由于雷雨大风气象数据特征属性有46个,相对较多,遍历特征需要花费很长的时间,而本文采用的XGBoost是一个树集成模型,它使用K(树的总数为K)棵树,将每棵树对样本预测值的和作为该样本在XGBoost***中的预测结果,定义的函数表达式如式(1)所示。首先XGBoost采用预排序,在迭代之前,对结点的特征做预排序,遍历选择最优分割点,数据量大时,贪心法耗时少,因此能够快速得到所有雷雨大风气象特征的***点;
Figure BDA0003160473250000041
式(1)中树的总数为K,表示训练的迭代次数,即XGBoost采用迭代算法时需要建立子树的个数,fk表示第k次迭代得到的决策树。
4)此后将处理好的两类数据文件进行经纬度匹配。
5)最后将处理好的两类数据文件通过时间经纬度进行匹配,形成本发明的模型训练样本集。
第二步骤,建立基于XGBoost的雷雨大风预测模型,将步骤(一)中的训练样本集导入该模型进行训练并分析结果;
1)根据雷雨大风的特征属性,将雷雨大风预测模型的输入确定为NCEP中的数据集,即为降雨数据集,输出为地面雷达数据集,即为降雨和大风的数据集;
2)对雷雨大风预测模型进行训练,将上述样本在XGBoost***中的预测结果,其训练策略采用贪心策略确定***特征及特征值,从而减少在寻找***特征时算法的复杂度。并采用交叉验证、分布式训练等特点使模型有较好的训练与预测性能。基于以上,根据降雨和大风数值,预测是否会发生雷雨大风。
XGBoost迭代训练过程中采用的目标函数是关于导数的泰勒二阶展开式,其中未进行泰勒展开的表达式见式(2);其中式(3)Ω(f)为式(2)中Ω(fk)的展开式
Figure BDA0003160473250000051
Figure BDA0003160473250000052
式(2)中yi表示第i个样本的降雨或大风值,
Figure BDA0003160473250000053
表示上一次训练时(上一个时刻决策树)的第I个样本所预测的降雨和大风值,
Figure BDA0003160473250000054
表示关于真实值yi和预测值
Figure BDA0003160473250000055
的损失函数,只有当损失函数越低时,即真实的降雨和大风数值与预测的数值越接近,效果才会越好。
式(3)中λ表示正则项平衡系数,其目的是为平衡损失函数和每一个构成XGBoost的决策树复杂度,T表示第k轮训练得到的构成XGBoost的决策树的叶子结点的个数,w表示第k轮构成XGBoost的决策树的叶子节点的分数,ξ表示控制叶子节点个数的影响因子。
训练时,新的一轮加入一个新的f函数,来最大化地降低目标函数,在第t轮,我们的目标函数为见式(4)。
Figure BDA0003160473250000061
将目标函数进行泰勒展开,取前三项,移除高阶小无穷小项,最后我们的目标函数转化为泰勒展开式如式(5)所示,
Figure BDA0003160473250000062
每棵树的得分(score)只与损失函数的一阶导数和二阶导数相关,式(5)中gi为关于上一时刻即第(t-1)次迭代时第i个样本值的一阶导数,hi为关于上一时刻即第(t-1)次迭代时第i个样本值的二阶导数,详见式(6)和式(7)。
Figure BDA0003160473250000063
Figure BDA0003160473250000064
其中
Figure BDA0003160473250000065
为式(2)中
Figure BDA0003160473250000066
函数,Ij表示第j个节点里样本的集合,
Figure BDA0003160473250000067
表示第xi个叶子节点的权重。
3)训练模型因为拥有降雨和大风两个属性,将其定义为机器学习当中的回归问题,训练两个模型,最终得出大风模型的测试决定系数为0.94,降雨模型的决定系数为0.67,决定系数越接近1说明模型效果越好。
4)采用气象领域常用的TS评分检验预测效果其值为0.849,将所有样本数据集作为模型样本,附图1为所有样本数据1695条所做的预测与实际的分析,根据气象领域,常用的检验预测效果的统计量TS评分为0.849,TS评分越接近1效果越好,而从气象部门了解得知,当前人工的预测效果准确率在50%左右。所以本发明中的模型得到了不错的预测效果。
本发明将经过处理后的地面观测数据和再分析数据集中的所有样本数据集以8:2的比例随机进行分离,形成训练集和验证集。其中,数量较多的80%训练数据集被用于输入到XGBoost模型之中对模型训练,在每一轮迭代中通过上一轮对降雨和大风的实际值的残差再进行调整,在迭代中不断改变进行修正使得残差值不断变小最终得到对降雨和大风分析效果最优的算法模型。之后用20%的测试值来对模型进行测试,判别效果通过决定系数(coefficent of determination)来判定,也称为拟合优度。决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征变数Y的变异中有多少百分比,由控制的自变数X来解释,决定系数越接近1说明模型效果越好。
表达式:R2=SSR/SST=1-SSE/SST
其中:SST=SSR+SSE,SST(total sum of squares)为总平方和,SSR(regressionsum of squares)为回归平方和,SSE(error sum of squares)为残差平方和。
Figure BDA0003160473250000071
Figure BDA0003160473250000072
Figure BDA0003160473250000081
Figure BDA0003160473250000082
Figure BDA0003160473250000083
拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。
利用以上表达式得出,大风模型的测试决定系数R2为0.94,降雨模型的R2决定系数为0.67,决定系数越接近1说明模型效果越好。
同时将本项目采用的XGBoost算法和其他典型的机器学习算法进行比较。其中对比的方法包括LinearRegression(线性回归模型),线性回归模型也为机器学习的一类模型,同理大风模型的决定系数R2为0.39,降雨模型的决定系数R2为0.28,远低于本项目使用模型。
从实验结果可知,综合来看,本项目所采用XGBoost算法决定系数远大于线性回归模型,具有较好的分类精度,其中对于降水和大风的预测更加精准。
在所有的数据样本中,按照各类比例随机抽样部分样本作为建立模型样本。在训练模型时,选择抽样样本80%作为训练集训练模型,其余20%作为测试集。
验证分析结果的模型准确率如表1所示,其中实验结果测试集(20%的未参与训练样本)正确率79.34%。再使用模型对所有数据样本进行测试,正确率为88.50%。
Figure BDA0003160473250000084
表1模型准确率分析
所述步骤(二)中将预测结果及时反馈:
最后对预测准确率进行分析准确率大部分在80%以上,据了解当前雷雨大风人工预测的准确率多数都在50%以下。为了进一步进行分析,对雷雨大风等级进行了划分,并进行了展示。
第三步骤,将所述第二步骤中训练得到的模型布置在气象局气象预测***上,从而实现实时预测雷雨大风情况:
1.通过气象局与CIMISS***的对接,生成预测雷雨大风所需要的气象实时数据文件,即为NCEP当中的与雷雨大风相关属性的数据,作为输入;
2.通过前期训练好的模型,得到输出为降雨和大风的数据值。
3.将输出得到的数据值即预测结果,进行可视化处理,附图2为以2020年8月2日08时的数据为例进行预测得到的结果的可视化。
将所有样本数据集作为模型样本,附图1为所有样本数据1695条所做的预测与实际的分析,根据气象领域,检验预测结果的统计量有:TS评分、命中率、漏报率、空报率、准确率。其中TP为实际有雷雨大风且预测有雷雨大风,FP为实际有雷雨大风而预测无雷雨大风,FN为实际无雷雨大风而预测有雷雨大风,TN为实际无雷雨大风且预测也无雷雨大风,各评价指标公式如下。
TS评分公式:TP/(TP+FP+FN) (13)
命中率公式:TP/(TP+FP) (14)
漏报率公式:FN/(TP+FN+FP+TN) (15)
空报率公式:FP/(TP+FN+FP+TN) (16)
准确率公式:(TP+TN)/(TP+FN+FP+TN) (17)
Figure BDA0003160473250000101
表2各评价指标值
表2是由公式(10-14)所得,TS评分为0.849,TS评分越接近1效果越好,而与气象部门了解得知,当前人工的预测效果准确率在50%以下,甚至更低。所以本发明中的模型得到了良好的预测效果。
最后采用气象领域常用的TS检验预测效果,其值为0.849,TS评分越接近1效果越好,而从气象部门了解得知,当前人工的预测效果准确率在50%左右。所以本发明中的模型得到了良好的预测效果。
实施例
步骤一:第一类数据集来源于辽宁省沈阳市观测站地面观测数据库文件,为2010年至2013年,选择5月至9月的数据进行导出整理。本发明经过去除缺失值及异常值、重复值等处理,处理完成后有4个数据集。
Figure BDA0003160473250000102
表3为实时下载气象数据文件
①根据降雨量大于20mm大风值大于10.8m/s,确定为风大雨大数据集文件;
②根据降雨量大于20mm大风值小于10.8m/s,确定为风小雨大数据集文件;
③根据降雨量小于20mm大风值大于10.8m/s,确定为风大雨小数据集文件;
④根据降雨量小于20mm大风值小于10.8m/s,确定为风小雨小数据集文件;通过分别对以上4个数据集进行经纬度匹配,生成了第一类数据集文件。
第二类数据集来源于NCEP每6小时再分析数据集,NCEP是美国国家环境预报中心(National Centers for Environmental Prediction)的英文简称。和地面观测数据对应时间选取2010年至2013年中5月至9月的数据,数据格式为GRIB2格式,GRIB码是与计算机无关的压缩的二进制编码,主要用来表示数值天气预报的产品资料。现行的GRIB码版本有GRIB1和GRIB2两种格式,雷雨大风项目采用的就是GRIB2数据格式的,共计2447个文件,首先采集原始气象天气数据,分析与雷雨大风相关的气象要素,然后使用特征分析方法分析气象要素与雷雨大风现象的属性重要性,选取46个特征属性,并对特征属性进行解析,通过经纬度和时间与第一类数据进行匹配,最终建立3小时短临时刻的数据样本集合。
步骤二:将经过处理后的地面观测数据和再分析数据集中的所有样本数据集以8:2的比例随机进行分离,形成训练集和验证集。其中,数量较多的80%训练数据集被用于输入到XGBoost模型之中对模型训练,在每一轮迭代中通过上一轮对降雨和大风的实际值的残差再进行调整,在迭代中不断改变进行修正使得残差值不断变小最终得到对降雨和大风分析效果最优的算法模型。
步骤三:用20%的测试值来对模型进行测试,判别效果通过决定系数(coefficentof determination)来判定,也称为拟合优度。决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征变数Y的变异中有多少百分比,可由控制的自变数X来解释,决定系数越接近1说明模型效果越好。
大风模型的测试决定系数为0.94,降雨模型的决定系数为0.67,其中对比的方法包括LinearRegression(线性回归模型),线性回归模型也为机器学习的一类模型,同理大风模型的决定系数为0.39,降雨模型的决定系数为0.28,远低于本项目使用模型。
其中使用本项目模型的实验结果测试集(20%的未参与训练样本)正确率79.34%。再使用模型对所有数据样本进行测试,正确率为88.50%。
步骤四:通过气象局与CIMISS***的对接,生成预测雷雨大风所需要的气象实时数据文件,即与雷雨大风相关的属性数据。该产品为TXT文件,文件如附图1所示,数据为矩阵形式,数据为MICAPS中diamond4类格点数据,该数据表头数据说明为:(字符串)、年、月、日、时次、时效、层次(均为整数)经度格距、纬度格距、起始经度、终止经度、起始纬度、终止纬度(均为浮点数)、纬向格点数、经向格点数(均为整数)、等值线间隔、等值线起始值、终止值、平滑系数、加粗线值(均为浮点数)。文件选取时间为2020年6月2日8时的数据,编写数据处理算法,将其转换为表4所示的数据文件。
Figure BDA0003160473250000131
表4为实时气象要素匹配数据
步骤五:CIMISS***数据更新功能会根据获取国家站数据来实现更新,其CIMISS***每天更新两次数据,并将更新的结果保存在***主机中。
在获取CIMISS***气象特征数据后,将该数据通过时间和国家站经纬度进行匹配形成实时气象要素数据,该数据如表4所示。该数据表头数据说明为:站点编号、经度、纬度,之后是气象特征(46个CIMISS获取的气象要素)。文件中包括的气象特征如下,英文名称(部分)。
HGT(位势高度),TMP(温度),PRES(压强),VVEL(垂直速度)
步骤六:在CIMISS***上获取的数据经过解析后得到表4,作为模型的输入,利用模型对数据进行预测。在处理实时数据时,编程设计并实现了监视实时气象数据更新,以实现实时的气象数据的解码与分析,监视结果如下表所示。
Figure BDA0003160473250000141
表5为监视结果
步骤七:表5为处理后的数据,作为XGBoost模型的输入,输出为表6所示的结果数据,选取为2020年8月2日8时数据进行的预测结果,Y为有雷雨大风,N为无雷雨大风。
步骤八:将表6预测结果进行可视化处理,附图2为2020年8月2日08时的可视化结果呈现图,有雷雨大风的站点标记为红色,没有雷雨大风天气的无标记。
Figure BDA0003160473250000151
表6为预测结果
步骤九:对预测准确率进行分析,采用数据分别为三天(8月1日、2日、3日),共计60多个国家站的实时地面观测数据来进行对比分析,其详细准确率如表7所示,每行数据说明为:日期、预测正确的站点/总的站点、准确率。其中第一行解释为日期为2020年8月1日8时往后推12小时的预测结果文件,总共有62个站点,预测正确了53个站点,准确率为85.48%,表中每一行都将预测的数据和实际的地面观测数据进行对比,总共列举了26行结果,每一行有数据62条,即62个国家站的预测结果,准确率在80%以上的有17行,准确率在70%以上有21行,据了解当前雷雨大风人工预测的准确率多数都在50%以下。所以本发明的模型预测效果良好,为气象领域预测雷雨大风提供了新的预测手段。
Figure BDA0003160473250000161
表7为准确率预测
步骤十:为了进一步进行分析,对雷雨大风等级进行了划分,并进行了展示。其中根据浦氏风力等级来划分等级,蒲氏风力等级就是用数字(从1到17)描述风力的风级表,描述了从蒲氏零级风(calm)到十二级风(hurricane)的条件并对每级海上及陆上风况作了详细描述。其中风力级7级13.8m/s,9级为20.7m/s,,11级为28.4m/s,13级为大于32.6m/s。如附图3所示为2020年9月19日的雷雨大风等级划分图。
级别说明:*型13级,三角形11级,正方形9级,圆形7级。
本发明提到的短时临近雷雨大风预测是指根据气象学对预测的时间范围的定义,利用当前时刻已知的相关气象要素数据,通过机器学习方法对辽宁省各地区未来时间内是否发生雷雨大风进行预测。根据气象业务需求,具体来说,就是根据当前时刻的相关气象要素数据预测未来3小时的降雨和大风值。其需要对包含气象要素的数据进行机器学习训练,建立未来3小时短时临近预测机器学习模型,并根据所建立的机器学习模型的雷雨大风预测值对参与预测的气象要素进行分析。

Claims (4)

1.基于XGBoost的短临雷雨大风的预测方法,其特征在于:该方法的实现过程分为三步骤:
第一步骤:基于多类原始数据的处理并建立样本集;
第二步骤:将样本集输入到模型当中进行训练并分析结果;
第三步骤:模型布置在实际的气象预报***中,并且实时得到预测结果。
2.根据权利要求1所述的基于XGBoost的短临雷雨大风的预测方法,其特征在于:
所述第一步骤,找寻两处精准的原始数据,处理并建立样本集;利用地面雷达观测站和环境预报中心每隔几小时采集的数据进行预处理为对应的数据集,形成两类数据集,构建模型训练样本集的步骤如下;
1)对利用地面雷达观测和环境预报中心采集的数据进行数据预处理,即对采集到的原始数据进行解析处理,形成数据文件;
2)处理数据文件,进行去除缺失值及异常值、重复值等一些处理,形成完整的数据文件;
3)通过筛选与雷雨大风相关的属性,删除其中不相关或不重要的属性,由于雷雨大风气象数据特征属性有多个,遍历特征需要花费很长的时间,而采用XGBoost是一个树集成模型,它使用总数为K棵树,将每棵树对样本预测值的和作为该样本在XGBoost***中的预测结果,定义的函数表达式如式(1)所示;首先XGBoost采用预排序,在迭代之前,对结点的特征做预排序,遍历选择最优分割点,数据量大时,贪心法耗时少,因此能够快速得到所有雷雨大风气象特征的***点;
Figure FDA0003160473240000011
式(1)中树的总数为K,表示训练的迭代次数,即XGBoost采用迭代算法时需要建立子树的个数,fk表示第k次迭代得到的决策树,
Figure FDA0003160473240000021
表示所有所有决策树的样本预测值的和,
Figure FDA0003160473240000022
是求和公式,为第一次到第K次训练的总数;
4)将处理好的两类数据文件进行经纬度匹配;
5)将处理好的两类数据文件通过时间经纬度进行匹配,形成模型训练样本集。
3.根据权利要求1所述的基于XGBoost的短临雷雨大风的预测方法,其特征在于:
所述第二步骤,建立基于XGBoost的雷雨大风预测模型,将第一步骤中的训练样本集导入所述模型进行训练并分析结果;
1)根据雷雨大风的特征属性,将雷雨大风预测模型的输入确定为NCEP中的数据集,即为降雨数据集;输出为地面雷达数据集,即为降雨和大风的数据集;
2)对雷雨大风预测模型进行训练,将上述样本在XGBoost***中的预测结果,其训练策略采用贪心策略确定***特征及特征值,从而减少在寻找***特征时算法的复杂度;并采用交叉验证、分布式训练等特点使模型有较好的训练与预测性能;基于以上,根据降雨和大风数值,预测是否会发生雷雨大风;
XGBoost迭代训练过程中采用的目标函数是关于导数的泰勒二阶展开式,其中未进行泰勒展开的表达式见式(2);其中式(3)Ω(f)为式(2)中Ω(fk)的展开式
Figure FDA0003160473240000023
Figure FDA0003160473240000031
式(2)中
Figure FDA0003160473240000032
为采用的目标函数,为因变量,yi表示第i个样本的降雨或大风值,
Figure FDA0003160473240000033
表示上一次训练时即上一个时刻决策树的第I个样本所预测的降雨和大风值,t-1为训练的轮数,Ω(f)为正则化项,
Figure FDA0003160473240000034
表示关于真实值yi和预测值
Figure FDA0003160473240000035
的损失函数,只有当损失函数越低时,即真实的降雨和大风数值与预测的数值越接近,效果才会越好;
式(3)中λ表示正则项平衡系数,其目的是为平衡损失函数和每一个构成XGBoost的决策树复杂度,T表示第k轮训练得到的构成XGBoost的决策树的叶子结点的个数,w表示第k轮构成XGBoost的决策树的叶子节点的分数,ξ表示控制叶子节点个数的影响因子;其中式(3)第二项
Figure FDA0003160473240000036
为L2正则项,用于控制叶子节点的权重分数;
训练时,新的一轮加入一个新的f函数,来最大化地降低目标函数,在第t轮,我们的目标函数为见式(4);
Figure FDA0003160473240000037
将目标函数
Figure FDA0003160473240000038
进行泰勒展开,其中
Figure FDA0003160473240000039
为求和公式,为第一棵树的预测值累加到第n棵树的总和;取前三项,移除高阶小无穷小项,最后目标函数转化为泰勒展开式如式(5)所示,
Figure FDA0003160473240000041
每棵树的得分score只与损失函数的一阶导数和二阶导数相关,式(5)中(i∈I)为集合关系,Ij表示第j个节点里样本的集合,gi为关于上一时刻即第(t-1)次迭代时第i个样本值的一阶导数,hi为关于上一时刻即第(t-1)次迭代时第i个样本值的二阶导数,
Figure FDA0003160473240000042
表示第xi个叶子节点的权重,详见式(6)和式(7);
Figure FDA0003160473240000043
Figure FDA0003160473240000044
其中
Figure FDA0003160473240000045
为式(2)中
Figure FDA0003160473240000046
函数,Ij表示第j个节点里样本的集合即为每颗决策树中的预测值的集合;
3)将经过处理后的地面观测数据和再分析数据集中的所有样本数据集以8:2的比例随机进行分离,形成训练集和验证集;其中,数量较多的80%训练数据集被用于输入到XGBoost模型之中对模型训练,在每一轮迭代中通过上一轮对降雨和大风的实际值的残差再进行调整,在迭代中不断改变进行修正使得残差值不断变小最终得到对降雨和大风分析效果最优的算法模型;之后用20%的测试值来对模型进行测试,判别效果通过决定系数来判定,即拟合优度;决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征变数Y的变异中有多少百分比,由控制的自变数X来解释,决定系数越接近1为模型效果越好;表达式:R2=SSR/SST=1-SSE/SST;
其中:SST=SSR+SSE,SST(total sum of squares)为总平方和,SSR(regression sumof squares)为回归平方和,SSE(error sum of squares)为残差平方和;
Figure FDA0003160473240000051
Figure FDA0003160473240000052
Figure FDA0003160473240000053
Figure FDA0003160473240000054
Figure FDA0003160473240000055
拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高;观察点在回归直线附近越密集;
其中式(8-11)中yi为每颗节点树的预测值;Y为降雨大风的实际值;
利用以上表达式能够得出:大风模型的测试决定系数R2和降雨模型的决定系数R2;决定系数值越接近1为模型效果越好;
4)采用气象领域常用的TS评分检验预测效果其值;
将所有样本数据集作为模型样本,根据气象领域,常用的检验预测效果的统计量TS评分,TS评分越接近1效果越好。
4.根据权利要求1所述的基于XGBoost的短临雷雨大风的预测方法,其特征在于:
所述第三步骤,将所述第二步骤中训练得到的模型布置在气象局气象预测***上,来实时预测雷雨大风情况:
1)通过气象局与CIMISS***的对接,生成预测雷雨大风所需要的气象实时数据文件,即为NCEP当中的与雷雨大风相关属性的数据,作为输入;
2)通过所述训练好的模型,得到输出为降雨和大风的数据值;
3)将输出得到的数据值即预测结果,进行可视化处理;
检验预测结果的统计量有:TS评分、命中率、漏报率、空报率、准确率;其中TP为实际有雷雨大风且预测有雷雨大风,FP为实际有雷雨大风而预测无雷雨大风,FN为实际无雷雨大风而预测有雷雨大风,TN为实际无雷雨大风且预测也无雷雨大风,各评价指标公式如下:
TS评分公式:TP/(TP+FP+FN) (13)
命中率公式:TP/(TP+FP) (14)
漏报率公式:FN/(TP+FN+FP+TN) (15)
空报率公式:FP/(TP+FN+FP+TN) (16)
准确率公式:(TP+TN)/(TP+FN+FP+TN) (17)。
CN202110789924.4A 2021-03-10 2021-07-13 基于XGBoost的短临雷雨大风的预测方法 Pending CN113537336A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110259217 2021-03-10
CN2021102592174 2021-03-10

Publications (1)

Publication Number Publication Date
CN113537336A true CN113537336A (zh) 2021-10-22

Family

ID=78127704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110789924.4A Pending CN113537336A (zh) 2021-03-10 2021-07-13 基于XGBoost的短临雷雨大风的预测方法

Country Status (1)

Country Link
CN (1) CN113537336A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114125001A (zh) * 2021-11-19 2022-03-01 青岛天人环境股份有限公司 用于餐厨垃圾处理厌氧***的边缘微平台设备
CN115688588A (zh) * 2022-11-04 2023-02-03 自然资源部第一海洋研究所 一种基于改进xgb方法的海表面温度日变化振幅预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108375808A (zh) * 2018-03-12 2018-08-07 南京恩瑞特实业有限公司 Nriet基于机器学习的大雾预报方法
CN108491877A (zh) * 2018-03-20 2018-09-04 国家气象中心 一种分类对流天气概率预报方法及装置
CN110197218A (zh) * 2019-05-24 2019-09-03 绍兴达道生涯教育信息咨询有限公司 基于多源卷积神经网络的雷雨大风等级预测分类方法
CN111444940A (zh) * 2020-02-28 2020-07-24 山东大学 风机关键部位故障诊断方法
CN112348278A (zh) * 2020-11-18 2021-02-09 中铁工程装备集团有限公司 一种基于XGBoost算法预测盾构机土仓压力的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108375808A (zh) * 2018-03-12 2018-08-07 南京恩瑞特实业有限公司 Nriet基于机器学习的大雾预报方法
CN108491877A (zh) * 2018-03-20 2018-09-04 国家气象中心 一种分类对流天气概率预报方法及装置
CN110197218A (zh) * 2019-05-24 2019-09-03 绍兴达道生涯教育信息咨询有限公司 基于多源卷积神经网络的雷雨大风等级预测分类方法
CN111444940A (zh) * 2020-02-28 2020-07-24 山东大学 风机关键部位故障诊断方法
CN112348278A (zh) * 2020-11-18 2021-02-09 中铁工程装备集团有限公司 一种基于XGBoost算法预测盾构机土仓压力的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何龙: "《深入理解XGBoost高效机器学习算法与进阶》", 31 May 2020, 机械工业出版社, pages: 161 - 163 *
钟海燕: "机器学习方法在临近降雨预报中的应用研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》, pages 22 - 30 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114125001A (zh) * 2021-11-19 2022-03-01 青岛天人环境股份有限公司 用于餐厨垃圾处理厌氧***的边缘微平台设备
CN114125001B (zh) * 2021-11-19 2024-02-02 青岛天人环境股份有限公司 用于餐厨垃圾处理厌氧***的边缘微平台设备
CN115688588A (zh) * 2022-11-04 2023-02-03 自然资源部第一海洋研究所 一种基于改进xgb方法的海表面温度日变化振幅预测方法
CN115688588B (zh) * 2022-11-04 2023-06-27 自然资源部第一海洋研究所 一种基于改进xgb方法的海表面温度日变化振幅预测方法

Similar Documents

Publication Publication Date Title
CN111815037B (zh) 一种基于注意力机制的可解释性短临极端降雨预测方法
CN110363347B (zh) 基于决策树索引的神经网络预测空气质量的方法
CN106650767B (zh) 基于聚类分析和实时校正的洪水预报方法
CN110503256B (zh) 基于大数据技术的短期负荷预测方法及***
CN109165693B (zh) 一种适用于露、霜和结冰的天气现象的自动判识方法
CN113537336A (zh) 基于XGBoost的短临雷雨大风的预测方法
CN110766200A (zh) 一种基于K-means均值聚类的风电机组发电功率预测方法
CN115270965A (zh) 一种配电网线路故障预测方法和装置
CN105469219A (zh) 一种基于决策树的电力负荷数据处理方法
CN111178585A (zh) 基于多算法模型融合的故障接报量预测方法
CN114202103A (zh) 一种基于机器学习的节假日景区客流预测方法
CN112348264A (zh) 一种基于随机森林算法的碳钢腐蚀速率预测方法
CN115796404A (zh) 一种面向代理购电用户的用电预测方法及***
CN114626640A (zh) 基于特征工程和lstm神经网络的天然气负荷预测方法及***
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
CN105678406A (zh) 一种基于云模型的短期负荷预测方法
CN115718746A (zh) 基于机器学习的稻田甲烷排放量预测方法
CN115907822A (zh) 一种考虑区域及经济影响的负荷特征指标关联性挖掘方法
CN113689053B (zh) 一种基于随机森林的强对流天气架空线停电预测方法
CN117332909B (zh) 基于智能体的多尺度城市内涝道路交通暴露性预测方法
CN108830405B (zh) 基于多指标动态匹配的实时电力负荷预测***及其方法
Koolagudi Long-range prediction of Indian summer monsoon rainfall using data mining and statistical approaches
CN105117969A (zh) 评价结果区分度明显的输电杆塔塔材实际强度计算方法
Zhang et al. PM2. 5 prediction based on XGBoost
Bartok et al. Data mining for fog prediction and low clouds detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination