CN117055136A - 基于随机森林的逐日气象要素空间插值方法、***及设备 - Google Patents
基于随机森林的逐日气象要素空间插值方法、***及设备 Download PDFInfo
- Publication number
- CN117055136A CN117055136A CN202310862136.2A CN202310862136A CN117055136A CN 117055136 A CN117055136 A CN 117055136A CN 202310862136 A CN202310862136 A CN 202310862136A CN 117055136 A CN117055136 A CN 117055136A
- Authority
- CN
- China
- Prior art keywords
- random forest
- data
- model
- meteorological element
- regression model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 44
- 238000011160 research Methods 0.000 claims abstract description 30
- 238000005457 optimization Methods 0.000 claims abstract description 27
- 238000005070 sampling Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims description 18
- 238000002790 cross-validation Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 238000003066 decision tree Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000012876 topography Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000013499 data model Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000003908 quality control method Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000007689 inspection Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/02—Instruments for indicating weather conditions by measuring two or more variables, e.g. humidity, pressure, temperature, cloud cover or wind speed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Environmental & Geological Engineering (AREA)
- Biodiversity & Conservation Biology (AREA)
- Ecology (AREA)
- Atmospheric Sciences (AREA)
- Environmental Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及机器学习应用和气象学技术领域,尤其涉及基于随机森林的逐日气象要素空间插值方法、***及设备;该方法包括从数据库中抽取研究区域气象要输数据进行预处理,并对特征变量进行归一化缩放范围;通过空间分层抽样划分数据集,获得更具代表性的气象站点作为训练集;再构建融合半变异函数的随机森林回归模型,减弱了空间异质性的影响;对模型进行训练,并通过贝叶斯优化算法优化超参数,最后将模型用于空间插值绘制,相比传统空间插值方法,大大提高了插值精度,丰富了插值细节信息。
Description
技术领域
本发明涉及机器学习应用和气象学技术领域,具体是基于随机森林的逐日气象要素空间插值方法、***及设备。
背景技术
在气象学中,气象因素包括温度、湿度、降雨量、风速等,是农业、林业、环境等研究领域的基础,获得精确可靠的高分辨率气象数据对于推进相关研究的发展具有重大意义;其中,气象数据主要源自气象站点监测,但气象站点在空间上分布离散稀疏且不均匀,虽然站点附近监测的数据精准,但无法获得站点外整个区域的气象要素数据,使用空间数据插值方法,将一组已知的离散数据,按照某种数学关系推求出其他未知点或未知区域数据,是一种常用的方法。
目前最常用的空间插值方法有:最近邻法、反距离加权法、样条法和克里金法等,但这些传统方法多基于统计方法,受限于主观先验知识的代入,未完全理解物理过程,并且在处理多变量时存在能力不足的问题。
相比于传统插值方法,机器学习技术基于自适应机制,不依靠假设,可以弥补传统方法工作量大、主观性强、预测精度低等缺点,随机森林是基于Bagging框架设计的一种集成学习算法,随机森林以决策树为基分类器进行集成,在决策过程中引入随机选择数据特征的方法,可以评估变量重要程度自动选择重要变量,且一般不会出现过拟合现象。
发明内容
本发明的目的在于提供基于随机森林的逐日气象要素空间插值方法、***及设备,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于随机森林的逐日气象要素空间插值方法,包含以下步骤:
通过数据库获取研究区域的逐日气象要素数据,并对所述气象要素数据进行预处理,以建立数据集;
通过空间分层抽样方法对数据集进行抽样划分,分别获取基于所述数据集的训练集与测试集;
基于半异变函数对随机森林模型进行融合构建,建立随机森林回归模型;
使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,以优化训练所述随机森林回归模型;
通过服务器部署超参数选择优化后的所述随机森林回归模型,以用于对研究区域的逐日气象数据及特征值进行模型处理转化,获取对应研究区域的气象要素空间插值图。
作为本发明的进一步方案:所述通过数据库获取研究区域的逐日气象要素数据,并对所述气象要素数据进行预处理,以建立数据集的步骤具体包括:
响应空间插值获取请求,以确定相对应的研究区域,并基于数据库获取该研究区域及相关联气象站点的逐日气象要素数据,所述气象要素数据包括站点的经度、纬度、海拔信息、温度、湿度信息、降雨量信息以及风速信息;
以预设的质量控制程序对所述逐日气象要素数据分别进行异常值检查、位置检查、站点唯一性检查以及有效数据检查;
通过数字高程模型DEM提取站点的海拔、坡向及坡度信息以建立协变量,所述协变量用于通过参与插值运算以降低地形地貌对于要素插值的影响;
基于所述经度、纬度、海拔信息、坡向及坡度为特征变量,以温度、湿度、降雨量及风速信息为目标变量进行方法模型构建,并进行归一化缩放处理,获取归一化后的数据模型为:
其中,xt n是归一化后的数据,xt是原始数据,xavg和xsd分别是原始数据中的平均值和标准差。
作为本发明的再进一步方案:所述通过空间分层抽样方法对数据集进行抽样划分,分别获取基于所述数据集的训练集与测试集的步骤具体包括:
通过K-means聚类算法对所有站点基于经度、纬度、海拔、坡向及坡度进行特征分层,获取多个特征层;
将每个所述特征层的样本量占比设为相对应特征层的层权W并用于相对应特征层的随机抽样。
作为本发明的再进一步方案:所述基于半异变函数对随机森林模型进行融合构建,建立随机森林回归模型的步骤具体包括:
基于半异变函数对随机森林模型进行融合模型构建,定义为:
Y(s)=f(Xt,Xv)
其中,Y(s)是s点的目标变量取值,Xt是特征变量组,Xv是空间位置关系与半变异函数所得到的变量组;
通过预设的球状模型对所述半变异函数进行拟合,使得所述半变异函数达到稳定;
分别计算获取温度、湿度、降雨量及风速的半变异函数表达式,进一步获取模型所需的半变异函数变量组Xv,并将特征变量组Xt和半变异函数变量组Xv输入随机森林回归模型,用于训练目标变量和特征变量、半变异函数变量直接的相关联性;
随机森林回归模型通过随机选择样本及特征,并基于Booststrap思想以训练多个分类回归树,最终回归预测为多个分类回归树的平均值,表示为:
其中,x是回归预测的特征变量,M为分类回归树的个数,是第m个分类回归树。
作为本发明的再进一步方案:所述使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,以优化训练所述随机森林回归模型对步骤具体包括:
使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,优化选择的所述超参数包括森林中决策树的个数(n_estimators)、决策树的深度(max_depth)、决策树划分的最大特征数(max_features)以及***内部节点需要的最小样本数(min_samples_split);
选择均方根误差RMSE为贝叶斯优化的目标函数,计算方法表示为:
其中,n为参与交叉验证的样本点数,为样本点si的测量值,/>为样本点si在预测模型下的预测值;
获得相对应的超参数最优值后,对随机森林回归模型进行调节优化并保存。
本发明实施例旨在提供一种基于随机森林的逐日气象要素空间插值***,包括:
数据预处理模块,用于通过数据库获取研究区域的逐日气象要素数据,并对所述气象要素数据进行预处理,以建立数据集;
分层抽样模块,用于通过空间分层抽样方法对数据集进行抽样划分,分别获取基于所述数据集的训练集与测试集;
融合构建模块,用于基于半异变函数对随机森林模型进行融合构建,建立随机森林回归模型;
超参数优化模块,用于使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,以优化训练所述随机森林回归模型;
插值获取模块,用于通过服务器部署超参数选择优化后的所述随机森林回归模型,以用于对研究区域的逐日气象数据及特征值进行模型处理转化,获取对应研究区域的气象要素空间插值图。
本发明实施例旨在提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,所述一个或多个程序在所述存储器中存储,且可被所述处理器所执行,所述一个或多个程序用于执行实现如基于随机森林的逐日气象要素空间插值方法的多个步骤的指令。
与现有技术相比,本发明的有益效果包括:通过随机森林空间预测模型,弥补传统空间插值方法工作量大、主观性强、预测精度低等缺点;且选择海拔、坡向、坡度作为特征变量参与模型训练拟合,充分考虑了地形地貌对空间插值的影响;利用半变异函数将空间位置关系信息融合到随机森林模型中,减弱了空间异质性的影响,丰富了插值细节信息和插值精度。
附图说明
图1为一种基于随机森林的逐日气象要素空间插值方法的流程框图。
图2为一种基于随机森林的逐日气象要素空间插值方法中变异函数模型图。
图3为一种基于随机森林的逐日气象要素空间插值方法中基于某地数据获取的空间插值图。
图4为一种基于随机森林的逐日气象要素空间插值***的组成框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现方式进行详细描述。
如图1和图3所述,为本发明一个实施例提供的一种基于随机森林的逐日气象要素空间插值方法,包括以下步骤:
S10,通过数据库获取研究区域的逐日气象要素数据,并对所述气象要素数据进行预处理,以建立数据集。
S20,通过空间分层抽样方法对数据集进行抽样划分,分别获取基于所述数据集的训练集与测试集。
S30,基于半异变函数对随机森林模型进行融合构建,建立随机森林回归模型。
S40,使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,以优化训练所述随机森林回归模型。
S50,通过服务器部署超参数选择优化后的所述随机森林回归模型,以用于对研究区域的逐日气象数据及特征值进行模型处理转化,获取对应研究区域的气象要素空间插值图。
作为本发明另一个优选的实施例,所述通过数据库获取研究区域的逐日气象要素数据,并对所述气象要素数据进行预处理,以建立数据集的步骤具体包括:
响应空间插值获取请求,以确定相对应的研究区域,并基于数据库获取该研究区域及相关联气象站点的逐日气象要素数据,所述气象要素数据包括站点的经度、纬度、海拔信息、温度、湿度信息、降雨量信息以及风速信息。
以预设的质量控制程序对所述逐日气象要素数据分别进行异常值检查、位置检查、站点唯一性检查以及有效数据检查。
通过数字高程模型DEM提取站点的海拔、坡向及坡度信息以建立协变量,所述协变量用于通过参与插值运算以降低地形地貌对于要素插值的影响。
基于所述经度、纬度、海拔信息、坡向及坡度为特征变量,以温度、湿度、降雨量及风速信息为目标变量进行方法模型构建,并进行归一化缩放处理,获取归一化后的数据模型为:
其中,xt n是归一化后的数据,xt是原始数据,xavg和xsd分别是原始数据中的平均值和标准差。
本实施例中,数据处理的过程首先确定需要空间插值的研究区域,从数据库中抽取该区域内及其附近所有气象站点的逐日气象要素数据,而后进行异常数据排查,具体的说,异常值检查:用于排除32766数据缺测或无观测任务数据;位置检查:用于排除站点位置信息缺失的数据;站点唯一性检查:用于排查确保不存在重合站点;有效数据检查:用于排除全年有效数据低于80%的数据;同时,为减少地形地貌对气象要素插值的影响,引入数字高程模型DEM,这里我们选择空间分辨率为12.5m;通过ArcGIS软件提供的aspects和slope计算工具从DEM提取坡向及坡度信息,保存为栅格数据,与海拔高度一起作为协变量参与插值运算,这里做归一化缩放处理的作用是为了消除特征值范围过大的问题。
作为本发明另一个优选的实施例,所述通过空间分层抽样方法对数据集进行抽样划分,分别获取基于所述数据集的训练集与测试集的步骤具体包括:
通过K-means聚类算法对所有站点基于经度、纬度、海拔、坡向及坡度进行特征分层,获取多个特征层。
将每个所述特征层的样本量占比设为相对应特征层的层权W并用于相对应特征层的随机抽样。
本实施例中,为获得更具代表性的站点数据作为模型的训练集,使用空间分层抽样方法对数据集进行抽样划分,因此借助Python中的Scikit-learn机器学习库提供的K-means聚类算法模型进行多个特征层的划分;相邻站点间具有相似度,且表达为:
其中,Qil和Qil分别表示第i个站点和第j个站点第l项标准值,具体的来说,通过空间分层抽样,抽取70%站点数据作为训练集,剩下30%作为测试集。
如图2所示,作为本发明另一个优选的实施例,所述基于半异变函数对随机森林模型进行融合构建,建立随机森林回归模型的步骤具体包括:
基于半异变函数对随机森林模型进行融合模型构建,定义为:
Y(s)=f(Xt,Xv)
其中,Y(s)是s点的目标变量取值,Xt是特征变量组,Xv是空间位置关系与半变异函数所得到的变量组。
通过预设的球状模型对所述半变异函数进行拟合,使得所述半变异函数达到稳定。
分别计算获取温度、湿度、降雨量及风速的半变异函数表达式,进一步获取模型所需的半变异函数变量组Xv,并将特征变量组Xt和半变异函数变量组Xv输入随机森林回归模型,用于训练目标变量和特征变量、半变异函数变量直接的相关联性。
随机森林回归模型通过随机选择样本及特征,并基于Booststrap思想以训练多个分类回归树,最终回归预测为多个分类回归树的平均值,表示为:
其中,x是回归预测的特征变量,M为分类回归树的个数,是第m个分类回归树。
本实施例中,气象要素数据存在空间变异性,通过引入半变异函数来融合空间位置信息,可以提高空间插值精度,在定义的融合模型构建公式中,Xv变量组中每一个变量的取值是s点到各个样本点之间半变异值的平方根,定义公式为:
式中hsi是点s到样本点i的欧式距离,γ(h)半变异函数。
γ(h)定义公式为:
式中h是空间滞后步距,即两空间点之间的距离,N(h)为空间滞后步距为h的样本点对数,Z(si)和Z(si+h)分布表示目标变量在点s和点s+h位置处的值。
由于半变异函数缺少理论模型的拟合,需要选择最适合空间相关性随步长增长而线性递减的球状模型去拟合半变异函数,球状模型公式定义为:
式中C0是块金值(Nugget),C0+C是基台值,a是空间依赖范围变程值;块金值是用表示,表示距离越接近,相异性越小,限定了空间插值的精度;基台值是半变异函数随h增长达到的稳定值;变程值是变异函数曲线由变化到稳定的范围。
作为本发明另一个优选的实施例,所述使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,以优化训练所述随机森林回归模型对步骤具体包括:
使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,优化选择的所述超参数包括森林中决策树的个数(n_estimators)、决策树的深度(max_depth)、决策树划分的最大特征数(max_features)以及***内部节点需要的最小样本数(min_samples_split)。
选择均方根误差RMSE为贝叶斯优化的目标函数,计算方法表示为:
其中,n为参与交叉验证的样本点数,为样本点si的测量值,/>为样本点si在预测模型下的预测值。
获得相对应的超参数最优值后,对随机森林回归模型进行调节优化并保存。
如图4所示,本发明实施例旨在提供一种基于随机森林的逐日气象要素空间插值***,包括:
数据预处理模块10,用于通过数据库获取研究区域的逐日气象要素数据,并对所述气象要素数据进行预处理,以建立数据集。
分层抽样模块20,用于通过空间分层抽样方法对数据集进行抽样划分,分别获取基于所述数据集的训练集与测试集。
融合构建模块30,用于基于半异变函数对随机森林模型进行融合构建,建立随机森林回归模型。
超参数优化模块40,用于使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,以优化训练所述随机森林回归模型。
插值获取模块50,用于通过服务器部署超参数选择优化后的所述随机森林回归模型,以用于对研究区域的逐日气象数据及特征值进行模型处理转化,获取对应研究区域的气象要素空间插值图。
本发明实施例旨在提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,所述一个或多个程序在所述存储器中存储,且可被所述处理器所执行,所述一个或多个程序用于执行实现如基于随机森林的逐日气象要素空间插值方法的多个步骤的指令。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (7)
1.一种基于随机森林的逐日气象要素空间插值方法,其特征在于,包含以下步骤:
通过数据库获取研究区域的逐日气象要素数据,并对所述气象要素数据进行预处理,以建立数据集;
通过空间分层抽样方法对数据集进行抽样划分,分别获取基于所述数据集的训练集与测试集;
基于半异变函数对随机森林模型进行融合构建,建立随机森林回归模型;
使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,以优化训练所述随机森林回归模型;
通过服务器部署超参数选择优化后的所述随机森林回归模型,以用于对研究区域的逐日气象数据及特征值进行模型处理转化,获取对应研究区域的气象要素空间插值图。
2.根据权利要求1所述的一种基于随机森林的逐日气象要素空间插值方法,其特征在于,所述通过数据库获取研究区域的逐日气象要素数据,并对所述气象要素数据进行预处理,以建立数据集的步骤具体包括:
响应空间插值获取请求,以确定相对应的研究区域,并基于数据库获取该研究区域及相关联气象站点的逐日气象要素数据,所述气象要素数据包括站点的经度、纬度、海拔信息、温度、湿度信息、降雨量信息以及风速信息;
以预设的质量控制程序对所述逐日气象要素数据分别进行异常值检查、位置检查、站点唯一性检查以及有效数据检查;
通过数字高程模型DEM提取站点的海拔、坡向及坡度信息以建立协变量,所述协变量用于通过参与插值运算以降低地形地貌对于要素插值的影响;
基于所述经度、纬度、海拔信息、坡向及坡度为特征变量,以温度、湿度、降雨量及风速信息为目标变量进行方法模型构建,并进行归一化缩放处理,获取归一化后的数据模型为:
其中,xt n是归一化后的数据,xt是原始数据,xavg和xsd分别是原始数据中的平均值和标准差。
3.根据权利要求2所述的一种基于随机森林的逐日气象要素空间插值方法,其特征在于,所述通过空间分层抽样方法对数据集进行抽样划分,分别获取基于所述数据集的训练集与测试集的步骤具体包括:
通过K-means聚类算法对所有站点基于经度、纬度、海拔、坡向及坡度进行特征分层,获取多个特征层;
将每个所述特征层的样本量占比设为相对应特征层的层权W并用于相对应特征层的随机抽样。
4.根据权利要求3所述的一种基于随机森林的逐日气象要素空间插值方法,其特征在于,所述基于半异变函数对随机森林模型进行融合构建,建立随机森林回归模型的步骤具体包括:
基于半异变函数对随机森林模型进行融合模型构建,定义为:
Y(s)=f(Xt,Xv)
其中,Y(s)是s点的目标变量取值,Xt是特征变量组,Xv是空间位置关系与半变异函数所得到的变量组;
通过预设的球状模型对所述半变异函数进行拟合,使得所述半变异函数达到稳定;
分别计算获取温度、湿度、降雨量及风速的半变异函数表达式,进一步获取模型所需的半变异函数变量组Xv,并将特征变量组Xt和半变异函数变量组Xv输入随机森林回归模型,用于训练目标变量和特征变量、半变异函数变量直接的相关联性;
随机森林回归模型通过随机选择样本及特征,并基于Booststrap思想以训练多个分类回归树,最终回归预测为多个分类回归树的平均值,表示为:
其中,x是回归预测的特征变量,M为分类回归树的个数,是第m个分类回归树。
5.根据权利要求4所述的一种基于随机森林的逐日气象要素空间插值方法,其特征在于,所述使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,以优化训练所述随机森林回归模型对步骤具体包括:
使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,优化选择的所述超参数包括森林中决策树的个数、决策树的深度、决策树划分的最大特征数以及***内部节点需要的最小样本数;
选择均方根误差RMSE为贝叶斯优化的目标函数,计算方法表示为:
其中,n为参与交叉验证的样本点数,为样本点si的测量值,/>为样本点si在预测模型下的预测值;
获得相对应的超参数最优值后,对随机森林回归模型进行调节优化并保存。
6.一种基于随机森林的逐日气象要素空间插值***,包括:
数据预处理模块,用于通过数据库获取研究区域的逐日气象要素数据,并对所述气象要素数据进行预处理,以建立数据集;
分层抽样模块,用于通过空间分层抽样方法对数据集进行抽样划分,分别获取基于所述数据集的训练集与测试集;
融合构建模块,用于基于半异变函数对随机森林模型进行融合构建,建立随机森林回归模型;
超参数优化模块,用于使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择,以优化训练所述随机森林回归模型;
插值获取模块,用于通过服务器部署超参数选择优化后的所述随机森林回归模型,以用于对研究区域的逐日气象数据及特征值进行模型处理转化,获取对应研究区域的气象要素空间插值图。
7.一种基于随机森林的逐日气象要素空间插值设备,包括处理器、存储器、通信接口以及一个或多个程序,所述一个或多个程序在所述存储器中存储,且可被所述处理器所执行,所述一个或多个程序用于执行实现如基于权利要求1-5的多个步骤的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310862136.2A CN117055136A (zh) | 2023-07-14 | 2023-07-14 | 基于随机森林的逐日气象要素空间插值方法、***及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310862136.2A CN117055136A (zh) | 2023-07-14 | 2023-07-14 | 基于随机森林的逐日气象要素空间插值方法、***及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117055136A true CN117055136A (zh) | 2023-11-14 |
Family
ID=88663509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310862136.2A Pending CN117055136A (zh) | 2023-07-14 | 2023-07-14 | 基于随机森林的逐日气象要素空间插值方法、***及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117055136A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117909886A (zh) * | 2024-03-18 | 2024-04-19 | 南京海关工业产品检测中心 | 一种基于优化随机森林模型的锯齿棉品级分类方法及*** |
-
2023
- 2023-07-14 CN CN202310862136.2A patent/CN117055136A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117909886A (zh) * | 2024-03-18 | 2024-04-19 | 南京海关工业产品检测中心 | 一种基于优化随机森林模型的锯齿棉品级分类方法及*** |
CN117909886B (zh) * | 2024-03-18 | 2024-05-24 | 南京海关工业产品检测中心 | 一种基于优化随机森林模型的锯齿棉品级分类方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533631B (zh) | 基于金字塔池化孪生网络的sar图像变化检测方法 | |
CN111783840A (zh) | 一种随机森林模型的可视化方法、装置及存储介质 | |
Ozkan et al. | Data mining-based upscaling approach for regional wind power forecasting: Regional statistical hybrid wind power forecast technique (RegionalSHWIP) | |
CN117055136A (zh) | 基于随机森林的逐日气象要素空间插值方法、***及设备 | |
CN111288973B (zh) | 海表流速获取方法、装置、计算机设备和存储介质 | |
CN112149909A (zh) | 船舶油耗预测方法、装置、计算机设备和存储介质 | |
CN113376327B (zh) | 基于大数据的环境监测信息管理方法及*** | |
CN110999766A (zh) | 灌溉决策方法、装置、计算机设备和存储介质 | |
CN117789038B (zh) | 一种基于机器学习的数据处理与识别模型的训练方法 | |
CN111429028A (zh) | 一种适用于山区地形的输电线路覆冰灾害风险评估方法 | |
CN113313169B (zh) | 基于深度学习的训练素材智能识别方法、装置和设备 | |
CN113591187B (zh) | 基于bim实景模型的道路桥梁设计方法及其*** | |
CN112750507B (zh) | 基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法 | |
CN114169502A (zh) | 一种基于神经网络的降水预测方法、装置和计算机设备 | |
CN116774316A (zh) | 短临降水的预测方法、装置、存储介质及计算机设备 | |
CN114757096B (zh) | 基于narx神经网络的桥梁温度预测方法、装置、设备和介质 | |
WO2020026107A1 (de) | Verfahren und vorrichtung zum trainieren einer maschinellen lernroutine zum steuern eines technischen systems | |
CN110717623A (zh) | 融合多种天气状况的光伏发电功率预测方法及装置、设备 | |
CN115905360A (zh) | 一种基于随机构建矩阵的异常数据量测辨识方法和装置 | |
Asgharzadeh et al. | Analysis of confocal microscopy image data of Physcomitrella chloroplasts to reveal adaptation principles leading to structural stability at the nanoscale | |
CN113408895A (zh) | 基于像元尺度的生态质量指数构建方法及*** | |
Inik et al. | Prediction of Soil Organic Matter with Deep Learning | |
CN111553418B (zh) | 神经元重建错误的检测方法、装置和计算机设备 | |
Pai et al. | Can the Drought/Flood Monsoon Conditions over the Indian subcontinent be forecasted using Artificial Neural Networks? | |
CN116883755B (zh) | 一种乡村建设环境监测方法、***、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |