CN117055136A

CN117055136A - 基于随机森林的逐日气象要素空间插值方法、***及设备

Info

Publication number: CN117055136A
Application number: CN202310862136.2A
Authority: CN
Inventors: 李艳志; 李克秋; 王恺锋; 汪祖民; 李国辉; 刘正龙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-11-14

Abstract

本发明涉及机器学习应用和气象学技术领域，尤其涉及基于随机森林的逐日气象要素空间插值方法、***及设备；该方法包括从数据库中抽取研究区域气象要输数据进行预处理，并对特征变量进行归一化缩放范围；通过空间分层抽样划分数据集，获得更具代表性的气象站点作为训练集；再构建融合半变异函数的随机森林回归模型，减弱了空间异质性的影响；对模型进行训练，并通过贝叶斯优化算法优化超参数，最后将模型用于空间插值绘制，相比传统空间插值方法，大大提高了插值精度，丰富了插值细节信息。

Description

基于随机森林的逐日气象要素空间插值方法、***及设备

技术领域

本发明涉及机器学习应用和气象学技术领域，具体是基于随机森林的逐日气象要素空间插值方法、***及设备。

背景技术

在气象学中，气象因素包括温度、湿度、降雨量、风速等，是农业、林业、环境等研究领域的基础，获得精确可靠的高分辨率气象数据对于推进相关研究的发展具有重大意义；其中，气象数据主要源自气象站点监测，但气象站点在空间上分布离散稀疏且不均匀，虽然站点附近监测的数据精准，但无法获得站点外整个区域的气象要素数据，使用空间数据插值方法，将一组已知的离散数据，按照某种数学关系推求出其他未知点或未知区域数据，是一种常用的方法。

目前最常用的空间插值方法有：最近邻法、反距离加权法、样条法和克里金法等，但这些传统方法多基于统计方法，受限于主观先验知识的代入，未完全理解物理过程，并且在处理多变量时存在能力不足的问题。

相比于传统插值方法，机器学习技术基于自适应机制，不依靠假设，可以弥补传统方法工作量大、主观性强、预测精度低等缺点，随机森林是基于Bagging框架设计的一种集成学习算法，随机森林以决策树为基分类器进行集成，在决策过程中引入随机选择数据特征的方法，可以评估变量重要程度自动选择重要变量，且一般不会出现过拟合现象。

发明内容

本发明的目的在于提供基于随机森林的逐日气象要素空间插值方法、***及设备，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于随机森林的逐日气象要素空间插值方法，包含以下步骤：

通过数据库获取研究区域的逐日气象要素数据，并对所述气象要素数据进行预处理，以建立数据集；

通过空间分层抽样方法对数据集进行抽样划分，分别获取基于所述数据集的训练集与测试集；

基于半异变函数对随机森林模型进行融合构建，建立随机森林回归模型；

使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，以优化训练所述随机森林回归模型；

通过服务器部署超参数选择优化后的所述随机森林回归模型，以用于对研究区域的逐日气象数据及特征值进行模型处理转化，获取对应研究区域的气象要素空间插值图。

作为本发明的进一步方案：所述通过数据库获取研究区域的逐日气象要素数据，并对所述气象要素数据进行预处理，以建立数据集的步骤具体包括：

响应空间插值获取请求，以确定相对应的研究区域，并基于数据库获取该研究区域及相关联气象站点的逐日气象要素数据，所述气象要素数据包括站点的经度、纬度、海拔信息、温度、湿度信息、降雨量信息以及风速信息；

以预设的质量控制程序对所述逐日气象要素数据分别进行异常值检查、位置检查、站点唯一性检查以及有效数据检查；

通过数字高程模型DEM提取站点的海拔、坡向及坡度信息以建立协变量，所述协变量用于通过参与插值运算以降低地形地貌对于要素插值的影响；

基于所述经度、纬度、海拔信息、坡向及坡度为特征变量，以温度、湿度、降雨量及风速信息为目标变量进行方法模型构建，并进行归一化缩放处理，获取归一化后的数据模型为：

其中，x_t ⁿ是归一化后的数据，x_t是原始数据，x_avg和x_sd分别是原始数据中的平均值和标准差。

作为本发明的再进一步方案：所述通过空间分层抽样方法对数据集进行抽样划分，分别获取基于所述数据集的训练集与测试集的步骤具体包括：

通过K-means聚类算法对所有站点基于经度、纬度、海拔、坡向及坡度进行特征分层，获取多个特征层；

将每个所述特征层的样本量占比设为相对应特征层的层权W并用于相对应特征层的随机抽样。

作为本发明的再进一步方案：所述基于半异变函数对随机森林模型进行融合构建，建立随机森林回归模型的步骤具体包括：

基于半异变函数对随机森林模型进行融合模型构建，定义为：

Y(s)＝f(X_t,X_v)

其中，Y(s)是s点的目标变量取值，X_t是特征变量组，X_v是空间位置关系与半变异函数所得到的变量组；

通过预设的球状模型对所述半变异函数进行拟合，使得所述半变异函数达到稳定；

分别计算获取温度、湿度、降雨量及风速的半变异函数表达式，进一步获取模型所需的半变异函数变量组X_v，并将特征变量组X_t和半变异函数变量组X_v输入随机森林回归模型，用于训练目标变量和特征变量、半变异函数变量直接的相关联性；

随机森林回归模型通过随机选择样本及特征，并基于Booststrap思想以训练多个分类回归树，最终回归预测为多个分类回归树的平均值，表示为：

其中，x是回归预测的特征变量，M为分类回归树的个数，是第m个分类回归树。

作为本发明的再进一步方案：所述使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，以优化训练所述随机森林回归模型对步骤具体包括：

使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，优化选择的所述超参数包括森林中决策树的个数(n_estimators)、决策树的深度(max_depth)、决策树划分的最大特征数(max_features)以及***内部节点需要的最小样本数(min_samples_split)；

选择均方根误差RMSE为贝叶斯优化的目标函数，计算方法表示为：

其中，n为参与交叉验证的样本点数，为样本点s_i的测量值，/>为样本点s_i在预测模型下的预测值；

获得相对应的超参数最优值后，对随机森林回归模型进行调节优化并保存。

本发明实施例旨在提供一种基于随机森林的逐日气象要素空间插值***，包括：

数据预处理模块，用于通过数据库获取研究区域的逐日气象要素数据，并对所述气象要素数据进行预处理，以建立数据集；

分层抽样模块，用于通过空间分层抽样方法对数据集进行抽样划分，分别获取基于所述数据集的训练集与测试集；

融合构建模块，用于基于半异变函数对随机森林模型进行融合构建，建立随机森林回归模型；

超参数优化模块，用于使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，以优化训练所述随机森林回归模型；

插值获取模块，用于通过服务器部署超参数选择优化后的所述随机森林回归模型，以用于对研究区域的逐日气象数据及特征值进行模型处理转化，获取对应研究区域的气象要素空间插值图。

本发明实施例旨在提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，所述一个或多个程序在所述存储器中存储，且可被所述处理器所执行，所述一个或多个程序用于执行实现如基于随机森林的逐日气象要素空间插值方法的多个步骤的指令。

与现有技术相比，本发明的有益效果包括：通过随机森林空间预测模型，弥补传统空间插值方法工作量大、主观性强、预测精度低等缺点；且选择海拔、坡向、坡度作为特征变量参与模型训练拟合，充分考虑了地形地貌对空间插值的影响；利用半变异函数将空间位置关系信息融合到随机森林模型中，减弱了空间异质性的影响，丰富了插值细节信息和插值精度。

附图说明

图1为一种基于随机森林的逐日气象要素空间插值方法的流程框图。

图2为一种基于随机森林的逐日气象要素空间插值方法中变异函数模型图。

图3为一种基于随机森林的逐日气象要素空间插值方法中基于某地数据获取的空间插值图。

图4为一种基于随机森林的逐日气象要素空间插值***的组成框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现方式进行详细描述。

如图1和图3所述，为本发明一个实施例提供的一种基于随机森林的逐日气象要素空间插值方法，包括以下步骤：

S10，通过数据库获取研究区域的逐日气象要素数据，并对所述气象要素数据进行预处理，以建立数据集。

S20，通过空间分层抽样方法对数据集进行抽样划分，分别获取基于所述数据集的训练集与测试集。

S30，基于半异变函数对随机森林模型进行融合构建，建立随机森林回归模型。

S40，使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，以优化训练所述随机森林回归模型。

S50，通过服务器部署超参数选择优化后的所述随机森林回归模型，以用于对研究区域的逐日气象数据及特征值进行模型处理转化，获取对应研究区域的气象要素空间插值图。

作为本发明另一个优选的实施例，所述通过数据库获取研究区域的逐日气象要素数据，并对所述气象要素数据进行预处理，以建立数据集的步骤具体包括：

响应空间插值获取请求，以确定相对应的研究区域，并基于数据库获取该研究区域及相关联气象站点的逐日气象要素数据，所述气象要素数据包括站点的经度、纬度、海拔信息、温度、湿度信息、降雨量信息以及风速信息。

以预设的质量控制程序对所述逐日气象要素数据分别进行异常值检查、位置检查、站点唯一性检查以及有效数据检查。

通过数字高程模型DEM提取站点的海拔、坡向及坡度信息以建立协变量，所述协变量用于通过参与插值运算以降低地形地貌对于要素插值的影响。

本实施例中，数据处理的过程首先确定需要空间插值的研究区域，从数据库中抽取该区域内及其附近所有气象站点的逐日气象要素数据，而后进行异常数据排查，具体的说，异常值检查：用于排除32766数据缺测或无观测任务数据；位置检查：用于排除站点位置信息缺失的数据；站点唯一性检查：用于排查确保不存在重合站点；有效数据检查：用于排除全年有效数据低于80％的数据；同时，为减少地形地貌对气象要素插值的影响，引入数字高程模型DEM，这里我们选择空间分辨率为12.5m；通过ArcGIS软件提供的aspects和slope计算工具从DEM提取坡向及坡度信息，保存为栅格数据，与海拔高度一起作为协变量参与插值运算，这里做归一化缩放处理的作用是为了消除特征值范围过大的问题。

作为本发明另一个优选的实施例，所述通过空间分层抽样方法对数据集进行抽样划分，分别获取基于所述数据集的训练集与测试集的步骤具体包括：

通过K-means聚类算法对所有站点基于经度、纬度、海拔、坡向及坡度进行特征分层，获取多个特征层。

本实施例中，为获得更具代表性的站点数据作为模型的训练集，使用空间分层抽样方法对数据集进行抽样划分，因此借助Python中的Scikit-learn机器学习库提供的K-means聚类算法模型进行多个特征层的划分；相邻站点间具有相似度，且表达为：

其中，Q_il和Q_il分别表示第i个站点和第j个站点第l项标准值，具体的来说，通过空间分层抽样，抽取70％站点数据作为训练集，剩下30％作为测试集。

如图2所示，作为本发明另一个优选的实施例，所述基于半异变函数对随机森林模型进行融合构建，建立随机森林回归模型的步骤具体包括：

Y(s)＝f(X_t,X_v)

其中，Y(s)是s点的目标变量取值，X_t是特征变量组，X_v是空间位置关系与半变异函数所得到的变量组。

通过预设的球状模型对所述半变异函数进行拟合，使得所述半变异函数达到稳定。

分别计算获取温度、湿度、降雨量及风速的半变异函数表达式，进一步获取模型所需的半变异函数变量组X_v，并将特征变量组X_t和半变异函数变量组X_v输入随机森林回归模型，用于训练目标变量和特征变量、半变异函数变量直接的相关联性。

本实施例中，气象要素数据存在空间变异性，通过引入半变异函数来融合空间位置信息，可以提高空间插值精度，在定义的融合模型构建公式中，X_v变量组中每一个变量的取值是s点到各个样本点之间半变异值的平方根，定义公式为：

式中h_si是点s到样本点i的欧式距离，γ(h)半变异函数。

γ(h)定义公式为：

式中h是空间滞后步距，即两空间点之间的距离，N(h)为空间滞后步距为h的样本点对数，Z(s_i)和Z(s_i+h)分布表示目标变量在点s和点s+h位置处的值。

由于半变异函数缺少理论模型的拟合，需要选择最适合空间相关性随步长增长而线性递减的球状模型去拟合半变异函数，球状模型公式定义为：

式中C₀是块金值(Nugget)，C₀+C是基台值，a是空间依赖范围变程值；块金值是用表示，表示距离越接近，相异性越小，限定了空间插值的精度；基台值是半变异函数随h增长达到的稳定值；变程值是变异函数曲线由变化到稳定的范围。

作为本发明另一个优选的实施例，所述使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，以优化训练所述随机森林回归模型对步骤具体包括：

使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，优化选择的所述超参数包括森林中决策树的个数(n_estimators)、决策树的深度(max_depth)、决策树划分的最大特征数(max_features)以及***内部节点需要的最小样本数(min_samples_split)。

其中，n为参与交叉验证的样本点数，为样本点s_i的测量值，/>为样本点s_i在预测模型下的预测值。

如图4所示，本发明实施例旨在提供一种基于随机森林的逐日气象要素空间插值***，包括：

数据预处理模块10，用于通过数据库获取研究区域的逐日气象要素数据，并对所述气象要素数据进行预处理，以建立数据集。

分层抽样模块20，用于通过空间分层抽样方法对数据集进行抽样划分，分别获取基于所述数据集的训练集与测试集。

融合构建模块30，用于基于半异变函数对随机森林模型进行融合构建，建立随机森林回归模型。

超参数优化模块40，用于使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，以优化训练所述随机森林回归模型。

插值获取模块50，用于通过服务器部署超参数选择优化后的所述随机森林回归模型，以用于对研究区域的逐日气象数据及特征值进行模型处理转化，获取对应研究区域的气象要素空间插值图。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于随机森林的逐日气象要素空间插值方法，其特征在于，包含以下步骤：

2.根据权利要求1所述的一种基于随机森林的逐日气象要素空间插值方法，其特征在于，所述通过数据库获取研究区域的逐日气象要素数据，并对所述气象要素数据进行预处理，以建立数据集的步骤具体包括：

3.根据权利要求2所述的一种基于随机森林的逐日气象要素空间插值方法，其特征在于，所述通过空间分层抽样方法对数据集进行抽样划分，分别获取基于所述数据集的训练集与测试集的步骤具体包括：

4.根据权利要求3所述的一种基于随机森林的逐日气象要素空间插值方法，其特征在于，所述基于半异变函数对随机森林模型进行融合构建，建立随机森林回归模型的步骤具体包括：

Y(s)＝f(X_t,X_v)

5.根据权利要求4所述的一种基于随机森林的逐日气象要素空间插值方法，其特征在于，所述使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，以优化训练所述随机森林回归模型对步骤具体包括：

使用贝叶斯优化算法及五折交叉验证对随机森林回归模型进行超参数选择，优化选择的所述超参数包括森林中决策树的个数、决策树的深度、决策树划分的最大特征数以及***内部节点需要的最小样本数；

6.一种基于随机森林的逐日气象要素空间插值***，包括：

7.一种基于随机森林的逐日气象要素空间插值设备，包括处理器、存储器、通信接口以及一个或多个程序，所述一个或多个程序在所述存储器中存储，且可被所述处理器所执行，所述一个或多个程序用于执行实现如基于权利要求1-5的多个步骤的指令。