CN113821986A - 基于随机森林的涡旋海面信号与水下关键参数反演方法 - Google Patents

基于随机森林的涡旋海面信号与水下关键参数反演方法 Download PDF

Info

Publication number
CN113821986A
CN113821986A CN202111382855.1A CN202111382855A CN113821986A CN 113821986 A CN113821986 A CN 113821986A CN 202111382855 A CN202111382855 A CN 202111382855A CN 113821986 A CN113821986 A CN 113821986A
Authority
CN
China
Prior art keywords
vortex
data
underwater
value
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111382855.1A
Other languages
English (en)
Other versions
CN113821986B (zh
Inventor
马纯永
王菲菲
高占文
梁达
陈戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202111382855.1A priority Critical patent/CN113821986B/zh
Publication of CN113821986A publication Critical patent/CN113821986A/zh
Application granted granted Critical
Publication of CN113821986B publication Critical patent/CN113821986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/08Fluids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

一种基于随机森林的涡旋海面信号与水下关键参数反演方法,该方法对Argo浮标数据和基于SLA的涡旋识别与追踪数据集求交集;统计交集内涡旋识别数据的主要参数与水下温度异常数据的相关性,得到相关性参数;基于随机森林算法并结合得到的相关性参数,预测水下温度异常极值;基于概率密度函数对水下温度异常极值所处深度进行统计分析,并得到水下深度的概率分布数据。本发明利用随机森林算法,根据涡旋海表层信号反演出涡旋的水下温度异常极值及其所处深度的信息,并将反演结果与实际数据做精确性检验,能够完成对全球涡旋水下温度异常关键参数的反演与精确性统计,对于海洋中尺度涡旋的水下研究具有参考价值。

Description

基于随机森林的涡旋海面信号与水下关键参数反演方法
技术领域
本发明属于海洋信息技术领域,具体涉及一种基于随机森林的涡旋海面信号与水下关键参数反演方法。
背景技术
海洋涡旋在全球海洋中广泛分布,对海洋中的物质、能量、热量等传输和混合起着重要作用,同时对海洋中海洋生态、多尺度运动、海洋气候变化及大气环境等都有着十分重要的影响。而中尺度涡旋是海洋中的常见现象之一,它们的半径区间在 10-100km,是海洋中尺度现象的重要组成之一。中尺度涡的寿命周期通常长达几个星期到几个月,有的甚至能达到几年之久。中尺度涡在其寿命周期中,会移动几十到几百公里,并携带强大的动能,占到全球海洋环流动能的一半以上,对海洋内的物质裹挟运输交换、热量和动量的输运起到十分重要的作用, 也对海洋中的环境和气候变化具有深远的影响。因此,海洋中尺度涡的研究具有重要的科学意义和应用价值。
海洋涡旋立体研究的重要前提是准确获取其随时间变化的三维流场、温盐、生化参数等结构信息。现有的对于海洋中尺度涡旋的观测手段主要有遥感卫星、科考船、浮标及潜水器、 Argo观测网等。其中,卫星高度计可以获得全球覆盖的准同步海洋观测数据,它不仅可以实现对中尺度涡旋的识别、探测,而且可以对中尺度涡旋的特征与演化进行统计与分析;Argo全球观测计划能够获取全球海洋垂直结构上的温度和盐度等属性信息的剖面数据, 以 Argo 浮标为代表的水下观测平台的发展使中尺度涡的研究再一次成为最前沿的海洋热点。但是目前海洋学家对于中尺度涡旋的海表面信号与涡旋水下观测信号之间的关系研究较少,单纯依靠遥感卫星无法感知水下信号。
因此,探究一种基于涡旋海面信号能够反演水下关键参数的算法迫在眉睫。
发明内容
本发明提出一种基于随机森林的涡旋海面信号与水下关键参数反演方法,以弥补现有技术的不足。
本发明利用超过20年的Argo浮标数据和基于SLA的涡旋识别与追踪数据集对全球中尺度涡的基本特征进行统计分析。在此基础上,结合Argo浮标水下温度异常数据,基于随机森林算法对涡旋的表面特征与水下温度异常进行关键参数反演(水下温度异常关键参数主要为水下温度异常极值和温度异常极值所处深度)。
为实现上述目的,本发明采用如下技术方案,具体步骤为:
一种基于随机森林的涡旋海面信号与水下关键参数反演方法,该方法包括以下步骤:
(1)对Argo浮标数据和基于SLA的涡旋识别与追踪数据集求交集;
(2)统计交集内涡旋识别数据的主要参数与水下温度异常数据的相关性,得到相关性参数;
(3)基于随机森林算法并结合步骤(1)得到的相关性参数,预测水下温度异常极值;
(4)基于概率密度函数对水下温度异常极值所处深度进行统计分析,并得到水下深度的概率分布数据。
进一步的,所述步骤(1)中Argo浮标数据收集要超过20年。
进一步的,所述步骤(1)中所述交集具体为:
1-1、求浮标与涡心连线的延长线与涡旋边界的交点
设涡心经纬度坐标为(x0,y0),Argo浮标经纬度坐标为(x1,y1)
Figure 724571DEST_PATH_IMAGE001
若x1-x0>0:
Figure 378407DEST_PATH_IMAGE002
,调用contains_point()函数判断交点(x,y)是否在涡旋内部,若是,则输出交点经纬度坐标(x,y);
若x1-x0<0:
Figure 135010DEST_PATH_IMAGE003
,调用contains_point()函数判断交点(x,y)是否在涡旋内部,若是,则输出交点经纬度坐标(x,y);
1-2、求交点与涡心的距离
设涡心经纬度坐标为(x0,y0),Argo浮标经纬度坐标为(x1,y1),交点经纬度坐标(x,y)
Figure 848888DEST_PATH_IMAGE004
Figure 457986DEST_PATH_IMAGE005
Figure 649933DEST_PATH_IMAGE006
最后用平面的矩形对角距离公式得到交点与涡心的总距离
Figure 526622DEST_PATH_IMAGE007
,将公式中交点坐标换为浮标坐标可得浮标与涡心的总距离
Figure 676981DEST_PATH_IMAGE008
1-3、提取位于涡旋内部的Argo浮标
交点与涡心的总距离为L1,浮标与涡心的总距离为L2,
Figure 504866DEST_PATH_IMAGE009
,若a <= 0,则判定Argo浮标位于涡旋内部,以此方法遍历Argo浮标数据,得到Argo温度异常数据与基于SLA的涡旋识别数据的交集数据集。
进一步的,所述步骤(2)中,所述相关性参数包括涡旋海表面信号的半径、振幅、动能。
进一步的,所述步骤(2)具体为:
2-1、首先导入滤波函数,使用低通滤波函数,确定使
Figure 766083DEST_PATH_IMAGE010
的初始条件同时会消除数据的瞬变;
Figure 966120DEST_PATH_IMAGE011
是在最小二乘框架下工作,
Figure 287380DEST_PATH_IMAGE012
Figure 339912DEST_PATH_IMAGE013
Figure 139241DEST_PATH_IMAGE014
其中,
Figure 724943DEST_PATH_IMAGE015
Figure 951525DEST_PATH_IMAGE016
为初始值;
初始参数设置如下:
Figure 989888DEST_PATH_IMAGE017
零相位低通滤波器参数设置如下:
Figure 825864DEST_PATH_IMAGE018
2-2、再调用核密度估计函数,高斯核密度估计公式如下:参数设置如下:
Figure 266072DEST_PATH_IMAGE019
Figure 663556DEST_PATH_IMAGE020
h是带宽,实验的带宽h=200,这里的带宽作为一个平滑参数,控制结果中的偏差和方差之间的权衡。一个大的带宽会导致一个非常平滑的密度分布,一个小的带宽导致一个不平滑的(即高方差)密度分布;对温度异常和深度数据经过高斯核密度处理后得到一个二维数组表,使用索引函数返回二维数组值从小到大的索引值,得到温度异常极值、深度及其索引值x, y, z,对x,y按照z的升序进行排列,即可得到全球涡旋海表面信号与水下温度异常数据的二维索引表。
进一步的,所述步骤(3)中:使用步骤(2)得到的涡旋与水下特征信息的二维索引表文件,在随机森林算法中导入该文件,使用涡旋的半径、动能、振幅作为主要输入量,浮标距离涡心的距离、经纬度等信息作为辅助输入量,来预测水下温度异常极值。
更进一步的,所述步骤(3)具体为:
3-1、首先对二维索引表文件使用网格搜索,即网格搜索和交叉验证;对训练数据集采用随机森林预测,得到温度异常极值的预测结果。
训练集划分公式如下:
Figure 189215DEST_PATH_IMAGE021
Figure 831811DEST_PATH_IMAGE022
是均值为0,方差为1的正态分布数据集,变量数m 为正整数;
Figure 392106DEST_PATH_IMAGE023
来自平均集合正态分布数据集
Figure 694911DEST_PATH_IMAGE024
迭代后的结果,ρ是从[0,1]的均匀分布中选择的。
Figure 973445DEST_PATH_IMAGE025
β m 是子集,k是聚类中心,h为分组系数;
3-2、对训练数据集进行拟合处理,然后进行标准归一化处理;标准归一化采用的是Z-score标准化,其思路是把所有数据归一到均值为0方差为1的分布中,公式如下:
Figure 652689DEST_PATH_IMAGE026
其中,Xmean是特征的均值;σ:每组特征值的标准差;X:每一个特征值;Xscale:归一化后的特征值;
3-3、对训练数据集进行随机森林预测,得到基于涡旋海面信号的水下温度异常极值反演结果,随机森林算法公式如下:
Figure 566024DEST_PATH_IMAGE027
Figure 305310DEST_PATH_IMAGE028
其中,
Figure 805562DEST_PATH_IMAGE029
为预测因子,x为输入值,y为输出值
使用
Figure 22917DEST_PATH_IMAGE030
公式并应用不平等函数
Figure 59268DEST_PATH_IMAGE031
带入到上式中得到
Figure 703876DEST_PATH_IMAGE032
对公式两边积分可得到输入值x和预测值y的分布情况,同时可得到均方误差
Figure 691423DEST_PATH_IMAGE033
,平均均方误差
Figure 712469DEST_PATH_IMAGE034
,经过随机森林预测算法处理可得到最后的温度异常预测值y。
进一步的,所述步骤(4)是将步骤(2)中得到的Argo温度异常数据与基于SLA的涡旋识别数据的交集数据集中的涡旋半径、振幅、动能及温度异常及其所处深度信息,基于涡旋的半径、动能、振幅作为主要输入量,使用核密度估计的概率密度函数来预测水下温度异常极值所处深度的情况。
更进一步的,所述步骤(4)中,设本实验数据的累积分布函数为F(x),概率密度函数为f(x),则有:
Figure 836283DEST_PATH_IMAGE035
Figure 681486DEST_PATH_IMAGE036
引入累积分布函数的经验分布函数:
Figure 890750DEST_PATH_IMAGE037
使用n次观测中xi≤t 出现的次数与n的比值来近似描述 P(x≤t),将该函数代入f(xi),可得
Figure 715487DEST_PATH_IMAGE038
h也被称为核密度估计中的带宽,h值不能太大也不能太小,太大不满足h→0 的条件,太小使用的样本数据点太少,误差会很大。
带宽的选择参考公式:
Figure 693807DEST_PATH_IMAGE039
其中,σ 为样本的标准差, n为样本个数,经过实验分析,本实验采用的带宽h=5。
确定带宽后,写出f(x) 的表达式:
Figure 211376DEST_PATH_IMAGE040
基于涡旋的半径、动能、振幅作为主要输入量,使用核密度估计的概率密度函数能够预测出水下温度异常极值所处深度的分布情况,同时得到深度的统计概率分布。
本发明的优点和有益效果:
本发明是一种基于随机森林预测,通过涡旋海面信号来反演水下温度异常的关键参数的方法,有完备的理论支撑,从大数据挖掘的层面上,利用Argo浮标数据在涡旋内的水下数据信息,更直观地分析涡旋海表层信号对水下温度异常关键参数的影响。
本发明利用随机森林算法,根据涡旋海表层信号反演出涡旋的水下温度异常极值及其所处深度的信息,并将反演结果与实际数据做精确性检验,能够完成对全球涡旋水下温度异常关键参数的反演与精确性统计,对于海洋中尺度涡旋的水下研究具有参考价值。
本发明具有非常高的研究和应用价值,它不仅体现在海洋动力学等理论研究中,还体现在国防军事等实际应用中。
附图说明
图1本发明基本流程图。
图2 涡旋半径与温度异常极值的相关性图。
图3 涡旋振幅与温度异常极值的相关性图。
图4 涡旋动能与温度异常极值的相关性图。
图5 全球随机森林预测温度异常精确性分布图。
图6 全球随机森林预测温度异常均方误差图。
图7 全球深度分布图。
图8 全球深度概率分布图。
具体实施方式
以下通过具体实施例并结合附图对本发明进一步解释和说明。
实施例1:
一种基于随机森林的涡旋海面信号与水下温度异常关键参数反演方法,流程如图1所示。具体操作包括以下步骤:
1、对超过20年的Argo浮标数据和基于SLA的涡旋识别与追踪数据集求交集;
Argo浮标数据集来源:http://www.argo.ucsd.edu。
基于SLA的涡旋识别与追踪数据集和cars2009气候态数据为本专业人员开源数据。
首先对Argo浮标数据集进行数据预处理,提取Argo浮标数据0-1000m的属性信息,包括:经度、纬度、时间、压力、温度、盐度。本实施例取Argo浮标水下0-1000m的数据与cars2009气候态数据做差值处理,得到Argo温度异常数据集。
使用基于SLA的涡旋识别数据集依据时间、经度、纬度遍历Argo温度异常数据集,在相同时间条件下,若Argo浮标的经纬度落在涡旋内,则认为该浮标此时探测的为涡内数据,以此方法遍历20年的Argo浮标数据,得到Argo温度异常数据与基于SLA的涡旋识别数据的交集数据集,具体求交集方法如下:
Figure 409401DEST_PATH_IMAGE041
、求浮标与涡心连线的延长线与涡旋边界的交点
设涡心经纬度坐标为(x0,y0),Argo浮标经纬度坐标为(x1,y1)
Figure 37829DEST_PATH_IMAGE042
Figure 870656DEST_PATH_IMAGE043
Figure 293547DEST_PATH_IMAGE044
使用contains_point()函数判断交点(x,y)是否在涡旋内部,若是,则输出交点经纬度坐标(x,y);
Figure 241518DEST_PATH_IMAGE045
Figure 142478DEST_PATH_IMAGE046
使用contains_point()函数判断交点(x,y)是否在涡旋内部,若是,则输出交点经纬度坐标(x,y);
Figure 360969DEST_PATH_IMAGE047
、求交点与涡心的距离
设涡心经纬度坐标为(x0,y0),Argo浮标经纬度坐标为(x1,y1),交点经纬度坐标(x,y)
Figure 954762DEST_PATH_IMAGE048
Figure 625915DEST_PATH_IMAGE049
Figure 97610DEST_PATH_IMAGE050
最后用平面的矩形对角距离公式得到交点与涡心的总距离
Figure 170608DEST_PATH_IMAGE051
,将公式中交点坐标换为浮标坐标可得浮标与涡心的总距离
Figure 935301DEST_PATH_IMAGE052
Figure 93750DEST_PATH_IMAGE053
、提取位于涡旋内部的Argo浮标
交点与涡心的总距离为L1,浮标与涡心的总距离为L2
Figure 336513DEST_PATH_IMAGE054
,若
Figure 582728DEST_PATH_IMAGE055
,则判定Argo浮标位于涡旋内部,以此方法遍历Argo浮标数据,得到Argo温度异常数据与基于SLA的涡旋识别数据的交集数据集。
1.统计交集内涡旋识别数据的主要参数与水下温度异常数据的相关性,得到相关性主要参数;
首先导入滤波函数,选择调用低通滤波,使用低通滤波函数确定使
Figure 518323DEST_PATH_IMAGE010
的初始条件同时会消除数据的瞬变;
Figure 164068DEST_PATH_IMAGE056
是在最小二乘框架下工作,给出一种对滤波后的白噪声进行说明的可行的实现方法,它对于本实验数据的滤波效果是有效的。
Figure 210521DEST_PATH_IMAGE057
Figure 759576DEST_PATH_IMAGE058
Figure 866073DEST_PATH_IMAGE059
其中,
Figure 999114DEST_PATH_IMAGE060
Figure 849258DEST_PATH_IMAGE061
为初始值
初始参数设置如下:
Figure 249890DEST_PATH_IMAGE062
零相位低通滤波器参数设置如下:
Figure 527288DEST_PATH_IMAGE063
本实验的标准化切割频率设置为0.2和0.25,噪声序列长度为200,运算后得到一条Argo剖面的温度异常滤波值T1。若为暖涡数据则使用求最大值函数,求得温度异常最大值所处的深度索引值T2,若为冷涡数据则使用求最小值函数,求得温度异常最大值所处的深度索引值。
再调用核密度估计函数,高斯核密度估计公式如下:参数设置如下:
Figure 616467DEST_PATH_IMAGE019
Figure 535881DEST_PATH_IMAGE064
h是带宽,实验的带宽h=200,这里的带宽作为一个平滑参数,控制结果中的偏差和方差之间的权衡。一个大的带宽会导致一个非常平滑的密度分布,一个小的带宽导致一个不平滑的(即高方差)密度分布;对温度异常和深度数据经过高斯核密度处理后得到一个二维数组表,使用索引函数返回二维数组值从小到大的索引值,得到温度异常极值、深度及其索引值x, y, z,对x,y按照z的升序进行排列,即可得到全球涡旋海表面信号与水下温度异常数据的二维索引表。如表1所示为截取部分地区的全球涡旋海表面信号与水下温度异常数据的二维索引表。
表1 截取部分地区的全球涡旋海表面信号与水下温度异常数据的二维索引表
涡旋半径 涡旋动能 涡旋振幅 浮标距涡心距离 浮标经度 浮标纬度 涡心经度 涡心纬度 温度异常 深度
84.40 23.05 3.40 0.73 18.02 37.29 17.93 36.78 0.37 30.00
88.94 33.67 3.85 0.17 18.04 36.90 18.10 36.83 0.69 95.00
78.91 28.38 3.76 0.57 18.14 37.19 18.35 36.87 0.43 36.00
57.05 11.57 1.58 0.92 12.23 38.77 12.57 39.03 1.02 41.00
106.08 10.63 2.65 0.99 12.16 38.67 12.26 39.15 0.61 50.00
84.52 94.62 7.04 0.54 18.53 34.16 18.80 34.38 0.85 410.00
90.33 19.90 2.99 0.58 17.44 36.68 17.94 36.72 0.49 83.00
90.14 44.81 3.35 0.98 18.84 32.64 17.96 33.74 0.84 353.00
114.63 68.02 5.75 0.77 18.87 32.72 17.84 33.96 1.03 402.00
63.55 60.66 3.67 0.68 18.15 32.42 18.32 32.66 1.11 466.00
110.18 93.86 6.06 0.09 18.05 33.54 18.17 33.50 0.45 135.00
84.19 83.76 4.63 0.45 18.20 33.33 18.42 33.04 0.63 161.00
88.28 85.61 5.04 0.71 18.37 32.50 18.40 33.04 1.15 479.00
88.55 66.56 5.14 0.41 18.36 32.53 18.42 32.80 1.10 450.00
82.79 86.43 5.30 0.41 18.53 32.66 18.45 32.90 1.06 440.00
99.26 49.71 3.33 0.37 18.57 32.65 18.44 32.83 0.91 398.00
91.08 49.44 4.18 0.32 17.98 33.54 17.83 33.90 0.42 123.00
108.26 56.27 5.04 0.84 18.79 32.78 17.67 33.98 1.04 460.00
103.56 69.07 5.75 0.50 17.78 33.47 17.61 34.04 0.64 128.00
86.35 85.41 5.14 0.49 18.15 33.30 18.41 32.98 0.58 92.00
118.14 93.16 7.53 0.51 17.83 33.46 17.53 34.15 0.75 160.00
103.01 75.18 5.45 0.44 17.88 33.48 17.86 33.95 0.68 150.00
120.09 56.93 4.56 0.51 18.14 33.32 18.43 32.81 0.63 162.00
54.91 49.99 2.75 0.86 18.29 33.35 18.42 32.93 0.58 140.00
112.64 109.06 6.76 0.94 18.41 32.39 18.36 33.10 0.35 135.00
90.13 76.17 6.95 0.86 17.22 36.00 18.04 35.24 0.04 123.00
105.94 72.58 7.69 0.37 18.18 35.92 17.80 35.37 0.23 39.00
102.46 72.86 8.28 0.83 17.58 36.01 18.06 35.19 0.47 53.00
107.62 71.25 7.33 0.71 18.39 35.92 17.77 35.38 0.03 30.00
68.48 24.45 2.20 0.58 16.92 32.36 17.14 32.66 1.30 127.00
92.34 61.26 6.47 0.53 17.82 35.85 18.13 35.19 0.35 46.00
102.36 61.56 7.18 0.66 17.53 35.92 18.03 35.25 0.35 45.00
90.13 77.00 7.11 0.58 18.03 35.94 17.88 35.26 0.16 44.00
85.69 85.33 7.05 0.45 17.96 35.81 18.05 35.31 0.14 48.00
98.36 91.05 5.80 0.78 19.38 35.53 18.88 35.78 0.99 252.00
84.82 117.20 7.91 0.79 18.65 35.35 19.07 35.63 1.09 277.00
100.90 112.23 7.23 0.40 19.30 35.79 18.93 35.82 1.14 367.00
41.10 18.11 1.06 0.37 18.79 32.28 18.90 32.21 1.08 81.00
61.49 12.24 1.71 0.90 11.18 38.81 11.75 38.72 0.56 38.00
68.88 64.02 3.61 0.16 18.64 35.78 18.70 35.73 0.89 59.00
133.90 142.78 7.20 0.74 17.52 34.11 17.49 33.66 0.50 64.00
依据索引表数据对全球涡旋海表面信号与水下温度异常数据进行绘图分析,得出涡旋海表面信号的半径、振幅、动能与水下温度异常相关性明显,图2、3、4分别是涡旋半径、涡旋振幅、涡旋动能与温度异常极值的相关性图。
2.基于随机森林算法并结合步骤2得到的相关性主要参数来预测水下温度异常极值,并得到预测精度及均方根误差。
使用步骤2得到的涡旋与水下特征信息的二维索引表文件,在随机森林算法中导入该文件,使用涡旋的半径、动能、振幅作为主要输入量,浮标距离涡心的距离、经纬度等信息作为辅助输入量,来预测水下温度异常极值。具体操作如下:
Figure 292484DEST_PATH_IMAGE065
、首先对二维索引表文件使用网格搜索(GridSearchCV),即网格搜索和交叉验证。网格搜索,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数。GridSearchCV可以保证在指定的参数范围内找到精度最高的参数,在交叉验证时,一旦发现最好的模型,将会在整个训练集上重新训练,使用更多的数据集会提升模型的性能。对二位索引表文件使用网格搜索后可以得到整个训练集上的最佳参数。
训练模型参数设置如下:train_test_split(x,y,test_size=0.2,random_state= 50)函数,x为输入数据,y为训练对象数据,样本占比test_size设置为0.2,随机数的种子random_state设置为50。对训练数据集采用随机森林预测,得到温度异常极值的预测结果。
训练集划分公式如下:
Figure 242248DEST_PATH_IMAGE066
Figure 349881DEST_PATH_IMAGE067
是均值为0,方差为1的正态分布数据集,变量数m =30,样本量为200。
Figure 541828DEST_PATH_IMAGE068
来自平均集合正态分布数据集
Figure 152938DEST_PATH_IMAGE069
迭代后的结果,ρ是从[0,1]的均匀分布中选择的。
Figure 536253DEST_PATH_IMAGE025
β m 是子集,k是聚类中心,h为分组系数,本实验h=15。
Figure 865603DEST_PATH_IMAGE070
、对训练数据集使用数据预处理函数先对数据进行拟合处理,然后使用标准化函数对数据进行标准归一化处理。标准归一化采用的是Z-score标准化,其思路是把所有数据归一到均值为0方差为1的分布中,公式如下:
Figure 595662DEST_PATH_IMAGE071
其中,Xmean是特征的均值(均值就是平均值);σ:每组特征值的标准差;X:每一个特征值;Xscale:归一化后的特征值。
Figure 326857DEST_PATH_IMAGE072
、使用随机森林函数对训练数据集进行随机森林预测,得到基于涡旋海面信号的水下温度异常极值反演结果,随机森林算法公式如下:
Figure 382538DEST_PATH_IMAGE027
Figure 169491DEST_PATH_IMAGE073
其中,
Figure 234399DEST_PATH_IMAGE029
为预测因子,x为输入值,y为输出值
使用
Figure 820101DEST_PATH_IMAGE074
公式并应用不平等函数
Figure 577841DEST_PATH_IMAGE031
带入到上式中得到
Figure 380319DEST_PATH_IMAGE075
对公式两边积分可得到输入值x和预测值y的分布情况,同时可得到均方误差
Figure 717759DEST_PATH_IMAGE033
,平均均方误差
Figure 157968DEST_PATH_IMAGE034
,经过随机森林预测算法处理可得到最后的温度异常预测值y。
利用下面的公式可求得随机森林预测精度R2,随机森林预测精度的均方误差mse,
Figure 555451DEST_PATH_IMAGE076
Figure 316996DEST_PATH_IMAGE077
,精度值越接近于1说明预测 精度越好, ,
Figure 723706DEST_PATH_IMAGE078
叫做均方误差,是真实值-预测值,然后平方之后求和 平均,衡量观测值与真实值之间的偏差。
将计算得到的数据转换为二维数组形式,经python绘图得到全球随机森林预测温度异常精确性分布图(图5)及全球随机森林预测温度异常均方误差图(图6)。从图中可以看出,在全球层面使用随机森林预测水下温度异常的精确度在0.6以上,拟合性良好,在西北太平洋和印度洋区域精确度达到1附近,拟合性优秀;全球层面的均方根误差均值在0.8附近,符合误差要求,说明使用随机森林算法能够反演出水下温度异常极值的分布情况。
3.基于概率密度函数对水下温度异常极值所处深度进行统计分析,并得到深度的概率分布数据。
导入步骤2中得到的Argo温度异常数据与基于SLA的涡旋识别数据的交集数据集中的涡旋半径、振幅、动能及温度异常及其所处深度信息,基于涡旋的半径、动能、振幅作为主要输入量,使用核密度估计的概率密度函数来预测水下温度异常极值所处深度的情况。
核密度估计是估计随机变量的概率密度函数的非参数方法,是一种针对连续数据的密度估计方法,并且其根据数据本身的相互关系得到,无需对数据分布做假设。给定带宽H,每个样本都由平滑的核函数拟合,某数据的密度值可以视为其他所有样本对该数据的平均影响,设本实验数据的累积分布函数为F(x),概率密度函数为f(x),则有:
Figure 284001DEST_PATH_IMAGE079
Figure 586806DEST_PATH_IMAGE080
引入累积分布函数的经验分布函数:
Figure 599762DEST_PATH_IMAGE037
使用n次观测中xi≤t 出现的次数与n的比值来近似描述 P(x≤t),将该函数代入f(xi),可得
Figure 777540DEST_PATH_IMAGE038
h也被称为核密度估计中的带宽,h值不能太大也不能太小,太大不满足h→0 的条件,太小使用的样本数据点太少,误差会很大。
带宽的选择参考公式:
Figure 192341DEST_PATH_IMAGE081
其中,σ 为样本的标准差, n为样本个数,经过实验分析,本实验采用的带宽h=5。
确定带宽后,我们可以写出f(x) 的表达式:
Figure 931626DEST_PATH_IMAGE082
基于涡旋的半径、动能、振幅作为主要输入量,使用核密度估计的概率密度函数能够预测出水下温度异常极值所处深度的分布情况,同时可以得到深度的统计概率分布,最终统计结果如图7全球深度分布图和图8全球深度概率分布图所示。从图中可以看出,全球温度异常极值所处深度均值在260m附近,太平洋中部和北大西洋区域深度可达到400m;全球层面利用概率密度预测的温度异常极值所处深度的概率精确度均值为0.8,精确度符合要求,在印度洋北部和太平洋东部地区精确度可达到1,说明使用核密度估计的概率密度函数能够预测出水下温度异常极值所处深度的分布情况。
如本实例所示,本发明可在参数设置完成后,根据涡旋海表层信号创新性的反演出涡旋的水下温度异常极值及其所处深度的信息,并将反演结果与实际数据做精确性检验,能够完成对全球涡旋水下温度异常关键参数的反演与精确性统计,对于海洋中尺度涡旋的水下研究具有参考价值。

Claims (9)

1.一种基于随机森林的涡旋海面信号与水下关键参数反演方法,其特征在于,该方法包括以下步骤:
(1)对Argo浮标数据和基于SLA的涡旋识别与追踪数据集求交集;
(2)统计交集内涡旋识别数据的主要参数与水下温度异常数据的相关性,得到相关性参数;
(3)基于随机森林算法并结合步骤(1)得到的相关性参数,预测水下温度异常极值;
(4)基于概率密度函数对水下温度异常极值所处深度进行统计分析,并得到水下深度的概率分布数据。
2.如权利要求1所述的反演方法,其特征在于,所述步骤(1)中Argo浮标数据收集要超过20年。
3.如权利要求1所述的反演方法,其特征在于,所述步骤(1)中所述交集具体为:
1-1:求浮标与涡心连线的延长线与涡旋边界的交点;
1-2:求交点与涡心的距离;
1-3:提取位于涡旋内部的Argo浮标
交点与涡心的总距离为L1,浮标与涡心的总距离为L2
Figure 844912DEST_PATH_IMAGE001
,若
Figure 985037DEST_PATH_IMAGE002
,则判定Argo浮标位于涡旋内部,以此方法遍历Argo浮标数据,得到Argo温度异常数据与基于SLA的涡旋识别数据的交集数据集。
4.如权利要求1所述的反演方法,其特征在于,所述步骤(2)中,所述相关性参数包括涡旋海表面信号的半径、振幅、动能。
5.如权利要求4所述的反演方法,其特征在于,所述步骤(2)具体为:
2-1:首先导入滤波函数,使
Figure 816858DEST_PATH_IMAGE003
的初始条件同时会消除数据的瞬变;
Figure 42434DEST_PATH_IMAGE004
是在最小二乘框架下工作,
Figure 149061DEST_PATH_IMAGE005
Figure 878114DEST_PATH_IMAGE006
Figure 474312DEST_PATH_IMAGE007
其中, Y f b Y bf 为初始值;
初始参数设置如下:
Figure 249501DEST_PATH_IMAGE008
零相位低通滤波器参数设置如下:
Figure 425398DEST_PATH_IMAGE009
2-2:再调用核密度估计函数高斯核密度估计公式如下:
Figure 336854DEST_PATH_IMAGE010
Figure 561075DEST_PATH_IMAGE011
其中h是带宽;对温度异常和深度数据经过高斯核密度处理后得到一个二维数组表,返回二维数组值从小到大的索引值,得到温度异常极值、深度及其索引值x, y, z,对x,y按照z的升序进行排列,即可得到全球涡旋海表面信号与水下温度异常数据的二维索引表。
6.如权利要求1所述的反演方法,其特征在于,所述步骤(3)中:使用步骤(2)得到的涡旋与水下特征信息的二维索引表文件,在随机森林算法中导入该文件,使用涡旋的半径、动能、振幅作为主要输入量,浮标距离涡心的距离、经纬度等信息作为辅助输入量,来预测水下温度异常极值。
7.如权利要求6所述的反演方法,其特征在于,所述步骤(3)具体为:
3-1:首先对二维索引表文件使用网格搜索,即网格搜索和交叉验证;对训练数据集采用随机森林预测,得到温度异常极值的预测结果;
训练集划分公式如下:
Figure 636610DEST_PATH_IMAGE012
Figure 773455DEST_PATH_IMAGE013
是均值为0,方差为1的正态分布数据集,变量数m 为正整数;
Figure 618046DEST_PATH_IMAGE014
来自平均集合正态分布数据集
Figure 759308DEST_PATH_IMAGE015
迭代后的结果,ρ是从[0,1]的均匀分布中选择的;
Figure 571406DEST_PATH_IMAGE016
β m 是子集,k是聚类中心,h为分组系数;
3-2:对训练数据集进行拟合处理,然后进行标准归一化处理;标准归一化采用的是Z-score标准化,其思路是把所有数据归一到均值为0方差为1的分布中,公式如下:
Figure 948161DEST_PATH_IMAGE017
其中,Xmean是特征的均值;σ:每组特征值的标准差;X:每一个特征值;Xscale:归一化后的特征值;
3-3:对训练数据集进行随机森林预测,得到基于涡旋海面信号的水下温度异常极值反演结果,随机森林算法公式如下:
Figure 568629DEST_PATH_IMAGE018
Figure 880793DEST_PATH_IMAGE019
其中,
Figure 942639DEST_PATH_IMAGE020
为预测因子,x为输入值,y为输出值
使用
Figure 388664DEST_PATH_IMAGE021
公式并应用不平等函数
Figure 191534DEST_PATH_IMAGE022
带入到上式中得到
Figure 2496DEST_PATH_IMAGE023
对公式两边积分可得到输入值x和预测值y的分布情况,同时可得到均方误差
Figure 523607DEST_PATH_IMAGE024
,平均均方误差
Figure 711006DEST_PATH_IMAGE025
,经过随机森林预测算法处理可得到最后的温度异常预测值y。
8.如权利要求1所述的反演方法,其特征在于,所述步骤(4)是将步骤(2)中得到的Argo温度异常数据与基于SLA的涡旋识别数据的交集数据集中的涡旋半径、振幅、动能及温度异常及其所处深度信息,基于涡旋的半径、动能、振幅作为输入量,使用核密度估计的概率密度函数来预测水下温度异常极值所处深度的情况。
9.如权利要求8所述的反演方法,其特征在于,所述步骤(4)中,设累积分布函数为F(x),概率密度函数为f(x),则有:
Figure 368383DEST_PATH_IMAGE026
Figure 615825DEST_PATH_IMAGE027
引入累积分布函数的经验分布函数:
Figure 358653DEST_PATH_IMAGE028
使用n次观测中xi≤t 出现的次数与n的比值来近似描述 P(x≤t),将该函数代入f(xi),可得
Figure 349743DEST_PATH_IMAGE029
h也被称为核密度估计中的带宽;
带宽的选择参考公式:
Figure 127206DEST_PATH_IMAGE030
其中,σ 为样本的标准差, n为样本个数;
确定带宽后,写出f(x) 的表达式:
Figure 404603DEST_PATH_IMAGE031
基于涡旋的半径、动能、振幅作为主要输入量,使用核密度估计的概率密度函数能够预测出水下温度异常极值所处深度的分布情况,同时得到深度的统计概率分布。
CN202111382855.1A 2021-11-22 2021-11-22 基于随机森林的涡旋海面信号与水下关键参数反演方法 Active CN113821986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111382855.1A CN113821986B (zh) 2021-11-22 2021-11-22 基于随机森林的涡旋海面信号与水下关键参数反演方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111382855.1A CN113821986B (zh) 2021-11-22 2021-11-22 基于随机森林的涡旋海面信号与水下关键参数反演方法

Publications (2)

Publication Number Publication Date
CN113821986A true CN113821986A (zh) 2021-12-21
CN113821986B CN113821986B (zh) 2022-02-22

Family

ID=78917976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111382855.1A Active CN113821986B (zh) 2021-11-22 2021-11-22 基于随机森林的涡旋海面信号与水下关键参数反演方法

Country Status (1)

Country Link
CN (1) CN113821986B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494894A (zh) * 2022-04-18 2022-05-13 中国海洋大学 海洋黑涡自动识别与关键参数反演方法、装置和电子设备
CN115291615A (zh) * 2022-10-10 2022-11-04 中国海洋大学 一种自适应追涡观测***及其控制方法、装置
CN115797734A (zh) * 2023-02-07 2023-03-14 慧铁科技有限公司 一种铁路列车故障形态离散数据表示处理的方法
CN116151136A (zh) * 2023-04-24 2023-05-23 浙江大学 基于概率误差补偿的全球表层海水pH反演方法及***
CN116306318A (zh) * 2023-05-12 2023-06-23 青岛哈尔滨工程大学创新发展中心 基于深度学习的三维海洋温盐场预报方法、***及设备
CN116629026A (zh) * 2023-07-18 2023-08-22 中国海洋大学 基于bp神经网络的涡核水下最大温度异常反演方法
CN117932362A (zh) * 2024-03-25 2024-04-26 自然资源部第一海洋研究所 一种中尺度涡旋识别和轨迹追踪方法及其装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101513591B1 (ko) * 2014-08-26 2015-04-21 (주)비엔티솔루션 웹 3d를 이용한 실시간 해양공간정보 제공시스템
CN105894439A (zh) * 2016-04-05 2016-08-24 中国海洋大学 基于CUDA的海洋涡旋及Argo浮标交集数据快速提取算法
CN107784667A (zh) * 2016-08-24 2018-03-09 中国海洋大学 基于并行的全球海洋中尺度涡快速识别算法
CN109543356A (zh) * 2019-01-07 2019-03-29 福州大学 考虑空间非平稳性的海洋内部温盐结构遥感反演方法
CN111242206A (zh) * 2020-01-08 2020-06-05 吉林大学 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法
CN112883564A (zh) * 2021-02-01 2021-06-01 中国海洋大学 一种基于随机森林的水体温度预测方法及预测***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101513591B1 (ko) * 2014-08-26 2015-04-21 (주)비엔티솔루션 웹 3d를 이용한 실시간 해양공간정보 제공시스템
CN105894439A (zh) * 2016-04-05 2016-08-24 中国海洋大学 基于CUDA的海洋涡旋及Argo浮标交集数据快速提取算法
CN107784667A (zh) * 2016-08-24 2018-03-09 中国海洋大学 基于并行的全球海洋中尺度涡快速识别算法
CN109543356A (zh) * 2019-01-07 2019-03-29 福州大学 考虑空间非平稳性的海洋内部温盐结构遥感反演方法
CN111242206A (zh) * 2020-01-08 2020-06-05 吉林大学 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法
CN112883564A (zh) * 2021-02-01 2021-06-01 中国海洋大学 一种基于随机森林的水体温度预测方法及预测***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HE HONGLIN: "Uncertainty analysis of eddy flux measurements in typical ecosystems of ChinaFlux", 《ECOLOGICAL INFORMATICS》 *
刘炜: "基于随机森林算法的吴堡站测流断面形态预测", 《人民黄河》 *
刘长东: "海洋多源数据获取及基于多源数据的海域管理信息***", 《中国博士学位论文全文数据库》 *
孙春健: "卫星遥感重构海洋次表层研究进展", 《海洋信息》 *
马纯永: "Altimeter Observation-Based Eddy Nowcasting Using an Improved Conv-LSTM Network", 《REMOTE SENSING》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494894A (zh) * 2022-04-18 2022-05-13 中国海洋大学 海洋黑涡自动识别与关键参数反演方法、装置和电子设备
CN115291615A (zh) * 2022-10-10 2022-11-04 中国海洋大学 一种自适应追涡观测***及其控制方法、装置
CN115291615B (zh) * 2022-10-10 2023-02-28 中国海洋大学 一种自适应追涡观测***及其控制方法、装置
CN115797734A (zh) * 2023-02-07 2023-03-14 慧铁科技有限公司 一种铁路列车故障形态离散数据表示处理的方法
CN116151136A (zh) * 2023-04-24 2023-05-23 浙江大学 基于概率误差补偿的全球表层海水pH反演方法及***
CN116151136B (zh) * 2023-04-24 2023-06-27 浙江大学 基于概率误差补偿的全球表层海水pH反演方法及***
CN116306318A (zh) * 2023-05-12 2023-06-23 青岛哈尔滨工程大学创新发展中心 基于深度学习的三维海洋温盐场预报方法、***及设备
CN116629026A (zh) * 2023-07-18 2023-08-22 中国海洋大学 基于bp神经网络的涡核水下最大温度异常反演方法
CN116629026B (zh) * 2023-07-18 2023-09-26 中国海洋大学 基于bp神经网络的涡核水下最大温度异常反演方法
CN117932362A (zh) * 2024-03-25 2024-04-26 自然资源部第一海洋研究所 一种中尺度涡旋识别和轨迹追踪方法及其装置

Also Published As

Publication number Publication date
CN113821986B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN113821986B (zh) 基于随机森林的涡旋海面信号与水下关键参数反演方法
CN109541172B (zh) 土壤属性值的计算方法及装置
Lemos et al. A spatio-temporal model for mean, anomaly, and trend fields of North Atlantic sea surface temperature
CN107784165B (zh) 基于光伏电站的地表温度场多尺度资料同化方法
CN103336305B (zh) 一种基于灰色理论划分致密砂岩储层岩石物理相的方法
KR102479804B1 (ko) 지역 및 계절에 대한 특성이 반영된 인공지능모델을 이용한 수위, 용적량, 유입량 및 오염도 측정 방법, 장치 및 프로그램
CN104331583B (zh) 一种基于实测海杂波数据的多重分形建模方法
CN109141426A (zh) 一种水下重力匹配导航适配区的优选方法
Dikbas et al. Defining homogeneous regions for streamflow processes in Turkey using a K-means clustering method
CN111695473A (zh) 基于长短时记忆网络模型的热带气旋强度客观监测方法
CN112687356B (zh) 有机碳垂直分布模型区分方法、装置、终端及存储介质
CN116796799A (zh) 无水文资料地区中小流域洪水降雨量阈值模型创建方法
Ou et al. Estimation of sound speed profiles using a random forest model with satellite surface observations
CN114021445B (zh) 一种基于随机森林模型的海洋涡旋混合非局地性预测方法
CN116361621A (zh) 基于风云四号卫星的大气波导监测诊断方法和***
Song et al. Hyperspectral data spectrum and texture band selection based on the subspace-rough set method
CN114563771A (zh) 基于聚类分析的双阈值激光雷达云层检测算法
Oteng Mensah et al. Modeling monthly actual evapotranspiration: an application of geographically weighted regression technique in the Passaic River Basin
CN114528729A (zh) 一种基于多尺度耦合的潜山裂缝气藏产量预测方法
Wang et al. Bayesian networks precipitation model based on hidden Markov analysis and its application
Danese et al. Geostatistics in historical macroseismic data analysis
Alhakeem et al. Up-Scaled Petrophysical Analyses Using Micro-Level Field-Of-View Petrographic Images for the Kapuni Group, Taranaki Basin, New Zealand
CN114755387B (zh) 基于假设检验法的水体监测点位优化方法
Kislov et al. Extreme Values of Wind Speed over the Kara Sea Based on the ERA5 Dataset
Zheng et al. A Hybrid Approach for Soil Total Nitrogen Anomaly Detection Integrating Machine Learning and Spatial Statistics. Agronomy 2023, 13, 2669

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant