CN117290792B - 一种基于机器学习的气压预报***及方法 - Google Patents

一种基于机器学习的气压预报***及方法 Download PDF

Info

Publication number
CN117290792B
CN117290792B CN202311509885.3A CN202311509885A CN117290792B CN 117290792 B CN117290792 B CN 117290792B CN 202311509885 A CN202311509885 A CN 202311509885A CN 117290792 B CN117290792 B CN 117290792B
Authority
CN
China
Prior art keywords
data
air pressure
historical
forecast
regional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311509885.3A
Other languages
English (en)
Other versions
CN117290792A (zh
Inventor
李文慧
杨颖璨
黄昱
张毅
靳奎峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Meteorological Service Center Guangdong Meteorological Film And Television Publicity Center
Original Assignee
Guangdong Meteorological Service Center Guangdong Meteorological Film And Television Publicity Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Meteorological Service Center Guangdong Meteorological Film And Television Publicity Center filed Critical Guangdong Meteorological Service Center Guangdong Meteorological Film And Television Publicity Center
Priority to CN202311509885.3A priority Critical patent/CN117290792B/zh
Publication of CN117290792A publication Critical patent/CN117290792A/zh
Application granted granted Critical
Publication of CN117290792B publication Critical patent/CN117290792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的气压预报***及方法,该***包括用于获取待预报区域数值预报模式的标定时间段内历史预报数据、同期区域历史气压观测数据及当前数值预报模式预报数据的获取单元:用于对获取的数值预报模式历史预报数据及同期历史气压观测数据进行数据处理及数据清洗的处理单元;用于根据处理及清洗后的历史预报数据及历史气压观测数据构建气压订正模型的构建单元及用于根据获取的当前数值预报模式的预报数据及气压订正模型进行订正后的区域气压预报的预报单元。本发明大幅提高了区域气压预报数据的准确度,有效助力水产养殖用户科学高效养殖。

Description

一种基于机器学习的气压预报***及方法
技术领域
本发明属于水产养殖行业气象要素预报技术领域,尤其涉及一种基于机器学习的气压预报***及方法。
背景技术
近年来,随着水产养殖业的高速发展,养殖密度不断增加,投料施肥量加大,水环境有机物质增多,水中氧气消耗大,极易引起水产品缺氧窒息,导致生长缓慢、死亡率增高。水中自然增氧的主要途径之一是空气中的氧气溶于水,这种途径与气象条件息息相关,当气压升高时,空气密度加大,单位体积空气中氧分子的含量相应增多,水中从空气获取氧分子的机会更大。反之,气压降低,水中溶解氧随之下降。充足的溶解氧,是维持水产品正常呼吸、摄食及活动的重要条件。养殖户常常使用增氧机增加水中溶解氧,因此需要提供未来时间段内的气压预报,以指导水产养殖用户通过气压预报信息适时开启、关闭、增加、减少使用增氧机,降低养殖成本,以实现科学高效养殖。因此,提供一种准确有效的气压预报***及方法以指导水产科学养殖,成为研究的方向。
发明内容
为了解决现有技术存在的不足,本发明提供了一种基于机器学***面气压、区域气温、区域相对湿度、区域风速的历史预报数据、同期区域历史气压观测数据为建模数据集,并通过对数据集数据的处理和清洗,采用机器学习的方法构建区域数值预报模式气压数据的订正模型,进行区域数值预报模式气压数据的进一步订正,显著提高了区域气压预报数据的准确度,有效助力水产养殖户科学高效养殖,提高经济效益。
为了实现上述目的,本发明的一个实施方式的一种基于机器学习的气压预报***,其包括:
获取单元:用于获取待预报区域数值预报模式标定时间段内的包括区域气压、与区域气压相关的海平面气压、区域气温、区域相对湿度、区域风速的历史预报数据、同期区域历史气压观测数据及当前数值预报模式的预报数据;
处理单元:用于对获取的数值预报模式标定时间段内的历史预报数据及同期历史气压观测数据进行数据处理及数据清洗;
构建单元:用于根据处理及清洗后的历史预报数据及历史气压观测数据构建气压订正模型,以备调用;
预报单元:用于根据获取的当前数值预报模式的预报数据及气压订正模型进行订正后的区域气压预报。
进一步地,所述处理单元包括:数据处理子单元:用于将数值预报模式的历史预报数据与同期历史气压观测数据处理为同一空间及时间分辨率的数据。
数据清洗子单元:用于对处理后的数值预报模式的历史预报数据及同期历史气压观测数据进行缺失值和异常值的清洗处理;
进一步地,所述构建单元包括:数据集构建子单元:用于将处理、清洗后的数值预报模式的区域历史预报数据作为特征数据集,将处理、清洗后的同期区域历史气压观测数据作为标签数据集,按比例划分为训练集和测试集,构建模型数据集;
订正模型构建子单元:用于通过随机森林方法构建初始订正模型,并通过网格搜索方式调整、确定参数,得到优化后的气压订正模型。
进一步地,所述气压订正模型中调整、确定后的参数包括决策树个数为190,决策树最大深度为28,决策树节点包含的最少样本树为2。
进一步地,所述构建单元还包括:模型评价子单元:用于对优化后的气压订正模型的气压预报准确度进行评价。
进一步地,所述模型评价子单元用于对优化后的气压订正模型的气压预报准确度进行评价,具体为:首先计算测试集数据气压的观测值和预报值的均方根误差,然后计算订正模型订正后,测试集数据气压的观测值和订正后预报值均方根误差,比较两个均方根误差值,评价气压订正模型的气压预报准确度,均方根误差值越小,订正模型的气压预报准确度越高。
进一步地,所述数据处理子单元用于将数值预报模式的历史预报数据与历史气压观测数据处理为同一空间分辨率及同一时间分辨率的数据。具体为:用于将数值预报模式的历史预报数据处理为与气象站点空间维度一致的同一空间分辨率数据及将历史气压观测数据处理为与预报数据时间维度一致的同一时间分辨率数据;
进一步地,所述标定时间段为1年或6个月。
作为本发明的另一个方面,本发明还提供一种基于机器学习的气压预报方法,其包括以下步骤:
S1、获取待预报区域数值预报模式标定时间段内的历史预报数据及同期历史气压观测数据;所述历史预报数据包括区域气压、与区域气压相关的海平面气压、区域气温、区域相对湿度、区域风速的历史预报数据;
S2、对获取的数值预报模式的历史预报数据进行数据处理及数据清洗,具体包括:
S21、将数值预报模式的历史预报数据处理为与气象站点空间维度一致的数据;
S22、将历史气压观测数据处理为与预报数据时间维度一致的数据;
S23、对处理后的数值预报模式的历史预报数据及历史气压观测数据进行缺失值和异常值的清洗处理;
S3、根据数值预报模式的历史预报数据及历史气压观测数据构建气压订正模型,具体包括:
S31、将处理、清洗后的数值预报模式的历史预报数据作为特征数据集,将处理、清洗后的同期历史气压观测数据作为标签数据集,按比例划分为训练集和测试集,构建模型数据集;
S32、通过随机森林方法构建初始订正模型;
S33、调整参数,优化模型,对优化后的气压订正模型的气压预报准确度进行评价,根据评价结果确定气压订正模型:
S4、将当前区域数值预报模式预报数据输入至气压订正模型中,输出区域气压预报数据。
进一步地,所述步骤S32中通过随机森林方法构建初始订正模型,具体为:
S321、对原始训练集样本进行有放回的抽样,进行n轮抽取后,得到n个样本集,将这n个训练集作为生成决策树的训练集;
S322、对于每个训练集,选择K个特征,运用这K个特征来确定决策树最佳***点,每棵树最大可能的生长,最后得到n个决策树结果;
S323、对n个决策树结果求平均,得到最终的结果即为订正后的区域气压值。
本发明的有益效果为:
1、本发明通过模拟大气运动过程+机器学习两种技术方案的强强联合,实现对数值预报模式的区域气压数据的有效订正,显著提高了气压预报数据的准确率;
2、本发明以模拟大气运动过程的数值预报模式的包括区域气压及与区域气压相关的海平面气压、区域气温、区域相对湿度、区域风速的历史预报数据作为特征数据集,将同期历史气压观测数据作为标签数据集,按比例划分为训练集和测试集,进行机器学习构建订正模型,更好地反映气压预报问题的本质,提供更多的影响信息给模型进行学习,提高了模型的性能和泛化能力;
3、本发明***设置处理单元对获取的数值预报模式标定时间段内的历史预报数据及同期历史气压观测数据进行数据处理及数据清洗,提高数据集的数据质量和准确性,正确的数据集应当具有高质量和准确性,如果数据集中存在错误、噪声或者缺失值,这些问题会直接传递给模型,导致结果不准确或无法信任。因此,确保提供给模型的数据集经过严格的数据处理和清洗,是获取气压预报准确结果的关键;
4、本发明***设置模型评价子单元,对优化后的气压订正模型的优劣进行评价,通过对模型结果进行评价,可以找出模型存在的问题和瓶颈,比如是否过拟合和欠拟合、模型的可信度,从而帮助改进和优化模型,提高其预测的准确性、可靠性和泛化能力,提高气压预报准确度,从而提高本发明气压预报***的性能。
附图说明
图1是本发明一种基于机器学习的气压预报***的一个实施例的结构示意图;
图2是本发明的一个实施例的与区域气压相关的海平面气压、区域气温、区域相对湿度、区域风速对区域气压分布产生影响的示意图;
图3是本发明的一个实施例的未来72小时区域气压预报值和预报订正值对比图;
图4是本发明的一个实施例的随机森林(RF)回归算法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更为清楚,下面结合附图和实施例作进一步说明。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
广东省水产养殖业兴盛。近年来,随着广东水产养殖业的高速发展,养殖密度不断增加,投料施肥量加大,水环境有机物质增多,水中氧气消耗大,水产养殖中的缺氧问题可能导致一系列问题,包括:鱼类和其他水生动物缺氧窒息,出现浮头、跳水、静止症状,导致生长缓慢、死亡率增高;同时,氧气缺乏使得水体中含有的有毒物质无法被分解,更容易引起鱼类和其他水生动物中毒以及其他病变,缺氧也往往会降低水体的pH值、增加水温等不良环境因素,会直接导致渔业损失以及对环境产生不良影响。
水中自然增氧的主要途径之一是空气中的氧气溶于水,这种途径与气象条件息息相关,当气压升高时,空气密度加大,单位体积空气中氧分子的含量相应增多,水中从空气获取氧分子的机会更大。反之,气压降低,水中溶解氧随之下降。充足的溶解氧,是维持水产品正常呼吸、摄食及活动的重要条件。因此,水产养殖户常常需要通过气压预报***预报的信息以适时开启、关闭、增加、减少使用增氧机,以根据实际需要增加水中溶解氧,确保水产品健康并降低养殖成本,实现科学高效养殖。
目前,气压预报的主要方法是数值天气预报模式,数值天气预报模式是通过模拟大气运动过程进行气压预报。数值天气预报模式中,气压预报使用的参数主要包括初始场气压、高度场气压、气压梯度、地表气压、差值场等,这些参数在数值天气预报中相互作用,通过模拟大气运动过程的一些运算和迭代,可以得到预测未来一段时间内气压分布的结果,进而实现对气压的预报。
尽管数值预报模式在气压预报中发挥着重要作用,但预报结果还是一直存在误差,无论研究人员怎样再复杂、穷尽地将大气运动过程的物理方程进行修改、调整,数值模拟提供的信息准确度还是有待提高。
后来,根据针对模式预报结果出现不确定性原因的持续分析,研究人员发现,对气压分布的结果起到影响作用的并不只是初始场气压、高度场气压、气压梯度、地表气压、差值场等因素,如附图2所示,与区域气压相关的海平面气压、区域气温、区域相对湿度、区域风速同样能够对区域气压分布产生影响,具体体现如下:
与区域气压相关的海平面气压:与区域气压相关的海平面气压和区域地面大气压有密切关系。在没有台风、***等强风天气的情况下,地面大气压基本上是由海平面气压通过气压梯度力(即气压差)控制的。当海平面气压升高时,气压梯度力加大,地面大气压也会随之升高;反之,海平面气压下降,则地面大气压也会随之下降。
区域气温:气温变化会导致空气密度的变化,从而影响大气压力。当温度升高时,空气密度减小,大气压力会降低;反之,温度下降时,空气密度增加,大气压力会升高。
区域相对湿度:湿度是指大气中水汽含量的多少。水蒸气是大气中的重要成分之一,在相同温度下,湿度的增加会导致气压降低,因为水蒸气比干燥空气更轻。
区域风速:风是由气压差引起的空气运动,当存在气压梯度时,会形成风。风速直接影响着气压分布。
这些气象要素相互作用,并通过物理规律对大气气压产生影响。因此,对于气压的预报应该要综合考虑初始场气压、高度场气压、气压梯度、地表气压、差值场、海平面气压、区域气温、区域相对湿度、区域风速等这些要素,以更加准确地预测未来一段时间内的气压分布和变化情况。
为提高气压预报准确率以指导水产养殖户实现科学高效养殖,如附图1所示,根据本发明实施例的一个方面,本发明提供了一种基于机器学习的气压预报***,该***包括:
获取单元100:用于获取待预报区域数值预报模式标定时间段内的包括区域气压、与区域气压相关的海平面气压、区域气温、区域相对湿度、区域风速的历史预报数据、同期历史气压观测数据及当前数值预报模式的预报数据;
处理单元200:用于对获取的数值预报模式标定时间段内的历史预报数据及同期历史气压观测数据进行数据处理及数据清洗;
构建单元300:用于根据处理及清洗后的历史预报数据及同期历史气压观测数据构建气压订正模型,以备调用;
预报单元400:用于根据获取的当前数值预报模式的预报数据及气压订正模型进行订正后的区域气压预报。
可选的,上述获取单元100用于获取待预报区域数值预报模式标定时间段内的包括区域气压、与区域气压相关的海平面气压、区域气温、区域相对湿度、区域风速的历史预报数据、同期历史气压观测数据及当前数值预报模式的预报数据的方式具体可以包括:
1)待预报区域数值预报模式历史预报数据获取;
华南区域数值预报模式数据是广东省气象局目前用于预报天气、科学研究等业务使用的公知、现有的预报数据,可在气象局数据平台下载应用。
获取广东省数值预报模式某年内每日08时起预报的区域气压、与区域气压相关的海平面气压、区域2m气温、区域2m相对湿度、区域10m风速的历史预报数据,区域经纬度范围为16.6°N-30.76°N,96.6°E-122.76°E,空间分辨率为0.03*0.03,预报时效72h,时间间隔3h。
2)同期历史气压观测数据获取:获取同年广东省86个国家站逐小时区域气压观测数据。
3)当前数值预报模式的预报数据获取:获取广东省当前数值预报模式的预报数据,包括广东省数值预报模式的包括气压、与气压相关的海平面气压、气温、相对湿度及风速预报数据。
可选的,上述处理单元200具体可以包括数据处理子单元201及数据清洗子单元202,其中:
数据处理子单元201:用于将数值预报模式的历史预报数据处理为站点数据;将同期历史气压观测数据与预报数据处理为同一时间分辨率的数据。
具体包括:
1)将数值预报模式的历史预报数据处理为站点数据:华南区域数值预报模式预报的气象要素为格点数据,空间分辨率为0.03*0.03,国家站实际观测的区域气压为站点数据,采用双线性插值方法将数值预报模式预报的格点数据插值为站点数据,使预报数据与历史观测数据为同一空间分辨率。
采用双线性插值方法将数值预报模式预报的格点数据插值为站点数据方法举例如下:
已知函数f在点A11=(x1,y1),A12=(x1,y2),A21=(x2,y1),A22=(x2,y2)四个点的预报数值,即数值预报模式预报网格点上的气象要素预报数据值,求解函数f在要插值的点P=(x,y)的数值,即要插值为站点的气象要素预报数据。
首先在X轴方向上线性插值,在A12、A22中***点B2(x,y2),即求网格点(x,y2)上的气象要素预报值,在A11、A21中***点B1(x,y1),即求网格点(x,y1)上的气象要素预报值。
函数f在点B1的值为:
f(A11)为预报气象要素在网格点位置(x1,y1)上的值,f(A21)为预报气象要素在网格点位置(x2,y1)上的值。
函数f在点B2的值为:
f(A12)为预报气象要素在网格点位置(x1,y2)上的值,f(A22)为预报气象要素在网格点位置(x2,y2)上的值。
其次在y轴方向上线性插值,通过B1,B2在方向上插值计算出P点的值。
f(x,y1)为上式所求的点B1的位置(x,y1)预报气象要素的值,f(x,y2)为上式所求的点B2的位置(x,y2)预报气象要素的值。
上式合并:
f(x,y)即为所求的点P(x,y)位置上的预报气象要素的数值。
2)观测数据时间分辨率处理(处理为同一时间分辨率的数据):数值模式预报的区域气压、海平面气压、2m气温、2m相对湿度、10m风速数据为每日08时起报的时间间隔为逐3小时的数据,处理历史观测数据与预报数据为同一时间,即获取每日02、05、11、14、17、20、23时区域气压观测数据。
数据清洗子单元202:用于对处理后的数值预报模式的历史预报数据及历史气压观测数据进行缺失值和异常值的清洗处理;
数据清洗:对预报的区域气压、海平面气压、2m气温、2m相对湿度、10m风速以及区域气压观测历史数据进行缺失值和异常值处理,并将预报数据作为模型的输入数据集,观测数据作为模型的输出值,构建模型数据集。
1)缺失值处理:当缺失值前后两个数据不为空时,通过前后数据的平均值填补缺失值,当缺失值前后至少有一个为空值,删除该缺失值。
2)异常值处理:通过3σ原则处理,计算区域气压历史观测值的平均值和标准差,将超过平均值±3倍标准差的数据视为异常值删除。
平均值为:
其中,n为个数,yi为区域气压观测值。
标准差为:
其中,n为个数,yi为区域气压观测值,为区域气压平均值。
可选地,上述构建单元300用于根据处理及清洗后的历史预报数据及历史气压观测数据构建气压订正模型,具体可以包括数据集构建子单元301、订正模型构建子单元302及模型评价子单元303,其中:
数据集构建子单元301:用于将处理、清洗后的数值预报模式的历史预报数据作为特征数据集,将处理、清洗后的历史气压观测数据作为标签数据集,按比例划分为训练集和测试集,构建模型数据集;
在机器学习中,将数据集划分为特征数据集和标签数据集。特征数据集(FeatureDataset)包含用于描述每个样本的各种特征或属性。这些特征可以是数值、类别、文本或图像等形式。例如,在房价预测任务中,特征数据集可能包括房屋的面积、卧室数量、浴室数量、地理位置等信息。标签数据集(Label Dataset)则包含与每个样本对应的目标变量或类别标签。对于监督学习任务,标签数据集是预测模型要学习的输出变量。在上述房价预测任务中,标签数据集将包含每个房屋的实际销售价格。
特征数据集和标签数据集之间的对应关系是通过样本的索引或顺序来确定的,即特征数据集中的第i个样本与标签数据集中的第i个标签相对应。
在训练机器学习模型时,特征数据集被用作输入,而标签数据集被用作预期的输出。通过对特征数据集和标签数据集进行训练,模型可以学习到特征与标签之间的关联性,从而实现对未知样本的预测或分类。
将某年的广东省区域气压、海平面气压、2m气温、2m相对湿度、10m风速作为特征数据集,同期区域气压观测值作为标签数据集,通过数据清洗后形成模型数据集训练模型,并且按照7:3的比例划分为训练集和测试集,训练集用于区域气压订正模型训练,测试集用于评估区域气压模型订正效果。
订正模型构建子单元302:用于通过随机森林方法构建初始订正模型,并通过网格搜索方式调整、确定参数,得到优化后的气压订正模型。
1)首先对原始训练集样本进行有放回的抽样,进行n轮抽取,得到n个样本集,D(1),D(2),......,D(n),这n个训练集作为生成决策树的训练集;
对原始训练集样本进行有放回的抽样是一种抽样方法,也被称为自助法(bootstrap)。该方法在每次抽样时,从原始样本中随机选择一个样本,并将其放回到样本集中,然后再次进行抽样,直到抽取到足够数量的样本。
有放回抽样的特点是每个样本在每次抽样时都有平等的机会被选中,因此某些样本可能被多次选中,而另一些样本可能在某次抽样中未被选中。这样可以获得多个采样集,每个采样集之间可能存在一定的重复样本。
有放回抽样的主要优势在于,它可以有效地利用有限的样本数据,并且能够生成多个略有差异的训练集来进行模型训练。这对于模型的稳定性评估和误差估计非常有用。
2)对于每个训练集,选择K个特征(区域气压、海平面气压、2m气温、2m相对湿度、10m风速),运用这K个特征来确定决策树最佳***点,每棵树最大可能地生长,最后得到n个决策树结果。
在构建决策树时,可以采用特征子集的方式来选择用于确定最佳***点的特征。这个过程通常称为随机子空间法(Random Subspace)或特征随机选择(FeatureRandomization)。
具体而言,对于每个训练集的节点,在确定最佳***点时,从原始特征集中随机选择一个包含K个特征的子集,然后基于这个子集来评估各个特征的***质量,选取最佳的***点来进行***。
这种方法的目的是通过随机子空间方法引入特征随机性,以减少特定特征对决策树建模过程的主导作用,避免某些特征过度地影响***点的选择。通过对不同特征子集进行随机选择,可以获得多个略有差异的决策树,并通过集成学习方法(如随机森林)来综合这些决策树的结果,提高模型的鲁棒性和泛化能力。
这里的特征选择是模型训练的过程,意思是不断地选择特征作为最佳***点,得到新的决策树。总而言之,通过随机选择特征子集来确定决策树最佳***点可以提高模型的鲁棒性,并结合随机森林,可以进一步提升模型性能。
3)对n个决策树结果求平均,得到最终的结果即为订正后的区域气压值。
通过求取结果平均值可以减少个别决策树的影响,提高整体模型的稳定性和准确性。
步骤5:调整参数,优化模型:
对随机森林算法参数采用网格搜索方式,选取最优的参数组合视为最终模型的参数,网格搜索方法为:指定一组待遍历的参数及其取值范围,将参数的不同取值组合形成网格,然后遍历整个网格,对每组参数进行训练和评估,最终选取最优的参数作为模型最终的参数。随机森林算法的参数主要包括决策树个数(n_estimators)、决策树最大深度(max_depth)、决策树节点包含的最少样本树(l)。需要注意的是,网格搜索是一种计算密集型方法,随着参数组合的增加,搜索空间的大小呈指数级增长。因此,在选择参数范围时要权衡计算资源和搜索空间的大小,并确保能够在可接受的时间内完成搜索。
决策树是一种基于树形结构对数据进行分类或回归的机器学习模型。在使用随机森林算法时,需要指定决策树的数量和最大深度等超参数,以获得更好的模型性能。下面分别介绍这两个超参数:
决策树个数:随机森林是通过集成多个决策树来提高预测性能的。因此,决策树个数是用来控制随机森林中树的数量。具体来说,在训练随机森林模型时,会从原始数据集中随机选取一部分样本(有放回地抽样),并使用这些样本来构建一个独立的决策树。多个决策树的预测结果将以某种方式进行结合,例如投票、平均值等,来得出最终的预测结果。通常情况下,随机森林中的决策树数量越多,模型的性能越好,但也会消耗更多的计算资源。实践中,可以选择通过交叉验证等方法来确定最优的决策树数量,以达到最佳的性能和效率。
决策树最大深度:决策树最大深度是指树的节点可以达到的最大层数。在构建树时,如果节点的深度超过了最大深度,就停止***并将该节点标记为叶子节点。这个超参数的目的是防止过度拟合,即模型过于复杂而无法泛化到新的数据集上。通常情况下,决策树的最大深度越大,模型在训练集上的性能越好,但也可能会导致过度拟合现象,从而无法泛化到新的数据集上。因此,需要选择适当的最大深度来平衡模型的拟合能力和泛化能力。实践中,可以使用交叉验证等方法来选择最优的决策树最大深度,以在不过度拟合的情况下达到最佳的性能。
一般来说,决策树参数中,最重要的是决策树的个数,一般决策树的个数越多,模型效果越好,但如果达到一定的数量后,就不会再有大的变化了,一味增大也只是增加计算的时间。
上述气压订正模型中,经过调整、确定后的参数包括:决策树个数(n_estimators)为190,决策树最大深度(max_depth)为28,决策树节点包含的最少样本树(l)为2,这些数字参数都是通过模型搜索得到的最优结果。
模型评价子单元303:用于对优化后的气压订正模型的气压预报准确度进行评价。具体为:
得到最优区域气压订正模型后,通过均方根误差来衡量模型的订正效果,均方根误差越小,模型订正效果越好。首先计算测试集数据气压的观测值和预报值的均方根误差,然后计算订正模型订正后,测试集数据气压的观测值和订正后预报值均方根误差,比较两个均方根误差值,评价气压订正模型的气压预报准确度。
均方根误差(Root Mean Square Error,RMSE)是用于评估预测模型在连续数值预测任务中的性能指标之一。它衡量了模型的预测值与实际观测值之间的平均偏差。计算RMSE的步骤如下:对于每个样本,使用模型进行预测并得到预测值。计算每个预测值与对应的真实观测值之间的差异(残差)。将所有残差的平方相加并除以样本数量,得到均方误差(Mean Squared Error,MSE)。对MSE取平方根即可得到均方根误差(RMSE)。
均方根误差计算公式为:
其中,yi表示区域气压观测值,yi表示订正的区域气压值,n表示样本数。
RMSE的值越小,表示模型的预测结果与真实观测值之间的偏差越小,模型的性能越好。相比于均方误差(MSE),RMSE更直观地表示了预测误差的量级和平均偏差。在回归任务中,常用RMSE来评估模型的性能,但需要注意的是,RMSE对异常值敏感,因此在评估时需进行综合考虑,并结合其他指标进行综合分析。
通过计算测试集数据区域气压的观测值和预报值的均方根误差为11.2hpa,通过订正模型订正后,测试集区域气压观测值和订正后区域气压预报值均方根误差为1.8hpa,明确显示本发明***大幅提高了区域气压的预报准确度。
可选地,上述预报单元400用于根据获取的当前数值预报模式的预报数据及气压订正模型进行订正后的区域气压预报的方式具体可以包括:
将最新的华南区域数值预报模式预报数据输入至训练好、调参好的区域气压订正模型中,输出为订正后的广东省区域气压预报数据。图3为输入了2023年7月1—5日预报数据进入订正模型,得到未来72小时区域气压预报值和预报订正值对比图,折线代表订正后的区域气压和预报模式预报的区域气压RMSE随着预报时效的变化,横坐标代表未来003-072预报时次。由图3可知,在未来72小时,区域气压订正后的误差在1-2之间都普遍小于订正前9-13之间,区域气压订正模型具有明显提高预报准确率的效果。
如附图4所示,根据本发明实施例的另一个方面,本发明提供了一种基于机器学习的气压预报方法,其包括以下步骤:
S1、获取待预报区域数值预报模式标定时间段内的历史预报数据及同期历史气压观测数据;历史预报数据包括区域气压、与区域气压相关的海平面气压、区域气温、区域相对湿度、区域风速的历史预报数据;
历史预报数据获取:获取华南区域数值预报模式每日08时起报的2023年1-6月本地气压、海平面气压、2m气温、2m相对湿度、10m风速的历史预报数据,区域经纬度范围为16.6°N-30.76°N,96.6°E-122.76°E,空间分辨率为0.03*0.03,预报时效72h,时间间隔3h。
同期历史气压观测数据获取:获取2023年1-6月广东省86个国家站逐小时本地气压观测数据。
S2、对获取的数值预报模式的历史预报数据进行数据处理及数据清洗,具体包括:
S21、将数值预报模式的历史预报数据处理为与气象站点空间维度一致的数据;
格点数据处理为站点数据:华南区域数值预报模式预报的气象要素为格点数据,空间分辨率为0.03*0.03,国家站观测的本地气压为站点数据,采用双线性插值方法将预报格点数据插值为站点数据,使预报数据与历史观测数据为同一空间分辨率。
S22、将历史气压观测数据处理为与预报数据时间维度一致的数据;
观测数据时间分辨率处理:数值预报模式预报的本地气压、海平面气压、2m气温、2m相对湿度、10m风速数据为每日08时起报的时间间隔为逐3小时的数据,处理历史观测数据与预报数据为同一时间,即获取每日02、05、11、14、17、20、23时本地气压观测数据。
S23、对处理后的数值预报模式的历史预报数据及历史气压观测数据进行缺失值和异常值的清洗处理;
对数值预报模式预报的本地气压、海平面气压、2m气温、2m相对湿度、10m风速以及同期本地气压观测历史数据进行缺失值和异常值处理,并将数值预报模式预报的历史预报数据作为模型的输入数据集,同期观测数据作为模型的输出值,构建模型数据集。
缺失值处理:当缺失值前后两个数据不为空时,通过前后数据的平均值填补缺失值,当缺失值前后至少有一个为空值,删除该缺失值。
异常值处理:通过3σ原则处理,计算本地气压历史观测值的平均值和标准差,将超过平均值±3倍标准差的数据视为异常值删除。
S3、根据数值预报模式的历史预报数据及历史气压观测数据构建气压订正模型,具体包括:
S31、将处理、清洗后的数值预报模式的历史预报数据作为特征数据集,将处理、清洗后的同期历史气压观测数据作为标签数据集,按比例划分为训练集和测试集,构建模型数据集;
将数值预报模式的2023年1-6月的广东省本地气压、海平面气压、2m气温、2m相对湿度、10m风速作为特征数据集,同期本地气压观测值作为标签数据集,通过数据清洗后形成模型数据集训练模型,并且按照7:3的比例划分为训练集和测试集,训练集用于本地气压订正模型训练,测试集用于评估本地气压模型订正效果。
S32、通过随机森林方法构建初始订正模型,具体为:
随机森林方法构建订正模型:随机森林算法流程如图4所示,在Python中使用scikit-learn库调用随机森林模型。
S321、对原始训练集样本进行有放回的抽样,进行n轮抽取后,得到n个样本集,将这n个训练集作为生成决策树的训练集;
首先对原始训练集样本进行有放回的抽样,进行n轮抽取,得到n个样本集,D(1),D(2),......,D(n),这n个训练集作为生成决策树的训练集。
S322、对于每个训练集,选择K个特征,运用这K个特征来确定决策树最佳***点,每棵树最大可能的生长,最后得到n个决策树结果;
S323、对n个决策树结果求平均,得到最终的结果即为订正后的区域气压值。
S33、调整参数,优化模型,对优化后的气压订正模型的气压预报准确度进行评价,根据评价结果确定最终的气压订正模型:
对随机森林算法参数采用网格搜索方式,选取最优的参数组合为最终模型的参数,网格搜索方法为:指定一组待遍历的参数及其取值范围,将参数的不同取值组合形成网格,然后遍历整个网格,对每组参数进行训练和评估,最终选取最优的参数作为模型最终的参数。随机森林算法的参数主要包括决策树个数(n_estimators)、决策树最大深度(max_depth)、决策树节点包含的最少样本树(l),本发明选取的参数分别为:n_estimators=190;max_depth=28;l=2。
得到气压订正模型后,通过均方根误差来衡量模型的订正效果,均方根误差越小,模型订正效果越好,令均方根误差最小的模型为最终的气压订正模型。
S4、将当前区域数值预报模式预报数据输入至确定的气压订正模型中,输出区域气压预报数据,指导水产养殖用户适时开启、关闭、增加、减少使用增氧机,实现科学高效养殖。
将最新的华南区域广东省数值预报模式预报数据输入至训练好、调参好的本地气压订正模型中,输出为订正后的广东省本地气压预报数据。
如附图3所示,将2023年7月1—5日预报模式气压数据输入本发明的气压订正模型,得到未来72小时数值预报模式本地气压预报值和本发明***预报值分别与实际观测气压值的均方根误差的对比图,折线代表本发明***订正后预报本地气压值和传统的预报模式预报的本地气压的RMSE随着预报时效的变化情况,横坐标代表未来003-072预报时次。
由图3可知,在未来72小时,本发明***及方法预报的本地气压与实际观测气压值的均方根误差只在1-2之间,都大幅低于原数值预报模式预报数据与实际观测气压值的均方根误差的9-13之间,表明:本发明提供的一种基于机器学习的气压预报***及方法具有显著地提高气压预报准确率的技术效果,能够有效指导水产养殖用户适时开启、关闭、增加、减少使用增氧机,实现科学高效养殖,并能有效保持养殖环境的稳定和可持续发展。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或单元的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (6)

1.一种用于指导区域海水水产养殖的基于机器学习及数值预报模式的气压预报***,其特征在于,其包括:
获取单元:用于获取待预报区域数值预报模式标定时间段内的包括区域气压、与区域气压相关的海平面气压、区域2m气温、区域2m相对湿度、区域10m风速的历史预报数据、同期区域气象站点历史气压观测数据及当前数值预报模式的预报数据,所述数值预报模式的数据空间分辨率为0.03度*0.03度,预报时效72h,时间间隔3h;
处理单元:用于对获取的数值预报模式标定时间段内的历史预报数据及同期历史气压观测数据进行数据处理及数据清洗;所述处理单元包括:数据处理子单元:用于将数值预报模式的历史预报数据处理为站点数据;将同期历史气压观测数据与预报数据处理为同一时间分辨率的数据;具体为:用于将数值预报模式的历史预报数据处理为与气象站点空间维度一致的同一空间分辨率数据;将历史气压观测数据处理为与预报数据时间维度一致的同一时间分辨率数据;
构建单元:用于根据处理及清洗后的历史预报数据及历史气压观测数据构建气压订正模型,以备调用;所述构建单元包括:数据集构建子单元:用于将处理、清洗后的数值预报模式的区域历史预报数据作为特征数据集,将处理、清洗后的同期区域历史气压观测数据作为标签数据集,按比例划分为训练集和测试集,构建模型数据集;
订正模型构建子单元:用于通过随机森林方法构建初始订正模型,并通过网格搜索方式调整、确定参数,得到优化后的气压订正模型,所述气压订正模型中调整、确定后的参数包括:决策树个数为190,决策树最大深度为28,决策树节点包含的最少样本树为2;
预报单元:用于根据获取的当前数值预报模式的预报数据及气压订正模型进行订正后的区域空间分辨率为0.03度*0.03度,预报时效72h,时间间隔3h的气压预报。
2.根据权利要求1所述的用于指导区域海水水产养殖的基于机器学习及数值预报模式的气压预报***,其特征在于,所述处理单元还包括:
数据清洗子单元:用于对处理后的数值预报模式的历史预报数据及同期历史气压观测数据进行缺失值和异常值的清洗处理。
3.根据权利要求1所述的用于指导区域海水水产养殖的基于机器学习及数值预报模式的气压预报***,其特征在于,所述构建单元还包括:
模型评价子单元:用于对优化后的气压订正模型的气压预报准确度进行评价。
4.根据权利要求3所述的用于指导区域海水水产养殖的基于机器学习及数值预报模式的气压预报***,其特征在于,所述模型评价子单元用于对优化后的气压订正模型的气压预报准确度进行评价,具体为:
首先计算测试集数据气压的观测值和预报值的均方根误差,然后计算订正模型订正后,测试集数据气压的观测值和订正后预报值均方根误差,比较两个均方根误差值,评价气压订正模型的气压预报准确度,均方根误差值越小,订正模型的气压预报准确度越高。
5.根据权利要求1所述的用于指导区域海水水产养殖的基于机器学习及数值预报模式的气压预报***,其特征在于,所述标定时间段为1年。
6.一种用于指导区域海水水产养殖的基于机器学习及数值预报模式的气压预报方法,其特征在于,其包括以下步骤:
S1、获取待预报区域数值预报模式标定时间段内的历史预报数据及同期气象站点历史气压观测数据;所述历史预报数据包括区域气压、与区域气压相关的海平面气压、区域2m气温、区域2m相对湿度、区域10m风速的历史预报数据;所述数值预报模式的数据空间分辨率为0.03度*0.03度,预报时效72h,时间间隔3h;
S2、对获取的数值预报模式的历史预报数据进行数据处理及数据清洗,具体包括:
S21、将数值预报模式的历史预报数据处理为与气象站点空间维度一致的数据;
S22、将历史气压观测数据处理为与历史预报数据时间维度一致的数据;
S23、对处理后的数值预报模式的历史预报数据及历史气压观测数据进行缺失值和异常值的清洗处理;
S3、根据数值预报模式的历史预报数据及历史气压观测数据构建气压订正模型,具体包括:
S31、将处理、清洗后的数值预报模式的历史预报数据作为特征数据集,将处理、清洗后的同期历史气压观测数据作为标签数据集,按比例划分为训练集和测试集,构建模型数据集;
S32、通过随机森林方法构建初始订正模型,具体为:
S321、对原始训练集样本进行有放回的抽样,进行n轮抽取后,得到n个样本集,将这n个训练集作为生成决策树的训练集;
S322、对于每个训练集,选择K个特征,运用这K个特征来确定决策树最佳***点,每棵树最大可能的生长,最后得到n个决策树结果;
S323、对n个决策树结果求平均,得到最终的结果即为订正后的区域气压值;
S33、调整参数,优化模型,对优化后的气压订正模型的气压预报准确度进行评价,根据评价结果确定气压订正模型:
经过调整、确定后的参数包括:决策树个数为190,决策树最大深度为28,决策树节点包含的最少样本树为2,这些数字参数都是通过模型搜索得到的最优结果;
S4、将当前区域数值预报模式预报数据输入至气压订正模型中,输出区域空间分辨率为0.03度*0.03度,预报时效72h,时间间隔3h的气压预报数据。
CN202311509885.3A 2023-11-14 2023-11-14 一种基于机器学习的气压预报***及方法 Active CN117290792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311509885.3A CN117290792B (zh) 2023-11-14 2023-11-14 一种基于机器学习的气压预报***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311509885.3A CN117290792B (zh) 2023-11-14 2023-11-14 一种基于机器学习的气压预报***及方法

Publications (2)

Publication Number Publication Date
CN117290792A CN117290792A (zh) 2023-12-26
CN117290792B true CN117290792B (zh) 2024-05-28

Family

ID=89257404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311509885.3A Active CN117290792B (zh) 2023-11-14 2023-11-14 一种基于机器学习的气压预报***及方法

Country Status (1)

Country Link
CN (1) CN117290792B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111929748A (zh) * 2020-09-17 2020-11-13 南京浦蓝大气环境研究院有限公司 一种气象要素预报方法和***
CN112684520A (zh) * 2020-12-30 2021-04-20 北京墨迹风云科技股份有限公司 一种气象预报的订正方法、装置、计算机设备及存储介质
CN113222019A (zh) * 2021-05-13 2021-08-06 中国南方电网有限责任公司超高压输电公司检修试验中心 输电线路杆塔的气象预报数据处理方法、装置、设备
CN115758876A (zh) * 2022-11-14 2023-03-07 中能融合智慧科技有限公司 一种风速和风向预报准确率方法、***及计算机设备
CN116702926A (zh) * 2023-05-15 2023-09-05 上海地听信息科技有限公司 一种空气质量模式预报机器学习集成订正方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111929748A (zh) * 2020-09-17 2020-11-13 南京浦蓝大气环境研究院有限公司 一种气象要素预报方法和***
CN112684520A (zh) * 2020-12-30 2021-04-20 北京墨迹风云科技股份有限公司 一种气象预报的订正方法、装置、计算机设备及存储介质
CN113222019A (zh) * 2021-05-13 2021-08-06 中国南方电网有限责任公司超高压输电公司检修试验中心 输电线路杆塔的气象预报数据处理方法、装置、设备
CN115758876A (zh) * 2022-11-14 2023-03-07 中能融合智慧科技有限公司 一种风速和风向预报准确率方法、***及计算机设备
CN116702926A (zh) * 2023-05-15 2023-09-05 上海地听信息科技有限公司 一种空气质量模式预报机器学习集成订正方法

Also Published As

Publication number Publication date
CN117290792A (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
Chia et al. Recent advances in evapotranspiration estimation using artificial intelligence approaches with a focus on hybridization techniques—a review
CN110751094B (zh) 一种基于gee综合遥感影像和深度学习方法的作物估产方法
Menéndez et al. The influence of seasonality on estimating return values of significant wave height
Bao et al. Salinity profile estimation in the Pacific Ocean from satellite surface salinity observations
Konomi et al. Adaptive Bayesian nonstationary modeling for large spatial datasets using covariance approximations
CN111126662B (zh) 基于大数据的灌溉决策制定方法、装置、服务器和介质
CN111080464A (zh) 一种池塘养殖水质关键因子预测方法及装置
Punt et al. How well can FMSY and BMSY be estimated using empirical measures of surplus production?
CN108665104A (zh) 一种基于lstm的渔场预报方法
CN113901384A (zh) 顾及全局空间自相关性和局部异质性的地面pm2.5浓度建模方法
CN111814956A (zh) 一种基于多维度二次特征提取的多任务学习的空气质量预测方法
CN115344815B (zh) 考虑植被空间变化的天然径流变化归因分析方法和***
CN110069032A (zh) 一种基于小波神经网络的茄子温室环境智能检测***
Zambrano et al. Machine learning for manually-measured water quality prediction in fish farming
Saracco et al. Integrating broad‐scale data to assess demographic and climatic contributions to population change in a declining songbird
Yang et al. Prediction of corn variety yield with attribute-missing data via graph neural network
CN117290792B (zh) 一种基于机器学习的气压预报***及方法
US20240070690A1 (en) Method and system for forecasting agricultural product price based on signal decomposition and deep learning
Piner et al. Population dynamics and status of striped marlin (Kajikia audax) in the western and central northern Pacific Ocean
Xu et al. [Retracted] Digital Technology Empowers Grain Supply Chain Optimization Simulation
CN116401962A (zh) 水质模型最优特征方案的推求方法
CN115965121A (zh) 一种基于随机森林回归的农田氮淋失预测方法
CN112949182B (zh) 耦合地表土壤含水量的区域尺度最大气孔导度的计算方法
NL2027468B1 (en) Method for optimizing a resource abundance grey prediction model in fishery and application thereof
CN111831971B (zh) 一种鸟类密度估算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant