CN116702926A - 一种空气质量模式预报机器学习集成订正方法 - Google Patents

一种空气质量模式预报机器学习集成订正方法 Download PDF

Info

Publication number
CN116702926A
CN116702926A CN202310540962.5A CN202310540962A CN116702926A CN 116702926 A CN116702926 A CN 116702926A CN 202310540962 A CN202310540962 A CN 202310540962A CN 116702926 A CN116702926 A CN 116702926A
Authority
CN
China
Prior art keywords
data
air quality
forecast
historical
live
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310540962.5A
Other languages
English (en)
Inventor
胡龙平
王梦佳
张小意
邓顺强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Readearth Information Technology Co ltd
Original Assignee
Shanghai Readearth Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Readearth Information Technology Co ltd filed Critical Shanghai Readearth Information Technology Co ltd
Priority to CN202310540962.5A priority Critical patent/CN116702926A/zh
Publication of CN116702926A publication Critical patent/CN116702926A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种空气质量模式预报机器学习集成订正方法,包括S1、获取历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据;S2、对历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据进行前处理和特征构建,得到前处理数据和特征值,将处理后的数据划分为训练集、测试机和验证集,比例为7:2:1;S3、利用历史空气质量预报数据和历史空气质量实况数据、历史气象预报数据和历史气象实况数据构建基于CatBoost构建订正模型;S4、基于CatBoost预测模型,输入预报空气质量特征、预报气象质量特征,得到订正的预报结果。本发明预报精度高。

Description

一种空气质量模式预报机器学习集成订正方法
技术领域
本发明属于计算机学科与环境学科的交叉技术领域,具体涉及一种空气质量模式预报机器学习集成订正方法。
背景技术
近年来由于快速城市化和工业化发展,大气污染问题日益严峻,环保部门对大气污染的预报和管控工作提出了更高的要求,希望对未来空气质量进行更加准确和精细的预测。随着技术的发展和普及,越来越多的数值模式技术开始应用到空气质量的预报中,比较典型的模式有WRF-Chem、CMAQ和CAMx等。
在对上述空气质量数值模式进行实际应用时发现,数值模式基于大气成分运动和变化的物理化学原理,能够在一定程度上预测未来一段时间的大气污染物浓度变化趋势。但由于大气***的复杂性和误差累积,模式预报结果与相对应的实际大气污染浓度存在较大差距。因此,针对数值模式的预报结果,结合各类有效方法进行订正以提升预报水平具有重要的显示意义。
针对空气质量模式预报的订正问题,近年来有许多研究者应用前沿技术进行量化研究,取得了重要的进展。陈磊等基于CUACE模式在宁波地区进行了空气质量预报的评估和订正分析;张斌等利用集合深度学习方法订正空气质量数值预报结果,在新疆乌昌石城市群进行了PM2.5的误差订正;肖宇等基于机器学习算法做了空气质量数值预报订正的耦合,对四种常规污染物的空气质量模型预报结果进行了订正;芦华等基于机器学习在成渝地区进行了空气质量预报PM2.5的订正。
空气质量模式预报的订正问题,目前还鲜有基于长期空气质量数值模式预报结果,对六种常规污染物做预报的情形,或在中长期预报获得比较稳定的预报质量提升。
发明内容
本发明目的是提供一种空气质量模式预报机器学习集成订正方法,能够提高数值预报模型的预报精度。
为了实现上述目的,本发明的技术方案是:
一种空气质量模式预报机器学习集成订正方法,包括如下步骤:
S1、获取历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据;
S2、对历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据进行前处理和特征构建,得到前处理数据和特征值,将处理后的数据划分为训练集、测试机和验证集,比例为7:2:1;
S3、利用历史空气质量预报数据和历史空气质量实况数据、历史气象预报数据和历史气象实况数据构建基于CatBoost构建订正模型;
S4、基于CatBoost预测模型,输入预报空气质量特征、预报气象质量特征,得到订正的预报结果。
作为对上述技术方案的改进,空气质量的要素为PM2.5、PM10、O3、NO2、CO、SO2;气象的要素为气温、气压、湿度、风向、风速。
作为对上述技术方案的改进,空气质量预报数据包括由空气质量模式在北京时间20点起报的未来7日预报结果,总共输出六类污染物浓度数据,即PM2.5、PM10、O3、NO2、CO、SO2;气象预报数据包括由气象模式在北京时间20点起报的未来7日预报结果,有气温、气压、湿度、风向、风速。
作为对上述技术方案的改进,空气质量实况数据和气象实况数据包括经质控的站点监测数据和综合实况数据;其中空气质量实况数据总共输出六类污染物浓度数据,即PM2.5、PM10、O3、NO2、CO、SO2;气象实况数据包括五类数据,即气温、气压、湿度、风向、风速。
作为对上述技术方案的改进,所述步骤S2中,对历史数据进行预处理的方法是:
S201、首先将预报数据按照预报时效拆分为1-24,25-48,49-72,73-96,97-120,121-144,145-168,169-192,193-216,217-240,分别对应每个预报日,将所有相同预报日的数据合并为一个数据集,然后将空气质量预报和气象预报数据分别按照时间一致原则合并起来;
S201、对站点预报数据,对每个站点都按照预报时效拆分为每个预报日的数据集,然后将所有站点数据按照时间合并起来,形成一个宽表,其字段为每个站点的预报要素和站点经纬度;
S203、随后将预报数据和站点预报数据按照时间一致原则合并起来,整理各个字段名,不出现重复的数据;
S204、操作完毕后,对每个预报日,构成一个完整数据集,总共创建10个数据集;
S205、将10个数据集分别与实况数据按照时间合并。
作为对上述技术方案的改进,所述步骤S2中,特征挖掘的方法是:
S206、首先对数据集做相关性分析,去掉相关性弱的特征,将相关性绝对值小于等于0.1的特征剔除;
S207、运用特征衍生技术,创建新的特征;新的特征包括原特征的组合、原特征的交叉;特征组合是对特征进行算数运算;特征交叉是对多个特征进行交叉组合,做交并补笛卡尔积运算;
S208、对数据进行时间滑移操作,对预报数据做滞后运算,得到的时间与实况时间对应,得到实况要素滞后特征
作为对上述技术方案的改进,所述步骤S4中,所述预测和评估的方法是:
利用测试集数据,采用均方根误差作为评估指标,均方根误差的公式如下:
其中,表示预测值,yi表示观测值,n表示评估所需的观测数;
同时使用R2作为辅助评价指标,公式如下所示:
其中表示预测值,yi表示观测值,/>表示观测值的算数平均值,n表示评估所需的观测数。
与现有技术相比,本发明具有的优点和积极效果是:
1、本发明在订正模型上,融合了历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据,并进行特征工程,充分利用了历史实况数据,能够对未来趋势做出合理预测。2、本发明能够输出长达240小时的逐时预报订正结果,且预报精度高于原空气质量数值模式、原气象数值模式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的算法流程示意图;
图2为数值模式预报数据与实况数据对比散点图;
图3为订正后的预报数据与实况数据对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明需要对空气质量、气象预报数据做订正,因此首先要创建预报订正所需要的数据集。一般而言,需要取较长时间段空气质量预报数据和空气质量实况数据、气象预报数据和气象实况数据作为训练数据。然后要将历史实况和历史预报数据按照时间对应起来。由于预报数据通常在每日晚间20点起报,预报未来一段时间的空气质量情况,因此不同起报时间的不同预报时效会对应到同一时间,会造成变量和标签映射的混乱。为解决这一问题,通常将预报数据按照预报日数划分为单独的数据集,每个数据集只包含某个预报日的数据,据此方法,制作与预报日数相同的预报数据集,再以预报时间对应实况时间,将实况数据和预报数据合并起来,形成一套完整的实况预报映射数据集。接着再对实况预报映射数据集做特征工程,可添加时空上有影响的特征,如工作日和周末的区分、节日特征、重大活动特征等,并筛选出适合投入机器学习模型的特征。然后基于特征数据集建立机器学习模型,选取某个空气质量要素(如O3)作为模型目标,训练模型得到最优预测值。
如图1所示,具体步骤如下:
步骤一、获取历史空气质量预报数据和历史气象预报数据,包括每日20点起报的逐小时PM2.5,PM10,NO2,CO,O3,SO2,气压,气温,风向,风速,湿度等。其中,空气质量要素除CO为mg/m3外,其他均为ug/m3;其中气压单位:百帕(hPa),湿度单位:百分数(%),风向单位:北方开始顺时针角度,风速单位:m/s。
步骤二、对历史数据进行预处理
2.1、预报数据划分。首先将预报数据按照预报时效拆分为1-24,25-48,49-72,73-96,97-120,121-144,145-168,169-192,193-216,217-240,分别对应每个预报日,将所有相同预报日的数据合并为一个数据集,然后将城市空气质量预报和城市气象预报数据分别按照时间一致原则合并起来。对站点预报数据,对每个站点都按照预报时效拆分为每个预报日的数据集,然后将所有站点数据按照时间合并起来,形成一个宽表,其字段为每个站点的预报要素和站点经纬度等。随后将城市预报数据和站点预报数据按照时间一致原则合并起来,整理各个字段名,不出现重复的数据。以上操作后,对每个预报日,构成一个完整数据集,总共创建10个数据集。再将10个数据集分别与实况数据按照时间合并。
2.2、特征构建。首先对数据集做相关性分析,去掉相关性弱的特征,一般相关性绝对值小于等于0.1的可剔除。接下来运用一些特征衍生技术,创建新的特征。如特征组合,对特征进行算数运算;特征交叉,对多个特征进行交叉组合,如做交并补笛卡尔积等运算。
除上述特征创建的方法以外,还可对数据进行时间滑移操作,对预报数据做滞后运算,得到的时间与实况时间对应,得到实况要素滞后特征。
步骤三、基于CatBoost构建订正模型
CatBoost是Yandex开源的机器学习算法。它可以与深度学习框架轻松集成。它可以处理多种数据类型。CatBoost是一种基于对称决策树(oblivious trees)为基学习器实现的参数较少、支持类别型变量和高准确性的GBDT框架,此外,CatBoost还解决了梯度偏差(Gradient Bias)以及预测偏移(Prediction shift)的问题,从而减少过拟合的发生,进而提高算法的准确性和泛化能力。将预报特征作为自变量,实况数据作为因变量,按照7:2:1划分训练集、测试集和验证集。然后将数据投入模型训练,调整模型参数,包括最大决策数数量、学习率,最大树深度、最大叶子树等,训练直到模型效果达到最优。
步骤四、预测和评估
为了对预测结果进行评估,利用测试集数据,采用均方根误差作为评估指标,均方根误差的公式如下:
其中,表示预测值,yi表示观测值,n表示评估所需的观测数。
同时使用R2作为辅助评价指标,公式如下所示:
其中表示预测值,yi表示观测值,/>表示观测值的算数平均值,n表示评估所需的观测数。
实施例1
为了更好地解释本发明的技术方案,本发明选取宜宾市2021年1月至2022年6个空气质量监测站数据、WRF模式预报气象数据和CAMx模式预报空气质量数据,具体实施步骤如下:
步骤1:获取历史数据。
取已经连续运行超过一年时间的WRF模式数据、CAMx模式数据,包括每日20点起报的未来240小时天气预报数据和空气质量要素预报数据,即每小时温度、气压、湿度、风速风向等,其中温度单位:℃,气压单位:hPa,湿度单位:%,风向单位:正北顺时针角度制,风速单位:m/s;每小时PM2.5(ug/m3),PM10(ug/m3),NO2(ug/m3),CO(mg/m3),O3(ug/m3),SO2(ug/m3),AQI等。取宜宾市6个区域空气质量监测站对应的空气质量预报数据。
取对应模式预报时间的宜宾市历史实况数据,包括每小时PM2.5(ug/m3),PM10(ug/m3),NO2(ug/m3),CO(mg/m3),O3(ug/m3),SO2(ug/m3),AQI、首要污染物等。
步骤2:数据预处理
将预报数据按照预报日数划分为10份,对每一份数据,按照预报时间对应原则横向合并,合并后在与历史实况数据做时间对应合并。然后整理数据,进行特征构建。
1.算数运算特征。PM2.5是PM10的一部分,可对城市数据和站点数据计算PM2.5/PM10;对AQI做对数运算。
2.空间特征运算。取站点位置,计算其与宜宾市中心位置的距离,作为空间影响特征。
3.特征标准化。应用均值标准化方法,将每个特征做标准化,去除量纲影响。标准化公式为:其中μ表示样本均值,s表示样本标准差。
4.将处理后的数据划分为训练集、测试机和验证集,比例为7:2:1。
步骤3.构建基于CatBoost的单要素订正模型
本发明选取了CatBoost作为训练框架构建单要素订正模型。其内部结构为基于对称树的梯度上升。模型的训练参数设置如表1所示:
表1模型训练参数
按照上述超参数以PM2.5为目标变量对训练集训练,在测试集上得到的均方根误差为14.2ug/m^3。而原模式预报误差为35.6ug/m^3。使用相同的操作,训练其他五种要素的订正模型。
从图2和图3的对比可以知道,1、本发明在订正模型上,融合了历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据,并进行特征工程,充分利用了历史实况数据,能够对未来趋势做出合理预测。2、本发明能够输出长达240小时的逐时预报订正结果,且预报精度高于原空气质量数值模式、原气象数值模式。
基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种空气质量模式预报机器学习集成订正方法,其特征在于:包括如下步骤:
S1、获取历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据;
S2、对历史空气质量预报数据、历史气象预报数据、历史空气质量实况数据、历史气象实况数据进行前处理和特征构建,得到前处理数据和特征值,将处理后的数据划分为训练集、测试机和验证集,比例为7:2:1;
S3、利用历史空气质量预报数据和历史空气质量实况数据、历史气象预报数据和历史气象实况数据构建基于CatBoost构建订正模型;
S4、基于CatBoost预测模型,输入预报空气质量特征、预报气象质量特征,得到订正的预报结果。
2.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:空气质量的要素为PM2.5、PM10、O3、NO2、CO、SO2;气象的要素为气温、气压、湿度、风向、风速。
3.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:空气质量预报数据包括由空气质量模式在北京时间20点起报的未来7日预报结果,总共输出六类污染物浓度数据,即PM2.5、PM10、O3、NO2、CO、SO2;气象预报数据包括由气象模式在北京时间20点起报的未来7日预报结果,有气温、气压、湿度、风向、风速。
4.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:空气质量实况数据和气象实况数据包括经质控的站点监测数据和综合实况数据;其中空气质量实况数据总共输出六类污染物浓度数据,即PM2.5、PM10、O3、NO2、CO、SO2;气象实况数据包括五类数据,即气温、气压、湿度、风向、风速。
5.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:所述步骤S2中,对历史数据进行预处理的方法是:
S201、首先将预报数据按照预报时效拆分为1-24,25-48,49-72,73-96,97-120,121-144,145-168,169-192,193-216,217-240,分别对应每个预报日,将所有相同预报日的数据合并为一个数据集,然后将空气质量预报和气象预报数据分别按照时间一致原则合并起来;
S201、对站点预报数据,对每个站点都按照预报时效拆分为每个预报日的数据集,然后将所有站点数据按照时间合并起来,形成一个宽表,其字段为每个站点的预报要素和站点经纬度;
S203、随后将预报数据和站点预报数据按照时间一致原则合并起来,整理各个字段名,不出现重复的数据;
S204、操作完毕后,对每个预报日,构成一个完整数据集,总共创建10个数据集;
S205、将10个数据集分别与实况数据按照时间合并。
6.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:所述步骤S2中,特征挖掘的方法是:
S206、首先对数据集做相关性分析,去掉相关性弱的特征,将相关性绝对值小于等于0.1的特征剔除;
S207、运用特征衍生技术,创建新的特征;新的特征包括原特征的组合、原特征的交叉;特征组合是对特征进行算数运算;特征交叉是对多个特征进行交叉组合,做交并补笛卡尔积运算;
S208、对数据进行时间滑移操作,对预报数据做滞后运算,得到的时间与实况时间对应,得到实况要素滞后特征
7.根据权利要求1所述空气质量模式预报机器学习集成订正方法,其特征在于:所述步骤S4中,所述预测和评估的方法是:
利用测试集数据,采用均方根误差作为评估指标,均方根误差的公式如下:
其中,表示预测值,yi表示观测值,n表示评估所需的观测数;
同时使用R2作为辅助评价指标,公式如下所示:
其中表示预测值,yi表示观测值,/>表示观测值的算数平均值,n表示评估所需的观测数。
CN202310540962.5A 2023-05-15 2023-05-15 一种空气质量模式预报机器学习集成订正方法 Pending CN116702926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310540962.5A CN116702926A (zh) 2023-05-15 2023-05-15 一种空气质量模式预报机器学习集成订正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310540962.5A CN116702926A (zh) 2023-05-15 2023-05-15 一种空气质量模式预报机器学习集成订正方法

Publications (1)

Publication Number Publication Date
CN116702926A true CN116702926A (zh) 2023-09-05

Family

ID=87836465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310540962.5A Pending CN116702926A (zh) 2023-05-15 2023-05-15 一种空气质量模式预报机器学习集成订正方法

Country Status (1)

Country Link
CN (1) CN116702926A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290792A (zh) * 2023-11-14 2023-12-26 广东省气象服务中心(广东气象影视宣传中心) 一种基于机器学习的气压预报***及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290792A (zh) * 2023-11-14 2023-12-26 广东省气象服务中心(广东气象影视宣传中心) 一种基于机器学习的气压预报***及方法
CN117290792B (zh) * 2023-11-14 2024-05-28 广东省气象服务中心(广东气象影视宣传中心) 一种基于机器学习的气压预报***及方法

Similar Documents

Publication Publication Date Title
CN108491970B (zh) 一种基于rbf神经网络的大气污染物浓度预测方法
CN112465243B (zh) 一种空气质量预报方法及***
CN109116444B (zh) 基于PCA-kNN的空气质量模式PM2.5预报方法
CN112288164B (zh) 一种计及空间相关性和修正数值天气预报的风功率组合预测方法
CN116630122B (zh) 基于水文-生态响应关系的湖泊生态水力调控方法及***
CN109508818B (zh) 一种基于LSSVM的在线NOx预测方法
CN114254802B (zh) 气候变化驱动下植被覆盖时空变化的预测方法
CN116702926A (zh) 一种空气质量模式预报机器学习集成订正方法
CN113743013A (zh) 一种基于XGBoost气温预测数据修正的方法
JP5110891B2 (ja) 水処理施設における流入水水質の統計的予測方法及びその装置
CN108830405B (zh) 基于多指标动态匹配的实时电力负荷预测***及其方法
CN117078114B (zh) 引水工程影响下受水湖泊水质评价方法和***
CN110648023A (zh) 基于二次指数平滑改进gm(1,1)的数据预测模型的建立方法
CN112287299A (zh) 河流健康变化定量归因方法、装置及***
CN112101612A (zh) 一种城镇燃气用量的预测方法、存储介质及终端设备
CN114741972A (zh) 一种空气污染物浓度季节性预测模型的构建方法
CN116050475A (zh) 关键污染物浓度预测模型的训练方法、装置和计算机设备
CN115759469A (zh) 一种针对峰值负荷及其出现时间的预测方法及其装置
CN115526330A (zh) 有机物走航数据校准方法、装置、计算机设备和存储介质
CN114154686A (zh) 一种基于集成学习的大坝变形预测方法
CN114811858B (zh) 一种空调负荷在线学习方法
CN116128049B (zh) 一种基于XGBoost模型的水质预测模型迁移条件选择方法
Zhai Analysis technology of environmental monitoring data based on internet of things environment and improved neural network algorithm.
CN113408770B (zh) 基于深度学习的装备维修时机预测方法
TYO et al. Analysis, monitoring and forecasting financial stability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination