CN109116444B - 基于PCA-kNN的空气质量模式PM2.5预报方法 - Google Patents

基于PCA-kNN的空气质量模式PM2.5预报方法 Download PDF

Info

Publication number
CN109116444B
CN109116444B CN201810774695.7A CN201810774695A CN109116444B CN 109116444 B CN109116444 B CN 109116444B CN 201810774695 A CN201810774695 A CN 201810774695A CN 109116444 B CN109116444 B CN 109116444B
Authority
CN
China
Prior art keywords
data
model
knn
training
pca
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810774695.7A
Other languages
English (en)
Other versions
CN109116444A (zh
Inventor
汤静
王春林
谭浩波
邓雪娇
邓涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810774695.7A priority Critical patent/CN109116444B/zh
Publication of CN109116444A publication Critical patent/CN109116444A/zh
Application granted granted Critical
Publication of CN109116444B publication Critical patent/CN109116444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions

Landscapes

  • Environmental & Geological Engineering (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及气象技术领域,基于PCA‑kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集;(2)、数据质量控制;(3)、标准化及PCA处理;(4)、将训练数据分成训练集、验证集、测试集;(5)、训练kNN模型,参数优化;(6)、基于待订正的模式产品得出订正预报。本发明有效提高了空气质量PM2.5预报的精度和准确度。

Description

基于PCA-kNN的空气质量模式PM2.5预报方法
技术领域
本发明涉及气象技术领域,具体是指基于PCA-kNN的空气质量模式PM2.5预报方法。
背景技术
主成分分析(PCA)最初是由Pearson(1901)在非随机变量的讨论中介绍的,后来由Hotelling(1933)扩展到随机变量[22-24]。PCA的目的是将相关性较强的多维变量转化为彼此不相关的新变量。PCA方法的优点在于:(1)仅以方差衡量信息量,不受数据集以外的因素影响;(2)各主成分之间正交,可消除原始数据成分间相互影响的因素。在实际应用中,经过PCA处理后,前几个主成分已经包含了大部分原始变量的变异信息,选取累计贡献率达到90%的主成分进行分析,达到降维的效果。
k近邻(kNN)是一种常用的监督学***均法,即将这k个样本标记的平均值作为预测结果,也可以基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。kNN算法的优点是精度高、对异常值不敏感、无数据输入假定,缺点是计算复杂度高、空间复杂度高。
广州地处珠江三角洲中心地带,随着近些年快速经济发展和城市化发展,空气污染、灰霾事件频发,空气质量预报日益成为政府和公众关注的焦点问题。2013年开始中国气象局要求全国所有省会城市开展空气质量预报。环境气象数值预报模式GRAPES-CMAQ为开展空气质量预报提供了核心支撑,为了进一步提高客观预报水平,需要进行数值预报产品释用。相较于模式输出统计、线性回归0常用方法,机器学***。
发明内容
本发明要解决的技术问题是克服上述技术的缺陷,提供基于PCA-kNN的空气质量模式PM2.5预报方法。
为解决上述技术问题,本发明提供的技术方案为基于PCA-kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集;起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日北京时CMAQ 20时起报的1-72h逐时污染物浓度预报数据、北京时GRAPES-MESO 20时起报的1-72h逐时气象要素数据以及起报时间t日20时以前相应时次的PM2.5观测数据;
(2)、数据质量控制;去掉步骤(1)中所得数据里的缺测数值和异常值;
(3)、标准化及PCA处理;根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量;根据应用kNN0机器学***均值,再除以标准偏差);把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分;
(4)、将训练数据分成训练集、验证集、测试集;将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集;
(5)、训练kNN模型,参数优化;以自变量和因变量为输入,训练kNN回归模型;kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值;
(6)、基于待订正的模式产品得出订正预报;将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报;
作为改进,在步骤(1)中,在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO的污染物浓度,气象要素数据包括气温、相对湿度的气象要素、气压的气象要素、降水的气象要素、风速的气象要素、位势高度的气象要素,以及含地面、1000hPa、925hPa、850hPa、700hPa、500hPa层次的垂直速度的气象要素。
作为改进,在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器;验证集,作用是当通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,通过训练集和验证集得出最优模型后,使用测试集进行模型预测。
本发明基于PCA-kNN的空气质量模式PM2.5预报方法具有如下优点:有效的提高了空气质量预报的精度和准确度。
附图说明
图1是本发明基于PCA-kNN的空气质量模式PM2.5预报方法的示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明。
结合附图1,基于PCA-kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集;起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日北京时CMAQ20时起报的1-72h逐时污染物浓度预报数据、北京时GRAPES-MESO 20时起报的1-72h逐时气象要素数据以及起报时间t日20时以前相应时次的PM2.5观测数据;
(2)、数据质量控制,去掉步骤(1)中所得数据里的缺测数值和异常值;
(3)、标准化及PCA处理;根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量;根据应用kNN0机器学***均值,再除以标准偏差);把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分;
(4)、将训练数据分成训练集、验证集、测试集;将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集;
(5)、训练kNN模型,参数优化;以自变量和因变量为输入,训练kNN回归模型;kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值;
(6)、基于待订正的模式产品得出订正预报。将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报;
在步骤(1)中,在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO的污染物浓度,气象要素数据包括气温、相对湿度的气象要素、气压的气象要素、降水的气象要素、风速的气象要素、位势高度的气象要素,以及含地面、1000hPa、925hPa、850hPa、700hPa、500hPa层次的垂直速度的气象要素。
在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个模型;验证集,作用是当通过训练集训练出多个模型后评估模型的效果,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,使用测试集评估模型的泛化能力;综合考虑验证误差和测试误差选出最佳模型。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (3)

1.基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于,包括以下步骤:
(1)、样本数据收集:起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日北京时CMAQ20时起报的1-72h逐时污染物浓度预报数据、北京时GRAPES-MESO20时起报的1-72h逐时气象要素数据以及起报时间t日20时以前相应时次的PM2.5观测数据;
(2)、数据质量控制:去掉步骤(1)中所得数据里的缺测数值和异常值;
(3)、标准化及PCA处理:根据步骤(2)得到的数据,以CMAQ(Community Multiscale AirQuality模式***)和GRAPES-MESO(中尺度数值预报***)模式预报数据为自变量,PM2.5观测数据为因变量,根据应用kNN机器学***均值,再除以标准偏差;把标准化后的结果进行自变量进行标准化处理,即原数据减去其平均值,再除以标准偏差;把标注化后的结果进行PCA处理,选择累计贡献率达到90%的主成分;
(4)、将训练数据分成训练集、验证集、测试集;将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集;
(5)、训练kNN模型,参数优化;以自变量和因变量为输入,训练kNN回归模型;kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值;
(6)、基于待订正的模式产品得出订正预报;将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到r日起报的订正预报。
2.根据权利要求1所述的基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于:在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO的污染物浓度,气象要素数据包括气温、相对湿度的气象要素、气压的气象要素、降水的气象要素、风速的气象要素、位势高度的气象要素,以及含地面、1000hPa、925hPa、850hPa、700hPa、500hPa层次的垂直速度的气象要素。
3.根据权利要求1所述的基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于:在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个模型;验证集,作用是当通过训练集训练出多个模型后评估模型的效果,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,使用测试集评估模型的泛化能力;综合考虑验证误差和测试误差选出最佳模型。
CN201810774695.7A 2018-07-16 2018-07-16 基于PCA-kNN的空气质量模式PM2.5预报方法 Active CN109116444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810774695.7A CN109116444B (zh) 2018-07-16 2018-07-16 基于PCA-kNN的空气质量模式PM2.5预报方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810774695.7A CN109116444B (zh) 2018-07-16 2018-07-16 基于PCA-kNN的空气质量模式PM2.5预报方法

Publications (2)

Publication Number Publication Date
CN109116444A CN109116444A (zh) 2019-01-01
CN109116444B true CN109116444B (zh) 2021-01-12

Family

ID=64862147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810774695.7A Active CN109116444B (zh) 2018-07-16 2018-07-16 基于PCA-kNN的空气质量模式PM2.5预报方法

Country Status (1)

Country Link
CN (1) CN109116444B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110045714B (zh) * 2019-04-08 2022-05-17 沈阳化工大学 一种基于权重近邻规则的工业过程监控方法
CN110059766A (zh) * 2019-04-26 2019-07-26 兰州大学 一种运用k临近算法进行降水类型分类的方法
CN110334732A (zh) * 2019-05-20 2019-10-15 北京思路创新科技有限公司 一种基于机器学习的空气质量预报方法和装置
CN110263392B (zh) * 2019-06-01 2023-04-28 邯郸市气象局 基于多模式分区误差检验的风场预报方法及其***
CN110261547B (zh) * 2019-07-04 2020-12-15 北京思路创新科技有限公司 一种空气质量预报方法和设备
CN111256745A (zh) * 2020-02-28 2020-06-09 芜湖职业技术学院 一种便携式空气质量监测仪数据校准方法
CN117174197B (zh) * 2023-08-17 2024-02-13 广东省生态气象中心(珠江三角洲环境气象预报预警中心) 基于动态有监督机器学习的臭氧污染风险预报方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917291B2 (en) * 2008-01-10 2011-03-29 Baron Services, Inc. System and method for predicting tornado activity
CN105631537A (zh) * 2015-12-23 2016-06-01 南京信息工程大学 基于气象服务平台的空气质量预报业务***
CN106055904B (zh) * 2016-06-04 2019-02-01 上海大学 基于varx模型的大气pm2.5浓度预测方法

Also Published As

Publication number Publication date
CN109116444A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN109116444B (zh) 基于PCA-kNN的空气质量模式PM2.5预报方法
CN108491970B (zh) 一种基于rbf神经网络的大气污染物浓度预测方法
US20150317589A1 (en) Forecasting system using machine learning and ensemble methods
CN112465243B (zh) 一种空气质量预报方法及***
CN105740991A (zh) 基于改进bp神经网络拟合多种气候模式的气候变化预测方法及***
CN110716512A (zh) 一种基于燃煤电站运行数据的环保装备性能预测方法
CN115759488B (zh) 一种基于边缘计算的碳排放监测预警分析***及其方法
CN108802856B (zh) 一种基于ai的源数据动态修正预报***及其工作方法
CN105760970A (zh) 空气质量指数的预测方法
CN106600037B (zh) 一种基于主成分分析的多参量辅助负荷预测方法
CN110097205A (zh) 一种建筑负荷预测用气象预报数据预处理方法
CN115860286B (zh) 一种基于时序门机制的空气质量预测方法及***
CN115097796B (zh) 一种质量控制***与模拟大数据和校正aql值的方法
CN113537515A (zh) Pm2.5预测方法、***、装置及存储介质
Cheng et al. A synoptic weather-typing approach to project future daily rainfall and extremes at local scale in Ontario, Canada
CN114037140A (zh) 预测模型训练、数据预测方法、装置、设备及存储介质
Sha et al. Development of a key-variable-based parallel HVAC energy predictive model
CN113611105A (zh) 一种城市交通出行需求总量预测方法
Guo et al. Traffic Flow Forecasting for Road Tunnel Using PSO‐GPR Algorithm with Combined Kernel Function
KR20220146158A (ko) 일사량 예측 장치 및 그 방법
CN117200223A (zh) 日前电力负荷预测方法和装置
CN116702926A (zh) 一种空气质量模式预报机器学习集成订正方法
CN116662935A (zh) 基于空气质量监测网络的大气污染物空间分布预测方法
Donnelly et al. Short-term forecasting of nitrogen dioxide (NO 2) levels using a hybrid statistical and air mass history modelling approach
CN116013426A (zh) 一种高时空分辨率的站点臭氧浓度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant