CN109116444B - 基于PCA-kNN的空气质量模式PM2.5预报方法 - Google Patents
基于PCA-kNN的空气质量模式PM2.5预报方法 Download PDFInfo
- Publication number
- CN109116444B CN109116444B CN201810774695.7A CN201810774695A CN109116444B CN 109116444 B CN109116444 B CN 109116444B CN 201810774695 A CN201810774695 A CN 201810774695A CN 109116444 B CN109116444 B CN 109116444B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- knn
- training
- pca
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/10—Devices for predicting weather conditions
Landscapes
- Environmental & Geological Engineering (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Atmospheric Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Ecology (AREA)
- Environmental Sciences (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及气象技术领域,基于PCA‑kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集;(2)、数据质量控制;(3)、标准化及PCA处理;(4)、将训练数据分成训练集、验证集、测试集;(5)、训练kNN模型,参数优化;(6)、基于待订正的模式产品得出订正预报。本发明有效提高了空气质量PM2.5预报的精度和准确度。
Description
技术领域
本发明涉及气象技术领域,具体是指基于PCA-kNN的空气质量模式PM2.5预报方法。
背景技术
主成分分析(PCA)最初是由Pearson(1901)在非随机变量的讨论中介绍的,后来由Hotelling(1933)扩展到随机变量[22-24]。PCA的目的是将相关性较强的多维变量转化为彼此不相关的新变量。PCA方法的优点在于:(1)仅以方差衡量信息量,不受数据集以外的因素影响;(2)各主成分之间正交,可消除原始数据成分间相互影响的因素。在实际应用中,经过PCA处理后,前几个主成分已经包含了大部分原始变量的变异信息,选取累计贡献率达到90%的主成分进行分析,达到降维的效果。
k近邻(kNN)是一种常用的监督学***均法,即将这k个样本标记的平均值作为预测结果,也可以基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。kNN算法的优点是精度高、对异常值不敏感、无数据输入假定,缺点是计算复杂度高、空间复杂度高。
广州地处珠江三角洲中心地带,随着近些年快速经济发展和城市化发展,空气污染、灰霾事件频发,空气质量预报日益成为政府和公众关注的焦点问题。2013年开始中国气象局要求全国所有省会城市开展空气质量预报。环境气象数值预报模式GRAPES-CMAQ为开展空气质量预报提供了核心支撑,为了进一步提高客观预报水平,需要进行数值预报产品释用。相较于模式输出统计、线性回归0常用方法,机器学***。
发明内容
本发明要解决的技术问题是克服上述技术的缺陷,提供基于PCA-kNN的空气质量模式PM2.5预报方法。
为解决上述技术问题,本发明提供的技术方案为基于PCA-kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集;起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日北京时CMAQ 20时起报的1-72h逐时污染物浓度预报数据、北京时GRAPES-MESO 20时起报的1-72h逐时气象要素数据以及起报时间t日20时以前相应时次的PM2.5观测数据;
(2)、数据质量控制;去掉步骤(1)中所得数据里的缺测数值和异常值;
(3)、标准化及PCA处理;根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量;根据应用kNN0机器学***均值,再除以标准偏差);把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分;
(4)、将训练数据分成训练集、验证集、测试集;将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集;
(5)、训练kNN模型,参数优化;以自变量和因变量为输入,训练kNN回归模型;kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值;
(6)、基于待订正的模式产品得出订正预报;将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报;
作为改进,在步骤(1)中,在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO的污染物浓度,气象要素数据包括气温、相对湿度的气象要素、气压的气象要素、降水的气象要素、风速的气象要素、位势高度的气象要素,以及含地面、1000hPa、925hPa、850hPa、700hPa、500hPa层次的垂直速度的气象要素。
作为改进,在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器;验证集,作用是当通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,通过训练集和验证集得出最优模型后,使用测试集进行模型预测。
本发明基于PCA-kNN的空气质量模式PM2.5预报方法具有如下优点:有效的提高了空气质量预报的精度和准确度。
附图说明
图1是本发明基于PCA-kNN的空气质量模式PM2.5预报方法的示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明。
结合附图1,基于PCA-kNN的空气质量模式PM2.5预报方法,包括以下步骤:(1)、样本数据收集;起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日北京时CMAQ20时起报的1-72h逐时污染物浓度预报数据、北京时GRAPES-MESO 20时起报的1-72h逐时气象要素数据以及起报时间t日20时以前相应时次的PM2.5观测数据;
(2)、数据质量控制,去掉步骤(1)中所得数据里的缺测数值和异常值;
(3)、标准化及PCA处理;根据步骤(2)得到的数据,以CMAQ和GRAPES-MESO模式预报数据为自变量,PM2.5观测数据为因变量;根据应用kNN0机器学***均值,再除以标准偏差);把标准化后的结果进行PCA处理,选择累计贡献率达到90%的主成分;
(4)、将训练数据分成训练集、验证集、测试集;将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集;
(5)、训练kNN模型,参数优化;以自变量和因变量为输入,训练kNN回归模型;kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值;
(6)、基于待订正的模式产品得出订正预报。将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到t日起报的订正预报;
在步骤(1)中,在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO的污染物浓度,气象要素数据包括气温、相对湿度的气象要素、气压的气象要素、降水的气象要素、风速的气象要素、位势高度的气象要素,以及含地面、1000hPa、925hPa、850hPa、700hPa、500hPa层次的垂直速度的气象要素。
在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个模型;验证集,作用是当通过训练集训练出多个模型后评估模型的效果,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,使用测试集评估模型的泛化能力;综合考虑验证误差和测试误差选出最佳模型。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (3)
1.基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于,包括以下步骤:
(1)、样本数据收集:起报日期为t,最佳历史数据天数为d,则收集某市各站点t-d至t日北京时CMAQ20时起报的1-72h逐时污染物浓度预报数据、北京时GRAPES-MESO20时起报的1-72h逐时气象要素数据以及起报时间t日20时以前相应时次的PM2.5观测数据;
(2)、数据质量控制:去掉步骤(1)中所得数据里的缺测数值和异常值;
(3)、标准化及PCA处理:根据步骤(2)得到的数据,以CMAQ(Community Multiscale AirQuality模式***)和GRAPES-MESO(中尺度数值预报***)模式预报数据为自变量,PM2.5观测数据为因变量,根据应用kNN机器学***均值,再除以标准偏差;把标准化后的结果进行自变量进行标准化处理,即原数据减去其平均值,再除以标准偏差;把标注化后的结果进行PCA处理,选择累计贡献率达到90%的主成分;
(4)、将训练数据分成训练集、验证集、测试集;将t-d至t-1日的历史数据作为训练数据,将训练数据按时次随机排列,选择70%的数据作为训练集,20%的数据作为验证集,10%的数据作为测试集;
(5)、训练kNN模型,参数优化;以自变量和因变量为输入,训练kNN回归模型;kNN回归模型的主要参数是邻近样本个数即k值,采用交叉验证和网格搜索,选择验证误差和测试误差最小的k值;
(6)、基于待订正的模式产品得出订正预报;将t日起报的模式数据作为输入,以上述最佳的k值作为参数进行kNN回归预报,得到r日起报的订正预报。
2.根据权利要求1所述的基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于:在步骤(1)中,污染物浓度数据包括PM2.5、PM10、O3、NO2、SO2、CO的污染物浓度,气象要素数据包括气温、相对湿度的气象要素、气压的气象要素、降水的气象要素、风速的气象要素、位势高度的气象要素,以及含地面、1000hPa、925hPa、850hPa、700hPa、500hPa层次的垂直速度的气象要素。
3.根据权利要求1所述的基于PCA-kNN的空气质量模式PM2.5预报方法,其特征在于:在步骤(4)中,训练集,后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个模型;验证集,作用是当通过训练集训练出多个模型后评估模型的效果,使用各个模型对验证集数据进行预测,并记录模型准确率;测试集,使用测试集评估模型的泛化能力;综合考虑验证误差和测试误差选出最佳模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810774695.7A CN109116444B (zh) | 2018-07-16 | 2018-07-16 | 基于PCA-kNN的空气质量模式PM2.5预报方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810774695.7A CN109116444B (zh) | 2018-07-16 | 2018-07-16 | 基于PCA-kNN的空气质量模式PM2.5预报方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109116444A CN109116444A (zh) | 2019-01-01 |
CN109116444B true CN109116444B (zh) | 2021-01-12 |
Family
ID=64862147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810774695.7A Active CN109116444B (zh) | 2018-07-16 | 2018-07-16 | 基于PCA-kNN的空气质量模式PM2.5预报方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109116444B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110045714B (zh) * | 2019-04-08 | 2022-05-17 | 沈阳化工大学 | 一种基于权重近邻规则的工业过程监控方法 |
CN110059766A (zh) * | 2019-04-26 | 2019-07-26 | 兰州大学 | 一种运用k临近算法进行降水类型分类的方法 |
CN110334732A (zh) * | 2019-05-20 | 2019-10-15 | 北京思路创新科技有限公司 | 一种基于机器学习的空气质量预报方法和装置 |
CN110263392B (zh) * | 2019-06-01 | 2023-04-28 | 邯郸市气象局 | 基于多模式分区误差检验的风场预报方法及其*** |
CN110261547B (zh) * | 2019-07-04 | 2020-12-15 | 北京思路创新科技有限公司 | 一种空气质量预报方法和设备 |
CN111256745A (zh) * | 2020-02-28 | 2020-06-09 | 芜湖职业技术学院 | 一种便携式空气质量监测仪数据校准方法 |
CN117174197B (zh) * | 2023-08-17 | 2024-02-13 | 广东省生态气象中心(珠江三角洲环境气象预报预警中心) | 基于动态有监督机器学习的臭氧污染风险预报方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917291B2 (en) * | 2008-01-10 | 2011-03-29 | Baron Services, Inc. | System and method for predicting tornado activity |
CN105631537A (zh) * | 2015-12-23 | 2016-06-01 | 南京信息工程大学 | 基于气象服务平台的空气质量预报业务*** |
CN106055904B (zh) * | 2016-06-04 | 2019-02-01 | 上海大学 | 基于varx模型的大气pm2.5浓度预测方法 |
-
2018
- 2018-07-16 CN CN201810774695.7A patent/CN109116444B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109116444A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109116444B (zh) | 基于PCA-kNN的空气质量模式PM2.5预报方法 | |
CN108491970B (zh) | 一种基于rbf神经网络的大气污染物浓度预测方法 | |
US20150317589A1 (en) | Forecasting system using machine learning and ensemble methods | |
CN112465243B (zh) | 一种空气质量预报方法及*** | |
CN105740991A (zh) | 基于改进bp神经网络拟合多种气候模式的气候变化预测方法及*** | |
CN110716512A (zh) | 一种基于燃煤电站运行数据的环保装备性能预测方法 | |
CN115759488B (zh) | 一种基于边缘计算的碳排放监测预警分析***及其方法 | |
CN108802856B (zh) | 一种基于ai的源数据动态修正预报***及其工作方法 | |
CN105760970A (zh) | 空气质量指数的预测方法 | |
CN106600037B (zh) | 一种基于主成分分析的多参量辅助负荷预测方法 | |
CN110097205A (zh) | 一种建筑负荷预测用气象预报数据预处理方法 | |
CN115860286B (zh) | 一种基于时序门机制的空气质量预测方法及*** | |
CN115097796B (zh) | 一种质量控制***与模拟大数据和校正aql值的方法 | |
CN113537515A (zh) | Pm2.5预测方法、***、装置及存储介质 | |
Cheng et al. | A synoptic weather-typing approach to project future daily rainfall and extremes at local scale in Ontario, Canada | |
CN114037140A (zh) | 预测模型训练、数据预测方法、装置、设备及存储介质 | |
Sha et al. | Development of a key-variable-based parallel HVAC energy predictive model | |
CN113611105A (zh) | 一种城市交通出行需求总量预测方法 | |
Guo et al. | Traffic Flow Forecasting for Road Tunnel Using PSO‐GPR Algorithm with Combined Kernel Function | |
KR20220146158A (ko) | 일사량 예측 장치 및 그 방법 | |
CN117200223A (zh) | 日前电力负荷预测方法和装置 | |
CN116702926A (zh) | 一种空气质量模式预报机器学习集成订正方法 | |
CN116662935A (zh) | 基于空气质量监测网络的大气污染物空间分布预测方法 | |
Donnelly et al. | Short-term forecasting of nitrogen dioxide (NO 2) levels using a hybrid statistical and air mass history modelling approach | |
CN116013426A (zh) | 一种高时空分辨率的站点臭氧浓度预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |