CN114578457B

CN114578457B - 一种基于进化集成学习的大气污染物浓度时空预测方法

Info

Publication number: CN114578457B
Application number: CN202210219523.XA
Authority: CN
Inventors: 刘春蕾; 谢放尖; 许海英
Original assignee: Nanjing Institute Of Ecological Environmental Protection
Current assignee: Nanjing Institute Of Ecological Environmental Protection
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2023-05-19
Anticipated expiration: 2042-03-08
Also published as: CN114578457A

Abstract

本发明公开了一种基于进化集成学***均值的空间预测，能够通过环境变量筛选机制遴选与因变量相关性最高的环境变量集合，通过组合多个子模型来共同预测，能够获得比单一技术更准确的预测能力。

Description

一种基于进化集成学习的大气污染物浓度时空预测方法

技术领域

本发明属于面向大气环境学中大气污染物浓度空间预测的分析方法，具体涉及到一种使用进化集成学习的方法构建多种大气污染物浓度空间预测的子模型，通过对子模型动态加权集成的方式提升大气污染物浓度空间预测的精度。

背景技术

大气污染物的种类高达100多种，根据存在状态可以划分为气态污染物与颗粒状污染物两大类，根据排放源可以分为人为污染物与天然污染物两大类。工业排放的大气污染物主要包括粉尘、SO₂、氮氧化物、烟尘、细颗粒物(PM_2.5)与可吸入颗粒物(PM₁₀)。社会经济的快速发展直接导致大气污染物的排放快速增加，对生态环境安全与人民身心健康带来了较大的威胁，目前已引起社会各界的广泛关注，已成为全球共同面临的环境问题之一。尽管近年来中国对大气环境的整体治理成效显著，中国城市总体上有明显改善，但空间质量监测数据表明中国部分城市的大气污染仍然十分严重，例如2019年《世界空气质量报告》指出中国有47个城市跻身污染最严重的100个城市之列。因此，准确模拟大气污染物浓度的时空分布特征是环保部门制定科学合理的管控措施、降低人群健康风险的重要技术支撑。

欧美国家已建立较为完善的环境管理监测体系，构建了多等级的数据采集***。例如美国国家环境保护署(EPA)自上世纪60年代就开展了排放因子规范研究，并于1995年发布了第五版大气污染物排放因子库AP-42手册，成为其他国家或地区建立排放清单的最重要参考资料之一。欧洲环保署于1990年发布了《大气污染物排放清单指南》，用于欧洲各国家排放源清单管理。近年来，大多数发展中国家已认识到大气污染物排放量急剧上升带来的人类健康问题，并围绕大气污染物的排放、模拟与治理开展了大量工作。上世纪90年代，我国大气污染物排放清单研究开始起步。2014年，原环境保护部制定了一系列清单编制指南。大气污染物清单编制方法主要包括模型估算法、排放因子法、实测法与物料衡算法。中国政府根据产业结构特点与经济发展阶段特征，在保证经济高质量发展的同时制定了一系列工业大气污染物排放与管理国家标准。截至2022年2月，我国现行的国家标准有30项直接跟大气污染排放直接相关，其中包含了19项强制性国家标准与11项推荐性国家标准。强制性国家标准包括铸造工业大气污染物排放标准、农药制造工业大气污染物排放标准、陆上石油天然气开采工业大气污染物排放标准、制药工业大气污染物排放标准、涂料、油墨及胶粘剂工业大气污染物排放标准、电子玻璃工业大气污染物排放标准等。

我国各主要城市已逐步建立了环境空气质量监测点，能够完成空气质量的日监测，收集每天大气污染物浓度资料，例如SO₂、CO、NO₂、PM₁₀、PM_2.5等，大气污染物数据库的构建为评估大气质量提供了宝贵的数据源。相关研究表明不同污染物具有明显的区域分布特点与季节性变化特征，例如2020年兰州市PM₁₀月均浓度在1-5、11-12月份较高；SO₂常年均值较低，因此需要研发空间预测技术来量化大气污染物浓度的时空变化规律。

目前，常用的大气污染物浓度空间预测技术主要包括大气数值模拟技术、大气扩散模型、土地利用回归模型、卫星遥感反演技术。大气数值模拟技术主要基于大气污染物的物理化学特性，建立复杂的数学模型来模拟污染物的动态变化，例如Models-3 CMAQ、MC2-CALGRID、EMEP MSC-W模型。该方法对技术人员的专业知识与计算平台具有较高的要求，在不同的应用部门、不同的地区很难大规模开展。大气扩散模型强调大气污染物的迁移过程，使用大量公式来计算大气污染物的扩散路径，例如面向平坦乡村地形且连续排放高架点源的CRSTER、PAL、MPTER、PTDIS模型；面向工业复合源的ISCLT、APRAC3、CDMQC模型；面向地形复杂地区的LONGZ、VALLEY模型。土地利用回归模型假设大气污染物浓度的空间分布与土地利用具有高度的相关性，通过构建土地利用与大气污染物浓度的预测模型，再通过覆盖研究区的土地利用图层生成整个地区大气污染物浓度的空间分布图，该方法对监测站点样本数据集的大小较为敏感，通常需要较多的站点个数才能获得较为理想的预测精度。卫星遥感反演技术是将地面站点监测的大气污染物浓度数据与遥感卫星有机结合，达到对城市中大气污染物浓度的动态监测。其他的预测方法包括回归分析、时间序列、深度学习、神经网络、机器学习等，预测的精度与技术人员的专业技能、监测站点数量与地区大气环境有一定的相关性，在具体的应用中存在不同程度的预测误差。

虽然现有大气污染物浓度预测技术已经取得长足进步，国内外研究与应用部门相继构建了众多的预测模型，研发了一系列大气污染物浓度时空预测技术，但是对于我国大多数城市而言，这些技术的成功应用存在着不同的条件限制，简单的技术推广往往导致大气污染物浓度预测精度较低，无法满足应用部分的业务需求，归纳起来主要存在以下技术问题：

(1)现有大气污染物浓度时空预测技术对应用人员的知识储备与监测数据库有不同程度的要求，已经取得较高精度的预测模式往往较为复杂，难以实现大范围的推广应用。例如，即使专业技术人员帮助其他应用部门成功地构建了该地区某种大气污染物浓度的扩散方程，并给出了较为准确的初始状态，但是模型长期运行过程中产生的误差传播与预测结果的不确定性需要应用部门的技术人员进行解译。

(2)受气象条件、交通管制与企业管理变化等因素影响，大气污染物浓度的空间分布具有很强的季节变化和月变化特征，现有预测技术难以实时修改技术参数，更新预测技术的控制因子。现有预测技术经常使用一段时期大气污染物浓度的平均值构建预测模型，难以反映低时间分辨率的大气污染物浓度空间分布情况，忽略了不同类型污染物浓度的动态变化，容易导致预测结果不确定性较高。较为理想的方法是采用集成学习的思想，同时构建多个预测模型，通过筛选或组合不同的预测结果来提升预测结果的健壮性。但是这种技术比较依赖使用者的工作经验，预测模型容易陷入局部最优解的困境。

(3)现有预测技术对自变量(环境变量)具有一定的要求，难以应对极端天气/气候事件或自变量数据缺失对预测模型的影响。例如不同传感器的遥感影像数据分辨率与覆盖周期不尽相同，这种尺度效应问题导致异构的遥感数据无法直接应用于卫星遥感反演技术。土地利用回归模型的输入变量包括土地利用、气象数据、排放源信息与道路信息等，一旦构建了某一时间点的预测模型，在以后的运行过程中需要保证每一种输入变量的完整性与持续更新，否则预测模型的预测精度就会受到直接的影响。

(4)基于地理信息***空间分析的大气污染物浓度预测方法普适性与移植性较高，但该技术对观测数据样本量较为敏感，在预测观测站点较少研究区的大气污染物浓度时往往预测精度不够理想。尽管现有大气污染物排放清单空间分配优化技术已经较为成熟，但无法获得足够样本量的大气污染物排放数据直接影响了时空预测模型的稳健性。

综上所述，现有技术缺陷与不足同样出现在大气污染物浓度的其他分析应用方面。

发明内容

本发明目的在于针对上述现有技术的不足，提出了一种基于进化集成学习的大气污染物浓度时空预测方法。该方法的技术流程***地面向多种大气污染物浓度的时空分布模拟，该方法涉及到不同类型的机器学习技术的集成应用、大气污染物浓度空间变异特征模拟与集成学习模型的自适应更新技术，该方法能够有效解决常规预测模型难以处理大气污染物浓度分布模式季节性变动的问题。该方法在空间预测过程中，通过动态更新输入大气污染物浓度实测数据、使用进化算法选择最优的子模型组合，实现大气污染物浓度的时空动态模拟预测，为大气污染的监测与治理提供关键的数据支持。

本发明是针对某一时间点大气污染物浓度的监测数据，使用与大气污染物浓度相关性较高的环境变量，分别训练并评价多种机器学习、线性回归模型，构建预测精度最高的集成学习模型。在其余时间点的大气污染物浓度空间预测方面，研发进化集成学习模型，根据大气污染物浓度的空间分异特征，动态优化集成学习模型相关参数，自适应地更新预测模型，以提升大气污染物浓度的空间预测精度。

本发明解决其技术问题所采取的技术方案是：一种基于进化集成学习的大气污染物浓度时空预测方法，该方法包括如下步骤：

步骤1：收集大气污染物浓度数据，进行标准化处理；

步骤2：收集覆盖研究区的环境变量数据，筛选并构建最优环境变量集；

步骤3：遴选空间预测算法，训练并评价初始阶段各子模型；

步骤4：根据各子模型预测精度，构建初始阶段集成学习模型；

步骤5：面向其他时间点的大气污染物浓度，构建进化集成学习模型；

步骤6：基于蒙特卡洛模拟技术，进行预测结果的不确定性分析。使用训练好的进化集成学习模型动态输出大气污染物浓度时空分布图。

有益效果：

1、交通运输、气候等动态因素与地形等静态因素的综合作用导致大气污染物浓度在各地均呈现明显的季节性变化规律，这种季节性变化导致大气污染浓度呈现较强的时空异质性，是空间模拟的主要难点之一。本发明很好地使用进化算法动态调整预测模型的技术参数，达到了“多种模型、有机集成、动态调参，精细制图”的效果，具有广阔的工业化应用前景。

2、本发明具有较高的普适性与移植性，对技术人员的业务能力较为友好，能够兼容多种预测技术，用户可以根据情况自主选择多种可用的空间预测技术作为子模型，因此也避免了使用单一子模型所具备的局限性，例如难以捕捉大气污染物浓度时空分布与环境变量的非线性关系。

3、有别于常规的动态模拟技术，本发明面向单一时间点大气污染物浓度瞬时状态或一段时间内大气污染物浓度平均值的空间预测，能够通过环境变量筛选机制遴选与因变量相关性最高的环境变量集合，通过组合多个子模型来共同预测，能够获得比单一技术更准确的预测能力。

4、受样本数量与位置影响，大气污染物浓度的空间预测具有一定的不确定性。有别于常规的大气污染物浓度空间预测技术方案，本发明能够动态给出不同时间点每一个空间位置预测结果的不确定性分析结果，用户通过设置不确定性分析置信阈值，可以获取到更为客观的评价结果，规避因大气污染物浓度监测站点空间覆盖不足而导致预测出现偏差的技术难题。

附图说明

图1为本发明的方法流程图。

图2为本发明步骤1实现的主要流程图。

图3为本发明步骤2实现的主要流程图。

图4为本发明步骤3实现的主要流程图。

图5为本发明步骤5实现的主要流程图。

图6为本发明实施例中收集的北京市大气污染物浓度监测站点与高程空间分布图。

图7为本发明实施例中收集的北京市1000米空间分辨率坡度空间分布图。

图8为本发明实施例中收集的北京市1000米空间分辨率地形湿度指数空间分布图。

图9为本发明实施例中收集的北京市2021年11月25日30米空间分辨率归一化植被指数空间分布图。

图10为本发明实施例中收集的北京市2021年12月3日30米空间分辨率归一化植被指数空间分布图。

图11为本发明实施例中收集的北京市2021年11月25日1000米空间分辨率归一化植被指数空间分布图。

图12为本发明实施例中收集的北京市2021年12月3日1000米空间分辨率归一化植被指数空间分布图。

图13为本发明实施例中收集的北京市2017年10米空间分辨率土地利用空间分布图。

图14为本发明实施例中收集的北京市2017年1000米空间分辨率土地利用空间分布图。

图15为本发明实施例中预测的北京市2021年11月25日PM_2.5空间分布图。

图16为本发明实施例中预测的北京市2021年12月3日PM_2.5空间分布图。

具体实施方式

下面结合说明书附图对本发明创造作进一步地详细说明。

如图1所示，本发明提供了一种基于进化集成学习的大气污染物浓度时空预测方法，该方法包括如下步骤：

步骤1：收集大气污染物浓度数据，进行标准化处理，具体流程见图2，主要实现过程为：

步骤1-1：获取研究区大气污染物浓度数据：具体包括不同种类大气污染物浓度的监测数据、监测时间、监测站点ID及各监测站点经纬度信息。

构建大气污染物浓度数据集AtmoPolData＝{a1,a2,a3,…,ak,Long,Lati,SiteID,Period}，其中a1,a2,a3,…,ak分别为监测站点(SiteID)监测的第1、2、3、…,k种大气污染物浓度指标，Long与Lati为该站点的坐标，坐标***采用WGS1984地理坐标，Period为数据监测周期(例如天、小时等)。

步骤1-2：选择第j种大气污染物浓度指标为因变量(Dependent Variable)，1≤j≤k，无特殊说明，本发明技术方案下文中的“因变量”均特指该大气污染物浓度指标。

步骤1-3：根据数据监测周期与预测时间周期更新因变量数据。部分大气污染物浓度的监测频率可能较高(例如每小时或若干分钟)，为了发布公众容易理解的大气环境质量，实际应用场景中可能需要一段时间(例如一天)内的平均值的空间分布图。设定动态预测大气污染物浓度因变量空间分布的时间间隔为PrePeriod，且PrePeriod≥Period。

如果PrePeriod＝Period，进入步骤1-4；

如果PrePeriod＞Period，计算各时间点因变量的平均值，具体计算方法为：假设因变量的实际监测时间集为{t1,t2,t3,…,ta}，其中相邻监测时间的时间间隔为Period；因变量预测的监测时间集为{pre_t1,pre_t2,pre_t3,…,pre_tb}，相邻预测时间点的时间间隔为PrePeriod，则pre_ti时间点(1≤i≤b)因变量的值为{tc,…,ti,…,tg}时间集对应因变量的均值，其中g-i＝i-c，且tg-tc＝PrePeriod。

例如观测时间周期(Period)为1小时，因变量的预测周期(PrePeriod)为每4个小时，则10点钟的因变量为8-12点观测数据的均值。

步骤1-4：识别并处理数据集AtmoPolData中的无效数据。无效数据指的是因变量数据中的空缺值、孤立点或脏数据。

空缺值特指因变量在某一时间点或某一时间段出现数据丢失的情况，例如由于仪器故障，PM₁₀在某一天几个小时的监测数据出现了丢失。这种情况下需要根据数据监测周期Period与缺失数据的时长综合决定，如果因变量连续丢失数据的时间MissPeriod≥PrePeriod，则该时间段不需要预测因变量的空间分布。

孤立点特指因变量在某一时间点前后同时出现长期的数据缺失，孤立点的监测时长可能小于PrePeriod。这种情况下较为特殊，该孤立点数据较为宝贵，是能够代表该时间段空气质量的数据，因变量取相关时间内的均值即可。

脏数据特指仪器监测出现了误差，例如产生了大量重复的观测数据，需要定期检查数据集，根据经验进行数据剔除。

步骤1-5：对因变量数据进行异常值剔除。异常值的判断标准为不属于以下区间：(mean-3×std,mean+3×std)，mean与std分别代表因变量的平均值与标准差。对于识别出来的异常值使用平均值进行修正。

注：也可以根据因变量的种类，选择其他的异常值筛选方法，其他可以使用的方法包括：箱盒图法、散点图法、Z-Score法。

步骤1-6：使用KS-检验(Kolmogorov-Smirnov test)判断因变量是否符合正态分布，如果检验结果接受零假设，说明因变量符合正态分布，进行步骤2；

否则，使用自然对数函数对因变量进行转换，使其符合正态分布。

注：其他可以判断因变量是否符合正态分布的方法还包括Shapiro-Wilk检验、Anderson-Darling检验、峰度系数、偏度系数等。

步骤2：收集覆盖研究区的环境变量数据，筛选并构建最优环境变量集，具体流程见图3，主要实现过程为：

步骤2-1：收集整理覆盖研究区的环境变量，作为预测大气污染物浓度的自变量(Independent Variable)。环境变量特指能够对因变量的时空分布产生显著影响的地理要素，例如降雨、气温、风速、高程、土地利用、遥感影像图(如Sentinel2、Landsat8等)、基于遥感影像提取的各种植被指数(归一化植被指数、比值植被指数、绿度植被指数、增强型植被指数、差值环境植被指数、垂直植被指数)等图层。

环境变量的格式可以为栅格数据或矢量数据。栅格数据的文件格式可以包括TIFF、ESRI Grid、TXT等。矢量数据的文件格式为Shapefile格式。

环境变量的数据类型可以为浮点型、整型。

环境变量的时间类型可以为动态类型(例如遥感波段)、静态类型(例如高程)。动态环境变量随着时间的变化也会发生变化。

步骤2-2：启动一种地理信息***软件(例如ESRI ArcGIS、QGIS、GRASS GIS、SAGAGIS等)，将矢量类型与栅格类型的环境变量的文件格式统一转换为TIFF。

步骤2-3：基于地理信息***软件，使用双线性内插法将环境变量转换为统一的空间分辨率RES。

步骤2-4：将环境变量数据图层加载至地理信息***软件。提取AtmoPolData数据集中各监测站点经纬度信息，根据经纬度信息提取各监测站点的环境变量数据。

提取AtmoPolData中的因变量数据，将因变量与提取后的环境变量数据构成新的预测数据集：PreData＝(YDepVari,X1,X2,…,Xnh,Long,Lati)，其中YDepVari为因变量数据，X1,X2,…,Xnh为第1、2、…、nh个环境变量数据，Long与Lati为经纬度信息。

注：在地理信息***领域，监测站点集合可以视作具有经纬度信息的点状图层、环境变量为覆盖整个研究区并具有一定分辨率的面状图层、道路信息和河流网络为线状图层。

步骤2-5：识别并建立最优环境变量集，具体方法为：

步骤2-5-1：针对自变量Xm(1≤m≤nh)，计算YDepVari与Xm的皮尔逊相关系数r_m与显著水平pr_m，如果r_m>0.1并且pr_m＜0.05，则保留自变量Xm；

否则，从PreData中删除自变量Xm。

步骤2-5-2：使用逐步线性回归方法筛选因变量的最优环境变量集。其他可供选择的筛选方法为递归特征消除算法。

步骤2-5-3：更新预测数据集：PreData＝(YDepVari,X1,X2,…,Xnf,Long,Lati)。该数据集包含了nf种环境变量。

步骤3：遴选空间预测算法，训练并评价初始阶段各子模型，具体流程见图4，主要实现过程为：

步骤3-1：根据监测站点数量NY，也即某一时间点因变量的数量，确定构建的预测模型精度的验证方式。不同的模型精度验证方式涉及到的时间复杂度不同，模型精度的验证能力也略有差异。

如果NY≥100，使用五折交叉验证进行模型精度检验；

如果100＞NY≥50，使用十折交叉验证进行模型精度检验；

如果NY＜50，使用留一法交叉验证进行模型精度检验。

步骤3-2：据不完全统计，机器学习算法种类高达上百种，不需要选择所有的预测算法。根据大气污染物浓度空间预测现有研究，可供参考的预测算法包括随机森林、多元线性回归、岭回归、Lasso回归、支持向量机、地理加权回归、回归克里格、人工神经网络、回归树。

构建子模型集合PreSubMod＝{Tx,Mod1,Mod2,…,Modh}，Tx表示预测因变量空间分布的时间点，Mod1,Mod2,…,Modh分别为预测模型。

注：因为一种软件平台难以支持所有的子模型算法，本发明支持面向特征级的集成学***台中进行集成，子模型的实现平台包括R、MATLAB、SPSS、SAS、ArcGIS、Excel等。各子模型可以独立地在不同的软件平台进行训练、精度验证。

步骤3-3：根据业务需求，选择初始预测时间T1(Tx＝T1)。从PreData数据集中删除早于T1时间点的数据。

步骤3-4：基于步骤3-1中的模型验证机制，针对T1时间点的因变量，使用预测数据集PreData，依次训练PreSubMod集合中的各子模型。

步骤3-5：输出各子模型在T1时间点的模型验证精度。模型的精度表达方式较多，包括均方根误差、平均误差、决定系数。

考虑到因变量的季节性变化，为了便于对比不同时间点的预测精度，本发明使用决定系数作为表征预测模型精度的统计指标。

PreSubMod集合中的各子模型在T1时间点的预测精度为R2_PreSubMod＝{T1,R2_Mod1,R2_Mod2,…,R2_Modh}。

步骤4-1：选择子模型集成学习架构，为了便于管理各子模型的权重，使用加权法进行子模型集成学习。

集成学习的核心是根据子模型的预测精度，将众多的子模型按照一定的规则进行集成，以弥补个别子模型在某个时间点因变量预测精度低的问题。

注：可以根据具体的业务需求选择其他的集成学习技术，常用的集成学习技术包括Bagging、加权法、Boosting、Stacking和投票法等。

步骤4-2：针对任意T1时间点的子模型预测精度集合R2_PreSubMod，构建集成学习模型：

式中R2_Mod_i为第i个子模型Mod_i在T1时间点的预测精度——决定系数。

从EnModel计算方法中可以看出，子模型的预测精度越高，该子模型在集成学习模型中的权重越大。这种加权法机制能够有效降低错误假设的风险，从而提高整个大气污染物浓度监测***的预测性能。

步骤4-3：基于步骤3-1中的模型验证机制，针对T1时间点的因变量，使用预测数据集PreData与集成学习模型EnModel，获取EnModel模型的预测精度。

步骤4-4：执行步骤6，输出初始阶段因变量空间分布图与不确定性空间分布图。

步骤5：面向其他时间点的大气污染物浓度，构建进化集成学习模型，具体流程见图5，主要实现过程为：

步骤5-1：获取时间点Tx的因变量与自变量数据集PreData＝(YDepVari,X1,X2,…,Xnf,Long,Lati)。该数据集包含了nf种最优环境变量。

步骤5-2：根据子模型集合PreSubMod＝{Tx,Mod1,Mod2,…,Modh}，依次训练Tx时间点各子模型，并获取各子模型预测精度。

步骤5-3：执行步骤4-2，构建Tx时间点的集成学习模型EnModelx。

步骤5-4：执行步骤4-3，获取Tx时间点集成学习模型EnModelx的预测精度R2_EnModelx。

步骤5-5：构建进化函数，获取不同进化阶段集成学习模型的预测精度。进化函数为：

式中，R2_Modx_i与R2_Mod_i分别为第i个子模型在Tx与T1时间点的预测精度，MAX函数表示获取到目标函数的最大值，MIN函数表示获取到目标函数的最小值。Wt_i为第i个子模型进化的动态权重。

步骤5-6：根据进化函数，迭代更新Tx时间点的集成学习模型：

式中Wt_i为整型数值，h为模型的个数，1≤Wt_i≤(h×100-h+1)，1≤i≤h，且Wt_i的值符合进化函数(2)的要求。

从EnModelx计算方法中可以看出，每次更新子模型进化的动态权重Wt_i，均会产生一个新的集成学习模型EnModelx_j(1≤j≤h×100)。进化函数(2)可以通过这种迭代更新集成学习模型的方式，通过对比分析集成学习预测因变量的精度，最终遴选Tx时间点最准确的预测模型。

注：由于因变量空间分布特征、环境变量数据在Tx时间点可用性、预测算法运行平台等问题，可以根据具体情况动态调整集成学习模型中的子模型。

步骤5-7：获取步骤5-6中各进化阶段集成学习模型的预测精度R2_EnModelx_j(1≤j≤h×100)，筛选精度最高的预测模型，并记录模型的参数。

步骤5-8：根据步骤5-7的集成学习模型参数，执行步骤6，输出时间点Tx因变量空间分布图与不确定性空间分布图。

步骤6：基于蒙特卡洛模拟技术，进行预测结果的不确定性分析。使用训练好的进化集成学习模型动态输出大气污染物浓度时空分布图，具体实现过程为：

步骤6-1：根据步骤2-5中的自变量与环境变量数据PreData、Tx时间点的集成学习模型EnModelx，预测生成时间点Tx因变量——一种大气污染物浓度的空间分布图，该分布图的文件格式为TIFF，空间分辨率为RES。

步骤6-2：随机选择PreData中因变量数据的80％，构建临时数据集TempPreData。

步骤6-3：基于TempPreData，执行步骤6-1，输出临时因变量空间分布图。

步骤6-4：重复步骤6-2-步骤6-3约1000次，输出1000个临时因变量空间分布图，计算该1000个图层中每个栅格的标准差，并输出一个与因变量空间分布图数据格式与分辨率相同的不确定性分析图。

注：该不确定性分析图表示Tx时间点因变量空间分布的不确定性。标准差越高表示该区域的因变量的值的不确定性越高。

步骤6-5：输出步骤6-1与步骤6-4中的因变量空间分布图与不确定性空间分布图。

下面以本方法在北京市大气PM_2.5浓度预测为例。

造成地区灰霾污染的大气颗粒是直径小于2.5μm的细颗粒物，也即PM_2.5。该物质可以通过人体呼吸直接进入肺部，能够对人体呼吸道与心血管产生严重危害。相关临床研究已证实：PM_2.5的影响直接与肺癌、哮喘、肺部感染等呼吸***疾病的发病率的逐年升高显著相关。生态环境部发布2021年空气质量调查报告，2021年全国地级及以上城市PM_2.5浓度为30μm/cm³，同比下降9.1％。但是，大气污染物浓度的季节性变化仍需要注意，尤其是部分的工业城市和地区仍需要密切关注PM_2.5的实时分布。

一种基于进化集成学习的大气污染物浓度时空预测方法过程包括：

步骤1，收集大气污染物浓度数据，进行标准化处理，主要实现过程为：

(1.a)：获取北京市大气污染物浓度数据：具体包括不同种类大气污染物浓度的监测数据、监测时间、监测站点ID及各监测站点经纬度信息。

构建大气污染物浓度数据集AtmoPolData＝{a1,a2,Long,Lati,SiteID,Period}，其中a1、a2分别为监测站点(SiteID)监测的大气PM_2.5、PM₁₀浓度指标，Long与Lati为站点的坐标，坐标***采用WGS1984地理坐标，Period为数据监测周期，为每小时监测一次。收集的35个监测站点的空间分布如图6所示。

(1.b)选择第1种大气污染物浓度指标(PM_2.5)为因变量(Dependent Variable)。

(1.c)设定动态预测大气污染物浓度因变量空间分布的时间间隔为1天。计算每天12点因变量的平均值，具体计算方法为：计算每天12点之前12个小时的因变量监测数据与每天12点之后12个小时的因变量监测数据，共24个小时的平均值。

(1.d)识别并处理数据集AtmoPolData中的无效数据。无效数据指的是因变量数据中的空缺值、孤立点或脏数据。

(1.e)：对因变量数据进行异常值剔除。异常值的判断标准为不属于以下区间：(mean-3×std,mean+3×std)，mean与std分别代表因变量的平均值与标准差。对于识别出来的异常值使用平均值进行修正。

(1.f)使用KS-检验(Kolmogorov-Smirnov test)判断因变量是否符合正态分布，检验结果表明因变量符合正态分布，进行步骤2。

步骤2，收集覆盖研究区的环境变量数据，筛选并构建最优环境变量集；

(2.a)：收集整理覆盖研究区的环境变量，作为预测大气污染物浓度的自变量(Independent Variable)。

收集覆盖北京市的环境变量包括降雨、气温、土地利用、道路距离、遥感影像、归一化植被指数、高程(图6)、坡度(图7)、地形湿度指数(图8)等22个图层。

其中由于数据的可获取性，遥感影像的周期为8天，也即每过8天，遥感影像数据更新一次。

(2.b)：使用ArcGIS10.2软件，将矢量类型与栅格类型的环境变量的文件格式统一转换为TIFF文件格式。

(2.c)：基于遥感影像的归一化植被指数空间分辨率为30米(图9、图10)，使用双线性内插法将环境变量转换为统一的空间分辨率1km，处理后的结果如图11、图12所示。

收集的研究区土地利用数据为10米分辨率(图13)。由于土地利用为离散型变量，使用MAJORITY重采样至1000米空间分辨率(图14)。

(2.d)：将环境变量数据图层加载至ArcGIS10.2，提取AtmoPolData数据集中各监测站点经纬度信息，根据经纬度信息提取各监测站点的环境变量数据。

提取AtmoPolData中的因变量数据，将因变量与提取后的环境变量数据构成新的预测数据集：PreData＝(YDepVari,X1,X2,…,X22,Long,Lati)，其中YDepVari为因变量数据(PM_2.5)，X1,X2,…,X22为第1、2、…、22个环境变量数据，Long与Lati为经纬度信息。

(2.e)：识别并建立最优环境变量集，具体方法为：

(2.e.1)针对自变量Xm(1≤m≤22)，计算YDepVari与Xm的皮尔逊相关系数r_m与显著水平pr_m，如果r_m>0.1并且pr_m＜0.05，则保留自变量Xm；

否则，从PreData中删除自变量Xm。

(2.e.2)使用逐步线性回归方法筛选因变量的最优环境变量集。筛选的环境变量为高程、土地利用、道路距离、地形湿度指数、归一化植被指数。

(2.e.3)更新预测数据集：PreData＝(YDepVari,X1,X2,X3,X4,X5,Long,Lati)。该数据集包含了5种环境变量。

步骤3，遴选空间预测算法，训练并评价初始阶段各子模型；

(3.a)：监测站点数量为35个，使用留一法交叉验证进行模型精度检验。

(3.b)：为了便于本发明易于理解，实施案例仅使用3种预测算法构建子模型：多元线性回归、随机森林、支持向量机，构建子模型集合PreSubMod＝{Tx,Mod1,Mod2,Mod3}，Tx表示预测因变量空间分布的时间点。构建子模型的开发平台为R。

(3.c)：根据业务需求，选择初始预测时间T1(2021年11月25日)。从PreData数据集中删除早于T1时间点的数据。

(3.d)：基于(3.a)步中的模型验证机制，针对T1时间点的因变量，使用预测数据集PreData，依次训练PreSubMod集合中的各子模型。

(3.e)：输出各子模型在T1时间点的模型验证精度，多元线性回归预测的均方根误差与决定系数分别为5.65μm/cm³、0.17；随机森林预测的均方根误差与决定系数分别为4.40μm/cm³、0.33；支持向量机预测的均方根误差与决定系数分别为4.71μm/cm³、0.21。

步骤4，根据各子模型预测精度，构建初始阶段集成学习模型；

(4.a)选择子模型集成学习架构，为了便于管理各子模型的权重，使用加权法进行子模型集成学习。

(4.b)针对任意T1时间点的子模型预测精度集合R2_PreSubMod，构建集成学习模型：

(4.c)基于(3.a)步中的模型验证机制，针对T1时间点的因变量，使用预测数据集PreData与集成学习模型EnModel，获取EnModel模型的预测精度。

(4.d)执行步骤6，输出初始阶段因变量空间分布图(图15)与不确定性空间分布图。

步骤5，面向其他时间点的大气污染物浓度，构建进化集成学习模型，优化初始阶段集成学习模型；

(5.a)获取时间点Tx(2021年12月3日)的因变量与自变量数据集PreData＝(YDepVari,X1,X2,X3,X4,X5,Long,Lati)。该数据集包含了5种最优环境变量。

(5.b)根据子模型集合PreSubMod＝{Tx,Mod1,Mod2,Mod3}，依次训练Tx时间点各子模型，并获取各子模型预测精度。

(5.c)执行步骤(4.b)，构建Tx时间点的集成学习模型EnModelx。其中，多元线性回归预测的均方根误差与决定系数分别为3.31μm/cm³、0.14；随机森林预测的均方根误差与决定系数分别为3.09μm/cm³、0.23；支持向量机预测的均方根误差与决定系数分别为3.03μm/cm³、0.22。

(5.d)执行步骤(4.c)，获取Tx时间点集成学习模型EnModelx的预测精度R2_EnModelx。

(5.e)构建进化函数，获取不同进化阶段集成学习模型的预测精度。进化函数为：

(5.f)根据进化函数，迭代更新Tx时间点的集成学习模型：

式中Wt_i为整型数值，1≤Wt_i≤(3×100-2)，1≤i≤3，且Wt_i的值符合进化函数(2)的要求。

从EnModelx计算方法中可以看出，每次更新子模型进化的动态权重Wt_i，均会产生一个新的集成学习模型EnModelx_j(1≤j≤3×100)。进化函数(2)可以通过这种迭代更新集成学习模型的方式，通过对比分析集成学习预测因变量的精度，最终遴选Tx时间点最准确的预测模型。

(5.g)获取(5.f)步骤中各进化阶段集成学习模型的预测精度R2_EnModelx_j(1≤j≤3×100)，筛选精度最高的预测模型。

(5.h)根据(5.g)步的集成学习模型参数，执行步骤6，输出时间点Tx因变量空间分布图(图16)与不确定性空间分布图。

步骤6，基于蒙特卡洛模拟技术，选择若干种子模型进行预测结果的不确定性分析。使用训练好的进化集成学习模型动态输出大气污染物浓度时空分布图，具体实现过程为：

(6.a)：根据(2.e)步中的自变量与环境变量数据PreData、Tx时间点的集成学习模型EnModelx，预测生成时间点Tx因变量——一种大气污染物浓度的空间分布图，该分布图的文件格式为TIFF，空间分辨率为RES。

(6.b)：随机选择PreData中因变量数据的80％，构建临时数据集TempPreData。

(6.c)：基于TempPreData，执行(6.a)步骤，输出临时因变量空间分布图。

(6.d)：重复步骤(6.b)-(6.c)1000次，输出1000个临时因变量空间分布图，计算该1000个图层中每个栅格的标准差，并输出一个与因变量空间分布图数据格式与分辨率相同的不确定性分析图。

(6.e)：输出2021年11月25日、12月3日北京市PM_2.5浓度空间分布图，如图15、图16所示。从PM_2.5浓度空间分布图上可以看出2021年11月25日PM_2.5浓度比12月3日高，但平均浓度小于75μm/cm³，空气质量等级为良，12月3日的空气质量等级为优。

基于以上大气污染物浓度时空预测技术，案例中PM_2.5浓度的多时间空间分布图如图15、图16所示。该方法不仅可以用来预测案例中的PM_2.5，也同样适宜于其他大气污染物浓度(如SO₂、CO、NO₂、PM₁₀、PM_2.5)时空分布的预测。本发明具有较高的普适性与移植性，对技术人员的业务能力较为友好，能够兼容多种预测技术，用户可以根据情况自主选择多种可用的空间预测技术作为子模型，因此也避免了使用单一子模型所具备的局限性。本技术创新性地使用进化算法动态调整预测模型的技术参数，达到了“多种模型、有机集成、动态调参，精细制图”的效果，具有广阔的工业化应用前景。

以上所述技术流程，仅是本发明的较佳具体实施方式，但并不是仅用于限制本发明的所有细节。任何熟悉本技术领域的业务/专业人员在该发明披露的技术范围内，在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于进化集成学习的大气污染物浓度时空预测方法，其特征在于，所述方法包括如下步骤：

步骤1：收集大气污染物浓度数据，进行标准化处理；

步骤3：遴选空间预测算法，训练并评价初始阶段各子模型，包括：

步骤3-1：根据监测站点数量NY，也即某一时间点因变量的数量，确定构建的预测模型精度的验证方式，不同的模型精度验证方式涉及到的时间复杂度不同，模型精度的验证能力也略有差异；

如果NY≥100，使用五折交叉验证进行模型精度检验；

如果100＞NY≥50，使用十折交叉验证进行模型精度检验；

如果NY＜50，使用留一法交叉验证进行模型精度检验；

步骤3-2：据不完全统计，机器学习算法种类高达上百种，不需要选择所有的预测算法，根据大气污染物浓度空间预测现有研究，可供参考的预测算法包括随机森林、多元线性回归、岭回归、Lasso回归、支持向量机、地理加权回归、回归克里格、人工神经网络、回归树；

构建子模型集合PreSubMod＝{Tx,Mod1,Mod2,…,Modh}，Tx表示预测因变量空间分布的时间点，Mod1,Mod2,…,Modh分别为预测模型；

步骤3-3：根据业务需求，选择初始预测时间T1(Tx＝T1)，从PreData数据集中删除早于T1时间点的数据；

步骤3-4：基于步骤3-1中的模型验证机制，针对T1时间点的因变量，使用预测数据集PreData，依次训练PreSubMod集合中的各子模型；

步骤3-5：输出各子模型在T1时间点的模型验证精度，模型的精度表达方式较多，包括均方根误差、平均误差、决定系数；

使用决定系数作为表征预测模型精度的统计指标；

PreSubMod集合中的各子模型在T1时间点的预测精度为R2_PreSubMod＝{T1,R2_Mod1,R2_Mod2,…,R2_Modh}；

步骤4：根据各子模型预测精度，构建初始阶段集成学习模型，包括：

步骤4-1：选择子模型集成学习架构，为了便于管理各子模型的权重，使用加权法进行子模型集成学习；

集成学习的核心是根据子模型的预测精度，将众多的子模型按照一定的规则进行集成，以弥补个别子模型在某个时间点因变量预测精度低的问题；

式中R2_Mod_i为第i个子模型Mod_i在T1时间点的预测精度——决定系数；

子模型的预测精度越高，该子模型在集成学习模型中的权重越大；

步骤4-3：基于步骤3-1中的模型验证机制，针对T1时间点的因变量，使用预测数据集PreData与集成学习模型EnModel，获取EnModel模型的预测精度；

步骤4-4：执行步骤6，输出初始阶段因变量空间分布图与不确定性空间分布图；

步骤5：面向其他时间点的大气污染物浓度，构建进化集成学习模型，包括：

步骤5-1：获取时间点Tx的因变量与自变量数据集PreData＝(YDepVari,X1,X2,…,Xnf,Long,Lati)，该数据集包含了nf种最优环境变量；

步骤5-2：根据子模型集合PreSubMod＝{Tx,Mod1,Mod2,…,Modh}，依次训练Tx时间点各子模型，并获取各子模型预测精度；

步骤5-3：执行步骤4-2，构建Tx时间点的集成学习模型EnModelx；

步骤5-4：执行步骤4-3，获取Tx时间点集成学习模型EnModelx的预测精度R2_EnModelx；

步骤5-5：构建进化函数，获取不同进化阶段集成学习模型的预测精度，进化函数为：

式中，R2_Modx_i与R2_Mod_i分别为第i个子模型在Tx与T1时间点的预测精度，MAX函数表示获取到目标函数的最大值，MIN函数表示获取到目标函数的最小值，Wt_i为第i个子模型进化的动态权重；

式中Wt_i为整型数值，h为模型的个数，1≤Wt_i≤(h×100-h+1)，1≤i≤h，且Wt_i的值符合进化函数(2)的要求；

从EnModelx计算方法中可以看出，每次更新子模型进化的动态权重Wt_i，均会产生一个新的集成学习模型EnModelx_j(1≤j≤h×100)，进化函数(2)可以通过这种迭代更新集成学习模型的方式，通过对比分析集成学习预测因变量的精度，最终遴选Tx时间点最准确的预测模型；

步骤5-7：获取步骤5-6中各进化阶段集成学习模型的预测精度R2_EnModelx_j(1≤j≤h×100)，筛选精度最高的预测模型，并记录模型的参数；

步骤5-8：根据步骤5-7的集成学习模型参数，执行步骤6，输出时间点Tx因变量空间分布图与不确定性空间分布图；

步骤6：基于蒙特卡洛模拟技术，进行预测结果的不确定性分析，使用训练好的进化集成学习模型动态输出大气污染物浓度时空分布图。

2.根据权利要求1所述的一种基于进化集成学习的大气污染物浓度时空预测方法，其特征在于，所述步骤1包括：

步骤1-1：获取研究区大气污染物浓度数据：包括不同种类大气污染物浓度的监测数据、监测时间、监测站点ID及各监测站点经纬度信息；

构建大气污染物浓度数据集AtmoPolData＝{a1,a2,a3,…,ak,Long,Lati,SiteID,Period}，其中a1,a2,a3,…,ak分别为监测站点(SiteID)监测的第1、2、3、…,k种大气污染物浓度指标，Long与Lati为该站点的坐标，坐标***采用WGS1984地理坐标，Period为数据监测周期；

步骤1-2：选择第j种大气污染物浓度指标为因变量(Dependent Variable)，1≤j≤k，无特殊说明，因变量指该大气污染物浓度指标；

步骤1-3：根据数据监测周期与预测时间周期更新因变量数据，设定动态预测大气污染物浓度因变量空间分布的时间间隔为PrePeriod，且PrePeriod≥Period；

如果PrePeriod＝Period，进入步骤1-4；

如果PrePeriod＞Period，计算各时间点因变量的平均值，具体计算方法为：假设因变量的实际监测时间集为{t1,t2,t3,…,ta}，其中相邻监测时间的时间间隔为Period；因变量预测的监测时间集为{pre_t1,pre_t2,pre_t3,…,pre_tb}，相邻预测时间点的时间间隔为PrePeriod，则pre_ti时间点(1≤i≤b)因变量的值为{tc,…,ti,…,tg}时间集对应因变量的均值，其中g-i＝i-c，且tg-tc＝PrePeriod；

步骤1-4：识别并处理数据集AtmoPolData中的无效数据，无效数据指的是因变量数据中的空缺值、孤立点或脏数据；

空缺值特指因变量在某一时间点或某一时间段出现数据丢失的情况，由于仪器故障，PM₁₀在某一天几个小时的监测数据出现了丢失，这种情况下需要根据数据监测周期Period与缺失数据的时长综合决定，如果因变量连续丢失数据的时间MissPeriod≥PrePeriod，则该时间段不需要预测因变量的空间分布；

孤立点指因变量在某一时间点前后同时出现长期的数据缺失，孤立点的监测时长可能小于PrePeriod，这种情况下较为特殊，该孤立点数据较为宝贵，是能够代表该时间段空气质量的数据，因变量取相关时间内的均值即可；

脏数据指仪器监测出现了误差，产生了大量重复的观测数据，需要定期检查数据集，根据经验进行数据剔除；

步骤1-5：对因变量数据进行异常值剔除，异常值的判断标准为不属于以下区间：(mean-3×std,mean+3×std)，mean与std分别代表因变量的平均值与标准差，对于识别出来的异常值使用平均值进行修正；

步骤1-6：使用KS-检验(Kolmogorov-Smirnov test)判断因变量是否符合正态分布，如果检验结果接受零假设，说明因变量符合正态分布，进行步骤2。

3.根据权利要求1所述的一种基于进化集成学习的大气污染物浓度时空预测方法，其特征在于，所述步骤2包括：

步骤2-1：收集整理覆盖研究区的环境变量，作为预测大气污染物浓度的自变量，环境变量特指能够对因变量的时空分布产生显著影响的地理要素，即降雨、气温、风速、高程、土地利用、遥感影像图、基于遥感影像提取的各种植被指数，归一化植被指数、比值植被指数、绿度植被指数、增强型植被指数、差值环境植被指数、垂直植被指数的图层；

环境变量的格式可以为栅格数据或矢量数据，栅格数据的文件格式可以包括TIFF、ESRI Grid、TXT，矢量数据的文件格式为Shapefile格式；

环境变量的数据类型可以为浮点型、整型；

环境变量的时间类型能够为动态类型、静态类型，动态环境变量随着时间的变化也会发生变化；

步骤2-2：启动一种地理信息***软件，将矢量类型与栅格类型的环境变量的文件格式统一转换为TIFF；

步骤2-3：基于地理信息***软件，使用双线性内插法将环境变量转换为统一的空间分辨率RES；

步骤2-4：将环境变量数据图层加载至地理信息***软件，提取AtmoPolData数据集中各监测站点经纬度信息，根据经纬度信息提取各监测站点的环境变量数据；

提取AtmoPolData中的因变量数据，将因变量与提取后的环境变量数据构成新的预测数据集：PreData＝(YDepVari,X1,X2,…,Xnh,Long,Lati)，其中YDepVari为因变量数据，X1,X2,…,Xnh为第1、2、…、nh个环境变量数据，Long与Lati为经纬度信息；

步骤2-5：识别并建立最优环境变量集，具体方法为：

否则，从PreData中删除自变量Xm；

步骤2-5-2：使用逐步线性回归方法筛选因变量的最优环境变量集，其他可供选择的筛选方法为递归特征消除算法；

步骤2-5-3：更新预测数据集：PreData＝(YDepVari,X1,X2,…,Xnf,Long,Lati)，该数据集包含了nf种环境变量。

4.根据权利要求1所述的一种基于进化集成学习的大气污染物浓度时空预测方法，其特征在于，所述步骤6包括：

步骤6-1：根据步骤2-5中的自变量与环境变量数据PreData、Tx时间点的集成学习模型EnModelx，预测生成时间点Tx因变量，该分布图的文件格式为TIFF，空间分辨率为RES；

步骤6-2：随机选择PreData中因变量数据的80％，构建临时数据集TempPreData；

步骤6-3：基于TempPreData，执行步骤6-1，输出临时因变量空间分布图；

步骤6-4：重复步骤6-2-步骤6-3共1000次，输出1000个临时因变量空间分布图，计算该1000个图层中每个栅格的标准差，并输出一个与因变量空间分布图数据格式与分辨率相同的不确定性分析图；

5.根据权利要求1所述的一种基于进化集成学习的大气污染物浓度时空预测方法，其特征在于，所述方法针对某一时间点大气污染物浓度的监测数据，使用与大气污染物浓度相关性较高的环境变量，分别训练并评价多种机器学习、线性回归模型，构建预测精度最高的集成学习模型，在其余时间点的大气污染物浓度空间预测方面，研发进化集成学习模型，根据大气污染物浓度的空间分异特征，动态优化集成学习模型相关参数，自适应地更新预测模型，以提升大气污染物浓度的空间预测精度。