CN115453064B - 一种细颗粒物空气污染成因分析方法及*** - Google Patents

一种细颗粒物空气污染成因分析方法及*** Download PDF

Info

Publication number
CN115453064B
CN115453064B CN202211157306.9A CN202211157306A CN115453064B CN 115453064 B CN115453064 B CN 115453064B CN 202211157306 A CN202211157306 A CN 202211157306A CN 115453064 B CN115453064 B CN 115453064B
Authority
CN
China
Prior art keywords
data
concentration
model
fine particles
characteristic variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211157306.9A
Other languages
English (en)
Other versions
CN115453064A (zh
Inventor
汪先锋
张庆竹
王国强
贾曼
李田帅
李磊
牟江山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202211157306.9A priority Critical patent/CN115453064B/zh
Publication of CN115453064A publication Critical patent/CN115453064A/zh
Application granted granted Critical
Publication of CN115453064B publication Critical patent/CN115453064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • G01N33/0009General constructional details of gas analysers, e.g. portable test equipment
    • G01N33/0062General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/20Air quality improvement or preservation, e.g. vehicle emission control or emission reduction by using catalytic converters

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Combustion & Propulsion (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Sampling And Sample Adjustment (AREA)

Abstract

本发明属于空气污染成因分析技术领域,涉及一种细颗粒物空气污染成因分析方法及***,对获取到的样点监测数据进行数据预处理,所述监测数据包括细颗粒物浓度和特征变量数据;利用训练好的机器学习模型对预处理好的数据进行处理,得到特征变量和细颗粒物浓度之间的数据关系;初步定性评估各特征变量对细颗粒物浓度的影响;对各特征变量进行部份依赖分析,确定特征变量对细颗粒物浓度的控制区间;提取细颗粒物浓度超过设定值的数据样本,并分成多个污染阶段,利用所述机器学习模型对所述数据样本进行处理,定量计算各污染阶段每个特征变量的具体贡献值;本发明可以实现对污染成因分析,有助于配置相应的治理方案。

Description

一种细颗粒物空气污染成因分析方法及***
技术领域
本发明属于空气污染成因分析技术领域,涉及一种细颗粒物空气污染成因分析方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
长期暴露在空气污染的环境中会引发心血管、呼吸***等疾病。为此,各个国家都非常重视治理大气污染问题。细颗粒物指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物,又称为PM2.5,是环境污染重要的衡量指标,精确分析、量化影响PM2.5形成的驱动因素的贡献,以此来精准防治空气污染是十分必要和有意义的。
据发明人了解,以戈达德地球观测***化学传输模型(GEOS-Chem)、天气研究与预报和社区多尺度空气质量模式(WRF-CMAQ)等为代表的传统化学输运模型常被用来研究空气污染。戈达德地球观测***化学传输模型可以用来分析PM2.5成分空间变化的来源和过程,而天气研究与预报和社区多尺度空气质量模式可以计算气象条件、人为排放和异质化学对PM2.5的影响。但是由于排放清单、物理和化学参数的不确定性使得传统化学运输模型偏差较大。
发明内容
本发明为了解决上述问题,提出了一种细颗粒物空气污染成因分析方法及***,本发明以机器学习算法为框架,打破机器学习模型“黑箱”的性质,利用排列重要性算法、部份依赖算法、沙普利加性解释算法等多种算法解释空气污染背后各种驱动因素的贡献,实现对污染成因分析,有助于配置相应的治理方案。
根据一些实施例,本发明采用如下技术方案:
一种细颗粒物空气污染成因分析方法,包括以下步骤:
对获取到的样点监测数据进行数据预处理,所述监测数据包括细颗粒物浓度和特征变量数据;
利用训练好的机器学习模型对预处理好的数据进行处理,得到特征变量和细颗粒物浓度之间的数据关系;
初步定性评估各特征变量对细颗粒物浓度的影响;
对各特征变量进行部份依赖分析,确定特征变量对细颗粒物浓度的控制区间;
提取细颗粒物浓度超过设定值的数据样本,并分成多个污染阶段,利用所述机器学习模型对所述数据样本进行处理,定量计算各污染阶段每个特征变量的具体贡献值。
作为可选择的实施方式,所述监测数据包括气态污染物数据、气象数据、离子数据、元素数据和碳数据。
作为可选择的实施方式,所述机器学习模型为随机森林模型,训练过程包括将预处理后的数据随机分取一部分作为随机森林模型的训练集,另一部分用作模型的测试集,选用画学习曲线的模型调参方法对随机森林模型最为重要的n_estimators和max_depth两个参数进行调参,通过学习曲线逐步确定模型性能最佳时对应的决策树的数量和决策树的深度。
作为可选择的实施方式,还包括对训练后的机器学***均绝对误差、均方根误差来评价随机森林模型测试集的结果精度。
作为可选择的实施方式,初步定性评估各特征变量对细颗粒物浓度的影响的具体过程为:机器学习模型依据排列重要性算法将每个特征对应的数据打乱,然后依据打乱后的模型进行训练预测;重复上述步骤多次,若在打乱数据集后,特征权重下降,且下降越多则代表该特征越重要,若基本不变则表示该特征对细颗粒物浓度基本没有影响。
作为可选择的实施方式,对各特征变量进行部份依赖分析,确定特征变量对细颗粒物浓度的控制区间的具体过程包括通过将指定因子的变化值分别控制在设定范围内,并将模型预测的污染物浓度的相应变化取平均值,确定若干个特征对预测结果的响应或协同响应关系,以此来评估特征变量对结果的敏感性。
作为可选择的实施方式,定量计算各污染阶段每个特征变量的具体贡献值的具体过程为使用沙普利加性解释算法计算每个特征在每个数据样本中对细颗粒物浓度的具体贡献值。
作为进一步的,将其他特征变量组成的特征矩阵放入机器学***均绝对值排名,筛选出对细颗粒物浓度贡献大的前N个特征变量,并绘制出每一个空气污染阶段每一条数据样本中每个特征具体贡献值的时间序列,以此来判断每个特征在每个时间节点对细颗粒物浓度的贡献。
N为正整数。
一种细颗粒物空气污染成因分析***,包括:
预处理模块,被配置为对获取到的样点监测数据进行数据预处理,所述监测数据包括细颗粒物浓度和特征变量数据;
模型处理模块,被配置为利用训练好的机器学习模型对预处理好的数据进行处理,得到特征变量和细颗粒物浓度之间的数据关系;
初步定性分析模块,被配置为初步定性评估各特征变量对细颗粒物浓度的影响;
偏依赖分析模块,被配置为对各特征变量进行部份依赖分析,确定特征变量对细颗粒物浓度的控制区间;
定量分析模块,被配置为提取细颗粒物浓度超过设定值的数据样本,并分成多个污染阶段,利用所述机器学习模型对所述数据样本进行处理,定量计算各污染阶段每个特征变量的具体贡献值。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明基于大气超级监测站数据,利用机器学习方法对影响空气污染的多种数据因素进行深度挖掘,构建了特征变量与PM2.5浓度线性或非线性关系,并在此基础上对模型结果充分地进行可解释性分析。
本发明可以通过定性分析初步判断特征因子对空气污染的影响,还可以计算出两个特征对PM2.5的协同控制作用,以便区分出每个特征对PM2.5浓度的控制区间,从而实现对污染物的精准治理。
本发明还可以定量计算出特征因子对污染的具体贡献,为决策管理部门提供了一套较为详尽的以数据驱动为框架的空气污染成因分析思路。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明的流程示意图。
图2为本发明定量分析流程示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
一种细颗粒物空气污染成因分析方法,如图1所示,包括以下步骤:
步骤1,对获取到的样点(淄博)秋冬季在线监测数据进行数据处理;
步骤2,对处理好的数据集进行时间序列分析;
步骤3,将数据集划分为训练集和测试集,并区分出特征和标签,利用训练集放入到随机森林模型中训练调参,利用测试集测试训练后的模型是否满足要求;
步骤4,评价模型精度,确定模型精度符合要求;
步骤5,对满足要求的模型得到的结果进行排列重要性、部份依赖和沙普利加性解释。
具体的,在本实施例中,步骤1中在线监测数据包括:气态污染物数据:PM2.5,SO2,NO2,CO,O3;气象数据:温度、相对湿度、大气压、风速、风向;碳数据:OC、EC;离子数据:Cl-、K+、Mg2+、Ca2+、/>F-、Na+;元素数据:Al、Si、K、Ca、V、Cr、Mn、Fe、Co、Ni、Cu、Zn。
数据时间分辨率均为1小时。
当然,在其他实施例中,也可以根据具体环境和需求,采用离线数据,或改变数据种类,在此不再赘述。
在部分实施例中,步骤2中将气态污染物数据和气象数据以半个月为时间间隔陈列在图中,将离子数据、碳数据和元素数据以月平均浓度形式陈列在表格中形成横向对比。时间序列的分析可以展示出秋季和冬季的空气质量对比。
通过横向对比,可以更合适的确定之后分析要研究的PM2.5浓度阈值。当然,在部分实施例中,步骤2也可以省略。
在部分实施例中,步骤3中,随机分取70%数据量作为随机森林模型的训练集,30%数据量用作模型的测试集。选用画学习曲线的模型调参方法对随机森林模型最为重要的n_estimators和max_depth两个参数进行调参。通过学习曲线逐步确定模型性能最佳时对应的决策树的数量和决策树的深度。
在部分实施例中,步骤3中,模型调参完毕后,将一小时内的气态污染物数据、气象数据、碳数据、离子数据和元素数据包含的所有变量当作特征,PM2.5浓度当作标签,以此使用随机森林模型来分析当前小时内所有特征变量和PM2.5之间的数据关系。
利用测试集测试训练后的模型是否符合要求。
如果符合要求了,进入步骤4。
在部分实施例中,步骤4中,采用决定系数(R2)、平均绝对误差(MAE)、均方根误差(RMSE)来评价随机森林模型测试集的结果精度。计算公式分别如下:
式中,N代表数据样本的总数,i代表第i个数据样本,yi是第i个数据样本的PM2.5观测浓度,代表第i个数据样本PM2.5的预测浓度,/>代表PM2.5观测浓度的平均值。
随机森林模型测试集的结果精度符合要求,进入步骤5。
在部分实施例中,步骤5中,排列重要性是评价特征变量对模型预测结果影响程度的较为科学的评估算法。计算公式如下:
式中,表示将特征j重新排列,重复k次后构建的打乱的数据集,ij是特征j的权重,j代表各个特征,k为迭代次数,s为随机森林模型在测试数据集D上的性能得分,/>代表模型在数据集/>上的性能得分。
在部分实施例中,步骤5中,偏依赖算法(PDP)可以实现变量敏感分析。它通过将指定因子的变化值分别控制在设定范围内,并将模型预测的污染物浓度的相应变化取平均值。偏依赖算法可以实现一个特征或两个特征对预测结果的响应或协同响应关系,以此来评估特征变量对结果的敏感性。算法公式如下:
式中,XS代表要研究的一个或两个特征的集合,XC是其他特征的集合,代表随机森林模型。
在部分实施例中,步骤5中,如图2所示,沙普利加性解释算法通过考虑每个参与者(即每个特征变量)所做的贡献(对PM2.5浓度的影响)来公平分配合作的收益(各特征对结果影响程度的边际效应的平均值)。计算公式如下:
式中,xi代表具有N个特征的每个样本,f(xi)代表具有N个特征的每个样本对应的预测值(即PM2.5预测值),φ0(f,x)表示随机森林模型输出在数据集上的期望值(基值),φj(f,xi)是特征j对样本xi预测结果影响的Shapley值。
φj(f,xi)代表每个样本中每个特征的Shapley值,它是变量子集的所有可能组合的加权平均值。具体算法如下:
式中,φj(f,x)代表特征j的Shapley值,S是特征的子集,x1,x2…xn代表各个特征,|S|是子集S中的非零项,fx(S)代表子集S的预测值。
需要注意的是,上述数值均可以根据具体的预测要求来确定,在不同实施例中,可以根据需求调整,并不仅限于上述示例性的数值范围。
同样的,监测数据在不同的实施例中,也可以增多或减少,并不限定于上述实施例给出的范围,一定包含细颗粒物浓度和待研究的特征变量数据即可。
作为典型实施例:
步骤1,获取淄博超级监测站2021年9月至12月在线测量数据,包括气态污染物数据:PM2.5、SO2、NO2、CO、O3,时间分辨率1h;气象数据:温度、相对湿度、大气压、风速、风向,时间分辨率1h;碳数据:OC、EC,时间分辨率1h;离子数据:Cl-、K+、Mg2+、Ca2 +、/>F-、Na+,时间分辨率1h;元素数据:Al、Si、K、Ca、V、Cr、Mn、Fe、Co、Ni、Cu、Zn,时间分辨率1h。
步骤2,数据预处理。具体步骤如下:突变异常值直接删除,除风向缺失数据采用出现频率高的数值填补外,其余缺失数据采用对应的平均值填补。
步骤3,绘制时间序列图。将气态污染物数据和气象数据时间序列绘制在一张图中,为了更好地对比不同物种之间变化趋势,将CO和SO2一组,O3和NO2一组,温度和相对湿度一组,PM2.5和风向各单独一组;由于碳数据、离子数据和元素数据物种较多,故取月度平均值呈现在表格中。经过观察时间序列图和物种月度平均值,发现冬季12月份各物种指标达到峰值,为空气污染严重时期。
步骤4,依据空气质量指数,将PM2.5浓度分级以便区分清洁阶段和污染阶段。具体如下,PM2.5<75μg/m3视为清洁,75≤PM2.5≤250μg/m3视为污染,PM2.5>250μg/m3视为严重污染。
步骤5,初步分析各物种的平均浓度,其中二次无机气溶胶 和/>占PM2.5总质量浓度的58%,占比最高。根据空气质量指数分级,对比各物种在清洁,污染和严重污染阶段的数据情况。
步骤6,训练基于机器学习的PM2.5浓度与多种特征变量之间响应关系的模型,具体步骤如下:
6.1将处理好的数据集按照7:3随机划分训练集和测试集,训练集用来随机森林模型训练,测试集用来检验模型准确度。具体为通过学习曲线决定模型性能良好时对应的参数。其中决策树数量为601,最大树深为20,在调参过程中参考模型决定系数的变化,不断地调整参数优化模型从而得到最终的最优模型,并将模型保存。
6.2依据决定系数(R2)、平均绝对误差(MAE)、均方根误差(RMSE)来评价随机森林模型精度。发现模型表现良好,决定系数R2为0.93,平均绝对误差MAE为5.42,均方根误差RMSE为9.16。
步骤7,采用排列用重要性算法对各特征变量对PM2.5浓度的影响进行初步定性评估,具体步骤如下:
7.1随机森林模型依据排列重要性算法公式将每个特征对应的数据打乱,然后依据打乱后的模型进行训练预测。
7.2重复上述步骤k次,若在打乱数据集后,特征权重下降,且下降越多则代表该特征越重要,若基本不变则表示该特征对PM2.5没有影响。其中,权重占比最大,下降之前为0.64,下降后为0.28,表明/>对PM2.5影响最大。
步骤8,对二次无机气溶胶和/>进行部份依赖分析。按照的顺序将二次无机气溶胶分为三组,依次讨论每个组合对PM2.5的协同控制作用,以/>浓度为参照物来确定三种离子对PM2.5浓度的控制区间。
步骤9,基于随机森林模型,使用沙普利加性解释算法(SHAP)公式计算每个特征在每个数据样本中对PM2.5的具体贡献值。具体步骤如下:
9.1提取PM2.5>75μg/m3的数据样本,根据数据样本的时间间隔将其分为10个污染阶段。时间间隔最多不超过7天,如10月1日20:00发生空气污染(PM2.5>75μg/m3),10月4日12:00发生空气污染,10月12日14:00发生空气污染,则将前两条数据样本归为同一个空气污染阶段,后一条数据样本归为另外一个空气污染阶段,以此类推。
9.2引入训练好的随机森林模型,引入空气污染数据样本。将PM2.5设为标签,将其他特征变量组成的特征矩阵放入随机森林模型计算每个特征在每个数据样本中对PM2.5的具体贡献值。
9.3按照上述步骤,计算8次空气污染阶段每个特征在每个数据样本中对PM2.5的具体贡献Shapley值。
9.4将所有Shapley值导出,每个空气污染阶段按照Shapley值的平均绝对值排名,筛选出对PM2.5贡献大的前5个特征变量,并绘制出每一个空气污染阶段每一条数据样本中每个特征Shapley值的时间序列,以此来判断每个特征在每个时间节点对PM2.5的贡献,为决策管理部门提供以小时为单位的数据信息,从而更加精准地治理空气污染。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (3)

1.一种细颗粒物空气污染成因分析方法,其特征是,包括以下步骤:
对获取到的样点监测数据进行数据预处理,所述监测数据包括细颗粒物浓度和特征变量数据;所述监测数据包括气态污染物数据、气象数据、离子数据、元素数据和碳数据;将气态污染物数据和气象数据以半个月为时间间隔陈列在图中,将离子数据、碳数据和元素数据以月平均浓度形式陈列在表格中形成横向对比,时间序列的分析可以展示出秋季和冬季的空气质量对比,通过横向对比可以确定之后分析要研究的PM2.5浓度阈值;
利用训练好的机器学习模型对预处理好的数据进行处理,得到特征变量和细颗粒物浓度之间的数据关系;评价模型精度,确定模型精度符合要求;对满足要求的模型得到的结果进行初步定性评估;
初步定性评估各特征变量对细颗粒物浓度的影响;
对各特征变量进行部份依赖分析,确定特征变量对细颗粒物浓度的控制区间;
提取细颗粒物浓度超过设定值的数据样本,并分成多个污染阶段,利用所述机器学习模型对所述数据样本进行处理,定量计算各污染阶段每个特征变量的具体贡献值;
所述机器学习模型训练过程中利用训练集放入到随机森林模型中训练调参,利用测试集测试训练后的模型是否满足要求,评价模型精度,确定模型精度符合要求;具体为:
所述机器学习模型为随机森林模型,训练过程包括将预处理后的数据随机分取一部分作为随机森林模型的训练集,另一部分用作模型的测试集,选用画学习曲线的模型调参方法对随机森林模型最为重要的n_estimatorsmax_depth两个参数进行调参,通过学习曲线逐步确定模型性能最佳时对应的决策树的数量和决策树的深度;
利用测试集测试训练后的模型是否符合要求,符合要求后采用决定系数、平均绝对误差、均方根误差来评价随机森林模型测试集的结果精度;计算公式分别如下:
式中,N代表数据样本的总数, 代表第/>个数据样本,/>是第/>个数据样本的PM 2.5观测浓度,/>代表第/>个数据样本PM 2.5的预测浓度,/> 代表PM 2.5观测浓度的平均值;
初步定性评估各特征变量对细颗粒物浓度的影响的具体过程为:机器学习模型依据排列重要性算法将每个特征对应的数据打乱,然后依据打乱后的模型进行训练预测;重复上述步骤多次,若在打乱数据集后,特征权重下降,且下降越多则代表该特征越重要,若基本不变则表示该特征对细颗粒物浓度基本没有影响;
排列重要性计算公式如下:
式中,表示将特征j重新排列,重复k次后构建的打乱的数据集,/>是特征j的权重,j代表各个特征,k为迭代次数,s为随机森林模型在测试数据集D上的性能得分,/>代表模型在数据集/>上的性能得分;
对各特征变量进行部份依赖分析,确定特征变量对细颗粒物浓度的控制区间的具体过程包括通过将指定因子的变化值分别控制在设定范围内,并将模型预测的污染物浓度的相应变化取平均值,确定若干个特征对预测结果的响应或协同响应关系,以此来评估特征变量对结果的敏感性;
对各特征变量进行部份依赖分析具体过程为:
算法公式如下:
式中, 代表要研究的一个或两个特征的集合,/> 是其他特征的集合,/> 代表随机森林模型;
定量计算各污染阶段每个特征变量的具体贡献值的具体过程为使用沙普利加性解释算法计算每个特征在每个数据样本中对细颗粒物浓度的具体贡献值;
计算公式如下:
式中, 代表具有N个特征的每个样本,/> 代表具有N个特征的每个样本对应的预测值,/> 表示随机森林模型输出在数据集上的期望值,/>是特征 /> 对样本/>预测结果影响的Shapley值;
代表每个样本中每个特征的Shapley值,是变量子集的所有可能组合的加权平均值;具体算法如下:
式中,代表特征/>Shapley值,S是特征的子集,/>代表各个特征,/>是子集S中的非零项,/>代表子集S的预测值;
将其他特征变量组成的特征矩阵放入机器学***均绝对值排名,筛选出对细颗粒物浓度贡献大的前N个特征变量,并绘制出每一个空气污染阶段每一条数据样本中每个特征具体贡献值的时间序列,以此来判断每个特征在每个时间节点对细颗粒物浓度的贡献。
2.采用如权利要求1所述的一种细颗粒物空气污染成因分析方法的一种细颗粒物空气污染成因分析***,其特征是,包括:
预处理模块,被配置为对获取到的样点监测数据进行数据预处理,所述监测数据包括细颗粒物浓度和特征变量数据;
模型处理模块,被配置为利用训练好的机器学习模型对预处理好的数据进行处理,得到特征变量和细颗粒物浓度之间的数据关系;评价模型精度,确定模型精度符合要求;对满足要求的模型得到的结果进行初步定性评估;
初步定性分析模块,被配置为初步定性评估各特征变量对细颗粒物浓度的影响;
偏依赖分析模块,被配置为对各特征变量进行部份依赖分析,确定特征变量对细颗粒物浓度的控制区间;
定量分析模块,被配置为提取细颗粒物浓度超过设定值的数据样本,并分成多个污染阶段,利用所述机器学习模型对所述数据样本进行处理,定量计算各污染阶段每个特征变量的具体贡献值。
3.一种终端设备,其特征是,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1中所述的方法中的步骤。
CN202211157306.9A 2022-09-22 2022-09-22 一种细颗粒物空气污染成因分析方法及*** Active CN115453064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211157306.9A CN115453064B (zh) 2022-09-22 2022-09-22 一种细颗粒物空气污染成因分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211157306.9A CN115453064B (zh) 2022-09-22 2022-09-22 一种细颗粒物空气污染成因分析方法及***

Publications (2)

Publication Number Publication Date
CN115453064A CN115453064A (zh) 2022-12-09
CN115453064B true CN115453064B (zh) 2023-09-05

Family

ID=84306945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211157306.9A Active CN115453064B (zh) 2022-09-22 2022-09-22 一种细颗粒物空气污染成因分析方法及***

Country Status (1)

Country Link
CN (1) CN115453064B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578948A (zh) * 2023-07-12 2023-08-11 宁德时代新能源科技股份有限公司 数据相关性识别方法、装置、电子设备及介质
CN117314023B (zh) * 2023-11-29 2024-02-20 智瑞碳(天津)科技有限公司 一种大气污染数据分析方法、***及计算机存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239613A (zh) * 2017-06-05 2017-10-10 南开大学 一种基于在线数据和因子分析模型的智能源类识别方法
CN110379463A (zh) * 2019-06-05 2019-10-25 山东大学 基于机器学习的海洋藻类成因分析及浓度预测方法和***
CN110378520A (zh) * 2019-06-26 2019-10-25 浙江传媒学院 一种pm2.5浓度预测和预警方法
CN110610279A (zh) * 2019-09-27 2019-12-24 复旦大学 一种大气细颗粒物污染源识别方法及其应用
CN111611296A (zh) * 2020-05-20 2020-09-01 中科三清科技有限公司 Pm2.5污染成因分析方法、装置、电子设备及存储介质
WO2021051609A1 (zh) * 2019-09-20 2021-03-25 平安科技(深圳)有限公司 细颗粒物污染等级的预测方法、装置及计算机设备
CN112613675A (zh) * 2020-12-29 2021-04-06 南开大学 一种分析污染源与气象因素对不同程度pm2.5污染影响贡献和效应的机器学习模型
CN112687350A (zh) * 2020-12-25 2021-04-20 中科三清科技有限公司 空气细颗粒物的来源解析方法、电子设备及存储介质
CN113987912A (zh) * 2021-09-18 2022-01-28 陇东学院 一种基于地理信息的污染物在线监测***
CN114611399A (zh) * 2022-03-17 2022-06-10 北京工业大学 一种基于NGBoost算法的PM2.5浓度长时间序列预测方法
CN114936957A (zh) * 2022-05-23 2022-08-23 福州大学 基于移动监测数据的城市pm25浓度分布模拟及场景解析模型

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388860B (zh) * 2018-02-12 2020-04-28 大连理工大学 一种基于功率熵谱-随机森林的航空发动机滚动轴承故障诊断方法
US20210396729A1 (en) * 2020-06-23 2021-12-23 Dataa Development Co., Ltd. Small area real-time air pollution assessment system and method

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239613A (zh) * 2017-06-05 2017-10-10 南开大学 一种基于在线数据和因子分析模型的智能源类识别方法
CN110379463A (zh) * 2019-06-05 2019-10-25 山东大学 基于机器学习的海洋藻类成因分析及浓度预测方法和***
CN110378520A (zh) * 2019-06-26 2019-10-25 浙江传媒学院 一种pm2.5浓度预测和预警方法
WO2021051609A1 (zh) * 2019-09-20 2021-03-25 平安科技(深圳)有限公司 细颗粒物污染等级的预测方法、装置及计算机设备
CN110610279A (zh) * 2019-09-27 2019-12-24 复旦大学 一种大气细颗粒物污染源识别方法及其应用
CN111611296A (zh) * 2020-05-20 2020-09-01 中科三清科技有限公司 Pm2.5污染成因分析方法、装置、电子设备及存储介质
CN112687350A (zh) * 2020-12-25 2021-04-20 中科三清科技有限公司 空气细颗粒物的来源解析方法、电子设备及存储介质
CN112613675A (zh) * 2020-12-29 2021-04-06 南开大学 一种分析污染源与气象因素对不同程度pm2.5污染影响贡献和效应的机器学习模型
CN113987912A (zh) * 2021-09-18 2022-01-28 陇东学院 一种基于地理信息的污染物在线监测***
CN114611399A (zh) * 2022-03-17 2022-06-10 北京工业大学 一种基于NGBoost算法的PM2.5浓度长时间序列预测方法
CN114936957A (zh) * 2022-05-23 2022-08-23 福州大学 基于移动监测数据的城市pm25浓度分布模拟及场景解析模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多机器学习模型下逐小时PM_(2.5)预测及对比分析;康俊锋;黄烈星;张春艳;曾昭亮;姚申君;;中国环境科学(第05期);第1895-1901页 *

Also Published As

Publication number Publication date
CN115453064A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN115453064B (zh) 一种细颗粒物空气污染成因分析方法及***
CN113919448B (zh) 一种任意时空位置二氧化碳浓度预测影响因素分析方法
CN108595414B (zh) 基于源汇空间变量推理的土壤重金属企业污染源识别方法
CN109633094B (zh) 一种臭气浓度在线监测方法
CN112613675A (zh) 一种分析污染源与气象因素对不同程度pm2.5污染影响贡献和效应的机器学习模型
Chen et al. Proactive quality control: Observing system simulation experiments with the Lorenz’96 model
CN115526298A (zh) 一种高鲁棒性的大气污染物浓度综合预测方法
CN116340723A (zh) 基于大数据的乡村水污染快速溯源方法及***
Nair et al. Using machine learning to derive cloud condensation nuclei number concentrations from commonly available measurements
CN116187861A (zh) 基于同位素的水质溯源监测方法及相关装置
Fletcher et al. Quantifying uncertainty from aerosol and atmospheric parameters and their impact on climate sensitivity
CN115629159A (zh) 一种基于多源数据的臭氧及前体物溯源方法及装置
CN115034303A (zh) 一种食品有害物质定向检测方法及***
CN113340943B (zh) 基于指纹图谱的水体中嗅味类型和嗅味强度的分析方法
CN117332358B (zh) 一种玉米浸泡水处理方法及***
CN114662405A (zh) 基于少样本度量和集成学习的岩爆预测方法
CN113435068A (zh) 一种基于对数变分同化的放射性核素同化预报方法
CN112986497B (zh) 基于气体传感器阵列指纹识别的污染气体溯源方法
CN112949680A (zh) 一种基于对应分析和多元线性回归的污染源识别方法
CN117541095A (zh) 一种农用地土壤环境质量类别划分的方法
CN115983329A (zh) 空气质量及气象条件的预测方法、装置、设备及存储介质
CN115436342A (zh) 降低多批次样本间libs检测不确定性的方法及装置
CN114117893A (zh) 一种解析大气降尘污染来源及其评估污染源对降尘边际效应的方法
CN113361209A (zh) 一种高温合金表面缺陷磁异常定量分析方法
CN117538492B (zh) 建筑空间中污染物的在线检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant