CN113919448B - 一种任意时空位置二氧化碳浓度预测影响因素分析方法 - Google Patents

一种任意时空位置二氧化碳浓度预测影响因素分析方法 Download PDF

Info

Publication number
CN113919448B
CN113919448B CN202111524281.7A CN202111524281A CN113919448B CN 113919448 B CN113919448 B CN 113919448B CN 202111524281 A CN202111524281 A CN 202111524281A CN 113919448 B CN113919448 B CN 113919448B
Authority
CN
China
Prior art keywords
carbon dioxide
model
data
factors
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111524281.7A
Other languages
English (en)
Other versions
CN113919448A (zh
Inventor
巫兆聪
莫露
闫钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202111524281.7A priority Critical patent/CN113919448B/zh
Publication of CN113919448A publication Critical patent/CN113919448A/zh
Application granted granted Critical
Publication of CN113919448B publication Critical patent/CN113919448B/zh
Priority to US17/882,649 priority patent/US20230186173A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • G01N33/0009General constructional details of gas analysers, e.g. portable test equipment
    • G01N33/0027General constructional details of gas analysers, e.g. portable test equipment concerning the detector
    • G01N33/0036General constructional details of gas analysers, e.g. portable test equipment concerning the detector specially adapted to detect a particular component
    • G01N33/0039O3
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • G01N33/0009General constructional details of gas analysers, e.g. portable test equipment
    • G01N33/0027General constructional details of gas analysers, e.g. portable test equipment concerning the detector
    • G01N33/0036General constructional details of gas analysers, e.g. portable test equipment concerning the detector specially adapted to detect a particular component
    • G01N33/004CO or CO2
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Combustion & Propulsion (AREA)
  • Immunology (AREA)
  • Food Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种任意时空位置二氧化碳浓度预测影响因素分析方法,首先利用稀疏、不均匀的卫星二氧化碳柱浓度观测数据和对应的环境因素,包括地表覆盖因素、气候气象因素与燃烧排放因素,结合XGBoost算法构建模拟区域二氧化碳时空分布的模型,提取出二氧化碳时间、空间分布趋势变量;然后利用上述构建的区域二氧化碳时空分布模型,结合全局敏感性分析算法,实现环境因素敏感性的定量评价,根据敏感性分析的结果,量化确定影响区域二氧化碳时空分布的各种环境因素影响程度与大小。与传统方法相比,本发明方法能够以较高精度模拟区域二氧化碳浓度分布,并且实现环境变量重要性程度的定量评价。

Description

一种任意时空位置二氧化碳浓度预测影响因素分析方法
技术领域
本发明涉及遥感温室气体监测领域,尤其涉及一种基于机器学习的大气二氧化碳时空分布模拟及影响因素全局敏感性分析方法。
背景技术
二氧化碳作为最主要的温室气体和全球变暖最大的贡献者,准确地了解二氧化碳浓度的时空分布及其变化趋势,对于认识并缓解温室效应至关重要。卫星观测能够较为准确地以一定的时空分辨率和相对长时序观测提供地面二氧化碳信息,但受云和气溶胶等影响,实际应用中卫星观测数据存在空缺,精确的区域二氧化碳时空分布分析存在困难。常用的获取区域任意位置二氧化碳浓度的方法以内插为主,包括空间域上的内插和根据二氧化碳时序规律建立物理模型进行插值,其中空间域内插方法插值精度较低,而物理模型插值方法生成的模型十分复杂,计算效率低。随着机器学习算法的不断发展,为了弥补XCO2数据的时空空缺而将各种神经网络和机器学习模型应用于区域CO2模拟建模的相关研究也开始发展,可以高效的生成高精度大范围二氧化碳时空分布图。但是现有的基于机器学习的方法通常只考虑环境因素或人为排放因素某一方面进行建模,而二氧化碳浓度是受两者共同影响的,目前仍缺少相关的方法。
此外区域二氧化碳分布受自然环境和人为排放等多种因素的影响。影响因素复杂且过程复杂,相关研究也较多。但多为环境因素与二氧化碳浓度的定性分析或相关性分析,针对多因素影响程度的定量评价方法也较少,无法实现不同环境因素对大气二氧化碳浓度的贡献和影响的量化分析。
发明内容
本发明的主要目的是提出一种基于机器学习的大气二氧化碳时空分布模拟及影响因素全局敏感性分析方法,对卫星观测二氧化碳数据空缺的区域实现模拟,获取整个区域二氧化碳时空分布模式,并通过对模型的全局敏感性分析,量化影响区域二氧化碳分布的环境因素的重要性程度。
为了实现上述发明目的,本发明采用的技术方案为一种任意时空位置二氧化碳浓度预测影响因素分析方法,首先提出了一种大气二氧化碳时空分布模拟方法,该模拟方法基于机器学习算法,结合卫星观测二氧化碳数据与对应的环境因素,构建模拟区域任意位置二氧化碳浓度分布的模拟模型;接着通过全局敏感性分析方法,实现定量的多影响因素对区域二氧化碳分布的重要性评价,具体包括以下步骤:
步骤1,结合区域环境特点,将影响区域二氧化碳分布的环境因素分类,包括但不仅限于地表和植被覆盖因素、气候气象因素和燃烧排放因素;
步骤2,结合卫星二氧化碳观测数据与环境因素,使用机器学习算法构建区域二氧化碳时空分布模拟模型,并利用训练数据集进行训练;
步骤3,针对构建的二氧化碳时空分布模拟模型,首先使用测试数据集验证模型预测精度,然后将卫星观测缺失处的环境因素数据输入训练好的二氧化碳时空分布模拟模型得到预测的二氧化碳浓度,最终获得区域二氧化碳浓度分布图;
步骤4,结合构建的区域二氧化碳时空分布模拟模型与全局敏感性分析方法,计算二氧化碳浓度对各个输入参数,即环境因素的敏感度;
步骤5,统计全局敏感性分析方法得到的区域二氧化碳浓度对不同环境因素的敏感度,定量分析分析各参数的敏感性大小,最终确定各个环境因素随区域二氧化碳分布的影响程度。
进一步的,步骤1中环境因素分类具体包括区域的地表覆盖类型、植被覆盖、气候类型、降水、气温、风速风向、人为排放量和生物质燃烧排放量;
其中植被覆盖使用归一化植被指数数据来表示,该数据可以从MODIS卫星的L3植被指数产品获得;人为排放统计来自高分辨率全球人为排放数据集ODIAC;生物质燃烧数据来自全球火灾排放数据库GFED4;气温和降水数据来自国家青藏高原科学数据中心提供的中国1km分辨率逐月平均气温数据集;地表覆盖数据来自欧空局发布的逐年全球土地覆盖数据集,气候类型数据来自柯本气候分区数据集,风速风向来自ERA5数据集。
进一步的,步骤2中使用的机器学习算法为极端梯度提升树XGBoost,XGBoost是一种基于梯度提升的树集成模型,模型的基本构建思路是:首先构建初始子树对数据进行拟合,相应的得到拟合的残差,后续的子树构建是针对上一步的模型残差进行,直至模型残差小于阈值为止,最终的模拟结果为所有子树结果之和,具体构造步骤为:
初始构造一个弱学习器,得到初始模型对应的残差;
后续的每一次训练迭代,都是在现有模型的基础上,增加一个弱学习器拟合上一个模型的残差;
通过不断地学习拟合K个弱学习器来降低模型预测结果与真实值之间的残差,直到残差小于阈值,模型终止,最终模型预测值是K个基学习器加权求和的结果。
进一步的,步骤2中利用训练数据集进行训练的具体实现方式如下;
首先训练数据集进行预处理,包括数据清洗,数据编码和数据变换,其中数据清洗包括去除缺失值、异常值和噪声,数据变换包括归一化和降维;
数据编码是将非数值型特征进行编码,以便输入模型中进行训练,即对地表覆盖类型、气候类型和风向这些环境因素进行编码,这里使用的是one-hot独热编码;
对数据进行归一化处理,归一化处理的计算公式为:
Figure GDA0003496840590000031
其中,mean(zq)为环境因素zq数据的均值,std(zq)为环境因素zq数据的标准差;
然后将预处理好的训练数据集输入XGBoost模型,并对XGBoost模型进行参数调整和进一步优化,反复迭代,得到最优的二氧化碳时空分布模拟模型。
进一步的,XGBoost模型的基学习器是CART树,针对n个样本m个特征的数据集D=(xi,yi)(|D|=n,xi∈Rm,yi∈R),训练完成后,最终的预测值可表示如下:
Figure GDA0003496840590000032
其中,K为基学习器数量,xi为第i个样本,yi为第i个样本对应的类别标签,fk(·)为第k棵树的模型,将第k棵树拆分为树的叶子节点q和对应的权重部分ω,即:
Figure GDA0003496840590000036
其中,
Figure GDA0003496840590000037
为样本xi所在叶子节点q的权重,q(xi)为样本xi所在叶子节点的位置,也就是说对于任意一个样本xi,最后会落在树的某个叶子节点上,取值为
Figure GDA0003496840590000035
因为每次迭代,模型都是在拟合上一次预测的残差,所以当生成第t个基学习器时,预测模型可表示为:
Figure GDA0003496840590000033
目标函数可表示为:
Figure GDA0003496840590000034
目标函数由2部分构成,其中第一个部分函数l(·,·)是描述真实值与拟合值的差异,使用欧式距离进行计算;第二个部分是防止函数过拟合的正则化部分Ω
Figure GDA0003496840590000041
Figure GDA0003496840590000042
用于限制每棵树的复杂度,防止模型过拟合,其中T是CART数上所有叶子节点的数量,γ和λ是超参数,用来调整正则化计算时叶子节点数量和权重的重要性分配,ωj是第j个叶子节点的权重值;为了使目标函数最小化,XGBoost考虑对目标函数进行二阶泰勒展开,可近似表达为:
Figure GDA0003496840590000043
其中,gi为一阶导数,定义为
Figure GDA0003496840590000044
为二阶导数,
Figure GDA0003496840590000045
代入目标函数,结果为:
Figure GDA0003496840590000046
每次迭代使目标函数最小,得到第t个基学习器最优的j个叶子节点和每个叶子节点对应的最优解ωj
进一步的,步骤4中使用的全局敏感性分析方法是Sobol方法,Sobol法的敏感度是通过将输出的总方差分解为每个参数的方差和参数相互作用的方差之和,然后通过参数对输出方差的贡献比例进行敏感性分级计算的;
对于各个环境因素,统计其变化范围和概率分布,然后结合区域二氧化碳时空分布模拟模型计算相应的敏感性指数;
区域二氧化碳时空分布模拟模型可表达为y=f(x′1,x′2,…,x′p),f是训练好的XGBoost模型,其中,x′1,x′2,…,x′p为影响二氧化碳分布的环境因素,是XGBoost模型的输入参数;XGBoost模型的总方差为:
Figure GDA0003496840590000047
其中,f0为模型初值,而XGBoost模型的偏方差为:
Figure GDA0003496840590000048
其中,1≤π1<…<πs≤p且s=1,2,…,p,各个环境因素的敏感性
Figure GDA0003496840590000049
为:
Figure GDA0003496840590000051
其中,
Figure GDA0003496840590000052
为环境因素
Figure GDA0003496840590000053
的一阶敏感性指数,表示该参数对模型输出的影响,
Figure GDA0003496840590000054
为环境因素
Figure GDA0003496840590000055
的s阶敏感性指数,表示s个参数对模型的共同影响;
进而得到各个环境因素的总敏感性指数,环境因素
Figure GDA0003496840590000056
的总敏感性指数TSπ定义为:
Figure GDA0003496840590000057
使用Sobol法得到的各个环境因素的总敏感性指数评价最终影响区域二氧化碳分布的影响因素敏感性,实现定量的影响程度分析。
与现有技术相比,本发明的优点和有益效果如下:
本发明在反演区域范围二氧化碳分布时,综合考虑与二氧化碳浓度相关的所有地表环境、气候气象和人为燃烧排放因素构建了机器学习模型,实现了更加准确和快速的区域二氧化碳浓度分布预测;并根据建立的机器学习模型,实现了考虑交互效应情况下,定量地评价影响区域CO2增长的各因素的敏感性,能够为碳排放政策制定提供科学指导。
附图说明
图1是本发明实施例的总体方法流程图。
图2是本发明实施例的卫星二氧化碳观测数据和建模反演的区域二氧化碳分布图。
图3是本发明实施例的影响因素敏感性指数扇形图。
具体实施方式
为了更为详细的说明本发明的技术方案和技术优势,下面结合附图,通过具体实施案例对本发明进行更为完整的描述。
如图1所示,本发明提供了一种任意时空位置二氧化碳浓度预测影响因素分析方法,大体上分为两个部分,第一部分是:基于机器学习算法的区域二氧化碳模拟建模,进而对卫星观测二氧化碳数据空缺的区域实现模拟,获取整个区域二氧化碳时空分布模式;第二部分是:根据训练得到的区域二氧化碳时空分布模拟模型,结合全局敏感性分析方法,量化影响区域二氧化碳分布的环境因素的重要性程度。具体实现过程如下:
一、基于机器学习算法的区域二氧化碳模拟建模方法的具体步骤如下:
步骤1,收集影响区域二氧化碳分布的环境因素数据,包括但不限于区域地表覆盖类型、植被覆盖、气候类型、降水、气温、风速和风向、人为排放量统计数据以及生物质燃烧排放等,并与卫星观测二氧化碳数据匹配,获取机器学习模型的训练和验证数据集;
其中植被覆盖使用归一化植被指数数据来表示,该数据可以从MODIS卫星的L3植被指数产品获得;人为排放统计来自高分辨率全球人为排放数据集ODIAC;生物质燃烧数据来自全球火灾排放数据库GFED4;气温和降水数据来自国家青藏高原科学数据中心提供的中国1km分辨率逐月平均气温数据集;地表覆盖数据来自欧空局发布的逐年全球土地覆盖数据集,气候类型数据来自柯本气候分区数据集,风速风向来自ERA5数据集。
步骤2,选择的机器学习算法构建区域二氧化碳分布模拟模型,结合环境因素与卫星二氧化碳的训练数据集,对模型进行训练。
具体的训练实施步骤如下,对训练数据集进行预处理,包括数据清洗(去除缺失值、异常值和噪声等)、数据编码和数据变换(归一化、降维等)等;
针对数据集中的缺失值处理,若缺失值较少,可考虑删除该样本;
数据异常值和噪声的处理,首先通过数据的统计特性或是聚类方法检测噪声,然后使用分箱、聚类、回归、计算机检查和人工检查结合等方法“光滑”数据,去掉数据中的异常值和噪声;
数据编码主要是将非数值型特征进行编码,以便输入模型中进行训练。在本次实验中主要是需要对地表覆盖类型、气候类型和风向等环境因素进行编码,这里使用的是one-hot独热编码;
数据预处理还需要对数据进行归一化处理,归一化处理的计算公式为:
Figure GDA0003496840590000061
其中,mean(zq)为环境因素zq数据的均值,std(zq)为环境因素zq数据的标准差;
另外,步骤2中使用的机器学习算法为极端梯度提升树XGBoost。XGBoost是一种基于梯度提升的树集成模型。模型的基本构建思路是:首先构建初始子树对数据进行拟合,相应的得到拟合的残差,后续的子树构建主要是针对上一步的模型残差进行,直至模型残差小于阈值为止,最终的模拟结果为所有子树结果之和。具体构造步骤为:
初始构造一个弱学习器,得到初始模型对应的残差;
后续的每一次训练迭代,都是在现有模型的基础上,增加一个弱学习器拟合上一个模型的残差;
通过不断地学习拟合K个弱学习器来降低模型预测结果与真实值之间的残差,直到残差小于阈值,模型终止。最终模型预测值是K个基学习器加权求和的结果。
进一步的,XGBoost模型的基学习器一般是CART树。针对n个样本m个特征的数据集D=(xi,yi)(|D|=n,xi∈Rm,yi∈R),训练完成后,最终的预测值可表示如下:
Figure GDA0003496840590000071
其中,K为基学习器数量,xi为第i个样本,yi为第i个样本对应的类别标签,fk(·)为第k棵树的模型,将第k棵树拆分为树的叶子节点q和对应的权重部分ω,即:
Figure GDA0003496840590000072
其中,
Figure GDA0003496840590000073
为样本xi所在叶子节点q的权重,q(xi)为样本xi所在叶子节点的位置。也就是说对于任意一个样本xi,最后会落在树的某个叶子节点上,取值为
Figure GDA00034968405900000711
因为每次迭代,模型都是在拟合上一次预测的残差,所以当生成第t个基学习器时,预测模型可表示为:
Figure GDA0003496840590000074
目标函数可表示为:
Figure GDA0003496840590000075
目标函数由2部分构成,其中第一个部分函数l(·,·)是描述真实值与拟合值的差异,通常使用欧式距离进行计算;第二个部分是防止函数过拟合的正则化部分
Figure GDA0003496840590000076
Figure GDA0003496840590000077
用于限制每棵树的复杂度,防止模型过拟合,其中T是CART数上所有叶子节点的数量,γ和λ是超参数,用来调整正则化计算时叶子节点数量和权重的重要性分配,ωj是第j个叶子节点的权重值。为了使目标函数最小化,XGBoost考虑对目标函数进行二阶泰勒展开,可近似表达为:
Figure GDA0003496840590000078
其中,gi为一阶导数,定义为
Figure GDA0003496840590000079
hi为二阶导数,
Figure GDA00034968405900000710
代入目标函数,结果为:
Figure GDA0003496840590000081
每次迭代使目标函数最小,得到第t个基学习器最优的j个叶子节点和每个叶子节点对应的最优解ωj
将预处理好的训练数据集输入XGBoost模型,并对模型进行参数调整和进一步优化,反复迭代,得到最优的二氧化碳分布模拟模型;
步骤3,针对构建的二氧化碳分布模拟模型,首先使用测试数据集验证模型预测精度。然后将卫星观测缺失处的环境因素数据输入训练好的二氧化碳分布模拟模型得到预测的二氧化碳浓度,最终获得区域二氧化碳浓度的时空分布。
二、根据上述训练得到的区域二氧化碳时空分布模拟模型,结合全局敏感性分析方法,进行影响因素的重要性进行定量分析,包括以下步骤:
步骤4,结合构建的区域二氧化碳时空分布模拟模型与全局敏感性分析方法,估算二氧化碳分布对各个环境因素的敏感度;
步骤5,统计全局敏感性分析方法得到的不同环境因素对区域二氧化碳浓度的敏感度,定量分析分析各参数的敏感性大小,最终确定各个环境因素随区域二氧化碳分布的影响程度。
其中,步骤4中使用的全局敏感性分析方法为Sobol全局敏感性分析法,具体的方法步骤如下:
对于各个环境因素,统计其变化范围和概率分布,然后结合区域二氧化碳时空分布模拟模型计算相应的敏感性指数。
区域二氧化碳时空分布模拟模型可表达为y=f(x′1,x′2,…,x′p),f是训练好的XGBoost模型,其中,x′1,x′2,…,x′p为影响二氧化碳分布的环境因素,是模型的输入参数,n是模型参数数量,就是步骤1中9项影响因素,;模型的总方差为
Figure GDA0003496840590000082
其中,f0为模型初值,而模型的偏方差为
Figure GDA0003496840590000083
其中,1≤π1<…<πs≤p且s=1,2,…,p,各个环境因素的敏感性
Figure GDA0003496840590000084
为:
Figure GDA0003496840590000085
其中,
Figure GDA0003496840590000086
为环境因素
Figure GDA0003496840590000087
的一阶敏感性指数,表示该参数对模型输出的影响,
Figure GDA0003496840590000088
为环境因素
Figure GDA0003496840590000091
的s阶敏感性指数,表示s个参数对模型的共同影响;
进而得到各个环境因素的总敏感性指数,环境因素
Figure GDA0003496840590000092
的总敏感性指数TSπ定义为:
Figure GDA0003496840590000093
而步骤5中,使用Sobol法得到的各个环境因素的总敏感性指数评价最终影响区域二氧化碳分布的影响因素敏感性,实现定量的影响程度分析。
三、实施例
本发明实施例中使用2016年OCO-2卫星XCO2观测数据与对应的环境因素,结合XGBoost模型建模,模拟中国东部地区CO2浓度分布,图2为卫星观测数据与建模反演结果。针对机器学习算法构建的模拟模型精度评价,这里使用决定系数R2和均方根误差RMSE两个指标,调参优化后得到的最终建模精度如表1所示。
表1建模精度
训练样本 测试样本 R2 RMSE
3153(70%) 1351(30%) 0.6751 1.6362ppm
使用全局敏感性分析法与构建的二氧化碳模拟模型,对影响因素的敏感性进行定量评价,结果如表2所示。
表2为各个环境因素使用全局敏感性分析法估算的一阶敏感性指数和总体敏感性指数
环境因素 一阶敏感性指数 总体敏感性指数
地表覆盖类型 0.013060 0.015529
植被覆盖 0.300257 0.320699
气候类型 0.006008 0.007367
降水 0.291814 0.301615
气温 0.262991 0.277399
风速风向 0.713833 0.727576
人为排放量 0.000197 0.000208
生物量燃烧排放 0.000915 0.001157
为了更直观地展示不同环境因素对总体二氧化碳分布的敏感性大小,绘制敏感性指数扇形图,确定影响因素占比,结果如图3所示。
从表2可以看出,将环境因素按敏感性指数由大到小进行排序,分别为风速风向、植被、降水、气温、地表覆盖类型、气候类型、生物质燃烧排放和人为排放量。其中,风速风向、植被、降水和气温的敏感性指数较大,说明它们是影响区域二氧化碳分布的主要因素。
从模型精度可知,利用模型模拟区域二氧化碳时空分布具有可行性。本发明提出的方法可以实现通过环境数据模拟区域二氧化碳浓度的时空分布,填补卫星观测数据的空缺。并且提出定量评价环境因素对区域二氧化碳分布影响程度的方法,确定了各类环境因素对区域二氧化碳分布的影响大小和具体程度。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (5)

1.一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于,包括如下步骤:
步骤1,结合区域环境特点,将影响区域二氧化碳分布的环境因素分类,包括但不仅限于地表和植被覆盖因素、气候气象因素和燃烧排放因素;
步骤2,结合卫星二氧化碳观测数据与环境因素,使用机器学习算法构建区域二氧化碳时空分布模拟模型,并利用训练数据集进行训练;
步骤3,针对构建的二氧化碳时空分布模拟模型,首先使用测试数据集验证模型预测精度,然后将卫星观测缺失处的环境因素数据输入训练好的二氧化碳时空分布模拟模型得到预测的二氧化碳浓度,最终获得区域二氧化碳浓度分布图;
步骤4,结合构建的区域二氧化碳时空分布模拟模型与全局敏感性分析方法,计算二氧化碳浓度对各个输入参数,即环境因素的敏感度;
步骤4中使用的全局敏感性分析方法是Sobol方法,Sobol法的敏感度是通过将输出的总方差分解为每个参数的方差和参数相互作用的方差之和,然后通过参数对输出方差的贡献比例进行敏感性分级计算的;
对于各个环境因素,统计其变化范围和概率分布,然后结合区域二氧化碳时空分布模拟模型计算相应的敏感性指数;
区域二氧化碳时空分布模拟模型可表达为y=f(x′1,x′2,…,x′p),f是训练好的XGBoost模型,其中,x′1,x′2,…,x′p为影响二氧化碳分布的环境因素,是XGBoost模型的输入参数;XGBoost模型的总方差为:
Figure FDA0003514970070000011
其中,f0为模型初值,而XGBoost模型的偏方差为:
Figure FDA0003514970070000012
其中,1≤π1<…<πs≤p且s=1,2,…,p,各个环境因素的敏感性
Figure FDA0003514970070000013
为:
Figure FDA0003514970070000014
其中,
Figure FDA0003514970070000015
为环境因素
Figure FDA0003514970070000016
的一阶敏感性指数,表示该参数对模型输出的影响,
Figure FDA0003514970070000017
为环境因素
Figure FDA0003514970070000018
的s阶敏感性指数,表示s个参数对模型的共同影响;
进而得到各个环境因素的总敏感性指数,环境因素
Figure FDA0003514970070000019
的总敏感性指数TSπ定义为:
Figure FDA0003514970070000021
使用Sobol法得到的各个环境因素的总敏感性指数评价最终影响区域二氧化碳分布的影响因素敏感性,实现定量的影响程度分析;
步骤5,统计全局敏感性分析方法得到的区域二氧化碳浓度对不同环境因素的敏感度,定量分析分析各参数的敏感性大小,最终确定各个环境因素随区域二氧化碳分布的影响程度。
2.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤1中环境因素分类具体包括区域的地表覆盖类型、植被覆盖、气候类型、降水、气温、风速风向、人为排放量和生物质燃烧排放量;
其中植被覆盖使用归一化植被指数数据来表示,该数据可以从MODIS卫星的L3植被指数产品获得;人为排放统计来自高分辨率全球人为排放数据集ODIAC;生物质燃烧数据来自全球火灾排放数据库GFED4;气温和降水数据来自国家青藏高原科学数据中心提供的中国1km分辨率逐月平均气温数据集;地表覆盖数据来自欧空局发布的逐年全球土地覆盖数据集,气候类型数据来自柯本气候分区数据集,风速风向来自ERA5数据集。
3.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤2中使用的机器学习算法为极端梯度提升树XGBoost,XGBoost是一种基于梯度提升的树集成模型,模型的基本构建思路是:首先构建初始子树对数据进行拟合,相应的得到拟合的残差,后续的子树构建是针对上一步的模型残差进行,直至模型残差小于阈值为止,最终的模拟结果为所有子树结果之和,具体构造步骤为:
初始构造一个弱学习器,得到初始模型对应的残差;
后续的每一次训练迭代,都是在现有模型的基础上,增加一个弱学习器拟合上一个模型的残差;
通过不断地学习拟合K个弱学习器来降低模型预测结果与真实值之间的残差,直到残差小于阈值,模型终止,最终模型预测值是K个基学习器加权求和的结果。
4.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤2中利用训练数据集进行训练的具体实现方式如下;
首先训练数据集进行预处理,包括数据清洗,数据编码和数据变换,其中数据清洗包括去除缺失值、异常值和噪声,数据变换包括归一化和降维;
数据编码是将非数值型特征进行编码,以便输入模型中进行训练,即对地表覆盖类型、气候类型和风向这些环境因素进行编码,这里使用的是one-hot独热编码;
对数据进行归一化处理,归一化处理的计算公式为:
Figure FDA0003514970070000031
其中,mean(zq)为环境因素zq数据的均值,std(zq)为环境因素zq数据的标准差;
然后将预处理好的训练数据集输入XGBoost模型,并对XGBoost模型进行参数调整和进一步优化,反复迭代,得到最优的二氧化碳时空分布模拟模型。
5.如权利要求4所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:XGBoost模型的基学习器是CART树,针对n个样本m个特征的数据集D=(xi,yi)(|D|=n,xi∈Rm,yi∈R),训练完成后,最终的预测值可表示如下:
Figure FDA0003514970070000032
其中,K为基学习器数量,xi为第i个样本,yi为第i个样本对应的类别标签,fk(·)为第k棵树的模型,将第k棵树拆分为树的叶子节点q和对应的权重部分ω,即:
Figure FDA0003514970070000033
其中,
Figure FDA0003514970070000034
为样本xi所在叶子节点q的权重,q(xi)为样本xi所在叶子节点的位置,也就是说对于任意一个样本xi,最后会落在树的某个叶子节点上,取值为
Figure FDA0003514970070000035
因为每次迭代,模型都是在拟合上一次预测的残差,所以当生成第t个基学习器时,预测模型可表示为:
Figure FDA0003514970070000036
目标函数可表示为:
Figure FDA0003514970070000037
目标函数由2部分构成,其中第一个部分函数l(·,·)是描述真实值与拟合值的差异,使用欧式距离进行计算;第二个部分是防止函数过拟合的正则化部分
Figure FDA0003514970070000038
Figure FDA0003514970070000039
Figure FDA00035149700700000310
用于限制每棵树的复杂度,防止模型过拟合,其中T是CART数上所有叶子节点的数量,γ和λ是超参数,用来调整正则化计算时叶子节点数量和权重的重要性分配,ωj是第j个叶子节点的权重值;为了使目标函数最小化,XGBoost考虑对目标函数进行二阶泰勒展开,可近似表达为:
Figure FDA0003514970070000041
其中,gi为一阶导数,定义为
Figure FDA0003514970070000042
为二阶导数,
Figure FDA0003514970070000043
代入目标函数,结果为:
Figure FDA0003514970070000044
每次迭代使目标函数最小,得到第t个基学习器最优的j个叶子节点和每个叶子节点对应的最优解ωj
CN202111524281.7A 2021-12-14 2021-12-14 一种任意时空位置二氧化碳浓度预测影响因素分析方法 Active CN113919448B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111524281.7A CN113919448B (zh) 2021-12-14 2021-12-14 一种任意时空位置二氧化碳浓度预测影响因素分析方法
US17/882,649 US20230186173A1 (en) 2021-12-14 2022-08-08 Method of analyzing influence factor for predicting carbon dioxide concentration of any spatiotemporal position

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111524281.7A CN113919448B (zh) 2021-12-14 2021-12-14 一种任意时空位置二氧化碳浓度预测影响因素分析方法

Publications (2)

Publication Number Publication Date
CN113919448A CN113919448A (zh) 2022-01-11
CN113919448B true CN113919448B (zh) 2022-04-01

Family

ID=79249212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111524281.7A Active CN113919448B (zh) 2021-12-14 2021-12-14 一种任意时空位置二氧化碳浓度预测影响因素分析方法

Country Status (2)

Country Link
US (1) US20230186173A1 (zh)
CN (1) CN113919448B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10634558B1 (en) 2018-11-13 2020-04-28 Anna Ailene Scott Air quality monitoring system and enhanced spectrophotometric chemical sensor
US10697947B1 (en) 2019-01-23 2020-06-30 Project Canary, Inc. Apparatus and methods for reducing fugitive gas emissions at oil facilities
CA3191655A1 (en) 2020-09-10 2022-03-17 Anna Ailene Scott Air quality monitoring system and method
US11774426B1 (en) * 2022-03-25 2023-10-03 Project Canary, Pbc Emissions detection system and methods
CN114878748B (zh) * 2022-05-07 2023-07-04 国网四川省电力公司电力科学研究院 一种co2排放量的监测方法及监测***
CN114974453B (zh) * 2022-05-30 2023-08-29 中南大学 一种大气二氧化碳柱浓度高覆盖度重建方法
CN115222201B (zh) * 2022-06-06 2024-03-08 扬州大学 一种作物生产碳足迹评价的全局敏感性分析方法
CN115271265B (zh) * 2022-09-27 2022-12-16 四川中电启明星信息技术有限公司 基于碳卫星数据的电能碳流转分析方法及***
CN115630870B (zh) * 2022-11-01 2024-03-22 中国矿业大学 地质碳封存区域大气co2时空分异特征及影响因子分析方法
US11861753B1 (en) 2023-02-01 2024-01-02 Project Canary, Pbc Air quality monitors minimization system and methods
US11727519B1 (en) 2023-02-01 2023-08-15 Project Canary, Pbc Air quality monitors minimization system and methods
US11887203B1 (en) 2023-02-01 2024-01-30 Project Canary, Pbc Air quality monitors minimization system and methods
CN117313307A (zh) * 2023-06-26 2023-12-29 北京航空航天大学 一种融合时空环境信息的气候模型模拟温度数据修正方法
CN116862105B (zh) * 2023-07-03 2024-07-02 成都薛定谔能碳科技有限公司 一种工业园区温室气体无组织排放碳计量方法
CN116954058B (zh) * 2023-07-13 2024-02-23 淮阴工学院 一种锅炉NOx浓度预测与智能控制方法及***
CN116859001B (zh) * 2023-07-18 2024-03-19 安徽碧水环业生态科技有限公司 一种碳排放在线监测平台及分析方法
CN117113648B (zh) * 2023-08-03 2024-07-05 西安中科天塔科技股份有限公司 一种二氧化碳柱浓度的测量方法及***
CN117030828A (zh) * 2023-09-28 2023-11-10 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 电化学传感器结合多元分析的全氟辛烷磺酸定量检测方法
CN117420052B (zh) * 2023-10-09 2024-06-21 江苏海洋大学 一种融合多尺度时空信息的pm2.5预测方法
CN117153291B (zh) * 2023-10-31 2024-01-02 水利部交通运输部国家能源局南京水利科学研究院 一种灌区稻田碳汇价值计算方法及***
CN117556953A (zh) * 2023-11-21 2024-02-13 中国气象局沈阳大气环境研究所 一种基于卫星遥感反演数据的自动处理与预测***
CN117272121B (zh) * 2023-11-21 2024-03-12 江苏米特物联网科技有限公司 一种基于Deep SHAP的酒店负荷影响因素量化分析方法
CN117574155A (zh) * 2023-11-29 2024-02-20 海南省气象科学研究所 基于卫星遥感的海域近地面大气二氧化碳浓度的预测方法
CN117371667B (zh) * 2023-12-04 2024-03-12 中国长江电力股份有限公司 碳排放量影响因数的分析方法及相关设备
CN117421643B (zh) * 2023-12-18 2024-02-23 贵州省环境工程评估中心 基于人工智能的生态环境遥感数据分析方法及***
CN117828992A (zh) * 2024-01-04 2024-04-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种高时空分辨ccn数浓度精准预测方法及***
CN117824093A (zh) * 2024-01-10 2024-04-05 华中师范大学 一种智慧教室环境适切性调节方法及***
CN117592005B (zh) * 2024-01-19 2024-04-26 中国科学院空天信息创新研究院 Pm2.5浓度卫星遥感估算方法、装置、设备及介质
CN117686667B (zh) * 2024-01-31 2024-04-09 伟凯美(深圳)自动化技术有限公司 一种氧气浓度检测分析方法、装置和***
CN117674303B (zh) * 2024-02-02 2024-05-14 华北电力大学 一种基于数据价值阈值的虚拟电厂并行控制方法
CN118115179B (zh) * 2024-04-30 2024-07-05 北京中科三清环境技术有限公司 识别人为源与天然源贡献浓度的方法与装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108252688A (zh) * 2018-01-08 2018-07-06 中国地质大学(北京) 致密油藏二氧化碳吞吐影响因素敏感性分析方法及其应用
CN113762607A (zh) * 2021-08-26 2021-12-07 甘肃同兴智能科技发展有限责任公司 一种电网企业碳排放量的预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2953021B1 (fr) * 2009-11-26 2011-12-09 Tanguy Griffon Methode de mesure des emissions hebdomadaires et annuelles d'un gaz a effet de serre sur une surface donnee
US8854223B2 (en) * 2012-01-18 2014-10-07 Xerox Corporation Image-based determination of CO and CO2 concentrations in vehicle exhaust gas emissions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108252688A (zh) * 2018-01-08 2018-07-06 中国地质大学(北京) 致密油藏二氧化碳吞吐影响因素敏感性分析方法及其应用
CN113762607A (zh) * 2021-08-26 2021-12-07 甘肃同兴智能科技发展有限责任公司 一种电网企业碳排放量的预测方法

Also Published As

Publication number Publication date
US20230186173A1 (en) 2023-06-15
CN113919448A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN113919448B (zh) 一种任意时空位置二氧化碳浓度预测影响因素分析方法
CN111815037B (zh) 一种基于注意力机制的可解释性短临极端降雨预测方法
Chen et al. Comparison of feature selection methods for mapping soil organic matter in subtropical restored forests
CN115688404B (zh) 基于svm-rf模型的降雨型滑坡预警方法
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
CN111784022A (zh) 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法
CN114676822A (zh) 一种基于深度学习的多属性融合空气质量预报方法
CN115438848A (zh) 基于深度混合图神经网络的pm2.5浓度长期预测方法
CN115526298A (zh) 一种高鲁棒性的大气污染物浓度综合预测方法
CN115718746A (zh) 基于机器学习的稻田甲烷排放量预测方法
Sharma et al. Forecasting and prediction of air pollutants concentrates using machine learning techniques: the case of India
Salman Aal-shamkhi et al. Extraction and modeling of urban sprawl development in Karbala City using VHR satellite imagery
Chao et al. A spatio-temporal neural network learning system for city-scale carbon storage capacity estimating
CN109636194B (zh) 一种输变电项目重大变动多源协同检测方法与***
CN107274024A (zh) 一种气象台站测量日总辐射曝辐量预测优化方法
CN116779172A (zh) 一种基于集成学习的肺癌疾病负担风险预警方法
CN107066786A (zh) 基于神经网络的气溶胶光学厚度反演算法
CN116189796A (zh) 基于机器学习的星载短波红外co2柱浓度估算方法
Levavasseur et al. An objective methodology for potential vegetation reconstruction constrained by climate
CN113191536A (zh) 基于机器学习的近地面环境要素预测模型训练和预测方法
Masinde et al. Training recurrent neural networks for particulate matter concentration prediction
CN116449460B (zh) 基于卷积UNet和迁移学习的区域月降水预测方法及***
CN116429648B (zh) 改进的时空LightGBM的地表PM10估算方法
CN117493733B (zh) 一种基于卫星多光谱信息的总初级生产力计算方法及***
Asogwa et al. SMART CITY PM2. 5 AIR POLLUTION MODELING TECHNIQUES: TRAIN-TEST DATA SPLIT VERSUS K-FOLD CROSS VALIDATION TECHNIQUES

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant