CN115356249A - 基于机器学习融合模型的卫星偏振pm2.5估算方法和*** - Google Patents

基于机器学习融合模型的卫星偏振pm2.5估算方法和*** Download PDF

Info

Publication number
CN115356249A
CN115356249A CN202211276452.3A CN202211276452A CN115356249A CN 115356249 A CN115356249 A CN 115356249A CN 202211276452 A CN202211276452 A CN 202211276452A CN 115356249 A CN115356249 A CN 115356249A
Authority
CN
China
Prior art keywords
machine learning
model
concentration
data
remote sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211276452.3A
Other languages
English (en)
Other versions
CN115356249B (zh
Inventor
张文豪
唐健雄
马宇
刘其悦
顾行发
贾志扬
邴芳飞
付雅帅
张丽丽
徐娜
吴俣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Institute of Aerospace Engineering
Original Assignee
North China Institute of Aerospace Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Institute of Aerospace Engineering filed Critical North China Institute of Aerospace Engineering
Priority to CN202211276452.3A priority Critical patent/CN115356249B/zh
Publication of CN115356249A publication Critical patent/CN115356249A/zh
Application granted granted Critical
Publication of CN115356249B publication Critical patent/CN115356249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/06Investigating concentration of particle suspensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Dispersion Chemistry (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及测试颗粒的粒度或粒径分布技术领域,提供了一种基于机器学习融合模型的卫星偏振PM2.5估算方法和***。包括:获取卫星遥感影像、气象数据和PM2.5浓度数据;其中,卫星遥感影像包括三个偏振波段;基于卫星遥感影像、气象数据和PM2.5浓度数据,构建样本数据集;基于样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型,并基于PM2.5浓度估算融合模型对PM2.5浓度进行估算。如此,利用卫星偏振反射率数据结合气象数据直接构建偏振反射率数据与PM2.5浓度之间的融合模型,减少了误差传递,提升了PM2.5浓度估算的精度。

Description

基于机器学习融合模型的卫星偏振PM2.5估算方法和***
技术领域
本申请涉及测试颗粒的粒度或粒径分布技术领域,特别涉及一种基于机器学习融合模型的卫星偏振PM2.5估算方法和***。
背景技术
随着经济的快速发展和城市化进程的加快,空气污染问题日趋严重。大气细颗粒物(Fine Particulate Matter,PM2.5)指环境中空气动力学当量直径小于等于2.5μm的颗粒物,是导致空气质量恶化的主要原因之一。
目前,PM2.5的监测方法主要分为地面监测和卫星遥感监测。地面监测精度较高,但站点分布稀疏且数量有限,无法获得大面积连续的PM2.5浓度数据;卫星遥感技术具有空间覆盖范围大、不同尺度采集数据和受限制条件少等优势,常用于监测大范围的PM2.5时空分布。卫星遥感监测PM2.5从原理上可以分为两类:通过卫星遥感数据产品气溶胶光学厚度(Aerosol Optical Depth,AOD)反演PM2.5浓度和利用卫星表观反射率(Top ofAtmosphere Reflectance,TOA)直接反演PM2.5。前者是通过建立AOD与PM2.5之间的关系反演PM2.5浓度。AOD是衡量气溶胶阻止光穿透大气层程度的物理量,描述气溶胶对光的削减作用。在可见光和近红外波段反演的AOD对粒径大小在0.1~2μm之间(接近PM2.5的粒径)的颗粒最敏感,是建立AOD-PM2.5相关关系的重要理论基础。研究者不断探索并建立二者之间关系的模型,并通过提高AOD的时空分辨率以及加入各种相关变量来提高模型模拟的精度,以期更加精确地估算近地面PM2.5浓度。
区域PM2.5浓度遥感反演和估算的方法模型主要有三类:统计模型、经验物理机制模型和机器学习算法模型。(1)统计模型主要包括单变量简单线性模型、多变量线性回归模型、多变量非线性统计模型和多变量空间统计模型等,主要在卫星获取AOD的基础上,获取气象要素、地理环境、排放和季节等多种因子,在多元线性回归、广义线性模型、广义加和模型等多种方法中采用不同的参数因子,考虑了多种变量对AOD-PM2.5线性关系的影响,在不同地区、不同时段开展PM2.5遥感统计估算;(2)经验双订正模型主要考虑气溶胶垂直分布和吸湿增长对卫星遥感AOD估算PM2.5浓度的影响,根据数值模拟结果和先验知识假定气溶胶垂直分布和吸湿增长特征,在此基础上引入数值模式模拟的气溶胶标高和环境湿度等参数按先验知识对AOD进行订正,通过线性转换获取PM2.5浓度;(3)近年来,随着人工智能和机器学习概念的兴起,相关技术方案开始尝试利用神经网络、支持向量机等方法直接将地面监测的颗粒物质量浓度作为目标变量,将TOA产品、气象因子、土地利用类型等影响因素作为相关输入变量,进行PM2.5浓度的遥感反演。
然而,现有PM2.5浓度估算方法存在如下问题:现阶段传统的大气PM2.5遥感反演方法大多依赖于成熟的AOD产品,利用AOD与PM2.5之间的高相关性进行PM2.5的反演和估算,但这些AOD产品通常是由表观反射率经过复杂的辐射传输理论反演得到,在其基础上进行PM2.5反演不可避免的会产生误差传递影响最终反演和估算精度。对于经验物理机制模型来说,充分考虑了气溶胶的垂直订正以及湿度订正,但是在进行垂直订正时对于准确的气溶胶标高的获取是相对较难的,因此对于估算结果会存在影响。从偏振反射率直接估算PM2.5跳过了复杂的辐射传输计算,传统的模型已经不再适用,对于机器学习方法来说,单一的机器学习模型对偏振反射率与PM2.5之间关系的解释性较弱,并且单个模型的泛化能力不强、抗干扰能力较低。
因此,需要提供一种针对上述现有技术不足的改进技术方案。
发明内容
本申请的目的在于提供一种基于机器学习融合模型的卫星偏振PM2.5估算方法和***,以解决或缓解上述现有技术中存在的问题。
为了实现上述目的,本申请提供如下技术方案:
本申请提供了一种基于机器学习融合模型的卫星偏振PM2.5估算方法,包括:
获取卫星遥感影像、气象数据和PM2.5浓度数据;其中,所述卫星遥感影像包括波长为
Figure 100002_DEST_PATH_IMAGE001
的三个偏振波段,所述PM2.5浓度数据是通过地面空气质量监测站点采集得到的;
基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集;
基于所述样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,并使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型;
基于所述PM2.5浓度估算融合模型对PM2.5浓度进行估算。
上述技术方案中,在基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集之前,所述方法还包括:
根据所述偏振波段的观测角度信息,逐个像素对所述卫星遥感影像进行筛选,得到第二卫星遥感影像。
上述技术方案中,每一个所述偏振波段包括偏振反射率矢量以及观测几何信息;
对应地,
所述基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集,具体为:
从所述偏振波段分别提取偏振反射率矢量以及观测几何信息;
对所述气象数据进行重采样,得到与所述卫星遥感影像分辨率一致的重采样气象数据;
以所述PM2.5浓度数据为基准,对所述第二卫星遥感影像、所述重采样气象数据、所述偏振反射率矢量以及所述观测几何信息进行时空匹配,得到时空尺度统一的样本数据集。
上述技术方案中,所述基于所述样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型,具体为:
以所述PM2.5浓度数据作为因变量,所述卫星遥感影像、所述气象数据作为自变量,分别对第一机器学习子模型、第二机器学习子模型、第三机器学习子模型进行训练,得到训练完成的第一机器学习子模型、训练完成的第二机器学习子模型、训练完成的第三机器学习子模型;
使用训练完成的第一机器学习子模型的预测值、训练完成的第二机器学习子模型的预测值、训练完成的第三机器学习子模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型。
上述技术方案中,采用五折交叉方法分别对第一机器学习子模型、第二机器学习子模型、第三机器学习子模型进行训练。
上述技术方案中,所述极端梯度提升模型的目标函数为:
Figure 629178DEST_PATH_IMAGE002
式中,
Figure 100002_DEST_PATH_IMAGE003
表示损失函数,
Figure 875220DEST_PATH_IMAGE004
表示常数项;
Figure 603005DEST_PATH_IMAGE005
表示惩罚项;
Figure 29438DEST_PATH_IMAGE006
表示第t轮模型的预测,
Figure 100002_DEST_PATH_IMAGE007
表示在第t轮模型对应的函数;
Figure 969712DEST_PATH_IMAGE008
表示第i个样本;
Figure 100002_DEST_PATH_IMAGE009
表示预测值。
上述技术方案中,所述轻量级分布式梯度提升框架的增益计算公式如下:
Figure 132578DEST_PATH_IMAGE010
式中,
Figure 100002_DEST_PATH_IMAGE011
表示决策树某个固定结点d处分割特征j的信息增益;A、B表示样本数据子集;a、b分别表示样本数据子集A、B的大小;
Figure 500105DEST_PATH_IMAGE012
表示损失函数的负梯度方向,n表示样本数据集的实例个数,
Figure 100002_DEST_PATH_IMAGE013
表示左节点样本数据集,
Figure 679414DEST_PATH_IMAGE014
右节点样本数据集。
本申请实施例还提供一种基于机器学习融合模型的卫星偏振PM2.5估算***,包括:
获取单元,配置为获取卫星遥感影像、气象数据和PM2.5浓度数据;其中,所述卫星遥感影像包括波长
Figure 100002_DEST_PATH_IMAGE015
三个偏振波段,所述PM2.5浓度数据是通过地面空气质量监测站点采集得到的;
构建单元,配置为基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集;
训练单元,配置为基于所述样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,并使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型;
估算单元,配置为基于所述PM2.5浓度估算融合模型对PM2.5浓度进行估算。
有益效果:
本申请实施例提供的技术方案中,首先获取卫星遥感影像、气象数据和PM2.5浓度数据;其中,卫星遥感影像包括波长
Figure 656335DEST_PATH_IMAGE016
三个偏振波段,PM2.5浓度数据是通过地面空气质量监测站点采集得到的;然后,基于卫星遥感影像、气象数据和PM2.5浓度数据,构建样本数据集;基于样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型;随后,基于PM2.5浓度估算融合模型对PM2.5浓度进行估算。在卫星遥感影像加入偏振波段,扩展了大气颗粒物的信息获取维度,提升了细颗粒物的观测精度,并且,通过将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,并使用基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型,提高了PM2.5浓度估算融合模型的抗干扰能力,增强了模型的泛化能力。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。其中:
图1为根据本申请的一些实施例提供的基于机器学习融合模型的卫星偏振PM2.5估算方法的流程示意图;
图2为根据本申请的一些实施例提供的PM2.5浓度估算融合模型的逻辑示意图;
图3为根据本申请的一些实施例提供的基于机器学习融合模型的卫星偏振PM2.5估算***的结构示意图。
具体实施方式
下面将参考附图并结合实施例来详细说明本申请。各个示例通过本申请的解释的方式提供而非限制本申请。实际上,本领域的技术人员将清楚,在不脱离本申请的范围或精神的情况下,可在本申请中进行修改和变型。例如,示为或描述为一个实施例的一部分的特征可用于另一个实施例,以产生又一个实施例。因此,所期望的是,本申请包含归入所附权利要求及其等同物的范围内的此类修改和变型。
在以下描述中,所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。
如前所述,PM2.5的监测方法主要分为地面监测和卫星遥感监测,其中,卫星遥感PM2.5浓度估算能够有效地弥补了地面站点空间分布有限这一缺点,但仍存在以下问题:(1)现有的PM2.5浓度遥感估算方法普遍精度不高,使得PM2.5浓度反演的效果总体不理想;(2)现有方法多是基于AOD产品反演PM2.5,带来了误差传递和积累;(3)传统卫星传感器大多以目标对太阳光的反射辐射或自身的辐射强度来显示细颗粒物浓度信息,忽略了到光谱中的偏振信息,无法准确获取细颗粒物参数特征信息。
为此,本申请实施例提供一种基于机器学习融合模型的卫星偏振PM2.5估算方法和***,通过直接构建多角度偏振成像仪(Directional polarization camera,DPC)的偏振TOA数据与PM2.5浓度之间的关系,省略了AOD到PM2.5的步骤,减少了误差的传递和积累,并针对单一机器学习模型难以解释TOA与PM2.5之间的复杂关系的问题,构建多种机器学习组成的PM2.5浓度估算融合模型,充分利用了融合模型能够快速处理高维度数据和拟合复杂关系的优势,大大提升了基于遥感监测进行PM2.5浓度估算的准确性和时空连续观测能力。此外,该方法生产的PM2.5浓度数据可以用于气候变化分析、人类健康研究,以及为相关部门提供决策支持。
示例性方法
本申请实施例提供一种基于机器学习融合模型的卫星偏振PM2.5估算方法,如图1、图2所示,该方法包括:
步骤S101、获取卫星遥感影像、气象数据和PM2.5浓度数据;其中,所述卫星遥感影像包括波长
Figure 768647DEST_PATH_IMAGE017
三个偏振波段,所述PM2.5浓度数据是通过地面空气质量监测站点采集得到的。
需要说明的是,关键参数的细颗粒物卫星遥感观测不仅要提升细颗粒物的观测精度,还需要提升细颗粒物类型、尺寸等微物理特性方面的观测能力。偏振可以反映电磁波的方向特征,在电磁波与大气颗粒物的相互作用中,偏振可以有效提高卫星遥感探测的丰富度和精度。为了更好地探测大气颗粒物的微物理特性参数,在多光谱、多角度的基础上加入偏振探测信息,能够扩展大气颗粒物的信息获取维度,由于地表偏振信号比大气更弱且颗粒物尤其细粒子颗粒物对偏振比较敏感,相比于标量辐射反演方法,采用偏振反演细颗粒物不容易受地表影响,更具有优势。
本申请实施例中,为了使用卫星偏振遥感影像对PM2.5浓度数据进行估算,需要先获取相关的卫星遥感影像、气象数据和PM2.5浓度数据。
其中,卫星遥感影像可以从高分五号(GF-5)卫星获取。GF-5卫星是世界首颗实现对大气和陆地综合观测的全谱段高光谱卫星,可满足环境综合监测等方面的迫切需求,卫星首次搭载了可见短波红外高光谱相机(Advanced HyperSpectral Imager,AHSI)、全谱段光谱成像仪(Visual and Infrared Multspectral Sensor,VIMS)、大气温室气体监测仪(Greenhouse gas Monitoring Instrument,GMI)、大气痕量气体差分吸收光谱仪(Environment Monitoring Instrument,EMI)、大气气溶胶多角度偏振探测仪(Directional Polarization Camera,DPC)、大气环境红外甚高光谱分辨率探测仪(Atmospheric Infrared Ultraspectral Sounder,AIUS)共6台载荷。其中,DPC能够观测到多个波段的偏振数据,星下点空间分辨率优于3.5KM,共设有8个工作谱段,波长范围分别为:433~453nm,480~500nm(P),555~575nm,660~680nm(P),758~768nm,745~785nm,845~885nm(P),900~930nm。本申请实施例选取中心波长分别为
Figure 572655DEST_PATH_IMAGE018
的三个偏振波段作为PM2.5浓度估算的输入参数。
DPC通过转动滤光片/偏振片逐个波段采集数据,对于上述三个偏振波段,采集0°、60°、120°三个偏振方向的强度信息,解析并获取偏振信息。DPC总视场为
Figure DEST_PATH_IMAGE019
,可以沿轨道12个观测角度上获得地球大气***的反射辐射强度和偏振信息。
由于DPC直接获取的原始数据(L0级产品数据)是不同观测角度的灰度图,不适合用于反演PM2.5浓度,本申请实施例选用的是L0产品数据经过均匀性校正、辐射校正、偏振校正、几何定位和数据网格化等一系列数据预处理后得到的L1级产品数据。
本申请实施例中,气象数据是从MERRA-2卫星数据中提取的。其中,MERRA-2气象数据是一套长时间序列的再分析数据集,包括多种气象变量,比如净辐射、温度、相对湿度、风速等。需要指出的是,MERRA-2数据覆盖全球,空间分辨率为0.5°×0.625°,时间分辨率为1小时。从MERRA-2数据提取了多种气象因子,包括:行星边界层高度(PBLH)、地表压强(PS)、地表绝对湿度(QLML)、地表北风风速(ULML)、地表东风风速(VLML)、地表温度(TLML)。
其中,行星边界层高度PBLH用于表征大气的垂直自净能力,其主要受温度结构、地面粗糙度等因素影响,与环境容量呈正相关。在重污染期间,行星边界层高度显著降低,可由1000米以上降低到300~400米,约为平时的三分之一,大气环境容量被显著压缩,致使污染程度明显加剧。
地表北风风速VLML、地表东风风速ULML用于表征大气的水平自净能力,二者同样与环境容量呈正相关关系。在重污染期间,风速明显减小,常不足2m/s,污染物稀释速度减慢,大气环境容量显著降低。当空气中污染物的积累速度远超过稀释速度时,大气污染就会呈现快速加重的趋势。
地表绝对湿度QLML也是影响大气环境容量的主要因素之一,高湿环境有利于二氧化硫、氨氧化物、氨等气态污染物转化为颗粒物,加重气溶胶污染。
本申请实施例中,PM2.5浓度数据是通过地面空气质量监测站点采集得到的。地面空气质量监测站点采用的是国控站点,是由中国环境监测总站布设的、全国范围分布的监测站点,其分布范围广、监测频率高,能够提供全国范围内逐小时的空气质量数据。
步骤S102、基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集。
在一些实施例中,在基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集之前,所述方法还包括:根据所述偏振波段的观测角度信息,逐个像素对所述卫星遥感影像进行筛选,得到第二卫星遥感影像。
基于前述说明可知,DPC总视场为
Figure 239260DEST_PATH_IMAGE020
,可以沿轨道12个观测角度上获得地球大气***的反射辐射强度和偏振信息,也就是说,同一时空DPC的三个偏振波段沿轨最多可获得12个角度的观测数据,在构建样本数据集之前,可根据偏振波段的观测角度信息,逐个像素对卫星遥感影像进行筛选,得到第二卫星遥感影像。
具体实施时,根据偏振波段的观测角度信息,逐个像素判断其观测角度数据,当同一时刻DPC对于同一像素的观测角度为12个角度时,保留该像素,否则,同一像素的观测角度小于12个角度时,舍去该像素。
在一些实施例中,每一个所述偏振波段包括偏振反射率矢量以及观测几何信息;对应地,所述基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集,具体为:从所述偏振波段分别提取偏振反射率矢量以及观测几何信息;对所述气象数据进行重采样,得到与所述卫星遥感影像分辨率一致的重采样气象数据;以所述PM2.5浓度数据为基准,对所述第二卫星遥感影像、所述重采样气象数据、所述偏振反射率矢量以及所述观测几何信息进行时空匹配,得到时空尺度统一的样本数据集。
首先,从偏振波段分别提取偏振反射率矢量。
需要说明的是,DPC的L1级产品数据包括的偏振波段为网格化后分波段数据,保存方式是以轨为单位的HDF数据。对于中心波长为
Figure DEST_PATH_IMAGE021
的三个偏振波段,其偏振信息还包含斯托克斯(Stokes)参数I、Q、U,其中,I为探测器DPC接受到的总辐亮度,Q、U为线偏振强度。
L1级产品数据的偏振信息中还包括对应的经纬度、太阳几何信息、观测几何信息、海陆标识等辅助信息。其中,观测几何信息具体包括:太阳天顶角
Figure 459020DEST_PATH_IMAGE022
、太阳方方位角
Figure DEST_PATH_IMAGE023
、卫星天顶角
Figure 393216DEST_PATH_IMAGE024
、卫星方位角
Figure DEST_PATH_IMAGE025
等观测几何参数。
实际应用中,由于QU与参考平面有关,对测量定标的精度要求较高,因此在实际PM2.5浓度估算中,通过将I、Q、U转换为不含偏振方向信息的偏振反射率矢量进行PM2.5浓度估算。按照下列公式将I、Q、U转化为偏振反射率矢量:
Figure 368125DEST_PATH_IMAGE026
式中,
Figure DEST_PATH_IMAGE027
为偏振反射率矢量,
Figure 256446DEST_PATH_IMAGE028
为太阳天顶角
Figure 607793DEST_PATH_IMAGE022
的余弦,
Figure DEST_PATH_IMAGE029
I、Q、 U的归一化结果,其中,I、Q、U的归一化计算公式如下:
Figure 599758DEST_PATH_IMAGE030
式中,F 0 为大气层外的太阳辐照度。
然后,以DPC的三个偏振波段为空间分辨率基准,对气象因子进行重采样,调整其空间分辨率,使其空间分辨率与DPC数据一致,得到与卫星遥感影像分辨率一致的重采样气象数据。
随后,对气象数据、卫星影像数据和PM2.5浓度数据进行时间匹配。实践中,从MERRA-2卫星获取的气象数据为世界协调时间(Universal Time Coordinated,UTC),需将其转换为北京时间(UTC/GMT+8)。通过将所有数据均统一为北京时间(UTC/GMT+8),使得PM2.5浓度估算的输入参数时间一致。
最后,以地面空气质量监测站点的PM2.5浓度数据为基准,对第二卫星遥感影像、重采样气象数据、偏振反射率矢量和观测几何信息进行时空匹配,将上述预处理后的多源数据转换为时空尺度统一的样本数据集D,其中,
Figure DEST_PATH_IMAGE031
,即D为由样本
Figure 479989DEST_PATH_IMAGE032
组成的集合,每个样本x均为一个包含多个特征的高维度数据。
需要说明的是,对于每个样本,共包含三个偏振波段的信息,每个波偏振波段包含三个斯托克斯参数I、Q、U,三个斯托克斯参数I、Q、U均包含12个观测角度,由此获得108个特征参数;此外,每个偏振波段中的每个观测角度均包含
Figure 386765DEST_PATH_IMAGE022
Figure 541803DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE033
Figure 952056DEST_PATH_IMAGE034
四个观测几何信息,假定同一时刻DPC的三个偏振波段的观测几何信息相同,则从12个观测角度数据可以获得48个特征参数,加上气象数据中的6个气象变量,结合地面空气质量监测站点采集到的PM2.5浓度数据,所以,每个样本共包含163个特征参数,也就是说,样本数据集的每一个样本x均为163维,属于高维度数据。
本申请实施例中,经过对卫星影像数据、气象数据、PM2.5浓度数据时空匹配、筛选、剔除无效值等处理,最终得到的样本数据集中共包含3725组数据。
步骤S103、基于所述样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型。
本申请实施例中,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,构建机器学习融合模型,用于估算PM2.5浓度,为了便于描述,将该机器学习融合模型称为PM2.5浓度估算融合模型。
在一些实施例中,所述第一机器学习子模型为随机森林模型,所述第二机器学习子模型为极端梯度提升模型,所述第三机器学习子模型为轻量级分布式梯度提升框架。
本申请实施例中,第一机器学习子模型具体为随机森林(Random Forest,RF)模型,第二机器学习子模型具体为极端梯度提升模型(eXtreme Gradient Boosting,XGBoost),第三机器学习子模型具体为轻量级分布式梯度提升框架(Light GradientBoosting Machine,LightGBM)。
下面对RF模型进行详细说明。
RF是一种传统机器学习算法,结合了Bagging集成学习理论和随机子空间方法。随机森林包含了多个决策树,每个决策树都是由Bagging集成学习训练得到,其最终的输出结果是由各个决策树针对输入样本得到的结果投票决定。随机森林对于异常值和噪声有较强的抗干扰能力,在处理高维数据时有良好的并行性和可扩展性。
具体来说,随机森林是运用了
Figure DEST_PATH_IMAGE035
个决策树
Figure 704986DEST_PATH_IMAGE036
通过集成学习构建的一个组合模型。在构建模型时所求回归结果作为因变量,其他数据作为自变量。本发明所构建随机森林决策树中的
Figure DEST_PATH_IMAGE037
为一个随机变量序列,由Bagging和特征子空间两大思想决定:
1)首先运用Bagging的思想,从原始样本集
Figure 833479DEST_PATH_IMAGE038
中有放回地随机抽取
Figure 526628DEST_PATH_IMAGE035
个数据作为训练集
Figure DEST_PATH_IMAGE039
,并且每个训练集单独构造一棵决策树。
2)其次运用特征子空间的思想,在决策树***时等概率地从所有属性中随机进行子抽样,选出一个属性子集(通常选取
Figure 227606DEST_PATH_IMAGE040
个属性,
Figure 980798DEST_PATH_IMAGE042
为特征总数),并从这个属性子集中选择出一个最优属性来***节点。
模型训练时采用并行处理模式,提高了模型的生成效率。最后将
Figure 862167DEST_PATH_IMAGE035
个决策树组合得随机森林模型,
Figure 624586DEST_PATH_IMAGE035
个决策树权重相等,最终的综合预测结果为
Figure 275011DEST_PATH_IMAGE035
个决策树预测结果的均值。
本申请实施例中,在构建随机森林模型时,通过对随机森林中决策树的个数和决策树的最大深度两个参数调整,对模型进行了优化。
实际应用中,在构建随机森林模型时,将决策树的个数N设置为200,实现对决策树的个数进行优化。具体地,在构建随机森林模型时,循环递增决策树的个数,并以五倍交叉检验法对所构建的随机森林模型进行评估,从而确定决策树的个数的最佳取值。进一步地,设置决策树的个数从1开始,以步长为10递增,当递增到300时结束循环。实验表明,当决策树的个数为200时,对随机森林模型进行五倍交叉检验,得到最优结果。因此,将决策树的个数N设置为200。
然后,对随机森林模型的决策树的最大深度进行优化,将决策树的最大深度设置为20。
当对决策树的最大深度进行优化时,先将决策树的个数固定为200,然后,设置决策树的最大深度从1开始,以步长为1递增,当递增到30时结束。实验表明,当决策树的最大深度为20时,对随机森林模型进行10倍交叉检验,得到最优结果。因此,将决策树的最大深度设置为20。
下面对XGBoost进行详细说明。
XGBoost是一种高效的梯度提升决策树算法,核心采用的是Boosting集成思想,将多个弱学习器通过一定的方法整合为一个强学习器。XGBoost由多棵CART(ClassificationAnd Regression Tree)分类回归树组成,即用多棵树共同决策,并且用每棵树的结果都是目标值与之前所有决策树的预测结果之差,并将所有的结果累加即得到最终的结果,以此达到整个模型效果的提升。
XGBoost是一种增量模型,是Gradient Boosting 框架下实现的机器学习算法,是用每一棵决策树的预测结果去拟合上一棵决策树预测结果的残差,从而使整体的决策树模型预测效果越来越好。一开始决策树是0棵,然后在模型当中加决策树,相当于多了一个函数,再加第二棵决策树,相当于又多了一个函数,以此类推。这里需要保证加入新的函数能够提升整体的表达效果,即加上新的决策树之后,目标函数(即损失)的值会下降。增加决策树的公式如下所示:
Figure DEST_PATH_IMAGE043
其中,
Figure 402367DEST_PATH_IMAGE006
表示第t轮模型的预测,
Figure 472828DEST_PATH_IMAGE007
表示在第t轮模型对应的函数,
Figure 507781DEST_PATH_IMAGE008
表示第i个样本;
Figure 278290DEST_PATH_IMAGE009
表示预测值。
但增加的决策树过多,导致叶子结点的个数太多,过拟合的风险就会越大,所以在构建模型时需限制叶子结点的个数,通过在原来目标函数里加上一个正则化惩罚项来限制叶子结点的个数,其中,正则化惩罚项对应的公式如下所示:
Figure 107706DEST_PATH_IMAGE044
式中,
Figure 229246DEST_PATH_IMAGE005
表示惩罚项,
Figure DEST_PATH_IMAGE045
表示加入新叶子结点引入的惩罚力度,
Figure 536731DEST_PATH_IMAGE046
表示叶子的个数,
Figure DEST_PATH_IMAGE047
表示叶子结点的权重,λ表示惩罚系数。
XGBoost算法完整的目标函数由自身的损失函数和正则化惩罚项相加得到,公式如下所示:
Figure 66807DEST_PATH_IMAGE002
式中,
Figure 332703DEST_PATH_IMAGE003
表示损失函数,
Figure 410380DEST_PATH_IMAGE004
表示常数项;
Figure 52714DEST_PATH_IMAGE005
表示惩罚项;
Figure 532237DEST_PATH_IMAGE006
表示第t轮模型的预测,
Figure 234614DEST_PATH_IMAGE007
表示在第t轮模型对应的函数;
Figure 799588DEST_PATH_IMAGE008
表示第i个样本;
Figure 478568DEST_PATH_IMAGE009
表示预测值;n表示样本个数;t表示迭代次数,也就是第t轮模型。
对于模型的每次扩展,需要枚举出所有可能的方案,对于某个特定的分割,需要计算出这个分割左右子树的导数和,然后与划分前的比较,基于损失看分割前后的损失变化情况,信息增益表达式如下:
Figure 812598DEST_PATH_IMAGE048
其中
Figure 623559DEST_PATH_IMAGE049
表示包含叶子结点数个相互独立的单变量二次函数,
Figure 675829DEST_PATH_IMAGE050
表示左子树得分数,
Figure DEST_PATH_IMAGE051
表示右子树得分数,
Figure 863227DEST_PATH_IMAGE045
表示加入新叶子结点引入的惩罚力度。最后遍历所有分割,选择信息增益变化最大的作为最合适的分割。
下面对LightGBM进行详细说明。
LightGBM是一款基于决策树算法的分布式梯度提升框架。为了满足工业界缩短模型计算时间的需求,LightGBM的设计思路主要包含两点:减小数据对内存的使用,保证单个机器在不牺牲速度的情况下,尽可能地用上更多的数据;减小通信的代价,提升多机并行时的效率,实现在计算上的线性加速。
LightGBM从***点的数量、样本的数量、特征数量三个角度出发对XGBoost算法进行了优化。为了解决***点数量过多的问题,LightGBM采用直方图算法;为了解决样本数量过多的问题,LightGBM采用单边梯度抽样算法;为了解决特征数量过多的问题,LightGBM采用互斥特征捆绑算法。
LightGBM的信息增益与XGBoost相同,但是LightGBM使用基于直方图的算法来加速训练过程。直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。
单边梯度抽样算法(Gradient-based One-Side Sampling,GOSS)是从减少样本的角度出发,排除大部分权重小的样本,仅用剩下的样本计算信息增益,它是一种在减少数据和保证精度上平衡的算法。O表示决策树某个固定结点的训练集,该结点在d处分割特征j的方差增益定义为:
Figure 317342DEST_PATH_IMAGE052
其中,
Figure 860057DEST_PATH_IMAGE013
表示左节点样本数据集,
Figure 399623DEST_PATH_IMAGE014
右节点样本数据集,
Figure DEST_PATH_IMAGE053
遍历每个特征的每个***点,找到
Figure 593975DEST_PATH_IMAGE054
并计算最大的信息增益
Figure DEST_PATH_IMAGE055
,然后将数据特征
Figure 371438DEST_PATH_IMAGE056
的***点
Figure DEST_PATH_IMAGE057
将数据分到左右子结点。
在GOSS中,首先根据数据的梯度将训练降序排序,保留上层a个数据实例,作为数据子集A。对于剩下的数据实例,随机采样获得大小为b的数据子集B。最后通过如下方程估计信息增益:
Figure 288316DEST_PATH_IMAGE058
其中,
Figure 315178DEST_PATH_IMAGE059
表示决策树某个固定结点d处分割特征j的信息增益,A、B表示样本数据子集;a、b分别表示样本数据子集A、B的大小;
Figure 641117DEST_PATH_IMAGE012
表示损失函数的负梯度方向,n表示样本数据集的实例个数。
此处,GOSS通过较小的数据集估计信息增益
Figure 804245DEST_PATH_IMAGE059
将大大减小计算量。
互斥特征捆绑算法(Exclusive Feature Bundling,EFB)是将特征按照非零值的个数进行排序计算不同特征之间的冲突比率,遍历每个特征并尝试合并特征,使冲突比率最小化。高位的数据通常是稀疏的,利用这种稀疏性设计一种无损地方法来减少特征的维度。特别的,稀疏特征空间中,许多特征是互斥的,例如他们从不同时为非零值。基于此,可以绑定互斥的特征为单一特征,通过特征扫描算法,从特征捆绑中构建了与单个特征相同的特征直方图。通过特征直方图,使得时间复杂度从O(特征)降到O(绑定特征),由于绑定后的特征数远小于绑定前的总特征数,能够极大地加速模型的训练过程。
Stacking指训练一个融合模型用来组合其他各个模型。即首先选用多个不同的模型作为基模型,然后选用另外一个模型作为元模型,最后再以训练各个基模型的输出作为输入来训练元模型,从而得到最终的输出结果。
本申请实施采用上述RF模型、XGBoost、和LightGBM作为基模型,选用线性回归模型(Linear Regression,LR)作为元模型,基于Stacking进行模型融合,构建出PM2.5浓度估算融合模型,融合模型框架如图2所示。
在一些实施例中,采用五折交叉方法分别对第一机器学习子模型、第二机器学习子模型、第三机器学习子模型进行训练。
首先,对RF模型、XGBoost、和LightGBM三个基模型进行五折交叉验证,五折交叉方法即将时空匹配构建的样本数据集分为5份,其中的4份作为训练集,另外1份作为测试集。整个样本数据集共有3725组,其中2980组数据作为训练集,剩余745组数据作为测试集。
交叉验证过程如下:
(1)首先用RF作五折交叉训练,训练5次,每次训练集划分为5份,其中一份作为验证集。
(2)每一次将验证集的预测值按列的方式进行堆叠,5次的预测值分别为a1、a2、a3、a4、a5,a的大小均为596*1,5次预测值按列的方式堆叠在一起,组成A1,A1的大小为2980*1。
(3)五交叉训练相当于对RF模型训练了5次,每一次都会对测试集进行预测,每次预测后都会得到一个745*1的数组b,分别为b1、b2、b3、b4、b5,b1,b2,b3,b4,b5各个位置相加后取平均值得到1个745*1的数组B1。
(4)同理,将XGBoost和LightGBM进行五折交叉训练后的预测值组合在一起,分别组成A2,A3。将他们对训练集作预测,得到B2,B3。
(5)将A1、A2、A3并列合并为一个2980行3列的矩阵作为新的训练集,将B1、B2、B3并列合并为一个745行3列的矩阵作为新的测试集,输入到线性回归模型构成的元模型中进行进一步训练,最终构建出PM2.5浓度估算融合模型。
在一些实施例中,所述基于所述样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型,具体为:以所述PM2.5浓度数据作为因变量,所述卫星遥感影像、所述气象数据作为自变量,分别对第一机器学习子模型、第二机器学习子模型、第三机器学习子模型进行训练,得到训练完成的第一机器学习子模型、训练完成的第二机器学习子模型、训练完成的第三机器学习子模型;使用训练完成的第一机器学习子模型的预测值、训练完成的第二机器学习子模型的预测值、训练完成的第三机器学习子模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型。
在对PM2.5浓度估算融合模型进行训练时,以PM2.5浓度数据作为因变量,行星边界层高度、地表压强、地表绝对湿度、地表北风风速、地表东风风速、地表温度等气象变量和DPC偏振波段数据作为自变量进行训练。为了保证数据的随机性,将时空匹配得到的样本数据集随机打乱后再导入到RF模型、XGBoost、和LightGBM中,对上述三个基模型进行训练。
在训练过程中,采用10倍交叉检验法对PM2.5浓度估算融合模型的训练过程进行评估,具体步骤如下:对PM2.5浓度估算融合模型进行训练;基于10倍交叉检验法(CrossValidation,简称CV),以相关系数和均方根误差为评价指标,对PM2.5浓度估算融合模型的训练过程进行评估,得到评估结果;基于评估结果,确定PM2.5浓度估算融合模型训练收敛。
具体实施时,将所有的三个基模型的预测值根据9:1的比率划分为训练数据集和验证数据集,进行10次计算,每次计算中9个子集被用作训练数据集,1个子集作为验证数据集。模型评估指标为10倍交叉检验的相关系数(Correlation coefficient,R)和均方根误差(Root Mean Squard Error,RMSE),其中,相关系数R的计算公式如下:
Figure 924648DEST_PATH_IMAGE060
式中,
Figure DEST_PATH_IMAGE061
表示真实值,
Figure 110910DEST_PATH_IMAGE062
表示预测值,
Figure DEST_PATH_IMAGE063
表示样本均值。
均方根误差的计算公式如下:
Figure 942337DEST_PATH_IMAGE064
Figure 959972DEST_PATH_IMAGE009
表示真实值,
Figure DEST_PATH_IMAGE065
表示预测值。
步骤S104、基于所述PM2.5浓度估算融合模型对PM2.5浓度进行估算。
本申请实施例中,利用构建好的PM2.5浓度估算融合模型,将DPC偏振波段数据、提取出的多种气象变量作为输入,通过python程序计算,得到PM2.5浓度估算结果。
综上所述,本申请中,首先获取卫星遥感影像、气象数据和PM2.5浓度数据;其中,卫星遥感影像包括波长
Figure 251276DEST_PATH_IMAGE066
三个偏振波段,PM2.5浓度数据是通过地面空气质量监测站点采集得到的;然后,基于卫星遥感影像、气象数据和PM2.5浓度数据,构建样本数据集;基于样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型;随后,基于PM2.5浓度估算融合模型对PM2.5浓度进行估算。在卫星遥感影像加入偏振波段,扩展了大气颗粒物的信息获取维度,提升了细颗粒物的观测精度,并且,通过将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,并使用基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型,提高了PM2.5浓度估算融合模型的抗干扰能力,增强了模型的泛化能力。
本申请利用卫星遥感偏振反射率数据结合气象因素基于融合机器学习模型构建出适用于GF-5 DPC的多参量综合PM2.5浓度估算模型。本申请直接建立了DPC偏振反射率数据与PM2.5浓度之间的关系,构建了TOA-PM2.5模型,减少了由AOD中间环节带来的误差传递,进一步提升了PM2.5浓度估算的精度。在此基础上,为PM2.5浓度的估算提供一种新的技术方法。
由于卫星表观反射率产品与PM2.5之间的关系非常复杂,故本申请提出了一种结合RF、XGBoost和LightGBM三种机器学习模型的融合模型,为卫星偏振遥感PM2.5浓度的估算提供了一种新的方法。同时本申请首次将融合机器学习算法应用于GF-5 DPC偏振数据估算PM2.5浓度,提高了估算精度。
示例性应用
本申请实施例选用某地区内地面PM2.5监测站点实测数据对PM2.5估算结果进行验证,按经纬度逐点统计地面PM2.5监测站点与PM2.5估算结果,并进行对比分析。采用估算结果与实测值之间的相关系数R和均方根误差RMSE作为评价指标。结果表明,PM2.5浓度估算融合模型充分利用了融合模型能够快速处理高维度数据和拟合复杂关系的优势,大大提升了基于遥感监测进行PM2.5浓度估算的准确性和时空连续观测能力。
示例性***
本申请实施例还提供一种基于机器学习融合模型的卫星偏振PM2.5估算***,如图3所示,该***包括:获取单元301、构建单元302、训练单元303和估算单元304。其中:
获取单元301,配置为获取卫星遥感影像、气象数据和PM2.5浓度数据;其中,所述卫星遥感影像包括波长
Figure 987151DEST_PATH_IMAGE067
三个偏振波段,所述PM2.5浓度数据是通过地面空气质量监测站点采集得到的。
构建单元302,配置为基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集。
训练单元303,配置为基于所述样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型。
估算单元304,配置为基于所述PM2.5浓度估算融合模型对PM2.5浓度进行估算。
本申请实施例提供的基于机器学习融合模型的卫星偏振PM2.5估算***,能够实现上述任一实施例所提供的基于机器学习融合模型的卫星偏振PM2.5估算方法的步骤、流程,并达到相同的技术效果,在此不再一一赘述。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种基于机器学习融合模型的卫星偏振PM2.5估算方法,其特征在于,包括:
获取卫星遥感影像、气象数据和PM2.5浓度数据;其中,所述卫星遥感影像包括波长为
Figure DEST_PATH_IMAGE001
的三个偏振波段,所述PM2.5浓度数据是通过地面空气质量监测站点采集得到的;
基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集;
基于所述样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,并使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型;
基于所述PM2.5浓度估算融合模型对PM2.5浓度进行估算。
2.根据权利要求1所述的基于机器学习融合模型的卫星偏振PM2.5估算方法,其特征在于,在基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集之前,所述方法还包括:
根据所述偏振波段的观测角度信息,逐个像素对所述卫星遥感影像进行筛选,得到第二卫星遥感影像。
3.根据权利要求2所述的基于机器学习融合模型的卫星偏振PM2.5估算方法,其特征在于,每一个所述偏振波段包括偏振反射率矢量以及观测几何信息;
对应地,
所述基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集,具体为:
从所述偏振波段分别提取偏振反射率矢量以及观测几何信息;
对所述气象数据进行重采样,得到与所述卫星遥感影像分辨率一致的重采样气象数据;
以所述PM2.5浓度数据为基准,对所述第二卫星遥感影像、所述重采样气象数据、所述偏振反射率矢量以及所述观测几何信息进行时空匹配,得到时空尺度统一的样本数据集。
4.根据权利要求1所述的基于机器学习融合模型的卫星偏振PM2.5估算方法,其特征在于,所述基于所述样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,并使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型,具体为:
以所述PM2.5浓度数据作为因变量,所述卫星遥感影像、所述气象数据作为自变量,分别对第一机器学习子模型、第二机器学习子模型、第三机器学习子模型进行训练,得到训练完成的第一机器学习子模型、训练完成的第二机器学习子模型、训练完成的第三机器学习子模型;
使用训练完成的第一机器学习子模型的预测值、训练完成的第二机器学习子模型的预测值、训练完成的第三机器学习子模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型。
5.根据权利要求1所述的基于机器学习融合模型的卫星偏振PM2.5估算方法,其特征在于,采用五折交叉方法分别对第一机器学习子模型、第二机器学习子模型、第三机器学习子模型进行训练。
6.根据权利要求1所述的基于机器学习融合模型的卫星偏振PM2.5估算方法,其特征在于,所述第一机器学习子模型为随机森林模型,所述第二机器学习子模型为极端梯度提升模型,所述第三机器学习子模型为轻量级分布式梯度提升框架。
7.根据权利要求6所述的基于机器学习融合模型的卫星偏振PM2.5估算方法,其特征在于,所述极端梯度提升模型的目标函数为:
Figure 472637DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
表示损失函数,
Figure 91575DEST_PATH_IMAGE004
表示常数项;
Figure DEST_PATH_IMAGE005
表示惩罚项;
Figure 12258DEST_PATH_IMAGE006
表示第t轮极端梯度提升模型的预测,
Figure DEST_PATH_IMAGE007
表示在第t轮极端梯度提升模型对应的函数;
Figure 345150DEST_PATH_IMAGE008
表示第i个样本;
Figure DEST_PATH_IMAGE009
表示第i个预测值。
8.根据权利要求7所述的基于机器学习融合模型的卫星偏振PM2.5估算方法,其特征在于,所述轻量级分布式梯度提升框架的增益计算公式如下:
Figure 697257DEST_PATH_IMAGE010
式中,
Figure DEST_PATH_IMAGE011
表示决策树某个固定结点d处分割特征j的信息增益;A、B表示样本数据子集;a、b分别表示样本数据子集A、B的大小;
Figure 660665DEST_PATH_IMAGE012
表示损失函数的负梯度方向,n表示样本数据集的实例个数,
Figure DEST_PATH_IMAGE013
表示左节点样本数据集,
Figure 130961DEST_PATH_IMAGE014
右节点样本数据集。
9.一种基于机器学习融合模型的卫星偏振PM2.5估算***,其特征在于,包括:
获取单元,配置为获取卫星遥感影像、气象数据和PM2.5浓度数据;其中,所述卫星遥感影像包括波长为
Figure DEST_PATH_IMAGE015
的三个偏振波段,所述PM2.5浓度数据是通过地面空气质量监测站点采集得到的;
构建单元,配置为基于所述卫星遥感影像、所述气象数据和所述PM2.5浓度数据,构建样本数据集;
训练单元,配置为基于所述样本数据集,将第一机器学习子模型、第二机器学习子模型、第三机器学习子模型作为基模型,分别对三个基模型进行训练,并使用三个基模型的预测值对线性回归模型进行训练,得到PM2.5浓度估算融合模型;
估算单元,配置为基于所述PM2.5浓度估算融合模型对PM2.5浓度进行估算。
CN202211276452.3A 2022-10-19 2022-10-19 基于机器学习融合模型的卫星偏振pm2.5估算方法和*** Active CN115356249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211276452.3A CN115356249B (zh) 2022-10-19 2022-10-19 基于机器学习融合模型的卫星偏振pm2.5估算方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211276452.3A CN115356249B (zh) 2022-10-19 2022-10-19 基于机器学习融合模型的卫星偏振pm2.5估算方法和***

Publications (2)

Publication Number Publication Date
CN115356249A true CN115356249A (zh) 2022-11-18
CN115356249B CN115356249B (zh) 2023-01-31

Family

ID=84008208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211276452.3A Active CN115356249B (zh) 2022-10-19 2022-10-19 基于机器学习融合模型的卫星偏振pm2.5估算方法和***

Country Status (1)

Country Link
CN (1) CN115356249B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116429648A (zh) * 2023-03-23 2023-07-14 河南大学 改进的时空LightGBM的地表PM10估算方法
CN116466368A (zh) * 2023-06-16 2023-07-21 成都远望科技有限责任公司 基于激光雷达和卫星资料的沙尘消光系数廓线估算方法
CN116698688A (zh) * 2023-04-20 2023-09-05 兰州大学 一种基于风云4号双星协同估算大气颗粒物浓度的方法
CN117313564A (zh) * 2023-11-30 2023-12-29 自然资源部第二海洋研究所 反演海洋-大气光学参数的方法、装置及存储介质
CN117592004A (zh) * 2024-01-19 2024-02-23 中国科学院空天信息创新研究院 Pm2.5浓度卫星监测方法、装置、设备及介质
CN117592005A (zh) * 2024-01-19 2024-02-23 中国科学院空天信息创新研究院 Pm2.5浓度卫星遥感估算方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108106979A (zh) * 2017-12-21 2018-06-01 深圳先进技术研究院 一种基于modis和机器学习模型融合的pm2.5反演方法
CN110595960A (zh) * 2019-08-02 2019-12-20 中国科学院遥感与数字地球研究所 一种基于机器学习的pm2.5浓度遥感估算方法
CN112016696A (zh) * 2020-08-14 2020-12-01 武汉大学 融合卫星与地基观测的pm1浓度反演方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108106979A (zh) * 2017-12-21 2018-06-01 深圳先进技术研究院 一种基于modis和机器学习模型融合的pm2.5反演方法
CN110595960A (zh) * 2019-08-02 2019-12-20 中国科学院遥感与数字地球研究所 一种基于机器学习的pm2.5浓度遥感估算方法
CN112016696A (zh) * 2020-08-14 2020-12-01 武汉大学 融合卫星与地基观测的pm1浓度反演方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵滨: "大气污染大数据平台的设计与实现", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 *
黄烈星: "基于Stacking融合模型的PM2.5浓度时空变化分析及预测", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116429648A (zh) * 2023-03-23 2023-07-14 河南大学 改进的时空LightGBM的地表PM10估算方法
CN116429648B (zh) * 2023-03-23 2023-11-17 河南大学 改进的时空LightGBM的地表PM10估算方法
CN116698688A (zh) * 2023-04-20 2023-09-05 兰州大学 一种基于风云4号双星协同估算大气颗粒物浓度的方法
CN116466368A (zh) * 2023-06-16 2023-07-21 成都远望科技有限责任公司 基于激光雷达和卫星资料的沙尘消光系数廓线估算方法
CN116466368B (zh) * 2023-06-16 2023-08-22 成都远望科技有限责任公司 基于激光雷达和卫星资料的沙尘消光系数廓线估算方法
CN117313564A (zh) * 2023-11-30 2023-12-29 自然资源部第二海洋研究所 反演海洋-大气光学参数的方法、装置及存储介质
CN117313564B (zh) * 2023-11-30 2024-04-12 自然资源部第二海洋研究所 反演海洋-大气光学参数的方法、装置及存储介质
CN117592004A (zh) * 2024-01-19 2024-02-23 中国科学院空天信息创新研究院 Pm2.5浓度卫星监测方法、装置、设备及介质
CN117592005A (zh) * 2024-01-19 2024-02-23 中国科学院空天信息创新研究院 Pm2.5浓度卫星遥感估算方法、装置、设备及介质
CN117592004B (zh) * 2024-01-19 2024-04-12 中国科学院空天信息创新研究院 Pm2.5浓度卫星监测方法、装置、设备及介质
CN117592005B (zh) * 2024-01-19 2024-04-26 中国科学院空天信息创新研究院 Pm2.5浓度卫星遥感估算方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115356249B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN115356249B (zh) 基于机器学习融合模型的卫星偏振pm2.5估算方法和***
CN110174359B (zh) 一种基于高斯过程回归的航空高光谱影像土壤重金属浓度评估方法
CN101963664B (zh) 基于水陆地物分类信息的微波遥感混合像元分解方法
CN111007021A (zh) 基于一维卷积神经网络的高光谱水质参数反演***及方法
CN106226212B (zh) 基于深度残差网络的高光谱霾监测方法
CN109030378A (zh) 基于pso-elm的粳稻冠层叶绿素含量反演模型方法
Qiao et al. Estimating maize LAI by exploring deep features of vegetation index map from UAV multispectral images
CN114880933A (zh) 一种基于再分析资料的无探空站点地基微波辐射计大气温湿廓线反演方法及***
CN114005048A (zh) 基于多时相数据的土地覆盖变化与热环境影响研究方法
CN115128013A (zh) 一种基于分区算法的土壤有机质含量空间预测评估方法
CN117409334B (zh) 一种基于静止卫星遥感数据的气溶胶类型识别方法
CN107895136A (zh) 一种煤矿区域识别方法及***
Kamal et al. Comparison of Google Earth Engine (GEE)-based machine learning classifiers for mangrove mapping
Liu et al. Hyperspectral infrared sounder cloud detection using deep neural network model
CN113297904B (zh) 一种基于卫星驱动模型的高寒草地生物量估算方法及***
Lou et al. Recognition of thaw slumps based on machine learning and UAVs: A case study in the Qilian Mountains, northeastern Qinghai-Tibet Plateau
CN103530875B (zh) 一种端元提取数据预处理方法
CN110321528B (zh) 一种基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法
CN117054484A (zh) 一种基于多源遥感数据的土壤盐渍化预测方法
Wang et al. Spatial scaling of forest aboveground biomass using multi-source remote sensing data
CN114357885B (zh) 一种融合多源数据的光合有效辐射散射比例预测方法
CN109186474A (zh) 一种基于岭回归的气溶胶光学厚度反演偏差纠正方法
AU2021105233A4 (en) Method of Retrieving Surface Temperature from Passive Microwave Remote Sensing Data AMSR E
CN113762467B (zh) 基于紫外和可见高光谱获得近地面臭氧浓度的方法
CN114047563A (zh) 一种红外高光谱的全天候同化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant