CN109186474A

CN109186474A - 一种基于岭回归的气溶胶光学厚度反演偏差纠正方法

Info

Publication number: CN109186474A
Application number: CN201811184427.6A
Authority: CN
Inventors: 杭仁龙; 葛玲玲; 刘青山
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-01-11

Abstract

本发明公开一种基于岭回归的气溶胶光学厚度反演偏差纠正方法，属于计算机气象应用技术领域。先用“暗目标”算法反演气溶胶光学厚度并将其作为初始化结果；再构建反演偏差纠正框架纠正反演结果，在串联方式中，将“暗目标”算法得到的气溶胶光学厚度作为岭回归模型的一个有效特征对反演结果进行纠正，在并联方式中，用岭回归模型直接学习物理模型的反演结果与真实值间的残差对反演结果进行纠正。本发明充分融合了物理模型与机器学习模型的优点，在串联方式中利用物理模型反演的气溶胶光学厚度值作为岭回归模型的特征，在并联方式中利用岭回归模型直接学习物理模型的反演结果与真实值间的残差，更好地反演气溶胶光学厚度，提高了反演性能和反演准确率。

Description

一种基于岭回归的气溶胶光学厚度反演偏差纠正方法

技术领域

本发明涉及一种基于岭回归的气溶胶光学厚度反演偏差纠正方法，属于计算机气象应用技术领域。

背景技术

大气气溶胶是指悬浮在大气中的固体以及液体微粒与气体载体共同组成的多相体系，是大气的重要组成部分。一般认为，大气气溶胶粒子的直径在几个纳米到几十微米之间。大气气溶胶的主要来源包括各种源的释放(如人为排放的烟尘,沙漠地区的沙尘等)以及气-粒转换(如大气中的二氧化氮和二氧化硫可以转换为相应的硝酸盐和硫酸盐气溶胶)，其突出的特性在于其物理化学性质的高度时空可变性。气溶胶在地球-大气辐射收支平衡和全球气候变化中扮演着重要的角色，并主要通过直接和间接效应两种机制对气候变化产生影响。直接效应是指气溶胶粒子可以散射和吸收太阳辐射,进而造成到达地面的太阳辐射能、大气顶太阳辐射能以及大气内部太阳辐射能的变化,从而影响地气***的辐射收支；间接效应是指气溶胶粒子的存在可以改变云的物理和微物理特性,并进而改变云的辐射特性,从而间接的影响太阳辐射能在地气***中的分配。

除此之外，气溶胶还严重影响着人们的日常生活。对我国而言，截止到目前为止，气溶胶对城市污染的衡量，通常使用与气溶胶相关的三个重要的环境污染指标：总悬浮颗粒物、PM₁₀(粒径在2.5微米和10微米之间的颗粒物)、PM_2.5(粒径小于2.5微米的颗粒物)。气溶胶微粒被人体吸入，会累积在呼吸***中，引发多种疾病，尤其是以细颗粒物PM_2.5对人类危害更大。与较粗的大气颗粒物相比，细颗粒物PM_2.5粒径小，且富含大量的有毒物质。由于其粒径小，因此被人体吸入后，可深入到细支气管和肺泡，直接影响肺的通气功能，使机体容易处在缺氧状态，从而引发多种疾病。此外，当大气中的大气气溶胶粒子急剧增加时，就会引发雾霾天气，降低大气能见度，从而造成严重的大气环境污染。

如何量化气溶胶对地球-大气辐射收支平衡的影响是当前气候研究的最大挑战之一。气溶胶光学厚度(AOD)是描述气溶胶光学性质的重要度量指标，一般指整层气溶胶的消光系数在垂直方向上的积分。AOD已经成为许多对地观测卫星(例如中等分辨率成像仪MODIS、多角度成像光谱仪MISR等)的主要大气产品。这些卫星通过获取的辐射数据来反演相应的AOD值。现有的卫星反演算法大多基于物理动力学模型。这类模型需要考虑影响辐射特性的物理变量(比如大气条件、太阳方位角和天顶角、传感器的方位角和天顶角等)，并利用辐射传输方程构建复杂的数学公式，以表示变量之间的关系。为了简化计算，通常在假定气溶胶模式、大气模式以及相应几何关系的情况下，利用大气辐射传输模型(如6S模型等)构建查找表，然后通过卫星观测的地表反射率、相应几何参数以及对应波段的表观反射率从查找表中查找对应的AOD值。然而，由于复杂的地球-大气交互作用，很难考虑所有相关的物理变量并准确地建立它们之间的关系。此外，搜索查找表计算量较大，通常需要耗费很多时间。当前，MODIS卫星在北京和香河站点反演AOD的算法为第六代“暗目标”算法。尽管第六代算法在第五代的基础上进行了一定的增强和代码修复，但它们基于同样的原则。首先，对10×10平方公里范围内大气顶层的反射率进行筛选，去除被云、沙漠、冰雪等覆盖的不可用像素点，并利用2.12微米光谱波段识别“暗目标”像素；然后，去除0.66微米光谱波段中前50％的亮像素和20％的暗像素，将剩余像素的反射率进行平均；其次，根据2.12微米波段大气顶层的反射率推导可见光波段(0.47微米和0.66微米)的地表反射率；最后，将细模态的气溶胶模式与粗模态的气溶胶模式进行加权组合，以求得AOD的值。气溶胶的模式由观测站点的位置、季节等因素决定。“暗目标”算法不能用于亮地表区域，比如沙漠、雪地等，因为可见光波段地表反射率与2.12微米波段大气顶层反射率的关系在这些区域不成立。

物理模型的一种替代方案是机器学习模型，该类模型可以看作是由数据驱动的回归方法。大气气溶胶反演可以看作是机器学习中的回归问题，学习光谱值与气溶胶光学厚度之间的映射函数。首先，利用匹配的卫星观测数据和地基观测数据训练一个回归模型；然后，使用训练好的回归模型预测给定卫星观测的AOD值。神经网络和支持向量机是此类模型中使用最多的两种模型,因为它们能够近似卫星观测和地基观测之间复杂的非线性关系。不同于物理模型，机器学习模型不需要预先假设不同变量之间的关系、函数形式等，计算量小，能够应用于不同的反演场景。更为重要的是，给定足够多的训练样本，机器学习模型能够获得比物理模型更高的反演精度。

众所周知，岭回归是一种多元线性回归模型，它将2范数融入到最小二乘模型中。得益于模型的简单性和灵活性，岭回归模型已经被广泛地应用于各个领域，例如人脸识别、生物信息学、化学信息学等。近年来，部分学者尝试利用岭回归模型，直接从遥感数据反演生物物理学参数(比如叶绿素浓度、叶面积指数等)。遥感数据通常包含大量的未标注样本，为了充分挖掘其中蕴藏的有效信息，我们考虑采用岭回归模型，以捕获遥感数据的非线性分布特性。

对于机器学习模型而言，如何对遥感数据进行有效的表示是其能否成功应用的关键，已有的模型往往直接使用部分波段的光谱值作为特征。然而，由于校准误差等的影响，遥感数据通常会受到各种各样的退化，如噪声污染、条纹干扰、数据缺失等。在没有任何预处理的情况下，直接使用这些受干扰的数据作为特征会降低模型的反演性能。此外，机器学习模型很难从物理意义上对其结果进行解释。近年来，部分学者将物理模型作为先验知识，融入到机器学习模型中，对植物生长过程进行建模。受到这些工作的启发，我们提出一种基于岭回归的气溶胶光学厚度反演偏差纠正模型，以组合物理模型和机器学习模型各自的优点。这种反演偏差纠正模型先用基于“暗目标”算法的物理模型推导出初始的反演结果，然后用岭回归模型纠正“暗目标”算法反演结果的偏差，从而提高模型的反演精确度。

发明内容

本发明要解决的技术问题是针对现有物理模型需预设相关变量建立气溶胶关系函数且计算工作量大，而机器学习直接使用受干扰数据作为气溶胶特征降低了模型的反演性能等不足，提出一种基于岭回归的气溶胶光学厚度反演偏差纠正方法，先采用基于“暗目标”算法的物理模型推导出初始的反演结果，再利用岭回归模型纠正“暗目标”算法反演结果的偏差，组合物理模型和机器学习模型各自的优点，提高模型的反演精确度。

为解决上述技术问题，本发明提供一种基于岭回归的气溶胶光学厚度反演偏差纠正方法，首先采用“暗目标”算法反演气溶胶光学厚度并将其作为初始化结果；然后构建反演偏差纠正框架，通过串联和并联两种方式对反演结果进行纠正，在串联方式中，将“暗目标”算法得到的气溶胶光学厚度作为岭回归模型的一个有效特征，对反演结果进行纠正；在并联方式中，用岭回归模型直接学习物理模型的反演结果与真实值之间的残差，对反演结果进行纠正。

所述基于岭回归的气溶胶光学厚度反演偏差纠正方法的具体步骤为：

(1)先收集大气顶层的反射率数据并对其进行筛选，去除被云、沙漠、冰雪等覆盖的不可用像素点，然后通过“暗目标”算法反演气溶胶光学厚度AOD值，并将其作为初始化结果；

(2)将“暗目标”算法和岭回归模型f(x；w)进行耦合，形成如下反演偏差纠正模型：

式中，表示估计的AOD值，y_mod表示“暗目标”算法反演的结果，x表示模型输入特征，w是岭回归模型中的参数向量，符号表示耦合操作；通常情况下，没有通用的耦合操作，实际的设计取决于领域知识的存在形式；

(3)通过串联和并联两种方式的反演偏差纠正模型，进行反演偏差纠正；在串联方式中，将步骤(2)的模型改写为如下形式：

其中，上标T表示矩阵的转置，参数w的最优值记为w^*；

串联方式将“暗目标”算法反演的结果y_mod作为一种特征输入到岭回归模型f(x；w)中，即将“暗目标”算法反演的所有AOD值作为一种特征输入到岭回归模型f(x；w)中，由岭回归模型对特征进行自动筛选，对“暗目标”算法的反演结果进行纠正。

在模型测试阶段，先利用“暗目标”算法反演一个初始值，再由公式推导纠正的AOD值，w^*为参数w的最优值。在串联方式中，岭回归模型起到偏差纠正作用；更为重要的是使用所有的光谱值作为特征，并用岭回归模型对特征进行自动筛选，使得模型能够获得更好的反演性能。

在并联方式中，将步骤(2)的模型改写为如下形式；

此时，岭回归模型f(x；w)的标签从y变为y-y_mod；

并联方式利用岭回归模型f(x；w)学习“暗目标”算法的反演结果与真实值之间的残差，对“暗目标”算法的反演结果进行纠正。

在模型测试阶段，先利用岭回归模型计算“暗目标”算法与真实值之间残差，再通过公式来估算纠正的AOD值，w^*为参数w的最优值。在并联方式中，岭回归模型被用来学习“暗目标”算法与真实值之间的残差，学习到的残差加上“暗目标”算法反演的AOD值，从而纠正反演的AOD值；即将物理模型和机器学习模型结合起来。

所述用于反演气溶胶光学厚度的“暗目标”算法采用MODIS卫星的第六代“暗目标”算法。

本发明方法中的反演偏差纠正框架均使用了岭回归模型来纠正由“暗目标”算法导致的偏差。串联方式中，岭回归模型对特征进行自动筛选，使得模型能够获得更好的反演性能；并联方式中，岭回归模型被用来直接学习“暗目标”算法与真实值之间的残差，使得模型能够获得更好的反演性能。

下面对本发明方法中的岭回归模型进行简要说明。

给定l个标注样本和u个未标注样本其中，d是特征空间的维度。为了便于计算，通常可以将数据表示成矩阵的形式。例如用X＝[x₁，…，x_l+u]^T表示整个数据集，X_t＝[x₁，…，x_l]^T表示训练集，上标“T”表示矩阵的转置。

线性回归的核心思想是拟合函数f(x；w)＝x^Tw+b，使得预测值与真实值误差的平方和(损失函数)最小，即：为了方便推导，可以在每个变量x_i中添加一个元素1，从而将参数b放入向量w中。假设Y_t＝[y₁，…，y_l]^T,则目标函数可以写成矩阵的形式：该函数的解为然而，在许多实际应用中，样本不同特征之间具有较强的相关性或者特征的维度大于训练样本的个数，使得协方差矩阵往往是奇异矩阵。一种常用的解决方案是在w上添加惩罚项：

其中，α||w||²为吉洪诺夫正则项，统计学上称作岭回归。为本式的解，“I”表示d×d维的单位矩阵。

本发明充分融合了物理模型与机器学习模型各自的优点，提出了一种基于岭回归的气溶胶光学厚度反演偏差纠正框架，在串联方式中利用物理模型反演的气溶胶光学厚度值作为岭回归模型的特征，在并联方式中利用岭回归模型直接学习物理模型的反演结果与真实值之间的残差，通过反演偏差纠正框架纠正由“暗目标”算法导致的偏差，更好地反演了气溶胶光学厚度，大大提高了反演性能和反演准确率，具有较好的反演性能。在同样的实验条件下，本发明方法的反演准确率均比“暗目标”算法、岭回归方法的准确率高。

附图说明

图1为本发明基于岭回归的气溶胶光学厚度反演偏差纠正方法的原理图。

图2为本发明方法中的反演偏差纠正框架的串联方式示意图。

图3为本发明方法中的反演偏差纠正框架的并联方式示意图。

图4为本发明方法中岭回归模型的正则化参数α对反演性能的影响。

图5为本发明方法中将“暗目标”算法、岭回归算法、串联方式和并联方式这四种不同方法应用在不同数量的训练样本上得到的皮尔逊相关系数及其标准偏差。

图6为本发明方法中将“暗目标”算法、岭回归算法、串联方式和并联方式这四种不同方法应用在不同数量的训练样本上得到的均方根误差及其标准偏差。

图7为本发明方法中将“暗目标”算法和串联方式两种方法应用在50％的训练样本上得到的反演结果的散点图。

图8为本发明方法中将“暗目标”算法和并联方式两种方法应用在50％的训练样本上得到的反演结果的散点图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步详尽描述，实施例中未注明的技术或产品，均为现有技术或可以通过购买获得的常规产品。

实施例1：如图1-8所示，本基于岭回归的气溶胶光学厚度反演偏差纠正方法是：首先，采用“暗目标”算法反演气溶胶光学厚度并将其作为初始化结果；然后，然后构建反演偏差纠正框架，通过串联和并联两种方式对反演结果进行纠正，在串联方式中，将“暗目标”算法得到的气溶胶光学厚度作为岭回归模型的一个有效特征，对反演结果进行纠正；在并联方式中，用岭回归模型直接学习物理模型的反演结果与真实值之间的残差，对反演结果进行纠正。包括以下步骤：

(1)选择“暗目标”算法反演气溶胶光学厚度并将其作为初始化结果；即先收集大气顶层的反射率数据并对其进行筛选，去除被云、沙漠、冰雪等覆盖的不可用像素点，然后通过“暗目标”算法反演气溶胶光学厚度(AOD)，并将其作为初始化结果。

具体实施时，选择MODIS卫星的第六代“暗目标”算法反演气溶胶光学厚度。这种“暗目标”算法不能用于亮地表区域，比如云、沙漠、雪地等，因为可见光波段地表反射率与2.12微米波段大气顶层反射率的关系在这些区域不成立。为了避免这些地区的影响，我们需要大气顶层的反射率进行筛选，去除被云、沙漠、冰雪等覆盖的不可用像素点，然后再反演气溶胶光学厚度，并将其作为初始化结果。

(2)将“暗目标”算法和岭回归模型进行耦合得到反演偏差纠正模型，然后再纠正反演的AOD值。

气溶胶光学厚度反演偏差纠正使用的是本发明方法中的反演偏差纠正模型。如图1所示，反演偏差纠正模型由两个子模型组成：“暗目标”算法和岭回归模型。模型耦合过程可以用如下形式表示：

式中，表示估计的AOD值，x表示模型输入特征，y_mod表示“暗目标”算法反演的结果，w是岭回归模型中的参数向量，符号表示耦合操作。通常情况下，没有通用的耦合操作，实际的设计取决于领域知识的存在形式。

对于光学气溶胶厚度反演而言，领域知识包含在“暗目标”算法中。因此，本发明方法提出一种基于岭回归的气溶胶光学厚度反演偏差纠正框架，将物理模型和机器学习模型结合起来。反演偏差纠正模型包含串联和并联两种方式。图2为串联方式，图3为并联方式。在串联方式中，“暗目标”算法反演的结果y_mod作为一种特征输入到岭回归模型中，从而纠正“暗目标”算法的反演结果；在并联方式中，岭回归模型被用来学习“暗目标”算法与真实值之间的残差，从而纠正“暗目标”算法的反演结果。

串联方式中，将“暗目标”算法反演的AOD值作为一种特征输入到岭回归模型中，此时，前述的反演偏差纠正模型可以写成如下形式：

其中，式(2)中，参数w的最优值记为w^*。在模型测试阶段，首先利用“暗目标”法反演一个初始值，然后由公式推导最终的AOD值。

在串联方式中，岭回归模型起到偏差纠正作用。更为重要的是，本方法使用所有的光谱值作为特征，并用岭回归模型对特征进行自动筛选，使得模型能够获得更好的反演性能。

并联方式中，岭回归模型被用来学习“暗目标”算法与真实值之间的残差，此时，前述的反演偏差纠正模型可以写成如下形式：

因此，岭回归模型的标签从y变为y-y_mod，参数w的最优值记为w^*。

在模型测试阶段，首先利用岭回归模型计算“暗目标”算法与真实值之间残差，然后通过公式来估计最终的AOD值。

本发明方法中的反演偏差纠正模型包含串联和并联两种方式，均使用了岭回归模型来纠正由“暗目标”算法导致的偏差。串联方式中，岭回归模型对特征进行自动筛选，使得模型能够获得更好的反演性能；并联方式中，岭回归模型被用来直接学习“暗目标”算法与真实值之间的残差，使得模型能够获得更好的反演性能。下面对岭回归模型进行简要说明。

本发明在北京观测站(39.98°N，116.38°E)、香河观测站(39.75°N，116.96°E)、杭州农林大学观测站ZFU(30.26°N，119.73°E)、合肥观测站(31.91°N，117.76°E)、香港理工大学观测站(22.30°N，114.18°E)、香港观测站(22.48°N，114.12°E)、兰州大学半干旱气候与环境观测站SACOL(35.95°N，104.14°E)、太湖观测站(31.42°N，120.22°E)、兴隆观测站(40.40°N，117.58°E)、榆林观测站(38.28°N，109.72°E)10个中国的气溶胶观测站点上应用，利用本发明所提出的方法，将反演偏差纠正模型用于纠正由“暗目标”算法导致的偏差，从而提高模型的反演精确度。采用地基观测网(AERONET)的反演值作为样本的真实标签，即模型输出；以中等分辨率成像光谱仪(MODIS)所有波段的光谱值作为模型输入。

AERONET是由美国国家宇航局NASA和法国国家科学研究中心CNRS共同建立的一个地基气溶胶遥感网络。全球大约有250个地基设备对气溶胶进行观测，它们使用CIMEL光谱仪测量来自太阳的辐射以及天空散射的辐射，从而计算不同光谱波段的AOD值，这些波段的中心波长包括340纳米、440纳米、670纳米等。为了便于比较不同观测设备之间的反演结果，通常需要将AERONET的反演结果插值到中心波长为550纳米的波段。AERONET提供了3种不同质量等级的产品数据，分别为：Level 1.0,没有经过云过滤和最后验证的数据；Level 1.5，经过云过滤但没有最后验证的数据；以及Level 2.0,经过云过滤和最后验证、有质量保证的数据。我们采用Level 2.0数据。

MODIS是装载在TERRA卫星上的一个传感器，用来收集气溶胶和云的信息。它的扫描宽度为2330千米，能够从36个不同的光谱通道观测大气顶层的光谱反射率，包括可见光、近红外和红外波段。MODIS具有三个不同的空间分辨率，分别为250米、500米和1000米。我们收集了空间分辨率为1000米且包含10个AERONET站点数据的Level-1B校准辐射产品MOD021KM。

由于观测设备的差异，MODIS产品与AERONET产品需要在空间和时间上进行匹配，判断某个观测为有效观测的条件有三个方面：第一，以每个观测站点为中心，周边30×30平方千米范围内至少有一个无云像素；第二，至少有一个MODIS气溶胶反演产品可信度(QA)超过1；第三，MODIS过境前后半小时内至少有一个可用的AERONET气溶胶产品。根据以上原则，利用多传感器气溶胶产品采样***AERONET和MODIS从中国10个站点共收集到3093个匹配的有效观测数据。取每个有效观测数据周边30×30平方千米范围内所有数据光谱波段的平均值作为模型的输入(即输入特征维数为36)，前后半小时内AERONET的反演平均值作为模型的输出。

本实施例中，应用本发明的过程具体如下：

1、选择“暗目标”算法反演气溶胶光学厚度并将其作为初始化结果

选择MODIS卫星的第六代“暗目标”算法反演气溶胶光学厚度，并将这种物理模型作为基准用来得到初始化结果。首先，对10×10平方公里范围内大气顶层的反射率进行筛选，去除被云、沙漠、冰雪等覆盖的不可用像素点，并利用2.12微米光谱波段识别“暗目标”像素；然后，去除0.66微米光谱波段中前50％的亮像素和20％的暗像素，将剩余像素的反射率进行平均；其次，根据2.12微米波段大气顶层的反射率推导可见光波段(0.47微米和0.66微米)的地表反射率；最后，将细模态的气溶胶模式与粗模态的气溶胶模式进行加权组合，以求得AOD的值。

2、构建反演偏差纠正框架

为纠正气溶胶光学厚度反演偏差，建立一种基于岭回归的气溶胶光学厚度反演偏差纠正模型。反演偏差纠正模型包含串联和并联两种方式。在串联方式中，将“暗目标”算法的反演结果y_mod作为一种特征输入到岭回归模型中，反演结果可以写成其中，正则化参数w的最优值w^*可以参考岭回归模型的求解得到：

其中，α||w||²为惩罚项。对于气溶胶反演而言，中国只有几个地表观测站点，且可得到的气溶胶真实值有限。此外，地表观测必须要和卫星观测在时空上进行匹配。加之，各个光谱反射率之间强烈相关的，因此，使得协方差矩阵往往是奇异矩阵，需要添加惩罚项α||w||²才能求解。

在模型测试阶段，首先利用“暗目标”算法反演一个初始值，然后由公式推导最终的AOD值。在串联方式中，由于“暗目标”算法中包含了气溶胶反演的领域知识，因而“暗目标”算法的反演结果是一种有效的特征，有利于提高气溶胶光学厚度的反演。更为重要的是，串联方式使用所有的光谱值和“暗目标”算法的反演结果作为特征，并用岭回归模型对特征进行自动筛选，使得模型能够获得更高的反演性能。

为了分析岭回归模型中正则化参数α对反演性能的影响，以北京和香河站点为例进行实验，使用50％的样本作为训练集，剩下的样本作为测试集，从{10^-3，10^-2，…，10²，10³}中选取正则化参数α。如图4所示，随着正则化参数α的增大，RMSE先减小然后增大。因此，最优的正则化参数α为10^-1。

在并联方式中，岭回归模型被用来学习“暗目标”算法与真实值之间的残差，此时，反演结果可以写成因此，岭回归模型的标签(模型输出)从y变为y-y_mod，即f(x；w)＝y-y_mod。其中，正则化参数w的最优值w^*可根据式得到。

并联方式利用岭回归模型直接学习“暗目标”算法与真实值之间的残差，从而纠正“暗目标”算法的反演结果，同样有利于提高气溶胶光学厚度的反演性能。

为了验证本发明的有效性，本实施例中对“暗目标”算法、岭回归算法、串联方式和并联方式四种不同方法进行了对比，将“暗目标”算法作为基准得到初始化结果，利用基于岭回归模型的反演偏差纠正模型纠正由“暗目标”算法导致的偏差，从而提高模型的反演精确度。

本实施例所用的实验数据被随机的分成训练集和测试集两部分。训练集用于训练不同的机器学***均值。为不失一般性，使用皮尔逊相关系数(r)和均方根误差(RMSE)两种评价指标。为方便描述，“暗目标”反演算法、岭回归算法、串联方式和并联方式分别简称为DT、RR、Serial和Parallel。

图5比较了四种不同方法应用在不同数量的训练样本上进行10次实验的平均r值及其标准偏差。从图中我们可以观察到以下几点：第一，随着训练样本的增加，除了DT算法获得反演结果与真实值之间的r值保持相对稳定外，其他三种方法所获得的r值都在增大，说明物理模型的反演性能不依赖训练数据。第二，当训练样本的比例为10％时，RR的反演性能低于DT，因为少量的样本很难训练一个理想的机器学习模型。同理，RR很难准确学习DT反演的AOD值与真实AOD值之间的残差。不同于RR和Parallel，Serial将DT反演的AOD值作为一个特征，该特征在训练过程中将被赋予较大的权重，而其它特征权重较小，从而间接解决小样本训练的问题，获得比DT较高的精度。第三，当训练样本的比例超过10％时，DT在大多数情况下都能获得比RR更高的精度，因为线性模型RR不能准确模拟出光谱反射值与AOD值之间的非线性关系。相反，Serial和Parallel能够准确地纠正真实值与DT反演结果之间的偏差，并且使得它们能够获得比DT更好的反演结果。这些充分验证了反演偏差纠正模型的有效性。第四，与并联方式相比，串联方式或许更有前景，因为它能够获得更好地反演性能。以上结论可以从另一个度量指标RMSE中得到，如图6所示，RMSE值越小，反演精度越高。

此外，图7展示了Serial和DT反演的AOD值与真实AOD值的分布情况，横坐标表示真实的AOD值y，纵坐标表示反演得到的AOD值“+”标记为DT反演的结果分布，“*”标记为Serial反演的结果分布，黑色实线为最理想的数据位置，两条虚线表示可接受的误差范围。从图中可以看出，Serial反演的AOD值比DT反演的值更接近理想直线，特别是当真实AOD值较小时。此外，Serial反演的结果中，有更多的数据点落入两条虚线范围内。图8展示了Parallel和DT反演的AOD值与真实AOD值的分布情况，横坐标表示真实的AOD值y，纵坐标表示反演得到的AOD值“+”标记为DT反演的结果分布，“*”标记为Parallel反演的结果分布，黑色实线为最理想的数据位置，两条虚线表示可接受的误差范围。从图中可以看出，Parallel反演的AOD值比DT反演的值更接近理想直线，特别是当真实AOD值较小时。此外，Parallel反演的结果中，有更多的数据点落入两条虚线范围内。

本实施例中还验证了模型在地表类型和观测季节上的鲁棒性。依旧以北京和香河站点为例进行实验。表1列举了不同季节样本的分布情况，以一个季节的数据作为测试集测试模型的反演精度，剩余三个季节的数据作为训练集对模型进行训练。表2和表3分别展示了不同模型所获得的RMSE值和r值，加粗的字体表示相同条件下最好的结果。从这些表中可以看出，Serial在春、夏、秋三个季节上的反演精度高于其它三个模型，而Parallel在四个季节的平均性能上略优于Serial，因为其在冬季能够具有更好的预测结果。此外，表4展示了不同模型在不同季节落在接受域的百分比(PAR)，通过观察，发现Parallel和Serial可以获得更多可接受的反演结果。类似的，表5,6,7分别从RMSE值，r值和PAR值三个方面比较了不同模型在不同站点的反演结果，以一个站点的数据训练模型，另一个站点的数据测试模型，Parallel在四个季节的平均性能上再次获得了最好的反演结果。

表1在北京和香河站点不同季节样本数的分布

季节	月份	样本数
			春季	3-5月	443
夏季	6-8月	441
			秋季	9-11月	578
冬季	12-2月	55
			总和	-	1517

表2在北京和香河站点不同模型在不同季节反演性能的比较(RMSE)

表3在北京和香河站点不同模型在不同季节反演性能的比较(r)

模型	春季	夏季	秋季	冬季	平均
						DT	0.9285	0.9230	0.9478	0.9298	0.9323
RR	0.8747	0.8998	0.9164	0.5609	0.8130
						Parallel	0.9337	0.9322	0.9612	0.9461	0.9433
Serial	0.9381	0.9366	0.9621	0.8459	0.9207

表4在北京和香河站点不同模型在不同季节反演性能的比较(PAR)

模型	春季	夏季	秋季	冬季	平均
						DT	0.4944	0.4989	0.6765	0.8182	0.6220
RR	0.4673	0.4739	0.4983	0.3636	0.4508
						Parallel	0.6682	0.5964	0.7751	0.8727	0.7281
Serial	0.6275	0.6009	0.6972	0.6364	0.6405

表5在北京和香河站点不同模型反演性能的比较(RMSE)

站点	DT	RR	Parallel	Serial
					北京	0.2406	0.2861	0.2199	0.2160
香河	0.1726	0.2764	0.1601	0.2086
					平均	0.2066	0.2812	0.1900	0.2123

表6在北京和香河站点不同模型反演性能的比较(r)

站点	DT	RR	Parallel	Serial
					北京	0.9103	0.8593	0.9147	0.9217
香河	0.9592	0.8701	0.9603	0.9411
					平均	0.9348	0.8647	0.9375	0.9314

表7在北京和香河站点不同模型反演性能的比较(PAR)

站点	DT	RR	Parallel	Serial
					北京	0.4958	0.4069	0.5836	0.5065
香河	0.6780	0.3724	0.7404	0.5718
					平均	0.5869	0.3897	0.6620	0.5392

综上可知，和“暗目标”算法、岭回归方法相比，本发明方法提出的反演偏差纠正框架从反演性能上来看，具有明显的优势，可以有效的纠正由“暗目标”算法导致的偏差。此外，串联方式的反演性能在大多数情况下优于并行方式，但并行方式在地表类型和观测季节上的鲁棒性更强。

上面结合附图对本发明的技术内容作了说明，但本发明的保护范围并不限于所述内容，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下对本发明的技术内容做出各种变化，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于岭回归的气溶胶光学厚度反演偏差纠正方法，其特征在于：首先采用“暗目标”算法反演气溶胶光学厚度并将其作为初始化结果；然后构建反演偏差纠正框架，通过串联和并联两种方式对反演结果进行纠正，在串联方式中，将“暗目标”算法得到的气溶胶光学厚度作为岭回归模型的一个有效特征，对反演结果进行纠正；在并联方式中，用岭回归模型直接学习物理模型的反演结果与真实值之间的残差，对反演结果进行纠正。

2.根据权利要求1所述的基于岭回归的气溶胶光学厚度反演偏差纠正方法，其特征在于：所述方法的具体步骤为：

(1)先收集大气顶层的反射率数据并对其进行筛选，去除被云、沙漠、冰雪等覆盖的不可用像素点，然后通过“暗目标”算法反演气溶胶光学厚度(AOD)，并将其作为初始化结果；

式中，表示估计的AOD值，y_mod表示“暗目标”算法反演的结果，x表示模型输入特征，w是岭回归模型中的参数向量，符号表示耦合操作；

其中，上标T表示矩阵的转置，参数w的最优值记为w^*；

串联方式将“暗目标”算法反演的结果y_mod作为一种特征输入到岭回归模型f(x；w)中，即将“暗目标”算法反演的所有AOD值作为一种特征输入到岭回归模型f(x；w)中，由岭回归模型对特征进行自动筛选，对“暗目标”算法的反演结果进行纠正；

在并联方式中，将步骤(2)的模型改写为如下形式；

此时，岭回归模型f(x；w)的标签从y变为y-y_mod；

3.根据权利要求2所述的基于岭回归的气溶胶光学厚度反演偏差纠正方法，其特征在于：所述步骤(3)的串联方式中，在模型测试阶段，先利用“暗目标”算法反演一个初始值，再由公式推导纠正的AOD值，w^*为参数w的最优值。

4.根据权利要求2所述的基于岭回归的气溶胶光学厚度反演偏差纠正方法，其特征在于：所述步骤(3)的并联方式中，在模型测试阶段，先利用岭回归模型计算“暗目标”算法与真实值之间残差，再通过公式来估算纠正的AOD值，w^*为参数w的最优值。

5.根据权利要求1-4任一项所述的基于岭回归的气溶胶光学厚度反演偏差纠正方法，其特征在于：所述用于反演气溶胶光学厚度的“暗目标”算法采用MODIS卫星的第六代“暗目标”算法。