CN111898579A

CN111898579A - 基于极限梯度提升的高分遥感影像无偏半监督分类模型

Info

Publication number: CN111898579A
Application number: CN202010807258.8A
Authority: CN
Inventors: 王润; 孙飞; 万波; 李士垚
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-06

Abstract

本发明公开了一种基于极限梯度提升的高分遥感影像无偏半监督分类模型，该模型结合半监督分类框架(Positive‑Unlabeled Learning，PUL)与XGBoost的优势，在有限正样本条件下，通过引入未标记数据、改进训练样本构成来消除类间不平衡，提高少数类分类精度；同时，在模型训练时利用基于梯度增强的回归提高分类确定性。结果表明：与随机森林(RF)、XGBoost和支持向量机(SVM)相比，该模型能够同时提供较高的整体分类精度与少数类分类精度，且具有较强的稳定性，可在样本极其不平衡的情况下，表现出更好更稳定的性能。

Description

基于极限梯度提升的高分遥感影像无偏半监督分类模型

技术领域

本发明涉及图像处理领域，尤其涉及一种基于极限梯度提升的高分遥感影像无偏半监督分类模型。

背景技术

不平衡数据集在基于遥感影像的土地覆盖/利用的分类场景中非常常见。由于采样缺乏辅助信息，获取标签的成本较高，许多专题分类图只能通过不平衡样本进行训练、校准和验证。但多数分类器在不平衡数据学***衡数据学习是土地覆盖/利用遥感监测中不可忽视的问题。

目前，已有许多学者分别从问题空间转换、训练样本处理和分类算法改进等角度入手解决不平衡分类问题。问题空间转换是对问题空间的重定义，将不平衡问题转化为相对平衡问题。训练样本处理主要通过欠采样法、过采样法、两者结合或综合的重采样技术，改变训练样本容量，使各类别相对平衡；或有一些研究如过滤器、包装器和嵌入方法等实现训练样本特征空间的重采样。在算法改进方面，已有许多不平衡数据学习方法及变体，其中代价敏感学习和集成学习的应用较为广泛。前者在训练过程中通过一个代价矩阵来调整分类器对不同类别的误差分布；后者集成一系列分类器，使用特定的泛化规则进行分类预测。总的来说，从数据角度处理训练样本的方法直接、简单，在实践中的应用更频繁。但在土地覆盖/利用遥感监测应用中，选择合适的方法是非常困难的，欠采样可能会丢失潜在的有效信息，过采样可能会导致对大量重复样本的过拟合，而合成的样本无法与实际存在的遥感图像实例对应。

半监督分类框架(Positive-Unlabeled Learning，PULearning)采用无类标签样本辅助有类标签样本的训练，分类器能够在不增加或减少目标训练样本的条件下，通过未标记数据的隐藏分布信息增强分类目标。这一策略为不平衡数据学***衡数据也是敏感的，虽然XGBoost可通过参数设置提高少数类的分类权重，但极端不平衡条件下的提升效果十分有限。

发明内容

本发明的目的就在于为了解决上述问题结合PULearning框架与XGBoost分类器设计了一种基于极限梯度提升的高分遥感影像无偏半监督分类模型。该模型将基于高分辨率遥感影像土地利用/覆盖的多分类问题转换成多个二分类问题的组合，通过多次正-未标记训练弥补样本稀缺导致的少数类学习不足。

本发明通过以下技术方案来实现上述目的：

本发明包括以下步骤：

S1：训练样本采集：采集训练所需各类别正样本Trainset_i其中：i为类别，i＝1,2,…,n，并在试验区随机采集与各类正样本等量的未标记样本；

S2：对每个类别i执行模型训练与预测；具体包括以下步骤：

S2.1：将由正样本与未标记样本构成的训练样本集Trainset_i随机分为训练集Trainset_ts_i与校验集Trainset_vs_i，其中Trainset_ts_i包含样本数量占Trainset_i总量的75％，Trainset_vs_i为25％；

S2.2：利用训练集Trainset_ts_i训练XGBoost分类器g_i(x)；分类目标是标记样本与未标记样本的二分类，即g_i(x)＝p_i(s＝1|x)，其中x是与实例相关的协变量，s＝1表示样本被标记，p_i(s＝1|x)表示类别i的x实例是标记样本的概率；

S2.3：标记样本是从所有正样本中随机选取的，因此正样本被标记的概率是一个常数“c”；使用子步骤2得到的分类器g_i(x)对校验集Trainset_vs_i预测，然后采用结果中真阳性正样本的平均概率估算常数c，即c_i＝p_i(s＝1|y＝1)，其中c_i表示i类正样本被标记的概率，y＝1表示样本属于该类，p_i(s＝1|y＝1)表示一个属于概率的样本被标记的概率；

S2.4：重复子步骤1到子步骤3，记录多组分类器

以及与之对应的常数

其中j为组数，共有t组；i为类别；

S2.5：利用子步骤4训练好的分类器

计算待分类数据先验概率，每个类别i有j个分类器；

S2.6：分类最终目标f(x)是获得实例x属于该类的概率，即f(x)＝ p(y＝1|x)；分类器g(x)可展开为 g(x)＝p(y＝1∧s＝1|x)＝p(y＝1|x)p(s＝1|y＝1)＝f(x)·c，即目标函数 f(x)与分类函数g(x)之间差了常数c倍，则后验概率可利用f(x)＝g(x)/c计算得到；对于每个类别i，为了获取更稳定的后验概率，采用多组g_i(x)与c_i组合计算平均值，则最终分类模型为

S3：最大后验概率选择：每个类别i有一个目标函数f_i(x)，则每个实例x 有n个后验概率，最大后验概率类别为实例x所属类别。

本发明的有益效果在于：

本发明是一种基于极限梯度提升的高分遥感影像无偏半监督分类模型，与现有技术相比，本发明具有以下优点：

1、本发明所提模型结合PULearning框架优势，将多分类问题转化为多个二分类问题，使少数类特征在分类过程中得到重点学***衡数据中多数类对训练模型的影响；

2、本发明在有限正样本条件下，引入等量未标记数据构建平衡训练集，进一步提高二分类过程中少数类的重要程度，提升少数类识别精度；同时，本发明在模型训练时采用XGBoost分类器提高分类确定性。

附图说明

图1是本发明的技术流程图；

图2是极端不平衡条件下本发明与其他分类算法的结果对比图；

图中：a)是本发明分类结果，b)、c)和d)分别为XGBoost、SVM与随机森林方法的分类结果。

具体实施方式

下面结合附图对本发明作进一步说明：

本发明包括以下步骤：

S2：对每个类别i执行模型训练与预测；具体包括以下步骤：

S2.4：重复子步骤1到子步骤3，记录多组分类器

以及与之对应的常数

其中j为组数，共有t组；i为类别；

S2.5：利用子步骤4训练好的分类器

计算待分类数据先验概率，每个类别i有j个分类器；

1、实验数据说明：

实验区位于中国广西壮族自治区北海市铁山港区。参考图2e)，原始遥感数据为2014年使用Leica ADS40航拍的0.2米空间分辨率影像，包含R(610– 660nm)、G(535–585nm)、B(430–490nm)三个波段。

根据我国国家标准《现行土地利用分类，GB/T 21010-2017》和辅助数据(北海第二次土地调查结果)，实验区涵盖了房屋、道路、树木、草地、裸地、阴影六个典型的土地类别。

2、实验过程说明：

参照图1，本发明的具体实施步骤包括：

步骤1：输入原始影像，采用水平方向3×3像素模板提取每个光谱波段的 8个二阶纹理指标(均值、方差、同质性、对比度、差异性、熵、二阶矩和相关性)，联合RGB波段构建特征库。

步骤2：通过目视解译与随机采样方式构建验证样本集与训练样本集，如表 1。验证样本与训练样本均为实验区随机提取，且验证样本与训练样本相互独立，不重合。训练样本集中房屋类为少数类，其余均为多数类，共包含十组训练样本。另外，训练样本集中每一类还要补充等量的未标记数据辅助训练。这一部分数据在保证不与验证样本与训练样本重合条件下，随机提取即可。

表1验证样本与训练样本数量

步骤3：采用网格搜索和十倍交叉验证对XGBoost分类器进行参数优化。首先，使用交叉验证(初始值为1000)搜索n_estimators(基增强树数量)的粗略值；在此基础上，使用网格搜索找到合适的learning_rate(学习步长，下限和上限分别为0.1和1)，max_depth(基增强树最大深度，下限和上限分别为2和23)和min_child_weight(叶子节点所需实例的最小权重，下限和上限分别是1 和29)，subsample(子样本空间比例，下限和上限分别是0.5和1)；最后以较小的步长在上一步结果附近搜索最佳值。本例中最终优化参数值为max_depth＝7，min_child_weight＝8，max_depth＝99，learning_rate＝0.09，subsample＝0.8。

步骤4：针对每种类别，采用步骤2提取的十组训练样本，训练XGBoost分类器，并估算每组样本对应的常数“c”。

步骤5：采用步骤4训练好的XGBoost分类器对全图进行预测，并在此基础上结合常数“c”计算每个像素属于每个类别的平均后验概率。最大平均后验概率对应的类别即为该像素的分类结果。

步骤6：采用步骤2提取的验证样本集进行分类结果精度验证。本发明采用基于混淆矩阵的分类精度评估方法。设K为类别标签，混淆矩阵形式如表2。表中，N_ij表示标签为i而被分类器预测为j类的验证样本累积数量。N_i+和N_+i表示对应的列和行的数量总和，N为测试样本的总和。根据混淆矩阵得到如下精度验证指标：

表2混淆矩阵表

·总体精度(Overall Accuracy，OA)：表示所有类别被正确分类的测试样本占整体测试数据总量的比例，反映了分类结果的***准确性：

·F_measure，也称之为F-score或Fα，本发明α取1，简写为F1值：

其中，Recall为召回率，Precision为精度：

precision＝N_ii/N_i+ (公式3)

recall＝N_ii/N_+i (公式4)

·数量分歧指标(Quantity Disagreement，QD)，类别j的QD，记为QD_j，即为分类结果与参考数据中的数量差异：

·分配分歧指标(Allocation Disagreement，AD)，分类结果中，类别j在空间分布上与参考数据的差异：

3、实验结果分析：

为了分析所提模型处理不平衡学***衡时，识别少数类(房屋)方面具有显著优势。 RF和XGB偏向多数类，产生了偏倚的分类结果。本发明将多类问题分解为几个二进制类分类任务，使少数类得到充分考虑。虽然这种策略与SVM非常相似，但在样本绝对稀缺的情况下，SVM无法在超平面内进行拟合，而本发明中使用的未标记样本可以提供额外的分布信息。

表3混淆矩阵表

注：由于SVM方法遗漏了房屋类，无法计算其QD与AD。

表4精度验证结果表

注：QD'与AD'少数类(房屋)的数量分歧指标与分配分歧指标。

以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于极限梯度提升的高分遥感影像无偏半监督分类模型，其特征在于：包括以下步骤：

S1：训练样本采集：采集训练所需各类别正样本Trainset_i其中：i为类别，i＝1，2，…，n，并在试验区随机采集与各类正样本等量的未标记样本；

S2：对每个类别i执行模型训练与预测；

S3：最大后验概率选择：每个类别i有一个目标函数f_i(x)，则每个实例x有n个后验概率，最大后验概率类别为实例x所属类别。

2.根据权利要求1所述的基于极限梯度提升的高分遥感影像无偏半监督分类模型，其特征在于：所述步骤S2具体包括以下步骤：

S2.4：重复子步骤1到子步骤3，记录多组分类器

以及与之对应的常数

其中j为组数，共有t组；i为类别；

S2.5：利用子步骤4训练好的分类器

计算待分类数据先验概率，每个类别i有j个分类器；

S2.6：分类最终目标f(x)是获得实例x属于该类的概率，即f(x)＝p(y＝1|x)；分类器g(x)可展开为g(x)＝p(y＝1∧s＝1|x)＝p(y＝1|x)p(s＝1|y＝1)＝f(x)·c，即目标函数f(x)与分类函数g(x)之间差了常数c倍，则后验概率可利用f(x)＝g(x)/c计算得到；对于每个类别i，为了获取更稳定的后验概率，采用多组g_i(x)与c_i组合计算平均值，则最终分类模型为