CN111898579A - 基于极限梯度提升的高分遥感影像无偏半监督分类模型 - Google Patents
基于极限梯度提升的高分遥感影像无偏半监督分类模型 Download PDFInfo
- Publication number
- CN111898579A CN111898579A CN202010807258.8A CN202010807258A CN111898579A CN 111898579 A CN111898579 A CN 111898579A CN 202010807258 A CN202010807258 A CN 202010807258A CN 111898579 A CN111898579 A CN 111898579A
- Authority
- CN
- China
- Prior art keywords
- samples
- classification
- probability
- training
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于极限梯度提升的高分遥感影像无偏半监督分类模型,该模型结合半监督分类框架(Positive‑Unlabeled Learning,PUL)与XGBoost的优势,在有限正样本条件下,通过引入未标记数据、改进训练样本构成来消除类间不平衡,提高少数类分类精度;同时,在模型训练时利用基于梯度增强的回归提高分类确定性。结果表明:与随机森林(RF)、XGBoost和支持向量机(SVM)相比,该模型能够同时提供较高的整体分类精度与少数类分类精度,且具有较强的稳定性,可在样本极其不平衡的情况下,表现出更好更稳定的性能。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种基于极限梯度提升的高分遥感影 像无偏半监督分类模型。
背景技术
不平衡数据集在基于遥感影像的土地覆盖/利用的分类场景中非常常见。由 于采样缺乏辅助信息,获取标签的成本较高,许多专题分类图只能通过不平衡 样本进行训练、校准和验证。但多数分类器在不平衡数据学***衡数据学习是土地覆盖/利用遥感监测中不可忽视的问题。
目前,已有许多学者分别从问题空间转换、训练样本处理和分类算法改进 等角度入手解决不平衡分类问题。问题空间转换是对问题空间的重定义,将不 平衡问题转化为相对平衡问题。训练样本处理主要通过欠采样法、过采样法、 两者结合或综合的重采样技术,改变训练样本容量,使各类别相对平衡;或有 一些研究如过滤器、包装器和嵌入方法等实现训练样本特征空间的重采样。在 算法改进方面,已有许多不平衡数据学习方法及变体,其中代价敏感学习和集 成学习的应用较为广泛。前者在训练过程中通过一个代价矩阵来调整分类器对 不同类别的误差分布;后者集成一系列分类器,使用特定的泛化规则进行分类 预测。总的来说,从数据角度处理训练样本的方法直接、简单,在实践中的应 用更频繁。但在土地覆盖/利用遥感监测应用中,选择合适的方法是非常困难的, 欠采样可能会丢失潜在的有效信息,过采样可能会导致对大量重复样本的过拟 合,而合成的样本无法与实际存在的遥感图像实例对应。
半监督分类框架(Positive-Unlabeled Learning,PULearning)采用无类 标签样本辅助有类标签样本的训练,分类器能够在不增加或减少目标训练样本 的条件下,通过未标记数据的隐藏分布信息增强分类目标。这一策略为不平衡 数据学***衡数据也是敏感的,虽 然XGBoost可通过参数设置提高少数类的分类权重,但极端不平衡条件下的提 升效果十分有限。
发明内容
本发明的目的就在于为了解决上述问题结合PULearning框架与XGBoost分 类器设计了一种基于极限梯度提升的高分遥感影像无偏半监督分类模型。该模 型将基于高分辨率遥感影像土地利用/覆盖的多分类问题转换成多个二分类问题 的组合,通过多次正-未标记训练弥补样本稀缺导致的少数类学习不足。
本发明通过以下技术方案来实现上述目的:
本发明包括以下步骤:
S1:训练样本采集:采集训练所需各类别正样本Trainseti其中:i为类别,i=1,2,…,n,并在试验区随机采集与各类正样本等量的未标记样本;
S2:对每个类别i执行模型训练与预测;具体包括以下步骤:
S2.1:将由正样本与未标记样本构成的训练样本集Trainseti随机分为训练集Trainset_tsi与校验集Trainset_vsi,其中Trainset_tsi包含样本数量占Trainseti总量的75%,Trainset_vsi为25%;
S2.2:利用训练集Trainset_tsi训练XGBoost分类器gi(x);分类目标是标记 样本与未标记样本的二分类,即gi(x)=pi(s=1|x),其中x是与实例相关的协 变量,s=1表示样本被标记,pi(s=1|x)表示类别i的x实例是标记样本的概 率;
S2.3:标记样本是从所有正样本中随机选取的,因此正样本被标记的概率是 一个常数“c”;使用子步骤2得到的分类器gi(x)对校验集Trainset_vsi预测,然 后采用结果中真阳性正样本的平均概率估算常数c,即ci=pi(s=1|y=1),其 中ci表示i类正样本被标记的概率,y=1表示样本属于该类,pi(s=1|y=1)表 示一个属于概率的样本被标记的概率;
S2.6:分类最终目标f(x)是获得实例x属于该类的概率,即f(x)= p(y=1|x);分类器g(x)可展开为 g(x)=p(y=1∧s=1|x)=p(y=1|x)p(s=1|y=1)=f(x)·c,即目标函数 f(x)与分类函数g(x)之间差了常数c倍,则后验概率可利用f(x)=g(x)/c计算 得到;对于每个类别i,为了获取更稳定的后验概率,采用多组gi(x)与ci组合计 算平均值,则最终分类模型为
S3:最大后验概率选择:每个类别i有一个目标函数fi(x),则每个实例x 有n个后验概率,最大后验概率类别为实例x所属类别。
本发明的有益效果在于:
本发明是一种基于极限梯度提升的高分遥感影像无偏半监督分类模型,与 现有技术相比,本发明具有以下优点:
1、本发明所提模型结合PULearning框架优势,将多分类问题转化为多个 二分类问题,使少数类特征在分类过程中得到重点学***衡数据中多 数类对训练模型的影响;
2、本发明在有限正样本条件下,引入等量未标记数据构建平衡训练集,进 一步提高二分类过程中少数类的重要程度,提升少数类识别精度;同时,本发 明在模型训练时采用XGBoost分类器提高分类确定性。
附图说明
图1是本发明的技术流程图;
图2是极端不平衡条件下本发明与其他分类算法的结果对比图;
图中:a)是本发明分类结果,b)、c)和d)分别为XGBoost、SVM与随机森 林方法的分类结果。
具体实施方式
下面结合附图对本发明作进一步说明:
本发明包括以下步骤:
S1:训练样本采集:采集训练所需各类别正样本Trainseti其中:i为类别,i=1,2,…,n,并在试验区随机采集与各类正样本等量的未标记样本;
S2:对每个类别i执行模型训练与预测;具体包括以下步骤:
S2.1:将由正样本与未标记样本构成的训练样本集Trainseti随机分为训练集Trainset_tsi与校验集Trainset_vsi,其中Trainset_tsi包含样本数量占Trainseti总量的75%,Trainset_vsi为25%;
S2.2:利用训练集Trainset_tsi训练XGBoost分类器gi(x);分类目标是标记 样本与未标记样本的二分类,即gi(x)=pi(s=1|x),其中x是与实例相关的协 变量,s=1表示样本被标记,pi(s=1|x)表示类别i的x实例是标记样本的概 率;
S2.3:标记样本是从所有正样本中随机选取的,因此正样本被标记的概率是 一个常数“c”;使用子步骤2得到的分类器gi(x)对校验集Trainset_vsi预测,然 后采用结果中真阳性正样本的平均概率估算常数c,即ci=pi(s=1|y=1),其 中ci表示i类正样本被标记的概率,y=1表示样本属于该类,pi(s=1|y=1)表 示一个属于概率的样本被标记的概率;
S2.6:分类最终目标f(x)是获得实例x属于该类的概率,即f(x)= p(y=1|x);分类器g(x)可展开为 g(x)=p(y=1∧s=1|x)=p(y=1|x)p(s=1|y=1)=f(x)·c,即目标函数 f(x)与分类函数g(x)之间差了常数c倍,则后验概率可利用f(x)=g(x)/c计算 得到;对于每个类别i,为了获取更稳定的后验概率,采用多组gi(x)与ci组合计 算平均值,则最终分类模型为
S3:最大后验概率选择:每个类别i有一个目标函数fi(x),则每个实例x 有n个后验概率,最大后验概率类别为实例x所属类别。
1、实验数据说明:
实验区位于中国广西壮族自治区北海市铁山港区。参考图2e),原始遥感 数据为2014年使用Leica ADS40航拍的0.2米空间分辨率影像,包含R(610– 660nm)、G(535–585nm)、B(430–490nm)三个波段。
根据我国国家标准《现行土地利用分类,GB/T 21010-2017》和辅助数据(北 海第二次土地调查结果),实验区涵盖了房屋、道路、树木、草地、裸地、阴影 六个典型的土地类别。
2、实验过程说明:
参照图1,本发明的具体实施步骤包括:
步骤1:输入原始影像,采用水平方向3×3像素模板提取每个光谱波段的 8个二阶纹理指标(均值、方差、同质性、对比度、差异性、熵、二阶矩和相关 性),联合RGB波段构建特征库。
步骤2:通过目视解译与随机采样方式构建验证样本集与训练样本集,如表 1。验证样本与训练样本均为实验区随机提取,且验证样本与训练样本相互独立, 不重合。训练样本集中房屋类为少数类,其余均为多数类,共包含十组训练样 本。另外,训练样本集中每一类还要补充等量的未标记数据辅助训练。这一部 分数据在保证不与验证样本与训练样本重合条件下,随机提取即可。
表1验证样本与训练样本数量
步骤3:采用网格搜索和十倍交叉验证对XGBoost分类器进行参数优化。 首先,使用交叉验证(初始值为1000)搜索n_estimators(基增强树数量)的粗 略值;在此基础上,使用网格搜索找到合适的learning_rate(学习步长,下限和 上限分别为0.1和1),max_depth(基增强树最大深度,下限和上限分别为2和23)和min_child_weight(叶子节点所需实例的最小权重,下限和上限分别是1 和29),subsample(子样本空间比例,下限和上限分别是0.5和1);最后以较 小的步长在上一步结果附近搜索最佳值。本例中最终优化参数值为max_depth=7,min_child_weight=8,max_depth=99,learning_rate=0.09,subsample=0.8。
步骤4:针对每种类别,采用步骤2提取的十组训练样本,训练XGBoost分类器,并估算每组样本对应的常数“c”。
步骤5:采用步骤4训练好的XGBoost分类器对全图进行预测,并在此基 础上结合常数“c”计算每个像素属于每个类别的平均后验概率。最大平均后验 概率对应的类别即为该像素的分类结果。
步骤6:采用步骤2提取的验证样本集进行分类结果精度验证。本发明采用 基于混淆矩阵的分类精度评估方法。设K为类别标签,混淆矩阵形式如表2。表 中,Nij表示标签为i而被分类器预测为j类的验证样本累积数量。Ni+和N+i表示 对应的列和行的数量总和,N为测试样本的总和。根据混淆矩阵得到如下精度 验证指标:
表2混淆矩阵表
·总体精度(Overall Accuracy,OA):表示所有类别被正确分类的测试样 本占整体测试数据总量的比例,反映了分类结果的***准确性:
·F_measure,也称之为F-score或Fα,本发明α取1,简写为F1值:
其中,Recall为召回率,Precision为精度:
precision=Nii/Ni+ (公式3)
recall=Nii/N+i (公式4)
·数量分歧指标(Quantity Disagreement,QD),类别j的QD,记为QDj, 即为分类结果与参考数据中的数量差异:
·分配分歧指标(Allocation Disagreement,AD),分类结果中,类别j在空 间分布上与参考数据的差异:
3、实验结果分析:
为了分析所提模型处理不平衡学***衡时,识别少数类(房屋)方面具有显著优势。 RF和XGB偏向多数类,产生了偏倚的分类结果。本发明将多类问题分解为几 个二进制类分类任务,使少数类得到充分考虑。虽然这种策略与SVM非常相似, 但在样本绝对稀缺的情况下,SVM无法在超平面内进行拟合,而本发明中使用的未标记样本可以提供额外的分布信息。
表3混淆矩阵表
注:由于SVM方法遗漏了房屋类,无法计算其QD与AD。
表4精度验证结果表
注:QD'与AD'少数类(房屋)的数量分歧指标与分配分歧指标。
以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业 的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中 描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明 还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本 发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (2)
1.一种基于极限梯度提升的高分遥感影像无偏半监督分类模型,其特征在于:包括以下步骤:
S1:训练样本采集:采集训练所需各类别正样本Trainseti其中:i为类别,i=1,2,…,n,并在试验区随机采集与各类正样本等量的未标记样本;
S2:对每个类别i执行模型训练与预测;
S3:最大后验概率选择:每个类别i有一个目标函数fi(x),则每个实例x有n个后验概率,最大后验概率类别为实例x所属类别。
2.根据权利要求1所述的基于极限梯度提升的高分遥感影像无偏半监督分类模型,其特征在于:所述步骤S2具体包括以下步骤:
S2.1:将由正样本与未标记样本构成的训练样本集Trainseti随机分为训练集Trainset_tsi与校验集Trainset_vsi,其中Trainset_tsi包含样本数量占Trainseti总量的75%,Trainset_vsi为25%;
S2.2:利用训练集Trainset_tsi训练XGBoost分类器gi(x);分类目标是标记样本与未标记样本的二分类,即gi(x)=pi(s=1|x),其中x是与实例相关的协变量,s=1表示样本被标记,pi(s=1|x)表示类别i的x实例是标记样本的概率;
S2.3:标记样本是从所有正样本中随机选取的,因此正样本被标记的概率是一个常数“c”;使用子步骤2得到的分类器gi(x)对校验集Trainset_vsi预测,然后采用结果中真阳性正样本的平均概率估算常数c,即ci=pi(s=1|y=1),其中ci表示i类正样本被标记的概率,y=1表示样本属于该类,pi(s=1|y=1)表示一个属于概率的样本被标记的概率;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807258.8A CN111898579A (zh) | 2020-08-12 | 2020-08-12 | 基于极限梯度提升的高分遥感影像无偏半监督分类模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807258.8A CN111898579A (zh) | 2020-08-12 | 2020-08-12 | 基于极限梯度提升的高分遥感影像无偏半监督分类模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111898579A true CN111898579A (zh) | 2020-11-06 |
Family
ID=73230595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010807258.8A Pending CN111898579A (zh) | 2020-08-12 | 2020-08-12 | 基于极限梯度提升的高分遥感影像无偏半监督分类模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898579A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076871A (zh) * | 2023-10-16 | 2023-11-17 | 南京邮电大学 | 一种基于不平衡半监督对抗训练框架的电池故障分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038448A (zh) * | 2017-12-13 | 2018-05-15 | 河南理工大学 | 基于加权熵的半监督随机森林高光谱遥感影像分类方法 |
-
2020
- 2020-08-12 CN CN202010807258.8A patent/CN111898579A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038448A (zh) * | 2017-12-13 | 2018-05-15 | 河南理工大学 | 基于加权熵的半监督随机森林高光谱遥感影像分类方法 |
Non-Patent Citations (2)
Title |
---|
孙飞等: "利用目标类样本的遥感分类策略", 测绘科学, vol. 41, no. 02, pages 134 - 136 * |
杨灿: "基于XGBoost的遥感图像中道路网络的提取", 微型机与应用, vol. 36, no. 24, pages 28 - 31 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076871A (zh) * | 2023-10-16 | 2023-11-17 | 南京邮电大学 | 一种基于不平衡半监督对抗训练框架的电池故障分类方法 |
CN117076871B (zh) * | 2023-10-16 | 2023-12-29 | 南京邮电大学 | 一种基于不平衡半监督对抗训练框架的电池故障分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909924B (zh) | 一种基于深度显著性的遥感影像快速检索方法 | |
CN110516095B (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和*** | |
CN105574063B (zh) | 基于视觉显著性的图像检索方法 | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN110309868A (zh) | 结合无监督学习的高光谱图像分类方法 | |
CN110555841B (zh) | 基于自注意图像融合和dec的sar图像变化检测方法 | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN113887517B (zh) | 基于并行注意力机制的农作物遥感图像语义分割方法 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及*** | |
CN111461067B (zh) | 基于先验知识映射及修正的零样本遥感影像场景识别方法 | |
CN111639697B (zh) | 基于非重复采样与原型网络的高光谱图像分类方法 | |
CN114419468A (zh) | 一种结合注意力机制和空间特征融合算法的水田分割方法 | |
CN115393666A (zh) | 图像分类中基于原型补全的小样本扩充方法及*** | |
CN113435254A (zh) | 一种基于哨兵二号影像的耕地深度学习提取方法 | |
CN112733736A (zh) | 基于增强过采样的类别不平衡高光谱图像分类方法 | |
CN108596118B (zh) | 一种基于人工蜂群算法的遥感影像分类方法及*** | |
CN108960005B (zh) | 一种智能视觉物联网中对象视觉标签的建立及显示方法、*** | |
CN111898579A (zh) | 基于极限梯度提升的高分遥感影像无偏半监督分类模型 | |
CN116935138A (zh) | 图片主题内容多样性计算与自动选择方法及*** | |
CN116704378A (zh) | 一种基于自生长卷积神经网络的国土测绘数据分类方法 | |
Sun et al. | Automatic building age prediction from street view images | |
CN111401519B (zh) | 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法 | |
CN114202694A (zh) | 基于流形混合插值和对比学习的小样本遥感场景图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |