CN113505670A

CN113505670A - 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法

Info

Publication number: CN113505670A
Application number: CN202110729532.9A
Authority: CN
Inventors: 慎利; 鄢薪; 邓旭; 徐柱
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-10-15
Anticipated expiration: 2041-06-29
Also published as: CN113505670B

Abstract

本申请涉及一种基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法，现有的弱监督方法大多都是基于类激活图(class activation maps,CAMs)的，而且CAM的质量对这些方法的性能有着至关重要的影响。然而，现有的方法无法生成用于遥感影像建筑物提取的高质量CAM。本申请提出一种用于高分辨率遥感图像建筑物提取的弱监督方法MSCAM‑SR‑Net，它将多尺度CAM和超像素精细化相结合用于生成精细的CAM。在MSCAM‑SR‑Net中，我们提出多尺度生成模块以充分利用多层次特征生成多尺度CAMs，从而获得完整而准确的建筑目标区域；而超像素精细化模块则是为了利用超像素在目标完整性和建筑物边界上进一步提高CAM的质量。

Description

基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法

技术领域

本发明设计了一种高分辨率遥感影像建筑物提取方法，更具体地说是涉及基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法。

背景技术

高分辨率遥感影像建筑物提取在人口估算、城市化评估和城市规划等诸多重要应用中都发挥着至关重要的作用。该任务的目标是将每个像素分类为建筑类或非建筑类，因此可视为二分类语义分割问题。这是一项具有挑战性的任务，因为建筑物的高度多样性，以及与其他人造地物的混淆(如道路)。由于全卷积神经网络(fully convolutional neuralnetworks,FCN)在层次特征学习方面的能力，许多研究人员都基于FCN对这一任务开展研究。FCN方法已经取得了令人满意的效果，并成为建筑物提取的主流方法。然而，FCN需要大量带有像素级标注的训练图像，而准备这样训练数据集是非常昂贵和极其耗时的。像素级标签的需求可以通过基于较少空间信息标注的弱监督学习来解决。这些标注更便宜，也更容易获得，比如涂鸦标注、点标注、边框标注和图像级标注。在这些较弱的标注中，图像级标签是最容易获得的，因为它们只表明图像中是否存在对象类，而不提供关于它们的位置或边界的任何信息。本申请中，我们主要研究面向建筑物提取的基于图像级标签的弱监督语义分割。

基于图像级标签的弱监督语义分割是非常困难的，因为它需要从图像中物体的存在来恢复其精确的空间信息。为此，现有的工作通常依赖类激活映射(class activationmaps,CAM)来获取对象掩膜，然后将其制成伪标签用于训练语义分割网络。而且CAM的质量对这些方法的性能有着至关重要的影响。然而，现有方法无法生成用于遥感图像建筑物提取的高质量CAM，因为它们主要是针对自然场景图像的(如PASCAL VOC 2012数据集)，没有考虑遥感图像中建筑物的特点:(1)同一图像中建筑物目标的尺度变化更大；(2)建筑物与背景区域的混淆更加复杂；(3)建筑物需要更精确的边界。

考虑到遥感图像中建筑物目标的特点，多层次特征是生成用于建筑物提取的高质量CAM的关键。具体来说，由于下采样层的存在，卷积神经网络(convolutionalneuralnetworks,CNN)中的多层次特征包含了内在的多尺度信息，其有利于识别不同大小的建筑物目标。此外，CNN中的低层特征包含了大量底层信息(如纹理和边缘信息)，它们可以用于从背景区域中识别建筑物目标，且也适合用于识别建筑物的精确边界。因此，许多研究人员利用CNN的多层次特征来生成CAM。MS-CAM利用具有注意力机制的全连接层直接合并多层次特征。 WSF-Net以自顶向下的方式逐步合并多层次特征。然而，这些方法在合并多层特征时都忽略了CNN的底层特征也包含了大量类别无关的噪声(如过多的杂乱纹理)，这将影响CAM的质量。

另一种提高用于建筑物提取的CAM质量的方法是利用底层视觉特征对 CAM进行优化，例如使用超像素。超像素是一组基于颜色直方图和纹理特征等底层视觉特征聚类的相似邻接像素，其提供了建筑物的边缘信息，且可以用来分离建筑物与周围背景区域。因此，利用超像素来提高CAM的质量是十分必要的。

发明内容

为了解决上述问题，本申请提出一种用于高分辨率遥感图像建筑物提取的弱监督方法MSCAM-SR-Net，其将多尺度CAM和超像素精细化相结合用于生成精细的CAM。该方法主要在生成高质量CAM上做出贡献，从而训练出精确的建筑物提取模型。为了获得完整且准确的建筑物区域，我们提出了两个简单有效的模块，多尺度生成模块和超像素精细化模块。多尺度生成模块旨在利用多尺度特征生成多尺度CAM。CNN中的低层特征除了已被用于生成CAMs外，有利于识别更准确的建筑区域，但它们也包含了大量与类别无关的噪声。因此，为了充分利用多层次特征生成CAM,多尺度生成模块要求多层次特征理解全局语义信息，从而消除类别无关的噪声，然后分别利用多层次特征生成多尺度CAM。此外，我们还引入了超像素来进一步在物体完整性和建筑物边界上提升多尺度CAM，并将其命名为超像素精细化模块。通过这两个模块的结合，MSCAM-SR-Net可以得到用于建筑物提取的完整、准确的CAM。

由于卷积神经网络(convolutional neural networks,CNN)具备强大的层次特征学习能力，许多研究人员都基于CNN对建筑物提取开展研究。早期的研究使用滑动窗口或超像素块输入到CNN进行分类从而实现像素级信息提取。这种方法确定一个像素的标签是利用CNN对包含该像素的滑动窗口或超像素进行分类来得到该像素的标签。然而，它们是非常耗时，而且它们忽略了不同滑动窗口或超像素之间的关系。后来全卷积神经网络被提出，它扩展了原来的CNN结构，使其能够进行密集预测，且能有效地生成像素级分割结果。自此，各种全卷积神经网络被提出，如SegNet，U-Net和DeepLab，并被应用于建筑物提取。然而，所有全卷积神经网络的训练都需要大量的像素级标签，而收集这样的训练数据集是既费时又昂贵的。

为了降低像素级标注的代价，近年来许多研究人员提出并发展了基于图像级标注的弱监督语义分割方法。现有的方法大多是基于CAM获取对象掩膜做成伪标签，然后利用伪标签训练语义分割网络。然而，早期方法生成的CAM仅发掘粗糙的目标区域，不能用于训练精确的分割网络。因此，新方法的目标是获取能够覆盖更完整的区域的CAM。

一些研究致力于扩展CAM。SEC设计了三个损失函数，种子损失，扩展损失和限制损失。DSRG提出了一种基于区域增长的CAM伪标签动态扩展算法。 AffinityNet使用CAM作为伪标签，利用像素相似性扩展CAM。IRNet从CAM 中生成类别边界图和位移场，并利用它们对CAM进行扩展。BENet首先合成 CAM提取边界标注，然后利用边界标注进行训练，挖掘更多的边界信息约束分割模型的训练。然而，这些方法仍然是以最初的CAM为基础的，在初始CAM的基础上进行学习和扩展。如果初始CAM仅发掘建筑物的部分区域，甚至覆盖许多非建筑区域，那么很难将CAM扩展为完整且准确的建筑物区域。因此，CAM 的质量对这些方法的性能有着至关重要的影响。

其他研究是在CAM的生成上进行了改进。AE-PSL采用迭代擦除策略获取补足区域。SPN采用了超像素池化来生成更完整的区域。MDC使用多个不同膨胀率的卷积层来扩展区域。FickleNet在每个滑动窗口中随机删除连接，然后合并多个推理结果。SEAM约束从同一幅图像经过各种变换后预测出的CAM保持一致，从而生成更加一致且完整的目标区域。CIAN利用包含相同类别对象的跨图像相似性，获得更一致的对象区域。Splitting vs.Merging方法提出了两个损失，差异损失和合并损失，对分类模型进行优化，得到完整的目标区域。虽然这些方法在生成CAM方面有所改进，但大多只利用了CNN的高层特征，缺乏低层次的细节信息，从而生成相对粗糙的CAM。粗糙的CAM会混淆相邻的建筑物，并将周围的背景区域误识别为建筑物。这样的CAM仍无法获得建筑物的完整区域和准确边界。

本申请的研究主要是对用于建筑物提取的CAM生成进行改进。为了获得完整准确的建筑物区域，我们构建了多尺度生成模块以充分利用多层次特征生成 CAM，并设计了超像素精细化模块，利用超像素的特性在物体完整性和建筑物边界上进一步提高CAM。

本申请提出的弱监督建筑物提取方法。它包括两个连续阶段：通过图像级标签获取CAM，并用CAM训练建筑物提取模型。在第一阶段，我们首先训练一个基于图像级标签的分类网络，然后使用训练好的分类网络生成CAM，并进一步改进CAM。在第二阶段，将改进后的CAM制成伪标签用以训练分割模型。本申请中，我们的主要贡献是获得完整和准确的CAM，用以训练建筑物提取模型。

为了获取完整准确的建筑物区域，我们提出了两个简单而有效的组件:(i)多尺度生成模块，(ii)超像素细化模块。多尺度生成模块的目的是充分利用多尺度特征以生成高质量的多尺度CAM。超像素细化模块利用超像素的特性来进一步提升多尺度CAM的质量。最后，利用改进的CAM训练建筑物提取模型。为了获得更好的建筑提取结果，我们采用可靠标签选择策略，在CAM中选择高置信区域进行训练，忽略不确定区域。

为了消除特征中类别无关的噪声，并且避免高级语义信息的过度使用，多尺度生成模块将特定类别的语义信息编码到多层次特征中，然后分别利用多层次特征生成多尺度CAM。

多尺度生成模块由多个CAM生成单元(CAM Generation Unit,CG-Unit)组成，多个CAM生成单元对应多层次特征，如图2所示。每个CAM生成单元包含一个 1×1卷积层，一个ReLU层和一个批正则化层，以及一个通用的分类层，如图2 所示。具体来说，我们使用1×1卷积核将输入的特征图映射到更有利于图像分类的特征表达中。之所以采用ReLU层，是因为我们只关注对分类有积极影响的特征。随后，将过滤后的特征输入到通用的分类层中，通用分类层包含一个全局池化层和一个全连接层。最后，CAM生成单元的输出是一个向量，其表示每个类别的预测得分。在训练阶段，利用这个输出向量来计算分类损失。降低分类损失会促使特征理解全局语义，从而消除特征中类别无关的噪声。

随后，在推理阶段，我们利用消除类别无关噪声后的多层次特征生成CAM。每个类别的CAM是由一组选定的特征图和相应的权重计算获得的。我们采用 Grad-CAM++技术从每个CAM生成单元分别计算多个CAM。对于每个CAM Generation单元，我们将梯度从该单元的输出反向传播到相应特征层的最后一个卷积层，从而计算出CAM。最后，将多层次特征计算得到的CAM融合为多尺度 CAM。设C个类别的分类网络中的一组多层次特征图表示为Ω＝{F¹,F²,…Fⁿ}，其中为通道数为n，F^k∈R^h×w表示具有h×w个像素的特征图。我们将第k_th个特征图在特定类别c上的贡献权重表示为

特定类别的CAM A^c中的空间位置 (i,j)计算如下:

根据Grad-CAM++技术，

通过式(2)计算得到:

式中Y^c为类别c的分类得分，

为特定类别c在特征图F^k上的梯度权重，可表示为:

具体实验中，我们采用ResNet-50作为基本架构，并从ResNet-50的阶段1-4 中选取多层次特征。相应地，多尺度生成模块由4个CAM生成单元组成，分别添加在ResNet-50的上述阶段的后面。所以，我们总共计算四个损失，而总体损失是这些损失的总和。通过多尺度生成模块和整体损失的训练，可以获得消除类别无关噪声后的多层次特征，并利用它们生成多尺度CAM。

通过以上步骤，计算出了四种尺度的CAM。来自底层特征的CAM获取更详细的信息，而高层特征计算得到的CAM识别粗略的建筑物区域，如图2所示。最后，采用融合策略，根据公式

将多尺度CAM进行融合，其中A_i(i＝1,2,3,4)表示不同尺度的CAM。合并后的CAM中，非建筑物区域被抑制，而建筑物区域被突出显示。

多尺度生成模块是利用多层次特征来生成CAM，而超像素精细化模块是为了改进CAM以更好地保证准确的边界和局部一致性:外观相似的临近像素应该具有相同的标签。

将合并后的CAMA∈R^W×H及其原始图像I∈R^W×H×C输入到超像素精细化模块中，其中W表示宽度，H表示高度，C表示通道数。首先，我们在原始图像的基础上，采用SLIC算法[30]生成相应的超像素分割图S∈M^W×H。M＝[1,N]表示超像素的编号，而S_i,j＝n表示该位置(i,j)的像素属于第n_th个超像素。然后，对于位于同一个超像素中的每个像素，将它们的建筑物得分的平均值分配给它们作为最终得分。综上所述，由超像素精细化模块提升后的CAM表示为:

根据上述步骤，我们已利用带有图像级标签的样本图像生成完整准确的CAM。然后我们用这些CAM在全监督的方式下训练建筑物提取网络。

首先，我们将CAM做成伪像素级标签。CAM表明，得分值越高，属于建筑类区域的可能性越大；得分值越低，属于非建筑类区域的可能性越高。同时，当得分值处于中间时，该区域可以属于建筑类，也可以属于非建筑类。因此，为了使用更可靠的标签来训练分割模型，我们将像素分为三组：建筑物、非建筑物和不确定类别。我们首先将得分图中的值归一化映射到[0,1]范围内。然后，设置高阈值为0.5，高于0.5的像素视为建筑，低于低阈值0.2的像素视为非建筑。特别是，我们将得分在0.2-0.5之间的像素划分为不确定类别，并在训练阶段忽略这部分像素。到目前为止，用于训练建筑物提取模型的伪标签Y∈(0,1,2)^W×H已生成，其中0为非建筑类，1为建筑类，2为不确定类。

然后，我们基于伪标签来训练建筑物分割模型。我们采用目前最流行的全监督分割模型之一的DeepLabv3+[7]作为我们的建筑物分割模型，交叉熵损失函数作为目标函数。对于我们的伪标签，损失是这样表示的:

式中，Φ_building＝{(i,j)|Y_i,j＝1}和Φ_non-building＝{(i,j)|Y_i,j＝0}分别为建筑类和非建筑类的像素集合。特别地，在训练阶段忽略了不确定类别的像素集。对损失函数进行优化是为了最小化真实值与模型的预测值的差异，从而使模型能够对建筑物像素和非建筑物像素进行分类，甚至能够识别出伪标签中不确定类别像素是否属于建筑类。

附图说明

图1为MSCAM-SR-Net的框架图；

图2为多尺度生成模块示意图，左侧为多尺度生成模块如何生成多尺度 CAM的说明；右侧为CAM生成单元的详细结构图；

图3为超像素细化模块示意图；

图4为各模块消融实验的定性结果图，4(a)原始图像，4(b)基准方法的结果， 4(c)baseline+SRM方法，4(d)baseline+MSG方法，和4(e)baseline+MSG+SRM方法的结果图；

图5为来自阶段1-4的多尺度CAM结果图：5(a)未使用多尺度生成模块的， 5(b)使用多尺度生成模块的，和融合后的CAM；

图6为本方法和其他方法对CAM的可视化结果图。

图7为本发明在WHU数据集上的定性比较图；

图8为本发明在InriaAID数据集上的定性比较图。

具体实施方式

以下所描述的实施例，并非仅仅是针对某一个具体实施例的描述，而是对于具有某类技术特征的潜在的实施例的选择性描述，某些技术特征并非是必须存在的。具体到某一具体实施例，其是下面某些技术特征的组合，只要这种组合不是逻辑上的相互矛盾，或者无意义。本发明任意位置出现的“可以/可以是”(may， may be，表示选择，暗示可能还存在其它的替代方式；如果语境中表达“能力”的则除外)，是一种优选的实施例的描述方式，其可以是潜在的其它的替代方式。本发明任意位置出现的技术术语“大致”、“近似”“接近”等近似描述词语(如果存在)描述时，其所要表达的含义是并非要求在严格的实际参数测量后，得出的数据严格符合一般的数学定义，因为不存在完全符合数学定义的物理实体，并非含糊其辞、模棱两可从而导致不清楚。

为了得到完整准确的CAM，我们提出了MSCAM-SR-Net，如图1所示。它是一个通用的设计框架，可以直接对任何分类网络架构进行扩展。此外，它允许利用预训练分类模型进行参数预处理。具体来说，在MSCAM-SR-Net中，为了获取完整准确的建筑物区域，我们提出了两个简单而有效的组件:(i)多尺度生成模块，(ii)超像素细化模块。利用多层次特征有利于获得完整准确的建筑区域，但也会带来类别无关的噪声污染。因此，多尺度生成模块的目的是充分利用多尺度特征以生成高质量的多尺度CAM。此外，为了更好地保证目标的完整性和精确边界，我们设计了超像素精细化模块。超像素细化模块利用超像素的特性来进一步提升多尺度CAM的质量。最后，利用改进的CAM训练建筑物提取模型。为了获得更好的建筑提取结果，我们采用可靠标签选择策略，在CAM中选择高置信区域进行训练，忽略不确定区域。

为了充分利用多层次特征，我们提出了多尺度生成模块。为了消除特征中类别无关的噪声，并且避免高级语义信息的过度使用，多尺度生成模块将特定类别的语义信息编码到多层次特征中，然后分别利用多层次特征生成多尺度CAM，具体结构如图2所示。

多尺度生成模块由多个CAM生成单元(CAM Generation Unit,CG-Unit)组成，多个CAM生成单元对应多层次特征，如图2所示。每个CAM生成单元包含一个1×1卷积层，一个ReLU层和一个批正则化层，以及一个通用的分类层，如图 2所示。具体来说，我们使用1×1卷积核将输入的特征图映射到更有利于图像分类的特征表达中。之所以采用ReLU层，是因为我们只关注对分类有积极影响的特征。随后，将过滤后的特征输入到通用的分类层中，通用分类层包含一个全局池化层和一个全连接层。最后，CAM生成单元的输出是一个向量，其表示每个类别的预测得分。在训练阶段，利用这个输出向量来计算分类损失。降低分类损失会促使特征理解全局语义，从而消除特征中类别无关的噪声。

特定类别的CAM A^c中的空间位置 (i,j)计算如下:

根据Grad-CAM++技术，

通过式(2)计算得到:

式中Y^c为类别c的分类得分，

为特定类别c在特征图F^k上的梯度权重，可表示为:

将多尺度CAM进行融合，其中A_i(i＝1,2,3,4)表示不同尺度的CAM。合并后的CAM中，非建筑物区域被抑制，而建筑物区域被突出显示，如图2所示。

超像素是根据底层特征规则对邻域内的一组相似像素进行聚类计算得到，因此它包含了丰富的形状信息。本申请利用这一特点设计了超像素细化模块，如图 3所示。将合并后的CAMA∈R^W×H及其原始图像I∈R^W×H×C输入到超像素精细化模块中，其中W表示宽度，H表示高度，C表示通道数。首先，我们在原始图像的基础上，采用SLIC算法生成相应的超像素分割图S∈M^W×H。M＝[1,N]表示超像素的编号，而S_i,j＝n表示该位置(i,j)的像素属于第n_th个超像素。然后，对于位于同一个超像素中的每个像素，将它们的建筑物得分的平均值分配给它们作为最终得分。综上所述，由超像素精细化模块提升后的CAM表示为:

然后，我们基于伪标签来训练建筑物分割模型。我们采用目前最流行的全监督分割模型之一的DeepLabv3+作为我们的建筑物分割模型，交叉熵损失函数作为目标函数。对于我们的伪标签，损失是这样表示的:

式中，∈_building＝{(i,j)|Y_i,j＝1}和Φ_non-building＝{(i,j)|Y_i,j＝0}分别为建筑类和非建筑类的像素集合。特别地，在训练阶段忽略了不确定类别的像素集。对损失函数进行优化是为了最小化真实值与模型的预测值的差异，从而使模型能够对建筑物像素和非建筑物像素进行分类，甚至能够识别出伪标签中不确定类别像素是否属于建筑类。

WHU建筑数据集和InriaAID建筑数据集是常用来评估建筑物提取方法的两个公共建筑数据集，我们在这两个公共建筑数据集上评估了本申请所提出的方法。这两个建筑数据集涵盖了各种各样的城市景观，其中包含了具有不同颜色、大小和用途的多样的建筑物。因此，它们是评价建筑物提取方法的有效性和鲁棒性的理想研究数据。

WHU航拍影像建筑数据集是一个大型的开源的精确的高分辨率建筑数据集，由8189张RGB波段图像组成，每张影像的像素大小为512×512，空间分辨率为 0.3m。数据集分为三个部分：包含4736张图像的训练集、包含1036张图像的验证集和包含2416张图像的测试集。

由于原始的WHU建筑数据集是为全监督的建筑物提取创建的，我们首先将其处理为弱监督的分割数据集。我们保留了训练、验证和测试数据集的原始划分。，我们以128个像素为滑动步长将图像裁剪成像素大小为256×256的图像块。对于训练集，为了训练基于图像级标签的弱监督建筑提取方法，我们将不包含任何建筑物像素的影像块标注为负样本，将建筑覆盖率超过15％的影像块标注为正样本，以保证训练的稳定性。我们共收集34142个影像块和相应的图像级标签用以训练。验证集和测试集是分别用于确定方法的超参数和评估建筑物提取性能的，因此保留了原始像素级标签。我们共收集了9315个影像块进行验证，21717个影像块进行测试，并收集了相应的像素级标签。

位于芝加哥的InriaAID建筑数据集由36张RGB波段的航空图像组成，每张影像的像素大小为1500×1500，空间分辨率为0.3m。它以像素级被标注为两个语义类：建筑物和非建筑物。

对于InriaAID建筑物数据集，我们首先将其划分为3个部分：包含24张图像的训练集、包含4张图像的验证集和包含8张图像的测试集。然后采用与WHU 数据集相同的处理方法将其处理成弱监督学习数据集。我们采用128个像素为滑动步长将图像裁剪成大小为256×256的影像块。然后将不包含任何建筑像素的影像块标注为负样本，将建筑覆盖率大于15％的影像块标注为正样本。对于训练集，我们收集了28925个影像块和相应的图像级标签用以训练。此外，我们收集了6084个影像块和对应的像素级标签用于验证，12168个影像块和对应的像素级标签用于测试。

我们在PyTorch平台上实现本申请提出的网络MSCAM-SR-Net。我们采用了已在ImageNet数据集上预训练好的ResNet-50作为骨干网络，并根据本申请提出的网络设计对其进行修改。我们采用了动量为0.9，权重衰减为5e-4的SGD优化器，且初始学***翻转、色彩增强，-90到90度之间的随机旋转对训练图像进行了数据增广。

我们最终的建筑物提取模型采用了DeepLabv3+网络，该网络以在PASCAL VOC2012数据集预训练好的ResNet-101网络做为骨干网络。训练建筑物提取模型时，我们也使用了动量为0.9，权重衰减为5e-4的SGD优化器。且初始学***台上实现的。

我们选择了几个综合指标来评估像素级建筑提取的质量，包括总体精度 (OA)、intersection-over-union(IOU)得分和F1得分。为了统一文中使用的定义，我们将建筑物称为正类，将非建筑物称为负类。这些指标的计算方法如下:

式中TP，TN，FP，FN分别表示真阳性、真阴性、假阳性、假阴性；Prec和 Rec分别表示Precision和Recall，计算公式为：

基于图像级标签的弱监督建筑物提取方法的流程包括:(1)通过图像级标签获取CAM；(2)利用CAM以全监督方式训练建筑物提取模型。本申请提出的网络主要是在第一步做出提升，因此为了证明我们所提出的网络对获取CAM的有效性，本申请对所提出的每个模块进行了模型分析，并与其他弱监督方法进行了比较。特别地，对CAM进行定量分析时，通过对CAM设置一个阈值来获得分割结果，然后比较分割结果和真实标注来得到定量分析结果。此外，我们还将我们的建筑物提取模型与其他弱监督方法得到的模型进行了比较。

本申请提出的方法主要是对CAM的生成进行改进，因此采用现有的5种同样针对CAM生成的弱监督分割方法进行比较：(1)CAM方法；(2)gradcam++方法；(3)WILDCAT方法；(4)超像素池化网络(SPN)；(5)SEAM方法。对于所有弱监督方法，我们采用与本申请方法相同的处理流程。

为了说明MSCAM-SR-Net中提出的模块对于获取CAM的有效性，我们分别在 WHU建筑数据集和InriaAID建筑数据集上进行了消融实验。首先，我们去掉了 MSCAM-SR-Net中的多尺度生成模块和超像素细化模块，也就得到了GradCAM++ 方法，并将此方法作为我们的基准方法。其次，在基准方法中添加多尺度生成模块，将结果方法称为baseline+MSG(Multi-scale Generation Module)方法，以验证仅添加多尺度生成模块的影响。第三，在基准方法中加入超像素细化模块，创建 baseline+SRM(Super-pixel Refinement Module)方法。将其与基准方法进行对比，反映了超像素细化模块的提升效果。最后，在baseline+MSG方法中加入超像素细化模块，得到本申请提出的方法。该方法的性能证明了多尺度生成模块和超像素细化模块的结合带来的提升。

表1各模块消融实验的定量结果

由表1所示的定量结果可以看出，本申请方法的性能最好，本申请所提出的两个模块对CAM的生成都有提升。我们可以看到，单独的多尺度生成模块或单独的超像素细化模块都获得了相当可观的改进。在超像素细化模块的帮助下， baseline+SRM方法在两个建筑物数据集的所有指标上都优于基准方法。这是因为超像素细化模块可以提高CAM的精确边界和局部一致性。通过对比 baseline+MSG方法和基准方法，多尺度生成模块在WHU建筑数据集上对总体精度提高了9.05个点，IOU得分提高了11.87个点，F1得分提高了11.17个点，在InriaAID建筑数据集上对IOU得分提高了5.92分，F1得分提高了5.48分。我们认为这是因为多尺度生成模块可以消除特征中类别无关的噪声，从而利用多层次特征生成CAM。多层次特征，特别是底层特征，有助于生成高质量的CAM。此外，通过baseline+MSG方法与本申请方法的比较，我们还可以看到，超像素细化模块的加入进一步提高了方法在两个建筑数据集上的性能。最后，可以看出，两个模块的结合使得本申请方法在两个数据集上比基准方法具有极其明显的提升。具体地，在WHU数据集上总体精度提升了9.48个点，IOU得分提升了12.66个点，F1得分提升了11.86个点；在InriaAID建筑数据集上IOU得分提升了6.39 个点，F1得分提升了5.9个点。

为了全面比较，我们在图4定性地展示了多尺度生成模块和超像素细化模块的优点。从图4(b)可以看出，基准方法生成的CAM集中在建筑最具辨识性的部位；且从图4(e)可以看出在这两个模块的共同作用下，本申请方法可以得到更完整、更准确的建筑区域。通过对比图4(b)和图4(d)可以看出，通过引入多尺度生成模块，baseline+MSG方法在获取建筑物整体区域和识别建筑物周围非建筑物区域方面有较好的效果。此外，对比图4(b)与图4(c)，或图4(d)与图4(e)，我们可以发现，由于超像素细化模块的存在，图4(c)和图4(e)中的CAM可以获得更准确的建筑物边界，且抑制非建筑物的干扰。这意味着无论多尺度生成模块如何改进，超像素细化模块都可以在建筑边界方面进一步提高CAM。

在可视化和定量结果方面，多尺度生成模块在获取CAMs方面得到了相当大的改进。为了更好地理解多尺度生成模块的有效性，我们进行了进一步的实验。在图5中，我们分别展示了5(a)未使用多尺度生成模块的多尺度CAM；5(b)具有多尺度生成模块的多尺度CAMs及其融合CAM。使用的多层次特征是相同的，都是来自ResNet-50的阶段1-4。如图5所示，底层特征揭示了更多的空间细节信息，如边缘和纹理信息。特别地，如图5(a)所示，在未使用多尺度生成模块的底层特征CAM中，如stage 1-2的CAMs，存在大量类别无关的噪声，其会对建筑物提取产生干扰。与图5(a)相比，图5(b)显示了多尺度生成模块在消除CAM中类别无关噪声方面的有效性，从而使得CAM聚焦于建筑区域。在融合CAM中，错误分类的非建筑区域被进一步抑制，而建筑区域被突出显示。

表2本申请方法与其他方法在CAM上的定量比较

在表4和图6中，我们展示了本申请方法在CAM生成上的定量性能和可视化效果，并与其他弱监督方法进行了比较。从表4可以看出，我们提出的方法在 WHU数据集和InriaAID数据集上IOU得分达到了50个点以上，F1得分达到了 67个点以上，并且明显优于大多数其他弱监督方法。特别地，SEAM方法在WHU 数据集上的IOU得分和F1得分以及InriaAID数据集上的总体精度上的性能与本申请方法相似，但从所有指标上看，本申请方法性能更好。从图6的可视化结果可以看出，与CAM方法和GradCAM++方法相比，本申请方法可以获得更多的建筑物整体区域。特别是，如图6的第二行和第四行所示，可以明显看出，本申请方法成功地分离了相邻的建筑物；而其他的方法，包括WILDCAT，SPN，SEAM，错误地分类了很多建筑物周围的背景区。这是因为本申请提出的两个模块使我们的方法更有效地利用多层次特征，特别是低层次特征来生成CAM，而多层次特征(例如，纹理特征)可以帮助分类不同的建筑对象，并区分非建筑和建筑区域。此外，从图6的第一行可以看出，本申请方法也获取了更准确的建筑物边界。这是因为多尺度生成模块和超像素细化模块可以有效地利用多层次特征的丰富细节信息和超像素的特征，这两者都有助于获得准确的建筑边缘信息。

我们验证了我们的建筑提取模型的有效性，并与其他弱监督方法获得的模型进行了比较。为了进一步说明我们的建筑提取模型的稳健性，我们在包含不同颜色、大小和用途的各种建筑对象的两个公共建筑数据集上对其进行了评估。

本方法与其他方法在WHU构建数据集上的比较结果如表1所示。在验证数据集上，我们的建筑提取模型获得了92.18％的总体精度，56.69个点的IOU得分， 72.36个点的F1得分，以及91.81％的总体精度，53.66个点的IOU得分，69.84 个点的F1得分的优秀性能。从表1的对比结果也可以看出，我们的模型能够以明显的优势超越大多数比较模型，而SEAM模型能够和我们的模型具有相似的性能。SEAM模型在测试数据集上的IOU得分和F1得分指标略优于我们的模型，但我们的模型在总体精度上表现更好。

表3 WHU数据集上的定量比较

在图7中，我们可视化了不同方法在WHU数据集上分割结果。显然，与其他弱监督方法相比，我们的模型在物体完整性和建筑物精确边界方面表现得更好，具有代表性的例子可以在图7的第一行中被找到。此外，我们的模型还可以准确区分不同的建筑物体。例如，如图7第四行所示，我们的模型成功地分离了相邻的建筑，其中两座建筑之间的背景区域严重干扰了其他方法的预测。与真实标注和全监督的结果相比，本申请方法的结果中仍然存在一些误分类的像素，但与其他弱监督方法相比是较少的。

我们还在InriaAID数据集上进行了实验，以进一步评估我们提出的弱监督方法在建筑物提取方面的有效性和泛化能力。InriaAID数据集的定量比较结果见表 2，可视化结果见图8。从图8的可视化结果可以明显看出，我们的模型在建筑物的完整和精确区域表现更好。我们认为这是因为最终的建筑提取模型的性能与 CAM的质量密切相关。通过对CAM性能的分析，可以明显看出，通过利用多尺度生成模块和超像素细化模块，本申请方法能够生成更精确、更完整的CAM。因此，我们的建筑提取模型可以获得更优秀的提取结果。

从表4可以看出，我们的建筑提取模型在验证和测试数据集上的整体精度均达到了85％以上的性能。对于IOU得分和F1得分的指标，我们的模型在验证数据集和测试数据集上分别达到55个点和70个点。与WHU数据集上的结果略有不同的是，本申请方法在InriaAID数据集上的性能优于其他所有比较方法，包括在WHU数据集上的性能与本申请方法相似的SEAM模型。因为InriaAID数据集包含更多不同的建筑对象和许多相邻的建筑，如图8的第一列所示。而由于缺乏多尺度信息，大多数比较方法对这类建筑的分类结果不理想，而本申请提出的方法得益于多尺度生成模块和超像素细化模块，可以利用多尺度特征和超像素，这有助于相邻建筑的分离，和对不同大小和类型的建筑对象的识别。因此，本申请方法可以具有更优良更鲁棒的提取性能。

表4在InriaAID数据集上的定量比较

本申请提出了一种融合多尺度CAM和超像素细化的MSCAM-SR-Net来生成完整而准确的CAM，用于训练建筑提取模型。大量实验表明，基于图像级标签的MSCAM-SR-Net能够准确识别建筑区域，并在WHU建筑数据集和InriaAID建筑数据集上取得优异了建筑提取性能。定性和定量分析结果验证了多尺度生成模块和超像素细化模块可以有效利用神经网络的多层次特征和超像素特征，从而实现更精确的弱监督建筑提取。两个模块的消融实验进一步证明了，多尺度生成模块可以消除特征中与类别无关的噪声，并充分利用多层次特征生成高质量CAM，而超像素细化模块可以进一步在物体完整性和建筑边界上提升CAM。此外，在两个数据集的性能评估证明了MSCAM-SR-Net获得的建筑提取模型能够取得优异的建筑提取性能，并且在建筑提取的有效性和泛化能力方面优于其他弱监督方法。

以上实施例均是对本发明的优选设计描述，根据专利法及其相关的规定，实际保护范围以权利要求所确定的保护范围为准，而说明书的内容则可以用于解释权利要求的具体/更进一步的含义。在不脱离本发明的设计要点/精神的基础上，任何对本发明的润色或修饰，均应落入本发明的保护范围。

Claims

1.一种基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法，其特征在于：包括两个连续阶段：通过图像级标签获取CAM，并用CAM训练建筑物提取模型；在第一阶段，首先训练一个基于图像级标签的分类网络，然后使用训练好的分类网络生成CAM，并进一步改进CAM；在第二阶段，将改进后的CAM制成伪标签用以训练分割模型。

2.根据权利要求1所述的基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法，其特征在于：包括多尺度生成模块和超像素细化模块；多尺度生成模块的目的是充分利用多尺度特征以生成高质量的多尺度CAM；超像素细化模块利用超像素的特性来进一步提升多尺度CAM的质量；最后，利用改进的CAM训练建筑物提取模型；为了获得更好的建筑提取结果，采用可靠标签选择策略，在CAM中选择高置信区域进行训练，忽略不确定区域。

3.根据权利要求1所述的基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法，其特征在于：为了消除特征中类别无关的噪声，并且避免高级语义信息的过度使用，多尺度生成模块将特定类别的语义信息编码到多层次特征中，然后分别利用多层次特征生成多尺度CAM。

4.根据权利要求1所述的基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法，其特征在于：多尺度生成模块由多个CAM生成单元组成，多个CAM生成单元对应多层次特征，每个CAM生成单元包含一个1×1卷积层，一个ReLU层和一个批正则化层，以及一个通用的分类层，使用1×1卷积核将输入的特征图映射到更有利于图像分类的特征表达中；随后，将过滤后的特征输入到通用的分类层中，通用分类层包含一个全局池化层和一个全连接层；最后，CAM生成单元的输出是一个向量，其表示每个类别的预测得分。

5.根据权利要求4所述的基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法，其特征在于：在训练阶段，利用CAM生成单元的输出向量来计算分类损失，降低分类损失会促使特征理解全局语义，从而消除特征中类别无关的噪声；随后，在推理阶段，利用消除类别无关噪声后的多层次特征生成CAM；每个类别的CAM是由一组选定的特征图和相应的权重计算获得的；采用Grad-CAM++技术从每个CAM生成单元分别计算多个CAM；对于每个CAMGeneration单元，将梯度从该单元的输出反向传播到相应特征层的最后一个卷积层，从而计算出CAM；最后，将多层次特征计算得到的CAM融合为多尺度CAM。

6.根据权利要求1所述的基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法，其特征在于：采用ResNet-50作为基本架构，并从ResNet-50的阶段1-4中选取多层次特征；相应地，多尺度生成模块由4个CAM生成单元组成，分别添加在ResNet-50的上述阶段的后面；总共计算四个损失，而总体损失是这些损失的总和；通过多尺度生成模块和整体损失的训练，可以获得消除类别无关噪声后的多层次特征，并利用它们生成多尺度CAM；通过以上步骤，计算出了四种尺度的CAM；来自底层特征的CAM获取更详细的信息，而高层特征计算得到的CAM识别粗略的建筑物区域；最后，采用融合策略，根据公式

将多尺度CAM进行融合，其中A_i(i＝1，2，3，4)表示不同尺度的CAM；合并后的CAM中，非建筑物区域被抑制，而建筑物区域被突出显示。

7.根据权利要求1-2所述的基于多尺度CAM和超像素的遥感图像弱监督建筑提取方法，其特征在于：第二阶段包括如下步骤：首先，我们将CAM做成伪像素级标签；然后，我们基于伪标签来训练建筑物分割模型；在训练阶段忽略不确定类别的像素集；对损失函数进行优化，最小化真实值与模型的预测值的差异，从而使模型能够对建筑物像素和非建筑物像素进行分类，识别出伪标签中不确定类别像素是否属于建筑类。