CN116665040A

CN116665040A - 基于注意力机制的多尺度输入输出的建筑物变化检测方法

Info

Publication number: CN116665040A
Application number: CN202310427204.2A
Authority: CN
Inventors: 韩现伟; 孙宇; 张一民; 高伟; 赵春喜
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-08-29

Abstract

本发明公开了一种高分辨率遥感影像建筑物变化检测方法，包括以下步骤：首先收集数据，然后对数据进行处理，再对处理完的数据建立数据集，读取数据并进行数据增强，搭建网络模型并训练，最后将测试图像输入网络得到建筑物变化检测结果图。本发明以孪生Unet为基础，添加多尺度输入模块和多尺度输出模块，增加对建筑特征信息的利用，并添加注意力模块，增强对小目标建筑的检测能力，提高网络的检测精度。实验表明，本算法相比一些先进的算法而言，具有更高的检测精度和F1值，并在建筑边缘的细节变化信息利用上更为强大。

Description

基于注意力机制的多尺度输入输出的建筑物变化检测方法

技术领域

本发明涉及遥感图像变化检测技术领域，尤其涉及基于注意力机制的多尺度输入输出的建筑物变化检测方法。

背景技术

目前，在对遥感影像的建筑物进行变化检测时，大多是依靠专业人员的经验和专业知识，人工的确定建筑物变化的位置和类别，这种方法会耗费大量的人力物力和时间。而且，在遥感影像中，会有着大量的无关信息的干扰，比如光谱、纹理，光照、传感模块拍摄角度等因素，这些无关信息会对建筑物的检测造成干扰，使建筑物出现遮盖、形状差异等问题。这就需要对数据进行预处理，比如辐射校正、几何校正、图像配准、去云雾等操作，这会花费大量的时间，并且难免存在人工误差，这使得建筑物变化检测变得困难，很难满足我们的实际需要，因此，对建筑物的智能化检测已经越来越迫切，它对城市管理、土地资源利用、灾后重建等有着重大意义。

变化检测是指对同一地理位置在不同时间观察它的状态差异的过程，建筑物作为主要的研究对象，它的变化主要包括新增、重建和拆毁。现有的建筑变化检测方法可以分为传统的方法和基于深度学习的方法。传统的方法检测建筑变化的流程一般分为：1)收集数据；2)对图像数据进行预处理，包括图像配准、几何校正、辐射校正等；3)采用图像回归、图像差分或者变化向量分析等方法获得变化检测图。传统的方法比较依赖特征的构建，容易受到不同信息的干扰，比如噪声、图像配准等。而且传统的方法构建的特征只能拟合相对简单的建筑，对复杂的抽象的建筑特征拟合困难，容易产生漏检和误检。

近年来，随着深度学习的发展，它已经被广泛应用在变化检测上，并且许多研究证明，在特征提取方面，基于深度学习的变化检测方法优于传统方法，深度学习具有强大的建模和学习能力，并且检测速度快，通过建立一系列的模型如FCN、SegNet、UNet等来对图像进行特征提取和端到端的变化检测，为遥感图像的建筑物变化检测提供了新途径。

然而，随着遥感影像的分辨率越来越高，所包含的信息越来越复杂，如植被、土地等。它们会干扰建筑物检测。尤其是在建筑物的边缘，由于某些信息丢失，很难检测到边缘细节的变化，并且容易遗漏小目标建筑，比如FC-Siam-conc、Siam_Unet、DTCDSCN等。

发明内容

本发明的目的是提供基于注意力机制的多尺度输入输出的建筑物变化检测方法，能够加强网络对变化建筑物的检测能力，提高检测精度。

本发明采用的技术方案为：

基于注意力机制的多尺度输入输出的建筑物变化检测方法，包括如下步骤：

步骤(1)：收集数据：收集公开的高分辨率遥感影像建筑物变化检测数据集；

步骤(2)：数据处理并搭建：对第一步收集到的数据集进行预处理，把处理后的数据集作为新的数据集，用来训练和测试网络模型；

步骤(3)：读取数据集中的图像数据，并对其进行数据增强；

步骤(4)：搭建网络，对增强后的图像数据进行训练；具体包括：搭建基于注意力的多尺度输入输出网络AMIO-Net，该网络包括：

孪生编码模块，所述的孪生编码模块由两支相同结构构成，每支均包含五个编码块，每一个编码块由两层卷积、两层批归一化层、两层激活函数构成，用于提取双时相图像的特征；

多尺度输入模块，所述的多尺度输入模块通过下采样将图像缩减到不同大小，并通过卷积提取特征，再通过轻量化注意力过滤背景信息，增强对原始图像建筑边缘信息的利用，再将其输入到对应的编码块中；

解码模块，所述的解码模块由四个解码块组成，每一个由通道拼接、两层卷积、两层批归一化层、两层激活函数和一层Dropout层组成，用来融合特征并通过解码上采样输出变化图；

多尺度输出模块，所述多尺度输出模块由多个上采样组成，与解码模块对应构成并行分支结构，用来扩展特征图，并结合浅层和深层特征信息，加强对上下文信息的利用；

孪生注意力模块；所述的孪生注意力模块在解码模块分支和多尺度输出分支后，加强利用全局上下文语义特征，增强对小目标的检测能力；

在多尺度输入模块中，输入图像通过下采样缩小到不同尺度后，输入到卷积层和轻量化注意力模块后，得到输出的特征图，该特征图被输入到卷积编码块中进行后续处理；相对应的两个卷积编码块输出的特征图被拼接，卷积编码块输出的特征图经过金字塔池化注意力模块后，再进行拼接，拼接后的特征图输入到解码块中；

步骤(5)：通过测试样本输出变化检测图:用数据集中的测试集进行变化检测，得到输出变化建筑图像。

第一步：收集数据，包括：收集公开数据集LEVIR-CD，图像大小为1024×1024像素，分为训练集、验证集和测试集，每个子集中又包含变化前图像，变化后图像以及标签图像三个文件夹。

第二步：数据处理并搭建数据集，具体包括：对每个图像进行裁剪，将其大小变为256×256像素，然后删减不包含变化建筑的标签图像及其对应的变化前后图像，再将每个删减处理后的数据集随机分为训练集、验证集和测试集，训练集、验证集和测试集按照7：1：2的比例来划分。

第三步：读取数据并进行数据增强，读取数据集后对图像进行数据增强，数据增强方法包括：水平翻转、垂直旋转、逆时针旋转270°、逆时针旋转180°、逆时针旋转90°。

所述步骤4中训练过程具体如下：

4.1，在多尺度输入部分，通过下采样操作将原输入图像缩减为原始尺度的1/2、1/4、1/8和1/16，并通过卷积和轻量化注意力操作将其输送到孪生编码模块网络中以提取特征；

4.2，孪生编码模块输出十个特征图，拼接相应的特征图，最终得到五个输出特征图；

4.3，将第五个特征图输入到金字塔池化注意力模块挖掘深度代表性建筑特征后，通过上采样将其扩充到原来的两倍，并将其与第四个输出特征图在通道维度上拼连起来；

4.4，然后我们将其输入卷积层以提取特征，再通过批量归一化层(BN)和ReLu层加速网络训练；

4.5，每个解码块后通过dropout层，增强网络的泛化能力；

4.6，在四次这样的循环操作之后，获得解码输出分支的特征图；

4.7，不同大小的解码特征图被扩展到与原输入图像相同的尺度，

4.8，最后将解码输出的特征图与多尺度输出的特征图输入到孪生注意力模块中，过滤背景信息，进行上下文信息的利用，

4.9，再通过1×1大小的卷积输出最终的建筑变化检测图。

还包括有金字塔池化注意力模块，所述的金字塔池化注意力模块添加在孪生编码模块之后，用于充分考虑图像全局信息并关注图像变化建筑的特征。

模型训练采用初始学习率为0.0001，训练轮数为100轮，采用交叉熵损失和Dice损失的组合作为损失函数，使用Adam为优化模块，采用余弦退火算法来调节学习率。

所述的轻量化注意力操作的具体过程如下：

先对输入特征矩阵进行平均池化，

然后通过全连接更新特征权重，并通过ReLu激活函数进行反向传播；

最后，通过sigmoid函数更新矩阵权重，并和输入特征图相乘，以获得输出的注意力特征矩阵。

所述的金字塔池化注意力模块的操作具体如下：

首先对输入特征执行自适应平均池化操作，获得不同尺度(1×1，2×2，4×4和8×8)的特征矩阵；

然后对它们进行卷积运算以调整通道数，并应用轻量化注意力机制来获得特征矩阵；

再将特征矩阵通过上采样扩展到与输入特征图相同的大小；

在通道维度执行叠加，以聚合不同的变化特征信息来获得特征图；

最后通过卷积调整通道数后，获得最终的特征矩阵。

所述的步骤4.8具体包括如下步骤：

具体，首先对输入特征图执行卷积和自适应平均池化操作，调整它们的通道数和尺度；

然后，通过全连接更新矩阵，再把结果相加，紧接着，把相加结果输入到relu和softmax激活函数中，调整矩阵权重，

再把它们与输入特征相乘以获得输出特征；

再用卷积调整通道数后，得到最终的输出特征；该输出特征充分聚合了两个输入特征的变化信息，提高了网络对小目标的注意和检测准确度，对建筑物的边缘信息也更加关注。

本发明对于因为高分辨遥感影像中复杂的物体信息，建筑物的变化特征很难被大部分模型有效利用，这使得大部分模型获得的建筑变化图存在建筑边缘确实、小目标建筑遗漏、存在噪声等问题，本发明则将多尺度输入模块和多尺度输出模块添加到孪生UNet模型上，增加对输入图像建筑特征的利用能力，并设计注意力模块，过滤掉图像中的无关背景信息，增加对小尺度建筑的关注能力，减少漏检的情况，实验表明，与经典的模型SegNet、FCN等模型和先进的SNUNet、STANet等模型相比，本发明有更高的检测精度和F1分数。因此，本发明提出了一种基于注意力的多尺度输入输出的建筑物变化检测方法，以孪生UNet为基础，添加多尺度输入输出模块和注意力模块，

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为注意力网络AMIO-Net的变化检测流程示意图

图2为注意力网络AMIO-Net的模型结构示意图

图3为轻量化注意力机制结构示意图

图4为注意力网络AMIO-Net的金字塔池化注意力模块结构图

图5为注意力网络AMIO-Net的孪生注意力模块结构图

图6为注意力网络AMIO-Net与其它现有算法的建筑物变化检测结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、2和3所示，本发明包括

参考图1～5，该方法具体包括以下步骤：

步骤(1)：收集数据；

步骤(2)：数据处理并搭建数据集；

步骤(3)：读取数据并进行数据增强；

步骤(4)：搭建网络进行训练

步骤(5)：通过测试样本输出变化检测图.

具体的，步骤一：收集数据，包括：收集公开数据集LEVIR-CD，它是一个大型的遥感二元变化检测数据集，具有637对图像，分辨率为0.5m/pixel。图像标签由二元标签标记(其中1表示变化，0表示不变)，图像大小为1024×1024像素。分为训练集、验证集和测试集，每个子集中又包含变化前图像，变化后图像以及标签图像三个文件夹。

具体的，步骤二：数据处理并搭建数据集，由于计算机显卡内存限制，尺寸较大的图像在进行训练时，速度会非常慢，因此，对其以随机窗口的模式对图像进行滑动裁剪，将图像大小裁剪为256×256像素。在裁剪后的一些标签图像中，会有一些不包含变化像素的图，这使得模型很难学习到有用的特征，因此，剔除掉这些标签图像。在经过处理后，将每个数据集随机分为训练集、验证集和测试集。

具体的，步骤三：读取数据并进行数据增强，为了提高网络学***翻转、垂直翻转、逆时针旋转270°、逆时针旋转180°、逆时针旋转90°。

具体的，步骤四：搭建网络进行训练。搭建建筑物变化检测网络是本发明中最关键的技术环节，如图2所示，AMIO-Net网络主要包括四个部分：多尺度输入、孪生编码结构、多尺度输出、以及解码输出。

首先，在多尺度输入部分，通过下采样操作将原输入图像缩减为原始尺度的1/2、1/4、1/8和1/16，并通过卷积和轻量化注意力操作将其输送到孪生编码模块网络中以提取特征。孪生编码部分采用由五个编码块组成的孪生结构，每个编码块输出一个特征图，在孪生编码部分，网络共输出十个特征图，拼接相应的特征图，最终得到五个输出特征图。将第五个特征图输入到金字塔池化注意力模块挖掘深度代表性建筑特征后，通过上采样将其扩充到原来的两倍，并将其与第四个输出特征图在通道维度上拼连起来。然后我们将其输入卷积层以提取特征，再通过批量归一化层(BN)和ReLu层加速网络训练。并且，每个解码块后还添加了dropout层，以增强网络的泛化能力。在四次这样的循环操作之后，获得解码输出分支的特征图。在多尺度输出部分，为了组合浅层特征信息和深层特征信息，不同大小的解码特征图被扩展到与原输入图像相同的尺度，最后将解码输出的特征图与多尺度输出的特征图输入到孪生注意力模块中，过滤背景信息，进行上下文信息的利用，再通过1×1大小的卷积输出最终的建筑变化检测图。

轻量化注意力机制

如图3所示，在该模块中，先对输入特征矩阵进行平均池化，然后通过全连接更新特征权重，并通过ReLu激活函数进行反向传播。之后，通过sigmoid函数更新矩阵权重，并和输入特征图相乘，以获得输出的注意力特征矩阵。它可以增强模型对小目标变化信息的学习能力，并且参数量少。

金字塔池化注意力模块

如图4所示，在该模块中，首先对输入特征执行自适应平均池化操作，获得不同尺度(1×1，2×2，4×4和8×8)的特征矩阵。然后对它们进行卷积运算以调整通道数，并应用轻量化注意力机制来获得特征矩阵。再将特征矩阵通过上采样扩展到与输入特征图相同的大小。在通道维度执行叠加，以聚合不同的变化特征信息来获得特征图。再通过卷积调整通道数后，获得最终的特征矩阵。它的空间尺度和通道维度与输入特征相同。该模块可以结合并利用不同特征图区域的上下文信息。相比于单一的池化操作，它可以增强网络使用全局信息的能力。

孪生注意力模块

如图5所示，在深度神经网络中，不同解码层的特征图都有着丰富的特征信息，仅仅通过单一流的解码结构很难完全利用。因此，本方案设计了一个并行的多尺度输出结构。这使得解码部分被分成两个分支，每一个分支最终都输出一个相同尺度的特征图，为了更好地利用这两个特征图，本方案设计了孪生注意力模块。

如图所示，该模块中，它有两个相同的分支结构。首先对输入特征图执行卷积和自适应平均池化操作，调整它们的通道数和尺度。然后，通过全连接更新矩阵，再把结果相加，紧接着，把相加结果输入到relu和softmax激活函数中，调整矩阵权重，再把它们与输入特征相乘以获得输出特征。再用卷积调整通道数后，得到最终的输出特征。该输出特征充分聚合了两个输入特征的变化信息，提高了网络对小目标的注意和检测准确度，对建筑物的边缘信息也更加关注。

在完成网络模型的搭建后，在进行训练时，由于在变化检测遥感影像中，发生变化的像素仅占了一小部分，大部分是未发生变化的建筑像素，如果直接使用交叉熵损失来训练网络的话，损失值将非常大，不利于网络训练，并且效果很差。因此，为了平衡像素变化的不均性，采用Dice损失来作为补充。公式如下

loss＝loss_ce+βloss_dice (3)

x是输入，label表示标签图像，N表示图像对总的像素值。p_j和t_j分别表示变化像素j的预测值和真实值。β用来平衡交叉熵损失和dice损失。

此外，模型训练采用初始学习率为0.0001，训练轮数为100轮，采用交叉熵损失和Dice损失的组合作为损失函数，使用Adam为优化模块，采用余弦退火算法来调节学习率。具体的，步骤(5)：通过测试样本输出变化检测图。在网络完成训练并收敛后，用数据集中的测试子集来生成建筑变化检测图。

为了验证本发明的高效性，本实施例使用处理后的LEVIR-CD数据集进行不同算法模型的训练和测试，都在同一环境下进行训练和测试。用来做对比的算法包括经典的FCN、SegNet模型，以及先进的SNUNet、STANet和IDET。

通过4种评价指标进行测试，评价指标分别为整体准确率(Overall Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1-score)，F1为精确率和召回率的调和平均值，值越大越好。具体评价指标结果如表1所示。

表1本发明方法与其他现有方法的评价指标测试结果

从表1可以看出，本发明方法仅仅在精确率方面略低于STANet，其他三个指标全部高于5种现有方法，这证明了本发明方法的有效性。

本发明方法与其他现有方法的建筑物变化检测结果对比示意图，如图6所示。

从图6可以看出，本实施例方法的变化检测结果中，本算法的建筑物边缘轮廓更为清晰完整，并且改善了不同尺度建筑物变化目标中的错检和漏检现象，此外，对于小目标建筑的检测也更为精准。

综上所述，本发明方法可以提高深度卷积神经网络对小尺度目标建筑物的检测能力以及对建筑边缘细节的检测完整度，能够更多地利用原始图像的建筑信息，提高网络的特征表达能力，过滤一些无关背景信息的干扰，增加建筑的变化检测完整度和精度。

在本发明的描述中，需要说明的是，对于方位词，如有术语“中心”，“横向”、“纵向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示方位和位置关系为基于附图所示的方位或位置关系，仅是为了便于叙述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定方位构造和操作，不能理解为限制本发明的具体保护范围。

需要说明的是，本申请的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

注意，上述仅为本发明的较佳实施例及运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行较详细的说明，但本发明不限于这里所述的特定实施例，在不脱离本发明构思的情况下，还可以包括更多其他等有效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于：包括如下步骤：

步骤（2）：数据处理并搭建：对第一步收集到的数据集进行预处理，把处理后的数据集作为新的数据集，用来训练和测试网络模型；

步骤（3）：读取数据集中的图像数据，并对其进行数据增强；

步骤（4）：搭建网络，对增强后的图像数据进行训练；具体包括：搭建基于注意力的多尺度输入输出网络AMIO-Net，该网络包括：

步骤（5）：通过测试样本输出变化检测图:用数据集中的测试集进行变化检测，得到输出变化建筑图像。

2.根据权利要求1所述的基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于，第一步：收集数据，包括：收集公开数据集LEVIR-CD，图像大小为1024×1024像素，分为训练集、验证集和测试集，每个子集中又包含变化前图像，变化后图像以及标签图像三个文件夹。

3.根据权利要求2所述的基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于，第二步：数据处理并搭建数据集，具体包括：对每个图像进行裁剪，将其大小变为256×256像素，然后删减不包含变化建筑的标签图像及其对应的变化前后图像，再将每个删减处理后的数据集随机分为训练集、验证集和测试集，训练集、验证集和测试集按照7：1：2的比例来划分。

4.根据权利要求3所述的基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于，第三步：读取数据并进行数据增强，读取数据集后对图像进行数据增强，数据增强方法包括：水平翻转、垂直旋转、逆时针旋转270°、逆时针旋转180°、逆时针旋转90°。

5.根据权利要求4所述的基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于，所述步骤4中训练过程具体如下：

4.3，将第五个特征图输入到金字塔在池化注意力模块挖掘深度代表性建筑特征后，通过上采样将其扩充到原来的两倍，并将其与第四个输出特征图在通道维度上拼连起来；

4.5，每个解码块后通过dropout层，增强网络的泛化能力；

4.9，再通过1×1大小的卷积输出最终的建筑变化检测图。

6.根据权利要求4所述的基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于，还包括有金字塔池化注意力模块，所述的金字塔池化注意力模块添加在孪生编码模块之后，用于充分考虑图像全局信息并关注图像变化建筑的特征。

7.根据权利要求4所述的基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于，模型训练采用初始学习率为0 .0001，训练轮数为100轮，采用交叉熵损失和Dice损失的组合作为损失函数，使用Adam为优化模块，采用余弦退火算法来调节学习率。

8.根据权利要求6所述的基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于：所述的轻量化注意力操作的具体过程如下：

先对输入特征矩阵进行平均池化，

然后通过全连接更新特征权重，并通过ReLu激活函数进行反向传播;

9.根据权利要求7所述的基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于：所述的金字塔池化注意力模块的操作具体如下：

再将特征矩阵通过上采样扩展到与输入特征图相同的大小；

最后通过卷积调整通道数后，获得最终的特征矩阵。

10.根据权利要求9所述的基于注意力机制的多尺度输入输出的建筑物变化检测方法，其特征在于：所述的步骤4.8具体包括如下步骤：

再把它们与输入特征相乘以获得输出特征；