CN116030361A

CN116030361A - 一种基于cim-t架构的高分辨率影像变化检测方法

Info

Publication number: CN116030361A
Application number: CN202310111186.7A
Authority: CN
Inventors: 吴徐旭; 何小其; 杨根科; 褚健
Original assignee: Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Current assignee: Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-04-28

Abstract

本发明公开了一种基于CIM‑T架构的高分辨率影像变化检测方法，涉及现实场景下两期遥感图像变化检测与图像处理领域，包括以下步骤：步骤1、采集两期遥感影像图像，获得变化检测数据集；步骤2、用变化检测数据集构建变化检测模型；步骤3、用变化检测数据集训练变化检测模型；步骤4、将待测图像数据集输入变化检测模型，得到变化检测结果。其中，步骤2中的变化检测模型是一种编码器‑解码器模型；编码器包括主干网络特征提取模块和标签生成器模块；解码器包括密集跳跃连接模块和ECAM模块。

Description

一种基于CIM-T架构的高分辨率影像变化检测方法

技术领域

本发明涉及现实场景下两期遥感图像变化检测与图像处理领域，尤其涉及一种基于CIM-T架构的高分辨率影像变化检测方法。

背景技术

近年来，随着航天技术的不断发展，中国对地观测能力同步取得不断的提升，而且通过遥感卫星获得的图像的空间分辨率亦在不断提升。相对普通遥感影像，高分辨率遥感影像，特指高空间分辨率遥感影像，具有更加丰富的细节信息，并由此带来更加准确和客观的特点。因此，高分辨率遥感影像被广泛运用于城市违章建筑变化检测、土地荒漠化变化检测与农作物面积分析等重要领域。

在遥感图像应用领域中，遥感图像变化检测是遥感领域最为重要的下游任务之一。由于高分辨率遥感影像复杂的地物信息，过去的遥感图像配准仍然依赖人工解译，但人工解译方法需要高昂的人力成本，且存在较高的误检率和漏检率，满足不了实时检测的需求。为适应当今制造业的信息化和智能化的趋势，在生产环节上需要摆脱传统人力手工对产能和效率的束缚。

传统的高分辨率遥感图像的变化检测算法主要是应用统计学的思想，利用单个像素作为基本单元进行分析并提取变化的信息，但该方法难以得到准确的变化边界，也需要耗费大量的人力和时间成本。随着机器学习方法的不断发展，变化检测从以单个像素为单位的像素级变化检测逐渐发展成以多个像素聚合为单位的对象级变化检测。虽然机器学习方法能够减少人力及时间成本，但是对于变化区域的边界以及变化内容语义信息也无法得到较好的结果。

但随着深度学习方法的不断发展，各种基于神经网络的变化检测算法在不断的提出。针对遥感图像尺寸大小不一样的情况，李军伟等人在中国发明专利申请“一种基于自适应融合NestedUNet的光学遥感图像变化检测方法”(申请号为：CN202211047386.2)、阮永俭等人在中国发明专利申请“一种全尺度特征聚合的遥感影像变化检测的方法”(申请号为：CN202211003665.9)中都针对图像的分辨率不一致的问题进行了一定的改进。同时，针对变化对象不一致的问题，戴育岐等人在中国发明专利申请“一种基于深度学习的行星遥感影像地表地形变化检测方法”(申请号为：CN202211136723.5)、侯彪等人在中国发明专利申请“一种基于深度学习以及图像配准算法的飞机变化检测专利方法”(申请号为：CN202210815924.1)中都针对不同的变化对象做出了一定的改进。

但是，上述方法在用于高分辨率遥感影像的变化检测的时候，往往会存在一系列的问题。遥感图像的变化区域边界往往比较精细，而卷积神经网络连续的下采样过程会导致丢失图片的众多细节信息，对于最后的变化检测结果的边界信息存在非常大的影响。同时，高分辨遥感影像存在尺寸非常大的特点，神经网络架构对于大尺寸的高分辨率遥感图像而言需要更大的参数量以及训练算力。

因此，本领域的技术人员致力于开发一种基于CIM-T架构的高分辨率影像变化检测方法，解决现有技术中存在的上述问题。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何解决各种基于神经网络的深度学习变化检测算法中同时存在的会导致图片的众多细节信息丢失的问题，以及需要过大的参数量和训练算力的问题。

为实现上述目的，本发明提供了一种基于CIM-T架构的高分辨率影像变化检测方法，兼顾卷积神经网络参数量少以及Transformer网络提取特征能力强的CIM-Transformer网络架构(即CIM-T架构，卷积内卷积模块与Transformer模块)，在保证训练参数量不至于过大的同时，大幅提高图像变化检测的边缘信息的提取，最终解决了现有卷积神经网络因连续下采样过程导致最后检测结果边界非常不精细的问题的同时，也解决了单纯使用Transformer网络架构导致参数量以及计算力需求极大的问题。具体来说，本发明所提供的技术方案采用经典的编码器-解码器结构进行网络的搭建：编码器部分提出卷积和内卷积组合的方式对特征进行初步提取，再使用Transformer模块对特征进一步进行优化，得到更加精细的特征；解码器部分提出使用密集跳跃连接机制，将各级特征进行重采样恢复细节信息。最后，采用ECAM模块(总体通道注意力机制模块)对变化区域特征做出更好的预测。

具体来说，本发明提供了一种基于CIM-T架构的高分辨率影像变化检测方法，包括以下步骤：

步骤1、采集两期遥感影像图像，获得变化检测数据集；

步骤2、用所述变化检测数据集构建变化检测模型；

步骤3、用所述变化检测数据集训练所述变化检测模型；

步骤4、将待测图像数据集输入所述变化检测模型，得到变化检测结果；

其中，

所述步骤2中的所述变化检测模型是一种编码器-解码器模型；

编码器包括主干网络特征提取模块和标签生成器模块；

解码器包括密集跳跃连接模块和ECAM模块；

具体地，所述步骤2包括以下子步骤：

步骤2.1、通过所述主干网络特征提取模块提取所述变化检测数据集中的多尺度特征，并记录在第一特征图中，再通过所述标签生成器模块对所述多尺度特征进行再生成；

步骤2.2、通过所述密集跳跃连接模块对提取到的所述多尺度特征进行融合和增强；

步骤2.3、采用所述ECAM模块对所述多尺度特征进行差异性同化，得到所述变化检测模型。

进一步地，所述步骤2中的所述主干网络特征提取模块由双路权值共享的孪生网络构成，把从所述两期遥感影像图像中获取的所述变化检测数据集输入所述孪生网络中，再采用CIM模块获得所述变化检测数据集中的所述多尺度特征。

进一步地，所述CIM模块包括卷积模块和内卷积模块，将输入的所述变化检测数据集先通过所述卷积模块进行处理，得到中间结果，再将所述中间结果输入到所述内卷积模块，得到所述多尺度特征。

进一步地，所述卷积模块包括：3×3的卷积层、第一批归一化层、激活层；所述内卷积模块包括：1×1的卷积核、第二批归一化层、激活函数、逐元素相加模块；

通过残差连接的方式将所述内卷积模块所得的结果与所述变化检测数据集进行相加，得到所述多尺度特征，并记录在有四层的所述第一特征图中，所述第一特征图的每一层的大小不同、通道数不同；

所述CIM模块由以下公式给出：

x＝x+CIM(x)

其中，x代表所述变化检测数据集，CIM代表的是卷积-内卷积的操作所得的结果，相加操作代表所述残差连接的方式。

进一步地，所述标签生成器模块包含：标签编码模块和标签解码模块；

所述标签编码模块是通过空间注意力模块与transformer编码模块对所述主干网络特征提取模块获得的所述多尺度特征进行编码，生成具有全局上下文信息的标签向量；

所述标签解码模块是对所述标签向量采用多头层间注意力的方式，重新获得与所述第一特征图一样大小且具有全局信息的第二特征图。

进一步地，对于一个上采样单元，所述密集跳跃连接模块采用双倍双线性插值的方式对所述第二特征图进行融合和增强，得到分辨率提升的所述第二特征图，再将所述第二特征图继续作为下一个上采样单元的输入，最终得到的所述第二特征图的每一层都大小相同；

所述上采样单元包括：1×1的卷积层、批归一化层、激活函数层、双倍双线性插值层。

进一步地，所述ECAM模块的输入为所述第二特征图的四层特征图；

所述步骤2.3包括以下子步骤：

步骤2.3.1、对所述四层特征图进行直接相加，具体为：

F_intra＝x^(0，1)+x^(0，2)+x^(0，3)+x^(0，4)

其中，x^(0，1)表示第一层特征图，x^(0，2)表示第二层特征图，x^(0，3)表示第三层特征图，x^(0，4)表示第四层特征图，F_intra表示输入的所述四层特征图的内部关系，相加操作代表对特定层的特征图进行逐元素的相加；

步骤2.3.2、进行通道维度上的拼接操作，获得输入的所述四层特征图之间的相互关系，具体为：

F_inter＝[x^(0，1)，x^(0，2)，x^(0，3)，x^(0，4)]

其中，F_inter表示输入的所述四层特征图之间的相互关系，中括号代表所述通道维度上的拼接操作；

步骤2.3.3、将F_intra输入通道注意力模块，计算通道注意力CAM，具体为：

CAM(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))

其中，F可以取F_intra或F_inter，F_intra或F_inter的通道注意力计算公式一样，MLP是多层感知机，AvgPool是平均池化，MaxPool是最大池化，σ代表sigmoid操作；

M_intra＝CAM(F_intra)

其中，F取F_intra，M_intra代表所述四层特征图内部的一个关系；

步骤2.3.4、将F_inter输入所述通道注意力模块，并与重复四次后的M_intra相加，得到：

F_inter+repeat₍₄₎(M_(intra))

步骤2.3.5、将两个结果通过逐像素点相乘，计算总体注意力机制ECAM，具体为：

其中，M_(inter)代表所述四层特征图相互之间的一个关系，其计算方式与M_intra的计算方式类似，只是将F_intra替换为F_inter；

步骤2.3.6、通过1×1的卷积操作得到最后的预测结果，具体为：

Y＝(ECAM(F_ensemble))

其中，F_ensemble代表

Y代表最后的预测结果，h代表1×1的卷积操作。

进一步地，所述通道注意力模块包含平均池化层、最大池化层、全连接层、激活函数层。

进一步地，在所述步骤3中，所述变化检测模型的训练总损失为交叉熵损失和相似性度量损失的和：

Loss＝L_wce+L_dice

其中，Loss为所述训练总损失，L_wce为所述交叉熵损失，L_dice为所述相似性度量损失；

L_wce的计算过程为：

其中，H代表所述两期遥感影像图像的高度，W代表宽度，weig t[class]代表每种类别的权重，class代表两种列表：0或1；

L_dice的计算过程为：

其中，Y代表标签真值结果，

代表预测结果，softmax是归一化指数函数，softmax函数将上一层的原始数据进行归一化，转化为(0,1)之间的数值。

进一步地，在所述步骤3中，所述变化检测模型的超参数设置如下：采用多种尺度进行训练，将输入的所述两期遥感影像图像调整为256×256以及512×512大小，分别进行两组不同的训练；采用Adam优化器进行训练，同时采用10个epoch的warmup过程；模型总计训练100个epochs，初始的学习率设置为0.001；使用8张3090显卡进行训练。

本发明提供的一种基于CIM-T架构的高分辨率影像变化检测方法至少具有以下技术效果：

1、本发明所提供的技术方案通过采用CIM模块作为两期图像特征提取的第一部分，之后对每级特征采用Transformer模块进行特征的再生成，提升了网络对图像的特征提取能力，对变化边界有着更精细的提取；

2、本发明所提供的技术方案通过采用密集跳跃连接机制对不同层级的特征进行一个融合处理。不同于传统的PANet网络简单地对多尺度特征简单求和，密集跳跃连接机制集成了不同层级之间的特征以及相同层级之间的特征进行跨尺度和快速归一化融合，增强了不同分辨率输入特征的表征能力，从而提高了对变化边界的更精细化提取；

3、本发明所提供的技术方案为了解决各级融合特征像素点上存在一定语义差异的情况，采用一种ECAM的方式对各级特征进行处理。ECAM的基础是CAM，通过采用注意力机制来实现对特征的一个同化处理。通过对特征内部与特征之间采用相互进行注意力机制，协调各特征像素点上存在的语义偏差，得到更好的检测结果。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例提供的基于CIM-T架构的高分辨率影像变化方法的流程示意图；

图2为图1所提供的实施例的整体网络架构示意图；

图3为图1所提供的实施例的提取两期影像多尺度特征的主干网络编码器的架构示意图；

图4为图1所提供的实施例的融合来自主干网络的多尺度输入特征的密集跳跃连接机制的架构示意图；

图5为图1所提供的实施例的用于预测最终检测结果的ECAM网络的架构示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

本发明提供的一种基于CIM-T架构的高分辨率影像变化检测方法，一方面将自注意力机制(Self-attention)与卷积(Convolution)进行融合从而在减少参数量的同时，也提高了特征提取能力，减少了连续下采样所丢失的图片细节信息，另一方面对通过卷积神经网络提取到的特征图重新使用Transformer进行特征重复提取，获取更加丰富的特征信息，相比单纯对原图像使用Transformer进行特征提取减少了大量的参数，最后，对使用Transformer提取后的特征使用ECAM模块进行特征融合，进一步提升最后的结果。

实施例1

本发明提供的一种基于CIM-T架构的高分辨率影像变化检测方法，包括以下步骤：

步骤1、采集两期遥感影像图像，获得变化检测数据集；

步骤2、用变化检测数据集构建变化检测模型；

步骤3、用变化检测数据集训练变化检测模型；

步骤4、将待测图像数据集输入变化检测模型，得到变化检测结果。

如图1所示，步骤1又可以细分为图像采集、图像筛选与标记和数据增强三个子步骤，最终获得变化检测数据集。步骤2为变化检测模型构建，步骤3为变化检测模型训练，步骤4为变化检测模型预测，最终获得变化检测结果。

实施例2

在实施例1的基础上，本发明具体采取的是一种基于CIM-T架构(CIM-Transformer)和ECAM的遥感领域下建筑物变化检测方法，其中，步骤1的三个子步骤具体为：

步骤1.1、图像采集，使用无人机航拍技术获取现实生活中两期不同时间遥感影像图片；

步骤1.2、图像筛选与标记，首先，通过对众多的两期遥感影像进行挑选，选出有关建筑物的变化影像，使用图像标注工具对采集到的两期遥感影像进行变化标注。标注内容为变化区域的轮廓，利用得到的标注文件及原始图像构成模型所需要的建筑物变化检测数据集；

步骤1.3、数据增强，对获得的建筑物变化检测数据集进行数据增强，主要包括随机裁剪、随机水平翻转、随机垂直翻转、随机固定旋转、随机旋转、随机高斯噪声、随机尺度裁剪、随机固定裁剪和尺度抖动。

步骤2～步骤4具体为：

步骤2的变化检测模型构建具体为：首先，通过CIM建立提取多尺度特征，随后，通过Transformer模块进行各级别特征的再生成，形成主干网络的特征提取模块，然后，通过密集跳跃连接机制对主干网络提取到的特征进行多尺度的融合，增强不同分辨率的特征，最后，基于融合增强后的多尺度特征，使用ECAM模块对特征进行一个差异性同化，得到最后的detection head部分。

步骤3的变化检测模型训练具体为：将建筑物变化检测数据集按照一定的比例划分为训练集和测试集，将经过数据增强后的训练集输入表面缺陷检测模型进行训练，训练时正负样本的划分依据最优传输分配(Optimal Transport Assignment,OTA)策略。

步骤4的变化检测模型预测具体为：使用训练号的表面缺陷检测模型进行推理，输入测试集中的产品表面图像，输出并显示检测到的变化边缘。

实施例3

在实施例1和2的基础上，本发明提供的一种基于CIM-T架构的高分辨率影像变化检测方法，包括：网络的搭建、训练及测试，其中，网络具体为pytorch深度学习框架构建的编码器-解码器结构的双路孪生深度变化检测网络，基于遥感影像数据样本集进行网络训练之后，以两期待测遥感影像作为网络的输入，得到两期遥感影像的变化检测结果。

其中，步骤1的三个子步骤具体为：

步骤1.1、图像采集，采用工业摄像机在无人机上拍摄现实中某地两期遥感影像，标注出变化区域的位置，利用标注的标签图像以及原始图像构成模型所需要的变化检测数据集。

具体地，首先，选择光照条件良好的天气采用CCD工业摄像机拍摄高质量的地区遥感影像。图像的尺寸与拍摄的地区相关，图像为RGB三通道彩色图；

步骤1.2、图像挑选与图像标注。首先，对众多的两期遥感影像进行人工目视解译，挑选出所有有关建筑物的变化影像，再使用图像标注工具对采集到的两期影像进行变化标注。

具体地，首先，通过人眼比对的方式对采集到的所有数据集进行筛选，选择出所有能够用于建筑物变化检测的图像；然后，采用PS图像处理软件对收集到的建筑物变化检测数据集进行像素级别的边缘与内部轮廓的手动标注。通过对比两期影像所变化的区域，将变化部分的内容以及轮廓标注为1，未变部分的内容及轮廓标注为0；最后，形成一个只包含0和1的黑白单通道的二值图像，作为最后训练的标签。

步骤1.3、数据增强。数据集作为变化检测的基础，考虑到实际获得的变化检测数据集变化区域较少，必须对数据进行一定的增强才能获得更好的结果，主要包含：随机裁剪、随机水平翻转、随机垂直翻转、随机固定旋转、随机旋转、随机高斯噪声、随机尺度裁剪、随机固定裁剪和尺度抖动，并且需要对两期影像都进行数据增强。在进行数据增强的同时，如果变化检测的输入图像发生偏移或者变换，需要对便签数据进行同样的数据增强处理方式，目的在于保证图像变换之后，其中的变化区域仍然与标注区域相匹配。

具体地，随机裁剪：在保证缺陷目标不被裁掉的情况下，随机裁剪图像，并计算原来的标注边界在裁剪后图像中的位置；随机水平翻转：以0.5的概率对图像及标注边界进行水平翻转；随机垂直翻转：以0.5的概率对图像及标注边界进行垂直翻转；随机固定旋转：以0.75的概率对图像及标注图像进行90°、180°、270°旋转；随机旋转：对图像以及标注图像使用符合均匀分布的角度进行随机旋转；随机高斯噪声：对输入的两期影像进行半径为随机的一个随机高斯噪声的使用；随机尺度裁剪：对输入的两张图片以及标注图像进行一个随机大小的裁剪；随机固定裁剪：对输入的两期影像以及标注图像进行一个中心固定大小的尺度的一个裁剪；尺度抖动：在裁剪前，随机地将图像大小调整成原始图像的0.5-1.5倍，并相应地调整标注图像以及标注边界。

步骤2包括以下子步骤：

步骤2.1、通过主干网络特征提取模块提取变化检测数据集中的多尺度特征，并记录在第一特征图中，再通过标签生成器模块对多尺度特征进行再生成；

步骤2.2、通过密集跳跃连接模块对提取到的多尺度特征进行融合和增强；

步骤2.3、采用ECAM模块对多尺度特征进行差异性同化，得到变化检测模型。

步骤2中提出的建筑物遥感影像变化检测模型是一种典型的编码器-解码器模型，整体网络结构图如图2所示，其中，编码器模块主要包含两个部分：主干网络特征提取模块和标签生成器模块，编码器架构如图3所示：

其中，主干网络特征提取模块主要由双路权值共享的孪生网络所构成，把从两期遥感影像图像中获取的变化检测数据集输入孪生网络中，再采用CIM模块获得变化检测数据集中的多尺度特征。CIM模块包括卷积模块和内卷积模块，将输入的变化检测数据集先通过卷积模块进行处理，得到中间结果，再将中间结果输入到内卷积模块，得到多尺度特征。

具体地，将两期高分辨遥感影像分别输入到孪生网络中，由于双路网络的权值相同，因此能够获得相同的位置上的特征图。与传统的使用卷积模块(Convolution Module)方式不同的是，本发明所提供的技术方案是采用卷积-内卷积模块(Convolution-Involution Module)来获得两期遥感影像的特征图。具体的实现主要分成两步，首先将输入通过卷积模块的处理，得到相应的结果；内卷积模块的输入为卷积模块的输出，将该输出输入到内卷积模块中得到最后的输出。所述的卷积模块包括：3×3的卷积层、批归一化层、激活层。所述的内卷积模块包含：1×1大小的卷积核、批归一化层、激活函数、逐元素相加模块。最后，通过残差连接的方式将内卷积所得结果与原图进行相加，得到多尺度特征，并记录在有四层的第一特征图中，第一特征图的每一层的大小不同、通道数不同。

CIM模块由以下公式给出：

x＝x+CIM(x)

其中，x代表变化检测数据集，CIM代表的是卷积-内卷积的操作所得的结果，相加操作代表残差连接的方式。

通过上述方式可以得到四层大小不同，通道数不同的特征图。通过残差连接的方式将内卷积模块所得的结果与变化检测数据集进行相加，得到多尺度特征，并记录在有四层的第一特征图中，第一特征图的每一层的大小不同、通道数不同。

其中，标签生成器模块主要包含两个模块：标签编码模块(Token-Encoder)和标签解码模块(Token-Decoder)。标签编码模块是通过空间注意力模块与transformer编码模块对主干网络特征提取模块获得的多尺度特征进行编码，生成具有全局上下文信息的标签向量；

标签编码模块的主要目的是通过空间注意力模块与transformer编码模块对全局特征信息进行一个编码，从而生成一个具有全局上下文信息的、大小为b×l×c的标签向量(token)。transformer编码模块包含：1*1的卷积层、位置编码结构、层归一化层、多头注意力层、双线性层。

标签解码模块是对标签向量采用多头层间注意力的方式，重新获得与第一特征图一样大小且具有全局信息的第二特征图。

标签编码器模块的具体实现为：空间注意力模块首先将输入的特征图通过一个1*1大小的卷积核进行处理，对输入特征的通道数及大小进行一定的调整，得到不包含全局上下文信息的一个向量，所述的计算过程为：t_blc＝f_b'_l(hw)f_bc(hw)。然后将此向量输入到transformer编码器模块，通过位置编码、多头自注意力机制分别生成Q,K,V向量，再取softmax之后再通过两个线性层得到最后的标签向量。假设输入为F∈R^(b×c×h×w)的一个特征图，经过空间注意力模块处理后得到一个b×l×c大小的向量，再通过transformer编码器生成Q,K,V三个向量。其中，通过多头自注意力模块生成的三个向量由以下计算式给出：Q,K,V＝t'W^Q,t'W^K,t'W^V，其中，Q,K,V三个向量均由输入的特征图自身所给出。通过多头自注意力机制得到最后的标签向量计算式由下面几个式子给出：

head_i＝SDPA(t'W_i ^Q,t'W_i ^K,t'W_i ^V)，

MHSA(Q,K,V)＝Concat(head₁,head₂,...head_n)。

最后，通过双线性层得到大小为b×l×c的标签向量。标签解码模块则是对标签采用多头层间注意力的方式MHCA(Q,K,V)＝Concat(head₁,head₂,...head_n)，重新获得和原特征图一样大小的、具有更多全局信息的特征图。标签解码器的具体结构与标签编码器结构完全一样，只不过是Q,K,V＝t'W^Q,t'W^K,t'W^V三个向量的来源不同。编码器部分采用多头自注意力方式进行实现，而解码器部分采用多头层间注意力方式进行实现。

解码器模块主要包含两个部分：密集跳跃连接模块和ECAM模块，如图4和图5所示。

其中，在密集跳跃连接(skip-dense)模块中，为了获得更具有代表性的特征以及减少网络因为下采用所丢失的众多细节信息，采用一种密集跳跃连接机制来将编码器部分与解码器部分进行连接。输入为编码器所得的一系列特征图，具体的方式为：对于一个上采样单元，密集跳跃连接模块采用双倍双线性插值的上采样方式对第二特征图进行融合和增强，得到分辨率提升的第二特征图，再将第二特征图继续作为下一个上采样单元的输入，最终得到的第二特征图的每一层都大小相同。通过这样的上采样方式，恢复到上一层特征图的大小，从而恢复特征图所丢失的一系列细节信息，得到更好的检测结果。

其中所采用的上采样单元包括：1×1的卷积层、批归一化层、激活函数层、双倍双线性插值层。

由于使用双倍双线性插值获得的分辨率大小一样的特征图存在不同像素点预测上的偏差，因此采用ECAM模块来对上述的偏差进行优化，以得到更好的预测结果。

具体地，ECAM模块的输入为第二特征图的四层特征图。

步骤2.3包括以下子步骤：

步骤2.3.1、对四层特征图进行直接相加，具体为：

F_intra＝x^(0,1)+x^(0,2)+x^(0,3)+x^(0,4)

其中，x^(0,1)表示第一层特征图，x^(0,2)表示第二层特征图，x^(0,3)表示第三层特征图，x^(0,4)表示第四层特征图，F_intra表示输入的四层特征图的内部关系，相加操作代表对特定层的特征图进行逐元素的相加；

步骤2.3.2、进行通道维度上的拼接操作，获得输入的四层特征图之间的相互关系，具体为：

F_inter＝[x^(0,1),x^(0,2),x^(0,3),x^(0,4)]

其中，F_inter表示输入的四层特征图之间的相互关系，中括号代表通道维度上的拼接操作；

CAM(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))

M_intra＝CAM(F_intra)

其中，F取F_intra，M_intra代表四层特征图内部的一个关系；

步骤2.3.4、将F_inter输入通道注意力模块，并与重复四次后的M_intra相加，得到：

F_inter+repeat₍₄₎(M_(intra))

其中，M_(inter)代表四层特征图相互之间的一个关系，其计算方式与M_intra的计算方式类似，只是将F_intra替换为F_inter；

Y＝(ECAM(F_ensemble))

其中，F_ensemble代表

Y代表最后的预测结果，h代表1×1的卷积操作。

所述通道注意力模块主要包含平均池化层、最大池化层、全连接层、激活函数层。ECAM模块主要包含通道注意力模块，所述的预测模块主要包含1×1的卷积模块。通过通道维度上的拼接获得不同特征之间的一个关系、以及逐像素点相加的操作获得不同特征内部的一个关系，可以极大的减少相互之间的语义偏差，得到更好的预测结果。

在步骤3中进行变化检测模型训练，具体是将数据集按照一定的比例划分为训练集和测试集，将经过数据增强后的训练集输入变化检测模型进行训练。

具体地，将步骤1中获取的两期建筑物遥感变化检测数据集以4：1的比例划分为训练集和测试集。划分好的训练集使用步骤1中的数据增强策略进行增强，并输入步骤2中构建好的变化检测模型中进行训练。在变化检测的任务中，由于未变像素点的数量往往远大于变化像素点的数量，为了减少样本不均衡带来的对结果的严重影响，变化检测模型的训练总损失为交叉熵损失(cross-entropy loss)以及相似性度量损失(dice loss)的求和：

Loss＝L_wce+L_dice

其中，Loss为训练总损失，L_wce为交叉熵损失，L_dice为相似性度量损失；

L_wce的计算过程为：

其中，H代表两期遥感影像图像的高度，W代表宽度，weig t[class]代表每种类别的权重，class代表两种列表：0或1；L_wce计算过程的整体含义就是一个二分类的交叉熵损失的计算方式的缩写，二分类交叉熵损失函数的计算方式固定。

L_dice的计算过程为：

其中，Y代表标签真值结果，

代表预测结果，softmax是归一化指数函数，softmax函数将上一层的原始数据进行归一化，转化为(0,1)之间的数值。使用softmax将最后的预测结果转化为0-1之间的一个概率值，用来确定到底是发生变化还是没有发生变化。通过两种损失函数的一种混合方式，能够对模型训练有着更好的帮助。所得的数值被当做概率分布，用来作为多分类的目标预测值。

在步骤3中，变化检测模型的超参数设置如下：采用多种尺度进行训练，将输入的两期遥感影像图像调整为256×256以及512×512大小，分别进行两组不同的训练；采用Adam优化器进行训练，同时采用10个epoch的warmup过程；模型总计训练100个epochs，初始的学习率设置为0.001；使用8张3090显卡进行训练。对于大小为256的输入图片，给每块GPU分配16张图像，总batch size为128。

在步骤4的变化检测模型的预测中，使用训练好的网络模型进行推理，输入测试集种的两期遥感影像表面图片，输出并现实检测到的变化边界。

具体地，将划分好的数据集中的两期遥感影像输入到步骤五中训练好的变化检测模型。首先，通过CIM建立提取多尺度特征，随后通过Transformer模块进行各级别特征的再生成，形成具有包含更多特征信息的多尺度特征；然后，通过密集跳跃连接机制对主干网络提取到的特征进行多尺度的融合，增强不同分辨率的特征，并基于融合增强后的多尺度特征，使用ECAM模块对特征进行一个差异性同化，使用该detection head对上述的多尺度特征进行一个变化区域的预测；最后，通过一个1×1的卷积核得到最后的预测变化结果。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，所述方法包括以下步骤：

步骤1、采集两期遥感影像图像，获得变化检测数据集；

步骤2、用所述变化检测数据集构建变化检测模型；

步骤3、用所述变化检测数据集训练所述变化检测模型；

其中，

编码器包括主干网络特征提取模块和标签生成器模块；

解码器包括密集跳跃连接模块和ECAM模块；

具体地，所述步骤2包括以下子步骤：

2.如权利要求1所述的基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，所述步骤2中的所述主干网络特征提取模块由双路权值共享的孪生网络构成，把从所述两期遥感影像图像中获取的所述变化检测数据集输入所述孪生网络中，再采用CIM模块获得所述变化检测数据集中的所述多尺度特征。

3.如权利要求2所述的基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，所述CIM模块包括卷积模块和内卷积模块，将输入的所述变化检测数据集先通过所述卷积模块进行处理，得到中间结果，再将所述中间结果输入到所述内卷积模块，得到所述多尺度特征。

4.如权利要求3所述的基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，所述卷积模块包括：3×3的卷积层、第一批归一化层、激活层；所述内卷积模块包括：1×1的卷积核、第二批归一化层、激活函数、逐元素相加模块；

所述CIM模块由以下公式给出：

x＝x+CIM(x)

5.如权利要求4所述的基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，所述标签生成器模块包含：标签编码模块和标签解码模块；

6.如权利要求5所述的基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，对于一个上采样单元，所述密集跳跃连接模块采用双倍双线性插值的方式对所述第二特征图进行融合和增强，得到分辨率提升的所述第二特征图，再将所述第二特征图继续作为下一个上采样单元的输入，最终得到的所述第二特征图的每一层都大小相同；

7.如权利要求6所述的基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，所述ECAM模块的输入为所述第二特征图的四层特征图；

所述步骤2.3包括以下子步骤：

步骤2.3.1、对所述四层特征图进行直接相加，具体为：

F_intra＝x^(0,1)+x^(0,2)+x^(0,3)+x^(0,4)

其中，x^(0,1)表示第一层特征图，x^(0,2)表示第二层特征图，x^(0,3)表示第三层特征图，x^(0,4)表示第四层特征图，F_intra表示输入的所述四层特征图的内部关系，相加操作代表对特定层的特征图进行逐元素的相加；

F_inter＝[x^(0,1),x^(0,2),x^(0,3),x^(0,4)]

CAM(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))

M_intra＝CAM(F_intra)

F_inter+repeat₍₄₎(M_(intra))

Y＝(ECAM(F_ensemble))

其中，F_ensemble代表

Y代表最后的预测结果，h代表1×1的卷积操作。

8.如权利要求7所述的基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，所述通道注意力模块包含平均池化层、最大池化层、全连接层、激活函数层。

9.如权利要求7所述的基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，在所述步骤3中，所述变化检测模型的训练总损失为交叉熵损失和相似性度量损失的和：

Loss＝L_wce+L_dice

L_wce的计算过程为：

L_dice的计算过程为：

其中，Y代表标签真值结果，

10.如权利要求7所述的基于CIM-T架构的高分辨率影像变化检测方法，其特征在于，在所述步骤3中，所述变化检测模型的超参数设置如下：采用多种尺度进行训练，将输入的所述两期遥感影像图像调整为256×256以及512×512大小，分别进行两组不同的训练；采用Adam优化器进行训练，同时采用10个epoch的warmup过程；模型总计训练100个epochs，初始的学习率设置为0.001；使用8张3090显卡进行训练。