CN113887470B

CN113887470B - 基于多任务注意力机制的高分辨率遥感图像地物提取方法

Info

Publication number: CN113887470B
Application number: CN202111202067.XA
Authority: CN
Inventors: 张微; 马梦婷
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2024-06-14
Anticipated expiration: 2041-10-15
Also published as: CN113887470A

Abstract

本发明公开了一种基于多任务注意力机制的高分辨率遥感图像地物提取方法。该方法基于多模态数据的特征融合思路，采用多任务架构将高分辨遥感图像的RGB通道和IR通道分别从多任务网络架构的两个分支同时输入，同时将多任务注意网络模块融合进入编码器部分中，旨在编码过程中能够充分结合来自RGB和IR通道的互补信息，形成用于分割的判别表示，增强注意力机制能力，由此大大提高了地物提取模型提取高分辨率遥感图像中地物目标的性能。

Description

基于多任务注意力机制的高分辨率遥感图像地物提取方法

技术领域

本发明属于遥感影像处理领域，具体涉及一种从高分辨率遥感图像中提取地物的方法。

背景技术

随着航空航天和传感器技术的快速发展，遥感图像的空间分辨率已经从米级向亚米级甚至更高水平突破，目前，通过高分系列卫星采集的亚米级高分辨率遥感图像已经为土地资源规划利用、公共安全监测、防灾减灾、环境保护等重要领域提供信息服务和数据支撑。

目前该领域的研究主要集中于对高分辨率遥感图像进行分类，相比于中、低分辨率遥感图像，高分辨率遥感图像拥有更加丰富和细致的空间信息、几何结构和纹理信息，目标更为清晰。因此大量高分辨率遥感图像被应用于国土规划、工程建设及抢险救灾等领域.高分辨率遥感图像包含丰富的场景语义信息，地物的多样性、空间分布的复杂性提高了数据集的类间相似性和类内多样性，给分类任务带来诸多挑战。

在业界，对于地物分类的方法主要有以下三种方法：

(1)提取高分辨率遥感影像的手工特征作为低层局部特征；

(2)对局部特征进行编码，能够描述高分辨率影像的中层全局特征；

(3)利用卷积神经网络来提取高分辨率影像的高层特征。

传统的分类方法种，低层手工特征包括光谱特征、纹理特征等。常用的光谱特征包括图像的灰度值、灰度值均值、灰度值方差，纹理特征包括不变纹理指数、共生矩阵等。针对图像的结构特征，在早期可见光图像的分类识别中利用了SIFT特征，并且SIFT特征对噪声、光照、目标遮挡、杂物场景有较好的鲁棒性，有了这些优点，SIFT也能够对高分辨率遥感图像的特点进行有效表达。中层特征的获得是通过对高分辨率影像的低层手工特征进行编码，经过编码得到的全局特征能够作为高分辨率影像的中层特征。常用的方法有稀疏编码、视觉词袋模型。高层特征指的是利用深度神经网络对图像进行特征提取到的特征。近年来，深度学习推动了计算机视觉领域的发展，而对于图像分类任务卷积神经网络一般被设计为端到端的模型，可以利用多层次的网络，多个卷积核对图像特征进行提取，代替了烦琐的人工特征。得益于多层结构和多卷积核，模型可以从高分辨率影像中提取更抽象、更有区分性的高层特征，从而得到更好的分类结果。

自从卷积神经网络在高分辨率遥感图像分类领域兴起后，为了提升图像中目标提取的准确性，Paisitkriangkrai等人结合将卷积神经网络与条件随机场结合。另一方面，针对VHR遥感影像分类中存在的类内差异大的问题，提出了基于目标级分割的方法。同时，也在研究如何挖掘与图像在同一区域内采集的其他数据的潜在信息，以提高语义分割的性能。例如，Kaiser等人使用相应的OpenStreetMap(OSM)矢量数据作为SegNet输入的一部分，提供了比其他配置更好的性能。

以上基于深度卷积神经网络的方法在处理高分辨遥感图像大多采用以下两种方式：一是随意舍弃影像通道，二是粗略组合所需数据。这样做将会导致两个主要问题:一是高分辨遥感图像的每个通道都具有丰富的地物信息。采用部分图像通道作为分割模型的输入，容易造成信息的丢失；二是来自同一幅影像的异构在光谱和空间上具有互补性。这种数据的任意组合就不会突出那些应该具有的特征。

因此，由于高分辨遥感影像大多是以四通道影像为主，但是目前高分辨率遥感图像地物提取模型针对影像大多采用粗略随意的组合图像通道，因此无法突出图像中辨别性特征。如何实现高分辨率遥感图像中地物目标准确的语义分割，是目前亟待解决的技术问题。

发明内容

本发明的目的在于解决上述现有技术中存在的问题，并提供一种基于多任务注意力机制的高分辨率遥感图像地物提取方法。

本发明所采用的具体技术方案如下：

一种基于多任务注意力机制的高分辨率遥感图像地物提取方法，其包括：

S1、对带有地物标签的高分辨率遥感图像进行切块，形成由图像块组成的训练数据集；

S2、利用训练数据集对地物提取模型进行训练，得到训练后的地物提取模型；所述地物提取模型采用编码器-解码器结构，编码器部分以遥感图像的RGB通道和IR通道分别作为两个分支的输入，通过多任务注意网络模块在编码过程中融合来自RGB和IR通道的互补信息从而形成用于语义分割的判别表示，并由解码器部分实现地物提取；

S3、将待提取地物的高分辨率遥感图像进行切块，得到与训练数据集中相同大小的图像块并分别输入训练后的地物提取模型中提取地物目标，所有图像块的提取结果按序拼接后得到高分辨率遥感图像的地物提取结果。

作为优选，所述编码器部分由两个分支网络组成，其中：第一分支网络的输入为遥感图像块的IR通道，其输入先经过卷积层，然后再依次经过第一残差块1、第一残差块2、第一残差块3和第一残差块4逐步生成细节递增的特征图；第二分支网络的输入为遥感图像块的RGB通道，其输入先经过卷积层，然后再依次经过第二残差块1、第二残差块2、第二残差块3和第二残差块4逐步生成细节递增的特征图；

两个分支网络之间具有4个多任务注意网络模块，第一残差块N和第二残差块N之间设置多任务注意网络模块N，N＝1,2,3,4；

对于任一多任务注意网络模块N，其均具有通道注意力子模块和空间注意力子模块；在所述通道注意力子模块中，同时获取第一分支网络中第一残差块N输出的IR特征图和第二分支网络中第二残差块N输出的RGB特征图作为输入，输入的IR特征图和RGB特征图经过连接操作后，依次经过自适应平均池化层、全连接层、Relu层、全连接层后由sigmoid函数输出归一化为(0,1)的IR注意向量和RGB注意向量，利用RGB注意向量对所述IR特征图进行加权生成IR注意特征，利用IR注意向量对所述RGB特征图进行加权生成RGB注意特征，最后将所述IR特征图与RGB注意特征逐项相加得到校正后IR特征图，将所述RGB特征图与IR注意特征逐项相加得到校正后RGB特征图；在所述空间注意力子模块中，将所述通道注意力子模块输出的校正后IR特征图和校正后RGB特征图进行连接操作后，再经过卷积层生成新的IR特征图和新的RGB特征图，将新的IR特征图和新的RGB特征图再次进行连接操作后经过Softmax操作，输出新的IR注意向量和新的RGB注意向量，利用新的IR注意向量对所述IR特征图进行加权，利用新的RGB注意向量对所述RGB特征图进行加权，两个加权结果逐项相加得到融合特征图，融合特征图与所述IR特征图逐项相加得到校正后IR特征图，融合特征图与所述RGB特征图逐项相加得到校正后RGB特征图；

第一分支网络中，第一残差块N输出的IR特征图与多任务注意网络模块N输出的校正后IR特征图经过残差连接后，作为第一残差块N+1的输入；第二分支网络中，第二残差块N输出的RGB特征图与多任务注意网络模块N输出的校正后RGB特征图经过残差连接后，作为第二残差块N+1的输入；第一个多任务注意网络模块1输出的融合特征图和最后一个多任务注意网络模块4输出的融合特征图均输入所述解码器部分，用于进行地物提取。

进一步的，所述两个分支网络中的卷积层的核大小为7，步幅为2。

进一步的，所述解码器部分中，首先使用1*1卷积层处理输入的融合特征图以调整通道数量，然后将处理结果进行双线性上采样操作，得到上采样结果；再对所述编码器部分中多任务注意网络模块1输出的融合特征图使用1*1卷积处理，处理结果与所述上采样结果连接后，经过3*3卷积来细化特征，最后进行双线性上采样，输出最终的地物类别分类预测结果。

作为优选，所述训练数据集中，图像块大小为256*256。

作为优选，所述地物提取模型训练时，采用Adam作为优化器，以交叉熵作为损失函数。

作为优选，所述地物提取模型训练时，训练轮数设置为200轮，学习速率设置为1e-4。

本发明相对于现有技术而言，具有以下有益效果：

目前大多数的高分辨率遥感图像地物提取模型都是粗略的从图像的四个通道中任意选取三个通道组合作为模型的输入；由于遥感影像的每个通道都有丰富的地物信息，如果只使用部分图像通道作为分割模型的输入，将很容易造成信息的丢失。而本发明提出了一种多任务注意力机制的高分辨率遥感图像地物提取方法，该方法基于多模态数据的特征融合思路，采用多任务架构将高分辨遥感图像的RGB通道和IR通道分别从多任务网络架构的两个分支同时输入，并将ResNet101作为特征提取网络。

目前比较新的地物提取方法诸如：SCATTNet，是在通过特征提取网络后直接对特征图进行一次注意力模块的处理，其中注意力模块没有参与到整个编码任务当中去。而本发明将多任务注意网络模块融合进入编码器部分中，旨在编码过程中能够充分结合来自RGB和IR通道的互补信息，形成用于分割的判别表示，增强注意力机制能力，由此大大提高了地物提取模型提取高分辨率遥感图像中地物目标的性能。

附图说明

图1为基于多任务注意力机制的高分辨率遥感图像地物提取方法的步骤流程图；

图2为本发明中地物提取模型的结构图；

图3为本发明地物提取模型中编码器部分结构图；

图4为本发明地物提取模型中解码器部分结构图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

如图1所示，在本发明的一个较佳实施例中，提供了一种基于多任务注意力机制的高分辨率遥感图像地物提取方法，其具体步骤如下：

S1、对带有地物标签的高分辨率遥感图像进行切块，形成由一系列图像块组成的训练数据集。图像块的具体大小可以根据实际需要调整，一般可设置为256*256尺寸。训练数据集中的图像块样本数量应足够大，满足模型训练对于样本的需求。

S2、利用训练数据集对地物提取模型进行训练，得到训练后的地物提取模型。

其中，地物提取模型是本发明的核心，该地物提取模型采用编码器-解码器(Encoder-Decoder)结构，编码器(Encoder)部分基于特征提取网络ResNet101构建，其以遥感图像的RGB通道和IR(即Infrared，红外)通道分别作为两个分支的输入，通过多任务注意(MTA)网络模块在编码过程中融合来自RGB和IR通道的互补信息从而形成用于语义分割的判别表示，并由解码器(Decoder)部分实现地物提取。

在本实施例中地物提取模型的结构如图2所示，下面对编码器部分和解码器部分的具体结构进行详细描述。

首先，编码器部分由两个分支网络组成，其中：第一分支网络的输入为遥感图像块的IR通道(IR Image)，其输入先经过卷积层(本实施例中卷积核大小为7，步幅为2)，然后再依次经过第一残差块1(IR Res1)、第一残差块2(IR Res2)、第一残差块3(IR Res3)和第一残差块4(IR Res4)逐步生成细节递增的特征图；第二分支网络的输入为遥感图像块的RGB通道(RGB Image)，其输入先经过卷积层(本实施例中卷积核大小为7，步幅为2)，然后再依次经过第二残差块1(RGB Res1)、第二残差块2(RGB Res2)、第二残差块3(RGB Res3)和第二残差块4(RGB Res4)逐步生成细节递增的特征图。

两个分支网络之间具有4个多任务注意网络模块，分别为多任务注意网络模块1、多任务注意网络模块2、多任务注意网络模块3和多任务注意网络模块4，第一残差块N和第二残差块N之间设置多任务注意网络模块N，N＝1,2,3,4。也就是说，第一残差块N、第二残差块N、多任务注意网络模块N是完全对应的，多任务注意网络模块1用于对第一残差块1、第二残差块1的输出特征进行融合，多任务注意网络模块2用于对第一残差块2、第二残差块2的输出特征进行融合，多任务注意网络模块3用于对第一残差块3、第二残差块3的输出特征进行融合，多任务注意网络模块4用于对第一残差块4、第二残差块4的输出特征进行融合。

多任务注意网络模块是实现两个分支网络中特征图中RGB和IR通道互补信息融合的核心，四个多任务注意网络模块的结构相同，均具有通道注意力子模块和空间注意力子模块。

对于任一多任务注意网络模块N(N＝1,2,3,4)而言，其内部通道注意力子模块和空间注意力子模块的具体结构基本相同，下面介绍如下：

如图3所示，首先，由通道注意力子模块同时获取第一分支网络中第一残差块N输出的IR特征图(IR Feature Map)和第二分支网络中第二残差块N输出的RGB特征图作为输入，输入的IR特征图和RGB特征图经过连接(Concatenate)操作后，依次经过自适应平均池化层(Adaptive Average Pooling Layer，AAP)、全连接层(Fully-Connected Layer，FC)、Relu层、全连接层(Fully-Connected Layer，FC)后由sigmoid函数输出归一化为(0,1)的IR注意向量(IR Attention Feature Map)和RGB注意向量(RGB Attention Feature Map)，利用RGB注意向量对输入的IR特征图进行加权(Mul)生成IR注意特征(IR Attention FeatureMap)，利用IR注意向量对输入的RGB特征图进行加权(Mul)生成RGB注意特征(RGBAttention Feature Map)，最后将输入的IR特征图与RGB注意特征逐项相加(Sum)得到校正后IR特征图，将输入的RGB特征图与IR注意特征逐项相加(Sum)得到校正后RGB特征图。

如图4所示，其次，在空间注意力子模块中，将同一多任务注意网络模块内由前述通道注意力子模块输出的校正后IR特征图和校正后RGB特征图在空间任一位置进行连接(Concatenate)操作后，再经过卷积层(Conv)生成新的IR特征图和新的RGB特征图，将新的IR特征图和新的RGB特征图再次进行连接(Concatenate)操作后经过Softmax操作，输出新的IR注意向量和新的RGB注意向量，利用新的IR注意向量对输入的IR特征图进行加权(Mul)，利用新的RGB注意向量对输入的RGB特征图进行加权(Mul)，两个加权结果逐项相加(Sum)得到融合特征图(Fused Feature)，融合特征图与输入的IR特征图逐项相加(Sum)得到校正后IR特征图，融合特征图与输入的RGB特征图逐项相加(Sum)得到校正后RGB特征图。

四个多任务注意网络模块的作用是形成融合特征图，进而对原始输入的IR特征图和RGB特征图进行校正，生成校正后IR特征图和校正后RGB特征图。在第一分支网络中，第一残差块N输出的IR特征图与多任务注意网络模块N输出的校正后IR特征图经过残差连接(逐元素相加，Element-Wise Sum)后，作为第一残差块N+1的输入；第二分支网络中，第二残差块N输出的RGB特征图与多任务注意网络模块N输出的校正后RGB特征图经过残差连接后，作为第二残差块N+1的输入。最后一个多任务注意网络模块4后续不存在第一残差块和第二残差块，因此无需输出校正后RGB特征图和校正后RGB特征图。参见图2所示，在该传递过程中，将每个残差块的输出特征映射(Feature Map)传递给多任务注意网络模块，多任务注意网络模块融合了每一对RGB和IR特征映射，并将注意力校正后的特征映射(AttentionFeature)传播到下一步。由此，多任务注意网络模块利用两个特征图的互补信息实现了融合编码。多任务注意网络模块可以突出RGB特征图中的有用信息，并将其应用于IR特征图校正，反之亦然。

对于编码器部分整体而言，第一个多任务注意网络模块1输出的浅层的融合特征图(Low-Level Fused Feature)和最后一个多任务注意网络模块4输出的融合特征图(Fused Feature)均输入解码器部分，用于进行地物提取。

另外，在解码器部分中，首先使用1*1卷积层处理输入的融合特征图以调整通道数量，然后将处理结果进行双线性上采样操作(Upsampling)，得到上采样结果；再对编码器部分中多任务注意网络模块1输出的浅层的融合特征图使用1*1卷积处理，处理结果与前述的上采样结果连接(Concat)后，经过3*3卷积来细化特征，最后进行双线性上采样(Upsampling)，输出最终的地物类别分类预测结果，即分类图(Classification Map)。

地物提取模型的训练方法与常规模型训练方法类似，通过梯度下降方式优化损失函数即可，对此不再赘述。

S3、将待提取地物的高分辨率遥感图像按照与训练数据集相同的方式进行切块，得到与训练数据集中图像块样本相同大小的图像块，并将这些图像块分别输入训练后的地物提取模型中提取地物目标，所有图像块的提取结果按照切块顺序重新拼接后，即可得到高分辨率遥感图像的地物提取结果。

下面将上述S1～S3的所示的基于多任务注意力机制的高分辨率遥感图像地物提取方法应用于一个具体实施例中，以展示其所能实现的技术效果。

实施例

本实施例中，具体的基于多任务注意力机制的高分辨率遥感图像地物提取方法步骤如S1～S3所示，不再重复赘述，下面主要展示其具体实现细节和技术效果。

1、数据集获取

获取ISPRS Postam数据集24张以及GID数据集10张，同时获取两个数据集所对应的标签。

将获取的高分辨率遥感图像进行一系列仿射变化以实现数据增强，对应的标签也做相应处理。

由于GPU等计算资源的限制，对数据增强后的遥感图像进行非重叠切块处理，得到近万张大小为256*256的图像块，对应的标签也做相应处理。

为了训练所提出的模型，将切好的图像块按照70％、30％比例分成训练数据集和测试数据集，对应的标签也做相应处理。

2、模型训练

如前所述，所提出的地物提取模型基于编码器-解码器结构，具体结构如图1所示。

将训练数据集塞入地物提取模型中，将训练轮数设置为200轮，学习速率设置为1e-4。所提出的模型采用Adam作为优化器，交叉熵作为损失函数。考虑到有限的计算资源，批量大小设置为8；150轮后得到训练好的地物提取模型。

该模型是基于PyTorch 1.4.0框架实现的，同时在一个使用Intel Xeon Silver4216CPU、16gb RAM和两个GeForce RTX 2080Ti卡(24gb)的工作站上进行了验证。

3、性能验证

调用训练好的地物提取模型，使用测试数据集对模型进行验证，得到地物提取准确度以及可视化结果。

4、验证结果

基于ISPRS Postam以及GID数据集，将本发明与SegNet、UNet、MFNet、DeepLabv3+、PSPNet以及SCATTNet进行对比，在三个评价指标上都有提升；具体如下：对于ISPRS Postam数据集来说，本发明与DeepLabv3+相比，mIoU、mPA和AvgF1分别提高了16.13％、10.15％和9.57％，与PSPNet相比分别提高了16.42％、8.33％和7.51％，这一增加证实了注意力模块在捕获感兴趣的语义区域和在有意义的位置聚集信息特征方面的有效性。对于对比方法SCATTNet来说，本发明在mIoU,mPA和AvgF1分别增加了4.48％，5.20％和3.43％，这一增加表明多任务学习共享了RGB和IR通道的信息特征，并为分割提供线索，增强了注意力机制能力；此外，本发明在mIoU、mPA和AvgF1方面比同样用RGB-IR图像输入的MFNet高出19.45％、9.34％和10.30％。验证了利用互补信息进行特征融合的重要性。对于GID数据集来说，MAFFNet获得了比其他模型更高的评价分数，尤其是与SCAttNet相比，mIoU、mPA和AvgF1分别提高了1.34％、0.42％和5.80％。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于多任务注意力机制的高分辨率遥感图像地物提取方法，其特征在于，包括：

S3、将待提取地物的高分辨率遥感图像进行切块，得到与训练数据集中相同大小的图像块并分别输入训练后的地物提取模型中提取地物目标，所有图像块的提取结果按序拼接后得到高分辨率遥感图像的地物提取结果；

所述编码器部分由两个分支网络组成，其中：第一分支网络的输入为遥感图像块的IR通道，其输入先经过卷积层，然后再依次经过第一残差块1、第一残差块2、第一残差块3和第一残差块4逐步生成细节递增的特征图；第二分支网络的输入为遥感图像块的RGB通道，其输入先经过卷积层，然后再依次经过第二残差块1、第二残差块2、第二残差块3和第二残差块4逐步生成细节递增的特征图；

两个分支网络之间具有4个多任务注意网络模块，第一残差块N和第二残差块N之间设置多任务注意网络模块N，N=1,2,3,4；

2.如权利要求1所述的基于多任务注意力机制的高分辨率遥感图像地物提取方法，其特征在于，所述两个分支网络中的卷积层的核大小为7，步幅为2。

3.如权利要求1所述的基于多任务注意力机制的高分辨率遥感图像地物提取方法，其特征在于，所述解码器部分中，首先使用1*1卷积层处理输入的融合特征图以调整通道数量，然后将处理结果进行双线性上采样操作，得到上采样结果；再对所述编码器部分中多任务注意网络模块1输出的融合特征图使用1*1卷积处理，处理结果与所述上采样结果连接后，经过3*3卷积来细化特征，最后进行双线性上采样，输出最终的地物类别分类预测结果。

4.如权利要求1所述的基于多任务注意力机制的高分辨率遥感图像地物提取方法，其特征在于，所述训练数据集中，图像块大小为256*256。

5.如权利要求1所述的基于多任务注意力机制的高分辨率遥感图像地物提取方法，其特征在于，所述地物提取模型训练时，采用Adam作为优化器，以交叉熵作为损失函数。

6.如权利要求1所述的基于多任务注意力机制的高分辨率遥感图像地物提取方法，其特征在于，所述地物提取模型训练时，训练轮数设置为200轮，学习速率设置为1e-4。