CN111860398A

CN111860398A - 遥感图像目标检测方法、***及终端设备

Info

Publication number: CN111860398A
Application number: CN202010737230.1A
Authority: CN
Inventors: 刘京; 田亮; 郭蔚; 杨烁今; 陈栋; 周丙寅
Original assignee: Hebei Normal University
Current assignee: Hebei Normal University
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30
Anticipated expiration: 2040-07-28
Also published as: CN111860398B

Abstract

本发明适用于图像处理技术领域，公开了一种遥感图像目标检测方法、***及终端设备，上述方法包括：获取待检测遥感图像；将所述待检测遥感图像输入训练后的并行感知注意力网络模型中，得到多个不同尺度的输出特征图；根据所述多个不同尺度的输出特征图进行目标检测得到检测结果。本发明通过并行感知注意力网络模型进行特征提取，不但可以提取目标的多尺度、上下文以及全局特征，而且可以提取非局部的目标间关联特征，还可以提取方向敏感的目标特征，使用通过并行感知注意力网络模型提取的多个尺度的输出特征图进行目标检测可以在保证较高检测准确率的同时提高检测速度，能够同时兼顾目标检测速度和目标检测精度。

Description

遥感图像目标检测方法、***及终端设备

技术领域

本发明属于图像处理技术领域，尤其涉及一种遥感图像目标检测方法、***及终端设备。

背景技术

目标检测是图像处理领域的重要研究内容，有着很高的实际应用价值，是国内外专家学者广泛关注的研究课题。并且，随着深度学习的发展，将深度学习应用于遥感图像的目标检测是大势所趋。

目前，基于深度学习的目标检测模型主要分为两大类。一类是以RCNN，Fast-RCNN，Faster-RCNN为代表的基于区域推荐的目标检测模型，该类目标检测模型经过由粗到细两步预测出被检测目标的边界框和类别，有较高的精确度但是检测速度慢；另一类是以YOLO，SSD为代表的基于回归的目标检测模型，该类模型直接预测出被检测目标的边界围框和类别而无需经过“先粗后细”的过程，有较快的检测速度但是检测精度一般。因此，现有技术无法兼顾目标检测速度和目标检测精度。

发明内容

有鉴于此，本发明实施例提供了一种遥感图像目标检测方法、***及终端设备，以解决现有技术无法兼顾目标检测速度和目标检测精度的问题。

本发明实施例的第一方面提供了一种遥感图像目标检测方法，包括：

获取待检测遥感图像；

将待检测遥感图像输入训练后的并行感知注意力网络模型中，得到多个不同尺度的输出特征图；

根据多个不同尺度的输出特征图进行目标检测得到检测结果。

本发明实施例的第二方面提供了一种遥感图像目标检测***，包括：

获取模块，用于获取待检测遥感图像；

特征提取模块，用于将待检测遥感图像输入训练后的并行感知注意力网络模型中，得到多个不同尺度的输出特征图；

目标检测模块，用于根据多个不同尺度的输出特征图进行目标检测得到检测结果。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如第一方面所述遥感图像目标检测方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被一个或多个处理器执行时实现如第一方面所述遥感图像目标检测方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例首先获取待检测遥感图像，然后将待检测遥感图像输入训练后的并行感知注意力网络模型中，得到多个不同尺度的输出特征图，最后根据多个不同尺度的输出特征图进行目标检测得到检测结果，本发明实施例通过并行感知注意力网络模型进行特征提取，不但可以提取目标的多尺度、上下文以及全局特征，而且可以提取非局部的目标间关联特征，还可以提取方向敏感的目标特征，使用通过并行感知注意力网络模型提取的多个尺度的输出特征图进行目标检测可以在保证较高检测准确率的同时提高检测速度，能够同时兼顾目标检测速度和目标检测精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的遥感图像目标检测方法的实现流程示意图；

图2是本发明一实施例提供的并行感知注意力网络模型的示意图；

图3是本发明一实施例提供的第一多尺度注意力子模块的示意图；

图4是本发明一实施例提供的第一上下文注意力子模块的示意图；

图5是本发明一实施例提供的第一通道注意力子模块的示意图；

图6是本发明一实施例提供的第一尺度特征图的热力图像的示意图；

图7是本发明一实施例提供的第一上下文特征图的热力图像的示意图；

图8是本发明一实施例提供的第一通道特征图的热力图像的示意图；

图9是本发明又一实施例提供的遥感图像目标检测方法的实现流程示意图；

图10是本发明一实施例提供的实验检测结果的示意图；

图11是本发明一实施例提供的遥感图像目标检测***的示意框图；

图12是本发明一实施例提供的终端设备的示意框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

图1是本发明一实施例提供的遥感图像目标检测方法的实现流程示意图，为了便于说明，仅示出了与本发明实施例相关的部分。本发明实施例的执行主体可以是终端设备。如图1所示，该方法可以包括以下步骤：

S101：获取待检测遥感图像。

在本发明实施例中，可以通过现有方法获取待检测遥感图像。

S102：将待检测遥感图像输入训练后的并行感知注意力网络模型中，得到多个不同尺度的输出特征图。

在本发明实施例中，首先构建并行感知注意力网络模型，然后通过训练集对构建的并行感知注意力网络模型进行训练，得到训练后的并行感知注意力网络模型。

在本发明的一个实施例中，在对并行感知注意力网络模型进行训练的过程中，使用类别损失函数和回归损失函数，其中回归损失函数为距离交并比损失函数。

具体地，类别损失函数为：

距离交并比损失函数(Distance Intersection over Union，DIoU)为：

在距离交并比损失函数中，b，b^gt分别代表了锚边界框和标签边界框的中心点，p代表计算两个中心点的欧式距离，c代表可以同时覆盖锚边界框和标签边界框的最小矩形的对角线距离。因此DIoU中对锚边界框和标签边界框之间的归一化距离进行了建模。该损失函数在加快收敛的同时有助于提升小目标的检测准确率。

在本发明实施例中，采用距离交并比损失代替传统的回归损失，能够在加快训练速度的同时增强对小目标的检测准确率。

在本发明的一个实施例中，参见图2，并行感知注意力网络模型以残差网络为主干；

并行感知注意力网络模型包括第一残差块B₁、第二残差块B₂、第三残差块B₃、第四残差块B₄、第一并行感知注意力模块、第二并行感知注意力模块、第三并行感知注意力模块和第四并行感知注意力模块；第一残差块B₁、第二残差块B₂、第三残差块B₃和第四残差块B₄的尺寸均不同；

第一并行感知注意力模块以第一残差块B₁和第二残差块B₂为输入，输出第一融合特征图IB₁；第二并行感知注意力模块以第二残差块B₂和第三残差块B₃为输入，输出第二融合特征图IB₂；第三并行感知注意力模块以第三残差块B₃和第四残差块B₄为输入，输出第三融合特征图IB₃；第四并行感知注意力模块以第四残差块B₄为输入，输出第四融合特征图IB₄；

第四融合特征图IB₄经过可变形卷积得到第四尺度的输出特征图O₄；第三融合特征图IB₃经过可变形卷积之后与经过2倍上采样后的第四尺度的输出特征图O₄相加得到第三尺度的输出特征图O₃；第二融合特征图IB₂经过可变形卷积之后与经过2倍上采样后的第三尺度的输出特征图O₃相加得到第二尺度的输出特征图O₂；第一融合特征图IB₁经过可变形卷积之后与经过2倍上采样后的第二尺度的输出特征图O₂相加得到第一尺度的输出特征图O₁。

其中，并行感知注意力网络模型的主干采用残差网络ResNet-101。

在各个残差块后面引入并行感知注意力模块，并经过融合操作得到各个融合特征图，然后使用可变形卷积精确提取位置敏感特征并采用多尺度融合策略得到四个不同尺度的输出特征图。

由于在遥感图像中目标角度多变，常规的卷积操作很容易提取到无关信息，为了减少无关特征对方向敏感目标的影响，本发明实施例在得到的各个尺度下融合后的特征图后使用可变形卷积操作，该操作通过为每一个采样位置预测一对x方向和y方向的偏移量来达到修正采样位置的目的，从而改变了传统的规则的采样结构，可以对任意形状的物体进行采样，能够加强对方向敏感目标的特征提取能力。

具体地，在可变形卷积中，输入为H×W×C的特征图，H为特征图的高度，W为特征图的宽度，C为特征图的通道数，经过卷积操作后得到大小为H×W×2C的特征图，此时的通道数为原来的两倍，分别代表每个像素点在X方向和Y方向的偏移量，最后将输入图像中像素的索引与经过卷积得到的偏移值相加得到最终的特征图，在进行像素偏移时需要将偏移量设定为图片以内。由于在实际运算中偏移量通常为小数，不能直接作为偏移坐标，如果强行取整会引入很大的误差，为了避免这一误差，通常在实际操作中采用双线性插值法得到最终特征图。

在本发明的一个实施例中，第一并行感知注意力模块、第二并行感知注意力模块和第三并行感知注意力模块的结构相同；

参见图2，第一并行感知注意力模块包括第一多尺度注意力子模块、第一上下文注意力子模块和第一通道注意力子模块；

第一多尺度注意力子模块以第一残差块B₁和第二残差块B₂为输入，输出第一尺度特征图E；

第一上下文注意力子模块以第一残差块B₁为输入，输出第一上下文特征图F；

第一通道注意力子模块以第一残差块B₁为输入，输出第一通道特征图G；

将第一尺度特征图E、第一上下文特征图F和第一通道特征图G进行融合，得到第一融合特征图IB₁。

在本发明实施例中，第一并行感知注意力模块、第二并行感知注意力模块和第三并行感知注意力模块的结构相同，只是输入输出不同。第二并行感知注意力模块包括第二多尺度注意力子模块、第二上下文注意力子模块和第二通道注意力子模块；第三并行感知注意力模块包括第三多尺度注意力子模块、第三上下文注意力子模块和第三通道注意力子模块。

具体地，在第二并行感知注意力模块中，第二残差块B₂代替第一并行感知注意力模块中的第一残差块B₁的位置，第三残差块B₃代替第一并行感知注意力模块中的第二残差块B₂的位置。同理，在第三并行感知注意力模块中，第三残差块B₃代替第一并行感知注意力模块中的第一残差块B₁的位置，第四残差块B₄代替第一并行感知注意力模块中的第二残差块B₂的位置。

在本发明的一个实施例中，参见图3，在第一多尺度注意力子模块中，将第一残差块B₁进行卷积得到第一中间尺度特征图A，将第二残差块B2进行卷积得到第二中间尺度特征图B，将第二中间尺度特征图B进行矩阵变换后与第一中间尺度特征图A进行相乘操作得到第三中间尺度特征图，对第三中间尺度特征图进行归一化得到第一多尺度注意力权重图M，将第一多尺度注意力权重图M与第二中间尺度特征图B进行相乘操作得到第四中间尺度特征图，对第四中间尺度特征图进行上采样后与第一残差块B₁进行相加操作得到第一尺度特征图E；

参见图4，在第一上下文注意力子模块中，将第一残差块B₁进行卷积分别得到第一中间上下文特征图K和第二中间上下文特征图D，将第二中间上下文特征图D进行矩阵变换后与第一中间上下文特征图K进行相乘操作得到第三中间上下文特征图，对第三中间上下文特征图进行归一化得到第一上下文注意力权重图P，将第一上下文注意力权重图P和第一残差块B₁进行相乘操作得到第四中间上下文特征图，将第四中间上下文特征图进行矩阵变换后与第一残差块B₁进行相加操作得到第一上下文特征图F；

参见图5，在第一通道注意力子模块中，将第一残差块B₁进行矩阵变换后与第一残差块B₁进行相乘操作得到第一中间通道特征图，将第一中间通道特征图进行归一化得到第一通道注意力权重图Q，将第一通道注意力权重图Q与第一残差块B₁进行相乘得到第二中间通道特征图，将第二中间通道特征图进行矩阵变换后与第一残差块B₁进行相加操作得到第一通道特征图G。

在本发明实施例中，给出了第一并行感知注意力模块包括的第一多尺度注意力子模块、第一上下文注意力子模块和第一通道注意力子模块的具体工作过程，由于第一并行感知注意力模块、第二并行感知注意力模块和第三并行感知注意力模块的结构相同，只是输入输出不同，在此不再具体描述第二并行感知注意力模块和第三并行感知注意力模块的具体过程。

具体地，在深度卷积神经网络中，不同尺度的特征图含有不同程度的结构和语义信息，在高级特征图中语义信息较为丰富，在低级特征图中结构信息较为丰富。然而这些信息对于检测遥感图像中的目标尤其是小目标是非常重要的，为了充分利用以上信息，本发明实施例提出了多尺度注意力模块从而增强了小目标的特征表达。

本发明实施例给出了第一多尺度注意力子模块的具体工作过程。其中，第一中间尺度特征图A和第二中间尺度特征图B是由第一残差块B₁和第二残差块B₂分别进行1×1卷积得到的注意力权重图，H和W分别代表第一残差块B₁的高度和宽度，第一残差块B₁的通道数用C表示。矩阵变换可以是矩阵转置。归一化可以为Softmax归一化。由于第二中间尺度特征图B处于较深的网络层中，所以第一中间尺度特征图A含有较丰富的结构信息，第一多尺度注意力权重图M蕴含着第一中间尺度特征图A对第二中间尺度特征图B的结构信息的先验，因此，通过第一多尺度注意力权重图M得到的第一尺度特征图E含有丰富的结构信息以及较深层的语义信息，有利于检测小尺度的目标。

在本发明的一个实施例中，第一多尺度注意力权重图M的计算公式为：

其中，i表示第i行，j表示第j列，N为第一残差块B₁的高度，A为第一中间尺度特征图，B为第二中间尺度特征图；

第一尺度特征图E的计算公式为：

其中，B₁为第一残差块，α为可学习的第一权重系数。

可选地，j的取值可以为从1至第一残差块B₁的宽度之间的正整数。

可选地，第一残差块B₁的高度与宽度相同。

M_ji为第一多尺度注意力权重图M中的归一化权重系数，其衡量在各个尺度中第i个位置对第j个位置的影响，α为可学习的第一权重系数，用来权衡修正后的特征图和初始特征图。参见图6，图6展示了部分第一尺度特征图E的热力图像，从图像中可以看出更多的小的飞机区域被激活。

本发明实施例还给出了第一上下文注意力子模块的具体工作过程。上下文信息可以有效地区分前景信息和背景信息，有助于复杂背景下遥感图像目标检测，第一上下文注意力子模块将上下文信息嵌入注意力机制中以充分提取前后背景的关联信息进而加强网络的特征表达能力。其主要结构如图4所示。

其中，在第一上下文注意力子模块，对第一残差块B₁分别进行7×7卷积得到第一中间上下文特征图K和第二中间上下文特征图D；在第二上下文注意力子模块中，对第二残差块B₂分别进行5×5卷积得到两个中间上下文特征图；在第三上下文注意力子模块中，对第三残差块B₃分别进行3×3卷积得到两个中间上下文特征图；在第四上下文注意力子模块中，对第四残差块B₄分别进行1×1卷积得到两个中间上下文特征图。

第一上下文注意力权重图包含了各个尺度下目标带有非局部关联性的上下文信息对目标分类以及回归的贡献程度。第一上下文特征图增强了目标以及目标周围关联信息的表达。

在本发明的一个实施例中，第一上下文注意力权重图P的计算公式为：

其中，K为第一中间上下文特征图，D为第二中间上下文特征图；

第一上下文特征图F的计算公式为：

其中，β为可学习的第二权重系数。

其中，P_ji为带有上下文信息的权重图中衡量第i个位置对第j个位置的权重影响系数；β为可学习的第二权重系数，用来权衡修正后的特征图和初始特征图。参见图7，图7展示了部分第一上下文特征图F的热力图像，从图像中可以看出更多目标周围的局部信息被激活。

本发明实施例还给出了第一通道注意力子模块的具体工作过程。卷积神经网络的特征图每个通道有不同的类别和空间位置的全局信息，有些信息有利于目标的检测，有些信息不利于目标的检测，为了强化积极的响应，削弱消极的响应，本发明实施例提出了通道注意力子模块对通道间的相互关系以及特征图内部的非局部关联进行建模。具体过程可参见图5。

在本发明的一个实施例中，第一通道注意力权重图Q的计算公式为：

其中，C为第一残差块B₁的通道数量；

第一通道特征图G的计算公式为：

其中，γ为可学习的第三权重系数。

其中Q_ji为通道i对通道j的响应系数，γ为可学习的第三权重系数，用来权衡修正后的特征图和初始特征图。参见图8，图8展示了部分第一通道特征图G的热力图像，从图像中可以看出更多与目标相关联的全局信息被激活。

在本发明的一个实施例中，第四并行感知注意力模块包括第四上下文注意力子模块和第四通道注意力子模块；

第四上下文注意力子模块以第四残差块B₄为输入，输出第四上下文特征图；

第四通道注意力子模块以第四残差块B₄为输入，输出第四通道特征图；

将第四上下文特征图与第四通道特征图进行融合，得到第四融合特征图IB₄。

与前述三个感知注意力模块不同，第四并行感知注意力模块只包括上下文注意力子模块和通道注意力子模块，上下文注意力子模块和通道注意力子模块分别与前述描述的第一上下文注意力子模块和第一通道注意力子模块的工作过程类似，在此不再赘述。

可选地，在S102之前，还可以包括：

对待检测遥感图像进行预处理得到预处理后的待检测遥感图像；

相应的，S102可以包括：

将预处理后的待检测遥感图像输入训练后的并行感知注意力网络模型中，得到多个不同尺度的输出特征图。

S103：根据多个不同尺度的输出特征图进行目标检测得到检测结果。

在本发明实施例中，可以利用任何现有方法，根据多个不同尺度的输出特征图进行目标检测得到检测结果。

可选地，参见图9，在通过训练后的并行感知注意力网络模型进行特征提取之后，可以通过区域推荐网络，对齐、池化等操作以及进行非极大值抑制输出分类、定位结果等操作进行目标检测得到检测结果。

在本发明实施例中，并行感知注意力网络模型的设计细节参数如表1所示。

表1并行感知注意力网络模型的设计细节参数

通过实验验证本发明实施例的目标检测效果。

实验使用的硬件和软件环境如下：

CPU：Intel core i7 6700 3.30GHZ；GPU：p2000 5G；Memory：16G；操作***：Ubuntu 16.04；开发环境：Tensorflow编程语言：Python 3.5；IDE：Pycharm

实验数据集：

实验所用数据集为两个遥感图像公共数据集：RSOD和UCAS-AOD，随机选取了其中汽车和飞机类别中的80％作为训练集，20％作为测试集。

网络模型采用101层的残差网络作为主干网络，参数使用在ImageNet上与预练的权重进行初始化，图片输入大小统一调整为800x800像素，使用随机梯度下降法进行30000轮训练，初试学习率为0.001，经过15000轮后降为0.0001。在锚边界框选择上，使用四个尺度分别为32x32，64x64，128x128，256x256，长宽比为1:1，2:1和1:2锚边界框，这样的设置可以减少计算的同时保证较好的精度，IoU的阈值设置为0.7。

表2与其他方法在平均精度和召回率上的检测结果对比

实验结果：

实验的评价指标采用平均准确率和召回率。图10显示了本发明实施例的目标检测方法与当前主流的深度学习方法的检测结果对比，前三列分别展示了目标(飞机)在复杂背景下，在尺度较小时以及在遮挡情况下的检测结果，最后一列展示了各场景下汽车的检测结果，其中第一行为原始图片，第二行和第三行分别为基于回归的目标检测模型YOLO和SSD的检测结果，从框中可以看出其检测准确率不高，在复杂的场景下仍然有很多漏检情况。第四行和第五行是基于区域推荐的目标检测模型FPN和Faster-RCNN，从结果看出其检测准确率高于YOLO和SSD，可见该类方法对复杂场景下的目标有一定的鲁棒性，第六行为本发明实施例提供的方法，由于各个并行注意力模块的存在，可以使网络提取到更加丰富的目标的多尺度特征以及目标的非局部关联特征，较其他网络模型，本模型在复杂场景下表现良好，可以对图中所有目标进行有效检测。

表2显示了本发明实施例提供的方法与其他方法对汽车和飞机检测结果的准确率和召回率数值对比情况，相比于其他深度学***均准确率和召回率上平均提升7％，比当前最好的检测方法大约提高1％。

表3显示了本发明实施例提供的方法与其他方法检测速度的对比情况，从表3中可以看出将本发明实施例提供的方法中的网络模型作为目标检测的主干网络，可以达到约8.8FPS的检测速度，较上一模型提升3倍，且比主流基于区域推荐的网络模型的检测速度也有所提高。

表3与其他方法检的检测速度对比

实验还使用消融研究来验证各个子模块对检测结果的作用情况，从表4的消融研究数据来看，当模型只使用通道注意力子模块和上下文注意力子模块时，平均准确度提升了0.9％，当使用多尺度注意力子模块和通道注意力子模块时，平均准确率提升了2.1％，当使用上下文注意力子模块和多尺度注意力子模块时，提高了2.3％的平均精度，这表明多尺度和上下文的信息特征更有助于检测目标，当所有子模块都被使用时提高了3.7％的平均精度，由此可见各个子模块对于检测目标来说都是有效的。

表4各模块对检测结果的作用情况

本发明实施例基于注意力机制提出了并行感知注意力网络模型(神经网络模型)来提升遥感图像目标检测的准确率和检测速度，该网络模型包括并行的多尺度注意力子模块，上下文注意力子模块以及通道注意力子模块。首先融合多个尺度下三个并行模块的输出，获得丰富的多尺度特征，上下文特征以及非局部的关联特征；然后在得到的融合后特征图中使用可变形卷积代替传统卷积，从而更好地提取方向敏感的物体特征；最后使用距离交并比损失代替传统的边界框损失，在加快模型收敛速度的同时获得了更精确的目标定位；实验结果验证了将该网络模型作为目标检测的主干网络可以有效地提高检测精确度和检测速度，同时对处于复杂场景下的目标亦有很好的检测效果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图11是本发明一实施例提供的遥感图像目标检测***的示意框图，为了便于说明，仅示出与本发明实施例相关的部分。

在本发明实施例中，遥感图像目标检测***110可以包括获取模块1101、特征提取模块1102和目标检测模块1103。

其中，获取模块1101，用于获取待检测遥感图像；

特征提取模块1102，用于将待检测遥感图像输入训练后的并行感知注意力网络模型中，得到多个不同尺度的输出特征图；

目标检测模块1103，用于根据多个不同尺度的输出特征图进行目标检测得到检测结果。

可选地，在特征提取模块1102中，并行感知注意力网络模型以残差网络为主干；

并行感知注意力网络模型包括第一残差块、第二残差块、第三残差块、第四残差块、第一并行感知注意力模块、第二并行感知注意力模块、第三并行感知注意力模块和第四并行感知注意力模块；第一残差块、第二残差块、第三残差块和第四残差块的尺寸均不同；

第一并行感知注意力模块以第一残差块和第二残差块为输入，输出第一融合特征图IB1；第二并行感知注意力模块以第二残差块和第三残差块为输入，输出第二融合特征图；第三并行感知注意力模块以第三残差块和第四残差块为输入，输出第三融合特征图；第四并行感知注意力模块以第四残差块为输入，输出第四融合特征图；

第四融合特征图经过可变形卷积得到第四尺度的输出特征图；第三融合特征图经过可变形卷积之后与经过2倍上采样后的第四尺度的输出特征图相加得到第三尺度的输出特征图；第二融合特征图经过可变形卷积之后与经过2倍上采样后的第三尺度的输出特征图相加得到第二尺度的输出特征图；第一融合特征图IB1经过可变形卷积之后与经过2倍上采样后的第二尺度的输出特征图相加得到第一尺度的输出特征图。

可选地，第一并行感知注意力模块、第二并行感知注意力模块和第三并行感知注意力模块的结构相同；

第一并行感知注意力模块包括第一多尺度注意力子模块、第一上下文注意力子模块和第一通道注意力子模块；

第一多尺度注意力子模块以第一残差块和第二残差块为输入，输出第一尺度特征图；

第一上下文注意力子模块以第一残差块为输入，输出第一上下文特征图；

第一通道注意力子模块以第一残差块为输入，输出第一通道特征图；

将第一尺度特征图、第一上下文特征图和第一通道特征图进行融合，得到第一融合特征图IB1。

可选地，在第一多尺度注意力子模块中，将第一残差块进行卷积得到第一中间尺度特征图，将第二残差块进行卷积得到第二中间尺度特征图，将第二中间尺度特征图进行矩阵变换后与第一中间尺度特征图进行相乘操作得到第三中间尺度特征图，对第三中间尺度特征图进行归一化得到第一多尺度注意力权重图，将第一多尺度注意力权重图与第二中间尺度特征图进行相乘操作得到第四中间尺度特征图，对第四中间尺度特征图进行上采样后与第一残差块进行相加操作得到第一尺度特征图；

在第一上下文注意力子模块中，将第一残差块进行卷积分别得到第一中间上下文特征图和第二中间上下文特征图，将第二中间上下文特征图进行矩阵变换后与第一中间上下文特征图进行相乘操作得到第三中间上下文特征图，对第三中间上下文特征图进行归一化得到第一上下文注意力权重图，将第一上下文注意力权重图和第一残差块进行相乘操作得到第四中间上下文特征图，将第四中间上下文特征图进行矩阵变换后与第一残差块进行相加操作得到第一上下文特征图；

在第一通道注意力子模块中，将第一残差块进行矩阵变换后与第一残差块进行相乘操作得到第一中间通道特征图，将第一中间通道特征图进行归一化得到第一通道注意力权重图，将第一通道注意力权重图与第一残差块进行相乘得到第二中间通道特征图，将第二中间通道特征图进行矩阵变换后与第一残差块进行相加操作得到第一通道特征图。

可选地，第一多尺度注意力权重图M的计算公式为：

其中，i表示第i行，j表示第j列，N为第一残差块的高度，A为第一中间尺度特征图，B为第二中间尺度特征图；

第一尺度特征图E的计算公式为：

其中，B₁为第一残差块，α为可学习的第一权重系数；

第一上下文注意力权重图P的计算公式为：

第一上下文特征图F的计算公式为：

其中，β为可学习的第二权重系数；

第一通道注意力权重图Q的计算公式为：

其中，C为第一残差块的通道数量；

第一通道特征图G的计算公式为：

其中，γ为可学习的第三权重系数。

可选地，第四并行感知注意力模块包括第四上下文注意力子模块和第四通道注意力子模块；

第四上下文注意力子模块以第四残差块为输入，输出第四上下文特征图；

第四通道注意力子模块以第四残差块为输入，输出第四通道特征图；

将第四上下文特征图与第四通道特征图进行融合，得到第四融合特征图。

可选地，在对并行感知注意力网络模型进行训练的过程中，使用类别损失函数和回归损失函数，其中回归损失函数为距离交并比损失函数。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述遥感图像目标检测***的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图12是本发明一实施例提供的终端设备的示意框图。如图12所示，该实施例的终端设备120包括：一个或多个处理器1201、存储器1202以及存储在所述存储器1202中并可在所述处理器1201上运行的计算机程序1203。所述处理器1201执行所述计算机程序1203时实现上述各个遥感图像目标检测方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，所述处理器1201执行所述计算机程序1203时实现上述遥感图像目标检测***实施例中各模块/单元的功能，例如图11所示模块1101至1103的功能。

示例性地，所述计算机程序1203可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器1202中，并由所述处理器1201执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序1203在所述终端设备120中的执行过程。例如，所述计算机程序1203可以被分割成获取模块、特征提取模块和目标检测模块，各模块具体功能如下：

获取模块，用于获取待检测遥感图像；

其它模块或者单元可参照图11所示的实施例中的描述，在此不再赘述。

所述终端设备120可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备120包括但不仅限于处理器1201、存储器1202。本领域技术人员可以理解，图12仅仅是终端设备120的一个示例，并不构成对终端设备120的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备120还可以包括输入设备、输出设备、网络接入设备、总线等。

所述处理器1201可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器1202可以是所述终端设备120的内部存储单元，例如终端设备120的硬盘或内存。所述存储器1202也可以是所述终端设备120的外部存储设备，例如所述终端设备120上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器1202还可以既包括终端设备120的内部存储单元也包括外部存储设备。所述存储器1202用于存储所述计算机程序1203以及所述终端设备120所需的其他程序和数据。所述存储器1202还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的遥感图像目标检测***和方法，可以通过其它的方式实现。例如，以上所描述的遥感图像目标检测***实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种遥感图像目标检测方法，其特征在于，包括：

获取待检测遥感图像；

将所述待检测遥感图像输入训练后的并行感知注意力网络模型中，得到多个不同尺度的输出特征图；

根据所述多个不同尺度的输出特征图进行目标检测得到检测结果。

2.根据权利要求1所述的遥感图像目标检测方法，其特征在于，所述并行感知注意力网络模型以残差网络为主干；

所述并行感知注意力网络模型包括第一残差块、第二残差块、第三残差块、第四残差块、第一并行感知注意力模块、第二并行感知注意力模块、第三并行感知注意力模块和第四并行感知注意力模块；所述第一残差块、所述第二残差块、所述第三残差块和所述第四残差块的尺寸均不同；

所述第一并行感知注意力模块以所述第一残差块和所述第二残差块为输入，输出第一融合特征图；所述第二并行感知注意力模块以所述第二残差块和所述第三残差块为输入，输出第二融合特征图；所述第三并行感知注意力模块以所述第三残差块和所述第四残差块为输入，输出第三融合特征图；所述第四并行感知注意力模块以所述第四残差块为输入，输出第四融合特征图；

所述第四融合特征图经过可变形卷积得到第四尺度的输出特征图；所述第三融合特征图经过可变形卷积之后与经过2倍上采样后的第四尺度的输出特征图相加得到第三尺度的输出特征图；所述第二融合特征图经过可变形卷积之后与经过2倍上采样后的第三尺度的输出特征图相加得到第二尺度的输出特征图；所述第一融合特征图经过可变形卷积之后与经过2倍上采样后的第二尺度的输出特征图相加得到第一尺度的输出特征图。

3.根据权利要求2所述的遥感图像目标检测方法，其特征在于，所述第一并行感知注意力模块、第二并行感知注意力模块和第三并行感知注意力模块的结构相同；

所述第一并行感知注意力模块包括第一多尺度注意力子模块、第一上下文注意力子模块和第一通道注意力子模块；

所述第一多尺度注意力子模块以所述第一残差块和所述第二残差块为输入，输出第一尺度特征图；

所述第一上下文注意力子模块以所述第一残差块为输入，输出第一上下文特征图；

所述第一通道注意力子模块以第一残差块为输入，输出第一通道特征图；

将所述第一尺度特征图、所述第一上下文特征图和所述第一通道特征图进行融合，得到所述第一融合特征图。

4.根据权利要求3所述的遥感图像目标检测方法，其特征在于，在所述第一多尺度注意力子模块中，将所述第一残差块进行卷积得到第一中间尺度特征图，将所述第二残差块进行卷积得到第二中间尺度特征图，将所述第二中间尺度特征图进行矩阵变换后与所述第一中间尺度特征图进行相乘操作得到第三中间尺度特征图，对所述第三中间尺度特征图进行归一化得到第一多尺度注意力权重图，将所述第一多尺度注意力权重图与所述第二中间尺度特征图进行相乘操作得到第四中间尺度特征图，对所述第四中间尺度特征图进行上采样后与所述第一残差块进行相加操作得到所述第一尺度特征图；

在所述第一上下文注意力子模块中，将所述第一残差块进行卷积分别得到第一中间上下文特征图和第二中间上下文特征图，将所述第二中间上下文特征图进行矩阵变换后与所述第一中间上下文特征图进行相乘操作得到第三中间上下文特征图，对所述第三中间上下文特征图进行归一化得到第一上下文注意力权重图，将所述第一上下文注意力权重图和所述第一残差块进行相乘操作得到第四中间上下文特征图，将所述第四中间上下文特征图进行矩阵变换后与所述第一残差块进行相加操作得到所述第一上下文特征图；

在所述第一通道注意力子模块中，将所述第一残差块进行矩阵变换后与所述第一残差块进行相乘操作得到第一中间通道特征图，将所述第一中间通道特征图进行归一化得到第一通道注意力权重图，将所述第一通道注意力权重图与所述第一残差块进行相乘得到第二中间通道特征图，将所述第二中间通道特征图进行矩阵变换后与所述第一残差块进行相加操作得到所述第一通道特征图。

5.根据权利要求4所述的遥感图像目标检测方法，其特征在于，所述第一多尺度注意力权重图M的计算公式为：