CN111738110A

CN111738110A - 基于多尺度注意力机制的遥感图像车辆目标检测方法

Info

Publication number: CN111738110A
Application number: CN202010521480.1A
Authority: CN
Inventors: 门飞飞; 李训根; 马琪; 潘勉; 吕帅帅; 李子璇; 张战; 刘爱林
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-10-02

Abstract

本发明公开了一种基于多尺度注意力机制的遥感图像车辆目标检测方法，包括：S1，使用多层卷积神经网络对原始图片进行特征提取，将生成的不同尺度特征图构建一个自底向上的金字塔网络；S2，对于已经构建好的金字塔网络，实现自顶向下的特征融合，在融和过程中，依次对高层特征图进行通道注意力操作，并融合到低层特征图；S3，获取融合后的低层特征图的空间注意力信息，并融合到原有的低层特征中；S4，通过预先设定的大小、比例等生成大量候选框，根据检测目标的真实框大小决定所用到的特征图，再通过真实框与候选框的交并比判定候选框的正负性；S5，对得到的正样本候选框直接预测其类别信息以及回归信息，使用非极大抑制方法，滤除得到的重叠区域同类别候选框。

Description

基于多尺度注意力机制的遥感图像车辆目标检测方法

技术领域

本发明属于深度学习的图像处理的技术领域，具体涉及一种基于多尺度注意力机制的遥感图像车辆目标检测方法。

背景技术

随着遥感卫星技术的发展，大量的跨空间与跨时间的遥感图片可以被轻松获取到。遥感图像为人们分析地面车辆提供了一个崭新的视角。通过空中视角对车辆目标的检测可以帮助城市智能交通、城市交通规划、军事目标检测与跟踪，跨区域远程监测等任务顺利实施。而车辆目标的识别和检测是上述任务中重要而且基础功能。由于遥感图像的获取平台、获取方式不同，遥感图片的质量随之变化。不同的地面采样距离使相同的目标产生了不同的尺度，这对于不同目标尤其是小目标的检测带来了挑战。

传统的遥感图像车辆识别使用手动特征提取的方法，设计难度高且识别率低，难以在小而密集的车辆目标区域中准确识别车辆，且难以避免复杂的地面环境干扰信息。

随着深度学习技术的发展，通过深层次神经网络的训练能轻松的获取车辆目标语义信息。但是想要准确的识别车辆的具***置还有不小的挑战。这其中，基于深度神经网络构成的特征金字塔在多尺度目标和小目标的检测领域被广泛使用。根据目标的面积信息选择不同尺度的特征图进行检测具有一定的效果提升。但是车辆目标由于小目标偏多使之大多聚集于较低层特征，通过简单的上采样和相加所得到的低层特征往往不具有很丰富的语义特征。

发明内容

鉴于以上存在的技术问题，本发明用于提供一种基于多尺度注意力机制的遥感图像车辆目标检测方法，针对车辆目标偏小的特征，对特征金字塔的低层特征采用了注意力机制强化方式。通过为低层的特征图融合通道注意力机制与空间注意力机制，使得低层的特征在通道以及空间信息上具有不同的权重，为后续网络的目标识别以及检测提供了更精确的语义信息，减小了遥感图像中背景信息对车辆目标的干扰。

为解决上述技术问题，本发明采用如下的技术方案：

一种基于多尺度注意力机制的遥感图像车辆目标检测方法，包括如下步骤：

S1，使用多层卷积神经网络对原始图片进行特征提取，将生成的不同尺度特征图构建一个自底向上的金字塔网络；

S2，对于已经构建好的金字塔网络，实现自顶向下的特征融合，在融和过程中，依次对高层特征图进行通道注意力操作，并融合到低层特征图；

S3，获取融合后的低层特征图的空间注意力信息，并融合到原有的低层特征中；

S4，通过预先设定的大小、比例等生成大量候选框，根据检测目标的真实框大小决定所用到的特征图，再通过真实框与候选框的交并比判定候选框的正负性；

S5，对得到的正样本候选框直接预测其类别信息以及回归信息，使用非极大抑制方法，滤除得到的重叠区域同类别候选框，得到最终的检测结果。

优选地，所述S1包括：选用ResNet-50作为基础卷积神经网络，图片经过网络，在不同的层输出不同尺度的特征图，每上一个特征图是下一个特征图所经过神经网络的输出，此时的不同特征具有不同的通道数，越上层的特征，通道数越多，但是尺度越小，首先对不同特征图进行通道数统一化，其过程如下：

P_i＝Conv_3×3(C_i，256，3，1，1) (1)

其中，P_i代表第i层的特征图，Conv_3x3表示3×3卷积层，C_i表示输入图片经过ResNet-50得到的第i特征图，在3×3卷积层Conv_3x3内，C_i为输入特征图的通道数， 256为输出特征图的通道数，3代表使用的卷积核尺寸，1表示卷积核每次移动的步长，1表示对特征图的边界填充数。

优选地，所述S2包括：每次的特征图融合总是一个高层次特征和低层次特征参与操作，高层特征图P4平移不变，次高层特征图P3将会融合来自特征图P4的信息，首先对低层次特征进行通道最大池化和平均池化，接着将合并的两个池化结果输入1×1卷积得到通道数为256，尺度大小为1×1的特征块；其次，将该特征块与低层次特征图进行通道相乘得到包含通道注意力的低层次特征图，其过程表示为以下形式：

其中

表示P_i经过通道注意力得到特征图，P_i-1为P_i的下一层网络，Conv_1×1表示1×1 卷积操作，cat()表示特征图的连接操作，C_maxpool()表示通道最大池化，C_avgpool()表示通道平均池化，Unsample()是对特征图进行上采样。

优选地，所述S3包括：先对经过上一步得到的特征图进行空间最大池化，得到尺度不变，通道数为1的特征块，其次同时得到平均池化的特征块；将两个特征块拼接后送入卷积核大小为1x1的卷积块中得到通道数为1的特征块，该特征块融合了特征图中的空间信息；

接着，利用Sigmoid()激活函数，将特征图中像素点的值激活到0到1之间；最后，通过特征图与特征块的矩阵相乘，获得最终的结果，其过程可以表示为以下形式：

其中，

表示最终通过通道注意力和空间注意力得到的特征图，S_maxpool()表示空间最大池化，S_avgpool()表示空间平均池化，Sigmoid()表示对经过卷积后得到的特征块进行sigmoid激活。

优选地，所述S4包括：网络在生成特征金字塔并融合了注意力信息后，具有从上自下的多个尺度不同，通道为256的特征图，通过候选区域生成方法，在输入的遥感图片中生成大量的候选框，在滤除超出图片边界的候选框后，根据输入遥感图片中车辆目标的目标框与候选的交并此来判定该候选框的正负性。对于正样本的候选框，即认为该区域存在车辆目标。

优选地，所述S5包括：将S3得到的多个特征图送入两个子网络：目标框类别预测子网络和目标框回归子网络，其中目标框类别预测子网络对输入的特征图进行多次卷积得到尺度不变，通道数为2的特征块，2表示预测类别有两种，车辆目标与非车辆目标，目标框回归子网络对输入的特征图进行多次卷积得到尺度不变，通道数为4的特征块，4表示目标框的回归参数个数。

采用本发明具有如下的有益效果：

(1)本发明实施例在使用特征金字塔时考虑了车辆目标在特征图中的注意力信息，利用融合的注意力信息来抽取车辆目标在特征图的空间以及通道上的重要信息。

(2)本发明实施例通过将两种注意力机制融合进特征金字塔网络，在没有大幅度增加网络的内存以及运行时间前提下，实现了对遥感图像目标检测结果准确率以及召回率的提升。

附图说明

图1为本发明基于多尺度注意力机制的遥感图像车辆目标检测方法的示意图；

图2为本发明实施例在特征金字塔中融入注意力机制方式的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明实施例的一种基于多尺度注意力机制的遥感图像车辆目标检测方法，包括如下步骤：

S1,使用多层卷积神经网络对原始图片进行特征提取，将生成的不同尺度特征图构建一个自底向上的金字塔网络。

作为一种具体的实施方式，选用ResNet-50作为基础卷积神经网络。如图1 左侧所示，图片经过网络，在不同的层输出不同尺度的特征图，每上一个特征图是下一个特征图所经过神经网络的输出。此时的不同特征具有不同的通道数，越上层的特征，通道数越多，但是尺度越小。首先对不同特征图进行通道数统一化。其过程如下：

P_i＝Conv_3×3(C_i，256，3，1，1) (1)

其中，P_i代表第i层的特征图。Conv_3x3表示3×3卷积层。C_i表示输入图片经过ResNet-50得到的第i特征图。在3×3卷积层Conv_3x3内，C_i为输入特征图的通道数， 256为输出特征图的通道数，3代表使用的卷积核尺寸，1表示卷积核每次移动的步长，1表示对特征图的边界填充数。

S2，对于已经构建好的金字塔网络，实现自顶向下的特征融合。在融和过程中，依次对高层特征图进行通道注意力操作，并融合到低层特征图。

作为一种具体实施方式，每次的特征图融合总是一个高层次特征和低层次特征参与操作。如图1右侧所示，高层特征图P4平移不变，次高层特征图P3 将会融合来自特征图P4的信息。如图2左侧所示，首先对低层次特征进行通道最大池化和平均池化，接着将合并的两个池化结果输入1×1卷积得到通道数为256，尺度大小为1×1的特征块。其次，将该特征块与低层次特征图进行通道相乘得到包含通道注意力的低层次特征图。其过程可以表示为以下形式：

其中

表示P_i经过通道注意力得到特征图。P_i-1为P_i的下一层网络。Conv_1×1表示1×1卷积操作，cat()表示特征图的连接操作。C_maxpool()表示通道最大池化， C_avgpool()表示通道平均池化。Unsample()是对特征图进行上采样。

S3，获取融合后的低层特征图的空间注意力信息，并融合到原有的低层特征中。

作为一种具体实施方式，如图2右侧所示，先对经过上一步得到的特征图进行空间最大池化，得到尺度不变，通道数为1的特征块，其次同时得到平均池化的特征块。将两个特征块拼接后送入卷积核大小为1x1的卷积块中得到通道数为1的特征块，该特征块融合了特征图中的空间信息。

接着，利用Sigmoid()激活函数，将特征图中像素点的值激活到0到1之间。最后，通过特征图与特征块的矩阵相乘，获得最终的结果。其过程可以表示为以下形式：

其中，

表示最终通过通道注意力和空间注意力得到的特征图。S_maxpool()表示空间最大池化，S_avgpool()表示空间平均池化。Sigmoid()表示对经过卷积后得到的特征块进行sigmoid激活。

S4，通过预先设定的大小、比例等生成大量候选框。根据检测目标的真实框大小决定所用到的特征图。再通过真实框与候选框的交并比判定候选框的正负性。

作为一种具体的实施方式，网络在生成特征金字塔并融合了注意力信息后，具有从上自下的多个尺度不同，通道为256的特征图，通过候选区域生成方法，在输入的遥感图片中生成大量的候选框，在滤除超出图片边界的候选框后，根据输入遥感图片中车辆目标的目标框与候选的交并比来判定该候选框的正负性。对于正样本的候选框，即认为该区域存在车辆目标。

S5，对得到的正样本候选框直接预测其类别信息以及回归信息。使用非极大抑制方法，滤除得到的重叠区域同类别候选框，得到最终的检测结果。

作为一种具体的实施方式，将步骤3得到的多个特征图送入两个子网络：目标框类别预测子网络和目标框回归子网络。其中目标框类别预测子网络对输入的特征图进行多次卷积得到尺度不变，通道数为2的特征块(2表示预测类别有两种，车辆目标与非车辆目标)。目标框回归子网络对输入的特征图进行多次卷积得到尺度不变，通道数为4的特征块(4表示目标框的回归参数个数)。

为了验证本发明方案的有效性,进行如下仿真实验。

首先，加载torchvision提供的预训练模型ResNet-50为网络参数进行初始化，将处理好带有标签的遥感图片输入到神经网络中，提取到图片不同尺度以及不同通道数的特征图。采用步骤1的方式构成特征金字塔网络。

然后，对特征金字塔中除了最高层的每一个特征图进行注意力信息融合。先将高层特征图进行全局通道最大池化和全局通道平均池化操作。对得到的连接特征块进行1x1卷积操作，得到单通道的通道注意力信息，这个单通道的注意力信息块会与低层特征图相乘。再将高层特征图2倍下采样并与融合了通道注意力信息的低层特征图相加。

其次，把上一步得到的含有通道注意力信息的特征图进行空间最大池化和空间最大池化。同样，连接后的特征块被执行1x1卷积操作，通道数被降为1。接着使用sigmoid()激活函数，将得到的空间注意力信息块中每个像素点的值激活到0到1之间。越接近1的像素点，重要性越高。最后将该特征块与特征图相乘，同时具备通道注意力信息与空间注意力信息的特征图。

然后，对每一个特征图产生后续的类别预测子网络与目标框回归子网络。在类别预测子网络中，输入特征图为WxHx256大小。分别经过两个类似于FCN 的子网络得到WxHx2与WxHx4的特征块。同时，分别在不同尺度的特征图上生成大量候选框。这些候选框通过与图中真实框的交并比(这里为0.5)来确定该候选框是否是正例。

最后，对正样本候选框，在确定了其所属特征图后，与该层特征图后续的两个子网络计算网络损失。对于类别预测子网络，采用的是Focal loss，对于目标框回归子网络，采用SmoothL1Loss。在推理阶段，子网络分别输出目标框与目标框的置信度。经过0.05的阈值筛选置信度，再经过非极大抑制方法，以0.5为基准，滤除一些区域重叠的低置信度目标框。

由于遥感图像中的车辆目标偏小，另外，车辆目标在不同的采样距离以及不同区域卫星图像中的尺度信息以及清晰度有较大的偏差。一般的车辆区域，背景信息较为复杂，对遥感图像中的车辆检测造成干扰。本发明结合遥感图像中车辆目标的特点，通过在特征金字塔中融合多种注意力机制来加强低层特征的语义信息，使得在通道以及空间上突出特征图中更能代表车辆的信息部分，削弱背景噪声信息对检测结果的影响。

综上所述，本发明结合遥感图像中车辆目标的数据特点，进一步提高了遥感图像中车辆检测的性能。

应当理解，本文所述的示例性实施例是说明性的而非限制性的。尽管结合附图描述了本发明的一个或多个实施例，本领域普通技术人员应当理解，在不脱离通过所附权利要求所限定的本发明的精神和范围的情况下，可以做出各种形式和细节的改变。

Claims

1.一种基于多尺度注意力机制的遥感图像车辆目标检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于多尺度注意力机制的遥感图像车辆目标检测方法，其特征在于，所述S1包括：选用ResNet-50作为基础卷积神经网络，图片经过网络，在不同的层输出不同尺度的特征图，每上一个特征图是下一个特征图所经过神经网络的输出，此时的不同特征具有不同的通道数，越上层的特征，通道数越多，但是尺度越小，首先对不同特征图进行通道数统一化，其过程如下：

P_i＝Conv_3×3(C_i，256，3，1，1) (1)

其中，P_i代表第i层的特征图，Conv_3x3表示3×3卷积层，C_i表示输入图片经过ResNet-50得到的第i特征图，在3×3卷积层Conv_3x3内，C_i为输入特征图的通道数，256为输出特征图的通道数，3代表使用的卷积核尺寸，1表示卷积核每次移动的步长，1表示对特征图的边界填充数。

3.如权利要求1所述的基于多尺度注意力机制的遥感图像车辆目标检测方法，其特征在于，所述S2包括：每次的特征图融合总是一个高层次特征和低层次特征参与操作，高层特征图P4平移不变，次高层特征图P3将会融合来自特征图P4的信息，首先对低层次特征进行通道最大池化和平均池化，接着将合并的两个池化结果输入1×1卷积得到通道数为256，尺度大小为1×1的特征块；其次，将该特征块与低层次特征图进行通道相乘得到包含通道注意力的低层次特征图，其过程表示为以下形式：

其中

表示P_i经过通道注意力得到特征图，P_i-1为P_i的下一层网络，Conv_1×1表示1×1卷积操作，cat()表示特征图的连接操作，C_maxpool()表示通道最大池化，C_avgpool()表示通道平均池化，Unsample()是对特征图进行上采样。

4.如权利要求1所述的基于多尺度注意力机制的遥感图像车辆目标检测方法，其特征在于，所述S3包括：先对经过上一步得到的特征图进行空间最大池化，得到尺度不变，通道数为1的特征块，其次同时得到平均池化的特征块；将两个特征块拼接后送入卷积核大小为1×1的卷积块中得到通道数为1的特征块，该特征块融合了特征图中的空间信息；

接着，利用Sigmoid()激活函数，将特征图中像素点的值激活到0到1之间；

最后，通过特征图与特征块的矩阵相乘，获得最终的结果，其过程可以表示为以下形式：

其中，

5.如权利要求1所述的基于多尺度注意力机制的遥感图像车辆目标检测方法，其特征在于，所述S4包括：网络在生成特征金字塔并融合了注意力信息后，具有从上自下的多个尺度不同，通道为256的特征图，通过候选区域生成方法，在输入的遥感图片中生成大量的候选框，在滤除超出图片边界的候选框后，根据输入遥感图片中车辆目标的目标框与候选的交并比来判定该候选框的正负性。对于正样本的候选框，即认为该区域存在车辆目标。

6.如权利要求1所述的基于多尺度注意力机制的遥感图像车辆目标检测方法，其特征在于，所述S5包括：将S3得到的多个特征图送入两个子网络：目标框类别预测子网络和目标框回归子网络，其中目标框类别预测子网络对输入的特征图进行多次卷积得到尺度不变，通道数为2的特征块，2表示预测类别有两种，车辆目标与非车辆目标，目标框回归子网络对输入的特征图进行多次卷积得到尺度不变，通道数为4的特征块，4表示目标框的回归参数个数。