CN111401201B

CN111401201B - 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Info

Publication number: CN111401201B
Application number: CN202010164167.7A
Authority: CN
Inventors: 孙玉宝; 辛宇; 徐宏伟; 陈勋豪; 周旺平
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-06-20
Anticipated expiration: 2040-03-10
Also published as: CN111401201A

Abstract

本发明公开了一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，包括以下步骤：首先针对大尺寸数据集运用分块处理方法增强训练数据集理；设计卷积注意力增强特征表示的残差网络作为基干网络，进而高效提取图像特征；进一步构建空间金字塔注意力模块，促使网络能够更加的准确聚焦不同尺度的目标，提取目标所在的感兴趣区域；建立目标类别分析与目标框回归模块，对不同尺度下感兴趣区域进行分类与目标框预测；在测试阶段用训练好的检测网络，采用多尺度测试策略，再通过全局集成非极大值抑制算法，融合不同尺度的检测结果，进一步提升检测准确率。

Description

一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

技术领域

本发明属于图像识别和目标检测技术领域，具体涉及一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法。

背景技术

目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个***的一项重要能力。尤其是在复杂场景中，需要对多个目标进行实时处理时，目标自动提取和识别就显得特别重要。随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通***、智能监控***、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。

一方面，近年来出现了很多目标检测的方法，比如YOLO，SSD，RetinaNet，RCNN系列的方法，其中YOLO，SSD，RetinaNet都是单阶段方法，而原始RCNN以及它的延伸Fast-RCNN以及Faster-RCNN则是两阶段方法。RCNN系列方法是先生成候选框，然后根据候选框来进行坐标回归预测，而YOLO，SSD，RetinaNet则是直接进行回归生成坐标回归，没有经过候选框这一步。

另一方面，视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，以获取更多所需要关注目标的特征关键的信息。所以，引入注意力机制的模型对于提升目标检测的精度具有很大的帮助。

在不考虑检测的速度的情况下，二阶段的目标检测算法往往比单阶段的算法精度更高，因此在很多情况例如对无人机航拍图片进行检测中二阶段的算法往往能达到更高的精度。为此，本专利基于深度学习理论，同时运用最新的注意力机制的方法，提出基于特征金字塔双重注意力驱动的多尺度目标检测网络。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，本发明引入注意力机制的思想，通过在特征图的空间和通道添加注意力机制模块，使得主干网络产生的特征图在空间特征金字塔，之后可以获得一个精度更高和信息更丰富的特征图，进而送去区域建议网络进行检测，我们在无人机航拍图像上进行了验证，实验证明我们的网络可以提高对无人机航拍图像中的小目标的准确度。

为实现上述技术目的，本发明采取的技术方案为：

一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其中：包括以下步骤：

S101：收集无人机航拍汽车图像集并进行分块处理，得到大量大小一致的切块小图；

S102：将切块小图输入残差网络，通过残差网络内部卷积注意力模块提取特征，所述卷积注意力模块包括第一通道注意力单元和第一空间注意力单元，根据第一通道注意力单元计算得到通道注意力图，根据第一空间注意力单元计算得到空间注意力图，结合通道注意力图和空间注意力图生成第一特征图；

S103：通过基于特征金字塔的检测器对第一特征图提取特征，通过对特征金字塔的从上到下部分的每一层添加含有第二空间注意力单元和第二通道注意力单元的双重注意力模块，将两个注意力单元产生的特征图进行融合得到第二特征图，并在最后一层把区域建议网络生成的第二特征图进行感兴趣区域对齐操作，固定特征的大小；

S104：针对获得的感兴趣区域对齐的第二特征图，建立目标类别分析与目标框回归模块，对不同尺度下感兴趣区域进行分类与目标框预测；

S105：采用原图和1.5倍原图进行多尺度图像测试，分别将两种尺度的图像输入深度网络进行测试，再通过全局集成非极大值抑制算法融合不同尺度的结果，来提高检测准确率。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤S101具体包括：对图像按照1000*1000的像素尺寸进行滑窗式分块，采用0.25的重叠率，并保留IOU＞0.7的车辆的人工标注框坐标信息，对于切块后的图像中所有车辆，将人工标注的边界框转换为切块小图的坐标。

上述的步骤S102具体包括：将图片输入内嵌有卷积注意力模块的残差网络，其中第一通道注意力单元使用最大池化和平均池化在空间维度上对图片进行压缩，得到两个不同的空间背景

和/>

通过残差网络对空间背景/>

和/>

进行计算得到通道注意力图，通道注意力单元的计算公式为：

其中：W₁和W₀表示多层感知机的权重，并且在多层感知机中两个权重共享输入，而在多层感知机中，W₀后面跟随了一个relu激活函数；σ代表Sigmoid函数，F代表对应了注意力机制中该阶段的卷积操作；

其中第一空间注意力单元在通道的维度上根据最大池化和平均池化得到两个不同的特征描述

和/>

根据卷积计算生成空间注意力图，第一空间注意力单元的计算公式为：

其中：σ表示Sigmoid函数，f^7*7表示卷积核大小为7*7；

然后根据通道注意力图和空间注意力图生成第一特征图。

上述步骤103具体为：通过基于特征金字塔的检测器对第一特征图提取特征，对特征金字塔的从上到下部分的每一层添加含有第二位置注意力单元和第二空间注意力单元的双重注意力模块；

通过第二位置注意力单元计算出任意两点特征之间关联强度矩阵，即原始特征A_j经过卷积降维获得特征B_i、特征C_j和特征D_i，然后改变特征维度B_i和C_j，根据矩阵乘积获得任意两点特征之间的关联强度矩阵；通过softmax函数计算获得每个位置对其他位置的特征S_ji，接着将特征S_ji和特征D_i进行相乘融合，最后将结果和原始特征A_j进行相加得到位置注意力单元最终输出的位置特征图，其中第二位置注意力单元的计算公式如下：

其中A_j表示给定的位置所对应的特征；B_i，C_j，D_i表示将A_j经过卷积降维产生的三个新的特征，S_ji表示将B_i，C_j重新变形后进行矩阵相乘再经过softmax层得到的位置注意力图，E_j1表示第二位置注意力单元最终输出的位置特征图；

通过第二空间注意力单元将任意两个通道特征进行维度变换和矩阵乘积，获得任意两个通道的关联强度，然后计算获得通道间的特征图，最后通过通道之间的特征图加权进行融合，使得各个通道之间能产生全局的关联，获得更强的语义响应的特征，第二空间注意力单元的计算公式如下：

其中A_j表示给定的位置所对应的特征，x_ji表示A_j与A_j的转置4相乘后经过softmax层得到的通道特征图，E_j2表示第二空间注意力单元最终输出的空间特征图；

最后将第一空间特征图和第二空间特征图进行特征融合，获得最终的第二特征图，并在最后一层区域建议网络对得到的第二特征图进行感兴趣区域对齐操作，固定特征的大小。

上述的步骤S104具体为：将第二特征图进行感兴趣区域对齐操作并获得固定特征的大小后，连接两个1024层的全连接层，然后分两个支路，分别建立目标类别分析与目标框回归模块，对特征金字塔的不同尺度下感兴趣区域进行分类与目标框预测。

上述的步骤S105具体为：在测试中采用多尺度图像测试，除测试集中原图以及原图的1.5倍图，再对两种尺度的图像进行分块处理，然后将两种尺度的图像分别输入深度网络进行测试，得到各自尺度上的检测结果，对两种尺度的检测结果利用全局非极大值抑制融合算法结合两种尺度的检测结果，来提高检测准确率。

上述的全局集成非极大值抑制算法过程如下：

Step1.各尺度子块预测框坐标全局对齐；

Step2.检测框置信度权值加权计算与排序；

Step3.选择置信度最高的比边界框添加到最终输出列表中，将其从边界框列表中删除；

step4.计算所有边界框的面积；

Step5.计算置信度最高的边界框与其它候选框的IOU；

Step6.删除IOU大于阈值的边界框；

Step7.重复上述过程，直至边界框列表为空。

本发明的有益效果：

本发明利用计算机目标检测和注意力机制理论，建立一种基于特征金字塔双重注意力驱动的多尺度目标检测网络方法，模型在航拍图像尺寸较大、待检测目标较小以及背景复杂程度高的情况下，首先通过对数据集的分块处理，然后再去利用特征金字塔双重注意力驱动的强大的特征提取能力，同时采用多尺度融合检测的方法，对两种尺度的检测结果利用全局非极大值抑制融合算法结合两种尺度的检测结果，最终得到最为精确得检测结果。本发明的检测网络在航拍图片的目标检测上实现了很好的效果，在地理环境检测、交通流量控制、军事行为监控等领域发挥着举足轻重的作用。

附图说明

图1是本发明的算法流程示意图；

图2是全局非极大值抑制融合算法的流程示意图；

图3是本发明所构建的双重注意力机制驱动的特征金字塔部分的示意图；

图4是本发明的检测网络示意图；

图5是本发明的无人机航拍汽车数据集定量分析对比图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

如图1所示，本发明为一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其中：包括以下步骤：

S101、在训练前，对用来验证我们设计网络有效性的无人机航拍汽车数据集进行分块处理；

具体为：在将数据集送进网络训练之前，我们首先对数据集进行处理，由于我们的实验所用的数据集包括4355张航拍图像及相应的人工标注车辆的坐标，对于每张图片由于无人机航拍存在着图像尺寸太大，因此我们按照1000*1000的像素尺寸对图像进行滑窗式分块，得到大量切块小图，为了尽量避免切分图像导致出现车辆不完整情况，采用0.25的重叠率，并保留IOU＞0.7的车辆的人工标注框坐标信息，同时对于切块后的图像中所有车辆实例，将切片保存将其人工标注的边界框转换为切块小图的坐标，共计48416张1000*1000的小图。

S102、将切块小图输入残差网络，通过残差网络内部卷积注意力模块提取特征，所述卷积注意力模块包括第一通道注意力单元和第一空间注意力单元，根据第一通道注意力单元计算得到通道注意力图，根据第一空间注意力单元计算得到空间注意力图，结合通道注意力图和空间注意力图生成第一特征图。

具体为：图片首先经过一个主干网络，而我们主干网络选择的是残差网络，同时我们在残差上嵌入了卷积注意力机制模块，在这里卷积注意力模块是一种结合了空间和通道的注意力模块，然后将特征映射与输入的特征图相乘来进行特征的自适应学习；图片经过主干网络后，会生成一个特征图送到下一个环节；

其中卷积注意力模块，包含着第一通道注意力单元和第一空间注意力单元，第一通道注意力单元更关注于输入图片中什么是有意义的，为了高效地计算通道注意力，第一通道注意力单元使用最大池化和平均池化对在空间维度.上进行压缩，得到两个不同的空间背景

和/>

使用由MLP组成的共享网络对这两个不同的空间背景描述进行计算得到通道注意力图，因此第一通道注意力单元的计算公式如下所示：

其中，W₁和W₀表示多层感知机的权重，并且再多层感知机中两个权重共享输入，而在多层感知机中，W₀后面跟随了一个relu激活函数；σ代表Sigmoid函数，F代表对应了注意力模块中该阶段的卷积操作。

其中第一空间注意力单元与第一通道注意力单元不同，第一空间注意力单元主要关注位置信息，首先在通道的维度上使用最大池化和平均池化得到两个不同的特征描述

和/>

然后使用级联将两个特征描述合并，并使用卷积操作生成空间注意力图，第一空间注意力单元的计算公式如下所示：

其中：σ代表Sigmoid函数，f^7*7代表了卷积操作中的卷积核大小是7*7，然后根据通道注意力图和空间注意力图生成第一特征图。

S103、通过基于特征金字塔的检测器对第一特征图提取特征，通过对特征金字塔的从上到下部分的每一层添加含有第二空间注意力单元和第二通道注意力单元的双重注意力机制模块，计算出不同特征之间的关联程度以及建模通道之间的关联，并在最后一层区域建议网络对生成的第二特征图进行感兴趣区域对齐操作，固定特征的大小。

具体为：在检测器环节，首先把特征金字塔网络融合到Faster-RCNN中增加检测器对全图信息的认知，同时对空间特征金字塔结构的改进，添加双重注意力模块，最后将原始的Faster-RCNN中固定特征的大小感兴趣区域池化操作，替换成了像素级并且精度更高的感兴趣区域对齐操作。

检测网络的损失函数包括分类损失和回归损失，损失函数公式如下：

其中：i是第i目标框，

是以锚框为目标的概率，当锚框为目标时，/>

为1，否则为0，ti是预测框的位置坐标，/>

是真实标签的坐标；

在特征金字塔的从下到上部分即为主干网络网络得到的特征，之后采取的操作是对于从下到上部分的第2层进行1*1的降维操作，然后从下到上部分的第3层上采样之后的结果进行相加，得到从上到下部分的第2层；对于从上到下部分接下来一层也是一样的操作，然后对于得到的从上到下的部分进行区域建议网络操作得到要进行检测区域建议。

而对于残差网络中的融入双重注意力模块的特征金字塔部分具体步骤为，在不同尺度的特征图上实现对待检测目标的特征提取，通过对特征金字塔的从上到下部分的每一层添加双重注意力机制，可以获得一个精度更高和信息更丰富的特征图，该双重注意力模块在特征的空间维度和通道维度分别引入自注意力机制，即第二位置注意力单元和第二通道注意力单元，有效抓取特征的全局依赖关系。

其中，第二位置注意力单元利用任意两点特征之间的关联，来相互增强各自特征的表达。具体为，首先计算出任意两点特征之间关联强度矩阵，即原始特征A_j经过卷积降维获得特征B_i、特征C_j和特征D_i，然后改变特征维度B_i和C_j，根据矩阵乘积获得任意两点特征之间的关联强度矩阵。然后经过softmax操作归一化获得每个位置对其他位置的特征S_ji，其中越相似的两点特征之间，其S_ji响应值越大。接着将特征图中响应值S_ji作为加权对特征D进行加权融合，这样对于各个位置的点，其通过特征图在全局空间中的融合相似特征，第二位置注意力单元的计算公式如下：

其中A_j表示给定的位置所对应的特征，B_i，C_j，D_i表示将A_j送进卷积层产生的两个新的特征图，S_ji表示将B_i，C_j重新变形后进行矩阵相乘再经过softmax层得到空间特征图，E_j1表示第二位置注意力单元最终输出的位置特征图。

第二空间注意力单元通过建模通道之间的关联，增强通道下特定语义响应能力。具体过程与位置注意力模块相似，不同的是在获得特征注意力图X时，是将任意两个通道特征进行维度变换和矩阵乘积，获得任意两个通道的关联强度，然后同样经过softmax操作获得的通道间的特征图。最后通过通道之间的注意力图加权进行融合，使得各个通道之间能产生全局的关联，获得更强的语义响应的特征。通道注意力模块的计算公式如下：

其中A_j表示给定的位置所对应的特征，x_ji表示A_j与A_j的转置A_i相乘后经过softmax层得到的通道特征图，E_j2表示第二空间注意力单元最终输出的空间特征图。

在目标检测算法中，通常在区域建议网络得到待检测结果的区域建议候选框，然后使用感兴趣区域池化操作将大小不一的候选区域映射到固定大小的特征图上。然而，使用感兴趣区域池化有两个明显不足，其一为将候选框边界量化为整数坐标时会产生误差，在做池化时也存在浮点数取整而产生误差的情况。误差累计的结果导致候选框的坐标位置会出现偏移，影响检测效果。由于我们的数据集是对无人机航拍图像的汽车进行检测，需要检测的目标都是在图片中比例特别小的目标，因此在我们替换成了像素级并且精度更高的感兴趣区域对齐操作，进而取消量化操作，通过使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作。

S104、将第二特征图进行感兴趣区域对齐操作并获得固定特征的大小后，连接两个1024层的全连接层，然后分两个支路，分别建立目标类别分析与目标框回归模块，对特征金字塔的不同尺度下感兴趣区域进行分类与目标框预测。

S105、在测试中采用多尺度图像测试，除测试集中原图以及原图的1.5倍图，再对两种尺度的图像进行分块处理，然后将两种尺度的图像分别输入深度网络进行测试，得到各自尺度上的检测结果，对两种尺度的检测结果利用全局非极大值抑制融合算法结合两种尺度的检测结果，来提高检测准确率。

其中全局集成非极大值抑制算法过程如下；

Step1.各尺度子块预测框坐标全局对齐；

Step2.检测框置信度权值加权计算与排序；

step4.计算所有边界框的面积；

Step5.计算置信度最高的边界框与其它候选框的IOU；

Step6.删除IOU大于阈值的边界框；

Step7.重复上述过程，直至边界框列表为空。

对本发明进行对比实验，实验所用的数据集是‘贝式计算杯’信息融合挑战赛的无人机航拍汽车数据集，超参数设置如下：最大迭代次数为12，batchsize为1，学习率的设置采用warming up策略，初始的学习率是0.3333，让那后在在初始的500次迭代中学习率逐渐增加，降低到到0.00025，同时设置在在第8和11个周期时降低学习率。

实验的评价使用定量和可视化两种分析方法：

关于定量分析比较，使用precision(准确率)、recall(召回率)和F1分数来进行评判检测精度，使用精确率和召回率来去计算F1分数，来来衡量算法的检测精度。其中准确率、召回率和F1分数其计算分别如下：

其中，true posotives实际上指的是待检测目标被正确检测到，false positives实际上指的是非待目标被检测到，false negatives实际指的上是待检测的目标没有被检测到。

关于可视化分析比较，指的是我们对通过不同的检测算法跑出的模型，对同一张待检测的图片进行检测，同时我们编写的可视化的代码，将图片检测后的效果可视化出来，然后人为的去比较不同的检测算法跑出来的模型在同一张图片的检测效果。

综上可知，相对于常规目标检测算法对无人机航拍图像进行检测精度低，效果差等问题。本发明利用种深度学习和注意力机制，建立一种基于特征金字塔双重注意力驱动的多尺度无人机航拍目标检测网络，在特征提取的过程中，把注意力机制融入到空间金字塔里面，可以提取到更加丰富和有效信息，进而送到区域建议网络进行分类和回归，本申请的算法对于无人机航拍图片的检测，无论是从准确率、召回率上还是从视觉效果上来看，都呈现出巨大的优势。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其特征在于：包括以下步骤：

S105：采用原图和1.5倍原图进行多尺度图像测试，分别将两种尺度的图像输入深度网络进行测试，再通过全局集成非极大值抑制算法融合不同尺度的结果，来提高检测准确率；

所述步骤S102具体包括：

将图片输入内嵌有卷积注意力模块的残差网络，其中第一通道注意力单元使用最大池化和平均池化在空间维度上对图片进行压缩，得到两个不同的空间背景

和/>

通过残差网络对空间背景/>

和/>

进行计算得到通道注意力图，第一通道注意力单元的计算公式为：

其中：W₁和W₀表示多层感知机的权重，并且在多层感知机中两个权重共享输入，而在多层感知机中，W₀后面跟随了一个relu激活函数；σ代表Sigmoid函数；

和/>

其中：σ表示Sigmoid函数，f^7*7表示卷积核大小为7*7；

然后根据通道注意力图和空间注意力图生成第一特征图；

所述步骤S103具体为：

通过基于特征金字塔的检测器对第一特征图提取特征，对特征金字塔的从上到下部分的每一层添加含有第二位置注意力单元和第二空间注意力单元的双重注意力机制；

通过第二位置注意力单元计算出任意两点特征之间关联强度矩阵，即原始特征A_j经过卷积降维获得特征B_i、特征C_j和特征D_i，然后改变特征维度B_i和C_j，根据矩阵乘积获得任意两点特征之间的关联强度矩阵；利用softmax函数计算获得每个位置对其他位置的特征S_ji，接着将特征S_ji和特征D_i进行相乘融合，最后将结果和原始特征A_j进行相加得到位置注意力单元最终输出的位置特征图，其中第二位置注意力单元的计算公式如下：

通过第二空间注意力单元将任意两个通道特征进行维度变换和矩阵乘积，获得任意两个通道的关联强度，然后计算获得通道间的注意力图，最后通过通道之间的注意力图加权进行融合，使得各个通道之间能产生全局的关联，获得更强的语义响应的特征，第二空间注意力单元的计算公式如下：

其中A_j表示给定的位置所对应的特征，x_ji表示A_j与A_j的转置A_i相乘后经过softmax层得到的通道特征图，E_j2表示第二空间注意力单元最终输出的空间特征图；

最后将位置特征图和空间特征图进行特征融合，获得最终的第二特征图，并在最后一层区域建议网络对得到的第二特征图进行感兴趣区域对齐操作，固定特征的大小；

所述全局集成非极大值抑制算法过程如下：

Step1.各尺度子块预测框坐标全局对齐；

Step2.检测框置信度权值加权计算与排序；

step4.计算所有边界框的面积；

Step5.计算置信度最高的边界框与其它候选框的IOU；

Step6.删除IOU大于阈值的边界框；

Step7.重复上述过程，直至边界框列表为空。

2.根据权利要求1所述的一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其特征在于：所述步骤S101具体包括：

对图像按照1000*1000的像素尺寸进行滑窗式分块，采用0.25的重叠率，并保留IOU＞0.7的车辆的人工标注框坐标信息，对于切块后的图像中所有车辆，将人工标注的边界框转换为切块小图的坐标。

3.根据权利要求1所述的一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其特征在于：所述步骤S104具体为：

将第二特征图进行感兴趣区域对齐操作并获得固定特征的大小后，连接两个1024层的全连接层，然后分两个支路，分别建立目标类别分析与目标框回归模块，对特征金字塔的不同尺度下感兴趣区域进行分类与目标框预测。

4.根据权利要求3所述的一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其特征在于：所述步骤S105具体为：

在测试中采用多尺度图像测试，除测试集中原图以及原图的1.5倍图，再对两种尺度的图像进行分块处理，然后将两种尺度的图像分别输入深度网络进行测试，得到各自尺度上的检测结果，对两种尺度的检测结果利用全局非极大值抑制融合算法结合两种尺度的检测结果，来提高检测准确率。