CN116824413A

CN116824413A - 一种基于多尺度空洞卷积的航拍图像目标检测方法

Info

Publication number: CN116824413A
Application number: CN202310925097.6A
Authority: CN
Inventors: 王丽
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-09-29

Abstract

本发明公开了一种基于多尺度空洞卷积的航拍图像目标检测方法，方法包括：步骤一：获取待检测目标的航拍遥感图像，对获得的大分辨率图像进行切割处理；步骤二：基于YOLOv5目标检测模型，在主干特征提取网络中使用结构重参数化卷积加强特网络征提取能力；步骤三：设计一种新的混合域注意力机制EDM，在其空间注意力机制中加入多尺度空洞卷积，并将此模块嵌入到特征融合网络；步骤四：引入SIOU回归损失函数来加快收敛速度；步骤五：模型训练；步骤六：用训练完成的模型对测试图片进行测试。本发明能够检测航拍场景下多种类目标，提升目标识别精度，降低漏检率，能够有效应用在航拍图像目标检测场景中。

Description

一种基于多尺度空洞卷积的航拍图像目标检测方法

技术领域

本发明属于计算机视觉目标检测领域，尤其涉及一种基于多尺度空洞卷积的航拍图像目标检测方法，可以用来对航拍图像中的目标进行检测。

背景技术

随着各种航拍设备和技术的发展，无人机等各种航拍设备已经被部署到各种领域，在不干扰居民生活的前提下准确拍摄目标，在航空摄影、搜索救援、森林火灾预警、边境巡逻等任务上提供巨大支持。目前不少研究者在航拍图像目标检测领域展开了大量研究，但是由于航拍图像下目标背景复杂、小目标较多且分布密集、目标之间的相互遮挡等因素，所获的目标检测性能难以满足实际需要。为此，需要开展对航拍图像目标检测的方法研究来提升目标检测性能。

对于航拍图像中的目标检测问题，主要采用的方法分为两类：一是传统的目标检测方法；二是基于深度学习的目标检测方法。传统的目标检测算法采用滑动窗口的方式，特征的设计和选择高度依赖人工，其准确性、客观性和鲁棒性都受到了制约，需要耗费更多的时间。基于深度学习的目标检测方法分为单阶段和双阶段，双阶段检测算法由区域建议阶段和检测阶段组成，但是其速度很慢。

一阶段算法将目标识别转化为回归分类问题，利用单个卷积网络预测对象的边界框和类概率，平衡了检测速度和精度，更有利于部署再航空物体探测场景中，代表算法为YOLO系列算法。在基于深度学习的航拍图像检测算法中，首先主干特征提取网络的普通卷积无法提取更加充分的特征信息，导致特征提取不够充分；其次对于更小的目标(低于32×32像素)检测效果不友好，会出现漏检的情况；最后，由于航拍图像下背景复杂且目标分布密集，大量无关的背景会在网络特征提取的过程中产生干扰，造成模型检测效果不佳。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于多尺度空洞卷积的航拍图像目标检测算法，能够提取更加丰富的特征信息，有效提升对航拍图像中小目标的识别精度，加快模型收敛速度，使得定位更加准确。

本发明的目的通过以下技术方案予以实现：

一种基于多尺度空洞卷积的航拍图像目标检测方法，包括以下步骤：

步骤一、获取航拍图像，并对分辨率较大的图片进行切割处理；步骤二、

基于YOLOv5目标检测模型，在主干特征提取网络中

使用结构重参数化卷积增强主干网络特征提取能力；

步骤三、设计一种新的混合域注意力机制EDM，在其空间注意力机制中加入多尺度空洞卷积,并将此模块嵌入到特征融合网络；

步骤四、引入SIOU回归损失函数来提升目标框定位精度，加快模型收敛速度；

步骤五、模型训练；

步骤六、用训练结束的模型对测试样本进行测试，输出目标的位置和类别；

以上所述步骤一中，具体包括两个步骤：

步骤1-1航拍图像数据集DOTA中的图片来自飞机和遥感平台拍摄的不同分辨率航空影像，此数据集中的图片尺寸大小不一，尺寸大约从800×800到4000×4000不等，选取较大图片进行切割。将一张图片切割成四张，生成1024×1024左右大小的图像，不足1024×1024大小的图像用黑色进行填充，切割后的图片生成对应的xml文件；

步骤1-2对处理后的DOTA数据集进行划分，分别按7:1:2的比例划分成训练集、验证集和测试集；

以上所述步骤二中，使用RepVGG结构化重参数结构来替换传统网络中的3*3卷积，此结构分为训练阶段和推理阶段：其中训练阶段是一种多分支结构，推理阶段将多分支结构重参数化成单路径结构，节省内存的同时加快网络推理速度；构建大尺度目标检测层并和高分辨率特征图进行融合，保留浅层特征图的细节信息，最后的输出检测层也从原来的3层增加至4层，增加的检测层生成更小的锚框，能够检测出更小的目标。

以上所述步骤三中，具体包括两个步骤：

步骤3-1：混合域注意力机制EDM包含通道注意力机制和空间注意力机制，通道注意力机制SAM帮助网络加强对重要特征信息的筛选，减少特征细节损失；空间注意力机制CAM选择性的关注重要区域的特征信息，降低背景对检测结果的影响。其中通道注意力机制的输出是空间注意力机制的输入。

步骤3-2：基于步骤3-1的结构，在此结构中的空间注意力机制上增加一个多分支空洞卷积模块。此模块分别由三个扩张率为1、2、3，卷积核大小为3*3的扩张卷积组成，形成一个并行多分支结构，每个分支有不同得到感受野，增强了网络多尺度特征提取能力。

以上所述步骤四中，使用SIOU损失函数代替原模型中的GIOU回归损失，引入真实框和预测框之间的向量角度，由四个部分损失组成，分别是：角度损失、距离损失、形状损失和IOU损失，SIOU损失的计算公式如下：

其中，Δ代表距离损失，Ω代表形状损失，σ是真实框和预测框中心点的距离，θ控制对形状的关注程度。以上所述步骤五中，模型训练的步骤包括以下步骤：

步骤5-1：设置训练图片尺寸和训练参数；

步骤5-2：加载预算训练数据；

步骤5-3：进行训练；

以上所述的步骤5-1设置训练图片尺寸和参数中，将图片的输入分辨率设置为为1024×1024，初始学习率设置为0.01，循环学习率设置为0.02，学习率动量设置为0.937，权重衰减系数设置为0.0005，训练次数设置为300。

以上所述的步骤5-3训练的过程中，根据上述参数设置，将处理完的DOTA数据集图片放入网络进行训练，训练过程中使用YOLOv5自带的Mosic数据增强方法。每次训练完一轮后保存损失最小的模型，最终得到最好的训练模型。

本发明的有益效果：与现有的技术相比，本发明具有以下优点。

第一、提升了平均精度：本发明的主干网络使用结构重参数化结构，模型在训练时利用多分支卷积提升网络的特征表征能力，推理时多分支结构重参数化成为单分支结构，提升网络特征提取能力的同时加快推理效率。

第二、改善了小目标漏检情况：本发明构建大尺度目标检测层并和高分辨率特征图相融合，克服了航拍场景中由于小目标众多，特征图分辨率低，可提取的特征信息少而导致的小目标漏检问题。将混合域注意力机制嵌入到特征融合网络中，充分关注目标的位置信息和分类信息，减少复杂背景对网络特征提取的干扰，关注重要特征信息。在空间注意力机制中引入了多尺度空洞卷积，不同扩张率的卷积具有不同大小的感受野，能够增强网络多尺度特征提取能力，同时高分辨率的特征图拥有更大的感受野，进一步提升了小目标检测效果。

第三、加快模型收敛速度、目标定位更加准确：本发明使用了SIOU损失函数，考虑到了真实目标框和预测框之间的方向匹配问题，能够使预测框更快地移动到最近的轴，防止预测框可能在训练过程中出现“四处游荡”的问题，提高了模型的训练速度和推理的准确性。

附图说明

图1为本发明的流程示意图。

图2为改进后的目标检测结构图。

图3为RepVGG结构图。

图4为混合域注意力机制图。

具体实施方式

以下结合附图1-4对本发明的技术方案做进一步的详细描述。

一种基于多尺度空洞卷积的航拍图像目标检测算法，如图1所示

其步骤如下：

步骤一、获取航拍图像，并对分辨率较大的图像进行分割处理：DOTA数据集包含了286张来自不同传感器和平台的航空影像，每张图片的分辨率在4000×4000像素以内，分为15种类别，分别是飞机、船舰、储罐、棒球场、网球场、篮球场、田径场、海港、桥梁、大型车辆、小型车辆、直升机、环岛、足球场、游泳池。

将分辨率较大的图片进行切割，将一张图片切割成四张1024×1024的图片，不足1024×1024大小的图像用黑色进行填充，切割完成后的图片生成对应的xml文件。将处理后的数据集按7：1：2的比例分别划分成训练集、验证集和测试集。

步骤二、基于YOLOv5目标检测模型，选用结构重参数化结构来替换原主干网络中的部分3×3卷积，构建小目标目标检测层并和高分辨率特征图进行融合以保留浅层语义信息，输出检测层增加至4层。

其中，结构重参数化结构RepVGG是一种多分支结构，从输入特征开始分成三条并行的支路，由3×3的卷积、1×1的卷积和Identity组成，两个卷积的步长都设置为1，三条支路后面紧跟着BN归一化处理，将经过三条路之后处理后的特征图进行相加操作，将特征图进行融合，其中输入特征图和输出特征图的尺寸大小不变。而推理阶段的结构重参数化结构将多分支结构转换成单路径结构。首先将主分支的3×3的卷积和BN归一化层进行融合，将第二个分支的1×1卷积和BN层进行融合之后转换成3×3的卷积，将仅有BN操作的Identity分支转换成一个3×3的卷积，其中输入特征图的通道数与卷积核的通道数相同。在3×3的卷积和BN层融合的过程中，将卷积层的输出作为BN层的输入，分别对特征图的各个通道进行融合。

在1×1的卷积和BN层归一化融合的过程中，先在原来1×1的卷积核权重周围补零，将其转换成3×3的卷积层，将padding设置为1来保证特征图输入输出的大小不变。再按照3×3的卷积和BN层的融合方式进行融合。将BN层转换成3×3的卷积过程中，先对原特征图进行特征映射，保证输入输出不变，再按照上述方法将卷积层将BN层进行融合。然后，将三个分支上的3×3卷积融合成一个3×3的卷积层，将三个卷积层的参数进行相加。至此，推理阶段种此结构由三分支的结构转变成一个单分支结构，仅包含一个3×3的卷积层。其中特征图第i个通道的转换公式以及生成第i个卷积核的权重和偏置公式如下：

式中M是代表输入BN层的特征图，μ，σ，γ，β是BN层生成的参数，μ和σ在训练过程统计得到，γ和β是训练学习得到。

小目标检测层从主干特征网络的第2层开始加入特征融合网络，将160×160×64的特征图和特征融合网络中新增的1次上采样操作、下采样操作进行融合，输出检测层为4层，预测框的个数也从9个增加到12个。增加的3个预测框是针对小目标的，有效提升了对小目标的检测效果，缓解漏检情况发生。

步骤三、设计一种新的混合域注意力机制EDM，此模块由通道注意力机制CAM和空间注意力机制SAM串联组成，在空间注意力机制中引入多分支空洞卷积，并将注意力机制嵌入到特征融合网络中。此模块有效关注重要信息，抑制复杂背景对特征信息提取产生的干扰，增强网络多尺度特征提取能力，提升对小目标检测效果。

其中，通道注意力机制CAM利用特征间的通道关系来生成通道注意力图，提升模型的目标分类能力。采用压缩输入特征映射的空间维度方法来有效计算通道注意力。首先输入一个特征图分别经过最大池化MaxPool和平均池化AvgPool，大大提升了网络的表示能力，生成平均池化特征和最大池化特征。然后将两个特征权重向量转发到一个具有隐藏层的多层感知机模块(MLP)，产生通道注意力映射。将映射后的权重进行相加，经过Sigmoid激活函数输出特征向量。将输出特征向量与输入特征图进行乘法操作，生成新的特征图，此新的特征图为空间注意力机制的输入特征图。通道注意力计算公式为：

式中，F表示输入特征图，M_C(F)表示通道注意力输出特征图，σ表示Sigmoid激活函数。W₀∈R^C/r×C，W₁∈R^C×C/r，MLP权重W0和W1对于两个输入是共享的。

其中，空间注意力机制CAM目的在于提升关键区域的特征表达，将图片中的空间信息通过空间转换模块，变换到另一个空间中并保留关键信息，为每个重要位置生成权重并输出。虽然最大池化和平均池化可以快速概括特征信息，但是会降低特征图的分辨率从而导致特征信息丢失。对于较小目标而言，需要高分辨率、大感受野的特征图，而网络在卷积的过程中特征图分辨率逐渐降低。因此，使用多尺度空洞卷积的方式代替空间注意力机制中使用的平均池化和最大池化操作，使得此模块在不改变特征图分辨率的情况下增强多尺度特征提取能力，扩大特征图的感受野，进而帮助网络抑制无关背景区域。

为了计算空间注意力机制，首先将通道注意力的输出特征图作为空间注意力的输入，通过一个1×1的卷积来进行降维处理，通道数是原特征图的一半；其次，经过三路扩张率分别为1、2、3，卷积核为3×3的混合扩张卷积分支，形成一个并行多分支结构，此结构的真实感受野分别是3×3、5×5和7×7，帮助网络从不同尺度上提取更深层次的特征；然后，对三路维度降半的特征进行相加操作；最后使用1×1的卷积将特征再次简化为1×H×W的空间注意力图，在空间分支的末端应用批处理归一化层。空间注意力的计算公式为：

F_conv1＝f₁ ^1×1(F)，

式中，F表示输入特征图，f₁ ^1×1和表示不同的卷积处理，F_conv1和F_conv2表示卷积处理后的特征图，其中/>F_conv2∈R^H×W×1，/>表示扩张率为k的扩张卷积，M_s(F)为空间分支产生的空间注意力图。

步骤四、引入SIOU回归损失函数：YOLOv5模型的总损失由分类损失和回归损失组成，具体的改进方法是用SIOU损失函数来代替原模型中的回归损失，使得目标框定位更加准确，加快模型收敛速度。SIOU损失函数由4个部分组成，分别是：角度损失(Angle cost)、距离损失(Distance cost)、形状损失(Shape cost)和IoU(IoU cost)损失。此损失函数考虑到了真实框和预测框之间的向量角度，重新定义了惩罚度量，防止预测框在训练过程中出现“四处游荡”导致收敛速度慢且效果差的情况。提升网络的训练速度和推理精度，使得目标框定位更加准确。其中角度损失的计算如下：

式中，sin(α)是直角三角形的对边比斜边，σ为真实框与预测框中心点的距离，c_h为真实框和预测框中心点的高度差，和/>为真实框中心点坐标，bc_x和bc_y为预测框中心点坐标。距离损失计算公式如下：

γ＝2-Λ

式中，c_w和c_h为真实框和预测框最小外接矩形的宽和高。可以看出，当α→0时，距离损失的贡献大大降低，相反α越接近π/4，距离损失的贡献越大。随着角度的增加γ被赋予距离值的时间优先级。形状损失的计算公式如下：

式中，w，h，w^gt，h^gt分别是预测框和真实框的宽和高，θ控制形状损失给予的关注程度。为了避免对形状的过分关注而降低对预测框的移动，θ如果设置为1，会立刻优化形状，从而伤害形状的自由移动。使用遗传算法计算出θ接近4，因此将此参数定义的范围规定在2-6之间。最终的IoU损失定义如下：

式中，Δ代表距离损失，Ω代表形状损失，σ是真实框和预测框中心点的距离，θ控制对形状的关注程度。

步骤五、模型训练：本发明在基于pyTorch的深度学习目标检测框架上搭建，使用单GPU卡进行训练和测试，型号为NVIDIA GeForce RTX 2080Ti。

设置训练图片尺寸和训练参数，图片的输入分辨率为1024×1024，训练采用批次训练法，Batch Size设置为64。使用退化学习率控制学习速率，初始学习率设置为，循环学习率设置为0.02，学习率动量设置0.01为0.937，权重衰减系数设置为0.0005，训练次数设置为300。使用K-means聚类算法对训练集中的目标框进行聚类，生成12中不同大小的先验框并按尺寸大小进行排序，用来初始化四个Head中的参数。

训练过程中使用YOLOv5自带的Mosic数据增强方法，每次训练完一轮后保存损失最小的模型。采用目标检测算法中常用的评价指标如平均精度(Average Precision,AP)、均值平均精度(mean Average Precision,mAP)、帧率(FPS)、精确率(Precision)和召回率(Recall)对训练完成的模型进行评估。

步骤六：用训练完成的模型对测试集进行测试，输出航拍图像上目标的类别和位置信息。模型测试结果表明，在复杂的情况下也能识别出出不同的种类目标和较小的目标；模型能检测出图像中出现的多个相似目标的情况。

利用本发明设计的改进YOLOv5目标检测模型，给定航拍图像之后，***能够通过训练好的模型检测到图像中各种类别的目标。

Claims

1.一种基于多尺度空洞卷积的航拍图像目标检测方法，其特征在于，包括以下步骤：

步骤一、获取航拍图像，并对分辨率较大的图片进行切割处理；

步骤二、基于YOLOv5目标检测模型，在主干特征提取网络中使用结构重参数化卷积，构建大尺度目标检测层并进行特征融合；

步骤三、设计一种新的混合域注意力机制SCAM，在其空间注意力机制中加入多尺度空洞卷积,并将此模块嵌入到特征融合网络；

步骤五、模型训练；

步骤六、用训练结束的模型对测试样本进行测试，输出目标的位置和类别。

2.根据权利要求1所述的基于多尺度空洞卷积的航拍图像目标检测方法，其特征在于，所述步骤一中，数据集的获取和处理包括以下两个步骤：

步骤1-2对处理后的DOTA数据集进行划分，分别按7:1:2的比例划分成训练集、验证集和测试集。

3.根据权利要求1所述的基于多尺度空洞卷积的航拍图像目标检测方法，其特征在于，所述步骤2中，使用RepVGG结构化重参数结构来替换传统网络中的3*3卷积，此结构分为训练阶段和推理阶段：其中训练阶段是一种多分支结构，推理阶段将多分支结构重参数化成单路径结构，节省内存的同时加快网络推理速度；构建大尺度目标检测层并和高分辨率特征图进行融合，保留浅层特征图的细节信息，最后的输出检测层也从原来的3层增加至4层，增加的检测层生成更小的锚框，能够检测出更小的目标。

4.根据权利要求1所述的基于多尺度空洞卷积的航拍图像目标检测方法，其特征在于，所述步骤三中，设计一种新的混合域注意力机制，在其空间注意力机制中加入多尺度空洞卷积，并将此模块嵌入到特征融合网络，包括：

5.根据权利要求1所述的基于多尺度空洞卷积的航拍图像目标检测方法，其特征在于，所述步骤四中，使用SIOU损失函数代替原模型中的GIOU回归损失，引入真实框和预测框之间的向量角度，由四个部分损失组成，分别是：角度损失、距离损失、形状损失和IOU损失，SIOU损失的计算公式如下：

其中，Δ代表距离损失，Ω代表形状损失，σ是真实框和预测框中心点的距离，θ控制对形状的关注程度。

6.根据权利要求1所述的基于多尺度空洞卷积的航拍图像目标检测方法，其特征在于，所述步骤五中，模型训练的步骤包括以下步骤：

步骤5-1：设置训练图片尺寸和训练参数；

步骤5-2：加载预算训练数据；

步骤5-3：进行训练。

7.根据权利要求6所述的基于多尺度空洞卷积的航拍图像目标检测方法，其特征在于，所述步骤5-1设置训练图片尺寸和训练参数，具体操作为：图片的输入分辨率为1024×1024，初始学习率设置为0.01，循环学习率设置为0.02，学习率动量设置为0.937，权重衰减系数设置为0.0005，训练次数设置为300。

8.根据权利要求6所述的基于多尺度空洞卷积的航拍图像目标检测方法，其特征在于，所述步骤5-3训练的具体操作为，根据上述参数设置，将处理完的DOTA数据集图片放入网络进行训练，训练过程中使用YOLOv5自带的Mosic数据增强方法。每次训练完一轮后保存损失最小的模型，最终得到最好的训练模型。