CN116895029B

CN116895029B - 基于改进yolo v7的航拍图像目标检测方法及***

Info

Publication number: CN116895029B
Application number: CN202311159510.9A
Authority: CN
Inventors: 何为凯; 曾亚琳; 高建永; 王伟; 张肖; 刘存根; 杨富春; 杜付鑫
Original assignee: Shandong Kaitai Intelligent Shot Blasting Technology Research Institute Co ltd; Shandong Kaitai Shot Blasting Machinery Share Co ltd
Current assignee: Shandong Kaitai Intelligent Shot Blasting Technology Research Institute Co ltd; Shandong Kaitai Shot Blasting Machinery Share Co ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-12-19
Anticipated expiration: 2043-09-11
Also published as: CN116895029A

Abstract

本发明公开了一种基于改进YOLO V7的航拍图像目标检测方法及***，属于目标检测技术领域，包括：利用扩充后的航拍图像数据集训练改进的YOLO V7模型；其中，去除YOLO V7模型主干网络中的第一个下采样层和最后一个检测头，将与最深的ELAN模块相连的ELAN‑W模块替换为MSCSP模块，调整YOLO V7的通道数，得到改进的YOLO V7模型；将改进的YOLO V7模型用于航拍图像目标检测中。本发明去掉下采样层以及最深检测头的操作不仅降低了YOLO V7模型的感受野，还减少了神经网络的层数。

Description

基于改进YOLO V7的航拍图像目标检测方法及***

技术领域

本发明属于目标检测技术领域，尤其涉及一种基于改进YOLO V7的航拍图像目标检测方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

航拍图像目标检测指的是使用航拍图像来检测和识别图像中的目标物体；这项技术在很多领域都有广泛的应用，包括城市规划、环境监测、灾害管理、交通监管、农业和林业等等；随着深度学习的兴起，基于卷积神经网络的目标检测技术显著提高了目标检测的性能，然而，大多数目标检测模型都是基于自然场景图像数据集进行设计，自然场景图像与航拍图像之间存在显著差异；

近年来，随着大数据技术的发展和计算机运行速度的不断增加，基于深度学习的目标检测方法不断被提出，并取得了很好的检测效果；基于深度学习的目标检测方法可以被分为两类：两阶段检测和单阶段检测算法；它们各自的优点可以概括为良好的检测精度和计算速度；其中，两阶段检测算法的主要思想是将目标检测分为两个阶段进行处理：生成候选区域和候选区域分类；单阶段目标检测算法只需一次前向传递即可完成目标检测，在损失少量精度的情况下大大提升了检测速度；

YOLO V7作为最先进的单阶段目标检测算法之一，已经在许多自然场景数据集上取得先进效果；然而YOLO V7算法并没有专门针对小目标检测任务进行优化，这使得YOLOV7算法并不能适应于包含大量小目标的航拍图像检测。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于改进YOLO V7的航拍图像目标检测方法及***，其参数量显著降低、检测效果更好并能满足实时检测要求。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了一种基于改进YOLO V7的航拍图像目标检测方法，包括：

获取并处理航拍图像数据集，利用图像增强技术对航拍图像数据集进行扩充；

利用扩充后的航拍图像数据集训练改进的YOLO V7模型；

所述改进的YOLO V7模型是指去除YOLO V7模型主干网络中的第一个下采样层和最后一个检测头，将与最深的ELAN模块相连的ELAN-W模块替换为MSCSP模块，调整YOLO V7的通道数，得到改进的YOLO V7模型；

将真实场景下的航拍图像输入至训练后的改进的YOLO V7模型中，得到航拍图像中各检测目标的类别、置信度分数和相应的目标框坐标信息。

本发明第二方面提供了一种基于改进YOLO V7的航拍图像目标检测***，包括：

航拍图像数据集获取模块，被配置为：获取并处理航拍图像数据集，利用图像增强技术对航拍图像数据集进行扩充；

改进的YOLO V7模型训练模块，被配置为：利用扩充后的航拍图像数据集训练改进的YOLO V7模型；

航拍图像目标检测模块，被配置为：将真实场景下的航拍图像输入至训练后的改进的YOLO V7模型中，得到航拍图像中各检测目标的类别、置信度分数和相应的目标框坐标信息。

以上一个或多个技术方案存在以下有益效果：

（1）由于过多的神经网络层会造成浅层特征信息的过多丢失，此外对小目标的检测也不需要过大的感受野；本发明去掉下采样层的操作降低了YOLO V7模型的感受野，而去掉最深检测头不仅降低了改进YOLO V7的感受野，还减少了神经网络模型的层数，使得YOLOV7算法能够很好的适应于包含大量小目标的航拍图像检测中。

（2）本发明对YOLO V7模型中SPPCSPC模块进行改进，大尺寸的最大池化层会造成细粒度特征信息的丢失从而不利于对小目标的检测，将其中的最大池化层用相同尺寸的深度可分离卷积层代替，可以在融合不同尺寸特征信息的同时更细致的提取特征信息。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的一种基于改进YOLO V7的航拍图像目标检测方法流程图。

图2为现有YOLO V7模型的结构图。

图3为第一个实施例的改进的YOLO V7模型的结构图。

图4为现有SPPCSPC模块的结构图。

图5为第一个实施例的改进的MSCSP模块的结构图。

图6为第一个实施例的MP模块的结构图。

具体实施方式

术语说明：

ELAN：Extended efficient layer aggregation networks扩展高效层聚合网络。

ELAN-W：是ELAN模块的一个变种。

CBS为串联的普通卷积层+批量归一化层+Silu激活函数层。

MP模块有两个分支，作用是进行下采样。

Cat：拼接层，表示将多个模块处理后的特征图在通道维度上进行拼接。

Upsample：最近邻插值上采样层。

Rep：重参数卷积层。

DepthCBS为串联的深度可分离层+批量归一化层+Silu激活函数。

Maxpool：最大池化层。

K表示网络层的核尺寸。

实施例一

如图1所示，本实施例公开了一种基于改进YOLO V7的航拍图像目标检测方法，包括：

步骤1、获取并处理航拍图像数据集，利用图像增强技术对航拍图像数据集进行扩充；

步骤2、对YOLO V7模型进行改进；

步骤3、利用扩充后的航拍图像数据集训练改进的YOLO V7模型；

步骤4、将训练后的改进的YOLO V7模型用于真实场景下的航拍图像目标检测中，得到各检测目标的类别、置信度分数和相应的目标框坐标信息。

其中，检测目标包括：飞机，桥梁，储油罐，船舶，游泳池，车辆，人，风车等目标。

在步骤1中，步骤101、获取并处理航拍图像数据集，包括：

从visdrone官网上下载AI-TOD数据集；

将AI-TOD数据集转换为yolo格式。

步骤102、利用图像增强技术对AI-TOD数据集进行扩充，包括：

所使用的数据增强技术包括：mosaic（使用率为100%）、mixup(使用率为15%)、色调随机变化幅度为在[0,0.15]、饱和度随机变化幅度为[0,0.7]、亮度随机变化幅度为[0,0.4]、水平和垂直平移范围为[-0,20.2]、随机缩放程度为0.9、使用概率为50%的左右翻转和使用概率为15%的图像粘贴；

在步骤2中，对YOLO V7模型进行改进，包括：

步骤201、去除YOLO V7模型主干网络中的第一个下采样层；

步骤202、去除YOLO V7模型主干网络中最后一个检测头；

步骤203、将步骤202得到的YOLO V7模型中与最深的ELAN模块相连的ELAN-W模块替换为MSCSP模块，以帮助模型聚合不同尺寸的特征信息；

步骤204、调整步骤203中得到的YOLO V7模型的通道数，使得改进YOLO V7模型和原YOLO V7模型的GFLOPs（浮点运算数）相接近，以清晰地对比两者的检测效果。

其中，MSCSP模块的获取步骤如下：

（1）将YOLO V7模型中SPPCSPC模块（如图4所示）的最大池化层用相同尺寸的深度可分离卷积层代替；

（2）去掉SPPCSPC模块下采样层前的两个CBS模块，CBS模块包括联的卷积层和批量归一化层和Silu激活函数；

本发明利用MSCSP将输入特征图用不同尺寸的深度可分离卷积层和普通卷积层（CBS模块）进行处理，然后通过拼接层和卷积层进行特征信息融合，从而提取不同深度和不同尺寸的特征信息，MSCSP模块的结构如图5所示。

如图3所示，改进的YOLO V7模型包括：依次串联的输入模块input、改进的骨干网络Backbone、改进颈部网络Neck和改进的检测头；

输入模块input用于缩放输入图像的尺寸至训练改进YOLO V7模型时所使用的图像输入尺寸（640*640）；

改进的骨干网络包括依次串联的第一CBS模块、第二CBS模块、第三CBS模块、第四ELAN模块，第五MP模块、第六ELAN模块、第七MP模块和第八ELAN模块；改进的骨干网络用于从图像中提取特征信息并对Backbone中不同位置提取的特征信息进行交互；

具体的，首先将输入模块的图像依次经过3个CBS模块，得到特征图大小为16S*16S*32，然后将大小为16S*16S*32的特征图输入到依次堆叠的第四ELAN模块、第五MP模块、第六ELAN模块、第七MP模块和第八ELAN模块，其中，第六ELAN模块和第八ELAN模块分别输出大小为8S*8S*128和4S*4S*512的特征图至改进的颈部网络；

如图6所示，MP模块包括两条分支，第一条分支先经过一个maxpool（最大池化层），然后再经过CBS模块进行通道信息的交互，第二条分支先经过一个CBS模块做通道信息的交互，然后再经过一个步长为2的CBS模块（K=3）进行下采样，最后通过将两条分支输出的特征图进行拼接后输出。

改进的颈部网络Neck包括第九CBS模块、第十CAT模块、第十一ELAN-W模块、第十二Rep模块、第十三MSCSP模块、第十四Upsample模块、第十五MP模块、第十六CAT模块、第十七ELAN-W模块和第十八Rep模块；

本实施例使用MSCSP和ELAN-W模块来提取不同层次的特征信息，使用上采样层和下采样层改变特征图尺寸以拼接不同分支的特征图。

具体的，第十三MSCSP模块对改进的骨干网络中第八ELAN模块的输出进行特征提取后，一路输出经过第十四上采样层采样后，通过第十拼接层将其与第六ELAN模块的输出进行拼接后，再利用第十一ELAN-W模块进行特征提取后输出尺寸为8S*8S*128的特征图；

第十一ELAN-W模块的一路输出经过第十二卷积层后输入至第十九head模块；第十一ELAN-W模块的另一路输出经过第十五MP模块后，利用第十六CAT模块将其与第十三MSCSP模块的输出进行拼接后，依次经过第十七ELAN-W模块和第十八Rep模块后输入至第二十head模块；

考虑到目标检测领域中检测不同尺寸的目标所需要的模型感受野不同，而航拍图像通常以小尺寸目标为主。原模型中最深的检测头所具有的感受野过大，并不适用于小目标的检测。因此剔除原模型中的最深的检测头，本发明改进的检测头包括第十九head模块和第二十head模块。检测头利用Backbone和Neck提取得到的特征信息得到检测目标的类别大小位置信息。

在步骤3中，在AI-TOD数据集上训练改进YOLO V7的具体步骤为：

步骤301、定义图片输入尺寸为32S*32S（S为一个变量，因为模型并不需要指定特定大小的输入图片尺寸，32S*32S为输入图片的宽和高。模块的32s*32s*16的含义为经过该模块处理后的特征图尺寸的宽高和通道数分别为32s、32s和16，其它模块同理）、模型训练轮次和bathsize大小；

步骤302、将数据集划分为训练集和测试集；

步骤303、使用K-means算法对训练集的真实锚框进行聚类，再通过遗传算法对所述聚类结果进行优化得到改进YOLO V7模型所使用的先验锚框；

步骤304、加载预训练权重；

步骤305、进行模型训练并更新权值；

步骤306、利用测试集对模型进行测试。保存模型检测效果达到最好时的网络参数；

本实施例中，改进的YOLO V7模型所使用的正负样本分配策略与原版YOLO V7的区别在于：只使用YOLO V5正负样本分配策略进行分配而不进行后续的筛选流程。

使用的YOLO V5的正负样本分配策略为：YOLO V7和YOLO V5的三个输出特征图的每个网格包含三个预测边界框的长宽和中心点坐标信息。在每个特征图内与实际目标中心距离最近的三个网格中，若预测边界框与实际目标的正确标注边界框满足下面的公式，则该预测边界框被选为正样本。

其中，Pw、Ph、Gw、Gh分别为预测边界框的宽高和被正确标注的边界框的宽高。

本发明后续的筛选流程包括：

计算每个样本的Lcls（类别损失）和Lreg（回归损失）；

使用每个实际目标的预测样本最大的10个iou（边界框与预测框之间的交并比）和作为需要分配到的正样本数（Dynamic k）；

使用每个实际目标最大的10个iou和作为需要分配到的正样本数（Dynamic k）；

为每个实际目标取cost最小的前Dynamic k个样本作为正样本，cost=Lcls（Classify losses分类损失）+3*Lreg（Bounding Box Regression Loss边界框回归损失）。

本实施例中去除后续筛选流程的有益效果在于：在小目标检测任务中，GT与预测框的iou通常很低，即Lreg在训练早期很低，因此去除后续筛选过程后，YOLO V7在训练时获得的正样本数将大幅度提升。

为了更好的说明本发明的有效性，将改进YOLO V7和原版YOLO V7在AI-TOD数据集上的检测效果进行了对比，结果如表1所示，

表1 YOLO V7和改进YOLO V7的检测效果对比表

Model	[email protected]	[email protected]:0.95	GFLOPs
				YOLO V7	30.48%	9.28%	103.3G
改进YOLO V7	36.18%	12.18%	124.2G

表中，AP为准确率（P）和召回率(R)组成的曲线面积,map为各类别AP的平均值，[email protected]：0.95表示从0.5，0.55，0.60......0.95这10个iou（目标的预测边界与标注边界的交并比）阈值下map平均值，[email protected]表示iou=0.5时的map值。

召回率R：

式中，TP表示iou大于指定阈值的检测框数量；FN表示没有被检测到的目标数量。

平均精确率（Mean Average Precision）map：

式中，N表示目标类别数量，AI-TOD数据集上的N=8。

实施例二

本实施例公开了一种基于改进YOLO V7的航拍图像目标检测***，包括：

YOLO V7模型改进模块，被配置为：对YOLO V7模型进行改进，去除YOLO V7模型主干网络中的第一个下采样层和最后一个检测头，将与最深的ELAN模块相连的ELAN-W模块替换为MSCSP模块，调整YOLO V7的通道数，得到改进的YOLO V7模型；

YOLO V7模型训练模块，被配置为：利用扩充后的航拍图像数据集训练改进的YOLOV7模型；

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于改进YOLO V7的航拍图像目标检测方法，其特征在于，包括：

利用扩充后的航拍图像数据集训练改进的YOLO V7模型；

将真实场景下的航拍图像输入至训练后的改进的YOLO V7模型中，得到航拍图像中各检测目标的类别、置信度分数和相应的目标框坐标信息；

所述MSCSP模块的获取步骤包括：将SPPCSPC模块的最大池化层用相同尺寸的深度可分离卷积层代替；去掉SPPCSPC模块下采样层前的两个CBS模块；

所述CBS模块包括卷积层、批量归一化层和Silu激活函数；

所述改进的YOLO V7模型包括：依次串联的输入模块、改进的骨干网络Backbone、改进的颈部网络Neck和检测头；

改进的骨干网络Backbone用于从图像中提取特征信息并对Backbone中不同位置提取的特征信息进行交互；改进的骨干网络Backbone包括依次串联的第一CBS模块、第二CBS模块、第三CBS模块、第四ELAN模块、第五MP模块、第六ELAN模块、第七MP模块和第八ELAN模块；

改进的颈部网络Neck包括第九CBS模块、第十CAT模块、第十一ELAN-W模块、第十二Rep模块、第十三MSCSP模块、第十四Upsample模块、第十五MP模块、第十六CAT模块、第十七ELAN-W模块和第十八Rep模块。

2.如权利要求1所述的一种基于改进YOLO V7的航拍图像目标检测方法，其特征在于，所述获取并处理航拍图像数据集，包括：将航拍图像数据集转换为yolo格式。

3.如权利要求1所述的一种基于改进YOLO V7的航拍图像目标检测方法，其特征在于，所述利用扩充后的航拍图像数据集训练改进的YOLO V7模型，包括：

定义输入图片尺寸、训练批次和训练轮次；

将扩充后的航拍图像数据集划分为训练集和测试集；

使用K-means算法对训练集的真实锚框进行聚类，再通过遗传算法对聚类结果进行优化得到改进的YOLO V7模型所使用的先验锚框；

利用训练集训练改进的YOLO V7模型；

利用测试集测试训练后的改进的YOLO V7模型；

保存YOLO V7模型检测效果达到最好时的网络参数。

4.一种基于改进YOLO V7的航拍图像目标检测***，其特征在于，包括：

YOLO V7模型训练模块，被配置为：利用扩充后的航拍图像数据集训练改进的YOLO V7模型；

航拍图像目标检测模块，被配置为：将真实场景下的航拍图像输入至训练后的改进的YOLO V7模型中，得到航拍图像中各检测目标的类别、置信度分数和相应的目标框坐标信息；