CN116895029B - 基于改进yolo v7的航拍图像目标检测方法及*** - Google Patents

基于改进yolo v7的航拍图像目标检测方法及*** Download PDF

Info

Publication number
CN116895029B
CN116895029B CN202311159510.9A CN202311159510A CN116895029B CN 116895029 B CN116895029 B CN 116895029B CN 202311159510 A CN202311159510 A CN 202311159510A CN 116895029 B CN116895029 B CN 116895029B
Authority
CN
China
Prior art keywords
module
yolo
improved
aerial image
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311159510.9A
Other languages
English (en)
Other versions
CN116895029A (zh
Inventor
何为凯
曾亚琳
高建永
王伟
张肖
刘存根
杨富春
杜付鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Kaitai Intelligent Shot Blasting Technology Research Institute Co ltd
Shandong Kaitai Shot Blasting Machinery Share Co ltd
Original Assignee
Shandong Kaitai Intelligent Shot Blasting Technology Research Institute Co ltd
Shandong Kaitai Shot Blasting Machinery Share Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Kaitai Intelligent Shot Blasting Technology Research Institute Co ltd, Shandong Kaitai Shot Blasting Machinery Share Co ltd filed Critical Shandong Kaitai Intelligent Shot Blasting Technology Research Institute Co ltd
Priority to CN202311159510.9A priority Critical patent/CN116895029B/zh
Publication of CN116895029A publication Critical patent/CN116895029A/zh
Application granted granted Critical
Publication of CN116895029B publication Critical patent/CN116895029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进YOLO V7的航拍图像目标检测方法及***,属于目标检测技术领域,包括:利用扩充后的航拍图像数据集训练改进的YOLO V7模型;其中,去除YOLO V7模型主干网络中的第一个下采样层和最后一个检测头,将与最深的ELAN模块相连的ELAN‑W模块替换为MSCSP模块,调整YOLO V7的通道数,得到改进的YOLO V7模型;将改进的YOLO V7模型用于航拍图像目标检测中。本发明去掉下采样层以及最深检测头的操作不仅降低了YOLO V7模型的感受野,还减少了神经网络的层数。

Description

基于改进YOLO V7的航拍图像目标检测方法及***
技术领域
本发明属于目标检测技术领域,尤其涉及一种基于改进YOLO V7的航拍图像目标检测方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
航拍图像目标检测指的是使用航拍图像来检测和识别图像中的目标物体;这项技术在很多领域都有广泛的应用,包括城市规划、环境监测、灾害管理、交通监管、农业和林业等等;随着深度学习的兴起,基于卷积神经网络的目标检测技术显著提高了目标检测的性能,然而,大多数目标检测模型都是基于自然场景图像数据集进行设计,自然场景图像与航拍图像之间存在显著差异;
近年来,随着大数据技术的发展和计算机运行速度的不断增加,基于深度学习的目标检测方法不断被提出,并取得了很好的检测效果;基于深度学习的目标检测方法可以被分为两类:两阶段检测和单阶段检测算法;它们各自的优点可以概括为良好的检测精度和计算速度;其中,两阶段检测算法的主要思想是将目标检测分为两个阶段进行处理:生成候选区域和候选区域分类;单阶段目标检测算法只需一次前向传递即可完成目标检测,在损失少量精度的情况下大大提升了检测速度;
YOLO V7作为最先进的单阶段目标检测算法之一,已经在许多自然场景数据集上取得先进效果;然而YOLO V7算法并没有专门针对小目标检测任务进行优化,这使得YOLOV7算法并不能适应于包含大量小目标的航拍图像检测。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于改进YOLO V7的航拍图像目标检测方法及***,其参数量显著降低、检测效果更好并能满足实时检测要求。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了一种基于改进YOLO V7的航拍图像目标检测方法,包括:
获取并处理航拍图像数据集,利用图像增强技术对航拍图像数据集进行扩充;
利用扩充后的航拍图像数据集训练改进的YOLO V7模型;
所述改进的YOLO V7模型是指去除YOLO V7模型主干网络中的第一个下采样层和最后一个检测头,将与最深的ELAN模块相连的ELAN-W模块替换为MSCSP模块,调整YOLO V7的通道数,得到改进的YOLO V7模型;
将真实场景下的航拍图像输入至训练后的改进的YOLO V7模型中,得到航拍图像中各检测目标的类别、置信度分数和相应的目标框坐标信息。
本发明第二方面提供了一种基于改进YOLO V7的航拍图像目标检测***,包括:
航拍图像数据集获取模块,被配置为:获取并处理航拍图像数据集,利用图像增强技术对航拍图像数据集进行扩充;
改进的YOLO V7模型训练模块,被配置为:利用扩充后的航拍图像数据集训练改进的YOLO V7模型;
所述改进的YOLO V7模型是指去除YOLO V7模型主干网络中的第一个下采样层和最后一个检测头,将与最深的ELAN模块相连的ELAN-W模块替换为MSCSP模块,调整YOLO V7的通道数,得到改进的YOLO V7模型;
航拍图像目标检测模块,被配置为:将真实场景下的航拍图像输入至训练后的改进的YOLO V7模型中,得到航拍图像中各检测目标的类别、置信度分数和相应的目标框坐标信息。
以上一个或多个技术方案存在以下有益效果:
(1)由于过多的神经网络层会造成浅层特征信息的过多丢失,此外对小目标的检测也不需要过大的感受野;本发明去掉下采样层的操作降低了YOLO V7模型的感受野,而去掉最深检测头不仅降低了改进YOLO V7的感受野,还减少了神经网络模型的层数,使得YOLOV7算法能够很好的适应于包含大量小目标的航拍图像检测中。
(2)本发明对YOLO V7模型中SPPCSPC模块进行改进,大尺寸的最大池化层会造成细粒度特征信息的丢失从而不利于对小目标的检测,将其中的最大池化层用相同尺寸的深度可分离卷积层代替,可以在融合不同尺寸特征信息的同时更细致的提取特征信息。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的一种基于改进YOLO V7的航拍图像目标检测方法流程图。
图2为现有YOLO V7模型的结构图。
图3为第一个实施例的改进的YOLO V7模型的结构图。
图4为现有SPPCSPC模块的结构图。
图5为第一个实施例的改进的MSCSP模块的结构图。
图6为第一个实施例的MP模块的结构图。
具体实施方式
术语说明:
ELAN:Extended efficient layer aggregation networks扩展高效层聚合网络。
ELAN-W:是ELAN模块的一个变种。
CBS为串联的普通卷积层+批量归一化层+Silu激活函数层。
MP模块有两个分支,作用是进行下采样。
Cat:拼接层,表示将多个模块处理后的特征图在通道维度上进行拼接。
Upsample:最近邻插值上采样层。
Rep:重参数卷积层。
DepthCBS为串联的深度可分离层+批量归一化层+Silu激活函数。
Maxpool:最大池化层。
K表示网络层的核尺寸。
实施例一
如图1所示,本实施例公开了一种基于改进YOLO V7的航拍图像目标检测方法,包括:
步骤1、获取并处理航拍图像数据集,利用图像增强技术对航拍图像数据集进行扩充;
步骤2、对YOLO V7模型进行改进;
步骤3、利用扩充后的航拍图像数据集训练改进的YOLO V7模型;
步骤4、将训练后的改进的YOLO V7模型用于真实场景下的航拍图像目标检测中,得到各检测目标的类别、置信度分数和相应的目标框坐标信息。
其中,检测目标包括:飞机,桥梁,储油罐,船舶,游泳池,车辆,人,风车等目标。
在步骤1中,步骤101、获取并处理航拍图像数据集,包括:
从visdrone官网上下载AI-TOD数据集;
将AI-TOD数据集转换为yolo格式。
步骤102、利用图像增强技术对AI-TOD数据集进行扩充,包括:
所使用的数据增强技术包括:mosaic(使用率为100%)、mixup(使用率为15%)、色调随机变化幅度为在[0,0.15]、饱和度随机变化幅度为[0,0.7]、亮度随机变化幅度为[0,0.4]、水平和垂直平移范围为[-0,20.2]、随机缩放程度为0.9、使用概率为50%的左右翻转和使用概率为15%的图像粘贴;
在步骤2中,对YOLO V7模型进行改进,包括:
步骤201、去除YOLO V7模型主干网络中的第一个下采样层;
步骤202、去除YOLO V7模型主干网络中最后一个检测头;
步骤203、将步骤202得到的YOLO V7模型中与最深的ELAN模块相连的ELAN-W模块替换为MSCSP模块,以帮助模型聚合不同尺寸的特征信息;
步骤204、调整步骤203中得到的YOLO V7模型的通道数,使得改进YOLO V7模型和原YOLO V7模型的GFLOPs(浮点运算数)相接近,以清晰地对比两者的检测效果。
其中,MSCSP模块的获取步骤如下:
(1)将YOLO V7模型中SPPCSPC模块(如图4所示)的最大池化层用相同尺寸的深度可分离卷积层代替;
(2)去掉SPPCSPC模块下采样层前的两个CBS模块,CBS模块包括联的卷积层和批量归一化层和Silu激活函数;
本发明利用MSCSP将输入特征图用不同尺寸的深度可分离卷积层和普通卷积层(CBS模块)进行处理,然后通过拼接层和卷积层进行特征信息融合,从而提取不同深度和不同尺寸的特征信息,MSCSP模块的结构如图5所示。
如图3所示,改进的YOLO V7模型包括:依次串联的输入模块input、改进的骨干网络Backbone、改进颈部网络Neck和改进的检测头;
输入模块input用于缩放输入图像的尺寸至训练改进YOLO V7模型时所使用的图像输入尺寸(640*640);
改进的骨干网络包括依次串联的第一CBS模块、第二CBS模块、第三CBS模块、第四ELAN模块,第五MP模块、第六ELAN模块、第七MP模块和第八ELAN模块;改进的骨干网络用于从图像中提取特征信息并对Backbone中不同位置提取的特征信息进行交互;
具体的,首先将输入模块的图像依次经过3个CBS模块,得到特征图大小为16S*16S*32,然后将大小为16S*16S*32的特征图输入到依次堆叠的第四ELAN模块、第五MP模块、第六ELAN模块、第七MP模块和第八ELAN模块,其中,第六ELAN模块和第八ELAN模块分别输出大小为8S*8S*128和4S*4S*512的特征图至改进的颈部网络;
如图6所示,MP模块包括两条分支,第一条分支先经过一个maxpool(最大池化层),然后再经过CBS模块进行通道信息的交互,第二条分支先经过一个CBS模块做通道信息的交互,然后再经过一个步长为2的CBS模块(K=3)进行下采样,最后通过将两条分支输出的特征图进行拼接后输出。
改进的颈部网络Neck包括第九CBS模块、第十CAT模块、第十一ELAN-W模块、第十二Rep模块、第十三MSCSP模块、第十四Upsample模块、第十五MP模块、第十六CAT模块、第十七ELAN-W模块和第十八Rep模块;
本实施例使用MSCSP和ELAN-W模块来提取不同层次的特征信息,使用上采样层和下采样层改变特征图尺寸以拼接不同分支的特征图。
具体的,第十三MSCSP模块对改进的骨干网络中第八ELAN模块的输出进行特征提取后,一路输出经过第十四上采样层采样后,通过第十拼接层将其与第六ELAN模块的输出进行拼接后,再利用第十一ELAN-W模块进行特征提取后输出尺寸为8S*8S*128的特征图;
第十一ELAN-W模块的一路输出经过第十二卷积层后输入至第十九head模块;第十一ELAN-W模块的另一路输出经过第十五MP模块后,利用第十六CAT模块将其与第十三MSCSP模块的输出进行拼接后,依次经过第十七ELAN-W模块和第十八Rep模块后输入至第二十head模块;
考虑到目标检测领域中检测不同尺寸的目标所需要的模型感受野不同,而航拍图像通常以小尺寸目标为主。原模型中最深的检测头所具有的感受野过大,并不适用于小目标的检测。因此剔除原模型中的最深的检测头,本发明改进的检测头包括第十九head模块和第二十head模块。检测头利用Backbone和Neck提取得到的特征信息得到检测目标的类别大小位置信息。
在步骤3中,在AI-TOD数据集上训练改进YOLO V7的具体步骤为:
步骤301、定义图片输入尺寸为32S*32S(S为一个变量,因为模型并不需要指定特定大小的输入图片尺寸,32S*32S为输入图片的宽和高。模块的32s*32s*16的含义为经过该模块处理后的特征图尺寸的宽高和通道数分别为32s、32s和16,其它模块同理)、模型训练轮次和bathsize大小;
步骤302、将数据集划分为训练集和测试集;
步骤303、使用K-means算法对训练集的真实锚框进行聚类,再通过遗传算法对所述聚类结果进行优化得到改进YOLO V7模型所使用的先验锚框;
步骤304、加载预训练权重;
步骤305、进行模型训练并更新权值;
步骤306、利用测试集对模型进行测试。保存模型检测效果达到最好时的网络参数;
本实施例中,改进的YOLO V7模型所使用的正负样本分配策略与原版YOLO V7的区别在于:只使用YOLO V5正负样本分配策略进行分配而不进行后续的筛选流程。
使用的YOLO V5的正负样本分配策略为:YOLO V7和YOLO V5的三个输出特征图的每个网格包含三个预测边界框的长宽和中心点坐标信息。在每个特征图内与实际目标中心距离最近的三个网格中,若预测边界框与实际目标的正确标注边界框满足下面的公式,则该预测边界框被选为正样本。
其中,Pw、Ph、Gw、Gh分别为预测边界框的宽高和被正确标注的边界框的宽高。
本发明后续的筛选流程包括:
计算每个样本的Lcls(类别损失)和Lreg(回归损失);
使用每个实际目标的预测样本最大的10个iou(边界框与预测框之间的交并比)和作为需要分配到的正样本数(Dynamic k);
使用每个实际目标最大的10个iou和作为需要分配到的正样本数(Dynamic k);
为每个实际目标取cost最小的前Dynamic k个样本作为正样本,cost=Lcls(Classify losses分类损失)+3*Lreg(Bounding Box Regression Loss边界框回归损失)。
本实施例中去除后续筛选流程的有益效果在于:在小目标检测任务中,GT与预测框的iou通常很低,即Lreg在训练早期很低,因此去除后续筛选过程后,YOLO V7在训练时获得的正样本数将大幅度提升。
为了更好的说明本发明的有效性,将改进YOLO V7和原版YOLO V7在AI-TOD数据集上的检测效果进行了对比,结果如表1所示,
表1 YOLO V7和改进YOLO V7的检测效果对比表
Model [email protected] [email protected]:0.95 GFLOPs
YOLO V7 30.48% 9.28% 103.3G
改进YOLO V7 36.18% 12.18% 124.2G
表中,AP为准确率(P)和召回率(R)组成的曲线面积,map为各类别AP的平均值,[email protected]:0.95表示从0.5,0.55,0.60......0.95这10个iou(目标的预测边界与标注边界的交并比)阈值下map平均值,[email protected]表示iou=0.5时的map值。
召回率R:
式中,TP表示iou大于指定阈值的检测框数量;FN表示没有被检测到的目标数量。
平均精确率(Mean Average Precision)map:
式中,N表示目标类别数量,AI-TOD数据集上的N=8。
实施例二
本实施例公开了一种基于改进YOLO V7的航拍图像目标检测***,包括:
航拍图像数据集获取模块,被配置为:获取并处理航拍图像数据集,利用图像增强技术对航拍图像数据集进行扩充;
YOLO V7模型改进模块,被配置为:对YOLO V7模型进行改进,去除YOLO V7模型主干网络中的第一个下采样层和最后一个检测头,将与最深的ELAN模块相连的ELAN-W模块替换为MSCSP模块,调整YOLO V7的通道数,得到改进的YOLO V7模型;
YOLO V7模型训练模块,被配置为:利用扩充后的航拍图像数据集训练改进的YOLOV7模型;
航拍图像目标检测模块,被配置为:将真实场景下的航拍图像输入至训练后的改进的YOLO V7模型中,得到航拍图像中各检测目标的类别、置信度分数和相应的目标框坐标信息。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (6)

1.一种基于改进YOLO V7的航拍图像目标检测方法,其特征在于,包括:
获取并处理航拍图像数据集,利用图像增强技术对航拍图像数据集进行扩充;
利用扩充后的航拍图像数据集训练改进的YOLO V7模型;
所述改进的YOLO V7模型是指去除YOLO V7模型主干网络中的第一个下采样层和最后一个检测头,将与最深的ELAN模块相连的ELAN-W模块替换为MSCSP模块,调整YOLO V7的通道数,得到改进的YOLO V7模型;
将真实场景下的航拍图像输入至训练后的改进的YOLO V7模型中,得到航拍图像中各检测目标的类别、置信度分数和相应的目标框坐标信息;
所述MSCSP模块的获取步骤包括:将SPPCSPC模块的最大池化层用相同尺寸的深度可分离卷积层代替;去掉SPPCSPC模块下采样层前的两个CBS模块;
所述CBS模块包括卷积层、批量归一化层和Silu激活函数;
所述改进的YOLO V7模型包括:依次串联的输入模块、改进的骨干网络Backbone、改进的颈部网络Neck和检测头;
改进的骨干网络Backbone用于从图像中提取特征信息并对Backbone中不同位置提取的特征信息进行交互;改进的骨干网络Backbone包括依次串联的第一CBS模块、第二CBS模块、第三CBS模块、第四ELAN模块、第五MP模块、第六ELAN模块、第七MP模块和第八ELAN模块;
改进的颈部网络Neck包括第九CBS模块、第十CAT模块、第十一ELAN-W模块、第十二Rep模块、第十三MSCSP模块、第十四Upsample模块、第十五MP模块、第十六CAT模块、第十七ELAN-W模块和第十八Rep模块。
2.如权利要求1所述的一种基于改进YOLO V7的航拍图像目标检测方法,其特征在于,所述获取并处理航拍图像数据集,包括:将航拍图像数据集转换为yolo格式。
3.如权利要求1所述的一种基于改进YOLO V7的航拍图像目标检测方法,其特征在于,所述利用扩充后的航拍图像数据集训练改进的YOLO V7模型,包括:
定义输入图片尺寸、训练批次和训练轮次;
将扩充后的航拍图像数据集划分为训练集和测试集;
使用K-means算法对训练集的真实锚框进行聚类,再通过遗传算法对聚类结果进行优化得到改进的YOLO V7模型所使用的先验锚框;
利用训练集训练改进的YOLO V7模型;
利用测试集测试训练后的改进的YOLO V7模型;
保存YOLO V7模型检测效果达到最好时的网络参数。
4.一种基于改进YOLO V7的航拍图像目标检测***,其特征在于,包括:
航拍图像数据集获取模块,被配置为:获取并处理航拍图像数据集,利用图像增强技术对航拍图像数据集进行扩充;
YOLO V7模型改进模块,被配置为:对YOLO V7模型进行改进,去除YOLO V7模型主干网络中的第一个下采样层和最后一个检测头,将与最深的ELAN模块相连的ELAN-W模块替换为MSCSP模块,调整YOLO V7的通道数,得到改进的YOLO V7模型;
YOLO V7模型训练模块,被配置为:利用扩充后的航拍图像数据集训练改进的YOLO V7模型;
航拍图像目标检测模块,被配置为:将真实场景下的航拍图像输入至训练后的改进的YOLO V7模型中,得到航拍图像中各检测目标的类别、置信度分数和相应的目标框坐标信息;
所述MSCSP模块的获取步骤包括:将SPPCSPC模块的最大池化层用相同尺寸的深度可分离卷积层代替;去掉SPPCSPC模块下采样层前的两个CBS模块;
所述CBS模块包括卷积层、批量归一化层和Silu激活函数;
所述改进的YOLO V7模型包括:依次串联的输入模块、改进的骨干网络Backbone、改进的颈部网络Neck和检测头;
改进的骨干网络Backbone用于从图像中提取特征信息并对Backbone中不同位置提取的特征信息进行交互;改进的骨干网络Backbone包括依次串联的第一CBS模块、第二CBS模块、第三CBS模块、第四ELAN模块、第五MP模块、第六ELAN模块、第七MP模块和第八ELAN模块;
改进的颈部网络Neck包括第九CBS模块、第十CAT模块、第十一ELAN-W模块、第十二Rep模块、第十三MSCSP模块、第十四Upsample模块、第十五MP模块、第十六CAT模块、第十七ELAN-W模块和第十八Rep模块。
5.如权利要求4所述的一种基于改进YOLO V7的航拍图像目标检测***,其特征在于,所述获取并处理航拍图像数据集,包括:将航拍图像数据集转换为yolo格式。
6.如权利要求4所述的一种基于改进YOLO V7的航拍图像目标检测***,其特征在于,所述利用扩充后的航拍图像数据集训练改进的YOLO V7模型,包括:
定义输入图片尺寸、训练批次和训练轮次;
将扩充后的航拍图像数据集划分为训练集和测试集;
使用K-means算法对训练集的真实锚框进行聚类,再通过遗传算法对聚类结果进行优化得到改进的YOLO V7模型所使用的先验锚框;
利用训练集训练改进的YOLO V7模型;
利用测试集测试训练后的改进的YOLO V7模型;
保存YOLO V7模型检测效果达到最好时的网络参数。
CN202311159510.9A 2023-09-11 2023-09-11 基于改进yolo v7的航拍图像目标检测方法及*** Active CN116895029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311159510.9A CN116895029B (zh) 2023-09-11 2023-09-11 基于改进yolo v7的航拍图像目标检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311159510.9A CN116895029B (zh) 2023-09-11 2023-09-11 基于改进yolo v7的航拍图像目标检测方法及***

Publications (2)

Publication Number Publication Date
CN116895029A CN116895029A (zh) 2023-10-17
CN116895029B true CN116895029B (zh) 2023-12-19

Family

ID=88312370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311159510.9A Active CN116895029B (zh) 2023-09-11 2023-09-11 基于改进yolo v7的航拍图像目标检测方法及***

Country Status (1)

Country Link
CN (1) CN116895029B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035429A (zh) * 2022-06-29 2022-09-09 上海交通大学宁波人工智能研究院 一种基于复合主干网络和多预测头的航拍目标检测方法
CN116012734A (zh) * 2022-12-15 2023-04-25 南京邮电大学 一种基于深度学习的航拍图像小目标检测方法
CN116452574A (zh) * 2023-04-28 2023-07-18 合肥工业大学 一种基于改进YOLOv7的缝隙检测方法、***和存储介质
CN116597326A (zh) * 2023-05-11 2023-08-15 西安电子科技大学 一种基于改进YOLOv7算法的无人机航拍小目标检测方法
CN116704505A (zh) * 2023-05-22 2023-09-05 武汉轻工大学 目标检测方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230039196A1 (en) * 2021-08-09 2023-02-09 The United States Of America, As Represented By The Secretary Of The Navy Small unmanned aerial systems detection and classification using multi-modal deep neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035429A (zh) * 2022-06-29 2022-09-09 上海交通大学宁波人工智能研究院 一种基于复合主干网络和多预测头的航拍目标检测方法
CN116012734A (zh) * 2022-12-15 2023-04-25 南京邮电大学 一种基于深度学习的航拍图像小目标检测方法
CN116452574A (zh) * 2023-04-28 2023-07-18 合肥工业大学 一种基于改进YOLOv7的缝隙检测方法、***和存储介质
CN116597326A (zh) * 2023-05-11 2023-08-15 西安电子科技大学 一种基于改进YOLOv7算法的无人机航拍小目标检测方法
CN116704505A (zh) * 2023-05-22 2023-09-05 武汉轻工大学 目标检测方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Efficient detection model of steel strip surface defects based on YOLO-v7;Yang Wang 等;IEEE Access;全文 *
YOLO-BYTE: An efficient multi-object tracking algorithm for automatic monitoring of dairy cows;Zhiyang Zheng 等;Computers and Electronics in Agriculture;全文 *
改进YOLO v7的绝缘子检测与定位;张剑锐 等;计算机工程与应用;全文 *

Also Published As

Publication number Publication date
CN116895029A (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN110188705B (zh) 一种适用于车载***的远距离交通标志检测识别方法
CN109902806B (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
CN111640125B (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN111145174B (zh) 基于图像语义特征进行点云筛选的3d目标检测方法
CN111461212B (zh) 一种用于点云目标检测模型的压缩方法
CN111784685A (zh) 一种基于云边协同检测的输电线路缺陷图像识别方法
CN108830196A (zh) 基于特征金字塔网络的行人检测方法
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN109801297B (zh) 一种基于卷积实现的图像全景分割预测优化方法
CN115205264A (zh) 一种基于改进YOLOv4的高分辨率遥感船舶检测方法
CN110490155B (zh) 一种禁飞空域无人机检测方法
CN113313706B (zh) 基于检测参考点偏移分析的电力设备缺陷图像检测方法
CN111462140B (zh) 一种基于区块拼接的实时图像实例分割方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN111738114A (zh) 基于无锚点精确采样遥感图像车辆目标检测方法
CN116597411A (zh) 极端天气下无人驾驶车辆识别交通标志的方法及***
CN116824543A (zh) 一种基于od-yolo的自动驾驶目标检测方法
CN113177528B (zh) 基于多任务学习策略训练网络模型的车牌识别方法及***
CN113963333A (zh) 一种基于改进yolof模型的交通标志牌检测方法
Fan et al. Covered vehicle detection in autonomous driving based on faster rcnn
CN116895029B (zh) 基于改进yolo v7的航拍图像目标检测方法及***
CN111160282A (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN114219757B (zh) 一种基于改进Mask R-CNN的车辆智能定损方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant