CN117557922B - 改进YOLOv8的无人机航拍目标检测方法 - Google Patents

改进YOLOv8的无人机航拍目标检测方法 Download PDF

Info

Publication number
CN117557922B
CN117557922B CN202311361640.0A CN202311361640A CN117557922B CN 117557922 B CN117557922 B CN 117557922B CN 202311361640 A CN202311361640 A CN 202311361640A CN 117557922 B CN117557922 B CN 117557922B
Authority
CN
China
Prior art keywords
convolution
network
loss
partial
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311361640.0A
Other languages
English (en)
Other versions
CN117557922A (zh
Inventor
赵志宏
郝子晔
赵世哲
俞阿丹
李万根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Zingto Aviation Technology Co ltd
Shijiazhuang Tiedao University
Original Assignee
Hebei Zingto Aviation Technology Co ltd
Shijiazhuang Tiedao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Zingto Aviation Technology Co ltd, Shijiazhuang Tiedao University filed Critical Hebei Zingto Aviation Technology Co ltd
Priority to CN202311361640.0A priority Critical patent/CN117557922B/zh
Publication of CN117557922A publication Critical patent/CN117557922A/zh
Application granted granted Critical
Publication of CN117557922B publication Critical patent/CN117557922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Remote Sensing (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种改进YOLOv8的无人机航拍目标检测方法,涉及计算机视觉技术领域。所述方法包括如下步骤:对数据集进行数据增强和划分,并将增强后的图像分辨率调整为预设大小;构建无人机航拍目标检测用于改进的YOLOv8网络,在主干网络中通过引入部分空洞卷积构建多分支部分空洞卷积模块用以改进C2F中的Bottleneck块,增强特征提取网络感受野,提高模型检测性能,并减少参数量和计算量;最后综合检测精度和参数量指标来选取最佳模型,对测试集数据进行测试。所述方法能够提高无人机对小目标的检测性能,取得了较好的检测效果。

Description

改进YOLOv8的无人机航拍目标检测方法
技术领域
本发明涉及机器视觉技术领域,尤其涉及一种基于改进的YOLOv8网络的改进YOLOv8的无人机航拍目标检测方法。
背景技术
随着无人机技术的发展使得无人机可以适应复杂和恶劣的环境,无人机目标检测已经广泛应用于交通安全、抢险救援和测绘航测等领域。
目前,基于深度学习的目标检测方法主要分为两种。第一种是两阶段式算法,其通过生成一系列的候选边界框再利用CNN提取特征,如FastR-CNN、R-CNN、R-FCN等。虽然双阶段算法能够提高检测精度,但由于生成大量候选区域所需时间开销大,实时性不足。而单阶段算法直接将目标边界定位问题转化为回归问题,仅需要一次便可以得到边界框的坐标和类概率值,因此单阶段算法在损失一部分检测精度的同时提升了检测速度。随着YOLO系列算法的不断改进,更适合无人机航拍目标检测。但由于无人机航拍图像中的目标呈现尺度各异、小物体多、密度大导致小目标像素信息少,特征纹理模糊,直接将YOLO系列的前沿版本应用于无人机航拍目标检测仍存在检测精度不高以及实时性不足的问题。
检测精度与参数量是衡量无人机航拍目标检测算法优劣的重要指标。刘婷婷等使用MobileNetV3替换YOLOv3的主干网络降低了模型参数量,但检测精度不足。Yang等通过在YOLOv5模型上优化锚框尺寸、增加注意力机制、添加小目标检测层的方法提高检测精度,但网络的参数量增加。苏凯第等通过在YOLOv5模型上增加卷积层数加深算法深度,采用多次循环神经网络提高训练速度,但也导致由于参数量增加无法适配无人机等边缘设备的问题。张徐等使用余弦注意力机制和后正则化方法改进Swin Transformer重构YOLOv7主干网络,虽然小目标检测精度有所提升,但模型推理速度慢、参数量大。
由上述分析知,当前改进YOLOv8的无人机航拍目标检测方法仍存在实时性不足,小目标检测精度低的问题。
发明内容
本发明所要解决的技术问题是如何提供一种能够提高对小目标的检测性能的改进YOLOv8的无人机航拍目标检测方法。
为解决上述技术问题,本发明所采取的技术方案是:一种改进YOLOv8的无人机航拍目标检测方法,包括如下步骤:
S1:对数据集进行数据增强和划分,并将增强后的图像分辨率调整为预设大小;
S2:构建无人机航拍目标检测用于改进的YOLOv8网络,所述改进的YOLOv8网络通过在主干网络中引入部分空洞卷积构建多分支部分空洞卷积块DPC,来构建C2F中的Bottleneck块形成新的DPC2F块,并在该块中加入EMA注意力机制对通道进行调节且通过加入跳连路径实现特征聚合,数据集通过所述改进的YOLOv8网络的主干网络提取特征,得到三个尺度的特征图;
S3:将主干网络提取的网络特征进行处理,输出给颈部网络进行多尺度特征融合,并通过最小化总体损失函数,对目标检测网络进行训练,不断更新模型参数进行微调,得到训练模型;
S4:加载最佳轻量级多尺度模型参数,将待检测图像输入模型中得到检测结果,生成目标检测图像。
采用上述技术方案所产生的有益效果在于:本发明所述方法中改进的YOLOv8网络采用一种部分空洞卷积,由于同时兼顾部分卷积和空洞卷积的优势,能够降低网络参数量和加大模型感受野。在部分空洞卷积的基础上提出一种多分支部分空洞卷积模块,模块内部包含四个分支,每个分支分别对特征图进行特征提取,通过加入EMA注意力机制对四个分支的特征图按照通道数进行优化,增大小目标特征,抑制无关特征,提高模型对小目标的检测性能。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例所述方法的流程框图;
图2为本发明实施例所述方法中改进的YOLOv8网络结构示意图;
图3为本发明实施例中的部分空洞卷积的结构示意图;
图4为本发明实施例中多分支部分空洞卷积块的结构示意图;
图5为本发明实施例中EMA注意力机制模块的结构示意图;
图6为本发明实施例中DPC2F块的结构示意图;
图7为本发明实施例所述方法的检测效果图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1所示,本发明实施例公开了一种改进YOLOv8的无人机航拍目标检测方法,所述方法包括如下步骤:
S1:对数据集进行数据增强和划分,并将增强后的图像分辨率调整为预设大小;
具体的,本实施例中,使用公开数据集VisDrone2019,对数据集进行数据增强和划分;具体的,下载公开无人机航拍数据集VisDrone2019,共8629张无人机视角下的航拍图像,数据集共分为10个类别,分别为行人、人、自行车、汽车、面包车、卡车、三轮车、遮阳篷三轮车、公共汽车、摩托车。对数据集进行处理,以8:1:1的比率划分为训练集、验证集和测试集,其中训练集包括6471张图像,验证集包括548张图像、测试集包括1610张图像。通过Mosaic对数据集进行数据增强,并将增强后的图像分辨率调整为预设大小;
S2:构建无人机航拍目标检测用于改进的YOLOv8网络,所述改进的YOLOv8网络通过在主干网络中引入部分空洞卷积构建多分支部分空洞卷积块DPC,来构建C2F中的Bottleneck块形成新的DPC2F块,并在该块中加入EMA注意力机制对通道进行调节且通过加入跳连路径实现特征聚合,数据集通过所述改进的YOLOv8网络的主干网络提取特征,得到三个尺度的特征图;
S3:将主干网络提取的三个尺度的特征进行处理,输出给颈部网络进行多尺度特征融合,得到三个尺度的融合特征图,头部网络则将三个尺度的融合特征图进行分类和回归预测,得到每个像素点对应每个类别和每个维度的概率,对所以像素点进行非极大值抑制去除重叠较大且置信度较低的预测框,保留下最终的预测框及其类别和置信度,并通过最小化总体损失函数,对目标检测网络进行训练,不断更新模型参数进行微调,得到训练模型;
S4:加载最佳轻量级多尺度模型参数,将待检测图像输入模型中得到检测结果,生成目标检测图像。
下面结合具体内容对上述步骤进行详细说明:
所述步骤S2中构建无人机航拍目标检测用于改进的YOLOv8网络的方法包括如下步骤:
S21:构建部分空洞卷积;
S22:构建部分空洞卷积块,所述部分空洞卷积块包括部分空洞卷积、批量归一化层和SiLU激活函数;
S23:构建多分支部分空洞卷积块DPC,所述多分支部分空洞卷积块包括部分空洞卷积、标准卷积和EMA注意力机制;
S24:构建主干网络特征提取模块DPC2F;
S25:构建改进YOLOv8的改进YOLOv8的无人机航拍目标检测方法,其具体结构如图2所示。
进一步的,所述步骤S21中使用部分空洞卷积提取图像特征,部分空洞卷积在提取图像特征时采用两阶段过程,第一阶段使用一个3×3空洞卷积提取特征,部分空洞卷积的具体结构如图3所示,这一阶段的计算过程如下:
其中,为卷积输入的特征图,f′∈RC×k×k×m×d为空洞卷积运算,Y′∈RH ‘×W’×m为得到的本征特征图;
第二阶段使用一个1×1卷积对第一阶段提取的特征进行线性变换,该阶段的计算过程如下:
其中,y′i表示Y′中的第i个本征特征图,Φi,j表示生成第i个部分卷积特征图yij的第j个线性运算;
最后将两阶段的结果进行拼接最后输出,其过程如下:
其中,Y∈RH‘×W‘×2m为部分空洞卷积最后生成的特征图;
部分空洞卷积与标准卷积的卷积核大小的对应关系如下:
k'=(k-1)×r+1
部分空洞卷积感受野的计算公式如下:
Rf=(k-1)×2(r-1)+k
其中:k表示输入的卷积核尺寸;r:表示膨胀系数;k’表示膨胀后等效的卷积核尺寸。
部分空洞卷积块由部分空洞卷积、批量归一化层、SiLU激活函数组成。SiLU激活函数公式如下:
进一步的,所述步骤S23中构建多分支部分空洞卷积块DPC(其具体结构如图4所示)具体包括如下步骤:
通过多分支来增大模块特征提取的感受野;DPC多分支部分空洞卷积模块由不同膨胀率的部分空洞卷积和1×1的卷积组成;第一个分支为普通的1×1卷积,第二个分支的部分空洞卷积的膨胀率为1,第三个分支的部分空洞卷积的膨胀率为3,第四个分支的部分空洞卷积的膨胀率为5。部分空洞卷积块提取不同尺度的特征,将不同尺度的特征拼接之后送入EMA注意力机制,通过一条跳连路径实现多尺度特征融合;上述过程可描述为:
上述公式中I表示输入特征图像;F1表示1×1的标准卷积,F2、F3、F4分别表示经过膨胀率为1、3和5的部分空洞卷积提取到的特征;(·)表示膨胀率为r的,卷积核大小为k的部分空洞卷积操作;σ(·)表示SiLU激活函数;Cat(·)表示按照通道维度对特征进行拼接操作;θ(·)表示EMA注意力机制;BN(·)表示归一化操作;f1×1(·)表示一个卷积核大小为1的卷积操作;F5表示EMA模块输出的特征,F6表示输出特征。
使用期望最大化注意力机制EMA(其具体结构如图5所示)对DPC模块并行拼接的特征按照通道进行调节,加强本模块特征的提取性能;期望最大化注意力机制EMA由ΑE、ΑM、ΑR三部分构成,其中ΑE、ΑM对应期望最大化(EM)算法的E步和M步;对输入的特征图X∈RN ×C,初始值为μ∈RN×C,ΑE为估计隐变量Z∈RN×K,即每个基对像素的权责;第k个基对第n个像素的权责计算方法为:
ΑM步负责更新μ,第k个基μ更新算法如下:
交替执行ΑE、ΑM步后μ和Z已近似收敛,重估计输入特征图后,获得估计后的特征图X′∈RN×C,计算方法如下:
X′=Zμ
进一步的,所述步骤S24中构建主干网络特征提取模块DPC2F(其具体结构如图6所示)具体包括如下步骤:
DPC2F块用1个或者多个多分支部分空洞卷积块DPC构建原始C2F中的Bottleneck块,降低主干网络的参数量和提高感受野。
DPC2F块中首先将特征图用一个1×1的标准卷积改变特征图通道数;然后按照通道数进行平分;其中通道数为一半的特征图经过1个或多个DPC块后与另一半划分未处理的特征图拼接;再经过一个1×1的标准卷积改变通道数输出给下一主干网络中的3×3卷积;
输入进DPC块中的特征图,首先通过一个标准卷积和三个并行的部分空洞卷积后按照通道数进行特征拼接,再通过一个EMA注意力模块后,与DPC原始输入特征图通过跳连路径进行相加操作后输出,之后将特征图送入后面的3×3卷积结构,经过主干网络特征提取得到三个尺度的特征图将其传递给颈部网络。
颈部网络是用于融合不同尺度特征的网络结构,由于使用了PANet结构,它可以将不同尺度的特征图进行自顶向下和自底向上相结合,首先将主干网络输出的三个尺度的特征图进行上采样和下采样,然后通过卷积层和跳层连接进行特征融合,最后输出三个尺度的特征图,分别为80x80、40x40和20x20。
头部网络是用于预测目标类别、位置和置信度的无锚框方法的网络结构,其通过将分类和回归分支分离来分别进行检测,分类分支使用一个卷积层和一个Sigmoid激活函数,输出每个像素点对应每个类别的概率,回归分支则使用一个卷积层和一个Softmax激活函数,输出每个像素点对应每个维度(左上角、右下角、中心点、宽高)的概率分布,得到检测结果。
上述具体公开了改进YOLOv8网络的具体结构。
进一步的,所述步骤S3中网络训练包括如下步骤:
S31:采用网络优化器为SGD优化器,设置BatchSize大小为8,学习率设置为0.01,训练轮数为300轮;
S32:本发明使用的总体损失函数为:
Loss=ALosscls+BLossRect+CLossobj
其中Losscls,LossRect,Lossobj分别表示分类损失、定位损失和置信度损失。A,B,C分别表示不同损失所占比重。
S33:分类损失采用BCE损失函数,具体公式如下:
其中,y表示预测值,t表示目标真实类别,n为样本数量,log表示自然对数。
S34:定位损失LossRect采用LossDFL+LossCIOU,具体公式如下:
LossRect=LossDFL+LossCIOU
其中,p表示预测值,y表示目标真实类别,n为样本数量,σ为预测框与真实框的中心点距离,c为二者最小包围矩形的对角线长度,λ为影响因子。
S35:置信度损失Lossobjt同样采用BCELoss,具体公式如下:
其中,y表示预测值,t表示预测框内目标是否为当前类别,n为样本数量,log表示自然对数。
S36:评价指标采用查准率(P)、查全率(R)、参数量、平均精度
均值(mAP),其中查准率公式为:
召回率公式为:
平均精度均值公式为:
其中TP表示真正例,FP表示假正例,FN表示假反例,n表示类别数量。
进一步的,所述步骤S4中:
使用训练好的改进YOLOv8网络对测试集进行目标检测,生成检测框,将生成的检测图像与原图像对比,得出每张检测图像的检测效果。
将实验结果与基准模型对比,本发明的网络参数量减少了13.52%,同时检测精度上涨6.5%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种改进YOLOv8的无人机航拍目标检测方法,其特征在于包括如下步骤:
S1:对数据集进行数据增强和划分,并将增强后的图像分辨率调整为预设大小;
S2:构建无人机航拍目标检测用于改进的YOLOv8网络,所述改进的YOLOv8网络通过在主干网络中引入部分空洞卷积构建多分支部分空洞卷积块DPC,来构建C2F中的Bottleneck块形成新的DPC2F块,并在该块中加入EMA注意力机制对通道进行调节且通过加入跳连路径实现特征聚合,数据集通过所述改进的YOLOv8网络的主干网络提取特征,得到三个尺度的特征图;
S3:将主干网络提取的网络特征进行处理,输出给颈部网络进行多尺度特征融合,并通过最小化总体损失函数,对目标检测网络进行训练,不断更新模型参数进行微调,得到训练模型;
S4:加载最佳轻量级多尺度模型参数,将待检测图像输入模型中得到检测结果,生成目标检测图像;
所述步骤S2中改进的YOLOv8网络通过如下方法进行构建:
S21:构建部分空洞卷积;
S22:构建部分空洞卷积块,所述部分空洞卷积块包括部分空洞卷积、批量归一化层和SiLU激活函数;
S23:构建多分支部分空洞卷积块DPC,所述多分支部分空洞卷积块DPC包括部分空洞卷积、标准卷积和EMA注意力机制;
S24:构建主干网络特征提取模块DPC2F;
S25:构建改进的YOLOv8网络;
所述步骤S21中构建的部分空洞卷积处理图像的方法包括如下步骤:
使用部分空洞卷积提取图像特征,部分空洞卷积在提取图像特征时采用两阶段过程,第一阶段使用一个3×3空洞卷积提取特征,这一阶段的计算过程如下:
其中,为卷积输入的特征图,f′∈RC×k×k×m×d为空洞卷积运算,Y′∈RH ‘×W’×m为得到的本征特征图;
第二阶段使用一个1×1卷积对第一阶段提取的特征进行线性变换,该阶段的计算过程如下:
其中,yi′表示Y′中的第i个本征特征图,Φi,j表示生成第i个部分卷积特征图yih的第j个线性运算;
最后将两阶段的结果进行拼接最后输出,其过程如下:
其中,Y∈RH‘×W‘×2m为部分空洞卷积最后生成的特征图;
部分空洞卷积与标准卷积的卷积核大小的对应关系如下:
k'=(k-1)×r+1
部分空洞卷积感受野的计算公式如下:
Rf=(k-1)×2(r-1)+k
其中:k表示输入的卷积核尺寸;r:表示膨胀系数;k’表示膨胀后等效的卷积核尺寸;
所述步骤S23中构建多分支部分空洞卷积模块DPC的方法包括如下步骤:
所述DPC包括不同膨胀率的部分空洞卷积和1×1的卷积,第一个分支为普通的1×1卷积,第二个分支的部分空洞卷积的膨胀率为1,第三个分支的部分空洞卷积的膨胀率为3,第四个分支的部分空洞卷积的膨胀率为5;部分空洞卷积块提取不同尺度的特征,将不同尺度的特征拼接之后送入EMA注意力机制,通过一条跳连路径实现多尺度特征融合;上述过程可描述为:
上述公式中I表示输入特征图像;F1表示1×1的标准卷积,F2、F3、F4分别表示经过膨胀率为1、3和5的部分空洞卷积提取到的特征;(·)表示膨胀率为r的,卷积核大小为k的部分空洞卷积操作;σ(·)表示SiLU激活函数;Cat(·)表示按照通道维度对特征进行拼接操作;θ(·)表示EMA注意力机制;BN(·)表示归一化操作;f1×1(·)表示一个卷积核大小为1的卷积操作;F5表示EMA模块输出的特征,F6表示输出特征;
使用期望最大化注意力机制EMA对所述DPC并行拼接的特征按照通道进行调节,加强本模块特征的提取性能;期望最大化注意力机制EMA由ΑE、ΑM、ΑR三部分构成,其中ΑE、ΑM对应期望最大化EM算法的E步和M步;对输入的特征图X∈RN×C,初始值为μ∈RN×C,ΑE为估计隐变量Z∈RN×g,即每个基对像素的权责;第g个基对第n个像素的权责计算方法为:
ΑM步负责更新μ,第g个基μ更新算法如下:
交替执行ΑE、ΑM步后μ和Z已近似收敛,重估计输入特征图后,获得估计后的特征图X′∈RN×C,计算方法如下:
X′=Zμ;
所述步骤S24中所述DPC2F的构建方法包括如下步骤:
使用1个或者多个多分支部分空洞卷积块DPC构建C2F块中的Bottleneck形成新的DPC2F块;
DPC2F块中首先将特征图用一个1×1的标准卷积改变特征图通道数;然后按照通道数进行平分;其中通道数为一半的特征图经过1个或多个DPC块后与另一半划分未处理的特征图拼接;再经过一个1×1的标准卷积改变通道数输出给下一主干网络中的3×3卷积;
输入进DPC块中的特征图,首先通过一个标准卷积和三个并行的部分空洞卷积后按照通道数进行特征拼接,再通过一个EMA注意力模块后,与DPC原始输入特征图通过跳连路径进行相加操作后输出,之后将特征图送入后面的3×3卷积结构,经过主干网络特征提取得到三个尺度的特征图将其传递给颈部网络;
颈部网络首先将主干网络输出的三个尺度的特征图进行上采样和下采样,然后通过卷积层和跳层连接进行特征融合,最后输出三个尺度的特征图,分别为80x80、40x40和20x20;
头部网络是用于预测目标类别、位置和置信度的无锚框方法的网络结构,其通过将分类和回归分支分离来分别进行检测,分类分支使用一个卷积层和一个Sigmoid激活函数,输出每个像素点对应每个类别的概率,回归分支则使用一个卷积层和一个Softmax激活函数,输出每个像素点对应每个维度的概率分布,得到检测结果。
2.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于:所述步骤S1具体包括如下步骤:
S11:将数据集划分为训练集、验证集和测试集;
S12:对训练集数据集通过Mosaic进行样本增强;并将增强后的图像分辨率调整为640×640。
3.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于,所述步骤S3中网络训练包括如下步骤:
S31:采用网络优化器为SGD优化器,设置BatchSize大小为8,学习率设置为0.01,训练轮数为300轮;
S32:使用的总体损失函数为:
Loss=ALosscls+BLossRect+CLossobj
其中Losscls,LossRect,Lossobj分别表示分类损失、定位损失和置信度损失;A,B,C分别表示不同损失所占比重;
S33:分类损失采用BCE损失函数,具体公式如下:
其中,y表示预测值,t表示目标真实类别,n为样本数量,log表示自然对数;
S34:定位损失LossRect采用Loss DFL+Loss CIOU,具体公式如下:
LossRect=LossDFL+LossCIOU
其中,p表示预测值,y表示目标真实类别,n为样本数量,σ为预测框与真实框的中心点距离,c为二者最小包围矩形的对角线长度,λ为影响因子;
S35:置信度损失Lossobj同样采用BCELoss,具体公式如下:
其中,y表示预测值,t表示预测框内目标是否为当前类别,n为样本数量,log表示自然对数;
S36:评价指标采用查准率P、查全率R、参数量、平均精度均值mAP,其中查准率公式为:
召回率公式为:
平均精度均值公式为:
其中TP表示真正例,FP表示假正例,FN表示假反例,n表示类别数量。
4.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于,所述步骤S4中:
使用训练好的改进YOLOv8网络对测试集进行目标检测,生成检测框,将生成的检测图像与原图像对比,得出每张检测图像的检测效果。
CN202311361640.0A 2023-10-19 2023-10-19 改进YOLOv8的无人机航拍目标检测方法 Active CN117557922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311361640.0A CN117557922B (zh) 2023-10-19 2023-10-19 改进YOLOv8的无人机航拍目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311361640.0A CN117557922B (zh) 2023-10-19 2023-10-19 改进YOLOv8的无人机航拍目标检测方法

Publications (2)

Publication Number Publication Date
CN117557922A CN117557922A (zh) 2024-02-13
CN117557922B true CN117557922B (zh) 2024-06-11

Family

ID=89821170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311361640.0A Active CN117557922B (zh) 2023-10-19 2023-10-19 改进YOLOv8的无人机航拍目标检测方法

Country Status (1)

Country Link
CN (1) CN117557922B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765421B (zh) * 2024-02-22 2024-04-26 交通运输部天津水运工程科学研究所 基于深度学习的海岸线垃圾识别方法及***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807464A (zh) * 2021-09-29 2021-12-17 东南大学 基于改进yolo v5的无人机航拍图像目标检测方法
CN115205274A (zh) * 2022-07-26 2022-10-18 西南石油大学 一种基于轻量化级联网络的布匹瑕疵检测方法
CN116468730A (zh) * 2023-06-20 2023-07-21 齐鲁工业大学(山东省科学院) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法
CN116597326A (zh) * 2023-05-11 2023-08-15 西安电子科技大学 一种基于改进YOLOv7算法的无人机航拍小目标检测方法
CN116597411A (zh) * 2023-04-20 2023-08-15 山东省计算中心(国家超级计算济南中心) 极端天气下无人驾驶车辆识别交通标志的方法及***
WO2023154320A1 (en) * 2022-02-08 2023-08-17 Senem Velipasalar Thermal anomaly identification on building envelopes as well as image classification and object detection
CN116645563A (zh) * 2023-06-12 2023-08-25 重庆邮电大学 一种基于深度学习的典型交通事件检测***
CN116665080A (zh) * 2023-07-26 2023-08-29 国网江西省电力有限公司电力科学研究院 基于目标识别的无人机劣化绝缘子检测方法及***
CN116824413A (zh) * 2023-07-25 2023-09-29 江苏科技大学 一种基于多尺度空洞卷积的航拍图像目标检测方法
CN116863539A (zh) * 2023-07-20 2023-10-10 吴剑飞 一种基于优化YOLOv8s网络结构的跌倒人物目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807464A (zh) * 2021-09-29 2021-12-17 东南大学 基于改进yolo v5的无人机航拍图像目标检测方法
WO2023154320A1 (en) * 2022-02-08 2023-08-17 Senem Velipasalar Thermal anomaly identification on building envelopes as well as image classification and object detection
CN115205274A (zh) * 2022-07-26 2022-10-18 西南石油大学 一种基于轻量化级联网络的布匹瑕疵检测方法
CN116597411A (zh) * 2023-04-20 2023-08-15 山东省计算中心(国家超级计算济南中心) 极端天气下无人驾驶车辆识别交通标志的方法及***
CN116597326A (zh) * 2023-05-11 2023-08-15 西安电子科技大学 一种基于改进YOLOv7算法的无人机航拍小目标检测方法
CN116645563A (zh) * 2023-06-12 2023-08-25 重庆邮电大学 一种基于深度学习的典型交通事件检测***
CN116468730A (zh) * 2023-06-20 2023-07-21 齐鲁工业大学(山东省科学院) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法
CN116863539A (zh) * 2023-07-20 2023-10-10 吴剑飞 一种基于优化YOLOv8s网络结构的跌倒人物目标检测方法
CN116824413A (zh) * 2023-07-25 2023-09-29 江苏科技大学 一种基于多尺度空洞卷积的航拍图像目标检测方法
CN116665080A (zh) * 2023-07-26 2023-08-29 国网江西省电力有限公司电力科学研究院 基于目标识别的无人机劣化绝缘子检测方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Expectation-Maximization Attention Networks for Semantic Segmentation;Xia Li 等;《arXiv:1907.13426v2》;20190816;第 1-10 页 *
一种道路裂缝检测的变尺度VS-UNet 模型;赵志宏等;《湖南大学学报(自然科学版)》;20230905;全文 *

Also Published As

Publication number Publication date
CN117557922A (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN109993082B (zh) 卷积神经网络道路场景分类与道路分割方法
CN108108657B (zh) 基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN113486764B (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN117557922B (zh) 改进YOLOv8的无人机航拍目标检测方法
CN113313082B (zh) 一种基于多任务损失函数的目标检测方法及***
CN112070713A (zh) 一种引入attention机制的多尺度目标检测方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN117496384B (zh) 一种无人机图像物体检测方法
CN110991257A (zh) 基于特征融合与svm的极化sar溢油检测方法
CN114782798A (zh) 一种基于注意力融合的水下目标检测方法
CN113205103A (zh) 一种轻量级的文身检测方法
CN116385958A (zh) 一种用于电网巡检和监控的边缘智能检测方法
CN109558803A (zh) 基于卷积神经网络与np准则的sar目标鉴别方法
CN112084897A (zh) 一种gs-ssd的交通大场景车辆目标快速检测方法
CN115222998A (zh) 一种图像分类方法
CN115393690A (zh) 一种轻量化神经网络的空对地观测多目标识别方法
CN116824543A (zh) 一种基于od-yolo的自动驾驶目标检测方法
Shen et al. An improved UAV target detection algorithm based on ASFF-YOLOv5s
CN117710841A (zh) 一种无人机航拍图像的小目标检测方法、装置
CN111461002B (zh) 一种面向热成像行人检测的样本处理方法
CN117237900A (zh) 一种基于ssc-yolov5的自动驾驶目标检测算法
CN116863227A (zh) 一种基于改进YOLOv5的危化品车辆检测方法
CN116363610A (zh) 一种基于改进YOLOv5的航拍车辆旋转目标检测方法
CN115761667A (zh) 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant