CN115527096A - 一种基于改进YOLOv5的小目标检测方法 - Google Patents
一种基于改进YOLOv5的小目标检测方法 Download PDFInfo
- Publication number
- CN115527096A CN115527096A CN202211365030.3A CN202211365030A CN115527096A CN 115527096 A CN115527096 A CN 115527096A CN 202211365030 A CN202211365030 A CN 202211365030A CN 115527096 A CN115527096 A CN 115527096A
- Authority
- CN
- China
- Prior art keywords
- convolution
- network
- feature
- conditional
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进YOLOv5的小目标检测方法。该方法使用Mosaic数据增强方法,并针对小目标本身像素值较少的问题,将YOLOv5主干网络中的Focus结构剪枝,减少在切片过程中的信息丢失;将条件参数化卷积和残差网络相结合,构成了条件残差单元,残差结构保留了卷积操作前的特征,可以有效利用不同阶段的特征进行融合;而条件参数卷积和加权池化SPP结构可以为每个样本学习一组特定的参数,既能提升模型对特征的有效利用率,同时又能保持高效的推理速度。将该改进方法应用于各类小目标检测中,实验结果表明,无论是简单场景还是复杂场景,相较原始YOLOv5算法,该方法在小目标检测方面都具有更高的检测精度。
Description
技术领域
本发明涉及计算机视觉的目标检测领域,特别是一种基于改进YOLOv5的小目标检测方法。
背景技术
小目标检测是图像分析处理领域的一个重要研究方向,利用计算机对远距离捕获的图像数据进行有效分析和处理,识别不同类别的目标并标注其所在位置,被广泛应用于城市智慧交通、抗灾救灾、边防安全等场景,这项研究节省大量人力和时间成本,因此小目标检测技术具有十分重要的研究意义和实用价值。所谓小目标指的是目标成像尺寸较小,通常有两种定义方式:(1)绝对尺寸大小,在COCO数据集中,尺寸小于32×32像素的目标被认为是小目标;(2)相对尺寸大小,根据国际光学工程学会定义,小目标为256×256像素的图像中成像面积小于80像素的目标,即若目标的尺寸小于原图的0.12%则可以认为是小目标。小目标检测的难点主要在于以下几点:(1)目标像素面积小,包含的特征信息过少,尤其是红外图像特征信息缺失严重;(2)数据集分布不平衡,现有标准数据集中小目标占比较小,存在严重的图像级不平衡;(3)数据集中存在目标遮挡、模糊、不完整现象,导致小目标信息缺失严重。
近年来,随着深度学习理论的不断发展及社会需求的日益增长,小目标检测技术的研究引起了越来越广泛的关注,但目前专门针对小目标检测的研究较少,现有的小目标检测算法一般是在现有目标检测方法的基础上,通过加深网络的层数提取到更丰富特征,或者复杂化特征融合过程来增强模型对多尺度目标的鲁棒性,从而提升小目标检测的性能。Faster R-CNN、SSD和YOLO算法等作为经典的目标检测算法,在精度和速度上均取得了较好的表现,因此诸多研究者在此基础上进行了针对小目标检测的改进。基于两阶段的方法主要是通过增加针对感兴趣区域的特征提取,并且更加注重空间特征的重要性,以增强对小目标的检测性能;基于单阶段的改进算法主要是通过多尺度特征融合的方式来充分利用富含细节信息的底层高分辨率特征。此外,生成式对抗网络、数据扩充等技术也被广泛用于解决小目标检测问题。但不论是增加多尺度的特征融合还是应用更大规模的主干网络都会使网络的时间复杂度大幅度增加,大大降低了目标检测模型的实时性。
发明内容
针对现有技术的缺陷,本发明提供一种基于改进YOLOv5的小目标检测方法,改进并简化目标检测网络结构,提高了小目标的特征利用率,且保证了目标检测模型的实时性。
为了解决所述技术问题,本发明采用的技术方案是:一种基于改进YOLOv5的小目标检测方法,包括以下步骤:
S01)、采集用于小目标检测的数据,制作YOLO标签格式的图像数据集;
S02)、将图像数据集输入到网络进行数据增强;
S03)、图像数据集进行数据增强后输入特征提取网络,特征提取的主干网络采用改进的CSPDarkNet,其中在原始YOLOv5的主干网络中删除了Focus结构,五层网络结构分别由下采样条件卷积层、SPP模块和条件残差单元Res unit组成,分别从第三、四、五层得到三种不同尺度的特征图,分别记作F3、F4、F5;
所述下采样条件卷积层用条件参数化卷积代替原始YOLOv5中的标准卷积,将条件卷积层中的卷积核参数化为n个专家的线性组合(α1W1+…+αnWn)*x,其中αi=ri(x)为使用具有学习参数的路由函数计算的与示例相关的标量权重,Wi为卷积核,x为输入该卷积层的特征;
SPP模块采用k={1*1,5*5,9*9,13*13}的SoftPool加权池化进行多尺度融合,将不同尺度的特征图进行拼接操作;使用softmax进行加权池化,根据非线性特征值计算区域的特征值权重其中wi为特征权重,a是活动值,i、j为所取活动值在特征矩阵中对应的索引,R为局部计算区域;得到特征值权重后,通过加权区域的特征值得到输出结果条件残差单元由条件卷积层构成,并在其短连接中加入条件卷积,扩展特征通道;
S04)、步骤S03)得到的特征图传输到目标检测网络的颈部,颈部结构采用基于CCSP2网络结构的FPN+PAN特征融合网络,通过自顶向下和自底向上两种方式进行特征融合,最终得到三种不同尺度的强化特征图,分别记作A3、A4、A5;
S05)、将强化特征图A3、A4、A5输入到目标检测网络的头部,三种强化特征图分别再做一次条件卷积,进一步筛选并加强与特定类相关的特征,最终得到三种不同尺度的预测特征图,分别记作P3、P4、P5;预测先验框由数据集聚类动态获得,预测网络通过非极大抑制输出最终预选框并映射为原图大小,最终得到目标物体的检测结果。
进一步的,步骤S02)中的数据增强采用4张图像随机缩放、随机裁剪、随机排列的方式进行拼接,丰富数据集场景,增加小目标数量。
步骤S03)采用2倍下采样条件卷积层作为主干网络的第一层,既能增强感兴趣区域的特征,又能达到增加通道数量的作用。
步骤S03)采用的路由函数为:ri(x)=Sigmoid(GlobalAveragePool(x)R),其中R为权重矩阵,Sigmoid(·)为Sigmoid函数,GlobalAveragePool(·)为全局平均池化函数。
步骤S04)中,FPN和PAN引入CCSP2网络结构,CCSP2网络由多个条件卷积层和卷积核拼接组成,通过跨阶段层次结构进行特征合并,加强特征筛选和特征融合的能力;FPN自顶向下融合不同尺度的特征,将高层特征经过上采样后与低层特征融合;PAN自底向上融合不同尺度的特征,将低层特征经过两倍下采样条件卷积后与高层特征融合。
本发明的有益效果:
(1)改进特征提取主干网络,在改进的YOLOv5模型中用条件卷积层替换原始标准卷积层,改正特征提取方式,使网络更加关注与特定类有关的特征,增强了网络对目标的敏感度,并且可以提升模型的尺寸与容量的同时保持高效推理速度。
(2)改进特征融合网络,通过自顶向上和自底向上的FPN+PAN结构进行特征融合,充分利用底层特征的细节信息和高层特征的语义信息,更有利于模型更好的学习特征,融合过程中通过下采样条件卷积层加强目标特征,有效提升检测精度,增强算法的鲁棒性。
(3)SPP结构中的softpool使用softmax进行加权池化,在增加对相似特征信息的区分度,显著分离了重要的上下文特征的同时,保留了整个感受野的特征信息,在保持池化层功能的同时,尽可能减少池化过程中的信息丢失,可有效提升模型的检测精度。
(4)与原始YOLOv5相比,在改进的网络中用条件残差单元Res unit代替CSP结构,直接将残差思想应用于单元中,条件残差单元中条件卷积更关注与目标相关的特征,相当于注意力机制,在对特征进行采样的同时,又能扩展特征通道。残差结构可以避免采样过程中梯度消失的问题,并且能更好地的保留底层特征,增强特征融合过程中特征的多样性。
附图说明
图1为本发明的总体流程图;
图2为整体网络结构图;
图3为数据增强示意图;
图4为部分数据集图片。
具体实施方式
下面结合具体实施例对本发明作进一步的说明。
实施例1
下面将对本发明实施例中的技术方案进行清楚、完整地描述。本发明所描述的实施例仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、2所示,本实施例公开了一种基于改进YOLOv5的小目标检测方法,具体步骤如下:
S01)、收集典型小目标的图像数据,如图4所示,其中包含可见光和红外两种采集模式,场景既包含;水上、天空等简单背景的场景,也包含陆地城市背景等复杂场景;其中目标类型主要有人、车(标注区分汽车、卡车、公交车、自行车等类型)、船、无人机等常见且具有高使用价值的目标。为增加数据集的鲁棒性,数据集中包含较多遮挡、重叠的目标。
使用labelImg标注工具进行目标分类标注,标注格式为yolo格式。
S02)、如图3所示,将标注好的数据集使用Mosaic数据增强,从待测小目标数据集中取出一个批次的数据,从取出的数据中随机选取四张图像进行随机裁剪、排列、缩放、拼接,组成一张包含更多目标种类和数量且场景更复杂的图像。重复该步骤,达到增强网络模型对图像小目标样本的区分度,提升模型泛化能力。
S03)、将增强后的数据输入到网络中进行迭代训练。在特征提取过程中,特征提取的主干网络采用改进的CSPDarkNet,原始YOLOv5的特征提取主干网络采用了Focus切片模块,将图像每隔一个像素点切片,虽然增加了通道数量,但是小目标所占像素数本身较少,在切片过程中会导致信息严重丢失,因此本发明中将此模块用2倍下采样条件卷积层代替,既能增强感兴趣区域的特征,又能达到增加通道数量的作用。由于小目标检测任务中的目标本身包含的像素值较少,甚至在原始检测图像中仅有几个像素大小,使用标准卷积操作时,小目标的重要特征会被削弱,再进行深度卷积时重要特征会大量丢失,因此本发明中统一采用条件卷积操作,赋予小目标特征更大的权重,保证其在卷积过程中的重要性。
下采样条件卷积层,用条件参数化卷积代替原始的标准卷积。将条件卷积层中的卷积核参数化为n个专家的线性组合(α1W1+…+αnWn)*x,其中αi=ri(x)为使用具有学习参数的路由函数计算的与示例相关的标量权重,Wi为卷积核,路由函数ri(x)=Sigmoid(GlobalAveragePool(x)R),其中R为权重矩阵。
SPP模块采用k={1*1,5*5,9*9,13*13}的SoftPool加权池化进行多尺度融合,将不同尺度的特征图进行拼接操作。使用softmax进行加权池化,根据非线性特征值计算区域的特征值权重其中wi为特征权重,a是活动值,i、j为所取活动值在特征矩阵中对应的索引,R为局部计算区域;得到特征值权重后,通过加权区域的特征值得到输出结果
条件残差单元借鉴Resnet网络中的残差结构,主要由条件卷积层构成,并在其短连接中加入条件卷积,扩展特征通道。其中条件卷积层的基本原理与下采样条件卷积层中所述一致,其中条件卷积的层数由网络深度决定,网络越深条件卷积个数越多。
经过第一次下采样条件卷积操作之后,输入图像从640*640*3变为大小为320*320*32的特征图;进行第二次下采样条件卷积操作之后,特征图大小变为160*160*64;进行第三次下采样条件卷积操作之后,特征图大小变为80*80*128;进行第四次下采样条件卷积操作之后,特征图大小变为40*40*256;进行第五次下采样条件卷积操作之后,特征图大小变为20*20*512。将第三、四、五层得到的特征图记作F3、F4、F5。
S04)、将得到的特征图传输到目标检测网络的颈部,颈部结构采用基于CCSP2网络结构的FPN+PAN特征融合网络。FPN采用自顶向下的方式进行多尺度特征融合,进行多尺度融合之前,高层特征先通过CCSP2结构强化目标特征,再通过3*3条件卷积消除融合带来的混叠效应。F5经过上述操作后得到的特征图记作M5;M5再经过两倍上采样与F4融合,融合得到的特征再经过上述CCSP2强化和条件卷积后,特征图记作M4;M4再经过两倍上采样与F3融合,融合得到的特征再经过上述CCSP2强化后,特征图记作M3,M3经过条件卷积操作后即为该模型中底层的最终特征图P3。
PAN采用自底向下的方式进行特征融合,同样的,进行多尺度融合之前,底层特征先通过CCSP2结构强化目标特征,再通过3*3下采样条件卷积消除融合带来的混叠效应。FPN网络得到的M3作为底层特征A3,经过两倍下采样后与M4融合,再经过CCSP2强化后特征图记作A4,A4经过条件卷积操作后即为该模型中底层的最终特征图P4;A4经过两倍下采样后与M3融合,再经过CCSP2强化后特征图记作A5,A5经过条件卷积操作后即为该模型中底层的最终特征图P5。
在YOLOv5算法中,针对不同的数据集会有不同的初始设定先验框anchor,初始先验框anchor是网络训练时重要的一部分。网络的初始anchor的基础上输出预测框,再将预测框与真是框进行对比,计算两者之间的损失,再反向传播更新网络参数。本发明中采用k-means聚类算法对小目标检测训练数据集进行anchor聚类,自动生成与该数据集对应的anchor大小。由于检测方式是多尺度融合的策略,因此anchor的尺寸也是针对不同尺度的特征图设定的。将聚类得到的初始anchor作为先验信息加入网络模型中,大大降低了边框回归的难度。
本发明在原始YOLOv5算法的基础上,从特征提取主干网络到网络的颈部再到网络的头部分别进行了相应的优化改进,有效增强了网络模型对小目标的检测精度。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。
Claims (5)
1.一种基于改进YOLOv5的小目标检测方法,其特征在于:包括以下步骤:
S01)、采集用于小目标检测的数据,制作YOLO标签格式的图像数据集;
S02)、将图像数据集输入到网络进行数据增强;
S03)、图像数据集进行数据增强后输入特征提取网络,特征提取的主干网络采用改进的CSPDarkNet,其中在原始YOLOv5的主干网络中删除了Focus结构,五层网络结构分别由下采样条件卷积层、SPP模块和条件残差单元Res unit组成,分别从第三、四、五层得到三种不同尺度的特征图,分别记作F3、F4、F5;
所述下采样条件卷积层用条件参数化卷积代替原始YOLOv5中的标准卷积,将条件卷积层中的卷积核参数化为n个专家的线性组合(α1W1+…+αnWn)*x,其中αi=ri(x)为使用具有学习参数的路由函数计算的与示例相关的标量权重,Wi为卷积核,x为输入该卷积层的特征;
SPP模块采用k={1*1,5*5,9*9,13*13}的SoftPool加权池化进行多尺度融合,将不同尺度的特征图进行拼接操作;使用softmax进行加权池化,根据非线性特征值计算区域的特征值权重其中wi为特征权重,a是活动值,i、j为所取活动值在特征矩阵中对应的索引,R为局部计算区域;得到特征值权重后,通过加权区域的特征值得到输出结果
条件残差单元由条件卷积层构成,并在其短连接中加入条件卷积,扩展特征通道;
S04)、步骤S03)得到的特征图传输到目标检测网络的颈部,颈部结构采用基于CCSP2网络结构的FPN+PAN特征融合网络,通过自顶向下和自底向上两种方式进行特征融合,最终得到三种不同尺度的强化特征图,分别记作A3、A4、A5;
S05)、将强化特征图A3、A4、A5输入到目标检测网络的头部,三种强化特征图分别再做一次条件卷积,进一步筛选并加强与特定类相关的特征,最终得到三种不同尺度的预测特征图,分别记作P3、P4、P5;预测先验框由数据集聚类动态获得,预测网络通过非极大抑制输出最终预选框并映射为原图大小,最终得到目标物体的检测结果。
2.根据权利要求1所述的基于改进YOLOv5的小目标检测方法,其特征在于:步骤S02)中的数据增强采用4张图像随机缩放、随机裁剪、随机排列的方式进行拼接。
3.根据权利要求1所述的基于改进YOLOv5的小目标检测方法,其特征在于:步骤S03)采用2倍下采样条件卷积层作为主干网络的第一层。
4.根据权利要求1所述的基于改进YOLOv5的小目标检测方法,其特征在于:步骤S03)采用的路由函数为:ri(x)=Sigmoid(GlobalAveragePool(x)R),其中R为权重矩阵,Sigmoid(·)为Sigmoid函数,GlobalAveragePool(·)为全局平均池化函数。
5.根据权利要求1所述的基于改进YOLOv5的小目标检测方法,其特征在于:步骤S04)中,FPN和PAN引入CCSP2网络结构,CCSP2网络由多个条件卷积层和卷积核拼接组成,通过跨阶段层次结构进行特征合并,加强特征筛选和特征融合的能力;FPN自顶向下融合不同尺度的特征,将高层特征经过上采样后与低层特征融合;PAN自底向上融合不同尺度的特征,将低层特征经过两倍下采样条件卷积后与高层特征融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365030.3A CN115527096A (zh) | 2022-11-02 | 2022-11-02 | 一种基于改进YOLOv5的小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211365030.3A CN115527096A (zh) | 2022-11-02 | 2022-11-02 | 一种基于改进YOLOv5的小目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115527096A true CN115527096A (zh) | 2022-12-27 |
Family
ID=84702708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211365030.3A Pending CN115527096A (zh) | 2022-11-02 | 2022-11-02 | 一种基于改进YOLOv5的小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527096A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894999A (zh) * | 2023-07-18 | 2023-10-17 | 中国石油大学(华东) | 基于条件参数化卷积的溢油极化sar检测方法和装置 |
CN117314898A (zh) * | 2023-11-28 | 2023-12-29 | 中南大学 | 一种多阶段列车轨边零部件检测方法 |
-
2022
- 2022-11-02 CN CN202211365030.3A patent/CN115527096A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894999A (zh) * | 2023-07-18 | 2023-10-17 | 中国石油大学(华东) | 基于条件参数化卷积的溢油极化sar检测方法和装置 |
CN116894999B (zh) * | 2023-07-18 | 2024-05-03 | 中国石油大学(华东) | 基于条件参数化卷积的溢油极化sar检测方法和装置 |
CN117314898A (zh) * | 2023-11-28 | 2023-12-29 | 中南大学 | 一种多阶段列车轨边零部件检测方法 |
CN117314898B (zh) * | 2023-11-28 | 2024-03-01 | 中南大学 | 一种多阶段列车轨边零部件检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563909B (zh) | 一种复杂街景图像语义分割方法 | |
CN113780296B (zh) | 基于多尺度信息融合的遥感图像语义分割方法及*** | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及*** | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
CN112581409B (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
CN114445430B (zh) | 轻量级多尺度特征融合的实时图像语义分割方法及*** | |
CN113095152B (zh) | 一种基于回归的车道线检测方法及*** | |
CN111652081B (zh) | 一种基于光流特征融合的视频语义分割方法 | |
CN115035361A (zh) | 基于注意力机制和特征交叉融合的目标检测方法及*** | |
CN112434723B (zh) | 一种基于注意力网络的日/夜间图像分类及物体检测方法 | |
CN116311254B (zh) | 一种恶劣天气情况下的图像目标检测方法、***及设备 | |
CN113723377A (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN115565044A (zh) | 一种目标检测方法及*** | |
CN116503709A (zh) | 一种基于改进YOLOv5的雾霾天气下车辆检测方法 | |
CN114445442B (zh) | 基于非对称交叉融合的多光谱图像语义分割方法 | |
CN113269119B (zh) | 一种夜间车辆检测方法及装置 | |
CN112861911A (zh) | 一种基于深度特征选择融合的rgb-d语义分割方法 | |
CN116503602A (zh) | 基于多层级边缘增强的非结构化环境三维点云语义分割方法 | |
CN116486352A (zh) | 基于道路约束的车道线鲁棒检测与提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |