CN116630932A - 一种基于改进yolov5的道路遮挡目标检测方法 - Google Patents
一种基于改进yolov5的道路遮挡目标检测方法 Download PDFInfo
- Publication number
- CN116630932A CN116630932A CN202310423047.8A CN202310423047A CN116630932A CN 116630932 A CN116630932 A CN 116630932A CN 202310423047 A CN202310423047 A CN 202310423047A CN 116630932 A CN116630932 A CN 116630932A
- Authority
- CN
- China
- Prior art keywords
- training
- road
- model
- detection
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000012795 verification Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 40
- 230000000903 blocking effect Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 230000001629 suppression Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 239000011800 void material Substances 0.000 claims description 6
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于道路目标检测领域,具体是一种基于改进YOLOV5的道路遮挡目标检测方法。该方法包括以下步骤:S1)构建道路目标数据集,并将数据集划分为训练集、验证集和测试集;S2)通过Mixup数据增强方法对道路目标训练集进行处理,丰富道路遮挡目标训练样本数;S3)构建改进的YOLOV5遮挡目标检测模型;S4)将步骤S2中的训练数据输入到步骤S3模型中进行训练;S5)将测试集的图像输入到步骤S4训练好的模型中进行检测,输出检测结果即图像中目标的边界框位置参数以及目标类别信息。本发明对于道路密集遮挡条件下的目标检测精度提升较高,可降低道路目标之间由于排列密集导致的漏检率。
Description
技术领域
本发明属于道路目标检测领域,具体是一种基于改进YOLOV5的道路遮挡目标检测方法。
背景技术
随着智能辅助驾驶技术以及自动驾驶技术的发展,道路遮挡目标检测变得越来越重要。道路遮挡目标包括树木、灌木、路标、行人、车辆等障碍物,这些物体会妨碍自动驾驶汽车的视野,增加驾驶风险。因此,开发一种高效准确的道路遮挡目标检测技术已成为自动驾驶领域的重要研究方向。当前,道路遮挡目标检测的技术难点主要体现在以下几个方面:
1.遮挡造成的形变:当目标被其他物体遮挡时,其部分区域可能会被遮挡或者变形,从而导致目标的形状和尺寸发生变化,这会对目标检测的精度造成很大的影响;
2.背景的复杂性:当目标被其他物体遮挡时,其周围的背景可能会变得更加复杂,这会对目标检测的精度造成很大的影响。因此,需要在目标检测过程中对背景进行建模和处理;
3.物体的相互遮挡:在实际场景中,不仅会出现目标被其他物体遮挡的情况,还会出现多个物体相互遮挡的情况,这会对目标检测的准确性带来很大的影响;
4.数据集的质量:遮挡目标检测的性能很大程度上取决于训练数据集的质量。由于遮挡目标检测数据集中的目标通常是被遮挡的,因此数据集的标注工作很困难,这会对模型的训练和测试造成很大的困难。
现今的遮挡目标检测技术主要包括了传统的检测算法和基于深度学习的检测算法。传统的道路遮挡目标检测技术主要基于计算机视觉中的物体检测技术,如滑动窗口、HOG、SIFT、SURF等特征提取算法和SVM等分类器。但是,这些技术往往需要手工提取特征,并且存在过拟合、泛化能力不强等问题。深度学习技术的发展为道路遮挡目标检测带来了新的进展,特别是基于卷积神经网络(CNN)的物体检测算法,已经在道路目标检测中得到广泛应用。其中,YOLOV5作为一种新颖的目标检测算法,具有高效、准确的特点。但是,YOLOV5起初只是应用于一般场景下的目标检测技术研究,对于复杂的道路遮挡场景检测其性能还有所欠缺。
综上所述,道路遮挡目标检测技术在自动驾驶、交通管理、安全监控等领域都具有重要意义和价值。其可以帮助汽车及驾驶员更好地了解和掌握道路情况,提高道路安全性和交通效率。
发明内容
为解决现有的目标检测器在道路遮挡场景中的不足,本发明提供了一种基于YOLOV5的道路遮挡目标检测算法。通过改进YOLOV5目标检测算法来实现对于道路遮挡目标的有效检测。
为了实现上述目的,本发明采用了以下技术方案:基于YOLOV5的道路遮挡目标检测方法,其包括以下顺序的步骤:
S1.构建道路目标数据集,并将数据集划分为训练集、验证集和测试集;
S2.通过Mixup数据增强方法对道路目标训练集进行处理,丰富道路遮挡目标训练样本数;
S3.构建改进的YOLOV5遮挡目标检测模型;
S4.将步骤S2中的训练数据输入到步骤S3模型中进行训练;
S5.将测试集的图像输入到步骤S4训练好的模型中进行检测,输出检测结果即图像中目标的边界框位置参数以及目标类别信息。
进一步的步骤S1具体包括以下步骤:
S1.1:采集道路目标图片,采集途径可为行车记录仪或移动相机,构建用于模型训练的数据集;
S1.2:使用LabelImg软件对步骤S1.1中的图片进行标注,标注格式为Pascal VOC,即后缀为.xml格式标签文件。并按照8:1:1的比例将其划分为训练集、验证集和测试集。
进一步的,所述的步骤S2具体包括:
S2.1:将训练数据集转为为RGB格式图像,同时将图像调整到模型所需的统一大小,如640×640;
S2.2:通过Mixup数据增强方法对步骤S2.1中的训练数据进行数据增强处理。
进一步的,所述的步骤S3具体包括以下步骤:
S3.1:优化YOLOV5的主干网络,具体为利用可变形卷积DCNv2(DeformableConvolutionNetworks v2)来改进YOLOV5的CSPLayer模块中的普通卷积;
S3.2:在优化的YOLOV5的三个有效特征层之间添加利用空洞卷积设计的感受野增强模块RFEM(Receptive field enhancement module),构建优化的路径聚合网络PANet;
S3.3:利用EIOU判别方法和柔性非极大抑制算法对YOLOV5的预测后处理阶段进行优化。
进一步的,步骤S4具体包括以下步骤:
S4.1:配置模型的训练环境;
S4.2:设置模型训练参数,具体包括:
设定模型训练的优化器为SGD,初始学习率设置为0.001,训练过程中的最小学习率为初始学习率的0.1倍,训练策略为冻结训练。训练损失函数包括置信度损失函数、分类损失函数和预测框回归损失函数。其中置信度损失函数和分类损失函数为交叉熵损失函数,回归框损失函数为GIOU损失函数。
具体的,置信度损失函数数学表达式如下:
其中,S表示当前特征图的尺寸;M表示特征图上每个特征点上锚框的数目;为真实的置信度参数,当预测框包含物体时为1,否则为0;Ci为预测值;λnoobj表示负样本的边界框值,默认为0.5。
分类置信度损失函数的数学表达式如下:
其中,当第j个锚框为1时,该锚框所产生的边界框才会计算分类损失;Pi(c)为类别c的预测概率值;/>为1或0,为1时表示该边界框用于检测物体。
回归框损失函数GIOU损失函数的数学表达式如下:
其中,A为预测框,B为真实框;C表示能够同时包围A、B的最小外接矩形面积。
步骤S4.3:利用S2.2增强后的训练数据对S3中的模型进行训练并利用训练中的模型对验证集图像进行测试,当验证集的精度与损失函数均趋于不变时,得到训练好的模型。
进一步的,本发明所述的步骤S5过程为测试集图片输入到已经训练好的优化的YOLOV5模型中,首先模型会将待检测图片调整到统一尺寸,如果待检测图片尺寸小于设定尺寸,则将待检测图片周边添加灰条,如果大于设定尺寸,则对待检测图片进行压缩。模型的输出将会得到三种尺寸的检测结果,其尺度分别为(20×20)、(40×40)和(80×80),模型最终对三个尺度的检测结果进行融合得到数量为[(20×20)+(40×40)+(80×80)]×3的预测候选框,即25200个。假设需要检测的道路目标有10个类别,则训练后的道路目标检测模型会将输出的结果表示为二维向量(25200,15)。其中的15包括了目标类别数10,检测框的位置参数(x,y,w,h)以及1个置信度参数。随后将通过优化的非极大抑制算法过滤预测值低于设定阈值的检测框,保留下来的检测框即为最终的检测结果。
有益效果:
(1)本发明通过数据增强方法,能够有效的丰富训练样本背景多样性,提高模型的泛化能力;
(2)本发明通过使用可变形卷积对YOLOV5的主干网络进行优化,可提高其对于遮挡环境下物体形变、截断等的特征提取能力,提升遮挡目标检测精度;
(3)本发明通过利用空洞卷积设计的感受野增强模块RFEM,可更好的学习被遮挡目标与周围环境的关系,提高遮挡目标的特征表达能力;
(4)本发明通过将EIOU评价方法和柔性非极大抑制算法结合来优化模型的预测后处理,可避免密集遮挡条件下预测框被错误抑制的问题,降低遮挡目标的漏检率。
附图说明
为了更加清晰的阐述本发明的目的,技术方案以及优点,下面将结合附图对本发明作详细的描述。
图1为本发明方法流程图;
图2为Mixup数据增强示意图;
图3为可变形卷积DCNv2的示意图
图4为利用可变形卷积DCNv2改进的主干网络示意图;
图5为本发明的感受野增强模块RFEM结构示意图;
图6为本发明所述的改进的YOLOV5整体结构示意图。
具体实施方式
以下将结合附图,对本发明的优选实例进行详细的描述。所述实例仅为本发明部分实例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于改进YOLOV5的道路遮挡目标检测方法,该方法包括下列顺序步骤:
步骤S1、构建道路目标数据集,并将数据集划分为训练集、验证集和测试集。其中数据集图片的获取方式可通过行车记录仪或车载摄像头,随后使用LabelImg软件对采集到的图像进行标注,标注的格式为Pascal VOC格式,即标注文件以.xml为后缀;
步骤S2、通过Mixup数据增强方法对训练集进行处理,丰富道路遮挡目标训练样本数;
步骤S3、构建改进的YOLOV5遮挡目标检测模型;
步骤S4、将步骤S2中增强后的训练集输入到S3中的模型中进行训练,利用反向传播来对模型参数进行更新;
步骤S5、将测试集的图像输入到S4已经训练好的改进的YOLOV5模型中进行检测,输出的检测结果即图像中目标的边界框位置信息以及目标的类别信息。
本发明中,所述的步骤S1具体包括了:
将获取到的行车场景数据集进行预处理;首先通过LabelImg软件对数据集图片进行标注,将小汽车,卡车和货车等常见汽车标注为‘Car’;将行人标注为‘Pedestrian’;将骑行自行车,摩托车的目标标注为‘Cyclist’。标注文件用Pascal VOC格式保存,即标注文件后缀为‘.xml’。将标注好的图片以及标注文件按照VOC格式路径放置,同时对数据集进行训练集、验证集与测试集划分,划分比例为8:1:1。
本发明中,所述的步骤S2的数据增强示例如图2所示,Mixup数据增强方法可用如下两式描述:
其中,xi和xj表示增强前的图像;yi与yj为对应的标签;和/>分别为增强后的图像和标签;λ取值为0到1之间的小数。
本发明中,所述的步骤S3,构建改进的YOLOV5遮挡目标检测模型具体包括以下部分:
如图3为可变形卷积的示意图。实际的遮挡环境中,物体可用特征大多呈现截断和形变的特点,而可变形卷积DCNv2由于可调节卷积核参数矩阵的位置,因此使用可变形卷积DCNv2可以增强模型对于几何形变程度大的物体的识别能力。可变形卷积DCNv2提取物体特征的方式如下:
式中,x(p)和y(p)分别表示输入特征图x和输出特征图y中位置p处的特征;K表示卷积核的采样位置个数;wk与pk分别表示第k个采样位置的权重和预先指定的偏移量;Δpk和Δmk分别表示第k个采样位置的可学习偏移量和调制标量。
如图4为本发明利用可变形卷积DCNv2优化的主干网络示意图。本发明将可变形卷积DCNv2引入到YOLOV5的主干网络中,由于1×1的可变形卷积并不具有偏移参数的学习能力,所有本发明中使用3×3的可变形卷积来优化YOLOV5的主干网络。优化后的主干网络由Focus模块、CBS层、CSPDLayer层以及SPP层堆叠得到,其中的CSPDLayer为使用可变形卷积DCNv2优化的卷积层。
如图5为本发明所述的感受野增强模块RFEM模块。RFEM模块由3个部分组成,第一个部分为多尺度的空洞卷积;第二个部分为ECA注意力机制;第三个部分为普通的1×1卷积。本发明中,构成多尺度空洞卷积的空洞率分别为1、2、3和4,对应的感受野计算方式如下:
RF=d×(k-1)+1
其中,RF指感受野大小;d为空洞卷积的空洞率;k为卷积核的尺寸。此外,本发明设置的各空洞卷积的个数均为输入特征图的1/4,在第一个部分的输出阶段,RFEM模块同时对输入特征图以及多尺度的空洞卷积输出的特征图进行融合,假设输入的特征图表示为F,则RFEM的第一个部分输出特征图用下式表示:
F1=Concat([F,DCd=1(F),DCd=2(F),DCd=3(F),DCd=4(F)])
其中,F1为输出的特征图;Concat表示按照通道方向拼接;DC()表示空洞卷积。
RFEM的第二个部分为ECA注意力机制,用于增强通道关联性,抑制无用的通道信息。其首先对输入的特征图做全局平均池化处理,然后再利用自适应一维卷积来提取通道维度信息,随后又利用Sigmoid激活函数来对提取到的通道信息进行归一化处理以得到通道注意力权值向量,最后再用得到的注意力权值向量对输入特征图进行加权并作为下一层的输入。其ECA处理的过程描述为下式:
其中,F2表示ECA输出的特征图;AConv1D为自适应一维卷积,其卷积核大小为k;GAP表示全局平均池化。其中AConv1D的卷积核大小k用下式确定:
其中,C表示输入特征图的通道数;||odd表示k只能向下取奇数;γ和b为常数,默认分别取2和1。
RFEM的第三个部分使用1×1大小的普通卷积来调整通道数。本发明中,RFEM的前两个部分将输入的特征图扩张到了原来的两倍,此处,为了维持输入特征图的通道数不变,RFEM的第三个部分则使用1×1的普通卷积来将特征图的通道数还原到输入前的大小,以便于将RFEM集成到YOLOV5中。
如图6为本发明的基于改进YOLOV5的道路遮挡目标检测模型的总体结构。在模型预测输出的后处理阶段,本发明结合使用EIOU评价方法和柔性非极大抑制算法来抑制冗余的边界框,本发明中其为Soft-EIOU-NMS算法。Soft-EIOU-NMS算法通过利用EIOU方法来区分冗余的预测框,同时利用柔性非极大抑制算法Soft-NMS来更新置信度分数。其中,置信度分数由下式更新得到:
其中,si为置信度分数;M为基准预测框,即当前置信度分数值最大的预测框;bi为剩余的其他预测框。f()为高斯函数,其表达式为:
其中,σ为常数。EIOU的计算方式如下:
其中,ρ2(·)表示计算中心点欧式距离;c为M和bi的最小外接矩形的对角线长度;w为M的宽;wi为bi的宽;h为M的高;hi为bi的高;cw为最小外接矩形的宽;ch为最小外接矩形的高。IOU为基准框与剩余的预测框的面积交并比,其表达式如下:
具体的本发明所述的Soft-EIOU-NMS算法其具体过程如下表:
本发明中,所述的步骤S4,将步骤S2中增强后的训练集输入到S3中的模型中进行训练,利用方向传播来对模型参数进行更新。其具体指:
S4.1:配置模型的训练环境;
S4.2:设置模型训练参数,具体包括:
设定模型训练的优化器为SGD,初始学习率设置为0.001,训练过程中的最小学习率为初始学习率的0.1倍,训练策略为冻结训练。训练损失函数包括置信度损失函数、分类损失函数和预测框回归损失函数。其中置信度损失函数和分类损失函数为交叉熵损失函数,回归框损失函数为GIOU损失函数。
具体的,置信度损失函数数学表达式如下:
其中,S表示当前特征图的尺寸;M表示特征图上每个特征点上锚框的数目;为真实的置信度参数,当预测框包含物体时为1,否则为0;Ci为预测值;λnoobj表示负样本的边界框值,默认为0.5。
分类置信度损失函数的数学表达式如下:
其中,当第j个锚框为1时,该锚框所产生的边界框才会计算分类损失;Pi(c)为类别c的预测概率值;/>为1或0,为1时表示该边界框用于检测物体。
回归框损失函数GIOU损失函数的数学表达式如下:
其中,A为预测框,B为真实框;C表示能够同时包围A、B的最小面积。
步骤S4.3:利用S2增强后的训练数据对S3中的模型进行训练并利用训练中的模型对验证集图像进行测试,当验证集的精度与损失函数均趋于不变时,得到训练好的模型。
本发明中,步骤S5,将测试集的图像输入到S4已经训练好的改进的YOLOV5模型中进行检测,其具体是指:
将测试集图片输入到已经训练好的优化的YOLOV5模型中,首先模型会将待检测图片调整到统一尺寸,如果待检测图片尺寸小于设定尺寸,则将待检测图片周边添加灰条,如果大于设定尺寸,则对待检测图片进行压缩。模型的输出将会得到三种尺寸的检测结果,其尺度分别为(20×20)、(40×40)和(80×80),模型最终对三个尺度的检测结果进行融合得到数量为[(20×20)+(40×40)+(80×80)]×3的预测候选框,即25200个。假设需要检测的道路目标有10个类别,则训练后的道路目标检测模型会将输出的结果表示为二维向量(25200,15)。其中的15包括了目标类别数10,检测框的位置参数(x,y,w,h)以及1个置信度分数。随后将通过soft-EIOU-NMS算法来抑制冗余的检测框,保留下来的检测框即为最终的检测结果。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于改进YOLOV5的道路遮挡目标检测方法,其特征在于:该方法包括以下步骤:
S1、构建道路目标数据集,并将数据集划分为训练集、验证集和测试集;
S2、通过Mixup数据增强方法对道路目标训练集进行处理,丰富道路遮挡目标训练样本数;
S3、构建改进YOLOV5遮挡目标检测模型;
S4、将步骤S2中的训练数据输入到步骤S3模型中进行训练;
S5、将测试集的图像输入到步骤S4训练好的模型中进行检测,输出检测检测结果。
2.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法,其特征在于:所述步骤S1中,具体包括:
步骤S1.1、采集道路目标图片,采集途径可为行车记录仪或移动相机,构建用于模型训练的数据集;
步骤S1.2、使用LabelImg软件对步骤S1.1中的图片进行标注,标注格式为Pascal VOC,即后缀为.xml格式标签文件。并按照8:1:1的比例将其划分为训练集、验证集和测试集。
3.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法,其特征在于:所述的步骤S2中,通过Mixup数据增强方法对道路目标训练集进行处理,丰富道路遮挡目标训练样本数,具体包括如下内容:
步骤S2.1、将训练数据集转为为RGB格式图像,同时将图像调整到模型所需的统一大小,如640×640;
步骤S2.2、通过Mixup数据增强方法对步骤S2.1中的训练数据进行数据增强处理。记xi和xj分别表示增强之前的两个图像;yi和yj分别为两图像标签;Mixup数据增强后的图像和标签/>可用如下两式描述:
4.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法,其特征在于:所述的步骤S3中,构建改进YOLOV5遮挡目标检测模型,包括以下步骤:
步骤S3.1、优化YOLOV5的主干网络,具体为利用可变形卷积DCNv2来改进YOLOV5的CSPLayer模块中的普通卷积,其中具体是使用3×3的可变形卷积来优化YOLOV5的主干网络。优化后的主干网络由Focus模块、CBS层、CSPDLayer层以及SPP层堆叠得到,其中的CSPDLayer为使用可变形卷积DCNv2优化的卷积层。
步骤S3.2、在优化的YOLOV5的三个有效特征层之间添加利用空洞卷积设计的感受野增强模块RFEM(Receptive field enhancement module),构建优化的路径聚合网络PANet。具体的RFEM包括3个部分,第一个部分为多尺度的空洞卷积;第二个部分为ECA注意力机制;第三个部分为普通的1×1卷积。本发明中,构成多尺度空洞卷积的空洞率分别为1、2、3和4。假设输入的特征图表示为F,利用Concat对第一个部分的特征图进行融合,DC表示空洞卷积,则RFEM的第一个部分输出特征图F1用下式表示:
F1=Concat([F,DCd=1(F),DCd=2(F),DCd=3(F),DCd=4(F)])
第二个部分首先对输入的特征图做全局平均池化GAP处理,然后再利用自适应一维卷积AConv1D来提取通道维度信息,随后又利用Sigmoid激活函数来对提取到的通道信息进行归一化处理以得到通道注意力权值向量,最后再用得到的注意力权值向量对输入特征图进行加权并作为下一层的输入。第二个部分的输出特征图F2描述为下式:
第三个部分使用1×1大小的普通卷积来调整通道数。本发明中,RFEM的前两个部分将输入的特征图扩张到了原来的两倍,此处,为了维持输入特征图的通道数不变,RFEM的第三个部分则使用1×1的普通卷积来将特征图的通道数还原到输入前的大小。
步骤S3.3、利用EIOU判别方法和软非极大抑制算法对YOLOV5的预测后处理阶段进行优化。
5.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法,其特征在于:所述的步骤S4中,将步骤S2中的训练数据输入到步骤S3模型中进行训练,具体包括以下步骤:
步骤S4.1、配置模型的训练环境;
步骤S4.2、设置模型训练参数,具体包括:
设定模型训练的优化器为SGD,初始学习率设置为0.001,训练过程中的最小学习率为初始学习率的0.1倍,训练策略为冻结训练。训练损失函数包括置信度损失函数、分类损失函数和预测框回归损失函数。其中置信度损失函数和分类损失函数为交叉熵损失函数,回归框损失函数为GIOU损失函数。
6.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法,其特征在于:所述的步骤S5中,将测试集的图像输入到步骤S4训练好的模型中进行检测,输出检测检测结果,具体包括以下内容:
将测试集图片输入到已经训练好的优化的YOLOV5模型中,首先模型会将待检测图片调整到统一尺寸,如果待检测图片尺寸小于设定尺寸,则将待检测图片周边添加灰条,如果大于设定尺寸,则对待检测图片进行压缩。模型的输出将会得到三种尺寸的检测结果,其尺度分别为(20×20)、(40×40)和(80×80),模型最终对三个尺度的检测结果进行融合得到数量为[(20×20)+(40×40)+(80×80)]×3的预测候选框,即25200个。假设需要检测的道路目标有10个类别,则训练后的道路目标检测模型会将输出的结果表示为二维向量(25200,15)。其中的15包括了目标类别数10,检测框的位置参数(x,y,w,h)以及1个置信度参数。随后将通过优化的非极大抑制算法过滤预测值低于设定阈值的检测框,保留下来的检测框即为最终的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310423047.8A CN116630932A (zh) | 2023-04-20 | 2023-04-20 | 一种基于改进yolov5的道路遮挡目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310423047.8A CN116630932A (zh) | 2023-04-20 | 2023-04-20 | 一种基于改进yolov5的道路遮挡目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630932A true CN116630932A (zh) | 2023-08-22 |
Family
ID=87596348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310423047.8A Pending CN116630932A (zh) | 2023-04-20 | 2023-04-20 | 一种基于改进yolov5的道路遮挡目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630932A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132943A (zh) * | 2023-10-20 | 2023-11-28 | 南京信息工程大学 | 一种安全帽佩戴检测方法、装置、***及存储介质 |
CN117611998A (zh) * | 2023-11-22 | 2024-02-27 | 盐城工学院 | 一种基于改进YOLOv7的光学遥感图像目标检测方法 |
-
2023
- 2023-04-20 CN CN202310423047.8A patent/CN116630932A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132943A (zh) * | 2023-10-20 | 2023-11-28 | 南京信息工程大学 | 一种安全帽佩戴检测方法、装置、***及存储介质 |
CN117611998A (zh) * | 2023-11-22 | 2024-02-27 | 盐城工学院 | 一种基于改进YOLOv7的光学遥感图像目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及*** | |
CN111814623A (zh) | 一种基于深度神经网络的车辆车道偏离视觉检测方法 | |
CN111461083A (zh) | 基于深度学习的快速车辆检测方法 | |
CN116630932A (zh) | 一种基于改进yolov5的道路遮挡目标检测方法 | |
CN107273832B (zh) | 基于积分通道特征与卷积神经网络的车牌识别方法及*** | |
CN110826558B (zh) | 图像分类方法、计算机设备和存储介质 | |
CN114565770B (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及*** | |
CN113762209A (zh) | 一种基于yolo的多尺度并行特征融合路标检测方法 | |
CN111898432A (zh) | 一种基于改进YOLOv3算法的行人检测***及方法 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN115082672A (zh) | 一种基于边界框回归的红外图像目标检测方法 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN115115973A (zh) | 一种基于多感受野与深度特征的弱小目标检测方法 | |
CN113963333B (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及*** | |
CN111160282B (zh) | 一种基于二值化Yolov3网络的红绿灯检测方法 | |
CN117409244A (zh) | 一种SCKConv多尺度特征融合增强的低照度小目标检测方法 | |
CN110555425A (zh) | 一种视频流实时行人检测方法 | |
CN116630702A (zh) | 一种基于语义分割网络的路面附着系数预测方法 | |
CN116311154A (zh) | 一种基于YOLOv5模型优化的车辆检测与识别方法 | |
CN115240163A (zh) | 一种基于一阶段检测网络的交通标志检测方法及*** | |
CN114463732A (zh) | 一种基于知识蒸馏的场景文本检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |