CN116630932A

CN116630932A - 一种基于改进yolov5的道路遮挡目标检测方法

Info

Publication number: CN116630932A
Application number: CN202310423047.8A
Authority: CN
Inventors: 熊炫睿; 徐稳; 张宇樊; 方海领; 林为琴; 陈怡�
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-08-22

Abstract

本发明属于道路目标检测领域，具体是一种基于改进YOLOV5的道路遮挡目标检测方法。该方法包括以下步骤：S1)构建道路目标数据集，并将数据集划分为训练集、验证集和测试集；S2)通过Mixup数据增强方法对道路目标训练集进行处理，丰富道路遮挡目标训练样本数；S3)构建改进的YOLOV5遮挡目标检测模型；S4)将步骤S2中的训练数据输入到步骤S3模型中进行训练；S5)将测试集的图像输入到步骤S4训练好的模型中进行检测，输出检测结果即图像中目标的边界框位置参数以及目标类别信息。本发明对于道路密集遮挡条件下的目标检测精度提升较高，可降低道路目标之间由于排列密集导致的漏检率。

Description

一种基于改进YOLOV5的道路遮挡目标检测方法

技术领域

本发明属于道路目标检测领域，具体是一种基于改进YOLOV5的道路遮挡目标检测方法。

背景技术

随着智能辅助驾驶技术以及自动驾驶技术的发展，道路遮挡目标检测变得越来越重要。道路遮挡目标包括树木、灌木、路标、行人、车辆等障碍物，这些物体会妨碍自动驾驶汽车的视野，增加驾驶风险。因此，开发一种高效准确的道路遮挡目标检测技术已成为自动驾驶领域的重要研究方向。当前，道路遮挡目标检测的技术难点主要体现在以下几个方面：

1.遮挡造成的形变：当目标被其他物体遮挡时，其部分区域可能会被遮挡或者变形，从而导致目标的形状和尺寸发生变化，这会对目标检测的精度造成很大的影响；

2.背景的复杂性：当目标被其他物体遮挡时，其周围的背景可能会变得更加复杂，这会对目标检测的精度造成很大的影响。因此，需要在目标检测过程中对背景进行建模和处理；

3.物体的相互遮挡：在实际场景中，不仅会出现目标被其他物体遮挡的情况，还会出现多个物体相互遮挡的情况，这会对目标检测的准确性带来很大的影响；

4.数据集的质量：遮挡目标检测的性能很大程度上取决于训练数据集的质量。由于遮挡目标检测数据集中的目标通常是被遮挡的，因此数据集的标注工作很困难，这会对模型的训练和测试造成很大的困难。

现今的遮挡目标检测技术主要包括了传统的检测算法和基于深度学习的检测算法。传统的道路遮挡目标检测技术主要基于计算机视觉中的物体检测技术，如滑动窗口、HOG、SIFT、SURF等特征提取算法和SVM等分类器。但是，这些技术往往需要手工提取特征，并且存在过拟合、泛化能力不强等问题。深度学习技术的发展为道路遮挡目标检测带来了新的进展，特别是基于卷积神经网络(CNN)的物体检测算法，已经在道路目标检测中得到广泛应用。其中，YOLOV5作为一种新颖的目标检测算法，具有高效、准确的特点。但是，YOLOV5起初只是应用于一般场景下的目标检测技术研究，对于复杂的道路遮挡场景检测其性能还有所欠缺。

综上所述，道路遮挡目标检测技术在自动驾驶、交通管理、安全监控等领域都具有重要意义和价值。其可以帮助汽车及驾驶员更好地了解和掌握道路情况，提高道路安全性和交通效率。

发明内容

为解决现有的目标检测器在道路遮挡场景中的不足，本发明提供了一种基于YOLOV5的道路遮挡目标检测算法。通过改进YOLOV5目标检测算法来实现对于道路遮挡目标的有效检测。

为了实现上述目的，本发明采用了以下技术方案：基于YOLOV5的道路遮挡目标检测方法，其包括以下顺序的步骤：

S1.构建道路目标数据集，并将数据集划分为训练集、验证集和测试集；

S2.通过Mixup数据增强方法对道路目标训练集进行处理，丰富道路遮挡目标训练样本数；

S3.构建改进的YOLOV5遮挡目标检测模型；

S4.将步骤S2中的训练数据输入到步骤S3模型中进行训练；

S5.将测试集的图像输入到步骤S4训练好的模型中进行检测，输出检测结果即图像中目标的边界框位置参数以及目标类别信息。

进一步的步骤S1具体包括以下步骤：

S1.1：采集道路目标图片，采集途径可为行车记录仪或移动相机，构建用于模型训练的数据集；

S1.2：使用LabelImg软件对步骤S1.1中的图片进行标注，标注格式为Pascal VOC，即后缀为.xml格式标签文件。并按照8：1：1的比例将其划分为训练集、验证集和测试集。

进一步的，所述的步骤S2具体包括：

S2.1：将训练数据集转为为RGB格式图像，同时将图像调整到模型所需的统一大小，如640×640；

S2.2：通过Mixup数据增强方法对步骤S2.1中的训练数据进行数据增强处理。

进一步的，所述的步骤S3具体包括以下步骤：

S3.1：优化YOLOV5的主干网络，具体为利用可变形卷积DCNv2(DeformableConvolutionNetworks v2)来改进YOLOV5的CSPLayer模块中的普通卷积；

S3.2：在优化的YOLOV5的三个有效特征层之间添加利用空洞卷积设计的感受野增强模块RFEM(Receptive field enhancement module)，构建优化的路径聚合网络PANet；

S3.3：利用EIOU判别方法和柔性非极大抑制算法对YOLOV5的预测后处理阶段进行优化。

进一步的，步骤S4具体包括以下步骤：

S4.1：配置模型的训练环境；

S4.2：设置模型训练参数，具体包括：

设定模型训练的优化器为SGD，初始学习率设置为0.001，训练过程中的最小学习率为初始学习率的0.1倍，训练策略为冻结训练。训练损失函数包括置信度损失函数、分类损失函数和预测框回归损失函数。其中置信度损失函数和分类损失函数为交叉熵损失函数，回归框损失函数为GIOU损失函数。

具体的，置信度损失函数数学表达式如下：

其中，S表示当前特征图的尺寸；M表示特征图上每个特征点上锚框的数目；为真实的置信度参数，当预测框包含物体时为1，否则为0；C_i为预测值；λ_noobj表示负样本的边界框值，默认为0.5。

分类置信度损失函数的数学表达式如下：

其中，当第j个锚框为1时，该锚框所产生的边界框才会计算分类损失；P_i(c)为类别c的预测概率值；/>为1或0，为1时表示该边界框用于检测物体。

回归框损失函数GIOU损失函数的数学表达式如下：

其中，A为预测框，B为真实框；C表示能够同时包围A、B的最小外接矩形面积。

步骤S4.3：利用S2.2增强后的训练数据对S3中的模型进行训练并利用训练中的模型对验证集图像进行测试，当验证集的精度与损失函数均趋于不变时，得到训练好的模型。

进一步的，本发明所述的步骤S5过程为测试集图片输入到已经训练好的优化的YOLOV5模型中，首先模型会将待检测图片调整到统一尺寸，如果待检测图片尺寸小于设定尺寸，则将待检测图片周边添加灰条，如果大于设定尺寸，则对待检测图片进行压缩。模型的输出将会得到三种尺寸的检测结果，其尺度分别为(20×20)、(40×40)和(80×80)，模型最终对三个尺度的检测结果进行融合得到数量为[(20×20)+(40×40)+(80×80)]×3的预测候选框，即25200个。假设需要检测的道路目标有10个类别，则训练后的道路目标检测模型会将输出的结果表示为二维向量(25200,15)。其中的15包括了目标类别数10，检测框的位置参数(x,y,w,h)以及1个置信度参数。随后将通过优化的非极大抑制算法过滤预测值低于设定阈值的检测框，保留下来的检测框即为最终的检测结果。

有益效果：

(1)本发明通过数据增强方法，能够有效的丰富训练样本背景多样性，提高模型的泛化能力；

(2)本发明通过使用可变形卷积对YOLOV5的主干网络进行优化，可提高其对于遮挡环境下物体形变、截断等的特征提取能力，提升遮挡目标检测精度；

(3)本发明通过利用空洞卷积设计的感受野增强模块RFEM，可更好的学习被遮挡目标与周围环境的关系，提高遮挡目标的特征表达能力；

(4)本发明通过将EIOU评价方法和柔性非极大抑制算法结合来优化模型的预测后处理，可避免密集遮挡条件下预测框被错误抑制的问题，降低遮挡目标的漏检率。

附图说明

为了更加清晰的阐述本发明的目的，技术方案以及优点，下面将结合附图对本发明作详细的描述。

图1为本发明方法流程图；

图2为Mixup数据增强示意图；

图3为可变形卷积DCNv2的示意图

图4为利用可变形卷积DCNv2改进的主干网络示意图；

图5为本发明的感受野增强模块RFEM结构示意图；

图6为本发明所述的改进的YOLOV5整体结构示意图。

具体实施方式

以下将结合附图，对本发明的优选实例进行详细的描述。所述实例仅为本发明部分实例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于改进YOLOV5的道路遮挡目标检测方法，该方法包括下列顺序步骤：

步骤S1、构建道路目标数据集，并将数据集划分为训练集、验证集和测试集。其中数据集图片的获取方式可通过行车记录仪或车载摄像头，随后使用LabelImg软件对采集到的图像进行标注，标注的格式为Pascal VOC格式，即标注文件以.xml为后缀；

步骤S2、通过Mixup数据增强方法对训练集进行处理，丰富道路遮挡目标训练样本数；

步骤S3、构建改进的YOLOV5遮挡目标检测模型；

步骤S4、将步骤S2中增强后的训练集输入到S3中的模型中进行训练，利用反向传播来对模型参数进行更新；

步骤S5、将测试集的图像输入到S4已经训练好的改进的YOLOV5模型中进行检测，输出的检测结果即图像中目标的边界框位置信息以及目标的类别信息。

本发明中，所述的步骤S1具体包括了：

将获取到的行车场景数据集进行预处理；首先通过LabelImg软件对数据集图片进行标注，将小汽车，卡车和货车等常见汽车标注为‘Car’；将行人标注为‘Pedestrian’；将骑行自行车，摩托车的目标标注为‘Cyclist’。标注文件用Pascal VOC格式保存，即标注文件后缀为‘.xml’。将标注好的图片以及标注文件按照VOC格式路径放置，同时对数据集进行训练集、验证集与测试集划分，划分比例为8：1：1。

本发明中，所述的步骤S2的数据增强示例如图2所示，Mixup数据增强方法可用如下两式描述：

其中，x_i和x_j表示增强前的图像；y_i与y_j为对应的标签；和/>分别为增强后的图像和标签；λ取值为0到1之间的小数。

本发明中，所述的步骤S3，构建改进的YOLOV5遮挡目标检测模型具体包括以下部分：

如图3为可变形卷积的示意图。实际的遮挡环境中，物体可用特征大多呈现截断和形变的特点，而可变形卷积DCNv2由于可调节卷积核参数矩阵的位置，因此使用可变形卷积DCNv2可以增强模型对于几何形变程度大的物体的识别能力。可变形卷积DCNv2提取物体特征的方式如下：

式中，x(p)和y(p)分别表示输入特征图x和输出特征图y中位置p处的特征；K表示卷积核的采样位置个数；w_k与p_k分别表示第k个采样位置的权重和预先指定的偏移量；Δp_k和Δm_k分别表示第k个采样位置的可学习偏移量和调制标量。

如图4为本发明利用可变形卷积DCNv2优化的主干网络示意图。本发明将可变形卷积DCNv2引入到YOLOV5的主干网络中，由于1×1的可变形卷积并不具有偏移参数的学习能力，所有本发明中使用3×3的可变形卷积来优化YOLOV5的主干网络。优化后的主干网络由Focus模块、CBS层、CSPDLayer层以及SPP层堆叠得到，其中的CSPDLayer为使用可变形卷积DCNv2优化的卷积层。

如图5为本发明所述的感受野增强模块RFEM模块。RFEM模块由3个部分组成，第一个部分为多尺度的空洞卷积；第二个部分为ECA注意力机制；第三个部分为普通的1×1卷积。本发明中，构成多尺度空洞卷积的空洞率分别为1、2、3和4，对应的感受野计算方式如下：

RF＝d×(k-1)+1

其中，RF指感受野大小；d为空洞卷积的空洞率；k为卷积核的尺寸。此外，本发明设置的各空洞卷积的个数均为输入特征图的1/4，在第一个部分的输出阶段，RFEM模块同时对输入特征图以及多尺度的空洞卷积输出的特征图进行融合，假设输入的特征图表示为F，则RFEM的第一个部分输出特征图用下式表示：

F1＝Concat([F,DC_d＝1(F),DC_d＝2(F),DC_d＝3(F),DC_d＝4(F)])

其中，F1为输出的特征图；Concat表示按照通道方向拼接；DC()表示空洞卷积。

RFEM的第二个部分为ECA注意力机制，用于增强通道关联性，抑制无用的通道信息。其首先对输入的特征图做全局平均池化处理，然后再利用自适应一维卷积来提取通道维度信息，随后又利用Sigmoid激活函数来对提取到的通道信息进行归一化处理以得到通道注意力权值向量，最后再用得到的注意力权值向量对输入特征图进行加权并作为下一层的输入。其ECA处理的过程描述为下式：

其中，F2表示ECA输出的特征图；AConv1D为自适应一维卷积，其卷积核大小为k；GAP表示全局平均池化。其中AConv1D的卷积核大小k用下式确定：

其中，C表示输入特征图的通道数；||_odd表示k只能向下取奇数；γ和b为常数，默认分别取2和1。

RFEM的第三个部分使用1×1大小的普通卷积来调整通道数。本发明中，RFEM的前两个部分将输入的特征图扩张到了原来的两倍，此处，为了维持输入特征图的通道数不变，RFEM的第三个部分则使用1×1的普通卷积来将特征图的通道数还原到输入前的大小，以便于将RFEM集成到YOLOV5中。

如图6为本发明的基于改进YOLOV5的道路遮挡目标检测模型的总体结构。在模型预测输出的后处理阶段，本发明结合使用EIOU评价方法和柔性非极大抑制算法来抑制冗余的边界框，本发明中其为Soft-EIOU-NMS算法。Soft-EIOU-NMS算法通过利用EIOU方法来区分冗余的预测框，同时利用柔性非极大抑制算法Soft-NMS来更新置信度分数。其中，置信度分数由下式更新得到：

其中，s_i为置信度分数；M为基准预测框，即当前置信度分数值最大的预测框；b_i为剩余的其他预测框。f()为高斯函数，其表达式为：

其中，σ为常数。EIOU的计算方式如下：

其中，ρ²(·)表示计算中心点欧式距离；c为M和b_i的最小外接矩形的对角线长度；w为M的宽；w_i为b_i的宽；h为M的高；h_i为b_i的高；c_w为最小外接矩形的宽；c_h为最小外接矩形的高。IOU为基准框与剩余的预测框的面积交并比，其表达式如下：

具体的本发明所述的Soft-EIOU-NMS算法其具体过程如下表：

本发明中，所述的步骤S4，将步骤S2中增强后的训练集输入到S3中的模型中进行训练，利用方向传播来对模型参数进行更新。其具体指：

S4.1：配置模型的训练环境；

S4.2：设置模型训练参数，具体包括：

具体的，置信度损失函数数学表达式如下：

分类置信度损失函数的数学表达式如下：

回归框损失函数GIOU损失函数的数学表达式如下：

其中，A为预测框，B为真实框；C表示能够同时包围A、B的最小面积。

步骤S4.3：利用S2增强后的训练数据对S3中的模型进行训练并利用训练中的模型对验证集图像进行测试，当验证集的精度与损失函数均趋于不变时，得到训练好的模型。

本发明中，步骤S5，将测试集的图像输入到S4已经训练好的改进的YOLOV5模型中进行检测，其具体是指：

将测试集图片输入到已经训练好的优化的YOLOV5模型中，首先模型会将待检测图片调整到统一尺寸，如果待检测图片尺寸小于设定尺寸，则将待检测图片周边添加灰条，如果大于设定尺寸，则对待检测图片进行压缩。模型的输出将会得到三种尺寸的检测结果，其尺度分别为(20×20)、(40×40)和(80×80)，模型最终对三个尺度的检测结果进行融合得到数量为[(20×20)+(40×40)+(80×80)]×3的预测候选框，即25200个。假设需要检测的道路目标有10个类别，则训练后的道路目标检测模型会将输出的结果表示为二维向量(25200,15)。其中的15包括了目标类别数10，检测框的位置参数(x,y,w,h)以及1个置信度分数。随后将通过soft-EIOU-NMS算法来抑制冗余的检测框，保留下来的检测框即为最终的检测结果。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于改进YOLOV5的道路遮挡目标检测方法，其特征在于：该方法包括以下步骤：

S1、构建道路目标数据集，并将数据集划分为训练集、验证集和测试集；

S2、通过Mixup数据增强方法对道路目标训练集进行处理，丰富道路遮挡目标训练样本数；

S3、构建改进YOLOV5遮挡目标检测模型；

S4、将步骤S2中的训练数据输入到步骤S3模型中进行训练；

S5、将测试集的图像输入到步骤S4训练好的模型中进行检测，输出检测检测结果。

2.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法，其特征在于：所述步骤S1中，具体包括：

步骤S1.1、采集道路目标图片，采集途径可为行车记录仪或移动相机，构建用于模型训练的数据集；

步骤S1.2、使用LabelImg软件对步骤S1.1中的图片进行标注，标注格式为Pascal VOC，即后缀为.xml格式标签文件。并按照8：1：1的比例将其划分为训练集、验证集和测试集。

3.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法，其特征在于：所述的步骤S2中，通过Mixup数据增强方法对道路目标训练集进行处理，丰富道路遮挡目标训练样本数，具体包括如下内容：

步骤S2.1、将训练数据集转为为RGB格式图像，同时将图像调整到模型所需的统一大小，如640×640；

步骤S2.2、通过Mixup数据增强方法对步骤S2.1中的训练数据进行数据增强处理。记x_i和x_j分别表示增强之前的两个图像；y_i和y_j分别为两图像标签；Mixup数据增强后的图像和标签/>可用如下两式描述：

4.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法，其特征在于：所述的步骤S3中，构建改进YOLOV5遮挡目标检测模型，包括以下步骤：

步骤S3.1、优化YOLOV5的主干网络，具体为利用可变形卷积DCNv2来改进YOLOV5的CSPLayer模块中的普通卷积，其中具体是使用3×3的可变形卷积来优化YOLOV5的主干网络。优化后的主干网络由Focus模块、CBS层、CSPDLayer层以及SPP层堆叠得到，其中的CSPDLayer为使用可变形卷积DCNv2优化的卷积层。

步骤S3.2、在优化的YOLOV5的三个有效特征层之间添加利用空洞卷积设计的感受野增强模块RFEM(Receptive field enhancement module)，构建优化的路径聚合网络PANet。具体的RFEM包括3个部分，第一个部分为多尺度的空洞卷积；第二个部分为ECA注意力机制；第三个部分为普通的1×1卷积。本发明中，构成多尺度空洞卷积的空洞率分别为1、2、3和4。假设输入的特征图表示为F，利用Concat对第一个部分的特征图进行融合，DC表示空洞卷积，则RFEM的第一个部分输出特征图F1用下式表示：

F1＝Concat([F,DC_d＝1(F),DC_d＝2(F),DC_d＝3(F),DC_d＝4(F)])

第二个部分首先对输入的特征图做全局平均池化GAP处理，然后再利用自适应一维卷积AConv1D来提取通道维度信息，随后又利用Sigmoid激活函数来对提取到的通道信息进行归一化处理以得到通道注意力权值向量，最后再用得到的注意力权值向量对输入特征图进行加权并作为下一层的输入。第二个部分的输出特征图F2描述为下式：

第三个部分使用1×1大小的普通卷积来调整通道数。本发明中，RFEM的前两个部分将输入的特征图扩张到了原来的两倍，此处，为了维持输入特征图的通道数不变，RFEM的第三个部分则使用1×1的普通卷积来将特征图的通道数还原到输入前的大小。

步骤S3.3、利用EIOU判别方法和软非极大抑制算法对YOLOV5的预测后处理阶段进行优化。

5.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法，其特征在于：所述的步骤S4中，将步骤S2中的训练数据输入到步骤S3模型中进行训练，具体包括以下步骤：

步骤S4.1、配置模型的训练环境；

步骤S4.2、设置模型训练参数，具体包括：

6.根据权力要求1所述的一种基于改进YOLOV5的道路遮挡目标检测方法，其特征在于：所述的步骤S5中，将测试集的图像输入到步骤S4训练好的模型中进行检测，输出检测检测结果，具体包括以下内容：

将测试集图片输入到已经训练好的优化的YOLOV5模型中，首先模型会将待检测图片调整到统一尺寸，如果待检测图片尺寸小于设定尺寸，则将待检测图片周边添加灰条，如果大于设定尺寸，则对待检测图片进行压缩。模型的输出将会得到三种尺寸的检测结果，其尺度分别为(20×20)、(40×40)和(80×80)，模型最终对三个尺度的检测结果进行融合得到数量为[(20×20)+(40×40)+(80×80)]×3的预测候选框，即25200个。假设需要检测的道路目标有10个类别，则训练后的道路目标检测模型会将输出的结果表示为二维向量(25200,15)。其中的15包括了目标类别数10，检测框的位置参数(x,y,w,h)以及1个置信度参数。随后将通过优化的非极大抑制算法过滤预测值低于设定阈值的检测框，保留下来的检测框即为最终的检测结果。