CN115731533B

CN115731533B - 一种基于改进YOLOv5的车载目标检测方法

Info

Publication number: CN115731533B
Application number: CN202211506283.8A
Authority: CN
Inventors: 张青春; 蒋方呈; 高峰; 王文聘; 张洪源; 文张源; 张宇
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2024-04-05
Anticipated expiration: 2042-11-29
Also published as: CN115731533A

Abstract

一种基于改进YOLOv5的车载目标检测方法，对Yolov5网络结构进行改进，实现对复杂道路的障碍物检测；具体的操作步骤如下：步骤1：通过摄像头采集车辆前方图像；步骤2：将摄像头采集的视频流分别进行关键帧提取，获取后续模型训练的图片数据集；对采集到的图片数据集进行预处理，并按照合适的比例将图片数据集分为训练集、测试集和验证集；步骤3：配置相关环境，搭建改进的Yolov5网络结构，将处理好的图片训练集、图片测试集和图片验证集放入改进后的Yolov5中进行训练；在训练完成后，得到检测效果最好的best.pt模型；步骤4：将待检测图像放入best.pt模型中，得到检测结果。本发明能在小目标以及在低分辨率的情况下保持较高的识别准确率，提高了目标检测的准确度。

Description

一种基于改进YOLOv5的车载目标检测方法

技术领域

本发明涉及计算机图像处理技术领域，具体涉及一种基于改进YOLOv5的车载目标检测方法。

背景技术

随着物流行业的快速发展，以及人民群众出行需求的快速增长，我国道路交通运输行业正快速发展。随着交通运输行业的高速发展，道路情况的复杂，交通事故发生的频率也越来越高。目前车载障碍物识别***大多采用激光雷达、超声波传感器等；激光雷达、超声波传感器等设备成本较高，计算工作量大，部署、使用不方便。

在目标检测领域中，现在的主流是使用深度学习神经网络，通过训练使网络具备目标识别的能力。目前的主流目标检测网络有两种结构，一种是以YOLO为代表的one-stage类型网络，一种是以Fast-RCNN为代表的two-stage类型网络。two-stage类型网络从输入图像中抽取感兴趣区域，先对目标进行定位，然后抽取每一个感兴趣区域的特征，最后使用一个多分类器来识别每个区域的类别，其检测精度较高但检测速度较慢；one-stage类型网络将定位和分类全部融入一个网络独自完成，大大提高了检测速度，但损失了一部分检测精度。

目前YOLO网络发展趋势较快，在检测速度和准确度上均有较大提升，已不弱于two-stage类型网络。YOLOv5作为当前YOLO网络系列的最新版本,性能较之前版本有明显的提升,但在低分辨率和小目标检测方面仍存在缺陷，在复杂情况下的检测精度容易受到干扰。

发明内容

为了解决上述YOLOv5在低分辨率和小目标检测方面仍存在缺陷，在复杂情况下的检测精度容易受到干扰的问题，本发明提出了一种基于改进YOLOv5的车载目标检测方法，，使用SPD-Conv结构代替原有Conv结构，提升对低分辨率和较小目标识别的精度；能有效的解决上述的技术问题。

本发明通过以下的技术方案实现：

一种基于改进YOLOv5的车载目标检测方法，对Yolov5网络结构进行改进，实现对复杂道路的障碍物检测；具体的操作步骤如下：

步骤1：通过摄像头采集车辆前方图像；

步骤2：将摄像头采集的视频流分别进行关键帧提取，获取后续模型训练的图片数据集；对采集到的图片数据集进行预处理，并按照合适的比例将图片数据集分为训练集、测试集和验证集；

步骤3：配置相关环境，搭建改进的Yolov5网络结构，将处理好的图片训练集、图片测试集和图片验证集放入改进后的Yolov5中进行训练；在训练完成后，得到检测效果最好的best.pt模型；

搭建改进的Yolov5网络结构，是对Yolov5进行改进，对Yolov5的改进点为：将Yolov5的原始颈部网络替换为加权双向金字塔网络BiFPN进行特征提取；在主干网络中引入注意力机制，添加CBAM模块，结合特征通道和特征空间两个维度的注意力机制；使用SPD-Conv模块替换原有CNN模块，获得Yolov5-SPD模块，用于低分辨率和较小目标的处理；使用EIoU损失函数替换原始IoU函数；使用Mish激活函数替换SiLU激活函数；

步骤4：将待检测图像放入best.pt模型中，得到检测结果。

进一步的，步骤3所述的在Yolov5主干网络中引入特征融合颈部网络，加权双向金字塔网络BiFPN进行特征提取，具体的操作方式为：在Yolov5网络的Backbone主干网络引入CBAM卷积注意力模块，CBAM卷积注意力模块将通道注意力机制和空间注意力机制进行结合；Backbone主干网络提取特征，CBAM模块对通道的注意力机制将输入特征层中的单个特征层分别进行全局平均池化和全局最大池化，将单个特征层转换为两个1x1的形式，再对全局平均池化和全局最大池化的结果利用全连接层进行相加，将相加的结果进行sigmoid操作，获得每一个特征通道的权值，利用权值与原特征层相乘，即可获得该通道的特征；

CBAM模块对空间的注意力机制在于对输入特征层上每一个特征点取最大值和平均值，对最大值和平均值进行堆叠，将单个特征层转换为2通道，再利用一次通道数为1的卷积调整通道数，将单个特征层重新转换为1通道，对处理后的特征点进行sigmoid操作，获得每一个特征点的权值，利用权值与原特征层上的特征点相乘，即可获得该特征点的特征；

注意力机制突出特征中的关键部分，同时关注目标的位置信息和语义信息，在Backbone主干网络的底层特征层和高层特征层都引入注意力机制，即在第6层、第11层、第16层、最后一层添加CBAM模块，突出底层和高层特征信息，在Backbone主干网络最后一层引入CBAM模块满足后续Neck瓶颈结构的需求。

进一步的，所述的在Backbone主干网络最后一层引入CBAM模块满足后续Neck瓶颈结构的需求，具体的操作方式为：双向金字塔网络BiFPN对于不同尺度特征引入可学***衡不同尺度地特征信息；即对不同尺度的特征引入一个可学习的权重参数O来控制每层特征的权重，O的具体分配方式为：

其中，w_i为权重通过SiLU激活函数，使其大于等于0；令ε＝0.0001防止数值不稳定；

对于特征层采用加权方式进行特征融合，具体方式为：

其中，P_i ^td为P_i层的中间特性，P_i ^out为P_i层的输出特性，Resize将P_i-1、P_i+1特征层转换为与P_i相同的尺寸。

进一步的，步骤3所述的使用SPD-Conv模块替换原有CNN模块，获得Yolov5-SPD模块；所述的Yolov5-SPD模块包括一个SPD层和一个non-strided convolutio层；SPD层将原始特征图进行下采样，对于某一特征图按比例进行切割，获得一系列的子特征图，将子特征图按通道进行拼接可获得中间特征图，具体方式为：

f_m-1,n-1＝X[scale-1:m:scale,scale-1:n:scale]；

其中，X为原特征图，尺寸为m×n，scale为缩放因子；

所述的non-strided convolutio层使用非跨步卷积的方式尽可能保留用于判别的特征信息，同时控制中间特征图的深度和宽度以满足后续网络深度和宽度的要求；利用Yolov5-SPD模块替换原有CNN用于低分辨率和较小目标的处理，能够提升对低分辨率和较小目标识别的精度。

进一步的，步骤3所述的使用EIoU损失函数替换原始IoU函数，EIoU损失函数中的GIoU能将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值；同时引入Focal Loss，减少与目标框重叠较少的大量锚框对BBox回归的优化贡献，使回归过程更多专注高质量框，具体公式如下：

E_loss＝IoU_loss+dis_loss+asp_loss

其中，dis_loss为中心点损失，asp_loss为长、宽损失，ρ²(b,b^gt)表示预测框和真实框的中心点的欧式距离，ρ²(w,w^gt)、ρ²(h,h^gt)分别表示预测框和真实框的宽和高的欧式距离，c表示同时包含预测框和真实框的最小封闭区域的对角线距离，c_w表示同时包含预测框和真实框的最小封闭区域的宽，c_h表示同时包含预测框和真实框的最小封闭区域的高。

进一步的，步骤3所述的使用Mish激活函数替换SiLU激活函数，所述的Mish激活函数有下界，在负半轴有较小的权重，可以防止出现的神经元坏死现象，同时可以产生更强的正则化效果；保留少量的负信息，避免ReLU的Dying ReLU现象，有利于更好的表达和信息流动；Mish激活函数的具体公式为：

Mish(x)＝x*Tanh(Softplus(x))；

式中，Tanh为双曲正切函数，Softplus是一种激活函数，可以看作是ReLu的平滑。

进一步的，步骤3所述的将处理好的图片训练集、图片测试集和图片验证集放入改进后的Yolov5中进行训练前，需要先设置网络训练参数，具体的操作方式为：设置迭代次数为200，BitchSize为16、初始学习率为0.0001。

进一步的，步骤1所述的通过摄像头采集车辆前方图像，具体的操作方式为：将摄像头安装在车辆顶部，用于采集车辆前方图像；在车辆行驶过程中，摄像头会采集车辆前方的视频流。

进一步的，步骤2所述将摄像头采集的视频流分别进行关键帧提取，是将摄像头采集的的视频流间隔1s抽取当前帧作为关键帧，保存至图片数据集中。

进一步的，步骤2所述的对采集到的图片数据集进行预处理，具体的步骤包括：去掉不包含目标、特征模糊、背景杂乱的图片；再对筛选后的图片进行标注，对图片上需检测的目标，如涵洞、限高杆、树木等障碍物使用矩形框进行标注，并记录目标的名称以及矩形框的坐标，生成.txt文件进行保存；最后按照7:2:1的比例将图片数据集分为训练集、测试集、验证集。

有益效果

本发明提出的一种基于改进YOLOv5的车载目标检测方法，与现有技术相比较，其具有以下有益效果：

(1)本技术方案通过车载摄像头、嵌入式设备直接搭载在车辆上，不需要额外硬件,节省硬件成本；通过摄像头采集车辆前方图像，将图像输入模型，判断车辆前方是否存在某种障碍物，达到对车辆道路状况监控的目的。另外，将Yolov5的原始颈部网络替换为加权双向金字塔网络BiFPN进行特征提取；在主干网络中引入注意力机制，添加CBAM模块，结合特征通道和特征空间两个维度的注意力机制；使用SPD-Conv模块替换原有CNN模块，获得Yolov5-SPD模块，用于低分辨率和较小目标的处理提升对低分辨率和较小目标识别的精度；使用EIoU损失函数替换原始IoU函数；损失函数采用EIoU，可以更有效的计算出预测框和真实框的差距，提升模型的精度。

(2)本技术方案在neck端引入改进后的BiFPN双向加权金字塔网络，对于不同尺度特征引入可学***衡不同尺度地特征信息，使用Mish激活函数替换SiLU激活函数，避免了ReLU的Dying ReLU现象，这有利于更好的表达和信息流动。

(3)本技术方案用EIoU损失函数替换原始IoU函数，优化了边界框回归任务中的样本不平衡问题，即减少与目标框重叠较少的大量锚框对BBox回归的优化贡献，使回归过程更多专注高质量框。

附图说明

图1为本发明的整体流程示意图。

图2为本发明中改进后的YOLOv5网络架构图。

图3为本发明中CBAM注意力模块示意图。

图4为本发明中BiFPN网络架构图。

图5为本发明中Yolov5-SPD模块示意图图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

如图1-5所示，一种基于改进YOLOv5的车载目标检测方法，对Yolov5网络结构进行改进，实现对复杂道路的障碍物检测；具体的操作步骤如下：

步骤1：通过摄像头采集车辆前方图像；

将摄像头安装在车辆顶部，用于采集车辆前方图像；在车辆行驶过程中，摄像头会采集车辆前方的视频流。

步骤2：将摄像头采集的视频流分别进行关键帧提取，即将摄像头采集的的视频流间隔1s抽取当前帧作为关键帧，保存至图片数据集中。获取后续模型训练的图片数据集；对采集到的图片数据集进行预处理，去掉不包含目标、特征模糊、背景杂乱的图片；再对筛选后的图片进行标注，对图片上需检测的目标，如涵洞、限高杆、树木等障碍物使用矩形框进行标注，并记录目标的名称以及矩形框的坐标，生成.txt文件进行保存；最后按照7:2:1的比例将图片数据集分为训练集、测试集、验证集。

步骤3：配置相关环境，搭建改进的Yolov5网络结构，将处理好的图片训练集、图片测试集和图片验证集放入改进后的Yolov5中进行训练；在训练完成后，得到检测效果最好的best.pt模型；具体包括以下步骤：

第一步：搭建改进的Yolov5网络结构，是对Yolov5进行改进，对Yolov5的改进点为：将Yolov5的原始颈部网络替换为加权双向金字塔网络BiFPN进行特征提取。

在Yolov5网络的Backbone主干网络引入CBAM卷积注意力模块，CBAM卷积注意力模块将通道注意力机制和空间注意力机制进行结合；Backbone主干网络提取特征，CBAM模块对通道的注意力机制将输入特征层中的单个特征层分别进行全局平均池化和全局最大池化，将单个特征层转换为两个1x1的形式，再对全局平均池化和全局最大池化的结果利用全连接层进行相加，将相加的结果进行sigmoid操作，获得每一个特征通道的权值，利用权值与原特征层相乘，即可获得该通道的特征。

CBAM模块对空间的注意力机制在于对输入特征层上每一个特征点取最大值和平均值，对最大值和平均值进行堆叠，将单个特征层转换为2通道，再利用一次通道数为1的卷积调整通道数，将单个特征层重新转换为1通道，对处理后的特征点进行sigmoid操作，获得每一个特征点的权值，利用权值与原特征层上的特征点相乘，即可获得该特征点的特征。

第二步：在主干网络中引入注意力机制，添加CBAM模块，结合特征通道和特征空间两个维度的注意力机制；在Backbone主干网络最后一层引入CBAM模块满足后续Neck瓶颈结构的需求，双向金字塔网络BiFPN对于不同尺度特征引入可学***衡不同尺度地特征信息；即对不同尺度的特征引入一个可学习的权重参数O来控制每层特征的权重，O的具体分配方式为：

对于特征层采用加权方式进行特征融合，具体方式为：

第三步：使用SPD-Conv模块替换原有CNN模块，获得Yolov5-SPD模块，用于低分辨率和较小目标的处理；所述的Yolov5-SPD模块包括一个SPD层和一个non-stridedconvolutio层；SPD层将原始特征图进行下采样，对于某一特征图按比例进行切割，获得一系列的子特征图，将子特征图按通道进行拼接可获得中间特征图，具体方式为：

f_m-1,n-1＝X[scale-1:m:scale,scale-1:n:scale]；

其中，X为原特征图，尺寸为m×n，scale为缩放因子；

第四步：使用EIoU损失函数替换原始IoU函数；EIoU损失函数中的GIoU能将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值；同时引入Focal Loss，减少与目标框重叠较少的大量锚框对BBox回归的优化贡献，使回归过程更多专注高质量框，具体公式如下：

E_loss＝IoU_loss+dis_loss+asp_loss

第五步：使用Mish激活函数替换SiLU激活函数；所述的Mish激活函数有下界，在负半轴有较小的权重，可以防止出现的神经元坏死现象，同时可以产生更强的正则化效果；保留少量的负信息，避免ReLU的Dying ReLU现象，有利于更好的表达和信息流动；Mish激活函数的具体公式为：

Mish(x)＝x*Tanh(Softplus(x))；

第六步：将处理好的图片训练集、图片测试集和图片验证集放入改进后的Yolov5中进行训练前，需要先设置网络训练参数，具体的操作方式为：设置迭代次数为200，BitchSize为16、初始学习率为0.0001。

步骤4：将待检测图像放入best.pt模型中，得到检测结果。

Claims

1.一种基于改进YOLOv5的车载目标检测方法，对Yolov5网络结构进行改进，实现对复杂道路的障碍物检测；具体的操作步骤如下：

步骤1：通过摄像头采集车辆前方图像；

搭建改进的Yolov5网络结构，是对Yolov5进行改进，对Yolov5的改进点为：

首先，将Yolov5的原始颈部网络替换为加权双向金字塔网络BiFPN进行特征提取；在主干网络中引入注意力机制，添加CBAM模块，结合特征通道和特征空间两个维度的注意力机制；在Yolov5主干网络中引入特征融合颈部网络，加权双向金字塔网络BiFPN进行特征提取，具体的操作方式为：

在Yolov5网络的Backbone主干网络引入CBAM卷积注意力模块，CBAM卷积注意力模块将通道注意力机制和空间注意力机制进行结合；Backbone主干网络提取特征，CBAM模块对通道的注意力机制将输入特征层中的单个特征层分别进行全局平均池化和全局最大池化，将单个特征层转换为两个1x1的形式，再对全局平均池化和全局最大池化的结果利用全连接层进行相加，将相加的结果进行sigmoid操作，获得每一个特征通道的权值，利用权值与原特征层相乘，即可获得该通道的特征；

注意力机制突出特征中的关键部分，同时关注目标的位置信息和语义信息，在Backbone主干网络的底层特征层和高层特征层都引入注意力机制，即在第6层、第11层、第16层、最后一层添加CBAM模块，突出底层和高层特征信息，在Backbone主干网络最后一层引入CBAM模块满足后续Neck瓶颈结构的需求，具体的操作方式为：双向金字塔网络BiFPN对于不同尺度特征引入可学***衡不同尺度地特征信息；即对不同尺度的特征引入一个可学习的权重参数O来控制每层特征的权重，O的具体分配方式为：

对于特征层采用加权方式进行特征融合，具体方式为：

其中，P_i ^td为P_i层的中间特性，P_i ^out为P_i层的输出特性，Resize将P_i-1、P_i+1特征层转换为与P_i相同的尺寸；

其次，使用SPD-Conv模块替换原有CNN模块，获得Yolov5-SPD模块，所述的Yolov5-SPD模块包括一个SPD层和一个non-strided convolutio层；SPD层将原始特征图进行下采样，对于某一特征图按比例进行切割，获得一系列的子特征图，将子特征图按通道进行拼接可获得中间特征图，具体方式为：

f_m-1,n-1＝X[scale-1:m:scale,scale-1:n:scale]；

其中，X为原特征图，尺寸为m×n，scale为缩放因子；

所述的non-strided convolutio层使用非跨步卷积的方式尽可能保留用于判别的特征信息，同时控制中间特征图的深度和宽度以满足后续网络深度和宽度的要求；利用Yolov5-SPD模块替换原有CNN用于低分辨率和较小目标的处理，能够提升对低分辨率和较小目标识别的精度；

然后，使用EIoU损失函数替换原始IoU函数；EIoU损失函数中的GIoU能将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值；同时引入Focal Loss，减少与目标框重叠较少的大量锚框对BBox回归的优化贡献，使回归过程更多专注高质量框，具体公式如下：

E_loss＝IoU_loss+dis_loss+asp_loss

其中，dis_loss为中心点损失，asp_loss为长、宽损失，ρ²(b,b^gt)表示预测框和真实框的中心点的欧式距离，ρ²(w,w^gt)、ρ²(h,h^gt)分别表示预测框和真实框的宽和高的欧式距离，c表示同时包含预测框和真实框的最小封闭区域的对角线距离，c_w表示同时包含预测框和真实框的最小封闭区域的宽，c_h表示同时包含预测框和真实框的最小封闭区域的高；

最后，使用Mish激活函数替换SiLU激活函数；所述的Mish激活函数有下界，在负半轴有较小的权重，可以防止出现的神经元坏死现象，同时可以产生更强的正则化效果；保留少量的负信息，避免ReLU的Dying ReLU现象，有利于更好的表达和信息流动；Mish激活函数的具体公式为：

Mish(x)＝x*Tanh(Softplus(x))；

式中，Tanh为双曲正切函数，Softplus是一种激活函数，可以看作是ReLu的平滑；

步骤4：将待检测图像放入best.pt模型中，得到检测结果。

2.根据权利要求1所述的一种基于改进YOLOv5的车载目标检测方法，其特征在于：步骤3所述的将处理好的图片训练集、图片测试集和图片验证集放入改进后的Yolov5中进行训练前，需要先设置网络训练参数，具体的操作方式为：设置迭代次数为200，BitchSize为16、初始学习率为0.0001。

3.根据权利要求1所述的一种基于改进YOLOv5的车载目标检测方法，其特征在于：步骤1所述的通过摄像头采集车辆前方图像，具体的操作方式为：将摄像头安装在车辆顶部，用于采集车辆前方图像；在车辆行驶过程中，摄像头会采集车辆前方的视频流。

4.根据权利要求1所述的一种基于改进YOLOv5的车载目标检测方法，其特征在于：步骤2所述将摄像头采集的视频流分别进行关键帧提取，是将摄像头采集的的视频流间隔1s抽取当前帧作为关键帧，保存至图片数据集中。

5.根据权利要求1所述的一种基于改进YOLOv5的车载目标检测方法，其特征在于：步骤2所述的对采集到的图片数据集进行预处理，具体的步骤包括：去掉不包含目标、特征模糊、背景杂乱的图片；再对筛选后的图片进行标注，对图片上需检测的目标，如涵洞、限高杆、树木等障碍物使用矩形框进行标注，并记录目标的名称以及矩形框的坐标，生成.txt文件进行保存；最后按照7:2:1的比例将图片数据集分为训练集、测试集、验证集。