CN116844126A

CN116844126A - 一种基于YOLOv7改进的复杂道路场景目标检测方法

Info

Publication number: CN116844126A
Application number: CN202310888360.9A
Authority: CN
Inventors: 杜娟; 崔少华; 陈峙; 王何阳; 张德华; 曹伟
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-03

Abstract

一种基于YOLOv7改进的复杂道路场景目标检测方法，属于计算机视觉和自动驾驶环境感知技术领域，解决目前复杂道路场景目标检测方法精度和速度不足的技术问题，解决方案为：增加小目标检测层，增加对小目标特征的学***衡。

Description

一种基于YOLOv7改进的复杂道路场景目标检测方法

技术领域

本发明属于计算机视觉和自动驾驶环境感知技术领域，具体涉及的是一种基于YOLOv7改进的复杂道路场景目标检测方法。

背景技术

在过去的几年中，随着计算机技术和深度学习技术的逐步发展，道路目标检测技术在实现自动驾驶和智能交通***等领域中扮演着越来越重要的角色。道路目标检测的主要目的是在道路图像中检测和识别各种交通标志、行人、车辆和其他障碍物，从而为自动驾驶和智能交通***提供必要的信息。因此，准确地检测和识别这些目标对于保证车辆和行人的安全和提高道路交通效率至关重要。

目前，虽然基于深度学习的目标检测算法在复杂道路场景中的目标检测方面已经取得了很好的效果，但是对于场景中的小目标检测仍然存在一些问题：

1、在小目标检测方面，目前的算法仍然存在一定的误检率和漏检率，这是由于小目标的尺寸和形状各异，加之环境因素的干扰，容易导致误检或漏检；

2、复杂道路场景中的背景干扰也是一个难点问题，由于道路场景中背景复杂多变，很容易出现背景中的物体被误检为小目标的情况；

3、复杂道路场景中小目标的检测速度也是一个需要关注的问题。

综上所述，由于自动驾驶对检测数据的实时性和准确性要求较高，所以算法的检测速度需要足够快，准确度要足够高，以便自动驾驶***及时做出决策。

发明内容

本发明的主要目的在于克服现有技术中的不足，解决解决目前复杂道路场景目标检测方法精度和速度不足的技术问题，本发明提供一种基于YOLOv7改进的复杂道路场景目标检测方法。

本发明的设计构思主要包括以下几个方面：

1、在YOLOv7的基础上增加小目标检测层，增加对小目标的特征学习能力；

2、采用K-means++重聚类先验框，使得先验框更贴合目标，增加网络对目标的定位精度；

3、采用WIoU损失函数，增加网络对普通质量锚框的关注度，提高网络对目标的定位能力；

4、在颈部和检测头引入CoordConv，使网络能够更好的感受特征图中的位置信息；

5、提出P-ELAN结构对骨干网络进行轻量化处理，降低算法参数量和运算量。

为了实现上述发明目的，本发明采用的技术方案为：一种基于YOLOv7改进的复杂道路场景目标检测方法，包括以下步骤：

步骤一：获取复杂道路场景目标图像并构建数据集，将道路目标数据集划分为训练集、验证集和测试集，其中训练集、验证集和测试集中标注文件均为.txt格式，标注文件内容依次包括：类别所对应的id号，归一化后目标框中心点的坐标(x，y)，以及归一化后目标框的宽度w、高度h；

步骤二：读取步骤一获取的复杂道路场景目标图像，对图像进行增强处理，并将增强处理后的图像对齐为相同尺寸大小的图片；数据增强之后将图像尺寸对齐为640*640输入特征提取网络；

步骤三：采用K-Means++聚类算法对训练样本的标注框尺寸进行分析，生成四组大小不同的先验框；

步骤四：构建改进的YOLOv7目标检测网络模型，改进的YOLOv7目标检测网络模型包括特征提取网络、特征融合网络和多尺度检测头，其中：

所述特征提取网络为CBS、P-ELAN和MP模块的堆叠，总共进行了32倍下采样；

所述特征融合网络用于融合多尺度特征，特征融合网络由SPPCSPC模块、ELANW模块、CBS模块、MP模块和CoordConv模块组成一个自上而下的FPN和自下而上的PAN；

所述多尺度检测头：分别在下采样4倍、8倍、16倍、32倍的特征图上进行检测，获得四个尺度的检测头，即其中20*20的检测层用于检测大目标，40*40的检测层用于检测较大目标，80*80的检测层用于检测较小目标，160*160检测层用于检测小目标，进而提高网络对复杂道路场景小尺寸目标的定位能力；

步骤五：以坐标损失L_loc、目标置信度损失L_loc和分类损失L_cls构建总体损失函数，总体损失函数计算公式为：

Loss＝λ₁L_cls+λ₂L_obj+λ₃L_loc；

式中，λ1、λ2、λ3均为权重系数；

所构建的损失函数中坐标损失为WIoU损失，目标置信度损失和分类损失采用带log的二值交叉熵损失(BCE With Logits Loss)；

步骤六：首先，将数据集送入步骤四中构建的改进的YOLOv7目标检测网络模型进行训练，输出图像中每个目标的边界框位置、尺寸以及目标类别；然后，通过步骤五构建的损失函数进行反向传播进而更新权重，迭代预定轮次得到复杂道路目标检测的模型训练权重；

步骤七：将待检测的图像送入训练好的检测模型，得到测试结果，被检测出来的结果由矩形包围框框出，完成复杂道路场景目标检测。

进一步地，在所述步骤二中，图像增强处理包括以下三个方面：

1)、数据增强采用HSV增强：调整图像的色调、饱和度以及明度；

2)、几何变换增强：包括随机旋转、随机平移、随机缩放以及随机翻转；

3)、图片级像素增强：mosaic数据增强或者mixup数据增强。

3、根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法，其特征在于：所述步骤三包括如下步骤：首先，先验框总数设置为12；然后，使用K-means++聚类算法对数据集标注的物体边界框进行聚类分析：K-means++算法首先随机选取一个点作为第一个聚类中心，然后以概率的形式选取其他点作为新的聚类中心，使新的聚类中心与已选取的聚类中心距离越远的点被选中的概率越高，重复执行该过程，直到所有聚类中心被选出为止，这一方法使得网络能够更好地检测复杂道路场景中的小目标，得到适用于复杂道路场景目标的先验框。

进一步地，所述步骤四中：

所述P-ELAN模块由普通卷积层和部分卷积层PConv组成，部分卷积层使得特征提取网络更加轻量化，MP结构用于增大感受野；其中部分卷积层是对输入特征图中的部分通道进行常规卷积运算，其余通道保持不变并进行Identity操作，具体步骤为：

对于大小为k的卷积核，输入特征图大小为h×w，通道数为c，若输入和输出特征图大小和通道数相同，则常规卷积的计算量为：h×w×k²×c²；PConv的计算量为：常规卷积与PConv计算量之比为：/>若/>则PConv的计算量为常规卷积的1/16；

常规卷积的内存访问量为：h×w×2c+k²×c²≈h×w×2c；PConv的内存访问量为：常规卷积与PConv内存访问量之比为：/>若/>则PConv的内存访问量为常规卷积的1/4。

进一步地，所述步骤四中：所述CoordConv模块的实现方式是通过将两个额外的i和j通道连接到输入通道来完成的，如果连接CoordConv的坐标层与卷积的权重不为零，则CoordConv模块允许学***移依赖性的函数；如果连接CoordConv的坐标层与卷积的权重为零，则模拟常规卷积层。

进一步地，所述WIoU损失包含三个版本，分别为WIoUv1，WIoUv2，WIoUv3，本发明使用WIoUv3版本，它是在WIoUv1、WIoUv2基础上优化得来的。其中WIoUv1相关公式如下：

L_IoU＝1-IoUL_IoU；

L_WIoUv1＝R_WIoUL_IoU；

式中，R_WIoU∈[0,e)将显著放大普通锚框的L_IoU，L_IoU∈[0,1]将显著降低高质量锚框的R_WIoU，并在锚框与目标框重合较好的情况下显著降低其对中心点距离的关注。W_g,H_g，分别为最小外接矩形的宽和高。*表示将W_g,H_g从计算图中分离，作用是为了防止R_WIoU产生阻碍收敛的梯度；

WIoUv2在WIoUv1的基础上构造了单调聚焦系数其相关公式如下：

在模型训练过程中，梯度增益随着L_IoU的减小而减小，因此引入L_IoU的均值作为归一化因子：

式中，为动量为m的平均运行值，动态更新归一化因子使得梯度增益整体保持在一个较高的水平；

WIoUv3是在WIoUv2的基础上引入动态非单调聚焦系数。其相关公式如下：

式中，β为离群值，α和δ为控制梯度增益r的超参数，α＝1.9，δ＝3。

本发明的有益效果在于：改进YOLOv7的复杂道路场景目标检测方法用过增加小目标检测层、K-means++算法重聚类先验框，使得网络对小目标特征更加敏感，使用WIoU损失函数使得网络对普通质量锚框更加关注，引入CoordConv使网络能够更好的提取空间特征，从而更好的感受位置信息，提出P-ELAN结构对网络进行轻量化处理。本发明通过以上技术方案有效的解决了复杂道路场景目标检测中所遇到的多尺度、小样本、高密度的问题，提高了检测的准确率，做到了准确率与速度的平衡。

附图说明

图1是本发明所提方法的目标检测流程图；

图2是本发明所提方法的网络模型示意图；

图3是CoordConv工作原理示意图；

图4是PConv工作原理示意图；

图5是P-ELAN模块结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细描述。

如图1所示的一种基于YOLOv7改进的复杂道路场景目标检测方法，包括以下步骤：

步骤一：获取复杂道路场景目标图像并构建数据集，本具体实施方式中采用自动驾驶领域公开且被广泛承认的华为诺亚方舟实验室联合中山大学发布的自动驾驶数据集SOAD10M，该数据集收集了我国不同城市在不同天气条件、不同时间段、不同位置的场景，将道路目标数据集划分为2500张训练集、验证集和2500张测试集，共包含6种主要的人车场景类别：Pedestrian、Cyclist、Car、Truck、Tram、Tricycle。其中训练集、验证集和测试集中标注文件均为.txt格式，标注文件内容依次包括：类别所对应的id号，归一化后目标框中心点的坐标(x，y)，以及归一化后目标框的宽度w、高度h；

步骤二：读取步骤一获取的复杂道路场景目标图像，对图像进行增强处理，图像增强处理包括以下三个方面：1)、数据增强采用HSV增强：调整图像的色调、饱和度以及明度；2)、几何变换增强：包括随机旋转、随机平移、随机缩放以及随机翻转；3)、图片级像素增强：mosaic数据增强或者mixup数据增强。并将增强处理后的图像对齐为相同尺寸大小的图片；数据增强之后将图像尺寸对齐为640*640输入特征提取网络；

步骤三：采用K-Means++聚类算法对训练样本的标注框尺寸进行分析，生成四组大小不同的先验框；具体包括以下步骤：

首先，先验框总数设置为12；然后，使用K-means++聚类算法对数据集标注的物体边界框进行聚类分析：K-means++算法首先随机选取一个点作为第一个聚类中心，然后以概率的形式选取其他点作为新的聚类中心，使新的聚类中心与已选取的聚类中心距离越远的点被选中的概率越高，重复执行该过程，直到所有聚类中心被选出为止，这一方法使得网络能够更好地检测复杂道路场景中的小目标，得到适用于复杂道路场景目标的先验框。聚类前后先验框对比如表1所示。

表1聚类前后先验框尺寸结果

步骤四：如图2所示，构建改进的YOLOv7目标检测网络模型，改进的YOLOv7目标检测网络模型包括特征提取网络、特征融合网络和多尺度检测头，其中：

所述特征提取网络为CBS、P-ELAN和MP模块的堆叠，总共进行了32倍下采样；其中，如图4和图5所示，所述P-ELAN模块由普通卷积层和部分卷积层(PConv)组成，部分卷积层是对输入特征图中的部分通道进行常规卷积运算，其余通道保持不变并进行Identity操作，具体步骤为：

常规卷积的内存访问量为：h×w×2c+k²×c²≈h×w×2c；PConv的内存访问量为：常规卷积与PConv内存访问量之比为：/>若/>则PConv的内存访问量为常规卷积的1/4；

所述特征融合网络用于融合多尺度特征，特征融合网络由SPPCSPC模块、ELANW模块、CBS模块、MP模块和CoordConv模块组成一个自上而下的FPN和自下而上的PAN；如图3所示，所述CoordConv模块的实现方式是通过将两个额外的i和j通道连接到输入通道来完成的，如果连接CoordConv的坐标层与卷积的权重不为零，则CoordConv模块允许学***移依赖性的函数；如果连接CoordConv的坐标层与卷积的权重为零，则模拟常规卷积层；

Loss＝λ₁L_cls+λ₂L_obj+λ₃L_loc；

式中，λ1、λ2、λ3均为权重系数；

所构建的损失函数中坐标损失为WIoU损失，目标置信度损失和分类损失采用带log的二值交叉熵损失(BCE With Logits Loss)；所述WIoU损失包含三个版本，分别为WIoUv1，WIoUv2，WIoUv3，本发明使用WIoUv3版本，它是在WIoUv1、WIoUv2基础上优化得来的。其中WIoUv1相关公式如下：

L_IoU＝1-IoUL_IoU；

L_WIoUv1＝R_WIoUL_IoU；

WIoUv2在WIoUv1的基础上构造了单调聚焦系数其相关公式如下：

式中，β为离群值，α和δ为控制梯度增益r的超参数，α＝1.9，δ＝3；

步骤六：首先，将数据集送入步骤四中构建的改进的YOLOv7目标检测网络模型进行训练，输出图像中每个目标的边界框位置、尺寸以及目标类别；然后，通过步骤五构建的损失函数进行反向传播进而更新权重，迭代预定轮次(300轮次)得到复杂道路目标检测的模型训练权重；

模型训练配置为13th Gen Intel(R)Core(TM)[email protected]处理器，NVIDIAGeForce RTX 4090(24G显存)显卡，32G内存；Windows10专业版操作***，Python3.9.16编译语言，Pytorch1.13.1深度学习框架，CUDA11.7加速计算架构。模型训练过程参数设置采用SGD方法训练300个epoch，初始学习率设置为0.01，批次大小设置为16，动量参数设置为0.937，预热训练3个epoch，并按一定概率使用mixup、mosaic、fliplr等一系列数据增强操作。

为验证本发明的有效性，设置基于YOLOv7的多组实验来验证各模块改进性能提升情况，并选用参数量(Parameters)，计算量(FLOPs)，准确率(Percision)，召回率(Recall)，平均精度(mAP)，每秒传输帧数(FPS)等评价指标。相应的计算公式如下：

其中TP代表正确检测框，FP代表误检框，FN代表漏检框，len(GTs)代表所有标签框数量，AP代表一个目标的检测精度，N代表检测类别数，Frames代表帧数，Time代表检测时间。

实验结果如表2所示，其中A组为原始YOLOv7模型，B组为A组基础上增加小目标检测层，C组为B组基础上使用K-means++算法重聚类先验框，D组为C组基础上采用WIoU损失函数，E组为D组基础上引入CoordConv，F组为E组基础上引入P-ELAN结构。

表2各个改进方式性能提升结果

从表2可以得出在加入小目标检测层之后，mAP上升了1％，当在小目标检测层的基础上用K-means++重聚类先验框之后，mAP上升1.2％，在使用K-means++算法基础上更换损失函数为WIoU之后，mAP上升0.5％，引入CoordConv之后mAP上升0.7％，最后通过P-ELAN结构对骨干网络轻量化后mAP下降了0.8％，但整体精度较原YOLOv7提高2.6％，且参数量和运算量分别下降12％和7％。其中组别C的mAP提升最多，说明先验框尺寸对目标识别准确率影响较大。除F组Tricycle类别准确度下降明显以外，其余各组的小目标准确度都呈上升趋势，证明了本发明各个改进方法对复杂道路场景目标的有效性。

为了进一步验证本发明所提方法的有效性，将本发明所提方法与SSD，Faster R-CNN，YOLOv3，YOLOv5，YOLOX，YOLOv6，YOLOv8，RetinaNet等算法在SOAD10M数据集上进行mAP和FPS指标的比较，实验结果如表3所示。

表3对比实验结果

算法	mAP/％	FPS
			SSD	46.5	59
Faster R-CNN	46.4	47
			YOLOv3	51	79
YOLOv5l	54.9	87
			YOLOX	41.2	87
YOLOv6l	56.5	50
			YOLOv7	62.2	86
YOLOv8m	61.2	87
			RetinaNet	28.4	40
改进方法	64.8	80

通过对比表3中不同方法的实验结果，可以看出本文算法在mAP指标上明显高于其他先进的检测算法，达到了64.8％，FPS比其他先进的一阶段检测算法略微低一些，但比二阶段检测算法高很多。本文算法的FPS为80，相较于YOLOv7，牺牲了一点检测速度换取了更高的检测精度，达到了速度和精度的平衡，符合复杂道路场景目标检测的实时性和准确性需求。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于YOLOv7改进的复杂道路场景目标检测方法，其特征在于：

步骤二：读取步骤一获取的复杂道路场景目标图像，对图像进行增强处理，并将增强处理后的图像对齐为相同尺寸大小的图片；

所述多尺度检测头：分别在下采样4倍、8倍、16倍、32倍的特征图上进行检测，获得四个尺度的检测头；

Loss＝λ₁L_cls+λ₂L_obj+λ₃L_loc；

式中，λ1、λ2、λ3均为权重系数；

所构建的损失函数中坐标损失为WIoU损失，目标置信度损失和分类损失采用带log的二值交叉熵损失；

2.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法，其特征在于：在所述步骤二中，图像增强处理包括以下三个方面：

3)、图片级像素增强：mosaic数据增强或者mixup数据增强。

3.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法，其特征在于：所述步骤三包括如下步骤：首先，先验框总数设置为12；然后，使用K-means++聚类算法对数据集标注的物体边界框进行聚类分析：K-means++算法首先随机选取一个点作为第一个聚类中心，然后以概率的形式选取其他点作为新的聚类中心，使新的聚类中心与已选取的聚类中心距离越远的点被选中的概率越高，重复执行该过程，直到所有聚类中心被选出为止，得到适用于复杂道路场景目标的先验框。

4.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法，其特征在于：所述步骤四中：

所述P-ELAN模块由普通卷积层和部分卷积层PConv组成，其中部分卷积层是对输入特征图中的部分通道进行常规卷积运算，其余通道保持不变并进行Identity操作，具体步骤为：

5.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法，其特征在于：所述步骤四中：所述CoordConv模块的实现方式是通过将两个额外的i和j通道连接到输入通道来完成的，如果连接CoordConv的坐标层与卷积的权重不为零，则CoordConv模块允许学***移依赖性的函数；如果连接CoordConv的坐标层与卷积的权重为零，则模拟常规卷积层。

6.根据权利要求1所述的一种基于YOLOv7改进的复杂道路场景目标检测方法，其特征在于：所述步骤五中：WIoU损失为WIoUv3损失，其中：