CN111401148A

CN111401148A - 一种基于改进的多级YOLOv3的道路多目标检测方法

Info

Publication number: CN111401148A
Application number: CN202010124052.5A
Authority: CN
Inventors: 王海; 王宽; 蔡英凤; 李祎承; 刘擎超; 刘明亮; 张田田; 李洋
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-10
Anticipated expiration: 2040-02-27
Also published as: CN111401148B

Abstract

本发明公开了一种基于改进的多级YOLOv3的道路多目标检测方法，步骤1，制作数据集：基于公开的驾驶数据集BDD100K制作道路多目标数据集；步骤2，基于K‑means聚类算法进行道路目标候选框长宽比计算；步骤3，设计改进YOLOv3神经网络模型；步骤4，设置训练超级参数和网络参数，将训练集输入网络，对改进YOLOv3网络进行训练，并保存训练好的权重文件；步骤5，输出预测的边界框信息及类别概率；步骤6，使用软化非极大值过滤检测框，对检测图片进行可视化，产生最终的目标检测框和识别结果。相比于原始YOLOv3神经网络模型，本发明在BDD100K的验证集下mAP到达了58.09％，提高了近9个百分点，检测准确率较高；实时性较好，统计后FPS为0.03s/张，仅比传统YOLOv3增加耗时1.65％，满足实时性要求。

Description

一种基于改进的多级YOLOv3的道路多目标检测方法

技术领域

本发明属于汽车环境感知目标检测技术领域，具体涉及一种基于改进的多级YOLOv3的道路多目标检测方法。

背景技术

道路目标检测是图像识别领域的一个重要方向，基于深度学***的突飞猛进，在各类计算机视觉任务中都取得了巨大的成功，例如目标分类，目标检测，语义分割等。其中，针对目标检测，目前已经有大量效果出众，同时又能有良好的实时性表现的算法。这些算法根据是否使用了区域候选网络(RPN)先进行一次正样本的检测框回归，归分为单阶段阶段和二阶段检测算法。单阶段目标检测算法有YOLOv3，SSD，Retinanet等，双阶段检测算法有RCNN，RFCN,Fasterrcnn，Cascadercnn等。其中单阶段目标检测算法实时性好，双阶段检测算法精确度高。在目标检测领域中，道路目标检测是一个十分重要的方向，研究道路目标检测算法对于交通安全十分重要。在自动驾驶场景中，道路目标的检测和识别起着非常重要的作用。精确的检测对后续的识别、辅助定位和导航起着决定性的作用。本发明使用基于改进YOLOv3的方法进行道路多目标检测。

发明内容

本发明的目的是为了解决现有的道路目标检测精度准确度较差的问题，提出一种基于改进YOLOv3的道路多目标检测方法，可以提高驾驶过程中的安全性。首先，利用公开驾驶数据集BDD100K制作数据集，其次设计改进的YOLOv3神经网络模型，然后利用BDD100K数据集对神经网络模型进行训练，将保存的模型参数导入改进的YOLOv3神经网络模型中，最后对图片中的道路目标进行检测。

本发明改进的YOLOv3神经网络模型与原始YOLOv3网络构架相比，本发明所采用的YOLOv3构架添加了两个特征检测图，修改后的5个特征检测图的分辨率大小分别是13×13,26×26，52×52,104×104,208×208改进网络比原YOLOv3的检测图多了104×104和208×208两个输出特征检测图。每个尺度的特征图上分配5个候选框，并遵循大尺寸特征框检测小尺寸物体，小尺寸特征框检测大尺寸物体原则。通过YOLO神经网络对训练集图像和验证集图像进行训练以获取最终的基于YOLOv3的网络权重模型。同时进一步，所述图片中的道路目标在进行实时检测时，图片中的每个目标存在多个预测边界框，使用软化非极大值抑制剔除多余的预测边界框。提高了网络的定位精度和检测精度。

本发明的有益效果包括：

1、检测精度较高，相比于原始YOLOv3神经网络模型，本发明在BDD100K的验证集下mAP到达了58.09％，提高了近9个百分点，检测准确率较高。

2、实时性较好，改进后的YOLOv3神经网络模型检测每张图片的时间对FPS进行统计，统计后FPS为0.03s/张，满足实时性要求。

附图说明

图1是改进的YOLOv3神经网络模型

图2是检测效果图一

图3是检测效果图二

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于改进YOLOv3的道路多目标检测方法包括以下步骤:

Step1数据集制作

基于公开的驾驶数据集BDD100K制作道路多目标数据集，数据集共10万张，数据集中的GT框标签共有10个类别，分别为：Bus大巴、Light交通灯、Sign交通标志、Person行人、Bike自行车、Truck货车、Motor摩托车、Car汽车、Train火车、Rider骑手，总共约有184万个标定框。数据集图片的分辨率均为1280×720,BDD100k数据集中包含了不同天气、场景、时间的图片，而且高清、模糊的图片都有，规模大，多样化，都是真实的驾驶场景。本发明按照7:2:1的比例划分了训练集、测试集、验证集，其中训练集70000张，测试集20000张，验证集10000张，其次本发明并将BDD100k数据集整理成VOC数据集格式，VOC数据集包括三个文件夹，分别是JPEGImages文件、Annotations文件以及Imagesets文件，这三个文件夹中，JPEGImages存放训练集以及测试集图片，Annotations文件夹存储xml类型的标注文件，Imagesets文件夹存放txt文本，txt文本每一行对应一个图片的名称，改进后的YOLOV3网络模型根据txt文本读取文件名，再到JPEGImages和annotations文件夹中寻找对应的图片和标注信息，在寻找到的图片标注中提取道路目标的标注信息，获取标注信息的边框参数。接下来将图片随机地分成不同的批次，在送入改进的YOLOv3网络模型前，对图片进行随机的旋转、裁剪、平移变换、翻转变换、噪声扰动等数据增强方式，扩充图片场景多样性，并将图片尺寸统一调整为416×416。

Step2基于K-means聚类算法进行道路目标候选框长宽比计算

基于K-means++算法计算BDD100k数据集物体边界框标注进行聚类，获得15个锚框尺寸，大小分别为(4,8),(6,16),(10,10),(8,31),(13,20),(22,16),(22,30),(13,51),(36,42),(25,89),(54,66),(83,95),(57,155),(116,156),(155,249)。

Step3改进YOLOv3神经网络模型

原始YOLOv3是一个全卷积构架的深度残差卷积神经网络，网络交替使用3×3,1×1来提取图片中目标的特征、缩小分辨率和调节图像通道数的大小和2倍上采样层融合网络前面层的特征。YOLOv3网络从75到106层为网络的特征交互输出层，特征交互输出层分为三个分辨率，在每个分辨率特征图中，通过卷积(3×3和1×1核)的方式实现局部特征交互组合。网络的最终输出是通过在特征图上应用1×1卷积核生成，通过在网络中的三个不同层数、三个不同大小的特征图上应用1×1检测栅格来完成物体检测。原始YOLOv3以三个分辨率的检测图进行预测。

本发明改进的YOLOv3神经网络模型如图1所示，详细过程如下：

首先，归一化处理后的图像经过两个3×3的卷积后尺度缩小一半，随后依次经过一个残差模块、一个3×3卷积、两个残差模块、一个3×3卷积、八个残差模块、一个3×3卷积、八个残差模块、一个3×3卷积、七个残差模块后得到13×13的特征检测图，将输入416×416的图片尺寸调整到13×13×45的输出检测图，之后连接一个步长为2的上采样层将特征图提升到26×26×256；

其次，26×26的特征检测图是依次经过一个3×3卷积和八个残差模块后得到的；之后的52×52、104×104、208×208特征图皆是经过一个3×3卷积和八个残差模块后得到的。其中，残差模块为依次经过一个1×1的卷积、一个3×3的卷积和残差操作的。其次在13×13的特征图上初始生成三种不同尺度的锚点框，随后依次经过一个3×3卷积、一个CONV模块、一个3×3卷积和一个1×1卷积得到13×13尺度下的张量数据；然后13×13特征图依次经过一个3×3卷积、一个CONV模块和一个1×1卷积后进行上采样，将上采样得到的特征图与YOLO网络的神经网络部分得到的26×26的特征图特征融合，在特征融合后得到的特征图上初始生成三种不同尺度的锚点框，随后依次经过一个CONV模块、一个3×3卷积和1×1卷积后得到26×26下的张量数据；接着52×52、104×104、208×208的张量数据的获得皆与之前一样，都是通过将上采样得到的特征图与YOLO网络的基础神经网络部分得到的上一层的特征图通过向量拼接方法进行特征融合，在特征融合后得到的特征图上初始生成三种不同尺度的锚点框，随后依次经过一个CONV模块、一个3×3卷积和1×1卷积后得到张量数据。其中，CONV模块是指依次经过一个1×1卷积、一个3×3卷积、一个1×1卷积、一个3×3卷积和一个1×1卷积的运算过程。修改后的5个特征检测图的分辨率大小分别是13×13,26×26,52×52,104×104,208×208。改进网络比原YOLOv3的检测图多了104×104和208×208两个输出特征检测图。每个尺度的特征图上分配5个候选框，改进的YOLOv3神经网络的检测模型的总体过程如图1所示。

Step4设置训练超级参数和网络参数，将训练集输入网络，对改进的YOLOv3网络进行训练，并保存训练好的权重文件；

训练时的超级参数设置为：批数量为4，学习率＝0.001，最大迭代次数50000，学习策略设置为sps＝40000，45000，50000。在40000到45000之间学习率为当前值的0.1倍，在45000到50000之间学习率为当前值的0.1倍；

实验平台主要参数：处理器：Inter(R)core(TM)i5-8600K [email protected]；内存：64GB；显卡：NVIDIA GeForce GTX1080TI。

改进的YOLOV3模型利用预测边界框的回归损失函数进行损失计算，通过损失函数计算每个预测的修正框的类别得分、置信度得分、框的中心坐标和宽高相对于真实的标定框类别、中心坐标和宽高的损失，经过反向传播求取梯度进行权重更新，得到更新后的权重参数，为了使损失越来越小，每一批次送入改进的神经网络模型都会更新模型权重，直到损失值收敛，每迭代一万次保存一次模型参数,同时在验证集下进行验证，根据损失曲线和验证集上的检测效果调整学习率。最终在90000次时模型收敛，训练停止，得到迭代90000次后最终的基于改进YOLOv3神经网络的检测模型。保存训练90000次下的模型参数。

Step5输出预测的边界框信息及类别概率。

将上一步骤中保存的模型参数导入改进的YOLOv3模型中，测试图片送入改进的YOLOv3模型，采用logistic函数对网络预测的x、y、置信度、类别概率进行激活，经阈值判断，得到所有预测框的坐标、置信度和类别概率；输出预测的边界框信息及类别概率。

b_x＝σ(t_x)+C_x

b_y＝σ(t_y)+C_y

其中：C_X,C_Y为当前网格相对于当前特征图左上角网格的偏移量，σ()函数为logistic函数，用来将t_x、t_y归一化为0到1之间，P_w,P_h是与标注边界框交并比最大的锚框的宽和高，t_w、t_h、t_x、t_y为预测框的顶点坐标。

Step6使用软化非极大值过滤检测框

此时图片中的道路目标有多个预测边界框，传统的非极大值抑制将检测框按得分排序，然后保留得分最高的框，同时删除与该框重叠面积大于一定比例的其它框，这样做容易造成目标的漏检，因此本发明为了降低模型的漏检率，使用软化非极大值，不再粗鲁地删除所有IOU大于阈值的框，而是降低其置信度，指定一个置信度阈值，然后最后得分大于该阈值的检测框得以保留，在剩下的预测边界框中循环此步骤，最终得到每个道路目标对应的一个预测边界框。最后对检测图片进行可视化，产生最终的目标检测框和识别结果，如图2、3所示。

Step7检测精度对比

本发明用mAP评价改进YOLOv3网络目标检测性能，mAP(mean Average Precision)是各个类别的检测精度在召回率上的累加和，是评价目标检测网络性能的一个重要指标，在BDD100K的验证集共10000张图片下进行mAP的计算，并将数据集中类别较少Train,Rider,Motor,Bike的标注信息排除，共计算六类的mAP，分别为Bus、Car、Person、Trafficlight、Traffic sign、Truck。

其中AP的计算公式为：AP＝∫PdR，

其中P为检测精度(precision)，R为召回率Recall，计算公式如下：

(1)

(2)

表1为改进YOLOv3网络与原始的性能对比结果：

表1

由表1可知，改进后的YOLOv3在检测精度上有提升，相比于原始YOLOv3，mAP增加了近9个百分点，到达了58.09％，检测精度较高。其次通过程序统计检测每张图片的时间对FPS进行统计，FPS为0.03s/张，表明本发明提出的基于YOLOv3神经网络的道路多目标检测方法亦可以满足实时性的要求。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于改进的多级YOLOv3的道路多目标检测方法，其特征在于，包括如下步骤：

步骤1，制作数据集：基于公开的驾驶数据集BDD100K制作道路多目标数据集；

步骤2，基于K-means聚类算法进行道路目标候选框长宽比计算；

步骤3，设计改进YOLOv3神经网络模型；

步骤4，设置训练超级参数和网络参数，将训练集输入网络，对改进YOLOv3网络进行训练，并保存训练好的权重文件；

步骤5，输出预测的边界框信息及类别概率；

步骤6，使用软化非极大值过滤检测框，对检测图片进行可视化，产生最终的目标检测框和识别结果。

2.根据权利要求1所述的一种基于改进的多级YOLOv3的道路多目标检测方法，其特征在于，步骤1中，将所述数据集BDD100K设计为VOC数据集格式，VOC数据集包括三个文件夹，分别是JPEGImages文件、Annotations文件以及Imagesets文件，其中，JPEGImages存放训练集以及测试集图片，Annotations文件夹存储xml类型的标注文件，Imagesets文件夹存放txt文本，txt文本每一行对应一个图片的名称，改进后的YOLOV3网络模型根据txt文本读取文件名，再到JPEGImages和annotations文件夹中寻找对应的图片和标注信息，在寻找到的图片标注中提取道路目标的标注信息，获取标注信息的边框参数。

3.根据权利要求2所述的一种基于改进的多级YOLOv3的道路多目标检测方法，其特征在于，将所述VOC数据集中的图片随机地分成不同的批次，在送入改进的YOLOv3网络模型前，对图片进行随机的旋转、裁剪、平移变换、翻转变换、噪声扰动等数据增强方式，扩充图片场景多样性，并将图片尺寸统一调整为416×416。

4.根据权利要求1所述的一种基于改进的多级YOLOv3的道路多目标检测方法，其特征在于，所述数据集BDD100K中的GT框标签划分为10个类别，分别为：Bus、Light、Sign、Person、Bike、Truck、Motor、Car、Train、Rider，总共有184万个标定框；数据集图片的分辨率均为1280×720，按照7:2:1的比例划分了训练集、测试集、验证集，其中训练集70000张，测试集20000张，验证集10000张。

5.根据权利要求1所述的一种基于改进的多级YOLOv3的道路多目标检测方法，其特征在于，步骤2的实现方法：基于K-means++算法计算BDD100k数据集物体边界框标注进行聚类，获得15个锚框尺寸，大小分别为(4,8),(6,16),(10,10),(8,31),(13,20),(22,16),(22,30),(13,51),(36,42),(25,89),(54,66),(83,95),(57,155),(116,156),(155,249)。

6.根据权利要求1所述的一种基于改进的多级YOLOv3的道路多目标检测方法，其特征在于，步骤3中，设计改进YOLOv3神经网络模型的具体方法如下：

首先，将归一化处理后的图像经过两个3×3的卷积后尺度缩小一半，随后依次经过一个残差模块、一个3×3卷积、两个残差模块、一个3×3卷积、八个残差模块、一个3×3卷积、八个残差模块、一个3×3卷积、七个残差模块后得到13×13的特征检测图，将输入416×416的图片尺寸调整到13×13×45的输出检测图，之后连接一个步长为2的上采样层将特征图提升到26×26×256；

其次，将26×26的特征检测图依次经过一个3×3卷积和八个残差模块；再经过一个3×3卷积和八个残差模块后得到52×52、104×104、208×208特征图；其中，残差模块依次经过一个1×1的卷积、一个3×3的卷积和残差操作；

再其次，在13×13的特征图上初始生成三种不同尺度的锚点框，随后依次经过一个3×3卷积、一个CONV模块、一个3×3卷积和一个1×1卷积得到13×13尺度下的张量数据；然后13×13特征图依次经过一个3×3卷积、一个CONV模块和一个1×1卷积后进行上采样，将上采样得到的特征图与YOLO网络的神经网络部分得到的26×26的特征图特征融合，在特征融合后得到的特征图上初始生成三种不同尺度的锚点框，随后依次经过一个CONV模块、一个3×3卷积和1×1卷积后得到26×26下的张量数据；接着52×52、104×104、208×208的张量数据的获得皆与之前一样，都是通过将上采样得到的特征图与YOLO网络的基础神经网络部分得到的上一层的特征图通过向量拼接方法进行特征融合，在特征融合后得到的特征图上初始生成三种不同尺度的锚点框，随后依次经过一个CONV模块、一个3×3卷积和1×1卷积后得到张量数据；其中，CONV模块是指依次经过一个1×1卷积、一个3×3卷积、一个1×1卷积、一个3×3卷积和一个1×1卷积的运算；修改后的5个特征检测图的分辨率大小分别是13×13、26×26、52×52、104×104、208×208；

最后，上述每个尺度的特征检测图上分配5个候选框。

7.根据权利要求1所述的一种基于改进的多级YOLOv3的道路多目标检测方法，其特征在于，步骤4中，训练时的超级参数设置为：批数量为4，学习率＝0.001，burn_in＝1000，最大迭代次数000,学习策略设置为sps＝40000,45000,50000。在40000到45000之间学习率为当前值的0.1倍，在45000到50000之间学习率为当前值的0.1倍；

训练过程中，利用预测边界框的回归损失函数进行损失计算，通过损失函数计算每个预测的修正框的类别得分、置信度得分、框的中心坐标和宽高相对于真实的标定框类别、中心坐标和宽高的损失，经过反向传播求取梯度进行权重更新，得到更新后的权重参数，每一批次送入改进的神经网络模型都更新模型权重，直到损失值收敛，每迭代一万次保存一次模型参数，同时在验证集下进行验证，根据损失曲线和验证集上的检测效果调整学习率。

8.根据权利要求1所述的一种基于改进的多级YOLOv3的道路多目标检测方法，其特征在于，步骤6的实现方法：使用软化非极大值，降低其置信度，指定一个置信度阈值，最后得分大于该阈值的检测框得以保留，在剩下的预测边界框中循环此步骤，最终得到每个道路目标对应的一个预测边界框。