CN109447034A

CN109447034A - 基于YOLOv3网络的自动驾驶中交通标识检测方法

Info

Publication number: CN109447034A
Application number: CN201811354012.9A
Authority: CN
Inventors: 王超
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-03-08
Anticipated expiration: 2038-11-14
Also published as: CN109447034B

Abstract

基于YOLOv3网络的自动驾驶中交通标识检测方法，它属于交通标识检测领域。本发明解决了现有的YOLOv3网络目标检测算法存在的检测精度不高，以及检测速度不能满足实时性要求的问题。本发明提出改进的损失函数，从而降低大目标误差对小目标检测效果的影响，提升了小尺寸目标的检测准确率；提出改进的激活函数，保留了负值同时减少了传播到下一层的变化和信息，增强了算法对噪声的鲁棒性；通过K‑means算法对交通标识数据集中的真实边框进行聚类，实现目标边框位置的预取，加速网络的收敛。本发明的交通标识检测模型在测试集上的检测精度mAP达到92.88％，检测速度达到35FPS，完全满足实时性的要求。本发明可以应用于交通标识检测领域用。

Description

基于YOLOv3网络的自动驾驶中交通标识检测方法

技术领域

本发明属于交通标识检测领域，具体涉及一种自动驾驶中交通标识检测方法。

背景技术

目标检测是自动驾驶领域中的一个重要研究方向。其主要检测的目标分为两类：静止目标以及运动目标。静止目标如交通灯、交通标识、车道、障碍物等；运动目标如车辆、行人、非机动车等。其中交通标识检测为无人驾驶汽车在行驶过程中提供丰富而且必要的导航信息，是具有重要意义的基础性工作。

传统的目标检测方法主要分为如下几个步骤：预处理，选择候选区域，提取目标特征和特征分类。常用的特征如SIFT(scale-invariant feature transform)、HOG(histogram of oriented gradient)、Haar。常用的分类器如：SVM(support vectormachine)、RF(random forest)、Adaboost等。此类方法对于目标特征的设计要求较高，若设计的特征不好，即使使用最好的分类器，最终模型的准确率也较低。同时特征具有很强的针对性，只能检测某一类目标，泛化能力差。且提取的特征均是目标的低层特征(low-levelfeatures)，无法表达其真正的高层语义特征。

深度学习在近些年的计算机视觉领域取得了丰富的研究成果，特别是在目标检测领域。使用卷积神经网络(convolution neural network)对目标特征进行提取可以大大降低人工提取特征的众多弊端。R-CNN是Girshick等人于2014年提出的基于卷积神经网络的目标检测模型。首先需要通过选择性搜索算法从整张图片中提取出大量的候选区域，接着将其调整成固定尺寸后输入卷积神经网络中进行特征提取，最后使用SVM分类器进行分类。R-CNN的mAP(mean Average Precision)达到了62.4％，由于其算法复杂度较高故检测所花费的时间也较长。针对此问题，研究人员提出了众多改进的基于目标候选区域的算法。SPPnet[8]它通过在最后一个卷积层后设计金字塔池化层(pyramid pooling layer)，通过金字塔池化层，将特征图像固定到要求的尺寸。Fast R-CNN，提出了多任务损失函数(multi-task loss)，在传统的损失函数后边加入目标定位的损失，用来修正位置信息。Faster R-CNN通过在最后卷积层输出的特征图像上加入滑动窗口(sliding window)，滑动窗口划过的位置，以窗口中心为中心(锚点)(anchor)，做出不同尺寸的锚点框，映射到原始图片，成为候选区域。R-FCN采用FCN(Fully Convolutional Networks)网络结构，并用专门的卷积层构建位置敏感分数地图(position-sensitive score maps)。研究人员同样提出了许多基于回归(regression)方法的目标检测算法如：YOLO(you only look once)、SSD(single shot multibox detector)、YOLOv2、YOLOv3等。其中YOLOv3是目前最优秀的目标检测算法之一，其借鉴了之前研究人员的众多成果。当输入尺寸为416×416时，其检测精度可以达到55.3％，但其检测时间却只需29ms。虽然现有的YOLOv3目标检测算法在目标检测方面取得了一定的成就，但其检测精度仍然不高，检测速度也不能满足实时性的要求。

发明内容

本发明的目的是为解决现有的YOLOv3网络目标检测算法存在的检测精度不高，以及检测速度不能满足实时性要求的问题。

本发明为解决上述技术问题采取的技术方案是：

基于YOLOv3网络的自动驾驶中交通标识检测方法，该方法包括以下步骤：

步骤一、基于GTSDB数据集制作带有交通标识类目标标注的训练集数据和测试集数据；

步骤二、对训练集数据中标注的真实目标边框进行聚类，采用面积交并比IOU作为评级指标来获得训练集数据中预测的交通标识类目标的初始候选目标边框，将初始候选目标边框作为YOLOv3网络的初始网络参数；调取YOLOv3网络的初始网络参数，并将训练集数据输入YOLOv3网络进行训练，直至训练集数据输出的损失函数值小于等于阈值Q₁或达到设置的最大迭代次数N时停止训练，得到训练好的YOLOv3网络；

步骤三、将测试集数据输入训练好的YOLOv3网络，若测试集数据对应的检测精度大于等于精度阈值Q₂，则将训练好的YOLOv3网络作为最终的YOLOv3网络；

若测试集数据对应的检测精度小于精度阈值Q₂，则继续训练步骤二得到的训练好的YOLOv3网络，直至测试集数据对应的检测精度大于等于精度阈值Q₂，将此时的YOLOv3网络作为最终的YOLOv3网络；

将采集的自动驾驶中包含有交通标识的图像输入最终的YOLOv3网络，以进行交通标识的检测。

本发明的有益效果是：本发明提供了基于YOLOv3网络的自动驾驶中交通标识检测方法，本发明提出改进的损失函数，通过对检测目标宽高的损失部分进行加权，将真实目标边框的尺寸纳入考虑，从而降低大目标误差对小目标检测效果的影响，提升了小尺寸目标的检测准确率；通过提出一种改进的激活函数，当x为0或负值时采用Softplus向下平移log2个单位，保留了负值同时减少了传播到下一层的变化和信息，增强了算法对噪声的鲁棒性；最后，通过K-means算法对真实边框进行聚类，实现目标边框位置的预取，加速网络的收敛。结果表明，本发明提出的交通标识检测模型在测试集上的检测精度有了较大提升，mAP达到92.88％，检测速度达到35FPS，完全满足实时性的要求，训练过程中收敛速度提升了约66.67％。

附图说明

图1为当前常用的激活函数ReLU的曲线图；

x代表输入，y代表输出；

图2为激活函数Leaky-ReLU(Leaky Rectified Linear Unit)的曲线图；

图3为本发明应用的激活函数Softplus-ReLU的曲线图；

图4为本发明的K-means聚类初始候选边框对模型性能的影响的示意图；

其中：灰色矩形代表原始方法的数值，黑色矩形代表本发明K-means聚类方法的数值；

图5为本发明方法(K-means聚类)与未使用聚类方法训练的loss(损失函数)曲线对比图；

图6为传统YOLOv3的检测效果与本发明采用改进损失函数的检测效果的对比图；

具体实施方式

具体实施方式一：本实施方式所述的基于YOLOv3网络的自动驾驶中交通标识检测方法，该方法具体包括以下步骤：

步骤二、对训练集数据中标注的真实目标边框进行聚类，采用面积交并比IOU作为评级指标来获得训练集数据中预测的交通标识类目标的初始候选目标边框，将初始候选目标边框作为YOLOv3网络的初始网络参数；(这样做的好处是可以加速训练过程的收敛速度)；调取YOLOv3网络的初始网络参数，并将训练集数据输入YOLOv3网络进行训练，直至训练集数据输出的损失函数值小于等于阈值Q₁或达到设置的最大迭代次数N时停止训练，得到训练好的YOLOv3网络；

步骤三、将测试集数据输入训练好的YOLOv3网络，若测试集数据对应的检测精度(mAP)大于等于精度阈值Q₂，则将训练好的YOLOv3网络作为最终的YOLOv3网络；

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一的具体过程为：

所述GTSDB数据集共包含M张图像，对M张图像中的交通标识类目标进行标注后，将标注后的M张图像随机分成训练集和测试集两个部分。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述训练集和测试集的数据量比为8：1。

具体实施方式四：本实施方式与具体实施方式三不同的是：对训练集数据中标注的真实目标边框进行聚类，采用面积交并比IOU作为评级指标来获得训练集数据中预测的交通标识类目标的初始候选目标边框，其具体过程为：

采用K-means算法对训练集数据的真实目标边框进行聚类，采用预测的候选目标边框与真实目标边框的面积交并比IOU作为评级指标，即当面积交并比IOU达到不低于0.5时，将此时预测的候选目标边框作为初始候选目标边框；

面积交并比IOU(intersection over union)表示如下：

其中：box_pred代表预测的候选目标边框的面积，box_truth代表真实目标边框的面积；

则所有真实目标边框与初始候选目标边框的距离Dis(box,centroid)表示为：

Dis(box,centroid)＝1-IOU(box,centroid)

其中：Dis(box,centroid)代表训练集数据中所有真实目标边框与初始候选目标边框的距离，IOU(box,centroid)代表训练集数据中所有真实目标边框与初始候选目标边框的平均交并比。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述调取YOLOv3网络的初始网络参数，并将训练集数据输入YOLOv3网络进行训练，直至训练集数据输出的损失函数值小于等于阈值Q₁或达到设置的最大迭代次数N时停止训练，得到训练好的YOLOv3网络，其具体过程为：

调取YOLOv3网络的初始网络参数，将训练集数据输入YOLOv3网络进行训练，不断进行训练调整YOLOv3网络的卷积层的权重值以及偏置值，并输出训练集数据的损失函数值loss(object)；

其中：坐标采用误差平方和损失函数；置信度以及类别采用二元交叉熵损失函数；

λ_coord为坐标预测的惩罚系数；λ_noobj为不包含交通标识目标时置信度的惩罚系数；K×K表示的是将一张输入图像划分的网格数量；M表示的是每一个网格所预测的目标边框数量；x_i，y_i，w_i和h_i分别表示预测交通标识的中心点的横坐标、纵坐标、宽度和高度，和分别表示真实交通标识的中心点的横坐标、纵坐标、宽度和高度；表示第j个候选目标边框所在的第i个网格负责检测该物体；表示第j个候选目标边框所在的第i个网格不负责检测该物体；C_i与分别表示第i个网格中存在交通标识目标的预测置信度和真实置信度；p_i(c)与分别表示第i个网格中交通标识属于某一类别的预测概率值和真实概率值；c代表某个类别，classes代表类别的总数；

直至训练集数据输出的损失函数值小于等于阈值Q₁或达到设置的最大迭代次数N时停止训练，将停止训练时得到的网络作为训练好的YOLOv3网络。

具体实施方式六：本实施方式与具体实施方式五不同的是：所述步骤二中将训练集数据输入YOLOv3网络进行训练时，设置学习率为0.0001，batch_size为256。

实际训练过程中，为了提高训练精度，可以适当调整学习率和batch_size的值。

具体实施方式七：如图3所示，本实施方式与具体实施方式六不同的是：所述YOLOv3网络的卷积层采用的激活函数定义为：

其中：x代表YOLOv3网络中上一层的信息作为输入，y为非线性输出；当x取正值时，YOLOv3网络的卷积层采用的激活函数与激活函数ReLU的形式相同，当x为0或负值时，采用Softplus向下平移log2个单位，当参数x不断变小时，激活函数逐渐收敛到-log2。

这意味着Softplus-ReLU具有较小的导数值，这便减少了传播到下一层的变化和信息。因此，Softplus-ReLU对噪声信息具有较强鲁棒性且其复杂度相对较低。

本实施方式的激活函数与传统的目标检测算法不同，当前常用的激活函数ReLU(Rectified Linear Unit)，相比于传统的激活函数如sigmoid，tanh等收敛速度更快。其公式定义如下：

如图1所示，ReLU但是由于落在负数域的值均为0，随着训练的进行，可能会出现神经元权重无法更新，流经神经元的梯度自此永远为0，也就是说，ReLU神经元在训练中不可逆地死亡了。

YOLO三个版本的激活函数均为Leaky-ReLU(Leaky Rectified Linear Unit)，如图2所示，该激活函数与ReLU在x取正值时一样，但是在x为0或负值时Leaky-ReLU的输出并未取0，而是采用一个斜率较小的线性函数，这样便保留了x取负值时的输出。虽然Leaky-ReLU有负值但也不能确保失活状态(deactivated state)下的噪声鲁棒性。其公式定义如下：

针对以上问题，本实施方式提出一种改进的激活函数Softplus-ReLU，被应用于网络的每一个卷积层中。当x取正值时与ReLU一样，当x为0或负值时采用Softplus向下平移log2个单位。当参数不断变小时，函数逐渐收敛到-log2。

具体实施方式八：本实施方式与具体实施方式一不同的是：所述阈值Q₁的值为0.1。

具体实施方式九：本实施方式与具体实施方式一不同的是：所述精度阈值Q₂的值为90％。

实施例

为了验证本发明所提出改进方法的有效性，以及评估交通标识检测模型的性能，我们做了四组对比实验。分别为：(1)是否使用K-means算法对初始候选边框聚类所得到的模型在准确率、召回率、收敛速度等指标上的影响。(2)使用不同激活函数对目标检测模型性能的影响。(3)改进了损失函数的模型与未改进的模型检测效果的差异。(4)本发明所改进的模型与其他主流模型在检测性能上的对比。最终模型检测性能的评价指标主要选择平均精确度均值mAP(mean Average Precision)以及每秒检测帧数FPS(Frames PerSecond)。我们的目标是在保证检测精度的前提下尽量提高检测速度。

本发明的实验环境配置如下：CPU型号为Intel Xeon E5-2620v3处理器，64G内存，显卡型号为Nvidia GeForce GTX TITAN X，CUDA版本为8.0.44，OpenCV版本为2.4.13，操作***为Ubuntu 16.04。使用GTSDB(German Traffic Sign Detection Benchmark)，包含900张1360×800像素的图像，目标图像尺寸在16×16像素到128×128像素之间。其中包含光照条件的剧烈变化，相似的背景颜色干扰，运动模糊和局部遮挡等不同状况的道路场景图片。网络参数配置如下：momentum为0.9；decay为0.0005；max batches为50000；learning rate为0.001；步长分别采用30000和40000；scales为0.1,0.1。本发明采用加载预训练(pre-training)模型darknet53.conv.74作为训练时网络的初始参数，这样可以使训练时间大大缩短。同时对输入图片的角度、曝光度、饱和度、色调、尺寸进行调整以增强模型的鲁棒性。

聚类选取初始候选边框性能分析：为了对比是否使用聚类选取初始候选边框对模型检测性能高低的影响，首先按照YOLOv3原始的候选边框参数进行训练，接着按照聚类得到的边框数量为9的参数进行训练，最终得到的模型在测试集上的性能如图4所示。当检测的阈值为0.5时，使用聚类的初始候选边框的模型在准确率(precision)、召回率、FPS上均明显高于原始候选边框的模型。召回率和准确率分别提高了2.88个百分点和3.41个百分点，平均IOU提高了3.39个百分点，且模型每秒能够多检测2张图片。

如图5所示，使用了K-means聚类候选边框的模型大约在训迭代900次后逐渐收敛，而未使用聚类的模型则在1500次开始收敛，K-means聚类使收敛速度提升了近70％。这是因为聚类后的初始候选边框参数更接近于交通标识目标宽高的特征，在优化时更容易不断接近真实的目标边框。

不同激活函数性能分析：为了验证不同的激活函数对交通标识检测模型的影响，我们分别选取了四种不同的激活函数进行实验，分别为ReLU、Softplus、Leaky-ReLU以及本发明提出的改进激活函数Softplus-ReLU。结果如表1所示，使用ReLU和使用Softplus的模型mAP相差不大；而当模型使用Leaky-ReLU时mAP提升了1.63个百分点，这得益于Leaky-ReLU对于取负值时输出的保留；但是本发明所提出的激活函数Softplus-ReLU的mAP是最高的，相较于ReLU和Leaky-ReLU分别提升了4.42个百分点和2.79个百分点，这是由于Softplus-ReLU同时保留了两个激活函数的优点：兼具了收敛速度快，对噪声具有较强的鲁棒性。

表1不同激活函数检测模型性能对比

改进的损失函数性能分析：为了验证改进损失函数的模型对于小目标检测的有效性，本发明在保证其他参数不变的条件下训练了两个交通标识检测模型，检测效果如图6所示：第一行为待检测图片，包含较多小目标；第二行为传统YOLOv3的检测效果图；第三行为本发明改进了损失函数的检测效果图。我们可以看到，本发明所改进的模型检测效果明显好于YOLOv3，YOLOv3对于三张图片中尺寸小于30×30的小目标均存在漏检的情况，而本发明提出的模型其损失函数对于大目标和小目标的损失进行了均衡使小目标的损失权重更大，故学习的更好。最终可将图片中的全部交通标识检测出来。因此，本发明所提出的针对损失函数的改进方法对于交通标识这类目标的检测是有效的。

性能对比：本发明提出的模型与其他主流模型在检测性能对比，所有模型均采用同一数据集进行训练。其中本发明的交通标识检测模型的检测精度是最高的(mAP达到了92.88％)，这得益于对激活函数改进后模型对于分类能力的增强，以及对损失函数改进后模型对于识别小目标能力的增强。由于本发明模型的网络结构Darknet53相较于YOLOv2的Darknet19层数更多更为复杂，故检测速度也低于YOLOv2，但均高于其他几种检测模型。本发明最终改进模型的速度为35FPS，高于实时检测的标准人眼视觉暂留24帧每秒(FPS，frame per second)，完全满足实时检测的要求。

而且，本发明的方法不只是应用于交通标识检测，同样适用于对图像中小目标的识别。本发明还可有其它多种实施例，在不背离本发明精祌及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于YOLOv3网络的自动驾驶中交通标识检测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于YOLOv3网络的自动驾驶中交通标识检测方法，其特征在于，所述步骤一的具体过程为：

3.根据权利要求2所述的基于YOLOv3网络的自动驾驶中交通标识检测方法，其特征在于，所述训练集和测试集的数据量比为8：1。

4.根据权利要求3所述的基于YOLOv3网络的自动驾驶中交通标识检测方法，其特征在于，对训练集数据中标注的真实目标边框进行聚类，采用面积交并比IOU作为评级指标来获得训练集数据中预测的交通标识类目标的初始候选目标边框，其具体过程为：

面积交并比IOU表示如下：

Dis(box,centroid)＝1-IOU(box,centroid)

5.根据权利要求4所述的基于YOLOv3网络的自动驾驶中交通标识检测方法，其特征在于，所述调取YOLOv3网络的初始网络参数，并将训练集数据输入YOLOv3网络进行训练，直至训练集数据输出的损失函数值小于等于阈值Q₁或达到设置的最大迭代次数N时停止训练，得到训练好的YOLOv3网络，其具体过程为：

6.根据权利要求5所述的基于YOLOv3网络的自动驾驶中交通标识检测方法，其特征在于，所述步骤二中将训练集数据输入YOLOv3网络进行训练时，设置学习率为0.0001，batch_size为256。

7.根据权利要求6所述的基于YOLOv3网络的自动驾驶中交通标识检测方法，其特征在于，所述YOLOv3网络的卷积层采用的激活函数定义为：

8.根据权利要求1所述的基于YOLOv3网络的自动驾驶中交通标识检测方法，其特征在于，所述阈值Q₁的值为0.1。

9.根据权利要求1所述的基于YOLOv3网络的自动驾驶中交通标识检测方法，其特征在于，所述精度阈值Q₂的值为90％。