CN112464911A

CN112464911A - 基于改进YOLOv3-tiny的交通标志检测与识别方法

Info

Publication number: CN112464911A
Application number: CN202011516279.0A
Authority: CN
Inventors: 朱梓铭; 邢关生; 孙晗松; 王连彪; 王光泽
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-09

Abstract

本发明提供基于改进YOLOv3‑tiny的交通标志检测与识别方法，包括以下步骤：采集交通标志图像数据，采用几何变换和色彩变换对图像数据进行增强扩增，并进行图像标注，得到交通标志训练集；构建改进的YOLOv3‑tiny网络模型，并采用交通标志训练集对改进的YOLOv3‑tiny网络模型进行训练；根据交通标志图像数据构建交通标志测试集，并利用训练好的改进的YOLOv3‑tiny网络模型对交通标志测试集进行检测与识别。本发明的改进的YOLOv3‑tiny有较强的泛化能力，占用存储空间和显存空间较小，提高了检测识别准确率，同时还能保证实时性，能够在算力有限的车载嵌入式设备中实现精确和快速的交通标志检测与识别。

Description

基于改进YOLOv3-tiny的交通标志检测与识别方法

技术领域

本发明涉及人工智能的深度学习技术领域，特别涉及一种基于YOLOv3-tiny改进的交通标志检测与识别方法。

背景技术

深度学***，但其网络模型体积较为庞大，无法在算力有限的车载嵌入式设备中达到实时性要求，而注重检测速度的精简版本YOLOv3-tiny实时性较高，占用显存空间较小，却存在检测准确性不高的问题，不能完全适用于自动驾驶的交通标志检测任务中。

因此，需要对YOLOv3-tiny检测算法进行改进以满足车载嵌入式设备的算力和交通标志检测精度要求。

发明内容

本发明的目的在于提供一种基于YOLOv3-tiny改进的交通标志检测与识别方法，选取YOLOv3的精简版本YOLOv3-tiny为基础算法，在网络结构上对基础算法进行改进，改进的YOLOv3-tiny有较强的泛化能力，占用存储空间和显存空间较小，提高了检测识别准确率，同时还能保证实时性，能够在算力有限的车载嵌入式设备中实现精确和快速的交通标志检测与识别。

为实现上述目的，本发明提供了如下方案：本发明提供基于改进YOLOv3-tiny的交通标志检测与识别方法，包括以下步骤：

采集交通标志图像数据，采用几何变换和色彩变换对图像数据进行增强扩增，并进行图像标注，得到交通标志训练集；

构建改进的YOLOv3-tiny网络模型，并采用交通标志训练集对改进的YOLOv3-tiny网络模型进行训练；

根据交通标志图像数据构建交通标志测试集，并利用训练好的改进的YOLOv3-tiny网络模型对交通标志测试集进行检测与识别。

优选地，所述调节色彩变换是通过调节色相、对比度、饱和度和亮度来进行色彩变换；

所述几何变换是通过随机剪裁和随机拼接来进行图像的几何变换。

优选地，所述改进的YOLOv3-tiny网络模型的改进过程为：

在YOLOv3-tiny主干网络末尾增加一层卷积核数量为256、尺寸为1×1、步长为1的卷积层构成新的主干网络；在新的主干网络之后连接一层卷积核数量为128、尺寸为1×1、步长为1的卷积层和一层上采样层；在8×8尺度的输出层之前增加一层卷积核数量为42、尺寸为1×1、步长为1的卷积层，在16×16尺度的输出层之前增加一层卷积核数量为42、尺寸为1×1、步长为1的卷积层。

优选地，所述改进的YOLOv3-tiny网络模型的主干网络主要由6个大小为3×3的卷积层、2个大小为1×1的卷积层和5个步长为2的池化层组成；并在每个卷积层后添加批标准化层；

所述改进的YOLOv3-tiny网络模型的前7个卷积层的卷积核个数依2的幂次关系递增，分别有16、32、64、128、256、512、1024个卷积核，最后一个卷积层拥有256个卷积核；

所述改进的YOLOv3-tiny网络模型的主干网络后分别引出8×8尺度分支和16×16尺度分支。

优选地，所述16×16尺度分支接入一层卷积核数量为128、尺寸为1×1、步长为1的卷积层和一层上采样层，并与主干网络中第4个池化层引出的分支一起进行维度扩增，接入一个卷积核数量为256、尺寸为3×3、步长为1的卷积层和一个卷积核数量为42、尺寸为1×1、步长为1的卷积层，能够输出16×16尺度分支的检测结果；

所述8×8尺度分支接入一个卷积核数量为512、尺寸为3×3、步长为1的卷积层和一个卷积核数量为42、尺寸为1×1、步长为1的卷积层，能够输出8×8尺度分支的检测结果。

优选地，所述改进的YOLOv3-tiny网络模型的检测与识别过程为：将交通标志测试集图像的每个像素值进行归一化并将图像缩放，并送入改进的YOLOv3-tiny网络模型的网络进行推理；通过不同尺度的输出通道直接得到包含目标框坐标、目标置信度和目标框内物体类别在内的特征图；根据网络模型输出的置信度对检测结果进行非极大值抑制和分类识别，得到最终的检测结果。

优选地，所述对改进的YOLOv3-tiny网络模型进行训练过程中，采用动态学习率改善模型在不同训练阶段的收敛速度，并使用RMSProp优化器改善损失下降路径。

优选地，采用平均类别准确率、平均交并比和FPS作为性能指标来检测所述改进的YOLOv3-tiny网络模型对交通标志的检测能力。

本发明公开了以下技术效果：

(1)与原版YOLOv3-tiny相比，本发明构建的改进的YOLOv3-tiny网络模型仅增加很小的存储空间占用量，就能显著提高对交通标志检测识别的准确率，还能保证实时性；

(2)本发明构建的改进的YOLOv3-tiny占用存储空间小，具有YOLOv3-tiny的高实时性及YOLOv3的高准确率的双重优点，在保证检测实时性的同时，大大提高了准确率；

(3)本发明构建的改进的YOLOv3-tiny网络模型对交通标志类别的分类能力强，预测交通标志位置准确度高，检测速度快，实时性好，能够在算力很小的车载嵌入式设备中实现准确和快速的检测识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于改进YOLOv3-tiny的交通标志检测与识别方法流程示意图；

图2为本发明改进的YOLOv3-tiny网络模型结构示意图；

图3为本发明改进的YOLOv3-tiny目标检测流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供基于改进YOLOv3-tiny的交通标志检测与识别方法，包括以下步骤：

S1、采集交通标志图像数据，采用几何变换和色彩变换对图像数据进行增强扩增，并进行图像标注，得到交通标志训练集。

本实施例通过人工遥控小车在车道上行驶，利用车载摄像头获取包含起跑线、斑马线、限速标志、取消限速标志、直行、左转弯、红灯、绿灯、停车标志、蓝色路障、红色路障、红线、超车标志共13个类别的交通标志图像，构成基础数据集。为增强图像的多样性，通过人工控制灯光照射的角度和强度及室外光照来实现不同的行车光线环境，模拟行车过程中可能受到的视觉干扰效果，进行多种环境干扰下数据的采集，并通过控制不同的车速来采集不同清晰度的交通标志图像。

本实施例采用调节色彩变换和几何变换两种数据增强的方法对交通标志基础数据集进行扩增，共获得了2964张RGB三通道图片。其中包含起跑线、斑马线、限速标志、取消限速标志、直行、左转弯、红灯、绿灯、停车标志、蓝色路障、红色路障、红线、超车标志共13个类别的交通标志，各类别图像数量在200～400不等，得到的数据集具有多样性和均衡性。

调节色彩变换是指通过调节色相、对比度、饱和度和亮度来进行色彩变换；几何变换是指通过随机剪裁和随机拼接来进行图像的几何变换。其中，设置任一图片都有50％的概率增加或减少[0,18]绝对值范围内的色相、[0,0.5]比例范围内的对比度、[0,0.5]比例范围内的饱和度和[0,0.125]比例范围内的亮度，以及50％的概率进行随机剪裁和拼接。

用LabelImg标注软件生成包含目标标注信息的xml文件，构建出与原图像对应的交通标志训练集。将目标的标注信息做可视化，叠加在原图像中。

S2、构建改进的YOLOv3-tiny网络模型，并采用交通标志训练集对改进的YOLOv3-tiny网络模型进行训练。

本实施例选取YOLOv3的精简版本YOLOv3-tiny为基础算法，在网络不同部分增加了特定的卷积层对基础算法进行改进，通过聚类分析确定最符合数据集分布的预设候选框(anchor)组合。

本实施例将交通标志训练集图像的每个像素值进行归一化并将图像缩放到256×256尺寸，送入网络进行推理，通过2个不同尺度(8×8、16×16)的输出通道直接得到包含目标框坐标、目标置信度和目标框内物体类别在内的特征图，根据网络模型输出的置信度对检测结果进行非极大值抑制(NMS)和分类识别，最终输出检测结果。

本实施例对原版YOLOv3-tiny网络进行改进，在原主干网络末尾增加一层卷积核数量为256、尺寸为1×1、步长为1的卷积层构成新的主干网络，在新的主干网络之后连接一层卷积核数量为128、尺寸为1×1、步长为1的卷积层和一层上采样层以将特征图尺寸上采样到16×16，在8×8尺度的输出层之前增加一层卷积核数量为42、尺寸为1×1、步长为1的卷积层，在16×16尺度的输出层之前增加一层卷积核数量为42、尺寸为1×1、步长为1的卷积层，以更好地适应行车环境下的数据，强化特征提取过程，增强多尺度特征融合能力，提升网络的检测精度。

具体而言，如图2所示，本实施例改进的YOLOv3-tiny主干网络主要由6个大小为3×3的卷积层(Conv2d)、2个大小为1×1的卷积层(Conv2d)和5个步长为2的池化层(Pool2d)组成。每个卷积层后添加批标准化层(Batch normalization)，加速了网络的收敛。不同的卷积运算如1×1和3×3的卷积核可以获得交通标志图像中不同感受域的信息，汇集这些卷积运算的结果可以获得丰富的特征信息，非常适合多尺度特征的提取，从而将网络的低级特征和高级特征关联起来。增加的1×1卷积核只有一个参数，相当于原始特征图的缩放，实现跨通道信息的整合和通道数量的改变。

主干网络中除最后一个卷积层拥有256个卷积核之外，前7个卷积层卷积核个数依2的幂次关系递增，分别有16、32、64、128、256、512、1024个卷积核。

主干网络后分别引出8×8尺度分支和16×16尺度分支。因此本实施例改进的YOLOv3-tiny包括两尺度预测的方式：

(1)16×16尺度分支接入一层卷积核数量为128、尺寸为1×1、步长为1的卷积层和一层上采样层(Unsample)，后与主干网络中第4个池化层引出的分支一起进行维度扩增，接入一个卷积核数量为256、尺寸为3×3、步长为1的卷积层和一个卷积核数量为42、尺寸为1×1、步长为1的卷积层，最终能够输出16×16尺度分支的检测结果，这种方式易于检测小目标物体；

(2)8×8尺度分支则接入一个卷积核数量为512、尺寸为3×3、步长为1的卷积层和一个卷积核数量为42、尺寸为1×1、步长为1的卷积层，最终能够输出8×8尺度分支的检测结果，这种方式易于检测大目标物体。

如图3所示，本实施例改进的YOLOv3-tiny的目标检测思路为：先将输入图像划分成S×S个网格，如果某网格的中心内落有某目标物体，则这个网格就负责预测这个物体。每个网格预测出检测物体边界框的4个偏移坐标(t_x,t_y,t_w,t_h)以及置信度得分。

改进的YOLOv3-tiny的网络在2种不同的尺度上进行预测，分别为8×8和16×16，每种尺度预测3个边界框，得到的张量尺寸为S×S×[3×(4+1+9)]，其中包含4个边界框的坐标(t_x,t_y,t_w,t_h)、1个目标预测以及9种分类预测。假设以图像左上角顶点为坐标原点，则单元格相对于图像的坐标为(x₀,y₀)，且先验边界框(Bounding Box Prior)具有宽度p_w和高度p_h，那么预测出的检测框可以表示为：

其中：(b_x,b_y)为检测框的中心坐标；σ()表示将t_x和t_y归一化为0～1；b_w和b_h分别为检测框的宽度和高度。

对改进的YOLOv3-tiny算法在预设候选框(anchor)方面，通过维度聚类确定出最优anchor宽高维度。在维度聚类分析时采用k-means算法，得到的距离函数如下:

其中：i表示聚类的类别数；j表示数据集的数据；Box[i]表示每个聚类中心预设框的尺寸大小；Truth[j]表示数据集中交通标志框的尺寸大小。

改进的YOLOv3-tiny网络在处理输入图像时采用网格对其进行分割，在每个网格中设置6个参考anchor，训练以真实框(Ground Truth)作为基准计算分类与回归损失。6个anchor boxes对应6个不同尺度，都具有独立分类结果，减少了训练所需的迭代次数，优化了网络的准确率。

对候选区域内的预测框按照分类器类别得分由高到低的顺序进行排序，选择得分最高的候选框并依次计算与其余候选框的IOU值；设定阈值，若IOU值大于设定阈值，则将得分较低的检测框删除；最后，从未处理的检测框中继续选择得分最高的检测框，重复进行直到所有的预测框都被处理。

其中：S_i表示窗口被过滤掉的可能；iou()表示面积的交并比；M表示第i次筛选中置信度得分最高的候选框；b_i表示除去M以外其它的候选框；N_t表示预先设定的阈值，本实施例设置阈值为0.45。

本实施例采用训练集对改进的YOLOv3-tiny网络模型进行训练，将训练集数据送入改进的YOLOv3-tiny网络模型进行正向传播，得到网络模型的输出结果，将网络模型的输出结果送入损失函数，通过反向传播算法来确定梯度向量，最后通过梯度向量来调整每一个网络权值，使得网络模型的输出误差趋向收敛于零，重复上述过程直至达到设定的遍历次数即训练完成。为了提高模型训练性能，采用动态学习率改善模型在不同训练阶段的收敛速度，使用RMSProp优化器改善损失下降路径。

本实施例网络模型训练超参数设置为：输入数据的批大小为32，输入图像尺寸为256×256，迭代次数为40000，遍历次数(epoch)为1000，初始学习率为0.01，结束学习率0.0002。设置初始学习率为0.01，算法在100个Epoch后开始收敛，继续训练随着学习率的动态调整，算法得以进一步收敛，经过300个epoch后，学习率衰减为初始学习率的0.5倍；经过500个epoch后，学习率衰减为初始学习率的0.25倍；经过700个epoch后，学习率衰减为初始学习率的0.1倍；经过900个epoch后，学习率衰减为初始学习率的0.02倍，最终训练结束时学习率为0.0002。说明交通标志检测网络有效且性能较好。

为了进一步优化损失函数在更新中存在摆动幅度过大的问题，加快函数的收敛速度，优化器选用RMSProp(Root Mean Square Prop)，该算法对权重W和偏置b的梯度使用了微分平方加权平均数。当dW或者db中有一个值比较大，则更新权重或者偏置的时候除以之前累积的梯度的平方根，这样就可以使得更新幅度变小。

其中，假设在第t轮迭代过程中，各个公式如下所示：

S_dw＝βS_dw+(1-β)dW² (5)

S_db＝βS_db+(1-β)db² (6)

其中：S_dw和S_db分别是损失函数在前t-1轮迭代过程中累积的权重梯度动量和偏置梯度动量；α是学***滑。

选取损失值为指标，对交通标志检测网络的性能和有效性进行评价。在模型的训练过程中，不断调整网络中的参数，优化损失函数loss的值达到最小，完成模型的训练。在YOLOv3-tiny中，损失函数yolo loss封装自定义Lambda的损失层中，作为模型的最后一层，参与训练。损失层Lambda的输入是已有模型的输出和真值，输出是损失值。

改进的YOLOv3-tiny网络模型沿用YOLOv3-tiny的loss。其中，K×K为网格数，在本发明中即为8×8、16×16；M为box，当box有目标物时，

值为1，否则为0；当box无目标物时，

值为1，否则为0。

由此得损失函数loss为：

S3、根据交通标志图像数据构建交通标志测试集，并利用训练好的改进的YOLOv3-tiny网络模型对交通标志测试集进行检测与识别。

测试集由600张行车车载摄像头采集的交通标志图像组成，是小车在不同的时间段、不同的天气因素、不同的灯光情况、不同的门窗开启情况以及不同的人员走动情况下采集的图像，包括起跑线、斑马线、限速标志、取消限速标志、直行、左转弯、红灯信号、绿灯信号、停车标志、蓝色路障、红色路障、红线、超车标志共13类交通标志图像。用LabelImg标注软件生成包含目标标注信息的xml文件，构建出与原图像对应的交通标志测试集。

利用训练好的改进型YOLOv3-tiny网络模型对交通标志测试集进行检测和识别。将交通标志测试集图像进行处理，对每个像素值进行归一化并将图像缩放，并送入改进的YOLOv3-tiny网络模型的网络进行推理；通过不同尺度的输出通道直接得到包含目标框坐标、目标置信度和目标框内物体类别在内的特征图；根据网络模型输出的置信度对检测结果进行非极大值抑制和分类识别，得到最终的检测结果；以平均类别准确率(mAcc)、平均交并比(mIoU)和FPS作为性能指标来检测算法对交通标志的检测能力。mAcc代表模型的分类能力，计算方法为：

其中：N_truei为第i张图像中预测正确的目标类别数量；N_alli为第i张图像中所有目标类别的数量；Acc_i为第i张图像的类别准确率；mAcc的计算结果值范围为[0，1]；mIoU可以表征模型预测目标所在位置的准确程度，IoU计算方法为：

其中：R_t为真实标注框；R_a为模型预测框；mIoU即为所有图像IoU的平均值，越高代表模型预测的目标位置与目标的真实位置重合程度越高，即预测位置更准确，计算结果值范围为[0，1]；FPS反映了模型的推理速度，FPS越高，实时性越好。

为了验证本发明的有效性，本实施例在三个平台上对交通标志测试集进行检测与识别，分别是：(1)搭载英伟达V100显卡(算力为125TOPS)，搭配完整版Paddle神经网络框架的百度AT Studio计算服务器；(2)搭载英伟达GTX1050 Max-Q显卡(算力为35TOPS)，搭配完整版Paddle神经网络框架的PC；(3)搭载Edgeboard计算卡(算力为1.2TOPS)，搭配Paddle-Lite轻量级神经网络框架的小车。测试结果见表1。

为了比较各模型的性能，本实施例对原版YOLOv3-tiny和YOLOv3也进行测试，测试结果如表1所示，各种交通标志检测模型占用存储空间如表2所示。

表1

表2

检测算法	占用存储空间
		本发明改进的YOLOv3-tiny	16.3MB
原版YOLOv3-tiny	14.9MB
		YOLOv3	236MB

由表1和表2可知：

(1)本发明构建的改进的YOLOv3-tiny网络模型在AI Studio平台上测试的结果是：平均类别准确率为97.25％，平均交并比为76.38％，分别比原版YOLOv3-tiny提高10.31％和8.1％；FPS为124，比YOLOv3-tiny减少2，比YOLOv3增加66。由此可见，本发明改进的YOLOv3-tiny网络模型占用空间小，且拥有YOLOv3-tiny的高实时性及YOLOv3的高准确率的双重优点，在保证实时性的同时，大大提高了准确率。

(2)本发明构建的改进的YOLOv3-tiny网络模型在显卡为GTX1050Max-Q的PC平台上测试的结果是：平均类别准确率为99.83％，平均交并比为69.24％，分别比原版YOLOv3-tiny提高14.72％和9.72％；FPS为97，比YOLOv3-tiny减少6，比YOLOv3增加76。由此可见，本发明改进的YOLOv3-tiny网络模型占用空间小，且具有YOLOv3-tiny的高实时性及YOLOv3的高准确率的双重优点，在保证实时性的同时，大大提高了准确率。

(3)本发明构建的改进的YOLOv3-tiny网络模型在搭载Edgeboard计算卡、搭配Paddle-Lite轻量级神经网络框架的小车上测试的结果是：平均类别准确率为96.67％，平均交并比为70.53％，FPS为73。本发明改进的YOLOv3-tiny网络模型能够在算力很小的车载嵌入式设备中实现准确和快速的检测。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.基于改进YOLOv3-tiny的交通标志检测与识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进YOLOv3-tiny的交通标志检测与识别方法，其特征在于，所述调节色彩变换是通过调节色相、对比度、饱和度和亮度来进行色彩变换；

3.根据权利要求1所述的基于改进YOLOv3-tiny的交通标志检测与识别方法，其特征在于，所述改进的YOLOv3-tiny网络模型的改进过程为：

4.根据权利要求3所述的基于改进YOLOv3-tiny的交通标志检测与识别方法，其特征在于，所述改进的YOLOv3-tiny网络模型的主干网络主要由6个大小为3×3的卷积层、2个大小为1×1的卷积层和5个步长为2的池化层组成；并在每个卷积层后添加批标准化层；

5.根据权利要求4所述的基于改进YOLOv3-tiny的交通标志检测与识别方法，其特征在于，所述16×16尺度分支接入一层卷积核数量为128、尺寸为1×1、步长为1的卷积层和一层上采样层，并与主干网络中第4个池化层引出的分支一起进行维度扩增，接入一个卷积核数量为256、尺寸为3×3、步长为1的卷积层和一个卷积核数量为42、尺寸为1×1、步长为1的卷积层，能够输出16×16尺度分支的检测结果；

6.根据权利要求1所述的基于改进YOLOv3-tiny的交通标志检测与识别方法，其特征在于，所述改进的YOLOv3-tiny网络模型的检测与识别过程为：将交通标志测试集图像的每个像素值进行归一化并将图像缩放，并送入改进的YOLOv3-tiny网络模型的网络进行推理；通过不同尺度的输出通道直接得到包含目标框坐标、目标置信度和目标框内物体类别在内的特征图；根据网络模型输出的置信度对检测结果进行非极大值抑制和分类识别，得到最终的检测结果。

7.根据权利要求1所述的基于改进YOLOv3-tiny的交通标志检测与识别方法，其特征在于，所述对改进的YOLOv3-tiny网络模型进行训练过程中，采用动态学习率改善模型在不同训练阶段的收敛速度，并使用RMSProp优化器改善损失下降路径。

8.根据权利要求1所述的基于改进YOLOv3-tiny的交通标志检测与识别方法，其特征在于，采用平均类别准确率、平均交并比和FPS作为性能指标来检测所述改进的YOLOv3-tiny网络模型对交通标志的检测能力。