CN112183203B

CN112183203B - 一种基于多尺度像素特征融合的实时交通标志检测方法

Info

Publication number: CN112183203B
Application number: CN202010866848.8A
Authority: CN
Inventors: 任坤; 黄泷; 范春奇; 陶清扬; 冯波
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2024-05-28
Anticipated expiration: 2040-08-26
Also published as: CN112183203A

Abstract

一种基于多尺度像素特征融合的实时交通标志检测方法属于深度学习和目标检测领域。首先获取含交通标志的图像并预处理；其次将预处理后的图像输入到MobileNetv2网络进行特征提取；接着将提取到的多尺度特征图输入到像素特征融合模块进行像素重排，拼接生成兼具语义信息与细节信息的融合特征图；然后对融合特征图进行下采样得到六个尺度特征图并输入到高效通道注意力模块，对特征通道按重要程度分配权重；之后将加权的六尺度特征图输入到SSD检测层来预测边界框的位置和对象的类别；最后进行非极大值抑制，得到最优的交通标志检测结果。本发明在检测交通标志图像时能够兼顾实时性与准确性，并具有很强的鲁棒性。

Description

一种基于多尺度像素特征融合的实时交通标志检测方法

技术领域

本发明属于深度学习和目标检测领域，具体涉及一种基于多尺度像素特征融合的实时交通标志检测方法。

背景技术

对于道路交通安全，交通标志至关重要。在真实的驾驶场景中，存在如日光和天气等自然环境引起的光照变化，也存在交通标志的褪色、变形、遮挡等特殊情况，人眼可能会遗漏或错误识别交通标志，导致对前方路况的错误判断，引发交通事故，造成人身财产和车辆损失，甚至威胁生命安全。实时准确的交通标志检测技术作为先进驾驶辅助***的重要组成部分，能够协助驾驶者保障行车安全，避免危险的发生，在交通安全和自动驾驶等领域具有重要的应用。

在实际应用中，要求驾驶辅助***具有极高的灵敏度，即能够在车辆离交通标志足够远处便对其类别做出识别，为驾驶者或驾驶***提供更好的预警。这需要检测算法满足高实时性与小目标检测性能。当前提升小目标检测性能的方法同时会带来额外的计算与参数，导致检测算法实时性的降低。因此，如何在不引入过多额外计算成本，保证实时性的同时提升算法的小目标检测性能以满足真实驾驶辅助***的需要是亟待解决的问题。

发明内容

为了解决上述技术问题，本发明旨在提供一种基于多尺度像素特征融合的实时交通标志检测方法，克服了基于深度学习的交通标志方法难以兼顾实时性与准确性的困难。

为了实现上述技术目的，本发明的技术方案为：

一种基于多尺度像素特征融合的实时交通标志检测方法，包括以下步骤：

(1)获取含有交通标志的图像，对获取到的图像进行预处理；

(2)将步骤(1)预处理后得到的图像输入MobileNetv2网络进行特征提取，得到三个尺度的深度特征图；

(3)将步骤(2)得到的三个尺度的深度特征图输入到像素特征融合模块进行像素重排，拼接生成兼具语义信息与细节信息的融合特征图；

(4)将步骤(3)得到的融合特征图进行下采样得到六个尺度特征图并输入到高效通道注意力模块，对特征通道按重要程度分配权重；

(5)将步骤(4)生成的带有权重的六个尺度特征图输入到SSD检测层进行交通标志的分类与定位，最后进行非极大值抑制，得到最优的交通标志检测结果。

进一步地，步骤(1)的具体过程如下：

(a)获取包含交通标志的图像，对每张图像中出现的每一个交通标志标注出其边界框和类别信息；

(b)采集的图像数量较少时，利用已有的图像进行数据增强操作。采用翻转、平移、旋转或加噪声等方法创造出更多的图像，使得训练的神经网络具有更好的效果；

(c)将图像分辨率统一转化为300*300以适应输入尺寸；

(d)将图像进行基于正负样本数目的优化，划分得到训练图像集和测试图像集。

进一步地，步骤(2)的具体过程如下：

(A)300*300输入图像首先通过3*3的标准卷积块进行初步特征提取，得到150*150*32特征图，其中，32表示特征图的通道数；

(B)步骤(A)中得到的150*150*32特征图依次经过6个反向残差瓶颈块进行深度特征提取，分别得到38*38*32、19*19*96、10*10*320的深度特征图A、B、C。

进一步地，步骤(3)的具体过程如下：

(Ⅰ)对步骤(2)特征提取得到的10*10*320深度特征图进行上采样因子为4的像素重排，得到38*38*20上采样特征图D；

(Ⅱ)对步骤(2)特征提取得到的19*19*96深度特征图进行像上采样因子为2的像素重排，得到38*38*24上采样特征图E；

(Ⅲ)将步骤(Ⅰ)和步骤(Ⅱ)中像素重排得到的38*38*20上采样特征图D和38*38*24上采样特征图E与步骤(2)特征提取得到的38*38*32深度特征图A进行拼接处理，生成兼具语义信息与细节信息的38*38*76融合特征图F。

其中，步骤(3)中的像素特征融合模块采用像素重排方式合成融合特征图，相较于其他上采样方式像素重排能够在不增加任何额外参数和计算的情况下增强特征图携带的信息；像素重排通过压缩特征图中的通道数来扩展宽度和长度，其本质是将通道数为r²C，长宽为H*W的低分辨率特征图中处于相同像素位置的特征按特定顺序重新排列，得到通道数为C，长宽为rH*rW的高分辨率特征图，其中r表示上采样因子；不同于插值与反卷积的上采样方式，像素重排不会引入额外的参数与计算消耗，同时可以解决插值和反卷积的一些人工痕迹或棋盘效应的问题。

进一步地，步骤(4)的具体过程如下：

(i)将步骤(3)得到的38*38*76融合特征图F采用步幅为2的卷积进行下采样，得到19*19*256特征图G；再对特征图G采用步幅为2的卷积进行下采样，得到10*10*256特征图H；照此步骤依次得到5*5*256特征图I、3*3*128特征图J、1*1*128特征图K；

(ii)将步骤(3)得到的38*38*76融合特征图F与步骤(i)得到的特征图G～K共六个尺度的特征图分别输入到高效通道注意力模块，对特征通道按重要程度分配权重，得到带有权重的六个尺度的特征图；

其中，步骤(ii)的高效通道注意力模块能够学习通道间的关系，基于通道重要程度赋予通道权重；

首先，对特征通道维度进行压缩，将H*W*C的原始特征通道经过全局池化转化为1*1*C，得到通道维度上的全局特征值；

再用卷积核大小为5的一维卷积来对每个通道与其5个邻域通道之间进行信息提取整合以获取通道间的相关性参数L_i：

其中，α^j表示一维卷积核参数，经过Xavier初始化设定后随网络训练而更新；表示表示特征通道C_i的5个邻域通道/>中第j个通道的全局特征值；

之后将L_i通过Sigmoid激活函数得到每个通道的激活值，作为通道的权重ω_i：

其中，σ表示Sigmoid激活函数；

最后将权重与原通道特征值相乘，得到加权后的输出特征通道；网络能够通过加权特征通道来关注重要的主体特征。

进一步地，步骤(5)的具体过程如下：

(一)将步骤(4)中得到的带有权重的六个尺度特征图作为输入，对输入特征图的每一个像素生成多个默认框，之后分别由定位子网络和分类子网络进行检测；检测值包含两个部分：边界框位置和类别置信度；定位子网络对每一个默认框预测一个边界框；分类子网络对每一个默认框预测其所有类别的置信度；

(二)使用非极大值抑制对多个预测框内的目标类别置信度及预测框相对默认框的位置偏移量进行抑制，将目标损失函数为最小值的预测框选为最优预测框，得到最优的预测框内的目标类别及预测框位置。

其中，步骤(二)中的检测网络的目标损失函数L(x,l,c,g)由分类损失函数L_conf(x,c)和定位损失函数L_loc(x,l,g)组成：

其中，x为特征图上的默认框，l为预测框，c为特征图上的默认框在每个类别上的置信度预测值，g为真实框，L_conf(x,c)表示特征图上的默认框在类别得分集合c上的softmax分类损失函数，L_loc(x,l,g)表示位置损失函数，N表示与真实框所匹配的默认框数量，权重系数α通过交叉验证设置为1。检测网络通过优化损失函数来实现更为准确的目标定位与分类。

采用上述技术方案带来的有益效果：

本发明提出一种多尺度像素特征融合策略，通过对MobileNetv2网络提取到的深层特征图进行像素重排合成融合特征图，相较于其他上采样方式像素重排能够在不增加任何额外参数和计算的情况下增强特征图携带的小目标信息；在检测网络前加入高效通道注意力模块，对特征通道按重要程度分配权重，有效提升检测性能。本发明的方法具有内存占用少、检测速度快、小目标检测精准的优点，可以实现高精度的实时交通标志检测。

附图说明

图1本发明的流程示意图；

图2本发明的模型结构图；

具体实施方式

为了使本发明方法的目的，技术方案以及优点更加清楚明白，以下结合附图及实例解释本发明，并不用于限定本发明：

步骤1、获取包含交通标志的图像，对每张图像中出现的每一个交通标志标注出其边界框和类别信息。

采集的图像数量较少时，利用已有的图像进行数据增强操作。采用翻转、平移、旋转或加噪声等方法创造出更多的图像，使得训练的神经网络具有更好的效果。

将图像分辨率统一转化为300*300以适应输入尺寸。

将图像进行基于正负样本数目的优化，划分得到训练图像集和测试图像集。

步骤2、将300*300输入图像首先通过3*3的标准卷积块进行初步特征提取，得到150*150*32特征图，其中，32表示特征图的通道数。

将150*150*32特征图依次经过6个反向残差瓶颈块进行深度特征提取，分别得到38*38*32、19*19*96、10*10*320的深度特征图A、B、C。

步骤3、对步骤2特征提取得到的10*10*320深度特征图进行上采样因子为4的像素重排，得到38*38*20上采样特征图D；

对步骤2特征提取得到的19*19*96深度特征图进行像上采样因子为2的像素重排，得到38*38*24上采样特征图E；

将像素重排得到的38*38*20上采样特征图D和38*38*24上采样特征图E与38*38*32深度特征图A进行拼接处理，生成兼具语义信息与细节信息的38*38*76融合特征图F。

步骤4、将步骤3得到的38*38*76融合特征图F采用步幅为2的卷积进行下采样，得到19*19*256特征图G；再对特征图G采用步幅为2的卷积进行下采样，得到10*10*256特征图H；照此步骤依次得到5*5*256特征图I、3*3*128特征图J、1*1*128特征图K；

将38*38*76融合特征图F与特征图G～K共六个尺度的特征图分别输入到高效通道注意力模块，对特征通道维度进行压缩，将H*W*C的原始特征通道经过全局池化转化为1*1*C，得到通道维度上的全局特征值；

其中，σ表示Sigmoid激活函数；

最后将权重与原通道特征值相乘，得到带有权重的六个尺度的特征图；

步骤5、将步骤4中得到的带有权重的六个尺度特征图作为输入，对输入特征图的每一个像素生成多个默认框，之后分别由定位子网络和分类子网络进行检测；检测值包含两个部分：边界框位置和类别置信度；定位子网络对每一个默认框预测一个边界框；分类子网络对每一个默认框预测其所有类别的置信度。

使用非极大值抑制对多个预测框内的目标类别置信度及预测框相对默认框的位置偏移量进行抑制，将目标损失函数为最小值的预测框选为最优预测框，得到最优的预测框内的目标类别及预测框位置。

其中，网络的目标损失函数L(x,l,c,g)由分类损失函数L_conf(x,c)和定位损失函数L_loc(x,l,g)组成：

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所作的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于多尺度像素特征融合的实时交通标志检测方法，其特征在于，包括以下步骤：

(1)获取含有交通标志的图像，对获取到的图像进行预处理；

(5)将步骤(4)生成的带有权重的六个尺度特征图输入到SSD检测层进行交通标志的分类与定位，最后进行非极大值抑制，得到最优的交通标志检测结果；

步骤(3)中的像素特征融合模块采用像素重排方式合成融合特征图，相较于其他上采样方式像素重排能够在不增加任何额外参数和计算的情况下增强特征图携带的信息；像素重排通过压缩特征图中的通道数来扩展宽度和长度，其本质是将通道数为r²C，长宽为H*W的低分辨率特征图中处于相同像素位置的特征按特定顺序重新排列，得到通道数为C，长宽为rH*rW的高分辨率特征图，其中r表示上采样因子；

步骤(4)的具体过程如下：

步骤(ii)的高效通道注意力模块能够学习通道间的关系，基于通道重要程度赋予通道权重；

首先，对特征通道维度进行压缩，将H*W*C特征图的原始特征通道经过全局池化转化为1*1*C，得到通道维度上的全局特征值；

其中，σ表示Sigmoid激活函数；

2.如权利要求1所述的一种基于多尺度像素特征融合的实时交通标志检测方法，其特征在于，步骤(1)的具体过程如下：

(a)获取包含交通标志的图像，并进行数据增强操作；

(b)对每张图像中出现的每一个交通标志标注出其边界框和类别信息；

(c)将图像分辨率统一转化为300*300以适应输入尺寸；

3.如权利要求1所述的一种基于多尺度像素特征融合的实时交通标志检测方法，其特征在于，步骤(2)的具体过程如下：

4.如权利要求1所述的一种基于多尺度像素特征融合的实时交通标志检测方法，其特征在于，步骤(3)的具体过程如下：

5.如权利要求1所述的一种基于多尺度像素特征融合的实时交通标志检测方法，其特征在于，步骤(5)的具体过程如下：

6.如权利要求5所述的一种基于多尺度像素特征融合的实时交通标志检测方法，其特征在于，步骤(二)中，检测网络的目标损失函数L(x,l,c,g)由分类损失函数L_conf(x,c)和定位损失函数L_loc(x,l,g)组成：

其中，x为特征图上的默认框，l为预测框，c为特征图上的默认框在每个类别上的置信度预测值，g为真实框，L_conf(x,c)表示特征图上的默认框在类别得分集合c上的softmax分类损失函数，L_loc(x,l,g)表示位置损失函数，N表示与真实框所匹配的默认框数量，权重系数α通过交叉验证设置为1。