CN111242127B

CN111242127B - 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法

Info

Publication number: CN111242127B
Application number: CN202010042002.2A
Authority: CN
Inventors: 杨振坤; 马向华; 狄逸群; 茅丰; 于志强
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-02-24
Anticipated expiration: 2040-01-15
Also published as: CN111242127A

Abstract

本发明公开了基于非对称卷积的具有粒度级多尺度特性的车辆检测方法，包括以下步骤：步骤S1：通过视频流获取若干包含车辆的图片，制作车辆目标检测数据集，包括训练集和测试集；步骤S2：设计非对称卷积AC单元；步骤S3：将非对称卷积AC单元嵌入Res2Net模块构建具有粒度级多尺度特性的非对称卷积ACB模块；步骤S4：将ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet；步骤S5：利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet；步骤S6：将测试集图片放入分类网络ACBNet进行分类，之后再经过残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标。

Description

基于非对称卷积的具有粒度级多尺度特性的车辆检测方法

技术领域

本发明涉及深度学习中的视频检测技术领域，特别涉及基于非对称卷积的具有粒度级多尺度特性的车辆检测方法。

背景技术

近年来，随着市场需求的增长以及人工智能的不断发展，自动驾驶逐步成为了各大学者研究的热点问题之一。车辆目标检测作为自动驾驶中的一个重要步骤，也是大家研究的主要问题之一。在智能交通监控视频中，目标检测技术也得到了广泛的应用。车辆检测技术是利用计算机视觉技术判断静态图像或动态视频中是否存在车辆并定位车辆的位置信息。在现实生活的交通场景中，车辆目标检测受到多种因素的干扰，如：光照、遮挡等。如何快速地、准确地对复杂交通场景下的车辆进行检测、识别已经成为一个值得深入研究的课题。基于深度学习特征提取的车辆检测方法学到的特征具有很强层次表达能力，可以更好的解决一些视觉问题。然而现有的基于深度学习的车辆检测方法鲁棒性以及解决多尺度问题表现欠佳。

发明内容

为了克服现有技术中的不足，本发明提供基于非对称卷积的具有粒度级多尺度特性的车辆检测方法，用以解决现有技术中实时性和鲁棒性低、多尺度问题检测性能相对较差的问题。

为了达到上述发明目的，解决其技术问题所采用的技术方案如下：

基于非对称卷积的具有粒度级多尺度特性的车辆检测方法，包括以下步骤：

步骤S1：通过视频流获取若干包含车辆的图片，制作车辆目标检测数据集，包括训练集和测试集；

步骤S2：设计非对称卷积AC单元；

步骤S3：将步骤S2设计的非对称卷积AC单元嵌入Res2Net模块构建具有粒度级别多尺度特性的非对称卷积ACB模块；

步骤S4：将步骤S3设计的ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet；

步骤S5：利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet；

步骤S6：将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类，之后再经过具有通道和空间注意力的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标。

进一步的，步骤S2具体为：一个AC单元由卷积核为1×3和1×3、1×3、3×1三个平行分支组成，对于AC单元中的一个分支，

表示卷积层的输入，使用F＝[g₁，g₁，...，g_c]表示学习的卷积核集，其中g_c表示对应的第c个卷积核的参数，

表示卷积层的输出，H、W、C分别表示输出特征图的高度、宽度、通道数，对于该层的第c个滤波器，对应的输出特征图通道为：

其中，*表示卷积，

U＝[V¹，V²，...，V^C]，

I＝[Y¹，Y²，...，Y^D]和

表示g_c的单个通道的二维空间核，V^c表示U的第c个输出特征图通道，Y^s表示I的第s个输入特征图通道；

为了减少过拟合，在卷积层之后采用批量归一化操作，批处理后的归一化层进行线性尺度变换以增强网络的表示能力，输出特征映射通道变为：

其中，u_c和σ_c表示通道平均值和批量归一化的标准偏差，γ_c和β_c分别表示学习尺度因子和偏差项；

每一层中的每个卷积操作之后都要进行批量归一化，称为一个分支，三个分支的输出汇总为AC单元的输出，对于卷积核为1×3和3×1的分支，该分支中输入特征图首先经过卷积核为1×3的卷积层，对于1×3的卷积层中第c个滤波器，对应的输出特征图通道为：

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

之后1×3的卷积层的输出特征图进入卷积核为3×1的卷积层，对于3×1的卷积层中第c个滤波器，对应的输出特征图通道为：

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

对于卷积核为1×3的分支，该层的第c个滤波器对应的输出特征图通道为：

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

对于卷积核为3×1的分支，该层的第c个滤波器对应的输出特征图通道为：

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

将三个分支第c个滤波器对应的输出特征图相加得到AC单元的输出，记为：

其中，

表示卷积核为1×3和3×1分支的第c个通道上的输出特征图，

表示卷积核为1×3分支的第c个通道上的输出特征图，

表示卷积核为3×1分支的第c个通道上的输出特征图。

进一步的，步骤S3具体为：经过1×1的卷积，将特征映射平均分割成s个特征映射子集，用x_i表示，其中i∈{1，2，…，s}，与输入特征图相比，每个特征子集x_i具有相同的空间大小，但通道数为1/s，除了x₁，每个x_i都有一个对应的AC单元，记K_i()，ACB模块的输出y_i可以写成：

其中，x_i表示输入特征图，y_i表示输出特征图，K_i表示非对称卷积核。

进一步的，步骤S4具体为：将设计的ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet：

ACBNet网络的第一层是输入图像；

第二层是Conv1卷积层，卷积步长为2，卷积核大小和数量分别为3×3和24；

第三层是Pool池化层，选用最大池化操作，池化大小和步长分别为3×3和2；

第四层是Stage2层，其中包含1个步长为2，输出特征图数量为116的ACB模块，3个步长为1，输出特征图数量为116的ACB模块；

第五层是Stage3层，其中包含1个步长为2，输出特征图数量为232的ACB模块，7个步长为1，输出特征图数量为232的ACB模块；

第六层是Stage4层，其中包含1个步长为2，输出特征图数量为464的ACB模块，3个步长为1，输出特征图数量为464的ACB模块；

第七层是Conv5卷积层，卷积步长为1，卷积核大小和数量分别为1×1和1024；

第八层是Pool池化层，选用全局平均值化操作；

第九层是FC全卷积层，输出维数为1000。

进一步的，步骤S5具体为：选择在所制作的车辆目标训练集上实验，利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet。

进一步的，步骤S6具体为：首先将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类；之后通过具有通道和空间注意力构建块的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标：

一个通道和空间注意力构建块具有三个分支，第一个分支是通道注意力构建块，第二个跳跃分支，第三个分支是空间注意力分支；

对于一个进入通道注意力分支的特征图Q＝[q₁，q₂，...，q_c]，通道注意力分支使用全局平均池来生成通道统计信息，通过将Q缩小到其空间维度为H×W来生成特征统计量

使得特征统计量z的第c个元素通过以下公式计算：

其中，F_ga(·)表示全局平均池操作符，q_c表示特征图Q的第c个通道特征图，q_c(i，j)表示特征图Q的第c个通道上位置为(i,j)的像素点；

此外，为了利用在全局平均池中聚合的信息，然后进行第二操作，其目的是充分利用不同特征映射之间的依赖性，为了实现这种效果，使用具有参数T₁和缩减率r的维度降低层，ReLU层和具有参数T₂的维度增加层，完全连接层用于降维层和维度增加层，通道的平均注意力计算为：

s＝T₂δ(T₁z) (1.10)

其中，

δ为ReLU函数，

对于一个进入空间注意力分支的特征图Q，首先沿相应通道轴进行全局平均池化操作，然后通过大小为3×3的卷积核产生2D空间注意力图

M′＝F^3×3(H_mean(Q)) (1.11)

其中，F^3×3表示卷积核大小为3×3的卷积运算，H_mean指的是沿相应通道轴的全局平均池化操作，在上一步骤中生成的2d空间注意图M′基础上，生成多维空间注意图

M＝F^1×1(F^3×3(H_mean(Q))) (1.12)

其中，F^1×1表示卷积核大小为1×1的卷积运算，然后，使用全局平均池来生成通道统计量，通过将M缩小到其空间维度H×W来生成统计量

使得统计量n的第c个元素通过以下公式计算：

其中，m_c表示特征图M的第c个通道特征图，m_c(i，j)表示空间注意图M的第c个通道上位置为(i,j)的像素点；

之后，将通道注意力和空间注意力两个分支输出结果相加，再对两个分支得到的结果对信道方向的数字应用一个简单的sigmoid运算符，得到如下结果:

R＝σ(s+n) (1.14)

其中，R表示通道注意力和空间注意力两个分支应用sigmoid运算符之后得到的输出特征图，σ表示sigmoid运算符，最后将上一步得到的输出结果与第二个分支对信道方向的像素应用一个multiplication算子得到最终输出特征图G，可写为:

G＝Q·R (1.15)。

本发明由于采用以上技术方案，使之与现有技术相比，具有以下的优点和积极效果：

本发明所构建的基于卷积神经网络的车辆目标分类网络ACBNet，通过设计一种非对称卷积单元，增强了模型对图像特征旋转畸变的鲁棒性。将所设计的非对称卷积单元嵌入Res2Net模块，在更细粒度的层次上提高车辆检测模型的多尺度检测能力。将设计的非对称卷积模块嵌入轻量化模型ShuffleNetV2中，提高了模型的检测速度。在残差预测模块中使用通道和空间注意力，使网络更好地定位特征分布。并且由于整个模型利用轻量化模型ShuffleNetV2作为骨干网络，有效提高了车辆检测的快速性。所构建的车辆检测模型在提高检测准确度的同时，具有较好的检测实时性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图中：

图1是本发明基于非对称卷积的具有粒度级多尺度特性的车辆检测方法的流程示意图；

图2是本发明基于非对称卷积的具有粒度级多尺度特性的车辆检测方法中非对称卷积AC单元的结构示意图；

图3是本发明基于非对称卷积的具有粒度级多尺度特性的车辆检测方法中ACB模块的结构示意图；

图4是本发明基于非对称卷积的具有粒度级多尺度特性的车辆检测方法中具有通道和空间注意力构建块的残差预测模块的结构示意图。

具体实施方式

以下将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整的描述和讨论，显然，这里所描述的仅仅是本发明的一部分实例，并不是全部的实例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本实施例公开了基于非对称卷积的具有粒度级多尺度特性的车辆检测方法，包括以下步骤：

步骤S2：设计非对称卷积AC单元；

进一步的，步骤S2所述设计非对称卷积AC单元包括以下步骤：

一个AC单元由卷积核为1×3和1×3、1×3、3×1三个平行分支组成，图2显示了AC单元的结构图，对于AC单元中的一个分支，

表示卷积层的输入，使用F＝[g₁，g₂，...，g_c]表示学习的卷积核集，其中g_c表示对应的第c个卷积核的参数，

其中，*表示卷积，

U＝[V¹，V²，...，V^C]，

I＝[Y¹，Y²，...，Y^D]和

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

其中，

表示卷积核为1×3和3×1分支的第c个通道上的输出特征图，

表示卷积核为1×3分支的第c个通道上的输出特征图，

表示卷积核为3×1分支的第c个通道上的输出特征图。

进一步的，步骤S3所述构建具有粒度级别多尺度特性的非对称卷积ACB模块包括以下步骤：

图3显示了ACB模块的结构图，经过1×1的卷积，将特征映射平均分割成s个特征映射子集，用x_i表示，其中i∈{1，2，…，s}，与输入特征图相比，每个特征子集x_i具有相同的空间大小，但通道数为1/s，除了x₁，每个x_i都有一个对应的AC单元，记K_i()，ACB模块的输出y_i可以写成：

ACBNet网络的第一层是输入图像；

第八层是Pool池化层，选用全局平均值化操作；

第九层是FC全卷积层，输出维数为1000。

ACBNet网络结构如表1：

表1

进一步的，步骤S5具体为：

选择在所制作的车辆目标训练集上实验；

利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet。

进一步的，步骤S6具体为：

首先将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类；

之后通过具有通道和空间注意力构建块的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标，图4显示了具有通道和空间注意力构建块的残差预测模块的结构图。

所述具有通道和空间注意力的残差预测模块包括以下步骤：

使得特征统计量z的第c个元素通过以下公式计算：

s＝T₂δ(T₁z) (1.10)

其中，

δ为ReLU函数，

M′＝F^3×3(H_mean(Q)) (1.11)

M＝F^1×1(F^3×3(H_mean(Q))) (1.12)

使得统计量n的第c个元素通过以下公式计算：

R＝σ(s+n) (1.14)

G＝Q·R (1.15)。

本实施例所构建的基于卷积神经网络的车辆目标分类网络ACBNet，通过设计一种非对称卷积单元，增强了模型对图像特征旋转畸变的鲁棒性。将所设计的非对称卷积单元嵌入Res2Net模块，在更细粒度的层次上提高车辆检测模型的多尺度检测能力。将设计的非对称卷积模块嵌入轻量化模型ShuffleNetV2中，提高了模型的检测速度。在残差预测模块中使用通道和空间注意力，使网络更好地定位特征分布。并且由于整个模型利用轻量化模型ShuffleNetV2作为骨干网络，有效提高了车辆检测的快速性。所构建的车辆检测模型在提高检测准确度的同时，具有较好的检测实时性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.基于非对称卷积的具有粒度级多尺度特性的车辆检测方法，其特征在于，包括以下步骤：

步骤S2：设计非对称卷积AC单元；

步骤S2具体为：一个AC单元由卷积核为1×3和1×3、1×3、3×1三个平行分支组成，对于AC单元中的一个分支，

其中，*表示卷积，

U＝[V¹，V²，...，V^C]，

I＝[Y¹，Y²，...，Y^D]和

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

其中，

表示

的单个通道的二维空间核，

和

表示通道平均值和批量归一化的标准偏差，

和

分别表示学习尺度因子和偏差项；

其中，

表示卷积核为1×3和3×1分支的第c个通道上的输出特征图，

表示卷积核为1×3分支的第c个通道上的输出特征图，

表示卷积核为3×1分支的第c个通道上的输出特征图；

2.根据权利要求1所述的基于非对称卷积的具有粒度级多尺度特性的车辆检测方法，其特征在于，步骤S3具体为：经过1×1的卷积，将特征映射平均分割成s个特征映射子集，用x_i表示，其中i∈{1，2，…，s}，与输入特征图相比，每个特征子集x_i具有相同的空间大小，但通道数为1/s，除了x₁，每个x_i都有一个对应的AC单元，记K_i()，ACB模块的输出y_i可以写成：

3.根据权利要求2所述的基于非对称卷积的具有粒度级多尺度特性的车辆检测方法，其特征在于，步骤S4具体为：将设计的ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet：

ACBNet网络的第一层是输入图像；

第八层是Pool池化层，选用全局平均值化操作；

第九层是FC全卷积层，输出维数为1000。

4.根据权利要求3所述的基于非对称卷积的具有粒度级多尺度特性的车辆检测方法，其特征在于，步骤S5具体为：选择在所制作的车辆目标训练集上实验，利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet。

5.根据权利要求4所述的基于非对称卷积的具有粒度级多尺度特性的车辆检测方法，其特征在于，步骤S6具体为：首先将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类；之后通过具有通道和空间注意力构建块的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标：

使得特征统计量z的第c个元素通过以下公式计算：

其中，F_ga(·)表示全局平均池操作符，q_c表示特征图Q的第c个通道特征图，q_c(i，j)表示特征图Q的第c个通道上位置为(i，j)的像素点；

s＝T₂δ(T₁z) (1.10)

其中，

δ为ReLU函数，

M′＝F^3×3(H_mean(Q)) (1.11)

其中，F^3×3表示卷积核大小为3×3的卷积运算，H_mean指的是沿相应通道轴的全局平均池化操作，在上一步骤中生成的2d空间注意图M，基础上，生成多维空间注意图

M＝F^1×1(F^3×3(H_mean(Q))) (1.12)

使得统计量n的第c个元素通过以下公式计算：

其中，m_c表示特征图M的第c个通道特征图，m_c(i，j)表示空间注意图M的第c个通道上位置为(i，j)的像素点；

之后，将通道注意力和空间注意力两个分支输出结果相加，再对两个分支得到的结果对信道方向的数字应用一个简单的sigmoid运算符，得到如下结果：

R＝σ(s+n) (1.14)

其中，R表示通道注意力和空间注意力两个分支应用sigmoid运算符之后得到的输出特征图，σ表示sigmoid运算符，最后将上一步得到的输出结果与第二个分支对信道方向的像素应用一个multiplication算子得到最终输出特征图G，可写为：

G＝Q·R(1.15)。