CN115588126A

CN115588126A - 一种融合GAM、CARAFE和SnIoU的车辆目标检测方法

Info

Publication number: CN115588126A
Application number: CN202211194651.XA
Authority: CN
Inventors: 吴昌昊; 骆文辉; 徐徐; 邢凯
Original assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Current assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-01-10

Abstract

本发明公开了一种融合GAM、CARAFE和SnIoU的车辆目标检测方法，包括：将数据集转换为适合YOLOv5训练的格式，对图像进行数据增强，然后在YOLOv5主干网络及颈部网络添加GAM模块，在颈部网络使用CARAFE替换最近邻插值上采样，最后将SnIoU‑Loss作为该算法的损失函数，完成在监控视角下对多种车辆的检测。本发明在主干网络结合GAM注意力机制，在颈部网络组合注意力模块和内容感知特征重组上采样，将底层的内容信息来预测重组内核，并在预定义的附近区域内重组特征，再针对这些不同尺度的特征学习全局权重信息并高效融合，还提出了一种损失函数，帮助训练收敛过程和效果。本发明能够解决现有的目标被遮挡、模糊和检测精度较差的问题。

Description

一种融合GAM、CARAFE和SnIoU的车辆目标检测方法

技术领域

本发明涉及车辆目标检测技术领域，特别涉及一种融合GAM、CARAFE和SnIoU的车辆目标检测方法。

背景技术

随着人民生活水平的逐步增长，日常交通出行的车辆也日益增多，如何对道路上的车辆进行有效管理面临着巨大的挑战。车辆目标检测作为构建智慧城市的一项关键基础技术，在国内外长期受到众多研究者的关注。主流的方法有两种：一种是使用传统的机器学习方法对目标特征进行提取，如HOG方法，并将提取出的目标特征输入至分类器，如支持向量机(SVM)、迭代器(AdaBoost)等进行分类检测；另一种是利用深度学习技术(如卷积神经网络)自动的去完成目标的特征提取和检测任务。相比图片数据集，视频数据集存在物体模糊、互相遮挡等情况，这导致常规方法很难正确提取目标信息，进而较难作出正确的定位及分类。

现有许多公开的相关发明专利使用YOLOv5来对目标进行高效检测。如公布号为CN114882393A，公布日为2022年8月9日的发明专利，即公开了一种基于目标检测的道路逆行与交通事故事件检测方法，该申请案包括以下步骤：S1、获取原始数据；S2、在原始数据中获取样本，标注样本中车辆在帧图片中的位置及车辆类别；S3、经过数据处理得到训练集和验证集；S4、对原始YOLOv5的数据增强方法、激活函数进行改进，得到YOLOv5-better模型；S5、将训练集和验证集输入到YOLOv5-better模型，经过训练得到改进模型的权重文件；S6、将得到的权重文件输入到YOLOv5-better模型，进行测试集测试得到车辆信息，并输入到deepsort，得到车辆的编号id和类别；S7、将每个id在视频帧中对应的位置信息输入到逻辑判断算法，判断是否逆行或者发生事故。采用上述基于目标检测的道路逆行与交通事故事件检测方法，虽能够适用于智能视频分析工作。然而，上述模型往往无法结合更多的全局语义信息来进行目标检测。

发明内容

1.发明要解决的技术问题

为克服上述现有技术存在的问题，本发明提出了一种融合GAM、CARAFE和SnIoU的车辆目标检测方法；本发明通过GAM模块来挖掘位置和局部信息，同时通过CARAFE上采样更好的提取目标的语义信息，最后通过SnIoU-Loss使模型进行更快更准的收敛，不仅能够使用高层语义信息动态地生成自适应的内核，而且还可以通过回归向量角度来提升预测框的精度。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种融合GAM、CARAFE和SnIoU的车辆目标检测方法，其步骤为：

步骤1、获取车辆目标检测数据集；

步骤2、对数据集图片进行预处理；

步骤3、构建检测网络，在YOLOv5的主干网络和颈部网络引入GAM模块；

步骤4、在YOLOv5的颈部网络中使用CARAFE替换最近邻插值上采样；

步骤5、将损失函数更换为SnIoU-Loss；

步骤6、将训练集输入到改进的YOLOv5-GCS模型中训练，得到权重文件，然后用权重文件对测试集进行测试并得到最终结果。

更进一步地，步骤1中车辆目标检测数据集需转换为适合YOLOv5训练的格式，且在步骤2中针对数据集特性对其进行数据增强。

更进一步地，步骤3在YOLOv5的版本源码YOLOv5s.yaml文件中，在主干和颈部网络，即第9、19、23、27层添加[-1，1，GAM注意力，[n，n]]，-1代表本层的输入来自上一层的输出，1代表该层的重复次数，[n，n]代表输入通道数和输出通道数都为n，不同层数的通道数不一致。

更进一步地，步骤3引入的GAM模块分为前后两部分，第一个是通道注意力，第二个是空间注意力，具体如下：

子步骤1从上一个卷积层得到输入向量

经过通道注意力M_c变为向量F₂；

子步骤2输入向量

经过空间注意力M_s变为向量F₃。

更进一步地，步骤4在YOLOv5的版本源码YOLOv5s.yaml文件中，在颈部网络即第12、16层将原有的nn.Upsample最近邻插值替换为CARAFE上采样。

更进一步地，更改后的上采样方法的流程如下：

子步骤1对于形状为H×W×C的输入特征图，首先用一个1×1卷积将通道数压缩到C_m；

子步骤2设置需要预测的上采样核形状为σH×σW×k_up×k_up，其中σ为上采样倍率；

对于子步骤1中压缩后的输入特征图，利用一个k_encoder×k_encoder的卷积层来预测上采样核，输入通道数为C_m，输出通道数为

然后将通道维在空间维展开，得到形状为

的上采样核；

子步骤3对子步骤2中得到的上采样核利用softmax进行归一化，使得卷积核权重和为1；

子步骤4对于输出特征图中的每个位置，将其映射回输入特征图，取出以之为中心的k_up×k_up的区域，和子步骤2预测出的该点的上采样核作点积，得到输出值，相同位置的不同通道共享同一个上采样核。

更进一步地，步骤5所述计算SnIoU-Loss的过程如下：

子步骤1计算角度损失Λ；

子步骤2依据角度损失Λ，计算距离损失Δ；

子步骤3计算形状损失Ω；

子步骤4计算SnIoU-Loss

其中，IoU是预测框和真实框的交集和并集的比值，n为常数。

3.有益效果

采用本发明提供的技术方案，与已有的公知技术相比，具有如下显著效果：

在以往的监控监测中，实施现场平铺式监控设备列表，监控位置不直观；设备运转较为传统，需高频次人工巡检。在现如今庞大的行业规模下，人工检测存在效率低下、可靠性不高等问题。随着大规模数据集的出现，机器学习特征工程的难度越来越大，而深度学习模型可以从数据本身学习数据的内在特征。本发明通过GAM模块来挖掘位置和局部信息，同时通过CARAFE上采样更好的提取目标的语义信息，最后通过SnIoU-Loss使模型进行更快更准的收敛，完成对道路车辆目标的检测。利用该改进的YOLOv5-GCS模型，能够实现速度快、准确率高的车辆目标检测，对于维护道路安全、缓解交通拥堵的领域应用具有重要意义。

附图说明

图1为本发明的模型结构示意图；

图2为本发明中通道注意力子模块的示意图；

图3为本发明中空间注意力子模块的示意图；

图4为本发明中CARAFE上采样模块的示意图；

图5为本发明中真实框与预测框的角度关系示意图；

图6为本发明中真实框与预测框的交并比示意图；

图7为本发明模型的混淆矩阵热力图；

图8为本发明的检测流程图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

本实施例提出的车辆目标检测模型，结构如图1所示。结合图8，本实施例的一种融合GAM、CARAFE和SnIoU的车辆目标检测方法，具体实施步骤如下：

步骤1寻找接近监控视角的车辆目标检测数据集

使用主要在北京和天津的道路过街天桥拍摄车辆的UA-DETRAC数据集，并转换为适合YOLOv5训练的格式。

步骤2对数据集图片进行预处理

针对数据集特性对其进行数据增强。

子步骤1考虑到天气、光线等问题，先用hsv进行数据增强。

子步骤2考虑到车辆的行驶方向，使用图片水平翻转进行处理。

子步骤3将四张图片进行随机裁剪，再拼接到一张图上作为训练数据，丰富了图片的背景，并且四张图片拼接在一起变相地提高了batchsize。

步骤3构建检测网络，在YOLOv5的主干网络和颈部网络引入GAM模块

CNN的kernel权重是共享的，即在同一层中所有卷积核都有一组相同的、共享的权值，也就是说在一张图的不同位置检测特征的函数相同，所以这使得图片中的物体在图中平移时对应的特征图响应也做相同的平移。而且，由于有池化(pooling)的步骤对特征图进行了压缩处理，CNN的最后结果和平移之前相同。

监控视角下的车辆的位置信息基本是固定的，且GAM是一种通过减少信息弥散和放大全局交互表示来提高深度神经网络性能的全局注意力机制，能够在所有三维通道、空间宽度和空间高度上捕捉重要特征。

本实施例在YOLOv5的版本源码YOLOv5s.yaml文件中，在主干和颈部网络即第9、19、23、27层添加GAM模块[-1,1,GAM注意力,[n,n]]，-1代表本层的输入来自上一层的输出，1代表该层的重复次数，[n,n]代表输入通道数和输出通道数都为n，不同层数的通道数不一致，GAM注意力则让模型更多的关注某部分区域。GAM模块分为前后两部分，第一个是通道注意力，第二个是空间注意力，具体介绍如下：

子步骤1从上一个卷积层得到输入向量

经过通道注意力M_c变为向量F₂，计算公式如下所示：

其中

表示同位元素对应相乘，M_c函数如图2所示。

M_C(F₁)＝σ(MLP(P(F₁))

＝σP′(W₁(W₀(P(F₁))))

其中，P为通道变换，将第一维放到最后一维，W₀、W₁为全连接的权重矩阵，P′为反通道变换，将P变换后的矩阵复原，σ为Sigmoid激活函数。

子步骤2输入向量

经过空间注意力M_s变为向量F₃，计算公式如下所示：

其中

表示同位元素对应相乘，M_s函数如图3所示。

M_S(F₂)＝σ(BN(Conv^7*7(BN(Conv^7*7(F₂)))))

其中Conv^7*7表示7*7的卷积核，BN为批量归一化，σ为Sigmoid激活函数。

步骤4在颈部网络中使用CARAFE替换最近邻插值上采样

上采样操作可以表示为每个位置的上采样核和输入特征图中对应邻域的像素做点积，称之为特征重组。上采样操作CARAFE在重组时可以有较大的感受野，会根据输入特征来指导重组过程，能更好的表达之前卷积操作提取的语义信息，对模糊的车辆有更好的采样效果。

本实施例在YOLOv5的版本源码YOLOv5s.yaml文件中，在颈部网络即第12、16层将原有的nn.Upsample最近邻插值替换为CARAFE上采样。更改后的上采样方法的流程如下：

子步骤1特征图通道压缩

对于形状为H×W×C的输入特征图(该输入特征图即为上一层的输出特征图)，首先用一个1×1卷积将它的通道数压缩到C_m，这一步的主要目的是减小后续步骤的计算量。

子步骤2内容编码及上采样核预测

假设上采样核尺寸为k_up×k_up(越大的上采样核意味着更大的感受野和更大的计算量)，本实施例希望对输出特征图的每个位置使用不同的上采样核，故设置需要预测的上采样核形状为σH×σW×k_up×k_up，其中σ为上采样倍率。

然后将通道维在空间维展开，得到形状为

的上采样核。

子步骤3上采样核归一化

对子步骤2中得到的上采样核利用softmax进行归一化，使得卷积核权重和为1。

子步骤4特征重组

对于输出特征图中的每个位置，将其映射回输入特征图，取出以之为中心的k_up×k_up的区域，和子步骤2预测出的该点的上采样核作点积，得到输出值。相同位置的不同通道共享同一个上采样核。

上采样核预测和特征重组具体结构如图4所示。

步骤5损失函数更换为SnIoU-Loss

汽车密集处，不同车辆但距离相近的预测框可能会被NMS处理掉。SioU-Loss引入向量回归角度，能更快的收敛预测框，防止被NMS处理，并融合指数n，进一步提高精度。

子步骤1计算角度损失

模型将尝试首先将预测框带到真实框的水平方向X轴或垂直方向Y轴(以最接近者为准)，然后沿着相关轴继续接近。收敛过程中如果

将首先尝试最小化α，否则最小化

角度成本计算过程如图5所示。

其中c_h为真实框和预测框中心点的高度差，σ为真实框和预测框中心点的距离，

等于角度α。

子步骤2计算距离损失

考虑到上述角度损失，重新定义了距离损失：

其中：

这里的(c_w，c_h)为真实框和预测框中心点的宽度差、高度差，(c_w2，c_h2)为真实框和预测框最小外接矩形的宽、高。

子步骤3计算形状损失

形状损失定义如下：

其中：

这里的(w，h)和(w^gt，h^gt)分别为预测框和真实框的宽和高，θ控制对形状损失的关注程度，为了避免过于关注形状损失而降低对预测框的移动，本发明使用遗传算法计算出θ接近4，因此定于θ参数范围为[2,6]。

子步骤4计算SnIoU-Loss

其中IoU如图6所示，IoU是预测框和真实框的交集和并集的比值。

这里的n一般取3，可以增大梯度加速收敛。

步骤6将UA-DETRAC的训练集输入到改进的YOLOv5-GCS模型中训练，得到权重文件，然后用权重文件对UA-DETRAC的测试集进行测试并得到最终结果。

官方的测试集把所有车辆划分为同一类。Faster R-CNN将区域建议的生成作为第一阶段，通常能显示出较高的识别精度，但大量候选帧的生成大大降低了***的执行效率。RN-VID借助光流及未来帧来解决模糊问题，但计算光流及使用未来的信息会导致难以做到在线检测。Centernet是将物体当作一个点去检测，对于车辆之间遮挡严重的情况则无法良好的将检测框画完整。YOLOv5则在速度和精度之间取得了平衡，可以进行实时的目标检测。表1列举了这些模型在IoU阈值为0.7情况下的平均准确率，本模型在单一类别时准确率达到最高。

表1不同模型的平均准确率

交通政策对不同车辆行驶行为的制度不同，鉴于此，将类别按原有标注分为car、van、bus、others四个类并重新训练。为了更加直观有效地展示本发明模型的效果，下面给出本发明模型测试结果的混淆矩阵热力图，并给出了部分模块的消融实验表。图7是本发明提出的YOLOv5-GCS模型的测试结果混淆矩阵热力图，图中方格颜色深浅表示预测率。从图7可知，由于others类为多种车辆，如：警车、工程车、卡车等，而汽车样本极多，所以容易被误分类为汽车。其余混淆矩阵表明本发明提出模型的预测性能较好。从表2中可知本发明提出的模型优于原版YOLOv5模型的检测准确率，进一步证明了本发明模型的优越性。

表2模块的消融实验

本发明利用从发布到现在都是炙手可热并且还不断迭代的目标检测模型YOLOv56.1(简称YOLOv5)代替传统的HOG、DPM等模型，使模型能高效的对不同背景以及角度下的车辆进行检测。本发明在YOLOv5的主干网络结合GAM注意力机制，以此能够在减少信息弥散的情况下也能放大全局维交互特征。本发明在颈部网络组合注意力模块(GAM)和内容感知特征重组上采样(CARAFE)，将底层的内容信息来预测重组内核，并在预定义的附近区域内重组特征，再针对这些不同尺度的特征学习全局权重信息并高效融合。此外，本发明还提出了一种基于SIoU-Loss的损失函数SnIoU-Loss，该损失函数通过引入回归向量角度和指数n，极大地帮助了训练收敛过程和效果，以解决之前检测精度不足的问题，最终得到改进的YOLOv5-GCS模型检测算法。本发明采用上述基于深度学习的车辆目标检测方法，能够解决现有的目标被遮挡、模糊和检测精度较差的问题。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种融合GAM、CARAFE和SnIoU的车辆目标检测方法，其特征在于，其步骤为：

步骤1、获取车辆目标检测数据集；

步骤2、对数据集图片进行预处理；

步骤5、将损失函数更换为SnIoU-Loss；

2.根据权利要求1所述的一种融合GAM、CARAFE和SnIoU的车辆目标检测方法，其特征在于：步骤1中车辆目标检测数据集需转换为适合YOLOv5训练的格式，且在步骤2中针对数据集特性对其进行数据增强。

3.根据权利要求2所述的一种融合GAM、CARAFE和SnIoU的车辆目标检测方法，其特征在于：步骤3在YOLOv5的版本源码YOLOv5s.yaml文件中，在主干和颈部网络，即第9、19、23、27层添加[-1,1,GAM注意力,[n,n]]，-1代表本层的输入来自上一层的输出，1代表该层的重复次数，[n,n]代表输入通道数和输出通道数都为n，不同层数的通道数不一致。

4.根据权利要求3所述的一种融合GAM、CARAFE和SnIoU的车辆目标检测方法，其特征在于：步骤3引入的GAM模块分为前后两部分，第一个是通道注意力，第二个是空间注意力，具体如下：

子步骤1从上一个卷积层得到输入向量