CN115830575A

CN115830575A - 一种基于Transformer与跨维度注意力的交通标志检测方法

Info

Publication number: CN115830575A
Application number: CN202211583330.9A
Authority: CN
Inventors: 陈圆; 罗会兰; 吴少玲; 胡伟霞
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-21

Abstract

本发明公开了一种基于Transformer与跨维度注意力的交通标志检测方法，旨在提高小目标的检测精度。当前的交通标志检测方法存在以下两方面问题：模型不能在初期学习到特征间丰富的长程依赖关系；小目标的有效特征易在特征融合阶段淹没在复杂的背景信息中。针对第一个问题，本发明设计了基于Transformer的模块来扩大网络初期的有效感受野并学习不同特征间的语义关系。针对第二个问题，本发明设计了跨维度注意力来加强网络对小目标的关注程度。结合两个模块后，网络学习到了丰富的细粒度特征及复杂的上下文关系，该模型能够有效抑制冗余信息，并具有处理复杂场景的能力，能广泛应用于交通标志检测的各种场景，值得大力推广。

Description

一种基于Transformer与跨维度注意力的交通标志检测方法

技术领域

本发明属于计算机视觉领域，涉及对目标检测模型的改进、图像目标检测与仿真实现。

背景技术

目标检测作为计算机视觉的基本任务之一，它的主要任务是从输入图像中定位出感兴趣的目标并判断出每个目标所属的类别，目前已在多种场景中得到应用，如交通标志检测和自动驾驶等领域。近年来，随着深度学习的不断发展，交通标志检测研究得到广泛关注。由于车辆采集图像的过程中极易受光线、天气等因素干扰导致图像不清晰或发生扭曲；另外，交通标志往往在整张图中占比不足1％，使得交通标志的检测和识别相比于普通的目标检测任务更具挑战性。

目前专门针对交通标志检测的算法研究较少，直接使用通用目标检测方法容易造成小目标错检漏检，效果不好。为此本发明设计了两个模块来增强交通标志检测。其具体方法如下：为了解决网络浅层缺乏足够有效感受野的问题，设计了Transformer模块来加强形状特征的表达并捕获远距离像素间的依赖关系，使网络在初期便可以获得全局的感受野；为了解决注意力机制在增强某一维特征的同时，会损失大量其他维度信息的问题设计了跨维度注意力模块，提高了模型通道和空间跨维度交互的能力，加强了小目标特征的表达并抑制了冗余的背景特征。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于Transformer与跨维度注意力的交通标志检测方法。解决了当前的交通标志检测模型不能在初期学习到特征间丰富的长程依赖关系以及小目标的有效特征易在特征融合阶段淹没在复杂的背景信息中的问题。

(二)技术方案

为实现以上目的，本发明提出一种基于Transformer与跨维度注意力的交通标志检测方法，该网络能够建模丰富的局部与全局特征从而增强信息之间的交流与联系，产生更具判别性的特征。首先，为了使网络在初期拥有更大的感受野，在主干网络中嵌入了Transformer模块来捕获远距离像素间的依赖关系。其次，为了减少使用注意力机制过程中造成的信息损失，本发明提出了跨维度注意力模块(Enchancing Channel and SpaitalInteraction,ECSI)，此模块由低阶全局注意力模块(Low-order Global Attention,LGA)和高阶全局注意力模块(High-order Global Attention,HGA)组成。LGA旨在学习局部感受野下不同特征的重要程度，而HGA旨在学习全局感受野下不同特征的重要程度。最后，共获得4个不同尺度的特征图，分别对这4个不同尺度的特征图进行目标检测，得到最终的检测结果。

本发明所述的一种基于Transformer与跨维度注意力的交通标志检测方法，包括以下步骤：

S1.首先在主干网络上添加了Transformer模块，旨在扩大网络初期的有效感受野，来学习不同特征间的语义关系。为了降低计算复杂度，本申请仅在主干网络的第六层和第九层嵌入了Transformer模块，然后得到四个不同层级的特征图；

S2.将S1得到的四个不同层级的特征图即第2、4、6和9层的输出特征注入特征融合网络。在特征融合网络中，LG-YOLOv5使用CARAFE上采样算子以减少信息损失，并将跨维度注意力ECSI模块加入自顶向下和自底向上的信息传播路径中以选择性注入语义和细节信息，避免干扰特征的影响。然后，在输出检测头的位置添加Transformer模块来学习不同尺度特征间的上下文关系，最后得到P2、P3、P4和P5四个特征图，用于检测目标位置。

S3.再将S2得到的四个不同分辨率的特征图分别输入一个卷积层来预测不同尺度的目标，P2、P3、P4和P5分别代表在下采样4、8、16和32倍特征图上的预测结果。

(三)有益效果

本发明提供了一种基于Transformer与跨维度注意力的交通标志检测方法。具备以下有益效果：

本发明通过使用基于Transformer的模块，解决了网络初期感受野较小以及上下文关系学习的不足的问题。通过跨维度注意力模块解决了小目标有效特征少易被稀释的问题，突出了有效特征。

本发明提出的模型性能较好，在TT100K数据集上的实验结果表明与现有先进算法相比，本发明算法在参数量和精度上取得了最佳权衡，在参数量仅有26M的前提下，mAP达到了90.5％。

附图说明

图1为本发明的整体框架结构图；

图2为本发明构建的基于Transformer模块的结构图；

图3为本发明构建的跨维度注意力模块结构图；

图4为本发明Transformer模块热力图可视化结果图；

图5为本发明跨维度注意力模块注意力可视化结果图。

具体实施方式

下面将结合附图对本发明中的技术方法进行清楚、完整地描述。一种基于Transformer与跨维度注意力的交通标志检测方法，其具体实施方式步骤如下：

(S1)：新增检测头及特征融合方式。

为了有助于定位小目标，本发明新增一条分支专门用于检测小目标，并将ECSI模块加入自顶向下和自底向上的特征融合路径中以选择性注入语义和细节信息，避免干扰特征的影响。本发明中的低层特征和高层特征分别选用LG-YOLOv5主干网络中的第2、4、6和9层特征来融合多尺度特征。

(S2)：设计Transformer模块。

为了在聚合局部特征的同时捕获长距离特征间的依赖关系，从而学习到不同目标间的语义关系以提高目标检测的准确度，本申请提出了LGIM模块。如图2(a)所示，LGIM模块由两个分支组成，其中左边的分支用于聚合局部特征，右边的分支用于捕获长距离特征之间的依赖关系。左边的分支由3×3卷积、BN与SiLu激活函数组成。右边的分支经过1×1卷积、BN层和SiLu激活函数后，输入局部-全局混合Transformer(Mixing Local GlobalTransformer，MLGT)，以学习归纳偏置和长距离像素间的依赖关系。输入特征经过两条分支得到的特征图首先进行通道方向的拼接，然后经过一个带有BN和SiLu激活函数的1×1卷积操作以使全局与局部信息充分交互融合。

由于Transformer中的自注意力模块只建模空间上的关系，缺乏通道间的联系。因此本申请提出了通道增强的自注意力模块CE-(S)WSA，学***均池化生成每个通道的动态权重；再使用两个1×1卷积来充分学习不同通道间的依赖关系；最后，通过Sigmoid激活函数得到通道级的动态权重向量。通道级动态注意力权重与Transformer的结合使用矩阵乘操作完成。CE-(S)WSA的计算过程如公式(1-5)下所示：

X＝GAP(DConv_3×3(x)) (1)

Y＝GeLu(BN(Conv(X))) (2)

Z＝Sigmoid(BN(Conv(Y))) (3)

其中，DConv_3×3指3×3的深度卷积，GAP表示全局平均池化，Conv表示1×1卷积，Z表示生成的通道注意力权重，V表示嵌入通道权重后的特征向量，

指Reshape操作，RPC为相对位置编码。与自注意力外部嵌入卷积的方式相比，CE-(S)WSA不仅缓解了基于窗口的自注意力机制中窗口之间信息交互不充分的问题，还使自注意力模块具有了通道建模的能力，从而学习到更加丰富的全局语义信息。

(S3)：设计跨维度注意力模块。

为了加强不同层级的特征在通道和空间维度的交互，本申请提出了ECSI模块。如图3(c)所示，ECSI模块由低阶全局注意力结构(Low-order Global Attention,LGA)和高阶全局注意力结构(High-order Global Attention,HGA)组成。LGA旨在学习局部感受野下不同特征的重要程度，而HGA旨在学习全局感受野下不同特征的重要程度。

如图3(c)所示，LGA的构建过程如下。输入特征x先经过一个3×3深度卷积聚合局部空间信息，再通过两个全连接层实现局部特征在空间与通道维度的跨维度交互。其中，第一个MLP将特征通道数从C压缩到C/4，进行全局特征编码；第二个全连接层将通道数恢复到C。这种先降维再升维的方式，不仅提高了网络的拟合能力还大大降低了全连接带来的参数量。随后，通过Sigmoid激活函数得到局部感受野下不同特征的权重大小。最后将低阶跨维度全局注意力权重与输入特征逐元素相乘得到增强后的特征图x'。

如图3(c)所示，LGA的输出特征x'作为HGA的输入特征。为了在降低参数量的同时加强全局信息的交互，HGA主要使用了分组卷积和通道重组模块。为了获得高阶空间依赖关系，先将特征x'按通道平均划分输入两个分支，将其中一个分支使用7×7深度卷积聚合较大感受野下的空间信息，然后与另一分支特征按元素相乘，得到含有一阶空间依赖关系的特征图后与它再次逐元素相乘得到含有二阶空间依赖关系的特征图，再通过1×1卷积调整通道数。为了获得全局感受野下不同尺度特征的重要程度，本申请将含有高阶空间依赖关系的特征送入两个连续的5×5分组卷积来学习全局上下文信息，随后通过Sigmoid激活函数得到全局感受野不同尺度特征的重要程度。由于分组卷积阻碍了不同组内通道建模的能力，本申请使用了通道重组操作来加强组与组之间的通道信息交互。通道重组通过重新排列通道顺序的方式以一种无参数的方式实现通道间的信息交互。最后，将经过通道重组模块后得到的全局跨维度注意力图与原始输入特征x'按元素相乘得到含有二阶空间依赖关系和不同层级的跨维度交互信息。与图3(a)和图(b)中的SE和CBAM注意力模块相比，ECSI不仅保留了重要的语义和位置信息，还聚合了不同层级的重要特征来建模全局上下文关系。

以下结合实验数据及可视化热力图对本发明效果进行详细描述。

表1比较了本发明提出的方法与其他方法在TT100K数据集上的检测速度和精度对比。从表1的实验结果可以看出，与Faster-RCNN、SSD和YOLOv3等经典方法相比，本申请方法的精度提升了27％-40％。与基线网络YOLOv5m相比，本申请方法在仅增加4.8M参数的情况下，mAP提高了8.5。与最新检测算法DE-DETR和YOLOX相比，本申请方法在精度上分别提高了26％和12％，在收敛速度上分别提高了2倍和5倍。与CAB算法相比，本申请方法在精度上大大超越了传统的CNN模型。与TSR-SA检测算法相比，本申请方法没有使用额外的数据集并且以更少的参数取得了更高的精度。与最新的MDCOD算法相比，本申请方法的检测速度比其快了十倍，同时在减少了24％参数的情况下精度只下降了2％。综上所述，本申请方法与各类先进检测算法相比在参数量和精度上取得了最佳权衡，在参数量仅有26M的条件下，mAP达到了90.5％。

表1TT100K数据集上与先进方法的比较

图4示例了本发明中LGIM模块的有效性。对比图4的中间列和右列可以看出，经过LGIM模块后，网络能有效关注到图中所有尺度和形状的交通标志。添加了LGIM模块的网络能关注到每一个交通标志的完整区域，而不只是聚焦于目标的局部区域，而且消除了目标区域外其他背景特征的高响应值。由此可见，本申请所提出的LGIM模块使网络具有更大的有效感受野，能够自适应的学习不同尺度目标间的依赖关系，因此大大提高了网络的召回率和精度。

图5示例了本发明中ECSI模块的有效性。其中Baseline对应的特征图可视化如图5中间列所示，网络不仅对目标区域有较高的激活值，而且红框内背景区域也有一定程度的激活，特征分布比较杂乱，容易出现误检现象。经过ECSI模块改善后的特征如图5的右边列所示，模型只对目标区域有很高的响应，背景区域的干扰特征明显被抑制了。由此可见，本申请所提出的ECSI模块使网络具有在不同层级特征上跨维度交互的能力，能够高效地学习到不同尺度下特征的重要程度，从而使网络能精确地聚焦于有效区域特征并抑制干扰特征，有效地解决了交通标志检测中小目标信息容易被复杂特征淹没的问题。

本发明提出了局部与全局信息交互模块和增强通道和空间交互模块。其中局部与全局信息交互模块将局部特征和全局特征充分交互，增加网络感受野，提高浅层特征的全局语义表达能力。增强通道和空间交互模块增强了不同层级上通道与空间维度的信息交互，有效缓解了小目标有效特征被背景信息干扰和稀释的问题。在TT100K上的大量实验表明，与当前先进的交通标志检测算法相比，本申请方法在参数与精度上取得了最佳权衡。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于Transformer与跨维度注意力的交通标志检测方法，其特征在于：包括以下步骤：

S1.首先在主干网络上添加了Transformer模块，本申请仅在主干网络的第六层和第九层嵌入了Transformer模块，然后得到四个不同层级的特征图；

S2.将S1得到的四个不同层级的特征图即第2、4、6和9层的输出特征注入特征融合网络，在特征融合网络中，LG-YOLOv5使用CARAFE上采样算子以减少信息损失，并将跨维度注意力ECSI模块加入自顶向下和自底向上的信息传播路径中以选择性注入语义和细节信息，避免干扰特征的影响；然后，在输出检测头的位置添加Transformer模块来学习不同尺度特征间的上下文关系，最后得到P2、P3、P4和P5四个特征图，用于检测目标位置；

2.根据权利要求1所述的一种基于Transformer与跨维度注意力的交通标志检测方法，其特征在于：所述Transformer结构中嵌入了通道注意力，具有同时建模空间与通道关系的能力。

3.根据权利要求1所述的一种基于Transformer与跨维度注意力的交通标志检测方法，其特征在于：所述跨维度注意力融合了空间与通道的信息，保留了各个维度的重要信息。