CN116363532A

CN116363532A - 基于注意力机制和重参数化的无人机图像交通目标检测方法

Info

Publication number: CN116363532A
Application number: CN202310314441.8A
Authority: CN
Inventors: 马学森; 魏维新; 周天保; 蒋功辉; 许雪梅; 马吉; 郑彪; 彭行浩; 钟智能; 李景奇; 虞秀轩
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-06-30

Abstract

本发明公开了一种基于注意力机制和重参数化的无人机图像交通目标检测方法，包括：1、利用无人机携带的摄像设备采集的图像构建数据集；2、建立无人机图像交通目标检测模型，在主干网络的卷积层增加旁路卷积分支提高特征提取能力，利用注意力机制增强交通目标的信息表达，利用通道偏移的双分支检测头更精确定位目标边界框的位置和识别目标类别；3、构建损失函数，训练迭代后直到网络的参数收敛；4、模型推理时利用重参数化技术将主干网络的旁路卷积分支进行融合，保留模型性能的同时提高推理速度。本发明能识别出无人机图像中的交通目标位置和类别信息，对交通流量监控和构建智能交通***具有重要意义。

Description

基于注意力机制和重参数化的无人机图像交通目标检测方法

技术领域

本发明涉及智能交通领域，具体涉及基于深度学习的目标检测网络改进方法，尤其涉及一种交通目标检测模型训练和目标检测方法。

背景技术

无人机在民用领域具有广泛的应用前景。例如在农业植保方面，无人机可以通过安装喷淋装置喷洒农药，与摄像头结合可以实现巡逻监视、病虫监察的功能。无人机作为航空摄影的载体，由于其在空中飞行，会收到较小的干扰，视角很广，因此利用无人机利用高清摄像机捕获的图像或者视频具有较高的质量和较高的分辨率。将无人机部署在城市的交通道路上，再通过对无人机图像的实时目标检测可以分析出该道路上的交通流量，可以为后续的交通监管和交通调度提供有效的数据支持，因此无人机图像中的交通目标检测是构建智慧交通***中重要的一环，具有较高的研究价值。

目标检测是计算机视觉中一个重要的基础研究领域，其主要工作是对图像中感兴趣的对象进行位置定位，以及判别该对象所属类别的分类。近些年来，计算机视觉领域取得了长足的进步，传统的通过人工辨别图像中的目标的方法已经越来越不适用，逐渐被智能分析的方法所取代。目标检测是完成更精细化的任务的基础和前提。目标检测是指利用计算机等硬件设备，在图像或者视频媒介上通过一系列算法得到目标的位置坐标和分类的信息，传统的研究方法是通过手动方式提取图像中目标对象检测所需要的特征信息，包括HOG+SVM，DPM等方法，利用特征提取的手段得到目标的特征以后将其放入分类器中得到目标的信息，这种人工设计的目标特征提取器不具有良好的泛化性，同时对于目标遮挡的情况与小目标的检测不具有较好的性能。而随着深度学习在图像分类领域大放异彩以后，深度学习被引入到目标检测的领域。

由于无人机图像具有丰富的目标信息，现有检测模型的主干网络对图像进行特征提取的能力依然不足，影响到后续模型的检测精度；传统的特征融合网络缺乏对特征图信息的充分利用，没有增强有效消息和抑制冗余信息的表达；对于无人机图像中的小目标和易混淆目标，现有的目标检测头直接使用全连接层进行分类和回归，忽视分类任务和回归任务具有冲突性；目前已有的目标检测模型没有能够在精度和速度上达到较好的平衡，难以在无人机场景中实际应用。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于注意力机制和重参数化的无人机图像交通目标检测方法，以期能提高模型主干网络的特征提取能力，提升对尺度较小的交通目标的检测效果从而提高模型对交通目标定位的准确性和分类效果，为后续交通流量的分析提供支持，对构建智慧交通***具有重要意义。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于注意力机制和重参数化的无人机图像交通目标检测方法的特点在于，包括以下步骤：

步骤1、获取带有标签信息的N张无人机航拍图像的数据集；N表示所述数据集中图像的总数；所述标签信息包括：目标检测框的位置信息及目标检测类别；

步骤2、构建目标检测模型，包括：输入端、主干网络、特征融合网络、输出端；其中，所述输入端包括：Mosaic数据增强层、图像缩放填充层，所述主干网络包括：由主干分支和旁路分支构成的若干个并行分支，每个分支均为卷积层；所述特征融合网络包括：k-1级图像超分路径、k-1级嵌入GCAM注意力机制的路径增强网络；所述输出端包括：目标预选框计算模块、通道偏移的双分支目标检测头；

将任意m张带有标签信息的无人机航拍图像作为当前批训练数据输入所述目标检测网络中；m≤N；

步骤2.1、所述输入端的Mosaic数据增强层将当前批训练数据进行随机裁剪后拼接，得到一张图像x；

所述输入端的图像缩放填充层将图像x的尺寸调整到所述主干网络的输入尺寸后得到预处理后的图像X_in；

步骤2.2、所述预处理图像X_in输入到主干网络中进行特征提取，得到提取后的多尺度特征图{B₁,B₂,...,B_j,...,B_k}；其中，B_j表示第j个多尺度特征图，B_k表示最小尺度特征图；

步骤2.3、所述最小尺度特征图B_k输入到特征融合网络中，并依次经过k-1级图像超分路径的处理后，得到待检测的最大尺度交通目标特征图P₁，其中，由第j-1级图像超分路径的输出与第k-j个多尺度特征图B_k-j进行通道拼接再输入第j级图像超分路径中；

交通目标特征图P₁再依次经过k-1级嵌入GCAM注意力机制的路径增强网络处理后，得到待检测的多尺度交通目标特征图{P₁，P₂，…，P_k}；其中，P_k表示第k个尺度的待检测交通目标特征图；

步骤2.4、所述输出端的目标预选框计算模块对当前批训练数据的目标检测框的位置信息进行k-means聚类，输出nc×k个目标预选框的尺寸锚定值；其中，nc表示每种尺度特征图的目标预选框数量；

所述输出端的通道偏移的双分支目标检测头对所述待检测的多尺度交通目标特征图{P₁，P₂，…，P_k}进行处理，输出共H×W×nc个预测目标边界框的类别信息、位置信息和置信度；其中，H为待检测交通目标特征图的高度，W为宽度；

所述交通目标边界框的位置信息为每个交通目标边界框与对应的目标预选框的尺寸锚定值的相对偏移量；

步骤3、采用随机梯度下降法对所述目标检测网络进行训练，并使用CIOU loss损失计算预测目标边界框损失，使用BCE loss损失计算置信度损失与分类损失，直到损失收敛或达到最大迭代次数后，停止训练，从而生成最优目标检测网络及其最优参数；

步骤4、利用重参数化方法将所述主干网中若干个并行分支重参数化为若干个单分支，从而得到最终的目标检测网络用于对无人机终端实时采集的图像或以本地保存的静态图片进行检测，得到目标检测结果。

本发明所述的基于注意力机制和重参数化的无人机图像交通目标检测方法的特点也在于，所述步骤2.3中每级图像超分路径依次由一个卷积层、上采样层和若干个C3模块组成；

所述C3模块依次由两个并行的上、下分支、一个卷积层构成，其中，上分支包括：一个卷积层和一个瓶颈块；下分支包括：一个卷积层，上、下分支的输出结果进行通道拼接后进入自身C3模块的卷积层；

所述每级路径增强网络依次由一个卷积下采样层、若干个C3模块和一个GCAM注意力机制模块组成；

所述GCAM注意力机制模块依次由一个全局注意力模块和一个通道注意力模块组成，其中，所述全局注意力模块利用式(1)对输入数据进行处理；

式(1)中，F_l表示第l个全局注意力机制模块的输入，W_l ¹、W_l ²、W_l ³分别表示第l个全局注意力机制模块的第1、2、3层卷积层的卷积核参数，ReLU表示激活函数，LN表示层归一化，

符号表示矩阵运算，U_l表示第l个全局注意力机制模块的输出；

所述通道注意力机制模块利用式(2)对输入数据进行处理；

式(2)中，Avgpool代表平均池化操作，W_q和W_k表示两个参数不共享的全连接层，Z_l表示第l个通道注意力机制模块的输出。

所述步骤2.4中通道偏移的双分支目标检测头依次由一个shift操作层、一个卷积层、一个双分支计算层和一个Concat层构成；

所述双分支计算层包括分类分支和回归分支，且两个分支均依次由若干个卷积层和shift操作层构成；

所述分类分支利用一个卷积层输出交通目标的类别信息；

所述回归分支利用两个参数不共享的全连接层分别得到交通目标边界框的目标预选框的相对偏移量以及交通目标边界框的置信度。

所述步骤4中的重参数化方法包括如下步骤：

步骤4.1、利用式(4)对所述主干网络的每个并行分支中卷积核参数进行更新，得到更新后的卷积核参数：

式(4)中，

为一个分支的卷积层中重参数化后的卷积核的第r组的权重参数；

为一个分支的卷积层中重参数化后的卷积核的第r个偏置值，/>

为一个分支的卷积层中原始卷积核的第r组权重参数；γ^r，β^r分别为卷积层中的BN层第r个缩放因子和偏置因子，σ^r为BN层第r个标准差，μ^r BN层中第r个均值；

步骤4.2、利用式(5)得到融合后的卷积核权重参数W_fuse和融合后的卷积核偏置参数B_fuse；

式(5)中，

和/>

分别指主干网络的原始卷积层及旁路分支的第r组的卷积核权重参数，/>

和/>

分别指原始卷积层及旁路分支卷积层的第r个偏置值，padding指将卷积核权重周围填充零以对齐原始卷积层的卷积核大小。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行任一所述无人机图像交通目标检测方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行任一所述无人机图像交通目标检测方法的步骤。

与已有技术相比，本发明的有益效果体现在：

1、本发明在主干网络的对应卷积层增加额外的旁路卷积分支以提高模型的特征提取能力，具有多路分支的模型在训练时拥有更好的性能，模型在训练时采用多分支的结构，而在推理时采用重参数化将训练时的模型参数等价为另一组参数。具体而言，将每个分支的卷积层中的卷积核与BN层参数融合，再将并行分支融合成单分支结构；旁路卷积分支提高了模型的特征提取能力，模型能够更准确地检测到无人机图像中的交通目标，提高了检测精度；此外，得益于重参数化的引入，模型检测精度的提高没有影响到推理速度的下降，保障了交通目标检测的实时性；

2、本发明在特征融合网络中构建GCAM注意力机制模块，在每级路径增强网络后嵌入注意力机制模块得到待检测的交通目标特征图，从空间和通道两个维度增强无人机图像中目标的特征信息表达，使模型可以聚焦于目标本身，减少了复杂背景的干扰，GCAM的全局注意力模块能够捕捉特征图的全局信息，对检测尺度变化大的目标具有更强的鲁棒性，从而提高了对多种尺度交通目标的检测精度。

3、本发明利用含有shift操作的双分支检测头模块将交通目标检测的分类和回归任务解耦，利用全连接层完成对物体边缘信息更加敏感的回归任务，利用卷积层完成对物体整体信息更加关注的分类任务，提高了模型对易混淆交通类别分类的准确性，尤其是提高了细粒度交通目标的边界框回归的准确度。

附图说明

图1是根据本发明实施例的交通目标检测模型的训练方法的流程图；

图2是根据本发明实施例的交通目标检测模型结构图；

图3是根据本发明实施例的GCAM注意力机制模块的结构示意图；

图4是根据本发明实施例的通道偏移的双分支检测头的示意图。

具体实施方式

本实施例中，如图1所示，一种基于注意力机制和重参数化的交通目标检测方法，包括以下步骤：

步骤1、获取带有标签信息的N张无人机航拍图像的数据集；N表示数据集中图像的总数；标签信息包括：目标检测框的位置信息及目标检测类别；利用矩形框标注目标的位置信息，同时记录目标的类别，处理后的数据集包括10个待检测的交通目标类别。

步骤2、构建目标检测模型，如图2所示，包括：输入端、主干网络、特征融合网络、输出端；其中，输入端包括：Mosaic数据增强层、图像缩放填充层，主干网络包括：由主干分支和旁路分支构成的若干个并行分支，每个分支均为卷积层；特征融合网络包括：k-1级图像超分路径、k-1级嵌入GCAM(Global Context Attention Module)注意力机制的路径增强网络；输出端包括：目标预选框计算模块、通道偏移的双分支目标检测头(Shift DoublePrediction Head，SDPH)；

将任意m张带有标签信息的无人机航拍图像作为当前批训练数据输入目标检测网络中；m≤N；本实施例中m＝4；

步骤2.1、输入端的Mosaic数据增强层将当前批训练数据进行随机裁剪后拼接，得到一张图像x；

输入端的图像缩放填充层将图像x的尺寸调整到主干网络的输入尺寸后得到预处理后的图像X_in；主干网络的输入尺寸为640×640。

步骤2.2、预处理图像X_in输入到主干网络中进行特征提取，得到提取后的多尺度特征图{B₁,B₂,...,B_j,...,B_k}；其中，B_j表示第j个多尺度特征图，B_k表示最小尺度特征图；具体实施例中，特征图的尺度k为4，特征提取后包括四个多尺度的特征图{B₁,B₂,B₃,B₄}。主干网络采用修改后的CSPDarknet进行特征提取，对CSPDarknet中若干个卷积层增加旁路卷积分支。本实施例中，在CSPDarknet中第2-9层增加了卷积核大小为1×1的额外卷积分支，得到RepBlock和CSPRepBottleneck模块，如图2所示。

步骤2.3、最小尺度特征图B_k输入到特征融合网络中，并依次经过k-1级图像超分路径的处理后，得到待检测的最大尺度交通目标特征图P₁，其中，由第j-1级图像超分路径的输出与第k-j个多尺度特征图B_k-j进行通道拼接再输入第j级图像超分路径中；

交通目标特征图P₁再依次经过k-1级嵌入GCAM注意力机制的路径增强网络处理后，得到待检测的多尺度交通目标特征图{P₁，P₂，…，P_k}；其中，P_k表示第k个尺度的待检测交通目标特征图；本实施例中，k＝4；

主干网络提取的最小尺度特征图B₄输入到特征融合网络中，依次经过共3级图像超分路径；采用了低级特征图重用策略，如图2中实线矩形框所示，在特征提取网络上增加上采样模块，同时与浅层的特征图作拼接处理进行特征融合，最后通过C3结构和GCAM模块得到小目标检测头需要检测的P₁检测层。最后，在自下而上路径增强网络上增加下采样模块与原始的网络结构对齐。B₄经过第3级图像超分路径的输出进入第一个GCAM注意力机制模块得到P₁，P₁依次进入共3级的嵌入GCAM注意力机制的路径增强网络，得到检测层{P₁,P₂,P₃,P₄}；

每级图像超分路径由一个卷积层、上采样层和若干C3模块组成；其中卷积层的卷积核大小为3×3，步幅为1；每级路径增强网络依次由一个卷积下采样层、若干C3模块和一个GCAM注意力机制模块组成；其中，卷积下采样层的卷积核大小为3，步幅为2；GCAM注意力机制模块依次由一个全局注意力模块和一个通道注意力模块组成，如图3所示。

GCAM注意力机制模块依次由一个全局注意力模块和一个通道注意力模块组成，其中，全局注意力模块利用式(1)对输入数据进行处理；

式(1)中，F_l表示第l个全局注意力机制模块的输入，W_l ¹、W_l ²、W_l ³分别表示第l个全局注意力机制模块的第1、2、3层卷积层的卷积核参数，均为1×1的卷积核，ReLU表示激活函数，LN表示层归一化，

通道注意力机制模块利用式(2)对输入数据进行处理；

步骤2.4、输出端的目标预选框计算模块对当前批训练数据的目标检测框的位置信息进行k-means聚类，输出nc×k个目标预选框的尺寸锚定值；其中，nc表示每种尺度特征图的目标预选框数量；

输出端的通道偏移的双分支目标检测头对待检测的多尺度交通目标特征图{P₁，P₂，…，P_k}进行处理，输出共H×W×nc个预测目标边界框的类别信息、位置信息和置信度；其中，H为待检测交通目标特征图的高度，W为宽度；

交通目标边界框的位置信息为每个交通目标边界框与对应的目标预选框的尺寸锚定值的相对偏移量；

通道偏移的双分支目标检测头依次由一个shift操作层、一个卷积层、一个双分支计算层和一个Concat层构成；

双分支计算层包括分类分支和回归分支，且两个分支均依次由若干个卷积层和shift操作层构成；

分类分支利用一个卷积层输出交通目标的类别信息；

回归分支利用两个参数不共享的全连接层分别得到交通目标边界框的目标预选框的相对偏移量以及交通目标边界框的置信度。

通道偏移的双分支检测头的结构如图4所示，其中nc表示锚框数量，ncls表示需要检测的交通目标类别数量；原始的YOLO检测头利用1×1卷积将多尺度特征图的通道数映射成(锚框数量×(类别总数+5))通道数，进而计算分类与回归的损失。直接使用1×1卷积作为检测头不利于直接对目标边界框坐标进行回归以及预测物体的类别，因为分类和回归任务是具有冲突性质的任务。利用较小的卷积核对物体的边缘信息较为敏感，对于整个目标的回归不够鲁棒的特性执行回归任务；利用较大的卷积核具有较大的感受野，有较小的空间敏感度的特性执行分类任务。实现方式如下：

首先采用1×1卷积层对特征图通道数进行降维，减少后续卷积层的参数量和计算量；接着利用平行的分支结构独立地在两个分支上进行分类和回归任务；最后将两个独立分支的分类或者回归结果做拼接处理，计算其损失。对于分类分支而言，采用2个3×3卷积层进行特征提取，最后通过1个1×1卷积层得到分类的计算结果；对于回归分支而言，通过2个全连接层进行特征提取，再通过2个独立的全连接层得到置信度得分和边界框偏移量。利用shift操作对不同空间上的通道信息进行交换，以变向达到增加感受野，聚合空间信息的目的。在1×1卷积降维层之前，以及在平行分支的3×3卷积层之后加入shift操作。实验结果表明，该操作可以在不增加任何参数量和计算量的前提下提高检测头的性能，同时在推理时略微增加延迟。为避免特征信息的过多损失，本发明中shift操作仅仅沿着特定维度平移1个像素。

步骤3、使用CIOU loss计算矩形框损失，使用BCE loss计算置信度损失与分类损失。在服务器上采用随机梯度下降法对目标检测网络进行训练，迭代多次后生成最优的目标检测网络参数；

步骤4、利用重参数化方法将主干网中若干个并行分支重参数化为若干个单分支，从而得到最终的目标检测网络用于对无人机终端实时采集的图像或以本地保存的静态图片进行检测，得到目标检测结果。具有多路分支的模型在训练时拥有更好的性能，但是会增加内存资源消耗，同时也会降低模型在推理时的速度。对于在主干网络的第2-9层增加1×1卷积旁路分支，利用结构重参数化技术在推理时将两个分支融合。

步骤4.1、利用式(4)对主干网络的每个并行分支中卷积核参数进行更新，得到更新后的卷积核参数：

式(4)中，

步骤4.2、利用式(5)得到融合后的卷积核权重参数W_fuse和融合后的卷积核偏置参数B_fuse，从而将每个并行分支的对主干分支和旁路分支进行融合；

式(5)中，

和/>

和/>

分别指原始卷积层及旁路分支卷积层的第r个偏置值，padding指将卷积核权重周围填充零以对齐原始卷积层的卷积核大小。采用融合后的模型进行推理不会引入额外的参数量和计算量，同时可以进一步提高模型的性能。融合后的1×1卷积核需要做padding操作转换为3×3卷积核，padding值为0，最后将两个分支的卷积核参数和偏置参数相加就得到了最终所需要的3×3卷积核参数。结构重参数化技术使模型在训练时采用多分支的结构，而在推理时采用重参数化将训练时的模型参数等价为另一组参数。与训练时的模型相比，推理时的模型在没有性能损失的情况下推理速度得到提高。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

实验基于64位操作***Ubuntu 18.04LTS，深度学习框架为Pytorch v1.8.0。CPU为intel(R)Core(TM)i9-10900K，GPU选用NVIDIA GeForce RTX3080。训练时使用SGD优化器，学习率设为0.04，批量大小设置为8，学习epoch数设为140。推理阶段则使用NMS算法筛选出模型推理产生的候选目标框来得到最终的结果。

实验中采用COCO数据集的评价指标，AP(Average Precision)为计算精确召回曲线下的面积，map(meanAverage Precision)是多个类别AP的平均值。主要指标为[email protected]，[email protected]:0.95。其中[email protected]指在IOU阈值为0.5下计算的所有目标类别的平均准确度。[email protected]:0.95是指0.5到0.95为间隔10个阈值下的平均准确度。采用FPS(Frames Per Second)作为模型检测速度的评价指标；

将训练好的网络在Visdrone数据集上进行检测，改进后的网络AP达到44.6％，比原始的YOLOv5s网络提高10.7％，与其他主流算法相比，具有检测速度快的同时检测精度较高的特点，如表1所示。

表1Visdrone数据集上实验结果对比

为验证所提的各种改进策略对模型检测效果的影响，在Visdrone数据集上进行消融实验，结果如表2所示。其中，“√”代表引入所提的结构，“/”代表在SDPH中没有使用到Shift操作。

表2消融实验结果对比

结果表明，本发明对交通目标检测的效果优于主流的目标检测模型，在评价精度的指标上，本发明提出的目标检测模型取得了最好的效果，同时平衡了检测速度，这表明本发明具有较好的应用空间和前景，为未来无人机在交通流量监控的实际应用提供了方法和思路。

Claims

1.一种基于注意力机制和重参数化的无人机图像交通目标检测方法，其特征在于，包括以下步骤：

步骤3、采用随机梯度下降法对所述目标检测网络进行训练，并使用CIOU loss损失计算预测目标边界框损失，使用BCEloss损失计算置信度损失与分类损失，直到损失收敛或达到最大迭代次数后，停止训练，从而生成最优目标检测网络及其最优参数；

2.根据权利要求书2所述的基于注意力机制和重参数化的无人机图像交通目标检测方法，其特征在于，所述步骤2.3中每级图像超分路径依次由一个卷积层、上采样层和若干个C3模块组成；

所述通道注意力机制模块利用式(2)对输入数据进行处理；

3.根据权利要求书2所述的基于注意力机制和重参数化的无人机图像交通目标检测方法，其特征在于，所述步骤2.4中通道偏移的双分支目标检测头依次由一个shift操作层、一个卷积层、一个双分支计算层和一个Concat层构成；

所述分类分支利用一个卷积层输出交通目标的类别信息；

4.根据权利要求4所述的基于注意力机制和重参数化的无人机图像交通目标检测方法，其特征在于，所述步骤4中的重参数化方法包括如下步骤：

式(4)中，

为一个分支的卷积层中重参数化后的卷积核的第r组的权重参数；/>

式(5)中，

和/>

和/>

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述无人机图像交通目标检测方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中任一所述无人机图像交通目标检测方法的步骤。