CN113807187B

CN113807187B - 基于注意力特征融合的无人机视频多目标跟踪方法

Info

Publication number: CN113807187B
Application number: CN202110958482.1A
Authority: CN
Inventors: 刘芳; 浦昭辉
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2024-04-02
Anticipated expiration: 2041-08-20
Also published as: CN113807187A

Abstract

本发明公开了基于注意力特征融合的无人机视频多目标跟踪方法，针对无人机多目标跟踪视频中由于复杂背景因素干扰、遮挡、视点高度和角度多变等问题。构建无人机多目标跟踪算法网络模型并进行训练，网络的骨干网络选择了34层残差网络，特征提取部分设计了结合三元组注意力机制的特征提取网络，上采样部分设计了级联特征融合模块组成；本发明设计的注意力机制所带来的优化特征令多目标的表达能力更强，设计的多尺度信息融合通道更有利于对无人机航拍视频中小目标的跟踪，优化特征使关联算法对无人机视频中多目标轨迹预测的精准度进一步提高。

Description

基于注意力特征融合的无人机视频多目标跟踪方法

技术领域

本发明涉及一种视频多目标跟踪方法，融合了图像处理、模式识别、人工智能、自动控制以及计算机等许多领域的先进技术，特别涉及一种注意力特征融合的无人机视频多目标跟踪算法。

背景技术

相比于载人飞机，无人机因其体积小、隐蔽性强、反应快速、对作战环境要求低和能迅速到达现场等优势，被广泛应用于军事和民用领域。而无人机的广泛应用需要目标跟踪技术，它能极大增强无人机的自主飞行和监控能力，使得无人机能够完成更多种类的任务，并且适应更复杂多变的环境。因此，研究有效而稳定的多目标跟踪算法对于无人机的应用具有重大的意义。无人机在飞行过程中拍摄视角和飞行速度经常会发生改变，导致目标易发生形变、遮挡等情况，经典跟踪算法效果较差。随着人工智能技术在近几年来的的飞速发展，多目标跟踪在现有基于卷积神经网络的机器视觉技术支持下，建立了一套以目标检测为底层技术的任务模式，通过对于目标检测的结果进行数据关联，来实现对多个目标的在一段视频流内的检测结果的轨迹绘制，满足对多个跟踪需求。多目标跟踪技术的发展主要体现在多目标检测网络性能的不断提高与数据关联模型的不断优化上。

SORT利用卷积神经网络提供的检测结果，结合卡尔曼滤波预测和匈牙利匹配算法实现了对于多目标的检测与跟踪，有很高的处理速度，但并无法应对目标被遮挡的情况，一旦出现遮挡便会丢失目标。DeepSort在此基础上进行改进，在对检测数据的关联跟踪部分引入了重识别特征，通过引入重识别任务的思路来对被遮挡或产生形变的物体进行特征编码，使被遮挡的物体能够被再次识别并正确跟踪。JDE基于设计了一种联合提取检测特征和重识别特征的多目标跟踪模型，FairMOT则在其基础上该选用了无锚框的特征提取网络，并重新选用了复杂的特征融合网络，在多目标跟踪上任务上取得了更好的效果。但是由于无人机在飞行过程中所产生的镜头视点移动为人为控制，并且受到多种环境因素的印象，导致无人机视觉多目标跟踪的应用场景的相较于固定场景的人员车辆的多目标跟踪较为复杂。主要体现在以下几点，其一：无人机跟踪场景中存在相机与目标物体的双向运动，而不是相机固定拍摄的移动物体，为跟踪部分的数据关联增加了难度；其二，无人机多目标跟踪场景中相机视野更宽广，检测出来的跟踪目标数量多，对多目标跟踪的实时性造成了挑战；其三，无人机多目标跟踪场景下存在大量小目标，容易引起检测器的漏检，导致跟踪轨迹不完整。目前的多目标跟踪模型并不能很好的解决实际无人机数据中的问题，不能在无人机平台满足对多目标的准确实时跟踪。

针对这些问题，为了在不过分损失处理效率的条件下达到精准的无人机多目标跟踪，本文提出了一种基于注意力机制特征聚合的多目标跟踪算法。首先，为了使模型拥有更精确的多目标检测性能，在现有注意力模型的基础上进行改进，设计了三元组注意力机制(T-ATT)，让模型更好地融合语义和尺度不一致的特征达到更好的检测效果，并增强模型重识别能力。其次，在多目标跟踪算法的特征提取部分设计了一种基于改进的特征金字塔网络(FPN)来进行多目标跟踪的检测，将不同尺度的下采样特征在FPN上采样层进行聚合链接(Layers Aggregation)，同时结合可变形卷积在上采样层进行插值采样，构建出轻量化的多目标跟踪模型的特征提取骨干网络(LA-net)。仿真实验结果表明，该算法有效降低了形变、遮挡等情况对算法性能的影响，有效提高了多目标跟踪算法的精度。

现有的方法存在的不足：一方面，基于复杂特征提取网络的跟踪算法在跟踪精度上有很大的提升，其精度指标MOTA在无人机场景下基本可以达到50％以上，可是算法结构复杂度高，运算量大，不能满足高帧率无人机视频实时性的要求。另一方面，经典的多目标跟踪算法对于简单场景下的多目标跟踪效果较好，而且可以达到实时性，但不具有泛化性，在无人机应用场景中会以为物体被频繁遮挡而使跟踪轨迹碎片化，且对目标外观特征变化、小目标跟踪、光照变化等问题解决不好，容易导致跟踪失败。

发明内容

现有无人机多目标跟踪算法针对固定拍摄角度下的多个人物目标或车辆目标都取得了不错的效果，而在无人机应用场景下，由于复杂的拍摄环境，往往会出现由于目标易受遮挡、拍摄角度和高度多变导致的目标丢失等问题。本发明针对无人机多目标跟踪视频中由于复杂背景因素干扰、遮挡、视点高度和角度多变等问题，提出了基于注意力特征融合的无人机多目标跟踪算法。本发明设计的注意力机制所带来的优化特征令多目标的表达能力更强，设计的多尺度信息融合通道更有利于对无人机航拍视频中小目标的跟踪，优化特征使关联算法对无人机视频中多目标轨迹预测的精准度进一步提高。

为达到上述目的，本发明提出基于注意力特征融合的无人机视频多目标跟踪算法，包括以下步骤：

S1：选取大量无人机航拍视频，并对其中多目标进行标注，构建标准多目标跟踪数据集；

S2：构建无人机多目标跟踪算法网络模型并进行训练，网络的骨干网络选择了34层残差网络，特征提取部分设计了结合三元组注意力机制的特征提取网络，上采样部分设计了级联特征融合模块组成，其训练过程如下：

S2.1：将无人机数据集中的视频帧图片输入搭建好的特征提取网络，提取其注意力特征组，并将注意力特征组输入上采样级联特征融合模块，得到含有丰富位置信息及语义信息的特征头；

S2.2：将特征头进行高斯核函数回归，得到目标中心点位置，与数据集中的真实目标框的中心点计算损失并回归损失函数；

S2.3：对特征头有中心点相应的位置进行特征的直接提取，其作为该目标相应的重识别特征，计算其重识别损失并回归损失函数。

S3：设置检测置信度阈值，并将无人机视频转化为图像帧输入***，并读入第1帧；

S4：利用训练好的算法模型提取对于第一帧的目标检测结果，保存多目标的目标框及每个目标重识别特征，创建目标框的数据关联样本集G_bbox与重识别特征组G_ReID，并分别通过卡尔曼滤波器得到两个预测值；

S5：读取下一帧；

S6：对当前帧进行特征提取，得到含有优化权重的三元组注意力特征，再将特征进行级联融合上采样，得到有丰富语义信息与位置信息的特征头，并对特征头进行处理，其处理过程如下：。

S6.1：对特征头进行分组回归，对含有目标响应中心点的位置提取其重识别特征并保存进重识别特征组G_ReID；

S6.2：对响应点的特征通过高斯核函数进行滤波得到目标边界框的位置与大小，并保存进目标框关联样本集G_bbox；

S7：将当前帧重识别特征组与上一帧的卡尔曼滤波预测结果进行匈牙利算法匹配，在G_ReID中关联中多个目标的重识别特征，组成初步的多目标轨迹；

S8：将当前帧检测框集合与上一帧卡尔曼滤波预测结果进行匈牙利算法匹配，在G_bbox中关联中多个目标的检测框，完善多目标轨迹；

S9：对G_ReID与G_bbox中未被匹配的特征与检测框保存为完整轨迹并输出，对当前帧特征与检测框中未被匹配的进行新建轨迹；

S10：更行G_ReID与G_bbox中的样本，计算新的卡尔曼预测结果并保存；

S11：重复S5-S10直到处理完全部无人机视频帧，得到并输出视频多目标跟踪轨迹结果。

有益效果

根据本发明针对无人机视频中目标易发生形态变化、易被遮挡等问题，需要较准确的特征提取算法提供易于检测与重识别的特征，提出了一种基于注意力特征融合的多目标跟踪算法。本发明算法主要分为两部分。第一部分为基于改进三元组注意力机制的特征提取网络(TA-ResNet)。通过引入注意力机制，帮助残差网络更好的学习无人机视频中目标的位置和语义信息。第二部分为基于特征金字塔的特征融合多目标跟踪模块。通过在特征金字塔网络结构上设计新的特征融合通道，设计了多尺度特征融合模块(LA-block)，增强了模型对多尺度目标的特征表达能力。在训练过程中，网络对输出特征的每个位置均会生成是否含有目标中心点的概率值，计算概率值与真实值的差得到模型损失并优化损失函数。本发明设计的基于注意力特征融合的无人机多目标跟踪算法，能够很好的解决目前对于无人机采集视频中由于目标背景复杂、单个目标占比较小和拍摄角度高度多变等问题。利用改进的三元组注意力机制建立了集成注意力特征的特征提取网络，在此基础上构建多尺度特征融合金字塔，将空间尺寸不一的复数特征图通过可变形卷积进行级联上采样并加权融合，增强了特征对目标的表达能力，并利用数据关联范式将帧间特征关联为完整多目标跟踪轨迹。仿真实验结果表明，本发明在无人机视角下达到了较好的多目标跟踪性能，在保证了算法速度的基础上，显著提高了无人机多目标跟踪精度。

附图说明

本发明上述和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的基于注意力特征融合的无人机多目标跟踪算法的流程图；以及

图2为本发明一个实施例的一个算法整体结构示意图。

图3为本发明一个实施例的一个三元组注意力结构示意图。

图4为本发明一个实施例的一个特征融合方法改进示意图。

图5为本发明一个实施例的一个特征融合模块结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的原件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，根据本发明基于注意力特征融合的无人机多目标跟踪算法，包括以下几个步骤：

S2：构建如图2所示的无人机多目标跟踪算法网络模型并进行训练，网络的骨干网络选择了34层残差网络，特征提取部分设计了结合三元组注意力机制的特征提取网络，上采样部分设计了级联特征融合模块组成，其训练过程如下：

S2.1：将无人机数据集中的视频帧图片输入搭建好的特征提取网络，提取其三元组注意力特征组，并将注意力特征组输入上采样级联特征融合模块，得到含有丰富位置信息及语义信息的特征头；

三元组注意力采用均值并联的形式来表示注意力权重，其结构如图3所示。其三元组中的三个元素之一为保留的空间注意力模块，是按照通道维度(Channel wise)在位置平面(W*H)上的每一个进行权重提取，得到了宽度维与高度维的关联注意力，即空间注意力。而另外两个部分则是替代了原本CBAM中的通道注意力模块。将Channel Attention中对于输入卷积块进行的全局最大池化(Global max pooling，GMP)与全局平均池化(Globalaverage Pooling，GAP)后进行一维权重编码的过程进行改进，借鉴了Spatial Attention中降低维度的思想，把输入特征块按照W维度在(H*C)平面上进行降维，提取通道维与高度维的关联注意力，定义其输出y_w如公式(1)所示：

式中：表示通过坐标轴转置操作改变输入特征x₁的维度顺序为(W×H×C)；/>是对输入特征进行降维后的特征，其维度变为(2×H×C)。通过卷积函数/>与Sigmod激活函数σ()进行注意力权重提取。将注意力权重与/>相乘加权并还原顺序，得到通道与像素纵向位置的联合注意力y_w。

同理把特征块按照H维度在(C×W)平面上进行降维，提取通道维与宽度维的关联注意力并加权，其输出y_h如公式(2)所示：

式中：x₂是输入特征；为输入特征经过改变顺序降维操作，得到维度为(2×C×W)的特征块。将其经过卷积/>与Sigmod激活函数σ()后与输入特征相乘加权，再经过维度顺序还原得到三元组注意力中的像素横向位置与通道的联合注意力y_h。

三元组中的空间注意力的提取公式如公式(3)所示：

其中为输入特征经过降维得到的特征块，其维度为(2×H×W)，按照相同的卷积激活操作得到权重后进行加权，得到像素纵向位置与横向位置的联合注意力，即像素的空间注意力y_c。

将得到通道跨维度关联的注意力特征与空间注意力特征进行加权融合，得到最终输出的三元组特征注意力作为注意力模块的输出。由于将通道跨维度注意力作用于输入特征可以使其在通道上包含更多的跨纬度特征响应，为了最大优化跟踪任务中的重识别特征，需要将模型在通道维度上的注意力进行进一步的优化，通过设定空间注意力与通道跨维度关联注意力特征权重设定，来实现在输入特征模型在经过注意力模块后得到的输出特征包含最多的跨纬度信息，使多目标跟踪任务中的重识别特征更精确的反应目标的具体语义信息，其加权过程为公式(4)所示：

Y＝α(y_w+y_h)+βy_c (4)

式中：Y为注意力模块的输出；α、β为跨纬度注意力与空间注意力权值，α＝0.4，β＝0.2。

多尺度特征融合模块结构示意如图4所示。图中下采样部分每层的输出特征，为经TA-ResNet提取网络得到的注意力特征，其中第一层的为网络经过4x快速下采样得到初级语义特征层，后三层分别为输入图像依次通过特征提取网络得到的采样倍率分别为{8x,、16x、32x}的高级语义特征层。传统FPN将含有最高级语义的32x特征层经过转置卷积级联结构进行上采样，并将下采样的语义特征层直接加到等分辨率的上采样层中。而本算法结构保留FPN转置卷积上采样结构的基础上，设计了基于可变形卷积的多尺度上采样级联模块，来达到多尺度特征融合的效果。

LA特征融合模块具体结构如图5所示，其中{C₁,C₂,C₃,C₄}为TA-ResNet各个阶段输出的注意力特征，{P₁,P₂,P₃,P₄}为LA模块在分阶段上采样中的输出结果。

各阶段具体步骤如下：

1)将下采样层得到的输出特征C₄经过保持特征尺度的可变形卷积层得到P₄，如式(5)所示：

P₄＝ψ(C₄) (5)

式中：ψ()表示保持尺度的可变性卷积。

2)将P₄与C₃经过上采样Deform-conv层得到的输出P₃₄进行加权融合，并经过转置卷积上采样得到P₃，如式(6)所示：

P₃＝T(δ₃*P₄+ε₃*ζ(C₃)) (6)

式中：T()为转置卷积上采样；ζ()为Deform-conv上采样；δ、ε为权重参数。

3)将P₃与经过Deform-conv上采样得到的P₃₃、经过Deform-conv进行同尺度采样的得到的P₂₃加权融合，再经转置卷积上采样得到P₂,如式(7)所示：

P₂＝T(δ₂*P₃+ε₂*(ζ(P₃₄)+ψ(C₂))) (7)

4)同理将P₂与经过Deform-conv上采样得到的P₃₂、P₂₂与经过Deform-conv同尺度采样的得到的P₁₂加权融合，再经转置卷积上采样得到P₁，如式(8)所示：

P₁＝T(δ₁*P₂+ε₁*(ζ(P₃₃)+ζ(P₂₃)+ψ(C₁))) (8)

经过四个阶段的特征融合采样操作，可以得到LA特征融合模块的具体公式，如式(9)所示：

为了避免特征信息冗余，同时为了后续分组关联任务所需要的特征尺度的要求，权重组为δ_1,2,3＝{0.7,0.6,0.5}，ε_1,2,3＝{0.1,0.2,0.5}。

检测任务损失函数L_det如式(10)所示：

L_det＝L_heatmap+L_{bbox_size}+L_{bbox_offset} (10)

式中：L_heatmap为中心点热图损失函数；L_{bbox_size}为框大小损失；L_{bbox_offset}为框偏移损失函数。

与Anchor-based方法基于anchor设置检测损失函数不同，无锚框检测框架下，对于每个GT检测框的中心点，应用高斯核函数在下采样尺度为4的热图上赋值。让网路模型学习预测中心点热图时，使对中心点的预测值同样为高斯核函数分布。使用高斯分布生成基于GT框的中心点热图，保留了标注中心点周围的点对于网络的学习辅助能力，使得网络通过学习中心点及中心点附近的特征来预测中心点位置。使用改进的Focal Loss^[12]来优化表示网络生成热图与GT热图的之间差距的热图损失L_heatmap，如式(11)所示：

式中：为热图在特征块(x,y,c)位置的预测值；N为图像关键点个数；α、β为超参数，分别为2，4。

目标框的中心点偏置是由于下采样的空间位置损失而导致，对每个预测中心点的坐标与GT坐标在热图上的中心点坐标映射间的绝对距离计算其损失L_{bbox_offset}，如式(12)所示：

式中：为网络预测的目标框中心点偏移；/>为GT目标框的中心点偏移；p为GT目标框中心点坐标；R为下采样倍率。

目标框的大小由坐标差值决定，计算GT框坐标差值与预测框坐标差值的绝对距离定义其框大小损失L_{bbox_size}，如式(13)所示：

式中：表示网络预测的目标框的长和宽；s_k表示GT中目标的长和宽。

不同于本质是回归任务的检测损失，ID特征损失本质是对不同响应点上的特征进行分类。由于提取重识别特征的主要目的是区分响应点所代表物体之间的ID序号，对一幅图像上提取到的不同位置上的特征进行分类，特征损失优化的便是模型提取的特征反应响应点之间不同的能力，对此选择交叉熵损失函数尽可能的最大化响应点特征之间的差异，使后续的ReID特征匹配任务得到更好的匹配结果。定义特征损失如式式(14)所示：

式中：Lⁱ(k)为表示各个响应点类别标签的向量；p(k)为该响应位置映射的类分布向量。

S5：读取下一帧；

输入图片经过基于注意力机制的下采样网络及特征融合模块后，将生成采样倍率为4x的输出特征，再将网络输出特征进行分组预测以得到两帧间数据关联任务所需要的ReID特征及检测框。首先将网络输出特征并行通过三个3x3卷积与1x1卷积得到三个针对输出特征的降维采样结果，即三个特征头(feature head)。对三个特征头分别进行中心点响应热图、目标框大小回归和中心点偏移量回归。中心点热图(Center-point heatmap)特征头的形状为(n,H,W)，其中n代表所检测的目标种类数量，H、W高度和宽度，其反应了多目标预测的中心点位置。目标框大小的形状(B-box size)与中心点偏移(Center offset)特征头的形状均为(2,H,W)，框大小回归给出了热图中每个位置上目标框的宽高(W,H)预测值，而偏移量回归则为了弥补中心相应热图中由于下采样产生的中心点位移，给出了热图中每个位置上的中心点偏移量(x，y)。如果热图在某位置没有中心点响应，则其B-box size与Center offset均为0。其次，算法根据中心点热图中存在响应的点的坐标，在未降维的输出特征的相应坐标位置上直接提取高维特征组，作为当前帧全部检测目标的ReID特征。

首先初始化跟踪序列，根据第一帧的检测框生成原始的多目标轨迹集，保存重识别特征组，并建立长度为30帧的搜索区间，以找到再次出现的被遮挡的目标并链接正确的轨迹。之后对连续的帧序列依次通过网络预测其目标框坐标和重识别特征，通过与在搜索区间的重识别特征组中的元素计算余弦距离。同时使用卡尔曼滤波器预测当前帧的ReID特征组所表示的多目标的位置，并与轨迹集中的多目标位置计算马氏距离，将马氏距离过远的匹配附加上惩罚项，组成代价矩阵(cost matrix)。而后利用匈牙利算法结合costmatrix对ReID特征组与已有轨迹集中的多目标进行二元匹配，将匹配命中的目标加入已经生成的轨迹中。而后继续并对当前帧未匹配的检测目标框的与上一帧未匹配的目标框进行重叠度交并比(IOU)计算，同理使用匈牙利二元匹配算法对未配对目标按照交并比匹配。最后对轨迹集中超过在搜索区间长度且仍未被匹配目标的轨迹保存并移出待匹配集，对当前帧未被匹配的目标进行新轨迹创建并加入匹配集，更新轨迹集得到对于当前输入帧的多目标的跟踪结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改替换和变形，本发明的范围有所附权利要求及其等同限定。

Claims

1.基于注意力特征融合的无人机视频多目标跟踪方法，其特征在于：该方法包括以下步骤，

S2：构建无人机多目标跟踪算法网络模型并进行训练，网络的骨干网络选择了34层残差网络，特征提取部分设计了结合三元组注意力机制的特征提取网络，上采样部分设计了级联特征融合模块组成；

S5：读取下一帧；

S6：对当前帧进行特征提取，得到含有优化权重的三元组注意力特征，再将特征进行级联融合上采样，得到有丰富语义信息与位置信息的特征头，并对特征头进行处理；

S10：更新G_ReID与G_bbox中的样本，计算新的卡尔曼预测结果并保存；

2.根据权利要求1所述的基于注意力特征融合的无人机视频多目标跟踪方法，其特征在于：S3的训练过程如下：

3.根据权利要求1所述的基于注意力特征融合的无人机视频多目标跟踪方法，其特征在于：S6的处理过程如下：

S6.2：对响应点的特征通过高斯核函数进行滤波得到目标边界框的位置与大小，并保存进目标框的数据关联样本集G_bbox。