CN111462177B

CN111462177B - 一种基于多线索的在线多目标跟踪方法和***

Info

Publication number: CN111462177B
Application number: CN202010179263.9A
Authority: CN
Inventors: 韩守东; 黄飘; 刘东海生; 王宏伟; 于恩
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-03-14
Filing date: 2020-03-14
Publication date: 2023-04-07
Anticipated expiration: 2040-03-14
Also published as: CN111462177A

Abstract

本发明公开了一种基于多线索的在线多目标跟踪方法和***，属于多目标跟踪领域。一方面提出了一种相机运动强度指标，自适应地集成目标运动模型和相机运动模型；另一方面通过将图像网格化，然后将每一帧的观测量映射到网格中，形成一个三维的独热编码特征图，再结合积分图为每条跟踪轨迹分配与之相邻的观测量，从而将数据关联的时间复杂度从平方复杂度降低到了线性复杂度；此外还构建了一个结合可视度估计的多任务表观特征网络，联合训练后根据每个观测对象和跟踪序列中每个历史对象的尺度、长宽比、可视度以及时间间隔差异，对跟踪序列中每个对象的特征进行自适应加权并融合。本发明提高了多目标跟踪的准确性和效率，缓解了特征不对齐的问题。

Description

一种基于多线索的在线多目标跟踪方法和***

技术领域

本发明属于视频场景理解与分析领域中的多目标跟踪领域，更具体地，涉及一种基于多线索的在线多目标跟踪方法和***。

背景技术

近些年，随着计算机视觉技术和相关硬件设备的不断发展，国内外各大互联网公司纷纷研究并推出智能机器人、汽车或者监控等摄像装备，以跟随国家的规划以及时代的潮流。视频监控作为获取外部信息的主要方式之一，国内外各类视频监控设备所获取的视频数据都是急速增加的，那么如何充分有效地利用好这批数据就成为了一大难题。而使用人力来逐步筛选处理视频数据的方式显得不现实，急需合适的自动化处理软件来解放受限的处理能力。

作为计算机视觉中的一项中层任务，多目标跟踪技术服务于姿态估计、动作识别和行为分析等。相对地，单目标跟踪(Single Object Tracking，SOT)则应用于一些简单场景，对于SOT任务，一般被划分五个部分：运动模型、特征提取、观测模型、模型更新和集成方法。单目标跟踪主要解决的问题有遮挡、形变、背景干扰、尺度变换、光照、低分辨率、运动模糊、快速运动、超出视野、平面内旋转和平面外旋转等。而多目标跟踪则在此基础上增添了某些挑战，如：目标间的频繁遮挡、目标轨迹的起始和重连、目标数量不定、目标外观相似等。近些年来，多目标跟踪方向的解决方案层出不穷，有以联合概率分布、多假设跟踪和随机集为代表的概率预测型跟踪，还有以偶图匹配、最小代价流等为代表的确定性优化型跟踪，除此之外，研究者们还结合单目标跟踪的优势对多目标跟踪进行改进，并针对目标的社会交互模型进行了分析。

然而目前绝大多数的多目标跟踪算法中，对于运动模型的建模，没有充分考虑目标运动和相机运动的特性，也没有分析二者之间的相容性，导致运动模型间存在相互干扰。另外，由于跟踪轨迹与观测行人框之间的数据关联是一个多对多的全连接关系，复杂度很高，尤其是在每层连接间存在大量复杂操作的时候，耗时严重。而且，对于表观模型，由于不同时空下的目标分辨率、姿态等等的差异，导致行人特征没有对齐，从而使得目标身份的判定变得更加困难。

发明内容

针对现有技术的缺陷，本发明的一方面目的在于提供一种基于多线索的在线多目标跟踪方法和***，旨在解决现有多目标跟踪任务中运动模型间存在相互干扰导致运动信息利用不充分的技术问题。

为实现上述目的，本发明提供了一种基于多线索的在线多目标跟踪方法，包括以下步骤：

通过相机运动强度将目标运动模型和相机运动模型进行自适应集成得到集成运动模型，获取初步预测的每个目标的跟踪轨迹；

利用所述每个目标的跟踪轨迹对观测目标框进行补充；训练区域回归网络，对补充后的观测目标框进行校正，得到校正后的观测目标框；

数据关联：计算跟踪轨迹和观测目标框两者在运动状态、表观特征上的差异，为每个跟踪轨迹分配对应的观测目标框；

对跟踪轨迹进行更新、补充和删减，完成当前帧的跟踪。

进一步地，所述通过相机运动强度将目标运动模型和相机运动模型进行自适应集成得到集成运动模型包括：

利用相机运动强度完成对目标运动模型的修正；其中，所述相机运动强度

其中W表示相机运动模型得到的仿射矩阵，R＝[I；O]表示没有相机运动时仿射矩阵对应的初始矩阵，O表示全零矩阵，I表示单位矩阵；

通过以下方式获取集成运动模型

其中x_t表示t时刻的目标运动状态，P_t表示t时刻的目标运动模型误差协方差，Q表示目标运动模型噪声协方差，warp表示相机运动模型的坐标转换，a表示运动模型记忆系数，

dt表示目标运动模型的时间步长。

本发明的另一方面目的在于解决跟踪轨迹与观测目标框之间的数据关联耗时严重的技术问题。

为实现上述目的，作为改进，在进行所述数据关联之前，将所述校正后的观测目标框以独热编码的方式映射到对应区域并构建三维积分图，以获取空间区域分配关系，从而确定与每条跟踪轨迹相邻的观测目标框序列。

进一步地，所述将所述校正后的观测目标框以独热编码的方式映射到对应区域并构建三维积分图包括：

将图像区域均匀划分为M×N的空间区域，然后将D个观测目标框以独热编码的方式映射到对应区域，从而得到D维的特征图f，以此构建三维的积分图

I(m，n)表示(m，n)处的积分图向量，f(m，n)表示(m，n)处的特征图独热编码向量；

对每条跟踪轨迹，将其最新的位置映射到M×N的空间区域，获取所述空间区域内的所有观测目标框。

本发明的又一方面目的在于缓解表观模型中目标特征不对齐的技术问题。

为实现上述目的，作为改进，计算跟踪轨迹和观测目标框两者在表观特征上的差异包括以下步骤：

结合每个观测对象和跟踪轨迹中每个历史对象的尺度、长宽比、可视度以及时间间隔的差异，对跟踪序列中每个历史对象的表观特征进行自适应加权并融合，最后计算融合之后的跟踪轨迹的表观特征与观测对象的表观特征之间的余弦距离；

其中，所述表观特征和可视度通过训练得到的多任务表观特征提取网络对所述校正后的观测目标框进行特征提取和可视度预测获得。

此外，本发明还提供了一种基于多线索的在线多目标跟踪***，包括

自适应集成模块，通过相机运动强度将目标运动模型和相机运动模型进行自适应集成得到集成运动模型，获取初步预测的每个目标的跟踪轨迹；

校正模块，利用所述每个目标的跟踪轨迹对观测目标框进行补充；训练区域回归网络，对补充后的观测目标框进行校正，得到校正后的观测目标框；

数据关联模块，用于计算跟踪轨迹和观测目标框两者在运动状态、表观特征上的差异，为每个跟踪轨迹分配对应的观测目标框；

轨迹后处理模块，用于对跟踪轨迹进行更新、补充和删减，完成当前帧的跟踪。

进一步地，还包括积分图构建模块，用于将所述校正后的观测目标框以独热编码的方式映射到对应区域并构建三维积分图，以获取空间区域分配关系，从而确定与每条跟踪轨迹相邻的观测目标框序列。

优选地，所述数据关联模块包括运动状态差异计算模块和表观特征差异计算模块，分别用于计算跟踪轨迹和观测目标框两者在运动状态、表观特征上的差异；

其中，表观特征差异计算模块结合每个观测对象和跟踪轨迹中每个历史对象的尺度、长宽比、可视度以及时间间隔的差异，对跟踪序列中每个历史对象的表观特征进行自适应加权并融合，最后计算融合之后的跟踪轨迹的表观特征与观测对象的表观特征之间的余弦距离；

所述表观特征和可视度通过训练得到的多任务表观特征提取网络对所述校正后的观测目标框进行特征提取和可视度预测获得。

通过本发明所构思的以上技术方案，与现有技术相比，能够取得下列有益效果：

1、本发明在分析了目标运动模型和相机运动模型之间联系的基础上，既充分利用了两种运动模型的信息，又避免了直接合并所造成了运动模型内部冲突，大大提高了多目标跟踪的准确性。

2、本发明提出了一种三维积分图模型，利用独热编码的方式将图像空间区域和观测目标框转化为一个三维的特征图，并获取积分图，使得每条跟踪序列可以在常数时间复杂度的前提下获取与之相邻的观测目标框，大大提高了多目标跟踪的效率。

3、本发明构建了一个结合可视度预测的表观特征提取网络，并考虑到可视度分布不均衡的问题设计了多任务损失函数。基于表观特征和可视度，本发明提出了一种结合尺度、长宽比、可视度和时间间隔等因素的特征自适应加权机制，有利于缓解特征比对过程中的不对齐问题，从而减少跟踪轨迹中目标身份的漂移现象。

附图说明

图1是本发明实施例提供的一种基于多线索的在线多目标跟踪方法的流程示意图；

图2是本发明实施例提供的一种构建观测目标框独热编码特征图的示意图；

图3(a)和图3(b)分别是本发明实施例提供的跟踪轨迹数量和观测行人框数量对两种空间区域分配算法效率的影响效果对比图；

图4是本发明实施例提供的一种结合可视度预测的多任务表观特征提取网络结构示意图；

图5是本发明实施例提供的一种轨迹后处理流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

针对现有多目标跟踪方法中，运动信息的不充分利用和运动模型之间的相互干扰，数据关联的高复杂度和目标表观特征的不对齐问题等等不足之处，本发明提供了一种基于多线索的在线多目标跟踪方法，能够最大限度完善多目标跟踪任务中运动信息的充分利用和融合问题，大大降低数据关联时间复杂度，还能缓解特征不对齐的问题。作为一种常见情况，以下实施例以行人作为目标观测对象为例进行介绍。本领域技术人员可以理解，本发明提供的方法并不仅限于观测对象为人的情形，当适用于其他目标对象时，使用对应的对象数据集即可。

如图1所示为本发明实施例提供的一种基于多线索的在线多目标跟踪方法的流程示意图，包括以下步骤：

Step1初始化跟踪序列T，每个跟踪对象的序列可容纳L＝26条历史轨迹信息，轨迹中包含有该时刻该行人对象目标框的尺度、长宽比、可视度、特征向量，以及其轨迹丢失的时间长度；

Step2自适应集成行人运动模型和相机运动模型，优选卡尔曼滤波器为行人运动模型，增强相关系数最大化模型(Enhanced Correlation Coeffficient，ECC)为相机运动模型，并简化相机运动变换为欧式变换。

首先为了避免人为对场景有无相机运动进行提前设定，本发明提出了一种相机运动强度指标：

其中W表示相机运动模型得到的仿射矩阵，R＝[I；O]表示没有相机运动时仿射矩阵对应的初始矩阵，O表示全零矩阵，I表示单位矩阵。

然后利用相机运动强度指标完成对行人运动模型的修正，因此不需要考虑场景是否存在相机运动，直接通过该指标判断当前场景是否存在相机运动，以及相机运动强度，从而可得集成运动模型：

其中x_t表示t时刻的行人运动状态(包含行人框的中心坐标(c_x，c_y)、宽高比a和高h，以及各自的速度状态v_x，v_y，v_a，v_h)，P_t表示t时刻的行人运动模型误差协方差，Q表示行人运动模型噪声协方差，warp表示相机运动模型的坐标转换，α表示运动模型记忆系数，优选为1.2。F_c表示修正后的行人运动模型状态转移矩阵：

其中dt表示行人运动模型的时间步长，优选为0.15。

为了保证协方差与运动状态的量纲相近，优选运动过程位置的基础标准差σ_p＝0.02和速度的基础标准差σ_v＝0.0005，从而将运动模型误差协方差P和行人运动模型噪声协方差Q初始化为：

其中diag表示矩阵对角化，Q会在每次进行运动估计时重新计算。

通过集成运动模型，可以得到初步预测的每个目标的跟踪框位置。

Step3训练区域回归网络。这一步训练得到的区域回归网络将被用来对Step2中得到的跟踪框位置和MOT17数据集中提供的观测行人框进行更为精细的校正。为了更好的说明实施用例，这里采用多目标跟踪领域通用的MOT Challenge数据集下的MOT17数据集作为示例。该数据集中包含有14个视频序列，其中7个为训练集，7个为测试集，同时包含有各类相机运动和行人运动场景。对于观测行人框，该数据集提供了DPM、FRCNN和SDP三种检测器的检测结果。视频分辨率为1920×1080。

首先我们利用训练集来训练行人目标检测网络，网络结构是基础的Faster RCNN网络和FPN结构的结合，采用了Facebook提供的在COCO数据集上训练得到的与训练模型，其中非极大值抑制(NMS)的阈值为0.5，分类阈值为0.5，锚点框的长宽比先验值为[1.0，2.0，3.0]，锚点框的大小先验为[32,64,128,256,512]。

在数据集方面，我们利用HSV(Hue-Saturation-Value，色调-饱和度-明度)颜色通道扰动、左右翻转、随机裁剪等方式进行数据增强，从而获得约5400个训练样本。

训练采用分步长学习率设置和预热机制(warmup)结合的方式，优选地，基础学习率为0.0003125，批大小(batch size)为8，最大迭代次数为30000代，其中在20000和25000代时学习率减少一个数量级。对于warmup阶段，设置为前1000代，系数为0.001。另外，在训练过程中，每个完整训练阶段(epochs，全部训练样本训练完一轮)随机采用不同尺度的输入图像，尺度选择有(640,672,704,736,768,800)。

训练结束之后，将网络结构拆分为三个部分，分别为图像特征提取模块，区域候选网络，区域回归网络。利用图像特征提取模块对每一帧输入图像进行特征提取，从而实现降维的目的。最后利用Step2中得到的跟踪框位置和MOT17数据集中提供的观测行人框信息代替区域候选网络，输入到区域回归网络得到更为精准的观测行人框，即为该步骤所得。

Step4三维积分图的构建与空间的分块。这里将会把Step3中得到的D个观测行人框以独热编码的方式映射到对应区域，从而得到D维的特征图f。为了简化计算量，将1920×1080的图像区域均匀划分为M×N的空间区域，优选M＝16，N＝8，具体过程见图2。以此构建三维的积分图

I(m，n)表示(m，n)处的积分图向量，f(m，n)表示(m，n)处的特征图独热编码向量。例如：f(m，n)＝[1，0，0，1]表示(m，n)区域存在第1个和第4个观测行人框。

优选地，利用动态规划对积分图构建过程量进行复用，从而简化积分图的构建过程：

I(m，n)＝I(m，n-1)+I(m-1，n)-I(m-1，n-1)-f(n，n) (5)

对每条跟踪轨迹，将其最新的位置映射到M×N的空间区域，假设其对应(m₁，n₁)到(m₂n₂)的空间区域，则可以在常数时间复杂度下获取该区域内的所有观测行人框对应的独热编码向量。获取过程如下：

I(m₁：m₂，n₁：n₂)＝I(m₂，n₂)+I(m₁-1，n₁-1)-I(m₁-1，n₂)-I(m₂，n₁-1) (6)

为了验证三维积分图分块的效果，我们与通用的IOU(intersection-over-union)分块方法进行比较，其原理为如果观测行人框与跟踪轨迹相邻区域的IOU＞0，则视为二者相邻，对比效果见图3(a)和图3(b)。

这一步可以获取到三维积分图，为后续跟踪轨迹的关联提供帮助。基于三维积分图所获得的空间区域分配关系，确定每条跟踪轨迹与之相邻的观测行人框。

Step5训练多任务表观特征提取网络。这一步将对Step3中回归得到的观测行人框进行表观特征提取。同样地，这里依旧采用MOT17数据集中的训练集进行训练，其中多任务表观特征提取网络的结构示意图见图4。

为了保证相同身份行人序列的多样性，采用交并比(Intersection over Union，IOU)和可视度比较的方式筛选样本，初始化每个行人序列的第一张图片后，选择下一张与之IOU小于0.7或者可视度相差超过0.2的同身份行人框作为下一个样本，以此类推。最后可得295个行人id，共计样本33573个。

训练过程采用adagrad求解器，初始学习率设置为0.003，batchsize为64，输入分辨率为64×256，一共训练150epochs。多任务卷积神经网络损失函数设计为交叉熵损失函数：

其中N表示当前训练批次(batch)样本数量，y_i和

分别表示行人分类类别联合概率分布的网络预测值和真实标签。

均方差损失函数：

其中N表示当前训练batch样本数量，v_i和

分别表示行人可视度的网络预测值和真实标签，φ表示可视度损失值的平衡系数，依据当前batch中样本不均衡度而定，优选为低可视度样本数量占比，以0.3的可适度阈值判定。

利用该网络对Step3中得到的每个观测行人框进行特征提取和可视度预测，即可获得每个观测行人框的表观特征和可视度。

Step6数据关联。此前基于Step4中积分图所获得的空间区域分配关系，确定了每条跟踪轨迹与之相邻的观测行人框。分别计算跟踪轨迹和观测行人框的运动状态和表观特征的差异：

运动状态的差异借助卡尔曼滤波器的更新过程中的***协方差S：

S＝HPH^T+R (9)

其中P表示当前时刻运动估计误差协方差，R表示观测噪声，优选为：

R＝diag([σ_ph σ_ph 1e-1 σ_ph]^T)² (10)

H表示输出矩阵，用于卡尔曼滤波器状态转换：

其中z表示卡尔曼滤波器中除了速度状态量的其他状态集合。

对于每个观测行人框和跟踪轨迹对，先将二者转化为与z相同的形式，然后计算各自的马氏距离：

d_m(det-track)^TS^-1(det-track) (12)

由此计算马氏距离d_m＝(det-track)^TS^-1(det-track)。其中det表示观测行人框状态，track表示当前跟踪轨迹状态，S表示集成运动模型***协方差。

表观特征的相似度计算结合每个观测对象和跟踪轨迹中每个历史对象的尺度、长宽比、可视度以及时间间隔等差异，对跟踪序列中每个对象的表观特征进行自适应加权并融合。每个对象的权重计算方式为：

d＝λ₁d_scale+λ₂das_pect+λ₃d_visibility+λ₄d_time

其中λ₁～λ₄分别对应跟踪轨迹内每个历史行人框的尺度、长宽比、可视度和时间间隔的系数，优选为(0.5，1，1，1)，d_scale表示跟踪轨迹内每个历史行人框与对应观测行人框的尺度差异，d_aspect表示跟踪轨迹内每个历史行人框与对应观测行人框的长宽比差异，d_visibility表示跟踪轨迹内每个历史行人框与对应观测行人框的可视度差异，d_time表示跟踪轨迹内每个历史行人框与对应观测行人框的时间间隔，d表示跟踪轨迹内每个历史行人框与对应观测行人框的整体差异，weight_i表示跟踪轨迹中每个历史特征的权重系数。最后计算各自的余弦距离。

利用卡方分布将马氏距离映射到不同概率置信度，从而消除量纲。对于马氏距离的置信度阈值为0.95，对于余弦距离的阈值为0.7，分别将符合二者阈值的距离量变换至0～1区间。

结合跟踪轨迹的丢失时间，对余弦距离d_c和马氏距离d_m进行加权融合，马氏距离的权重系数为w＝miss_rate^time-gap，其中miss_rate表示轨迹丢失系数，time_gap表示轨迹丢失时间。二者的加权融合方式为d＝wd_m+(1-w)d_c。

最后利用匈牙利算法完成数据关联，代价矩阵阈值优选为0.7。

该步骤可以为每个观测行人框分配对应跟踪轨迹，即目标身份。

Step7轨迹后处理。在Step6的数据关联之后，对于关联成功的跟踪轨迹，则直接更新其相关参数。对于没有关联成功的观测行人框，将此作为初始状态并新增入跟踪序列；而对于没有关联成功的跟踪轨迹，则视为丢失状态；如果丢失状态持续超过一定时间，则取消轨迹的激活状态。具体过程见图5。

优选地，轨迹丢失时间的限制：

TL＝[(1-I_c)×TL₀] (14)

其中TL₀表示基础时间限制，优选为11，[·]表示向下取整操作。

最终我们将以上过程整合为统一的多目标跟踪框架，以MOT17测试集为例进行效果展示。其中MOTA表示整体跟踪正确的轨迹占比，IDF1表示跟踪轨迹的身份置信度得分，MT表示跟踪轨迹中有效长度超过80％的轨迹占比，ML表示跟踪轨迹中有效长度少于20％的轨迹占比，FP表示背景被判作跟踪对象的数量，FN表示跟踪对象被判作背景的数量，ID Sw.表示轨迹中发生身份转换的次数。

最终在MOT17测试集上的整体跟踪效果如表1所示，其中，各视频具体结果见表2。

表1

MOTA↑

IDF1↑

MT↑

ML↓

FP↓

FN↓

ID Sw.↓

60.1

56.4

28.5％

28.1％

23168

199483

2556

表2

与上述方法相对应地，本发明还提供了一种基于多线索的在线多目标跟踪***，包括

自适应集成模块，通过相机运动强度将行人运动模型和相机运动模型进行自适应集成得到集成运动模型，获取初步预测的每个目标的跟踪轨迹；

校正模块，利用所述每个目标的跟踪轨迹对观测行人框进行补充；训练区域回归网络，对补充后的观测行人框进行校正，得到校正后的观测行人框；

数据关联模块，用于计算跟踪轨迹和观测行人框两者在运动状态、表观特征上的差异，为每个跟踪轨迹分配对应的观测行人框；

进一步地，还包括积分图构建模块，用于将所述校正后的观测行人框以独热编码的方式映射到对应区域并构建三维积分图，以获取空间区域分配关系，从而确定与每条跟踪轨迹相邻的观测行人框序列。

优选地，所述数据关联模块包括运动状态差异计算模块和表观特征差异计算模块，分别用于计算跟踪轨迹和观测行人框两者在运动状态、表观特征上的差异；

所述表观特征和可视度通过训练得到的多任务表观特征提取网络对所述校正后的观测行人框进行特征提取和可视度预测获得。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。