CN112734800A

CN112734800A - 一种基于联合检测与表征提取的多目标跟踪***和方法

Info

Publication number: CN112734800A
Application number: CN202011510839.1A
Authority: CN
Inventors: 邓国伟; 陈彩莲; 涂静正; 关新平; 杨博
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-30

Abstract

本发明公开了一种基于联合检测与表征提取的多目标跟踪***及方法，涉及计算机视觉跟踪领域，包括联合检测与表征提取模块、轨迹预测模块和候选框筛选模块，其中联合检测与表征提取模块由主干网络、区域选择网络、目标边界框回归器以及表征提取器构成。本发明通过该技术方案降低了待训练网络参数的量级及计算代价，提高了算法效率和多目标跟踪的精度。

Description

一种基于联合检测与表征提取的多目标跟踪***和方法

技术领域

本发明涉及计算机视觉跟踪领域，尤其涉及一种基于联合检测与表征提取的多目标跟踪***和方法。

背景技术

随着互联网技术的蓬勃发展和智能手机、计算机等设备性能的不断提高与制造成本的持续降低，丰富的图像与视频数据每时每刻都在不断产生。正如一句俗语所说，“一图胜千言”，海量的图像与视频中蕴含了巨大的有价值的信息。如何迅速准确地利用这些数据成为了一个亟需解决的问题。现如今迅速发展的计算机视觉技术能够利用计算机强大的运算能力，代替人眼处理图像数据。目前，计算机视觉技术已经成为众多领域的核心技术。

多目标跟踪(Multi-object tracking,MOT)是计算机视觉领域中的一个重要研究方向，其任务是从视频序列中持续跟踪定位多个目标，如街道上的行人、路上的车辆等，同时保持他们的身份信息不变，进而得出每个目标的运动轨迹。多目标跟踪不仅能够准确地检测视频中目标的时空信息，而且能够为姿势预测、动作识别、行为分析等提供诸多有价值的信息。多目标跟踪算法在智能视频监控、自动驾驶、智能机器人、智能人机交互、智能交通、体育视频分析等领域中都具有广泛的应用，并且近年来已经成为研究的热门方向。

多目标跟踪问题是单目标跟踪问题的扩展。给定一特定目标，单目标跟踪的任务是从场景中持续跟踪该目标。多目标跟踪的任务是在场景中跟踪一系列感兴趣的目标，例如场景中的行人车辆等。因此，相比于单目标跟踪，多目标跟踪还需要额外完成两个任务：

(1)判断场景中目标的数量变化，并且完成新轨迹的初始化与旧轨迹的终止；

(2)保持跟踪目标的身份信息。

目前，基于检测的跟踪是多目标跟踪的主流范式，可分为如下两个相互独立的子任务：

·目标检测，检测当前图像中的目标位置；

·数据关联，将检测结果与已存在的轨迹相互关联。

研究人员通常直接使用预训练好的目标检测模型，因此视频多目标跟踪问题转化为基于检测结果的数据关联问题。为了获得最优的关联结果，作为数据关联的两大关键环节的关联代价与优化算法则成为了基于检测的跟踪算法的研究重点。

国内专利“多目标跟踪方法、装置、电子设备及存储介质”(申请号为202010573301.9)设计了一个初步的多目标跟踪方法，但是其并未考虑场景中目标之间频繁遮挡的问题，这将导致轨迹频繁发生断裂。国内专利申请号为202010605987.5的名称为“一种集成目标检测和关联的行人多目标跟踪方法”提出了能够同时进行目标检测与目标特征提取的模型，但其目标关联步骤仅仅采用了较为简单的阈值判别法，这将导致该方法在多个较为相似目标同时出现的场景中，无法得到目标之间最优的匹配结果。

国内专利“一种基于目标中心点的车辆多目标跟踪方法”(申请号为20201059041.1)，通过将车辆检测模型和跟踪模型集成在一个网络中，大大减少了计算量和运行时间，同时简化了基于跟踪的检测，但该方法在数据关联步骤仅仅利用了目标之间的位置信息，同时只采用了较为简单的贪婪匹配法，这将导致该方法在目标密度较大的场景下性能较差。

因此，本领域的技术人员致力于开发一种基于联合检测与表征提取的多目标跟踪***和方法。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是：1、如何在保持算法精度的前提下提高算法的运算速度；2、如何将目标检测与数据关联两大环节有机结合，通过全面地利用信息来提高跟踪精度。

为实现上述目的，本发明提供了一种基于联合检测与表征提取的多目标跟踪***，其特征在于，包括联合检测与表征提取模块、轨迹预测模块和候选框筛选模块，其中所述联合检测与表征提取模块由主干网络、区域选择网络、目标边界框回归器以及表征提取器构成。

进一步地，所述轨迹预测模块采用线性运动模型，根据轨迹的运动信息来推测跟踪的目标在当前视频帧的可能位置，并对已有轨迹进行修正以降低误差。

进一步地，所述候选框筛选模块采用带有身份传递的非极大化抑制算法，能够以置信度筛选出最优的候选框，并通过身份传递同时完成检测候选框与轨迹的数据关联。

进一步地，所述主干网络采用可以提取图像特征的骨干网络，在骨干网络的基础上建立特征金字塔网络。

进一步地，所述目标边界框回归器与所述表征提取器均采用深度神经网络结构，所述目标边界框回归器使用全连接层网络。

一种基于联合检测与表征提取的多目标跟踪方法，所述方法包括以下步骤：

步骤1、令活动轨迹集为空集，失活轨迹集为空集；将视频帧序列逐帧输入到所述主干网络中，获得当前帧图像的特征表；

步骤2、根据特征表中的信息，利用所述轨迹预测模块与所述联合检测与表征提取模块中的RPN、所述边界框回归器与所述表征提取器等模块功能，生成候选框；

步骤3、采用带有身份传递的非极大抑制法从候选框中筛选出最优的候选框；

步骤4、根据筛选结果更新轨迹，包括轨迹的生成、延申与删除；

步骤5、若当前帧不为视频的最后一帧，则返回第一步，否则结束。

进一步地，所述步骤2还包括：

步骤2.1、检测图像中的目标；

步骤2.2、预测轨迹的可能位置；

步骤2.3、生成候选框；

步骤2.4、提取表征向量。

进一步地，所述步骤3采用带有身份传递的非极化抑制法，具体包括：

步骤3.1、根据所述目标边界框之间的交并比对输入的候选框进行聚类，利用候选框之间的空间关系，将属于同一目标的候选框聚为一类，并将不属于同一目标的候选框加以区分；

步骤3.2、如果聚类结果中某一簇含有带身份标签的候选框，则将该候选框的身份标签传递给该簇中的所有候选框；

步骤3.3、将每一簇中非最大置信度的候选框删除，仅保留簇内置信度最大的那个候选框。

进一步地，所述步骤4还包括：

步骤4.1、更新所述活动轨迹集中的轨迹；

步骤4.2、比对所述失活轨迹集与筛选结果之间的特征，进行重识别操作；

步骤4.3、更新所述失活轨迹集中重识别成功的轨迹，并将其加入到所述活动轨迹集中，重识别失败的筛选结果作为新出现的目标，为其创建轨迹并添加入所述活动轨迹集。

进一步地，采用的重识别方法为一种短期的、基于表征向量之间欧式距离的方法。

技术效果

1、提出联合检测与表征提取模块。不仅可以检测图像中的目标位置，也能提取用于后续重识别的目标外观表征，从而极大地降低了待训练网络参数的量级及计算代价。

2、设计了一种候选框生成模块。该模块通过寻找当前图像中的目标位置以生成“检测候选框”、定向生成与现有轨迹相对应的“轨迹候选框”、提取候选框中的目标特征，可准确地检测图像中的目标位置，并且极大地方便了后续的数据关联步骤，显著提高了算法效率。

3、设计了一种候选框筛选模块。该模块采用一种带有身份传递的非极大抑制算法，既能够通过统一的标准来筛选最精确的目标边界框，显著提高了跟踪的精度；并且通过身份传递操作，高效地完成了候选框与现有轨迹的关联。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的***流程图；

图2是本发明的一个较佳实施例的联合检测与表征提取模型结构图；

图3是本发明的一个较佳实施例的目标边界框回归网络示意图；

图4是本发明的一个较佳实施例的表征提取网络示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

如图1所示，一种基于联合检测与表征提取模块的目标跟踪方法，包含以下步骤：

第一步：令活动轨迹集

失活轨迹集

将视频帧序列I＝{i₀，i₁，...，i_T-1}逐帧输入到模块的主干网络中，获得当前帧图像的特征表F_t；

第二步：基于特征表F_t，通过以下四个步骤生成候选框C_t。

2.1检测图像中的目标。RPN在图像的每一个像素上生成一个基准边界框，并根据特征表F_t从中寻找可能有目标的区域

2.2预测轨迹的可能位置。轨迹预测模块根据轨迹的运动信息来推测跟踪的目标在当前视频帧的可能位置

与RPN输出的

不同，预测模块输出的

带有相应轨迹的身份信息，这将为候选框与轨迹之间的关联提供了便利。

2.3生成候选框。将低精度边界框

与

与特征表F_t输入到目标边界框归模块中，获得候选框C_t＝D_t+B_t。其中称D_t为检测候选框，B_t为轨迹候选框。在该步骤中，

的身份信息将自动地传递给B_t。

2.4提取表征向量。该步骤为后续的行人重识别环节做准备。算法将候选框C_t与特征表F_t输入到模块的表征提取器中，计算每一个候选框的表征向量。

第三步：候选框筛选。

上述第二步生成的候选框C_t包含两部分：1)来自RPN的检测候选框D_t；2)来自预测模块的轨迹候选框B_t。这两者都不能直接当作当前帧的跟踪结果。首先，检测候选框还未跟轨迹进行关联，故并不带有身份信息；其次，由于预测模块的预测精度有限，直接使用轨迹候选框将使得轨迹精度不高。本方法采用带有身份传递的非极大抑制法从C_t筛选出最优的候选框C′_t，步骤如下：

3.1聚类。根据目标边界框之间的交并比(Interaction over union，IoU)对候选框集合C_t进行聚类，利用候选框之间的空间关系，将属于同一目标的候选框聚为一类，并将不属于同一目标的候选框加以区分。

3.2身份传递。如果聚类结果中某一簇含有带身份标签的候选框，则将该候选框的身份标签传递给该簇中的所有候选框。

3.3抑制。将每一簇中非最大置信度的候选框删除，仅保留簇内置信度最大的那个候选框。

该步骤将C_t筛选为最优的候选框C′_t，其中C′_t＝D′_t+B′_t，D′_t表示筛选结果中仍然不带有身份信息的边界框，B′_t为带有身份信息的边界框。

第四步：轨迹处理，包括轨迹的生成、延申与删除。

4.1更新轨迹。根据B′_t中的身份信息与位置信息，更新T中相应的轨迹；删除活动轨迹集T中无法与B′_t关联的轨迹，并将它们添加入失活轨迹集T′中；

4.2重识别。

由于场景中的目标之间频繁遮挡，筛选结果中仍然不带有身份标签的候选框D′_t可能为新出现的目标，也可能属于被遮挡目标的轨迹的一部分。为了减少轨迹的断裂，同时保持本算法的在线性与实时性，本专利采用了一种短期的行人重识别方法来判断D′_t是否为被遮挡目标：首先，失活轨迹集T′中的轨迹将会被额外保存t_s帧时间，且在这段时间内仍然使用轨迹预测模块预测T′中轨迹的位置；根据D′_t与T′中轨迹的表征向量之间的距离来判断两者是否为同一目标。为了降低错误重识别率，设置以下判断标准：第一，两者表征向量之间距离必须小于一定阈值；第二，两者之间的交互比大于一定阈值。

重识别步骤完成后，更新失活轨迹集T′中重识别成功的轨迹，并将其加入到活动轨迹集T中。D′_t中重识别失败的候选框为新出现的目标，为其创建新轨迹并加入到活动轨迹集T中。

第五步：若当前帧不为视频的最后一帧，则返回第一步；否则结束。

如图2所示，一种基于联合检测与表征提取的多目标跟踪***将设计的联合检测与表征提取模块作为核心骨架，并增添了轨迹预测模块与候选框提取模块以完成多目标跟踪任务。所述联合检测与表征提取模块整体由主干网络、区域选择网络(Region proposalnetwork，RPN)、目标边界框回归器以及表征提取器构成。该模块不仅能够检测图像中的目标位置，同时能够提取目标的表征向量。

主干网络采用可以提取图像特征的骨干网络，如Alexnet、VGG、Resnet系列、Inception系列、Densenet系列、ResNeXt系列等。另外，在骨干网络的基础上建立特征金字塔网络(Feature Pyramid Network,FPN)，使其能够基于不同尺度下的特征表，精确地检测目标的位置。

区域选择网络采用Faster RCNN的RPN的结构，它能够从图片中寻找有对象的区域。RPN首先在图像中的每一个像素点上生成大量的基准边界框(Anchors)。其次，在特征表找到每一个基准边界框对应的特征，并以此判断该基准边界框中是否有目标；同时通过目标边界框回归的方法，使基准边界框尽可能符合目标实际位置。一般情况下，RPN生成的基准边界框的宽高比为{1∶2，1∶1，2∶1}。实际应用中，可以根据感兴趣目标的特点来选择合适的宽高比以提高精度与效率。

如图3与图4所示，目标边界框回归器与表征提取器均采用深度神经网络结构。深度神经网络优秀有着强大的拟合能力与特征表示能力，能够有效地提高本算法的准确性。图3所示的目标边界框回归器使用编号为{1，2，3，4}共4层全连接层网络。该模块根据特征表和定位精度较差的边界框，得到定位精度更加准确的边界框，以及其对应的置信度。图4所示的表征提取器使用编号为{5，6，7}共3层全连接层网络。该模块根据特征表与目标边界框，提取目标的表征向量。其生成的表征向量满足以下性质：给定一距离度量方法，视频前后同一目标的表征向量之间的距离足够小，而不同目标的表征向量之间的距离足够大。

所述轨迹预测模块根据轨迹的运动信息来推测跟踪的目标在当前视频帧的可能位置，并对已有轨迹进行修正以降低误差。它可以有效地降低搜索空间，提高跟踪精度。轨迹预测模块根据线性运动模型来预测轨迹在当前时刻最可能的位置。

所述候选框筛选模块采用带有身份传递的非极大化抑制算法。与一般的非极大化抑制不同，带有身份传递的非极大化抑制在聚类后，如果聚类结果中某一簇含有带身份标签的候选框，则将该候选框的身份标签传递给该簇中的所有候选框。该模块能够以置信度筛选出最优的候选框，并通过身份传递同时完成了检测候选框与轨迹的数据关联，避免了复杂的相似性度量计算与二元图分配过程。

本申请实施例还提供了一种电子设备，包括处理器及存储器。

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述的多目标跟踪方法。

本申请实施例还可提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的多目标跟踪方法。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于联合检测与表征提取的多目标跟踪***，其特征在于，包括联合检测与表征提取模块、轨迹预测模块和候选框筛选模块，其中所述联合检测与表征提取模块由主干网络、区域选择网络、目标边界框回归器以及表征提取器构成。

2.如权利要求1所述的基于联合检测与表征提取的多目标跟踪***，其特征在于，所述轨迹预测模块采用线性运动模型，根据轨迹的运动信息来推测跟踪的目标在当前视频帧的可能位置，并对已有轨迹进行修正以降低误差。

3.如权利要求1所述的基于联合检测与表征提取的多目标跟踪***，其特征在于，所述候选框筛选模块采用带有身份传递的非极大化抑制算法，能够以置信度筛选出最优的候选框，并通过身份传递同时完成检测候选框与轨迹的数据关联。

4.如权利要求1所述的基于联合检测与表征提取的多目标跟踪***，其特征在于，所述主干网络采用可以提取图像特征的骨干网络，在骨干网络的基础上建立特征金字塔网络。

5.如权利要求1所述的基于联合检测与表征提取的多目标跟踪***，其特征在于，所述目标边界框回归器与所述表征提取器均采用深度神经网络结构，所述目标边界框回归器使用全连接层网络。

6.一种基于联合检测与表征提取的多目标跟踪方法，其特征在于，所述方法包括以下步骤：

7.如权利要求6所述的基于联合检测与表征提取的多目标跟踪方法，其特征在于，所述步骤2还包括：

步骤2.1、检测图像中的目标；

步骤2.2、预测轨迹的可能位置；

步骤2.3、生成候选框；

步骤2.4、提取表征向量。

8.如权利要求6所述的基于联合检测与表征提取的多目标跟踪方法，其特征在于，所述步骤3采用带有身份传递的非极化抑制法，具体包括：

9.如权利要求6所述的基于联合检测与表征提取的多目标跟踪方法，其特征在于，所述步骤4还包括：

步骤4.1、更新所述活动轨迹集中的轨迹；

10.如权利要求9所述的基于联合检测与表征提取的多目标跟踪方法，其特征在于，采用的重识别方法为一种短期的、基于表征向量之间欧式距离的方法。