CN106971401B

CN106971401B - 多目标跟踪装置和方法

Info

Publication number: CN106971401B
Application number: CN201710203912.2A
Authority: CN
Inventors: 邹李兵
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2020-09-25
Anticipated expiration: 2037-03-30
Also published as: CN106971401A

Abstract

本申请提供了一种多目标跟踪装置和方法。所述多目标跟踪装置包括：跟踪模块，配置为接收视频帧数据以及获取指示要跟踪的多个目标的指示数据，并且根据所述多个目标的指示数据跟踪所述视频帧数据的每一帧中的多个目标以便生成跟踪结果；检测模块，配置为接收所述视频帧数据，并且检测所述视频帧数据的每一帧中的所述多个目标以便生成检测结果；学习模块，配置接收所述视频帧数据，并且根据所述跟踪模块的跟踪结果更新所述检测模块，以及根据所述检测模块的检测结果更新所述跟踪模块；以及整合模块，配置为接收所述跟踪模块的跟踪结果和所述检测模块的检测结果，以生成指示被跟踪的多个目标的指示数据。

Description

多目标跟踪装置和方法

技术领域

本申请涉及多目标跟踪装置和方法。

背景技术

TLD(Tracking-Learning-Detection)是一种新的单目标长时间(long termtracking)跟踪算法。TLD与传统跟踪方法的显著区别在于将传统的跟踪算法和传统的检测算法相结合来解决被跟踪目标在被跟踪过程中发生的形变、部分遮挡等问题，且跟踪效果更加稳定、鲁棒、可靠。但原始的TLD是个单目标跟踪方法，在多目标跟踪应用场景下不适用。

为此，期望提供一种多目标跟踪装置和方法，其能够对多个目标进行跟踪。

发明内容

根据本申请的实施例，提供了一种多目标跟踪装置，包括：

跟踪模块，配置为接收视频帧数据以及获取指示要跟踪的多个目标的指示数据，并且根据所述多个目标的指示数据跟踪所述视频帧数据的每一帧中的多个目标以便生成跟踪结果；

检测模块，配置为接收所述视频帧数据，并且检测所述视频帧数据的每一帧中的所述多个目标以便生成检测结果；

学习模块，配置接收所述视频帧数据，并且根据所述跟踪模块的跟踪结果更新所述检测模块，以及根据所述检测模块的检测结果更新所述跟踪模块；以及

整合模块，配置为接收所述跟踪模块的跟踪结果和所述检测模块的检测结果，以生成指示被跟踪的多个目标的指示数据。

可选地，所述跟踪模块包括多目标跟踪管理器，配置为：

根据预定操作执行跟踪目标的添加；

执行多个跟踪目标的更新；以及

管理多个跟踪目标的跟踪目标框的第一队列和多个跟踪目标的目标区域特征点的第二队列的双向映射关系。

可选地，所述多目标跟踪管理器进一步配置为：

利用光流法对目标区域特征点的第二队列中的所有特征点进行跟踪以便生成跟踪结果；

根据跟踪结果以及特征点到跟踪目标框的逆向映射关系，确定多个跟踪目标的每个的跟踪目标框在跟踪中是否成功；

如果成功，则重新计算跟踪目标框并更新特征点，否则将该跟踪目标的跟踪目标框和对应的特征点分别从第一队列和第二队列中删除。

可选地，所述学习模块包括：

样本队列生成器，配置为生成正样本队列和负样本队列，其中，所述正样本队列包括所述视频帧数据的每一帧中所述跟踪模块跟踪到的每个跟踪目标的跟踪目标框或所述检测模块检测到的每个跟踪目标的检测目标框，负样本队列为存储的公共负样本，所述负样本为正样本附近预定范围内不与正样本相交的区域，其中，对于多个跟踪目标中的每个，正样本队列包括该跟踪目标的跟踪目标框和检测目标框，负样本队列包括公共负样本和属于其它跟踪目标的正样本队列的正样本；以及

分类器，配置为分别对每个跟踪目标的正样本队列和负样本队列进行相似性比较；根据设定阈值，获取正样本队列和负样本队列中的个数和归属并执行归一化处理；以及计算属于每个跟踪目标的正样本和负样本的概率。

可选地，所述检测模块进一步配置为：

针对所述视频帧数据的每一帧，滑动检测框以检测负样本；

确定检测到负样本的区域为后续不检测区域；以及

对于剩余区域，进行正样本检测以确定跟踪目标。

根据本申请的另一实施例，提供了一种多目标跟踪方法，包括：

通过跟踪模块接收视频帧数据以及获取指示要跟踪的多个目标的指示数据，并且根据所述多个目标的指示数据跟踪所述视频帧数据的每一帧中的多个目标以便生成跟踪结果；

通过检测模块接收所述视频帧数据，并且检测所述视频帧数据的每一帧中的所述多个目标以便生成检测结果；

通过学习模块接收所述视频帧数据，并且根据所述跟踪模块的跟踪结果更新所述检测模块，以及根据所述检测模块的检测结果更新所述跟踪模块；以及

通过整合模块接收所述跟踪模块的跟踪结果和所述检测模块的检测结果，以生成指示被跟踪的多个目标的指示数据。

可选地，所述跟踪模块包括多目标跟踪管理器，配置为：

根据预定操作执行跟踪目标的添加；

根据预定操作执行多个跟踪目标的更新；以及

可选地，所述多目标跟踪管理器进一步配置为：

可选地，所述学习模块包括：

可选地，所述检测模块进一步配置为：

针对所述视频帧数据的每一帧，滑动检测框以检测负样本；

确定检测到负样本的区域为后续不检测区域；以及

对于剩余区域，进行正样本检测以确定跟踪目标。

因此，利用根据本申请实施例的多目标跟踪装置和方法，能够对多个目标进行跟踪。

附图说明

图1是图示现有技术的TLD算法的框图；

图2是图示根据本申请实施例的多目标跟踪装置的功能配置框图；

图3是图示跟踪目标框队列和特征点队列的映射关系的示意图；

图4是图示正样本队列和负样本队列的示意图；以及

图5是图示根据本申请实施例的多目标跟踪方法的流程图。

具体实施方式

在描述根据本申请实施例的多目标跟踪装置和多目标跟踪方法之前，首先简单介绍TLD算法。

如本领域技术人员熟知的，TLD算法是一种长期的、在线学习的、最少先验信息的单目标跟踪方法。TLD算法主要由三个部分组成：***、检测器和学习器。***部分由一个短周期自适应***构成，在帧间运动有限、目标可见的情况下，用来预测目标在连续帧间的运动。检测器部分为一个高效的级联分类器，创建使用了简单有效图像特征，可以对目标进行实时的检测，同时在必要的情况下纠正***。学习器评估***和检测器的性能，通过生成有效的训练样本完成检测器的更新，消除检测器误差。

TLD算法的框架结构如图1所示。在跟踪目标的起始帧，通过给出目标的位置和大小，完成对TLD算法的初始化。在随后的跟踪过程中，对每一帧图像用***和检测器共同并行地进行处理。

具体地，***101根据前一帧中目标的位置信息来估计当前帧中目标所在的位置，检测器103对当前帧窗口全局扫描，检测出一个或者多个可能的目标位置，检测结果和跟踪结果输入到综合器104。综合器104给出当前帧是否存在目标、目标位置以及到当前帧的跟踪轨迹是否有效等信息。这些综合处理的结果、联合检测结果和跟踪结果一起输入到学习器102，学习器完成对***和检测器的更新。

然而，现有的TLD算法的一个缺点是只能跟踪单目标。为此，本申请针对现有的TLD算法进行了改进，通过分别改进现有TLD算法的***、检测器、学习器，实现了多目标跟踪。

下面，将参考附图详细描述根据本申请第一实施例的多目标跟踪装置。如图2所示，根据本申请第一实施例的多目标跟踪装置200包括：

跟踪模块201，配置为接收视频帧数据以及获取指示要跟踪的多个目标的指示数据，并且根据所述多个目标的指示数据跟踪所述视频帧数据的每一帧中的多个目标以便生成跟踪结果；

检测模块202，配置为接收所述视频帧数据，并且检测所述视频帧数据的每一帧中的所述多个目标以便生成检测结果；

学习模块203，配置接收所述视频帧数据，并且根据所述跟踪模块的跟踪结果更新所述检测模块，以及根据所述检测模块的检测结果更新所述跟踪模块；以及

整合模块204，配置为接收所述跟踪模块的跟踪结果和所述检测模块的检测结果，以生成指示被跟踪的多个目标的指示数据。

与现有的TLD不同，根据本申请实施例的跟踪模块201除了接收视频帧数据以外，还获取指示要跟踪的多个目标的指示数据。

该指示数据可以是表示目标所在位置、尺度大小的跟踪框，也可以是标识被跟踪目标是否可见的标记。

在一个实施例中，针对多个跟踪目标的每个，可以通过在第一帧图像中手动确定一个包含跟踪目标的矩形，并得到所述矩形的初始坐标和宽高信息作为指示数据。

在另一个实施例中，也可以通过预先存储要跟踪的对象的信息，通过图像识别的方式在第一帧图像中识别要跟踪的对象，并且生成一个包含跟踪目标的矩形，并得到所述矩形的初始坐标和宽高信息作为指示数据。

跟踪模块201还可以包括多目标跟踪管理器2011。

所述多目标跟踪管理器2011配置为：根据预定操作执行跟踪目标的添加；执行多个跟踪目标的更新；以及管理多个跟踪目标的跟踪目标框的第一队列和多个跟踪目标的目标区域特征点的第二队列的双向映射关系。

具体地，例如，在跟踪期间，可以通过在当前帧图像中手动确定一个包含跟踪目标的矩形，并得到所述矩形的初始坐标和宽高信息作为指示数据，所述多目标跟踪管理器2011可以添加该手动确定的跟踪目标作为接下来要跟踪的跟踪目标。

可替代地，也可以通过将要跟踪的跟踪目标的信息传输到***中，使得在跟踪期间，在当前帧图像中生成一个包含跟踪目标的矩形，并得到所述矩形的初始坐标和宽高信息作为指示数据，所述多目标跟踪管理器2011可以添加该跟踪目标作为接下来要跟踪的跟踪目标。

此外，所述多目标跟踪管理器2011可以执行多个跟踪目标的更新。该更新包括重新计算跟踪目标的跟踪框以及相应的特征点。

所述多目标跟踪管理器2011还可以管理多个跟踪目标的跟踪目标框的第一队列和多个跟踪目标的目标区域特征点的第二队列的双向映射关系。

下面将参考图3详细描述该双向映射关系。

如图3所示，对于要跟踪的多个跟踪目标(假设为N个，N为大于1的整数)，分别为每个跟踪目标生成跟踪框。该多个跟踪目标的跟踪框形成第一队列，即图3中的obj1、obj2、……、objN。

特征点是在视频数据帧的跟踪框中选择的若干个像素点。如图3所示，跟踪框obj1、obj2、……、objN的每个包括多个像素点作为特征点。每个跟踪框和其对应的特征点之间具有双向映射关系。通过这样的双向映射关系，能够确定对应的跟踪框和特征点。

此外，所述多目标跟踪管理器2011进一步配置为：

此外，所述学习模块203包括样本队列生成器2031和分类器2032。

所述样本队列生成器2031配置为生成正样本队列和负样本队列。所述正样本队列包括所述视频帧数据的每一帧中，所述跟踪模块201跟踪到的每个跟踪目标的跟踪目标框或所述检测模块202检测到的每个跟踪目标的检测目标框。

具体地，在每一帧中，当跟踪模块201跟踪的跟踪目标的跟踪目标框的置信度高时，可以选择跟踪模块201跟踪到的跟踪框作为正样本。另一方面，当跟踪模块201跟踪的跟踪目标的跟踪目标框的置信度低，并且检测模块202检测到的对象框的置信度高时，可以选择检测模块202检测到的检测框作为正样本。另一方面，当跟踪模块201跟踪的跟踪目标的跟踪目标框的置信度低并且检测模块202检测到的对象框的置信度低时，在该帧中不选择正样本。

因此，如图4所示，对于obj1、obj2、……、objN，截止到当前帧，跟踪对象1的正样本包括P11、P12、P13、P14、P15。跟踪对象2的正样本包括P21、P22、P23。……。跟踪对象N的正样本包括Pn1、Pn2。

另一方面，如图4所示，负样本队列为存储的公共负样本。所述负样本为正样本附近预定范围内不与正样本相交的区域。例如，对于跟踪对象1的正样本P11来说，可以将正样本P11周围例如10个像素大小的区域作为负样本。需要注意的是，该预定范围可以根据需要自由地设置。

此外，需要注意的是，在本实施例中，对于多个跟踪目标中的每个，正样本队列包括通过上面所述的方式获得的该跟踪目标的跟踪目标框或检测目标框。另一方面，对于多个跟踪目标中的每个，负样本队列除了公共负样本以外，还包括属于其它跟踪目标的正样本队列的正样本。也就是说，对于特定跟踪目标而言，其它跟踪目标的正样本对它来说也是负样本。

此外，分类器2032例如可以采用多分类的K最近邻(KNN,k-NearestNeighbor)分类器。该KNN分类器配置为分别对每个跟踪目标的正样本队列和负样本队列进行相似性比较。然后，根据设定阈值，获取正样本队列和负样本队列中的个数和归属，并执行归一化处理以计算属于跟踪对象objN的正样本和负样本的概率，其中负样本包含属于负样本队列中的负样本和正样本队列中所有不属于objN的正样本。

所述检测模块203进一步配置为针对所述视频帧数据的每一帧，滑动检测框以检测负样本。与现有技术的TLD算法不同的是，因为样本队列生成器2031已经生成了负样本队列，所以检测模块203可以通过先检测负样本，过滤负样本存在的区域，从而减少要检测的区域。

例如，如果检测框判断负样本的相似度>70％，则可以认定该区域没有跟踪对象，即确定检测到负样本的区域为后续不检测区域。

最后，对于所述视频帧的剩余区域，进行正样本检测以确定跟踪目标。这样，与简单地针对每个对象设置多个检测器的方式相比，本申请实施例中检测器个数没有增加，即，只有一个检测器。这样，将大大地节省跟踪***的计算和存储资源。

另一方面，通过先过滤负样本区域，可以大大减少图像帧的检测区域，因而检测器的性能得到了提升。

与现有技术的TLD算法相同，整合模块204接收所述跟踪模块的跟踪结果和所述检测模块的检测结果，以生成指示被跟踪的多个目标的指示数据。

具体地，整合模块204将检测器和***得到的目标框进行整合，并作为多目标跟踪装置的最后的输出。如果***或者检测器都没有得到目标框，则整合模块204认定当前帧中被跟踪目标没有出现。否则，整合模块204将具有最大保守相似度的目标框作为最终的目标框所在位置。

因此，利用根据本申请实施例的多目标跟踪装置，能够对多个目标进行跟踪。

<第二实施例>

下面，将参考图5描述根据本申请第二实施例的多目标跟踪方法。

如图5所示，根据本实施例的多目标跟踪方法500包括：

步骤S501：通过跟踪模块接收视频帧数据以及获取指示要跟踪的多个目标的指示数据，并且根据所述多个目标的指示数据跟踪所述视频帧数据的每一帧中的多个目标以便生成跟踪结果；

步骤S502：通过检测模块接收所述视频帧数据，并且检测所述视频帧数据的每一帧中的所述多个目标以便生成检测结果；

步骤S503：通过学习模块接收所述视频帧数据，并且根据所述跟踪模块的跟踪结果更新所述检测模块，以及根据所述检测模块的检测结果更新所述跟踪模块；以及

步骤S504：通过整合模块接收所述跟踪模块的跟踪结果和所述检测模块的检测结果，以生成指示被跟踪的多个目标的指示数据。

根据本实施例的多目标跟踪方法500可以通过根据第一实施例的多目标跟踪装置200实现。因此，对于执行所述多目标跟踪方法的各个步骤的相应模块在此省略其详细描述。

可选地，所述跟踪模块包括多目标跟踪管理器，配置为：

根据预定操作执行跟踪目标的添加；

根据预定操作执行多个跟踪目标的更新；以及

可选地，所述多目标跟踪管理器进一步配置为：

可选地，所述学习模块包括：

可选地，所述检测模块进一步配置为：

针对所述视频帧数据的每一帧，滑动检测框以检测负样本；

确定检测到负样本的区域为后续不检测区域；以及

对于剩余区域，进行正样本检测以确定跟踪目标。

因此，利用根据本申请实施例的多目标跟踪方法，能够对多个目标进行跟踪。

需要注意的是，上面的实施例仅仅是用作示例，本发明不限于这样的示例，而是可以进行各种变化。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM(只读存储器)/RAM(随机存取存储器)、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多目标跟踪装置，包括：

整合模块，配置为接收所述跟踪模块的跟踪结果和所述检测模块的检测结果，以生成指示被跟踪的多个目标的指示数据，其中，

所述学习模块包括：

样本队列生成器，配置为针对被跟踪的多个目标中的每一个分别生成正样本队列和负样本队列，其中，所述负样本队列包括存储的公共负样本和属于其它跟踪目标的正样本队列的正样本。

2.如权利要求1所述的装置，其中，所述跟踪模块包括多目标跟踪管理器，配置为：

根据预定操作执行跟踪目标的添加；

执行多个跟踪目标的更新；以及

3.如权利要求2所述的装置，其中，所述多目标跟踪管理器进一步配置为：

4.如权利要求3所述的装置，其中，所述正样本队列包括所述视频帧数据的每一帧中所述跟踪模块跟踪到的每个跟踪目标的跟踪目标框或所述检测模块检测到的每个跟踪目标的检测目标框，所述负样本为正样本附近预定范围内不与正样本相交的区域，其中，对于多个跟踪目标中的每个，正样本队列包括该跟踪目标的跟踪目标框和检测目标框，

所述学习模块还包括：

5.如权利要求4所述的装置，其中，所述检测模块进一步配置为：

针对所述视频帧数据的每一帧，滑动检测框以检测负样本；

确定检测到负样本的区域为后续不检测区域；以及

对于剩余区域，进行正样本检测以确定跟踪目标。

6.一种多目标跟踪方法，包括：

通过整合模块接收所述跟踪模块的跟踪结果和所述检测模块的检测结果，以生成指示被跟踪的多个目标的指示数据，其中，

所述学习模块包括：

7.如权利要求6所述的方法，其中，所述跟踪模块包括多目标跟踪管理器，配置为：

根据预定操作执行跟踪目标的添加；

根据预定操作执行多个跟踪目标的更新；以及

8.如权利要求7所述的方法，其中，所述多目标跟踪管理器进一步配置为：

9.如权利要求8所述的方法，其中，所述正样本队列包括所述视频帧数据的每一帧中所述跟踪模块跟踪到的每个跟踪目标的跟踪目标框或所述检测模块检测到的每个跟踪目标的检测目标框，所述负样本为正样本附近预定范围内不与正样本相交的区域，其中，对于多个跟踪目标中的每个，正样本队列包括该跟踪目标的跟踪目标框和检测目标框，

所述学习模块还包括：

10.如权利要求9所述的方法，其中，所述检测模块进一步配置为：

针对所述视频帧数据的每一帧，滑动检测框以检测负样本；

确定检测到负样本的区域为后续不检测区域；以及

对于剩余区域，进行正样本检测以确定跟踪目标。