CN111080673A

CN111080673A - 一种抗遮挡目标跟踪方法

Info

Publication number: CN111080673A
Application number: CN201911261618.2A
Authority: CN
Inventors: 张盛; 易梦云; 徐赫
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-28
Anticipated expiration: 2039-12-10
Also published as: CN111080673B

Abstract

本发明提供一种抗遮挡目标跟踪方法，首先对于输入视频或图像序列，采用目标检测器对视频中的每一帧图像进行检测得到基于检测的候选项；根据输出当前帧的目标检测结果，运用卡尔曼滤波器预测目标在下一帧的位置得到基于跟踪的候选项。根据置信度评分公式计算候选项的置信度，采用非极大值抑制算法得到最终候选项；将相邻帧的候选项输入特征匹配网络，通过级联匹配算法计算目标间的匹配度。将基于检测的候选项通过深度神经网络进行特征提取，进行特征间相似度的匹配；基于跟踪的候选项进行IOU重合度匹配。根据相邻帧的目标匹配结果确定目标在当前帧的位置从而输出目标运动轨迹。在目标遮挡的情况下检测跟踪到目标，并提高跟踪的精度和性能。

Description

一种抗遮挡目标跟踪方法

技术领域

本发明涉及目标跟踪技术领域，尤其涉及一种抗遮挡目标跟踪方法。

背景技术

近年来，随着深度神经网络的不断发展和GPU算力的不断提升，基于深度学习的方法在计算机视觉任务上取得突破性进展。目标检测、目标识别、目标跟踪、行人重识别等计算机视觉技术快速发展，在智能监控、人机交互、虚拟现实和增强现实、医疗影像分析等诸多行业和领域中得到了广泛应用。

多目标跟踪(Multi Object Tracking)是经典的计算机视觉任务，通过目标跟踪得到的感兴趣区域是进一步进行高层视觉分析的基础，目标跟踪的准确度将直接影响到计算机视觉***的性能。现有的多目标跟踪方法大都采用基于检测的跟踪(Tracking-by-Detection)，即基于目标检测器的检测结果下，对帧与帧之间来自相同目标的检测结果进行运动轨迹关联。这种检测方法很大程度上依赖于检测结果。然而，在许多实际应用中，特别是在拥挤的场景中，由于目标之间的交互、目标表观相似和频繁遮挡，检测器的检测结果通常不够准确，从而严重的影响了跟踪的精度和性能。

现有的多目标跟踪算法有的通过大规模数据集重新训练目标检测器以得到更为准确的检测结果，然而忽略了视频图像中的运动信息，方法不够高效。有的通过设计和训练更深的神经网络进行特征提取，以得到更为鲁棒的目标特征，然而基于外观的特征很难解决表观相似性问题，且很难保障算法的实时性能。综上所述，亟需提出新的用于解决目标遮挡交互的抗遮挡目标跟踪方法。

发明内容

本发明为了解决现有的问题，提供一种抗遮挡目标跟踪方法。

为了解决上述问题，本发明采用的技术方案如下所述：

一种抗遮挡目标跟踪方法，包括如下步骤：S1：将视频或图像序列按帧输入到目标检测器中得到目标检测结果，所述目标检测结果是基于检测的候选项，包括每帧图像中所有目标的边界框及检测置信度；S2：根据所述目标检测结果利用联合检测跟踪框架对每帧图像生成基于跟踪的候选项，所述联合检测跟踪框架是通过卡尔曼滤波器及相机运动补偿，对检测结果进行跟踪运动估计，从而得到基于跟踪的候选项；S3：根据所述基于检测的候选项和所述基于跟踪的候选项的置信度大小，运用非极大值抑制算法对所述基于检测的候选项和所述基于跟踪的候选项进行筛选得到筛选后的所述基于检测的候选项和筛选后的所述基于跟踪的候选项；S4：利用预训练好的深度神经网络提取当前帧所有筛选后的所述基于检测的候选项和筛选后的所述基于跟踪的候选项的表观特征；S5：利用级联匹配算法计算相邻帧的目标匹配度，包括：筛选后的所述基于检测的候选项对相邻帧的现有轨迹进行表观特征相似度匹配；筛选后的所述基于跟踪的候选项与相邻帧的现有轨迹的目标边界框进行边界框交并比重合度匹配；S6：根据所述相邻帧的目标匹配度，确定目标在当前帧的位置，从而输出目标运动轨迹。

优选地，所述目标检测器是SDP目标检测器。

优选地，所述置信度由以下置信度评分公式得到：

其中，

为第t-1帧的检测置信度,

为第t帧的跟踪置信度，

为待关联轨迹中所述基于检测的候选项的个数，N_trk为上一次待关联轨迹中所述基于跟踪的候选项的个数，I(·)为二值函数，当函数内为真时，值为1，否则为0，参数α是常数。

优选地，运用非极大值抑制算法对所述基于检测的候选项和所述基于跟踪的候选项进行筛选得到筛选后的所述基于检测的候选项和筛选后的所述基于跟踪的候选项包括如下步骤：S21：根据所有所述基于检测的候选项和所述基于跟踪的候选项的置信度得分大小进行排序得到候选列表；S22：选择置信度最高的所述基于检测的候选项和所述基于跟踪的候选项添加到最终输出列表中并从所述候选项列表中删除；S23：计算置信度最高的所述基于检测的候选项和所述基于跟踪的候选项与其它候选项的边界框交并比并删除边界框交并比大于预设阈值的所述基于检测的候选项和所述基于跟踪的候选项；S24：重复上述过程直至所述候选项列表为空，所述最终输出列表中即为筛选后的所述基于检测的候选项和所述基于跟踪的候选项。

优选地，所述预设阈值是0.3-0.5。

优选地，所述深度神经网络是以GoogLeNet为基础的网络，包括从输入层到inception4e层，之后通过1×1的卷积层进行连接。

优选地，所述神经网络的训练的损失函数为：

l_triplet(I_i，I_j，I_k)＝m+d(I_i，I_j)-d(I_i，I_k)

其中，I_i，I_j为来自同一身份的图片，I_i，I_k为来自不同身份的图片，d表示欧式距离，m为常数。

优选地，利用级联匹配算法计算相邻帧的目标匹配度包括如下步骤：S51：获取第一帧的目标检测结果，并将其中每一个目标生成一条轨迹，得到初始轨迹集合

筛选后的所述基于检测的候选项和筛选后的所述基于跟踪的候选项组成的候选项集合

所述表观特征

并构建匹配到的所有候选项集合

未匹配的所有候选项集合

S52：将筛选后的所述基于检测的候选项

与所述初始轨迹集合

进行特征相似度计算，根据匹配结果更新所述匹配到的候选项集合

所述未匹配的候选项集合

所述初始轨迹集合

S53：将筛选后的所述基于跟踪的候选项

与更新后的所述初始轨迹集合

的目标边界框进行边界框交并比重合度匹配，根据匹配结果更新所述匹配到的候选项集合

所述未匹配的候选项集合

优选地，将所述匹配到的候选项集合

中每一个候选项边界框与匹配到的所述初始轨迹集合

中的轨迹段进行连接；将所述未匹配的候选项集合

初始化成一条新的轨迹；对于所述初始轨迹集合

中未匹配到的轨迹段设为临时轨迹段，若在之后连续N帧内没有被匹配到，则认为所述临时轨迹段已经结束，并将其从所述初始轨迹集合

中删除。N取值为5～8。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明的有益效果为：提供一种抗遮挡目标跟踪方法，通过联合检测跟踪框架和级联匹配算法共同作用，可以在目标交互遮挡、检测器检测结果不准确时，通过联合联合检测跟踪框架生成更优的候选项，进行目标级联匹配。解决目标交互遮挡时检测不准确的问题，减少目标遮挡对跟踪效果的影响，从而实现目标遮挡时的准确跟踪。

更进一步的，实现非常简单，计算开销较小，算法在GPU上可以达到30帧/秒的运算速度，可以实现实时跟踪。与传统的目标跟踪方法相比，本发明所需的计算开销少，抗遮挡能力强，实时性高。

附图说明

图1是本发明实施例中抗遮挡目标跟踪方法的示意图。

图2是本发明实施例中获取筛选后的基于检测的候选项和筛选后的基于跟踪的候选项的方法示意图。

图3是本发明实施例中利用级联匹配算法计算相邻帧的目标匹配度的方法示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

如图1所示，本发明提供一种抗遮挡目标跟踪方法，包括如下步骤：

S1：将视频或图像序列按帧输入到目标检测器中得到目标检测结果，所述目标检测结果是基于检测的候选项，包括每帧图像中所有目标的边界框及检测置信度；

S2：根据所述目标检测结果利用联合检测跟踪框架对每帧图像生成基于跟踪的候选项，所述联合检测跟踪框架是通过卡尔曼滤波器及相机运动补偿，对检测结果进行跟踪运动估计，从而得到基于跟踪的候选项；

以第N帧为例，根据当前帧的SDP目标检测器输出的目标边界框位置作为第N帧基于检测的候选项。同时，将目标边界框的位置输入到卡尔曼滤波器中，估计目标边界框在下一帧的位置，作为第N+1帧基于跟踪的候选项。

S3：根据所述基于检测的候选项和所述基于跟踪的候选项的置信度大小，运用非极大值抑制算法对所述基于检测的候选项和所述基于跟踪的候选项进行筛选得到筛选后的所述基于检测的候选项和筛选后的所述基于跟踪的候选项；

S4：利用预训练好的深度神经网络提取当前帧所有筛选后的所述基于检测的候选项和筛选后的所述基于跟踪的候选项的表观特征；

在本发明的一种实施例中得到的表观特征为512维深度特征；

S5：利用级联匹配算法计算相邻帧的目标匹配度，包括：筛选后的所述基于检测的候选项对相邻帧的现有轨迹进行表观特征相似度匹配；筛选后的所述基于跟踪的候选项与相邻帧的现有轨迹的目标边界框进行边界框交并比重合度匹配；

S6：根据所述相邻帧的目标匹配度，确定目标在当前帧的位置，从而输出目标运动轨迹。

在本发明的一种实施例中，所述目标检测器是SDP目标检测器。

置信度由以下置信度评分公式得到：

其中，

为第t-1帧的检测置信度,

为第t帧的跟踪置信度，N_det为待关联轨迹中所述基于检测的候选项的个数，N_trk为上一次待关联轨迹中所述基于跟踪的候选项的个数，I(·)为二值函数，当函数内为真时，值为1，否则为0，参数α是常数。

在本发明的一种实施例中，α值为0.05。

如图2所示，运用非极大值抑制算法对所述基于检测的候选项和所述基于跟踪的候选项进行筛选得到筛选后的所述基于检测的候选项和筛选后的所述基于跟踪的候选项包括如下步骤：

S21：根据所有所述基于检测的候选项和所述基于跟踪的候选项的置信度得分大小进行排序得到候选列表；

S22：选择置信度最高的所述基于检测的候选项和所述基于跟踪的候选项添加到最终输出列表中并从所述候选项列表中删除；

S23：计算置信度最高的所述基于检测的候选项和所述基于跟踪的候选项与其它候选项的边界框交并比并删除边界框交并比大于预设阈值的所述基于检测的候选项和所述基于跟踪的候选项；

S24：重复上述过程直至所述候选项列表为空，所述最终输出列表中即为筛选后的所述基于检测的候选项和所述基于跟踪的候选项。

在本发明的一种实施例中，预设阈值是0.3-0.5。

深度神经网络是以GoogLeNet为基础的网络，包括从输入层到inception4e层，之后通过1×1的卷积层进行连接。网络输入图片大小为160×80，输出目标特征为512维。该网络在大规模行人重识别数据集上进行预训练，损失函数为：

l_triplet(I_i，I_j，I_k)＝m+d(I_i，I_j)-d(I_i，I_k)

如图3所示，利用级联匹配算法计算相邻帧的目标匹配度包括如下步骤：

S51：获取第一帧的目标检测结果，并将其中每一个目标生成一条轨迹，得到初始轨迹集合

所述表观特征

并构建匹配到的所有候选项集合

未匹配的所有候选项集合

S52：将筛选后的所述基于检测的候选项

与所述初始轨迹集合

所述未匹配的候选项集合

所述初始轨迹集合

在本发明的一种实施例中，采用匈牙利算法进行特征相似度匹配。

S53：将筛选后的所述基于跟踪的候选项

与更新后的所述初始轨迹集合

所述未匹配的候选项集合

在本发明的一种实施例中，采用匈牙利算法进行边界框交并比重合度匹配。

更进一步的，将所述匹配到的候选项集合

中每一个候选项边界框与匹配到的所述初始轨迹集合

中的轨迹段进行连接；将所述未匹配的候选项集合

初始化成一条新的轨迹；对于所述初始轨迹集合

中删除，N一般取值为5～8。

在MOT17公开多目标行人跟踪数据集上，本发明的跟踪结果如下表所示。可以看到，在大多数指标中，特别是在F1得分、跟踪率、ID交换次数和精度中，都优于现有的其他技术，并且可以以实时速度运行。ID交换次数的改进表明，在目标发生交互、遮挡情况下，通过该方法提取的表观特征增强了***的识别能力，减少了跟踪的不准确性。假阳性和跟踪率的改进表明了本发明的抗遮挡目标跟踪方法的有效性。

表1试验结果

方法	精度	F1得分	跟踪率	丢失率	假阳性	假阴性	ID交换次数	速度
									HISP	44.6	38.8	15.1％	38.8％	25,478	276,395	10,617	4.7
SORT	43.1	39.8	12.5％	42.3％	28,398	287,582	4,852	143.3
									FPSN	44.9	48.4	16.5％	35.8％	33,757	269,952	7,136	10.1
MASS	46.9	46	16.9％	36.3％	25,773	269,116	4,478	17.1
									OTCD	44.6	38.8	15.1％	38.8％	25,478	276,359	3,573	46.5
本发明	47.4	50.1	16.8％	37.2％	26,910	267,331	2,760	35.7

本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。