CN109872342A

CN109872342A - 一种特定场景下的目标跟踪方法

Info

Publication number: CN109872342A
Application number: CN201910103022.3A
Authority: CN
Inventors: 张文铸; 马维亮; 杜远超
Original assignee: Beijing Qingfan Technology Co Ltd
Current assignee: Beijing Qingfan Technology Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-11

Abstract

本发明公开了一种特定场景下的目标跟踪方法，将跟踪算法应用于人员相对固定的场景中，对场景中的参与者如学生、教师、参会人员、培训人员进行实时跟踪，以获取目标的状态，提高准确度与精确度，辅助使用者，为使用者提供有用信息，并帮助其掌握参与者的状态，从而营造一个积极良好的课堂或会议氛围，提高参与者的效率等目标。

Description

一种特定场景下的目标跟踪方法

技术领域

本发明属于多目标识别与跟踪技术领域，具体涉及一种特定场景下的目标跟踪方法。

背景技术

近年来随着人工智能、计算机视觉和图像处理技术的飞速发展，在各个场景、领域下得到了广泛应用，并发挥着重要的作用，逐渐成为人类生活的一部分。而目标检测与跟踪技术，在各个领域中也有着巨大的研究意义与实用价值。

跟踪算法可以分为单目标跟踪与多目标跟踪两个领域，相比单目标跟踪而言，多目标跟踪有着更广大的应用需求与场景，同时也伴随着更多的挑战与困难。

目前目标跟踪技术已经发展到了一定阶段，在一些数据集上可以满足较为复杂的运动与实时性的需求。但大多数多目标跟踪算法在复杂的现实环境下的性能并不理想。多目标跟踪算法的应用也还没有得到广泛的推广，一方面是因为，学术研究上的通用跟踪算法，很难应用与某个特定的现实场景，这是由现实世界中场景的丰富性与物体运动的复杂性决定的，比如课堂、会议、培训等场景，这种场景下参与者往往相对固定、人流量很少、运动轨迹不复杂。另一方面是要求性能准确的同时，无法达到实时性的要求。

发明内容

本发明的目的在于克服以上存在的技术问题，提供一种跟踪方法应用于以教学课堂、会议、培训等人员相对固定的场景下，通过对场景中人员的跟踪，获取位置信息，分析场景状态等相关信息。

本发明将目标跟踪应用于以教学课堂、会议、培训等人员相对固定场景中，基于对场景中参与者头部的检测结果进行跟踪，使用孪生网络提取的外观特征与卡尔曼滤波器预测的位置特征来进行数据关联，并同时使用目标框的交并比作为标准之一来更新***。其中***的更新除了包括其外观特征和运动特征的更新，用来与下一帧检测结果进行匹配，还包括对***状态的更新，达到冗余的数据及时删除。

为实现上述目的，本发明采用如下的技术方案：

一种特定场景下的目标跟踪方法，包括如下步骤：

S1：调取实时摄像头或加载一段本地视频；

提取视频的关键帧，根据场景内容的不同可以设置不同的关键帧间距，相对动作发生情况十分少的场景，可以增加关键帧的间距，以减少计算耗时。而相对目标都较为动态的场景下，可以减少关键帧的间距，以提高算法的准确度。

S2：对所述步骤S1中调取摄像头或加载的视频关键帧或每一帧进行头部检测；

S3：使用孪生网络提取所述步骤S2检测结果的特征构成稳健的***；

除了对运动目标的运动状态进行预测，本发明采用训练的孪生网络提取运动目标的外观特征作为一部分依据来计算数据关联，这是因为孪生网络是一种二个输入一个输出的神经网络，主要用于衡量两个输入之间的相似度，用来判断两个目标是否为同一目标，效果很好，非常适合于做跟踪算法中的数据关联，构成稳健的***。

本发明中孪生网络的结构，主要采用尺寸为3的滤波器叠加操作，达到减少计算量和丰富特征的目的，同时使用残差块的结构来加快网络的学习速度，并减少网络训练时梯度消失的风险。

S4：使用卡尔曼滤波预测***的运动状态特征；

本发明中采用卡尔曼滤波器来预测***的运动状态，并将其作为一部分依据来计算数据关联。这是因为仅靠目标的外观状态进行匹配，在目标外观发生变化的情况下，***的准确性会降低，并且在本发明所应用的场景下，摄像、录像设备往往是固定的，且大部分目标的运动轨迹都是平滑的，只有极少的情况下存在运动轨迹的突变。因此，联合目标的运动状态与外观特征进行数据分析与匹配，是非常合适的，可以有效的提高***的性能。

状态的描述使用一个8维的向量，包括目标边界框的坐标，宽高比，高度，和其分别的变化速度信息。

S5：将检测出来的结果与所述***匹配，进行数据关联；

S6：划分所述***的状态；

S7：更新所述***，完成目标跟踪。

进一步地，所述步骤S2头部检测采用基于深度神经网络的目标检测算法。

在本发明的应用场景中，目标为人的头部，大部分目标可能无法在视频中露出清晰的五官，所以区别于人脸检测，本发明中检测任务为头部检测。当脸部信息不多时，对头部的检测与识别是一项比较困难的任务。结合任务需求与实时性要求，使用多尺度特征融合来提高算法在小尺寸物体上的检测准确率，使用尺寸为3的滤波器叠加来减少网络的计算量，提高算法速度。在训练数据上选择了各种视角，各种外观的人体头部图片，并对其进行缩放、旋转、翻转等多种预处理来增加数据的丰富性，提高算法准确度。

进一步地，所述步骤S3进行数据关联的具体方法为：

首先，采用所述孪生网络提取的128维特征，来计算检测结果与***之间的余弦距离，从目标外观上的判断来进行数据关联；并联合***的卡尔曼预测位置，与检测结果的位置之间的马氏距离，从运动目标轨迹的匹配度来判断进行数据关联，并进一步减少数据关联的计算量；

其次，将未匹配上的***和检测结果再次根据其目标框的交并比来进行匹配；

最后，计算检测结果与***之间的相似度，采用匈牙利算法来进行匹配。

进一步地，所述步骤S6***的状态包括待定、确定、删除三种状态。所述确定状态下的***分为激活和未激活两种状态

首先，待定状态的目标是指检测器检测出的目标，且该目标还未形成确定的轨迹，该类目标可能是一个新出现的轨迹的开始，或是检测器的错误结果；其次，删除状态的目标是指，该目标无法构成一条轨迹，或该目标的轨迹已从场景中退出；最后，确定状态的目标是指，该目标已经形成轨迹，且还未从场景中退出，其中当前帧检测到并有***匹配的目标规定为激活目标，即该目标需要在当前帧进行显示；而当前帧未检测到目标，或未匹配上的目标为未激活状态。

进一步地，所述步骤S7更新***包括更新***的外观特征和运动轨迹特征以及更新***的状态。

当检测结果与***互相匹配时，使用检测结果的位置信息来计算并更新***的状态特征，并以孪生网络提取的特征作为该目标最新的外观状态来更新***的外观特征，更新的特征在下一个关键帧中再次用来与新的检测结果的外观与位置特征做匹配，并计算新的距离矩阵。

本发明的有益效果：

本发明将跟踪算法应用于人员相对固定的场景中，对场景中的参与者如学生、教师、参会人员、培训人员进行实时跟踪，以获取目标的状态，提高准确度与精确度，辅助使用者，为使用者提供有用信息，并帮助其掌握参与者的状态，从而营造一个积极良好的课堂或会议氛围，提高参与者的效率等目标。

附图说明

图1：本发明一种特定场景下的目标跟踪方法的流程图。

图2：本发明***状态转换图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

实施例1

如图1所示，一种特定场景下的目标跟踪方法，包括如下步骤：

S1：调取实时摄像头，或加载一段本地视频；

S2：对视频序列中的关键帧进行头部检测；

S3：使用孪生网络提取每一个检测结果的外观特征，并使用卡尔曼滤波预测***的运动状态特征；

S4：将检测结果的外观特征与位置信息，与***的外观特征与运动状态匹配进行数据关联；

S5：使用Bounding box的交并比再次匹配，匹配结束后可以将所有的检测结果和***划分为匹配成功的检测结果和***对，匹配失败的***，和匹配失败的检测结果，

S6：使用检测结果来更新匹配成功的***，为匹配失败的检测结果分配ID，并初始化新的***，将匹配失败的***的变量a进行累加，并更新所有***的状态，***状态的更新如图2所示，循环操作直到整段视频分析结束。

由于本发明的跟踪方法是基于检测的跟踪方法，因此一定程度上依赖于检测器的性能，阈值thr1可以一定程度上降低检测错误导致的错误轨迹的生成，设置较大的thr1，使新轨迹的生成更严格；对于检测提出的目标，进一步使用训练的孪生网络提取外观信息作为数据关联的一个依据，相比较只是用运动状态信息做数据关联，可以有效的提高匹配率，降低同一个目标生成多个ID的可能性。

如图2所示，未匹配成功的检测结果分配新的ID并初始化为待定状态，当连续成功匹配th1次后，状态转换为确定激活状态，此时认为该轨迹是一个激活的正确轨迹，而无法满足该要求则认为该轨迹不是正确轨迹，状态转为删除，不再参与匹配；每次成功匹配时，***的变量一距离上次成功匹配的时间--a，都置零，匹配失败时累加1；当变量a累加超过阈值thr3时，认为当前目标被暂时遮挡，将状态转为未激活，即认为目标还在场景中但暂时观察不到；若变量a累加超过thr2则认为该目标已从场景中退出，则将***状态转为删除，不再参与匹配；删除后的目标再次出现在场景中时，算法会为它再次分配ID。

最后应说明的是：以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明，但是，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换；而一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围中。

Claims

1.一种特定场景下的目标跟踪方法，其特征在于，包括以下步骤：

S1：调取实时摄像头或加载一段本地视频；

S4：使用卡尔曼滤波预测***的运动状态特征；

S5：将检测出来的结果与所述***匹配，进行数据关联；

S6：划分所述***的状态；

S7：更新所述***，完成目标跟踪。

2.根据权利要求1所述的特定场景下的目标跟踪方法，其特征在于：所述步骤S2头部检测采用基于深度神经网络的目标检测算法。

3.根据权利要求1所述的特定场景下的目标跟踪方法，其特征在于：所述步骤S3进行数据关联的具体方法为：

首先，采用所述孪生网络提取128维特征，来计算检测结果与***之间的余弦距离，从目标外观上的判断来进行数据关联；并联合***的卡尔曼预测位置，与检测结果的位置之间的马氏距离，从运动目标轨迹的匹配度来判断进行数据关联，并进一步减少数据关联的计算量；

4.根据权利要求1所述的特定场景下的目标跟踪方法，其特征在于：所述步骤S6***的状态包括待定、确定、删除三种状态。

5.根据权利要求4所述的特定场景下的目标跟踪方法，其特征在于：所述确定状态下的***分为激活和未激活两种状态。

6.根据权利要求1所述的特定场景下的目标跟踪方法，其特征在于：所述步骤S7更新***包括更新***的外观特征和运动轨迹特征以及更新***的状态。