CN111709975B

CN111709975B - 多目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN111709975B
Application number: CN202010573301.9A
Authority: CN
Inventors: 苏军; 鲁兴龙; 吴昊; 谢锴; 刘晓东
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2023-11-03
Anticipated expiration: 2040-06-22
Also published as: CN111709975A

Abstract

本申请实施例提供了多目标跟踪方法、装置、电子设备及存储介质，根据目标的轨迹信息，预测各已确定目标在当前视频帧中的预测框，然后利用预测框与各待匹配目标的候选框组进行匹配，在将匹配成功的候选框组进行NMS操作，从而得到各已确定目标匹配成功的待匹配目标在当前视频帧中的目标框，即已确定目标匹配成功的待匹配目标的实际位置。结合已确定目标的轨迹信息及目标检测方法，来确定待匹配目标的实际位置，能够提高待匹配目标的实际位置的准确性，尤其是针对各目标相似度较高的多目标场景，在确定待匹配目标的实际位置时便引入了已确定目标的轨迹信息，能够减少目标匹配错误的情况，增加多目标跟踪的准确度。

Description

多目标跟踪方法、装置、电子设备及存储介质

技术领域

本申请涉及图像分析技术领域，特别是涉及多目标跟踪方法、装置、电子设备及存储介质。

背景技术

随着计算机视觉技术的发展，特别是深度学习网络的出现，使得基于视频数据的目标自动跟踪成为可能。

相关技术中，在利用视频数据进行多目标跟踪的过程中，针对当前待处理的视频帧，首先利用计算机视觉技术对当前视频帧进行目标检测，从而得到当前视频帧中各目标(以下称为各第二目标)的实际位置，并提取当前视频帧中各第二目标的视觉特征；然后根据之前视频帧中各目标(以下称为各第一目标)的历史轨迹，预测各第一目标在当前视频帧中的预测位置，并获取各第一目标的视觉特征，然后分别计算各第一目标的预测位置与各第二目标的实际位置的位置相似度，分别计算各第一目标与各第二目标的视觉特征的视觉相似度，并结合位置相似度及视觉相似度来判断为同一目标的第一目标和第二目标，并第二目标的实际位置作为相应的第一目标在当前视频帧中的位置，从而完成目标跟踪。

但是采用上述方法，太过依赖于目标检测，目标在实际运动的过程中由于姿势及角度等原因，容易出现目标检测不准确的情况，从而导致各第二目标的实际位置并不准确，特别是针对各目标相似度较高的多目标场景，非常容易出现目标匹配错误的情况，影响多目标跟踪的准确度。

发明内容

本申请实施例的目的在于提供一种目标跟踪方法、装置、电子设备及存储介质，以实现增加多目标跟踪的准确度。具体技术方案如下：

第一方面，本申请实施例提供了一种多目标跟踪方法，所述方法包括：

在对视频中的目标进行跟踪的过程中，获取当前视频帧之前各已确定目标的轨迹信息；

根据各所述已确定目标的轨迹信息，预测各所述已确定目标在当前视频帧中的位置区域，分别得到各所述已确定目标的预测框；

利用计算机视觉技术对当前视频帧进行目标检测，得到当前视频中各待匹配目标的候选框组，其中，针对任一待匹配目标，该待匹配目标的候选框组包括该待匹配目标的多个候选框；

根据各所述已确定目标的预测框及各所述待匹配目标的候选框组，对各所述已确定目标及各所述待匹配目标进行匹配，分别确定各所述已确定目标匹配成功的待匹配目标；

分别对各所述已确定目标匹配成功的待匹配目标的候选框组进行非极大值抑制NMS操作，得到各所述已确定目标匹配成功的待匹配目标在当前视频帧中的目标框；

根据各所述已确定目标的轨迹信息及各所述待匹配目标在当前视频帧中的目标框，确定各所述已确定在当前视频帧中的轨迹。

在一种可能的实施方式中，所述根据各所述已确定目标的预测框及各所述待匹配目标的候选框组，对各所述已确定目标及各所述待匹配目标进行匹配，分别确定各所述已确定目标匹配成功的待匹配目标，包括：

针对任一已确定目标，在各所述待匹配目标中，选取类型与该已确定目标的类型相同的各待匹配目标，得到该已确定目标的各同类型待匹配目标；

在该已确定目标的各同类型待匹配目标的候选框组中，选取与该已确定目标的预测框的距离小于预设距离阈值的各候选框，得到该已确定目标的各目标候选框；

分别计算该已确定目标的预测框与该已确定目标的各目标候选框的交并比IoU，选取IoU最大、且大于预设IoU阈值的目标候选框对应的待匹配目标，作为该已确定目标匹配成功的待匹配目标，从而分别得到各所述已确定目标匹配成功的待匹配目标。

在一种可能的实施方式中，在所述根据各所述已确定目标的预测框及各所述待匹配目标的候选框组，对各所述已确定目标及各所述待匹配目标进行匹配，分别确定各所述已确定目标匹配成功的待匹配目标之后，所述方法还包括：

针对任一未与已确定目标匹配成功的待匹配目标，对该待匹配目标的候选框组进行NMS操作，得到一个新的已确定目标的检测框。

在一种可能的实施方式中，所述根据各所述已确定目标的轨迹信息及各所述待匹配目标在当前视频帧中的目标框，确定各所述已确定在当前视频帧中的轨迹，包括：

根据各所述已确定目标的轨迹信息，获取各所述已确定目标的真值特征信息；在当前视频帧中，分别提取各所述已确定目标匹配成功的待匹配目标的目标框中的特征信息，得到各所述已确定目标的待匹配特征信息；

针对任一已确定目标，将该已确定目标的真值特征信息与待匹配特征信息进行特征匹配；

若该已确定目标的真值特征信息与待匹配特征信息特征匹配成功，将当前视频帧中该已确定目标对应的目标框添加到该已确定目标的轨迹信息中。

在一种可能的实施方式中，在所述针对任一已确定目标，将该已确定目标的真值特征信息与待匹配特征信息进行特征匹配之后，所述方法还包括：

若该已确定目标的真值特征信息与待匹配特征信息特征未匹配成功，将该已确定目标对应的目标框作为一个新的已确定目标的检测框。

在一种可能的实施方式中，所述方法还包括：

计算类型相同的、且轨迹信息在时序上不存在重合的任意两个已确定目标之间的目标相似度；

根据各所述目标相似度，将确定为同一目标的各已确定目标的轨迹信息进行合并。

在一种可能的实施方式中，所述计算类型相同的、且轨迹信息在时序上不存在重合的任意两个已确定目标之间的目标相似度，包括：

选取两个类型相同、且轨迹信息在时序上不存在重合的已确定目标，得到第一已确定目标及第二已确定目标；

根据第一已确定目标的轨迹信息，预测第一已确定目标在所述第二已确定目标的指定视频帧中的预测位置；获取所述第二已确定目标在所述指定视频帧中的真值位置；

计算所述真值位置及所述预测位置的IoU，得到目标IoU；

计算所述真值位置及所述预测位置的归一化距离；

计算所述第一已确定目标及所述第二已确定目标的轨迹外观相似度；

在所述目标IoU大于预设IoU阈值、所述归一化距离小于预设距离阈值、且所述轨迹外观相似度大于预设第一相似度阈值时，综合所述目标IoU、所述归一化距离及所述轨迹外观相似度，计算得到所述第一已确定目标及第二已确定目标的目标相似度，从而得到类型相同的、且轨迹信息在时序上不存在重合的任意两个已确定目标之间的目标相似度。

在一种可能的实施方式中，所述第一已确定目标的轨迹信息的长度大于所述第二已确定目标的轨迹信息的长度。

在一种可能的实施方式中，所述根据各所述目标相似度，将确定为同一目标的各已确定目标的轨迹信息进行合并，包括：

按照时序，将类型相同的、且轨迹信息在时序上不存在重合的各已确定目标连接为有向图；

针对任意两个类型相同的、且轨迹信息在时序上不存在重合的已确定目标，将这两个已确定目标之间的目标相似度的相反数作为这两个已确定目标在所述有向图上路径的权重，从而得到所述有向图中各路径的权重，其中，不存在目标相似度的两个已确定目标之间路径的权重为正无穷大；

使用网络流算法对所述有向图进行求解，得到多条路径，其中，将同一路径中的各已确定目标确定为同一目标；

将同一路径中的各已确定目标的轨迹信息按照时序进行合并，得到各目标的跟踪轨迹。

第二方面，本申请实施例提供了一种多目标跟踪装置，所述装置包括：

轨迹信息获取模块，用于在对视频中的目标进行跟踪的过程中，获取当前视频帧之前各已确定目标的轨迹信息；

目标位置预测模块，用于根据各所述已确定目标的轨迹信息，预测各所述已确定目标在当前视频帧中的位置区域，分别得到各所述已确定目标的预测框；

目标位置检测模块，用于利用计算机视觉技术对当前视频帧进行目标检测，得到当前视频中各待匹配目标的候选框组，其中，针对任一待匹配目标，该待匹配目标的候选框组包括该待匹配目标的多个候选框；

目标位置匹配模块，用于根据各所述已确定目标的预测框及各所述待匹配目标的候选框组，对各所述已确定目标及各所述待匹配目标进行匹配，分别确定各所述已确定目标匹配成功的待匹配目标；

目标位置确定模块，用于分别对各所述已确定目标匹配成功的待匹配目标的候选框组进行非极大值抑制NMS操作，得到各所述已确定目标匹配成功的待匹配目标在当前视频帧中的目标框；

跟踪轨迹确定模块，用于根据各所述已确定目标的轨迹信息及各所述待匹配目标在当前视频帧中的目标框，确定各所述已确定在当前视频帧中的轨迹。

在一种可能的实施方式中，所述目标位置匹配模块，具体用于：

在一种可能的实施方式中，所述装置还包括：

第一新目标确定模块，用于针对任一未与已确定目标匹配成功的待匹配目标，对该待匹配目标的候选框组进行NMS操作，得到一个新的已确定目标的检测框。

在一种可能的实施方式中，所述跟踪轨迹确定模块，包括：

特征信息获取子模块，用于根据各所述已确定目标的轨迹信息，获取各所述已确定目标的真值特征信息；在当前视频帧中，分别提取各所述已确定目标匹配成功的待匹配目标的目标框中的特征信息，得到各所述已确定目标的待匹配特征信息；

特征信息匹配子模块，用于针对任一已确定目标，将该已确定目标的真值特征信息与待匹配特征信息进行特征匹配；

轨迹信息更新子模块，用于若该已确定目标的真值特征信息与待匹配特征信息特征匹配成功，将当前视频帧中该已确定目标对应的目标框添加到该已确定目标的轨迹信息中。

在一种可能的实施方式中，所述装置还包括：

第二新目标确定模块，用于若该已确定目标的真值特征信息与待匹配特征信息特征未匹配成功，将该已确定目标对应的目标框作为一个新的已确定目标的检测框。

在一种可能的实施方式中，所述装置还包括：

目标相似度计算模块，用于计算类型相同的、且轨迹信息在时序上不存在重合的任意两个已确定目标之间的目标相似度；

轨迹信息合并模块，用于根据各所述目标相似度，将确定为同一目标的各已确定目标的轨迹信息进行合并。

在一种可能的实施方式中，所述目标相似度计算模块，具体用于：

计算所述真值位置及所述预测位置的IoU，得到目标IoU；

计算所述真值位置及所述预测位置的归一化距离；

在一种可能的实施方式中，所述轨迹信息合并模块，具体用于：

第三方面，本申请实施例提供了一种电子设备，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述的多目标跟踪方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的多目标跟踪方法。

第五方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的多目标跟踪方法。

本申请实施例提供的多目标跟踪方法、装置、电子设备及存储介质在对视频中的目标进行跟踪的过程中，获取当前视频帧之前各已确定目标的轨迹信息；根据各已确定目标的轨迹信息，预测各已确定目标在当前视频帧中的位置区域，分别得到各已确定目标的预测框；利用计算机视觉技术对当前视频帧进行目标检测，得到当前视频中各待匹配目标的候选框组，其中，针对任一待匹配目标，该待匹配目标的候选框组包括该待匹配目标的多个候选框；根据各已确定目标的预测框及各待匹配目标的候选框组，对各已确定目标及各待匹配目标进行匹配，分别确定各已确定目标匹配成功的待匹配目标；分别对各已确定目标匹配成功的待匹配目标的候选框组进行NMS操作，得到各已确定目标匹配成功的待匹配目标在当前视频帧中的目标框；根据各已确定目标的轨迹信息及各待匹配目标在当前视频帧中的目标框，确定各已确定在当前视频帧中的轨迹。

在本申请实施例中，根据目标的轨迹信息，预测各已确定目标在当前视频帧中的预测框，然后利用预测框与各待匹配目标的候选框组进行匹配，在将匹配成功的候选框组进行NMS操作，从而得到各已确定目标匹配成功的待匹配目标在当前视频帧中的目标框，即已确定目标匹配成功的待匹配目标的实际位置。结合已确定目标的轨迹信息及目标检测方法，来确定待匹配目标的实际位置，相比于仅通过目标检测方法确定待匹配目标的实际位置，能够提高待匹配目标的实际位置的准确性，尤其是针对各目标相似度较高的多目标场景，在确定待匹配目标的实际位置时便引入了已确定目标的轨迹信息，能够减少目标匹配错误的情况，增加多目标跟踪的准确度。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的多目标跟踪方法的第一种示意图；

图2为本申请实施例的目标位置匹配方法的一种示意图；

图3为本申请实施例的多目标跟踪方法的第二种示意图；

图4为本申请实施例的目标轨迹信息更新方法的第一种示意图；

图5为本申请实施例的目标轨迹信息更新方法的第二种示意图；

图6为本申请实施例的目标轨迹信息合并方法的第一种示意图；

图7为本申请实施例的目标相似度计算方法的一种示意图；

图8为本申请实施例的第一已确定目标及第二已确定目标的一种示意图；

图9为本申请实施例的目标轨迹信息合并方法的第二种示意图；

图10为本申请实施例的有向图的一种示意图；

图11为本申请实施例的多目标跟踪装置的一种示意图；

图12为本申请实施例的电子设备的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

多目标跟踪：指在一段图像序列中，定位每帧中的指定目标并将其分别一一对应，并输出目标的运动轨迹，指定目标为用户感兴趣的任何目标，例如，机动车、非机动车、行人等。

网络流算法：一种图论算法，旨在根据某种规则计算出网络中最大/小容量，并输出此时其经过的节点。

NMS(Non-Maximum Suppression，非极大值抑制)：根据规则消除候选框中其余的冗余框，抑制不是局部最大值得元素搜索出局部最优值。

相关技术中，在进行多目标跟踪时，利用计算机视觉技术对当前视频帧进行目标检测，从而得到当前视频帧中各第二目标的实际位置。其中，在目标检测时，会基于置信度获取当前视频帧中各第二目标的实际位置，但是置信度并不是完全可靠的，而且置信度最大的目标框对于历史轨迹来说位置可能并不是最优的，因此会导致第二目标的实际位置检测不准确，从而导致后续的匹配出现问题，特别是针对各目标相似度较高的多目标场景，非常容易出现目标匹配错误的情况，影响多目标跟踪的准确度。

有鉴于此，本申请实施例提供了一种多目标跟踪方法，该方法包括：

根据各上述已确定目标的轨迹信息，预测各上述已确定目标在当前视频帧中的位置区域，分别得到各上述已确定目标的预测框；

根据各上述已确定目标的预测框及各上述待匹配目标的候选框组，对各上述已确定目标及各上述待匹配目标进行匹配，分别确定各上述已确定目标匹配成功的待匹配目标；

分别对各上述已确定目标匹配成功的待匹配目标的候选框组进行NMS操作，得到各上述已确定目标匹配成功的待匹配目标在当前视频帧中的目标框；

根据各上述已确定目标的轨迹信息及各上述待匹配目标在当前视频帧中的目标框，确定各上述已确定在当前视频帧中的轨迹。

在本申请实施例中，根据目标的轨迹信息，预测各已确定目标在当前视频帧中的预测框，然后利用预测框与各待匹配目标的候选框组进行匹配，在将匹配成功的候选框组进行NMS操作，从而得到各已确定目标匹配成功的待匹配目标在当前视频帧中的目标框，即已确定目标匹配成功的待匹配目标的实际位置。结合已确定目标的轨迹信息及目标检测方法，来确定待匹配目标的实际位置，相比于仅通过目标检测方法确定待匹配目标的实际位置，能够提高待匹配目标的实际位置的准确性，尤其是针对各目标相似度较高的多目标场景，在确定待匹配目标的实际位置时便引入了已确定目标的轨迹信息，能够减少目标匹配错误的情况，增加多目标跟踪的准确度。

下面进行具体说明，参见图1，图1为本申请实施例的多目标跟踪方法的一种示意图，包括：

S101，在对视频中的目标进行跟踪的过程中，获取当前视频帧之前各已确定目标的轨迹信息。

本申请实施例的多目标跟踪方法可以通过电子设备实现，具体的，该电子设备可以为智能摄像机、硬盘录像机、服务器或个人电脑等。

目标是指用户希望跟踪的任何目标，例如，机动车、非机动车或行人等。已确定目标是指已经检测出的目标。当前视频帧即当前待处理的视频帧，针对视频中的第一帧视频帧，因为之前不存在已确定目标及轨迹信息，因此在对第一帧视频帧进行分析时，可以直接利用相关技术的目标检测方法，检测得到各目标的目标框即可。此处的已确定目标具体可以为当前视频帧的前一帧视频帧中包括的各已确定目标。

S102，根据各上述已确定目标的轨迹信息，预测各上述已确定目标在当前视频帧中的位置区域，分别得到各上述已确定目标的预测框。

可以利用任意相关的轨迹预测算法，预测已确定目标在当前视频帧中的位置。例如，根据已确定目标的轨迹信息，可以得到已确定目标的运动趋势，包括运动方向及运动速度等。根据当前视频帧与已确定目标的轨迹信息中视频帧的时间差，结合已确定目标的运动趋势，可以得到已确定目标在当前视频帧中的预测位置，预测位置一般利用预测框的形式进行表示，从而得到已确定目标在当前视频帧中的预测框。

S103，利用计算机视觉技术对当前视频帧进行目标检测，得到当前视频中各待匹配目标的候选框组，其中，针对任一待匹配目标，该待匹配目标的候选框组包括该待匹配目标的多个候选框。

此处目标检测得到的为各待匹配目标的候选框组，即每个待匹配目标的可能的候选框的集合。与相关技术中利用置信度直接确定待匹配目标在当前视频帧中的目标框不同，本申请实施例中结合已确定目标的预测框，通过以下步骤确定待匹配目标的目标框。

S104，根据各上述已确定目标的预测框及各上述待匹配目标的候选框组，对各上述已确定目标及各上述待匹配目标进行匹配，分别确定各上述已确定目标匹配成功的待匹配目标。

基于已确定目标的预测框及待匹配目标的候选框组，将各已确定目标及各待匹配目标进行一个初步的匹配，使得在确定待匹配目标的目标框的过程中引入已确定目标因素，以增加待匹配目标的目标框的准确度。

S105，分别对各上述已确定目标匹配成功的待匹配目标的候选框组进行NMS操作，得到各上述已确定目标匹配成功的待匹配目标在当前视频帧中的目标框。

对匹配成功的待匹配目标的候选框组进行NMS操作，得到一个最优的候选框，即该待匹配目标的目标框。

S106，根据各上述已确定目标的轨迹信息及各上述待匹配目标在当前视频帧中的目标框，确定各上述已确定在当前视频帧中的轨迹。

待匹配目标在当前视频帧中的目标框可以视为待匹配目标在当前视频帧中的真实位置，可以分别计算已确定目标与待匹配目标的位置相似度及视觉相似度，从而完成已确定目标与待匹配目标再次匹配，匹配成功则在当前视频中更新已确定目标的轨迹，从而完成当前视频帧的多目标跟踪。针对视频中的各视频帧(第一帧视频帧除外)均执行与当前视频帧相同的操作，从而实现针对该视频的多目标跟踪。

在本申请实施例中，目标检测得到的为各待匹配目标的候选框组，即每个待匹配目标的可能的候选框的集合。与相关技术中利用置信度直接确定待匹配目标在当前视频帧中的目标框不同，本申请实施例中结合已确定目标的预测框，确定待匹配目标的目标框，能够提高待匹配目标的实际位置的准确性，尤其是针对各目标相似度较高的多目标场景，在确定待匹配目标的实际位置时便引入了已确定目标的轨迹信息，能够减少目标匹配错误的情况，增加多目标跟踪的准确度。

在一种可能的实施方式中，参见图2，上述根据各上述已确定目标的预测框及各上述待匹配目标的候选框组，对各上述已确定目标及各上述待匹配目标进行匹配，分别确定各上述已确定目标匹配成功的待匹配目标，包括：

S1041，针对任一已确定目标，在各上述待匹配目标中，选取类型与该已确定目标的类型相同的各待匹配目标，得到该已确定目标的各同类型待匹配目标。

在同一视频中，可以仅针对一种类型的目标进行跟踪，例如仅针对车辆进行跟踪，或仅针对行人进行跟踪等。在一些场景中，可能会要求对同一视频中的多种类型的目标同时进行跟踪，例如在对车辆进行跟踪的同时还需对行人进行跟踪等。目标检测可以获知待匹配目标的类型，同样的已确定目标的类型也是已知的，不同类型的目标肯定不是同一目标，因此仅需对各类型相同的目标进行匹配即可。

S1042，在该已确定目标的各同类型待匹配目标的候选框组中，选取与该已确定目标的预测框的距离小于预设距离阈值的各候选框，得到该已确定目标的各目标候选框。

预测框与候选框之间的距离，可以为预测框的中心与候选框的中心的距离，也可以为四个角点的距离的均值等。预设距离阈值可以按照实际情况进行设定，与视频的分辨率正相关，例如，可以设置为5个像素、10个像素或20个像素等。

S1043，分别计算该已确定目标的预测框与该已确定目标的各目标候选框的IoU(Intersection-Over-Union，交并比)，选取IoU最大、且大于预设IoU阈值的目标候选框对应的待匹配目标，作为该已确定目标匹配成功的待匹配目标，从而分别得到各上述已确定目标匹配成功的待匹配目标。

针对任一已确定目标，计算该已确定目标的预测框与该已确定目标的各目标候选框的IoU，选取结果中最大的IoU，若该已确定目标的最大的IoU大于预设IoU阈值，则认为最大的IoU对应的目标候选框所属的待匹配目标与该已确定目标匹配成功，若最大的IoU不大于预设IoU阈值，则认为该已确定目标匹配失败。已确定目标匹配失败，说明该已确定目标在当前视频帧中丢失，即当前视频帧中不包括该已确定目标。对每个已确定目标均进行上述操作，针对每个匹配成功的已确定目标，均可以得到其匹配成功的待匹配目标。

在本申请实施例中，利用已确定目标的预测框与待匹配目标各候选框的位置关系确定目标候选框，并计算IoU确定已确定目标与待匹配目标的匹配结果，在确定待匹配目标的目标框时，结合已确定目标的预测框，能够提高待匹配目标的实际位置的准确性，尤其是针对各目标相似度较高的多目标场景，在确定待匹配目标的实际位置时便引入了已确定目标的轨迹信息，能够减少目标匹配错误的情况，增加多目标跟踪的准确度。

在一种可能的实施方式中，参见图3，在上述根据各上述已确定目标的预测框及各上述待匹配目标的候选框组，对各上述已确定目标及各上述待匹配目标进行匹配，分别确定各上述已确定目标匹配成功的待匹配目标之后，上述方法还包括：

S107，针对任一未与已确定目标匹配成功的待匹配目标，对该待匹配目标的候选框组进行NMS操作，得到一个新的已确定目标的检测框。

当前视频中的待匹配目标可能是新出现的，因此将未匹配成功的待匹配目标视为一个新的已确定目标，并对其候选框组进行NMS操作，得到这个新的已确定目标的检测框，从而开启一个新的轨迹。

在一种可能的实施方式中，参见图4，上述根据各上述已确定目标的轨迹信息及各上述待匹配目标在当前视频帧中的目标框，确定各上述已确定在当前视频帧中的轨迹，包括：

S1061，根据各上述已确定目标的轨迹信息，获取各上述已确定目标的真值特征信息；在当前视频帧中，分别提取各上述已确定目标匹配成功的待匹配目标的目标框中的特征信息，得到各上述已确定目标的待匹配特征信息。

可以根据已确定目标的轨迹信息，在当前视频帧的前一帧或多帧视频帧中提取已确定目标的视觉特征，作为已确定目标的真值特征信息。在当前视频帧中，提取已确定目标匹配成功的待匹配目标的目标框中的视觉特征，得到已确定目标的待匹配特征信息。

S1062，针对任一已确定目标，将该已确定目标的真值特征信息与待匹配特征信息进行特征匹配。

S1063，若该已确定目标的真值特征信息与待匹配特征信息特征匹配成功，将当前视频帧中该已确定目标对应的目标框添加到该已确定目标的轨迹信息中。

已确定目标对应的目标框为该已确定目标匹配成功的待匹配目标的目标框。在确定待匹配目标的目标框时，已经考虑了已确定目标的预测位置，因此在进行二次匹配时，可以仅针对视觉特征进行匹配，从而节约计算资源。

在一种可能的实施方式中，参见图5，在上述针对任一已确定目标，将该已确定目标的真值特征信息与待匹配特征信息进行特征匹配之后，上述方法还包括：

S1064，若该已确定目标的真值特征信息与待匹配特征信息特征未匹配成功，将该已确定目标对应的目标框作为一个新的已确定目标的检测框。

当前视频中的待匹配目标可能是新出现的，因此将特征信息特征未匹配成功已确定目标对应的目标框，视为一个新的已确定目标的检测框，根据这个新的已确定目标的检测框，开启一个新的轨迹。

在一种可能的实施方式中，参见图6，上述方法还包括：

S108，计算类型相同的、且轨迹信息在时序上不存在重合的任意两个已确定目标之间的目标相似度。

S109，根据各上述目标相似度，将确定为同一目标的各已确定目标的轨迹信息进行合并。

在实际情况中，可能因目标被遮蔽或目标检测失败等原因，导致部分视频帧中的目标丢失，因此可能会存在一个目标具有多个轨迹的情况。通过计算类型相同的、且轨迹信息在时序上不存在重合的两个已确定目标之间的目标相似度，来确定这两个已确定目标是否为同一目标，若为同一目标，则对二者的轨迹信息进行合并。已确定目标之间的目标相似度可以为轨迹的相似度或外观的相似度等。

为了增加合并的准确性，在一种可能的实施方式中，参见图7，上述计算类型相同的、且轨迹信息在时序上不存在重合的任意两个已确定目标之间的目标相似度，包括：

S1081，选取两个类型相同、且轨迹信息在时序上不存在重合的已确定目标，得到第一已确定目标及第二已确定目标。

两个已确定目标的轨迹信息在时序上不存在重合，是指这已确定目标没有在同一视频帧中同时出现过。第一已确定目标可以为选取的两个已确定目标中的任意一个，而第二已确定目标则为另一个。

S1082，根据第一已确定目标的轨迹信息，预测第一已确定目标在上述第二已确定目标的指定视频帧中的预测位置；获取上述第二已确定目标在上述指定视频帧中的真值位置。

指定视频帧可以为第二已确定目标的首帧或尾帧，具体的，在时序上，当第一已确定目标的轨迹信息在第二已确定目标的轨迹信息之前时，指定视频帧为第二已确定目标的首帧；当第一已确定目标的轨迹信息在第二已确定目标的轨迹信息之后时，指定视频帧为第二已确定目标的尾帧。

在一种可能的实施方式中，上述第一已确定目标的轨迹信息的长度大于上述第二已确定目标的轨迹信息的长度。

第一已确定目标的轨迹信息的长度大于第二已确定目标的轨迹信息的长度，即第一已确定目标的轨迹信息所对应的视频帧帧数大于第二已确定目标的轨迹信息所对应的视频帧帧数，例如图8所示，其中，虚线框表示预测位置。

相关技术中预测方式都是从根据前一时刻的轨迹预测其在后一时刻中的位置，但是会导致当前一时刻的轨迹很短时，预测位置的准确度底。而在本申请实施例中，第一已确定目标的轨迹信息的长度大于第二已确定目标的轨迹信息的长度，即采用从长轨迹向短轨迹预测的方式，能够有需要提高预测位置的准确性。

S1083，计算上述真值位置及上述预测位置的IoU，得到目标IoU。

S1084，计算上述真值位置及上述预测位置的归一化距离。

S1085，计算上述第一已确定目标及上述第二已确定目标的轨迹外观相似度。

每个目标都可以根据外观模型计算一个外观属性，轨迹外观相似度可以通过单帧视频的检测外观来计算，可以采用PCA(Principal Component Analysis,主成分分析)降维或者采用时序最近几帧来进行平均等。

S1086，在上述目标IoU大于预设IoU阈值、上述归一化距离小于预设距离阈值、且上述轨迹外观相似度大于预设第一相似度阈值时，综合上述目标IoU、上述归一化距离及上述轨迹外观相似度，计算得到上述第一已确定目标及第二已确定目标的目标相似度，从而得到类型相同的、且轨迹信息在时序上不存在重合的任意两个已确定目标之间的目标相似度。

预设IoU阈值、预设距离阈值及预设第一相似度阈值均可以按照实际情况自定义设置，用于排除差别较大的第一已确定目标及第二已确定目标。具体的，目标相似度可以为目标IoU、归一化距离及轨迹外观相似度三者的加权平均。

在本申请实施例中，综合目标IoU、归一化距离及轨迹外观相似度来计算目标相似度，能够增加目标相似度的代表性，从而增加轨迹信息合并的准确性。

在一种可能的实施方式中，参见图9，上述根据各上述目标相似度，将确定为同一目标的各已确定目标的轨迹信息进行合并，包括：

S1091，按照时序，将类型相同的、且轨迹信息在时序上不存在重合的各已确定目标连接为有向图。

具体的，各已确定目标可以利用视频帧进行表示，可以利用已确定目标的轨迹信息对应的首帧及尾帧来表示一个已确定目标，例如图10所示，各已确定目标均为同一类型，每个点对ui—>vi表示一已确定目标的首帧及尾帧，实线表示内部关联，是确定的关联，不需要再进行处理。虚线表示已确定目标之间的关联，允许跳过某个时间段和后面的已确定目标相连。为了方便算法的求解，虚拟两个边：s0—>ui表示入边，vi—>t0表示出边，得到有向图，其中虚线需要使用权值表示。

S1092，针对任意两个类型相同的、且轨迹信息在时序上不存在重合的已确定目标，将这两个已确定目标之间的目标相似度的相反数作为这两个已确定目标在上述有向图上路径的权重，从而得到上述有向图中各路径的权重，其中，不存在目标相似度的两个已确定目标之间路径的权重为正无穷大。

将两个已确定目标之间的目标相似度的相反数作为这两个已确定目标在上述有向图上路径的权重，方便利用最小网络流算法进行求解。

S1093，使用网络流算法对上述有向图进行求解，得到多条路径，其中，将同一路径中的各已确定目标确定为同一目标。

S1094，将同一路径中的各已确定目标的轨迹信息按照时序进行合并，得到各目标的跟踪轨迹。

此处的网络流算法为任意相关的网络流算法。有向图计算出来后采用最小网络流求解的方式进行计算，具体的，KSP(Top-K-Shortest paths，前K条最短路径)算法求解，主要是采用最小堆算法进行最小代价计算，主要过程是维护一个不知长度的堆。求解网络流图的步骤如下：

(1)使用动态规划算法在有向图中求出一条最短路径。

(2)将最短路径反向，权值置零，构建残差图。

(3)利用Dijkstra算法求解最短路径。

(4)重复上述(2)、(3)步，直到利用Dijkstra算法求出的所有路径代价之和大于第一步中动态规划求出路径的代价。

网络流图求解完成后，得到多条路径。从网络流图的终点出发，反向逐条提取出路径，即为各目标的跟踪轨迹。

在本申请实施例中，采用网络流算法来进行路径求解，能够提升算法的自动化程度，降低人工干预。

本申请实施例还提供了一种多目标跟踪装置，参见图11，该装置包括：

轨迹信息获取模块11，用于在对视频中的目标进行跟踪的过程中，获取当前视频帧之前各已确定目标的轨迹信息；

目标位置预测模块12，用于根据各上述已确定目标的轨迹信息，预测各上述已确定目标在当前视频帧中的位置区域，分别得到各上述已确定目标的预测框；

目标位置检测模块13，用于利用计算机视觉技术对当前视频帧进行目标检测，得到当前视频中各待匹配目标的候选框组，其中，针对任一待匹配目标，该待匹配目标的候选框组包括该待匹配目标的多个候选框；

目标位置匹配模块14，用于根据各上述已确定目标的预测框及各上述待匹配目标的候选框组，对各上述已确定目标及各上述待匹配目标进行匹配，分别确定各上述已确定目标匹配成功的待匹配目标；

目标位置确定模块15，用于分别对各上述已确定目标匹配成功的待匹配目标的候选框组进行非极大值抑制NMS操作，得到各上述已确定目标匹配成功的待匹配目标在当前视频帧中的目标框；

跟踪轨迹确定模块16，用于根据各上述已确定目标的轨迹信息及各上述待匹配目标在当前视频帧中的目标框，确定各上述已确定在当前视频帧中的轨迹。

在一种可能的实施方式中，上述目标位置匹配模块14，具体用于：针对任一已确定目标，在各上述待匹配目标中，选取类型与该已确定目标的类型相同的各待匹配目标，得到该已确定目标的各同类型待匹配目标；在该已确定目标的各同类型待匹配目标的候选框组中，选取与该已确定目标的预测框的距离小于预设距离阈值的各候选框，得到该已确定目标的各目标候选框；分别计算该已确定目标的预测框与该已确定目标的各目标候选框的交并比IoU，选取IoU最大、且大于预设IoU阈值的目标候选框对应的待匹配目标，作为该已确定目标匹配成功的待匹配目标，从而分别得到各上述已确定目标匹配成功的待匹配目标。

在一种可能的实施方式中，上述装置还包括：第一新目标确定模块，用于针对任一未与已确定目标匹配成功的待匹配目标，对该待匹配目标的候选框组进行NMS操作，得到一个新的已确定目标的检测框。

在一种可能的实施方式中，上述跟踪轨迹确定模块16，包括：

特征信息获取子模块，用于根据各上述已确定目标的轨迹信息，获取各上述已确定目标的真值特征信息；在当前视频帧中，分别提取各上述已确定目标匹配成功的待匹配目标的目标框中的特征信息，得到各上述已确定目标的待匹配特征信息；

在一种可能的实施方式中，上述装置还包括：第二新目标确定模块，用于若该已确定目标的真值特征信息与待匹配特征信息特征未匹配成功，将该已确定目标对应的目标框作为一个新的已确定目标的检测框。

在一种可能的实施方式中，上述装置还包括：

轨迹信息合并模块，用于根据各上述目标相似度，将确定为同一目标的各已确定目标的轨迹信息进行合并。

在一种可能的实施方式中，上述目标相似度计算模块，具体用于：选取两个类型相同、且轨迹信息在时序上不存在重合的已确定目标，得到第一已确定目标及第二已确定目标；根据第一已确定目标的轨迹信息，预测第一已确定目标在上述第二已确定目标的指定视频帧中的预测位置；获取上述第二已确定目标在上述指定视频帧中的真值位置；计算上述真值位置及上述预测位置的IoU，得到目标IoU；计算上述真值位置及上述预测位置的归一化距离；计算上述第一已确定目标及上述第二已确定目标的轨迹外观相似度；在上述目标IoU大于预设IoU阈值、上述归一化距离小于预设距离阈值、且上述轨迹外观相似度大于预设第一相似度阈值时，综合上述目标IoU、上述归一化距离及上述轨迹外观相似度，计算得到上述第一已确定目标及第二已确定目标的目标相似度，从而得到类型相同的、且轨迹信息在时序上不存在重合的任意两个已确定目标之间的目标相似度。

在一种可能的实施方式中，上述轨迹信息合并模块，具体用于：按照时序，将类型相同的、且轨迹信息在时序上不存在重合的各已确定目标连接为有向图；针对任意两个类型相同的、且轨迹信息在时序上不存在重合的已确定目标，将这两个已确定目标之间的目标相似度的相反数作为这两个已确定目标在上述有向图上路径的权重，从而得到上述有向图中各路径的权重，其中，不存在目标相似度的两个已确定目标之间路径的权重为正无穷大；使用网络流算法对上述有向图进行求解，得到多条路径，其中，将同一路径中的各已确定目标确定为同一目标；将同一路径中的各已确定目标的轨迹信息按照时序进行合并，得到各目标的跟踪轨迹。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序；

上述处理器用于执行上述存储器存放的计算机程序时，实现上述任一多目标跟踪方法。

可选的，参见图12，本申请实施例的电子设备还包括通信接口902和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述实施例中任一多目标跟踪方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一多目标跟踪方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种多目标跟踪方法，其特征在于，所述方法包括：

根据各所述已确定目标的轨迹信息及各所述待匹配目标在当前视频帧中的目标框，确定各所述已确定目标在当前视频帧中的轨迹。

2.根据权利要求1所述的方法，其特征在于，所述根据各所述已确定目标的预测框及各所述待匹配目标的候选框组，对各所述已确定目标及各所述待匹配目标进行匹配，分别确定各所述已确定目标匹配成功的待匹配目标，包括：

3.根据权利要求1所述的方法，其特征在于，在所述根据各所述已确定目标的预测框及各所述待匹配目标的候选框组，对各所述已确定目标及各所述待匹配目标进行匹配，分别确定各所述已确定目标匹配成功的待匹配目标之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据各所述已确定目标的轨迹信息及各所述待匹配目标在当前视频帧中的目标框，确定各所述已确定目标在当前视频帧中的轨迹，包括：

5.根据权利要求4所述的方法，其特征在于，在所述针对任一已确定目标，将该已确定目标的真值特征信息与待匹配特征信息进行特征匹配之后，所述方法还包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述计算类型相同的、且轨迹信息在时序上不存在重合的任意两个已确定目标之间的目标相似度，包括：

计算所述真值位置及所述预测位置的IoU，得到目标IoU；

计算所述真值位置及所述预测位置的归一化距离；

8.根据权利要求7所述的方法，其特征在于，所述第一已确定目标的轨迹信息的长度大于所述第二已确定目标的轨迹信息的长度。

9.根据权利要求6所述的方法，其特征在于，所述根据各所述目标相似度，将确定为同一目标的各已确定目标的轨迹信息进行合并，包括：

10.一种多目标跟踪装置，其特征在于，所述装置包括：

跟踪轨迹确定模块，用于根据各所述已确定目标的轨迹信息及各所述待匹配目标在当前视频帧中的目标框，确定各所述已确定目标在当前视频帧中的轨迹。

11.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-9任一所述的多目标跟踪方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述的多目标跟踪方法。