CN114998999B

CN114998999B - 一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置

Info

Publication number: CN114998999B
Application number: CN202210856428.0A
Authority: CN
Inventors: 张文广; 徐晓刚; 虞舒敏; 曹卫强
Original assignee: Zhejiang Gongshang University; Zhejiang Lab
Current assignee: Zhejiang Gongshang University; Zhejiang Lab
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-12-06
Anticipated expiration: 2042-07-21
Also published as: CN114998999A

Abstract

本发明公开一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置，方法包括：步骤S1：获取行人视频数据集并进行行人坐标以及行人轨迹的标注，并生成片段型轨迹数据；步骤S2：构造并训练基于多帧输入与轨迹平滑的行人多目标跟踪网络模型；步骤S3：基于训练得到的行人多目标跟踪网络模型进行推理，获取当前帧行人目标检测与特征提取结果以及其前几帧的行人目标检测与特征提取结果，即获取得到多帧图像目标的坐标及外观特征；步骤S4：利用多帧图像目标的坐标及外观特征进行最短特征距离匹配，并利用轨迹曲率平滑函数进行轨迹平滑，最终得到当前帧的轨迹。本发明具有耗时低，且对同类目标的遮挡问题鲁棒性较好的优点。

Description

一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置。

背景技术

随着城市公共区域监控相机的广泛部署，基于公共安全及紧急求援的需求，针对感兴趣目标的在线检测及多目标跟踪技术具有重大的学术与商业价值。

当前的大部分针对行人等目标的跟踪算法均是先利用检测网络得到感兴趣目标位置，然后利用ReID网络提取目标的外观特征，最后基于特征空间的距离度量利用匈牙利算法或者贪心算法进行匹配。但是这种方法有明显的缺陷：1.目标匹配时仅仅与前一帧或者前几帧进行特征匹配，同类目标的遮挡极易由于其特征相似而导致身份识别号互换；2.固定特征距离阈值的选取，极易导致新出现的目标由于没有匹配上激活的轨迹而匹配上历史已经消失的轨迹。

基于以上两个问题，学术界目前主要依靠提出一个检测性能更优秀的网络和提出一个特征表达鲁棒性能更强的网络来解决，但是如附图3所示的这种情况，由于同类目标的遮挡确实会导致本目标的一部分外观特征被其他目标的外观特征覆盖，在两个人相遇时，一个人对另一个人进行了遮挡，在遮挡的瞬间，被遮挡者的外观特征也变成了遮挡者的特征，因此在基于特征匹配的方式中，目标的身份ID极其容易导致互换，从而产生如附图3中的B指示线所示的那种错接轨迹，真实情况应该是图3中的A指示线所示的轨迹，这一问题一直没有得到很好的解决。

基于此，需要提供一种运行效率较高，抗同类目标遮挡且性能优异的行人多目标跟踪方法。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置，其具体技术方案如下：

一种基于多帧输入与轨迹平滑的多目标跟踪方法，包括以下步骤：

步骤S1：获取行人视频数据集并进行行人坐标以及行人轨迹的标注，并生成片段型轨迹数据；

步骤S2：构造并训练基于多帧输入与轨迹平滑的行人多目标跟踪网络模型；

步骤S3：基于训练得到的行人多目标跟踪网络模型进行推理，获取当前帧行人目标检测与特征提取结果以及其前几帧的行人目标检测与特征提取结果，即获取得到多帧图像目标的坐标及外观特征；

步骤S4：利用多帧图像目标的坐标及外观特征进行最短特征距离匹配，并利用轨迹曲率平滑函数进行轨迹平滑，最终得到当前帧的轨迹。

进一步地，所述步骤S1，具体为：对获取的开源行人视频，利用标注软件对行人视频序列帧中的行人进行标注，包括标注目标框以及目标的身份识别ID号，ID号从1开始累加；然后对行人视频以固定的长度进行切割捆绑生成轨迹片段，轨迹片段由2m+1个图像序列帧组成，即该轨迹片段的数据由从某时刻图像帧之前m个图像帧至之后m个图像帧组成，m为正整数。

进一步地，所述行人多目标跟踪网络模型由Yolov5-L主网络与多尺度特征提取模块组合而成，所述多尺度特征提取模块与Yolov5-L主网络的目标检测头并行排列且输入相同，所述多尺度特征提取模块由一个3*3*256卷积层和一个1*1*256*3的卷积层组成；输入图像经过Yolov5-L主网络后再经过多尺度特征提取模块输出一张与输入图像尺寸一样的外观特征图，再基于目标检测头检测得到的目标框所属的预设边框，在外观特征图中截取得到目标框对应的外观特征。

进一步地，所述行人多目标跟踪网络模型的训练是采用所述片段型轨迹数据进行训练，将片段型轨迹数据的图像序列帧同时送入行人多目标跟踪网络模型进行推理，计算得到目标的坐标即目标框，以及外观特征，并基于所述目标的坐标与外观特征采用最短特征距离与轨迹曲率平滑函数进行匹配，同时利用总的损失函数求梯度进行行人多目标跟踪网络模型的后向推理。

进一步地，所述总的损失函数是联合轨迹特征距离与拟合的损失函数与轨迹检测的平均L1损失函数加权平均的损失函数

，

表示联合轨迹特征距离与拟合的损失函数，

表示轨迹片段目标检测的平均L1损失函数。

进一步地，所述联合轨迹特征距离与拟合的损失函数由轨迹特征距离损失函数与轨迹曲率平滑损失函数加权平均得到，对行人多目标跟踪网络模型的特征提取与轨迹匹配进行训练学习；

所述轨迹特征距离损失函数表示为：

；

其中，

，i∈[1，2m+1]，表示第i个图像帧中的目标框

与第i个图像帧真实标签目标框

的特征距离，采用特征向量夹角的余弦函数表示，2m+1为轨迹片段的图像序列帧个数；

所述轨迹曲率平滑损失函数表示为：

，

其中，x表示在轨迹片段中形成的目标轨迹个数，

为预测的第j个目标的轨迹在2m+1帧图像的平均轨迹曲率，

为对应的真实标签轨迹的曲率，j∈[1，x],

为预测的目标轨迹与真实标签轨迹的平均轨迹曲率差值；所述匹配具体为预测目标轨迹与真实标签轨迹的匹配采用曲线前端、中端、后端IOU匹配的规则进行匹配；

因此，所述联合轨迹特征距离与拟合的损失函数表示为：

，

，

其中

和

均为加权的权重，基于

来监督行人多目标跟踪网络模型在特征提取和轨迹匹配上的学习。

进一步地，所述轨迹片段目标检测的平均L1损失函数表示为：

，

其中，

表示第i帧图像的目标检测的平均L1损失函数，2m+1为轨迹片段的图像序列帧个数。

进一步地，所述步骤S4具体为：采用训练好的行人多目标跟踪网络模型，利用多帧图像目标的坐标及外观特征进行最短特征距离匹配，并进行轨迹平滑，匹配得到的轨迹使得目标与其前2m帧的轨迹目标的平均特征距离与轨迹曲率加权和最小，加权和表示为：

，

，

其中

表示当前预测的图像帧k与其前2m帧中的第i个图像帧的外观特征距离，

和

均为加权的权重。

一种基于多帧输入与轨迹平滑的多目标跟踪装置，包括一个或多个处理器，用于实现所述的基于多帧输入与轨迹平滑的多目标跟踪方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的基于多帧输入与轨迹平滑的多目标跟踪方法。

与现有的技术相比，本发明的有益效果为：1.通过构建片段型轨迹数据集可以使得多张图像中的同一个目标的不同角度同时监督特征提取模块的学***滑可以很好地过滤由于同类目标遮挡导致误匹配而带来的轨迹跳变；3.通过送入一段训练轨迹数据集，使得检测模块可以同时学习同一个目标在不同时刻的目标信息，在一定程度上提升了检测性能；4.通过特征与检测结果共享缓存模式，使得在部署时仅需要推理1帧图片而达到2m+1帧图片输入的效果。

附图说明

图1为本发明实施例提供的一种基于多帧输入与轨迹平滑的多目标跟踪方法流程示意图；

图2为本发明实施例提供的一种基于多帧输入与轨迹平滑的多目标跟踪方法的整体网络框架示意图；

图3为目前的存在身份互换问题的实施例示意图；

图4为本发明实施例提供的一种基于多帧输入与轨迹平滑的多目标跟踪装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

本发明提供一种基于多帧输入与轨迹平滑的多目标跟踪方法，以解决现有多目标跟踪算法由于同类目标遮挡导致的轨迹错接问题。本发明提出了基于多帧输入的检测与ReID特征提取的单阶段网络，采用Yolov5-L作为网络模型的主干，在网络尾端添加目标特征提取模块，通过单阶段网络同时获取行人目标的坐标以及外观特征；采用多帧输入，多帧目标特征匹配，在线轨迹平滑来降低错接率。

如图1所示，该方法具体包括以下步骤内容：

具体地，所述进行行人坐标以及行人轨迹的标注是指利用专业标注软件对视频序列帧中的行人进行标注，包括标注目标框以及目标的身份识别ID号，ID号从1开始累加；

所述生成片段型轨迹数据是指对历史视频数据以固定的长度进行切割捆绑生成轨迹片段，轨迹片段之间可以有重叠帧也可以没有重叠帧，假设历史某时刻前后的一个轨迹片段由2m+1个图像序列帧组成，即该轨迹片段的数据由从某时刻图像帧之前m个图像帧至之后m个图像帧组成，m为正整数，片段型轨迹数据仅对图像帧序列号进行捆绑，不需要涉及图像的重复拷贝。

具体地，如图2所示，一种多帧输入的基于最短特征距离与轨迹平滑匹配的行人多目标跟踪网络模型主要由Yolov5-L主网络与多尺度特征提取模块组合而成，网络模型的输入图片尺寸为960*960，所述多尺度特征提取模块与Yolov5-L主网络的目标检测头Detect并行排列，所述Yolov5-L主网络通过目标检测头对输入图像进行目标检测，所述多尺度特征提取模块与目标检测头的输入相同，所述多尺度特征提取模块由一个3*3*256卷积层和一个1*1*256*3的卷积层组成，对目标进行特征提取；输入图像经过Yolov5-L主网络后再经过多尺度特征提取模块最终得到一张与输入图像尺寸一样的外观特征图，最终基于目标检测头Detect检测得到的目标框所属的预设边框，在外观特征图中截取得到目标框对应的外观特征，单个目标的外观特征维度为256维。

所述行人多目标跟踪网络模型的训练是采用所述片段型轨迹数据进行训练，将片段型轨迹数据的图像序列帧同时送入行人多目标跟踪网络模型进行推理，计算得到目标的坐标即目标框，以及外观特征，并基于所述目标的坐标与外观特征采用最短特征距离与轨迹曲率平滑函数进行匹配，同时通过总的损失函数求梯度进行行人多目标跟踪网络模型的后向推理。

所述行人多目标跟踪网络模型的特征提取与轨迹的匹配训练采用一种联合轨迹特征距离与拟合的损失函数来监督网络模型特征提取与轨迹匹配的学***滑损失函数加权平均得到。

对于特征空间的距离，采用特征向量夹角的余弦函数表示，则第i个图像帧中的目标框

与第i个图像帧真实标签目标框

的特征距离表示为：

，i∈[1，2m+1]，

当特征向量夹角越趋近于0度，则平均预测值越接近真实值，特征距离

也越趋近于0，否则特征距离

越趋近于1；因此，轨迹片段的轨迹特征距离损失函数表示为：

；

假设所述轨迹片段一共形成x个目标的轨迹，计算第j个目标的轨迹在2m+1帧图像的平均轨迹曲率为

，j∈[1，x],计算预测的目标轨迹与真实标签轨迹的平均轨迹曲率差值为

，其中

为对应的真实标签轨迹的曲率，预测轨迹与真实标签轨迹的匹配采用曲线前端、中端、后端IOU匹配的规则进行匹配，即，在预测轨迹中取第一次目标出现的坐标以及中间出现的坐标和最后消失时的坐标与真实标签轨迹相应的第一次、中间、最后时段的坐标进行IOU匹配，如果平均IOU最大，则认为预测轨迹与真实轨迹为同一个轨迹，并基于所述平均轨迹曲率差值的计算公式计算预测轨迹与真实标签轨迹的拟合的损失函数即轨迹曲率平滑损失函数：

。

最终所述联合轨迹特征距离与拟合的损失函数表示为：

，

，

其中

和

均为加权的权重，基于

行人多目标跟踪网络模型检测训练常用的单帧目标检测模型中的L1损失函数，假设第i帧图像的目标检测的平均L1损失函数表示

，则轨迹片段的所有图像的目标检测的平均L1损失函数用

表示。

最终行人多目标跟踪网络模型训练的总损失函数表示为

。

步骤S3：基于训练得到的行人多目标跟踪网络模型进行推理，获取当前帧行人检测与特征提取结果以及其前几帧的行人检测与特征提取结果，即获取得到多帧图像目标的坐标及外观特征；

具体地，使用训练好的行人多目标跟踪网络模型检测得到的帧图像的行人目标框和其对应的外观特征，训练过程中采用前后m帧图像构成轨迹片段，但是在实际应用部署中采用前2m帧图像构成2m+1推理轨迹片段匹配，如此在实际推理中不需要每次对模型推理2m+1次，仅仅需要推理1次，而前2m帧的结果由之前的缓存得到。

具体地，基于2m+1帧的图像推理结果，基于最短特征距离匹配与轨迹曲率平滑原则，即匹配得到的轨迹使得当前预测的目标与其前2m帧的轨迹目标的平均特征距离与轨迹曲率加权和最小，加权和表示为：

，

，

其中

和

均为加权的权重。

与前述基于多帧输入与轨迹平滑的多目标跟踪方法的实施例相对应，本发明还提供了基于多帧输入与轨迹平滑的多目标跟踪装置的实施例。

参见图4，本发明实施例提供的一种基于多帧输入与轨迹平滑的多目标跟踪装置，包括一个或多个处理器，用于实现上述实施例中的基于多帧输入与轨迹平滑的多目标跟踪方法。

本发明基于多帧输入与轨迹平滑的多目标跟踪装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明基于多帧输入与轨迹平滑的多目标跟踪装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于多帧输入与轨迹平滑的多目标跟踪方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多帧输入与轨迹平滑的多目标跟踪方法，其特征在于，包括以下步骤：

具体的，所述行人多目标跟踪网络模型的训练是采用所述片段型轨迹数据进行训练，将片段型轨迹数据的图像序列帧同时送入行人多目标跟踪网络模型进行推理，计算得到目标的坐标即目标框，以及外观特征，并基于所述目标的坐标与外观特征采用最短特征距离与轨迹曲率平滑函数进行匹配，同时利用总的损失函数求梯度进行行人多目标跟踪网络模型的后向推理；

所述总的损失函数是联合轨迹特征距离与拟合的损失函数与轨迹检测的平均L1损失函数加权平均的损失函数

，

表示联合轨迹特征距离与拟合的损失函数，

表示轨迹片段目标检测的平均L1损失函数；

所述联合轨迹特征距离与拟合的损失函数由轨迹特征距离损失函数与轨迹曲率平滑损失函数加权平均得到，对行人多目标跟踪网络模型的特征提取与轨迹匹配进行训练学习；

所述轨迹特征距离损失函数表示为：

；

其中，

，i∈[1，2m+1]，表示第i个图像帧中的目标框

与第i个图像帧真实标签目标框

所述轨迹曲率平滑损失函数表示为：

，

其中，x表示在轨迹片段中形成的目标轨迹个数，

为预测的第j个目标的轨迹在2m+1帧图像的平均轨迹曲率，

为对应的真实标签轨迹的曲率，j∈[1，x],

为预测的目标轨迹与真实标签轨迹的平均轨迹曲率差值；所述匹配具体为预测目标轨迹与真实标签轨迹的匹配，采用曲线前端、中端、后端IOU匹配的规则进行匹配；

因此，所述联合轨迹特征距离与拟合的损失函数表示为：

，

，

其中

和

均为加权的权重，基于

来监督行人多目标跟踪网络模型在特征提取和轨迹匹配上的学习；

步骤S4：利用多帧图像目标的坐标及外观特征进行最短特征距离匹配，并利用轨迹曲率平滑函数进行轨迹平滑，最终得到当前帧的轨迹，具体为：采用训练好的行人多目标跟踪网络模型，利用多帧图像目标的坐标及外观特征进行最短特征距离匹配，并进行轨迹平滑，匹配得到的轨迹使得目标与其前2m帧的轨迹目标的平均特征距离与轨迹曲率加权和最小，加权和表示为：

，

，

其中

和

均为加权的权重。

2.如权利要求1所述的一种基于多帧输入与轨迹平滑的多目标跟踪方法，其特征在于，所述步骤S1，具体为：对获取的开源行人视频，利用标注软件对行人视频序列帧中的行人进行标注，包括标注目标框以及目标的身份识别ID号，ID号从1开始累加；然后对行人视频以固定的长度进行切割捆绑生成轨迹片段，轨迹片段由2m+1个图像序列帧组成，即该轨迹片段的数据由从某时刻图像帧之前m个图像帧至之后m个图像帧组成，m为正整数。

3.如权利要求1所述的一种基于多帧输入与轨迹平滑的多目标跟踪方法，其特征在于，所述行人多目标跟踪网络模型由Yolov5-L主网络与多尺度特征提取模块组合而成，所述多尺度特征提取模块与Yolov5-L主网络的目标检测头并行排列且输入相同，所述多尺度特征提取模块由一个3*3*256卷积层和一个1*1*256*3的卷积层组成；输入图像经过Yolov5-L主网络后再经过多尺度特征提取模块输出一张与输入图像尺寸一样的外观特征图，再基于目标检测头检测得到的目标框所属的预设边框，在外观特征图中截取得到目标框对应的外观特征。

4.如权利要求1所述的一种基于多帧输入与轨迹平滑的多目标跟踪方法，其特征在于，所述轨迹片段目标检测的平均L1损失函数表示为：

，

其中，

5.一种基于多帧输入与轨迹平滑的多目标跟踪装置，其特征在于，包括一个或多个处理器，用于实现权利要求1至4中任一项所述的基于多帧输入与轨迹平滑的多目标跟踪方法。

6.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1至4中任一项所述的基于多帧输入与轨迹平滑的多目标跟踪方法。