CN112183450B

CN112183450B - 一种多目标跟踪方法

Info

Publication number: CN112183450B
Application number: CN202011103327.3A
Authority: CN
Inventors: 曾志伟
Original assignee: Chengdu Sihan Technology Co ltd
Current assignee: Chengdu Sihan Technology Co ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2024-05-28
Anticipated expiration: 2040-10-15
Also published as: CN112183450A

Abstract

本发明公开了一种多目标跟踪方法，属于目标跟踪技术领域。本发明包括以下步骤：搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD；以MCMOT算法框架创建多类多目标跟踪模型，在MCMOUD上训练和验证多类多目标跟踪模型；在MCMOUD上评估MCMOT算法的性能。通过创新性的身份重识别特征采样技术和类别不可知的实例级特征提取技术，解决现有多目标跟踪方法耗时过大、或者跟踪精度较低，无法进行多类别多目标跟踪等问题。

Description

一种多目标跟踪方法

技术领域

本发明涉及目标跟踪技术领域，尤其是一种多目标跟踪方法。

背景技术

多目标跟踪是计算机视觉领域非常重要的分支之一，其目的是获取视频中任意数量目标的轨迹，并预测目标将来的运动趋势。多目标跟踪也是行为识别、公共安全、体育视频分析、老年人照料、人机交互等下游视觉任务的重要基石之一，其性能直接影响整个计算机视觉***的性能。

多目标跟踪多采用检测然后跟踪的策略来实现，即先检测出每一帧的所有目标，然后采用数据关联算法实现不同帧同一目标的关联。近年来，随着深度学习在计算机视觉领域的广泛应用，目标检测和数据关联算法均取得了巨大的进步，间接推动了多目标跟踪技术的进步。

然而，这类方法没有共享特征机制，需要构建独立的模型分别实现检测和跟踪，所以很难以实时帧率运算。这严重限制了这类多目标跟踪算法在实际业务场景的商业化运行。最近多任务学习技术的进展给多目标跟踪领域引入了新的思路。

JDE作为联合训练检测和嵌入的早期算法，采用了多任务特征共享机制，第一次实现了实时的多目标跟踪。然而这类检测并学习重识别特征的方法，和检测然后跟踪之类的方法比，其跟踪精度普遍偏低，有几方面的原因。

一是这类方法存在锚框和重识别特征不对齐的问题。为了平衡精度和速度，最终的特征图经过了数倍的下采样，锚框中心和该中心提取的重识别特征存在一定程度的不匹配，导致目标身份预测的精度不高。

二是目标检测和目标跟踪的分类存在一定程度的冲突。分类要求类内差距尽可能小，类间差距尽可能大。对于目标检测，类指的是语义类；对于目标跟踪，类指的是实例类(不同帧的同一个目标属于同一类)。跟踪的不同目标可能属于同一语义类，可见检测和跟踪任务中分类器的学习目标存在冲突。

更为关键的问题是，上述两种主流的多目标跟踪策略，目前都侧重于解决单类多目标跟踪问题，对多类多目标跟踪问题的研究非常欠缺，尚无成熟的解决方案。

发明内容

本发明专利提出了一种多目标跟踪方法，通过创新性的身份重识别特征采样技术和类别不可知的实例级特征提取技术，解决现有多目标跟踪方法耗时过大、或者跟踪精度较低，无法进行多类别多目标跟踪等问题。

为了实现上述目的，本发明采用以下技术方案：

一种多目标跟踪方法，包括以下步骤：

搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD；

以MCMOT算法框架创建多类多目标跟踪模型，在MCMOUD上训练和验证多类多目标跟踪模型；

在MCMOUD上评估MCMOT算法的性能。

进一步的，所述搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD，包括：从互联网上获取Caltech Pedestrian、CityPersons、CUHK-SYSU、PRW、ETHZ、MOT-16、MOT-17、MOT-20目标跟踪数据集；

将所有图像或视频的标注数据转换为MCMOUD数据集标注数据格式并汇总形成所述数据集MCMOUD。

进一步的，所述MCMOUD数据集标注数据格式，结构如下：

MCMOUD数据集标注数据格式

进一步的，所述MCMOT算法框架包括骨干网、任务头和损失三个部分，骨干网采用以ResNet-50为核心的特征金字塔网络；任务头包括跟踪所需的嵌入特征学习和检测所需的分类回归分别由独立的分支负责，检测和跟踪任务仅共享骨干网和FPN部分的特征；损失包括基于身份重识别特征采样方法的类别损失、边框损失及嵌入特征损失。

进一步的，所述骨干网采用以ResNet-50的数据结构如下：

ResNet50骨干网配置

进一步的，所述Conv3x、Conv4x、Conv5x各自后续残差模块均保持特征图分辨率和输出通道不变，所有的残差模块的第一个卷积将特征图通道数压缩为模块期望输出通道数的四分之一，第二个卷积作为瓶颈层保持特征图的通道数不变，第三个卷积将特征图的通道数扩张为模块期望输出的通道数。

进一步的，所述特征金字塔网络的构建方法如下：在自底向上的过程中，Conv2x、Conv3x、Conv4x和Conv5x的最后一层的输出作为构建FPN的参考特征图，各自经一个3×3、步长为1的卷积运算将通道数固定为256通道；

在自顶向下过程中，上一级金字塔特征图经上采样将大小扩增两倍，然后和下一级参考特征图逐点相加融合，作为当前级的金字塔特征图，采用同样的方法获取下面所有等级的金字塔特征图构成特征金字塔网络。

进一步的，所述任务头预测输出的计算方法如公式1、公式2和公式3所示：

公式(1)计算类别概率预测值，θ^cls、φ^cls、φ^cls是类别分支不同阶段卷积核参数，不同锚框以及不同任务头中这部分参数是共享的；公式(2)计算目标的边框参数预测值，θ^box、φ^box、φ^box是边框分支不同阶段卷积核参数，不同锚框以及不同任务头中这部分参数是共享的；公式(3)计算跟踪的嵌入特征预测值，α^emb和β^emb是检测分支不同阶段卷积核参数，不同锚框以及不同任务头中这部分参数同样地是共享的；F_i(i＝0,1,2,3)是FPN输出的特征图经一个3×3、步长为1的卷积运算之后的特征图；

进一步的，所述类别损失的计算方法如公式9，其中的α_t和γ是超参；边框损失的计算方法如公式10，嵌入特征损失的计算方法如公式11，最后的损失为四个任务头的K个锚框各自的类别损失、边框损失和嵌入损失之和；

进一步的，所述在MCMOUD上训练和验证多类多目标跟踪模型，包括：在包括类别和边框的检测分支，对于每个锚框，如果和某个基准框的交并面积比大于0.5，就将该锚框视分配给该基准框，否则将该锚框视为背景；对于每一个基准框，将交并面积比最大的锚框分配给它；在跟踪分支，对于每个锚框，如果和某个基准框的交并面积比大于0.7，就将该锚框视分配给该基准框，否则将该锚框视为背景。

本发明与现有技术相比具有的有益效果是：

(1)以创新性的身份重识别特征采样技术取代传统的量化特征采样技术，彻底解决锚框和重识别特征不对齐的问题；

(2)以实例级特征提取技术取代传统的类别和嵌入特征协同提取技术，彻底解决目标检测和目标跟踪分类学习存在冲突的问题；

(3)创新性的类别不可知重识别特征提取技术，解决了当前多目标跟踪技术无法处理多类别跟踪的问题。

附图说明

图1是实施例中MCMOT特征金字塔构建方法。

图2是实施例中MCMOT任务头结构。

图3是实施例中身份重识别特征采样方法。

具体实施方式

下面结合实施例对本发明作进一步的描述，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例，都属于本发明的保护范围。

实施例1:

如图1-3所示，一种多目标跟踪方法，包括以下步骤：

一种多目标跟踪方法，包括以下步骤：

在MCMOUD上评估MCMOT算法的性能。

具体实施方法如下：

创建多类多目标跟踪数据集MCMOUD。从互联网上获取Caltech Pedestrian、CityPersons、CUHK-SYSU、PRW、ETHZ、MOT-16、MOT-17、MOT-20等8个目标跟踪数据集，将所有图像或视频的标注数据转换为如表1所示的格式。汇总所有的图像或视频及转换了格式的标注数据形成所述数据集MCMOUD，该数据集包含行人、车辆等多类运动目标。

表1 MCMOUD数据集标注数据格式

构建多类多目标跟踪算法框架MCMOT。MCMOT算法框架主要包括骨干网、任务头和损失三个部分。骨干网采用以ResNet-50为核心的特征金字塔网络(Feature PyramidNetwork,FPN)。ResNet-50的详细配置参见表2。Conv1是单层卷积，卷积核大小为7，卷积核数量为64，卷积步长为2，将输入图像的分辨率从1024×1024降低到512×512。Conv2x包括一层最大池化和3组残差模块，最大池化的池化核大小为3，池化步长为2，将Conv1的输出大小降低两倍，随后的残差模块不改变特征图的分辨率。Conv2x的输出特征有256个通道。Conv3x、Conv4x、Conv5x各自的第一个残差模块执行2倍下采样，分别将特征图的大小降低到128、64和32，通道数却分别扩增为512、1024和2048。Conv3x、Conv4x、Conv5x各自后续残差模块均保持特征图分辨率和输出通道不变。所有的残差模块的第一个卷积将特征图通道数压缩为模块期望输出通道数的四分之一，第二个卷积作为瓶颈层保持特征图的通道数不变，第三个卷积将特征图的通道数扩张为模块期望输出的通道数。

表2 ResNet50骨干网配置

特征金字塔的构建方法如图1所示。在自底向上的过程中，Conv2x、Conv3x、Conv4x和Conv5x的最后一层的输出作为构建FPN的参考特征图，各自经一个3×3、步长为1的卷积运算将通道数固定为256通道。在自顶向下过程中，上一级金字塔特征图经上采样将大小扩增两倍，然后和下一级参考特征图逐点相加融合，作为当前级的金字塔特征图，采用同样的方法获取下面所有等级的金字塔特征图。这种不同细粒度特征图融合的策略，结合了低层特征富含细节信息和高层特征富含语义信息的优点，有助于提高多尺度目标的检测和跟踪精度。

任务头的设计是本发明专利重要的创新之处。不同于传统的检测和重识别特征联合学习方法，本发明专利提出的类别不可知的实例级特征提取技术，将不同锚框的检测和跟踪任务学习解耦，同时将检测任务中的分类和跟踪任务中的重识别特征提取彻底解耦，避免检测和跟踪任务中分类器学习目标冲突的问题，同时该方法可支持多类别多目标跟踪，解决当前的多目标跟踪算法无法处理多类跟踪的问题。

如图2所示是本发明专利提出的任务头结构。图中的F_i(i＝0,1,2,3)是FPN输出的特征图经一个3×3、步长为1的卷积运算之后的特征图，这个卷积层的作用是减轻上采样引入的混叠和失真效应。从任务头输入F_i开始，跟踪所需的嵌入特征学习和检测所需的分类回归分别由独立的分支负责，检测和跟踪任务仅共享骨干网和FPN部分的特征。图2中的K表示该任务头每个点的锚框个数，*m₁表示m₁个3×3卷积，*m₂和*m₃的含义类似。检测的类别、边框两个分支，以及跟踪分支的最后一层是3×3卷积，将各自特征图的通道数规范到指定的数值。

如果需要跟踪的类别数量为#classes，那么类别分支最终输出的通道数就是#classes。边框分支需要预测横坐标、纵坐标、宽度和长度，所以该分支的最终输出通道数是4。记嵌入特征的维度为dim_embed，那么嵌入分支最终输出的通道数为dim_embed。任务头预测输出的计算方法如公式(1)、公式(2)和公式(3)所示。公式(1)计算类别概率预测值，θ^cls、φ^cls、φ^cls是类别分支不同阶段卷积核参数，不同锚框以及不同任务头中这部分参数是共享的。公式(2)计算目标的边框参数预测值，θ^box、φ^box、φ^box是边框分支不同阶段卷积核参数，不同锚框以及不同任务头中这部分参数是共享的。公式(3)计算跟踪的嵌入特征预测值，α^emb和β^emb是检测分支不同阶段卷积核参数，不同锚框以及不同任务头中这部分参数同样地是共享的；表示类别概率预测值；/>表示边框参数预测值；/>表示嵌入特征预测值；i表示头标号，k表示锚框标号。

除了任务头结构的创新性设计以外，新型身份重识别特征采样技术同样非常重要。和传统的基于量化坐标的特征最近邻采样法不同，本发明专利提出的身份重识别特征采样技术，采用实数坐标而不是量化坐标来获取特征值。当采用实数坐标提取特征值时，需要同时考虑其周边的四个有效坐标的特征值，如图所3示。

假设某个目标经下采样后中心坐标为(x,y)，(x,y)是相对最终的特征图坐标系而言的坐标。由于(x,y)是实数坐标，特征图的网格是量化之后的整数网格，无法直接提取此处的特征。采用逐通道双线性插值的方法计算(x,y)之处的特征。按照公式(4)、公式(5)、公式(6)和公式(7)计算离(x,y)最近的四个整数坐标，并提取各自的特征向量。公式(4)和公式(5)中的s表示下采样率。假设(x₁,y₁)的特征向量为E₁，(x₂,y₁)的特征向量为E₂，(x₁,y₂)的特征向量为E₃，(x₂,y₂)的特征向量为E₄，(x,y)的特征向量为E，那么按照公式(8)计算E。E₁₂，E₂₄为中间变量，E是特征向量。

x₂＝x₁+1 (公式6)

y₂＝y₁+1 (公式7)

任务头需要配备类别、边框及嵌入特征三个分支的损失函数。类别损失采用FocalLoss，其计算方法参考公式(9)，其中的α_t和γ是超参，p表示类别概率预测值。边框损失采用Smooth L1，其计算方法参考公式(10)，Xi表示边框参数预测值，Yi表示边框参数真实值。将嵌入特征的学习视为分类问题，采用交叉熵计算其损失，计算方法参考公式(11)，公式(11)中，Xi，xj为嵌入特征预测值。最后的总损失为四个任务头的K个锚框各自的类别、边框和嵌入损失之和。

在MCMOUD数据集上训练和验证多类多目标跟踪模型。在包括类别和边框的检测分支，对于每个锚框，如果和某个基准框的交并面积比大于0.5，就将该锚框视分配给该基准框，否则将该锚框视为背景；对于每一个基准框，将交并面积比最大的锚框分配给它。在跟踪分支，对于每个锚框，如果和某个基准框的交并面积比大于0.7，就将该锚框视分配给该基准框，否则将该锚框视为背景。

在PyTorch框架下利用冲量随机梯度下降法训练MCMOT模型(多类多目标跟踪模型)，权重衰减率设定为0.00004，冲量设置为0.9。训练的批次大小设定为32，#classes设置为MCMOUD数据集中的类别数量(包括背景)，dim_embed设定为256，α_t和γ分别设置为0.25和2。训练分为两阶段，第一阶段先移除嵌入分支，在COCO数据集上预训练；第二阶段用预训练模型初始化MCMOT模型参数，采用线性学习率预热策略，在最初的1000个批次逐步将学习率增长到基准学习率0.001，然后在第25和37个周期分别将学习率衰减10倍，总共训练50个周期。预训练模型指的是在COCO数据集上预训练得到的模型。

在MCMOUD数据集上评估MCMOT算法的性能。在MCMOT算法的推理阶段，模型的预测输出包括{C_{1×#classes×i×j},B_1×4×i×j,E_{1×dim_embed×i×j}}，其中的(i,j)∈{(32,32),(64,64),(128,128),(256,256)}，C表示类别概率预测值，B表示边框参数预测值，E表示嵌入特征预测值。在类别概率C上获取所有非背景、类别概率大于0.5的点的坐标，然后以该坐标提取B上相应位置的边框参数、提取E上同样位置的嵌入特征向量。将预测的目标表示为(#classes+4+dim_embed)维向量，汇总所有目标为集合{T_i,i∈1,2,...,N}。采用非最大值抑制算法移除多余的重叠目标，然后综合考虑嵌入特征距离和空间距离，建立目标的动力学模型，采用卡尔曼滤波算法关联不同帧的同一个目标，形成该目标的轨迹。最后利用开源的MOT开发工具包评估MCMOT算法的MOTA、IDF1、MT、ML、IDs、FPSD、FPSA和FPS等指标。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多目标跟踪方法，其特征在于，包括以下步骤：

在MCMOUD上评估MCMOT算法的性能；所述MCMOT算法框架包括骨干网、任务头和损失三个部分，骨干网采用以ResNet-50为核心的特征金字塔网络；任务头包括跟踪所需的嵌入特征学习和检测所需的分类回归分别由独立的分支负责，检测和跟踪任务仅共享骨干网和FPN部分的特征；损失包括基于身份重识别特征采样方法的类别损失、边框损失及嵌入特征损失；

所述任务头预测输出的计算方法如公式(1)、公式(2)和公式(3)所示：

公式(1)计算类别概率预测值，θ^cls、φ^cls是类别分支不同阶段卷积核参数，不同锚框以及不同任务头中这部分参数是共享的；公式(2)计算目标的边框参数预测值，θ^box、φ^box是边框分支不同阶段卷积核参数，不同锚框以及不同任务头中这部分参数是共享的；公式(3)计算跟踪的嵌入特征预测值，α^emb和β^emb是检测分支不同阶段卷积核参数，不同锚框以及不同任务头中这部分参数同样地是共享的；F_i(i＝0,1,2,3)是FPN输出的特征图经一个3×3、步长为1的卷积运算之后的特征图；

身份重识别特征采样技术，采用实数坐标而不是量化坐标来获取特征值；当采用实数坐标提取特征值时，需要同时考虑其周边的四个有效坐标的特征值；

假设某个目标经下采样后中心坐标为(x,y)，(x,y)是相对最终的特征图坐标系而言的坐标；由于(x,y)是实数坐标，特征图的网格是量化之后的整数网格，无法直接提取此处的特征；采用逐通道双线性插值的方法计算(x,y)之处的特征；按照公式(4)、公式(5)、公式(6)和公式(7)计算离(x,y)最近的四个整数坐标，并提取各自的特征向量；公式(4)和公式(5)中的s表示下采样率；假设(x₁,y₁)的特征向量为E₁，(x₂,y₁)的特征向量为E₂，(x₁,y₂)的特征向量为E₃，(x₂,y₂)的特征向量为E₄，(x,y)的特征向量为E，那么按照公式(8)计算E，E₁₃，E₂₄为中间变量，E是特征向量；

x₂＝x₁+1公式(6)

y₂＝y₁+1公式(7)

2.根据权利要求1所述的一种多目标跟踪方法，其特征在于，所述搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD，包括：从互联网上获取Caltech Pedestrian、CityPersons、CUHK-SYSU、PRW、ETHZ、MOT-16、MOT-17、MOT-20目标跟踪数据集；

3.根据权利要求2所述的一种多目标跟踪方法，其特征在于，所述MCMOUD数据集标注数据格式，数据结构如下：

MCMOUD数据集标注数据格式

4.根据权利要求1所述的一种多目标跟踪方法，其特征在于，所述骨干网采用以ResNet-50的数据结构如下：

ResNet50骨干网配置

5.根据权利要求4所述的一种多目标跟踪方法，其特征在于，所述Conv3x、Conv4x、Conv5x各自后续残差模块均保持特征图分辨率和输出通道不变，所有的残差模块的第一个卷积将特征图通道数压缩为模块期望输出通道数的四分之一，第二个卷积作为瓶颈层保持特征图的通道数不变，第三个卷积将特征图的通道数扩张为模块期望输出的通道数。

6.根据权利要求5所述的一种多目标跟踪方法，其特征在于，所述特征金字塔网络的构建方法如下：在自底向上的过程中，Conv2x、Conv3x、Conv4x和Conv5x的最后一层的输出作为构建FPN的参考特征图，各自经一个3×3、步长为1的卷积运算将通道数固定为256通道；

7.根据权利要求1所述的一种多目标跟踪方法，其特征在于，所述类别损失的计算方法如公式(9)，其中的α_t和γ是超参；边框损失的计算方法如公式(10)，嵌入特征损失的计算方法如公式(11)，最后的损失为四个任务头的K个锚框各自的类别损失、边框损失和嵌入损失之和；

任务头需要配备类别、边框及嵌入特征三个分支的损失函数；类别损失采用FocalLoss，其计算方法参考公式(9)，其中的α_t和γ是超参，p表示类别概率预测值；边框损失采用Smooth L1，其计算方法参考公式(10)，Xi表示边框参数预测值，Yi表示边框参数真实值；将嵌入特征的学习视为分类问题，采用交叉熵计算其损失，计算方法参考公式(11)，公式(11)中，Xi，xj为嵌入特征预测值；最后的总损失为四个任务头的K个锚框各自的类别、边框和嵌入损失之和；

8.根据权利要求1所述的一种多目标跟踪方法，其特征在于，所述在MCMOUD上训练和验证多类多目标跟踪模型，包括：在包括类别和边框的检测分支，对于每个锚框，如果和某个基准框的交并面积比大于0.5，就将该锚框视分配给该基准框，否则将该锚框视为背景；对于每一个基准框，将交并面积比最大的锚框分配给它；在跟踪分支，对于每个锚框，如果和某个基准框的交并面积比大于0.7，就将该锚框视分配给该基准框，否则将该锚框视为背景。