WO2020215492A1

WO2020215492A1 - 基于YOLOv3多伯努利视频多目标检测跟踪方法

Info

Publication number: WO2020215492A1
Application number: PCT/CN2019/094662
Authority: WO
Inventors: 杨金龙; 程小雪; 张光南; 刘建军; 张媛; 葛洪伟
Original assignee: 江南大学
Priority date: 2019-04-23
Filing date: 2019-07-04
Publication date: 2020-10-29
Also published as: CN110084831A; CN110084831B

Abstract

本发明公开了一种基于YOLOv3多伯努利视频多目标检测跟踪方法，属于机器视觉、智能信息处理领域。本发明在多伯努利滤波框架下引入YOLOv3检测技术，采用抗干扰的卷积特征描述目标，并交互融合检测结果和跟踪结果，实现对数目未知且时变的视频多目标状态进行精确估计；跟踪过程中，将匹配的检测框与目标轨迹及目标模板相结合，实时进行目标新生判断与遮挡目标重识别，同时考虑检测目标和估计目标的身份标记信息，实现对目标身份识别及航迹跟踪，可以有效提高对被遮挡目标的跟踪精度，减少轨迹碎片。实验表明，本发明具有良好的跟踪效果和鲁棒性，能广泛满足智能视频监控、人机交互、智能交通管制等***的实际设计需求。

Description

基于YOLOv3多伯努利视频多目标检测跟踪方法

技术领域

本发明涉及基于YOLOv3多伯努利视频多目标检测跟踪方法，属于机器视觉、智能信息处理领域。

背景技术

复杂环境下视频多目标跟踪应用领域中，除了存在光照变化、目标形变、目标被遮挡等问题，还存在目标数目未知、新生目标不确定、目标交叉或紧邻运动、目标消失及杂波干扰等复杂情况，一直是多目标跟踪领域中研究的难点和具有挑战性的问题。

针对视频多目标跟踪问题，早期主要采用基于数据关联的目标检测跟踪方法，先采用目标检测器对视频序列进行多目标检测，然后借助数据关联等技术完成对视频多目标跟踪。典型的数据关联如：多假设跟踪、联合概率数据关联、图分解、动态规划等，虽然这些方法在视频多目标跟踪中取得了一定的效果，但由于复杂的数据关联运算，一定程度上降低了算法的运算效率，此外，对数目未知且变化的多目标跟踪，存在目标数目及状态估计不准确的问题。

近年来，随机有限集(Random Finite Set，RFS)理论在对数目未知且变化的多目标跟踪中取得了一定优势，分别对目标状态和观测进行随机集建模，可避免复杂的数据关联运算。自Mahler教授提出概率假设密度(Probability hypothesis density，PHD)和多伯努利(MeMBer)滤波器之后，随机有限集理论在目标跟踪领域得到了广泛地应用。概括来说，基于随机有限集理论的多目标跟踪算法主要包含两大类：基于概率假设密度(PHD)/势概率假设密度(CPHD)的多目标跟踪算法和基于多伯努利(MeMBer)/势均衡多伯努利(CBMeMBer)的多目标跟踪算法。典型的闭合解有：粒子滤波PHD/CPHD、高斯混合PHD/CPHD、粒子滤波CBMeMBer和高斯混合CBMeMBer等。尤其是粒子多伯努利滤波(Particle Filter Multiple Bernoulli，PFMB)技术，借助多目标贝叶斯估计理论递推近似多目标状态集的后验概率密度，可提高对数目变化多目标的跟踪精度。但PFMB方法难以检测新生目标，且当多目标之间出现相互遮挡和干扰时，跟踪精度下降，甚至出现目标被漏估计的问题。

发明内容

为了解决目前存在的现有目标跟踪方法无法检测新生目标以及当多目标之间出现相互遮挡和干扰时，跟踪精度下降，甚至出现目标被漏估计的问题，本发明提供了一种基于YOLOv3多伯努利视频多目标检测跟踪方法，所述方法检测跟踪过程中，采用YOLOv3技术检测第k和k+1帧视频序列，记第k帧检测框个数为n，检测框状态集为

第k+1帧检测框个数为m，其检测框状态集为

其中，

表示第i个检测框状态向量，参数

分别表示第k帧第i个检测框左上角的横坐标、纵坐标，以及检测框的宽、高和标签；

将第k和k+1帧视频序列的检测框进行匹配；对于视频的初始帧，k＝0，将初始帧中已匹配的检测框作为初始的新生目标加入目标模板集和目标轨迹集中；对于视频的中间帧，k＞0，利用检测框、目标轨迹信息和目标模板信息实现新生目标判定、漏跟目标重识别和存活目标优化跟踪；其中，存活目标优化跟踪是在多伯努利滤波框架下，利用当前帧置信度大于给定置信度阈值T _b的检测框信息，优化对应目标的跟踪过程。

可选的，所述对于视频的初始帧，k＝0，将已匹配的检测框作为新生目标加入目标模板集和目标轨迹集中，包括：

采用抗干扰的卷积特征表示第k帧和第k+1帧的检测框，分别记为

和

表示第k帧中第i个检测框的卷积特征向量；计算检测框卷积特征对应的相似度矩阵Λ，即：

其中，

表示第k帧中第i个检测框与第k+1帧中第j个检测框的相似度；从相似度矩阵Λ的每一行选择值最大、且大于相似度阈值T _l的两个检测框作为匹配结果，将最终匹配的检测框对作为初始的新生目标加入目标模板集和目标轨迹集中。

可选的，将初始两帧的检测框进行匹配，并判定新生目标，将最终匹配的检测框对作为初始的新生目标加入目标模板集中，包括：

假定同一个目标在相邻两帧不会出现特别大的位移变化，在相似度匹配的基础上，加入目标框的交并比IOU作为限制：若两个检测框的交并比IOU大于交并比阈值T _u，则可判定两个检测框匹配；

从相似度矩阵Λ的每一行选择值最大、且大于相似度阈值T _l，同时交并比IOU大于交并比阈值T _u的两个检测框作为匹配结果，将最终匹配的检测框对作为初始的新生目标，分配标签

并加入目标轨迹集

中，其中，

为目标状态向量，各个分量分别表示第i个目标框左上角横坐标、纵坐标以及目标框的宽、高和标签，M _k为第k帧目标的个数，给已匹配的检测框对添加与初始的新生目标对应的目标标签，即

同时建立新生目标模板。

可选的，所述对于视频的中间帧，k＞0，利用检测框、目标轨迹信息和目标模板信息来实现新生目标判定、漏跟目标重识别和存活目标优化跟踪，包括：

对相邻的检测框进行匹配，确定新生目标与重识别目标的判定条件，再根据相邻帧的检测框、目标模板集和存活目标轨迹集来判定目标是否为新生目标、重识别目标或存活目标。

可选的，所述对相邻的检测框进行匹配，包括：

计算第k和k+1帧视频序列中检测框之间的相似度矩阵Λ，从相似度矩阵Λ的每一行选择值最大且大于相似度阈值T _l的两个检测框，且这两个检测框的交并比IOU大于交并比阈值T _u，则可判定两个检测框匹配，假设第k帧中的第i个检测框与第k+1帧中的第j个检测框匹配，则为第k+1帧中匹配目标的标签赋值，即：

表示第k帧中第i个检测框的标签，若

为空，则表示该检测框包含的目标在第k-1帧中未被检测到。

可选的，所述对于当前帧检测框目标，根据相邻帧的检测框、目标模板集和存活目标轨迹集来进行目标识别，包括：

(1)新生目标识别

若为

空，与第k+1帧第j个检测框匹配，且目标模板集中没有与之匹配的目标，则判定该目标为新生目标，分配标签

建立新生目标状态集:

其中

表示标签为l ⁱ的新生目标状态向量，M _Γ表示新生目标个数，n表示目标模板的个数；给已匹配的检测框对添加与新生目标对应相同的目标标签，即

同时将新生目标加入目标模板集，并根据新生参数初始化新生目标的采样粒子；

(2)漏跟目标重识别

若

为空，与第k+1帧第j个检测框匹配，在存活目标轨迹集中没有与之匹配的目标，但与目标模板中标签为l ^a的目标匹配，表示该检测框包含的目标在之前帧漏检，且出现漏跟情况，在第k帧，对该目标进行了重识别，将其重新加入到存活目标轨迹集中:

其中，

表示标签为l ⁱ的存活目标状态向量；给已匹配的检测框对添加与重识别目标对应相同的目标标签，即

(3)存活目标识别

若

不为空，则该检测框目标为存活目标，目标标签为

若

为空，但与存活目标轨迹集中标签为l ^b的目标匹配，也可判定该检测框目标为存活目标，为其进行标签赋值，即

(4)干扰杂波识别

若

为空，在第k+1帧中没有与之匹配的检测框，同时目标模板集中也不存在相匹配的目标，则判定该检测框为干扰杂波。

可选的，所述方法还包括：根据检测框置信度构造目标运动模型；

假设目标运动模型为随机游走模型，若当YOLOv3检测器检测到该目标，且检测框置信度

大于置信度阈值T _B时，采用检测框调整目标状态，即

其中，

为第k-1帧中标签为l ⁱ目标状态向量，

为第k帧中标签为l ⁱ目标的检测框，检测框置信度

表示检测框包含目标的概率和检测框与目标匹配程度的得分，e(k-1)表示零均值高斯白噪声，η为目标状态与对应检测框信息之间的学习率，检测框的置信度越高，η越大，表示越信任检测结果。

可选的，在k-1时刻，采用多伯努利参数集

表示多目标的后验概率分布，其中，M _k-1为k-1时刻存在目标的数目，

表示在k-1时刻目标l ⁱ的存在概率，

表示k-1时刻目标l ⁱ的概率分布，由一组加权粒子表示：

其中，

表示第k-1帧目标l ⁱ的第j个采样粒子的权值，

表示第k-1帧目标l ⁱ的第j个采样粒子的状态向量，

为目标l ⁱ的采样粒子个数，δ(·)为狄拉克函数；

多目标概率分布预仍为多伯努利参数集，表示为：

存活目标的多伯努利参数预测

可根据下式得到:

其中，

为状态转移函数，采用所述随机游走模型，通过下式计算得到：

其中，

新生目标多伯努利参数集

可由下式计算得到：

其中，M _Γ，k为第k帧新生目标数目。

可选的，假设第k-1帧多目标预测概率分布为:

通过粒子的量测似然更新多目标后验概率分布:

根据下式获得更新后的多伯努利参数集:

其中，

为目标l ⁱ对应模板的卷积特征

与粒子

的之间的量测似然，与相似度矩阵元素计算过程一致。

可选的，目标运动过程中，采用存活目标轨迹、目标模板和目标检测结果进行融合更新目标模板，即:

其中，

分别表示第k和k-1帧时目标l ⁱ对应的卷积特征模板，

为第k-1帧目标l ⁱ跟踪结果卷积特征的稀疏表示，

为第k帧目标l ⁱ检测框卷积特征的稀疏表示，ρ为模板的学习速率，

为第k帧目标l ⁱ对应检测框的置信度，

为检测框的学习率。

可选的，检测跟踪过程中，当相邻两个目标框的交并比IOU大于阈值T _u时，判定这两个目标出现遮挡情况；

此时，(1)当检测器能检测出这两个目标，表示目标轻度遮挡，对目标模板进行自适应更新；(2)当只有一个目标能被检测器检测出来时，可判定另一个目标为被遮挡目标，对被遮挡目标，停止模板更新，采用该目标前两帧的位移差，估计目标实时速度v与运动方向θ，对目标进行预测，目标框的大小保持不变；(3)当两个目标都无法通过检测器检测出来时，依据目标框与模板的相似度判断被遮挡目标，与第(2)种情况中采用同样的方式处理被遮挡的目标；若目标在跟踪过程中消失或者跟丢，在目标分离或者重新出现时，根据检测结果与目标模板的匹配对目标进行重识别。

本发明有益效果是：

通过引入YOLOv3技术对视频序列中的多目标进行检测，并将其作为新生目标，考虑到检测中存在目标过检测或漏检测、以及检测结果不精确的问题，采用抗干扰的卷积特征对目标细节进行深度描述，并借助自适应PFMB方法进行目标状态精确估计，本发明中尤其是将检测结果与跟踪结果进行交互融合，以提高多目标状态的估计精度。本发明还针对YOLOv3在对复杂环境的视频多目标检测，同样会存在检测错误和检测结果不准确的问题，本发明在PFMB滤波框架下融入YOLOv3检测方法，既解决了PFMB方法中未知新生目标的估计问题、目标身份的识别问题，同时将检测置信度和滤波似然进行融合建模，也可以有效提高对复杂环境下数目变化的视频多目标跟踪精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法的算法框架图。

图2是YOLOv3工作原理示意图。

图3是YOLOv3网络结构图。

图4是EnterExitCrossingPaths1cor序列实验结果。

图5是EnterExitCrossingPaths1cor序列实验目标数目估计对比图。

图6是EnterExitCrossingPaths1cor序列实验OSPA距离估计对比图。

图7是Jogging序列实验结果。

图8是Jogging序列实验目标数目估计对比图。

图9是Jogging列实验OSPA距离估计对比图。

图10是Subway序列实验结果。

图11是Subway序列实验目标数目估计对比图。

图12是Subway序列实验OSPA距离估计对比图。

图13是Human4序列实验结果。

图14是Human4序列实验目标数目估计对比图。

图15是Human4序列实验OSPA距离估计对比图。

图16是Suv序列实验结果。

图17是Suv序列实验目标数目估计对比图。

图18是Suv序列实验OSPA距离估计对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

首先对本申请涉及的相关内容进行介绍如下：

1、多伯努利滤波原理

在空间χ上，将多目标状态RFS表示为X＝{X ⁽¹⁾，…，X ^(M)}，X ⁽ⁱ⁾＝{(r ⁽ⁱ⁾，p ⁽ⁱ⁾)}为第i个目标分量，通过伯努利参数(r ⁽ⁱ⁾，p ⁽ⁱ⁾)来参数化目标后验概率分布，其中r ⁽ⁱ⁾和p ⁽ⁱ⁾分别表示第i个目标的存在概率和概率分布。MBF采用贝叶斯理论对多目标的后验概率分布进行迭代更新，以达到对多目标的状态估计。

假设第k-1帧多目标的后验概率分布为:

其中，M _k-1表示第k-1帧存活目标的个数。则预测的多目标概率分布可表示为:

由第k-1帧存活目标的多伯努利参数

和第k帧新生目标的多伯努利参数

构成，其中，

<f ₁(·)，f ₂(·)>表示标准内积∫f ₁(x)f ₂(x)dx，P _S，k为目标存活概率，f _k|k-1(x|·)为目标状态转移函数，M _Γ，k表示第k帧新生目标的数目。

若第k帧，预测的多目标概率分布为:

则更新后的多目标后验概率密度，可由漏检目标的多伯努利参数

和量测更新后的多伯努利参数

近似表示，即:

其中，

ψ _k，z＝g _k(z|x)p _D，k(x)

p _D，k(x)为目标检测概率，g _k(z|x)表示量测似然函数，Z _k、κ _k(z)分别表示量测集和杂波密度函数，第k帧目标数目估计为M _k＝M _k|k-1+|Z _k|。

2、YOLOv3目标检测

YOLOv3的工作原理如图2所示。

YOLOv3采用Darknet-53作为特征提取的网络，该网络结构如图3所示，由连续的3×3和1×1卷积层组成，融合残差网络(Residual Neural Network，ResNet)的残差块(Residual block)，将整个网络分为多个子段逐阶段训练，采用shortcut的连接方式对每个子段的残差进行训练，从而达到总体残差最小。

YOLOv3在三个不同尺度上预测边界框，每个尺度预测3个边界框，尺度内进行局部特征交互，在基础网络之后，添加一系列卷积层得到特征图(feature map)，在此基础上，进行位置回归与分类，此过程为最小尺度预测；将上一尺度中的卷积层上采样与最后一个16×16大小的特征图连接，再次通过多个卷积后输出预测信息；同理，将中间尺度的卷积层上采样与最后一个32×32大小的特征图连接，经过一系列卷积得到最大尺度上的边界框预测。

YOLOv3采用Faster R-CNN中锚框(anchor box)的思想，通过k-means聚类的方法生成9个边界框的先验，每个尺寸各预测3个边界框。YOLOv3将图像划分为G×G个网格，则每个尺度预测的张量为G×G×[3*(4+1+80)]，其中数字3表示3个预测边界框，数字4表示每个预测边界框包含4个偏移值(t _x，t _y，t _w，t _h)，(t _x，t _y，t _w，t _h)为预测边界框中心坐标偏移值和宽、高的偏移值，数字1表示边界框的置信度(confidence score)，数字80表示预测边界框属于80类物体条件类别概率P _r(Class _i/Object)。

边界框在训练时采用平方误差损失的总和。边界框的置信度由边界框包含目标的可能性P _r(object)和边界框的准确度

构成：

若边界框中不包含物体，P _r(object)的值为0，置信度为0，否则P _r(object)的值为1，置信度为预测框与真实框之间的交并比。条件类别概率P _r(Class _i/Object)表示在边界框包含目标的前提下，它属于某个类别的概率。YOLOv3联合条件类别概率和边框置信度，得出边界框类别置信度(class specific confidence scores，C)来表示边界框包含目标归类于每个类别的可能性和边界框与目标匹配的好坏，边框类别置信度可表示为：

实施例一：

本实施例提供一种基于YOLOv3多伯努利视频多目标检测跟踪方法，参见图1，所述方法包括：

步骤一：初始化

1.1参数初始化，初始时刻k＝0，视频总帧数为N，初始化采样粒子最大数目为L _max，粒子最小数目为L _min，初始目标存在概率P _s＝0.99。

1.2目标检测，

采用YOLOv3算法检测第k和k+1帧视频序列，记第k帧检测框个数为n，检测框状态集为

第k+1帧检测框个数为m，其检测框状态集为

其中，

表示第i个检测框状态向量，参数

分别表示第k帧第i个检测框左上角的横坐标、纵坐标，以及检测框的宽、高和标签。

1.3初始帧目标框匹配

k＝0时，采用抗干扰的卷积特征表示第k帧和第k+1帧的检测框，分别记为

和

其中，

由于视频各帧中目标连续变化，假定同一个目标在相邻两帧不会出现特别大的位移变化，因此，在相似似然匹配的基础上，加入目标框的交并比IOU作为限制：若两个检测框的交并比IOU大于交并比阈值T _u，则可判定两个检测框匹配。从相似度矩阵Λ的每一行选择值最大、且大于相似度阈值T _l，同时交并比IOU大于交并比阈值T _u的两个检测框作为匹配结果，将最终匹配的检测框对作为初始的新生目标，并分配标签

并加入目标轨迹集

中，其中，

同时建立新生目标模板。

步骤二：目标识别

当k＞0时，根据相邻帧的检测框、目标模板集和存在目标轨迹集来判定目标是否为新生目标、重识别目标或存在目标。

2.1检测框匹配

表示第k帧中第i个检测框的标签，若

为空，则表示该检测框包含的目标在第k-1帧中未被检测到。

2.2目标识别

(1)新生目标识别

若为

建立新生目标状态集:

其中

表示标签为l ⁱ的新生目标状态向量，M _Γ表示新生目标个数，n表示目标模板的个数。给已匹配的检测框对添加与新生目标对应相同的目标标签，即

同时将新生目标加入目标模板集，并根据新生参数初始化新生目标的采样粒子。

(2)漏跟目标重识别

若

为空，与第k+1帧第j个检测框匹配，在存活目标轨迹集中没有与之匹配的目标，但与目标模板集中标签为l ^a的目标匹配，表示该检测框包含的目标在之前帧漏检，且出现漏跟情况，在第k帧，对该目标进行了重识别，将其重新加入到存活目标轨迹中:

其中，

表示标签为l ⁱ的存活目标状态向量。给已匹配的检测框对添加与重识别目标对应相同的目标标签，即

(3)存活目标识别

若

不为空，则该检测框目标为存活目标，目标标签为

若

为空，但与存活目标轨迹中标签为l ^b的目标匹配，也可判定该检测框目标为存活目标，为其进行标签赋值，即

(4)干扰杂波识别

若

为空，在第k+1帧中没有与之匹配的检测框，同时目标模板中也不存在相匹配的目标，则判定该检测框为干扰杂波。

步骤三：目标预测

3.1目标运动模型

大于置信度阈值T _B时，采用检测框调整目标状态，即

其中，

为第k-1帧中标签为l ⁱ目标状态向量，

为第k帧中标签为l ⁱ目标的检测框，检测框置信度

表示检测框包含目标的概率和检测框与目标匹配程度的得分，e(k-1)表示零均值高斯白噪声，η为目标状态与对应检测框信息之间的学习率，检测框的置信度越高，η越大，表示越信任检测结果，利用好的检测框去调整目标状态，能消除长时间跟踪而导致的累加误差，可以较好地优化预测结果。

3.2目标预测

在k-1时刻，采用多伯努利参数集

表示在k-1时刻目标l ⁱ的存在概率，

表示k-1时刻目标l ⁱ的概率分布，由一组加权粒子表示：

其中，

表示第k-1帧目标l ⁱ的第j个采样粒子的权值，

表示第k-1帧目标l ⁱ的第j个采样粒子的状态向量，

为目标l ⁱ的采样粒子个数，δ(·)为狄拉克函数。

多目标概率分布预仍为多伯努利参数集，表示为：

存活目标的多伯努利参数预测

可根据下式得到:

其中，

为状态转移函数，采用上文提出的运动模型，可通过下式计算得到:

其中，

新生目标多伯努利参数集

可由下式计算得到：

其中，M _Γ，k为第k帧新生目标数目。

步骤四：相似度计算

4.1目标卷积特征提取

(1)构造卷积核

在目标框周围，以目标框大小的矩形框随机采样m个背景样本框，背景样本框与目标框中心位置的距离，要求在水平方向距离大于1/4目标框宽度或者在竖直方向距离大于1/4目标框高度，然后将目标框与背景样本框尺寸规范化为n×n，并灰度化图像，得到样本集{I，B ₁，B ₂，…，B _m}，其中I表示目标框图像，B _i为第i个背景样本图像。使用大小为w×w的滑动窗口，以步长Δ分别对样本集图像进行卷积操作，得到目标图像块集合y＝{Y ₁，Y ₂，…，Y _l}和背景图像块集合

其中，Y _i∈R ^w×w，Z _ij∈R ^w×w，l＝(n-w+Δ) ²，为保留梯度信息，弱化亮度影响,将所有图像块减去自身均值并二范数归一化处理，最终，使用k-means算法，从目标图像块集合中选出d个图像块作为目标卷积核：

从m个背景样本对应的背景图像块集合中，选出m×d个背景图像块

对这些图像块平均池化得到背景卷积核：

(2)提取卷积特征

利用提取的目标卷积核，在目标图像I上，以步长Δ进行卷积操作

提取目标特征图

其中，

同时采用(1)中所提取的背景卷积核，同样以步长Δ在图像I上卷积

得到相应的背景特征图

在目标特征图上进行背景信息减除：

提取弱化背景信息的特征图

将特征图按行展开并顺序拼接，得到最终的一维卷积特征f，其中，

4.2特征的稀疏表示

将特征图集看作三维的张量C∈R ^{(n-w+Δ)×(n-w+Δ)}，对张量进行稀疏化表示，凸显目标的特征，利用稀疏向量f去逼近vec(C)，使以下目标函数最小化：

其中，vec(C)是通过串联C中所有元素的列向量，

通过soft-shrinking方法求得稀疏表示的唯一解：

其中，λ是张量C的中位数。

4.3计算相似度

两个目标框的相似度计算公式为：

其中f ₁，f ₂为对应的目标框卷积特征，在计算粒子与目标的量测似然时，利用目标对应的目标特征图集和背景特征图集来计算粒子对应的卷积特征：

其中I _l为粒子表示的候选框的规范化之后的图像。将S _i按行展开，得到d个一维向量，顺序连接为最终粒子对应候选框的特征f _l。

步骤五：目标状态更新及提取

5.1目标状态更新

假设第k-1帧多目标预测概率分布为:

通过粒子的量测似然更新多目标后验概率分布:

根据下式获得更新后的多伯努利参数集:

其中，

为目标l ⁱ对应模板的卷积特征

与粒子

的之间的量测似然，与相似度矩阵元素计算过程一致。

5.2目标状态提取

为了防止粒子出现退化，本发明采用随机重采样方式对采样粒子集进行重采样，来避免粒子退化，剔除存在概率过小的伯努利分量。根据更新后的多目标后验概率分布，提取存在概率大于0.5的伯努利分量对应的目标状态.

步骤六：目标遮挡处理机制

当相邻两个目标框的交并比IOU大于阈值T _I时，可判定这两个目标出现紧邻，且部分遮挡，此时，检测器可能出现三种情况：1)当目标没有被完全遮挡时，检测器可能检测出两个目标，本发明方法中提出采用更新机制对目标进行跟踪和模板更新；2)只有一个目标能被检测器检测出来时，可判定另一个目标为被遮挡目标，提出对被遮挡目标，停止模板更新，采用该目标前两帧的位移差估计目标实时速度v与运动方向θ，对目标进行预测估计，目标框的大小保持不变；3)两个目标都无法通过检测器检测出来时，依据目标与模板的相似度判断被遮挡目标，与第二种情况中采用同样的方式处理被遮挡的目标。若目标在跟踪过程中消失或者跟丢，在目标分离或者重新出现时，可根据检测结果与目标模板的匹配对目标进行重识别。

步骤七：目标模板更新

目标运动过程中，周围环境及自身状态会不断发生变化，如背景变化、自身扭曲、旋转及尺度变化等，因此，需要对目标模板进行实时更新,综合考虑采用存活目标轨迹、目标模板和目标检测结果进行融合更新目标模板，即:

其中，

分别表示第k和k-1帧时目标l ⁱ对应的卷积特征模板，

为第k-1帧目标l ⁱ跟踪结果卷积特征的稀疏表示，

为第k帧目标l ⁱ对应检测框的置信度，

为检测框的学习率，采用较好的检测框去更新目标模板，可以有效去除跟踪过程中的累积误差。同时，在运动过程中，目标状态会发生不断变化，采用高准确率的检测框去更新模板，可有效地将目标最新状态加入到模板中，更好地适应目标后续跟踪。

为验证本申请提出的上述基于YOLOv3多伯努利视频多目标检测跟踪方法的效果，特实验如下：

1、实验条件及参数

本发明采用的视频序列数据为Visual Tracker Benchmark TB50中的序列Huamn4，Visual Tracker Benchmark TB100中的序列Jogging、Subway、Suv，以及CAVUAR数据集中的序列EnterExitCrossingPaths1cor，这5组典型视频序列分别来源于不同场景，且包含动态背景、目标紧邻、目标形变、图片模糊、目标尺寸变化、目标遮挡等干扰情况。实验中采用的评价指标为多目标跟踪正确度(Multiple Object Tracking Accuracy，MOTA)、多目标跟踪精度(Multiple Object Tracking Precision，MOTP)、轨迹完整目标数目(Mostly Tracked，MT)、标签跳变数(Identity Switch，IDs)，分别定义如下：

1)多目标跟踪正确度(MOTA)

其中，m _t为第t帧中被跟丢的目标数量，fp _t为第t帧误检的目标数，mme _t为第t帧中跟踪轨迹中目标标签发生跳变的数目，g _t表示第t帧中目标的实际个数。

2)多目标跟踪精度(MOTP)

其中，

为第t帧中第i个目标的跟踪框与目标真实框的重叠率。

3)轨迹完整目标数目(MT)，表示目标跟踪轨迹占真实轨迹长度80％以上的目标轨迹数目，刻画了轨迹的完整程度。

4)标签跳变数(IDs)，表示跟踪过程中目标标签发生变化的次数。

2、实验及结果分析

本申请方法采用Matlab2016a实现，在处理器为Intel Core i7-8700、3.2GHz，12核，内存为16GB，显卡为NVIDIA Geforce GTX 1080 Ti的工作站上运行，并与传统的粒子多伯努利滤波(PFMB)方法和2017年Erik Bochinski等在发表论文《High-Speed Tracking-by-Detection Without Using Image Informations》中提出的IOU-Tracker方法进行性能比较与分析。由于传统PFMB方法中，缺少对新生目标检测机制，本实验中也采用YOLOv3进行检测，并将判定为新生目标的检测结果作为PFMB的新生目标，然后进行跟踪。

具体实验从四个方面对发明方法进行性能评估，即：目标重识别、目标紧邻与遮挡、图像模糊与目标形变、目标大位移等，实验结果如下。

实验一：目标重识别

本实验采用的视频序列为CAVUAR数据集中EnterExitCrossingPaths1cor序列，该序列包含383帧图像，存在目标紧邻和较长时间的目标遮挡问题，同时伴随目标逐渐出现导致形变较大的情况。由于较长时间遮挡，很容易导致目标跟丢，本发明融合检测器结果、存在目标轨迹和目标模板能够实现对目标的重识别，将目标重新加入到跟踪轨迹中。

图4给出了EnterExitCrossingPaths1cor序列实验结果，其中，图4(a)为YOLOv3算法检测结果，图4(b)为传统PFMB方法跟踪结果，图4(c)为IOU-Tracker方法跟踪结果，图4(d)为本发明方法的跟踪结果。可以看出，当目标被遮挡时，检测器可能无法检测出被遮挡目标，大幅度降低检测效果，如图4(a)中第93帧，采用传统的PFMB方法，存在遮挡时，目标被跟丢；由于IOU-Tracker完全抛弃使用图像信息，只利用目标检测结果进行跟踪处理，所以该方法也无法继续跟踪漏检目标，当目标再次被检测到时，将会被定义为新目标，难以与历史目标关联；而本发明方法，对于较长时间被遮挡的目标，由于存在概率逐渐降低导致目标消失，但当目标再次出现时，能有效地进行重识别，重新加入到目标跟踪轨迹中。

图5为EnterExitCrossingPaths1cor序列实验目标数目估计对比图，图6为EnterExitCrossingPaths1cor序列实验OSPA距离估计对比图，可以看出，传统的PFMB方法缺少目标遮挡处理机制，在目标被被遮挡后，容易出现误跟和漏跟情况，导致跟踪框偏离较大，OSPA值上升；IOU-Tracker方法受检测器性能影响，目标被遮挡过程中，目标数目减少，OSPA值急剧上升，本发明方法处理长时间被遮挡目标时，也可能出现目标漏跟的情况，当目标脱离遮挡后，能有效地对漏跟目标进行重识别，整体跟踪性能优于传统PFMB方法和IOU-Tracker方法。尤其从表1所示的MOTA、MOTP、MT、IDs四个评价指标可以看出。

表1为50次蒙特卡洛仿真结果，可以看出，传统PFMB方法的指标MOTA、MOTP、MT的值最低，IDs为1，是因为该方法缺少目标重识别过程，导致目标被跟丢后，再重新出现时将无法与之前的轨迹关联上，从而会出现标签跳变情况。IOU-Tracker方法在目标紧邻或遮挡时，目标标签将会出现频繁跳变，导致IDs的值最高。而本发明方法能有效地对目标进行重识别，减少目标标签跳变的问题，有效减少轨迹碎片。

表1目标重识别跟踪性能评价(表中↑表示值越大越好，↓表示值越小越好)

实验二：目标紧邻与遮挡

采用视频序列为Visual Tracker Benchmark TB100数据集中的Jogging序列、Subway序列。Jogging序列为相机移动的路口场景，包含3个运动目标，存在目标被遮挡的情况。Subway序列包含8个目标，存在多个目标紧邻和频繁被遮挡等问题。

Jogging序列的实验结果如图7所示，其中，图7(a)为YOLOv3算法检测结果，图7(b)为传统PFMB方法跟踪结果，图7(c)为IOU-Tracker方法跟踪结果，图7(d)为本发明方法的跟踪结果。可以看出，YOLOv3检测器难以正确检测出被遮挡目标，IOU-Tracker方法丢失漏检目标，当目标脱离遮挡状态时，IOU-Tracker方法将重新检测到的目标定义为新的目标，传统的PFMB方法即使没有丢失目标，但是跟踪框的偏离程度却增大，而本发明的方法能很好地融合目标的检测结果和跟踪结果，实现对跟踪框进行调整，可以获得比较准确的跟踪结果。

图8给出了Jogging序列实验目标数目变化估计对比图，其中传统PFMB方法与本发明方法的目标数目变化一致，图9给出了Jogging序列实验OSPA距离估计对比图，可以看出，YOLOv3检测器存在漏检，导致IOU-Tracker方法目标数目估计不准确，出现漏估计减少，OSPA值急剧上升较大，精度不高；传统PFMB方法在目标被遮挡后，跟踪框的偏离程度增加，导致OSPA值上升增大，而本发明方法具有较好抗遮挡能力，跟踪性能明显优于传统PFMB方法与和IOU-Tracker方法。

Subway序列的实验结果如图10所示，其中，图10(a)为YOLO v3算法检测结果，图10(b)为传统PFMB方法跟踪结果，图10(c)为IOU-Tracker方法跟踪结果，图10(d)为本发明方法的跟踪结果。可以看出，当多个目标邻近或相互遮挡的时候，检测器难以检测到被遮挡目标或者检测结果偏差较大，导致IOU-Tracker方法频繁丢失目标，传统的PFMB方法处理遮挡、紧邻问题时，也会出现较大的偏差，甚至跟丢，如图10(b)中第17、19帧，而本发明方法能够较好地对被遮挡目标进行跟踪。

图11给出Subway序列目标数目估计对比图，图12给出了Subway序列OSPA距离估计对比图。可以看出，由于YOLOv3检测器难以检测到部分出现和被遮挡目标，所以IOU-Tracker方法目标数目变化大，OSPA值较高，传统的PFMB方法在跟踪过程中丢失目标，OSPA值突增，而本发明方法能够较好地处理目标遮挡问题，具有较高的跟踪精度。

进行50次蒙特卡洛仿真，Jogging序列跟踪的量化统计结果如表2.1所示。可以看出，虽然传统PFMB方法与本发明方法的多目标跟踪正确度MOTA相当，但遮挡恢复后，传统PFMB方法的跟踪框会出现偏差，导致跟踪误差偏大，所以MOTP值比本发明方法要小。此外，由于检测器对被遮挡目标检测效果差，且该序列中两个目标一直处于紧邻状态，所以IOU-Tracker方法在对存在紧邻的序列Jogging上跟踪精度较低，且目标标签出现频繁跳变。

Subway序列的定量分析结果如表2.2所示，该序列中，多个目标也长期处于互相遮挡、紧邻状态，本发明方法在MOTA、MOTP、MT、IDs上都明显要优于传统PFMB方法与IOU-Tracker方法。

表2.1 Jogging序列目标紧邻与遮挡

表2.2 Subway序列目标紧邻与遮挡

实验三：图像模糊与目标形变

采用视频序列Visual Tracker Benchmark TB50数据集中的Human4序列，该序列共包含667帧图像，为相机移动红绿灯路口场景，其中，包括三种类型17个目标，视频中存在由于相机运动或目标快速运动等造成的目标模糊情况，且存在许多目标频繁发生形变问题。

图13为Human4序列实验结果，其中，图13(a)为YOLO v3算法检测结果，(b)为传统PFMB方法跟踪结果，(c)为IOU-Tracker方法跟踪结果，(d)为本发明方法的跟踪结果。可以看出，图片模糊可能导致检测器性能下降，部分目标被漏检，如图13(a)中第50帧、第74帧。目标形变对检测器的性能影响较小，虽然，传统PFMB方法能跟上目标，但部分目标的跟踪框会出现偏离，而本发明方法能够较好地处理这两种情况，具有较高的跟踪精度。

图13给出Human4序列目标数目估计对比图，图14给出了Human4序列OSPA距离估计对比图。可以看出，本发明方法能较好的处理图像模糊与目标形变问题，跟踪性能优于传统的PFMB方法和IOU-Tracker方法。

进行50次蒙特卡洛仿真，定量分析结果如表3所示。可以看出，由于频繁的目标形变、图像模糊而导致传统PFMB方法中出现目标漏跟或仅跟踪到目标的部分区域，导致MOTA、MOTP、MT的值都比较低；IOU-Tracker方法能较好地利用检测器的检测结果，所以，MOTP值与本发明方法相当，而目标尺寸变化和图像模糊导致检测器性能下降，存在部分目标被漏检，使得MOTA值偏小，IDs值最大，即存在大量目标标签跳变，航迹估计不准确。本发明方法能较好地对检测框进行关联，有效减少目标标签的跳变，在IDs上明显优于IOU-Tracker。

表3目标模糊与形变跟踪性能评价

实验四：目标大位移

实验中采用视频序列Visual Tracker Benchmark TB100数据集中的Suv序列，该序列共包含400帧图像，为相机移动动态背景的公路场景，包含6个目标，存在快速运动导致的大位移情况。

图16给出了Suv序列实验结果，其中，图16(a)为YOLO v3算法检测结果，图16(b)为传统PFMB方法跟踪结果，图16(c)为IOU-Tracker方法跟踪结果，图16(d)为本发明方法的跟踪结果。可以看出，目标的大位移对检测器没有影响，IOU-Tracker方法表现良好，而传统PFMB方法会出现目标跟丢的情况，本发明方法由于利用检测器的结果去调整跟踪过程，对于较大位移的目标跟踪结果也明显要优于另外两种方法。

图17为Suv序列目标数目估计对比图，图18为Suv序列OSPA距离估计对比图。可以看出，传统的PFMB方法由于缺少对目标大位移的处理机制，所以，当目标位移较大时，可能出现目标丢失或跟踪框偏离较大的情况，导致OSPA值较大，而IOU-Tracker方法与本发明方法能利用检测器结果提高对目标大位移的处理能力，具有较好的跟踪精度。

进行50次蒙特卡洛仿真，定量分析结果如表4所示。对大位移目标进行跟踪，传统的PFMB方法容易出现漏跟、位置偏移过大的情况因此，四个评价指标结果都比较差；由于视频序列也还存在目标遮挡和紧邻等情况，导致IOU-Tracker方法跟踪结果中，目标标签也出现频繁的跳变情况，所以MOTA值偏低，IDs值偏高。而本发明方法能融合检测结果有效地处理目标大位移情况，在各项指标上都明显优于传统PFMB方法，在MOTA，MT，IDs上也明显优于IOU-Tracker方法。

表4目标大位移跟踪性能评价

通过上述实验可知，本申请提供的基于YOLOv3多伯努利视频多目标检测跟踪方法，通过将检测结果与跟踪结果进行交互融合，在目标重识别过程中，对于较长时间被遮挡的目标，当其再次出现时，能有效地进行重识别；而对于存在多个目标紧邻和频繁被遮挡情况时，本申请提出的方法能够融合目标的检测结果和跟踪结果，实现对跟踪框进行调整，获得比较准确的跟踪结果；而对于存在图像模糊与目标形变情况时，本申请提出的方法能够较好地对检测框进行关联，有效减少目标标签的跳变；而对于存在目标大位移情况时，本申请提出的方法能够利用检测器的结果去调整跟踪过程，从而防止出现目标跟丢的情况发生。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种多目标检测跟踪方法，其特征在于，所述方法检测跟踪过程中，采用YOLOv3技术检测第k和k+1帧视频序列，记第k帧检测框个数为n，检测框状态集为
第k+1帧检测框个数为m，其检测框状态集为
其中，
表示第i个检测框状态向量，参数
分别表示第k帧第i个检测框左上角的横坐标、纵坐标，以及检测框的宽、高和标签；

将第k和k+1帧视频序列的检测框进行匹配；对于视频的初始帧，k＝0，将初始帧中已匹配的检测框作为初始的新生目标加入目标模板集和目标轨迹集中；对于视频的中间帧，k＞0，利用检测框、目标轨迹信息和目标模板信息实现新生目标判定、漏跟目标重识别和存活目标优化跟踪；其中，存活目标优化跟踪是在多伯努利滤波框架下，利用当前帧置信度大于给定置信度阈值T _b的检测框信息，优化对应目标的跟踪过程。
根据权利要求1所述的方法，其特征在于，所述对于视频的初始帧，k＝0，将已匹配的检测框作为新生目标加入目标模板集和目标轨迹集中，包括：

采用抗干扰的卷积特征表示第k帧和第k+1帧的检测框，分别记为
和

表示第k帧中第i个检测框的卷积特征向量；计算检测框卷积特征对应的相似度矩阵Λ，即：

其中，
表示第k帧中第i个检测框与第k+1帧中第j个检测框的相似度；从相似度矩阵Λ的每一行选择值最大、且大于相似度阈值T _l的两个检测框作为匹配结果，将最终匹配的检测框对作为初始的新生目标加入目标模板集和目标轨迹集中。
根据权利要求2所述的方法，其特征在于，将初始两帧的检测框进行匹配，并判定新生目标，将最终匹配的检测框对作为初始的新生目标加入目标模板集中，包括：

假定同一个目标在相邻两帧不会出现特别大的位移变化，在相似度匹配的基础上，加入目标框的交并比IOU作为限制：若两个检测框的交并比IOU大于交并比阈值T _u，则可判定两个检测框匹配；

从相似度矩阵Λ的每一行选择值最大、且大于相似度阈值T _l，同时交并比IOU大于交并比阈值T _u的两个检测框作为匹配结果，将最终匹配的检测框对作为初始的新生目标，分配标签
并加入目标轨迹集
中，其中，
为目标状态向量，各个分量分别表示第i个目标框左上角横坐标、纵坐标以及目标框的宽、高和标签，M _k为第k帧目标的个数，给已匹配的检测框对添加与初始的新生目标对应的目标标签，即
同时建立新生目标模板。
根据权利要求3所述的方法，其特征在于，所述对于视频的中间帧，k＞0，利用检测框、目标轨迹信息和目标模板信息来实现新生目标判定、漏跟目标重识别和存活目标优化跟踪，包括：

对相邻的检测框进行匹配，确定新生目标与重识别目标的判定条件，再根据相邻帧的检测框、目标模板集和存活目标轨迹集来判定目标是否为新生目标、重识别目标或存活目标。
根据权利要求4所述的方法，其特征在于，所述对相邻的检测框进行匹配，包括：

计算第k和k+1帧视频序列中检测框之间的相似度矩阵Λ，从相似度矩阵Λ的每一行选择值最大且大于相似度阈值T _l的两个检测框，且这两个检测框的交并比IOU大于交并比阈值T _u，则可判定两个检测框匹配，假设第k帧中的第i个检测框与第k+1帧中的第j个检测框匹配，则为第k+1帧中匹配目标的标签赋值，即：

表示第k帧中第i个检测框的标签，若
为空，则表示该检测框包含的目标在第k-1帧中未被检测到。
根据权利要求5所述的方法，其特征在于，所述对于当前帧检测框目标，根据相邻帧的检测框、目标模板集和存活目标轨迹集来进行目标识别，包括：

(1)新生目标识别

若为
空，与第k+1帧第j个检测框匹配，且目标模板集中没有与之匹配的目标，则判定该目标为新生目标，分配标签
建立新生目标状态集:

其中
表示标签为l ⁱ的新生目标状态向量，M _Γ表示新生目标个数，n表示目标模板的个数；给已匹配的检测框对添加与新生目标对应相同的目标标签，即
同时将新生目标加入目标模板集，并根据新生参数初始化新生目标的采样粒子；

(2)漏跟目标重识别

若
为空，与第k+1帧第j个检测框匹配，在存活目标轨迹集中没有与之匹配的目标，但与目标模板集中标签为l ^a的目标匹配，表示该检测框包含的目标在之前帧漏检，且出现漏跟情况，在第k帧，对该目标进行了重识别，将其重新加入到存活目标轨迹集中:

其中，
表示标签为l ⁱ的存活目标状态向量；给已匹配的检测框对添加与重识别目标对应相同的目标标签，即

(3)存活目标识别

若
不为空，则该检测框目标为存活目标，目标标签为
若
为空，但与存活目标轨迹集中标签为l ^b的目标匹配，也可判定该检测框目标为存活目标，为其进行标签赋值，即

(4)干扰杂波识别

若
为空，在第k+1帧中没有与之匹配的检测框，同时目标模板集中也不存在相匹配的目标，则判定该检测框为干扰杂波。
根据权利要求6所述的方法，其特征在于，所述方法还包括：根据检测框置信度构造目标运动模型；

假设目标运动模型为随机游走模型，若当YOLOv3检测器检测到该目标，且检测框置信度
大于置信度阈值T _B时，采用检测框调整目标状态，即

其中，
为第k-1帧中标签为l ⁱ目标状态向量，
为第k帧中标签为l ⁱ目标的检测框，检测框置信度
表示检测框包含目标的概率和检测框与目标匹配程度的得分，e(k-1)表示零均值高斯白噪声，η为目标状态与对应检测框信息之间的学习率，检测框的置信度越高，η越大，表示越信任检测结果。
根据权利要求7所述的方法，其特征在于，在k-1时刻，采用多伯努利参数集

表示多目标的后验概率分布，其中，M _k-1为k-1时刻存在目标的数目，
表示在k-1时刻目标l ⁱ的存在概率，
表示k-1时刻目标l ⁱ的概率分布，由一组加权粒子表示：

其中，
表示第k-1帧目标l ⁱ的第j个采样粒子的权值，
表示第k-1帧目标l ⁱ的第j个采样粒子的状态向量，
为目标l ⁱ的采样粒子个数，δ(·)为狄拉克函数；

多目标概率分布预仍为多伯努利参数集，表示为：

存活目标的多伯努利参数预测
可根据下式得到:

其中，

为状态转移函数，采用所述随机游走模型，通过下式计算得到：

其中，

新生目标多伯努利参数集
可由下式计算得到：

其中，M _Γ，k为第k帧新生目标数目。
根据权利要求8所述的方法，其特征在于，假设第k-1帧多目标预测概率分布为:

通过粒子的量测似然更新多目标后验概率分布:

根据下式获得更新后的多伯努利参数集:

其中，
为目标l ⁱ对应模板的卷积特征
与粒子
的之间的量测似然，与相似度矩阵元素计算过程一致。
根据权利要求9所述的方法，其特征在于，目标运动过程中，采用存活目标轨迹、目标模板和目标检测结果进行融合更新目标模板，即:

其中，
分别表示第k和k-1帧时目标
对应的卷积特征模板，
为第k-1帧目标l ⁱ跟踪结果卷积特征的稀疏表示，
为第k帧目标l ⁱ检测框卷积特征的稀疏表示，ρ为模板的学习速率，
为第k帧目标l ⁱ对应检测框的置信度，
为检测框的学习率。
根据权利要求10所述的方法，其特征在于，检测跟踪过程中，当相邻两个目标框的交并比IOU大于阈值T _u时，判定这两个目标出现遮挡情况；

此时，(1)当检测器能检测出这两个目标，表示目标轻度遮挡，对目标模板进行自适应更新；

(2)当只有一个目标能被检测器检测出来时，可判定另一个目标为被遮挡目标，对被遮挡目标，停止模板更新，采用该目标前两帧的位移差，估计目标实时速度v与运动方向θ，对目标进行预测，目标框的大小保持不变；

(3)当两个目标都无法通过检测器检测出来时，依据目标框与模板的相似度判断被遮挡目标，与第(2)种情况中采用同样的方式处理被遮挡的目标；若目标在跟踪过程中消失或者跟丢，在目标分离或者重新出现时，根据检测结果与目标模板的匹配对目标进行重识别。