CN117853759A - 一种多目标跟踪方法、***、设备和存储介质 - Google Patents
一种多目标跟踪方法、***、设备和存储介质 Download PDFInfo
- Publication number
- CN117853759A CN117853759A CN202410262998.6A CN202410262998A CN117853759A CN 117853759 A CN117853759 A CN 117853759A CN 202410262998 A CN202410262998 A CN 202410262998A CN 117853759 A CN117853759 A CN 117853759A
- Authority
- CN
- China
- Prior art keywords
- features
- target
- frame
- image data
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000004931 aggregating effect Effects 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 31
- 230000000007 visual effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于图像处理技术领域,具体涉及一种多目标跟踪方法、***、设备和存储介质,通过对视频中的图像数据进行边界框处理,进而对提取的外观特征和边界框特征分别进行检测关联,并经Top‑K分数筛选得到初步跟踪轨迹,结合构建的图,进行轨迹的更新,得到多目标跟踪轨迹,提高了对多目标跟踪的准确性;还通过对当前帧的相邻过去帧、相邻未来帧图像数据的特征进行感知,并分别聚合,能够获得更多的上下文信息,提高了对目标轨迹连续性的捕捉能力。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种多目标跟踪方法、***、设备和存储介质。
背景技术
近年来,根据拍摄的图像,进行图像特征分析来实现目标跟踪,被广泛应用在多目标跟踪技术中。基于检测的跟踪已经成为多目标跟踪(MOT)任务中的主要范式,即在给定检测结果的情况下,将跟踪视为一种关联问题。这种跟踪-检测框架允许将多种目标线索结合到跟踪方案中。这些线索包括以下几个方面:首先,利用目标轨迹在时间域内的平滑性,这是由于摄像头高帧率和目标慢速移动所决定的。其次,考虑每个检测到的目标的外观特征,因为来自同一目标的外观特征应该是相似的,而来自不同目标的特征通常是不同的。最后,考虑不同目标之间的交互线索,包括相邻目标之间的关系。
目前,基于图的多目标跟踪的研究大致可以分为两方面:一方面侧重于成本的改进。该类方法将重点放在利用深度学习技术来改进边缘成本上。通过利用孪生卷积神经网络(CNN)来编码目标之间可靠的成对交互作用来实现,但该方法没有考虑实际场景中的物体移动关键特征,产生关联错误的问题。另一方面则侧重于图的构建。许多研究致力于建立复杂的图优化框架,其通过结合多个信息源来编码检测彼此之间的高阶依赖关系。但是,以上这些方法都不能改善复杂真实场景中存在的目标遮挡和拥挤情况,导致目标轨迹的丢失,影响了多目标跟踪的准确性。
发明内容
本发明提供一种多目标跟踪方法、***、设备和存储介质。
本发明的技术方案如下:
本发明提供了一种多目标跟踪方法,包括以下步骤:
S1:获取视频中相邻若干帧下的图像数据,并对相邻若干帧下的图像数据中的目标作边界框处理;
S2:将作边界框处理后的相邻若干帧下的图像数据经卷积后提取外观特征和边界框特征,相邻若干帧中提取的外观特征和边界框特征分别进行检测关联,得到若干条轨迹,基于提取的外观特征和边界框特征,所述若干条轨迹经Top-K分数筛选后,得到初步跟踪轨迹;
S3:基于初步跟踪轨迹,以边界框特征为运动特征,外观特征为视觉特征,进行图的构建,其中,运动特征作为构建的图的边的特征,视觉特征作为构建的图的节点的特征,若两个节点满足下列全部条件:
(1)两个节点的中心坐标之间的距离小于预设距离;
(2)两个节点的特征之间的余弦相似度大于余弦相似度阈值;
(3)两个节点的交并比大于交并比阈值;
则将两个节点通过边进行连接,得到更新的轨迹;
S4:基于更新的轨迹进行图的更新,将当前帧的相邻过去帧、相邻未来帧中产生连接的节点的特征和边的特征分别聚合后,嵌入至当前帧的节点的特征和边的特征,作为当前帧更新的节点的特征和边的特征,当前帧数加一后,执行S1,直至将视频中的帧全部处理完成,得到多目标跟踪轨迹。
本发明所述S2中进行检测关联之前,还包括对当前帧图像数据中的边界框特征进行优化处理,具体为,
分别获取当前帧的相邻过去帧、当前帧图像数据中的边界框特征的四个顶点,过相应的四个顶点分别引四条极线,根据成本函数,得到当前帧的相邻未来帧图像数据中边界框特征的四个顶点,所述相邻未来帧图像数据中边界框特征的四个顶点,与四条极线分别相交,得到相邻未来帧图像数据中的预测边界框特征,若所述相邻未来帧图像数据中的预测边界框特征,与相邻未来帧图像数据中提取的边界框特征的交并比大于交并比阈值,则根据所述相邻未来帧图像数据中的预测边界框特征,在当前帧和相邻未来帧图像数据中匹配特征点,对所述当前帧图像数据中的边界框特征进行优化,得到优化的当前帧图像数据中的边界框特征,用于进行检测关联。
本发明所述S2中的检测关联,具体为,
基于提取的外观特征和边界框特征,若相邻帧中提取的外观特征的相似度大于外观特征相似度阈值,且相邻帧中提取的边界框特征的交并比大于交并比阈值,则将相邻帧中提取的外观特征与边界框特征分别进行关联。
本发明所述S4中的得到多目标跟踪轨迹,还包括对多目标跟踪轨迹进行边缘分类,预测边缘得分,具体为,
基于多目标跟踪轨迹中边的特征,利用边缘得分矩阵的匈牙利算法,计算相邻过去帧、相邻未来帧图像数据中的目标为同一目标的概率,若大于预设概率阈值,则保留当前帧中的多目标跟踪轨迹。
本发明所述S4中得到多目标跟踪轨迹之前,还包括采用单目标跟踪方法对当前帧图像数据中被错过的目标进行检测。
本发明所述S4中得到多目标跟踪轨迹之前,还包括对连续帧图像数据中被错过的目标进行处理,具体为,
基于提取的外观特征和边界框特征,计算被错过的目标与多目标跟踪轨迹中的每个目标的代价,若被错过的目标与多目标跟踪轨迹中的某个目标的代价小于预设代价阈值,则将被错过的目标与多目标跟踪轨迹中的某个目标进行匹配,且约束一条多目标跟踪轨迹最多与一个被错过的目标相关联,且一个被错过的目标最多与一条多目标跟踪轨迹相关联。
本发明所述S1中的边界框处理,包括确定边界框的高度、边界框的宽度、边界框的中心、帧索引。
本发明还提供一种多目标跟踪***,包括:
图像预处理模块:用于获取视频中相邻若干帧下的图像数据,并对相邻若干帧下的图像数据中的目标作边界框处理;
初步跟踪轨迹生成模块:用于将作边界框处理后的相邻若干帧下的图像数据经卷积后提取外观特征和边界框特征,相邻若干帧中提取的外观特征和边界框特征分别进行检测关联,得到若干条轨迹,基于提取的外观特征和边界框特征,所述若干条轨迹经Top-K分数筛选后,得到初步跟踪轨迹;
图的构建模块:基于初步跟踪轨迹,以边界框特征为运动特征,外观特征为视觉特征,进行图的构建,其中,运动特征作为构建的图的边的特征,视觉特征作为构建的图的节点的特征,若两个节点满足下列全部条件:
(1)两个节点的中心坐标之间的距离小于预设距离;
(2)两个节点的特征之间的余弦相似度大于余弦相似度阈值;
(3)两个节点的交并比大于交并比阈值;
则将两个节点通过边进行连接,得到更新的轨迹;
多目标跟踪轨迹生成模块:基于更新的轨迹进行图的更新,将当前帧的相邻过去帧、相邻未来帧中产生连接的节点的特征和边的特征分别聚合后,嵌入至当前帧的节点的特征和边的特征,作为当前帧更新的节点的特征和边的特征,当前帧数加一后,进入图像预处理模块,直至将视频中的帧全部处理完成,得到多目标跟踪轨迹。
本发明还提供一种多目标跟踪设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现所述的多目标跟踪方法。
本发明还提供一种多目标跟踪存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现所述的多目标跟踪方法。
有益效果:本发明通过对视频中的图像数据进行边界框处理,进而对提取的外观特征和边界框特征分别进行检测关联,并经Top-K分数筛选得到初步跟踪轨迹,结合构建的图,进行轨迹的更新,得到多目标跟踪轨迹,提高了对多目标跟踪的准确性;
本发明通过引入极线以获得当前帧目标边界框的优化位置,在轨迹生成中能够考虑目标的外观特征和边界框特征,从而提高在复杂场景中对目标关联的准确性,并通过对相邻帧的关联,降低相机运动的影响,提高了整体关联准确性;
本发明通过对当前帧的相邻过去帧、相邻未来帧的节点的特征和边的特征的嵌入信息进行感知,并分别聚合,能够获得更多的上下文信息,有助于保持目标轨迹的连贯性,尤其是在存在遮挡、相机移动等复杂场景中,解决了在实际场景中由于遮挡或相机移动导致的目标轨迹丢失等问题,提高了对目标轨迹连续性的捕捉能力。
附图说明
图1为本申请的多目标跟踪方法的流程示意图,
图2为本申请基于极线进行相邻未来帧图像数据中的预测边界框特征的检测示意图,其中(a)为第t帧检测到的第一个目标,(b)为第t+1帧检测到的目标,(c)为基于极线,第t+1帧的目标预测边界框与四条极线相交的结果,(d)为基于极线得到目标最优的预测边界框,
图3为在构建的图中,不同方式下,消息传递过程中的节点更新示意图,其中(a)为消息传递过程中的节点更新的初始设置,(b)为现有的技术节点更新,(c)为本申请的节点更新。
具体实施方式
以下实施例旨在说明本发明,而不是对本发明的进一步限定。
本发明提供了一种多目标跟踪方法,如图1所示,包括以下步骤:
S1:获取视频中相邻若干帧下的图像数据,并对相邻若干帧下的图像数据中的目标作边界框处理;
S2:将作边界框处理后的相邻若干帧下的图像数据经卷积后提取外观特征和边界框特征,相邻若干帧中提取的外观特征和边界框特征分别进行检测关联,得到若干条轨迹,基于提取的外观特征和边界框特征,所述若干条轨迹经Top-K分数筛选后,得到初步跟踪轨迹;
S3:基于初步跟踪轨迹,以边界框特征为运动特征,外观特征为视觉特征,进行图的构建,其中,运动特征作为构建的图的边的特征,视觉特征作为构建的图的节点的特征,若两个节点满足下列全部条件:
(1)两个节点的中心坐标之间的距离小于预设距离;
(2)两个节点的特征之间的余弦相似度大于余弦相似度阈值;
(3)两个节点的交并比大于交并比阈值;
则将两个节点通过边进行连接,得到更新的轨迹;
S4:基于更新的轨迹进行图的更新,将当前帧的相邻过去帧、相邻未来帧中产生连接的节点的特征和边的特征分别聚合后,嵌入至当前帧的节点的特征和边的特征,作为当前帧更新的节点的特征和边的特征,当前帧数加一后,执行S1,直至将视频中的帧全部处理完成,得到多目标跟踪轨迹。
本发明通过对视频中的图像数据进行边界框处理,进而对提取的外观特征和边界框特征分别进行检测关联,并经Top-K分数筛选得到初步跟踪轨迹,结合构建的图,进行轨迹的更新,得到多目标跟踪轨迹,提高了对多目标跟踪的准确性。
S1:获取视频中相邻若干帧下的图像数据,并对相邻若干帧下的图像数据中的目标作边界框处理。
为了进一步实现目标位置的准确跟踪,所述S1中的边界框处理,包括确定边界框的高度ht、边界框的宽度wt、边界框的中心(xt,yt)、帧索引t。
本申请采用边界框来实现对图像数据中目标位置的初步定位,轨迹则是由一系列不同帧的边界框连接而成,使用第t帧生成轨迹上的一个边界框来表示一个目标,并用表示在第t帧图像数据之前出现的目标的集合。然后将集合W中的每个元素w∈W代表目标在不同帧中的轨迹,即同一目标在一段时间内的不同帧下连续检测的集合。此外,采用Dt表示需检测的目标的集合。
S2:将作边界框处理后的相邻若干帧下的图像数据经卷积后提取外观特征和边界框特征,相邻若干帧中提取的外观特征和边界框特征分别进行检测关联,得到若干条轨迹,基于提取的外观特征和边界框特征,所述若干条轨迹经Top-K分数筛选后,得到初步跟踪轨迹。
本申请同时提取了每个目标在第t帧图像数据中的外观特征和边界框特征,且基于外观特征定义了检测分数Dscore。也就是说,在每个目标的完整轨迹中,包含具有维度为dob的外观特征和边界框特征的目标。
所述外观特征,指用于描述目标外观的特征,通常包括目标的颜色、纹理、形状等信息。
所述边界框特征,指每个检测结果的边界框参数,其中包括高度和宽度。
所述检测分数,可以被认为是目标外观特征的度量,表示目标在图像中的显著性或置信度。
另外,需要注意的是,由于不可靠的检测结果,一个目标的完整轨迹可能会被分成多个轨迹片段。
除此之外,进行检测关联之前,还包括对当前帧图像数据中的边界框特征进行优化处理。考虑到摄像机快速移动可能会影响目标跟踪的准确性,本申请假设目标是运动缓慢或静止的,首先通过引入极线来预测相邻未来帧图像数据中的预测边界框特征。
具体地,分别获取当前帧的相邻过去帧、当前帧图像数据中的边界框特征的四个顶点,过相应的四个顶点分别引四条极线,根据成本函数,得到当前帧的相邻未来帧图像数据中边界框特征的四个顶点,所述相邻未来帧图像数据中边界框特征的四个顶点,与四条极线分别相交,得到相邻未来帧图像数据中的预测边界框特征,若所述相邻未来帧图像数据中的预测边界框特征,与相邻未来帧图像数据中提取的边界框特征的交并比大于交并比阈值,则根据所述相邻未来帧图像数据中的预测边界框特征,在当前帧和相邻未来帧图像数据中匹配特征点,对所述当前帧图像数据中的边界框特征进行优化,得到优化的当前帧图像数据中的边界框特征,用于进行检测关联。
比如,将在第t帧中目标边界框的四个顶点定义为Ji,t,其中i∈{1,2,3,4}。类似地,将Ji,t+1,i∈{1,2,3,4}定义为第t+1帧中的边界框。继而定义成本函数:
其中,确保预测的第t+1帧目标边界框尽可能与四条相应的极线相交,/>为目标大小约束条件,以尽可能保证所预测的第t+1帧目标边界框与第t+1帧目标的真实位置对齐。采用成本函数可以确保所预测的第t+1帧目标边界框位置的准确性。
进而,通过基础矩阵η,利用RANSAC算法在第t帧图像数据、第t+1帧图像数据中匹配特征点(SURF点),来对当前帧图像数据中的边界框特征进行优化处理。
其中,SURF(Speeded Up Robust Features)是一种用于计算机视觉中特征点的算法。使用RANSAC算法在连续两帧之间匹配SURF点来估计基础矩阵时,意味着利用SURF算法提取的特征点进行图像间的匹配。这种匹配可以用于计算两个图像之间的基础矩阵,从而实现图像间的相对定位或运动估计。RANSAC算法可以帮助排除一些错误的匹配,提高匹配的准确性。
如图2所示,其中(a)为第t帧检测到的第一个目标,X1,t代表在第t帧中检测到目标边界框的左上角的位置,X2,t代表在第t帧中检测到目标边界框的右上角的位置,X3,t代表在第t帧中检测到目标边界框的右下角的位置,X4,t代表在第t帧中检测到目标边界框的左下角的位置。(b)为第t+1帧检测到的目标,虚线框代表(a)第t帧检测到的第一个目标在第t+1帧中的预测位置,两个实线边界框代表第t+1帧检测到的两个目标的实际位置。
由(a)、(b)可得,第t帧检测到的第一个目标在第t+1帧中,检测到该目标的预测位置(虚线框)与另一个目标的实际位置(右实线边界框)具有较大的交并比(IoU),表示这两个不同的目标有较高的相似性或重叠,而该目标的预测位置(虚线框)并没有与该目标的实际位置(左实线边界框)有很好的重叠,表明未引入极线时的跟踪方法准确性不高,容易发生错误关联。
IoU(交并比)是一种度量两个边界框重叠程度的指标。如果IoU越大,说明两个边界框的重叠部分越大,即目标之间的相似性越高。
引入极线的跟踪方法为,首先,若假设目标是静止的或运动缓慢,那么目标边界框在第t帧的四个顶点Xi,t应该位于第t+1帧相应的极线上,即在第t+1帧的目标预测边界框应尽可能的与四条极线相交,如图2中(c)所示。引入极线后,即在第t+1帧中,目标预测边界框位置(图2中(d)中白色边界框)与该目标的实际边界框位置尽可能相重叠。
其次,还假设边界框的大小在相邻帧之间变化不大,那么可以得到目标最优的预测边界框,如图2中(d)中深色边界框所示。其中,图2中(d)中的X1,t+1代表在第t+1帧中目标最优的预测边界框的左上角的位置,X2,t+1代表在第t+1帧中目标最优的预测边界框的右上角的位置,X3,t+1代表在第t+1帧中目标最优的预测边界框的右下角的位置,X4,t+1代表在第t+1帧中目标最优的预测边界框的左下角的位置。
本申请通过引入极线以获得当前帧目标边界框的优化位置,在轨迹生成中能够考虑目标的外观特征和边界框特征,从而提高在复杂场景中对目标关联的准确性,并通过对相邻帧的关联,降低相机运动的影响,提高了整体关联准确性。
另外,本申请为了使轨迹生成更加简便,基于提取的外观特征和边界框特征,若相邻帧中提取的外观特征的相似度大于外观特征相似度阈值,且相邻帧中提取的边界框特征的交并比大于交并比阈值,则将相邻帧中提取的外观特征与边界框特征分别进行关联,以确保关联误差尽可能小。
进一步的,考虑到使用阈值去筛选轨迹时,阈值设置对于检测分数的分布很敏感,导致需要根据不同数据集和检测器进行校准。
当未能正确检测到某些目标时,Top-K分数检测可以通过选择具有高分数的检测结果来弥补这些漏检。这样,即使检测器没有完全覆盖所有目标,本申请提供的多目标跟踪方法仍然有机会捕获漏检的目标。
本申请通过对若干条轨迹进行Top-K分数筛选,选择具有高分数的检测结果,弥补了目标检测漏检的情况。
S3:基于初步跟踪轨迹,以边界框特征为运动特征,外观特征为视觉特征,进行图的构建,其中,运动特征作为构建的图的边的特征,视觉特征作为构建的图的节点的特征,若两个节点满足下列全部条件:
(1)两个节点的中心坐标之间的距离小于预设距离;
(2)两个节点的特征之间的余弦相似度大于余弦相似度阈值;
(3)两个节点的交并比大于交并比阈值;
则将两个节点通过边进行连接,得到更新的轨迹。
对于轨迹的生成过程,本申请定义了一个图模型,将视频数据转换为一个图,并将每个目标的轨迹视为一个节点,边是两个节点的关联生成的。
具体为,将图定义为,并将运动特征和视觉特征分别作为边(E)和节点(V)的特征集合,并且分别为每条边和每个节点生成边嵌入和节点嵌入。因此对于每个节点都有一个节点嵌入值/>,对于每条边/>,都有一条边嵌入值/>。
将不同目标的轨迹设置为不同的节点(如Noi和Noj),并且只有在当Noi和Noj满足相应条件时才进行连接。具体来说,与Noj的连接需要满足3个条件:(1)两个节点的中心坐标之间的距离小于预设距离;(2)两个节点的特征之间的余弦相似度大于余弦相似度阈值;(3)两个节点的交并比大于交并比阈值。对于以上每个条件,选择给定的Noj数目,以便与/>连接,而且没有重复的连接。由于节点之间的连接是双向的,所以Noi和Noj都会更新特征。
此外,由于一些轨迹会因为目标完全被遮挡而变得不可见,所以在短期内无法进行跟踪。这些暂时丢失的轨迹会被存储在的时间段内,随后被添加到图中的Noi中。在这一过程中,存储时间大于/>的轨迹,以防止出现假阳性的情况。所述/>表示轨迹被认为是不可见的最长时间,/>表示轨迹被认为是不可见的最短时间。
然后,本申请还为图中的每条边引入了一个二进制变量。在经典的最小成本流公式中,连接同时满足以下条件节点的边的标签定义为1,条件为:(i)满足上文中所述两个节点进行连接的(1)(2)(3)三个条件;(ii)在轨迹内时间上连续。其余所有边的标签定义为0。
具体地,将轨迹wi等价的表示为边的集合,对应所构建的图中按顺序排列的路径。基于该结果来定义边的标签,即对于不同目标/>中的每一对节点,定义一个二进制变量/>:
当时,边/>被认为是活动的。/>为,假设W中的轨迹是不相交的节点,即一个节点不能属于一个以上的轨迹。因此,y必须满足一组线性约束,即对于每个节点/>,有:
上述不等式表明,每个节点通过活动边在图中最多连接到一个节点,在未来轨迹图中最多连接到一个节点,由此完成图的构建,并得到更新的轨迹。
S4:基于更新的轨迹进行图的更新,将当前帧的相邻过去帧、相邻未来帧的中进行连接的节点的特征和边的特征分别聚合后,嵌入至当前帧的节点的特征和边的特征,作为当前帧更新的节点的特征和边的特征,当前帧数加一后,执行S1,直至将视频中的帧全部处理完成,得到多目标跟踪轨迹。
本申请基于消息传递网络(MPN),以实现在整个图中传播并更新边的特征和节点的特征中包含的信息。传播过程分为节点的嵌入更新和边的嵌入更新,称为消息传递步骤。其中每个消息传递步骤进一步分为两个更新过程:一个是从边到节点的更新,另一个是从节点到边的更新/>。上述更新均按顺序执行,迭代次数S是固定的。
考虑到在实际更新过程中,在进行了S次迭代后,每个节点都包含了图中距离为S的所有其他节点的信息。在节点和边更新的过程中,还允许将每个节点与其邻居节点进行比较,并从所有邻居处聚合信息,以便更新其嵌入信息以获得更多的上下文信息。
然而,考虑到上文中的线性约束条件,该约束条件决定了图中的每个节点最多可以连接到图中的一个节点和未来轨迹图中的另一个节点。因此,一次性聚合所有相邻节点的嵌入信息会使更新后的节点特征难以捕获这些约束是否被违反的情况。
因此,本申请将聚合分解为两部分来创建时间感知的更新规则:一个是未来的节点,另一个是过去的节点。
具体地说,用和/>来分别表示节点/>在第t-1帧和第t+1帧中的邻居节点。在此基础上,分别定义了两个不同的感知函数,即/>和/>,分别为对第t+1帧的感知函数和对第t-1帧的感知函数。在消息传递步骤进行迭代s次中,对于每个节点/>,首先计算其所有邻居/>的第t-1帧和第t+1帧的边到节点的嵌入,如下所示:
其中,为第s次迭代中邻居/>的边到节点的嵌入,/>为初始嵌入值,/>为第s-1次迭代的节点的特征嵌入,/>为第s-1次迭代的边的特征嵌入,确保了在消息传递的过程中不会忘记其初始特征。
然后,将第t-1帧和第t+1帧的节点的特征和边的特征分别聚合并嵌入至初步跟踪轨迹中,聚合公式为:
其中,为第t+1帧的聚合嵌入值,/>为第t-1帧的聚合嵌入值,为第s次迭代中邻居/>的边到节点的嵌入。
最后,结合公式对初步跟踪轨迹进行更新,所述公式为:
其中,为第s次迭代的节点的特征嵌入,/>为可学习函数。
通过对当前帧的相邻过去帧、相邻未来帧的节点的特征和边的特征的嵌入信息进行感知,并分别聚合,能够获得更多的上下文信息,有助于保持目标轨迹的连贯性,尤其是在存在遮挡、相机移动等复杂场景中,解决了在实际场景中由于遮挡或相机移动导致的目标轨迹丢失等问题,提高了对目标轨迹连续性的捕捉能力。
图3为在构建的图中,不同方式下,消息传递过程中的节点更新示意图。箭头方向表示时间方向,将时间分割为第t-1帧、第t帧、第t+1帧,并有和/>。数字1-5代表不同帧下的不同的节点,其中数字3为第t帧的节点,数字1和2为第t帧的节点在第t-1帧的不同的邻居节点,数字4和5为第t帧的节点在第t+1帧的不同的邻居节点。另外,五边形框代表邻居节点的嵌入信息。中心带加号的圆圈图形代表不同嵌入信息的聚合。菱形框代表多层感知器。
图3中的(a)为消息传递过程中的节点更新的初始设置,表示仅考虑第t帧邻居节点的嵌入信息。(b)为现有的技术节点更新,表示一次性聚合所有相邻节点的嵌入信息。(c)为本申请的节点更新,表示来自过去帧和未来帧的嵌入被分别聚合,然后串联并输入到多层感知器中,以获得新的节点嵌入。
为了实现多目标跟踪,针对目标漏检现象,所述S4中得到多目标跟踪轨迹之前,还包括对第t帧图像数据中被错过的目标,及对连续帧图像数据中被错过的目标进行处理。
其中,对当前帧图像数据中被错过的目标,采用单目标跟踪方法进行检测,以恢复第t帧图像数据中丢失的目标,并将它们与具有高检测得分Dscore的单目标跟踪策略所恢复的边界框进行关联。
而对连续帧图像数据中被错过的目标进行处理,则提出了一种检测恢复策略,该策略利用线性运动模型来恢复那些丢失的目标。具体为,
基于提取的外观特征和边界框特征,计算被错过的目标与多目标跟踪轨迹中的每个目标的代价,若被错过的目标与多目标跟踪轨迹中的某个目标的代价小于预设代价阈值,则将被错过的目标与多目标跟踪轨迹中的某个目标进行匹配,且约束一条多目标跟踪轨迹最多与一个被错过的目标相关联,且一个被错过的目标最多与一条多目标跟踪轨迹相关联。
假设,如果目标出现在第t-1帧中,那么该目标为正常的目标。否则,该目标为遗漏的目标。该方法将中的第i个目标表示为oi,将Dt中的第j个检测表示为dj。/>表示在第t帧图像数据之前出现的目标的集合,Dt表示需检测的目标的集合。dj和oi之间的分配状态表示为ai,j,其中/>表示目标oi与检测dj相关联,而/>则表示相反的情况。分配集合用/>表示,其中|Dt|表示需检测的目标的数量,/>表示目标的原始数量。最优分配集合可以如下表示:
其中,表示最优分配集合,/>用于在存储轨迹时考虑的时间最小值,以防止出现假阳性的情况,σ表示超参数,/>和/>分别代表目标oi和检测dj的外观特征,表示目标oi和检测dj之间的代价,所述代价,为目标oi和检测dj之间的匹配成本,用来衡量目标oi与检测dj之间的相似度或匹配程度。
另外,目标检测恢复过程中,一个检测最多可以与一个目标相关联,一个目标最多只能与一个检测相关联。具体约束公式如下:
同时,根据该约束公式,允许存在以下情况:和/>,即为检测与检测目标无关的当前帧的目标缺失。
为了进一步的准确得到所跟踪的目标轨迹,对多目标跟踪轨迹进行边缘分类处理。所述S4中的得到多目标跟踪轨迹,还包括对多目标跟踪轨迹进行边缘分类,预测边缘得分,具体为,
基于多目标跟踪轨迹中边的特征,利用边缘得分矩阵的匈牙利算法,计算相邻过去帧、相邻未来帧图像数据中的目标为同一目标的概率,若大于预设概率阈值,则保留当前帧中的多目标跟踪轨迹。
由于节点在Noj中连接了许多节点,利用基于边缘得分矩阵的匈牙利算法进行最佳匹配。因此,/>只有一个最佳匹配的边缘得分。
边缘得分用于评估连接的轨迹在时间跨度内是否属于同一目标的概率。这种得分的预测有助于在图中进行轨迹匹配。
本申请还提供了一种多目标跟踪***,包括:
图像预处理模块:用于获取视频中相邻若干帧下的图像数据,并对相邻若干帧下的图像数据中的目标作边界框处理;
初步跟踪轨迹生成模块:用于将作边界框处理后的相邻若干帧下的图像数据经卷积后提取外观特征和边界框特征,相邻若干帧中提取的外观特征和边界框特征分别进行检测关联,得到若干条轨迹,基于提取的外观特征和边界框特征,所述若干条轨迹经Top-K分数筛选后,得到初步跟踪轨迹;
图的构建模块:基于初步跟踪轨迹,以边界框特征为运动特征,外观特征为视觉特征,进行图的构建,其中,运动特征作为构建的图的边的特征,视觉特征作为构建的图的节点的特征,若两个节点满足下列全部条件:
(1)两个节点的中心坐标之间的距离小于预设距离;
(2)两个节点的特征之间的余弦相似度大于余弦相似度阈值;
(3)两个节点的交并比大于交并比阈值;
则将两个节点通过边进行连接,得到更新的轨迹;
多目标跟踪轨迹生成模块:基于更新的轨迹进行图的更新,将当前帧的相邻过去帧、相邻未来帧中产生连接的节点的特征和边的特征分别聚合后,嵌入至当前帧的节点的特征和边的特征,作为当前帧更新的节点的特征和边的特征,当前帧数加一后,进入图像预处理模块,直至将视频中的帧全部处理完成,得到多目标跟踪轨迹。
本申请还提供了一种多目标跟踪设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现所述的多目标跟踪方法。
本申请还提供了一种多目标跟踪存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现所述的多目标跟踪方法。
Claims (10)
1.一种多目标跟踪方法,其特征在于,包括以下步骤:
S1:获取视频中相邻若干帧下的图像数据,并对相邻若干帧下的图像数据中的目标作边界框处理;
S2:将作边界框处理后的相邻若干帧下的图像数据经卷积后提取外观特征和边界框特征,相邻若干帧中提取的外观特征和边界框特征分别进行检测关联,得到若干条轨迹,基于提取的外观特征和边界框特征,所述若干条轨迹经Top-K分数筛选后,得到初步跟踪轨迹;
S3:基于初步跟踪轨迹,以边界框特征为运动特征,外观特征为视觉特征,进行图的构建,其中,运动特征作为构建的图的边的特征,视觉特征作为构建的图的节点的特征,若两个节点满足下列全部条件:
(1)两个节点的中心坐标之间的距离小于预设距离;
(2)两个节点的特征之间的余弦相似度大于余弦相似度阈值;
(3)两个节点的交并比大于交并比阈值;
则将两个节点通过边进行连接,得到更新的轨迹;
S4:基于更新的轨迹进行图的更新,将当前帧的相邻过去帧、相邻未来帧中产生连接的节点的特征和边的特征分别聚合后,嵌入至当前帧的节点的特征和边的特征,作为当前帧更新的节点的特征和边的特征,当前帧数加一后,执行S1,直至将视频中的帧全部处理完成,得到多目标跟踪轨迹。
2.根据权利要求1所述的多目标跟踪方法,其特征在于,所述S2中进行检测关联之前,还包括对当前帧图像数据中的边界框特征进行优化处理,具体为,
分别获取当前帧的相邻过去帧、当前帧图像数据中的边界框特征的四个顶点,过相应的四个顶点分别引四条极线,根据成本函数,得到当前帧的相邻未来帧图像数据中边界框特征的四个顶点,所述相邻未来帧图像数据中边界框特征的四个顶点,与四条极线分别相交,得到相邻未来帧图像数据中的预测边界框特征,若所述相邻未来帧图像数据中的预测边界框特征,与相邻未来帧图像数据中提取的边界框特征的交并比大于交并比阈值,则根据所述相邻未来帧图像数据中的预测边界框特征,在当前帧和相邻未来帧图像数据中匹配特征点,对所述当前帧图像数据中的边界框特征进行优化,得到优化的当前帧图像数据中的边界框特征,用于进行检测关联。
3.根据权利要求1所述的多目标跟踪方法,其特征在于,所述S2中的检测关联,具体为,
基于提取的外观特征和边界框特征,若相邻帧中提取的外观特征的相似度大于外观特征相似度阈值,且相邻帧中提取的边界框特征的交并比大于交并比阈值,则将相邻帧中提取的外观特征与边界框特征分别进行关联。
4.根据权利要求1所述的多目标跟踪方法,其特征在于,所述S4中的得到多目标跟踪轨迹,还包括对多目标跟踪轨迹进行边缘分类,预测边缘得分,具体为,
基于多目标跟踪轨迹中边的特征,利用边缘得分矩阵的匈牙利算法,计算相邻过去帧、相邻未来帧图像数据中的目标为同一目标的概率,若大于预设概率阈值,则保留当前帧中的多目标跟踪轨迹。
5.根据权利要求1所述的多目标跟踪方法,其特征在于,所述S4中得到多目标跟踪轨迹之前,还包括采用单目标跟踪方法对当前帧图像数据中被错过的目标进行检测。
6.根据权利要求1所述的多目标跟踪方法,其特征在于,所述S4中得到多目标跟踪轨迹之前,还包括对连续帧图像数据中被错过的目标进行处理,具体为,
基于提取的外观特征和边界框特征,计算被错过的目标与多目标跟踪轨迹中的每个目标的代价,若被错过的目标与多目标跟踪轨迹中的某个目标的代价小于预设代价阈值,则将被错过的目标与多目标跟踪轨迹中的某个目标进行匹配,且约束一条多目标跟踪轨迹最多与一个被错过的目标相关联,且一个被错过的目标最多与一条多目标跟踪轨迹相关联。
7.根据权利要求1所述的多目标跟踪方法,其特征在于,所述S1中的边界框处理,包括确定边界框的高度、边界框的宽度、边界框的中心、帧索引。
8.一种多目标跟踪***,其特征在于,包括:
图像预处理模块:用于获取视频中相邻若干帧下的图像数据,并对相邻若干帧下的图像数据中的目标作边界框处理;
初步跟踪轨迹生成模块:用于将作边界框处理后的相邻若干帧下的图像数据经卷积后提取外观特征和边界框特征,相邻若干帧中提取的外观特征和边界框特征分别进行检测关联,得到若干条轨迹,基于提取的外观特征和边界框特征,所述若干条轨迹经Top-K分数筛选后,得到初步跟踪轨迹;
图的构建模块:基于初步跟踪轨迹,以边界框特征为运动特征,外观特征为视觉特征,进行图的构建,其中,运动特征作为构建的图的边的特征,视觉特征作为构建的图的节点的特征,若两个节点满足下列全部条件:
(1)两个节点的中心坐标之间的距离小于预设距离;
(2)两个节点的特征之间的余弦相似度大于余弦相似度阈值;
(3)两个节点的交并比大于交并比阈值;
则将两个节点通过边进行连接,得到更新的轨迹;
多目标跟踪轨迹生成模块:基于更新的轨迹进行图的更新,将当前帧的相邻过去帧、相邻未来帧中产生连接的节点的特征和边的特征分别聚合后,嵌入至当前帧的节点的特征和边的特征,作为当前帧更新的节点的特征和边的特征,当前帧数加一后,进入图像预处理模块,直至将视频中的帧全部处理完成,得到多目标跟踪轨迹。
9.一种多目标跟踪设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1-7中任一项所述的多目标跟踪方法。
10.一种多目标跟踪存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的多目标跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410262998.6A CN117853759B (zh) | 2024-03-08 | 2024-03-08 | 一种多目标跟踪方法、***、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410262998.6A CN117853759B (zh) | 2024-03-08 | 2024-03-08 | 一种多目标跟踪方法、***、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117853759A true CN117853759A (zh) | 2024-04-09 |
CN117853759B CN117853759B (zh) | 2024-05-10 |
Family
ID=90540523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410262998.6A Active CN117853759B (zh) | 2024-03-08 | 2024-03-08 | 一种多目标跟踪方法、***、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117853759B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016034008A1 (zh) * | 2014-09-04 | 2016-03-10 | 华为技术有限公司 | 一种目标跟踪方法及装置 |
CN110782483A (zh) * | 2019-10-23 | 2020-02-11 | 山东大学 | 基于分布式相机网络的多视图多目标跟踪方法及*** |
WO2020232909A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质 |
WO2022217840A1 (zh) * | 2021-04-15 | 2022-10-20 | 南京莱斯电子设备有限公司 | 一种复杂背景下高精度多目标跟踪方法 |
CN115359407A (zh) * | 2022-09-02 | 2022-11-18 | 河海大学 | 一种视频中的多车辆跟踪方法 |
CN115457082A (zh) * | 2022-09-01 | 2022-12-09 | 湘潭大学 | 一种基于多特征融合增强的行人多目标跟踪算法 |
CN115861386A (zh) * | 2022-12-12 | 2023-03-28 | 华中科技大学 | 通过分而治之关联的无人机多目标跟踪方法与装置 |
CN116403139A (zh) * | 2023-03-24 | 2023-07-07 | 国网江苏省电力有限公司电力科学研究院 | 一种基于目标检测的视觉跟踪定位方法 |
CN116681728A (zh) * | 2023-06-09 | 2023-09-01 | 中南民族大学 | 一种基于Transformer和图嵌入的多目标跟踪方法和*** |
-
2024
- 2024-03-08 CN CN202410262998.6A patent/CN117853759B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016034008A1 (zh) * | 2014-09-04 | 2016-03-10 | 华为技术有限公司 | 一种目标跟踪方法及装置 |
WO2020232909A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质 |
CN110782483A (zh) * | 2019-10-23 | 2020-02-11 | 山东大学 | 基于分布式相机网络的多视图多目标跟踪方法及*** |
WO2022217840A1 (zh) * | 2021-04-15 | 2022-10-20 | 南京莱斯电子设备有限公司 | 一种复杂背景下高精度多目标跟踪方法 |
CN115457082A (zh) * | 2022-09-01 | 2022-12-09 | 湘潭大学 | 一种基于多特征融合增强的行人多目标跟踪算法 |
CN115359407A (zh) * | 2022-09-02 | 2022-11-18 | 河海大学 | 一种视频中的多车辆跟踪方法 |
CN115861386A (zh) * | 2022-12-12 | 2023-03-28 | 华中科技大学 | 通过分而治之关联的无人机多目标跟踪方法与装置 |
CN116403139A (zh) * | 2023-03-24 | 2023-07-07 | 国网江苏省电力有限公司电力科学研究院 | 一种基于目标检测的视觉跟踪定位方法 |
CN116681728A (zh) * | 2023-06-09 | 2023-09-01 | 中南民族大学 | 一种基于Transformer和图嵌入的多目标跟踪方法和*** |
Non-Patent Citations (3)
Title |
---|
任珈民;宫宁生;韩镇阳;: "基于YOLOv3与卡尔曼滤波的多目标跟踪算法", 计算机应用与软件, no. 05, 12 May 2020 (2020-05-12) * |
刘玉杰;窦长红;赵其鲁;李宗民;: "基于状态预测和运动结构的在线多目标跟踪", 计算机辅助设计与图形学学报, no. 02, 15 February 2018 (2018-02-15) * |
孙志海;朱善安;: "多视频运动对象实时分割及跟踪技术", 浙江大学学报(工学版), no. 09, 15 September 2008 (2008-09-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117853759B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Smeulders et al. | Visual tracking: An experimental survey | |
Fernando et al. | Tracking by prediction: A deep generative model for mutli-person localisation and tracking | |
Zhao et al. | Segmentation and tracking of multiple humans in crowded environments | |
Hu et al. | Principal axis-based correspondence between multiple cameras for people tracking | |
US6542621B1 (en) | Method of dealing with occlusion when tracking multiple objects and people in video sequences | |
Kalake et al. | Analysis based on recent deep learning approaches applied in real-time multi-object tracking: a review | |
CN107145862B (zh) | 一种基于霍夫森林的多特征匹配多目标跟踪方法 | |
Babaee et al. | A dual cnn–rnn for multiple people tracking | |
CN110400332A (zh) | 一种目标检测跟踪方法、装置及计算机设备 | |
CN107423686B (zh) | 视频多目标模糊数据关联方法及装置 | |
CN115995063A (zh) | 作业车辆检测与跟踪方法和*** | |
CN115830075A (zh) | 一种面向行人多目标跟踪的分级关联匹配方法 | |
Amosa et al. | Multi-camera multi-object tracking: a review of current trends and future advances | |
CN113361533A (zh) | 重叠遮挡的目标物的分割识别方法及*** | |
CN112132873A (zh) | 一种基于计算机视觉的多镜头行人识别与跟踪 | |
KR101406334B1 (ko) | 신뢰도와 지연된 결정을 활용한 다중 객체 추적 시스템 및 방법 | |
An | Anomalies detection and tracking using Siamese neural networks | |
CN113537077A (zh) | 基于特征池优化的标签多伯努利视频多目标跟踪方法 | |
Saleh et al. | Artist: Autoregressive trajectory inpainting and scoring for tracking | |
Yan et al. | Multicamera pedestrian detection using logic minimization | |
CN115457082A (zh) | 一种基于多特征融合增强的行人多目标跟踪算法 | |
CN113012193B (zh) | 一种基于深度学习的多行人跟踪方法 | |
CN117853759B (zh) | 一种多目标跟踪方法、***、设备和存储介质 | |
CN116958872A (zh) | 一种羽毛球运动的智能化辅助训练方法及*** | |
Jin et al. | 3D multi-object tracking with boosting data association and improved trajectory management mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |