CN115423844A

CN115423844A - 一种基于多模块联合的目标跟踪方法

Info

Publication number: CN115423844A
Application number: CN202211060446.4A
Authority: CN
Inventors: 徐建强
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-02
Anticipated expiration: 2042-09-01
Also published as: CN115423844B

Abstract

本发明适用于视觉跟踪或目标跟踪技术领域，提供了一种基于多模块联合的目标跟踪方法，其将把多个跟踪模块有机结合在一起，通过设定特定的融合策略，使各个模块协同作用，取长补短，既能增强跟踪性能，又能在目标丢失后及时恢复，且能够较好的处理尺度变化，最终获得了更优的跟踪性能。

Description

一种基于多模块联合的目标跟踪方法

技术领域

本发明属于视觉跟踪或目标跟踪技术领域，尤其涉及一种基于多模块联合的目标跟踪方法。

背景技术

目标跟踪是计算机视觉研究领域中的一个热门研究课题，由于光照变化、外观变化、复杂背景、目标旋转、目标遮挡等各种影响因素的存在，目标跟踪非常具有挑战性，吸引了大批研究者参与，也出现了很多优秀的跟踪算法。

虽然各种目标跟踪算法不断涌现，跟踪效果越来越好。但如何在保证跟踪效果的同时，不断增加算法应对各种挑战因素的鲁棒性，仍是本领域需要重点考虑的问题。

众所周知，有效的图像特征可以使目标和背景在特征空间中具有更好的可分性，为后续高效跟踪打下良好的基础。基于上述认知，现有技术从设计有效图像特征的角度出发，提出了一种多通道图像特征描述方法，并实现了高效的多通道特征***（即Multi-channel Compressive Features Tracker - MCT算法）。

MCT跟踪算法遵循判别模型的技术路线，把跟踪当作一个二元分类任务，即划分为包含目标的图像区域和只含有背景的图像区域。***根据当前帧的跟踪结果来提取样本并用于训练分类器，当下一帧到来时，根据一定的策略（如滑动窗口法、周围位置密集采样等）在新一帧中提取不同位置上的测试图像样本特征，然后将前面训练的分类器应用到这些测试样本特征上，新的目标位置就是获得最大分类得分的位置。在跟踪过程中，对每一当前帧（t帧）提取目标图像样本和背景图像样本，样本的大小和跟踪结果区域的大小是一致的。在线学习的正样本由第一帧的目标图像样本和第t帧的目标图像样本构成，负样本由第t帧的背景图像样本构成。然后提取这些正负样本的多通道特征，训练或在线更新分类器。当新的一帧到来（t+1帧）时，在目标周围一定范围区域内选取测试样本，生成测试样本特征，送入分类器进行分类。最终获得最可能的测试样本的位置作为t+1帧的跟踪结果，重复以上过程，直到最后一帧。

MCT跟踪算法展示出了不错的跟踪能力，但是基于判别模型的跟踪框架本身就有着固有的缺陷，例如该类型***比较适合目标在跟踪过程中保持大小不变的情形，***很难适应跟踪目标大尺度变化的情形。另外，如果目标在跟踪过程中移动到了视频区域之外，也会发生跟踪错误，而且即使后面跟踪目标重新移动回到视频区域之内，***也很难重新找回跟踪目标。

现有技术中还存在一种非常高效的STC（spatio-temporal context）算法。STC算法在目标跟踪过程中，考虑了目标周围的稠密上下文环境，把整个上下文环境融入到跟踪算法中，使上下文环境信息得到了更加充分的利用，从而取得了比较理想的跟踪效果。

但是STC算法的缺点在于不够稳定，跟踪结果容易受背景的影响而被拉到背景区域，同时该算法也不适用于大幅度运动的情形。STC算法依赖于目标对应的像素和背景中的像素对置信度的影响，只有当前者影响力较大时，才能够正确跟踪到目标，而当后者影响力较大时，相当于在跟踪背景而丢失了目标。而对于快速运动情形，如果新帧中目标位置距离上一帧的目标位置较远，就会使得目标对应像素的显著性减小，削弱了其在置信度图中的响应，从而造成目标丢失。

由此可见，单一的跟踪技术往往不能同时处理视频中的各种挑战，时常出现跟偏、跟丢的情况，如果能把多个跟踪模块或多种模型有机结合在一起协同作用，取长补短，将会取得更好的跟踪性能。

发明内容

本发明实施例的目的在于提供一种基于多模块联合的目标跟踪方法，旨在解决背景技术中确定的现有技术所存在的技术问题。

本发明实施例是这样实现的，一种基于多模块联合的目标跟踪方法，所述方法包括以下步骤：

获取待处理的图像；

基于初步跟踪模块和全局检测模块分别获取对所述图像中目标的初步跟踪结果和全局检测结果；

根据精确定位模块对所述初步跟踪结果进行二次定位以获取精确跟踪结果；

以初步跟踪结果和精确跟踪结果中分别与正负模板集中相似度较高的那一个作为跟踪结果，所述正负模板集由目标各种不同外观的正样本组成的正模板集和与目标相似度高于设定值的负样本组成的负模板集构成；

按设定的融合策略处理跟踪结果和全局检测结果，并输出最终结果。

本发明实施例的另一目的在于提供一种基于多模块联合的目标跟踪***，所述***包括：

图像获取模块，用于获取待处理的图像；

第一结果获取模块，用于根据初步跟踪模块获取对所述图像中目标的初步跟踪结果；

第二结果获取模块，用于根据精确定位模块对所述初步跟踪结果进行二次定位以获取精确跟踪结果；

第三结果获取模块，用于根据全局检测模块获取对所述图像中目标的全局检测结果；

跟踪结果确定模块，用于以初步跟踪结果和精确跟踪结果中分别与正负模板集中相似度较高的那一个作为跟踪结果，所述正负模板集由目标各种不同外观的正样本组成的正模板集和与目标相似度高于设定值的负样本组成的负模板集构成；

结果输出模块，用于按设定的融合策略处理跟踪结果和全局检测结果，并输出最终结果。

本发明实施例的另一目的在于提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述基于多模块联合的目标跟踪方法的步骤。

本发明实施例的另一目的在于提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述基于多模块联合的目标跟踪方法的步骤。

本发明实施例提供的一种基于多模块联合的目标跟踪方法，把多个跟踪模块有机结合在一起，协同作用，取长补短，既能增强跟踪性能，又能在目标丢失后及时恢复，且能够较好的处理尺度变化，最终获得了更优的跟踪性能。

附图说明

图1为本发明实施例提供的一种基于多模块联合的目标跟踪方法的流程图；

图2为本发明实施例提供的一种基于多模块联合的目标跟踪方法的架构图；

图3为本发明实施例提供的融合策略的流程图；

图4为本发明实施例中稀疏采样的示意图；

图5为本发明另一实施例提供的基于多模块联合的目标跟踪方法的流程图；

图6为本发明实施例对正负模板集进行更新的流程图；

图7为本发明实施例对精确定位模块进行更新的流程图；

图8为本发明实施例提供的基于多模块联合的目标跟踪***的结构框图；

图9为一个实施例中计算机设备的内部结构框图；

图10为本发明实施例及比较算法在dog1评测视频上的跟踪结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。

如图1和2所示，在一个实施例中，提出了一种基于多模块联合的目标跟踪方法，具体可以包括以下步骤：

步骤S100，获取待处理的图像。

本发明实施例中，待处理的图像可以是连续或者非连续的多帧图像，也可以为视频等，本实施例在此不进行具体限定。

步骤S200，基于初步跟踪模块和全局检测模块分别获取对所述图像中目标的初步跟踪结果和全局检测结果。

本发明实施例中，所述初步跟踪模块基于多通道特征跟踪算法（即MCT）构建，多通道特征跟踪算法已展示出了良好的跟踪能力；全局检测模块采用了以随机蕨为主的级联分类器，该方法在图像的各个尺度上采用滑动窗口在多个区域提取特征，并送入在线更新的级联分类器进行分类，分类器在含有目标的区域可能产生多个重叠的检测输出，此时算法会把各个尺度和位置上的检测结果通过聚类融合在一起，作为全局检测模块的输出。

步骤S300，根据精确定位模块对所述初步跟踪结果进行二次定位以获取精确跟踪结果。

本发明实施例中所述精确定位模块基于时空上下文跟踪算法（即STC）构建，该算法将粗略跟踪模块跟踪到的粗略位置进行精确定位。STC对于前后帧位置变化不大的情形具有很好的定位准确度，其缺点在于不够稳定，跟踪结果容易受背景的影响，而且不适用于目标大幅度运动的情形。STC算法需要判断目标像素和背景像素对置信度的影响，当前者影响力较大时，能够正确跟踪到目标，而当后者影响力较大时，相当于在跟踪背景，会丢失了目标。而目标快速运动时，由于新帧中目标出现的位置距离上一帧中的目标位置较远，会使得目标对应像素的显著性减小，削弱了其在置信度图中的响应，从而造成目标丢失。因此在本发明实施例中，仅使用STC算法用于构建精确定位模块，此时STC是在目标粗略位置的基础上进行跟踪定位，而不是像原始算法那样从上一帧目标位置开始，由于目标的粗略位置距离目标真实位置比较接近，从而充分发挥出STC精度高的优点，同时规避了STC不适应大幅度运动的缺点。

步骤S400，以初步跟踪结果和精确跟踪结果中分别与正负模板集中相似度较高的那一个作为跟踪结果，所述正负模板集由目标各种不同外观的正样本组成的正模板集和与目标相似度高于设定值的负样本组成的负模板集构成。

本发明实施例中，初步跟踪结果和精确跟踪结果需要分别与正负模板集比较相似度，如果前者的相似度大于后者，初步跟踪结果被采纳，否则精确跟踪结果被采纳。在此不论哪种结果被采纳，均称其为跟踪产生的结果，以区别于全局检测模块获取的全局检测结果。

此处，相似度用于判断样本与目标的相似程度，也即初步跟踪结果和精确跟踪结果与正负模板集的相似程度。本发明实施例中，采用基于归一化互相关方法（NCC，Normalized Cross Correlation）来计算。NCC原本是用在两幅不同的图像之间寻找对应关系。两幅图像之间的互相关度量值反映了两幅图像之间的匹配程度。

本发明实施例中，以初步跟踪结果为例，将代表初步跟踪结果的样本图G和正负模板集中的模板图T统一为相同的大小，设均为m*n，则两者的归一化互相关值

为:

式中，G(i,j)为样本图G中第i行第j列的像素值，T(i,j)为模板图T中第i行第j列的像素值，

和

分别指样本图G和模板图T中所有像素的平均值，即：

NCC互相关值取值范围为[-1,1]，将其归一化到[0,1]区间以方便计算，公式为：

该值对图像光照强度的线性变化不太敏感，抗干扰性好，在几何畸变不大的情况下精度很高。由于目标在跟踪的过程中目标外观可能会发生各种的变化，外观改变时，NCC互相关值会降低，跟踪中采用了P-N学习来维护一个正负模板集，模板集中收录了目标的各种不同形态样本（即正模板/正样本）以及各种与目标较为相似的背景样本（即负模板/负样本）。样本图G分别与模板集中的每一个正模板计算互相关值，并取最大值作为与正模板的互相关值r+，类似地，与模板集中的每个负模板计算互相关值并选最大值作为与负模板的互相关值r-。相似度按照两个值分别占总体的比例关系确定，即：

s的取值在[0,1]之间。如果样本图G是目标图像，那么应该至少与某一个正模板的互相关值较大，而与模板集中所有负模板的互相关值都比较小，即s>0.5，s越大说明是目标的可能性越大，反之则为背景的可能性越大。

步骤S500，按设定的融合策略处理跟踪结果和全局检测结果，并输出最终结果。

本发明实施例中，当每一帧新的图像到来时，全局检测模块都会在该图像上进行全局检测定位目标，与此同时，图像也会依次送入到初步跟踪模块进行目标的初步定位，然后将该结果送入精确定位模块进行二次定位，因此这里就会出现三个结果，即初步跟踪结果、精确跟踪结果和全局检测结果。因此融合策略的作用就是把这三个结果融合成为最终结果并输出。

在一个实施例中，如图3所示，步骤S500中所提及的融合策略，具体可以包括：

判定全局检测结果是否为空（即是否没有结果）；当所述全局检测结果为空时，则以跟踪结果作为最终结果并向外输出；当所述全局检测结果不为空时，判定跟踪结果和全局检测结果之间是否存在重叠关系；

当所述跟踪结果和全局检测结果之间存在重叠关系（此处即跟踪结果和全局检测结果的重叠度大于设定的第二阈值T2，可以认为两者之间存在重叠关系），则判定重叠的两个目标框是否为包含关系，当重叠的两个目标框为包含关系且目标框重叠率小于设定的第三阈值T3时，以全局检测结果作为最终结果并向外输出，所述重叠的两个目标框不存在包含关系或者目标框重叠率大于设定的第三阈值T3时，则以跟踪结果作为最终结果并向外输出；

当所述跟踪结果和全局检测结果之间不存在重叠关系（即跟踪结果和全局检测结果的重叠度小于设定的第二阈值T2），则判定跟踪结果与正负模板集的相似度，当所述相似度大于设定的第四阈值T4时，则以跟踪结果作为最终结果并向外输出，当所述相似度小于设定的第四阈值T4时，则以全局检测结果中响应最大的那个作为最终结果并向外输出。

本发明实施例中，还提供了关于上述融合策略的伪代码：

在一个实施例中，如图5所示，一种基于多模块联合的目标跟踪方法，其与前述的方法相比，区别在于，还包括步骤S600：根据最终结果对所述初步跟踪模块、全局检测模块、精确定位模块以及正负模板集进行更新。

本发明实施例中，所述初步跟踪模块、全局检测模块、精确定位模块以及正负模板集一般情况下，只在当前帧图像的跟踪结果可信时进行更新。

具体的来说：

当所述全局检测结果为空时，则以跟踪结果作为最终结果并向外输出，此时当跟踪结果与正负模板集的相似度大于设定的第一阈值T1时，则认为当前帧图像的跟踪结果是可信的，当前帧图像的跟踪结果可用于执行对所述初步跟踪模块、全局检测模块、精确定位模块以及正负模板集的更新，否则不可信，不进行模块更新，否则不执行更新；

所述全局检测结果不为空且所述跟踪结果和全局检测结果之间存在重叠关系，当重叠的两个目标框为包含关系且目标框重叠率小于设定的第三阈值T3时，此时表明目标的尺度发生了较大的变化，则表明当前帧图像的跟踪结果是可信的，以全局检测结果作为最终结果并向外输出并执行模块更新，所述重叠的两个目标框不存在包含关系或者目标框重叠率大于设定的第三阈值T3时，则以跟踪结果作为最终结果向外输出并执行模块更新；

当所述跟踪结果和全局检测结果之间不存在重叠关系，则判定跟踪结果与正负模板集的相似度，当所述相似度大于设定的第四阈值T4时，则以跟踪结果作为最终结果并向外输出，此时不执行更新，当所述相似度小于设定的第四阈值T4时，则以全局检测结果中响应最大的那个作为最终结果并向外输出且执行更新。

在一个实施例中，如图6所示，步骤S600中所提及的更新策略，特别的，对于所述对正负模板集进行更新的步骤，具体包括：

步骤a，将图像中与目标跟踪结果重合度高于设定值的样本视为正样本，将由全局检测模块检测出但未被采纳为最终结果且远离最终结果位置的样本视为负样本，此处的样本指的是所有候选结果的集合，实际的跟踪结果只是样本集合中的某一个或几个特定的样本。

本发明实施例中，当当前帧图像的跟踪结果产生且可信时，会更新正负模板集。

步骤b，当所述正样本与正模板集的相似度小于设定阈值时，将所述正样本加入至正模板集中。

步骤c，当所述负样本与负模板集的相似度大于设置的阈值时，将所述负样本加入至负模板集中。

本发明实施例中，正负模板集通过P-N学习来维护。P-N学习是一种半监督的过程。学习过程的核心在于两个部分：P专家和N专家。P专家用于发现目标的新外观，以掌握目标各种的外观变化。N专家用于挑选出和目标较为相似的负训练样本，以增强判别能力。

步骤d，实时检测正负模板集中样本的数量，当所述样本的数量超过设定的阈值时，随机丢弃设定数量的样本。

本发明实施例中，P专家把和每帧图像的跟踪结果重合度高于设定值的样本视为正样本，这些正样本和正负模板集中的模板比较相似度，如果正样本的相似度小于一定阈值，则表示该正样本和正模板集中的正模板差距比较大，应该认定为目标的新外观，加入正模板集。N专家选择上一帧中由全局检测模块检测出来但未被采纳为最终跟踪结果、且远离跟踪结果位置的样本为负样本，这些负样本和正负模板集中的模板比较相似度，如果相似度大于一定阈值，说明该负样本和目标的外观比较相似，将其加入负模板集以增加区分能力。当然随着跟踪帧数的增加，模板集中的模板或样本数量也会越来越多，当数量达到一定数值时，算法会随机丢弃一些模板或样本，防止占用内存无限增长，保证算法运行的稳定性。

在一个实施例中，如图4所示，步骤200中所提及的基于初步跟踪模块获取对所述图像中目标的初步跟踪结果的步骤中，会执行稀疏采样策略，所述稀疏采样策略为在采样范围内，每间隔设定的行列数采集一个样本。

本发明实施例中，由于初步跟踪模块是基于多通道特征跟踪算法（即MCT）构建的，此处本发明实施例与常规多通道特征跟踪算法的区别在于，采样策略的不同。

在原MCT算法中，为了尽可能搜寻到目标，对测试样本采用了密集采样的形式，以搜索半径25为例，则每一帧都需要采集1941个测试样本，因此在特征提取和分类上花费了大量时间，影响了算法的速度。

在本发明实施例中，为了保证计算过程有更快的速度，采用了稀疏采样的方法来代替密集搜索采样，从而得到未必十分精确的初步跟踪结果，然后在此结果上进一步执行精确定位。如图4所示，设当前帧图像的采样步长为r（图中所示为r=3时的状况），则在采样半径范围内每隔r列和r行采集一个样本，其稀疏率公式为：

以步长为3、采样半径25为例，网格采样共采集221个测试样本，稀疏率0.113。这种采样方式与特征基本单元的设置有关，保证了初步跟踪模块得到的结果不会距离目标真实位置很远。由基本单元构造可知，一个样本和在它5*5范围中的另一个样本的基础单元有相互重叠的部分，因此相对于较远处的样本而言，一般情况下它们的特征相似度更高，这样在跟踪的过程中，结果会定位到离密集采样最近的那几个样本上，这为接下来的精确定位提供了理想的输入，即使精确定位失败，目标位置的偏移误差也不会太大。以david视频为例，实验中，该视频共有280帧接受了精确定位模块的结果，在这280帧上，其定位与粗略跟踪结果的平均定位误差仅为2.4像素。

在一个实施例中，如图7所示，步骤S600中所提及的更新策略，特别的，对于所述对精确定位模块进行更新的步骤，具体包括：

所述对于精确定位模块进行更新的方式为：

步骤e，当输出的最终结果为初步跟踪结果或精确跟踪结果时，以所述初步跟踪结果或精确跟踪结果更新精确定位模块；

步骤f，当输出的最终结果为全局检测结果时，重置所述精确定位模块。

本发明实施例，精确定位模块采用STC跟踪算法构建，该算法跟踪性能好，尤其是其运行速度非常快，很适合在联合算法中使用，该算法在前面有比较详细的介绍，在此不再赘述。

由于精确定位模块为短时模块，当上一帧图像的跟踪结果为粗略跟踪或精确定位的结果时，按照该结果更新STC跟踪算法，而如果上一帧的结果为全局检测结果，就需要重置STC跟踪算法。这样做的好处在于当目标位置在时间上不连续时，其能及时抛弃以往的环境，采用新的背景信息，建立起新的精确定位模块。

如图8所示，在一个实施例中，提供了一种基于多模块联合的目标跟踪***，具体可以包括图像获取模块100、第一结果获取模块200、第二结果获取模块300、第三结果获取模块400、跟踪结果确定模块500和结果输出模块600。其中：

图像获取模块100，用于获取待处理的图像。

第一结果获取模块200，用于根据初步跟踪模块获取对所述图像中目标的初步跟踪结果。

第二结果获取模块300，用于根据精确定位模块对所述初步跟踪结果进行二次定位以获取精确跟踪结果。

第三结果获取模块400，用于根据全局检测模块获取对所述图像中目标的全局检测结果。

跟踪结果确定模块500，用于以初步跟踪结果和精确跟踪结果中分别与正负模板集中相似度较高的那一个作为跟踪结果，所述正负模板集由目标各种不同外观的正样本组成的正模板集和与目标相似度高于设定值的负样本组成的负模板集构成。

结果输出模块600，用于按设定的融合策略处理跟踪结果和全局检测结果，并输出最终结果。

图9示出了一个实施例中计算机设备的内部结构图。如图9所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于多模块联合的目标跟踪方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于多模块联合的目标跟踪方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的基于多模块联合的目标跟踪***可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于多模块联合的目标跟踪***的各个程序模块，比如，图8所示的图像获取模块100、第一结果获取模块200、第二结果获取模块300、第三结果获取模块400、跟踪结果确定模块500和结果输出模块600。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于多模块联合的目标跟踪方法中的步骤。

例如，图9所示的计算机设备可以通过如图8所示的基于多模块联合的目标跟踪***装置中的图像获取模块100执行步骤S100。计算机设备可通过结果输出模块600执行步骤S500。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理的图像；

在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

获取待处理的图像；

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本发明上述实施例中，共设置了4个有关融合策略的参数，分别为：当检测没结果时，设置跟踪是否可信的第一阈值T1=0.65；用于判断检测结果与跟踪结果是否有重叠的第二阈值T2=0.25；决定目标尺度是否更新的第三阈值T3=0.75及检测结果与跟踪结果没有重叠时，跟踪结果是否可信的第四阈值T4=0.65。

其它参数包括：初步跟踪模块搜索半径大小为20，学习参数r为0.85，特征数为200，测试样本采样步长为3；精确定位模块中采用的目标周围上下文环境大小为目标宽高的2倍，学习参数

为0.075；全局检测模块中相似度检测阈值为0.65。

关于对比算法，选择能代表目前先进水平的SCM算法、TLD算法、ALSA算法和CXT算法，以及与本发明实施例所述方法较为相关的STC算法和MCT算法。对比程序取自于各算法作者公开的源程序及2015年发表于IEEE的《Object Tracking Benchmark》文章中对输入输出数据格式修改后的版本。所有算法的目标初始状态均是一致的。在所有的测试视频中，所有***的参数都保持固定不变。

定量结果分析

表1和表2分别给出了各个算法在Benchmark数据集上部分视频上的跟踪结果。表1为跟踪成功率统计表，表2为跟踪中心误差统计表。其中跟踪成功的判定按照包围盒重叠率进行，当包围盒重叠率大于等于0.5时判定该帧的跟踪是成功的。包围盒重叠率定义为

，公式中

表示算法跟踪得到的目标框，而

表示事先标注好的Ground truth，某些算法在部分帧上没有跟踪输出，因此设置这些算法在没有结果输出的帧上的包围盒重叠率为0。

表1各算法在benchmark数据集上的成功率（最优结果用加黑显示，次于最优的结果加下划线显示）

视频	帧数	SCM	STC	TLD	CXT	ASLA	MCT	本发明实施例方法
									carDark	393	1.00	<u>1.00</u>	0.53	0.69	1.00	1.00	0.99
david	471	0.92	0.56	0.97	0.84	<u>0.96</u>	0.62	0.90
									david2	537	0.91	0.96	0.95	<u>1.00</u>	0.95	1.00	1.00
sylvester	1345	0.89	0.69	<u>0.93</u>	0.75	0.75	0.89	0.96
									fish	476	0.86	<u>1.00</u>	0.96	1.00	1.00	1.00	1.00
mhyang	1490	1.00	0.97	0.89	<u>1.00</u>	1.00	1.00	0.82
									shaking	365	0.90	0.53	0.40	0.11	0.38	0.98	<u>0.95</u>
boy	602	0.44	0.65	0.94	0.50	0.44	<u>0.97</u>	0.98
									dudek	1145	0.98	0.80	0.84	0.92	0.90	0.90	<u>0.96</u>
crossing	120	1.00	0.38	0.52	0.34	<u>1.00</u>	0.96	0.98
									couple	140	0.11	0.06	1.00	0.56	0.09	0.56	<u>0.66</u>
jogging-1	307	0.21	0.22	0.97	0.95	0.22	0.22	<u>0.96</u>
									jogging-2	307	0.99	0.18	0.83	0.15	0.18	0.16	<u>0.95</u>
doll	3872	0.99	0.13	0.63	<u>0.98</u>	0.92	0.73	0.63
									girl	500	<u>0.88</u>	0.69	0.76	0.64	0.91	0.58	0.68
walking	412	<u>0.96</u>	0.54	0.38	0.22	1.00	0.55	0.82
									fleetface	707	0.71	0.56	0.57	0.65	0.61	0.59	<u>0.66</u>
david3	252	0.48	<u>0.88</u>	0.10	0.14	0.51	0.75	0.99
									jumping	313	0.12	0.05	0.85	0.29	0.17	<u>0.95</u>	0.97
dog1	1350	0.85	0.65	0.67	1.00	0.92	0.64	0.73
									suv	945	0.98	0.58	0.84	<u>0.92</u>	0.58	0.72	0.85
mountainBike	228	0.96	0.96	0.26	0.28	0.90	<u>1.00</u>	1.00
									lemming	1336	0.17	0.48	0.59	<u>0.61</u>	0.17	0.46	0.83
liquor	1741	0.32	0.48	<u>0.58</u>	0.21	0.24	0.28	0.96
									woman	597	<u>0.86</u>	0.86	0.17	0.21	0.19	0.91	0.83
faceocc1	892	<u>1.00</u>	0.26	0.83	0.77	0.31	1.00	1.00
									faceocc2	812	0.87	0.90	0.83	<u>0.95</u>	0.81	0.99	0.91
basketball	725	0.61	0.53	0.02	0.02	0.56	0.93	<u>0.90</u>
									football	362	0.59	0.60	0.41	<u>0.66</u>	0.65	0.64	0.77
subway	175	0.99	0.22	0.23	0.23	0.22	0.93	<u>0.95</u>

表2各算法在benchmark数据集上的平均中心误差（最优结果用加黑显示，次于最优的结果加下划线显示）

视频	帧数	SCM	STC	TLD	CXT	ASLA	MCT	本发明实施例方法
									carDark	393	1.30	2.83	27.47	16.49	<u>1.54</u>	1.75	2.37
david	471	4.34	8.24	5.12	6.05	5.07	5.95	<u>4.53</u>
									david2	537	3.41	4.33	4.98	1.32	<u>1.45</u>	2.62	2.20
sylvester	1345	7.97	11.00	<u>7.31</u>	14.78	15.23	7.58	7.23
									fish	476	8.54	6.44	6.54	<u>6.25</u>	3.85	11.69	8.97
mhyang	1490	<u>2.41</u>	6.11	9.51	3.97	1.70	3.48	5.82
									shaking	365	10.99	16.98	37.11	129.21	22.35	6.41	<u>6.80</u>
boy	602	51.02	21.93	4.49	7.39	106.07	3.15	<u>3.36</u>
									dudek	1145	10.77	26.97	18.05	<u>12.82</u>	15.26	17.95	13.68
crossing	120	1.57	29.43	24.34	23.41	<u>1.85</u>	2.30	3.05
									couple	140	109.60	800.82	2.54	41.76	123.42	34.84	<u>23.19</u>
jogging-1	307	132.83	190.37	<u>6.69</u>	5.59	104.58	88.93	16.73
									jogging-2	307	4.15	159.20	13.56	139.70	169.86	129.18	<u>5.29</u>
doll	3872	3.45	140.26	6.01	<u>4.65</u>	11.84	4.94	7.17
									girl	500	2.60	11.84	9.79	10.97	<u>3.28</u>	12.35	7.39
walking	412	<u>2.49</u>	11.54	10.23	205.67	1.89	3.81	3.47
									fleetface	707	27.65	60.20	41.19	45.05	<u>31.09</u>	60.12	49.52
david3	252	73.09	7.27	208.00	222.21	87.76	53.14	<u>10.45</u>
									jumping	313	65.89	93.55	5.94	9.99	46.08	<u>4.92</u>	4.16
dog1	1350	7.00	6.08	4.19	4.89	<u>4.87</u>	8.39	10.97
									suv	945	4.56	173.45	13.03	<u>9.89</u>	74.81	24.58	12.21
mountainBike	228	10.59	7.23	216.13	178.76	<u>8.98</u>	11.13	9.93
									lemming	1336	185.72	80.66	15.99	61.39	178.82	79.62	<u>18.17</u>
liquor	1741	99.23	112.22	<u>37.58</u>	131.81	146.74	116.98	9.80
									woman	597	<u>7.88</u>	9.43	139.94	72.49	139.75	5.68	11.52
faceocc1	892	<u>13.04</u>	203.14	27.37	25.35	78.06	14.15	12.57
									faceocc2	812	9.02	18.32	12.28	6.27	19.34	<u>7.68</u>	9.45
basketball	725	52.90	78.11	213.86	214.57	82.63	<u>8.52</u>	8.23
									football	362	16.30	16.30	14.26	12.83	15.00	14.61	<u>13.51</u>
subway	175	3.45	217.07	149.76	139.51	138.37	4.35	<u>3.66</u>

从表1及表2中可以看到，本发明实施例所提供的方法在大多数的视频中取得了较好的成绩，其成功率数值高于MCT算法及代表目前先进水平的SCM和TLD等算法，充分表明了本发明实施例中的多模块联合跟踪方法是合理而且有效的。

对于本发明实施例中所提供的方法进行定性分析：

目标尺度发生变化的情况。

由于距离摄像头远近的不同会导致视频中目标大小不同，这种目标尺度发生变化的情形，在实际跟踪中经常出现。跟踪框保持初始大小不变的算法难以适应目标尺度变化剧烈的情形，当目标变得比较大时，跟踪框只能包含目标局部的某一小块区域，因此用于分类的信息会变少，而目标变得比较小时，会有较多的背景进入跟踪框，使目标与背景的之间变得不易区分，对性能造成一定影响。因此尺度的处理是很有必要的，下面以dog1数据集为例，分析各算法对尺度的处理能力。

如图10所示，在dog1视频中，目标在750帧到1200帧经历了离镜头从远到近然后再到远的过程。本发明实施例所提供的方法对尺度的处理主要依赖于融合策略对全局检测模块结果和跟踪结果的融合，全局检测模块在多个尺度上进行检测，只有当检测结果和跟踪结果相互重叠且重叠率小于一定阈值时，才对尺度进行更新。该种策略在本视频中起到了良好的调节作用，尺度既能及时的适应目标，又不至于上下跳动太大。在该视频上，CXT算法取得了非常好的跟踪性能，该算法利用了目标背景中的角点信息来辅助对目标的定位，这种策略在简单背景下比较有效，当背景复杂时，会因获得的角点不准确而导致跟踪失败。本例中背景是静止的，对该算法非常有利。

基于分类的跟踪算法不能处理尺度的变化，因此MCT算法虽然可以跟踪到目标，并且定位也比较准确，但由于目标框大小固定不变，最终性能受到影响；SCM算法采用了粒子滤波技术，在多个尺度及方向上进行采样，因此可以处理一定的尺度变化，但从1055帧及1286帧的结果中可以看出，在跟踪的后期，该算法对尺度的处理出现了偏差，未能很好的随尺度的减小而减小；TLD算法虽能处理尺度的变化，但不够稳定，在目标不断增大的过程中，跟踪框并未增大，原因在于该算法没有很快学***均值来调整的目标框大小，这种尺度调节方法不太稳定，经常有跟踪框忽大忽小的情况。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模块联合的目标跟踪方法，其特征在于，所述方法包括以下步骤：

获取待处理的图像；

2.根据权利要求1所述的方法，其特征在于，所述按设定的融合策略处理跟踪结果和全局检测结果，并输出最终结果的步骤，具体包括：

判定全局检测结果是否为空；

当所述全局检测结果为空时，则以跟踪结果作为最终结果并向外输出；

当所述全局检测结果不为空时，判定跟踪结果和全局检测结果之间是否存在重叠关系；

当所述跟踪结果和全局检测结果之间存在重叠关系，则判定重叠的两个目标框是否为包含关系，当重叠的两个目标框为包含关系且目标框重叠率小于设定的第三阈值时，以全局检测结果作为最终结果并向外输出，所述重叠的两个目标框不存在包含关系或者目标框重叠率大于设定的第三阈值时，则以跟踪结果作为最终结果并向外输出；

当所述跟踪结果和全局检测结果之间不存在重叠关系，则判定跟踪结果与正负模板集的相似度，当所述相似度大于设定的第四阈值时，则以跟踪结果作为最终结果并向外输出，当所述相似度小于设定的第四阈值时，则以全局检测结果中响应最大的那个作为最终结果并向外输出。

3.根据权利要求2所述的方法，其特征在于，还包括根据最终结果对所述初步跟踪模块、全局检测模块、精确定位模块以及正负模板集进行更新的步骤。

4.根据权利要求3所述的方法，其特征在于，所述更新的策略为：

当所述全局检测结果为空时，则以跟踪结果作为最终结果并向外输出，此时当跟踪结果与正负模板集的相似度大于设定的第一阈值时，执行对所述初步跟踪模块、全局检测模块、精确定位模块以及正负模板集的更新，否则不执行更新；

所述全局检测结果不为空且所述跟踪结果和全局检测结果之间存在重叠关系，当重叠的两个目标框为包含关系且目标框重叠率小于设定的第三阈值时，以全局检测结果作为最终结果并向外输出并执行更新，所述重叠的两个目标框不存在包含关系或者目标框重叠率大于设定的第三阈值时，则以跟踪结果作为最终结果并向外输出并执行更新；

当所述跟踪结果和全局检测结果之间不存在重叠关系，则判定跟踪结果与正负模板集的相似度，当所述相似度大于设定的第四阈值时，则以跟踪结果作为最终结果并向外输出，此时不执行更新，当所述相似度小于设定的第四阈值时，则以全局检测结果中响应最大的那个作为最终结果并向外输出且执行更新。

5.根据权利要求3或4所述的方法，其特征在于，所述对正负模板集进行更新的步骤，具体包括：

将图像中与目标跟踪结果重合度高于设定值的样本视为正样本，将由全局检测模块检测出但未被采纳为最终结果且远离最终结果位置的样本视为负样本；

当所述正样本与正模板集的相似度小于设定阈值时，将所述正样本加入至正模板集中；

当所述负样本与负模板集的相似度大于设置的阈值时，将所述负样本加入至负模板集中；

实时检测正负模板集中样本的数量，当所述样本的数量超过设定的阈值时，随机丢弃设定数量的样本。

6.根据权利要求1所述的方法，其特征在于，所述基于初步跟踪模块获取对所述图像中目标的初步跟踪结果的步骤中，执行稀疏采样策略，所述稀疏采样策略为在采样范围内，每间隔设定的行列数采集一个样本。

7.根据权利要求3或4所述的方法，其特征在于，所述对于精确定位模块进行更新的方式为：

当输出的最终结果为初步跟踪结果或精确跟踪结果时，以所述初步跟踪结果或精确跟踪结果更新精确定位模块；

当输出的最终结果为全局检测结果时，重置所述精确定位模块。