CN107341817A

CN107341817A - 基于在线度量学习的自适应视觉跟踪算法

Info

Publication number: CN107341817A
Application number: CN201710455281.3A
Authority: CN
Inventors: 康文静; 孙叔桥; 刘功亮
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2017-11-10
Anticipated expiration: 2037-06-16
Also published as: CN107341817B

Abstract

本发明涉及视觉跟踪技术领域，具体的说是一种基于在线度量学习的自适应视觉跟踪算法，在视觉跟踪领域的实际应用场景中，待跟踪视频序列中可获得的目标先验知识通常很少，传统预定义式距离度量算法很难应对长程跟踪任务要求，本发明提出了一种结合距离度量学习的鲁棒在线视觉跟踪算法，其将跟踪视为前、背景的二分类问题，并随着视频推进不断更新分类器，还提出了一种新的模板更新算法，使跟踪过程更具鲁棒性，为提高算法的精度和效率，提出采用稠密的SIFT特征和随机主成分分析法在保证跟踪效果的同时降低了特征维度，一系列实验结果显示，所提算法与当下诸多流行算法相比具有一定竞争力。

Description

基于在线度量学习的自适应视觉跟踪算法

技术领域：

本发明涉及视觉跟踪技术领域，具体的说是一种基于在线度量学习的自适应视觉跟踪算法。

背景技术：

作为计算机视觉的一个重要课题，视觉跟踪的讨论已经延续了多年。其主要任务是识别视频序列中的目标，并随着视频的推进不断跟踪目标的位置。在众多的跟踪方法中，在特征空间内对目标形态进行分类是最流行的方法之一。

对于大多数现有算法而言，相似度运算中都应用了预定义式的距离度量矩阵，比如欧式距离和马氏距离。然而，在诸如结构体目标发生明显形变等情况下，这种固定的度量方式很难达到更高的跟踪精度要求。不仅如此，背景和光照的变化也会导致基于预定义距离度量的跟踪算法跟踪失败。

因此，有学者提出了基于距离度量学习的具有适应性的跟踪算法，以此提高跟踪的鲁棒性。度量学习跟踪的基本思想是用视频序列的前几帧训练得到分类器，并在后续的跟踪过程中不断更新。距离度量的存在使得前、背景在特征空间内得到更好的区分，同时具有相同类别标签的点距离缩小。新的投射空间通常具有更低的维度，这也使得算法相比较原始空间的计算量大大降低。

发明内容：

本发明针对现有技术中存在的缺点和不足，提出了一种摒弃了当前大部分算法所应用的预定义式的距离度量方式，在不断习得的新空间内寻找匹配结果，从而扩大了可跟踪目标的多样性，提高了算法长程跟踪下的鲁棒性；此外还结合了自适应性筛选模板，改变了现有算法机械式的模板更新方式，使得模板库在保证容错能力的同时，更准确、快速地适应目标变化的基于在线度量学习的自适应视觉跟踪算法。

本发明通过以下措施达到：

一种基于在线度量学习的自适应视觉跟踪算法，其特征在于包括以下内容：

步骤1：用SIFT特征描述目标：特征提取算法应用的VLFeat特征提取库中的dSIFT快速算法，对于50×50大小的图块，对应的SIFT特征维度为128×9＝1152，这对在线跟踪算法而言是很大的计算量；因此用随机主成分分析法(RPCA)对提取到的SIFT特征进行降维：给定一个特征矩阵特征降维的基本思想是找到一个映射矩阵将原始n维特征空间投射至新的k维特征空间，从而实现降维目的，当已知特征矩阵和目标维度后，RPCA会定义一个过采样维度和一个随机投影矩阵对计算得到的新矩阵Y＝XΩ应用特征分解，有

其中B是一个中间矩阵，随后将其进行SVD分解

这样就可以通过下式得到X的近似矩阵

最终，新投影后的特征矩阵X^proj就可以通过X^proj＝XV_k得到，这里V_k是对y截取前k列得到的，对于一个1152维的SIFT特征，降维后的特征数量约为原来的1/3，即384维；

步骤2：应用监督式学习来构造和训练分类器：给定两个样本距离度量学习的目的是通过调整原始特征空间，改变训练集合样本间的空间相对位置关系，使得相同类别的样本间距离尽量缩小，不同类别间样本距离尽量增大，在此条件下的距离可以写成

d_G(x，y)＝(x-y)^TG(x-y) (4)

其中，G是习得的距离度量矩阵，以K-L散度作为衡量相似度的指标，前面的约束条件就可以写成

其中l和u是两个距离阈值；

用LogDet方法求解上述散度问题，由于在一帧内获得的样本数非常有限，无法得到全部参数的取值，算法中使用了“解靴带”(bootstrap)方法构造训练集，实际应用中，训练集包含两类样本：代表目标的正样本和代表背景信息的负样本

在得到满足约束条件的初始距离度量矩阵后，跟踪算法会在后续的每帧内更新距离度量，给定第t帧内提取的两个图块u_t和v_t，则它们之间的距离为如果预测的距离为y_t，那么就可以通过求解下式得到新的距离度量G_t+1

其中D是归一化函数，η是归一化参数，是目标距离和估计距离间的损失函数，令z_t＝u_t-v_t，则此最小化问题的解为

距离度量学习的目标是

其中和分别代表第t帧对应样本库内的目标和背景样本。

本发明中还包括自适应筛选模板更新，算法所使用的训练模板按照更新方式分为了两类：快速更新模板和稳健更新模板；前者的使用是为了及时适应目标的形变，而后者的使用则是为了防止跟踪结果漂移，其中快速更新模板是按照搜寻模板对每一帧提取得到的，搜寻模板的设计既保证了算法在处理背景信息上的效率，也保证了对目标的准确描述；稳健更新模板则保存在模板库中，其尺寸对于给定视频序列是固定的，初始模板是从用户在首帧标注的目标位置周围提取得到。

本发明中快速更新模板提取方式中每个星号(*)代表一个提取样本图块的中心位置；当前目标中心位置为原点，距其2像素范围内提取的图块为正样本，其余图块为负样本；当算法从当前帧内估计出目标位置后，9个目标大小的图块将会由跟踪算法从该位置周围2个像素范围内的区域中提取出来，假定I(x；t)表示从第t帧内提取得到的图块，其对应与训练集合T中的正样本集T_pos离最小的图块；表示该图块的SIFT特征提取结果，如果与T_pos之间的平均距离小于阈值，那么模板库的更新任务就是计算与当前模板库M_t＝{m₁，...，m_k}内各模板的距离，并将其与模板库内目标之间的距离做比较，如果新模板对应的距离大于M_t中至少一个模板对应的距离，则对应距离最小的那个模板将被新的模板I(x；t)替代，这么做的原因是，如果新模板与正样本集之间的距离小于阈值，则该模板可以被认为是正样本；同时，如果其与当前模板库内的模板距离更大，则认为其携带了更多的新信息，且这些信息是当前模板库中的模板所不具备的，因此，新的模板被用以替代那个与模板库M_t内其他模板更相似的旧模板。

本发明提出了一种基于度量学习的在线视觉跟踪算法，有效解决了长程跟踪过程中目标易丢失的问题，对运动模糊和物体形变有较强适应能力。所提算法通过距离度量学习不断更新距离空间，从而提高算法的鲁棒性。文中提出的自适应模板库内的模板，按照更新方式可划分为快速更新模板和稳健更新模板，分别用来应对目标的明显形变和跟踪的鲁棒性、延续性。二者的结合，保证了算法即可以快速适应目标的变化，也可以在算法出现误判时，仍然保证重新找回目标的可能性。除此之外，文中所提视觉跟踪算法应用了随机主成分分析法作为特征降维方式，有效将dSIFT的原始特征维度缩小2/3，进一步提高了算法的速度。对所提算法和当前流行算法在OTB视频序列下进行比较，实验结果证明本发明算法能够很好地应对大部分跟踪任务，具有较强的竞争力。

附图说明：

附图1是本发明中快速更新模板提取方式。

附图2是本发明中重叠率曲线示意图。

附图3是本发明中中心偏差示意图。

附图4是本发明中跟踪效果直观比对示意图。

具体实施方式：

下面结合附图对本发明作进一步的说明。

本发明中提出了一种基于距离度量学习的视觉跟踪算法，摒弃了当前大部分算法所应用的预定义式的距离度量方式，在不断习得的新空间内寻找匹配结果，从而扩大了可跟踪目标的多样性，提高了算法长程跟踪下的鲁棒性。此外，算法还结合了自适应性筛选模板，改变了现有算法机械式的模板更新方式，使得模板库在保证容错能力的同时，更准确、快速地适应目标变化。

构造一个鲁棒视觉跟踪算法的重要问题之一是如何选择合适的目标描述方式，这不仅仅会影响跟踪的结果，也会影响跟踪的速度。直观上，像素值就可以有效描述一个物体，且容易获取。然而，如果不加高级处理，灰度值特征容易受到诸如光照变化、姿态变化等条件变化的影响。即使通过度量矩阵学习对其进行补偿，想要提高基于灰度值特征的跟踪算法的表现仍挑战重重。考虑到SIFT特征可以更好地应对诸如旋转、微小形变、光照变化等复杂情况，本发明中主要关注SIFT特征。

SIFT特征用特征点和描述子刻画目标。对于一个物体，关键点对应其多层高斯微分(DoG)下的极值。经过一系列必要中间步骤(删减关键点、反馈降维、方向指定等)之后，目标中所提取的每一个关键点都会对应一个128维特征向量。在应用中，一个50×50像素大小的图块会筛选出9个SIFT关键点。由于SIFT特征提取计算量大，严重影响了算法跟踪速度。因此，这里的特征提取算法应用的VLFeat特征提取库]中的dSIFT快速算法，在保证了特征效果和稠密度的同时提高了运算速度。

对于50×50大小的图块，对应的SIFT特征维度为128×9＝1152，这对在线跟踪算法而言是很大的计算量。因此，本算法提出用随机主成分分析法(RPCA)对提取到的SIFT特征进行降维。

给定一个特征矩阵特征降维的基本思想是找到一个映射矩阵将原始n维特征空间投射至新的k维特征空间，从而实现降维目的。当已知特征矩阵和目标维度后，RPCA会定义一个过采样维度和一个随机投影矩阵对计算得到的新矩阵Y＝XΩ应用特征分解，有

其中B是一个中间矩阵。随后将其进行SVD分解

这样就可以通过下式得到X的近似矩阵

最终，新投影后的特征矩阵W^proj就可以通过W^proj＝XV_k得到。这里V_k是对y截取前k列得到的。对于一个1152维的SIFT特征，降维后的特征数量约为原来的1/3，即384维。相较于随机投影算法(RP)，RPCA算法效果更稳定。

机器学习方法可以按照训练集合是否有类别标签分为两类：监督式学习和非监督式学习。总体来说，监督式学习(训练过程包含类别标签)在大多数视觉跟踪应用中表现更好。首先，在跟踪过程中，很容易获得训练样本的类别标签，因为无论在初始化过程还是跟踪判断过程，当前帧以前的目标位置及相关信息都是已知的。目标作为前景，以类别1标注，除此之外的所有信息都称为背景，以类别0(或-1)标注。另外，非监督式算法通常需要更长的训练时间，因为其训练过程是由不断聚类和均值移位组成的。因此，本算法应用监督式学习来构造和训练分类器。

给定两个样本距离度量学习的目的是通过调整原始特征空间，改变训练集合样本间的空间相对位置关系，使得相同类别的样本间距离尽量缩小，不同类别间样本距离尽量增大。在此条件下的距离可以写成

d_G(x，y)＝(x-y)^TG(x-y) (12)

其中，G是习得的距离度量矩阵。以K-L散度作为衡量相似度的指标，前面的约束条件就可以写成

其中l和u是两个距离阈值。

用LogDet方法求解上述散度问题。由于在一帧内获得的样本数非常有限，无法得到全部参数的取值，算法中使用了“解靴带”(bootstrap)方法构造训练集。实际应用中，训练集包含两类样本：代表目标的正样本和代表背景信息的负样本

在得到满足约束条件的初始距离度量矩阵后，跟踪算法会在后续的每帧内更新距离度量。给定第t帧内提取的两个图块u_t和v_t，则它们之间的距离为如果预测的距离为y_t，那么就可以通过求解下式得到新的距离度量G_t+1

其中D是归一化函数，η是归一化参数，是目标距离和估计距离间的损失函数。令z_t＝u_t-v_t，则此最小化问题的解为

距离度量学习的目标是

其中和分别代表第t帧对应样本库内的目标和背景样本。

在跟踪过程中，模板对于算法的表现有着重要的影响。通常，当有新的视频帧输入时，大部分现有算法会在用户给定的中心位置或是估计得到的目标位置周围提取图块，从而得到正负模板。这就导致目标对于物体的形变敏感，因此难以很好地应对目标物体在视频过程中可能发生的形变，从而导致跟踪失败。且一旦目标丢失，由于所有的模板都受到了影响，此类算法也就很难再次找回目标。

为了避免这一情况，算法所使用的训练模板按照更新方式分为了两类：快速更新模板和稳健更新模板。前者的使用是为了及时适应目标的形变，而后者的使用则是为了防止跟踪结果漂移。快速更新模板是按照图1所示的搜寻模板对每一帧提取得到的。搜寻模板的设计既保证了算法在处理背景信息上的效率，也保证了对目标的准确描述。稳健更新模板则保存在模板库中，其尺寸对于给定视频序列是固定的。初始模板是从用户在首帧标注的目标位置周围提取得到。

如图1所示，快速更新模板提取方式中每个星号(*)代表一个提取样本图块的中心位置；当前目标中心位置为原点，距其2像素范围内提取的图块为正样本，其余图块为负样本。

当算法从当前帧内估计出目标位置后，9个目标大小的图块将会由跟踪算法从该位置周围2个像素范围内的区域中提取出来。假定I(x；t)表示从第t帧内提取得到的图块，其对应与训练集合T中的正样本集T_pos离最小的图块。表示该图块的SIFT特征提取结果。如果与T_pos之间的平均距离小于阈值，那么模板库的更新任务就是计算与当前模板库M_t＝{m₁，...，m_k}内各模板的距离，并将其与模板库内目标之间的距离做比较。如果新模板对应的距离大于M_t中至少一个模板对应的距离，则对应距离最小的那个模板将被新的模板I(x；t)替代。这么做的原因是，如果新模板与正样本集之间的距离小于阈值，则该模板可以被认为是正样本；同时，如果其与当前模板库内的模板距离更大，则认为其携带了更多的新信息，且这些信息是当前模板库中的模板所不具备的。因此，新的模板被用以替代那个与模板库M_t内其他模板更相似的旧模板。

本发明中进行了一系列实验将所提算法与当前的一些流行算法做比较，实验所用视频序列为OTB benchmark中的视频序列。这些序列包含了姿势、光照、旋转及尺度变化、遮挡和快速移动等多类情况。实验环境为MATLAB R2012a，使用硬件为因特尔3.10GHz处理器，4GB RAM。

本发明所提算法与以下七类算法进行了比较：1)CCT；2)CSK；3)DFT；4)FOT；5)KCF；6)LCT；7)LSHT。

比较中运用了两类评价指标：重叠率(OR)和中心偏差(CLE)。给定第t帧内的一个估计位置所对应的图块P_t和该帧内对应的真值位置G_t，定义重叠率为

其中∩和∪分别代表区域的交集和并集，|·|代表区域内的像素点数。重叠率OR按照阈值从0到1画出曲线，曲线上的点表示重叠率高于阈值的帧所占比例。可见，重叠率曲线越高，代表算法表现越好。

CLE表示欧氏距离下估计位置和真值之间的中心位置偏差

其中(P_xt，P_yt)和(G_xt，G_yt)分别代表估计位置中心和真值位置中心。同样的，中心位置偏差越小，则算法表现越好。

这里给出了一些具有挑战性的序列的跟踪实验结果。在整个实验过程中，所有的跟踪算法所用参数都是固定的，以满足一个算法可以更好地应对所有情况的需求。图2是部分OTB序列对应的重叠率(OR)曲线。横坐标对应阈值设定从0％到100％，曲线则代表对应重叠率高于阈值的帧所占整个视频序列帧数的比例。因此，一条曲线下降越慢，其对应算法的表现就越好。考虑到如果没有重叠区域则算法跟踪失败，则阈值为1％处所对应的数值可视为该算法的成功率。图3是部分OTB视频序列对应的中心偏差(CLE)。与图2类似，中心偏差曲线是按照阈值从1到50绘制而成的，曲线上所对应点表示中心偏差小于阈值的帧所占整个视频序列帧数的比例。可见，比例越高则代表算法表现越好。通常使用中心偏差阈值为20所对应的值进行分析。

快速运动(FM)和运动模糊(MB)是实际视频序列中常见的挑战。因此，算法应对这些问题的表现是实际评估中的一个重要指标。OTB benchmark中包含了许多含有快速运动和运动模糊的视频序列，比如BlurCar1、BlurFace,、Car1¹,、Deer、Girl2,、Human9,、Soccer等。文中应用这些视频序列将所提算法与其他算法做比较，对应的OR和CLE分别表示在图2和图3中。从图中可以看出，所提算法在应对大部分包含FM和MB的视频序列时效果都优于其他算法。尽管有些算法(如CCT)在可近似视为静止的目标跟踪上有着不错的效果，但其应对快速移动物体和运动模糊等情况却存在明显缺陷。

附图2是重叠率曲线示意图，曲线按照1％到100％阈值绘制，横轴为阈值，纵轴为重叠率高于阈值的视频帧所占比例。

附图3是中心偏差示意图，其中曲线横轴按照阈值1到50绘制，阈值的值对应估计位置和真值的中心位置的欧氏距离，纵轴代表偏差小于阈值的视频帧所占比例。

除了FM和MB，结构性物体的形变(DEF)、遮挡(OCC)、平面内旋转(IPR)和平面外旋转(OPR)也是视频跟踪中的重要挑战。包含这些因素的视频序列有Bolt²、Coupon、David3、Gym、Trellis等。此外，David3和Trellis也包含了背景模糊、光照变化和尺度变化等。这些视频序列对应的实验结果也显示了所提跟踪算法的优越性。

图4标注出了上述视频序列中对应最后一帧的跟踪结果，以供更直观的比较。所用算法分别用8种不同颜色标出跟踪结果。可见，所提算法的表现优于其他算法，且跟踪目标的位置距真实目标更近。

Claims

1.一种基于在线度量学习的自适应视觉跟踪算法，其特征在于包括以下内容：

其中B是一个中间矩阵，随后将其进行SVD分解

<mrow> <mi>B</mi> <mo>=</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <msup> <mi>&Sigma;V</mi> <mi>T</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>20</mn> <mo>)</mo> </mrow> </mrow>

这样就可以通过下式得到X的近似矩阵

<mrow> <mi>X</mi> <mo>&ap;</mo> <msup> <mi>QQ</mi> <mi>T</mi> </msup> <mi>X</mi> <mo>=</mo> <mi>Q</mi> <mrow> <mo>(</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <msup> <mi>&Sigma;V</mi> <mi>T</mi> </msup> <mo>)</mo> </mrow> <mo>:</mo> <mo>=</mo> <msup> <mi>U&Sigma;V</mi> <mi>T</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>21</mn> <mo>)</mo> </mrow> </mrow>

最终，新投影后的特征矩阵X^proj就可以通过X^proj＝XV_k得到，这里V_k是对V截取前k列得到的，对于一个1152维的SIFT特征，降维后的特征数量约为原来的1/3，即384维；

d_G(x,y)＝(x-y)^TG(x-y) (22)

<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mi>G</mi> </munder> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mrow> <mi>x</mi> <mo>;</mo> <msub> <mi>G</mi> <mn>0</mn> </msub> </mrow> <mo>)</mo> <mi>p</mi> <mo>(</mo> <mrow> <mi>x</mi> <mo>;</mo> <mi>G</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>d</mi> <mi>G</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>&le;</mo> <mi>l</mi> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mi> </mi> <mi>l</mi> <mi>a</mi> <mi>b</mi> <mi>e</mi> <mi>l</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>l</mi> <mi>a</mi> <mi>b</mi> <mi>e</mi> <mi>l</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow></mrow> </mtd> <mtd> <mrow> <msub> <mi>d</mi> <mi>G</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mi>u</mi> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mi> </mi> <mi>l</mi> <mi>a</mi> <mi>b</mi> <mi>e</mi> <mi>l</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&NotEqual;</mo> <mi>l</mi> <mi>a</mi> <mi>b</mi> <mi>e</mi> <mi>l</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>23</mn> <mo>)</mo> </mrow> </mrow>

其中l和u是两个距离阈值；

<mrow> <msub> <mi>G</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msub> <mi>G</mi> <mi>t</mi> </msub> <mo>-</mo> <mfrac> <mrow> <mi>&eta;</mi> <mrow> <mo>(</mo> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>G</mi> <mi>t</mi> </msub> <msub> <mi>z</mi> <mi>t</mi> </msub> <msubsup> <mi>z</mi> <mi>t</mi> <mi>T</mi> </msubsup> <msub> <mi>G</mi> <mi>t</mi> </msub> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <mi>&eta;</mi> <mrow> <mo>(</mo> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <msubsup> <mi>z</mi> <mi>t</mi> <mi>T</mi> </msubsup> <msub> <mi>G</mi> <mi>t</mi> </msub> <msub> <mi>z</mi> <mi>t</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>25</mn> <mo>)</mo> </mrow> </mrow>

距离度量学习的目标是

其中和分别代表第t帧对应样本库内的目标和背景样本。

2.根据权利要求1所述的一种基于在线度量学习的自适应视觉跟踪算法，其特征在于还包括自适应筛选模板更新，算法所使用的训练模板按照更新方式分为了两类：快速更新模板和稳健更新模板；前者的使用是为了及时适应目标的形变，而后者的使用则是为了防止跟踪结果漂移，其中快速更新模板是按照搜寻模板对每一帧提取得到的，搜寻模板的设计既保证了算法在处理背景信息上的效率，也保证了对目标的准确描述；稳健更新模板则保存在模板库中，其尺寸对于给定视频序列是固定的，初始模板是从用户在首帧标注的目标位置周围提取得到。

3.根据权利要求2所述的一种基于在线度量学***均距离小于阈值，那么模板库的更新任务就是计算与当前模板库M_t＝{m₁,…,m_k}内各模板的距离，并将其与模板库内目标之间的距离做比较，如果新模板对应的距离大于M_t中至少一个模板对应的距离，则对应距离最小的那个模板将被新的模板I(x；t)替代，这么做的原因是，如果新模板与正样本集之间的距离小于阈值，则该模板可以被认为是正样本；同时，如果其与当前模板库内的模板距离更大，则认为其携带了更多的新信息，且这些信息是当前模板库中的模板所不具备的，因此，新的模板被用以替代那个与模板库M_t内其他模板更相似的旧模板。