CN107424177A

CN107424177A - 基于连续相关滤波器的定位修正长程跟踪算法

Info

Publication number: CN107424177A
Application number: CN201710686738.1A
Authority: CN
Inventors: 康文静; 李欣尤; 刘功亮
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2017-12-01
Anticipated expiration: 2037-08-11
Also published as: CN107424177B

Abstract

本发明涉及视觉跟踪算法技术领域，具体的说是一种拥有更好的追踪性能和追踪稳定性的基于连续相关滤波器的定位修正长程跟踪算法，包括：实现连续域内的目标定位，选择目标特征，通过分别训练三个模板R_t、R_s和R_d实现，其中目标定位模板R_t是对目标外观的变化进行实时编码，同时需要对一些追踪干扰如快速移动和光照变化保持鲁棒性，选择VGG‑19卷积神经网络，使用conv3‑4,conv4‑4和conv5‑4这三层的输出特征来训练目标的定位模板R_t，而对于R_s和R_d模板，考虑到计算效率的问题，使用HOG特征；实现目标重定位。

Description

基于连续相关滤波器的定位修正长程跟踪算法

技术领域：

本发明涉及视觉跟踪算法技术领域，具体的说是一种拥有更好的追踪性能和追踪稳定性的基于连续相关滤波器的定位修正长程跟踪算法。

背景技术：

以图像或者视频为基础的目标跟踪技术是计算机视觉领域的重要研究课题，广泛应用于视频监控、智能导航/辅助驾驶、智能机器人、运动行为分析等领域。目标跟踪的基本框架是在视频序列的第一帧初始化包含兴趣目标的矩形框，追踪器在接下来的视频帧中标定目标的位置、面积和外形等。目标跟踪虽然应用广泛，但复杂场景下的长程跟踪仍然是一个具有挑战性的课题，因为追踪器常常会因为各种干扰因素影响而造成追踪的偏移，这些干扰因素包括目标的遮挡、快速移动和尺度变化等。且追踪器的偏移误差容易产生积累，在长程跟踪情况下易造成追踪失效。

发明内容：

本发明针对现有技术中存在的缺点和不足，提出了一种拥有更好的追踪性能和追踪稳定性的基于连续相关滤波器的定位修正长程跟踪算法。

本发明通过以下措施达到：

一种基于连续相关滤波器的定位修正长程跟踪算法，其特征在于

步骤1：实现连续域内的目标定位，具体通过获得连续域内的相关滤波器实现，当给定了相关滤波器的权重w后，获得追踪器的相关相应图y_res定义在连续域内，同时Z表示在当前帧使用上一帧目标位置获取的搜索窗的特征，在相关滤波器跟踪算法中，目标物体的位置通过搜索整张响应图并寻找最大值y_res所在的位置来确定，分两步来实现目标的精细定位：首先将响应图y_res的位置索引s(t),t∈[0,T)划分为离散域s(T_n/(2K+1)),T_n＝0,…,2K，在位置s(T_n/(2K+1))上使用网格搜索，然后使用搜索到的最大值的位置作为y_res的起始搜索位置，使用牛顿迭代法实现连续域内的目标定位，而牛顿迭代法的海塞矩阵和偏导数可以通过分析y_res获得；

步骤2：选择目标特征，通过分别训练三个模板R_t、R_s和R_d实现，其中目标定位模板R_t是对目标外观的变化进行实时编码，同时需要对一些追踪干扰如快速移动和光照变化保持鲁棒性，选择VGG-19卷积神经网络，使用conv3-4,、conv4-4和conv5-4这三层的输出特征来训练目标的定位模板R_t，而对于R_s和R_d模板，考虑到计算效率的问题，使用HOG特征；

步骤3：实现目标重定位：在CCFT算法中，使用像素值对比的结果作为二值特征来训练随机蕨分类器，首先在图像块上进行一定数量的像素值对比，得出每一棵随机蕨的先验概率，然后将所有随机蕨的先验概率进行平均，就得到了检测器，搜索方法是通过使用k最近邻分类器寻找最可靠的训练样本，且如果k个最近邻的特征图都显示为正样本，则这一图像块则被认为是所寻找的目标图像。

本发明步骤1中连续域内的相关滤波器通过以下步骤获得：

假设追踪器的训练样本x包含D个特征通道x¹,…,x^D，每个特征通道x^d可以生成一个相对应的相关滤波器的权重w^d，则传统的相关滤波器可以由求解下面的损失函数获得：

其中λ是正则化参数(λ≥0)，同时y是相关滤波器的期望输出，它是二维高斯函数的形状，‖f(k)‖₂表示序列f(k)的二范数，且

在提出的算法中，损失函数中所涉及的所有参数都定义在连续域内，但实际上，训练样本的特征通道x^d来源于所提取的图像，而图像是由离散的像素点来表示，所以x^d也是离散的，因此本发明引入χ^d用于表示x^d经过插值以后得到的连续图像，使用的方法是三次样条插值。假设一维的特征通道包含N_d个像素点，本发明使用x^d[n]来表示x^d中每个像素点的取值，其中n∈{0,1,…,N_d-1}。则插值以后的图像由式(2)获得：

χ^d(v)是插值后的样本特征，它是由插值函数b_d的循环叠加获得的，其中x^d[n]用作循环样本b_d的权重，通过应用式(2)，离散的特征通道x^d[n]被映射到连续域内χ^d(v)，v∈(0,V]，三次样条核函数b_d可表示为式(3)：

其中a是x＝1处核函数的导数值；

使用更为精细的插值函数——三次样条函数，同时，将特征图插值到连续域内，由此训练出连续域内的相关滤波器，进而实现连续的目标定位；给定已插值的特征图，本发明可以通过调整传统的损失函数来学习得到连续的相关滤波器：

式(4)中的所有变量都定义在连续域内。假设表示a的离散傅里叶系数，且即可以将表示为a和复指数函数e_k(t)＝e^i2πkt/T的内积的形式，根据式(2)和(4)可得出插值后的相关响应图的形式为因为响应图已经***值到连续域内，则总的响应图可表示为为了训练相关滤波器w，将损失函数变换到频率域内表示：

式(5)中定义的相关滤波器权重包含无限多个傅里叶系数，但在实际应用中，考虑到计算效率本发明使用有限个傅里叶系数来表示相关滤波器为此，本发明提出定义一个有限维的子域然后在傅里叶系数的基础上求解式(5)，当|k|>K_d时定义同时将K_d的值设定为|N_d/2|，这时d特征通道对应的相关滤波器的系数个数与x^d的傅里叶系数个数相等，应用二范数性质，(5)式的损失函数可以等价于：

式(6)中的期望输出Y定义为其中K＝maxK_d。矩阵Q＝[Q¹…Q^D]拥有2K+1行且包含拥有2K+1列的元素本发明引入非零的相关滤波器系数向量和矩阵本发明将式(6)两边分别对W进行求导并得到：

(QHQ+λ)W＝Q^HY (6)

Q^H表示矩阵Q的复共轭。式(7)的解等价于下式：

式(8)训练出的相关滤波器w定义在连续域内，同时每一个训练样本对应一个连续的期望输出Y，在这种情况下，本发明训练出的相关滤波器可以实现目标位置的连续定位，大大减少因为离散定位而引入的定位误差。

上述对于连续卷积滤波器的推导可以推广到二维的情形，而二维的情形也正是视频跟踪对应的情况，对于训练样本，本发明使用x(t₁,t₂)来表示所提取的特征图；插值函数可以用三次样条核函数的组合得到b(t₁,t₂)＝b(t₁)b(t₂)；而二维情况下的复共轭函数可以写为

本发明还提出在目标的预测位置及附近构建9个尺度金字塔的改进方案，能够在追踪漂移的情况下有效预测目标大小，同时还能有效地保持尺度模板的稳定性，选取目标的预测位置及其周围点所在位置构建9个尺度金字塔，其中每一个矩形框的边长代表一个像素值的距离，对于每一个尺度金字塔，使用p_s_max来表示它的置信度，其中s代表金字塔所处的中心位置，通过比较p_s_max的大小选择最优的一个金字塔，然后用最优金字塔对目标的尺度进行估计，假设S_s代表使用位置在s处的尺度金字塔计算出的目标大小，则最优金字塔的位置索引由式(11)获得：

于是将这一帧的目标大小估计为并把位置作为追踪器修正后的目标位置，实验表明，追踪器定位越准确，尺度金字塔计算出的尺度越精准；所以当尺度金字塔的中心位置与目标中心位置的真值越接近时，将得到更大的相关滤波器响应。

本发明实现目标重定位时需要追踪失效以后目标物体的重获取，具体通过以下方法实现：计算每帧图像相关滤波器响应图的最大值，然后预先设定一个阈值ξ_s作为追踪器是否丢失目标的一个判断依据，如果相关响应图的最大值ξ<ξ_s，检测器就会被激活然后在全图范围内对目标进行搜索，假设c_i,i∈{0,1}是类别的索引且f_k,k∈{1,2,…,N}表示一系列的二值特征，可以根据后验概率来确定物体的类别i：

根据贝叶斯方程可以把后验概率用先验概率来表示：

在这里认为样本的类别遵循均匀分布，此时可发现P(f₁,f₂,…,f_N)与样本的类别无关，则样本的类别可以由先验概率来获得：

考虑到计算效率的问题，我们认为二值特征之间是相互独立的，而每一个二值特征就看作一棵随机蕨的叶子节点，令F_k＝{f_σ(k,1),f_σ(k,2),…,f_σ(k,N)}作为第k棵随机蕨，从贝叶斯概率论的角度看来，通过求解下式可确定物体的类别c_i，其中先验概率由学习得来：

本发明模板的更新包括以下内容：

共训练了三个模板R_t、R_s和R_d，分别用于目标定位，尺度估计和目标检测，因为视频序列中存在很多影响目标外观的因素，需要建立一个对于遮挡、形变还有快速移动能够保持鲁棒的目标模板，根据式(8)，我们训练连续的相关滤波器引入和作为目标模板，则在每一帧我们使用更新率η来对目标模板进行更新:

A＝A^t-1+ηA^t (11)

B＝B^L-1+ηB^t (12)

其中t是视频帧数的索引，我们使用(16)、(17)更新R_t,R_s和R_d，如果A和B代表连续的相关滤波器，P^d表示插值后的特征图即对于尺度模板R_s和检测模板R_d,P^d是相对应的特征通道值得注意的是，我们在每一帧都使用一个大的更新率更新R_t和R_s，为的是使模板能够保持对目标变化的敏感性。另一方面，为了保持模板对物体大形变和遮挡的鲁棒性，R_d使用一个较小的更新率。

本发明与现有技术相比，减小了离散域目标定位造成的定位误差，同时解决了不同分辨率响应图的合成问题；我们开创性地提出了改进的尺度金字塔方法，这种方法能削减定位误差的影响并同时有效地对目标大小进行估计，我们提出的方法是在预测目标位置及附近构建多个尺度金字塔，通过对这些金字塔分别进行评价，选出最合适的一个来对尺度进行估计，同时完成定位误差的修正，我们设计了追踪失效以后目标的有效再获取方法——通过激活随机蕨分类器在全图范围内寻找潜在的目标，然后使用全局模板对这些潜在的目标进行评价，选出最优目标作为重追踪的结果，在OTB-100视频数据集上的测试结果表明，提出的算法优于当今其他高水准的视觉跟踪算法，尤其在长程视频跟踪上体现了无与伦比的优越性。

附图说明：

附图1是本发明CCFT、KCF、Struck三种算法在freeman4上的测试结果对比图。

附图2是本发明中尺度金字塔构建位置示意图。

附图3是本发明中OPE条件下6个算法的测试结果对比，其中距离精度图使用的指标是20像素为阈值情况下的距离精度，重叠率精度图的指标是曲线所包围的面积(AUC)。

附图4是本发明中6种不同视频属性下的算法重叠率精度测试。

附图5是本发明中测试算法CCFT，HCF，LCT，KCF，Struck和TLD对6个具有挑战性的视频序列(Car1，Biker，DragonBaby，Dog1，Lemming和Human3)的追踪结果。

附图6是本发明中测试算法对6个视频序列(Car1，Biker，DragonBaby，Dog1，Lemming和Human3)每一帧的跟踪中心偏差图。

附图7是本发明中算法成分分析对比图，其中距离精度图使用的指标是20像素为阈值情况下的距离精度，重叠率精度图的指标是曲线所包围的面积(AUC)。

具体实施方式：

下面结合附图对本发明作进一步的说明。

本发明的目标是首先建立一个在连续域内的相关滤波器，以此获得更高的追踪器性能。假设追踪器的训练样本x包含D个特征通道x¹,…,x^D，每个特征通道x^d可以生成一个相对应的相关滤波器的权重w^d。则传统的相关滤波器可以由求解下面的损失函数获得：

其中λ是正则化参数(λ≥0)，同时y是相关滤波器的期望输出，它是二维高斯函数的形状。‖f(k)‖₂表示序列f(k)的二范数，且

在提出的算法中，损失函数中所涉及的所有参数都定义在连续域内。但实际上，训练样本的特征通道x^d来源于所提取的图像，而图像是由离散的像素点来表示，所以x^d也是离散的。因此我们引入χ^d用于表示x^d经过插值以后得到的连续图像，使用的方法是三次样条插值。假设一维的特征通道包含N_d个像素点，我们使用x^d[n]来表示x^d中每个像素点的取值，其中n∈{0,1,…,N_d-1}。则插值以后的图像由式(2)获得：

χ^d(v)是插值后的样本特征，它是由插值函数b_d的循环叠加获得的，其中x^d[n]用作循环样本b_d的权重。通过应用式(2)，离散的特征通道x^d[n]被映射到连续域内χ^d(v)，v∈(0,V]。根据文献^[11]，三次样条核函数b_d可表示为式(3)：

其中a是x＝1处核函数的导数值。

HCF、HDT等算法也使用核函数的方法将目标物体不同的特征通道进行插值操作。它们使用双线性插值将特征图调整到同一个离散的分辨率大小，以解决不同分辨率的特征图的融合问题。但是这种处理方式最终也只能实现离散的目标定位。不同于前人的工作，我们使用更为精细的插值函数——三次样条函数。同时，我们将特征图插值到连续域内，由此训练出连续域内的相关滤波器，进而实现连续的目标定位。

给定已插值的特征图，我们可以通过调整传统的损失函数来学习得到连续的相关滤波器：

式(4)中的所有变量都定义在连续域内。假设表示a的离散傅里叶系数，且即可以将表示为a和复指数函数e_k(t)＝e^i2πkt/T的内积的形式。根据式(2)和(4)我们可以得出插值后的相关响应图的形式为因为响应图已经***值到连续域内，则总的响应图可表示为为了训练相关滤波器w，我们将损失函数变换到频率域内表示：

式(5)中定义的相关滤波器权重包含无限多个傅里叶系数，但在实际应用中，考虑到计算效率我们使用有限个傅里叶系数来表示相关滤波器为此，我们提出定义一个有限维的子域然后在傅里叶系数的基础上求解式(5)。当|k|>K_d时定义同时将K_d的值设定为|N_d/2|，这时d特征通道对应的相关滤波器的系数个数与x^d的傅里叶系数个数相等。

应用二范数性质，(5)式的损失函数可以等价于：

式(6)中的期望输出Y定义为其中K＝max K_d。矩阵Q＝[Q¹ …Q^D]拥有2K+1行且包含拥有2K+1列的元素我们引入非零的相关滤波器系数向量和矩阵我们将式(6)两边分别对W进行求导并得到：

(Q^HQ+λ)W＝Q^HY (19)

Q^H表示矩阵Q的复共轭。式(7)的解等价于下式：

式(8)训练出的相关滤波器w定义在连续域内，同时每一个训练样本对应一个连续的期望输出Y。在这种情况下，我们训练出的相关滤波器可以实现目标位置的连续定位，大大减少因为离散定位而引入的定位误差。

上面对于连续卷积滤波器的推导可以推广到二维的情形，而二维的情形也正是视频跟踪对应的情况。对于训练样本，我们使用x(t₁,t₂)来表示所提取的特征图；插值函数可以用三次样条核函数的组合得到b(t₁,t₂)＝b(t₁)b(t₂)；而二维情况下的复共轭函数可以写为

传统的尺度金字塔将不同大小的图像块作为训练样本来训练一个尺度模型。对于视频的每一帧，尺度金字塔就建立在预测目标的位置，且用于估计目标在这一帧的大小。假设N代表尺度样本的个数，每个样本的尺度因子为a，[h,w]是目标在上一帧的大小。对于每一个n∈{-(N-1)/2,…,(N-1)/2}，在预测目标的位置提取大小为S_n＝αⁿ·[h,w]的图像块I_n。接着对每一个图像块提取它的图像特征并计算每个特征通道相应的相关滤波器。而相关滤波器的权重可以由式(9)获得^[3]：

在这里表示图像块I_n的第k个特征通道。Y是期望的相关滤波器输出，λ是正则化参数。相关滤波器的响应res_n可以由相关滤波器权重获得。对于尺度为S_n的图像块I_n，我们寻找尺度金字塔每一层的响应图R_n里的最大值p_n，然后通过比较p_n,n∈{-(N-1)/2,…,(N-1)/2}的索引n来确定目标的尺度大小：

则预测目标大小可以表示为因为尺度金字塔建立在预测目标位置处，所以追踪偏移会影响到预测尺度的准确性，同时也会影响到尺度模板的稳定性。根据这一问题，本发明提出在目标的预测位置及附近构建9个尺度金字塔的改进方案，如图2所示。这种方法能够在追踪漂移的情况下有效预测目标大小，同时还能有效地保持尺度模板的稳定性。

图2中蓝点代表这一帧目标的预测位置，选取这一位置及其周围绿色点所在位置构建9个尺度金字塔，其中每一个矩形框的边长代表一个像素值的距离。对于每一个尺度金字塔，使用p_s_max来表示它的置信度，其中s代表金字塔所处的中心位置。我们通过比较p_s_max的大小选择最优的一个金字塔，然后用最优金字塔对目标的尺度进行估计。假设S_s代表使用位置在s处的尺度金字塔计算出的目标大小，则最优金字塔的位置索引由式(11)获得：

于是将这一帧的目标大小估计为并把位置作为追踪器修正后的目标位置。实验表明，追踪器定位越准确，尺度金字塔计算出的尺度越精准；所以当尺度金字塔的中心位置与目标中心位置的真值越接近时，将得到更大的相关滤波器响应。本发明提出的改进的尺度金字塔利用了这一性质，使用最大的相关滤波器响应作为尺度金字塔置信度的一个度量，通过比较p_s_max的大小进而得到最优的目标尺度和位置。这一方法通过逐帧对定位误差进行修正，有效的减少了追踪器的误差积累，将物体的定位误差控制在1个像素值以内，同时改善了目标尺度估计的准确性，提升了算法的整体性能。

与其它使用尺度金字塔的算法相比^[3,4]，我们提出的算法主要有三点不同。首先，我们在目标预测位置及其周边位置构建了9个尺度金字塔，并通过置信度比较选取了最优的金字塔对目标尺度进行估计。通过这种方法，有效地降低了定位误差对尺度估计的影响。其次，我们使用所选最优尺度金字塔的中心位置作为目标的定位位置，在一定程度上减小了跟踪漂移，并提升了***的性能。最后，我们通过使用最优尺度金字塔对尺度模板进行更新，提升了在存在定位误差情况下追踪器尺度模板的鲁棒性。

在线检测器用于追踪失效以后目标物体的重获取，这在长程跟踪算法中是必不可少的一部分。在本发明的算法中，我们计算每帧图像相关滤波器响应图的最大值，然后预先设定一个阈值ξ_s作为追踪器是否丢失目标的一个判断依据。如果相关响应图的最大值ξ<ξ_s，检测器就会被激活然后在全图范围内对目标进行搜索。假设c_i,i∈{0,1}是类别的索引且f_k,k∈{1,2,…,N}表示一系列的二值特征。我们可以根据后验概率来确定物体的类别i：

根据贝叶斯方程我们可以把后验概率用先验概率来表示：

在这里我们认为样本的类别遵循均匀分布。我们发现P(f₁,f₂,…,f_N)与样本的类别无关，则样本的类别可以由先验概率来获得：

考虑到计算效率的问题，我们认为二值特征之间是相互独立的，而每一个二值特征就看作一棵随机蕨的叶子节点。令F_k＝{f_σ(k,1),f_σ(k,2),…,f_σ(k,N)}作为第k棵随机蕨。从贝叶斯概率论的角度看来，通过求解下式可确定物体的类别c_i，其中先验概率由学习得来：

提出的算法共训练了三个模板R_t、R_s和R_d，分别用于目标定位，尺度估计和目标检测。因为视频序列中存在很多影响目标外观的因素，我们需要建立一个对于遮挡、形变还有快速移动能够保持鲁棒的目标模板。根据式(8)，我们训练连续的相关滤波器我们引入和作为目标模板。则在每一帧我们使用更新率η来对目标模板进行更新:

A＝A^t-1+ηA^t (28)

B＝B^t-1+ηB^L (29)

其中t是视频帧数的索引。我们使用(16)、(17)更新R_t,R_s和R_d。如果A和B代表连续的相关滤波器，P^d表示插值后的特征图即对于尺度模板R_s和检测模板R_d,P^d是相对应的特征通道值得注意的是，我们在每一帧都使用一个大的更新率更新R_t和R_s，为的是使模板能够保持对目标变化的敏感性。另一方面，为了保持模板对物体大形变和遮挡的鲁棒性，R_d使用一个较小的更新率。

CCFT算法主要实现了连续域内的目标定位。根据3.1节的推导，使用式(8)可以获得连续域内的相关滤波器。当给定了相关滤波器的权重w后，随之可以获得追踪器的相关相应图y_res定义在连续域内，同时Z表示在当前帧使用上一帧目标位置获取的搜索窗的特征。

在相关滤波器跟踪算法中，目标物体的位置通过搜索整张响应图并寻找最大值y_res所在的位置来确定。在所提出的算法中，我们分两步来实现目标的精细定位。首先将响应图y_res的位置索引s(t),t∈[0,T)划分为离散域s(T_n/(2K+1)),T_n＝0,…,2K，在位置s(T_n/(2K+1))上使用网格搜索。然后使用搜索到的最大值的位置作为y_res的起始搜索位置，使用牛顿迭代法实现连续域内的目标定位。而牛顿迭代法的海塞矩阵和偏导数可以通过分析y_res获得。

本发明算法分别训练了三个模板R_t、R_s和R_d，其中目标定位模板R_t是对目标外观的变化进行实时编码，同时需要对一些追踪干扰如快速移动和光照变化保持鲁棒性。在高水平的目标识别课题中，卷积神经网络提取的特征由于对各种干扰表现出的稳定性得到了广泛的应用。而且，研究表明不同层的卷积神经网络输出同时包含了空间分辨率信息和物体的语义信息，这些信息对于目标定位都大有益处。本发明选择VGG-19卷积神经网络，我们使用conv3-4,、conv4-4和conv5-4这三层的输出特征来训练目标的定位模板R_t。而对于R_s和R_d模板，考虑到计算效率的问题，我们使用HOG特征。

在CCFT算法中，我们使用像素值对比的结果作为二值特征来训练随机蕨分类器。我们首先在图像块上进行一定数量的像素值对比，得出每一棵随机蕨的先验概率。然后将所有随机蕨的先验概率进行平均，就得到了检测器。本发明的搜索方法与LCT算法中的搜索策略基本相同，都是通过使用k最近邻分类器寻找最可靠的训练样本。且如果k个最近邻的特征图都显示为正样本，则这一图像块则被认为是所寻找的目标图像。

为验证算法的有效性，我们在OTB-100视频数据集上比较本发明算法和其它5个高水平的追踪器的跟踪效果。这5个追踪器可以分为三个种类，(i)基于相关滤波器的追踪器(KCF，HCF，(ii)单分类器追踪器(Struck)，(iii)追踪检测追踪器(LCT，TLD)。追踪器的性能指标使用距离精度图、重叠率精度图和平均中心偏差来表示。

我们将式(1)中的正则化参数设为λ＝10^-4。用于预测目标位置和估计物体尺寸的搜索窗大小定为2倍和1.1倍目标大小。尺度金字塔中不同尺度的训练样本的个数设为S＝33，相邻训练样本之间的尺度因子为1.02。式(5)中的学习率设为0.0085。用于更新模板R_d的阈值设为ξ_s＝0.1。以上所有参数对于每一个视频序列都设为同样的值。我们将所提出的算法使用MATLAB在HP OMEN 15-AX000电脑上进行测试，该型号电脑使用Intel I5-6700HQ处理器及2.6MHz的CPU，4GB RAM和GeForce GTX960的GPU。GPU主要用于VGG-NET19对图像特征提取时候的前向传播计算。

图3给出了OPE条件下6个算法在OTB-100上测试得到的距离精度图和重叠率精度图。表1给出了在定位阈值为20像素条件下算法的距离精度(DP)，阈值0.5下算法重叠率精度(OS)，平均中心偏差(CLE)和算法运行速度(SPEED)，其中最优指标用粗体表示。总的来看，所提出的CCFT算法在各项指标上都领先其余的方法。在5个对比算法中，HCF在阈值下的距离精度和重叠率精度分别为83.6％和65.7％，平均中心偏差为22.8像素。相比之下，我们的算法性能超出HCF，拥有85.7％的DP，79.5％的OS和22.5的CLE。算法运行速度为3.5帧每秒，其中主要是卷积神经网络的前向传播耗费了大量的计算资源。

表1.OTB-100上6个算法的性能指标比较。DP使用的是阈值为20条件下的距离精度，OS使用的是阈值为0.5条件下的重叠率精度，CLE和SPEED的单位分别代表平均中心偏差和算法运行速度，6个算法中最优的指标加粗

为了更加深入地分析所提出的算法在不同方面的稳定性，我们基于不同的视频属性(如尺度变化、遮挡和形变)在OTB-100视频集上对算法进行了测试，测试结果如图4所示。由图4可以看出，CCFT算法在6个属性下的视频序列的测试结果都优于其它的追踪器。在与CCFT进行比较的其它5个算法中，HCF拥有最高的测试性能，分别是目标遮挡(52.4％)，背景杂斑(58.5％)，光照变换(53.9％)，尺度变化(49.0％)，低分辨率(42.4％)，还有目标快速移动(54.5％)。另一方面，我们的算法相比于HCF有大幅度提升，其中目标遮挡(61.0％)，背景杂斑(63.0％)，光照变换(64.0％)，尺度变化(61.0％)，低分辨率(59.7％)和目标快速移动(61.9％)。上述性能上的提升主要归功于本发明提出的连续定位算法，这一策略有效地降低了离散域定位造成的目标定位误差。

本发明图5给出了6个具有挑战性的视频序列(Car1，Biker，DragonBaby，Dog1，Lemming和Human3)下测试算法的实际跟踪图，各算法对序列每一帧的追踪中心偏差如图6所示。HCF算法使用多层的卷积神经网络(CNN)的输出作为特征对相关滤波器进行训练，多层的CNN特征包含空间分辨率信息和物体的语义信息，有利于目标物体的准确定位。所以HCF能够有效处理平面内旋转和目标快速移动的视频(DragonBaby和Dog1)。但是，HCF没有考虑目标尺寸变化的问题，当追踪失效时也不能有效重新搜索目标，于是造成HCF对目标尺寸变化和严重遮挡的视频追踪效果不尽如人意(Car1，Biker，Human6和Lemming)。LCT算法主要致力于解决长程视频跟踪问题，它用于定位的目标模型考虑了物体尺度的变化，同时目标的全局模板使用最可靠的目标进行更新，使得LCT能够较好地应对追踪失效的问题。例如LCT在Lemming视频的第383帧就成功地在严重遮挡以后重新发现了目标。值得注意的是，LCT算法同样使用了尺度金字塔对目标大小进行估计，但是由于存在大量追踪偏移的问题，LCT在视频序列Car1，Dog1和Human6中都无法对目标尺度进行正确的估计。究其本质，LCT的追踪偏移主要是由于它只能进行离散域内的定位，同时它的尺度金字塔没有办法完成追踪器漂移的矫正。KCF算法使用HOG特征来训练相关滤波器，它目标定位模块的做法类似于LCT。所以KCF也没有办法很好地处理视频Biker，DragonBaby，Lemming和Human6。同时，KCF没有尺度估计模块和目标重追踪模块，这使得追踪器在处理长程视频的时候更容易丢失目标(如Car1)。Struck算法使用规则化的输出减轻了采样偏差的问题，但是所用的在线学习技术不能像相关滤波器一样很好地考虑目标的所有正负样本，所训练的追踪分类器也不能很好地处理物体形变、快速移动和背景杂斑等问题(Car1，Biker，DragonBaby和Human6)。TLD算法设计了P-N学习模块和检测器模块用于追踪失效时的目标重发现。但是，TLD使用的光流法不能很好地表达目标物体的状态，当遇到快速移动、背景杂斑和部分遮挡的视频序列时(Car1，Biker，DragonBaby和Human6)TLD容易产生偏移甚至是重追踪失效。

与其它5种追踪方法相比，CCFT算法在目标定位和尺度估计上都有更好的表现，这其中主要有以下三个原因。第一，我们训练了连续域内的相关滤波器，同时将目标尺度的变化考虑到定位模板之中，这使得提出的方法能够在连续域内精确地定位目标，同时也能更好地应对目标尺度变化的情况，由此大大提升了定位的准确性。第二，提出的算法改进了传统的尺度金字塔，很好地减轻定位误差对目标尺度的预测的影响。我们首先在目标预测位置及其周围构建9个不同的尺度金字塔然后通过选取一个最优的金字塔，用它对目标尺度进行估计和更新目标的尺度模板。所提出的改进的尺度金字塔对目标尺度的估计拥有更强的鲁棒性(如视频Car1,Dog1和Human6)。同时，最优尺度金字塔所在的位置还用于修正目标的定位误差，这对长程跟踪有很重要的意义。最后，我们使用随机蕨分类器训练了一个在线的检测器，用于追踪失效时的目标再获取，实验证明这一重追踪的方法可以在严重的遮挡后有效地重新检测到目标(Lemming)。

为了更深入地分析本发明所提出算法的有效性，我们在OTB-100数据集上比较了4个类似算法的测试结果。首先，我们设计了算法CT-TP，它使用多层CNN输出作为特征训练离散的相关滤波器用于追踪，同时应用传统的尺度金字塔对目标的尺度进行估计。然后，在CT-TP的基础上我们将所训练的相关滤波器拓展到连续域内，得到了CT-CT算法。紧接着，我们对CT-CT进行修改，应用了本发明提出的改进的尺度金字塔，得到了CT-CCT算法。最后，我们放入了提出的CCFT算法作为对照。测试的结果使用距离精度图和重叠率精度图来表示。

如图7所示，CT-CT算法将CT-TP算法的DP和OS分别提升了1％和1.9％，这归功于我们所提出的连续的相关滤波器定位技术。这一技术有效地降低了由离散域目标定位所引入的定位误差，减少了在长程跟踪的视频序列中误差积累可能导致的追踪漂移甚至是追踪失效的情况。同时，CT-CCT算法相比于CT-CT拥有更好的测试结果，这是由于改进的尺度金字塔能够更加有效地预测目标大小。我们在预测的目标位置及周边构建了不同的尺度金字塔，接着通过一个评价机制选则出最优的一个尺度金字塔用于尺度估计和目标尺度模板的更新，且金字塔的中心位置还可以用于矫正目标定位误差。本发明提出的CCFT算法在4个算法中拥有最高的DP(85.7％)和OS(62.7％)值。与CT-CCT不同的一点是CCFT增加了目标重获取的部分，使得目标追踪失效的情况下可以在全局范围内重新搜索目标，有效地提升了算法的追踪性能。

本发明提出了一种有效的长程跟踪算法。算法使用连续的相关滤波器对目标进行连续域内的定位，应用改进的尺度金字塔进行目标尺度的估计，当追踪失效时启动随机蕨检测器对目标进行再获取。提出的连续域内的目标定位策略有效地减少了离散定位所引入的定位误差。改进的尺度金字塔可以在存在追踪漂移的情况下有效地预测目标的大小，同时能够训练出一个更稳定的目标尺度模板。同时在线检测器的引入使得我们的算法对于严重形变和被遮挡的目标拥有更高的追踪稳定性。在OTB-100数据集上的实验结果表明本发明提出的CCFT算法能够有效地实现长程追踪；相较于其它5个现今高水平的追踪算法，CCFT也取得了更好的追踪结果。

Claims

1.一种基于连续相关滤波器的定位修正长程跟踪算法，其特征在于包括以下内容

2.根据权利要求1所述的一种基于连续相关滤波器的定位修正长程跟踪算法，其特征在于步骤1中连续域内的相关滤波器通过以下步骤获得：

<mrow> <mi>w</mi> <mo>=</mo> <munder> <mi>argmin</mi> <mi>w</mi> </munder> <mo>|</mo> <mo>|</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </munderover> <msup> <mi>w</mi> <mi>d</mi> </msup> <mo>*</mo> <msup> <mi>x</mi> <mi>d</mi> </msup> <mo>-</mo> <mi>y</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </munderover> <mo>|</mo> <mo>|</mo> <msup> <mi>w</mi> <mi>d</mi> </msup> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msup> <mi>&chi;</mi> <mi>d</mi> </msup> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msub> <mi>N</mi> <mi>d</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msup> <mi>x</mi> <mi>d</mi> </msup> <mo>&lsqb;</mo> <mi>n</mi> <mo>&rsqb;</mo> <msub> <mi>b</mi> <mi>d</mi> </msub> <mrow> <mo>(</mo> <mi>v</mi> <mo>-</mo> <mfrac> <mi>V</mi> <msub> <mi>N</mi> <mi>d</mi> </msub> </mfrac> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>30</mn> <mo>)</mo> </mrow> </mrow>

其中a是x＝1处核函数的导数值；

<mrow> <mi>w</mi> <mo>=</mo> <munder> <mi>argmin</mi> <mi>w</mi> </munder> <mo>|</mo> <mo>|</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </munderover> <msup> <mi>w</mi> <mi>d</mi> </msup> <mo>*</mo> <msup> <mi>&chi;</mi> <mi>d</mi> </msup> <mo>-</mo> <mi>y</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </munderover> <mo>|</mo> <mo>|</mo> <msup> <mi>w</mi> <mi>d</mi> </msup> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>32</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mover> <mi>w</mi> <mo>^</mo> </mover> <mo>=</mo> <munder> <mi>argmin</mi> <mover> <mi>w</mi> <mo>^</mo> </mover> </munder> <mo>|</mo> <mo>|</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </munderover> <msup> <mover> <mi>w</mi> <mo>^</mo> </mover> <mi>d</mi> </msup> <msup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>d</mi> </msup> <msub> <mover> <mi>b</mi> <mo>^</mo> </mover> <mi>d</mi> </msub> <mo>-</mo> <mover> <mi>y</mi> <mo>^</mo> </mover> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </munderover> <mo>|</mo> <mo>|</mo> <msup> <mover> <mi>w</mi> <mo>^</mo> </mover> <mi>d</mi> </msup> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>33</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>W</mi> <mo>=</mo> <mi>arg</mi> <mi> </mi> <msub> <mi>min</mi> <mi>W</mi> </msub> <mo>|</mo> <mo>|</mo> <mi>Q</mi> <mi>W</mi> <mo>-</mo> <mi>Y</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>34</mn> <mo>)</mo> </mrow> </mrow>

(Q^HQ+λ)W＝Q^HY (35)

Q^H表示矩阵Q的复共轭。式(7)的解等价于下式：

<mrow> <msup> <mi>w</mi> <mi>d</mi> </msup> <mo>=</mo> <mfrac> <mrow> <mover> <msup> <mi>Q</mi> <mi>d</mi> </msup> <mo>&OverBar;</mo> </mover> <mi>Y</mi> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </msubsup> <mover> <msup> <mi>Q</mi> <mi>k</mi> </msup> <mo>&OverBar;</mo> </mover> <msup> <mi>Q</mi> <mi>k</mi> </msup> <mo>+</mo> <mi>&lambda;</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>36</mn> <mo>)</mo> </mrow> </mrow>

3.根据权利要求1所述的一种基于连续相关滤波器的定位修正长程跟踪算法，其特征在于还包括在目标的预测位置及附近构建9个尺度金字塔的改进方案，能够在追踪漂移的情况下有效预测目标大小，同时还能有效地保持尺度模板的稳定性，选取目标的预测位置及其周围点所在位置构建9个尺度金字塔，其中每一个矩形框的边长代表一个像素值的距离，对于每一个尺度金字塔，使用p_s_max来表示它的置信度，其中s代表金字塔所处的中心位置，通过比较p_s_max的大小选择最优的一个金字塔，然后用最优金字塔对目标的尺度进行估计，假设S_s代表使用位置在s处的尺度金字塔计算出的目标大小，则最优金字塔的位置索引由式(11)获得：

4.根据权利要求1所述的一种基于连续相关滤波器的定位修正长程跟踪算法，其特征在于实现目标重定位时需要追踪失效以后目标物体的重获取，具体通过以下方法实现：计算每帧图像相关滤波器响应图的最大值，然后预先设定一个阈值ξ_s作为追踪器是否丢失目标的一个判断依据，如果相关响应图的最大值ξ<ξ_s，检测器就会被激活然后在全图范围内对目标进行搜索，假设c_i,i∈{0,1}是类别的索引且f_k,k∈{1,2,…,N}表示一系列的二值特征，可以根据后验概率来确定物体的类别i：

<mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mi>argmax</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </munder> <mi>P</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>=</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>f</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>f</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>f</mi> <mi>N</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>38</mn> <mo>)</mo> </mrow> </mrow>

根据贝叶斯方程可以把后验概率用先验概率来表示：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <mi>C</mi> <mo>=</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>f</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>f</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>f</mi> <mi>N</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>f</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>f</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>f</mi> <mi>N</mi> </msub> <mo>|</mo> <mi>C</mi> <mo>=</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <mi>C</mi> <mo>=</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>f</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>f</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>f</mi> <mi>N</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>39</mn> <mo>)</mo> </mrow> </mrow>

5.根据权利要求1所述的一种基于连续相关滤波器的定位修正长程跟踪算法，其特征在于模板的更新包括以下内容：

A＝A^t-1+ηA^t (40)

B＝B^t-1+ηB^t (41)

其中t是视频帧数的索引，我们使用(16)、(17)更新x_t,R_s和R_d，如果A和B代表连续的相关滤波器，P^d表示插值后的特征图即对于尺度模板R_s和检测模板R_d,P^d是相对应的特征通道值得注意的是，我们在每一帧都使用一个大的更新率更新R_t和R_s，为的是使模板能够保持对目标变化的敏感性。另一方面，为了保持模板对物体大形变和遮挡的鲁棒性，R_d使用一个较小的更新率。