CN103714554A

CN103714554A - 一种基于传播融合的视频跟踪方法

Info

Publication number: CN103714554A
Application number: CN201310680307.6A
Authority: CN
Inventors: 白翔; 周瑜; 鲁勤; 刘文予
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2013-12-12
Filing date: 2013-12-12
Publication date: 2014-04-09

Abstract

本发明公开了一种基于传播融合的视频跟踪方法，步骤：①接收一帧已知跟踪目标区域的视频图像t；②接收第t+1帧视频图像，在采样与第t帧视频图像跟踪目标等大的候选目标区域，构成候选目标集；③分别计算HOG、LBP和Haar-like特征表示下目标两两之间的相似度，得到相似度；④将计算得到的三个基于不同特征表示的相似度进行传播融合，融合为一个相似度；⑤选取第t+1帧视频图像中与已知的第t帧视频图像跟踪目标相似度最高的候选目标区域作为跟踪目标在该帧中的位置，并输出跟踪目标被矩形框标记的第t+1帧视频图像；⑥令t=t+1，重复②至⑤，直至视频结束。本发明考虑融合基于多种特征表示的多种相似度来描述已知目标和候选目标的相似性，从而提高目标跟踪的准确率。

Description

一种基于传播融合的视频跟踪方法

技术领域

本发明涉及对视频中的目标物体进行跟踪，具体是基于传播融合的视频跟踪方法。

背景技术

视频跟踪是计算机视觉中一个非常重要的问题，具有广泛的实际应用。设计一个鲁棒的视频跟踪方法面临两方面的挑战：一方面的挑战是由目标物体的外观变化带来的，如视角变化、姿态变化、尺度变化等；另一方面挑战是由目标物体所处环境的外界噪声带来的，如遮挡、背景噪声等。

近年来，许多鲁棒的视频跟踪方法相继被提出，其中最具代表性的是基于匹配的跟踪方法，本发明提出的方法也属于该类型。该方法主要包含两个关键步骤，一是对跟踪目标和候选跟踪目标的外观进行特征表示，二是度量跟踪目标和候选跟踪目标之间基于特征表示的相似性。

物体外观的特征表示包括底层特征表示和高层模型表示。本发明方法采用HOG、LBP、Haar-like三种底层特征来描述跟踪目标和候选目标。HOG特征能有效表征图像区域的形状特性；其具体内容，在N.Dalal、B.Triggs所著，2005年收录在会议“IEEE Computer Society Conference on ComputerVision and Pattem Recognition”的文章“Histograms of oriented gradients forhuman detection”中有详细介绍。LBP特征能有效表征图像区域的纹理特性；其具体内容，在T.Ojala、M.Pietik¨ainen、T.M¨aenp¨a¨所著，2002年发表在期刊“IEEE Transactions on Pattern Analysis and Machine Intelligence”第24卷第7期上的文章“Multiresolution gray-scale and rotation invarianttexture classification with local binary patterns”中有详细介绍。Haar-like特征是局部特征，能有效的应对局部遮挡；其具体内容，在B.Babenko、M.Yang、S.Belongie所著，2011年发表在期刊“IEEE Transactions on Pattern Analysisand Machine Intelligence”第33卷第8期上的文章“Robust object tracking withonline multiple instance learning”的3.6.2节中有详细介绍。基于特征表示的相似性度量可以直接指定某一度量公式，也可以通过度量学习得到。本发明方法通过传播融合的方法学习得到一个鲁棒的相似性度量。

Nan Jiang，Wenyu Liu，Ying Wu所著，2011年发表在期刊“IEEETransaction on Image Processing”第20卷第8期上的文章“Learning AdaptiveMetric for Robust Visual Tracking”提出了一种自适应度量的学习方法，该方法在视频当前帧之前的视频帧中选择一组训练样本，然后通过这些训练样本在线的训练得到一个鲁棒的度量。但是，该方法只考虑在一种特征表示下合适的度量选择问题，并且没有考虑新到来视频帧中未标记样本提供的信息。

发明内容

本发明的目的是提供一种目标物体跟踪的方法，该方法可以提高物体跟踪的准确率。

本发明提供了一种基于传播融合的视频跟踪方法，该方法包括下述步骤：

第1步接收一帧视频序列图像，记该视频序列图像的帧序号为t；其中跟踪目标在第t帧图像中的位置及尺度已知并以矩形框标记跟踪目标区域；

第2步接收第t+1帧视频序列图像，在第t+1帧图像中采样得到一组与第t帧视频图像中跟踪目标等大的候选目标区域，构成候选目标集；

第3步分别用HOG特征、LBP特征和Haar-like特征表示所有目标区域，分别计算各特征表示下各个目标区域两两之间的相似度，得到基于HOG特征、LBP特征和Haar-like特征表示的相似度，所述所有目标区域是指第t帧图像的跟踪目标区域和第t+1帧图像的候选目标区域；

第4步将计算得到的三个基于不同特征表示的相似度进行传播融合，使得所有目标区域的三个相似度融合为一个相似度；

第5步在第4步得到的融合后的相似度的基础上，选取第t+1帧图像中与已知的第t帧图像跟踪目标相似度最高的候选目标区域作为跟踪目标在该帧中的位置，并输出跟踪目标被矩形框标记的第t+1帧图像；

第6步令t=t+1，重复第2步至第5步，直至视频结束。

本发明方法属于基于匹配的跟踪方法，旨在改进相似性度量方法来提高匹配的准确率。本发明方法通过融合不同特征表示的相似度以及大量的新到来视频帧中未标记样本来改进目标之间的匹配度量，从而能得到更稳定的跟踪结果。

本发明具备如下性质：(1)相比其他匹配类跟踪方法，综合三种特征表示的相似度有利于更全面地掌握跟踪目标物体不同方面的相似性，从而使得定位第t+1帧视频图像跟踪目标的准确度更高；(2)在传播融合的过程中，利用第t+1帧视频图像未标记的数据来提高相似度计算的精确性，这种类似于半监督学习的思想适用于标记样本较少的跟踪任务；(3)传播融合的复杂度并不会因为融合层数的增加而增加，其与一层传播过程的复杂度相同。

附图说明

图1是本发明方法的流程图。

具体实施方式

本发明涉及到一种基于匹配的视频目标跟踪方法。考虑一种简单的跟踪模式，即已知第t帧视频序列图像一定位置及尺度的跟踪目标区域，在t+1帧视频序列图像上选取一些与已知目标同样大小的候选目标区域，将其中每一个候选目标区域与当前帧已知的跟踪目标区域一一匹配，找出其中匹配度最高的候选目标区域作为第t+1帧视频序列图像的跟踪目标的位置；将已经确定跟踪目标位置和尺度的第t+1帧视频序列图像作为第t帧视频序列图像，重复上一个步骤，第t+2帧视频序列图像的目标也能跟踪到；以此类推，第t+2帧视频序列图像之后的所有视频帧的目标都能跟踪到。

在传统基于匹配的视频跟踪方法中，当前帧跟踪目标和下一帧候选目标的匹配过程只是采用了基于一种特征表示的相似性度量，但是，在视频跟踪问题中，因为运动或者光照变化的影响，目标物体的外观特性会不断变化，在这种情况下，由单一特征表示得到的相似度通常已经不足以来描述已知目标和候选目标的真实相似程度。因此，本发明考虑通过融合多种特征学习得到一个鲁棒的相似性度量来描述已知目标和候选目标的相似性，从而提高目标跟踪的准确率。

在视频序列的第一帧视频图像由用户给定跟踪目标的位置和尺度的情况下，上述描述的最简单的跟踪模式即可简化为视频序列第一帧视频图像的跟踪目标和第二帧视频图像的候选跟踪目标之间的匹配过程，之后每一帧视频图像中的跟踪目标的定位方法都与其相同。为了方便，以下称视频序列的第一帧图像为当前帧图像，第二帧图像为下一帧图像。

下面结合实例对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明方法包括下述步骤：

(1)接收视频当前帧，其中跟踪目标在当前帧的位置及尺度已知，并以矩形框标记。

通常情况下，视频序列的第一帧图像指定跟踪目标的位置和尺度，从而，本发明方法的初始输入即是第一帧视频图像。以某个固定位置和尺度的矩形框标记的当前帧的图像区域I₁(即跟踪目标区域)是本步骤给后续步骤提供的有效信息。

(2)接收视频下一帧，在一定的搜索范围内采样与跟踪目标等大的候选目标区域，构成候选目标集

本发明方法采用粒子滤波重采样来获取候选目标集

由于要求采样的候选目标区域大小与当前帧已知的跟踪目标区域大小相同，所采样的候选目标区域只要确定其中心即可，也就是说，本步骤需要在视频下一帧的一定搜索范围内粒子滤波重采样候选目标区域中心，从而有，候选目标集

是由一系列以粒子滤波重采样中心为中心，已知目标区域大小为大小的图像区域即

n表示目标区域的序号，N表示所有目标区域的个数，其值由搜索范围确定。而搜索范围是根据已知的当前帧的跟踪目标位置而定的。记当前帧跟踪目标区域的中心位置坐标为c(I₁)，则满足||c(I_n)-c(I₁)||＜r(其中，c(I_n)表示视频下一帧上采样点的二维位置坐标，r为搜索半径，大小为10≤r≤20，优选值为15个像素)的圆形区域为取样的搜索范围。以采样中心为区域中心，已知目标大小为区域大小的视频下一帧的图像区域(即候选目标区域)是本步骤给后续步骤提供的有效信息。

(3)用HOG特征表示所有目标区域，计算其两两之间的相似度，得到基于HOG特征表示的相似度。

用HOG特征描述由步骤(1)、(2)得到的所有目标区域，计算所有目标区域两两之间的距离。以每个目标区域为顶点，以每两个目标区域之间的距离为边，本步骤构造基于HOG特征表示的所有目标区域的相似度图G_HOG(V，S_HOG)，其中V表示该相似度图的所有顶点，S_HOG为顶点之间的相似度矩阵。顶点个数为N，即其中1个顶点表示HOG特征描述的当前帧目标区域，剩下的N-1个顶点表示HOG特征描述的下一帧的候选目标区域；则S_HOG是一个所有元素均为正数的N×N矩阵。

(4)用LBP特征表示所有目标区域，计算其两两之间的相似度，得到基于LBP特征表示的相似度。

用LBP特征描述由步骤(1)、(2)得到的所有目标区域，计算所有目标区域两两之间的距离。以每个目标区域为顶点，以每两个目标区域之间的距离为边，本步骤构造基于LBP特征表示的所有目标区域的相似度图G_LBP(V，S_LBP)，其中V表示该相似度图的所有顶点，S_LBP为顶点之间的相似度矩阵。顶点个数为N，即其中1个顶点表示LBP特征描述的当前帧目标区域，剩下的N-1个顶点表示LBP特征描述的下一帧的候选目标区域；则S_LBP是一个所有元素均为正数的N×N矩阵。

(5)用Haar-like特征表示所有目标区域，计算其两两之间的相似度，得到基于Haar-like特征表示的相似度。

用Haar-like特征描述由步骤(1)、(2)得到的所有目标区域，计算所有目标区域两两之间的距离。以每个目标区域为顶点，以每两个目标区域之间的距离为边，本步骤构造基于Haar-like特征表示的所有目标区域的相似度图G_Haar(V，S_Haar)，其中V表示该相似度图的所有顶点，S_Haar为顶点之间的相似度矩阵。顶点个数为N，即其中1个顶点表示Haar-like特征描述的当前帧目标区域，剩下的N-1个顶点表示Haar-like特征描述的下一帧的候选目标区域；则S_Haar是一个所有元素均为正数的N×N矩阵。

步骤(3)、(4)和(5)之间没有顺序之分，可以同时进行或者互换顺序。

(6)将步骤(3)、(4)和(5)中计算得到的三个基于不同特征表示的相似度进行传播融合，使得所有目标区域的三个相似度融合为一个相似度。

(6.1)对所有相似度图进行预处理

步骤(3)、(4)、(5)已经给出所有目标区域基于HOG、LBP、Haar-like三种特征表示的相似度图，分别为G_HOG(V，S_HOG)、G_LBP(V，S_LBP)、G_Haar(V，S_Haar)。在传播融合这三个相似度前，先需要对每个相似度图做预处理，这里以基于HOG特征表示的相似度图G_HOG(V，S_HOG)预处理为例，其他两个相似度图预处理过程类似。

对于给定的相似度图G_HOG(V，S_HOG)，V是相似度图上的所有顶点，S_HOG为顶点之间的相似度矩阵，大小为N×N。任意两个顶点i和j之间的相似度为S_HOG(i，j)，i和j表示顶点的序号，其值取值范围为1至N，则在所有顶点V上的可逆一阶马尔科夫链中任意两个顶点i和j之间的转移概率为：

P_HOG(i，j)=S_HOG(i，j)/D_i

其中，是顶点i的度，且转移概率P_HOG(i，j)满足

Σ_{j = 1}^{N} P_{HOG} (i, j) = 1, i = 1, . . ., N .

相似度图G_HOG(V，S_HOG)在很多应用上是全连通图，但是在视频跟踪问题上，为了减少杂乱背景带来的噪声点的影响，本发明采用如下这种一阶马尔科夫局部转移概率：

其中k表示与顶点i距离相近的顶点的个数，大小为10≤k≤14，优选值为12。

本步骤得到基于HOG特征表示的所有目标的可逆一阶马尔科夫局部转移概率P_k，HOG，而且P_k，HOG矩阵大小也为N×N；同理，依照本步骤也得到基于LBP、Haar-like特征的所有目标的可逆一阶马尔科夫局部转移概率P_k，LBP、P_k，Haar，矩阵大小均为N×N。

(6.2)任意两个一阶马尔科夫局部转移概率的传播融合

将任意两个一阶马尔科夫局部转移概率融合为一个马尔科夫链概率，由步骤(6.1)得到的三个一阶马尔科夫局部转移概率P_k，HOG、P_k，LBP、P_k，Haar，两两融合之后得到三个融合马尔科夫链概率

设任意两个一阶马尔科夫局部转移概率为P_k，α、P_k，β，传播融合得到融合马尔科夫链概率

传播融合的方法如下：

输入：

输出：传播融合结果

1.定义一个N×N的对角矩阵

2.计算P_k，α的第一列

，计算P_k，β的第一列

3.计算

以下步骤4-7循环(Z-1)次：

4.计算

5.计算

6.计算

7.返回步骤4。

其中，循环次数Z大小150≤Z≤250，优选值设置为200。这样传播融合得到的

矩阵大小也为N×N。上述方法的复杂度是多项式级别的，保证了跟踪的实时性。

(6.3)加权叠加

将步骤(6.2)传播融合得到的

加权叠加，得到一个最终融合马尔科夫链概率P，即：

P = w_{Haar} w_{HOG} P_{Haar, HOG}^{*} + w_{HOG} w_{LBP} P_{HOG, LBP}^{*} + w_{LBP} w_{Haar} P_{LBP, Haar}^{*}

其中，

Σ_{α = 1}^{α = 3} w_{α} = 1 (α = HOG, LBP, Haar) .

I₁即是当前帧目标区域，是当前帧中一组处于I₁周围与I₁等大的H个背景区域(即非目标区域)，H大小为250≤H≤350，优选值为300。

某一特征对应的权重w_α(α=HOG，LBP，Haar)越大，表示在基于该特征表示的相似度中，当前帧的目标区域I₁和背景区域

的区分性越好。对于每一帧，用于加权叠加的所有权重都会重新计算，保证了本发明能够适应跟踪目标的外观变化。

这样，P就是所有目标的一个相似度，它是由所有目标的三个相似度完全融合得到的。

(7)在步骤(6)得到的融合后的相似度的基础上，选取视频下一帧中与已知的当前帧跟踪目标相似度最高的候选目标区域作为跟踪目标在该帧中的位置，并输出跟踪目标被矩形框标记的视频下一帧。

步骤(6)得到已知的当前帧目标区域I₁和下一帧的候选目标区域

之间完全融合后的相似度P，选出其中与当前帧跟踪目标相似度最高的候选目标区域即是跟踪目标在该帧中的对应的区域I^*，

最后用矩形框标记这个目标区域。

(8)在步骤(7)的基础上，将输出的视频下一帧作为当前帧，重复(2)-(7)，直至视频结束。

以下用一个实验实例来证明本发明的有效性，实验实例中的参数设置为：搜索半径r=15，近邻数k=12，循环次数Z=200，背景区域个数H=300。

实验结果证明本发明能够提高视频目标跟踪的准确率。

本发明选择8个具有挑战性的视频序列作为测试数据，与6种已有的具有代表性跟踪方法进行了对比，8个视频分别为Sylvester，Coke Can，Tiger1，Cliff Bar，Coupon Book，Surfer，Tiger2，PETS01D1，6种对比方法为Multiple Instance Learning tracker(MIL)，Fragment tracker(Frag)，IVT，OnlineAdaboost tracker(OAB)，SemiBoost tracker(Semi)，Mean-Shift(MS)tracker，asimple weighted linear sum of multiple cues(Linear)。为了保证比较的公平性和全面性，本发明方法采用了两种被广泛使用的评价标准，一种是平均离心率，另一种是平均成功率。

表1是本发明方法和用于比较的6种对比方法在8个测试视频上的平均离心率结果，结果的数值越小表示目标跟踪越准确，从表中可以看到，本发明方法(即表1中注明的our)都达到了最高的跟踪准确率。

表1不同方法不同视频跟踪目标中心平均离心率

Video	MS	OAB	IVT	Semi	Frag1	Frag2	Frag3	MIL	Linear	our
											Coke Can	43.78	25.08	37.31	40.56	69.11	69.04	34.19	31.97	16.85	15.49
Cliff Bar	43.84	34.60	47.16	57.26	34.78	34.02	44.80	14.26	15.01	6.19
											Tiger1	45.57	39.82	50.20	20.94	39.77	26.72	31.11	7.67	23.88	6.91
Tiger2	47.62	13.25	98.54	39.33	38.68	38.80	51.95	20.64	6.58	5.78
											Coupon Book	20.09	17.77	32.26	65.16	55.96	56.11	67.09	19.81	13.67	6.52
Sylvester	20.05	35.08	96.19	21.08	23.04	12.25	10.12	11.46	10.52	9.33
											Surfer	17.01	13.44	19.06	9.37	140.1	139.8	138.6	7.78	6.50	5.56
PETS01D1	18.11	7.13	241.8	158.9	6.78	7.21	9.52	11.74	245.4	6.04

表2是本发明方法和用于比较的6种对比方法在8个测试视频上的平均成功率结果，结果的数值越大表示目标跟踪越准确，从表中可以看到，本发明方法(即表2中注明的our)都达到了最高的跟踪准确率。

表2不同方法不同视频跟踪平均成功率

Video	MS	OAB	IVT	Semi	Frag1	Frag2	Frag3	MIL	Linear	our
											Coke Can	0.11	0.21	0.15	0.18	0.09	0.09	0.17	0.24	0.36	0.46
Cliff Bar	0.08	0.21	0.19	0.34	0.20	0.23	0.12	0.79	0.52	0.95
											Tiger1	0.05	0.17	0.03	0.52	0.21	0.38	0.38	0.90	0.54	0.91
Tiger2	0.06	0.65	0.01	0.44	0.09	0.09	0.12	0.66	0.89	0.95
											Coupon Book	0.16	0.18	0.21	0.41	0.39	0.39	0.39	0.23	0.53	1.00
Sylvester	0.46	0.30	0.06	0.53	0.72	0.78	0.81	0.76	0.86	0.90
											Surfer	0.59	0.61	0.40	0.89	0.19	0.21	0.23	0.93	1.00	1.00
PETS01D1	0.38	1.00	0.01	0.29	0.99	0.97	0.95	0.80	0.02	1.00

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据本发明公开的内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变化或更改的设计，都落入本发明保护的范围。

Claims

1.一种基于传播融合的视频跟踪方法，该方法包括下述步骤：

第1步接收一帧视频序列图像，记该视频序列图像的帧序号为t；其中跟踪目标在第t帧图像的位置及尺度已知并以矩形框标记该跟踪目标区域；

第2步接收第t+1帧视频序列图像，在第t+1帧图像中采样与第t帧图像跟踪目标等大的候选目标区域，构成候选目标集；

第3步分别用HOG特征、LBP特征和Haar-like特征表示所有目标区域，分别计算各特征表示下目标两两之间的相似度，得到基于HOG特征、LBP特征和Haar-like特征表示的相似度，所述所有目标区域是指第t帧图像的跟踪目标区域和第t+1帧图像的候选目标区域；

第4步将计算得到的三种基于不同特征表示的相似度进行传播融合，使得所有目标区域的三个相似度融合为一个相似度；

第5步在第4步得到的融合后的相似度的基础上，选取第t+1帧图像与已知的第t帧图像的跟踪目标相似度最高的候选目标区域作为跟踪目标在第t+1帧图像中的位置，并输出跟踪目标被矩形框标记的第t+1帧图像；

第6步令t=t+1，重复第2步至第5步，直至视频结束。

2.根据权利要求1所述的基于传播融合的视频跟踪方法，其特征在于，所述第3步中，所述基于HOG特征表示的相似度的计算过程为：

以每个目标区域为顶点，以每两个目标区域之间的距离为边，构造基于HOG特征表示的所有目标区域的相似度图G_HOG(V，S_HOG)，其中，V表示该相似度图的所有顶点，S_HOG为顶点之间的相似度矩阵，设顶点个数为N，即其中1个顶点表示HOG特征描述的当前帧目标区域，剩下的N-1个顶点表示HOG特征描述的下一帧的候选目标区域；则S_HOG是一个所有元素均为正数的N×N矩阵；

所述基于LBP特征表示的相似度的计算过程为：

以每个目标区域为顶点，以每两个目标区域之间的距离为边，本步骤构造基于LBP特征表示的所有目标区域的相似度图G_LBP(V，S_LBP)，其中V表示该相似度图的所有顶点，S_LBP为顶点之间的相似度矩阵，顶点个数为N，即其中1个顶点表示LBP特征描述的当前帧目标区域，剩下的N-1个顶点表示LBP特征描述的下一帧的候选目标区域；则S_LBP是一个所有元素均为正数的N×N矩阵；

所述基于Haar-like特征表示的相似度的计算过程为：

以每个目标区域为顶点，以每两个目标区域之间的距离为边，构造基于Haar-like特征表示的所有目标区域的相似度图G_Haar(V，S_Haar)，其中V表示该相似度图的所有顶点，S_Haar为顶点之间的相似度矩阵，顶点个数为N，即其中1个顶点表示Haar-like特征描述的当前帧目标区域，剩下的N-1个顶点表示Haar-like特征描述的下一帧的候选目标区域；则S_Haar是一个所有元素均为正数的N×N矩阵。

3.根据权利要求1或2所述的基于传播融合的视频跟踪方法，其特征在于，第4步中，所述传播融合的具体过程为：

(4.1)对所有相似度图进行预处理

给出所有目标区域基于HOG、LBP、Haar-like三种特征表示的相似度图，分别为G_HOG(V，S_HOG)、G_LBP(V，S_LBP)、G_Haar(V，S_Haar)，统一表示为G_α(V，S_α)，其中，α表示HOG，LBP，Haar中的一种特征，V是相似度图上的所有顶点，S_α为顶点之间的相似度矩阵，大小为N×N；按下述过程对相似度图G_α(V，S_α)进行预处理：

对于给定的相似度图G_α(V，S_α)，任意两个顶点i和j之间的相似度为S_α(i，j)，i和j表示顶点的序号，其值取值范围为1至N，则在所有顶点V上的可逆的一阶马尔科夫链中任意两个顶点i和j之间的转移概率为：

P_α(i，j)=S_α(i，j)/D_i

其中，