CN109636834A

CN109636834A - 基于tld改进算法的视频车辆目标跟踪算法

Info

Publication number: CN109636834A
Application number: CN201811395493.8A
Authority: CN
Inventors: 孙光民; 史殊凡
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-04-16

Abstract

基于TLD改进算法的视频车辆目标跟踪算法,首先输入视频，标定跟踪目标；其次使用LK光流***对目标进行跟踪，通过将视频帧均匀画网格，选取每个网格的左上角顶点为特征点，然后使用前向后向轨迹光流法来跟踪预测这些特征点在下一帧中的位置；并且对TLD***模块进行改进优化，引入Kalman滤波和粒子滤波，同时运用随机蕨分类器进行扫描，生成一个二进制的编码x。编码x指向决策树某个叶子节点的后验概率P_i(y\x)，其中y∈(0,1)。然后求得所有相互独立的决策树输出的后验概率的平均值；接着通过P‑N学习更新分类器；最后通过综合评估，显示准确度最高的跟踪目标。

Description

基于TLD改进算法的视频车辆目标跟踪算法

技术领域

本发明主要基于对视频中单个物体长时间跟踪算法的研究，并将其应用于车辆检测与目标跟踪领域,并从实际应用的角度出发，提出一种基于机器学习的跟踪算法,属于目标跟踪检测相关领域。

背景技术

视觉是人类认知世界的重要途径之一，人类所获得的外部世界信息中大约来自于人类视觉***，人类视觉***承担了人类生活中的大量信息处理工作，它能够快速准确的完成图形成像、描述、识别与理解等任务。计算机视觉就是在了解人类视觉本质的基础上，用各种成像***代替人类视觉器官，用计算机代替人脑完成对输入图像的处理和解释。计算机视觉的最终研究目标就是使计算机能够像人类那样通过视觉观察、理解世界，并最终具有自主适应环境的能力。

计算机视觉作为人工智能领域的热门学科之一，它是一门综合性的学科，吸引了来自各个学科的研究者加入到对它的研究之中，它融合了信号处理、计算机科学和工程物理学、应用数学与统计学、神经生理学等学科领域的研究方法与成果。

同样的，视频目标跟踪也是一项融合了多学科的复杂课题。其中包括图像处理、模式识别和随机过程以及概率论和偏微分方程等。根据目标跟踪***中实现跟踪的具体过程，从一种全新的角度总结出了一般的目标跟踪方法体系结构。其方法结构分为以下三个部分(1)跟踪目标的特征选取和表示；(2)跟踪目标的跟踪常用的算法框架；(3)跟踪目标预测算法。目前所了解目标跟踪的具体过程分为如下几步，第一步需要在视视频序列中检测出存在有效目标的区域或者有效的目标；第二步对检测出来的有效目标进行科学的分割；提取有效目标的特征特性，并形成有效目标匹配信息模型；根据预测模型预测出在下一时刻目标可能出现的位置信息，从而锁定有效搜索范围；第三步为在预测的搜索范围内用前一时刻的目标信息模板进行有效目标匹配，从而找到最佳的匹配位置。如果在事先预测的范围内没有找到有效目标，就需要进行特定科学处理。方法是首先利用匹配到的疑似目标修正有效目标跟踪的信息模板。并重复上述三步过程。

视频目标跟踪技术作为计算机视觉领域的热门研究课题之一，受到了国内外学者和研究机构的广泛关注。所谓的视频目标跟踪技术是指由计算机模仿人类视觉***，通过对摄像头所得图像序列的分析，计算出用户感兴趣目标的位置参数，如目标的二维坐标位置、目标所占的图像区域、目标的大小等等，并根据目标的不同特征，对图像序列中的同一运动目标进行关联，得到该运动目标的完整运动轨迹。经过多年的发展，视频目标跟踪技术已广泛应用于生活及军事中的多个方面。

在这里研究的车辆检测与跟踪,便是其中重要的应用。随着经济的发展，车辆逐渐增多，迅速发展的数字存储、计算能力和视频压缩标准导致视频内容的强劲增长，产生了海量的道路视频数据，人工监测是一项枯燥而且费时的工作。基于视觉的视频检测技术过程很少有人为因素(注意力不集中、反应能力慢等)的不良影响，而且可以一天24小时的不间断工作，节约大量人力、物力、财力等的同时对视频图像帧中出现的异常情况不会发生误报与漏报。这使得基于视频的自动监测技术具有重要的价值、意义重大。

发明内容

本发明的目的旨在提高长时间视频目标跟踪的准确性，并提高跟踪算法的抗遮挡能力。

为达到上述目的，本发明提出一种基于TLD改进算法的视频车辆目标跟踪算法，包括以下步骤：

步骤1，输入视频，标定跟踪目标；

步骤2.1，使用LK光流***对目标进行跟踪,并提出***改进优化方法；

步骤2.2，运用随机蕨分类器进行扫描；

步骤3，通过P-N学习更新分类器；

步骤4，显示跟踪目标。

基于TLD改进算法的视频车辆目标跟踪算法，其特征在于，包括以下步骤：

第一步，输入视频，标定跟踪目标；

第二步，初始化LK光流***和随机蕨分类器，对目标进行扫描和跟踪；

TLD中的***使用的是一种基于前向后向轨迹的LK光流法；当前帧为It下一帧为It+1，前向后向轨迹光流法则在由It预测出It+1之后，利用It+1中预测得到的点，再做反向预测，即由It+1预测到It，通过这种前向后向轨迹预测得到一个位移偏差；如果反向预测得到的It中的特征点与原来已知的It中的特征点位移偏差大于阈值16，则将It+1中预测出的偏差较大的特征点排除；在舍去了当前帧中位移偏差较大的特征点之后，便获得了当前帧和下一帧中完全对应的点；分别对前后两帧中相互对应的点周围的图像区域做模板匹配，计算出图像区域之间的相似度，一旦相似度小于所有图像区域相似度的中值，则将这些相似度小的预测点进一步排除；分别计算剩余对应点之间x方向和y方向偏移量的中间值，作为新的预测框在x和y方向的尺度变化因子，再根据尺度变化因子求出下一帧预测框的位置和大小；以此类推，得到初步跟踪结果；

随机蕨分类器由许多个基础分类器组成；分类器的处理对象与***的处理对象相同,均为当前图像帧,且分类器与检测器的工作同时进行；每一个基础分类器i在图像块上按照初始时确定的像素点对采集像素点对灰度的差值，生成一个二进制的编码x；编码x指向决策树某个叶子节点的后验概率P_i(y\x)，其中y∈(0,1)；然后求得所有相互独立的决策树输出的后验概率的平均值；平均值大于50％的图像块通过该分类器，输出结果作为标记样本进入下一模块；

第三步，通过P-N学习更新分类器；

通过先验标记样本和未标记的样本来学习分类器；标记样本来源于分类器的输出结果；学习由两类结构约束组成，即正约束和负约束；约束对未被标记的样本进行标记分类，之后训练分类器；正约束是指将未知样本标记为正样本的约束条件，这里将靠近轨迹附近的样本标记为正样本；负约束是指将未知样本标记为负样本的约束条件，这里将远离轨迹的样本标记为负样本；

设x为特征空间X中的一个样本，y表示对应的标记空间Y＝{-1,1}中的一个标记，那么用集合{X,Y}来表示样本空间和对应的标记；P-N学习根据已标记的样本集合{Xl,Yl}来建立分类器，并且训练样本，使用没有标记过的数据Xu来引导分类器工作；

第四步，显示跟踪目标；

根据P-N学习机制更新随记蕨分类器，显示跟踪结果，再利用分类器判断出的目标框和***预测出的目标框,与实际目标进行比对，综合判断出最终的准确跟踪结果，以目标框的方式在视频中显示。

利用Kalman滤波器或粒子滤波器对***模块进行改进；

S1：Kalman滤波改进方法

目标在k时刻的状态向量表示为：X_k＝[x_k，y_k，x′_k，y′_k]^T，其中，x_k，ｙ_ｋ分别表示在x、y方向上的坐标，x_k，ｙ_ｋ分别表示目标在x、y方向上的速度，k-1表示上一时刻；

选取目标的位置作为观察向量,观测向量表示为：z(k)＝[xc_k，yc_k]^T,其中,xc_k、yc_k分别表示通过观测所获得的目标中心在x、y方向上的位置坐标；

目标的中心所做的是变加速直线运动,加速度w_k-1随机变化,并且服从高斯分布即w_k-1～N(0，σ² _w)；

根据牛顿运动定律：

x_k＝x_k-1+x′_k-1t+0.5w_k-1t²

y_k＝y_k-1+y′_k-1t+0.5w_k-1t²

x′_k＝x′_k-1+w_k-1t

y′_k＝y′_k-1+w_k-1t

那么由此得到过程模型；根据X_k＝A_kX_k-1+C_ww_k-1,得：

由观测模型Z_k＝H_kX_k+C_vV_k得到：

利用t表示帧率，则状态转移矩阵、观测矩阵表示为：

设置初始时刻目标的状态：其中，x₀·y₀表示第一帧中目标在x方向和y方向的位置；0、0分别表示目标在x、y方向上目标的初始速度；

设置初始的观测量Z₀＝[x₀，y₀]^T；

设置初始的状态协方差为Q_k,即模型噪声,状态测量误差协方差矩阵P_k，状态转移矩阵A_k,初始的观测协方差R_k,即观测噪声,观测矩阵H_k；具体设置如下:

设置好初始参数后,利用以下步骤进行卡尔曼滤波的递归:

(1)预测出当前时刻的状态,包含速度和位置；

(2)计算先验估计误差协方差；

(3)利用观测值和状态预测值,获得当前时刻的最优值；

(4)计算kalman增益；

(5)更新误差协方差；

S2:粒子滤波改进方法

(1)粒子的状态选择

利用X_k＝(x，y，s)表示粒子的状态,其中(x,y)表示粒子在视频帧中的坐标位置,也即粒子所对应的矩形框中心位置,s表示矩形框的尺度变化因子；选取200个粒子,将200个粒子的位置初始化为初始目标框的中心位置,即X₀＝(x₀，y₀，s₀),将尺度初始化为1,并且计算初始目标框所对应的HSV颜色直方图；

(2)***的状态转移

粒子从上一帧中的位置,运动到下一顿中的位置,需要用到状态转移,常用的状态转移方法有两种；随机转移和二阶自回归转移；

随机转移就是在上一帧中中心位置处随机分布粒子；；

二阶自回归转移模型利用前面时刻的粒子状态的随机组合来预测粒子在下一帧中的位置,常用的二阶自回归模型表示如下:

其中,X_k表示k时刻粒子的状态,表示所有粒子估计的均值,X_k-1表示k-1时刻粒子的状态,X_k-2表示k-2时刻粒子的状态,w表示随机噪声；A₁、A₂、B都是常量,B表示粒子的传播半径；根据二阶自回归模型得到,粒子在k时刻的状态预测：

这些参数已知，

A₁＝diag{a₁，a₂，a₃}，A₂＝diag{a₂，a₂，a₂},B＝diag{b，b，b},

a₁＝2.0，a₂＝1.0，a₃＝1.0，b＝1.0，w_k∈(0，0.001)；

设所有粒子估计的均值为(x₀，y₀，1.0)，其中((x₀，y₀)表示上一帧中目标的中心位置,1.0表示平均尺度；则单个粒子的传播计算如下：

x_k＝a₁(x_k-1-x₀)+a₂(x_k-2-x₀)+bw_k+x₀

y_k＝a₁(y_k-1-x₀)+a₂(y_k-2-x₀)+bw_k+y₀

s_k＝a₁(s_k-1-x₀)+a₂(s_k-2-x₀)+bw_k+1.0

(3)观测模型建立

在预测出粒子在下一帧中的位置之后,需要对粒子进行观测,即判断每个粒子所代表的目标与真实目标状态之间的相似程度；；

设表示候选粒子x所对应的HSV区域颜色直方图,表示参考目标模型所对应的HSV区域颜色直方图,则两个颜色直方图之间的Bhattacharyya系数表示为：

其中，u表示向量的维数，表示m维的向量；；

定义颜色直方图的测量分布：

(4)重要性采样

更新粒子的权值，将权值最大的粒子所对应的目标框作为最终的目标框位置；

(5)重采样

根据每个粒子的权值,进行由大到小排序，计算其平均值；在总粒子数目一定的情况下,将权值大于平均值的粒子数目增多,将权重小于平均值的粒子所对应的数目减少,甚至舍弃权值小于平均值的粒子。

有益效果

尽管TLD算法具有良好的重检测能力以及长时间学习的能力，但是在应对遮挡、形变等因素的影响时，该算法的跟踪效果还不够理想。因此在跟踪模块引入Kalman和粒子滤波，Kalman滤波具有良好的预测估计能力，粒子滤波则非常适合处理非线性运动问题。将TLD分别和二者予以结合，并加入一种改进的在线学习机制，从而使得整体的目标跟踪更加稳定、有效。TLD算法是在初始图像帧中，确定单一目标的位置和尺寸。然后在接下来的每个图像帧，算法将检测目标的位置和尺寸或者指明目标是否存在，然后逐帧跟踪，检测器检测目标所有出现的位置，并且在需要时纠正***。P-N学习评估检测器的错误，并且更新检测器以提高检测器的性能。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的基于TLD算法的视频车辆目标跟踪算法的流程图；

图2为本发明一个实施例的kalman改进算法原理流程图。

图3为本发明一个实施例的粒子滤波改进算法原理流程图。

图4为本发明实施例的基于TLD算法的视频车辆目标跟踪算法的随机蕨分类器工作原理图；

图5为本发明实施例的基于TLD算法的视频车辆目标跟踪算法的跟踪结果。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，本发明提出一种基于TLD改进算法的视频车辆目标跟踪算法，具体步骤如下所示：

步骤1，输入视频，标定跟踪目标；

所谓光流是指图像中灰度模式运动的速度。它是景物中可见点的三维速度矢量在成像平面上的投影，它表示了景物表面的点在图像中位置的瞬间变化。

LK方法的三个假设：(1)亮度恒定，即同一点随着帧间运动的变化，其亮度不发生改变。这是基本光流法的假定；(2)时间连续，即图像随时间的变化非常缓慢；(3)空间一致，一个场景上邻近的点投影到图像上也是邻近点，且邻近点速度一致。这是光流法特有的假定。

(1)假设原图是I(x,y,z)(这里是扩展到三维空间的，所以还有个z值)，移动后的图像是I(x+δx,y+δy,z+δz,t+δt),两者满足:

t+H.O.T.

(H.O.T.指更高阶，在移动足够小的情况下可以忽略)

(2)其中图像移动可以认为I(x,y,z,t)＝I(x+δx,y+δy,z+δz,t+δt)也就是说：

(3)从这个方程中我们可以得到：其中Vx＝u，Vy＝v，也就是光流的值(二维图像没有z)，则是图像在(x,y,z,t)这一点的梯度(是两帧图像块之间差值)。

(4)假设流(Vx,Vy,Vz)在一个大小为m*m*m(m>1)的小窗中是一个常数，那么从像素1...n,n＝m*m*m中可以得到下列一组方程：

I_x1V_x+I_y1V_y+I_z1V_z＝-I_t1；I_x2V_x+I_y2V_y+I_z2V_z＝-I_t2；I_xnV_x+I_ynV_y+I_znV_z＝-I_tn

三个未知数但是有多于三个的方程，这个方程组自然是个超定方程，也就是说方程组内有冗余，方程组可以表示为：

也就是为了解决这个问题，采用最小二乘法：

得到：

其中求和是从1到n。

利用Kalman滤波器和粒子滤波器良好的预测特性，对***模块进行改进。两种改进方法是并列的，没有顺序关系，并只对初步跟踪结果造成影响，不影响分类器和之后模块的工作。

Kalman滤波与算法改进方法:虽然TLD跟踪算法具有良好的跟踪性能，但是TLD在遇到目标遮挡的时候跟踪效果不明显，甚至出现误跟踪和跟踪丢失的情况。Kalman滤波已经被证明有很好的预测能力，因此将Kalman滤波和TLD跟踪算法相结合，提出了基于Kalman滤波的TLD跟踪算法，来提高跟踪算法在目标遮挡下的跟踪能力。

输入视频帧之后，将视频帧中的目标状态输入到卡尔曼滤波器，然后根据卡尔曼滤波器的预测方程预测出目标在一下时刻的状态，同时，利用TLD算法也对目标的下一时刻的状态进行跟踪，确定目标的跟踪区域。当TLD跟踪效果比较好的时，将TLD的跟踪结果作为观测值对卡尔曼滤波器的参数进行调整更新。当TLD由于遮挡导致目标丢失的时候，则利用Kalman滤波预测出目标的位置，并且将该预测值作为观测值进行卡尔曼滤波器的更新，从而提高了算法的抗遮挡跟踪能力。原理如图2所示。

粒子滤波与算法改进方法:Kalman滤波用于解决高斯问题，但是在现实***中大量存在的并不是线性或高斯分布，而是非线性，有时甚至是完全非线性的。比如在模式识别领域，特征的提取都是基于图像二维矩阵，这是完全非线性的，用于描述图像颜色信息的颜色直方图特征也为非线性。在这种情况下，几乎是不可能得到Chapman-Kolmogoroff积分式的解析解的，贝叶斯滤波框架无法实际应用。为此,蒙特卡洛方法在1940年被提出，随之基于蒙特卡洛思想的序列重要性采样SIS方法被引入贝叶斯滤波的框架中。

重要性采样SIS方法的引入是为了解决贝叶斯滤波中非线性非高斯问题无法解析计算的问题。粒子滤波使用大量采样点来表示贝叶斯滤波中的先验概率函数，这样就将PDF函数扩展到了非高斯的任意形式，利用SIS得到权重不同的粒子，通过权重的不同可以调节粒子的分布，从而可以解决非高斯的问题。

视频帧输入之后，利用TLD算法的训练集，分类器以及分类结果三个步骤进行判断，判断出初步的跟踪预测框。同时，启动粒子滤波算法跟踪。和普通的粒子滤波跟踪算法不同，一旦TLD算法的跟踪预测框的置信度超过阈值，则对粒子滤波重新初始化，并将粒子滤波的输出作为最终的跟踪预测框。原理如图3所示。

步骤2.2，运用随机蕨分类器进行扫描；

分类器的处理对象与***的处理对象相同,均为当前图像帧,且分类器与检测器的工作同时进行。该部分采用随机蕨丛林进行分类。随机蕨丛林是一个包含多个随机蕨的分类器。每一个随机蕨k都初始目标的像素点和在候选区域采集的的像素点对灰度做差，生成相应的二进制编码X。X指向决策树的后验概率。对于所有的决策树的这些后验概率取半朴素贝叶斯输出值M，那么能进入下面的最近邻分类器的前提条件为，M大于50％。当该种情况发生时那么就认为当前图像块含有目标，否则就进入拒绝区域。其原理如图4所示。

步骤3，通过P-N学习更新分类器；

TLD使用的机器学习方法是P-N学习。P-N学习是一种半监督的机器学习算法，它针对分类器对样本分类时产生的两种错误提供了两种“专家”进行纠正：P专家：检出漏检的正样本；N专家：改正误检的正样本。

用不同尺寸的扫描窗对图像进行逐行扫描，每在一个位置就形成一个包围框，包围框所确定的图像区域称为一个图像元(patch)，图像元进入机器学习的样本集就成为一个样本。扫描产生的样本是未标签样本，需要用分类器来分类，确定它的标签。

如果算法已经确定物体在t+1帧的位置(实际上是确定了相应包围框的位置)，从检测器产生的包围框中筛选出10个与它距离最近的包围框(两个包围框的交的面积除以并的面积大于0.7)，对每个包围框做微小的仿射变换(平移10％、缩放10％、旋转10°以内)，产生20个图像元，这样就产生200个正样本。再选出若干距离较远的包围框(交的面积除以并的面积小于0.2)，产生负样本。这样产生的样本是已标签的样本，把这些样本放入训练集，用于更新分类器的参数。

步骤4，显示跟踪目标，如图5所示。

Claims

1.基于TLD改进算法的视频车辆目标跟踪算法，其特征在于，包括以下步骤：

第一步，输入视频，标定跟踪目标；

第三步，通过P-N学习更新分类器；

第四步，显示跟踪目标；

2.根据权利要求1所述的方法，其特征在于：利用Kalman滤波器或粒子滤波器对***模块进行改进；

S1:Kalman滤波改进方法

目标在k时刻的状态向量表示为:X_k＝[x_k，y_k，x′_k，y′_k]^T，其中，x_k、y_k分别表示在x、y方向上的坐标，x_k、y_k分别表示目标在x、y方向上的速度，k-1表示上一时刻；

选取目标的位置作为观察向量,观测向量表示为:z(k)＝[xc_k，yc_k]^T,其中,xc_k、yc_k分别表示通过观测所获得的目标中心在x、y方向上的位置坐标；

根据牛顿运动定律:

x_k＝x_k-1+x’_k-1t+0.5w_k-1t²

y_k＝y_k-1+y′_k-1t+0.5w_k-1t²

x′_k＝x′_k-1+w_k-1t

y′_k＝y′_k-1+w_k-1t

那么由此得到过程模型；根据X_k＝A_kX_k-1+C_ww_k-1,得:

由观测模型Z_k＝H_kX_k+C_vV_k得到：

利用t表示帧率，则状态转移矩阵、观测矩阵表示为：

设置初始时刻目标的状态：其中，x₀、y₀表示第一帧中目标在x方向和y方向的位置；0、0分别表示目标在x、y方向上目标的初始速度；

设置初始的观测量Z₀=[x₀，y₀]^T；

设置初始的状态协方差为Q_k,即模型噪声,状态测量误差协方差矩阵P_k状态转移矩阵A_k,初始的观测协方差R_k,即观测噪声,观测矩阵H_k；具体设置如下:

设置好初始参数后,利用以下步骤进行卡尔曼滤波的递归:

(1)预测出当前时刻的状态,包含速度和位置；

(2)计算先验估计误差协方差；

(3)利用观测值和状态预测值,获得当前时刻的最优值；

(4)计算kalman增益；

(5)更新误差协方差；

S2:粒子滤波改进方法

(1)粒子的状态选择

(2)***的状态转移

随机转移就是在上一帧中中心位置处随机分布粒子；；

其中,X_k表示k时刻粒子的状态,表示所有粒子估计的均值,X_k-1表示k-1时刻粒子的状态,X_k-2表示k-2时刻粒子的状态,w表示随机噪声；A₁、A₂、B都是常量,B表示粒子的传播半径；根据二阶自回归模型得到,粒子在k时刻的状态预测:

这些参数已知，

A₁＝diag{a₁，a₂，a₃}，A₂＝diag{a₂，a₂，a₂},B＝diag{b，b，b},a₁＝2.0，a₂＝1.0，a₃＝1.0，b＝1.0，w_k∈(0，0.001)；

设所有粒子估计的均值为(x₀，y₀，1.0)，其中(x₀，y₀)表示上一帧中目标的中心位置,1.0表示平均尺度；则单个粒子的传播计算如下:

x_k＝a₁(x_k-1-x₀)+a₂(x_k-2-x₀)+bw_k+x₀

y_k＝a₁(y_k-1-x₀)+a₂(y_k-2-x₀)+bw_k+y₀

s_k＝a₁(s_k-1-x₀)+a₂(s_k-2-x₀)+bw_k+1.0

(3)观测模型建立

设表示候选粒子x所对应的HSV区域颜色直方图,表示参考目标模型所对应的HSV区域颜色直方图,则两个颜色直方图之间的Bhattacharyya系数表示为:

其中，u表示向量的维数，表示m维的向量；；

定义颜色直方图的测量分布：

(4)重要性采样

(5)重采样