CN108470354B

CN108470354B - 视频目标跟踪方法、装置和实现装置

Info

Publication number: CN108470354B
Application number: CN201810249416.5A
Authority: CN
Inventors: 周浩; 高赟; 张晋; 袁国武; 普园媛; 杜欣悦
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2021-04-27
Anticipated expiration: 2038-03-23
Also published as: CN108470354A

Abstract

本发明提供了一种视频目标跟踪方法、装置和实现装置；该方法包括：在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对特征点集进行筛选；进而根据筛选后的特征点集，对目标对象进行特征点匹配、运动估计和跟踪状况分析；根据匹配结果、运动估计结果和跟踪状况分析结果，对目标对象和邻域背景的特征点集、目标对象和邻域背景的表观特征、目标对象和邻域背景的帧间运动参数进行更新，从而更新目标对象的跟踪策略。本发明中的跟踪结果不仅能够及时反映目标对象的位置，还能够准确反映目标对象的范围及旋转角度，可以使视频帧目标对象的跟踪具有较好的鲁棒性和稳健性，同时计算复杂度较低，实现跟踪鲁棒性和运算速度的兼顾。

Description

视频目标跟踪方法、装置和实现装置

技术领域

本发明涉及视频目标跟踪技术领域，尤其是涉及一种视频目标跟踪方法、装置和实现装置。

背景技术

运动跟踪是指在连续的图像序列中对感兴趣的目标进行检测，以获得目标的位置、范围、形态等信息，从而在连续的视频序列中建立起目标的对应关系，为下一步的视频理解和分析提供可靠的数据。传统的跟踪方法对目标建立模型，在新的一帧到来时候，通过搜索目标模型的最优似然来跟踪目标，考虑到算法复杂度问题，通常只返回被跟踪目标的位置，而并不返回目标在视频中的成像范围、旋转变化等信息，并且容易受到杂乱背景、遮挡、运动突变等因素的影响，造成跟踪漂移乃至跟踪失败；因此，现有的跟踪算法传统跟踪方法或许在计算复杂度方面有较好的效果，而在一定程度上牺牲了鲁棒性，或是强调了鲁棒性，而牺牲了计算速度，通常难于兼顾。

发明内容

有鉴于此，本发明的目的在于提供一种视频目标跟踪方法、装置和实现装置，以使视频帧目标对象的跟踪具有较好的鲁棒性和稳健性，同时计算复杂度较低，实现跟踪鲁棒性和运算速度的兼顾。

第一方面，本发明实施例提供了一种视频目标跟踪方法，包括：初始化跟踪参数；跟踪参数至少包括目标对象的位置和范围、目标对象和邻域背景的帧间运动参数、目标对象和邻域背景的特征点集；目标对象和邻域背景的表观特征中的多种；在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对特征点集进行筛选；特征点集包括特征点和特征点对应的特征向量；根据筛选后的特征点集分别与前一帧对应的目标对象和邻域背景的特征点集进行匹配；根据筛选后的特征点，对目标对象进行运动估计；根据筛选后的特征点与目标对象的中心位置的距离，以及目标对象的表观特征，对当前帧中目标对象的进行跟踪状况分析；根据匹配结果、运动估计结果和跟踪状况分析结果，对目标对象和邻域背景的特征点集、目标对象和邻域背景的表观特征、目标对象和邻域背景的帧间运动参数进行更新，从而更新目标对象的跟踪策略。

第二方面，本发明实施例提供了一种视频目标跟踪装置，包括：初始化模块，用于初始化跟踪参数；跟踪参数至少包括目标对象的位置和范围、目标对象和邻域背景的帧间运动参数、目标对象和邻域背景的特征点集；目标对象和邻域背景的表观特征中的多种；筛选模块，用于在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对特征点集进行筛选；特征点集包括特征点和特征点对应的特征向量；特征点匹配模块，用于根据筛选后的特征点集分别与前一帧对应的目标对象和邻域背景的特征点集进行匹配；运动估计模块，用于根据筛选后的特征点，对目标对象进行运动估计；跟踪状况分析模块，用于根据筛选后的特征点与目标对象的中心位置的距离，以及目标对象的表观特征，对当前帧中目标对象的进行跟踪状况分析；更新模块，用于根据匹配结果、运动估计结果和跟踪状况分析结果，对目标对象和邻域背景的特征点集、目标对象和邻域背景的表观特征、目标对象和邻域背景的帧间运动参数进行更新，从而更新目标对象的跟踪策略。

第三方面，本发明实施例提供了一种视频目标跟踪实现装置，包括处理器和机器可读存储介质，机器可读存储介质存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述视频目标跟踪方法。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种视频目标跟踪方法、装置和实现装置，初始化跟踪参数后，在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对特征点集进行筛选；再根据筛选后的特征点集分别与前一帧对应的目标对象和邻域背景的特征点集进行匹配；进而根据筛选后的特征点，对目标对象进行运动估计，根据筛选后的特征点与目标对象的中心位置的距离，以及目标对象的表观特征，对当前帧中目标对象的进行跟踪状况分析；最后根据匹配结果、运动估计结果和跟踪状况分析结果，对目标对象和邻域背景的特征点集、目标对象和邻域背景的表观特征、目标对象和邻域背景的帧间运动参数进行更新，从而更新目标对象的跟踪策略；该方式中，跟踪结果不仅能够及时反映目标对象的位置，还能够准确反映目标对象的范围及旋转角度，可以使视频帧目标对象的跟踪具有较好的鲁棒性和稳健性，同时计算复杂度较低，实现了跟踪鲁棒性和运算速度的兼顾。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频目标跟踪的算法的流程图；

图2为本发明实施例提供的一种视频目标跟踪方法的流程图；

图3为本发明实施例提供的初始化跟踪参数的流程图；

图4为本发明实施例提供的根据筛选后的特征点集分别与前一帧对应的目标对象和邻域背景的特征点集进行匹配的流程图；

图5为本发明实施例提供的对当前帧中目标对象的进行跟踪状况分析的流程图；

图6为本发明实施例提供的对特征点匹配情况进行跟踪状况分析的示意图；

图7为本发明实施例提供的目标跟踪定位的过程的示意图；

图8为本发明实施例提供的对目标对象和邻域背景的特征点集、目标对象和邻域背景的表观特征、目标对象和邻域背景的帧间运动参数进行更新的示意图；

图9为本发明实施例提供的对目标对象和邻域背景的特征点集进行更新的流程图；

图10为本发明实施例提供的另一种视频目标跟踪方法的流程图；

图11为本发明实施例提供的一种视频目标跟踪装置的结构示意图；

图12为本发明实施例提供的一种视频目标跟踪实现装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示为视频目标跟踪的算法的流程图；在目标初始化之后，获得目标初始状态X₀，并初始化目标表观模型A₀，进入跟踪阶段。在视频帧I_t到来后，依据之前的目标状态及目标模型，在当前帧中对目标进行定位，获得目标在当前帧中的状态X_t，根据当前帧中目标的表观特征对表观模型A_t进行更新。通常，跟踪过程中难免会发生遮挡、跟踪漂移，因此要实现鲁棒的跟踪，应对当前的跟踪状态进行分析，并相应调整跟踪策略。此外，要在复杂场景中实现稳健、鲁棒的跟踪，常常需要利用多种特征相融合建立特征模型，因此多特征融合问题常常也是鲁棒跟踪算法需要考虑的问题。

典型的目标跟踪***主要包括如下三个步骤：

(1)建立目标模型，无论跟踪策略如何，跟踪算法都需要建立对目标进行描述的表观模型，并依据目标模型在当前帧中寻找目标的位置。

(2)目标定位算法，根据建立的目标模型在图像帧中搜寻目标的位置、范围等状态信息，依据对跟踪算法思路的不同，视频目标跟踪的解决方法总体来讲可分为随机性的算法和确定性的算法，随机性的方法将跟踪问题看作是在已知之前目标的观测数据及状态下，估计当前帧中目标的最优状态。而确定性的方法将跟踪简化为求解最优代价函数的问题。

(3)目标模型更新方法，跟踪算法是通过将当前帧特征信息的观测结果与特征信息的先验知识(即目标模型)进行比较分析得到当前帧的跟踪结果。然而在实际跟踪过程中，被跟踪目标的表观特征并不是一成不变的，目标的表观变化可分为两种情况：由于光照变化、形变、非平面旋转等因素而造成图像帧中目标的表观确实发生了改变，此时，目标的表观模型应及时适应，跟随这样的变化；另一种情况是由于遮挡、噪声等因素造成的目标表观的变化，这时表观模型不应跟随当前帧的变化。可见这两种情况对应表观模型的更新要求是截然不同的，因而如何处理目标表观特征的变化时进行鲁棒目标跟踪的重要挑战。

对目标进行搜索定位的方法可分为随机性的算法和确定性的算法。随机性的算法将目标跟踪问题转换为贝叶斯框架下的最优状态估计问题，状态即为目标跟踪的结果，包括目标在当前帧中的位置范围等参量。随机性跟踪算法分为预测和观测向量更新两个步骤，在已知目标表示及初始状态等目标的先验知识的条件下，依据目标运动模型对目标的当前状态进行预测，然后通过观测数据求解目标状态的最大后验概率来获取目标的最佳估计，经典的随机性跟踪算法有卡尔曼滤波(Kalman filter)和粒子滤波(Particle filter)及其改进算法。

确定性的算法通过度量对当前帧候选目标区域与已知目标模型进行相似性度量来实现跟踪，而相似性度量常常通过匹配算法进行，例如：Mean-shift算法利用无参数概率密度的梯度，在当前帧中，以前一帧目标位置为基准，在其邻域中搜寻与目标颜色内核密度估计最类似的图像区域作为当前帧目标的位置。Mean-shift及Cam-shift算法就是依据这种思路来进行目标跟踪。为提高跟踪的鲁棒性，通常需要对图像帧序列进行预处理，提高图像质量，并建立和更新目标模型。

无论哪种目标定位策略都需要建立目标模型并依据目标模型进行在当前帧中搜寻目标的最优匹配。因此建立对目标表观进行描述的模型是决定跟踪算法鲁棒性的重要因素，而建立目标表观建模的首要问题是选取能有效描述目标的表观特征，依据建立目标表观模型所用的图像特征，可以将对建立表观模型的方法分为下几种：

(1)基于像素值描述的表观特征：直接利用像素值来建立目标特征可分为基于向量的方法和基于矩阵的方法，基于向量的方法直接将图像区域转化为一高维向量，而基于矩阵的方法通常是直接利用二维矩阵建立目标特征。这类方法建立目标的表观特征后，通过计算当前帧图像区域与目标模板之间的相关性来跟踪目标，并用当前帧图像中的跟踪结果来更新目标特征。

(2)基于光流法描述的表观特征：光流法将目标图像区域每个像素的时空位移密度场作为目标的特征，通常有基于亮度恒定约束以及非亮度恒定约束两类光流计算方法，基于亮度恒定约束的光流计算方法假设光照条件在局部区域是不变的，在此基础上获取图像区域中每个像素位移矢量的场信息。非亮度恒定约束的方法则是通过引入像素的空间上下文关系来对光流场进行几何约束。通常，光流法的计算复杂度较高。

(3)基于概率密度描述的表观特征：图像直方图是最常见的灰度概率分布描述方法，如Mean-shift和Camshift跟踪算法，利用直方图建立目标特征是目前在目标跟踪算法中最常用的方法。

(4)基于协方差描述的表观特征：基于协方差建立的目标模型能够描述目标内部各部分的相互关系。

(5)基于轮廓描述的表观特征：用目标对象边界的封闭轮廓曲线来描述被跟踪的目标，建立目标的表观特征；并且随着目标的缩放、旋转、变形，轮廓特征能够自适应地连续更新，因此适用于对非刚性目标进行跟踪的场合。

(6)基于局部特征描述的表观特征：仅仅利用目标的一些局部特性来描述目标，比如目标的一些特征鲜明的点、线或局部区域，通过局部特征建立目标模型并与当前帧中检测到的局部特征进行匹配来对目标进行跟踪，这样，即使目标被部分遮挡，只要有部分局部特征点仍然可被检测到，就可以实现有效的目标跟踪。在目标跟踪过程中常用的局部特征有角点特征(如Harris角点)、Gabor特征、SIFT(Scale Invariant Feature Transform，尺度不变特征变换)特征或SURF(Speeded Up Robust Features，加速鲁棒特征)特征等。

(7)基于压缩感知的表观特征：目标跟踪可以看作是基于一个动态构建和更新的样本集寻找跟踪目标稀疏表示的问题。根据目标样本集利用范数最小化方法对跟踪目标进行稀疏表示，并在卡尔曼滤波器框架下基于样本的稀疏表示对跟踪目标进行评估。目标跟踪还可以看做粒子滤波框架下的稀疏近似问题，以正则化最小二乘法对目标进行稀疏表示，在新的图像帧中与目标稀疏表示误差最小的候选目标即为跟踪目标。

在实际跟踪过程中，由于遮挡、噪声、光照变化、目标与探测器间距离变化等因素的影响，被跟踪目标的表观特征并不是一成不变的。目前表观在线自适应更新的算法可分两类：生成式(Generative)方法和判决式(Discriminative)的方法；生成式的算法仅仅对目标表观进行建模，而并没有考虑目标模型对背景及其它目标表观的区分能力，这类方法首先建立一个目标表观模型，通过求取最大似然或最大后验概率对目标进行搜索跟踪；判决式的算法将目标跟踪当作目标检测问题：即通过在线训练和更新的分类器将目标从其邻域背景的局部区域中分离出来，在初始帧时，用户首先确定目标，并由此而得到描述目标的特征集和描述目标邻域背景的特征集，在连续帧中，通过二值的分类器将目标从背景中分离出来，为应对表观的变化，分类器需要进行适时的更新。

现有的跟踪算法总是在鲁棒性、跟踪准确性、稳健性以及计算复杂度之间进行取舍，其具体缺点如下：

(1)跟踪结果通常只包括目标的位置，并不包括目标的范围；传统的跟踪算法通过建立目标模型，在当前帧中采用搜索匹配的方法得到当前目标位置，考虑到跟踪的应用对计算复杂度的要求，通常跟踪结果并不包括目标的范围，遑论目标的旋转角，因为跟踪目标的位置仅仅是在二维的图像中进行最优搜索，要得到目标的范围或旋转角度，最优匹配的搜索空间将扩大到三维甚至四维，将大大增加运算复杂度，然而在很多应用场合，准确知道目标的范围和旋转角将对进一步的处理具有重要的意义。

(2)对遮挡、跟踪漂移、复杂背景等情况下跟踪的鲁棒性有待进一步提高；传统的跟踪方法对目标遮挡，即使是部分遮挡也非常敏感；此外对于跟踪漂移、跟踪丢失缺乏准确的分析和判断，容易将背景信息引入到目标的跟踪模型中，因此也难于及时处理跟踪过程中的异常情况，造成跟踪失败。

(3)计算复杂度始终是跟踪算法的关键因素，难于兼顾各方面的性能；优秀的***或目标跟踪方法应兼顾鲁棒性、稳健性和计算复杂度，是需要多个环节相互配合的完整***，而目前传统跟踪方法或许在计算复杂度方面有较好的效果，而在一定程度上牺牲了鲁棒性，或是强调了鲁棒性，而牺牲了计算速度，通常难于兼顾。

基于此，本发明实施例提供了一种视频目标跟踪方法、装置和实现装置；该技术可以应用连续视频帧间的目标跟踪过程中；该技术可以采用相关的软件或硬件实现，下面通过实施例进行描述。

参见图2所示的一种视频目标跟踪方法的流程图；该方法包括如下步骤：

步骤S202，初始化跟踪参数；跟踪参数至少包括目标对象的位置和范围、目标对象和邻域背景的帧间运动参数、目标对象和邻域背景的特征点集；目标对象和邻域背景的表观特征中的多种；该目标对象也可以称为目标。

该步骤S202具体可以通过下述方式实现：(1)提取当前帧中，目标对象和邻域背景的表观特征；表观特征至少包括特征描述子向量、尺度因子特征信息、颜色特征、纹理特征和边缘特征中的多种；(2)确定目标对象的中心位置和目标矩形框的长度和宽度；(3)将目标对象和邻域背景的帧间运动参数初始化为当前帧与前一帧之间的对应变换参数的差；(4)将目标对象的特征点集初始化为目标对象的矩形框内，检测到的特征点集；将邻域背景的特征点集初始化为目标对象以外的预设范围内的邻近区域内检测到的邻域背景的特征点集；(5)将目标对象和邻域背景的表观特征初始化为提取到的表观特征的特征向量。

考虑到视频目标跟踪的实质是在每一帧中将目标从其邻域背景区域中寻找出来，从而准确定位目标，将目标从其邻域背景区域中区分出来通常是根据目标与其邻域背景表观特征的不同，因此仅仅对目标建立模型并作为跟踪的依据，难于得到鲁棒稳健的跟踪结果。因此，建立的模型包括目标模型和其邻域背景的模型。

在视频帧中，背景在帧间的运动是由于探测器本身的运动变化造成的，而目标在图像帧间的位置及范围的变化是由于目标本身的运动和探测器运动共同造成的，因此目标运动的规律与邻域背景的运动规律并不相同，相应地，目标或邻域背景区域的特征点在帧间的位置变化实际上反映了特征点的帧间运动。在实际应用中无论目标还是背景，其帧间运动不会发生突变，特别是对于高帧频采样条件下的应用，帧间位置的变化总是具有连续性。因此，相应的特征点位置的帧间变化也应具有相应的连续性，不会发生突变。观测在连续视频帧中特征点(x,y)的帧间位移，其运动随时间变化的过程同样可表示为

{U_i(1),…,U_i(t)}＝(u_i(x,y,t₀):1≤t₀≤t) (1)

u_i(x,y,t₀)为t₀时刻在(x,y)处的特征点i观测到的帧间位移，在一段时间范围内，可以将这种帧间的运动用匀速的运动叠加上一定的高斯噪声来进行模拟。因此我们同样用单高斯分布模型描述这个“特征点帧间位移过程”，即用高斯分布N(μ_u,σ_u)来模拟{U_i(1),…,U_i(t)}。

另一方面，目标和其邻域背景通常是具有不同的颜色、纹理、边缘等表观特征，因此其对应的表观模型也不应相同。同样，由于噪声、光照变化、目标及探测器的运动、背景改变等因素的影响，即使整个场景是静止的，同一探测器在不同时刻采集的不同图像帧也不会完全一样。因而在视频中，即使是稳定的特征点，在其位置(x,y)的局部区域内的图像信息，包括灰度值等信息，也会随时间发生变化。设在任何时刻t，特征点i其位置为(x,y)，feature_i(x,y,t₀)为t₀时刻在特征点(x,y)处观测到的特征值，该特征点邻域内观测值发生了“特征信息过程”(特征信息随时间的变化过程)，可表示为

{Feat_i(1),…,Feat_i(t)}＝(feature_i(x,y,t₀):1≤t₀≤t) (2)

参见图3所示的初始化跟踪参数的流程图；连续帧间的视频总是相对稳定的，不会发生突变。即使在发生遮挡的情况下，遮挡物的图像区域挡住了被遮挡的物体，而遮挡物图像区域则是相对稳定的，另一方面被遮挡的物体在一段时间后仍可能会出现，之前的观测到的先验知识仍对被遮挡物体的认识有着重要的作用。相应的基于SURF特征点检测提取的多种特征向量，包括SURF特征描述子信息、尺度因子信息以及其他特征信息，在视频中随时间发生的变化是相对稳定。可用单高斯分布模型描述这个“特征信息过程”，即用高斯分布N(μ_feat,σ_feat)来模拟{Feat_i(1),…,Feat_i(t)}。通过位于目标上的各个特征点特征向量的高斯分布模型建立目标的表观模型，与此类似，目标邻域背景的表观模型则是由位于目标邻域背景区域的各特征点特征向量的高斯分布模型构成。

图3中，在第一帧时进行模型初始化，包括以下参数的初始化：

(1)目标用矩形框来表示，初始化目标的位置及范围

其中

表示目标矩形框中心的坐标，

表示目标矩形框的高和宽；初始化目标邻域背景区域为以

中心，以

为高和宽的矩形框除去目标本身的区域。

(2)初始化目标的帧间运动参数为

即没有平移，没有旋转，没有缩放；初始化目标邻域背景的帧间运动参数为

即也没有平移，没有旋转，没有缩放；系数t表示帧序数，在第一帧时t＝0；初始化目标的帧间运动高斯模型均值为

在第二帧到来后，将高斯模型的方差为

初始化为第一帧与第二帧检测到的变换参数的差；初始化背景的帧间运动高斯模型均值为

在第二帧到来后，将背景运动高斯模型的方差为

初始化为第一帧与第二帧检测到的变换参数的差。

(3)初始化目标和邻域背景SURF特征点集。在以

中心,

为高和宽的矩形区域内检测SURF特征点，得到SURF特征点集Pg₀，将位于目标矩形框内的特征点集

初始化为目标特征点集，而位于目标邻域背景区域内的特征点集

背景特征点集，其中有：

(4)初始化目标表观模型和邻域背景区域的表观模型。对每个特征点，按照SURF特征点检测算法，在第t帧时提取出在坐标(x，y)处的第i个特征点对应的特征描述子向量

同时也获得其对应的尺度因子特征信息

根据跟踪对象以及应用场合的不同，还可检测特征点邻域内的纹理、梯度、灰度均值等向量

认为每个SURF特征点所选取的各特征向量随视频帧的变化都满足高斯分布，在第一帧时t＝0，初始化特征特征点其对应的高斯分量的均值

为该特征点的观测值

在第一帧时刻，对各特征向量相应的高斯模型方差

初始化为一较大的初始值；因此跟踪开始，初始化后，建立的模型包括：(1)目标的位置和外接矩形框，用参数

描述；(2)运动模型，目标运动高斯模型，用参数

进行描述，而背景运动的高斯模型，用参数

描述；(3)检测到的特征点集Pg₀分属于目标和邻域背景，目标的特征点集合为

背景的特征点集合为

(4)每个特征点对应的特征向量为

特征向量对应的高斯模型参数为

步骤S204，在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对特征点集进行筛选；特征点集包括特征点和特征点对应的特征向量；

上述步骤S204，具体可以通过下述方式实现：(1)确定待检测图像范围的图像矩形框的左上角坐标和右下角坐标；(2)在图像矩形框内，进行特征点检测，得到特征点的坐标；(3)计算特征点的Hessian矩阵的迹，以及特征点对应的特征向量；特征向量包括特征描述子向量、尺度因子特征信息、以及颜色、纹理和边缘向量；(4)按照如下筛选条件，对特征点集中的特征点进行筛选：特征点的Hessian矩阵的迹与前一帧视频帧内特征点的Hessian矩阵迹同号；特征点与前一帧视频帧内特征点的距离小于预设的距离阈值；特征点与前一帧视频帧内特征点，对应特征向量的欧式距离满足预设的特征向量阈值；特征点与前一帧视频帧内特征点的位移长度、位移方向和相对位置关系满足预设的位移一致性阈值；当特征点与前一帧视频帧的特征点为多个对一个的匹配关系时，从多个特征点中筛选欧氏距离最小的特征点。

步骤S206，根据筛选后的特征点集分别与前一帧对应的目标对象和邻域背景的特征点集进行匹配；

考虑到计算复杂度的问题，通常并不对全图像进行特征点检测和匹配，在每帧中通过特征点的帧间匹配来确定目标的位置及范围。结合之前建立的目标运动模型来对当前帧的目标定位跟踪情况进行评估，并根据评估结果来确定在新一帧图像中进行特征点检测及匹配的局部区域范围。在对跟踪准确性进行评估的基础上，按照下面公式根据当前帧的跟踪结果确定下一帧进行特征点检测的图像范围：

公式中

为当前帧中目标的中心位置坐标以及高和宽，thrdU为阈值常数，通常取值为2.4-3，(LTx,LTy)和(RBx,RBy)分别代表在下一帧进行特征点检测的图像矩形框的左上角的坐标和右下角的坐标。

在坐标(LTx,LTy)和(RBx,RBy)所确定的矩形图像块内进行SURF特征点检测，并计算所检测到的特征点在图像中的坐标(x_i,y_i)，计算特征点的Hessian矩阵的迹，计算各特征点对应的特征向量

属于目标的特征点与属于邻域背景区域的特征点其所服从的运动规律、其颜色、形状等表观特征都不相同，故将特征点集Pg_t-1分为两类：位于目标区域的特征点集

位于背景区域的特征点集

在检测出当前帧的特征点集

后，分别与目标特征点集

和背景特征点集

进行匹配，这里TN(t-1)为t-1时刻目标特征点集的个数，BN(t-1)为t-1时刻背景特征点集的个数。特征点集间的匹配结果可用配对空间中的一个二值向量来表示,Matched＝{0,1}^M，向量Matched中每个入口matched_ij代表一个配对响应，matched_ij＝1表示配对成功，否则表示前后帧特征点i与j配对失败，M表示前后帧特征点集组成的配对空间，M可用一二维矩阵描述，矩阵的大小为N(t-1)×N(t)，N(t-1)与N(t)分别表示前后帧参与配对的特征点个数。前一帧中的特征点要么与当前帧的某一个特征点配对成功，要么没有匹配上任何的特征点，即配对应当满足约束条件Rstr：

参见图4所示的根据筛选后的特征点集分别与前一帧对应的目标对象和邻域背景的特征点集进行匹配的流程图，具体包括以下步骤：

(1)基于Hessian矩阵迹的匹配；SURF特征点是图像中的局部极值点，根据不同的极值情况，SURF特征点可分为两类，即特征点中心灰度值为邻域内灰度极小值和极大值两种情况，显然这两类特征点之间不应当发生匹配。通过计算SURF特征点的Hessian矩阵的迹(即Hessian矩阵对角元素之和)可判断其中心灰度为局部最大或最小值，令特征点的迹用Trace表示，若Hessian矩阵的迹为正，表明特征点中心亮度比邻域像素亮度大；若Hessian矩阵的迹为负，则表明特征点中心亮度比邻域像素亮度暗。在配对空间M中比较两个待匹配特征点i与j的Hessian矩阵迹，只有它们是同号，才认为该待匹配点对可能匹配，即matched_ij＝1，并将其作为初步的候选匹配特征点集合candidate_matchpair0。

(2)基于特征点位移大小约束的匹配；由于认为特征点的帧间运动不会发生突变，能够与上一帧特征点i相匹配的当前帧特征点j必定在以特征点i为中心的某一范围内，超出该范围的特征点不存在与i匹配的可能，即在候选匹配特征点集candidate_matchpair0中剔除帧间特征点对(i,j)的距离Dist_mij大于规定阈值threσ_m的匹配，以得到新的候选匹配特征点集candidate_matchpair1，该步骤可用下述公式表示。

(3)基于特征向量约束的匹配；分别计算上一帧的目标特征点集合

以及背景特征点集

与当前帧检测到的特征点集

之间特征向量

间的距离

根据所建立的特征点表观模型，比较各特征向量间的距离与对应特征模型方差

若距离

均小于对应阈值，则认为匹配，置配对响应matched_ij为1，否则认为不匹配，置配对响应matched_ij为0。

matched_ij＝match_d&match_s&match_o (12)

以此在candidate_matchpair1候选配对特征点集合中进一步遴选出新的候选匹配特征点集candidate_matchpair2，这里threσ为阈值，通常设置为2.4-3。

(4)基于特征点位移一致性约束的匹配；位于目标区域内的特征点在帧间的运动是由于目标在帧间位置发生了变化，同样，位于背景区域的特征点在帧间的位移是由于探测器的运动造成的，因此属于目标的特征点集

在帧间的位置变化应满足同样的运动约束，类似地，属于背景的特征点集

也应满足同样的运动约束。我们把这样的运动约束归纳为三个条件：同一类特征点的帧间位移应具有相近的位移大小，即能正确配对的特征点的帧间位移矢量长度应具有一致性；同一类特征点的帧间位移应具有相近的位移方向，能正确配对的特征点的帧间位移矢量方向也应具有一致性；在绝大多数情况下，能正确配对的特征点帧间位移前后，相互间位置关系应基本保持不变。

借用RANSAC算法的思想，在集合candidate_matchpair2遴选出满足以上3个条件的配对特征点，该过程可分为三步：(1)任选两对满足一定条件的帧间配对特征点(i₁,j₁)和(i₂,j₂)估计集合参数。特征点i₁及i₂为上一帧的特征点，而j₁和j₂为当前帧特征点，计算帧间位量

的长度|a|＝|i₁,j₁|，以及向量

的长度b|＝|i₂,j₂|，并计算向量

与向量

之间的夹角∠θ_ab；计算帧内向量

的长度|c|＝|i₁,i₂|，计算量

的长度|d|＝|j₁,j₂|。计算帧间向量长度|a|与|b|的均值

以及方差

计算帧内向量长度|c|与|d|的均值

以及方差

用方差与均值的比

和

表征不同的候选匹配特征点在帧间和帧内的向量长度变化情况，由于运动不会突变，特征点的运动应服从其所属目标或背景区域整体的运动，因此这两个比值都不应该太大，且∠θ_ab也不应该太大，若帧间特征点位移方差和和均值比Par1小于0.24,且帧内特征点位移方差和和均值比Par2小于0.2，并且两对特征点(i₁,j₁)和(i₂,j₂)之间的夹角∠θ_ab小于弧度值0.15时，则以

以及向量a的相位角和b的相位角的均值

作为模型参数，继续下一步，否则重新选取特征点对；(2)用估计得到的模型参数

及

设定阈值，计算集合candidate_matchpair2每个候选匹配特征点对(i_n,j_n)的帧间位移长度|i_n,j_n|、方向

计算前一帧内特征点间向量

与向量

长度的均值

当前帧内特征点间向量

与向量

长度的均值

计算帧内特征点间向量长度的方差

若

小于

小于0.1，且

小于0.3，则认为特征点对(i_n,j_n)位内点，否则为外点。找出集合candidate_matchpair2中的内点，且记录对应的内点个数。(3)找出内点数最多的估计，若最多的内点数占集合配对总数的比例大于阈值，或简称内点的次数大于规定阈值，则该估计下判断出的内点作为新的候选配对特征点集candidate_matchpair3，否则重复以上步骤。

(5)基于特征点配对唯一性约束的匹配；在新的候选配对特征点集candidate_matchpair3中，可能会存在多个特征点匹配同一个特征点的情况，显然是不正确的，检测集合candidate_matchpair3中所有不满足一一对应约束的特征点配对关系，删除表观特征向量间非最小融合距离Dist_intergralij的配对关系，只保留融合距离最小的那些匹配关系作为配对结果，如图4所示，进一步得到新的配对关系集合candidate_matchpair4。其中融合距离Dist_intergralij由各类特征向量间的距离

加权融合而得到：

weight_n为第n项特征信息的归一化融合权值，n∈{d,s,o}为以上述的几种特征之一，

代表根据视频的实际情况选择的特征向量间的距离，通过在线学习方式计算特征向量

随时间变化的方差

定义融合权值为：

步骤S208，根据筛选后的特征点，对目标对象进行运动估计；

通常用矩形框来表示目标的跟踪区域，设上一帧中，目标矩形框的中心为xc_t-1＝(center_x_t-1,center_y_t-1)，h_t-1和w_t-1表示的宽和高。目标及其邻域背景区域的帧间位置变化可看作是沿水平或垂直方向的平移、围绕几何中心为原点的缩放以及旋转的叠加，可用变换参数

(目标)或

(邻域背景)进行描述，这里u_t＝(ux_t,uy_t)为平移参数，ρ_t为缩放参数，而θ_t为旋转参数，则目标区域帧间的变换方程为：

理想情况下，目标上的特征点应跟随目标做与其一致的运动。设t-1时刻的特征点

与t时刻位置为

的特征点匹配，按公式(15)计算得到特征点

在t时刻的位置估计值

应与特征点

一样，然而实际中由于噪声及观测角度变化等因素的影响，估计值

与观测值

并不完全一致。观测值

可以看作是估计值

叠加了高斯噪声而得到的。在获取了前后帧特征点的配对关系集合candidate_matchpair4后，根据上一帧特征点集在当前帧图像中的估计值

以及与之相匹配的当前帧特征点的观测值

定义观测误差为：

用非线性最小二乘曲线拟合的方法求满足观测误差最小的运动方程参数

和

这里权值

由特征点的稳健性决定，稳健性好的特征点赋予较大权值。

步骤S210，根据筛选后的特征点与目标对象的中心位置的距离，以及目标对象的表观特征，对当前帧中目标对象的进行跟踪状况分析；

该步骤S210，具体可以通过下述方式实现：(1)根据特征点与目标对象的中心位置的距离，检测被错误分类的特征点，剔除被错误分类的特征点，生成第一特征点集；(2)根据第一特征点集中各特征点的表观特征，分析当前视频帧中目标对象是否发生跟踪漂移。

在跟踪目标对象的过程中，难免会出现跟踪漂移、遮挡(包括部分遮挡和完全遮挡)以及跟踪丢失的情况，要实现鲁棒的跟踪则应当对当前的跟踪结果进行分析，判断其是否跟踪准确，还是发生了漂移、遮挡、丢失等情况，并及时调整跟踪策略才能保证稳健鲁棒的跟踪。

参见图5所示的对当前帧中目标对象的进行跟踪状况分析的流程图；在获取当前帧与上一帧特征点的配对关系集合candidate_matchpair4，并分别用最小二乘法估算出目标及其邻域背景区域的帧间运动参数

和

后，需要对是否发生跟踪漂移进行了分析，之后依据特征点匹配的情况分析了是否正常跟踪或是发生了遮挡、跟踪丢失的情况。

跟踪丢失通常是从跟踪漂移开始，因此准确判断是否出现跟踪漂移是对提高***性能有重要的意义。本发明实施例将当前帧检测到的特征点

集分别与目标特征点集

以及背景区域的特征点集

进行匹配，经过多级串联、多条件约束寻找到配对关系集合candidate_matchpair4，据此分别估算出目标及其邻域背景的帧间运动参数

和

通过目标的帧间运动参数计算出当前帧目标对应的矩形框范围，当前帧检测到的特征点位于目标矩形框内被分类目标特征点

而位于目标矩形框外的特征点被分类为背景特征点

然而，实际应用中，在目标四周以及相邻的背景区域出现的特征点容易被错误归类，如果本该属于背景的特征点被错误分类为目标，在后续帧特征点匹配时，被错分的特征点又匹配成功，甚至能够连续在帧间被匹配成功，将参与到运动模型参数的计算中，将会造成在后续帧跟踪时发生跟踪漂移，乃至跟踪丢失。此外由于噪声，相似的局部图像特征也容易造成跟踪漂移。

在实际应用中，被跟踪目标是刚体，或是目标的形状在帧间不会发生突变。因此，背景特征点在背景中的相对位置在帧间不会发生突变，目标特征点在目标上的相对位置也不会发生突变，特别是对刚体目标而言，目标特征点在目标上的相对位置变化就更小。

如果目标特征点到其几何中心的相对位置不会发生帧间突变，在此基础上检测出错误分类的特征点。首先用目标矩形框的宽和高归一化目标特征点到其几何中心的距离作为特征点的相对位置，在此基础上计算t帧时，坐标为

的特征点i的相对位置

并与上一帧该特征点的相对位置进行比较

若变化大于0.25，则认为该特征点属于被错误分类，并因此造成了跟踪漂移，则从目标特征点集合

中剔除该特征点，将配对关系集合candidate_matchpair4更新为candidate_matchpair5，并重新估算目标帧间运动参数

由于噪声以及图像空间中存在相似的局部表观特征的因素的影响，仍有可能造成特征点匹配错误，从而导致跟踪漂移。对这类跟踪漂移，假设目标的表观信息在帧间是不会发生突变。若发生跟踪漂移，检测到的目标范围内有部分其实是其邻域背景，在此范围内所提取的表观信息会融入背景的信息，在此范围内提取到的表观特征与目标表观特征的先验知识相比较，必定与跟踪准确的情况下提取到的表观特征的情况具有较大的差别，即会发生表观信息的突变。

根据之前估算出的目标帧间运动参数

以及上一帧目标矩形框的四个顶点的位置，计算出当前表示目标的矩形区域，提取此矩形区域内的表观特征向量，将该表观特征向量与其历史经验相比较，判断是否发生了突变，进而判断是否发生了漂移，将评估当前帧的跟踪是否发生了漂移转化为求似然概率的问题。当前估计出来的目标运动参数是通过比较帧间的表观特征向量

等步骤实现的，因此通过分析这些表观特征向量来判断是否跟踪准确并不可靠的，通常需要另外选取表观特征向量，分析其帧间的变化作为判断跟踪准确的依据。

然而对跟踪算法而言，一方面要提高算法的鲁棒性，另一方面需要保证算法的计算效率。压缩感知理论认为可以将信号投影到某个合适的变换域得到稀疏的变换系数，然后通过设计一个高效的观测矩阵获得隐藏在稀疏信号中的有用观测值，通过少量有用的观测值就可以与信号相关联，对应视频跟踪问题关心的是特征向量对目标跟踪判别的有效性，因此通过观测矩阵将目标特征变换为有限的观测值，即压缩向量，直接利用降维后的压缩向量对目标进行描述，获取目标的表观特征，而压缩感知理论本身已经保证了可以通过少量的压缩向量几乎无损地保存了原始信号的信息，可大大减少算法的计算复杂度。根据稀疏理论，对候选目标区域提取高维Haar-like特征向量

这样信号x为在正交变换下可得到K稀疏变换系数的向量，可直接采用满足约束等距性的高斯随机测量矩阵

对其压缩测量，得到压缩测量向量

可以设置n＝10⁶，K＝10，压缩测量向量维数m＝50。由此可知压缩测量向量y中第i个元素是测量矩阵的第i行向量与Haar-like特征向量的内积，即：

当前帧中通过SURF特征点匹配确定的目标位置及范围后，在此位置附近半径小于α的邻域内，以此为中心采样与目标矩形框同样大小的图像块作为正样本，可以设置α＝3，在当前帧目标位置附近半径小于β大于ξ的邻域范围内,以此为中心随机采样60与目标矩形框同样大小的图像块作为负样本，这里ξ<β,β可以设置为矩形框的长度，ξ＝6，在正负样本所代表的图像块中提取压缩测量向量y，在跟踪准确的条件下，用EM算法计算并更新正负样本压缩测量向量y的(μ¹,σ¹)和(μ⁰,σ⁰)。其中：μ¹,σ1和μ⁰,σ⁰分别为真实目标和候选背景样本的均值与标准差。

候选区域是否为目标的问题，可以看作一个二分类的问题，其结果v∈{0,1}，p(v＝1)以及p(v＝0)分别表示候选区域为目标和非目标的概率，且其概率都为0.5。认为条件分布p(y_i|v＝1)服从高斯分布

而条件分布p(y_i|v＝0)则服从高斯分布

在获取m个正负样本后，可计算样本的评分值：

由于目标表观特征在不会发生帧间的突变，相应的评分值也不会发生帧间突变，因此评分值的变化也同样满足高斯分布

并用EM算法在每帧跟踪结束后更新目标评分的均值和方差

将当前依据SURF特征点匹配的跟踪结果作为待评判样本，根据计算当前跟踪到图像矩形框的评分值H_T(y)，并对目标跟踪状态进行评判：

Drift∈(0,1)，这里1和0分别表示是否存在跟踪漂移，thredσ_T为预先定义的阈值常数，thredσ_T可以设置为2.4-3。

在当前帧到来前，已知的特征点集合为Pg_t-1，包括了目标特征点集

以及目标邻域背景特征点集

分别于当前帧中检测到的特征点集PgD_t进行匹配，有部分特征点能够被匹配，匹配上的目标特征点为

匹配上的背景特征点为

另有部分没能匹配的特征点，分别表示为未能匹配的目标特征点集

和未能匹配的背景特征点集

参见图6所示的对特征点匹配情况进行跟踪状况分析的示意图；通过分析匹配的特征点集

和

的空间分布情况可对当前的跟踪情况进行初步的分析：图6中的(a)所示，特征点集

与

均不为空，且均位于各自的区域，为正常跟踪；如(b)中，特征点集

与

均不为空，但有部分匹配的背景特征点集

中存在特征点位于当前帧中目标区域，这时目标存在被部分遮挡的可能。如(c)中，特征点集

为空，但特征点集

不为空，即没有属于目标的特征点被匹配成功，这种情况常常对应于跟踪丢失，或者目标被完全遮挡；如(d)中,特征点集

与

均为空，即上一帧中没有特征点被匹配，这种情况对应跟踪丢失。

上述过程也可以称为目标跟踪定位的过程；如图7所示，SURF特征点的帧间匹配计算出目标和其邻域背景的帧间位移参数，计算出帧间的目标，在第t帧到来后，首先依据目标运动的相关历史知识，确定在新一帧中目标可能出现的区域，在此区域中检测SURF特征点，检测出的SURF特征点分别与上一帧的目标特征点集

和背景特征点集

进行匹配，为保证尽可能多地寻找出帧间正确匹配的特征点对，也为了尽可能避免错误的匹配，可以采用多种约束条件串联方式，从候选配对特征点集合中逐步剔除错误的匹配，最终得到正确的配对；具体而言，可以分别根据特征点帧间位移不会突变、特征点表观特征不会突变、属于目标的特征点的帧间位移应目标整体运动保持一致等约束条件，找出当前帧特征点与上一帧的特征点集间的正确匹配，根据匹配的特征点估算出目标的帧间运动参数，从而实现目标跟踪。

步骤S212，根据匹配结果、运动估计结果和跟踪状况分析结果，对目标对象和邻域背景的特征点集、目标对象和邻域背景的表观特征、目标对象和邻域背景的帧间运动参数进行更新，从而更新目标对象的跟踪策略。

参见图8所示的对目标对象和邻域背景的特征点集、目标对象和邻域背景的表观特征、目标对象和邻域背景的帧间运动参数进行更新的示意图；本发明实施例将检测到的特征点分为目标特征点集

和背景特征点集

通过与当前帧检测到的SURF特征点匹配进行目标跟踪。在跟踪过程中，由于噪声、光照变化、背景变化等因素，为实现稳健的跟踪，需要根据视频的变化及时调整跟踪模型和跟踪策略。在实际应用中，并非特征点集中的所有特征点都能被匹配上，有的特征点或已消失，或长时间不能被匹配上，新的特征点也会不断出现，特征点的数量、匹配情况会发生变化，因此需要更新特征点集；特征点对应的表观信息会随时间发生变化，相应的表观模型应及时反映其变化；目标及邻域背景的帧间运动规律也会发生改变，因而对应的运动模型也应及时更新。

具体地，上述对目标对象和邻域背景的特征点集进行更新的步骤，包括：(1)根据匹配结果，对特征点集中的特征点进行分类，得到多个特征点的子集；其中，子集包括匹配成功的特征点子集和匹配失败的特征点子集；匹配成功的特征点子集中还包括目标对象上的特征点和邻域背景上的特征点；匹配失败的特征点子集还包括目标对象上的特征点和邻域背景上的特征点；(2)从前一帧对应的特征点集中删除近期帧数内未被匹配成功次数高于设定阈值的匹配失败的特征点子集中的特征点；其中，近期帧数为前一帧以前的设定数量的连续的视频帧的帧数；(3)根据当前帧的跟踪状态，将当前帧的特征点集中的特征点添加至前一帧对应的特征点集中；(4)将前一帧对应的特征点集中特征点的位置坐标更新为当前帧中对应特征点的位置坐标。

参见图9所示的对目标对象和邻域背景的特征点集进行更新的流程图；***在第t帧到来前已建立了特征点集Pg_t-1，包括目标特征点集

和背景特征点集

分别与第t帧中检测到的特征点集PgD_t进行匹配，匹配后，PgD_t集合中的特征点应被分类为目标特征点和背景特征点，与特征点集Pg_t-1共同形成新的特征点集合Pg_t，Pg_t-1中的部分特征点应被淘汰，保留的特征点应更新其坐标位置后融入Pg_t中。

在t-1帧结束时建立的特征点集Pg_t-1包括位于目标上的特征点集

以及位于目标邻域背景上的特征点集

这两类特征点集分别进行匹配，而无论匹配与否，并不改变这些特征点的分类属性。在t帧中检测到的特征点集PgD_t，与

和

匹配后，匹配成功特征点分别归类为目标特征点

和背景特征点

但仍会存在部分特征点没有匹配成功，记为Pg_new_t，即：

因此需要确定特征点类型的是在当前帧中检测到，但没有匹配成功的特征点Pg_new_t。根据集合Pg_new_t中特征点i的位置

跟踪得到的当前目标的位置及范围

以及跟踪状态，将未匹配的特征点集合Pg_new_t分类为目标和背景两类：

集合

与

再分别和上一帧的特征点集

和

合并，最终得到第t帧的特征点集合

当前帧检测出来而未被匹配的特征点集合Pg_new_t往往是新出现的特征点，应将其加入到相应特征点集中，但让特征点集随视频帧无限增加并不可行的，因此通常需要对特征点帧间匹配情况进行分析，保持特征点数量的相对稳定。

每个特征点在最近一段时间内能够被匹配的次数反映了该特征点对应的图像局部区域的信息在最近视频中的稳健性。最近匹配次数越多，则表明该局部区域的图像信息越稳健；反之，最近长时间未匹配，则说明该局部区域的图像信息容易受到噪声等因素的影响，比较脆弱。如前所述，稳健的特征点，在公式(16)中运用最小二乘估计运动模型参数时应赋予较大的权值

具有更高的可靠性，反之脆弱的特征点应赋予较小的权值。通过设置参数

来描述特征点i在t时刻的可靠性。对于帧间特征点匹配运算结束后，更新每个特征点的参数

对于匹配的特征点i，更新方法为：

对于不匹配的特征点i，其系数

按照下式进行更新：

其中Inc与Dec为常系数，而系数

是删减特征点的重要依据，可以设置Inc设置为1，Dec为0.5。

对于未匹配的特征点，若对应

太小，则表明特征点i已经很久没有在视频中出现了，该特征点所代表的图像局部信息可能由于被遮挡、或非平面旋转等因素不再出现在视频图像中，因而也几乎没有“证据”表明服从这个特征点所描述的图像局部信息将会再次出现，当

值小于0时，将该特征点从特征点集中删除。

当前帧中检测到的特征点集合PgD_t在与特征点集Pg_t-1进行匹配时，有部分特征点Pg_new_t没有匹配成功，这部分特征点为新增加的特征点，可以根据其位置是在目标或背景区域，结合当前的跟踪状态为正常跟踪、疑似部分遮挡以及跟踪丢失(完全遮挡)，分别将其增加到背景特征点集和目标特征点集。

(a)正常跟踪条件下，新增加特征点的分类；设当前跟踪得到的目标位置及范围为

若特征点在目标范围内，将其增加到目标的特征点集

中，否则归类为属于背景的特征点集

(b)部分遮挡条件下，新增加的特征点的分类；如图6所示，在部分遮挡情况下，匹配的背景特征点中有一部分出现在当前帧的目标范围内，记为

在当前帧目标范围内且能够与上一帧相匹配的特征点包括了目标特征点

和背景特征点

因此不能够仅仅根据特征点是否在目标的范围内就简单地将其增加到目标特征点集中。此时可以采用最近邻算法对在目标范围内新增加的特征点进行分类，即特征点i为目标范围内新出现且未被匹配的特征点，则按照下式进行特征点归类，归类为到该特征点空间距离最近的类别：

这里函数G_dis(i,Pg)表示特征点i到特征点集Pg中各个特征点的在图像中空间位置上的最近距离。而对于出现在背景区域内新增加的特征点，则全部归为背景特征点集

(c)跟踪丢失(完全遮挡)条件下，新增加的特征点的分类；此时，在当前帧中检测到的能够与上一帧中目标特征点相匹配的特征点集合为空集，所有能够与上一帧相匹配的特征点全部都是属于背景的特征点

所有新出现的特征点也全部归类为背景特征点集

对于每个在当前帧中新出现的特征点，其对应的

赋予初值Initial_M，该初值可以设置为1：

将上一帧特征点集Pg_t-1的坐标位置更新为当前帧中的坐标，如前所述，其可分为能够被匹配的目标及背景特征点(

和

)，还有一部分特征点不能够与当前帧的匹配，即集合

和

能够被匹配的特征点集合

和

的位置即为在当前帧中与之相匹配的特征点位置，而未能够匹配上的特征点均按照公式(23)递减其对应的

有部分特征点因其

值递减后小于规定的阈值而被淘汰，然而仍有一些未能够匹配的特征点不能够被淘汰。这部分特征点在新一帧中的坐标位置将按照公式(15)估计出来的运动方程进行更新。淘汰部分特征点，且更新坐标位置后的集合Pg_t-1与当前帧未能匹配的特征点集

和

合并得到的新特征点集合Pg_t。

上述对目标对象和邻域背景的表观特征进行更新的步骤，包括：根据匹配成功的特征点子集中，特征点的特征描述子向量、尺度因子特征信息、以及颜色、纹理和边缘向量，更新特征点的高斯分量的均值和方差。

如前所述，本发明实施例采用高斯分布模型来描述特征点表观随时间的变化过程，通过均值μ和方差σ描述模型。在初始时为特征向量的对应均值和方差赋值即模型的初始化，而依据特征点匹配情况更新表观模型对应的均值和方差即为模型的更新。表观特征的帧间变化是由于加性噪声、光照变化等因素造成的，在实际应用中，一个小的目标图像范围内，经过实验分析，可以认为不同位置处的加性噪声的变化在一段时间内是一致的，即可以近似认为不同图像位置处的噪声方差是相同的或相差不大的。因而我们近似认为在目标及其邻域范围内检测到的各特征点所对应的特征向量在视频帧中的变化服从相同方差的高斯分布。此后高斯模型的初始化及更新策略均基于这个假设，认为位于目标范围内的特征点其对应的特征向量具有同样的方差值，类似地，位于邻域背景范围内的特征点的特征向量也具有相同的方差值。

在第一帧到来或检测到新的特征点的时候，如公式(4)所示，新检测到的特征点模型的均值初始化为检测到独特特征点的对应特征向量。在第一帧时刻，表观模型各特征向量的方差

可以初始化为一较大的初始值，例如0.9；在跟踪过程中新检测到的特征点，由于不同特征点特征向量的“特征信息过程”具有相同的方差，其对应表观模型的均值初始化为检测到的该特征点特征向量值，方差初始化为当前目标或背景特征点相应特征向量的方差值。

表观模型初始化完成后，在新图像帧中对SURF特征点进行帧间匹配，并进行跟踪状态分析，在此基础上对特征向量的高斯模型进行更新。可以采用基于自回归滤波的在线EM近似方法来训练模型。时刻t对于特征向量j而言，未匹配的特征点其对应的高斯分量的均值

及方差

保持不变，而匹配的高斯分量的均值和方差根据新的观测值

进行更新：

其中，参数i表示匹配特征点的序号，N则表示匹配特征点的总数，这表明这里计算出来的方差是所有匹配特征点相应特征向量的平均方差。参数η_μ和η_σ为均值及方差更新的学习因子，通常是在0到1之间分布，该参数决定了高斯分布的均值和方差随时间常数变化的速度，这样高斯分布的均值及方差的更新过程可认为是对以往参数的因果低通滤波的结果。通常在模型建立初始时候，希望模型能够尽快建立并收敛，此时通常选择一个较大的学习因子，让模型能够很快建立起来。在此以后，模型应该能够比较稳定，保证以往的图像数据对模型具有一定的影响，这样建立的模型就能够反映一定时间内的“特征向量”变化的历史，这时应当选择一个小一些学习因子，以提高模型对的噪声的鲁棒性。

因此对于模型均值的学习参数η_μ按如下方式进行设置：

与此类似，模型方差的更新参数η_σ设置为：

其中，Ck_μ为每个特征点被匹配的次数计数，而Ck_σ为存在特征点被匹配的图像帧的计数。在模型初始化阶段，Ck_μ或Ck_σ比较小，模型收敛速度比较快。第一次匹配后，参数η_μ的设置使得模型均值被设置为当前的观测值，而在第二次匹配后，参数η_σ的设置说明，模型的方差就设置为第一次匹配和第二次匹配时特征向量的差。随着时间的推移，Ck_μ与Ck_σ越来越大，当前观测值对模型更新的贡献逐步减少，但如果学习因子趋于零的话，会使得模型异常稳定，不能及时反映图像信息的正常变化，因而设置了权值更新系数的最小值thrdμ和thrdσ，thrdμ和thrdσ可以设置为0.2。

另外，如果高斯分量的方差

太小，容易造成在特征点帧间匹配过程中，由于对噪声过于敏感，应该匹配的特征点不能够被正确匹配。因此对所有高斯分量的方差

规定下限，例如T_σ＝0.05以增强***的鲁棒性。

上述对目标对象和邻域背景的帧间运动参数进行更新的步骤，包括：根据当前帧与前一帧的帧间运动变换参数的估计值，对运动参数的均值和方差进行更新。

要对目标对象在最近一段时间内的运动进行描述，仅仅依据特征点匹配在均方误差最小意义下估计出的当前帧间运动变换参数Par_t＝(ux_t,uy_t,ρ_t,θ_t)是不够的,需要对目标及其领域的运动建立相应的运动模型。同样这种帧间的运动过程也能够用高斯分布进行描述，由于假设目标的帧间形变很小，因此特征点的运动与目标的运动具有高度的一致性，可将各个特征点的帧间运动近似认为都服从相同的运动参数。为降低运算复杂度，可以把目标及背景区域特征点集

与

中各特征点的运动模型分别用目标及邻域背景的运动的高斯模型进行简化，对目标及其邻域背景区域各自建立运动变换模型。

对该模型的更新同样采用在线EM近似方法，时刻t依据，当前帧间运动变换参数的估计值Par_t＝{m_t},m∈(ux,uy,ρ,θ)对运动参数m的均值和方差的更新：

模型更新的学习因子η₁也类似地设置为：

同样Ck_m为存在特征点被匹配的图像帧的计数。模型均值参数

被初始化为(0,0,1,0)，即认为目标及其邻域背景是静止没有任何空间位置变化的，第一帧到来后，将模型的均值初始化为当前帧检测到的运动参数Par_t＝(ux_t,uy_t,ρ_t,θ_t)，在第二帧到来后，将模型的方差

初始化为第一帧与第二帧检测到的变换参数的差。初始阶段，Ck_m比较小，以使模型尽快收敛，此后η₁保持恒值，因此可以设置thrdm为0.1，让模型以稳定的速度进行更新。同样，如果在一段时间内帧间的运动非常均匀，根据方差更新公式，会使得高斯分量的方差

很小，这种情况下，一旦帧间运动稍有变化，会造成在特征点帧间匹配过程中，应该匹配的特征点不能够被正确匹配，因此需要对方差

同样规定下限T_σ＝{1,1,0.01,0.01}以增强***的鲁棒性。

在跟踪过程中，除正常跟踪外，难免发生漂移、丢失、遮挡等不同的跟踪状态，对于不同的跟踪状态，应采取相应的不同跟踪策略进行跟踪以保证算法的稳健性和鲁棒性。目标模型，包括表观模型和运动模型，以及下一帧目标可能出现的范围估计是影响跟踪算法稳健性和鲁棒性的重要跟踪策略和关键因素。在正常跟踪的情况下，目标表观模型和运动模型均不发生突变，因此模型更新，下一帧目标范围估计方法按本发明实施例上述已述的模型更新方法进行，然而，在跟踪漂移、丢失、遮挡情况下。无法准确目标位置及范围或准确观测到目标，在这样的异常跟踪状态下，应及时调整目标表观模型、运动模型等跟踪策略。

因此，上述更新目标对象的跟踪策略的步骤，具体可以通过下述方式实现：

(1)目标遮挡处理；在目标发生部分遮挡或者完全遮挡的情况下，对目标表观特征信息的观测将受到影响，在特征点集中，能被匹配的特征点对应的特征模型的参数可根据当前帧中匹配的观测值按公式(26)、(27)进行更新，而不能够被匹配的特征点所对应的模型参数(均值及方差)保持不变，其对应的重要性参数

也保持不变。完全遮挡情况下，目标的表观特征模型参数不变，特别地，目标特征点特征对应的重要性参数

保持不变。在部分遮挡时，仍然可能通过匹配的局部特征点定位目标的位置及范围。在完全遮挡或跟踪丢失情况下，此时目标上没有特征点能够被匹配上，无法观测到目标，自然也不能够观测到运动模型变换参数Par_t＝(ux_t,uy_t,ρ_t,θ_t)，无法对目标进行准确定位。此时***根据目标在视频帧中运动的先验知识对当前帧中目标的位置及范围进行估计，可认为模型保持匀速运动，运动模型的均值参数

保持不变。部分遮挡时，仍可通过匹配的局部特征点定位目标的位置及范围，按公(5)、(6)确定下一帧目标检测的范围。在完全遮挡或跟踪丢失时，给公式(5)、(6)赋予更大的thrdU值，使得能够在一个更大的范围内来检测SURF特征点，从而跟踪目标。

(2)目标漂移处理；当发生跟踪漂移的时候，此时所确定的目标的位置及范围并不十分准确，因此如果完全按照当前的跟踪结果更新表观模型和运动模型，可能给模型引入较大的误差，从而影响以后的跟踪结果，造成误差逐步累积，漂移越来越多，这也是大部分跟踪漂移会逐步发展为跟踪失败的原因。因此在判断发生了跟踪漂移的时候，通常停止更新表观及运动模型的参数，目标在当前帧中的状态按照其运动模型所代表的历史经验来计算。对于下一帧的特征点检测范围确定，仍可根据公式(5)、(6)进行,但参数thrdU应取较大的值。在判断目标跟踪正确的时候，在下一帧中可以在一个相对较小的范围内进行特征点的检测，否则将在一个较大的范围内进行特征点检测。

本发明实施例提供的一种视频目标跟踪方法，初始化跟踪参数后，在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对特征点集进行筛选；再根据筛选后的特征点集分别与前一帧对应的目标对象和邻域背景的特征点集进行匹配；进而根据筛选后的特征点，对目标对象进行运动估计，根据筛选后的特征点与目标对象的中心位置的距离，以及目标对象的表观特征，对当前帧中目标对象的进行跟踪状况分析；最后根据匹配结果、运动估计结果和跟踪状况分析结果，对目标对象和邻域背景的特征点集、目标对象和邻域背景的表观特征、目标对象和邻域背景的帧间运动参数进行更新，从而更新目标对象的跟踪策略；该方式中，跟踪结果不仅能够及时反映目标对象的位置，还能够准确反映目标对象的范围及旋转角度，可以使视频帧目标对象的跟踪具有较好的鲁棒性和稳健性，同时计算复杂度较低，实现了跟踪鲁棒性和运算速度的兼顾。

目标跟踪，是进行视频行为分析、人机互动等智能视频设备的关键核心技术；局部特征作为图像特征的一种，能够对目标的部分遮挡具有天然的鲁棒性，稳定的局部特征可以作为对目标进行稳健跟踪的依据。SURF特征点从对SIFT特征点快速计算的改进而来，通过优化极大提高了计算速度，同时保留了SIFT特征定位准确，对光照变化不敏感，具有旋转不变性的优点。通过SURF特征点检测获得图像中稳定的局部极值点，作为对目标准确定位的依据，以实现高效的视频目标跟踪。

基于此，本发明实施例还提供了另一种视频目标跟踪方法，如图10所示，该方法也可以称为一种基于局部特征点匹配的视频目标跟踪方法，该方法由以下几个步骤组成：1.初始化阶段，建立目标及其邻域背景的模型；2.在新的一帧中定位目标，通过帧间特征点匹配得到目标在当前帧中状态(目标位置、范围及旋转角度)，得到跟踪结果；3.根据跟踪结果，对模型进行更新。方法分为初始化阶段和目标跟踪及模型更新阶段。

在初始化阶段，首先初始化目标的状态，即目标在当前帧中的位置、范围、角度，用矩形框来表示目标的位置和范围，进一步初始化其邻域背景区域的范围；然后，在此基础上检测目标及其邻域的SURF特征点，并依据检测到的特征点分别初始化建立目标及其邻域背景的模型，建立目标及其邻域背景区域的初始模型；我们认为目标的帧间运动可用平移、围绕目标几何中心的旋转以及缩放来描述，初始化目标及其邻域背景的帧间运动参数。

在目标跟踪定位阶段，在新的一帧到来后，依据目标运动的历史知识，在新一帧图像的一定区域内检测SURF特征点，并依据所建立的目标模型和其邻域背景模型对SURF特征点进行匹配，寻找能够正确匹配的特征点对，并以此计算目标及其邻域背景在的帧间运动参数，从而确定目标在新一帧中的位置、范围以及旋转角度，在此基础上分析当前得到的目标状态，判断是否发生了跟踪丢失、漂移等状况，以得到最终的跟踪结果。在模型的更新阶段，依据跟踪结果以及对跟踪状态的分析(是否跟踪准确、漂移、丢失、被遮挡)采用不同的策略更新目标及其邻域背景的模型。

上述视频目标跟踪方法，提高了跟踪的鲁棒性和稳健性，具有较强的抗遮挡、抗噪声及杂乱背景的能力；跟踪结果不仅能及时反映目标的位置，也能反映目标的成像范围及旋转变化；采用了特征点匹配的方法进行跟踪，避免了搜索目标模型的最佳似然，降低了计算复杂度。

对应于上述方法实施例，参见图11所示的一种视频目标跟踪装置的结构示意图；该装置包括：初始化模块110，用于初始化跟踪参数；跟踪参数至少包括目标对象的位置和范围、目标对象和邻域背景的帧间运动参数、目标对象和邻域背景的特征点集；目标对象和邻域背景的表观特征中的多种；筛选模块111，用于在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对特征点集进行筛选；特征点集包括特征点和特征点对应的特征向量；特征点匹配模块112，用于根据筛选后的特征点集分别与前一帧对应的目标对象和邻域背景的特征点集进行匹配；运动估计模块113，用于根据筛选后的特征点，对目标对象进行运动估计；跟踪状况分析模块114，用于根据筛选后的特征点与目标对象的中心位置的距离，以及目标对象的表观特征，对当前帧中目标对象的进行跟踪状况分析；更新模块115，用于根据匹配结果、运动估计结果和跟踪状况分析结果，对目标对象和邻域背景的特征点集、目标对象和邻域背景的表观特征、目标对象和邻域背景的帧间运动参数进行更新，从而更新目标对象的跟踪策略。

上述初始化模块，还用于：提取当前帧中，目标对象和邻域背景的表观特征；表观特征至少包括特征描述子向量、尺度因子特征信息、颜色特征、纹理特征和边缘特征中的多种；确定目标对象的中心位置和目标矩形框的长度和宽度；将目标对象和邻域背景的帧间运动参数初始化为当前帧与前一帧之间的对应变换参数的差；将目标对象的特征点集初始化为目标对象的矩形框内检测到的特征点集；将邻域背景的特征点集初始化为目标对象以外的预设范围内的邻近区域内检测到的邻域背景的特征点集；将目标对象和邻域背景的表观特征初始化为提取到的表观特征的特征向量。

本实施例还提供了一种与上述方法实施例相对应的一种视频目标跟踪实现装置。图12为该视频目标跟踪实现装置的结构示意图；该装置包括存储器100和处理器101；其中，存储器100用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述视频目标跟踪方法，该方法可以包括以上方法中的一种或多种。

进一步，图12所示的应的一种视频目标跟踪实现装置还包括总线102和通信接口103，处理器101、通信接口103和存储器100通过总线102连接。其中，存储器100可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100，处理器101读取存储器100中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述视频目标跟踪方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例提供的一种视频目标跟踪方法、装置和实现装置，提出了一种基于SURF帧间匹配的目标跟踪定位***，包含多特征信息提取及自适应融合技术、特征信息更新技术；其中，该特征信息更新技术包括包括特征点集更新，表观模型更新，运动模型更新以及跟踪策略调整；具有如下优势：(1)提出了在SURF特征点检测及帧间匹配框架下深入考虑并有机结合了多特征融合、目标及邻域背景建模、目标跟踪定位、模型更新、跟踪状态检测等多个关键环节，使之成为一个完整的跟踪***，实现对视频中指定目标的、鲁棒持续跟踪。(2)本发明设计出的***，根据SURF特征点帧间匹配情况，准确估计出目标在当前帧的运动参数，在准确估计出目标的位移，目标的范围和旋转角度的同时，避免了传统跟踪算法繁复的搜索过程，降低了计算复杂度。(3)通过多特征融合、特征点分类、分级串联的特征点匹配方法设计、跟踪状态分析、模型更新等环节的结合提高了***的鲁棒性，使得***在遮挡、杂乱背景、低信噪比等复杂场景下能够实现鲁棒、稳健的跟踪。

本发明实施例所提供的视频目标***方法、装置以及***的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频目标跟踪方法，其特征在于，包括：

初始化跟踪参数；所述跟踪参数至少包括目标对象的位置和范围、所述目标对象和邻域背景的帧间运动参数、所述目标对象和所述邻域背景的特征点集；所述目标对象和所述邻域背景的表观特征中的多种；

在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对所述特征点集进行筛选；所述特征点集包括特征点和所述特征点对应的特征向量；

根据筛选后的所述特征点集分别与前一帧对应的所述目标对象和所述邻域背景的特征点集进行匹配；

根据筛选后的所述特征点，对所述目标对象进行运动估计；

根据筛选后的所述特征点与所述目标对象的中心位置的距离，以及所述目标对象的表观特征，对当前帧中所述目标对象的进行跟踪状况分析；

根据匹配结果、运动估计结果和跟踪状况分析结果，对所述目标对象和所述邻域背景的特征点集、所述目标对象和所述邻域背景的表观特征、所述目标对象和邻域背景的帧间运动参数进行更新，从而更新所述目标对象的跟踪策略；

所述在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对所述特征点集进行筛选的步骤，包括：

确定待检测图像范围的图像矩形框的左上角坐标和右下角坐标；

在所述图像矩形框内，进行特征点检测，得到所述特征点的坐标；

计算所述特征点的Hessian矩阵的迹，以及所述特征点对应的特征向量；所述特征向量包括特征描述子向量、尺度因子特征信息、以及颜色、纹理和边缘向量；

按照如下筛选条件，对所述特征点集中的特征点进行筛选：

所述特征点的Hessian矩阵的迹与前一帧视频帧内特征点的Hessian矩阵迹同号；

所述特征点与前一帧视频帧内特征点的距离小于预设的距离阈值；

所述特征点与前一帧视频帧内特征点，对应特征向量的欧式距离满足预设的特征向量阈值；

所述特征点与前一帧视频帧内特征点的位移长度、位移方向和相对位置关系满足预设的位移一致性阈值；所述相对位置利用所述目标对象的目标矩形框长度和宽度归一化的所述特征点与所述目标对象的中心位置的距离所确定的；

当所述特征点与前一帧视频帧的特征点为多个对一个的匹配关系时，从多个所述特征点中筛选欧氏距离最小的特征点。

2.根据权利要求1所述的方法，其特征在于，所述初始化跟踪参数的步骤，包括：

提取当前帧中，所述目标对象和所述邻域背景的表观特征；所述表观特征至少包括特征描述子向量、尺度因子特征信息、颜色特征、纹理特征和边缘特征中的多种；

确定所述目标对象的中心位置和目标矩形框的长度和宽度；

将所述目标对象和所述邻域背景的帧间运动参数初始化为当前帧与前一帧之间的对应变换参数的差；

将所述目标对象的特征点集初始化为所述目标对象的矩形框内，检测到的所述特征点集；将所述邻域背景的特征点集初始化为所述目标对象以外的预设范围内的邻近区域内检测到的所述邻域背景的特征点集；

将所述目标对象和所述邻域背景的表观特征初始化为提取到的所述表观特征的特征向量。

3.根据权利要求1所述的方法，其特征在于，所述根据筛选后的所述特征点与所述目标对象的中心位置的距离，以及所述目标对象的表观特征，对当前帧中所述目标对象的进行跟踪状况分析的步骤，包括：

根据所述特征点与所述目标对象的中心位置的距离，检测被错误分类的特征点，剔除所述被错误分类的特征点，生成第一特征点集；

根据所述第一特征点集中各特征点的表观特征，分析当前视频帧中所述目标对象是否发生跟踪漂移。

4.根据权利要求1所述的方法，其特征在于，所述对所述目标对象和所述邻域背景的特征点集进行更新的步骤，包括：

根据匹配结果，对所述特征点集中的特征点进行分类，得到多个特征点的子集；其中，所述子集包括匹配成功的特征点子集和匹配失败的特征点子集；所述匹配成功的特征点子集中还包括目标对象上的特征点和邻域背景上的特征点；所述匹配失败的特征点子集还包括目标对象上的特征点和邻域背景上的特征点；

从前一帧对应的所述特征点集中删除近期帧数内未被匹配成功次数高于设定阈值的所述匹配失败的特征点子集中的特征点；其中，所述近期帧数为所述前一帧以前的设定数量的连续的视频帧的帧数；

根据当前帧的跟踪状态，将当前帧的所述特征点集中的特征点添加至前一帧对应的所述特征点集中；

将前一帧对应的所述特征点集中特征点的位置坐标更新为当前帧中对应特征点的位置坐标。

5.根据权利要求4所述的方法，其特征在于，所述对所述目标对象和所述邻域背景的表观特征进行更新的步骤，包括：

根据所述匹配成功的特征点子集中，特征点的特征描述子向量、尺度因子特征信息、以及颜色、纹理和边缘向量，更新所述特征点的高斯分量的均值和方差。

6.根据权利要求1所述的方法，其特征在于，所述对所述目标对象和邻域背景的帧间运动参数进行更新的步骤，包括：

根据当前帧与前一帧的帧间运动变换参数的估计值，对运动参数的均值和方差进行更新。

7.一种视频目标跟踪装置，其特征在于，包括：

初始化模块，用于初始化跟踪参数；所述跟踪参数至少包括目标对象的位置和范围、所述目标对象和邻域背景的帧间运动参数、所述目标对象和所述邻域背景的特征点集；所述目标对象和所述邻域背景的表观特征中的多种；

筛选模块，用于在设定的图像范围内，检测当前帧中的特征点集，按照预设的筛选条件，对所述特征点集进行筛选；所述特征点集包括特征点和所述特征点对应的特征向量；

特征点匹配模块，用于根据筛选后的所述特征点集分别与前一帧对应的所述目标对象和所述邻域背景的特征点集进行匹配；

运动估计模块，用于根据筛选后的所述特征点，对所述目标对象进行运动估计；

跟踪状况分析模块，用于根据筛选后的所述特征点与所述目标对象的中心位置的距离，以及所述目标对象的表观特征，对当前帧中所述目标对象的进行跟踪状况分析；

更新模块，用于根据匹配结果、运动估计结果和跟踪状况分析结果，对所述目标对象和所述邻域背景的特征点集、所述目标对象和所述邻域背景的表观特征、所述目标对象和邻域背景的帧间运动参数进行更新，从而更新所述目标对象的跟踪策略；

所述筛选模块，还用于：确定待检测图像范围的图像矩形框的左上角坐标和右下角坐标；在所述图像矩形框内，进行特征点检测，得到所述特征点的坐标；计算所述特征点的Hessian矩阵的迹，以及所述特征点对应的特征向量；所述特征向量包括特征描述子向量、尺度因子特征信息、以及颜色、纹理和边缘向量；按照如下筛选条件，对所述特征点集中的特征点进行筛选：所述特征点的Hessian矩阵的迹与前一帧视频帧内特征点的Hessian矩阵迹同号；所述特征点与前一帧视频帧内特征点的距离小于预设的距离阈值；所述特征点与前一帧视频帧内特征点，对应特征向量的欧式距离满足预设的特征向量阈值；所述特征点与前一帧视频帧内特征点的位移长度、位移方向和相对位置关系满足预设的位移一致性阈值；所述相对位置利用所述目标对象的目标矩形框长度和宽度归一化的所述特征点与所述目标对象的中心位置的距离所确定的；当所述特征点与前一帧视频帧的特征点为多个对一个的匹配关系时，从多个所述特征点中筛选欧氏距离最小的特征点。

8.根据权利要求7所述的装置，其特征在于，所述初始化模块，还用于：

确定所述目标对象的中心位置和目标矩形框的长度和宽度；

将所述目标对象的特征点集初始化为所述目标对象的矩形框内检测到的所述特征点集；将所述邻域背景的特征点集初始化为所述目标对象以外的预设范围内的邻近区域内检测到的所述邻域背景的特征点集；

9.一种视频目标跟踪实现装置，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至6任一项所述的方法。