CN101283376B

CN101283376B - 使用轨迹分段分析的双向跟踪

Info

Publication number: CN101283376B
Application number: CN2006800378038A
Authority: CN
Inventors: J·孙; W·张; X·唐; H-Y·沈
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2005-10-14
Filing date: 2006-10-13
Publication date: 2011-03-23
Anticipated expiration: 2026-10-13
Also published as: US20070086622A1; WO2007047461A1; WO2007047461A9; EP1934941B1; US7817822B2; KR20080066671A; EP1934941A2; CN101283376A; EP1934941A4

Abstract

本视频跟踪技术基于从整体状态序列的开始和结束关键帧获取的两个对象模板输出目标对象的最大后验(MAP)解答。该技术首先通过在该序列的每个帧中生成局部二维模式的稀疏集来最小化序列的整体状态空间。该二维模式被转换成三维体内的三维点。使用谱聚技术来群集该三维点，其中每个群集对应于该目标对象的可能的轨迹分段。如果在该序列中有遮挡，则生成遮挡分段，使得可以获取该目标对象的最佳轨迹。

Description

使用轨迹分段分析的双向跟踪

技术领域

本发明涉及视觉跟踪领域，尤其涉及使用轨迹分段分析的双向跟踪。

背景技术

对指定对象(即目标对象)的视觉跟踪是具有许多有用的应用的计算机视觉的领域。例如，可以在视频监控、人机界面、数字视频编辑等中使用视觉跟踪。一般地，视觉跟踪在给定观察(诸如视频序列)期间跟踪目标对象。不幸的是，视觉跟踪技术在几种情况下难以跟踪目标对象。

例如，一种情况是当目标对象经历突然移动时，诸如来自目标对象自身的意外动态改变或来自照相机的突然移动，视觉跟踪技术将难以跟踪目标对象。另一种情况是当类似样子的对象接近目标对象时，视觉跟踪技术将有困难。在这种情况下，跟踪技术难以区分两个对象中哪个是目标对象。当遮挡发生且目标对象部分或完全被另一对象遮掩时，视觉跟踪也是有困难的。

总体而言，大多数跟踪技术基于直至时间t的观察使用递归估计来估计目标对象在当前时间t的位置。在贝叶斯构架中，跟踪问题通常被公式化为给定所有观察y_1:t情况下，状态x_t的时间演化后验分布的递归估计，这样使得：

P (x_{t + 1} | y_{1 : t + 1}) ~ P (y_{t + 1} | x_{t + 1}) \underset{{dx}_{t}}{&Integral;} P (x_{t + 1} | x_{t}) P (x_{t} | y_{1 : t}) - - - (1)

递归估计有两个主要的优势：1)高效的计算；以及2)自热符合实时或在线跟踪应用。

然而，许多真实世界的应用适合离线跟踪的类别，诸如视频监控中的事件统计、基于对象的视频压缩、家庭视频编辑、视频评注、视觉动作捕捉等。因此，也将递归方式应用于离线视觉跟踪。当完成这个时，一般首先通过指定一个或多个关键帧将长输入视频序列分解成短序列。指定的关键帧可以是视频序列中的任何帧。每个关键帧包含指定要跟踪的对象(即目标对象)的对象模板。使用这些经分解的短序列的视觉跟踪通常被称为基于关键帧的跟踪。递归方式于是以前向或后向中应用到每个短序列。然而，该方法通常在序列中间某处失败。当这种情况发生时，就在失败的位置添加另一关键帧。

虽然添加新的关键帧改进了视觉跟踪的结果，但是使用试凑法方式添加新的关键帧是极端耗时的。因此，持续需要改善用于离线应用的跟踪技术。

发明内容

本视频跟踪技术基于从整体状态序列的开始和结束关键帧获取的两个对象模板输出目标对象的最大后验(MAP)解答。该技术首先通过在序列的每个帧中生成本地二维模式的稀疏集来最小化序列的整体状态空间。二维模式被转换成三维体中的三维点。使用谱聚技术来群集三维点，其中每个群集对应于目标对象的可能的轨迹分段。如果在序列中有遮挡，那么就生成遮挡分段，这样可以获得目标对象的最佳轨迹。

提供本概述以便用简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在确定所要求保护的主题的关键或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图说明

参考附图描述了非限制性和非穷尽性的实施例，其中在所有各种视图中，除非另外指明，否则相同的参考编号指示相同的部件。为方便起见，参考编号的最左面的位标识了该参考编号首次出现所在的特定附图。

图1是依照一个实施例可以用于实现此处所描述的视频跟踪技术的说明性***。

图2是示出依照一个实施例有效地减小状态空间使得可以高效地获取MAP解答的示例性视频跟踪过程的流程图。

图3是示出依照一个实施例适用于图2的视频跟踪过程的示例性轨迹分段分析过程的流程图。

图4是示出依照一个实施例可以为每个帧独立执行的二维提取过程的流程图。该过程适用于图3的轨迹分段分析过程。

图5是一组示例性说明，其中顶行显示来自视频序列的经简化的帧，而底行显示来自图4的示例性二维提取过程的结果。

图6是示出依照一个实施例使用谱聚的示例性三维轨迹分段提取过程的流程图。该过程适用于图3的示例性轨迹分段分析过程。

图7是示出依照一个实施例的示例性遮挡分析过程的流程图。该过程适用于图2的示例性视频跟踪过程。

图8是示出依照一个实施例的示例性双向树成长过程的流程图。该过程适用于图7的示例性遮挡分析过程。

图9是描绘图7所示的遮挡分析过程期间生成的示例性遮挡轨迹的图表。

图10-13是示出依照本跟踪技术的一个实施例，在各个处理阶段的结果的一组示例性图表。

图14示出依照本跟踪技术的一个实施例，用作各个处理阶段中的输入的来自视频序列的若干个经简化的示例性帧。在该示例中，各个处理阶段生成图10-13中的该组图表。

具体实施方式

以下描述针对基于从整体状态序列的开始和结束关键帧获取的两个对象模板，输出目标对象的最大后验(MAP)解答的视频跟踪技术。总体而言，该技术首先通过在序列的每个帧中生成本地二维模式的稀疏集来最小化序列的整体状态空间。二维模式被转换成三维体中的三维点。使用谱聚技术来群集三维点，其中每个群集对应于目标对象的可能的轨迹分段。如果在序列中有遮挡，那么就生成遮挡分段，这样可以获得目标对象的最佳轨迹。本视频跟踪技术处理突然移动、含糊不清以及短/长时段的遮挡。现在详细描述本视频跟踪技术的这些和其他方面。

图1是依照一个实施例用于实现此处描述的视频跟踪技术的说明性***。该***包括诸如计算设备100的计算设备。计算设备100表示任何类型的计算设备，诸如个人计算机、膝上型计算机、服务器、游戏控制台、手持式或移动设备(例如蜂窝电话、数字助理)等。在最基本的配置中，计算设备100通常至少包含一个处理单元102和***存储器104。根据确切的配置和计算设备的类型，存储器104可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等等)或这两者的某种组合。***存储器104通常包括操作***106、一个或多个程序模块108，并且可以包括程序数据110。对于本视频跟踪技术而言，程序模块108可以包括用于实现视频跟踪技术的一个或多个组件140。此外，程序模块108可以包括使用在组件140中实现的视频跟踪技术的图形应用程序142。或者，操作***106可以包括用于实现视频跟踪技术的一个或多个组件。程序数据110可以包括视频序列150。在图1中用虚线112内的那些组件说明了该基本配置。

设备100也可能具有附加的特征或功能。例如，计算设备100可能也包含附加的数据存储设备(可移动的和/或不可移动的)，诸如磁盘、光盘或磁带。这种附加的存储器在图1中由可移动存储器120和不可移动存储器122示出。计算机存储介质可以包括易失性和非易失性、可移动和不可移动介质，它们以任何用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的方法或技术来实现。***存储器104、可移动存储器120和不可移动存储器122都是计算机存储介质的例子。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字通用盘(DVD)或其它光存储器、磁性卡带、磁带、磁盘存储器或其它磁性存储设备、或任何其它可以被用于存储期望信息且可由计算设备100访问的媒质。任何这样的计算机存储介质可以是设备100的部分。

计算设备100也可以具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等的输出设备124。计算设备100也可以包含允许设备诸如通过网络与其他计算设备130通信的通信连接128。通信连接128是通信介质的一个示例。通信介质一般具体化为计算机可读指令、数据结构、程序模块或其他数据。通过示例而非局限，通信介质包含诸如有线网络或直接连线连接等有线介质以及诸如声音、RF、红外线和其它无线介质等无线介质。计算机可读介质可以是可由计算机访问的任何可用介质。通过示例而非限制，计算机可读介质可以包括“计算机存储介质”和“通信介质”。

本申请中所描述的各种模块和技术可在诸如程序模块的由一个或多个计算机或其他设备执行的计算机可执行指令的一般上下文中描述。一般而言，程序模块包括执行特定任务或实现具体抽象数据类型的例程、程序、对象、组件、数据结构等。这些程序模块等可以作为本机代码执行或诸如在虚拟机或可在其他运行时(Just-in-Time)编译执行环境中下载和执行。通常，程序模块的功能在各个实施例中可以按照需要来组合或分布。这些模块和技术的实现可以存储在某种形式的计算机可读介质上或通过某种形式的计算机可读介质发送。

在描述本跟踪技术的细节之前，将描述用于本跟踪技术的状态模型和观察模型。状态模型和观察模型应用基于关键帧的构架。对于状态模型，目标对象被表示为矩形其中p是中央矩形，而s是比例因数，

和

是分别是目标模板的固定宽度和高度。该对象的状态可以被示为x＝{p，s}∈χ，其中χ是状态空间。状态x₁是指第一关键帧I₁中的状态，而状态x_T是指最后一关键帧I_T中的状态。对于本跟踪技术，这些状态x₁和x_T都是已知的。

观察模型是目标对象的色彩统计。对象的色彩模型被表示为柱状图h＝{h₁，h_H}，其中在RGB色彩空间中有H(通常H＝8×8×8)个柱(bin)。状态x₀的相关联的柱状图h(x₀)和状态x_i的相关联的柱状图h(x_i)之间的巴氏(Bhattacharyya)距离如下定义：

B^{2} [h (x_{0}), h (x_{i})] = 1 - Σ_{j = 1}^{B} \sqrt{h_{j} (x_{0}) h_{j} (x_{i})} . - - - (2)

该模型捕捉全局色彩统计。在另一实施例中，如果有目标对象的某一空一配置，则可使用最复杂的多部分色彩模型。例如，在一个实现中，使用诸如Patrick Perez，C.Hue、J.Vermaak和M.Gangnet在European Conf.on ComputerVision会报卷1，2002年版中第611-675页中描述的色彩模型等多部分色彩模型。

对于轨迹优化，在给定视频序列或观察Y＝{y₁，…，y_T}和已知的两个状态{x₁，x_T}时，整体状态序列X＝{x₂，…，x_T-1}的后验在一阶马尔可夫独立假设下可以如下表示：

P (X | Y, x_{1}, x_{T}) = \frac{1}{Z} Π_{i = 2}^{T - 1} ψ (y_{i} | x_{i}, x_{1}, x_{T}) Π_{i = 1}^{T - 1} ψ (x_{i}, x_{i + 1}), - - - (3)

其中使用巴氏距离如下定义局部痕迹ψ(y_i|x_i，x₁，x_T)：

ψ (y_{i} | x_{i}, x_{1}, x_{T}) ~ \exp (- \min {B^{2} [h (x_{i}), h (x_{1})], B^{2} [h (x_{i}), h (x_{T})]} / 2 σ_{h}^{2}) - - - (4)

其中

是方差参数。方差参数测量状态x_i的色彩柱状图h(x_i)到关键帧I₁中的h(x₁)或关键帧I_T中的h(x_T)之间最近的色彩柱状图之间的相似程度。两个相邻的状态之间的势函数ψ(x_i，x_i+1)被定义为：

ψ (x_{i}, x_{i + 1}) ~ \exp (- D [x_{i}, x_{i + 1}] / 2 δ_{p}^{2}), - - - (5)

其中D[x_i，x_i+1]＝||p_i+p_i+1||²+β||s_i+s_i+1||²是状态x_i和x_j之间的相似程度。参数σ_p是控制平滑强度的方差参数，而β是位置差异和比例差异之间的权重。由此，β是对目标对象的整体轨迹X’＝{x_o，，x_T}的平滑度限制。

基于关键帧的跟踪的目标是获取公式(3)的MAP解答，如下所述：

X*＝arg max P(X|Y). (6)

然而，确定MAP解答的复杂性O是O(N²T)，其中N是一个帧中离散状态的数目，而T是输入视频的帧数目。由此，对于320x 240的视频，量化状态空间即使对于本状态表示也是非常大的。因此，本双向跟踪技术集中在用有效且高效的方式减小状态空间。

图2是示出有效地减小状态空间使得可以高效地获取MAP解答的示例性视频跟踪过程200的流程图。在框202处开始视频跟踪过程，其中在视频序列中指定开始和结束帧。开始和结束帧被称为关键帧。处理继续到框204。

在框204处，从开始帧内获取目标对象的初始状态，而从结束帧中获取目标对象的最终状态。初始状态和最终状态可以由用户选择。例如，用户可以在目标对象周围放置矩形。接着可以基于帧内矩形的位置来确定初始状态和最终状态。处理继续到框206处。

在框206处，执行轨迹分段分析。简而言之，稍后结合图3详细描述的轨迹分段分析试图标识视频序列中目标对象最可能存在的位置(即模式)。为效率起见，轨迹分段分析首先组合二维模式提取，以便找出目标对象最可能的位置，接着在这些所标识的位置应用三维轨迹提取。处理继续到框208处。

在框208处，执行遮挡分析。简而言之，稍后结合图7详细描述的遮挡分析试图移除由遮挡引起的中断。这使得可以跟踪目标对象的完整轨迹。处理继续到框210处。

在框210处，执行轨迹优化。在获取轨迹分段(框206)和遮挡分段(框208)的组后，通过轨迹优化计算两个关键帧之间的单个最佳轨迹。简而言之，以由粗到精的方式执行稍后详细描述的轨迹优化，以便获取更准确的跟踪结果。在粗略轨迹优化过程的一个实施例中，在每个帧中使用三个离散比例因数来均匀地对所计算的分段周围的状态采样，以便确定最佳轨迹。在精细轨迹优化过程的一个实施例中，在每个帧中使用五个离散比例因数来对最佳轨迹周围的状态采样。现在将更详细地描述这些框中的每一个。

图3是示出适用于图2的视频跟踪过程的示例性轨迹分段分析过程300的流程图。轨迹分段分析过程300从框302处开始，其中在每个帧中执行二维提取。简而言之，稍后结合图4详细描述的二维提取过程试图显著减小整体状态空间，这样可以对更为稀疏的状态集执行跟踪。处理继续到框304。

在框304处，当减小了状态空间之后，确定少量的三维轨迹分段。总体而言，二维模式需要被转换到三维空间，以便获取目标对象的真正轨迹。简而言之，稍后结合图6详细描述的三维轨迹分段提取过程试图从其中分段表示有意义的轨迹的部分的所有点中提取多个轨迹分段。轨迹分段提取过程试图获取每个分段的可能的最长长度和/或可能的最小分段数目。本视频跟踪技术应用谱聚技术，以便获取这些三维轨迹分段。一旦这些轨迹分段被提取，那么过程300完成。现在将更为详细地描述框302和304两者。

图4示出了适用于图3所示的过程300的框302的二维提取过程400的流程图。为每个帧独立地执行过程400。二维提取过程400从框402开始，其中使用关键帧中的对象的色彩柱状图预过滤帧，这样能够使用较少的采样。处理继续到框404处。

在框404处，本跟踪技术的一个实施例获取每个帧中的开始位置集。这些开始位置是通过均匀地对帧中的位置采样来确定的。可以使用3-5的离散级别来执行缩放。在进一步的细化(框406)中，基于目标对象大小来设置空间采样间隔。例如，可以将空间采样建设设置为略微小于目标对象的一半大小。处理继续到框408处。

在框408处，计算出痕迹表面。在一个实施例中，使用巴氏距离来定义局部痕迹ψ(y_i|x_i，x₁，x_T)。接着使用以下公式来计算痕迹表面：

ψ (y_{i} | x_{i}, x_{1}, x_{T}) ~ \exp (- \min {B^{2} [h (x_{i}), h (x_{1})], B^{2} [h (x_{i}), h (x_{T})]} / 2 σ_{h}^{2}) - - - (7)

参数

是方差参数。巴氏距离测量状态x_i的色彩柱状图h(x_i)到关键帧I₁中的h(x₁)或关键帧I_T中的h(x_T)之间最近的色彩柱状图之间的相似程度。处理继续到框410处。

在框410处，基于痕迹表面来标识模式。总而言之，最可能的位置(即模式)是痕迹表面上的峰值(即局部最大值)处。每个“最可能的”2D模式表示其观察类似于关键帧中的对象模板的状态x′。换而言之，局部痕迹ψ(y|x′，x₁，x_T)为高。为了高效地找到这些模式，一个实施例(框412)使用均值漂移算法，它是用于寻找点采样分布的最接近模式的非参数统计方法。总体而言，给定初始位置，均值漂移算法计使用以下公式用核函数G计算卷积痕迹表面的梯度方向：

Δp = \frac{Σ_{p} G (q - p) w (q) (q - p)}{Σ_{q} G (q - p) w (q)} . - - - (8)

由此，给定图像中的初始位置p，均值漂移依照上述公式计算出新的位置p′＝p+Δp，其中G是核函数，并且对对象的矩形中的象素q执行求和。均值漂移向量Δp与使用核函数G的遮蔽计算的卷积表面的梯度方向相反。由于该特性，确定均值漂移算法提供了用于确定目标对象的局部模式的高效迭代方法。因此，均值漂移算法独立于每个开始位置运行。在收敛之后，来自均值漂移算法的结果是多个局部模式。处理继续到框408处。

在框414处，生成局部二维模式的稀疏集。在一个实施例中(框416)，如果相应的状态模式x′具有p(y_i|x’)≤0.5的局部痕迹，那么就拒绝模式。在进一步的细化中(框418)，可以合并很接近的模式。结果是每个帧中局部模式的稀疏集，如图5中所示。

现在参考图5，示出了一组图示。顶行显示来自视频序列的简化帧(例如帧502、504、506)，而底行显示来自以上在图4中描述的二维提取过程的结果(例如局部二维模式512、514、516的稀疏集)。简化帧显示目标对象510以及与目标对象相同的另一对象508的(例如相同的颜色、相同的大小)。即使从简化帧移除了背景细节，但是本视频跟踪技术在处理期间考虑其背景细节。总体而言，视频序列示出了在每个帧的左侧上个人(未示出)所持有的绿色杯子510。绿色杯子510是目标对象且正被跟踪。在每个帧右侧上的另一个人(未示出)持有相同的杯子508。在帧502处，这两个人都持有他们的杯子，这样使得杯子被触及，并且处于相同的高度。在帧504处，右侧的个人放下了杯子508。在帧506中，右侧的个人将杯子508移动通过杯子510的前方，并且部分地遮挡住了杯子510的左下角。本跟踪技术分别为每个帧502、504和506确定了一组局部二维模式512、514、516。局部二维模式512、514和516中的分组522、524、526分别对应于图像中的两个绿色杯子(杯子508和510)。局部二维模式512、514和516中的分组532、534、536分别对应于具有与关键帧中的目标模板(即绿色杯子510)相似的色彩统计的相应帧中的背景区域(未示出)。

依照本跟踪技术的一个实施例，每个帧中的局部二维模式组接着表示用于进一步跟踪目的的状态空间。如局部二维模式512-516组所示，状态空间被显著地减小。这种状态空间的减少允许进一步分析以便更为高效地执行跟踪目的。相反，其他跟踪技术使用整体连续状态序列空间，其由于非线性动力学和非高斯观察而具有庞大数目的局部最小值。例如，基于梯度的技术通常在局部最小值处陷入困境。给定320x240的视频，使用用离散隐马尔可夫模型(HMM)表示的Viterbi算法来计算MAP解答的技术必须处理较大的量化状态空间。由此，本跟踪技术中的二维提取过程提供了用于显著减小状态空间的高效技术，这导致更为高效的跟踪分析。

图6是示出适用于图3所示的过程300中的框3054的示例性三维轨迹分段提取过程的流程图。总体而言，轨迹分段分析过程600使用谱聚。过程600在框602处开始，其中在图4中所示的二维提取过程期间确定的二维模式点被转换成三维体。为了获取目标对象的真正轨迹，尤其是如果目标对象跟随曲线轨迹，那么点被转换成三维体。对于每个二维模式，获取三维体中的三维点m_n＝[p_n，t_n]，其中p_n和t_n分别是空间位置和时间位置(帧数)。处理继续到框604处。

在框604处，给定

中的点集

构建相似矩阵(affinity matrix)，其中是三维欧几里得空间。在一个实施例中，基本相似矩阵

定义如下：

A_{ij} = \exp (- {| | p_{i} - p_{j} | |}^{2} / 2 σ_{p}^{2} - {| | t_{i} - t_{j} | |}^{2} / 2 σ_{t}^{2}) - - - (9)

其中比例参数σ_p和σ_t控制相似矩阵A_ij分别在空间和时间上以多快的速度随两点m_i和m_j之间的距离分开。在本跟踪技术的另一实施例中，可以使用更为复杂但是昂贵的相似矩阵A_ij′来鼓励更为紧凑的轨迹分段。该相似矩阵A_ij′可以定义如下：

{A_{ij}}^{'} = α A_{ij} + (1 - α) \exp (- B^{2} [h (m_{i}), h (m_{j})] / 2 σ_{h}^{2}) . - - - (10)

最后的项考虑两个模式(m_i，m_j)的外观(例如色彩柱状图)之间的相似程度。变量α是权重因数。合适的权重因数可以是值0.5。处理继续到框606处。

在框606处，三维点被分割成群集。各种谱聚技术可用来将三维点分成群集。这些各种谱聚技术各自以略微不同的方式分析特征向量。在本视频跟踪技术的一个实施例中，使用Ng的算法，它同时为K类群集使用K个特征向量。对于该技术，构建矩阵L＝D^-1/2AD^-1/2，其中D是对角矩阵

基于L的最大特征向量，计算矩阵

其中是e_k矩阵L的标准化的K个最大特征向量组。接着将矩阵E中的每行当作

中的点。常规K均值算法接着将点群集成K个群集中。如果矩阵E的行i被分配给群集k，那么原始的点被分配给群集k。处理继续到框608处。

在框608处，基于群集获取轨迹分段。例如，群集k中的所有3D点被作为轨迹分段Tr_k来对待。对于所有的群集这样做，以便获取K个轨迹分段Tr＝{Tr₁，…，Tr_K}。使用为本视频跟踪技术描述的谱聚，产生多个“有用”轨迹分段。由此，三维轨迹提取过程基于二维局部模式M成功地提取多个三维对象轨迹Tr_k。每个对象轨迹表示三维体中所跟踪对象的可能的分段。

与其他群集技术相比，谱聚的实施例将单位球体表面的三维数据点嵌入在由L的K个最大特征向量确定的K维空间中。这使得可以分割原始三维空间中的曲线轨迹或流形(manifold)，这导致更为有用的轨迹分段。相反，使用标准K均值群集确定的每个群集需要是凸区域。由此，如果轨迹是高度弯曲的和/或轨迹的某些分区不是凸区域，那么不能获取“真正”轨迹。

一旦提取了轨迹分段，那么就执行分析以确定目标对象在视频序列的部分期间可能被遮挡的概率。现在结合图7更详细地描述在图2的框208中示出的该分析。如果没有对目标对象的遮挡，那么所提取的轨迹分段可以被用于确定对轨迹优化的状态空间采样。然而，通常在输入视频的某些部分期间会有对目标对象的部分或完全遮挡，且处理继续遮挡推理。

图7是示出适用于图2的视频跟踪过程的示例性遮挡分析过程的流程图。因为在输入视频中发生的部分或完全遮挡不包括在已经提取的分段中，因此需要获取附加的遮挡轨迹分段。这些遮挡轨迹分段接着会对应于遮挡阶段期间的状态。遮挡分析是基于在分析多个视频序列的轨迹分段时识别出的若干个观察的。这些观察导致对于遮挡分析的双向、树成长算法。在描述遮挡分析之前，首先讨论其所基于的观察。在对象轨迹分段之间推断和采样遮挡分段。包括关键帧中的对象模板的轨迹分段是在“真正”对象轨迹中。应该排除与包含对象模板的分段平行的任何轨迹分段。如果两个分段之间的重叠时间和最短距离不超过某些经验阀值，那么它们可以被认为是平行的。在沿着时间轴的两个重叠轨迹分段之间不存在遮挡分段。对于每个遮挡分段有某些速度和时间限制。

基于这些观察，阐明用于遮挡分析的本双向、树成长过程。图7是示出适用于图2中所示的视频跟踪过程200的框208的示例性遮挡分析过程的流程图。过程700从框702处开始，在其中构建树。在过程700的一个实施例中，使用自从相应的状态中的对象模板获取的两个状态(例如初始和最终状态)中的任何一个成长的一棵树执行过程700。在另一实施例中，可以使用多棵树来执行过程700。例如，如果构建两棵树，那么一棵树成长自初始状态，而另一棵树成长自最终状态。接着树会相遇以便形成目标对象的完整轨迹。以下讨论描述了使用两棵树的过程700。如将要描述的，在该实施例中，来自两棵树的信息可以被共享，以便获取对完整的轨迹的更好的确定。由此，在框702中，构建两棵树T_A和T_B。两棵树都具有空的根节点。总体而言，树被用于基于先前标识的轨迹分段来确定遮挡分段。遮挡分段接着连接脱开的轨迹分段对。这是通过从树中排除多个对象轨迹并将多个遮挡轨迹添加到树上来完成的，如以下将描述的。处理继续到框704处。

在框704处，定位包含关键帧中的对象模板的轨迹分段。在多棵树实施例中，可以定位两个这种轨迹分段，并且将轨迹分段之一添加到每棵树TA和TB，作为活动节点。处理继续到框706处。

在框706处，剩余的轨迹分段被分类到活动候选列表中。总而言之，活动候选列表中的分段接着或者被排除，或者被用于确定遮挡分段。过程继续到框708处。

在框708处，从活动候选列表中移除活动候选列表中的与活动节点平行的轨迹分段。如果两个分段之间的重叠时间和最短距离不超过某些经验阀值，那么它们是平行的。在一个示例性实现中，时间阀值是30个帧，而距离阀值是50个象素。处理继续到框710处。

在框710处，执行双向树成长过程。总而言之，稍后结合图8描述的双向树成长过程每次使树成长一步直至在树中没有活动的叶节点。树成长过程确定可能的遮挡分段。一旦完成了框710，那么也完成了遮挡分析过程700。

图8是示出适用于图7中所示的遮挡分析过程的示例性双向树成长过程800的流程图。对每个没有子节点的活动叶节点执行过程800。可以对每棵树执行过程800。过程从框802处开始。

在框802处，从活动候选列表选择轨迹分段作为当前活动节点(即先前活动节点的活动叶节点)。所选的活动叶节点此时上不具有子节点。处理继续到框804处。

在框804处，确定当前活动节点的Q最佳遮挡分段。可以在活动候选列表中执行前向检索，以便标识出沿着时间轴与其他轨迹分段重叠的轨迹分段Tr^*。接着可以在活动叶节点Tr^a的轨迹分段和这些所标识的轨迹分段Tr^*的每一个之间生成Q最佳遮挡分段。在一个实施例中，基于L_o+γS_o，确定Q最佳遮挡分段，其中γ＝10是权重因数。L_o和S_o是两个连接的轨迹分段之间假设的B样条的长度(象素)和最大速度(像素×帧^-1)。总而言之，B样条被用于生成与在时间上两个脱开的轨迹

和相关的缺少的遮挡分段O。给定

和

中的所有点

B样条被拟合的，其中B样条

使用加权最小平方：

\min_{{q_{n}}} Σ_{j = 1}^{N^{'}} ω (m_{j}) {| | r ({s_{j}}^{'}) - m_{j} | |}^{2} - - - (11)

其中s_j′＝(t_j-t₁)/N′是帧t_j中B样条的时间参数表示。即使B样条的参数表示是近似值，但是发现它能够得出好的结果。

权重函数ω(m_j)被定义为：

ω (m_{j}) = \{\begin{matrix} \exp (- σ_{ω}^{- 1} | | t_{j} - t_{A}^{e} | |) j &Element; {Tr}_{1} \\ \exp (- σ_{ω}^{- 1} | | t_{j} - t_{B}^{s} | |) j &Element; {Tr}_{2} \end{matrix}, - - - (12)

其中

和是Tr₁中的最后一帧数和Tr₂中的第一帧数。比例参数σ_ω被设置成20。使用权重函数，可以对

和附近的点给予较大的权重。最后，Tr₁和Tr₂之间拟合的B样条被采样为遮挡分段O。处理继续到判定框806处。

在判定框806处，作出判定在Q最佳遮挡分段中是否有任一个达到另一端。换而言之，是否有遮挡分段中的之一碰到被设置为另一树中当前活动节点的轨迹分段。另一树中的当前活动节点可以是包含对象模板的轨迹分段或被在对其他树的处理期间被设置为活动节点的其他轨迹分段之一。如果Q最佳遮挡分段之一达到另一端，那么处理继续到框814处。否则，处理继续到判定框808处。

在判定框808处，作出判定Q最佳遮挡分段之一是否是主遮挡分段。该可选判断是基于轨迹分段之一是否具有用于L_o+γS_o的值，所述值显著小于其他轨迹分段的值。如果有主遮挡分段，那么处理继续到框810处。否则处理继续到框812处。

在框810处，添加主Q最佳遮挡分段作为子节点，并且将其设置为当前活动节点。先前的活动节点被设置为非活动的，因为它现在具有子节点。处理接着继续使用该当前活动节点到框804处。

在框812处，如果没有主Q最佳遮挡分段，那么将Q最佳遮挡分段的每一个添加到活动候选列表中。通过这样做，可以连接多个遮挡分段，直至一个可以与轨迹分段连接。处理接着循环回到框802，以便从活动候选列表选择“分段”(遮挡分段或轨迹分段)，并如上所述地继续。

在框814处，如果Q最佳遮挡分段之一达到另一端，那么将该遮挡分段添加到树的另一端。在具有两棵树的实施例中，遮挡分段被添加到两棵树，并且被设置为非活动的。遮挡分段则是两棵树之间的桥梁。处理继续到框816处。

在框816处，在树中使用B样条内插来连接沿着时间轴的中断。结果是从初始状态到最终状态的可能的轨迹路径，它包括轨迹分段和遮挡分段。处理然后完成。

对没有任何子节点的每个子节点执行过程800。一旦一节点具有子节点(例如至少一个Q最佳遮挡分段)，那么对该节点的处理完成。当在任一树中不再有任何活动节点或者不再有被标识将初始状态连接到最终状态的轨迹，那么过程800完成。会注意到轨迹分段与遮挡分段连接，因为在轨迹分段分析过程300期间，获取最长的可能轨迹分段。因此，通常，轨迹分段不与其他轨迹分段相连接。

图9是描述在图7中所示的遮挡分析过程期间生成的遮挡轨迹分段的图示。如所示，有两个轨迹分段Tr₁和Tr₂。点m_j是二维局部模式，而Tr₁和Tr₂是三维视频体中的三维轨迹分段。O是轨迹分段Tr₁和Tr₂之间的推断出的遮挡轨迹分段。

依照使用轨迹优化的本视频跟踪技术(图2中的框210)，当获取了对象轨迹和遮挡轨迹组之后，通过对这些轨迹采样来计算两个关键帧中的单个最佳轨迹。本视频跟踪技术执行轨迹优化，以便获取更为准确的跟踪结果。轨迹优化用由粗到精的方式执行上述公式(3)。在一个实施例中，为由粗到精的方式选择两个级别。第一级别(即粗略级别)，其中采样是空间向下采样的，可以使用每个帧中的三个离散比例因数对计算出的分段周围的M(例如500-1000)个状态进行均匀地采样。这些状态可以在自分段的较小的半径内选择，诸如5个象素的半径。在该粗略级别中使用常规离散隐马尔可夫模型(HMM)来计算最佳轨迹。使用从该粗略级别计算出的最佳轨迹，使用下一级别(例如精细级别)来确定最终的最佳轨迹。下一级别可以使用每个帧中的五个离散比例因数来对最佳解答周围的M个状态进行采样。即使精细级别使用每个帧中的五个离散比例因数，但是计算不是过高的，因为状态的数目被显著地降低了。例如，对于10秒的视频，轨迹优化大约采用8秒。

图10-13是依照本跟踪技术示出各个处理阶段的结果的一组图表1000、1100、1200和1300。图14中示出了得出图1000、1100、1200和1300的视频序列1400的简化帧。开始帧(#000)指定目标对象1404的初始状态1402，而结束帧(#179)指定目标对象的最终状态1406。总体而言，视频序列1400示出了两个相同杯子的移动。简化帧不示出背景，而是集中在相同的杯子彼此相对的移动上。在帧#000中，个人(未示出)持有两个相同的杯子1404和1414，使得杯子1404比杯子1414高大约半个杯子的长度。杯子1414的右下角被部分地遮挡，并且在视频序列1400的所有的帧中保持在几乎相同的位置中。相反，杯子1404在每个帧中移动。现在描述杯子1404在各帧中的移动。会注意到每个帧作为矩形框1410，该矩形框1410表示依照本跟踪技术确定的目标对象的预测位置。每个帧也示出了表示帧中目标对象的实际位置的阴影区1412。由于目标对象的遮挡，阴影区域1412的大小根据目标对象遮挡的程度变化。

在帧#016中，杯子1404垂直向下移动，使得其在杯子1414下方。在帧#027中，被子1404向右移动，这样使得其在杯子1414的右下方。在帧#028-035期间，杯子1404在持有杯子1414的个人手臂的下移动，并且最终位于杯子1414右方且稍微高于其的位置处。因为杯子1404在个人的左臂之后，所以相当的遮挡，如帧#035中所示。在帧#052中，杯子1404被向上移动，并且大约在杯子1414的直接上方。在帧#065中，杯子1404被置于与杯子1414相同的高度，并且在杯子1414的左方，有少量的遮盖。在帧#086处，杯子1404被降低，并且被稍微地移动到帧中的左侧。在帧#098中，杯子1404被置于杯子1414的下方，并且因杯子1404前方的个人的手(未示出)而被部分地遮挡。在帧#105处，杯子1404被移动到持有杯子1414的个人的左臂的后方。由此，杯子1404几乎被完全遮挡。然而，有趣的是，预测位置1410准确地预测到杯子1404将位于的位置。在帧#132中，杯子被稍微举高，使得可越过个人的左臂(未示出)看见一小部分。在帧#147中，杯子1404被移动到帧的顶部，并且被持有杯子1404的个人的手指几乎完全遮挡。由此，如视频序列1410所示，本跟踪技术准确地预测目标对象的位置，即使当目标对象变为被完全遮盖。在图10中示出了跟踪技术在各个处理阶段本的结果。

图表1000和1100示出了三维中两个二维模式的视图，其中在本跟踪技术的二维提取过程期间生成二维模式点。垂直轴是序列中的帧号。另一轴是每个帧中目标对象的x、y位置。向下到中心的相对直线对应于视频序列1400中的同一杯子1414。图表1200示出了在使用谱聚执行三维轨迹分段分析之后获取的有用的轨迹分段。因为在视频序列部分期间目标对象被完全遮挡，所以没有从初始状态到最终状态的一条轨迹。图表1300示出了在执行遮挡分析后，目标对象的最佳轨迹。虚线矩形中的圆圈表示填入的遮挡分段。

由此，如所述的，本跟踪技术成功地处理了部分或完全遮挡。本跟踪技术采用新颖的轨迹分段表示来从三维视频体中可能的对象轨迹获取少量的轨迹分段。使用谱聚方法从输入视频提取轨迹分段。有了该表示，通过使用轨迹分段以使用由粗到精的方式采用离散隐马尔可夫模型来获取MAP解答。此外，本跟踪技术采用遮挡分析过程来健壮地推断目标对象的可能的遮挡轨迹分段。

现在讨论可用于本跟踪技术的典型的参数设置。群集数目K的选择是群集中的公开问题。因为在本跟踪技术的遮挡分析中有分组机制，所以确定稍微大于“最佳”的K是可以接受的。因此，可以设置群集数目K，使得K＝7或K＝10。在二维模式提取中，G是高斯核函数，其标准偏差可以是关键帧中目标对象的大约1/6的大小。在三维轨迹提取中，比例参数σ_p和σ_i可以分别被设置成10和20。在轨迹优化中，方差参数σ_h和σ_p可以分别被设置成10和1。

如上所述，使用轨迹分析的本双向跟踪将整个视频序列和两个关键帧中信息作为输入，并且输出贝叶斯构架中目标对象的整体状态序列的MAP解答。双向跟踪是基于轨迹分析的，所述轨迹分析从输入视频提取多个三维轨迹，即对象跟踪的紧凑表示。接着，在轨迹级别推断遮挡轨迹。最后，以由粗到细的方式通过轨迹优化来获取MAP解答。实验结果示出了本技术关于突然移动、含糊不清、短时间和长时间遮挡的健壮性。

本双向跟踪技术可以被应用于许多离线应用。其中可应用该技术的一个新的领域是在线广告。对于该应用，可以“点击”移动目标以便自动地链接到相关的网站。因为本双向跟踪技术准确地跟踪目标对象，因为可以将移动目标对象的位置给予潜在的应用以供其自身使用。可以为本跟踪技术想象该应用和许多其他应用。

虽然示出和描述了示例性实施例和应用，但是应该理解本发明不限于上述精确配置和资源。对本领域的技术人员显而易见的是可以对排列、操作以及本申请中所公开的***和方法的细节作出各种修改、改变和变更，而不背离所作权利要求的发明的范围。

Claims

1.一种视觉跟踪方法，包括：

确定视频序列(1400)的两个关键帧(#000和#179)；

获取(204)目标对象(1404)在所述两个关键帧中第一关键帧中的第一状态(1402)以及所述目标对象在所述两个关键帧中第二关键帧中的第二状态(1406)；以及

基于所述第一和第二状态，从所述第一关键帧到所述第二关键帧跟踪(200)帧中的所述目标对象，其中对所述目标对象的跟踪包括：

对所述两个关键帧执行二维提取，以便获取所述目标对象的多个局部二维(2D)模式；

基于所述局部二维模式的稀疏集执行三维轨迹分段提取，以便获取所述目标对象的多个轨迹分段，其中所述多个轨迹分段是三维轨迹分段；

基于所述多个轨迹分段执行遮挡分析，以便获取连接所述多个轨迹分段中两个脱节的轨迹分段的一个遮挡分段；以及

基于所述多个轨迹分段以及所述遮挡分段，用由粗到精的方式执行轨迹优化，以便获取所述目标对象的最佳轨迹。

2.如权利要求1所述的视觉跟踪方法，其特征在于，其中执行所述二维提取包括：

计算痕迹表面；以及

将均值漂移算法应用于计算所计算出的痕迹表面的梯度方向，得出所述目标对象的局部二维模式。

3.如权利要求1所述的视觉跟踪方法，其特征在于，其中三维轨迹分段提取包括：

将所述二维模式转换成三维体中的三维点；

使用谱聚技术将所述三维点分割成群集，所述谱聚技术同时为K类群集使用K个特征向量；以及

基于所述群集获取有用的轨迹分段。

4.一种计算机实现的视觉跟踪方法，包括：

指定(202)视频序列(1400)中的开始帧(#000)和结束帧(#179)；

获取目标对象(1404)在所述开始帧内的初始状态(1402)以及所述目标对象在所述结束帧中的最终状态(1406)；

对以所述开始帧开始并以所述结束帧结束的多个帧执行二维提取(302)，以便基于所述初始状态和所述最终状态获取所述多个帧中的目标对象的局部二维模式(512)的稀疏集；

基于所述局部二维(2D)模式的稀疏集执行三维轨迹分段提取(304)，以便获取所述目标对象的多个轨迹分段(Tr₁)，其中所述多个轨迹分段是三维轨迹分段；

基于所述多个轨迹分段执行遮挡分析，以便获取连接所述多个轨迹分段中的两个脱节的轨迹分段的至少一个遮挡轨迹分段；以及

基于有用的轨迹分段以及所述遮挡轨迹分段，用由粗到精的方式执行轨迹优化，以便获取所述目标对象的最佳轨迹。

5.如权利要求4所述的计算机实现的视觉跟踪方法，其特征在于，其中执行所述二维提取包括：

计算痕迹表面；以及

6.如权利要求5所述的计算机实现的视觉跟踪方法，其特征在于，还包括在应用所述均值漂移算法之前使用所述目标对象的色彩柱状图来预过滤所述多个帧。

7.如权利要求5所述的计算机实现的视觉跟踪方法，其特征在于，还包括通过均匀地采样帧中的位置并且独立于每个开始位置运行所述均值漂移算法来确定多个开始位置。

8.如权利要求7所述的计算机实现的视觉跟踪方法，其特征在于，其中均匀采样包括将空间采样间隔设置成稍微小于所述目标对象的一半大小。

9.如权利要求5所述的计算机实现的视觉跟踪方法，其特征在于，还包括如果相应的痕迹小于预定的值，则拒绝所述局部二维模式之一。

10.如权利要求5所述的计算机实现的视觉跟踪方法，其特征在于，还包括当两个局部二维模式在彼此之间某个距离以内时，就将所述两个局部二维模式合并成一个局部二维模式。

11.如权利要求4所述的计算机实现的视觉跟踪方法，其特征在于，其中执行三维轨迹分段提取包括：

将所述二维模式转换成三维体中的三维点；

基于所述群集获取有用的轨迹分段。

12.如权利要求4所述的计算机实现的视觉跟踪方法，其特征在于，其中执行遮挡分析包括：

a)构建一树，所述树的根节点为空；

b)将包含关键帧中的对象模板的一个轨迹添加到所述树中，作为活动节点；

c)将剩余轨迹添加到候选列表中；

d)基于所述候选列表中的轨迹是否与对应于所述活动节点的轨迹平行排除轨迹；

e)当所述树中有活动节点时，选择所述候选列表中的轨迹之一作为当前活动节点；

f)确定至少一个Q最佳遮挡分段；

g)如果所述Q最佳遮挡分段没有达到期望的轨迹分段，那么将所述至少一个Q最佳遮挡分段添加到所述候选列表中；以及

h)重复e-g直至Q最佳遮挡分段达到所述期望轨迹分段；以及

i)连接所述候选列表中的轨迹和所述Q最佳遮挡分段以作出所述目标对象的完整轨迹。

13.如权利要求4所述的计算机实现的视觉跟踪方法，其特征在于，其中用由粗到精的方式执行轨迹优化包括空间上向下采样所述多个帧并且使用三个离散比例因数在每个帧中所述多个轨迹分段周围的位置均匀地采样以便获取所述最佳轨迹。

14.如权利要求4所述的计算机实现的视觉跟踪方法，其特征在于，其中用由精细方式执行轨迹优化包括使用每个帧中的五个离散级别的比例因数来均匀地对优化的轨迹周围的位置进行采样以获取最终最佳轨迹。

15.一种用于跟踪视频序列(1400)中的目标对象(1404)的方法(200)，所述视频序列被分解成若干个短序列，所述短序列具有开始帧(#000)和结束帧(#179)，所述方法包括：

a)为一个短序列的每个帧生成(406)一组局部二维模式(512)，每个局部二维模式标识所述帧中具有与在所述开始帧中标识的所述目标对象类似的视觉统计的位置(m₁)；

b)基于所述一组局部二维模式，获取(608)所述目标对象的多个三维轨迹分段(Tr₁和Tr₂)；

c)获取(208)连接所述多个三维轨迹分段的两个脱节的轨迹分段(Tr₁和Tr₂)的至少一个遮挡分段(O)；以及

d)基于所述多个三维轨迹分段和所述至少一个遮挡分段，确定(210)最佳轨迹(1300)。

16.如权利要求15所述的用于跟踪视频序列中的目标对象的方法，其特征在于，其中获取所述多个三维轨迹分段包括将所述局部二维模式组转换成三维体中的三维点、使用谱聚将所述三维点分割成群集以及基于所述群集获取所述三维轨迹分段。

17.如权利要求16所述的用于跟踪视频序列中的目标对象的方法，其特征在于，其中获取所述至少一个遮挡分段包括执行双向树成长过程。

18.如权利要求15所述的用于跟踪视频序列中的目标对象的方法，其特征在于，所述方法由一个计算设备实现，所述计算设备包括一处理器(102)和一存储器(104)。