CN102110293B

CN102110293B - 基于模型的赛场配准

Info

Publication number: CN102110293B
Application number: CN201010625051.5A
Authority: CN
Inventors: X·童; W·李; Y·张
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2009-12-23
Filing date: 2010-12-23
Publication date: 2014-12-31
Anticipated expiration: 2030-12-23
Also published as: US8553982B2; EP2357611A2; TW201142750A; JP5335762B2; JP2011134322A; TWI512683B; US20110150275A1; CN102110293A; RU2480832C2; KR20110073367A; KR101232509B1; EP2357611A3; RU2011101370A

Abstract

描述了用于基于模型的赛场配准的方法、装置和***。处理输入视频图像。对该视频图像的处理包括提取与该视频图像相关的关键点。此外，确定是否已提取到足够的与该视频图像相关的关键点，并且如果已经提取到足够的关键点，则执行对该视频图像的直接估计，然后生成基于该直接估计的最终视频图像的单应矩阵。

Description

基于模型的赛场配准

技术领域

本领域总地涉及计算科学，并且更具体地，涉及视频成像。

背景技术

图像配准问题在视频序列中是常见的。典型地，图像配准在图像处理中用来匹配在不同时间来自不同传感器或来自不同视点的两个或者更多个视频序列。然而，尽管在该图像配准领域中有了不少进展，但是图像中的失真仍然存在。这些失真包括配准不良(例如图像错位)。除了不能消除这些频繁的失真现象，这些传统的图像配准算法还消耗大量的搜索空间却收获寥寥。而且，传统的图像配准算法执行的搜索也不稳定。

附图说明

本发明的实施例在附图中以实施例而非限制性的方式举例说明，在附图中用相似的标号指示相似的部件，其中：

图1示出用于执行场地配准的过程；

图2示出具有一实际点和一虚拟点的场地模型的单应(homograph)矩阵的实施例；

图3示出在场地模型和屏幕图像之间的单应映射以及进一步地在屏幕图像之间的运动转变(motion transition)的实施例；

图4示出霍夫线检测和交点提取的实施例；

图5A-5G示出体育视频中基于模型的赛场配准的实施例；

图6示出基于增强交互分布式粒子滤波(boosted interactivelydistributed particle filter)的多对象跟踪过程的实施例；

图7示出增强交互分布式粒子滤波的实施例；

图8示出形成组(例如组G)且互相交互的对象；

图9示出实现在分辨率为720×576和960×544的两个视频片段上时本发明实施例一种实现的跟踪结果的实施例；

图10示出本发明实施例的一种实现的跟踪结果的另一实施例；

图11示出具有实现为软硬件组件混合体的本发明实施例的计算***的实施例。

具体实施方式

在一个实施例中，公开了一种场地配准技术，用于找到屏幕图像和场地模型之间的几何对应，随后将赛场从屏幕图像映射到标准场地模型。在本文的通篇使用了一般的体育运动，特别是足球，仅仅作为实施例并且是为了简便和清楚的目的。预期本文中所揭示的实施例可应用于任何视频图像而不管其内容。继续考虑体育的例子，体育视频中的关键要素是将球和运动员的移动轨迹映射至场地模型。在执行该映射时，每个运动员在场坐标系中的相对位置可从已配准的场地中获取。这些相对位置包括运动员的移动方向、近似速度和活动。这些线索可在可视计算和计算机绘图域中帮助促进团队为基础的阵容和战术分析、基于活动的场景检索、视频内容充实和编辑、交互和沉浸式游戏、增强的现实感等。

在一个实施例中，提供了一种新颖的、基于相关场地配准硬件组件的场地配准算法，以提供有效而实用的视频图像场地配准。该新颖的方法首先进行视图类型分类，然后应用霍夫变换来检测场地标线和它们相应的交点。这些交点作为场地配准的关键点。当有足够多的关键点(例如，多于或者等于4个关键点)时，执行搜索最佳映射的直接匹配。为了有效的搜索，使用由距离变换产生的距离映射来计算匹配误差。此外，为了加快搜索，研究了一些快速否决标准，并将其用于加速处理。当关键点的数目不够(例如少于四个关键点)时，可以不直接获得单应矩阵；而是，通过估计连续帧之间的全局运动并将当前的运动转变与以往任何场地模型映射矩阵相结合来推断当前单应映射矩阵而间接得到。这种技术及其有效性和实用性在前面的段落有进一步的说明。

这种新颖而实用的场地配准技术可以适用于任何类型和数量的、有或无足够关键点的视频图像情况。该先进而合理的方案简化了执行场地配准任务的难度。场地配准技术使用距离变换来测量匹配误差，这使得该误差为连续性的，并使搜索更为稳定；此外，其发明了几个快速否决标准来减小搜索空间并提高处理速度。

图1说明执行场地配准的过程。在处理框102，通过连接至视频设备(例如为具有包括处理器的计算***的摄像机)的物理接口接收视频输入。在处理框104，执行对所接收视频的预处理。预处理包括主色学习和处理框106处的视图类型分类。通过累加色度-饱和度-纯度(Hue-Saturation-Value，HSV)颜色直方图执行视频中的主色，其对应于赛场的草坪颜色。如前所述，需要再次注意，体育运动(并且尤其是足球)仅仅是为了简便和清楚而用于作为例子，且本发明的实施例并不局限于体育视频。例如，代替赛场(如这里使用的)的草坪颜色，该颜色可以是政治辩论期间的美国国会的地板或者是集会期间的草坪或者肥皂剧或电影中的起居室。接着用主色分段和形态滤波连同连接成分分析来提取赛场。之后，每个视图都归类至四个视图类型中的一个：(1)全局视图；(2)中间视图；(3)特写视图；(4)视图外，而全局视图可以被提供给场地配准模块中以进行后续计算。

在处理框108，执行霍夫线检测和交点关键点提取。通过提取赛场区域来执行霍夫变换以检测标线，随后保留和赛场区域内的主色不一致的任何像素并使之成为二值(二元)图像。之后，对二元图像应用霍夫变换来检测水平的和垂直的标线，然后获取其交叉关键点。另外，实际的和虚拟的交点都会被检测和使用。这在图4中进行了说明。

在判决框110，关于是否具有足够的关键点作出判定。如果具有足够的点，在处理框112执行新颖的直接映射估计。该新颖的直接映射估计是通过处理框114处的匹配假设生成来执行的，随后在处理框116执行假设评估和最佳对应搜索。如果没有足够的点，在处理框118执行间接映射估计。间接映射估计包括关键点检测、过滤和在处理框120处的全局运动估计，随后是在处理框122进行当前映射转变。在任一情况下(也就是直接或间接映射估计)，该过程继续生成单应矩阵(Ht)124。

如前所述，当屏幕图像和场地模型之间有足够的点(如多于四个对应点；其次，至少两条水平线和至少两条垂直线的交叉)，处理框112执行直接估计来估计单应矩阵。这种直接估计包括确定哪一对点相互对应并对应于场地模型，列举这些可能的情况，并通过执行误差评估搜索最优的一个。在一个实施例中，场地模型是指正为之实现这些实施例的视频图像的任何背景或场地。然而，继续足球的主题，由国际足球协会联合会(FIFA)定义的标准足球运动场在该实施例中用作场地模型。在一个实施例中，无论是实际的交点(如两条实际线——例如水平和垂直线——之间的交点)，还是任何虚拟交点(如一条实际线和一条延长的实际线的交点，或者两条延长的实际线之间的交点)，都用于场地模型中。这些虚拟交点也是场地模型的关键点，可以用来校准视频设备(如摄像机)。

此外，关于映射假设的生成，为了简化映射程序，使用标线来指导每个交叉关键点的对应关系。L_h是场地模型中水平线的数目，L_v是垂直线的数目(例如：L_h＝10条水平线，L_v＝7条垂直线)。假定有m条水平线(L_h＝m)和n条垂直线(L_v＝n)，共有(C(n，k)是组合运算，种可能的组合，例如4对点的对应和可能的4对点对应的组合。每个组合可以被称为一个假设，反映检测到的图像线和场地模型标线之间的可能的对应关系。

对每一个假设评估，映射矩阵H是从到图像平面的世界坐标而获得的。为了评估每种假设的可靠性，场地模型被映射到图像平面，并计算映射图像和原始图像之间的距离。基于所检测的线，使用距离变换技术获取距离映射来衡量任何误差。如果距离映射等于“D”，则误差为：其中N为非零像素的总数目，τ为限制最大误差的常量。误差和映射可能互相成反比，如误差越小，映射越好。最佳假设被用作最终的匹配。

由于搜索的空间是巨大的，所以假设评估对计算能力的要求苛刻。在一个实施例中，为了减少搜索空间，使用下列标准中的一个或多个来快速否决一些假设：(1)基于所检测线(特别是垂直线)的角度，可以估计场地的一侧(例如，左、右或中间)。例如，如果比赛位置在左场侧，则场地模型内待匹配的线条就不会在右边。同样，右侧的处理反之亦然。采用这一标准滤掉了一些假设；(2)如果已经在场地模型和给定图像之间匹配了两条或更多条水平线或垂直线，则估计场地模型的大小。此外，如果估计大小和标准场地模型差别太大，则可以否决这一假设，并可以采用具有不同标准的另一假设；以及(3)另一快速否定是评估单应矩阵本身。该单应矩阵具有数个(例如8个)自由度，但是实际图像形成过程可具有不同数量(比如7个)的参数，例如三个针对摄像机位置，三个针对摄像机旋转，而一个针对焦距。剩余角度包括β(各向异性比例)，其指的是在水平和垂直方向的不等比例(在现实世界通常为“1”)。该值可基于摄像机校准理论获得。此外，由于这些估计的摄像机参数并非完全准确，而且其计算是数字敏感的，因此设定了0.5＜β＜2的参数可接受范围。

如前所述，如果当前帧中没有足够的关键点(如少于4个)，则在处理框118，通过执行摄像机从之前帧到当前帧的运动转变来执行间接映射估计，以在处理框124推断当前单应映射矩阵。在一个实施例中，这种间接的映射估计过程包括一个或多个特征点检测、两个连续图像之间的点匹配、通过随机抽样一致性(RANSAC)的点对滤波，以及用最小二乘估计进行的全局运动计算。该第一过程包括检测关键点，其中可以使用角点、Harris点、快速鲁棒特征(SURF)等。另外，比例不变特征变换(SIFT)特征可用于表征关键点。

在分别检测之前帧和当前帧的关键点之后，在之前帧和当前帧之间建立起对应关系。对于之前帧的每一点，计算从之前帧的每一点到当前帧的每一点的距离，并且最近点或最短距离则作为其对应。关键点对应集合还可以包含某种数据框架(outliner)，例如噪声或错误匹配。在这种情况下，应用RANSAC算法来用于过滤掉这些框架。RANSAC算法是指在出现任意数量的数据框架的情况下以及在处理这些数据框架时用于鲁棒地适应场地模型的算法。接着，使用最小二乘估计在投影模型下用保留的恒定点对应关系计算全局运动参数。例如，如果在时间t的单应映射矩阵为Ht，且从时间t-1到t的运动转变矩阵为M_t-1。一旦知道了这些值，单应映射矩阵可以用下面的公式获得：H_t＝M_t-1*H_t-1。

图2说明具有实际点202和虚拟点204的场地模型的单应矩阵200的实施例。在一个实施例中，齐次坐标的三维点标记为P＝[X，Y，Z，1]’，而三维点在平面上的Z分量为0，因此其标记为P＝[X，Y，1]’。视网膜上的二维点为p＝[x，y，1]’。对于针孔摄像头来说，现实世界坐标系中的三维点P和其对应的二维图像点p具有下列关系：p＝H*P，其中H是依据内部和外部参数进行参数化的3×3的矩阵。其被称为现实世界的平面和屏幕图像之间的单应矩阵。

此外，矩阵H被定义为具有几个(如8个)独立参数的比例因子。为了确定例如八个参数的值，至少要使用图像位置和场地模型位置之间的四对点对应关系。由于场地通常没有明显的点特征，使用了用于估计点对应关系的赛场内线的交叉。任何由实际线与实际线的延长线(例如虚拟线)相交而成的实际交叉点202和虚拟交叉点204都被认为是关键点，并且其都可以用于校准摄像机。

图3说明场地模型302和屏幕图像304-308之间的单应映射310-314，以及屏幕图像304-308之间的运动转变316-318的实施例。继续以足球为例，如果摄像机对焦于靠近球门的区域，将很容易找到多于四对的对应点。然而，在靠近中场区域或者图像模糊或不清楚(例如，由于摄像机的快速运动)的情况下，因为可能没有足够的可用相应关键点，检测线可能会有点困难。为了解决这个问题，在一个实施例中，使用全局运动转变和之前帧的单应矩阵来近似地推断当前的单应矩阵310-314。这里示出了场地模型302和屏幕图像304-308之间的单应矩阵310-314(如箭头310-314所指示)以及连续屏幕图像304-308之间的运动转变316-318(如箭头316-318所指示)。

假设全局运动模型是一个投影模型，其变换也是3×3矩阵，则可以使用下式确立从之前帧I_t-1和全局运动转变M_t-1(图5A-5G)进行的当前帧的估计：I_t＝H_t*F(公式1)。将场地模型表示为F，从场地模型到图像的映射为：I_t-1＝H_t-1*F(公式2)和I_t＝M_t-1*I_t-1(公式3)。将公式2代入公式1，得到下式：I_t＝M_t-1*H_t-1*F(公式4)。现在，比较公式1和公式4，得到下式：H_t＝M_t-1*H_t-1＝M_t-1*M_t-2*H_t-2＝...＝M_t-1...M_t-k*H_t-k。

图4说明霍夫线检测和交点提取400的实施例。在一个实施例中，霍夫变换被用于检测标线。首先，提取赛场区域402，之后，和主色不一致的像素被保留在赛场402中，形成二值图像404。随后，在二元图像上进行霍夫变换来检测任何水平和垂直标线406。最后，获取水平线和垂直线的交点，检测并使用实际的和虚拟的交点408。

图5A-5G说明体育视频500中的基于模型的赛场配准的实施例。列包括帧号501、原始屏幕图像502、霍夫线检测结果504(具有垂直和水平线)、将场地模型映射至实际图像的结果506，以及场地配准的结果508。提供了在MPEG2格式(如720×576帧尺寸和25帧/秒)的视频片段上进行场地配准的结果。

灰色区域是摄像机的聚焦区域。在列出的帧中，图5A-5B，帧2-26，是场地模型的左侧场地，图5C-5E，帧120-180，是场地模型的左中场地，图5F-5G，帧1200-1250，是场地模型的右侧场地。帧2、26、120、180、1200和1250的结果由直接估计得到，而帧130的结果由间接估计获得。此外，如图所示，霍夫线图像缺少外形帧130，这是由于图像540受污染或失焦，从而没有获取足够数量的关键点导致。

图6说明基于增强交互分布式粒子滤波的多对象跟踪过程的实施例。在处理框602收到输入视频。输入视频可以通过视频/总线接口从一设备接收到另一视频设备，其中每个设备具有软件应用程序，或在同一个视频设备(如具有处理器/CPU的摄像机)中接收。在处理框604，执行输入视频的背景建模与前景提取。在一个实施例中，增强对象检测608和交互分布式粒子滤波610集成在一起，以在处理框606中执行鲁棒和有效的多对象跟踪。为了做到这一点，提供了增强交互分布式粒子滤波(BIDPF)软件和硬件来应付各种应用(如运动员跟踪应用，例如足球运动员跟踪应用)中自动多对象跟踪(MOT)的问题。在处理框612，获取并提供图像的对象跟踪信息(例如位置和数量)。同样，足球在这里只是被用来作为例子且是为了简明清楚，而且预期本发明的实施例可以用于任何数目的应用，并不仅限于体育或体育应用。

在一个实施例中，交互分布式粒子滤波技术(IDPF)，处理框610，被用来处理各种目标之间的互相遮挡。IDPF框架中引入了采用混合模型的建议分布，所述混合模型包含来自动态模型和增强检测的信息。在处理框608，增强的建议分布允许快速检测目标，而IDPF过程使得在相互遮挡的时候能维持对这样的目标的识别。在体育视频中，在处理框604通过使用给定赛场的自动习得颜色模型来提取前景，以加快该增强检测和减少误报。前景还可以用来开发数据驱动的潜在模型，以提高IDPF性能。在数个视频序列上执行的这种新颖方法的一些结果已经展示了在有摄像机运动和相互遮挡的动态场景中(如前面的图所示出的)对可变数目的对象进行跟踪并正确维持其识别性(identity)。

图7示出增强交互分布式粒子滤波的实施例。场地的颜色模型由累加HSV颜色直方图习得。然后通过主色阈值化、形态滤波和连接成分分析来提取赛场702。通过采用主色模型对场地颜色滤波得到赛场的前景704。随后，增强检测器以多个比例扫描整个前景图像706。这一过程加快了检测，并降低任何错误警报。此外，为处理目标之间的相互作用，采用了交互分布式方法；在该方法中，通过将分布式方案中对象的观察之间的相互作用建模来公式化每个对象的条件密度传播。在粒子滤波实施中，任何遮挡问题都通过调整每个粒子的权重来处理。

在一个实施例中，在时间t的目标i的状态和相应的观察表示为xⁱ _t和yⁱ _t。到时间t的状态设置为xⁱ _0:t，其中x₀是初始状态，到时间t的观察设置为yⁱ _0:t。时间t上yⁱ _t的交互观察表示为y^J _t ^t，其中J_t是观察和yⁱ _t相互作用的对象的索引。追踪的目的是基于所有观察估计后续情况。当yⁱ和其他对象之间没有影响时，这个公式和常规粒子滤波方法一致。采用条件独立属性，每个交互***(tracker)的密度传播公式如下：其中是局部似然性，是状态转变密度，其和贝叶斯跟踪方法类似。式被称为交互似然性，其表征目标之间的相互作用。在目标之间缺乏整合的情况下，该式可以分解为多个独立的贝叶斯***。

在粒子滤波实施中，后验概率以一组加权样本表征，其中(其中N是样本数)。根据重要性抽样理论，权重更新为：

图8说明具有形成组(例如，组G)、彼此相互作用的对象802-806。基于前景观察，提出数据驱动的潜在模型，来估计交互似然性以调整粒子权重。此外，G表示为相互作用对象形成的图像组，FG802为图像前景，S_G804为G中所有运动员的图像区域的联合，p₁₁为运动员区域中的一像素属于前景的概率，p₁₀为运动员区域中的一像素不属于前景的概率，p₀₁为运动员以外的一像素在前景中的概率，p₀₀为运动员以外的一像素在背景中的概率，其中p₁₁+p₁₀＝1，p₁₁＞p₁₀，p₀₁+p₀₀＝1，以及p₀₁＜p₀₀。

假设像素之间是独立的，我们得到下面的似然概率：

p (y_{t}^{J_{i}} | x_{t}^{i, n}, y_{t}^{i}) = \underset{g &Element; G}{Π} p (g | x_{t}^{i, n})

= p_{11}^{# Σg &Element; F_{G} \cap S_{G}} p_{10}^{# Σg &Element; F_{G} \cap \overset{&OverBar;}{S_{G}}} p_{01}^{# Σg &Element; \overset{&OverBar;}{F_{G}} \cap S_{G}} p_{00}^{# Σg &Element; \overset{&OverBar;}{F_{G}} \cap S_{G}} p_{01}^{# Σg &Element; {\overset{&OverBar;}{F}}_{G} \cap \overset{&OverBar;}{S_{G}}} = p_{11}^{N_{11}} p_{10}^{N_{10}} p_{01}^{N_{01}} p_{00}^{N_{00}}

= {(1 - p_{01})}^{| F_{G} |} {(1 - p_{10})}^{| \overset{&OverBar;}{F_{G}} |} {(\frac{p_{10}}{1 - p_{10}})}^{N_{10}} {(\frac{p_{01}}{1 - p_{01}})}^{N_{01}}

其中，C_G是归一化常量，λ₁₀和λ₀₁是分别取决于p₁₀和p₀₁的两个系数，∩是两个区域的交集。似然性取决于N₁₀和N₀₁。如806所示，矩形808外面的白像素形成N₁₀，矩形810内的黑像素形成N₀₁。通过利用提出的潜在模型，交互似然性减少了对象的估计不能很好的解释观察的概率；因此，它可以分离遮挡的观察点，从而解决融合的问题。

为了解决标注(1abling)问题，在一个实施例中，状态转变概率通过下式估计：

其中是传统状态转变密度，其可以通过使用恒定加速模型进行估计。此外，惯性权重фⁱ _t(·)被定义为：其中σ_θ、σ_v是先验常量，其分别表征运动矢量的方向和速度所允许的偏差。是第i个对象的第n个粒子的运动矢量；代表从到的参考运动矢量。是和之间的角度。||·||代表L₂模。

保持粒子滤波有效的一个问题是如何设计提议的分布。在一个实施例中，高斯模型的混合结合了动力学先验(dynamics prior)和增强检测：参数σ_q通过增强检测和动力学先验的高斯分布之间的重叠动态更新。近邻算法用于将增强检测分配到现有踪迹的数据关联。

对于局部似然性对目标的观察表示为从中心位置为xⁱ _t的区域R(xⁱ _t)提取的颜色分布的核密度估计。应用巴特查里亚系数来评估当前的观察K(x_t)和参考模型K^*＝{k^*(n；x₀)}_{n＝1，...，N}，d[K^*，K(x_t)]＝(1-ρ[K^*，K(x_t)])^1/2之间的相似度此外，为了编码观察的空间信息，采用了多部分颜色模型，其将对象垂直地分为两部分。因此，目标I的局部似然性定义为：

图9说明当实施在两个分辨率为720×576和960×544的视频片段上时本发明实施例一种实现的跟踪结果的实施例。902-906行的图示尤其着重于新进入场景的运动员。在一个实施例中，运动员入场被迅速检测到并鲁棒地跟踪，即使遮挡相对严重。如图所示，904行显示了标记在902行的第一个图像中的椭圆区域的特写视图。在一种技术中，如果某个运动员和其他运动员没有相互影响，则每个运动员的周边框(例如***)908-912的颜色是唯一的。否则，***的颜色可以变成黑色。在有遮挡的时候能保持正确的识别性，这得益于提出的通过交互似然性的粒子权重调整方案。904行示出了当***接近时而正在融合的***(例如从三个***914-918变到两个***914-916等)。此外，如果单个***分为两个***，则可以创建一个新的***，这样同一目标在遮挡后的标记可以不一样。

图10示出本发明实施例的一种实现的跟踪结果的另一实施例。在实施例中，1002-1008行示出了运动员的跟踪结果。用相应的***1020-1029单独跟踪每个运动员1010-1019，如图所示，每个运动员1010-1019被单独跟踪，并且即使有部分或者全部遮挡，其识别性也能被正确地保持。

图11示出了具有实现为软件和硬件组件的混合体的本发明实施例的计算***1100的实施例。这些实施例的某些功能用硬件实现，某些其他功能用软件实现。如图所示，CPU芯片1102设计为和视频协处理器1110一起工作。视频协处理器1110可以是具有其他处理单元(如图形处理单元(GPU))的视频设备(如视频摄像机)的一部分。在一个实施例中，视频协处理器1110采用任意数量的新颖软件逻辑和硬件逻辑1100来和其他常规的软件和硬件逻辑一起工作，以与任何常规操作协作来执行本发明的实施例。

随机存取存储器(RAM)1106包括具有对象信息的应用数据库。存储器控制器1104访问RAM 1106中的数据，并转发到CPU 1102和/或视频协处理器1110以供处理。RAM 1106可包括双倍数据率RAM(DDR RAM)、扩展数据输出RAM(EDO RAM)等。任何数据(例如视频图像或其他要处理的输入数据)可存储在存储器1108，随后，任何结果数据(例如最终视频图像和任何相关信息)1212接着被传输至显示设备1112。可替换地，视频控制器可以和CPU 1102在同一管芯上并共享高速缓存，并且可以使用存储器控制器。显示器1112可具有各种类型，例如阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、DPL等。

在一个实施例中，上面所述的一些图形管线的处理是在软件中实现的，而剩下的处理是在硬件中实现的。存储器208可包括缓冲器的预分配区域；然而，本领域技术人员应当理解的是，本发明并不限于此，而是可以使用较低图形管线可访问的任何存储器。计算机***1100还可包括输入/输出(I/O)控制中心(ICH)、一个或多个I/O设备等。

CPU 1102可包括一个或多个处理器来运行指令，以执行计算***实现的任何软件例程。这些指令经常涉及对数据执行的某种操作。数据和指令都存储在***存储器1108和任何关联的高速缓存中。高速缓存通常设计为比***存储器1108具有更短的延迟时间；例如，高速缓存可与处理器集成在同一硅芯片上和/或与更快的静态RAM(SRAM)单元构建在一起，而***存储器1108可与较慢的动态RAM(DRAM)单元构建在一起。通过趋向于将更常用的指令和数据存储在高速缓存中而不是***存储器1108中，计算***1100的整体性能效率得以提高。

***存储器1108被特意制成可由计算***1100内的其他组件访问。例如，在软件程序的实现中，从到计算***1100的各种接口(例如键盘和鼠标、打印机端口、局域网(LAN)端口、调制解调器端口等)接收或从计算***1100的内部存储组件(例如硬盘驱动器)获得的数据(例如输入图形数据)在被一个或多个处理器操作之前，通常临时排队在***存储器1108中。类似的，软件程序确定应当通过一个计算***接口从计算***1100发送至外部实体或者存储至内部存储部件中的数据，在被发送或者存储之前，通常临时排队在***存储器1108中。

ICH可用于确保这样的数据在***存储器1108和其适当的相应计算***接口(如果计算***是如此设计的话，则和内部存储设备)之间被正确地传递，并可在其本身和观察的I/O设备之间具有双向点到点的链路。存储器控制器1104可用来管理CPU 1102、接口和内部存储部件之间针对***存储器1108访问的各种竞争性请求，这些请求可能在时间上相对于彼此接近地出现。

一个或多个I/O设备也被实现来将数据传输至计算***1100(例如网络适配器)和/或从计算***1100传输数据；或被实现来用于计算***1100中的大型非易失性存储设备(例如硬盘驱动器)。

本发明的各个实施例的部分可以被提供为计算机程序产品，所述计算机程序产品可包括其上存储有计算机程序指令的计算机可读介质，所述计算机程序指令可用于对计算机(或其他电子设备)进行编程来执行根据本发明实施例的处理。机器可读介质可包括但不限于软盘、光学盘、光盘只读存储器(CD-ROM)和磁光盘、ROM、RAM、可擦可编程只读存储器(EPROM)、电EPROM(EEPROM)、磁卡或光卡、闪存，或其他类型的适于存储电子指令的介质/机器可读介质。

在上述说明书中，已参照本发明的特定示例性实施例描述了本发明。然而，将显而易见的是，在不脱离所附权利要求阐明的本发明的宽广精神和范围的情况下，可以对其进行各种修改和变化。相应地，本说明书和附图应视为是说明性的而非限制性的。

Claims

1.一种用于执行场地配准的方法，包括：

处理输入的视频图像，其中处理包括提取与所述视频图像相关的关键点；

检测是否已提取到足够的与所述视频图像相关的关键点；

如果已经提取到足够的关键点，则执行对所述视频图像的直接估计，其中，执行直接估计包括通过使用由距离变换产生的距离映射计算匹配误差来搜索最佳映射；以及

基于所述直接估计生成最终视频图像的单应矩阵，

其中，搜索最佳映射包括通过以下方式中的一种来减少搜索空间：(i)基于所检测线的角度估计场地的一侧；(ii)如果已经在场地模型和所述视频图像之间匹配了两条或更多条水平线或者两条或更多条垂直线，则估计所述场地模型的大小，并将估计的大小与标准场地模型进行比较；以及(iii)评估所述单应矩阵。

2.如权利要求1所述的方法，其中，所述直接估计包括：通过检测和评估与穿过至少两个垂直点的至少两条水平线相关的关键点来生成映射假设。

3.如权利要求1所述的方法，还包括：如果尚未提取到足够的关键点，则执行对所述视频图像的间接估计。

4.如权利要求3所述的方法，其中，所述间接估计包括执行全局运动估计，所述全局运动估计包括两个连续图像之间的点匹配，其中，所述点匹配包括：

在检测所述视频图像的之前帧和当前帧的关键点之后，在所述之前帧和所述当前帧之间建立起对应关系，其中，对于所述之前帧的每一点，计算从所述之前帧的每一点到所述当前帧的每一点的距离，并且最近点或最短距离则作为其对应。

5.如权利要求1所述的方法，还包括预处理所述视频图像，其中预处理包括执行对所述视频图像的视图类型分类。

6.如权利要求1所述的方法，还包括在显示设备上显示所述最终视频图像。

7.一种用于执行场地配准的数据处理***，所述数据处理***具有存储介质以及与所述存储介质耦合的处理器，所述处理器：

检测是否已提取到足够的与所述视频图像相关的关键点；

基于所述直接估计生成最终视频图像的单应矩阵，

8.如权利要求7所述的数据处理***，其中，所述直接估计包括：通过检测和评估与穿过至少两个垂直点的至少两条水平线相关的关键点来生成映射假设。

9.如权利要求7所述的数据处理***，其中，如果尚未提取到足够的关键点，则所述处理器还执行对所述视频图像的间接估计。

10.一种用于执行场地配准的装置，所述装置包括：

用于处理输入的视频图像的模块，其中处理包括提取与所述视频图像相关的关键点；

用于检测是否已提取到足够的与所述视频图像相关的关键点的模块；

用于如果已经提取到足够的关键点，则执行对所述视频图像的直接估计的模块，其中，执行直接估计包括通过使用由距离变换产生的距离映射计算匹配误差来搜索最佳映射；以及

用于基于所述直接估计生成最终视频图像的单应矩阵的模块，

11.如权利要求10所述的装置，其中，用于执行直接估计的模块包括：用于通过检测和评估与穿过至少两个垂直点的至少两条水平线相关的关键点来生成映射假设的模块。

12.如权利要求10所述的装置，还包括用于如果尚未提取到足够的关键点，则执行对所述视频图像的间接估计的模块。