CN101408931B

CN101408931B - 用于三维目标识别的***和方法

Info

Publication number: CN101408931B
Application number: CN2007101947121A
Authority: CN
Inventors: 克里斯蒂安·维德曼; 马库斯·乌尔里希; 卡斯滕·斯蒂格
Original assignee: MVTec Software GmbH
Current assignee: MVTec Software GmbH
Priority date: 2007-10-11
Filing date: 2007-11-29
Publication date: 2013-02-20
Anticipated expiration: 2027-11-29
Also published as: EP2048599B1; US8379014B2; DE602007003849D1; US20090096790A1; ATE452379T1; CN101408931A; EP2048599A1; JP2009093611A; JP4785880B2

Abstract

本发明提供了一种用于识别单个摄像机图像中的三维目标和用于确定目标相对于摄像机坐标系的三维姿态的***和方法。提出了一种基于视图的方法，其未显示出之前方法的缺点：它对图像干扰、目标遮蔽、杂波和对比度变化具有鲁棒性。此外，能够以高精度确定三维姿态。最后，提出的方法允许在非常短的计算时间内识别三维目标并确定它的三维姿态，并且还适合于实时应用。这些改进可通过这里公开的方法实现。在脱机阶段，本发明自动训练三维模型，其可以被用于在联机阶段识别目标并确定它的三维姿态。在联机阶段，二维模型与动态图像匹配，为一个或多个被搜索目标的实例提供近似三维姿态。随后使用最小二乘法匹配来优化此近似姿态。

Description

用于三维目标识别的***和方法

技术领域

本发明通常涉及机器视觉***，更特别地，涉及图像中三维目标的视觉识别以及对它们的三维姿态的确定。

背景技术

目标识别是许多计算机视觉应用的一部分。在某些情况下，假设目标是平面的并且图像中目标的变换在一定程度上受限，例如，相似变换或是投影变换。可从文献中获得众多各种类型的匹配方法，其已经可以解决此任务。Brown(1992)给出了匹配方法的调查。在多数情况下，从目标图像可生成目标模型。在EP1,193,642中由Ulrich等人(2003)提出了这种方法的两个实例，其可满足工业应用的要求，例如对于干扰、目标遮蔽、杂波、和对比度变化的快速计算、高精度、鲁棒性。

然而，因为目标在固定摄像机前面在三维空间中移动，摄像机绕固定目标移动，或是目标和摄像机同时移动，所以在许多应用中被识别的目标不是平面的而是具有三维外形并从未知视点成像。因为摄像机和目标之间的相对移动造成不同的透视象(perspective)，这些透视象不能通过二维变换表达，这极大地增大了目标识别任务的复杂程度。此外，不仅需要确定二维变换而且还要确定相对于摄像机目标的全部三维姿态。由三维刚体变换(三个平移和三个转动参数)的六个参数确定三维姿态，其描述了目标相对摄像机的相对运动。已经发展了不同的技术用于视觉识别一个图像中的三维目标。它们可分为基于特征的技术和基于视图的技术。除了这些方法，有些方法使用比仅一个图像更多的信息来识别三维目标，例如，两个图像(例如Sumi和Tomita，1998)或一个图像结合一范围图像(例如US 2005/0286767)。这里没有对后面的方法进行讨论，因为它们与本发明差别太大。

基于特征的技术是基于对三维目标的不同特征和它们在二维搜索图像中的投影之间的对应的确定。如果特征的三维坐标已知，则目标的三维姿态可直接从足够多套(例如四个点)它们的二维-三维对应中计算出。

在基于特征的技术的一个形式中，在二维搜索图像中搜索不同的人工选择的三维目标特征(例如US 6,580,821，US 6,816,755，CA 2555159)。特征可以是人工标记或是自然特征，例如三维目标的角点或是临近区域具有特征纹理的点。通常，在目标的一个图像中的特征位置处定义样板。在搜索图像中，根据样板匹配搜索特征。关于这些方法存在几个缺点：通常，由于视点改变难以在图像中确定地找到特征，其导致特征被遮蔽以及特征的透视失真。样板匹配方法不能应付这种失真。因此，这些方法仅适用于非常有限的视点变化范围。此外，基于标识的方法对于变化的目标缺乏适应性。经常难以增加标识且难以测量它们的三维坐标。此外，许多目标都不适合在它们的表面上添加标识。

基于特征的识别技术的另一种形式通过使用在透视变换下不改变的特征消除这种限制(例如US 2002/0181780，Beveridge和Riseman，1995，David等人，2003，Gavrila和Groen，1991)。例如，在Horaud(1987)中，在二维搜索图像中分割线性结构并将其相互交叉以接收交叉点。假设图像中的交叉点与三维模型相邻边的角点对应。为了获得模型三维角点和取出的二维交叉点之间的正确对应，可从文献(Hartley和Zisserman，2000，US 2002/0181780) 中得到几种方法。这些基于特征的方法的优点在于视点范围不受限制。

此外，存在有通用的基于特征的方法，其能够探测一种三维目标而无需特别的目标三维模型。在US 5,666,441中给出了一个实例，其中对三维矩形目标进行探测。首先，在图像中分割线性结构。至少三个这些线性结构形成交叉并编成一组以探测三维矩形目标。因为没有使用关于目标尺寸的信息，因此目标姿态不能利用这种方法确定。自然地，这些种类的基于特征的方法无法适应于变化的目标。它们仅能够探测那些发展它们所针对的目标(上面引用实例中的三维矩形目标)。

通常，基于特征的识别技术都遭受这样的事实：特征的提取操作对于杂波和遮蔽不具有鲁棒性。此外，将提取的二维特征正确地设置成三维特征是非线性规划(NP)完全组合问题，其使得这些技术不适于工业应用，其中快速识别是必须的。

基于视图的识别技术是基于二维搜索图像与从不同视点观察的目标的二维投影的比较。需要的目标三维姿态用于产生与二维搜索图像最相似的二维投影。

在基于视图识别的一种形式中，可以从不同视点观测的目标的多重训练图像(training image)获得三维目标的模型(例如US6,526,156)。随之将二维搜索图像与每个训练图像进行比较。将与二维搜索图像最相像的训练图像的姿态返回作为需要的目标姿态。不幸的是，获得训练图像并将其与二维搜索图像进行对比的成本很高，因为需要很多训练图像以覆盖相当大范围的允许视点。而且，这种基于视图识别的形式通常对于照明变化是不会改变的，特别是对于仅显示出很少纹理的目标。这些问题使得这种方法不适于工业应用。

在基于视图识别的另一形式中，二维投影通过从不同视点映射三维目标的三维模型产生(例如，US 6,956,569，US 2001/0020946，CA 2535828)。此外，存在这样一个问题：需要很多二维投影以覆盖相当大范围的允许视点。为了应对这一问题，姿态群聚技术已被引入(例如，Munkelt，1996)。但是尽管这样，必须同二维搜索图像进行比较的二维投影的数量依然非常大，因此这些基于视图的识别技术不适于工业应用。经常通过产生这样的视图来减少图像的数量，即总是将摄像机引导向三维目标的中心，但是此时，由于产生的投影失真使得不在图像中心出现的目标无法被找到。这些基于视图的识别技术的另一个未解决的问题是使二维投影适于同二维搜索图像进行比较，以便产生二维投影。使用真实映射的二维投影的方法(US 6,956,569)对于照明的变化是不变的，因为目标边缘的外观会随着照明的方向发生变化。通过使用纹理(US 2001/0020946)可以减小这个问题，但无法将其消除。其他方法通过提取在不同取样视点图像中的特征点来产生模型并使用点描述符训练分类器(例如Lepetit，2004)。还是在搜索图像中，提取特征点并使用点描述符的输出对其分类。最后返回最相似的三维姿态。不幸的是，这种方式强烈地依赖目标表面上的不同纹理，因此不适于大多数工业应用。使用仅一个三维模型线框投影的方法面临这样的问题：许多投影边缘在搜索图像中不可见，特别是在轻微弯曲的表面上，其在目标的三维模型中通常通过平面三角形来近似。经常地，用于比较二维投影和二维搜索图像的技术不具有抗遮蔽和杂波的能力。最终，由纯粹基于视图的方法确定的目标姿态的精度受到距离的限制，其中通过该距离能够对视点的允许范围进行取样。

发明内容

本发明提供一种用于识别单个摄像机图像中的三维目标和相对摄像机坐标系确定目标三维姿态的***和方法。本发明提供的方法基本上消除了刚刚描述的基于视图的目标识别方法的很多现有技术问题。

在第一方面中，本发明提供了一种构建用于三维目标识别的三维模型的方法，该方法包括以下步骤：(a)提供摄像机的内部参数；(b)提供三维目标的几何表达；(c)提供姿态范围，三维目标可相对于摄像机在该范围出现；(d)通过针对不同的图像分辨率(例如针对图像锥体的水平 )选取姿态范围来产生三维目标的虚拟视图；(e)利用树结构表达所有视图，这里在相同锥体水平上的视图处于树中的相同等级水平；(f)对每个视图产生二维模型，其能够用来通过使用合适的二维匹配方法在图像中找到二维视图。

根据第二方面，本发明提供了一种用于识别三维目标和从目标的一个图像确定其三维姿态的方法，其包括以下步骤：(a)提供三维目标的三维模型；(b)提供三维目标的电子搜索图像；(c)产生搜索图像的表达，包括搜索图像的不同分辨率，例如图像锥体；(d)将分级树结构中不具有父视图(father view)的二维模型与图像锥体的各个水平的图像相匹配；(e)验证并改进顶端锥体水平的二维匹配，这可通过向下追踪它们到最低锥体来实现；(f)从二维匹配姿态和各个三维视图姿态确定初始三维目标姿态；以及(g)改进初始三维目标姿态。

根据第三方面，本发明提供了一种利用纹理信息增强三维模型的方法：(a)提供三维目标的一些实例图像；(b)确定每个实例图像中三维目标的三维姿态；(c)对于每个实例图像，利用在步骤(b)中确定的三维姿态将三维模型的每个面投影到实例图像中；(d)对于每个目标面，利用面的三维姿态对实例图像中被投影面覆盖的部分进行校正；(e)利用校正过的纹理目标面的导出纹理信息增强二维模型，使得二维模型既包括几何信息还包括纹理信息。

在第一步中，校准摄像机以达到最终三维目标姿态的高精度。此外，校准允许使用摄像机透镜进行目标识别，即使目标严重失真。

随后，基于目标的三维表达来训练三维模型，例如三维CAD模型。对此，三维目标的视图在用户专用姿态范围中生成。在本发明的优选实施例中假设目标在确定球坐标系的球体中央。因此，包括在三维模型中的摄像机位置的范围可通过为球坐标的经度、纬度和距离确定区间来表达。可选择地，通过将合适的值传到模型训练，摄像机的滚转角度能够被限制在小于360°的范围内。在训练过程中(脱机阶段)，假设摄像机总是被引导向目标的中心。

对姿态范围中视图的取样可在训练过程中自动确定。自动计算取样的优点在于用户无需确定用于取样的参数值，并且能够选取取样使得目标识别的鲁棒性和速度最大化。为进一步增加识别速度，在多个锥体水平上产生模型。因为较高的锥体水平造成视图取样较粗糙，所以对于每个锥体水平分别进行视图计算。从额外取样开始，通过使用适合的相似性测量将临近视图连续合并，直到发现取样对于原始图像分辨率为最优。为了在下一个更高锥体水平处获得取样，根据较低图像分辨率放宽相似性测量的临界值，并且将视图进一步合并直到甚至超过了这些临界值。重复这个过程直到达到最大数的锥体水平。在不同锥体水平上的视图间的关系被储存在三维模型中。有了这个信息，能够对较高锥体水平上的给定视图查询下一个较低锥体水平上的视图，其中该较低水平上的视图已被合并以产生较高水平上的视图。此信息被储存在树结构中。树中的每个节点代表一个视图。相同锥体水平上的视图位于树中相同的等级水平上。由于树结构，每个父节点均连接到一个或多个子节点上，而每个子节点均连接到至多一个父节点上。此外，每个视图的三维姿态都被储存在三维模型中。

对于每个锥体水平和每个此水平上的视图均产生二维模型。对此，目标的三维表达使用由当前视图表达的摄像机姿态被投影到图像平面中。因此获得了三通道图像，这里三通道代表三维目标面的法向矢量的三个元素。使用这种三通道图像投影的优点在于此图像中边缘幅度与三维目标的两个相邻面之间的角度直接相关。在本发明的优选实施例中，二维模型表达包括边缘位置和每个边缘的方向。经常地，模型的三维描述包括多个在目标的真实图像中不可见的边缘。例如，这些边缘来自CAD软件的三角法(triangulationmethod)，其用于通过足够多的平面来近似曲面。因此，这些边缘不一定包括在二维模型中。可通过为三维目标中两个相邻面的法向矢量之间的角度差指定最小值来抑制它们。由于所选投影的模式，这个最小角度可以很容易地转化为三通道图像中的边缘幅度的临界值。最终，二维模型从联合的图像锥体水平上的三通道图像生成。在本发明的优选实施例中，在EP 1,193,642中提出的相似性测量可用于二维匹配。它对于遮蔽、杂波和非线性对比度变化都具有鲁棒性。二维模型由多个边缘点组成，这些边缘点具有对应的梯度定向向量，其可通过标准的图像预处理算法获得，例如边缘检测法。相似性测量基于边缘梯度方向的标量积。可替换地，可在本发明中使用任何其他基于边缘的二维匹配方法进行替换，例如，基于平均边缘距离的方法(Borgefors，1988)，基于豪斯多夫距离的方法(Rucklidge，1997)，或是基于普遍的霍夫变换的方法(Ballard，1981或Ulrich等人，2003)。在最后一步中，验证是否产生的二维模型仍然显示出足够的不同特征，这些特征是在图像中将模型从杂波中区分出来所必需的。如果情况不是这样，就放弃这个视图和锥体水平的二维模型。

在联机阶段产生的三维模型被用来识别单个摄像机图像中的三维目标，并用来确定相对于摄像机坐标系的目标三维姿态。首先，由输入图像建立图像锥体。识别开始于最高的锥体水平处，在这里可以获得至少一个有效的二维模型。例如，通过计算视图的二维模型和当前图像锥体水平之间相似性测量(EP1,193,642中提出的)，在这个锥体水平上的全部二维模型都会被搜索。可替换地，可在本发明中使用任何其他基于边缘的二维匹配方法进行替换，例如，基于平均边缘距离的方法(Borgefors，1988)，基于豪斯多夫距离的方法(Rucklidge，1997)，或是基于普遍的霍夫变换的方法(Ballard，1981或Ulrich等人，2003)。对于搜索，在必要范围内转动并缩放二维模型，并且在图像中的被缩放和转动的每个位置处计算相似性测量。超出一定相似性测量的匹配的二维姿态(位置、转动、缩放)被储存在候选匹配清单中。在下一个较低锥体水平上，以与最高锥体水平的视图相同的方法对在树中不具有父节点的所有二维模型进行搜索。此外，对在之前锥体水平上找到的候选匹配进行修正。修正通过选择树中的所有子节点并计算子视图的二维模型和当前图像锥体水平之间的相似性测量来进行。然而，它仅够用于在非常有限的坐标范围中根据父视图的匹配计算相似性测量。这意味着所调查的位置、转动和缩放的范围会被限制在父匹配的临近区域。重复此过程直到所有候选匹配被向下追踪到达最低锥体水平。锥体方法与设置在树结构中的分级模型视图的相结合对于实时应用是必须的，并且没有应用在以前的识别方法中。

不幸的是，如果没有将摄像机引导向目标的中心处，如上所述的追踪就会失败，因此目标就不会在图像中心出现。因为在训练过程中产生的二维模型是通过假设摄像机被引导向目标中心而产生的，所以二维模型和图像中的投影模型可通过二维投影变换联系起来。如果图像中目标的位置已知，就能够对此变换的参数进行计算。因此，在候选匹配被追踪到下一个较低锥体水平之前，它的子视图的二维模型根据候选匹配的位置在投影上是正确的。这是在之前基于视图的识别方法中没有应用过的绝对必要的步骤。

作为此匹配的结果，获得了图像中二维匹配的二维姿态，其超过了一定的相似性测量。对于每个匹配，相应的三维目标姿态可以基于二维匹配姿态和与匹配联合的模型视图的三维姿态进行计算。获得的三维姿态的精度受限于视图的取样和二维匹配过程中的二维姿态取样，例如，位置、转动、缩放。对于实际应用，这是不够的。因此，对于实际应用姿态修正步骤是必须的。三维姿态修正通过使用最小二乘法平差进行。为此，三维目标通过使用由匹配获得的三维姿态被投影到搜索图像中。使用合适的取样距离，投影模型边缘被取样至离散点。对于每个被取样的边缘点，在被取样的边缘点的临近区域搜索相应的子像素精确图像边缘点。修正的三维姿态可通过将所有图像边缘点和投影模型边缘之间的平方距离最小化来获得。

所述方法可能有几个延伸。例如，如果摄像机透镜存在严重失真，应该在实施匹配之前将它们消除。这可通过校正搜索图像容易地完成，因此获得没有失真的图像。匹配随后可在校正的图像中进行。

如果摄像机设置显示出很强的透视失真，可采用第二个扩展。聚焦长度越小且目标深度越大则图像中的透视失真越强。在这种情况下，在追踪过程中(见上面)采用的投影校正可能就不够了。相反，必须在最高锥体水平处就已经考虑到投影失真。因此，顶锥体水平通过采用球面映射进行转换。球面映射显著地减少了透视失真的影响，并因此可以获得对于目标的高相似性测量，即使目标不出现在图像中心。据此，对用在顶锥体水平上的二维模型必须采用相同的球面映射。

如果目标显示出特征纹理，本发明可容易地从此额外的信息中显现出更多益处。在本发明的优选实施例中，用户在生成三维模型后提供一些目标的实例图像。在第一步中，使用三维模型确定实例图像中目标的三维姿态，并从实例图像中自动提取目标纹理。在第二步中，通过向二维模型添加纹理信息来增强三维模型。

为了减少三维模型中必要视图的数量，因此减少三维目标识别的动态(run-time)和存储消耗，EP 1,193,642中提出的相似性测量更能容忍视图姿态中的小变化。这可以通过将梯度方向扩展到边缘的两侧来实现，其中梯度方向用于计算搜索图像中的相似性测量。

附图说明

参照附图，从随后的详细描述将更全面地理解本发明，其中，

图1是脱机阶段(即三维模型生成)的流程图；

图2是联机阶段(即图像中三维目标的识别和目标三维姿态确定)的流程图；

图3是在摄像机几何校准过程中使用的摄像机模型的示图；

图4A示出了主要由平面和圆柱形组成的三维目标的实例；

图4B示出了将图4A的隐藏线去除后观看到的三维目标；

图5A示出了外部三维目标表达的原始坐标系，例如在DXF文件中定义的坐标系；

图5B示出了内部使用的参考坐标系，其通过将原始坐标系平移到原点并将其旋转到参考方向来获得；

图6A是参考姿态的显示；

图6B是用来描述姿态范围的球面坐标系的显示；

图7是姿态范围实例的显示；

图8A是锥体水平1上视图的显示；

图8B是锥体水平2上视图的显示；

图8C是锥体水平3上视图的显示；

图8D是锥体水平4上视图的显示；

图9是具有四个锥体水平的视图树的简化示图；

图10是两个相邻目标面法向矢量的不同角度和三通道图像中相应边缘幅度之间的关系的示图；

图11A示出了三维目标一个取样视图的三个通道；

图11B示出了对图11A中所示的三通道图像的边缘幅度采用错误临界值时得到的边缘；

图11C示出了对图11A中所示的三通道图像的边缘幅度采用正确临界值时得到的边缘；

图12示出了对于四个锥体水平中的每一个，两个二维模型实例的边缘；

图13A示出了将摄像机引导向目标中心时的目标视图；

图13B示出了使图13A中的摄像机绕它的光学中心向下转动到右边时所得到的目标视图；

图13C示出了使图13A中的摄像机绕它的光学中心向下转动到左边时所得到的目标视图；

图14A是通过将白色子像素精确弯曲轮廓线映射到黑色图像中得到的人工图像变焦距部分的显示；

图14B是采用边缘滤波器后得到的梯度向量的显示；

图14C是3×3滤波掩模的显示，该滤波掩模应用于梯度向量并选择具有最大幅度的梯度向量，并因此能够用来将梯度信息扩展到相邻像素；

图14D是在图14C中显示的位置处应用滤波掩模时所得结果的显示；

图14E是在将滤波掩模应用于全图像时所得结果的显示；

图15A是基础机器人视觉***实例的示图，该***使用移动摄像机结合本发明中提出的方法；以及

图15B是基础机器人视觉***实例的示图，该***使用固定摄像机结合本发明中提出的方法。

具体实施方式

下面，将详细描述本发明的各个步骤。首先，摄像机几何校准是获得高精度的初始步骤。随后，给出应该如何表达三维目标的一些信息。在下一个部分，将对三维模型的生成进行解释，该三维模型可用来在搜索图像中寻找三维目标。在随后的描述中，三维模型的生成将被表示为脱机阶段(offline-phase)。随后，描述可用来在图像中识别目标的方法。此步骤在随后的描述中将被表示为联机阶段(online phase)。所描述的脱机阶段的步骤归纳在图1的流程图中，所描述的联机阶段的步骤归纳在图2的流程图中。在两个流程图中，必要步骤通过实线框指出，而可选步骤通过虚线框指出。最后，引入使用所提出方法的机器人视觉***。提出随后的描述以使任何本领域的技术人员能够制成并使用本发明。具体应用的描述仅作为实例。对优选实施例的各种修改对于本领域的技术人员都将是显而易见的，并且可以在不背离本发明的精神和范围的情况下将这里定义的通用原理应用到其他实施例和实际应用中。因此，并不是要用所示的实施例来限制本发明，而是要使最广泛的范围与这里公开的原理和特征保持一致。

摄像机几何校准

摄像机几何校准(在101处)是从计算机视觉、机器人学、摄影测量学和其他领域中的影像中提取精确三维信息的前提条件。可以提出使用三维摄像机校准的两个主要优点。第一，如果摄像机的内部参数已知，公制的三维信息仅能够从图像中获得。第二，透镜失真会给图像测量带来严重错误，因此必须在校准过程中确切地模拟并确定。因此，没有摄像机校准，对于许多应用所必需的目标识别方法的精度就无法达到。在本发明的优选实施例中使用由(Lenz，1987)引入的摄像机模型，其中采用了具有径向失真的***(图3)。摄像机的校准按照(Lanser等人，1995)描述的方法进行。这里，使用在已知位置处具有圆形标识的平面校准目标的多重图像进行校准(图3)。可替换地，在不超出本发明范围的情况下可方便地将其他模型或校准方法结合到本发明中。这可能是必需的，例如，如果使用的透镜显示出更复杂的失真，而仅使用径向组分不足以对此失真进行模拟。作为校准的结果，可获得内部摄像机参数(f，k，s_x，s_y，c_x，c_y)，其中f是焦距，k表示径向失真，s_x和s_y分别是x和y方向上传感器的传感元件的距离，并且(c_x，c_y)^T是图像中主点的位置。通过如下的三个步骤(见图3)可以将三维点Pc＝(x，y，z)(其在摄像机坐标系中给出)映射成像素坐标p＝(r，c)^T(其在图像坐标系中)：

1.将摄像机坐标系中给出的三维点投影到图像平面中：

u = f \frac{x}{z},

v = f \frac{y}{z}

2.引入径向失真：

\tilde{u} = \frac{2 u}{1 + \sqrt{1 - 4 k (u^{2} + v^{2})}},

\tilde{v} = \frac{2 v}{1 + \sqrt{1 - 4 k (u^{2} + v^{2})}}

这里径向失真由参数k表示。如果k是负数，则失真是桶形的，而如果k是正数，失真是枕形的。这个透镜失真模型具有可轻易地进行转换的优点，以分析计算失真的修正：

u = \frac{\tilde{u}}{1 + k ({\tilde{u}}^{2} + {\tilde{v}}^{2})},

v = \frac{\tilde{v}}{1 + k ({\tilde{u}}^{2} + {\tilde{v}}^{2})}

3.将二维图像点

转换成像素坐标p＝(r，c)^T：

r = \frac{\tilde{v}}{s_{y}} + c_{y},

c = \frac{\tilde{u}}{s_{x}} + c_{x}

三维目标表达

本发明可处理任何刚体三维目标。通常，三维目标通过CAD模型或是类似三维描述来表达，其可利用几种可获得的CAD软件工具中的一种生成(在102处)。因为多数CAD软件工具能够输出DXF文件格式的三维描述，所以本发明的优选实施例支持三维目标DXF文件的输入。可替换地，任何其他能够描述三维固体几何形状的表达也是适用的。假设目标由平面集合表达。如果模型包括曲面，如圆柱形、球面、或是任意弯曲的表面，这些表面必须由足够大的平面集合来近似，其中平面通过直线边缘相邻接。在大多数情况下，平面近似是CAD软件的一部分。另外，可使用几个可得到已知标准方法中的一种(例如在(Rypl，2003)中提出的一种方法)利用平面来近似曲面。在(Bern和Eppstein，1992)中给出了三角法的全面调查。

三维模型生成

在三维模型生成的第一步中(在104处)，三维目标转化成内部表达，其将目标描述成平面集合，其中平面通过临近的多边形邻接。图4A示出了实例目标，其主要由平面和圆柱形组成。后者通过几个平面矩形近似。此外，四个较小的圆形通过多边形面来近似。为了可视化的目的，图4B示出了将隐藏线去除了的同一目标。

随后，定义在内部使用的目标坐标系(在107处)。在本发明的优选实施例中将坐标系的中心移动到三维目标的中心，即，目标三维边界框的中心。在替换实施例中，从外部表达(例如从DXF文件)采用目标坐标系。在另一个替换实施例中，用户指定坐标系的中心。可选择地，用户可改变坐标系的方向以指定目标的参考方向。参考方向在搜索过程中指定目标的平均方向。可以改变，以方便户用更便利的方法来指定姿态边界，其中可生成或搜索三维模型。图5A示出了外部表达的原始坐标系，而图5B示出了将原始坐标系平移到原点并转动到参考方向后的坐标系。因此，原始坐标系中给出的三维点P_ext可转化成在内部使用的坐标系中给出的P_int，这可通过应用刚体三维变换进行，其可写成P_int＝RP_ext+T，其中R是3×3 旋转矩阵，T是平移向量。自此，全部计算都参照内部参考坐标系。通过三维目标识别获得的三维姿态在返回到用户之前又转回到原始坐标系。

随后，基于目标的三维表达来训练三维模型，例如三维CAD模型。对此，目标的不同视图在用户指定姿态边界中生成。视图通过围绕三维目标放置虚拟摄像机并将目标投影到每个虚拟摄像机的图像平面中自动生成。在本发明的优选实施例中，假设目标在确定了球坐标系的球面的中心处。虚拟摄像机(其用来产生视图)以这样的方式围绕目标设置，即它们都在坐标系的原点进行观察，也就是说摄像机的Z轴通过原点。随后可通过将视图限定到围绕原点的特定球面四边形中来确定姿态范围。这自然导致使用球坐标λ(经度)、φ(纬度)、和d(距离)。因为训练过程中摄像机总是被引导向球坐标系的中心，所以摄像机的滚转角ω(绕摄像机的Z轴转动)是仅有的必须确定的自由度保持角。因此，摄像机姿态由四个参数λ、φ、d和ω确定。选择球坐标系的定义，以使赤道平面与直角参考坐标系的XZ平面对应，其中Y轴指向南极(负纬度)且负Z轴指向零子午线方向。因此，摄像机具有与内部参考坐标系的方向相同的坐标系，且仅在负Z方向上相对于目标参考坐标系平移t，并具有球坐标λ＝0，φ＝0，d＝t且滚转角ω＝0(见图6A)。在图6B中示出具有任意姿态的摄像机和联合的球面坐标。

姿态范围由用户确定，其通过确定球参数和摄像机滚转角的区间来实现(在103处)。图7示出了一实例，其中经度范围由区间[λ _min，λ_max]确定，纬度范围由区间[φ_min，φ_max]确定，距离范围由区间[d_min，d_max]确定，并且摄像机滚转角由区间[ω_min，ω_max]确定。这些值强烈地依赖于实际应用，也就是说，允许摄像机相对于目标相对移动。此外，它们对识别时间有很大影响。选择的区间越大，联机阶段的识别就会越慢。在大多数工业应用中，摄像机和目标间的相对姿态不会变化太大。λ和φ的典型区间值是[-45°，+45°]，而ω典型地设置为[-180°，+180°]。

有其他几种可能的方法以确定姿态范围，其描述相机和目标的相对移动。在不超出本发明范围的情况下可将它们方便地结合到本发明中。例如，一种替换方法是通过明确摄像机位置的直角坐标极限来确定姿态范围，也就是说，通过在三维空间中确定一长方体。在另一替换实施例中，通过将摄像机保持在固定姿态并替代地确定目标移动的极限来描述姿态范围。

在姿态范围中对视图的取样(sampling)可在训练过程中自动确定。自动计算取样的优点在于用户不需要明确取样参数值并且可选择取样以使目标识别的鲁棒性和速度最大化。为了进一步增大识别速度，在多个锥体水平(pyramid level)上产生模型。图像锥体是加速图像处理任务的常用方法(例如Tanimoto，1981)。通过对原始图像连续进行平滑操作和子取样操作可计算图像锥体，导致图像逐渐减小。在使用图像锥体的二维模版匹配***(2D templatematching system)中，搜索通常在粗糙(高)锥体水平处开始，并在下一个较精细(较低)水平的局部区域中继续，在该较低水平处粗糙水平中的相似性测量(similarity measure)是有可能的。因为较高锥体水平允许视图的较粗糙取样，所以分别对每个锥体水平进行视图的计算。

在视图取样过程中仅对摄像机位置进行取样。不需要对摄像机滚转角进行取样，因为变化的摄像机滚转角不会改变视图，因此透视图而不仅仅表达图像平面中的二维转动。通过进行视图额外取样(over-sampling)，在最低锥体水平处开始视图取样(在108处)。在本发明的一个实施例中，额外取样通过在用户指定的姿态范围中计算摄像机位置来完成，其中用户指定的姿态范围平均分布在三维空间中。基于目标尺寸，摄像机参数、和相似性测量的容差 (tolerance)，取样宽度能够通过实施简单的评估来确定，其中相似性测量用于在联机阶段匹配视图。必须完成这种评估的唯一情况是生成了比最少要求更多的初始图像。在本发明的优选实施例中采用EP1,193,642中提出的相似性测量。它对遮蔽、杂波和非线性对比度变化都具有鲁棒性。二维模型由多个具有相应梯度定向向量的边缘点组成，其可通过标准图像处理算法获得，例如边缘检测方法(edge detection)。相似性测量是基于边缘梯度方向的点乘积的。可替换地，可在本发明中使用任何其他基于边缘的二维匹配方法进行替代，例如，基于平均边缘距离的方法(Borgefors，1988)，基于豪斯多夫距离的方法(Rucklidge，1997)，或是基于普遍的霍夫变换的方法(Ballard，1981或Ulrich等人，2003)。在本发明的优选实施例中初始视图在空间中不是平均取样的，因为在比最大距离更短的摄相机目标距离中需要更多视图。通过这种改进，视图的初始数目可以减少并且可加快随后对多余视图的消减。为了获得初始视图，使用在(Munkelt，1996)中描述的方法将高斯球分解成不同半径的三角形。随着半径的增加，半径的步长(step width)也增加。

通过计算全部相邻视图之间的相似性测量，选择具有最高相似性的视图对，将两个视图合并成一个视图并重新计算新视图和它的相邻视图之间的相似性来进行视图消减(在109处)。重复这个过程直到最高相似性低于当前锥体水平的特定临界值。在一个实施例中，通过将目标投影到每个视图的图像平面中，并使用在联机阶段采用的相似性测量来计算两个投影之间的相似性，来计算两个视图之间的相似性。在替换实施例中，通过仅将三维边界框而非完整三维目标进行投影，来近似目标投影。随后仅在近似投影上进行相似性测量。这减少了三维模型生成的动态。在另一替换实施例中，也额外地对相似性测量进行近似。这具有这样的优点：不必生成投影边界框的图像，其在使用原始相似性测量时是必需的。可替换地，其他帮助加快投影的近似或是类似的计算也是可行的。在优选实施例中，这些近似以分级方式结合：首先，用最快速的近似来合并视图直到最高相似性低于特定临界值。随后使用第二快速的近似继续合并剩余视图，等等。一方面，这种方法减少了计算时间，另一方面，它确保可以获得相似结果，此结果在进行不具有近似的合并时可获得。当采用分级方法时，必须保证这些近似分别低估下一个较慢近似或是原始相似性测量。

如果没有剩余相似性超过临界值的目标视图对，就将剩余的视图复制到三维模型中。如上提及的模型在多个锥体水平上产生。迄今为止计算的视图储存在最低(原始)锥体水平中。在图8A中，对于所有在最低锥体水平上的视图，相应的摄像机是可视化的，其在图7中所示的姿态范围中应用所述方法时获得。这里，摄像机通过小正方锥体显示，正方锥体的底代表图像平面并且它的定点代表光学中心。为了在下一个较高锥体水平上计算视图，要在放宽相似性限制的情况下继续进行合并。在随后的两种方法中必须引入放宽操作(relaxing)。在第一种情况中，如果对原始相似性测量进行了计算，也就是说，相似性是基于来自投影目标的图像，随后对图像进行平滑处理并进行子取样以得到下一个较高锥体水平。随后在子取样图像上计算相似性测量。这会自动放宽相似性限制，因为通过降低图像分辨率消除了较小的差异性。在第二种情况中，如果相似性测量通过分析计算进行了近似，必须通过在根据锥体水平进行的相似性分析计算过程中确切地增加位置容差将子取样纳入考虑。如果没有剩余相似性超过临界值的目标视图对，就将剩余的视图复制到三维模型的相应水平中。在图8B、图8C和图8D中，视图是可视化的，其分别可在第二、第三和第四锥体水平处获得。在这个实例中，在第四个锥体水平上仅使用四个不同的视图就足够了。

此外，在每个视图中，储存对于全部子视图(child view)的参考。子视图是那些为了在当前锥体水平上获得视图已经被合并的下一个较低锥体水平上的视图与不能被合并的视图之和。因此，在每个子视图中，储存对于其父视图(parent view)的参考。有了对于子视图的参考，对于在较高锥体水平上给出的视图，能够对那些为了在较高水平上产生视图已经被合并的下一个较低锥体水平上视图进行查询。此信息储存在树结构(tree structure)中(在110处)。图9示出了树结构的简化一维版本。树中的每个节点代表一个视图。相同锥体水平上的视图位于树中相同的等级水平上。由于树结构，每个父节点(parent node)连接到一个或多个子节点(child node)上，而每个子节点都连接到一个父节点上。此外，每个视图的三维姿态均储存在三维模型中。为了最大数量的锥体水平重复该过程。在最高锥体水平上的视图没有父视图，而最低锥体水平上的视图没有子视图。

在树完全生成后，对于每个锥体水平和该水平上的视图，可使用EP1,193,642中提出的方法产生二维模型(在111处)。此二维模型由多个具有相应梯度定向向量的边缘点组成，其可通过标准图像处理算法获得，例如，边缘检测法。可替换地，可以在本发明中使用任何其他基于边缘的二维匹配方法进行替换。对此，使用由当前视图表达的摄像机姿态将目标的三维表达投影到图像平面中(在112处)。使用适合的隐藏线算法将隐藏线消除，例如(Paterson和Yao，1990)。完成投影以便获得三通道图像(three-channel image)，其中三个通道代表三维目标面法向矢量的三个元素(在113处)。具有的优点在于可在这个彩色图像中测量的边缘幅度与三维空间中三维目标两个相邻表面的法向矢量之间的角度直接相关。假设两个相邻表面的法向矢量是N₁＝(X₁，Y₁，Z₁)^T，N₂＝(X₂，Y₂，Z₂)^T。当产生三通道图像时，使用颜色(R₁，G₁，B₁)＝(X₁，Y₁，Z₁)将第一表面映射到图像中，而使用颜色(R₂，G₂，B₂)＝(X₂，Y₂，Z₂)将第二表面映射到图像中。不失一般性地进一步假设这两个投影表面在图像中引起了垂直边缘。当在两个表面之间转换处计算图像中的边缘幅度时，一个表面在三个通道中的每一个的行和列方向上获得第一导数：

	红色通道	绿色通道	蓝色通道
				行方向上的导数	gr_R＝0	gr_G＝0	gr_B＝0
列方向上的导数	gc_R＝R₂-R₁	gc_G＝G₂-G₁	gc_B＝B₂-B₁

因为边缘在垂直方向上延伸，所以所有行方向上的导数都是0。彩色图像中的边缘幅度可以通过计算彩色张量C(Di Zenzo，1986)的本征值获得：

c = (\begin{matrix} grr & grc \\ grc & gcc \end{matrix}) = (\begin{matrix} {({gr}_{R})}^{2} + {({gr}_{G})}^{2} + {({gr}_{B})}^{2} & {gr}_{R} {gc}_{R} + {gr}_{G} {gc}_{G} + {gr}_{B} {gc}_{B} \\ {gr}_{R} {gc}_{R} + {gr}_{G} {gc}_{G} + {gr}_{B} {gc}_{B} & {({gc}_{R})}^{2} + {({gc}_{G})}^{2} + {({gc}_{B})}^{2} \end{matrix})

将上述导数进行同等代换可得：

c = (\begin{matrix} 0 & 0 \\ 0 & {(R_{2} - R_{1})}^{2} + {(G_{2} - G_{1})}^{2} + {(B_{2} - B_{1})}^{2} \end{matrix})

边缘幅度A是C的最大本征值的平方根，因此，

A = \sqrt{{(R_{2} - R_{1})}^{2} + {(G_{2} - G_{1})}^{2} + {(B_{2} - B_{1})}^{2}}

因此，图像中算出的边缘幅度与两个法向矢量的差向量的长度相对应。两个法向矢量(长度为1)横跨一二维等腰三角形(见图10)。最后，这两个法向矢量间的角度δ(其也位于三角形平面中)可以通过使用如下公式容易地从边缘幅度中获得：

δ＝2arcsin(A/2)

所得的投影模型的彩色图像可作为模型图像使用并且被传到EP1,193,642中提出的方法的模型生成步骤，该方法由彩色边缘提取(edge extraction)延伸而来。可替换地，可在本发明中使用任何其他基于边缘的二维匹配方法进行替换，例如，基于平均边缘距离的方法(Borgefors，1988)，基于豪斯多夫距离的方法(Rucklidge，1997)，或是基于普遍的霍夫变换的方法(Ballard，1981或Ulrich等人，2003)。首先，在模型图像中计算边缘幅度(Di Zenzo，1986)。模型中仅包括超过一定临界值的像素。经常地，模型的三维描述包括多个在目标的真实图像中不可见的边缘。例如，由CAD软件的三角法得来的这些边缘，此三角法通过足够数目的平面来近似曲面。因此，这些边缘一定不包括在二维模型中。例如，在图4B中，必须减少用来近似圆柱形孔的平面边缘。由于上述关系，用户可以利用针对最小表面角δ_min的合适临界值来减少这些边缘。随后此最小角可容易地转化成临界值A_min，可将其应用于边缘幅度(在114处)：

A_min＝2sin(δ_min/2)

因为投影目标的轮廓是非常重要的特征，所以在任何情况下都不应利用算法减少它。可以利用添加常数c容易地确保这点，常数c对每个图像通道(R，G，B)＝(X+c，Y+c，Z+c)都足够大，以使轮廓的边缘在任何情况下都达到临界值标准。例如这可通过设定c＝3实现。

图11A示出了一个取样视图的三个通道。在图11B中，当设定δ_min为5°时边缘是可视的，因此A_min＝0.087。因为近似圆柱形的平面逐步移动8°而定向，所以垂直边缘仍然可见。图11C中示出了当设定δ_min＝15°时获得的边缘(A_min＝0.261)。成功地将圆柱形的边缘减少了。大多数模型在δ_min＝15°时都工作良好。因此，δ_min＝15°就作为本发明实施中的默认值。三通道模型图像的新颖生成方式通过简单地超过对于边缘幅度的临界值来消除在真实图像中不可见的目标边缘，使得能够使用现有的基于二维边缘的匹配方法。这在之前的识别方法中未曾应用过。

最后，二维模型在联合的图像锥体水平上从三通道图像中生成(详情请见EP1,193,642和Di Zenzo，1986)。在最后的步骤中，验证是否产生的二维模型仍然显示足够的区别特征，需要用这些特征来从图像中的杂波区分出模型(在116处)。在本发明的优选实施例中使用(Ulrich，2003)中提出的方法，将在当前锥体水平上获得的边缘与原始水平上的边缘进行比较来进行测试。如果测试使得视图的二维模型建立失败，则就将此锥体水平去掉。图12示出了对于每个锥体水平某些实例二维模型的边缘，其用于在联机阶段进行匹配。为了可视化目的，较高锥体水平的二维模型被缩放到原始分辨率。

三维模型由多个在几个锥体水平上的二维模型组成。对于每个二维模型，均储存有相应的三维姿态。此外，在相邻锥体水平上的二维模型通过上述父子关系以树的形式连接。

目标识别

在联机阶段中产生的三维模型用于识别单个摄像机图像中的三维目标并确定相对于摄像机坐标系的目标三维姿态。首先，从输入图像建立图像锥体(在203处)。识别在最高锥体水平处开始，在此处至少可获得一个有效二维模型(在205处)。此锥体水平上的所有二维模型都可通过计算视图二维模型和当前图像锥体水平之间的相似性测量来进行搜索。对此，旋转二维模型并在需要范围内缩放(scale)，并计算图像中缩放且旋转后的二维模型的每个位置处的相似性测量。采用EP1,193,642中描述的相似性测量。因为二维模型从人工图像中生成，因此我们不知道投影边缘的极性，而是仅知道它们的方向。因此，从EP1,193,642中描述的相似性测量选出忽略了梯度局部极性(local polarity)的变量。可替换地，可在本发明中使用任何其他基于边缘的二维匹配方法进行替换，例如，基于平均边缘距离的方法(Borgefors，1988)，基于豪斯多夫距离的方法(Rucklidge，1997)，或是基于普遍的霍夫变换的方法(Ballard，1981或Ulrich等人，2003)。超出特定相似性临界值的匹配的二维姿态(位置，旋转，缩放)储存在候选匹配列表中。在下一个较低锥体水平上，所有在树中没有父节点的二维模型以与最高锥体水平上的视图相同的方式进行搜索。此外，对已经在之前锥体水平上找到的候选匹配进行修正。通过选择树中的所有子视图并计算子视图二维模型和当前图像锥体水平之间的相似性测量来进行修正。然而，根据父视图的匹配，仅在非常有限的参数范围内计算相似性测量就足够了。这意味着被观查的位置、旋转和缩放的范围可限制在父匹配的临近区域内，如EP1,193,642中所描述的。重复此过程直到所有候选匹配都向下追踪到最低锥体水平(在206处)。将锥体方法和设置在树结构中的分级模型视图结合，这对于实时应用十分重要并且在之前的识别方法中没有采用。

不幸的是，如果摄像机没有被引导向目标中心，上述的追踪就会失败，因此目标就不会在图像中心出现。因为在训练过程中产生的二维模型是通过假设摄像机被引导向目标中心而产生的，所以图像中的二维模型和投影模型通过二维投影变换联系起来。图13中示出了一实例：图13A示出了摄像机被引导向目标中心的视图。从此视图可在三维模型生成的过程中产生二维模型。在搜索过程中，目标可在任意图像位置中出现，如图13B或图13C中所示。这种图像平面中明显的移动事实上对应于摄像机绕它的光学中心的旋转。当围绕其光学中心转动摄像机时，通过投影变换将生成的图像关联起来，也被称为单应性(homography)(例如，见Hartley和Zisserman，2000)。因此，当在图13B或图13C的图像中搜索图13A的二维模型时不会发现模型，因为图像通过单应性相关联，同时在二维匹配过程中仅仅考虑了相似变换，即，平移、旋转和缩放。当在匹配过程中考虑单应性的全部8个自由度时，对于实时应用来说搜索会十分缓慢。因此，在本发明的优选实施例中，通过在匹配之前进行投影变换可转换二维模型。如果图像中目标的位置已知，则可计算出此变换的参数。因此，在候选匹配被追踪到下一个较低锥体水平之前，它的子视图的二维模型可根据候选匹配的位置进行投影修正(在207处)。这是极其基础的步骤，其在之前基于视图的识别方法中未曾使用过。用x表示二维模型点，其通过将三维模型投影到摄像机的图像平面中生成，其中摄像机指向模型中心，就像生成三维模型过程中的摄像机一样。此外，用K表示摄像机校准矩阵，其保持摄像机的内方位(interior orientation)：

K = (\begin{matrix} {af}^{'} & 0 & c_{x} \\ 0 & f^{'} & c_{y} \\ 0 & 0 & 1 \end{matrix})

这里，f’是像素中摄像机的焦距，a是像素的长宽比，(c_x，c_y)是像素中摄像机的主点(principal point)。此外，摄像机的方向通过旋转矩阵R来描述。随后，三维世界点(world point)X(非齐次的)到二维图像点x(齐次的)的投影可以通过变换x＝KRX进行描述。不失一般性地，可在模型生成过程中将旋转矩阵R设置成单位矩阵从而生成x＝KX。如果摄像机绕它的光学中心旋转R，则相同的世界点被映射成旋转后摄像机的图像中的新点x’＝KRX。从这些结果中可计算将x映射成x’的变换：

X’＝KRK^-1＝Hx

这里，KRK^-1是3×3齐次变换矩阵，因此表达单应性H。

因此，如果想要根据图像中投影模型的(齐次)位置p＝(c，r，1)^T 转换二维模型点，就必需知道K和R。校准矩阵K从上述摄像机校准过程获得。摄像机的旋转矩阵可用如下方式从图像中投影模型的位置计算出：首先，必须引入使摄像机不绕它的z轴旋转的约束，以对问题进行明确定义。随后，可从p中得到剩下的绕摄像机x和y轴的旋转。首先，p通过P＝(P_x，P_y，P_z)^T＝K^-1p在三维空间中被转换到方向P。随后，绕摄像机x和y轴旋转的角度α和β可分别通过如下函数式计算出：

α = \arctan \frac{P_{y}}{\sqrt{P_{z}^{2} + P_{x}^{2}}},

β = \arctan \frac{P_{x}}{P_{z}} .

因此，旋转矩阵R可由R＝R_y(β)R_x(α)得到，其中：

R_{y} (β) = (\begin{matrix} \cos β & 0 & - \sin β \\ 0 & 1 & 0 \\ \sin β & 0 & \cos β \end{matrix}),

R_{x} (α) = (\begin{matrix} 1 & 0 & 0 \\ 0 & \cos α & \sin α \\ 0 & - \sin α & \cos α \end{matrix}) .

现在，子视图的二维模型可在追踪过程中根据候选匹配的图像位置进行投影校正：通过使用单应性H转换模型点，而梯度方向(其在EP1,193,642中用于相似性测量)通过使用转置倒数H^-T进行转换。匹配根据投影校正模型进行(在208处)。

在锥体中追踪匹配的过程中所述方法可发挥良好作用，在锥体中可获得关于图像中目标位置的信息。相反，在顶部锥体水平处必须进行穷举搜索(exhaustive search)，因为没有之前的知识信息可利用。因此，在所有图像位置处进行匹配。然而，依据当前图像位置转换模型会太昂贵。幸运的是，由于伴随图像锥体发生的子取样，一般情况下在最高水平处投影失真非常小。因此，在大多数情况下可以简单地将它们忽略。然而，在某些情况下，甚至在最高锥体水平上也必须考虑失真，例如，当仅有一些锥体水平可被使用或是相对于它到摄像机的距离的目标深度较大时。在本发明的优选实施例中，那些情况可通过在最高锥体水平上进行匹配之前将平面二维模型(在117处)和图像(在202处)映射到球面表面来解决。其优点是当摄像机绕它的光学中心转动时投影不会改变。不幸的是，不具有未引入失真的从球面到平面中的映射。然而，通常情况下与投影失真相比这些失真较小。因此，球面映射可用来减少在顶部锥体水平上的失真量级，因此可增加匹配的鲁棒性。在一个实施例中，通过进行如下步骤完成球面映射：首先，通过P＝(P_x，P_y，P_z)^T＝K^-1p再次将像素p转换到三维空间中的方向P上。球面映射通过进行如下变换完成：

{P_{x}}^{'} = \arctan \frac{P_{x}}{P_{z}},

{P_{y}}^{'} = \arctan \frac{P_{y}}{P_{z}}

和P_z’＝P_z。

最后，映射的三维方向被转换回像素坐标：p’＝KP’。在本发明的替换实施例中，可采用同向性的球面映射进行替换。首先，图像平面中的点被转换成极坐标：

ζ = \arctan \frac{P_{y}}{P_{x}},

r = \sqrt{P_{x}^{2} + {P^{2}}_{y}}

随后，仅对半径进行球面映射：

r^{'} = \arctan \frac{r}{P_{z}}

并且最后，点被转换回直角坐标：

P_x’＝r’sinζ，P_y’＝r’cosζ，和P_z’＝P_z。

可替换地，在不背离本发明范围的情况下可用其他能减少投影失真的相似映射来替代所述的两种方法。

对搜索图像的图像锥体顶部水平和二维模型点进行球面映射。为了加速搜索图像的球面映射，在生成三维模型的过程中脱机计算映射(在105处)。对于映射图像的每个像素，原始图像的像素坐标和双线性插值的权值(weight)都储存在三维模型中。此信息被用在联机阶段中，以有效地映射图像锥体的顶部水平。使用分别相反的转换可将在(球面)顶部锥体水平上找到的每个匹配位置从球面投影转换回到原始图像。通过锥体的追踪在原始(非球面)图像中进行，如上所述。

作为匹配的结果，可获得图像中二维匹配的二维姿态(位置，旋转，缩放)，此二维匹配超出了特定相似性测量。对于每个匹配，相应的三维目标姿态可基于二维匹配姿态和与匹配联合的模型视图的三维姿态计算出(在209处)。将模型视图的三维姿态表达成齐次的4×4矩阵H_v，其将点从模型参考坐标系转换到摄像机坐标系中。此外，二维匹配姿态可通过p＝(r，c，1)^T(在行和列方向上的位置)，γ(旋转)，和s(缩放)给出。随后必须修正矩阵H_v以使它反映出二维匹配姿态。首先，进行二维缩放，其被理解为目标和摄像机之间距离的逆缩放：

H_{v, s} = [\begin{matrix} 1 / s & 0 & 0 & 0 \\ 0 & 1 / s & 0 & 0 \\ 0 & 0 & 1 / s & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] H_{v}

随后，进行二维旋转，其被理解为摄像机绕它的z轴的三维旋转：

H_{v, s, γ} = [\begin{matrix} \cos (- γ) & - \sin (- γ) & 0 & 0 \\ \sin (- γ) & \cos (- r) & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] H_{v, s}

最后，此位置被理解为摄像机绕它的x和y轴的三维旋转。两个旋转角度可通过将位置转换到三维空间中的方向P上计算出：

P＝(P_x，P_y，P_z)^T＝K^-1p。

随后，绕x和y轴的旋转角度α和β分别是：

α = \arctan (- P_{y} / \sqrt{P_{x}^{2} + P_{z}^{2}});

和β＝arctan(P_x/P_z)。

这导致最终的齐次转换矩阵H_{v，s，γ，p}，其描述相对于摄像机坐标系的目标三维姿态：

H_{v, s, γ, p} = [\begin{matrix} \cos β & 0 & \sin β & 0 \\ 0 & 1 & 0 & 0 \\ - \sin β & 0 & \cos β & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & \cos α & - \sin α & 0 \\ 0 & \sin α & \cos α & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] H_{v, s, γ}

所得三维姿态的精度受到二维匹配过程中视图取样和二维姿态取样的限制，即，位置、转动、缩放。对于实际应用，这是不够的。因此，姿态优化步骤是非常重要的，以允许实际应用(在210处)。三维姿态优化通过使用最小二乘法平差(least-squareadjustment)进行。对此，通过使用从匹配中可获得的三维姿态H_{v，s，γ，p} 将三维目标投影到搜索图像中(在211处)。在投影过程中，使用隐藏线算法来减少在当前姿态下不可见的线。此外，表示目标边缘的线被减少，在此目标边缘处两个相邻目标表面间的夹角低于给定临界值。这个临界值具有与最小表面角相同的语义(semantics)，其中对于脱机状态下三通道图像中的边缘提取的临界值源自此最小表面角，因此将此临界值设置为相同的值。使用合适的取样距离(例如1像素)将可见投影模型边缘取样至离散点。对于每个取样边缘点均发起局部搜索以找到取样边缘点的临近区域中相应子像素精确图像边缘点(在212处)。此搜索局限在与投影模型边缘垂直的方向上。此外，对于每个已找到的潜在对应，计算出垂直于投影模型边缘和图像梯度之间的角度差。只有具有低于临界值的角度差的对应被作为有效对应接受。最后，通过使用鲁棒迭代非线性优化算法(robust iterative nonlinear optimization algorithm)可获得优化的三维姿态(在213处)，例如，Levenberg-Marquardt(例如见Press等人，1992)。在优化中，图像边缘点到它们的相应投影模型边缘的平方距离对于6个姿态参数(3个平移参数和3个旋转参数)被直接最小化。此外，距离根据优化中的角度差被加权。包括误差函数和部分求导的最小化过程在(Lanser，1998)中详细描述。在最小化之后，可得到优化的姿态参数。因为新的对应可从优化的姿态参数中出现，所以就将优化算法结合到外迭代中。因此，在本发明的一个实施例中，通过使用隐藏线算法对于优化的姿态将模型再次投影，并且在每次迭代后再次计算对应。不幸的是，隐藏线计算要求大量的计算时间，这在某些情况下对于实时计算而言太慢了，特别是当使用由多个边缘组成的复杂的三维模型时。因此，在本发明的优选实施例中无需在每次迭代中采用隐藏线算法即可完成再投影。相反，仅在第一次迭代中使用隐藏线算法。从第一次迭代的隐藏线算法的结果中，每个投影模型边缘的可视部分的两个端点可在图像中获得。每个端点和光学中心一起定义了三维空间中的视线。两条视线与三维模型边缘相交。两个相交部分限定了在初始姿态下可见的部分三维模型边缘。在进一步的迭代中，不是完整的三维模型边缘而是在第一次迭代中可见的部分边缘被投影。一方面，这极大地加速了姿态优化，因为无需使用隐藏线算法。另一方面，在大多数情况下，由这种简化引起的误差仅仅在边缘上降低了所得的精度。

如果摄像机透镜严重失真，应该在进行匹配之前将它们消除。这可以容易地通过校准搜索图像来完成(在201处)，因此可获得没有失真的图像。为了加速对搜索图像的校准，在生成三维模型的过程中脱机计算映射，其与球面映射的计算类似(在106处)。首先，计算新的(假定的)摄像机的参数，其中摄像机没有显示出径向失真，即k＝0。随后，对于校准图像的每个像素，原始图像的像素坐标可使用原始和假定摄像机的参数进行计算。像素坐标和对于双线性插值的权值储存在三维模型中。此信息在联机阶段用于在计算图像锥体之前有效地映射搜索图像。在生成三维模型的过程中，使用假定摄像机的参数代替原始摄像机的参数。在本发明的优选实施例中，两个映射(球面映射和透镜失真校准)被结合成一个映射，其减少了联机阶段的计算时间。

如果目标显示出特征纹理(characteristic texture)，本发明就可受益于此额外的信息。在本发明的优选实施例中，用户在生成三维模型后提供了一些目标的实例图像。在第一步中，三维模型用来确定实例图像中目标的三维姿态。随后，使用确定的三维姿态将三维模型的每一个表面投影到实例图像中。出现在投影模型表面下的实例图像中的纹理信息被用来增强模型表面，这通过基于表面的三维姿态将部分实例图像校准到三维表面上来进行。对所有表面和所有实例图像重复此步骤。如果在多个实例图像中相同的表面都可见，则选择对这个表面最适合的实例图像。在本发明的优选实施例中，选择表面表现出最少投影失真的实例图像。在替换实施例中，选择表面中的提取边缘具有最高对比度的实例图像。最后，通过将纹理信息添加到二维模型加强了三维模型(在115处)。因此，三维模型中的每个视图均包括这样的二维模型，即该二维模型包括由几何信息(没有极性信息)产生的边缘和由纹理信息(具有或不具有极性信息)产生的边缘。在本发明的替换实施例中，完全省略几何信息并且二维模型仅包括纹理信息。如果由于所选择的照明或是目标的材料三维模型边缘没有在图像中产生二维模型边缘，那么例如后者就是很有用的。

通过扩展搜索图像中的梯度方向信息可进一步增加识别速度(在204处)。EP1,193,642中的相似性测量将模型的标准化梯度与搜索图像中的标准化梯度进行比较。这通过根据允许的变换级别(例如刚体变换)变换模型边缘和它们的梯度向量来完成，并且每个变换模型边缘点的梯度向量与搜索图像中的潜在梯度向量进行比较。在真实的图像中，这种测量对于边缘点在两个梯度方向上约1像素的小偏移具有鲁棒性，因为在此临近区域的梯度方向仅轻微改变。因此，此相似性测量的容差约1像素。三维模型中的二维模型的数量强烈地依赖于此容差值。两个相邻视图间的差别可以被理解为在第二视图相对于第一视图的投影中所提取模型边缘的小偏移。如果偏移比容差值小，两个视图可合并为一个视图，因为它们根据所用的相似性测量是相等的。因此，如果有这样一种方法，利用它可以增大容差，那么视图的数量和联机阶段的计算时间能够减少。通过将目标分解为几个可以相对彼此移动的刚性组成部分(US7,239,929)来对这种偏移进行建模的方法不能在这种情况下使用，因为所需组成部分的数量会太大从而导致较长的计算时间。在本发明的优选实施例中将一种最大的滤波器(filter)应用于搜索图像的梯度，以扩展梯度方向信息。此过程在图14中示出。图14A中示出了人工实例搜索图像的变焦部分，其通过将白色子像素精确弯曲轮廓线(contour)映射到图像中产生。通过白色水平和垂直线可显现出像素栅格。图14B中示出了在边缘滤波后得到的图像的梯度向量。向量的长度与边缘幅度成比例。为了扩展梯度方向，尺寸3×3的最大滤波器穿过图像移动。在每个位置，滤波器中心处的梯度向量被滤波器中具有最大幅度的梯度向量替代。例如，在图14C中滤波器的位置由3×3黑体方块指出。具有最大幅度的梯度在滤波掩模(filter mask)下的右下角中。因此，右下角的梯度向量就分配给了滤波掩模中心的像素(见图14D)。在图14E中示出了将滤波器应用到全部图像后的最终结果。可以看到从两个方向的边缘开始边缘方向扩大了1个像素。因此，当使用扩展的梯度图像时，相似性测量对于约2像素的小偏移具有鲁棒性。通过采用较大滤波掩模或连续地使用几次小滤波掩模可以获得较高的容差。不幸的是，滤波掩模的尺寸不能选为任意大。否则，就会向弯曲边缘临近区域或具有几个封闭边缘的精细结构的临近区域中引入误差，其会导致低匹配鲁棒性。在本发明的优选实施例中，使用3×3滤波掩模，因为它在速度和鲁棒性之间提供良好的平衡。

本发明提供一种用于识别单个摄像机图像中的三维目标和用于确定目标相对于摄像机坐标系的三维姿态的***和方法。这种将锥体方法与设置在树结构中的分级模型视图的新颖结合对于实时应用十分重要，并且在之前的识别方法中未曾应用过。三通道模型图像的新颖生成方式通过简单地超过对于边缘幅度的临界值来消除在真实图像中不可见的目标边缘，使得能够使用现有的基于二维边缘的匹配方法。这在之前的识别方法中也没有采用过。追踪过程中的新颖二维模型投影变换对于识别方法的高鲁棒性十分重要。这在之前的识别方法中也没有采用过。最后，通过进行随后的三维姿态优化可以获得高的精度。通过将二维匹配姿态与相应视图的三维姿态结合起来可获得用于优化的初始三维姿态。提供了可用来有效地消除径向失真的可选方法。此外，还提供了可选方法来有效地将模型和图像映射为球面投影以消除在最高锥体水平上的投影失真，其在某些情况下也会减少二维匹配的鲁棒性。用于匹配的新颖的梯度信息扩展对于快速识别十分重要，因为必须进行匹配的所需视图的数量可以减少。

在机器人视觉***中的实施

在图15中，示出了基础机器人视觉***的实例，其结合了本发明中提出的方法。用于三维目标识别的典型应用领域是机器人视觉。***包括用于获取图像的图像获取装置1、用于分析图像的图像处理器2、包括三维模型数据的存储装置3、以及机器人4。图像处理器可以是硬件和软件的任何适合的组合，比如，适当的程序控制计算机。机器人通常配备有用于抓握目标的夹持器或夹紧器5。此***还被称为“手-眼***”(hand-eye system)，因为机器人的“手”由机械“眼”引导。为了使用目标识别方法的结果，目标的三维姿态必须转换到机器人的坐标系中。因此，除了校准摄像机之外还必须校准手-眼***，也就是说，确定摄像机和机器人坐标之间的转换。随后，能够产生合适的机器人指令，例如，抓取目标6。通常，这一***有两种可能的实现方式。第一种可能是将摄像机连接于机器人，因此如果机器人移动摄像机就会移动(图15A)。第二种可能是摄像机相对于世界坐标系固定(图15B)。在两种情况下，夹持器相对于摄像机的相对姿态可以通过使用“手-眼校准”的标准方法来确定。因此，在实际中，目标识别按如下方式进行：

在脱机阶段，进行如下步骤：A.1.校准摄像机的内方位(如果未在步骤A.2.中同时进行的话)；A.2.进行机器人的“手-眼”校准；A.3.提供找到的三维目标的三维描述；A.4.指定参数范围，在该范围内目标应该在联机阶段被找到；A.5.从指定的姿态范围中的三维目标描述生成三维模型，并将三维模型储存到存储装置上。

在联机阶段，进行如下的步骤：B.1.利用图像获取装置获取目标图像；B.2.利用储存在存储装置上的三维模型进行三维目标识别，以确定目标相对于摄像机坐标系的三维姿态。B.3.连接目标的三维姿态和相对于摄像机的机器人姿态，以在机器人坐标系中获得目标的三维姿态。B.4.产生合适的机器人指令，例如抓取目标。

尽管已经详细描述了本发明的几个具体实施例，但是在不背离本发明精神和范围的情况下可以对优选实施例进行各种修改。因此，除了随后权利要求中所指出的，以上的描述并不意于限制本发明。

引用参考文献

D.H.Ballard：Generalizing the Hough transform to detect arbitraryshapes.Pattern Recognition，13(2)：111-112，1981.

M.W.Bern and D.Eppstein：Mesh generation and optimal triangulation，Technical Report CSL-92-1，Xerox Palo Alto Research Center，1992.

J.R.Beveridge and E.M.Riseman：Optimal Geometric ModelMatching under full 3D Perspective，Computer Vision and ImageUnderstanding，61(3)：351-364，1995.

G.Borgefors：Hierarchical chamfer matching：A parametric edgematching algorithm.IEEE Transactions on Pattern Analysis andMachine Intelligence，10(6)：849-865，1998.

L.G.Brown：A survey of image registration techniques.ACMComputing Surveys，24(4)：325-376，December 1992.

P.David，D.DeMenthon，R.Duraiswami，H.Samet：Simultaneous Poseand Correspondence Determination using Line Features，Conference onComputer Vision and Pattern Recognition 2003，Vol.2：424-431，2003.S.Di Zenzo：A note on the gradient of a multi-image.Computer Vision，Graphics，and Image Processing 33：116-125，1986.

D.M.Gavrila，F.C.A.Groen：3D object recognition from 2D imagesusing geometric hashing，Pattern Recognition Letters 13：263-278，1992.

R.I.Hartley and A.Zisserman：Multiple View Geometry in ComputerVision，Cambridge University Press，Cambridge，2000.

R.Horaud：New Methods for Matching 3-D Objects with SinglePerspective Views，IEEE Transactions on Pattern Analysis and MachineIntelligence，9(3)：401-412，1987.

S.Lanser：Modellbasierte Lokalisation gestutzt auf monokulareVideobilder，Dissertation thesis，Technische Universitat Munchen，Fakultat fur Informatik，1997.

S.Lanser，C.Zierl，and R.Beutlhauser：Multibildkalibrierung einerCCD-Kamera，in G.Sagerer，S.Posch and F.Kummert(editors)，Musterkennung，Informatik aktuell，Springer-Verlag，Berlin：481-491，1995.

V.Lepetit，J.Pilet，and P.Fua：Point Matching as a ClassificationProblem for Fast and Robust Object Pose Estimation，Conference onComputer Vision and Pattern Recognition，Vol.2：244-250，2004.

O.Munkelt：Erkennung von Objekten in Einzelvideobildern mittelsAspektbaumen，Dissertation thesis，Technische Universitat Munchen，Institut fur Informatik，Munchen，1996.

M.S.Paterson and F.F.Yao：Efficient binary space partitions forhidden-surface removal and solid modeling.Discrete&ComputationalGeometry，5(1)：485-503，1990.

W.H.Press，S.A.Teukolsky，W.T.Vetterling，and B.P.Flannery：Numerical Recipes in C：The Art of Scientific Computing，2^nd edn，Cambridge University Press，Cambridge，1992.

W.J.Rucklidge：Efficiently locating objects using the Hausdorffdistance.International Journal of Computer Vision，24(3)：251-270，1997.

D.Rypl：Approaches to Discretization of 3D Surfaces，Habilitationthesis，CTU Reports，7(2)，CTU Publishing House，Prague，CzechRepublic，ISBN 80-01-02755-4，2003.

Y.Sumi and F.Tomita：Object Recognition Using Segment-BasedStereo Vision，Asian Conference on Computer Vision：249-256，1998.

S.L.Tanimoto：Template matching in pyramids，Computer Graphicsand Image Processing 16：356-369，1981.

M.Ulrich，C.Steger，and A.Baumgartner：Real-time object recognitionusing a modified generalized Hough transform，Pattern Recognition，36(11)：2557-2570，2003.

M.Ulrich：Hierarchical Real-Time Recognition of Compound Objectsin Images，Dissertation thesis，Technische Universitat Munchen，Fakultat Bauingenieur-und Vermessungswesen，Deutsche GeodatischeKommission bei der Bayerischen Akademie der Wissenschaften，ReiheC：Dissertationen，Heft Nr.568，Munchen，2003.

Claims

1.一种用于为三维目标识别构建三维模型的方法，包括以下步骤：

(a)提供摄像机的内部参数以进行摄像机几何校准；

(b)提供三维目标的几何表达，基于所述三维目标的几何表达来训练三维模型；

(c)提供所述摄像机的空间姿态范围，在所述范围中所述三维目标可以相对于所述摄像机出现；

(d)通过针对不同的图像分辨率对所述空间姿态范围取样来产生所述三维目标的视图，其中包括以下步骤：

(d1)计算原始图像分辨率上，即最低锥体水平上视图的额外取样；

(d2)通过连续合并相邻视图来消减视图以产生合并视图，其中所述视图具有超过预定相似性临界值的相似性；

(d3)重复步骤(d2)直到不再有具有超过步骤(d2)中的所述相似性临界值的相似性的两个相邻视图；

(d4)将所述合并视图复制到所述三维模型中；以及

(d5)在放宽(d2)中的所述相似性临界值后针对所有图像分辨率重复步骤(d2)至(d4)；

(e)通过树结构表达所有视图，其中在相同锥体水平上的视图位于所述树的相同等级水平处；以及

(f)对每个视图产生二维模型，通过使用二维匹配方法，所述二维模型可用于找到图像中的二维视图；

(g)由多个在几个锥体水平上的二维模型构建所述三维模型。

2.根据权利要求1所述的方法，其中通过进行摄像机几何校准可获得步骤(a)中所述摄像机的所述内部参数。

3.根据权利要求1或2所述的方法，其中步骤(b)的所述几何表达是三维计算机辅助设计模型。

4.根据权利要求3所述的方法，其中所述三维计算机辅助设计模型由DXF格式的文件表达。

5.根据权利要求1或2所述的方法，其中，提供步骤(c)中所述空间姿态范围包括以下步骤：

(c1)将所述三维目标的几何表达转换到参考目标坐标系中；

(c2)通过在所述参考目标坐标系中为球面坐标的经度、纬度、和距离提供区间来提供所述摄像机的位置；

(c3)转动所述摄像机，使得所述摄像机的Z轴通过所述参考目标坐标系的原点，并且所述摄像机的X轴平行于预定平面；以及

(c4)通过为所述摄像机的滚转角提供区间来提供所述摄像机的朝向。

6.根据权利要求5所述的方法，其中在步骤(c3)中所述预定平面是所述参考目标坐标系的赤道平面。

7.根据权利要求5所述的方法，其中在步骤(c4)中所述摄像机的滚转角是所述摄像机绕它的Z轴的转动角度。

8.根据权利要求5所述的方法，其中步骤(c1)中的所述参考目标坐标系与由所述几何表达定义的目标坐标系相同。

9.根据权利要求5所述的方法，其中步骤(c1)中的所述参考目标坐标系是由所述几何表达定义的目标坐标系，其中所述几何表达被平移到所述三维目标的中心并被旋转到适合于该应用的所述三维目标的参考方向。

10.根据权利要求1或2所述的方法，其中，提供步骤(c)的所述姿态范围包括以下步骤：

(c1)将所述三维目标的几何表达转换到参考目标坐标系中；

(c2)通过在所述参考目标坐标系中为X，Y，和Z坐标提供区间来提供所述摄像机的位置；

(c3)转动所述摄像机，使得所述摄像机的Z轴通过所述参考目标坐标系的原点，并且所述摄像机的X轴平行于预定平面；

11.根据权利要求10所述的方法，其中在步骤(c3)中所述预定平面是被所述参考目标坐标系的X和Z轴横跨的平面。

12.根据权利要求5所述的方法，其中在步骤(c4)中所述摄像机的滚转角是所述摄像机绕它的Z轴的转动角度。

13.根据权利要求5所述的方法，其中步骤(c1)中的所述参考目标坐标系与由所述几何表达定义的目标坐标系相同。

14.根据权利要求5所述的方法，其中步骤(c1)中的所述参考目标坐标系是由所述几何表达定义的目标坐标系，其中所述几何表达被平移到所述三维目标的中心并被旋转到适合于该应用的所述三维目标的参考方向。

15.根据权利要求1或2所述的方法，其中提供步骤(c)的所述空间姿态范围就是提供固定摄像机坐标系中所述三维目标的所述姿态范围。

16.根据权利要求1或2所述的方法，其中通过针对图像锥体的多个水平对所述姿态范围取样来产生所述三维目标的视图。

17.根据权利要求1所述的方法，其中计算步骤(d2)中的所述相似性通过以下方式进行：将所述三维目标投影到两个视图的图像平面中，并基于权利要求1的步骤(f)中提到的所述二维匹配方法中的相似性测量计算两个投影间的相似性。

18.根据权利要求17所述的方法，其中所述相似性测量可通过分析近似来替代。

19.根据权利要求1所述的方法，其中计算步骤(d2)中的所述相似性通过以下方式进行：仅将所述三维目标的三维边界框投影到两个视图的图像平面中，并基于权利要求1的步骤(f)中提到的所述二维匹配方法中的相似性测量计算两个投影间的相似性。

20.根据权利要求19所述的方法，其中所述相似性测量可通过分析近似来替代。

21.根据权利要求1所述的方法，其中通过以相似性测量的最快速近似开始，并优化所述近似，这样重复步骤(d2)和(d3)，直到达到所述相似性测量。

22.根据权利要求1所述的方法，其中通过对所述图像进行平滑和子取样以得到下一个较高锥体水平并在所平滑的和子取样的图像上计算相似性测量来进行步骤(d5)中所述相似性临界值的放宽。

23.根据权利要求1所述的方法，其中通过根据所述锥体水平在相似性测量的分析近似过程中增大位置容差来进行步骤(d5)中所述相似性临界值的放宽。

24.根据权利要求1或2所述的方法，其中步骤(e)包括以下步骤：

(e1)对于每个视图，将所述视图的三维姿态储存在所述三维模型中；(e2)对于每个视图，将对于全部子视图的参考储存在所述三维模型中；

(e3)对于每个视图，将对于它的父视图的参考储存在所述三维模型中。

25.根据权利要求1或2所述的方法，其中步骤(f)包括以下步骤：

(f1)将所述三维目标投影到每个产生三通道图像的视图的图像平面中，其中所述三通道代表所述三维目标表面法向矢量的三个元素；以及

(f2)产生由图像边缘组成的二维模型，其通过限定所述三通道图像的梯度幅度的临界值来获得。

26.根据权利要求25所述的方法，其中在步骤(f2)中产生所述二维模型包括：产生可用于匹配方法的二维模型，其中所述匹配方法基于普遍的霍夫变换、豪斯多夫距离、或者边缘梯度方向的点积。

27.根据权利要求25所述的方法，其中步骤(f2)中的所述临界值由提供的角度值计算出，该提供的角度值是所述三维目标的两个相邻面之间的最小角度。

28.根据权利要求25所述的方法，其中在步骤(f1)中将一恒定值添加到每个图像通道，以保证投影目标的轮廓不被步骤(f2)中的所述临界值抑制。

29.根据权利要求25所述的方法，其中由步骤(f2)中的临界值获得的所述图像边缘自动生效，并且如果所述生效失败则所述二维模型被放弃。

30.根据权利要求1或2所述的方法，其中包括以下额外的步骤：

(i)计算所述摄像机的图像平面的球面映射，并将所述球面映射储存在所述三维模型中，其中所述球面映射减少了投影失真的影响；

(j)使用所述球面映射来映射步骤(f)中产生的二维模型，并将除所述原始二维模型之外的所述球面映射的二维模型储存在所述三维模型中。

31.根据权利要求1所述的方法，其中包括以下额外的步骤：

(k)计算所述摄像机的图像平面的映射，并将所述映射储存在所述三维模型中，其中所述映射消除了透镜失真的影响。

32.一种用于识别三维目标和用于从目标的一个图像来确定它的三维姿态的方法，包括以下步骤：

(a)为三维目标识别提供根据权利要求1所述方法构建的所述三维目标的三维模型；

(b)提供所述三维目标的电子搜索图像；

(c)产生所述搜索图像的表达，其包括所述搜索图像的不同分辨率；

(d)将在分级树结构中不具有父视图的二维模型与图像锥体各个水平的图像相匹配；

(e)通过向下追踪匹配直到最低锥体来验证并优化顶部锥体水平的二维匹配；

(f)从所述二维匹配姿态和各个三维视图姿态来确定初始三维目标姿态；

(g)优化所述初始三维目标姿态。

33.根据权利要求32所述的方法，其中步骤(e)包括以下步骤：

(e1)根据候选匹配的位置对子视图的所述二维模型进行投影变换产生变换的二维模型；

(e2)在限定的参数空间中将所述子视图的所述变换的二维模型与所述图像锥体的各个水平的图像进行匹配。

34.根据权利要求32或33所述的方法，其中步骤(d)或步骤(e2)中的所述匹配分别基于普遍的霍夫变换、豪斯多夫距离、或者边缘梯度方向的点积。

35.根据权利要求32或33所述的方法，其中步骤(d)或步骤(e2)中的所述匹配分别基于忽略了梯度局部极性的边缘梯度方向的点积。

36.根据权利要求32所述的方法，其中在步骤(d)中通过以下方式对在其上进行匹配的所述各个锥体水平进行映射：在进行所述匹配之前使用储存在所述三维模型中的权利要求30的所述球面映射来减少投影失真；并且其中在步骤(d)中，所述球面映射的二维模型而非所述原始二维模型用于所述匹配。

37.根据权利要求32或33所述的方法，其中在步骤(d)或步骤(e2)中，分别地，通过以下方式对在其上进行匹配的所述各个锥体水平进行映射：在进行所述匹配之前使用储存在所述三维模型中的权利要求31的所述映射来消除透镜失真。

38.根据权利要求32所述的方法，其中步骤(g)中所述初始三维目标姿态的优化通过最小化子像素精确图像边缘点和相应投影三维目标边缘之间的距离来进行。

39.根据权利要求38所述的方法，所述步骤(g)包括以下步骤：

(g1)通过使用所述初始三维目标姿态将所述三维模型边缘投影到所述搜索图像中，同时通过使用隐藏线算法来抑制隐藏目标边缘，同时抑制两个相邻表面之间的角度低于提供的角度的目标边缘，其中，所述提供的角度是所述三维目标的两个相邻面之间的最小角度；

(g2)根据像素栅格将投影的边缘取样至离散点；

(g3)对于每个取样边缘点，在所述取样边缘点的临近区域中找到对应的子像素精确图像边缘点；

(g4)确定所述优化三维目标姿态的6个参数，其通过最小化所述取样边缘点和其所述对应的子像素精确图像边缘点之间的平方距离的总和进行，所述最小化通过迭代非线性优化算法进行。

40.根据权利要求39所述的方法，其中在步骤(g3)中，对于所述对应子像素精确图像边缘点，搜索被限制在垂直于所述投影的边缘的方向上。

41.根据权利要求39所述的方法，其中在步骤(g3)中只有具有低于临界值的角度差的对应被作为有效的对应接受，其中在所述投影的边缘垂直向和图像梯度之间计算所述角度差。

42.根据权利要求39所述的方法，其中在步骤(g4)中，在所述优化过程中根据所述角度差对所述平方距离进行加权，其中在所述投影的边缘垂直向和图像梯度之间计算所述角度差。

43.根据权利要求39所述的方法，其中重复步骤(g1)到(g4)，直到所述优化的三维目标姿态在最后两次重复之间没有显著变化。

44.根据权利要求39所述的方法，其中将步骤(g1)到(g4)重复提供的固定重复次数。

45.根据权利要求43或44所述的方法，其中在步骤(g1)中所述隐藏线算法仅在所述第一次重复中使用，而在较高的重复中仅将所述三维模型边缘的在所述第一次重复中可见的部分进行投影，而不重新进行所述隐藏线算法。

46.根据权利要求34或35所述的方法，其中在进行权利要求34或35中的所述步骤(d)或步骤(e2)中的所述匹配之前，通过将最大的滤波器应用于所述梯度来扩展所述图像中的所述梯度方向，其中在每个滤波器位置处，所述滤波器中心处的图像梯度被在所述滤波器中具有最大幅度的所述图像梯度取代。

47.一种利用纹理信息为根据权利要求1的三维目标识别增强三维模型的方法：

(a)提供三维目标的一些实例图像；

(b)通过使用权利要求32中所述的步骤来确定每个所述实例图像中所述三维目标的三维姿态；

(c)对于每个所述实例图像，使用步骤(b)中确定的所述三维姿态将所述三维模型的每个表面投影到所述实例图像中；

(d)对于每个三维目标表面，使用所述表面的所述三维姿态校正所述实例图像中被所述投影表面覆盖的部分；

(e)利用校正过的纹理目标面的导出纹理信息增强所述二维模型，产生包括几何信息和纹理信息的二维模型。

48.根据权利要求47所述的方法，其中步骤(e)被以下步骤替代：

(e)通过仅使用校正过的纹理目标面的导出纹理信息并忽略掉所述几何信息来再次产生所述二维模型。