CN103649998B

CN103649998B - 确定为确定照相机的姿态和/或为确定至少一个真实对象的三维结构而设计的参数集的方法

Info

Publication number: CN103649998B
Application number: CN201080071153.5A
Authority: CN
Inventors: S·本希马宁; S·利伯克内希特
Original assignee: Metaio GmbH
Current assignee: Apple Inc
Priority date: 2010-12-21
Filing date: 2010-12-21
Publication date: 2016-08-31
Anticipated expiration: 2030-12-21
Also published as: WO2012083982A1; EP2656309A1; EP2656309B1; US20140050357A1; US9830715B2; US9208563B2; US20160321811A1; CN103649998A

Abstract

一种用于确定参数集的方法，所述参数集被设计为用于确定照相机相对于至少一个真实对象的姿态和/或用于确定所述至少一个真实对象的三维结构，所述方法包括如下步骤：提供包括所述至少一个真实对象的至少一部分的参考图像，拍摄包括所述至少一个真实对象的至少一部分的至少一幅当前图像，提供参数集的最初估计，所述参数集至少包括：拍摄所述参考图像时的所述照相机的所述姿态与拍摄所述当前图像时的所述照相机的所述姿态之间在共同的坐标系中的三维变换，以及在所述共同的坐标系中的至少一个真实对象的至少第一点的深度，并且，借助迭代最小化过程确定所述参数集的估计的更新，其中，在迭代最小化过程中，将所述参考图像中的第一组像素与所述当前图像中计算出的一组像素进行比较，并且用于所述比较的所述当前图像中计算出的一组像素在每次迭代时发生变化。

Description

确定为确定照相机的姿态和/或为确定至少一个真实对象的三维结构而设计的参数集的方法

技术领域

本发明涉及一种确定参数集（parameter set）的方法，所述参数集被设计为用于确定照相机相对于由照相机拍摄的至少一个真实对象的姿态和/或用于确定所述至少一个真实对象的三维结构。

背景技术

在计算机视觉领域中的许多应用需要以亚像素精度对准两幅图像，例如在Irani,M.&Anandan,P的Vision Algorithms’99,All about direct methods,Springer-VerlagBerlin Heidelberg,2000,267-277([1])中描述的，例如图像拼接和超分辨率，它自然也可以用作增强现实应用的基础。虽然存在关于动作的平面模板跟踪以及连续结构的完整的文献资料，但是只存在公知的诸如在Silveira,G.&Malis,E在Unified direct visualtracking of rigid and deformable surfaces under generic illumination changesin grayscale and color images IJCV,2010,89,84-105([2])中描述的一种方法，其也同步地恢复在参考图像中所描绘的对象的形状以估计相对的照相机动作。这将在下文中进行更详细的描述。

在单眼可变形模板跟踪领域中，存在各种方法。具有直接和间接方法，前者专门在强度上对工作进行分类，而后者还使用诸如特征点或线之类的抽象概念。特征点具有如下优点：它们在存在相对大的基线的情况下也可以建立对应关系，尽管假定没有（脱机）训练阶段，计算这些对应关系的计算成本很高。然而，直接方法依赖于相对小的基线，但是由于使用了所有可用的信息因而是非常精确的。

J.Pilet,V.Lepetit和P.Fua在Fast non-rigid surface detection,registration and realistic augmentation.IJCV,76(2):109-112,2007([7])使用粗糙的基于点的检测方法来获得近似配准（registration）。在这之后它们通过使图像空间中的三角形网格变形来精炼。它们的方法对于大量的异常值是鲁棒的。然而，它被设计为只工作在诸如一张纸之类的单一初始的平面对象上，也专门地在图像空间中执行优化。

视觉SLAM

在视觉SLAM（同步定位和地图构建）区域中，诸如Davison,A.J.,Reid I.D.,Molton,N.D,Stasse,O.MonoSLAM:Real-Time Single Camera SLAM PAMI,2007,26,1052-1067([3])or Klein,G.&Murray,D.:Parallel Tracking and Mapping for Small ARWorkspaces ISMAR,2007([4])之类的方法将环境建模为基于凸起特征点的点云。

此外，在[3]和[4]中描述的方法两者都使用两步法，以建立在模型和图像之间的匹配；将模型的点投影到图像中；然后，在投影的特定邻域中搜索最高类似度的测量值，并且接受其作为逐点匹配。从这些匹配中计算照相机的姿态。

虽然产生密集的环境模型，但是Newcombe,R.&Davision,A.Live densereconstruction with a single moving camera CVPR,2010([5])也内在地依赖于特征点，因为它们采用如[4]中描述的方法作为跟踪和重建的基础。

可变形表面的统一的直接视觉跟踪：

在Silveira and Malis[2]的可变形跟踪算法中，基于最初的估计，他们迭代地计算参数的更新，所述参数对照相机的动作以及参考图像中描绘的对象的结构进行编码。然而，他们提出的优化单纯地工作在2D中，即在图像空间中。这意味着在优化期间（对于参考模板的移动）使用该单应矩阵作为黑匣子，即没有至3D真实世界实体的直接连接。对于表面的变形，他们使用中心的概念，即在模板图像上所选择的2d点，其中，投影的深度是估计的。他们建议了两种不同的用于将中心的位置外插为全网格的策略，双三次外插或径向基函数（RBF）。

尽管结果很好，但是Silveira和Malis[2]以参数的优化为基础，这仅仅在图像空间具有直接意义。使用照相机的校准，能够在最小化内部使用更少的参数，并且能够基于物理约束设计正则化（regularization）函数。

所以，提供一种确定参数集的方法是有益的，所述参数集设计为用于确定照相机的姿态和/或用于确定至少一个真实对象的三维结构，所述方法适合于实时应用并能够工作在仅具有较少特征信息的对象上，并且所述方法能够同步地估计照相机的姿态并重建在照相机视角中的对象。

发明内容

公开了一种确定参数集的方法，所述参数集被设计用于确定照相机相对于至少一个真实对象的姿态和/或用于确定所述至少一个真实对象的三维结构，所述方法包括如下步骤：提供包括所述至少一个真实对象的至少一部分的参考图像；拍摄包括所述至少一个真实对象的至少一部分的至少一幅当前图像；提供参数集的最初估计，所述参数集至少包括：拍摄所述参考图像时所述照相机的姿态与拍摄所述当前图像时所述照相机的姿态之间在共同的坐标系中的三维变换，以及在所述共同的坐标系中所述至少一个真实对象的至少第一点的深度，以及借助迭代最小化过程来确定所述参数集的估计的更新，其中，在所述迭代最小化过程中，将所述参考图像中的第一组像素与所述当前图像中计算出的一组像素进行比较，并且所述当前图像中计算出的一组像素在每次迭代时发生变化。

具体而言，这里计算出的一组像素根据至少一个真实的对象的至少第一点的深度发生变化。所述迭代可以继续直至达到特定次数的迭代，或者直至所述更新的大小下降至定义的阈值以下。

因此，根据本发明的方面，提出使用新颖的参数化和正则化以同步地估计照相机的姿态并重建照相机的视角中的对象。代替像视觉SLAM那样依赖于区别特征点，所述方法具体使用迭代最小化过程，其中，在迭代最小化过程中，将参考图像中的第一组像素与当前图像中计算出的一组像素进行比较，并且所述当前图像中计算出的一组像素在每次迭代时变化。例如，可以应用像[2]的所谓的密集跟踪方法或者像Lucas,B.,Kanade,T.:Aniterative image registration technique with an application to stereovision.In Proceedings of the International Joint Conference on ArtificialIntelligence,1981的基于强度的图像配准方法。与现有密集跟踪方法相比，它不引入结构上的人工平滑，并且通过使用真实3d世界实体作为参数（代替使用像素），允许使用物理上合理的正则化的可能性。与所描述的SLAM方法相反，所提出的方法不采用用于预处理重建和定点部分的凸起（saliency），由此它也能够工作在没有体现足够量的凸起特征的对象上。与在[3]和[4]中描述的方法相反，所提出的方法同步解决逐像素匹配和照相机的姿态。

在描述照相机的姿势的参数集内的参数的最初估计可以通过使用根据现有技术方法，例如从构造光、光学特征跟踪（例如，基于标记的跟踪、SLAM、SUPF等）、惯性传感器信息和/或立体视觉中获得。

在本发明的上下文中，惯性传感器可以通过使用如下的传感器的任意组合来连续提供包括关于环境的对象或设备的位置和/或取向的惯性传感器信息：磁力计（例如指南针）、动作传感器/旋转传感器（加速度计/陀螺仪）、重力传感器、以及提供这种信息的其它传感器。

例如，作为一种假定，可以通过飞行时间照相机、环境模型或者允许重建场景中的深度信息的任何其它方法来提供至少一个真实对象的至少第一点的深度的最初估计。

所述方法可以用于在光学跟踪过程中确定相对于真实对象的照相机的姿态，和/或用于重建所观察的真实对象的三维模型。所述方法能够满足增加的现实应用的实时要求。因为在提出的方法中没有执行网格的平滑，所以跟踪和重建平滑或具有较少纹理信息的对象，具有折皱和锋利的边缘的对象或者可变形的对象在变化的光条件下也变得可能。

例如，重建的模型可以用作遮挡模型，以进行在虚拟和真实对象之间的遮挡检测，或者以根据在增加的现实应用中所识别的平面表面的变形来调节影片纹理的失真，或者以在渲染过程中计算阴影。

在其它优选实施例中，所述参数集进一步包括拍摄所述参考图像时所述照相机的姿态与拍摄所述当前图像时所述照相机的姿态之间在共同的坐标系中的三维旋转，和/或所述照相机的竖直焦距和水平焦距，和/或所述照相机的主点的坐标。

有利地，对至少一个真实对象的三维结构以分段平面结构的形式，例如以三角形的形式进行参数化。例如可以使用用于自动网格化的现有技术方法。在优选的实施例中，根据所述参考图像内感兴趣的区域的纹理来自适应性地选择所述分段平面结构的密度。

通过写出与三角形（面）的三个顶点的深度的倒数为线性关系的分段平面定义的结构的法线（normal），实现了参数集中的深度的线性化。在这种情况下，为了确定至少一个真实对象的至少第一点的所述深度，可以确定深度的倒数的更新，而不是所述深度的更新。

在优选实施例中，在迭代最小化过程中，所述至少一个真实对象的所述至少第一点的所述深度的所述更新通过正则化约束，具体而言通过考虑物理模型来约束。通过强加在优化上的约束，可以防止至少一个真实对象的所确定的三维结构的不切实际的变形。

可以使用几种正则化方法，例如下文描述的一种，但是所述方法也可以采用本领域技术人员公知的其它正则化手段。为了正则化，可以考虑关于至少第一点（顶点）的深度的时间和/或空间知识。

在实施例中，如果三维变换超过特定阈值，则仅确定至少第一点的深度的倒数或者所述深度的更新。这防止当记录非常小的变换时由于噪声或其它影响带来的异常值。

此外，可以确定至少第一点的所确定的深度随时间的变化，可以使用该信息，其中根据所述变化来增大该点上的所述正则化的力。

通过使用至该点的参考值的距离来对所述至少第一点的所述深度的所述更新进行正则化，所述距离被计算为该点的先前确定的深度值的平均值（动（running）平均）。这用来平滑所确定的三维结构。

也能够通过使用至该点的参考值的距离来正则化，所述距离被计算为该点的先前确定的深度值的加权平均。测光（强度）或空间信息（与参考点的距离）可以用作权重因子。

在优选实施例中，优化过程对整个三维结构而言是同时完成的。具体地，所述参数集包括所述至少一个真实对象的至少第二点的所述深度，并且在迭代最小化过程中，确定所述第一点和所述至少第二点的所述深度的所述更新，直至：已经达到特定次数的迭代，或者所述第一点的所述深度的所述更新的所述变化或所述至少第二点的所述深度的所述更新的所述变化下降至定义的阈值以下。

在另一优选实施例中，优化过程对于分段平面结构的每个顶点而言是独立地完成的，即，所述参数集包括所述至少一个真实对象的至少第二点的所述深度，并且在所述迭代最小化过程中，确定所述第一点的所述深度的所述更新，直至所述第一点的所述深度的所述更新的所述变化下降至定义的阈值以下，并且确定所述至少第二点的所述深度的所述更新，直至所述至少第二点的所述更新的所述变化下降至定义的阈值以下。

附图说明

现在将参考下文示例性实施例的描述以及附图来解释本发明，在所述附图中：

图1示出了本发明的实施例，其中，示出了真实对象的示例性图像以描述根据本发明的方法的实施例的概述，

图2示出了本发明的实施例的流程图，

图3示出了根据本发明的实施例的带有可选择的正则化的迭代最小化过程的实施例，

图4示出了绘图，其中，网格的顶点沿着它们各自的投影线上自由移动，即（u_i*,v_i*）是固定的，但z_i可以改变。

图5示出了绘图，其示出了从所有以前成功的信息中计算出参考深度μ_i。左侧图像：显著的单元目前用于存储高度的估计以及基于顶点的邻近面所测量的类似度。右侧图像：在覆盖照相机的地面轨迹的情况下包含在算法的典型运行期间的数据的单元的示例，

图6示出了在计算参考深度内所使用的加权函数的实例，其中，加权函数处罚接近于参考位置、类似于正则项r(d)的样本，因为它们通常是最小差别的。

图7示出了关于合成数据的估计的实例，Jy的在一阶（上方）和估计的二阶（下方）线性化的比较：在深度方向上的非常高的动作（high motion）的情况下，它们表现得类似。在其它情况下，可以节省更多典型结构的2-4次迭代。

图8示出了公知的跟踪算法的标准方法的流程图。

具体实施方式

在图8中，根据如上文提及的[2]中公开的原理示出了标准的方法，描述了跟踪算法，所述跟踪算法基于参数集x的最初估计执行迭代的直接重建，所述参数集x的最初估计包括在参考图像与由照相机拍摄的当前图像之间的单应矩阵。具体地，迭代地计算对照相机的动作以及在参考图像中描绘的对象的结构进行编码的参数的更新，其中，优化单纯工作在2D中，即在图像空间中。

根据步骤S1，由照相机拍摄当前图像，其中，照相机的姿态将在以下的过程中确定。为此，在步骤S2中，提供参考图像以及参数集x的最初估计，所述参数集x的最初估计包括在参考图像与当前图像之间的单应矩阵以及Kt/z_i，其中，K包括固有照相机参数矩阵的估计，t是表示变换值的向量，并且z_i是点i关于照相机坐标系的深度。在步骤S3中，使用当前图像和参考图像的数据计算出光测误差y。根据步骤S4，参数集x的参数更新d是根据光测误差y计算出的，并且在步骤S5中被应用至参数集x。迭代地重复步骤S3-S5，直至更新d收敛，或者达到特定次数的迭代。最后，在步骤S6中，如果提供固有照相机参数K来执行单应矩阵分解，则可以从参数集x的最新版本中计算出真实世界的实体，例如照相机姿态的参数以及在当前图像中描绘的真实对象的三维结构。

在下文中，参考图1和图2，将描述根据本发明的方法的实施例。在这方面，图1示出了根据参考图像和当前图像的真实对象的示例性图像，然而，图2示出了根据本发明的实施例的方法的流程图。

根据步骤S11，当前图像由照相机拍摄，其包括真实对象的至少一部分。例如，图1a示出了由照相机拍摄的图像，其中，相对于真实对象确定照相机的姿态，所述真实对象是在当前示例中是电脑鼠标。

在步骤S12中，如图1b所示，提供包括如在当前图像中包含的真实对象的至少一部分的参考图像。此外，提供固有照相机参数K的估计以及包括参考姿态的最初估计的参数集x（即，当拍摄参考图像时照相机的姿态）和三维结构。具体地，参数集x的最初估计至少包括拍摄参考图像I*时的照相机的姿态与拍摄当前图像I时的照相机的姿态之间在共同的坐标系中的三维变换，以及在共同的坐标系中的真实对象的至少第一点处的深度。

例如，三维结构可以包括一个或多个点z_i，其中，z_i是点i相对于照相机坐标系的深度。通过这种方式，如图1a所示，当具有多个点z_i时，可以创建网格M，其中，z_i是网格的节点中的相应一个。根据图1a，基于上一帧/迭代的估计的参数x，将网格放置在当前的照相机图像I上。如在例子中示出的网格的三角形被称作面。

如图1c所示，将所述网格的每一面扭曲回至参考帧，即如图1b所示的参考图像的坐标系。

在步骤S13中，将参考图像I*（图1b）中的第一组像素与当前图像中的计算出的一组像素比较，所述计算出的一组像素表示如图1c所示的图像I*的一部分。在以下迭代最小化过程中，根据步骤S13-S15，将参考图像中的第一组像素与当前图像中的计算出的一组像素比较，其中，用于比较的当前图像中的计算出的一组像素在每次迭代中发生变化。具体地，光测误差y通过使用如相对于图1c和参考图像计算出的当前图像中的数据来计算。该误差用在搜寻参数的更新的非线性优化的成本函数phi(d)中。正则化可以可选地被集成至phi(d)。

根据步骤S14，参数集x的参数更新d根据光测误差y来计算并被应用至步骤S15的参数集x中。迭代重复步骤S13-S15，直至更新d收敛，或者达到特定次数的迭代。例如，迭代最小化过程确定参数集x的估计的更新，直至已经达到特定次数的迭代，或者直至更新的大小下降至定义的阈值以下。在步骤S15处迭代最小化过程的输出是包括表明所计算的相对于真实对象的照相机的姿态以及共同的坐标系中真实对象的一个或多个点的深度的变换值tx、ty、tz的参数集x，从中可以计算真实对象的三维结构。在本实施例中，为了确定真实对象的一个或多个点的深度，确定深度的倒数（1/z_i）的更新，而非深度的更新。

根据实施例，参数集x可以进一步包括拍摄参考图像I*时的照相机的姿态与拍摄当前图像I时的照相机的姿态之间在共同的坐标系中的三维旋转。

根据实施例，在迭代最小化过程中，深度的倒数或者深度的更新受正则化约束，具体而言受考虑物理模型约束。例如，如果三维变换超过特定阈值，则仅仅确定深度的倒数或者深度的更新。

由此描述的根据本发明的方法基于相对于对象的参考图像I*跟踪照相机姿态。同步地，通过使用三角形网格M作为用于形状的模型并最初地假定它是平面的来估计如在I*中看到的对象的形状。随着照相机移动，所述网格朝向所述对象的真实的形状变形。这如上文提及的在图1中示出。

参考示出步骤S101至S109的图3，将更详细地解释根据本发明的方法的实施例。

算法的任务是在给出对象新的图像I以及表示为和的以前的网格和姿态的情况下来估计在SE（3）中照相机姿态T和网格M的更新。当处理视频序列时，所述估计通常通过使用上一帧的结果来获得。

我们假定忽略遮挡和激烈的照明改变，如果给出真实的姿态T和网格可以通过扭曲回每个面f来构建参考图像I*。假定我们不知道真实值和并且仅有近似值和是有可用的，我们可以通过将单应矩阵应用至网格的每个面来产生估计的图像

这在图1中示出。因为网格是定义的分段平面，所以扭曲单个面f通过单应矩阵来引导：

G (T, n_{f}) = k (R + {tn}_{f}^{T}) K^{- 1} G_{f}

此处，K表示公知的3×3照相机固有函数，R³中的n_f是按参考帧中的面至照相机中心c*的距离d_f的倒数缩放面f的法线；分解照相机姿态T以取得SO（3）中的R以及R³中的t。最终，单应矩阵G_f用来将网格面变换它在I*内的具***置。

我们假定估计和的更新T(d)、n_f(d)是相当地小的。它们被按照照相机姿态和网格变形被参数化：

d = (ω_{x}; ω_{y}; ω_{z}; v_{x}; v_{y}; v_{z}; ψ_{1}; ψ_{2}; \cdot \cdot \cdot; ψ_{n})

其中，第一六个参数表示当前经由指数映射计算出的照相机的姿态T的更新。d的剩下部分表示可移动的顶点的深度倒数ψ_i=1/z_i*的更新。M*的每个顶点v_i经由它在I*中的2D坐标v_i=(u_i*,v_i*,1)^T以及它到照相机中心c*的深度z_i*w.r.t.来定义。

通过使顶点沿着从参考视图中的照相机中心c*散发的射线移动来对网格的变形进行建模，参见图4。

从所述顶点中直接计算由{v_i,v_j,v_k}定义的面f的法线n_f，并且它们对应的深度倒数是：

n_{f} (d) = \frac{n}{d *} = K^{T} {[v_{i} v_{j} v_{k}]}^{- T} {[ψ_{i} ψ_{j} ψ_{k}]}^{T}

该方程式来自将倒转的针孔投影a=(x,y,z)^T=zK^-1(u,v,1)^T与平面等式n^Ta=d*（NB：此处d^*表示由更新向量d参数化的参考帧中的面f至照相机c*的距离）。注意到n_f(d)的该参数化是线性的w.r.t.深度的倒数。

为了简化，我们仅考虑网格的单个面，并且定义对应于数据项的误差向量：

y(d)=(y₁(d),y₂(d),…,y_m(d))^T

为用于在1,2,…m中的所有i的误差测量值：

y_{i} (d) = \overset{\cap}{I} * - I * = I (q_{i}) - I * (p_{i} *)

q_{i} = w (G (\overset{\cap}{T} T (d), n_{f} (x + d)) p_{i} *)

其中，q_i是通过将输入图像扭曲回参考图像获得的输入图像中的像素坐标。w((a,b,c)^T)=(a/c,b/c,1)^T表示齐次的坐标的归一化，并且m是中的面的像素p_i*的数量。在x中保持先前深度，由此在上文中最后等式中使用的更新n_f(x+d)等于更新（NB：如可以观察到的，y(d)实际上取决于d和x两者，即当前的状态和它的更新。为了简化，大部分时间我们省略了参数x，因为我们主要对计算更新d感兴趣。然而，为了完整，我也将它参考为在附图中适当的y(x,d)）。为了增加***的数值稳定性，稍后讨论用网格中的n个可移动顶点经由函数r(d)：R⁶⁺ⁿ→R⁶⁺ⁿ将正则化项添加至成本函数。然后，成本函数可以写成：

φ (d) = \frac{1}{2} ({| | y (d) | |}^{2} + λ {| | r (d) | |}^{2})

其中，缩放因子（scalar）λ用来平衡y(d)和r(d)的平方范数。像在高斯-牛顿法中，通过将二次成本函数线性化来计算更新d，并且由此求解线性***：

(J_{y}^{T} J_{y} + {λJ}_{r}^{T} J_{r}) d = - (J_{y}^{T} y (0) + {λJ}_{r}^{T} r (0))

其中J_y和J_r是数据的雅可比行列式以及正则项。可以使用诸如伪逆或柯列斯基分解之类的标准技术来求解该等式以获得d。应用更新d并运行另一次迭代，直至所述更新的范数在特定的阈值（我们在实验中选择10^-3）以下，或者达到最大的迭代次数。

雅可比行列式J_y可以写成如下的乘积形式：

J_{y} = J_{\overset{\cap}{I} *} J_{d} J_{G}

其中，是估计的参考图像的梯度，J_d和J_G是投影和单应矩阵的雅可比行列式。通过包括参考图像J_I*的梯度，该一阶线性化可以近似于二阶，比如：

J_{y} = \frac{J_{\overset{\cap}{I} *} + J_{I *}}{2} J_{d} J_{G_{0}}

如图7所示，这通常在低的成本下增加收敛率。

在照相机接近于参考照相机的情况下，矩阵J_y ^TJ_y变得逐渐病态，即y(0)中的细微改变可以引起d中的巨大的改变。这是由于当前的照相机的投影线近似与参考照相机的投影线对齐（在图4中描绘的）。在该退化的配置中，顶点的任意移动，相应地它们的深度倒数ψ_i导致几乎完全相同的未扭曲的参考图像

然而，该配置可以通过将正则化项r(d)添加至成本函数来轻易地减轻，所述成本函数限制在那种情况下的深度倒数，我们将r(d)定义为：

r(d)=(Q_1×6,r₁(d),r₂(d),…,r_n(d))^T

r(d)当前仅仅操作于n个可移动顶点上。我们计算1,2,…,n中的所有i：

r_{i} (d) = (1 + λ_{s} e^{- λ_{r} {| | \overset{\cap}{t} | |}^{2}}) (\frac{1}{{\overset{\cap}{ψ}}_{i} + ψ_{i}} - μ_{i})

正则化项的第一部分是权重因子，其处罚刚刚讨论的退化结构。

缩放因子λ_s和λ_r确定涉及基线的处罚的大小和范围，根据经验λ_s=λ_r=10给出了好的结果。

r(d)的第二部分负责抑制变形并使它们朝向最像的真实值移动。它处罚深度相对于顶点的参考深度μ_i的改变。

确定μ_i的朴素方式可以包括将其计算为运行平均值，即，作为的每个图像之后的更新。该方法在连续地移动照相机的情况下是简单并有效的。然而，当照相机变得静止时，μ_i将朝向仅对于该局部结构最优的值收敛（其可能由于非单值性而不同于全局最优）。换句话说，随着时间的过去将失去来自以前的成功配准的所有信息。

因此，我们计算μ_i的方法试图保存关于照相机动作的以前的知识。想法是在空间上对高度估计以及置信度值（confidence value）进行采样，所述置信度值不仅并入了顶点x的高度估计，还并入了诸如照相机的姿态或邻近顶点的高度之类的其它估计。在图5中给出了其轮廓，并且现在将详细地进行解释。

我们使用从最初假定的对应于顶点v_i的3d点a_i至参考照相机中心c*的射线作为平面π_i的法线。在该平面上，中心在a_i上的单位方形被细分为规则的栅格。如在图5的左侧显示的，虽然用户移动照相机，但是我们将来自a_i的射线投射至当前的照相机中心c，使其与a_i周围的单位半圆相交，并且将交点投影至π_i上。包含投影记录的单元记录算法的当前的高度估计以及类似度测量值S_i，所述类似度测量值S_i由对于顶点i的所有相邻面的I*和之间的NCC的总和组成。当没有在前的记录或者所存储的类似度测量值S_i小于当前所获得的值时，更新单元中存储的值。

然后，从所记录的数据中计算参考高度μ_i如下：

μ_{i} = \frac{Σ_{P} z_{i} (p) S_{i} (p) w (p, a_{i})}{Σ_{P} S_{i} (p) w (p, a_{i})}

其中p表示平面π_i上的单元方形内的点，z_i(p)是对应所记录的估计高度，S_i(p)是相应的求和的邻近NCC，并且w(p,a_i)是对拉近至a_i的样本进行降权重的函数，因为这些样本是最小差别的。在我们的实验中，我门使用作为权重函数：

w (p, a_{i}) = 1 - e^{- λ_{w} {| | p - a_{i} | |}^{2}}

其中，λ_w=50，在分辨率100×100的栅格中，所述函数可视化如图6所示。

最初，因为形状从最初估计朝向更像的形状变换，所以μ_i的值快速地改变。μ_i的变化增加，但是在特定点，当用户充分地移动时，所述变化开始稳定地减小。假设地，当用户已经从各个观察点看到所述对象，从而覆盖单位圆的所有单元时，μ_i变得恒定。相应地，所述模板的估计形状变得非常接近于运行平均值，并且正则化实际上取消了。在实践中，通常很少去到栅格的外部区域，我们仅仅使用单位圆的内部70%的栅格，并且存储在它的最外单元的外部30%的数据以更好地利用栅格。

在下文中，提及一些实施的细节，其进一步改善方法的结果或效率。除了正则化，我们通过将强度值缩放至区间[0,1]中的位置来改善最小化的数值稳定性。此外，在优化中使用误差之前，从误差中减去平均误差y(0)。这可以以非常低的额外成本完成，并且增加所述方法对抗统一的照明改变的稳健性。

为了计算y(0)和的梯度，将网格的面从I分段扭曲至这是通过使用每个面的边界框和掩模来完成的，所述掩模辨别哪个像素是面的一部分。通过使用Prewitt算子来计算图像梯度。为此，每个面的掩模通过扭曲前的一个像素而生长，从而获得算子所需的所有实体。由此仅仅扭曲最小数目的像素。因为生长的掩模的区域通常在中重叠，所以未扭曲的面必须被存储在单独的图像中。

为了增加算法的收敛半径和速度，从最小水平开始在图像金字塔的几个水平L上运行最小化过程。将照相机图像的初始分辨率设置在水平0上。缩放因子s定义金字塔水平之间的台阶。在我们的实验中，我们使用s=2.为了在金字塔的水平L上运行最小化过程，必须用s^-L缩放网格M相应每个面的边界框的大小以扭曲正确数量的像素。当通过基于以前的水平或基准水平构造所有的水平来构造图像金字塔时，通常具有两个选项。我们选择以使用后者的方法。所以，为了在水平L上构造我们通过使用缩放的单应矩阵GS^L来扭曲来自初始分辨率的I的每个面，其中，S=diag(s,s,1)并且G如最初定义的。为了正确导出J_y，我们必须使用y(d)内的S^-LGS^L，因为对于I*和两者，需要在相等的金字塔水平上进行操作。

Claims

1.一种用于确定参数集的方法，所述参数集被设计用于确定照相机相对于至少一个真实对象的姿态和/或用于确定所述至少一个真实对象的三维结构，所述方法包括如下步骤：

-提供包括所述至少一个真实对象的至少一部分的参考图像，

-拍摄包括所述至少一个真实对象的至少一部分的至少一幅当前图像，

-提供参数集的最初估计，所述参数集至少包括：

-拍摄所述参考图像时所述照相机的姿态与拍摄所述当前图像时所述照相机的姿态之间的在共同的坐标系中的三维变换，以及

-在所述共同的坐标系中所述至少一个真实对象的至少第一点的深度，以及

-借助迭代最小化过程来确定所述参数集的估计的更新，

-其中，在所述迭代最小化过程中，将所述参考图像中的第一组像素与所述当前图像中的计算出的一组像素进行比较，并且用于比较的所述当前图像中的所述计算出的一组像素在每次迭代时发生变化。

2.根据权利要求1所述的方法，其中，所述参数集进一步包括拍摄所述参考图像时所述照相机的姿态与拍摄所述当前图像时所述照相机的姿态之间的在共同的坐标系中的三维旋转。

3.根据权利要求1所述的方法，其中，所述参数集进一步包括所述照相机的竖直焦距和水平焦距。

4.根据权利要求1所述的方法，其中，所述参数集进一步包括所述照相机的主点的坐标。

5.根据权利要求1所述的方法，其中，对所述至少一个真实对象的所述三维结构以分段平面结构的形式进行参数化。

6.根据权利要求5所述的方法，其中，根据所述参考图像内感兴趣的区域的纹理来自适应性地选择所述分段平面结构的密度。

7.根据权利要求1所述的方法，其中，使用构造光、光学特征跟踪、惯性传感器信息和/或立体视觉来获得拍摄所述参考图像时所述照相机的所述姿态。

8.根据权利要求1所述的方法，其中，所述迭代最小化过程包括如下步骤：

确定所述参数集的所述估计的所述更新，直至已经达到特定次数的迭代或者直至所述更新的大小下降至定义的阈值以下。

9.根据权利要求1所述的方法，其中，为了确定所述至少一个真实对象的所述至少第一点的所述深度，确定所述深度的倒数的更新，而不是所述深度的更新。

10.根据权利要求1所述的方法，其中，在所述迭代最小化过程中，通过正则化来约束所述至少一个真实对象的所述至少第一点的所述深度的倒数或所述深度的更新。

11.根据权利要求1所述的方法，其中，在所述迭代最小化过程中，通过考虑物理模型的正则化来约束所述至少一个真实对象的所述至少第一点的所述深度的倒数或所述深度的更新。

12.根据权利要求10所述的方法，其中，如果所述三维变换超过特定阈值，则仅确定所述至少第一点的所述深度的倒数或者所述深度的所述更新。

13.根据权利要求10所述的方法，其中，确定所述至少第一点的所确定的深度随时间的变化。

14.根据权利要求13所述的方法，其中，根据所述变化来增大该点上的所述正则化的力。

15.根据权利要求10所述的方法，其中，通过使用至该点的参考值的距离来对所述至少第一点的所述深度的所述更新进行正则化，所述距离被计算为该点的先前确定的深度值的平均值。

16.根据权利要求10所述的方法，其中，通过使用至该点的参考值的距离来对所述至少第一点的所述深度的所述更新进行正则化，所述距离被计算为该点的先前确定的深度值的加权平均值。

17.根据权利要求16所述的方法，其中，权重因子由测光或空间信息来定义。

18.根据权利要求10所述的方法，其中，所述参数集包括所述至少一个真实对象的至少第二点的深度，并且在迭代最小化过程中，确定所述第一点和所述至少第二点的所述深度的更新，直至：

-已经达到特定次数的迭代，或者

-所述第一点的所述深度的所述更新的变化或所述至少第二点的所述深度的所述更新的变化下降至定义的阈值以下。

19.根据权利要求10所述的方法，其中，所述参数集包括所述至少一个真实对象的至少第二点的深度，并且在所述迭代最小化过程中，确定所述第一点的所述深度的所述更新，直至所述第一点的所述深度的所述更新的变化下降至定义的阈值以下，并且确定所述至少第二点的所述深度的更新，直至所述至少第二点的所述更新的变化下降至定义的阈值以下。