CN103635935B

CN103635935B - 3d街道

Info

Publication number: CN103635935B
Application number: CN201180070666.9A
Authority: CN
Inventors: A·西埃弗特; V·科尔比
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2011-03-18
Filing date: 2011-03-18
Publication date: 2016-10-12
Anticipated expiration: 2031-03-18
Also published as: US20140267254A1; AU2011362799A1; US9799139B2; WO2012126500A1; KR20140053870A; EP2686827A1; CN103635935A; AU2011362799B2; KR101533182B1

Abstract

提供了用于采集要与纹理化3D模型定位的图像以及在使用来自该模型的纹理化信息的同时将采集的图像与该模型对准以获得新估计的姿态的方法和设备。这使得采集的图像使用所述新估计的姿态与3D模型定位。在一个方面中，所述对准包括在3D模型中以估计的姿态渲染图像并接着将采集的图像与渲染的图像对准。在另一个方面中，所述对准包括将采集的图像以估计的姿态投影到3D模型上并接着将投影的采集的图像与纹理化3D模型对准。在又一个方面中，所述对准包括将采集的图像投影到纹理化3D模型上，在原始3D模型中渲染第一图像，在采集的图像被投影于其上的3D模型中渲染第二图像，并接着将第一和第二图像对准。

Description

3D街道

技术领域

本发明涉及用于使用纹理化的3D模型来定位采集的图像、特别是街道级别的图像的方法和设备。

背景技术

现有技术中，提供数字地图的地理信息***是众所周知的。通常情况下，三维地图是基于由飞机对要3D建模的地形的一部分进行扫描而捕捉（或采集（acquire））的图像来形成的。当捕捉图像时，摄像机的位置可以由GPS获得，并且图像被进一步打上时间戳。飞机进一步配备有惯性测量单元（IMU），使得飞机旋转的角度（其也被称为滚转、俯仰和偏航）可以被记录。因此，针对每个捕捉的图像记录了摄像机的位置和姿势（attitude）。

可以考虑摄像机的位置和姿势（称为导航数据）来执行对捕捉到的图像的立体处理。将包括在基本相同的时间点捕捉的重叠的图像数据的图像对与导航数据相关，由此重叠图像的每个分别的像素可以与地面上的地理坐标相关联。立体处理意味着只使用图像的与图像对的另一图像中的对应区域相匹配的那些部分。通过随后使用三角函数，从摄像机平面到地面上给定的点的距离可以被计算，并且3D地图表示可以被创建。

由于空域中良好的GPS信号接收条件以及用IMU设备得到的后期处理可能性，航拍图像可以以高精度被定位。从这样的图像得到的3D表示产生了具有详细的高分辨率纹理的高精度地理参考3D模型。然而，为了完成具有更加逼真的外观的3D模型，可以用街道级别的图像或者类似地用在中间高度处捕捉的图像来对航拍影像进行补充。这可以通过用街道级别的影像来使3D模型纹理化以及通过在3D重建过程中使用街道级别的影像来完成。为了使这两者中的任何一个成为可能，街道级别的影像必须相对于3D模型以高精度被定位，并且底层的3D模型必须具有足够的纹理和几何结构细节以使得街道级别的影像具有与3D模型的充分对应。利用盒子状的建筑表示，在底层的3D模型中获得充分的地理参考的细节是困难的，原因在于这些模型的几何结构和纹理很少足够精确地表示现实世界。然而，使用高细节的航拍3D模型，以充分的精确度定位街道级别的影像是可能的。用精确的街道级别的姿态（pose），合并街道级别的影像以及3D重建诸如雕刻表面、阳台、装饰或精细的窗框之类的更加复杂的表面是可能的。因此，通过从街道级别的图像增加细节，增强了航拍3D表示的真实外观。

2006年第三届3D数据处理、可视化和传输国际研讨会（3DPVT’06）会议录中，南加州大学Hu等人的“Integrating LiDAR,Aerial Image and Ground Images for Complete Urban BuildingModeling”公开了融合激光雷达数据、航拍图像和地面视图图像用于创建精确的3D建筑模型的混合建模***。以交互方式从高分辨率的航拍图像提取用于复杂建筑形状的轮廓，使用基于基元的方法基于激光雷达数据自动地使表面信息相适应，并且将高分辨率的地面视图图像集成到模型中以生成完全地纹理化的CAD模型。

尽管使用航拍图像的3D建模通常会产生高质量的定位，但是街道级别的3D建模通常遭受低质量的定位。诸如例如由阻挡产生的GPS信号阴影、信号失真和在街道级别的车辆的相对多变的运动中IMU数据的漂移之类的因素恶化了在地面级别上的测量。这使得记录的街道级别图像的位置是不精确的。进一步地，给定的实际摄像机的机械性能和光学性能与假定相同的摄像机的这些性能不同，这产生了错误的测量。而进一步的问题是，对准以非常不同的角度捕捉的图像是很麻烦的，原因在于难于找到重叠的图像数据。因此，当将街道级别的图像投影到由航拍图像得来的3D模型上时，由于用于捕捉街道级别的图像的地面级别摄像机的姿态与航拍3D模型的地理参考细节不相符，所以存在不匹配的重大风险。

发明内容

本发明的一个目标是改进现有技术中以纹理化的3D模型来定位捕捉的（或采集的）图像、特别是捕捉的街道级别的图像的方法。随后，采集的（街道级别的）图像可以被应用到它们定位所用的3D模型，从而创建出增强的且更加逼真的3D模型，特别是通过添加进一步的纹理信息或细化几何构造信息。

该目标通过根据独立权利要求的使用纹理化3D模型来定位诸如街道级别图像的捕捉的（或采集的）图像的方法和设备而达到。优选实施例由从属权利要求定义。

为此，本发明提供了使用空间区域的纹理化3D模型来定位图像的方法和设备。所述方法包括：采集要定位的图像，该图像表示所述空间区域的至少一部分；在使用包含在3D模型中的纹理信息的同时，将采集的图像与该3D模型对准以获得新估计的姿态；以及使用所述新估计的姿态来定位采集的图像。所述设备具有用于执行这些操作的处理装置。

出于本申请的目的，采用“姿态”意指摄像机的位置和姿势。术语“纹理化”和“纹理信息”被赋予其在计算机图形和几何建模领域中的普通含义。“纹理化”可以基于摄影数据或手动输入的图形信息，特别是通过为3D模型中的表面分配颜色值。“捕捉”（或“采集”或“记录”）图像的操作可以指将诸如摄像机的成像设备处的入射光以计算机可读形式编码。图像采集可以特别地由数字摄影领域中的本身已知的过程来执行。进一步地，应当理解，术语“街道级别的图像”不只是用于基本在地面级别以基本水平的摄像机姿势采集的图像，而且还可以更一般地指描绘由纹理化的3D模型表示的空间区域的一部分的任何（2D）图像。这样的图画可以由地面级别的摄像机、或者位于汽车或建筑结构中的升高的摄像机、飞机等等采集。应当清楚的是，在这个意义上，采集的（街道级别的）图像也可以包含在纹理化的3D模型中出现的可视特征，因此采集的图像可以相对于在纹理化的3D模型中使用的坐标而定位。

通过使用纹理信息，本发明相比现有技术的方法应用更广泛。特别地，其提供了未以街道级别采集的、从而缺少地平线或类似结构的图像的定位；在这样的图像中，纹理特征相比地平线是更加经常可得的，这允许使用包含在3D模型中的纹理信息来相对于3D模型定位图像。

在本发明的第一方面中，提供了用于采集要与纹理化的3D模型定位的图像以及以采集的图像的估计姿态在3D模型中渲染图像的方法和设备。采集的图像与渲染的图像对准，其中采集的图像的新估计的姿态被确定。接着，使用所述新估计的姿态来定位采集的图像。在本发明的所有方面中，对准步骤可以包括平移、旋转和/或重新缩放采集的图像，因此其在较小程度上与渲染的图像不同；一般而言，姿态的变化意味着图像经历了平移、旋转和重新缩放的组合。

有利的是，通过使用已有的纹理化3D模型，大大改进了采集的图像的定位。例如，很适合用于立体感的航拍图像最初可以被捕捉以创建3D模型。通过向3D模型添加纹理，会促进随后与采集的（或捕捉的）图像的对准。具有质量优的定位和正确放置的纹理的创建3D模型的任何已知方法可以被用于定位采集的图像。使用本发明的方法和设备，人造（或渲染的）图像在纹理化3D模型中以任何姿态被获得，其在理论上与对应的采集的图像完全相同。在纹理化的3D模型中在任何位置获得人造图像的能力使得渲染的图像的无穷集合能够与采集的图像相匹配。这进一步允许以估计的姿态生成图像从而验证所述估计的姿态。

在本发明的一个实施例中，采集的（街道级别的）图像与渲染的图像的对准进一步包括将采集的图像与渲染的图像相匹配。合适的是，在第一方面中，匹配步骤可以包括将第一2D图像中的点或区域与第二2D图像中的点或区域相关的过程。将街道级别的影像与由航拍影像生成的3D模型匹配的现有技术方法一般会遭受对街道级别图像的照片的实际观察角度的大的变化敏感这一问题。所述实际观察角度对例如街道级别的图像与3D模型中感兴趣的区域有多相似有很大影响。从3D模型渲染图像使得解决原始照片之间的较大的差异成为可能。进一步地，在3D模型中的任何位置渲染图像的能力促进了对大的初始姿态估计误差的处理。

现有技术的姿态估计过程通常从图像之间的姿态差异来计算两个图像的特征点的深度。即所述深度不是已知的，其只在估计姿态的相同过程中被估计。在本发明中，所述深度可以从对于处理目的而言有价值的3D模型被提取。已知的现有技术特征匹配方法包括例如尺度不变量特征变换（SIFT）和加速强健特征（SURF）。

在本发明的另一个实施例中，渲染的图像与采集的图像之间的差异被确定。此后，多个图像以紧邻的姿态被渲染，以紧邻的姿态被渲染的图像分别与采集的图像相比较。最后，相对于采集的图像具有最小差异的渲染的图像被选取用于对准。这是有利的，因为在对准开始之前就可能获得作为采集的图像的良好估计的经渲染图像。

在本发明的第二方面中，提供了用于采集要与纹理化的3D模型定位的图像（诸如街道级别的图像）和将采集的图像以该采集的图像的估计姿态投影到纹理化的3D模型上的方法和设备。投影的采集的图像与纹理化3D模型对准，其中采集的图像的新估计的姿态被确定。接着，使用所述新估计的姿态，采集的图像被定位。投影的步骤可以包括将采集的图像划分为一个或多个子区域以及将所述一个或多个子区域与以纹理化3D模型编码的表面相关联。合适的是，在第二方面中，匹配步骤可以包括将已有的纹理化3D模型中的表面上的第一2D纹理的点或区域与将采集的图像投影到（纹理化的）3D模型上而得到的第二2D纹理的点或区域相关的过程。换言之，第二2D纹理可以是采集的图像的子集，并可能经历了包括作为投影结果的非均匀缩放的透视畸变。另选地，匹配步骤可以包括将已有的纹理化3D模型中的点、表面区域或体积与将采集的图像投影到模型上而得到的经修改的纹理化3D模型中的点、表面区域或体积相关联。

在本发明的第三方面中，提供了用于采集要与纹理化的3D模型定位的图像（诸如街道级别的图像）和将采集的图像以该采集的图像的估计姿态投影到纹理化的3D模型上的方法和设备。第一图像在所述纹理化3D模型中被渲染，第二图像在将采集的图像投影到模型上而得到的经修改的纹理化3D模型中使用相同的姿态被渲染。投影的采集的图像与纹理化3D模型对准，其中采集的图像的新估计的姿态被确定。接着，使用所述新估计的姿态，采集的图像被定位。合适的是，在第三方面中，匹配步骤可以包括将（已有的纹理化3D模型中的）第一渲染的2D图像中的点或区域与（将采集的图像投影到模型上而得到的经修改的纹理化3D模型中的）第二渲染的2D图像中的点或区域相关。

在本发明的所有方面中，本发明的实施例可以包括如下步骤（或被配置为执行如下步骤的处理装置）：一旦采集的图像被定位，就从中提取信息，以及将该信息包括进纹理化3D模型中。要提取的信息可以是几何性质或者可以指呈现在纹理化3D模型上的表面的纹理。

值得注意的是，本发明涉及权利要求中记载的特征的所有可能的组合。当研究权利要求和下面的描述时，本发明进一步的特征和优势将变得明晰。本领域的技术人员将认识到，本发明的不同的特征可以被组合以建立下面描述的实施例之外的实施例。

附图说明

参照附图给出了本发明的实施例的详细描述，其中：

图1a示出了区域的完美渲染的3D模型；

图1b示出了相同区域的更加逼真地渲染的3D模型；

图2a示出了要在3D模型中定位的对象的街道级别的图像；

图2b说明了根据本发明的定位过程的第一步骤，其中在3D模型中使用街道级别的图像姿态来渲染图像；

图3是说明根据本发明的定位过程的实施例的流程图；

图4是说明根据本发明的定位过程的进一步的实施例的流程图；

图5说明了根据本发明的实施例的将采集的图像与渲染的图像对准；

图6示出了空间尺度表示，其在本发明的实施例中被利用；

图7a示出了根据本发明的实施例的创建包围每个点的区域；

图7b示出了根据本发明的实施例的将包围采集的图像的特定点的区域与渲染的图像的对应区域匹配；以及

图7c示出了根据本发明的实施例的采集的图像中的匹配点的校正。

具体实施方式

为了根据本发明的实施例、使用已有的纹理化的3D模型来改进街道级别影像的定位，非常适合于立体感的航拍图像可以初始地被捕捉以创建3D模型。初始地，3D模型也可以基于图纸或计算机辅助设计数据而被创建。作为航拍图像的另选方式，拟建模的空间区域可以使用由卫星或其他航空器携带的摄像机来成像。立体处理意味着只使用图像的与图像对的另一图像的对应区域匹配的那些部分。首先，在基本相同的时间点捕捉包括重叠的图像数据的图像对。可以将该对的每个图像与各自的位置和姿势相关。根据要获得的质量，可以将各自图像中的每个单个像素与位置和姿势相关，或者可以将各自图像中的像素组进行相关。通过执行该相关，重叠图像的每个像素可以与地面上的地理坐标相关联，并且后续的转换有助于图像到普通地面平面的转换。

通过随后使用公知的三角函数，特别是用三角形法，可以计算从摄像机平面到地面上的给定点的距离，并且可以最终创建3D模型。为了添加细节，该3D模型是纹理化的，为3D模型带来了颜色、亮度和结构。进一步地，通过向例如建筑的3D模型填加纹理，将有助于随后的与捕捉的（街道级别的）图像的对准。举例来说，如果已经使用航拍图像来创建3D表示，则纹理数据从航拍图像本身是现成可获得的。因此，选取的捕捉的图像可以被应用到3D表示以创建纹理并提供更多的细节。然而，应当注意的是，其他已知的以优质的定位创建3D模型的方法也可以被用来提供用于定位捕捉的（街道级别的）图像的纹理化3D模型。

现在，为了创建增强的且更加逼真的3D模型，拟在纹理化的3D模型中增强的对象（例如建筑）的（街道级别的）图像被捕捉，并且有利的定位过程被提出以定位街道级别的影像，这样，随后影像可以正确地与纹理化3D模型对准。下面会描述该过程。应当注意的是，该过程的很大的优势在于其是高度自动化的。因此，不需要手动操作、处理或加工。定位过程可以在已经安装了足够的软件的合适的计算机上实施和运行。作为定位过程的输入，3D模型已经被创建，并且一个或多个（街道级别的）图像已经被捕捉。出于说明的目的，图1a示出了包括房屋101、102、104，多棵树木104、105、106以及附近道路107的延伸的区域的完美渲染的3D模型。而实际上，3D模型会展现出缺陷，如图1b所示。由于纹理化的航拍3D模型的分辨率一般太低以致于不能从街道级别的渲染中被观看，所以3D模型有时在质量方面变差。例如，房屋101、102和103的轮廓可能是轻微错位和不连续的，并且，诸如房屋103的前侧上的窗户和门之类的细节没有完美地建模。需要注意的是，出于说明的目的，图1b中示出的错位被高度夸大了。在实践中，航拍3D模型是相当不错的，但在分辨率和细节方面不足。因此，可以捕捉地面级别的图像并接着利用其来增强和改进图1b的（不完美的）航拍3D模型。图2a示出了房屋103的前侧的地面级别的图像210。这是用某种摄像机姿态拍摄的高分辨率的纹理图像，可以被用来增强航拍3D模型。

参照图2b，定位过程的第一步骤是在3D模型中使用摄像机姿态来渲染图像，其可以是在街道级别的。如果摄像机的投影模型是已知的，其当在3D模型中渲染图像时被使用。图2b示出了在3D模型212中使用摄像机姿态和维度渲染的图像211，其产生了与被从3D模型渲染的采集的图像类似的图像数据。现在，如果采集的（街道级别的）图像的姿态已经与（航拍）3D模型的地理参考完全符合，则渲染的图像会在定位方面已经与采集的图像对准，这由213所指示。因此，在理想情况下，渲染的图像与采集的图像会重合。然而，如在上面已经讨论过的，在实践中并非如此，因此总是存在不合需要的定位不匹配，这由214所指示。

举例来说，采集的图像和渲染的图像都可以使用诸如索贝尔滤波器的梯度法来处理。通过这种方式，在特征检测之前对两个图像执行边缘检测。

图3示出了根据本发明的定位过程的实施例。如在上面已经讨论的，在步骤320中，采集要与纹理化3D模型定位的图像，在步骤321中，在3D模型中以估计的采集姿态渲染图像。即，曾被用来捕捉图像的姿态被用于在3D模型中渲染图像。为了能够得到新的、改进的采集图像姿态从而克服图2中的214所示出的定位不匹配的问题，在步骤322中将采集的图像与渲染的图像对准，其中确定了新估计的采集姿态。最后，在步骤323中，使用在对准步骤中确定的新估计的姿态来定位采集的图像。

用于使用纹理化的3D模型来定位采集的图像的第一另选方式是采集要与纹理化的3D模型定位的图像并将采集的图像以估计的采集图像的姿态投影到纹理化的3D模型上。投影的图像与纹理化的3D模型对准，其中确定了新估计的所采集图像的姿态。接着，使用所述新估计的姿态来定位采集的图像。下面给出的本发明的实施例可以相应地应用到定位采集的图像的该另选方式。

用于使用纹理化的3D模型来定位采集的图像的第二另选方式是采集要与纹理化的3D模型定位的图像并将采集的图像以估计的采集图像的姿态投影到纹理化的3D模型上。在所述纹理化的3D模型中渲染第一图像，在将采集的图像投影到3D模型上而得到的纹理化的3D模型中使用相同的姿态渲染第二图像。投影的图像与纹理化的3D模型对准，其中确定了新估计的所采集图像的姿态。接着，使用所述新估计的姿态来定位采集的图像。跟第一另选方式的情况一样，下面给出的本发明的实施例可以相应地应用到定位采集的图像的该第二另选方式。

图4示出了本发明的进一步的实施例，其中图3的对准步骤322由步骤430中的将采集的图像与渲染的图像匹配来承担。此后，在步骤431中确定匹配的采集的图像与渲染的图像之间图像坐标的位移。最后，在步骤432中通过考虑所述位移来调整采集的图像的姿态。因此，往回参考图3中的步骤323，采集的图像的经调整的姿态产生新估计的姿态。

在本发明的另一个实施例中，调整由确定渲染的图像与采集的图像之间的差异来承担。此后，以紧邻的姿态渲染几个图像。接着，将以紧邻姿态渲染的各个图像与采集的图像比较。最终，以新的姿态渲染的图像中的一个会相较于任何其他的渲染的图像相对于采集的图像展现出较小的差异。选取该渲染的图像用于进一步的处理。

参照图4说明了本发明的又一个实施例。在该实施例中，在估计新的姿态之前，通过更新图像采集姿态来减小总位移，直到找出最小总位移，其中该姿态通过考虑该最小总位移来调整。即，更新图像采集姿态并登记一组位移，如果总位移不被认为是足够小的，则设置新的图像采集姿态并研究对应的一组位移，依此类推，直至找出最小总位移。结果是，寻找最小总位移产生了新估计的姿态，采集的图像以该姿态被定位。

在本发明的一个实施例中，参照图5，将采集的图像与渲染的图像对准从确定采集的图像210中的一组特征点540和渲染的图像215中相同图像坐标处的一组对应的点的步骤开始。在本发明的进一步的实施例中，丢弃不会被投影到3D模型表面上的点540'、540''，这具有只有对改进的3D模型有贡献的数据被使用的优点。这使得能够在早期就移除错误匹配的点。

使用尺度空间表示，利用相关来在每个尺度级别中查找匹配的特征点。找到匹配的级别之间的一致性以及每个尺度级别中的不同相关窗口尺寸之间的一致性表明匹配为真。

在本发明的一个实施例中，对于确定为特征点的各点，使用航拍3D模型作为地理参考来计算3D坐标，其产生了如前面已经讨论过的高质量的定位。因此，为其计算了3D坐标的特征点被投影到采集的图像中。此后，进行将属于采集的图像数据的特征点与属于3D模型的特征点对准的过程。

通过使用牛顿-拉普森（Newton-Raphson）最小化结合用于离群点去除的RANSAC来最小化投影的3D点与渲染的图像中的对应的特征点之间的差异，从而完成一组特征点的对准。

在前述实施例的进一步发展中，识别采集的图像210中的一组特征点540以及渲染的图像215中相同图像坐标处的一组对应的点。在将该组点分布在各自的图像中之后，在采集的图像与渲染的图像之间进行特征匹配。在本发明的一个实施例中，这是通过生成采集的图像和渲染的图像各自的尺度空间表示来执行的。尺度空间表示由相关联图像的不同地尺度化的图像表示（被称为级别）构成。这在图6中予以说明，图6示出了通常所称的“高斯金字塔”，其中金字塔底部以原始分辨率显示图像，随后的每个级别以之前级别的一半的分辨率显示图像。创建和使用尺度化的空间表示是提取图像中不同尺寸的特征的有效方法。

在参照图7a-c描述的本发明的实施例中，对于所有点或者其中选取的子集，在采集的图像和渲染的图像中分别创建包围选定点731、733的区域的子图像730、732。即，研究包围选定点的给定区域。由在匹配过程中使用的所选取的“相关窗口”确定所述区域以及其他子图像的区域的尺寸。在选取相关窗口尺寸时要做出折中。较大的子图像由于图像差异（诸如不同的观察点）会遭受精度损失，然而其更有可能找到正确的位置。较小的子图像较不容易由于图像差异而出错，但更可能找到虚假匹配。在实践中，该基于相关的特征匹配意味着所选取的采集的子图像在渲染的子图像内移动。对于渲染的子图像中的采集的子图像的每次移动，测量两个子图像之间的相关性并找出具有最大相关值的图像坐标，如图7b所示，其中图7b中的上图示出了开始位置，而下图说明了找到了最大相关性的情形。该最大相关图像坐标给出了渲染的子图像与采集的子图像之间的位移（d1，d2）向量。如果位移向量指示了过大的位移，则丢弃该相关点。通常，这在尺度表示的每个级别中并且对于每个点都执行，这产生了总的位移测量。在本发明的一个实施例中，对于给定的点，如果在尺度表示的几个相继级别中位置是一致的，则该点被接受为匹配。该匹配过程针对分布在两个图像中的每个点执行。当使用上面给出的基于相关的特征匹配过程时，存在找到“虚假”匹配或者根本找不到匹配的潜在风险，因此在尺度表示的多个级别中进行相关。给定点在尺度表示的几个相继级别的尺度表示中的一致定位是对于“真正”匹配的有利的指标。进一步地，这极大地改进了正确匹配的特征的数量。金字塔顶部的小尺寸的图像提供很少的错误，从而可以解决姿态方面的大的错误。金字塔的基部提供在小细节上的匹配。因此，如果所有的级别找到相同的图像坐标，则其可以被认为是很好的匹配。

参照图7c，估计的位移向量被用于本发明的实施例中以校正匹配点的位置。被认为是匹配的点，其最初分布在采集的图像中，现在考虑位移d1、d2而被设置在对应特征的坐标处。下面将这些点称为“特征点”。

当做出了特征匹配时，对与每个点相关联的相关值对进行评估。在本发明的一个实施例中，设置针对相关值的阈值，如果相关值低于阈值则被丢弃。如上面所讨论的，剩余的点则被认为是匹配的。

在本发明的一个实施例中，对于确定是特征点的各点，使用航拍3D模型作为地理参考来计算3D坐标，其产生了如前面已经讨论过的高质量的定位。因此，已经为其计算了3D坐标的特征点被投影到采集的图像中。此后，进行将属于采集的图像数据的特征点与属于3D模型的特征点对准的过程。

通过使用某种数值最小化方法（例如牛顿-拉普森最小化）最小化投影的3D点与渲染的图像中的对应的特征点之间的差异，来完成一组特征点的对准。该过程会更新采集的图像的姿态。在新的姿态中，通过摄像机模型，3D点被投影到图像坐标。图像空间中所有特征点与其各自的匹配点之间的距离给出了误差测量结果以进行最小化。几个姿态的迭代允许进行牛顿-拉普森最小化以估计最佳姿态。然而，在特征点中存在几个被称为离群点（outlier）的具有虚假匹配的点。为此，要采用被称为随机抽样一致性（RANSAC）的迭代方法。利用RANSAC来将采集的图像的特征点与渲染的图像的特征点相拟合。相比于其他方法，RANSAC特别善于在这种类型的应用中从特征点中去除离群点。RANSAC被迭代运行，直到街道特征点与渲染的3D模型的特征点之间的位置误差低于预定阈值水平或者已经达到预先设定的最大迭代数目。

在本发明的一个实施例中，通过随机选取特征点的小子集来实施RANSAC。使用上述的最小化过程，使采集的图像的新的姿态与特征点的该子集相适应。接着，以如在最小化过程中的相同方式针对新的摄像机姿态测试剩余的每个特征点。该过程迭代多次，并选取具有最高数目的被认可的特征点的摄像机姿态。用来寻找该摄像机姿态的特征点的所选取子集以及被认可的点的列表现在都被认为是内围点（inlier），并由此在采集的（街道级别的）影像与渲染的图像之间正确匹配。这些特征点被用来使用如上所描述的相同的最小化过程来估计新的摄像机姿态。

下面将对最小化过程示例。如上面已经描述的，已经为其计算了3D坐标的特征点被投影到采集的图像中。接下来，进行将属于采集的图像的特征点与属于渲染的图像的特征点对准的过程，这通过使用牛顿-拉普森最小化或类似的方法最小化采集的图像中投影的3D点与渲染的图像中对应的特征点之间的差异来完成。

初始地，在采集的图像中选取多个点，例如5个不同的点。接着，测量所选取的5个点与渲染的图像中对应的5个点之间的图像坐标的差异。牛顿-拉普森最小化被使用，这意味着，采集的（街道级别的）图像的姿态被改变，直到找到了图像坐标的差异的最小值。

对于采集的（街道级别的）图像的该最小化姿态，检查采集的图像的剩余特征点与渲染的图像中的剩余特征点匹配得如何。即，测量采集的图像的剩余特征点与渲染的图像的对应的剩余特征点之间的距离，其给出被认为匹配的点的数目，比如100。因此，对于这些特定随机选取的特征点，共有5+100=105个匹配点。

这会重复多次，并且每次迭代给出采集的图像的新姿态以及两个图像之间的匹配特征点的对应数目。对于具有最高数目的匹配点的迭代，采集的图像被认为与渲染的图像对准，并且得到了采集的图像的对应姿态。

作为结果，使用已有的纹理化3D模型大大地改进了采集的图像的定位。随后，可以将定位被改进的采集的图像应用到3D模型以提供更好的细节和纹理。

现在，在该阶段中，要么采集的图像被认为已充分地定位，过程可以结束，要么从图3中的步骤321开始重复该定位过程。从而，在3D模型中使用采集的（街道级别的）图像的新的、改进的姿态来渲染新的图像，继续如上面所描述的定位过程，直到找到用于采集的图像的进一步改进的位置。

一旦图像被定位，图像的GPS位置的相对变化或IMU数据可以被用来计算用于下一图像的近似位置。具有增强的起始姿态减少了自动地定位不计其数的采集的图像所需的计算，也减少了错误地匹配图像的风险。

一旦正确地定位，已知的基于成像的纹理化方法可以被应用来创建具有较高分辨率纹理的3D模型。使用准确的定位，立体计算或者其他的3D重建方法可以被用来改进已有3D模型的几何构造，以及基于采集的（街道级别的）影像来创建新的3D模型。

本发明的方法通常由具有计算设施的设备例如计算机来执行。该计算机通常包括执行存储在相关联的存储器中、用于获得所需功能的适当的软件的一个或多个处理器。然而，可以使用其他具有计算能力的合适的设备，例如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）等，以在执行存储在计算机可读介质上的适当的可下载软件时，使用纹理化的3D模型来定位采集的图像。这样，通过举例的方式，计算机可读介质可以包括计算机存储介质（非暂时性介质）和通信介质（暂时性介质）。如本领域的技术人员所公知的，计算机存储介质包括以用于信息存储的任何方法或技术实现的易失性的和非易失性的、可移动的和不可移动的介质，诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘（DVD）或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备，或者可以被用来存储想要的信息以及可以由计算机访问的任何的其他介质。进一步地，对于本领域的技术人员公知的是，通信介质通常含有计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制的调制数据信号中的其他数据，并且包括任何的信息传递介质。

尽管这里已经描述了本发明的示例性实施例，但是对于本领域的普通技术人员而言明显的是，可以做出对这里描述的发明的许多变型、修改或替换。因此，上面对本发明的各种实施例的描述和附图被视为非限制性的。

Claims

1.一种使用空间区域的纹理化三维3D模型来定位二维2D图像的方法，包括：

获得表示空间区域的纹理化3D模型；

采集表示所述空间区域的至少一部分的2D图像；

相对于所述纹理化3D模型确定所采集的2D图像的初始姿态；

至少部分基于所述初始姿态从所述纹理化3D模型合成2D图像；

将所采集的2D图像与合成2D图像对准以获得新估计的姿态；以及

至少部分基于所述新估计的姿态，相对于所述纹理化3D模型定位所采集的2D图像。

2.根据权利要求1所述的方法，其中合成2D图像的动作包括：

将所采集的2D图像投影到所述纹理化3D模型上；以及

至少部分基于所述投影合成2D图像。

3.根据权利要求1所述的方法，其中合成2D图像的动作包括：

将所采集的2D图像投影到所述纹理化3D模型上；以及

至少部分基于所述投影获得所述纹理化3D模型中的表面的纹理。

4.一种使用空间区域的纹理化三维3D模型来定位二维2D图像的设备，包括：

用于获得表示空间区域的纹理化三维3D模型的装置；

用于采集表示所述空间区域的至少一部分的二维2D图像的装置；

用于相对于所述纹理化3D模型确定所采集的2D图像的初始姿态的装置；

用于至少部分基于所述初始姿态从所述纹理化3D模型合成2D图像的装置；

用于将所采集的2D图像与合成2D图像对准以获得新估计的姿态的装置；以及

用于至少部分基于所述新估计的姿态，相对于所述纹理化3D模型定位所采集的2D图像的装置。

5.根据权利要求4所述的设备，还包括：用于采集所述空间区域的一部分的街道级别2D图像的装置。

6.根据权利要求4所述的设备，其中用于从所述纹理化3D模型合成2D图像的装置包括：

用于将所采集的2D图像投影到所述纹理化3D模型上的装置；以及

用于至少部分基于所述投影合成2D图像的装置。

7.根据权利要求4所述的设备，其中用于合成2D图像的装置包括：

用于至少部分基于所述投影获得所述纹理化3D模型中的表面的纹理的装置。

8.根据权利要求4所述的设备，其中用于合成2D图像的装置包括：用于合成来自所述纹理化3D模型的与所述初始姿态相对应的一部分周围的多个2D图像的装置。

9.根据权利要求8所述的设备，其中用于将所采集的2D图像对准的装置包括：

用于确定所采集的2D图像与所述多个合成2D图像中的每一个之间的位移的装置；

用于从所述多个合成2D图像中选择具有最小位移的图像的装置；以及

用于将所采集的2D图像与所选择的2D图像对准以获得新估计的姿态的装置。

10.根据权利要求9所述的设备，进一步包括：用于一次或多次重复确定位移差并选择图像以及将所采集的2D图像对准的装置。

11.根据权利要求10所述的设备，其中用于重复的装置持续到所确定的位移小于规定值为止。

12.根据权利要求9所述的设备，其中用于确定位移的装置包括：

用于识别所采集的2D图像中的第一特征的装置；

用于识别合成2D图像中的第二特征的装置；以及

用于比较第一特征和第二特征的装置，其中第一特征和第二特征越相似，所采集的2D图像和合成2D图像之间的位移差越低。

13.根据权利要求4所述的设备，进一步包括：

用于从所采集的2D图像提取纹理和/或几何信息的装置；以及

用于将所提取的信息包括到所述纹理化3D模型中的装置。

14.根据权利要求4所述的设备，其中用于将所采集的2D图像与合成2D图像对准以获得新估计的姿态的装置包括：

用于使用图像坐标在所采集的2D图像中分布一组点的装置；以及

用于使用相同的图像坐标在合成2D图像中分布对应的一组点的装置。

15.根据权利要求14所述的设备，进一步包括用于至少部分基于来自所述纹理化3D模型的信息丢弃所分布的一组点中的一个或多个点的装置。

16.根据权利要求14所述的设备，进一步包括：

用于选取包围所采集的2D图像的所述一组点中的每个点的区域的装置；

用于选取包围合成2D图像的所述对应的一组点中的每个点的区域的装置；

用于测量所采集的2D图像的每个选取区域与合成2D图像的对应的选取区域之间的相关性的装置；以及

用于至少部分基于所测量的相关性，调整所采集的2D图像的所述一组点中的一个或多个点的位置的装置。

17.根据权利要求16所述的设备，进一步包括：

用于针对所采集的2D图像的经调整的一个或多个点，使用所述纹理化3D模型作为地理参考来计算3D坐标的装置；

用于将计算的3D坐标投影到所采集的2D图像中的装置；以及

用于通过更新所采集的2D图像的姿态来最小化所投影的3D坐标与合成2D图像中对应的特征点之间的差异的装置。

18.根据权利要求4所述的设备，进一步包括用于在显示元件上以所述新估计的姿态显示所采集的2D图像的装置。