CN107683498B

CN107683498B - 利用视觉特征进行图像的自动连接

Info

Publication number: CN107683498B
Application number: CN201680030440.9A
Authority: CN
Inventors: 艾伦·谢里登; 斯科特·本杰明·萨特金
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-08-07
Filing date: 2016-08-04
Publication date: 2019-07-23
Anticipated expiration: 2036-08-04
Also published as: EP3274964A1; JP6353175B1; CN107683498A; EP3274964B1; US20170038212A1; JP2018520430A; US9551579B1; GB2554224A; DE112016001829T5; GB201716739D0; DE202016008004U1; KR101965878B1; WO2017027322A1; KR20170131662A

Abstract

本公开的方面涉及在图像之间生成导航路径。可选择从第一位置(312)获取的第一图像(310)和从第二位置(322)获取的第二图像(320)。可确定第一位置(312)相对于第二位置(322)的定位。可基于该定位来选择用于第一图像和第二图像的第一帧和第二帧(330、350)。可识别第一图像帧和第二图像帧(330、350)中的每一个图像帧的第一组视觉特征和第二组视觉特征。可确定第一组视觉特征与第二组视觉特征之间的匹配视觉特征(510、520)。可通过评估匹配视觉特征(510、520)的一个或多个定位来确定第一图像和第二图像(310、320)之间的视线的置信水平。至少基于该置信水平，生成从第一图像(310)到第二图像(320)的导航路径(620)。

Description

利用视觉特征进行图像的自动连接

相关申请的交叉引用

本申请为2015年8月7日提交的美国专利申请No,14/821,118的继续申请，该申请的公开由此通过引用并入本文。

背景技术

目前在世界各处存在巨大量的球面全景图像。由于当全景图像本身相对于地球被现实地摆姿态(pose)时，不同全景图像之间的成像排队(line up)，附近连接的全景图像允许用户以感觉好像他们导航于真实三维空间一样的方式通过所述全景图像导航。然而，基于距离和图形拓扑来确定全景图像之间的连接性是非平凡的，特别是在没有全景图像的几何形状的知识的情况下。对于未沿全景图像通常共享视线的街或其它区域捕获的全景图像提出添加的挑战。

发明内容

本公开的方面提供了一种方法。该方法包括：通过一个或多个处理器选择从第一位置获取的第一图像和从第二位置获取的第二图像；通过一个或多个处理器确定第一位置相对于第二位置的定位；通过一个或多个处理器基于该定位选择第一图像上的第一帧和第二图像上的第二帧；通过一个或多个处理器识别第一帧中的第一图像的第一组视觉特征，以及第二帧中的第二图像的第二组视觉特征；通过一个或多个处理器确定第一组视觉特征与第二组视觉特征之间的匹配视觉特征数目；通过一个或多个处理器，通过评估匹配视觉特征的一个或多个定位来确定第一图像和第二图像之间的视线的置信水平；以及，通过一个或多个处理器，至少基于该置信水平生成从第一图像到第二图像的导航路径。

在一个示例中，第一帧位于来自第一位置的方向，并且第二帧位于来自第二位置的方向，并且第一帧和第二帧以第一位置和第二位置之间的直线路径为中心。在另一示例中，确定第一位置相对于第二位置的定位还包括确定第一图像和第二图像的姿态信息，该姿态信息包括关于基本方向的第一图像和第二图像的定向信息。

在进一步示例中，该方法还包括，对于给定的一对匹配的第一视觉特征和第二视觉特征评估该第一匹配视觉特征和第二匹配视觉特征的定位，将第一射线从第一位置投射到第一全景图像中的第一匹配视觉特征；将第二射线从第二位置投射到第二全景图像中的第二匹配视觉特征；以及，确定第一射线和第二射线是否在第一全景图像和第二全景图像之间的区域中彼此最接近，其中基于确定第一射线和第二射线是否在第一全景图像和第二全景图像之间的区域中彼此最接近来进一步确定置信水平。

在又一示例中，确定视线的置信水平还包括为每个匹配视觉特征对分配权重，该权重对应于以下中的至少一个：(1)给定匹配视觉特征的再投影误差；(2)每个给定匹配视觉特征与第一位置和第二位置之间的直线路径的角度距离；以及(3)给定匹配视觉特征之间的视觉相似性。在该示例中，置信水平可根据以下中的至少一个确定：(1)与视觉特征匹配的所识别到的视觉特征的百分比；(2)分配给每个匹配视觉特征对的权重；(3)第一图像和第二图像之间的距离；以及(4)匹配视觉特征的估计位置的残差。

替代或另外地，在该示例中，匹配视觉特征的估计位置可通过以下确定：将第一射线从第一位置投射到第一组视觉特征中的第一特征；将第二射线从第二位置投射到第二组视觉特征中的第二特征，第一特征和第二特征为一对匹配视觉特征；以及当第一射线和第二射线在彼此的预定距离内时，将最接近第一射线和第二射线彼此最接近之处的点设定为第一特征和第二特征的估计位置。在该替代或附加示例中，该方法还可包括，当第一射线和第二射线不在预定距离内或偏离时，从匹配视觉特征数目中去除该匹配视觉特征对。

在另一示例中，还根据一个或多个约束来生成导航路径。在该示例中，一个或多个约束可包括以下中的至少一个：最小生成树约束、德洛内(Delaunay)三角剖分约束、为每个顶点设定边数、为边设定最大距离、仅允许一层冗余、以及最小化顶点对之间的距离。

本公开的另一方面提供了另一方法。该方法包括：通过一个或多个处理器选择多幅图像；通过一个或多个处理器，通过以下对于所述多幅图像中的每对图像确定每对图像之间的连接性的置信水平：(1)通过一个或多个处理器确定一对图像中的在第一位置处获取的第一图像相对于一对图像中的在第二位置处获取的第二图像的定位；(2)通过一个或多个处理器，沿第一位置和第二位置之间的直线路径将来自第一位置的帧投影到第一图像和第二图像上；(3)通过一个或多个处理器，识别第一图像上的帧的投影内的该第一图像的第一组视觉特征；(4)通过一个或多个处理器，识别第二图像上的帧的投影内的该第二图像的第二组视觉特征；以及(5)通过一个或多个处理器，确定第一组视觉特征与第二组视觉特征之间的匹配视觉特征；至少基于匹配视觉特征，确定第一图像和第二图像之间的视线的置信水平；以及通过一个或多个处理器，根据每一对图像的置信水平，生成一对或多对图像之间的导航路径。

在一个示例中，该方法还包括通过一个或多个处理器，生成连接图，其中，每一图像是在该连接图中的顶点，且每一导航路径是在该连接图中的边。在该示例中，生成连接图还可包括通过应用一个或多个约束去除至少一条边。一个或多个约束包括以下中的至少一个：最小生成树约束、德洛内三角剖分约束、为每个顶点设定边数、为边设定最大距离、仅允许一层冗余、以及最小化顶点对之间的距离。

本公开的又一方面提供了一种***。该***包括存储器，存储器存储从第一位置获取的第一图像和从第二位置获取的第二图像；一个或多个计算设备，计算设备具有一个或多个处理器，一个或多个处理器被配置为：确定第一位置相对于第二位置的定位；基于该定位，选择第一图像上的第一帧和第二图像上的第二帧；识别第一帧中的第一图像的第一组视觉特征，以及第二帧中的第二图像的第二组视觉特征；确定第一组视觉特征与第二组视觉特征之间的匹配视觉特征数目；通过评估匹配视觉特征的一个或多个定位，确定第一图像和第二图像之间的视线的置信水平；以及至少基于该置信水平，生成从第一图像到第二图像的导航路径。

在一个示例中，第一帧位于来自第一位置的方向，且第二帧位于来自第二位置的方向，并且第一帧和第二帧以第一位置和第二位置之间的直线路径为中心。在另一示例中，一个或多个处理器还被配置为：还通过确定第一图像和第二图像的姿态信息来确定定位，该姿态信息包括关于基本方向的第一图像和第二图像的定向信息。

在进一步示例中，一个或多个处理器还被配置为：对给定一对匹配的第一视觉特征和第二视觉特征通过以下评估第一匹配视觉特征和第二匹配视觉特征的定位，将第一射线从第一位置投射到第一全景图像中的第一匹配视觉特征；将第二射线从第二位置投射到第二全景图像中的第二匹配视觉特征；确定第一射线和第二射线是否在第一全景图像和第二全景图像之间的区域中彼此最接近；并进一步基于确定第一射线和第二射线是否在第一全景图像和第二全景图像之间的区域中彼此最接近来确定置信水平。

在又一示例中，一个或多个处理器还被配置为：还通过为每一匹配视觉特征对分配权重来确定置信水平，该权重对应于以下中的至少一个：(1)给定匹配视觉特征的再投影误差；(2)每个给定匹配视觉特征与第一位置和第二位置之间的直线路径的角度距离；以及(3)给定匹配视觉特征之间的视觉相似性。在该示例中，一个或多个处理器还可被配置为：通过以下确定匹配视觉特征的估计位置：将第一射线从第一位置投射到第一组视觉特征中的第一特征；将第二射线从第二位置投射到第二组视觉特征中的第二特征，第一特征和第二特征为一对匹配视觉特征；以及当第一射线和第二射线在彼此的预定距离内时，将最接近第一射线和第二射线彼此最接近之处的点设定为第一特征和第二特征的估计位置。

附图说明

图1是根据本公开的方面的示例***的功能图；

图2是图1的示例***的绘图；

图3是根据本公开的方面的两个图像之间的关系的图示；

图4是根据本公开的方面的两个图像以及帧之间的关系的图示；

图5A是根据本公开的方面的图像和数据的图示；

图5B是根据本公开的方面的图像和数据的另一图示；

图5C是根据本公开的方面的图像和数据的另一图示；

图5D是根据本公开的方面的图像和数据的图示；

图6是根据本公开的方面的全景图像的集合和关系的图示；

图7是根据本公开的方面的全景图像的另一示例集合和关系的图示；

图8是根据本公开的方面的示例流程图；

图9是根据本公开的其它方面的另一示例流程图。

具体实施方式

概要

本技术涉及自动生成图像之间的连接，以用于从一幅图像到另一图像的现实导航。图像可以是从给定位置捕获宽视场的全景图像。利用全景图像的已知位置和姿态，一个全景图像可以以将不同全景图像之间的特征排队的方式，与附近的全景图像现实地连接。为了生成现实连接，应该考虑障碍物诸如墙壁或灌木。在这方面，只有其间存在视线的全景图像才应该连接。然后，用户可以通过全景图像导航，就好像他们正导航于真实的3D空间，从而避免存在的任何障碍物。

对于沿街的全景图像，连接性可以主要基于图像的定位和角度来确定。例如，当车辆沿着街行驶时，图像可以从车辆捕获。图像可以在行驶中被捕获，或者在车辆行驶一定距离时以规则的间隔捕获。使用设备上的传感器，姿态和位置信息均可以在捕获图像的时刻与每一图像相关联。以这种方式沿街捕获的图像通常可跟随清晰的路径。这样，邻近图像可以在不考虑视觉特征的情况下利用图像的姿态和位置信息在空间上自动地连接。换言之，沿道路的彼此邻接的全景图像可以被连接。在两条道路的交叉处的全景图像也可以在空间上连接。或者，捕获图像的时间上的次序也可以用于在空间上自动连接图像。然而，对于没有街来引导过程的全景图像的集合，诸如距离、姿态、共同特征、共享视线、几何形状等的信息可以被利用以准确和快速地确定全景图像之间的连接性。

为了确定两个全景图像之间的连接性，可以选择第一全景图像和第二全景图像。第一全景图像可以从第一位置捕获，而第二全景图像可以从相近的第二位置捕获，例如，第一位置的几米以上或以下之内。第一全景图像和第二全景图像可与位置信息和姿态信息相关联。位置和姿态信息还可被用于确定第一全景图像和第二全景图像相对于彼此的定位。

一旦选择了全景图像的定位，就可以识别出第一全景图像和第二全景图像的帧。所识别的帧可以以第一位置和第二位置之间的直线路径为中心，并且定位于相对于帧放置在其上的相应全景图像的捕获位置的方向上。在这方面，两个全景图像之间的帧可以相对于它们相应的全景图像处于相同的定位。作为示例，如从相应的捕获位置测量，帧可以覆盖零度和180度之间的角度距离。

第一全景图像和第二全景图像的视觉特征的集合可以在每一帧内被识别出。所识别到的视觉特征在帧内的位置以及彼此相对的位置也可以被识别。视觉特征还可以使用任何数目的对象识别技术来识别。

可以将第一全景图像上的帧内的所识别到的视觉特征与第二全景图像上的帧内的所识别到的视觉特征比较，以识别任何匹配特征。两个视觉特征之间的匹配可以表明，所述视觉特征代表了同一对象或对象的部分。

连接性可基于在第一全景图像和第二全景图像之间是否存在视线。换句话说，如果在第一全景图像和第二全景图像之间存在视线，则第一全景图像和第二全景图像可以连接。

为了确定第一全景图像和第二全景图像之间的视线的置信水平，可以评估匹配视觉特征的定位。在匹配视觉特征相对于第一全景图像和第二全景图像定位于相同或相似方向之处，在第一全景图像和第二全景图像之间可能存在视线。因此，基于从捕获两个图像并且朝向给定一对匹配视觉特征延伸的位置开始的射线是否指向相同或相似的方向，可以确定连接性的置信水平。如果给定一对匹配视觉特征的射线指向相同或相似的方向，则置信水平可能高于射线指向相反或接近相反方向的情况。

置信水平可以进一步基于向每个匹配视觉特征对给予的权重。在一个示例中，给定一对匹配视觉特征可基于该特征的估计位置与它们的实际位置如何接近来被加权。与具有更不准确估计距离的匹配视觉特征对相比，具有更准确估计距离的匹配视觉特征对可以被给予更大的权重。另一方面，如果一个或两个估计距离与实际差异相差超过可接受的程度，则匹配视觉特征对可被认为是假匹配并且可以被忽略。

对给定匹配视觉特征对加权的另一示例是基于视觉特征与直线路径的角度距离。与具有较大角度距离的匹配视觉特征相比，具有小角度距离的匹配视觉特征可以被更高地加权。对给定匹配视觉特征对加权的进一步基础可以是与两个全景图像的两帧之间的视觉特征匹配的识别出的特征的百分比。

如果置信水平满足阈值置信值，则可确定在第一全景图像和第二全景图像之间存在视线。这样，可以沿第一位置和第二位置之间的直线路径从第一全景图像到第二全景图像生成连接。然而，如果置信水平不满足阈值，则可确定不存在视线，或相反，在第一全景图像和第二全景图像的位置之间存在某些会防止人们在这些位置之间直接移动的障碍物。在该示例中，在第一全景图像和第二全景图像之间可能不生成连接。连接可以包括识别两个图像之间的三维(3D)关系的信息，或模拟通过沿着直线路径从第一位置到第二位置的空间导航的3D转换。

对于全景图像的整个集合，可使用上述方法来创建连接图。在该连接图中，全景图像的每一个位置可以为顶点，并且两个全景图像之间的每个连接可以为边。一个全景图像还可具有与多于一个其它全景图像的连接。通过应用许多约束，可减少连接图中的连接数目。约束可以包括用于最小生成树和/或德洛内(Delaunay)三角剖分的约束。如果应用约束创建两个不连接的单独的全景图像组，则两组全景图像之间的连接图中的至少一个现有连接可不被去除。

示例***

图1和图2包括示例***100，在示例***100中可以实现本文中描述的特征。但不应将其认为限制本文中所述特征的公开的范围或有用性。在该示例中，***100能够包括一个或多个计算设备110、120、130和140，以及存储***150。一个或多个计算设备110能够包含典型存在于通用计算设备中的一个或多个处理器112、存储器114和其它部件。一个或多个计算设备110的存储器114能够存储可由一个或多个处理器112访问的信息，包括能够由一个或多个处理器112执行的指令116。

存储器还能够包括能够被处理器检索、操纵或存储的数据118。存储器能够是能够存储可由处理器访问的信息的任何非暂时类型，例如硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、可写入和只读存储器。

指令116能够是待由处理器直接执行的任何指令集，例如机器代码、或待由处理器间接执行的任何指令集，例如脚本。在这方面，术语“指示”、“应用”、“步骤”和“程序”能够在本文中互换使用。指令能够以目标代码格式存储，以用于由处理器直接处理，或以任何其它计算设备语言存储，包括根据需要解释或预先编译的独立源代码模块的脚本或集合。以下将更详细地说明指令的功能、方法和例程。

能够由处理器112根据指令116检索、存储或修改数据118。例如，尽管本文中描述的主题不受任何特定的数据结构限制，但数据能够以作为具有许多不同字段和记录或者结构化的表(例如XML文档)，被存储在计算机寄存器中在关系数据库中。数据也能够被格式化成任何计算设备可读的格式，例如但不限于二进制值、ASCII或Unicode。此外，数据能够包括足以识别相关信息的任何信息，例如数字、描述性文本、专有代码、指针、对存储在诸如其它网络位置的其它存储器中的数据的引用、或者由计算相关数据的函数所使用的信息。

一个或多个处理器112能够包括任何常规的处理器，例如商业上可得到的CPU。或者，处理器能够是专用部件，例如ASIC或其它基于硬件的处理器。尽管非必需，一个或多个计算设备110可以包括专门化的硬件部件以更快或更有效地执行特定的计算过程，例如将视频解码、将视频帧与图像匹配、使视频扭曲、将扭曲的视频编码等。

尽管图1功能性地将计算设备110的一个或多个处理器、存储器以及其它元件示出为在同一方框内，但是处理器、计算机、计算设备或存储器实际上能够包括可以储存或不储存在同一物理外壳内的多个处理器、计算机、计算设备或存储器。例如，存储器能够是硬盘驱动器或其它存储介质，其被定位在与一个或多个计算设备110的外壳不同的一个或多个外壳中。因此，对处理器、计算机、计算设备或存储器的引用将被理解为包括对可以以并行或非并行操作的处理器、计算机、计算设备或存储器的集合的引用。例如，计算设备110可以包括作为负载平衡的服务器群组(server farm)操作的服务器计算设备。又进一步，尽管下文描述的一些功能被指示为在具有单个处理器的单个计算设备上发生，但是本文描述的主题的各种方面能够由多个计算设备实现，例如，经过网络180传达信息。

一个或多个计算设备110能够位于网络180的各种节点处，并且能够直接地和间接地与网络180的其它节点通信。尽管图1-2中仅描绘了几个计算设备，但可以理解的是，典型***能够包括大量连接的计算设备，其中每个不同的计算设备(以及收集设备)处于网络180的不同节点处。本文中描述的网络180和介入节点能够使用各种协议和***互连，使得网络能够是因特网、万维网、特定内联网、广域网或本地网络的一部分。该网络能够利用标准通信协议，例如以太网、Wi-Fi和HTTP、对于一个或多个公司专有的协议，以及上述的各种组合。尽管，当信息如上所述地被传送或接收时，获得某些优点，但是本文中描述的主题的其它方面不限于任何特定的信息传送方式。

作为示例，一个或多个计算设备110可以包括一个或多个网络服务器，所述一个或多个网络服务器能够经由网络与存储***150以及计算设备120、130和140通信。例如，一个或多个服务器计算设备110可以利用网络180在显示器(例如计算设备120、130或140的显示器122、132或142)上向用户(例如用户220、230或240)传送和呈现信息。在这方面，计算设备120、130和140可以被认为客户端计算设备，并且可以执行下面描述的所有或某些特征。

每一客户端计算设备可与服务器计算设备110类似，被配置为具有如上文所述的一个或多个处理器、存储器和指令。每一客户端计算设备120、130或140可以是旨在由用户220、230、240使用的个人计算设备，并且具有通常连同个人计算设备使用的所有部件，例如，中央处理单元(CPU)、存储数据和指令的存储器(例如RAM和内部硬盘驱动器)，显示器，例如，显示器122、132或142(例如具有屏幕的监视器、触摸屏、投影仪、电视机或可操作为显示信息的其它设备)，以及用户输入设备124(例如鼠标、键盘、触摸屏或麦克风)。客户端计算设备还可以包括用于记录视频流的照相机、扬声器、网络接口设备以及用于将这些元件彼此连接的所有部件。

虽然客户端计算设备120、130和140可以各自包括全尺寸的个人计算设备，但其可以替代地包括能够经过诸如因特网的网络与服务器无线地交换数据的移动计算设备。仅作为示例，客户端计算设备120可以是移动电话，或诸如无线使能的PDA、平板PC或上网本的设备，这些设备能够经由因特网获得信息。在另一示例中，客户端计算设备130可以是头戴式的计算***。作为示例，用户可以使用小键盘、键盘、麦克风、与照相机一起使用视觉信号或触摸屏来输入信息。

存储***150可存储各种类型的信息。如下文更详细描述的，存储***150可以存储各种格式的视觉媒体，例如图像或视频。一些图像或/和视频可以是导航体验中的序列的一部分，其也可以被存储在存储***150上。这些图像或视频可以是与其它信息(例如能够用于检索图像的图像标识符、创建图像的时间、图像在何处被拍摄、观察图像的角度、以及图像格式(JPEG、TIFF等))相关联的图像文件的一部分。图像文件可能包含时间戳，时间戳具有诸如捕获图像的日期和时间的信息。图像文件还可包含姿态信息，该姿态信息包括指示位置(例如纬度和经度，或其它位置坐标)的地理位置信息，以及捕获图像的定向信息(姿态)。

存储***150可以存储图像、图像位置数据、图像姿态信息、3D几何数据以及用于分析和操纵图像或视频的算法。作为示例，位置信息可以包括纬度/经度坐标。图像的姿态可以被确定或已知，使得该图像可以相对于地球现实地被摆姿态(或定向)。至少一些存储的图像可包括具有比180度大的视场的全景图像。一些存储的图像可包括具有360度的视场的球面全景图像。对于球面全景图像，姿态信息可以指示出全景图像中的哪些部分指向上、下、北、南、东和/或西。3D几何数据可包括三维网格和/或点，三维网格和/或点识别至少某些图像中所描绘的位置处的物理特征。基于在相似位置中被捕获或具有相似的特征，图像可以被组织和存储为一些集合。图像间的连接也可被存储在存储***150上。

与存储器114一样，存储***150能够是能够存储可由服务器110访问的信息的任何类型的计算机化存储器，例如，硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、可写入和只读存储器。此外，存储***150可以包括分布式存储***，其中数据存储在多个不同存储设备上，这些存储设备可以在物理上位于相同或不同地理位置处。存储***150可以经由如在图1中所示的网络180连接到计算设备和/或可以直接连接到或并入任何计算设备110—140上(未示出)。

示例方法

除了上文描述的以及附图中示出的操作之外，现在将描述各种操作。以下操作不必按照下述的精确次序执行。相反，各种步骤能够以不同的次序或同时被处理(handle)，并且还可以添加或省略步骤。

如在图3中所示，可以选择从位置A捕获的第一全景图像310，以确定与邻近全景图像的连接性。可以选择从位置B 322捕获的附近第二全景图像320。第一全景图像和第二全景图像可与位置信息和姿态信息相关联。第一全景图像和第二全景图像可以是球面全景图像，其分别具有从第一位置和第二位置的完整360度视场。由第一全景图像和第二全景图像捕获的空间的3D几何形状可以是已知的。或者，空间的3D几何形状也可以是未知的。第一全景图像和第二全景图像相对于彼此的定位可以使用与每个全景图像相关联的位置和姿态信息来确定。

一旦选择了全景图像的定位，就可以识别出第一全景图像和第二全景图像的帧。因此，参考图3，利用确定的定位，就可以选择第一全景图像310上的第一帧330。所选择的第一帧330可以位于与第二全景图像320相邻的半球内，且以位置A和位置B之间的直线路径340为中心。也可以选择第二全景图像320上的第二帧350。第二帧350可以以直线路径340为中心。第二帧350可封闭第二全景图像320的与位置A相对的半球中的一部分。

如在图4中所示，也可以选择第一全景图像310上的第三帧430。第三帧430可以在与位置B相对的半球中以直线路径440为中心。此外，可以选择第二全景图像320上的第四帧450。第四帧450可以在与第一全景图像310相邻的半球中以直线路径440为中心。如从各自捕获的位置测量，第一帧330、第二帧350、第三帧430和第四帧450分别可以覆盖零度和180度之间的角度距离；例如：45度或90度。

第一全景图像和第二全景图像的视觉特征的集合可以在每一帧内被识别出。第一全景图像310的第一组视觉特征可以在第一帧330内被识别出。第二全景图像320的第二组视觉特征也可以在第二帧350内被识别出。第三组视觉特征和第四组视觉特征可以分别在第三帧430和第四帧450内被识别出。视觉特征可以包括线、角、纹理等。所识别到的视觉特征在帧内的位置以及彼此相对的位置也可以被确定。视觉特征可以使用任何数目的对象识别技术来识别。

可以将第一全景图像上的帧内所识别到的视觉特征与第二全景图像上的帧内所识别到的视觉特征比较，以识别任何匹配特征。在这方面，可以将第一组视觉特征与第二组视觉特征比较，以及可以将第三组视觉特征与第四组视觉特征比较。另外，可以将第二组视觉特征与第三组视觉特征比较，以识别任何匹配特征。两个视觉特征之间的匹配可以表明所述视觉特征代表了同一对象或对象的部分。例如，匹配视觉特征可以包括在对应定位处的匹配或对应的对象、图案、纹理、颜色、形状等，或者任何其它已知的视觉特征匹配算法。

第一全景图像和第二全景图像之间的视线的置信水平可以通过评估匹配视觉特征的定位来确定，如在图5A-5D中所示。基于从全景图像的捕获位置投射到给定匹配视觉特征对的射线是否相交于第一全景图像和第二全景图像之间的区域，可以来确定视线的置信水平。如果对于给定匹配视觉特征对的射线相交于第一全景图像和第二全景图像之间的区域之外，如在图5A中所示，则置信水平可以高于射线相交于全景图像之间的区域中的情况，如在图5B中所示。

如在图5A中所示，射线可以从位置A投射到第一全景图像310中的视觉特征510，并且从位置B投射到第二全景图像320中的视觉特征520。由于图5A中的射线指向同一方向，所以视线的置信水平可以增大。另一方面，如在图5B中所示，射线可以从位置A投射到第一全景图像310中的另一视觉特征512，并且从位置B投射到第二全景图像320中的另一视觉特征522。由于图5B中的射线指向接近相反的方向，所以视线的置信水平可以降低。

所确定的置信水平可进一步基于向每个匹配视觉特征对给定的权重。一种对给定匹配视觉特征对加权的方式是基于给定匹配视觉特征对之间的相似性水平。例如，给定匹配视觉特征对之间的相似性越大，则越可能匹配是良好的。

另一种对给定匹配视觉特征对加权的方式是基于再投影误差，或者特征的估计距离与其实际距离如何接近。如在图5C中所示，为了确定估计位置，射线可以从位置A投射到第一组视觉特征中的特征。另一射线可以从位置B投射到第二组视觉特征中的匹配特征。射线的交点530，或在大多数示例中，在射线实际不相交之处，它们彼此最接近的射线之间的点，可以是该特征的估计位置。特征相对于位置A和位置B的实际距离可以是已知的，或者可以基于用于第一全景图像和第二全景图像的已知3D几何数据或这些图像的位置来确定。因此，位置A和交点(或射线之间的点)之间的估计距离540可以被确定，并且与位置A与特征之间的实际距离比较。同样能够适合于距位置B的估计距离542。随后，可以基于估计距离540、542与实际距离如何接近来对给定匹配视觉特征对加权。与具有更不准确估计距离的匹配视觉特征相比，具有更准确估计距离的匹配视觉特征可以被更大地加权。然而，如果射线不在彼此的最小阈值距离之内(例如它们彼此相距太远)，或者一个或两个估计距离与实际的差异相差超过可接受的程度，那么匹配可以被认为是假匹配且可以被忽略。

对给定匹配视觉特征对的加权也可以基于在给定匹配视觉特征对的方向上投射的两个射线之间的最近点处的角度差。如果两条射线实际相交，则角度差是0。两条射线相交得越远，对应的视觉特征之间的匹配质量越差。因此，对于对应射线具有较大角度差的匹配视觉特征对，可以分配较小的权重。

对给定匹配视觉特征对加权的另一示例是基于视觉特征与直线路径的角度距离。如在图5D中所示，匹配特征的角度距离可以通过从位置A向匹配特征550、552、554投射射线并且测量射线与直线路径340之间角度来确定。与具有较大角度距离的匹配视觉特征相比，具有小角度距离的匹配视觉特征可以被更高地加权。

置信水平可进一步基于识别到的特征的什么百分比是匹配视觉特征来确定。匹配视觉特征的百分比与置信水平之间的关系可基于其它因素，例如，给定匹配视觉特征对的权重、匹配视觉特征的绝对数目、第一全景图像和第二全景图像之间的距离、以及估计特征位置的残差。如果百分比是小的，但是存在离直线路径的小角度距离内的匹配视觉特征的大百分比，那么置信水平可以是高的。同样，如果匹配视觉特征的绝对数目是高的，那么尽管匹配视觉特征的低百分比，置信水平仍然可以是高的。同样能够适合于当全景图像之间的距离是长的时，或当估计特征位置的残差是低的时。

两个图像之间的视线的最终置信水平可基于上述的任何组合。在这方面，加权可以一起组合成求和、加权求和、或利用组合加权值的任何其它已知技术。

如果最终置信水平满足阈值，则可确定在第一全景图像310和第二全景图像320之间存在视线，并且可以沿第一位置和第二位置之间的直线路径340从第一全景图像310至第二全景图像320生成连接。然而，如果最终的置信水平不满足阈值e，则可确定不存在视线，或相反，在第一全景图像和第二全景图像的位置之间存在某些障碍物，该障碍物会防止人们在这些位置之间直接移动。连接可以包括识别两个图像之间三维(3D)关系的信息，和模拟通过沿着直线路径从第一位置到第二位置的空间导航的3D转换。在这方面，每个连接都可以表示两个图像之间的导航路径。

当对于全景图像的整个集合执行上述特征时，可以创建连接图。如在图6中所示，在连接图600内，与全景图像的位置对应的每个位置A、B、C、D、E、F可被映射成顶点，且两个全景图像之间的每个连接610、620、630、640、650、660、670、680可以是边。一个全景图像可以具有与多于一个其它全景图像的连接，只要如使用上述特征确定的在这些图像之间存在视线。当集合中的全景图像密集连接并且在所有全景图像之间共享大量视觉特征时，图可能变得过度连接。挑战变成了生成连接，该连接可能导致以顺序的方式通过全景图像的集合的现实的导航路径，如在图7中所示。

为了减少连接图中的连接的数目，可以使用许多约束。约束可以包括用于最小生成(spanning)树和/或德洛内(Delaunay)三角剖分的约束。另外或替代地，约束可以包括仅产生每个全景图像的预定数目的连接、产生比预定距离小的连接、仅允许一层冗余、和/或最小化给定节点对之间的距离。约束还可以应用于一系列的逐渐限制性迭代。或者，用于减少连接的数目的约束可以被配置成在上述方法的开始处形成连接的约束。由此，如在图7中所示，可以去除连接620和650以减少连接图600中的连接的数目，从而创建新的，较不密集连接的连接图700。

如果应用约束创建两个不连接的单独的全景图像组，则两组全景图像之间的连接图中的至少一个现有连接可不被去除。或者，可以应用较少的限制性约束以确保集合中的所有全景图像连接到集合中的至少一个其它全景图像。例如，如果从连接图700去除连接680，则位置F将不具有与任何其它位置的连接。因此，如果应用约束是去除连接680，则可以将连接680作为例外以便给位置F保留至少一个连接。

图8是根据上述一些方面的示例流程图800，其可由诸如服务器计算设备110的一个或多个计算设备执行。在该示例中，在方框802处可选择从第一位置获取的第一图像和从第二位置获取的第二图像。接着，在方框804处可确定第一位置相对于第二位置的定位。在方框806处可选择第一图像上的第一帧和第二图像上的第二帧，该第一帧和第二帧分别相对于第一定位和第二定位处于相同的方向。在方框808处，可以分别在第一帧和第二帧中识别第一组视觉特征和第二组视觉特征。以类似的方式，在方框810处可选择第一图像上的第三帧和第二图像上的第四帧，以及在方框812处可分别在第三帧和第四帧中识别第三组视觉特征和第四组视觉特征。在方框814处可确定第一帧和第二帧之间以及第三帧和第四帧之间的匹配视觉特征数目。基于匹配视觉特征，在方框816处可确定第一图像和第二图像之间的视线的置信水平。在方框818处，根据该置信水平，可生成从第一图像到第二图像的导航路径。

图9是根据上述某些方面的另一示例流程图900，其可由一个或多个计算设备(诸如服务器计算设备110)执行。在该示例中，在方框902处可选择多幅图像。在方框904处，对于多幅图像中的每一对图像，可确定每一对图像之间的视线的置信水平。在方框906处，根据每一对图像的置信水平，可生成一对或多对图像之间的导航路径。因此，在方框908处可生成连接图，其中每一图像是在该连接图中的顶点，而每一导航路径是在该连接图中的边。

用户，例如用户220，可以使用全景图像或全景图像的集合，来虚拟地探索由全景图像描绘的区域，如同有人实际行走通过世界一样。用户220可以在存在清晰视线的全景图像之间行进，并且避免被物体(例如墙壁)阻挡的路径。全景图像之间形成的连接可以包括识别两个图像之间的三维(3D)关系的信息，和模拟通过沿着直线路径从第一位置到第二位置的空间导航的3D转换。因此，当在第一全景图像和第二全景图像之间存在视线时，用户220在第一全景图像310处开始并导航到第二全景图像320。如果在第一全景图像310和第二全景图像320之间没有视线，则没有连接，并且用户220不能从第一全景图像导航到第二全景图像，就像如果有阻挡的话，人将不能从第一位置导航到第二位置。

上述特征可以用于快速和准确地生成图像之间的连接，其创建更现实的用户体验。这些连接可以为用户在由两个全景图像描绘的两个位置之间导航改善模型。通过使用具有位置和姿态信息的全景图像中的匹配视觉特征，具有共同视线的全景图像被连接。另一方面，全景图像之间存在人无法行走通过的一个或多个障碍物，例如墙壁或灌木，这些全景图像没有被连接。通过在全景图像的集合中生成这些连接而产生的结果图可以用于虚拟地探索由全景图像描绘的位置，如同人们实际上行走通过全景图像中描绘的空间一样。此外，所述特征使全景图像之间的连接的数目最小化，以允许用户以更顺序的方式通过全景图像导航。因此，这些特征提供了快速和自动的方式来连接地理上接近的全景图像的组，使得用户可以更容易地虚拟地导航于位置。

尽管本文中已经参考特定实施例描述了本发明，但是应当理解，这些实施例仅仅是本发明的原理和应用的说明。因此，应当理解，可以对说明性实施例进行许多修改，并且在不脱离由所附权利要求书限定的本发明的精神和范围的情况下，可以设计其它布置。

Claims

1.一种用于在图像之间生成导航路径的方法，所述方法包括：

通过一个或多个处理器选择从第一位置获取的第一图像和从第二位置获取的第二图像；

通过所述一个或多个处理器确定所述第一位置相对于所述第二位置的定位；

通过所述一个或多个处理器基于所述定位来选择所述第一图像上的第一帧和所述第二图像上的第二帧；

通过所述一个或多个处理器识别所述第一帧中的所述第一图像的第一组视觉特征以及所述第二帧中的所述第二图像的第二组视觉特征；

通过所述一个或多个处理器确定所述第一组视觉特征与所述第二组视觉特征之间的匹配视觉特征的数目；

通过所述一个或多个处理器评估所述匹配视觉特征的一个或多个定位来确定所述第一图像和所述第二图像之间的视线的置信水平；以及，

通过所述一个或多个处理器至少基于所述置信水平来生成从所述第一图像到所述第二图像的导航路径。

2.根据权利要求1所述的方法，其中，所述第一帧位于来自所述第一位置的方向，并且所述第二帧位于来自所述第二位置的方向，并且所述第一帧和所述第二帧以所述第一位置和所述第二位置之间的直线路径为中心。

3.根据权利要求1所述的方法，其中，确定所述定位进一步包括确定所述第一图像和所述第二图像的姿态信息，所述姿态信息包括关于基本方向的所述第一图像和所述第二图像的定向信息。

4.根据权利要求1所述的方法，进一步包括：对于给定一对匹配的第一视觉特征和第二视觉特征，评估第一匹配视觉特征和第二匹配视觉特征的定位：

将第一射线从所述第一位置投射到第一全景图像中的所述第一匹配视觉特征；

将第二射线从所述第二位置投射到第二全景图像中的所述第二匹配视觉特征；以及

确定所述第一射线和所述第二射线是否在所述第一全景图像和所述第二全景图像之间的区域中彼此最接近，

其中，基于确定所述第一射线和所述第二射线是否在所述第一全景图像和所述第二全景图像之间的区域中彼此最接近来进一步确定所述置信水平。

5.根据权利要求1所述的方法，其中，确定所述置信水平进一步包括为每个匹配视觉特征对分配权重，所述权重对应于以下中的至少一个：

(1)给定匹配视觉特征的再投影误差；

(2)每个所述给定匹配视觉特征与所述第一位置和所述第二位置之间的直线路径的角度距离；以及

(3)所述给定匹配视觉特征之间的视觉相似性。

6.根据权利要求5所述的方法，其中，根据以下中的至少一个确定所述置信水平：

(1)与视觉特征匹配的所识别到的视觉特征的百分比；

(2)分配给每个匹配视觉特征对的所述权重；

(3)所述第一图像和所述第二图像之间的距离；以及

(4)所述匹配视觉特征的估计位置的残差。

7.根据权利要求5所述的方法，其中，所述匹配视觉特征的估计位置通过以下确定：

将第一射线从所述第一位置投射到所述第一组视觉特征中的第一特征；

将第二射线从所述第二位置投射到所述第二组视觉特征中的第二特征，所述第一特征和所述第二特征是一对匹配视觉特征；以及

当所述第一射线和所述第二射线在彼此的预定距离内时，将最接近所述第一射线和所述第二射线彼此最接近之处的点设定为所述第一特征和所述第二特征的估计位置。

8.根据权利要求7所述的方法，进一步包括：当所述第一射线和所述第二射线不在预定距离内或偏离时，从所述匹配视觉特征数目中去除所述匹配视觉特征对。

9.根据权利要求1所述的方法，其中，进一步根据一个或多个约束来生成所述导航路径。

10.根据权利要求9所述的方法，其中，所述一个或多个约束包括以下中的至少一个：最小生成树约束、德洛内三角剖分约束、为每个顶点设定边数、为边设定最大距离、仅允许一层冗余、以及最小化顶点对之间的距离。

11.一种用于在图像之间生成导航路径的方法，所述方法包括：

通过一个或多个处理器选择多个图像；

通过所述一个或多个处理器对于所述多个图像中的每对图像通过以下来确定每对图像之间的连接性的置信水平：

通过所述一个或多个处理器确定一对图像中的在第一位置处获取的第一图像相对于一对图像中的在第二位置处获取的第二图像的定位；

通过所述一个或多个处理器沿所述第一位置和所述第二位置之间的直线路径将来自所述第一位置的帧投影到所述第一图像和所述第二图像上；

通过所述一个或多个处理器识别所述第一图像上的帧的投影内的所述第一图像的第一组视觉特征；

通过所述一个或多个处理器识别所述第二图像上的帧的投影内的所述第二图像的第二组视觉特征；以及

通过所述一个或多个处理器确定所述第一组视觉特征与所述第二组视觉特征之间的匹配视觉特征；

至少基于所述匹配视觉特征来确定所述第一图像和所述第二图像之间的视线的置信水平；以及

通过所述一个或多个处理器根据每一对图像的所述置信水平来生成一对或多对图像之间的导航路径。

12.根据权利要求11所述的方法，进一步包括通过所述一个或多个处理器生成连接图，其中每一图像是在所述连接图中的顶点并且每一导航路径是在所述连接图中的边。

13.根据权利要求12所述的方法，其中，生成所述连接图进一步包括通过应用一个或多个约束来去除至少一条边。

14.根据权利要求13所述的方法，其中，所述一个或多个约束包括以下中的至少一个：最小生成树约束、德洛内三角剖分约束、为每个顶点设定边数、为边设定最大距离、仅允许一层冗余、以及最小化顶点对之间的距离。

15.一种用于在图像之间生成导航路径的***，所述***包括：

存储器，所述存储器存储从第一位置获取的第一图像和从第二位置获取的第二图像；

一个或多个计算设备，所述一个或多个计算设备具有一个或多个处理器，所述一个或多个处理器被配置为：

确定所述第一位置相对于所述第二位置的定位；

基于所述定位来选择所述第一图像上的第一帧和所述第二图像上的第二帧；

识别所述第一帧中的所述第一图像的第一组视觉特征以及所述第二帧中的所述第二图像的第二组视觉特征；

确定所述第一组视觉特征与所述第二组视觉特征之间的匹配视觉特征的数目；

通过评估所述匹配视觉特征的一个或多个定位来确定所述第一图像和所述第二图像之间的视线的置信水平；以及

至少基于所述置信水平来生成从所述第一图像到所述第二图像的导航路径。

16.根据权利要求15所述的***，其中，所述第一帧位于来自所述第一位置的方向，并且所述第二帧位于来自所述第二位置的方向，并且所述第一帧和所述第二帧以所述第一位置和所述第二位置之间的直线路径为中心。

17.根据权利要求15所述的***，其中，所述一个或多个处理器被进一步配置为：通过进一步确定所述第一图像和所述第二图像的姿态信息来确定所述定位，所述姿态信息包括关于基本方向的所述第一图像和所述第二图像的定向信息。

18.根据权利要求15所述的***，其中，所述一个或多个处理器被进一步配置为：对于给定一对匹配的第一视觉特征和第二视觉特征，通过以下来评估第一匹配视觉特征和第二匹配视觉特征的定位：

将第二射线从所述第二位置投射到第二全景图像中的所述第二匹配视觉特征；

确定所述第一射线和所述第二射线是否在所述第一全景图像和所述第二全景图像之间的区域中彼此最接近，以及

基于确定所述第一射线和所述第二射线是否在所述第一全景图像和所述第二全景图像之间的区域中彼此最接近来进一步确定所述置信水平。

19.根据权利要求15所述的***，其中，所述一个或多个处理器被进一步配置为：通过进一步为每个匹配视觉特征对分配权重来确定所述置信水平，所述权重对应于以下中的至少一个：

(1)给定匹配视觉特征的再投影误差；

(2)每个给定匹配视觉特征与所述第一位置和所述第二位置之间的直线路径的角度距离；以及

(3)所述给定匹配视觉特征之间的视觉相似性。

20.根据权利要求19所述的***，其中，所述一个或多个处理器被进一步配置为通过以下来确定所述匹配视觉特征的估计位置：