CN110715647A

CN110715647A - 使用多次三维扫描进行对象检测

Info

Publication number: CN110715647A
Application number: CN201910623350.6A
Authority: CN
Inventors: V·沙普德莱纳-科图雷; M·S·B·希玛纳
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-07-13
Filing date: 2019-07-11
Publication date: 2020-01-21
Also published as: US20200020118A1; US11580652B2; US20210279898A1; US11100659B2

Abstract

本公开涉及使用多次三维扫描进行对象检测。本文公开的一个示例性具体实施有利于在不同条件下使用对象的多次扫描来检测对象。例如，可通过在第一条件(例如，明亮光照)下在第一路径上移动图像传感器来捕获所述对象的图像来创建所述对象的第一次扫描。然后可通过在第二条件(例如，昏暗光照)下在第二路径上移动图像传感器来捕获所述对象的附加图像来创建所述对象的第二次扫描。具体实施确定了转换，所述转换使来自这些多次扫描的所述扫描数据彼此相关联，并且使用所述转换在单个坐标系中生成所述对象的3D模型。增强内容可相对于该对象在单个坐标系中定位，并因此将显示在适当位置，而不论稍后检测到物理对象的条件如何。

Description

使用多次三维扫描进行对象检测

相关申请的交叉引用

本申请要求2018年7月13日提交的美国临时申请序列号62/697,512的权益，该申请全文以引用方式并入本文。

技术领域

本公开整体涉及检测和跟踪图像中描绘的真实世界物理对象，并且具体地涉及用于基于先前的对象扫描来检测和跟踪此类物理对象的***、方法和设备。

背景技术

各种电子设备包括捕获真实世界环境的图像的图像传感器。例如，许多移动设备包括可用于捕获在此类设备的显示器上呈现或存储以供随后查看的帧序列(例如，视频帧)的图像传感器。检测和跟踪出现在此类帧中的对象是各种应用所期望的。可通过捕获对象的图像然后使用这些图像来检测后续图像中的对象来促成此类检测和跟踪。然而，当捕获条件与检测条件不匹配时，可能无法检测和跟踪对象。例如，如果执行捕获时的光照不同于执行检测时的光照，则可能无法检测到该对象。

发明内容

本文所公开的各种具体实施包括在不同条件下使用对象的多次扫描的设备、***和方法。例如，可通过在第一条件(例如，明亮光照)下在第一路径上移动图像传感器来捕获对象的图像来创建对象的第一次扫描。然后可通过在第二条件(例如，昏暗光照)下在第二路径上移动图像传感器来捕获对象的附加图像来创建对象的第二次扫描。对于第一路径和第二路径，图像传感器的起始位置、移动和结束位置可能彼此不同。因此，两次扫描的坐标系将可能彼此不同。这对于各种应用(诸如增强)来说是不可取的。例如，如果用户想要用增强内容来增强对象(例如，定义要在对象上方显示的文本信息框)，则不清楚应当使用哪个坐标系来放置增强。用户应当可能需要执行相对于与扫描中的每一次相关联的多个不同坐标系中的每一个定义增强的累赘任务。具体实施确定转换，其使来自对象的多次扫描的扫描数据彼此相关联从而在公共坐标系中相关联。

本公开的一些具体实施涉及在具有处理器、存储器和图像传感器的计算设备上执行各种操作以便于使用多次3D扫描的对象检测。设备使用图像传感器获得在第一条件(例如，昏暗光照)下的物理对象(例如，玩具积木结构)的第一扫描数据。第一扫描数据可包括从第一坐标系中的多个图像传感器位置捕获的图像(例如，关键帧)。设备还使用图像传感器获得在第二条件(例如，明亮光照)下的物理对象的第二扫描数据。第二条件通常在一种或多种方式(例如，光照、对象状态等)方面不同于第一条件。第二扫描数据可包括从第二坐标系中的多个图像传感器位置捕获的图像。

设备确定第一坐标系和第二坐标系之间的转换以便于对象检测。在一个具体实施中，通过将第一扫描数据的一个或多个图像(例如，关键帧)与第二扫描数据的一个或多个图像匹配来确定转换。在一个具体实施中，通过确定与第一扫描数据的第一图像和第二扫描数据的第二图像相关联的图像传感器的姿态(例如，位置和取向)之间的偏移来确定转换。在一个具体实施中，通过将与第一扫描数据相关联的第一点云和与第二扫描数据相关联的第二点云对准来确定转换。

在确定转换之后，设备基于该转换生成包含第一扫描数据和第二扫描数据的物理对象的三维(3D)模型(例如，与描述符相关联的点的点云)。在其中3D模型为点云的具体实施中，点可具有基于第一扫描数据和第二扫描数据两者的描述符。在一个具体实施中，例如基于第一点与第二点的接近度，3D模型将具有基于第一扫描数据的描述符的第一点与具有基于第二扫描数据的描述符的第二点合并。

所生成的3D模型可在单个坐标系中表示第一扫描数据和第二扫描数据两者。这有利于各种特征，包括但不限于例如在计算机生成的现实(CGR)环境中对增强内容的改进使用。在一个具体实施中，将增强内容与3D模型在相对于单个坐标系的位置处相关联。因此，当最终用户使用3D模型来检测对象时，最终用户的设备可经由其图像传感器获得图像数据，使用3D模型和图像数据来检测物理对象，并且使用单个坐标系将3D模型与物理对象对准。该过程可涉及将图像数据与3D模型的点云描述符匹配或确定图像传感器相对于3D模型的当前姿态。最终用户的设备可基于图像数据和增强内容来显示描绘物理对象的CGR环境。例如，增强内容可基于使用单个坐标系将3D模型与物理对象对准来定位。

本文所公开的具体实施还提供了便于捕获多次扫描以创建表示多个不同条件的3D模型的用户界面特征。在一个具体实施中，这涉及使得用户能够在一个条件下创建对象的3D扫描并且呈现请求用户创建另一扫描的通知或为用户提供创建另一扫描的选项，使得用户能够在另一条件下创建附加扫描并且自动确定用于第一次扫描和第二次扫描的坐标系之间的转换并利用扫描和转换两者生成3D模型。

根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；这一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且这一个或多个程序包括用于执行或导致执行本文所述方法中的任一种的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，当由设备的一个或多个处理器执行时，这些指令使得该设备执行或导致执行本文所述方法中的任一种。根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器、图像传感器和用于执行或导致执行本文所述方法中的任一种的装置。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1是示出了根据一些具体实施的真实世界环境中的示例性物理对象的框图。

图2是根据一些具体实施的显示图1的示例性物理对象的计算机生成的现实(CGR)环境的移动设备的框图。

图3是示出了根据一些具体实施的图1的示例性物理对象的第一次扫描的框图。

图4是示出了根据一些具体实施的图1的示例性物理对象的第二次扫描的框图。

图5是示出了根据一些具体实施的在图3的第一次扫描和图4的第二次扫描期间的图像传感器的路径的差异的框图。

图6是示出了根据一些具体实施的基于图3的第一次扫描所生成的示例性点云的框图。

图7是示出了根据一些具体实施的基于图4的第二次扫描所生成的示例性点云的框图。

图8是示出了基于根据一些具体实施所确定的转换的基于图3的第一次扫描和图4的第二次扫描所生成的示例性点云的框图。

图9是示出了根据一些具体实施的用于生成物理对象的3D模型并检测物理对象的设备的示例性部件的框图。

图10为根据一些具体实施的用于基于所确定的转换生成包括来自多次扫描的扫描数据的3D模型的方法的流程图表示。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的***、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将会知道，其他有效方面或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的***、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

图1是示出了真实世界环境100中的示例性物理对象105的框图。虽然本示例和本文所讨论的其他示例示出了单个对象105的3D模型，但本文所公开的技术也适用于多个对象以及整个场景和其他真实世界环境。本文所用的短语“物理对象”是指真实世界中的任何类型的物品或物品的组合，包括但不限于积木、玩具、塑像、家具、门、建筑物、图片、油画、雕塑、灯具、标牌、桌子、地板、墙壁、书桌、水域、人脸、人手、人发、其他人体部位、整个人体、动物或其他生物体、衣服、纸张、杂志、书籍、车辆、机器或其它人造物体，以及存在于真实世界中可被识别并建模的任何其他自然或人造物品或物品组。

图2是显示图1的示例性物理对象105的计算机生成的现实(CGR)环境200的移动设备205的框图。在该示例中，设备205捕获物理对象105的一个或多个图像，并且将那些图像与3D模型(例如，先前捕获的关键帧、点云值等)进行比较以检测和跟踪真实世界对象105的存在。设备205可例如使用RGB-D信息、基于红外摄像机的深度检测和其他此类技术来确定物理对象105的姿态(例如，位置和取向)。因此，在检测到真实世界对象并确定其姿态之后，设备205可将对象的3D模型和与真实世界空间对应的坐标系中的物理对象对准。

给定这种对准方式，该设备能够提供将真实世界环境的各方面与增强的内容相结合的CGR环境200。在该示例中，CGR环境200包括物理对象105的描述210和增强内容215，增强内容215包括文本气泡和文本短语“IT’S MAGNETIC(它是磁性的)”。增强内容215基于物理对象105与3D模型的对准，相对于物理对象105的描述210而定位。例如，CGR环境200创建者可能已经指定增强内容215要在基于物理对象105的3D模型的表面中心处的固定点所确定的位置处显示。一旦3D模型与物理对象105对准，设备205就确定用于增强内容215的适当位置并产生用于显示的CGR环境200。

本文所公开的具体实施使得能够显示如图2所示的增强内容和其他特征部，即使在3D模型包括来自与不同坐标系相关联的物理对象105的不同扫描的扫描数据的情况下亦是如此。例如，物理对象105的第一次扫描可能已在昏暗光照条件下进行，并且物理对象105的第二次扫描可能已在明亮光照条件下进行，并且与不同的坐标系相关联。

坐标系未对准在图3和图4中示出。图3是示出图1的示例性物理对象105的第一次扫描300的框图，并且图4是示出图1的示例性物理对象105的第二次扫描400的框图。在图3中，第一次扫描300包括在沿第一路径315a-i移动设备(例如，图2的设备205)的同时捕获物理对象105的图像时进行的扫描。第一路径300包括在从图像记录开始处的初始姿态310a到记录结束处的最终姿态310j的多个图像传感器姿态310a、310b、310c、310d、310e、310f、310g、310i、310j下的设备。在第一次扫描300期间，设备可跟踪其自身姿态(例如，经由设备上的一个或多个运动传感器的跟踪位置和取向变化、惯性数据等)。因此，第一3D坐标系中的数据的相对位置对于在姿态310a、310b、310c、310d、310e、310f、310g、310i、310j中的每一个处捕获的图像来说是已知的。可将来自这些图像的图像数据结合起来以基于这些已知姿态生成物理对象的第一3D模型(例如，图6中所示的第一点云)。

在图4中，第二次扫描400包括在沿第二路径415a-i移动设备的同时捕获物理对象105的图像时进行的扫描。第二路径400包括在从图像记录开始处的初始姿态410a到记录结束处的最终姿态410j的多个图像传感器姿态410a、410b、410c、410d、410e、410f、410g、410i、410j下的设备。在第二次扫描400期间，设备可跟踪其自身姿态，因此，第二3D坐标系中的数据的相对位置对于在姿态410a、410b、410c、410d、410e、410f、410g、410i、410j中的每一个处捕获的图像来说是已知的。可将来自这些图像的图像数据结合起来以基于这些已知姿态生成物理对象的第二3D模型(例如，图7中所示的第二点云)。应当指出的是，针对扫描中的每一次所确定的姿态可相对于针对该特定扫描所选择的坐标系(例如，具有原点和取向)来定义，并且用于每次扫描的坐标系可以是不同的。因此，即使获得扫描300和400的真实世界位置相同，所确定的姿态310a-j和410a-j也可能是不同的，因为它们是相对于不同坐标系定义的。

图5是示出了在图3的第一次扫描和图4的第二次扫描期间的图像传感器的路径的差异的框图。在第一次扫描和第二次扫描之间，设备通常可能无法准确地跟踪其自身的姿态变化。在一些情况下，第一次扫描和第二次扫描相隔几分钟、几天、几周或甚至更长时间。在任何情况下，设备都无法将第一次扫描300的图像传感器姿态位置与第二次扫描400的图像传感器姿态位置相关联。因此，本文所公开的技术通过确定将第一次扫描和第二次扫描关联的转换并且提供实际有效的途径来使从这些扫描中开发出的3D模型在单个公共坐标系中彼此相关联来解决这一缺陷。

图6和图7示出了由两次扫描生成的3D模型。图6是示出了根据一些具体实施的基于图3的第一次扫描所生成的示例性点云600的框图，并且图7是示出了基于图4的第二次扫描所生成的示例性点云700的框图。

图8是示出了基于根据一些具体实施所确定的转换的基于图3的第一次扫描和图4的第二次扫描所生成的示例性点云的框图。在该示例中，确定将来自扫描中的每一次的至少一个图像(例如，关键帧)对准的转换。该转换可指定与关键帧相关联的图像传感器相机姿态之间的位置关系(例如，旋转r和平移t)。这允许两次扫描中的所有关键帧和相关联的3D模型(例如，点云)利用单个坐标系彼此对准。在图8的示例中，点云600、700使用第一次扫描的坐标系彼此对准。在其他具体实施中，使用第二次扫描的坐标系或另一公共坐标系。

图8的点云800可包括具有来自多次扫描的描述符并因此具有多个不同条件的点。例如，第一次扫描可包括基于在百叶窗打开以允许明亮光照条件的情况下进行的物理对象的扫描而确定的点的色值，而第二次扫描可包括基于在百叶窗关闭或在太阳落山之后以提供相对较暗的光照条件的情况下进行的物理对象的扫描而确定的点的色值。类似地，点云800可包括具有来自反映物理对象的不同配置或状态的多次扫描的描述符的点。例如，物理对象可具有打开和关闭的面板，并且由第一次扫描所确定的点可表示具有关闭面板的物理对象，并且由第二次扫描所确定的点可表示具有打开面板的物理对象。

为了对准扫描，可使用来自扫描中的每一次的至少一个图像(例如，关键帧)来确定转换。在一些具体实施中，在第一次扫描的关键帧和第二次扫描的关键帧中检测相同特征中的一者或多者。这些相同特征在相应坐标系中的3D空间位置被确定，并且在公共坐标系中彼此相关。匹配特征位置以确定针对相应关键帧的图像传感器的相对姿态。换句话讲，通过确定用以使两个坐标系之间的相同特征对准的适当的转换(例如，旋转r，平移t)，***能够总体上确定两个坐标系之间的适当转换。因此，不同扫描的图像传感器姿态以及3D模型(例如，点云)可很容易地使用该转换在公共坐标系中彼此对准。

在一些具体实施中，将第二次扫描的3D模型添加到第一次扫描的3D模型，例如，添加附加点、合并点等，如图8所示。因此，在该示例中，所有3D模型数据均包括在使用第一次扫描的坐标系的单个模型中。然后，可使用组合的3D模型来检测随后获得的图像中的物理对象。由于组合的3D模型具有来自两次扫描从而来自两种不同条件(例如，明亮光照和昏暗光照)或配置的点，因此能够更好地在这些条件中的任一条件下检测随后获得的图像中的物理对象。此外，附加数据可使得3D模型通常更稳健(例如，能够更好地检测物理对象)，即使扫描未与不同的条件或配置相关联也是如此。

在一些具体实施中，设备对多次扫描之间的点云特征进行匹配以确定转换。在一些具体实施中，使用关键帧和点云特征的组合来确定该转换。在一些具体实施中，应用机器学习模型(例如，经训练的神经网络)来匹配图像或点云特征或以其他方式确定该转换。

在一些具体实施中，使用单个特征匹配(例如，来自每次扫描的一个关键帧中的一个特征)来确定该转换。在一些具体实施中，多特征匹配将第一次扫描的单个关键帧中的多个特征与第二次扫描的单个关键帧中的匹配特征进行比较以确定该转换。在一些具体实施中，使用多个关键帧(例如，每次扫描的两个关键帧、每次扫描的所有关键帧等)中的多个特征来确定转换。

在一些具体实施中，组合3D模型(例如，点云)涉及将来自不同扫描的不同模型的点合并。例如，相同物理点可由来自两次不同扫描的两个不同描述符来表示。***可基于空间接近度或描述符相似性来估计这两个点应当被视为单个点。例如，***可将在3D空间中彼此分开小于最小阈值距离的点合并/级联。

需注意，虽然图1至图8示出了使用两次扫描，但本文所公开的技术也适用于组合来自任意数量的扫描的数据。这些技术在许多上下文中同样有用。例如，该技术可便于创建包括相对于物理对象定位的增强(例如，增强内容)的CGR环境。内容创建者能够使用针对多个条件的多次扫描来创建物理对象的3D模型，在单个坐标系中定义相对于该内容定位的增强，并且相信增强将在相对于模型的适当位置处显示，而不论最终用户在随后使用CGR环境期间检测到物理对象的何种条件。

由内容创建者(例如，用于图像捕获和3D模型创建)和最终用户(例如，用于使用3D模型的对象检测)所使用的设备可以是包括处理器、非暂态计算机可读介质和图像传感器的多种设备中的任一种。在一些具体实施中，设备是由内容创建者或最终用户用户佩戴的头戴式设备(HMD)。HMD可包围其用户的视场。HMD可包括被配置为显示CGR环境的一个或多个CGR屏幕或者其他显示器。在一些具体实施中，HMD包括用于在用户的视场中显示CGR环境的屏幕或其他显示器。在一些具体实施中，HMD的佩戴方式使得屏幕被定位成在用户的视场内显示CGR环境。在一些具体实施中，设备是手持式电子设备(例如，智能电话或平板电脑)、膝上型计算机或台式计算机，其被配置为创建物理对象的3D模型并便于创建例如针对内容创建者的CGR环境或者将CGR环境呈现给最终用户。在一些具体实施中，设备是被配置为呈现CGR环境的CGR舱室、壳体或房间，在该CGR环境中，最终用户不佩戴或持有该设备。

图9是示出了根据一些具体实施的用于生成物理对象的3D模型并检测物理对象的设备的示例性部件的框图。在各种具体实施中，这些功能可被分离到一个或多个独立设备上。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，设备205包括一个或多个处理单元902(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备及传感器906、一个或多个通信接口908(例如，USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE、SPI、I2C和/或类似类型的接口)、一个或多个编程(例如，I/O)接口910、一个或多个显示器912、一个或多个面向内部或面向外部的图像传感器914、存储器920以及用于互连这些部件和各种其他部件的一条或多条通信总线904。

在一些具体实施中，一条或多条通信总线904包括电路***，其互连和控制***部件之间的通信。在一些具体实施中，一个或多个I/O设备和传感器906包括触摸屏、软键、键盘、虚拟键盘、按钮、旋钮、操纵杆、开关、拨号盘、惯性测量单元(IMU)、加速度计、磁力仪、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测器、心率监测器、血氧传感器、血糖传感器等)、一个或多个麦克风、一个或多个扬声器、触觉引擎或者一个或多个深度传感器(例如，结构化光、飞行时间等)等中的至少一者。在一些具体实施中，由一个或多个I/O设备和传感器906检测到的设备205的移动、旋转或位置向设备205提供输入。

在一些具体实施中，一个或多个显示器912被配置为呈现CGR内容。在一些具体实施中，一个或多个显示器912对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射器显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电***(MEMS)或者类似显示器类型。在一些具体实施中，一个或多个显示器912对应于衍射、反射、偏振、全息等波导显示器。例如，设备205包括单个显示器。又如，设备205包括针对每只眼睛的显示器。在一些具体实施中，一个或多个显示器912能够呈现CGR内容。

在一些具体实施中，一个或多个图像传感器***914被配置为获得对应于设备205的本地场景的至少一部分的图像数据。一个或多个图像传感器***914可以包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、RGB-D相机、单色相机、IR相机或者基于事件的相机等。在各种具体实施中，一个或多个图像传感器***914还包括发射光的照明源，诸如闪光灯。

存储器920包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器920包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器920任选地包括远离一个或多个处理单元902定位的一个或多个存储设备。存储器920包括非暂态计算机可读存储介质。在一些具体实施中，存储器920或存储器920的非暂态计算机可读存储介质存储以下程序、模块和数据结构或它们的子集，包括可选的操作***模块930和一个或多个应用程序940。

操作***930包括用于处理各种基础***服务和用于执行硬件相关的任务的过程。在一些具体实施中，操作***930包括内置的CGR功能，例如，包括CGR环境创建特征或CGR环境查看器，其被配置为从一个或多个应用程序940中被调用以在用户界面内创建或显示CGR环境。应用程序940包括扫描单元942，其被配置为创建物理对象的扫描并基于扫描来创建物理对象的3D模型。应用程序940还包括检测单元844，其被配置为使用这些3D模型来检测随后获得的图像中的物理对象，例如在CGR环境期间。

图9更多地用作存在于特定具体实施中的各种特征部的功能描述，与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图9中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。单元的实际数量和特定功能的划分以及如何在其中分配特征部将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定具体实施选择的硬件、软件或固件的特定组合。

图10为根据一些具体实施的用于基于所确定的转换生成包括来自多次扫描的扫描数据的3D模型的方法的流程图表示。在一些具体实施中，方法1000由设备(例如，图2和图9的设备205)执行。方法1000可在移动设备、HMD、台式计算机、膝上型电脑或服务器设备处执行。在一些具体实施中，方法1000由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法1000由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。

在框1010处，方法1000使用图像传感器来获得在第一条件下的物理对象的第一扫描数据。可使用图像传感器诸如相机来获取此类第一扫描数据。在一些具体实施中，第一扫描数据包括相继获取的帧序列或成组图像中的帧序列。图像数据可包括识别由图像传感器捕获的颜色、强度或其他视觉属性的像素数据。所捕获的多个帧中的一些帧可例如使用关键帧选择技术被识别为关键帧，该关键帧选择技术基于例如自最后一个关键帧以来的时间、自最后一个关键帧以来的距离变化等标准来识别关键帧。

在框1020处，方法1000使用图像传感器来获得在第二条件下的物理对象的第二扫描数据。获得第二次扫描与获得第一次扫描类似，然而，在扫描期间图像传感器的位置可能不同，并且环境或物理对象的条件可能不同。例如，第一条件和第二条件可以是不同的光照条件或物理对象的一部分的不同对象状态(例如，不同的部件位置/配置)。

一些具体实施提供了便于获取第一扫描数据、第二扫描数据和附加扫描数据(如果适用)的用户界面。例如，在一些具体实施中，设备被配置为基于测试第一扫描数据来请求第二次扫描(例如，以确定第一扫描数据是否足以表示物理对象或各种条件)。如果否，则设备呈现提供用于执行第二次扫描的选项(或其他指令)的用户界面元素。在接收到第二扫描数据之后，设备再次检查现有扫描数据是否足够，如果否，则提示用户获得附加的扫描数据，以此类推直到获得足够的扫描数据。是否期望/需要附加的扫描数据可基于估计与扫描数据相关联的光照来确定，例如使用环境光传感器基于扫描数据中的像素值来确定，或者使用任何其他可行技术来确定。在一些具体实施中，预先确定用于建议/要求附加扫描数据的标准。在其他具体实施中，用于建议/要求附加扫描数据的标准由用户例如由内容创建者基于用户的偏好或预期的最终用户条件来指定。

在框1030处，方法1000确定第一坐标系和第二坐标系之间的转换。在一些具体实施中，通过将第一扫描数据的图像(例如，关键帧)与第二扫描数据的图像(例如，对应的关键帧)匹配来确定转换。在一些具体实施中，通过将第一扫描数据的多个图像与第二扫描数据的多个图像匹配来确定转换。在一些具体实施中，通过确定与第一扫描数据的第一图像和第二扫描数据的第二图像相关联的图像传感器的姿态(例如，位置和取向)之间的偏移来确定转换。在一些具体实施中，确定转换涉及最小化或其他优化过程。例如，设备可选择以使关键帧中的物理对象的像素之间的差异最小化的方式将关键帧对准的转换。在一些具体实施中，通过将与第一扫描数据相关联的第一点云和与第二扫描数据相关联的第二点云对准来确定转换。在一些具体实施中，例如，在两次以上扫描的情况下，确定使两个以上坐标系对准的转换。

在框1040处，方法1000基于该转换生成包含第一扫描数据和第二扫描数据的物理对象的3D模型。3D模型可以是与描述符相关联的点的点云。点云可包括具有基于第一扫描数据的描述符的点和具有基于第二扫描数据的描述符的点。生成这种点云可涉及例如基于第一点与第二点的接近度，将具有基于第一扫描数据的描述符的第一点与具有基于第二扫描数据的描述符的第二点合并。

所生成的3D模型可在单个坐标系中表示第一扫描数据和第二扫描数据两者。这使得能够手动地或自动地将增强内容与3D模型在相对于该单个坐标系的位置处相关联以创建CGR环境。当最终用户查看CGR环境时，增强内容被正确定位。在一些具体实施中，最终用户的设备经由(例如，围绕最终用户的真实世界的)图像传感器获得图像数据，使用3D模型和图像数据来检测物理对象，并且使用单个坐标系将3D模型与物理对象对准。检测物理对象可涉及将图像数据与3D模型的点云描述符匹配或确定图像传感器相对于3D模型的当前姿态。然后，最终用户的设备可基于图像数据和增强内容来显示描绘物理对象的CGR环境。增强内容是基于使用单个坐标系将3D模型与物理对象对准来定位的。

计算机生成现实(CGR)环境是指人们经由电子***感测和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子组或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR***可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中应当变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感官中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，所述音频对象创建3D或空间音频环境，所述3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以启用音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。虚拟现实(VR)环境是指被设计成对于一个或多个感官完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或与之交互的虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟、和/或通过在计算机生成的环境内人的物理运动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子***可以跟踪相对于物理环境的位置和/或取向，以使得虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，***可以导致运动以使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子***可具有透明或半透明显示器，人可以透过它直接查看物理环境。该***可以被配置为在透明或半透明显示器上呈现虚拟对象，以使得人利用该***感知叠加在物理环境之上的虚拟对象。另选地，***可以具有不透明显示器和一个或多个成像传感器，成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。***将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用***经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着***使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，***可以具有投影***，其将虚拟对象投射到物理环境中，例如作为全息图或在物理表面上，以使得人利用该***感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，***可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，由此使得修改后的部分可以是原始捕获图像的代表性的但不是逼真的版本。再如，物理环境的表示可以通过以图形方式消除或模糊其部分而进行转换。

增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特征的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人物的脸部是从对真实人物拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的位置的阴影。

有许多不同类型的电子***使得人能够感测和/或与各种CGR环境交互。示例包括头戴式***、基于投影的***、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入***(例如，具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式***可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式***可以被配置为接受外部不透明显示器(例如，智能电话)。头戴式***可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式***可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过所述媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或他们的任意组合。在一个实施方案中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的***可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影***也可以被配置为将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

本文阐述了许多具体细节以提供对要求保护的主题的全面理解。然而，本领域的技术人员将理解，可以在没有这些具体细节的情况下实践要求保护的主题。在其他实例中，没有详细地介绍普通技术人员应当已知的方法、装置或***，以便不使要求保护的主题晦涩难懂。

除非另外特别说明，否则应当理解，在整个说明书中，利用诸如“处理”、“计算”、“计算出”、“确定”和“识别”等术语的论述是指计算设备的动作或过程，诸如一个或多个计算机或类似的电子计算设备，其操纵或转换表示为计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内的物理电子量或磁量的数据。

本文论述的一个或多个***不限于任何特定的硬件架构或配置。计算设备可以包括部件的提供以一个或多个输入为条件的结果的任何合适的布置。合适的计算设备包括基于多用途微处理器的计算机***，其访问存储的软件，该软件将计算***从通用计算装置编程或配置为实现本公开主题的一种或多种具体实施的专用计算装置。可以使用任何合适的编程、脚本或其他类型的语言或语言的组合来在用于编程或配置计算设备的软件中实现本文包含的教导内容。

本文所公开的方法的具体实施可以在这样的计算设备的操作中执行。上述示例中呈现的框的顺序可以变化，例如，可以将框重新排序、组合或者分成子框。某些框或过程可以并行执行。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。本文包括的标题、列表和编号仅是为了便于解释而并非旨在为限制性的。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点均为节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

前述描述和概述应被理解为在每个方面都是例示性和示例性的，而非限制性的，并且本文所公开的本发明的范围不仅由例示性具体实施的详细描述来确定，而是根据专利法允许的全部广度。应当理解，本文所示和所述的具体实施仅是对本发明原理的说明，并且本领域的技术人员可以在不脱离本发明的范围和实质的情况下实现各种修改。

Claims

1.一种方法，包括：

在包括处理器、计算机可读存储介质和图像传感器的设备处：

使用所述图像传感器获得在第一条件下的物理对象的第一扫描数据，所述第一扫描数据包括来自在第一坐标系中定义的多个图像传感器位置的图像；

使用所述图像传感器获得在第二条件下的所述物理对象的第二扫描数据，所述第二条件不同所述第一条件，所述第二扫描数据包括来自在第二坐标系中定义的多个图像传感器位置的图像；

经由所述处理器来确定所述第一坐标系和所述第二坐标系之间的转换；以及

基于所述第一扫描数据、所述第二扫描数据和所述转换来生成所述物理对象的三维(3D)模型。

2.根据权利要求1所述的方法，其中确定所述转换包括将所述第一扫描数据的图像与所述第二扫描数据的图像匹配。

3.根据权利要求1所述的方法，其中确定所述转换包括将所述第一扫描数据的多个图像与所述第二扫描数据的多个图像匹配。

4.根据权利要求1所述的方法，其中确定所述转换包括确定与所述第一扫描数据的第一图像和所述第二扫描数据的第二图像相关联的所述图像传感器的姿态之间的偏移。

5.根据权利要求1所述的方法，其中确定所述转换包括将与所述第一扫描数据相关联的第一点云和与所述第二扫描数据相关联的第二点云对准。

6.根据权利要求1所述的方法，其中所述3D模型为与描述符相关联的点的点云。

7.根据权利要求6所述的方法，其中所述点云包括具有基于所述第一扫描数据的描述符的点和具有基于所述第二扫描数据的描述符的点。

8.根据权利要求6所述的方法，其中生成所述3D模型包括将具有基于所述第一扫描数据的描述符的第一点与具有基于所述第二扫描数据的描述符的第二点合并。

9.根据权利要求8所述的方法，还包括基于所述第一点与所述第二点的接近度来确定合并所述第一点和所述第二点。

10.根据权利要求1所述的方法，其中生成所述3D模型包括在单个坐标系中表示所述第一扫描数据和所述第二扫描数据。

11.根据权利要求10所述的方法，还包括将增强内容与所述3D模型在相对于所述单个坐标系的位置处相关联。

12.根据权利要求1所述的方法，还包括：

经由所述图像传感器获得图像数据；

使用所述3D模型和所述图像数据来检测所述物理对象；以及

使用所述单个坐标系将所述3D模型与所述物理对象对准。

13.根据权利要求12所述的方法，其中检测所述物理对象包括将所述图像数据与所述3D模型的点云描述符匹配。

14.根据权利要求12所述的方法，其中检测所述物理对象包括确定所述图像传感器相对于所述3D模型的当前姿态。

15.根据权利要求12所述的方法，还包括基于所述图像数据和所述增强内容来显示描述所述物理对象的计算机生成的现实(CGR)环境，其中所述增强内容是基于使用所述单个坐标系将所述3D模型与所述物理对象对准来定位的。

16.根据权利要求1所述的方法，其中所述第一条件和所述第二条件为不同的光照条件。

17.根据权利要求15所述的方法，其中所述第一条件和所述第二条件包括所述物理对象中的对象的不同对象状态。

18.根据权利要求1所述的方法，还包括基于测试所述第一扫描数据来确定请求第二次扫描。

19.一种***，包括：

非暂态计算机可读存储介质；

相机；和

一个或多个处理器，所述一个或多个处理器耦接至所述非暂态计算机可读存储介质，其中所述非暂态计算机可读存储介质包括程序指令，所述程序指令在所述一个或多个处理器上执行时，使所述***执行包括以下操作的操作：

20.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储可在计算机上执行以执行操作的程序指令，所述操作包括：

使用图像传感器获得在第一条件下的物理对象的第一扫描数据，所述第一扫描数据包括来自在第一坐标系中定义的多个图像传感器位置的图像；

经由处理器来确定所述第一坐标系和所述第二坐标系之间的转换；以及