CN116137902A

CN116137902A - 用于红外光检测的计算机视觉相机

Info

Publication number: CN116137902A
Application number: CN202180060077.6A
Authority: CN
Inventors: R·K·普赖斯; M·布莱尔; C·D·埃德蒙兹
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-07-21
Filing date: 2021-04-19
Publication date: 2023-05-19
Also published as: US20220028169A1; US11475641B2; EP4185940A1; WO2022019970A1

Abstract

头戴式设备(HMD)被构造为包括省略IR滤光器的至少一个计算机视觉相机。因此，该计算机视觉传感器能够检测环境中的IR光，包括IR激光。HMD被配置为使用计算机视觉相机生成环境的图像。然后将该图像作为输入馈送到识别IR激光的机器学习(ML)算法中，IR激光由传感器检测并记录在图像中。然后，HMD在视觉上显示包含与检测到的IR激光相对应的信息的通知。

Description

用于红外光检测的计算机视觉相机

背景技术

混合现实(MR)***，包括虚拟现实(VR)和增强现实(AR)***，因其能够为其用户创造真正独特的体验而受到极大关注。作为参考，传统的VR***通过将用户的视野限制在仅虚拟环境中来创建完全沉浸式的体验。这通常是通过使用完全阻挡现实世界任何视野的头戴式设备(HMD)来实现的。结果，用户完全沉浸在虚拟环境中。相比之下，传统的AR***通过在视觉上呈现放置在现实世界中的或与现实世界交互的虚拟对象来创建增强现实体验。

如本文所用，VR和AR***可互换地描述和提及。除非另有说明，本文的描述同样适用于所有类型的MR***，其(如上文详述)包括AR***、VR现实***和/或能够显示虚拟内容的任何其他类似***。

MR设备受益于可以改善或增强用户对他/她周围世界的理解的传感器。例如，存在用户希望在黑暗中看东西的很多情况。例如，急救人员受益于使用低照度相机来协助搜索和救援活动。此外，消防部门还配备了带有可以感知温度的热成像***的AR护目镜。不幸的是，用于低照度和热感测的传感器既昂贵又笨重。每个传感器的成本在1,000美元到3,000美元之间，占HMD所用材料成本的40％。每个传感器的尺寸也约为1”x1”x1.5”，重量约为30-35克。这些传感器也是高功率传感器，每个传感器的功耗高达1-1.5W。

尽管低照度传感器的成本和尺寸很大，但它们的实用性非常有限，因为高暗电流和读取噪声限制了在低于大约星光照明水平的环境中看到的能力。然而，这些低照度传感器的关键功能之一是能够透过玻璃观察和检测激光(例如，红外(IR)激光，例如MR游戏中用于目标指定的激光)。因此，需要一种改进的技术来检测IR激光，且整个***的成本最低，并且不会增加***的尺寸、重量或功率。

本文要求保护的主题不限于解决任何缺点或仅在诸如上述那些环境中操作的实施例。相反，仅提供该背景以说明可以实践本文描述的一些实施例的一个示例性技术领域。

发明内容

本文公开的实施例涉及用于检测在环境中发射的红外(IR)激光的***、设备(例如，硬件存储设备、可穿戴设备等)和方法。

在一些实施例中，头戴式设备(HMD)被构造为包括省略了IR滤光器的至少一个计算机视觉相机。因此，该计算机视觉传感器能够检测环境中的IR光，包括IR激光。HMD被配置为使用计算机视觉相机生成环境的图像。然后将该图像作为输入馈送到识别IR激光的机器学习(ML)算法中，IR激光由传感器检测并记录在图像中。然后，HMD在视觉上显示包含与检测到的IR激光相对应的信息的通知。

在一些实施例中，以上述方式配置的HMD使用计算机视觉相机生成环境的第一图像。HMD还使用热成像相机来生成环境的第二图像。然后将第一图像作为输入馈送到机器学习(ML)算法中，该算法被配置为识别由计算机视觉相机的传感器检测到并记录在第一图像中的准直的IR光。HMD重投影第二图像以补偿穿戴HMD的用户的瞳孔与热成像相机之间的视差。此外，HMD重投影已识别的准直IR光，以补偿用户瞳孔和计算机视觉相机之间的视差。HMD还将重投影的准直的IR光叠加到重投影的第二图像上以生成叠加图像，然后在视觉上显示该叠加图像。

提供本发明内容是为了以简化形式介绍概念的选择，这些概念将在下面的详细描述中进一步描述。本发明内容不旨在识别要求保护的主题的关键特征或基本特征，也不旨在用作确定要求保护的主题的范围的帮助。

额外的特征和优点将在下面的描述中阐述，并且部分将从描述中显而易见，或者可以通过本文的教导的实践来获知。本发明的特征和优点可以通过所附权利要求中特别指出的手段和组合来实现和获得。本发明的特征将从下面的描述和所附的权利要求中变得更加清楚，或者可以通过下文阐述的本发明的实践来获知。

附图说明

为了描述可以获得上述和其他优点和特征的方式，将参考附图中所示的具体实施例对上面简要描述的主题进行更具体的描述。理解的是，这些附图仅描绘了典型的实施例并且因此不应被认为是范围限制，将通过使用附图以额外的特异性和细节来描述和解释实施例，其中：

图1示出了涉及游戏应用程序的示例场景。

图2示出了示例头戴式设备(HMD)。

图3示出了HMD的示例实现方案或配置。

图4示出了用于检测环境中的IR激光的示例方法的流程图。

图5示出了在环境中发射IR激光的示例场景。

图6示出了IR激光发射器的示例。

图7示出了示例计算机视觉图像和热图像。

图8示出了机器学习(ML)算法如何能够分析计算机视觉图像以从其他形式的IR光中解析或识别IR激光。

图9示出了可以对包括检测到的IR激光的图像部分执行的视差校正操作。

图10展示了视差校正如何依赖于深度图。

图11示出了还可以如何对热图像执行视差校正。

图12示出了与重投影的IR激光相对应的像素可以如何叠加到重投影的热图像上以形成叠加图像。

图13示出了示例直通图像，其包括关于检测到的IR激光的不同通知。

图14示出了用于检测准直的IR光的示例方法的另一个流程图。

图15示出了能够执行任何公开的操作的示例计算机***。

具体实施方式

在一些实施例中，HMD包括省略IR滤光器的计算机视觉相机。HMD使用计算机视觉相机来生成环境的图像。该图像作为输入馈送到ML算法中以识别IR激光。然后，HMD在视觉上显示通知，该通知描述检测到的IR激光。

在一些实施例中，HMD使用计算机视觉相机生成第一图像并且使用热成像相机生成第二图像。第一图像作为输入馈送到ML算法中以识别准直的IR光。HMD重投影第二图像以补偿视差，并重投影所识别的准直的IR光从而也对视差进行补偿。HMD将重投影的准直的IR光叠加到重投影的第二图像上以生成叠加图像，然后在视觉上显示该叠加图像。

技术益处、改进和实际应用的示例

以下部分概述了由所公开的实施例提供的一些示例改进和实际应用。然而，应当意识到，这些仅是示例并且实施例不仅限于这些改进。

所公开的实施例为本技术领域提供了实质性的改进、益处和实际应用。举例来说，所公开的实施例改进了如何检测环境中的情况(例如，IR激光的存在)。这些实施例还有益地提供对关于这些环境条件的检测的通知。此外，所公开的实施例用于降低HMD的成本、HMD的功率使用、甚至HMD的重量。

也就是说，实施例解决了检测环境中的IR激光的问题。通过重新利用现有的相机***(例如，头部跟踪HeT相机，这是一种用于跟踪HMD运动的计算机视觉相机的特定形式)来检测IR光，这些实施例能够避免添加低照度相机的要求，低照度相机传统上检测IR光。此外，通过避免添加低照度相机的要求，实施例降低了硬件成本，减小了HMD的尺寸和重量，并降低了***的功率消耗(例如，因为使用更少的硬件组件，将消耗更少的功率)。因此，通过执行所公开的操作，实施例能够显著改进HMD操作。

示例场景，包括游戏实现方案和HMD配置

图1示出了HMD 105在其中运行的示例游戏环境100。在这种情况下，HMD 105正在向用户呈现MR场景，其中该场景包括龙形式的全息图110。此外，在这个场景中，穿戴HMD105的人正在与龙搏斗或作战。包括HMD 105在内的HMD通常用于低照度环境。在将可见光和/或IR激光发射到环境中以帮助进行目标检测的情况下，HMD也经常被使用。例如，可能的情况是，在游戏环境100中，HMD 105的用户正在使用IR激光发射器瞄准他/她的武器以便向全息图110开火。因此，非常有益的是提供具有改进的IR激光检测的***。所公开的实施例提供了这种广受欢迎的益处。

HMD 105可以以各种不同的方式配置，如图2和图3所示。举例来说，图1的HMD 105可以配置为图2的HMD 200。HMD 200可以是任何类型的MR***200A，包括VR***200B或AR***200C。应当注意，虽然本公开的大部分内容关注于HMD的使用，但是实施例不限于仅使用HMD来实践。也就是说，可以使用任何类型的扫描***，甚至是完全从HMD移除或分离的***。因此，所公开的原理应该被广泛地解释为包含任何类型的扫描场景或设备。一些实施例甚至可以避免主动使用扫描设备本身并且可以简单地使用由扫描设备生成的数据。例如，一些实施例可以至少部分地在云计算环境中实践。

HMD 200被示为包括扫描传感器205(即一种类型的扫描或相机***)，并且HMD200可以使用扫描传感器205来扫描环境、映射环境、捕获环境数据和/或生成环境的任何类型的图像(例如，通过生成环境的3D表示或通过生成“直通”可视化)。扫描传感器205可以包括任何数量或任何类型的扫描设备，没有限制。

根据所公开的实施例，HMD 200可用于生成用户环境的视差校正直通可视化。在一些情况下，“直通(passthrough)”可视化是指反映在用户没有穿戴HMD 200的情况下用户将看到的内容的可视化，而不管HMD 200是作为AR***还是VR***的一部分包含在内。在其他情况下，直通可视化反映了不同的或新颖的视角。在某些情况下，直通可视化识别人眼可能无法检测到的情况，例如环境中存在IR激光。

为了生成这种直通可视化，HMD 200可以使用其扫描传感器205来扫描其周围环境、对其周围环境绘制图或以其他方式记录其周围环境，包括环境中的任何对象或IR光，并将该数据传递到用户来查看。在许多情况下，直通的数据被修改以反映或对应于用户瞳孔的视角，尽管图像也可以反映其他视角。视角可以通过任何类型的眼睛跟踪技术或其他数据来确定。

为了将原始图像转换成直通图像，扫描传感器205通常依赖于其相机(例如，任何类型的计算机视觉相机，例如头部跟踪相机、手部跟踪相机、深度相机或任何其他类型的相机)以获得环境的一个或多个原始图像(也称为纹理图像)。除了生成直通图像之外，这些原始图像还可用于确定详细说明从传感器到原始图像捕获的任何对象的距离的深度数据(例如，z轴范围或测量值)。一旦获得这些原始图像，就可以根据嵌入或包含在原始图像中的深度数据计算深度图(例如，基于像素差异(disparity))，并且可以使用深度图来生成直通图像(例如，针对每个瞳孔生成一个)以用于任何重投影。在某些情况下，深度图可以由3D感测***进行评估，包括飞行时间、立体、主动立体(active stereo)或结构光***。此外，可以使用头部跟踪相机执行对周围环境的视觉图的评估，并且这些头部跟踪相机通常具有立体重叠区域以评估3D几何并生成环境图。

如本文所用，“深度图”详细说明了相对于环境中的对象的位置关系和深度。因此，可以确定对象相对于彼此的位置布置、定位、几何形状、轮廓和深度。从深度图中，可以生成环境的3D表示。如稍后将更详细地描述的，深度图可用于对直通图像执行视差校正。

根据直通可视化，用户将能够感知当前在他/她的环境中的是什么，而不必移除或重新定位HMD 200。此外，如稍后将更详细地描述的，所公开的直通可视化还将增强用户在他/她的环境中查看对象或情况(例如，IR激光的存在与否)的能力(例如，通过显示人眼可能尚未法检测到的其他环境情况或图像数据)。

应当注意，虽然本公开的大部分关注于生成“一个”直通(或叠加)图像，但是实施例可以为用户的每只眼睛生成单独的直通图像。也就是说，两个直通图像通常彼此并发地生成。因此，虽然经常提到生成看起来是单个直通图像的事物，但实施例实际上能够同时生成多个直通图像。

在一些实施例中，扫描传感器205包括计算机视觉相机210(具有可拆卸的IR滤光器210A)、低照度相机215(尽管不是必需的，如图2中的虚线框所示)、热成像相机220、可能的(但非必须，如虚线框所示)紫外线(UV)相机225，以及可能的(但非必须)点照明器(未显示)。省略号230展示了如何在扫描传感器205中包括任何其他类型的相机或相机***(例如，深度相机、飞行时间相机、虚拟相机、深度激光器等)。

作为示例，被构造为检测中IR波长的相机可以包括在扫描传感器205中。作为另一个示例，从实际相机重投影的任意数量的虚拟相机可以包括在扫描传感器205中并且可用于生成立体图像对。以这种方式并且如稍后将更详细地讨论的，扫描传感器205可以用于生成立体图像对。在一些情况下，可以作为执行以下操作中的任何一个或多个操作的结果获得或生成立体图像对：经由使用两个相机和一个点照明器生成主动立体图像；经由使用两个相机生成被动(passive)立体图像；经由使用一个实际相机、一个虚拟相机和一个点照明器，使用结构光生成图像；或使用飞行时间(TOF)传感器生成图像，其中基线存在于深度激光器和对应相机之间，并且其中对应相机的视场(FOV)相对于深度激光的照明场偏移。

通常，人眼能够感知所谓的“可见光谱”内的光，其包括波长范围从约380纳米(nm)至约740nm的光(或更确切地说，电磁辐射)。如本文所用，计算机视觉相机210包括两个或更多个构造为捕获可见光谱内的光子的单色相机。通常，这些单色相机是互补金属氧化物半导体(CMOS)型相机，但也可以使用其他类型的相机(例如，电荷耦合器件、CCD)。这些单色相机还可以扩展到NIR范围(高达1100nm)。

单色相机通常是立体相机，这意味着两个或更多个单色相机的视场至少部分地彼此重叠。利用这个重叠区域，计算机视觉相机210生成的图像可用于识别某些像素之间的差异，这些像素通常表示两个图像捕获的对象。基于这些像素差异，实施例能够确定位于重叠区域内的对象的深度(即“立体深度匹配”或“立体深度匹配”)。因此，计算机视觉相机210不仅可用于生成直通可视化，而且还可用于确定对象深度。在一些实施例中，计算机视觉相机210可以捕捉可见光和IR光。

根据所公开的实施例，计算机视觉相机210(在某些情况下也称为头部跟踪相机)被配置为省略IR滤光器。在一些情况下，IR滤光器是可拆卸的(例如，如可拆卸IR滤光器210A所示)，以便它可以从HMD附接或拆卸，或者更确切地说，它是从计算机视觉相机拆卸的。通过从计算机视觉相机210移除或分离IR滤光器，计算机视觉相机210将能够检测到至少一些IR光。例如，IR激光器通常发射波长在大约850纳米和1064纳米之间的IR激光。通过从计算机视觉相机210移除IR滤光器，这些相机能够检测至少某些波长的IR光，包括IR激光的波长。

可选地，HMD 200可以包括低照度相机215。在一些情况下，HMD 200可以不包括低照度相机215。当HMD 200确实包括低照度相机215时，可以选择性地操作这些相机，使得它们可以具有默认关闭状态。

如果HMD 200确实包括低照度相机215，则这些相机被构造为捕获可见光和IR光。IR光通常分为三个不同的类别，包括近IR、中IR和远IR(例如，热IR)。分类是基于IR光的能量来确定的。举例来说，近IR由于具有相对较短的波长(例如，在约750nm和约1,100nm之间)而具有相对较高的能量。相比之下，远IR由于具有相对较长的波长(例如，高达约30,000纳米)而具有相对较少的能量。中IR的能量值介于近IR和远IR范围之间或中间。低照度相机215被构造为至少在近IR范围内检测IR光或对IR光敏感。

在一些实施例中，计算机视觉相机210和低照度相机215(也称为低照度夜视相机)在大致相同的重叠波长范围内操作。在一些情况下，该重叠波长范围在约400纳米至约1,100纳米之间。此外，在一些实施例中，这两种类型的相机都是硅探测器。通过从计算机视觉相机210移除IR滤光器，HMD 200可以避免依赖低照度相机215来检测至少IR“激光”光。因此，在优选实施例中，HMD 200省略或不包括低照度相机215。

热成像相机220被构造为检测远IR(即热IR)范围内的电磁辐射或IR光，尽管一些实施例也使热成像相机220能够检测中IR范围内的辐射。为清楚起见，热成像相机220可以是长波红外成像相机，其被构造为通过测量长波红外波长来检测电磁辐射。通常，热成像相机220检测波长在大约8微米至14微米之间的IR辐射，以检测来自相机视野中的环境和人的黑体辐射。因为热成像相机220检测远IR辐射，所以热成像相机220可以不受限制地在任何照度条件下操作。

UV相机225被构造为捕获UV范围内的光。UV范围包括波长在约150nm至约400nm之间的电磁辐射。所公开的UV相机225应该被广义地解释并且可以以包括反射UV摄影和UV诱导荧光摄影的方式操作。

因此，如本文中所使用的，提及“可见光相机”或“计算机视觉相机”(包括“头部跟踪相机”)是主要用于计算机视觉以执行头部跟踪的相机。这些相机可以检测可见光，甚至可以检测可见光和IR光的组合(例如，一系列IR光，包括由于去除了IR滤光器而具有至少在约850nm至1064nm之间的波长的IR光)。在某些情况下，这些相机是全局快门设备，像素大小约为3μm。热/长波IR设备(即热成像相机)的像素大小约为10μm或更大，可检测环境辐射的热量。这些相机对8μm到14μm范围内的波长敏感。

因此，所公开的实施例可以被构造为利用许多不同的相机类型。不同的相机类型包括但不限于可见光相机、低照度相机、热成像相机和UV相机。可以使用从上面列出的相机类型的任何一种类型或类型组合生成的图像来执行立体深度匹配。

应当注意，可以在HMD 200上针对不同相机类型中的每种类型提供任意数量的相机。也就是说，计算机视觉相机210可以包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或10个以上的相机。然而，相机的数量通常至少为2，因此HMD 200可以执行立体深度匹配，如前所述。类似地，低照度相机215(如果存在)、热成像相机220和UV相机225可以各自分别包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或10个以上对应的相机。

图3示出了示例HMD 300，其代表来自图2的HMD 200。HMD 300被示为包括多个不同的相机，包括相机305、310、315、320和325。相机305-325代表来自图2的计算机视觉相机210、低照度相机215(如果存在)、热成像相机220和UV相机225中的任何数量相机或其组合。虽然图3中仅图示了5个相机，但HMD 300可以包括多于或少于5个相机。

在一些情况下，相机可以位于HMD 300上的特定位置。例如，在一些情况下，第一相机(例如，可以是相机320)被布置于HMD 300上的相对于HMD的高度方向在穿戴HMD 300的任何用户的指定的左眼上方的位置处。例如，相机320位于瞳孔330上方。作为另一示例，第一相机(例如，相机320)另外位于相对于HMD的宽度方向的指定的左眼位置上方。也就是说，相机320不仅位于瞳孔330上方，而且与瞳孔330成一直线。当使用VR***时，相机可以直接放置在指定的左眼位置的前面。例如，参考图3，相机可以物理地布置在HMD 300上的在z轴方向上位于瞳孔330前面的位置处。

当提供第二相机(例如，可以是相机310)时，第二相机可以布置在HMD上的、相对于HMD的高度方向在穿戴HMD的任何用户的指定的右眼位置上方的位置处。例如，相机310在瞳孔335上方。在一些情况下，第二相机另外定位在相对于HMD的宽度方向在指定的右眼位置上方。当使用VR***时，相机可以直接放置在指定的右眼位置前面。例如，参考图3，相机可以物理地布置在HMD 300上的在z轴方向上位于瞳孔335前面的位置处。

当用户穿戴HMD 300时，HMD 300戴在用户的头上并且HMD 300的显示器位于用户瞳孔(例如瞳孔330和瞳孔335)的前面。通常，相机305-325将物理偏移用户的瞳孔330和335一定距离。例如，在HMD高度方向(即“Y”轴)上可能存在垂直偏移，如偏移340所示。类似地，在HMD宽度方向(即“X”轴)中可能存在水平偏移，如偏移345所示。

如前所述，HMD 300被配置为提供直通图像供HMD 300的用户查看。通过这样做，HMD 300能够提供现实世界的可视化效果，而无需用户移除或重新定位HMD 300。这些直通图像有效地表示用户在未穿戴HMD 300的情况下会看到的相同视图。在某些情况下，直通图像提供了人眼可能无法检测到的增强图像(例如，IR激光的表示)。相机305-325用于提供这些直通图像。

然而，相机305-325中没有一个相机与瞳孔330和335远心对齐。偏移340和345实际上在相机305-325与瞳孔330和335之间引入了视角差异。这些视角差异被称为“视差(parallax)”。

由于偏移340和345产生的视差，由相机305-325产生的原始图像(也称为纹理图像)可能无法立即用作直通图像。相反，对原始图像执行视差校正(也称为图像合成)以转换这些原始图像中体现的视角以对应于用户瞳孔330和335的视角是有益的。视差校正包括任何数量的校正，稍后将对此进行更详细的讨论。

示例方法

下面的讨论现在涉及许多方法和可以执行的方法动作。尽管可以按特定顺序讨论方法动作或在流程图中将其说明为按特定顺序发生，但不需要特定顺序，除非特别说明，或者因为执行一个动作依赖于在该动作之前完成的另一个动作而需要特定顺序。

现在将注意力转向图4，其图示了用于检测在环境中发射的IR激光的示例方法400的流程图。方法400可以由迄今为止讨论的HMD来执行。例如，HMD可以包括至少一个计算机视觉相机，它省略了IR滤光器，使得至少一个计算机视觉相机的传感器可操作以检测环境中的IR光，包括IR“激光”光。

通常，方法400在低照度环境中执行。例如，当环境的环境光条件处于或低于大约5勒克斯(lux)时，可以触发方法400。作为参考，黄昏照度对应的照度约为10勒克斯，而正午明亮的太阳照度对应的照度约为100,000勒克斯。

最初，方法400包括使用至少一个计算机视觉相机生成环境图像的动作(动作405)。图5至图7是说明性的。

图5示出了包括现实世界对象和全息图505的MR环境500。这里，环境光水平510处于或低于5勒克斯水平。因此，可以触发来自图4的方法400。可以使用不同的传感器来检测MR环境500的照度以便触发方法400。

注意，在MR环境500中，存在HMD 515，该HMD 515以前面图中描述的方式配置。另外，MR环境500被示为包括IR激光520。使用虚线表示IR激光520以象征IR激光520如何不能通过肉眼检测到。在这个MR环境500中，多个人正在玩游戏并与龙作战，这就是全息图505。当然，可以使用其他类型的MR环境而不仅仅是游戏场景。例如，可以使用任何类型的培训环境(例如，急救人员)或任何其他类型的环境。

所公开的实施例能够使用省略IR滤光器的多用途或改用计算机视觉相机来检测IR激光的存在。图6示出了示例激光发射器600，其可以被构造为发射可见激光605(例如，可能是红色激光或绿色激光)和/或IR激光610。在一些实现方案中，激光发射器600被构造为仅发射IR激光610。在任何情况下，激光发射器600都可以用在图5的MR环境500中以帮助促进目标检测，尤其是在低照度游戏场景或其他培训场景中。IR激光610具有前面讨论的波长(例如，至少在大约850nm至1064nm之间)，使得HMD的计算机视觉相机能够检测到IR激光610。

图7显示了由HMD的计算机视觉相机生成的产生的计算机视觉图像700。注意，计算机视觉图像700包括代表IR激光705的像素，R激光705对应于图5的IR激光520。虽然IR激光520对于肉眼是不可见的，但是IR激光705是在计算机视觉图像700中可识别的。在一些情况下，计算机视觉图像700可以捕获额外的IR光，例如环境IR光710所示。该环境IR光710可以从环境中的其他源发射，而IR激光705由图6的激光发射器600发射。注意，形成IR激光705的IR光和形成环境IR光710的IR光的强度存在鲜明对比。此外，计算机视觉图像700看起来很暗，因为它是在低照度环境中拍摄的。

通常，形成IR激光705的IR光的强度将显著高于形成环境IR光710的IR光的强度。换句话说，形成IR激光705的IR光的强度相对高于IR光形成环境IR光710的IR光的强度。图7还示出了HMD的热成像相机之一可以如何生成热图像720。

在一些情况下，生成环境图像(例如，计算机视觉图像700或热图像720之一)的过程基于特定环境条件的检测而被触发。例如，生成图像可以响应于环境的环境光水平(例如，图5的环境光水平510)处于或低于阈值勒克斯值的确定而被触发。在某些情况下，阈值勒克斯值约为5勒克斯。即，当环境光水平处于或低于约5勒克斯时，实施例可被触发以生成上述图像。

如图7所示，计算机视觉图像700被示为具有来自图5的环境500的特定视角715。该视角715对应于用于生成计算机视觉图像700的计算机视觉相机的光轴。

一些实施例另外被配置为使用热成像相机(例如，可能是图2的一个或多个热成像相机220)生成热图像720。热成像相机可以在计算机视觉相机生成计算机视觉图像700之前、之后或同时生成热图像720。通常，热图像720和计算机视觉图像700是同时生成的或者至少在重叠的时间段内生成。图7还显示了热图像720如何具有视角725，视角725对应于用于生成热图像720的热成像相机的光轴。因为热成像相机位于HMD上的不同于计算机视觉相机的位置的位置，所以视角725将不同于视角715。

返回到图4，方法400还包括将图像(例如计算机视觉图像)作为输入馈送给机器学习(ML)算法的动作(动作410)。ML算法被配置为识别由计算机视觉相机的传感器检测到并记录在图像中的IR激光。

任何类型的ML算法、模型或机器学习可用于方法动作410。实际上，如本文所用，对“机器学习”或ML模型的引用可包括任何类型的机器学习算法或设备、神经网络(例如，卷积神经网络、多层神经网络、递归神经网络、深度神经网络、动态神经网络等)、决策树模型(例如，决策树、随机森林和梯度提升树)、线性回归模型或逻辑回归模型、支持向量机(“SVM”)、人工智能设备或任何其他类型的智能计算***。可以使用任何数量的训练数据(并且可能稍后改进)来训练机器学习算法以动态地执行所公开的操作。

图8是方法动作410的说明。具体来说，图8显示了图像800，它代表来自动作405的图像并且代表图7的计算机视觉图像700，作为输入被馈送到ML算法805。ML算法805被配置为识别对应于场景中可能存在的任何类型的IR光的像素，如图像800捕获的那样。一旦识别出对应于IR光的像素，ML算法805进一步分类或确定每个像素是否进一步对应于场景中的特定现象或对象。例如，ML算法805能够识别IR光像素是否对应于环境IR光并且进一步能够识别IR光像素是否对应于IR“激光”光。作为示例，图8示出了ML算法805如何分析图像800中包括的IR光像素并具体识别哪些像素对应于IR激光。与IR激光不相关的像素可以从所得图像中滤除，仅留下对应于IR激光的像素，如检测到的IR激光810所示。

注意，检测到的IR激光810包括代表前面讨论的激光的一行像素。在一些情况下，实施例(例如，响应于识别图像中的IR激光的ML算法)追踪在图像中检测到的IR激光以识别IR激光通过环境的行进路径815。在这种情况下，行进路径815起源于环境中人持有的激光并且在朝向龙全息图的方向上向外延伸。当然，实施例能够追踪IR激光遵循的任何行进路径。

在一些情况下，实施例通过比较在图像中检测到的IR光的强度820来识别IR“激光”光(与其他形式的IR光相比)。通常，IR激光的强度将相对(或甚至基本上)高于环境IR光的强度。通过最初识别对应于环境中所有或大部分IR光的像素，实施例然后可以比较和对比检测到的IR光的强度以确定它是否匹配或对应于已知IR“激光”光分布的强度分布。

在一些情况下，实施例基于IR激光形成IR光的线或光束的智能识别来识别IR激光并将IR激光与其他形式的IR光区分开来，而其他形式的IR光可能不被压缩或形成光束。ML算法805能够分析各种不同的像素并识别IR光像素何时以光束或线的形式成形。基于这种情况，ML算法805可以智能地确定那些像素可能构成IR激光束。

在ML算法805检测到场景中的IR激光之后，实施例然后执行多个操作以显示对应于检测到的IR激光的信息。例如，返回到图4，方法400包括动作(动作415)，其中HMD视觉地显示包括与检测到的IR激光对应的信息的通知。

为了提供该通知，生成叠加图像通常是有益的，其中检测到的IR激光或至少描述检测到的IR激光的通知被叠加到另一图像上，以形成直通或叠加图像。图9-13是说明性的。

作为初始事项并且如前所述，计算机视觉相机具有与用户瞳孔的视角不同的视角。为了向用户提供检测到的IR激光的定位的准确描绘，实施例能够执行视差校正900操作，如图9所示。

为了执行视差校正900，实施例首先生成环境的深度图。简要地转向图10，该图说明实施例如何生成或访问深度图1000。

在一些情况下，可以使用测距仪1005计算深度图1000。在一些情况下，可以通过执行立体深度匹配1010来计算深度图1000。省略号1015显示了可以如何使用其他技术计算深度图1000，并不限于图10中所示的两种技术。

在一些实现方案中，深度图1000可以是全深度图1000A，其中为深度图中的每个像素分配对应的深度值。在一些实现方案中，深度图1000可以是单像素深度图。在一些实现方案中，深度图1000可以是平面深度图1000B，其中深度图中的每个像素被分配相同的深度值。无论如何，图10的深度图1000表示位于环境中的对象的一个或多个深度。实施例能够使用图10的深度图1000执行图9的视差校正900。

图9详细说明了如何执行视差校正900，以便平移或变换检测到的IR激光的视角，以与另一个视角(例如，可能是来自图7的热图像720的视角，或者可能是用户瞳孔的视角)对齐、匹配或重合。回想一下，一些实施例对计算机视觉图像进行过滤，以便仅保留与检测到的IR激光相对应的像素。可以对这些剩余像素执行视差校正900。

通过进行或执行上述对齐，实施例然后可以选择性地将检测到的IR激光的部分(或全部)叠加到另一图像(例如，可能是来自图7的热图像720)上，同时确保IR激光和其他图像的内容之间的准确对齐。如稍后将更详细地描述的，一些实施例重投影IR激光以与用户瞳孔的视角对齐并且还重投影热图像以与用户瞳孔的视角对齐。一旦执行了这两个重投影，便会通过将重投影的IR激光像素叠加到重投影的热图像上来生成叠加图像。另一方面，一些实施例重投影红外激光像素以与热图像的视角对齐，然后生成叠加图像。生成叠加图像后，将重投影该叠加图像以与用户瞳孔的视角对齐。因此，可以执行各种不同的重投影，以便将叠加图像的视角与用户瞳孔的视角对齐。

图9示出了图像905，其表示包括图8中所示的检测到的IR激光810的图像。图像905包括2D关键点910和该2D关键点910的对应的3D点915。在确定内在相机参数920之后(例如，相机的焦距、主点和镜头畸变)和外在相机参数925(例如，相机的位置和取向)，实施例能够对图像905执行重投影930操作以将由该图像905体现的视角935重投影到新视角940。在某些情况下，新视角940是用户瞳孔的视角，而在其他情况下，新视角940可能是不同图像的视角(例如，也许是热图像720)。

作为执行重投影930操作的结果，生成重投影图像945，其中重投影图像945包括对应于2D关键点910的2D关键点950。实际上，重投影930操作产生具有新的外在相机参数955的合成相机，以便给出重投影图像945是由合成相机在新视角940捕获的错觉。在这方面，重投影图像905(可能包括仅对应于检测到的IR激光的像素，因为其他像素被过滤掉)补偿计算机视觉相机与用户瞳孔(或可能是热成像相机)之间的距离，并且还补偿相机与用户瞳孔(或可能是热成像相机)之间的姿势或视角差异。

因此，在一些情况下，实施例重投影检测到的IR激光以变换那些像素，使得那些像素的视角与用户瞳孔的视角对齐。在一些情况下，实施例重投影检测到的IR激光以变换那些像素，使得这些像素的视角与例如图7中的热图像720的另一图像的视角对齐。在后一种情况下，一旦两个视角对齐，然后可以将检测到的红外激光直接叠加到热图像720上。一旦执行了该叠加，则可以执行另一个视差校正操作以将新生成的叠加图像的视角与用户瞳孔的视角对齐。

在前一种情况下，与检测到的IR激光相对应的像素被重投影以首先与用户的瞳孔对齐。此外，图7中的热图像720也被重投影，以使其视角与用户的瞳孔对齐。现在两个图像都与用户的瞳孔对齐，检测到的红外激光的像素可以直接叠加到热图像上以形成叠加图像。因此，实施例能够采用多种技术来生成叠加图像。

作为总结，一些实施例首先重投影检测到的IR光的像素以匹配热图像的视角，然后这些实施例生成叠加图像，然后这些实施例重投影叠加图像以使其视角与用户瞳孔的视角匹配。可替代地，一些实施例重投影检测到的IR光的像素以匹配用户瞳孔的视角，同时这些实施例重投影热图像以将其视角与用户的瞳孔对齐，然后(一旦两个图像与用户的瞳孔对齐)这些实施例将检测到的IR激光叠加到热图像上以生成叠加图像。

图11示出了类似于图9的视差校正900的另一个视差校正1100操作，但是该视差校正1100是在热图像1105上执行的。简言之，热图像1105代表来自图7的热图像720，经过重投影1110操作以生成重投影图像1115，其中热图像1105的视角1120被修改为与用户的瞳孔相对应的新视角1125或可能一些其他新颖视角。

因此，一些实施例使HMD执行视差校正以补偿穿戴HMD的用户的眼睛的瞳孔与本文提到的任何相机(例如计算机视觉相机和/或热成像相机)之间的位置偏移。在一些情况下，执行视差校正是使用全深度图来执行以执行全重投影。在一些情况下，执行视差校正是使用平面深度图执行平面重投影来执行的。

图12显示了视差校正热图像1200和视差校正IR激光1205图像。在这个示例场景中，实施例将视差校正的IR激光1205图像的至少一部分叠加到视差校正的热图像1200上以生成叠加图像1210。这个示例场景对应于其中热图像和检测到的IR激光被重投影以匹配用户瞳孔的视角的实现方案。当然，也可以使用其他技术，首先将检测到的IR激光重投影到热图像上(使得检测到的IR激光首先与热图像的视角匹配)，然后将得到的叠加图像重投影以匹配用户瞳孔的视角。在这些重投影操作中，实施例依赖于图10中讨论的深度图。

图12还显示了如何可以在叠加图像1210上提供附加指示符或通知，如图4的方法动作415中所讨论的。也就是说，在一些情况下，实施例可以提供指示IR激光的原始源1215的通知(例如，激光发射器被人手持)。在一些情况下，实施例可以提供指示IR激光的行进路径1220的通知。在某些情况下，IR激光可在叠加图像1210中得到强调，例如通过使用不同的阴影、颜色、突出显示、格式(例如，虚线)等。

一些实施例提供方向指示器形式的通知，以指示IR激光源可能位于何处，如图13所示。具体而言，图13显示了直通图像1300，其代表图12的叠加图像1210。直通图像1300在视觉上说明了IR激光1305。然而，在这个示例场景中，IR激光1305的源不包括在直通图像1300中。实施例能够以方向指示器1310的形式提供通知以说明IR激光1305的源可能位于何处或在什么方向上。

因此，可以以各种不同的方式实现图4的方法动作415中描述的“通知”。实现通知的一种方式涉及显示IR激光的追踪行进路径。另一种实现通知的方式涉及识别IR激光的原始源。实现通知的又一种方式涉及提供方向指示器，指示IR激光源自的方向。如贯穿本公开所描述的，通知可以叠加到由热成像相机生成的图像上，如图12所示，其中叠加图像1210至少部分地由热图像形成。因为叠加图像1210可以被认为是直通图像，所以说通知被叠加到经过视差校正的视频直通图像上也是合适的。

附加方法

现在将注意图14，其示出了用于检测在环境中发射的准直IR光(例如，激光)的示例方法1400的流程图。方法1400可以由迄今为止讨论的任何HMD来实现。例如，HMD包括至少一个计算机视觉相机，它省略了IR滤光器，使得计算机视觉相机的传感器可操作以检测环境中的IR光，包括准直IR光。HMD还包括热成像相机。

最初，方法1400包括使用计算机视觉相机生成环境的第一图像的动作(动作1405)。图7的计算机视觉图像700代表在动作1405中讨论的图像。在动作1405之前、期间或之后，方法1400包括使用热成像相机生成环境的第二图像的动作(动作1410)。热图像720代表动作1410中的热图像。

在动作1415中，第一图像作为输入馈送到机器学习(ML)算法，例如图8的ML算法805。该ML算法被配置为识别由计算机视觉相机的传感器检测到的并记录在第一图像中的准直IR光。例如，在图8中，ML算法805检测IR激光，如检测到的IR激光810所示。在一些情况下，ML算法通过检测形成准直IR光/IR激光的IR的线或光束。在一些情况下，ML算法通过检测IR激光/准直IR光的强度与其他IR光的强度之间的强度差异来区分IR激光或准直IR光与其他IR光。

动作1420涉及重投影已识别的准直IR光以补偿用户的瞳孔(即穿戴HMD的用户)和计算机视觉相机之间的视差。类似地，可以在动作1420之前、期间或之后执行的动作1425涉及重投影第二图像以补偿用户的瞳孔和热成像相机之间的视差。在一些实现方案中，通过仅重投影包括在第一图像中的已识别的准直IR光并且避免重投影包括在第一图像中的其他内容来执行重投影已识别的准直IR光的过程。例如，不对应于准直IR光的像素内容可以从第一图像中滤除，仅在第一图像中留下准直IR光像素。然后可以以上述方式重投影这些剩余像素(对应于准直的IR光)。

因为来自两个不同图像的内容现在作为执行视差校正的结果被对齐，所以实施例然后可以将准直的IR光像素直接叠加到热图像上。在这方面，动作1430涉及将重投影的准直IR光叠加到重投影的第二图像上以生成叠加图像。图12的叠加图像1210说明了该操作。最后，方法1400包括在视觉上显示叠加图像的动作(动作1435)。

在一些实施例中，实现所公开方法的HMD被配置为省略所有低照度相机。在一些实施例中，HMD可以包括低照度相机，但是HMD可以使那些低照度相机处于断电状态以便保存电池电量。配置HMD以包括至少一个热成像相机通常是有益的，这样检测到的IR光可以叠加到由该热成像相机生成的图像上，特别是当HMD在低照度环境(例如，低于约5勒克斯)中使用时。

示例计算机/计算机***

现在将注意力转向图15，图15示出了示例计算机***1500，其可以包括和/或用于执行本文描述的任何操作。计算机***1500可以采用各种不同的形式。例如，计算机***1500可以体现为平板电脑1500A、台式机或膝上型电脑1500B、可穿戴设备1500C(例如，任何公开的HMD)、移动设备、独立设备或通过省略号1500D所示的任何其他实施例。计算机***1500也可以是分布式***，其包括与计算机***1500通信的一个或多个连接的计算组件/设备。

在其最基本的配置中，计算机***1500包括各种不同的组件。图15显示计算机***1500包括一个或多个处理器1505(也称为“硬件处理单元”)、扫描传感器1510(例如图2的扫描传感器205)、图像处理引擎1515和存储装置1520。

关于处理器1505，应当理解，可以至少部分地由一个或多个硬件逻辑组件(例如，处理器1505)来执行本文描述的功能。例如但不限于，可以使用的说明性类型的硬件逻辑组件/处理器包括现场可编程门阵列(“FPGA”)、程序特定或应用特定集成电路(“ASIC”)、程序特定标准产品(“ASSP”)、片上***(“SOC”)、复杂可编程逻辑器件(“CPLD”)、中央处理器(“CPU”)、图形处理器(“GPU”)，或任何其他类型的可编程硬件。

计算机***1500和扫描传感器1510可以使用任何类型的深度检测。示例包括但不限于立体深度检测(主动照明(例如，使用点照明器)、结构光照明(例如，1个实际相机，1个虚拟相机和1个点照明器)，以及被动(即无照明)、飞行时间深度检测(在激光和相机之间有一个基线，其中相机的视场与激光的照明区域没有完全重叠)、测距仪深度检测或任何其他类型的距离或深度检测。

图像处理引擎1515可以被配置为执行结合图的方法400和图14的方法1400讨论的任何方法动作。在一些情况下，图像处理引擎1515包括ML算法。也就是说，ML也可以被所公开的实施例利用，如前所述。ML可以实现为特定处理单元(例如，如前所述的专用处理单元)，其被配置为执行计算机***1500的一个或多个专门操作。如本文所用，术语“可执行模块”、“可执行组件”、“组件”、“模块”、“模型”或“引擎”可以指代硬件处理单元或可以在计算机***1500上执行的软件对象、例程或方法。本文描述的不同的组件、模块、引擎、模型和服务可以实现为在计算机***1500上执行的对象或处理器(例如，作为单独的线程)。ML模型和/或处理器1505可以被配置为执行一个或多个所公开的方法动作或其他功能。

存储装置1520可以是物理***存储器，其可以是易失性的、非易失性的或两者的某种组合。术语“存储器”在本文中也可用于指代诸如物理存储介质的非易失性大容量存储。如果计算机***1500是分布式的，则处理、存储器和/或存储能力也可以是分布式的。

存储装置1520被示为包括可执行指令(即代码1525)。可执行指令表示可由计算机***1500的处理器1505(或甚至可能是图像处理引擎1515)执行以执行所公开的操作的指令，例如各种方法中描述的那些。

所公开的实施例可以包括或利用专用或通用计算机，其包括计算机硬件，例如一个或多个处理器(例如处理器1505)和***存储器(例如存储装置1520)，如下面更详细的讨论。实施例还包括用于承载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这样的计算机可读介质可以是通用或专用计算机***可以访问的任何可用介质。以数据形式“存储”计算机可执行指令的计算机可读介质是“物理计算机存储介质”或“硬件存储设备”。携带计算机可执行指令的计算机可读介质是“传输介质”。因此，作为示例而非限制，当前实施例可以包括至少两种截然不同的计算机可读介质：计算机存储介质和传输介质。

计算机存储介质(又名“硬件存储设备”)是计算机可读的硬件存储设备，例如RAM、ROM、EEPROM、CD-ROM、基于RAM的固态驱动器(“SSD”)、闪存、相变存储器(“PCM”)，或其他类型的存储器，或其他光盘存储、磁盘存储或其他磁存储设备，或任何其他可用于存储计算机可执行指令、数据或数据结构形式的所需程序代码模块并且可以由通用或专用计算机访问的介质。

计算机***1500也可以通过网络1530连接(通过有线或无线连接)到外部传感器(例如，一个或多个远程相机)或设备。例如，计算机***1500可以与任何数量的设备或云服务进行通信来获取或处理数据。在一些情况下，网络1530本身可以是云网络。此外，计算机***1500还可以通过一个或多个有线或无线网络1530连接到被配置为执行关于计算机***1500描述的任何处理的远程/单独的计算机***。

“网络”，如网络1530，被定义为一个或多个数据链路和/或数据交换机，它们能够在计算机***、模块和/或其他电子设备之间传输电子数据。当信息通过网络(有线、无线或有线和无线的组合)传输或提供给计算机时，计算机正确地将连接视为传输介质。计算机***1500将包括一个或多个用于与网络1530通信的通信信道。传输介质包括可用于以计算机可执行指令的形式或以数据结构的形式承载数据或所需程序代码模块的网络。此外，这些计算机可执行指令可由通用或专用计算机访问。以上的组合也应包括在计算机可读介质的范围内。

在到达各种计算机***组件时，计算机可执行指令或数据结构形式的程序代码模块可以自动地从传输介质传送到计算机存储介质(或反之亦然)。例如，通过网络或数据链路接收的计算机可执行指令或数据结构可以缓存在网络接口模块(例如，网络接口卡或“NIC”)内的RAM中，然后最终传送到计算机***中的计算机***RAM和/或不太易失的计算机存储介质。因此，应当理解，计算机存储介质可以包括在也(或甚至主要)使用传输介质的计算机***组件中。

计算机可执行(或计算机可解释)指令包括例如使通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令。计算机可执行指令可以是例如二进制文件、诸如汇编语言的中间格式指令，或者甚至是源代码。尽管已经用特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，所附权利要求中定义的主题不一定限于上述描述的特征或动作。相反，所描述的特征和动作是作为实施权利要求的示例形式公开的。

本领域的技术人员将意识到，可以在具有许多类型的计算机***配置的网络计算环境中实施实施例，包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器***、基于微处理器或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等。这些实施例也可以在分布式***环境中实践，其中通过网络链接(通过硬连线数据链路、无线数据链路，或者通过硬连线和无线数据链路的组合)的本地和远程计算机***各自执行任务(例如，云计算、云服务等)。在分布式***环境中，程序模块可能位于本地和远程存储器存储设备中。

本发明可以在不脱离其精神或特征的情况下以其他具体形式体现。所描述的实施例在所有方面都应被视为说明性的而非限制性的。因此，本发明的范围由所附权利要求而不是前述描述来指示。所有落入权利要求等同物的含义和范围内的变化都应包含在其范围内。

Claims

1.一种头戴式设备(HMD)，其被配置为检测环境中发射的红外(IR)激光，所述HMD包括：

至少一个计算机视觉相机，其省略了IR滤光器，使得所述至少一个计算机视觉相机的传感器可操作以检测所述环境中的包括IR激光的IR光；

一个或多个处理器；以及

一个或多个计算机可读硬件存储设备，其存储能够由所述一个或多个处理器执行以使所述HMD至少执行以下操作的指令：

使用所述至少一个计算机视觉相机生成所述环境的图像；

将所述图像作为输入馈送到机器学习(ML)算法，所述ML算法被配置为识别由所述至少一个计算机视觉相机的所述传感器检测并记录在所述图像中的IR激光；以及

在视觉上显示包括与检测到的IR激光相对应的信息的通知。

2.根据权利要求1所述的HMD，其中，生成所述环境的所述图像是响应于确定所述环境的环境光水平处于或低于约5勒克斯而触发的。

3.根据权利要求1所述的HMD，其中，所述指令的执行进一步使所述HMD执行视差校正以补偿穿戴所述HMD的用户的眼睛的瞳孔与所述至少一个计算机视觉相机之间的位置偏移。

4.根据权利要求3所述的HMD，其中，执行所述视差校正是使用全深度图执行全重投影来执行的。

5.根据权利要求3所述的HMD，其中，执行所述视差校正是使用平面深度图执行平面重投影来执行的。

6.根据权利要求1所述的HMD，其中，所述指令的执行进一步使所述HMD：

响应于所述ML算法识别所述图像中的所述IR激光，追踪所述图像中检测到的所述IR激光以识别所述IR激光穿过所述环境的行进路径。

7.根据权利要求6所述的HMD，其中，所述通知包括所追踪的所述IR激光的行进路径的显示。

8.根据权利要求6所述的HMD，其中，所述通知包括所述IR激光的原始源的标识。

9.根据权利要求6所述的HMD，其中，所述通知包括方向指示符，所述方向指示符指示所述IR激光起源的方向。

10.根据权利要求1所述的HMD，其中，所述IR滤光器是可拆卸式滤光器，使得所述IR滤光器能够从所述至少一个计算机视觉相机拆卸。

11.一种用于检测环境中发射的红外(IR)激光的方法，所述方法由头戴式设备(HMD)执行，所述HMD被配置为包括至少一个计算机视觉相机，所述至少一个计算机视觉相机省略了IR滤光器，使得所述至少一个计算机视觉相机的传感器可操作以检测所述环境中包括IR激光的IR光，所述方法包括：

使用所述至少一个计算机视觉相机生成所述环境的图像；

将所述图像作为输入馈送到机器学习(ML)算法，所述ML算法被配置为识别由所述至少一个计算机视觉相机的所述传感器检测并记录在所述图像中的IR激光；

在视觉上显示通知，所述通知包括与检测到的IR激光相对应的信息。

12.根据权利要求11所述的方法，其中，所述至少一个计算机视觉相机是头部跟踪相机。

13.根据权利要求11所述的方法，其中，所述通知被叠加到由热成像相机生成的图像上。

14.根据权利要求11所述的方法，其中，所述通知被叠加到经过视差校正的视频直通图像上。

15.根据权利要求11所述的方法，其中，所述HMD省略所有低照度相机。