CN117597663A

CN117597663A - 用于扩展现实界面的远程界标渲染

Info

Publication number: CN117597663A
Application number: CN202280047253.7A
Authority: CN
Inventors: W·J·霍兰德
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-07-15
Filing date: 2022-07-01
Publication date: 2024-02-23
Also published as: EP4371001A1; US20230013539A1; KR20240033226A; WO2023287597A1; TW202309732A

Abstract

本发明描述了用于使用显示界面设备为XR设备提供虚拟界面的***和技术。显示界面设备可在其显示器上显示界标图案，诸如快速响应(QR)码。该显示器可在该XR设备的相机的视场中，使得相机捕获描绘所显示的界标图案的图像。该XR设备可基于所捕获的图像来生成输出图像并且在其自身的显示器上显示该输出图像，例如通过将虚拟界面覆盖在该界标图案上。该输出图像中的该虚拟界面的姿势和/或大小可基于所捕获的图像中的该界标图案和/或显示器的姿势和/或大小。该显示界面设备可通过其显示界面接收输入，诸如基于触摸的输入，该显示界面设备可为该XR设备识别该输入。

Description

用于扩展现实界面的远程界标渲染

技术领域

本公开整体涉及图像处理。例如，本公开的各方面包括用于在扩展现实(XR)中提供基于触摸的虚拟界面的***和技术。

背景技术

扩展现实(XR)设备是例如通过头戴式显示器(HMD)、眼镜、移动手机或另一设备向用户显示环境的设备。环境至少部分地不同于用户所位于的真实世界环境。用户通常可例如通过倾斜或移动HMD(例如，通过移动用户头部等)或其他设备来交互地改变他们的环境视图。虚拟现实(VR)、增强现实(AR)和混合现实(MR)是XR的示例。

在XR的一些使用情况下，有用的是从用户接收输入，例如以控制虚拟对象或调整XR设备本身的设置。例如，在基于XR的视频游戏中，用户可使用输入来控制虚拟角色。用户还可使用输入来调整音量水平、控制歌曲或视频的回放等。传统的视频游戏控制器对于某些类型的输入(诸如精细滚动或滑动调整)而言可能是不精确的，并且对于用户携带而言可能是笨重且不方便的。空中手势可能由于缺乏触觉反馈和对手部跟踪的依赖而不精确，这可能是不一致的。

具有基于显示的界面的显示界面设备通常由用户使用，包括例如移动手机、平板设备、膝上型计算机、电视机和智能手表。具有基于显示的界面的显示界面设备可包括例如具有触摸屏界面的触摸屏设备，其可在触摸屏上显示界面并且通过触摸屏接收输入。具有基于显示的界面的显示界面设备还可包括使用光标、触控板、小键盘、控制器、遥控器等来与所显示的界面交互的设备。具有基于显示的界面的显示界面设备可接收精确和触觉输入，从而允许用户与所显示的界面交互。

发明内容

在一些示例中，描述了用于使用一个或多个显示设备为XR设备提供虚拟界面的***和技术。XR设备可使用一个或多个相机来捕获一个或多个相机的视场中的真实世界场景的一个或多个图像。显示界面设备可被配置为在其显示器上显示可识别的界标图案(例如，快速响应(QR)码或其他界标图案)。当显示界面设备显示界标图案时，显示界面设备可在XR设备的一个或多个相机的视场中，使得由XR设备的相机捕获的一个或多个图像描绘了显示界标图案的显示界面设备。XR设备可基于一个或多个捕获的图像来生成一个或多个输出图像。XR设备在一个或多个输出图像中将虚拟界面覆盖在界标图案上。将虚拟界面覆盖在界标图案上和/或用虚拟界面替换界标图案可确保虚拟界面在由XR设备向用户显示时显得清晰且清楚，并且可允许用户提供具有反馈(例如，视觉反馈、触觉反馈、听觉反馈、振动反馈或它们的组合)的精确输入。在一些示例中，虚拟界面是基于触摸的虚拟界面，并且一个或多个显示界面设备是一个或多个触摸屏设备。触摸屏设备可通过触摸屏接收一个或多个触摸输入。显示界面设备可向XR设备发送显示界面输入的显示界面输入标识符。显示界面输入标识符可识别一个或多个显示界面输入中的每一者的在显示界面设备的显示器和/或显示界面上的坐标(例如，触摸输入、鼠标点击等的坐标)。XR设备和/或显示界面设备可基于界标图案和触摸输入标识符来识别显示界面输入是否与虚拟界面的任何界面元件对准并且因此与虚拟界面的任何界面元件交互。XR设备和/或显示界面设备可基于显示界面输入已经与虚拟界面的一个或多个界面元件对准和/或交互来更新虚拟界面。XR设备可响应于触摸输入与虚拟界面的一个或多个界面元件交互而显示或更新XR设备的视场中的虚拟内容。XR设备可响应于显示界面输入与虚拟界面的一个或多个界面元件对准和/或交互而播放或更新音频内容和/或播放或更新视觉内容和/或输出振动。

在一个示例中，提供了一种用于图像处理的装置。该装置包括存储器和耦合到存储器的一个或多个处理器(例如，在电路中实现)。该一个或多个处理器被配置为并且可：接收场景的输入图像，该输入图像由图像传感器捕获；在该场景的该输入图像中检测该场景中的第一显示器上显示的界标图案；确定该输入图像中的该界标图案的姿势；以及致使第二显示器显示基于该输入图像的输出图像，其中虚拟界面在该输出图像中覆盖在该界标图案上，其中该输出图像中的该虚拟界面的姿势基于该输入图像中的该界标图案的该姿势。

在另一个示例中，提供了一种图像处理方法。该方法包括：接收场景的输入图像，该输入图像由图像传感器捕获；在该场景的该输入图像中检测该场景中的第一显示器上显示的界标图案；确定该输入图像中的该界标图案的姿势；以及致使第二显示器显示基于该输入图像的输出图像，其中虚拟界面在该输出图像中覆盖在该界标图案上，其中该输出图像中的该虚拟界面的姿势基于该输入图像中的该界标图案的该姿势。

在另一个示例中，提供了一种其上存储有指令的非暂态计算机可读介质，该指令在由一个或多个处理器执行时致使该一个或多个处理器：接收场景的输入图像，该输入图像由图像传感器捕获；在该场景的该输入图像中检测该场景中的第一显示器上显示的界标图案；确定该输入图像中的该界标图案的姿势；以及致使第二显示器显示基于该输入图像的输出图像，其中虚拟界面在该输出图像中覆盖在该界标图案上，其中该输出图像中的该虚拟界面的姿势基于该输入图像中的该界标图案的该姿势。

在另一个示例中，提供了一种用于图像处理的装置。该装置包括：用于接收场景的输入图像的构件，该输入图像由图像传感器捕获；用于在该场景的该输入图像中检测该场景中的第一显示器上显示的界标图案的构件；用于确定该输入图像中的该界标图案的姿势的构件；和用于致使第二显示器显示基于该输入图像的输出图像的构件，其中虚拟界面在该输出图像中覆盖在该界标图案上，其中该输出图像中的该虚拟界面的姿势基于该输入图像中的该界标图案的该姿势。

在一些方面，该界标图案包括以下中的至少一者：线性图示符、线性条形码、条形码、二维(2D)图示符、2D条形码、快速响应(QR)码、微QR码、条形码、MaxiCode、Aztec码、PDF417码、ArUco码、数据矩阵、网格矩阵、一级码代码、堆叠条形码、shotcode、JAB码、高容量彩色条形码(HCCB)、棋盘图案、三维(3D)图示符、3D条形码和一种或多种颜色。

在一些方面，上述方法、装置和计算机可读介质还包括：识别对象遮挡该第一显示器的包括该输入图像中的该界标图案的至少一部分的区域，并且其中致使该第二显示器显示该输出图像包括在该输出图像中遮挡该虚拟界面的对应于该第一显示器的该区域的部分。

在一些方面，上述方法、装置和计算机可读介质还包括：生成该虚拟界面的至少一部分。在一些方面，上述方法、装置和计算机可读介质还包括：从包括该第一显示器的显示设备接收该虚拟界面的至少一部分。

在一些方面，上述方法、装置和计算机可读介质还包括：生成该输出图像的至少一部分。在一些方面，生成该输出图像的至少该部分包括使用基于该输入图像中的该界标图案的该姿势的透视扭曲来修改该虚拟界面。

在一些方面，上述方法、装置和计算机可读介质还包括：生成对应于该界标图案的界标图案数据；以及将该界标图案数据发送到包括该第一显示器的显示设备以供该显示设备响应于接收到该界标图案数据而在该第一显示器上显示该界标图案。

在一些方面，上述方法、装置和计算机可读介质还包括：从包括该第一显示器的显示设备接收显示界面输入标识符，该显示界面输入标识符指示该第一显示器的经由该显示设备的显示界面接收显示界面输入的部分，该显示界面与该第一显示器相关联。在一些方面，该第一显示器是该显示设备的触摸屏显示器的显示层，其中该显示界面是该触摸屏显示器的触敏层，其中该显示界面输入是由该触摸屏显示器的该触敏层检测的触摸输入。在一些方面，该显示界面控制该第一显示器上的光标，其中该显示界面输入是基于该光标在该第一显示器上的位置的光标输入，其中该显示界面包括鼠标、触控板、触敏表面、触摸屏、操纵杆、小键盘、键盘、按钮、控制器和遥控器中的至少一者。在一些方面，该显示界面执行关于该第一显示器的手部的手部跟踪，其中该显示界面输入指示该第一显示器上与该手部的位置相对应的位置，其中该显示界面包括相机和范围传感器中的至少一者，其中该显示界面输入与以下中的至少一者相关联：该手部触摸该第一显示器上的该位置、该手部悬停在该第一显示器上的该位置上方、该手部指向该第一显示器上的该位置以及该手部相对于该第一显示器上的该位置做手势。

在一些方面，上述方法、装置和计算机可读介质还包括：识别由该显示界面输入标识符指示的该第一显示器的该部分与该输出图像中的该虚拟界面的部分对准。在一些方面，上述方法、装置和计算机可读介质还包括：响应于识别由该显示界面输入标识符指示的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准而自动修改该虚拟界面。在一些方面，上述方法、装置和计算机可读介质还包括：接收该场景的第二输入图像，该第二输入图像在该输入图像的捕获之后由该图像传感器捕获；以及致使该第二显示器显示第二输出图像，其中该第二输出图像包括覆盖在该第二输入图像上的虚拟内容，其中该虚拟内容基于识别由该显示界面输入标识符指示的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准来自动设置。在一些方面，上述方法、装置和计算机可读介质还包括：响应于识别由该显示界面输入标识符识别的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准而自动输出音频剪辑。在一些方面，上述方法、装置和计算机可读介质还包括：响应于识别由该显示界面输入标识符识别的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准而自动输出振动。

在一些方面，上述方法、装置和计算机可读介质还包括：确定该输入图像中的该第一显示器的大小，其中该输出图像中的该虚拟界面的大小基于该输入图像中的该第一显示器的该大小。在一些方面，上述方法、装置和计算机可读介质还包括：确定该输入图像中的该界标图案的大小，其中该输出图像中的该虚拟界面的大小基于该输入图像中的该界标图案的该大小。

在一些方面，上述方法、装置和计算机可读介质还包括：该图像传感器。在一些方面，上述方法、装置和计算机可读介质还包括：该第二显示器。

在一些方面，该装置是以下项、以下项的一部分和/或包括以下项：可穿戴设备、扩展现实设备(例如，虚拟现实(VR)设备、增强现实(AR)设备或混合现实(MR)设备)、移动设备(例如，移动电话和/或所谓的“智能电话”或其他移动设备)、无线通信设备、相机、个人计算机、膝上型计算机、服务器计算机、交通工具或计算设备或交通工具的部件、头戴式显示器(HMD)设备、或其他设备。在一些方面中，装置包括用于捕获一个或多个图像的一个或多个相机。在一些方面，该装置进一步包括用于显示一个或多个图像、通知和/或其他可显示数据的显示器。在一些方面，以上描述的装置可以包括一个或多个传感器(例如，一个或多个惯性测量单元(IMU)，诸如一个或多个陀螺仪、一个或多个加速度计、它们的任何组合和/或其他传感器)。

该发明内容不旨在标识所要求保护的主题的关键或必要特征，其也不旨在孤立地用于确定所要求保护的主题的范围。本主题内容应当参考本专利的整个说明书的合适部分、任何或所有附图、以及每项权利要求来理解。

前述内容以及其他特征和实施方案将在参考以下说明书、权利要求书和所附附图时变得更明显。

附图说明

参考下列附图在下文中对本申请的例示性实施方案进行了详细的描述，其中：

图1是示出根据一些示例的图像捕获和处理***的示例性架构的框图；

图2是示出根据一些示例的具有XR设备和显示界面设备的扩展现实(XR)***的示例性架构的框图；

图3A是示出根据一些示例的用作扩展现实(XR)***的头戴式显示器(HMD)的透视图；

图3B是示出根据一些示例的由用户穿戴的图3A的头戴式显示器(HMD)的透视图；

图4A是示出根据一些示例的包括前置相机并且可用作扩展现实(XR)设备或触摸屏设备的移动手机的前表面的透视图；

图4B是示出根据一些示例的包括后置相机并且可用作扩展现实(XR)设备或显示界面设备的移动手机的后表面的透视图；

图5A是示出根据一些示例的穿戴扩展现实(XR)设备并且持有正在显示界标图案的显示界面设备的用户的透视图；

图5B是示出根据一些示例的穿戴图5A的扩展现实(XR)设备并且通过该XR设备查看环境的用户的视场(FOV)的透视图，其中虚拟界面被覆盖在界标图案上；

图6A是示出根据一些示例的穿戴扩展现实(XR)设备并且持有显示界面设备的用户的透视图，该显示界面设备正在显示被用户的手部和手指部分遮挡的两个界标图案；

图6B是示出根据一些示例的穿戴图6A的扩展现实(XR)设备并且通过该XR设备查看环境的用户的视场(FOV)的透视图，其中虚拟界面被覆盖在两个界标图案上并且遮挡在虚拟界面上可见；

图7A是示出根据一些示例的穿戴扩展现实(XR)设备并且持有正在显示界标图案和所显示的界面的显示界面设备的用户的透视图；

图7B是示出根据一些示例的穿戴图7A的扩展现实(XR)设备并且通过该XR设备查看环境的用户的视场(FOV)的透视图，其中虚拟界面被覆盖在界标图案上但是所显示的界面仍然是可见的；

图8A是示出根据一些示例的穿戴扩展现实(XR)设备并且持有正在显示两个界标图案的显示界面设备的用户的透视图；

图8B是示出根据一些示例的穿戴图8A的扩展现实(XR)设备并且通过该XR设备查看环境的用户的视场(FOV)的透视图，其中虚拟界面被覆盖在两个界标图案上；

图9是示出根据一些示例的随着时间推移在显示多个不同界标图案之间切换的显示界面设备的概念图；

图10是示出根据一些示例的由扩展现实(XR)设备和显示界面设备执行的用于提供虚拟界面的操作的泳道图；

图11是示出根据一些示例的用于处理图像数据的操作的流程图；并且

图12是示出用于实现本文描述的某些方面的计算***的示例的图示。

具体实施方式

以下提供本公开的某些方面和实施方案。这些方面和实施方案中的一些可独立地应用，并且它们中的一些可组合应用，这对于本领域技术人员来说是显而易见的。在以下描述中，出于解释目的阐述了具体细节以提供对本申请的实施方案的透彻理解。然而，将显而易见的是，可以在没有这些特定细节的情况下实践各个实施方案。各附图和描述不旨在是限制性的。

以下描述仅提供示例性实施方案，且并不打算限制本公开内容的范围、适用性或配置。相反，对示例性实施方案的以下描述将向本领域技术人员提供用于实现示例性实施方案的赋能描述。应当理解的是，在不脱离如所附权利要求所阐述的本申请的精神和范围的情况下，可以对元素的功能和安排做出各种改变。

相机是使用图像传感器接收光并且捕获图像帧(诸如静态图像或视频帧)的设备。术语“图像”、“图像帧”和“帧”在本文中可互换使用。相机可被配置有各种图像捕获和图像处理设置。不同的设置产生具有不同外观的图像。在捕获一个或多个图像帧之前或期间确定并应用一些相机设置，诸如ISO、曝光时间、光圈大小、f/制光圈、快门速度、聚焦和增益。例如，可以将设置或参数应用于用来捕获一个或多个图像帧的图像传感器。其他相机设置可以配置一个或多个图像帧的后处理，诸如对比度、亮度、饱和度、锐度、级别、曲线或颜色的改变。例如，可以将设置或参数应用于用来处理由图像传感器捕获的一个或多个图像帧的处理器(例如，图像信号处理器或ISP)。

扩展现实(XR)设备是向用户显示环境的设备，并且可包括例如头戴式显示器(HMD)、眼镜(增强现实(AR)眼镜)、移动手机或另一设备。该环境至少部分地不同于用户和设备所处的真实世界环境，并且可以例如包括虚拟内容。在一些示例中，XR设备向用户显示的环境可以是至少部分虚拟的。在一些情况下，用户可例如通过倾斜XR设备和/或横向地移动XR设备来交互地改变XR设备显示的他们的环境视图。倾斜XR设备可以包括沿着俯仰轴、偏航轴、翻滚轴或它们的组合的倾斜或旋转。XR设备的横向移动可包括沿着在具有3个垂直轴(诸如X轴、Y轴和Z轴)的3维体积内绘制的路径的横向移动。仅跟踪XR设备的旋转的XR设备可被称为具有三个自由度(3DoF)的XR设备。跟踪XR设备的倾斜和横向移动两者的XR设备可被称为具有六个自由度(6DoF)的XR设备。扩展现实(XR)可包括虚拟现实(VR)、增强现实(AR)、混合现实(MR)或它们的组合。

XR设备可包括传感器，诸如(例如，相机的)图像传感器、加速度计、陀螺仪、惯性测量单元(IMU)、光探测和测距(LIDAR)传感器、无线电探测和测距(RADAR)传感器、声音探测和测距(SODAR)传感器、声音导航和测距(SONAR)传感器、一个或多个飞行时间(ToF)传感器、一个或多个结构光传感器、一个或多个话筒、本文所描述的一个或多个其他传感器或它们的组合。作为HMD的XR设备(例如，两个相机)可大致定位在HMD上的对应于用户左眼和右眼的位置处。XR设备可使用由这些传感器捕获的数据来检测XR设备在真实世界环境中的移动，例如使得XR设备可基于XR设备的旋转和/或横向移动来交互地更新用户的环境视图。XR设备的图像传感器可用于捕获真实世界环境的视觉表示。一些XR设备还可使用由这些传感器捕获的数据以例如通过使用特征检测、特征识别、特征跟踪、对象检测、对象识别、对象跟踪、车辆检测、车辆识别、车辆跟踪、面部检测、面部识别、面部跟踪、人检测、人识别、人跟踪、动物检测、动物识别、动物跟踪、或它们的组合来检测和/或跟踪一个或多个对象(诸如用户手部或环境中的其他人)的特征。XR设备可通过XR设备的一个或多个显示器向XR设备的用户显示基于由其传感器捕获的传感器数据的内容(例如，由图像传感器捕获的环境的视觉表示)。

在XR的一些使用情况下，有用的是从用户接收输入，例如控制虚拟对象、与界面交互、调整XR设备本身的设置、和/或打开或关闭XR设备本身。例如，在基于XR的视频游戏中，用户可使用输入来控制虚拟角色。用户还可使用输入来调整音量水平、控制XR设备正在为用户播放的歌曲或视频的回放(例如，通过像暂停、播放、倒带、快进或擦洗的功能)等。传统的视频游戏控制器对于某些类型的输入(诸如精细滚动或滑动调整)而言可能是不精确的，并且对于用户携带而言可能是笨重且不方便的。空中手势可能由于缺乏触觉反馈和对手部跟踪的依赖而不精确，这可能具有不一致的可靠性并且可能需要XR设备处的高功率汲取。

具有基于显示的界面的显示界面设备通常由用户使用，包括例如移动手机、平板设备、膝上型计算机、电视机和智能手表。具有基于显示的界面的显示界面设备可包括例如具有触摸屏界面的触摸屏设备，其可在触摸屏上显示界面并且通过触摸屏接收输入。具有基于显示的界面的显示界面设备还可包括使用光标、触控板、小键盘、控制器、遥控器等来与所显示的界面交互的设备。具有基于显示的界面的显示界面设备可接收精确和触觉输入，从而允许用户与所显示的界面交互。例如，触摸屏可接收对于触摸屏设备的基于触觉触摸的输入，从而允许用户以精确方式与所显示的界面交互。然而，显示界面设备传统上没有与XR设备一起使用。在一些情况下，例如由于显示屏幕的刷新速率与XR设备的图像传感器的捕获速率之间的去同步化或不匹配，显示在显示屏幕上的内容(诸如显示在触摸屏上的界面)可能看起来不清楚或者可能在由XR设备的图像传感器捕获的图像中包括一个或多个视觉伪像。

本文描述了用于使得XR设备能够使用一个或多个显示界面设备的技术。使用此类技术，XR可为由XR设备向用户呈现的XR内容提供虚拟界面。虚拟界面可向XR设备提供来自显示界面设备的真实显示界面输入(例如，来自显示界面设备的触摸屏的基于触摸的真实输入)。XR设备对来自显示界面设备的真实显示界面输入的使用可通过向提供输入的用户提供触感(例如，触摸屏、鼠标、触控板、小键盘或控制器或遥控器的一个或多个按钮、和/或操纵杆的触感)来改进精确度，从而改进可能不精确且缺乏触感或反馈的空中手势。XR设备对来自显示界面设备的真实显示界面输入的使用可改进对于XR设备的某些类型的输入(诸如精细滚动或滑动调整，其通常通过空中手势而为不精确的)或缺少显示界面部件的其他输入的精确度。

因为显示界面设备可具有各种大小、屏幕尺寸和形状因子，所以XR设备可能难以跟踪显示界面设备的位置和取向。因此，XR设备可能难以跟踪用户与显示界面的交互。XR设备也可能难以增强XR设备通过其相机捕获的由显示界面设备的设备显示的界面的视觉表示，以便向XR设备的用户显示视觉表示的增强版本。

显示界面设备可被配置为显示一个或多个界标图案，而不是显示XR设备202的显示界面。一个或多个界标图案可被设计成使得XR设备可有效地识别由XR设备的相机捕获的图像数据中的界标图案的视觉表示。一个或多个界标图案可被设计成使得XR设备可随着时间推移有效地跟踪图像数据中的界标图案的视觉表示的姿势和/或大小。姿势可包括位置(例如，图像中的二维坐标和/或环境中的三维坐标)、取向(例如，俯仰、偏航和/或翻滚)或它们的组合。大小可包括三维体积、二维面积和/或一维测量(例如，高度、宽度)。大小可以是绝对的或相对的。通过跟踪界标图案的姿势，XR设备还可跟踪显示界面设备的显示器的姿势和/或大小。

在一些示例中，一个或多个界标图案可包括一个或多个快速响应(QR)码、一个或多个微QR码、一个或多个条形码、一个或多个MaxiCode、一个或多个Aztec码、一个或多个PDF417码、一个或多个ArUco码、一个或多个数据矩阵、一个或多个网格矩阵、一个或多个一级码代码、一个或多个堆叠条形码、一个或多个shotcode、一个或多个JAB码、一个或多个高容量彩色条形码(HCCB)、一个或多个二维(2D)条形码、一个或多个三维(3D)条形码、一个或多个棋盘图案、另一种类型的可识别图示符或图案中的一者或多者、或它们的组合。在XR设备向其用户显示的输出图像中，XR设备可将虚拟界面覆盖在界标图案上，用虚拟界面替换界标图案，或它们的组合。虚拟界面的姿势和/或大小可基于界标图案的姿势和/或大小，和/或基于显示界面设备的显示器的姿势和/或大小。例如，XR设备可定位、移动、调整大小、重新采样、重新缩放、上采样、上缩放、下采样、下缩放、放大、收缩、旋转、偏斜、变形(例如，透视变形)和/或扭曲(例如，透视扭曲)虚拟界面以模拟界标图案和/或显示界面设备的显示器的姿势和/或大小。

在例示性示例中，XR设备可使用XR设备的图像传感器来捕获场景的图像。场景包括正在其显示器上显示界标图案的显示界面设备的显示器的至少一部分。显示器在XR设备的图像传感器的视场中，并且图像至少描绘如在显示界面设备的显示器上显示的界标图案。XR设备可在场景的图像中检测和/或识别在显示界面设备的显示器上显示的界标图案的视觉表示(例如，描绘)。XR设备可基于界标图案的视觉表示来确定界标图案的姿势和/或大小并且因此确定显示界面设备的显示器的姿势和/或大小。XR设备可基于场景的图像并且基于显示界面设备的显示器的姿势和/或大小来生成输出图像。例如，输出图像可以是所捕获的图像的修改变体，其中XR设备将虚拟界面覆盖在界标图案的视觉表示上，在一些情况下，用虚拟界面替换界标图案的视觉表示。XR设备可定位、定向、调整大小、旋转、偏斜、变形和/或扭曲虚拟界面以具有基于所识别的界标图案的姿势和/或所识别的显示界面设备的显示器的姿势的虚拟姿势、模拟姿势。XR设备可定位、定向、调整大小、旋转、偏斜、变形和/或扭曲虚拟界面以具有基于所识别的界标图案的大小和/或所识别的显示界面设备的显示器的大小的虚拟大小和/或模拟大小。XR设备可通过XR设备的一个或多个显示器向用户显示输出图像。因此，对于XR设备的用户而言，虚拟界面可看起来在显示界面设备250的显示器上显示在界标图案顶上和/或代替界标图案。

如上所述，向XR设备提供显示界面设备的显示界面(XR设备可通过该显示界面从显示界面设备接收显示界面输入)可改进XR设备所使用的输入的精确度并且可向提供输入的用户提供触感，从而改进空中手势。类似地，为XR设备提供显示界面(XR设备可通过该显示界面从显示界面设备接收显示界面输入)可改进对于XR设备的某些类型的输入(诸如精细滚动或滑动调整)的精确度，该输入通常通过游戏控制器(没有对应的显示界面)、空中手势或缺少对应显示界面的其他输入操作而为不精确的。将虚拟界面覆盖在界标图案上和/或用虚拟界面替换界标图案可确保虚拟界面在由XR设备向用户显示时看起来清晰且清楚，从而克服了本来可能由显示界面设备的显示器的刷新速率与XR设备的图像传感器的捕获速率之间的去同步化或不匹配、和/或由来自显示界面设备的显示器的光与XR设备的图像捕获硬件的透镜和/或其他光学元件之间的交互导致的任何视觉伪像(例如，扫描线或色差)。因此，技术改进包括减小或消除此类视觉伪像，以及改进使用XR设备的显示器向XR设备的用户显示的界面的清晰度和锐度。将虚拟界面覆盖在界标图案上和/或用虚拟界面替换界标图案还可允许虚拟界面看起来比在显示界面设备的显示器上可能的情况更清楚，例如允许虚拟界面超过显示界面设备的显示器的有限分辨率和/或色域和/或颜色覆盖。技术改进因此包括对界面的分辨率、清晰度和/或锐度的改进。将虚拟界面覆盖在界标图案上和/或用虚拟界面替换界标图案可允许虚拟界面看起来比在显示界面设备的显示器上可能的情况更多彩，例如即使显示界面设备的显示器是单色或有限色显示器(例如，如在电子书阅读器设备中使用的电子墨水显示器或电子纸显示器)，也允许虚拟界面处于全彩色。因此，技术改进包括对界面的颜色和/或能力的改进。将虚拟界面覆盖在界标图案上和/或用虚拟界面替换界标图案还可允许虚拟界面的部分扩展超出显示界面设备的显示器和/或显示界面设备本身的物理尺寸。例如，虚拟界面的部分可看起来延伸超出显示界面设备的显示器的边缘和/或超出显示界面设备本身的边缘。因此，技术改进包括对界面的尺寸和/或大小的改进。显示界面设备还可向用户提供振动反馈，例如作为针对按钮按压的触觉反馈、基于触摸的交互、基于某些事件或条件(例如，视频游戏事件)的检测的“隆隆样(Rumble)”振动或它们的组合。因此，技术改进包括对来自界面交互的反馈的改进。关于界标图案应如何看向XR设备的知识还可允许XR设备以改进的准确度识别遮挡界标图案的至少一部分的任何遮挡(例如，用户的手指和/或手部)的精确边界和界限，并且允许XR设备准确地再现用于遮挡虚拟界面的对应部分的遮挡。因此，技术改进包括对遮挡表示和准确度的改进。可根据预设时间表随时间推移在显示界面设备的显示器处显示不同的界标图案，从而允许XR设备基于显示界面设备改变界标图案与XR设备检测到对界标图案的改变中的该改变之间的时间差来改进延迟检测，并且因此改进显示界面设备与XR设备之间的时间同步。因此，技术改进包括对于将显示界面输入映射到时间的改进，以及显示界面输入到虚拟界面的改进同步。将虚拟界面覆盖在界标图案上和/或用虚拟界面替换界标图案还可允许虚拟界面保持对XR设备的用户为私密的，因为看见显示界面设备的显示器的不是XR设备的用户的任何人仅看见界标图案，而不是XR设备覆盖在界标图案顶上的虚拟界面。因此，技术改进包括对关于界面的安全性和私密性的改进。

图1是示出图像捕获和处理***100的架构的框图。图像捕获和处理***100包括被用于捕获和处理场景的图像(例如，场景110的图像)的各种部件。图像捕获和处理***100可以捕获独立的图像(或照片)和/或可以捕获包括特定序列中的多个图像(或视频帧)的视频。***100的透镜115面对场景110并接收来自场景110的光。透镜115使光朝向图像传感器130弯曲。被透镜115接收的光穿过由一个或多个控制机制120控制的光圈，并被图像传感器130接收。

一个或多个控制机制120可以基于来自图像传感器130的信息和/或基于来自图像处理器150的信息来控制曝光、聚焦和/或变焦。一个或多个控制机制120可以包括多个机制和部件；例如，控制机制120可以包括一个或多个曝光控制机制125A、一个或多个聚焦控制机制125B和/或一个或多个变焦控制机制125C。一个或多个控制机制120还可以包括除所示出的那些控制机制之外的附加控制机制，诸如控制模拟增益、闪光、HDR、景深和/或其他图像捕获属性的控制机制。

控制机制120的聚焦控制机制125B可以获得聚焦设置。在一些示例中，聚焦控制机制125B将聚焦设置存储在存储器寄存器中。基于聚焦设置，聚焦控制机制125B可以相对于图像传感器130的位置来调整透镜115的位置。例如，基于聚焦设置，聚焦控制机制125B可以通过致动电机或伺服来使透镜115移动地更靠近图像传感器130或更远离图像传感器130，从而调整聚焦。在一些情况下，在***100中可包括附加透镜，诸如图像传感器130的每个光电二极管上方的一个或多个微透镜，该微透镜各自在从透镜115接收的光到达光电二极管之前使所述光朝向对应光电二极管弯曲。可以通过对比度检测自动聚焦(CDAF)、相位检测自动聚焦(PDAF)或它们的某种组合来确定聚焦设置。可以使用控制机制120、图像传感器130和/或图像处理器150来确定聚焦设置。聚焦设置可以被称为图像捕获设置和/或图像处理设置。

控制机制120的曝光控制机制125A可以获得曝光设置。在一些情形中，曝光控制机制125A将曝光设置存储在存储器寄存器中。基于该曝光设置，曝光控制机制125A可以控制光圈的大小(例如，光圈大小或f/制光圈)、光圈打开的持续时间(例如，曝光时间或快门速度)、图像传感器130的灵敏度(例如，ISO速度或胶片速度)、由图像传感器130施加的模拟增益或它们的任意组合。曝光设置可以被称为图像捕获设置和/或图像处理设置。

控制机制120的变焦控制机制125C可以获得变焦设置。在一些示例中，变焦控制机制125C将变焦设置存储在存储器寄存器中。基于变焦设置，变焦控制机制125C可以控制包括透镜115和一个或多个附加透镜的透镜元件组件(透镜组件)的焦距。例如，变焦控制机制125C可以通过致动一个或多个电机或伺服以相对于彼此移动一个或多个透镜来控制透镜组件的焦距。变焦设置可以被称为图像捕获设置和/或图像处理设置。在一些示例中，透镜组件可以包括齐焦变焦透镜或可变焦距变焦透镜。在一些示例中，透镜组件可以包括聚焦透镜(在一些情形中其可以是透镜115)，该聚焦透镜首先接收来自场景110的光，其中该光随后在该光到达图像传感器130之前穿过聚焦透镜(例如，透镜115)与图像传感器130之间的无焦变焦***。无焦变焦***在一些情形中可以包括具有相等或相似焦距(例如，在阈值差内)的两个正(例如，会聚、凸)透镜，在它们之间具有负(例如，发散、凹)透镜。在一些情形中，变焦控制机制125C移动无焦变焦***中的各透镜中的一者或多者，诸如负透镜以及正透镜中的一者或两者。

图像传感器130包括光电二极管或其他光敏元件的一个或多个阵列。每个光电二极管对最终与由图像传感器130产生的图像中的特定像素相对应的光量进行测量。在一些情形中，不同的光电二极管可以被不同的滤色器覆盖，并且因此可以测量与覆盖该光电二极管的滤色器的颜色相匹配的光。例如，拜耳滤色器包括红色滤色器、蓝色滤色器和绿色滤色器，其中图像的每个像素基于来自覆盖在红色滤色器中的至少一个光电二极管的红光数据、来自覆盖在蓝色滤色器中的至少一个光电二极管的蓝光数据以及来自覆盖在绿色滤色器中的至少一个光电二极管的绿光数据而生成。其他类型的滤色器可以使用黄色、品红色和/或青色(也称为“祖母绿”)滤色器来代替或补充红色、蓝色和/或绿色滤色器。一些图像传感器可以完全缺少滤色器，以及可以替代地遍及像素阵列来使用不同的光电二极管(在一些情况下是垂直地堆叠的)。整个像素阵列中的不同光电二极管可以具有不同的光谱灵敏度曲线，由此对不同波长的光进行响应。单色图像传感器也可能缺乏滤色器，并且因此缺乏色彩深度。

在一些情形中，图像传感器130可替代地或附加地包括不透明和/或反射掩模，其阻挡光在某些时间和/或从某些角度到达某些光电二极管或某些光电二极管的部分，这可被用于相位检测自动聚焦(PDAF)。图像传感器130还可以包括用以放大由光电二极管输出的模拟信号的模拟增益放大器和/或用以将由光电二极管输出的模拟信号(和/或由模拟增益放大器放大的模拟信号)转换成数字信号的模数转换器(ADC)。在一些情形中，关于一个或多个控制机制120所讨论的某些部件或功能可以替代地或附加地包括在图像传感器130中。图像传感器130可以是电荷耦合器件(CCD)传感器、电子倍增CCD(EMCCD)传感器、有源像素传感器(APS)、互补金属氧化物半导体(CMOS)、N型金属氧化物半导体(NMOS)、混合CCD/CMOS传感器(例如，sCMOS)或它们的某种其他组合。

图像处理器150可包括一个或多个处理器，诸如一个或多个图像信号处理器(ISP)(包括ISP 154)、一个或多个主机处理器(包括主机处理器152)和/或一个或多个相对于计算设备1200讨论的任何其他类型的处理器1210。主机处理器152可以是数字信号处理器(DSP)和/或其他类型的处理器。在一些具体实施中，图像处理器150是包括主机处理器152和ISP 154的单个集成电路或芯片(例如，称为片上***或SoC)。在一些情况下，芯片还可以包括一个或多个输入/输出端口(例如，输入/输出(I/O)端口156)、中央处理单元(CPU)、图形处理单元(GPU)、宽带调制解调器(例如，3G、4G或LTE、5G等)、存储器、连通性部件(例如，Bluetooth^TM、全球定位***(GPS)等)、它们的任何组合和/或其他部件。I/O端口156可以包括根据一个或多个协议或规范的任何合适的输入/输出端口或接口，诸如集成电路间2(I2C)接口、集成电路间3(I3C)接口、串行***设备接口(SPI)接口、串行通用输入/输出(GPIO)接口、移动工业处理器接口(MIPI)(诸如MIPI CSI-2物理(PHY)层端口或接口、高级高性能总线(AHB)总线、它们的任何组合和/或其他输入/输出端口。在一个例示性示例中，主机处理器152可以使用I2C端口与图像传感器130通信，并且ISP 154可以使用MIPI端口与图像传感器130通信。

图像处理器150可以执行多个任务，例如去马赛克、颜色空间转换、图像帧下采样、像素内插、自动曝光(AE)控制、自动增益控制(AGC)、CDAF、PDAF、自动白平衡、合并图像帧以形成HDR图像、图像识别、对象识别、特征识别、接收输入、管理输出、管理存储器或它们的某种组合。图像处理器150可将图像帧和/或经处理的图像存储在随机存取存储器(RAM)140和/或1225、只读存储器(ROM)145和/或1220、高速缓存、存储器单元、另一存储设备或它们的某种组合中。

各种输入/输出(I/O)设备160可被连接到图像处理器150。I/O设备160可包括显示屏、键盘、小键盘、触摸屏、触控板、触敏表面、打印机、任何其他输出设备1235、任何其他输入设备1245或它们的某种组合。在一些情形中，字幕可以通过I/O设备160的物理键盘或小键盘，或者通过I/O设备160的触摸屏的虚拟键盘或小键盘输入到图像处理设备105B中。I/O160可以包括实现***100与一个或多个***设备之间的有线连接的一个或多个端口、插孔或其他连接器，***100可以通过这些端口、插孔或其他连接器从一个或多个***设备接收数据和/或将数据传送到一个或多个***设备。I/O 160可以包括一个或多个无线收发器，其实现***100与一个或多个***设备之间的无线连接，***100可以通过所述无线连接从一个或多个***设备接收数据和/或将数据传送到一个或多个***设备。***设备可以包括先前讨论的任何类型的I/O设备160，并且一旦它们被耦合到端口、插孔、无线收发器或其他有线和/或无线连接器，它们本身就可以被认为是I/O设备160。

在一些情况下，图像捕获和处理***100可以是单个设备。在一些情形中，图像捕获和处理***100可以是两个或更多个独立的设备，包括图像捕获设备105A(例如，相机)和图像处理设备105B(例如，耦合到相机的计算设备)。在一些具体实施中，图像捕获设备105A和图像处理设备105B可以例如经由一个或多个电线、电缆或其他电连接器耦合在一起，和/或经由一个或多个无线收发器无线地耦合在一起。在一些具体实施中，图像捕获设备105A和图像处理设备105B可以彼此断开连接。

如图1中所示出的，垂直虚线将图1的图像捕获和处理***100划分为分别表示图像捕获设备105A和图像处理设备105B的两个部分。图像捕获设备105A包括透镜115、控制机制120和图像传感器130。图像处理设备105B包括图像处理器150(包括ISP 154和主机处理器152)、RAM 140、ROM 145和I/O 160。在一些情形中，图像捕获设备105A中所示出的某些部件(诸如ISP 154和/或主机处理器152)可被包括在图像捕获设备105A中。

图像捕获和处理***100可以包括电子设备，诸如移动或固定电话手机(例如，智能手机、蜂窝电话等)、台式计算机、膝上型或笔记本计算机、平板计算机、机顶盒、电视、相机、显示设备、数字媒体播放器、视频游戏控制台、视频流媒体设备、互联网协议(IP)相机或任何其他合适的电子设备。在一些示例中，图像捕获和处理***100可以包括用于无线通信的一个或多个无线收发器，诸如蜂窝网络通信、802.11wi-fi通信、无线局域网(WLAN)通信或它们的某种组合。在一些具体实施中，图像捕获设备105A和图像处理设备105B可以是不同的设备。例如，图像捕获设备105A可以包括相机设备，并且图像处理设备105B可以包括计算设备，诸如移动手机、台式计算机或其他计算设备。

尽管图像捕获和处理***100被示为包括某些部件，但本领域普通技术人员将领会，图像捕获和处理***100可包括比图1中所示的那些部件更多的部件。图像捕获和处理***100的部件可以包括软件、硬件或软件和硬件的一个或多个组合。例如，在一些具体实施中，图像捕获和处理***100的各部件可包括和/或可使用电子电路或其他电子硬件(其可包括一个或多个可编程电子电路(例如，微处理器、GPU、DSP、CPU和/或其他合适的电子电路))来实现，和/或可包括和/或可使用计算机软件、固件、或它们的任何组合来实现，以执行本文描述的各种操作。软件和/或固件可以包括存储在计算机可读存储介质上并且可由实现图像捕获和处理***100的电子设备的一个或多个处理器执行的一个或多个指令。

本文描述了用于使用显示界面设备为XR设备提供虚拟界面的***、装置、过程和计算机可读介质。在一些示例中，显示界面设备可以是包括触摸屏的触摸屏设备。显示界面设备可包括用于与显示器上显示的界面交互的一个或多个显示界面，诸如触摸屏、控制显示器上的光标或其他显示元件的鼠标、控制显示器上的光标或其他显示元件的触控板、控制显示器上的文本输入和/或光标或其他显示元件的小键盘、控制显示器上的文本输入和/或光标或其他显示元件的控制器、控制显示器上的文本输入和/或光标或其他显示元件的遥控器、用于使用(例如，XR设备和/或显示界面设备的)相机来对与显示器的交互进行手部跟踪的手部***、用于使用(例如，XR设备和/或显示界面设备的)有源深度传感器(例如，RADAR、LIDAR、SONAR、SODAR、结构光、飞行时间)来对与显示器的交互进行手部跟踪的手部***、用于使用(例如，XR设备和/或显示界面设备的)超声传感器来对与显示器的交互进行手部跟踪的手部***、提供与显示器相关联的输入界面的另一个输入设备1245、或它们的组合。XR设备可包括可捕获一个或多个图像的一个或多个相机。一个或多个相机可各自包括图像捕获和处理***100、图像捕获设备105A、图像处理设备105B、图像传感器130或它们的组合。XR设备可处理图像并且在图像内检测在图像传感器的视场中的显示界面设备的显示器上显示的界标图案的描绘。XR设备202可在图像内检测图像中的界标图案的姿势和/或大小，并且可将虚拟界面覆盖在界标图案上，使得虚拟界面在XR设备向其用户显示的输出图像中具有对应姿势和/或大小。

图2是示出根据一些示例的具有XR设备202和显示界面设备250的扩展现实(XR)***200的示例性架构的框图。显示界面设备250可被称为显示设备。XR***200的XR设备202包括XR应用程序204，该XR应用程序可由XR设备202的存储器存储和/或由XR设备202的一个或多个处理器执行。XR设备202包括一个或多个惯性传感器216，其可包括一个或多个加速计、一个或多个陀螺仪、一个或多个定位接收器、一个或多个惯性测量单元(IMU)、或它们的组合。位置接收器可包括诸如全球定位***(GPS)接收器的全球导航卫星***(GNSS)接收器。定位接收器可包括基于信标的短程无线信号接收器，其从传送短程无线信号的信标设备接收短程无线信号。定位接收器可包括无线局域网(WLAN)接收器，诸如Wi-Fi接收器。定位接收器可包括蜂窝网络接收器，诸如3G、4G、LTE、或5G网络接收器。使用一个或多个惯性传感器216，XR设备202(例如，XR应用程序)可执行XR设备202的惯性跟踪218。在一些示例中，惯性跟踪218可由XR设备202的XR应用程序204、由XR设备202的惯性跟踪引擎、由XR设备202的处理器、或它们的组合执行。惯性跟踪218可包括跟踪XR设备202在其真实世界环境中的姿势。XR设备202的姿势可包括XR设备202的位置(例如，环境中的三维坐标和/或诸如纬度和经度的二维坐标)、取向(例如，俯仰、偏航和/或翻滚)、或它们的组合。惯性跟踪218可包括以3个自由度(3DoF)、6个自由度(6DoF)或它们的组合来跟踪XR设备202的姿势。

XR设备202可包括一个或多个图像传感器220。一个或多个图像传感器220可各自是图1的图像传感器130的示例。在一些示例中，一个或多个图像传感器220中的每一者包括图1的图像捕获设备105A、图像处理设备105B、图像捕获和处理***100、或它们的组合。一个或多个图像传感器220可捕获场景的一个或多个图像。在一些示例中，场景可包括显示界面设备250的至少一部分，使得场景的一个或多个图像描绘了显示界面设备250的至少一部分(例如，显示器260和/或显示界面261的至少一部分)。在图2中示出了从表示一个或多个图像传感器220的框向右延伸的阴影三角形。阴影三角形表示一个或多个图像传感器220的可能视场(FOV)。阴影三角形延伸到显示界面设备250的表示显示界面设备250的显示器260和/或显示界面261的框，从而指示一个或多个图像传感器220的FOV可包括显示界面设备250的显示器260和/或显示界面261的至少一部分。在一些示例中，显示器260可以是触摸屏显示器的显示器，并且显示界面261可以是触摸屏显示器的触敏层。在其中显示器260和/或显示界面261是触摸屏显示器的示例中，

由XR设备202的一个或多个图像传感器220捕获的一个或多个图像可用于惯性跟踪218。例如，由XR设备202的一个或多个图像传感器220捕获的一个或多个图像可包括顺序视频帧，该顺序视频帧可彼此进行比较以识别指示XR设备202沿6DoF中的一者或多者的移动的XR设备202的一个或多个图像传感器220的FOV的改变。由XR设备202的一个或多个图像传感器220捕获的一个或多个图像可用于手部跟踪222，以跟踪XR设备202的用户的一只或两只手和/或XR设备202的一个或多个图像传感器220的FOV中的其他个体的一只或多只手的姿势。在一些示例中，手部跟踪222可由XR设备202的XR应用程序204、由XR设备202的手部跟踪引擎、由XR设备202的处理器、或它们的组合执行。在一些示例中，手部跟踪222利用特征检测、特征识别、特征跟踪、对象检测、对象识别、对象跟踪、手部检测、手部识别、手部跟踪、手指检测、手指识别、手指跟踪、人检测、人识别、人跟踪、面部检测、面部识别、面部跟踪、面部检测、或它们的组合。在一些示例中，来自惯性跟踪218的惯性跟踪数据(例如，指示XR设备202的姿势)也可由XR设备202用来执行手部跟踪222，例如以帮助识别由图像传感器220捕获的图像中的手部的哪些移动实际上表示手部在环境中的移动，以及由图像传感器捕获的图像中的手部的哪些移动由XR设备202在环境内的移动引起。

由XR设备202的一个或多个图像传感器220捕获的一个或多个图像可用于显示界面设备跟踪224，以例如通过检测和跟踪由显示界面设备250的显示器260和/或显示界面261显示的界标图案的姿势和/或大小来跟踪显示界面设备250的姿势。显示界面设备跟踪224可由XR设备202的XR应用程序204、由XR设备202的显示界面设备跟踪引擎、由XR设备202的处理器、或它们的组合执行。如上所述，姿势可包括位置(例如，图像中的二维坐标和/或环境中的三维坐标)、取向(例如，俯仰、偏航和/或翻滚)或它们的组合。大小可包括三维体积、二维面积和/或一维测量(例如，高度、宽度)。大小可包括绝对大小和/或相对大小(相对于图像数据中的其他大小)。界标图案的大小可被识别为绝对大小或相对于图像数据中的另一大小(例如，显示界面设备250和/或其显示器的大小)的大小。

在一些示例中，XR设备202可存储界标图案的参考副本，或者表征界标图案和/或可用于重新创建界标图案的参考副本的界标图案数据(例如，通过QR码或条形码或界标图案的其他编码方案来编码的数据)。XR设备202可将由XR设备202的一个或多个图像传感器220捕获的一个或多个图像中的界标图案的描绘与所存储的界标图案的参考副本进行比较，以识别一个或多个图像中的界标图案的描绘如何相对于所存储的界标图案的参考副本被定位、移动、调整大小、重新缩放、重新采样、旋转、偏斜、变形(例如，透视变形)和/或扭曲(例如，透视扭曲)。这样，XR设备202可识别界标图案的姿势，其可匹配显示界面设备250的显示器260和/或显示界面261的姿势。类似地，XR设备202可识别界标图案的大小，并且可基于界标图案的大小来确定显示界面设备250的显示器260和/或显示界面261的大小。在一些示例中，显示界面设备跟踪224利用特征检测、特征识别、特征跟踪、对象检测、对象识别、对象跟踪或它们的组合。

例如，界标图案的姿势可以是显示界面设备250的显示器260的姿势。显示界面设备250可被配置为并且可显示界标图案，使得界标图案覆盖显示器260的表面的预定量或比例(例如，10％、20％、30％、40％、50％、60％、70％、80％、90％、100％，或者在先前列出的值中的任意两者之间的值)。例如，如果显示界面设备250被配置为跨显示器260的100％显示界标图案，则XR设备202可确定显示器260的大小等于界标图案的大小。如果显示界面设备250被配置为跨显示器260的50％显示界标图案，则XR设备202可确定显示器260的大小可以是界标图案的大小的两倍，以此类推。

在一些示例中，XR设备202还可例如基于特征提取、特征检测以及通过显示器260和/或显示界面设备250的角和/或边缘中的一者或多者的特征的识别，与跟踪界标图案分开地跟踪显示器260和/或显示界面设备250的姿势和/或大小。在一些示例中，显示界面设备250可至少在显示器260的边缘和/或角中的一者或多者附近在显示器260上显示其他内容(例如，高度饱和的颜色或图案，或者本文所识别的也可以是界标图案的任何内容)以使得显示器260的边缘和/或角更容易供XR设备202基于其来识别和提取特征。在一些示例中，显示界面设备250可向XR设备250发送关于显示界面设备250的信息(例如，经由无线收发器270，作为框272的一部分)，并且XR设备202可从显示界面设备202接收关于显示界面设备250的信息(例如，经由无线收发器230，作为框228的一部分)。在一些情况下，关于显示界面设备250的信息可识别显示器260、显示界面261和/或显示界面设备250的大小和/或尺寸。在一些情况下，关于显示界面设备250的信息可包括显示界面设备250的标识符(例如，型号名称和/或品牌)，XR设备202可基于该标识符来确定显示器260、显示界面261和/或显示界面设备250的大小和/或尺寸(例如，通过使用显示界面设备250的标识符来查询数据库或表或其他数据结构)。在一些示例中，显示界面设备250可响应于XR设备250向显示界面设备202发送对关于显示界面设备250的信息的请求(例如，经由无线收发器230，作为框226的一部分)并且显示界面设备250从XR设备202接收到请求(例如，经由无线收发器270，作为框274的一部分)而向XR设备250发送关于显示界面设备202的信息。显示器260、显示在其上的界标图案、显示界面261和/或显示界面设备250的大小对于针对较大显示器260和/或显示界面设备250将虚拟界面和/或虚拟内容缩放为较大的，和/或针对较小显示器260和/或显示界面设备250缩放为较小的而言可能是重要的。

在一些示例中，来自惯性跟踪218的惯性跟踪数据(例如，指示XR设备202的姿势)也可由XR设备202用来执行显示界面设备跟踪224，例如以帮助识别由图像传感器220捕获的图像中的显示界面设备250的哪些移动实际上表示显示界面设备250在环境中的移动，以及由图像传感器捕获的图像中的显示界面设备250的哪些移动由XR设备202在环境中的移动引起。在一些示例中，来自手部跟踪222的手部跟踪数据(例如，指示手部的姿势)也可由XR设备202用来执行显示界面设备跟踪224，例如以通过跟踪正在持有显示界面设备250和/或与该显示界面设备交互的手部的姿势来帮助识别显示界面设备250的姿势。在一些示例中，来自显示界面设备跟踪224的显示界面设备跟踪数据(例如，指示显示界面设备250的姿势)可由XR设备202用来执行手部跟踪222，例如以通过跟踪显示界面设备250的姿势来帮助识别正在持有显示界面设备250和/或与该显示界面设备交互的手部的姿势。在一些示例中，来自手部跟踪222的手部跟踪数据(例如，指示手部的姿势)也可由XR设备202用来执行惯性跟踪218，例如以帮助识别XR设备202在环境中相对于一只或多只手的姿势。在一些示例中，来自显示界面设备跟踪224的显示界面设备跟踪数据(例如，指示显示界面设备250的姿势)可由XR设备202用来执行惯性跟踪218，例如以帮助识别XR设备202在环境中相对于显示界面设备250的姿势。

XR应用程序204可包括界标图案生成器214。在一些示例中，XR应用程序204的界标图案生成器214可生成要在显示界面设备250的显示器260处显示的界标图案。XR应用程序204的界标图案生成器214还可在XR设备202处存储界标图案的参考副本，XR设备202可通过将由图像传感器220捕获的图像中的界标图案的描绘与界标图案的参考副本进行比较来将该参考副本用于显示界面设备跟踪224。在一些示例中，XR应用程序204的界标图案生成器214可生成初始界标图案数据，该初始界标图案数据可由XR设备202或由显示界面设备250(例如，由界标图案生成器258)用来实际生成界标图案。界标图案可以是或可包括线性图示符，诸如线性条形码。界标图案可以是或可包括二维(2D)图示符，诸如2D条形码、快速响应(QR)码、微QR码、条形码、MaxiCode、Aztec码、PDF417码、ArUco码、数据矩阵、网格矩阵、一级码代码、堆叠条形码、shotcode、JAB码、高容量彩色条形码(HCCB)、棋盘图案中的任一者的一个或多个、或它们的组合。界标图案可以是或可包括三维(3D)图示符，诸如3D条形码。界标图案可以是或可包括一个或多个预定颜色(例如，可在图像中突出的高度饱和颜色)。界标图案可以是或可包括另一种类型的可识别图示符或图案。在一些示例中，界标图案可对初始界标图案数据进行视觉编码。例如，条形码、QR码、Aztec码、MaxiCode、PDF417码和以上识别的界标图案的许多其他示例是用于数据的视觉编码方案，并且可用于对字符串和/或其他类型的数据进行视觉编码。初始界标图案数据可包括字符串和/或以此类界标图案进行视觉编码的其他类型的数据。

XR设备202可包括一个或多个无线收发器230。XR设备202可使用一个或多个无线收发器230向显示界面设备250发送界标图案数据(框226)。发送界标图案数据(框226)可由XR设备202的XR应用程序204、无线收发器230、XR设备202的处理器、或它们的组合执行。显示界面设备250可在显示界面设备250的一个或多个无线收发器270处接收界标图案数据(框274)。接收界标图案数据(框274)可由显示界面设备250的显示界面应用程序252、无线收发器270、显示界面设备250的处理器或它们的组合执行。从XR设备202发送到显示界面设备250(框226)并且在显示界面设备250处接收(框274)的界标图案数据可包括界标图案本身，例如，如果XR设备202完全在XR设备202的界标图案生成器214处生成界标图案。从XR设备202发送到显示界面设备250(框226)并且在显示界面设备250处接收(框274)的界标图案数据可包括表示界标图案使用视觉编码方案(例如，QR码、Aztec码等)来编码的数据的初始界标图案数据，例如，如果XR设备202在XR设备202的界标图案生成器214处生成初始界标图案数据。

XR***200的显示界面设备250包括显示界面应用程序252，该显示界面应用程序可由显示界面设备250的存储器存储和/或由显示界面设备250的一个或多个处理器执行。显示界面应用程序252可包括界标图案生成器258。界标图案生成器258可生成要在显示界面设备250的触摸屏260处显示的界标图案。如上所讨论，显示界面设备250可使用显示界面设备250的无线收发器270从XR设备202接收界标图案数据(框274)。在一些示例中，显示界面设备250的显示界面应用程序252的界标图案生成器258基于由显示界面设备250从XR设备202接收(框274)的界标图案数据来生成界标图案。如上所讨论，由显示界面设备250从XR设备202接收(框274)的界标图案数据可包括界标图案本身。如果所接收的界标图案数据(框274)包括界标图案本身，则界标图案生成器258可通过使用在由显示界面设备250从XR设备202接收的界标图案数据中接收到的界标图案来生成界标图案(框274)。如果所接收的界标图案数据(框274)包括界标图案本身，则界标图案生成器258可通过调整大小、重新采样、旋转和/或以其他方式处理在由显示界面设备250从XR设备202接收的界标图案数据中接收到的界标图案来生成界标图案(框274)。如以上所讨论，由显示界面设备250从XR设备202接收(框274)的界标图案数据可包括表示界标图案使用视觉编码方案(例如，QR码、Aztec码等)来编码的数据的初始界标图案数据。如果所接收的界标图案数据(框274)包括初始界标图案数据，则界标图案生成器258可通过使用视觉编码方案对初始界标图案数据进行编码来生成界标图案。

在一些示例中，显示界面设备250的显示界面应用程序252的界标图案生成器258生成界标图案，而不基于在显示界面设备250处从XR设备202接收界标图案数据(在框274处)。例如，界标图案生成器258可完全自己生成初始界标图案数据和/或界标图案本身。显示界面设备250可使用其无线收发器270向XR设备202发送界标图案数据(框272)。XR设备202可使用其无线收发器230来接收界标图案数据(框228)，XR设备202可使用该界标图案数据以便将参考界标图案与由XR设备202的图像传感器220捕获的图像中的界标图案的描绘进行比较。接收界标图案数据(框228)可由XR设备202的XR应用程序204、无线收发器230、XR设备202的处理器、或它们的组合执行。从显示界面设备250发送到XR设备202(框272)并且由XR设备202从显示界面设备250接收(框228)的界标图案数据可包括初始界标图案数据和/或界标图案本身。如果所接收的界标图案数据(框228)包括初始界标图案数据，则界标图案生成器214可通过使用视觉编码方案对初始界标图案数据进行编码来生成界标图案。

显示界面设备250可在其显示器260和/或显示界面261上显示内容262。显示内容262可由显示界面设备250的显示界面应用程序252、显示界面生成器254、界标图案生成器258、显示器260、显示界面261、显示器260的显示控制器、显示界面设备250的处理器、或它们的组合执行。由显示界面设备250在显示器260和/或显示界面261上显示(框262)的内容可包括一个或多个界标图案，其可由界标图案生成器214、界标图案生成器258或它们的组合生成。由显示界面设备250在显示器260和/或显示界面261上显示(框262)的内容可包括由触摸屏界面生成器254生成的所显示的界面。在一些情况下，由触摸屏界面生成器254生成并且显示在显示界面设备250的显示器260上的所显示的界面可在由XR设备202输出的输出图像中保持可见。例如，XR设备202可将虚拟界面覆盖在显示界面设备250的显示器260和/或显示界面261上显示的特定内容(例如，界标图案)上和/或替换该特定内容，而不将虚拟界面覆盖在所显示的界面上和/或替换所显示的界面。这种所显示的界面的示例包括图7A至图7B的所显示的界面710，其对于穿戴XR设备520的用户505仍然是可见的，如图7B所示。显示界面可包括一个或多个基于触摸的交互式界面元件，诸如按钮、滑块、滚动条、单选按钮、复选框、旋钮、滚轮、文本框、基于触摸的小键盘、基于触摸的键盘、基于触摸的绘图区域、或它们的组合。

显示界面设备250可从显示器260和/或显示界面261接收显示界面输入264。接收显示界面输入254可由显示界面设备250的显示界面应用程序252、显示界面261、显示器260、显示界面解释器256、显示界面261的显示界面控制器、显示器260的显示控制器、显示界面设备250的处理器、或它们的组合执行。在一些示例中，显示器260和/或显示界面261可包括具有显示层和触敏层的触摸屏显示器，该触敏层可被称为触摸感测层、触敏表面或触摸感测表面。触敏层可电容地、电阻地或以它们的组合测量显示界面输入。显示器260和/或显示界面261(在其为触摸屏的示例中)可以是电容触摸屏、电阻触摸屏、或它们的组合。显示界面应用程序252可包括显示界面输入解释器256，该显示界面输入解释器可将来自显示器260和/或显示界面261的触敏层的信号解释成显示界面输入标识符。显示界面输入标识符可包括例如识别接收触摸输入或另一种类型的显示界面输入的显示器260和/或显示界面261的一个或多个部分的坐标。在一些情况下，显示界面输入可以是单个位置中的轻击或按压，在这种情况下，对应的显示界面输入可识别表示显示器260和/或显示界面261的接收到轻击或按压的部分的单组坐标或触摸区域。触摸区域可表示例如在显示界面输入期间与显示器260和/或显示界面261进行接触的手指或指针的点的表面区域。在一些情况下，触摸区域可在显示界面输入标识符中由一组坐标和半径来识别，触摸包括具有围绕由该组坐标定义的点的半径的区域。在一些情况下，显示界面输入可包括轻扫手势、滑动手势，在这种情况下，对应的显示界面输入标识符可包括多组坐标和/或区域，其可用于将轻扫手势和/或滑动手势的一或多个路径识别为显示器260和/或显示界面261的接收显示界面输入的一或多个部分。在一些情况下，显示界面261可包括不同类型的显示界面261，诸如控制显示器上的光标或其他显示元件的鼠标、控制显示器上的光标或其他显示元件的触控板、控制显示器上的文本输入和/或光标或其他显示元件的小键盘、控制显示器上的文本输入和/或光标或其他显示元件的控制器、控制显示器上的文本输入和/或光标或其他显示元件的遥控器、用于使用(例如，XR设备和/或显示界面设备的)相机来对与显示器的交互进行手部跟踪的手部***、用于使用(例如，XR设备和/或显示界面设备的)有源深度传感器(例如，RADAR、LIDAR、SONAR、SODAR、结构光、飞行时间)来对与显示器的交互进行手部跟踪的手部***、用于使用(例如，XR设备和/或显示界面设备的)超声传感器来对与显示器的交互进行手部跟踪的手部***、提供与显示器相关联的输入界面的另一个输入设备1245、或它们的组合。显示界面输入还可包括点击、双击、点击和拖动、画圈、指向、悬停在上方、四处或在上方做手势、或它们的组合。

在一些情况下，显示界面输入解释器256可将显示界面输入的位置与显示内容在显示器260和/或显示界面261上显示的已知位置进行比较。例如，显示界面输入解释器256可将显示界面输入的位置与所显示的界面的界面元件(诸如按钮)进行比较。如果显示界面输入的位置与所显示的界面的界面元件的位置匹配(例如，重叠)，则显示界面输入解释器256可识别(例如，在显示界面输入标识符中)显示界面输入已经被激活所显示的界面的界面元件或以其他方式与所显示的界面的界面元件交互。在一些示例中，显示界面输入的位置与显示在显示器260和/或显示界面261上的界标图案的特定部分匹配(例如，重叠)，并且显示界面输入解释器256可识别(例如，在显示界面输入标识符中)显示界面输入的位置与其匹配(例如，重叠)的所显示的界标图案的特定部分。在一些示例中，例如在显示界面交互基于手部跟踪的情况下，相同过程可至少部分地由XR设备202执行。显示界面的示例包括图7A至图7B的显示界面710。

显示界面设备250可使用无线收发器270从显示界面设备250向XR设备202发送显示界面输入数据(框272)。发送显示界面输入数据(框272)可由显示界面设备250的显示界面应用程序252、显示输入解释器258、无线收发器270、显示界面设备250的处理器或它们的组合执行。XR设备202可使用无线收发器230从显示界面设备250接收(框228)显示界面输入数据。接收显示界面输入数据(框228)可由XR设备202的XR应用程序204、无线收发器230、XR设备202的处理器、或它们的组合执行。显示界面输入数据可包括识别在显示器260和/或显示界面261处接收(框264)和/或由显示界面输入解释器256解释的一个或多个显示界面输入的一个或多个显示界面输入标识符。在一些情况下，显示界面输入标识符可识别显示界面输入与所显示的界面交互，这可致使XR设备202执行动作，诸如修改虚拟界面、修改虚拟内容和/或修改对于用户的音频输出。

XR应用程序204可包括虚拟界面生成器206，该虚拟界面生成可生成虚拟界面的至少一部分，诸如虚拟界面535、635、735和/或835。虚拟界面可包括交互式界面元件，诸如按钮、滑块、滚动条、单选按钮、复选框、旋钮、滚轮、文本框、基于触摸的小键盘、基于触摸的键盘、基于触摸的绘图区域、或它们的组合。在一些示例中，虚拟界面生成器206可基于界标图案和/或显示器260和/或显示界面设备250的姿势和/或大小来调整大小、旋转、偏斜、扭曲或以其他方式调整虚拟界面的属性。在一些示例中，虚拟界面的至少一部分可在显示界面设备250处生成(例如，通过显示界面应用程序252)、从显示界面设备250发送到XR设备202(在框272处)和/或在XR设备202处从显示界面设备250接收(在框228处)。发送虚拟界面(框272)可由显示界面设备250的显示界面应用程序252、显示界面生成器254、显示界面设备250的虚拟界面生成器、无线收发器270、显示界面设备250的处理器、或它们的组合执行。接收虚拟界面(框228)可由XR设备202的XR应用程序204、无线收发器230、XR设备202的处理器、或它们的组合执行。XR应用程序204可包括输出图像合成器212，该输出图像合成器通过将由XR设备202的图像传感器220捕获的一个或多个图像与虚拟内容(诸如虚拟界面、其他虚拟内容(例如，使用虚拟内容生成器210来生成的其他视觉内容)或它们的组合)组合(合成)来生成输出图像。为了生成输出图像，输出图像合成器212可将虚拟界面覆盖在由XR设备202的图像传感器220捕获的一个或多个图像中描绘的界标图案上。为了生成输出图像，输出图像合成器212可用虚拟界面替换在由XR设备202的图像传感器220捕获的一个或多个图像中描绘的界标图案。

输出图像合成器212可定位、移动、调整大小、重新采样、重新缩放、上采样、上缩放、下采样、下缩放、放大、收缩、旋转、偏斜、变形(例如，透视变形)和/或扭曲(例如，透视扭曲)虚拟界面，使得输出图像中的虚拟界面的姿势和/或大小模拟界标图案和/或显示界面设备250的显示器260和/或显示界面261的姿势和/或大小(如使用显示界面设备跟踪224来确定的)。输出图像合成器212可变形、扭曲和/或偏斜虚拟界面(例如，使用透视变形和/或透视扭曲)以模拟虚拟界面围绕除了垂直于由图像传感器220捕获的图像的轴线之外的轴线的旋转。例如，如果显示器260和/或显示界面设备250和/或界标图案在图像数据中为较大的，则虚拟界面可为较大的。如果显示器260和/或显示界面设备250和/或界标图案在图像数据中为较小的，则虚拟界面可为较小的。如果显示器260和/或显示界面设备250和/或界标图案根据图像数据中的特定取向或姿势而倾斜和/或旋转和/或偏斜，则虚拟界面可根据该取向或姿势而倾斜和/或旋转和/或偏斜。

在例示性示例中，虚拟界面可包括视频回放控制界面，该视频回放控制界面可包括用于暂停、播放、快进、倒带、跳过、先前和其他视频回放控制功能的虚拟按钮。在一些情况下，视频回放控制界面可包括一个或多个滑块，诸如视频擦洗滑块和/或音量滑块。在一些示例中，虚拟界面可包括图像、视频和其他媒体。

虚拟内容生成器210可生成除虚拟界面之外的虚拟内容。虚拟内容可包括例如由虚拟界面(例如，其表示图像查看器和/或视频查看器)呈现的图像和/或视频、一个或多个三维模型、视频游戏内容、使用虚拟界面来播放的媒体的元数据、或它们的组合。由虚拟内容生成器210生成的虚拟内容的示例可包括图7A至图7B的虚拟内容720、图8A至图8B的虚拟内容840、图5B的音乐播放器虚拟界面535的某些方面(例如，专辑艺术、艺术家名称和/或歌曲标题)、音乐播放器虚拟界面535的某些方面(例如，专辑艺术、艺术家名称和/或歌曲标题)、图6B的图像查看器虚拟界面635(例如，图像)、或它们的组合。输出图像合成器212可将虚拟内容添加到虚拟界面或XR设备202的图像传感器220的视场中的任何地方。

XR应用程序204还可包括遮挡检测器208，该遮挡检测器可检测界标图案和/或显示器的另一个区域的遮挡，诸如由用户的手部(例如，图6A至图6B的遮挡610)和/或用户的手指(例如，图6A至图6B的遮挡620)。在一些示例中，遮挡检测器208可使用手部跟踪222来跟踪手部作为可能遮挡。在一些示例中，遮挡检测器208可使用触摸屏设备跟踪224来跟踪如由XR设备202的图像传感器220捕获的图像中所描绘的界标图案，并且通过将如由XR设备202的图像传感器220捕获的图像中所描绘的界标图案与存储在XR设备202处的(未遮挡的)参考界标图案进行比较来识别界标图案的一部分何时被遮挡。在一些示例中，输出图像合成器212可跟踪遮挡以确保遮挡在输出图像中是可见的，例如通过切出虚拟界面和/或虚拟内容在所描绘的遮挡的位置处的部分，通过将遮挡的描绘覆盖在虚拟界面和/或虚拟内容在所描绘的遮挡的位置处的虚拟部分上，或它们的组合。例如，在图6B中，遮挡610和620仍然通过XR设备520对于用户505可见。类似地，在图8B中，部分地遮挡虚拟界面835的遮挡810仍然通过XR设备520对于用户505可见。

输出图像合成器212可通过将虚拟界面(例如，由虚拟界面生成器206生成)与由XR设备202的图像传感器220捕获的图像合成、通过将虚拟内容(例如，由虚拟内容生成器210生成)与由XR设备202的图像传感器220捕获的图像合成、通过将遮挡(例如，由遮挡检测器208检测)与虚拟界面和/或虚拟内容合成、或它们的组合来生成输出图像。XR设备202可将由输出图像合成器212生成的输出图像输出到一个或多个显示器234，从而在一个或多个显示器234上显示输出图像(框232)。显示输出图像(框232)可由XR设备202的XR应用程序204、显示器234、输出图像合成器212、与显示器234相关联的显示控制器、XR设备202的处理器、或它们的组合执行。在例示性示例中，XR设备202可基于场景的图像并且基于由XR设备202的图像传感器220捕获的图像数据中的显示界面设备250的显示器260的姿势和/或大小来生成输出图像。例如，输出图像可以是所捕获的图像(由XR设备202的图像传感器220捕获)的修改变体，其中XR设备202将虚拟界面覆盖在界标图案的视觉表示上，在一些情况下，用虚拟界面替换界标图案的视觉表示。XR设备202可定位、定向、调整大小、旋转、偏斜、变形和/或扭曲虚拟界面以具有基于所识别的界标图案的姿势和/或所识别的显示界面设备250的显示器260的姿势的虚拟姿势、模拟姿势。XR设备202可定位、定向、调整大小、旋转、偏斜、变形和/或扭曲虚拟界面以具有基于所识别的界标图案的大小和/或所识别的显示界面设备250的显示器260的大小的虚拟大小和/或模拟大小。XR设备202可通过XR设备250的一个或多个显示器234向用户显示输出图像。因此，对于XR设备202的用户而言，虚拟界面可看起来在显示界面设备250的显示器260上显示在界标图案顶上和/或代替界标图案。

在例示性示例中，XR设备202的用户的手部可以是从图像传感器220的角度来看的界标图案的遮挡部分。因为界标图案是已知图案(例如，作为参考界标图案存储在XR设备202中)，所以XR设备202可确定界标图案的哪些部分被遮挡以及界标图案的哪些部分未被遮挡。基于此，XR设备的输出图像合成器212可生成输出图像，使得以在由图像传感器220捕获的图像中遮挡界标图案的相同方式遮挡虚拟界面。

在一些示例中，XR设备202可包括除了图2所示的惯性传感器216和图像传感器220之外的一个或多个其他传感器。例如，XR设备202可包括一个或多个光检测和测距(LIDAR)传感器、无线电探测和测距(RADAR)传感器、声音探测和测距(SODAR)传感器、声音导航和测距(SONAR)传感器、一个或多个飞行时间(ToF)传感器、一个或多个结构光传感器、一个或多个话筒、本文所描述的一个或多个其他传感器或它们的组合。在一些示例中，来自这些传感器的传感器数据也可由XR设备202用于惯性跟踪218、手部跟踪222和/或触摸屏设备跟踪224。

在一些示例中，显示界面设备250包括一个或多个传感器276。一个或多个传感器276可包括例如(例如，相机的)一个或多个图像传感器、加速度计、陀螺仪、惯性测量单元(IMU)、光探测和测距(LIDAR)传感器、无线电探测和测距(RADAR)传感器、声音探测和测距(SODAR)传感器、声音导航和测距(SONAR)传感器、一个或多个飞行时间(ToF)传感器、一个或多个结构光传感器、一个或多个话筒、本文所描述的一个或多个其他传感器或它们的组合。显示界面设备250可使用来自一个或多个传感器276的传感器数据来执行显示界面设备250的姿势的姿势跟踪278，例如如以上相对于由XR设备202执行的惯性跟踪218讨论的。在一些示例中，显示界面设备250还可使用来自一个或多个传感器276的传感器数据来执行XR设备202的姿势的姿势跟踪278，例如，基于在来自一个或多个传感器276的传感器数据中检测的XR设备202的表示。执行显示界面设备250和/或XR设备202的姿势跟踪278可由显示界面设备250的显示界面应用程序252、传感器278、显示界面设备250的姿势跟踪引擎、显示界面设备250的处理器、或它们的组合执行。

在一些示例中，显示界面设备250可使用一个或多个无线收发器270将姿势跟踪数据(例如，识别显示界面设备250(和/或其显示器260)的姿势和/或大小和/或XR设备202的姿势和/或大小)从显示界面设备250发送到XR设备202(框272)。发送姿势跟踪数据(框272)可由显示界面设备250的显示界面应用程序252、无线收发器270、显示界面设备250的处理器或它们的组合执行。在一些示例中，XR设备202可使用一个或多个无线收发器230从显示界面设备250接收姿势跟踪数据(例如，识别显示界面设备250(和/或其显示器260)的姿势和/或大小和/或XR设备202的姿势和/或大小)(框228)。接收姿势跟踪数据(框228)可由XR设备202的XR应用程序204、无线收发器230、XR设备202的处理器、或它们的组合执行。在一些示例中，由XR设备202从显示界面设备250接收(在框228处)的姿势跟踪数据(例如，识别显示界面设备250的姿势和/或XR设备202的姿势)可由XR设备202用于惯性跟踪218、手部跟踪222和/或触摸屏设备跟踪224。

如上所讨论，显示界面设备250可检测和解释通过显示器260和/或显示界面261的显示界面输入(例如，通过显示器260的触摸屏显示界面261的触摸输入)。显示界面设备250可识别显示界面输入并且将显示界面输入标识符发送(框272)到XR设备202，例如以显示器260和/或显示界面261的坐标网格上的一个或多个坐标的形式，该一个或多个坐标已经被触摸、点击、轻扫、悬停在上方、在上方做手势，或者已经以其他方式接收了到显示界面261的显示界面输入。发送显示界面输入(框272)可由显示界面设备250的显示界面应用程序252、无线收发器270、显示界面设备250的处理器或它们的组合执行。XR设备202可接收(框228)显示界面输入标识符。接收显示界面输入(框228)可由XR设备202的XR应用程序204、无线收发器230、XR设备202的处理器、或它们的组合执行。XR设备202可基于显示界面输入来调整将由XR设备202向用户输出(例如，在显示器234上显示)的输出内容。如果显示界面输入的位置与虚拟界面的界面元件的位置一致(例如，重叠和/或匹配)，则XR设备202可识别显示界面输入已经被激活或以其他方式与虚拟界面的界面元件交互。在一些示例中，显示界面输入标识符可识别显示界面输入的位置与界标图案的特定部分对准(例如，重叠和/或匹配)，并且XR设备202可识别显示界面输入的位置与覆盖在界标图案的特定部分上的虚拟界面的对应部分对准(例如，重叠和/或匹配)。输出内容可包括XR设备202要向用户输出的输出图像、未来输出图像、一个或多个音频剪辑(例如，音乐、声音效果)、振动反馈(例如，触觉反馈、隆隆样反馈)、或它们的组合。对输出内容的改变可包括对输出图像的改变、对未来输出图像的改变、对XR设备202要向用户输出的音频剪辑的改变、对振动反馈(例如，对振动的模式)的改变或它们的组合。

在例示性示例中，如果XR设备202基于显示界面输入来确定用户已经按压虚拟界面上的暂停按钮，则XR设备可暂停当前视频帧处的视频回放。如果XR设备202基于显示界面来输入确定用户已经按压虚拟界面上的快进按钮，则XR设备202可开始快进从下一输出帧开始的回放。如果XR设备202基于显示界面输入确定用户已经移动音量滑块，则XR设备202可从下一音频段开始调整XR设备202正在向用户输出的音频的音量。

在一些示例中，显示界面设备250被配置为随着时间905推移以预定频率在显示界面设备250上显示一组不同界标图案中的每一者之间移位，如图9所示。通过检测在图像中描绘了该组不同界标图案中的哪个界标图案，并且将其与显示界面设备250在显示器260上显示该界标图案的时间对准，XR设备202和显示界面设备250可同步定时。XR设备202可基于XR设备202正在将虚拟界面覆盖在哪个界标图案上，相对于XR设备202正在显示为虚拟界面的内容而获得特定显示界面输入何时在显示界面设备250处被接收的更准确指示，从而增加显示界面输入的精确度以供XR设备使用。

在一些情况下，作为从显示界面设备250的显示界面261接收显示界面输入的替代或补充，XR设备202还可将手部跟踪222和/或手指跟踪用于输入。例如，XR设备202可使用由显示界面设备250的基于触摸屏的显示界面261检测到的触摸输入作为第一类型的输入，并且可使用用户指向虚拟界面的元件的基于手部跟踪的检测作为第二类型的输入，例如在手部跟踪218中执行。例如，如果显示界面设备250的显示界面261有缺陷和/或不能可靠地检测显示界面输入(例如，基于触摸屏的显示界面261是湿的)，则手部跟踪输入可以是后退选项。手部跟踪输入可以是不同类型的输入，例如允许用户指向虚拟界面和/或显示界面的界面元件和/或悬停在虚拟界面和/或显示界面的界面元件上方而不实际触摸该界面元件，并且允许这种指向和/或悬停将被检测和解释为与界面元件的交互。手部跟踪可包括手指跟踪。手部跟踪可基于来自惯性传感器216、图像传感器220、显示界面设备250的传感器276或它们的组合的数据。在一些示例中，手部跟踪可基于来自XR设备202和/或显示界面设备250的一个或多个相机和/或一个或多个范围传感器(例如，RADAR传感器、LIDAR传感器、SONAR传感器、SODAR传感器、飞行时间传感器、结构光传感器)的数据。

图3A是示出用作扩展现实(XR)设备202的头戴式显示器(HMD)310的透视图300。HMD 310可以是例如增强现实(AR)头戴式耳机、虚拟现实(VR)头戴式耳机、混合现实(MR)头戴式耳机、扩展现实(XR)头戴式耳机、或它们的某种组合。HMD 310可以是XR设备202的示例。HMD 310包括沿着HMD 310的前部分的第一相机330A和第二相机330B。第一相机330A和第二相机330B可包括XR设备202的图像传感器220。在一些示例中，HMD 310可仅具有带有单个图像传感器220的单个相机。在一些示例中，除了第一相机330A和第二相机330B之外，HMD310还可包括一个或多个附加相机，该一个或多个附加相机还可包括XR设备202的图像传感器220。在一些示例中，除了第一相机330A和第二相机330B之外，HMD 310还可包括一个或多个附加传感器，该一个或多个附加传感器也可以是本文所述的XR设备202的惯性传感器216和/或XR设备202的其他传感器。

HMD 310可包括对于用户320(在用户320的头上穿戴着HMD 310)可见的一个或多个显示器340。HMD 310的一个或多个显示器340可以是XR设备202的显示器234的示例。在一些示例中，HMD 310可以包括一个显示器340和两个取景器。这两个取景器可以包括用于用户320的左眼的左取景器和用于用户320的右眼的右取景器。左取景器可以被定向为使得用户320的左眼看到显示器的左侧。右取景器可被定向为使得用户320的左眼看到显示器的右侧。在一些示例中，HMD 310可包括两个显示器340，包括向用户320的左眼显示内容的左显示器和向用户320的右眼显示内容的右显示器。

HMD 310可包括一个或多个听筒335，其可用作向HMD 310的用户的一只或两只耳朵输出音频的扬声器和/或头戴式耳机。在图3A和图3B中示出了一个听筒335，但是应当理解，HMD 310可包括两个听筒，其中针对用户的每个耳朵(左耳和右耳)有一个听筒。在一些示例中，HMD 310还可包括一个或多个话筒(未图示)。在一些示例中，由HMD 310通过一个或多个听筒335向用户输出的音频可包括或基于使用一个或多个话筒来记录的音频。

图3B是例示图3A的头戴式显示器(HMD)由用户320佩戴的透视图350。用户320将HMD 310穿戴在用户320的眼睛上方的用户320的头部上。HMD 310可通过第一相机330A和第二相机330B捕获图像。在一些示例中，HMD 310朝向用户320的眼睛显示一个或多个输出图像。输出图像可以是显示输出图像232的示例。输出图像可以是基于由第一相机330A和第二相机330B捕获的图像。输出图像可以提供环境的立体视图，在一些情况下具有覆盖的信息和/或具有其他修改。例如，HMD 310可向用户320的右眼显示第一显示图像，第一显示图像基于由第一相机330A捕获的图像。HMD 310可向用户320的左眼显示第二显示图像，第二显示图像基于由第二相机330B捕获的图像。例如，HMD 310可以在显示图像中提供覆盖在由第一相机330A和第二相机330B捕获的图像之上的覆盖信息。HMD 310的听筒335被示为在用户320的耳朵中。HMD 310可通过听筒335和/或通过HMD 310的在用户320的另一只耳朵(未图示)中的另一个听筒(未图示)向用户320输出音频。

图4A是示出包括前置相机并且可用作扩展现实(XR)设备202或显示界面设备250的移动手机410的前表面的透视图400。移动手机410可以是XR设备202的示例。移动手机410可以是显示界面设备250的示例。移动手机410可以是例如蜂窝电话、卫星电话、便携式游戏控制台、音乐播放器、健康跟踪设备、可穿戴设备、无线通信设备、膝上型计算机、移动设备、本文所讨论的任何其他类型的计算设备或计算***、或它们的组合。

移动手机410的前表面420包括显示器440。移动手机410的前表面420包括第一相机430A和第二相机430B。第一相机430A和第二相机430B可以是XR设备202的图像传感器220的示例。第一相机430A和第二相机430B可以是显示界面设备250的传感器276的示例。在移动手机410的前表面420上的显示器440周围的边框中例示了第一相机430A和第二相机430B。在一些示例中，第一相机430A和第二相机430B可以位于从移动手机410的前表面420上的显示器440切出的凹口或切口中。在一些示例中，第一相机430A和第二相机430B可以是位于显示器440和移动手机410的其余部分之间的显示器下相机，以使得光在到达第一相机430A和第二相机430B之前穿过显示器440的一部分。透视图400的第一相机430A和第二相机430B是前置相机。第一相机430A和第二相机430B面向与移动手机410的前表面420的平面表面垂直的方向。第一相机430A和第二相机430B可以是移动手机410的一个或多个相机中的两个相机。第一相机430A和第二相机430B可以分别是传感器405A和传感器405B。在一些示例中，移动手机410的前表面420可以仅具有单个相机。在一些示例中，除了第一相机430A和第二相机430B之外，移动手机410还可包括一个或多个附加相机。一个或多个附加相机也可以是XR设备202的图像传感器220的示例。一个或多个附加相机也可以是显示界面设备250的传感器276的示例。在一些示例中，除了第一相机430A和第二相机430B之外，移动手机410还可包括一个或多个附加传感器。一个或多个附加传感器还可以是XR设备202的惯性传感器216和/或XR设备202的其他传感器的示例。一个或多个附加传感器也可以是显示界面设备250的传感器276的示例。移动手机410的前表面420还包括显示器440。在一些情形中，移动手机410的前表面420包括不止一个显示器440。移动手机410的前表面420的一个或多个显示器440可以是XR设备202的显示器234的示例。移动手机410的前表面420的一个或多个显示器440可以是显示界面设备250的显示器260和/或显示界面261的示例。例如，一个或多个显示器440可包括一个或多个触摸屏显示器，其中触摸屏显示器的触摸屏界面表示触摸屏显示器的显示界面261。

移动手机410可包括可向移动手机410的用户的一只或多只耳朵输出音频的一个或多个扬声器435A和/或其他音频输出设备(例如，耳机或头戴式耳机或其连接器)。图4A中示出了一个扬声器435A，但应当理解，移动手机410可包括不止一个扬声器和/或其他音频设备。在一些示例中，移动手机410还可以包括一个或多个话筒(未图示)。在一些示例中，由移动手机410通过该一个或多个扬声器435A和/或其他音频输出设备向用户输出的音频可包括或基于使用该一个或多个话筒来记录的音频。

图4B是示出包括面向读取相机并且可用作图2的扩展现实(XR)设备202或显示界面设备250的移动手机的后表面460的透视图450。移动手机410包括在移动手机410的后表面460上的第三相机430C和第四相机430D。透视图450的第三相机430C和第四相机430D是后置的。第三相机430C和第四相机430D可以是图2的XR设备202的图像传感器220的示例。第三相机430C和第四相机430D可以是图2的显示界面设备250的传感器276的示例。第三相机430C和第四相机430D面向与移动手机410的后表面460的平面表面垂直的方向。虽然移动手机410的后表面460不具有如透视图450所示的显示器440，但在一些示例中，移动手机410的后表面460可以包括一个或多个后显示器。移动手机410的后表面460的一个或多个后显示器可以是XR设备202的显示器234的示例。移动手机410的后表面460的一个或多个后显示器可以是显示界面设备250的显示界面显示器260的示例。如果移动手机410的后表面460包括一个或多个后显示器，则可以使用第三相机430C和第四相机430D相对于一个或多个后显示器的任何定位布局，如关于第一相机430A和第二相机430B相对于移动手机410的前表面420的显示器440所讨论。

第三相机430C和第四相机430D可以是移动手机410的一个或多个相机中的两个相机。在一些示例中，移动手机410的后表面460可以仅具有单个相机。在一些示例中，除了第一相机430A、第二相机430B、第三相机430C和第四相机430D之外，移动手机410还可包括一个或多个附加相机。一个或多个附加相机也可以是XR设备202的图像传感器220的示例。一个或多个附加相机也可以是显示界面设备250的传感器276的示例。在一些示例中，除了第一相机430A、第二相机430B、第三相机430C和第四相机430D之外，移动手机410还可包括一个或多个附加传感器。一个或多个附加传感器还可以是XR设备202的惯性传感器216和/或XR设备202的其他传感器的示例。一个或多个附加传感器也可以是显示界面设备250的传感器276的示例。

移动手机410可包括可以向移动手机410的用户的一只或多只耳朵输出音频的一个或多个扬声器435B和/或其他音频输出设备(例如，耳机或头戴式耳机或其连接器)。图4B中例示了一个扬声器435B，但应当理解，移动手机410可以包括不止一个扬声器和/或其他音频设备。在一些示例中，移动手机410还可以包括一个或多个话筒(未图示)。在一些示例中，由移动手机410通过该一个或多个扬声器435B和/或其他音频输出设备向用户输出的音频可包括或基于使用该一个或多个话筒记录的音频。

图5A是示出根据一些示例的穿戴扩展现实(XR)设备520并且持有正在显示界标图案530的显示界面设备510的用户505的透视图500。由用户505穿戴的XR设备520可以是图3A至图3B的HMD 310，该HMD可包括图5A至图9的一个或多个显示器525，该一个或多个显示器可以是图2的一个或多个显示器234、图3A至图3B的一个或多个显示器340、或两者的示例。为了说明的缘故，XR设备520被示为图3A至图3B的HMD 310，并且应当理解，XR设备520可替代地为图4A至图4B的移动手机410。

显示界面设备510包括被示为显示界标图案530的触摸屏显示器515，该界标图案被示为QR码。图5A至图5B、图6A至图6B、图7A至图7B、图8A至图8B和图9的显示界面设备510是显示界面设备250的示例。图5A至图5B、图6A至图6B、图7A至图7B、图8A至图8B和图9的触摸屏显示器515是显示界面设备250的显示器260和显示界面设备250的显示界面261两者的示例。例如，触摸屏显示器515的显示层是显示器260的示例，而触摸屏显示器515的触敏层和/或触摸感测层是显示界面261的示例。在该示例中，对于显示界面设备510的触摸屏显示器515的触摸输入是对于显示界面设备250的显示界面261的显示界面输入的示例。界标图案530是实际显示在图5A中的显示界面设备510的触摸屏显示器515上的内容。因此，对于环境中除用户505(其通过XR设备520查看环境)之外的任何人，显示界面设备510的显示界面显示器515看起来显示界标图案530。因此，环境中除用户505(其通过XR设备520查看环境)之外的任何人不能看到虚拟界面535，而用户505(其通过XR设备520查看环境)可通过XR设备520看到虚拟界面535，如图5B所示。从XR设备520的角度来看的XR设备520的姿势(以及由XR设备520捕获的任何输入图像)以及因此从XR设备520的角度来看的显示在XR设备520的触摸屏显示器515上的界标图案530的姿势(以及由XR设备520捕获的任何输入图像)看起来稍微顺时针旋转。

图5B是示出根据一些示例的穿戴图5A的扩展现实(XR)设备520并且通过该XR设备查看环境的用户505的视场(FOV)560的透视图550，其中虚拟界面535被覆盖在界标图案530上。虚拟界面535是音乐播放器虚拟界面，并且包括专辑艺术、艺术家标题和歌曲标题。虚拟界面535还包括交互式界面元件，包括擦洗滑块、暂停/播放按钮、倒带按钮、快进按钮、音量增大按钮、音量减小按钮和静音按钮。与显示界面设备510的触摸屏显示器515的交互可致使显示界面设备510向XR设备520发送触摸输入标识符，该触摸输入标识符识别在触摸输入期间触摸了触摸屏显示器515的什么部分，和/或在触摸输入期间如何触摸它们(例如，轻击、双击、三击、轻扫、长按、手势、先前列出的触摸输入中的任一者的多手指变型、或它们的组合)，从而允许XR设备520识别在触摸输入期间是否触摸了XR设备520的虚拟界面535的交互式界面元件中的任一者。因为来自FOV 560的XR设备520的姿势以及因此来自FOV 560的显示在XR设备520的触摸屏显示器515上的界标图案530的姿势表现为稍微顺时针旋转，所以虚拟界面535也稍微顺时针旋转以表现为与XR设备520和/或触摸屏显示器515和/或界标图案530的姿势对准。

图6A是示出根据一些示例的穿戴扩展现实(XR)设备520并且持有显示界面设备510的用户505的透视图600，该显示界面设备正在显示被遮挡610和620(包括用户505的手部和手指)部分遮挡的两个界标图案630。显示界面设备510在其触摸屏显示器515上显示两个界标图案630，其各自被示为QR码。触摸屏显示器515的若干区域(包括两个界标图案630的区域)被第一遮挡610(用户505的左手和/或用户505的左手的手指)和第二遮挡620(用户505的右手的手指)部分遮挡。XR设备520可至少部分地通过将由XR设备520的图像传感器捕获的图像中的两个界标图案630的(和/或一般地触摸屏显示器515的)表示与由XR设备520存储的与两个界标图案630(和/或显示在触摸屏显示器515上的其他内容)相对应的参考界标图案(和/或显示在触摸屏显示器515上的内容的参考副本)进行比较来检测第一遮挡610和第二遮挡620正在部分遮挡触摸屏显示器515的区域(例如，包括两个界标图案630的区域)。对于环境中除用户505(其通过XR设备520查看环境)之外的任何人，显示界面设备510的触摸屏显示器515显示界标图案630。

图6B是示出根据一些示例的穿戴图6A的扩展现实(XR)设备520并且通过该XR设备查看环境的用户505的视场(FOV)660的透视图650，其中虚拟界面635被覆盖在两个界标图案630上并且遮挡610和620在虚拟界面635上可见。虚拟界面635是图像查看器虚拟界面，并且包括可使用触摸输入来交互地滚动浏览的图像列。在一些示例中，在图像上轻击可增加图像的大小和/或显示图像的元数据。与显示界面设备510的触摸屏显示器515的交互可致使显示界面设备510向XR设备520发送触摸输入标识符，该触摸输入标识符识别在触摸输入期间触摸了触摸屏显示器515的什么部分(以及它们如何被触摸)，从而允许XR设备520识别在触摸输入期间触摸的虚拟界面635的部分。在一个例示性示例中，到XR设备520的触摸输入标识符可识别可致使XR设备520滚动浏览虚拟界面635中的图像的轻扫或滑动触摸手势。在另一个例示性示例中，到XR设备520的触摸输入标识符可识别在虚拟界面635的特定图像上轻击或按压触摸输入，其可致使XR设备520增加图像的大小和/或显示图像的元数据。

第一遮挡610和第二遮挡620作为虚拟界面635的遮挡在FOV 660中对于用户505仍然是可见的。在一些示例中，XR设备520可在将虚拟界面635覆盖在界标图案630上之前切出虚拟界面635在第一遮挡610和第二遮挡620的位置处的部分。在一些示例中，XR设备520可将虚拟界面635覆盖在界标图案630上，并且然后将对应于第一遮挡610和第二遮挡620的图像数据覆盖在虚拟界面635上。

在一些示例中，XR设备520具有预期界标图案630的知识。由XR设备520的图像传感器220捕获的图像中的预期界标图案630与观察界标图案630之间的任何差异都可帮助XR设备520执行遮挡检测。这种差异计算可单独用于遮挡检测或者用作对于一个或多个经训练神经网络的输入来识别遮挡。遮挡检测可允许详细且适当地渲染具有适当遮挡的来自XR设备520的虚拟界面635和/或其他虚拟内容。

图7A是示出根据一些示例的穿戴扩展现实(XR)设备520并且持有正在显示界标图案530和所显示的界面710的显示界面设备510的用户505的透视图700。显示界面设备510在其触摸屏显示器515上显示界标图案730(其被示为QR码)和所显示的界面710。所显示的界面710包括播放/暂停按钮、倒带按钮和快进按钮。对于环境中除用户505(其通过XR设备520查看环境)之外的任何人，显示界面设备510的触摸屏显示器515显示界标图案730和所显示的界面710。

图7B是示出根据一些示例的穿戴图5A的扩展现实(XR)设备520并且通过该XR设备查看环境的用户505的视场(FOV)760的透视图750，其中虚拟界面735被覆盖在界标图案730上但是所显示的界面710仍然是可见的。虚拟界面735是视频播放器虚拟界面，并且包括正在播放的视频。虚拟界面735还包括交互式界面元件，包括擦洗滑块。所显示的界面710对于用户505仍然是可见的，因为XR设备520不将任何东西覆盖在所显示的界面710上或者用任何东西替换所显示的界面710。所显示的界面710包括可播放或暂停视频回放的播放/暂停按钮、可对视频回放进行倒带的倒带按钮、以及可快进视频回放的快进按钮。

与显示界面设备510的触摸屏显示器515的交互可致使显示界面设备510向XR设备520发送触摸输入标识符，该触摸输入标识符识别在触摸输入期间触摸了触摸屏显示器515的什么部分以及在触摸输入期间如何触摸它们，从而允许XR设备520识别在触摸输入期间是否触摸了XR设备520的虚拟界面735(例如，擦洗滑块)的任何交互式界面元件。与显示界面设备510的触摸屏显示器515的交互还可致使显示界面设备510检测与所显示的界面的界面元件的任何交互，显示界面设备510可将该交互作为触摸输入标识符发送到XR设备520，该触摸输入标识符允许XR设备520知道例如触摸输入与播放/暂停按钮(致使XR设备520播放或暂停视频回放)、倒带按钮(致使XR设备520对视频回放进行倒带)、还是快进按钮(致使XR设备520快进视频回放)交互。

向用户505显示的视频大于显示界面设备510并且不限于触摸屏显示器515的边界，但是仍然可基于界标图案730和/或显示界面设备510的触摸屏显示器515的姿势来定位和/或定向。附加虚拟内容720也显示在FOV 760中，包括使用视频播放器虚拟界面735啦播放的视频的标题(“极速追击”)。

在一些示例中，用于XR***200的基于触摸的界面因此可包括XR设备520渲染的虚拟内容(例如，虚拟界面735和/或其他虚拟内容720)和由显示界面设备510渲染的所显示的界面710的混合。在一些示例中，在显示界面设备510上渲染一些元件(例如，所显示的界面710)可节省功率和/或其他计算资源。例如，使复杂3D内容渲染在触摸屏设备上可节省功率和/或其他计算资源，因为此类内容可能难以准确地修改以匹配界标图案730的姿势。另一方面，使非常清楚且简单的内容渲染在触摸屏设备上可节省功率和/或其他计算资源，因为此内容可通过XR设备520清楚可见且可辨别，甚至在具有通过使用XR设备520的图像传感器220来记录触摸屏显示器515而引起的任何劣化或图像伪像的情况下。一些使用情况可涉及使一些内容在触摸屏设备上对环境中的其他人(其可能或可能不穿戴XR设备本身)可见，而内容的某个其他部分应仅对设备拥有者(穿戴XR设备520)可见。

图8A是示出根据一些示例的穿戴扩展现实(XR)设备520并且持有正在显示两个界标图案830的显示界面设备510的用户505的透视图800。显示界面设备510在其触摸屏显示器515上显示两个界标图案830，其各自被示为QR码。两个界标图案830被两个遮挡810(分别是用户505的左手和右手的手指)部分遮挡。XR设备520可通过将由XR设备520的图像传感器捕获的图像中的两个界标图案830的表示与由XR设备520存储的对应于两个界标图案830的参考界标图案进行比较来检测遮挡810正在部分地遮挡两个界标图案830。对于环境中除用户505(其通过XR设备520查看环境)之外的任何人，显示界面设备510的触摸屏显示器515显示界标图案830。

图8B是示出根据一些示例的穿戴图8A的扩展现实(XR)设备520并且通过该XR设备查看环境的用户505的视场(FOV)860的透视图850，其中虚拟界面835被覆盖在两个界标图案830上。虚拟界面835是视频游戏控制器虚拟界面并且包括交互界面元件，该交互界面元件包括四个按钮和方向垫(D垫)。虚拟内容840也显示在FOV 860中，包括视频游戏内容。虚拟内容840(视频游戏内容)示出火箭推进式航空器(表示玩家角色)飞行通过空间并且在四个飞碟(表示敌人)处发射激光枪，并且用激光枪击中飞碟之一。在一些示例中，按压视频游戏控制器虚拟界面835的交互式界面元件可影响虚拟内容840(视频游戏内容)，例如通过控制火箭推进式航空器的飞行方向(例如，基于输入到D垫的方向)以及通过控制激光枪的发射(例如，基于四个按钮中的至少一者)。用户505被示为按压视频游戏控制器虚拟界面835中的四个按钮中的一者，这可例如致使XR设备520在虚拟内容840(视频游戏内容)中显示火箭推进式航空器发射激光枪。

遮挡810作为虚拟界面835的遮挡在FOV 860中对于用户505仍然是可见的。在一些示例中，XR设备520可在将虚拟界面835覆盖在界标图案830上之前切出虚拟界面835在遮挡810的位置处的部分。在一些示例中，XR设备520可将虚拟界面835覆盖在界标图案830上，并且然后将对应于遮挡810的图像数据覆盖在虚拟界面835上。

显示界面设备510在图8B中被示为提供振动反馈845，其中在显示界面设备510的拐角处的圆线指示显示界面设备510正在振动。振动反馈845可包括触觉反馈，其可例如在用户505触摸按钮、D垫或虚拟界面835的另一个交互式界面元件时提供小振动。触觉反馈可模拟按钮按压的触觉感觉，并且可向用户提供用户505实际上确实触摸交互式界面元件的确认。振动反馈845可包括力反馈或隆隆样反馈，其可例如响应于在虚拟内容840(在视频游戏中)中发生的动作或条件而使显示界面设备510振动。动作或条件可包括例如火箭推进式航空器(玩家角色)发射激光枪、火箭推进式航空器(玩家角色)被飞碟(敌人)的激光枪击中、火箭推进式航空器(玩家角色)与飞碟(敌人)碰撞、火箭推进式航空器(玩家角色)***、飞碟(敌人)被火箭推进式航空器(玩家角色)的激光枪击中、飞碟(敌人)***、或它们的组合。

图9是示出根据一些示例的随着时间905推移在显示多个不同界标图案930A-930D之间切换的显示界面设备510的概念图900。显示界面设备510被配置为随着时间905推移在显示多个不同界标图案930A-930D中的每一者之间切换。显示界面设备510可被配置为根据预定定时和/或预定频率随着时间905推移在显示多个不同的界标图案930A-930D中的每一者之间切换，例如每当从先前界标图案改变以来经过特定持续时间(例如，一秒或多秒或毫秒)周期性地，或者每当从先前界标图案改变以来由XR设备520的图像传感器220捕获特定数量的帧(例如，一个或多个帧)周期性地从界标图案930A-930D中的一者改变。

图9所示的第一界标图案930A是第一QR码。图9所示的第二界标图案930B是Aztec码。图9所示的第三界标图案930C是第二QR码。图9所示的第四界标图案930D是点矩阵码。XR设备520可基于在接收到给定触摸输入时显示不同界标图案930A-930D中的哪一者来确定触摸输入的准确定时。

在一些示例中，不同界标图案930A-930D中的每一者可以是由以已知频率改变的安全散列算法(SHA)的已知轮数(例如，SHA-1、SHA-2、SHA-3或SHA-N)指示的确定性图案。XR设备520和显示界面设备510都可知道SHA种子和图案序列。当显示界面设备510向XR设备520发送触摸输入标识符信息时，显示界面设备510可用当检测到和/或登记触摸输入时显示的界标图案来标记触摸输入标识符信息。

XR设备520可负责渲染XR内容(例如，虚拟界面和/或虚拟内容)。XR设备520还可经由XR设备520的图像传感器220实时地观察动态改变的界标图案。结合界标图案标记的触摸输入识别信息，XR设备520可准确地知道当触摸输入被登记时什么XR内容(例如，虚拟界面和/或虚拟内容)被显示为覆盖在显示界面设备510上。这种同步对于动态触摸界面可以是特别重要的。在例示性示例中，如果用户505正在拖动虚拟界面的(虚拟渲染的)滑块，则期望所渲染的滑块位置与用户505的手指的位置精确匹配。

通过检测在图像中描绘了该组不同界标图案930A-930D中的哪个界标图案，并且将其与触摸屏设备显示该界标图案的时间对准，XR设备202和显示界面设备510可同步定时。XR设备202可基于XR设备202正在将虚拟界面覆盖在哪个界标图案上，相对于XR设备202正在显示为虚拟界面的内容而获得特定触摸输入何时在显示界面设备510处被接收的更准确指示，从而增加触摸输入的精确度以供XR设备使用。

图10是示出根据一些示例的由扩展现实(XR)设备1005和显示界面设备1010执行的用于提供虚拟界面的操作1000的泳道图。XR设备1005可以是图2的XR设备202和/或图5A至图5B、图6A至图6B、图7A至图7B、图8A至图8B和图9的XR设备520的示例。显示界面设备1010可以是图2的显示界面设备250和/或图5A至图5B、图6A至图6B、图7A至图7B、图8A至图8B和图9的显示界面设备510的示例。

在操作1015处，XR设备1005搜索显示界面设备1010，例如通过在由XR设备1005的图2的图像传感器220捕获的图像中搜索显示界面设备1010的描绘，通过在XR设备1005的范围内无线地发送搜索信号和/或消息(如果显示界面设备1010在XR设备1005的范围内，则向该显示界面设备发送搜索信号和/或消息)，和/或基于等待从显示界面设备1010接收指示显示界面设备1010存在于XR设备1005的附近(例如，无线信号范围)的无线信号和/或消息。在一些示例中，显示界面设备1010可向XR设备1005发送此类信号和/或消息。XR设备1005可与显示界面设备1010建立通信线路，或者反之亦然。

在操作1020处，显示界面设备1010向XR设备1005发送指示显示界面设备1010存在于XR设备1005的附近的和/或从XR设备1005请求界标图案数据的消息。显示界面设备1010。操作1020之后可以是操作1025和/或操作1035。

在操作1025处，XR设备1005生成界标图案数据并且将界标图案数据发送到显示界面设备1010。操作1025可对应于图2的框226和274。在操作1030处，显示界面设备1010从XR设备1005接收界标图案数据并且基于所接收的界标图案数据来生成另外的界标图案数据。另外的界标图案数据可以是所接收的界标图案数据，或者可基于(并且不同于)所接收的界标图案数据来生成。操作1020之后可以是操作1035和/或操作1040。

在操作1035处，显示界面设备1010生成界标图案，并且在一些情况下还可将界标图案数据发送到XR设备1005。在操作1040处，显示界面设备1010在操作1040处在其显示器(例如，如图2的框262中的显示器260，和/或图5A至图9的触摸屏显示器515)上显示界标图案。在操作1035中生成的界标图案可基于在操作1025中从XR设备1005发送并且在操作1030中由显示界面设备1010接收的界标图案数据。在操作1035中生成的界标图案可基于在操作1030中由显示界面设备1010生成的另外的界标图案数据。界标图案可由显示界面设备1010基于由显示界面设备1010而不是XR设备1005生成的界标图案数据来生成，在这种情况下，显示界面设备1010可向XR设备1005发送界标图案数据以确保XR设备1005具有(或可生成)界标图案的参考副本。操作1025、1030、1035、1040、1050和/或1055中的界标图案数据可以是相对于图2的框226和274描述的任何类型的界标图案数据。

在操作1045处，XR设备1005使用XR设备1005的一个或多个图像传感器220来捕获一个或多个图像。在操作1050处，XR设备1005通过将所捕获的图像与参考界标图案数据进行比较来检测由XR设备1005的一个或多个图像传感器220捕获的图像中的界标图案。在操作1055处，XR设备1005基于图像中的界标图案的位置、大小、取向和/或透视扭曲来识别和/或跟踪图像中的界标图案(和/或显示界面设备1010、显示界面设备1010的显示器)的姿势和/或大小。

在操作1060处，XR设备1005和/或显示界面设备1010生成虚拟界面的至少一部分。在操作1065处，XR设备1005和/或显示界面设备1010通过将虚拟界面覆盖在界标图案上来生成输出图像的至少一部分。输出图像中的虚拟界面的姿势基于图像中的界标图案(和/或显示界面设备1010、显示界面设备1010的显示器)的姿势。输出图像中的虚拟界面的大小基于图像中的界标图案(和/或显示界面设备1010、显示界面设备1010的显示器)的大小。

在操作1070处，XR设备1005使用XR设备1005的一个或多个显示器(例如，显示器234)来显示一个或多个输出图像。操作1070可对应于图2的框232。

在操作1075处，显示界面设备1010在显示界面(例如，如图2的框264中的显示界面261和/或如图5A至图9中的触摸屏显示器515)的一部分处接收显示界面输入，并且向XR设备1005发送与显示界面输入(例如，触摸输入)相对应的显示界面输入标识符(例如，触摸界面输入标识符)(例如，如框272和/或228中)。在操作1080处，XR设备1005和/或显示界面设备1010基于显示界面输入来更新虚拟界面和/或输出图像的其他部分(例如，虚拟内容、所显示的界面)。在操作1085处，XR设备1005使用XR设备1005的一个或多个显示器(例如，显示器234)来显示一个或多个已更新的输出图像。操作1070可对应于图2的框232。

图11是示出根据一些示例的用于处理图像数据的过程1100的示例的流程图。过程1100可由成像***执行。在一些示例中，成像***可以是图2的XR设备202。在一些示例中，成像***可包括例如图1的图像捕获和处理***100、图像捕获设备105A、图像处理设备105B、图像处理器150、ISP 154、主机处理器152、图2的XR***200、XR设备202、显示界面设备250、图3A至图3B的HMD 310、图4A至图4B的移动手机410、图5A至图9的XR设备520、图5A至图9的显示界面设备510、图10的XR设备1005、图10的显示界面设备1010、图12的计算***1200、处理器1210、或它们的组合。

在操作1105处，成像***被配置为并且可接收场景的输入图像。输入图像由图像传感器捕获。场景的示例包括场景110、包括显示界面设备250的显示器260的至少一部分的场景、FOV 560、FOV 660、FOV 760、FOV 860、由在操作1045中捕获的图像所捕获的场景、或它们的组合。图像传感器的示例包括图像传感器130、图像传感器220、传感器276、相机330A-330B的图像传感器、相机430A-430D的图像传感器、XR设备520的一个或多个图像传感器、XR设备1005的一个或多个图像传感器(例如，如在操作1045中使用的)、或它们的组合。输入图像的示例包括由图2中的图像传感器220捕获的图像、由图5A至图5B中的XR设备520的图像传感器捕获的图像(尚未覆盖虚拟界面535)、由图6A至图6B中的XR设备520的图像传感器捕获的图像(尚未覆盖虚拟界面635)、由图7A至图7B中的XR设备520的图像传感器捕获的图像(尚未覆盖虚拟界面735或虚拟内容720)、由图8A至图8B中的XR设备520的图像传感器捕获的图像(尚未覆盖虚拟界面835或虚拟内容840)、在操作1045处捕获的图像、或它们的组合。在一些示例中，成像***可包括耦合到图像传感器的连接器，并且可使用连接器来接收输入图像。连接器可以包括端口、插孔、电线、输入/输出(IO)引脚、印刷电路板(PCB)上的导电迹线、本文讨论的任何其他类型的连接器或者它们的某种组合。在一些示例中，成像***可包括捕获输入图像的图像传感器。在一些示例中，为了捕获输入图像，成像***可包括图像捕获和处理***100、图像捕获设备105A和/或图像处理设备105B。操作1105可对应于由XR设备1005进行的操作1015、1025和/或1045的至少一个子集。

在操作1110处，成像***被配置为并且可在场景的输入图像中检测场景中的第一显示器上显示的界标图案。界标图案可包括以下中的至少一者：线性图示符、线性条形码、条形码、二维(2D)图示符、2D条形码、快速响应(QR)码、微QR码、条形码、MaxiCode、Aztec码、PDF417码、ArUco码、数据矩阵、网格矩阵、一级码代码、堆叠条形码、shotcode、JAB码、高容量彩色条形码(HCCB)、棋盘图案、三维(3D)图示符、3D条形码、一种或多种颜色或它们的组合。界标图案的示例包括由界标图案生成器214生成的界标图案(和/或由界标图案生成器针对其生成界标图案数据)、由界标图案生成器258生成的界标图案(和/或由界标图案生成器针对其生成界标图案数据)、作为显示内容262的一部分显示在显示器260上的界标图案、界标图案530、界标图案630、界标图案730、界标图案830、界标图案930A-930D、在操作1025-1035处生成的界标图案、在操作1040处显示的界标图案、或它们的组合。在一些示例中，成像***包括界标图案的参考副本，并且通过搜索与输入图像中的界标图案的参考副本的特征匹配的特征来检测输入图像中的界标图案。操作1110可对应于由XR设备1005进行的操作1050。

在操作1115处，成像***被配置为并且可确定输入图像中的界标图案(和/或第一显示器)的姿势。界标图案的姿势可包括界标图案的位置(例如，图像中的二维坐标和/或环境中的三维坐标)、界标图案的取向(例如，俯仰、偏航和/或翻滚)或它们的组合。在一些方面，成像***被配置为并且可确定输入图像中的界标图案(和/或第一显示器)的大小。大小可包括三维体积、二维面积和/或一维测量(例如，高度、宽度)。大小可包括绝对大小和/或相对大小(相对于图像数据中的其他大小)。界标图案的大小可被识别为绝对大小或相对于输入图像中的另一大小(例如，第一显示器的大小、在第一显示器上显示界标图案的显示设备的大小、人的大小)的大小。第一显示器的大小可被识别为绝对大小或相对于输入图像中的另一大小(例如，界标图案的大小、在第一显示器上显示界标图案的显示设备的大小、人的大小)的大小。在一些示例中，成像***通过将输入图像中的界标图案的描绘与输入图像中的界标图案的参考副本(没有透视扭曲)进行比较并且至少部分地通过基于与参考副本的比较来确定输入图像中的界标图案的描绘的透视扭曲而确定输入图像中的界标图案(和/或第一显示器)的姿势。在一些示例中，成像***至少部分地通过从显示设备接收指示第一显示器和/或包括第一显示器的显示设备的姿势/或大小的信息来确定第一显示器和/或包括第一显示器的显示设备的姿势和/或大小。操作1115可对应于由XR设备1005进行的操作1055。

在操作1120处，成像***被配置为并且可致使第二显示器显示基于输入图像的输出图像。虚拟界面在输出图像中被覆盖界标图案上。输出图像中的虚拟界面的姿势基于输入图像中的界标图案(和/或第一显示器)的姿势。成像***可基于输入图像中的界标图案(和/或第一显示器)的姿势来生成和/或修改虚拟界面和/或输出图像以处于虚拟界面的姿势。在一些方面，输出图像中的虚拟界面的大小基于输入图像中的界标图案的大小和/或第一显示器的大小。成像***可基于输入图像中的界标图案(和/或第一显示器)的大小来生成和/或修改虚拟界面和/或输出图像以具有虚拟界面的大小。成像***可包括第二显示器。

虚拟界面的示例包括至少部分地由虚拟界面生成器206生成的虚拟界面、虚拟界面535、虚拟界面635、虚拟界面735、虚拟界面835、在操作1060中生成的虚拟界面、在操作1065中覆盖在界标图案上的虚拟界面、在操作1080中更新的虚拟界面或它们的组合。输出图像的示例包括至少部分地使用输出图像合成器212来生成的输出图像、通过在显示器234上显示输出图像232来显示的输出图像、描绘FOV 560并且包括虚拟界面535并且经由XR设备520的一个或多个显示器向XR设备520的用户505显示的输出图像、描绘FOV 660并且包括虚拟界面635以及遮挡610和遮挡620并且经由XR设备520的一个或多个显示器向XR设备520的用户505显示的输出图像、描绘FOV 760并且包括虚拟界面735和虚拟内容720及所显示的界面710并且经由XR设备520的一个或多个显示器向XR设备520的用户505显示的输出图像、描绘FOV 860并且包括虚拟界面835和遮挡810及虚拟内容840并且经由XR设备520的一个或多个显示器向XR设备520的用户505显示的输出图像、在操作1065中生成的输出图像、在操作1070处显示的输出图像、在操作1080中更新的输出图像、在操作1085处显示的输出图像、或它们的组合。操作1120可对应于由XR设备1005进行的操作1060至1085的至少一个子集。

在一些方面，成像***被配置为并且可识别对象遮挡第一显示器的包括输入图像中的界标图案的至少一部分的区域。如在操作1120中的致使第二显示器显示输出图像可包括成像***遮挡虚拟界面的对应于输出图像中的第一显示器的区域的部分。对象的示例包括遮挡610(例如，手部)、遮挡620(例如，手指)和遮挡810(例如，手指)。至少在图6B和图8B中示出了遮挡虚拟界面的对应于输出图像中的第一显示器的区域的部分的成像***的示例。例如，在图6B中，遮挡610和620遮挡了虚拟界面635的对应于图6A中的由遮挡610和620遮挡的触摸屏显示器515的区域的部分。在图8B中，遮挡810遮挡了虚拟界面835的对应于图8A中的由遮挡810遮挡的触摸屏显示器515的区域的部分。

在一些方面，成像***被配置为并且可生成虚拟界面的至少一部分。在一些方面，成像***被配置为并且可从包括第一显示器的显示设备接收虚拟界面的至少一部分。显示设备的示例可包括显示界面设备250、HMD 310、移动手机410、显示界面设备520、显示界面设备1010或它们的组合。例如，在图10中，操作1060处的虚拟界面的生成可由XR设备1005、显示界面设备1010、或它们的组合执行。

在一些方面，成像***被配置为并且可：生成输出图像的至少一部分。在一些方面，生成输出图像的至少一部分包括使用基于输入图像中的界标图案(和/或第一显示器)的姿势的透视扭曲来修改虚拟界面。例如，成像***可执行显示界面设备跟踪224以跟踪输入图像中的界标图案(和/或第一显示器)的姿势。在一些示例中，成像***可基于界标图案的姿势来确定第一显示器的姿势。成像***可包括虚拟界面生成器206和输出图像合成器212，其可基于输入图像中的界标图案(和/或第一显示器)的姿势来执行输出图像232中的虚拟界面的透视扭曲。在图5A至图5B中示出了透视扭曲的示例，其中虚拟界面535基于来自XR设备520的FOV 560的界标图案530和/或触摸屏显示器515和/或显示界面设备510的姿势而稍微顺时针旋转。虚拟界面生成器206和输出图像合成器212可基于输入图像中的界标图案(和/或第一显示器)的大小来执行输出图像232中的虚拟界面的调整大小。

在一些方面，成像***被配置为并且可：生成对应于界标图案的界标图案数据并且将界标图案数据发送到包括第一显示器的显示设备以供显示设备响应于接收到界标图案数据而在第一显示器上显示界标图案。显示设备的示例可包括显示界面设备250、HMD310、移动手机410、显示界面设备520、显示界面设备1010或它们的组合。界标图案数据可包括界标图案。界标图案数据可包括表征界标图案和/或可用于重新创建界标图案的参考副本的数据(例如，通过QR码或条形码或界标图案的其他编码方案来编码的数据)。界标图案数据可由界标图案生成器214生成并且可经由无线收发器230发送(框226)到显示设备(显示界面设备250)。

在一些方面，成像***被配置为并且可：从包括第一显示器的显示设备接收显示界面输入标识符，该显示界面输入标识符指示第一显示器的经由显示设备的显示界面接收显示界面输入的部分，该显示界面与第一显示器相关联。显示设备的示例可包括显示界面设备250、HMD 310、移动手机410、显示界面设备520、显示界面设备1010或它们的组合。对应于第一显示器的显示界面的示例包括对应于显示器260的显示界面261。在图2的框264处示出了显示界面输入的接收的示例。

第一显示器可以是显示设备的触摸屏显示器的显示层。显示界面可以是触摸屏显示器的触敏层。显示界面输入可以是由触摸屏显示器的触敏层检测到的触摸输入。触摸屏显示器的示例包括显示界面设备510的触摸屏显示器515。触摸输入可包括例如触摸、轻击、双击、三击、轻扫、长按、手势、任何先前列出的触摸输入的多手指变型、或它们的组合。

显示界面可控制第一显示器上的光标。显示界面输入可以是基于光标在第一显示器上的位置的光标输入。显示界面可包括鼠标、触控板、触敏表面、触摸屏、操纵杆、小键盘、键盘、按钮、控制器、遥控器或它们的组合中的至少一者。光标输入可包括例如点击、双点击、三点击、点击并拖动操作、用光标画圈、用光标指向、用光标悬停在上方、用光标四处或在上方做手势、或它们的组合。

显示界面可执行关于第一显示器的手部的手部跟踪。显示界面输入可指示第一显示器上与手部的位置相对应的位置。显示界面可包括一个或多个相机和/或一个或多个范围传感器。显示界面可使用一个或多个相机和/或一个或多个范围传感器来执行手部跟踪。显示界面输入可与以下中的至少一者相关联：手部触摸第一显示器上的位置、手部悬停在第一显示器上的位置上方、手部指向第一显示器上的位置、手部相对于第一显示器上的位置做手势、手部的手指触摸第一显示器上的位置、手部的手指悬停在第一显示器上的位置上方、手部的手指指向第一显示器上的位置、手部的手指相对于第一显示器上的位置做手势、或它们的组合。成像***可包括一个或多个相机和/或一个或多个范围传感器的至少一个子集。包括第一显示器的显示设备可包括一个或多个相机和/或一个或多个范围传感器的至少一个子集。一个或多个范围传感器可包括例如RADAR传感器、LIDAR传感器、SONAR传感器、SODAR传感器、飞行时间传感器、结构光传感器或它们的组合。

在一些方面，成像***被配置为并且可：识别由显示界面输入标识符指示的第一显示器的部分与输出图像中的虚拟界面的部分对准。例如，成像***可识别显示界面输入标识符指示在第一显示器上的一组特定坐标处的显示界面输入，第一显示器上的该组坐标也与虚拟界面的虚拟界面元件(例如，一个或多个按钮、滑块、滚动条、单选按钮、复选框、旋钮、滚轮、文本域、基于触摸的小键盘、基于触摸的键盘、基于触摸的绘图区域、或它们的组合)对准。例如，在图8B中，显示界面输入标识符可为指示用户505的右手的拇指已触摸触摸屏显示器515上的一组坐标的触摸输入标识符，并且成像***可识别触摸屏显示器515上的该组坐标对应于虚拟界面835的控制器按钮中的一者。

成像***可响应于识别由显示界面输入标识符指示的第一显示器的部分与输出图像中的虚拟界面的部分对准而自动修改虚拟界面。例如，如果虚拟界面是图5B的音乐播放器虚拟界面535，则经由对于触摸屏515的触摸输入来按压虚拟界面535上的“跳过”按钮可跳到下一首歌曲并且因此触发虚拟界面的修改以识别下一首歌曲。类似地，如果虚拟界面是图5B的音乐播放器虚拟界面535，则经由对于触摸屏515的触摸输入来滑动虚拟界面535的滑块可触发虚拟界面的修改以移动滑块。如果虚拟界面是图7B的视频播放器虚拟界面735，则经由对于触摸屏515的触摸输入来滑动虚拟界面735的滑块或按压虚拟界面735的任何按钮(例如，播放、快进、倒带、暂停)可触发虚拟界面的修改以移动滑块和/或用适当视频帧更新正由视频播放器虚拟界面735播放的视频。如果虚拟界面是图6B的图像查看器虚拟界面635，则向下滑动图像查看器虚拟界面635可滚动浏览图像并且因此可触发虚拟界面的修改以滚动浏览图像。如果虚拟界面是图6B的图像查看器虚拟界面635，则触摸图像查看器虚拟界面635中的图像可在选定图像上放大或居中，并且因此可触发虚拟界面的修改以在选定图像上放大或居中。

成像***可响应于识别由显示界面输入标识符识别的第一显示器的部分与输出图像中的虚拟界面的部分对准而自动输出音频剪辑。例如，如果虚拟界面是图5B的音乐播放器虚拟界面535，则经由对于触摸屏515的触摸输入来按压虚拟界面535上的“播放”按钮可播放歌曲，其中歌曲是音频剪辑的示例。如果虚拟界面是图5B的视频播放器虚拟界面735，则经由对于触摸屏515的触摸输入来按压虚拟界面535上的“播放”按钮可播放歌曲，其中歌曲是音频剪辑的示例。如果虚拟界面是图7B的视频播放器虚拟界面735，则经由对于触摸屏515的触摸输入来滑动虚拟界面735的滑块或按压虚拟界面735的任何按钮(例如，播放、快进、倒带、暂停)可触发播放对应于适当视频帧的由视频播放器虚拟界面735播放的视频的音频轨道，视频的音频轨道是音频剪辑的示例。如果虚拟界面是图8B的游戏控制器虚拟界面835，则经由触摸输入来按压虚拟界面835上的各种游戏按钮可执行游戏中的动作(例如，发射武器)并且可在游戏中播放声音效果，其中声音效果是音频剪辑的示例。

成像***可响应于识别由显示界面输入标识符识别的第一显示器的部分与输出图像中的虚拟界面的部分对准而自动输出振动。振动的示例包括振动反馈845。例如，如果虚拟界面是图8B的游戏控制器虚拟界面835，则经由触摸输入来按压虚拟界面835上的各种游戏按钮可执行游戏中的动作(例如，发射武器)并且可提供振动反馈845。

成像***可接收场景的第二输入图像。可在捕获输入图像之后由图像传感器捕获第二输入图像。成像***可致使第二显示器显示第二输出图像。第二输出图像包括覆盖在第二输入图像上的虚拟内容。成像***基于识别由显示界面输入标识符指示的第一显示器的部分与输出图像中的虚拟界面的部分对准来自动设置虚拟内容(例如，选择、在场景内摆姿势、在场景内调整大小)。虚拟内容的示例包括由虚拟内容生成器210生成的虚拟内容、使用输出图像合成器212来合成到第二输出图像中的虚拟内容、虚拟内容720、虚拟内容840或它们的组合。第二输出图像的示例包括至少部分地使用输出图像合成器212来生成的输出图像、通过在显示器234上显示输出图像232来显示的输出图像、描绘FOV 760并且包括虚拟界面735和虚拟内容720及所显示的界面710并且经由XR设备520的一个或多个显示器向XR设备520的用户505显示的输出图像、描绘FOV 860并且包括虚拟界面835和遮挡810及虚拟内容840并且经由XR设备520的一个或多个显示器向XR设备520的用户505显示的输出图像、在操作1065中生成的输出图像、在操作1070处显示的输出图像、在操作1080中更新的输出图像、在操作1085处显示的输出图像、或它们的组合。

在一些方面，成像***可包括：用于接收场景的输入图像的构件，该输入图像由图像传感器捕获；用于在该场景的该输入图像中检测该场景中的第一显示器上显示的界标图案的构件；用于确定该输入图像中的该界标图案的姿势的构件；和用于致使第二显示器显示基于该输入图像的输出图像的构件，其中虚拟界面在该输出图像中覆盖在该界标图案上，其中该输出图像中的该虚拟界面的姿势基于该输入图像中的该界标图案的该姿势。在一些示例中，用于接收输入图像的构件包括图像传感器130、图像捕获设备105A、图像处理设备105B、图像捕获和处理设备100、XR设备202、图像传感器220、XR应用程序204、相机330A-330B、相机430A-430D、XR设备520的一个或多个图像传感器、XR设备1005的一个或多个图像传感器(例如，如操作1045中使用的)、或它们的组合。在一些示例中，用于检测界标图案的构件包括图像处理设备105B、图像捕获和处理设备100、图像处理器150、主机处理器152、图像传感器220、显示界面设备跟踪224、执行显示界面设备跟踪224的XR设备202的显示界面设备跟踪引擎、XR应用程序204或它们的组合。在一些示例中，用于确定界标图案的姿势的构件包括图像处理设备105B、图像捕获和处理设备100、图像处理器150、主机处理器152、图像传感器220、显示界面设备跟踪224、执行显示界面设备跟踪224的XR设备202的显示界面设备跟踪引擎、XR应用程序204或它们的组合。在一些示例中，用于致使第二显示器显示输出图像的构件包括虚拟界面生成器208、遮挡检测器208、虚拟内容生成器210、输出图像合成器212、显示输出内容232、显示器234、XR应用程序204、用于显示器234的显示控制器或它们的组合。

在一些示例中，本文所描述的过程(例如，过程1100和/或本文所描述的其他过程)可由计算设备或装置执行。在一些示例中，过程1100可由图2的XR***200执行。在一些示例中，过程1100可由图2的XR设备202、图5A至图9的XR设备520、图10的XR设备1005或它们的组合执行。在另一个示例中，过程1100可由具有图12所示的计算***1200的计算设备执行。

计算设备可包括任何适当的设备，诸如移动设备(例如，移动电话)、台式计算设备、平板计算设备、可穿戴设备(例如，VR头戴式耳机、AR头戴式耳机、AR眼镜、网络连接手表或智能手表、或其他可穿戴设备)、服务器计算机、自主车辆或自主车辆的计算设备、机器人设备、电视机和/或具有执行本文描述的过程(包括过程1100)的资源能力的任何其他计算设备。在一些情况下，计算设备或装置可以包括各种部件，诸如一个或多个输入设备、一个或多个输出设备、一个或多个处理器、一个或多个微处理器、一个或多个微型计算机、一个或多个相机、一个或多个传感器、和/或被配置为实施本文中所描述的过程的步骤的其他部件。在一些示例中，计算设备可以包括显示器、被配置为传送和/或接收数据的网络接口、其任何组合、和/或其他部件。网络接口可以被配置为传送和/或接收基于互联网协议(IP)的数据或其他类型的数据。

计算设备的部件可以在电路中实现。例如，部件可以包括电子电路或其他电子硬件，和/或可以使用电子电路或其他电子硬件来实现，所述电子电路或其他电子硬件可以包括一个或多个可编程电子电路(例如，微处理器、图形处理单元(GPU)、数字信号处理器(DSP)、中央处理单元(CPU)、和/或其他合适的电子电路)，和/或部件可以包括用于执行本文中描述的各种操作的计算机软件、固件或它们的任何组合和/或可以使用用于执行本文中描述的各种操作的计算机软件、固件或它们的任何组合来实现。

过程1000和1100被示为逻辑流程图，该逻辑流程图的操作表示能够以硬件、计算机指令、或它们的组合来实现的操作序列。在计算机指令的上下文中，各操作表示存储在一个或多个计算机可读存储介质上的计算机可执行指令，这些指令在由一个或多个处理器执行时执行所叙述的操作。一般来讲，计算机可执行指令包括执行特定功能或实现特定数据类型的例程、程序、对象、部件、数据结构等。操作以其描述的顺序不旨在被解释为限制，并且任何数量个所描述的操作可以以任何顺序和/或并行地组合以实现过程。

另外，过程1000、1100和/或本文所描述的其他过程可在配置有可执行指令的一个或多个计算机***的控制下执行，并且可被实现为在一个或多个处理器上、通过硬件或它们的组合共同执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用程序)。如上所述，代码可以被存储在计算机可读或机器可读存储介质上，例如，以包括由一个或多个处理器可执行的多个指令的计算机程序的形式。计算机可读或机器可读存储介质可以是非暂态的。

图12是示出用于实现本技术的某些方面的***的示例的图示。具体地，图12示出了计算***1200的示例，其可以是例如构成内部计算***、远程计算***、相机或它们的任何部件的任何计算设备，其中***的部件使用连接件1205来彼此通信。连接件1205可以是使用总线的物理连接，或者是到处理器1210中的直接连接，诸如在芯片组架构中。连接件1205还可以是虚拟连接、联网连接或逻辑连接。计算***1200的示例可包括例如图1的图像捕获和处理***100、图像捕获设备105A、图像处理设备105B、图像处理器150、ISP 154、主机处理器152、图2的XR***200、XR设备202、显示界面设备250、图3A至图3B的HMD 310、图4A至图4B的移动手机410、图5A至图9的XR设备520、图5A至图9的显示界面设备510、图10的XR设备1005、图10的显示界面设备1010、执行操作1100的成像***、图12的计算***1200、处理器1210、或它们的组合。

在一些实施方案中，计算***1200是分布式***，其中本公开中描述的功能可以分布在一个数据中心、多个数据中心、对等网络等内。在一些实施方案中，所描述的***部件中的一者或多者表示各自执行部件被描述用于的一些或全部功能的许多此类部件。在一些实施方案中，部件可以是物理设备或虚拟设备。

示例性***1200包括至少一个处理单元(CPU或处理器)1210和连接件1205，该连接件将包括***存储器1215(诸如只读存储器(ROM)1220和随机存取存储器(RAM)1225)的各种***部件耦合到处理器1210。计算***1200可包括与处理器1210直接连接、紧邻该处理器或集成为该处理器的一部分的高速存储器的高速缓存1212。

处理器1210可包括任何通用处理器和硬件服务或软件服务，诸如存储在存储设备1230中的服务1232、1234和1236，其被配置为控制处理器1210，以及专用处理器，在该专用处理器中，软件指令被并入到实际的处理器设计中。处理器1210可基本上是完全独立的计算***，包含多个核或处理器、总线、存储器控制器、高速缓存等。多核处理器可以是对称或非对称的。

为了实现用户交互，计算***1200包括可表示任何数量的输入机制的输入设备1245，诸如用于语音的话筒、用于手势或图形输入的触敏屏幕、键盘、鼠标、运动输入、语音等。计算***1200还可包括输出设备1235，其可以是许多输出机制中的一者或多者。在一些情况下，多模式***可使用户能够提供多种类型的输入/输出以与计算***1200通信。计算***1200可包括通信接口1240，其通常可以支配和管理用户输入和***输出。通信接口可执行或促成使用有线和/或无线收发器接收和/或传输有线或无线通信，包括利用音频插孔/插头、话筒插孔/插头、通用串行总线(USB)端口/插头、端口/插头、以太网端口/插头、光纤端口/插头、专用有线端口/插头、/>无线信号传输、低能耗(BLE)无线信号传输、/>无线信号传输、射频标识(RFID)无线信号传输、近场通信(NFC)无线信号传输、专用短程通信(DSRC)无线信号传输、802.11Wi-Fi无线信号传输、无线局域网(WLAN)信号传输、可见光通信(VLC)、微波接入全球互通(WiMAX)、红外(IR)通信无线信号传输、公共交换电话网(PSTN)信号传输、综合服务数字网(ISDN)信号传输、3G/4G/5G/LTE蜂窝数据网络无线信号传输、自组织网络信号传输、无线电波信号传输、微波信号传输、红外信号传输、可见光信号传输、紫外光信号传输、沿电磁频谱的无线信号传输、或它们的某种组合的那些通信。通信接口1240还可包括一个或多个全球导航卫星***(GNSS)接收器或收发器，其用于基于从与一个或多个GNSS***相关联的一个或多个卫星接收到一个或多个信号而确定计算***1200的位置。GNSS***包括但不限于美国的全球定位***(GPS)、俄罗斯的全球导航卫星***(GLONASS)、中国的北斗导航卫星***(BDS)以及欧洲的伽利略(Galileo)GNSS。对在任何特定硬件布置上进行操作不存在任何限制，并且因此可以容易地替换此处的基础特征以随着它们被开发而获得改进的硬件或固件布置。

存储设备1230可以是非易失性和/或非暂态和/或计算机可读存储器设备，并且可以是硬盘或可以存储能够由计算机访问的数据的其他类型的计算机可读介质，诸如磁带盒、闪存卡、固态存储器设备、数字通用光盘、盒式磁带、软盘、柔性盘、硬盘、磁带、磁条/条带、任何其他磁存储介质、闪存、忆阻器存储器、任何其他固态存储器、压缩光盘只读存储器(CD-ROM)光盘、可重写压缩光盘(CD)光盘、数字视频光盘(DVD)光盘、蓝光光盘(BDD)光盘、全息光盘、另一光学介质、安全数字(SD)卡、微安全数字(microSD)卡、智能卡芯片、EMV芯片、订户身份模块(SIM)卡、迷你/微/纳米/微微SIM卡、另一集成电路(IC)芯片/卡、随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存EPROM(FLASHEPROM)、高速缓存存储器(L1/L2/L3/L4/L5/L#)、电阻随机存取存储器(RRAM/ReRAM)、相变存储器(PCM)、自旋转移矩RAM(STT-RAM)、另一存储器芯片或盒和/或其组合。

存储设备1230可包括软件服务、服务器、服务等，当定义这种软件的代码由处理器1210执行时，其致使***执行功能。在一些实施方案中，执行特定功能的硬件服务可包括存储在与必要的硬件部件(诸如处理器1210、连接件1205、输出设备1235等)连接的计算机可读介质中的软件组件以执行功能。

如本文中所使用，术语“计算机可读介质”包括但不限于便携式或非便携式存储设备、光学存储设备以及能够存储、含有或携载指令和/或数据的各种其他介质。计算机可读介质可以包括非暂态介质，该非暂态介质中可以存储数据并且不包括无线地或在有线连接上传播的载波和/或暂态电子信号。非暂态介质的示例可以包括但不限于磁盘或磁带、诸如压缩盘(CD)或数字多功能盘(DVD)的光学存储介质、闪存、存储器或存储器设备。计算机可读介质可以在其上存储有代码和/或机器可执行指令，其可以表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类，或者指令、数据结构或程序语句的任何组合。通过传递和/或接收信息、数据、自变量、参数或存储器内容，代码段可以耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可以使用任何合适的手段来传递、转发或传送，这些手段包括存储器共享、消息传递、令牌传递、网络传输等。

在一些实施方案中，计算机可读存储设备、介质和存储器可以包括包含比特流等的有线或无线信号。然而，在被提及时，非暂态计算机可读存储介质明确排除诸如能量、载波信号、电磁波以及信号本身等介质。

在以上描述中提供了具体细节以提供对本文提供的实施方案和示例的详尽理解。然而，本领域普通技术人员将理解，没有这些具体细节也可以实践这些实施方案。为了清楚说明，在一些情况下，本技术可以被呈现为包括单独的功能块，包括包含设备、设备部件、以软件或硬件和软件的组合体现的方法中的步骤或例程的功能块。可以使用除了附图中所示和/或本文中所描述的那些之外的附加部件。例如，电路、***、网络、过程和其他部件可以用框图形式示为部件以避免使这些实施方案湮没在不必要的细节中。在其他实例中，可以在没有必要的细节的情况下示出公知的电路、过程、算法、结构和技术以避免混淆各实施方案。

单独的实施方案可以在上文被描述为被示为流程图、流图、数据流图、结构图或框图的过程或方法。尽管流程图可以将操作描述为顺序过程，但是操作中的许多操作可以被并行或同时执行。另外，可以重新排列操作的顺序。当过程的操作完成时过程被终结，但是过程可具有附图中未包括的附加步骤。过程可对应于方法、函数、规程、子例程、子程序等。当过程对应于函数时，它的终止可对应于该函数返回调用函数或主函数。

根据上述示例的过程和方法可使用被存储的计算机可执行指令或以其他方式从计算机可读介质可用的计算机可执行指令来实现。这些指令可包括例如致使或以其他方式将通用计算机、专用计算机或处理设备配置为执行某一功能或功能群的指令和数据。所使用的计算机资源的部分可通过网络访问。计算机可执行指令可以是例如二进制、中间格式指令，诸如汇编语言、固件、源代码等。可以用于存储指令、所使用的信息和/或在根据所描述的示例的方法期间创建的信息的计算机可读介质的示例包括磁盘或光盘、闪存、具有非易失性存储器的USB设备、联网存储设备等。

实现根据这些公开内容的过程和方法的设备可以包括硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合，并且可以采取多种形状因子中的任何形状因子。当以软件、固件、中间件或微代码实现时，用于执行必要任务的程序代码或代码段(例如，计算机程序产品)可被存储在计算机可读或机器可读介质中。处理器可执行必要任务。形状因子的典型示例包括膝上型计算机、智能电话、移动电话、平板设备或其他小形状因子个人计算机、个人数字助理、机架安装设备、独立设备等。本文中描述的功能也可以被体现在***设备或内插式卡中。作为进一步的示例，此类功能性还可被实现在在单个设备上执行的不同芯片或不同过程之中的电路板上。

指令、用于传送这种指令的介质、用于执行它们的计算资源以及用于支持这种计算资源的其他结构是用于提供本公开内容中描述的功能的示例手段。

在前述描述中，参照本申请的具体实施方案描述了本申请的各方面，但是本领域技术人员将认识到，本申请不限于此。因而，尽管本申请的例示性实施方案已经在本文中详细描述，但是应当理解，发明概念可以以其他各种方式被实施和采用，并且所附权利要求书不旨在被解释为包括这些变型，除非受到现有技术的限制。上述应用的各种特征和方面可以单独地或联合地使用。此外，在不脱离本说明书的更广泛的精神和范围的情况下，实施方案可以用于超出本文中描述的环境和应用的任何数量个环境和应用中。因此，说明书和附图应当被认为是例示性的而非限制性的。出于说明的目的，按照特定顺序来描述各方法。应当领会，在替换实施方案中，各方法可以按与所描述的不同顺序来执行。

本领域普通技术人员应当理解，在不脱离本说明书的范围的情况下，本文所使用的小于(“<”)和大于(“>”)符号或术语可以分别用小于等于(“≤”)和大于等于(“≥”)符号来代替。

在部件被描述为“被配置为”执行某些操作的情况下，这样的配置可以例如通过以下各项来实现：设计电子电路或其他硬件以执行操作、通过编程可编程电子电路(例如，微处理器或其他合适的电子电路)以执行操作、或它们的任何组合。

短语“耦合到”是指任何部件直接或间接物理连接到另一部件，和/或任何部件直接或间接与另一部件进行通信(例如，通过有线或无线连接和/或其他合适的通信接口连接到另一部件)。

叙述集合“中的至少一者”和/或集合中的“一者或多者”的权利要求语言或其他语言指示集合中的一个成员或集合中的多个成员(以任何组合)满足权利要求。例如，叙述“A和B中的至少一者”的权利要求语言意指A、B或A和B。在另一示例中，叙述“A、B和C中的至少一者”的权利要求语言意指A、B、C、或A和B、或A和C、或B和C、或A和B和C。语言集合“中的至少一者”和/或集合中的“一者或多者”不将集合限制为集合中所列的项目。例如，叙述“A和B中的至少一者”的权利要求语言可以意指A、B或A和B，并且可以另外包括A和B的集合中未列出的项目。

结合本文公开的实施方案描述的各种例示性逻辑块、模块、电路和算法步骤可以实现为电子硬件、计算机软件、固件或它们的组合。为了清楚地例示硬件和软件的这种可互换性，已经在其功能性方面大致描述了各种例示性部件、方框、模块、电路和步骤。将这种功能性实现为硬件还是软件取决于具体的应用和对整个***提出的设计约束条件。技术人员可针对每种特定应用以不同方式来实现所描述的功能性，但此类具体实施决策不应被解读为致使脱离本申请的范围。

本文中描述的技术还可以被实现在电子硬件、计算机软件、固件或它们的任何组合中。这样的技术可以被实现在多种设备中的任何设备中，多种设备诸如通用计算机、无线通信设备手持设备、或具有多种用途的集成电路设备，多种用途包括在无线通信设备手持设备和其他设备中的应用。被描述为模块或部件的任何特征可以一起被实现在集成逻辑设备中或分开地实现为分立但可互操作的逻辑设备。如果以软件来实现，则这些技术可以至少部分地由包括程序代码的计算机可读数据存储介质来实现，这些程序代码包括指令，这些指令在被执行时执行上述方法中的一者或多者。计算机可读数据存储介质可形成计算机程序产品的一部分，其可包括封装材料。计算机可读介质可以包括存储器或数据存储介质，例如随机存取存储器(RAM)(例如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存、磁性或光学数据存储介质等。另外地或可替代地，技术可以至少部分地由计算机可读通信介质来实现，该计算机可读通信介质携带或传送指令或数据结构形式的且可由计算机存取、读取和/或执行的程序代码，诸如传播的信号或波。

程序代码可以由处理器执行，该处理器可以包括一个或多个处理器，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效集成或分立逻辑电路。这样的处理器可被配置为执行本公开内容中所描述的技术中的任何技术。通用处理器可以是微处理器；但在替换方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、一个或多个微处理器与DSP核心，或任何其他这样配置。因此，如本文中所使用的术语“处理器”可以指前述结构中的任何结构、前述结构的任何组合或适合于具体实施本文中所描述的技术的任何其他结构或装置。另外，在一些方面，本文中所描述的功能性可提供在被配置为用于编码和解码的专用软件模块或硬件模块内，或并入组合的视频编码器-解码器(编解码器)中。

本公开内容的例示性方面包括：

方面1：一种用于处理图像数据的装置，该装置包括：存储器；和耦合到该存储器的一个或多个处理器，该一个或多个处理器被配置为：接收场景的输入图像，该输入图像由图像传感器捕获；在该场景的该输入图像中检测该场景中的第一显示器上显示的界标图案；确定该输入图像中的该界标图案的姿势；以及致使第二显示器显示基于该输入图像的输出图像，其中虚拟界面在该输出图像中覆盖在该界标图案上，其中该输出图像中的该虚拟界面的姿势基于该输入图像中的该界标图案的该姿势。

方面2.根据方面1所述的装置，其中该界标图案包括以下中的至少一者：线性图示符、线性条形码、条形码、二维(2D)图示符、2D条形码、快速响应(QR)码、微QR码、条形码、MaxiCode、Aztec码、PDF417码、ArUco码、数据矩阵、网格矩阵、一级码代码、堆叠条形码、shotcode、JAB码、高容量彩色条形码(HCCB)、棋盘图案、三维(3D)图示符、3D条形码和一种或多种颜色。

方面3.根据方面1至2中任一项所述的装置，其中该一个或多个处理器被配置为：识别对象遮挡该第一显示器的包括该输入图像中的该界标图案的至少一部分的区域，并且其中，为了致使该第二显示器显示该输出图像，该一个或多个处理器被配置为在该输出图像中遮挡该虚拟界面的对应于该第一显示器的该区域的部分。

方面4.根据方面1至3中任一项所述的装置，其中该一个或多个处理器被配置为：生成该虚拟界面的至少一部分。

方面5.根据方面1至4中任一项所述的装置，其中该一个或多个处理器被配置为：从包括该第一显示器的显示设备接收该虚拟界面的至少一部分。

方面6.根据方面1至5中任一项所述的装置，其中该一个或多个处理器被配置为：生成该输出图像的至少一部分。

方面7.根据方面6所述的装置，其中，为了生成该输出图像的至少该部分，该一个或多个处理器被配置为使用基于该输入图像中的该界标图案的该姿势的透视扭曲来修改该虚拟界面。

方面8.根据方面1至7中任一项所述的装置，其中该一个或多个处理器被配置为：生成对应于该界标图案的界标图案数据；以及将该界标图案数据发送到包括该第一显示器的显示设备以供该显示设备响应于接收到该界标图案数据而在该第一显示器上显示该界标图案。

方面9.根据方面1至8中任一项所述的装置，其中该一个或多个处理器被配置为：从包括该第一显示器的显示设备接收显示界面输入标识符，该显示界面输入标识符指示该第一显示器的经由该显示设备的显示界面接收显示界面输入的部分，该显示界面与该第一显示器相关联。

方面10.根据方面9所述的装置，其中该第一显示器是该显示设备的触摸屏显示器的显示层，其中该显示界面是该触摸屏显示器的触敏层，其中该显示界面输入是由该触摸屏显示器的该触敏层检测的触摸输入。

方面11.根据方面9至10中任一项所述的装置，其中该显示界面控制该第一显示器上的光标，其中该显示界面输入是基于该光标在该第一显示器上的位置的光标输入，其中该显示界面包括鼠标、触控板、触敏表面、触摸屏、操纵杆、小键盘、键盘、按钮、控制器和遥控器中的至少一者。

方面12.根据方面9至11中任一项所述的装置，其中该显示界面执行关于该第一显示器的手部的手部跟踪，其中该显示界面输入指示该第一显示器上与该手部的位置相对应的位置，其中该显示界面包括相机和范围传感器中的至少一者，其中该显示界面输入与以下中的至少一者相关联：该手部触摸该第一显示器上的该位置、该手部悬停在该第一显示器上的该位置上方、该手部指向该第一显示器上的该位置以及该手部相对于该第一显示器上的该位置做手势。

方面13.根据方面9至12中任一项所述的装置，其中该一个或多个处理器被配置为：识别由该显示界面输入标识符指示的该第一显示器的该部分与该输出图像中的该虚拟界面的部分对准。

方面14.根据方面13所述的装置，其中该一个或多个处理器被配置为：响应于识别由该显示界面输入标识符指示的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准而自动修改该虚拟界面。

方面15.根据方面13至14中任一项所述的装置，其中该一个或多个处理器被配置为：接收该场景的第二输入图像，该第二输入图像在该输入图像的捕获之后由该图像传感器捕获；以及致使该第二显示器显示第二输出图像，其中该第二输出图像包括覆盖在该第二输入图像上的虚拟内容，其中该虚拟内容基于识别由该显示界面输入标识符指示的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准来自动设置。

方面16.根据方面13至15中任一项所述的装置，其中该一个或多个处理器被配置为：响应于识别由该显示界面输入标识符识别的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准而自动输出音频剪辑。

方面17.根据方面13至16中任一项所述的装置，其中该一个或多个处理器被配置为：响应于识别由该显示界面输入标识符识别的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准而自动输出振动。

方面18.根据方面1至17中任一项所述的装置，其中该一个或多个处理器被配置为：确定该输入图像中的该第一显示器的大小，其中该输出图像中的该虚拟界面的大小基于该输入图像中的该第一显示器的该大小。

方面19.根据方面1至18中任一项所述的装置，其中该一个或多个处理器被配置为：确定该输入图像中的该界标图案的大小，其中该输出图像中的该虚拟界面的大小基于该输入图像中的该界标图案的该大小。

方面20.根据方面1至19中任一项所述的装置，还包括：该图像传感器。

方面21.根据方面1至20中任一项所述的装置，还包括：该第二显示器。

方面22.根据方面1至21中任一项所述的装置，其中该装置包括移动手机、无线通信设备和头戴式显示器(HMD)中的至少一者。

方面23.一种用于处理图像数据的方法，该方法包括：接收场景的输入图像，该输入图像由图像传感器捕获；在该场景的该输入图像中检测该场景中的第一显示器上显示的界标图案；确定该输入图像中的该界标图案的姿势；以及致使第二显示器显示基于该输入图像的输出图像，其中虚拟界面在该输出图像中覆盖在该界标图案上，其中该输出图像中的该虚拟界面的姿势基于该输入图像中的该界标图案的该姿势。

方面24.根据方面23所述的方法，其中该界标图案包括以下中的至少一者：线性图示符、线性条形码、条形码、二维(2D)图示符、2D条形码、快速响应(QR)码、微QR码、条形码、MaxiCode、Aztec码、PDF417码、ArUco码、数据矩阵、网格矩阵、一级码代码、堆叠条形码、shotcode、JAB码、高容量彩色条形码(HCCB)、棋盘图案、三维(3D)图示符、3D条形码和一种或多种颜色。

方面25.根据方面23至24中任一项所述的方法，还包括：识别对象遮挡该第一显示器的包括该输入图像中的该界标图案的至少一部分的区域，并且其中致使该第二显示器显示该输出图像包括在该输出图像中遮挡该虚拟界面的对应于该第一显示器的该区域的部分。

方面26.根据方面23至25中任一项所述的方法，还包括：生成该虚拟界面的至少一部分。

方面27.根据方面23至26中任一项所述的方法，还包括：从包括该第一显示器的显示设备接收该虚拟界面的至少一部分。

方面28.根据方面23至27中任一项所述的方法，还包括：生成该输出图像的至少一部分。

方面29.根据方面28所述的方法，其中生成该输出图像的至少该部分包括使用基于该输入图像中的该界标图案的该姿势的透视扭曲来修改该虚拟界面。

方面30.根据方面23至29中任一项所述的方法，还包括：生成对应于该界标图案的界标图案数据；以及将该界标图案数据发送到包括该第一显示器的显示设备以供该显示设备响应于接收到该界标图案数据而在该第一显示器上显示该界标图案。

方面31.根据方面23至30中任一项所述的方法，还包括：从包括该第一显示器的显示设备接收显示界面输入标识符，该显示界面输入标识符指示该第一显示器的经由该显示设备的显示界面接收显示界面输入的部分，该显示界面与该第一显示器相关联。

方面32.根据任何方面31所述的方法，其中该第一显示器是该显示设备的触摸屏显示器的显示层，其中该显示界面是该触摸屏显示器的触敏层，其中该显示界面输入是由该触摸屏显示器的该触敏层检测的触摸输入。

方面33.根据方面31至32中任一项所述的方法，其中该显示界面控制该第一显示器上的光标，其中该显示界面输入是基于该光标在该第一显示器上的位置的光标输入，其中该显示界面包括鼠标、触控板、触敏表面、触摸屏、操纵杆、小键盘、键盘、按钮、控制器和遥控器中的至少一者。

方面34.根据方面31至33中任一项所述的方法，其中该显示界面执行关于该第一显示器的手部的手部跟踪，其中该显示界面输入指示该第一显示器上与该手部的位置相对应的位置，其中该显示界面包括相机和范围传感器中的至少一者，其中该显示界面输入与以下中的至少一者相关联：该手部触摸该第一显示器上的该位置、该手部悬停在该第一显示器上的该位置上方、该手部指向该第一显示器上的该位置以及该手部相对于该第一显示器上的该位置做手势。

方面35.根据方面31至34中任一项所述的方法，还包括：识别由该显示界面输入标识符指示的该第一显示器的该部分与该输出图像中的该虚拟界面的部分对准。

方面36.根据方面35中任一项所述的方法，还包括：响应于识别由该显示界面输入标识符指示的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准而自动修改该虚拟界面。

方面37.根据方面35至36中任一项所述的方法，还包括：接收该场景的第二输入图像，该第二输入图像在该输入图像的捕获之后由该图像传感器捕获；以及致使该第二显示器显示第二输出图像，其中该第二输出图像包括覆盖在该第二输入图像上的虚拟内容，其中该虚拟内容基于识别由该显示界面输入标识符指示的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准来自动设置。

方面38.根据方面35至37中任一项所述的方法，还包括：响应于识别由该显示界面输入标识符识别的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准而自动输出音频剪辑。

方面39.根据方面35至38中任一项所述的方法，还包括：响应于识别由该显示界面输入标识符识别的该第一显示器的该部分与该输出图像中的该虚拟界面的该部分对准而自动输出振动。

方面40.根据方面23至39中任一项所述的方法，还包括：确定该输入图像中的该第一显示器的大小，其中该输出图像中的该虚拟界面的大小基于该输入图像中的该第一显示器的该大小。

方面41.根据方面23至40中任一项所述的方法，还包括：确定该输入图像中的该界标图案的大小，其中该输出图像中的该虚拟界面的大小基于该输入图像中的该界标图案的该大小。

方面42.根据方面23至41中任一项所述的方法，其中该方法由包括该图像传感器的装置执行。

方面43.根据方面23至42中任一项所述的方法，其中该方法由包括该第二显示器的装置执行。

方面44.根据方面23至43中任一项所述的方法，其中该方法由包括移动手机、无线通信设备和头戴式显示器(HMD)中的至少一者的装置执行。

方面45：一种非暂态计算机可读介质，其上存储有指令，该指令在由一个或多个处理器执行时致使该一个或多个处理器：接收场景的输入图像，该输入图像由图像传感器捕获；在该场景的该输入图像中检测该场景中的第一显示器上显示的界标图案；确定该输入图像中的该界标图案的姿势；以及致使第二显示器显示基于该输入图像的输出图像，其中虚拟界面在该输出图像中覆盖在该界标图案上，其中该输出图像中的该虚拟界面的姿势基于该输入图像中的该界标图案的该姿势。

方面46：根据方面45所述的非暂态计算机可读介质，还包括方面2至22中的任一者和/或方面24至44中的任一者。

方面47：一种用于图像处理的装置，该装置包括：用于接收场景的输入图像的构件，该输入图像由图像传感器捕获；用于在该场景的该输入图像中检测该场景中的第一显示器上显示的界标图案的构件；用于确定该输入图像中的该界标图案的姿势的构件；和用于致使第二显示器显示基于该输入图像的输出图像的构件，其中虚拟界面在该输出图像中覆盖在该界标图案上，其中该输出图像中的该虚拟界面的姿势基于该输入图像中的该界标图案的该姿势。

方面48：根据方面47所述的装置，还包括方面2至22中的任一者和/或方面24至44中的任一者。

Claims

1.一种用于处理图像数据的装置，所述装置包括：

存储器；以及

耦合到所述存储器的一个或多个处理器，所述一个或多个处理器被配置为：

接收场景的输入图像，所述输入图像由图像传感器捕获；

在所述场景的所述输入图像中检测所述场景中的第一显示器上显示的界标图案；

确定所述输入图像中的所述界标图案的姿势；以及

致使第二显示器显示基于所述输入图像的输出图像，其中虚拟界面在所述输出图像中覆盖在所述界标图案上，其中所述输出图像中的所述虚拟界面的姿势基于所述输入图像中的所述界标图案的所述姿势。

2.根据权利要求1所述的装置，其中所述界标图案包括快速响应(QR)码。

3.根据权利要求1所述的装置，其中所述一个或多个处理器被配置为：

识别对象遮挡所述第一显示器的包括所述输入图像中的所述界标图案的至少一部分的区域，并且其中，为了致使所述第二显示器显示所述输出图像，所述一个或多个处理器被配置为在所述输出图像中遮挡所述虚拟界面的对应于所述第一显示器的所述区域的部分。

4.根据权利要求1所述的装置，其中所述一个或多个处理器被配置为：

生成所述虚拟界面的至少一部分。

5.根据权利要求1所述的装置，其中所述一个或多个处理器被配置为：

从包括所述第一显示器的显示设备接收所述虚拟界面的至少一部分。

6.根据权利要求1所述的装置，其中所述一个或多个处理器被配置为：

生成所述输出图像的至少一部分。

7.根据权利要求6所述的装置，其中，为了生成所述输出图像的至少所述部分，所述一个或多个处理器被配置为使用基于所述输入图像中的所述界标图案的所述姿势的透视扭曲来修改所述虚拟界面。

8.根据权利要求1所述的装置，其中所述一个或多个处理器被配置为：

生成对应于所述界标图案的界标图案数据；以及

将所述界标图案数据发送到包括所述第一显示器的显示设备以供所述显示设备响应于接收到所述界标图案数据而在所述第一显示器上显示所述界标图案。

9.根据权利要求1所述的装置，其中所述一个或多个处理器被配置为：

从包括所述第一显示器的显示设备接收显示界面输入标识符，所述显示界面输入标识符指示所述第一显示器的经由所述显示设备的显示界面接收显示界面输入的部分，所述显示界面与所述第一显示器相关联。

10.根据权利要求9所述的装置，其中所述第一显示器是所述显示设备的触摸屏显示器的显示层，其中所述显示界面是所述触摸屏显示器的触敏层，其中所述显示界面输入是由所述触摸屏显示器的所述触敏层检测的触摸输入。

11.根据权利要求9所述的装置，其中所述一个或多个处理器被配置为：

识别由所述显示界面输入标识符指示的所述第一显示器的所述部分与所述输出图像中的所述虚拟界面的部分对准。

12.根据权利要求11所述的装置，其中所述一个或多个处理器被配置为：

响应于识别由所述显示界面输入标识符指示的所述第一显示器的所述部分与所述输出图像中的所述虚拟界面的所述部分对准而自动修改所述虚拟界面。

13.根据权利要求11所述的装置，其中所述一个或多个处理器被配置为：

接收所述场景的第二输入图像，所述第二输入图像在所述输入图像的捕获之后由所述图像传感器捕获；以及

致使所述第二显示器显示第二输出图像，其中所述第二输出图像包括覆盖在所述第二输入图像上的虚拟内容，其中所述虚拟内容基于识别由所述显示界面输入标识符指示的所述第一显示器的所述部分与所述输出图像中的所述虚拟界面的所述部分对准来自动设置。

14.根据权利要求11所述的装置，其中所述一个或多个处理器被配置为：

响应于识别由所述显示界面输入标识符识别的所述第一显示器的所述部分与所述输出图像中的所述虚拟界面的所述部分对准而自动输出音频剪辑。

15.根据权利要求1所述的装置，其中所述一个或多个处理器被配置为：

确定所述输入图像中的所述第一显示器的大小，其中所述输出图像中的所述虚拟界面的大小基于所述输入图像中的所述第一显示器的所述大小。

16.根据权利要求1所述的装置，其中所述一个或多个处理器被配置为：

确定所述输入图像中的所述界标图案的大小，其中所述输出图像中的所述虚拟界面的大小基于所述输入图像中的所述界标图案的所述大小。

17.根据权利要求1所述的装置，还包括：

所述图像传感器。

18.根据权利要求1所述的装置，还包括：

所述第二显示器。

19.根据权利要求1所述的装置，其中所述装置包括移动手机、无线通信设备和头戴式显示器(HMD)中的至少一者。

20.一种用于处理图像数据的方法，所述方法包括：

接收场景的输入图像，所述输入图像由图像传感器捕获；

确定所述输入图像中的所述界标图案的姿势；以及

21.根据权利要求20所述的方法，其中所述界标图案包括快速响应(QR)码。

22.根据权利要求20所述的方法，还包括：

识别对象遮挡所述第一显示器的包括所述输入图像中的所述界标图案的至少一部分的区域，并且其中，致使所述第二显示器显示所述输出图像包括在所述输出图像中遮挡所述虚拟界面的对应于所述第一显示器的所述区域的部分。

23.根据权利要求20所述的方法，还包括：

生成所述虚拟界面的至少一部分。

24.根据权利要求20所述的方法，还包括：

25.根据权利要求20所述的方法，其中所述一个或多个处理器被配置为：

生成所述输出图像的至少一部分。

26.根据权利要求25所述的方法，其中生成所述输出图像的至少所述部分包括使用基于所述输入图像中的所述界标图案的所述姿势的透视扭曲来修改所述虚拟界面。

27.根据权利要求20所述的方法，还包括：

生成对应于所述界标图案的界标图案数据；以及

28.根据权利要求20所述的方法，还包括：

29.根据权利要求28所述的方法，还包括：

30.根据权利要求20所述的方法，还包括：