CN111052042B

CN111052042B - 基于注视的用户交互

Info

Publication number: CN111052042B
Application number: CN201880051530.5A
Authority: CN
Inventors: A·巴-兹夫; R·S·伯戈因; D·W·查默斯; L·R·德利茨·森特诺; R·耐尔; T·R·奥里奥尔; A·帕兰吉
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2017-09-29
Filing date: 2018-09-28
Publication date: 2022-06-07
Anticipated expiration: 2038-09-28
Also published as: KR20200035103A; CN114924651A; JP2020532796A; US20230376261A1; US20210365228A1; US20200225746A1; CN111052043B; CN111052043A; WO2019067901A2; US11132162B2; US11762619B2; US11086581B2; JP2021193585A; US20220083303A1; JP2023179485A; US20220012002A1; EP4235263A3; KR20220100102A; WO2019067899A1; US11188286B2

Abstract

在用于使用眼睛注视与用户界面对象进行交互的示例性过程中，显示与第一对象相关联的示能表示。确定注视方向或注视深度。在注视方向或注视深度被确定为对应于对示能表示的注视时，接收表示对示能表示采取动作的用户指令的第一输入，并且响应于接收到第一输入来选择示能表示。

Description

基于注视的用户交互

相关申请的交叉引用

本专利申请要求如下专利申请的优先权：2017年9月29日提交的名称为“Accessing Functions of External Devices Using Reality Interfaces”(使用现实接口访问外部设备的功能)的美国专利申请序列62/566,073；2017年9月29日提交的名称为“Controlling External Devices Using Reality Interfaces”(使用现实接口控制外部设备)的美国专利申请序列62/566,080；2017年9月29日提交的名称为“Gaze-based UserInteractions”(基于注视的用户交互)的美国专利申请序列62/566,206；以及2018年9月21日提交的名称为“Gaze-based User Interactions”(基于注视的用户交互)的美国专利申请序列62/734,678；这些专利申请据此全文以引用方式并入本文以用于所有目的。

背景技术

1.技术领域

本公开整体涉及用于与电子设备进行交互的用户界面，更具体地，涉及使用眼睛注视与电子设备进行交互。

2.相关领域的描述

常规电子设备使用输入机构诸如键盘、按钮、操纵杆和触摸屏来接收来自用户的输入。一些常规设备还包括响应于用户的输入而显示内容的屏幕。此类输入机构和显示器为用户提供与电子设备进行交互的界面。

发明内容

本公开描述了用于使用眼睛注视与电子设备进行交互的技术。根据一些实施方案，用户使用他或她的眼睛与显示在电子设备上的用户界面对象进行交互。在一些示例性实施方案中，该技术通过允许用户主要使用眼睛注视和眼睛姿势(例如，眼睛移动、眨眼和凝视)来操作设备来提供更自然和更有效的界面。还描述了使用眼睛注视快速指定初始位置(例如，用于选择或放置对象)，然后移动指定位置而不使用眼睛注视的技术，因为由于用户眼睛注视位置的不确定性和不稳定性，使用眼睛注视可能难以精确定位指定位置。该技术可应用于诸如台式计算机、膝上型计算机、平板电脑和智能电话的设备上的常规用户界面。该技术对于计算机生成的现实(包括虚拟现实和混合现实)设备和应用也是有利的，如下文更详细所述。

根据一些实施方案，显示与第一所显示对象相关联的示能表示，并确定注视方向或注视深度。确定注视方向或注视深度是否对应于对示能表示的注视。在确定注视方向或注视深度对应于对示能表示的注视时，接收表示对示能表示采取动作的指令的第一输入，并响应于接收到第一输入来选择示能表示。

根据一些实施方案，同时显示第一示能表示和第二示能表示，并确定一只或多只眼睛的第一注视方向或第一注视深度。确定第一注视方向或第一注视深度是否对应于对第一示能表示和第二示能表示两者的注视。响应于确定第一注视方向或第一注视深度对应于对第一示能表示和第二示能表示两者的注视，放大第一示能表示和第二示能表示。

根据一些实施方案，一种电子设备适于显示计算机生成的三维现实环境的视场，并且视场是从观察视角呈现的。第一对象与第二对象同时显示，其中第一对象被呈现为比第二对象更靠近观察位置。确定注视位置。根据确定注视位置对应于对第一对象的注视，在视觉上改变第二对象的显示。根据确定注视位置对应于对第二对象的注视，在视觉上改变第一对象的显示。

根据一些实施方案，在第一时间接收第一用户输入。响应于接收到第一用户输入，在与第一时间的注视位置相对应的第一位置处指定选择点。在保持选择点的指定时，接收第二用户输入。响应于接收到第二用户输入，将选择点移动到与第一位置不同的第二位置，其中将选择点移动到第二位置不基于注视位置。在选择点处于第二位置时，接收第三用户输入。响应于接收到第三用户输入，在第二位置处确认选择点。

根据一些实施方案，在第一时间接收第一用户输入。响应于接收到第一用户输入，指定与在第一时间的注视位置相对应的多个对象中的第一对象。在保持第一对象的指定时，接收第二用户输入。响应于接收到第二用户输入，停止第一对象的指定并指定多个对象中的第二对象，其中指定第二对象不基于注视位置。在保持第二对象的指定时，接收第三用户输入。响应于接收到第三用户输入，选择第二对象。

根据一些实施方案，选择对象。在保持对象的选择时，在第一时间接收第一用户输入。响应于接收到第一用户输入，基于在第一时间的注视位置而在第一位置处指定放置点，其中第一位置对应于在第一时间的注视位置。在保持放置点的指定时，接收第二用户输入。响应于接收到第二用户输入，将放置点移动到不同于第一位置的第二位置，其中将放置点移动到第二位置不基于注视位置。接收第三用户输入，并且响应于接收到第三用户输入，将所选择的对象放置在第二位置。

附图说明

为了更好地理解各种所述实施方案，应该结合以下附图参考下面的具体实施方式，在附图中，类似的附图标号在所有附图中指示对应的部分。

图1A和图1B描绘了用于各种计算机生成的现实技术，包括虚拟现实和混合现实中的示例性***。

图1C至图1E示出了移动设备形式的***的实施方案。

图1F至图1H示出了头戴式显示器(HMD)设备形式的***的实施方案。

图1I示出了平视显示器(HUD)设备形式的***的实施方案。

图2示出了根据各种实施方案的用户查看对象。

图3示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图4示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图5示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图6示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图7示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图8示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图9示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图10示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图11示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图12示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图13示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图14示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图15示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图16示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的示例性过程的流程图。

图17示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的示例性过程的流程图。

图18示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的示例性过程的流程图。

图19A至图19Y示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的用户界面。

图20示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的示例性过程的流程图。

图21示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的示例性过程的流程图。

图22示出了根据各种实施方案的用于使用眼睛注视与电子设备进行交互的示例性过程的流程图。

具体实施方式

以下描述阐述了示例性方法、参数等。然而，应当认识到，此类描述并非意在限制本公开的范围，而是作为对示例性实施方案的描述来提供。

本发明描述了与各种计算机生成的现实技术，包括虚拟现实和混合现实(其结合了来自物理环境的感官输入)有关的使用此类***的电子***和技术的各种实施方案。

物理环境(或真实环境)是指人们在没有电子***帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品(或物理对象或真实对象)，诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。

相反，计算机生成现实(CGR)环境是指人们经由电子***感知和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR***可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感官中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，音频对象创建3D或空间音频环境，3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。

虚拟现实(VR)环境(虚拟环境)是指被设计成对于一个或多个感官完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟、和/或通过在计算机生成的环境内人的物理运动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子***可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，***可以导致运动使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。

增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子***可具有透明或半透明显示器，人可以透过该显示器直接查看物理环境。该***可以被配置成在透明或半透明显示器上呈现虚拟对象，使得人利用该***感知叠加在物理环境之上的虚拟对象。另选地，***可以具有不透明显示器和一个或多个成像传感器，成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。***将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用***经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着***使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，***可以具有投影***，该投影***将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该***感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，***可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。

增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特征的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的位置的阴影。

有许多不同类型的电子***使人能够感测和/或与各种CGR环境交互。示例包括头戴式***、基于投影的***、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入***(例如，具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式***可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式***可以被配置成接受外部不透明显示器(例如，智能电话)。头戴式***可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式***可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个实施方案中，透明或半透明显示器可被配置成选择性地变得不透明。基于投影的***可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影***也可以被配置成将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

图1A和图1B描绘了用于各种计算机生成的现实技术(包括虚拟现实和混合现实)的示例性***100。

在一些实施方案中，如图1A所示，***100包括设备100a。设备100a包括各种部件，诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件任选地通过设备100a的通信总线150进行通信。

在一些实施方案中，***100的元件在基站设备(例如，计算设备，诸如远程服务器、移动设备或膝上型计算机)中实现，并且***100的其他元件在设计成由用户佩戴的头戴式显示器(HMD)设备中实现，其中HMD设备与基站设备通信。在一些实施方案中，设备100a在基站设备或HMD设备中实现。

如图1B所示，在一些实施方案中，***100包括两个(或更多个)通信中的设备，诸如通过有线连接或无线连接。第一设备100b(例如，基站设备)包括处理器102、RF电路104和存储器106。这些部件可选地通过设备100b的通信总线150进行通信。第二设备100c(例如，头戴式设备)包括各种部件，诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件可选地通过设备100c的通信总线150进行通信。

在一些实施方案中，***100是移动设备，诸如在关于图1C至图1E中的设备100a描述的实施方案中。在一些实施方案中，***100是头戴式显示器(HMD)设备，诸如在关于图1F至图1H中的设备100a描述的实施方案中。在一些实施方案中，***100是可穿戴HUD设备，诸如在关于图1I中的设备100a描述的实施方案中。

***100包括处理器102和存储器106。处理器102包括一个或多个通用处理器、一个或多个图形处理器、和/或一个或多个数字信号处理器。在一些实施方案中，存储器106是存储计算机可读指令的一个或多个非暂态计算机可读存储介质(例如，闪存存储器，随机存取存储器)，所述计算机可读指令被配置为由处理器102执行以执行下述技术。

***100包括RF电路104。RF电路104可选地包括用于与电子设备、网络(诸如互联网、内联网)和/或无线网络(诸如蜂窝网络和无线局域网(LAN))通信的电路。RF电路104可选地包括用于使用近场通信和/或短程通信(诸如

)进行通信的电路。

***100包括显示器120。在一些实施方案中，显示器120包括第一显示器(例如，左眼显示面板)和第二显示器(例如，右眼显示面板)，每个显示器用于向用户的相应眼睛显示图像。对应的图像同时显示在第一显示器和第二显示器上。可选地，对应的图像包括来自不同视点的相同虚拟对象和/或相同物理对象的表示，从而产生视差效应，该视差效应向用户提供显示器上对象的立体感效应。在一些实施方案中，显示器120包括单个显示器。对于用户的每只眼睛，对应的图像同时显示在单个显示器的第一区域和第二区域上。可选地，对应的图像包括来自不同视点的相同虚拟对象和/或相同物理对象的表示，从而产生视差效应，该视差效应向用户提供单个显示器上对象的立体感效应。

在一些实施方案中，***100包括用于接收用户输入的触敏表面122，诸如轻击输入和轻扫输入。在一些实施方案中，显示器120和触敏表面122形成触敏显示器。

***100包括图像传感器108。图像传感器108可选地包括一个或多个可见光图像传感器(诸如电荷耦合设备(CCD)传感器)和/或可操作以从真实环境获得物理对象的图像的互补金属氧化物半导体(CMOS)传感器。图像传感器还可选地包括一个或多个红外(IR)传感器，诸如无源IR传感器或有源IR传感器，用于检测来自真实环境的红外光。例如，有源IR传感器包括IR发射器，诸如IR点发射器，用于将红外光发射到真实环境中。图像传感器108还可选地包括一个或多个事件相机，这些事件相机被配置为捕获真实环境中的物理对象的移动。图像传感器108还可选地包括一个或多个深度传感器，这些深度传感器被配置为检测物理对象与***100的距离。在一些实施方案中，***100组合地使用CCD传感器、事件相机和深度传感器来检测***100周围的物理环境。在一些实施方案中，图像传感器108包括第一图像传感器和第二图像传感器。第一图像传感器和第二图像传感器可选地被配置为从两个不同的视角捕获真实环境中的物理对象的图像。在一些实施方案中，***100使用图像传感器108来接收用户输入，诸如手势。在一些实施方案中，***100使用图像传感器108来检测***100和/或显示器120在真实环境中的位置和取向。例如，***100使用图像传感器108来跟踪显示器120相对于真实环境中的一个或多个固定对象的位置和取向。

在一些实施方案中，***100包括麦克风112。***100使用麦克风112来检测来自用户和/或用户的真实环境的声音。在一些实施方案中，麦克风112包括麦克风阵列(包括多个麦克风)，其任选地串联操作，诸如以便识别环境噪声或在真实环境的空间中定位声源。

***100包括用于检测***110和/或显示器100的取向和/或移动的取向传感器120。例如，***100使用取向传感器110来跟踪***100和/或显示器120的位置和/或取向的变化，诸如关于真实环境中的物理对象。取向传感器110可选地包括一个或多个陀螺仪和/或一个或多个加速度计。

图1C至图1E示出了设备100a形式的***100的实施方案。在图1C至1E中，设备100a是移动设备，诸如蜂窝电话。图1C示出了执行虚拟现实技术的设备100a。设备100a在显示器120上显示虚拟环境160，该虚拟环境包括虚拟对象，诸如太阳160a、鸟160b和海滩160c。所显示的虚拟环境160和虚拟环境160的虚拟对象(例如，160a、160b、160c)都是计算机生成的图像。需注意，图1C中示出的虚拟现实环境不包括来自真实环境180的物理对象的表示，诸如人180a和树180b，即使真实环境180的这些元素在设备100a的图像传感器108的视野内。

图1D示出了使用透传视频执行混合现实技术，特别是增强现实技术的设备100a。设备100a正在显示器120上显示具有虚拟对象的真实环境180的表示170。真实环境180的表示170包括人180a的表示170a和树180b的表示170b。例如，该设备使用图像传感器108来捕获真实环境180的图像，这些图像经透传以在显示器120上显示。设备100a在人180a的表示170a的头部上覆盖帽子160d，该帽子是由设备100a生成的虚拟对象。设备100a相对于设备100a的位置和/或取向来跟踪物理对象的位置和/或取向，以使虚拟对象能够与来自增强现实环境中的真实环境的物理对象进行交互。在该实施方案中，设备100a考虑设备100a和人180a的移动，以将帽子160d显示为在人180a的表示170a的头部上，即使设备100a和人180a相对于彼此移动也是如此。

图1E示出了执行混合现实技术，特别是增强虚拟技术的设备100a。设备100a在显示器120上显示具有物理对象的表示的虚拟环境160。虚拟环境160包括虚拟对象(例如，太阳160a、鸟160b)和人180a的表示170a。例如，设备100a使用图像传感器108来捕获真实环境180a中的人180的图像。设备100a将人180a的表示170a放置在虚拟环境160中，以在显示器120上显示。设备100a相对于设备100a的位置和/或取向任选地跟踪物理对象的位置和/或取向，以使虚拟对象能够与来自真实环境180的物理对象进行交互。在该实施方案中，设备100a考虑设备100a和人180a的移动，以将帽子160d显示为在人180a的表示170a的头部上。值得注意的是，在该实施方案中，在执行混合现实技术时，即使树180b也在设备100a的图像传感器的视野内，设备100a也不显示树180b的表示。

图1F至图1H示出了呈设备100a形式的***100的实施方案。如图1F至1H所示，设备100a是被配置为佩戴在用户头部上的HMD设备，其中用户的每只眼睛观看相应的显示器120a和120b。图1F示出了执行虚拟现实技术的设备100a。设备100a在显示器120a和显示器120b上显示虚拟环境160，该虚拟环境包括虚拟对象，诸如太阳160a、鸟160b和海滩160c。所显示的虚拟环境160和虚拟对象(例如，160a、160b、160c)是计算机生成的图像。在该实施方案中，设备100a同时在显示器120a和显示器120b上显示对应的图像。对应的图像包括来自不同视点的相同虚拟环境160和虚拟对象(例如，160a、160b、160c)，从而产生视差效应，该视差效应向用户提供显示器上对象的立体感效应。需注意，图1F中示出的虚拟现实环境不包括来自真实环境的物理对象的表示，诸如人180a和树180b，即使人180a和树180b在执行虚拟现实技术时位于设备100a的图像传感器的视野内。

图1G示出了使用透传视频执行增强现实技术的设备100a。设备100a正在显示器120a和120b上显示具有虚拟对象的真实环境180的表示170。真实环境180的表示170包括人180a的表示170a和树180b的表示170b。例如，设备100a使用图像传感器108来捕获真实环境120b的图像，这些图像经透传以在显示器180和120a上显示。设备100a将计算机生成的帽子160d(虚拟对象)覆盖在人180a的表示170a的头部上，以在每个显示器120a和120b上显示。设备100a相对于设备100a的位置和/或取向来跟踪物理对象的位置和/或取向，以使虚拟对象能够与来自真实环境180的物理对象进行交互。在该实施方案中，设备100a考虑设备100a和人180a的移动，以将帽子160d显示为在人180a的表示170a的头部上。

图1H示出了使用透传视频执行混合现实技术，特别是增强虚拟技术的设备100a。设备100a在显示器120a和120b上显示具有物理对象的表示的虚拟环境160。虚拟环境160包括虚拟对象(例如，太阳160a、鸟160b)和人180a的表示170a。例如，设备100a使用图像传感器108来捕获人180的图像。设备100a将人180a的表示170a放置在虚拟环境中，以在显示器120a和120b上显示。设备100a相对于设备100a的位置和/或取向任选地跟踪物理对象的位置和/或取向，以使虚拟对象能够与来自真实环境180的物理对象进行交互。在该实施方案中，设备100a考虑设备100a和人180a的移动，以将帽子160d显示为在人180a的表示170a的头部上。值得注意的是，在该实施方案中，在执行混合现实技术时，即使树180b也在设备100a的图像传感器108的视野内，设备100a也不显示树180b的表示。

图1I示出了设备100a形式的***100的实施方案。在图1I中，设备100a是被配置为佩戴在用户头上的HUD设备(例如，眼镜设备)，其中用户的每只眼睛观看相应的平视显示器120c和120d。图1I示出了使用平视显示器120c和120d执行增强现实技术的设备100a。平视显示器120c和120d是(至少部分地)透明显示器，因此允许用户结合平视显示器120c和120d观看真实环境180。设备100a在每个平视显示器120c和120d上显示虚拟帽子160d(虚拟对象)。设备100a相对于设备100a的位置和/或取向以及相对于用户眼睛的位置来跟踪真实环境中的物理对象的位置和/或取向，以使虚拟对象能够与来自真实环境180的物理对象进行交互。在该实施方案中，设备100a考虑设备100a的移动、用户眼睛相对于设备100a的移动，以及人180a在显示器120c和120d上的位置处至显示帽子160d的移动，使得用户看来帽子160d位于人180a的头部。

现在参考图2至图15，描述了用于使用眼睛注视与电子设备进行交互的示例性技术。

图2示出了其注视聚焦在对象210上的用户200的顶视图。用户的注视由用户眼睛中的每一只眼睛的视觉轴来限定。视觉轴的方向限定用户的注视方向，并且轴会聚的距离限定注视深度。注视方向也可称为注视矢量或视线。在图2中，注视方向在对象210的方向上，并且注视深度为相对于用户的距离D。

在一些实施方案中，用户角膜的中心、用户瞳孔的中心和/或用户眼球的旋转中心被确定，以确定用户眼睛的视觉轴的位置，并且因此可用于确定用户的注视方向和/或注视深度。在一些实施方案中，基于用户眼睛的视觉轴的会聚点(或用户眼睛的视觉轴之间的最小距离的位置)或用户眼睛的焦点的某种其他测量来确定注视深度。任选地，注视深度用于估计用户眼睛聚焦的距离。

在图2中，射线201A和201B分别沿着用户200的左眼和右眼的视觉轴被投射，并且任选地在所谓的射线投射中用于确定用户的注视方向和/或注视深度。图2还示出了分别具有角范围203A和203B的锥体202A和202B。锥体202A和202B也分别沿着用户200的左眼和右眼的视觉轴被投射，并且任选地用于在所谓的锥体投射中确定用户的注视方向和/或注视深度。由于诸如眼睛运动、传感器运动、采样频率、传感器延迟、传感器分辨率、传感器失准等因素，常常不能绝对准确或精确地确定注视方向和注视深度。因此，在一些实施方案中，角分辨率或(估计)角误差与注视方向相关联。在一些实施方案中，深度分辨率与注视深度相关联。任选地，锥体的角范围(例如，锥体202A和202B的角范围203A和203B)表示用户注视方向的角分辨率。

图3描绘了具有显示器302的电子设备300。电子设备300显示包括虚拟对象306的虚拟环境304。在一些实施方案中，环境304是CGR环境(例如，VR或MR环境)。在例示的实施方案中，对象306是用户200可使用注视进行交互的示能表示。在一些实施方案中，示能表示306与物理对象(例如，可经由与示能表示306的交互来控制的装置或其他设备)相关联。图3还示出了从用户200上方观察的视图，其示出了用户200的注视方向。用户眼睛中的每只眼睛的视觉轴被外推到虚拟环境304的所显示表示的平面上，该平面对应于设备300的显示器302的平面。点308表示用户200在显示器302上的注视方向。

如图3所示，用户200的注视方向对应于示能表示306的方向。术语“示能表示”是指用户可与之进行交互的图形用户界面对象。示能表示的示例包括用户交互式图像(例如，图标)、按钮和文本(例如，超链接)。电子设备300被配置为确定用户200的注视方向。设备300从指向用户的传感器捕获数据并且基于从传感器捕获的数据来确定注视方向。在呈现场景300的三维表示的一些实施方案中，诸如下文相对于图9至图12所述的实施方案，设备300还(或另选地)确定注视深度以及注视深度是否对应于示能表示306。任选地，确定注视深度是否对应于示能表示的深度至少部分地基于注视深度的深度分辨率。

在例示的实施方案中，设备300包括图像传感器310，图像传感器指向用户200并捕获用户200的眼睛的图像数据。在一些实施方案中，设备300包括事件相机，该事件相机基于检测到的光强度随时间变化而从用户(例如，用户的眼睛)检测事件数据并且使用事件数据来确定注视方向和/或注视深度。任选地，设备300使用图像数据和事件数据(例如，来自图像传感器和独立的事件相机或被配置为捕获图像数据和事件数据的传感器)两者来确定注视方向和/或注视深度。任选地，设备300使用射线投射和/或锥体投射来确定注视方向和/或注视深度。

基于注视方向，设备300确定注视方向对应于示能表示306，因为注视方向与示能表示306在相同的方向上(例如，从用户200的眼睛投射的射线或锥体至少部分地与示能表示306相交或位于示能表示306的误差裕量内)。任选地，确定注视方向对应于示能表示306至少部分地基于注视方向的角分辨率。在呈现场景的三维表示的一些实施方案中，设备300还(或另选地)确定注视深度是否对应于示能表示306的深度。任选地，确定注视深度是否对应于示能表示的深度至少部分地基于注视深度的深度分辨率。任选地，示能表示306也位于注视深度处(或基于注视深度的深度分辨率的深度范围之内)。

在一些实施方案中，注视方向和/或注视深度被确定为即使在注视方向和/或注视深度不再与示能表示重叠时也继续对应于示能表示处的注视(例如，一旦注视方向和/或注视深度一开始被确定为对应于示能表示处的注视，注视方向和/或注视深度就被认为在至少预先确定量的时间或在用户从示能表示移开视线之后预先确定量的时间内对应于示能表示处的注视)。

尽管注视方向被确定为对应于示能表示306处的注视，但设备300接收表示对和第一对象相对应的示能表示采取动作的指令的输入(称为“确认动作”)。例如，在确定用户200正在查看示能表示306时，接收确认动作。

响应于接收到确认动作，设备300选择示能表示306。即，响应于用户查看示能表示306以及提供确认动作的组合来选择示能表示306。确认动作有利于防止正误识(例如，设备300不正确地确定用户200希望选择或作用于示能表示306)。确认动作的非限制性示例包括眼睛姿势、身体姿势、语音输入、控制器输入或它们的组合。

眼睛姿势的示例包括单次眨眼、多次眨眼、预先确定次数的眨眼、预先确定时间量内的预先确定次数的眨眼、预先确定持续时间的眨眼(例如，闭眼一秒钟)、眨眼模式(例如，一次慢速眨眼接着两次快速眨眼)、眨一只眼、眨特定一只眼、眨一只眼的模式(例如，左、右、左，每只眼眨指定持续时间)、预先确定的眼睛运动(例如，快速向上看)、“长”看或停留(例如，在示能表示306的方向(或在对应于示能表示306的方向)上连续保持注视方向预先确定量的时间)，或符合某种其他预先确定的标准的眼睛运动。

手势的示例包括将手放置在与示能表示306的位置相对应的位置(例如，在用户与示能表示306的显示之间)、挥动、指向运动(例如，在示能表示306处)或具有预定义运动模式的手势。在一些实施方案中，手势确认动作取决于手势的位置(例如，手势必须在特定位置处)。在一些实施方案中，手势确认动作不依赖于手势的位置(例如，手势是独立于位置的)。

语音输入的示例包括语音命令(例如，“拿起那个”或“打开灯”)。在一些实施方案中，语音输入明确标识与示能表示306相关联的对象(例如，“选择盒子”)。在一些实施方案中，语音输入不明确标识与示能表示相关联的对象，而是使用本来不明确(例如，“抓住那个”)的代词来指代对象。

关于控制器输入，在一些实施方案中，设备300与控制器通信，该控制器被配置为经由例如按钮、触发器、操纵杆、滚轮、旋钮、键盘或触敏表面(例如，触控板或触敏显示器)来接收输入。在一些实施方案中，控制器和设备300以无线方式连接或经由有线连接来连接。控制器输入的示例包括按钮的按压、触发器的拉动、操纵杆的移动、滚轮的旋转、旋钮的旋转、键盘上的按钮的按压，或触敏表面上的接触或手势(例如，轻击或轻扫)。

在一些实施方案中，选择示能表示306包括将焦点应用于示能表示306。任选地，设备300提供示能表示306已被选择的指示。在一些实施方案中，该指示包括音频输出(例如，蜂鸣声)、视觉指示(例如，对所选择的示能表示进行轮廓描边或突出显示)或触觉输出。任选地，示能表示306在预先确定量的时间内保持被选择(例如，在预先确定量的时间内焦点被保持在示能表示306上)。任选地，示能表示306保持被选择，直至接收到取消选择输入。在一些实施方案中，取消选择输入是与确认动作相同的输入。在一些实施方案中，取消选择输入是不同于确认动作的输入。在一些实施方案中，取消选择输入包括眼睛姿势、身体姿势、语音输入、控制器输入，或它们的组合或部分，诸如上述示例性输入。

在一些实施方案中，示能表示306保持被选择，直到执行与示能表示306(或与其相关联的对象)相关联的动作。图4示出了在示能表示306上执行的示例性动作。在选择示能表示306时，设备300接收输入(例如，眼睛姿势、身体姿势、语音输入、控制器输入，或其组合或部分，诸如上述示例性输入)。在例示的示例中，输入包括用户200改变其眼睛的位置，使得他的注视方向在显示器302上从位置308移动到图4所示的位置400。响应于接收到输入，设备300根据输入执行与示能表示306相关联的动作。在一些实施方案中，响应于使得设备300选择示能表示306的输入来执行与示能表示306相关联的动作(例如，选择示能表示306包括执行与示能表示306相关联的动作)。在图4所示的示例中，设备300根据用户200的注视方向的变化来移动示能表示306，在显示器302上将示能表示306从图3所示的示能表示306的位置向上并向左平移到图4所示的位置。

除了移动示能表示之外，示例性动作包括转换示能表示或与示能表示相关联的对象的表示(例如，旋转、扭转、拉伸、压缩、放大和/或收缩示能表示306)以及改变与示能表示相关联的设备的状态(例如，打开或关闭灯)。例如，在一些实施方案中，示能表示是与恒温器相关联的虚拟刻度盘。用户可选择虚拟刻度盘，然后调节恒温器的温度。在一些实施方案中，在移动对象时，自动确定示能表示(或与其相关联的对象)的位置的一些方面。例如，如果最初平放在水平表面上的虚拟画框被移动到墙壁上，则画框自动旋转至竖直取向以贴靠墙壁平放。

现在转向图5，其描述了与解析和选择紧密间隔的对象相关的技术。图5示出了在设备300上显示的虚拟环境500。在一些实施方案中，环境500是CGR环境(例如，VR或MR环境)。虚拟环境500包括示能表示502和示能表示504，每个示能表示与虚拟桌子506的顶部上的相应盒子相关联并且同时显示在显示器302上。虚线圆表示由设备300确定的用户200的注视方向508。圆的半径表示注视方向508的角不确定性。如图5所示，注视方向508与示能表示502和示能表示504重叠，这指示用户200对示能表示中的一者感兴趣。尽管注视方向508略微更朝向示能表示502，但注视方向508的角不确定性大于示能表示502和示能表示504之间的角间距，这阻止了设备300以足够高的置信度来确定注视方向508对应于示能表示502和示能表示504中的特定一个。换句话讲，设备300无法以充分置信度解析用户200期望选择哪个示能表示。相反，设备200确定注视方向508对应于示能表示502和示能表示504两者。在呈现场景的三维表示的一些实施方案中，示能表示之间的深度分离可小于注视位置的角分辨率或深度分辨率。

响应于确定注视方向508对应于示能表示502和示能表示504两者，设备300放大示能表示502和示能表示504。图6示出了放大(例如，扩大)之后的示能表示502和示能表示504。示能表示502和示能表示504看起来好像它们已从桌子506的顶部移动并且更靠近用户200定位。在图6中，示能表示502和示能表示504被放大相同的量，使得它们的相对尺寸和位置保持相同(例如，示能表示502继续看起来在示能表示504的前方)。放大示能表示502和示能表示504增大了示能表示502和示能表示504的角范围，并且增加了示能表示502和示能表示504之间的角间距。任选地，缩放量基于示能表示的尺寸和/或注视方向的分辨率(例如，示能表示502和示能表示504被放大，使得示能表示504为预先确定的最小尺寸)。在一些实施方案中，示能表示502和示能表示504被缩放，使得设备300可(以预先确定的置信度)解析用户200正尝试关注哪个示能表示。

在一些实施方案中，根据确定用户200的注视满足预定义标准(例如，注视方向508在预先确定量的时间内或在预定义时间窗口中的预先确定量的时间(例如，4秒窗口期间的3秒)内连续对应于示能表示502和示能表示504)而放大示能表示502和示能表示504。在一些实施方案中，在注视方向508对应于示能表示502和示能表示504两者时，响应于设备300接收到输入(例如，眼睛姿势、手势、语音输入或如上所述的控制器输入)而放大示能表示502和示能表示504。通过这种方式，用户200可对设备何时缩放内容具有改进的控制。另外，通过这种方式，设备300可减少或限制其调用缩放功能以解决对需要分辨率的情况的注视歧义的情况，从而减少用户的压力并改善用户体验。任选地，根据输入放大对应于注视方向的示能表示(例如，长按钮按压和/或重按钮按压导致比短按钮按压和/或轻按钮按压更多的放大)。在一些实施方案中，根据语音命令(例如，“放大40％”)放大示能表示。这允许用户200增强对缩放的控制。

放大示能表示502和示能表示504为用户200提供了示能表示的改进视图，并且允许用户200更容易且有信心地选择示能表示中的一个。例如，如图6中所示，在示能表示502和示能表示504被放大之后，用户200决定他想要选择示能表示502并将他的视线移动到示能表示502上的注视方向510。值得注意的是，注视方向510不再与示能表示504重叠。因此，设备300(例如，以相对较高的置信度)确定注视方向510对应于示能表示502的方向(并且不对应于示能表示504的方向)。在注视方向510被确定为对应于放大示能表示502的方向时，用户200利用确认动作，诸如上述确认动作中的一者选择示能表示502。任选地，设备300响应于并且根据用户200用于选择放大示能表示502的确认输入和/或响应于选择示能表示502时的进一步输入，而执行与示能表示502相关联的动作。响应于用户200用于选择放大示能表示502的确认输入，设备300任选地将示能表示502和示能表示504减小(例如，缩小)回先前状态(例如，图5中所示的放大之前的尺寸和位置)。在一些实施方案中，示能表示502在被减小到先前状态之后保持被选择。

在上文相对于图5至图6所述的实施方案中，设备300仅放大示能表示502和示能表示504。在一些实施方案中，除放大示能表示502和示能表示504之外，设备300还显示围绕示能表示502和示能表示504的环境的至少一部分的放大视图。图7示出了示例性实施方案，其中设备300确定虚拟环境500的围绕并包括对应于注视方向508的示能表示的一部分。该部分由矩形700指定并且包括(例如)除了示能表示502和示能表示504之外的桌子506的一部分。如图8所示，响应于确定注视方向508对应于示能表示502和示能表示504两者，设备300放大由矩形700指定的虚拟环境500的包括示能表示502和示能表示504的部分。虽然虚拟环境500的一部分连同示能表示502和示能表示504一起被放大，但仍可如上文相对于图5至图6所述选择并作用于示能表示。此外，尽管上述实施方案涉及虚拟环境，但类似的技术可应用于其他CGR环境，包括混合现实环境。例如，在一些实施方案中，设备包括显示叠加在物理环境的用户实时视图上的示能表示502和示能表示504的透明显示器。设备还包括用于捕获用户眼睛数据的用户传感器和用于捕获显示示能表示502和示能表示504的物理环境的图像的场景传感器。响应于确定用户的注视方向对应于示能表示502和示能表示504，示例性设备捕获围绕示能表示502和示能表示504的至少物理环境的数据并且显示围绕示能表示502和示能表示504的物理环境的放大表示(例如，图像)。

在上述实施方案中，示能表示502和示能表示504以虚拟环境的二维表示来显示。在一些实施方案中，在例如图1F至图1H中所示的虚拟现实HMD 100a上的环境的三维(3D)表示中显示示能表示。图9示出了显示在HMD 900上的虚拟环境902的3D表示。在一些实施方案中，环境902是CGR环境(例如，VR或MR环境)。虚拟环境902包括示能表示904和示能表示906。示能表示904具有第一深度，并且示能表示906具有大于示能表示904的第一深度的第二深度。由于虚拟环境902是3D表示，因此设备900基于从用户的眼睛捕获的数据来确定注视位置，在例示的实施方案中，注视位置包括注视方向和注视深度。在一些实施方案中，确定注视位置包括确定注视方向，但未必确定注视深度。在一些实施方案中，确定注视位置包括确定注视深度，但未必确定注视方向。

在图9中，围绕注视位置908的圆柱体的半径表示注视方向的角分辨率，并且圆柱体的长度表示注视深度的深度分辨率(例如，注视深度的不确定性)。基于注视方向、角分辨率、注视深度和深度分辨率，设备900确定示能表示904和/或示能表示906的位置是否对应于注视位置。在一些实施方案中，基于注视方向(和任选地角分辨率)而不论注视深度，或者基于注视深度(和任选地深度分辨率)而不论注视方向，设备900确定示能表示904和/或示能表示906的位置是否对应于注视位置。

在一些实施方案中，设备900响应于确定注视位置对应于示能表示904和示能表示906两者来增强对较远示能表示(例如，示能表示906)的显示。根据图10所示的实施方案，通过使示能表示906相对于示能表示904更亮(例如，通过增加示能表示906的亮度，降低示能表示904的亮度或这两者的组合)来增强示能表示906。在一些实施方案中，增强示能表示包括改变示能表示自身的视觉外观(例如，通过使示能表示更亮或改变示能表示的颜色)。在一些实施方案中，增强示能表示包括弱化环境的其他方面的视觉外观(例如，通过使另一个示能表示或周围环境显得模糊)。类似地，在3D环境的2D表示中，任选地增强较小对象或在3D环境中具有更大深度值的对象。

在一些实施方案中，响应于设备900确定注视位置908对应于示能表示904和示能表示906两者(例如，设备900无法解析用户正在查看哪个示能表示)，设备900放大示能表示904和示能表示906。在提供3D表示的一些实施方案中，通过向用户移动示能表示并在看起来更靠近用户的深度处显示示能表示来从用户的视角放大示能表示。图11示出了类似于图6所示实施方案的实施方案，其中示能表示904和示能表示906被放大(例如，移动得更靠近用户)，同时保持其相对尺寸和位置。图12示出了一个实施方案，其中示能表示904和示能表示906被放大并相对于彼此重新定位，使得示能表示904和示能表示906并排显示在相同深度处。应当认识到，也可将类似的技术应用于环境的2D表示。例如，在如上文相对于图5所述确定注视方向508对应于示能表示502和示能表示504两者处的注视时，示能表示502和示能表示504任选地相对于彼此放大不同的量，和/或相对于彼此重新定位，使得示能表示502和示能表示504被并排显示。此外，在示能表示904和示能表示906被放大时，设备900还可确定更新的注视位置是否对应于放大示能表示中的一者，并以类似于先前相对于图3至图4和图6至图8所述的技术的方式选择示能表示和/或对其执行动作。

现在转向图13，描述了用于基于对象深度来改变对象的显示的技术。图13再次示出了设备300。设备300显示环境1300(例如，CGR环境)，同时显示对象1302和对象1304。如图13所示，对象1302比对象1304更靠近(例如，具有较小的深度值)。另外，从图13中所示的视角来看，对象1302部分地遮挡对象1304的视图。注视位置1306位于对象1302上。注视位置1306任选地包括注视方向或注视深度，或这两者。根据上述技术中的任一种，设备300任选地基于注视方向或注视深度或这两者来确定注视位置是否对应于对象1302和/或对象1304。

设备300基于注视位置1306对应于对象1302还是对象1304在视觉上改变对象1302和/或对象1304。设备300根据上述技术中的任一种来确定注视位置1306对应于对象1302还是对象1304。在一些实施方案中，响应于确定注视位置1306对应于对象1302，设备300以视觉方式改变对象1304的显示；并且响应于确定注视位置1306对应于对象1304，设备300以视觉方式改变对象1302的显示。例如，如果通过方向或深度或两者确定的用户焦点被确定为在对象中的一者上，则改变另一对象的视觉外观以便强调用户焦点的对象。如图14中所示，设备300确定注视位置1306对应于对象1302，并且作为响应，以强调对象1302和/或取消强调对象1304的方式在视觉上改变对象1304。取消强调对象的在视觉上改变对象的示例包括使对象看起来模糊或不清晰，减小对象的分辨率，降低对象的亮度，减小对象的对比度，增加对象的透明度以及停止显示对象。在一些实施方案中，响应于接收到输入(例如，眼睛姿势、手势、语音输入或控制器输入)并且确定注视位置1306分别对应于对象1302或对象1304，设备300在视觉上改变对象1302或对象1304。任选地，设备300根据确定两个对象的方向对应于注视方向(这指示对象中的一者可能遮挡另一对象，并且区分对象将是有利的)来改变对象1302和对象1304。

任选地，设备300还在视觉上改变对应于注视位置的对象(例如，对象1302)的显示以增强对象的外观。在视觉上增强对象的示例包括使对象变得更清晰，提高对象分辨率，增加对象的亮度，增大对象的对比度，降低对象的透明度，突出显示对象，以及使得对象出现。

在图15中，用户已将其注视位置从1306移动到对应于对象1304的位置1500。作为响应，设备300在视觉上改变对象1302并将对象1304返回至图13中最初显示的外观。在图15例示的实施方案中，设备300使对象1302半透明，使得用户能够更好地看到他正尝试聚焦的对象。任选地，设备300移除对象1302以提供对象1304的无遮挡视图。

应当认识到，上文相对于图2至图15所论述的实施方案是示例性的，并非旨在进行限制。例如，尽管相对于虚拟环境描述了图2至图12中的实施方案，但该技术可类似地应用于其他CGR环境，包括混合现实环境。

现在转向图16，其示出了用于使用眼睛注视与电子设备进行交互的示例性过程1600的流程图。可使用用户设备(例如，100a，300或900)来执行过程1600。用户设备例如是手持式移动设备、头戴式设备或平视设备。在一些实施方案中，使用两个或更多个电子设备来执行过程1600，诸如通信地耦接到另一设备(诸如基础设备)的用户设备。在这些实施方案中，过程1600的操作以任何方式分布在用户设备与另一设备之间。此外，用户设备的显示器可以是透明的或不透明的。过程1600可应用于CGR环境(包括虚拟现实环境和混合现实环境)，以及对应于虚拟对象或物理对象的示能表示。尽管在图16中按特定顺序描绘了过程1600的框，但可按其他顺序执行这些框。此外，过程1600的一个或多个框可以被部分执行，被任选地执行，与另一个(些)框组合执行，和/或可以执行附加框。

在框1602处，设备显示与第一对象(例如，所显示的对象)相关联的示能表示。

在框1604处，设备确定(例如，一只或多只眼睛的)注视方向或注视深度。在一些实施方案中，从指向用户的传感器捕获数据，并且基于从传感器捕获的数据来确定注视方向或注视深度。在一些实施方案中，确定注视方向或注视深度包括确定注视方向。在一些实施方案中，确定注视方向或注视深度包括确定注视深度。任选地，使用射线投射或锥体投射来确定注视方向或注视深度。任选地，用于锥体投射的锥体的角范围基于注视方向的角分辨率。

在框1606处，设备确定注视方向或注视深度是否对应于示能表示处的注视。在一些实施方案中，确定注视方向或注视深度对应于示能表示的深度包括确定注视指向示能表示。在一些实施方案中，确定注视指向示能表示至少部分地基于注视方向的角分辨率。在一些实施方案中，确定注视方向或注视深度对应于示能表示处的注视包括确定注视深度对应于示能表示的深度。在一些实施方案中，确定注视深度对应于示能表示的深度至少部分地基于注视深度的深度分辨率。

在框1608处，在注视方向或注视深度被确定为对应于示能表示处的注视时，设备接收表示对与第一对象相对应的示能表示采取动作的指令的第一输入。在一些实施方案中，第一输入包括眼睛姿势、手势、语音输入和/或控制器输入。

在框1610处，设备响应于接收到第一输入来选择示能表示。任选地，在选择示能表示时，接收第二输入，并且响应于接收到第二输入并根据第二输入来执行与所选择的示能表示相关联的动作。在一些实施方案中，第二输入包括眼睛姿势、手势、语音输入或控制器上的输入。

现在转向图17，其示出了用于使用眼睛注视与电子设备进行交互的示例性过程1700的流程图。可使用用户设备(例如，100a，300或900)来执行过程1700。用户设备例如是手持式移动设备、头戴式设备或平视设备。在一些实施方案中，使用两个或更多个电子设备来执行过程1700，诸如通信地耦接到另一设备(诸如基础设备)的用户设备。在这些实施方案中，过程1700的操作以任何方式分布在用户设备与另一设备之间。此外，用户设备的显示器可以是透明的或不透明的。过程1700可应用于CGR环境(包括虚拟现实环境和混合现实环境)，以及对应于虚拟对象或物理对象的示能表示。尽管在图17中按特定顺序描绘了过程1700的框，但可按其他顺序执行这些框。此外，过程1700的一个或多个框可以被部分执行，被任选地执行，与另一个(些)框组合执行，和/或可以执行附加框。

在框1702处，设备显示第一示能表示和第二示能表示。任选地，第一示能表示和第二示能表示被同时显示。在一些实施方案中，第一示能表示和第二示能表示与包括第一示能表示和第二示能表示的环境(例如，CGR环境)的二维表示或三维表示一起被显示。任选地，第一示能表示在环境的三维表示中的第一深度处显示，并且第二示能表示在环境的三维表示中的第二深度处显示，其中第一深度与第二深度不同。

在框1704处，设备确定(例如，一只或多只眼睛的)第一注视方向或第一注视深度。在一些实施方案中，从指向用户的传感器捕获数据，并且基于从传感器捕获的数据来确定注视方向或注视深度。任选地，使用射线投射或锥体投射来确定注视方向或注视深度。在一些实施方案中，用于锥体投射的锥体的角范围基于注视方向的角分辨率。

在框1706处，设备确定第一注视方向或第一注视深度是否对应于第一示能表示和第二示能表示两者处的注视。任选地，响应于确定第一注视方向或第一注视深度对应于第一示能表示和第二示能表示两者，根据第一深度大于第二深度来增强第一示能表示的显示；以及根据第二深度大于第一深度来增强第二示能表示的显示。在一些实施方案中，确定注视方向，并且确定注视方向或注视深度对应于第一示能表示和第二示能表示两者包括确定注视方向对应于第一示能表示和第二示能表示两者。任选地，确定注视方向对应于第一示能表示和第二示能表示两者至少部分地基于注视方向的角分辨率。在一些实施方案中，确定注视方向或注视深度包括确定注视深度，以及确定注视方向或注视深度对应于第一示能表示和第二示能表示两者包括确定注视深度对应于第一示能表示和第二示能表示两者。任选地，确定注视深度对应于第一示能表示和第二示能表示两者至少部分地基于注视深度的深度分辨率。

在框1708处，响应于确定第一注视方向或第一注视深度对应于第一示能表示和第二示能表示两者处的注视，设备增强第一示能表示和第二示能表示。在一些实施方案中，根据确定用户的注视满足预定义标准来放大第一示能表示和第二示能表示。在一些实施方案中，接收第三输入，并且响应于确定第一注视方向或第一注视深度对应于第一示能表示和第二示能表示两者并接收第三输入，来放大第一示能表示和第二示能表示。在一些实施方案中，第三输入包括眼睛姿势、手势、语音输入或控制器输入。在一些实施方案中，放大第一示能表示和第二示能表示包括显示围绕第一示能表示和第二示能表示的环境(例如，CGR环境)的至少一部分的放大视图。在一些实施方案中，围绕第一示能表示和第二示能表示的环境的至少一部分的放大视图是虚拟环境的表示。在一些实施方案中，围绕第一示能表示和第二示能表示的环境的至少一部分的放大视图是物理环境的表示。在一些实施方案中，放大第一示能表示和第二示能表示包括在环境的三维表示中的第三深度处显示第一示能表示，并且在环境的三维表示中的第四深度处显示第二示能表示，其中第三深度与第四深度相同。

任选地，在放大第一示能表示和第二示能表示之后，确定第二注视方向或第二注视深度，并且确定第二注视方向或第二注视深度对应于第一示能表示处的注视。在第二注视方向或第二注视深度被确定为对应于第一示能表示处的注视时，接收表示对第一示能表示采取动作的用户指令的第一输入，并且响应于接收到第一输入来选择第一示能表示。任选地，第一输入包括眼睛姿势、手势、语音输入或控制器输入。

在一些实施方案中，响应于接收到第一输入而减小第一示能表示或第二示能表示。任选地，在选择第一示能表示时，接收第二输入，并且响应于接收到第二输入来执行与根据第二输入的第一示能表示相关联的动作。在一些实施方案中，第二输入包括眼睛姿势、手势、语音输入或控制器输入。

现在转向图18，其示出了用于使用眼睛注视与电子设备进行交互的示例性过程1800的流程图。可使用用户设备(例如，100a，300或900)来执行过程1800。用户设备例如是手持式移动设备、头戴式设备或平视设备。在一些实施方案中，使用两个或更多个电子设备来执行过程1800，诸如通信地耦接到另一设备(诸如基础设备)的用户设备。在这些实施方案中，过程1800的操作以任何方式分布在用户设备与另一设备之间。此外，用户设备的显示器可以是透明的或不透明的。过程1800可应用于CGR环境(包括虚拟现实环境和混合现实环境)，以及虚拟对象、物理对象和它们的表示。尽管在图18中按特定顺序描绘了过程1800的框，但可按其他顺序执行这些框。此外，过程1800的一个或多个框可以被部分执行，被任选地执行，与另一个(些)框组合执行，和/或可以执行附加框。

设备适于显示计算机生成的三维现实环境的视场。从观察视角呈现视场。在框1802处，设备显示第一对象和第二对象。任选地，同时显示第一对象和第二对象。在一些实施方案中，显示第一对象和第二对象，使得从观察视角来看，第一对象看起来(例如，被呈现为)比第二对象更靠近。

在框1804处，设备确定(例如，一只或多只眼睛的)注视位置。在一些实施方案中，从指向用户的传感器捕获数据，并且基于从传感器捕获的数据来确定注视位置。在一些实施方案中，使用射线投射或锥体投射来确定注视位置。任选地，用于锥体投射的锥体的角范围基于注视方向的角分辨率。

在框1806处，设备确定注视位置对应于第一对象还是第二对象处的注视。在一些实施方案中，确定注视方向，并且确定注视位置对应于第一对象或第二对象处的注视包括确定注视指向第一对象或第二对象。任选地，确定注视指向第一对象还是第二对象至少部分地基于注视方向的角分辨率。在一些实施方案中，确定注视深度，并且确定注视位置对应于第一对象或第二对象处的注视包括确定注视深度对应于第一对象或第二对象的深度(例如，如在视场中呈现的)。任选地，确定注视深度对应于第一对象或第二对象的深度至少部分地基于注视深度的深度分辨率。

在框1808处，设备根据确定注视位置对应于第一对象处的注视在视觉上改变第二对象的显示。在一些实施方案中，响应于确定注视位置对应于第一对象处的注视并接收到输入来改变第二对象。输入任选地包括眼睛姿势、手势、语音输入或控制器输入。任选地，设备增强第一对象的显示(例如，显示分辨率)。任选地，在视觉上改变第二对象之后，设备确定用户的第二注视位置，并且根据确定第二注视位置对应于第二对象处的注视，在视觉上改变第一对象的显示并根据其初始外观来显示第二对象。

在框1810处，设备根据确定注视位置对应于第二对象处的注视在视觉上改变第一对象的显示。在一些实施方案中，响应于确定注视位置对应于第二对象处的注视并接收到输入来改变第一对象。输入任选地包括眼睛姿势、手势、语音输入或控制器输入。任选地，设备增强第二对象的显示(例如，显示分辨率)。

用于执行上述方法1600、1700和/或1800的特征的可执行指令任选地包括在被配置为由一个或多个处理器(例如，处理器102)执行的暂态或非暂态计算机可读存储介质(例如，存储器106)或其他计算机程序产品中。此外，方法1600中的一些操作(例如，框1610)任选地包括在方法1700和/或方法1800中，方法1700中的一些操作(例如，框1708)任选地包括在方法1600和/或方法1800中，并且方法1800中的一些操作(例如，框1806、1808和/或1810)任选地包括在方法1600和/或方法1700中。

转向图19A至图19Y，描述了提供用于例如在CGR环境中选择和/或放置对象(例如，虚拟对象、物理对象以及与虚拟对象和物理对象相对应的示能表示)的双模态的技术。在第一模式(例如，“注视接合”模式)中，一开始基于用户注视的位置来指定位置或对象。在初始指定之后，使用第二模式(例如，“注视脱离”模式)来移动指定位置或不使用注视而指定不同的对象。用户可快速地移动注视位置，这使得其对于快速识别一般区域是有效的。然而，如上所述，用户注视的位置存在不确定性，这使得难以使用注视来指定精确位置。在估计的注视位置处显示持久视觉指示符对于指定精确位置可能是无效的，因为指示符可能分散用户的注意力并导致用户的注视跟随指示符而不是聚焦在期望的指定点上。双模态技术允许用户快速地作出粗略的初始指定，然后独立于注视进行精细调节(例如，仅基于手动输入)来指定特定点或对象。

图19A示出了使用设备1900与虚拟环境1902进行交互的用户200。在一些实施方案中，环境1902是CGR环境(例如，VR或MR环境)。设备1900包括虚拟现实HMD 1900a和输入设备1900b。在一些实施方案中，HMD 1900a是设备100a(例如，在图1F至图1I中)，并且输入设备1900b与HMD 1900a通信(例如，经由通信总线150，如图1A至图1B所示)。视图1902a示出了在HMD 1900a上向用户200显示的虚拟环境1902的视图，并且视图1902b示出了包括用户200的虚拟环境1902的透视图。图19A还示出了输入设备1900b，该输入设备包括触敏表面1904(例如，图1A至图1B中的触敏表面122)，该触敏表面允许用户200提供输入以与虚拟环境1902进行交互。设备1900包括传感器(例如，HMD 1900A上的图像传感器)以确定用户200的注视1906(例如，注视方向和/或注视深度)(如上所述)。在一些实施方案中，设备1900包括被配置为检测各种类型的用户输入的传感器，用户输入包括(但不限于)眼睛姿势、身体姿势和语音输入。在一些实施方案中，输入设备包括被配置为接收按钮输入(例如，向上、向下、向左、向右、回车等)的控制器。

虚拟环境1902包括照片1908的叠堆，其包括放在桌子1912上的单张照片1908a-1908e。在视图1902b中看到的注视1906指示用户200正在查看照片1908的叠堆。在一些实施方案中，表示注视1906的线在虚拟环境1902中不可见，如例如在视图1902a中所示。

如图19A中所示，设备1900接收用户输入1910a(例如，触敏表面1904上的触摸手势)，而注视1906指向照片1908的叠堆。在一些实施方案中，除了触敏表面1904上的触摸手势之外或作为替代，用户输入1910a包括眼睛姿势、身体姿势、语音输入、控制器输入或它们的组合。

在一些实施方案中，对用户输入1910a的响应取决于用户输入1910a的特征。例如，根据确定用户输入1910a是第一类型的输入(例如，触敏表面1904上的轻击)，选择整叠照片1908，如由围绕图19B中照片1908的叠堆的焦点指示符1914(例如，粗边框)所指示的。在一些实施方案中，设备1900响应于接收到进一步输入(例如，选择退出按钮)而取消选择照片1908的叠堆。

另选地，根据确定用户输入1910a是不同类型的输入(例如，触敏表面1904上的触摸并保持)，呈现照片1908a-1908e，如图19C中所示，使得用户200可更容易地从叠堆1908中选择特定照片。在图19C中，照片1908a-1908e被从桌子1912移动并且竖直呈现并铺展在用户200的视场的中间。响应于接收到用户输入1910a，指定(例如，初步选择)处于靠左位置的照片1908a。照片1908a的指定由焦点指示符1914指示，该焦点指示符包括围绕照片1908a的粗边框。在一些实施方案中，焦点指示符1914包括在视觉上标识指定对象的指针、光标、点、球、突出显示、轮廓描边或伪影图像。在一些实施方案中，设备1900解除指定照片1908a并响应于接收到进一步输入(例如，选择退出按钮或触摸的抬离)而将照片1908返回至桌子1912。

图19B和图19C中示出的响应均基于注视1906，更具体地，基于用户200在进行用户输入1910a时的注视位置。由于用户200的注视位置被定位在照片1908的叠堆上，照片1908的叠堆被选择(图19B)或被指定并且重新呈现以供进一步选择。在对用户输入的响应基于注视1906时，设备1900处于注视接合模式，并且用户200的注视1906与用户输入接合。注视接合模式在图19A中由实线所示的注视1906来示出。

在一些实施方案中，对用户输入1910a的响应取决于注视1906是否对应于多于一个的可选对象。在一些实施方案中，如果关于要选择的对象存在歧义或不确定性，则设备1900不确认选择。例如，设备1900根据确定注视1906的位置对应于多个不可解析的可选对象(例如，照片1908的叠堆)来显示照片1908a-1908e并指定照片1908a(图19C)。在一些此类实施方案中，根据确定注视1906的位置仅对应于单个可选对象(例如，下文所述，图19M中所示的杯子1918)，设备1900选择单个可选对象(例如，而不是指定对象或提供进一步细化选择的能力)。

在例示的实施方案中，响应于接收到用户输入1910a，设备1900还切换至注视脱离模式，其中对用户输入的响应不基于用户200的注视1906，并且注视1906脱离进一步的用户输入。注视脱离模式在图19C中由虚线所示的注视1906来示出。

转向图19D，在指定照片1908a时，设备1900接收用户输入1910b。在图19D中，用户输入1910b包括从左到右的轻扫或拖动手势。在一些实施方案中，用户输入1910b是用户输入1910a的延续(例如，用户输入1910a包括保持在触敏表面1904上的接触，并且用户输入1910b包括接触的移动)。在一些实施方案中，用户输入1910b包括对方向按钮的按压或口头命令(“向右移动”)。响应于接收到用户输入1910b，根据指定照片1908b的用户输入1910b(例如，沿其方向)从照片1908a移动焦点指示符1914，如图19E中所示。

值得注意的是，由于解除了注视1906，因此响应于接收到用户输入1910b而指定照片1908b，尽管在进行用户输入1910b时注视1906定位在照片1908a上。焦点指示符1914移动到与注视1906的位置不对应的位置(例如，对象)。更一般地，移动焦点指示符1914以指定照片1908b不基于注视1906。在一些实施方案中，仅基于用户输入1910b的特征(例如，位置、方向、速度、持续时间等)移动焦点指示符1914。

如图19E中所示，注视1906保持脱离，并且响应于在注视1906定位在照片1908a上时接收到进一步的用户输入1910c，将焦点指示符1914从照片1908b移动以指定照片1908c，如图19F中所示。

转向图19G，在指定照片1908c时，设备1900接收用户输入1910d(例如，点击、双击或手指抬离)。响应于接收到用户输入1910d，选择当前指定的对象，即照片1908c。响应于接收到用户输入1910d，焦点指示符1914保持在照片1908c上，并且其他照片1908a、1908b、1908d和1908e被返回至桌子1912，如图19H中所示。另外，响应于接收到用户输入1910d，用户200的注视1906被重新接合。

相对于图19A至图19H所述的技术提供了双模态操作，其中当照片1908堆叠在桌子1912上时，用户200可有效地选择将(例如，由于注视位置的不确定性)难以单独使用注视来区分的特定对象(例如，照片1908中的一张)。用户200可使用注视1906来快速指定一组对象，然后使用独立于注视1906的输入来导航对象组并选择特定对象。

转向图19I，在保持对照片1908c的选择时，用户200将注视1906移动到环境1902中的墙壁1916上在照片1908f和照片1908g之间的位置。响应于注视1906的移动，将照片1908c移动到对应于注视位置的位置。在一些实施方案中，照片1908c保持在图19I中所示的位置处或者在视觉上被移动和/或修改(例如，以便不妨碍用户200对虚拟环境1902的观察)，直到指定或选择用于照片1908c的放置位置，如下所述。

在如图19I所示定位照片1908c时，设备1900接收用户输入1910e(例如，触敏表面1904上的触摸)。响应于接收到用户输入1910e，基于注视1906在进行用户输入1910e时的位置来指定照片1908c的放置位置。如图19J中所示，响应于接收到用户输入1910e，所选择的照片1908c被放置在注视1906的位置并保持被选择，并且注视1906脱离。在一些实施方案中，放置位置由指针、光标、点、球、突出显示、轮廓描边或(例如，被放置的对象的)伪影图像指示。

在一些实施方案中，对用户输入1910e的响应取决于用户输入1910e的特征。在一些实施方案中，根据包括第一类型的输入(例如，触敏表面1904上的触摸)的用户输入1910e，设备1900指定墙壁1916上用于照片1908c的临时放置位置，照片1908c保持被选择，并且注视1906脱离，如上所述；以及根据包括第二类型的输入(例如，触敏表面1904上的点击)的用户输入1910e，将照片1908c放置在墙壁1916上，取消选择照片1908c，并且注视1906重新接合。因此，通过使用不同输入，用户200可选择指定临时放置位置并保持对照片1908c的选择以通过进一步输入来调节位置(如下所述)，或接受注视位置作为放置位置并取消选择照片1908c。

返回图19J，在照片1908c保持被选择并定位在初始指定位置时，设备1900接收包括向下轻扫或拖动手势的用户输入1910f。响应于接收到用户输入1910f，根据用户输入1910f并独立于注视1906的位置而向下移动照片1908c，如图19K中所示。根据该技术，用户200可使用注视1906来快速且粗略地指定初始放置位置，然后对该位置进行不依赖于注视的精细调节。一旦照片1908c处于所需位置(例如，与照片1908f和照片1908g对齐)，用户200就提供输入1910g。响应于输入1910g，图19K中的照片1908c的位置被选择作为最终放置位置，并注视1906重新接合。如图19L中所示，响应于接收到用户输入1910g，从照片1908c移除焦点(取消选择照片1908c)，并且在用户200将注视1906移动到不同位置时，照片1908c保持在所选择的放置位置。

现在转向图19M，如图19L中所示配置虚拟环境1902，其中添加了杯子1918。在图19M中，在注视1906被定位在杯子1918和照片1908的叠堆之间时，设备1900接收用户输入1910h(例如，触敏表面1904上的触摸、对按钮的按压或身体姿势)。响应于接收到用户输入1910h，在与注视1906的位置相对应的位置处指定由焦点指示符1920表示的选择点，如图19N所示。在一些实施方案中，焦点指示符1920包括指针、光标、点或球体。在一些实施方案中，在用户输入之前(例如，最近测量或估计的位置)或在用户输入之后(例如，作为响应)确定(例如，测量或估计)注视1906。

在一些实施方案中，对用户输入1910h的响应是与上下文相关的。在一些实施方案中，响应基于位于注视位置处的内容。例如，设备1900可根据在进行用户输入1910h时对象、多个无法解析的对象、菜单示能表示或没有对象在注视位置处而以不同方式作出响应。例如，如果设备1900以预先确定量的确定性确定注视1906对应于照片1908的叠堆，则如参考图19A至图19C所述那样显示焦点指示符1914而非焦点指示符1920。在一些实施方案中，多个对象包括与对象相关联的菜单选项(例如，下文所述的菜单示能表示1924)。

在一些实施方案中，响应基于当前是否选择了对象。例如，如果当前未选择对象，则设备1900可在选择模式下操作并执行选择动作(例如，选择对象(图19B)、指定选择点(图19N)，或显示多个对象以进行选择(图19C))；如果当前选择了对象，则设备1900可在放置模式下操作并执行放置动作(例如，将对象放置在注视位置，或在指定放置位置处显示所选择的对象的伪影图像；例如，参见对上文的图19H至图19J和下文的图19P至图19Q的描述)。

返回图19N，根据确定在进行用户输入1910h时存在与注视1906的位置相对应的多个可选对象来显示焦点指示符1920。例如，如果设备1900无法以足够的确定性确定注视1906对应于照片1908的叠堆还是杯子1918，则显示焦点指示符1920，使得用户200能够指明他想要选择哪个对象。在例示的实施方案中，用户200希望选择杯子1918并提供用户输入1910i，该用户输入包括触敏表面1904上的从右到左轻扫或拖动手势，以将焦点指示符1920移动到杯子1918。响应于接收到用户输入1910i，将选择点移动到对应于杯子1918的位置，如图19O中的焦点指示符1920所指示的。在选择点被定位在杯子1918上时，设备1900接收用户输入1910j(例如，点击)。响应于接收到用户输入1910j，确认选择点并且选择与选择点的当前位置相对应的对象。如图19P中所示，选择杯子1918，如由杯子1918周围的焦点指示符1915(例如，突出显示)所指示的，并且注视1906重新接合。

如图19P中所示，在杯子1918保持被选择时，用户200将注视1906移动到桌子1922。在例示的实施方案中，杯子1918保持显示在相同位置(例如，即使注视1906被接合，它也不随着注视1906移动)。

在注视1906如图19P所示进行定位时，设备1900接收用户输入1910k。响应于接收到用户输入1910k，由位于对应于注视1906的位置处的焦点指示符1920指定放置点，并且注视1906脱离，如图19Q中所示。在一些实施方案中，焦点指示符1920包括被选择对象(例如，杯子1918)的指针、光标、点、球、突出显示、轮廓描边或伪影图像。

在一些实施方案中，在杯子1918被选择时，对用户输入1910k的响应取决于在进行用户输入1910k时是否存在与注视1906的位置相对应的不止一个放置位置。在图19P中，根据确定注视1906的位置对应于多个可能的可选放置位置来指定放置点(例如，如果在注视位置处或附近存在各种可能的放置位置，则设备1900不确认针对所选择的对象的放置位置)。在一些实施方案中，根据确定注视1906的位置仅对应于单个可选放置位置并且响应于接收到用户输入1910k，设备1900将所选择的对象放置在注视位置，取消选择对象，然后重新接合注视1906。

转向图19Q，在指定放置点时，设备1900接收用户输入1910l，该用户输入包括触敏表面1904上向上并向右的对角轻扫或拖动手势。响应于接收到用户输入1910l，根据用户输入1910l来移动放置点，如焦点指示符1920朝向桌子1922的中心移动所示，如图19R中所示。响应于接收到用户输入1910m来确认放置点，并且将所选择的对象(例如，杯子1918)放置在桌子1922上的确认放置点处，如图19S中所示。注视1906还响应于接收到用户输入1910m而重新接合。

现在转向图19T，如图19M所示配置虚拟环境1902，其中添加菜单示能表示1924，该菜单示能表示与菜单示能表示1924附近的对象(例如，桌子1912、照片1908和杯子1918)相关联。在图19T中，在注视1906被定位在菜单示能表示1924上时，设备1900接收用户输入1910n(例如，触摸)。响应于接收到用户输入1910n，选择菜单示能表示1924并且注视1906与用户输入脱离，如图19U中所示。

对菜单示能表示1924的选择使得显示菜单选项1926a-1926d，该菜单选项可独立于注视1906通过输入进行循环和选择。如图19U中所示，响应于对菜单示能表示1924的选择，一开始利用焦点指示符1928(例如，粗边框)指定菜单选项1926a(选择桌子)。

如图19V中所示，设备1900接收包括向下轻扫或拖动手势的用户输入1910o。响应于接收到用户输入1910o，焦点指示符1928根据用户输入1910o从菜单选项1926a(选择桌子)向下移动到菜单选项1926b(选择照片)，而不考虑注视1906的位置，如图19W所示。

在图19W中，设备1900接收包括附加向下移动的用户输入1910p。响应于接收到用户输入1910p，焦点指示符1928根据用户输入1910p从菜单选项1926b(选择照片)向下移动到菜单选项1926c(选择杯子)，同样不考虑注视1906的位置，如图19X所示。

在图19X中，在指定菜单选项1926C时，设备1900接收用户输入1910q。响应于接收到用户输入1910q，选择对应于菜单选项1926c的对象，如图19Y所示。在图19Y中，响应于接收到用户输入1910r，杯子1918被选择并被移动到用户200的视场中心。

此外，尽管上文参考图19A至图19Y所述的实施方案涉及虚拟环境，但类似的技术可应用于其他CGR环境，包括混合现实环境。

现在转向图20，其示出了用于使用眼睛注视与电子设备进行交互的示例性过程2000的流程图。可使用用户设备(例如，100a，300、900或1900)来执行过程2000。用户设备例如是手持式移动设备、头戴式设备或平视设备。在一些实施方案中，使用两个或更多个电子设备来执行过程2000，诸如通信地耦接到另一设备(诸如基础设备)的用户设备。在这些实施方案中，过程2000的操作以任何方式分布在用户设备与另一设备之间。此外，用户设备的显示器可以是透明的或不透明的。过程2000可应用于CGR环境(包括虚拟现实环境和混合现实环境)以及虚拟对象、物理对象，以及与虚拟对象和物理对象相对应的表示(示能表示)。尽管在图20中按特定顺序描绘了过程2000的框，但可按其他顺序执行这些框。此外，过程2000的一个或多个框可以被部分执行，被任选地执行，与另一个(些)框组合执行，和/或可以执行附加框。

在框2002处，设备在第一时间接收第一用户输入(例如，触敏表面上的接触、对按钮的按压或身体姿势)。在框2004处，响应于接收到第一用户输入，设备基于第一时间的注视位置而在第一位置处指定选择点，其中第一位置对应于第一时间的注视位置。在一些实施方案中，在第一用户输入之前(例如，最近测量或估计的位置)或在第一用户输入之后(例如，作为响应)确定(例如，测量或估计)第一时间的注视位置。

在一些实施方案中，焦点指示符被显示在注视位置。在一些实施方案中，焦点指示符包括指针、光标、点、球、突出显示、轮廓描边或(例如，指定的或所选择的对象的)伪影图像。在一些实施方案中，焦点指示符指定与注视位置处的对象相对应的选择点。在一些实施方案中，设备响应于第一用户输入而从用户输入脱离注视。

在一些实施方案中，对第一输入的响应是上下文相关的(例如，响应基于位于注视位置处的内容(例如，对象、多个无法解析的对象、菜单示能表示，或没有对象)或当前是否选择了对象)。例如，如果当前未选择对象，则设备以选择模式操作并执行选择动作(例如，显示多个对象用于选择)，而如果当前选择了对象，则设备以放置模式操作并执行放置动作(例如，在临时放置位置处显示所选择对象的伪影图像)。

在一些实施方案中，根据确定第一位置对应于多个可选对象，在第一位置处指定选择点。在一些实施方案中，多个对象是一组紧密间隔的对象，这些对象不能基于用户的注视而被解析。在一些实施方案中，多个对象是与注视位置处的对象(例如，菜单示能表示)相关联的菜单选项。例如，如果确定关于要选择的对象存在歧义或不确定性，则设备暂时指定选择点而不是确认对对象的选择。在一些此类实施方案中，响应于接收到第一用户输入，根据确定第一位置仅对应于单个可选对象，设备选择单个可选对象(例如，而不是在第一位置处指定选择点)。

在一些实施方案中，根据确定第一用户输入是第一类型的输入(例如，触敏表面上的触摸、对按钮的按压或身体姿势)，在第一位置处指定选择点。在一些此类实施方案中，响应于接收到第一用户输入并且根据确定第一用户输入是与第一类型的输入不同的第二类型的输入(例如，触敏表面上的点击(与触摸相反)、对不同按钮的按压或不同的身体姿势)，设备在第一位置处确认选择点。

在保持对选择点的指定时，设备执行框2006、2008、2010和2012的操作。在框2006处，设备接收第二用户输入(例如，在触敏表面上的接触的移动，或对方向按钮的按压)。在框2008处，响应于接收到第二用户输入，设备将选择点移动到与第一位置不同的第二位置，其中将选择点移动到第二位置不基于注视位置。例如，设备将焦点指示符移动到不同的对象、选择点或放置点。在一些实施方案中，仅基于第二输入的特征(例如，位置、方向、速度、持续时间等)移动选择点。在一些实施方案中，选择点的移动独立于(不基于)注视位置。在一些实施方案中，第二位置不同于和第二用户输入相关联的注视位置。

在一些实施方案中，在设备处于第一模式(例如，注视接合模式，其中对用户输入的响应基于用户的注视)时接收第一用户输入，并且根据设备处于第一模式而在第一位置处指定选择点。在一些此类实施方案中，响应于接收到第一用户输入，设备从第一模式切换至第二模式(例如，注视脱离模式，其中对用户输入的响应不基于用户的注视，使得注视脱离进一步输入)。在一些此类实施方案中，在设备处于第二模式时接收第二输入，并且根据设备处于第二模式中而将选择点移动到第二位置。

在框2010处，在选择点处于第二位置时，设备接收第三用户输入(例如，点击、双击或接触从触敏表面抬离)。在框2012处，响应于接收到第三用户输入，设备在第二位置处确认选择点。在一些实施方案中，设备在确认时重新接合输入与注视(例如，从注视脱离模式切换到注视接合模式)。在一些实施方案中，在设备处于第二模式(注视脱离模式)时接收第三输入，并且根据设备处于第二模式中而在第二位置确认选择点。

在一些实施方案中，确认选择点会选择与选择点的位置(例如，第二位置)相对应的对象。例如，响应于接收到第三用户输入，设备选择对应于第二位置的对象。

在一些实施方案中，确认选择点会将对象放置在选择点的位置。例如，在接收到第一用户输入之前，设备在与第二位置不同的第三位置处选择对象，并且响应于接收到第三用户输入，将对象放置在第二位置。在一些实施方案中，在接收到第一用户输入之前，设备在与第二位置不同的第三位置处选择对象，其中根据确定第一位置对应于多个可选放置位置，在第一位置处指定选择点(例如，如果关于要选择的位置存在歧义或不确定性，设备不确认放置位置)。在一些此类实施方案中，响应于接收到第一用户输入并且根据确定第一位置仅对应于单个可选放置位置，设备将对象放置在单个可选放置位置处(例如，如果只有一个选项，则设备绕过暂时指定放置位置)。

在一些实施方案中，第一用户输入与第二用户输入或第三用户输入是相同类型的输入。在一些实施方案中，使用对按钮的单次轻击或按压来指定点或对象，并且使用对同一按钮的另一单次轻击或按压来确认指定的点或对象。在一些实施方案中，设备基于设备正在操作的模式(例如，选择模式或放置模式)来决定要采取哪个动作。

现在转向图21，其示出了用于使用眼睛注视与电子设备进行交互的示例性过程2100的流程图。可使用用户设备(例如，100a，300、900或1900)来执行过程2100。用户设备例如是手持式移动设备、头戴式设备或平视设备。在一些实施方案中，使用两个或更多个电子设备来执行过程2100，诸如通信地耦接到另一设备(诸如基础设备)的用户设备。在这些实施方案中，过程2100的操作以任何方式分布在用户设备与另一设备之间。此外，用户设备的显示器可以是透明的或不透明的。过程2100可应用于CGR环境(包括虚拟现实环境和混合现实环境)以及虚拟对象、物理对象，以及与虚拟对象和物理对象相对应的表示(示能表示)。尽管在图21中按特定顺序描绘了过程2100的框，但可按其他顺序执行这些框。此外，过程2100的一个或多个框可以被部分执行，被任选地执行，与另一个(些)框组合执行，和/或可以执行附加框。

在框2102处，设备在第一时间接收第一用户输入。在框2104处，响应于接收到第一用户输入，设备基于注视位置指定多个对象中的第一对象(例如，多个对象的位置对应于第一时间的注视位置)。在一些实施方案中，焦点指示符指定第一对象。在一些实施方案中，多个对象被突出显示或放大，或者显示对应于注视位置处的菜单示能表示的菜单选项。

在一些实施方案中，根据确定第一时间的注视位置对应于在不止一个对象(例如，多个对象)处的注视，指定第一对象。例如，如果关于要选择的对象存在歧义或不确定性，则设备不确认选择。在一些此类实施方案中，响应于接收到第一用户输入并且根据确定在第一时间的注视位置对应于对仅单个可选对象的注视，设备选择单个可选对象。

在一些实施方案中，在设备处于第一模式(例如，注视接合模式，其中对用户输入的响应基于用户的注视)时接收第一用户输入，并且根据电子设备处于第一模式而指定第一对象。在一些此类实施方案中，响应于接收到第一用户输入，设备从第一模式切换至第二模式(例如，切换至注视脱离模式，其中对用户输入的响应不基于用户的注视，使得注视脱离进一步输入)。在一些此类实施方案中，在电子设备处于第二模式时接收第二输入，并且根据电子设备处于第二模式来指定第二对象。

在一些实施方案中，根据确定第一用户输入是第一类型的输入(例如，触敏表面上的触摸、对按钮的按压或身体姿势)，指定第一对象。在一些此类实施方案中，响应于接收到第一用户输入并且根据确定第一用户输入是与第一类型的输入不同的第二类型的输入(例如，触敏表面上的点击(与触摸相反)、对不同按钮的按压或不同的身体姿势)，设备选择多个对象。

在保持对第一对象的指定时，设备执行框2106和2108的操作。在框2106处，设备接收第二用户输入。在框2108处，响应于接收到第二用户输入，设备停止指定第一对象并且指定多个对象中的第二对象(例如，将焦点指示符移动到不同对象)，其中指定第二对象不基于注视位置。在一些实施方案中，仅基于第二用户输入的特征(例如，位置、方向、速度、持续时间等)来选择第二对象。在一些实施方案中，第二用户输入处于第二时间，并且第二对象在第二时间的位置不同于第二时间的注视位置。

在保持对第二对象的指定时，设备执行框2110和2112的操作。在框2110处，设备接收第三用户输入。在框2112处，响应于接收到第三用户输入，设备选择第二对象。

在一些实施方案中，在选择第二对象之后，设备在第二时间接收第四用户输入。响应于接收到第四用户输入并且根据确定第四用户输入是第一类型的输入，设备将第二对象放置在第二时间的注视位置。响应于接收到第四用户输入并且根据确定第四用户输入是与第一类型的输入不同的第二类型的输入，设备指定与第二时间的注视位置相对应的放置点。在一些此类实施方案中，在保持对放置位置的指定时，设备接收第五用户输入，并且响应于接收到第五用户输入，将第二对象放置在放置点的当前位置。

在一些实施方案中，第一用户输入与第二用户输入或第三用户输入是相同类型的输入。在一些实施方案中，使用对按钮的单次轻击或按压来指定第一对象，并且使用对同一按钮的另一单次轻击或按压来选择第二对象。

现在转向图22，其示出了用于使用眼睛注视与电子设备进行交互的示例性过程2200的流程图。可使用用户设备(例如，100a，300、900或1900)来执行过程2200。用户设备例如是手持式移动设备、头戴式设备或平视设备。在一些实施方案中，使用两个或更多个电子设备来执行过程2200，诸如通信地耦接到另一设备(诸如基础设备)的用户设备。在这些实施方案中，过程2200的操作以任何方式分布在用户设备与另一设备之间。此外，用户设备的显示器可以是透明的或不透明的。过程2200可应用于CGR环境(包括虚拟现实环境和混合现实环境)以及虚拟对象、物理对象，以及与虚拟对象和物理对象相对应的表示(示能表示)。尽管在图22中按特定顺序描绘了过程2200的框，但可按其他顺序执行这些框。此外，过程2200的一个或多个框可以被部分执行，被任选地执行，与另一个(些)框组合执行，和/或可以执行附加框。

在框2202处，设备选择对象(例如，如过程2100中所述)。在保持对对象的选择时，设备执行框2204、2206、2208、2210、2212和2214的操作。在框2204处，设备在第一时间接收第一用户输入。在框2206处，响应于接收到第一用户输入，设备基于第一时间的注视位置而在第一位置处指定放置点，其中第一位置对应于第一时间的注视位置。

在一些实施方案中，根据确定第一用户输入是第一类型的输入(例如，触敏表面上的触摸、对按钮的按压或身体姿势)，在第一位置处指定放置点。在一些此类实施方案中，响应于接收到第一用户输入并且根据确定第一用户输入是与第一类型的输入不同的第二类型的输入(例如，触敏表面上的点击(与触摸相反)、对不同按钮的按压或不同的身体姿势)，设备将所选择的对象放置在第一位置。

在一些实施方案中，根据确定第一位置对应于多个可选放置位置，在第一位置处指定放置点(例如，当关于要选择用于放置的位置存在歧义或不确定性时，设备不确认放置位置)。在一些此类实施方案中，响应于接收到第一用户输入并且根据确定第一位置仅对应于单个可选放置位置，设备将所选择的对象放置在单个可选放置位置。

在保持对放置点的指定时，设备执行框2208、2210、2212和2214的操作。在框2208处，设备接收第二用户输入。在框2210处，响应于接收到第二用户输入，设备将放置点移动到与第一位置不同的第二位置，其中将放置点移动到第二位置不基于注视位置(例如，进行第二用户输入时的注视位置)。在一些实施方案中，第二位置不同于和第二用户输入相关联的注视位置。

在一些实施方案中，在电子设备处于第一模式(例如，注视接合模式，其中对用户输入的响应基于注视位置)时接收第一用户输入，并且根据电子设备处于第一模式而在第一位置处指定放置点。在一些此类实施方案中，响应于接收到第一用户输入，设备从第一模式切换至第二模式(例如，切换至注视脱离模式，其中对用户输入的响应不基于用户的注视，使得注视响应于第一输入而脱离进一步输入)。在一些此类实施方案中，在电子设备处于第二模式时接收第二用户输入，并且根据电子设备处于第二模式中而将放置点移动到第二位置。

在框2212处，设备接收第三用户输入。在框2214处，响应于接收到第三用户输入，设备将所选择的对象放置在第二位置，并且任选地取消选择该对象。在一些实施方案中，第一用户输入与第二用户输入或第三用户输入是相同类型的输入。在一些实施方案中，使用对按钮的单次轻击或按压在第一位置处指定放置点，并且使用对同一按钮的另一单次轻击或按压将所选择的对象放置在第二位置。

用于执行上述过程2000、2100和/或2200的特征的可执行指令任选地包括在被配置为由一个或多个处理器(例如，处理器102)执行的暂态或非暂态计算机可读存储介质(例如，存储器106)或其他计算机程序产品中。过程2000中的一些操作任选地包括在过程2100和/或过程2200中(例如，框2004和/或框2008分别包括在框2104和/或框2108中)，过程2100中的一些操作任选地包括在过程2000和/或过程2200中(例如，框2202包括框2112)，并且过程2200中的一些操作任选地包括在过程2000和/或过程2100中(例如，框2112包括框2202)。此外，过程2000、2100和/或2200中的一些操作(例如，框2004、2008、2104、2108、2206和/或2210)任选地包括在过程1600、1700和/或1800中，并且过程1600、1700和/或1800中的一些操作(例如，框1604、1606、1704、1706、1804和/或1806)任选地包括在过程2000、2100和/或2200中。

如上所述，本发明技术的一个方面涉及使用关于用户注视的数据。在本发明技术中，注视信息可用于使用户受益。例如，用户的注视可用于推断用户对计算机生成的现实环境的特定部分的关注，并且允许用户与视场的该部分中的特定对象进行交互。然而，一些用户可能认为注视信息是敏感的或具有个人性质。

收集、使用、传输、存储或以其他方式影响由CGR***检测到的注视信息的实体应遵守公认的隐私政策和/或隐私实践。具体地，此类实体应实施并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。用户可以方便地访问此类策略，并应随着数据的采集和/或使用变化而更新。用户的注视信息应被采集用于实体的合法和合理使用，而不应在这些合法使用之外共享或销售。此外，在收到用户知情同意后，应进行此类采集/共享。此外，此类实体应考虑采取任何必要步骤，保护和保障对此类信息数据的访问，并确保有权访问注视信息数据的其他方(如果有的话)遵守其隐私政策和流程。另外，此类实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外，政策和实践应针对被采集和/或访问的特定类型的注视信息数据进行调整，并适于适用的法律和标准，包括特定司法管辖区的考虑因素。

本公开还设想了用户选择性地阻止使用或访问注视信息的实施方案。实现本发明技术的实体可决定是否能够提供特定特征，同时允许用户在注册服务期间或其后随时选择对参与使用注视信息的“选择加入”或“选择退出”。除了提供“选择加入”和“选择退出”选项外，本公开设想了提供与访问或使用注视信息相关的通知。例如，在下载应用程序时，可通知用户他们的个人注视数据将被访问。用户还可以透明地被告知为什么使用某些注视信息来提供某些特征。例如，在使用注视信息来确定用户正在观看的位置的虚拟现实***中，用户可被告知其注视信息正被用于确定***应当呈现虚拟环境的哪个视场，从而使得用户能够作出关于何时允许使用注视信息的明智决定。

尽管如此，本公开的目的是应管理和处理注视信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据，通过限制数据采集和删除数据可最小化风险。此外，并且当适用时，数据去标识能够被用于保护用户的隐私。在适当时，可通过移除特定标识符(例如，用户名、设备名称等)，控制所存储的数据的量或特异性(例如，收集用户在坐标***中查看的位置的数学坐标，但避免收集关于在坐标处正在查看的内容的信息)，控制如何存储数据(例如，在本地)和/或其他方法来促进去标识。

出于例示和描述的目的呈现了具体实施方案的前述描述。它们并非旨在穷举或将权利要求的范围限制于所公开的精确形式，并且应当理解，鉴于上述教导，许多修改和变型是可能的。

Claims

1.一种在与一个或多个输入设备通信的电子设备处实现的方法，所述方法包括：

经由所述一个或多个输入设备在第一时间接收第一用户输入；

响应于接收到所述第一用户输入，指定与在所述第一时间的注视位置相对应的多个对象中的第一对象；

在保持所述第一对象的指定时，经由所述一个或多个输入设备接收第二用户输入；

响应于接收到所述第二用户输入：

停止所述第一对象的指定；以及

指定所述多个对象中的第二对象，其中指定所述第二对象不基于所述注视位置；

在保持所述第二对象的指定时，经由所述一个或多个输入设备接收第三用户输入；

响应于接收到所述第三用户输入，选择所述第二对象；

在选择所述第二对象之后，经由所述一个或多个输入设备在第二时间接收第四用户输入；以及

响应于接收到所述第四用户输入：

根据确定所述第二时间的注视位置对应于多个可选放置位置，指定与在所述第二时间的所述注视位置相对应的放置点；以及

根据确定所述第二时间的注视位置对应于单个可选放置位置，将所述第二对象放置在所述第二时间的所述注视位置。

2.根据权利要求1所述的方法，其中根据确定在所述第一时间的所述注视位置对应于对多于一个可选对象的注视，指定所述第一对象，所述方法还包括：

响应于接收到所述第一用户输入：

根据确定在所述第一时间的所述注视位置对应于对仅单个可选对象的注视，选择所述单个可选对象。

3.根据权利要求1-2中任一项所述的方法，还包括：

在保持所述放置点的指定时，经由所述一个或多个输入设备接收第五用户输入；以及

响应于接收到所述第五用户输入，将所述第二对象放置在所述放置点的当前位置处。

4.根据权利要求1-2中任一项所述的方法，其中在所述电子设备处于第一模式时接收所述第一用户输入，并且其中根据所述电子设备处于所述第一模式来指定所述第一对象；所述方法还包括：

响应于接收到所述第一用户输入，将所述电子设备从所述第一模式切换至第二模式，其中在所述电子设备处于所述第二模式时接收所述第二用户输入，并且其中根据所述电子设备处于所述第二模式来指定所述第二对象。

5.根据权利要求1-2中任一项所述的方法，其中所述第一用户输入与所述第二用户输入或所述第三用户输入是相同类型的输入。

6.根据权利要求1-2中任一项所述的方法，其中所述第二用户输入处于第二时间，其中所述第二对象在所述第二时间的位置不同于在所述第二时间的注视位置。

7.一种电子设备，所述电子设备包括用于执行权利要求1-6中任一项所述的方法的装置。

8.一种计算机可读存储介质，所述计算机可读存储介质存储被配置为由电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行以下操作的指令：

在第一时间接收第一用户输入；

在保持所述第一对象的指定时，接收第二用户输入；

响应于接收到所述第二用户输入：

停止所述第一对象的指定；以及

在保持所述第二对象的指定时，接收第三用户输入；

响应于接收到所述第三用户输入，选择所述第二对象；

在选择所述第二对象之后，在第二时间接收第四用户输入；以及

响应于接收到所述第四用户输入：

9.根据权利要求8所述的计算机可读存储介质，其中根据确定在所述第一时间的所述注视位置对应于对多于一个可选对象的注视，指定所述第一对象，所述一个或多个程序还包括用于以下操作的指令：

响应于接收到所述第一用户输入：

10.根据权利要求8-9中任一项所述的计算机可读存储介质，所述一个或多个程序还包括用于执行以下操作的指令：

在保持所述放置点的指定时，接收第五用户输入；以及

11.根据权利要求8-9中任一项所述的计算机可读存储介质，其中在所述电子设备处于第一模式时接收所述第一用户输入，并且其中根据所述电子设备处于所述第一模式来指定所述第一对象；所述一个或多个程序还包括用于以下操作的指令：

12.根据权利要求8-9中任一项所述的计算机可读存储介质，其中所述第一用户输入与所述第二用户输入或所述第三用户输入是相同类型的输入。

13.根据权利要求8-9中任一项所述的计算机可读存储介质，其中所述第二用户输入处于第二时间，其中所述第二对象在所述第二时间的位置不同于在所述第二时间的注视位置。

14.一种电子设备，所述电子设备包括：

一个或多个处理器；和

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行以下操作的指令：

在第一时间接收第一用户输入；

在保持所述第一对象的指定时，接收第二用户输入；

响应于接收到所述第二用户输入：

停止所述第一对象的指定；以及

在保持所述第二对象的指定时，接收第三用户输入；

响应于接收到所述第三用户输入，选择所述第二对象；

响应于接收到所述第四用户输入：

15.根据权利要求14所述的电子设备，其中根据确定在所述第一时间的所述注视位置对应于对多于一个可选对象的注视，指定所述第一对象，所述一个或多个程序还包括用于以下操作的指令：

响应于接收到所述第一用户输入：

16.根据权利要求14-15中任一项所述的电子设备，所述一个或多个程序还包括用于以下操作的指令：

在保持所述放置点的指定时，接收第五用户输入；以及

17.根据权利要求14-15中任一项所述的电子设备，其中在所述电子设备处于第一模式时接收所述第一用户输入，并且其中根据所述电子设备处于所述第一模式来指定所述第一对象；所述一个或多个程序还包括用于以下操作的指令：

18.根据权利要求14-15中任一项所述的电子设备，其中所述第一用户输入与所述第二用户输入或所述第三用户输入是相同类型的输入。

19.根据权利要求14-15中任一项所述的电子设备，其中所述第二用户输入处于第二时间，其中所述第二对象在所述第二时间的位置不同于在所述第二时间的注视位置。