CN117178247A

CN117178247A - 用于动画化及控制虚拟和图形元素的手势

Info

Publication number: CN117178247A
Application number: CN202280029491.5A
Authority: CN
Inventors: 维多利亚·黄; 卡伦·施托尔岑贝格
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2021-04-19
Filing date: 2022-04-13
Publication date: 2023-12-05
Also published as: KR20230170086A; US20220334649A1; EP4327185A1; US20240061515A1; US11861070B2; WO2022225761A1

Abstract

描述了示例***、设备、介质和方法，用于响应于由利用其相机***捕获视频数据帧的眼戴设备检测到的手势而控制显示器上的一个或多个虚拟元素。图像处理***检测手，并且根据检测到的当前手位置在显示器上呈现菜单图标。图像处理***在所捕获的视频数据帧中检测一系列手形，并且确定检测到的手形是否与存储在手势库中的多个预定义手势中的任何一个匹配。响应于匹配，该方法包括根据匹配的手势执行动作。响应于打开手势，元素动画***呈现沿着远离菜单图标延伸的路径递增地移动的一个或多个图形元素。闭合手势引起元素沿着朝向菜单图标的路径后退。

Description

用于动画化及控制虚拟和图形元素的手势

相关申请的交叉引用

本申请要求于2021年4月19日提交的美国临时申请序列号63/176,644的优先权，其内容通过引用并入本文。

技术领域

本公开中阐述的示例涉及用于电子设备的显示控制领域，这些电子设备包括可穿戴设备，诸如眼戴器。更具体地，但不作为限制，本公开描述了用于与显示器上的虚拟元素交互的手势的实时跟踪。

背景技术

当今可用的许多类型的计算机和电子设备诸如移动设备(例如，智能电话、平板电脑和笔记本电脑)、手持式设备和可穿戴设备(例如，智能眼镜、数字眼戴器、头饰、头戴器和头戴式显示器)包括各种相机、传感器、无线收发器、输入***和显示器。

图形用户界面允许用户与所显示的内容交互，所显示的内容包括虚拟对象和图形元素，诸如图标、任务栏、列表框、菜单、按钮和选择控制元素，如光标、指针、手柄和滑块。

虚拟现实(VR)技术生成包括逼真图像的完整虚拟环境，这些逼真图像有时在VR头戴式耳机或其他头戴式显示器上呈现。VR体验允许用户在虚拟环境中移动并且与虚拟对象交互。增强现实(AR)是一种VR技术，它将物理环境中的现实对象与虚拟对象组合，并将该组合显示给用户。组合显示给出了虚拟对象真实地存在于环境中的印象，尤其是当虚拟对象看起来并且表现得像真实对象一样时。交叉现实(XR)通常被理解为是指包括或组合来自AR、VR和MR(混合现实)环境的元素的***的总括术语。

附图说明

从参考附图的以下详细描述中，将容易理解所描述的各种示例的特征。在说明书中和附图的几个视图中，每个元件使用了附图标记。当存在多个相似的元件时，可以给相似的元件指定单个附图标记，通过添加小写字母来指代特定的元件。

除非另外指出，否则附图中所示的各种元件并非按比例绘制的。为了清楚起见，可放大或缩小各个元件的尺寸。若干附图描绘了一个或多个实施方式，并且仅作为示例呈现，而不应被解释为限制。附图中包括以下附图：

图1A是适用于示例元素动画***的眼戴设备的示例硬件配置的侧视图(右)；

图1B是图1A的眼戴设备的右角部的局部横截面透视图，其描绘了右可见光相机和电路板；

图1C是图1A的眼戴设备的示例硬件配置的(左)侧视图，其示出了左可见光相机；

图1D是图1C的眼戴设备的左角部的局部横截面透视图，其描绘了左可见光相机和电路板；

图2A和图2B是在示例元素动画***中利用的眼戴设备的示例硬件配置的后视图；

图3是三维场景、由左可见光相机捕获的左原始图像和由右可见光相机捕获的右原始图像的图形描绘；

图4是包括经由各种网络连接的可穿戴设备(例如，眼戴设备)和服务器***的示例元素动画***的功能框图；

图5是适用于图4的示例元素动画***的移动设备的示例硬件配置的图形表示；

图6是在用于描述即时定位与地图构建的示例环境中的用户的示意性图示；

图7是用于与显示器上的示例菜单图标交互的与摇晃手势相关联的示例初步手形的透视图；

图8是用于在显示器上呈现一个或多个图形元素的与打开手势相关联的示例第一手形的透视图；

图9是用于从显示器移除一个或多个图形元素的与闭合手势相关联的示例第二手形的透视图；以及

图10是列出响应于检测到的与多个预定义手势之一相关联的手形而控制虚拟元素或图形元素在显示器上的呈现的示例方法中的步骤的流程图。

具体实施方式

参考用于使用手势在AR、VR、XR或其组合中呈现和控制图形元素和虚拟元素的示例来描述各种实现和细节。例如，放松的手摇晃明显可抓握的菜单图标，诸如球。主动手跟踪检测引起与打开手的手指的物理动作密切相关的打开事件的手的打开。闭合手引起闭合事件。

示例包括一种响应于利用眼戴设备检测到的手势而控制图形元素的方法。所述眼戴设备包括相机***、图像处理***和显示器，所述方法包括利用所述相机***捕获视频数据帧，并且利用所述图像处理***在所捕获的视频数据帧中检测手。所述方法还包括根据检测到的当前手位置在所述显示器上在当前图标位置处呈现菜单图标。所述方法包括在所捕获的视频数据帧中检测一系列手形，并且确定检测到的手形是否与存储在手势库中的多个预定义手势中的任何一个匹配。响应于匹配，所述方法包括根据匹配的手势执行动作。

例如，所述方法包括检测第一系列手形，并且然后利用所述图像处理***确定检测到的第一系列手形是否与所述多个预定义手势中的第一预定义手势(例如，打开手势)匹配。响应于匹配，所述方法包括在所述显示器上邻近所述当前图标位置呈现一个或多个图形元素。所述方法还包括检测第二系列手形，确定检测到的第二系列手形是否与第二预定义手势(例如，闭合手势)匹配，并且响应于匹配，从所述显示器移除所述一个或多个图形元素。

尽管本文参考用眼戴设备捕获静态图像来描述各种***和方法，但是所描述的技术可应用于从由其他设备捕获的视频数据帧的序列中选择和捕获静态图像。

以下详细描述包括说明本公开中阐述的示例的***、方法、技术、指令序列和计算机器程序产品。出于提供对所公开的主题及其相关教导内容的透彻理解的目的而包括许多细节和示例。然而，相关领域的技术人员能够理解如何在没有此类细节的情况下应用相关教导内容。所公开的主题的各方面不限于所描述的特定设备、***和方法，因为相关教导内容可以以各种方式来应用或实践。本文中所使用的术语和命名仅仅是为了描述特定方面并非旨在进行限制。通常，公知的指令实例、协议、结构和技术不一定被详细示出。

本文中所使用的术语“耦接”或“连接”指的是任何逻辑、光学、物理或电连接，包括链路等，由一个***元件产生或提供的电或磁信号通过这些连接传递到另一耦接或连接的***元件。除非另外描述，否则耦接或连接的元件或设备不一定直接彼此连接，并且可由中间组件、元件或通信介质隔开，中间部件、元件或通信介质中的一者或多者可修改、操纵或承载电信号。术语“上”是指由元件直接支撑或通过另一元件由元件间接支撑，该另一元件集成到元件中或由元件支撑。

术语“近侧”用于描述位于对象或人附近、左近或旁边的物品或物品的一部分；或相对于该物品的其他部分更近，其他部分可以被描述为“远侧”。例如，物品最靠近对象的端部可以被称为近侧端部，而大致相对的端部可以被称为远侧端部。

出于说明和讨论的目的，仅以示例的方式给出了任意附图所示的眼戴设备、其他移动设备、相关联部件和任何其他包含相机、惯性测量单元或两者的设备的定向。在操作中，眼戴设备可以在适合于眼戴设备的特定应用的任何其他方向上定向，例如，向上、向下、侧向或任何其他定向。此外，就本文所用的范围而言，任何方向性术语，诸如前、后、内、外、向、左、右、侧向、纵向、上、下、高、低、顶部、底部、侧面、水平、垂直和对角，仅以示例的方式使用，并且不限制如本文所构造或另外描述的任何相机或惯性测量单元的方向或定向。

高级AR技术，诸如计算机视觉和对象追踪，可用于产生在感知上丰富和沉浸的体验。计算机视觉算法从数字图像或视频中捕获的数据中提取关于物理世界的三维数据。对象识别和追踪算法用于检测数字图像或视频中的对象，估计其定向或姿态，并且追踪其随时间的移动。实时的手和手指识别与追踪是计算机视觉领域中最具挑战性和处理密集型的任务之一。

术语“姿态”是指对象在某一特定时刻的静态定位和定向。术语“手势”是指对象诸如手通过一系列姿态的主动移动，有时用于传达信号或想法。术语“姿态”和“手势”有时在计算机视觉和增强现实的领域中可互换地使用。如本文所用，术语“姿态”或“手势”(或它们的变型)旨在包括姿态和手势两者；换句话说，使用一个术语并不排除另一个术语。

术语“双手手势”意指并描述用两只手执行的手势。一只手可以相对静止，而另一只手正在移动。在一些双手手势中，双手看起来相对静止；手势发生在手指和两只手的表面之间的小移动中。尽管两只手可以相对相反地操作以执行双手手势，但是该术语包括由两只手一起串联操作而做出的手势。

示例的其他目的、优点和新颖特征将部分地在以下详细描述中阐述，并且部分地在本领域技术人员检查以下内容和附图后将变得显而易见，或可通过示例的产生或操作来了解。本主题的目的和优点可借助于所附权利要求书中特别指出的方法、手段和组合来实现和达成。

现在详细参考附图所示和下面所讨论的示例。

图1A是包括触敏输入设备或触摸板181的眼戴设备100的示例硬件配置的侧视图(右)。如图所示，触摸板181可具有细微且不易看到的边界；另选地，边界可清楚可见或包括向用户提供关于触摸板181的位置和边界的反馈的凸起或以其他方式可触知的边缘。在其他实施方式中，眼戴设备100可以包括在左侧的触摸板。

触摸板181的表面被配置为检测手指触摸、轻击和手势(例如，移动的触摸)，以便与眼戴设备在图像显示器上显示的GUI一起使用，从而允许用户以直观的方式浏览并选择菜单选项，这改善并简化了用户体验。

对触摸板181上的手指输入的检测可实现若干功能。例如，触摸触摸板181上的任何地方都可使GUI在图像显示器上显示或突出显示项目，该项目可被投影到光学组件180A、180B中的至少一者上。在触摸板181上双击可选择项目或图标。在特定方向上(例如，从前到后、从后到前、从上到下或从下到上)滑动或轻扫手指可使项目或图标在特定方向上滑动或滚动；例如，以移动到下一项目、图标、视频、图像、页面或幻灯片。在另一方向上滑动手指可以在相反方向上滑动或滚动；例如，以移动到前一项目、图标、视频、图像、页面或幻灯片。触摸板181实际上可以在眼戴设备100上的任何地方。

在一个示例中，在触摸板181上单击的所识别的手指手势发起对呈现在光学组件180A、180B的图像显示器上的图像中的图形用户界面元素的选择或按压。基于所识别的手指手势对呈现在光学组件180A、180B的图像显示器上的图像的调整可以是在光学组件180A、180B的图像显示器上选择或提交图形用户界面元素以用于进一步显示或执行的主要动作。

如图所示，眼戴设备100包括右可见光相机114B。如本文进一步描述，两个相机114A、114B从两个不同视点捕获场景的图像信息。两个所捕获的图像可用于将三维显示投影到图像显示器上以利用3D眼镜进行观看。

眼戴设备100包括右光学组件180B，其具有图像显示器以呈现图像，诸如深度图像。如图1A和图1B所示，眼戴设备100包括右可见光相机114B。眼戴设备100可以包括多个可见光相机114A、114B，其形成被动式三维相机，诸如立体相机，其中右可见光相机114B位于右角部110B。如图1C至图1D所示，眼戴设备100还包括左可见光相机114A。

左和右可见光相机114A、114B对可见光范围波长敏感。可见光相机114A、114B中的每一者具有不同的前向视场，这些视场重叠以使得能够生成三维深度图像，例如，右可见光相机114B描绘右视场111B。通常，“视场”是在空间中的部分场景，这一场景对特定定位处和定向上的相机来说是可见的。视场111A和111B具有重叠视场304(图3)。当可见光相机捕获图像时，视场111A、111B之外的对象或对象特征未被记录在原始图像(例如，照片或图片)中。视场描述了可见光相机114A、114B的图像传感器在给定场景的所捕获的图像中拾取给定场景的电磁辐射的角度范围或幅度。视场可以被表示为视锥的角度大小；即视角。视角可以水平、垂直或对角地测量。

在示例配置中，可见光相机114A、114B中的一者或两者具有100°的视场和480×480像素的分辨率。“覆盖角度”描述了可有效成像的可见光相机114A、114B或红外相机410(见图2A)的镜头的角度范围。。通常，相机镜头产生大到足以完全覆盖相机的胶片或传感器的成像圈，可能包括某种渐晕(例如，与中心相比，图像朝向边缘变暗)。如果相机镜头的覆盖角度未遍及传感器，则成像圈将是可见的，通常具有朝向边缘的强渐晕，并且有效视角将限于覆盖角度。

此类可见光相机114A、114B的示例包括高分辨率互补金属氧化物半导体(CMOS)图像传感器和能够具有480p(例如，640×480像素)、720p、1080p或更大的分辨率的数字VGA相机(视频图形阵列)。其他示例包括可见光相机114A、114B，其可以高帧速率(例如，每秒三十至六十帧或更多)记录高清晰度视频且以1216×1216像素(或更大)的分辨率存储该记录。

眼戴设备100可捕获来自可见光相机114A、114B的图像传感器数据以及由图像处理器数字化的地理定位数据，以存储在存储器中。可见光相机114A、114B在二维空间域中捕获相应的左原始图像和右原始图像，这些原始图像包括二维坐标系上的像素矩阵，该二维坐标系包括用于水平定位的X轴和用于垂直定位的Y轴。每个像素包括颜色属性值(例如，红色像素光值、绿色像素光值或蓝色像素光值)；和定位属性(例如，X轴坐标和Y轴坐标)。

为了捕获立体图像以用于稍后显示为三维投影，图像处理器412(在图4中示出)可耦接到可见光相机114A、114B以接收并存储视觉图像信息。图像处理器412或另一处理器控制可见光相机114A、114B的操作以充当模拟人类双眼视觉的立体相机，并且可将时间戳添加到每个图像。每对图像上的时间戳允许将图像一起显示为三维投影的一部分。三维投影产生沉浸式逼真体验，这在包括虚拟现实(VR)和视频游戏的各种场景中是期望的。

图1B是图1A的眼戴设备100的右角部110B的横截面透视图，其描绘了相机***的右可见光相机114B和电路板。图1C是图1A的眼戴设备100的示例硬件配置的侧视图(左)，其示出了相机***的左可见光相机114A。图1D是图1C的眼戴设备的左角部110A的横截面透视图，其描绘了三维相机的左可见光相机114A和电路板。

除了连接和耦接位于左侧面170A上之外，左可见光相机114A的结构和布置基本上类似于右可见光相机114B。如图1B的示例所示，眼戴设备100包括右可见光相机114B和电路板140B，该电路板可以是柔性印刷电路板(PCB)。右铰链126B将右角部110B连接到眼戴设备100的右镜腿125B。在一些示例中，右可见光相机114B、柔性PCB 140B或其他电连接器或触点等部件可位于右镜腿125B或右铰链126B上。左铰链126B将左角部110A连接到眼戴设备100的左镜腿125A。在一些示例中，左可见光相机114A、柔性PCB 140A或其他电连接器或触点等部件可位于左镜腿125A或左铰链126A上。

右角部110B包括角部体190和角部盖，图1B的横截面图中省略了该角部盖。设置在右角部110B内部的是各种互连的电路板，诸如PCB或柔性PCB，其包括用于右可见光相机114B、麦克风、低功率无线电路(例如，用于经由Bluetooth^TM的无线短距离网络通信)、高速无线电路(例如，用于经由Wi-Fi的无线局域网通信)的控制器电路。

右可见光相机114B耦接到或设置在柔性PCB 140B上且由可见光相机覆盖镜头覆盖，该镜头通过形成在框架105中的开口瞄准。例如，框架105的右边缘107B，如图2A所示，连接到右角部110B，并且包括用于可见光相机覆盖镜头的开口。框架105包括被配置为面向外且远离用户的眼睛的前侧。用于可见光相机覆盖镜头的开口形成在框架105的前向或外向侧面上并穿过该前向或外向侧面。在示例中，右可见光相机114B具有面向外的视场111B(在图3所示)，其视线或视角与眼戴设备100的用户的右眼相关。可见光相机覆盖镜头也可粘附到右角部110B的前侧或面向外的表面，其中开口形成有面向外的覆盖角度，但在不同的向外方向上。耦接也可经由居间部件间接实现。

如图1B所示，柔性PCB 140B设置在右角部110B内，并且耦接到容纳在右角部110B中的一个或多个其他部件。尽管示出为形成在右角部110B的电路板上，但是右可见光相机114B可形成在左角部110A、镜腿125A、125B或框架105的电路板上。

图2A和图2B是包括两种不同类型的图像显示器的眼戴设备100的示例硬件配置的透视图。眼戴设备100的尺寸和形状被设计成被配置为供用户佩戴的形式；在该示例中为眼镜的形式。眼戴设备100可采取其他形式并且可结合其他类型的框架，例如，头戴器、头戴式耳机或头盔。

在眼镜的示例中，眼戴设备100包括框架105，其包括经由适于由用户的鼻部支撑的鼻梁架106连接到右边缘107B的左边缘107A。左和右边缘107A、107B包括相应的孔口175A、175B，这些孔口保持相应的光学元件180A、180B，诸如镜头和显示设备。如本文所用，术语“镜头”旨在包括透明或半透明玻璃或塑料片，其具有弯曲或平坦表面，使光会聚或发散或几乎或完全不引起会聚或发散。

虽然被示出为具有两个光学元件180A、180B，但是眼戴设备100可以包括其他布置，诸如单个光学元件(或其可不包括任何光学元件180A、180B)，这取决于眼戴设备100的应用或预期用户。如图进一步所示，眼戴设备100包括与框架105的左侧面170A相邻的左角部110A以及与框架105的右侧面170B相邻的右角部110B。角部110A、110B可集成到框架105相应的侧面170A、170B上(如图所示)或实施为附接到框架105相应的侧面170A、170B上的单独部件。另选地，角部110A、110B可集成到附接到框架105的镜腿(未示出)中。

在一个示例中，光学组件180A、180B的图像显示器包括集成的图像显示器。如图2A所示，每个光学组件180A、180B包括合适的显示矩阵177，诸如液晶显示器(LCD)、有机发光二极管(OLED)显示器或任何其他此类显示器。每个光学组件180A、180B还包括一个或多个光学层176，其可以包括镜头、光学涂层、棱镜、反射镜、波导、光学条带和其他光学部件及任何组合。光学层176A、176B、…、176N(在图2A和本文中示出为176A-N)可以包括棱镜，该棱镜具有合适的尺寸和构造并包括用于接收来自显示矩阵的光的第一表面和用于向用户的眼睛发射光的第二表面。光学层176A-N的棱镜在整个或部分相应孔口175A、175B上延伸，该孔口形成在左和右边缘107A、107B以在用户的眼睛透过对应的左和右边缘107A、107B观看时允许用户看到棱镜的第二表面。光学层176A-N的棱镜的第一表面从框架105面向上，并且显示矩阵177覆盖在棱镜上，使得由显示矩阵177发射的光子和光照射在第一表面上。棱镜的尺寸和形状被设计成使得光在棱镜内被折射并且被光学层176A-N的棱镜的第二表面导向用户的眼睛。在这一点而言，光学层176A-N的棱镜的第二表面可以是凸形的以将光导向眼睛的中心。棱镜可选择性的被设计尺寸和形状以放大由显示矩阵177投影的图像，并且光行进穿过棱镜，使得从第二表面观察的图像在一个或多个维度上大于从显示矩阵177发射的图像。

在一个示例中，光学层176A-N可以包括透明的LCD层(保持镜头打开)，除非且直到施加使该层不透明(关闭或遮挡镜头)的电压。眼戴设备100上的图像处理器412可执行程序以将电压施加到LCD层，以便产生主动式快门***，从而使得眼戴设备100适于观看被显示为三维投影的视觉内容。除了LCD之外的技术可用于主动式快门模式，包括响应于电压或另一类型的输入的其他类型的反应层。

在另一示例中，光学组件180A、180B的图像显示设备包括如图2B所示的投影图像显示器。每个光学组件180A、180B包括激光投影仪150，其是使用扫描镜或检流计的三色激光投影仪。在操作期间，光源诸如激光投影仪150被设置在眼戴设备100的镜腿125A、125B中的一个之中或之上。在该示例中，光学组件180B包括一个或多个光学条带155A、155B、…155N(在图2B中示出为155A-N)，其在每个光学组件180A、180B的镜头的宽度上，或在镜头的前表面和后表面之间的镜头的深度上间隔开。

当由激光投影仪150投射的光子行进穿过每个光学组件180A、180B的镜头时，光子遇到光学条带155A-N。当特定光子遇到特定光学条带时，光子要么被重定向到朝向用户的眼睛，要么传递到下一光学条带。激光投影仪150的调制和光学条带的调制的组合可控制特定的光子或光束。在示例中，处理器通过发出机械、声学或电磁信号来控制光学条带155A-N。虽然被示出为具有两个光学组件180A、180B，但是眼戴设备100可以包括其他布置，诸如单个或三个光学组件，或每个光学组件180A、180B可被布置有不同的布置，这取决于眼戴设备100的应用或预期用户。

如图2A和图2B进一步所示，眼戴设备100包括与框架105的左侧面170A相邻的左角部110A以及与框架105的右侧面170B相邻的右角部110B。角部110A、110B可集成到框架105相应的侧面170A、170B上(如图所示)或实施为附接到框架105相应的侧面170A、170B上的单独部件。另选地，角部110A、110B可集成到附接到框架105的镜腿125A、125B中。

在另一示例中，图2B中示出的眼戴设备100可以包括两个投影仪，左投影仪(未示出)和右投影仪(被示出为投影仪150)。左光学组件180A可以包括左显示矩阵177A(未示出)或左光学条带155'A、155'B、…、155'N(155'A-155'N，未示出)，其被配置为与来自左投影仪150的光交互。类似地，右光学组件180B可以包括右显示矩阵177B(未示出)或右光学条155”A、155”B、…、155”N(155”A-155”N，未示出)，其被配置为与来自右投影仪的光交互。在该示例中，眼戴设备100包括左显示器和右显示器。

图3是三维场景306、由左可见光相机114A捕获的左原始图像302A和由右可见光相机114B捕获的右原始图像302B的图形描绘。如图所示，左视场111A可与右视场111B重叠。重叠视场304表示图像中由两个相机114A、114B捕获的部分。术语“重叠”在涉及视场时意味着所生成的原始图像中的像素矩阵重叠百分之三十(30％)或更多。“基本上重叠”意味着所生成的原始图像中的像素矩阵或场景的红外图像中的像素矩阵重叠百分之五十(50％)或更多。如本文所述，两个原始图像302A、302B可被处理为包括时间戳，该时间戳允许将图像一起显示为三维投影的一部分。

为了捕获立体图像，如图3所示，在给定时刻捕获真实场景306的一对原始红绿蓝(RGB)图像：由左相机114A捕获的左原始图像302A和由右相机114B捕获的右原始图像302B。当(例如，由图像处理器412)处理该对原始图像302A、302B时，生成深度图像。所生成的深度图像可在眼戴设备的光学组件180A、180B上、在另一显示器(例如，移动设备401上的图像显示器580)上、或在屏幕上被查看。

所生成的深度图像在三维空间域中，并且可以包括三维位置坐标系上的顶点矩阵，该三维位置坐标系包括用于水平定位(例如，长度)的X轴、用于垂直定位(例如，高度)的Y轴和用于深度(例如，距离)的Z轴。每个顶点可以包括颜色属性(例如，红色像素光值、绿色像素光值或蓝色像素光值)；定位属性(例如，X位置坐标、Y位置坐标和Z位置坐标)；纹理属性；反射率属性；或它们的组合。纹理属性量化深度图像的感知纹理，诸如深度图像的顶点区域中的颜色或强度的空间布置。

在一个示例中，元素动画***400(图4)包括眼戴设备100，其包括框架105、从框架105的左侧面170A延伸的左镜腿125A，以及从框架105的右侧面170B延伸的右镜腿125B。眼戴设备100还可以包括具有重叠的视场的至少两个可见光相机114A、114B。在一个示例中，眼戴设备100包括具有左视场111A的左可见光相机114A，如图3所示。左相机114A连接到框架105或左镜腿125A以从场景306的左侧捕获左原始图像302A。眼戴设备100还包括具有右视场111B的右可见光相机114B。右相机114B连接到框架105或右镜腿125B以从场景306的右侧捕获右原始图像302B。

图4是示例元素动画***400的功能框图，该***包括经由各种网络495诸如因特网连接的可穿戴设备(例如，眼戴设备100)、移动设备401和服务器***498。如图所示，元素动画***400包括眼戴设备100与移动设备401之间的低功率无线连接425和高速无线连接437。

如图4所示，如本文所述，眼戴设备100包括一个或多个可见光相机114A、114B，它们捕获静态图像、视频图像或静态图像和视频图像两者。相机114A、114B可具有对高速电路430的直接存储器访问(DMA)并且用作立体相机。相机114A、114B可用于捕获初始深度图像，这些初始深度图像可被渲染成三维(3D)模型，这些三维模型是红绿蓝(RGB)成像场景的纹理映射图像。设备100还可以包括深度传感器213，其使用红外信号来估计对象相对于设备100的定位。在一些示例中，深度传感器213包括一个或多个红外发射器215和红外相机410。

眼戴设备100还包括每个光学组件180A、180B的两个图像显示器(一个与左侧面170A相关联，一个与右侧面170B相关联)。眼戴设备100还包括图像显示驱动器442、图像处理器412、低功率电路420和高速电路430。每个光学组件180A、180B的图像显示器用于呈现图像，包括静态图像、视频图像或静态图像和视频图像两者。图像显示驱动器442耦接到每个光学组件180A、180B的图像显示器，以便控制图像的显示。

眼戴设备100还包括一个或多个扬声器(例如，一个与眼戴设备的左侧相关联，另一个与眼戴设备的右侧相关联)。扬声器可并入到眼戴设备100的框架105、镜腿125或角部110中。一个或多个扬声器由音频处理器在低功率电路420、高速电路430或两者的控制下驱动。扬声器用于呈现音频信号，包括例如节拍音轨。音频处理器耦接到扬声器以便控制声音的呈现。

图4所示的用于眼戴设备100的部件位于一个或多个电路板上，例如，位于边缘或镜腿中的印刷电路板(PCB)或柔性印刷电路(FPC)。另选地或附加地，所描绘的部件可位于眼戴设备100的角部、框架、铰链或鼻梁架中。左和右可见光相机114A、114B可以包括数字相机元件，诸如互补金属氧化物半导体(CMOS)图像传感器、电荷耦接器件、镜头、或可用于捕获数据的任何其他相应的可见或光捕获元件，该数据包括具有未知对象的场景的静态图像或视频。

如图4所示，高速电路430包括高速处理器432、存储器434和高速无线电路436。在该示例中，图像显示驱动器442耦接到高速电路430并且由高速处理器432操作，以便驱动每个光学组件180A、180B的左和右图像显示器。高速处理器432可以是能够管理眼戴设备100所需的任何通用计算***的高速通信和操作的任何处理器。高速处理器432包括使用高速无线电路436来管理到无线局域网(WLAN)的高速无线连接437上的高速数据传输所需的处理资源。

在一些示例中，高速处理器432执行操作***，诸如LINUX操作***或眼戴设备100的其他此类操作***，并且操作***被存储在存储器434中以供执行。除了任何其他职责之外，执行眼戴设备100的软件架构的高速处理器432还用于管理利用高速无线电路436的数据传输。在一些示例中，高速无线电路436被配置为实施电气和电子工程师协会(IEEE)802.11通信标准，本文中也称为Wi-Fi。在其他示例中，高速无线电路436可实施其他高速通信标准。

低功率电路420包括低功率处理器422和低功率无线电路424。眼戴设备100的低功率无线电路424和高速无线电路436可以包括短距离收发器(Bluetooth^TM或蓝牙低功耗(BLE))和无线广域网、局域网或广域网收发器(例如，蜂窝或Wi-Fi)。移动设备401，包括经由低功率无线连接425和高速无线连接437通信的收发器，可像网络495的其他元件一样，使用眼戴设备100的架构的细节来实施。

存储器434包括能够存储各种数据和应用的任何存储设备，所述数据包括由左和右可见光相机114A、114B、红外相机410、图像处理器412生成的相机数据、以及由图像显示驱动器442生成以在每个光学组件180A、180B的图像显示器上显示的图像。虽然存储器434被示出为与高速电路430集成，但在其他示例中，存储器434可以是眼戴设备100的单独的独立元件。在某些此类示例中，电气布线线路可通过包括高速处理器432的芯片提供从图像处理器412或低功率处理器422到存储器434的连接。在其他示例中，高速处理器432可管理存储器434的寻址，使得低功率处理器422将在需要涉及存储器434的读或写操作的任何时间启动高速处理器432。

如图4所示，眼戴设备100的高速处理器432可耦接到相机***(可见光相机114A、114B)、图像显示驱动器442、用户输入设备491和存储器434。如图5所示，移动设备401的CPU540可耦接到相机***570、移动显示器驱动器582、用户输入层591和存储器540A。

服务器***498可以是作为服务或网络计算***的一部分的一个或多个计算设备，例如包括处理器、存储器和网络通信接口以通过网络495在移动设备401与眼戴设备100之间通信。

眼戴设备100的输出部件包括视觉元件，诸如与每个镜头或光学组件180A、180B相关联的左和右图像显示器，如图2A和图2B所述(例如，显示器，诸如液晶显示器(LCD)、等离子体显示面板(PDP)、发光二极管(LED)显示器、投影仪或波导)。眼戴设备100可以包括面向用户的指示器(例如，LED、扬声器或振动致动器)，或面向外的信号(例如，LED、扬声器)。每个光学组件180A、180B的图像显示器由图像显示驱动器442驱动。在一些示例配置中，眼戴设备100的输出部件进一步包括附加指示器，诸如可听元件(例如，扬声器)、触觉部件(例如，致动器，诸如用于生成触觉反馈的振动马达)和其他信号生成器。例如，设备100可以包括面向用户的指示器组和面向外的信号组。面向用户的指示器组被配置为由设备100的用户看到或以其他方式感知到。例如，设备100可以包括被定位成使得用户可以看见它的LED显示器、被定位成生成用户可以听到的声音的一个或多个扬声器、或提供用户可以感觉到的触觉反馈的致动器。面向外的信号组被配置为由设备100附近的观察者看到或以其他方式感知到。类似地，设备100可以包括被配置和定位成由观察者感知到的LED、扬声器或致动器。

眼戴设备100的输入部件可以包括字母数字输入部件(例如，被配置为接收字母数字输入的触摸屏或触摸板、摄影光学键盘或其他字母数字配置的元件)、基于点的输部件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指点仪器)、触觉输入部件(例如，按钮开关、感测触摸或触摸手势的位置、力或位置和力的触摸屏或触摸板，或其他触觉配置的元件)和音频输入部件(例如，麦克风)等。移动设备401和服务器***498可以包括字母数字、基于点、触觉、音频和其他输入部件。

在一些示例中，眼戴设备100包括被称为惯性测量单元472的运动感测部件的集合。运动感测部件可以是具有微观移动部件的微机电***(MEMS)，这些微观移动部件通常足够小以成为微芯片的一部分。在一些示例配置中，惯性测量单元(IMU)472包括加速度计、陀螺仪和磁力计。加速度计可感测设备100相对于三个正交轴(x、y、z)的线性加速度(包括由于重力而引起的加速度)。陀螺仪可感测设备100绕三个旋转轴(俯仰、滚转、偏航)的角速度。加速度计和陀螺仪可一起提供关于设备相对于六个轴(x、y、z、俯仰、滚转、偏航)的定位、定向和运动数据。如果存在磁力计，则磁力计可感测设备100相对于磁北极的航向。设备100的定位可以由位置传感器诸如GPS单元、用于生成相对定位坐标的一个或多个收发器、高度传感器或气压计和其他定向传感器来确定。还可经由低功率无线电路424或高速无线电路436从移动设备401通过无线连接425和437接收此类定位***坐标。

IMU 472可以包括数字运动处理器或程序，或与数字运动处理器或程序协作，该数字运动处理器或程序从部件采集原始数据，并且计算关于设备100的定位、定向和运动的多个有用值。例如，从加速度计采集的加速度数据可被积分以获得相对于每个轴(x、y、z)的速度；并再次被积分以获得设备100的定位(以线性坐标x、y和z表示)。来自陀螺仪的角速度数据可被积分以获得设备100的定位(以球面坐标表示)。用于计算这些有效值的程序可存储在存储器434中并且由眼戴设备100的高速处理器432执行。

眼戴设备100可以可选地包括附加的***传感器，诸如与眼戴设备100集成的生物计量传感器、特性传感器或显示元件。例如，***设备元件可以包括任何I/O部件，包括输出部件、运动部件、定位部件或本文所述的任何其他此类元件。例如，生物计量传感器可以包括检测表情(例如，手势、面部表情、声音表达、身体姿势或眼睛追踪)、测量生物信号(例如，血压、心率、体温、出汗或脑电波)或识别人(例如，基于语音、视网膜、面部特征、指纹或电生物信号诸如脑电图数据的识别)等的部件。

移动设备401可以是智能电话、平板电脑、笔记本计算机、接入点或能够使用低功率无线连接425和高速无线连接437两者与眼戴设备100连接的任何其他此类设备。移动设备401连接到服务器***498和网络495。网络495可以包括有线和无线连接的任何组合。

元素动画***400，如图4所示，包括通过网络耦接到眼戴设备100的计算设备，诸如移动设备401。元素动画***400包括用于存储指令的存储器和用于执行指令的处理器。由处理器432执行元素动画***400的指令将眼戴设备100配置为与移动设备401协作。元素动画***400可利用眼戴设备100的存储器434或移动设备401的存储器元件540A、540B、540C(图5)。此外，元素动画***400可利用眼戴设备100的处理器元件432、422或移动设备401的中央处理单元(CPU)540(图5)。另外，元素动画***400可进一步利用服务器***498的存储器和处理器元件。在该方面，元素动画***400的存储器和处理功能可以跨眼戴设备100、移动设备401和服务器***498的处理器和存储器共享或分布。

在一些示例实施方式中，存储器434包括或耦接到手势库480，如本文描述。在一些实施方式中，检测手形的过程涉及将一个或多个所捕获的视频数据帧中的像素级数据与存储在库480中的手势进行比较，直到找到良好匹配。

在一些示例实施方式中，存储器434还包括元素动画应用910、定位***915和图像处理***920。在其中相机正在捕获视频数据帧900的元素动画***400中，元素动画应用910配置处理器432以响应于检测到一个或多个手形或手势来控制一系列虚拟项700在显示器上的移动。定位***915将处理器432配置为获得定位数据，以用于确定眼戴设备100相对于物理环境的位置。该定位数据可以从一系列图像、IMU单元472、GPS单元或它们的组合中导出。图像处理***920将处理器432配置为与图像显示驱动器442和图像处理器412协作在光学组件180A、180B的显示器上呈现所捕获的静态图像。

图5是示例移动设备401的大致功能框图。移动设备401包括闪存存储器540A，其存储要由CPU 540执行以执行本文所述的所有功能或功能子集的程序。

移动设备401可以包括相机570，其包括至少两个可见光相机(具有重叠的视场的第一和第二可见光相机)或具有基本上重叠的视场的至少一个可见光相机和深度传感器。闪存存储器540A还可以包括经由相机570生成的多个图像或视频。

如图所示，移动设备401包括图像显示器580、控制图像显示器580的移动显示驱动器582和显示控制器584。在图5的示例中，图像显示器580包括用户输入层591(例如，触摸屏)，其层叠在由图像显示器580使用的屏幕的顶部上或以其他方式集成到该屏幕中。

可使用的触摸屏式的移动设备的示例包括(但不限于)智能电话、个人数字助理(PDA)、平板计算机、笔记本计算机或其他便携式设备。然而，触摸屏式的设备的结构和操作是以示例的方式提供的；如本文所述的主题技术并不旨在局限于此。出于本讨论的目的，图出于该讨论的目的，图5因此提供了具有用户界面的示例移动设备401的框图图示，该用户界面包括用于接收输入(通过手、触笔或其他工具的触摸、多点触摸或手势等)的触摸屏输入层891和用于显示内容的图像显示器580。

如图5所示，移动设备401包括用于经由广域无线移动通信网络进行数字无线通信的至少一个数字收发器(XCVR)510，示出为WWAN XCVR。移动设备401还包括附加的数字或模拟收发器，诸如用于诸如经由NFC、VLC、DECT、ZigBee、Bluetooth^TM或Wi-Fi进行短距离网络通信的短距离收发器(XCVR)520。例如，短距离XCVR 520可用任何可用双向无线局域网(WLAN)收发器的形式，该类型与在无线局域网中实施的一个或多个标准通信协议诸如符合IEEE 802.11的Wi-Fi标准中的一者兼容。

为了生成用于定位移动设备401的位置坐标，移动设备401可以包括全球定位***(GPS)接收器。另选地或附加地，移动设备401可利用短距离XCVR 520和WWAN XCVR 510中的任一者或两者来生成用于定位的位置坐标。例如，基于蜂窝网络、Wi-Fi或Bluetooth^TM的定位***可生成非常准确的位置坐标，尤其是当它们组合使用时。此类位置坐标可经由XCVR510、520通过一个或多个网络连接传输到眼戴设备。

在一些示例中，客户端设备401包括称为惯性测量单元(IMU)572的运动感测部件的集合，用于感测客户端设备401的定位、定向和运动。运动感测部件可以是具有微观移动部件的微机电***(MEMS)，这些微观移动部件通常足够小以成为微芯片的一部分。在一些示例配置中，惯性测量单元(IMU)572包括加速度计、陀螺仪和磁力计。加速度计感测客户端设备401相对于三个正交轴(x、y、z)的线性加速度(包括由于重力而引起的加速度)。陀螺仪感测客户端设备401绕三个旋转轴(俯仰、滚转、偏航)的角速度。加速度计和陀螺仪可一起提供关于设备相对于六个轴(x、y、z、俯仰、滚转、偏航)的定位、定向和运动数据。如果存在磁力计，则磁力计感测客户端设备401相对于磁北极的航向。

IMU 572可以包括数字运动处理器或程序，或与数字运动处理器或程序协作，该数字运动处理器或程序从部件采集原始数据，并且计算关于客户端设备401的定位、定向和运动的多个有用值。例如，从加速度计采集的加速度数据可被积分以获得相对于每个轴(x、y、z)的速度；并再次被积分以获得客户端设备401的定位(以线性坐标x、y和z表示)。来自陀螺仪的角速度数据可被积分以获得客户端设备401的定位(以球面坐标表示)。用于计算这些有用值的程序可存储在一个或多个存储器元件540A、540B、540C中，并由客户端设备401的CPU 540执行。

收发器510、520(即，网络通信接口)符合现代移动网络所利用的各种数字无线通信标准中的一个或多个标准。WWAN收发器510的示例包括(但不限于)被配置为根据码分多址(CDMA)和第3代合作伙伴计划(3GPP)网络技术操作的收发器，所述技术包括例如但不限于3GPP类型2(或3GPP2)和LTE，有时被称为“4G”。例如，收发器510、520提供信息的双向无线通信，所述信息包括数字化音频信号、静态图像和视频信号、用于显示的网页信息以及web相关输入，以及去往/来自移动设备401的各种类型的移动消息通信。

移动设备401进一步包括用作中央处理单元(CPU)的微处理器；如图5中的CPU 540所示。处理器是一种电路，其具有的元件被构造并布置成执行一个或多个处理功能，通常是各种数据处理功能。尽管可使用分立的逻辑部件，但是这些示例利用形成可编程CPU的部件。微处理器例如包括一个或多个集成电路(IC)芯片，其结合了执行CPU的功能的电子元件。例如，CPU 540可基于任何已知或可用的微处理器架构，诸如使用ARM架构的精简指令集计算(RISC)，正如现今在移动设备和其他便携式电子设备中通常使用的。当然，处理器电路的其他布置可用于形成智能电话、笔记本电脑和平板电脑中的CPU 540或处理器硬件。

通过将移动设备401配置为例如根据CPU 540可执行的指令或程序来执行各种操作，CPU 540用作移动设备401的可编程主机控制器。例如，此类操作可以包括移动设备的各种一般操作，以及与用于移动设备上的应用的程序相关的操作。尽管处理器可使用硬连线逻辑来配置，但是移动设备中的典型处理器是通过执行程序来配置的通用处理电路。

移动设备401包括用于存储程序和数据的存储器或存储***。在示例中，存储器***可根据需要包括闪存存储器540A、随机存取存储器(RAM)540B和其他存储器部件540C。RAM 540B用作由CPU 540处理的指令和数据的短期存储装置，例如，用作工作数据处理存储器。闪存存储器540A通常提供长期存储。

因此，在移动设备401的示例中，闪存存储器540A用于存储由CPU 540执行的程序或指令。根据设备的类型，移动设备401存储并运行移动操作***，特定应用通过该移动操作***执行。移动操作***的示例包括Google Android、Apple iOS(用于iPhone或iPad设备)、Windows Mobile、Amazon Fire OS、RIM BlackBerry OS等。

眼戴设备100内的处理器432可构建眼戴设备100周围的环境的地图，确定眼戴设备在映射的环境内的位置，并且确定眼戴设备相对于映射的环境中的一个或多个对象的相对定位。处理器432可构建地图，并且使用应用于从一个或多个传感器接收的数据的即时定位与地图构建(SLAM)算法来确定位置和定位信息。传感器数据包括从相机114A、114B中的一者或两者接收的图像、从激光测距仪接收的距离、从GPS单元接收的位置信息、从IMU572接收的运动和加速度数据、或来自此类传感器或来自提供用于确定位置信息的数据的其他传感器的数据的组合。在增强现实的上下文中，SLAM算法用于构建并更新环境的地图，同时追踪并更新设备(或用户)在映射的环境中的位置。数学解可使用各种统计方法来近似，诸如粒子滤波器、卡尔曼滤波器、扩展卡尔曼滤波器和协方差交集。在包括以高帧速率(例如，每秒三十个帧)捕获视频的高清晰度(HD)摄像机的***中，SLAM算法至少与帧速率一样频繁地更新地图和对象的位置；换言之，每秒三十次地计算和更新映射和定位。

传感器数据包括从相机114A、114B中的一者或两者接收的图像、从激光测距仪接收的距离、从GPS单元接收的位置信息、从IMU 472接收的运动和加速度数据、或来自此类传感器或来自提供用于确定位置信息的数据的其他传感器的数据的组合。

图6描绘了示例物理环境600以及在使用SLAM应用程序和其他类型的追踪应用程序(例如，自然特征追踪(NFT))时有用的元件。眼戴设备100的用户602存在于示例物理环境600(在图6中为内部房间)中。眼戴设备100的处理器432使用所捕获的图像来确定其相对于环境600内的一个或多个对象604的位置，使用环境600的坐标系(x,y,z)来构建环境600的地图，并且确定其在坐标系内的定位。另外，处理器432通过使用与单个对象604a相关联的两个或更多个位置点(例如，三个位置点606a、606b和606c)或通过使用与两个或更多个对象604a、604b、604c相关联的一个或多个位置点606来确定眼戴设备100在环境内的头部姿态(滚转、俯仰和偏航)。眼戴设备100的处理器432可将虚拟对象608(诸如图6中所示的钥匙)在环境600内定位，以便在增强现实体验期间进行观看。

在一些示例中，定位***915包括与环境600中的虚拟对象608相关联的虚拟标记610a。在增强现实中，标记被注册在环境中的位置处，以辅助设备完成追踪和更新用户、设备和对象(虚拟的和物理的)在映射的环境中的位置的任务。有时将标记与高对比度物理对象诸如安装在较浅色的墙壁上的相对较暗的对象诸如框架图像604a配准，以帮助相机和其他传感器进行检测标记的任务。标记可以是预先指定的，或可以由眼戴设备100在进入环境时指定。

标记可以用信息编码或以其他方式与信息链接。标记可以包括定位信息、物理代码(诸如条形码或QR码；对用户可见或隐藏)或它们的组合。与标记相关联的一组数据被存储在眼戴设备100的存储器434中。该组数据包括关于标记610a、标记的定位(位置和定向)、一个或多个虚拟对象或它们的组合的信息。标记定位可以包括一个或多个标记标志616a的三维坐标，诸如图6所示的大致矩形的标记610a的角部。标记定位可以相对于真实世界地理坐标、标记坐标系、眼戴设备100的定位或其他坐标系来表示。与标记610a相关联的该一个或多个虚拟对象可以包括各种材料中的任何材料，包括静态图像、视频、音频、触觉反馈、可执行应用、交互式用户界面和体验、以及此类材料的组合或序列。在该上下文中，能够被存储在存储器中并且在遇到标记610a时被检索或与所指定的标记相关联的任何类型的内容都可以被分类为虚拟对象。例如，图6所示的钥匙608是在标记位置处显示为2D或3D静态图像的虚拟对象。

在一个示例中，标记610a可在存储器中注册为位于物理对象604a(例如，图6所示的带框架艺术品)附近并与其相关联。在另一示例中，标记可在存储器中注册为相对于眼戴设备100的特定定位。

图10是描绘控制虚拟元素或图形元素在眼戴设备100的显示器180B上的呈现的示例方法的流程图1000。尽管如本文所述，参考眼戴设备100描述了这些步骤，但是本领域技术人员根据本文的描述将理解所描述的步骤针对其他类型的设备的其他实施方式。所示和所述的一个或多个步骤可以同时、连续地、以所示和所述之外的顺序、或结合附加步骤来执行。一些步骤可省略，或在一些应用中可重复。

图10中的框1002描述利用眼戴设备100的相机***114捕获视频数据帧900的示例步骤。在一些实施方式中，相机***114包括如本文所述的用于捕获静止图像或视频数据帧900的一个或多个相机114A、114B。在该示例中，眼戴设备100包括图像处理***920、定位***915和一个或多个显示器180A、180B。例如，如图7所示，眼戴设备100包括半透明图像显示器180B，如本文所述，该半透明图像显示器可以包括半透明镜头层和显示矩阵层，该显示矩阵层被配置为在眼戴设备的镜头上呈现图像。图形和虚拟元素700、705、710(参见图8)被呈现为相对于物理环境600的叠层。如图所示，该效果允许观看者看到所呈现的元素700并与其交互，同时周围环境600也通过显示器180B保持可见。

在一些实施方式中，随着佩戴者在物理环境600中移动，眼戴设备100的高速处理器432利用相机***114存储所捕获的视频数据帧900。如本文所述并且如图7所示，相机***114通常具有相机视场904，其捕获超出显示器180B的限制的图像和视频。

在一些实施方式中，相机***114包括一个或多个配备有CMOS图像传感器的高分辨率数字相机，该CMOS图像传感器能够以相对高的帧速率(例如，每秒三十帧或更多)捕获高清静态图像和高清视频。每个数字视频帧包括图像中的多个像素的深度信息。在该方面，相机***114通过捕获物理环境的详细输入图像而用作高清晰度扫描仪。在一些实施方式中，如本文所述，相机***114包括一对高分辨率数字相机114A、114B，它们耦接到眼戴设备100并间隔开以获取左相机原始图像和右相机原始图像。当被组合时，原始图像形成包括三维像素位置矩阵的输入图像。在框1002处，在一些实施方式中，示例方法包括将所捕获的视频数据帧900至少暂时地存储在眼戴设备100上的存储器434中，使得帧可用于分析。

框1004描述了利用图像处理***920在所捕获的视频数据帧900中检测手651的示例步骤。在一些示例实施方式中，图像处理***920分析所捕获的视频数据帧900中的像素级数据，以确定该帧是否包括人类手部，并且如果是，那么帧是否包括手的上翻手掌或手掌表面，如图7所示。检测手651的过程包括检测相对于显示器180B或相对于另一已知位置(例如眼戴位置840)的三维坐标中的当前手位置681，如图所示。

图7是在当前手位置681处的示例手651的透视图。在一些实施方式中，框1004处的检测的过程由图像处理***920完成。手651可以被预定义为左手，如图所示。在一些实施方式中，***包括用于选择和设置将用作待检测的手651的手(从右到左)的过程。

本领域技术人员将理解，检测和跟踪的过程包括在一组或一系列所捕获的视频数据帧900中检测随时间处于各种手势的手。在此背景下，框1004处的检测过程是指并且包括在至少一个视频数据帧中检测手，以及随时间在视频数据帧的子集或一系列视频数据帧中检测手。因此，在一些实施方式中，框1004处的过程包括在所捕获的视频数据帧900中的一个或多个中检测处于特定手势的手651。在其他实施方式中，框1004处的过程包括在所捕获的视频数据帧900的子集或一系列所捕获的视频数据帧900中检测随时间处于各种手势的手，所述随时间处于各种手势的手在本文中被描述为一系列初步手形651。在这方面，图中所示的手651、652、653的静止图像是指并且包括作为静止图像或作为一系列手形的一部分的这种所图示的手。

图10中的框1006描述了在显示器180B上呈现菜单图标700的示例步骤。菜单图标700呈现在当前图标位置701处，如图7所示。当前图标位置701相对于检测到的当前手位置681并且根据检测到的当前手位置681来定义，使得菜单图标700随着手位置681在物理环境600中随时间移动而在显示器上移动，如在所捕获的视频数据帧900中检测到和跟踪的。

尽管参考菜单图标700描述了示例步骤，但是该过程可以和与菜单无关的其他图标和图形元素一起应用和使用。在一些实施方式中，菜单图标700被定尺寸并成形为可由手明显抓握的虚拟元素，诸如图8中所示的圆球状三维多面体。在该方面，呈现明显可抓握的虚拟菜单图标700直观地邀请用户执行抓握或摇晃手势。菜单图标700可以包括球、多边形、圆形、多面体或其他形状；规则或不规则；被渲染为二维形状或三维对象。菜单图标700可以与菜单标签705一起呈现，如图所示。

在一些实施方式中，在检测手的过程之前，已经在显示器180B上呈现菜单图标700。例如，当前在眼戴设备100上运行的另一***或应用可以包括逻辑地继续在显示器上呈现菜单图标700的一系列动作。菜单图标700可以呈现在默认位置处，诸如显示器180B的中心。此时，运行的应用可以访问本文描述的过程，在一些实施方式中开始于在框1004处检测手651，并且然后在框1006处相对于检测到的当前手位置681在当前图标位置701处呈现菜单图标700。

在其他实施方式中，菜单图标700不被呈现在显示器180B上，除非并且直到在框1004处在至少一个视频数据帧中检测到处于任何位置或手势的手651。在该示例中，检测到手651导致在显示器180B上呈现菜单图标700。在其他示例实施方式中，菜单图标700不被呈现在显示器180B上，除非并且直到在框1004处检测到处于特定手势或手形的手651。

在一些实施方式中，菜单图标700不被呈现在显示器180B上，除非并且直到在框1004处检测到初步系列手形651。在该示例中，初步系列手形651包括所捕获的视频数据帧900中的手形序列，诸如包括具有放松手指的上翻手掌表面的手形，如图7所示。

在检测步骤之后，该过程然后包括确定检测到的初步系列手形是否与存储在手势库480中的多个预定义手势850中的初步预定义手势851(例如，摇晃手势)匹配，如本文所述。如果检测到的初步系列手形651与初步预定义手势851匹配，则执行呈现菜单图标700的过程。

框1008描述了利用图像处理***920在所捕获的视频数据帧900中检测第一系列手形652的示例步骤。图像处理***920分析所捕获的视频数据帧900中的像素级数据以跟踪手的运动。

图8是示例第一系列手形652的透视图，其中手执行打开手势(例如，手指相对于手掌打开)。在一些实施方式中，第一系列手形652包括从放松位置(例如，图7所示)伸展到相对于手掌的过度伸展位置(如图8所示)的一个或多个手指。在一些实施方式中，该过程包括在三维坐标中相对于当前手位置681或相对于另一已知位置(例如显示器180B或当前眼戴位置840)检测一系列当前手指或指尖位置。

如本文所使用的，术语过度伸展是指并且包括相对于手掌处于伸展取向的手的一个或多个手指。过度伸展的程度可以被定义为一个或多个手指位于相对于由手掌限定的平面的预定义阈值距离或角度内。

框1010处的示例过程包括确定检测到的第一系列手形652是否与存储在手势库480中的多个预定义手势850中的任何一个匹配。将存储在所捕获的视频数据帧900中的数据与存储在手势库480中的预定义手势650进行比较。各种其他预定义手势850中的任何一种可以被建立并存储在手势库480中。

在图8所示的示例中，图像处理***920分析所捕获的视频数据帧900中的像素级数据，以确定手652是否正在执行打开手势。在该示例中，预定义打开手势包括一个或多个手指相对于手掌表面过度伸展的手姿态序列。

手势库480包括大量姿态和手势，包括对处于各种定位和定向的手的描述。所存储的姿态和手势适合于与在图像中检测到的手形进行准备好的比较。在一些实施方式中，存储在库480中的手势记录包括手上的多个标志的三维坐标，包括手腕、十五个指间关节和五个指尖、以及其他骨骼和软组织标志。存储在库480中的手势记录还可以包括文本标识符、视点注释、方向参考(例如，手掌、背侧、侧向)、旋转参考(例如，稳定、屈曲、伸展、旋前、旋后)以及与每个预定义手势850相关的其他数据和描述符。存储在库480中的每个手势记录可以包括每个关节和尖端的一组示例性三维坐标、手定位标识符(例如，中性手)和手指定位标识符(例如，食指、屈曲、部分)。对于手势(例如，随时间观察到的一系列手姿态)，存储在库480中的手势记录可以包括在特定时间间隔(例如，两秒或更长)内食指的每个位置处的每个关节和尖端的一组示例性三维坐标、手部运动标识符(例如，旋前、旋后、稳定)和手指运动标识符(例如，食指弯曲和连续伸展)。

对于打开手势，在一些实施方式中，存储于手势库480中的记录包括手势识别符(例如，打开)、第一运动识别符(例如，手指过度伸展到相对于手掌的预定义阈值距离或角度内)、最小持续时间(例如，一秒)和后续运动识别符(例如，放松、朝向手掌返回)-以及在时间间隔期间每只手和手指标志的一系列示例性三维坐标(例如，每五毫秒二十个坐标集)。

在一些实施方式中，框1010处的过程包括将在一段时间内在逐像素级上在视频数据900中捕获的检测到的与存储在手势库480中的多个预定义打开手形进行比较，直到识别出匹配。如本文所用，术语匹配意味着包括基本上匹配或近似匹配，其可以由与可能的或候选的匹配相关联的预定置信度值来控制。检测到的手形数据可以包括手腕、多达十五个指节间关节、多达五个指尖以及在所捕获的帧中找到的其他骨骼或软组织标志的三维坐标。在一些示例中，该检测过程包括计算检测到的手形指尖坐标与存储在库480中的每个手势的指尖坐标集之间的测地距离之和。落在可配置的阈值准确度值内的和表示匹配。

再次参考图10，框1012处的示例过程包括根据匹配的第一预定义手势852在显示器180B上邻近当前图标位置701呈现一个或多个图形元素710。

如本文所使用的，一个或多个图形元素710意指并包括在显示器上呈现的图形元素的任何集合，包括但不限于与VR体验相关联的虚拟对象和诸如图标、缩略图、任务栏和菜单项的图形元素。例如，图8中的图形元素710A、710B、710C表示包括地图、照片和朋友的可选菜单项，并且可以包括元素标签705A、705B、705C，如图所示。

一个或多个图形元素710在与当前菜单图标位置701相邻的位置处呈现在显示器180B上。例如，在一些实施方式中，图形元素710位于远离当前图标位置701的预定义默认距离处。当当前图标位置701改变时，图形元素710的位置也改变，使得图形元素710和菜单图标700作为分组被持久地一起显示并且看起来一起移动。此外，因为当前菜单图标位置701与当前手位置681相关(在框1004处)，所以图形元素710和菜单图标700随着手移动而移动。在这方面，图形元素710明显地锚定到手位置681(而不是保持锚定到显示器180B)。

在一个方面，打开手的手指的物理过程直观地与打开显示器上的菜单图标700的虚拟过程一致。手指的打开运动对应于菜单图标710的打开。

根据打开手势，在一些实施方式中呈现图形元素710的过程包括将每个元素沿着远离菜单图标700延伸的路径的进展动画化。例如，图8图示了第一图形元素710A和远离菜单图标700延伸的第一路径720A。在一些实施方式中，动画化进展包括在沿着第一路径720A的一系列增量位置处呈现第一图形元素710A，从而模拟第一图形元素710A从菜单图标700的渐进出现。图8还示出了第二图形元素710B和第二路径720B；以及第三图形元素710C和第三路径720C。

在一些实施方式中，动画化进展的表观速度与检测到的第一系列手形652相关。在这方面，手指打开得越快，动画化进展发生得越快。

在一些实施方式中，路径720A、720B、720C相对于球形菜单图标700在大致径向方向上延伸，如图8所示。路径720A、720B、720C在长度上相似，并且图形元素710A、710B、710C沿着其相应的路径一起几乎一致地递增地移动。

在其他示例实施方式中，图形元素710中的一个或多个与手上的特定手指的检测到的运动相关。在该示例中，图形元素710根据手的特定手指的检测到的当前位置分别沿着其相应的路径720递增地移动。例如，根据检测到的拇指的当前位置在沿着第一路径720A的一系列递增位置处呈现图8所示的第一图形元素710A。因为拇指位于手652的左侧，所以它将自然地与最左边的第一图形元素710A相关联。拇指打开得越快，第一图形元素710A的动画化进展沿着第一路径720A发生得越快。此外，如果拇指暂停或后退，则第一图形元素710A将根据检测到的当前拇指位置暂停或后退。

框1014描述了利用图像处理***920在所捕获的视频数据帧900中检测第二系列手形653的示例步骤。图像处理***920分析所捕获的视频数据帧900中的像素级数据以跟踪手的运动。

图9是其中手执行闭合手势(例如，拳头)的示例第二系列手形653的透视图。在一些实施方式中，第二系列手形653包括朝向手掌移动以握拳的一个或多个手指，如图9所示。在一些实施方式中，该过程包括在三维坐标中相对于当前手位置681或相对于另一已知位置(诸如显示器180B或当前眼戴位置840)检测一系列当前手指或指尖位置。

框1016处的示例过程包括确定检测到的第二系列手形653是否与存储在手势库480中的多个预定义手势850中的任何一个匹配。图像处理***920分析在一段时间内所捕获的视频数据帧900中的像素级数据，并将关于检测到的第二系列手形653的数据与存储在库480中的预定义手势650进行比较，直到识别出匹配。

对于闭合手势，在一些实施方式中，存储在手势库480中的记录包括手势标识符(例如，闭合)、运动标识符(例如，手指朝向手掌闭合以握拳)、最小持续时间(例如，一秒)和后续运动标识符(例如，放松)-以及在时间间隔期间每只手和手指标志的一系列示例性三维坐标(例如，每五毫秒二十个坐标集)。

框1018处的示例过程包括根据匹配的第一预定义手势853从显示器180B移除一个或多个图形元素710。当检测到的手闭合成拳头时，图形元素710从显示器180B消失。在这方面，闭合手的手指的物理过程直观地与闭合由显示器上的菜单图标700表示的菜单的虚拟过程一致。

根据闭合手势，在一些实施方式中，移除图形元素710的过程包括将每个元素沿着朝向菜单图标700延伸的路径的倒退动画化。例如，图9图示了第一路径720A，当第一图形元素710A朝向菜单图标700倒退或撤回并进入菜单图标700时，第一图形元素710A看起来沿着该第一路径720A移动。在一些实施方式中，动画化进展包括在沿着第一路径720A的一系列递增位置处呈现第一图形元素710A，从而模拟第一图形元素710A逐渐后退或折叠回到菜单图标700中。第二路径720B和第三路径720C也在图9中示出。

在一些实施方式中，动画化倒退的表观速度与检测到的第一系列手形653相关。在这方面，手指闭合得越快，动画化倒退发生得越快。在一些实施方式中，路径720A、720B、720C在长度上相似，并且图形元素710A、710B、710C沿着其相应的路径一起几乎一致地朝向菜单图标700递增地移动。在其他示例实施方式中，图形元素710中的一个或多个与手上的特定手指的检测到的运动相关；并且根据手的特定手指的检测到的当前位置移动，如本文所述。

在一些实施方式中，菜单图标700保持呈现在显示器180B上，如图9所示。可以重复本文所述的过程步骤和方法。例如，后续系列手形可以匹配打开手势，从而导致如所描述的图形元素710的另一呈现。

当检测到手处于手掌向下定位(例如，显露手的远侧表面)时，当手部分地或完全地从相机的视场904移除时，或当检测到预定义停止手势时，可以终止本文描述的过程步骤和方法。

在一些实施方式中，执行呈现过程步骤(在框1006和1012处)，使得根据相当前眼戴位置840对于当前手位置681在显示器180B上呈现菜单图标700和图形元素710。在该示例实施方式中，菜单图标700和图形元素710的尺寸和形状以及取向根据眼戴设备100(在当前眼戴位置840处)与手(在当前手位置681处)之间的相对运动而变化。在一些实施方式中，眼戴设备100上的定位***915将配置眼戴设备100上的处理器432配置为获得定位数据以用于相对于检测到的手位置681确定当前眼戴位置840。定位数据可以从所捕获的视频数据帧900、IMU单元472、GPS单元或其组合导出。T定位***915可以使用SLAM算法构建相机视场904内的各种元素的虚拟地图，如本文所述，至少与相机***114的帧速率一样频繁地更新地图和对象的位置(例如，以与每秒三十次或更多次一样频繁地计算和更新当前眼戴位置840的映射和定位)。

定位的过程包括计算检测到的当前手位置681与当前眼戴位置840之间的相关性的示例步骤。术语相关性是指并且包括足以根据当前眼戴位置840定义检测到的当前手位置681和眼戴显示器180B之间的三维距离的一个或多个矢量、矩阵、公式或其他数学表达式。当前眼戴位置840与由眼戴设备100的框架支撑的显示器180B绑定或持续相关联。在这方面，相关性执行利用手650的运动校准眼戴设备100的运动的功能。因为框1010处的定位过程连续且频繁地发生，所以连续且频繁地计算相关性，从而导致相对于当前眼戴位置840准确且接近实时地跟踪当前手位置681。

在另一示例实施方式中，在框1010和框1016处确定检测到的一系列手形是否与预定义手势850中的任一个匹配的过程涉及使用机器学习算法来将一个或多个所捕获的视频数据帧中关于手形的像素级数据与包括手势的图像集合进行比较。

机器学习是指通过经验逐渐改进的算法。通过处理大量不同的输入数据集，机器学习算法可开发关于特定数据集的改进的一般化，然后在处理新数据集时使用这些一般化来产生准确的输出或解。广义地说，机器学习算法包括一个或多个参数，这些参数将响应于新的经验而调整或改变，从而逐渐地改进算法；这是类似于学习的过程。

在计算机视觉的背景下，数学模型试图仿效人类视觉***完成的任务，目的是使用计算机从图像中提取信息并实现对图像内容的准确理解。计算机视觉算法已经被开发用于包括人工智能和自主导航的多个领域，以提取和分析数字图像和视频中的数据。

深度学习是指基于人工神经网络或仿效人工神经网络的一类机器学习方法。人工神经网络是由多个简单的、高度互连的处理元件(节点)组成的计算***，这些处理元件通过它们对外部输入的动态状态响应来处理信息。大型人工神经网络可能具有数百或数千个节点。

卷积神经网络(CNN)是一种经常应用于分析包括数字照片和视频的视觉图像的神经网络。CNN中的节点之间的连接模式通常根据人类视觉皮层的组织来建模，人类视觉皮层包括布置成对视场中的重叠区域做出响应的个体神经元。适用于本文所述确定过程的神经网络基于以下架构中的一者：VGG16、VGG19、ResNet50、Inception V3、Xception或其他CNN兼容架构。

在机器学习的示例中，在框1010和框1016处，处理器432使用被称为手部特征模型的机器训练算法来确定检测到的一系列双手手形是否基本上与预定义手势匹配。处理器432被配置为访问通过机器学习训练的手部特征模型，并且应用该手部特征模型以在一个或多个视频数据帧中识别和定位该手形的特征。

在一个示例实施方式中，经训练的手部特征模型接收包含检测到的手形的视频数据帧，并将该帧中的图像抽象为层以供分析。基于经训练的手部特征模型，逐层地将每个层中的数据与存储在手势库480中的手势数据进行比较，直到识别出良好匹配。

在一个示例中，使用卷积神经网络来执行逐层图像分析。在第一卷积层中，CNN识别所学习特征(例如，手部特征点、关节坐标集等)。在第二卷积层中，图像被变换成多个图像，其中所学习特征各自在相应的子图像中被强调。在池化层中，图像和子图像的尺寸和分辨率被减小，以便隔离每个图像的包括可能的感兴趣特征(例如，可能的手掌形状、可能的手指关节)的部分。来自非输出层的图像的值和比较被用于对帧中的图像进行分类。如本文所用的分类是指使用经训练的模型来根据检测到的手形对图像进行分类的过程。例如，如果检测到的一系列双手手形与存储在库480中的触摸手势匹配，则图像可被分类为“触摸动作”。

如本文所述，眼戴设备100、移动设备401和服务器***498的功能中的任何功能可以被体现在一个或多个计算机软件应用或编程指令集中。根据一些示例，“功能”、“应用”、“指令”或“程序”是执行在程序中定义的功能的程序。可采用各种程序设计语言来开发以各种方式结构化的应用中的一个或多个应用，诸如面向对象的程序设计语言(例如，Objective-C、Java或C++)或面向过程程序设计语言(例如，C语言或汇编语言)。在特定示例中，第三方应用(例如，由除特定平台的供应商之外的实体使用ANDROID^TM或IOS^TM软件开发工具包(SDK)开发的应用)可以包括在移动操作***诸如IOS^TM、ANDROID^TM、电话或另一移动操作***上运行的移动软件。在该示例中，第三方应用可调用由操作***提供的API调用，以促进本文所述的功能。

因此，机器可读介质可采取许多形式的有形存储介质。非易失性存储介质包括例如光盘或磁盘，诸如任何计算机设备等中的任何存储设备，诸如可用于实施附图中所示的客户端设备、媒体网关、代码转换器等。易失性存储介质包括动态存储器，诸如此类计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括构成计算机***内的总线的导线。载波传输介质可采取电信号或电磁信号、或声波或光波的形式，诸如在射频(RF)和红外(IR)数据通信期间生成的那些。因此，计算机可读介质的常见形式包括例如：软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、任何其他具有孔图案的物理存储介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传输数据或指令的载波、传输此类载波的电缆或链路、或计算机可以从其中读取程序代码或数据的任何其他介质。许多这些形式的计算机可读介质可参与将一个或多个指令的一个或多个序列承载到处理器以供执行。

除了上面刚刚陈述的，无论是否在权利要求书中陈述，已陈述或说明的内容都不旨在或不应解释为导致任何部件、步骤、特征、对象、益处、优点或等效物献给公众。

应当理解，除非本文另外阐述了特定的含义，否则本文所用的术语和表达具有与关于它们对应的相应调查和研究领域的此类术语和表达一致的通常含义。诸如“第一”和“第二”等的关系术语仅可用于将一个实体或动作与另一个实体或动作区分开，而不一定要求或暗示这些实体或动作之间的任何实际的此类关系或顺序。术语“包括”、“包含”、“含有”、“具有”或其任何其他变型形式旨在涵盖非排他性的包括，使得包括或包含一系列元素或步骤的过程、方法、制品或装置不仅包括那些元素或步骤，而是还可以包括未明确列出的或对于此类过程、方法、制品或装置固有的其他元素或步骤。在没有进一步限制的情况下，前缀为“一”或“一个”的元素并不排除在包括该元素的过程、方法、制品或装置中另外的相同元素的存在。

除非另有说明，否则本说明书中，包括所附权利要求书中阐述的任何和所有测量、值、额定值、定位、量值、尺寸和其他规格是近似的，而不是精确的。此类量旨在具有与它们涉及的功能和它们所属的领域中的惯例一致的合理范围。例如，除非另外明确说明，否则参数值等可以从所述量或范围变化多达正负百分之十。

此外，在前述详细描述中可看出，出于使本公开简化的目的，各种特征在各种示例中被组合在一起。公开的本方法不应被解释为反映所要求保护的示例需要比每个权利要求中明确记载的特征更多的特征的意图。相反，如以下权利要求所反映的，要求保护的本主题在于少于任何单个公开的示例的所有特征。因此，将以下权利要求据此并入到详细描述中，其中每个权利要求作为独立要求保护的主题而独立存在。

虽然前文已描述了被认为是最佳模式的示例和其他示例，但应当理解，可在其中作出各种修改且本文所公开的主题可以各种形式和示例来实施，并且其可应用于许多应用中，本文仅描述了其中的一些应用。所附权利要求书旨在要求保护落入本发明构思的真实范围内的任何和所有修改和变型。

Claims

1.一种响应于利用眼戴设备检测到的手势而控制图形元素的方法，所述眼戴设备包括相机***、图像处理***、以及显示器，所述方法包括：

利用所述相机***，捕获视频数据帧；

利用所述图像处理***，在所捕获的视频数据帧中检测相对于所述显示器在当前手位置处的手；

根据检测到的当前手位置，在所述显示器上在当前图标位置处呈现菜单图标；

利用所述图像处理***，检测所捕获的视频数据帧中的第一系列手形；

利用所述图像处理***，确定检测到的第一系列手形是否与多个预定义手势中的第一预定义手势匹配；

根据匹配的第一预定义手势，在所述显示器上邻近所述当前图标位置呈现一个或多个图形元素；

利用所述图像处理***，在所捕获的视频数据帧中检测第二系列手形；

利用所述图像处理***，确定检测到的第二系列手形是否与多个预定义手势中的第二预定义手势匹配；以及

根据匹配的第二预定义手势，从所述显示器移除所述一个或多个图形元素。

2.根据权利要求1所述的方法，其中呈现所述一个或多个图形元素的步骤还包括：

将第一图形元素沿着远离所述当前图标位置延伸的第一路径的进展动画化，使得所述第一图形元素看起来从所述菜单图标出现，

其中动画化进展的表观速度与检测到的第一系列手形相关。

3.根据权利要求2所述的方法，其中移除所述一个或多个图形元素的步骤还包括：

将所述第一图形元素沿着朝向所述当前图标位置延伸的所述第一路径的倒退动画化，使得所述第一图形元素看起来撤回到所述菜单图标中，

其中动画化倒退的表观速度与检测到的第二系列手形相关。

4.根据权利要求1所述的方法，还包括：

检测后续一系列手形；

确定检测到的后续一系列手形是否与所述多个预定义手势中的后续预定义手势匹配；以及

根据匹配的后续预定义手势，执行后续动作。

5.根据权利要求1所述的方法，其中所呈现的菜单图标包括：从由多边形、球、多面体、以及根据检测到的手而被定尺寸并成形的明显可抓握对象组成的组中所选择的形状。

6.根据权利要求1所述的方法，其中存储在手势库中的所述第一预定义手势包括：以相对于手掌表面过度伸展的一个或多个手指为特征的第一姿态序列，并且

其中检测到的第一系列手形包括：从放松位置伸展到相对于所述手掌表面的过度伸展位置的一个或多个手指。

7.根据权利要求6所述的方法，其中存储在所述手势库中的所述第二预定义手势包括：以朝向所述手掌表面闭合成拳头的一个或多个手指为特征的第二姿态序列，并且

其中检测到的第二系列手形包括闭合成拳头的一个或多个手指。

8.根据权利要求1所述的方法，其中呈现菜单图标的步骤还包括：

利用所述图像处理***，在所捕获的视频数据帧中检测初步系列手形；

利用所述图像处理***，确定检测到的初步系列手形是否与多个预定义手势中的初步预定义手势匹配，

其中存储在手势库中的所述初步预定义手势包括：以相对于手掌表面放松的一个或多个手指为特征的姿态序列，并且其中检测到的初步系列手形包括具有放松的手指的暴露的手掌表面；以及

根据匹配的初步预定义手势，在所述显示器上在所述当前图标位置处呈现所述菜单图标。

9.根据权利要求1所述的方法，其中所述眼戴设备还包括定位***，其中所述方法还包括：

利用所述定位***，相对于所述当前手位置确定当前眼戴位置；

根据所述当前眼戴位置，计算所述当前手位置与所述显示器之间的相关性；

根据所计算的相关性，呈现所述菜单图标；以及

根据所计算的相关性，呈现所述一个或多个图形元素。

10.一种元素动画***，包括：

眼戴设备，其包括处理器、存储器、相机***、图像处理***、以及显示器；以及

在所述存储器中的程序，其中由所述处理器对所述程序的执行将所述眼戴设备配置为执行功能，所述功能包括用于以下的功能：

利用所述相机***，捕获视频数据帧；

11.根据权利要求10所述的元素动画***，用于呈现所述一个或多个图形元素的功能还包括用于以下的功能：

其中动画化进展的表观速度与检测到的第一系列手形相关。

12.根据权利要求11所述的元素动画***，其中用于移除所述一个或多个图形元素的功能还包括用于以下的功能：

其中动画化倒退的表观速度与检测到的第二系列手形相关。

13.根据权利要求10所述的元素动画***，其中存储在手势库中的所述第一预定义手势包括：以相对于手掌表面过度伸展的一个或多个手指为特征的第一姿态序列，并且

14.根据权利要求13所述的元素动画***，其中存储在所述手势库中的所述第二预定义手势包括：以朝向所述手掌表面闭合成拳头的一个或多个手指为特征的第二姿态序列，并且

15.根据权利要求10所述的元素动画***，其中所述眼戴设备还包括定位***，并且其中所述编程的执行还将所述眼戴设备配置为执行用于以下的功能：

根据所计算的相关性，呈现所述菜单图标；以及

根据所计算的相关性，呈现所述一个或多个图形元素。

16.一种存储程序代码的非瞬态计算机可读介质，当所述程序代码被执行时可操作为引起电子处理器执行以下步骤：

利用所述相机***，捕获视频数据帧；

利用图像处理***，在所捕获的视频数据帧中检测相对于显示器在当前手位置处的手；

17.根据权利要求16所述的存储程序代码的非瞬态计算机可读介质，其中呈现所述一个或多个图形元素的步骤还包括：

将第一图形元素沿着远离所述当前图标位置延伸的第一路径的进展动画化，使得所述第一图形元素看起来从所述菜单图标出现，其中动画化进展的表观速度与检测到的第一系列手形相关。

18.根据权利要求17所述的存储程序代码的非瞬态计算机可读介质，其中移除所述一个或多个图形元素的步骤还包括：

将所述第一图形元素沿着朝向所述当前图标位置延伸的所述第一路径的倒退动画化，使得所述第一图形元素看起来撤回到所述菜单图标中，其中动画化倒退的表观速度与检测到的第二系列手形相关。

19.根据权利要求16所述的存储程序代码的非瞬态计算机可读介质，其中存储在手势库中的所述第一预定义手势包括：以相对于手掌表面过度伸展的一个或多个手指为特征的第一姿态序列，并且其中，检测到的第一系列手形包括从放松位置伸展到相对于所述手掌表面的过度伸展位置的一个或多个手指，并且

存储在手势库中的所述第二预定义手势包括：以朝向所述手掌表面闭合成拳头的一个或多个手指为特征的第二姿态序列，并且其中，检测到的第二系列手形包括闭合成拳头的一个或多个手指。

20.根据权利要求16所述的存储程序代码的非瞬态计算机可读介质，其中当所述程序代码被执行时可操作为引起电子处理器执行以下的另外步骤：

利用定位***，相对于所述当前手位置确定当前眼戴位置；

根据所计算的相关性，呈现所述菜单图标；以及

根据所计算的相关性，呈现所述一个或多个图形元素。