CN117716322A

CN117716322A - 增强现实（ar）笔/手跟踪

Info

Publication number: CN117716322A
Application number: CN202280051674.7A
Authority: CN
Inventors: T·托库博
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2021-08-03
Filing date: 2022-07-01
Publication date: 2024-03-15
Also published as: EP4381370A1; US20230041294A1; WO2023015082A1

Abstract

AR***跟踪(602,606)人的手(202)和该手中握持的对象(204)。该手正在抓握该对象的方式与在该对象上实现的特定触觉信号相关(608)。

Description

增强现实(AR)笔/手跟踪

技术领域

本申请涉及技术上有创造性的、非常规的解决方案，其必然植根于计算机技术并且产生具体的技术改进。

背景技术

如本文所理解的，可以使用触觉反馈来增强增强现实(AR)计算机模拟，诸如AR计算机游戏。

发明内容

一种方法包括从至少图像识别握持对象的手的姿态。该方法还包括至少部分地基于该姿态来识别触觉反馈，以及在对象上实现触觉反馈。

在一些实施例中，姿态是第一姿态，触觉反馈是第一触觉反馈，并且该方法还包括识别握持对象的手的第二姿态。该方法可以包括至少部分地基于第二姿态来识别第二触觉反馈，以及在对象上实现第二触觉反馈。在其上实现第二触觉反馈的对象可以是在其上实现第一触觉反馈的同一对象或与其不同的对象。

在示例性实现中，该方法可以包括至少部分地基于该姿态来改变至少一个用户界面(UI)。如果需要，该方法可以包括基于对象的尺寸来识别手的尺寸，以及使用手的尺寸在至少一个显示器上呈现手的虚拟化。在一些示例中，该方法可以包括至少部分地基于图像来跟踪图像中被手隐藏的对象的一部分，以及至少部分地基于该跟踪在至少一个显示器上呈现对象的虚拟化。

在另一方面，一种装置包括增强现实(AR)头戴式显示器(HMD)。该装置还包括至少一个物理对象，该至少一个物理对象包括至少一个触觉发生器，以及用于对握持该对象的HMD的佩戴者的手进行成像的至少一个相机。图像可以被提供给至少一个处理器以使用触觉发生器根据图像中手的姿态来产生触觉信号。

在另一方面，一种设备包括至少一个计算机存储装置，该至少一个计算机存储装置不是瞬态信号并且进而包括指令，这些指令能够由至少一个处理器执行以接收至少第一图像。指令能够执行以从第一图像识别握持第一对象的手的第一姿态，将第一姿态与第一触觉信号相关，并且在第一对象上实现第一触觉信号。

本申请的关于其结构和操作的细节可以参考附图得到最好的理解，其中相同的附图标记表示相同的部件，并且其中：

附图说明

图1是包括根据本发明原理的示例的示例性***的框图；

图2示出了符合本发明原理的具体***；

图3至图5示出了示例性手姿态和对象类型；

图6示出了示例性流程图格式的示例性逻辑；

图7示出了符合本发明原理的用户界面；并且

图9和图10示出了符合本发明原理的附加的示例性逻辑。

具体实施方式

本公开整体涉及计算机生态***，包括消费电子(CE)设备网络的各方面，诸如但不限于计算机游戏网络。本文的***可以包括可以通过网络连接的服务器和客户端部件，使得可以在客户端和服务器部件之间交换数据。客户端部件可以包括一个或多个计算设备，包括游戏控制台诸如Sony 或由Microsoft或Nintendo或其他制造商制造的游戏控制台、虚拟现实(VR)头戴式耳机、增强现实(AR)头戴式耳机、便携式电视(例如，智能TV、支持互联网的TV)、便携式计算机(诸如笔记本计算机和平板计算机)以及其他移动设备(包括智能电话和下面讨论的附加示例)。这些客户端设备可以在多种操作环境下操作。例如，一些客户端计算机可以采用例如Linux操作***、来自Microsoft的操作***、或Unix操作***、或由Apple公司或Google生产的操作***。这些操作环境可以用于执行一个或多个浏览程序，诸如由Microsoft或Google或Mozilla制造的浏览器或可以访问由下面讨论的互联网服务器托管的网站的其他浏览器程序。此外，根据本发明原理的操作环境可以用于执行一个或多个计算机游戏程序。

服务器和/或网关可以包括执行指令的一个或多个处理器，这些指令将服务器配置为通过网络诸如互联网接收和传输数据。或者，客户端和服务器可以通过本地内部网络或虚拟专用网络连接。服务器或控制器可以由游戏控制台诸如Sony 个人计算机等来实例化。

可以通过网络在客户端和服务器之间交换信息。为此并且为了安全起见，服务器和/或客户端可以包括防火墙、负载平衡器、临时存储装置和代理以及其他网络基础设施以确保可靠性和安全性。一个或多个服务器可以形成实现向网络成员提供安全社区(诸如在线社交网站)的方法的装置。

处理器可以是单芯片或多芯片处理器，其可以通过各种线诸如地址线、数据线和控制线以及寄存器和移位寄存器来执行逻辑。

一个实施例中所包括的部件可以以任何适当的组合用于其他实施例中。例如，本文描述的和/或附图中描绘的各种部件中的任何部件可以组合、互换或从其他实施例中排除。

“具有A、B和C中的至少一者的***”(同样，“具有A、B或C中的至少一者的***”和“具有A、B、C中的至少一者的***”)包括仅具有A、仅具有B、仅具有C、同时具有A和B、同时具有A和C、同时具有B和C、和/或同时具有A、B和C等的***。

现在具体参考图1，示出了示例性***10，其可以包括上面提到的并且下面根据本发明原理进一步描述的示例性设备中的一个或多个设备。***10中所包括的示例性设备中的第一示例性设备是消费电子(CE)设备，诸如音频视频设备(AVD)12，诸如但不限于具有TV调谐器(等同地，控制TV的机顶盒)的支持互联网的TV。另选地，AVD 12还可以是计算机化的支持互联网的(“智能”)电话、平板计算机、笔记本计算机、HMD、可穿戴计算机化设备、计算机化的支持互联网的音乐播放器、计算机化的支持互联网的耳机、计算机化的支持互联网的可植入设备，诸如可植入皮肤的设备等。无论如何，应当理解，AVD 12被配置为遵循本发明原理(例如，遵循本发明原理与其他CE设备通信、执行本文描述的逻辑，并且执行本文描述的任何其他功能和/或操作)。

因此，为了遵循此类原理，AVD 12可以由图1所示的部件中的一些或全部部件来建立。例如，AVD 12可以包括一个或多个显示器14，该一个或多个显示器可以由高清晰度或超高清晰度“4K”或更高的平面屏幕来实现，并且可以是支持触摸的，用于经由显示器上的触摸接收用户输入信号。AVD 12可以包括根据本发明原理用于输出音频的一个或多个扬声器16，以及至少一个附加输入设备18，诸如用于向AVD 12输入听觉命令以控制AVD 12的音频接收器/麦克风。示例性AVD 12还可以包括一个或多个网络接口20，用于在一个或多个处理器24的控制下通过至少一个网络22(诸如互联网、WAN、LAN等)进行通信。还可以包括图形处理器。因此，接口20可以是但不限于Wi-Fi收发器，其是无线计算机网络接口的示例，诸如但不限于网状网络收发器。应当理解，处理器24控制AVD 12遵循本发明原理，包括本文描述的AVD 12的其他元件，诸如控制显示器14在其上呈现图像并从其接收输入。此外，需注意网络接口20可以是有线或无线调制解调器或路由器，或其他适当的接口，诸如无线电话收发器或如上所述的Wi-Fi收发器等。

除了前述之外，AVD 12还可以包括一个或多个输入26，诸如高清晰度多媒体接口(HDMI)端口或USB端口，用于物理地连接到另一CE设备和/或耳机端口，用于将耳机连接到AVD 12，以便通过耳机向用户呈现来自AVD 12的音频。例如，输入端口26可以经由有线或无线方式连接到电缆或音频视频内容的卫星源26a。因此，源26a可以是单独的或集成的机顶盒，或者***。或者，源26a可以是包含内容的游戏控制台或盘播放器。当被实现为游戏控制台时，源26a可以包括下面关于CE设备44描述的部件中的一些或全部部件。

AVD 12还可以包括一个或多个计算机存储器28，诸如不是瞬态信号的基于盘的或固态存储器，在一些情况下，在AVD的机箱中体现为独立设备，或者体现为在AVD的机箱内部或外部用于播放AV节目的个人视频记录设备(PVR)或视频盘播放器，或者体现为可移动存储介质。此外，在一些实施例中，AVD 12可以包括定位或位置接收器，诸如但不限于手机接收器、GPS接收器和/或高度计30，其被配置为从卫星或手机基站接收地理定位信息并将该信息提供给处理器24和/或结合处理器24确定设置AVD 12的海拔高度。部件30还可以由惯性测量单元(IMU)来实现，IMU通常包括加速度计、陀螺仪和磁力计的组合以确定AVD 12在三维中的位置和取向。

继续描述AVD 12，在一些实施例中，AVD 12可以包括一个或多个相机32，其可以是热成像相机、数字相机诸如网络摄像机、和/或集成到AVD 12中并且能够由处理器24控制以根据本发明原理收集图片/图像和/或视频的相机。在AVD 12上还可以包括蓝牙收发器34和其他近场通信(NFC)元件36，分别用于使用蓝牙和/或NFC技术来与其他设备进行通信。示例性NFC元件可以是射频识别(RFID)元件。

更进一步地，AVD 12可以包括一个或多个辅助传感器38(例如，运动传感器，诸如加速度计、陀螺仪、圆弧测定器或磁传感器、红外(IR)传感器、光学传感器、速度和/或节奏传感器、姿势传感器(例如，用于感测姿势命令)，从而向处理器24提供输入。AVD 12可以包括用于接收向处理器24提供输入的OTA TV广播的无线TV广播端口40。除了前述之外，需注意，AVD 12还可以包括红外(IR)发射器和/或IR接收器和/或IR收发器42，诸如IR数据协会(IRDA)设备。可以提供电池(未示出)来为AVD 12供电，如可以是可以将动能转化成电力以对电池充电和/或为AVD 12供电的动能采集器。还可以包括图形处理单元(GPU)44和现场可编程门阵列46。可以提供一个或多个触觉发生器47来生成可以由握持或接触该设备的人感觉到的触觉信号。

仍然参考图1，除了AVD 12之外，***10还可以包括一种或多种其他CE设备类型。在一个示例中，第一CE设备48可以是计算机游戏控制台，其可以用于经由直接发送到AVD12的命令和/或通过下述服务器发送计算机游戏音频和视频到AVD 12，而第二CE设备50可以包括与第一CE设备48类似的部件。在所示示例中，第二CE设备50可以被配置为由玩家操纵的计算机游戏控制器或由玩家佩戴的头戴式显示器(HMD)。在所示示例中，示出了仅两个CE设备，应当理解，可以使用更少或更多的设备。本文的设备可以实现针对AVD 12所示的部件中的一些或全部部件。下图所示的部件中的任何部件都可以包含在AVD 12的情况下所示的部件中的一些或全部部件。

现在参考前述的至少一个服务器52，其包括至少一个服务器处理器54、至少一个有形计算机可读存储介质56(诸如基于盘的或固态存储装置)以及至少一个网络接口58，该至少一个网络接口在服务器处理器54的控制下允许通过网络22与图1的其他设备进行通信，并且实际上可以根据本发明原理促进服务器和客户端设备之间的通信。需注意，网络接口58可以是例如有线或无线调制解调器或路由器、Wi-Fi收发器或其他适当的接口，诸如例如无线电话收发器。

因此，在一些实施例中，服务器52可以是互联网服务器或整个服务器“场”，并且可以包括并执行“云”功能，使得***10的设备可以在示例性实施例中经由服务器52访问用于例如网络游戏应用程序的“云”环境。或者，服务器52可以由与图1所示的其他设备位于同一房间或其附近的一个或多个游戏控制台或其他计算机来实现。

下图所示的部件可以包括图1所示的一些或全部部件。

图2示出了被实现为由人200佩戴的增强现实(AR)或虚拟现实(VR)HMD的图1的CE设备50，被实现为计算机模拟控制台诸如计算机游戏控制台的第二CE设备48、被实现为显示设备的AVD 12，以及被实现为用于在显示器12上呈现的计算机模拟的源的服务器52。本文讨论的部件可以包括上面讨论的部件中的一些或全部部件，包括处理器、通信接口、计算机存储装置、相机等，并且可以使用有线和/或无线通信路径彼此通信以实现本文描述的原理。

如图2所示，人200以握拳姿态在手202中握持对象204，诸如棒、棍、笔、电子鼓槌、电子尺或其他细长对象。然而，还应当理解，也可以使用符合本发明原理的其他形状的对象。对象204也不必是对称的，但在某些示例中，仍然要至少跨越普通人的手从手掌底部到中指指尖的长度，以便经由相机进行更准确的识别。

因此，设备12、48、50中的任何设备上的相机可以用于生成手202和对象204的图像，这些图像由在本文的设备中的任何设备中实现的一个或多个处理器进行处理以跟踪手202和对象204，包括手202的姿态。换句话说，处理器所采用的图像识别/计算机视觉(CV)算法识别手指和手相对于对象204的姿态，使得不同的手姿态可以基于手与对象的交互而彼此有所区别。例如，处于握持笔300姿态的手202(图3)区别于处于握持餐具400姿态的手(图4)以及处于握持棒500姿态的手202(图5)。这些是可以根据本发明原理使用的各类型的手姿态的非限制性示例。

然而，还需注意，还可以使用除了相机之外或代替相机的各种其他传感器以任何适当的组合来确定手姿态和沿着对象204的特定手接触点。例如，位于沿着对象外壳外部各个点处的压力传感器和电容式或电阻式触摸传感器可以用于确定手姿态/接触点。对象204内的超声收发器也可以用于测量对象204的表面以确定手姿态/接触点，也可以使用应变传感器来识别对象外壳在何处翘曲，从而推断翘曲点处的接触点。

出于类似的目的，指纹读取器也可以位于对象204的外壳上，并且在某些示例中甚至可以专门用于区分人的拇指(通过注册的拇指指纹)和人的小指(通过注册的小指指纹)。例如，人200可以通过将他或她的拇指压在对象204上而被识别为虚拟地加速虚拟摩托车，并且通过使用不同的手指和/或围绕对象204的握紧动作而被识别为虚拟地制动虚拟摩托车。在某些示例中，指纹读取器甚至可以区分手掌皮肤图案和手背皮肤图案。

同样，除了使用相机之外或代替使用相机，可以使用对象204内的其他传感器来确定对象204本身的各种姿态/取向。这些其他传感器可能包括运动传感器，诸如陀螺仪、加速度计和磁力计。对象204上的灯，诸如红外(IR)发光二极管(LED)，也可以用于使用IR相机来跟踪对象204的位置、取向和/或姿态。位于对象204的外壳的不同部分处的其他可能的唯一标识符诸如唯一戳记或QR码，也可以用于增强使用非IR或IR相机的对象跟踪。还需注意，如使用相机所识别的，也可以跟踪对象204的不同形状的部分，以确定对象取向/姿态。

图6进一步示出了本发明原理。从框600处开始，在框602处使用相机和图像识别/CV技术(和/或使用上述其他传感器)对手进行成像并且识别姿态。如果需要，在框604处还对手握持的对象进行成像，然后在框606处识别其类型和姿态/取向。还需注意，在框606处还可以使用上述其他传感器来识别对象的姿态/取向。然后，基于手的姿态，并且如果需要，还基于对象的类型和对象的姿态/取向，在框608处识别触觉反馈。然后，在框610处，将信号发送到对象，该信号激活对象中的一个或多个触觉发生器或振动器以在对象上实现触觉反馈。

因此，当以某种方式握持物理对象时，可以体验到一个或一组触觉反馈。例如，当手的姿态处于如图3所示的握笔形态时，可以在笔/对象上生成触觉反馈，以模仿在表面上书写或擦除(例如，相对于真实或虚拟书写表面本身在横向方向上)的触觉感觉。还可以在笔尖处施加好像来自真实或虚拟书写表面的方向(可能沿着笔的纵向轴线)的附加阻力。相反，当手的姿态如图2所示握成拳头时，可以在被握持的对象上生成触觉反馈，以模仿手中握有对象的触觉感觉(例如，沿着被识别为正被握持的细长对象的部分的长度和周长的触觉反馈，但在其他对象位置处没有触觉反馈)。触觉反馈可以与手姿态相关，并且如果需要，还可以与对象类型相关，触觉反馈包括间歇性高频振动、连续摇晃、孤立的撞击。

此外，如图6的框612所指示的，如图7所示的屏上控制器或界面可以基于手的变化姿态而改变(在所示示例中，从促进开/关的用户界面(UI)改变为促进模拟世界中对象的挥动或戳动动作的UI)。例如，可以响应于被握持的对象为笔而呈现开/关UI，而可以响应于被握持的对象为棒而呈现挥动或戳动动作UI。需注意，UI可以呈现在本文描述的任何显示器上，例如，在HMD上或在AVDD 12上。

图8示出了用于训练机器学习(ML)模型(诸如包括卷积神经网络(CNN)和/或循环NN(RNN)的一个或多个神经网络)的训练步骤。在框800处，将手/对象姿态图像对的训练集和每个姿态组合的对应触觉反馈输入到ML模型。在框802处使用训练集来训练ML模型。

图像训练集可以包括符合本发明原理的、来自不同视角处于不同姿态的握持相应对象时的人手的3D图像，以及期望与姿态相关的相应地面实况触觉反馈。在一些具体示例中，对于给定姿态，手的各个部分接触对象的特定接触点可以与沿着对象并且可能在接触点本身处的特定地面实况触觉反馈空间分布相关。在某些示例中，对象类型也可以包括在训练集中，使得当ML模型执行图6的逻辑时，它还可以在选择触觉反馈时考虑对象类型，使得例如更硬或密度更大的对象生成比更软或密度更小的对象更高强度的触觉反馈。

因此，应当理解，本发明原理可以采用机器学习模型，包括深度学习模型。机器学习模型使用以包括监督学习、无监督学习、半监督学习、强化学习、特征学习、自学习和其他形式的学习的方式训练的各种算法。可以通过计算机电路实现的此类算法的示例包括一个或多个神经网络，诸如可能适合从一系列图像学习信息的卷积神经网络(CNN)、循环神经网络(RNN)以及被称为长短期记忆(LSTM)网络的一种类型的RNN。支持向量机(SVM)和贝叶斯网络也可以被视为机器学习模型的示例。

如本文所理解的，执行机器学习涉及访问并且然后在训练数据上训练模型以使得模型能够处理进一步的数据以做出预测。神经网络可以包括输入层、输出层以及其间的多个隐藏层，这些隐藏层被配置和加权为对适当的输出做出推断。

因此，使用上述方法，可以训练ML模型，以便随着时间的推移，沿着对象本身上的各个点生成动态、即时的触觉反馈，具体取决于手姿态、已知的接触点/手相对于对象各个位置的抓握、和/或对象自身的姿态/取向(因为对象的姿态可能随着时间的推移而变化)。因此，对于给定计算机模拟效果，如由开发人员预编程或由计算机模拟本身提供的那样，已知对象物理学可以不同地应用于给定对象的触觉反馈，这取决于正在使用哪个手姿态/对象姿态组合、人的手接触对象的哪些点、和/或根据作为计算机模拟的一部分正被触觉模拟的内容的期望效果本身。

换句话说，按照对应的手姿态/抓握组合，可以对沿着对象的各个离散点处体验到的某些触觉进行预编程，以产生对应于某个虚拟动作的给定触觉感觉。然后，这些触觉实际上可以根据实际的相似手姿态应用于所识别的接触点本身。此外，然后可以使用该预编程和经训练的ML模型本身来推断其他姿态/手抓握(但可能用于相同的虚拟动作)的其他触觉。因此，相同计算机模拟效果的触觉反馈可以根据手的实际接触点、手姿态和对象自身的姿态来不同地渲染，使得所渲染的触觉基于对象例如被握持在手掌中、或张开手拿着、或仅用手指拿着等而变化。

这里还需注意，触觉反馈本身可以使用定位在对象本身内的各个点处的各种振动发生器来生成。每个振动发生器可以包括例如电机，该电机经由电机的可旋转轴连接到偏心和/或不平衡配重，使得轴可以在电机的控制下(进而可以由处理器诸如处理器24控制)旋转以产生各种频率和/或振幅的振动以及各个方向上的力模拟。因此，由振动发生器产生的触觉可以模拟由真实世界对象表示的模拟本身的对应虚拟元素的类似振动/力。再次需注意，模拟可以是例如计算机游戏或其他三维或VR模拟。

图9示出了附加的原理。从框900处开始，手和对象的图像被用于识别手的姿态和对象的类型。移动到框902，当手移动时，可以跟踪手中对象的不可见部分以及对象的可以被成像的部分，并且在框904处对象的不可见部分和对象的成像部分合并用于呈现计算机模拟内的对象的虚拟化，例如，如同通过透明的手看到的一样。应当理解，就这一点而言，可以使用ML模型，其根据上述原理在握持对象的手姿态图像的训练集以及手中对象的不可见部分的地面实况表示上进行训练。还需注意，在框902处，可以基于手姿态的可见部分、可见接触点和/或可见对象部分使用CV来外推不可见手接触点，以便执行如本文描述的触觉渲染。

图10示出了假设被握持的对象具有已知尺寸，则可以校准手202的尺寸。从框1000处开始，对手和对象进行成像。在框1002处，通过使用图像识别来识别对象并且然后访问将对象ID与尺寸相关的数据结构，来识别对象的尺寸。还可以识别手的姿态。在框1004处使用对象的尺寸和手的姿态来识别手的尺寸。这可以使用ML模型来完成，该ML模型在处于握持已知尺寸对象的各种姿态的手的图像训练集以及地面实况手尺寸上进行训练。手的尺寸可以在框1006处用于计算机模拟中，例如，以渲染握持各种对象的虚拟化的手的正确尺寸的虚拟化。

需注意，关于被握持的对象的位置、取向和类型的信息也可以用于校正手跟踪，而无需附加的电子设备，如果需要，仅依赖于基于CV的***。因此，区分手的正面和手的背面以及例如小指和拇指可以基于使用手握持与对象取向相结合的基于CV的跟踪来执行，即使手或对象的某些部分在相机视野中被遮挡。

此外，抓握姿态和对象姿态还可以用于区别模拟中与虚拟对象的精细运动交互和粗大运动交互，这基于对应的现实世界对象被握持的方式以及帮助设备确定正在执行哪种类型的运动交互的取向。例如，作为玩视频游戏的一部分，像勺子一样握持对象以从虚拟地面上拾起虚拟对象可能需要精细运动技巧，而用手掌握持对象以快速挥动对象上下摆动进行虚拟战斗可能需要粗大运动技巧。与虚拟角色进行虚拟握手也可能需要精细运动技巧，并且在一些示例中，触觉可以在正被抓握的现实世界对象本身处生成，以使现实世界对象模仿作为正被摇动的虚拟角色的手。因此，触觉可以动态生成，并且对模拟上下文敏感，同时对人正在做什么以及他们如何握持现实世界对象的上下文敏感。

应当理解，虽然已经参考一些示例性实施例描述了本发明原理，但是这些并不旨在进行限制，并且可以使用各种替代布置来实现本文所要求保护的主题。

Claims

1.一种方法，所述方法包括：

从至少图像识别握持对象的手的姿态；

至少部分地基于所述姿态来识别触觉反馈；以及

在所述对象上实现所述触觉反馈。

2.根据权利要求1所述的方法，其中所述姿态是第一姿态，所述触觉反馈是第一触觉反馈，并且所述方法还包括：

识别握持对象的所述手的第二姿态；

至少部分地基于所述第二姿态来识别第二触觉反馈；以及

在所述对象上实现所述第二触觉反馈。

3.根据权利要求2所述的方法，其中在其上实现所述第二触觉反馈的所述对象是在其上实现所述第一触觉反馈的同一对象。

4.根据权利要求2所述的方法，其中在其上实现所述第二触觉反馈的所述对象是与在其上实现所述第一触觉反馈的所述对象不同的对象。

5.根据权利要求1所述的方法，所述方法包括：

至少部分地基于所述姿态来改变至少一个用户界面(UI)。

6.根据权利要求1所述的方法，所述方法包括：

基于所述对象的尺寸来识别所述手的尺寸；以及

使用所述手的所述尺寸在至少一个显示器上呈现所述手的虚拟化。

7.根据权利要求1所述的方法，所述方法包括：

至少部分地基于所述图像来跟踪所述图像中被所述手隐藏的所述对象的一部分；以及

至少部分地基于所述跟踪在至少一个显示器上呈现所述对象的虚拟化。

8.一种装置，所述装置包括：

增强现实(AR)头戴式显示器(HMD)；

至少一个物理对象，所述至少一个物理对象包括至少一个触觉发生器；以及

至少一个相机，所述至少一个相机用于对握持所述对象的所述HMD的佩戴者的手进行成像以生成图像，所述图像被提供给至少一个处理器以使用所述触觉发生器根据所述图像中所述手的姿态来产生触觉信号。

9.根据权利要求8所述的装置，其中所述姿态是第一姿态，所述触觉信号是第一触觉信号，并且由所述触觉发生器响应于所述手处于第二姿态而产生第二触觉信号。

10.根据权利要求8所述的装置，其中所述姿态引起在所述HMD上呈现的至少一个用户界面(UI)的改变。

11.根据权利要求8所述的装置，其中基于所述图像中所述对象的尺寸来识别所述手的尺寸并且将其用于在所述HMD上呈现所述手的可视化。

12.根据权利要求8所述的装置，其中至少部分地基于所述图像来跟踪所述图像中被所述手隐藏的所述对象的一部分，以在所述HMD上呈现所述对象的虚拟化。

13.一种设备，所述设备包括：

至少一个计算机存储装置，所述至少一个计算机存储装置不是瞬态信号并且所述至少一个计算机存储装置包括指令，所述指令能够由至少一个处理器执行以：

接收至少第一图像；

从所述第一图像识别握持第一对象的手的第一姿态；

将所述第一姿态与第一触觉信号相关；并且

在所述第一对象上实现所述第一触觉信号。

14.根据权利要求13所述的设备，其中所述指令能够执行以：

接收至少第二图像；

从所述第二图像识别握持器具的所述手的第二姿态；

将所述第二姿态与第二触觉信号相关；并且

在所述器具上实现所述第二触觉信号。

15.根据权利要求13所述的设备，其中所述器具是所述第一对象。

16.根据权利要求13所述的设备，其中所述器具是与所述第一对象不同的第二对象。

17.根据权利要求13所述的设备，其中所述指令能够执行以：

至少部分地基于所述第一姿态来改变至少一个用户界面(UI)。

18.根据权利要求13所述的设备，其中所述指令能够执行以：

基于所述第一对象的尺寸来识别所述手的尺寸；并且

19.根据权利要求13所述的设备，其中所述指令能够执行以：

至少部分地基于所述第一图像来跟踪所述第一图像中被所述手隐藏的所述第一对象的一部分；并且

至少部分地基于所述跟踪在至少一个显示器上呈现所述第一对象的虚拟化。

20.根据权利要求13所述的设备，所述设备包括所述至少一个处理器。