CN107430868A

CN107430868A - 沉浸式可视化***中用户语音的实时重构

Info

Publication number: CN107430868A
Application number: CN201680013675.7A
Authority: CN
Inventors: A·F·米尔豪森; M·约翰斯通; K·克鲁克
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-03-06
Filing date: 2016-02-09
Publication date: 2017-12-01
Anticipated expiration: 2036-02-09
Also published as: CN107430868B; US20170117002A1; US10176820B2; US9558760B2; US20160260441A1; WO2016144459A1; EP3266022A1

Abstract

具有音频能力的可视化***包括一个或多个显示设备、一个或多个话筒、一个或多个扬声器、以及音频处理电路。当显示设备向用户显示全息图像时，话筒输入用户的发言，或来自用户环境的声音，并将其提供给音频处理电路。音频处理电路以实时的方式处理发言(或其他声音)以添加与图像相关联的音频效果以便增加真实性，并经由扬声器以具有非常低的等待时间的实时的方式来向用户输出经处理的发言(或其他声音)。

Description

沉浸式可视化***中用户语音的实时重构

发明领域

本发明的至少一个实施例涉及虚拟现实和增强现实可视化***，并更具体而言，涉及用于在此类***中处理音频的技术。

背景

随着虚拟现实(VR)和增强现实(AR)技术的成熟，VR和AR可视化***开始被引入主流的消费电子市场。AR头戴式显示(HMD)设备(“AR-HMD设备”)是此类技术的一种有前景的应用。这些设备可包括使得用户能够同时看到他们周围的现实世界和由设备生成并显示的虚拟内容两者的透明显示元件。看起来像是叠加在现实世界视图上的虚拟内容通常被称为AR内容。

VR和AR可视化***可为用户提供娱乐、沉浸式的虚拟环境，在该虚拟环境中他们能够可视地和可听地经历他们在现实生活中通常可能不能经历的事物。然而，在此类环境中，如果用户说话或发出语音命令，并且用户的语音与用户所见的内容(包括被显示的虚拟内容)听起来不一致，则所感知的环境真实性可能被降级。

概述

本文所介绍的技术包括一种音频处理方法，通过该音频处理方法AR或VR可视化***可产生与用户所见的显示图像更一致的声音，并且其因此更逼真。在该方法的某些实施例中，HMD设备在该用户环境的现实世界视图上向该设备的用户显示物理事物的全息图像。然后，在全息图像被显示给用户的同时该HMD设备经由话筒输入该用户的语音，在该全息图像仍然被显示的同时以实时的方式动态地处理用户语音数据以并入与物理事物相对应的音频效果，并然后在该全息图像被显示给用户的同时基于动态修改的用户语音数据经由扬声器以实时的方式输出表示受物理事物所影响的用户的语音的声音。根据附图和详细描述，该技术的其他方面将显而易见。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

附图简述

在附图中的各图中作为示例而非限制解说了本发明的一个或多个实施例，其中相同的标记指示相似的元素。

图1A示意性地例示了本文所介绍的音频处理技术。

图1B示出了包括可实现本文所介绍的音频处理技术的AR-HMD设备的环境的示例。

图2示出了其中音频处理技术可被实现的AR-HMD设备的透视图。

图3例示了AR-HMD设备的正视图。

图4例示了AR-HMD设备的侧视图。

图5是示出AR-HMD设备的各种功能组件的示例的框图。

图6示意性地例示了用于隔离用户的语音的音频波束成形技术。

图7是包括两个端射式话筒阵列的音频子***的框图。

图8是例示AR-HMD设备的音频子***的示例的框图。

图9是示出根据本文所介绍的技术的音频处理过程的示例的流程图。

图10是可由AR-HMD设备提供的包括AR内容的第一视图的示例。

图11是可由AR-HMD设备提供的包括具有附加音频效果的AR内容的第二视图的示例。

详细描述

在该描述中，对“一实施例”、“一个实施例”等的引用意味着描述的特定特征、功能、结构或特性被包括在本文中引入的技术的至少一个实施例中。这样的短语在本说明书中的出现不一定全部涉及同一实施例。另一方面，所涉及的各实施例也不一定是相互排斥的。

本文所介绍的是一种音频处理方法，通过该音频处理方法AR或VR可视化***(诸如AR-HMD)可产生与用户所见的显示图像更一致的声音，并且其因此更逼真。通过从虚拟环境的“内部”提供固有的和几乎瞬时的可听反馈，该技术极大地有助于扩大对用户的不信任的暂停。

特别地，通过使用与低等待时间头戴式音频输出结合的低等待时间波束成形话筒，该技术处理具有一个或多个音频效果的用户语音，并将其作为虚拟世界的逼真部分以实时的方式呈现回给用户。例如，如果用户在AR或VR环境中的虚拟教堂中讲话，则用户可听到他或她自己的语音(例如，来自可视化设备的头戴式扬声器)混响好像他或她正处于真正的教堂中一样。如果用户虚拟地处于水下并讲话，则声音可能受“气泡”影响而被消音和/或处理，使得在用户听起来好像他或她正实际处于水下一样。用户例如可将他或她的头部浸入和抬离虚拟水，并以实时的方式听到变化。

本文所介绍的技术还使用头部跟踪能力和头部相关变换函数(HRTF)数据来提供位置认知，并将听觉反射放置在虚拟场景内的正确位置处。例如，即使在运动和环视的同时，用户也可朝虚拟峡谷中大喊并听到从该确切位置回传的语音，并且能够精确定位回传来自的方向。

通过以不同的组合利用话筒阵列，将不同对象与用户的现实世界环境隔离也是可能的。具体而言，话筒可以直接针对用户自己的语音和/或其他人。为了最小化等待时间，可沿可视化设备中尽可能最短的硬件和软件路由来访问所隔离的音频输入信号。数字信号处理可在可视化设备上的专用硬件上或在可视化设备的主处理器上被完成，从而造成可忽略的(但不被期望的)滞后量。

音频处理技术可被如何应用的其他示例包括可视地和可听地模拟用户正处于洞穴、水下、跳伞、或角色扮演(例如，作为巨人、小人、机器人或外星人)中。例如，用户可看到被显示在房间墙壁中的虚拟洞穴，并且在该房间四处移动的同时听到他的语音回传自该房间的该位置处。本文所介绍的技术也可被用于影响该用户附近的其他人和/或其他现实世界对象的语音。例如，该***可使用户能够以实时的方式让他或她的父母听起来像《绿野仙踪》中的“棒棒糖公会(Lollipop Guild)”。

图1A示意性地例示了本文所介绍的音频处理技术。具有音频能力的可视化***包括一个或多个显示设备7、一个或多个话筒8、一个或多个扬声器9、以及音频处理电路10。当显示设备7向用户11显示全息图像12时，话筒8输入用户11的发言X(或来自用户环境的声音)并将其提供给音频处理电路10。音频处理电路10以实时的方式处理发言(或其他声音)X以添加与图像12相关联的音频效果以便增加真实性，并经由扬声器9以具有非常低的等待时间的实时的方式来向用户11输出经处理的发言(或其他声音)X’。

图1B示出了包括可实现音频处理技术的AR-HMD设备的环境的示例。在所示示例中，AR-HMD设备1被配置成通过连接3将数据传递到外部处理设备2并从外部处理设备2接收数据，连接3可以是有线连接、无线连接、或其组合。然而，在其他使用情况中，AR-HMD设备1可用作独立设备。连接3可被配置成承载任何种类的数据，诸如图像数据(例如，静止图像和/或完全运动视频，包括2D和3D图像)、音频数据(包括语音)、多媒体、和/或任何其他类型的数据。处理***2可以是例如游戏控制台、个人计算机、平板计算机、智能电话、或其他类型的处理设备。连接13可以是例如通用串行总线(USB)连接、Wi-Fi连接、蓝牙或蓝牙低能量(BLE)连接、以太网连接、电缆连接、DSL连接、蜂窝连接(例如，3G、LTE/4G或5G)、等或其组合。附加地，处理***2可经由网络4与一个或多个其他处理***5通信，网络4可以是或包括例如局域网(LAN)、广域网(WAN)、内联网、城域网(MAN)、全球因特网、或其组合。

图2示出了根据一个实施例的可合并本文所介绍的音频处理技术的说明性AR-HMD设备的透视图。AR-HMD设备20可以是图1中的AR-HMD设备1的一个实施例。AR-HMD设备21包括头带21，AR-HMD设备20可通过该头带21穿戴在用户的头部上。(直接地或间接地)被附连到头带21的是透明保护性护目镜22，其封包一个或多个透明AR显示设备23，每个透明AR显示设备23可针对一只眼睛或两只眼睛将图像覆盖在用户现实世界环境的用户视图上(例如，通过将光投射到用户的眼睛中)。保护性护目镜22还封包各种电路(未示出)和传感器。

AR-HMD设备20进一步包括：输入来自用户的讲话(例如，用于识别语音命令和提供音频效果)的两个或更多个话筒25(尽管在图2中仅示出一个)；向用户输出声音的两个或多个音频扬声器26；用于捕捉周围表面的图像以允许跟踪用户头部在现实世界空间中的位置和定向的一个或多个可见光谱跟踪相机27；用于确定到附近表面的距离(例如，用于表面重构以对用户环境进行建模)的一个或多个红外(IR)光谱深度相机28；用于与深度相机28一起使用的一个或多个IR照明源29；用于捕捉用户所看到的标准视频的一个或多个可见光谱摄像机30。AR-HMD设备20还包括可被包含在护目镜22内的电路(未示出)，以控制上述元件中的至少一些并执行相关联的数据处理功能。电路可包括例如一个或多个处理器和一个或多个存储器。注意，在其他实施例中，上述组件可位于AR-HMD设备20上的不同位置处。附加地，一些实施例可省略一些上述组件和/或可包括上文未提及的附加组件。

图3例示了AR-HMD设备20的正视图，而图4示出了AR-HMD设备20的相应的左侧视图。在所例示的实施例中，AR-HMD设备20包括四个话筒25。在一些实施例中，话筒25被分组成一个或多个波束成形阵列以提供方向性，诸如一对左侧话筒和一对右侧话筒，如下文进一步讨论的。在所例示的实施例中，在左侧和右侧话筒对的每一对中，该对话筒中的一个大致被安装在用户35的镜腿臂处，而另一个话筒大致被安装在用户35的颊骨上方。在一些实施例中，每侧的顶部和底部话筒之间的距离为大约20-25mm。为了促进波束成形，每对(左和右)的两个话筒沿着从(典型的)用户嘴部的中心到最近的镜腿臂话筒绘制的假想线被定位，以便于音频输入波束成形以将用户的语音与环境中的其他声音隔离，如下文进一步讨论的。请注意，其他话筒配置可能与本文所介绍的技术一致，其中话筒的数量和/或位置可能与图3所示的有所不同。

图5示出了根据一些实施例的AR-HMD设备20的各种功能组件的示例。在图5中，AR-HMD设备20的功能组件包括以下中的每一者的一个或多个实例：主处理器51、存储器52、透明显示设备53、深度相机54、头部跟踪相机55、摄像机56、通信设备57以及音频子***58，它们全通过互连59(直接地或间接地)被耦合在一起。互连59可以是或可以包括一个或多个导电迹线、总线、点到点连接、控制器、适配器、无线链路和/或其他常规连接设备和/或媒体，其中至少一些可彼此独立地操作。

主处理器51单独地和/或共同地控制AR-HMD设备20的总体操作并执行各种数据处理功能。附加地，在一些实施例中，处理器51可提供本文所描述的至少一些音频处理功能。每个处理器51可以是或包括例如一个或多个通用可编程微处理器、数字信号处理器(DSP)、移动应用处理器、微控制器、专用集成电路(ASIC)、可编程门阵列(PGA)等或此类设备的组合。

将处理器51配置成执行本文所介绍的技术方面的数据和指令(代码)60可被存储在一个或多个存储器52中。每个存储器52可以是或可以包括一个或多个物理存储设备，其可以是以下形式：随机存取存储器(RAM)、只读存储器(ROM)(其可以是可擦除并可编程的)、闪存、微型硬盘驱动器、或其他合适类型的存储设备、或这样的设备的组合。

例如，深度相机54可应用飞行时间原理来确定距附近对象的距离。由深度相机54获取的距离信息被用于(例如，被处理器51)构建用户环境中各表面的3D网格模型。头部跟踪相机25使得AR-HMD设备20能够通过获取用户现实世界环境的图像来连续地跟踪用户头部的当前位置和定向。与表面检测和头部跟踪相关联的功能中的至少一些可由处理器51执行。

一个或多个通信设备57使得AR-HMD设备20能够从外部处理***(诸如个人计算机或游戏控制台)接收数据和/或命令，并向该外部处理***发送数据和/或命令。每个通信设备57可以是或包括例如通用串行总线(USB)适配器、Wi-Fi收发机、蓝牙或蓝牙低能量(BLE)收发机、以太网适配器、电缆解调器、DSL解调器、蜂窝收发机(例如，3G、LTE/4G或5G)、基带处理器、等或其组合。

音频子***58执行本文所介绍的音频处理技术中的一些，并且包括例如低等待时间波束成形话筒25和扬声器26以及音频处理电路31(其可包括和/或执行软件)以用音频效果来处理用户的语音，并将其作为虚拟音频世界的逼真部分呈现回给用户。注意，然而，在一些实施例中，音频处理可至少部分地由AR-HMD设备20的主处理器51执行。本文所介绍的技术涉及输入来自用户和/或他的环境的声音，以实时的方式处理该声音以添加音频效果(例如，回传或水下效果)，并然后经由AR-HMD设备20的扬声器输出此声音的经处理的版本，使得从输入声音撞击话筒25的时刻到相应的经处理的音频从扬声器26输出的时刻之间存在非常小的延迟(例如，不超过约50毫秒)。在某些实施例中，至少部分地通过在硬件/软件层级结构中尽可能最低的级别处执行所有的音频处理来实现低等待时间。例如，为了最小化等待时间，在音频子***内，而不是使用设备20的主处理器21执行此音频处理的全部可能是有利的。尽管如此，AR-HMD设备20的替换实施例可具有足够快的硬件以允许主处理器21执行该音频处理的一些或全部。

在一些实施例中，话筒25是全向微机***(MEMS)型话筒。在其他实施例中，它们可以例如是单向驻极体电容式话筒(ECM)，或另一类型的话筒。优选地，话筒具有大于65dB的信噪比，高达约15KHz的平坦响应和约+1dB的灵敏度容差。注意，对最佳波束成形性能而言，在容差方面匹配话筒可能是很重要的。如果使用全向话筒，则波束成形可被用于实现方向性，这可有助于将用户的语音与其他人的语音和用户环境中的其他声音隔离。

图6示意性地例示了用于隔离用户的语音的音频波束成形技术。该技术可使用声音波前64到达每个话筒61的时间差，其中在基本滤波和总和配置中对每个话筒61的输出应用不同的权重w。权重可被设置以创建“感兴趣的方向”，其中不来自于感兴趣的方向的声音可被衰减。附加地，两个全向话筒可被组合以形成单向组装件，即“端射式”波束成形器话筒装件。对于端射式阵列而言，以下四个设计参数通常会影响响应：有向响应频率和频率响应、话筒之间的距离、接收话筒输出的音频电路的采样频率、以及对距声源距离最远的话筒的信号应用的延迟采样的数量。

图7示出了以上文所描述的方式创建的两个端射式子***可如何被组合以形成四话筒波束成形***。AR-HMD 20的话筒25可被配置为图7中的话筒71。每个话筒的输出都被应用于特定加权函数w，其输出被应用于加和器。加和器的输出是波束成形阵列的最终输出。在一些实施例中，话筒71中的两个在用户脸部的一侧(左侧或右侧)上被对准，而另外两个话筒在用户脸部的另一侧上被对准，并被加权以便端射式响应在用户嘴部的方向对准。

图8是更详细地例示AR-HMD设备20的音频子***58的示例的框图。在所例示的实施例中，音频子***58包括音频编解码器82、片上***(SoC)84和存储器85、被布置成两个端射式波束成形对的四个话筒25、以及一对音频扬声器26。音频编解码器82包括用于每个扬声器26的音频放大器电路83等等。SoC 84是音频编解码器82的主控制器。在某些实施例中，SoC 84向音频编解码器82发信号告知何时开始语音处理。在其他实施例中，语音处理中的至少一些可由SoC 84来完成。在一些实施例中，话筒25以脉冲密度调制(PDM)格式输出信号。存储器85存储表示可被应用于用户的语音和/或其他输入声音的一个或多个音频变换的数据86，以产生各种逼真的音频效果(例如回传、混响、水下效果等)。附加地，存储器85可存储用户的HRTF数据，其也可被用于产生音频效果以使它们更符合用户的解剖学，并因此更为逼真。

图9示出了根据本文所介绍的技术的音频处理过程的示例。最初，在步骤901，AR-HMD设备20从深度相机获取关于用户环境中的现实表面的信息，并生成表面重构。表面重构是空间中的3D点的集合，其表示现实世界边缘和表面的轮廓。下一步骤902，AR-HMD设备20基于来自头部跟踪相机的输入来确定用户头部的位置和定向。然后，AR-HMD设备20显示物理事物的全息图像，该全息图像被叠加在用户环境的用户现实世界视图上。物理事物可以是例如对象(例如，大教堂的内部)或物质(例如，水或气体)，或它可以是对象或物质中的腔、间隙或孔(例如，洞穴或峡谷)。全息图像的确切性质及其描绘的物理事物取决于AR-HMD设备20针对其当前正被使用的特定应用以及为该应用提供的AR/VR内容。

图10和11示出了在佩戴AR-HMD设备20时用户可能看到事物的简单示例，以演示该音频处理技术可如何被应用。在此示例中，用户看到了各种现实世界(物理)对象，包括他当前所位于的房间的墙壁、椅子和壁挂式艺术品。此外，AR-HMD设备20正在显示洞穴的全息图像100，使得洞穴的入口看起来像是现实墙壁102的一部分。

参考回图9，在步骤901至903中一旦获取了初始数据并且建立了视觉场景，就在步骤904中AR-HMD设备20继续跟踪用户头部的位置和定向并显示物理事物的全息图像。在全息图像被显示的任何时候(步骤904)，用户都可以发言。在该情况下，步骤905至907与步骤904同时执行以处理发言。例如，在图10和图11的情形下，用户可以站在全息洞穴看起来所处的位置附近的墙壁附近时说“你好”。通常情况下，人不会注意到他自己的讲话被附近墙壁的回传。然而，通过使用本文所介绍的音频处理技术，AR-HMD设备20产生扬声器26的输出，以允许用户听到他自己的语音的回传110，该回传似乎源于全息洞穴“内”，如图11所例示的。

参考回图9，在步骤905中，AR-HMD设备20经由话筒25接收该用户语音输入(和可能的其他用户的波束成形的语音)。接下来，在步骤906，AR-HMD设备20将模拟话筒输出信号转换为数字用户语音数据，并然后以实时的方式基于用户当前头部的位置和定向动态地处理用户语音数据，以合并与全息图像所描绘的物理事物相对应的音频效果。该步骤可包括访问在音频子***58的存储器85(图8)和/或在AR-HMD设备20的主存储器22(图5)中的预存储的(“预先录制的”)音频效果数据，并且使用存储的数据来修改用户语音数据。在其他实例中，然而，其可包括简单地添加固定量的时间延迟，诸如当生成输入声音的简单回传时就可能是这种情况。在步骤907，基于动态修改的用户语音数据，AR-HMD设备20经由扬声器26以实时的方式输出表示受物理事物影响的用户语音的声音。注意，步骤905至907是以实时的方式执行的，即，从输入声音撞击话筒25的时刻到相应的经处理的音频从扬声器26输出的时刻之间存在非常小的延迟(例如，不超过约50毫秒)。

注意，AR-HMD设备20使用头部跟踪数据来确保所处理的音频似乎源于正确的方向。例如，用户可以在站在全息洞穴100之前且其头部稍微转离洞穴的时候说“你好”。在此情况下，音频将被处理使得回传似乎更多的来自于一侧，而不是直接来自于用户的正前方。输出声音的显而易见的(用户感知的)方向性可通过使用常规技术来提供，诸如选择性地改变扬声器的输出的延迟/相位和/或其他参数。

某些实施例的示例

本文中引入的技术的某些实施例被概括在以下被编号的示例中：

1.一种方法，包括：通过头戴显示设备，在所述头戴式显示设备的用户的环境的现实世界视图上向所述头戴式显示设备的所述用户显示物理事物的全息图像；在所述全息图像被显示给所述用户的同时，经由所述头戴式显示设备的话筒输入所述用户的语音；在所述全息图像被显示给所述用户的同时，以实时的方式动态地处理表示所述用户的所述语音的用户语音数据以合并与所述物理事物相对应的音频效果；以及在所述全息图像被显示给所述用户的同时，基于动态处理的用户语音数据，经由扬声器以实时的方式输出表示受所述物理事物影响的所述用户的所述语音的声音。

2.如示例1所述的方法，其中针对所述用户的输入语音的任何特定音频样本，所述输入所述用户的语音和所述向所述用户输出声音之间的等待时间小于75毫秒。

3.如示例1或2所述的方法，其中所述物理事物是对象或物质。

4.如示例1或2所述的方法，其中所述物理事物是对象或物质中的腔或孔。

5.如示例1至4中任一项所述的方法，进一步包括：通过所述头戴式显示设备跟踪所述用户的头部位置或头部定向中的至少一者；其中动态地处理所述用户语音数据进一步基于所述用户的所述头部位置或所述头部定向中的至少一者。

6.如示例1至5中任一项所述的方法，其中动态地修改所述用户语音数据包括基于所述用户的所述头部位置或头部定向中的至少一者来确定经修改的用户语音数据的方向性参数。

7.如示例1至6中任一项所述的方法，进一步包括：通过所述头戴式显示设备生成所述用户的所述环境的表面重构；其中动态地处理所述用户语音数据进一步基于所述表面重构。

8.如示例1至7中任一项所述的方法，其中动态地处理所述用户语音数据包括基于所述用户的头部位置或头部定向中的至少一者来确定经修改的用户语音数据的体积参数。

9.如示例1至8中任一项所述的方法，其中动态地处理所述用户语音数据包括基于所述用户的头部位置或头部定向中的至少一者来确定经修改的用户语音数据的混响参数。

10.如示例1至9中任一项所述的方法，其中动态地处理所述用户语音数据包括基于所述用户的所述头部位置或头部定向中的至少一者来确定所述用户语音的模拟回传的源方向。

11.一种操作具有音频能力的头戴式显示设备的方法，所述方法包括：通过所述头戴式显示设备，向所述头戴式显示设备的用户显示描绘物理事物的全息图像，使得所述全息图像被叠加在所述用户所位于的物理环境的现实世界视图上；在所述全息图像被显示给所述用户的同时，通过使用所述头戴式显示设备的话筒阵列来输入所述用户的语音；在所述全息图像被显示给所述用户的同时，动态地修改表示所述用户的所述语音的用户语音数据以合并与所述物理事物的声学属性相对应的音频效果；以及当所述全息图像被显示给所述用户的同时，基于所述经修改的用户语音数据经由所述头戴式显示设备的扬声器向所述用户输出声音，以产生与所述物理事物的所述声学属性相对应的应用于所述用户的所述语音的可听效果。

12.如示例11所述的方法，其中所述物理事物是以下各项中的至少一者：对象或物质；或对象或物质中的腔或孔。

13.如示例11或12所述的方法，进一步包括：通过所述头戴式显示设备跟踪所述用户的头部位置或头部定向中的至少一者；其中动态地修改所述用户语音数据进一步基于所述用户的所述头部位置或所述头部定向中的至少一者。

14.如示例11至13中任一项所述的方法，进一步包括：获得所述用户所位于的所述物理环境的表面重构，其中动态地修改所述用户语音数据进一步基于所述表面重构。

15.一种头戴式显示设备，包括：头部配件，所述头部配件用于将所述头戴式显示设备安装到用户的头部；显示元件，所述显示元件被耦合到所述头部配件并被配置成在所述用户的环境的现实世界视图上向所述用户显示全息图像，所述全息图像描绘物理事物；在所述全息图像被显示给所述用户的同时输入所述用户的语音的多个话筒；处理器，所述处理器被配置为在所述全息图像被显示给所述用户的同时访问所述音频数据并以实时的方式动态地修改表示所述用户的所述语音的用户语音数据以合并与所述物理事物相对应的音频效果；以及扬声器子***，在所述全息图像被显示给所述用户的同时，所述扬声器子***基于所述经修改的用户语音数据向所述用户输出声音，所述声音表示受所述物理事物影响的所述用户的所述语音。

16.如示例15所述的方法，其中所述多个话筒包括被配置在端射式阵列中的多个全向话筒。

17.如示例15所述的方法，其中所述物理事物是以下各项中的至少一者：对象或物质；或对象或物质中的腔或孔。

18.如示例15至17中任一项所述的方法，进一步包括：用于跟踪所述用户的当前头部位置和头部定向的头部跟踪子***；以及用于标识所述用户环境中的物理表面的位置，并用于基于所标识的物理表面的位置生成表面重构的表面映射子***；其中所述处理器被配置成进一步基于所述用户的所述头部位置或头部定向中的至少一者动态地修改所述用户语音数据。

19.如示例15至18中任一项所述的方法，其中所述处理器被配置成基于所述表面重构来修改所述用户语音数据。

20.如示例15至19中任一项所述的方法，其中动态地修改所述用户语音数据包括确定以下各项中的至少一者：基于所述用户的所述头部位置或头部定向中的至少一者的所述经修改的用户语音数据的方向性参数；基于所述用户的所述头部位置或头部定向中的至少一者的所述经修改的用户语音数据的体积参数；或基于所述用户的所述头部位置或头部定向中的至少一者的所述经修改的用户语音数据的混响参数。

21.一种头戴式显示设备，包括：用于在所述头戴式显示设备的用户的环境的现实世界视图上向所述用户显示物理事物的全息图像的装置；用于在所述全息图像被显示给所述用户的同时，经由所述头戴式显示设备的话筒输入所述用户的语音的装置；用于在所述全息图像被显示给所述用户的同时，以实时的方式动态地处理表示所述用户的所述语音的用户语音数据以合并与所述物理事物相对应的音频效果的装置；以及用于在所述全息图像被显示给所述用户的同时，基于动态处理的用户语音数据，经由扬声器以实时的方式输出表示受所述物理事物影响的所述用户的所述语音的声音的装置。

22.如示例21所述的头戴式显示设备，其中针对所述用户的输入语音的任何特定音频样本，所述输入所述用户的语音和所述向所述用户输出声音之间的等待时间小于75毫秒。

23.如示例21或22所述的头戴式显示设备，其中所述物理事物是对象或物质。

24.如示例21至23中任一项所述的头戴式显示设备，其中所述物理事物是对象或物质中的腔或孔。

25.如示例21至24中任一项所述的头戴式显示设备，进一步包括：用于跟踪所述用户的头部位置或头部定向中的至少一者的装置；其中动态地处理所述用户语音数据进一步基于所述用户的所述头部位置或所述头部定向中的至少一者。

26.如示例21至25中任一项所述的头戴式显示设备，其中动态地修改所述用户语音数据包括基于所述用户的所述头部位置或头部定向中的至少一者来确定经修改的用户语音数据的方向性参数。

27.如示例21至26中任一项所述的头戴式显示设备，进一步包括：用于生成所述用户的环境的表面重构的装置；其中动态地处理所述用户语音数据进一步基于所述表面重构。

28.如示例21至27中任一项所述的头戴式显示设备，其中动态地处理所述用户语音数据包括基于所述用户的头部位置或头部定向中的至少一者来确定经修改的用户语音数据的体积参数。

29.如示例21至28中任一项所述的头戴式显示设备，其中动态地处理所述用户语音数据包括基于所述用户的头部位置或头部定向中的至少一者来确定经修改的用户语音数据的混响参数。

30.如示例21至29中任一项所述的头戴式显示设备，其中动态地处理所述用户语音数据包括基于所述用户的所述头部位置或头部定向中的至少一者来确定所述用户语音的模拟回传的源方向。

如本领域普通技术人员显而易见的，以上描述的特征和功能中的任意或全部可彼此组合，除了被以其它方式在上文中言明或者任何这样的实施例可能因为其功能或结构而不兼容。除了与物理可能性相违背，设想了(i)本文描述的方法/步骤可以任意顺序和/或以任意组合来执行，并且(ii)各个实施例的组件可以任意方式组合。

尽管用结构特征和/或动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述特定特征和动作是作为实现权利要求书的示例而公开的，并且其他等价特征和动作旨在处于权利要求书的范围内。

Claims

1.一种方法，包括：

通过头戴显示设备，在所述头戴式显示设备的用户的环境的现实世界视图上向所述头戴式显示设备的所述用户显示物理事物的全息图像；

在所述全息图像被显示给所述用户的同时，经由所述头戴式显示设备的话筒输入所述用户的语音；

在所述全息图像被显示给所述用户的同时，以实时的方式动态地处理表示所述用户的所述语音的用户语音数据以合并与所述物理事物相对应的音频效果；以及

在所述全息图像被显示给所述用户的同时，基于动态处理的用户语音数据，经由扬声器以实时的方式输出表示受所述物理事物影响的所述用户的所述语音的声音。

2.如权利要求1所述的方法，其特征在于，针对所述用户的输入语音的任何特定音频样本，所述输入所述用户的语音和所述向所述用户输出声音之间的等待时间小于75毫秒。

3.如权利要求1或2所述的方法，其特征在于，所述物理事物是对象或物质。

4.如权利要求1或2所述的方法，其特征在于，所述物理事物是对象或物质中的腔或孔。

5.如权利要求1至4中任一项所述的方法，其特征在于，进一步包括：

通过所述头戴式显示设备跟踪所述用户的头部位置或头部定向中的至少一者；

其中动态地处理所述用户语音数据进一步基于所述用户的所述头部位置或所述头部定向中的至少一者。

6.如权利要求1至5中任一项所述的方法，其特征在于，动态地修改所述用户语音数据包括基于所述用户的所述头部位置或头部定向中的至少一者来确定经修改的用户语音数据的方向性参数。

7.如权利要求1至6中任一项所述的方法，其特征在于，进一步包括：

通过所述头戴式显示设备生成所述用户的所述环境的表面重构；

其中动态地处理所述用户语音数据进一步基于所述表面重构。

8.如权利要求1至7中任一项所述的方法，其特征在于，动态地处理所述用户语音数据包括基于所述用户的所述头部位置或头部定向中的至少一者来确定所述用户语音的模拟回传的源方向。

9.如权利要求1至8中任一项所述的方法，其特征在于，所述方法包括：

在所述全息图像被显示给所述用户的同时，通过使用所述头戴式显示设备的话筒阵列来输入所述用户的所述语音；

其中在所述全息图像被显示给所述用户的同时，所述动态地处理表示所述用户的所述语音的用户语音数据包括动态地修改表示所述用户的所述语音的所述用户语音数据以合并与所述物理事物的声学属性相对应的音频效果。

10.一种头戴式显示设备，包括：

头部配件，所述头部配件用于将所述头戴式显示设备安装到用户的头部；

显示元件，所述显示元件被耦合到所述头部配件并被配置成在所述用户的环境的现实世界视图上向所述用户显示全息图像，所述全息图像描绘物理事物；

在所述全息图像被显示给所述用户的同时输入所述用户的语音的多个话筒；

处理器，所述处理器被配置为在所述全息图像被显示给所述用户的同时访问所述音频数据并以实时的方式动态地修改表示所述用户的所述语音的用户语音数据以合并与所述物理事物相对应的音频效果；以及

扬声器子***，在所述全息图像被显示给所述用户的同时，所述扬声器子***基于所述经修改的用户语音数据向所述用户输出声音，所述声音表示受所述物理事物影响的所述用户的所述语音。

11.如权利要求10所述的头戴式显示设备，其特征在于，所述多个话筒包括被配置在端射式阵列中的多个全向话筒。

12.如权利要求10或11所述的头戴式显示设备，其特征在于，所述物理事物是以下各项中的至少一者：

对象或物质；或

对象或物质中的腔或孔。

13.如权利要求10至12中任一项所述的头戴式显示设备，其特征在于，进一步包括：

用于跟踪所述用户的当前头部位置和头部定向的头部跟踪子***；以及

用于标识所述用户环境中的物理表面的位置，并用于基于所标识的物理表面的位置生成表面重构的表面映射子***；

其中所述处理器被配置成进一步基于所述用户的所述头部位置或头部定向中的至少一者动态地修改所述用户语音数据。

14.如权利要求10至13中任一项所述的头戴式显示设备，其特征在于，所述处理器被配置成基于所述表面重构来修改所述用户语音数据。

15.如权利要求10至14中任一项所述的头戴式显示设备，其特征在于，动态地修改所述用户语音数据包括确定以下各项中的至少一者：

基于所述用户的所述头部位置或头部定向中的至少一者的所述经修改的用户语音数据的方向性参数；

基于所述用户的所述头部位置或头部定向中的至少一者的所述经修改的用户语音数据的体积参数；或

基于所述用户的所述头部位置或头部定向中的至少一者的所述经修改的用户语音数据的混响参数。