CN111713091A

CN111713091A - 混合现实虚拟混响

Info

Publication number: CN111713091A
Application number: CN201980012962.XA
Authority: CN
Inventors: A·A·塔吉克; J-M·约特
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2018-02-15
Filing date: 2019-02-15
Publication date: 2020-09-25
Also published as: IL276510B1; EP3753238A1; IL305799A; JP2023090737A; CA3090390A1; WO2019161313A1; US11477510B2; JP2021514081A; IL305799B1; EP3753238A4; US20240015352A1; IL276510A; US20210084357A1; IL276510B2; US20230007332A1; US11800174B2; CN116781827A

Abstract

公开了一种将音频信号呈现给混合现实环境的用户的方法，所述方法包括以下步骤：检测混合现实环境中的第一音频信号，其中，第一音频信号是真实音频信号；识别由混合现实环境中的第一音频信号相交的虚拟对象；识别与用户相关联的听者坐标；使用虚拟对象和听者坐标确定传递函数；将传递函数应用到第一音频信号以产生第二音频信号；以及向用户呈现第二音频信号。

Description

混合现实虚拟混响

相关申请的交叉引用

本申请要求于2018年2月15日提交的美国临时专利申请号62/631,418的权益，其整体通过引用并入本文。

技术领域

本公开大体涉及用于呈现音频信号的***和方法，并且特别地涉及用于向混合现实环境的用户呈现反射的音频信号的***和方法。

背景技术

虚拟环境在计算环境中是普遍存在的，发现用于视频游戏(其中，虚拟环境可表示游戏世界)；地图(其中，虚拟环境可表示待导航的地形)；模拟(其中，虚拟环境可模拟真实环境)；数字讲故事(其中，虚拟角色可在虚拟环境中彼此交互)；和许多其他应用。现代计算机用户通常舒适感知虚拟环境并且与虚拟环境交互。然而，关于虚拟环境的用户体验可能受限于用于呈现虚拟环境的技术。例如，常规显示器(例如，2D显示屏)和音频***(例如，固定扬声器)可能不能够以产生令人信服、现实并且沉浸式体验的方式实现虚拟环境。

虚拟现实(“VR”)、增强现实(“AR”)、混合现实(“MR”)、和相关技术(统称为“XR”)共享向XR***的用户呈现对应于由计算机***中的数据表示的虚拟环境的感觉信息的能力。本公开预期了VR、AR和MR***之间的区别(尽管在一方面中(例如，视觉方面)一些***可被分类为VR，并且同时在另一方面中(例如，音频方面)被分类为AR或MR))。如本文所使用的，VR***呈现了在至少一个方面中替换用户的真实环境的虚拟环境；例如，VR***可以向用户呈现虚拟环境的视图，而同时模糊他或她的真实环境的视图，诸如利用光阻头戴式显示器。类似地，VR***可以向用户呈现对应于虚拟环境的音频，而同时阻挡(衰减)来自真实环境的音频。

VR***可能经历由用虚拟环境替换用户的真实环境导致的各种缺点。一个缺点是当用户在虚拟环境中的视场不再对应于他或她的内耳的状态时可能出现的晕动病的感觉，他或她的内耳的状态检测真实环境(非虚拟环境)中的个人的平衡和取向。类似地，用户可能经历他们自己的身体和四肢(用户依赖于其身体和四肢的视图来在真实环境中感觉“触地(grounded)”)不直接可见的VR环境中的混乱取向。另一个缺点是置于VR***上的计算负担(例如，存储、处理能力)，该VR***必须呈现全3D虚拟环境，特别地在试图使用户沉浸在虚拟环境中的实时应用中。类似地，这样的环境可能需要达到非常高标准的真实性以被认为是沉浸式的，因为用户倾向于对虚拟环境中的甚至较小的不完美敏感—其中的任何一个可能破坏虚拟环境中的用户的沉浸感。进一步地，VR***的另一个缺点在于，***的这样的应用不能利用真实环境中的广泛的感觉数据，诸如人们在真实世界中体验的各种视觉和声音。相关缺点在于，VR***可能努力创建多个用户可以交互的共享环境，因为共享真实环境中的物理空间的用户可能不能够在虚拟环境中直接看到彼此或彼此交互。

如本文所使用的，在至少一个方面中，AR***呈现重叠或覆盖真实环境的虚拟环境。例如，AR***可以向用户呈现覆盖在用户的真实环境的视图上的虚拟环境的视图，诸如利用呈现显示的图像同时允许光穿过显示器到用户的眼睛中的透射式头戴式显示器。类似地，AR***可以向用户呈现对应于虚拟环境的音频，而同时在来自真实环境的音频中混合。类似地，如本文所使用的，如AR***那样，MR***在至少一个方面中呈现重叠或覆盖真实环境的虚拟环境，并且可以附加地在至少一个方面中允许MR***中的虚拟环境可以与真实环境交互。例如，虚拟环境中的虚拟角色可以切换真实环境中的灯开关，使得真实环境中的对应的灯泡接通或关断。作为另一个示例，虚拟角色可以对真实环境中的音频信号作出反应(诸如用面部表情)。通过维持真实环境的呈现，AR和MR***可以避免VR***的前述缺点中的一些缺点；例如，用户的晕动病减少，因为来自真实环境(包括用户自己的身体)的视觉线索可以保持可见，并且这样的***不需要向用户呈现完全实现3D环境以便是沉浸式的。进一步地，AR和MR***可以利用真实世界感觉输入(例如，场景、对象和其他用户的视图和声音)来创建增强该输入的新应用。

XR***可向用户提供与虚拟环境交互的各种方式；例如，XR***可包括用于检测用户的位置和取向、面部表情、语音和其他特性的各种传感器(例如，相机、麦克风等)；并将该信息作为输入呈现给虚拟环境。一些XR***可包含配备传感器的输入设备，诸如虚拟“木槌”，并且可以被配置为检测输入设备的位置、取向或其他特性。

XR***可通过将虚拟视觉和音频线索与真实视觉和声音组合来提供独特强化的沉浸感和真实性。例如，以模拟我们自己的感觉体验的各方面(特别地细微方面)的方式将音频线索呈现给XR***的用户可能是期望的。本发明涉及向用户呈现模拟混合现实环境中的虚拟对象上的真实声波(例如，用户的自己的语音)的反射的反射的音频信号。通过考虑用户相对于虚拟对象的位置和取向，以及虚拟对象的属性(诸如其材料特性)，如果虚拟对象是用户环境中的真实对象，则反射的音频信号可以模拟将由用户听到的反射。通过使用虚拟对象呈现忠实于声波在现实世界中表现的方式的音频线索，用户可以体验混合现实环境中的这样的虚拟对象的强化意识。

在一个使用的示例中，来自附近虚拟对象(例如，保持距用户的脸20厘米的虚拟书)的用户自己语音的早到达反射被合成。以这种方式，可以增强混合现实环境中的虚拟内容的真实性。由于是虚拟的，所以书不能将用户的语音物理反射回到用户的耳朵；但是如果书真实，则将产生的反射的音频波可以被计算，并且经由例如耦合到混合现实可穿戴头部设备的一个或多个扬声器输出。

发明内容

本公开的示例描述了用于将音频信号呈现给混合现实环境的用户的***和方法。在一个示例中，一种方法包括以下步骤：检测混合现实环境中的第一音频信号，其中，第一音频信号是真实音频信号；识别由混合现实环境中的第一音频信号相交的虚拟对象；识别与用户相关联的听者坐标；使用虚拟对象和听者坐标确定传递函数；将传递函数应用到第一音频信号以产生第二音频信号；以及向用户呈现第二音频信号。

附图说明

图1A-1C示出了示例混合现实环境。

图2A-2D示出了可用于生成并且与混合现实环境交互的示例混合现实***的组件。

图3A示出了可用于向混合现实环境提供输入的示例混合现实手持式控制器。

图3B示出了可以包含在示例混合现实***中的示例辅助单元。

图4示出了用于示例混合现实***的示例功能框图。

图5A-5B示出了包括用户、虚拟对象和在虚拟对象上反射的音频信号的示例混合现实环境。

图6示出了用于将反射的音频信号呈现给混合现实环境的用户的示例流程图。

图7示出了用于将反射的音频信号呈现给混合现实环境的用户的示例功能框图。

具体实施方式

在以下示例的描述中，对附图进行参考，该附图形成以下示例的描述的一部分，并且在附图中，通过图示可以实践的具体示例的方式示出。应理解，在不脱离所公开的示例的范围的情况下，可以使用其他示例并且可以做出结构改变。

混合现实环境

像所有人一样，混合现实***的用户存在于真实环境中—即，“真实世界”的三维部分和可由用户感知的其所有内容。例如，用户使用个人的普通人类感觉(视觉、声音、触觉、味道、气味)感知真实世界，并且通过在真实环境中移动个人自己的身体与真实环境交互。真实环境中的位置可被描述为坐标空间中的坐标；例如，坐标可包括纬度、经度和相对于海平面的海拔；在三个正交维度上距参考点的距离；或其他适合的值。同样地，矢量可描述具有坐标空间中的方向和幅度的数量。

计算设备可例如在与设备相关联的存储器中维持虚拟环境的表示。如本文所使用的，虚拟环境是三维空间的计算表示。虚拟环境可包括任何对象、动作、信号、参数、坐标、矢量、或与该空间相关联的其他特性的表示。在一些示例中，计算设备的电路(例如，处理器)可以维持和更新虚拟环境的状态；即，处理器可以在第一时间t0处基于与虚拟环境相关联的数据和/或由用户提供的输入来确定第二时间t1处的虚拟环境的状态。例如，如果虚拟环境中的对象在时间t0处位于第一坐标处，并且具有某个编程的物理参数(例如，质量、摩擦系数)；以及从用户接收的输入指示力应当以方向矢量施加到该对象；则处理器可应用运动学定律来使用基础力学确定时间t1处的对象的位置。处理器可以使用关于虚拟环境已知的任何适合的信息和/或任何适合的输入来确定时间t1处的虚拟环境的状态。在维持和更新虚拟环境的状态时，处理器可执行任何适合的软件，包括与虚拟环境中的虚拟对象的创建和删除有关的软件；用于定义虚拟环境中的虚拟对象或角色的行为的软件(例如，脚本)；用于定义虚拟环境中的信号(例如，音频信号)的行为的软件；用于创建和更新与虚拟环境相关联的参数的软件；用于生成虚拟环境中的音频信号的软件；用于处理输入和输出的软件；用于实现网络操作的软件；用于应用资产数据(例如，随时间移动虚拟对象的动画数据)的软件；或许多其他可能性。

输出设备(诸如显示器或者扬声器)可以向用户呈现虚拟环境的任何或所有方面。例如，虚拟环境可以包括可以呈现给用户的虚拟对象(其可包括无生命对象；人；动物；光；等的表示)。处理器可以确定虚拟环境的视图(例如，对应于具有坐标原点、视图轴和视锥的“相机”)；以及向显示器渲染对应于该视图的虚拟环境的可视场景。出于该目的，可以使用任何适合的渲染技术。在一些示例中，可视场景可以仅包括虚拟环境中的一些虚拟对象，并且不包括某些其他虚拟对象。类似地，虚拟环境可包括可作为一个或多个音频信号呈现给用户的音频方面。例如，虚拟环境中的虚拟对象可生成源于对象的位置坐标的声音(例如，虚拟角色可以说话或引起声音效果)；或者虚拟环境可以与音乐线索或环境声音相关联，音乐线索可以与或可以不与特定位置相关联。处理器可确定对应于“听者”坐标的音频信号—例如，对应于虚拟环境中的声音的复合并且被混合和处理以模拟将由听者坐标处的听者听到的音频信号—并且经由一个或多个扬声器将音频信号呈现给用户。

由于虚拟环境仅作为计算结构存在，所以用户不能使用个人的普通感觉直接感知虚拟环境。相反，用户可以仅间接地感知如呈现给用户的虚拟环境，例如通过显示器、扬声器、触觉输出设备等。类似地，用户不能直接接触、操控、或以其他方式与虚拟环境交互；但是可以经由输入设备或传感器将输入数据提供给可使用设备或传感器数据更新虚拟环境的处理器。例如，相机传感器可提供指示用户正试图移动虚拟环境中的对象的光学数据，并且处理器可使用该数据使得对象在虚拟环境中相应地作出反应。

混合现实***可以向用户呈现组合真实环境和虚拟环境的方面的混合现实环境(“MRE”)，例如使用透射式显示器和/或一个或多个扬声器(其可以例如包含在可穿戴头部设备中)。在一些实施例中，一个或多个扬声器可以在可穿戴头部设备的外部。如本文所使用的，MRE是真实环境和对应的虚拟环境的同时表示。在一些示例中，对应的真实环境和虚拟环境共享单个坐标空间；在一些示例中，真实坐标空间和对应的虚拟坐标空间通过变换矩阵(或其他适合的表示)彼此相关。因此，单个坐标(在一些示例中，连同变换矩阵一起)可以定义真实环境中的第一位置，以及虚拟环境中的第二对应位置；反之亦然。

在MRE中，虚拟对象(例如，在与MRE相关联的虚拟环境中)可以对应于真实对象(例如，在与MRE相关联的真实环境中)。例如，如果MRE的真实环境包括位置坐标处的真实灯杆(真实对象)，则MRE的虚拟环境可包括对应的位置坐标处的虚拟灯杆(虚拟对象)。如本文所使用的，真实对象组合其对应的虚拟对象一起构成“混合现实对象”。不需要虚拟对象与对应的真实对象完美匹配或者对准。在一些示例中，虚拟对象可以是对应的真实对象的简化版本。例如，如果真实环境包括真实灯杆，则对应的虚拟对象可以包括具有与真实灯杆粗略地相同的高度和半径的圆柱体(反映该灯杆可以在形状方面是粗略地圆柱形的)。以这种方式简化虚拟对象可以允许计算效率，并且可以简化将在这样的虚拟对象上执行的计算。进一步地，在MRE的一些示例中，真实环境中的并非所有真实对象可以与对应的虚拟对象相关联。同样地，在MRE的一些示例中，虚拟环境中的并非所有虚拟对象可以与对应的真实对象相关联。即，一些虚拟对象可以仅在MRE的虚拟环境中而没有任何现实世界配对物。

在一些示例中，虚拟对象可以具有与对应的真实对象的特性不同(有时彻底不同)的特性。例如，虽然MRE中的真实环境可以包括绿色双臂仙人掌—多刺无生命对象—MRE中的对应的虚拟对象可以具有带有人面特征和粗暴行为的绿色双臂虚拟角色的特性。在该示例中，虚拟对象在某些特性(颜色、臂数)方面类似其对应的真实对象；但是在其他特性(面部特征、个性)方面与真实对象不同。以这种方式，虚拟对象具有以创造性、抽象、夸大、或想象的方式表示真实对象的潜在性；或者向其他无生命真实对象给予行为(例如，人类个性化)。在一些示例中，虚拟对象可以是纯想象创造而没有现实世界配对物(例如，虚拟环境中的虚拟怪物，也许在对应于真实环境中的空白空间的位置处)。

与向用户呈现虚拟环境同时模糊真实环境的VR***相比，呈现MRE的混合现实***提供当虚拟环境被呈现时真实环境保持可感知的优点。因此，混合现实***的用户能够使用与真实环境相关联的视觉和音频线索来体验对应的虚拟环境并且与对应的虚拟环境交互。作为示例，当VR***的用户可能努力感知虚拟环境中显示的虚拟对象或与虚拟环境中显示的虚拟对象交互时—因为如上所述，用户不能直接感知虚拟环境或与虚拟环境交互—MR***的用户可以通过看、听和触摸他或她自己的真实环境中的对应的真实对象来发现其与虚拟对象直观并且自然的交互。该交互性水平可以提高用户与虚拟环境沉浸、连接和接合的感觉。类似地，通过同时呈现真实环境和虚拟环境，混合现实***可以减少与VR***相关联的负面心理感觉(例如，认知失调)和负面身体感觉(例如，晕动病)。混合现实***进一步为可以增强或更改我们的现实世界的体验的应用提供许多可能性。

图1A示出了用户110使用混合现实***112的示例真实环境100。混合现实***112可以包括显示器(例如，透射式显示器)和一个或多个扬声器，以及一个或多个传感器(例如，相机)，例如如下文所描述的。示出的真实环境100包括用户110站立的矩形房间104A；以及真实对象122A(灯)、124A(桌子)、126A(沙发)和128A(油画)。房间104A还包括位置坐标106，其可以被称为是真实环境100的原点。如图1A所示，具有其点106(世界坐标)处的原点的环境/世界坐标系108(包括x轴108X、y轴108Y和z轴108Z)可以定义用于真实环境100的坐标空间。在一些实施例中，环境/世界坐标系108的原点106可以对应于混合现实环境112供电的位置。在一些实施例中，环境/世界坐标系108的原点106可以在操作期间重置。在一些示例中，用户110可以被认为是真实环境100中的真实对象；类似地，用户110的身体部分(例如，手、脚)可以被认为是真实环境100中的真实对象。在一些示例中，具有点115(例如，用户/听者/头部坐标)处的其原点的用户/听者/头部坐标系114(包括x轴114X、y轴114Y和z轴114Z)可以定义针对混合现实***112所位于的用户/听者/头部的坐标空间。用户/听者/头部坐标系114的原点115可以相对于混合现实***112的一个或多个组件来定义。例如，用户/听者/头部坐标系114的原点115可以相对于混合现实***112的显示器来定义，诸如在混合现实***112的初始校准期间。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他适合的表示可以表征用户/听者/头部坐标系114空间与环境/世界坐标系108空间之间的变换。在一些实施例中，左耳坐标116和右耳坐标117可以相对于用户/听者/头部坐标系114的原点115来定义。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或者其他适合的表示可以表征左耳坐标116和右耳坐标117与用户/听者/头部坐标系114空间之间的变换。用户/听者/头部坐标系114可以简化相对于用户的头部或头戴式设备的位置的表示，例如，相对于环境/世界坐标系108。使用同时定位和地图创建(SLAM)、视觉里程计或其他技术，用户坐标系114与环境坐标系108之间的变换可以实时确定和更新。

图1B示出了对应于真实环境100的示例虚拟环境130。示出的虚拟环境130包括对应于真实矩形房间104A的虚拟矩形房间104B；对应于真实对象122A的虚拟对象122B；对应于真实对象124A的虚拟对象124B；以及对应于真实对象126A的虚拟对象126B。与虚拟对象122B、124B、126B相关联的元数据可以包括从对应的真实对象122A、124A、126A导出的信息。虚拟环境130附加地包括虚拟怪物132，该虚拟怪物132不对应于真实环境100中的任何真实对象。真实环境100中的真实对象128A不对应于虚拟环境130中的任何虚拟对象。具有点134(持久坐标)处的其原点的持久坐标系133(包括x轴133X、y轴133Y和z轴133Z)可以定义用于虚拟内容的坐标空间。持久坐标系133的原点134可以相对于/关于一个或多个真实对象来定义，诸如真实对象126A。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他适合的表示可以表征持久坐标系133空间与环境/世界坐标系108空间之间的变换。在一些实施例中，虚拟对象122B、124B、126B和132中的每个虚拟对象可以具有相对于持久坐标系133的原点134的其自己的持久坐标点。在一些实施例中，可以存在多个持久坐标系，并且虚拟对象122B、124B、126B和132中的每个虚拟对象可以具有相对于一个或多个持久坐标系的其自己的持久坐标点。

相对于图1A和图1B，环境/世界坐标系108定义用于真实环境100和虚拟环境130二者的共享坐标空间。在示出的示例中，坐标空间具有在点106处的其原点。进一步地，坐标空间由相同三个正交轴(108X、108Y、108Z)定义。因此，真实环境100中的第一位置和虚拟环境130中的第二对应位置可以相对于相同坐标空间来描述。这简化了识别和显示真实环境和虚拟环境中的对应的位置，因为相同坐标可以用于识别这两个位置。然而，在一些示例中，对应的真实环境和虚拟环境不需要使用共享坐标空间。例如，在一些示例中(未示出)，矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他适合的表示可以表征真实环境坐标空间与虚拟环境坐标空间之间的变换。

图1C示出了经由混合现实***112将真实环境100和虚拟环境130的各方面同时呈现给用户的示例MRE 150。在示出的示例中，MRE 150同时向用户110呈现来自真实环境100的真实对象122A、124A、126A和128A(例如，经由混合现实***112的显示器的透射部分)；以及来自虚拟环境130的虚拟对象122B、124B、126B和132(例如，经由混合现实***112的显示器的有源显示部分)。如上文，原点106充当用于对应于MRE 150的坐标空间的原点，并且坐标系108定义用于坐标空间的x轴、y轴和z轴。

在示出的示例中，混合现实对象包括占用坐标空间108中的对应位置的对应的真实对象和虚拟对象对(即，122A/122B、124A/124B、126A/126B)。在一些示例中，真实对象和虚拟对象二者可以对用户110同时可见。这可能在例如虚拟对象呈现被设计为增强对应真实对象的视图的信息的实例中(诸如在虚拟对象呈现古代损坏雕塑的丢失件的博物馆应用中)是期望的。在一些示例中，可以显示虚拟对象(122B、124B和/或126B)(例如，经由使用像素化遮挡快门的有源像素化遮挡)以便遮挡对应的真实对象(122A、124A和/或126A)。这可能在例如虚拟对象充当用于对应的真实对象的视觉替换的实例中(诸如在无生命真实对象变为“活的”角色的交互式讲故事应用中)是期望的。

在一些示例中，真实对象(例如，122A、124A、126A)可以与可以不必构成虚拟对象的虚拟内容或辅助数据相关联。虚拟内容或辅助数据可以促进混合现实环境中的虚拟对象的处理或处置。例如，这样的虚拟内容可以包括以下各项的二维表示：对应的真实对象；与对应的真实对象相关联的定制资产类型；或与对应的真实对象相关联的统计数据。该信息可以使能或者促进涉及真实对象的计算而不引起不必要的计算开销。

在一些示例中，上文所描述的呈现还可以包含音频方面。例如，在MRE 150中，虚拟怪物132可以与一个或多个音频信号相关联，诸如当怪物在MRE 150周围到处走时生成的脚步声效果。如下文进一步描述的，混合现实***112的处理器可以计算对应于MRE 150中的所有此类声音的混合和处理的复合的音频信号，并且经由包括在混合现实***112中的一个或多个扬声器和/或一个或多个外部扬声器将音频信号呈现给用户110。

示例混合现实***

示例混合现实***112可以包括可穿戴头部设备(例如，可穿戴增强现实或混合现实头部设备)，其包括：显示器(其可以包括可以是近眼显示器的左和右透射式显示器，以及用于将来自显示器的光耦合到用户的眼睛的相关联的组件)；左和右扬声器(例如，其分别邻近用户的左耳和右耳定位)；惯性测量单元(IMU)(例如，其安装到头部设备的支撑臂)；正交线圈电磁接收器(例如，其安装到左支撑件)；远离用户取向的左和右相机(例如，深度(飞行时间)相机)；以及朝向用户取向的左和右眼相机(例如，用于检测用户的眼运动)。然而，混合现实***112可以包含任何适合的显示技术，以及任何适合的传感器(例如，光学、红外、声学、LIDAR、EOG、GPS、磁的)。另外，混合现实***112可以包含网络特征(例如，Wi-Fi能力)，以与其他设备和***(包括其他混合现实***)通信。混合现实***112还可以包括电池(其可以安装在辅助单元中，诸如被设计为穿戴在用户的腰部周围的腰带包)、处理器和存储器。混合现实***112的可穿戴头部设备可以包括跟踪组件，诸如IMU或其他适合的传感器，其被配置为输出可穿戴头部设备相对于用户的环境的一组坐标。在一些示例中，跟踪组件可以向执行同时定位和地图创建(SLAM)和/或视觉里程计算法的处理器提供输入。在一些示例中，混合现实***112还可以包括手持式控制器300和/或辅助单元320，其可以是可穿戴腰带包，如下文进一步描述的。

图2A-2D示出了可以用于将MRE(其可以对应于MRE 150)或其他虚拟环境呈现给用户的示例混合现实***200(其可以对应于混合现实***112)的组件。图2A示出了在示例混合现实***200中包括的可穿戴头部设备2102的透视图。图2B示出了在用户的头部2202上穿戴的可穿戴头部设备2102的俯视图。图2C示出了可穿戴头部设备2102的前视图。图2D示出了可穿戴头部设备2102的示例目镜2110的边视图。如图2A-2C所示，示例可穿戴头部设备2102包括示例左目镜(例如，左透明波导集目镜)2108和示例右目镜(例如，右透明波导集目镜)2110。每个目镜2108和2110可以包括：透射元件，通过该透射元件，真实环境可以是可见的；以及显示元件，其用于呈现重叠真实环境的显示(例如，经由成影像调制光)。在一些示例中，这样的显示元件可以包括用于控制成影像调制光的流动的表面衍射光学元件。例如，左目镜2108可以包括左耦入光栅集2112、左正交光瞳扩展(OPE)光栅集2120和左出射(输出)光瞳扩展(EPE)光栅集2122。类似地，右目镜2110可以包括右耦入光栅集2118、右OPE光栅集2114和右EPE光栅集2116。成影像调制光可以经由耦入光栅2112和2118、OPE 2114和2120、和EPE 2116和2122传递到用户的眼睛。每个耦入光栅集2112、2118可以被配置为朝向其对应的OPE光栅集2120、2114偏转光。每个OPE光栅集2120、2114可以被设计为朝向其相关联的EPE 2122、2116向下递增地偏转光，从而水平延伸形成的出射光瞳。每个EPE 2122、2116可以被配置为将从其对应的OPE光栅集2120、2114接收的光的至少一部分向外递增地重引导到限定在目镜2108、2110后面的用户眼盒(eyebox)位置(未示出)，从而垂直延伸在眼盒处形成的出射光瞳。可替代地，代替耦入光栅集2112和2118、OPE光栅集2114和2120、和EPE光栅集2116和2122，目镜2108和2110可以包括用于控制将成影像调制光耦合到用户的眼睛的光栅和/或折射和反射特征的其他布置。

在一些示例中，可穿戴头部设备2102可以包括左边撑臂2130和右边撑臂2132，其中，左边撑臂2130包括左扬声器2134并且右边撑臂2132包括右扬声器2136。正交线圈电磁接收器2138可以定位在左边撑件中，或者在可穿戴头部设备2102中的另一适合的位置。惯性测量单元(IMU)2140可以定位在右边撑臂2132中，或者在可穿戴头部设备2102中的另一适合的位置。可穿戴头部设备2102还可以包括左深度(例如，飞行时间)相机2142和右深度相机2144。深度相机2142、2144可以在不同方向上合适地取向以便一起覆盖更宽的视场。

在图2A-2D中示出的示例中，左成影像调制光源2124可以通过左耦入光栅集2112光学耦合到左目镜2108中，并且右成影像调制光源2126可以通过右耦入光栅集2118光学耦合到右目镜2110中。成影像调制光源2124、2126可以包括例如光纤扫描器；包括电子光调制器的投影仪，诸如数字光处理(DLP)芯片或硅上液晶(LCoS)调制器；或发射显示器，诸如微发光二极管(μLED)或微有机发光二极管(μOLED)面板，其使用每侧一个或多个透镜耦合到耦入光栅集2112、2118中。输入耦合光栅集2112、2118可以将来自成影像调制光源2124、2126的光偏转到大于针对目镜2108、2110的全内反射(TIR)的临界角的角度。OPE光栅集2114、2120朝向EPE光栅集2116、2122递增地偏转通过TIR传播的光。EPE光栅集2116、2122将光递增地耦向用户的面部，包括用户的眼睛的瞳孔。

在一些示例中，如图2D所示，左目镜2108和右目镜2110中的每一个包括多个波导2402。例如，每个目镜2108、2110可以包括多个单独波导，每个波导专用于相应的颜色通道(例如，红色、蓝色和绿色)。在一些示例中，每个目镜2108、2110可以包括多个这样的波导集，其中，每个集被配置为向发射光赋予不同的波前曲率。波前曲率可以相对于用户的眼睛是凸的，例如以呈现定位在用户的前面一定距离(例如，通过对应于波前曲率的倒数的距离)的虚拟对象。在一些示例中，EPE光栅集2116、2122可以包括弯曲光栅凹陷，以通过改变跨每个EPE的出射光的坡印廷(Poynting)矢量实现凸波前曲率。

在一些示例中，为了创建所显示的内容是三维的感知，立体调节的左和右眼影像可以通过成影像光调制器2124、2126和目镜2108、2110呈现给用户。三维虚拟对象的呈现的感知真实性可以通过选择波导(并且因此对应的波前曲率)增强，使得虚拟对象在近似由立体左和右图像指示的距离的距离处被显示。该技术还可以减少由一些用户经历的晕动病，晕动病可能由由立体左眼和右眼影像提供的深度感知线索与人眼的自动调节(例如，对象距离相关焦点)之间的差异引起。

图2D示出了从示例可穿戴头部设备2102的右目镜2110的顶部的面向边缘的视图。如图2D所示，多个波导2402可以包括三个波导2404的第一子集和三个波导2406的第二子集。波导2404、2406的两个子集可以通过以不同光栅线曲率为特征的不同EPE光栅来区分，以向出射光赋予不同波前曲率。在波导2404、2406的子集中的每一个内，每个波导可以用于将不同光谱通道(例如，红色、绿色和蓝色光谱通道之一)耦合到用户的右眼2206。(虽然未示出在图2D中，但是左目镜2108的结构类似于右目镜2110的结构。)

图3A示出了混合现实***200的示例手持式控制器组件300。在一些示例中，手持式控制器300包括柄部346和沿着顶表面348设置的一个或多个按钮350。在一些示例中，按钮350可以被配置用作光学跟踪目标，例如，用于与相机或其他光学传感器(其可以安装在混合现实***200的头部设备(例如，可穿戴头部设备2102)中)结合来跟踪手持式控制器300的六自由度(6DOF)运动。在一些示例中，手持式控制器300包括用于检测位置或取向(诸如相对于可穿戴头部设备2102的位置或取向)的跟踪组件(例如，IMU或其他适合的传感器)。在一些示例中，这样的跟踪组件可以定位在手持式控制器300的手柄中，和/或可以机械耦合到手持式控制器。手持式控制器300可以被配置为提供对应于按钮的按压状态中的一个或多个的一个或多个输出信号；或手持式控制器300的位置、取向和/或运动(例如，经由IMU)。这样的输出信号可以用作混合现实***200的处理器的输入。这样的输入可以对应于手持式控制器的位置、取向和/或运动(例如，通过扩展，对应于握住控制器的用户的手的位置、取向和/或运动)。这样的输入还可以对应于按压按钮350的用户。

图3B示出了混合现实***200的示例辅助单元320。辅助单元320可以包括向操作***200提供能量的电池，并且可以包括用于执行程序以操作***200的处理器。如所示，示例辅助单元320包括夹子2128，诸如用于将辅助单元320附接到用户的腰带。其他形状因子适合于辅助单元320并且将是明显的，包括不涉及将单元安装到用户的腰带的形状因子。在一些示例中，辅助单元320通过多导管电缆耦合到可穿戴头部设备2102，该多导管电缆可以包括例如电线和光纤。还可以使用辅助单元320与可穿戴头部设备2102之间的无线连接。

在一些示例中，混合现实***200可以包括检测声音并且将对应的信号提供给混合现实***的一个或多个麦克风。在一些示例中，麦克风可以附接到可穿戴头部设备2102或与其集成，并且可以被配置为检测用户的语音。在一些示例中，麦克风可以附接到手持式控制器300和/或辅助单元320或与其集成。这样的麦克风可以被配置为检测环境声音、环境噪声、用户或第三方的语音或其他声音。

图4示出了可以对应于示例混合现实***的示例功能框图，诸如上文所描述的混合现实***200(其可以对应于相对于图1的混合现实***112)。如图4所示，示例手持式控制器400B(其可以对应于手持式控制器300(“图腾”))包括图腾到可穿戴头部设备六自由度(6DOF)图腾子***404A，并且示例可穿戴头部设备400A(其可以对应于可穿戴头部设备2102)包括图腾到可穿戴头部设备6DOF子***404B。在示例中，6DOF图腾子***404A和6DOF子***404B合作来确定手持式控制器400B相对于可穿戴头部设备400A的六个坐标(例如，在三个平移方向上的偏移和沿着三个轴的旋转)。六个自由度可以相对于可穿戴头部设备400A的坐标系表示。三个平移偏移可以表示为这样的坐标系中的X、Y和Z偏移、平移矩阵、或某种其他表示。旋转自由度可以表示为偏航、俯仰和滚动旋转的序列、旋转矩阵、四元数或某种其他表示。在一些示例中，可穿戴头部设备400A；包括在可穿戴头部设备400A中的一个或多个深度相机444(和/或一个或多个非深度相机)；和/或一个或多个光学目标(例如，如上文所描述的手持式控制器400B的按钮450，或包括在手持式控制器400B中的专用光学目标)可以用于6DOF跟踪。在一些示例中，如上文所描述的，手持式控制器400B可以包括相机；并且可穿戴头部设备400A可以包括用于结合相机进行光学跟踪的光学目标。在一些示例中，可穿戴头部设备400A和手持式控制器400B各自包括一组三个正交取向的螺线管，其用于无线发送和接收三个可区分的信号。通过测量用于接收的线圈中的每一个中接收的该三个可区分信号的相对幅度，可以确定可穿戴头部设备400A相对于手持式控制器400B的6DOF。此外，6DOF图腾子***404A可以包括惯性测量单元(IMU)，该惯性测量单元(IMU)可用于提供关于手持式控制器400B的快速运动的改进的准确度和/或更及时的信息。

在一些示例中，可能变得需要将来自局部坐标空间(例如，相对于可穿戴头部设备400A固定的坐标空间)的坐标变换到惯性坐标空间(例如，相对于真实环境固定的坐标空间)，例如以便补偿可穿戴头部设备400A相对于坐标系108的运动。例如，这样的变换可能对于可穿戴头部设备400A的显示器进行以下内容是必需的：将虚拟对象呈现在相对于真实环境的期望位置和取向处(例如，坐在真实椅子中、面向前的虚拟人，而不管可穿戴头部设备的位置和取向)，而不是在显示器上的固定位置和取向处(例如，在显示器的右下角的相同位置处)，以保持虚拟对象存在于真实环境中的错觉(并且例如当可穿戴头部设备400A移动和旋转时不显得不自然地定位在真实环境中)。在一些示例中，坐标空间之间的补偿变换可以通过使用SLAM和/或视觉里程计程序处理来自深度相机444的影像确定，以便确定可穿戴头部设备400A相对于坐标系108的变换。在图4所示的示例中，深度相机444耦合到SLAM/视觉里程计块406并且可以向块406提供影像。SLAM/视觉里程计块406实施方式可以包括处理器，该处理器被配置为处理该影像并且确定用户的头部的位置和取向，其然后可以用于识别头部坐标空间与另一坐标空间(例如，惯性坐标空间)之间的变换。类似地，在一些示例中，从IMU 409获得关于用户的头部姿势和位置的信息的附加源。来自IMU 409的信息可以与来自SLAM/视觉里程计块406的信息集成以提供关于用户的头部姿势和位置的快速调节的经改进的准确度和/或更及时的信息。

在一些示例中，深度相机444可以将3D影像供应给手势***411，该手势***411可以在可穿戴头部设备400A的处理器中实施。手势***411可以识别用户的手势，例如通过将从深度相机444接收的3D影像与表示手势的存储的图案匹配。识别用户的手势的其他适合的技术将是明显的。

在一些示例中，一个或多个处理器416可以被配置为从可穿戴头部设备的6DOF头盔子***404B、IMU 409、SLAM/视觉里程计块406、深度相机444和/或手势***411接收数据。处理器416还可以发送和接收来自6DOF图腾***404A的控制信号。处理器416可以无线耦合到6DOF图腾***404A，诸如在手持式控制器400B不受限的示例中。处理器416还可以与附加组件通信，诸如音频-视觉内容存储器418、图形处理单元(GPU)420、和/或数字信号处理器(DSP)音频空间音响(audio spatializer)422。DSP音频空间音响422可以耦合到头部相关传递函数(HRTF)存储器425。GPU 420可以包括耦合到左成影像调制光源424的左通道输出和耦合到右成影像调制光源426的右通道输出。GPU 420可以将立体图像数据输出到成影像调制光源424、426，例如如上文相对于图2A-2D所描述的。DSP音频空间音响422可以向左扬声器412和/或右扬声器414输出音频。DSP音频空间音响422可以从处理器419接收指示从用户到虚拟声源的方向矢量(其可以由用户移动，例如，经由手持式控制器320)的输入。基于方向矢量，DSP音频空间音响422可以确定对应的HRTF(例如，通过访问HRTF、或通过内插多个HRTF)。DSP音频空间音响422然后可以将所确定的HRTF应用到音频信号，诸如对应于由虚拟对象生成的虚拟声音的音频信号。这可以通过并入用户相对于混合现实环境中的虚拟声音的相对位置和取向—即，通过呈现与该虚拟声音将听起来像什么(如果其是真实环境中的真实声音)的用户期望相匹配的虚拟声音来提高虚拟声音的可信度和真实性。

在一些示例中，诸如图4所示，处理器416、GPU 420、DSP音频空间音响422、HRTF存储器425和音频/视觉内容存储器418中的一个或多个可以包括在辅助单元400C中(其可以对应于上文所描述的辅助单元320)。辅助单元400C可以包括对其组件供电和/或向可穿戴头部设备400A或手持式控制器400B供电的电池427。将这样的组件包括在可安装到用户的腰部的辅助单元中可以限制可穿戴头部设备400A的大小和重量，其进而可以减少用户的头部和颈部的疲劳。

虽然图4呈现了对应于示例混合现实***的各种组件的元件，但是这些组件的各种其他适合的布置对于本领域技术人员来说将变得明显。例如，在图4中呈现为与辅助单元400C相关联的元件可以替代地与可穿戴头部设备400A或手持式控制器400B相关联。此外，一些混合现实***可以完全放弃手持式控制器400B或辅助单元400C。这样的改变和修改将被理解为包括在所公开的示例的范围内。

虚拟反射

如上文所描述的，MRE(诸如经由混合现实***，例如，上文所描述的混合现实***200体验的)可以呈现对向MRE的用户看起来在具有MRE的原点坐标的声源处起源并且在MRE的取向矢量的方向上行进的音频信号。即，用户可以感知这些音频信号，好像它们是源于声源的原点坐标并且沿着取向矢量行进的真实音频信号。

在一些情况下，音频信号可以被认为是虚拟的，因为它们对应于虚拟环境中的计算信号，而且并非对应于真实环境中的真实声音。然而，虚拟音频信号可以作为可由人耳检测到的真实音频信号呈现给用户，例如如经由图2A-2D所示的可穿戴头部设备2102的扬声器2134和2136生成的。

声源可以对应于真实对象和/或虚拟对象。例如，虚拟对象(例如，图1C的虚拟怪物132)可以发射MRE中的音频信号，该音频信号在MRE中被表示为虚拟音频信号，并且作为真实音频信号呈现给用户。例如，图1C的虚拟怪物132可以发出对应于怪物的语音(例如，对话)或声音效果的虚拟声音。类似地，可以使真实对象(例如，图1C的真实对象122A)看起来发出MRE中的在MRE中被表示为虚拟音频信号的虚拟声音，，并且作为真实音频信号呈现给用户。例如，真实灯122A可以发出对应于灯被接通或关断的声音效果的虚拟声音—即使灯在真实环境中并未接通或关断。虚拟声音可以对应于声源(无论真实的还是虚拟的)的位置和取向。例如，如果虚拟声音作为真实音频信号(例如，经由扬声器2134和2136)呈现给用户，则用户可以感知如起源于声源的位置并且在声源的取向的方向上行进的虚拟声音。声源在本文中被称为“虚拟声源”，即使明显地发射声音的底层对象可以本身对应于真实对象，诸如上文所描述的。

一些虚拟或混合现实环境存在环境不感觉真实或可信的感知的问题。针对该感知的一个原因在于，音频和视觉线索在虚拟环境中不总是彼此匹配。例如，如果用户位于在MRE中的大砖墙后面，则用户可能期望来自砖墙后面的声音比源于用户旁边的声音更安静并且更听不清。该期望基于现实世界中的我们自己的听觉体验，其中，声音可以被大的密集对象的存在更改(例如，可以变得安静和听不清)。例如，当用户被呈现有据称源于砖墙后面但是强劲并以全音量呈现的音频信号时，用户在砖墙后面—或声音源于其后面—的错觉被损害。整个虚拟体验可能感觉假并且不真实，部分因为它不是基于现实世界交互适合我们自己的期望。进一步地，在一些情况下，“恐怖谷”问题出现，其中，虚拟体验和真实体验之间的甚至细微的差异可能引起不舒适的感觉。通过在MRE中呈现看起来与用户的环境中的对象实际交互—甚至以细微的方式—的音频信号来改进用户的体验是期望的。这样的音频信号与基于现实世界体验的我们自己的期望越一致，用户的MRE体验将越沉浸并且啮合。

此处，来自感知科学的课程可能有用。人感知和理解他们周围的环境的一种方式是通过音频线索。在现实世界中，我们听到的真实音频信号受那些音频信号起源于何处、那些音频信号以什么方向行进、以及音频信号与什么对象交互的影响。例如，在所有其他因素相等的情况下，源于距听者长距离的声音(例如，在远处的狗叫)将显得比源于短距离的相同声音更安静(例如，在与听者相同房间中的狗叫)。因此，听者可以基于狗的狗叫的感知音量来识别真实环境中的狗的位置。同样，在所有其他因素相等的情况下，远离听者行进的声音(例如，远离听者的人的语音)将比朝向用户行进的相同声音(例如，面向听者的人的语音)显得更不清楚和更听不清(即，低通滤波的)。因此，听者可以基于人的语音的感知频率特性来识别真实环境中的该人的取向。

我们的真实音频信号的感知还可能受音频信号与其交互的环境中的对象的存在影响。即，听者可以不仅感知由声源生成的音频信号，而且还感知该音频信号针对附近物理对象的混响(“混响”)。例如，如果用户在具有封闭墙的小房间中说话，则那些墙可能引起短自然混响信号，因为人的语音由墙反射。听者可以从那些混响推断他或她在具有封闭墙的小房间中。同样，大音乐厅或教堂可能引起更长的混响，从该混响，听者可以推断他或她在大的宽敞的房间中。类似地，音频信号的混响可以基于那些信号反射的表面的位置或取向、或那些表面的材料来呈现各种声特性。例如，针对浴室瓷砖的混响将听起来与针对砖、地毯、干式墙或其他材料的混响不同。这些混响特性可以由听者用于推断他或她附近的对象的位置、取向和材料。

以上示例示出了音频线索可以如何通知我们对我们周围的环境的感知。这些线索可以结合视觉线索起作用：例如，如果我们看到远处的狗，则我们期望该狗的狗叫的声音与该距离一致(并且如果其不是，如在一些虚拟环境中，则我们可能感觉困惑或迷惑)。在一些示例中，诸如在低光环境中，或者相对于视觉障碍用户，视觉线索可能有限或不可用；在这样的情况下，音频线索可以呈现特定重要性，并且可以用作用户理解他或她的环境的主要手段。

在一些环境中—无论真实、虚拟、混合、还是其他—重要的音频线索源是用户自己的语音。即，用户在他或她的环境中的自己的语音的声音可以是用于理解该环境的特别重要的音频线索。一个原因在于，作为说话的人，用户非常习惯于他或她自己的语音将听起来像什么；并且与该期望的偏差作为环境的线索可能是特别有价值的。另一原因在于，人可以具有在各种物理环境中说话的大量的体验—小房间、空洞的房间、铺瓷砖的浴室等—并且从该体验直观理解，这些房间将如何影响他们自己的语音的声音。

期望的是，基于MRE中的虚拟对象，以包含现实混响效应的方式将MRE中的音频信号呈现给用户，使得用户可以使用这些音频信号作为线索来识别虚拟对象—一些MRE的用户斗争的问题。进一步期望包含这样的混响效应，以便通过模拟现实世界混响向音频信号提供更现实、可信的质量。这可以减少MRE中的用户的听觉体验与现实世界中的用户的听觉体验之间的次优不一致，诸如在MRE中的音频信号似乎不完全对的情况下(前述恐怖谷问题)。进一步地，出于上述原因，将这样的效应应用到用户自己的语音可能对于MRE是特别期望的。与常规混响***相比，本发明可以通过考虑相对于音频信号和环境的用户的位置、取向、和其他特性来允许音频信号的更微妙并且可信的呈现。通过向MRE的用户呈现唤起我们的日常生活的音频体验的音频体验，MRE可以增强在与MRE接合时的我们的沉浸感和连接性。

图5A和5B分别描绘了示例混合现实环境500(其可以对应于图1C的混合现实环境150)的透视图和俯视图。在MRE 500中，用户501穿戴可穿戴头部设备510，其包括麦克风512。可穿戴头部设备510可以对应于上文相对于图2A-2D所描述的可穿戴头部设备2102，该可穿戴头部设备510进而可以对应于上文相对于图4所描述的可穿戴头部设备400A。麦克风512被配置为提供用户501的语音信号作为混合现实***112的输入，使得用户的语音可以适当地集成到MRE 500中。

在示例MRE 500中，用户501的语音产生一个或多个真实音频信号，包括真实音频信号520，该真实音频信号520表示由用户501发出的方向音频信号(例如，声能行进的声射线)，并且可以具有MRE 500的坐标系中的位置和取向。在示例中，真实音频信号520源于与用户501(例如，用户501的嘴)相关联的原点坐标522，并且沿着与用户501相关联的矢量524行进。矢量524可以表示由用户501发出的任何真实音频信号的传播。真实音频信号520可以由麦克风512检测并且作为输入提供给MRE 500。

示例MRE 500包括虚拟对象530，该虚拟对象530在图5A和图5B中被描绘为具有平面的墙。在示出的示例中，真实音频信号520在示例交点526处、以与虚拟对象在交点526处的法线527的角度528与虚拟对象530相交。在一些示例中，虚拟对象530可以与一个或多个虚拟物理参数相关联，诸如尺寸、形状、质量或材料。这些参数可以通过虚拟对象530的表面影响音频信号(诸如真实音频信号520)的模拟反射。这样的参数可以包括MRE的坐标空间中的空间特性(例如，位置、取向、形状、尺寸)；物理特性(例如，密度；弹性；抗拉强度；温度；平滑度；共振)；或对象的其他适合的特性。虚拟对象530可以与不与声反射相关的附加参数(诸如视觉特性(例如，颜色、透明度、反射率))；和其他物理参数(例如，湿度；电导率)相关联。混合现实***可以确定这样的参数，并且因此使用任何适合的方法生成具有那些参数的虚拟对象。

在一些示例中，虚拟音频信号与之相交的虚拟对象可以对应于真实对象(例如，诸如图1C中真实对象122A、124A和126A对应于虚拟对象122B、124B和126B)。在一些这样的示例中，用户可以置于声学密封环境(例如，密封耳机)中，以使可能由真实对象上的反射引起的不期望的音频信号衰减。在一些示例中，这样的虚拟对象可以不对应于真实对象(例如，诸如图1C中的虚拟怪物132)。在虚拟对象对应于真实对象的情况下，虚拟对象可以具有对应于那些真实对象的特性的参数(例如，尺寸、材料)。

在示例MRE 500中，示例的反射的音频信号540在真实音频信号520与虚拟对象530相交时产生。反射的音频信号540具有原点坐标542，并且沿着矢量544传播。在示例中，原点坐标542位于虚拟对象530的表面上，并且矢量544位于与原点坐标542处的表面的法线成角548处。通常，但不必要地，坐标542是与坐标526相同的坐标；并且角548等于角528。

反射的音频信号540可以表示真实音频信号520离开虚拟对象530的模拟声学混响。如此，反射的音频信号540可以被描述为真实音频信号520的声音修改版本。例如，反射的音频信号540可以被描述为已经衰减、滤波(例如，低通滤波)和/或相移并且经由扬声器412、414、2134、2136输出的真实音频信号520的版本。在一些示例中，虚拟对象530引起影响反射的音频信号540的频谱的衍射效应。进一步地，反射的音频信号540可以是通过混响处理技术获得的两个或两个以上信号的复合(例如，暂时存储并且在延迟之后输出的真实音频信号520的版本)，例如以模拟自然混响效应。对生成反射的音频信号540的真实音频信号520的调节可以被认为是一个或多个传递函数(例如，传递函数H(t))，使得当应用于真实音频信号520时一个或多个传递函数导致反射的音频信号540。

示例的反射的音频信号540可以是不可由MRE的用户直接感知但是可以通过一个或多个扬声器(例如，扬声器2134和/或2136)转换为真实音频信号的虚拟音频信号，该真实音频信号可由用户听到。例如，反射的音频信号540可以是例如通过与MRE相关联的处理器和/或存储器对数字音频数据的计算表示，该数字音频数据可以经由数字音频转换器(例如，作为图4的DSP音频空间音响422的一部分)转换为模拟信号；并且然后放大并且用于驱动扬声器，从而产生可由用户感知的声音。这样的计算表示可以包括例如反射的音频信号起源的MRE中的坐标；反射的音频信号沿着传播的MRE中的矢量；反射的音频信号起源的时间；反射的音频信号传播的速度；或其他适合的特性。各种技术(诸如射线跟踪)可以用于对从音频源(例如，用户的发音装置)到虚拟对象上的反射点并且返回到用户的耳朵的传播进行建模。作为一个示例，在用户面向虚拟对象的平面的情况下，音频源(“图像源”)的虚拟图像可以沿着到平面的距离两倍(即，到平面的最短路径的长度的两倍)并且垂直于平面的线段与用户的嘴间隔。用户的语音的反射的声波路径可以被建模为从音频源的虚拟图像到听者位置的声波传播。(在该示例中，为了虚拟反射存在，虚拟平面的范围必须足够大，使得从虚拟图像到听者位置的路径穿过平面。)包括许多个平面的虚拟对象的多面体表示可以维持在音频视觉内容存储器418中。

MRE可以包括一个或多个听者坐标(例如，图5A和5B中的坐标516)的表示，每个听者坐标对应于反射的音频信号可以被感知的坐标系中的位置(“听者”)。在一些示例中，MRE还可以包括一个或多个听者矢量的表示，该听者矢量可表示听者的取向。听者坐标516可以具有与用户501的位置的空间关系，诸如可以使用可穿戴头部设备510的一个或多个传感器确定的；例如，听者坐标516可以具有相对于用户501的位置的固定或可变空间偏移。在示出的示例MRE 500中，听者坐标516对应于原点坐标522(用户的头部的中心)，在该示例中，该原点坐标522是真实音频信号520的原点。然而，在一些示例中，听者坐标不需要对应于真实音频信号520的源点，并且可以对应于用户的耳朵的位置、可穿戴头部设备510的扬声器的位置、或另一个适合的位置。进一步地，听者矢量可以对应于用户面向的方向。在一些示例中，听者坐标和/或听者矢量可以使用由用户穿戴的可穿戴头部设备的位置和/或取向确定；例如，听者坐标516可以被定义为从可穿戴头部设备的检测位置的偏移。在一些情况下，听者坐标和听者矢量可以经由上文相对于可穿戴头部设备510所描述的一个或多个传感器(例如，IMU、GPS单元、加速度计、声学传感器、相机、雷达等)或任何其他适合的传感器来检测。在一些示例中，MRE可以包括在MRE的坐标系中分别对应于用户的左耳和右耳的位置的左听者坐标和右听者坐标。通过确定从其源点(图像源)到听者坐标的反射的音频信号的矢量，可以确定对应于具有该坐标处的耳朵的人类听者将如何感知反射的音频信号的真实音频信号。该音频信号然后可以被呈现给用户501，例如经由可穿戴头部设备510的一个或多个扬声器(例如，2134、2136)。

在一些示例中，反射的音频信号540包括基础声音数据(例如，存储器中的数字数据、表示音频波形的数据)和包括可以应用于该基础声音数据的一个或多个参数的传递函数。这样的参数可以对应于基础声音的衰减(例如，音量下降)；基础声音的滤波(例如，低通滤波器)；基础声音的时间延迟(例如，相移)；或其他适合的参数。在一些示例中，这样的参数可以包括针对MIDI引擎、或者针对用于应用人工混响和回波效应的人工混响引擎的输入参数。

在一些示例中，传递函数可以对听者坐标到反射的音频信号的关系进行建模。例如，传递函数可以将真实音频信号的幅度定义为从听者坐标到反射的音频源(图像源)的源点的距离的递减函数—即，反射的信号的增益随着从听者到源点的距离增加而减小。作为另一示例，传递函数可以将应用到反射的音频信号的低通滤波器定义为听者坐标到反射的音频信号的传播矢量的距离(和/或听者矢量的角度)的函数；例如，远离反射的音频信号的听者可以感知比更接近于该信号的听者感知的信号中的更少的高频功率。作为另一示例，传递函数可以定义基于听者坐标与反射的音频信号的源点之间的距离施加的时间延迟(例如，相移)。在一些示例中，用户的头部与反射的音频信号的关系的一个或多个特性可以包含在头部相关传递函数(HRTF)中，该头部相关传递函数(HRTF)可以被选择(例如，基于虚拟对象530相对于用户的头部的坐标)并且应用于真实音频信号。在一些示例中，图4的DSP音频空间音响422可以利用HRTF呈现包含用户的头部的位置和取向的音频信号。

应用于真实音频信号520(并且因此影响虚拟反射音频信号540)的传递函数的一些特性可以由虚拟对象530确定或者影响。例如，传递函数可以包括基于虚拟对象530的参数(例如，材料或尺寸)的真实音频信号的衰减(导致对应的反射的音频信号显得对听者更安静)。传递函数还可以包括基于虚拟对象530的参数应用到真实音频信号的低通滤波器，导致反射的音频信号显得更听不清，因为高频含量转降。这可以允许反射的音频信号540满足真实音频信号520针对虚拟对象530的声反射应当听起来像什么的用户的期望；例如，用户将期望某些类型的虚拟对象(例如，虚拟厚窗帘)导致比其他类型的虚拟对象(诸如虚拟玻璃墙)更大程度的衰减或低通滤波。在一些情况下，反射的音频信号540可以基于虚拟对象530与用户之间的距离相对于真实音频信号520来延迟；这可以模拟由从用户到反射对象并且再返回到用户的音频信号的行进时间引起的自然延迟。在一些情况下，虚拟对象可以将相移或其他效应应用到真实音频信号。在一些示例中，虚拟对象可能导致波长相关衍射效应，其可以变更反射的音频信号的频谱。这些衍射效应可以例如基于和真实音频信号相交的表面的角度和尺寸。在一些情况下，虚拟对象具有的对真实音频信号产生的影响可以通过虚拟对象的物理建模确定—例如，如果虚拟对象对应于特定材料(例如，砖、铝、水)，则传递函数可以包含音频信号通过现实世界中的该材料传输的已知密度和速度。

图6示出了用于将反射的音频信号呈现给MRE的用户(诸如混合现实***112的用户)的示例过程600。示例过程600可以由可穿戴头部设备510的一个或多个处理器(例如，对应于图4的处理器416)和/或DSP模块(例如，对应于图4的DSP音频空间音响422)或由任何适合的电路实现。应注意，示例过程600的步骤可以以任何适合的顺序执行；本公开不限于示出的示例中所描绘的步骤的特定顺序。

在过程600的阶段610处，真实音频信号(例如，真实音频信号520)由一个或多个麦克风检测，诸如麦克风512。真实音频信号可以但不必须对应于由用户501产生的声音(例如，由用户501的语音或身体运动产生的声音)。在一些实施例中，真实音频信号可以对应于不由用户501产生的声音。麦克风512可以用于将真实音频信号例如经由A/D转换器输入到处理器(例如，图4的处理器416)和/或存储器(例如，图4的存储器418)或其他存储元件，诸如移位寄存器，该移位寄存器可以存储对应于真实音频信号的数字数据。预处理(例如，反馈抵消、反锯齿、放大)可以应用于真实音频信号以调节真实音频信号用于附加处理。

在过程600的阶段620处，用户501或可穿戴头部设备510的一个或多个位置和/或取向可以例如使用可穿戴头部设备510的传感器和/或IMU确定，如上文所描述的。例如，当用户的头部在MRE 500内移动和旋转时，位置和取向可以实时更新。在阶段620处确定的位置可以对应于用户的头部的位置(例如，用户的头部的中心)；用户的耳朵的位置；用户的嘴的位置；或头戴式设备的位置。在阶段620处确定的取向可以对应于用户面向的方向。

在过程600的阶段630处，确定对应于真实音频信号(在阶段610处检测的)的原点坐标(例如，坐标522)和方向矢量(例如，矢量524)。方向矢量可以包括取向矢量以及在一些示例中方向性图案。在一些示例中，原点坐标可以与在阶段620处确定的用户的位置相同。在一些示例中，诸如在真实音频信号对应于用户的语音的声音的情况下，原点坐标可以对应于用户的嘴的位置(例如使用与可穿戴头部设备510相关联的传感器检测，或被假定为在相对于可穿戴头部设备510的固定偏移处)。在一些示例中，诸如在真实音频信号对应于用户的语音的情况下，方向矢量可以对应于在阶段620处确定的用户的取向(例如，用户面向的方向)。在一些示例中，这可以使用一个或多个适合的传感器确定，诸如上文相对于可穿戴头部设备510所描述的传感器(例如，IMU、加速度计)，或者根据外部源(例如，数据库)确定。在一些示例中，两个或两个以上麦克风或其他传感器可以用于识别真实音频信号行进的方向(例如，通过测量当信号到达两个麦克风中的每一个时它们之间的时间延迟)。

在过程600的阶段640处，识别MRE 500中的一个或多个虚拟对象(例如，虚拟对象530)。这样的识别可以包括位置、取向、形状、边界和上文相对于虚拟对象所描述的任何参数(例如，材料类型)中的一个或多个。在一些实施方式中，虚拟对象可以相对于真实对象(例如，手控制器)重叠或者固定，并且虚拟对象的计算的声反射可以比与真实对象相关联的声反射更强；在这样的示例中，虚拟对象的声反射可以由如本文所描述的***112合成。在一些示例中，虚拟对象(例如，虚拟怪物132)可以不对应于任何真实对象。在这样的示例中，虚拟对象可以以任何适合的方式识别，诸如由通过MRE 500中的虚拟对象的列表迭代，识别列表中的哪些虚拟对象在距MRE 500中的用户501阈值距离内，以及识别与那些虚拟对象相关联的相关信息(例如，位置、取向)。

在阶段650处，可以确定在阶段610处检测的、起源于在阶段630处识别的原点坐标并且在阶段630处识别的方向上行进的真实音频信号是否应当导致反射的音频信号(例如，反射的音频信号540)。即，可以确定真实音频信号是否和MRE 500中的虚拟对象的表面相交，使得将反射的音频信号呈现给用户是期望的。(在一些情况下，可能不期望呈现这样的反射的音频信号—例如，如果反射的音频信号将对用户在感知上不显著，或如果存在不足的计算资源。)该确定可以通过使用用于确定矢量(例如，描述真实音频信号的行进方向的矢量)是否与三维坐标系(例如，坐标系108)中的表面相交的任何适合的方法执行。如果确定将反射的音频信号呈现给用户将是期望的，则可以使用任何适合的方法在阶段650处进一步确定在什么坐标处(例如，坐标526)真实音频信号和虚拟对象的表面相交，以及以什么角度(例如，在真实音频信号的方向矢量与交点坐标处的表面的法线之间的角度，诸如角度528)。在一些示例中，如果真实音频信号和多个虚拟对象相交，则二阶反射可能产生—例如，在第一反射音频信号本身与虚拟对象相交的情况下，产生二阶反射音频信号(其可以使用过程600递归地确定)。进一步地，在一些示例中，和虚拟对象相交的真实音频信号可能导致两个或两个以上反射的音频信号(例如，在波衍射的情况下，其中，不同的声频率可以以不同的角度利用不同的强度反射)。

在一些示例中，在阶段650处，可以确定入射在虚拟对象上的音频波。该确定可以考虑源(例如，用户的发音装置)的频率相关方向性，并且因此确定虚拟对象处的频率相关入射波幅度。用户的头部的位置和取向和任何虚拟对象表面的位置和取向可以用在确定入射波中。在一些示例中，可以存在编程距离极限，在该编程距离极限之外，将不产生用户生成的声音的反射。

在阶段660处，如果在阶段650处已经确定真实音频信号和虚拟对象相交以创建反射的音频信号，则可以确定针对该反射的音频信号的原点坐标(例如，坐标542)和方向矢量(例如，矢量548)。在许多情况下，原点将与真实音频信号和虚拟对象的交点相同。进一步地，在许多情况下，反射的音频信号的方向矢量将简单地是相对于交点处的相交表面的法线反射的真实音频信号的方向矢量。然而，针对一些音频信号和虚拟对象(例如，引起显著的波衍射的虚拟对象)，可能的是，反射的音频信号的原点和/或方向具有与真实音频信号的更复杂的几何关系。

在一些示例中，在阶段660处，可以确定从虚拟对象反射回到用户的波。虚拟对象可以具有先赋的(例如，预编程的)反射声学特性，在该情况下，反射波可以通过简单射线跟踪或在一些示例中通过衍射分析来确定。在一些示例中，虚拟对象还可以具有先赋的漫射特性，使得可以考虑反射波的漫射扩散。在一些示例中，衍射和漫射的波长相关性或者频率相关性可以用在确定反射波中。

在阶段670处，可以确定一个或多个传递函数，当应用于真实音频信号时，该一个或多个传递函数将产生具有期望声音特性的反射音频信号—即，用户将期望在听者坐标516处(并且在一些示例中，以特定听者取向)听到的反射的音频信号。如上文所描述的，这些传递函数可以包含衰减、滤波、时间延迟、相移、或其他适合的效应中的一个或多个。传递函数可以接受以下各项作为输入：在阶段610处检测的真实音频信号，以及包括在阶段620处确定的用户的位置和/或取向的一个或多个参数；听者坐标516(其可以等于用户的位置)；听者取向(其可以等于用户的取向)；在阶段630处确定的真实音频信号的原点和方向；在阶段660处确定的反射的音频信号的原点和/或方向；MRE的参数(例如，声波在MRE中传播的速度)；和/或在阶段650处识别的虚拟对象的参数(例如，材料、密度、厚度、共振、或如上文所描述的任何其他适合的参数)。

在一些示例中，传递函数的幅度可以是波长相关的。如果对应于特定频率的波长可与波散射对象(例如，虚拟对象)的大小比较或者大于波散射对象(例如，虚拟对象)的大小，那么散射图案(例如，散射波的方向性)可以通常由衍射建模。更长的波长可以衍射成更宽的角分布。表面纹理还可能影响由对象散射的声音的角分布。如果表面纹理具有比对应于声音的特定频带的波长小得多的尺度，则归因于表面纹理的散射效应可忽略。然而，针对波长可与表面纹理尺度比较的频率，表面纹理的散射效应可能是显著的。各种表面纹理的声散射的经验模型可以从实验数据获得。当合成由虚拟对象对用户生成的声音的反射时，频率(波长)相关散射图案可以用于确定描述将用户生成的声音反射回到用户的特定频率传递函数。这样的散射图案可以基于与尺寸、形状或纹理有关的衍射效应。传递函数可以(但是不必须)基于可归因于虚拟对象的声波散射的物理建模。在一些示例中，针对各种距离和入射角的虚拟对象的传递函数(例如，取决于对象相对于用户设置的方式)可以预计算和存储，以用于实时增强现实交互的过程中。

波在对象表面上的入射角可以由波的传播方向和表面的表面法线确定。足够接近于用户的头部(例如，针对特定音频频率，在两个波长内)的虚拟对象可以被说成在近区(或近场)中，在该近区(或近场)中，音频波未被假定为平面的。在近区中，甚至在入射角可能不适用的情况下，波传播分析仍然可以用于获得反射波的特性，例如作为基于虚拟对象的尺寸、形状和机械特性的频率的函数。机械特性可以与归属于虚拟对象的材料(例如，水、玻璃)相关联。反射波的特性可以通过将频率相关传递函数应用到由用户生成的原始音频来确定。在一些示例中，传递函数可以基于近似值，而不是严格的波传播分析。

在阶段670处，关于衰减，可以确定使输入真实音频信号衰减以使得输出反射音频信号以正确增益水平呈现的传递函数。通常，反射的音频信号的增益将随着听者坐标516与反射的音频信号原点542之间的距离增加而减小(并且因此衰减将增加)。衰减可以随着距离直接变化；可以随着距离成指数变化；或者可以具有与距离的某种其他关系。另外，衰减可以取决于真实音频信号与虚拟对象的相交表面的法线之间的角度(例如，528)；如果角度是小的，这指示真实音频信号的大分量垂直于表面，则衰减可以小于如果角度是大的。这是因为直接行进到表面中的音频信号比主要平行于表面行进(使得更少的信号的声能被传递到表面)的信号通常导致更大的混响。衰减还可以取决于虚拟对象的参数；例如，虚拟对象的共振特性可能导致共振频率处的更高或更低的衰减。衰减还可以取决于MRE的周围介质(例如，水、空气)的参数。可以由传递函数建模的对衰减的其他影响将是明显的。

在阶段670处，关于滤波，可以确定对输入真实音频信号的特定频率滤波使得输出反射音频信号具有适当的频谱的传递函数。通常，高频率将随着听者坐标516与反射的音频信号原点542之间的距离增加而转降(例如，变为低通滤波的)。该低通滤波的参数可以随着距离变化。而且，滤波可以取决于反射的音频信号相对于听者坐标516的方向。例如，在反射的音频信号远离听众坐标行进的情况下低通滤波可以比在它朝向听者坐标行进的情况下更强。滤波还可以取决于真实音频信号与虚拟对象的相交表面的法线之间的角度(例如，528)；例如，相对于一些表面，如果角度是小的，这指示真实音频信号的大分量垂直于表面，则滤波(例如，低通滤波)可以比如果角度是大的更强。这反映了直接行进到表面中的音频信号可能导致与主要平行于表面行进的信号的混响不同的声学特性的混响。而且，真实音频信号与相交表面之间的倾角可能导致音频信号的衍射。滤波还可以取决于虚拟对象的参数；例如，滤波特性还可能受虚拟对象的材料(例如，玻璃、金属)影响。进一步地，与特定共振特性相关联的虚拟对象可能导致真实音频信号的共振频率的更多或更少的衰减。滤波还可以取决于MRE的参数；例如，滤波可以取决于与MRE相关联的材料(例如，水、空气)。可以由传递函数建模的其他频率敏感效应将是明显的。

在阶段670处，关于时间延迟和相移效应，可以确定使输入真实音频信号飘移以使得输出反射音频信号可以在正确时间呈现给用户的传递函数。通常，反射的音频信号的漂移将随着听者坐标516与反射的音频信号原点542之间的距离增加而增加。这反映了声波必须行进更远和更长以到达听者坐标。该漂移将通常随着距离线性变化，但是在一些示例中可以具有与距离的某种其他关系。在一些示例中，时间延迟可以取决于频率。时间延迟或相移还可以取决于虚拟对象的参数，诸如与虚拟对象的表面相关联的材料。时间延迟和相移还可以取决于MRE的参数；例如，时间延迟和相移可以取决于与MRE相关联的参数(例如，水、空气)。可以通过传递函数建模对时间延迟和相移的其他影响将是明显的。类似地，调制效应可以通过传递函数沿着相同线建模(例如，利用取决于上文所描述的参数中的一个或多个的振荡频率)。

在一些示例中，在阶段670处确定的一个或多个传递函数可以包括HRTF。HRTF可以根据用户的头部相对于MRE 500的位置和/或取向处理真实音频信号(如在阶段610处检测的，或者如在阶段670处确定的一个或多个传递函数修改的)。适当的HRTF可以由DSP音频空间音响(例如，图4的DSP音频空间化器422)在阶段670处选择。

在阶段680处，在阶段670处识别的一个或多个传递函数可以使用任何适合的方法应用于在阶段610处输入的真实音频信号，以生成反射的音频信号作为输出。例如，在传递函数包括全局衰减的情况下，该衰减可以通过将真实音频信号的幅度乘以增益系数来施加。在传递函数包括频率滤波器的情况下，滤波器可以通过在时间域中将真实音频信号与滤波器卷积或者在频率域中将真实音频信号乘以滤波器应用于真实音频信号。在传递函数包括时间延迟和/或相移的情况下，时间延迟和/或相移可以使用移位寄存器、环形缓冲器或其他适合的存储元件来施加，其中，音频数据根据期望的时间延迟和/或相移在存储元件内漂移。在一些示例中，传递函数可以递归地应用于真实音频信号，使得传递函数的第一输出作为输入被提供给传递函数，其将产生第二输出。将传递函数应用到真实音频信号的其他适合的方法将是明显的。例如，MIDI引擎和/或混响引擎可以提供有真实音频信号和一个或多个参数作为输入，其将输出期望的反射的音频信号。

在阶段690处，从阶段680输出的反射的音频信号可以作为一个或多个音频信号被呈现给用户501。阶段690可以包含任何适合的混合技术来生成这些音频信号。在一些示例中，***112可以包括除了反射的音频信号输出之外将自然地呈现来自环境的真实声音的无遮挡扬声器。然而，在一些示例中，***112可以包括遮挡来自环境的真实声音的遮挡扬声器(例如，耳罩式耳机、噪声消除耳机、或具有硅酮密封的耳塞)。在这样的示例中，这样的真实声音可以经由麦克风输入；并且反射的音频信号可以与真实音频信号混合，例如使得反射的音频信号和真实音频信号的相对增益产生与用户的期望一致的两个信号的平衡。

在一些示例中，在有或没有真实音频信号混合的情况下，反射的音频信号与MRE500的其他声音复合。在一些示例中，反射的音频信号的增益或者频谱可以基于MRE 500的事件或条件来调节；例如，MRE 500可以执行脚本，该脚本导致全局混响水平的纲领性调整，其可能导致增益系数在阶段690处应用到反射的音频信号。在包含立体声音频的示例中，可以针对分离的左通道和右通道确定不同的音频信号。在包含单声道音频的示例中，音频信号可以混合到呈现给双只耳朵的单个单声道信号中。混合的音频信号可以转换为放大并且分别呈现给左和右扬声器2134和2136的左和右模拟信号(例如，通过图4的D/A转换器和/或DSP音频空间音响422)。

图7描绘了实现上文所描述的示例过程600的各方面的功能组件(例如，可穿戴头部设备510和/或MRE 500的组件)的示例使用。示出的组件可以在任何适合的硬件组件中实现，诸如上文相对于图4所描述的组件(例如，处理器416；GPU 420；DSP音频空间音响422)；HRTF存储器425；音频视觉内容存储器418)。组件还可以在可穿戴头部设备400A、手持式控制器400B和/或辅助单元400C的任何适合的组合上实现。图7描绘了具有虚拟内容702的示例游戏引擎700，该虚拟内容702可以包括一个或多个虚拟对象(诸如上文所描述的虚拟对象530)，以及诸如上文所描述的坐标系108。游戏引擎700和/或虚拟内容702可以包括混合现实环境的虚拟组件，诸如上文所描述的MRE 500，并且可以经由可穿戴头部设备(诸如上文所描述的可穿戴头部设备2102)存储、执行和/或呈现给用户。

在图7中，麦克风708(其可以对应于麦克风512)可以被配置为检测真实音频信号，诸如在示例过程600的阶段610处。如上文相对于阶段610所描述的，由麦克风输入的信号可以经由A/D转换(710)和反馈抵消(712)经历预处理。反馈抵消可以通过计算输入信号与一个或多个先前输出的音频信号之间的差(例如，如经由扬声器到麦克风传递函数714和加法器716处理的)来执行。预处理的音频信号可以数字存储在移位寄存器718中，该移位寄存器可以被配置为存储任何适合的位数(并且因此音频样本)。在一些示例中，移位寄存器的功能可以使用存储器实现。

在图7中，作为混合现实环境的一部分，游戏引擎700可以被配置为执行如上文相对于示例过程600所描述的步骤620、630、640、650和660。例如，游戏引擎700可以使用可穿戴头部设备2102的传感器和跟踪硬件执行用户(诸如用户501)的六自由度跟踪704(即，包括三个平移度和三个旋转度)。这可以提供用于确定用户的位置(例如，原点522)和/或取向(步骤620)、和真实音频信号的原点和方向(例如，524)(步骤630)的输入，如上文所描述的。游戏引擎700还可以识别虚拟内容702的一个或多个虚拟对象(步骤640)，并且确定真实音频信号是否(并且在什么程度上)和任何这样的虚拟对象相交(步骤650)。如果是，游戏引擎700可以确定产生的反射音频信号的原点(例如，542)和方向(544)(步骤660)。

游戏引擎700可以输出对应于包括虚拟内容702的虚拟对象的一个或多个参数，诸如和真实音频信号相交的虚拟对象。游戏引擎700还可以输出用户相对于虚拟内容702的虚拟对象的位置和/或取向。游戏引擎700还可以输出与用户相对于虚拟对象有关的其他空间信息，诸如用户相对于该虚拟对象的距离和/或角度。

游戏引擎700单独或者结合其他组件可以根据过程600的步骤670确定传递函数。例如，游戏引擎700结合虚拟对象反射增益设置器720可以确定衰减水平(诸如上文相对于步骤670所描述的)以被应用到真实音频信号。此外，游戏引擎700可以识别待应用到真实音频信号的HRTF 722。在步骤670处确定传递函数的其他方面可以由如上文所描述的游戏引擎700执行。

图7示出了可以用于将传递函数应用到真实音频信号以获得反射的音频信号(诸如上文相对于过程600的阶段680所描述的)的各种功能组件。例如，为了实现传递函数的时间延迟方面，游戏引擎700可以利用查找表724将时间延迟应用到真实音频信号。存储在查找表724中的时间延迟可以减值以考虑从用户到麦克风708的传播延迟。游戏引擎700可以例如提供从听者坐标到虚拟对象的距离作为到查找表724的输入，该查找表然后可以将一个或多个控制信号输出给复用器726。复用器726可以进而使用控制信号从移位寄存器718选择对应于期望的时间延迟量的数据。

类似地，为了实现传递函数的衰减方面，复用器726的输出可以被提供到可变增益阶段728，其中，衰减水平由虚拟对象反射增益设置器720设置，如上文所描述的。可以通过将对应于衰减水平的简单乘法器应用到复用器726的输出来在可变增益阶段728处提供该衰减。

同样地，为了实现传递函数的滤波方面，可变增益阶段的输出可以由频带分离，例如使用快速傅里叶变换730和对应的反变换733。在一些示例中，可以使用时域滤波(例如，移动平均、有限冲激响应(FIR)滤波器、或无限冲激响应(IIR)滤波器)。适当的衰减水平(例如，如由虚拟对象反射增益设置器720选择的)然后可以在每频带基础上应用在频率敏感增益阶段732处，例如通过将每个频带乘以所确定的衰减水平。

例如由如上文所描述的游戏引擎700选择的HRTF 722可以应用于由频率敏感增益阶段732输出的信号；HRTF 722和频率敏感增益的组合可以用于确定总体频率相关增益。

如上文相对于过程600的阶段690所描述的，由HRTF输出的反射的音频信号可以在阶段734处混合以准备用于呈现给用户。例如，阶段734可以通过将HRTF 722的输出与和游戏引擎700相关联的其他音频信号(例如，对应于虚拟内容702)求和来创建一个或多个复合音频信号(例如，单个单声道音频信号、或左/右立体声音频信号)。这些音频信号可以由虚拟音频处理器736提供，该虚拟音频处理器736可以将音频输出发送到阶段734以与HRTF722的输出复合。在阶段738处，复合音频信号由D/A转换器738处理，并且在阶段740处放大以驱动扬声器742(例如，对应于扬声器2134和2136)，该扬声器742最终将产生的音频信号呈现给用户。

应注意，图7所示的示例功能框图的元素可以以任何适合的顺序布置。例如，时间延迟复用器726、可变增益阶段728、频率敏感增益阶段732、快速傅里叶变换730、快速傅里叶反变换733和HRTF 722可以以任何适合的顺序—不一定是所示的顺序来放置。本公开不限于示例中示出的功能组件的任何特定顺序或者布置。

本公开的一些示例涉及一种将音频信号呈现给混合现实环境的用户的方法，该方法包括：检测混合现实环境中的第一音频信号，其中，第一音频信号是真实音频信号；识别由混合现实环境中的第一音频信号相交的虚拟对象；识别对应于用户的位置的听者坐标；使用虚拟对象和听者坐标确定传递函数；将传递函数应用到第一音频信号以产生第二音频信号；以及向用户呈现第二音频信号。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，方法还包括识别混合现实环境中的用户的位置，其中，与用户相关联的听者坐标基于该位置来识别。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，检测第一音频信号包括检测由用户生成的语音信号。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，方法还包括识别混合现实环境中的用户的取向，其中，所述传递函数使用用户的取向来确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，第一音频信号是用户生成的信号。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，方法还包括确定第一音频信号和虚拟对象相交的角度，其中，所述传递函数使用该角度来确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，第一音频信号与混合现实环境中的方向相关联，并且传递函数使用该方向来确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，虚拟对象与材料相关联，并且传递函数使用该材料来确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，传递函数包括时间、频率、增益和相位中的一个或多个的函数。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，传递函数包括头部相关传递函数。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，方法还包括确定混合现实环境中的第二音频信号的原点和方向，其中，传递函数使用第二音频信号的原点和方向来确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，第一音频信号使用与由用户穿戴的可穿戴头部设备相关联的麦克风检测。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，方法还包括经由显示器向用户呈现虚拟对象。

本公开的一些示例涉及一种***，包括：可穿戴头部设备，其包括：用于向用户显示混合现实环境的显示器，所述显示器包括透射目镜，通过所述透射目镜，真实环境是可见的；麦克风；扬声器；以及传感器，其被配置为检测混合现实环境中的可穿戴头部设备的位置和取向中的一个或多个；一个或多个处理器，其被配置为执行：经由麦克风检测混合现实环境中的第一音频信号，其中，第一音频信号是真实音频信号；识别由混合现实环境中的第一音频信号相交的虚拟对象；经由显示器向用户呈现虚拟对象；经由传感器识别混合现实环境中的可穿戴头部设备的位置；使用可穿戴头部设备的位置识别听者坐标；使用虚拟对象和听者坐标确定传递函数；将传递函数应用到第一音频信号以产生第二音频信号；以及经由扬声器向用户呈现第二音频信号。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，经由麦克风检测第一音频信号包括经由麦克风检测由用户生成的语音信号。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，一个或多个处理器还被配置为执行经由传感器识别混合现实环境中的可穿戴头部设备的取向，并且，传递函数使用可穿戴头部设备的取向来确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，一个或多个处理器还被配置为执行识别混合现实环境中的用户的位置，其中，与用户相关联的听者坐标基于该位置来识别。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，检测第一音频信号包括检测由用户生成的语音信号。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，一个或多个处理器还被配置为执行识别混合现实环境中的用户的取向，并且，传递函数使用用户的取向来进一步确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，第一音频信号是用户生成的信号。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，一个或多个处理器还被配置为执行确定第一音频信号和虚拟对象相交的角度，并且，传递函数使用该角度来确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，第一音频信号与混合现实环境中的方向相关联，并且传递函数使用该方向来确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，虚拟对象与材料相关联，并且传递函数使用该材料来确定。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，传递函数包括时间、频率、增益和相位中的一个或多个的函数。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，传递函数包括头部相关传递函数。对于上文所公开的示例中的一个或多个的补充或替代，在一些示例中，一个或多个处理器还被配置为执行确定混合现实环境中的第二音频信号的原点和方向，并且其中，传递函数使用第二音频信号的原点和方向来确定。

虽然所公开的示例已经参考附图充分描述，但是，应注意到，各种改变和修改对于本领域技术人员来说将变得明显。例如，一个或多个实施方式的元素可以组合、删除、修改、或补充以形成进一步的实施方式。这样的改变和修改将被理解为包括在如由附加的权利要求限定的所公开的示例的范围内。

Claims

1.一种将音频信号呈现给混合现实环境的用户的方法，所述方法包括：

检测所述混合现实环境中的第一音频信号，其中，所述第一音频信号是真实音频信号；

识别由所述混合现实环境中的第一音频信号相交的虚拟对象；

识别与所述用户相关联的听者坐标；

使用所述虚拟对象和所述听者坐标确定传递函数；

将所述传递函数应用到所述第一音频信号以产生第二音频信号；以及

向所述用户呈现所述第二音频信号。

2.根据权利要求1所述的方法，还包括：识别所述混合现实环境中的用户的位置，其中，与所述用户相关联的听者坐标基于所述位置来识别。

3.根据权利要求1所述的方法，其中，检测所述第一音频信号包括检测由所述用户生成的语音信号。

4.根据权利要求1所述的方法，还包括：识别所述混合现实环境中的所述用户的取向，其中，所述传递函数使用所述用户的所述取向来确定。

5.根据权利要求1所述的方法，其中，所述第一音频信号是用户生成的信号。

6.根据权利要求1所述的方法，还包括：确定所述第一音频信号和所述虚拟对象相交的角度，其中，所述传递函数使用所述角度来确定。

7.根据权利要求1所述的方法，其中，所述第一音频信号与所述混合现实环境中的方向相关联，并且所述传递函数使用所述方向来确定。

8.根据权利要求1所述的方法，其中：

所述虚拟对象与材料相关联，并且

所述传递函数使用所述材料来确定。

9.根据权利要求1所述的方法，其中，所述传递函数包括时间、频率、增益和相位中的一个或多个的函数。

10.根据权利要求1所述的方法，其中，所述传递函数包括头部相关传递函数。

11.根据权利要求1所述的方法，还包括：确定所述混合现实环境中的第二音频信号的原点和方向，其中，所述传递函数使用所述第二音频信号的所述原点和方向来确定。

12.根据权利要求1所述的方法，其中，所述第一音频信号使用与由所述用户穿戴的可穿戴头部设备相关联的麦克风检测。

13.根据权利要求1所述的方法，还包括：经由显示器向所述用户呈现所述虚拟对象。

14.一种***，包括：

可穿戴头部设备，其包括：

向用户显示混合现实环境的显示器，所述显示器包括透射目镜，通过所述透射目镜，真实环境是可见的；

麦克风；

扬声器；以及

传感器，其被配置为检测所述混合现实环境中的所述可穿戴头部设备的位置和取向中的一个或多个；以及

一个或多个处理器，其被配置为执行：

经由所述麦克风检测所述混合现实环境中的第一音频信号，其中，所述第一音频信号是真实音频信号；

经由所述显示器向所述用户呈现所述虚拟对象；

经由所述传感器识别所述混合现实环境中的所述可穿戴头部设备的位置；

使用所述可穿戴头部设备的所述位置识别听者坐标；

使用所述虚拟对象和所述听者坐标确定传递函数；

经由所述扬声器向所述用户呈现所述第二音频信号。

15.根据权利要求14所述的***，其中，经由所述麦克风检测所述第一音频信号包括经由所述麦克风检测由所述用户生成的语音信号。

16.根据权利要求14所述的***，其中，所述一个或多个处理器还被配置为执行经由所述传感器识别所述混合现实环境中的所述可穿戴头部设备的取向，并且其中，所述传递函数使用所述可穿戴头部设备的所述取向来确定。

17.根据权利要求14所述的***，其中，所述一个或多个处理器还被配置为执行识别所述混合现实环境中的所述用户的位置，其中，与所述用户相关联的听者坐标基于所述位置来识别。

18.根据权利要求14所述的***，其中，检测所述第一音频信号包括检测由所述用户生成的语音信号。

19.根据权利要求14所述的***，其中，所述一个或多个处理器还被配置为执行识别所述混合现实环境中的所述用户的取向，并且其中，所述传递函数使用所述用户的所述取向来进一步确定。

20.根据权利要求14所述的***，其中，所述第一音频信号是用户生成的信号。

21.根据权利要求14所述的***，其中，所述一个或多个处理器还被配置为执行确定所述第一音频信号和所述虚拟对象相交的角度，并且其中，所述传递函数使用所述角度来确定。

22.根据权利要求14所述的***，其中，所述第一音频信号与所述混合现实环境中的方向相关联，并且所述传递函数使用所述方向来确定。

23.根据权利要求14所述的***，其中：

所述虚拟对象与所述材料相关联，并且

所述传递函数使用所述材料来确定。

24.根据权利要求14所述的***，其中，所述传递函数包括时间、频率、增益和相位中的一个或多个的函数。

25.根据权利要求14所述的***，其中，所述传递函数包括头部相关传递函数。

26.根据权利要求14所述的***，其中，所述一个或多个处理器还被配置为执行确定所述混合现实环境中的所述第二音频信号的原点和方向，并且其中，所述传递函数使用所述第二音频信号的所述原点和方向来确定。