CN116156411A

CN116156411A - 用于交互式音频环境的空间音频

Info

Publication number: CN116156411A
Application number: CN202211572588.9A
Authority: CN
Inventors: R·S·奥德弗雷; J-M·约特; S·C·迪克尔; B·L·施密特
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2018-06-18
Filing date: 2019-06-18
Publication date: 2023-05-23
Also published as: WO2019246159A1; US20230388736A1; US10735884B2; US10863300B2; JP2021528001A; US11792598B2; US20190387352A1; EP3808108A4; US11570570B2; CN112567768B; US20190387350A1; EP3808107A1; US20210152970A1; JP2023158059A; US20200322749A1; US10952010B2; US20230413007A1; CN112567767B; WO2019246164A1; EP3808107A4

Abstract

公开了向位于虚拟环境中的第一位置的收听者呈现输出音频信号的***和方法。根据方法的实施例，接收输入音频信号。对于虚拟环境中的多个声源中的每个声源，基于相应的声源在虚拟环境中的位置来确定与输入音频信号相对应的相应的第一中间音频信号，并且将相应的第一中间音频信号与第一总线相关联。对于虚拟环境中的多个声源中的每个声源，确定相应的第二中间音频信号。相应的第二中间音频信号与输入音频信号在虚拟环境的表面中的反射相对应。基于相应的声源的位置并进一步基于虚拟环境的声学特性来确定相应的第二中间音频信号。将相应的第二中间音频信号与第二总线相关联。经由第一总线和第二总线将输出音频信号呈现给收听者。

Description

用于交互式音频环境的空间音频

本申请是申请日为2019年6月18日、申请号为201980053576.5、发明名称为“用于交互式音频环境的空间音频”的专利申请的分案申请。

相关申请的交叉引用

本申请要求于2018年6月18日提交的美国临时申请No.62/686,655的优先权，其全部内容通过引用并入本文。本申请另外要求于2018年6月18日提交的美国临时申请No.62/686,665的优先权，其全部内容通过引用并入本文。

技术领域

本公开一般涉及空间音频渲染，并且特别地涉及在虚拟声学环境中用于虚拟声源的空间音频渲染。

背景技术

虚拟环境在计算环境中普遍存在，发现使用在视频游戏(其中虚拟环境可表示游戏世界)、地图(其中虚拟环境可表示要导航的地形)、模拟(其中虚拟环境可模拟真实环境)、数字讲故事(其中虚拟角色可在虚拟环境中彼此交互)、和许多其它应用中。现代计算机用户通常很容易感知虚拟环境并与虚拟环境交互。然而，用户在虚拟环境中的体验可能会受到用于呈现虚拟环境的技术的限制。例如，传统显示器(例如，2D显示屏)和音频***(例如，固定扬声器)可能无法以创建引人注目的、逼真的和沉浸体验来实现虚拟环境。

虚拟现实(“VR”)、增强现实(“AR”)、混合现实(“MR”)和相关技术(统称为“XR”)共享向XR***的用户呈现与由计算机***中的数据表示的虚拟环境相对应的感官信息的能力。通过将虚拟的视觉和音频提示与真实的视觉和声音相结合，该***可以提供独特增强的沉浸感和真实感。因此，可期望以如下方式将数字声音呈现给XR***的用户，即声音似乎在用户的真实环境中自然地发生并且符合用户对声音的期望。一般来说，用户期望虚拟声音呈现所听到的真实环境的声学特性。例如，在大型音乐厅中XR***的用户将期望XR***的虚拟声音具有巨大的洞穴状的音质；相反，在小公寓中的用户将期望声音更柔和、接近和直接。

数字或人工混响器可用于音频和音乐信号处理中，以模拟房间中扩散声学混响的感知效果。在XR环境中，希望使用数字混响器来真实地模拟XR环境中房间的声学特性。令人信服的此类声学特性的模拟可以给XR环境带来真实感和沉浸感。

发明内容

附图说明

图1示出根据一些实施例的示例可穿戴***。

图2示出根据一些实施例的可以与示例可穿戴***结合使用的示例手持式控制器。

图3示出根据一些实施例的可以与示例可穿戴***结合使用的示例辅助单元。

图4示出根据一些实施例的用于示例可穿戴***的示例功能性框图。

图5示出根据一些实施例的示例几何房间表示。

图6示出根据一些实施例的从源到房间中的收听者测量的房间响应的示例模型。

图7示出根据一些实施例的影响用户对直接声音、反射和混响的感知的示例因素。

图8示出根据一些实施例的用于在虚拟房间中渲染多个虚拟声源的示例音频混合架构。

图9示出根据一些实施例的用于在虚拟房间中渲染多个虚拟声源的示例音频混合架构。

图10示出根据一些实施例的示例每源处理模块。

图11示出根据一些实施例的示例每源反射平移(pan)模块。

图12示出根据一些实施例的示例房间处理算法。

图13示出根据一些实施例的示例反射模块。

图14示出根据一些实施例的反射到达的明显的方向(apparent directions)的示例空间分布。

图15示出根据一些实施例的作为距离的函数的直接增益、反射增益和混响增益的示例。

图16示出根据一些实施例的距离与空间焦点之间的示例关系。

图17示出根据一些实施例的时间与信号幅度之间的示例关系。

图18示出根据一些实施例的用于处理空间音频的示例***。

具体实施方式

在下面的示例描述中，参考形成其一部分的附图，并且在附图中通过图示的方式示出了可以实践的特定示例。可以理解，在不脱离所公开示例的范围的情况下，可以使用其它示例，并且可以在结构上进行改变。

示例可穿戴***

图1示出被配置为佩戴在用户的头部上的示例可穿戴头部设备100。可穿戴头部设备100可以是更广泛的可穿戴***的一部分，该可穿戴***包括一个或多个组件，诸如头部设备(例如，可穿戴头部设备100)、手持式控制器(例如，以下描述的手持式控制器200)和/或辅助单元(例如，下面描述的辅助单元300)。在一些示例中，可穿戴头部设备100可以用于虚拟现实、增强现实或混合现实***或应用。可穿戴头部设备100可以包括一个或多个显示器，诸如显示器110A和110B(其可以包括左和右透射显示器，以及用于将光从显示器耦合到用户的眼睛的相关组件，诸如正交光瞳扩张(OPE)光栅组112A/112B和出射光瞳扩张(EPE)光栅组114A/114B)；左和右声学结构，诸如扬声器120A和120B(其可以安装在镜腿122A和122B上，并与用户的左耳和右耳相邻定位)；一个或多个传感器，诸如红外传感器、加速度计、GPS单元、惯性测量单元(IMU)(例如，IMU 126)、声学传感器(例如，麦克风150)；正交线圈电磁接收器(例如，示出的安装到左镜腿122A的接收器127)；背离用户取向的左相机和右相机(例如，深度(飞行时间)相机130A和130B)；以及朝向用户取向的左眼相机和右眼相机(例如，用于检测用户的眼睛运动)(例如，眼睛相机128和128B)。然而，可穿戴头部设备100可以结合任何合适的显示技术，以及任何合适的数量、类型或组合的传感器或其它组件，而不脱离本发明的范围。在一些示例中，可穿戴头部设备100可以结合一个或多个麦克风150，该麦克风150被配置为检测由用户的语音生成的音频信号；该麦克风可以位于在可穿戴头部设备中用户的嘴附近。在一些示例中，可穿戴头部设备100可以结合联网特征(例如，Wi-Fi功能)以与包括其它可穿戴***的其它设备和***通信。可穿戴头部设备100可以进一步包括诸如电池、处理器、存储器、存储单元或各种输入设备(例如，按钮、触摸板)的组件；或可以耦合到包括一个或多个此类组件的手持式控制器(例如，手持式控制器200)或辅助单元(例如，辅助单元300)。在一些示例中，传感器可以被配置为输出头戴式单元相对于用户的环境的一组坐标，并且可以向执行同步定位和地图构建(SLAM)过程和/或视觉测距算法的处理器提供输入。在一些示例中，如下面进一步描述的，可穿戴头部设备100可被耦合到手持式控制器200和/或辅助单元300。

图2示出示例可穿戴***的示例移动手持式控制器组件200。在一些示例中，手持式控制器200可以与以下描述的可穿戴头部设备100和/或辅助单元300进行有线或无线通信。在一些示例中，手持式控制器200包括要由用户握持的手柄部分220，以及沿着顶表面210设置的一个或多个按钮240。在一些示例中，手持式控制器200可以被配置为用作光学跟踪目标；例如，可穿戴头部设备100的传感器(例如，相机或其它光学传感器)可以被配置为检测手持式控制器200的位置和/或取向，这通过扩展可以指示握持手持控制器200的用户的手的位置和/或取向。在一些示例中，手持式控制器200可以包括处理器、存储器、存储单元、显示器或一个或多个输入设备，诸如以上描述的。在一些示例中，手持式控制器200包括一个或多个传感器(例如，以上关于可穿戴头部设备100描述的任何传感器或跟踪组件)。在一些示例中，传感器可以检测手持式控制器200相对于可穿戴头部设备100或相对于可穿戴***的另一组件的位置或取向。在一些示例中，传感器可被放置在手持式控制器200的手柄部分220中，和/或可被机械地耦合到手持式控制器。手持式控制器200可以被配置为提供一个或多个输出信号，例如对应于按钮240的按下状态，或者手持式控制器200的位置、取向和/或运动(例如，经由IMU)。该输出信号可以用作到可穿戴头部设备100的处理器、辅助单元300或可穿戴***的另一组件的输入。在一些示例中，手持式控制器200可以包括以检测声音(例如，用户的语音、环境声音)的一个或多个麦克风，并且在一些情况下，将与检测到的声音相对应的信号提供给处理器(例如，可穿戴头部设备100的处理器)。

图3示出示例可穿戴***的示例辅助单元300。在一些示例中，辅助单元300可以与可穿戴头部设备100和/或手持式控制器200有线或无线通信。辅助单元300可以包括电池，以提供用于操作可穿戴***的一个或多个组件(诸如可穿戴头部设备100和/或手持式控制器200(包括显示器、传感器、声学结构、处理器、麦克风和/或可穿戴头部设备100或手持式控制器200的其它组件))的能量。在一些示例中，辅助单元300可以包括处理器、存储器、存储单元、显示器、一个或多个输入设备、和/或一个或多个传感器，诸如以上描述的。在一些示例中，辅助单元300包括用于将辅助单元附接至用户(例如，用户佩戴的皮带)的夹子310。使用辅助单元300来放置可穿戴***的一个或多个组件的优点是，这样做可以允许大型或沉重的组件由用户的腰部、胸部或背部(其相对地很适合于支撑大型和沉重的对象)携带，而不是安装到用户的头部(例如，放置在可穿戴头部设备100中)或由用户的手携带(例如，放置在手持式控制器200中)。对于相对较重或笨重的组件(诸如电池)，这可能是特别有利的。

图4示出可对应于示例可穿戴***400(诸如可包括上述的示例可穿戴头部设备100、手持式控制器200和辅助单元300)的示例功能框图。在一些示例中，可穿戴***400可以用于虚拟现实、增强现实或混合现实应用。如图4中所示，可穿戴***400可包括示例手持式控制器400B，在此称为“图腾(totem)”(并且可以对应于上述手持式控制器200)；手持式控制器400B可包括图腾至头带的六个自由度(6DOF)图腾子***404A。可穿戴***400还可以包括示例可穿戴头部设备400A(其可以对应于上述可穿戴头带设备100)；可穿戴头部设备400A包括图腾至头带6DOF头带子***404B。在示例中，6DOF图腾子***404A和6DOF头带子***404B协作以确定手持式控制器400B相对于可穿戴头部设备400A的六个坐标(例如，三个平移方向中的偏移和沿三个轴的旋转)。六个自由度可以相对于可穿戴头部设备400A的坐标系来表示。在该坐标系中，三个平移偏移量可以表示为X、Y和Z偏移量，表示为平移矩阵或表示为一些其它表示。旋转自由度可以表示为偏航、俯仰和侧倾旋转的序列；表示为矢量；表示为旋转矩阵；表示为四元数；或表示为一些其它表示。在一些示例中，可穿戴头部设备400A中包括的一个或多个深度相机444(和/或一个或多个非深度相机)；和/或一个或多个光学目标(例如，如上所述的手持式控制器200的按钮240或手持式控制器中包括的专用光学目标)可用于6DOF跟踪。在一些示例中，如上所述，手持式控制器400B可以包括相机；并且头带400A可包括与相机一起用于光学跟踪的光学目标。在一些示例中，可穿戴头部设备400A和手持式控制器400B每个都包括一组三个正交取向的螺线管，其用于无线地发送和接收三个可区分信号。通过测量在用于接收的每个线圈中接收到的三个可区分信号的相对大小，可以确定手持式控制器400B相对于可穿戴头部设备400A的6DOF。在一些示例中，6DOF图腾子***404A可以包括惯性测量单元(IMU)，该惯性测量单元可用于提供改进的准确度和/或更及时的有关手持式控制器400B的快速运动的信息。

在涉及增强现实或混合现实应用的一些示例中，可能希望将坐标从局部坐标空间(例如，相对于可穿戴头部设备400A固定的坐标空间)变换为惯性坐标空间或变换为环境坐标空间。例如，此类变换对于可穿戴头部设备400A的显示器可能是必要的，以在相对于真实环境的预期位置和取向处呈现虚拟对象(例如，坐在真实椅子上面向前方的虚拟人，而不管可穿戴头部设备400A的位置和取向)，而不是在显示器上的固定位置和取向(例如，在可穿戴头部设备400A的显示器中的相同位置)处呈现。这可以保持虚拟对象存在于真实环境中的幻觉(并且例如不会随着可穿戴头部设备400A移动和旋转而在真实环境中不自然地出现)。在一些示例中，坐标空间之间的补偿变换可以通过处理来自深度相机444的图像(例如，使用同时定位和地图构建(SLAM)和/或视觉测距过程)来确定，以便确定可穿戴头部设备400A相对于惯性或环境坐标系的变换。在图4中所示的示例中，深度相机444可以耦合到SLAM/视觉测距模块406，并且可以向框406提供图像。SLAM/视觉测距模块406的实现方式可以包括处理器，该处理器被配置为处理该图像并确定用户的头部的位置和取向，然后可以用其来识别头部坐标空间与真实坐标空间之间的变换。类似地，在一些示例中，从可穿戴头部设备400A的IMU 409获得关于用户的头部姿势和位置的附加信息源。来自IMU 409的信息可以与来自SLAM/视觉测距模块406的信息集成在一起，以提供改进的准确度和/或更及时的关于用户的头部姿势和位置的快速调节的信息。

在一些示例中，深度相机444可以将3D图像提供给手势***411，手势***411可以在可穿戴头部设备400A的处理器中实现。手势***411可以例如通过将从深度相机444接收到的3D图像与所存储的代表手势的模式进行匹配来识别用户的手势。其它合适的识别用户的手势的技术将是显而易见的。

在一些示例中，一个或多个处理器416可以被配置为从头带子***404B、IMU 409、SLAM/视觉测距模块406、深度相机444、麦克风(未示出)、和/或手势***411接收数据。处理器416还可以发送和接收来自6DOF图腾***404A的控制信号。诸如在手持式控制器400B不受限的示例中，处理器416可以无线地耦合到6DOF图腾***404A。处理器416可以进一步与附加组件(诸如，音频视觉内容存储器418、图形处理单元(GPU)420和/或数字信号处理器(DSP)音频声场***422)通信。DSP音频声场***422可以被耦合至头部相关传递函数(HRTF)存储器425。GPU 420可以包括耦合到逐图像调制的光的左源424的左通道输出和耦合到逐图像调制的光的右源426的右通道输出。GPU 420可将立体图像数据输出到逐图像调制的光的源424、426。DSP音频声场***422可以将音频输出到左扬声器412和/或右扬声器414。DSP音频声场***422可以从处理器416接收指示从用户到虚拟声源(该虚拟声源可由用户例如经由手持控制器400B移动)的方向矢量的输入。基于方向矢量，DSP音频声场***422可以确定对应的HRTF(例如，通过访问HRTF，或者通过内插多个HRTF)。然后，DSP音频声场***422可以将所确定的HRTF应用于音频信号，诸如与由虚拟对象生成的虚拟声音相对应的音频信号。这可以通过结合用户相对于在混合现实环境中的虚拟声音的相对位置和取向(也就是，通过呈现与听起来像是在真实环境中的真实声音的虚拟声音的用户期望相匹配的虚拟声音)来增强虚拟声音的可信度和真实性。

在一些示例中，诸如图4中所示，处理器416、GPU 420、DSP音频声场***422、HRTF存储器425和音频/视觉内容存储器418中的一个或多个可以被包括在辅助单元400C(其可以对应于上述辅助单元300)中。辅助单元400C可以包括电池427，以对其组件供电和/或向可穿戴头部设备400A和/或手持式控制器400B供电。将此类组件包括在可以安装到用户腰部的辅助单元中，可以限制可穿戴头部设备400A的大小和重量，这进而可以减少用户头部和颈部的疲劳。

在图4呈现了与示例可穿戴***400的各个组件相对应的元件的同时，对于本领域技术人员而言这些组件的各种其它合适的布置将变得显而易见。例如，在图4中被呈现为与辅助单元400C相关联的元件可以替代地与可穿戴头部设备400A或手持式控制器400B相关联。此外，一些可穿戴***可以完全放弃手持式控制器400B或辅助单元400C。可理解为此类改变和修改被包括在所公开的示例的范围内。

混合现实环境

像所有人一样，混合现实***的用户存在于真实环境中，也就是说，用户可以感知的“真实世界”的三维部分及其所有内容。例如，用户使用普通的人类感官(视觉、声音、触觉、味觉、气味)感知真实环境，并通过在真实环境中移动自己的身体来与真实环境交互。真实环境中的位置可被描述为坐标空间中的坐标；例如，坐标可以包括纬度、经度和相对于海平面的海拔；三个正交尺寸中与参考点的距离；或其它合适的值。同样，矢量可以描述具有坐标空间中的方向和幅度的量。

计算设备可以在例如与设备相关联的存储器中维持虚拟环境的表示。如在此所使用的，虚拟环境是三维空间的计算表示。虚拟环境可以包括与该空间相关联的任何对象、动作、信号、参数、坐标、矢量或其它特征的表示。在一些示例中，计算设备的电路(例如，处理器)可以维持并更新虚拟环境的状态；也就是说，处理器可以在第一时间基于与虚拟环境相关联的数据和/或用户提供的输入来确定第二时间的虚拟环境的状态。例如，如果虚拟环境中的对象当时位于第一坐标处，且具有特定编程的物理参数(例如，质量、摩擦系数)；以及从用户接收到的输入指示应向对象施加以方向矢量的力；则处理器可以应用运动学定律以使用基础力学来确定当时对象的位置。处理器可以使用关于虚拟环境的任何已知的适当信息和/或任何适当的输入来确定某时虚拟环境的状态。在维持和更新虚拟环境的状态时，处理器可以执行任何适当的软件，包括与在虚拟环境中创建和删除虚拟对象有关的软件；用于定义虚拟环境中虚拟对象或角色的行为的软件(例如脚本)；用于定义虚拟环境中信号(例如，音频信号)的行为的软件；用于创建和更新与虚拟环境关联的参数的软件；用于生成虚拟环境中的音频信号的软件；用于处理输入和输出的软件；用于实现网络操作的软件；用于应用资产数据(例如，用以随着时间推移而移动虚拟对象的动画数据)的软件；或许多其它可能的。

输出设备(诸如显示器或扬声器)可以向用户呈现虚拟环境的任何或所有方面。例如，虚拟环境可以包括可以向用户呈现的虚拟对象(其可以包括无生命的对象、人、动物、灯光等的表示)。处理器可以确定虚拟环境的视图(例如，与具有原始坐标、视图轴和平截头体的“相机”相对应)；并向显示器渲染与该视图相对应的虚拟环境的可见场景。任何合适的渲染技术都可以用于此目的。在一些示例中，可见场景可能仅包括虚拟环境中的一些虚拟对象，而排除某些其它虚拟对象。类似地，虚拟环境可能包括可作为一个或多个音频信号呈现给用户的音频方面。例如，虚拟环境中的虚拟对象可生成源自对象的位置坐标的声音(例如，虚拟角色可以说话或引起声音效果)；或者虚拟环境可与音乐提示或环境声音(其可能与特定位置相关联或不与特定位置相关联)相关联。处理器可以确定与“收听者”坐标相对应的音频信号(例如，与多个声音在虚拟环境中的合成相对应的音频信号，并进行混合和处理以模拟收听者在收听者坐标处听到的音频信号)，并经由一个或多个扬声器向用户呈现音频信号。

因为虚拟环境仅作为计算结构存在，所以用户不能直接使用普通的感觉来感知虚拟环境。相反，用户只能间接地感知虚拟环境，例如通过显示器、扬声器、触觉输出设备等呈现给用户的。类似地，用户不能直接触摸、操纵或以其它方式与虚拟环境交互；但是可以经由输入设备或传感器将输入数据提供给可使用设备或传感器数据来更新虚拟环境的处理器。例如，相机传感器可以提供指示用户正试图移动虚拟环境中的对象的光学数据，并且处理器可以使用该数据来使对象相应地在虚拟环境中做出响应。

反射和混响

收听者在虚拟环境的空间(例如，房间)中的音频体验的方面包括收听者对直接声音的感知、收听者对该直接声音对房间表面的反射的感知、以及收听者对直接声音在房间中的混响(“混响(reverb)”)的感知。图5示出根据一些实施例的几何房间表示500。几何房间表示500示出直接声音(502)、反射(504)和混响(506)的示例传播路径。这些路径表示音频信号可以从源传播到房间中的收听者的路径。图5中所示的房间可能是与一个或多个声学特性相关联的任何合适类型的环境。例如，房间500可以是音乐厅，并且可包括钢琴演奏者的舞台以及观众成员的观众座位区。如图所示，直接声音是起源于源(例如，钢琴演奏者)并且直接朝向收听者(例如，听众成员)传播的声音。反射是从源发出、由表面(例如，房间的墙壁)反射并传播到收听者的声音。混响是包括衰减信号的声音，该衰减信号包括在时间上彼此接近的许多反射。

图6示出根据一些实施例的从源到房间中的收听者测量的房间响应的示例模型600。房间响应的模型示出从收听者在与直接声源相距一定距离处的角度的直接声音(610)、直接声音的反射(620)以及直接声音的混响(630)的幅度。如图6中所示，直接声音通常在反射之前到达收听者(图中的反射_延迟(622)指示直接声音和反射之间的时间差)，其进而在混响之前到达(图中的混响_延迟(632)指示直接声音和混响之间的时间差)。反射和混响对于收听者在听觉上可能是不同的。反射可以与混响分开建模，例如，以更好地控制单个反射的时间、衰减、光谱形状和到达的方向。可以使用反射模型对反射进行建模，并且可以使用可以与反射模型不同的混响模型对混响进行建模。

同一声源的混响特性(例如，混响衰减)可能在针对同一声源的两个不同声学环境(例如，房间)之间是不同的，并且期望根据收听者的虚拟环境中当前房间的特性来逼真地再现声源。也就是说，当在混合现实***中呈现虚拟声源时，应当准确地再现收听者的真实环境的反射和混响特性。在音频工程学会学报(J.Audio Eng.Soc.)47(9):675–705(1999)中，L.Savioja、J.Huopaniemi、T.Lokki和

的“创建交互式虚拟声学环境(Creating Interactive Virtual Acoustic Environments)”描述了用于视频游戏、模拟或AR/VR的实时虚拟3D音频再现***中再现直接路径、单个反射和声音混响的方法。在Savioja等人公开的方法中，各个反射的到达方向、延迟、幅度和光谱均衡是从房间(例如，真实房间、虚拟房间或其一些组合)的几何和物理模型得出的，这可能需要复杂的渲染***。这些方法可能在计算上很复杂，对于计算资源可能非常宝贵的移动应用来说可能是过高的。

在一些房间声学模拟算法中，混响可通过将所有声源缩混为单通道信号并将单通道信号发送到混响模拟模块来实现。用于缩混和发送的增益可取决于动态参数(诸如，例如源距离)，以及手动参数(诸如，例如混响增益)。

声源方向性或辐射模式可以指声源以不同方向发射多少能量的度量。声源方向性具有对房间脉冲响应的所有部分(例如，直接、反射和混响)的影响。不同的声源可表现出不同的方向性；例如，人类语音可具有与小号演奏不同的方向性模式。在产生声学信号的精确模拟时，房间模拟模型可能考虑声源方向性。例如，结合声源方向性的模型可包括从声源到收听者的路线的方向相对于声源的前方向(或主声轴)的函数。方向性模式关于声源的主声轴是轴对称的。在一些实施例中，参数增益模型可以使用频率相关滤波器来定义。在一些实施例中，为了确定多少来自给定声源的音频应被发送到混响总线，可以计算声源的扩散功率平均值(例如，通过在以声源的声学中心为中心的球体上积分)。

交互式音频引擎和声音设计工具可以对要建模的声学***做出假设。例如，一些交互式音频引擎可以将声源方向性建模为与频率无关的函数，这可能具有两个潜在的缺点。首先，它可能忽略从声源到收听者的直接声音传播的频率相关衰减。其次，它可能忽略反射和混响发送上与频率有关的衰减。从心理声学的角度来看，这些影响可能是很重要的，并且不再现它们可能导致房间模拟被认为是不自然的并且与收听者习惯于在真实的声学环境中体验的模拟不同的。

在一些情况下，房间模拟***或交互式音频引擎可能无法完全分离声源、收听者和声学环境参数，诸如反射和混响。相反，房间模拟***可能会针对特定的虚拟环境进行整体调整，并且可能无法适应不同的播放场景。例如，在模拟环境中的混响可能与在收听渲染内容时用户/收听者物理存在的环境不匹配。

在增强现实或混合现实应用中，计算机生成的音频对象可以经由透声播放***渲染，以与用户/收听者自然听到的物理环境混合。这可能需要双耳人工混响处理，以匹配本地环境声学，使得合成的音频对象无法从自然产生的或通过扬声器再现的声音中分辨出。涉及测量或计算房间脉冲响应(例如，基于对环境的几何形状的估计)的方法在消费者环境中可能受到实际障碍和复杂性限制。另外，物理模型可能未必提供最引人注目的听觉体验，因为它可能未考虑心理声学的声学原理，也未提供适合声音设计者调整听觉体验的音频场景参数化。

匹配目标声学环境的一些特定物理特性可能不能提供在感知上紧密匹配收听者的环境或应用设计者的意图的模拟。可能需要可以用实际的音频环境描述界面来表征的目标声学环境的感知相关模型。

例如，可能需要一种分离源、收听者和房间特性的贡献的渲染模型。分离贡献的渲染模型可使得能够根据最终用户和本地环境的特性在运行时适应或交换组件。例如，收听者可能位于与内容被原始创建的虚拟环境不同的声学特征的物理房间中。修改模拟的早期反射和/或混响部分以匹配收听环境可能导致更令人信服的收听体验。匹配收听环境可能在混合现实应用中是特别重要的，其中，期望的效果可能是收听者无法辨别它们周围的哪些声音是被模拟的以及哪些声音是在真实周围环境中存在的。

可能期望在不需要详细了解真实周围环境的几何形状和/或周围表面的声学特性的情况下产生令人信服的效果。真实周围环境特性的详细知识可能无法可得，或者对其进行估计可能很复杂，特别是在便携式设备上。相反，基于感知和心理声学原理的模型可能是表征声学环境的更为实用的工具。

图7示出根据一些实施例的表格700，该表格700包括一些客观的声学和几何参数，该参数表征双耳房间脉冲模型中的每个部分，从而区分源、收听者和房间的特性。一些源特性可能与内容如何被渲染以及在何处被渲染无关(包括自由场和扩散场传递函数)，而其它特性可能需要在播放时动态更新(包括位置和取向)。类似地，一些收听者特性可能与内容被渲染的位置无关(包括自由场和扩散场头部相关的传递函数或扩散场耳间相干性(IACC))，而其它特性可能会在播放时动态更新(包括位置和取向)。一些房间特性(特别是有助于后期混响的特性)可能完全取决于环境。混响衰减率和房间立方体积的表示可以使空间音频渲染***适应收听者的播放环境。

可以将源和收听者的耳朵建模为发射和接收换能器，每一者被表征为一组方向相关的自由场传递函数，其包括收听者的头部相关传递函数(HRTF)。

图8示出根据一些实施例的用于在虚拟房间中(诸如XR环境中)渲染多个虚拟声源的示例音频混合***800。例如，音频混合架构可以包括用于多个虚拟声源810(即，对象1至N)的房间声学仿真的渲染引擎。***800包括房间发送总线830，其馈送渲染反射和混响的模块850(例如，共享的混响和反射模块)。例如，在IA-SIG 3D音频渲染指南(第2级)，www.iasig.net(1999)中，描述了该一般过程的各方面。房间发送总线结合了来自所有源(例如，声源810，每个都由对应模块820处理)的贡献，以得到房间模块的输入信号。房间发送总线可以包括单声道房间发送总线。主混合总线840的格式可以是与最终输出渲染的方法匹配的两通道或多通道格式，其例如可以包括用于头戴式耳机播放的双耳渲染器、环绕声解码器和/或多通道扬声器***。主混合总线将来自所有源的贡献与房间模块输出进行组合，以得到输出渲染信号860。

参考示例***800，N个对象中的每个对象可以表示虚拟声源信号，并且可以诸如通过平移(panning)算法被分配环境中的明显的位置。例如，可以为每个对象分配以虚拟收听者的位置为中心的球体上的角位置。平移算法可以计算每个对象对主要混合的每个通道的贡献。该一般过程例如在第16届空间声音再现国际会议(Proc.AES 16th InternationalConference on Spatial Sound Reproduction)(1999)上J.-M.Jot、V.Larcher和J.-M.Pernaux的“三维音频编码与渲染技术的比较研究(A comparative study of3-D audioencoding and rendering techniques)”中进行了描述。可以将每个对象输入到平移增益模块820，该模块可以实现平移算法并执行附加信号处理，诸如针对每个对象调节增益级别。

在一些实施例中，***800(例如，经由模块820)可以向每个虚拟声源分配相对于虚拟收听者的位置的明显的距离，渲染引擎可以从该虚拟收听者的位置得出每个对象的每源(per-source)直接增益和每源房间增益。直接增益和房间增益可能影响由虚拟声源分别贡献给主混合总线840和房间发送总线830的音频信号功率。最小距离参数可以被分配给每个虚拟声源，并且随着距离增加超过该最小距离，直接增益和房间增益可以以不同的速率滚降。

在一些示例中，图8的***800可以用于针对传统的两通道正面立体声扬声器播放***的音频记录和交互式音频应用的产生。然而，当在双耳或沉浸式3D音频***中应用***800使得能够在空间上扩散模拟混响和反射的分布时，***800在渲染虚拟声源时(特别是远离收听者的虚拟声源)可能不会提供足够令人信服的听觉定位提示。这可以通过以下来解决：将在虚拟声源810之间共享的群集反射渲染模块包含在内，同时支持每源控制反射的空间分布。可期望该模块结合每源的早期反射处理算法以及根据虚拟声源和收听者位置的早期反射参数的动态控制。

在一些实施例中，可期望具有可以精确地再现与位置相关的房间声学提示的空间音频处理模型/***和方法，而无需在计算上复杂地渲染每个虚拟声源的单独的早期反射，也无需对声学反射器的几何形状和物理特性的详细描述。

反射处理模型可以动态地说明收听者和虚拟声源在真实或虚拟房间/环境中的位置，而无需相关联的物理和几何描述。可以有效地实现每源群集的反射平移和用于控制早期反射处理参数的感知模型。

图9示出根据一些实施例的用于渲染虚拟房间中的多个虚拟声源的音频混合***900。例如，***900可以包括用于多个虚拟声源910(例如，对象1至N)的房间声学模拟的渲染引擎。与上述***800相比，***900可以包括针对每个虚拟声源的混响和反射发送通道的单独控制。每个对象可以被输入到相应的每源处理模块920，并且房间发送总线930可以馈送房间处理模块950。

图10示出根据一些实施例的每源处理模块1020。模块1020可以对应于图9中所示的示例***900和模块920中的一个或多个。每源处理模块1020可以执行特定于整个***(例如，***900)中的单独源(例如，1010，其可以对应于源910中的一个)的处理。每源处理模块可以包括直接处理路径(例如，1030A)和/或房间处理路径(例如，1030B)。

在一些实施例中，可以分别对每个声源应用单独的直接滤波器和房间滤波器。单独应用滤波器可允许对每个源如何将声音辐射到收听者以及到周围环境中进行更精细和准确的控制。与宽带增益相反，使用滤波器可以允许根据频率来匹配所需的声音辐射模式。这是有益的，因为辐射特性可跨声源类型而变化，并且可以是频率相关的。声源的主声轴与收听者的位置之间的角度可影响收听者感知的声压级。此外，源辐射特征可影响源的扩散功率平均值。

在一些实施例中，频率相关滤波器可以使用题为“过滤器参数的索引规划(INDEXSCHEMING FOR FILTER PARAMETERS)”的第62/678259号美国专利申请中公开的双搁架方法来实现，其全部内容通过引用并入本文。在一些实施例中，频率相关滤波器可以在频域中和/或使用有限脉冲响应滤波器来应用。

如示例中所示，直接处理路径可以包括直接发送滤波器1040，其后是直接平移模块1044。直接发送滤波器1040可以建模一个或多个声学效果，诸如声源方向性、距离和/或取向中的一个或多个。直接平移模块1044可以将音频信号空间化以对应于环境中的明显的位置(例如，诸如XR环境的虚拟环境中的3D位置)。直接平移模块1044可以是基于幅度和/或强度的，并且可以取决于扬声器阵列的几何形状。在一些实施例中，直接处理路径可以包括直接发送增益1042以及直接发送滤波器和直接平移模块。直接平移模块1044可以输出到主混合总线1090，该主混合总线1090可以对应于以上关于示例***900描述的主混合总线940。

在一些实施例中，房间处理路径包括房间延迟1050和房间发送滤波器1052，其后是反射路径(例如1060A)和混响路径(例如1060B)。房间发送滤波器可被用于对声源方向性对去往反射和混响路径的信号的影响进行建模。反射路径可以包括反射发送增益1070，并且可以经由反射平移模块1072将信号发送到反射发送总线1074。反射平移模块1072可以类似于直接平移模块1044，因为其可以使音频信号空间化，但其可以操作在反射而不是直接信号上。混响路径1060B可以包括混响增益1080，并且可以将信号发送到混响发送总线1084。反射发送总线1074和混响发送总线1084可以被分组到房间发送总线1092中，该房间发送总线1092可以对应于以上关于示例***900描述的房间发送总线930。

图11示出根据一些实施例的可以与上述反射平移模块1072对应的每源反射平移模块1100的示例。如图中所示，例如，如在第16届空间声音再现国际会议(1999)上J.-M.Jot、V.Larcher和J.-M.Pernaux的“三维音频编码与渲染技术的比较研究”中所描述的，输入信号可以被编码为三通道环绕声B格式信号。编码系数1110可以根据等式1-3来计算。

gX＝k*cos(Az) 等式2

gY＝k*sin(Az) 等式3

在等式1-3中，k可计算为

其中F是值在[0，2/3]之间的空间焦点参数，而Az是在[0，360]之间的角度。编码器可以将输入信号编码为三通道环绕声B格式信号。

Az可以是通过将反射的主要到达方向投影到相对于头部的水平面(例如，垂直于收听者头部的“上”矢量并包含收听者耳朵的平面)而定义的方位角。空间焦点参数F可以指示到达收听者的反射信号能量的空间集中。当F为零时，反射能量到达的空间分布可能是围绕收听者均匀的。随着F增加，空间分布可能越来越集中在由方位角Az确定的主方向周围。F的最大理论值可以是1.0，指示所有能量都从由方位角Az确定的主方向到达。

在本发明的实施例中，空间聚焦参数F可以被定义为例如在第16届空间声音再现国际会议(1999)上J.-M.Jot、V.Larcher和J.-M.Pernaux的“三维音频编码与渲染技术的比较研究”中描述的Gerzon能量矢量的大小。

反射平移模块1100的输出可以被提供给反射发送总线1174，该反射发送总线1174可以对应于以上关于图10描述的反射发送总线1074和示例处理模块1020。

图12示出根据一些实施例的示例房间处理模块1200。房间处理模块1200可以对应于以上关于图9描述的房间处理模块950和示例***900。如图9中所示，房间处理模块1200可以包括反射处理路径1210A和/或混响处理路径1210B。

反射处理路径1210A可以从反射发送总线1202(其可以对应于上述反射发送总线1074)接收信号，并且向主混合总线1290(其可以对应于上述主混合总线940)输出信号。反射处理路径1210A可以包括反射全局增益1220、反射全局延迟1222和/或反射模块1224，其可以模拟/渲染反射。

混响处理路径1210B可以从混响发送总线1204(其可以对应于上述混响发送总线1084)接收信号，并且将信号输出到主混合总线1290中。混响处理路径1210B可以包括混响全局增益1230、混响全局延迟1232和/或混响模块1234。

图13示出根据一些实施例的示例反射模块1300。诸如上述，反射模块的输入1310可以由反射平移模块1100输出，并经由反射发送总线1174呈现给反射模块1300。反射发送总线可以承载3通道环绕声B格式信号，该信号组合了来自所有虚拟声源(例如，以上关于图9描述的声源910(对象1至N))的贡献。在所示的示例中，三个通道(由(W，X，Y)表示)被馈送到环绕声解码器1320。根据该示例，环绕声解码器产生六个输出信号，其分别馈送六个单进/出基本反射模块1330(R1至R6)，产生一组六个反射输出信号1340(s1至s6)(尽管该示例示出了六个信号和反射模块，但是也可以使用任何合适的数量)。将反射输出信号1340呈现给主混合总线1350，该主混合总线1350可以对应于上述主混合总线940。

图14示出根据一些实施例的由收听者1402检测的反射的明显的到达方向的空间分布1400。例如，所示的反射可以是由上述反射模块1300产生的反射，例如，对于被分配具有以上关于图11描述的反射平移参数Az和F的特定值的声源。

如图14中所示，反射模块1300与反射平移模块1100相结合的效果是产生一系列反射，每个反射可以在不同的时间到达(例如，如模型600中所示)并且来自每个虚拟扬声器方向1410(例如，1411至1416，其可对应于上述反射输出信号s1至s6)。反射平移模块1100与环绕声解码器1320相结合的效果是调节反射输出信号1340的相对幅度，以便为收听者产生从主方向角Az发出反射的感觉，其空间分布由空间焦点参数F的设定来确定(例如，或多或少地集中在该主方向周围)。

在一些实施例中，对于每个源，反射主方向角Az与直接路径的明显的到达方向相重合，该明显的到达方向可以由直接平移模块1020针对每个源来控制。模拟的反射可以强调由收听者感知的虚拟声源的定向位置的感知。

在一些实施例中，主混合总线940和直接平移模块1020可以实现声音方向的三维再现。在这些实施例中，反射主方向角Az可以与明显的方向在测量反射主角度Az的平面上的投影重合。

图15示出根据一些实施例的作为距离(例如，到收听者)的函数的示例直接增益、反射增益和混响增益的模型1500。模型1500示出了例如图10中所示的相对于源距离的直接、反射和混响发送增益的变化的示例。如图所示，直接声音、其反射和其混响可能具有关于距离的显著不同的衰减曲线。在一些情况下，诸如上述的每源处理可以允许实现针对反射比针对混响更快的基于距离的滚降。从心理上讲，这可能使鲁棒的方向感知和距离感知成为可能，特别是对于远距离的源而言。

图16示出根据一些实施例的针对直接分量和反射分量的空间焦点与源距离的示例模型1600。在该示例中，直接平移模块1020被配置为在声源的方向中产生直接路径分量的最大空间集中度，而不管其距离如何。另一方面，对于所有大于极限距离(例如，反射最小距离1610)的距离，可以将反射空间焦点参数F设定为示例值2/3，从而以现实的方式增强方向感知。如示例模型1600所示，随着源接近收听者，反射空间焦点参数值朝向零减小。

图17示出作为时间的函数的音频信号的幅度的示例模型1700。如上所述，反射处理路径(例如，1210A)可以从反射发送总线接收信号，并且将信号输出到主混合总线上。诸如上述，反射处理路径可以包括反射全局增益(例如，1220)、用于控制模型1700中所示的参数Der的反射全局延迟(例如，1222)，和/或反射模块(例如，1224)。

如上所述，混响处理路径(例如，1210B)可以从混响发送总线接收信号，并且将信号输出到主混合总线中。混响处理路径1210B可以包括如模型1700中所示的用于控制参数Lgo的混响全局增益(例如，1230)、如模型1700中所示的用于控制参数Drev的混响全局延迟(例如，1232)和/或混响模块(例如1234)。混响处理路径内的处理模块可以以任何合适的顺序来实现。在题为“混响增益归一化(REVERBERATION GAIN NORMALIZATION)”的第62/685235号美国专利申请和题为“低频信道间相干控制(LOW-FREQUENCY INTERCHANNELCOHERENCE CONTROL)”的第62/684086号美国专利申请中描述了混响模块的示例，其全部内容通过引用整体并入本文。

图17的模型1700示出根据一些实施例的如何可以将每源的参数(包括距离和混响延迟)考虑在内以动态地调节混响延迟和级别。在图中，Dtof表示由于给定对象的飞行时间引起的延迟：Dtof＝ObjDist/c，其中ObjDist是距收听者头部中心的对象距离，并且c是空气中的声速。Drm表示每对象(per object)房间延迟。Dobj表示总的每对象延迟：Dobj＝Dtof+Drm。Der表示全局早期反射延迟。Drev表示全局混响延迟。Dtotal表示给定对象的总延迟：Dtotal＝Dobj+Dglobal。

Lref表示Dtotal＝0的混响级别。Lgo表示由于全局延迟引起的全局级别偏移，其可以根据等式10计算，其中T60是混响算法的混响时间。Loo表示由于全局延迟引起的每对象级别偏移，其可以根据等式11计算。Lto表示给定对象的总级别偏移，并且可以根据等式12计算(假设dB值)。

Lgo＝Dglobal/T60*60(dB) 等式10

Loo＝Dobj/T60*60(dB) 等式11

Lto＝Lgo+Loo 等式12

在一些实施例中，混响级别是独立于对象位置、混响时间和其它用户可控制参数来校准的。因此，Lrev可以是在声音发射的初始时间的衰减混响的外推级别。Lrev可以具有与题为“混响增益归一化”的第62/685235号美国专利申请中定义的混响初始功率(RIP)相同的量，其全部内容通过引用并入本文。Lrev可以根据等式13计算。

Lrev＝Lref+Lto 等式13

在一些实施例中，T60可以是频率的函数。因此，Lgo、Loo和由此的Lto是频率相关的。

图18示出用于基于声学环境确定空间音频特性的示例***1800。示例***1800可以用于确定针对诸如上述的反射和/或混响的空间音频特性。作为示例，该特性可以包括房间的体积、作为频率的函数的混响时间、收听者关于房间的位置、房间中对象(例如声音衰减的对象)的存在、表面材料、或其它合适的特性。在一些示例中，这些空间音频特性可以通过采用自由放置在本地环境中的麦克风和扬声器采集单个脉冲响应来本地取得，或者可以通过连续监测和分析由移动设备麦克风采集的声音来自适应地得出。在一些示例中，诸如可以经由XR***(例如，包括上述可穿戴头部单元100、手持式控制器200和辅助单元300中的一个或多个的增强现实***)的传感器来感测声学环境的情况下，用户的位置可以用于呈现与向用户呈现(例如，经由显示器)的环境相对应的音频反射和混响。

在示例***1800中，诸如上述，声学环境感测模块1810识别声学环境的空间音频特性。在一些示例中，声学环境感测模块1810可以采集与声学环境相对应的数据(阶段1812)。例如，在阶段1812处采集的数据可以包括来自一个或多个麦克风的音频数据、来自相机(诸如RGB相机或深度相机)的相机数据、LIDAR数据、声纳数据、雷达数据、GPS数据或可能传达有关声学环境的信息的其它合适数据。在一些情况下，在阶段1812处采集的数据可以包括与用户有关的数据，诸如用户关于声学环境的位置或取向。在阶段1812处采集的数据可以经由可穿戴设备(诸如上述可穿戴头部单元100)的一个或多个传感器来采集。

在一些实施例中，头戴式显示设备所在的本地环境可以包括一个或多个麦克风。在一些实施例中，一个或多个麦克风可以被采用，并且可以是安装在移动设备上的麦克风、或在环境中定位的麦克风、或这两者。该布置的好处可包括收集关于房间的混响的方向信息，或者减轻一个或多个麦克风内的任何一个麦克风的不良信号质量。例如由于闭塞、过载、风噪声、换能器损坏等，给定麦克风上的信号质量可能不良。

在模块1810的阶段1814处，可以从在阶段1812处采集的数据中提取特征。例如，可以从传感器数据(诸如，相机数据、LIDAR数据、声纳数据等)确定房间的尺寸。在阶段1814处提取的特征可用于确定房间的一个或多个声学特性(例如，频率相关的混响时间)，并且这些特性可在阶段1816处存储并与当前声学环境相关联。

在一些示例中，模块1810可以与数据库1840通信以存储和取得声学环境的声学特性。在一些实施例中，数据库可以本地存储在设备的存储器中。在一些实施例中，数据库可以在线存储作为基于云的服务。数据库可以基于收听者的位置为房间特性分配地理位置，以便以后轻松访问。在一些实施例中，数据库可以包含附加信息，以识别收听者的位置和/或确定数据库中的与收听者的环境特性非常接近的混响特性。例如，房间特性可以按房间类型分类，因此，一旦确定了收听者处于已知类型的房间(例如卧室或客厅)中，就可以使用一组参数，即使可能不知道绝对地理位置。

将混响特性存储到数据库中可能与题为“支持增强现实并包含音频组件的持久世界模型(PERSISTENT WORLD MODEL SUPPORTING AUGMENTED REALITY AND INCLUDINGAUDIO COMPONENT)”的第62/573448号美国专利申请相关，其全部内容通过引用并入本文。

在一些示例中，***1800可以包括反射适应模块1820，用于取得房间的声学特性，并将这些特性应用于音频反射(例如，经由头戴式耳机或经由扬声器呈现给可穿戴头部单元100的用户的音频反射)。在阶段1822处，可以确定用户当前的声学环境。例如，GPS数据可以指示用户在GPS坐标中的位置，该位置进而可以指示用户当前的声学环境(例如位于这些GPS坐标处的房间)。作为另一示例，与光学识别软件结合的相机数据可用于识别用户当前的环境。反射适应模块1820然后可以与数据库1840通信以取得与所确定的环境相关联的声学特性，并且这些声学特性可以在阶段1824处被用来更新音频渲染。也就是说，可以将与反射有关的声学特性(例如，诸如上述的方向性模式或滚落曲线)应用于呈现给用户的反射音频信号，使得所呈现的反射音频信号结合了该声学特性。

类似地，在一些示例中，***1800可以包括反射适应模块1830，该反射适应模块1830用于取得房间的声学特性并将这些特性应用于音频混响(例如，经由头戴式耳机或经由扬声器呈现给可穿戴头部单元100的用户的音频反射)。诸如上述(例如，在关于图7的表格700处)，针对混响的所关注的声学特性可能不同于针对反射的所关注的声学特性。如上所述，在阶段1832处，可以确定用户的当前声学环境。例如，GPS数据可以指示用户在GPS坐标中的位置，该位置进而可以指示用户的当前声学环境(例如，位于这些GPS坐标处的房间)。作为另一示例，与光学识别软件结合的相机数据可用于识别用户的当前环境。混响自适应模块1830然后可以与数据库1840通信以取得与所确定的环境相关联的声学特性，并且相应地这些声学特性可被用于在阶段1824更新音频渲染。即，可以将与混响有关的声学特性(例如，如上所述的混响衰减时间)应用于呈现给用户的混响音频信号，使得所呈现的混响音频信号结合了这些声学特性。

关于以上描述的***和方法，该***和方法的元件可以由一个或多个计算机处理器(例如，CPU或DSP)适当地实现。本公开不限于用于实现这些元件的计算机硬件(包括计算机处理器)的任何特定配置。在一些情况下，可以采用多个计算机***来实现上述***和方法。例如，可以采用第一计算机处理器(例如，耦合到麦克风的可穿戴设备的处理器)来接收输入的麦克风信号，并执行对这些信号的初始处理(例如，信号调节和/或分段，诸如以上所述)。然后可以采用第二(并且也许是更强大的计算能力的)处理器来执行更多的计算密集型处理，诸如确定与这些信号的语音片段相关联的概率值。另一计算机设备(诸如云服务器)可以托管语音识别引擎，最终向该语音识别引擎提供输入信号。其它合适的配置将是显而易见的，并且在本公开的范围内。

尽管已经参考附图充分描述了所公开的示例，但是应当注意，对于本领域技术人员而言各种改变和修改将变得显而易见。例如，一个或多个实现方式的元素可以被组合、删除、修改或补充以形成进一步的实现方式。此类改变和修改应被理解为包括在由所附权利要求限定的所公开示例的范围内。

Claims

1.一种方法，包括：

基于声源在虚拟环境中的位置，确定与输入音频信号相对应的第一中间音频信号；

基于所述声源的位置并且进一步基于所述虚拟环境的声学特性，确定第二中间音频信号，所述第二中间音频信号对应于所述输入音频信号从所述虚拟环境的表面的反射；以及

基于所述第一中间音频信号和所述第二中间音频信号向收听者呈现输出音频信号。

2.根据权利要求1所述的方法，其中，所述虚拟环境的所述声学特性是经由与所述收听者相关联的一个或多个传感器来确定的。

3.根据权利要求2所述的方法，其中，所述一个或多个传感器包括一个或多个麦克风。

4.根据权利要求2所述的方法，其中：

所述一个或多个传感器与被配置为由所述收听者佩戴的可佩戴头部设备相关联，以及

所述输出音频信号经由与所述可佩戴头部设备相关联的一个或多个扬声器被呈现给所述收听者。

5.根据权利要求1所述的方法，还包括与所述输出音频信号的呈现同时地向所述收听者显示所述虚拟环境的视图。

6.根据权利要求1所述的方法，还包括从数据库取得所述声学特性，其中，所述声学性能包括经由一个或多个传感器确定的声学特性。

7.根据权利要求6所述的方法，其中，取得所述声学特性包括：

基于所述一个或多个传感器的输出，确定所述收听者的位置；以及

基于所述收听者的位置来识别所述声学特性。

8.一种可穿戴设备，包括：

显示器，其被配置为显示虚拟环境的视图；

一个或多个传感器；

一个或多个扬声器；

一个或多个处理器，其被配置为执行一种方法，所述方法包括：

基于所述第一中间音频信号和所述第二中间音频信号，经由所述一个或多个扬声器向收听者呈现输出音频信号。

9.根据权利要求8所述的可穿戴设备，其中，所述虚拟环境的声学特性是经由与所述收听者相关联的一个或多个传感器来确定的。

10.一种非暂时性计算机可读存储介质，其存储一个或多个程序，所述一个或多个程序包括指令，所述指令在由具有一个或多个处理器和存储器的电子设备执行时使所述设备执行一种方法，所述方法包括：

基于所述第一和第二中间音频信号向收听者呈现输出音频信号。