CN117242796A

CN117242796A - 渲染混响

Info

Publication number: CN117242796A
Application number: CN202280029171.XA
Authority: CN
Inventors: A·J·埃罗宁; J·A·勒帕宁; M·金瑟; P·利马泰宁
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2021-04-20
Filing date: 2022-04-01
Publication date: 2023-12-15
Also published as: EP4327570A1; US20240196159A1; GB202105632D0; WO2022223874A1

Abstract

一种用于处理至少一个沉浸式音频信号的装置(201，301)，该至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号(204)、定义声源的至少一个声源参数、以及用于在声学上定义声源位于其中的场景(202)的至少一个场景参数，该装置包括被配置为执行以下操作的部件：获得与声源相关联的至少一个音频信号；获得定义声源的至少一个声源参数；获得用于在声学上定义声源位于其中的场景的至少一个场景参数；确定针对声源的关于传播延迟的信息(213，215)；以及基于该信息，处理至少一个音频信号，其中，被配置为处理至少一个音频信号的部件被配置为：确定至少一个早期混响参数(213)；以及基于至少一个早期混响参数，渲染至少一个音频信号(239)。

Description

渲染混响

技术领域

本申请涉及用于对混响进行空间音频渲染的装置和方法，但不仅仅涉及用于在增强现实和/或虚拟现实装置中对混响进行空间音频渲染的装置和方法。

背景技术

沉浸式音频编解码器正被实现，从而支持范围从低比特率操作到透明性的大量操作点。其中一个示例是MPEG-I(MPEG沉浸式音频)。这些编解码器的开发涉及开发用于参数化和渲染音频场景的装置和方法，这些音频场景包括诸如对象、通道、参数化空间音频和高阶全景环绕声(higher-order ambisonics，HOA)之类的音频元素，包含几何、尺寸、声学材料之类的音频场景信息，以及诸如方向性和空间范围之类的对象特性。另外，可以存在使能传达艺术意图即当用户在场景中移动时应如何控制和/或修改渲染的各种元数据。

MPEG-I沉浸式音频标准(MPEG-I音频阶段2(Audio Phase 2)6DoF)将支持用于虚拟现实(VR)和增强现实(AR)应用的音频渲染。该标准将基于MPEG-H 3D音频，其支持基于三自由度(3DoF)的对象、通道和HOA内容的渲染。音频渲染器应能够根据被定义为编码器输入或被提供给渲染器的声学参数来渲染虚拟声学效果，诸如混响、声源方向性、介质吸收、以及声学材料衰减。声学参数例如包括混响时间(RT60)、扩散对直接比率(diffuse-to-direct ratio)、声学材料的吸收系数或反射能量的量、以及(虚拟或物理)房间尺寸。

房间声学通常利用单独合成的早期反射部分和扩散后期混响的统计模型来建模。图1描绘了合成房间脉冲响应的示例，其中，直接声音101后跟具有到达方向(DOA)的离散早期反射103和可以被合成而没有任何具体到达方向的扩散后期混响105。

在典型的6DoF渲染场景中，当用户或声源移动时，声音传播路径长度动态地改变。为了在虚拟声学渲染器(诸如MPEG-I渲染器)中平滑地对此进行渲染，可以使用具有时变分数延迟的延迟线来实现此动态路径延迟。图1中的延迟d1(t)102可以被视为标示从源到收听者的直接声音到达延迟。

类似地，关于早期反射，可以基于源到材料到收听者距离估计，不断地计算或更新传播延迟，其中，对于Nt阶反射，其间可以存在多达N个材料反射。图1中在每个时间点的延迟d2(t)104可以标示针对早期反射之一(在这种情况下是第一个到达的反射)从源到收听者的延迟。

早期反射的到达延迟、方向、以及水平(幅度)可以借助于虚拟场景几何中相对于反射元件而镜像的图像源来计算。可以经由一个或多个反射元件，从源到收听者跟踪一个或多个早期反射路径。早期反射的延迟可以基于声音反射所行进的距离来确定。早期反射的水平可以通过沿着反射的行进路径应用空气吸收和材料吸收来确定。早期反射的DOA可以被确定为反射声线(sound ray)到收听位置的到达方向。

所谓的多普勒效应(Doppler effect)是由时变延迟所引起的可听音调偏移引起的，它是一种期望的物理声学现象并且应在音频渲染器内被实现。

发明内容

根据第一方面，提供了一种用于处理至少一个沉浸式音频信号的装置，该至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义声源的至少一个声源参数、以及用于在声学上定义声源位于其中的场景的至少一个场景参数，该装置包括被配置为执行以下操作的部件：获得与声源相关联的至少一个音频信号；获得定义声源的至少一个声源参数；获得用于在声学上定义声源位于其中的场景的至少一个场景参数；确定针对声源的关于传播延迟的信息；以及基于该信息，处理至少一个音频信号，其中，被配置为处理至少一个音频信号的部件被配置为：确定至少一个早期混响参数；以及基于至少一个早期混响参数，渲染至少一个音频信号。

针对声源的关于传播延迟的信息可以包括以下中的至少一项：指示针对声源的关于传播延迟的信息；以及传播延迟值。

该装置可以被配置为：基于针对声源的关于传播延迟的信息，确定对传播延迟处理的控制。

被配置为基于针对声源的关于传播延迟的信息，确定对传播延迟处理的控制的部件可以进一步被配置为：基于所确定的对传播延迟处理的控制，针对至少一个音频信号控制处理传播延迟。

被配置为渲染至少一个音频信号的部件可以被配置为：禁用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理，其中，至少一个音频信号的基于后期混响的处理可以包括所启用的启动阶段。

被配置为启用至少一个音频信号的基于后期混响的处理(包括所启用的启动阶段)的部件可以被配置为：基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸，确定针对至少一个反射路径的至少一个时间延迟；以及基于将至少一个时间延迟应用于与声源相关联的至少一个音频信号的至少一部分，生成混响音频信号。

被配置为渲染至少一个音频信号的部件可以被配置为：使用静态传播延迟值、静态声级值、以及静态到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理。

被配置为使用静态传播延迟值、静态声级值、以及静态到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理的部件可以被配置为：基于至少一个声源参数，确定声源的位置；基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸和声源的位置，确定针对反射路径的静态时间延迟值、静态声级值、以及静态到达方向值；以及基于将静态时间延迟值、静态声级值、以及静态到达方向值应用于与声源相关联的至少一个音频信号的至少一部分，生成早期混响音频信号。

被配置为渲染至少一个音频信号的部件可以被配置为：使用静态传播延迟值、静态声级值、以及时变到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理。

被配置为启用至少一个音频信号的基于早期混响的处理的部件可以被配置为：基于至少一个声源参数，确定声源的静态位置，并基于至少一个声源参数和/或收听者的时变位置，确定声源的时变位置；基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸和声源的静态位置，确定针对反射路径的静态时间延迟值和静态声级值；基于场景的尺寸和声源的时变位置和/或收听者的时变位置，确定针对反射路径的时变到达方向值；以及基于将静态时间延迟值、静态声级值、以及时变到达方向值应用于与声源相关联的至少一个音频信号的至少一部分，生成早期混响音频信号。

被配置为渲染至少一个音频信号的部件可以被配置为：使用时变传播延迟值、时变声级值、以及时变到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理。

被配置为启用至少一个音频信号的基于早期混响的处理的部件可以被配置为：基于至少一个声源参数和/或收听者的时变位置，确定声源的时变位置；基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸和声源的时变位置和/或收听者的时变位置，确定针对反射路径的时变时间延迟值、时变声级值、以及时变到达方向值；基于将时变时间延迟值、时变声级值、以及时变到达方向值应用于与声源相关联的至少一个音频信号的至少一部分，生成早期混响音频信号；以及对早期混响音频信号进一步进行相位修改。

被配置为对早期混响音频信号进一步进行相位修改的部件可以被配置为：对早期混响音频信号进行去相关处理。

被配置为获得用于在声学上定义声源位于其中的场景的至少一个场景参数的部件可以被配置为获得以下中的至少一项：至少一个场景几何参数；以及至少一个场景声学材料参数。

被配置为获得用于在声学上定义声源位于其中的场景的至少一个场景参数的部件可以被配置为从以下中的至少一项获得至少一个场景参数：编码器输入格式描述；内容创建器；增强现实传感装置；相机；以及光测距和探测传感器。

被配置为确定指示针对声源的关于传播延迟的信息的部件可以被配置为确定以下中的至少一项：指示针对声源禁用动态源更新的信息；至少一个沉浸式音频信号内的指示禁用动态源更新的标志；应用编程接口内的指示针对音频源禁用动态源更新的信息；以及质量确定器，其被配置为当利用动态源更新来处理音频源时确定输出音频信号的质量的降低。

被配置为确定指示针对声源的关于传播延迟的信息的部件可以被配置为：确定指示针对声源禁用时变传播延迟的信息。

根据第二方面，提供了一种用于处理至少一个沉浸式音频信号的方法，该至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义声源的至少一个声源参数、以及用于在声学上定义声源位于其中的场景的至少一个场景参数，该方法包括：获得与声源相关联的至少一个音频信号；获得定义声源的至少一个声源参数；获得用于在声学上定义声源位于其中的场景的至少一个场景参数；确定针对声源的关于传播延迟的信息；以及基于该信息，处理至少一个音频信号，其中，处理至少一个音频信号包括：确定至少一个早期混响参数；以及基于至少一个早期混响参数，渲染至少一个音频信号。

该方法可以进一步包括：基于针对声源的关于传播延迟的信息，确定对传播延迟处理的控制。

基于针对声源的关于传播延迟的信息，确定对传播延迟处理的控制可以进一步包括：基于所确定的对传播延迟处理的控制，针对至少一个音频信号控制处理传播延迟。

渲染至少一个音频信号可以包括：禁用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理，其中，至少一个音频信号的基于后期混响的处理可以包括所启用的启动阶段。

启用至少一个音频信号的基于后期混响的处理(包括所启用的启动阶段)可以包括：基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸，确定针对至少一个反射路径的至少一个时间延迟；以及基于将至少一个时间延迟应用于与声源相关联的至少一个音频信号的至少一部分，生成混响音频信号。

渲染至少一个音频信号可以包括：使用静态传播延迟值、静态声级值、以及静态到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理。

使用静态传播延迟值、静态声级值、以及静态到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理可以包括：基于至少一个声源参数，确定声源的位置；基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸和声源的位置，确定针对反射路径的静态时间延迟值、静态声级值、以及静态到达方向值；以及基于将静态时间延迟值、静态声级值、以及静态到达方向值应用于与声源相关联的至少一个音频信号的至少一部分，生成早期混响音频信号。

渲染至少一个音频信号可以包括：使用静态传播延迟值、静态声级值、以及时变到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理。

启用至少一个音频信号的基于早期混响的处理可以包括：基于至少一个声源参数，确定声源的静态位置，并基于至少一个声源参数和/或收听者的时变位置，确定声源的时变位置；基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸和声源的静态位置，确定针对反射路径的静态时间延迟值和静态声级值；基于场景的尺寸和声源的时变位置和/或收听者的时变位置，确定针对反射路径的时变到达方向值；以及基于将静态时间延迟值、静态声级值、以及时变到达方向值应用于与声源相关联的至少一个音频信号的至少一部分，生成早期混响音频信号。

渲染至少一个音频信号可以包括：使用时变传播延迟值、时变声级值、以及时变到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理。

启用至少一个音频信号的基于早期混响的处理可以包括：基于至少一个声源参数和/或收听者的时变位置，确定声源的时变位置；基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸和声源的时变位置和/或收听者的时变位置，确定针对反射路径的时变时间延迟值、时变声级值、以及时变到达方向值；基于将时变时间延迟值、时变声级值、以及时变到达方向值应用于与声源相关联的至少一个音频信号的至少一部分，生成早期混响音频信号；以及对早期混响音频信号进一步进行相位修改。

对早期混响音频信号进一步进行相位修改可以包括：对早期混响音频信号进行去相关处理。

获得用于在声学上定义声源位于其中的场景的至少一个场景参数可以包括获得以下中的至少一项：至少一个场景几何参数；以及至少一个场景声学材料参数。

获得用于在声学上定义声源位于其中的场景的至少一个场景参数可以包括从以下中的至少一项获得至少一个场景参数：编码器输入格式描述；内容创建器；增强现实传感装置；相机；以及光测距和探测传感器。

确定指示针对声源的关于传播延迟的信息可以包括确定以下中的至少一项：指示针对声源禁用动态源更新的信息；至少一个沉浸式音频信号内的指示禁用动态源更新的标志；应用编程接口内的指示针对音频源禁用动态源更新的信息；以及质量确定器，其被配置为当利用动态源更新来处理音频源时确定输出音频信号的质量的降低。

确定指示针对声源的关于传播延迟的信息可以包括：确定指示针对声源禁用时变传播延迟的信息。

根据第三方面，提供了一种用于处理至少一个沉浸式音频信号的装置，该至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义声源的至少一个声源参数、以及用于在声学上定义声源位于其中的场景的至少一个场景参数，该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为使用与至少一个处理器一起使该装置至少：获得与声源相关联的至少一个音频信号；获得定义声源的至少一个声源参数；获得用于在声学上定义声源位于其中的场景的至少一个场景参数；确定针对声源的关于传播延迟的信息；以及基于该信息，处理至少一个音频信号，其中，被使得为处理至少一个音频信号的该装置可以被使得：确定至少一个早期混响参数；以及基于至少一个早期混响参数，渲染至少一个音频信号。

该装置可以进一步被使得：基于针对声源的关于传播延迟的信息，确定对传播延迟处理的控制。

被使得基于针对声源的关于传播延迟的信息，确定对传播延迟处理的控制的该装置可以进一步被使得：基于所确定的对传播延迟处理的控制，针对至少一个音频信号控制处理传播延迟。

被使得渲染至少一个音频信号的该装置可以被使得：禁用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理，其中，至少一个音频信号的基于后期混响的处理可以包括所启用的启动阶段。

被使得启用至少一个音频信号的基于后期混响的处理(包括所启用的启动阶段)的该装置可以被使得：基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸，确定针对至少一个反射路径的至少一个时间延迟；以及基于将至少一个时间延迟应用于与声源相关联的至少一个音频信号的至少一部分，生成混响音频信号。

被使得渲染至少一个音频信号的该装置可以被使得：使用静态传播延迟值、静态声级值、以及静态到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理。

被使得使用静态传播延迟值、静态声级值、以及静态到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理的该装置可以被使得：基于至少一个声源参数，确定声源的位置；基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸和声源的位置，确定针对反射路径的静态时间延迟值、静态声级值、以及静态到达方向值；以及基于将静态时间延迟值、静态声级值、以及静态到达方向值应用于与声源相关联的至少一个音频信号的至少一部分，生成早期混响音频信号。

被使得渲染至少一个音频信号的该装置可以被使得：使用静态传播延迟值、静态声级值、以及时变到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理。

被使得启用至少一个音频信号的基于早期混响的处理的该装置可以被使得：基于至少一个声源参数，确定声源的静态位置，并基于至少一个声源参数和/或收听者的时变位置，确定声源的时变位置；基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸和声源的静态位置，确定针对反射路径的静态时间延迟值和静态声级值；基于场景的尺寸和声源的时变位置和/或收听者的时变位置，确定针对反射路径的时变到达方向值；以及基于将静态时间延迟值、静态声级值、以及时变到达方向值应用于与声源相关联的至少一个音频信号的至少一部分，生成早期混响音频信号。

被使得渲染至少一个音频信号的该装置可以被使得：使用时变传播延迟值、时变声级值、以及时变到达方向值，基于至少一个早期混响参数，启用至少一个音频信号的基于早期混响的处理；以及启用至少一个音频信号的基于后期混响的处理。

被使得启用至少一个音频信号的基于早期混响的处理的该装置可以被使得：基于至少一个声源参数和/或收听者的时变位置，确定声源的时变位置；基于至少一个场景参数，获得场景的尺寸；基于场景的尺寸和声源的时变位置和/或收听者的时变位置，确定针对反射路径的时变时间延迟值、时变声级值、以及时变到达方向值；基于将时变时间延迟值、时变声级值、以及时变到达方向值应用于与声源相关联的至少一个音频信号的至少一部分，生成早期混响音频信号；以及对早期混响音频信号进一步进行相位修改。

被使得对早期混响音频信号进一步进行相位修改的该装置可以被使得：对早期混响音频信号进行去相关处理。

被使得获得用于在声学上定义声源位于其中的场景的至少一个场景参数的该装置可以被使得获得以下中的至少一项：至少一个场景几何参数；以及至少一个场景声学材料参数。

被使得获得用于在声学上定义声源位于其中的场景的至少一个场景参数的该可以被使得从以下中的至少一项获得至少一个场景参数：编码器输入格式描述；内容创建器；增强现实传感装置；相机；以及光测距和探测传感器。

被使得确定指示针对声源的关于传播延迟的信息的该装置可以被使得确定以下中的至少一项：指示针对声源禁用动态源更新的信息；至少一个沉浸式音频信号内的指示禁用动态源更新的标志；应用编程接口内的指示针对音频源禁用动态源更新的信息；以及质量确定器，其被配置为当利用动态源更新来处理音频源时确定输出音频信号的质量的降低。

被使得确定指示针对声源的关于传播延迟的信息的该装置可以被使得：确定指示针对声源禁用时变传播延迟的信息。

根据第四方面，提供了一种用于处理至少一个沉浸式音频信号的装置，该至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义声源的至少一个声源参数、以及用于在声学上定义声源位于其中的场景的至少一个场景参数，该装置包括：获得电路，其被配置为获得与声源相关联的至少一个音频信号；获得电路，其被配置为获得定义声源的至少一个声源参数；获得电路，其被配置为获得用于在声学上定义声源位于其中的场景的至少一个场景参数；确定电路，其被配置为确定针对声源的关于传播延迟的信息；以及处理电路，其被配置为基于该信息，处理至少一个音频信号，其中，被配置为处理至少一个音频信号的处理电路被配置为：确定至少一个早期混响参数；以及基于至少一个早期混响参数，渲染至少一个音频信号。

根据第五方面，提供了一种包括指令的计算机程序[或者包括程序指令的计算机可读介质]，这些指令[或者程序指令]用于使装置处理至少一个沉浸式音频信号，该至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义声源的至少一个声源参数、以及用于在声学上定义声源位于其中的场景的至少一个场景参数，该装置被使得至少执行以下操作：获得与声源相关联的至少一个音频信号；获得定义声源的至少一个声源参数；获得用于在声学上定义声源位于其中的场景的至少一个场景参数；确定针对声源的关于传播延迟的信息；以及基于该信息，处理至少一个音频信号，其中，被配置为处理至少一个音频信号的部件被配置为：确定至少一个早期混响参数；以及基于至少一个早期混响参数，渲染至少一个音频信号。

根据第六方面，提供了一种包括程序指令的非暂时性计算机可读介质，这些程序指令用于使装置处理至少一个沉浸式音频信号，该至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义声源的至少一个声源参数、以及用于在声学上定义声源位于其中的场景的至少一个场景参数，该装置被使得至少执行以下操作：获得与声源相关联的至少一个音频信号；获得定义声源的至少一个声源参数；获得用于在声学上定义声源位于其中的场景的至少一个场景参数；确定针对声源的关于传播延迟的信息；以及基于该信息，处理至少一个音频信号，其中，被配置为处理至少一个音频信号的部件被配置为：确定至少一个早期混响参数；以及基于至少一个早期混响参数，渲染至少一个音频信号。

根据第七方面，提供了一种用于处理至少一个沉浸式音频信号的装置，该至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义声源的至少一个声源参数、以及用于在声学上定义声源位于其中的场景的至少一个场景参数，该装置包括：用于获得与声源相关联的至少一个音频信号的部件；用于获得定义声源的至少一个声源参数的部件；用于获得用于在声学上定义声源位于其中的场景的至少一个场景参数的部件；用于确定针对声源的关于传播延迟的信息的部件；以及用于基于该信息，处理至少一个音频信号的部件，其中，用于处理至少一个音频信号的部件包括：用于确定至少一个早期混响参数的部件；以及用于基于至少一个早期混响参数，渲染至少一个音频信号的部件。

根据第八方面，提供了一种包括程序指令的计算机可读介质，这些程序指令用于使装置处理至少一个沉浸式音频信号，该至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义声源的至少一个声源参数、以及用于在声学上定义声源位于其中的场景的至少一个场景参数，该装置被使得至少执行以下操作：获得与声源相关联的至少一个音频信号；获得定义声源的至少一个声源参数；获得用于在声学上定义声源位于其中的场景的至少一个场景参数；确定针对声源的关于传播延迟的信息；以及基于该信息，处理至少一个音频信号，其中，处理至少一个音频信号包括：确定至少一个早期混响参数；以及基于至少一个早期混响参数，渲染至少一个音频信号。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。

一种电子设备可以包括如本文所述的装置。

一种芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示出房间声学模型和房间脉冲响应；

图2和图3示意性地示出可以在其内实现一些实施例的示例***架构；

图4和图5示意性地示出如图2和图3中所示的可以在其内实现一些实施例的示例渲染装置；

图6示出可以在其内出现具有早期和后期反射的示例以帮助理解实施例的示例场景；

图7至图10示出根据一些实施例的如图2至图5中所示的示例混响***的操作的流程图；

图11示出根据一些实施例的***的实现；以及

图12示出适合于实现先前附图中所示的装置的示例设备。

具体实施方式

下面更详细地描述用于参数化和渲染具有混响的音频场景的合适装置和可能机制。根据MPEG-I编码器输入格式(EIF)规范，内容作者可以针对声源定义noDoppler标志。这使声源将被渲染而针对早期混响没有时变传播延迟或没有传播延迟。如本文所讨论的实施例尝试在内容具有声源将要被渲染而没有时变传播延迟的指示的情况下，与当前方法相比更准确地渲染声音的早期反射部分。

这是因为，如果利用时变传播延迟来渲染这种所指示的音频源的早期反射，则早期反射的渲染将会与直接声音不匹配，例如，因为所渲染的声音的早期反射部分与没有延迟的直接声音相比将会被延迟，从而导致直接声音与早期反射之间的相对延迟的差异过大。此外，如果声源或收听者移动，则反射路径的长度会改变。这将会导致早期反射的延迟动态地改变并听到可听多普勒效应(而不是直接声音)。这还将意味着早期反射的到达时间将会是动态的，但直接声音将不会。如果将早期反射被加到具有可变延迟的直接声音中，同时不改变直接声音的延迟，则时变梳状滤波伪影将会是可听到的。

由此，如进一步详细讨论的实施例被配置为涉及在6自由度(即，收听者可以在场景内移动并且收听者位置被跟踪)音频场景内渲染沉浸式音频。另外，如本文所讨论的实施例示出了一种用于在针对声源禁用时变传播延迟(其是通过获得指示针对声源禁用时变传播延迟的信息而实现的)时确保音频渲染的质量的方法。此外，该方法可以包括从比特流中获得与声源对应的至少一个声音信号以及向用户渲染沉浸式音频场景，其中，声源被渲染而不应用时变传播延迟，并且渲染声源的至少一个早期反射涉及使用扩散后期混响器而不衰减其启动阶段。在一些实施例中，渲染而不应用时变传播延迟和渲染声源的至少一个早期反射涉及使用静态传播延迟和到达方向。此外，在一些实施例中，渲染而不应用时变传播延迟和渲染声源的至少一个早期反射涉及使用静态传播延迟和时变到达方向。在一些实施例中，渲染而不应用时变传播延迟和渲染声源的至少一个早期反射涉及使用时变传播延迟和诸如去相关之类的附加的相位修改处理。

指示针对声源禁用时变传播延迟的信息可以由内容创建器在比特流中提供，或者它可以在渲染时间期间通过调用渲染器的控制接口上的方法来启用。

在一些实施例中，该实现包括在编码器设备和/或解码器/渲染器设备上运行的软件。该***的功能取决于输入音频场景旨在用于虚拟现实(VR)还是增强现实(AR)再现。

如果输入音频场景旨在用于VR再现，则用于编码器的输入场景包含虚拟场景声学的描述。在这种情况下，编码器可以导出用于再现虚拟声学效果(诸如混响和材料吸收)的参数。

关于图2，示出了适合于实现如下文针对虚拟现实(VR)实现进一步详细描述的实施例的示例装置***。

例如，在一些实施例中，该装置***包括编码器201。该编码器被配置为导出声学参数。编码器201被配置为接收或以其他方式确定编码器输入数据200，诸如音频信号204和虚拟场景描述参数202。

在一些实施例中，虚拟场景描述参数202包括可被定义为三角形网格格式的虚拟场景几何、(网格)声学材料特性、(网格)混响特性、音频对象位置(其在一些实施例中可以被定义为笛卡尔坐标(cartesian coordinates))。

该方法基于场景几何和混响特性来导出混响器参数。如果没有提供混响特性，则它们可以使用虚拟场景几何和材料特性经由声学模拟来获得。可以使用基于几何或波的虚拟声学模拟方法或其组合。例如，用于更低频率的基于波的虚拟声学模拟和用于较高频率的几何声学方法。在GB专利申请GB2101657.1中描述的方法可以被用于导出混响器参数。

在一些实施例中，虚拟场景描述参数202可以被传递给动态源确定器211、早期反射参数确定器(诸如用于早期反射参数的静态延迟、水平以及到达方向)213、以及后期反射(混响)参数确定器215。

在一些实施例中，该编码器包括动态源确定器211，动态源确定器211被配置为接收虚拟场景描述202并生成指示符或信息，其可以被传递给早期反射参数确定器213。在一些实施例中，该确定器被配置为确定至少一个源，其中，存在活动的noDoppler标志。

MPEG-I编码器输入格式可以指示用于音频对象源的以下格式、各种参数：

在上文中，创建参数用字段aparams表示，并且其具有值“noDoppler”指示针对该声源不渲染时变传播延迟。

此外，在一些实施例中，编码器201包括早期反射参数确定器213。早期反射参数确定器213被配置为获得或接收虚拟场景描述202以及来自动态源确定器211的信息/指示符，并基于这些生成合适的早期反射参数，诸如用于早期反射参数的静态延迟、水平和到达方向。这些早期反射参数用于其中虚拟场景几何已知的VR场景。早期反射参数可以进一步包括例如确定用于早期反射渲染的相关反射面或其他在几何上有意义的表面。在一些实施例中，早期反射参数确定器213进一步被配置为对静态早期反射参数进行优化。

这些可以被传递给后期反射参数确定器215和比特流编码器217。

在一些实施例中，编码器201包括后期反射参数确定器215。后期反射参数确定器215被配置为获得或接收虚拟场景描述202以及来自早期反射参数确定器213的信息，并基于这些生成合适的后期反射(混响)参数。这些后期反射(混响)参数是基于场景几何和混响特性。在其中没有提供混响特性(针对虚拟场景几何)的一些实施例中，它们可以使用虚拟场景几何和材料特性经由合适的声学模拟来获得。例如，可以使用基于几何和/或波的虚拟声学模拟方法。例如，在一些实施例中，可以针对更低频率实现基于波的虚拟声学模拟方法，并且可以针对较高频率实现几何声学模拟方法。可以实现专利申请GB2101657.1中所描述的方法以用于导出混响器参数。

这些可以被传递给比特流编码器217。

在一些实施例中，编码器201包括比特流编码器217，其被配置为接收早期反射参数、后期(混响)反射参数、动态源信息以及音频信号，并生成合适的编码比特流220。在实施例中，编码器201被配置为将动态源信息(诸如noDoppler标志)编码到比特流220中。例如，该编码器可以将noDoppler标志的值编码成用于每个音频元素的单个二进制数字的值，其中值1指示noDoppler存在并且值0指示noDoppler标志未设置。在替代的实施例中，noDoppler标志可以是具有多于2的值的数。例如，在动态源信息包含三个比特的情况下，该动态源信息的不同的值可以指示针对源可以应用的不同的替代处理方法。例如，这些值可以对应于

0：noDoppler未设置，执行正常渲染(具有直接声音和早期反射的时变到达延迟)，基于源和收听者位置动态地计算早期反射，渲染后期扩散混响

1：noDoppler已设置，如图7中所描述地执行渲染

2：noDoppler已设置，如图8中所描述地执行渲染

3：noDoppler已设置，如图9中所描述地执行渲染

4：noDoppler已设置，如图10中所描述地执行渲染

将要使用的方法可以由内容创建器手动地指示，或者由编码器设备自动地确定。值5到7被保留以供诸如新方法将来使用。在替代的实施例中，动态源信息可以采用除了数字格式之外的格式，诸如文本字符串。

在一些实施例中，该装置***进一步包括解码器/渲染器221。解码器/渲染器221被配置为获得经编码的声学参数和音频信号，并从这些渲染合适的空间音频信号。该渲染器被配置为例如在6DoF(其中收听者位置不断地更新)中执行空间音频渲染。收听者位置可以从合适的头部跟踪装置获得。该渲染可以包括模拟不同的声学效果，诸如直接声音和早期反射的介质衰减(空气吸收)、传播延迟、材料吸收。经滤波的音频信号帧(均来自介质/材料处理)和混响处理进而可以被输入到空间化模块，其使用例如头部相关传递函数渲染来再现这些信号。

在一些实施例中，解码器/渲染器221包括比特流解码器231。比特流解码器231被配置为将任何动态源信息输出到动态源确定器235，将经解码的音频信号输出到早期反射渲染器239和混响渲染器241，将经解码的后期反射参数输出到混响渲染器241，以及将经解码的早期反射参数输出到早期反射参数获得器233。

在一些实施例中，解码器/渲染器221包括动态源(具有noDoppler标志的源)确定器235，动态源确定器235被配置为接收来自比特流解码器231的信息并生成指示符或信息，其可以被传递给早期反射参数获得器233和动态早期反射参数确定器237。

此外，在一些实施例中，解码器/渲染器221包括早期反射参数获得器233。早期反射参数获得器233被配置为获得经解码的早期反射参数和来自动态源确定器235的信息/指示符，并基于这些生成合适的早期反射参数，诸如用于早期反射参数的静态延迟、水平以及到达方向。这些早期反射参数可以被传递给早期反射渲染器239。

在一些实施例中，解码器/渲染器221包括动态早期反射参数确定器237，其被配置为接收来自动态源(具有noDoppler标志的源)确定器235和早期反射参数获得器233的输入，并基于这些生成合适的动态早期反射参数，其可以被传递给早期反射渲染器239。

在一些实施例中，解码器/渲染器221进一步包括早期反射渲染器239。早期反射渲染器239被配置为接收来自动态早期反射参数确定器237的动态早期反射参数、来自早期反射参数获得器233的早期反射参数以及解码器音频信号，并基于这些生成空间音频信号的合适的直接分量和早期反射分量。这些直接分量和早期反射分量进而可以被传递给空间化器243。

在一些实施例中，解码器/渲染器221包括混响渲染器241。混响渲染器241被配置为获得经解码的音频信号和经解码的后期反射(混响)参数，并生成空间音频信号的混响分量，其被传递给空间化器243。混响器渲染器输出可以被渲染为在收听者周围在固定距离(诸如一米)处的点源。在实施例中，在比特流中信令传送用于混响器输出渲染的空间位置(方位角、仰角)。

此外，在一些实施例中，解码器/渲染器221包括空间化器243，其被配置为获得直接分量和早期反射分量以及后期反射分量，并将这些组合以生成合适的空间音频信号。

关于图3，示出了适合于实现如下文针对增强现实(AR)实现进一步详细描述的实施例的示例装置***。在这种装置中，虚拟场景声学进而不可用，但渲染器接收物理场景声学的描述。实施例中的物理场景是用户的收听房间或用户在其中消费音频内容的其他空间。获得物理场景声学的信息有助于渲染器针对物理收听环境的声学特性来调整音频渲染。在这种情况下，编码器不能导出用于再现虚拟声学的参数，但这在渲染器中被实现。

换句话说，在这两种情况下实现的方法可以相同，区别在于一些操作是在不同的设备中执行的。在VR的情况下，在编码器上执行更多操作，并且信息被包括到在渲染器上读取的比特流中。在AR的情况下，这些操作在渲染器中被执行。

例如，在一些实施例中，该装置***包括编码器301。该编码器被配置为导出声学参数。编码器301被配置为接收或以其他方式确定编码器输入数据200，诸如音频信号204和虚拟场景描述参数202。在一些实施例中，虚拟场景描述参数202包括可由音频对象位置(其在一些实施例中可以被定义为笛卡尔坐标)定义的虚拟场景几何。如上所指示的，AR中的房间或场景参数通常在渲染器处被确定。在存在混合AR/VR场景的一些实施例中，则可以确定虚拟场景参数和物理场景参数的组合，其中，在编码器处定义虚拟场景参数，在解码器/渲染器处定义物理场景参数，并进而还在解码器/渲染器内以合适的形式对其进行组合。

在一些实施例中，虚拟场景描述参数202和音频信号204可以被传递给比特流编码器317。

在一些实施例中，编码器301包括比特流编码器317，其被配置为接收虚拟场景描述和音频信号，并生成合适的编码比特流320。

在一些实施例中，该装置***进一步包括增强现实(AR)传感器310。AR传感器310被配置为生成标识用户/收听者周围的物理场景(增强现实环境)的信息，并将其传递给解码器/渲染器321。因此，该解码器/渲染器从AR传感器获得物理房间信息，并且可以被配置为基于该物理房间信息来更新反射和混响参数。

AR传感器可以是任何合适的传感器，例如，用于绘制(mapping)用户在其内的环境的激光雷达***。

在一些实施例中，该装置***进一步包括解码器/渲染器321。解码器/渲染器321被配置为获得经编码的虚拟场景参数和音频信号，并从这些渲染合适的空间音频信号。因此，该渲染器被配置为例如在6DoF(其中收听者位置不断地更新)中执行空间音频渲染。收听者位置可以从合适的头部跟踪装置获得。该渲染可以包括模拟不同的声学效果，诸如直接声音和早期反射的介质衰减(空气吸收)、传播延迟、材料吸收。经滤波的音频信号帧(均来自介质/材料处理)和混响处理进而可以被输入到空间化模块，其使用例如头部相关传递函数渲染来再现这些信号。

在一些实施例中，解码器/渲染器321包括比特流解码器331。比特流解码器331被配置为将任何动态源信息输出到动态源确定器335，将经解码的音频信号输出到早期反射渲染器339和混响渲染器341，以及将经解码的虚拟场景描述参数输出到混响渲染器341和早期反射参数确定器333。

在一些实施例中，解码器/渲染器321包括混响参数导出器(用于AR)345。该混响参数导出器被配置为从AR传感器310获得信息，并基于该AR信息生成合适的混响参数，其可以被传递给混响渲染器341并且还被传递给早期反射参数确定器333。后期反射(混响)参数是基于物理场景几何和混响特性。在一些实施例中，混响特性(针对物理场景几何)是使用物理场景几何和材料特性经由合适的声学模拟而获得的。例如，可以使用基于几何和/或波的虚拟声学模拟方法。因此，在一些实施例中，可以针对更低频率实现基于波的物理场景声学模拟方法，并且可以针对较高频率实现几何声学模拟方法。可以实现专利申请GB2101657.1中所描述的方法以用于导出混响器参数。

在一些实施例中，解码器/渲染器321包括动态源确定器335，动态源确定器335被配置为接收来自比特流解码器331的信息并生成指示符或信息，其可以被传递给早期反射参数确定器333。

此外，在一些实施例中，解码器/渲染器321包括早期反射参数确定器333。早期反射参数确定器333被配置为获得经解码的虚拟场景描述参数以及来自动态源确定器335的信息/指示符和来自混响参数导出器345的基于AR信息的合适的混响参数，并基于这些生成合适的早期反射参数，诸如用于早期反射参数的静态延迟、水平以及到达方向。这些早期反射参数可以被传递给早期反射渲染器339。

在一些实施例中，解码器/渲染器321包括动态早期反射参数确定器337，其被配置为接收来自动态源确定器335和早期反射参数获得器333的输入，并基于此生成合适的动态早期反射参数，其可以被传递给早期反射渲染器339。在一些实施例中，该确定器被配置为确定未被动态更新的至少一个源。这例如可以由被配置为确定其中存在活动的noDoppler标志的源的确定器来实现。

在一些实施例中，解码器/渲染器321进一步包括早期反射渲染器339。早期反射渲染器339被配置为接收来自动态早期反射参数确定器337的动态早期反射参数、来自早期反射参数确定器333的早期反射参数以及解码器音频信号，并基于这些生成空间音频信号的合适的直接分量和早期反射分量。这些直接分量和早期反射分量进而可以被传递给空间化器343。

在一些实施例中，解码器/渲染器321包括混响渲染器341。混响渲染器341被配置为获得经解码的音频信号和来自混响参数导出器345的基于AR信息的混响参数，并生成空间音频信号的混响分量，其被传递给空间化器343。混响器渲染器输出可以被渲染为在收听者周围在固定距离(诸如一米)处的点源。在实施例中，在比特流中信令传送用于混响器输出渲染的空间位置(方位角、仰角)。

此外，在一些实施例中，解码器/渲染器321包括空间化器343，其被配置为获得直接分量和早期反射分量以及后期反射分量，并且将这些组合以生成合适的空间音频信号。

以这种方式，可以在收听者周围在合适的空间位置中渲染反射信号，具体取决于所模拟的声音到达路径。

关于图4，示出了示例混响渲染器241/341，其被示出为被实现为反馈延迟网络(FDN)-混响器。

该示例FDN-混响器实现被配置为使得混响参数被处理以生成每个衰减滤波器461的系数GEQ_d(GEQ₁、GEQ₂、…GEQ_D)、反馈矩阵457系数A、D延迟线459的长度m_d(m₁、m₂、…m_D)、以及直接对混响比率(direct-to-reverberant ratio)滤波器453系数GEQ_DDR。

在一些实施例中，每个衰减滤波器GEQ_d被实现为使用M个双二阶IIR带滤波器的图形EQ滤波器。因此，在倍频程带M＝10的情况下，每个图形EQ的参数包括用于10个双二阶IIR滤波器的前馈和反馈系数、用于双二阶带滤波器的增益、以及总增益。在一些实施例中，可以实现任何合适的方式以确定FDN混响器参数，例如，可以实现专利申请GB2101657.1中所描述的方法来导出FDN混响器参数，以使得可以再现针对虚拟/物理场景的期望RT60时间。

该混响器使用延迟459、反馈元件(被示出为增益461、457组合器455和输出组合器465)的网络，针对后期部分生成非常密集的脉冲响应。输入样本451被输入到该混响器以产生后期混响音频信号分量，其进而可以被输出。

该FDN混响器包括多个再循环延迟线。酉矩阵A 457被用于控制网络中的再循环。衰减滤波器461(其在一些实施例中可以被实现为图形EQ滤波器，该图形EQ滤波器被实现为二阶部分(second-order-section)IIR滤波器的级联)可以促进控制在不同的频率下的能量衰减率。滤波器461被设计为使得它们在每个脉冲传递经过延迟线时衰减所期望的量(以分贝为单位)，并使得获得所期望的RT60时间。

该示例FDN混响器示出了二通道输出，但可以被扩展以应用于更复杂的输出(可以存在来自FDN的更多输出)。可以例如通过将来自每个FDN延迟线的输出提供为单独的输出来获得更多输出。

此外，关于图5，示出了根据一些实施例的示例早期反射渲染器239/339。在该示例中，输入(经解码的)音频信号400被传递到延迟线401。延迟线401实现直接声音和早期反射的延迟。从延迟线配置了多个抽头(S+1)，其可以被传递到一系列滤波器。这些滤波器可以被划分成第一组滤波器T 403(具有参数T₀(z)、T₁(z)、…、T_s(z))和第二组滤波器F 405(具有参数F₀(z)、F₁(z)、…、F_s(z))，第一组滤波器T 403被配置为提供源方向性和/或距离/增益衰减、以及材料滤波，第二组滤波器F 405被配置为提供头部相关传递函数(HRTF)滤波。来自HRTF滤波器的输出进而可以被输出到一系列组合器407，其生成音频信号的输出直接分量和早期反射分量。因此，例如，如图5中所示，生成了音频信号的左和右通道直接分量和早期反射分量，其可以被传递给空间化器243/343。

另外，图5示出了混响渲染器241/341，其接收音频输入和混响参数406，并生成音频信号的混响分量。空间化器243/343还被示出组合来自混响渲染器241/341和早期反射渲染器239/339的左和右通道分量，并组合它们以生成左耳机输出408和右耳机输出410。

此外，将在下文中进一步详细描述诸如在早期反射参数(早期反射的静态延迟、水平以及DOA)确定器213和动态早期反射参数确定器237内实现的早期反射参数的确定/获得。在一些实施例中，早期反射参数导出可以根据US专利申请17/202863中所提出的方法来实现，其中，确定了一组相关反射面。因此，可以基于虚拟或物理场景的几何来确定这些参数。可以使用用于AR渲染场景的查找表来导出这些参数。这使得在计算上更容易渲染复杂场景几何的早期反射，因为在渲染中不需要考虑所有的声学表面，而是该渲染可以基于使用所确定的相关反射面的跟踪反射。

在一些实施例中，用于早期反射渲染的反射面是从比特流中获得的。为了合成早期反射，经由到收听者的反射面来跟踪从声源开始的声音传播。传播路径长度定义需要在延迟线中应用于信号的延迟以及衰减量。该反射声音沿着传播路径从其到达收听者的方向确定将要应用于经渲染的反射的到达方向。

在如图6中所示的示例中，使用先前已被确定为反射表面的墙壁B 601和E 603示出了从声源607和跟踪606到收听者605的二阶反射。

在一些实施例中，可以借助于相对于虚拟场景几何中的反射元件而镜像的图像源来计算早期反射的到达延迟、方向、以及水平。可以经由一个或多个反射元件，从源到收听者跟踪一个或多个早期反射路径。早期反射的延迟可以基于声音反射所行进的距离来确定。早期反射的水平可以通过沿着反射的行进路径应用空气吸收和材料吸收来确定。早期反射的DOA可以被确定为反射声线到收听位置的到达方向。

以这种方式，早期反射可以被合成为直接声音的经延迟和滤波版本。根据时变传播延迟来调整该延迟，该时变传播延迟是基于跟踪从声源经由一个或多个反射材料到收听者的路径而获得的。应用滤波以模拟在该路径上发生的空气吸收和材料衰减。

在一些实施例中，在确定其中时变传播延迟的渲染被禁用的源时，动态源(具有noDoppler标志的源)确定器211/235/335被配置为控制早期反射参数(早期反射的静态延迟、水平以及DOA)确定器213或动态早期反射参数确定器237，以使得不应用延迟。在这种实施例中，可以基于当前的源和收听者位置，动态地获得早期反射延迟，或者可以实现静态值。

在一些实施例中，如果针对音频源禁用时变传播延迟，则针对该源，禁用早期反射处理，并且仅使用扩散后期混响来渲染混响效果。

关于图7，示出了示例实现方法实施例。此外，还进而根据房间尺寸来调整混响器的延迟线长度，并以这种方式实现早期反射的粗略近似。

因此，在这些实施例中，如图7中由步骤701所示，确定针对其时变传播延迟的渲染被禁用的至少一个声源。

然后，如图7中由步骤702所示，确定虚拟/物理场景几何的尺寸。

进而，如图7中所示的方法中的步骤703所示，可以使用虚拟/物理场景几何的尺寸以调整FDN混响器(混响渲染器241/341)的延迟线的长度，如图4中所示。

另外，在一些实施例中，如图7中由步骤704所示，针对声源禁用早期反射渲染(换句话说，对于该音频源，没有早期反射渲染)。在一些实施例中，这可以通过不将声源信号输入到早期反射渲染器而获得。在一些实施例中，当编码器做出针对声源不启用早期反射的渲染的确定时，可以在比特流中包括布尔(Boolean)指示符以指示针对声源禁用早期反射渲染。进而，解码器可以接收到该指示符，并基于该指示符来控制早期反射渲染器339不处理该音频源。

此外，可以针对声源渲染扩散后期混响。这例如可以通过将声源信号输入到FDN混响器(混响渲染器241/341)来实现，如图7中由步骤705所示。在这些实施例中，(除了衰减滤波器GEQ_d之外)没有对FDN混响器应用特殊的衰减，以便不衰减来自延迟线的第一脉冲，在该实施例中这实现了早期反射的简单近似。在其中第一脉冲比它们将来自FDN发生得更早的一些实施例中，则在一些实施例中，延迟被配置为比将以其他方式针对用于该房间几何的FDN混响器使用例如GB2101657.1中所描述的方法而配置的更短。

关于图8，示出了描绘根据一些实施例的另一个实现的流程图。在该实施例中，早期反射的静态传播延迟、静态DOA、以及静态水平被用于针对声源(针对其时变传播延迟的渲染被禁用)渲染早期部分。静态延迟、DOA以及水平可以对应于某个收听者和声源位置，诸如(物理或虚拟)房间的中间或所指定的收听者起始位置。对于移动声音，该特定位置可以是声源的(预先已知的)路径的起始位置或平均位置。可替代地，可以在比特流中提供所指定的源位置。

在这种实施例中，如图8中由步骤801所示，确定针对其时变传播延迟渲染被禁用的至少一个声源。

进而，如图8中由步骤802所示，确定用于早期反射渲染的静态参数。这可以在编码器或渲染器中被实现。此外，这可以通过将虚拟收听者放置在虚拟空间的中间(或者放置在用于虚拟空间的所指定起始位置中，这种起始位置例如可以由该虚拟空间的内容创建器来确定)来执行。进而，该实现可以放置或获得声源位置。然后，可以获得源到收听者的距离。另外，通过使用基于场景几何而计算的图像源来跟踪从声源到收听者的一定数量的声线，可以获得针对该位置的早期反射的距离、DOA、以及水平。进而，可以通过从早期反射距离中减去源到收听者的距离来获得相对早期反射距离。然后，可以将相对早期反射距离转换为相对早期反射延迟。进而，这些静态参数(相对早期反射延迟以及DOA和水平)可以被输出并被使得可用于渲染。

如图8中由步骤803所示，基于(静态)相对早期反射延迟、DOA以及水平来渲染早期反射。执行早期反射的渲染，以使得不会根据源和收听者位置来调整早期反射的延迟、水平以及DOA(如同在通常的6DoF渲染场景中)，而是它们被保持不变。换句话说，这可以被认为是固定的早期反射渲染。

在一些实施例中，除了延迟、水平以及DOA之外，该方法还可以涉及存储用于早期反射的材料滤波器或材料指数，以及对早期反射应用材料衰减。在这种情况下，与更早的实现实施例相比，实现这种实施例的益处在于可以使用真实材料滤波器来渲染声音的早期部分。因此，可以以略微更复杂且需要确定静态早期反射参数的代价来实现早期反射的更真实近似。

在一些实施例中，早期反射的DOA可以根据源和收听者位置而变化，同时保持水平和延迟固定。该方法使用早期反射的静态传播延迟和水平以及时变DOA，其中，DOA适配于收听者位置并类似于如图8中所示的方法，但其中早期反射的DOA是基于场景中的收听者和源位置而动态计算的。

因此，关于图9，示出了描绘根据一些实施例的另一实现的流程图。

在这种实施例中，如图9中由步骤901所示，确定针对其时变传播延迟的渲染被禁用的至少一个声源。

进而，如图9中由步骤902所示，确定用于早期反射渲染的静态参数。这可以在编码器或渲染器中被实现。源到收听者的静态早期反射延迟和水平(针对该位置)可以以与上述类似的方式来确定。

此外，如图9中步骤由903所示，可以基于虚拟场景几何来确定早期反射的动态到达方向。

然后，如图9中步骤由904所示，可以基于静态相对早期反射延迟和水平以及动态到达方向值来渲染早期反射。换句话说，在这些实施例中，执行早期反射的渲染，以使得不会根据源和收听者位置来调整早期反射的延迟和水平(与通常的6DoF渲染场景不同)，但方向会如同在通常的6DoF渲染场景中一样根据源和收听者位置来进行调整。

在一些实施例中，实现了动态早期反射渲染，但是与典型的6DoF渲染情况相比，附加的去相关处理被应用于早期反射渲染，以使得由在不同的延迟处的相干声音总和所引起的梳状滤波效应被最小化。

在一些实施例中，这可以通过去相关来实现，例如，通过随机化信号的相位，同时最小化光谱着色。在一些实施例中，可以将天鹅绒噪声序列(velvet noise sequences)用于在计算上有效的去相关，而在一些其他实施例中，可以实现任何合适的去相关方法。

因此，如图10中所示，示出了描绘根据一些实施例的包括附加去相关处理的另一实现的流程图。

在这种实施例中，如图10中由步骤1001所示，确定针对其时变传播延迟的渲染被禁用的至少一个声源。

进而，如图10中由步骤1002所示，基于场景几何并使用场景几何和图像源来跟踪从声源到收听者的至少一个反射，获得早期反射渲染参数。

然后，如图10中由步骤1003所示，在已确定动态参数后，在将早期反射信号与直接信号求和之前，利用被应用于这些早期反射信号的附加去相关处理来实现早期反射渲染。可以通过运行信号经过去相关滤波器来应用去相关处理。

在一些实施例中，作为可选操作，可以在编码器设备中调整将要用于渲染早期反射的延迟，以使得由将早期反射混合到直接声音而引起的任何梳状滤波效应被最小化。在一些实施例中，这可以通过分析在不同的延迟处的混合声音的频谱内容并选择最小化梳状滤波量(或者使其尽可能听不见)的延迟来实现。在一些实施例中，频谱内容的分析可以通过以下操作来执行：计算未经处理的源信号的频谱，计算信号的频谱(其中，该信号被求和为它自己加上候选延迟值)，以及测量频谱失真。在一些实施例中，可以针对多个候选延迟值重复该分析，并且可以选择与最小频谱失真对应的延迟值。在实施例中，可以使用心理声学掩蔽或其他感知加权来评估由不同的延迟和针对感知声音的对应的频谱失真所导致的重要性(significance)。例如，频谱失真可以基于心理声学激发的频率分辨率(诸如巴克(Bark)频带)来计算。在实施例中，在分析中还可以考虑掩蔽阈值。

在一些实施例中，可以针对FDN混响器或混响渲染器应用淡入控制，以使得源自延迟网络的早期脉冲被衰减。这种控制方法可以是基于双衰减(doubledecays)或者基于模态跳动(modal beating)。在其中不存在早期反射渲染(其中，混响渲染器对早期反射分量进行近似)的实施例中，不应用或调整淡入控制，以使得源自FDN混响器的第一脉冲不被衰减(因为混响器产生早期反射的粗略近似并且将会产生显著衰减的早期反射)。

在一些实施例中，当编码器确定针对某个声源不实现早期反射渲染时，则指示符/信息/信号可以控制渲染器以针对声源禁用任何FDN抑制/阻尼(dampening)。例如，标志FDNFadeIn＝False可以从编码器被传递给解码器/渲染器。在这些实施例中，可以存在两个FDN混响器，一个用于具有抑制/阻尼的声源，另一个用于没有抑制/阻尼的声源。

关于图11，示出了实施例的示例部署。在该示例中，在内容创建器机器1101上实现编码器处理，其中，内容被编码到比特流1102中。比特流1102被上传到服务器1105，从服务器1105被下载或流传输到消费者(终端用户)客户端1107。终端用户1107利用其设备(诸如移动电话、手表、计算机、耳机、AR耳机、TV、智能扬声器等)来消费该内容。对于6DoF渲染，终端用户设备1107是具有收听者位置跟踪能力的装置，其进而将收听者位置提供给渲染器。渲染器设备接收比特流1102，对其进行解码，并根据用户位置向用户渲染音频输出。如果该内容是AR内容，则渲染器设备执行环境扫描以向渲染器提供环境信息，诸如房间几何、混响特性或材料信息。

在一些实施例中，在诸如在服务器与收听者设备之间所示的元件之间直接传送比特流，或者经由如在内容创建器与服务器之间所示的基于云的网络1103传送比特流。

关于图12，示出了可以被用作如上所述的***的任何装置部分的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备2000是移动设备、用户设备、平板计算机、计算机、音频播放装置等。该设备例如可以被配置为实现如上所述的编码器或渲染器或任何功能块。

在一些实施例中，设备2000包括至少一个处理器或中央处理单元2007。处理器2007可以被配置为执行各种程序代码，诸如，如本文所描述的方法。

在一些实施例中，设备2000包括存储器2011。在一些实施例中，至少一个处理器2007被耦接到存储器2011。存储器2011可以是任何合适的存储部件。在一些实施例中，存储器2011包括用于存储可在处理器2007上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器2011还可以包括用于存储数据(例如根据本文所描述的实施例已被处理或将要被处理的数据)的存储数据部分。在需要时，被存储在程序代码部分内的所实现的程序代码和被存储在存储数据部分内的数据可以经由存储器-处理器耦接而由处理器2007取回/检索。

在一些实施例中，设备2000包括用户接口2005。在一些实施例中，用户接口2005可以被耦接到处理器2007。在一些实施例中，处理器2007可以控制用户接口2005的操作并从用户接口2005接收输入。在一些实施例中，用户接口2005可以使得用户能够例如经由小键盘向设备2000输入命令。在一些实施例中，用户接口2005可以使得用户能够从设备2000获得信息。例如，用户接口2005可以包括被配置为向用户显示来自设备2000的信息的显示器。在一些实施例中，用户接口2005可以包括触摸屏或触摸接口，其既能够使信息被输入到设备2000中，又能够向设备2000的用户显示信息。在一些实施例中，用户接口2005可以是用于通信的用户接口。

在一些实施例中，设备1400包括输入/输出端口2009。在一些实施例中，输入/输出端口2009包括收发机。在这种实施例中，收发机可以被耦接到处理器2007，并且被配置为例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或有线耦接与其他电子设备或装置通信。

收发机可以通过任何合适的已知通信协议与其他装置通信。例如，在一些实施例中，收发机可以使用合适的通用移动电信***(UMTS)协议、诸如IEEE 802.X之类的无线局域网(WLAN)协议、诸如蓝牙之类的合适的短距离射频通信协议、或红外数据通信路径(IRDA)。

输入/输出端口2009可以被配置为接收信号。

在一些实施例中，设备2000可以被用作渲染器的至少一部分。输入/输出端口2009可以被耦接到头戴式耳机(其可以是头部跟踪或非跟踪头戴式耳机)等。

一般而言，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以采用硬件来实现，而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示，但是众所周知地，本文所描述的这些框、装置、***、技术或方法可以作为非限制示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件来实现，或者由硬件、或者由软件和硬件的组合来执行。此外，就此而言，应当注意，如附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。该软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质上，诸如硬盘或软盘之类的磁性介质上，以及诸如DVD及其数据变体、CD之类的光学介质上。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何适当的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和***、光学存储器设备和***、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、基于多核处理器架构的门级电路和处理器中的一个或多个。

可以在诸如集成电路模块之类的各种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序，诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design所提供的程序，使用完善的设计规则以及预先存储的设计模块库来自动对导体进行布线并将组件定位在半导体芯片上。一旦完成了半导体电路的设计，就可以将标准化电子格式(例如，Opus、GDSII等)的所得设计传送到半导体制造设施或“fab”进行制造。

前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的完整和有益的描述。然而，当结合附图和所附权利要求书阅读时，鉴于以上描述，各种修改和适配对于相关领域的技术人员而言将变得显而易见。然而，本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。

Claims

1.一种用于处理至少一个沉浸式音频信号的装置，所述至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义所述声源的至少一个声源参数、以及用于在声学上定义所述声源位于其中的场景的至少一个场景参数，所述装置包括被配置为执行以下操作的部件：

获得与所述声源相关联的所述至少一个音频信号；

获得定义所述声源的所述至少一个声源参数；

获得用于在声学上定义所述声源位于其中的所述场景的所述至少一个场景参数；

确定针对所述声源的关于传播延迟的信息；以及

基于所述信息，处理所述至少一个音频信号，其中，被配置为处理所述至少一个音频信号的部件被配置为：

确定至少一个早期混响参数；以及

基于所述至少一个早期混响参数，渲染所述至少一个音频信号。

2.根据权利要求1所述的装置，其中，针对所述声源的关于传播延迟的所述信息包括以下中的至少一项：

指示针对所述声源的关于所述传播延迟的信息；以及传播延迟值。

3.根据权利要求1或2中任一项所述的装置，其中，所述装置被配置为基于针对所述声源的关于所述传播延迟的所述信息，确定对传播延迟处理的控制。

4.根据权利要求3所述的装置，其中，被配置为基于针对所述声源的关于所述传播延迟的所述信息，确定对传播延迟处理的控制的部件进一步被配置为：基于所确定的对传播延迟处理的控制，针对所述至少一个音频信号控制处理所述传播延迟。

5.根据权利要求1至4中任一项所述的装置，其中，被配置为渲染所述至少一个音频信号的部件被配置为：

禁用所述至少一个音频信号的基于早期混响的处理；以及

启用所述至少一个音频信号的基于后期混响的处理，其中，所述至少一个音频信号的所述基于后期混响的处理包括所启用的启动阶段。

6.根据权利要求5所述的装置，其中，被配置为启用包括所启用的启动阶段的所述至少一个音频信号的所述基于后期混响的处理的部件被配置为：

基于所述至少一个场景参数，获得所述场景的尺寸；

基于所述场景的所述尺寸，确定针对至少一个反射路径的至少一个时间延迟；以及

基于将所述至少一个时间延迟应用于与所述声源相关联的所述至少一个音频信号的至少一部分，生成混响音频信号。

7.根据权利要求1至6中任一项所述的装置，其中，被配置为渲染所述至少一个音频信号的部件被配置为：

使用静态传播延迟值、静态声级值、以及静态到达方向值，基于所述至少一个早期混响参数，启用所述至少一个音频信号的基于早期混响的处理；以及

启用所述至少一个音频信号的基于后期混响的处理。

8.根据权利要求7所述的装置，其中，被配置为使用所述静态传播延迟值、所述静态声级值、以及所述静态到达方向值，基于所述至少一个早期混响参数，启用所述至少一个音频信号的基于早期混响的处理的部件被配置为：

基于所述至少一个声源参数，确定所述声源的位置；

基于所述至少一个场景参数，获得所述场景的尺寸；

基于所述场景的所述尺寸和所述声源的所述位置，确定针对反射路径的所述静态时间延迟值、所述静态声级值、以及所述静态到达方向值；以及

基于将所述静态时间延迟值、所述静态声级值、以及所述静态到达方向值应用于与所述声源相关联的所述至少一个音频信号的至少一部分，生成早期混响音频信号。

9.根据权利要求1至8中任一项所述的装置，其中，被配置为渲染所述至少一个音频信号的部件被配置为：

使用静态传播延迟值、静态声级值、以及时变到达方向值，基于所述至少一个早期混响参数，启用所述至少一个音频信号的基于早期混响的处理；以及

启用所述至少一个音频信号的基于后期混响的处理。

10.根据权利要求9所述的装置，其中，被配置为启用所述至少一个音频信号的基于早期混响的处理的部件被配置为：

基于所述至少一个声源参数，确定所述声源的静态位置，并基于所述至少一个声源参数和/或收听者的时变位置，确定所述声源的时变位置；

基于所述至少一个场景参数，获得所述场景的尺寸；

基于所述场景的所述尺寸和所述声源的所述静态位置，确定针对反射路径的所述静态时间延迟值、以及所述静态声级值；

基于所述场景的所述尺寸和所述声源的所述时变位置和/或所述收听者的所述时变位置，确定针对反射路径的所述时变到达方向值；以及

基于将所述静态时间延迟值、所述静态声级值、以及所述时变到达方向值应用于与所述声源相关联的所述至少一个音频信号的至少一部分，生成早期混响音频信号。

11.根据权利要求1至10中任一项所述的装置，其中，被配置为渲染所述至少一个音频信号的部件被配置为：

使用时变传播延迟值、时变声级值、以及时变到达方向值，基于所述至少一个早期混响参数，启用所述至少一个音频信号的基于早期混响的处理；以及

启用所述至少一个音频信号的基于后期混响的处理。

12.根据权利要求11所述的装置，其中，被配置为启用所述至少一个音频信号的基于早期混响的处理的部件被配置为：

基于所述至少一个声源参数和/或收听者的时变位置，确定所述声源的时变位置；

基于所述至少一个场景参数，获得所述场景的尺寸；

基于所述场景的所述尺寸和所述声源的所述时变位置和/或所述收听者的所述时变位置，确定针对反射路径的所述时变时间延迟值、所述时变声级值、以及所述时变到达方向值；

基于将所述时变时间延迟值、所述时变声级值、以及所述时变到达方向值应用于与所述声源相关联的所述至少一个音频信号的至少一部分，生成早期混响音频信号；以及

对所述早期混响音频信号进一步进行相位修改。

13.根据权利要求12所述的装置，其中，被配置为对所述早期混响音频信号进一步进行相位修改的部件被配置为：对所述早期混响音频信号进行去相关处理。

14.根据权利要求1至13中任一项所述的装置，其中，被配置为获得用于在声学上定义所述声源位于其中的所述场景的所述至少一个场景参数的部件被配置为获得以下中的至少一项：

至少一个场景几何参数；以及

至少一个场景声学材料参数。

15.根据权利要求1至14中任一项所述的装置，其中，被配置为获得用于在声学上定义所述声源位于其中的所述场景的所述至少一个场景参数的部件被配置为从以下中的至少一项获得所述至少一个场景参数：

编码器输入格式描述；

内容创建器；

增强现实传感装置；

相机；以及

光测距和探测传感器。

16.根据权利要求1至15中任一项所述的装置，其中，被配置为确定指示针对所述声源的关于所述传播延迟的信息的部件被配置为确定以下中的至少一项：

指示针对所述声源禁用动态源更新的信息；

所述至少一个沉浸式音频信号内的指示禁用动态源更新的标志；

应用编程接口内的指示针对所述音频源禁用动态源更新的信息；以及

质量确定器，其被配置为当利用动态源更新来处理所述音频源时确定输出音频信号的质量的降低。

17.根据权利要求1至16中任一项所述的装置，其中，被配置为确定指示针对所述声源的关于所述传播延迟的信息的部件被配置为：确定指示针对所述声源禁用时变传播延迟的信息。

18.一种用于处理至少一个沉浸式音频信号的方法，所述至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义所述声源的至少一个声源参数、以及用于在声学上定义所述声源位于其中的场景的至少一个场景参数，所述方法包括：

获得与所述声源相关联的所述至少一个音频信号；

获得定义所述声源的所述至少一个声源参数；

确定针对所述声源的关于传播延迟的信息；以及

基于所述信息，处理所述至少一个音频信号，其中，处理所述至少一个音频信号包括：

确定至少一个早期混响参数；以及

19.一种用于处理至少一个沉浸式音频信号的装置，所述至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义所述声源的至少一个声源参数、以及用于在声学上定义所述声源位于其中的场景的至少一个场景参数，所述装置包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

获得与所述声源相关联的所述至少一个音频信号；

获得定义所述声源的所述至少一个声源参数；

确定针对所述声源的关于传播延迟的信息；以及

确定至少一个早期混响参数；以及

20.一种包括指令的计算机程序[或者包括程序指令的计算机可读介质]，所述指令[或者程序指令]用于使装置处理至少一个沉浸式音频信号，所述至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义所述声源的至少一个声源参数、以及用于在声学上定义所述声源位于其中的所述场景的至少一个场景参数，所述装置被使得至少执行以下操作：

获得与所述声源相关联的所述至少一个音频信号；

获得定义所述声源的所述至少一个声源参数；

确定针对所述声源的关于传播延迟的信息；以及

确定至少一个早期混响参数；以及

21.一种非暂时性计算机可读介质，包括程序指令，所述程序指令用于使装置处理至少一个沉浸式音频信号，所述至少一个沉浸式音频信号包括与声源相关联的至少一个音频信号、定义所述声源的至少一个声源参数、以及用于在声学上定义所述声源位于其中的场景的至少一个场景参数，所述装置被使得至少执行以下操作：

获得与所述声源相关联的所述至少一个音频信号；

获得定义所述声源的所述至少一个声源参数；

确定针对所述声源的关于传播延迟的信息；以及

确定至少一个早期混响参数；以及