CN115955622A

CN115955622A - 针对在麦克风阵列之外的位置的麦克风阵列所捕获的音频的6dof渲染

Info

Publication number: CN115955622A
Application number: CN202211224290.9A
Authority: CN
Inventors: M-V·莱蒂南; A·波利蒂斯; L·A·帕尤宁; J·T·维卡莫; A·J·埃罗宁
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2021-10-08
Filing date: 2022-10-08
Publication date: 2023-04-11
Also published as: US20230110257A1; EP4164255A1

Abstract

一种用于基于收听者位置生成空间化音频输出的装置，该装置包括被配置为执行以下操作的部件：获得两个或更多个音频信号集，其中，两个或更多个音频信号集中的每一个与相应的音频信号集位置相关联；获得音频环境内的收听者位置，其中，音频环境包括具有相对于相应的音频信号集位置的一个或多个内部和外部区域的一个或多个区域，其中，内部区域由相应的音频信号集位置限定；对于两个或更多个音频信号集中的至少两个，基于对两个或更多个音频信号集中的至少两个的至少两个音频信号的处理来获得元数据；针对在内部区域之外的音频环境内的收听者位置确定第二收听者位置，第二收听者位置位于外部区域中并且更靠近一个或多个内部和外部区域的边界，或位于边界上，或位于一个或多个内部区域内；基于元数据确定用于第二收听者位置的经修改的元数据；基于至少两个音频信号确定用于第二收听者位置的至少两个经修改的音频信号；基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据；以及输出至少两个经修改的音频信号和空间元数据。

Description

针对在麦克风阵列之外的位置的麦克风阵列所捕获的音频的6DOF渲染

技术领域

本申请涉及针对在麦克风阵列之外的位置的麦克风阵列所捕获的音频的采用6自由度***的音频渲染的装置和方法。

背景技术

空间音频捕获方法尝试捕获音频环境，以使得音频环境可以以有效的方式对收听者感知地重新创建，并且可以进一步允许收听者在重新创建的音频环境内移动和/或旋转。例如，在一些***(3自由度3DoF)中，收听者可以旋转他们的头部，并且所渲染的音频信号反映该旋转运动。在一些***中(3自由度加，3DoF+)，收听者可以在环境内轻微地“移动”以及旋转他们的头部，而在其他***(6自由度6DoF)中，收听者可以在环境内自由地移动并旋转他们的头部。

线性空间音频捕获是指其中处理不适应所捕获的音频的特征的音频捕获方法。相反，输出是所捕获的音频信号的预定线性组合。

为了在记录空间的一个位置处线性地记录空间声音，需要高端麦克风阵列。一种这样的麦克风是球形32麦克风Eigenmike。可以从高端麦克风阵列获得高阶Ambisonics(HOA)信号，并将其用于线性渲染。采用HOA信号，可以线性地渲染空间音频，以使得从不同方向到达的声音在合理的听觉带宽内被令人满意地分开。

线性空间音频捕获技术的问题是对麦克风阵列的要求。短波长(较高频率音频信号)需要小的麦克风间距，而长波长(较低频率)需要大的阵列尺寸，并且在单个麦克风阵列内很难满足这两个条件。

大多数实际的捕获设备(例如，虚拟现实相机、单镜头反光相机、移动式电话)没有配备诸如由Eigenmike提供的麦克风阵列，并且没有足够的麦克风布置用于线性空间音频捕获。此外，针对捕获设备实现线性空间音频捕获导致仅针对单个位置获得的空间音频。

参数化空间音频捕获是指基于由麦克风捕获的音频信号估计感知上相关的参数的***，并且基于这些参数和音频信号，可以合成空间声音。分析和合成通常发生在可接近人类空间听力分辨率的频带中。

众所周知，对于大多数紧凑型麦克风布置(例如，VR相机、多麦克风阵列、带有麦克风的移动电话、带有麦克风的SLR相机)，参数化空间音频捕获可以产生感知上准确的空间音频渲染，而线性方法在声音的空间方面通常不产生可行的结果。对于高端麦克风阵列，诸如Eigenmike，参数化方法可以进一步提供平均比线性方法更好质量的空间声音感知。

发明内容

根据第一方面，提供了一种装置，其包括被配置为执行以下操作的部件：获得两个或更多个音频信号集，其中，两个或更多个音频信号集中的每一个音频信号集与相应的音频信号集位置相关联；获得音频环境内的收听者位置，其中，音频环境包括一个或多个区域，该一个或多个区域具有相对于相应的音频信号集位置的一个或多个内部和外部区域，其中，内部区域由相应的音频信号集位置限定；对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理，获得元数据；针对在内部区域之外的音频环境内的收听者位置，确定第二收听者位置，第二收听者位置位于外部区域中并且更靠近一个或多个内部和外部区域的边界，或者位于边界上，或者位于一个或多个内部区域内；基于元数据确定用于第二收听者位置的经修改的元数据；基于至少两个音频信号，确定用于第二收听者位置的至少两个经修改的音频信号；基于用于第二收听者位置的经修改的元数据，确定用于收听者位置的空间元数据；以及输出至少两个经修改的音频信号和空间元数据。

被配置为基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据的部件可以被配置为：基于用于第二收听者位置的经修改的元数据，确定相对于第二收听者位置的至少一个音频位置，其中，用于第二收听者位置的经修改的元数据包括表示从第二收听者位置到至少一个音频位置中的一个音频位置的方向的方向参数；基于相对于第二收听者位置的至少一个音频信号集位置，确定用于收听者位置的空间元数据，其中，空间元数据包括表示从收听者位置到至少一个音频位置中的上述一个音频位置的方向的空间方向参数。

被配置为获得两个或更多个音频信号集的部件可以被配置为：从麦克风布置获得两个或更多个音频信号集，其中，每个麦克风布置可以在相应的位置处，并且包括一个或更多个麦克风。

被配置为获得收听者位置的部件可以被配置为从另一装置获得收听者位置。

被配置为对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理来获得元数据的部件可以被配置为：基于对至少两个音频信号的处理，确定定向参数。

被配置为针对在内部区域之外的音频环境内的收听者位置确定第二收听者位置的部件可以被配置为在以下中的一项的位置处确定第二收听者位置：在至少部分由连接两个或更多个音频信号集位置中的两个音频信号集位置和收听者位置的边或表面限定的平面或体积内；在相关联的内部区域内的至少部分由连接两个或更多个音频信号集位置中的两个音频信号集位置的边或表面限定的平面或体积内；在由两个或更多个音频信号集位置中的两个音频信号集位置限定的边或表面上；以及在两个或更多个音频信号集位置中的最接近的音频信号集位置处。

被配置为基于元数据确定用于第二收听者位置的经修改的元数据的部件可以被配置为：基于音频信号集位置和第二收听者位置，生成至少两个插值权重；将至少两个插值权重应用于相应的音频信号集音频元数据以生成经插值的音频元数据；以及组合经插值的音频元数据，以生成用于第二收听者位置的经修改的元数据。

被配置为基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据的部件可以被配置为：基于第二收听者位置，将经修改的元数据映射到笛卡尔坐标系。

被配置为基于至少两个音频信号确定用于第二收听者位置的至少两个经修改的音频信号的部件可以被配置为：从至少两个音频信号生成经插值的音频信号。

被配置为基于相对于第二收听者位置的至少一个音频位置确定用于收听者位置的空间元数据，其中，空间元数据包括表示从收听者位置到至少一个音频位置中的一个音频位置的方向的空间方向参数的部件可以被配置为基于以下中的一项确定空间方向参数：相对于第二收听者位置的至少一个音频位置与收听者位置之间的插值差；以及收听者位置与相对于第二收听者位置的至少一个音频位置之间的差。

被配置为基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据的部件可以被配置为：基于相对于第二收听者位置的至少一个音频位置与收听者位置之间的差，修改至少一个直接与总能量比。

部件可以进一步被配置为：基于用于收听者位置的空间元数据，处理至少两个经修改的音频信号以生成空间音频输出。

被配置为生成空间音频输出的部件可以被配置为生成以下中的至少一项：双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；Ambisonic(立体混合声)音频输出，其包括用于头戴式耳机或多声道扬声器组的Ambisonic渲染器的多个音频信号；以及多声道音频输出，其包括用于多声道扬声器组的至少两个音频信号。

根据第二方面，提供了一种用于基于收听者位置生成空间化音频输出的装置的方法，该方法包括：获得两个或更多个音频信号集，其中，两个或更多个音频信号集中的每一个音频信号集与相应的音频信号集位置相关联；获得音频环境内的收听者位置，其中，音频环境包括一个或多个区域，该一个或多个区域具有相对于相应的音频信号集位置的一个或多个内部和外部区域，其中，内部区域由相应的音频信号集位置限定；对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理，获得元数据；针对在内部区域之外的音频环境内的收听者位置，确定第二收听者位置，第二收听者位置位于外部区域中并且更靠近一个或多个内部和外部区域的边界，或者位于边界上，或者位于一个或多个内部区域内；基于元数据，确定用于第二收听者位置的经修改的元数据；基于至少两个音频信号，确定用于第二收听者位置的至少两个经修改的音频信号；基于用于第二收听者位置的经修改的元数据，确定用于收听者位置的空间元数据；以及输出至少两个经修改的音频信号和空间元数据。

基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据可以包括：基于用于第二收听者位置的经修改的元数据，确定相对于第二收听者位置的至少一个音频位置，其中，用于第二收听者位置的经修改的元数据包括表示从第二收听者位置到至少一个音频位置中的一个音频位置的方向的方向参数；以及基于相对于第二收听者位置的至少一个音频信号集位置，确定用于收听者位置的空间元数据，其中，空间元数据包括表示从收听者位置到至少一个音频位置中的上述一个音频位置的方向的空间方向参数。

获得两个或更多个音频信号集可以包括：从麦克风布置获得两个或更多个音频信号集，其中，每个麦克风布置可以在相应的位置处，并且包括一个或更多个麦克风。

获得收听者位置可以包括：从另一装置获得收听者位置。

对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理，获得元数据可以包括：基于对至少两个音频信号的处理，确定定向参数。

针对在内部区域之外的音频环境内的收听者位置，确定第二收听者位置可以包括在以下中的一项的位置处确定第二收听者位置：在至少部分由连接两个或更多个音频信号集位置中的两个音频信号集位置和收听者位置的边或表面限定的平面或体积内；在相关联的内部区域内的至少部分由连接两个或更多个音频信号集位置中的两个音频信号集位置的边或表面限定的平面或体积内；在由两个或更多个音频信号集位置中的两个音频信号集位置限定的边缘或表面上；以及在两个或更多个音频信号集位置中的最接近的音频信号集位置处。

基于元数据确定用于第二收听者位置的经修改的元数据可以包括：基于音频信号集位置和第二收听者位置，生成至少两个插值权重；将至少两个插值权重应用于相应的音频信号集音频元数据，以生成经插值的音频元数据；以及组合经插值的音频元数据，以生成用于第二收听者位置的经修改的元数据。

基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据可以包括：基于第二收听者位置，将经修改的元数据映射到笛卡尔坐标系。

基于至少两个音频信号确定用于第二收听者位置的经修改的至少两个修改后的音频信号可以包括：从至少两个音频信号生成经插值的音频信号。

基于相对于第二收听者位置的至少一个音频位置确定用于收听者位置的空间元数据，其中，空间元数据包括表示从收听者位置到至少一个音频位置中的一个音频位置的方向的空间方向参数可以包括基于以下中的一项确定空间方向参数：相对于第二收听者位置的至少一个音频位置与收听者位置之间的插值差；以及收听者位置与相对于第二收听者位置的至少一个音频位置之间的差。

基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据可以包括：基于相对于第二收听者位置的至少一个音频位置与收听者位置之间的差，修改至少一个直接与总能量比。

该方法可以进一步包括：基于用于收听者位置的空间元数据，处理至少两个经修改的音频信号以生成空间音频输出。

生成空间音频输出可以包括生成以下中的至少一项：双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；Ambisonic音频输出，其包括用于头戴式耳机或多声道扬声器组的Ambisonic渲染器的多个音频信号；以及多声道音频输出，其包括用于多声道扬声器组的至少两个音频信号。

根据第三方面，提供了一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少：获得两个或更多个音频信号集，其中，两个或更多个音频信号集中的每一个音频信号集与相应的音频信号集位置相关联；获得音频环境内的收听者位置，其中，音频环境包括一个或多个区域，该一个或多个区域具有相对于相应的音频信号集位置一个或多个内部和外部区域，其中，内部区域由相应的音频信号集位置限定；对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理，获得元数据；针对在内部区域之外的音频环境内的收听者位置，确定第二收听者位置，第二收听者位置位于外部区域中并且更靠近一个或多个内部和外部区域的边界，或者位于边界上，或者位于一个或多个内部区域内；基于元数据，确定用于第二收听者位置的经修改的元数据；基于至少两个音频信号，确定用于第二收听者位置的至少两个经修改的音频信号；基于用于第二收听者位置的经修改的元数据，确定用于收听者位置的空间元数据；以及输出至少两个经修改的音频信号和空间元数据。

被使得基于用于第二收听者位置的经修改的元数据确定收听者位置的空间元数据的装置可以被使得：基于用于第二收听者位置的经修改的元数据，确定相对于第二收听者位置的至少一个音频位置，其中，用于第二收听者位置的经修改的元数据包括表示从第二收听者位置到至少一个音频位置中的一个音频位置的方向的方向参数；基于相对于第二收听者位置的至少一个音频信号集位置，确定用于收听者位置的空间元数据，其中，空间元数据包括表示从收听者位置到至少一个音频位置中的上述一个音频位置的方向的空间方向参数。

被使得获得两个或更多个音频信号集的装置可以被使得：从麦克风布置获得两个或更多个音频信号集，其中，每个麦克风布置可以在相应的位置处，并且包括一个或更多个麦克风。

被使得获得收听者位置的装置可以被使得：从另一装置获得收听者位置。

被使得对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理，获得元数据的装置可以被使得：基于对至少两个音频信号的处理，确定定向参数。

被使得针对在内部区域之外的音频环境内的收听者位置确定第二收听者位置的装置可以被使得在以下中的一项的位置处确定第二收听者位置：在至少部分由连接两个或更多个音频信号集位置中的两个音频信号集位置和收听者位置的边或表面限定的平面或体积内；在相关联的内部区域内的至少部分由连接两个或更多个音频信号集位置中的两个音频信号集位置的边或表面限定的平面或体积内；在由两个或更多个音频信号集位置中的两个限定音频信号集位置的边或表面上；以及在两个或更多个音频信号集位置中的最接近的音频信号集位置处。

被使得基于元数据确定第二收听者位置的经修改的元数据的装置可以被使得：基于音频信号集位置和第二收听者位置，生成至少两个插值权重；将至少两个插值权重应用于相应的音频信号集音频元数据，以生成经插值的音频元数据；以及组合经插值的音频元数据，以生成用于第二收听者位置的经修改的元数据。

被使得基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据的装置可以被使得：基于第二收听者位置，将经修改的元数据映射到笛卡尔坐标系。

被使得基于至少两个音频信号确定用于第二收听者位置的至少两个经修改的音频信号的装置可以被使得：从至少两个音频信号生成经插值的音频信号。

被使得基于相对于第二收听者位置的至少一个音频位置确定用于收听者位置的空间元数据，其中，空间元数据包括表示从收听者位置到至少一个音频位置中的一个音频位置的方向的空间方向参数的装置可以被使得基于以下中的一项确定空间方向参数：相对于第二收听者位置的至少一个音频位置与收听者位置之间的插值差；以及收听者位置与相对于第二收听者位置的至少一个音频位置之间的差。

被使得基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据的装置可以被使得：基于相对于第二收听者位置的至少一个音频位置与收听者位置之间的差，修改至少一个直接与总能量比。

该装置可以进一步被使得：基于用于收听者位置的空间元数据，处理至少两个经修改的音频信号以生成空间音频输出。

被使得生成空间音频输出的装置可以被使得生成以下中的至少一项：双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；Ambisonic音频输出，其包括用于头戴式耳机或多声道扬声器组的Ambisonic渲染器的多个音频信号；以及多声道音频输出，其包括用于多声道扬声器组的至少两个音频信号。

根据第四方面，提供了一种装置，其包括：用于获得两个或更多个音频信号集的部件，其中，两个或更多个音频信号集中的每一个音频信号集与相应的音频信号集位置相关联；用于获得音频环境内的收听者位置的装置，其中，音频环境包括一个或多个区域，该一个或多个区域具有相对于相应的音频信号集位置的一个或多个内部和外部区域，其中，内部区域由相应的音频信号集位置限定；用于对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理，获得元数据的部件；用于针对在内部区域之外的音频环境内的收听者位置，确定第二收听者位置的部件，第二收听者位置位于外部区域中并且更靠近一个或多个内部和外部区域的边界，或者位于边界上，或者位于一个或多个内部区域内；用于基于元数据确定用于第二收听者位置的经修改的元数据的部件；用于基于至少两个音频信号确定用于第二收听者位置的至少两个经修改的音频信号的部件；用于基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据的部件；以及用于输出至少两个经修改的音频信号和空间元数据的部件。

根据第五方面，提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质]，该指令用于使装置至少执行以下操作：获得两个或更多个音频信号集，其中，两个或更多个音频信号集中的每一个音频信号集与相应的音频信号集位置相关联；获得音频环境内的收听者位置，其中，音频环境包括一个或多个区域，该一个或多个区域具有相对于相应的音频信号集位置的一个或多个内部和外部区域，其中，内部区域由相应的音频信号集位置限定；对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理，获得元数据；针对在内部区域之外的音频环境内的收听者位置，确定第二收听者位置，第二收听者位置位于外部区域中并且更靠近一个或多个内部和外部区域的边界，或者位于边界上，或者位于一个或多个内部区域内；基于元数据，确定用于第二收听者位置的经修改的元数据；基于至少两个音频信号，确定用于第二收听者位置的至少两个经修改的音频信号；基于用于第二收听者位置的经修改的元数据，确定用于收听者位置的空间元数据；以及输出至少两个经修改的音频信号和空间元数据。

根据第六方面，提供了一种包括程序指令的非暂时性计算机可读介质，该程序指令用于使装置至少执行以下操作：获得两个或更多个音频信号集，其中，两个或更多个音频信号集中的每一个音频信号集与相应的音频信号集位置相关联；获得音频环境内的收听者位置，其中，音频环境包括一个或多个区域，该一个或多个区域具有相对于相应的音频信号集位置的一个或多个内部和外部区域，其中，内部区域由相应的音频信号集位置限定；对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理，获得元数据；针对在内部区域之外的音频环境内的收听者位置，确定第二收听者位置，第二收听者位置位于外部区域中并且更靠近一个或多个内部和外部区域的边界，或位于边界上，或位于一个或多个内部区域内；基于元数据，确定用于第二收听者位置的经修改的元数据；基于至少两个音频信号，确定用于第二收听者位置的至少两个经修改的音频信号；基于用于第二收听者位置的经修改的元数据，确定用于收听者位置的空间元数据；以及输出至少两个经修改的音频信号和空间元数据。

根据第七方面，提供了一种装置，其包括：被配置为获得两个或更多个音频信号集的获得电路，其中，两个或更多个音频信号集中的每一个音频信号集与相应的音频信号集位置相关联；被配置为获得音频环境内的收听者位置的获得电路，其中，音频环境包括一个或多个区域，该一个或多个区域具有相对于相应的音频信号集位置的一个或多个内部和外部区域，其中，内部区域由相应的音频信号集位置限定；被配置为对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理而获得元数据的获得电路；被配置为针对在内部区域之外的音频环境内的收听者位置确定第二收听者位置的确定电路，第二收听者位置位于外部区域中并且更靠近一个或多个内部和外部区域的边界，或者位于边界上，或者位于一个或多个内部区域内；被配置为基于元数据确定用于第二收听者位置的经修改的元数据的确定电路；被配置为基于至少两个音频信号确定用于第二收听者位置的至少两个经修改的音频信号的确定电路；被配置为基于用于第二收听者位置的经修改的元数据确定用于收听者位置的空间元数据的确定电路；以及被配置为输出至少两个经修改的音频信号和空间元数据的输出电路。

根据第八方面，提供了一种包括程序指令的计算机可读介质，该指令用于使装置至少执行以下操作：获得两个或更多个音频信号集，其中，两个或更多个音频信号集中的每一个音频信号集与相应的音频信号集位置相关联；获得音频环境内的收听者位置，其中，音频环境包括一个或多个区域，该一个或多个区域具有相对于相应的音频信号集位置的一个或多个内部和外部区域，其中，内部区域由相应的音频信号集位置限定；对于两个或更多个音频信号集中的至少两个音频信号集，基于对两个或更多个音频信号集中的至少两个音频信号集的至少两个音频信号的处理，获得元数据；针对在内部区域之外的音频环境内的收听者位置，确定第二收听者位置，第二收听者位置位于外部区域中并且更靠近一个或多个内部和外部区域的边界，或者位于边界上，或者位于一个或多个内部区域内；基于元数据，确定用于第二收听者位置的经修改的元数据；基于至少两个音频信号，确定用于第二收听者位置的至少两个经修改的音频信号；基于用于第二收听者位置的经修改的元数据，确定用于收听者位置的空间元数据；以及输出至少两个经修改的音频信号和空间元数据。

一种装置，其包括用于执行上述的方法的动作的部件。

一种装置，被配置为执行上述的方法的动作。

一种计算机程序，包括用于使计算机执行上述的方法的程序指令。

一种在介质上存储的计算机程序产品可以使装置执行如本文所描述的方法。

一种电子设备可以包括如本文所描述的装置。

一种芯片集可以包括如本文所描述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出示出一种装置***，其显示示例声音场景的捕获和再现，并且用户可以在再现的场景内移动；

图2示意性地示出其中用户移动到由麦克风阵列确定的区域之外的音频场景的示例再现；

图3示意性地示出其中用户可以在由麦克风阵列确定的区域内和外移动的示例平面麦克风阵列布置；

图4示意性地示出根据一些实施例的适合于对能够在由麦克风阵列确定的区域内和外移动的用户渲染音频信号的装置；

图5示出根据一些实施例的图4所示的装置的操作的流程图；

图6示意性地示出根据一些实施例的用于示例边缘渲染场景和顶点渲染场景的收听者位置；

图7示意性地示出根据一些实施例的由示例边缘渲染场景和顶点渲染场景覆盖的示例区域；

图8示意性地示出根据一些实施例的对用于例如边缘渲染的收听者位置的法线向量确定；

图9示意性地示出根据一些实施例的用于示例边缘渲染的针对收听者位置的原始参数和投影参数的插值；

图10示意性地示出根据一些实施例的用于在麦克风阵列的非凸形状布置中的已省略边的示例法线；

图11示意性地示出根据一些实施例的用于麦克风阵列的非凸形状布置的示例边/顶点选择；

图12a至图12c分别示出根据一些实施例的示例场景，其中，用户在由麦克风阵列确定的区域内，用户在由麦克风阵列限定的区域之外，以及用户在由麦克风阵列限定的区域之外；

图13示出适合于实现一些实施例的装置，其中，捕获装置可以与渲染装置元件分离；

图14示意性地示出用于实现一些实施例的合适装置；以及

图15示意性地示出适合于实现所示的装置的示例设备。

具体实施方式

如本文关于以下实施例进一步详细讨论的概念与音频场景的渲染有关，其中，基于参数化空间音频方法并且用与在记录空间处的不同位置相对应的两个或更多个麦克风阵列来捕获音频场景(或者换句话说，在记录空间中的相应信号集位置处捕获的音频信号集)。此外，该概念与音频场景的渲染有关，其中，用户(或收听者)能够移动到在由麦克风阵列限定的区域内和在该区域之外的不同位置。

6DoF目前在虚拟现实(诸如VR游戏)中很常见，其中，在音频场景处的运动容易渲染，因为所有空间信息容易可得(即，每个声源的位置以及每个声源的音频信号)。

在以下示例中，由麦克风(或麦克风阵列)生成音频信号集。例如，麦克风布置可以包括一个或多个麦克风，并且生成用于音频信号集的一个或多个音频信号。在一些实施例中，音频信号集包括其是虚拟的或所生成的音频信号的音频信号(例如，具有相关联的虚拟扬声器位置的虚拟扬声器音频信号)。在一些实施例中，麦克风阵列进一步与任何处理装置分离或者在物理上远离任何处理装置，然而，这不排除麦克风位于处理装置上或者被物理连接到处理装置的示例。

在更详细地讨论这个概念之前，将首先更详细地描述空间捕获和再现的一些方面。例如，图1示出了空间捕获和播放的示例。因此，例如图1在左侧显示了空间音频信号捕获环境。环境或音频场景包括声源，即源1102和源2 104，它们可以是实际的音频信号源，或者可以是声音或音频源的抽象表示。换句话说，声源或源可以表示实际的声源，诸如乐器，或者表示抽象的声源，例如风穿过树木的分布式声音。此外，图1中示出了表示音频场景的非定向或非特定位置环境的部分106。这些可以由至少两个麦克风布置/阵列捕获，每个麦克风布置/阵列可以包括两个或更多个麦克风。

音频信号可以如上所述被捕获，并进一步可以被编码、传输、接收和再现，如图1中的箭头110所示。

在图1的右侧显示了示例再现。空间音频信号的再现导致向用户150(其在该示例中被示为佩戴头部跟踪耳机)呈现采用6DoF空间渲染118形式的再现的音频环境，该再现的音频环境包括感知的源1 112(其是源1102的复制)、感知的源2 114(其是源2 104的复制)以及感知的周围环境116(其是周围环境106的复制)。

传统上，参数化捕获方法仅用于单点再现，但最近提出了允许自由移动的6DoF再现方法。在英国专利申请GB2002710.8中提出的方法使用至少两个麦克风阵列，并针对每个阵列分析空间元数据(以确定用于超过一个频带的参数，诸如方向和能量比率等)。在渲染器处，基于收听者的位置和方位，使用麦克风阵列信号和空间元数据渲染6DoF音频。

在GB2002710.8中提出的方法能够用于如图1所示的场景中。在该示例中，可以用相对较少数量的麦克风阵列(例如，六个阵列)捕获音频场景，并且收听者可以在空间内移动而不受任何约束。此外，所采用的方法是全盲的，即不需要关于源位置的信息。

然而，虽然在收听者能够在麦克风阵列所跨越的区域内移动的情况下可以使用该方法，但是，当收听者移动到该区域之外时，音频空间化的一致性可遭受明显的恶化。

如由GB2002710.8所示的方法提出的，对于在麦克风阵列所跨越的区域之外的位置，基于通过将收听者投影到由麦克风阵列跨越的区域的最近边缘而确定的位置，生成渲染。

在以下的讨论中，术语位置和定位可互换使用。

因此，如果声源位于麦克风阵列所跨越的区域以内，则当收听者在该区域之外移动时，这可以产生相对优质的音频渲染，因为投影到边缘保持了相对于收听者的正确侧的声源位置，尽管准确的方向可能略有错误。

然而，如果声源位于由麦克风阵列确定的区域之外，则所提及的方法可产生明显的定向错误。

该情况如图2所示。在该示例中，如在左侧201的图所示，收听者位于在由麦克风阵列203、205、207限定的区域的外边缘处的第一位置209处，并且声源213位于该区域之外。如图2的右侧251所示，如果收听者从第一位置209移动到第二位置257并经过源213的位置，其中第二位置257远离由麦克风阵列203、205、207确定的区域，则即使在收听者移动经过源之后，感知的声源也相对于收听者保持相同的方向，因为渲染是基于投影的位置(以及由箭头标记261所指示的方向，该方向从较早的收听者位置209到源213成直线)。

这可对收听者导致混乱的体验，因为他们无法感知实际的源方向(并且感知的源方向是不正确的)。此外，当收听者远离麦克风阵列的区域时，在该区域内的任何移动导致与用户在由麦克风阵列确定的区域的边缘处移动相对应的空间音频渲染，因此，没有向收听者提供会帮助他导航回到主要收听区域(即，由麦克风阵列位置确定的区域)的听觉提示。

上面讨论的方法建议在麦克风阵列所跨越的区域之外使渲染的定向更差。这会防止声源的渲染被感知为处于完全不正确的方向，因为声源在区域之外时被渲染为具有“模糊的”方向。然而，这仍然可使收听者感到困惑，因为收听者不再能够单独通过声源导航，并且可能无法在没有帮助的情况下导航回主收听区域。

因此，在麦克风阵列所跨越的区域之外的6DoF渲染遭受明显的定向误差，并导致用户体验不佳，其中，用户感知声源位置不正确，并且用户没有接收到空间提示以能够感知由麦克风阵列所跨越的区域将能够返回那里。

因此，如本文所述的实施例涉及在已知位置用至少两个麦克风阵列捕获的音频的6自由度(即，收听者可以在场景内移动，并且收听者位置被跟踪)双耳(和其他空间输出格式)渲染，其中描述了针对在麦克风阵列所跨越的区域之外的收听位置提供在空间上似乎合理(plausible)的双耳(和其他空间输出格式)音频渲染的装置和方法。

如本文所述，这可以通过以下方式实现：

确定相对于麦克风阵列所确定的区域的用户位置；

基于用户位置和用至少两个麦克风阵列捕获的音频，确定定向参数(空间元数据)；

在确定用户位置在麦克风阵列所确定的区域之外时，确定或选择与用户位置和定向参数相对应的麦克风(及其相关联的参数)；

使用与所选择的麦克风相关联的参数确定单个参数集；

通过将空间修改规则应用于(定向)参数以将至少一个参数的值修改至少一个量来获得经修改的(定向)参数。该量可以取决于所确定的位置相对于麦克风阵列所确定的区域的位置(例如，修改与在麦克风阵列所确定的区域之外的位置相对应的更多定向参数)；以及

基于经修改的定向参数和(一个或多个)麦克风阵列音频信号，渲染空间音频信号(例如，双耳音频信号)。

术语“在空间上似乎合理的双耳音频渲染”可以被理解为(在麦克风阵列所跨越的区域之外的收听位置处)在该区域之内的声源被渲染为来自大致正确的方向的“点状”，因此，可以使用它们来向该区域导航。由于假设源的位置未知，因，在该区域之外的声源以不与来自在该区域之内的源的空间提示冲突的方式被渲染，从而避免混淆并有助于导航。此外，假设对于这些外部源有一定距离，这有助于在收听者移动时使它们的渲染在几何上更一致和可信，而不是具有不自然的固定方向。

在一些实施例中，当参数对应于在麦克风阵列所确定的区域之外的声源时，至少一个参数的修改程度大于当它们对应于在麦克风阵列确定的区域之内的声源时的修改程度。

在一些实施例中，通过比较与定向参数相关联的方向参数是更接近远离麦克风阵列所确定的区域的第一方向参数还是更接近朝向麦克风阵列所确定的区域的第二方向参数，实现定向参数是对应于在麦克风阵列所确定的区域之外的声源还是在麦克风阵列所确定的区域之内的声源的确定。

例如，图3示出其中麦克风阵列(被显示为圆圈阵列1 301、阵列2 303、阵列3 305、阵列4 307和阵列5 309)位于平面上的麦克风布置。空间元数据已在阵列位置处被确定。该布置在平面上具有五个麦克风阵列。例如，可以通过Delaunay三角剖分法将平面划分为插值三角形。当用户移动到三角形内的位置时(例如，位置1 311)，则选择形成包含该位置的三角形的三个麦克风阵列以用于插值(在此示例情况下是阵列1 301、阵列3 305和阵列4307)。当用户移动到麦克风阵列所跨越的区域之外(例如，位置2 313)时，用户位置可以被投影到在麦克风阵列所跨越的区域处的最近位置(例如，投影位置2 314)，并且选择投影位置所处的阵列三角形以用于插值(在此示例中，关于位置2和投影位置2，这些麦克风阵列是阵列2 303、阵列3 305和阵列5 309)。

关于图4，示出了适合于实现如本文所描述的一些实施例的示例装置。

在该示例中，***的输入是基于麦克风阵列信号400的多个信号集。这些多个信号集可以例如是多个高阶Ambisonics(HOA)信号集。在一些实施例中，基于麦克风阵列信号的多个信号集可以包括J个多声道信号集。信号可以是麦克风阵列信号本身，或者是某种转换形式的阵列信号，诸如Ambisonic信号。这些信号可以被表示为s_j(m,i)，其中，j是信号源自的麦克风阵列的索引(即信号集索引)，m是采样的时间，i是信号集的声道索引。

此外，***的进一步输入可以包括麦克风阵列位置404。(用于每个阵列j的)麦克风阵列位置404可以被限定为位置列向量p_j,arr，其可以是包含以米为单位的x、y、z笛卡尔坐标的3×1向量。在以下示例中，仅示出包含x、y坐标的2×1列向量，其中，假定源、麦克风和收听者的仰角(z轴)相同。然而，本文所描述的方法可以直接扩展到还包括z轴。进一步的输入是收听者位置418和收听者方位416。

图4中所示的示例示出了空间分析器401，其被配置为接收基于用于每个阵列的(空间)元数据从其确定的麦克风阵列信号400的多个信号集。这些空间/参数化音频参数可以基于任何已知的机制(诸如GB2002710.8中描述的机制)来确定。确定空间元数据的方法可以类似于在定向音频编码(DirAC)中实现的方法。DirAC可以采用一种方法，该方法基于一阶捕获信号而在频带中提供方向值和指示声音是如何定向或非定向的比率值。这也是针对每个阵列所导出的示例空间元数据集。然后，空间分析器401被配置为将所生成的(用于每个阵列的)元数据402输出到用于投影的收听者位置的空间元数据和音频信号确定器407。投影的收听者位置也可以被称为第二收听者位置。

在此所示的示例中的第二收听者位置可以位于“内部”区域之一的边界上，换句话说，位于由两个(最接近的)音频信号集位置限定的平面的边上(或位于至少部分由两个音频信号集的位置限定的体积的表面上)，其中，信号集在以下示例中被示为捕获麦克风阵列位置。然而，在一些实施例中，第二收听者位置(或投影的收听者位置)可以是“外部”区域中的位置，但是比所确定的收听者位置更靠近“内部”区域。此外，如后面所描述的，第二收听者位置可以位于“内部”区域内(其可仍然在不同的“内部”区域之外)。此外，用于在“内部”区域之外的这些位置的经修改的元数据可以以类似于下面所限定的方式确定。例如，来自边或表面边界(或内部区域中的某个其他点)的经修改的元数据可以被用于稍微位于“内部”区域之外的第二收听者位置。

在一些实施例中，空间分析器401可以包括合适的时频变换器，其被配置为接收基于麦克风阵列信号400的多个信号集。时频变换器被配置为将输入信号s_j(m,i)转换为时频域，例如，使用短时傅里叶变换(STFT)或复调制正交镜像滤波器(QMF)组。作为示例，STFT是通常被配置为使得对于N个样本的帧长度，当前帧和前一帧被加窗并用快速傅里叶变换(FFT)来处理的过程。结果是被表示为S_j(b,n,i)的时频域信号，其中，b是频率仓(bin)，n是时间帧索引。然后，时频麦克风阵列音频信号可被输出到各种估计器。

空间分析可以基于任何合适的技术，并且对于各种输入类型存在已知的合适方法。例如，如果输入信号是Ambisonic或Ambisonic相关的形式(例如，它们源自B格式麦克风)，或者阵列可以使得以合理的方式被转换为Ambisonic形式(例如，Eigenmike)，则可以执行定向音频编码(DirAC)分析。一阶DirAC已在Pulkki、Ville的“具有定向音频编码的空间声音再现”(音频工程学会期刊，卷55，第6期(2007)：503-516)中进行了描述，其中规定了用于从B格式信号(一阶Ambisonics的变体)估计一组空间元数据的方法，该组空间元数据由频带中的方向参数和环境与总能量比参数组成。

当高阶Ambisonics可用时，则Archontis Politis、Juha Vilkamo和VillePulkki.的“球谐域中的基于扇区的参数化声场再现”(IEEE信号处理选题期刊，卷9第5期(2015)：852-866)提供了用于获得多个同时方向参数的方法。在一些实施例中可以实现的其他方法包括从平面设备(诸如移动电话和平板电脑)估计空间元数据，如在PCT公开专利申请WO2018/091776中所描述的，以及类似的用于非平面设备的基于延迟的分析方法，如GB公开专利申请GB2572368所描述的。

换句话说，有多种方法来获得空间元数据，并且所选择的方法可取决于阵列类型和/或音频信号格式。在一些实施例中，在一个频率范围应用一种方法，而在另一个频率范围应用另一种方法。

在一些实施例中，该装置包括收听者位置投影仪405。收听者位置投影仪405被配置为接收麦克风阵列位置404和收听者位置418，并确定投影的收听者位置406。投影的收听者位置406被传递给用于投影的收听者位置的空间元数据和音频信号确定器407。

如在现有技术中已知的，参数化空间音频捕获和渲染的关键目标是获得对于收听者在感知上准确的空间音频再现。因此，收听者位置投影仪405被配置为能够针对任何位置(因为收听者可以移动到任意位置)确定投影的位置或插值数据，以允许基于麦克风阵列位置404和收听者位置418的元数据的修改。

在此处的示例中，麦克风阵列位于平面上。换句话说，阵列没有z轴位移分量。然而，在一些实施例中可以实现将实施例扩展到z轴，以及麦克风阵列位于一条线上的情况(换句话说，只有一个轴位移)。

在一些实施例中，收听者位置投影仪405可以例如确定投影的收听者位置向量p_L(在该示例中是包含x和y坐标的2乘1向量)；

因此，用于投影的收听者位置的空间元数据和音频信号确定器407被配置为获得基于麦克风阵列信号400的多个信号集、用于每个阵列的元数据402、麦克风阵列位置404、以及投影的收听者位置406。用于投影的收听者位置的空间元数据和音频信号确定器407被配置为确定与投影的收听者位置对应的空间元数据和音频信号。

与投影的收听者位置块对应的空间元数据和音频信号的该确定可以以类似于GB2002710.8中所描述的方式来实现。

例如，用于投影的收听者位置的空间元数据和音频信号确定器407可以被配置为制定插值权重w₁、w₂、w₃。这些权重可以例如使用以下已知的重心坐标与笛卡尔坐标之间的转换来制定。首先，通过对每个向量附加统一值并将结果向量组合到矩阵中，基于麦克风阵列位置向量

来确定3×3矩阵：

麦克风阵列位置向量

和

对应于形成投影的收听者位置在其内的三角形的麦克风阵列j₁、j₂和j₃。

然后，使用矩阵的逆和3×1向量来制定权重，该3×1向量是通过对(投影的)收听者位置向量p_L附加统一值而获得的：

然后，可以将插值权重(w₁、w₂和w₃)、位置向量(p_L、

和

)以及麦克风布置索引(j₁、j₂和j₃)一起用于确定用于投影的收听者位置的空间元数据和音频信号。

所确定的用于投影的收听者位置的空间元数据可以是使用插值权重w₁、w₂和w₃的元数据的插值。在一些实施例中，这可以通过首先将用于频带k和时间索引n的方位角θ_j(k,n)、仰角

和直接与总能量比r_j(k,n)的空间元数据转换成向量形式来实现：

然后，这些向量通过下式进行平均：

则表示为

v(k,n)＝[v₁(k,n) v₂(k,n) v₃(k,n)]^T

通过下式获得经插值的元数据：

θ(k,n)＝atan2(v₂(k,n),v₁(k,n))

然后，经插值的空间元数据410被输出到元数据方向到位置映射器411和经修改的空间元数据确定器413。

在上文中，提出了元数据插值的一个示例。在其他实施例中也可以设计和实施其他插值规则。例如，插值比率参数也可以被确定为输入比率的加权平均值(根据w₁、w₂、w₃)。此外，在一些实施例中，求平均还可以涉及根据阵列信号的能量进行加权。

所确定的用于投影的收听者位置的音频信号可以是输入音频信号400的插值。因此，多个信号集音频信号(或它们的时频域转换版本)可用于针对每个音频信号和每个频带确定总能量。在基于麦克风阵列信号400的多个信号集是FOA信号形式的示例中，总能量可以被确定为全向的能量，即FOA信号的第一个声道

其中，b_k,low是频带k的第一个仓，b_k,high是最后一个仓。

用于投影的收听者位置的空间元数据和音频信号确定器407则可以被配置为针对索引j₁、j₂、j₃确定距离值

并且具有最小距离的索引被表示为j_minD。

然后，用于投影的收听者位置的空间元数据和音频信号确定器407被配置为确定所选择的索引j_sel。对于第一个帧(或者，当处理开始时)，用于投影的收听者位置的空间元数据和音频信号确定器407可以设置j_sel＝j_minD。

对于下一帧或后续帧(或者任何期望的时间分辨率)，当用户位置已经潜在地改变时，用于投影的收听者位置的空间元数据和音频信号确定器407被配置为决定是否需要更改选择j_sel。如果j_sel未被j₁、j₂、j₃包含，则需要更改。该条件意味着用户已经移动到不包含j_sel的另一个区域。如果d_jsel>d_jminDα，其中α是阈值，则也需要更改。例如，α＝1.2。该条件意味着，在与j_sel的阵列位置相比时，用户已明显移动到更靠近j_minD的阵列位置。需要该阈值，以使得当用户位于两个位置的中间时，选择不会来回无规律地更改(换句话说，提供滞后阈值以防止阵列之间的快速切换)。

如果满足上述任一条件，则j_sel＝j_minD。否则，保留j_sel的前一个值。

中间插值信号被确定为

采用这种处理，当j_sel更改时，它遵循同时对于所有频带更改选择。在一些实施例中，选择被设置为以与频率相关的方式更改。例如，当j_sel更改时，一些频带则立即被更新，而其他一些频带在随后的帧处被更改，直到所有频带被更改。可需要以这种与频率相关的方式更改信号，以减少在信号S′_interp(b,n,i)处的可能切换伪影。在这种配置中，当切换发生时，对于短的过渡周期，信号S′_interp(b,n,i)的一些频率可以来自一个麦克风阵列，而其他频率来自另一个麦克风阵列。

然后，用于投影的收听者位置的空间元数据和音频信号确定器407被配置为确定经过能量校正的中间信号S′_interp(b,n,i)。在频带中表示均衡增益

g_max值限制过度的放大，例如，g_max＝4。然后，通过乘法执行均衡

S(b,n,i)＝g(k,n)S′_interp(b,n,i)

其中，k是仓b所在的频带索引。用于投影的收听者位置的空间元数据和音频信号确定器407则被配置为将信号S(b,n,i)作为音频信号408输出到合成处理器415。

在该示例实施例中，(投影的位置)空间元数据410包含时频域中的方向(方位角θ(k,n)和仰角φ(k,n))参数和直接与总能量比r(k,n)参数(k是频带索引，n是时间帧索引)。在其他实施例中，可以附加地或替代地使用其他参数。

在一些实施例中，装置499包括元数据方向到位置映射器411。元数据方向到位置映射器411被配置为接收来自用于投影的收听者位置的空间元数据和音频信号确定器407的空间元数据410、投影的收听者位置406，并将方向[θ(k,n),φ(k,n)]映射到笛卡尔坐标系内的空间位置x(k,n)、y(k,n)和z(k,n)上，在该示例中，在形状的表面上。形状可以是任何合适的形状，并且它可以是固定的或自适应的。笛卡尔坐标中的映射位置是其中从投影的收听者位置朝向方向[θ(k,n),φ(k,n)]的线与所确定的形状相交的位置。换句话说，该例子中的形状由距离参数d(θ(k,n)、φ(k,n))确定。在时间索引n处的投影的收听者位置406被表示为x_P(n)、y_P(n)、z_P(n)，并且通过下式执行映射：

x(k,n)＝cos(θ(k,n)) cos(φ(k,n)) d(θ(k,n),φ(k,n))+x_P(n)

y(k,n)＝sin(θ(k,n)) cos(φ(k,n)) d(θ(k,n),φ(k,n))+y_P(n)

z(k,n)＝sin(φ(k,n)) d(θ(k,n),φ(k,n))+z_P(n)

在一些实施例中，不同方向的形状，即距离d(θ(k,n),φ(k,n))会使得反映声源在对应的方向上距投影的位置的距离。例如，可以采用多阵列源定位技术或视觉分析方法来确定源所在的一般区域，并且可以相应地确定用于d(θ(k,n),φ(k,n))的近似函数。

如果该信息不可用或者无法被可靠地估计，则它也可以被设置为预定义的固定距离值，或者它可以使用几何信息来限定在不同方向的可能源距离。例如，在最简单的情况下，可以全局设置具有以米为单位的特定半径(例如2米)的球形。可替代地，如果在阵列周围存在房间边界，或者在不同方向存在特定已知边界(例如墙)，则从阵列边缘到这些边界的距离可以用作假定的最大源距离。

因此，方向[θ(k,n),φ(k,n)]被映射到映射的元数据位置412x(k,n)、y(k,n)和z(k,n)，它们被输出，然后可以被传递到经修改的空间元数据确定器413。

在一些实施例中，装置499包括经修改的空间元数据确定器413。经修改的空间元数据确定器413被配置为接收映射的元数据位置412、空间元数据410、收听者位置418和麦克风阵列位置404，麦克风阵列位置404被配置为确定用于实际的收听者位置的合适元数据，而原始空间元数据410被确定用于投影的收听者位置406。换句话说，经修改的空间元数据确定器413被配置为确定经修改的方向[θ_mod(k,n),φ_mod(k,n)]和经修改的直接与总能量比r_mod(k,n)。在投影的收听者位置406与收听者位置408相同的情况下，即，当用户在由麦克风阵列确定的区域内时，则经修改的方向和比率可以与原始空间元数据410的方向和比率相同。否则，可以应用以下过程。

因此，在一些实施例中，经修改的空间元数据确定器413可以首先基于收听者位置418而将映射的位置(映射的元数据位置412)转换为方向[θ′(k,n),φ′(k,n)]。将x_L(n)、y_L(n)、z_L(n)表示为收听者位置，这些方向可以由下式确定

θ′(k,n)＝atan2((y(k,n)-y_L(n)),(x(k,n)-x_L(n)))

在一些实施例中，可以将这些方向直接用作经修改的方向(即，θ_mod(k,n)＝θ′(k,n)和φ_mod(k,n)＝φ′(k,n))。可替代地，在一些实施例中，经修后的空间元数据确定器413被配置为(自适应地)在原始[θ(k,n),φ(k,n)]与映射的方向[θ′(k,n),φ′(k,n)]之间进行插值。例如，对于指向由麦克风阵列跨越的区域“内部”的方向，可以使用原始方向，而对于指向“外部”的方向，可以使用映射的方向。

经修改的方向[θ_mod(k,n),φ_mod(k,n)]是在收听者位置处对可能方向的公平估计。然而，应当注意，这些估计只是“似乎合理的估计”，它们不必是准确的估计(例如，如果方向只是被映射到具有固定距离的球体的表面上)。

在一些实施例中，经修改的空间元数据确定器413因此被配置为修改直接与总能量比，以使得它们被修改为越小，则不确定性越大。该修改减轻了不确定方向的影响，因为它们至少部分地被渲染为漫反射，而更多确定的方向则被正常地渲染。

可以以任何合适的方式实现直接与总能量比的修改。例如，可以确定映射的位置(映射的元数据位置412)x(k,n)、y(k,n)和z(k,n)与收听者位置418之间的距离，并且收听者越接近映射的位置，则针对该时频瓦片(tile)，直接与总能量比r(k,n)减小得越多。例如，减小操作可以是根据函数

其中，

在一些实施例中，经修改的空间元数据确定器413被配置为不修改与指向由麦克风阵列跨越的区域的“内部”的方向对应的直接与总能量比r(k,n)。

直接与总能量比的修改可以具有以下效果。

首先，当收听者接近假定的位置时，使得在区域之外的声源(对于该声源没有关于实际方向的准确信息)“定向”更差。因此，收听者不会得到声源位于某个确切位置(这可能是错误的)的错误假设。

其次，在区域之内的声源保持点状。对于这些源，方向是相当准确的，因此，出于质量原因，最好将它们渲染为点状源。这有助于收听者在声音场景中导航，并使所渲染的音频场景更自然，因为只有部分声源是非定向的(当在区域之外时)。

第三，如果收听者非常远离该区域，则所有声源都再次定向(在区域以内和以外的声源)。这样的原因是可以假设由麦克风阵列捕获的声源可能距离麦克风阵列不是很远。

此外，合成处理器415被配置为接收音频信号408、经修改的空间元数据414和收听者方位416。合成处理器415被配置为执行音频信号408的空间渲染以生成空间化的音频输出420。空间化的音频输出420可以是任何合适的格式，例如双耳、环绕扬声器、Ambisonics。

空间处理可以是任何合适的合成处理。例如，在GB2002710.8中描述了合适的空间处理。

因此，例如，合成处理器可以被配置为确定要在以下公式中使用的向量旋转函数。根据Laitinen，M.V.在2008年在赫尔辛基理工大学硕士论文第54-55页在“用于定向音频编码的双耳再现”中的原则，可以将旋转函数定义为

其中，yaw(偏航)、pitch(俯仰)和roll(滚动)是头部方位参数，x、y、z是正被旋转的单位向量的值。结果是x′、y′、z′，这是经旋转的单位向量。映射函数执行以下步骤：

1.偏航旋转

x₁＝cos(yaw)x+sin(yaw)y

y₁＝-sin(yaw)x+cos(yaw)y

z₁＝z

2.俯仰旋转

y₂＝y₁

3.最后，滚动旋转

x′＝x₂

在确定了这些参数后，合成处理器415可以实现任何合适的空间渲染。例如，在一些实施例中，合成处理器415可以例如根据在PCT公开WO2019086757中描述的原理实现3DOF渲染。需注意，“3DOF渲染”实际上意味着6DOF渲染，因为在音频信号408和经修改的空间元数据414中已经考虑了位置处理，并且合成处理器只需要考虑头部旋转(6个自由度中剩余的3个自由度)。

换句话说，合成处理器415的操作可以被概括为：

1)使用任何已知的适合于音频处理的滤波器组将“音频信号”转换为时频表示(除非已经如此)，

2)基于空间元数据，在频带中处理时频音频信号，以及

3)将经处理的音频转换回时域信号，以获得空间音频输出420。

在一些实施例中，合成处理器415被配置为如果渲染双耳输出信号，则首先根据头部方位来旋转方向参数[θ_mod(k,n),φ_mod(k,n]。这通过将方向转换为指向对应方向的单位向量[x y z]^T、使用函数rotate([x y z]^T,yaw,pitch,roll)以获得经旋转的单位向量[x′y′ z′]^T、然后将该单位向量转换为经旋转的方位角和仰角参数[θ_modR(k,n),φ_modR(k,n)]来实现。然后，合成处理器415被配置为采用频带中的头部相关传递函数(HRTF)来将音频信号的直接能量比例r_mod(k,n)引导到方向[θ_modR(k,n),φ_modR(k,n)]，并且使用被配置为提供适当的扩散场双耳耳间相关性的去相关器将音频信号的环境能量比例1-r_mod(k,n)引导为在空间上不可定位的声音。该处理适于由空间元数据确定的每个频率和时间间隔(k,n)。类似地，对于扬声器输出，可以使用平移函数来渲染直接部分，以使目标扬声器布局和环境在扬声器之间不连贯。在扬声器播放中，不需要元数据旋转，因为它在声音从扬声器中再现的收听时间被考虑。类似地，对于Ambisonic输出，平移函数可以是Ambisonic平移函数，并且环境在输出声道之间也可以是不连贯的，但是根据所使用的Ambisonic归一化方案而具有电平。在Ambisonic渲染中，通常不需要旋转，因为如果Ambisonic声音最终被渲染为双耳输出，则假定在Ambisonic渲染器中考虑头部方位。

关于图5，示出了如图4所示的示例装置的流程图。

基于麦克风阵列音频信号获得多个信号集，如图5中的步骤501所示。

对多个信号集进行空间分析以确定用于每个麦克风阵列的元数据，如图5中的步骤511所示。

获得麦克风阵列位置，如图5中的步骤503所示。

另外，获得收听者位置，如图5中对的步骤507所示。

在获得了收听者位置和麦克风阵列位置后，确定投影的收听者位置，如图5中的步骤509所示。

然后，在获得了投影的收听者位置和空间元数据(并且已经获得了麦克风阵列位置)后，则确定用于投影的收听者位置的空间元数据和音频信号，如图5中的步骤513所示。

然后，在确定了用于投影的收听者位置的空间元数据后，将元数据方向映射到位置，如图5中的步骤515所示。

此外，在确定了映射的位置后，则确定经修改的空间元数据，如图5中的步骤517所示。

在获得了收听者方位和经修改的空间元数据(以及音频信号)之后，执行空间化的音频信号(例如双耳、环绕扬声器、Ambisonics)的生成，如图5中的步骤519所示。

然后，空间化的音频信号被输出(到输出设备，诸如头戴式耳机)，如图5中的步骤521所示。

在一些实施例中，可以基于收听者与麦克风阵列所跨越的区域的距离来渲染环境部分。例如，当收听者靠近区域(或在区域之内)时，用于环境渲染的目标方向分布可遵循由最近的麦克风阵列捕获的音频信号的方向分布，而当收听者远离该区域时，目标方向分布可以更加全向。当收听者远离麦克风阵列时，这可有助于避免对环境的错误定向感知。

在一些实施例中，不像上面所述地分开渲染直接部分和环境部分，因为可以用在同一处理步骤中渲染直接部分和环境部分的混合技术来获得改进的处理质量。好处是最小化可能对感知的音频质量有害的去相关器的需求。这种优化的音频处理过程在GB2002710.8中进一步地详细说明。

在前面所描述的示例实施例中，收听者位置需要从形成麦克风阵列布置的外部麦克风确定的空间参数。如果收听者位置可以被投影到阵列的外边缘(边缘渲染)，则当收听者位置在边上时，从形成边的两个麦克风对参数插值，类似于GB2002710.8。在这种实施例中，当收听者通过边穿过边界时，可以实现从GB2002710.8的内部渲染方法到如本文的实施例中所描述的外部渲染的平滑过渡。可以通过将收听者投影到最近的边并确定投影点是在边上还是在边之外来找到有效边。确定最近的边的一种方法是维护外部边列表，并基于最近的麦克风找到与其连接的两个边。

因此，例如，如图6的边缘渲染情况601所示，示出了示例麦克风阵列位置(被示为圆圈阵列1 603、阵列2 611、阵列3 609、阵列4 605和阵列5 607)。此外，在收听者位置626处的收听者具有来自连接阵列1 603和阵列2 611的位置的(向量)线的并且在阵列1 603和阵列2 611的位置之间的点P 616处与该线相交的第一投影612。还有来自连接阵列1 603和阵列4 605的位置的(向量)线的但在阵列1 603和阵列4 605的位置之外与该线相交的第二投影614。

然而，当收听者在阵列之外时，在拐角处存在在边缘段上不存在投影的区域。在这种情况下(顶点渲染)，要使用的空间元数据直接来自形成该拐角的最近的麦克风。当收听者通过拐角中的麦克风穿过边界时，该策略能够实现从GB2002710.8的内部渲染到如本文的实施例中所描述的外部渲染的平滑过渡。

因此，例如，如图6的顶点渲染情况651所示，示出了示例麦克风阵列位置(被显示为圆圈阵列1 603、阵列2 611、阵列3 609、阵列4 605和阵列5 607)。此外，在收听者位置661处的收听者具有来自连接阵列1 603和阵列2 611的位置的(向量)线的并且在阵列1603和阵列2 611的位置之外与该线相交第一投影662。还有来自连接阵列1 603和阵列4605的位置的(向量)线的但在阵列1 603和阵列4 605的位置之外与该线相交的第二投影664。第三投影666直接到最近的阵列麦克风位置阵列1 603。

因此，在一些实施例中，可以实施几何检查以确定要应用边缘渲染还是顶点渲染。几何检查可以基于确定与最近的麦克风相邻的两个边，并将收听者投影到这两个边上。如果两个投影中的任何一个投影落在边缘段内，则认为边缘渲染，而如果没有投影落在边缘段内，则认为顶点渲染。

因此，例如，如图7的边缘渲染情况701所示，示出了示例麦克风阵列位置(被显示为圆圈，阵列1 603、阵列2 611、阵列3 609、阵列4 605和阵列5 607)。此外，示出了边缘渲染区域711，其由连接阵列1 603和阵列2 611的位置的(向量)线、连接阵列1 603和阵列4605的位置的(向量)线以及连接阵列2 611和阵列3 609的位置的(向量)线限定。

进一步示出了顶点渲染情况751，其中存在由连接阵列1 603和阵列2 611的位置的(向量)线以及连接阵列1 603和阵列4 605的位置的(向量)线限定的顶点渲染区域761。

在一些实施例中，可以由经修改的空间元数据确定器413根据边缘或顶点的原始空间参数与由于投影的空间参数之间的角度加权来修改空间参数。在这种实施例中，经修改的空间元数据确定器413使用来自阵列几何形状的信息和所估计的DOA，以使得可以主要修改看起来源自在阵列的外部的源的参数，同时使源自阵列区域的空间参数大多不受影响。通过这种方式，当收听者离开麦克风阵列区域时，外部声音变得“模糊”，但从麦克风阵列区域发出的声音可以保持其定向清晰度，从而当收听者移动到其外部时，向阵列提供声波锚点。

在一些实施例中，经修改的空间元数据确定器413被配置为如下所述确定定向权重：

针对在外部阵列边界上的每个麦克风计算指向外部的顶点法线

每个顶点法线由连接到该顶点的两个边的两条法线的平均值组成。然后，可以在顶点渲染模式和边缘渲染模式中都使用这些法线来指示从阵列内部最大“向外”的方向。如果收听者在顶点渲染上，则使用来自最近的麦克风的法线向量。如果收听者在边缘渲染上，则通过基于投影的收听者位置而在边的末端处***两个顶点法线来确定法线向量。

其中，d_AB指示点A和B之间的距离，unit{}是将向量归一化为具有相同方向的单位向量的函数。

因此，例如如图8所示，示出了示例麦克风阵列位置(被显示为圆圈阵列1603、阵列2611、阵列3609、阵列4605和阵列5607)。此外，还示出了在收听者位置813处的收听者。

存在第一顶点法线

811，它是连接阵列1603和阵列2611的位置的(向量)线和连接阵列1603和阵列4605的位置的(向量)线的组合。

存在第二顶点法线

815，它是连接阵列1603和阵列2611的位置的(向量)线和连接阵列2611和阵列3609的位置的(向量)线的组合。

此外，还示出了边缘“法线”

819，它是来自投影点817的第一和第二顶点法线的组合。在此示例中，点P是投影的收听者位置，然后存在基于n_1和n_2而制定的边缘法线n_p，如上所述。因此，当收听者沿着边移动时，点P随着收听者位置而变化以从到边一侧的一个顶点法线调制到另一个顶点法线。

因此，在一些实施例中，可以基于所分析的

(针对投影的收听者位置)和法线来确定加权函数：

w₂(k，n)＝1-w₁(k，n)

其中，N是功率因数，它确定定向加权向阵列的外部增加的幅度。例如，对于N＝1，权重具有心形图案，其峰值在指向外侧的法线处，对于N＝2，它具有二阶心形图案，依此类推。

因此，当收听者远离边缘或顶点时，使用向量符号，所映射的DOA被如上所述地确定：

这里，

是所映射的DOA，

是收听者位置，

是投影到顶点或边缘的收听者位置，以及d是到映射边界的距离。

在一些实施例中，映射效果(主要)被应用于外部DOA，因此，定向加权可以被确定为

从最终经修改的

可以从

的方向确定经修改的方位角和仰角θ_mod、

此外，在一些实施例中，为了在我们远离边缘时增大漫射性，可以通过以类似于如上所述地减小直接与总能量比的方法的方式减小直接与总能量比来实现在距离R处具有最大效果：

其中，

和

与前面的实施例类似。

在一些实施例中，主要针对外部DOA修改直接与总能量比，并且内部源的渲染大部分不受影响。因此，在一些实施例中，定向加权重可以被确定为：

r_mod(k,n)＝min[w₁(k,n)k′_mod(k,n)+w₂(k,n)r(k,n),1]

这例如在图9中示出，其中左侧示出了边缘渲染情况900。在该示例中，麦克风阵列位置被显示为圆圈，阵列1 901、阵列2 903、阵列3 905，并且收听者在由麦克风阵列位置限定的区域之外并在从阵列1 901和阵列2 903之间的(向量)线延伸的区域内的收听者位置919处。此外，还示出了法线

913、DOA

917和所映射的DOA

921、定向加权函数w₁915、以及DOA

和距离d的乘积

923。

指示阵列的外部的边缘法线

913被显示为垂直以便于可视化，而在实践中，它可更朝向顶点法线倾斜，这取决于收听者的位置。

右侧示出顶点渲染情况950。在该示例中，麦克风阵列位置或定位被显示为圆圈阵列1 901，并且收听者位于在由麦克风阵列位置限定的区域之外并且在从阵列1 901(与任何其他阵列)之间的(向量)线延伸的区域之外的收听者位置969。此外，还示出了法线

963、DOA

967和所映射的DOA

971。定向加权函数w₁965以及DOA

与距离d的乘积

973。范围907/957示出了在其上方向被元数据方向映射到位置映射器411的表面。在该示例中，表面是简单的球形，因此，它有恒定的半径。

尽管总是可以在所有麦克风阵列位置之间构建外边界(其是凸的(凸包))，但有时所得的边并不有效，例如，边可能对于在相连的麦克风阵列之间的有效空间插值太长。在一些实施例中，可以去除外边缘，从而形成非凸包布置。在这种情况下，导出的法线可能失去其作用，因为它们不一定从内部指向外部。因此，在一些实施例中，非凸边缘法线和连接顶点可以用省略的边的法线代替。

例如，这在图10中示出，其中示出了具有麦克风阵列位置(被显示为圆圈阵列1603、阵列2 611、阵列3 609、阵列4 605和阵列5 607)和在收听者位置1003处的收听者的示例布置1000。此外，示出了阵列1 603与阵列4605之间的示例“长”边1001。此外，还存在与阵列1 603相关联的顶点法线1013和与阵列4相关联的顶点法线1015、以及沿着“长”边1001定位的示例插经值或加权的边缘法线1021、1023和1025。

进一步示出了经修改的布置1050，其中通过去除示例“长”边1001来修改示例布置1000。这产生非凸布置，并且收听者位置1003现在位于由麦克风阵列位置限定的区域之外。此外，沿着两个新的短边的新的非凸法线(未示出)、由阵列1 603和阵列5 607位置之间的线限定的第一“短”边以及由阵列5 607和阵列4 605位置之间的线限定的第二“短”边不指向外部。因此，如图10所示，原始丢弃的边缘法线1023被复制到新的外边缘上的所有麦克风(替换丢弃或删除的边)。在这种实施例中，收听者被投影到新的外边缘之一，并且指向外部的新向量像以前一样通过对在边周围的麦克风法线(其可以是复制的麦克风法线或原始麦克风法线)插值来确定。

此外，在一些实施例中，除了确定指向外部的经修改的外部向量之外，对于非凸边界，不同地处理将收听者投影到边或麦克风的过程。在省略边之后，如果收听者被垂直投影到在被省略的边下方的新边，则就像通常对阵列区域的凸外部所做的那样，将存在收听者被同时投影到两个边的位置，而不是优选行为的那个位置。为了避免这种情况，收听者总是被投影到新的边，并不垂直于它们，而是垂直于原始丢弃的边(参见图11)，从而投影到唯一的非凸边。

例如，这在图11中示出，其中示出了示例性“清晰的”布置1103，其具有麦克风阵列位置(被示为圆圈，阵列1 603、阵列2 611、阵列3 609、阵列4 605和阵列5 607)和在麦克风阵列区域之外的收听者位置1101处的收听者。在该示例中，示出了到由阵列1 603和阵列5607位置之间的线限定的第一“短”边的“有效”投影1123以及相对于由阵列5 607和阵列4605位置之间的线限定的第二“短”边的“无效”投影1121。

示出了具有相同麦克风阵列位置和在麦克风阵列区域之外的收听者位置1111处的收听者的示例“模糊”布置1113，其中存在两个“有效”投影，即，到由阵列1 603和阵列5607位置之间的线限定的第一“短”边的第一投影1133和相对于由阵列5 607和阵列4 605位置之间的线限定的第二“短”边的第二投影1131。

基于上述实施例，这可以通过实现从省略的边到将与新边之一相交的收听者的垂直投影来如示例布置1123所示地解决。换句话说，收听者被投影1141到不垂直于它们的新边，垂直于原始丢弃或删除的边，这导致投影到唯一的非凸边缘。

参照图12a至12c描述实施例的实际效果。

例如，图12a示出了收听者1209在由麦克风阵列(未示出)所跨越的区域1201之内，其中，声源(被示为区域内的声源1203、1205和在区域之外的声源1207)在正确的方向被再现。

图12b示出了收听者1219现在已经移动到由麦克风阵列(未示出)跨越的区域1201之外。常规的渲染方法是声源即由实心框标记的渲染的源1213、1215、1217已经随着收听者分别从原始源1203、1205、1207位置移动的方法。在该示例中，声源在错误的方向上被再现，并且收听者难以理解声源所在的位置。

例如，尽管当与源1203的方向相对于收听者1219位置相比时，渲染的源1213大致在相对于收听者1219位置的正确方向上，但是，相对于收听者1219位置，源1217位置的方向与源1207的方向大致相反。此外，尽管声源可以被渲染为定向较差，但它对导航没有帮助，甚至可能使导航变得更困难。

图12c示出了使用如上所述的实施例，收听者位置1219首先被投影1235到区域1201的边1231。然后，在区域之外的声源(声源1207)被映射到球形1233的表面上。然后，从收听者位置的角度，这些映射的源被渲染在这些方向上。此外，如上所述，在收听者位置附近的映射的声源的定向较差。在区域(1203、1205)之内的声源被渲染得较少修改(基于投影的位置)。结果，在该区域之内的声源被渲染为来自大致正确方向的点状声源，因此，它们可用于向该区域导航。在区域之外的声源被渲染在似乎合理的位置(即使不一定完全正确)，当收听者靠近它们时，其定向较差。因此，它们不会使收听者感到困惑，而是提供一些似乎合理的定位。

尽管图4中所示的示例装置被显示为在单个装置中实现，但是，捕获和处理/渲染部分可以在物理上分开或在不同的时间实现。例如，关于图13，示出了图4所示的实施例的变体。在该实施例中，两个示例之间的区别在于添加了编码器/多路复用器1305和解码器/解复用器1307。

编码器/多路复用器1305被配置为基于麦克风阵列信号400、用于每个阵列的元数据402和麦克风阵列位置404，接收多个信号集，并对音频信号应用合适的编码方案，例如，已在MPEG-H的上下文，即ISO/IEC 23008-3:2019信息技术—异构环境中的高效编码和媒体交付——第3部分：3D音频中描述的对Ambisonic信号进行编码的任何方法。在一些实施例中，编码器/多路复用器1305还可以缩混或以其他方式减少要被编码的音频声道的数量。此外，在一些实施例中，编码器/多路复用器1305可以量化和编码空间元数据402和阵列位置404信息，并将编码的结果与编码的音频信号一起嵌入比特流1399。比特流1399可以进一步在相同的媒体容器处被提供编码的视频信号。然后，编码器/多路复用器1305可以被配置为输出(例如传输或存储)比特流1399。

在一些实施例中，基于所采用的比特率，编码器/多路复用器1305可以被配置为省略一些信号集的编码，并且如果是这种情况，则也省略编码对应的阵列位置和元数据。

解码器/解复用器1307可以被配置为接收(或检索或以其他方式获得)比特流1399，并解码和解复用基于麦克风阵列1300的多个信号集(并将它们提供给用于投影的收听者位置的空间元数据和音频信号确定器407)、麦克风阵列位置1304(并将它们提供给收听者位置投影仪405和用于投影的收听者位置的空间元数据和音频信号确定器407)、以及用于每个阵列的元数据1302(并将它们提供给用于投影的收听者位置的空间元数据和音频信号确定器407)。

关于图14，示出了图13的编码器和解码器实施例(和图4的实施例)的示例应用。

在该示例中，存在三个麦克风阵列，其可以是例如具有足够数量(例如，30个或更多)麦克风的球形阵列，或者是在表面上安装了麦克风的VR相机(例如，来自诺基亚公司的OZO或类似产品)。因此，示出了麦克风阵列1 1401、麦克风阵列2 1411和麦克风阵列31421，它们被配置为将音频信号输出到计算机1 1405(在该示例中是FOA/HOA转换器1415)。

此外，每个阵列还配备有提供对应阵列的位置信息的***。因此，示出了麦克风阵列1***1403、麦克风阵列2***1413和麦克风阵列3***1423，它们被配置为将位置信息输出到计算机1 1405(在该示例中是编码器处理器1305)。

图14中的***进一步包括计算机即计算机1 1405，其包括被配置为将阵列信号转换为一阶Ambisonic(FOA)或高阶Ambisonic(HOA)信号的FOA/HOA转换器1415。将麦克风阵列信号转换为Ambisonic信号是已知的，并且在本文中没有详细描述，但是，如果阵列是例如Eigenmikes，则存在将麦克风信号转换为Ambisonic形式的可用部件。

FOA/HOA转换器1415以基于麦克风阵列信号400的多个信号集的形式将转换后的Ambisonic信号输出到编码器处理器1305，该编码器处理器1305可作为如上所述的编码器处理器操作。

麦克风阵列***1403、1413、1423被配置为通过合适的接口(例如通过蓝牙连接)将麦克风阵列位置信息提供给计算机1 1405中的编码器处理器。在一些实施例中，阵列***还提供旋转对准信息，该信息可以被提供以在计算机1 1405处旋转对准FOA/HOA信号。

在计算机1 1405处的编码器处理器1445被配置为如在图13(或图4)的上下文中所描述地处理基于麦克风阵列信号的多个信号集和麦克风阵列位置，并且提供经编码的比特流1399作为输出。换句话说，在一些实施例中，编码器处理器1445可以包括空间分析器(每个阵列)401和编码器/多路复用器1305。

比特流1399可以被存储和/或传输，然后，计算机2 1407的解码器处理器1447被配置为接收或从存储中获得比特流1399。解码器处理器1447还可以从用户在佩戴的HMD(头戴式显示器)1431的位置/方位***获得收听者位置和方位信息。因此，在一些实施例中，解码器处理器1447包括DEMUX/解码器1307和如图13所示的其他剩余块。

基于比特流1399以及收听者位置和方位信息1430，计算机2 1407的解码器处理器1447被配置为生成双耳空间化音频输出信号1432，并经由合适的音频接口提供它们以通过用户正佩戴的头戴式耳机1433再现。

在一些实施例中，计算机2 1407是与计算机1 1405相同的设备，然而，在典型情况下，它们是不同的设备或计算机。在该上下文中的计算机可以是指桌上型/膝上型计算机、处理云、游戏机、移动设备、或能够执行本发明公开中描述的处理的任何其他设备。

在一些实施例中，比特流1399是MPEG-I比特流。在一些其他实施例中，它可以是任何合适的比特流。

在一些实施例中，可以相对于所捕获的音频环境/或所捕获的音频场景来跟踪收听者位置。例如，收听者可附带***，它提供收听者的头部的位置和方位。然后，基于该位置和方位信息，可以向收听者渲染音频，以使得好像他/她会在所捕获的音频环境中移动一样。应该注意，收听者通常不在所捕获的音频环境中实际移动，而是在他/她物理所在的环境中移动。因此，移动可以只是相对移动，并且收听者运动可以被缩放(向上/向下)以根据场景表示在所捕获的环境内的运动。此外，应该注意，所捕获的音频环境也可以是虚拟的，而不是真实的环境。换句话说，并非反映物理空间，所捕获的音频环境是模拟的、生成的或增强的空间。此外，还应注意，收听者的移动可以是虚拟的。例如，收听者可以使用诸如键盘、鼠标的合适用户输入或使用任何合适的输入设备来指示移动。

关于图15，示出了可以用作计算机、编码器处理器、解码器处理器或本文描述的任何功能块的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1600是移动设备、用户设备、平板电脑、计算机、音频播放装置等。

在一些实施例中，设备1600包括至少一个处理器或中央处理单元1607。处理器1607可以被配置为执行各种程序代码，诸如本文所述的方法。

在一些实施例中，设备1600包括存储器1611。在一些实施例中，至少一个处理器1607被耦合到存储器1611。存储器1611可以是任何合适的存储装置。在一些实施例中，存储器1611包括用于存储可在处理器1607上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1611可以进一步包括用于存储数据的存储数据部分，例如根据本文所述的实施例已经处理或将要处理的数据。被存储在程序代码部分内的所实施的程序代码和在存储在存储数据部分内的数据可以在需要时经由存储器-处理器耦合由处理器1607检索。

在一些实施例中，设备1600包括用户接口1605。在一些实施例中，用户接口1605可以耦合到处理器1607。在一些实施例中，处理器1607可以控制用户接口1605的操作，并从用户接口1605接收输入。在一些实施例中，用户接口1605可以使用户能够例如经由小键盘向设备1600输入命令。在一些实施例中，用户接口1605可以使用户能够从设备1600获得信息。例如，用户接口1605可以包括被配置为向用户显示来自设备1600的信息的显示器。在一些实施例中，用户接口1605可以包括能够使信息被输入到设备1600并且进一步向设备1600的用户显示信息的触摸屏或触摸界面。

在一些实施例中，设备1600包括输入/输出端口1609。在一些实施例中，输入/输出端口1609包括收发器。在这种实施例中，收发器可以耦合到处理器1607，并且被配置为能够例如经由无线通信网络与其他装置或电子设备进行通信。在一些实施例中，收发器或任何合适的收发器或发射器和/或接收器装置可以被配置为经由有线或有线耦合与其他电子设备或装置通信。

收发器可以通过任何合适的已知通信协议与另外的装置通信。例如，在一些实施例中，收发器可以使用合适的通用移动电信***(UMTS)协议、无线局域网(WLAN)协议(诸如IEEE802.X)、合适的短距射频通信协议(诸如蓝牙)、或红外数据通信路径(IRDA)。

收发器输入/输出端口1609可以被配置为发送/接收音频信号、比特流，并且在一些实施例中，通过使用执行合适的代码的处理器1607来执行如上所述的操作和方法。

一般地，本发明的各种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可在硬件中实现，而其他方面可在可由控制器、微处理器或其他计算设备执行的固件或软件中实现，尽管本发明不限于此。尽管本发明的各种方面可被图示和描述为框图、流程图或使用某些其他图形表示，但是很好理解的是，本文所描述的这些框、装置、***、技术或方法可在(作为非限制性示例)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合中实现。

本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件、或者通过硬件、或者通过软件和硬件的组合来实现。进一步地，在这方面，应当注意，图中的逻辑流程的任何框可以表示程序步骤、或互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。软件可以被存储在诸如存储器芯片、或在处理器内实现的存储器块、磁介质和光学介质的物理介质上。

存储器可以是适合本地技术环境的任何类型，并且可以使用任何适当的数据存储技术(诸如基于半导体的存储器件、磁存储器件和***、光学存储器件和***、固定存储器和可移除存储器)来实现。数据处理器可以是适合本地技术环境的任何类型，并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一种或多种，作为非限制性示例。

本发明的实施例可以在诸如集成电路模块的各种元件中实践。集成电路的设计大体上是高度自动化的过程。复杂而强大的软件工具可用于将逻辑级别设计转换为准备好在半导体衬底上蚀刻和形成的半导体电路设计。

程序(例如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design提供的程序)使用完善的设计规则以及预存的设计模块库来自动在半导体芯片上布线导体并定位元件。一旦已经完成了半导体电路的设计，可以将标准化电子格式(例如，Opus、GDSII等)的最终设计发送到半导体制造设施或“fab”以进行制造。

前面的描述已经通过示例性和非限制性示例的方式提供了对本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求书阅读时，鉴于前面的描述，各种修改和改编对于相关领域的技术人员来说可变得显而易见。然而，本发明的教导的所有这些和类似的修改仍将落入如所附的权利要求所限定的本发明的范围内。

Claims

1.一种装置，包括：

至少一个处理器；以及

存储计算机程序代码的至少一个存储器；

所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

获得两个或更多个音频信号集，其中，所述两个或更多个音频信号集中的每一个音频信号集与相应的音频信号集位置相关联；

获得音频环境内的收听者位置，其中，所述音频环境包括一个或多个区域，所述一个或多个区域具有相对于所述相应的音频信号集位置的一个或多个内部区域和外部区域，其中，所述内部区域由所述相应的音频信号集位置限定；

对于所述两个或更多个音频信号集中的至少两个音频信号集，基于对所述两个或更多个音频信号集中的所述至少两个音频信号集的所述至少两个音频信号的处理，获得元数据；

针对在所述内部区域之外的音频环境内的所述收听者位置，确定第二收听者位置，所述第二收听者位置位于所述外部区域中并且更靠近所述一个或多个内部区域和外部区域的边界，或者位于所述边界上，或者位于所述一个或多个内部区域内；

基于所述元数据，确定用于所述第二收听者位置的经修改的元数据；

基于所述至少两个音频信号，确定用于所述第二收听者位置的至少两个经修改的音频信号；

基于用于所述第二收听者位置的所述经修改的元数据，确定用于所述收听者位置的空间元数据；以及

输出所述至少两个经修改的音频信号和所述空间元数据。

2.根据权利要求1所述的装置，其中，确定空间元数据使所述装置：

基于用于所述第二收听者位置的所述经修改的元数据，确定相对于所述第二收听者位置的至少一个音频位置，其中，用于所述第二收听者位置的所述经修改的元数据包括表示从所述第二收听者位置到所述至少一个音频位置中的一个音频位置的方向的方向参数；

基于相对于所述第二收听者位置的所述至少一个音频信号集位置，确定用于所述收听者位置的空间元数据，其中，所述空间元数据包括表示从所述收听者位置到所述至少一个音频位置中的所述一个音频位置的方向的空间方向参数。

3.根据权利要求1所述的装置，其中，获得两个或更多个音频信号集使所述装置：从麦克风布置获得所述两个或更多个音频信号集，其中，每个麦克风布置在相应的位置处，并且包括一个或多个麦克风。

4.根据权利要求1所述的装置，其中，获得收听者位置使所述装置：从另一装置获得所述收听者位置。

5.根据权利要求1所述的装置，其中，对于所述两个或更多个音频信号集中的所述至少两个音频信号集，获得元数据使所述装置：基于对所述至少两个音频信号的处理，确定定向参数。

6.根据权利要求1所述的装置，其中，确定第二收听者位置使所述装置：在以下中的一项的位置处确定所述第二收听者位置：

在至少部分由连接所述两个或更多个音频信号集位置中的所述两个音频信号集位置和所述收听者位置的边或表面限定的平面或体积内；

在相关联的内部区域内的至少部分由连接所述两个或更多个音频信号集位置中的所述两个音频信号集位置的边或表面限定的平面或体积内；

在由所述两个或更多个音频信号集位置中的所述两个音频信号集位置限定的边或表面上；以及

在所述两个或更多个音频信号集位置中的最接近的音频信号集位置处。

7.根据权利要求1所述的装置，其中，确定用于所述第二收听者位置的经修改的元数据使所述装置：

基于所述音频信号集位置和所述第二收听者位置，生成至少两个插值权重；

将所述至少两个插值权重应用于相应的音频信号集音频元数据，以生成经插值的音频元数据；以及

组合所述经插值的音频元数据，以生成用于所述第二收听者位置的所述经修改的元数据。

8.根据权利要求7所述的装置，其中，基于用于所述第二收听者位置的所述经修改的元数据确定用于所述收听者位置的空间元数据使所述装置：基于所述第二收听者位置，将所述经修改的元数据映射到笛卡尔坐标系。

9.根据权利要求1所述的装置，其中，确定用于所述第二收听者位置的至少两个经修改的音频信号使所述装置：从所述至少两个音频信号生成经插值的音频信号。

10.根据权利要求2所述的装置，其中，基于相对于所述第二收听者位置的所述至少一个音频位置确定用于所述收听者位置的空间元数据，其中，所述空间元数据包括表示从所述收听者位置到所述至少一个音频位置中的所述一个音频位置的方向的空间方向参数使所述装置基于以下中的一项确定所述空间方向参数：

相对于所述第二收听者位置的所述至少一个音频位置与所述收听者位置之间的插值差；以及

所述收听者位置与相对于所述第二收听者位置的所述至少一个音频位置之间的差。

11.根据权利要求10所述的装置，其中，基于用于所述第二收听者位置的所述经修改的元数据确定用于所述收听者位置的空间元数据使所述装置：基于相对于所述第二收听者位置的所述至少一个音频位置与所述收听者位置之间的所述差，修改至少一个直接与总能量比。

12.根据权利要求1所述的装置，进一步被使得：基于用于所述收听者位置的所述空间元数据，处理所述至少两个经修改的音频信号以生成空间音频输出。

13.根据权利要求12所述的装置，其中，生成空间音频输出使所述装置生成以下中的至少一项：

双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；

立体混合声音频输出，其包括用于头戴式耳机或多声道扬声器组的立体混合声渲染器的多个音频信号；以及

多声道音频输出，其包括用于多声道扬声器组的至少两个音频信号。

14.一种用于基于收听者位置生成空间化音频输出的装置的方法，所述方法包括：

输出所述至少两个经修改的音频信号和所述空间元数据。

15.根据权利要求14所述的方法，其中，基于用于所述第二收听者位置的所述经修改的元数据确定用于所述收听者位置的空间元数据包括：

基于用于所述第二收听者位置的所述经修改的元数据，确定相对于所述第二收听者位置的至少一个音频位置，其中，用于所述第二收听者位置的所述经修改的元数据包括表示从所述第二收听者位置到所述至少一个音频位置中的一个音频位置的方向的方向参数；以及

16.根据权利要求14所述的方法，其中，获得所述两个或更多个音频信号集包括：从麦克风布置获得所述两个或更多个音频信号集，其中，每个麦克风布置在相应的位置处，并且包括一个或更多个麦克风。

17.根据权利要求14所述的方法，其中，获得所述收听者位置包括：从另一装置获得所述收听者位置。

18.根据权利要求14所述的方法，其中，对于所述两个或更多个音频信号集中的所述至少两个音频信号集，获得所述元数据包括：基于对所述至少两个音频信号的处理，确定定向参数。

19.根据权利要求14所述的方法，其中，确定所述第二收听者位置包括：在以下中的一项的位置处确定所述第二收听者位置：

20.根据权利要求14所述的方法，其中，确定用于所述第二收听者位置的所述经修改的元数据包括：