CN115176486A

CN115176486A - 利用空间元数据内插的音频渲染

Info

Publication number: CN115176486A
Application number: CN202180016735.1A
Authority: CN
Inventors: J·维卡莫; M-V·莱蒂南; A·波利蒂斯
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2020-02-26
Filing date: 2021-02-03
Publication date: 2022-10-11
Also published as: WO2021170900A1; US20230079683A1; GB202002710D0; JP2023515968A; GB2592388A; EP4085652A1; EP4085652A4

Abstract

一种装置，包括被配置为执行以下操作的部件：获得两个或更多个音频信号集(500)，其中，每个音频信号集与位置(505)相关联；获得用于该音频信号集中的至少两个音频信号集的至少一个参数值(501)；获得至少与该音频信号集中的该至少两个音频信号集(502)相关联的位置；获得收听者位置(504)；基于至少与该音频信号集中的该至少两个音频信号集(502)相关联的位置(505，510)以及收听者位置(504)，基于来自该两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成(503)至少一个音频信号(512)；基于所获得的用于该音频信号集中的该至少两个音频信号集的至少一个参数值、与该音频信号集中的该至少两个音频信号集(502)相关联的位置以及收听者位置(504)，生成(507)至少一个经修改的参数值(514)；以及基于该至少一个经修改的参数值(514)，处理(509)该至少一个音频信号(512)以生成空间音频输出(518)。

Description

利用空间元数据内插的音频渲染

技术领域

本申请涉及用于利用空间元数据内插进行音频渲染的装置和方法，但非排他地涉及用于6自由度***的利用空间元数据内插进行音频渲染的装置和方法。

背景技术

空间音频捕获方法尝试捕获音频环境，以使得可以以有效方式感知地向收听者重新创建音频环境，此外还可以准许收听者在所重新创建的音频环境内移动和/或旋转。例如，在某些***(3自由度——3DoF)中，收听者可以旋转他们的头部，并且经渲染的音频信号反映此旋转运动。在某些***(3自由度加——3DoF+)中，收听者可以在环境内轻微地“移动”以及旋转他们的头部，而在其他***(6自由度——6DoF)中，收听者可以在环境内任意地移动并旋转他们的头部。

线性空间音频捕获是指其中处理不适于所捕获的音频的特征的音频捕获方法。相反，输出是所捕获的音频信号的预定线性组合。

为了在记录空间的一个位置处线性地记录空间声音，需要高端麦克风阵列。一种这样的麦克风是球形32-麦克风Egenmike。从高端麦克风阵列可以获得高阶全景环绕声(higher-order Ambisonics，HOA)信号并将其用于线性渲染。利用HOA信号，可以线性地渲染空间音频，从而在合理的听觉带宽内令人满意地将从不同方向到达的声音分开。

线性空间音频捕获技术的一个问题是对麦克风阵列的要求。短波长(更高频率的音频信号)需要小的麦克风间距，而长波长(更低频率)需要大的阵列尺寸，在单个麦克风阵列内很难同时满足这两个条件。

大多数实际的捕获设备(例如，虚拟现实相机、单反相机、移动电话)并没有配备诸如由Egenmike提供的麦克风阵列，并且没有足够的麦克风装置以进行线性空间音频捕获。此外，针对捕获设备实现线性空间音频捕获会导致仅针对单个位置而捕获空间音频。

参数化空间音频捕获涉及基于由麦克风捕获的音频信号来估计在感知上相关的参数，以及可以基于这些参数和音频信号来合成空间声音的***。分析和合成通常在可接近人类空间听觉分辨率的频带中发生。

已知对于大多数的紧凑型麦克风装置(例如，VR相机、多麦克风阵列、具有麦克风的移动电话、具有麦克风的SLR相机)，参数化空间音频捕获可以产生在感知上准确的空间音频渲染，而就声音的空间方面而言，线性方法通常不会产生可行的结果。对于诸如Egenmike之类的高端麦克风阵列，参数化方法还可以提供平均上比线性方法质量更好的空间声音感知。

发明内容

根据第一方面，提供了一种装置，其包括被配置为执行以下操作的部件：获得两个或更多个音频信号集，其中，每个音频信号集与位置相关联；获得用于该音频信号集中的至少两个音频信号集的至少一个参数值；获得至少与该音频信号集中的该至少两个音频信号集相关联的位置；获得收听者位置；基于至少与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自该两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于该音频信号集中的该至少两个音频信号集的至少一个参数值、与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，生成至少一个经修改的参数值；以及基于该至少一个经修改的参数值，处理该至少一个音频信号以生成空间音频输出。

被配置为获得两个或更多个音频信号集的部件可以被配置为：从麦克风装置获得两个或更多个音频信号集，其中，每个麦克风装置在相应的位置处并且包括一个或多个麦克风。

每个音频信号集可以与定向相关联，并且该部件可以进一步被配置为：获得两个或更多个音频信号集的定向，其中，所生成的至少一个音频信号可以进一步基于与该两个或更多个音频信号集相关联的定向，并且其中，至少一个经修改的参数值可以进一步基于与该两个或更多个音频信号集相关联的定向。

该部件可以进一步被配置为：获得收听者定向，其中，至少一个经修改的参数值可以进一步基于收听者定向。

被配置为基于至少一个经修改的参数值处理至少一个音频信号以生成空间音频输出的部件可以进一步被配置为：进一步基于收听者定向，处理至少一个音频信号。

该部件可以进一步被配置为：基于与音频信号集中的至少两个音频信号集相关联的位置以及收听者位置，获得控制参数，其中，可以基于该控制参数来控制被配置为基于与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的部件。

可以基于控制参数来控制被配置为生成至少一个经修改的参数值的部件。

被配置为获得控制参数的部件可以被配置为：识别音频信号集中的收听者位置位于其内的至少三个音频信号集，并基于音频信号集位置和收听者位置，生成与该音频信号集中的至少三个音频信号集相关联的权重；否则，识别该音频信号集中的最接近收听者位置的两个音频信号集，并基于该音频信号集位置以及收听者位置向该音频信号集中的这两个音频信号集之间的直线的垂直投影，生成与该音频信号集中的这两个音频信号集相关联的权重。

被配置为生成至少一个音频信号的部件可以被配置为执行以下中的一项：基于权重，组合来自两个或更多个音频信号集的两个或更多个音频信号；基于该两个或更多个音频信号集中的哪个音频信号集最接近收听者位置，从该两个或更多个音频信号集之一中选择一个或多个音频信号；以及基于该两个或更多个音频信号集中的哪个音频信号集最接近收听者位置以及进一步的切换阈值，从该两个或更多个音频信号集之一中选择一个或多个音频信号。

被配置为生成至少一个经修改的参数值的部件可以被配置为：基于权重，组合所获得的用于音频信号集中的至少两个音频信号集的至少一个参数值。

被配置为基于至少一个经修改的参数值处理至少一个音频信号以生成空间音频输出的部件可以被配置为生成以下中的至少一项：双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；以及多通道音频输出，其包括用于多通道扬声器组的至少两个音频信号。

至少一个参数值可以包括以下中的至少一项：至少一个方向值；与至少一个方向值相关联的至少一个直接对总比率(direct-to-total ratio)；与至少一个方向值相关联的至少一个扩展相干性(spread coherence)；与至少一个方向值相关联的至少一个距离；至少一个环绕相干性(surround coherence)；至少一个扩散对总比率(diffuse-to-totalratio)；以及至少一个剩余对总比率(remainder-to-total ratio)。

音频信号集中的至少两个音频信号集可以包括至少两个音频信号，并且被配置为获得至少一个参数值的部件可以被配置为：在空间上分析来自两个或更多个音频信号集的两个或更多个音频信号以确定至少一个参数值。

被配置为获得至少一个参数值的部件可以被配置为：接收或检索用于音频信号集中的至少两个音频信号集的至少一个参数值。

根据第二方面，提供了一种用于装置的方法，其包括：获得两个或更多个音频信号集，其中，每个音频信号集与位置相关联；获得用于该音频信号集中的至少两个音频信号集的至少一个参数值；获得至少与该音频信号集中的该至少两个音频信号集相关联的位置；获得收听者位置；基于至少与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自该两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于该音频信号集中的该至少两个音频信号集的至少一个参数值、与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，生成至少一个经修改的参数值；以及基于该至少一个经修改的参数值，处理该至少一个音频信号以生成空间音频输出。

获得两个或更多个音频信号集可以包括：从麦克风装置获得两个或更多个音频信号集，其中，每个麦克风装置可以在相应的位置处并且包括一个或多个麦克风。

每个音频信号集可以与定向相关联，并且该方法可以进一步包括：获得两个或更多个音频信号集的定向，其中，所生成的至少一个音频信号可以进一步基于与该两个或更多个音频信号集相关联的定向，并且其中，至少一个经修改的参数值可以进一步基于与该两个或更多个音频信号集相关联的定向。

该方法可以进一步包括：获得收听者定向，其中，至少一个经修改的参数值可以进一步基于收听者定向。

基于至少一个经修改的参数值处理至少一个音频信号以生成空间音频输出可以进一步包括：进一步基于收听者定向，处理至少一个音频信号。

该方法可以进一步包括：基于与音频信号集中的至少两个音频信号集相关联的位置以及收听者位置，获得控制参数，其中，可以基于该控制参数来控制以下操作：基于与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号。

可以基于控制参数来控制以下操作：生成至少一个经修改的参数值。

获得控制参数可以包括：识别音频信号集中的收听者位置位于其内的至少三个音频信号集，并基于音频信号集位置和收听者位置，生成与该音频信号集中的至少三个音频信号集相关联的权重；否则，识别该音频信号集中的最接近收听者位置的两个音频信号集，并基于该音频信号集位置以及收听者位置向该音频信号集中的这两个音频信号集之间的直线的垂直投影，生成与该音频信号集中的这两个音频信号集相关联的权重。

生成至少一个音频信号可以包括以下中的一项：基于权重，组合来自两个或更多个音频信号集的两个或更多个音频信号；基于该两个或更多个音频信号集中的哪个音频信号集最接近收听者位置，从该两个或更多个音频信号集之一中选择一个或多个音频信号；以及基于该两个或更多个音频信号集中的哪个音频信号集最接近收听者位置以及进一步的切换阈值，从该两个或更多个音频信号集之一中选择一个或多个音频信号。

生成至少一个经修改的参数值可以包括：基于权重，组合所获得的用于音频信号集中的至少两个音频信号集的至少一个参数值。

基于至少一个经修改的参数值处理至少一个音频信号以生成空间音频输出可以包括生成以下中的至少一项：双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；以及多通道音频输出，其包括用于多通道扬声器组的至少两个音频信号。

至少一个参数值可以包括以下中的至少一项：至少一个方向值；与至少一个方向值相关联的至少一个直接对总比率；与至少一个方向值相关联的至少一个扩展相干性；与至少一个方向值相关联的至少一个距离；至少一个环绕相干性；至少一个扩散对总比率；以及至少一个剩余对总比率。

音频信号集中的至少两个音频信号集可以包括至少两个音频信号，并且获得至少一个参数值可以包括：在空间上分析来自两个或更多个音频信号集的两个或更多个音频信号以确定至少一个参数值。

获得至少一个参数值可以包括：接收或检索用于音频信号集中的至少两个音频信号集的至少一个参数值。

根据第三方面，提供了一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少：获得两个或更多个音频信号集，其中，每个音频信号集与位置相关联；获得用于该音频信号集中的至少两个音频信号集的至少一个参数值；获得至少与该音频信号集中的该至少两个音频信号集相关联的位置；获得收听者位置；基于至少与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自该两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于该音频信号集中的该至少两个音频信号集的至少一个参数值、与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，生成至少一个经修改的参数值；以及基于该至少一个经修改的参数值，处理该至少一个音频信号以生成空间音频输出。

被使得获得两个或更多个音频信号集的该装置可以进一步被使得：从麦克风装置获得两个或更多个音频信号集，其中，每个麦克风装置在相应的位置处并且包括一个或多个麦克风。

每个音频信号集可以与定向相关联，并且该装置可以进一步被使得：获得两个或更多个音频信号集的定向，其中，所生成的至少一个音频信号可以进一步基于与该两个或更多个音频信号集相关联的定向，并且其中，至少一个经修改的参数值可以进一步基于与该两个或更多个音频信号集相关联的定向。

该装置可以进一步被使得：获得收听者定向，其中，至少一个经修改的参数值可以进一步基于收听者定向。

被使得基于至少一个经修改的参数值处理至少一个音频信号以生成空间音频输出的该装置可以进一步被使得：进一步基于收听者定向，处理至少一个音频信号。

该装置可以进一步被使得：基于与音频信号集中的至少两个音频信号集相关联的位置以及收听者位置，获得控制参数，其中，可以基于该控制参数来控制被使得基于与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的该装置。

可以基于控制参数来控制被使得生成至少一个经修改的参数值的该装置。

被使得获得控制参数的该装置可以进一步被使得：识别音频信号集中的收听者位置位于其内的至少三个音频信号集，并基于音频信号集位置和收听者位置，生成与该音频信号集中的至少三个音频信号集相关联的权重；否则，识别该音频信号集中的最接近收听者位置的两个音频信号集，并基于该音频信号集位置以及收听者位置向该音频信号集中的这两个音频信号集之间的直线的垂直投影，生成与该音频信号集中的这两个音频信号集相关联的权重。

被使得生成至少一个音频信号的该装置可以被使得执行以下中的一项：基于权重，组合来自两个或更多个音频信号集的两个或更多个音频信号；基于该两个或更多个音频信号集中的哪个音频信号集最接近收听者位置，从该两个或更多个音频信号集之一中选择一个或多个音频信号；以及基于该两个或更多个音频信号集中的哪个音频信号集最接近收听者位置以及进一步的切换阈值，从该两个或更多个音频信号集之一中选择一个或多个音频信号。

被使得生成至少一个经修改的参数值的该装置可以被使得：基于权重，组合所获得的用于音频信号集中的至少两个音频信号集的至少一个参数值。

被使得基于至少一个经修改的参数值处理至少一个音频信号以生成空间音频输出的该装置可以被使得生成以下中的至少一项：双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；以及多通道音频输出，其包括用于多通道扬声器组的至少两个音频信号。

被使得获得至少一个参数值的该装置可以被使得：接收或检索用于音频信号集中的至少两个音频信号集的至少一个参数值。

根据第四方面，提供了一种装置，其包括：用于获得两个或更多个音频信号集的部件，其中，每个音频信号集与位置相关联；用于获得用于该音频信号集中的至少两个音频信号集的至少一个参数值的部件；用于获得至少与该音频信号集中的该至少两个音频信号集相关联的位置的部件；用于获得收听者位置的部件；用于基于至少与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自该两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的部件；用于基于所获得的用于该音频信号集中的该至少两个音频信号集的至少一个参数值、与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，生成至少一个经修改的参数值的部件；以及用于基于该至少一个经修改的参数值，处理该至少一个音频信号以生成空间音频输出的部件。

根据第五方面，提供了一种包括指令的计算机程序[或者包括程序指令的计算机可读介质]，这些指令/程序指令用于使装置至少执行以下操作：获得两个或更多个音频信号集，其中，每个音频信号集与位置相关联；获得用于该音频信号集中的至少两个音频信号集的至少一个参数值；获得至少与该音频信号集中的该至少两个音频信号集相关联的位置；获得收听者位置；基于至少与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自该两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于该音频信号集中的该至少两个音频信号集的至少一个参数值、与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，生成至少一个经修改的参数值；以及基于该至少一个经修改的参数值，处理该至少一个音频信号以生成空间音频输出。

根据第六方面，提供了一种非暂时性计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：获得两个或更多个音频信号集，其中，每个音频信号集与位置相关联；获得用于该音频信号集中的至少两个音频信号集的至少一个参数值；获得至少与该音频信号集中的该至少两个音频信号集相关联的位置；获得收听者位置；基于至少与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自该两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于该音频信号集中的该至少两个音频信号集的至少一个参数值、与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，生成至少一个经修改的参数值；以及基于该至少一个经修改的参数值，处理该至少一个音频信号以生成空间音频输出。

根据第七方面，提供了一种装置，其包括：获得电路，被配置为获得两个或更多个音频信号集，其中，每个音频信号集与位置相关联；获得电路，被配置为获得用于该音频信号集中的至少两个音频信号集的至少一个参数值；获得电路，被配置为获得至少与该音频信号集中的该至少两个音频信号集相关联的位置；获得电路，被配置为获得收听者位置；生成电路，被配置为基于至少与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自该两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；生成电路，被配置为基于所获得的用于该音频信号集中的该至少两个音频信号集的至少一个参数值、与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，生成至少一个经修改的参数值；以及处理电路，被配置为基于该至少一个经修改的参数值，处理该至少一个音频信号以生成空间音频输出。

根据第八方面，提供了一种计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：获得两个或更多个音频信号集，其中，每个音频信号集与位置相关联；获得用于该音频信号集中的至少两个音频信号集的至少一个参数值；获得至少与该音频信号集中的该至少两个音频信号集相关联的位置；获得收听者位置；基于至少与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，基于来自该两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于该音频信号集中的该至少两个音频信号集的至少一个参数值、与该音频信号集中的该至少两个音频信号集相关联的位置以及收听者位置，生成至少一个经修改的参数值；以及基于该至少一个经修改的参数值，处理该至少一个音频信号以生成空间音频输出。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。

一种电子设备可以包括如本文所述的装置。

一种芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出适于实现一些实施例的装置***；

图2和图3示意性地示出表明距离误差对渲染的影响的装置***；

图4示出关于空间元数据的捕获和渲染的一些实施例的概述；

图5示意性地示出根据一些实施例的用于实现音频信号和元数据的内插的合适装置；

图6示出根据一些实施例的在图5中所示的装置的操作的流程图；

图7示意性地示出在阵列配置的内部和外部的源位置；

图8示意性地示出根据一些实施例的如图5中所示的合成处理器；

图9示出根据一些实施例的在图5中所示的合成处理器的操作的流程图；

图10示意性地示出根据一些实施例的用于实现音频信号和元数据的内插的合适装置；

图11示出根据一些实施例的在图5中所示的装置的操作的流程图；

图12示意性地示出根据一些实施例的用于实现音频信号和元数据的内插的合适装置的另一视图；以及

图13示意性地示出适于实现所示装置的示例设备。

具体实施方式

如本文中关于以下实施例进一步详细讨论的概念与利用对应于在记录空间的不同位置的两个或更多个麦克风阵列的参数化空间音频捕获以及使用户能够移动到在所捕获的声音场景的不同位置有关，换句话说，本发明涉及6DoF音频捕获和渲染。

6DoF目前在诸如VR游戏之类的虚拟现实中很常见，其中，在音频场景中的移动直接进行渲染，因为所有空间信息都是容易可得的(即，分别地，每个声源的位置以及每个声源的音频信号)。本发明涉及还提供对利用麦克风阵列捕获的空间音频的稳健的6DoF捕获和渲染。

例如对于即将发布的MPEG-I音频标准，从麦克风阵列进行的6DoF捕获和渲染是相关的，其中，需要对HOA信号的6DoF渲染。这些HOA信号可以从在声音场景的麦克风阵列获得。

在以下示例中，音频信号集由麦克风生成。例如，麦克风装置可以包括一个或多个麦克风，并针对音频信号集生成一个或多个音频信号。在一些实施例中，音频信号集包括音频信号，其是虚拟或所生成的音频信号(例如，具有相关联的虚拟扬声器位置的虚拟扬声器音频信号)。

在更详细地讨论该概念之前，我们将首先更详细地描述空间捕获和再现的一些方面。例如，关于图1，示出了空间捕获和播放的示例。因此，例如，图1在左侧示出了空间音频信号捕获环境。环境或音频场景包括源即源1 202和源2 204，它们可以是实际的音频信号源或者可以是抽象的音频源表示。此外，还示出了非定向或非特定位置环境部分206。这些可以由至少两个麦克风装置/阵列捕获，每个麦克风装置/阵列可以包括两个或更多个麦克风。

音频信号可以如上所述地被捕获，此外还可以被编码、发送、接收和再现，如图1中由箭头210所示。

在图1的右侧示出了示例再现。空间音频信号的再现导致用户250(其在该示例中被示出佩戴了头部跟踪耳机)被呈现有6DoF空间渲染218形式的再现音频环境，该再现音频环境包括感知源1 212、感知源2 214和感知环境216。

如上所讨论的，用于麦克风阵列的传统的线性和参数化空间音频捕获方法可以被用于高质量空间音频处理，这取决于可用的麦克风装置。然而，它们都是针对单个位置捕获和渲染而被开发的。换句话说，收听者不能在麦克风阵列之间移动。因此，它们不能直接适用于6DOF渲染，其中，收听者可以在麦克风阵列之间任意地移动。

如本文所讨论的实施例旨在提供宽带6DOF渲染方法。这些方法旨在改进已知的从麦克风阵列进行的参数化渲染。例如，它们旨在改进其中在频带中估计距离参数(除了方向参数之外)的方法，换句话说，其中，针对6DOF渲染来估计声音位置。该改进涉及声源距离或位置在所有声学情况下都无法可靠地估计的特性，并且其中，距离/位置估计的错误会在6DOF播放中生成显著误差。当收听者相对于捕获位置的移动很明显(例如，在任何方向上超过1米)时，这种效果会很明显。

关于图2和图3，示出了具有多个源的情形。例如，图2示出了理想的捕获情形。示出了捕获位置306，并且黑点301、303、305、307示出了针对各个时频图块(tile)的所估计的方向和距离。如附图中所示，当多个声源同时活动时，在参数化捕获时的方向参数未必指向任一声源，而是可以指向声源之间的某处。这对于参数化捕获***来说不是问题，因为已知这种感知/主导方向在感知意义上很好地近似声音情形。然而，作为图2的特别相关和理想的方面，距离也被很好地估计。因此，无论收听位置310如何，(感知/主导)方向在源方向(源1302与源2 304)之间的弧线308(由虚线示出)处被再现。

然而，图3示出了在其中距离估计有噪声的多源情形中的相同布置的另一示例，这是在这种多源情形中更现实的示例。此距离估计噪声导致假的估计位置321、323、325、327。如果声音在收听位置306处被渲染，则此距离估计不会导致显著的定向误差。然而，当声音在明显不同的收听位置310处被渲染时，则声音方向的渲染有很大空间误差。(感知/主导)方向在明显跨越源方向(源1 302和源2 304)之外的弧线318(由虚线示出)处被再现。因此，与图2中所示的“理想”弧线308(由虚线所示)相比，此示例中的空间再现“扩展”得更多。

由于在“完整”6DOF渲染中的收听者可以在用户在捕获位置306时任意地移动(并且不仅仅是靠近麦克风阵列位置)经渲染的音频的不正确估计距离的结果，声音方向被合适地渲染，因为假的距离不会影响经渲染的方向。在每个时频图块，感知/主导方向在由两个同时的源所确定的弧线处被渲染。然而，当用户移动到所图示的6DOF收听位置310时，假的距离估计的影响变得明显。在该位置处，被渲染的声音方向不在两个源之间。换句话说，结果是一个宽泛且模糊的空间渲染输出(与对源的准确且点状感知相反)，其中甚至可能偶尔在远离实际源方向处出现空间伪影。

因此，实施例试图从其中存在多个声源和/或收听者可以任意地移动的麦克风阵列提供合适的6DOF音频捕获和渲染。

虽然感知相关的参数可以是任何合适的参数，但本文讨论的以下示例获得以下参数集：

频带中的至少一个方向参数，其指示声音从哪里到达的主要(或主导或感知)方向，以及

比率参数，其指示有多少能量是从这些方向到达以及有多少声音能量是环境/环绕的。

如上所讨论的，存在不同的方法来获得这些参数。一种已知方法是定向音频编码(DirAC)，其中，基于一阶Ambisonic信号(或B格式信号)，在频带中估计方向和扩散度(diffuseness)(即，环境对总能量比率(ambient-to-total energy ratio))参数。在以下示例中，DirAC被用作参数生成的主要示例，尽管已知它可替换为其他方法以获得空间参数或空间元数据，诸如在PCT申请WO2018/091776中所讨论的高阶DirAC、高角度平面波扩展、以及Nokia的空间音频捕获(SPAC)。

所描述的实施例旨在针对具有清晰可识别源的情形以及要求更高的音频场景产生良好质量的位置跟踪的空间声音再现。例如，在室外环境中，经常存在许多同时活动的源。当存在多个源(源多于方向参数)时，方向参数不再是指向源的物理描述符，而是感知描述符。这意味着例如如果存在两个源，则方向参数通常根据时频间隔中的源能量而在两个源之间的区域中波动。由此导致距离估计可能失败的情况，如图3中所示。例如，可以使用方向参数或比率参数的波动来估计距离，因为房间混响和源距离会影响这些特性。然而，当这样做时，距离参数会人为地变大，因为某个波动或比率不是因为源距离(混响)而是因为同时的源。此外，如果视觉深度图被用于距离估计，则波动方向通常与实际源方向不对应，从而距离被错误地估计。距离也可以从两个阵列，并找到从这两个阵列朝向所估计的方向的投射光线的交点来估计。然而，由于复杂的声音场景所导致的波动方向提供了非常有噪声的交叉点，并因此提供了有噪声的距离估计。

换句话说，实施例旨在在复杂的音频场景产生低误差参数估计，因为这些参数估计误差倾向于导致在6DOF再现的声音处的空间误差。此外，在一些实施例中，提供了不依赖于距离估计的6DOF渲染，并因此对于复杂的情形也提供了更高的稳健性。实施例可以将空间元数据内插到实际捕获位置之间的位置。

因此，如本文所讨论的实施例可以涉及利用已知位置中的至少两个麦克风阵列捕获的音频的6自由度(即，收听者可以在场景内移动并且收听者位置被跟踪)双耳渲染。这些实施例还可以提供在宽范围的(6DOF跟踪的)收听位置和声场条件下的高质量的双耳音频渲染，尤其改进了其中多个源同时活动并且收听者不在阵列附近时的情况。实施例还可以针对阵列位置使用对应的麦克风阵列信号来确定空间元数据，针对收听者位置使用所确定的空间元数据来预测空间元数据(基于收听者和阵列位置)，确定阵列信号的选择或混合(基于收听者和阵列位置)，以及基于所预测的空间元数据和阵列信号的所确定的选择或混合，参数化地渲染空间音频输出。

在一些实施例中，该装置和方法可以进一步被配置为使得阵列信号的所确定的选择或混合是指来自最接近阵列的信号，并且当用户移动到与先前最接近阵列相比更接近(通过阈值)另一个阵列位置的位置时，阵列信号的选择或混合被改变，以使得基于来自另一个阵列的音频信号和所预测的空间元数据来渲染双耳音频信号。

在一些实施例中，阵列信号可以是指麦克风阵列信号，或者基于麦克风阵列信号的信号，诸如被转换为Ambisonic格式的阵列信号。

图4中示出了可以在其中实现实施例的示例***。例如，图4示出了其中具有音频分量即源1 400、源2 402和环境410的***。另外，在***内存在捕获装置401、404、403和405，其位于环境内的捕获位置处并且被配置为捕获音频信号并从这些音频信号中获得或确定空间元数据404。

该***进一步包括被配置为生成合适的双耳音频信号的收听者(用户)装置407。因此，在一些实施例中，装置407被配置为基于空间元数据和用户位置(相对于捕获位置)来确定在用户位置406处的渲染元数据。此外，装置407被配置为使用来自至少一个麦克风阵列(其可以是最接近的)408的渲染元数据和音频信号来执行双耳渲染。

因此，即使在多个同时的声源的情况下并且甚至对于收听位置并不靠近捕获装置麦克风阵列位置的情况，实施例也可以产生良好的音频质量。这些实施例省略了距离元数据(其被指示为在多个同时的源的情况下不可靠并且当在远离麦克风阵列位置的位置中渲染空间音频时导致定向错误)的使用。相反，实施例表明针对收听位置基于在麦克风位置处确定的方向(以及直接对总能量比率)的频带中的方向的直接预测。由于估计方向(以及直接对总能量比率)更为可靠，由一些实施例产生的定向误差被显著地减少并且产生更好的音频质量。

关于图5，示出了示例***。在一些实施例中，该***可以在单个装置上被实现。然而，在一些其他实施例中，本文所描述的功能可以在多于一个装置上被实现。

在一些实施例中，该***包括被配置为接收基于麦克风阵列信号500的多个信号集的输入端。基于麦克风阵列信号的多个信号集可以包括J个多通道信号集。信号可以是麦克风阵列信号本身，也可以是某种转换形式的阵列信号，诸如Ambisonic信号。这些信号被标示为s_j(m,i)，其中，j是信号源自其中的麦克风阵列的索引(即，信号集索引)，m是样本时间，i是信号集的通道索引。

多个信号集可以被传递给信号内插器503和空间分析器501。

在一些实施例中，该***包括空间分析器501。空间分析器501被配置为接收音频信号s_j(m,i)，并分析这些音频信号以针对每个阵列在时频域中确定空间元数据。

空间分析可以基于任何合适的技术，并且对于各种输入类型存在已知的合适方法。例如，如果输入信号是Ambisonic或Ambisonic相关的形式(例如，它们源自B格式麦克风)，或者阵列可以以合理的方式被转换为Ambisonic形式(例如，Eigenmike)，则可以执行定向音频编码(DirAC)分析。一阶DirAC已在Pulkki,Ville的“具有定向音频编码的空间声音再现(Spatial sound reproduction with directional audio coding)”(音频工程学会期刊，第55卷，第6期(2007年)：第503-516页)中进行了描述，其中，指定了一种用于从B格式信号(一阶Ambisonics的变体)估计包括频带中的方向和环境对总能量比率参数的空间元数据集的方法。

当更高阶Ambisonics可用时，Archontis Politis、Juha Vilkamo和Ville Pulkki的“球谐域中基于扇区的参数化声场再现(Sector-based parametric sound fieldreproduction in the spherical harmonic domain)”(IEEE信号处理选定主题期刊，第9卷，第5期(2015年)：第852-866页)提供了一种用于获得多个同时的方向参数的方法。可以在一些实施例中实现的进一步的方法包括如在PCT公布专利申请WO2018/091776中所描述的从诸如移动电话和平板电脑之类的平面设备估计空间元数据，以及用于非平面设备的类似的基于延迟的分析方法(GB公布专利申请GB2572368)。

换句话说，存在各种方法来获得空间元数据，并且所选择的方法可以取决于阵列类型和/或音频信号格式。在一些实施例中，一种方法被应用于一个频率范围，而另一种方法被应用于另一个频率范围。在以下示例中，分析是基于接收一阶Ambisonic(FOA)音频信号(其是空间音频领域中广为人知的信号格式)。此外，在这些示例中，使用了经修改的DirAC方法。例如，输入是已知的SN3D归一化(施密特半归一化(Schmidt semi-normalisation))和ACN(Ambisonics通道号)通道排序形式的Ambisonic音频信号。

在一些实施例中，空间分析器被配置为针对每个麦克风阵列执行以下操作：

1)首先，输入信号s_j(m,i)被转换为时频域格式信号。例如，可以使用短时傅里叶变换(STFT)或复调制正交镜像滤波器(QMF)组来实现该转换。作为示例，STFT是一个典型配置的过程，从而对于N个样本的帧长度，当前帧和前一帧(例如，利用正弦窗口)被窗口化并利用快速傅里叶变换(FFT)被处理。结果是被标示为S_j(b,n,i)的时频域信号，其中，b是频率仓(frequency bin)，n是时间帧索引。时频信号(在这种情况下是4-通道FOA信号)以向量形式通过下式被分组：

2)接下来，这些时频信号在频带中被使用。频率仓标示STFT域中的单个复杂样本，而频带标示这些仓的组。标示k＝1..K为频带索引，并且K是频带数量，每个频带k具有最低仓b_k,low和最高仓b_k,high。在一些实施例中，在频带中通过下式来估计信号协方差矩阵：

在一些实施例中，可以应用在时间索引n上的时间平滑。

3)进而，确定指向传播声音的相反方向的反向声场强度向量：

注意通道顺序，它将ACN顺序转换为笛卡尔x、y、z顺序。

4)进而，针对频带k和时间索引n的方向参数被确定为i_j(k,n)的方向。该方向参数例如可以被表达为方位角θ_j(k,n)和仰角

5)进而，直接对总能量比率被制定为：

针对每个频带k，针对每个时间索引n，并针对每个信号集(每个阵列)j，制定了方位角θ_j(k,n)、仰角

以及直接对总能量比率r_j(k,n)。因此，此信息构成从空间分析器输出到元数据内插器507的针对每个阵列506的元数据。

在一些实施例中，该***还包括位置预处理器505。位置预处理器505被配置为接收关于音频环境内的麦克风阵列位置502和收听者位置504的信息。

如现有技术中已知的，参数化空间音频捕获和渲染的关键目标是为收听者获得在感知上准确的空间音频再现。因此，位置预处理器505被配置为能够针对任何位置(因为收听者可移动到任意位置)确定内插数据以允许基于麦克风阵列位置502和收听者位置504来修改元数据。

在本文的示例中，麦克风阵列位于一个平面上。换句话说，这些阵列没有z轴位移分量。然而，在一些实施例中可以将实施例扩展到z轴，以及扩展到麦克风阵列位于一条线上的情形(换句话说，只有一个轴位移)。

例如，图7示出了其中麦克风阵列(被示为圆形阵列1 701、阵列2 703、阵列3 705、阵列4 707和阵列5 709)位于一个平面上的麦克风装置。空间元数据已在阵列位置处被确定。该装置具有在一个平面上的五个麦克风阵列。例如，可以通过德劳内三角剖分(Delaunay triangulation)将该平面划分成内插三角形。当用户移动到三角形内位置时(例如，位置1 711)，形成包含该位置的三角形的三个麦克风阵列(在此示例情形中是阵列1701、阵列3 705和阵列4 707)被选择以用于内插。当用户在这些麦克风阵列所跨越的区域之外(例如，位置2 713)移动时，用户位置被投影到在这些麦克风阵列所跨越的区域处的最接近位置(例如，投影位置2 714)，进而阵列-三角形被选择以用于投影位置所在处的内插(在此示例中，这些阵列是阵列2 703、阵列3 705和阵列5 709)。当位置被投影时，投影位置覆盖原始收听者位置参数。

在以上示例中，位置的投影因此将由麦克风装置所确定的区域之外的位置映射到由这些麦克风装置所确定的区域的边缘。虽然这可能看起来是一种限制，但实际上，当考虑6DOF媒体捕获和再现时，音频会伴随有从使能6DOF视频再现的VR相机组获得的视频。预计VR相机所跨越的区域(由于还需要制作视频)也限制了用户可以在场景中移动的区域，并且进一步预计每个VR相机还包括麦克风装置。因此，最重要的内插区域是在麦克风阵列所跨越的区域内。因此，该投影说明本方法在所确定的区域之外不会完全失败。最接近投影位置是在麦克风装置所跨越的区域稍外的位置处的声场特性的合理近似。

因此，位置预处理器505可以确定：

收听者位置向量p_L(在此示例中是2×1向量，包含x和y坐标)，其可以是原始位置或投影位置；

三个麦克风装置索引j₁、j₂、j₃和对应的位置向量

这三个麦克风装置是封装位置p_L的那些麦克风装置。

位置预处理器505还可以进一步制定内插权重w₁、w₂、w₃。这些权重可以例如使用以下重心坐标与笛卡尔坐标之间的已知转换来表示。首先，基于位置向量

通过将每个向量附加有单位值(unity value)并将所得到的向量组合到矩阵中来确定3x3矩阵：

进而，使用矩阵逆和通过将收听者位置向量p_L附加有单位值而获得的3x1向量来表示权重：

内插权重(w₁、w₂和w₃)、位置向量(p_L、

和

)、以及麦克风装置索引(j₁、j₂和j₃)一起构成内插数据508和510，内插数据508和510被提供给信号内插器503和元数据内插器507。

在一些实施例中，该***包括元数据内插器507，元数据内插器507被配置为针对每个阵列506接收内插数据508和元数据。元数据内插器进而被配置为使用内插权重w₁、w₂、w₃来对元数据进行内插。在一些实施例中，这可以通过首先将空间元数据转换为向量形式来实现：

进而，这些向量通过下式被平均：

进而，标示：

v(k,n)＝[v₁(k,n) v₂(k,n) v₃(k,n)]^T

通过下式获得经内插的元数据：

θ′(k,n)＝atan2(v₂(k,n),v₁(k,n))

进而，经内插的元数据514被输出到合成处理器509。

在上文中，提出了一个元数据内插示例。在其他实施例中也可以设计并实现其他内插规则。例如，内***率参数也可以被确定为输入比率的加权平均值(根据w₁、w₂、w₃)。此外，在一些实施例中，平均还可以涉及根据阵列信号的能量进行加权。

在一些实施例中，该***进一步包括信号内插器503。信号内插器被配置为接收输入音频信号500和内插数据510。在一些实施例中，信号内插器503可以首先以与空间分析器501中相同的方式将输入信号转换成时频域中的信号。在一些实施例中，信号内插器503被配置为直接从空间分析器501接收时频音频信号。

进而，信号内插器503可以被配置为针对每个信号并针对每个频带确定总能量。在本文所示的示例中，信号采用FOA信号的形式，并因此总能量可以被确定为E_j(k,n)＝c_1,1,j(k,n)。此值可以以与空间分析器501中相同的方式被制定(或从空间分析器501获得)。

进而，信号内插器503可以被配置为针对索引j₁、j₂、j₃确定距离值

并且具有最小距离的索引被标示为j_minD。

进而，信号内插器503被配置为确定所选择的索引j_sel。对于第一帧(或者，当处理开始时)，信号内插器可以设置j_sel＝j_minD。

对于下一帧或后续帧(或者任何期望的时间分辨率)，当用户位置可能已发生变化时，信号内插器被配置为决定选择j_sel是否需要改变。如果j_sel没有被j₁、j₂、j₃包含，则需要进行改变。这种情况意味着用户已经移动到另一个不包含j_sel的区域。如果

则也需要改变，其中，α是阈值。例如，α＝1.2。这种情况意味着与j_sel的阵列位置相比，用户已明显更接近j_minD的阵列位置。需要该阈值，从而当用户位于这两个位置的中间时选择不会来回不规则地变化(换句话说，提供滞后阈值以防止在阵列之间的快速切换)。

如果上述任一条件被满足，则j_sel＝j_minD。否则，保留j_sel的先前值。

中间内插信号被确定为：

利用这种处理，当j_sel发生变化时，随之而来的是选择针对所有频带同时改变。在一些实施例中，选择被设置为以频率相关的方式进行改变。例如，当j_sel发生变化时，一些频带会立即被更新，而一些其他频带会在接下来的帧被改变，直到所有频带都被改变为止。可需要以这种频率相关的方式改变信号，以减少在信号S′_interp(b,n,i)处的潜在切换伪影。在这种配置中，当切换发生时，可能在很短的转变时间段内，信号S′_interp(b,n,i)的某些频率来自一个麦克风阵列，而其他频率来自另一个麦克风阵列。

进而，对中间内插信号S′_interp(b,n,i)进行能量校正。均衡增益在频带中被制定为：

g_max值限制了过度放大，例如，g_max＝4。进而，通过乘法来执行均衡：

S(b,n,i)＝g(k,n)S′_interp(b,n,i)

其中，k是仓b所在处的频带索引。信号S(b,n,i)则是被输出到合成处理器的内插信号512。

该***还包括合成处理器509。合成处理器可以被配置为接收收听者定向信息516(例如，头部定向跟踪信息)以及内插信号512和内插元数据514。

在一些实施例中，合成处理器被配置为确定要在以下公式中使用的向量旋转函数。根据Laitinen,M.V.的“用于定向音频编码的双耳再现(Binaural reproduction fordirectional audio coding)”(赫尔辛基理工大学硕士论文，第54-55页，2008年)中的原则，可以将旋转函数定义为：

其中，偏航、俯仰和翻滚是头部定向参数，x、y、z是正被旋转的单位向量的值。结果是x'、y'、z'，其是经旋转的单位向量。映射函数执行以下步骤：

1.偏航旋转

x₁＝cos(yaw)x+sin(yaw)y

y₁＝-sin(yaw)x+cos(yaw)y

z₁＝z

2.俯仰旋转

y₂＝y₁

3.最后，翻滚旋转

x′＝x₂

在已确定这些参数后，合成处理器509可以实现任何合适的空间渲染。例如，在一些实施例中，合成处理器509可以例如根据PCT公布WO2019086757中所描述的原理来实现3DOF渲染。在这种实施例中，可以实现将参数化音频信号(音频和空间元数据)渲染为双耳、Ambisonic、或环绕扬声器形式518。

关于图6，示出了图示图5的操作的流程图。

因此，如图6中步骤601所示，在一些实施例中，可以获得基于麦克风阵列信号的多个信号集。

如图6中步骤603所示，在已获得多个信号集后，可以对每个阵列进行空间分析。

如图6中步骤602所示，还可以获得麦克风阵列位置。

此外，如图6中步骤610所示，可以获得收听者位置/定向。

如图6中步骤604所示，在已获得麦克风阵列位置和收听者定向/位置后，该方法可以通过处理相对位置来获得内插因子。

在已通过处理相对位置和信号/元数据而获得内插因子后，该方法可以如图6中步骤606所示地对信号进行内插，并如图6中步骤605所示地对元数据进行内插。

如图6中步骤611所示，在已确定经内插的元数据和信号以及收听者定向/位置后，该方法可以应用合成处理。

如图6中的步骤613所示，输出空间化音频。

合成处理器509在图8中被更详细地示出。

在一些实施例中，合成处理器509包括原型信号生成器801。在一些实施例中，原型信号生成器801被配置为接收内插信号512(其在时频域中被接收)以及头部(用户/收听者)定向信息516。

原型信号是至少部分类似于经处理的输出的信号，并因此其可以充当执行参数化渲染的良好起点。在所示的示例中，输出是双耳信号，并因此原型信号被设计以使得它具有两个通道(左和右)并且根据用户的头部定向在空间音频场景中被定向。双通道(i＝1,2)原型信号可以例如通过下式被制定：

其中，

是根据头部定向信息的混合权重。例如，原型信号可以是从经内插的FOA信号生成的两个心形图案信号，一个指向左方向(相对于用户的头部定向)，一个指向右方向。当p_1,1＝p_2,1＝0.5并且如下(假定WYZX通道顺序)时获得这种模式：

p_1,2＝0.5[cos(yaw)cos(roll)+sin(yaw)sin(pitch)sin(roll)]

p_1,3＝-0.5cos(pitch)sin(oll)

p_1,4＝0.5[cos(yaw)sin(pitch)sin(roll)-sin(yaw)cos(roll)]

以及

心形原型信号的上述示例仅仅是一个示例。在其他示例中，原型信号对于不同的频率可以不同，例如，在更低频率时，与心形相比空间图案的方向性可能更少，而在更高频率时，形状可以是心形的。这种选择是有动机的，因为它比宽带心形模式更类似于双耳信号。然而，应用哪个图案设计并不是很关键，只要一般趋势是针对原型信号获得一些左右差分即可。这是因为下面所描述的参数化处理步骤无论如何都会校正通道间特征。

进而，原型信号可以以向量形式被表示为：

进而，原型信号可以被输出到协方差矩阵估计器803和混合器809。

在一些实施例中，合成处理器509被配置为在频带中估计时频原型信号的协方差矩阵及其总能量估计。如前所述，协方差矩阵可以被估计为：

协方差矩阵的估计可以涉及时间平均，诸如在若干时间索引n上的IIR平均或FIR平均。协方差矩阵估计器803还可以被配置为制定总能量估计E(k,n)，即，C_x(k,n)的对角线值之和。在一些实施例中，代替从原型信号估计总能量，而是可以基于经内插的信号512来估计总能量估计。例如，总能量估计已经在图5中所示的信号内插器中被确定并且可以从那里获得。

总能量估计806可以作为输出被提供给目标协方差矩阵确定器805。所估计的协方差矩阵可以被输出到混合规则确定器807。

合成处理器509可以进一步包括目标协方差矩阵确定器805。目标协方差矩阵确定器805被配置为接收经内插的空间元数据514和总能量估计E(k,n)806。在此示例中，空间元数据包括方位角θ′(k,n)、仰角

以及直接对总能量比率r′(k,n)。在一些实施例中，目标协方差矩阵确定器805还接收头部定向(偏航、俯仰、翻滚)信息516。

在一些实施例中，目标协方差矩阵确定器被配置为根据头部定向通过下式来旋转空间元数据：

进而，经旋转的方向是：

θ″(k,n)＝atan2(v′₂(k,n),v′₁(k,n))

目标协方差矩阵确定器805还可以使用预先存在于合成处理器处的HRTF(头部相关传递函数)数据集。假定从该HRTF集中可以针对任何角度θ,

和频带k获得2x1复值头部相关传递函数(HRTF)

例如，HRTF数据可以是已被预变换到频域的密集HRTF集，从而可以在频带k的中间频率处获得HRTF。进而，在渲染时，可以选择相对于期望方向最接近的HRTF对。在一些实施例中，可以执行两个或更多个最接近数据点之间的内插。文献中已经描述了各种用于内插HRTF的手段。

在HRTF数据集，还已经针对每个频带k制定了扩散场协方差矩阵。例如，通过采用一组均匀分布的方向θ_d,

(其中，d＝1..D)并通过将扩散场协方差矩阵估计为：

可以获得扩散场协方差矩阵。

进而，目标协方差矩阵确定器805可以通过下式来制定目标协方差矩阵：

进而，目标协方差矩阵C_y(k,n)被输出到混合规则确定器807。

在一些实施例中，合成处理器509进一步包括混合规则确定器807。混合规则确定器807被配置为接收目标协方差矩阵C_y(k,n)和经度量的协方差矩阵C_x(k,n)，并生成混合矩阵M(k,n)。混合过程可以使用Vilkamo,J.、

T.和Kuntz,A.的“用于空间音频的时频处理的优化协方差域框架(Optimized covariance domain framework for time–frequency processing of spatial audio)”(音频工程学会期刊，第61卷，第6期，第403-411页，2013年)中所描述的方法来生成混合矩阵。

在上述参考文献的附录中提供的公式可以被用于制定混合矩阵M(k,n)。在本发明公布中，为了清楚起见，我们对矩阵使用相同的标记。在一些实施例中，混合规则确定器807还被配置为确定指导混合矩阵812的生成的原型矩阵：

这些矩阵的基本原理以及用于基于这些矩阵而获得混合矩阵M(k,n)的公式在上面所引用的参考文献中进行了详细描述，在此不再赘述。简而言之，该方法提供了混合矩阵M(k,n)，以使得当被应用于具有协方差矩阵C_x(k,n)的信号时，以最小二乘优化的方式产生具有与C_y(k,n)基本相同或相似的协方差矩阵的信号。在这些实施例中，原型矩阵Q是单位矩阵，因为原型信号的生成已经由原型信号生成器801实现。具有单位原型矩阵意味着处理旨在产生与输入(即，相对于原型信号)尽可能相似的输出，同时获得目标协方差矩阵C_y(k,n)。混合矩阵M(k,n)812针对每个频带k被定制并被提供给混合器。

在一些实施例中，合成处理器509包括混合器809。混合器809被配置为接收时频原型音频信号802和混合矩阵812。混合器809处理输入原型信号802以生成两个经处理的(双耳)时频信号814。

其中，仓b位于频带k中。

上述过程假定输入信号x(b,n)在它们之间具有合适的不相干性，以渲染具有期望的目标协方差矩阵特性的输出信号y(b,n)。在某些情况下，输入信号可能不具有合适的通道间不相干性。在这些情况下，需要使用去相关操作以基于x(b,n)生成去相关信号，并将这些去相关信号混合成特定的残差信号，其被添加到上述方程式中的信号y(b,n)中。获得这种残差信号的过程已在先前引用的参考文献中进行了解释。

进而，混合器809被配置为输出经处理的双耳时频信号y(b,n)814，其被提供给逆T/F变换器811。

在一些实施例中，合成处理器509包括逆T/F变换器811，逆T/F变换器811向经处理的双耳时频信号814应用与所应用的时频变换对应的逆时频变换(诸如在信号是在STFT域中的情况下的逆STFT)以生成空间化音频输出518，空间化音频输出518可以是可通过耳机再现的双耳形式。

图8中所示的合成处理器的操作相对于图9的流程图被示出。

因此，如图9中步骤901所示，该方法包括获得经内插的(时频)信号。

此外，如图9中步骤902所示，获得收听者头部定向。

进而，如图9中步骤903所示，基于经内插的(时频)信号和头部定向，生成原型信号。

另外，如图9中步骤905所示，基于原型信号，生成协方差矩阵。

此外，如图9中步骤906所示，可以获得经内插的元数据。

如图9中步骤907所示，基于经内插的元数据和协方差矩阵，确定目标协方差矩阵。

进而，如图9中步骤909所示，可以确定混合规则。

如图9中步骤911所示，基于混合规则和原型信号，可以生成混合以生成空间化音频信号。

进而，如图9中步骤913所示，可以输出空间化音频信号。

图10中示出了一些进一步的实施例。在这些实施例中，***与图5中一样，不同之处在于该***在两个单独的装置中被实现，编码器处理器1040和解码器处理器1060以及附加的编码器/MUX 1001和DEMUX/解码器1009。

在这些实施例中，编码器处理器1040被配置为接收多个信号集500和麦克风阵列位置502作为输入。编码器处理器1040还包括被配置为接收多个信号集500并输出针对每个阵列的元数据506的空间分析器501。编码器处理器1040还包括编码器/MUX 1001，编码器/MUX 1001被配置为接收多个信号集500、针对每个阵列的元数据506(来自空间分析器501)、以及麦克风阵列位置502。编码器/MUX 1001被配置为对音频信号应用合适的编码方案，例如，用于对已在MPEG-H的上下文中描述的Ambisonic信号进行编码的任何方法。编码器/MUX1001块还可以下混合或以其他方式减少要被编码的音频通道数量。此外，编码器/MUX 1001可以对空间元数据和阵列位置信息进行量化和编码，并将编码结果与编码音频信号一起嵌入比特流1006中。比特流1006可以进一步在相同的媒体容器处提供有经编码的视频信号。进而，编码器/MUX 1001输出比特流1006。取决于所采用的比特率，编码器可已省略一些信号集的编码，如果是这种情况，那么它可已省略了编码对应的阵列位置和元数据(然而，也可以保留它们以便将它们用于元数据内插)。

解码器处理器1060包括DEMUX/解码器1009。DEMUX/解码器1009被配置为接收比特流1006，以及解码并解复用基于麦克风阵列500'的多个信号集(并将它们提供给信号内插器503)、麦克风阵列位置502'(并将它们提供给位置预处理器505)、以及针对每个阵列的元数据506'(并将它们提供给元数据内插器507)。

解码器处理器1060还包括信号内插器503、位置预处理器505、元数据内插器507、以及合成处理器509，如关于图5和图8进一步详细讨论的。

在上述示例中，与阵列位置相关的信息从编码器处理器1040经由比特流1006被传送到解码器处理器1060，但在一些实施例中，这可能不是必需的，因为***可以被配置为使得位置预处理器505在编码器处理器1040内实现。在这种示例中，编码器处理器被配置为在预定义的预期用户位置的合适网格处(例如，以10cm的空间分辨率)生成必需的内插数据。该内插数据可以使用合适的方式进行编码，并以比特流的形式被提供给解码器(以进行解码)。进而，此内插数据将会在解码器处理器1060处被用作基于用户位置的通过选择与用户位置对应的最接近现有数据集的查找表。

关于图11，示出了如图10中所示的***的操作的流程图。

如图11中步骤1101所示，该方法可以从基于麦克风阵列信号获得多个信号集开始。

进而，如图11中步骤1103所示，该方法可以包括对这些信号集进行空间分析以生成空间元数据。

进而，如图11中步骤1105所示，元数据、信号和其他信息可以被编码和复用。

进而，如图11中步骤1107所示，经编码和复用的信号和信息可以被解码和解复用。

如图11中步骤1109所示，在已获得麦克风阵列位置和收听者定向/位置后，该方法可以通过处理相对位置来获得内插因子。

在已通过处理相对位置和信号/元数据而获得内插因子后，该方法可以如图11中步骤1111所示地对信号进行内插，并如图11中步骤1113所示地对元数据进行内插。

如图11中步骤1115所示，在已确定经内插的元数据和信号以及收听者定向/位置后，该方法可以应用合成处理。

如图11中步骤1117所示，输出空间化音频。

关于图12，示出了图10的编码器和解码器处理器的示例应用。

在此示例中，存在三个麦克风阵列，其例如可以是具有足够数量的麦克风(例如，30个或更多)的球形阵列，或者是其表面上安装有麦克风的VR相机(例如，OZO等)。因此，示出了麦克风阵列1 1201、麦克风阵列2 1211和麦克风阵列3 1221，它们被配置为将音频信号输出到计算机11205(并且在此示例中，输出到FOA/HOA转换器1215)。

此外，每个阵列还配备有提供对应阵列的位置信息的***。因此，示出了麦克风阵列1***1203、麦克风阵列2***1213和麦克风阵列3***1223，它们被配置为将位置信息输出到计算机1 1205(并且在此示例中，输出到编码器处理器1040)。

图12中的***进一步包括计算机即计算机1 1205，其包括FOA/HOA转换器1215，FOA/HOA转换器1215被配置为将阵列信号转换为一阶Ambisonic(FOA)或更高阶的Ambisonic(HOA)信号。将麦克风阵列信号转换为Ambisonic信号是已知的并且没有在本文中详细描述，但如果阵列例如是Egenmikes，那么存在用于将麦克风信号转换为Ambisonic形式的可用手段。

FOA/HOA转换器1215将采用基于麦克风阵列信号1216的多个信号集的形式的经转换的Ambisonic信号输出到编码器处理器1040，其可以操作为如上所述的编码器处理器1040。

麦克风阵列***1203、1213、1223被配置为通过合适的接口(例如，通过蓝牙连接)将麦克风阵列位置信息提供给计算机1 1205中的编码器处理器。在一些实施例中，阵列***还提供旋转对齐信息，可以提供该旋转对齐信息以在计算机1 1205处旋转对齐FOA/HOA信号。

在计算机1 1205处的编码器处理器1040被配置为如在图10的上下文中所描述地处理基于麦克风阵列信号的多个信号集和麦克风阵列位置，并提供编码比特流1006作为输出。

可以存储和/或发送比特流1006，进而计算机2 1207的解码器处理器1060被配置为从存储设备接收或获得比特流1006。解码器处理器1060还可以从用户正佩戴的HMD(头戴式显示器)1231的位置/定向***获得收听者位置和定向信息。基于比特流1006以及收听者位置和定向信息1230，计算机2 1207的解码器处理器被配置为生成双耳空间化音频输出信号1232，并经由合适的音频接口提供它们以通过用户正佩戴的耳机1233进行再现。

在一些实施例中，计算机2 1207是与计算机1 1205相同的设备，然而，在典型情况下，它们是不同的设备或计算机。在此上下文中的计算机可以是指台式/膝上型计算机、处理云、游戏控制器、移动设备、或者能够执行本发明公开中所描述的处理的任何其他设备。

在一些实施例中，比特流1006是MPEG-I比特流。在一些其他实施例中，它可以是任何合适的比特流。

在上述实施例中，定向音频编码的空间参数化分析可以由自适应波束成形方法代替。自适应波束成形方法例如可以是基于Archontis Politis、Sakari Tervo和VillePulkki的“COMPASS：Ambisonic声音场景的编码和多向参数化(COMPASS:Coding andMultidirectional Parameterization of Ambisonic Sound Scenes)”(IEEE声学、语音和信号处理国际会议(ICASSP)，2018年)中所概述的COMPASS方法。

在这种实施例中，空间协方差矩阵CHOA_,j(k,n)可以如先前所定义地从Ambisonic信号计算，但如果可用，则包括高阶Ambisonic(HOA)通道。例如，信号可以被表示为：

其中，N是Ambisonic阶数。在一些实施例中，空间协方差矩阵可以通过特征值分解来进行分解：

CHOA_,j(k,n)＝E(k,n)V(k,n)EH(k,n)

其中，E(k,n)包含特征向量，V(k,n)包含特征值。进而，可以基于对在V(k,n)的对角线中包含的有序特征值的统计分析来执行扩散或非扩散条件确定。

如果检测到非扩散条件，则还基于对有序特征值的分布的统计分析来估计主要源数量S′。对于稳健的估计，源数量由下式界定：

S＝min(S^′,(N+1)²/2)

在估计源数量之后，确定它们的近似到达方向(DOA)。对于在球体上在M＝1000～5000角度范围上均匀排列的m＝1,…,M个方向(θ_m,φ_m)的密集预计算网格，空间功率谱可以被计算为：

其中，y_N是高达N阶的球谐值向量并且具有针对所应用的Ambisonic约定的适合排序和归一化。进而，所估计的DOA对应于具有S个最高峰的网格方向。

在一些其他实施例中，DOA估计可以采用更高分辨率子空间方法(尤其是在低Ambisonic阶下)，以克服宽低阶波束区分近角度的源的限制。例如，可以使用MUSIC，其中，空间谱被计算为：

其中，E_noise(k,n)从E(k,n)的最后(N+1)²-S个有序特征向量形成。在对所有网格点执行MUSIC之后，类似地，通过对S个最高峰的峰查找而找到DOA。

在已确定s＝1,..,S的DOA(θ_s,φ_s)之后，每源(per-source)的直接对总(DTR)能量比率可以被确定为：

进而，可以选择具有最高DTR的源作为主导源，并且将相应的参数r_j,s(k,n)、θ_s(k,n)、φ_s(k,n)传递给元数据内插器，与上述DirAC分析类似。

在一些进一步的实施例中，代替选择单个主导DOA和DTR，而是将一些或所有所检测的DOA和DTR传递给元数据内插器。换句话说，在一些实施例中，针对每个时频图块，存在多个同时的方向和比率。

因此，虽然前述实施例对在一些实施例中针对每个时间频率间隔估计一个同时方向估计进行了讨论，但可以估计或以其他方式确定针对每个时间频率图块的多个方向。

例如，本文所描述的元数据内插原理还可以被扩展以用于两个或更多个同时方向估计(在每个时频间隔处)和对应的两个或更多个直接对总能量比率。在这种情况下，经内插的元数据还包含两个或更多个方向估计。

在一些实施例中，所实现的方法例如可以是：

1)使用前文中所描述的方法，从所有所涉及的方向参数(和对应的比率)制定方向向量。

2)确定相对于收听者最接近的阵列。

3)从最接近阵列中选择最长的方向向量(即，其直接对总比率最大)。

4)对于在内插时涉及的其余阵列，选择那些具有与最接近阵列的所选择的向量的最大点积的方向向量(每个阵列一个)。

5)基于(步骤3和4的)所选择的向量以及内插权重(如前文中所描述的)制定组合向量，并基于它获得方向和比率(如前文中所描述的)。

6)丢弃那些在上述步骤3和4中被选择使用的向量数据。

7)如果在最接近阵列中仍然存在方向向量，则重复步骤3-6以确定下一个方向及其对应的比率，直到获得大量的经内插的方向和比率为止。

在一些实施例中，使用诸如匈牙利算法(Hungarian algorithm)之类的最小距离分配算法以对集合之间的最接近DOA进行配对。由于麦克风之间的DOA数量可不同，因此，分配可在针对麦克风对的等同数量的DOA之间发生，而在某个麦克风中未被分配的额外DOA可仍会在其他麦克风处被用零DOA向量进行内插。利用此方法，可以将与跨三个麦克风阵列的最大检测DOA数量一样多的DOA传递到合成阶段。

在一些实施例中，当存在多个同时到达方向时，在图8中所示的合成处理器509的目标协方差矩阵确定器805处，用多于一个的直接部分(针对每个方向及其对应的直接对总能量比率)构建目标协方差矩阵。否则，合成处理可以相同。

在一些实施例中，如图5中所示的信号内插器503被配置为使用任何合适的方法来对音频信号进行内插。例如，代替对信号进行切换，而是基于权重因子(w₁、w₂和w₃)来对信号进行线性内插。在某些情况下，这种内插方法可能会导致不期望的梳状滤波，但在某些情况下它可以提供更好的质量。

在一些实施例中，内插数据508/510、麦克风阵列位置502、和/或收听者位置504也被转发到合成处理器509。这些例如可以被用于确定原型信号(例如，当收听者远离任何阵列时使用更宽的图案，以免丢失任何信号能量)。

在一些实施例中，在前述实施例中所描述的功能或处理块可以以各种方式被组合和/或被划分成其他功能块或进一步的处理块。例如，在一些实施例中，与信号内插器503、位置预处理器505和元数据内插器507相关联的功能(或处理步骤)被集成在合成处理器509内。在一些实施例中，组合功能(或处理步骤)得到更紧凑的代码和高效的实现。

在一些实施例中，原型信号可已经在信号内插器503中被确定。在这种实施例中，收听者定向516被提供给信号内插器503。

在一些实施例中，目标总能量在信号内插器503中被确定并被传递给合成处理器509。在这些实施例中，经内插的信号512S(b,n,i)可不需要在信号内插器中进行能量校正503，因为可以在合成处理器509中执行能量校正(使用所接收的目标能量而不是基于所接收的音频信号而确定的目标能量)。这在一些实际***中可以是有益的，因为能量校正可以与空间合成同时执行，从而潜在地降低计算复杂度。此外，这些实施例可以以改进的音频质量为特征，因为可以同时应用所有增益(并因此可以仅应用一次潜在的时间增益平滑)。

在一些实施例中，可以使用任何合适的方案来确定内插权重(w₁、w₂和w₃)。例如，在一些实施例中，可以调整前述实施例，从而更主要地使用最接近的阵列。

在本文所描述的实施例中，信号内插器503被配置为确定所选择的麦克风阵列j_sel，以使得它始终是收听者位置位于其内的麦克风阵列j₁、j₂、j₃之一。在某些情况下，如果收听者在两个所确定的三角形的边缘，则此确定可能会导致两个麦克风阵列之间的切换。为了防止这种快速切换，在一些实施例中，可以在麦克风阵列的选择中应用阈值。例如，仅当麦克风阵列j₁、j₂、j₃中的一些比j_sel近某个阈值时，才改变所选择的麦克风阵列j_sel。

在一些实施例中，可以使用不同方法的组合来执行参数内插。例如，在上面提出了两种不同的用于对直接对总能量比率进行内插的方法。在一些实施例中，可以实现这些方法的组合。例如，如果第一方法(换句话说，组合向量的长度)提供了低于阈值的值，则选择第一方法的结果，否则选择第二方法(换句话说，直接地原始比率的加权)的结果。阈值可以是固定的或自适应的。例如，在一些实施例中，可以相对于原始比率来确定阈值。

在上面所讨论的一些实施例中，提供了如图10中所示的编码器和解码器。在一些其他实施例中，空间分析在解码器中(至少在一些频率处)被执行。在这些实施例中，仅音频信号和麦克风位置需要从编码器被传递给解码器。在一些实施例中，在某些频率的空间元数据也被传送。

如图7中所示，当收听者位于与麦克风阵列位置相关的区域之外时，可以将收听者位置投影到该区域内。这意味着当用户位于该区域稍外时，由于位置不匹配而可能存在可忽略的定向偏差，但当用户远离该区域时，该偏差可以很大。如上所讨论的，在实际情况下，用户不太可能很远离阵列(因为还需要再现视频)，并因此这种偏差在感知上的不利影响通常是有限的。然而，在一些实施例中，当用户移动得远离该区域时，例如通过修改指示更多环境声音的比率参数，可以进一步减轻这些影响。在这种实施例中，可存在一个距离，在该距离处(以及超过该距离)比率参数指示完整的环境。因此，在这些情况下，***被配置为将声音渲染为不可定位的声音，而不是再现预期假的方向。

在一些实施例中，信号内插器503可以从所有Ambisonic通道(包括高阶Ambisonic通道)而不是仅使用第一通道的能量而将在每个麦克风处的声音场景能量计算为如针对SN3D Ambisonic通道归一化约定的

或者针对N3D Ambisonic通道归一化约定的

其中，N是Ambisonic阶数。

上述实施例假定麦克风阵列以相同的定向被定位，或者可替代地被转换为相同的定向(换句话说，每个麦克风阵列的“x轴”被对齐并指向相同的方向)。在一些实施例中，除了位置信息之外，还传送麦克风阵列定向信息。进而，可以在处理的任何点使用此信息，以便考虑不同的定向并“对齐”这些麦克风定向。

关于图13，示出了可以被用作计算机、编码器处理器、解码器处理器、或本文所描述的任何功能块的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1400是移动设备、用户设备、平板计算机、计算机、音频播放装置等。

在一些实施例中，设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行各种程序代码，诸如本文所描述的方法。

在一些实施例中，设备1400包括存储器1411。在一些实施例中，至少一个处理器1407被耦接到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中，存储器1411包括用于存储可在处理器1407上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1411还可以包括用于存储数据(例如根据本文所描述的实施例已被处理或将要被处理的数据)的存储数据部分。只要需要，被存储在程序代码部分内的所实现的程序代码和被存储在存储数据部分内的数据可以经由存储器-处理器耦接而由处理器1407取回。

在一些实施例中，设备1400包括用户接口1405。在一些实施例中，用户接口1405可以被耦接到处理器1407。在一些实施例中，处理器1707可以控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中，用户接口1705可以使得用户能够例如经由小键盘向设备1400输入命令。在一些实施例中，用户接口1405可以使得用户能够从设备1400获得信息。例如，用户接口1405可以包括被配置为向用户显示来自设备1400的信息的显示器。在一些实施例中，用户接口1405可以包括触摸屏或触摸接口，其既能够使信息被输入到设备1400中，又能够向设备1400的用户显示信息。

在一些实施例中，设备1400包括输入/输出端口1409。在一些实施例中，输入/输出端口1409包括收发机。在这种实施例中，收发机可以被耦接到处理器1407，并且被配置为例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或有线耦接来与其他电子设备或装置通信。

收发机可以通过任何合适的已知通信协议来与其他装置通信。例如，在一些实施例中，收发机可以使用合适的通用移动电信***(UMTS)协议、诸如IEEE 802.X之类的无线局域网(WLAN)协议、诸如蓝牙之类的合适的短距离射频通信协议、或红外数据通信路径(IRDA)。

收发机输入/输出端口1409可以被配置为发送/接收音频信号，以及在一些实施例中通过使用处理器1407执行合适的代码来执行如上所描述的操作和方法。

通常，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以采用硬件来实现，而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件来实现，但本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示，但众所周知地，本文所描述的这些框、装置、***、技术或方法可以作为非限制示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件来实现，或者由硬件、或者由软件和硬件的组合来执行。此外，就此而言，应当注意，如附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。该软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质上，磁性介质上、以及光学介质上。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何适当的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和***、光学存储器设备和***、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、基于多核处理器架构的门级电路和处理器中的一个或多个。

可以在诸如集成电路模块之类的各种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序，诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design所提供的程序，使用完善的设计规则以及预先存储的设计模块库来自动对导体进行布线并将组件定位在半导体芯片上。一旦完成了半导体电路的设计，就可以将标准化电子格式(例如，Opus、GDSII等)的所得设计传送到半导体制造设施或“fab”进行制造。

前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的完整和有益的描述。然而，当结合附图和所附权利要求书阅读时，鉴于以上描述，各种修改和改编对于相关领域的技术人员而言将变得显而易见。然而，本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。

Claims

1.一种装置，包括被配置为执行以下操作的部件：

获得两个或更多个音频信号集，其中，每个音频信号集与位置相关联；

获得用于所述音频信号集中的至少两个音频信号集的至少一个参数值；

获得至少与所述音频信号集中的所述至少两个音频信号集相关联的位置；

获得收听者位置；

基于至少与所述音频信号集中的所述至少两个音频信号集相关联的所述位置以及所述收听者位置，基于来自所述两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；

基于所获得的用于所述音频信号集中的所述至少两个音频信号集的至少一个参数值、与所述音频信号集中的所述至少两个音频信号集相关联的所述位置以及所述收听者位置，生成至少一个经修改的参数值；以及

基于所述至少一个经修改的参数值，处理所述至少一个音频信号以生成空间音频输出。

2.根据权利要求1所述的装置，其中，被配置为获得两个或更多个音频信号集的所述部件被配置为：从麦克风装置获得所述两个或更多个音频信号集，其中，每个麦克风装置在相应的位置处并且包括一个或多个麦克风。

3.根据权利要求1或2中任一项所述的装置，其中，每个音频信号集与定向相关联，并且所述部件进一步被配置为：获得所述两个或更多个音频信号集的定向，其中，所生成的至少一个音频信号进一步基于与所述两个或更多个音频信号集相关联的所述定向，并且其中，所述至少一个经修改的参数值进一步基于与所述两个或更多个音频信号集相关联的所述定向。

4.根据权利要求1至3中任一项所述的装置，其中，所述部件进一步被配置为：获得收听者定向，其中，所述至少一个经修改的参数值进一步基于所述收听者定向。

5.根据权利要求4所述的装置，其中，被配置为基于所述至少一个经修改的参数值处理所述至少一个音频信号以生成空间音频输出的所述部件进一步被配置为：进一步基于所述收听者定向，处理所述至少一个音频信号。

6.根据权利要求1至5中任一项所述的装置，其中，所述部件进一步被配置为：基于与所述音频信号集中的所述至少两个音频信号集相关联的所述位置以及所述收听者位置，获得控制参数，其中，基于所述控制参数，控制被配置为基于与所述音频信号集中的所述至少两个音频信号集相关联的所述位置以及所述收听者位置，基于来自所述两个或更多个音频信号集中的至少一个音频信号集中的至少一个音频信号，生成至少一个音频信号的所述部件。

7.根据权利要求6所述的装置，其中，基于所述控制参数，控制被配置为生成所述至少一个经修改的参数值的所述部件。

8.根据权利要求6或7中任一项所述的装置，其中，被配置为获得控制参数的部件被配置为：

识别所述音频信号集中的所述收听者位置位于其内的至少三个音频信号集，并基于所述音频信号集位置和所述收听者位置，生成与所述音频信号集中的所述至少三个音频信号集相关联的权重；否则

识别所述音频信号集中的最接近所述收听者位置的两个音频信号集，并基于所述音频信号集位置以及所述收听者位置向所述音频信号集中的所述两个音频信号集之间的直线的垂直投影，生成与所述音频信号集中的所述两个音频信号集相关联的权重。

9.根据从属于权利要求6的权利要求8所述的装置，其中，被配置为生成至少一个音频信号的所述部件被配置为执行以下中的一项：

基于所述权重，组合来自两个或更多个音频信号集的两个或更多个音频信号；

基于所述两个或更多个音频信号集中的哪个音频信号集最接近所述收听者位置，从所述两个或更多个音频信号集之一中选择一个或多个音频信号；以及

基于所述两个或更多个音频信号集中的哪个音频信号集最接近所述收听者位置以及进一步的切换阈值，从所述两个或更多个音频信号集之一中选择一个或多个音频信号。

10.根据从属于权利要求7的权利要求8所述的装置，其中，被配置为生成所述至少一个经修改的参数值的所述部件被配置为：基于所述权重，组合所获得的用于所述音频信号集中的所述至少两个音频信号集的至少一个参数值。

11.根据权利要求1至10中任一项所述的装置，其中，被配置为基于所述至少一个经修改的参数值处理所述至少一个音频信号以生成空间音频输出的所述部件被配置为生成以下中的至少一项：

双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；以及

多通道音频输出，其包括用于多通道扬声器组的至少两个音频信号。

12.根据权利要求1至11中任一项所述的装置，其中，至少一个参数值包括以下中的至少一项：

至少一个方向值；

与至少一个方向值相关联的至少一个直接对总比率；

与至少一个方向值相关联的至少一个扩展相干性；

与至少一个方向值相关联的至少一个距离；

至少一个环绕相干性；

至少一个扩散对总比率；以及

至少一个剩余对总比率。

13.根据权利要求1至12中任一项所述的装置，其中，所述音频信号集中的至少两个音频信号集包括至少两个音频信号，并且被配置为获得所述至少一个参数值的部件被配置为：在空间上分析来自所述两个或更多个音频信号集的所述两个或更多个音频信号以确定所述至少一个参数值。

14.根据权利要求1至12中任一项所述的装置，其中，被配置为获得所述至少一个参数值的所述部件被配置为：接收或检索用于所述音频信号集中的至少两个音频信号集的所述至少一个参数值。

15.一种装置，包括：至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

获得收听者位置；

16.一种用于装置的方法，包括：

获得收听者位置；

17.根据权利要求16所述的方法，其中，获得两个或更多个音频信号集包括：从麦克风装置获得所述两个或更多个音频信号集，其中，每个麦克风装置在相应的位置处并且包括一个或多个麦克风。

18.根据权利要求16或17中任一项所述的方法，其中，每个音频信号集与定向相关联，并且所述方法进一步包括：获得所述两个或更多个音频信号集的定向，其中，所生成的至少一个音频信号进一步基于与所述两个或更多个音频信号集相关联的所述定向，并且其中，所述至少一个经修改的参数值进一步基于与所述两个或更多个音频信号集相关联的所述定向。

19.根据权利要求16至18中任一项所述的方法，进一步包括：获得收听者定向，其中，所述至少一个经修改的参数值进一步基于所述收听者定向。

20.根据权利要求19所述的方法，其中，基于所述至少一个经修改的参数值处理所述至少一个音频信号以生成空间音频输出进一步包括：进一步基于所述收听者定向，处理所述至少一个音频信号。

21.根据权利要求16至20中任一项所述的方法，进一步包括：基于与所述音频信号集中的所述至少两个音频信号集相关联的所述位置以及所述收听者位置，获得控制参数，其中，基于所述控制参数，控制以下操作：基于与所述音频信号集中的所述至少两个音频信号集相关联的所述位置以及所述收听者位置，基于来自所述两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号。

22.根据权利要求21所述的方法，其中，基于所述控制参数，控制以下操作：生成所述至少一个经修改的参数值。

23.根据权利要求16至22中任一项所述的方法，其中，基于所述至少一个经修改的参数值处理所述至少一个音频信号以生成空间音频输出包括生成以下中的至少一项：

24.根据权利要求16至23中任一项所述的方法，其中，至少一个参数值包括以下中的至少一项：

至少一个方向值；

与至少一个方向值相关联的至少一个直接对总比率；

与至少一个方向值相关联的至少一个扩展相干性；

与至少一个方向值相关联的至少一个距离；

至少一个环绕相干性；

至少一个扩散对总比率；以及

至少一个剩余对总比率。

25.根据权利要求16至24中任一项所述的方法，其中，所述音频信号集中的至少两个音频信号集包括至少两个音频信号，并且获得所述至少一个参数值包括：在空间上分析来自所述两个或更多个音频信号集的所述两个或更多个音频信号以确定所述至少一个参数值。