CN116671132A

CN116671132A - 利用空间元数据内插和源位置信息的音频渲染

Info

Publication number: CN116671132A
Application number: CN202180086059.5A
Authority: CN
Inventors: M-V·莱蒂南; J·维尔卡莫; A·波利蒂斯; A·埃罗南; L·麦科马克
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2020-12-21
Filing date: 2021-11-30
Publication date: 2023-08-29
Also published as: GB2602148A; WO2022136725A1; EP4238318A4; EP4238318A1; GB202020239D0

Abstract

一种装置，包括被配置为执行以下操作的部件：获得两个或更多个音频信号集(200)，其中，每个音频信号集与位置相关联；获得用于两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值(203)；获得与至少两个或更多个音频信号集中的至少两个音频信号集相关联的位置；获得收听者位置(280)，其中，该收听者位置被配置为至少部分地在音频环境内限定收听者，其中，该音频环境包括与两个或更多个音频信号集相关联的位置之间和周围的位置；获得源位置信息(290)；获得和与源位置信息相关联的源能量(205)相关的值；基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的位置和收听者位置(280)，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号(202)，生成至少一个音频信号(209)；基于所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值(204)、与至少两个或更多个音频信号集中的至少两个音频信号集相关联的位置(270)、源位置信息(290)、与源能量(206)相关的值和收听者位置(280)，生成至少一个经修改的参数值和残余值(213)；以及基于至少一个经修改的参数值(214)、残余值(216)、源位置信息(290)、和与源位置信息相关联的源能量(206)相关的值，处理至少一个音频信号(215)以生成空间音频输出(218)。

Description

利用空间元数据内插和源位置信息的音频渲染

技术领域

本申请涉及用于利用空间元数据内插和源位置信息的音频渲染的装置和方法，但非排他地用于针对6自由度***利用空间元数据内插的音频渲染。

背景技术

空间音频捕获方法尝试捕获音频环境，以使得可以以有效方式感知地向收听者重新创建音频环境，此外还可以准许收听者在所重新创建的音频环境内移动和/或旋转。例如，在一些***(3自由度——3DoF)中，收听者可以旋转他们的头部，并且经渲染的音频信号反映此旋转运动。在一些***(3自由度加——3DoF+)中，收听者可以在环境内轻微地“移动”以及旋转他们的头部，而在其他***(6自由度——6DoF)中，收听者可以在环境内任意地移动并旋转他们的头部。

线性空间音频捕获是指其中处理不适于所捕获的音频的特征的音频捕获方法。相反，输出是所捕获的音频信号的预定线性组合。

为了在记录空间的一个位置处线性地记录空间声音，需要高端麦克风阵列。一种此类麦克风是球形32-麦克风Egenmike。从高端麦克风阵列可以获得高阶全景环绕声(higher-order Ambisonics，HOA)信号并将其用于线性渲染。利用HOA信号，可以线性地渲染空间音频，从而在合理的听觉带宽内令人满意地将从不同方向到达的声音分开。

线性空间音频捕获技术的一个问题是对麦克风阵列的要求。短波长(更高频率的音频信号)需要小的麦克风间距，而长波长(更低频率)需要大的阵列尺寸，在单个麦克风阵列内很难同时满足这两个条件。

大多数实际的捕获设备(例如，虚拟现实相机、单反相机、移动电话)并没有配备诸如由Egenmike提供的麦克风阵列，并且没有足够的麦克风装置以进行线性空间音频捕获。此外，针对捕获设备实现线性空间音频捕获会导致仅针对单个位置而捕获空间音频。

参数化空间音频捕获涉及基于由麦克风捕获的音频信号来估计在感知上相关的参数，以及可以基于这些参数和音频信号来合成空间声音的***。分析和合成通常在可接近人类空间听觉分辨率的频带中发生。

众所周知，对于大多数的紧凑型麦克风装置(例如，VR相机、多麦克风阵列、具有麦克风的移动电话、具有麦克风的SLR相机)，参数化空间音频捕获可以产生在感知上准确的空间音频渲染，而就声音的空间方面而言，线性方法通常不会产生可行的结果。对于诸如Egenmike之类的高端麦克风阵列，参数化方法还可以提供平均上比线性方法质量更好的空间声音感知。

发明内容

根据第一方面，提供了一种装置，其包括被配置为执行以下操作的部件：获得两个或更多个音频信号集，其中，该两个或更多个音频信号集与相应的音频信号集位置相关联；针对与两个或更多个音频信号集相关联的至少一个参数，获得用于两个或更多个音频信号集中的至少两个音频信号集中的每一个音频信号集的至少一个参数值；获得与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置；获得收听者位置，其中，该收听者位置被配置为至少部分地在音频环境内限定收听者，其中，该音频环境包括与两个或更多个音频信号集相关联的相应的音频信号集位置之间和周围的位置；获得声源位置信息；获得和与声源位置信息相关联的声源能量相关的值；基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值、与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置、声源位置信息、与声源能量相关的值和收听者位置，生成至少一个经修改的参数值和残余值；以及基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出。

被配置为获得两个或更多个音频信号集的部件可以被配置为：从麦克风装置获得两个或更多个音频信号集，其中，每个麦克风装置在相应的位置处并包括一个或多个麦克风。

每个音频信号集可以与相应的音频信号集定向相关联，并且上述部件可以进一步被配置为：获得两个或更多个音频信号集的相应的音频信号集定向，其中，所生成的至少一个音频信号可以进一步基于与两个或更多个音频信号集相关联的相应的音频信号集定向，并且其中，至少一个经修改的参数值可以进一步基于与两个或更多个音频信号集相关联的相应的音频信号集定向。

上述部件可以进一步被配置为：获得收听者定向，其中，该收听者定向可以被配置为在至少部分的六自由度环境内进一步限定收听者，其中，至少一个经修改的参数值可以进一步基于该收听者定向。

上述部件可以进一步被配置为：获得收听者定向，其中，该收听者定向可以被配置为：在至少部分的六自由度环境内进一步限定收听者，并且其中，被配置为基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出的部件可以进一步被配置为：进一步基于该收听者定向，处理至少一个音频信号。

上述部件可以进一步被配置为：基于与至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，获得控制参数，其中，可以基于该控制参数，控制被配置为基于与至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的部件。

可以基于控制参数，控制被配置为生成至少一个经修改的参数值的部件。

被配置为获得控制参数的部件可以被配置为：识别音频信号集中的收听者位置位于其内的至少三个音频信号集，并基于音频信号集位置和收听者位置，生成与该至少三个音频信号集相关联的权重；以及否则，识别音频信号集中的最接近收听者位置的两个或更多个音频信号集，并基于音频信号集位置、以及收听者位置向音频信号集中的两个或更多个音频信号集之间的线或平面的垂直投影，生成与该两个或更多个音频信号集相关联的权重。

被配置为生成至少一个音频信号的部件可以被配置为执行以下中的一项：基于权重，组合来自两个或更多个音频信号集的两个或更多个音频信号；基于两个或更多个音频信号集中的哪个音频信号集最接近收听者位置，从两个或更多个音频信号集中的一个音频信号集中选择一个或多个音频信号；以及基于两个或更多个音频信号集中的哪个音频信号集最接近收听者位置和进一步的切换阈值，从两个或更多个音频信号集中的一个音频信号集中选择一个或多个音频信号。

被配置为生成至少一个经修改的参数值的部件可以被配置为：基于权重，组合所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值。

被配置为基于至少一个经修改的参数值，处理至少一个音频信号以生成空间音频输出的部件可以被配置为生成以下中的至少一项：双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；以及多通道音频输出，其包括用于多通道扬声器组的至少两个音频信号。

至少一个参数值可以包括以下中的至少一项：至少一个方向值；与至少一个方向值相关联的至少一个直接对总比率(direct-to-total ratio)；与至少一个方向值相关联的至少一个扩展相干性(spread coherence)；与至少一个方向值相关联的至少一个距离；至少一个环绕相干性(surround coherence)；至少一个扩散对总比率(diffuse-to-totalratio)；以及至少一个剩余对总比率(remainder-to-total ratio)。

至少两个音频信号集可以包括至少两个音频信号，并且被配置为获得至少一个参数值的部件可以被配置为：对来自两个或更多个音频信号集的两个或更多个音频信号进行空间分析以确定至少一个参数值。

被配置为获得至少一个参数值的部件可以被配置为：接收或检索用于音频信号集中的至少两个音频信号集的至少一个参数值。

声源位置信息可以基于至少一个突出声源。

至少一个突出声源可以是能量大于阈值的声源。

被配置为获得声源位置信息的部件可以被配置为：接收定义声源位置信息的至少一个用户输入；接收定义源位置信息的位置***信息；基于两个或更多个音频信号集，确定声源位置信息。

与声源能量相关的值可以包括以下中的一项：声源能量值；声源幅度值；声源级别值；以及声源突出值。

残余值可以包括残余能量值。

被配置为基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的部件可以被配置为：基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，从两个或更多个音频信号集中的至少一个音频信号集中选择至少一个音频信号。

根据第二方面，提供了一种用于装置的方法，其包括：获得两个或更多个音频信号集，其中，该两个或更多个音频信号集与相应的音频信号集位置相关联；针对与两个或更多个音频信号集相关联的至少一个参数，获得用于两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值；获得与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置；获得收听者位置，其中，该收听者位置被配置为至少部分地在音频环境内限定收听者，其中，该音频环境包括与两个或更多个音频信号集相关联的相应的音频信号集位置之间和周围的位置；获得声源位置信息；获得和与声源位置信息相关联的声源能量相关的值；基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值、与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置、声源位置信息、与声源能量相关的值和收听者位置，生成至少一个经修改的参数值和残余值；以及基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出。

获得两个或更多个音频信号集可以包括：从麦克风装置获得两个或更多个音频信号集，其中，每个麦克风装置在相应的位置处并包括一个或多个麦克风。

每个音频信号集可以与相应的音频信号集定向相关联，并且上述方法可以进一步包括：获得两个或更多个音频信号集的相应的音频信号集定向，其中，生成至少一个音频信号可以进一步基于与两个或更多个音频信号集相关联的相应的音频信号集定向，并且其中，至少一个经修改的参数值可以进一步基于与两个或更多个音频信号集相关联的相应的音频信号集定向。

上述方法可以进一步包括：获得收听者定向，其中，该收听者定向可以被配置为：在至少部分的六自由度环境内进一步限定收听者，其中，至少一个经修改的参数值可以进一步基于该收听者定向。

上述方法可以进一步包括：获得收听者定向，其中，该收听者定向可以被配置为：在至少部分的六自由度环境内进一步限定收听者，并且其中，基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出可以进一步包括：进一步基于该收听者定向，处理至少一个音频信号。

上述方法可以进一步包括：基于与至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，获得控制参数，其中，可以基于该控制参数，控制基于与至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号。

可以基于控制参数，控制生成至少一个经修改的参数值。

获得控制参数可以包括：识别音频信号集中的收听者位置位于其内的至少三个音频信号集，并基于音频信号集位置和收听者位置，生成与该至少三个音频信号集相关联的权重；以及否则，识别音频信号集中的最接近收听者位置的两个或更多个音频信号集，并基于音频信号集位置、以及收听者位置向音频信号集中的两个或更多个音频信号集之间的线或平面的垂直投影，生成与该两个或更多个音频信号集相关联的权重。

生成至少一个音频信号可以包括以下中的一项：基于权重，组合来自两个或更多个音频信号集的两个或更多个音频信号；基于两个或更多个音频信号集中的哪个音频信号集最接近收听者位置，从两个或更多个音频信号集中的一个音频信号集中选择一个或多个音频信号；以及基于两个或更多个音频信号集中的哪个音频信号集最接近收听者位置和进一步的切换阈值，从两个或更多个音频信号集中的一个音频信号集中选择一个或多个音频信号。

生成至少一个经修改的参数值可以包括：基于权重，组合所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值。

基于至少一个经修改的参数值，处理至少一个音频信号以生成空间音频输出可以包括生成以下中的至少一项：双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；以及多通道音频输出，其包括用于多通道扬声器组的至少两个音频信号。

至少一个参数值可以包括以下中的至少一项：至少一个方向值；与至少一个方向值相关联的至少一个直接对总比率；与至少一个方向值相关联的至少一个扩展相干性；与至少一个方向值相关联的至少一个距离；至少一个环绕相干性；至少一个扩散对总比率；以及至少一个剩余对总比率。

至少两个音频信号集可以包括至少两个音频信号，并且获得至少一个参数值可以包括：对来自两个或更多个音频信号集的两个或更多个音频信号进行空间分析以确定至少一个参数值。

获得至少一个参数值可以包括：接收或检索用于音频信号集中的至少两个音频信号集的至少一个参数值。

声源位置信息可以基于至少一个突出声源。

至少一个突出声源可以是能量大于阈值的声源。

获得声源位置信息可以包括：接收定义声源位置信息的至少一个用户输入；接收定义源位置信息的位置***信息；基于两个或更多个音频信号集，确定声源位置信息。

残余值可以包括残余能量值。

基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号可以包括：基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，从两个或更多个音频信号集中的至少一个音频信号集中选择至少一个音频信号。

根据第三方面，提供了一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少：获得两个或更多个音频信号集，其中，该两个或更多个音频信号集与相应的音频信号集位置相关联；针对与两个或更多个音频信号集相关联的至少一个参数，获得用于两个或更多个音频信号集中的至少两个音频信号集中的每一个音频信号集的至少一个参数值；获得与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置；获得收听者位置，其中，该收听者位置被配置为至少部分地在音频环境内限定收听者，其中，该音频环境包括与两个或更多个音频信号集相关联的相应的音频信号集位置之间和周围的位置；获得声源位置信息；获得和与声源位置信息相关联的声源能量相关的值；基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值、与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置、声源位置信息、与声源能量相关的值和收听者位置，生成至少一个经修改的参数值和残余值；以及基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出。

被使得获得两个或更多个音频信号集的装置可以进一步被使得：从麦克风装置获得两个或更多个音频信号集，其中，每个麦克风装置在相应的位置处并包括一个或多个麦克风。

每个音频信号集可以与相应的音频信号集定向相关联，并且上述装置可以进一步被使得：获得两个或更多个音频信号集的相应的音频信号集定向，其中，被使得生成至少一个音频信号的装置可以进一步被使得：基于与两个或更多个音频信号集相关联的相应的音频信号集定向，生成至少一个音频信号，并且其中，至少一个经修改的参数值可以进一步基于与两个或更多个音频信号集相关联的相应的音频信号集定向。

上述装置可以进一步被使得：获得收听者定向，其中，该收听者定向可以被配置为：在至少部分的六自由度环境内进一步限定收听者，其中，至少一个经修改的参数值可以进一步基于该收听者定向。

上述装置可以进一步被使得：获得收听者定向，其中，该收听者定向可以被配置为：在至少部分的六自由度环境内进一步限定收听者，并且其中，被使得基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出的装置可以进一步被使得：进一步基于该收听者定向，处理至少一个音频信号。

上述装置可以进一步被使得：基于与至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，获得控制参数，其中，可以使得基于该控制参数，控制被使得基于与至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的装置。

可以使得基于控制参数，控制被使得生成至少一个经修改的参数值的装置。

被使得获得控制参数的装置可以进一步被使得：识别音频信号集中的收听者位置位于其内的至少三个音频信号集，并基于音频信号集位置和收听者位置，生成与该至少三个音频信号集相关联的权重；以及否则，识别音频信号集中的最接近收听者位置的两个或更多个音频信号集，并基于音频信号集位置、以及收听者位置向音频信号集中的两个或更多个音频信号集之间的线或平面的垂直投影，生成与该两个或更多个音频信号集相关联的权重。

被使得生成至少一个音频信号的装置可以被使得执行以下中的一项：基于权重，组合来自两个或更多个音频信号集的两个或更多个音频信号；基于两个或更多个音频信号集中的哪个音频信号集最接近收听者位置，从两个或更多个音频信号集中的一个音频信号集中选择一个或多个音频信号；以及基于两个或更多个音频信号集中的哪个音频信号集最接近收听者位置和进一步的切换阈值，从两个或更多个音频信号集中的一个音频信号集中选择一个或多个音频信号。

被使得生成至少一个经修改的参数值的装置可以被使得：基于权重，组合所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值。

被使得基于至少一个经修改的参数值，处理至少一个音频信号以生成空间音频输出的装置可以被使得生成以下中的至少一项：双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；以及多通道音频输出，其包括用于多通道扬声器组的至少两个音频信号。

所述至少一个参数值可以包括以下中的至少一项：至少一个方向值；与至少一个方向值相关联的至少一个直接对总比率；与至少一个方向值相关联的至少一个扩展相干性；与至少一个方向值相关联的至少一个距离；至少一个环绕相干性；至少一个扩散对总比率；以及至少一个剩余对总比率。

至少两个音频信号集可以包括至少两个音频信号，并且被使得获得至少一个参数值的装置可以被使得：对来自两个或更多个音频信号集的两个或更多个音频信号进行空间分析以确定至少一个参数值。

被使得获得至少一个参数值的装置可以被使得：接收或检索用于音频信号集中的至少两个音频信号集的至少一个参数值。

源位置信息可以基于至少一个突出声源。

至少一个突出声源可以是能量大于阈值的声源。

被使得获得声源位置信息的装置可以进一步被使得：接收定义声源位置信息的至少一个用户输入；接收定义源位置信息的位置***信息；基于两个或更多个音频信号集，确定声源位置信息。

残余值可以包括残余能量值。

被使得基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的装置可以被使得：基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，从两个或更多个音频信号集中的至少一个音频信号集中选择至少一个音频信号。

根据第四方面，提供了一种装置，其包括：用于获得两个或更多个音频信号集的部件，其中，该两个或更多个音频信号集与相应的音频信号集位置相关联；用于针对与两个或更多个音频信号集相关联的至少一个参数，获得用于两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值的部件；用于获得与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置的部件；用于获得收听者位置的部件，其中，该收听者位置被配置为至少部分地在音频环境内限定收听者，其中，该音频环境包括与两个或更多个音频信号集相关联的相应的音频信号集位置之间和周围的位置；用于获得声源位置信息的部件；用于获得和与声源位置信息相关联的声源能量相关的值的部件；用于基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的部件；用于基于所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值、与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置、声源位置信息、与声源能量相关的值和收听者位置，生成至少一个经修改的参数值和残余值的部件；以及用于基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出的部件。

根据第五方面，提供了一种包括指令的计算机程序[或者包括程序指令的计算机可读介质]，这些指令/程序指令用于使装置至少执行以下操作：获得两个或更多个音频信号集，其中，该两个或更多个音频信号集与相应的音频信号集位置相关联；针对与两个或更多个音频信号集相关联的至少一个参数，获得用于两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值；获得与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置；获得收听者位置，其中，该收听者位置被配置为至少部分地在音频环境内限定收听者，其中，该音频环境包括与两个或更多个音频信号集相关联的相应的音频信号集位置之间和周围的位置；获得声源位置信息；获得和与声源位置信息相关联的声源能量相关的值；基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值、与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置、声源位置信息、与声源能量相关的值和收听者位置，生成至少一个经修改的参数值和残余值；以及基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出。

根据第六方面，提供了一种非暂时性计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：获得两个或更多个音频信号集，其中，该两个或更多个音频信号集与相应的音频信号集位置相关联；针对与两个或更多个音频信号集相关联的至少一个参数，获得用于两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值；获得与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置；获得收听者位置，其中，该收听者位置被配置为至少部分地在音频环境内限定收听者，其中，该音频环境包括与两个或更多个音频信号集相关联的相应的音频信号集位置之间和周围的位置；获得声源位置信息；获得和与声源位置信息相关联的声源能量相关的值；基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值、与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置、声源位置信息、与声源能量相关的值和收听者位置，生成至少一个经修改的参数值和残余值；以及基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出。

根据第七方面，提供了一种装置，其包括：获得电路，被配置为：获得两个或更多个音频信号集，其中，该两个或更多个音频信号集与相应的音频信号集位置相关联；获得电路，被配置为：针对与两个或更多个音频信号集相关联的至少一个参数，获得用于两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值；获得电路，被配置为：获得与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置；获得电路，被配置为：获得收听者位置，其中，该收听者位置被配置为至少部分地在音频环境内限定收听者，其中，该音频环境包括与两个或更多个音频信号集相关联的相应的音频信号集位置之间和周围的位置；获得电路，被配置为：获得声源位置信息；获得电路，被配置为：获得和与声源位置信息相关联的声源能量相关的值；生成电路，被配置为：基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；生成电路，被配置为：基于所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值、与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置、声源位置信息、与声源能量相关的值和收听者位置，生成至少一个经修改的参数值和残余值；以及处理电路，被配置为：基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出。

根据第八方面，提供了一种计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：获得两个或更多个音频信号集，其中，该两个或更多个音频信号集与相应的音频信号集位置相关联；针对与两个或更多个音频信号集相关联的至少一个参数，获得用于两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值；获得与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置；获得收听者位置，其中，该收听者位置被配置为至少部分地在音频环境内限定收听者，其中，该音频环境包括与两个或更多个音频信号集相关联的相应的音频信号集位置之间和周围的位置；获得声源位置信息；获得和与声源位置信息相关联的声源能量相关的值；基于与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置和收听者位置，基于来自两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；基于所获得的用于至少两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值、与至少两个或更多个音频信号集中的至少两个音频信号集相关联的相应的音频信号集位置、声源位置信息、与声源能量相关的值和收听者位置，生成至少一个经修改的参数值和残余值；以及基于至少一个经修改的参数值、残余值、声源位置信息、和与声源位置信息相关联的声源能量相关的值，处理至少一个音频信号以生成空间音频输出。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。

一种电子设备可以包括如本文所述的装置。

一种芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出适合于实现一些实施例的装置的***；

图2示出针对空间元数据的捕获和渲染的一些实施例的概览图；

图3示出根据一些实施例的图2中所示的装置的操作的流程图；

图4示出根据一些实施例的图2中所示的源能量确定器的示例；

图5示出根据一些实施例的图4中所示的示例源能量确定器的操作的流程图；

图6示意性地示出在阵列配置内和外的源位置；

图7示出根据一些实施例的图2中所示的残余元数据确定器和内插器的示例；

图8示出根据一些实施例的图7中所示的示例残余元数据确定器和内插器的操作的流程图；

图9示出根据一些实施例的图2中所示的合成处理器的示例；

图10示出根据一些实施例的图9中所示的合成处理器的操作的流程图；

图11示出根据一些实施例的从捕获装置和/或编码器的角度来看的示例布置；

图12示出根据一些实施例的图11中所示的捕获装置和/或编码器的操作的流程图；

图13示出了根据一些实施例的从播放装置和/或解码器的角度来看的示例布置；

图14示出根据一些实施例的图13中所示的播放装置和/或解码器的操作的流程图；

图15示意性地示出根据一些实施例的用于实现音频信号和元数据的内插的合适装置的进一步视图；以及

图16示意性地示出适合于实现所示装置的示例设备。

具体实施方式

如本文中针对以下实施例进一步详细讨论的概念与利用对应于在记录空间的不同位置的两个或更多个麦克风阵列的参数化空间音频捕获(或者换句话说，在记录空间中的相应的信号集位置处捕获的音频信号集)以及使用户能够移动到在所捕获的声音场景的不同位置有关，换句话说，本发明涉及6DoF音频捕获和渲染。然而，在其中具有三个或更多个麦克风阵列的一些实施例中，可存在以下情况：三个或更多个麦克风阵列位于记录空间中的至少两个(或更多个，如果存在三个以上的麦克风阵列)不同的位置处。

6DoF目前在诸如VR游戏之类的虚拟现实中很常见，其中，在音频场景中的移动直接进行渲染，因为所有空间信息都很容易获得(即，分别地，每个声源的位置以及每个声源的音频信号)。本发明涉及还提供对利用麦克风阵列捕获的空间音频的稳健的6DoF捕获和渲染。

例如对于即将发布的MPEG-I音频标准，从麦克风阵列进行的6DoF捕获和渲染是相关的，其中，需要对HOA信号的6DoF渲染。这些HOA信号可以从在声音场景的麦克风阵列获得。

在以下示例中，音频信号集由麦克风生成。例如，麦克风装置可以包括一个或多个麦克风，并针对音频信号集生成一个或多个音频信号。在一些实施例中，音频信号集包括音频信号，其是虚拟或所生成的音频信号(例如，具有相关联的虚拟扬声器位置的虚拟扬声器音频信号)。在一些实施例中，麦克风位于远离处理装置的位置，但这并不排除麦克风位于处理装置上或者被物理连接到处理装置的示例。

在更详细地讨论该概念之前，将首先更详细地描述空间捕获和再现的一些方面。例如，关于图1，示出了空间捕获和播放的示例。因此，例如，图1在左侧示出了空间音频信号捕获环境。该环境或音频场景包括声源，即，源1 102和源2 104，它们可以是实际的音频信号源或者可以是抽象的声音或音频源表示。换句话说，声源或源可以表示实际的声源(诸如乐器)或者表示抽象的声源(例如风穿过树木的分布式声音)。此外，还示出了非定向或非特定位置环境部分106。这些可以由至少两个麦克风装置/阵列捕获，每个麦克风装置/阵列可以包括两个或更多个麦克风。

音频信号可以如上所述地被捕获，此外还可以被编码、发送、接收和再现，如图1中由箭头110所示。

在图1的右侧示出了示例再现。空间音频信号的再现导致用户150(其在该示例中被示出佩戴了头部跟踪耳机)被呈现有6DoF空间渲染118形式的再现音频环境，其包括感知源1 112、感知源2 114和感知环境116。

如上所讨论的，用于麦克风阵列的传统的线性和参数化空间音频捕获方法可以被用于高质量空间音频处理，这取决于可用的麦克风装置。然而，它们都是针对单个位置捕获和渲染而被开发的。换句话说，收听者不能在麦克风阵列之间移动。因此，它们不能直接适用于6DOF渲染，其中，收听者可以在麦克风阵列之间任意地移动。

最近已提出了允许自由移动的6DoF再现方法，其中，从来自至少两个麦克风阵列的音频信号的分析中确定包括频带中的方向和比率的空间元数据。在渲染器中，进而可以使用麦克风阵列信号和空间元数据，通过基于收听者位置和定向而内插空间元数据来渲染6DoF音频。

然而，在这种方法中，所有的定向信息都基于麦克风阵列信号的时频分析。由于声音场景通常包含多个源和/或混响，因此定向估计是来自所有源和混响的贡献的叠加，并因此未必指向音频信号的任何实际源。因此，特别是当这种被内插到6DOF收听位置的空间元数据被用于渲染时，声源并非始终像原始声源那样被感知为点状，而是被感知为更宽和/或具有模糊的方向。此外，两个源可彼此“吸引”，从而导致源被感知在它们之间的某位置，而不是实际的位置。

一般而言，这种定向不准确是参数化空间音频的一个众所周知的问题。例如，该问题也可能在3DoF和非跟踪渲染中出现(当收听者位置未被跟踪时)。这种定向不准确可能产生各种负面影响。因此，例如，收听者在经历不准确时可能没有完全投入，因为典型的收听者将更关注点状稳定源，而不是具有模糊和宽广方向的源。此外，波动方向可以被体验为音频场景内的伪影，并降低再现的自然度。

附加地，仅使用已知的基于麦克风阵列信号而内插空间元数据的方法，不可能针对麦克风阵列所覆盖的区域之外的收听者位置的空间音频进行准确渲染。由于源位置是基于关于麦克风阵列所横跨的区域的边缘的信息而渲染的，因此当收听者在该区域之外移动时产生定向错误。

虽然感知相关的参数可以是任何合适的参数，但本文讨论的以下示例获得以下参数集：

频带中的至少一个方向参数，其指示声音从哪里到达的主要(或主导或感知)方向，以及

比率参数，其针对每个方向参数，指示有多少能量是从这些方向到达以及有多少声音能量是环境/环绕的。

如上所讨论的，存在不同的方法来获得这些参数。一种已知方法是定向音频编码(DirAC)，其中，基于一阶Ambisonic信号(或B格式信号)，在频带中估计方向和扩散度(diffuseness)(即，环境对总能量比率(ambient-to-total energy ratio))参数。在以下示例中，DirAC被用作参数生成的主要示例，尽管已知它可替换为获得空间参数或空间元数据的其他方法，诸如高阶DirAC、高角度平面波扩展、以及如PCT申请WO2018/091776中所讨论的Nokia的空间音频捕获(SPAC)。

如本文讨论的实施例可以涉及利用已知位置中的至少两个麦克风阵列捕获的音频的6自由度(即，收听者可以在场景内移动，并且收听者位置被跟踪)双耳渲染。换句话说，在本文描述的实施例中，收听者可以能够在与音频信号集(例如，由麦克风阵列生成的)相关联的相应的音频信号集位置之间和周围移动。因此，在一些实施例中，在相应的音频信号集位置之间和周围移动的能力可以包括在平面上移动(忽略仰角)、在线上移动(忽略两个轴)以及在3D中移动(包括仰角)的能力。因此，例如，收听者坐着或站着可以或可以不被视为不同的位置，具体取决于渲染器是否具有(或使用)仰角信息。

附加地，这些实施例可以包括一种方法，该方法使用关于突出声源位置的信息来指导参数化音频处理以实现具有高定向精度的6DoF双耳音频再现，以创建具有高参与度、沉浸感和/或自然度的改进的收听体验，即使在麦克风阵列所横跨的区域之外的收听者位置中。

在一些实施例中，这可以通过以下操作来实现：确定最突出的声源的位置(例如，接收这些位置或者使用麦克风阵列信号来估计它们)；确定来自麦克风阵列位置处的对应的源的直接声音的贡献；确定麦克风阵列位置处的“残余”空间信息(描述没有所确定的直接声音贡献的空间声音)；确定与收听者位置处的所确定的直接声音相关的“直接声音”空间信息；确定收听者位置处的“残余”空间信息；确定阵列信号的选择或混合(基于收听者和阵列位置)；以及基于所确定的“直接声音”空间信息、“残余”空间信息、以及阵列信号的选择或混合，渲染空间输出。

在这种实施例中，经渲染的空间音频可以具有高定向精度，即使在麦克风阵列所横跨的区域之外的收听者位置中，因为渲染使用了关于声源位置的信息。

此外，可以利用当前的方法无缝地实现这些实施例，因为如果源位置未知(或者它们的贡献被估计为零)，那么“残余”空间信息是如在当前的方法中所使用的空间信息。

特别地，一些实施例的优势在于它在所提出的使用“直接声音”空间信息的处理与当前现有技术之间自然地交叉衰落，具体取决于源信号功率。这是期望的特性，因为现有技术方法对于环境声音而言是稳健的。另一方面，当最突出的源在场景中占主导时，所提出的使用“直接声音”空间信息的处理将覆盖如在现有技术方法中所定义的参数的内插，从而产生稳定的渲染。

前述空间信息可以例如是指空间元数据(诸如方向和直接对总能量比率)或物理特性(诸如强度和能量)。该空间信息通常在频带中估计。

关于图2，示出了示例***。在一些实施例中，该***可以在单个装置上实现。然而，在一些其他实施例中，本文描述的功能可以在多于一个装置上被实现。

在一些实施例中，该***包括被配置为接收基于麦克风阵列信号的多个信号集200的输入端。基于麦克风阵列信号的多个信号集可以包括J个多通道信号集。这些信号可以是麦克风阵列信号本身，也可以是某种转换形式的阵列信号，诸如Ambisonic信号。这些信号被标示为s_j(m,i)，其中，j是信号源自其中的麦克风阵列的索引(即，信号集索引)，m是样本时间，i是信号集的通道索引。在如本文描述的示例实施例中，基于麦克风阵列信号的多个信号集200采用Ambisonic形式，例如，采用具有16个音频通道的三阶Ambix格式。例如，当麦克风阵列是由MC Acoustics LLC或类似公司提供的Eigenmike时，可获得这种信号。当本发明与运动图像专家组(MPEG)音频标准(诸如MPEG-H 3D或即将发布的MPEG-I)结合使用时，基于麦克风阵列信号的多个信号集200可以采用等效空间域(ESD)格式，其可以作为预处理步骤被转换为Ambisonics，或者根据示例实施例的处理可以直接在ESD格式上完成。利用本文的示例实施例概述的原理可以以其他方式适用于其他信号格式，而无需本领域技术人员过多地应用创造性思维。

多个信号集可以被传递到时频变换器201。时频变换器201可以被配置为接收基于麦克风阵列信号的多个信号集200。时频变换器201被配置为例如使用短时傅立叶变换(STFT)或复调制正交镜像滤波器(QMF)组，将输入信号s_j(m,i)转换到时频域。作为一个示例，STFT是一个典型配置的过程，从而对于N个样本的帧长度，当前帧和前一帧被窗口化并利用快速傅里叶变换(FFT)被处理。结果是被标示为S_j(b,n,i)的时频域信号，其中，b是频率仓(frequency bin)，n是时间帧索引。进而，时频阵列信号202可以被输出到信号内插器209、阵列能量确定器207、空间分析器203和源能量确定器205。

在一些实施例中，该***还可以包括阵列能量确定器207。在一些实施例中，阵列能量确定器207被配置为接收时频阵列信号202。对于时频阵列信号202采用Ambisonic形式的示例，可以从第零个(全向)Ambisonic分量中估计阵列的能量。换句话说，可以从信号如S_j(b,n,1)估计阵列的能量。在一些实施例中，可以在频带中估计每个阵列的能量。虽然频率仓标示STFT域中(或另一个时频变换域中)的单个复样本，但频带标示这些仓的组。标示k＝1..K为频带索引并且K是频带的数量，每个频带k具有最低仓b_k,low和最高仓b_k,higt。用于能量估计的频带与其中确定空间元数据的频带相同。在一些实施例中，通过下式来估计每个阵列的能量：

注意，在该示例实施例中，仅在频率轴上确定能量的估计。然而，在一些实施例中，根据所应用的滤波器组，能量估计还可包括在时间轴上的平均，使用IIR或FIR平均。用于执行时间平均的选项可以适用于其他阵列能量公式。值E_j,arr(k,n)是阵列能量，其可以被输出到信号内插器209以及残余元数据确定器和内插器213。

在一些实施例中，该***包括空间分析器203。空间分析器203被配置为接收音频信号S_j(b,n,i)，并分析这些音频信号以针对每个阵列在时频域中确定空间元数据。

空间分析可以基于任何合适的技术，并且对于各种输入类型存在已知的合适方法。例如，如果输入信号是Ambisonic或Ambisonic相关的形式(例如，它们源自B格式麦克风)，或者阵列可以以合理的方式被转换为Ambisonic形式(例如，Eigenmike)，则可以执行定向音频编码(DirAC)分析。一阶DirAC已在Pulkki,Ville的“利用定向音频编码的空间声音再现(Spatial sound reproduction with directional audio coding)”(音频工程学会期刊，第55卷，第6期(2007年)：第503-516页)中进行了描述，其中，指定了一种用于从B格式信号(一阶Ambisonics的变体)估计包括频带中的方向和环境对总能量比率参数的空间元数据集的方法。

当高阶Ambisonics可用时，Archontis Politis、Juha Vilkamo和Ville Pulkki的“球谐域中基于扇区的参数化声场再现(Sector-based parametric sound fieldreproduction in the spherical harmonic domain)”(IEEE信号处理选定主题期刊，第9卷，第5期(2015年)：第852-866页)提供了一种用于获得多个同时方向参数的方法。可以在一些实施例中实现的其他方法包括如在PCT公布专利申请WO2018/091776中所描述的从诸如移动电话和平板电脑之类的平面设备估计空间元数据，以及用于非平面设备的类似的基于延迟的分析方法(GB公布专利申请GB2572368)。

换句话说，存在各种方法来获得空间元数据，并且所选择的方法可以取决于阵列类型和/或音频信号格式。在一些实施例中，一种方法被应用于一个频率范围，而另一种方法被应用于另一个频率范围。在以下示例中，分析是基于接收一阶Ambisonic(FOA)音频信号(其是空间音频领域中广为人知的信号格式)。此外，在这些示例中，使用了一种经修改的DirAC方法。例如，输入是已知的SN3D归一化(施密特半归一化(Schmidt semi-normalisation))和ACN(Ambisonics通道号)通道排序形式的Ambisonic音频信号。

在一些实施例中，空间分析器被配置为针对每个麦克风阵列执行以下操作：

1)通过下式以向量形式对时频域(Ambisonic)信号(其被标示为S_j(b,n,i)，其中，b是频率仓，n是时间帧索引)的前四个通道进行分组：

2)接下来，通过下式在频带中估计FOA信号的信号协方差矩阵：

在一些实施例中，可以在时间索引n上应用时间平滑。

3)进而，确定指向传播声音的相反方向的逆声场强度向量：

注意通道顺序，其将ACN顺序转换为笛卡尔x、y、z顺序。

4)进而，针对频带k和时间索引n的方向参数被确定为i_j(k,n)的方向。该方向参数例如可以被表达为方位角θ_j(k,n)和仰角

5)进而，直接对总能量比率被表示为：

针对每个频带k，针对每个时间索引n，并针对每个信号集(每个阵列)j，表示方位角θ_j(k,n)、仰角以及直接对总能量比率r_j(k,n)。因此，此信息构成针对每个阵列204的从空间分析器输出到残余元数据确定器和内插器213的元数据。

在一些实施例中，该***包括源能量确定器205。该源能量确定器被配置为接收时频阵列信号202、麦克风阵列位置270和源位置信息290。

麦克风阵列位置(针对每个阵列j)270可以被定义为位置列向量p_j,arr，其可以是包含以米为单位的x,y,z笛卡尔坐标的3x1向量。在以下示例中，只示出了包含x,y坐标的2x1列向量，其中，假定源、麦克风和收听者的仰角(z轴)相同。然而，本文描述的方法可以被直接扩展到也包括z轴。

在一些实施例中，源位置信息290可以是由录音师确定的输入，或者是由基于麦克风阵列信号的声音场景的分析而确定的输入。源位置信息290可以例如基于定向估计的多目标跟踪，使用例如粒子滤波技术，诸如在Simo、Aki Vehtari和Jouko Lampinen的“用于多目标跟踪的Rao-Blackwellized粒子滤波器(Rao-Blackwellized particlefilter for multiple target tracking)”(信息融合8.1(2007年)：第2-15页)内所描述的。

在一些实施例中，源位置可以被定义为位置列向量p_l,src，其包含x,y,z笛卡尔坐标，或者为了简化说明，仅包含x,y坐标。源l与阵列j之间的距离可以被定义为：

d_ij＝‖p_k,src-p_k,arr‖

位置数据可以随时间变化，即使在公式中没有明确描述。

在一些实施例中，可以利用波束成形和后滤波来实现声音场景处的源的能量的确定。

在图4中进一步详细示出了示例源能量确定器205。图4示出了例如阵列-源关联器401，其被配置为接收麦克风阵列位置270和源位置信息290。阵列-源关联器401被配置为确定阵列-源对，其中，每个源与一个阵列相关联。对于源索引l，l＝1,…,L_src，其中，L_src是已知源的数量，配对的麦克风阵列索引被标示为j_l。配对可以是仅通过在j上最小化d_lj来选择距离每个源l的最接近阵列。可替代地，如果存在许多可用阵列，则在可能的情况下，也可以将每个源与唯一的附近阵列配对，即使这意味着特定阵列不是最接近的。进而，可以将关联阵列j_l的索引402提供给波束成形器(和后置滤波器)403。

波束成形器(和后置滤波器)403被配置为接收关联阵列j_l的索引402、麦克风阵列位置270、源位置信息290和时频阵列信号202。基于麦克风阵列位置270和源位置信息290，确定来自关联阵列j_l的每个源l的方向，并且针对阵列j_l向源l的方向执行波束成形以确定源l的能量。针对每个源l，针对阵列j_l，确定将波束模式从阵列j_l朝向源l聚焦的波束成形权重w_l(b,n)(为了简洁起见，省略了阵列索引j_l)。波束成形权重设计可以是静态的或自适应的。由于本示例基于采用Ambisonic格式的信号，并且更具体地使用已知的SN3D归一化方案，因此可以基于朝向焦点方向的Ambisonic编码系数，通过w_l(b,n)＝a/L来表示示例静态波束成形器，其中，L是Ambisonic阶数，a是朝向焦点方向的Ambisonic编码系数的向量。针对每个源l的焦点方向朝向到达方向单位向量：

已知的自适应波束成形方法包括最小方差无失真响应(MVDR)波束成形器，其中，在我们的示例中，Ambisonic编码系数可以被用作已知的MVDR公式中的阵列引导向量。各种其他波束成形方法在文献中是众所周知的。

波束成形权重w_l(b,n)被应用于阵列j_l的信号以通过下式来获得波束成形器输出信号beam_l(b,n)：

其中，g_l(b,n)是下面进一步描述的可选的后置滤波器增益，并且

其中，是阵列j_l处的音频通道的总数，例如，如果具有三阶Ambisonic信号，则为16。

可以利用后置滤波器进一步处理波束成形器输出。在一些实施例中，后置滤波器可以是频率仓中的增益，其改进波束成形器输出的频谱精度，以使得频谱与从源的方向到达的声音的频谱更好地匹配。一种有效的用于后滤波的方法基于自适应正交波束成形器，如Symeon Delikaris-Manias、Juha Vilkamo和Ville Pulkki的“球谐域中基于加权正交波束成形的信号相关空间滤波(Signal-dependent spatial filtering based onweighted-orthogonal beamformers in the spherical harmonic domain)”(IEEE/ACM音频、语音和语言处理期刊24.9(2016年)：第1511-1523页)中所描述的。另一种方法是当可用时监视空间元数据(方向、比率)，并且当已知声音从源的方向之外的另一个方向到达时，或者当声音是环境声音时，衰减信号。不管所应用的后置滤波器如何，后置滤波器算法的结果是增益g_l(b,n)，其被应用以获得如上述公式中的波束成形器输出。

因此，在一些实施例中，每/按照频带的临时源信号能量可以被表示为：

用于表示临时能量的一种替代方法是：

在上面，利用波束成形器和可选的后置滤波器来估计临时源能量。在替代实施例中，可以采用后滤波技术(即，没有单独的波束成形器)以进行临时源能量估计，因为一些后置滤波器涉及实际估计观察方向上的声音能量的步骤。

进而，临时源信号能量被归一化为距离源位置的1-米距离(1-metre distances)。首先，基于“源位置信息”和“麦克风阵列位置”，表示源l与阵列j_l之间以米为单位的距离并进而通过下式将能量归一化为1-米距离：

在一些实施例中，在应用上述公式之前，距离值被限制在最大允许值内，以避免当源远离阵列时由于估计误差而产生的伪影。注意，尽管没有明确地写入公式中，但位置数据和相关值(诸如距离)中的任何一个都可以根据时间而变化(例如，在移动源的情况下)。

在一些实施例中，还可以通过利用多个阵列执行波束成形(和/或后滤波)以及组合结果(例如，从所获得的估计中采取最小能量值)来获得能量估计。

进而，可以从波束成形器(和后置滤波器)403输出源能量E_l,src(k,n)206(并且也是源能量确定器205的输出)。

关于图5，示出了示例源能量确定器205的操作的流程图。

在图5中由步骤501示出了获得麦克风阵列位置。

在图5中由步骤502示出了获得源位置信息。

在图5中由步骤503示出了获得时频阵列音频信号。

在已获得麦克风阵列位置、源位置信息和时频阵列音频信号后，实现阵列-源关联，如图5中步骤505所示。

进而，在已将阵列与源相关联后，可以实现波束成形和可选的后滤波以生成源能量，如图5中步骤507所示。

进而，可以输出源能量，如图5中步骤509所示。

以上是确定源能量的一种方法的示例，并且在一些实施例中，可以针对相同的目的实现其他方法。

例如，另一种方法将会是：

确定从阵列到源的一组波束(通过波束成形)，以使得每个源在至少一个波束的最大焦点方向上；

确定这些波束的能量，并将它们收集到列向量b；

确定矩阵G，其由能量乘数值组成，这些能量乘数值指示每个源的能量对每个波束的能量具有多大贡献。例如，第一列和第二行处的条目表示从第一源到第二波束的能量乘数；

通过求逆e＝G^-1b，从公式b＝Ge中对包含源能量的向量e进行求解，其中，矩阵G^-1指示逆或伪逆，并且它可以被正则化。

返回到图2，在一些实施例中，该***还包括位置预处理器211。位置预处理器211被配置为接收有关音频环境内的麦克风阵列位置270和收听者位置280的信息。

如现有技术中已知的，参数化空间音频捕获和渲染的关键目的是为收听者获得感知上准确的空间音频再现。因此，位置预处理器211被配置为能够针对任何位置(因为收听者可移动到任意位置)确定内插数据以允许基于麦克风阵列位置270和收听者位置280来内插和修改元数据。

在本文的示例中，麦克风阵列位于一个平面上。换句话说，这些阵列没有z轴位移分量。然而，在一些实施例中，可以将实施例扩展到z轴，以及扩展到麦克风阵列位于一条线上的情形(换句话说，只有一个轴位移)。

例如，图6示出了其中麦克风阵列(被示为圆形阵列1 601、阵列2 603、阵列3 605、阵列4 607和阵列5 609)位于一个平面上的麦克风装置。已在阵列位置处确定空间元数据。该装置具有在一个平面上的五个麦克风阵列。例如，可以通过德劳内三角剖分(Delaunaytriangulation)将该平面划分成内插三角形。当用户移动到三角形内的位置(例如，位置1611)时，选择形成包含该位置的三角形的三个麦克风阵列(在此示例情形中是阵列1 601、阵列3 605和阵列4 607)以用于内插。当用户在这些麦克风阵列所跨越的区域之外(例如，位置2 613)移动时，用户位置被投影到在这些麦克风阵列所跨越的区域处的最接近位置(例如，投影位置2 614)，进而其中投影位置驻留的阵列-三角形被选择以用于内插(在此示例中，这些阵列是阵列2 603、阵列3 605和阵列5 609)。

在以上示例中，位置的投影因此将由麦克风装置所确定的区域之外的位置映射到由这些麦克风装置所确定的区域的边缘。然而，这仅影响声场的残余部分，其通常主要包含环境和混响，对其而言，这种微小的位置偏移通常是无害的。在一些实施例中，根据如本文描述的实际(非投影)收听者位置来渲染在方向上更重要的直接声源。

因此，位置预处理器211可以确定：

收听者位置向量p_List(在该示例中为包含x和y坐标的2×1向量)，其可以是原始位置，或者当发生投影时是投影位置；

三个麦克风装置索引j_List,1、j_List,2、j_List,3和对应的位置向量这三个麦克风装置是封装了(潜在的投影)位置P_List的那些麦克风装置。

位置预处理器211还可以进一步表示内插权重w₁、w₂、w₃。可以例如使用以下已知的重心坐标与笛卡尔坐标之间的转换来表示这些权重。首先，基于位置向量通过将每个向量附加有单位值(unity value)并将所得到的向量组合到矩阵中来确定3x3矩阵：/>

进而，使用矩阵逆和通过将向收听者位置向量p_L附加有单位值而获得的3x1向量来表示权重：

内插权重(w₁、w₂和w₃)、位置向量(P_List、p_jList,1、p_jList,2和p_jList,3)以及麦克风装置索引(j_List,1、j_List,2和j_List,3)共同形成内插数据212，其被提供给信号内插器209以及残余元数据确定器和内插器213。

在一些实施例中，该***包括残余元数据确定器和内插器213，其被配置为接收内插数据212、麦克风阵列位置270、阵列能量208、源能量206以及针对每个阵列的元数据204。残余元数据确定器和内插器213被配置为从针对每个阵列的元数据204中减去(或以其他方式减小/抑制)已知源的贡献(由源能量206和源位置信息290所确定)。这允许在没有这些已知源的影响(或者具有减小/抑制的影响)的情况下获得空间元数据。这继而允许分别渲染已知源和残余(剩余)声音。

在一些实施例中，残余元数据确定器和内插器213被配置为将阵列位置处的残余元数据映射或内插到收听者位置(或者，在位置被投影的情况下为投影位置)。

在图7中示出了示例残余元数据确定器和内插器213的示意图。在图8的流程图中示出了由示例残余元数据确定器和内插器213实现的操作。

在一些实施例中，残余元数据确定器和内插器213包括残余元数据确定器701。残余元数据确定器701被配置为确定针对每个麦克风阵列的残余元数据。在一些实施例中，这仅针对用于元数据内插的阵列而执行。残余元数据确定器701的输入是针对每个阵列的元数据(方位角θ_j(k,n)、仰角以及直接对总能量比率r_j(k,n))、针对每个阵列的能量E_j,arr(k,n)、阵列位置p_j,arr、源能量E_l,src(k,n)和源位置p_l,src。

使用元数据和阵列能量，针对每个阵列估计强度向量：

进而，针对每个阵列j估计直接源的强度和能量：

其中，γ_jl是源l向麦克风j的到达方向(作为单位向量)：

其中，d_lj是从源l到麦克风j的距离。使用所确定的源和阵列强度和能量，针对每个阵列确定残余强度和能量：

i_j,res(k,n)＝i_j(k,n)-i_j,dir(k,n)

e_j,res(k,n)＝max[eps,(E_j(k,n)-E_j,dir(k,n))]

其中，eps是小值以避免在随后运算中被除以零。

使用所确定的残余强度和能量，以及标示：

i_j,res(k,n)＝[i₁(k,n) i₂(k,n) i₃(k,n)]^T

可以确定残余元数据：

θ_j,rwwes(k,n)＝atan2(i₂(k,n),i₁(k,n))

或者，如果i₁(k,n)＝i₂(k,n)＝0，则θ_j,res(k,n)＝0，以及

或者，如果i₁(k,n)＝i₂(k,n)＝i₃(k,n)＝0，则以及

进而，可以将针对每个阵列的残余元数据702输出到元数据内插器703。

元数据内插器703被配置为使用被包含在内插数据212内的内插权重w₁、w₂、w₃来内插残余元数据。

首先，残余空间元数据被转换为向量形式：

进而，通过下式对这些向量进行平均：

进而，标示：

v(k,n)＝[v₁(k,n) v₂(k,n) v₃(k,n)]^T

通过下式来获得经内插的残余元数据214：

θ′(k,n)＝atan2(v₂(k,n),v₁(k,n))

/>

此外，元数据内插器703可以被配置为通过下式来表示残余能量216：

进而，输出经内插的残余元数据214和残余能量216，并且还形成残余元数据确定器和内插器213的输出。

因此，总的来说，残余元数据确定器和内插器213的操作是：

在图8中由步骤801示出了获得针对每个阵列的元数据。

在图8中由步骤802示出了获得源能量。

在图8中由步骤803示出了获得麦克风阵列位置。

在图8中由步骤804示出了获得源位置信息。

在图8中由步骤805示出了获得时频阵列音频信号。

在已获得元数据、源能量、麦克风阵列位置、源位置信息和时频阵列音频信号后，确定残余元数据，如图8中步骤807所示。

在图8中由步骤808示出了获得内插数据。

进而，在已确定残余元数据并获得内插数据后，对元数据进行内插以确定经内插的残余元数据和残余能量，如图8中步骤809所示。

进而，可以输出经内插的残余元数据和残余能量，如图8中步骤811所示。

在一些实施例中，该***还包括信号内插器209。信号内插器209被配置为接收时频阵列音频信号202、阵列能量208和内插数据212。

信号内插器209进而可以被配置为针对索引j_List,1、j_List,2、j_List,3，确定距离值d_jList,x＝|p_List-p_jList,x|，并且具有最小距离的索引被标示为j_minD。

进而，信号内插器209被配置为确定所选择的索引j_sel。对于第一帧(或者，当处理开始时)，信号内插器可以设置j_sel＝j_minD。

对于下一帧或后续帧(或者任何所期望的时间分辨率)，当用户位置可能已发生变化时，信号内插器被配置为决定选择j_sel是否需要改变。如果j_List,1、j_List,2、j_List,3没有包含j_sel，则需要进行改变。这种情况意味着用户已经移动到另一个不包含j_sel的区域。如果则也需要改变，其中，α是阈值。例如，α＝1.2。这种情况意味着与j_sel的阵列位置相比，用户已明显更接近j_minD的阵列位置。需要该阈值，从而当用户位于这两个位置的中间时选择不会来回不规则地变化(换句话说，提供滞后阈值以防止在阵列之间的快速切换)。

如果上述任一条件被满足，则j_sel＝j_minD。否则，保留j_sel的先前值。

中间内插的信号被确定为：

利用这种处理，当j_sel发生变化时，随之而来的是选择针对所有频带同时改变。在一些实施例中，选择被设置为以频率相关的方式进行改变。例如，当j_sel发生变化时，一些频带会立即被更新，而一些其他频带会在接下来的帧被改变，直到所有频带都被改变为止。可需要以这种频率相关的方式改变信号，以减少在信号S′_interp(b,n,i)处的潜在切换伪影。在这种配置中，当切换发生时，可能在很短的转变时间段内，信号S′_interp(b,n,i)的某些频率来自一个麦克风阵列，而其他频率来自另一个麦克风阵列。

进而，对中间内插的信号S′_interp(b,n,i)进行能量校正。均衡增益在频带中被表示为：

ρ_max值限制了过度放大，例如，ρ_max＝4。进而，通过乘法来执行均衡：

S_interp(b,n,i)＝ρ(k,n)S′_interp(b,n,i)

其中，k是其中仓b驻留的频带索引。进而，信号S(b,n,i)是被输出到合成处理器的经内插的信号210。

换句话说，信号内插器被配置为基于与两个或更多个音频信号集中的至少两个音频信号集相关联的位置和收听者位置，从来自两个或更多个音频信号集(来自阵列)中的至少一个音频信号集生成至少一个音频信号。在一些实施例中，该生成可以是从来自音频信号集中的音频信号中的选择(换句话说，所生成的音频信号是哪个音频信号被传递到合成处理器的指示)。

此外，该***包括合成处理器215。合成处理器215可以被配置为接收收听者定向信息220(例如，头部定向跟踪信息)以及经内插的信号210、收听者位置信息280、经内插的残余元数据214、残余能量216、源能量206、源位置信息290。

在一些实施例中，合成处理器被配置为确定要在以下公式中使用的向量旋转函数。根据Laitinen,M.V.的“用于定向音频编码的双耳再现(Binaural reproduction fordirectional audio coding)”(赫尔辛基理工大学硕士论文，第54-55页，2008年)中的原则，可以将旋转函数定义为：

其中，偏航(yaw)、俯仰(pitch)和翻滚(roll)是头部定向参数，x、y、z是正被旋转的单位向量的值。结果是x'、y'、z'，其是经旋转的单位向量。映射函数执行以下步骤：

1.偏航旋转：

x₁＝cos(yaw)x+sin(yaw)y

y₁＝-sin(yaw)x+cos(yaw)y

z₁＝z

2.俯仰旋转：

y₂＝y₁

3.最后，翻滚旋转：

x′＝x₂

在已确定这些参数后，合成处理器215可以实现合适的空间渲染。在图9中进一步详细示出了合适的空间渲染的示例。

在一些实施例中，合成处理器215包括原型信号发生器901。在一些实施例中，原型信号发生器901被配置为接收经内插的(时频)信号210以及头部(用户/收听者)定向信息220。

原型信号是至少部分类似于经处理的输出的信号，并因此其可以充当执行参数化渲染的良好起点。在所示的示例中，输出是双耳信号，并因此原型信号被设计以使得它具有两个通道(左和右)，并根据用户的头部定向在空间音频场景中被定向。双通道(i＝1,2)原型信号可以例如由下式表示：

其中，p_i,i是根据头部定向信息的混合权重。例如，原型信号可以是从Ambisonic信号的经内插的FOA分量生成的两个心形图案信号，一个指向左方向(相对于用户的头部定向)，一个指向右方向。当p_1,1＝p_2,1＝0.5并且如下(假定WYZX通道顺序)时获得这种图案/模式：

p_1,2＝0.5[cos(yaw)cos(roll)+sin(yaw)sin(pitch)sin(roll)]

p_1,3＝-0.5cos(pitch)sin(oll)

p_1,4＝0.5[cos(yaw)sin(pitch)sin(roll)-sin(yaw)cos(roll)]

以及

心形原型信号的上述示例仅仅是一个示例。在其他示例中，原型信号对于不同的频率可以不同，例如，在更低频率时，与心形相比空间图案的方向性可能更少，而在更高频率时，形状可以是心形的。这种选择是有动机的，因为它比宽带心形模式更类似于双耳信号。然而，应用哪个图案设计并不是很关键，只要一般趋势是针对原型信号获得一些左右差分即可。这是因为下面所描述的参数化处理步骤无论如何都会校正通道间特征。

进而，原型信号902可以以向量形式被表示为：

进而，这些原型信号可以被输出到协方差矩阵估计器903和混合器909。在一些实施例中，原型信号的生成可以被配置为能量保持，以使得在频带中，原型信号具有与输入时频信号的全向分量相同的能量，即，与S_interp(b,n,1)相同的整体能量(每频带)。

在一些实施例中，合成处理器215包括协方差矩阵估计器903，其被配置为在频带中估计时频原型信号的协方差矩阵908。如前所述，协方差矩阵908可以被估计为：

协方差矩阵的估计可以涉及时间平均，诸如无限脉冲响应(IIR)平均或在若干时间索引n上的有限脉冲响应(FIR)平均。

所估计的协方差矩阵908可以被输出到混合规则确定器907。

合成处理器215还可以包括目标协方差矩阵确定器905。目标协方差矩阵确定器905被配置为接收经内插的残余空间元数据214、残余能量估计216、头部位置280、源位置信息290以及源能量206。

在该示例中，经内插的残余空间元数据214包括方位角θ′(k,n)、仰角以及直接对总能量比率r′(k,n)。在一些实施例中，目标协方差矩阵确定器905还接收头部定向(偏航、俯仰和翻滚)信息220。

在一些实施例中，目标协方差矩阵确定器被配置为根据头部定向通过下式来旋转空间元数据：

进而，经旋转的方向是：

θ″(k,n)＝atan2(v′₂(k,n),v′₁(k,n))

目标协方差矩阵确定器905还可以使用预先存在于合成处理器处的HRTF(头部相关传递函数)数据集。假定从该HRTF集中可以针对任何角度和频带k获得2x1复值头部相关传递函数(HRTF)/>例如，HRTF数据可以是已被预变换到频域的密集HRTF集，从而可以在频带k的中间频率处获得HRTF。进而，在渲染时，可以选择相对于期望方向最接近的HRTF对。在一些实施例中，可以执行两个或更多个最接近数据点之间的内插。文献中已经描述了各种用于内插HRTF的手段。

在HRTF数据集，还已经针对每个频带k表示了扩散场协方差矩阵。例如，可以通过以下操作来获得扩散场协方差矩阵：采用一组均匀分布的方向(其中，d＝1..D)以及将扩散场协方差矩阵估计为：

进而，目标协方差矩阵确定器805可以通过下式来表示目标协方差矩阵：

C_y(k,n)＝C_res(k,n)+C_dir(k,n)

其中

以及

其中，d_l,list是从第l个源到收听者位置的距离，并且θ_l(n)、是第l个源到收听者位置的头部跟踪方位角和仰角。可以利用与先前针对空间元数据描述相同的旋转方法来执行头部跟踪。

在一些实施例中，乘数被限制为最大值(例如，被限制为4)，以避免当收听者移动接近源位置时过大的声音级别。

进而，目标协方差矩阵C_y(k,n)被输出到混合规则确定器907。

在一些实施例中，合成处理器215还包括混合规则确定器907。混合规则确定器907被配置为接收目标协方差矩阵C_y(k,n)和经度量的协方差矩阵C_x(k,n)，并生成混合矩阵M(k,n)。混合过程可以使用Vilkamo,J.、T.和Kuntz,A.的“用于空间音频的时频处理的优化协方差域框架(Optimized covariance domain framework for time–frequency processing of spatial audio)”(音频工程学会期刊，第61卷，第6期，第403-411页，2013年)中所描述的方法来生成混合矩阵。

在上述参考文献的附录中提供的公式可以被用于制定混合矩阵M(k,n)。在本发明公布中，为了清楚起见，针对矩阵使用相同的标记。在一些实施例中，混合规则确定器907还被配置为确定指导混合矩阵912的生成的原型矩阵：

这些矩阵的基本原理以及用于基于这些矩阵而获得混合矩阵M(k,n)的公式在上面所引用的参考文献中进行了详细描述，在此不再赘述。简单来说，该方法提供了混合矩阵M(k,n)，以使得当被应用于具有协方差矩阵C_x(k,n)的信号时，以最小二乘优化的方式产生具有与C_y(k,n)基本相同或相似的协方差矩阵的信号。在这些实施例中，原型矩阵Q是单位矩阵，因为原型信号的生成已经由原型信号生成器901实现。具有单位原型矩阵意味着处理旨在产生与输入(即，相对于原型信号)尽可能相似的输出，同时获得目标协方差矩阵C_y(k,n)。可以从(2017年，Politis等)Politis A.、McCormack L.和Pulkki V.在2017年的“使用具有最优自适应混合的定向音频编码来增强Ambisonic双耳再现(Enhancement ofambisonic binaural reproduction using directional audio coding with optimaladaptive mixing)”(2017IEEE信号处理在音频和声学中的应用研讨会(WASPAA)(第379-383页))中发现示例渲染方案。针对每个频带k来表示混合矩阵M(k,n)912，并将其提供给混合器。

在一些实施例中，合成处理器215包括混合器909。混合器909被配置为接收时频原型音频信号902和混合矩阵912。混合器909处理输入原型信号902以生成两个经处理的(双耳)时频信号914。

其中，仓b驻留在频带k中。

上述过程假定输入信号x(b,n)在它们之间具有合适的不相干性，以渲染具有期望的目标协方差矩阵特性的输出信号y(b,n)。在某些情况下，输入信号可能不具有合适的通道间不相干性。在这些情况下，需要使用去相关操作以基于x(b,n)生成去相关信号，并将这些去相关信号混合成特定的残余信号，其被添加到上述方程式中的信号y(b,n)中。获得这种残余信号的过程已在先前引用的参考文献中进行了说明。注意，先前引用中的残余信号与如本文讨论的声音场景的残余部分是不同的概念。在引用中，残余信号是指在渲染阶段的声音的去相关部分。在本文中，残余能量、残余元数据是指声音场景特性。

进而，混合器909被配置为输出经处理的双耳时频信号y(b,n)914，其被提供给逆T/F变换器911。

在一些实施例中，合成处理器215包括逆T/F变换器911，其将与所应用的时频变换对应的逆时频变换(例如如果信号在STFT域中则为逆STFT)应用于经处理的双耳时频信号914，以生成空间化音频输出218，其可以采用可在头戴式耳机上被再现的双耳形式。

针对图10的流程图，示出了图9中所示的合成处理器的操作。

因此，该方法包括获得经内插的(时频)信号，如图10中步骤1001所示。

此外，获得收听者头部定向，如图10中步骤1002所示。

进而，基于经内插的(时频)信号和头部定向，生成原型信号，如图10中步骤1003所示。

附加地，基于原型信号，生成协方差矩阵，如图10中步骤1005所示。

此外，可以获得经内插的残余元数据、残余能量、头部(收听者)位置、源位置信息以及源能量，如图10中步骤1006所示。

基于经内插的残余元数据、残余能量、头部(收听者)位置和定向、源位置信息以及源能量，确定目标协方差矩阵，如图10中步骤1007所示。

进而，可以确定混合规则，如图10中步骤1009所示。

基于混合规则和原型信号，可以生成混合(如图10中步骤1011所示)以生成空间化音频信号。

进而，可以输出空间化音频信号，如图10中步骤1013所示。

关于图3，示出了如图2中所示的示例***的流程图。

在图3中由步骤301示出了获得基于麦克风阵列信号的多个信号集。

在图3中由步骤305示出了对麦克风阵列信号进行时频域变换。

在已确定经时频域变换的麦克风阵列信号后，可以确定阵列能量，如图3中步骤307所示。

此外，可以对每个阵列进行空间分析，如图3中步骤309所示。

在图3中由步骤302示出了获得麦克风阵列位置。

此外，在图3中由步骤303示出了获得收听者定向/位置。

在已获得麦克风阵列位置和收听者定向/位置后，进而可以对位置进行处理，如图3中步骤311所示。

在图3中由步骤304示出了获得源位置信息。

在已获得源位置信息和麦克风阵列位置后，确定源能量，如图3中步骤313所示。

在已对每个阵列进行空间分析、确定阵列能量并处理位置后，可以对信号进行内插，如图3中步骤315所示。

此外，可以对元数据进行内插，如图3中步骤317所示。

在已内插元数据和信号后，进而合成空间音频信号，如图3中步骤319所示。

进而，输出空间音频信号，如图3中步骤321所示。

在一些实施例中，如图2中所示的***可以在两个单独的装置中实现，即如图11中所示的编码器处理器1100和如图13中所示的解码器处理器1300，并且添加了编码器/复用器(MUX)1101和解复用器(DEMUX)/解码器1301。

在这些实施例中，编码器处理器1100被配置为接收多个信号集200、源位置信息290和麦克风阵列位置270作为输入。此外，编码器处理器1100包括时频变换器201，其被配置为生成时频音频信号；空间分析器203，其被配置为接收时频音频信号以及输出针对每个阵列的元数据204。此外，编码器处理器1100包括源能量确定器205，其被配置为接收时频阵列音频信号202、麦克风阵列位置270和源位置信息290，以及生成源能量206。

编码器处理器1100还包括编码器/MUX 1101，其被配置为接收多个信号集200、针对每个阵列的元数据204、麦克风阵列位置270、源位置信息290以及源能量206。编码器/MUX1101被配置为针对音频信号应用合适的编码方案，例如，已在MPEG-H的上下文中描述的对Ambisonic信号进行编码的任何方法。编码器/MUX 1101块还可以下混合或者以其他方式减少将要被编码的音频通道的数量。此外，编码器/MUX 1101可以对空间元数据和麦克风阵列位置270、源位置信息290以及源能量206进行量化和编码，并将经编码的结果嵌入到还包括经编码的音频信号的比特流1102中。比特流1102还可以与经编码的视频信号一起在同一媒体容器处提供。进而，编码器/MUX 1101输出比特流1102。根据所使用的比特速率，编码器可已省略一些信号集的编码，并且如果是这种情况，则它可已省略对应的阵列位置和元数据的编码(然而，它们也可被保留以用于元数据内插)。

图12示出了图11中所示的编码器处理器1101的操作的概述的流程图。

该编码器被配置为获得麦克风阵列信号的多个信号集，如图12中步骤1201所示。

该编码器进而被配置为对基于麦克风阵列信号的多个信号集进行时频变换，如图12中的步骤1203所示。

该编码器进而被配置为对每个阵列进行空间分析，如图12中步骤1205所示。

该编码器被配置为获得麦克风阵列位置，如图12中步骤1202所示。

此外，该编码器被配置为获得源位置信息，如图12中步骤1204所示。

该编码器进而被配置为确定源能量，如图12中步骤1207所示。

该编码器进而被配置为对所确定的和所获得的信号进行编码和复用，如图12中步骤1209所示。

解码器处理器1300包括DEMUX/解码器1301。DEMUX/解码器1301被配置为接收比特流1102，以及对以下各项进行解码和解复用：基于麦克风阵列的多个信号集200(并将它们提供给时频变换器201)、麦克风阵列位置270(并将它们提供给位置预处理器211以及残余元数据确定器和内插器213)、针对每个阵列的元数据204(并将它们提供给残余元数据确定器和内插器213)、源能量206(并将它们提供给残余元数据确定器和内插器213以及合成处理器215)、以及源位置信息290(并将它们提供给残余元数据确定器和内插器213以及合成处理器215)。

此外，解码器处理器1300包括时频变换器201、阵列能量确定器207、信号内插器209、位置预处理器211、残余元数据确定器和内插器213以及合成处理器215，如先前详细讨论的。

关于图14，示出了如图13中所示的解码器处理器的操作的流程图。

可以获得经编码和复用的信号，如图14中步骤1400所示。

进而，对经编码和复用的信号进行解码和解复用，如图14中步骤1401所示。

进而，对经解码的麦克风阵列音频信号进行时频域变换，如图14中步骤1403所示。

进而，确定阵列能量，如图14中步骤1405所示。

获得收听者定向/位置，如图14中步骤1402所示。

在已获得收听者定向/位置并对来自所获得的比特流的麦克风阵列位置进行解码/解复用后，进而可以通过处理相对位置来获得内插因子，如图14中步骤1404所示。

在已通过处理相对位置和信号/元数据而获得内插因子后，该方法进而可以对信号进行内插(如图14中步骤1407所示)，以及确定并内插残余元数据(如图14中步骤1409所示)。

在已确定并内插残余元数据和信号以及收听者定向/位置(并且已对源能量206和源位置信息进行解码/解复用)后，该方法进而可以应用合成处理，如图14中步骤1411所示。

输出空间化音频，如图14中步骤1403所示。

关于图15，示出了图11和13的编码器和解码器处理器的示例应用。

在该示例中，存在三个麦克风阵列，其例如可以是具有足够数量的麦克风(例如，30个或更多个)的球形阵列，或者是其表面上安装有麦克风的VR相机(例如，OZO等)。因此，示出了麦克风阵列1 1501、麦克风阵列2 1511和麦克风阵列3 1521，它们被配置为将音频信号输出到计算机1 1505(并且在此示例中为FOA/HOA转换器1515)。

此外，每个阵列还配备有提供对应阵列的位置信息的***。因此，示出了麦克风阵列1***1503、麦克风阵列2***1513和麦克风阵列3***1523，它们被配置为将位置信息输出到计算机1 1505(并且在此示例中为编码器处理器1100)。

图15中的***还包括计算机即计算机1 1505，其包括FOA/HOA转换器1515，其被配置为将阵列信号转换为一阶Ambisonic(FOA)或高阶Ambisonic(HOA)信号。将麦克风阵列信号转换为Ambisonic信号是已知的并且未在本文中详细描述，但如果阵列例如是Egenmikes，那么存在用于将麦克风信号转换为Ambisonic形式的可用手段。

FOA/HOA转换器1515将经转换的Ambisonic信号以基于麦克风阵列信号1516的多个信号集的形式输出到编码器处理器1100，其可以操作为如上所述的编码器处理器1100。

麦克风阵列***1503、1513、1523被配置为通过合适的接口(例如，通过蓝牙连接)将麦克风阵列位置信息提供给计算机1 1505中的编码器处理器。在一些实施例中，阵列***还提供旋转对齐信息，可以提供该旋转对齐信息以在计算机1 1505处旋转对齐FOA/HOA信号。

在计算机1处的编码器处理器1100进一步被配置为从声源***1551接收声源信息。声源***1551被配置为提供声源位置以用于编码器处理。声源***可以是基于例如基于无线电的室内定位标签和一个或多个***天线的自动***，或者是来自声音制作工程师的手动输入。声源***通过合适的接口向计算机1 1505提供声源位置，例如经由蓝牙、经由局域网、使用合适的通信协议(诸如UDP)。作为另一个示例，经由文件I/O的输入可以被用作接口。

在计算机1 1505处的编码器处理器1100被配置为处理基于麦克风阵列信号的多个信号集和麦克风阵列位置，以及提供经编码的比特流1506作为输出。

比特流1506可以被存储和/或发送，并且进而计算机2 1507的解码器处理器1300被配置为从存储设备中接收或获得比特流1506。解码器处理器1300还可以从用户正在佩戴的HMD(头戴式显示器)1531的位置/定向***获得收听者位置和定向信息。在该示例中，收听者位置是物理收听空间中的“物理”位置。然而，将理解，在一些实施例中，收听者位置是例如由一些用户输入部件所提供的“虚拟”位置。例如，鼠标、操纵杆或其他指针设备可以在屏幕上指示表示虚拟收听场景位置的位置。基于比特流1506以及收听者位置和定向信息1530，计算机2 1507的解码器处理器被配置为生成双耳空间化音频输出信号1532，并经由合适的音频接口提供它们以在用户正在佩戴的头戴式耳机1533上进行再现。

在一些实施例中，计算机2 1507与计算机1 1505是相同的设备，但在典型情况下，它们是不同的设备或计算机。该上下文中的计算机可以是指台式/膝上型计算机、处理云、游戏控制器、移动设备、或能够执行本发明公开中所描述的处理的任何其他设备。

在一些实施例中，比特流1506是MPEG-I比特流。在一些其他实施例中，它可以是任何合适的比特流。

在上述实施例中，定向音频编码的空间参数化分析可以被替换为自适应波束成形方法。自适应波束成形方法例如可以是基于Archontis Politis、Sakari Tervo和VillePulkki的“COMPASS：Ambisonic声音场景的编码和多向参数化(COMPASS:Coding andMultidirectional Parameterization of Ambisonic Sound Scenes)”(IEEE声学、语音和信号处理国际会议(ICASSP)，2018年)中所概述的COMPASS方法。

以上所提出的方法假定知道最突出的源的位置(例如，经由位置***)。然而，在替代实施例中，还可以使用麦克风阵列信号来估计源的位置。特别是如果可以非实时地执行位置估计(例如，分析整个记录)，则可以假定可靠的估计。

在估计位置的情况下，添加可靠性因子可以很有用。在这种情况下，可以通过该因子对直接声音能量估计进行加权。让我们假定针对每个源具有可靠性因子Ξ_l,src(n)(具有在0到1之间的值)，其中，1表示声源在对应方向上的高可靠性，0表示低可靠性。进而，源能量E_l,src(k,n)可以例如通过使用下式来估计：

在替代实施例中，可以编辑所提取的直接声音分量的位置(和/或一些其他特征)。例如，如果在某个位置中存在某个声源，并且其位置被提供以进行处理，则可以将源的位置编辑到某个其他位置，以使得声源将被渲染到所编辑的位置。

在一些实施例中，突出源的强烈早期反射也可以被用作单独的源。特别地，MPEG-I音频场景可以包含将场景几何形状描述为网格。基于场景几何形状，可以针对最突出的源来确定一个或多个图像源，并且这些使用图像源，一个或多个早期反射位置可以被确定为附加的声源。其益处在于突出早期反射可以更清晰地被渲染，因为它们被视为突出源。在渲染期间，根据用户位置，使用相同的几何模型来更新反射位置，并且相应地更新与反射对应的源的位置。否则，用于反射声源的处理与用于普通声源的处理相同。

在一些实施例中，当确定经内插的方向和比率时，残余元数据的内插可以使用能量加权：

进而，通过下式对这些向量进行平均：

进而，标示：

v(k,n)＝[v₁(k,n) v₂(k,n) v₃(k,n)]^T

通过下式来获得经内插的残余元数据：

θ′(k,n)＝atan2(v₂(k,n),v₁(k,n))

在一些其他实施例中，可以通过下式通过内插残余强度来执行残余元数据的内插：

进而，通过下式来获得经内插的残余元数据：

θ′(k,n)＝atan2(i_2,res(k,n),i_1,res(k,n))

其中，i_1,res(k,n)、i_2,res(k,n)、i_3,res(k,n)是向量i_res(k,n)的条目。

在一些替代实施例中，原型信号发生器可以生成与上述心形信号不同种类的原型信号。例如，它可以通过对输入HOA信号应用静态HOA到双耳矩阵来生成双耳信号(在已基于“头部定向”对HOA信号应用旋转后)。这可以提高质量，因为所生成的中间双耳信号的特征可以比心形信号更接近目标双耳信号。

在一些替代实施例中，目标协方差矩阵确定器可以以不同的方式确定目标协方差矩阵。例如，它可以首先确定组合方向、直接对总能量比率以及能量，并进而使用它们来确定目标协方差矩阵，例如通过下式：

在上文中，术语“残余能量值”或“残余能量”可以被理解为更一般地指代残余/残差值。

类似地，在一些实施例中，源能量值可以是与源能量值相关联的值，诸如幅度值或其他突出相关的值。

针对图16，示出了可以被用作计算机、编码器处理器、解码器处理器、或本文所描述的任何功能块的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1600是移动设备、用户设备、平板电脑、计算机、音频播放装置等。

在一些实施例中，设备1600包括至少一个处理器或中央处理单元1607。处理器1607可以被配置为执行各种程序代码，例如，如本文描述的方法。

在一些实施例中，设备1600包括存储器1611。在一些实施例中，至少一个处理器1607被耦接到存储器1611。存储器1611可以是任何合适的存储部件。在一些实施例中，存储器1611包括用于存储可在处理器1607上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1611还可以包括用于存储数据(例如根据本文描述的实施例已被处理或将要被处理的数据)的存储数据部分。每当需要时，可以由处理器1607经由存储器-处理器耦接来取回存储在程序代码部分内的所实现的程序代码和存储在存储数据部分内的数据。

在一些实施例中，设备1600包括用户接口1605。在一些实施例中，用户接口1605可以被耦接到处理器1607。在一些实施例中，处理器1607可以控制用户接口1605的操作，并从用户接口1605接收输入。在一些实施例中，用户接口1605可以使用户能够例如经由小键盘向设备1600输入命令。在一些实施例中，用户接口1605可以使用户能够从设备1600获得信息。例如，用户接口1605可以包括显示器，其被配置为向用户显示来自设备1600的信息。在一些实施例中，用户接口1605可以包括触摸屏或触摸接口，其能够使信息被输入到设备1600，并且还向设备1600的用户显示信息。

在一些实施例中，设备1600包括输入/输出端口1609。在一些实施例中，输入/输出端口1609包括收发机。在这种实施例中，收发机可以被耦接到处理器1607，并被配置为使能例如经由无线通信网络与其他装置或电子设备通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或无线耦接与其他电子设备或装置通信。

收发机可以通过任何合适的已知通信协议与其他装置通信。例如，在一些实施例中，收发机可以使用合适的通用移动电信***(UMTS)协议、无线局域网(WLAN)协议(例如，IEEE 802.X)、合适的短程射频通信协议(例如，蓝牙)、或红外数据通信途径(IRDA)。

收发机输入/输出端口1609可以被配置为发送/接收音频信号、比特流，并且在一些实施例中，通过使用执行合适代码的处理器1607来执行如上所述的操作和方法。

一般而言，本发明的各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以以硬件实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件实现，然而本发明并不限于此。尽管本发明的各方面可以被示出和描述为框图、流程图或者使用一些其他图形表示，但可以理解，作为非限制性示例，本文描述的这些框、装置、***、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件(诸如在处理器实体中，其可由移动设备的数据处理器执行)或硬件或软件和硬件的组合来实现。此外，就此而言，应当注意，如附图中的逻辑流程的任何框可以表示程序步骤、或互连逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可以被存储在以下各项上：诸如存储芯片之类的物理介质、或在处理器内实现的存储块、磁介质以及光介质。

存储器可以具有适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术实现，例如基于半导体的存储设备、磁存储设备和***、光存储设备和***、固定存储器以及可移除存储器。数据处理器可以具有适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括以下中的一项或多项：通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路以及基于多核处理器架构的处理器。

本发明的实施例可以在诸如集成电路模块之类的各种组件中实践。一般而言，集成电路的设计是高度自动化的过程。可以使用复杂且强大的软件工具，将逻辑级别设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序(例如，由位于加利福尼亚州山景城的Synopsys,Inc.和位于加利福尼亚州圣何塞的Cadence Design提供的程序)使用完善的设计规则以及预先存储的设计模块库，在半导体芯片上自动布线导体并定位组件。一旦完成了半导体电路的设计，就可以将标准化电子格式(例如，Opus、GDSII等)的所得设计发送到半导体制造设施或“fab”以进行制造。

前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的全面且信息性的描述。但当结合附图和所附权利要求阅读时，鉴于上面的描述，许多修改和变化对于相关领域的技术人员而言将变得显而易见。然而，本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。

Claims

1.一种装置，包括被配置为执行以下操作的部件：

获得两个或更多个音频信号集，其中，所述两个或更多个音频信号集与相应的音频信号集位置相关联；

针对与所述两个或更多个音频信号集相关联的至少一个参数，获得用于所述两个或更多个音频信号集中的至少两个音频信号集中的每一个音频信号集的至少一个参数值；

获得与所述至少两个或更多个音频信号集中的所述至少两个音频信号集相关联的相应的音频信号集位置；

获得收听者位置，其中，所述收听者位置被配置为至少部分地在音频环境内限定收听者，其中，所述音频环境包括与所述两个或更多个音频信号集相关联的相应的音频信号集位置之间和周围的位置；

获得声源位置信息；

获得和与所述声源位置信息相关联的声源能量相关的值；

基于与所述两个或更多个音频信号集中的所述至少两个音频信号集相关联的相应的音频信号集位置和所述收听者位置，基于来自所述两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号；

基于所获得的用于所述两个或更多个音频信号集中的所述至少两个音频信号集的至少一个参数值、与所述两个或更多个音频信号集中的所述至少两个音频信号集相关联的相应的音频信号集位置、所述声源位置信息、与所述声源能量相关的所述值和所述收听者位置，生成至少一个经修改的参数值和残余值；以及

基于所述至少一个经修改的参数值、所述残余值、所述声源位置信息、和与所述声源位置信息相关联的所述声源能量相关的所述值，处理所述至少一个音频信号以生成空间音频输出。

2.根据权利要求1所述的装置，其中，被配置为获得两个或更多个音频信号集的部件被配置为：从麦克风装置获得所述两个或更多个音频信号集，其中，每个麦克风装置在相应的位置处并包括一个或多个麦克风。

3.根据权利要求1或2中任一项所述的装置，其中，每个音频信号集与相应的音频信号集定向相关联，并且所述部件进一步被配置为获得所述两个或更多个音频信号集的相应的音频信号集定向，其中，所生成的至少一个音频信号进一步基于与所述两个或更多个音频信号集相关联的相应的音频信号集定向，并且其中，所述至少一个经修改的参数值进一步基于与所述两个或更多个音频信号集相关联的相应的音频信号集定向。

4.根据权利要求1至3中任一项所述的装置，其中，所述部件进一步被配置为获得收听者定向，其中，所述收听者定向被配置为在至少部分的六自由度环境内进一步限定所述收听者，其中，所述至少一个经修改的参数值进一步基于所述收听者定向。

5.根据权利要求1至3中任一项所述的装置，其中，所述部件进一步被配置为获得收听者定向，其中，所述收听者定向被配置为在至少部分的六自由度环境内进一步限定所述收听者，并且其中，被配置为基于所述至少一个经修改的参数值、所述残余值、所述声源位置信息、和与所述声源位置信息相关联的所述声源能量相关的所述值，处理所述至少一个音频信号以生成空间音频输出的部件进一步被配置为：进一步基于所述收听者定向，处理所述至少一个音频信号。

6.根据权利要求1至5中任一项所述的装置，其中，所述部件进一步被配置为：基于与所述至少两个音频信号集相关联的相应的音频信号集位置和所述收听者位置，获得控制参数，其中，基于所述控制参数，控制被配置为基于与所述至少两个音频信号集相关联的相应的音频信号集位置和所述收听者位置，基于来自所述两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的部件。

7.根据权利要求6所述的装置，其中，基于所述控制参数，控制被配置为生成所述至少一个经修改的参数值的部件。

8.根据权利要求6或7中任一项所述的装置，其中，被配置为获得控制参数的部件被配置为：

识别所述音频信号集中的所述收听者位置位于其内的至少三个音频信号集，并基于所述音频信号集位置和所述收听者位置，生成与所述至少三个音频信号集相关联的权重；以及否则

识别所述音频信号集中的最接近所述收听者位置的两个或更多个音频信号集，并基于所述音频信号集位置、以及所述收听者位置向所述音频信号集中的所述两个或更多个音频信号集之间的线或平面的垂直投影，生成与所述两个或更多个音频信号集相关联的权重。

9.根据从属于权利要求6的权利要求8所述的装置，其中，被配置为生成至少一个音频信号的部件被配置为执行以下中的一项：

基于所述权重，组合来自两个或更多个音频信号集的两个或更多个音频信号；

基于所述两个或更多个音频信号集中的哪个音频信号集最接近所述收听者位置，从所述两个或更多个音频信号集中的一个音频信号集中选择一个或多个音频信号；以及

基于所述两个或更多个音频信号集中的哪个音频信号集最接近所述收听者位置和进一步的切换阈值，从所述两个或更多个音频信号集中的一个音频信号集中选择一个或多个音频信号。

10.根据从属于权利要求7的权利要求8所述的装置，其中，被配置为生成所述至少一个经修改的参数值的部件被配置为：基于所述权重，组合所获得的用于所述两个或更多个音频信号集中的所述至少两个音频信号集的至少一个参数值。

11.根据权利要求1至10中任一项所述的装置，其中，被配置为基于所述至少一个经修改的参数值，处理所述至少一个音频信号以生成空间音频输出的部件被配置为生成以下中的至少一项：

双耳音频输出，其包括用于头戴式耳机和/或耳塞式耳机的两个音频信号；以及

多通道音频输出，其包括用于多通道扬声器组的至少两个音频信号。

12.根据权利要求1至11中任一项所述的装置，其中，所述至少一个参数值包括以下中的至少一项：

至少一个方向值；

与至少一个方向值相关联的至少一个直接对总比率；

与至少一个方向值相关联的至少一个扩散相干性；

与至少一个方向值相关联的至少一个距离；

至少一个环绕相干性；

至少一个扩散对总比率；以及

至少一个剩余对总比率。

13.根据权利要求1至12中任一项所述的装置，其中，所述至少两个音频信号集包括至少两个音频信号，并且被配置为获得所述至少一个参数值的部件被配置为：对来自所述两个或更多个音频信号集的所述两个或更多个音频信号进行空间分析以确定所述至少一个参数值。

14.根据权利要求1至12中任一项所述的装置，其中，被配置为获得所述至少一个参数值的部件被配置为：接收或检索用于所述音频信号集中的至少两个音频信号集的至少一个参数值。

15.根据权利要求1至14中任一项所述的装置，其中，所述声源位置信息基于至少一个突出声源。

16.根据权利要求15所述的装置，其中，所述至少一个突出声源是能量大于阈值的声源。

17.根据权利要求1至16中任一项所述的装置，其中，被配置为获得声源位置信息的部件被配置为：

接收定义声源位置信息的至少一个用户输入；

接收定义声源位置信息的位置***信息；

基于所述两个或更多个音频信号集，确定声源位置信息。

18.根据权利要求1至17中任一项所述的装置，其中，与所述声源能量相关的所述值包括以下中的一项：

声源能量值；

声源幅度值；

声源级别值；以及

声源突出值。

19.根据权利要求1至18中任一项所述的装置，其中，所述残余值包括残余能量值。

20.根据权利要求1至19中任一项所述的装置，其中，被配置为基于与所述两个或更多个音频信号集中的所述至少两个音频信号集相关联的相应的音频信号集位置和所述收听者位置，基于来自所述两个或更多个音频信号集中的至少一个音频信号集的至少一个音频信号，生成至少一个音频信号的部件被配置为：基于与所述两个或更多个音频信号集中的所述至少两个音频信号集相关联的相应的音频信号集位置和所述收听者位置，从所述两个或更多个音频信号集中的至少一个音频信号集中选择所述至少一个音频信号。

21.一种用于装置的方法，所述方法包括：

针对与所述两个或更多个音频信号集相关联的至少一个参数，获得用于所述两个或更多个音频信号集中的至少两个音频信号集的至少一个参数值；

获得与所述两个或更多个音频信号集中的所述至少两个音频信号集相关联的相应的音频信号集位置；

获得声源位置信息；

获得和与所述声源位置信息相关联的声源能量相关的值；

22.一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

获得声源位置信息；

获得和与所述声源位置信息相关联的声源能量相关的值；