CN117412237A

CN117412237A - 合并音频信号与空间元数据

Info

Publication number: CN117412237A
Application number: CN202311348550.8A
Authority: CN
Inventors: J·T·维尔卡莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-04-22
Filing date: 2017-04-19
Publication date: 2024-01-16
Also published as: US20190132674A1; US10477311B2; CN109313907B; EP3446309A1; US20200053457A1; CN109313907A; EP3446309A4; US10674262B2; WO2017182714A1; GB2549532A

Abstract

用于混合至少两个音频信号和至少一个第二音频信号的装置，所述至少两个音频信号与至少一个参数相关联，所述至少一个第二音频信号还与至少一个第二参数相关联，其中所述至少两个音频信号和所述至少一个第二音频信号与声音场景相关联，并且其中所述至少两个音频信号表示空间音频捕获麦克风通道，所述至少一个第二音频信号表示与所述空间音频捕获麦克风通道分开的外部音频通道，该装置包括：处理器，被配置为基于所述至少一个第二参数和所述至少一个参数来生成组合参数的输出；以及混合器，被配置为基于所述至少两个音频信号和所述至少一个第二音频信号来生成具有与所述至少一个音频信号相同数量或更少数量的通道的组合音频信号，其中所述组合音频信号与组合参数相关联。

Description

合并音频信号与空间元数据

本申请是发明名称为“合并音频信号与空间元数据”的中国发明专利申请(申请号为201780037760.1，申请日为2017年4月19日)的分案申请。

技术领域

本申请涉及用于将音频信号与空间元数据合并的装置和方法。本发明还涉及但不限于用于音频信号的空间处理的分布式音频捕获和混合以使得能够生成适合于音频信号的空间再现的数据有效表示的装置和方法。

背景技术

立体声和环绕音频发射的典型方法是基于扬声器通道。在这种情况下，立体声内容或者水平环绕或3D环绕内容作为一组个体的通道而被产生、被编码和被发射，以在接收器端处被解码和再现。直接的方法是例如使用MPEG高级音频编码(AAC)来个体地编码每个通道，这是商用***中的常用方法。最近，出现了比特率有效的多通道音频编码***，例如MPEG环绕和在MPEG-H第3部分：3D音频中的MPEG环绕。它们采用的方法是将音频通道组合成较少数量的音频通道用于发射。除了较少数量的音频通道之外，还发射动态空间元数据，其有效地具有如何重新合成与原始多通道信号具有紧密感知相似性的多通道音频信号的信息。这种音频编码可以被称为参数化多通道音频编码。

一些参数化空间音频编码***，诸如MPEG-H第3部分：3D音频，还提供用于发射音频对象的选项，音频对象是具有潜在动态变化位置的音频通道。例如，可以使用在接收器端处的振幅平移技术来再现音频对象。可以认为，对于专业的多通道音频制作，前述技术是非常适合的。

虚拟现实(VR)音频(这里包括阵列捕获的空间音频和增强现实音频的定义)的用例通常是根本不同的。具体地，通常从集成到现场捕获设备的麦克风阵列(诸如球形多镜头相机或相机附近的阵列)中完全或部分地获取音频内容。在这种上下文中的音频捕获技术不同于传统的记录技术。例如，以类似于雷达或无线电通信的方式，使用针对音频信号的阵列信号处理技术来检测具有感知重要性的声音场景的信息是可能的。这包括到达声音的(一个或多个)方向(有时与场景中的源的方向一致)以及定向能量与其他种类的声能之间的比率，该其它种类的声能诸如背景氛围、混响、噪音等。将这样或类似的参数称为动态空间音频捕获(SPAC)元数据。存在用于估计SPAC元数据的若干已知阵列信号处理方法。与传统的基于扬声器通道的***相比，在这种情况下，方向可以是任何空间方向，并且相对于任何特定扬声器设置，可能没有相似之处。可以将数字信号处理(DSP)***实现为使用该元数据和麦克风信号以将空间声音在感知上精确地合成到任何环绕或3D环绕设置或者通过应用双耳处理技术合成到耳机。DSP***存在若干高质量的选项可以执行这样的渲染。将这样的过程称为SPAC渲染。应当注意，SPAC元数据、SPAC渲染和有效的多通道音频编码总是在频带中被执行，因为已知人类空间听觉是基于频带中的空间信息来对空间图像进行解码。

用于SPAC音频发射的传统且直接的方法是执行SPAC渲染以产生3D环绕混合并应用多通道音频编码技术来发射音频。但是，这种方法并不是最优的。首先，对于耳机双耳渲染，应用中间扬声器布局不可避免地意味着使用振幅平移技术，因为源不与扬声器的方向一致。在作为VR音频的主要用例的耳机双耳使用的情况下，不需要以这种方式限制解码。可以使用高分辨率的头部相关传递函数集(HRTF)在任何方向上解码声音。当与直接HRTF渲染相比时，经振幅平移的源被感知为更不是点状的，并且通常也在频谱上不平衡。其次，使用中间扬声器表示在3D中进行充分再现，需要发射大量音频通道。现代多通道音频编码技术通过组合音频通道来减轻这种影响，然而，应用这样的方法最少增加了不必要的音频处理步骤的层，这至少降低了计算效率，但可能还降低了音频保真度。

本文所描述的方法对其相关的诺基亚VR音频格式是专门为VR使用而定义的。SPAC元数据本身与从麦克风信号获得的一组音频通道一起被发射。SPAC解码发生在给定设置的接收器端处，即扬声器或耳机。因此，音频可以在任何方向上被解码为点状源，并且计算开销最小。此外，该格式被定义为支持各种麦克风阵列类型，其支持不同级别的空间分析。例如，利用一些阵列处理技术，可以精确地分析单个突出的频谱重叠源，而其他技术可以检测两个或更多个突出的频谱重叠源，这可以在复杂的声音场景中提供感知益处。因此，关于同时性分析的方向的数量，灵活地定义VR音频格式。诺基亚VR音频格式的这个特征与本文所描述的方法最相关。为了完整起见，VR音频格式也提供对于作为具有单独的基于音频通道的空间元数据的附加轨道的、诸如音频对象信号和扬声器信号之类的其他信号类型的发射的支持。

本方法关注于在VR音频发射的上下文中减少或限制发射的音频通道的数量。作为关键特征，本方法利用诺基亚VR音频格式中的空间音频捕获(SPAC)元数据的上述灵活定义。作为概述，本方法允许在SPAC信号内混合入诸如音频对象信号之类的(一个或多个)附加音频通道，使得不增加通道的数量。然而，处理被制定成使得空间保真度得到很好保留。通过获益于灵活定义同时性SPAC方向的数量，获得该属性。添加的信号将层添加到SPAC元数据，因为同时性方向可能与原始的现有SPAC方向不同。结果，使得经合并的SPAC流具有原始麦克风捕获的音频信号以及混合入的音频信号，并且空间元数据被扩展以覆盖两者。结果，经合并的SPAC流可以在接收器侧处以高的空间保真度进行解码。

这里要注意的是，合并SPAC和其他流(例如音频对象)的现有技术替代方案将处理音频对象信号并将其添加到麦克风阵列信号中，以使得它类似于从对象的指定方向到达阵列的平面波。然而，在阵列信号处理领域中众所周知的是，在声音场景处具有同时性频谱重叠源使得空间分析不太可靠，这通常影响已解码的声音的空间精度。作为另一种替代方案，对象信号也可以作为附加音频轨道而被发射，并在接收器端处被渲染。该解决方案导致更好的再现质量，但也导致更高数量的发射通道，即，导致在解码器处的更高比特率和更高的计算负荷。

因此，需要开发能够实现高质量渲染过程而没有在现有技术中发现的明显更高的计算负载/存储和发射容量要求的解决方案。

在下文中，给出了在其中同时使用SPAC和音频对象的用例的背景技术。当多个源正在空间场中移动时，从这些源捕获音频信号并混合那些音频信号需要很大的努力。例如，在诸如剧院或演讲厅之类的音频环境内捕获和混合诸如演讲者或艺术家之类的音频信号源以呈现给收听者并产生有效的音频气氛需要对装备和训练进行大量投资。

通常实现的***将是专业制作者利用外部或近处(close)麦克风，例如用户佩戴的Lavalier麦克风或附接到吊杆的麦克风，以捕获靠近演讲者或其他源的音频信号，然后手动地将该捕获的音频信号与合适的空间(或环境或音频场)音频信号混合，使得产生的声音来自预期的方向。如预期的那样手动地将声源定位在空间音频场内需要大量的时间和精力。

已经出现了现代阵列信号处理技术，其代替手动记录实现了空间场景的自动记录以及使用扬声器或耳机的感知精确的再现。然而，在这种记录中，通常需要增强音频信号。例如，可以为了澄清信息或可理解性的目的而增强音频信号。因此，在新闻广播中，最终用户可能希望更清楚地获得来自新闻记者的音频而不是任何背景“噪音”。

发明内容

根据第一方面，提供了一种用于混合至少两个音频信号和至少一个第二音频信号的装置，所述至少两个音频信号与至少一个参数相关联，并且所述至少一个第二音频信号还与至少一个第二参数相关联，其中所述至少两个音频信号和所述至少一个第二音频信号与声音场景相关联，并且其中所述至少两个音频信号表示空间音频捕获麦克风通道并且所述至少一个第二音频信号表示与所述空间音频捕获麦克风通道分开的外部音频通道，所述装置包括：处理器，所述处理器被配置为基于所述至少一个第二参数和所述至少一个参数来生成组合参数的输出；和混合器，所述混合器被配置为基于所述至少两个音频信号和所述至少一个第二音频信号来生成具有与所述至少一个音频信号相同数量或更少数量的通道的组合音频信号，其中所述组合音频信号与所述组合参数相关联。

所述混合器或用于音频信号混合的另一处理器中的至少一个可被配置为：基于所述至少一个第二音频信号来生成至少一个混合音频信号，以便基于所述至少一个混合音频信号来生成所述组合音频信号。

所述至少一个参数包括以下项中的至少一项：与所述至少两个音频信号相关联的至少一个方向；与所述至少两个音频信号的频谱带部分相关联的至少一个方向；与所述至少两个音频信号相关联的至少一个信号能量；与所述至少两个音频信号的频谱带部分相关联的至少一个信号能量；与所述至少两个音频信号相关联的至少一个元数据；和与所述至少两个音频信号的频谱带部分相关联的至少一个信号能量比。

所述至少一个第二参数包括以下项中的至少一项：与所述至少一个第二音频信号相关联的至少一个方向；与所述至少一个第二音频信号的频谱带部分相关联的至少一个方向；与所述至少一个第二音频信号相关联的至少一个信号能量；与所述至少一个第二音频信号的频谱带部分相关联的至少一个信号能量；与所述至少一个第二音频信号相关联的至少一个信号能量比；与所述至少一个第二音频信号相关联的至少一个元数据；和与所述至少一个第二音频信号的频谱带部分相关联的至少一个信号能量比。

该装置还可以包括分析器，分析器被配置为确定所述至少一个第二参数。

所述分析器还可以被配置为确定所述至少一个参数。

所述分析器可以包括空间音频分析器，所述空间音频分析器被配置为接收所述至少两个音频信号并且确定与所述至少两个音频信号和/或所述至少一个音频信号的频谱带部分相关联的至少一个方向。

所述处理器可以被配置为将与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的至少一个方向附加到与所述至少两个音频信号和/或所述至少两个音频信号的频谱带部分相关联的至少一个方向，以生成组合空间音频信息。

所述分析器可以包括音频信号能量分析器，所述音频信号能量分析器被配置为接收所述至少两个音频信号并且确定与所述至少两个音频信号和/或所述至少两个音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比，其中所述至少一个信号能量参数和/或至少一个信号能量比可以与所确定的至少一个方向相关联。

该装置还可以包括：信号能量分析器，所述信号能量分析器被配置为接收所述至少一个第二音频信号并且确定与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比。

所述处理器可以被配置为将与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比附加到与所述至少两个音频信号和/或所述至少一个音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比，以生成组合信号能量信息。

所述处理器或所述混合器或用于音频信号混合的所述另一处理器中的至少一个可以被配置为：还基于与所述至少一个第二音频信号相关联的所述至少一个信号能量和与所述至少两个音频信号相关联的所述至少一个信号能量来生成所述至少一个混合音频信号。

该装置还可以包括音频信号处理器，所述音频信号处理器被配置为接收所述至少两个音频信号并且生成在被所述混合器接收之前的预处理的音频信号。

所述音频信号处理器可以被配置为生成下混合信号。

该装置还可以包括麦克风布置，所述麦克风布置被配置为生成所述至少两个音频信号，其中可以相对于已定义的位置来定义所述麦克风的位置。

所述处理器或所述混合器或用于音频信号混合的所述另一处理器中的至少一个可以被配置为：生成所述至少一个混合音频信号，以模拟相对于所述已定义的位置，从与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的至少一个方向到达所述麦克风的位置的声波。

所述已定义的位置是捕获装置的位置，所述捕获装置包括被配置为生成所述至少一个音频信号的麦克风的阵列。

所述至少一个第二音频信号可以由外部麦克风生成，其中与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的所述至少一个方向是所述外部麦克风相对于所述已定义的位置的方向。

所述外部麦克风可以包括被配置为发射无线电信号的无线电发射器，该装置可以包括被配置为接收无线电信号的无线电接收器，并且方向确定器可以被配置为确定所述外部麦克风相对于所述已定义的位置的方向。

所述混合器可以被配置为基于将所述至少一个第二音频信号添加到所述至少两个音频信号中的一个或多个通道来生成所述组合音频信号。

表示空间音频捕获麦克风通道的所述至少两个音频信号可以从麦克风阵列实时接收，并且表示与所述空间音频捕获麦克风通道分开的外部音频通道的所述至少一个第二音频信号可以从所述麦克风阵列外部的至少一个第二麦克风实时接收。

表示空间音频捕获麦克风通道的所述至少两个音频信号可以从先前存储的麦克风阵列接收，并且表示与所述空间音频捕获麦克风通道分开的外部音频通道的所述至少一个第二音频信号可以从所述麦克风阵列外部的先前存储的至少一个第二麦克风接收。

表示空间音频捕获麦克风通道的所述至少两个音频信号可以是合成音频信号，并且表示与所述空间音频捕获麦克风通道分开的外部音频通道的至少一个第二音频信号可以是所述至少两个合成音频信号外部的至少一个第二合成音频信号。

表示空间音频捕获麦克风通道的所述至少两个音频信号可以从麦克风阵列接收，并且表示与所述空间音频捕获麦克风通道分开的外部音频通道的所述至少一个第二音频信号可以从另一麦克风阵列接收。

表示空间音频捕获麦克风通道的所述至少两个音频信号可以是合成麦克风阵列音频信号，并且表示与所述空间音频捕获麦克风通道分开的外部音频通道的所述至少一个第二音频信号可以从所述合成麦克风阵列外部的至少一个麦克风接收。

表示空间音频捕获麦克风通道的所述至少两个音频信号可以从麦克风阵列接收，并且表示与所述空间音频捕获麦克风通道分开的外部音频通道的所述至少一个第二音频信号可以是所述麦克风阵列外部的合成音频信号。

根据第二方面，提供了一种用于混合至少两个音频信号和至少一个第二音频信号的方法，所述至少两个音频信号与至少一个参数相关联，所述至少一个第二音频信号还与至少一个第二参数相关联，其中所述至少两个音频信号和所述至少一个第二音频信号与声音场景相关联，并且其中所述至少两个音频信号表示空间音频捕获麦克风通道并且所述至少一个第二音频信号表示与所述空间音频捕获麦克风通道分开的外部音频通道，所述方法包括：基于所述至少一个第二参数和所述至少一个参数，生成组合参数的输出；和基于所述至少两个音频信号和所述至少一个第二音频信号，生成具有与所述至少一个音频信号相同数量或更少数量的通道的组合音频信号，其中，所述组合音频信号与所述组合参数相关联。

该方法可以包括基于所述至少一个第二音频信号来生成至少一个混合音频信号，以便基于所述至少一个混合音频信号来生成所述组合音频信号。

所述至少一个参数可以包括以下项中的至少一项：与所述至少两个音频信号相关联的至少一个方向；与所述至少两个音频信号的频谱带部分相关联的至少一个方向；与所述至少两个音频信号相关联的至少一个信号能量；与所述至少两个音频信号的频谱带部分相关联的至少一个信号能量；与所述至少两个音频信号相关联的至少一个元数据；和与所述至少两个音频信号的频谱带部分相关联的至少一个信号能量比。

所述至少一个第二参数可以包括以下中的至少一个：与所述至少一个第二音频信号相关联的至少一个方向；与所述至少一个第二音频信号的频谱带部分相关的至少一个方向；与所述至少一个第二音频信号相关联的至少一个信号能量；与所述至少一个第二音频信号的频谱带部分相关联的至少一个信号能量；与所述至少一个第二音频信号相关联的至少一个信号能量比；与所述至少一个第二音频信号相关联的至少一个元数据；和与所述至少一个第二音频信号的频谱带部分相关联的至少一个信号能量比。

该方法还可以包括确定所述至少一个第二参数。

该方法还可以包括确定所述至少一个参数。

确定所述至少一个参数可以包括接收所述至少两个音频信号以及确定与所述至少两个音频信号和/或所述至少一个音频信号的频谱带部分相关联的至少一个方向。

该方法可以包括将与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的至少一个方向附加到与所述至少两个音频信号和/或所述至少两个音频信号的频谱带部分相关联的至少一个方向，以生成组合空间音频信息。

确定所述至少一个第二参数可以包括接收所述至少两个音频信号以及确定与所述至少两个音频信号和/或所述至少两个音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比，其中所述至少一个信号能量参数和/或至少一个信号能量比可以与所确定的至少一个方向相关联。

该方法可以包括确定与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比。

该方法可以包括将与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比附加到与所述至少两个音频信号和/或所述至少一个音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比，以生成组合信号能量信息。

该方法可以包括还基于与所述至少一个第二音频信号相关联的所述至少一个信号能量和与所述至少两个音频信号相关联的所述至少一个信号能量来生成所述至少一个混合音频信号。

该方法还可以包括在混合之前从所述至少两个音频信号生成预处理的音频信号。

该方法可以包括生成下混合信号。

该方法还可以包括提供被配置为生成所述至少两个音频信号的麦克风布置，其中可以相对于已定义的位置定义所述麦克风布置的位置。

该方法可以包括生成所述至少一个混合音频信号以模拟相对于所述已定义的位置，从与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的至少一个方向到达所述麦克风的位置的声波。

所述已定义的位置可以是捕获装置的位置，所述捕获装置包括被配置为生成所述至少一个音频信号的麦克风的阵列。

混合可以包括基于将所述至少一个第二音频信号添加到所述至少两个音频信号中的一个或多个通道来生成所述组合音频信号。

表示空间音频捕获麦克风通道的所述至少两个音频信号可以是合成的麦克风阵列音频信号，并且表示与所述空间音频捕获麦克风通道分开的外部音频通道的所述至少一个第二音频信号可以从所述合成麦克风阵列外部的至少一个麦克风接收。

根据第三方面，提供了一种用于混合至少两个音频信号和至少一个第二音频信号的装置，所述至少两个音频信号与相对于已定义的位置的方向信息相关联并且还与至少一个参数相关联，所述至少一个第二音频信号与相对于所述已定义的位置的另一方向信息相关联并且还与至少一个另一参数相关联，其中所述至少两个音频信号和所述至少一个第二音频信号与声音场景相关联，并且其中所述至少两个音频信号表示空间音频捕获麦克风通道并且所述至少一个第二音频信号表示与所述空间音频捕获麦克风通道分开的外部音频通道，所述装置包括：

用于基于所述至少一个第二参数和所述至少一个参数来生成组合参数的输出的部件；和

用于基于所述至少两个音频信号和所述至少一个第二音频信号来生成具有与所述至少一个音频信号相同数量或更少数量的通道的组合音频信号的部件，其中所述组合音频信号与所述组合参数相关联。

该装置可以包括用于基于所述至少一个第二音频信号来生成至少一个混合音频信号的部件，以便基于所述至少一个混合音频信号来生成所述组合音频信号。

所述至少一个第二参数可以包括以下项中的至少一项：与所述至少一个第二音频信号相关联的至少一个方向；与所述至少一个第二音频信号的频谱带部分相关的至少一个方向；与所述至少一个第二音频信号相关联的至少一个信号能量；与所述至少一个第二音频信号的频谱带部分相关联的至少一个信号能量；与所述至少一个第二音频信号相关联的至少一个信号能量比；与所述至少一个第二音频信号相关联的至少一个元数据；和与所述至少一个第二音频信号的频谱带部分相关联的至少一个信号能量比。

该装置还可以包括用于确定所述至少一个第二参数的部件。

该装置还可以包括用于确定所述至少一个参数的部件。

用于确定所述至少一个参数的部件可以包括用于接收所述至少两个音频信号的部件和用于确定与所述至少两个音频信号和/或所述至少一个音频信号的频谱带部分相关联的至少一个方向的部件。

该装置可以包括用于将与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的至少一个方向附加到与所述至少两个音频信号和/或所述至少两个音频信号的频谱带部分相关联的至少一个方向以生成组合空间音频信息的部件。

用于确定所述至少一个第二参数的部件可以包括用于接收所述至少两个音频信号的部件和用于确定与所述至少两个音频信号和/或所述至少两个音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比的部件，其中所述至少一个信号能量参数和/或至少一个信号能量比可以与所确定的至少一个方向相关联。

该装置可以包括用于确定与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比的部件。

该装置可以包括用于将与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比附加到与所述至少两个音频信号和/或所述至少一个音频信号的频谱带部分相关联的所述至少一个信号能量和/或至少一个信号能量比以生成组合信号能量信息的部件。

该装置可以包括用于还基于与所述至少一个第二音频信号相关联的所述至少一个信号能量和与所述至少两个音频信号相关联的所述至少一个信号能量来生成所述至少一个混合音频信号的部件。

该装置还可以包括用于在混合之前从所述至少两个音频信号生成预处理的音频信号的部件。

该装置可以包括用于生成下混信号的部件。

该装置还可以包括用于提供被配置为生成所述至少两个音频信号的麦克风布置的部件，其中可以相对于已定义的位置定义所述麦克风布置的位置。

该装置可以包括用于生成所述至少一个混合音频信号的部件，以模拟相对于所述已定义的位置，从与所述至少一个第二音频信号和/或所述至少一个第二音频信号的频谱带部分相关联的至少一个方向到达所述麦克风的位置的声波。

所述外部麦克风可以包括被配置为发射无线电信号的无线电发射器，该装置可以包括被配置为接收无线电信号的无线电接收器，并且方向确定器可以被配置为相对于所述已定义的位置确定所述外部麦克风的方向。

存储在介质上的计算机程序产品可以使装置执行如本文所述的方法。

电子设备可以包括如本文所述的装置。

芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式对附图进行参考，其中：

图1至图6示意性地示出了适用于实现实施例的装置；

图7和图8示出了示出根据一些实施例的示例装置的操作的流程图；

图9示意性地示出了适用于实现图1至图6中所示的装置的示例设备；和

图10示出了与现有技术输出相比的由实施例生成的示例输出。

具体实施方式

以下进一步详细描述了用于针对通道和比特率减少提供音频对象混合的合适装置和可能机制。音频对象可以是根据捕获的音频信号确定的音频源。在以下示例中，描述了从音频信号和音频捕获信号中生成的音频对象混合。

本文描述了方法的以下实施例。首先，描述一个实施例，在其中将音频对象信号合并到麦克风阵列发起信号。在该实施例中，与麦克风阵列信号相关的SPAC元数据最初在每个时间频率实例处具有一个方向。沿着合并过程，利用混合入的音频-对象信号的第二同时性方向来扩展元数据。处理SPAC元数据内的能量比参数以考虑音频-对象信号的附加能量。

关于图1，示出了用于实现这样一个实施例的装置的示例性***。在该示例中，***可以包括空间音频捕获(SPAC)设备141，例如全向内容捕获(OCC)设备。空间音频捕获设备141可以包括麦克风阵列145。麦克风阵列145可以是用于捕获空间音频信号的任何合适的麦克风阵列。麦克风阵列145可以例如被配置为输出M'个音频信号。例如，M'可以是阵列内的麦克风元件的数量(换句话说，麦克风阵列被配置为输出未经数字处理的输出)。然而，应当理解，麦克风阵列145可以被配置为以任何合适的空间音频格式(诸如B格式或麦克风信号的子集)输出至少一个音频信号，并且因此可以包括麦克风处理器以将麦克风音频信号处理成输出格式的至少一个音频信号。

至少一个音频信号可以与空间元数据相关联。与至少一个音频信号相关联的空间元数据可以包含关于SPAC设备的方向信息。SPAC设备141可以包括元数据生成器147，其被配置为从麦克风阵列145信号生成该元数据。例如，可以使用阵列信号处理方法来分析来自麦克风阵列的音频信号，其利用了麦克风阵列中的麦克风的相对方位的差异。元数据可以包含定义与至少一个音频信号相关联的至少一个方向的参数，并且可以基于麦克风信号的相对相位/时间差和/或相对能量来生成元数据。如与所有讨论的信号属性一样，可以并且通常在频带中分析这些属性。例如，与麦克风阵列信号相关的SPAC元数据可以在每个时间频率实例处具有一个方向。元数据生成器147可以使用短时傅里叶变换或任何其他合适的滤波器组从麦克风阵列145获得频带信号。可以在近似感知确定的频带(例如，巴克频带、等效矩形频带(ERB)或类似频带)的频率群组中分析频带信号。可以在时间帧中或以其他方式在时间上自适应地分析频带或频带群组。上述时间-频率考虑适用于范围内的所有实施例。从这些时间和频率划分的音频信号中，元数据生成器147可以生成表示声场的感知相关的质量的方向/空间元数据。元数据可以包含指向朝向方向区域的近似方向的方向信息，其中大部分声音在那时并且对于该频带从所述方向区域到达。此外，元数据生成器147可以被配置为确定其他参数，诸如与所识别的方向相关联的直达与总能量比，以及作为随后的合并过程所需的参数的总能量。在所示的示例中，针对每个频带标识1个方向。然而，在一些实施例中，确定的方向的数量可以多于一个。对于任何时间段(或实例)，空间分析器可以被配置为标识或确定：针对每个频带，相对于麦克风阵列145的SPAC方向；SPAC方向(或建模的音频源)的能量与麦克风音频信号的总能量的相关联比率和总能量参数。方向和能量水平可以在测量之间变化，因为它们将反映音频场景的氛围。

方向(和能量比)可以对音频源(其可以不是由外部麦克风或合成对象提供的物理音频源)进行建模。发生分析的时间段(或时间间隔)以及类似的频率间隔可以与人类空间听觉机制相关。

在本实施例和以下实施例中，可以理解，根据SPAC音频信号确定的能量相关参数可以是SPAC方向的能量与可以被传递给元数据处理器并如本文所讨论的那样进行组合并被传递给合适的解码器、音频处理器或渲染器的麦克风音频信号的总能量的比率。还可以确定总能量水平并将其传递给元数据处理器161。(SPAC设备音频信号的)总能量可以被编码并传递给解码器，然而，最重要的是(与根据音频对象音频信号确定的能量水平和能量比参数一起)使用总能量以便处理针对合并的音频信号的适当能量比参数。这是因为输入信号相对于彼此的能量(音频对象和SPAC设备)影响在合并的信号处的对应能量比例。作为一种配置中的特定数字示例，如果合并两个输入信号，第一个具有例如比率参数0.5(剩余部分是氛围)和总能量1，并且第二个具有比率参数1(没有氛围)并且总能量为1，则合并的信号将分别具有两个比率参数0.25和0.5，它们确定在合并的信号处的第一信号和第二信号相对于合并的总能量的比例，在这种情况下为2(假设合并的信号之间的不一致性)。在合并的信号处，总能量的剩余部分，即0.25，是氛围。在这样的示例中，每个具有单组方向/能量参数的两个信号被合并为具有两组方向/能量参数的一个信号。尽管详述了静态示例，但是所有或大多数描述的参数通常随时间和频率而变化。

可以将所确定的(一个或多个)方向和能量比输出到元数据处理器161。在一些实施例中，可以由元数据生成器确定相同信息的其他空间或方向参数或替代表达。例如，氛围信息，换句话说，与至少一个音频信号相关联的非方向信息，可以由元数据生成器确定，并因此被表达为氛围参数。

尽管图1中的示例示出了N个能量比和1个总能量值以及在合并过程中使用的值(以及此外被用作元数据参数的能量比)的确定，但是可以以其他方式用信号通知相同的信息。例如，通过确定N个绝对能量参数。换言之，可以以任何合适的方式表示与音频信号的能量相关联的信息和与方向相关联的能量。

图1中所示的***还可以包括音频和元数据生成器151。音频和元数据生成器151可以被配置为生成组合的音频信号和元数据信息。

空间音频捕获设备141可以被配置为将空间音频信号输出到音频和元数据生成器151。此外，空间音频捕获设备141可以被配置为将相关联的元数据输出到音频和元数据生成器151。输出可以是根据任何合适的无线发射协议的无线发射。

在一些实施例中，音频和元数据生成器151被配置为从SPAC设备141接收空间音频信号和相关联的元数据。音频和元数据生成器151此外可以被配置为接收至少一个音频对象信号。至少一个音频对象信号可以来自外部麦克风181。外部麦克风可以是“近处”音频源捕获装置的示例，并且在一些实施例中可以是悬臂式麦克风或类似的“相邻”或近处麦克风捕获***。以下示例关于Lavalier麦克风进行描述，并且因此以Lavalier音频信号为特征。然而，一些示例可以被扩展到SPAC设备麦克风阵列外部或者与之分开的任何类型的麦克风。以下方法可以适用于任何外部/附加麦克风，无论它们是Lavalier麦克风、手持式麦克风、安装式麦克风还是其他任何麦克风。外部麦克风可以由人佩戴/携带，或者作为用于乐器的特写麦克风而被安装在设计者希望准确地捕获的某些相关位置中。在一些实施例中，外部麦克风可以是麦克风阵列。外部麦克风通常包括系索上的小麦克风或者以其他方式靠近嘴部的麦克风。对于诸如乐器之类的其他声源，音频信号可以由Lavalier麦克风或由乐器的内部麦克风***(例如，在电吉他的情况下为拾音麦克风)提供。

在一些实施例中，音频和元数据生成器151包括能量/方向分析器157。能量/方向分析器157可以被配置为分析频带信号。能量/方向分析器157可以被配置为接收至少一个音频对象信号并且确定与至少一个音频对象信号相关联的能量参数值。然后，可以将能量参数值传递到元数据处理器161。能量/方向分析器157可以被配置为确定与至少一个音频对象信号相关联的方向参数值。然后可以将方向参数值传递到元数据处理器161。

在一些实施例中，音频和元数据生成器151包括元数据处理器161。元数据处理器161可以被配置为接收与SPAC设备音频信号相关联的元数据以及此外与音频对象信号相关联的元数据。因此，元数据处理器161可以例如从元数据生成器147接收诸如每个时间频率实例所标识的SPAC(建模的音频源)方向之类的方向参数以及诸如N个所标识的SPAC方向(建模的音频源)能量比之类的能量参数。元数据处理器161此外还可以从能量/方向分析器157接收(一个或多个)音频对象信号能量参数值和音频对象方向参数。从这些输入中，元数据处理器161可以被配置为生成合适的组合参数(或元数据)输出，其包括SPAC和音频对象参数信息。因此例如在SPAC设备元数据包括1个方向和1个能量比参数(以及用于合并过程的1个总能量参数)并且音频对象(外部麦克风)元数据包括1个方向参数(以及用于合并过程的1个总能量参数)的情况下，输出元数据可以包括2个方向，其中音频对象信号方向被视为附加的标识方向。此外，在一些实施例中，输出元数据可以包括2个能量(诸如能量比)参数，其可以是SPAC设备方向上的功率相对于合并的音频信号的总能量的比率，而另一个可以是音频对象音频信号相对于合并的音频信号的总能量的比率。换句话说，处理器可以被配置为基于与来自外部麦克风的音频信号相关联的至少一个参数以及与空间捕获音频信号相关联的至少一个参数来生成组合参数的输出。然后可以输出元数据以被存储或由音频渲染器使用。在确定合并的信号相对能量参数时应用对象音频信号和SPAC设备音频信号的总能量参数。可以将组合的总能量包括到输出元数据，尽管在典型的用例中，在合并之后可能不需要存储或发射该参数。在一些实施例中，可以将能量参数传递到对象***器163，如虚线所示。在下文中描述的其他实施例中，可以在元数据处理器和对象***器之间传递该信息。例如，对象***器可以基于能量参数和任何其他参数来执行输出信号的自适应均衡。例如，如果要被合并的信号具有相互一致性但在时间上没有对准，则这样的过程可能是必要的。

在音频和元数据信号生成器151的一些实施例中，包括对象***器163。对象***器163或混合器或音频信号组合器可以被配置为接收麦克风阵列145音频信号和音频对象信号。然后，对象***器163可以被配置为将来自麦克风阵列145的音频信号与音频对象信号组合。对象***器或混合器因此可以被配置为将至少一个音频信号(源自空间捕获设备)与音频对象信号组合，以生成具有与至少一个音频信号相同数量或更少数量的通道的组合音频信号。

对象***器或混合器可以生成组合音频信号的输出，其中音频对象信号被视为添加的音频源(或对象)。对象***器或混合器可以通过将外部麦克风音频信号与麦克风阵列音频信号中的一个或多个进行组合并且在不修改其他麦克风阵列音频信号的情况下来生成组合音频信号。例如，在存在一个音频对象(外部麦克风)音频信号和要被组合的M个SPAC设备麦克风阵列音频信号的情况下，混合器可以仅将M个SPAC设备音频信号中的一个SPAC设备音频信号与音频对象音频信号组合。

然后可以输出组合的至少一个音频信号。例如，可以存储音频信号以供稍后处理或将其传递给音频渲染器。

在音频源信号是相干的但关于它们被混合的空间音频捕获设备信号而在时间上未对准的情况下，可以执行对准操作以在相加过程之前匹配混合入的信号的时间和/或相位。这可以例如通过延迟麦克风阵列信号来实现。延迟可以是负的或正的，并且可以根据任何合适的技术来确定延迟。还可以应用自适应均衡器，诸如频带中的自适应增益，以确保可以减轻相加过程的任何不希望的频谱效应，诸如由于相干信号的同相或异相相加引起的那些。

以这种方式，可以利用混合入的音频对象信号的第二同时性方向来扩展元数据。处理SPAC元数据内的能量比参数以考虑音频对象信号的附加能量。

尽管上面的示例描述了与在每个时间频率实例处具有一个方向的麦克风阵列信号相关的SPAC元数据，但是其他示例可以在每个时间频率实例处具有多于一个方向。类似地，尽管以上描述了用于将一个音频对象信号(及其相关联的元数据)与SPAC音频信号和相关联的元数据进行合并的过程，但是其他示例可以合并多于一个音频对象信号(和相关联的元数据)。

此外，尽管上面示出的示例示出了包括元数据生成器147的SPAC设备，其中元数据生成器147被配置为生成与(一个或多个)麦克风阵列145音频信号相关联的方向元数据，但是可以在音频和元数据生成器151内执行元数据或空间分析的生成。换句话说，音频和元数据生成器151可以包括空间分析器，其被配置为接收SPAC设备麦克风阵列输出并生成方向和能量参数。

类似地，尽管上面示出的示例示出了包括能量/方向分析器157的音频和元数据生成器，所述能量/方向分析器157被配置为生成与音频对象信号相关联的元数据，但是在一些其他示例中，音频和元数据生成器被配置为接收与音频对象信号相关联的元数据。

关于图2，在空间音频记录的上下文下示出了第二实施例。在图2中所示的示例中，利用具有麦克风阵列的现场捕获设备记录空间声音，并且声音场景内的一个或多个源配备有近处麦克风和方位跟踪设备，其提供源关于现场捕获设备的位置的信息。近处麦克风信号被处理成为麦克风阵列信号的一部分，并且SPAC元数据利用与添加的近处麦克风信号一样多的新方向而被扩展。从方位跟踪***的数据中检索方向信息。处理SPAC能量参数以反映每个输入音频信号类型的声能的相对量。该第二实施例主要旨在用于这样的用例：其中诸如演员之类的某些源的突出性、清晰度或可理解性得到增强。

在图2中示出了用于实现这样的实施例的装置的示例***。在该示例中，***可以包括空间音频捕获(SPAC)设备241，例如全向内容捕获(OCC)设备。空间音频捕获设备241可以包括麦克风阵列245。麦克风阵列245可以是用于捕获空间音频信号的任何合适的麦克风阵列，并且可以与图1中所示的麦克风阵列145类似或相同。

至少一个音频信号可以与空间元数据相关联。与至少一个音频信号相关联的空间元数据可以包含关于SPAC设备的方向信息。图2中所示的示例示出了由音频和元数据生成器251生成的元数据，但是在一些实施例中，SPAC设备241可以包括元数据生成器，其被配置为以图1中所示的方式从麦克风阵列生成该元数据。

空间音频捕获设备241可以被配置为将空间音频信号输出到音频和元数据生成器251。

此外，如图2中所示，该***可以包括一个或多个音频对象信号生成器。在图2中所示的示例中，至少一个音频对象信号由外部麦克风281表示。如关于图1所讨论的外部麦克风281可以是任何合适的麦克风捕获***。

此外，如图2中所示的***可以包括方位***242。方位***242可以是被配置为确定外部麦克风281相对于SPAC设备241的方位的任何合适的装置。在图2中所示的示例中，外部麦克风配备有方位标签、射频信号生成器，所述射频信号生成器被配置为生成由在定位***242处的外部麦克风***143接收的信号并且从接收的射频信号确定外部麦克风和SPAC设备241之间的方向和/或距离。在一些实施例中，使用高精度室内定位(HAIP)或其他合适的室内定位技术来实现方位***(标签和接收器)。除了HAIP之外或代替HAIP，方位***可以使用视频内容分析和/或声源定位。也可以使用合适的接口(未示出)手动执行或调整定位。例如，当在另一时间或位置处生成或记录音频信号时，或者当方位跟踪设备不可用时，这可能是必要的。将所确定的方位传递到音频和元数据生成器251。

诸如图2中所示的***还可以包括音频和元数据生成器251。音频和元数据生成器251可以被配置为生成组合音频信号和元数据信息。

在一些实施例中，音频和元数据生成器251被配置为从SPAC设备241接收空间音频信号。

音频和元数据生成器251可以包括空间分析器255。空间分析器255可以接收麦克风阵列245的输出，并且基于麦克风阵列245中的麦克风的布置的知识，生成关于图1描述的方向元数据。空间分析器255此外还可以以与关于图1描述的方式类似的方式生成参数元数据。因此，例如，如图2中所示，空间分析器可以生成N个方向、N个能量比(每个都与方向相关联)和1个总体或总能量。可以将该元数据传递到元数据处理器261。

音频和元数据生成器251此外还可以被配置为从外部麦克风281接收至少一个音频对象信号。

在一些实施例中，音频和元数据生成器251包括能量分析器257。能量分析器257可以从外部麦克风281接收音频信号，并且类似于关于图1讨论的能量/方向分析器151并且确定与至少一个音频信号相关联的能量参数值。

在一些实施例中，音频和元数据生成器251包括元数据处理器261。元数据处理器261可以被配置为接收与SPAC设备音频信号相关联的元数据以及此外与音频对象信号相关联的元数据。因此，元数据处理器261可以接收诸如每个时间频率实例的N个标识的SPAC(建模的音频源)方向之类的方向参数和诸如N个标识的SPAC方向(建模的音频源)能量参数之类的能量参数。元数据处理器261此外还可以从外部麦克风***243接收来自能量分析器257的音频对象方向参数和能量参数。从这些输入中，元数据处理器261可以被配置为生成合适的组合参数(或元数据)输出，其包括SPAC和音频对象参数信息。因此例如在SPAC设备元数据包括N个方向、N个能量比和1个总能量参数并且音频对象(外部麦克风)元数据包括1个方向和1个能量参数的情况下，输出元数据可以包括N+1个方向和N+1个能量比参数，其中音频对象信号方向被视为附加的标识方向和能量(诸如能量比)参数，其可以是SPAC设备方向上的功率相对于合并的音频信号的总能量的比率，而另一个可以是音频对象音频信号相对于合并的音频信号的总能量的比率。换句话说，处理器可以被配置为基于与来自外部麦克风的音频信号相关联的至少一个参数以及与空间捕获音频信号相关联的至少一个参数来生成组合参数的输出。然后可以输出元数据以被存储或由音频渲染器使用。

在一些实施例中，音频和元数据生成器251包括外部麦克风音频预处理器。外部麦克风音频预处理器可以被配置为从外部麦克风接收至少一个音频对象信号。此外，外部麦克风音频预处理器可以被配置为接收相对于空间音频捕获设备的与音频对象信号(或方向或位置)相关联的相关联方向元数据，诸如由外部麦克风***243提供的(例如在图2通过外部麦克风音频预处理器259和外部麦克风***243的输出之间的虚线连接所示)。然后，外部麦克风音频预处理器可以被配置为生成被传递到对象***器的合适的音频信号。

在一些实施例中，外部麦克风音频预处理器可以基于与外部麦克风音频对象信号相关联的方向(并且在一些实施例中，能量估计)来生成输出音频信号。例如，外部麦克风音频预处理器可以被配置为生成音频对象(外部麦克风)音频信号的投影，作为到达麦克风阵列245处的平面波。这可以例如以从麦克风阵列输入到对象***器的相同的信号格式而被呈现。在一些实施例中，外部麦克风音频预处理器可以被配置为根据一个或多个选项为对象***器生成至少一个混合音频信号。此外，音频预处理器可以指示或发信号通知已经选择了哪个选项。指示符或信号可以由对象***器263或混合器接收，使得混合器可以确定如何混合或组合音频信号。此外，在一些实施例中，指示符可以由解码器接收，使得解码器可以确定如何从彼此提取音频信号。

在音频和元数据信号生成器251的一些实施例中，包括对象***器263。对象***器263或混合器或音频信号组合器可以被配置为接收麦克风阵列245音频信号和音频对象信号。然后，对象***器263可以被配置为将来自麦克风阵列245的音频信号与音频对象信号组合。对象***器263或混合器因此可以被配置为将至少一个音频信号(源自空间捕获设备241)与外部麦克风281音频对象信号组合，以生成具有与来自空间音频捕获设备241的至少一个音频信号相同数量或更少数量的通道的组合音频信号。

对象***器或混合器可以以任何合适的方式生成组合音频信号的输出。

音频和元数据生成器251可以包括可选的音频预处理器252(在图2中由虚线框示出)。在麦克风阵列245和对象***器263之间的SPAC分析之前示出了预处理。尽管图2仅示出了音频预处理器，但是它可以在本文所示出的任何实施例中被实现。

音频预处理可以仅包括一些通道，并且可以是任何类型的音频预处理步骤。音频预处理器可以接收来自空间音频捕获设备麦克风阵列245的输出(或输出的一部分)，并对接收的音频信号执行预处理。例如，麦克风阵列245可以输出由音频预处理器接收的多个音频信号，该音频预处理器生成M个音频信号。音频预处理器可以是下混合器，其将来自麦克风阵列的M'个音频信号转换为由M个音频信号定义的空间音频格式。音频预处理器可以将M个音频信号输出到对象***器263。

关于图3示出了第三实施例，其中5.0通道扬声器混合与SPAC元数据合并。在该示例中，***可以包括空间音频捕获(SPAC)设备341，例如全向内容捕获(OCC)设备。空间音频捕获设备341可以包括麦克风阵列345。麦克风阵列345可以是用于捕获空间音频信号的任何合适的麦克风阵列，并且可以与图1和/或图2中所示的麦克风阵列类似或相同。

至少一个音频信号可以与空间元数据相关联。与至少一个音频信号相关联的空间元数据可以包含关于SPAC设备的方向信息。图3中所示的示例示出了由音频和元数据生成器351以类似于图2的方式生成的元数据，但是在一些实施例中，SPAC设备341可以包括元数据生成器，其被配置为以如图1中所示的方式从麦克风阵列生成该元数据。

空间音频捕获设备341可以被配置为将空间音频信号输出到音频和元数据生成器351。

此外，如图3中所示，***可以包括一个(或多个)5.0通道混合(相当于一组音频对象)381。在一些实施例中，音频对象可以是任何合适的多通道音频混合。

如图3中所示的***还可以包括音频和元数据生成器351。音频和元数据生成器351可以被配置为生成组合的音频信号和元数据信息。

在一些实施例中，音频和元数据生成器351被配置为从SPAC设备341接收空间音频信号。

音频和元数据生成器351可以包括空间分析器355。空间分析器355可以接收麦克风阵列345的输出，并且基于麦克风阵列345中的麦克风的布置的知识，生成关于图1描述的方向元数据。此外，空间分析器355可以以与关于图2描述的方式类似的方式生成参数元数据。可以将该元数据传递到元数据处理器361。

此外，音频和元数据生成器351可以被配置为接收5.0通道混合381。

在一些实施例中，音频和元数据生成器351包括能量/方向分析器357。能量/方向分析器357可以类似于关于图2讨论的能量分析器251，并确定与5.0通道混合的每个通道相关联的能量参数值。此外，能量/方向分析器357可以被配置为基于已知的通道分布生成5.0混合方向。例如，在一些实施例中，5.0混合被布置在SPAC设备“周围”，并且因此，通道被布置在围绕收听者的标准5.0通道方向上。

在一些实施例中，音频和元数据生成器351包括元数据处理器361。元数据处理器361可以被配置为接收与SPAC设备音频信号相关联的元数据以及此外与5.0通道混合相关联的元数据，并且从这些之中生成合适的组合参数(或元数据)输出，其包括SPAC和5.0通道混合对象参数信息。因此例如在SPAC设备元数据包括1个方向、1个能量比和1个总能量参数值并且5.0通道混合元数据包括5个方向和5个能量参数值的情况下，输出元数据可以包括6个方向和6个能量参数。

在一些实施例中，音频和元数据生成器351包括外部音频预处理器359。外部音频预处理器可以被配置为接收5.0通道混合。此外，外部麦克风音频预处理器可以被配置为接收与5.0通道混合相关联的相关联方向元数据。然后，音频预处理器可以被配置为生成被传递到对象***器的合适的音频信号。

在音频和元数据信号生成器351的一些实施例中，包括对象***器363。对象***器363或混合器或音频信号组合器可以被配置为接收麦克风阵列345音频信号和经转换的5.0通道混合。然后，对象***器363可以被配置为组合音频信号以生成具有与至少一个音频信号相同数量或更少数量的通道的组合的音频信号。

关于图4示出了第四实施例，其中SPAC元数据和对应的音频信号仅基于一组音频对象和/或扬声器通道信号来进行制定，这是由于发射通道的减少而节省了比特率的过程。

在该示例中，***可以包括第一音频对象生成器(音频对象生成器1)4411，其在一些实施例中可以包括被建模为音频对象麦克风4451和元数据生成器4431的空间音频捕获(SPAC)设备。音频对象麦克风4451可以被配置为将音频信号输出到音频和元数据生成器451。此外，元数据生成器4431可以以类似于图1的方式将与音频信号相关联的空间元数据输出到音频和元数据生成器451。

该***可以包括第二音频对象生成器(在图4中由音频对象生成器x示出)441x，其在一些实施例中可以包括被建模为音频对象麦克风445x和元数据生成器443x的空间音频捕获(SPAC)设备。音频对象麦克风445x可以被配置为将音频信号输出到音频和元数据生成器451。此外，元数据生成器443x还可以将与音频信号相关联的空间元数据输出到音频和元数据生成器451。

在一些实施例中，音频对象可以是任何合适的单通道或多通道音频混合或扬声器混合，或者是以类似于图1或图2的方式的外部麦克风信号。

如图4中所示的***还可以包括音频和元数据生成器451。音频和元数据生成器451可以被配置为生成组合的音频信号和元数据信息。音频和元数据生成器451被配置为从生成器441接收音频对象信号和相关联的元数据。

在一些实施例中，音频和元数据生成器451包括元数据处理器461。元数据处理器461可以被配置为接收与音频对象生成器音频信号相关联的元数据，并且从这些之中生成合适的组合参数(或元数据)输出，其包括对象参数信息。

在音频和元数据信号生成器451的一些实施例中，包括对象***器463。对象***器463或混合器或音频信号组合器可以被配置为接收音频信号并组合音频信号以生成组合的音频信号。

关于图5，描述了第五实施例，其中合并两个SPAC流以产生具有组合的元数据的一个合并的SPAC流。在该示例中，***可以包括第一空间音频捕获(SPAC)设备5411。第一空间音频捕获设备5411可以包括麦克风阵列5451。麦克风阵列5451可以是用于捕获空间音频信号的任何合适的麦克风阵列，并且可以是与前面所示的麦克风阵列类似或相同。至少一个音频信号可以与空间元数据相关联。与至少一个音频信号相关联的空间元数据可以包含关于SPAC设备的方向信息。第一空间音频捕获设备5411可以被配置为将空间音频信号输出到音频和元数据生成器551。

此外，如图5中所示，***可以包括一个(或多个)另外的空间音频捕获(SPAC)设备541Y。另外的(第y个)空间音频捕获设备541Y可以包括麦克风阵列545Y。麦克风阵列545Y可以与和第一SPAC设备5411相关联的麦克风阵列5451相同或不同。另外的空间音频捕获设备5411可以被配置为将空间音频信号输出到音频和元数据生成器551。

图5中所示的示例示出了由音频和元数据生成器551生成的元数据，但是在一些实施例中，SPAC设备541可以包括元数据生成器，其被配置为以图1中所示的方式从麦克风阵列生成该元数据。

如图5中所示的***还可以包括音频和元数据生成器551。音频和元数据生成器551可以被配置为生成组合的音频信号和元数据信息。

在一些实施例中，音频和元数据生成器551被配置为从SPAC设备541接收空间音频信号。

音频和元数据生成器551可以包括一个或多个空间分析器555。在图5中所示的示例中，每个SPAC设备与空间分析器555相关联，空间分析器555被配置为接收麦克风阵列545的输出并且基于麦克风阵列545中的麦克风的布置的知识来生成关于图1和/或图2描述的方向元数据。此外，空间分析器555还可以以与关于图2描述的方式类似的方式生成参数元数据。可以将该元数据传递到元数据处理器561。

在一些实施例中，音频和元数据生成器551包括元数据处理器561。元数据处理器561可以被配置为接收与SPAC设备音频信号相关联的元数据，并且从这些之中生成合适的组合参数(或元数据)输出，其包括所有SPAC参数信息。因此例如在第一SPAC设备元数据包括N1个方向和N1个能量参数值(和1个总能量参数值)并且第一SPAC设备元数据包括NY个方向和NY个能量参数值(以及1个总能量参数值)的情况下，输出元数据可以包括N1+NY个方向和N1+NY个能量参数。

在音频和元数据信号生成器551的一些实施例中，包括对象***器563。对象***器563或混合器或音频信号组合器可以被配置为接收麦克风阵列5451音频信号和麦克风阵列545Y音频信号。然后，对象***器563可以被配置为组合音频信号以生成具有与来自麦克风阵列5451音频信号或麦克风阵列545Y的通道的数量相同或更少数量的通道的组合的音频信号。

图6中所示的示例示出了第六实施例，其中混合入的音频对象信号被定义为在声音场景中未被空间化的信号类型。换句话说，它是在没有HRTF处理的情况下再现的。这种信号类型是艺术用途所必需的，例如，在收听者的头部内再现评论员轨道而不是在声音场景内被空间化。

在该示例中，***可以包括空间音频捕获(SPAC)设备641，其包括与任何先前描述的麦克风阵列类似或相同的麦克风阵列645。至少一个音频信号可以与包含关于SPAC设备的方向信息的空间元数据相关联。图6中所示的示例示出了由音频和元数据生成器651生成的元数据。空间音频捕获设备641可以被配置为将空间音频信号输出到音频和元数据生成器651。

此外，如图6中所示，***可以包括一个或多个音频对象信号生成器681。

诸如图6中所示的***还可以包括音频和元数据生成器651。音频和元数据生成器651可以被配置为生成组合的音频信号和元数据信息。

在一些实施例中，音频和元数据生成器651被配置为从SPAC设备641接收空间音频信号。

音频和元数据生成器651可以包括空间分析器655。空间分析器655可以接收麦克风阵列645的输出，并且基于麦克风阵列645中的麦克风的布置的知识，生成关于图1描述的方向元数据。空间分析器655还可以以与关于图1描述的方式类似的方式生成能量参数元数据。可以将该元数据传递到元数据处理器661。

此外，音频和元数据生成器651可以被配置为从音频对象681接收至少一个音频对象信号。

在一些实施例中，音频和元数据生成器651包括能量分析器657。能量分析器657可以类似于关于图1讨论的能量/方向分析器651，并且确定与至少一个音频对象信号相关联的能量参数值。

在一些实施例中，音频和元数据生成器651包括元数据处理器661。元数据处理器661可以被配置为接收与SPAC设备音频信号相关联的元数据以及与音频对象信号相关联的元数据。因此，元数据处理器661可以接收诸如每个时间频率实例的所标识的SPAC(建模的音频源)方向之类的方向参数和诸如N个所标识的SPAC方向(建模的音频源)能量参数之类的能量参数。从这些输入中，元数据处理器661可以被配置为生成合适的组合参数(或元数据)输出，其包括SPAC和音频对象参数信息。因此例如在SPAC设备元数据包括1个方向和至少1个能量参数并且音频对象(外部麦克风)元数据包括1个能量参数的情况下，输出元数据可以包括1个方向和2个能量参数(诸如2个能量比参数)。在一些实施例中，元数据处理器此外还可以确定音频对象(或在一些情况下是实际空间音频捕获设备)音频信号是否将由解码器(或接收器或渲染器)进行空间处理。在这样的实施例中，元数据处理器可以生成要被添加到元数据输出的指示符以指示确定的结果。例如，在图6所示的示例中，元数据处理器661可以生成标志值或指示符值，其向解码器指示音频对象是“非空间的”。然而，该指示符或标志值可以在任何实施例的实现中被生成，并且定义与音频信号相关联的“空间”模式。例如，可以确定诸如图1中所示的音频对象是“空间头部跟踪的”并且生成相关联的标志或指示符值，其使得解码器基于头部***或其他类似的用户接口输入而在空间上处理音频对象信号。此外，可以确定音频对象是“空间非头部跟踪的”，并且生成相关联的标志或指示符值，其使得解码器在空间上处理音频对象信号但是不使空间处理基于头部-***或其他类似的用户接口输入。如上所讨论的第三种类型是“非空间”音频对象，其中不存在与音频对象相关联的音频信号的空间处理(诸如HRTF处理)以及生成相关联的标志或指示符值，其使得解码器使用例如侧向化或振幅平移操作显示音频对象信号。因此，SPAC设备参数流可以生成/存储和发射指示信号类型的“其他参数”以及任何相关信息。

在一些实施例中，音频和元数据生成器651包括音频对象预处理器659。外部麦克风音频预处理器可以被配置为接收至少一个音频对象信号并生成被传递到对象***器的合适的音频信号。

在一些实施例中，音频和元数据信号生成器651包括对象***器663。对象***器663或混合器或音频信号组合器可以被配置为接收麦克风阵列645音频信号和音频对象信号。然后，对象***器663可以被配置为将来自麦克风阵列645的音频信号与预处理的音频对象信号组合。对象***器或混合器因此可以被配置为将至少一个音频信号(源自空间捕获设备)与外部麦克风音频对象信号组合以生成具有与至少一个音频信号相同数量或更少数量的通道的组合音频信号。

关于图7，流程图示出了根据一些实施例的相关于元数据的生成示出的装置的示例操作。

第一操作是捕获空间音频信号之一。例如，麦克风阵列可以被配置为生成空间音频信号(或者换句话说，捕获空间音频信号)。

在空间音频信号处进行捕获的操作在图7中由步骤701示出。

此外，捕获装置，例如外部麦克风***，可以进一步确定任何音频对象(外部麦克风)的方向(或位置或方位)。该位置可以例如是相对于空间麦克风阵列。

确定至少一个外部麦克风的方向(相对于空间音频捕获设备和麦克风阵列)的操作在图7中由步骤703示出。

此外，外部麦克风或类似部件还可以捕获外部麦克风音频信号。

捕获至少一个外部麦克风音频信号的操作在图7中由步骤705示出。

在捕获空间音频信号之后，该方法可以包括确定空间音频信号以便确定SPAC设备相关的元数据。例如，在一些实施例中，空间元数据的确定可以包括标识来自麦克风阵列的音频信号的相关联方向(或位置或方位)和能量参数。因此，例如，可以从空间音频信号确定总能量以及直达与总能量的方向和参数。

从空间音频信号确定元数据的操作在图7中由步骤707示出。

此外，在捕获外部麦克风音频信号之后，该方法可以包括确定外部麦克风音频信号的能量内容。

确定外部麦克风音频信号的能量内容的操作在图7中由步骤709示出。

该方法还可以包括扩展所确定的空间元数据(与空间音频信号相关联的信息)，然后重制新的元数据输出以包括与外部麦克风音频信号相关联的元数据。这可以例如涉及：将外部麦克风音频信号信息作为“另外的”或“物理的”音频源或对象引入，其具有由外部麦克风音频信号所确定的方向和由外部麦克风音频信号的能量值所定义的能量参数。

利用外部麦克风信息扩展元数据和重制元数据的操作在图7中由步骤711示出。

该方法然后可以包括输出扩展/重制的元数据。

输出扩展/重新格式化的元数据的操作在图7中由步骤713示出。

关于图8，流程图示出了根据一些实施例的关于音频信号的生成的示例操作。

在空间音频信号处进行捕获的操作在图8中由步骤801示出。

此外，外部麦克风或类似部件还可以捕获音频对象(诸如外部麦克风)音频信号。

捕获至少一个外部麦克风音频信号的操作在图8中由步骤805示出。

在一些实施例中在捕获空间音频信号后，该方法包括预处理(诸如从空间音频捕获设备接收的)空间音频信号的操作。

预处理空间音频信号的操作在图8中由步骤891示出。

应当理解，该预处理操作可以是可选操作(换句话说，在一些实施例中，如本文所述，空间音频信号不被预处理并被直接传递到操作893并且在图8中通过虚支线示出。

在捕获外部麦克风音频信号之后，该方法可以包括预处理外部麦克风音频信号。在一些实施例中，该预处理基于外部麦克风相对于空间音频捕获设备的方向信息。因此，在一些实施例中，预处理可以包括生成到达空间音频捕获设备中的麦克风阵列处的外部麦克风音频信号的平面波投影。

预处理外部麦克风音频信号的操作在图8中由步骤893示出。

在预处理外部麦克风音频信号(并且此外在一些实施例中的预处理空间音频信号)之后，该方法还可以包括通过组合音频信号来组合(预处理的)空间音频信号和预处理的外部麦克风音频信号。

组合音频信号的操作在图8中由步骤895示出。

然后可以输出组合的音频信号。

在本文描述的一些示例中，音频对象和空间捕获的音频信号二者都可以是“实时的”并且同时被捕获。然而，与本文所描述的那些类似的方法可以应用于合适的音频信号的任何混合或组合。例如，类似的方法可以应用于如下情况：音频对象是先前捕获的、存储的(或合成的)具有方向的音频信号，并且其将与“实时”空间音频信号混合或组合。此外，类似的方法可以应用于“实时”音频对象，其与先前记录的(或存储的或合成的)空间信号混合。类似的方法也可以应用于具有方向的先前捕获的、存储的(或合成的)音频对象信号，并且其与先前捕获的、存储的(或合成的)空间音频信号混合或组合。

如本文所述的此类实施例和方法的潜在用途可以是将混合或合并实现为编码装置或方法。此外，即使在没有麦克风阵列音频信号而仅有音频对象和扬声器通道的情况下，也可以使用本文所描述的方法来合并音频通道并生成诸如本文所述的SPAC元数据之类的参数，并且需要更少的发射通道或存储容量。关于扬声器通道的使用是因为传统的扬声器通道音频信号可以被理解为是具有固定方位信息的对象信号。

此外，在以下示例中，该装置被示为音频捕获装置和/或音频处理***的一部分。然而，应当理解，在一些实施例中，该装置可以是被配置为捕获音频信号或接收音频信号和其他信息信号的任何合适的电子设备或装置的一部分。例如，实施例可以用诸如智能手机、平板电脑、笔记本电脑等移动设备来实现。

本文所描述的示例可以被认为是对传统的空间音频捕获(SPAC)技术的增强。

此外，示例可以通过如下方法和装置来实现：其被配置为组合麦克风(或更一般地，音频对象)信号与空间麦克风阵列发起信号(或其他空间配置的音频信号)，同时修改(与空间麦克风阵列发起信号相关联的)空间元数据。该过程允许在相同的音频信号中发射两个信号，该音频信号具有比原始信号组合的通道数量少的通道。空间元数据的修改意味着与合并的信号相关的空间信息被组合成单个空间元数据集，使得在接收器端处的总体空间再现保持非常准确。如本文所述，如特别是由当前VR/AR音频格式所允许的，该属性通过扩展空间元数据来实现。

在如本文详细讨论的实施例中，在混合入附加(例如，外部麦克风或对象)信号之前执行麦克风阵列发起信号的空间参数分析。此外，如下文所讨论的，在混合入对象/通道信号之后，作为麦克风阵列发起信号的一部分的参数元数据被扩展，其中添加的方向参数描述了混合入的信号的空间和能量属性。在保留现有方向参数的同时执行此操作。在本文描述的示例中，“保留方向参数”意味着不改变原始空间分析方向，并且调整能量比参数，使得考虑相对于总声能新增加的信号能量的量。如在参数音频处理的许多领域中已知的，应当承认，也可以例如出于艺术目的或者例如针对在其中通过修改和适配空间元数据来强调一些空间方向的音频聚焦用例而改变所有这些参数。

在本文描述的示例中，音频信号可以被渲染成合适的双耳形式，其中可以使用渲染——诸如通过头部相关传递函数(HRTF)滤波合适的音频信号——来创建空间感觉。用于将音频信号渲染为如本文所述的合适形式的渲染器可以是具有运动***的一组耳机以及能够混合/双耳音频渲染的软件。利用头部跟踪，可以不是与人的头部一起旋转而是可以相关于地球以固定的朝向渲染空间音频。然而，应该承认，为了艺术目的，部分或全部信号可以沿着人的头部旋转被渲染或者在没有双耳渲染的情况下被再现。这种艺术目的的示例包括在没有双耳头部跟踪的情况下再现5.1背景音乐，或者将立体声背景音乐直接再现到耳机的左右通道，或者在两个通道处相干地再现评论员轨道。可以在SPAC元数据内用信号通知这些其他信号类型。

虽然捕获和渲染***可以是分离的，但是应该理解，它们可以用同一装置实现，或者可以被分布在一系列物理上分离但具有通信能力的装置上。例如，诸如SPAC设备或OCC(全向内容捕获)设备之类的现场捕获设备可以配备有用于接收位置数据和外部(Lavalier)麦克风源的附加接口，并且可以被配置为执行捕获部分。

此外，应理解，可以在诸如被称为“云”的分布式计算***内实现以下捕获和渲染装置的至少一些元件。在一些实施例中，在移动设备内实现空间音频捕获设备。空间音频捕获设备因此被配置为捕获空间音频，当被渲染给收听者时，空间音频使得收听者能够体验声场就好像他们处于空间音频捕获设备的位置中一样。在一些实施例中，音频对象(外部麦克风)被配置为捕获(例如，来自关键人物的声音或乐器的)高质量特写音频信号。当混合到空间音频场时，可以调整关键源的属性，诸如增益、音色和空间方位，以便为收听者提供例如增加的接合和可理解性。

在一些实施例中，可以将由对象***器生成的音频信号传递到包括头部***的渲染装置。头部***可以是用于生成方位或旋转输入的任何合适的部件，例如附接到一组耳机或集成到头戴式显示器的传感器，其被配置为相对于定义的或参考朝向来监视收听者的朝向并提供可由渲染装置使用的值或输入。头部***可以由至少一个陀螺仪和/或数字罗盘来实现。

渲染装置可以接收组合的音频信号和元数据。此外，音频渲染器可以从头部***和/或其他用户输入接收输入。渲染器可以是任何合适的空间音频处理器和渲染器，并且被配置为例如基于元数据和头部***输入内的方向信息来处理组合的音频信号，以便生成空间处理的音频信号。可以例如将空间处理的音频信号传递到耳机125。然而，可以将输出的混合音频信号渲染并传递到任何其他合适的音频***以进行回放(例如5.1通道音频放大器)。

音频渲染器可以被配置为基于元数据来控制组合的空间音频信号内所确定的源或对象的方位角、仰角和距离。此外，可以允许用户基于来自头部***的输出来调整任何确定的源或对象的增益和/或空间方位。因此，处理/渲染可以取决于外部麦克风源和空间麦克风的相对方向(方位或朝向)以及头部***所测量的头部的朝向。在一些实施例中，用户输入可以是任何合适的用户接口输入，诸如来自触摸屏的指示收听方向或朝向的输入。

存在使用如本文所述的装置所实现的许多潜在的用例。例如，可以利用空间音频捕获装置(诸如诺基亚的OZO)进行不插电音乐会的实时记录。在这样的记录中，空间音频捕获装置(OZO)可以位于乐队的中间，在音乐会期间一些艺术家在这里移动。此外，乐器和歌手可以配备有外部(近处)麦克风和无线电标签，其可以(通过空间音频捕获装置)被跟踪以获得对象空间元数据。外部(近处)麦克风信号允许任何渲染设备增强感知的乐器的清晰度/质量，并使渲染或混合能够调整乐器和背景氛围之间的平衡(例如任何观众噪声等)。

因此，例如，诸如OZO设备之类的空间音频捕获装置提供8个阵列麦克风信号，并且存在5个外部(近处)麦克风音频信号。因此，如果捕获装置根据现有技术执行，则捕获装置可以发送所有空间音频捕获(OZO)设备通道和外部(近处)麦克风通道，以及针对每个通道的相关联的元数据。因此，总共可以存在13个音频通道+空间元数据(针对所分析的空间音频信号源元数据的1个到达方向，5个外部麦克风[对象]层)。

可以基于空间音频捕获装置(OZO)信号来执行空间分析。为了发射，可以使用AAC对音频信号通道进行编码，并且可以将空间元数据嵌入到比特流中。诸如本文描述的对象***器和元数据处理器可以被配置为：将外部麦克风(对象)信号组合到空间音频捕获装置麦克风信号。因此，在一些实施例中，输出是8个音频通道+空间元数据(6个到达方向值[1个空间麦克风和5个外部麦克风]元数据)。这显然产生了显著降低的总比特率，并且解码器复杂度稍低。

通过应用预处理，诸如省略一些空间音频捕获设备麦克风通道，或者生成通道的“下混合”，可以进一步减少发射的通道。例如，对于N＝4个通道，再现质量例如可以被保留。

尽管相关于音乐会描述了该示例，但是应当理解，可以在其他类似的记录条件中采用捕获装置，其中可以减少发射通道的总数(空间和外部麦克风)。例如，新闻领域报告可以采用在现场的空间音频捕获设备，并且外部(近处)麦克风可以被佩戴或保持或定位在现场的本地记者处，以及来自工作室记者的外部麦克风。另一示例可以是空间音频捕获设备位于观众席的体育事件，第一外部麦克风被配置为捕获以捕获在轨道侧的评论员音频，另外的外部麦克风位于场地附近，并且另外的麦克风捕获球员或教练音频。另一个示例是剧院(或歌剧院)，其中空间音频捕获设备位于舞台附近，并且外部麦克风位于演员和管弦乐队附近或与其相关联。

关于图9，示出了可以被用作外部麦克风、SPAC设备、元数据和音频信号生成器、渲染设备或这些组件的任何组合的示例电子设备。该设备可以是任何合适的电子设备或装置。在以下示例中，示例电子设备可以用作组合的元数据和音频信号生成器和空间捕获设备。例如，在一些实施例中，设备1200是移动设备、用户设备、平板计算机、计算机、音频回放设备等。

设备1200可以包括麦克风阵列1201。麦克风阵列1201可以包括多个(例如，数量Q)麦克风。然而，应理解，可以存在任何合适的麦克风配置和任何合适数量的麦克风。在一些实施例中，麦克风阵列1201与装置相分离，并且音频信号通过有线或无线耦合被发射到装置。因此，在一些实施例中，麦克风阵列1201可以是如图1中所示的SPAC麦克风阵列145。

麦克风可以是被配置为将声波转换成合适的电子音频信号的换能器。在一些实施例中，麦克风可以是固态麦克风。换句话说，麦克风可以能够捕获音频信号并输出合适的数字格式信号。在一些其他实施例中，麦克风或麦克风阵列1201可以包括任何合适的麦克风或音频捕获部件，例如电容麦克风、电容式麦克风、静电麦克风、驻极体电容麦克风、动态麦克风、带状麦克风、碳麦克风、压电麦克风或微机电***(MEMS)麦克风。在一些实施例中，麦克风可以将音频捕获信号输出到模数转换器(ADC)1203。

SPAC设备1200还可以包括模数转换器1203。模数转换器1203可以被配置为从麦克风阵列1201中的每个麦克风接收音频信号并将它们转换为适合于处理的格式。在麦克风是集成麦克风的一些实施例中，不需要模数转换器。模数转换器1203可以是任何合适的模数转换或处理部件。模数转换器1203可以被配置为将音频信号的数字表示输出到处理器1207或输出到存储器1211。

在一些实施例中，设备1200包括至少一个处理器或中央处理单元1207。处理器1207可以被配置为执行各种程序代码。所实现的程序代码可以包括例如SPAC控制、空间分析、音频信号预处理和对象组合以及诸如本文所述的其他代码例程。

在一些实施例中，设备1200包括存储器1211。在一些实施例中，至少一个处理器1207耦合到存储器1211。存储器1211可以是任何合适的储存部件。存储器1211可以包括用于存储可在处理器1207上实现的程序代码的程序代码部分。此外，存储器1211还可以包括用于存储数据的存储数据部分，例如，如本文所述的根据实施例已经被处理或将要被处理的数据。存储在程序代码部分中的实现的程序代码和存储在存储数据部分中的数据可以在需要时经由存储器-处理器耦合而由处理器1207获取。

在一些实施例中，设备1200包括用户接口1205。在一些实施例中，用户接口1205可以耦合到处理器1207。处理器1207可以控制用户接口1205的操作并从用户接口1205接收输入。用户接口1205可以使用户能够例如经由键盘向设备1200输入命令。在一些实施例中，用户接口205可以使用户能够从设备1200获得信息。例如，用户接口1205可以包括被配置为将来自设备1200的信息显示给用户的显示器。用户接口1205可以包括触摸屏或触摸接口，二者都能够使信息能够被输入到设备1200并且进一步向设备1200的用户显示信息。

在一些实施例中，设备1200包括收发器1209。收发器1209可以耦合到处理器1207并且被配置为例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中，收发器1209或任何合适的收发器或发射器和/或接收器部件可以被配置为经由有线或有线耦合来与其他电子设备或装置通信。

例如，如图9中所示，收发器1209可以被配置为与渲染装置通信，或者可以被配置为从外部麦克风和标签接收音频信号(诸如在图2中由参考标记281所示的)。

收发器1209可以通过任何合适的已知通信协议来与另外的装置通信。例如，收发器1209或收发器部件可以使用合适的通用移动电信***(UMTS)协议、无线局域网(WLAN)协议例如IEEE 802.X、诸如蓝牙或红外数据通信路径(IRDA)之类合适的短程射频通信协议。

设备1200可以用作渲染装置。如此，收发器1209可以被配置为从捕获装置接收音频信号和方位信息，并且通过使用处理器1207执行合适的代码来生成合适的音频信号渲染。设备1200可以包括数模转换器1213。数模转换器1213可以耦合到处理器1207和/或存储器1211，并且被配置为将音频信号的数字表示(诸如在如本文所述的音频信号的音频渲染之后来自处理器1207)转换成适合通过音频子***输出呈现的合适的模拟格式。在一些实施例中，数模转换器(DAC)1213或信号处理部件可以是任何合适的DAC技术。

此外，设备1200可以包括音频子***输出1215。如图9中所示的示例，音频子***输出1215是被配置为能够与耳机耦合的输出插座。然而，音频子***输出1215可以是任何合适的音频输出或到音频输出的连接。例如，音频子***输出1215可以是与多通道扬声器***的连接。

在一些实施例中，可以在物理上相分离的输出设备内实现数模转换器1213和音频子***1215。例如，可以将DAC 1213和音频子***1215实现为经由收发器1209来与设备1200通信的无绳耳机。

尽管示出的设备1200具有音频捕获组件和音频渲染组件二者，但是应该理解，设备1200可以仅包括音频捕获装置元件或音频渲染装置元件。

在下文中，给出了本文所描述的合并过程相对于直接合并过程的益处的示例，其中在SPAC分析之前将对象信号添加到阵列信号，即无需元数据扩展。关于图10的示例场景，其中在声场中存在相关于空间音频捕获设备位于-30度处的一个活动源，并且外部麦克风(对象)源在30度处被混合。在以下示例中，假设空间音频格式(输出扬声器设置)是标准的5.0通道格式。因此，所示出的扬声器/信号输出方位是：110度1511、1513；30度1521、1523；0度1531、1533；-30度1541、1543和-110度1551、1553。此外，图5还示出了在仅将空间捕获音频信号和外部麦克风信号混合在一起的情况下随着时间的音频振幅(图5左栏1500)。这种混合产生空间分析/再现，其由于方向估计的波动而遭受声能的空间泄漏，如110度1511、0度1531和-110度1551处的振幅输出所示。然而，如果如所描述的实施例中所提出的，将所添加的外部麦克风(对象)源的方向和能量参数注入到参数流，则示例解码实现输出(图10右栏1501)，其中原始源和混合的外部麦克风源在空间上不会相互干扰，如110度1513、0度1533和-110度1553处的振幅输出所示，其具有基本为零的输出。

在本文描述的示例中，空间音频捕获设备音频信号与外部麦克风音频信号混合，其中通过添加外部麦克风元数据输出扩展的元数据流。应当理解，在一些实施例中，可以组合来自多于一个空间音频捕获设备的音频信号和元数据。换句话说，组合来自两组麦克风的音频信号并且输出扩展的元数据流。

通常，本发明的各种实施例可以用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以用硬件实现，而其他方面可以用固件或软件实现，固件和软件可以由控制器、微处理器或其他计算设备执行，但是本发明不限于此。虽然本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当充分理解，作为非限制性示例，本文所描述的这些块、装置、***、技术或方法可以用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合来实现。

本发明的实施例可以由移动设备的数据处理器可执行的计算机软件诸如在处理器实体中、或通过硬件、或通过软件和硬件的组合来实现。此外，在这方面，应该注意，如图中的逻辑流程的任何块可以表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可以存储在诸如存储器芯片之类的物理介质上，或者可以存储在处理器内实现的存储器块上，诸如硬盘或软盘之类的磁介质以及诸如例如DVD及其数据变体CD之类的光学介质。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和***、光存储器设备和***、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路以及基于多核处理器架构的处理器中的一个或多个。

可以在诸如集成电路模块的各种组件中实践本发明的实施例。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

诸如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的CadenceDesign公司提供的那些之类的程序，使用完善的设计规则以及预先存储的设计模块库，在半导体芯片上自动布线导体并定位元件。一旦完成半导体电路的设计，就可以将标准化电子格式(例如，Opus、GDSII等)的所得设计传送到半导体制造设施或“工厂”以进行制造。

前面的描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求阅读时，鉴于前面的描述，各种修改和调整对于相关领域的技术人员而言将变得显而易见。然而，对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

Claims

1.一种装置，被配置为混合至少一个第一音频信号和至少一个第二音频信号，其中，所述至少一个第一音频信号伴随有相关联的至少一个第一参数，并且所述至少一个第二音频信号与至少一个第二参数相关联，其中，所述装置包括处理器，所述处理器被配置为：

至少部分地基于所述至少一个第一音频信号和所述至少一个第二音频信号，生成组合音频信号，其中，所述组合音频信号包括比所述至少一个第一音频信号和所述至少一个第二音频信号的组合通道数量更少的通道数量；

生成组合参数，其中，所述组合参数至少部分地基于所述至少一个第一参数和所述至少一个第二参数，其中，所述组合参数包括基于所述至少一个第一参数的一个或多个第一元素并包括基于所述至少一个第二参数的一个或多个第二元素，

其中，所述组合参数与所述组合音频信号相关联。

2.根据权利要求1所述的装置，其中，所述至少一个第一参数和/或所述至少一个第二参数中的至少一个包括方向参数。

3.根据权利要求1所述的装置，其中，所述至少一个第一参数或所述至少一个第二参数中的至少一个在频带中。

4.根据权利要求1所述的装置，其中，所述至少一个第一音频信号基于以下中的至少一项：

从多个麦克风接收的信号，

适合于在扬声器上播放的多通道音频信号，或

至少两个通道，并且所述至少一个第一参数包括空间元数据。

5.根据权利要求1所述的装置，其中，所述至少一个第二音频信号包括以下中的至少一项：

音频对象信号，或

适合于在扬声器上播放的多通道音频信号，并且其中，所述至少一个第二参数是基于所述多通道音频信号的扬声器方向而确定的。

6.根据权利要求1所述的装置，其中，所述装置被配置为：对所述至少一个第一音频信号和/或所述至少一个第二音频信号和/或所述组合音频信号进行编码。

7.根据权利要求1所述的装置，其中，所述至少一个第一参数包括已在第一频带中确定的第一参数中的一个和已在不同的第二频带中确定的第一参数中的另一个。

8.一种方法，包括：

混合至少一个第一音频信号和至少一个第二音频信号，其中，所述至少一个第一音频信号包括至少两个第一音频通道和至少一个第一参数，并且其中，所述至少一个第二音频信号包括至少一个第二音频通道和至少一个第二参数；以及

基于所述至少一个第一参数和所述至少一个第二参数，生成组合参数，其中，所述组合参数包括基于所述至少一个第一参数的一个或多个第一元素并包括基于所述至少一个第二参数的一个或多个第二元素；

其中，生成具有比所述至少一个第一音频信号和所述至少一个第二音频信号的所述通道的组合数量更少的通道数量的组合音频信号，并且其中，所述组合参数与所述组合音频信号相关联。

9.根据权利要求8所述的方法，其中，所述至少一个第一参数包括已在第一频带中确定的第一参数中的一个和已在不同的第二频带中确定的第一参数中的另一个。

10.根据权利要求8所述的方法，其中，所述至少一个第一参数和/或所述至少一个第二参数中的至少一个包括方向参数。

11.根据权利要求8所述的方法，其中，所述至少一个第一参数或所述至少一个第二参数中的至少一个在频带中。

12.根据权利要求8所述的方法，其中，所述至少一个第一音频信号基于以下中的至少一项：

从多个麦克风接收的信号，

多通道音频信号，或

13.根据权利要求8所述的方法，其中，所述至少一个第二音频信号包括音频对象信号。

14.根据权利要求8所述的方法，其中，所述至少一个第二音频信号包括适合于在扬声器上播放的多通道音频信号，并且其中，所述至少一个第二参数是基于所述多通道音频信号的扬声器方向而确定的。

15.根据权利要求8所述的方法，进一步包括：对所述至少一个第一音频信号和/或所述至少一个第二音频信号和/或所述组合音频信号进行编码。