CN108141692B

CN108141692B - 用于基于对象的音频的低音管理***和方法

Info

Publication number: CN108141692B
Application number: CN201680056659.6A
Authority: CN
Inventors: R·W·德雷斯勒; P-A·勒米厄
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2015-08-14
Filing date: 2016-08-13
Publication date: 2020-09-29
Anticipated expiration: 2036-08-13
Also published as: US10425764B2; EP3335436B1; US20170048640A1; KR102516627B1; CN108141692A; EP3335436A1; JP2018527825A; KR20180042292A; JP6918777B2; EP3335436A4; HK1256578A1; WO2017031016A1

Abstract

一种用于通过使用对象音频渲染过程中可用的显式信息来减轻低音管理误差并且导出对于每个音频对象正确的低音炮贡献的低音管理***和方法。该低音管理***和方法的实施例用于维持由低音炮再现的低音相对于从其他扬声器出来的声音的正确平衡。该***和方法对于各种不同的扬声器配置(包括具有不同的扬声器子区域的扬声器配置)是有用的。用于每个扬声器的幂规范化的增益系数被组合，并且组合的增益系数的幂被计算并被用来获得幂保持的低音炮贡献系数。该低音炮贡献系数被应用于音频信号和音频对象的低音部分以确定特定低音炮的贡献。

Description

用于基于对象的音频的低音管理***和方法

背景技术

许多音频再现***能够记录、发送和回放同步的多声道音频，该音频有时被称为“环绕声”。尽管娱乐音频是从极端简单化的单声道***开始的，但是它不久就发展成两声道(立体声)和更高声道计数的格式(环绕声)以试图捕获令人信服的空间图像和收听者沉浸的感觉。环绕声是通过使用多于两个的音频声道来增强音频信号的再现的技术。内容通过多个分立的音频声道递送，并且使用扩音器(或扬声器)阵列再现。附加音频声道或“环绕声道”为收听者提供沉浸式收听体验。

环绕声***通常具有围绕收听者定位的扬声器以便给予收听者声音局部化和环绕感的感觉。许多仅具有几个声道的环绕声***(比如 5.1格式)具有定位在围绕收听者的360度弧中的特定位置上的扬声器。这些扬声器还被布置为使得所有的扬声器都在彼此相同并且与收听者的耳朵相同的平面中。许多更高声道计数的环绕声***(比如7.1、11.1等)还包括定位在收听者的耳朵的平面上方以为音频内容给予高度感的高度或高架扬声器。通常，这些环绕声配置包括分立的低频效果 (LFE)声道，该声道提供附加的低频低音音频以补充其他主要音频声道中的低音音频。因为该LFE声道仅需要其他音频声道的带宽的一部分，所以它被标示为“.X”声道，其中X是包括零的任何正整数(比如在5.1或7.1环绕声中)。

在传统的基于声道的多声道声音***中，低音管理技术从主要音频声道收集低音以驱动一个或多个低音炮。因为通过低音管理，主要扬声器仅需要再现音频信号的较高频部分、而不必再现低音信号，所以主要扬声器可以较小。而且，在传统的基于声道的多声道声音***中，音频信号被输出到回放环境中的特定的一个扬声器或多个扬声器。

基于音频对象的声音***使用与每个音频对象相关联的信息性数据(包括3D空间中的位置数据)来在回放环境中定位对象。基于音频对象的***不关心回放环境中的扬声器的数量。并且回放环境中的众多可能的扬声器配置提高了当使用传统的低音管理***时低音过载的可能性。具体地说，低音信号被按照振幅求和，并且因为多个相干的低音信号被加在一起，所以存在以不期望的高振幅回放低音信号的可能性。该现象有时被称为“低音累积(build-up)”。换句话说，与每个相干的低音信号由全范围扬声器在声学上再现时这些信号听起来将如何相比，这些信号的电求和趋向于过于强调结果。当使用基于音频对象的音频时，该低音累积问题加剧。

“低音管理”(也被称为“低音重定向”)是用于描述从数个音频声道(或扬声器)收集低频信号并且将它重定向到低音炮的处理的短语。经典的低音管理技术使用低通滤波器来隔离音频声道的低频部分(或低音信号)。每个音频声道的低音信号然后被与低频效果信号求和以形成使用低音炮再现的低音炮信号。扬声器的不同之处通常在于它们再现低音的能力。与较大的扬声器或被专门设计用于低音再现的扬声器(比如低音炮)相比，具有较小的低音喇叭(woofer)(大约为6”和更小)的扬声器不太能产生非常低的或深沉的低音。

从声音***内的单声道到立体声、到越来越多的扬声器，最后到存在所有这些附加的声道，但是我们仍然想要将它们提炼为我们馈送低音炮的一个信号。这是因为低音炮再现甚低频并且就方向性而言人类对于甚低频的响应不好。感知将是，低音炮对放置在回放环境中的任何地方的声音的低音进行处理。

当使用基于音频对象的声音***时，低音累积问题主要由于两个问题而加剧。首先，回放环境可以被分组成回放区域，并且一些区域处的低音信号可能并非一直都是期望的。许多电影院具有在后部扬声器中的、用来表示来自环绕物的低音的、在后墙中的低音炮，以及来自屏幕后面的、用于对来自这些扬声器的低音进行处理的低音炮。例如，回放环境可以是具有被分组成两个回放区域(房间的前部(在屏幕后面)和房间的后部)的扬声器的电影院。每个回放区域具有低音炮。在一些情况下，可能期望的是在后部回放区域而不是在前部回放区域中的低音炮上再现低音信号。如果低音信号接近从与它相关联的常规扬声器出来的其他声音，则低音频率趋向于与较高频音频较好地融合。

另一个问题是，因为对声音存在大小控制，所以对象音频是独特的。这允许我们将声音从一个或两个扬声器传播到多达所有的扬声器。不论大小怎样被调整，都期望的是扩展其覆盖，而不是改变低音声音与主要声音的比率。

克服这些问题的极端简单化的方式是对低音信号中的每个应用固定的缩放因子(或增益系数)。然而，这仅对假定的信号是正确的，因为它是一阶近似。这不是控制低音累积的精确的方式。

较复杂的低音管理技术在任何音频对象的空间渲染之前提取低音信号。该技术的缺点是，它不支持扬声器的子集区域内的低音管理。这意味着，如果存在不应该被包括在低音管理中的扬声器，则收集的低音信号被混音(mix)回到该扬声器中，使得该扬声器的低音信号仍被分布到低音炮。而且，该扬声器不仅再现最初送往它的低音，而且还再现来自所有的其他低音管理的扬声器的低音。

另一类型的低音管理技术使用波场合成(WFS)。该技术对每个音频对象的增益进行缩放以便实现来自低音炮的正确水平的低音。然而，不可能以无误差(error)的方式在具有不同的扩音器密度和不同数量的扩音器的WFS***之间传送低音炮声道的混音。而且，没有意图、也没有手段来直接解决由所涉及的扩音器的数量导致的低音累积。

发明内容

提供本发明内容是为了以简化的方式介绍下面在具体实施方式中进一步描述的构思的选择。本发明内容并非意图认定要求保护的主题的关键特征或本质特征，也并非意图被用来限制要求保护的主题的范围。

低音管理***和方法的实施例用于保持由低音炮再现的低音相对于从其他扬声器出来的声音的正确平衡。该***和方法对于各种不同的扬声器配置(包括具有不同的扬声器子区域的扬声器配置)是有用的。

在该***和方法的实施例中，只有与某个扬声器区域有关的低音被收集以用于该区域的低音炮。被排除在低音管理之外的任何扬声器 (例如，L、C、R屏幕扬声器)将仅接收适合于它们的低音(它们各自的声道加上来自位于一定接近度内的对象的低音)。该***和方法的实施例的主要益处是改进的声音局部化、跨越观众的较均匀的频谱平衡、重低音(subs)与主要扬声器的更无缝的时间融合以及增大的净空(headroom)。

该***和方法的实施例假定所有的声音来自一致的距离。没有使用波场性质元数据，因为它并不存在。而且，该***和方法的实施例是幂(power)保持的，并且对生成在一个或多个扬声器上的幂规范化的扬声器增益的任何渲染器是起作用的。

低音管理方法的实施例通过输入或从渲染器接收数个幂规范化的扬声器增益系数来对音频信号进行处理。音频信号包含音频对象和相关联的渲染信息。增益系数的数量使得对每个扬声器声道和每个音频对象，存在增益系数。该方法组合增益系数，并且计算组合的增益系数的幂以获得幂保持的低音炮贡献系数。幂保持意味着组合的增益系数的幂被保持。

该方法的实施例还对低音炮音频信号应用低音炮贡献系数以获得增益修改的低音炮音频信号。低音炮音频信号是包含音频信号和音频对象的低频或低音部分的信号。在一些实施例中，该低音部分是通过使用低通滤波器从音频信号和音频对象剥离低频而获得的。增益修改的低音炮音频信号通过低音炮回放以确保一定量的低音信号被应用于低音炮避免了低音管理误差。而且，该方法的实施例确保，当音频对象在音频环境中被空间渲染时，低音炮贡献的量对于多个音频对象中的每个是正确的，并且任何低音管理误差被避免或减轻。

在一些实施例中，音频环境中的扬声器被划分为多个扬声器区域。在一些实施例中，在一些实施例中，这些扬声器区域包含不同数量的扬声器、不同类型的扬声器或这二者。这是与音频环境中的其他扬声器区域相比。在多个扬声器区域实施例的情况下，对每个扬声器区域计算低音炮贡献系数。在一些实施例中，对多个扬声器区域中的每个低音炮计算低音炮贡献系数。

组合的增益系数的幂是通过首先对每个增益系数求平方值并且获得平方的增益系数而获得的。将这些平方的增益系数求和或加在一起以获得平方和。获取该平方和的平方根，结果是低音炮贡献系数。如果存在多个扬声器区域，则只有来自被包含在特定扬声器区域(其包括低音炮)中的扬声器的增益系数用于计算低音炮贡献系数。

应注意，替代实施例是可能的，并且本文所讨论的步骤和元素可以依赖于特定的实施例而被改变、添加或消除。在不脱离本发明的范围的情况下，这些替代实施例包括可以使用的替代步骤和替代元素，并且可以做出结构改变。

附图说明

现在参照附图，在附图中，相似的附图标记始终表示对应的部分：

图1是示出术语“源”、“波形”和“音频对象”之间的差别的示图。

图2是术语“床混音”、“对象”和“基本混音”之间的差别的图示。

图3是示出用于5.1音频***的标准低音管理的框图。

图4是示出图3所示的标准低音管理构思应用于基于音频对象的***的框图。

图5示出使用本文所讨论的***和方法的实施例被配备用于基于对象的音频呈现和低音管理的电影院的典型例子。

图6是示出本文所讨论的低音管理***和方法的实施例的详细框图。

图7是示出渲染之前的低音管理***和方法的替代实施例的详细框图。

图8是示出使用渲染异常参数的低音管理***和方法的实施例的详细框图，该渲染异常参数具有应用于低音管理馈送的渲染器增益。

具体实施方式

在低音管理***和方法的实施例的以下描述中，参照附图。这些附图以图示的方式示出可以如何实施低音管理***和方法的实施例的特定例子。理解的是，在不脱离要求保护的主题的范围的情况下，可以利用其他实施例，并且可以做出结构改变。

I.术语

下面是本文档中所使用的一些基本术语和概念。注意，这些术语和概念中的一些可能具有与它们在与其他音频技术一起使用时所具有的意义略微不同的意义。

本文档讨论了基于声道的音频和基于对象的音频这二者。音乐或音轨传统上是通过以下方式创建的，即，在录音室里将数个不同的声音混音在一起，决定这些声音应该在哪里被听到，并且创建要在扬声器***中的每个单个的扬声器上播放的输出声道。在该基于声道的音频中，声道意在用于定义的标准扬声器配置。如果使用不同的扬声器配置，则声音可能不在它们意图去到的地方结束或者可能不以正确的回放水平结束。

在基于对象的音频中，所有的不同的声音都与描述声音应被如何再现的信息或元数据(包括其在三维(3D)空间中的位置)组合。然后由回放***针对给定的扬声器***对对象进行渲染以使得对象是按预期再现的并且被放置在正确的位置处。就基于对象的音频而言，音乐或音轨应该在具有不同数量的扬声器或者具有在相对于收听者不同位置上的扬声器的***上听起来基本上相同。该方法帮助保持艺术家的真实意图。

图1是示出术语“源”、“波形”和“音频对象”之间的差别的示图。如图1所示，术语“源”用于意指单个声波，该单个声波表示床混音的一个声道或表示一个音频对象的声音。当源被分配围绕收听者100的3D空间中的特定位置时，该声音及其在3D空间中的位置的组合被称为“波形”。“音频对象”(或“对象”)是当波形与其他元数据(比如声道集、音频呈现层级等)组合时创建的，并且存储在“增强位流”的数据结构中。“增强位流”不仅包含音频数据，而且还包含空间数据和其他类型的元数据。“音频呈现”是最后从低音管理***和方法的实施例出来的音频。

短语“增益系数”是为增大或降低音频信号的音量而对该音频信号的水平进行调整的量。术语“渲染”指示将给定的音频分布格式变换到正在使用的特定的回放扬声器配置的处理。渲染试图在回放***和环境的参数和限制给定的情况下重新创建尽可能接近原始空间声学空间的回放空间声学空间。

当环绕扬声器或架高扬声器从回放环境中的扬声器布局中缺失时，可以将意在用于这些缺失的扬声器的音频对象重新映射到回放环境中物理(physically)存在的其他扬声器。为了使得能够实现该功能性，可以定义“虚拟扬声器”，这些虚拟扬声器被用在回放环境中，但是不是与输出声道直接相关联。相反，它们的信号通过使用下混映射而被重新路由到物理扬声器声道。

图2是术语“床混音”、“对象”和“基本混音”之间的差别的图示。“床混音”和“基本混音”这二者是指被渲染到收听者100的基于声道的音频混音(比如5.1、7.1、11.1等)，该音频混音可以作为声道或作为基于声道的对象而被包含在增强位流中。这两个术语之间的差别是，床混音不包含位流中所包含的音频对象中的任何一个。基本混音包含对于标准扬声器布局(比如5.1、7.1等)以基于声道的形式呈现的完整音频呈现。在基本混音中，存在的任何对象被混音到声道混音中。这在图2中被示出，图2示出基本混音包括床混音和任何音频对象这两者。

低音炮是在家庭音频***中扩展低音响应的常见方式。家庭中的低音炮允许主要扬声器较小、较便宜并且较易于更换。这在包括5个、 7个或更多个扬声器的环绕声***中尤其有用。在这些***中，“低音管理”技术应用分频滤波器(互补的低通滤波器和高通滤波器)来对来自主要声道的低音频率进行重定向，将它们加在一起，并且将组合的信号呈现给低音炮。

图3是示出这种类型的低音管理技术300应用于基于5.1声道的音频***的框图。具体地说，主要声道左(L)、中心(C)、右(R)、左环绕(Ls)和右环绕(Rs)所具有的相应的低音信号310、312、315、 318、320被重定向并且被求和325。滤波的主要声道330、332、335、 338、340通过相应的扬声器345、348、350、352、355被渲染。低频效果(LFE)声道被与求和的低音信号组合360，并且通过低音炮370 被渲染。

历史上，电影院几十年来一直使用从音轨中的特定LFE声道驱动的低音炮。然而，低音管理通常没有被使用。目前的5.1电影院具有围绕观众分布环绕声道的多个环绕扬声器。在环绕阵列中可以存在5 个、10个或更多个扬声器，所有这些扬声器传载相同的信号，因此共享负载。

随着用于电影声音的基于对象的音频(比如多维音频(MDA)) 的出现，每个扬声器被单个地驱动。因此，每个扬声器可以传载独特的信号或者独立地播放。现在期望改进环绕扬声器的声音质量以较好地匹配屏幕声道。这意味着当声音被围绕电影院平移时，感知的质量维持较一致。低音管理被看作是改进环绕扬声器的低音能力和幂处理的有效手段。这要求每一个环绕扬声器的信号被包括在低音管理***和方法中。

图4是示出图3所示的标准低音管理技术应用于基于音频对象的***400的框图。在图4中，术语“OBAE”是指基于对象的音频本质(essence)。如图4所示，OBAE位流405被输入到OBAE位流解析器410，OBAE位流解析器410解析出数量n个对象，即对象1到对象n。每个对象所具有的低频被移除(remove)并且被重定向和求和415。OBAE位流405的LFE 420也被与对象的重定向的低频信号求和430。主要处理440被应用于对象，并且重低音处理450被应用于低频信号。处理的主要对象信号和处理的重低音这二者在音频环境 460中被回放。

然而，图4所示的布置的一个问题是，几个扬声器可能被馈送相同的信号。这将会由于矢量基振幅平移(VBAP)平移而发生，或者当基于声道的音频在整个阵列上呈现时或者当使用对象传播(spread) 函数来扩展声音的维度时可能发生。代替对环绕阵列求和一个信号，低音管理将对相同信号的5个、10或更多个副本进行求和。传播函数、散度(divergence)和孔径可以包含甚至更多的扬声器。

当两个相同的信号被电求和时，结果是强6dB。相较而言，当这两个信号在电影院中在单独的扬声器中播放时，声学求和将仅强3dB。这意味着，通过传统的低音管理求和的低音炮水平将过高3dB。如果存在四个源信号，则误差将增大到6dB。现代的沉浸式电影院可以具有总共大约30-50个扬声器，它们中几乎一半馈送低音管理***。过大的低音累积将是显著的。因为音频信号在扬声器之间的定位和分配动态地改变，所以不存在可以正确地补偿误差累积问题的固定增益偏移。而且，就基于对象的***而言，最终的渲染配置是未知的。因此，与标准低音管理***相比，当对基于对象的***应用低音管理时，低音管理***需要更加智能。

II.***和操作细节

低音管理***和方法的实施例通过使用对象音频渲染处理中可用的显式信息来导出用于每个音频对象的正确的低音炮贡献以减轻低音管理误差。该***和方法的实施例适合用于商用的电影院处理器中，或者适合用于可以在电影院媒体块(服务器)中运行的非实时预渲染处理中。另外，该处理可以被证明在基于对象的消费者环绕处理器中是有用的。

图5示出使用本文所讨论的低音管理***和方法的实施例被配备用于基于对象的音频呈现和低音管理的电影院的典型例子。如图5中所示的平面图所示，被配备用于基于对象的音频呈现和低音管理的典型的电影院环境500包含几个扩音器(或“扬声器”)。应注意，图 5示出了低音管理***和方法的示例性实施例，并且众多扬声器布局、扬声器类型和其他变型是可能的。

图5中所示的扬声器配置包括在电影院的前部、充当主要扬声器的左扬声器(L)、中心扬声器(C)和右扬声器(R)。低频效果扬声器(LFE)是也被放置在电影院的前部附近的低音炮。左侧环绕(Lss) 扬声器阵列包括数量n个扬声器Lss1至Lss(n)。在左侧还有左后环绕 (Lrs)扬声器阵列，该扬声器阵列包括数量n个扬声器Lrs1至Lrs(n)。在电影院的右侧，右侧环绕(Rss)扬声器阵列包括数量n个扬声器 Rss1至Rss(n)。在右侧还有右后环绕(Rrs)扬声器阵列，该扬声器阵列包括数量n个扬声器Rrs1至Rrs(n)。注意，为清晰起见，并且为了避免附图中混乱，在图5中没有示出Rss和Rrs阵列中的各个扬声器。

电影院环境500还包括数量n个扬声器的顶环绕右(Tsr)阵列，该阵列包括扬声器Tsr1至Tsr(n)。类似地，在电影院的左侧有数量n 个扬声器的顶环绕左(Tsl)阵列，该阵列包括扬声器Tsl1至Tsl(n)。再次，为清晰起见，并且为了避免附图中混乱，在图5中没有示出Tsl 阵列中的各个扬声器。电影院环境500中的扬声器配置还包括左后重低音(Lr重低音)扬声器。Lr重低音扬声器是从所有Lss、Tsl和 Lrs阵列收集低音并且通过Lr重低音低音炮来播放该低音的低音炮。类似地，电影院的右侧包括右后重低音(Rr重低音)扬声器，该扬声器是从所有Rss、Tsr和Rrs阵列收集低音并且通过Rr重低音低音炮来播放该低音的低音炮。

图6是示出低音管理***600和方法的实施例的框图。图6所示的***和方法的实施例通常将在电影院处理器中实现，并且用于电影院环境(比如图5所示的电影院环境500)中。该***和方法的实施例的其他使用包括在消费者环绕处理器内。图6所示的实施例支持对于如典型的电影院中的情况那样使用全范围扬声器和小型低音管理的扬声器的组合以及单独的低音管理区域的***所需要的灵活性。

为了教学的目的，并且为了避免混乱，图6仅示出了对于一个音频对象的低音炮贡献。图6所示的低音管理***600和方法的实施例支持全范围扬声器和低音管理的扬声器的混合(mix)，并且还支持多个低音管理区域，比如左环绕区域和右环绕区域，其中每个驱动它们自己的低音炮。

图6所示的***和方法知道***中的每个扬声器。而且，***600 和方法通过使用与每个音频对象包含在一起的渲染信息(或元数据) 来在扬声器上分布该音频对象。例如，渲染信息规定音频对象是应该在单个扬声器上被渲染、还是应该通过扬声器阵列被渲染。***渲染器(比如VBAP渲染器)直接控制声音如何被分布给所有的扬声器。

***渲染器使用数学处理来准确地确定任何给定声音中有多少正在去到任何给定扬声器。该信息用于确定有多少低音正在被复制到不同的扬声器中。该计算获取所有的不同的增益系数，将它们在一起求和，并且使用该和来调节(modulate)正从该信号去到低音炮的低音的量。

在图6中，示出了用于单个音频对象的分布模型。还示出了用于每个可能的扬声器的增益系数。图6中的左边的列是增益系数阵列 610，该增益系数阵列610是用于单个音频对象的渲染器的输出。***600的输入是来自生成在一个或多个扬声器上的幂规范化的增益的任何渲染器的增益系数。增益系数阵列610包含来自渲染器(未示出) 的数量n个这些增益系数(g₁至g_n)。这些增益系数控制波形中有多少正在去到每个扬声器。在一些情况下，增益系数为零，而在其他情况下，增益系数大于零。

为了确定用于低音炮的低音炮贡献系数，基于增益系数阵列610 的增益系数是其一部分的低音炮区域来对这些增益系数进行处理。如下面详细地说明的，获得低音炮贡献系数的处理包括计算增益系数的幂以计算用于每个低音炮的幂保持的低音炮贡献系数。增益系数可以随着音轨改变而动态地改变。在一些实施例中，在所计算的低音炮贡献系数调节馈送低音炮的音频时，使用平滑函数来减轻可听伪像。

在***600和方法的系数应用器节段(框620)中，增益系数依赖于信号目的地是常规扬声器还是低音炮而被应用于波形。如果目的地是常规扬声器，则增益系数被应用于波形，并且增益修改的信号被发送到扬声器输出总线(框630)。分频滤波器被应用(框640)，并且处理的音频信号在相应的扬声器上被回放(框650)。

如果目的地是扬声器区域的低音炮，则***600和方法计算用于低音炮的低音炮贡献系数。用于馈送Rs重低音区域低音炮的一个对象的低音炮贡献系数的导出在图6的框660中示出。框660概括了用于共享共用低音炮的扬声器的低音炮贡献系数的计算的细节。如图6的框660中所示，增益系数g₄至g_n全部共享Rs重低音区域低音炮。***600和方法通过以下方式来计算这些增益系数的幂：对各个增益系数求平方值，将这些平方值求和，然后获取求和的平方的增益系数的平方根。这在下面的方程(1)中用数学方法示出。结果是低音炮贡献系数，该系数是框660的输出。在系数应用器节段(框620)中，低音炮增益系数被应用于波形的送往低音炮的部分，并且该增益修改的低音炮音频信号被发送到低音炮输出总线(框630)。分频滤波器被应用(框640)，并且处理的低音炮音频信号在正确的低音炮(在这种情况下为Rs区域低音炮)上被以音频的形式回放(框650)。

相同的处理适用于音轨中的所有对象，它们的输出被合并在扬声器输出总线中，然后被馈送到低音管理高通和低通分频滤波器。*** 600和方法的实施例使用渲染信息，该渲染信息包括音频对象中有多少正在去到每个扬声器(包括低音炮)。

应注意，确定增益系数的方式与渲染器算法完全无关。本文所描述的低音管理***600和方法并非仅仅用于VBAP、MDA或者特定于任何一种类型的渲染器。事实上，它是独立于渲染器的。所有的渲染都是在本文所描述的低音管理***600和方法的实施例的上游执行的。哪个渲染算法正在被使用完全是没有区别的。

就声音的振幅而言，每个增益系数表示缩放因子。所以，将所有这些增益系数的幂在一起求和以表示最终的增益系数。实际上，它是增益系数的均方根(RMS)。这用下面阐述的方程(1)来表示。

期望的是使用信号的幂，而不仅仅是增益系数的和。这是因为如果增益系数仅被求和，则结果是声音的强度，而不是声音的功率 (power)。应该被使用的声学表示用这些贡献的幂来表示。当在许多扬声器上渲染声音时，期望的是在扬声器上维持相同的主观响度，然后维持相同的电功率。这是为什么电功率项是这里用于低音的相对度量。

而且，当所有的信号一起被简单地加在一起时，这是被违反的 (violated)。当将所有的信号加在一起时，它不再表示功率，而是表示强度。在声学上，这是引起差异的地方。

在基于对象的***中，回放***的渲染器是控制音频信号在可用的扬声器之间的分配的机构。多个渲染函数可以对给定的音频对象(比如VBAP)、散度或孔径并行地操作。每个函数确定波形在相关扬声器上的适当分配。分配由用于每个扬声器的增益系数控制。当多个函数正在对馈送单个扬声器的波形并行地操作时，在对波形应用增益系数之前，首先将增益系数相乘在一起以获得最终的增益系数。

每个最终的增益系数表示馈送每个扬声器的波形的信号水平的直接测度。该显性知识以前对于回放***从未是可用的，并且它允许低音管理***600准确地计算对象的波形在低音管理中所涉及的每一个扬声器上的声功率。该所得的功率值表示将被馈送到低音炮的低音信号的期望量。用于每个扬声器的最终的增益系数在图6中被示为g1至 g_n。

在图6中所示的实施例中，低音炮贡献系数生成器(框660)的例子仅使用包括系数g₄至g_n来计算用于Rs低音炮的低音炮贡献系数。这是因为扬声器4至n被包括在Rs扬声器区域中。因此，音频对象的波形对低音炮的期望的最终贡献是g₄至g_n系数的幂和(power sum)乘以波形。方程(1)如下描述了Rs低音炮贡献的幂的计算：

方程(1)用于计算用于音频对象的低音炮贡献系数。图6真正地仅是表达数学方程的图形方式。该***和方法的实施例使用幂保持增益。低音炮贡献系数的计算使用幂保持增益。

图6中所示的低音管理***600和方法的实施例的总体操作是通过输入包含至少一个音频对象的音频信号开始的。基于对象的音频供应从对象渲染器输出的显式增益信息，该对象渲染器生成在一个或多个扬声器上的幂规范化的扬声器增益。这意味着，该对象渲染器支持多扬声器平移或可变的程度(extent)(比如散度、孔径)或基于声道的阵列呈现。

III.替代实施例和示例性操作环境

其中所有扬声器都被一致地低音管理到共用低音炮的替代实施例是可能的，如面向商用的或消费者的规模较小的安装中情况可能就是如此。这些替代实施例不要求系数的任何计算。因为馈送低音炮的音频是在渲染操作之前获取的，所以这是可能的，从而避免了音频的多个副本的求和。

如果期望仅分隔(sequester)来自扬声器的子集的低音(例如，仅使来自环绕扬声器的低音去到低音炮)，则图6中所示的实施例是最灵活的实施例，这是由于前部的扬声器独自地被覆盖。但是，如果典型的家庭***正在被使用，或者如果是规模较小的电影院，则在屏幕后面可能不存在发出低音的巨大扬声器。因此，可能期望的是对整个扬声器***进行低音管理。在这种情况下，可以使用低音管理***和方法的简化版本。这在图7的实施例中示出。

图7是示出渲染之前的低音管理***和方法的替代实施例的详细框图。只要所有输出扬声器上的总信号能量维持恒定并且不被各种渲染操作更改，图7中所示的实施例就是可工作的。这适用于VBAP、散度和孔径函数。

图7的实施例具有不同的要求集合，包括单个低音炮。图7示出当所有的声道在低音炮中时的情况。这意味着***中馈送所有扬声器的所有声道将被以相同的方式进行低音管理。所以，不存在细分哪些扬声器用低音炮表示的选项。此外，存在改变交越(cross-over)频率的选项。

如图7中所示，在低音管理***700和方法的一般实施例中，甚至在音频信号进入渲染器之前剥离该音频信号的低音部分。具体地说，低音仅仅是直接从对象收集的(在对象已经被渲染之前)。如图7所示，输入是两声道信号(OBAE位流705)，并且OBAE位流解析器710解析出数量n个对象(对象1至对象n)以及LFE 715信号。使用高通滤波器(HP)和低通滤波器(LP)的组合，低音被从对象剥离并且被求和(框720)。求和的剥离后的低音然后被与LFE信号混音(框730)以获得低频信号。

对象被渲染，并且主要处理740被应用于对象，重低音处理750 被应用于低频信号。处理的主要对象信号和处理的低音信号这二者在音频环境760中被回放。在一些实施例中，处理的主要对象信号通过环绕处理器(未示出)被运行，该环绕处理器在环绕声扬声器(通常为5个、7个或11个扬声器)之间传播该处理的主要对象信号。环绕处理器通过环绕声扬声器在音频环境中执行多个音频对象的空间渲染以使得它们在音频环境中形成环绕声配置。处理的低频低音可以被放回(put back)或通过低音炮被发送。

低音管理***和方法的一些实施例包括被称为渲染异常参数的元数据参数。渲染异常参数允许当存在渲染器异常时在渲染器中做出任何增益改变。这是在来自所有对象的低音已经被校正之后发生的，并且期望改变该对象中有多少在较下游的扬声器中被表示。如果对象的水平正在改变，则改变其低音中有多少被表示也是明智的。

图8是示出使用渲染异常参数的、其中渲染器增益被应用于低音管理馈送的低音管理***800和方法的实施例的详细框图。如图8所示，为了使收集的低音信号跟踪这些增益改变，渲染增益参数也必须被应用于馈送低音求和器的信号。

具体地说，在图8中，输入是OBAE位流805。OBAE位流解析器810解析出数量n个对象(对象1至对象n)以及LFE 815信号。使用高通滤波器(HP)和低通滤波器(LP)的组合，低音频率被从对象剥离，并且被输入到处理器(框820)。处理器的输入还有渲染异常参数825，渲染异常参数825反映渲染的对象的增益中的改变。剥离后的低音频率被求和(框830)，并且求和的剥离后的低音然后被与LFE信号混音(框835)以获得低频信号。

对象根据在OBAE渲染器中做出的任何增益改变而被渲染。主要处理845被应用于对象，重低音处理850被应用于低频信号。处理的主要对象信号和处理的低频信号这二者在音频环境860中被回放。类似于图7所示的实施例，在一些实施例中，处理的主要对象信号通过环绕处理器(未示出)被运行，该环绕处理器在环绕声扬声器(通常为5个、7个或11个扬声器)之间传播该处理的主要对象信号。处理的低频低音可以被放回或通过低音炮被发送。

图6-8所示的低音管理***和方法的实施例支持混合的扬声器类型或混合的区域。渲染器函数系数的幂然后被计算以便导出用于音频对象的低音炮贡献系数。这些是图6中的“g”项。

除了本文所描述的变型之外的许多其他的变型根据本文档将是清楚的。例如，依赖于实施例，本文所描述的方法和算法中任何一个的某些动作、事件或功能可以按不同的顺序执行，可以被添加、被合并、或者被一起省略(使得并非所有的所描述的动作或事件对于实施所述方法和算法是需要的)。而且，在某些实施例中，动作或事件可以同时执行，比如通过多线程处理、中断处理、或多个处理器或处理器核或在其他并行架构上处理，而不是顺序地处理。另外，不同的任务或处理可以由可以一起运作的不同的机器和计算***执行。

与本文所公开的实施例结合描述的各种说明性逻辑块、模块、方法和算法处理和序列可以被实现为电子硬件、计算机软件或这二者的组合。为了清楚地示出硬件和软件的这个可互换性，上面已经就各种说明性组件、块、模块和处理动作的功能性对它们进行了概括描述。这样的功能性是被实现为硬件还是软件依赖于特定的应用以及施加于整个***上的设计约束。所描述的功能性可以针对每个特定的应用以变化的方式实现，但是这样的实现决策不应该被解释为使得脱离本文档的范围。

与本文所公开的实施例结合描述的各种说明性逻辑块和模块可以由机器(比如被设计为执行本文所描述的功能的通用处理器、处理设备、具有一个或多个处理设备的计算设备、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或它们的任何组合)实现或执行。通用处理器和处理设备可以是微处理器，但是在替代方案中，处理器可以是控制器、微控制器或状态机或它们的组合等。处理器也可以被实现为计算设备的组合，比如DSP和微处理器的组合、多个微处理器、与DSP核结合的一个或多个微处理器、或任何其他的这样的配置。

本文所描述的低音管理***和方法的实施例在许多类型的通用或专用计算***环境或配置内是可操作的。一般来说，计算环境可以包括任何类型的计算机***，举几个例子来说，包括但不限于基于一个或多个微处理器的计算机***、大型计算机、数字信号处理器、便携式计算设备、个人记事本、设备控制器、器具内的计算引擎、移动电话、台式计算机、移动计算机、平板计算机、智能电话以及具有嵌入式计算机的器具。

这样的计算设备通常可以见于具有至少一些最小的计算能力的设备中，包括但不限于个人计算机、服务器计算机、手持计算设备、膝上型或移动计算机、通信设备(比如蜂窝电话和PDA)、多处理器***、基于微处理器的***、机顶盒、可编程消费者电子产品、网络PC、迷你计算机、大型计算机、音频或视频媒体播放器等。在一些实施例中，计算设备将包括一个或多个处理器。每个处理器可以是专门的微处理器，比如数字信号处理器(DSP)、超长指令字(VLIW)、或其他微控制器，或者可以是具有一个或多个处理核(包括多核CPU中的基于专门的图形处理器单元(GPU)的核)的常规中央处理单元(CPU)。

与本文所公开的实施例结合描述的方法、处理或算法的处理动作可以直接用硬件、由处理器执行的软件模块或这二者的任何组合来实施。软件模块可以被包含在可以被计算设备访问的计算机可读介质中。计算机可读介质包括易失性和非易失性介质两者，该介质是可移除的、不可移除的或它们的某个组合。计算机可读介质用于存储信息，比如计算机可读的或计算机可执行的指令、数据结构、程序模块或其他数据。以示例的方式而非限制，计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括但不限于计算机或机器可读介质或存储设备，比如蓝光盘(BD)、数字多功能盘(DVD)、紧凑盘(CD)、软盘、带驱动器、硬盘驱动器、光学驱动器、固态存储器设备、RAM 存储器、ROM存储器、EPROM存储器、EEPROM存储器、闪存或其他存储器技术、磁盒、磁带、磁盘储存器、或其他磁性存储设备、或可以用于存储期望的信息并且可以被一个或多个计算设备访问的任何其他设备。

软件模块可以驻存在RAM存储器、闪存存储器、ROM存储器、 EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除盘、CD-ROM、或本领域中已知的任何其他形式的非暂时性计算机可读存储介质、媒体或物理计算机储存器。示例性存储介质可以耦合到处理器，以使得处理器可以从存储介质读取信息并且将信息写入到存储介质。在替代方案中，存储介质可以与处理器是一体的。处理器和存储介质可以驻存在专用集成电路(ASIC)中。ASIC可以驻存在用户终端中。可替代地，处理器和存储介质可以作为分立的组件驻存在用户终端中。

如本文档中所使用的短语“非暂时性”意指“持久的或长久的”。短语“非暂时性计算机可读介质”包括任何的和所有的计算机可读介质，唯一的例外是暂时性的传播信号。以示例的方式而非限制，这包括比如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)之类的非暂时性计算机可读介质。

短语“音频信号”是表示物理声音的信号。

比如计算机可读或计算机可执行指令、数据结构、程序模块等的信息的保持也可以通过使用各种通信介质来实现以对一个或多个调制的数据信号、电磁波(比如载波)或其他输送机制或通信协议进行编码，并且包括任何有线或无线信息递送机制。一般来说，这些通信介质是指这样的信号，该信号使其特性中的一个或多个被以将信息或指令编码在该信号中的方式设置或改变。例如，通信介质包括有线介质 (比如有线网络或传载一个或多个调制的数据信号的直接连线的连接)和无线介质(比如声学、射频(RF)、红外、激光以及用于发送、接收、或既发送又接收一个或多个调制的数据信号或电磁波的其他无线介质)。上面的任何一个的组合也应该被包括在通信介质的范围内。

此外，实施本文所描述的低音管理***和方法的各种实施例中的一些或全部的软件、程序、计算机程序产品中的一个或它们的任何组合、或者其部分可以被存储、被接收、被发送、或者被从计算机或机器可读介质或存储设备和通信介质的任何期望组合中以计算机可执行指令或其他数据结构的形式读取。

本文所描述的低音管理***和方法的实施例可以在正被计算设备执行的计算机可执行指令(比如程序模块)的一般上下文下被进一步描述。一般来说，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本文所描述的实施例也可以在其中任务由一个或多个远程处理设备执行的分布式计算环境中实施，或者在通过一个或多个通信网络链接的一个或多个设备的云内实施。在分布式计算环境中，程序模块可以被安置在本地和远程计算机存储介质(包括媒体存储设备)这二者中。更进一步地，前述指令可以部分地或完全地被实现为硬件逻辑电路，这些硬件逻辑电路可以包括或者可以不包括处理器。

本文所使用的条件语言(除了别的之外，比如“能够”、“可能”、“可以”、“例如”等)除非另有具体陈述或者在所使用的上下文内另有理解，否则一般意图传达某些实施例包括，而其他实施例则不包括某些特征、元素和/或状态。因此，这样的条件语言一般并不意图暗示特征、元素和/或状态以任何方式是一个或多个实施例所需要的或者一个或多个实施例需要包括用于在有或没有作者输入或提示的情况下决定这些特征、元素和/或状态是否被包括在任何特定实施例中或者在任何特定实施例中是否要被执行的逻辑。术语“包括”、“包含”、“具有”等是同义的，并且是以开放式的方式包容性地使用的，并且不排除附加的元素、特征、动作、操作等。此外，术语“或”是以其包容性的意义(而非其排他性的意义)使用的，使得当被用来例如连接元素列表时，术语“或”意指该列表中的元素中的一个、一些或全部。

虽然上面详述的描述已经示出、描述并且指出了应用于各种实施例的新颖特征，但是将理解，在不脱离本公开的精神的情况下，可以对示出的设备或算法做出形式和细节上的各种省略、替换和改变。如将认识到的，本文所描述的发明的某些实施例可以在不提供本文所阐述的所有特征和益处的形式内被实施，因为一些特征可以被与其他特征分开地使用或实施。

而且，尽管已经用特定于结构特征和方法动作的语言描述了主题，但是要理解的是，所附权利要求中限定的主题不一定限于上述特定特征或动作。相反，上述特定特征和动作是作为实现权利要求的示例形式而公开的。

Claims

1.一种用于对音频信号进行处理的方法，包括：

从渲染器输入用于音频信号的幂规范化的扬声器增益系数，音频信号包含音频对象和相关联的渲染信息；

组合增益系数，并且计算组合的增益系数的幂以获得幂保持的低音炮贡献系数，该幂保持的低音炮贡献系数保持组合的增益系数的幂；

对低音炮音频信号应用低音炮贡献系数以获得增益修改的低音炮音频信号，所述低音炮音频信号包含音频信号和音频对象的低频或低音部分；以及

通过低音炮在音频环境中回放所述增益修改的低音炮音频信号以确保一定量的低音信号被应用于低音炮避免了低音管理误差，所述低音管理误差包括与低音炮声道的混音和/或低音累积有关的误差。

2.根据权利要求1所述的方法，进一步包括：

在所述音频环境内定义扬声器区域，该扬声器区域包含包括所述低音炮的多个扬声器；并且

其中，组合来自所述多个扬声器的增益系数进一步包括组合来自包括所述低音炮的、所述扬声器区域中的扬声器中的每个扬声器的增益系数。

3.根据权利要求2所述的方法，进一步包括定义多个扬声器区域，扬声器区域中的每个包含多个不同的扬声器和低音炮，并且扬声器区域中的每个包含与其他扬声器区域相比不同数量的扬声器和低音炮。

4.根据权利要求3所述的方法，进一步包括计算用于所述多个扬声器区域中的每个扬声器区域中的每个低音炮的低音炮贡献系数。

5.根据权利要求1所述的方法，其中，计算组合的增益系数的幂进一步包括：

对各个增益系数中的每个求平方值以获得平方的增益系数；

将平方的增益系数求和以获得平方和；以及

通过获取该平方和的平方根来获得用于所述低音炮的低音炮贡献系数。

6.根据权利要求5所述的方法，其中，计算组合的增益系数的幂以获得低音炮贡献系数进一步包括使用以下方程：

其中，n是音频环境中的扬声器的数量，扬声器4到n被包含在音频环境中的包括所述低音炮的扬声器区域中，g是用于音频环境中的相应的扬声器的增益系数，并且波形是低音炮音频信号。

7.根据权利要求5所述的方法，进一步包括：

输入音频信号中所包含的多个音频对象；

在音频对象被渲染器渲染之前使用低通滤波器来从所述多个音频对象中的每个音频对象中剥离低音频率部分以获得剥离后的低音部分；

将剥离后的低音部分求和并且与低频效果(LFE)信号混音以获得低频信号；以及

对该低频信号应用低音炮贡献系数以获得增益修改的低音炮音频信号。

8.根据权利要求7所述的方法，其中，音频环境包含多个扬声器和单个低音炮。

9.根据权利要求8所述的方法，进一步包括使用环绕处理器来对音频信号进行处理以在音频环境中执行所述多个音频对象的空间渲染，并且其中，多个扬声器的数量使得它们在音频环境中形成环绕声配置。

10.一种用于对音频信号中的音频对象确定通过低音炮播放的低音炮音频信号的量的低音管理***，该***包括：

包含多个扬声器和低音炮的音频环境内的扬声器区域；

渲染器，该渲染器生成用于扬声器区域中的所述多个扬声器中的每个和低音炮的幂规范化的扬声器增益系数；

低音炮贡献系数生成器，该低音炮贡献系数生成器通过以下方式来计算增益系数的幂：对增益系数中的每个求平方值，将平方值求和，并且然后获取和的平方根以生成用于所述低音炮的幂保持的低音炮贡献系数，该幂保持的低音炮贡献系数保持增益系数的幂；以及

系数应用器，该系数应用器对音频信号的正在被发送给低音炮的部分应用低音炮贡献系数以获得增益修改的低音炮音频信号。

11.根据权利要求10所述的低音管理***，进一步包括多个扬声器区域，每个扬声器区域包含各种不同类型和数量的扬声器和低音炮，并且其中，对于所述多个扬声器区域中的每个计算唯一的低音炮贡献系数。

12.根据权利要求10所述的低音管理***，进一步包括平滑函数，该平滑函数被应用于低音炮贡献系数以防止当增益系数随着时间改变时的可听伪像。

13.根据权利要求10所述的低音管理***，进一步包括渲染异常参数，该渲染异常参数被应用于低音炮贡献系数以基于音频对象的改变的增益来调整低音炮贡献系数的值。

14.一种用于对基于对象的音频信号进行处理的方法，该基于对象的音频信号包含多个音频对象连同所述多个音频对象中的每个音频对象的相关联的渲染信息，该方法包括：

确定音频环境中的、音频信号将通过其被回放的数个扬声器；

使用渲染器来生成用于扬声器的幂规范化的扬声器增益系数；

从每个扬声器声道剥离音频信号的低音频率部分，并且将它们一起求和以获得低音炮音频信号；

对增益系数中的每个求平方值以获得平方的增益系数；

将平方的增益系数求和以获得平方和；

获取该平方和的平方根以获得幂保持的低音炮贡献系数，该幂保持的低音炮贡献系数保持增益系数的组合的幂；

对低音炮音频信号应用低音炮贡献系数以获得增益修改的低音炮音频信号；以及

基于渲染信息和增益修改的低音炮音频信号而在音频环境中对所述多个音频对象进行空间渲染，以使得低音炮贡献对于所述多个音频对象中的每个音频对象是正确的，并且避免或减轻任何低音管理误差。

15.根据权利要求14所述的方法，进一步包括：

对音频环境中的扬声器定义多个扬声器区域，以使得每个扬声器是所述多个扬声器区域中的仅一个扬声器区域的一部分，并且所述多个扬声器区域中的每个扬声器区域具有低音炮；以及

确定用于所述多个扬声器区域中的每个扬声器区域中的每个低音炮的低音炮贡献系数。

16.根据权利要求15所述的方法，其中，所述多个扬声器区域中的每个扬声器区域包含与其他扬声器区域相比不同数量的扬声器。