CN103354630B

CN103354630B - 用于使用基于对象的元数据产生音频输出信号的装置和方法

Info

Publication number: CN103354630B
Application number: CN201310228584.3A
Authority: CN
Inventors: 斯蒂芬·施赖纳; 沃尔夫冈·菲泽尔; 马蒂亚斯·诺伊辛格; 奥立夫·赫尔穆特; 拉尔夫·斯皮尔施内德
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-07-17
Filing date: 2009-07-06
Publication date: 2016-05-04
Anticipated expiration: 2029-07-06
Also published as: KR20110037974A; EP2146522A1; WO2010006719A1; CA2725793A1; CN103354630A; HK1155884A1; TW201404189A; JP2011528200A; TWI442789B; AR094591A2; US20120308049A1; JP5467105B2; BRPI0910375B1; RU2013127404A; PL2297978T3; MX2010012087A; US20100014692A1; CA2725793C; KR20120131210A; US8824688B2

Abstract

一种用于产生代表至少两个不同音频对象的叠加的至少一个音频输出信号的装置，包含一个处理器，该处理器用于处理音频输入信号，以提供该音频输入信号的对象表示，其中此对象表示可利用对象降混信号来通过原始对象的参数导引式近似来产生。对象操作器，该对象操作器利用关于单独的音频对象的基于音频对象的元数据来单独地操作数个对象，以获得数个受操作音频对象。利用对象混合器混合受操作音频对象，以根据特定的演示设定，最终获得具有一个或数个声道信号的音频输出信号。

Description

用于使用基于对象的元数据产生音频输出信号的装置和方法

本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2011年1月17日、申请号为200980127935.3、发明名称为“用于使用基于对象的元数据产生音频输出信号的装置和方法”的分案申请。

技术领域

本发明涉及音频处理，具体而言，涉及在诸如空间音频对象编码的音频对象编码方面的音频处理。

背景技术

在现今的广播***例如电视机中，在某些情况下，希望不要如同录音师所设计的那样再现音轨，而希望是执行特殊调整，以解决在演示时所给予的约束。一种广为人知的控制此种后期制作调整的技术，是提供伴随着那些音轨的适当元数据。

传统的还音***，如老式家用电视***，系由一个扬声器或一对立体扬声器所组成。更先进的多声道再现***使用五个或者甚至更多个扬声器。

若考虑的是多声道再现***，那么录音师可更灵活地在二维平面上放置数个单音源，并因此亦可针对其所有的音轨而使用较高的动态范围，因为由于公知的鸡尾酒会效应(cocktailpartyeffect)实现语音清晰度容易得多。

然而，那些保真的、高动态的音频可能会导致在传统再现***上的问题。可能会有这样的情景出现：顾客可能会不想要这种高动态信号，因为她或他是在吵闹的环境中(如开车时或是在飞机上，或是使用移动娱乐***)聆听这些内容，她或他正戴着助听器，或是她或他并不想要打扰她或他的邻居(例如在深夜的时候)。

此外，广播公司面临这样的问题，那就是，由于连续项目的调整位准需要不同波峰因数，因而在一个节目中的不同项目(如商业广告)可能会位于不同的音量位准。

在传统的广播传输链中，终端用户接收已混音轨。在接收者方的任何更进一步的操作，都可能只以非常受限的形式完成。目前杜比元数据的小特征集(featureset)允许使用者修改音频信号的一些特性。

一般而言，根据上文所提过的元数据的操作，是在没有任何频率选择性区别的情况下应用的，因为传统上隶属于音频信号的元数据并未提供足够的信息来这么做。

此外，只有完整的音频流本身才可***作。另外，也没有任何方法用于在此音频流中采纳并分割各个音频对象。特别是在不适当的聆听环境中，这可能会令人不满。

在午夜模式中，因为失去了导引信息，所以现存的音频处理器不可能区分环境噪声与对话。因此，在高位准噪声(其必须在音量上被压缩或限制)的情况中，对话也将会被平行地操作。这可能会损害语音清晰度。

相对于环境声音而增加对话位准，有助于增进对语音的感知，特别是对于听力障碍者。这样的技术只在当音频信号额外配合特性控制信息，而在对话与环境分量真正分离时，才能发挥作用。若只有立体声降混信号是可用的，那么就再也不能施加进一步的分离以分别区分和操作语音信息。

目前的降混解决办法允许针对中央与环绕声道的动态立体声位准调整。但针对取代立体声音响的任何变型的扬声器配置，并没有来自发送器的如何降混最终多声道音频源的真正描述。只有解码器中的默认公式以非常不灵活的方式执行信号混合。

在所有描述的方案中，通常会存在着两种不同的途径。第一个途径是，当产生要发送的音频信号时，将一组音频对象降混进单声道、立体声、或是多声道信号中。要经由广播、任何其它传输协议、或在计算机可读储存介质上发布而发送给用户此信号的的这个信号，一般会具有小于原始音频对象数目的声道数，这些原始音频对象被音响师在例如工作室环境中降混。此外，可附加元数据，以允许数种不同的修改，但这些修改只可应用在完整的发送信号上，或者是，若所发送的信号具有数个不同的发送声道时，整体地应用在独立的一些发送声道上。然而，由于这些发送声道总是数个音频对象的叠加，因而在其他音频对象未***作的情况下，对于特定音频对象的独立操作是完全不可能的。

另一个途径是不执行对象降混，而在其作为分离的发送声道时发送音频对象信号。如果音频对象的数目很小，则这样的方案可很好地发挥作用。例如当只存在五个音频对象时，就有可能在5.1方案中彼此分离地发送这五个相异的音频对象。元数据可与这些声道相关联，其指出对象/声道的专有性质。然后，在接收器侧，能够基于所发送的元数据来操作这些所发送的声道。

此途径的缺点是，其并非反向兼容的，且只在小量音频对象的情况中运作良好。当音频对象的数目增加时，作为分离的明确音轨发送所有对象的所需比特率急剧上升。此上升的比特率在广播应用的情况中是特别不适宜的。

因此，目前比特率有效(bitrateefficient)的途径并不允许相异音频对象的独立操作。这样的独立操作只在分别发送各个对象时才被允许。然而，此途径并不是比特率有效的，因此特别是在广播情景中不可行。

本发明的一个目标是提供比特率有效又可行的技术方案以解决这些问题。

根据本发明的第一方面，此目标由这样一种装置实现，该装置用于产生代表至少两个不同音频对象的叠加的至少一个音频输出信号，所述装置包括：处理器，所述处理器用于处理音频输入信号，以提供该音频输入信号的对象表示，其中至少两个不同的音频对象彼此分离，所述至少两个不同的音频对象可作为分离的音频对象信号，并且所述至少两个不同的音频对象可彼此独立地***作；对象操作器，所述对象操作器用于操作至少一个音频对象的音频对象信号或混合音频对象信号，其基于关于所述至少一个音频对象的基于音频对象的元数据，以针对所述至少一个音频对象来获得受操作音频对象信号或受操作混合音频对象信号；以及对象混合器，所述对象混合器用于通过将受操作音频对象与未经修改的音频对象组合，或将所述受操作音频对象与作为至少一个音频对象以不同方式操作的不同的受操作音频对象组合来混合所述对象表示。

根据本发明的第二方面，此目标通过用于产生代表至少两个不同音频对象的叠加的至少一个音频输出信号的方法来实现，该方法包括：处理音频输入信号，以提供所述音频输入信号的对象表示，其中至少两个不同的音频对象被彼此分离，所述至少两个不同的音频对象可作为分离的音频对象信号，并且所述至少两个不同的音频对象可彼此独立地操作；依据关于至少一个音频对象的基于音频对象的元数据，操作所述至少一个音频对象的所述音频对象信号或混合音频对象信号，以针对所述至少一个音频对象来获得受操作音频对象信号或受操作混合音频对象信号；以及通过将所述受操作音频对象与未经修改的音频对象组合，或将所述受操作音频对象与作为至少一个音频对象以不同方式操作的不同的受操作音频对象组合，来混合所述对象表示。

根据本发明的第三方面，此目标通过这样一种装置实现，该装置用于产生表示至少两个不同音频对象的叠加的已编码音频信号，所述装置包括：数据流格式化器，所述数据流格式化器用于格式化数据流，以使所述数据流包含代表所述至少两个不同音频对象的组合的对象降混信号，以及作为边信息的关于所述不同音频对象中至少一个音频对象的元数据。

根据本发明的第四方面，此目标通过这样一种方法实现，该方法用于产生代表至少两个不同音频对象的叠加的已编码音频信号，所述方法包括：格式化数据流，以使数据流包含代表至少两个不同音频对象的组合的对象降混信号，以及作为边信息的关于所述不同音频对象中的至少一个音频对象的元数据。

本发明更进一步的方法涉及执行本发明方法的计算机程序，以及计算机可读存储介质，在所述计算机可读存储介质上存储有对象降混信号，和作为边信息的关于对象降混信号中所包括一个以上音频对象的对象参数数据和元数据。

本发明基于这样的发现，即分别的音频对象信号或分别的混合音频对象信号组的独立操作允许基于对象相关元数据的独立的对象相关处理。根据本发明，此操作的结果并非直接输出至扬声器，而是提供给对象混合器，其针对某一个演示场景产生输出信号，其中所述输出信号由至少一个受操作对象信号或一组已混对象信号加上其它受操作对象信号及/或未经修改的对象信号的叠加来产生的。当然，并非必须要操作各个对象，但在一些情况中，仅操作多个音频对象中的一个对象，而无操作更进一步的对象便已足够。此对象混合操作的结果为根据受操作对象的一个以上音频输出信号。根据具体的应用场景，这些音频输出信号可被发送到扬声器，或储存用于进一步的利用，或甚至发送至其他接收器。

优选地，输入本发明操作/混合设备的信号为由降混多个音频对象信号所产生的降混信号。所述降混操作可为独立地针对各个对象而受元数据控制的，或可为不受控制的，例如对于各个对象是相同的。在前者的情况中，根据元数据的对象操作为对象控制的独立个体的与对象专有的上混操作，其中产生代表此对象的扬声器分量信号被产生。优选地，还提供空间对象参数，其可用来利用所发送的对象降混信号通过其近似版本来重组原始信号。之后，用于处理音频输入信号以提供音频输入信号的对象表示的处理器就基于参数数据操作，以计算原始音频对象的重组版本，其中这些近似对象信号之后可由基于对象的元数据来独立操作。

优选地，还提供对象演示信息，其中此对象演示信息包括在再现场景中，关于所期望音频再现设定的信息，与关于所述独立音频对象的安置的信息。然而，特定的实施例也可以不利用对象定位数据而运作。这些配置为例如静止物***置的提供，其可以被固定地设置，或针对完整的音轨在发送器与接收器之间被协商(negotiate)。

附图说明

接下来结合附图对本发明的优选实施例进行讨论，其中：

图1示出用于产生至少一个音频输出信号的装置的一个优选实施例；

图2示出图1的处理器的一个优选实施方式；

图3a示出用于操作对象信号的一个优选实施例；

图3b示出如图3a所示操作器中对象混合器的优选实施方式；

图4示出在这样降混对象之后但最终对象混合之前进行操作的情形中处理器/操作器/对象混合器配置；

图5a示出用于产生已编码音频信号的装置的一个优选实施例；

图5b示出具有对象降混、基于对象的元数据、以及数个空间对象参数的传输信号；

图6示出指出由某个ID所界定的数个音频对象的映射，其具有对象音频文件，以及联合音频对象信息矩阵E；

图7示出图6中的对象共变矩阵E的说明；

图8示出降混矩阵以及由降混矩阵D所控制的音频对象编码器；

图9显示目标演示矩阵A，其通常是由使用者提供，以及针对具体目标演示场景的一个实例；

图10示出用于产生根据本发明的更进一步的方面的至少一个音频输出信号的装置的一个优选实施例；

图11a示出更进一步的实施例；

图11b示出再进一步的实施例；

图11c示出更进一步的实施例；

图12a示出一个示例性应用场景；并且

图12b示出一个更进一步的示例性应用场景。

具体实施方式

为了要解决上面所提过的问题，一个优选的途径是要随那些音轨提供适当的元数据。此种元数据可由信息组成，以控制下面三个因素(三个“经典的”D)：

·对话音量规格化(dialognormalization)

·动态范围控制(dynamicrangecontrol)

·降混(downmix)

此种音频元数据有助于接收器基于由聆听者所执行的调整，而操作所接收的音频信号。为了要将这种音频元数据与其他元数据(例如描述性元数据如作者、标题等)区分，通常会将之称为“杜比元数据”(因为其还只由杜比***实施)。接下来只考虑这种音频元数据，并且将之简称为元数据。

音频元数据是伴随着音频节目所载运的额外的控制信息，并且其具有对接收器来说为必要的关于此音频的数据。元数据提供许多重要的功能包括针对不理想的聆听环境的动态范围控制、在节目间的位准匹配、针对经由较少扬声器声道的多声道音频再现的降混信息以及其它信息。

元数据提供使音频节目精准且具艺术性地在从完全型家庭剧院到空中娱乐许多不同聆听情况中再现的所需工具，而与扬声器声道的数量、录放器材质量、或相对环境噪声位准无关。

虽然工程师或内容制作人在于它们的节目中提供可能的最高质量音频上非常谨慎，但她或他在企图要再现原始音轨的各式各样的消费者电子产品或聆听环境上并没有控制权。元数据提供工程师或内容制作人在他们的作品要在几乎所有可想象的聆听环境中如何被再现以及享受上，拥有较大的控制权。

杜比元数据是要提供信息以控制所提到的三个因素的一种特殊格式。

最重要的三个杜比元数据的功能为：

·对话音量规格化，以在演出中达到对话的长期平均位准，此演出常常是由诸如剧情片、广告等不同的节目类型所组成的。

·动态范围控制，以用怡人的音频压缩满足大部分的观众，但同时又允许各个独立的顾客控制此音频信号的动态以及调整此压缩，以适于她或他的个人聆听环境。

·降混，以将多声道的音频信号的声音映射成两个或一个声道，以防无多声道音频录放器材可用的情况。

杜比元数据伴随着杜比数字(AC-3)与杜比E来使用。杜比-E音频元数据格式在[16]中说明。杜比数字(AC-3)是专为经由数字电视广播(高分辨率或是标准分辨率)、DVD或其它介质，将音频传译到家庭所设计的。

杜比数字可载运从音频的单一声道到完全的5.1声道节目的任何事物，包括元数据。在数字电视与DVD这两个情况中，其除了完全的5.1分离音频节目以外，也还普遍地被用于立体声的传输。

杜比E特别是专为在专业制作与发布环境中多声道音频的发布而设计的。在传递到消费者之前的任何时候，杜比E是影像发布多声道/多节目音频的优选方法。杜比E在现有双声道数字音频基础设施中，可载运最高达到八个配制成任何数量的独立节目配置的分离音频信道(包括每一个的元信息)。与杜比数字不同，杜比E可处理许多编码/解码产物，并与影像帧速率同步。如同杜比数字，杜比E也载运针对在数据流中编码的各个独立音频节目的元数据。杜比E的使用允许所生成的音频数据流被解码、修改以及再编码，而不产生可听度退化。由于杜比E流与影像帧速率同步，故其可在专业广播环境中被传递、切换、与编辑。

除此之外，还随着MPEGAAC提供数个装置，以执行动态范围控制以及控制降混产生。

为了以将针对消费者的可变性最小化的方式处理具有可变峰值位准、平均位准与动态范围的原始数据，必须要控制再现位准以便例如对话位准或平均音乐位准被设为消费者在再现时所控制的位准，而无论此节目是如何创始的。此外，并非所有消费者都可以在良好的环境(如低噪声)中聆听这些节目，因此对于他们要把音量放得多大毫无限制。例如，行车环境具有高度的环境噪声位准，因此可以预期聆听者将会想要降低以其它方式再现的位准范围。

基于这两个理由，动态范围控制在AAC的规范中必须可用。为了要达到这个目的，必须要以用来设定与控制这些节目项目的动态范围来陪同降低比特率音频。这样的控制必须相对于参考位准以及关于重要的节目元素而特别指定，例如对话。

动态范围控制的特征如下：

1.动态范围控制(DRC)完全是选择性的。因此，只要句法正确，对于不想要调用DRC的人来说，复杂性并没有变化。

2.降低比特率的音频数据是以源材料的完全动态范围来发送，其中支持数据协助动态范围控制。

3.动态范围控制数据可在每个帧送出，以将设定回放增益中之延迟减少到最小。

4.动态范围控制数据是利用AAC的「fill_element」特征来发送的。

5.参考位准被指定为满刻度。

6.节目参考位准被发送，以准许在不同来源的回放位准间的位准同位，以及此提供动态范围控制可能会适用于的一个有关参考。来源信号的特征是与节目的音量主观印象最为相关的，例如在节目中对话内容的位准或是音乐节目中的平均位准。

7.节目参考位准代表可能会与在消费性硬件中参考位准相关的设定位准中被再现的节目位准，以达到回放位准同位。对此，节目的较安静部分可能会被提升位准，而节目的较大声的部分可能会被降低位准。

8.节目参考位准相对于参考位准被指定在0到-31.75dB的范围中。

9.节目参考位准使用具有0.25分贝节距的7位字段。

10.动态范围控制被指定在±31.75分贝的范围中。

11.动态范围控制使用具有0.25分贝节距的8位的字段(1个符号、7个量值)。

12.动态范围控制可作为一个整体应用于音频信道的所有光谱系数或频带上，或是系数可被拆成不同的比例因子带，其每一个比例因子带分别由分别的动态范围控制数据组来控制。

13.动态范围控制可作为一个整体应用于(立体声或多声道比特流的)所有声道，或可以被拆开，其中数组声道分别由分别的动态范围控制。

14.若遗失一个预期的动态范围控制数据组，则应使用最新近收到的数个有效值。

15.并非动态范围控制数据的所有元素每次都被送出。举例来说，节目参考位准可能只在平均每200毫秒送出一次。

16.当有需要时，由传输层提供错误检测/保护。

17.应给予使用者用以更改应用到信号位准的呈现在位流中的动态范围控制数量的途径。

除了在5.1声道传输中发送分离的单声道或立体声降混声道的可能性以外，AAC还允许来自于5声道音轨的自动降混产生。在此情况下，应忽略LFE声道。

矩阵降混方法可由音轨的编辑器来控制，此音轨具有限定加到降混的后部声道数量的一小组参数。

矩阵降混方法只请求将3前/2后扬声器配置、5声道节目降混至立体声或单声道节目。不可应用至除了3/2配置以外的任何节目。

在MPEG中，提供数个途径来控制在接收器侧的音频演示。

一般技术是通过场景说明语音如BIFS与LASeR来提供。这两个技术均用于将视听组件从分离的编码对象演示成录放场景。

BIFS在[5]中标准化，而LASeR在[6]中标准化。

MPEG-D主要是处理(参数的)说明(如元数据)

·以产生基于已降混音频表示法(MPEG环绕)的多声道音频；以及

·以基于音频对象(MPEG空间音频对象编码)产生MPEG环绕参数。

MPEG环绕将在位准、相位以及相干性上的声道内差异相当于ILD、ITD与IC提示信号来运用，以捕捉与所发送的降混信号有关的多声道音频信号的空间影像，以及以非常紧密的型态来编码这些提示信号，以使这些提示信号以及所发送的信号能够被解码，以合成高质量多声道表示型态。MPEG环绕编码器接收多声道音频信号，其中N为输入声道的数目(如5.1)。编码过程中的关键问题是，通常是立体声(但也可为单声道)的降混信号xt1与xt2是从多声道输入信号中得出的，并且为了在此声道上传输而被压缩的，是此降混信号，而不是多声道信号。此编码器可能可以运用此降混程序来获益，以使其在单声道或立体声降混中形成多声道信号的忠实等同，并也基于此降混与编码空间提示信号形成有可能达到的最好多声道解码。或者，可由外部支持降混。MPEG环绕编码程序对于用于所发送声道的压缩算法是不可知的；其可为诸如MPEG-1LayerIII、MPEG-4AAC或MPEG-4HighEfficiencyAAC的多种高效能压缩算法中的任何一种，或者其甚至可为PCM。

MPEG环绕技术支持多声道音频信号的非常有效的参数编码。MPEGSAOC的原理是要针对独立的音频对象(轨)的非常有效参数编码，将相似的基本假设配合相似的参数表示型态一起应用。此外，还包括一个演示功能，以针对再现***的数种类型(对于扬声器来说是1.0、2.0、5.0、...；或对于耳机来说是双声道)，交互地将此等音频对象演示为声音场景。SAOC被设计为在联合单声道或立体声降混信号中发送多个音频对象，以稍后允许在交互演示音频场景中呈现此等独立对象。为了这个目的，SAOC将对象位准差异(OLD)、内部对象交互相干(IOC)以及降混声道位准差异(DCLD)编码成参数字元流。SAOC解码器将此SAOC参数表示型态转化成MPEG环绕参数表示型态，其之后与降混信号一起被MPEG环绕解码器解码，以产生期望的音频场景。使用者交互地控制此程序，以在结果音频场景中改变此等音频对象的表示型态。在SAOC的这么多种可以想象的应用中，下文列出了几种典型的情况。

消费者可利用虚拟混音台来创造个人互动混音。举例来说，可针对独自演奏(如卡拉OK)而削弱某些乐器、可修改原始的混音以适合个人品味、可针对较好的语音清晰度以调整电影/广播中的对话位准等等。

对于交互式游戏来说，SAOC是再现音轨的存储器以及具有高效率计算的方式。在虚拟场景中四处移动是通过采用对象演示参数来反映的。网络化的多播放器游戏自使用一个SAOC流来表示在某个玩家端外部的所有声音对象的传输效率而得益。

在此种应用的情况下，术语“音频对象”也包含在声音生产场景中已知的“主音”。特别是，主音为混合中的独立分量，其针对混音的数个使用目的来分开储存(通常存储至碟片(disc))。相关的主音一般是从相同的原始位置反弹的。其实例可为鼓类主音(包括在混合中的所有相关的鼓类乐器)、人声主音(只包括人声音轨)或是节奏主音(包括所有与节奏相关的乐器，诸如鼓、吉他、键盘...)。

目前的电信基础结构是单声道的，且可在功能性上扩充。配备有SAOC扩充的端点拾取数个音源(对象)并产生单声道降混信号，其通过利用现存的(语音)编码器以兼容方式发送。可以一种嵌入的、反向兼容的方式来载运边信息。当SAOC使能端能够演示听觉场景时，遗留下来的端点将继续产生单声道输出，并通过在空间上分离不同的扬声器(“鸡尾酒会效应”)而因此增进清晰度。

以下段落描述了实际可用的杜比音频元数据应用的概述：

午夜模式

如在第[]段所提过的，可能会有聆听者也许并不想要高动态信号的情景。因此，她或他可能会启动她或他的接收器的所谓的“午夜模式”。因而，便将压缩器应用在全体音频信号上。为了要控制此压缩器的参数，估算所发送的元数据，并应用到全体音频信号上。

干净音频(cleanaudio)

另一种情景是听力障碍者，他们并不想要拥有高动态环境噪声，但他们想要拥有十分干净的含有对话的信号。(“干净音频”)。也可使用元数据来实现这个模式。

目前所建议的解决方法限定在[15]-附件E中。在立体声主信号与额外的单声道对话说明声道间的平衡在这里是由独立的位准参数组来处理。基于分离的语法的所建议的解决方法在DVB中被称为补充音频服务。

降混

有一些分离的元数据参数支配L/R降混。某些元数据参数允许工程师选择要如何建构立体声降混，以及何种模拟信号较佳。于此，中央与环绕降混位准界定针对每一个解码器的降混信号的最终混合平衡。

图1示出用于产生根据本发明的优选实施例的代表至少两个不同的音频对象的叠加的至少一个音频输出信号的装置。图1的装置包含用于处理音频输入信号11以提供此音频输入信号的对象表示12的处理器10，其中至少两个不同的音频对象彼此分离，其中至少两个不同的音频对象可作为分离的音频对象信号，并且其中至少两个不同的音频对象可彼此独立地受操作。

对象表示的操作是在音频对象操作器13中执行，以操作此音频对象信号，或是操作基于音频对象的元数据14的至少一个音频对象的音频对象信号的混合表示，其中基于音频对象的元数据14关联此至少一个音频对象。对象操作器13适于获得针对此至少一个音频对象的受操作音频对象信号，或是受操作混合音频对象信号15。

由对象操作器所产生的信号被输入至对象混合器16中，以通过将受操作音频对象与未经修改的音频对象或是不同的受操作音频对象组合，而混合对象表示，其中此不同的受操作音频对象已经作为至少一个音频对象以不同的方式操作。此对象混合器的结果包含一个以上音频输出信号17a、17b、17c。优选，此一个以上输出信号17a到17c优选为针对特定演示设定而设计的，诸如单声道演示设定、立体声演示设定、例如需要至少五个或至少七个不同的音频输出信号的环绕设定的包含三个或更多个声道的多声道演示设定。

图2示出用于处理音频输入信号的处理器10的一个优选实施方式。音频输入信号11优选作为对象降混11来实施，如图5a中的对象降混器101a所获得的，图5a将于稍后进行说明。在这样的情况下，处理器额外地接收对象参数18，如同例如稍后所说明的图中5a的对象参数计算器101a所产生的。之后，处理器10便就位计算分离的对象表示12。对象表示12的数目可高于对象降混11中的声道数。对象降混11可包括单声道降混、立体声降混、或甚至是具有多于两个声道的降混。然而，处理器12可操作用于产生比在对象降混11中单独的信号数更多的对象表示12。由于由处理器10所执行的参数化处理，这些音频对象信号并非原始的音频对象的真实再现，其在执行对象降混11之前呈现，但是这些音频对象信号是原始音频对象的近似版，其中近似的精确度取决于在处理器10中所执行的分离算法的类型，以及当然发送参数的精确度。优选的对象参数为由空间音频对象编码而知的，而优选的用于产生单独分离的音频对象信号的重建算法为根据此空间音频对象编码标准而实施的重建算法。处理器10以及对象参数的优选实施例随后在图6到图9的内容中介绍。

图3a与3b共同示出对象操作在对象降混之前对重建设定执行的一个实施方式，而图4示出对象降混是在操作之前，且操作是在最终对象混合操作之前的更进一步的实施方式。此程序在图3a、3b的结果与图4相比是一样的，但是在处理架构上，对象操作是在不同的位准上执行的。虽然音频对象信号的操作在效率与运算资源的背景上是一个议题，但图3a/3b之实施例是优选的，因为音频对象操作必须只能在单一音频信号上执行，而非如图4之多个音频信号。在一个不同的实施方式中，可能会有对象降混必须使用未经修改的对象信号这样的需求，在这样的实施方式中，图4的配置便为优选的，在图4中，操作是接着对象降混，但在最终对象混合之前执行，以帮助例如左声道L、中央声道C或右声道R获得输出信号。

图3a示出图2的处理器10输出分离的音频对象信号的情况。诸如给对象1的信号的至少一个音频对象信号基于针对此对象1的元数据，而在对象操作器13a中受操作。取决于实施方式，诸如对象2的其它对象也由对象操作器13b来操作。当然，这样的情况也会发生，也就是实际上存在着诸如对象3的对象，对象3并未***作，然而却由对象分离而产生。在图3a的实例中，图3a的操作结果是两个受操作对象信号以及一个非受操作信号。

这些结果被输入到对象混合器16，其包括以对象降混器19a、19b与19c来实施的第一混合器阶，并且其进一步包括以设备16a、16b与16c来实施的第二对象混合器阶。

对象混合器16的第一阶包括，针对图3a的各个输出的对象降混器，诸如针对图3a的输出1的对象降混器19a、针对图3a的输出2的对象降混器19b、针对图3a的输出3的对象降混器19c。对象降混器19a到19c的目的是将各个对象“分配”到输出声道。因此，各个对象降混器19a、19b、19c具有针对左分量信号L、中分量信号C以及右分量信号R的输出。因此，例如若对象1为单一对象时，降混器19a便为直行降混器，且方框19a之输出便与在17a、17b、17c所指出的最终输出L、C、R相同。对象降混器19a到19c优选为接收在30所指出的演示信息，其中此演示信息可能会说明演示设定，亦即，如在第3e图的实施例中，只存在着三个输出扬声器。这些输出为左扬声器L、中扬声器C以及右扬声器R。例如演示设定或再现设定包含5.1架构，那么各个对象降混器便具有六个输出声道，并且会存在六个加法器，以使得能够获得针对左声道的最终输出信号、针对右声道的最终输出信号、针对中央声道的最终输出信号、针对左环绕声道的最终输出信号、针对右环绕声道的最终输出信号以及针对低频增强(重低音扬声器)声道的最终输出信号。

具体地，加法器16a、16b、16c适于针对个别的声道而将这些分量信号组合，其是由对应的对象降混器所产生的。这样的组合优选为通过样本加成的直行样本(straight-forwardsample)，但取决于实施方式，也可以应用加权因子。此外，在第3a、3b图中的功能也可在频域或次频域中执行，以使组件19a至19c可在此频域中操作，并且在再现设定中，在实际将这些信号输出到扬声器之前，会有某些种类的频率/时间转化。

图4示出一个替代实施方式，其中组件19a、19b、19c、16a、16b、16c的功能与图3b的实施例相似。然而，重要的是，在图3a中所发生的先于对象降混19a的操作，现在是在对象操作19a之后发生。因此，针对个别对象的由元数据所控制的特定对象操作是在降混域中完成，即，在之后***作的分量信号的实际加成之前。当将图4与图1比较时，如19a、19b、19c的对象降混器将在处理器10中实施这点就变的清楚了，并且对象混合器16将会包含加法器16a、16b、16c。当实施图4，且所述对象降混器为处理器的一部分时，那么除了第1图之对象参数18之外，处理器亦将会接收演示信息30，即，在各个音频对象位置上的信息以及在演示设定上的信息与额外信息，视情况而定。

此外，操作可包括由方框19a、16b、16c所实施的降混操作。在此实施例中，操作器包括这些方框，且可发生额外操作，但这并非在所有情况中都需要。

图5a示出一个编码器侧的实施例，其可产生如概略在第5b图中示出的数据流。具体地，图5a示出用于产生已编码音频信号50的装置，其代表至少两个不同音频对象的叠加。基本上，图5a的装置示出用于格式化数据流50的数据流格式化器51，以使此数据流包含对象降混信号52，其代表诸如所述至少两个音频对象的加权的或未加权的组合的一个组合。此外，数据流50包含，作为边信息的关联所述不同音频对象中的至少一个对象相关元数据53。数据流优选为进一步包含参数数据54，其具有时间与频率选择性，并允许将此对象降混信号分离成数个音频对象的高质量分离，其中此操作也被称为个对象上混操作，其由在图1中所示处理器10所执行，如先前所讨论。

对象降混信号52优选是由对象降混器101a所产生的。参数数据54优选是由对象参数计算器101a所产生的，并且对象选择性元数据53是由对象选择性元数据提供器55所产生的。此对象选择性元数据提供器可为用于接收如由音乐制作者在录音室中所产生的元数据的输入端，或可为用于接收如由对象与相关的分析所产生的数据，其可在对象分离之后发生。具体地，可将此对象选择性元数据提供器实施为通过处理器10来分析对象的输出，以例如查明对象是否为语音对象、声音对象或是环境声音对象。因此，可通过一些从语音编码而得知的著名的语音检测算法来分析语音对象，且可将对象选择性分析实施成也查明起源于乐器的声音对象。此种声音对象具有高音调的本质，并可因此与语音对象或环境声音对象区别。环境声音对象会具有相当吵杂的本质，其反映出典型上存在于例如戏剧电影中的背景声音，例如其中的背景噪声可能为交通的声音或是任何其它静态的吵杂的信号，或是具有宽带声谱的非静态的信号，诸如在例如戏剧中发生枪击场景时所产生的。

基于此分析，人们可放大声音对象并减弱其它对象，以强调此语音，因为这对于针对听力障碍者或年迈者在电影的较佳理解上是很有用处的。如先前所述，其它实施方式包括提供诸如对象识别符的对象特定元数据以及由于在CD或DVD上产生实际对象降混信号的音响师的对象相关数据，诸如立体声降混或是环境声音降混。

图5d示出一个示例性的数据流50，其具有作为主要信息的单声道、立体声或多声道对象降混，并且其具有作为边信息的对象参数54与基于对象的元数据53，其在只将对象辨识为语音或环境的情况中是静态的，或者其在将位准数据提供为基于对象的元数据的情况中为时变的，如在午夜模式中所需要的。然而，优选为不在频率选择性方式中提供基于对象的元数据，以节省数据率。

图6示出音频对象映射的一个实施例，其示出数目为N的对象。在图6的示例性解释中，各个对象均具有对象ID、对应对象音频文件，以及很重要的对象参数信息，其优选为与此音频对象的能量相关的信息以及与此音频对象的对象内相关性相关的信息。此音频对象参数信息包括针对各个子频带与各个时间块的对象共变矩阵E。

针对此种对象音频参数数据矩阵E的一个实例示于图7中。对角线元素e_ii包括第i个音频对象在对应的子频带以及对应时间块中的功率或能量信息。为此，表示某个第i个音频对象的子频带信号被输入功率或能量计算器，其可例如执行自动相关性函数(acf)，以获得带有或不带有某些标准化的值e₁₁。或者是，可将能量计算成此信号在某段长度上的平方之和(即矢量积：ss*)。acf在某种意义上可说明此能量的光谱分布，但由于无论如何，因为最好使用针对频率选择的T/F转换这样的事实，能量计算可在无acf下针对各个子频带分离执行。因此，对象音频参数矩阵E的主要对角元素显示针对音频对象在某个子频带以及某个时间块中的能量的功率的一个量度。

另一方面，非对角元素e_ij显示音频对象i，j在对应的子频带与时间块之间的个别的相关性量度。从图7可清楚看出，矩阵E-针对实数值项目-为沿对角线对称的。通常此矩阵为厄米特矩阵(Hermitianmatrix)。相关性量度元素e_ij可通过例如个别的音频对象的这两个子频带信号的交互相关性来计算，以获得可能是或可能不是规格化的交互相关性量度。可使用其它相关性量度，其并非利用交互相关性操作而计算的，而是通过判定在两个信号间的相关性的其它方法而计算的。出于实际原因，矩阵E的所有元素均被规格化，以使其具有介于0与1之间的量值，其中1显示最大功率或最大相关性，而0显示最小功率(零功率)，且-1显示最小相关性(反相)。

具有大小为K×N，其中K＞1，的降混矩阵D以具有K个列的矩阵形式，透过矩阵操作判定K声道降混信号。

X＝DS(2)

图8示出具有降混矩阵元素d_ij的降混矩阵D的一个实例。这样的元素d_ij显示对象i降混信号是否包括部分或全部的对象j。例如，当其中的d₁₂等于零，意思是对象1降混信号不包括对象2。另一方面，当d₂₃的值等于1，显示对象3完全地包括在对象2降混信号中。

介于0与1之间的降混矩阵元素的值为有可能的。具体地，0.5的值显示某个对象被包括在降混信号中，但只有其一半的能量。因此，当诸如对象4的音频对象被均等分布到两个降混信号声道中时，d₂₄与d₁₄便会等于0.5。这种降混方法是一种保持能量的降混操作，其在某些情况中是优选的。然而，可选择地，也可使用非保持能量的降混，其中整个音频对象均被导入左降混声道以及右降混声道，以使此音频对象的能量对于在此降混信号中之其它音频对象而言是加倍的。

在图8的较下面的部分中，给出图1的对象编码器101的一个概图。具体地，对象编码器101包括两个不同的101a与101b部分。101a部分为降混器，其优选为执行音频对象1、2、...N的加权线性组合，并且对象编码器101的第二个部分为音频对象参数计算器101b，其针对各个时间块或子频带，计算诸如矩阵E的音频对象参数信息，以提供音频能量与相关性信息，其为参数性信息，并且因此能够以一个低比特率来发送，或是能够消耗少量内存资源而储存。

具有大小M×N的使用者控制对象演示矩阵A以具有M个列的矩阵形式透过矩阵操作判定所述音频对象的M信道目标演示。

Y＝AS(3)

因为目标是放在立体声演示上，因此在接下来的推导中，将假设M＝2。对多于两个声道给定一个启始演示矩阵，以及将从这数个信道通向两个信道的一个降混规则，对于本领域普通技术人员而言，可以很明显地推导出对应的具有大小为2×N的针对立体声演示的演示矩阵A。还将为了简化而假设K＝2，以使物件降混也为立体声信号。从应用场合的方面来说，立体声对象降混的案例更为最重要的特殊案例。

图9示出目标演示矩阵A的详细解释。取决于应用，目标演示矩阵A可由使用者提供。使用者具有完全的自由来指示音频对象应该针对一个回放设定以虚拟的方式位在何处。此音频对象的强度概念是，降混信息以及音频对象参数信息在所述音频对象的一个特定的局部化(localization)上是完全独立的。音频对象的这样的局部化是由使用者以目标演示信息的形式提供的。目标演示信息可优选地由一个目标演示矩阵A来实施，其可为在图9中的形式。具体地，演示矩阵A具有m列与N行，其中M等于所演示输出信号中之声道数，而其中N等于音频对象的数目。M相当于优选立体声演示场景中的2，但若执行M声道演示，那么矩阵A便具有M行。

具体地，矩阵元素a_ij显示部分或全部的第j个对象是否要在第i个特定输出声道中被演示。图9的较下面的部分针对场景的目标演示矩阵给出简单实例，其中有六个音频对象AO1到AO6，其中只有前五个音频对象应该要在特定位置被演示，并且第六个音频对象应该完全不被演示。

关于音频对象AO1，使用者希望这个音频对象在回放场景中在左边被演示。因此，此对象被放在(虚拟)回放房间中的左扬声器的位置，这导致演示矩阵A中的第一列为(10)。至于第二个音频对象，a₂₂为1，而a₁₂为0，这表示第二个音频对象要在右边被演示。

第3个音频对象要在左扬声器与右扬声器的中间被演示，以使此音频对象的位准或信号的50％进入左声道，而50％的位准或信号进入右声道，以使对应的目标演示矩阵A的第三列为(0.5长度0.5)。

类似地，可通过目标演示矩阵来显示在左扬声器与右扬声器间的任何安排。至于第4个音频对象，其右边的安排较多，因为矩阵元素a₂₄大于a₁₄。类似地，如由目标演示矩阵元素a₁₅与a₂₅所显示的，第五个音频对象AO5在左扬声器被演示较多。目标演示矩阵A另外还允许完全不演示某个音频对象。此由目标演示矩阵A的具有零元素的第六列来示例性地示出。

接下来，参考图10来概述本发明的一个优选实施例。

优选地，从SAOC(空间音频对象编码)而知的方法将一个音频对象拆成不同的部分。这些部分可例如为不同的音频对象，但其可并不受限于此。

若元数据针对此音频对象的单一部分而发送，则其允许只调整一些信号分量，而其它部分将维持不变，或甚至可以不同的元数据来修改。

此可针对不同的声音对象来完成，但亦针对单独的空间范围。

针对对象分离的参数为针对每一个单独的音频对象的典型的，或甚至是新的元数据(增益、压缩、位准、...)。这些数据可优选地被发送。

解码器处理箱是以两个不同的阶段来实施的：在第一阶段，对象分离参数被用来产生(10)单独的音频对象。在第二阶段中，处理单元13具有多种情况，其中各个情况针对独立的对象。此处，应该要应用对象特定元数据。在解码器的末端，所有的独立对象都再次被组合(16)成单一音频信号。此外，干/湿控制器20可允许在原始与受操作信号间的平顺淡化，以给予终端用户简单找出她或她的优选设定的可能性。

取决于特定实施方式，图10示出两个方面。在一个基本方面中，对象相关元数据只显示针对特定对象的对象说明。优选地，此对象说明与对象ID有关，如在图10中的21所显示的。因此，针对上方的由设备13a所操作的基于对象的元数据仅是此对象为“语音(speech)”对象的数据。针对由项目13b所处理的另一个基于对象的元数据具有此第二个对象为环境对象的信息。

针对这两个对象的基本对象相关元数据可能便足够实施增强的干净音频模式，其中语音对象被放大，而环境对象被削弱，或是，一般来说，语音对象相对于环境对象而被放大，或是环境对象相对于语音对象而被削弱。然而，使用者可优选地在接收器/解码器侧实施不同的处理模式，其可经由模式控制输入端来规划。这些不同的模式可为对话位准模式、压缩模式、降混模式、增强午夜模式、增强干净音频模式、动态降混模式、导引式上混模式、针对对象重置的模式等等。

取决于实施方式，除指出诸如语音或环境的对象之特征类型的基本信息以外，不同的模式还需要不同的基于对象的元数据。在音频信号的动态范围必须要被压缩的午夜模式中，优选地，针对诸如语音对象与环境对象的各个对象，将针对此午夜模式的实际位准或目标位准之一提供为元数据。当此对象的实际位准被提供时，接收器便必须针对此午夜模式计算目标位准。然而，当给予目标相对位准时，便减少解码器/接收器侧处理。

在这个实施方式中，各个对象均具有位准信息的时变基于对象的序列，其由接收器来使用，以压缩动态范围，以便减少在信号对象中的位准差异。这自动地导致一个最终音频信号，其中位准差异不时地如午夜模式实施方式所需要地减少。针对干净音频应用，也可提供针对此语音对象的目标位准。那么，环境对象便可被设为零或几乎为零，以在由某个扬声器设定所产生的声音中大大地加强语音对象。在与午夜模式相反的高保真度应用中，可甚至增强此对象的动态范围或在此等对象间的差异之动态范围。在这个实施方式中，会较希望提供目标对象增益位准，因为这些目标位准保证，在最后，获得由艺术音响师在录音室中所创造的声音，以及因此具有与自动设定或使用者定义设定相比之下的最高质量。

在其它基于对象的元数据与高级降混相关的实施方式中，对象操作包括与特定演示设定不同的降混。之后，此基于对象的元数据便被导入在图3b或图4中的对象降混器方框19a到19c。在这个实施方式中，当降混取决于演示设置而执行单独的对象的时候，操作器可包括方框19a至19c。具体地，对象降混方框19a至19c可被设定成彼此不同。在这样的情况中，取决于声道组配，语音对象可仅被导入中央声道，而非左声道或右声道。然后，降混器方框19a至19c可具有不同数量的分量信号输出。也可动态地实施降混。

此外，还可提供导引式上混信息与用以复位对象位置的信息。

接下来，对提供元数据与对象特定元数据的一个优选方式进行简要说明。

音频对象可并不如在典型SOAC应用中一样完美地分离。针对音频操作，具有对象“屏蔽”可能便已足够，而非完全分离。

这可导致用于分离的较少的/较粗略的参数。

对于称为“午夜模式”的应用，音响师需要独立地针对各个对象界定所有的元数据参数，例如在固定的对话音量中产生，而非受操作的环境噪声(“增强型午夜模式”)。

这对于戴着助听器的人门来说也可为有益的(“增强型干净音频”)。

新的降混架构：可针对各个特定降混情况来不同地对待不同的分离的对象。例如，5.1声道信号必须针对立体声家庭电视***而降混，而另一个接收器甚至只具有单声道录放***。因此，可用不同方式对待不同对象(并且由于由音响师所提供的元数据，这些都是由音响师在制造过程中所控制的)。

类似地，降混到3.0等等也是优选的。

所产生的降混将不会是由固定的全球参数(组)来界定，但其可由与时变对象相关的参数来产生。

采用新的基于对象的元数据，执行导引式上混也是有可能的。

可将对象放置于不同的位置，例如以在环境被削弱时使空间影像更宽广。这将有助于听障者的语音辨识度。

在这份文件中所提议的方法延伸了现存的由杜比编码解码器所实施，并且主要是由杜比编码解码器所使用的元数据概念。现在，不只将已知元数据概念应用在完整的音频流上，还应用在在此流中的提取对象是有可能的。这给予音响师以及艺术家更多灵活性、较大的调整范围，以及由此，更佳的音频质量与给予聆听者较多欢乐。

图12a、12b示出此创新概念的不同的应用场景。在一个典型的场景中，存在着电视上的运动，其中人们具有在5.1声道中的体育场氛围，并且扬声器声道映射到中央声道。这样的「映射」可由将扬声器声道直接加到针对传播此体育场氛围的5.1声道的中央声道来执行。现在，这个创新的方法允许具有在体育场氛围声音说明中的此种中央声道。然后，加成操作将来自于体育场氛围的中央声道与扬声器混合。通过产生针对此扬声器与来自于体育场氛围的中央声道对象参数，本发明允许在解码器侧分离这两个声音对象，并且允许增强或削弱扬声器或来自于体育场氛围的中央声道。更进一步的架构是，当人们拥有两个扬声器时。这样的情况可能会在当两个人正对同一个足球赛作评论的时候发生。具体地，当存在着两个同时放送的扬声器时，使这两个扬声器成为分离对象可为有用处的，并且此外，使这两个扬声器与体育场氛围声道分离。在这样的应用中，当低频增强声道(重低音声道)被忽略时，此5.1声道以及这两个扬声器声道可被处理成八个不同的音频对象或是七个不同的音频对象。因为此直行分布基本设定适于5.1声道声音信号，所以这七个(或八个)对象可被降混至5.1声道降混信号，并且除了此5.1降混声带以外，还可提供所述对象参数，以使在接收侧，可再次分离这些对象，并且由于基于对象的元数据将会从体育场氛围对象中识别出扬声器对象这样的事实，所以在由此对象混合器所做的最终5.1声道降混在接收侧发生之前，对象特定处理是有可能的。

在这个架构中，人们还可拥有包含第一扬声器的第一对象，以及包含第二扬声器的第二对象，以及包含完整的体育场氛围的第三对象。

接下来，将在图11a到11c的内容中讨论不同的基于对象的降混架构的实施。

当例如由图12a或12b的架构所产生的声音必须在传统的5.1录放***中回放时，便可忽视嵌入的元数据流，且所接收的流可如其播放。然而，当录放必须在立体声扬声器设定上发生时，必须发生从5.1到立体声的降混。若只将环境声道加到左边/右边时，那么仲裁器可能会处在太小的位准上。因此，较好是在仲裁器对象被(重新)加上之前，在降混之前或之后减少气氛位准。

当仍然兼具有两个扬声器分离在左边/右边时，听障者可能会想要减少氛围位准，以拥有较佳的语音辨识度，也就是所谓的“鸡尾酒会效应”，当一个人听见她或她的名字时，便会集中注意力至她或他听见她或他的名字的方向。从心理声学的观点来看，这种特定方向集中会削弱从相异方向来的声音。因此，一个特定对象的鲜明位置，诸如在左边或右边的扬声器或是兼在左边或右边以使扬声器出现在左边或右边的中间的扬声器，可能会增进辨识度。为此目的，输入音频流优选为被划分为分离的对象，其中这些对象必须具有在元数据中的说明一个对象重要或较不重要的排名。然后，在他们之中的位准差异便可根据元数据来调整，或是可重新安置对象位置，以根据元数据来增进辨识度。

为了要达到这个目标，并不把元数据应用在所发送的信号上，而是视情况而在对象降混之前或之后，将元数据应用在单一的分离音频对象上。现在，本发明再也不要求对象必须要限制于空间声道，以使这些声道可被单独地操作。相反地，这个创新的基于对象的元数据概念并不要求在一个特定声道中具有特定的对象，但对象可被降混至数个声道，并可仍为单独受操作的。

图11a示出一个优选实施例的更进一步的实施方式。对象降混器16从k×n的输入声道中产生m个输出声道，其中k为对象数，且每一个对象产生n个信道。图11a对应于图3a、3b的架构，其中操作13a、13b、13c发生在对象降混之前。

图11a进一步包含位准操作器19d、19e、19f，其可在无元数据控制下实施。然而，或者是，这些操作器亦可由基于对象的元数据来控制，以使由19d至19f的方框所实施的位准修改也为图1的对象操作器13的一部分。类似地，当这些降混操作系由基于对象的元数据所控制时，此在降混操作19a至19b至19c上也为真。然而，这个情况并未在图11a中示出，但当此基于对象的元数据也被递送给降混方框19a至19c时，其亦可实施。在后者的情况中，这些方框也为第图11a的对象操作器13的一部分，并且对象混合器16的剩余功能是由针对对应的输出声道的受操作对象分量信号的输出声道式的组合来实施的。图11a进一步包含一个对话规格化功能25，其可以传统元数据来实施，因为此对话规格化并不在对象域中发生，而是在输出声道域。

图11b示出基于对象的5.1立体声降混的一个实施方式。其中，降混是在操作之前执行的，并且因此，图11b对应于图4的架构。位准修改13a、13b是通过基于对象的元数据来执行的，其中，例如，上方的分支对应于语音对象，而下方的分支对应于环境对象，或，例如在图12a、12b中，上方的分支对应于一个扬声器或兼对应于两个扬声器，而下方的分支对应于所有的环境信息。那么，位准操作方框13a、13b可兼操作基于被固定设置的参数的这两个对象，以使基于对象的元数据将仅为所述对象的识别符，但位准操作器13a、13b可也操作基于由元数据14所提供的目标位准，或基于由元数据14所提供的实际位准的位准。因此，为了要针对多声道输入而产生立体声降混，应用针对各个对象的降混公式，并且在将对象再次混合到输出信号之前，将这些对象通过给定位准来加权。

针对如在图11c中所示出的干净音频应用，重要位准被发送为元数据，以启动较不重要的信号成分的减少。然后，另一个分支将对应于所述重要性分量，其在较低分支可能会对应于可被削弱的较不重要分量时被放大。所述不同对象的特定削弱以及/或是放大是如何被执行的，可通过接收端来固定地设置，但也可由基于对象的元数据来控制，如由图11c中的“干/湿”控制器14所实施的。

通常，动态范围控制可在对象域中执行，其以相似于AAC动态范围控制实施方式的方式以多频带压缩来完成。基于对象的元数据甚至可为频率选择性数据，以使频率选择性压缩相似于平衡器实施方式来执行。

如先前所述，对话规格化优选是在降混之后即降混信号而执行。通常，降混应该能够将具有n个输入声道的k个对象处理至m个输出声道。

将对象分离成分立对象并不十分重要。“遮掩”要操作的信号分量可就足够。此相似于在影像处理中编辑屏蔽。然后，一个广义的“对象”变为数个原始对象的叠加，其中，这个叠加包括小于原始对象的总数的多个对象。所有的对象再次于一个最终阶段被加总。可能会对分离的单一对象毫无兴趣，并且对于某些对象，当某个对象必须被完全移除时，位准值可能会被设为0，此为一个高分贝数字，例如在针对卡拉OK应用时，人们可能会对于完全移除人声对象以使卡拉OK歌唱者可将她或他自己的声音导入剩余的乐器对象中感兴趣。

本发明之其它优选应用如之前所叙述的，为可减少单一对象的动态范围的增强型午夜模式，或是扩充对象之动态范围的高保真模式。在本文中，可压缩所发送的信号，并且其倾向于倒置这样的压缩。对话规格化的应用主要是较希望针对所有的信号在输出到扬声器时发生，但当对话规格化被调整时，针对不同对象的非线性削弱/放大是有用处的。除了针对从对象降混信号中分离出不同的音频对象参数数据之外，较希望针对各个信号以及除了与加成信号相关的典型元数据以外还有加成信号，针对降混、重要性与指出针对干净音频的重要性位准之重要性的值、对象识别符、为时变信息的实际绝对或相对位准或是为时变信息的绝对或相对目标位准等等，而发送位准值。

所说明的实施例仅针对本发明的原理而进行示例性说明。可以理解，对于此所说明的细节之安排的修改体与变异体对本领域普通技术人员而言将会是明显可见。因此，本发明的范围由所附权利要求所限定，而非由对实施例的说明与解释方式而呈现的特定细节所限制的。

取决于所述创新方法的某些实施需求，所述创新方法可在硬件或软件中实施。此实施方式可利用数字储存介质来执行，特别是其上储存电子式可读控制信号的碟片、DVD或CD，其可与可规划计算机***配合，以执行所述创新方法。一般而言，本发明因此为具有储存在机械可读载体上的程序代码的计算机程序产品，此程序代码操作以在此计算机程序产品在计算机上运作时，执行所述创新方法。换言之，所述创新方法因此为具有用于在计算机上运作时，执行至少一个所述创新方法的程序代码的计算机程序。

参考文献

[1]ISO/IEC13818-7：MPEG-2(Genericcodingofmovingpicturesandassociatedaudioinformation)-Part7：AdvancedAudioCoding(AAC)

[2]ISO/IEC23003-1：MPEG-D(MPEGaudiotechnologies)-Part1：MPEGSurround

[3]ISO/IEC23003-2：MPEG-D(MPEGaudiotechnologies)-Part2：SpatialAudioObjectCoding(SAOC)

[4]ISO/IEC13818-7：MPEG-2(Genericcodingofmovingpicturesandassociatedaudioinformation)-Part7：AdvancedAudioCoding(AAC)

[5]ISO/IEC14496-11：MPEG4(Codingofaudio-visualobjects)-Part11：SceneDescriptionandApplicationEngine(BIFS)

[6]ISO/IEC14496-：MPEG4(Codingofaudio-visualobjects)-Part20：LightweightApplicationSceneRepresentation(LASER)andSimpleAggregationFormat(SAF)

[7]http:/www.dolby.com/assets/pdf/techlibrary/17.AllMetadata.pdf

[8]http:/www.dolby.com/assets/pdf/tech_library/18_Metadata.Guide.pdf

[9]Krauss，Kurt；Jonas；Schildbach，Wolfgang：TranscodingofDynamicRangeControlCoefficientsandOtherMetadataintoMPEG-4HEAA，AESconvention123，October2007，pp7217

[10]Robinson，CharlesQ.，Gundry，Kenneth：DynamicRangeControlviaMetadata，AESConvention102，September1999，pp5028

[11]Dolby，“StandardsandPracticesforAuthoringDolbyDigitalandDolbyEBitstreams”，Issue3

[14]CodingTechnologies/Dolby，“DolbyE/aacPlusMetadataTranscoderSolutionforaacPlusMultichannelDigitalVideoBroadcast(DVB)”，V1.1.0

[15]ETSITS101154：DigitalVideoBroadcasting(DVB)，V1.8.1

[16]SMPTERDD6-2008：DescriptionandGuidetotheUseofDolbyEaudioMetadataSerialBitstream

Claims

1.一种用于产生代表至少两个不同音频对象的叠加的至少一个音频输出信号的装置，包括：

处理器，所述处理器用于处理音频输入信号以提供所述音频输入信号的对象表示，其中所述至少两个不同的音频对象彼此分离，所述至少两个不同的音频对象可作为分离的音频对象信号，并且所述至少两个不同的音频对象可彼此独立地***作；

对象操作器，所述对象操作器用于依据关于至少一个音频对象的基于音频对象的元数据，操作所述至少一个音频对象的音频对象信号或混合音频对象信号，以针对所述至少一个音频对象获得受操作音频对象信号或受操作混合音频对象信号；和

对象混合器，所述对象混合器用于通过将所述受操作音频对象与未经修改的音频对象组合，或将所述受操作音频对象与作为至少一个音频对象以不同方式操作的不同的受操作音频对象组合，来混合所述对象表示，

其中所述元数据包含关于增益、压缩、位准、降混设定、或特定对象专有特征的信息，及

其中所述对象操作器适于基于所述元数据操作所述对象或其它对象，以对象专用的方式实施午夜模式、高保真度模式、干净音频模式、对话规格化、降混专用的操作、动态降混、导引上混、语音对象的重新定位或环境对象的削弱。

2.如权利要求1所述的装置，

其中所述音频输入信号为多个原始音频对象的降混表示，且所述音频输入信号包括作为边信息的基于对象的元数据，所述基于对象的元数据具有关于被包括在所述降混表示中的一个以上音频对象的信息，及

其中所述对象操作器适于从所述音频输入信号中提取出所述基于对象的元数据。

3.如权利要求1所述的装置，其中所述对象操作器可操作用于以相同的方式操作多个对象分量信号中的每个分量信号，其基于针对所述对象的元数据，以获得针对所述音频对象的数个对象分量信号，及

其中所述对象混合器适于将来自针对相同输出声道的不同对象的所述对象分量信号相加，以获得针对所述输出声道的所述音频输出信号。

4.如权利要求1所述的装置，进一步包括输出信号混合器，所述输出信号混合器用于将基于至少一个音频对象的操作而获得的音频输出信号与不经过所述至少一个音频对象的所述操作而获得的对应的音频输出信号相混合。

5.一种用于产生代表至少两个不同音频对象的叠加的至少一个音频输出信号的方法，包括：

处理音频输入信号，以提供所述音频输入信号的对象表示，其中所述至少两个不同的音频对象彼此分离，所述至少两个不同的音频对象可作为分离的音频对象信号，并且所述至少两个不同的音频对象可被彼此独立地操作；

依据关于至少一个音频对象的基于音频对象的元数据，操作所述至少一个音频对象的所述音频对象信号或混合音频对象信号，以针对所述至少一个音频对象获得受操作音频对象信号或受操作混合音频对象信号；及

通过将所述受操作音频对象与未经修改的音频对象组合，或将所述受操作音频对象与作为所述至少一个音频对象以不同方式操作的不同的受操作音频对象组合，来混合所述对象表示，