CN103650536B

CN103650536B - 上混合基于对象的音频

Info

Publication number: CN103650536B
Application number: CN201280032927.2A
Authority: CN
Inventors: 克里斯托夫·夏巴纳; 查尔斯·Q·鲁宾逊
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-07-01
Filing date: 2012-06-27
Publication date: 2016-06-08
Anticipated expiration: 2032-06-27
Also published as: US9119011B2; JP5740531B2; CN103650536A; EP2727380B1; WO2013006325A1; JP2014523190A; EP2727380A1; US20140133682A1

Abstract

在一些实施方式中，提出了一种对指示音频源的轨迹的基于对象的音频节目进行呈现的方法，包括通过生成如下扬声器馈给：其用于驱动扩音器发出意图被感知为从该源发出的声音，但是该源具有与该节目所指示的轨迹不同的轨迹。在其他实施方式中，提出了如下方法，其用于对指示全容积的子空间中的音频对象的轨迹的基于对象的音频节目进行修改（上混合），以确定指示该对象的经修改轨迹的经修改节目，从而使得该经修改轨迹的至少一部分在该子空间外。其他方面包括被配置成执行本发明的方法的任意实施方式的***，以及存储用于实施本发明的方法的任意实施方式的代码的计算可读介质。

Description

上混合基于对象的音频

相关申请的交叉引用

本申请要求2011年7月1日提交的美国临时申请No.61/504,005和2012年4月20日提交的美国临时申请No.61/635,930的优先权，出于所有目的，其全部内容通过引用合并到本文中。

技术领域

本发明涉及以下***和方法：其用于对基于对象的音频（即，表示基于对象的音频节目的音频数据）进行上混合（或以其他方式修改由基于对象的音频确定的音频对象轨迹）以生成经修改数据（即，表示音频节目的经修改版本的数据），根据经修改数据可以生成多个扬声器馈给。在一些实施方式中，本发明是以下***和方法：其用于对基于对象的音频进行呈现，包括通过对基于对象的音频执行上混合，以生成用于驱动扩音器组的扬声器馈给。

背景技术

常规的基于声道的音频编码器通常在以下假设下工作：通过相对于收听者的预定位置处的扩音器阵列再现（通过编码器输出的）每个音频节目。节目的每个声道为扬声器声道。该音频编码类型通常被称为基于声道的音频编码。

另一类型的音频编码器（称为基于对象的音频编码器）实施被称为音频对象编码（或基于对象的编码）的替代类型的音频编码，并且在以下假设下工作：可以通过大量不同扩音器阵列中的任何扩音器阵列来呈现（通过编码器输出的）每个音频节目以用于再现。通过这种编码器输出的每个音频节目是基于对象的音频节目，通常这种基于对象的音频节目的每个声道是对象声道。在音频对象编码中，与各个声源（音频对象）相关联的各音频信号被作为单独的音频流输入至编码器。音频对象的示例包括（但不限于）对话声轨、单一乐器以及喷气式飞机。每个音频对象与空间参数相关联，空间参数可以包括（但不限于）源位置、源宽度以及源速度和/或源轨迹。对音频对象和相关联的参数进行编码以便分发和存储。作为音频节目回放的一部分，在音频存储和/或分发链的接收端进行最终的音频对象混合和呈现。音频对象混合和呈现的步骤通常基于对用于再现节目的多个扩音器的实际位置的了解。

通常，在生成基于对象的音频节目期间，内容创建者通过将元数据包含在节目中来嵌入混音的空间意图（例如，节目的每个对象声道所确定的每个音频对象的轨迹）。元数据可以指示由节目的每个对象声道确定的每个音频对象的位置或轨迹，和/或以下至少之一：每个这种对象的大小、速度、类型（例如，对话或者音乐）以及其他特征。

在对基于对象的音频节目进行呈现的过程中，可以通过生成指示声道的内容的扬声器馈给并且向扩音器组施加扬声器馈给（其中，在任何时刻，扩音器中的每个的物理位置可以与期望位置一致或可以不与期望位置一致）来呈现（“在”具有期望轨迹的随时间变换的位置）每个对象声道。用于扩音器组的扬声器馈给可以指示多个对象声道（或单个对象声道）的内容。呈现***通常生成多个扬声器馈给以匹配具体再现***的确切硬件配置（例如，家庭影院***的扬声器配置，其中，呈现***也是家庭影院***的构成部分）。

在基于对象的音频节目指示音频对象的轨迹的情况下，呈现***通常会生成以下扬声器馈给：其用于驱动扩音器组发出意图被感知（并且通常会被感知）为从具有所述轨迹的音频对象发出的声音。例如，节目可以指示来自乐器（对象）的声音应从左到右摇移（pan），并且呈现***可以生成以下扬声器馈给：其用于驱动5.1扩音器阵列发出将被感知为从该阵列的L（左前）扬声器到该阵列的C（中前）扬声器然后到该阵列的R（右前）扬声器摇移的声音。本文中，（由基于对象的音频节目指示的）音频对象的“轨迹”广义地用于表示以下位置或多个位置（例如，作为时间的函数的位置）：在节目的呈现期间从该位置发出的声音是意图被感知为发出的对象。因此，轨迹可以由单个固定点（或其他位置）构成，或者轨迹可以是位置序列，或者轨迹可以是作为时间的函数而变化的点（或其他位置）。

然而，在本发明之前还不知道如何进行以下操作：通过生成用于驱动扩音器组的扬声器馈给来呈现基于对象的音频节目（其指示音频源的轨迹）以发出意图被感知为从源发出的声音，但是所述源的轨迹与节目所指示的轨迹不同。本发明的典型实施方式是呈现基于对象的音频节目（其指示音频源的轨迹）的方法和***，包括通过有效地生成以下扬声器馈给：该扬声器馈给用于驱动扬声器组发出意图被感知为从源发出的声音，但是所述源的轨迹与节目所指示的轨迹不同（例如，所述源具有竖直平面中的轨迹、或者三维轨迹，而节目指示源的轨迹在水平平面中）。

在采用基于声道的音频编码的***中存在许多呈现音频节目的常规方法。例如，可以在对指示来自沿着全三维容积的子空间中的轨迹（例如，沿水平线的轨迹）移动的源的声音的音频节目（包括扬声器声道）进行呈现的过程中实施常规的上混合技术，以生成驱动位于该子空间外的扬声器的扬声器馈给。这种上混合技术基于包含在要呈现的节目中的相位信息和振幅信息，不管是意图对该信息进行编码（在该情况下，可以通过使用转向的矩阵编码/解码来实施上混合）还是将该信息自然地包含在节目的多个扬声器声道中（在该情况下，上混合为盲上混合）。因此，已经应用于包括扬声器声道的音频节目的常规的基于相位/振幅的上混合技术受到若干限制和障碍，包括以下：

不管内容是否被矩阵编码，都在扬声器间产生大量的串扰；

在盲上混合的情况下，以与视频不一致的方式摇移声音的风险大幅提高，而降低该风险的典型方式为仅对看起来是节目的非定向元素（通常为解相关元素）进行上混合；以及

其经常通过以下方式产生失真：将控制逻辑限制为宽频带，经常使声音在再现期间崩溃；或者，应用产生独特声音的频带的空间拖尾（有时称为“漱效应（garglingeffect）”）的多带宽控制逻辑。

即使以某种方式对基于对象的音频节目应用对包含扬声器声道的音频节目进行上混合（以生成具有比输入节目多的扬声器声道的上混合节目）的常规的基于相位/振幅的技术（以生成比可以从未经上混合的输入节目生成的更多扩音器的扬声器馈给），这也会导致（经上混合的节目所指示的音频对象的）感知离散性的损失和/或会生成上述类型的失真。因此，需要用于改正上述缺陷的***和相关方法。

发明内容

本发明的典型实施方式是用于呈现基于对象的音频节目（指示音频源的轨迹）的方法，包括通过生成用于驱动扬声器组发出意图被感知为从源发出的声音的扬声器馈给，但是该源的轨迹与节目所指示的轨迹不同（例如，源具有竖直平面中的轨迹或者三维轨迹，而节目指示水平平面中的源轨迹）。术语音频对象的“轨迹”（其由基于对象的音频节目指示）在本文中广义地用于表示以下位置或多个位置（例如，作为时间的函数的位置）：在节目的呈现期间从该位置发出的声音是意图被感知为发出的对象。因此，轨迹可以由单个固定位置构成，或者轨迹可以是位置序列，或者轨迹可以是作为时间的函数而变化的点（或其他位置）。

在一些实施方式中，本发明是用于呈现通过扩音器组回放的基于对象的音频节目的方法，其中该节目指示音频对象的轨迹，并且该轨迹在全三维容积的子空间中（例如，轨迹被限制在容积中的水平平面中，或者轨迹是容积中的水平线）。该方法包括以下步骤：（例如，通过修改指示轨迹的节目的坐标）来对节目进行修改以确定指示对象的经修改轨迹的经修改节目，其中经修改轨迹的至少一部分在该子空间的外部（例如，其中轨迹为水平线，经修改轨迹是包括该水平线的竖直平面中的路径）；和响应于经修改节目生成扬声器馈给，使得扬声器馈给包括：驱动该组中位置对应于该子空间外部的位置的至少一个扬声器的至少一个馈给；以及用于驱动该组中位置对应于该子空间中的位置扬声器的馈给。

在其他实施方式中，本发明的方法包括以下步骤：对指示音频对象的轨迹的基于对象的音频节目进行修改，以确定指示对象的经修改轨迹的经修改节目，其中轨迹和经修改轨迹两者被限定在相同的空间中（即，该经修改轨迹没有任何部分延伸到该轨迹在其中延伸的空间的外部）。例如，相对于响应于由原始节目确定的扬声器馈给而发出的声音，可以对轨迹进行修改以优化（或以其他方式修改）响应于由经修改节目确定的扬声器馈而给发出的声音的音色（例如，在经修改轨迹而不是原始轨迹确定单端的“对齐到扬声器”或“向扬声器对齐”的情况下）。

通常，基于对象的音频节目（除非其根据本发明被修改）能够被呈现以仅生成用于驱动扬声器组的子组（例如，仅该组中的那些位置对应于全三维容积的子空间的扬声器）的扬声器馈给。例如，音频节目可以能够被呈现以仅生成用于驱动该组中位于包括收听者的耳朵的水平平面中的扬声器的扬声器馈给，其中子空间是所述水平平面。本发明的呈现方法可以通过以下方式来实施上混合：（响应于经修改节目）生成用于驱动该组中位置对应于子空间外部的位置的扬声器的至少一个扬声器馈给，以及生成驱动该组中位置对应于子空间中的位置的扬声器的扬声器馈给。例如，该方法的一个实施方式包括以下步骤：响应于经修改节目生成扬声器馈给，用于驱动该组的所有扬声器。因此，该实施方式利用存在于回放***中的所有扬声器，而呈现原始（未修改）节目不会生成用于驱动回放***的所有扬声器的扬声器馈给。

在典型的实施方式中，方法包括以下步骤：使创作的对象的轨迹随时间畸变以确定对象的经修改轨迹，其中对象的轨迹由基于对象的音频节目指示并且在三维容积的子空间中，使得经修改轨迹的至少一部分在子空间外部；以及生成位置对应于子空间外部的位置的扬声器的至少一个扬声器馈给（例如，相对于收听者位于非零高度角处的扬声器的扬声器馈给，其中子空间是相对于收听者零高度角处的水平平面）。例如，该方法可以包括以下步骤：使基于对象的音频节目所指示的音频对象的轨迹畸变，其中轨迹在相对于收听者零高度角处的水平平面中，以便生成位于相对于收听者非零高度角处的（回放***的）扬声器的扬声器馈给，其中原始创作的扬声器***的扬声器没有一个位于相对于内容创建者的非零高度角处。

在一些实施方式中，本发明的方法包括以下步骤：对指示音频对象的轨迹的基于对象的音频节目进行修改（上混合），并且轨迹在全三维容积的子空间中，以（例如，通过修改指示轨迹的节目的坐标，其中这种坐标由包括在节目中的元数据确定）确定指示对象的经修改轨迹的经修改节目，使得经修改轨迹的至少一部分在子空间外部。一些这种实施方式是通过独立***或装置（“上混合器”）来实施的。通过上混合器的输出确定的经修改节目通常被提供给配置成（响应于经修改节目）生成用于驱动扩音器组的扬声器馈给的呈现***，扬声器馈给通常包括用于驱动该组中位置对应于子空间外部的位置的至少一个扬声器的扬声器馈给。或者，本发明的方法的一些这种实施方式是通过呈现***来实施的，该呈现***生成经修改节目并且（响应于经修改节目）生成用于驱动扩音器组的扬声器馈给，通常包括用于驱动该组中位置对应于子空间外部的位置的至少一个扬声器的扬声器馈给。

本方法的一些实施方式在单个步骤中实施音频对象轨迹修改和呈现两者。例如，呈现可以通过显式生成扬声器的具有已知位置的畸变版本的扬声器馈给（例如，通过已知扩音器位置的显式畸变）来使基于对象的音频节目所确定的（音频对象的）轨迹隐式畸变（修改）（以确定对象的经修改轨迹）。畸变可以实现为应用于轴（例如，高度轴）的缩放因子。例如，在生成扬声器馈给期间对轨迹的高度轴应用第一缩放因子（例如，等于0.0的缩放因子）可以导致经修改轨迹与顶置（overhead）扬声器的位置相交（导致“100%畸变”），使得响应于扬声器馈给而从回放***的扬声器发出的声音被感知为从（经修改）轨迹包括顶置扬声器位置的源发出。在生成扬声器馈给期间对轨迹的高度轴应用第二缩放因子（例如，大于0.0但不大于1.0的缩放因子）可以导致经修改轨迹比原始轨迹更近地接近（但不相交）顶置扬声器的位置（导致“X%畸变”，其中，X的值由缩放因子的值确定），使得响应于扬声器馈给而从回放***的扬声器发出的声音被感知为从（经修改）轨迹接近（但不包括）顶置扬声器的位置的源发出。在生成扬声器馈给期间对轨迹的高度轴应用第三缩放因子（例如，大于1.0的缩放因子）可以导致经修改轨迹从顶置扬声器的位置偏离（比原始轨迹偏离得更远）。可以在不需要确定拐点或实施前视（lookahead）的情况下实施组合轨迹修改和扬声器馈给生成。

通常，回放***包括扩音器组，并且该组包括：在第一空间中的已知位置处的第一扬声器子组（例如，名义上在包括收听者的耳朵的水平平面中的位置处的扩音器，其中子空间是包括收听者的耳朵的水平平面），其中已知位置对应于包含要呈现的音频节目所指示的对象轨迹的子空间中的位置；以及包括至少一个扬声器的第二子组，其中第二子组中的每个扬声器在对应于子空间外部的位置的已知位置。为了确定经修改轨迹（通常但不一定为曲线轨迹），呈现方法可以确定候选轨迹。候选轨迹可以包括：第一空间中与对象轨迹的起点一致的起点（使得可以驱动第一子组中的一个或更多个扬声器发出被感知为从起点发出的声音）；第一空间中与对象轨迹的终点一致的终点（使得可以驱动第一子空间中的一个或更多个扬声器发出被感知为从终点发出的声音）；以及对应第二子组中的扬声器的位置的至少一个中间点（使得，对于每个中间点，可以驱动第二子组中的扬声器发出被感知为从所述中间点发出的声音）。在一些情况下，将候选轨迹用作经修改轨迹。

在其他情况下，将候选轨迹的畸变版本（通过对候选轨迹应用至少一个畸变系数来使候选轨迹畸变而确定的）用作经修改轨迹。每个畸变系数的值确定应用于候选轨迹的畸变程度。例如，在一个实施方式中，（沿着候选轨迹的）每个中间点在第一空间上的投影定义（第一空间中的）对应中间点的拐点。中间点与相应拐点之间的线（正交于第一空间）被称为中间点的畸变轴。（每个中间点的）畸变系数（其值指示中间点沿着畸变轴的位置）确定中间点的修改版本。使用每个中间点的这种畸变系数，经修改轨迹可以被确定为如下延伸的轨迹：从候选轨迹的起点，通过每个中间点的修改版本，到候选轨迹的终点。因为经修改轨迹（使用相关对象的音频内容）确定相关对象声道的每个扬声器馈给，所以当所呈现的对象沿经修改轨迹摇移时，每个畸变系数控制将要被感知的呈现对象有多接近（第二子集中的）相应扬声器。

在本发明的***（呈现***，或者用于生成通过呈现***进行呈现的经修改节目的上混合器）被配置成以非实时方式处理内容的情况下，以下操作是有用的：将元数据包含在要呈现的基于对象的音频节目中，其中元数据指示节目所指示的每个对象轨迹的起点和终点两者；以及将***配置成在不需要前视延迟的情况下使用这种元数据来实施上混合（以确定每个这种轨迹的经修改轨迹）。或者，可以通过将本发明的***配置成进行如下操作来消除对前视延迟的需要：按时间对对象轨迹的坐标（其由要呈现的基于对象的音频节目指示）进行平均以生成轨迹走向，并且使用这种平均来预测轨迹的路径和找出轨迹的每个拐点。

可以将附加的元数据包含在基于对象的音频节目中，以向本发明的***（配置成呈现节目的***，或者用于生成通过呈现***进行呈现的节目的修改版本的上混合器）提供使***能够重写系数值或者以其他方式影响***性能（例如，防止***对节目所指示的某些对象的轨迹进行修改）的信息。例如，元数据可以指示音频对象的特征（例如，类型或属性），并且***可以被配置成在响应这种元数据的指定模式（例如，防止修改指定类型的对象的轨迹的模式）下工作。例如，***可以被配置成通过禁用对于对象的上混合来对指示对象为对话的元数据做出响应（例如，使得将使用对话的节目所指示的轨迹（如果有的话）而不是轨迹的修改版本（例如，在预期收听者的耳朵的水平平面的上方或下方延伸的轨迹）来生成扬声器馈给）。

在一类实施方式中，本发明的呈现***被配置成根据基于对象的音频节目（和对要用于播放节目的扬声器的位置的了解）确定节目所指示的音频源的每个位置与扬声器的每个位置之间的距离。扬声器的位置可以被认为是源的期望位置（如果期望呈现节目的修改版本以使得发出的声音被感知为从被包括位于或接近回放***的所有扬声器的位置发出），并且节目所指示的源位置可以被认为是源的实际位置。***被按照本发明进行配置以对于节目所指示的每个实际源位置（例如，沿着源轨迹的每个源位置）确定扬声器全组中的由全组中最接近实际源位置的那些扬声器（或者那个扬声器）构成的子组（“主要”子组），其中在某些合理限定的意义上限定上下文中的“最接近”（例如，全组中“最接近”源位置的扬声器可以是回放***中位置对应于三维容积（在三维容积中限定源的轨迹）中的这样的位置的每个扬声器：该位置距源位置的距离在预定阈值内，或者距源位置的距离满足某些其他预定标准）。通常，（对于每个源位置）生成以下扬声器馈给：其导致从（针对该源位置的）主要子组的扬声器发出具有相对大振幅的声音，从回放***的其他扬声器发出具有相对较小振幅（或零振幅）的声音。

节目所指示的源位置序列（可以被认为定义源轨迹）确定全组扬声器的主要子组（序列中每个源位置有一个主要子组）的序列。每个主要子组中的扬声器的位置定义包括主要子组中的每个扬声器和相关的实际源位置（但是不包括全组中的其他扬声器）的三维（3D）空间。因此，可以在示例呈现***中如下实施（响应节目所指示的源轨迹）确定经修改轨迹并且响应于经修改轨迹生成（驱动回放***的所有扬声器的）扬声器馈给的步骤：对于节目所指示的源位置的序列中的每个（其可以被认为定义轨迹，例如，图3的“原始轨迹”），生成驱动（包括在源位置的3D空间中的）相应主要子组的扬声器和全组中的其他扬声器的扬声器馈给，以发出意图被感知（并且通常将被感知）为由源从3D空间的特征点发出的声音（例如，特征点可以是3D空间的上表面与通过节目所确定的源位置的竖线的交点）。考虑根据基于对象的音频节目如此确定的3D空间的序列，并且确定序列中的3D空间中的每个的特征点，可以考虑通过所有或一些特征点拟合的曲线以定义（响应于节目所指示的原始轨迹而确定的）经修改轨迹。

可选地，对（根据所指出的类型中的一个实施方式确定的）每个3D空间应用缩放参数，以响应于3D空间生成经缩放空间（有时在本文中称为“扭曲”空间），并且生成以下扬声器馈给：其用于驱动（用于播放节目的全组）扬声器发出意图被感知（并且通常将被感知）为从扭曲空间的特征点而不是从3D空间的上述特征点（例如，扭曲空间的特征点可以是扭曲空间的上表面与通过由节目确定的源位置的竖线的交点）的源发出的声音。扭曲可以被实现为应用于高度轴的缩放因子，使得每个扭曲空间的高度是相应3D空间的高度的缩放版本。

本发明的各方面包括配置（例如，编程）成执行本发明的方法的任何实施方式的***（例如，上混合器或呈现***），和存储用于实施本发明的方法的任何实施方式的代码的计算机可读介质（例如，盘或其他有形对象）。

在一些实施方式中，本发明的***是或者包括使用软件（或固件）编程和/或以其他方式配置成执行本发明的方法的实施方式的通用处理器或专用处理器。在一些实施方式中，本发明的***是或者包括耦合以接收输入音频（并且可选地还有输入视频）并且编程以（通过执行本发明的方法的实施方式）响应于输入音频生成输出数据（例如，确定扬声器馈给的输出数据）的通用处理器。在其他实施方式中，本发明的***可以实现为可操作以响应于输入音频生成输出数据（例如，确定扬声器馈给的输出数据）的经适当配置（例如，编程和以其他方式配置）的音频数字信号处理器（DSP）。

符号和术语

在本公开内容中，包括在权利要求中，“对”信号或数据进行操作（例如，对信号或数据进行滤波、缩放、或变换）的表述广义地用于表示直接对信号或数据，或者对信号或数据的经处理版本（例如，对于在对其操作之前已经历初步滤波的信号的版本）进行操作。

在包括权利要求的本公开内容中，表述“***”广义地用于表示装置、***或者子***。例如，实现解码器的子***可以被称为解码器***，并且包括这样的子***的***（例如，响应于多个输入生成X个输出信号的***，其中子***生成M个输入，并且从外部源接收其他X-M个输入）也可以被称为解码器***。

在包括权利要求的本公开内容中，以下表述具有以下定义：

扬声器和扩音器被作为同义词用来表示任何的发声换能器。该定义包括实现为多个换能器的扩音器（例如，低音扬声器和高音扬声器）；

扬声器馈给：要直接施加至扩音器的音频信号，或者要施加至串联的放大器和扩音器的音频信号；

声道（或“音频通道”）：单声道音频信号；

扬声器声道（或“扬声器馈给声道”）：与所限定的扬声器配置中的指定的扩音器（期望位置或标称位置处）或指定的扬声器区域相关联的音频通道。扬声器声道被以以下方式呈现：使得等效于直接向指定的扩音器（期望位置或标称位置处）或向指定扬声器区域中的扬声器施加音频信号；

对象声道：指示由音频源发出声音的音频通道（有时称为音频“对象”）。通常，对象声道确定参数音频源描述。源描述可以确定源（作为时间的函数）发出的声音、作为时间的函数的源的表观位置（例如，3D空间坐标）、并且可选地还有表征源的其他至少一个附加参数（例如，表观源大小或宽度）；

音频节目：一个或更多个音频通道的组（至少一个扬声器声道和/或至少一个对象声道），可选地还有描述期望的空间音频表现的相关元数据；

基于对象的音频节目：包括一个或更多个对象声道的组（通常不包括任何扬声器声道）并且可选地还包括描述期望的空间音频表现的相关元数据（例如，指示发出对象声道所指示的声音的音频对象的轨迹的元数据）的音频节目；

呈现：将音频节目转换成一个或更多个扬声器馈给的过程，或者将音频节目转换成一个或更多个扬声器馈给并且使用一个或更多个扩音器将扬声器馈给转换成声音的过程（在后一种情况下，呈现有时在本文中被称为“通过”扩音器呈现）。可以通过向期望位置的物理扩音器直接施加指示声道的内容的扬声器馈给来轻微地呈现（“在”期望位置的）音频通道，或者可以使用被设计为大致等效于（对于收听者而言）这种轻微呈现的多种虚拟化技术之一来呈现一个或更多个音频通道。在后一种情况下，可以将每个音频通道转换成要施加至已知位置中的扩音器的一个或更多个扬声器馈给，该已知位置通常与期望位置不同，使得扩音器响应馈给发出的声音被感知为从期望位置发出。这种虚拟化技术的示例包括经由耳机的双声道呈现（例如，对于耳机佩戴者使用模拟高至7.1声道的环绕声的杜比耳机处理）和波场合成。可以通过向物理扩音器组施加指示声道内容的扬声器馈给（其中，在任意瞬时，每个扩音器的物理位置可以与期望位置一致或可以不与期望位置一致）来呈现（“在”具有期望轨迹的时变位置的）对象声道；

方位（或方位角）：源在水平平面中相对于收听者/观看者的角度。通常，0度的方位角表示源在收听者/观看者的正前方，并且方位角随着源以逆时针方向绕着收听者/观看者移动而增大；

高度（elevation）（高度角（elevationalangle））：源在竖直平面中相对于收听者/观看者的角度。通常，0度的高度角表示源和收听者/观看者（例如，收听者/观看者的耳朵）在同一水平平面中，并且高度角随着源相对于收听者/观看者向上移动（在0度至90度的范围中）而增大；

L：左前音频通道。通常意图由位于约30度方位、0度高度的扬声器呈现的扬声器声道；

C：中前音频通道。通常意图由位于约0度方位、0度高度的扬声器呈现的扬声器声道；

R：右前音频通道。通常意图由位于约－30度方位、0度高度的扬声器呈现的扬声器声道；

Ls：左环绕音频通道。通常意图由位于约110度方位、0度高度的扬声器呈现的扬声器声道；

Rs：右环绕音频通道。通常意图由位于－110度方位、0度高度的扬声器呈现的扬声器声道；

全范围声道：除了节目的每个低频效果声道外的音频节目的所有音频通道。典型的全范围声道是立体声节目的L声道和R声道，环绕声节目的L声道、C声道、R声道、Ls声道以及Rs声道。低频效果声道（例如，重低音声道）确定的声音包括可听范围内高至截止频率的频率分量，但不包括可听范围内超过截止频率的频率分量（如同典型的全范围声道）；

前声道：与前声音层（frontalsoundstage）相关联的（音频节目的）扬声器声道。典型的前声道为立体声节目的L声道和R声道，或者环绕声节目的L声道、C声道以及R声道；以及

AVR：音频视频接收器。例如，用于控制例如家庭影院中的音频和视频内容的回放的消费电子类设备中的接收器。

附图说明

图1是示出根据本发明的一个实施方式的按照（x，y，z）单位向量（其中，z轴垂直于图1的平面）并且按照方位角Az（高度角El等于零）确定（收听者1的耳朵处的）声音的到达方向的定义的图。

图2是示出根据本发明的一个实施方式的按照（x，y，z）单位向量和按照方位角Az及高度角El确定位置L处的（从源位置S发出的）声音的到达方向的定义的图。

图3是由根据本发明的一个实施方式（从包括至少一个对象声道但不包括扬声器声道的音频节目）生成的扬声器馈给驱动的扩音器阵列的扬声器的图，示出由扬声器馈给确定的对象的感知轨迹。

图4是图3的感知轨迹以及可以由根据本发明的一个实施方式（从包括至少一个对象声道但不包括扬声器声道的音频节目）生成的扬声器馈给确定的两个附加轨迹的图。

图5是包括配置成执行本发明的方法的一个实施方式的呈现***3（其是或包括编程处理器）的***的框图。

图6是包括配置成执行本发明的方法的一个实施方式的上混合器4（实现为编程处理器）的***的框图。

具体实施方式

示例实施方式涉及以下***和方法：其实施一种被称为音频对象编码（或基于对象的编码或“场景描述”）的音频编码，并且在以下假定情况下工作：（通过编码器输出的）每个音频节目可以通过大量不同扩音器阵列中的任意扩音器阵列来呈现以用于再现。通过这种编码器输出的每个音频节目是基于对象的音频节目，并且通常这种基于对象的音频节目的每个声道是对象声道。在音频对象编码中，与不同的声音源（音频对象）相关联的音频信号被作为单独的音频流输入编码器。音频对象的示例包括（但不限于）对话音轨、单一乐器以及喷气式飞机。每个音频对象与空间参数相关联，空间参数可以包括（但不限于）源位置、源宽度以及源速度和/或源轨迹。对音频对象和相关参数进行编码以用于分发和存储。作为音频节目回放的一部分，可以在音频存储和/或分配链的接收端处执行最后的音频对象混音和呈现。音频对象混音和呈现的步骤通常基于对用于再现节目的扩音器的实际位置的了解。

通常，在生成基于对象的音频节目期间，内容创建者可以通过将元数据包含在节目中来嵌入混音的空间意图（例如，节目的每个对象声道所确定的每个音频对象的轨迹）。元数据可以指示由节目的每个对象声道确定的每个音频对象的位置或轨迹，和/或每个这种对象的大小、速度、类型（例如，对话或者音乐）以及另外的特征中的至少之一。

在呈现基于对象的音频节目期间，可以通过生成指示声道的内容的扬声器馈给并将扬声器馈给施加至扩音器组（其中，在任何瞬时，每个扩音器的物理位置可以与期望位置一致或者可以不与期望位置一致）来（“在”具有期望轨迹的时变位置）对每个对象声道进行呈现。用于扩音器组的扬声器馈给可以指示多个对象声道（或单个对象声道）的内容。呈现***通常生成扬声器馈给以匹配特定再现***的确切硬件配置（例如，家庭影院***的扬声器配置，其中呈现***也是家庭影院***的构成部分）。

在基于对象的音频节目指示音频对象的轨迹的情况下，呈现***通常会生成以下扬声器馈给：其用于驱动扩音器组发出意图被感知（并且通常将被感知）为从具有所述轨迹的音频对象发出的声音。例如，节目可以指示来自乐器的声音（对象）应从左到右摇移，并且呈现***可以生成以下扬声器馈给：其用于驱动5.1扩音器阵列发出将被感知为从阵列的L（左前）扬声器到阵列的C（中前）扬声器然后到阵列的R（右前）扬声器摇移的声音。

音频对象编码允许在任何扬声器配置上播放基于对象的音频节目（本文中有时称为混音）。用于呈现基于对象的音频节目的一些实施方式假设节目所确定的每个音频对象位于与用于再现节目的扩音器阵列的扬声器所位于的空间相匹配的空间中（例如，沿该空间中的轨迹移动）。例如，如果基于对象的音频节目指示沿着由摇移轴（例如，水平定向的前后轴、水平定向的左右轴、竖直定向的上下轴、或近远轴）和收听者定义的摇移平面移动的对象，则呈现***常规地会（响应于节目）生成用于由以下扬声器构成的扩音器阵列的扬声器馈给：这些扬声器名义上位于平行于摇移平面的平面中（即，如果摇移平面是水平平面，则扬声器名义上在水平平面中）。

本发明的许多实施方式在技术上是可能的。对于本领域的普通技术人员明显的是，从本公开内容可知如何实施这些实施方式。将参照图1至图6描述本发明的***、方法以及介质的实施方式。虽然一些实施方式涉及仅使用音频对象编码的生态***，但是其它实施方式涉及作为常规的基于声道的编码与音频对象编码之间的混音体的音频编码生态***，以借用两个类型的编码***的特征。例如，基于对象的音频节目可以包括（伴随有元数据的）一个或更多个对象声道的组和一个或更多个扬声器声道的组。

本发明的典型实施方式是用于呈现基于对象的音频节目（其指示音频源的轨迹）的方法，包括通过生成以下扬声器馈给：其用于驱动扩音器组发出意图被感知为从源发出的声音，但是源具有与节目所指示的轨迹不同的轨迹（例如，源具有竖直平面中的轨迹或三维轨迹，而节目指示水平平面中的源轨迹）。

在一些实施方式中，本发明是用于通过扩音器组来呈现用于回放的基于对象的音频节目的方法，其中节目指示音频对象的轨迹，并且轨迹在全三维容积的子空间中（例如，轨迹被限制在该容积中的水平平面中，或者轨迹是该容积中的水平线）。该方法包括以下步骤：修改节目以确定指示对象的经修改轨迹的经修改节目（例如，通过修改指示轨迹的节目的坐标），其中经修改轨迹的至少一部分在子空间的外部（例如，其中轨迹是水平线，经修改轨迹是包括该水平线的竖直平面中的路径）；以及（响应于经修改节目）生成以下扬声器馈给：其用于驱动该组中位置对应于子空间外部的位置的至少一个扬声器和用于驱动该组中位置对应于子空间中的位置的扬声器。

通常，基于对象的音频节目（除非根据本发明对其进行了修改）能够被呈现以仅生成用于驱动扩音器组的子组的扬声器馈给（例如，仅组中那些位置对应于全三维容积的子空间的扬声器）。例如，音频节目可以能够被呈现以仅生成用于驱动组中位于包括收听者的耳朵的水平平面中的扬声器的扬声器馈给，其中子空间是所述水平平面。本发明的呈现方法通过以下方式实施上混合：（响应于经修改节目）生成用于驱动组中位置对应子空间外部的位置的扬声器的至少一个扬声器馈给，以及生成用于驱动组中位置对应于子空间中的位置的扬声器的扬声器馈给。例如，本方法的优选实施方式包括响应于经修改节目生成用于驱动该组的所有扩音器的扬声器馈给的步骤。因此，优选实施方式利用存在于回放***中的所有扬声器，而对原始（未修改的）节目的呈现不会生成用于驱动回放***的所有扬声器的扬声器馈给。

在其他实施方式中，本发明的方法包括以下步骤：修改指示音频对象的轨迹的基于对象的音频节目，以确定指示对象的经修改轨迹的经修改节目，其中轨迹和经修改轨迹两者被限定在相同的空间中（即，该经修改轨迹没有任何部分延伸到该轨迹在其中延伸的空间的外部）。例如，相对于会响应于根据原始节目确定的扬声器馈给而发出的声音，可以对轨迹进行修改以优化（或以其他方式修改）响应于根据经修改节目确定的扬声器馈给而发出的声音的音色（例如，在经修改轨迹而不是原始轨迹确定单端的“对齐到扬声器”或“向扬声器对齐”的情况下）。

在典型的实施方式中，本发明的方法包括以下步骤：使所创作的对象的轨迹随时间畸变以确定对象的经修改轨迹，其中由基于对象的音频节目指示对象的轨迹，并且对象的轨迹在三维容积的子空间中，使得经修改轨迹的至少一部分在该子空间外部；以及生成位置对应于子空间外部位置的扬声器的至少一个扬声器馈给（例如，其中子空间是相对于预期收听者第一高度角处的水平平面，生成用于驱动位于相对于收听者第二高度角处的扬声器的扬声器馈给，其中第二高度角与第一高度角不同。例如，第一高度角可以是零，第二高度角可以是非零）。例如，该方法可以包括以下步骤：使基于对象的音频节目所指示的音频对象的轨迹畸变，其中轨迹在相对于收听者零高度角处的水平平面中，以便生成用于位于相对于收听者非零高度角处的（回放***的）扬声器的扬声器馈给，其中原始创作的扬声器***的扬声器没有一个位于相对于内容创建者的非零高度角处。

在一些实施方式中，本发明的方法包括以下步骤：对指示音频对象的轨迹（其中该轨迹在全三维容积的子空间中）的基于对象的音频节目进行修改（上混合），以确定指示对象的经修改轨迹的经修改节目（例如，通过修改指示轨迹的节目的坐标，其中这种坐标是由包含在节目中的元数据确定的），使得经修改轨迹的至少一部分在子空间的外部。一些这样的实施方式通过独立的***或装置（“上混合器”）实现。上混合器的输出所确定的经修改节目通常被提供给呈现***，该呈现***被配置成（响应于经修改节目）生成用于驱动扩音器组的扬声器馈给，扬声器馈给通常包括用于驱动组中位置对应子空间外部的位置的至少一个扬声器的扬声器馈给。或者，本发明的方法的一些这种实施方式通过呈现***实现，该呈现***生成经修改节目并且（响应于经修改节目）生成用于驱动扩音器组的扬声器馈给，扬声器馈给通常包括用于驱动组中位置对应于子空间外部的位置的至少一个扬声器的扬声器馈给。

本发明的方法的一个示例是对音频节目的呈现，该音频节目包括指示经历前到后摇移的源（即，源的轨迹是水平线）的对象声道。已经在传统的5.1扬声器设置上创作了摇移，内容创建者对5.1扬声器阵列的中心扬声器与两个（左后和右后）环绕扬声器之间的振幅摇移进行监视。本发明的呈现方法的示例实施方式生成在6.1扬声器***的所有扬声器上再现节目的扬声器馈给，6.1扬声器***的扬声器包括顶置扬声器（例如，图3的扬声器Ts）以及包括5.1扬声器阵列的扬声器，该方法包括生成顶置（高度）声道扬声器馈给。响应于6.1阵列的所有扬声器的扬声器馈给，6.1阵列会发出被收听者感知为在源沿着作为原始创作的水平线性轨迹的弯曲版本的经修改轨迹摇移（即，被感知为移动通过房间）的情况下从源发出的声音。经修改轨迹从中心扬声器（其未经修改的起点）竖直向上（并且水平向后）朝向顶置扬声器然后回来向下（并且水平向后）朝向收听者后面的其未经修改的终点（在左后环绕扬声器和右后环绕扬声器之间）。

通常，回放***包括扩音器组，该组包括：第一子组的扬声器，其位于第一空间中的对应于包含要呈现的音频节目指示的对象轨迹的子空间中的位置（例如，名义上在包括收听者的水平平面中的位置处的扬声器，其中子空间是包括收听者的水平平面）；以及包括至少一个扬声器的第二子组，其中第二子组中的每个扬声器的位置对应于子空间外部的位置。为了确定经修改轨迹（通常但不一定是曲线轨迹），呈现方法可以确定候选轨迹。候选轨迹包括：第一空间中的与对象轨迹的起点一致的起点（使得可以驱动第一子组中的一个或更多个扬声器发出被感知为从起点发出的声音）；第一空间中的与对象轨迹的终点一致的终点（使得可以驱动第一子组中的一个或更多个扬声器发出被感知为从终点发出的声音）；以及对应第二子组中的扬声器的位置的至少一个中间点（使得，对于每个中间点，可以驱动第二子组中的扬声器发出被感知为从所述中间点发出的声音）。在一些情况下，使用候选轨迹作为经修改轨迹。

在其他情况下，使用候选轨迹的畸变版本（由至少一个畸变系数确定）作为经修改轨迹。每个畸变系数的值确定应用于候选轨迹的畸变程度。例如，在一个实施方式中，（沿着候选轨迹的）每个中间点在第一空间上的投影限定（第一空间中的）对应于该中间点的拐点。中间点与相应拐点之间的线（正交于第一空间）被称为该中间点的畸变轴。其值指示沿着中间点的畸变轴的位置的（每个中间点的）畸变系数确定中间点的修改版本。使用每个中间点的这种畸变系数，经修改轨迹可以被确定为从候选轨迹的起点通过每个中间点的修改版本到候选轨迹的终点延伸的轨迹。因为经修改轨迹（使用相关对象的音频内容）确定相关对象声道的每个扬声器馈给，所以每个畸变系数控制当所呈现的对象沿着经修改轨迹摇移时呈现对象将要被感知为有多接近（第二子组中的）相应扬声器。

可以按照方位角和高度角（Az，El）或者按照（x，y，z）单位向量定义来自音频源的声音的到达方向。例如，在图1中，可以按照（x，y，z）单位向量来定义来自源位置S的（在收听者1耳朵处的）声音的到达方向，其中x轴和y轴如所示，z轴垂直于图1的平面，并且也可以按照所示的方位角Az（例如，高度角El等于零）来定义声音的到达方向。

图2示出按照（x，y，z）单位向量（其中x轴、y轴以及z轴如所示）以及按照方位角Az和高度角El定义的位置L（例如，收听者的耳朵的位置）处的（从源位置S发出的）声音的到达方向。

将参照图3和图4描述示例实施方式。在该实施方式中，在包括6.1扬声器阵列的***上对基于对象的音频节目进行呈现以用于回放。扬声器阵列包括左前扬声器L、中前扬声器C、右前扬声器R、左环绕（后）扬声器Ls、右环绕（后）扬声器Rs以及顶置扬声器Ts。为了清楚，在图3中未示出左前扬声器和右前扬声器。音频节目指示沿着包括预期收听者的耳朵的水平平面中的以下轨迹（图3中所示的原始轨迹）移动的源（音频对象）：从位于预期收听者的前方的中心扬声器C的位置到位于预期收听者后方的环绕扬声器Rs与环绕扬声器Ls之间的中间位置。例如，音频节目可以包括对象声道（指示源发出的音频内容）和指示对象的轨迹的元数据（例如，音频节目的每帧更新一次的源坐标）。

呈现***被配置成响应于基于对象的音频节目（例如，示例中的节目）生成用于驱动6.1阵列的所有扬声器（包括顶置扬声器Ts）的扬声器馈给，该音频节目不具体指示要被感知为从收听者的耳朵的水平平面上方的位置发出的音频内容。根据本发明，呈现***被配置成对节目指示的原始（水平）轨迹进行修改，以确定以下（用于相同音频对象的）经修改轨迹：其从中心扬声器C的位置（A点）向上和向后朝顶置扬声器Ts的位置，然后向下和向后到环绕扬声器Rs与环绕扬声器Ls之间的中间位置（B点）延伸。在图3中也示出了这样的经修改轨迹。呈现***还被配置成生成以下扬声器馈给：其用于驱动6.1阵列的所有扬声器（包括顶置扬声器Ts）发出被感知为从沿着经修改轨迹摇移的对象发出的声音。

如图4所示，节目确定的原始轨迹是从A点（中心扬声器C的位置）到B点（环绕扬声器Rs与环绕扬声器Ls之间的中间位置）的直线。响应于原始轨迹，示例呈现方法确定具有与原始轨迹相同的起点和终点但是穿过顶置扬声器Ts的位置（图4中标识为点E的中间点）的候选轨迹。

呈现***可以使用候选轨迹作为经修改轨迹（例如，响应于施加下述具有100%值的畸变系数，或者响应于一些其他用户确定的控制值）。

优选地，呈现***还被配置成使用候选轨迹的一组畸变版本中的任意畸变版本作为经修改轨迹（例如，响应于具有不同于100%的一些值的下述畸变系数，或响应一些其他用户确定的控制值）。图4示出候选轨迹的两个这种畸变版本（一个具有75%的值的畸变系数，另一个具有25%的值的畸变系数）。候选轨迹的每个畸变版本具有与原始轨迹相同的起点和终点，但是具有不同的最接近顶置扬声器Ts的位置(图4中的E点)的点。

在该示例中，呈现***被配置成响应于具有从100%（以实现原始轨迹的最大畸变，从而使顶置扬声器的使用最大化）到0%（避免为增加顶置扬声器的使用而使原始轨迹发生任何畸变）的范围内的值的用户指定的畸变系数。响应于畸变系数的指定值，呈现***使用候选轨迹的多个畸变版本中相应的一个作为经修改轨迹。具体地，候选轨迹被用作响应于具有100%的值的畸变系数的经修改轨迹，穿过（图4的）F点的畸变的候选轨迹被用作响应具有75%的值的畸变系数的经修改轨迹（使得经修改轨迹较近地接近E点），并且穿过（图4的）G点的畸变候选轨迹被用作响应于具有25%的值的畸变系数的经修改轨迹（使得经修改轨迹将较不近地接近E点）。

在该示例中，呈现***被配置成有效确定经修改轨迹以实现由畸变系数的值确定的顶置扬声器的期望的使用程度。通过研究通过图4的I点和E点的畸变轴（垂直于原始线性轨迹（从A点到B点））可以理解这一点。（沿着候选轨迹的）中间点E在原始轨迹延伸通过的空间（包括A点和B点的水平平面）上的投影定义所述空间中（即，包括A点和B点的水平平面中）对应于中间点E的拐点I。从I点是候选轨迹停止从原始轨迹偏离并且开始接近原始轨迹的点的意义上说，I点是“拐”点。中间点E与相应拐点I之间的线是中间点E的畸变轴。畸变系数的值（在从100%到0%的范围内）对应于沿着畸变轴从拐点到中间点的距离，因此确定候选轨迹的多个畸变版本之一（例如，延伸通过点F的版本）到顶置扬声器的位置的最接近的距离。呈现***被配置成通过选择以下候选轨迹的畸变版本（作为经修改轨迹）来对畸变系数做出响应：其从候选轨迹的起点通过距拐点的距离由畸变系数的值确定的（沿着畸变轴的）点（例如，当畸变系数值为75%时，点F）到候选轨迹的终点延伸。因为经修改轨迹（使用相关对象的音频内容）确定相关对象声道的每个扬声器馈给，所以畸变系数的值控制当呈现对象沿着经修改轨迹摇移时呈现对象将要被感知为有多接近顶置扬声器。

候选轨迹的每个畸变版本与畸变轴的交点是候选轨迹的所述畸变版本的拐点。因此，图4的G点（由畸变系数值25%确定的畸变候选轨迹与畸变轴的交点）是所述畸变候选轨迹的拐点。

在一类实施方式中，本发明的呈现***被配置成根据基于对象的音频节目（和对要用于播放节目的扬声器的位置的了解）来确定节目所指示的音频源的每个位置与扬声器中的每个的位置之间的距离。可以相对于扬声器的位置来定义源的期望位置（例如，可以期望其回放声音使得声音将被感知为从扬声器之一（例如，顶置扬声器）发出），并且可以认为节目所指示的源位置是源的实际位置。根据本发明来配置***以对于节目所指示的每个实际源位置（例如，沿着源轨迹的每个源位置）确定扬声器的全组中的子组（“主要”子组），该子组由全组中（在某种合理限定的意义上）最接近源位置的那些扬声器（或那个扬声器）构成。通常，（对于每个源位置）生成以下扬声器馈给：其导致从（源位置的）主要子组的扬声器发出具有相对大振幅的声音，并且从回放***的其他扬声器发出具有相对较小振幅（或零振幅）的声音。作为全组中“最接近”源位置的扬声器可以是在回放***中的位置对应于以下位置的每个扬声器：该位置（在源轨迹被限定的三维容积中）距源位置的距离在预定阈值内，或者距源位置的距离满足某些其他预定标准。

节目所指示的源位置的序列（其可以被认为定义源轨迹）确定扬声器的全组的主要子组的序列（一个主要子组针对序列中的一个源位置）。

每个主要子组中的扬声器的位置定义包含主要子组的每个扬声器和对应于相关源位置的位置但不包含全组中的其他扬声器的三维（3D）空间。“对应”于实际源位置的每个这种位置是实际的回放***中的这样的位置：其在内容创建者希望从回放***的扬声器发出的声音应被收听者感知为从所述源位置发出的意义上说，“对应”于源位置。因此，为了方便，有时将回放***中“对应”于源位置的这种位置称为实际源位置，其中根据上下文明显的是，其是实际的回放***中的位置（例如，包括扬声器组的主要子组的3D空间，其是本段中上述类型的回放***中的空间，有时被称为包括对应于该主要子组的源位置的3D空间）。例如，考虑图3的6.1扬声器阵列，其位于具有矩形容积V的房间中，并且其要用于呈现指示图3中所指示的“原始轨迹”的节目。在该示例中，原始轨迹的第一点（扬声器C的位置）的主要子组可以包括6.1扬声器阵列的前扬声器（C、R以及L），并且包含该主要子组的3D空间可以是以下矩形容积：其宽度为从R扬声器到L扬声器的距离，其长度是R扬声器、L扬声器以及S扬声器中的最深的一个的深度（从前到后），并且其高度是收听者的耳朵的（地面以上的）预期高度（假设R扬声器、L扬声器以及S扬声器定位为不延伸到该高度以上）。图3中所示的原始轨迹的中间点（沿着6.1阵列的顶置扬声器Ts的中心的正下方的轨迹的点）的主要子组可以仅包括顶置扬声器Ts，并且包括该主要子组的3D空间可以是其宽度为房间宽度（从Rs扬声器到Ls扬声器的距离）、其长度为Ts扬声器的宽度、并且其高度为房间高度的（图3的）矩形容积V’。

因此，可以在示例呈现***如下实施（响应于节目所指示的源轨迹）确定经修改轨迹和响应于经修改轨迹生成（用于驱动回放***的所有扬声器的）扬声器馈给的步骤：对于节目所指示的源位置序列（其可以被认为定义轨迹，例如图3的“原始轨迹”）中的每个源位置，生成以下扬声器馈给：其用于驱动相应主要子组的扬声器（包括在源位置的3D空间中）和全组中的其他扬声器发出意图被感知（并且通常将被感知）为由源从3D空间的特征点（例如，特征点可以是3D空间的上表面与通过由节目确定的源位置的竖线的交点）发出的声音。考虑从基于对象的音频节目如此确定的3D空间的序列，并且确定序列中的每个3D空间的特征点，通过全部或一些特征点拟合的曲线可以被认为定义（响应于节目所指示的原始轨迹而确定的）经修改轨迹。

可选地，对每个3D空间（其是根据所指出的类型中的一个实施方式确定的）应用缩放参数以响应于3D空间生成经缩放空间（有时被称为“扭曲”空间），并且生成以下扬声器馈给：其用于驱动（用于播放节目的全组的）扬声器发出意图被感知（并且通常将被感知）为由源从扭曲空间的特征点而不是从3D空间的上述特征点（例如，扭曲空间的特征点可以是扭曲空间的上表面与通过由节目确定的源位置的竖线的交点）发出的声音。3D空间的扭曲是相对简单的、众所周知的数学运算。在参照图3描述的示例中，扭曲可以被实现为应用于高度轴的缩放因子。因此，每个扭曲空间的高度是相应3D空间的高度的缩放版本（并且每个扭曲空间的长度和宽度与相应3D空间的长度和宽度匹配）。

例如，“0.0”的缩放参数可以最大化扭曲空间的高度（例如，通过对图3的容积V’应用0.0的缩放参数所确定的扭曲空间会与容积V’相同）。这会导致在对于呈现***确定拐点或实施前视没有任何需要的情况下，原始轨迹的“100%畸变”。在该示例中，在从0.0到1.0的范围内的缩放参数X可以导致扭曲空间的高度小于相应3D空间的高度（例如，通过对图3的体积V’应用X=0.5的缩放参数所确定的扭曲空间可以是高度等于房间高度的一般的容积V’的下半部分）。因此，应用在从0.0到1.0的范围内的这种缩放参数会导致原始轨迹较少畸变（也对呈现***确定拐点或实施前视没有任何需要）。可选地，具有大于1.0的值的缩放参数X可以导致节目的位置元数据的相应维度的压缩（例如，对于节目所指示的接近房间顶部的源位置，通过对相应3D空间应用X=1.5的缩放参数所确定的扭曲空间的特征点可以比相应3D空间的特征点距房间的顶部更远）。

本发明的方法的一些实施方式在单个步骤中实施音频对象轨迹修改和呈现两者。例如，呈现可以通过显式生成用于具有已知位置的畸变版本的扬声器的扬声器馈给（例如，通过已知扩音器位置的显式畸变）而使基于对象的音频节目所确定的（音频对象的）轨迹隐式畸变（修改）（以确定对象的经修改轨迹）。畸变可以被实现为应用于轴（例如，高度轴）的缩放因子。例如，在生成扬声器馈给期间对轨迹（例如，图3中所示的原始轨迹）的高度轴应用第一缩放因子（例如，等于0.0的缩放因子）可以导致对象的经修改轨迹与顶置扬声器的位置相交（导致“100%”畸变），使得响应于扬声器馈给从回放***的扬声器发出的声音会被感知为从（经修改）轨迹包括顶置扬声器位置的源发出。在生成扬声器馈给期间对轨迹的高度轴应用第二缩放因子（例如，大于0.0但不大于1.0的缩放因子）可以导致经修改轨迹比原始轨迹更加近地接近（但不相交）顶置扬声器的位置（导致“X%畸变”，其中X的值由缩放因子的值确定），使得响应于扬声器馈给从回放***的扬声器发出的声音会被感知为从（经修改）轨迹接近（但不包括）顶置扬声器位置的源发出。在生成扬声器馈给期间对轨迹的高度轴应用第三缩放因子（例如，大于1.0的缩放因子）可以导致经修改轨迹（比原始轨迹更远地）偏离顶置扬声器的位置。可以在对确定拐点或实施前视没有任何需要的情况下实施这种组合的轨迹修改和扬声器馈给生成。

在一些实施方式中，本发明的***是或者包括使用软件（或固件）编程的通用处理器或专用处理器，并且/或者被以其他方式配置成执行本发明的方法的实施方式。在一些实施方式中，本发明***是或者包括被耦合以接收输入音频（并且可选地还有输入视频）并且被编程以（通过执行本发明的方法的实施方式）响应于输入音频生成输出数据（例如，确定扬声器馈给的输出数据）的通用处理器。例如，***（例如，图5的***3，或者图6的构成部分4和5）可以被实施为AVR，AVR也生成由输出数据确定的扬声器馈给。在其他实施方式中，本发明的***（例如，图5的***3，或者图6的构成部分4和5）是或者包括适当配置（例如，编程和以其他方式配置）的音频数字信号处理器（DSP），DSP可操作以响应于输入音频生成输出数据（例如，确定扬声器馈给的输出数据）。

在一些实施方式中，本发明的***是或者包括被耦合以接收输入音频数据（指示基于对象的音频节目）和使用软件（或固件）编程并且/或者被以其他方式配置成通过执行本发明的方法的实施方式来响应于输入音频数据生成输出数据（节目所指示的源位置元数据的修改版本，或者确定用于呈现节目的修改版本的扬声器馈给的数据）的通用处理器或专用处理器。处理器可以使用软件（或固件）编程并且/或者被以其他方式配置成（例如，响应于控制数据）对输入音频数据执行多种操作中的任何操作，包括本发明的方法的实施方式。

图5的***包括音频传输子***2，子***2被配置成存储和/或传输指示基于对象的音频节目的音频数据。图5的***还包括呈现***3（其是或包括已编程的处理器），呈现***3被耦合以接收来自子***2的音频数据，并且被配置成对音频数据执行本发明的呈现方法的实施方式。呈现***3被耦合以（在至少一个输入端3A处）接收音频数据，并且被编程以对音频数据执行包括本发明的呈现方法的实施方式的各种操作中的任意操作，以生成指示根据本呈现方法生成的扬声器馈给的输出数据。输出数据（和扬声器馈给）指示呈现方法所确定的原始节目的修改版本。从***3到扬声器阵列6（在至少一个输出端3B处）施加输出数据（或从其确定的扬声器馈给），并且扬声器阵列6响应于从***3（或响应于***3的输出数据生成的扬声器馈给）接收的扬声器馈给播放原始节目的修改版本。包括在***3或阵列6中的常规数模转换器（DAC）可以对***3生成的输出数据进行操作以生成用于驱动阵列6的扬声器的模拟扬声器馈给。

图6的***包括子***2和扬声器阵列6，子***2和扬声器阵列6与图5的***的相同编号的构成部分相同。音频传输子***2被配置成存储和/或传输指示基于对象的音频节目的音频数据。图6的***还包括上混合器4，上混合器4被耦合以接收来自子***2的音频数据，并且被配置成对音频数据（例如，对包括在音频数据中的源位置元数据）执行本发明的方法的实施方式。上混合器4被耦合以（在至少一个输入端4A处）接收音频数据，并且被编程为对音频数据（例如，对音频数据的源位置元数据）执行本发明的方法的实施方式以生成（并且在至少一个输出端4B处施加）（使用来自子***2的原始音频数据）确定节目的修改版本（例如，其中节目所指示的源位置元数据被上混合器4生成的经修改源位置数据替代的节目的修改版本）的输出数据。上混合器4被配置成（在至少一个输出端4B处）向呈现***5施加输出数据。***5被配置成响应于（如通过上混合器4的输出数据和子***2的原始音频数据确定的）节目的修改版本来生成扬声器馈给，以及向扬声器阵列6施加多个扬声器馈给。扬声器阵列6被配置成响应于扬声器馈给播放原始节目的修改版本。

更具体地，上混合器4的典型实现是被编程成修改（上混合）由来自子***2的音频数据确定的基于对象的音频节目（其指示音频对象的轨迹，并且该轨迹在全三维容积的子空间中），响应于节目的源位置元数据生成（并且在至少一个输出端4B处施加）（利用来自子***2的原始音频数据）确定节目的修改版本的输出数据。例如，上混合器4可以被配置成对节目的源位置元数据进行修改以生成指示确定对象的经修改轨迹的经修改源位置数据的输出数据，使得经修改轨迹的至少一部分在子空间外部。输出数据（使用包括在来自子***2的原始音频数据中的对象的音频内容）确定指示对象的经修改轨迹的经修改节目。响应于经修改节目，呈现***5生成以下扬声器馈给：其用于驱动阵列6的扬声器发出会被感知为由如同沿着经修改轨迹移动的对象发出的声音。

再例如，上混合器4可以被配置成（根据节目的源位置元数据）生成指示特征点的序列的输出数据（节目所指示的源位置的序列中的每个源位置一个特征点），每个特征点在3D空间（例如，上述参照图3描述的类型的经缩放的3D空间）的序列中的一个3D空间中，其中每个3D空间对应于节目所指示的源位置的序列中的一个源位置。响应于该输出数据（和如包括在来自子***2的原始音频数据中的源的音频内容），呈现***5生成以下扬声器馈给：其用于驱动阵列6的扬声器发出会被感知为由源从该3D空间序列的所述特征点序列发出的声音。

可选地，图5的***包括耦合至呈现***3的存储介质8。计算机可读存储介质8（例如，光盘或其他有形对象）上存储有适合于对***3（实现为处理器）或包括在***3中的处理器进行编程以执行本发明的方法的实施方式的计算机代码。在操作中，处理器执行计算机代码以根据本发明处理数据以生成输出数据。

类似地，图6的***可选地包括耦合至上混合器4的存储介质9。计算机可读存储介质9（例如，光盘或其他有形对象）上存储有适合于对上混合器4（实现为处理器）进行编程以执行本发明的方法的实施方式的计算机代码。在操作中，处理器执行计算机代码以根据本发明处理数据以生成输出数据。

在本发明的***（呈现***，例如图5的***3，或上混合器，例如图6的上混合器4，用于生成由呈现***呈现的经修改节目）被配置成以非实时方式处理内容的情况下，将元数据包含在要呈现的基于对象的音频节目中是有用的，其中元数据指示节目所指示的每个对象轨迹的起点和终点两者。优选地，***被配置成使用这样的元数据在不需要前视延迟的情况下实施上混合（以确定每个这种轨迹的经修改轨迹）。或者，可以通过将本发明的***配置成按时间对对象轨迹的坐标（由要呈现的基于对象的音频节目指示）进行平均以生成轨迹走向并且使用这种平均来预测轨迹的路径和找出轨迹的每个拐点，来消除对前视延迟的需要。

可以将附加的元数据包含在基于对象的音频节目中，以向本发明的***（被配置成呈现节目的***，例如图5的***3，或者上混合器，例如图6的上混合器4，用于生成由呈现***呈现的节目的修改版本）提供使得***能够重写系数值或以其他方式影响***的性能（例如，防止***修改节目所指示的某些对象的轨迹）的信息。例如，如果元数据指示音频对象的特征（例如，类型或属性），则***优选地被配置成在响应于元数据的特定模式（例如，防止修改特定类型的对象的轨迹的模式）下工作。例如，***可以被配置成通过禁用对对象的上混合来响应指示对象是对话的元数据（例如，使得将使用对话的节目所指示的轨迹（如果有的话）而不是轨迹的修改版本（例如，在预期收听者的水平平面的上方或下方延伸的版本）来生成扬声器馈给）。

可以对内容从开始就为对象音频（即，其被原始创作为基于对象的节目）的基于对象的音频节目直接应用根据本发明的上混合。也可以通过使用源分离上混合器来对已经被“对象化”（即，被转换成基于对象的音频节目）的内容应用这种上混合。典型的源分离上混合器会对内容（例如，仅包括扬声器声道而不包括对象声道的音频节目）应用分析和信号处理来分离已经混合在一起的各个音轨（各自对应于来自相应音频对象的音频内容）以生成内容，从而确定每个相应音频对象的对象声道。

本发明的方面包括配置（例如，编程）成执行本发明的方法的任何实施方式的***（例如，上混合器或呈现***），和存储用于实施本发明的方法的任何实施方式的代码的计算机可读介质（例如，盘或其他有形对象）。

在本发明的方法的一些实施方式中，同时或者以与本文中描述的示例中指定的顺序不同的顺序来执行本文中描述的一些或全部步骤。虽然在本发明的方法的一些实施方式中以特定顺序执行步骤，但是在其他实施方式中可以同时或以不同顺序执行一些步骤。

虽然本文中已经描述了本发明的特定实施方式和本发明的应用，对于本领域的普通技术人员明显的是，在不脱离本文中描述的和要求保护的发明的范围的情况下，对本文中描述的实施方式和应用的许多变化都是可能的。应理解，虽然已经示出和描述了本发明的某些形式，本发明不限于所描述和所示出的特定实施方式或者所描述的特定方法。

Claims

1.一种对用于通过扬声器组进行回放基于对象的音频节目进行呈现的方法，其中，所述基于对象的音频节目包括对象声道，所述基于对象的音频节目包括元数据，该元数据指示通过所述基于对象的音频节目的所述对象声道来确定的音频对象的轨迹，所述轨迹由所述音频对象的时变源位置序列来定义，所述时变源位置序列由所述元数据指示，所述轨迹在三维容积的子空间内，所述基于对象的音频节目包括针对所述音频对象的音频数据，所述扬声器组中的每个扬声器具有在回放***中的已知位置，所述扬声器组包括位于所述回放***的第一空间中的位置处的第一子组的扬声器，所述位置与包含所述轨迹的所述子空间中的位置相对应的，所述扬声器组还包括包含至少一个扬声器的第二子组，并且所述第二子组中的每个扬声器位于所述回放***中与所述子空间外的位置相对应的位置，所述方法包括以下步骤：

(a)使用上混合器对所述音频节目进行修改以确定包括指示所述音频对象的经修改轨迹的经修改元数据的经修改节目，其中所述经修改轨迹由所述音频对象的时变经修改源位置序列来定义，其中所述经修改轨迹的至少一部分在所述子空间外；其中所述经修改轨迹包括：所述第一空间中与所述轨迹的起点对应的起点、所述第一空间中与所述轨迹的终点对应的终点、以及与所述第二子组中的扬声器的位置相对应的至少一个中间点；以及

(b)响应于包括所述经修改元数据和所述音频对象的所述音频数据的所述经修改节目生成扬声器馈给，以使得所述扬声器馈给包括用于驱动所述扬声器组中位置与所述子空间外的位置相对应的至少一个扬声器的至少一个馈给，和用于驱动所述扬声器组中位置与所述子空间内的位置相对应的扬声器的馈给；

其中，步骤(a)包括以下步骤：

针对所述经修改源位置序列中的每个经修改源位置，确定所述经修改源位置与所述扬声器组中的每个扬声器的位置之间的距离；以及

针对所述经修改源位置序列中的每个经修改源位置，确定所述扬声器组的主要子组，所述主要子组由所述扬声器组中距所述经修改源位置最近的每个扬声器组成；

其中，所述方法还包括：

针对每个所述主要子组，确定包含所述主要子组中的每个扬声器和所述主要子组的所述经修改源位置但不包括所述扬声器组中的其他扬声器的三维空间，其中步骤(b)包括以下步骤：针对所述经修改源位置序列的每个经修改源位置，生成用于驱动所述经修改源位置的所述主要子组中的每个扬声器的至少一个扬声器馈给，和用于驱动所述扬声器组中的每个其他扬声器的至少一个其他扬声器馈给；以及

响应于针对所述每个经修改源位置生成的所述扬声器馈给，驱动所述扬声器组发出意图被感知为由所述音频对象从包含所述经修改源位置的所述三维空间的特征点发出的声音。

2.根据权利要求1所述的方法，其中，在步骤(b)中生成的所述扬声器馈给包括用于驱动所述扬声器组的所有扬声器的扬声器馈给。

3.根据权利要求1所述的方法，其中，包括在所述音频节目中的所述元数据确定所述轨迹的坐标，并且步骤(a)包括修改所述坐标的步骤。

4.根据权利要求1所述的方法，其中，每个源位置的所述主要子组由所述扬声器组中这样的每个扬声器组成：所述扬声器在所述回放***中的位置与所述轨迹被限定于的所述三维容积中的位置相对应，所述三维容积中的位置距所述源位置的距离在预定阈值内。

5.根据权利要求1所述的方法，还包括：

针对所述经修改源位置序列中的每个经修改源位置，对包含所述经修改源位置的所述三维空间应用缩放参数以生成包含所述经修改源位置的经缩放空间。

6.根据权利要求5所述的方法，其中，对每个所述三维空间应用所述缩放参数包括：对所述三维空间的高度轴应用所述缩放参数。

7.根据权利要求1所述的方法，其中，在步骤(b)中生成的所述扬声器馈给包括：用于驱动所述扬声器组中的所有扬声器的扬声器馈给。

8.根据权利要求1所述的方法，其中，所述子空间是相对于预期收听者的第一高度角处的水平平面，并且步骤(b)包括以下步骤：生成用于所述组中位于相对于所述预期收听者的第二高度角处的扬声器的扬声器馈给，其中所述第二高度角与所述第一高度角不同。

9.根据权利要求1所述的方法，其中，所述方法包括以下步骤：

确定候选轨迹，所述候选轨迹包括：所述第一空间中与所述轨迹的起点一致的起点、所述第一空间中与所述轨迹的终点一致的终点、以及与所述第二子组中的扬声器的位置相对应的至少一个中间点；以及

通过对所述候选轨迹应用至少一个畸变系数来使所述候选轨迹畸变，从而确定畸变候选轨迹，其中所述畸变候选轨迹是所述经修改轨迹。

10.根据权利要求9所述的方法，其中，每个所述中间点在所述第一空间上的投影定义所述第一空间中与所述中间点相对应的拐点，其中每个所述中间点与相应拐点之间的正交于所述第一空间的线是所述中间点的畸变轴，并且其中每个所述畸变系数的值指示沿一个所述中间点的所述畸变轴的位置。

11.一种对用于通过扬声器组进行回放的基于对象的音频节目进行修改的方法，其中，所述音频节目的每个声道是对象声道，所述音频节目指示音频对象的轨迹，所述轨迹由所述音频对象的时变源位置序列来定义，所述时变源位置序列由元数据指示，所述轨迹在三维容积的子空间内，所述基于对象的音频节目包括针对所述音频对象的音频数据，所述扬声器组中的每个扬声器具有在回放***中的已知位置，所述扬声器组包括位于所述回放***的第一空间中的位置处的第一子组的扬声器，所述位置与包含所述轨迹的所述子空间中的位置相对应，所述扬声器组还包括包含至少一个扬声器的第二子组，并且所述第二子组中的每个扬声器位于所述回放***中与所述子空间外的位置相对应的位置，所述方法包括以下步骤：

对指示所述基于对象的音频节目的数据进行处理以生成指示经修改节目的数据，其中，所述经修改节目是指示所述音频对象的经修改轨迹的音频节目，并且所述经修改轨迹的至少一部分在所述子空间外，所述经修改轨迹由所述音频对象的时变经修改源位置序列来定义，所述经修改轨迹包括：所述第一空间中与所述轨迹的起点一致的起点、所述第一空间中与所述轨迹的终点一致的终点、以及与所述第二子组中的扬声器的位置相对应的至少一个中间点，从而能够响应于指示所述经修改轨迹并且包含针对所述音频对象的所述音频数据的所述经修改节目来生成扬声器馈给。

12.根据权利要求11所述的方法，其中，包括在所述基于对象的音频节目中的元数据确定所述轨迹的坐标，并且所述方法包括修改所述坐标的步骤。

13.根据权利要求11所述的方法，还包括以下步骤：

响应于指示所述经修改节目的所述数据，生成用于驱动扬声器组的扬声器馈给。

14.一种用于对指示音频对象的轨迹的基于对象的音频节目进行呈现的方法，其中所述轨迹位于三维容积的子空间内，并且所述音频节目的每个声道是对象声道，所述方法包括以下步骤：

响应于所述音频节目，生成用于驱动具有已知位置的扬声器的扬声器馈给，以使得所述扬声器馈给将驱动所述扬声器发出声音，所述声音意图被感知为由与所述音频对象相对应但具有经修改轨迹的源发出，其中所述经修改轨迹与所述音频节目所指示的轨迹不同，并且所述经修改轨迹的至少一部分在所述子空间外。

15.根据权利要求14所述的方法，其中，所述扬声器馈给的生成通过生成适于驱动具有所述已知位置的畸变版本的扬声器的所述扬声器馈给来实施对所述音频节目所确定的所述轨迹的隐式修改。

16.根据权利要求14所述的方法，其中，包括在所述基于对象的音频节目中的元数据确定所述轨迹的坐标，并且所述方法包括修改所述坐标的步骤。

17.根据权利要求14所述的方法，还包括以下步骤：

对指示所述基于对象的音频节目的数据进行处理以生成指示经修改节目的数据，其中所述经修改节目是指示具有所述经修改轨迹的对象的音频节目，并且其中响应于所述经修改节目生成所述扬声器馈给。

18.一种用于对指示音频对象的轨迹的基于对象的音频节目进行上混合的方法，其中，所述音频节目的每个声道是对象声道，并且所述轨迹在三维容积的子空间中，所述方法包括以下步骤：

对指示所述基于对象的音频节目的数据进行处理以生成指示经修改节目的数据，其中所述经修改节目是指示所述音频对象的经修改轨迹的音频节目，并且所述经修改轨迹的至少一部分在所述子空间外，从而能够响应于所述经修改节目生成扬声器馈给，所述扬声器馈给包括：用于驱动扬声器组中位置与所述子空间外的位置相对应的至少一个扬声器的至少一个馈给；以及用于驱动所述扬声器组中位置与所述子空间中的位置相对应的扬声器的馈给。

19.根据权利要求18所述的方法，其中，包括在所述基于对象的音频节目中的元数据确定所述轨迹的坐标，并且所述方法包括修改所述坐标的步骤。

20.根据权利要求18所述的方法，其中，所述基于对象的音频节目所指示的源位置序列定义所述轨迹，并且其中所述方法包括以下步骤：

针对所述源位置序列中的每个源位置，确定所述源位置与所述扬声器组中的每个扬声器的位置之间的距离；以及

针对所述源位置序列中的每个源位置，确定所述扬声器组的主要子组，所述主要子组由所述扬声器组中距所述源位置最近的每个扬声器组成。

21.根据权利要求20所述的方法，其中，所述扬声器组中的每个扬声器具有在回放***中的已知位置，并且针对每个源位置的所述主要子组由所述扬声器组中这样的每个扬声器组成：所述扬声器在所述回放***中的位置与所述轨迹被限定于的所述三维容积中的位置相对应，所述三维容积中的位置距所述源位置的距离在预定阈值内。

22.根据权利要求20所述的方法，其中，所述方法包括以下步骤：

针对每个所述主要子组，确定包含所述主要子组的每个扬声器和所述主要子组的所述源位置但不包含所述扬声器组的其他扬声器的三维空间；

响应于指示所述经修改节目的所述数据生成扬声器馈给，包括通过针对所述源位置序列中的每个源位置，生成用于驱动针对所述源位置的所述主要子组的每个扬声器的至少一个扬声器馈给，和用于驱动所述扬声器组的每个其他扬声器的至少一个其他扬声器馈给；

响应于针对所述每个源位置生成的所述扬声器馈给，驱动所述扬声器组发出声音，所述声音意图被感知为由所述源从包含所述源位置的所述三维空间的特征点发出。

23.根据权利要求20所述的方法，其中，所述方法包括以下步骤：

针对所述源位置序列中的每个源位置，对包含所述源位置的所述三维空间应用缩放参数以生成包含所述源位置的经缩放空间；

响应于指示所述经修改节目的所述数据生成扬声器馈给，包括通过针对所述源位置序列中的每个源位置，生成用于驱动针对所述源位置的所述主要子组的每个扬声器的至少一个扬声器馈给，和用于驱动所述扬声器组的每个其他扬声器的至少一个其他扬声器馈给；以及

响应于针对所述每个源位置生成的所述扬声器馈给，驱动所述扬声器组发出声音，所述声音意图被感知为由所述源从包含所述源位置的所述经缩放空间的特征点发出。

24.根据权利要求23所述的方法，其中，对每个所述三维空间应用所述缩放参数包括：对所述三维空间的高度轴应用所述缩放参数。

25.根据权利要求18所述的方法，其中，所述扬声器组中的每个扬声器具有在回放***中的已知位置，所述扬声器组包括位于所述回放***的第一空间中的位置处的第一子组的扬声器，所述位置与包含所述轨迹的所述子空间中的位置相对应，所述扬声器组还包括包含至少一个扬声器的第二子组，所述第二子组中的每个扬声器位于所述回放***中与所述子空间外的位置相对应的位置，并且所述经修改轨迹包括：

所述第一空间中与所述轨迹的起点一致的起点，

所述第一空间中与所述轨迹的终点一致的终点，以及

与所述第二子组中的扬声器的位置相对应的至少一个中间点。

26.根据权利要求18所述的方法，其中，所述扬声器组中的每个扬声器具有在回放***中的已知位置，所述扬声器组包括位于所述回放***的第一空间中的位置处的第一子组的扬声器，所述位置与包含所述轨迹的所述子空间中的位置相对应，所述扬声器组还包括包含至少一个扬声器的第二子组，所述第二子组中的每个扬声器位于所述回放***中与所述子空间外的位置相对应的位置，并且所述方法包括以下步骤：

通过对所述候选轨迹应用至少一个畸变系数使所述候选轨迹畸变，从而确定畸变候选轨迹，其中所述畸变候选轨迹是所述经修改轨迹。

27.根据权利要求26所述的方法，其中，每个所述中间点在所述第一空间上的投影定义所述第一空间中与所述中间点相对应的拐点，其中每个所述中间点与相应拐点之间的正交于所述第一空间的线是所述中间点的畸变轴，并且其中每个所述畸变系数的值指示沿一个所述中间点的所述畸变轴的位置。

28.根据权利要求18所述的方法，还包括以下步骤：响应于用于驱动扬声器组的所述经修改节目生成扬声器馈给，所述扬声器馈给包括用于驱动所述组中位置与所述子空间外的位置相对应的至少一个扬声器的扬声器馈给。

29.一种对用于通过扬声器组进行回放的基于对象的音频节目进行呈现的***，其中，所述音频节目的每个声道是对象声道，所述音频节目指示音频对象的轨迹，并且所述轨迹在三维容积的子空间中，所述***包括：

上混合子***，其被配置成对所述音频节目进行修改以确定指示所述音频对象的经修改轨迹的经修改节目，其中所述经修改轨迹的至少一部分在所述子空间外；以及

扬声器馈给子***，其被耦合并且配置成响应于所述经修改节目生成扬声器馈给，以使得所述扬声器馈给包括：用于驱动所述扬声器组中位置与所述子空间外的位置相对应的至少一个扬声器的至少一个馈给，和用于驱动所述扬声器组中位置与所述子空间中的位置相对应的扬声器的馈给。

30.根据权利要求29所述的***，其中，所述扬声器馈给子***被配置成：响应于所述经修改节目生成用于驱动所述扬声器组的所有扬声器的扬声器馈给。

31.根据权利要求29所述的***，其中，包括在所述音频节目中的元数据确定所述轨迹的坐标，并且所述上混合子***被配置成修改所述坐标。

32.根据权利要求29所述的***，其中，所述音频节目所指示的源位置序列定义所述轨迹，并且所述上混合子***被配置成：

33.根据权利要求32所述的***，其中，所述扬声器组中的每个扬声器具有在回放***中的已知位置，并且针对每个源位置的所述主要子组由所述扬声器组中这样的每个扬声器组成：所述扬声器在所述回放***中的位置与所述轨迹被限定于的所述三维容积中的位置相对应，所述三维容积中的位置距所述源位置的距离在预定阈值内。

34.根据权利要求32所述的***，其中，所述上混合子***被配置成：针对每个所述主要子组，确定包含所述主要子组的每个扬声器和所述主要子组的所述源位置但不包含所述扬声器组的其他扬声器的三维空间，以及

所述扬声器馈给子***被配置成：生成所述扬声器馈给，以使得响应于针对所述每个源位置生成的所述扬声器馈给，所述扬声器组发出声音，所述声音意图被感知为由所述源从包含所述源位置的所述三维空间的特征点发出。

35.根据权利要求32所述的***，其中，所述上混合子***被配置成：针对每个所述主要子组，确定包含所述主要子组的每个扬声器和所述主要子组的所述源位置但不包含所述扬声器组的其他扬声器的三维空间，并且针对所述源位置序列中的每个源位置，对包含所述源位置的所述三维空间应用缩放参数以生成包含所述源位置的经缩放空间，并且

所述扬声器馈给子***被配置成：生成所述扬声器馈给，以使得响应于针对每个源位置生成的所述扬声器馈给，所述扬声器组发出声音，所述声音意图被感知为由所述源从包含所述源位置的所述经缩放空间的特征点发出。

36.根据权利要求35所述的***，其中，所述上混合子***被配置成对每个所述三维空间的高度轴应用所述缩放参数。

37.根据权利要求29所述的***，其中，所述子空间是相对于预期收听者的第一高度角处的水平平面，并且所述扬声器馈给子***被配置成：响应于所述经修改节目生成所述扬声器馈给，以使得所述扬声器馈给包括用于所述组中位于相对于所述预期收听者的第二高度角处的扬声器的扬声器馈给，其中所述第二高度角与所述第一高度角不同。

38.根据权利要求29所述的***，其中，所述扬声器组中的每个扬声器具有在回放***中的已知位置，所述扬声器组包括位于所述回放***的第一空间中的位置处的第一子组的扬声器，所述位置与包含所述轨迹的所述子空间中的位置相对应，所述扬声器组还包括包含至少一个扬声器的第二子组，所述第二子组中的每个扬声器在所述回放***中位于与所述子空间外的位置对应的位置，并且所述经修改轨迹包括：

所述第一空间中与所述轨迹的起点一致的起点，

所述第一空间中与所述轨迹的终点一致的终点，以及

39.根据权利要求29所述的***，其中，所述扬声器组中的每个扬声器具有在回放***中的已知位置，所述扬声器组包括位于所述回放***的第一空间中的位置处的第一子组的扬声器，所述位置与包含所述轨迹的所述子空间中的位置相对应，所述扬声器组还包括包含至少一个扬声器的第二子组，所述第二子组中的每个扬声器在所述回放***中位于与所述子空间外的位置相对应的位置，并且所述上混合子***被配置成：

40.根据权利要求39所述的***，其中，每个所述中间点在所述第一空间上的投影定义所述第一空间中与所述中间点相对应的拐点，其中每个所述中间点与相应拐点之间的正交于所述第一空间的线是所述中间点的畸变轴，并且其中每个所述畸变系数的值指示沿一个所述中间点的所述畸变轴的位置。

41.根据权利要求29所述的***，其中，所述音频节目包括指示所述轨迹的起点和终点的元数据，并且其中所述上混合子***被配置成在不实施前视延迟的情况下使用所述元数据确定所述经修改轨迹。

42.根据权利要求29所述的***，其中，所述音频节目包括指示所述音频对象的至少一个特征的元数据，并且所述上混合子***被配置成以所述元数据所确定的模式工作。

43.根据权利要求42所述的***，其中，所述元数据指示所述音频对象是对话。

44.根据权利要求29所述的***，其中，所述上混合子***是音频数字信号处理器。

45.根据权利要求29所述的***，其中，所述上混合子***是处理器，所述处理器被编程为响应于指示所述音频节目的输入数据生成指示所述经修改节目的输出数据。

46.一种用于对指示音频对象的轨迹的基于对象的音频节目进行上混合的***，其中，所述音频节目的每个声道是对象声道，并且所述轨迹在三维容积的子空间内，所述***包括：

至少一个输入端，其被耦合以接收指示基于对象的音频节目的第一数据；

处理子***，其被耦合并且配置成：响应于所述第一数据生成指示经修改节目的数据，其中所述经修改节目是指示所述音频对象的经修改轨迹的音频节目，并且所述经修改轨迹的至少一部分在所述子空间外，从而能够响应于所述经修改节目生成扬声器馈给，所述扬声器馈给包括：用于驱动扬声器组中位置与所述子空间外的位置相对应的至少一个扬声器的至少一个馈给，和用于驱动所述扬声器组中位置与所述子空间中的位置相对应的扬声器的馈给。

47.根据权利要求46所述的***，其中，由基于对象的音频节目指示的源位置序列定义所述轨迹，并且其中所述处理子***被配置成：

针对所述源位置序列中的每个源位置，确定所述扬声器组的主要子组，所述主要子组由所述扬声器组中最接近所述源位置的每个扬声器组成。

48.根据权利要求47所述的***，其中，所述扬声器组中的每个扬声器具有在回放***中的已知位置，并且针对每个源位置的所述主要子组由所述扬声器组中这样的每个扬声器组成：所述扬声器在所述回放***中的位置与所述轨迹被限定于的所述三维容积中的位置相对应，所述三维容积中的位置距所述源位置的距离在预定阈值内。

49.根据权利要求47所述的***，其中，所述处理子***被配置成：针对每个所述主要子组，确定包含所述主要子组的每个扬声器和所述主要子组的所述源位置但不包含所述扬声器组的其他扬声器的三维空间，并且其中所述***还包括：

呈现子***，其被耦合并且配置成：响应于指示所述经修改节目的所述数据生成扬声器馈给，包括通过针对所述源位置序列中的每个源位置生成用于驱动针对所述源位置的所述主要子组的每个扬声器的至少一个扬声器馈给，和用于驱动所述扬声器组的每个其他扬声器的至少一个其他扬声器馈给，以使得响应于针对所述每个源位置生成的所述扬声器馈给，所述扬声器组将发出声音，所述声音意图被感知为由所述源从包含所述源位置的所述三维空间的特征点发出。

50.根据权利要求47所述的***，其中，所述处理子***被配置成：

针对每个所述主要子组，确定包含所述主要子组的每个扬声器和所述主要子组的所述源位置但不包含所述扬声器组的其他扬声器的三维空间；以及

针对所述源位置序列中的每个源位置，对包含所述源位置的所述三维空间应用缩放参数以生成包含所述源位置的经缩放空间，并且其中所述***还包括：

呈现子***，其被耦合并且配置成：响应于指示所述经修改节目的所述数据生成扬声器馈给，包括通过针对所述源位置序列中的每个源位置，生成用于驱动针对所述源位置的所述主要子组的每个扬声器的至少一个扬声器馈给，和用于驱动所述扬声器组的每个其他扬声器的至少一个其他扬声器馈给，以使得响应于针对所述每个源位置生成的所述扬声器馈给，所述扬声器组将发出声音，所述声音意图被感知为由所述源从包含所述源位置的所述经缩放空间的特征点发出。

51.根据权利要求50所述的***，其中，所述处理子***被配置成对每个所述三维空间的高度轴应用所述缩放参数。

52.根据权利要求46所述的***，其中，所述扬声器组中的每个扬声器具有在回放***中的已知位置，所述扬声器组包括位于所述回放***的第一空间中的位置处的第一子组的扬声器，所述位置与包含所述轨迹的所述子空间中的位置相对应，所述扬声器组还包括包含至少一个扬声器的第二子组，所述第二子组中的每个扬声器位于所述回放***中与所述子空间外的位置相对应的位置，并且所述经修改轨迹包括：

所述第一空间中与所述轨迹的起点一致的起点，

所述第一空间中与所述轨迹的终点一致的终点，以及

53.根据权利要求46所述的***，其中，所述扬声器组中的每个扬声器具有在回放***中的已知位置，所述扬声器组包括位于所述回放***的第一空间中的位置处的第一子组的扬声器，所述位置与包含所述轨迹的所述子空间中的位置相对应，所述扬声器组还包括包含至少一个扬声器的第二子组，所述第二子组中的每个扬声器位于所述回放***中与所述子空间外的位置相对应的位置，并且所述处理子***被配置成：

54.根据权利要求53所述的***，其中，每个所述中间点在所述第一空间上的投影定义所述第一空间中与所述中间点相对应的拐点，其中每个所述中间点与相应拐点之间的正交于所述第一空间的线是所述中间点的畸变轴，并且其中每个所述畸变系数的值指示沿一个所述中间点的所述畸变轴的位置。

55.根据权利要求46所述的***，还包括：

呈现***，其被耦合并且配置成：响应于指示所述经修改节目的所述数据生成用于驱动扬声器组的扬声器馈给，所述扬声器馈给包括用于驱动所述组中位置与所述子空间外的位置相对应的至少一个扬声器的扬声器馈给。

56.根据权利要求46所述的***，其中，所述音频节目包括指示所述轨迹的起点和终点的元数据，并且其中所述处理子***被配置成在不实施前视延迟的情况下使用所述元数据确定所述经修改轨迹。

57.根据权利要求46所述的***，其中，所述音频节目包括指示所述音频对象的至少一个特征的元数据，并且所述处理子***被配置成以所述元数据所确定的模式工作。

58.根据权利要求57所述的***，其中，所述元数据指示所述音频对象是对话。

59.根据权利要求46所述的***，其中，所述***是音频数字信号处理器。

60.根据权利要求46所述的***，其中，所述***是处理器，所述处理器被编程为：响应于所述第一数据生成指示所述经修改节目的所述数据。

61.一种用于对指示音频对象的轨迹的基于对象的音频节目进行修改的***，其中，所述轨迹位于三维容积的子空间中，并且所述音频节目的每个声道是对象声道，所述***包括：

至少一个输入端，其被耦合以接收指示基于对象的音频节目的第一数据；以及

处理子***，其被耦合并且配置成：响应于所述第一数据生成指示经修改节目的数据，其中所述经修改节目是指示所述音频对象的经修改轨迹的音频节目，并且所述经修改轨迹的至少一部分在所述子空间外，从而能够响应于所述经修改节目生成扬声器馈给。

62.根据权利要求61所述的***，其中，所述音频节目包括指示所述轨迹的坐标的元数据，并且所述处理子***被配置成对所述坐标进行修改。

63.根据权利要求62所述的***，还包括：

呈现***，其被耦合并且配置成：响应于指示所述经修改节目的所述数据生成用于驱动扬声器组的扬声器馈给。

64.一种用于对指示音频对象的轨迹的基于对象的音频节目进行呈现的***，其中，所述轨迹位于三维容积的子空间内，并且所述音频节目的每个声道是对象声道，所述***包括：

至少一个输入端，其被耦合以接收指示所述基于对象的音频节目的第一数据；以及

处理子***，其被耦合并且配置成：响应于所述第一数据生成用于驱动具有已知位置的扬声器的扬声器馈给，以使得所述扬声器馈给将驱动所述扬声器发出声音，所述声音意图被感知为由与所述音频对象相对应但具有经修改轨迹的源发出，其中，所述经修改轨迹的至少一部分在所述子空间外，并且所述经修改轨迹与所述音频节目所指示的所述轨迹不同。

65.根据权利要求64所述的***，其中，所述处理子***被配置成通过生成适于驱动具有所述已知位置的畸变版本的扬声器的所述扬声器馈给，来实施由所述音频节目确定的所述轨迹的隐式修改。

66.根据权利要求64所述的***，其中，所述音频节目包括指示所述轨迹的坐标的元数据，并且所述处理子***被配置成对所述坐标进行修改。

67.根据权利要求64所述的***，其中，所述处理子***被配置成对所述第一数据进行处理以生成指示经修改节目的数据，其中所述经修改节目是指示具有所述经修改轨迹的对象的音频节目，并且响应于所述经修改节目生成所述扬声器馈给。