CN105723740B

CN105723740B - 音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码

Info

Publication number: CN105723740B
Application number: CN201480062364.0A
Authority: CN
Inventors: C·Q·鲁宾逊; N·R·茨恩高斯; F·桑切斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-11-14
Filing date: 2014-11-11
Publication date: 2019-09-17
Anticipated expiration: 2034-11-11
Also published as: CN105723740A; JP6688264B2; US9813837B2; JP2020205630A; JP6197115B2; WO2015073454A3; JP2017503375A; WO2015073454A2; JP6987198B2; JP7297036B2; JP2023120268A; JP2019165494A; JP6765476B2; JP2022028896A; EP3069528A2; US20160286333A1; EP3069528B1; JP2017225175A

Abstract

在一些实施例中，用于生成包括指示用于至少一个音频对象的至少一个扭曲程度参数的屏幕相关的元数据的基于对象的音频节目、或者包括通过对基于对象的音频节目的音频内容扭曲到至少部分地由至少一个扭曲程度参数所确定的程度来生成基于扬声器声道的节目的方法，或者用于解码或呈现任何这样的音频节目的方法。其它方面是被配置为执行这样的音频信号生成、解码或者呈现的***和包括存储任何这样的音频节目的至少一个分段的缓冲存储器的音频处理单元(例如解码器或者编码器)。

Description

音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码

相关申请的交叉引用

本申请要求2013年11月14日提交的美国临时专利申请号61/904,233的优先权益，其通过整体引用而并入本文。

技术领域

本发明涉及具有对应的视频内容的音频节目(例如电影或者其它视听节目的声轨)的编码、解码以及呈现。在一些实施例中，该节目是基于对象的音频节目，该基于对象的音频节目包括至少一个音频对象声道、屏幕相关的元数据以及通常还包括扬声器声道。屏幕相关的元数据支持屏幕相对呈现，在屏幕相对呈现中，由节目指示的声源(例如，由对象声道指示的对象)在相对于回放***的显示屏幕的(至少部分地由屏幕相关的元数据确定的)位置处呈现。

背景技术

本发明的实施例涉及音频内容创建和分发管道(pipeline)(例如，用于创建和分发视听节目的音频内容的管道)的一个或多个方面。

这样的管道实现音频节目(通常是指示音频内容和与音频内容对应的元数据的经编码的音频节目)的生成。音频节目的生成可以包括音频制作活动(音频的捕获和记录)以及可选地还包括“后制作”活动(记录音频的操纵)。现场直播必然需要所有创作决定在音频制作期间做出。在电影和其它非实时节目的生成中，许多创作决定可以在后制作期间做出。

音频内容创建和分发管道可选地实现节目的再混合和/或再灌制(remaster)。在一些情况下，节目在内容创建之后可能需要附加处理以使内容重新用于替代的使用情况。例如，针对在电影院中回放而最初创建的节目可以被修改(例如再混合)以更适合于在家庭环境中回放。

音频内容创建和分发管道通常包括编码阶段。音频节目可能需要编码以使得能够进行分发。例如，预期用于在家庭中回放的节目通常将是被压缩以允许更高效的分发的数据。编码处理可以包括以下步骤：降低空间音频场景的复杂度、和/或节目的单个音频流的数据率降低、和/或将音频内容(例如压缩的音频内容)的多个声道和对应的元数据打包为具有期望的格式的比特流。

音频内容创建和分发管道包括解码和呈现级(通常由包括解码器的回放***来实现)。最终节目通过基于回放设备和环境将音频描述呈现为喇叭信号来展现给终端消费者。

本发明的典型实施例允许音频节目(例如电影或者具有音频和图像内容的其它节目的声轨)再生使得听觉图像的位置以与对应的视觉图像的位置一致的方式可靠地展现。

传统上，在电影混合房间(或者其它视听节目创作环境)中，显示屏幕(在本文中称为“参考”屏幕，以将它与视听节目回放屏幕区分开)的位置和大小与混合环境的前壁重合并且参考屏幕的左边缘和右边缘与左和右主屏幕喇叭的位置重合。附加的中心屏幕声道通常位于参考屏幕/墙壁的中间。因此，前壁范围、前面喇叭位置以及屏幕位置一致地共置(co-locate)。通常，参考屏幕大致与房间一样宽，并且左、中心以及右喇叭靠近参考屏幕的左边缘、中心以及右边缘。该布置与期望的电影院回放位置中的屏幕和前面喇叭的典型布置类似。例如，图1是这样的电影院的前壁(W)的示图，其中显示屏幕S、左和右前扬声器(L和R)以及前中(front center)扬声器(C)安装至(或者靠近)前壁。在电影的回放期间，视觉图像B可以显示在屏幕S上，而关联的声音“A”从回放***的扬声器(包括扬声器L、R以及C)发出。例如，图像B可以是声源(例如鸟或者直升机)的图像并且声音“A”可以是预期被感知为从声源发出的声音。我们假设电影已被创作和呈现使得当前面扬声器与屏幕S共面地定位(其中左前和右前扬声器(L和R)在屏幕S的左和右边缘处，并且中前扬声器靠近屏幕S的中心)时，声音A被感知为从声源位置发出，该声源位置与图像B被显示的屏幕S上的位置重合(或者几乎重合)。图1假设屏幕S至少基本上声学穿透的，并且扬声器L、C以及R安装在屏幕S后面(但是至少基本上在屏幕S的平面中)。

然而，在消费者的家庭中(或者通过移动用户的便携式回放设备)进行回放期间，回放***的前面扬声器(或者耳机扬声器)相对于彼此和相对于回放***的显示屏幕的大小和位置不需要匹配节目创作环境(例如电影混合房间)的显示屏幕和前面扬声器的大小和位置。在这样的回放情况下，回放屏幕的宽度通常显著小于分隔左和右主扬声器(左和右前扬声器、或者耳机的扬声器，例如一对头戴式耳机)的距离。还可能的是，屏幕不在中心或者甚至在相对于主扬声器的固定位置处(例如，在佩带头戴式耳机和拿着显示设备的移动用户的情况下)。这可以创建感知的音频和视觉之间的明显不协调。

例如，图2是房间的前壁(W’)的示图，其中，家庭影院***的显示屏幕(S’)、左和右前扬声器(L’和R’)以及前中扬声器(C’)安装至(或者靠近)前壁。在图1的示例中所描述的相同电影的(通过图2的***)回放期间，视觉图像B显示在屏幕S’上，而关联的声音A从回放***的扬声器(包括扬声器L’、R’以及C’)发出。我们已假设该电影已被创作以用于呈现和回放(通过电影院回放***)，其中声音A被感知为从与图像B被显示的电影院屏幕上的位置重合(或者几乎重合)的声源位置发出。然而，当电影由图2的家庭影院***播放时，声音A将被感知为从靠近左前扬声器L’的声源位置发出，该声源位置与图像B被显示的家庭影院屏幕S’上的位置既不重合也不几乎重合。这是因为，家庭影院***的前面扬声器L’、C’以及R’具有相对于屏幕S’的、与节目创作***的前面扬声器具有相对于节目创作***的参考屏幕的不同的大小和位置。

在图1和2的示例中，期望的电影回放***被假设在它的扬声器和屏幕之间具有很好地定义的关系，并且因此对于显示图像和对应的音频源的内容创建者的期望的相对位置可以可靠地再现(在电影院中的回放期间)。对于在其它环境中(例如在家庭音视频房间中)的回放，扬声器和屏幕之间的假设关系通常不保留，并且因此显示图像和对应的音频源的相对位置(其由内容创建者期望)通常不被很好地再现。在回放期间(除了在具有扬声器和屏幕之间的假设关系的电影院中之外)实际实现的显示图像和对应的音频源的相对位置基于回放***的喇叭和显示屏幕的实际相对位置和大小。

在视听节目的回放期间，对于被呈现以在屏幕上位置处被感知的声音，最佳听觉图像位置与收听者位置无关。对于被呈现以在屏幕外位置处(在与屏幕的平面垂直的方向上的非零距离处)被感知的声音，取决于收听者位置，在声源的听觉上感知的位置中存在视差的可能。已提出了试图基于已知的或者假设的收听者位置减小或消除这样的视差的方法。

已知的是利用高端回放***(例如在电影院中)来呈现基于对象的音频节目(例如，指示电影声轨的基于对象的节目)。例如，作为电影声轨的基于对象的音频节目可以指示与屏幕上的图像、对话、噪音以及声音效果(从屏幕上的(或者相对于屏幕的)不同位置发射出)、以及背景音乐和周围环境效果(其可以由节目的扬声器声道指示)对应的许多不同的声音元素(音频对象)，以创建预期的总体听觉体验。这样的节目的准确回放需要声音以关于音频对象大小、位置、强度、移动以及深度尽可能紧密地与由内容创建者所预期的对应的方式再现。

基于对象的音频节目代表相对于传统的基于扬声器声道的音频节目的显著改进，因为基于扬声器声道的音频关于特定音频对象的空间回放比基于对象声道的音频更受限。基于扬声器声道的音频节目的音频声道仅由扬声器声道(不由对象声道)组成，并且每一个扬声器声道通常确定收听环境中的特定的单个扬声器的扬声器馈送。

已提出了用于生成和呈现基于对象的音频节目的各种方法和***。在基于对象的音频节目的生成期间，通常假设任意数量的扬声器将被用于节目的回放，并且要被用于回放(通常，在电影院中)的扬声器将位于回放环境中的任意位置；不必在(标称)水平面中或者在节目生成时已知的任何其它预定的布置中。通常，包括在节目中的对象相关的元数据指示在表观空间位置处或者沿轨迹(trajectory)(在三维体中)(例如使用三维扬声器阵列)呈现该节目的至少一个对象的呈现参数。例如，节目的对象声道可以具有指示对象(由对象声道指示)要被呈现的表观空间位置的三维轨迹的对应的元数据。该轨迹可以包括一系列“地面(floor)”位置(在回放环境的假设位于地面上的扬声器的子集的平面中、或者另一个水平面中)和一系列“地面上”(每个位置通过驱动假设位于回放环境的至少一个其它水平面中的扬声器的子集来确定)。基于对象的音频节目的呈现的示例例如在PCT国际申请号PCT/US2011/028783(2011年9月29日根据国际公布号WO2011/119401A2公布，并且转让给本申请的受让人)中描述。

基于对象的音频节目呈现的出现已显著增加必须由呈现***执行的呈现的复杂度和所处理的音频数据量，部分地因为基于对象的音频节目可以指示许多对象(每个具有对应的元数据)并且可以被呈现以供由包括许多喇叭的***来回放。已提出限制包括在基于对象的音频节目中的对象声道的数量，使得预期的呈现***具有呈现该节目的能力。例如，2012年12月21日提交的、指定Brett Crockett、Alan Seefeldt、Nicolas Tsingos、Rhonda Wilson以及Jeroen Breebaart为发明人、并且转让给本发明的受让人的题为“Scene Simplification and Object Clustering for Rendering Object based AudioContent”的美国临时专利申请号61/745,401描述用于通过聚类(cluster)输入对象声道以生成包括在节目中的聚类对象声道和/或通过将输入对象声道的音频内容与扬声器声道混合以生成包括在节目中的经混合的扬声器声道来这样限制基于对象的音频节目的对象声道的数量的方法和装置。可以考虑的是，本发明的一些实施例可以与这样的聚类(例如在混合或者再混合装置中)相结合来执行以生成基于对象的节目，以用于(与屏幕相关的元数据一起)传送至回放***或者用于在生成用于传送至回放***的基于扬声器声道的节目中使用。

发明内容

贯穿本公开(包括在权利要求中)，音频节目的至少一个声道(例如对象声道或者扬声器声道)的“扭曲(warp)”假设该节目具有对应的视频内容(例如，该节目可以是电影或者其它视听节目的声轨)并且表示每一所述声道的音频内容(音频数据)的处理以生成扭曲的音频内容(或者利用指示扭曲的音频内容的至少一个其它音频声道代替每个所述声道)，使得当扭曲的音频内容被呈现以生成扬声器馈送并且该扬声器馈送被利用以驱动回放扬声器时，从扬声器发出的声音指示具有感知的扭曲位置(其可以是固定的或者可以随时间而变化)的至少一个音频元素(内容创建者预期该至少一个音频元素在相对于参考屏幕(例如电影院屏幕)的至少一个预定位置被感知)。扭曲位置在它是相对于回放***的显示屏幕(而不是相对于由内容创建者假设的参考屏幕)的预定位置的意义上是“扭曲的”。通常，每个扭曲位置通过被提供有音频节目(例如被包括在音频节目中)的元数据(在本文中称为“屏幕相关的”元数据)(至少部分地)相对于回放***的显示屏幕(有时称为“回放屏幕”)确定。每个扭曲位置可以由屏幕相关的元数据和指示回放***配置的其它数据(例如，指示回放***的显示屏幕与扬声器的位置、或者位置和大小、和/或大小和/或位置之间的关系的数据)来确定。扭曲位置可以但不需要与实际的回放屏幕重合。本发明的一些实施例允许处于屏幕上和/或屏幕外(off-screen)(相对于回放屏幕)并且在回放期间改变的扭曲位置之间的平滑转变(transition)。

在本文中，表述节目的至少一个声道的“屏幕外扭曲”表示所述至少一个声道的其中至少一个对应音频元素(由所述至少一个声道的音频内容确定)的扭曲位置相对于回放屏幕处于非零深度(即，在与回放屏幕的平面至少基本上垂直的方向上离回放屏幕具有非零距离)的类型的“扭曲”。

在第一类实施例中，本发明是用于呈现音频节目(例如基于对象的音频节目)的方法，包括以下步骤：(a)确定至少一个扭曲程度参数(例如，通过解析节目以识别由该节目的屏幕相关的元数据所指示的至少一个所述一个扭曲程度参数、或者包括通过将至少一个所述一个扭曲程度参数指定至回放***来配置该回放***以执行呈现)；以及(b)对该节目的至少一个声道的音频内容执行扭曲到至少部分地由与所述声道对应的扭曲程度参数所确定的程度，其中，每个所述扭曲程度参数指示要通过回放***对该节目的对应的音频内容所执行的扭曲的最大程度(每个所述扭曲程度参数例如是指示该最大程度的非二进制值)。在第一类的一些实施例中，步骤(a)包括确定至少一个屏幕外扭曲参数(例如，通过解析节目以识别由该节目的屏幕相关的元数据所指示的至少一个所述一个屏幕外扭曲参数)的步骤，其中，屏幕外扭曲参数指示通过回放***对节目的对应的音频内容的屏幕外扭曲的至少一个特性，并且其中，在步骤(b)中执行的扭曲包括至少部分地由至少一个所述屏幕外扭曲参数所确定的屏幕外扭曲。例如，屏幕外扭曲参数可以控制作为深度(在与回放屏幕的平面至少基本上垂直的方向上离回放屏幕的距离)的函数的音频元素的扭曲位置的最大扭曲或者扭曲(在与回放屏幕的平面至少基本上平行的方向上)的程度或者方式。在一些实施例中，在步骤(a)中所确定的扭曲程度参数指示要在与回放屏幕的平面至少基本上平行的平面中(在与回放屏幕至少基本上垂直的深度处)对节目的对应的音频内容所执行的扭曲的最大程度，并且因此是屏幕外扭曲参数。在其它实施例中，步骤(a)包括确定至少一个扭曲程度参数和还确定不是扭曲程度参数的至少一个屏幕外扭曲参数。在一些实施例中，节目指示至少两个对象，步骤(a)包括独立地确定用于对象中的至少两个中的每一个的至少一个扭曲程度参数的步骤，并且步骤(b)包括对指示对象中的每一个的音频内容独立地执行扭曲到至少部分地由与该对象中的所述每一个对应的所述至少一个扭曲程度参数所确定的程度的步骤。

在第二类的实施例中，本发明是用于生成(或者解码)基于对象的音频节目的方法。该方法包括以下步骤：确定用于至少一个音频对象的至少一个扭曲程度参数，和在节目中包括对象声道(指示对象)和指示用于该对象的每个所述扭曲程度参数的屏幕相关的元数据。每个所述扭曲程度参数指示要通过回放***对对应的对象所执行的扭曲(例如在与回放屏幕的平面平行的平面中)的最大程度(每个所述扭曲程度参数例如是指示该最大程度的非二进制值(例如具有预定范围中的许多值的任何一个的标量值))。例如，扭曲程度参数可以是在从最小值(指示没有扭曲应当被执行)至指示完全扭曲应当被执行(例如，以将由节目定义为处于参考屏幕的右边缘处的音频元素位置扭曲到回放屏幕的右边缘处的扭曲位置)的最大值的范围中的浮点值，其中，该范围包括指示中间程度的扭曲(例如完全扭曲的50％)应当被执行(例如，以将由节目定义为处于参考屏幕的右边缘处的音频元素位置扭曲到回放房间的右边缘与回放屏幕的右边缘之间中间的扭曲位置)的至少一个中间值(大于最小值但小于最大值)。在该上下文中，完全扭曲可以表示回放屏幕的平面中音频元素的感知位置的扭曲使得扭曲位置与回放屏幕重合，而中间扭曲的程度(或者小于完全扭曲)可以表示回放屏幕的平面中音频元素的感知位置的扭曲使得扭曲位置与大于(并且包括)回放屏幕的区域重合。

在第二类的一些实施例中，屏幕相关的元数据指示用于节目的至少两个对象中的每一个的至少一个所述扭曲程度参数，每一个所述扭曲程度参数指示要对每一个对应的对象所执行的扭曲的最大程度。例如，扭曲程度参数可以指示对于由不同对象声道所指示的每个对象的、在回放屏幕的平面中或者平行于回放屏幕的平面的扭曲的不同的最大程度。对于另一示例，扭曲程度参数可以指示对于由不同对象声道指示的每个对象的、在回放屏幕的平面中或者平行于回放屏幕的平面的垂直方向上的扭曲的不同的最大程度和在回放屏幕的平面中或者平行于回放屏幕的平面的水平方向上的扭曲的不同的最大程度。

在第二类的一些实施例中，屏幕相关的元数据还指示表示要通过回放***对节目的对应的音频内容所执行的屏幕外扭曲的至少一个特性(例如，指示要作为与回放屏幕的平面至少基本上垂直的平面的每一个的距离的函数而执行与回放屏幕的平面至少基本上平行的平面中的扭曲的方式和/或程度)的至少一个屏幕外扭曲参数。在一些这样的实施例中，屏幕相关的元数据指示用于由节目所指示的至少两个对象中的每一个的一个所述屏幕外扭曲参数，每个所述屏幕外扭曲参数指示要对每个对应的对象执行的屏幕外扭曲的至少一个特性。例如，节目可以包括用于由不同的对象声道指示的每个对象的屏幕外扭曲参数，该屏幕外扭曲参数指示要对每个对应的对象执行的屏幕外扭曲的类型(例如，元数据可以指定用于与对象声道中的每一个对应的对象的屏幕外扭曲的不同类型)。在一些实施例中，至少一个屏幕外扭曲参数指示要在与回放屏幕的平面至少基本上平行的平面中(在与回放屏幕至少基本上垂直的深度处)对节目的对应的音频内容执行的扭曲的最大程度，并因此该屏幕外扭曲参数是扭曲程度参数。

在第三类实施例中，本发明是包括以下步骤的方法：

(a)生成基于对象的音频节目；和

(b)响应于基于对象的音频节目，生成基于扬声器声道的节目，该基于扬声器声道的节目包括预期用于通过位于相对于回放屏幕的预定位置处的喇叭回放的至少一组扬声器声道，其中，所述一组扬声器声道的生成包括将基于对象的音频节目的音频内容扭曲到至少部分地由至少一个扭曲程度参数所确定的程度的步骤，并且每一个所述扭曲程度参数指示要通过回放***对基于对象的音频节目的对应的音频内容所执行的扭曲(例如在与回放屏幕的平面平行的平面中)的最大程度(每一个所述扭曲程度参数例如是指示该最大程度的非二进制值(例如具有预定范围中的许多值的任何一个的标量值))。

在第三类的一些实施例中，步骤(b)包括生成基于扬声器声道的音频节目以包括可选择的两组或更多组扬声器声道的步骤，多组中的至少一组指示基于对象的音频节目的未扭曲音频内容，多组中的至少另一组的生成包括对基于对象的音频节目的音频内容进行扭曲(使用扭曲程度参数)的步骤，并且多组中的所述另一组预期用于通过位于相对于回放屏幕的预定位置处的喇叭回放。在第三类的一些实施例中，步骤(b)包括确定至少一个屏幕外扭曲参数(例如，通过解析基于对象的节目以识别由基于对象的音频节目的屏幕相关的元数据指示的至少一个所述屏幕外扭曲参数)的步骤，其中，屏幕外扭曲参数指示通过回放***对基于对象的音频节目的对应的音频内容的屏幕外扭曲的至少一个特性，并且其中，在步骤(b)中执行的扭曲包括至少部分地由至少一个所述屏幕外扭曲参数所确定的屏幕外扭曲。

在第三类的一些实施例中，基于对象的音频节目包括指示至少一个所述扭曲程度参数(或者至少一个所述扭曲程度参数和至少一个屏幕外扭曲参数)的屏幕相关的元数据，并且步骤(b)包括解析基于对象的音频节目以识别至少一个所述扭曲程度参数(或者至少一个所述扭曲程度参数和屏幕外扭曲参数)的步骤。

基于扬声器声道的节目的生成(通过第三类的实施例)支持通过不被配置为执行基于对象的音频节目的解码和呈现(但是能够解码和呈现基于扬声器声道的节目)的回放***的屏幕相对呈现。通常，基于扬声器声道的节目通过具有对特定回放***扬声器和屏幕配置的知晓(或者假设特定回放***扬声器和屏幕配置)的再混合***来生成。通常，基于对象的节目(基于扬声器声道的节目响应于该基于对象的节目而生成)包括支持通过适当地配置的回放***(其能够解码和呈现基于对象的节目)的基于对象的节目的屏幕相对呈现的屏幕相关的元数据。

在第四类的实施例中，本发明是呈现基于扬声器声道的节目的方法，所述基于扬声器声道的节目包括指示扭曲内容的至少一组扬声器声道，其中，所述基于扬声器声道的节目已通过包括通过将基于对象的音频节目的音频内容扭曲到至少部分地由至少一个扭曲程度参数所确定的程度来处理所述基于对象的音频节目以生成指示扭曲内容的所述一组扬声器声道而生成，其中，每一个所述扭曲程度参数指示要通过回放***对基于对象的音频节目的对应的音频内容所执行的扭曲(例如在与回放屏幕的平面平行的平面中)的最大程度(每一个所述扭曲程度参数例如是指示该最大程度的非二进制值(例如具有预定范围中的许多值的任何一个的标量值))，所述呈现的方法包括以下步骤：

(a)解析基于扬声器声道的节目以识别包括指示扭曲内容的每一个所述一组扬声器声道的基于扬声器声道的节目的扬声器声道；和

(b)响应于包括指示扭曲内容的至少所述一组扬声器声道的基于扬声器声道的节目的扬声器声道中的至少一些而生成扬声器馈送，以用于驱动位于相对于回放屏幕的预定位置处的喇叭。

在第四类的一些实施例中，基于扬声器声道的节目已通过包括通过执行基于对象的音频节目的音频内容的屏幕外扭曲到至少部分地由所述至少一个扭曲程度参数所确定的程度和使用至少一个屏幕外扭曲参数来处理所述基于对象的音频节目而生成，所述至少一个屏幕外扭曲参数指示对基于对象的节目的对应的音频内容的屏幕外扭曲的至少一个特性。

在第四类的一些实施例中，基于扬声器声道的音频节目包括可选择的两组或更多组扬声器声道，多组中的至少一组指示基于对象的音频节目的未扭曲音频内容，而多组中的另一组是指示扭曲内容的所述一组扬声器声道，并且步骤(b)包括选择多组中的作为指示扭曲内容的所述一组扬声器声道的一组的步骤。

在一些实施例中，本发明的方法包括生成(例如在编码器中)、解码(例如在解码器中)、和/或呈现包括屏幕相关的元数据的基于对象的音频节目的步骤。基于对象的节目具有对应的视频内容(例如它可以是电影或者其它视听节目的声轨)，并且包括至少一个音频对象声道、屏幕相关的元数据，以及通常还包括扬声器声道。屏幕相关的元数据包括与对象声道中的至少一个中的每一个对应的元数据(并且可选地还包括与扬声器声道中的至少一个中的每一个对应的元数据)。在基于对象的节目的呈现和回放期间，屏幕相关的元数据(通常具有指示回放***的扬声器和屏幕之间的关系的数据)的处理允许屏幕上音频元素(例如内容创建者预期在电影院中的回放期间在电影屏幕上的预定位置处被感知的音频元素)的感知位置的动态扭曲，使得扭曲位置具有相对于回放***的显示屏幕的实际大小和位置的预定大小和位置。扭曲位置不需要与回放***的实际显示屏幕重合，并且本发明的典型实施例允许其位置在节目的回放期间变化的音频元素的屏幕上和屏幕外感知位置之间的平滑转变。

在一些实施例中，基于对象的音频节目被生成、解码、和/或呈现。该节目包括至少一个音频对象声道并且可选地还包括至少一个扬声器声道(例如一组或者“一群(bed)”扬声器声道)，每个对象声道指示音频对象或者音频对象集(例如混合或者聚类)，并且至少一个对象声道具有(例如包括)对应的屏幕相关的元数据。所述一群扬声器声道可以是可包括在常规的基于扬声器声道的广播节目(其不包括对象声道)中的类型的扬声器声道的常规混合(例如5.1声道混合)。该方法可以包括编码指示每个所述对象声道(并且可选地还有所述一组扬声器声道)的音频数据以生成基于对象的音频节目的步骤。响应于通过该类的典型实施例所生成的基于对象的音频节目，呈现步骤可以生成指示每个对象声道和每个扬声器声道的音频内容的混合的扬声器馈送。

本发明的方面包括被配置(例如编程)为实现本发明的方法的任何实施例的***或者设备、以及存储代码(例如以非暂时性方式)以实现本发明的方法或者其步骤的任何实施例的计算机可读介质(例如磁盘)。例如，本发明的***可以是或者包括编程有软件或者固件和/或以其它方式被配置为对数据执行各种操作的任一种(包括本发明的方法或者其步骤的实施例)的可编程通用处理器、数字信号处理器或者微处理器。这样的通用处理器可以是或者包括计算机***，该计算机***包括被编程(和/或以其它方式被配置)为响应于声明(assert)到其的数据而执行本发明的方法(或者其步骤)的实施例的处理电路、存储器以及输入设备。

在一类实施例中，本发明是被配置为生成指示至少一个音频对象声道(通常是一组对象声道)和至少一个扬声器声道(通常是一组扬声器声道)的基于对象的音频节目。每个音频对象声道指示对象或者对象集(例如混合或者聚类)，并且通常包括对应的对象相关的元数据。所述一组扬声器声道可以是可包括在常规的基于扬声器声道的广播节目(其不包括对象声道)中的类型的扬声器声道的常规混合(例如5.1声道混合)。响应于通过***的典型实施例所生成的基于对象的音频节目，空间呈现子***可以生成指示每个对象声道和扬声器声道的音频内容的混合的扬声器馈送。

在一类实施例中，本发明是包括缓冲存储器(缓冲器)的音频处理单元(APU)，该缓冲存储器存储(例如以非暂时性方式)已通过本发明的方法的任何实施例所生成的音频节目的至少一个帧或者其它分段(segment)(包括音频内容)。其中，该节目是基于对象的音频节目，所存储的分段通常包括一群扬声器声道和对象声道的音频内容、和对应的屏幕相关的元数据。在另一类实施例中，本发明是包括缓冲存储器(缓冲器)的APU，该缓冲存储器存储(例如以非暂时性方式)基于扬声器声道的音频节目的至少一个帧或者其它分段，其中，该分段包括作为根据本发明的实施例对基于对象的音频节目的音频内容执行扭曲的结果而生成的至少一组扬声器声道的音频内容。该分段可以包括基于扬声器声道的节目的至少可选择的两组扬声器声道的音频内容，其中多组中的至少一组作为根据本发明的实施例的扭曲的结果而生成。

本发明的***的典型实施例被配置为实现经编码的、基于对象的音频比特流的实时创建，以用于传输(或者以另一方式传送)至外部呈现***(例如设备)。

附图说明

图1是电影院的前壁(W)的示图，其中显示屏幕(S)、左和右前扬声器(L和R)以及前中扬声器(C)安装至(或者靠近)前壁。

图2是房间的前壁(W’)的示图，其中家庭影院***的显示屏幕(S’)、左和右前扬声器(L’和R’)以及前中扬声器(C’)安装至(或者靠近)前壁。

图3是被配置为执行本发明的方法的实施例的***的实施例的框图。

图4是回放环境的示图，该回放环境包括回放***的显示屏幕(回放屏幕S’)和扬声器(L’、C’、R’、Ls以及Rs)。

图4A是图4的回放环境的示图，其示出了参数“EXP”具有与参考图4所描述的实施例不同的值的实施例。

图4B是图4的回放环境的示图，其示出了参数“EXP”具有与参考图4和4A所描述的实施例不同的值的实施例。

图5是被配置为执行本发明的方法的另一实施例的***的元件的框图。

注释和名称

贯穿本公开(包括在权利要求中)，表述“对(on)”信号或者数据执行操作(例如，对信号或者数据进行滤波、缩放、变换、或者应用增益)在广义上被用于表示对信号或者数据直接执行操作，或者对信号或者数据的经处理的版本(例如，对对其执行操作之前已经历初步滤波或者预处理的信号的版本)执行操作。

贯穿本公开(包括在权利要求中)，表述“***”在广义上被用于表示设备、***或者子***。例如，实现解码器的子***可以称为解码器***，并且包括这样的子***的***(例如，响应于多个输入而生成X个输出信号的***，其中子***生成输入中的M个，而其它X-M个输入从外部源接收)也可以称为解码器***。

贯穿本公开(包括在权利要求中)，术语“处理器”在广义上被用于表示可编程或者以其它方式可配置(例如利用软件或者固件)为对数据(例如，音频、或者视频或者其它图像数据)执行操作的***或者设备。处理器的示例包括现场可编程门阵列(或者其它可配置的集成电路或者芯片组)、被编程和/或以其它方式被配置为对音频或者其它声音数据执行管道化处理的数字信号处理器、可编程的通用处理器或者计算机、以及可编程的微处理器芯片或者芯片组。

贯穿本公开(包括在权利要求中)，表述“音频处理器”和“音频处理单元”可交换地使用，并且在广义上被用于表示被配置为处理音频数据的***。音频处理单元的示例包括但不限于编码器(例如转码器)、解码器、编解码器、预处理***、后处理***、以及比特流处理***(有时称为比特流处理工具)。

贯穿本公开(包括在权利要求中)，表述“元数据”(例如如在表述“屏幕相关的元数据”中那样)是指与对应的音频数据(还包括元数据的比特流的音频内容)分离和不同的数据。元数据与音频数据关联，并且指示音频数据的至少一个特征或者特性(例如，对音频数据或者由音频数据所指示的对象的轨迹已经执行或者应当执行什么类型的处理)。元数据与音频数据的关联性是时间同步的。因此，当前的(最近接收的或者更新的)元数据可以指示对应的音频数据同时具有所指示的特征和/或包括所指示的类型的音频数据处理的结果。

贯穿本公开(包括在权利要求中)，术语“耦合”或者“被耦合”被用于意指直接或者间接的连接。因此，如果第一设备耦合到第二设备，则该连接可以是通过直接连接或者经由其它设备和连接的间接连接。

贯穿本公开(包括在权利要求中)，以下表述具有以下定义：

扬声器和喇叭被同义地用于表示任何发声换能器。该定义包括实现为多个换能器的喇叭(例如低音喇叭和高音喇叭)；

扬声器馈送：要直接应用至喇叭的音频信号、或者要串行应用到放大器和喇叭的音频信号；

声道(或者“音频声道”)：单音音频信号。这样的信号通常可以如相当于信号直接应用至期望的或者标称的位置处的喇叭的这样的方式来呈现。期望的位置可以是静态的(如通常是具有物理喇叭的情况那样)，或者动态的；

音频节目：一组一个或多个音频声道(至少一个扬声器声道和/或至少一个对象声道)和可选地还具有关联的元数据(例如描述期望的空间音频展现的元数据)；

扬声器声道(或者“扬声器馈送声道”)：与指定喇叭(在期望的或者标称的位置处)关联或者与定义的扬声器配置内的指定扬声器区域关联的音频声道。扬声器声道以如相当于音频信号直接应用至指定喇叭(在期望的或者标称的位置处)或者指定扬声器区域中的扬声器的这样的方式来呈现；

对象声道：指示由音频源(有时称为音频“对象”)发出的声音的音频声道。通常，对象声道确定参数化音频源描述(例如指示参数化音频源描述的元数据被包括在对象声道中或者被提供有对象声道)。源描述可以确定由源发出的声音(作为时间的函数)、作为时间的函数的源的表观位置(例如3D空间坐标)，以及可选地表征源的至少一个附加参数(例如表观源大小或者宽度)；

基于对象的音频节目：音频节目包括一组一个或多个对象声道(并且可选地还包括至少一个扬声器声道)以及可选地还包括关联的元数据(例如，指示发出由对象声道所指示的声音的音频对象的轨迹的元数据，或者以其它方式指示由对象声道所指示的声音的期望的空间音频展现的元数据，或者指示作为由对象声道所指示的声音的源的至少一个音频对象的识别的元数据)；以及

呈现：将音频节目转换为一个或多个扬声器馈送的处理，或者将音频节目转换为一个或多个扬声器馈送以及使用一个或多个喇叭将扬声器馈送转换为声音的处理(在后一种情况中，呈现在本文中有时称为“通过”喇叭呈现)。音频声道可以通过将信号直接应用至期望位置处的物理喇叭来(“在”期望的位置处)简单地呈现，或者一个或多个音频声道可以使用被设计为基本上等同于(对于听众而言)这样的简单呈现的各种虚拟化技术中的一种来呈现。在该后一种情况中，每个音频声道可以被转换成要应用至已知的位置(该已知的位置通常不同于期望的位置)中的喇叭的一个或多个扬声器馈送，使得响应于馈送而通过喇叭发出的声音将被感知为从期望的位置发出。这样的虚拟化技术的示例包括经由头戴式耳机(例如使用对于头戴式耳机佩带者模拟直至7.1声道的环绕声的Dolby头戴式耳机处理)的双耳呈现和波场合成。

具体实施方式

将参考图3、4以及5描述本发明的***(和通过该***执行的方法)的实施例的示例。

图3是音频处理管道(音频数据处理***)的示例的框图，其中，该***的元件中的一个或多个根据本发明的实施例来配置。该***包括如所示耦合在一起的以下元件：捕获单元1、制作单元3(包括编码子***)、传送子***5、解码器7、对象处理子***9、控制器10以及呈现子***11。在所示出的***上的变型中，省略该元件中的一个或多个，或者包括附加的音频数据处理单元。通常，元件7、9、10以及11被包括在回放***(例如终端用户的家庭影院***)中。

捕获单元1通常被配置为生成包括音频内容的PCM(时域)采样，并且被配置为输出PCM采样。该采样可以指示由麦克风所捕获的多个音频流。制作单元3被配置为接受PCM采样作为输入并且被配置为生成指示音频内容的基于对象的音频节目。该节目通常是或者包括经编码(例如压缩)的音频比特流。指示音频内容的经编码的比特流的数据在本文中有时称为“音频数据”。如果制作单元3的编码子***根据本发明的典型实施例而配置，则由单元3所生成的基于对象的音频节目指示(例如包括)音频数据的多个扬声器声道(一“群”扬声器声道)、音频数据的多个对象声道以及元数据(包括与对象声道中的每一个对应的屏幕相关的元数据，并且可选地还包括与扬声器声道中的每一个对应的屏幕相关的元数据)。

在典型的实现中，单元3被配置为输出在其中所生成的基于对象的音频节目。

在另一实现中，单元3包括被耦合和配置为响应于基于对象的音频节目生成基于扬声器声道的音频节目(包括扬声器声道而不包括对象声道)的再混合子***，并且单元3被配置为输出基于扬声器声道的音频节目。图5的***的再混合子***6是被耦合和配置为响应于根据本发明的实施例通过(图5的)编码器4所生成的基于对象的音频节目(“OP”)生成根据本发明的实施例的基于扬声器声道的音频节目(节目“SP，包括扬声器声道而不包括对象声道)。

图3的传送子***5被配置为存储和/或发送(例如广播)通过单元3所生成的并且从单元3输出的节目(例如，基于对象的音频节目、或者响应于基于对象的音频节目所生成的基于扬声器声道的音频节目)。为了简单，我们将描述(并且参考)图3的***，其中假设通过单元3所生成的并且从单元3输出的节目是基于对象的音频节目(除非从描述或者参考的上下文很清楚通过单元3所生成的并且从单元3输出的节目是基于扬声器声道的音频节目。

在图3的***的典型实施例中，子***5实现基于对象的音频节目至解码器7的传送。例如，子***5可以被配置为存储节目(例如在磁盘上)并且将所存储的节目提供至解码器7。可替代地，子***5可以被配置为将该节目(例如，通过广播***、或者因特网协议或其它网络)发送至解码器7。

解码器7被耦合和配置为接受(接收或读取)通过传送子***5所传送的节目，并且被配置为解码该节目。如果该节目是基于对象的节目，并且解码器7根据本发明的典型实施例来配置，则在典型操作中的解码器7的输出包括以下：

指示节目的一群扬声器声道的音频采样的流(并且可选地还包括对应的屏幕相关的元数据的流)；以及

指示节目的对象声道的音频采样的流和对应的屏幕相关的元数据的流。

对象处理子***9被耦合为(从解码器7)接收所传送的节目的经解码的扬声器声道、对象声道以及屏幕相关的元数据。子***9被耦合和配置为使用屏幕相关的元数据对对象声道(或者对对象声道的选择子集、或者对对象声道的一些或者全部的至少一个混合(例如聚类)执行扭曲，并且被配置为将所产生的对象声道和/或混合输出至呈现子***11。子***9通常也将与它输出到子***11的对象声道和/或混合对应的对象相关的元数据(其已通过解码器7从由子***5传送的节目进行解析，并且声明从解码器7至子***9)。子***9通常还被配置为将来自解码器7的经解码的扬声器声道不变地传递(至子***11)。

在传送至解码器7的节目是基于扬声器声道的音频节目(根据本发明的实施例从基于对象的节目生成)的情况下，子***9可以被实现为简单的扬声器声道选择***(例如被简单的扬声器声道选择***代替)，该简单的扬声器声道选择***被配置为通过选择节目的扬声器声道中的一些(以下面更详细地描述的方式)并且将选择的声道声明至呈现子***11实现根据本发明的扭曲。

通过子***9执行的扭曲可以至少部分地通过声明从控制器10至子***9的数据来控制(例如在该***的设立期间响应于控制器10的用户操作)。这样的数据可以指示回放***扬声器和显示屏幕的特性(例如可以指示回放***屏幕和回放***扬声器的相对大小和位置)，和/或它可以包括最少一个扭曲程度参数和/或至少一个屏幕外扭曲参数。通过子***9执行的扭曲通常至少部分地通过由(传送至解码器7的)节目的屏幕相关的元数据所指示的至少一个扭曲程度参数和/或至少一个屏幕外扭曲参数、和/或声明从控制器10至子***9的至少一个扭曲程度参数和/或至少一个屏幕外扭曲参数来确定。

图3的呈现子***11被配置为呈现通过子***9的输出所确定的音频内容，以用于通过回放***的扬声器(未示出)的回放。子***11被配置为使用从子***9输出的呈现参数(例如通过从子***9输出的对象相关的元数据所指示的空间位置和水平(level)的值)、将通过从子***9输出的对象声道(或者混合)所确定的音频对象映射至可用的扬声器声道。呈现***11还接收已被子***9传递的任一群扬声器声道。通常，子***11是智能混合器，并且被配置为包括通过将一个或多个对象(或者混合)映射至许多单个扬声器声道中的每一个和将对象(或者混合)与通过节目的扬声器声道群的每个对应的扬声器声道所指示的音频内容“群”混合来确定对于可用扬声器的扬声器馈送。

通常，子***11的输出是声明至回放***喇叭(例如在图4中所示出的扬声器)以驱动扬声器的一组扬声器馈送。

本发明的一方面是被配置为执行本发明的方法的任何实施例的音频处理单元(APU)。APU的示例包括但不限于编码器(例如转码器)、解码器、编解码器、预处理***(预处理器)、后处理***(后处理器)、音频比特流处理***、以及这样的元件的组合。APU的示例是图3的制作单元3、解码器7、对象处理子***9、以及呈现子***11。在本文中考虑和描述被配置为执行本发明的方法的实施例的所有这些示例性APU的实现。

在一类实施例中，本发明是包括缓冲存储器(缓冲器)的APU，该缓冲存储器存储(例如以非暂时性方式)已通过本发明的方法的任何实施例所生成的音频节目的至少一个帧或者其它分段(包括音频内容)。其中，该节目是基于对象的音频节目，所存储的分段通常包括一群扬声器声道和对象声道的音频内容、和对应的屏幕相关的元数据。这样的APU的示例是图3的制作单元3的实现，制作单元3包括编码子***3B(被配置为根据本发明的实施例生成基于对象的音频节目)和耦合到子***3B的缓冲器3A，其中，缓冲器3A存储(例如以非暂时性方式)基于对象的音频节目的至少一个帧或者其它分段(包括一群扬声器声道和对象声道的音频内容、和对应的屏幕相关的元数据)。这样的APU的示例是图3的解码器7的实现，解码器7包括缓冲器7A和解码子***7B(耦合到缓冲器7A)，缓冲器7A存储(例如以非暂时性方式)从子***5传送到解码器7的基于对象的音频节目的至少一个帧或者其它分段(包括一群扬声器声道和对象声道的音频内容、和对应的屏幕相关的元数据)，解码子***7B被配置为对该节目解析和执行任何必要的解码。

在另一类实施例中，本发明是包括缓冲存储器(缓冲器)的APU，缓冲存储器存储(例如以非暂时性方式)基于扬声器声道的音频节目的至少一个帧或者其它分段，其中，该分段包括作为根据本发明的实施例对基于对象的音频节目的音频内容执行扭曲的结果而生成的至少一组扬声器声道的音频内容。该分段可以包括基于扬声器声道的节目的至少可选择的两组扬声器声道的音频内容，其中多组中的至少一组作为根据本发明的实施例的扭曲的结果而生成。这样的APU的示例是图3的制作单元3的实现，制作单元3包括编码子***3B(被配置为根据本发明的实施例生成基于扬声器声道的音频节目，包括通过对也由单元3所生成的基于对象的音频节目的音频内容执行扭曲)和耦合到子***3B的缓冲器3A，其中，缓冲器3A存储(例如以非暂时性方式)基于扬声器声道的音频节目的至少一个帧或者其它分段(包括至少可选择的两组扬声器声道的音频内容，其中，多组中的至少一组作为根据本发明的实施例对基于对象的音频节目的音频内容执行扭曲的结果而生成)。这样的APU的另一示例是图3的解码器7的实现，解码器7包括缓冲器7A和解码子***7B(耦合到缓冲器7A)，其中，缓冲器7A存储(例如以非暂时性方式)已从单元3经由子***5传送到解码器7的由单元3的示例性实施例所生成的基于扬声器声道的音频节目的至少一个帧或者其它分段，解码子***7B被配置为对该节目解析和执行任何必要的解码。这样的APU的另一示例是图5的再混合子***6的实现，再混合子***6包括音频处理子***6B(被配置为根据本发明的实施例生成基于扬声器声道的音频节目，包括通过对基于对象的音频节目(其通常包括通过图5的编码器4所生成的屏幕相关的元数据)的音频内容执行扭曲)和耦合到子***6B的缓冲器6A，其中，缓冲器6A存储(例如以非暂时性方式)通过子***6B所生成的基于扬声器声道的音频节目的至少一个帧或者其它分段(包括至少可选择的两组扬声器声道的音频内容，其中，多组中的至少一组作为根据本发明的实施例的扭曲的结果而生成)。

本发明的典型实施例假设回放环境是具有沿“x”轴的宽度、沿“y”轴(与“x”轴垂直)的深度以及沿“z”轴(与“x”轴和“y”轴中的每一个垂直)的高度的单位立方体。由音频节目(即由对象声道指示的音频对象或者由扬声器声道指示的声源)指示的音频元素(声源)被呈现的位置使用笛卡儿坐标(x,y,z)(其中x和y坐标中的每一个具有区间[0,1]的范围)在该单位立方体中被标识。例如，图4是包括回放***的显示屏幕(回放屏幕S’)和扬声器(L’、C’、R’、Ls以及Rs)的回放环境(房间)的示图。图4的回放屏幕S’具有沿“x”轴的宽度“W1”，并且其中心沿房间的前壁的中心垂直轴(其中y＝0的平面)定位。房间的后壁(其具有宽度“W2”)是其中y＝1的平面。前扬声器L’、C’以及R’靠近房间的前壁定位，左环绕扬声器Ls靠近房间的左壁(其中x＝0的平面)定位，并且右环绕扬声器Rs靠近房间的右壁(其中x＝1的平面)定位。

通常，回放环境的z坐标被假设具有固定值(与回放***的使用者的耳朵水平标称对应)。可替代地，为了呈现在被感知为低于或者高于耳朵水平的位置处的对象(或者其它声源)，呈现位置的z坐标可以被允许改变(例如在区间[-1,1]上，如果房间被假设具有等于1的宽度、等于1的深度以及等于2的高度的话)。

在一些实施例中，使用以下参数(其可以在创作和/或编码期间被确定并且由所传送的节目的屏幕相关的元数据指示)中的全部或者一些来完成屏幕参数化和/或扭曲：

·相对于参考屏幕的音频元素(例如对象)位置；

·屏幕上扭曲的程度(例如，指示要在回放屏幕的平面中或者平行于回放屏幕的平面执行的扭曲的最大程度)。可以考虑的是，创作可以通常将扭曲指定为二进制决定(binary decision)，并且编码处理可以将该二进制决定修改为从无扭曲到完全(最大)扭曲变化的连续(或者接近连续)的变量；

·期望的屏幕外扭曲(例如，指示要作为与回放屏幕的平面至少基本上垂直的距离的函数而执行与回放屏幕的平面至少基本上平行的平面中的扭曲的方式或者程度的一个或多个参数)。创作可以定义指示当音频元素的感知扭曲位置在与回放屏幕平面垂直的方向上移动离开回放屏幕时扭曲要被执行的方式或者程度的参数。在一些情况下，这样的参数将不会与节目一起传送(并且相反可以由回放***确定)；

·相对于参考房间(或者相对于在创作期间所使用的参考L/R扬声器)的参考屏幕宽度。通常，该参数对于电影院(即对于被创作以用于在电影院中回放的视听节目)等于1.0；以及

·相对于参考房间(或者相对于在创作期间所使用的参考L/R扬声器)的参考屏幕中心位置。通常，该参数对于电影院等于(0.5,0,0.5)。

在一些实施例中，使用以下参数(其通常由回放***确定，例如，在家庭影院设立期间)中的全部或者一些来完成屏幕参数化和/或扭曲：

·相对于回放房间(或者相对于回放***L/R扬声器)的回放屏幕宽度。例如，该参数可以具有1.0的默认值(例如，如果终端用户没有指定回放屏幕大小，则回放***假设回放屏幕匹配回放房间宽度，这将有效地禁用扭曲)；

·期望的屏幕外扭曲(例如，指示要作为与回放屏幕的平面至少基本上垂直的距离的函数而执行与回放屏幕的平面至少基本上平行的平面中的扭曲的方式或者程度的一个或多个参数)。在一些实施例中，回放***(例如图3的实施例的控制器10)被配置为允许指示要作为音频元素的感知扭曲位置离回放屏幕平面的距离(在与回放屏幕平面至少基本上垂直的方向上)的函数而执行扭曲的方式或者程度的自定义设置。期望的是典型实施例，节目的屏幕相关的元数据将指示(即将包括至少一个屏幕外扭曲参数，该屏幕外扭曲参数指示)固定函数、或者默认函数(其可以由用户指定的替代函数代替，例如在回放***设立期间)，从而至少部分地确定要作为音频元素的感知扭曲位置离回放屏幕的平面的距离的函数而执行扭曲的方式；

·回放屏幕纵横比(例如具有1.0的默认值)；以及

·回放屏幕中心位置(例如具有(0.5,0,0.5)的默认值)。

在一些实施例中，(代替以上提到的参数中的一些或者全部、或者除了以上提到的参数中的一些或者全部之外)使用其它参数来完成扭曲，所述其它参数可以由所传送的节目的屏幕相关的元数据指示。例如，对于节目的每个声道(对象声道或者扬声器声道)(或者节目的声道中的一些的每一个)，可以提供以下参数中的一个或多个：

1.扭曲启用。该参数指示是否应当执行处理以扭曲由声道所确定的至少一个音频元素的感知位置。该参数通常将是指示扭曲应当或者不应当被执行的二进制值)。示例是以下提到的“apply_screen_warping”值；

2.扭曲的程度(例如，一个或多个浮点值(每个浮点值具有范围[0,1]或者另一预定范围中的许多不同值中的任何一个)、或者一个或多个其它非二进制参数)。这样的扭曲程度参数通常将修改控制从参考屏幕的平面中(或者平行于参考屏幕的平面)的位置到回放屏幕的平面中(或者平行于回放屏幕的平面)的位置的扭曲的函数，以确定要在回放屏幕的平面中(或者平行于回放屏幕的平面)被执行的扭曲的最大程度。扭曲程度参数(或者参数集)对于沿(或者平行于)回放屏幕沿其具有宽度的轴(例如“x”轴)和沿(或者平行于)回放屏幕沿其具有高度的轴(例如“z”轴)的扭曲可以不同；

3.深度扭曲(例如一个或多个参数，每个参数具有预定范围[1,N]中的任何浮点值，例如N＝2)。这样的参数(在本文中有时称为“屏幕外扭曲参数)通常将修改控制屏幕外音频元素的扭曲的函数，以控制作为离回放屏幕的平面的距离(深度)的函数的音频元素呈现位置的最大扭曲或者扭曲的程度。例如，这样的参数可以控制一系列音频元素的呈现位置的扭曲(至少基本上与回放屏幕的平面平行)的程度，该音频元素预期被感知为从回放屏幕(在回放房间的前面)“飞”到回放房间的后面或者反过来。

例如，在一类实施例中，使用包括在音频节目(例如基于对象的音频节目)中的屏幕相关的元数据来完成扭曲，其中，屏幕相关的元数据指示至少一个非二进制值(例如，连续可变或者具有预定范围中的许多值的任何一个的标量值)，该非二进制值指示要由回放***执行的扭曲的最大程度(例如，要在回放屏幕的平面中或者平行于回放屏幕的平面被执行的扭曲的最大程度)。例如，非二进制值可以是在从最大值(指示应当执行完全扭曲，例如，以将由节目定义为处于参考屏幕的右边缘处的音频元素位置扭曲到回放屏幕的右边缘处的扭曲位置)到最小值(指示没有扭曲应当执行)的范围中的浮点值。在示例中，该范围的中点中的非二进制值可以指示应当执行一半扭曲(50％扭曲)(例如，以将由节目定义为处于参考屏幕的右边缘处的音频元素位置扭曲到回放房间的右边缘与回放屏幕的右边缘之间中间的扭曲位置)。

在该类的一些实施例中，节目是包括这样的用于该节目的每个对象声道的元数据的基于对象的音频节目，所述元数据指示对每个对应的对象执行的扭曲的最大程度。例如，元数据可以指示对于由不同对象声道指示的每个对象的、在回放屏幕的平面中或者平行于回放屏幕的平面的扭曲的不同的最大程度。对于另一示例，元数据可以指示对于由不同对象声道指示的每个对象的、在回放屏幕的平面中或者平行于回放屏幕的平面的垂直方向(例如平行于图4的“z”轴)上的扭曲的不同的最大程度和在回放屏幕的平面中或者平行于回放屏幕的平面的水平方向(例如平行于图4的“x”轴)上的扭曲的不同的最大程度。

在该类的一些实施例中，音频节目还包括指示屏幕外扭曲的至少一个特性(例如，指示要作为与回放屏幕的平面至少基本上垂直的距离的函数而执行与回放屏幕的平面至少基本上平行的平面中的扭曲的方式或者程度)的屏幕相关的元数据(并且扭曲使用该屏幕相关的元数据来完成)。在一些这样的实施例中，节目是包括这样的用于该节目的每个对象声道的元数据的基于对象的音频节目，所述元数据指示对每个对应的对象执行的屏幕外扭曲的至少一个特性。例如，节目可以包括这样的用于每个对象声道的元数据，该元数据指示对每个对应的对象执行的屏幕外扭曲的类型(即，元数据可以指定对于与对象声道中的每一个对应的对象的屏幕外扭曲的不同类型)。

接下来我们描述处理音频节目以实现根据本发明的实施例的扭曲的方法的示例。

在示例性方法中，音频节目的屏幕相关的元数据包括至少一个具有非二进制值的扭曲程度参数(用于其音频内容要被扭曲的每个声道)，该扭曲程度参数指示在回放屏幕的平面中或者平行于回放屏幕的平面、要由回放***对声道所指示的至少一个音频元素执行的扭曲的最大程度，使得节目指示其应当在相对于参考屏幕(并且在参考屏幕的平面中)的位置处被呈现的音频元素在相对于回放屏幕(并且在回放屏幕的平面中)的扭曲位置处被呈现。优选地，对于每个声道包括一个或者两个这样的扭曲程度参数：一个(例如以下描述的值“XFACTOR”)指示控制在水平方向(例如沿图4的“x”轴)上要应用多少扭曲到由声道指示的至少一个音频元素的扭曲因子，和/或一个指示控制在垂直方向(例如沿图4的“z”轴)上要应用多少扭曲(即要应用的扭曲的最大程度)至由声道指示的至少一个音频元素的扭曲因子。节目的屏幕相关的元数据还指示用于每个声道的屏幕外扭曲参数(例如以下描述的值“EXP”)，该屏幕外扭曲参数控制要作为与回放屏幕的平面垂直的(对应的音频元素的扭曲位置的)距离的函数而执行的屏幕外扭曲的至少一个特性。例如，屏幕外扭曲参数可以控制作为与回放屏幕的平面垂直的深度(沿图4的“y”轴的距离)的函数的音频元素的扭曲位置的最大扭曲或者扭曲的程度或方式。

在示例性实施例中，节目的屏幕相关的元数据还包括用于该节目(或者该节目的一系列分段中的每一个)的二进制值(在本文中要称为“apply_screen_warping”)。如果(用于该节目或者其分段的)“apply_screen_warping”的值指示“off”，则不通过回放***应用扭曲到对应的音频内容。例如对于应当以回放屏幕的平面中的感知位置被呈现(或者与回放屏幕重合)但是不需要紧密地与视觉耦合(例如作为音乐或者周围环境的音频内容)的音频内容，扭曲可以这样被禁用。如果(用于该节目或者其分段的)“apply_screen_warping”的值指示“on”，则回放***如下将扭曲应用至对应的音频内容。该参数，“apply_screen_warping,”不是根据本发明所使用的和/或所生成的该类“扭曲程度”参数的示例。

以下描述假设节目是基于对象的节目，并且要经历扭曲的每个声道是指示具有由该节目所确定的未扭曲位置(其可以是随时间变化的位置)的音频对象的对象声道。对于本领域普通技术人员将清楚的是，如何修改该描述以实现节目的扬声器声道的扭曲，其中，扬声器声道指示具有由该节目所确定的未扭曲位置(其可以是随时间变化的位置)的至少一个音频元素。以下描述还假设回放环境是如图4所示，并且该回放***被配置为响应于节目而生成五个扬声器馈送(用于如图4所示的扬声器L’、C’、R’、Ls以及Rs)。

在示例性实施例中，回放***(例如图3的***的子***9)从节目(例如从节目的屏幕相关的元数据)确定指示对象(要在由回放***确定的扭曲位置处呈现)的未扭曲位置的以下值：

Xs＝(x-RefSXcenterpos)/RefSWidth,

其中，“x”是相对于参考屏幕的左边缘的沿水平(“x”或者“宽度”)轴的未扭曲对象位置，RefSXcenterpos是沿水平轴的参考屏幕的中心点的位置，并且RefSWidth是参考屏幕的宽度(沿水平轴)。

回放***(例如图3的***的子***9)被配置为使用节目的屏幕相关的元数据(和指示回放***配置的其它数据)来生成以下值：

Xwarp＝Xs*SWidth+SXcenterpos，

YFACTOR＝y^EXP，以及

X'＝x^*YFACTOR+(I-YFACTOR)*[XFACTOR*Xwarp+(I-XFACTOR)*x)]，

其中，“Xwarp”指示相对于回放***显示屏幕(“playback screen”)的左边缘的沿水平(“x”或者“宽度”)轴的原始的(未缩放的)扭曲对象位置，Xs是相对于回放屏幕的中心点的沿水平轴的扭曲对象位置，SXcenterpos是沿水平轴的回放屏幕的中心点的位置，并且SWidth是回放屏幕的宽度(沿水平轴)；并且

其中，“YFACTOR”是指示作为沿与回放屏幕的平面垂直的深度轴(图4的“y”轴)的位置的函数的沿水平(宽度)轴的扭曲的程度的深度扭曲因子，“y”是沿深度轴的扭曲对象位置，并且EXP是作为在本文中提到的“屏幕外扭曲”参数的示例的预定(例如用户选择的)常数；并且

其中，X’表示相对于回放屏幕的左边缘的沿水平轴的扭曲对象位置(原始的扭曲对象位置Xwarp的缩放版本)(因此，在回放环境的水平面中的扭曲对象位置是具有坐标X’，y的点)，并且XFACTOR是由节目的屏幕相关的元数据指示的宽度轴扭曲参数(其可以在节目的创作、混合、再混合或者编码期间确定)。XFACTOR是在本文中提到“扭曲程度”参数的示例。

可以以通过上述等式的简单修改(以代替对关于垂直或者“z”轴的水平或者“x”轴的参考)(考虑参考屏幕纵横比和回放屏幕纵横比)所确定的方式执行沿垂直(“z”或者“高度”)轴的未扭曲对象位置(通过节目确定)至沿相对于回放屏幕的垂直轴的扭曲位置的扭曲。

参数XFACTOR具有从0至1的范围中的值(包括0和1在内)(即它具有该范围中的至少三个值中的一个，并且通常为许多值中的一个)。XFACTOR的值控制扭曲沿水平轴被应用到的程度。如果XFACTOR＝1，则沿水平轴执行完全扭曲(使得如果对象的未扭曲位置在回放屏幕外，则扭曲位置在回放屏幕上)。如果XFACTOR＝1/2(或者小于1的另一个值)，则沿x轴执行减小量的扭曲(使得如果对象的未扭曲位置远离回放屏幕，例如在左前回放扬声器的位置处，则扭曲位置也可以在回放屏幕外，例如在左前扬声器与回放屏幕的左边缘之间中间)。可以有用的是，由于各种原因(例如在期望扭曲但是对小回放屏幕的完全扭曲被认为是不期望的情况下，或者在音频对象位置仅与显示屏幕大小松散地耦合(例如对于扩散声源)的情况下)，将XFACTOR设置为小于1但大于零的值。

参数YFACTOR用于控制作为沿深度轴的音频对象的扭曲位置的函数的扭曲(沿水平轴和/或垂直轴)的程度，并且参数YFACTOR的值是沿深度轴的对象的扭曲位置的函数。在以上示例中，该函数是指数函数。作为对示例性指数函数的变型或者以其它方式不同于示例性指数函数的其它函数被利用在可替代的实施例中以确定“YFACTOR”(例如，“YFACTOR”可以是沿深度轴的扭曲对象位置“y”的余弦或者余弦的幂)。在YFACTOR＝y^EXP的以上示例中，当“EXP”大于零(其被期望为典型的选择)时，具有在回放房间的前面(即在回放屏幕上)的未扭曲位置的声音的扭曲(在与深度轴垂直的“x”和/或“z”方向上)的程度大于具有远离该房间的前面(例如在回放房间的后壁)的未扭曲位置的声音的扭曲(在与深度轴垂直的方向上)的程度。如果“EXP”大于零并且y＝0(即，如果对象的扭曲和未扭曲位置在回放房间的前面的回放屏幕的平面中)，则YFACTOR＝0并且沿水平“宽度”轴的扭曲位置(X’)由沿宽度轴的未扭曲位置(x)和参数XFACTOR以及Xwarp来确定。如果“EXP”大于零并且y＝1(即，如果对象的扭曲和未扭曲位置在回放房间的后面)，则YFACTOR＝1并且沿水平“宽度”轴的扭曲位置(X’)等于沿宽度轴的未扭曲位置(x)，使得在这种情况下有效地不对对象执行(沿宽度轴)扭曲。

对于更具体的示例，图4的音频对象“A1”具有在回放房间的前面的回放屏幕S’的平面中的未扭曲位置(和因此扭曲位置)(即，y＝y1＝0)。如果“EXP”大于零，则YFACTOR＝0以用于对对象A1执行水平轴扭曲，并且扭曲将对象A1’的扭曲位置放置在与回放屏幕S’重合的一些位置X’＝x1，y＝0处(例如，如图4所示)。

图4的音频对象“A2”具有在回放房间的前壁与后壁之间的未扭曲位置(和因此扭曲位置)(在0<y2<1处)。如果“EXP”大于零，则YFACTOR大于零以用于对对象A2执行水平轴扭曲，并且扭曲将对象A2’的扭曲位置放置在沿点T1与T2之间的线段的一些位置X’＝x2，y＝y2处(例如，如图4所示)。点T1与T2之间的间隔是W3(如图4所指示)，并且由于EXP大于零，因此W3满足W1<W3<W2，其中，W1是屏幕S’的宽度并且W2是回放房间的宽度。EXP的具体值确定W3的值，W3的值是扭曲可以将对象映射在相对于回放屏幕S’的深度y＝y2处的宽度范围。如果“EXP”大于一，则扭曲将对象A2’的扭曲位置放置在曲线C1和C2(在图4中示出)之间的位置处，其中，曲线C1和C2之间的间隔(W3)是深度参数y的指数增加的函数(如图4所述)，其中，间隔W3在y具有较大的值时(随着y的增加值)较快地增加，并且在y具有较小的值时(随着y的增加值)不那么快地增加。

在作为对参考图4的曲线C1和C2所描述的示例实施例的变型的其它实施例(要参考图4A描述)中，“EXP”等于一，使得扭曲将对象A2的扭曲位置放置在两个曲线(例如图4A中的曲线C3和C4)之间的位置处，其中，曲线C3和C4之间的间隔是深度参数y的线性增加函数。在作为对参考图4的曲线C1和C2所描述的示例性实施例的变型的其它实施例(要参考图4B描述)中，“EXP”大于零但小于一，使得扭曲将对象A2的扭曲位置放置在两个曲线(例如图4B中的曲线C5和C6)之间的位置处，其中，曲线之间的间隔是深度参数y的对数增加函数(如图4B所示)，其中，曲线之间的间隔在y具有较小的值时(随着y的增加值)较快地增加，并且在y具有较大的值时(随着y的增加值)不那么快地增加。EXP等于或者小于一的实施例被期望是典型的，因为在这样的实施例中，扭曲效果随着y的增加值(例如，随着离屏幕的扭曲位置增加)比在EXP大于一的情况中更快速地降低。当EXP小于一时，扭曲效果随着扭曲位置开始移动离开屏幕而快速地降低，并然后随着扭曲位置移动远离该屏幕直至扭曲位置到达不执行扭曲的后壁而逐渐缓慢地降低。

接下来我们描述另一类实施例，在该类实施例中，基于扬声器声道的音频节目(包括扬声器声道而不包括对象声道)响应于基于对象的节目以包括扭曲步骤(例如使用屏幕相关的元数据)的方式生成。基于扬声器声道的音频节目包括至少一组扬声器声道，所述至少一组扬声器声道作为将基于对象的节目的音频内容扭曲到至少部分地由扭曲程度参数所确定的程度(和/或使用屏幕外扭曲参数)的结果而生成，并且预期用于通过位于相对于回放***显示屏幕的预定位置处的喇叭回放。在该类的一些实施例中，生成基于扬声器声道的音频节目以包括可选择的两组或更多组扬声器声道，并且多个组中的至少一组作为扭曲的结果而生成并且预期用于通过位于相对于回放***显示屏幕的预定位置处的喇叭回放。基于扬声器声道的节目的生成支持通过不被配置为对基于对象的音频节目执行解码和呈现(但是能够解码和呈现基于扬声器声道的节目)的回放***的屏幕相对呈现。通常，基于扬声器声道的节目通过具有对特定回放***扬声器和屏幕配置的知晓(或者假设特定回放***扬声器和屏幕配置)的再混合***来生成。通常，基于对象的节目(基于扬声器声道的节目响应于该基于对象的节目而生成)包括支持通过适当地配置的回放***(其能够解码和呈现基于对象的节目)的基于对象的节目的屏幕相对呈现的屏幕相关的元数据。

该类实施例在期望实现屏幕相对呈现但可用的回放***不被配置为呈现基于对象的节目的情况下特别有用。为了实现仅仅包括扬声器声道(不包括对象声道)的音频节目的屏幕相对呈现，首先根据本发明的实施例生成支持屏幕相对呈现的基于对象的节目。然后，响应于基于对象的节目而生成基于扬声器声道的音频节目(其支持屏幕相对呈现)。基于扬声器声道的音频节目可以包括至少可选择的两组扬声器声道，并且回放***可以被配置为呈现多组扬声器声道中的选择的一组以实现屏幕相对呈现。

由基于扬声器声道的节目假设的常见的扬声器声道配置包括立体声(用于使用两个扬声器回放)和5.1环绕声(用于通过五个全频(full-range)扬声器回放)。利用这样的声道配置，扬声器声道(音频信号)根据定义与喇叭位置关联，并且音频元素(由声道的音频内容指示)被呈现的感知位置通常基于回放环境中的假设的扬声器位置或者相对于参考收听位置的假设的扬声器位置来确定。

在基于扬声器声道的音频节目被生成(响应于基于对象的节目)的一些实施例中，通过基于对象的节目的屏幕相关的元数据实现的屏幕相对扭曲(缩放)功能被利用以生成与具有相对于回放屏幕的预定位置的喇叭关联的(基于扬声器声道的节目的)扬声器声道。通常，特定的回放屏幕大小和形状以及位置被生成基于扬声器声道的节目的***假设。例如，响应于基于对象的节目，可以生成基于扬声器声道的节目以包括以下两组扬声器声道(并且可选地还包括其它扬声器声道)：

第一组常规的左(“L”)和右(“R”)前扬声器声道，用于呈现相对于参考屏幕(例如在电影混合设施中)所确定的感知位置处的音频元素；以及

第二组左和右前扬声器声道，其可以称为“左屏幕”(Lsc)和“右屏幕”(Rsc)，用于呈现相对于假设的回放显示屏幕(其中，回放屏幕和回放***前扬声器被假设为具有预定的相对大小、形状以及位置)的左和右边缘(例如在再混合设施或者混合设施的再混合级处)所确定的感知位置处的相同的音频元素。

通常，作为扭曲的结果而生成的基于扬声器声道的节目的声道(例如Lsc和Rsc声道)可以被呈现以允许显示在回放屏幕上的图像与对应的呈现声音之间的更接近匹配。

通过选择和呈现常规的左(“L”)和右(“R”)前扬声器声道，回放***可以呈现选择的声道使得由此确定的音频元素被感知为具有未扭曲位置。通过选择和呈现“左屏幕”(Lsc)和“右屏幕”(Rsc)扬声器声道，回放***可以呈现选择的声道使得由此确定的音频元素被感知为具有扭曲位置(相对于回放屏幕)，但是该扭曲在基于扬声器声道的节目的生成(响应于基于对象的节目，其通常包括屏幕相关的元数据)时而不是通过回放***来执行。

该类的一些实施例包括以下步骤：(在混合时间和位置处)生成具有屏幕相关的元数据的基于对象的节目；然后(在“再混合”时间和位置处，该位置可以是在进行原始混合例如以生成用于家庭使用的记录的相同位置处)使用屏幕相关的元数据以包括通过执行屏幕相对扭曲来从基于对象的节目生成基于扬声器声道的节目；以及然后将基于扬声器声道的节目传送至回放***。基于扬声器声道的节目可以包括可选择的多组声道，包括在不执行扭曲的情况下生成并且(在呈现时)指示被感知为处于至少一个未扭曲位置处的至少一个音频元素的第一组扬声器声道(例如以常规方式所生成的L和R声道)，和作为基于对象的节目的内容的扭曲的结果而生成并且(在呈现时)指示但被感知为处于至少一个不同的(即扭曲)位置处的相同音频元素的至少额外的一组扬声器声道(例如Lsc和Rsc声道)。可替代地，基于扬声器声道的节目仅仅包括作为扭曲的结果而生成并且(在呈现时)指示被感知处于至少一个扭曲位置处的至少一个音频元素的一组声道(例如Lsc和Rsc声道)但不包括(在呈现时)指示被感知处于未扭曲位置处的相同音频元素的另一组声道(例如L和R声道)。

根据示例性实施例从基于对象的节目生成的基于扬声器声道的节目包括五个前声道：左(L)、左屏幕(Lsc)、中心(C)、右屏幕(Rsc)以及右(R)。Lsc和Rsc声道通过使用基于对象的节目的屏幕相关的元数据执行扭曲而生成。为了呈现和回放基于扬声器声道的节目，回放***可以选择和呈现L和R声道以驱动在回放屏幕的左和右边缘处的前扬声器，或者可以选择和呈现Lsc和Rsc声道以驱动离回放屏幕的左和右边缘更远的前扬声器。例如，Lsc和Rsc声道可以在它们将被用于使用在相对于假设的用户位置的+30和-30度的方位角处的前扬声器来呈现音频元素的假设下被生成，并且L和R声道可以在它们将被用于使用在相对于假设的用户位置的+15和-15度的方位角处(在回放屏幕的左和右边缘处)的前扬声器来呈现音频元素的假设下被生成。

例如，图5的***包括被配置为根据本发明的实施例生成包括屏幕相关的元数据的基于对象的音频节目(“OP”)的编码器4。编码器4可以在混合设施中或者在混合设施处实现。图5的***还包括被耦合和配置为响应于通过编码器4所生成的基于对象的音频节目而(根据本发明的实施例)生成包括扬声器声道而不包括对象声道的基于扬声器声道的音频节目(“SP”)的再混合子***6。子***6可以在再混合设施中或者在再混合设施处、或者作为混合设施(例如其中也实现编码器4的混合设施)的再混合级实现。基于扬声器声道的节目SP的音频内容包括至少可选择的两组扬声器声道(例如，一组包括以上讨论的声道L和R，并且另一组包括以上讨论的声道Lsc和Rsc)，并且子***6被配置为作为根据本发明的实施例使用根据本发明的实施例的节目OP的屏幕相关的元数据(并且通常还使用指示扭曲的类型和/或程度(但不通过屏幕相关的元数据指示)的其它控制数据)对基于对象的节目OP(由编码器4生成)的音频内容进行扭曲的结果而生成多组中的至少一组(例如声道Lsc和Rsc)。基于扬声器声道的节目SP从子***6输出到传送子***5。子***5可以与以上讨论的图3的***的子***5相同。

本发明的实施例可以以硬件、固件、或者软件、或者它们的组合(例如作为可编程逻辑阵列)来实现。例如，图3的***(或者其子***3，或者子***7、9、10以及11)可以以适当地编程的(或者以其它方式配置的)硬件或者固件(例如作为编程的通用处理器、数字信号处理器或者微处理器)来实现。除非另作指明，作为本发明的部分被包括的算法或者处理内在地不与任何特定的计算机或者其它装置相关。特别地，各种通用机器可以与根据本文中的教导所编写的程序一起使用，或者可以更方便的是构造更专门的装置(例如集成电路)以执行所需要的方法步骤。因此，本发明可以以在一个或多个可编程计算机***(例如实现图3的***(或者其子***3、或者子***7、9、10以及11))上执行的一个或多个计算机程序来实现，每个可编程计算机***包括至少一个处理器、至少一个数据存储***(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或者端口、以及至少一个输出设备或者端口。程序代码被应用到输入数据以执行在本文中所描述的功能并且生成输出信息。该输出信息以已知的方式被应用到一个或多个输出设备。

每个这样的程序可以以任何期望的计算机语言(包括机器、汇编、或者高级过程、逻辑、或者面向对象编程语言)实现以与计算机***通信。在任何情况下，该语言可以是编译或者解释语言。

例如，在通过计算机软件指令序列实现时，本发明的实施例的各种功能和步骤可以通过在合适的数字信号处理硬件中运行的多线程软件指令序列来实现，在这种情况下，实施例的各种设备、步骤以及功能可以对应于软件指令的部分。

每个这样的计算机程序优选存储在通过通用的或者专用的可编程计算机可读的存储介质或者设备(例如固态存储器或介质，或者磁性或者光学介质)上、或者下载至该存储介质或者设备，以用于在存储介质或者设备由计算机***读取时配置和操作计算机以执行在本文中所描述的过程。本发明的***也可以实现为配置有(即存储)计算机程序的计算机可读存储介质，其中，这样配置的存储介质使计算机***以特定和预定义的方式操作以执行在本文中所描述的功能。

尽管通过示例和关于示例性的特定实施例已描述了实现，但要理解的是本发明的实现不限于所公开的实施例。相反，它意图覆盖对于本领域技术人员将清楚的各种修改和类似布置。因此，随附权利要求的范围应当赋予最宽的解释以便包括所有这样的修改和类似布置。

Claims

1.一种用于呈现音频节目的方法，包括以下步骤：

(a)确定至少一个扭曲程度参数；和

(b)对节目的至少一个声道的音频内容执行扭曲到至少部分地由与所述声道对应的扭曲程度参数所确定的程度，其中，每一个所述扭曲程度参数指示要通过回放***对所述节目的对应的音频内容所执行的扭曲的最大程度，

其中，扭曲包括确定指示要在沿宽度轴的扭曲位置处被呈现的音频元素的沿宽度轴的未扭曲位置的值Xs，并且生成以下值：

Xwarp，

YFACTOR＝y^EXP，以及

X’＝x*YFACTOR+(1-YFACTOR)*[XFACTOR*Xwarp+(1-XFACTOR)*x)]，

其中，

Xwarp表示相对于回放屏幕的边缘的沿宽度轴的音频元素的原始扭曲位置，

EXP是屏幕外扭曲参数，

YFACTOR指示作为音频元素的沿与回放屏幕的平面至少基本上垂直的深度轴的扭曲位置y的函数的、沿宽度轴的扭曲的程度，

X’表示相对于回放屏幕的边缘的沿宽度轴的音频元素的扭曲对象位置，并且

XFACTOR是一个所述扭曲程度参数。

2.如权利要求1所述的方法，其中，步骤(a)包括确定至少一个屏幕外扭曲参数的步骤，其中，屏幕外扭曲参数指示通过回放***对节目的对应的音频内容的屏幕外扭曲的至少一个特性，并且其中，在步骤(b)中执行的扭曲包括至少部分地由至少一个所述屏幕外扭曲参数所确定的屏幕外扭曲。

3.如权利要求2所述的方法，其中，屏幕外扭曲参数控制作为音频元素要被呈现的扭曲位置的与回放屏幕的平面至少基本上垂直的距离的函数的、沿与回放屏幕的平面至少基本上平行的宽度轴的音频元素的未扭曲位置的扭曲的程度。

4.如权利要求1所述的方法，其中，所述节目是基于对象的音频节目，并且步骤(a)包括解析节目以识别由该节目的屏幕相关的元数据所指示的至少一个所述扭曲程度参数的步骤。

5.如权利要求4所述的方法，其中，所述节目指示至少两个对象，步骤(a)包括独立地确定用于对象中的每一个的至少一个扭曲程度参数的步骤，并且步骤(b)包括以下步骤：

对于对象声道中的每一个的音频内容独立地执行扭曲到至少部分地由与对象中的所述每一个对应的所述至少一个扭曲程度参数所确定的程度。

6.如权利要求1-5中的任一项所述的方法，其中，每一个所述扭曲程度参数是指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度的非二进制值。

7.一种用于生成基于对象的音频节目的方法，包括以下步骤：

(a)确定用于至少一个对象的至少一个扭曲程度参数；和

(b)在节目中包括指示对象的对象声道和指示用于对象的每一个所述扭曲程度参数的屏幕相关的元数据，其中，每一个所述扭曲程度参数指示要通过回放***对于对象所执行的扭曲的最大程度，

其中，扭曲包括确定指示要在沿宽度轴的扭曲位置处被呈现的对象的沿宽度轴的未扭曲位置的值Xs，并且生成以下值：

Xwarp，

YFACTOR＝y^EXP，以及

X’＝x*YFACTOR+(1-YFACTOR)*[XFACTOR*Xwarp+(1-XFACTOR)*x)]，

其中，

Xwarp表示相对于回放屏幕的边缘的沿宽度轴的对象的原始扭曲位置，

EXP是屏幕外扭曲参数，

YFACTOR指示作为对象的沿与回放屏幕的平面至少基本上垂直的深度轴的扭曲位置y的函数的、沿宽度轴的扭曲的程度，

X’表示相对于回放屏幕的边缘的沿宽度轴的对象的扭曲对象位置，并且

XFACTOR是一个所述扭曲程度参数。

8.如权利要求7所述的方法，其中，所述节目指示至少两个对象，并且屏幕相关的元数据指示用于对象中的至少两个中的每一个的至少一个所述扭曲程度参数，每一个所述扭曲程度参数指示要对每一个对应的对象所执行的扭曲的最大程度。

9.如权利要求7所述的方法，其中，步骤(a)包括确定用于所述至少一个对象的至少一个屏幕外扭曲参数的步骤，其中，屏幕外扭曲参数指示要通过回放***对于对象所执行的屏幕外扭曲的至少一个特性，并且其中，包括在节目中的屏幕相关的元数据指示每一个所述屏幕外扭曲参数。

10.如权利要求9所述的方法，其中，屏幕外扭曲参数控制作为对象要被呈现的扭曲位置的与回放屏幕的平面至少基本上垂直的距离的函数的、沿与回放屏幕的平面至少基本上平行的宽度轴的对象的未扭曲位置的扭曲的程度。

11.如权利要求7-10中的任一项所述的方法，其中，每一个所述扭曲程度参数是指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度的非二进制值。

12.一种用于生成基于扬声器声道的节目的方法，包括以下步骤：

(a)生成基于对象的音频节目；和

(b)响应于基于对象的音频节目，生成基于扬声器声道的节目，该基于扬声器声道的节目包括预期用于通过位于相对于回放屏幕的预定位置处的喇叭回放的至少一组扬声器声道，其中，该组扬声器声道的生成包括将基于对象的音频节目的音频内容扭曲到至少部分地由至少一个扭曲程度参数所确定的程度的步骤，并且每一个所述扭曲程度参数指示要通过回放***对基于对象的音频节目的对应的音频内容所执行的扭曲的最大程度，

其中，扭曲的步骤包括确定指示要在沿与回放屏幕的平面至少基本上平行的宽度轴的扭曲位置处被呈现的音频对象的沿宽度轴的未扭曲位置的值Xs，并且生成以下值：

Xwarp，

YFACTOR＝y^EXP，以及

X’＝x*YFACTOR+(1-YFACTOR)*[XFACTOR*Xwarp+(1-XFACTOR)*x)]，

其中，

EXP是屏幕外扭曲参数，

XFACTOR是一个所述扭曲程度参数。

13.如权利要求12所述的方法，其中，步骤(b)包括生成基于扬声器声道的音频节目使得该基于扬声器声道的节目包括可选择的两组或更多组扬声器声道的步骤，该两组或更多组中的至少一组指示基于对象的音频节目的未扭曲音频内容，该两组或更多组中的至少另一组的生成包括将基于对象的音频节目的音频内容扭曲到至少部分地由扭曲程度参数所确定的程度的步骤，并且该两组或更多组中的所述另一组预期用于通过位于相对于回放屏幕的预定位置处的喇叭回放。

14.如权利要求12所述的方法，其中，步骤(b)包括确定至少一个屏幕外扭曲参数的步骤，其中，屏幕外扭曲参数指示通过回放***对基于对象的音频节目的对应的音频内容的屏幕外扭曲的至少一个特性，并且其中，在步骤(b)中执行的扭曲包括至少部分地由至少一个所述屏幕外扭曲参数所确定的屏幕外扭曲。

15.如权利要求14所述的方法，其中，屏幕外扭曲包括作为音频元素要被呈现的扭曲位置的与回放屏幕的平面至少基本上垂直的距离的函数的、沿与回放屏幕的平面至少基本上平行的宽度轴的音频元素的未扭曲位置的、到由屏幕外扭曲参数所控制的程度的扭曲。

16.如权利要求12所述的方法，其中，基于对象的音频节目包括指示所述至少一个扭曲程度参数的屏幕相关的元数据，并且步骤(b)包括解析基于对象的音频节目以识别由屏幕相关的元数据所指示的每一个所述扭曲程度参数的步骤。

17.如权利要求12-16中的任一项所述的方法，其中，每一个所述扭曲程度参数是指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度的非二进制值。

18.一种呈现基于扬声器声道的节目的方法，所述基于扬声器声道的节目包括指示扭曲内容的至少一组扬声器声道，其中，所述基于扬声器声道的节目已通过包括通过将基于对象的音频节目的音频内容扭曲到至少部分地由至少一个扭曲程度参数所确定的程度来处理所述基于对象的音频节目以生成指示扭曲内容的该组扬声器声道而生成，其中，每一个所述扭曲程度参数指示要通过回放***对基于对象的音频节目的对应的音频内容所执行的扭曲的最大程度，所述呈现的方法包括以下步骤：

(a)解析基于扬声器声道的节目以识别包括指示扭曲内容的该组扬声器声道中的每一个的基于扬声器声道的节目的扬声器声道；和

(b)响应于包括指示扭曲内容的该组扬声器声道中的至少一个的基于扬声器声道的节目的扬声器声道中的至少一些而生成扬声器馈送，以用于驱动位于相对于回放屏幕的预定位置处的喇叭，

其中，扭曲包括确定指示要在沿与回放屏幕的平面至少基本上平行的宽度轴的扭曲位置处被呈现的音频对象的沿宽度轴的未扭曲位置的值Xs，并且生成以下值：

Xwarp，

YFACTOR＝y^EXP，以及

X’＝x*YFACTOR+(1-YFACTOR)*[XFACTOR*Xwarp+(1-XFACTOR)*x)]，

其中，

Xwarp表示相对于回放屏幕的边缘的沿宽度轴的该对象的原始扭曲位置，

EXP是屏幕外扭曲参数，

YFACTOR指示作为该对象的沿与回放屏幕的平面至少基本上垂直的深度轴的扭曲位置y的函数的、沿宽度轴的扭曲的程度，

X’表示相对于回放屏幕的边缘的沿宽度轴的该对象的扭曲对象位置，并且

XFACTOR是一个所述扭曲程度参数。

19.如权利要求18所述的方法，其中，基于扬声器声道的节目已通过包括通过执行基于对象的音频节目的音频内容的屏幕外扭曲到至少部分地由所述至少一个扭曲程度参数所确定的程度和使用至少一个屏幕外扭曲参数来处理所述基于对象的音频节目而生成，所述至少一个屏幕外扭曲参数指示对基于对象的节目的对应的音频内容的屏幕外扭曲的至少一个特性。

20.如权利要求18所述的方法，其中，基于扬声器声道的音频节目包括可选择的两组或更多组扬声器声道，该两组或更多组中的至少一组指示基于对象的音频节目的未扭曲音频内容，而该两组或更多组中的另一组是指示扭曲内容的所述一组扬声器声道，并且步骤(b)包括选择该两组或更多组中的作为指示扭曲内容的所述一组扬声器声道的一组的步骤。

21.如权利要求18-20中的任一项所述的方法，其中，每一个所述扭曲程度参数是指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度的非二进制值。

22.一种用于呈现音频节目的***，包括：

第一子***，该第一子***被配置为解析多声道音频节目以识别节目的声道；和

处理子***，该处理子***被耦合到所述第一子***并且被配置为对节目的至少一个声道的音频内容执行扭曲到至少部分地由与所述声道对应的至少一个扭曲程度参数所确定的程度，其中每一个所述扭曲程度参数指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度，

Xwarp，

YFACTOR＝y^EXP，以及

X’＝x*YFACTOR+(1-YFACTOR)*[XFACTOR*Xwarp+(1-XFACTOR)*x)]，

其中，

EXP是屏幕外扭曲参数，

XFACTOR是一个所述扭曲程度参数。

23.如权利要求22所述的***，其中，扭曲包括至少部分地由至少一个屏幕外扭曲参数所确定的屏幕外扭曲，其中，屏幕外扭曲参数指示通过回放***对节目的对应的音频内容的屏幕外扭曲的至少一个特性。

24.如权利要求23所述的***，其中，屏幕外扭曲包括作为音频元素要被呈现的扭曲位置的与回放屏幕的平面至少基本上垂直的距离的函数的、沿与回放屏幕的平面至少基本上平行的宽度轴的音频元素的未扭曲位置的、到由屏幕外扭曲参数所控制的程度的扭曲。

25.如权利要求22所述的***，其中，所述节目是基于对象的音频节目，并且所述第一子***被配置为解析节目以识别由该节目的屏幕相关的元数据所指示的至少一个所述扭曲程度参数。

26.如权利要求25所述的***，其中，所述节目指示至少两个对象，所述第一子***被配置为独立地确定用于对象中的每一个的至少一个扭曲程度参数，并且所述处理子***被配置为对指示对象中的每一个的音频内容独立地执行扭曲到至少部分地由与对象中的所述每一个对应的所述至少一个扭曲程度参数所确定的程度。

27.如权利要求22-26中的任一项所述的***，其中，每一个所述扭曲程度参数是指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度的非二进制值。

28.一种用于生成基于扬声器声道的节目的***，包括：

第一子***，该第一子***被配置为生成基于对象的音频节目；和

第二子***，该第二子***被耦合到所述第一子***并且被配置为响应于基于对象的音频节目而生成基于扬声器声道的节目，其中，所述基于扬声器声道的节目包括预期用于通过位于相对于回放屏幕的预定位置处的喇叭回放的至少一组扬声器声道，其中，所述第二子***被配置为包括通过将基于对象的音频节目的音频内容扭曲到至少部分地由至少一个扭曲程度参数所确定的程度来生成该组扬声器声道，并且每一个所述扭曲程度参数指示要通过回放***对基于对象的音频节目的对应的音频内容所执行的扭曲的最大程度，

所述第二子***被配置为包括通过确定指示要在沿与回放屏幕的平面至少基本上平行的宽度轴的扭曲位置处被呈现的音频对象的沿宽度轴的未扭曲位置的值Xs并且生成以下值来执行扭曲：

Xwarp，

YFACTOR＝y^EXP，以及

X’＝x*YFACTOR+(1-YFACTOR)*[XFACTOR*Xwarp+(1-XFACTOR)*x)]，

其中，

EXP是屏幕外扭曲参数，

XFACTOR是一个所述扭曲程度参数。

29.如权利要求28所述的***，其中，所述第二子***被配置为生成基于扬声器声道的音频节目使得该基于扬声器声道的节目包括可选择的两组或更多组扬声器声道，该两组或更多组中的至少一组指示基于对象的音频节目的未扭曲音频内容，该两组或更多组中的至少另一组的生成包括基于对象的音频节目的音频内容到至少部分地由扭曲程度参数所确定的程度的扭曲，并且该两组或更多组中的所述另一组预期用于通过位于相对于回放屏幕的预定位置处的喇叭回放。

30.如权利要求28所述的***，其中，所述第二子***被配置为包括通过执行基于对象的音频节目的音频内容的屏幕外扭曲、使得屏幕外扭曲至少部分地由指示该屏幕外扭曲的至少一个特性的至少一个屏幕外扭曲参数确定来生成该组扬声器声道。

31.如权利要求30所述的***，其中，所述第二子***被配置为响应于屏幕外扭曲参数来控制作为对象要被呈现的扭曲位置的与回放屏幕的平面至少基本上垂直的距离的函数的、沿与回放屏幕的平面至少基本上平行的宽度轴的对象的未扭曲位置的扭曲的程度。

32.如权利要求28所述的***，其中，基于对象的音频节目包括指示所述至少一个扭曲程度参数的屏幕相关的元数据，并且所述第二子***被配置为解析基于对象的音频节目以识别由屏幕相关的元数据所指示的每一个所述扭曲程度参数。

33.如权利要求28-32中的任一项所述的***，其中，每一个所述扭曲程度参数是指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度的非二进制值。

34.一种用于呈现基于扬声器声道的节目的***，所述基于扬声器声道的节目包括指示扭曲内容的至少一组扬声器声道，其中，所述基于扬声器声道的节目已通过包括通过将基于对象的音频节目的音频内容扭曲到至少部分地由至少一个扭曲程度参数所确定的程度来处理所述基于对象的音频节目以生成指示扭曲内容的该组扬声器声道而生成，其中，每一个所述扭曲程度参数指示要通过回放***对基于对象的音频节目的对应的音频内容所执行的扭曲的最大程度，所述***包括：

第一子***，该第一子***被配置为解析基于扬声器声道的节目以识别包括指示扭曲内容的该组扬声器声道中每一个的节目的扬声器声道；以及

呈现子***，该呈现子***被耦合到所述第一子***并且被配置为响应于包括指示扭曲内容的所述至少一组扬声器声道的基于扬声器声道的节目的扬声器声道中的至少一些而生成扬声器馈送，以用于驱动位于相对于回放屏幕的预定位置处的喇叭，

Xwarp，

YFACTOR＝y^EXP，以及

X’＝x*YFACTOR+(1-YFACTOR)*[XFACTOR*Xwarp+(1-XFACTOR)*x)]，

其中，

EXP是屏幕外扭曲参数，

XFACTOR是一个所述扭曲程度参数。

35.如权利要求34所述的***，其中，基于扬声器声道的音频节目包括可选择的两组或更多组扬声器声道，该两组或更多组中的至少一组指示基于对象的音频节目的未扭曲音频内容，而该两组或更多组中的另一组是指示扭曲内容的所述一组扬声器声道，并且所述第一子***被配置为针对所述呈现子***的呈现而选择该两组或更多组中的作为指示扭曲内容的所述一组扬声器声道的一组。

36.如权利要求34或权利要求35所述的***，其中，每一个所述扭曲程度参数是指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度的非二进制值。

37.一种音频处理单元，包括：

缓冲存储器；和

至少一个处理子***，所述至少一个处理子***被耦合到所述缓冲存储器，其中，所述缓冲存储器存储基于对象的音频节目的至少一个分段，其中，所述分段包括指示至少一个对象的至少一个对象声道的音频内容和指示用于至少一个所述对象的至少一个扭曲程度参数的屏幕相关的元数据，其中，每一个所述扭曲程度参数指示要通过回放***对于对象所执行的扭曲的最大程度，并且

其中，所述处理子***被耦合和配置为执行使用屏幕相关的元数据中的至少一些的基于对象的音频节目的呈现、或者基于对象的音频节目的生成、或者基于对象的音频节目的解码中的至少一个，

Xwarp，

YFACTOR＝y^EXP，以及

X’＝x*YFACTOR+(1-YFACTOR)*[XFACTOR*Xwarp+(1-XFACTOR)*x)]，

其中，

EXP是屏幕外扭曲参数，

XFACTOR是一个所述扭曲程度参数。

38.如权利要求37所述的音频处理单元，其中，所述节目指示至少两个对象，并且屏幕相关的元数据指示用于对象中的至少两个中的每一个的至少一个所述扭曲程度参数，每一个所述扭曲程度参数指示要对每一个对应的对象所执行的扭曲的最大程度。

39.如权利要求37所述的音频处理单元，其中，存储在所述缓冲存储器中的基于对象的音频节目的分段指示用于所述至少一个对象的至少一个屏幕外扭曲参数，其中，屏幕外扭曲参数指示要通过回放***对于对象所执行的屏幕外扭曲的至少一个特性，并且其中，包括在节目中的屏幕相关的元数据指示每一个所述屏幕外扭曲参数。

40.如权利要求39所述的音频处理单元，其中，屏幕外扭曲参数控制作为对象要被呈现的扭曲位置的与回放屏幕的平面至少基本上垂直的距离的函数的、沿与回放屏幕的平面至少基本上平行的宽度轴的对象的未扭曲位置的扭曲的程度。

41.如权利要求37所述的音频处理单元，其中，所述音频处理单元是编码器，并且所述处理子***被配置为生成基于对象的音频节目。

42.如权利要求37所述的音频处理单元，其中，所述音频处理单元是解码器，并且所述处理子***被配置为解码基于对象的音频节目。

43.如权利要求37-42中的任一项所述的音频处理单元，其中，每一个所述扭曲程度参数是指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度的非二进制值。

44.一种音频处理单元，包括：

缓冲存储器；和

至少一个处理子***，所述至少一个处理子***被耦合到所述缓冲存储器，其中，所述缓冲存储器存储基于扬声器声道的音频节目的至少一个分段，所述分段包括预期用于通过位于相对于回放屏幕的预定位置处的喇叭回放的基于扬声器声道的节目的至少一组扬声器声道的音频内容，其中，该组扬声器声道已响应于基于对象的音频节目包括通过将基于对象的音频节目的音频内容扭曲到至少部分地由至少一个扭曲程度参数所确定的程度而生成，其中，每一个所述扭曲程度参数指示要通过回放***对基于对象的音频节目的对应的音频内容所执行的扭曲的最大程度，并且

其中，所述处理子***被配置为执行基于扬声器声道的音频节目的呈现、或者基于扬声器声道的音频节目的解码中的至少一个，

其中，该组扬声器声道已通过包括执行包括确定指示要在沿与回放屏幕的平面至少基本上平行的宽度轴的扭曲位置处被呈现的音频对象的沿宽度轴的未扭曲位置的值Xs并且生成以下值的扭曲的处理而生成：

Xwarp，

YFACTOR＝y^EXP，以及

X’＝x*YFACTOR+(1-YFACTOR)*[XFACTOR*Xwarp+(1-XFACTOR)*x)]，

其中，

EXP是屏幕外扭曲参数，

XFACTOR是一个所述扭曲程度参数。

45.如权利要求44所述的音频处理单元，其中，存储在所述缓冲存储器中的基于扬声器声道的音频节目的至少一个所述分段包括可选择的两组或更多组扬声器声道的音频内容，该两组或更多组中的至少一组指示基于对象的音频节目的未扭曲音频内容，并且该两组或更多组中的至少另一组已响应于基于对象的音频节目包括通过将基于对象的音频节目的音频内容扭曲到至少部分地由所述至少一个扭曲程度参数所确定的程度而生成。

46.如权利要求44所述的音频处理单元，其中，该组扬声器声道已通过包括执行至少部分地由至少一个屏幕外扭曲参数所确定的屏幕外扭曲的处理而生成。

47.如权利要求46所述的音频处理单元，其中，屏幕外扭曲包括作为音频元素要被呈现的扭曲位置的与回放屏幕的平面至少基本上垂直的距离的函数的、沿与回放屏幕的平面至少基本上平行的宽度轴的音频元素的未扭曲位置的、到由屏幕外扭曲参数所控制的程度的扭曲。

48.如权利要求44所述的音频处理单元，其中，基于对象的音频节目包括指示所述至少一个扭曲程度参数的屏幕相关的元数据，并且该组扬声器声道已通过包括解析基于对象的音频节目以识别由屏幕相关的元数据所指示的每一个所述扭曲程度参数的步骤的处理而生成。

49.如权利要求44所述的音频处理单元，其中，所述音频处理单元是解码器。

50.如权利要求44-49中的任一项所述的音频处理单元，其中，每一个所述扭曲程度参数是指示要通过回放***对节目的对应的音频内容所执行的扭曲的最大程度的非二进制值。

51.一种音频处理设备，包括：

处理器；

计算机可读存储介质，包括软件指令，所述软件指令在被所述处理器执行时使得执行根据权利要求1-21中任一项所述的方法。

52.一种计算机可读存储介质，包括软件指令，所述软件指令在被处理器执行时使得执行根据权利要求1-21中任一项所述的方法。

53.一种包括用于执行根据权利要求1-21中任一项所述的方法的部件的音频处理装置。