CN109479178B

CN109479178B - 基于呈现器意识感知差异的音频对象聚集

Info

Publication number: CN109479178B
Application number: CN201780044709.3A
Authority: CN
Inventors: 陈联武; 芦烈; D·J·布里巴尔特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2016-07-20
Filing date: 2017-07-13
Publication date: 2021-02-26
Anticipated expiration: 2037-07-13
Also published as: US10779106B2; EP3488623A1; US20190182612A1; EP3488623B1; CN109479178A

Abstract

本文中揭示的实例实施例涉及基于呈现器意识感知差异的音频对象聚集。提供一种处理音频对象的方法。所述方法包含获得指示呈现器配置的呈现器相关信息。所述方法也包含基于所述获得的呈现器相关信息确定所述音频对象中的第一音频对象与第二音频对象之间相对于所述呈现器的呈现差异。所述方法进一步包含至少部分基于所述呈现差异而聚集所述音频对象。也揭示对应***、装置和计算机程序产品。

Description

基于呈现器意识感知差异的音频对象聚集

相关申请案的交叉参考

本申请案要求2016年7月20日申请的第62/364,800号美国临时专利申请案、2016年7月20日申请的第16180310.1号EP专利申请案和2016年7月20日申请的第201610569473.2号CN专利申请案的优先权，所述案中的每一者的全部内容以引用的方式并入本文中。

技术领域

本文中揭示的实例实施例大体上涉及基于对象的音频处理，且更具体来说，涉及一种用于基于呈现器意识感知差异的音频对象聚集的方法和***。

背景技术

传统地，通过在录音室中混合不同音频信号而创建或通过在真实环境中同时记录声音信号而产生多通道格式的音频内容(例如，立体声、5.1、7.1和类似物)。最近，基于对象的音频内容已经变得越来越受欢迎，因为其分开载送若干音频对象和音频床，使得与传统呈现方法相比，其呈现精度有了很大的改进。如本文中使用，术语“音频对象”或“对象”是指可存在于定义的持续时间内但也具有描述与对象相关的信息的相关联元数据(例如，空间位置、速度、内容类型、对象宽度、响度和类似物)的个别音频元件。如本文中使用，术语“音频床”或“床”是指意味着在预定义且固定的扬声器位置中重现的音频通道。

例如，影院声道可包含对应于屏幕上的图像、对话、噪声和音效的许多不同声音元素，它们从屏幕上的不同位置发出且与背景音乐和环境效应组合以创建整个听觉体验。准确回放要求声音以尽可能与屏幕上展示的声源位置、强度、移动和深度相对应的方式重现。基于对象的音频***代表对传统的基于通道的音频***的重大改进，传统的基于通道的音频***在倾听环境中以扬声器馈送的形式将音频内容发送到个别扬声器且因此相对于特定音频对象的空间回放是相对有限的。

在传输基于对象的音频内容的期间，床和对象可分开发送且接着由空间重现***使用以使用已知物理位置中的可变数量的扬声器重建艺术意图。在一些状况中，音频内容中可含有数十个或甚至数百个个别音频对象。基于对象的内容中的大量音频信号给与处理这些内容(例如，传输、分布、编码和存储这些内容)相关的各种方面带来了挑战。

例如，在一些分布和传输***中，传输容量可具备足够大带宽以可用于传输具有较少或不具有音频压缩的所有音频床和对象。但是，在某些情况中(例如经由蓝光光盘、广播(电缆、卫星和地面)、移动(3G、4G以及5G)或云上(OTT或因特网)进行分布)，可用带宽不足以传输关于音频混合器所创建的所有床和对象的信息。虽然音频编码方法(有损或无损)可应用于音频以减小所需带宽，但传输带宽通常仍是一个瓶颈，尤其对于具有非常有限带宽资源的网络(例如，3G、4G以和5G移动***)。处理的其它方面(例如，编码和存储)也可需要高计算、传输和/或存储容量。

因此，希望减少基于对象的内容(例如，音频对象)中的音频信号数量，以便减小计算复杂度、传输带宽要求和/或存储要求。

发明内容

本文中揭示的实例实施例提出用于基于呈现器意识感知差异的音频对象聚集的解决方案。

在第一方面中，本文中揭示的实例实施例提供一种处理音频对象的方法。所述方法包含获得指示呈现器配置的呈现器相关信息。所述方法也包含基于所述获得的呈现器相关信息确定所述音频对象中的第一音频对象与第二音频对象之间相对于所述呈现器的呈现差异。所述方法进一步包含至少部分基于所述呈现差异而聚集所述音频对象。这方面的实施例进一步提供一种对应计算机程序产品。

在第二方面中，本文中揭示的实例实施例提供一种用于处理音频对象的***。所述***包含经配置以获得指示呈现器配置的呈现器相关信息的信息获得单元。所述***也包含经配置以基于所述获得的呈现器相关信息确定所述音频对象中的第一音频对象与第二音频对象之间相对于所述呈现器的呈现差异的差异确定单元。所述***进一步包含经配置以至少部分基于所述呈现差异而聚集所述音频对象的聚集子***。

在第三方面中，本文中揭示的实例实施例提供一种用于处理音频对象的装置。所述装置包含处理单元和存储指令的存储器，当由所述处理单元执行所述指令时导致所述装置执行在所述第一方面中描述的方法的步骤。

通过以下描述将明白本文中揭示的实例实施例所达到的其它优点。

附图说明

通过参考附图的以下详细描述，本文中揭示的实例实施例的上述和其它目标、特征和优点将变得更容易理解。在图式中，将以实例且非限制性方式说明本文中揭示的若干实例实施例，其中：

图1A和1B是回放***上的空间差异与呈现差异之间的可能失配的两个实例；

图2是根据本文中揭示的实例实施例的用于处理音频对象的***的框图；

图3是根据本文中揭示的实例实施例的图2的***中的差异确定单元的框图；

图4是传统聚集子***的框图；

图5是根据本文中揭示的实例实施例的图2的***中的聚集子***的框图；

图6是根据本文中揭示的实例实施例的处理音频对象的过程的流程图；及

图7是适于实施本文中揭示的实例实施例的实例计算机***的框图。

贯穿图式，相同或对应参考符号是指相同或对应部分。

具体实施方式

现在将参考图式中说明的各种实例实施例来描述本文中揭示的实例实施例的原理。应了解，那些实施例的描绘仅为了确保所属领域的技术人员更好地理解且进一步实施本文中揭示的实例实施例且不意在以任何方式限制本文中揭示的范围。

如本文中使用，术语“包含”和其变体应理解为意指“包含，但不限于”的开放式术语。除非上下文另外明确指示，否则术语“或”应理解为“和/或”。术语“基于”应理解为“至少部分基于”。术语“一个实例实施例”和“实例实施例”应理解为“至少一个实例实施例”。术语“另一实施例”应理解为“至少一个其它实施例”。术语“第一”、“第二”和类似物可指不同或相同对象。

如本文中使用，术语“聚集”、“分组”或“组合”可互换地用于描述对象和/或床(通道)分配为“集群”或“集群信号”，以便减少用于在自适应音频回放***中呈现的音频对象的量。如本文中使用，术语“呈现”或“淘选(panning)”可指将音频信号(例如，音频对象或集群信号)变换为用于特定回放***的输出通道的馈送信号的过程。如本文中使用，术语“空间差异”是指两个音频对象之间的空间接近性或空间距离，这可基于音频对象的空间位置来确定。术语“呈现差异”是指两个音频对象相对于使用特定呈现方案的呈现器的呈现参数或呈现方式(行为)的差异。下文可包含其它定义(明确或隐含)。

在典型的基于对象的音频信号处理框架中，为了减小计算复杂度、存储要求和/或传输带宽要求，通过聚集将音频内容中的输入音频对象和床的数量减少为一小组输出对象。在聚集期间，音频床可被视为音频对象。本质上，输入音频对象被组合成单个或更少的新的合并对象。输出对象也可被称为集群或集群信号。在许多使用情况中，可将输出对象递送到音频回放***以用于呈现。

音频对象聚集的目的是减少递送到回放***的个别音频元素(床和对象)的数量，但仍保持足够空间信息，使得直接呈现输入音频对象与呈现输出集群信号之间的误差被减小或最小化。在许多常规聚集方法中将音频对象聚集成集群信号是基于音频对象的空间接近性。即，具有较小空间距离的音频对象被组合成一个集群，同时确保小的整体空间失真和/或保持整体感知。这个过程通常是有效的，只要音频内容中的所有感知相关对象的空间位置允许这种聚集具有合理小误差。

但是，音频对象的空间距离并不始终反映回放***上的音频对象在呈现之后的感知差异。在相同空间距离下，在回放***中，有可能一对音频对象听起来相似，而另一对音频对象听起来非常不同。图1A和1B描绘回放***中的音频对象的空间差异与呈现差异之间的可能失配的两个说明性实例。如在图1A中的扬声器回放***100的案例中展示，三个音频对象120、122和124被聚集成两个集群且进一步由5.1回放***重现。5.1回放***包含亚低音扬声器(未展示)、左(L)扬声器111、中央(C)扬声器112、右(R)扬声器113、右环绕(Rs)扬声器114和左环绕(Ls)扬声器115。在呈现期间，呈现器可用于用对应对象到扬声器增益将音频对象中的每一者呈现到扬声器111到115中的一或多者。

假设音频对象120与122之间的空间距离等于音频对象120与124之间的空间距离。根据扬声器回放***中的呈现器可采用的大多数呈现方案，音频对象120和122两者可呈现到包含扬声器111、112、114和115的作用扬声器组，而音频对象124可呈现到包含扬声器112、113、114和115的作用扬声器组。即，在许多情况中，音频对象120与122之间的呈现差异小于音频对象120与124之间的呈现差异，不过两对音频对象之间的空间差异是相同的。因此，可希望将音频对象120和122组合成一个集群且将音频对象124分配在另一集群中。

但是，常规的基于接近性的聚集方法归因于两对音频对象之间的相同空间差异而不能确保这些聚集结果。当音频对象122被移动到离音频对象120有点远的地方时，聚集结果可能更不可取，且借此在此情况中，音频对象120和124组合在一个集群中的概率将更高。在图1B中展示的耳机回放***101的案例中，也可发生空间差异与呈现差异之间的相同失配。在耳机案例101中，带有耳机(或耳麦)的倾听者140的倾听环境可虚拟化为以倾听者140为中心的虚拟房间130。三个音频对象150、152和154被聚集成两个集群且进一步由耳机回放***呈现，其中音频对象150与152之间的空间距离等于音频对象150与音频对象154之间的空间距离。

根据耳机回放***中的呈现器可采用的大多数呈现方案，可构造双耳模型且在双耳模型中利用头部相关传递函数(HRTF)来表示从位于各种空间位置处的声源到人耳的传播过程(或声音传递)。由于音频对象150和152在相对于倾听者140的相同方向上，所以用于呈现音频对象150的HRTF可相同或类似于用于呈现音频对象152的HRTF。在另一方向上的音频对象154的HRTF可非常不同于音频对象150和152的HRTF。即，在许多情况中，音频对象150与152之间的呈现差异小于音频对象150与154之间的呈现差异，不过两对音频对象之间的空间差异是相同的。但是，在此案例101中将发生与案例100中相同的不良聚集的问题。

两个音频对象之间的差异是音频对象聚集中的重要因素。但是，如上文论述，在一些情况中，基于传统空间差异的音频对象聚集可能无法提供所要呈现结果。为了改进音频对象聚集过程，本文中揭示的实例实施例引入用于音频对象聚集的新因素。通过由回放侧处的潜在呈现器呈现音频对象与由呈现器呈现另一音频对象之间的差异来测量此新因素。因此，此因素可被称为两个音频对象之间的呈现差异。由于相对于呈现器测量此因素，所以此因素也可被称为两个音频对象之间的呈现器意识感知差异(或距离)。如本文中使用，可互换地使用术语“呈现差异”、“呈现意识感知差异”、“感知差异”、“呈现意识感知距离”和“感知距离”。

根据本文中揭示的实例实施例，一对音频对象之间相对于呈现器的呈现差异是基于呈现器相关信息来确定且用于控制音频对象聚集过程。在一些实例实施例中，可取代两个音频对象之间的空间差异而使用呈现差异。在此情况中，在各种现有音频聚集方法中，空间差异的使用可简单地被呈现差异取代而不影响整个处理流程。替代地，在音频对象聚集期间，呈现差异可与空间差异组合地使用。例如，可通过对呈现差异和空间差异进行加权来确定两个音频对象之间的新差异。接着，可取代音频对象聚集过程中的两个音频对象的传统空间差异而使用新差异。

图2描绘根据本文中揭示的实例实施例的用于处理音频对象200的实例***。如展示，***200包含信息获得单元210、差异确定单元220和聚集子***230。信息获得单元210经配置以获得呈现器相关信息。呈现器相关信息可指示呈现器的配置。差异确定单元220经配置以基于从信息获得单元210提供的呈现器相关信息确定两个输入音频对象之间相对于呈现器的呈现差异。聚集子***230经配置以至少部分基于呈现差异而聚集输入音频对象。

在一些实施例中，输入音频对象是存储或传输到音频回放***以用于呈现的音频对象。为了减小存储、传输和/或呈现的复杂度，希望首先执行音频对象聚集。音频对象可具有描述与对象相关的信息的相关联元数据，例如空间位置(例如，二维或三维坐标)、速度、内容类型、对象宽度、响度和类似物。在音频聚集过程期间也可利用一些元数据。在一些情况中，也可存储或传输若干音频床连同音频对象，以便重现基于对象的音频。在一个实例中，音频床可被视为在音频对象聚集过程中具有固定对象位置的一或多个音频对象。替代地，音频床可不在聚集过程中处理而将直接连同集群信号一起存储或传输。

在一些实施例中，假设输入音频信号被分割成经受本文中揭示的处理的个别帧且所述帧中的每一者可包含多个输入音频对象和可能音频床。这种分割可应用于时域波形但也可使用滤波器组，或可在任何其它变换域(例如，离散余弦变换(DCT)、正交镜像滤波器(QMF)组、离散傅里叶变换(DFT)和类似物)上执行。本文中揭示的标的物范围不限于这个方面。

在音频回放***中，可设计且利用呈现器以将音频信号呈现到回放***的输出通道。如上文参考图1A和1B论述，如果具有相同或类似呈现方式的音频对象组合在较少集群中，那么音频对象聚集可展现更好结果。音频对象的呈现方式可取决于呈现器的配置。一般来说，许多回放***中的呈现器可采用各种不同方案或算法以将音频对象呈现到输出通道，但存在由大多数呈现器共享的一些配置(或准则)。基于那些共享配置，可能估计音频对象之间的呈现差异。由信息获得单元210获得的呈现器相关信息可包含回放侧处的潜在呈现器的这些呈现配置。

在一些实施例中，呈现器可包含扬声器回放***中采用的扬声器呈现器。扬声器回放***可包含布置在特定扬声器布局中的相同相对位置处的多个扬声器(也称为扩音器)。这种扬声器布局的实例包含(但不限于)5.1扬声器布局(其实例在图1A中展示)、7.1扬声器布局、7.1.4扬声器布局或7.1.6扬声器布局。扬声器呈现器通常可通过在多个扬声器中选择一组作用扬声器而跨扬声器馈送信号淘选音频对象。取决于扬声器呈现器所使用的呈现方案，所选的作用扬声器组可不同。呈现方案的实例包含(但不限于)成对淘选、质心淘选、三重平衡淘选和基于向量的振幅淘选(VBAP)。

在一些其它实施例中，呈现器可包含耳机回放***中采用的耳机(或耳麦)呈现器。在耳机呈现中，如上文提和，可构造双耳模型且在模型中利用HRTF来表示从位于空间位置处的声源(例如，音频对象)到人耳的传播过程(或声音传递)。在一些实例中，根据音频对象的方向(例如，以倾听者为参考点的仰角和方位角)，可通过使用在声学人体模型或一些其它结构模型上测量的复杂数据来单独地计算声源的不同位置的对应HRTF。一般来说，针对特定空间位置处的声源，通过使用HRTF的系数可以为人耳设计两个滤波器。在此情况中，可通过应用滤波器而将音频对象呈现到耳机的输出通道。取决于(在不同虚拟房间中或使用不同复杂数据建模的)不同呈现方案，耳机呈现器可为音频对象提供不同呈现结果。

在扬声器呈现器的情况中，由信息获得单元210获得的呈现器相关信息可指示参考扬声器布局(指示不同位置中的扬声器)和扬声器呈现器的预定义呈现方案。在耳机呈现器的情况中，由信息获得单元210获得的呈现器相关信息可指示耳机呈现器的预定义呈现方案。在一些实施例中，可为一或多个潜在扬声器或耳机呈现器预定义呈现器相关信息。例如，如果输入音频对象打算在扬声器环境中回放，那么只能配置扬声器呈现器相关信息。在一些实施例中，可预定义扬声器呈现器相关信息和耳机呈现器相关信息两者。

替代地或另外，可允许使用者定义呈现器相关信息(例如，使用哪种呈现器)、特定呈现方案和/或扬声器布局。将了解，有时即使没有获得呈现器配置的特定参数，仍然可以估计呈现器的可能呈现行为，从而确定音频对象之间的呈现器意识感知差异。

在一些实施例中，关于不同呈现器的不同呈现器相关信息，差异确定单元220可确定关于那些呈现器的不同呈现器意识感知差异且接着通过组合所确定的感知差异而提供用于聚集过程中的最终呈现差异。图3展示差异确定单元220的实例结构。如展示，差异确定单元220包含第一呈现器意识差异确定单元222、第二呈现器意识差异确定单元224和差异混合器226。在一些实施例中，第一呈现器意识差异确定单元222可经配置以基于扬声器呈现器相关信息来确定扬声器呈现器意识感知差异而第二呈现器意识差异确定单元224经配置以基于耳机呈现器相关信息来确定耳机呈现器意识感知差异。差异混合器226可经配置以对单元222和224所确定的感知差异进行加权。下文将详细论述扬声器呈现器意识感知差异和耳机呈现器意识感知差异的确定。

扬声器呈现器意识感知差异

如上文论述，扬声器呈现器的扬声器呈现器相关信息可指示参考扬声器布局(指示不同位置中的扬声器)和预定义呈现方案。基于扬声器呈现器相关信息，第一呈现器意识差异确定单元222可经配置以估计输入音频对象相对于扬声器呈现器的呈现行为且接着基于所估计的呈现行为测量不同音频对象之间的呈现差异。

在一些实施例中，为了测量音频对象k(第一音频对象)与音频对象m(第二音频对象)之间的耳机呈现器意识感知差异，第一呈现器意识差异确定单元222可基于参考扬声器布局和预定义呈现方案来确定音频对象k的一组对象到扬声器增益和音频对象m的另一组对象到扬声器增益。对象到扬声器增益可基于预定义呈现方案来定义由扬声器呈现器呈现到扬声器中的一者的相应音频对象的比例。在扬声器呈现中，如果音频对象相对于扬声器的对象到扬声器增益是非零的，那么这个扬声器可作用于这个音频对象。针对用于音频对象的非作用扬声器，对应对象到扬声器增益可确定为零。一般来说，扬声器呈现器可跨具有非零对象到扬声器增益的一或多个作用扬声器呈现音频对象。

在一些实施例中，呈现器相关信息可包含不同空间位置处的不同音频对象的对象到扬声器增益，它们基于参考扬声器布局和对应呈现方案来预定。在此情况中，第一呈现器意识差异确定单元222可基于来自呈现器相关信息的空间位置来识别音频对象k和m的对象到扬声器增益。在一些其它实施例中，第一呈现器意识差异确定单元222可基于预定义呈现方案直接估计参考扬声器布局中的音频对象k和m的对象到扬声器增益。

在一些实施例中，可通过测量两组对象到扬声器增益之间的差异来确定音频对象k和m之间的扬声器呈现器意识感知差异。例如，扬声器呈现器意识感知差异可与两组对象到扬声器增益之间的差异正相关。即，两组对象到扬声器增益之间的差异越大，扬声器呈现器意识感知差异越大。在一个实例中，扬声器呈现器意识感知差异等于两组对象到扬声器增益之间的差异，如下文表示。

其中D_spk(k,m)表示音频对象k与m之间的扬声器呈现器意识感知差异，

和

分别表示音频对象k和m的增益向量，它们各包含相应音频对象的对象到扬声器增益，且

表示两组对象到扬声器增益

与

之间的差异。将了解，在一些其它实例中，感知差异D_spk(k,m)可为

的倍数。

在一些实施例中，两组对象到扬声器增益之间的差异

经测量为两个增益向量

与

之间的欧几里得(Euclidean)距离，这可表示如下：

其中‖ ‖₂表示

和

的欧几里得范数，其用于确定两个向量的欧几里得距离。在一个实例中，欧几里得范数可通过将向量中的对应元素的差值中的每一者平方，对平方结果求和且接着提取和的根来计算。在一些其它实施例中，可以许多其它方式测量两组对象到扬声器增益之间的差异

且本文中揭示的标的物范围不限于这个方面。

在一些其它实施例中，第一呈现器意识差异确定单元222可基于两个音频对象的作用扬声器组来确定扬声器呈现器意识感知差异。针对扬声器回放***，(由***中的扬声器定义的)呈现空间可划分为若干呈现扬声器区域，因为不同空间位置中的音频对象可呈现到不同组作用扬声器。音频对象的呈现扬声器区域可包含用非零增益呈现音频对象的一或多个作用扬声器。

在音频聚集期间，不同呈现扬声器区域中的两个音频对象可能组合在一起以作为集群呈现在扬声器区域中的(仅)一者中，且接着其它扬声器区域的一些作用扬声器在聚集之后变得不起作用。为了避免这种状况，可能方法是将扬声器区域信息并入扬声器呈现器意识感知差异中。例如，如果对象在不同呈现扬声器区域中，那么感知差异可相应地增加，从而确保减小梳理集群中的对象的概率。

为了确定音频对象k和m在相同扬声器区域还是不同扬声器区域中呈现，在一些实施例中，第一呈现器意识差异确定单元222可识别音频对象k的第一作用扬声器组，其可包含(例如，参考扬声器布局中的)用非零对象到扬声器增益呈现音频对象k的扬声器中的至少一者。也可以由单元222以类似方式识别音频对象m的第二作用扬声器组。第一呈现器意识差异确定单元222可接着通过确定第一和第二作用扬声器组中的一者是否覆盖第一和第二作用扬声器组中的另一者而确定音频对象k和m是否可在相同呈现扬声器区域中呈现。总之，可按照以下方式确定相同呈现扬声器区域。

其中

表示音频对象k的作用扬声器组，其仅包含具有非零对象到扬声器增益的扬声器，

表示音频对象m的作用扬声器组，其仅包含具有非零对象到扬声器增益的扬声器。方程式(3)指示如果作用扬声器组

包含在组

中或如果作用扬声器组

包含在组

中，这意味着音频对象k的呈现扬声器区域被音频对象m的呈现扬声器区域完全覆盖或相反，那么确定音频对象k和m可在相同呈现扬声器区域中呈现。

如果音频对象k和m被确定为在相同呈现扬声器区域中呈现，那么第一呈现器意识差异确定单元222可确定两个音频对象k与m之间的呈现差异(或感知差异)是小的。否则，两个音频对象k与m之间的呈现差异可增加。在一些实例中，可按照以下方式基于所述组对象到扬声器增益之间的差异

和音频对象的呈现扬声器区域两者来确定扬声器呈现器意识感知差异D_spk(k,m)。

其中Z_spk(k,m)表示基于确定音频对象k和m是否在相同扬声器区域中呈现的函数。将了解，在一些其它实例中，可仅由Z_spk(k,m)确定扬声器呈现器意识感知差异D_spk(k,m)。

在一些实例中，函数Z_spk(k,m)可在确定对象k和m在相同扬声器区域中呈现时具备较小值(例如，值1)且在确定对象k和m没有在相同扬声器区域中呈现时具有较高值(例如，大于1的值)。在一个实例中，Z_spk(k,m)可表示如下。

其中

是大于1的值。将了解，Z_spk(k,m)也可以在确定对象k和m在相同呈现扬声器区域中呈现时指派有大于或小于1的值。Z_spk(k,m)的值

可设置为大于在对象k和m在相同扬声器区域中呈现时设置的值。

耳机呈现器意识感知差异

如上文论述，耳机呈现器相关信息可指示耳机呈现器的预定义呈现方案。呈现方案可指示如何通过应用滤波器以表示或模拟从声源到人耳的声音传递而呈现声源。基于耳机呈现器相关信息，第二呈现器意识差异确定单元224可经配置以估计输入音频对象相对于耳机呈现器的呈现行为且接着基于呈现行为测量不同音频对象之间的呈现差异。

在一些实施例中，为了测量音频对象k与音频对象m之间的耳机呈现器意识感知差异，第二呈现器意识差异确定单元224可基于预定义呈现方案来确定用于由耳机呈现器呈现音频对象k的第一滤波器。第二呈现器意识差异确定单元224也可以基于相同呈现方案来确定用于由耳机呈现器呈现音频对象m的第二滤波器。在一些实例中，第一和第二滤波器(也称为HRTF滤波器)可由相应空间位置处的音频对象k和m的声源的HRTF系数构成。一般来说，由音频对象的耳机呈现器确定的滤波器是基于音频对象相对于倾听者头部(例如，用于确定HRTF的人体模型)的角度或方向。因此，包含在其元数据中的音频对象k和m的空间位置可用于确定音频对象的空间位置的角度且所述角度可反过来用于构造对应滤波器。

在一些实施例中，所获得的呈现方案可包含不同空间位置(或不同方向)处的声源的多个预定义滤波器。接着，第二呈现器意识差异确定单元224可基于对象的空间位置(或方向)从呈现方案识别第一和第二滤波器。

接着可通过测量第一和第二滤波器的呈现输出之间的差异而基于第一和第二滤波器确定两个音频对象之间的耳机呈现器意识感知差异。在一些实例中，可通过第一和第二滤波器之间的滤波差异来测量呈现输出的差异。耳机呈现器意识感知差异可与两个滤波器之间的滤波差异正相关。即，滤波差异越大，感知差异越大。在一些实例中，感知差异等于滤波差异，如下文表示。

其中D_hp(k,m)表示音频对象k与m之间的耳机呈现器意识感知差异，

表示用于音频对象k的HRTF滤波器，

表示用于音频对象m的HRTF，且

表示

与

之间的滤波差异。将了解，感知差异D_hp(k,m)可为滤波差异

的倍数。

在实例实施例中，通过确定第一和第二滤波器的光谱之间的差异来测量滤波差异

例如，滤波差异

可被确定为两个滤波器的光谱的欧几里得范数，这可表示如下。

其中

和

分别表示滤波器

和

在不同频带处的光谱向量，且‖‖₂表示光谱向量的欧几里得范数。在一个实例中，欧几里得范数可通过将光谱向量中的对应元素的差值中的每一者平方，对平方结果求和且接着提取和的根来计算。将了解，可以许多其它方式测量两个滤波器的滤波差异，例如，通过确定第一和第二滤波器的滤波器系数之间的差异。

在一些实施例中，针对音频对象k和m确定的第一和第二滤波器可为表示从声源到左人耳的传播过程的滤波器或表示从声源到右人耳的传播过程的滤波器中的任一者。在一个实例中，可针对音频对象k和m中的每一者确定用于左右人耳的两个滤波器。在此情况中，音频对象k和m的耳机呈现器意识感知差异可为用于左人耳的两个滤波器之间的第一耳机呈现器意识感知差异和用于右人耳的两个滤波器之间的第二耳机呈现器意识感知差异的加权差异。在一些其它实例中，由于用于左右人耳的滤波器可类似于特定声源，所以只可以针对音频对象估计滤波器中的一者且将其用于确定耳机呈现器意识感知差异。

在一些实施例中，由于HRTF滤波器可取决于音频对象的角度而变化，所以耳机呈现器意识感知差异可替代地或另外基于音频对象k和m的角度之间的角度差异来确定。如上文提和，可相对于倾听者头部测量特定空间位置处的音频对象的角度。耳机呈现器意识感知差异可与角度差异正相关。在一些实施例中，可基于音频对象k和m的方位角和/或仰角之间的差异来测量角度差异。在一些实施例中，可通过以线性或非线性方式对滤波差异和角度差异进行加权来确定耳机呈现器意识感知差异。替代地，可仅通过角度差异来确定耳机呈现器意识感知差异。

组合呈现器意识感知差异

在一些实施例中，针对不同呈现器确定的呈现器意识感知差异可以由差异确定单元220中包含的差异混合器226组合。上文论述音频对象的两种呈现器意识感知差异：扬声器呈现器意识感知差异和耳机呈现器意识感知差异。来自单元222和224的这些呈现器意识感知差异可组合在一起以作为用于音频聚集过程中的整体呈现器意识感知差异。在一些实施例中，信息获得单元210可获得不同扬声器呈现器和/或耳机呈现器的呈现器相关信息。在这种情况中，第一呈现器意识差异确定单元222可以能够确定相对于不同扬声器呈现器的多个扬声器呈现器意识感知差异，且第二呈现器意识差异确定单元224也可以能够确定相对于不同耳机呈现器的多个耳机呈现器意识感知差异。

在一些实施例中，所有呈现器意识感知差异可与对应权重组合以确定整体呈现器意识感知差异，如下所述。

其中D_ren(k,m)表示音频对象k与m之间的呈现器意识感知差异，S表示扬声器呈现器的数量，H表示耳机呈现器的数量，

表示音频对象k与m之间的第i个扬声器呈现器意识感知差异，

表示音频对象k与m之间的第i个耳机呈现器意识感知差异，且α_i和β_i表示对应感知差异的权重。

对于参考扬声器布局和呈现方案的每一组合，可以在数字S中考虑不同扬声器呈现器。类似地，可基于呈现器相关信息中指示的呈现方案来确定耳机呈现器的数量H。在一些实例中，S和H可大于或等于1。权重α_i和β_i可被预设为小于1的任何值。在一个实例中，α_i可被设置为等于1/S，而β_i可被设置为等于1/H。在其它实例中，可针对相对于相对导入呈现器确定的感知差异来设置相对高权重α_i或β_i。标的物范围不限于这个方面。

应了解，尽管展示呈现器意识感知差异在方程式(8)中被线性加权，但是在一些其它实例中，可以非线性方式对呈现器意识感知差异进行加权。在一些其它实施例中，可以将相对于每一不同呈现器确定的呈现器意识感知差异单独地提供给聚集子***230以改进这个呈现器的聚集结果。在这些实施例中，可省略差异确定单元220中的差异混合器226。

如上文论述，可在音频聚集过程中直接使用两个音频对象的呈现器意识感知差异(例如，以取代传统空间差异)或可与空间差异结合使用以表示两个音频对象之间的整体差异。在一个实施例中，音频对象k和m之间的整体差异可为呈现器意识感知差异和空间差异的线性加权和，其可表示如下。

D(k，m)＝γ*D_pos(k，m)+(1-γ)*D_ren(k，m) (9)

其中D(k，m)表示音频对象k和m之间的整体差异，D_pos(k，m)表示音频对象k和m的空间位置之间的空间差异，D_ren(k，m)表示音频对象k和m之间的呈现器意识感知差异，且γ和(1-γ)D_pos(k，m)D_ren(k，m)分别表示空间差异和呈现器意识感知差异的权重。在一些实施例中，γ可在0到1的范围内。例如，γ可具有值0.3、0.5或0.7。在一些其它实例中，γ可在任何其它值范围内且标的物范围不限于这个方面。在γ等于0的情况中，在音频聚集过程中仅使用呈现器意识感知差异D_ren(k，m)来表示音频对象k和m之间的差异。可由差异确定单元220或聚集子***230来执行整体差异D(k，m)的确定。

上文论述呈现器意识感知差异和两个音频对象之间的整体差异。应了解，可确定呈现器意识感知差异和/或一些或所有输入音频对象中的每两个的整体差异。因此，在音频对象聚集期间，一些对的输入音频对象的差异可由呈现器意识呈现差异或呈现和空间差异的组合来表示，而其它对的音频对象的差异仍然可由空间差异表示。

使用呈现器意识感知差异可改进聚集子***230中的音频对象聚集过程。在可由聚集子***230采用的许多现有音频聚集方法中，两个音频对象之间的空间差异可被视为确定两个音频对象是聚集在一个集群中还是聚集在不同集群中的重要因素。一般来说，输出集群的数量可以是预定的，其可为大于1的数量。音频对象聚集的典型过程可包含两个主要阶段。第一阶段是确定预定数量的输出集群的集群位置。第二阶段是确定用于将输入音频对象聚集到集群位置处的输出集群中的增益。这些增益也可被称为对象到集群增益。对象到集群增益可定义分配给与所确定的集群位置中的一者相关联的输出集群的相应音频对象的比例。

图4描绘传统聚集子***230，其包含集群位置选择器232和对象分配器234。集群位置选择器232可经配置以确定输出集群的集群位置。在一些实施例中，集群位置选择器232可基于音频对象的重要性和/或音频对象的空间分布从输入音频对象选择若干音频对象。接着，可将所选择的音频对象的空间位置视为集群信号的空间位置。所选择的音频对象的数量可等于或小于集群信号的预定数量。替代地或另外，集群位置选择器232也可以将集群位置确定为除了音频对象的位置之外的一些位置。例如，可确定集群位于两个音频对象之间。

对象分配器234可经配置以基于所确定的集群位置来确定输入音频对象的对象到集群增益。在传统音频对象聚集中，对象到集群增益的确定可以基于音频对象的空间位置与集群位置之间的空间接近性。如果音频对象更接近集群位置，那么可将相对于这个位置处的集群的更高增益分配给这个对象。否则，增益可能更小或可能为零。针对集群位置处的音频对象，它可以在此集群中完全组合，其中对象到集群增益为1。

在本文中揭示的实例实施例中，描述了通过使用呈现器意识感知差异来改进传统音频对象聚集过程。在一些实施例中，可将呈现器意识感知差异引入到聚集过程中与音频对象的空间距离相关的任何阶段。在一些实例中，可使用呈现器意识感知差异来估计一些度量以控制聚集过程的一些组件。下文详细说明呈现器意识感知差异的一些实例用法。

图5描绘根据本文中揭示的实例实施例的使用感知差异的实例聚集子***230。如展示，除了集群位置选择器232和对象分配器234之外，聚集子***230可进一步包含重要性估计器236和失真估计器238。重要性估计器236可经配置以基于呈现器意识感知差异来确定每一输入音频对象的相对重要性以引导集群位置选择器232中的集群位置选择。更具体来说，在集群位置选择方面，在所有对象中具有高(感知)重要性的音频对象可优先于具有低重要性的对象。

失真估计器238可经配置以基于呈现器意识感知差异来确定用于集群位置选择的不同方式的失真，以便控制集群位置选择器232以确定具有相对低的呈现失真的集群位置。对象分配器234可经配置以在确定集群位置之后基于呈现器意识感知差异来确定对象到集群增益。

在一些实施例中，可由重要性估计器236基于音频对象的部分响度(和音频对象的内容类型)来确定音频对象的相对重要性。可使用一些附加或替代度量来量化相对重要性，例如音频对象的能量、响度和内容类型中的一或多者。关于部分响度，音频对象的感知响度通常在其它音频对象的上下文中被掩盖。例如，音频对象可(部分地)被场景中存在的其它音频对象和/或床通道掩盖。在实例实施例中，在集群位置选择期间，具有高部分响度的音频对象优于具有低部分响度的对象。因此，相对未掩盖(即，感知上更响)的音频对象可能不太可能被聚集，而相对被掩盖的音频对象更可能被聚集。

在一些实施例中，为了确定音频对象的部分响度，可确定输入音频对象相对于另一输入音频对象的掩盖程度。传统上，简单地基于两个音频对象之间的空间距离来确定掩盖程度，其中掩盖程度与空间距离正相关。与在传统方法中仅基于空间差异确定掩盖程度不同，在本文中揭示的一些实例实施例中，可基于呈现器意识感知差异(或基于呈现器意识感知差异和空间差异两者的整体差异)来确定掩盖程度。

可基于这个音频对象相对于其它输入音频对象的掩盖程度来确定音频对象的部分响度。在实施例中，可针对差异临界频带确定部分响度。假设在临界频带b中存在具有激励水平E_k(b)的K个音频对象(k＝1、……、K)，可基于输入音频对象的激励水平E_k(b)和每对音频对象k和m的掩盖程度来确定音频对象k的部分响度N'_k(b)。在实例中，音频对象k在频带b中的部分响度N'_k(b)可与掩盖程度正相关。即，掩盖程度越高，部分响度N'_k(b)越大。

在基于空间差异确定掩盖程度的传统情况中，可按照如下方式确定部分响度N'_k(b)。

其中E_m(b)表示音频对象m在临界频带b中的激励水平，f_pos(k,m)表示音频对象k相对于音频对象m的掩盖程度，且A和α分别表示建模参数。方程式(10)中的项

可表示输入音频对象的听觉场景的整体激励。方程式(10)中的项

可反映除音频对象k之外的整体激励且因此可被解释为适用于音频对象k的术语“掩盖”。在一些实例中，A可被设置为值1，且α可被设置为值0.2。在一些其它实例中，A和α可被设置为例如2和0.3、3和0.5或类似物的任何其它值。

当呈现器意识感知差异可用时，当确定部分响度时，基于空间距离的掩盖程度可替换为基于呈现器意识感知差异的掩盖程度(表示为“f_ren(k,m)”)。接着可按照如下方式重写方程式(10-1)。

其中f_ren(k,m)表示音频对象k相对于音频对象m的掩盖程度。

掩盖程度f_ren(k,m)可为呈现器意识感知差异的函数。一般来说，音频对象k相对于音频对象m的掩盖程度f_ren(k,m)可等于音频对象m相对于音频对象k的掩盖程度f_ren(m,k)。在一些实施例中，掩盖程度可与呈现器意识感知差异负相关。例如，掩盖程度f_ren(k,m)在音频对象k和m之间的感知差异为零时具有等于1的值且随着感知差异的增加而减小到0。如果音频对象k相对于所有其它输入音频对象的呈现器意识感知差异相对较小，那么掩盖程度可能相对较高且因此音频对象k的所得部分响度较高。

在一些其它实施例中，可基于空间差异和呈现器意识感知差异两者来确定两个音频对象的掩盖程度。例如，基于呈现器意识感知差异的第一掩盖程度f_ren(k,m)可以及基于空间差异的第二掩盖程度f_pos(k,m)相乘且乘法结果可用于确定部分响度。这样，部分响度的确定可表示如下。

在一些其它实例中，可对掩盖程度f_pos(k,m)和f_ren(k,m)进行加权以提供用于确定部分响度的总和掩盖程度。替代地，整体掩盖程度f(k,m)可基于方程式(9)中的整体差异D(k,m)来确定且接着用于确定部分响度(例如，通过替换方程式(11)中的项f_pos(k,m)*f_ren(k,m))。标的物范围不限于此范围。

可将音频对象的相对重要性确定为与音频对象在临界频带中的部分响度(或所有临界频带中的部分响度)正相关。例如，可将相对重要性测量为等于部分响度或可为部分响度的倍数。如上文提和，可在相对重要性中替代地或另外考虑与音频对象相关的其它因素。在集群位置选择器232中，可基于输入音频对象的相对重要性来确定预定数量的集群的集群位置。例如，如上文提和，在集群位置选择方面，具有较大相对重要性的音频对象可能优于具有较小相对重要性的音频对象。因此，在一些实施例中，可选择集群位置作为具有较大相对重要性的音频对象的位置。

在一些实施例中，为了保持呈现输出集群的质量并避免回放***上的大呈现失真，在集群位置选择期间，对呈现输出通道具有大贡献的音频对象将优于对呈现输出通道具有较小贡献的音频对象，尤其是对于具有大呈现失真的输出通道。输出通道可包含对应于扬声器回放***中的多个扬声器的通道或对应于耳机的通道。在确定呈现失真时，可考虑参考扬声器布局和/或参考耳机。

在一些实施例中，集群位置选择器232可首先确定一组初始集群位置(表示为“C”)且接着失真估计器238可估计初始集群位置的呈现失真(表示为“d_o(C)”)。呈现失真d_o(C)可用于更新由集群位置选择器232确定的集群位置。在一些实施例中，可通过由潜在呈现器将音频对象呈现到输出通道且由呈现器将初始集群信号呈现到输出通道来测量呈现失真。

更具体来说，呈现失真可由音频对象的比率(表示为“r_o(C)”)确定，所述比率可通过初始集群位置正确地呈现到输出通道。在一些实例中，可按照如下方式确定呈现失真d_o(C)。

d_o(C)＝F(r_o(C)) (12)

其中F()表示关于比率r_o(C)的递减函数且可具有更高值，其中比率r_o(C)递减，K表示输入音频对象的数量，E_k表示音频对象k在整个频带范围或音频对象k的特定频带中的激励水平，E_k,c表示初始集群c上的音频对象k的激励水平(其中c＝1、……、Q)，Q是集合C中的初始集群的数量，g_c,o表示用于将初始集群c呈现到输出通道o的集群到通道增益，且g_k,o表示用于将音频对象k呈现到输出通道o的对象到通道增益。

比率r_o(C)可用于表示将音频对象呈现到输出通道和将初始集群位置处的初始集群信号呈现到输出通道之间的呈现差异。可通过基于初始集群位置C聚集输入音频对象而产生初始集群信号。在耳机呈现的一些情况中，可基于将音频对象呈现到耳机的输出通道和将初始集群信号C呈现到输出通道之间的呈现差异来替代地确定比率r_o(C)。

在一些实施例中，初始集群位置C可由集群位置选择器232针对所有预定数量的集群进行初始化。在集群位置选择器232依序选择集群位置的一些其它实施例中，初始集群位置可包含预定数量的集群中的一者的位置且可通过执行更新过程来扩展以包含更多集群位置。如上文提和，集群位置可为音频对象的准确位置或音频对象之间的任何其它位置。

在一些实施例中，可基于对象到集群增益来确定集群c上的音频对象k的激励水平E_k,c，其可表示如下。

E_k,c＝g_k,c ²*E_k (14)

其中g_k,c表示用于将音频对象k呈现到集群c的对象到集群增益。替代地或另外，在确定E_k,c时可考虑音频对象k和集群c之间的掩盖程度。可基于音频对象k和集群c之间的呈现器意识感知差异和/或音频对象k和集群c之间的空间差异来确定掩盖程度。在为集群位置选择音频对象的位置的一些实例中，可能已经由差异确定单元220确定音频对象k和集群c之间的呈现器意识感知差异。在一些其它实例中，可通过将集群c视为音频对象，以如上文描述的方式确定音频对象k和集群c之间的呈现器意识感知差异。

在集群位置选择器232依序选择集群位置的一些实施例中，可通过并入新集群而依序更新集群位置。每次选择新的集群位置时，可首先通过移除由先前选择的集群c-1掩盖的对象k的激励水平来更新音频对象k的激励水平E_k，其可表示如下。

E′_k＝E_k-E_k,c-1 (15)

其中E′_k表示更新的激励水平，E_k表示先前的激励水平且E_k,c-1表示由先前选择的集群c-1掩盖的音频对象k的激励水平。初始值E_k,0可以设置为0。

可基于音频对象k与所选择的集群位置c处的集群之间的掩盖程度来确定当前所选集群位置c上的音频对象k的激励水平，其可表示如下。

E′_k,c＝f_ren(k,c)*E′_k (16)

其中E′_k,c表示集群c上的音频对象k的激励水平，f_ren(k,c)表示音频对象k相对于所选择的集群c的掩盖程度。可基于音频对象k和集群c之间的呈现感知差异来确定掩盖程度f_ren(k,c)。

在更新过程期间，更新的激励水平E′_k和E′_k,c可用于通过使用方程式(12)和(13)来更新呈现失真。基于更新的呈现失真，集群位置选择器232可选择下一个集群位置以将其置于集群位置集合C中。集群位置集合C可连续更新，直到选择了预定数量的集群位置。

在一些实施例中，基于呈现失真，可确定音频对象对输出通道质量的呈现重要性。此呈现重要性可与基于相对于其它音频对象的部分响度确定的音频对象的相对重要性不同。此重要性可进一步用于引导集群位置选择。一般来说，为了避免一些输出通道上的大失真，具有大失真的通道在计算重要性时可能具有大权重。在一个实施例中，可通过将此音频对象k的对象到通道增益与不同输出通道上的呈现失真相乘来确定音频对象k对输出通道质量的重要性。

在一些实例中，确定呈现重要性(表示为“I_k”)可按照如下方式确定：

其中

表示用于将音频对象k呈现到输出通道的增益向量且可包含用于相应O个输出通道的O个元素g_ko，且

表示针对O个输出通道确定的呈现失真向量且可包含用于相应O个输出通道的O个元素d_o。可通过使用方程式(12)和(13)来确定失真d_o。从方程式(17)可以看出，如果音频对象k相对于一些通道具有大增益，而这些通道上的呈现失真很大，那么音频对象的重要性可能很大。在集群位置选择期间，具有大呈现重要性的音频对象可能优于在集群位置选择期间具有小呈现重要性的对象。

在一些实施例中，除了部分响度之外，可基于呈现重要性I_k进一步确定音频对象的相对重要性。在一个实施例中，呈现重要性I_k可用于更新音频对象k的部分响度。例如，可通过将由方程式(10)或(11)计算的部分响度与呈现重要性I_k相乘来更新音频对象k在临界频带b中的部分响度，其可表示如下。

N″_k(b)＝N′_k(b)*I_k (18)

其中N″_k(b)表示更新的部分响度。接着，可使用更新的部分响度N″_k(b)来更新在重要性估计器236中确定的相对重要性。应了解，相对重要性可以替代地基于呈现重要性I_k而不是部分响度。

仍然参考图5，对象分配器234可基于集群位置确定输入音频对象的对象到集群增益。在一些实施例中，对象到集群增益的确定可进一步基于输入音频对象之间的呈现器意识感知差异(或整体差异)。在许多现有对象分配方法中，可通过将对象添加到其最近的相邻集群位置或通过三角测量、使用向量分解或任何其它手段将对象混合到一些或所有集群中而将对象分配给集群以最小化对象的空间误差。所有现有的对象到集群分配方法都基于对象和集群之间的空间差异(或空间距离)。为了改进回放侧上的性能，在一些实施例中，可直接使用呈现器意识感知差异(或基于感知差异和空间差异两者的整体差异)来取代分配过程中的传统空间差异。

下文为了说明目的给出集群分配的详细实例。在一些现有对象分配方法中，确定对象到集群增益的一种方法是最小化总成本函数。总成本函数可与音频对象位置和集群位置之间的距离的成本函数相关。总成本函数也可以与对象在跨集群分布其信号之后的空间位置的成本函数以及能量的获得或损失的另一成本函数相关。

为了避免音频对象k由远离其对象位置的集群表示，可通过将对象到集群增益与音频对象和集群之间的空间距离相乘来确定音频对象位置和集群位置之间的距离的成本函数，其可表示如下。

其中C_D表示成本函数，C表示集群的数量；g_k,c表示由对象分配器234确定的用于将音频对象k呈现到集群c的对象到集群增益，且D_pos(k,c)表示由集群位置选择器232确定的音频对象k与集群c的集群位置之间的空间距离。

在本文中揭示的实施例中，利用所确定的两个音频对象之间的呈现器意识感知差异，可通过用呈现器意识感知差异替换空间距离来重写方程式(19)中的成本函数，其可表示如下。

其中D_ren(k,c)表示音频对象k和集群c之间的呈现器意识感知差异。例如，可通过方程式(8)确定呈现器意识感知差异D_ren(k,c)。在集群c的集群位置是音频对象的空间位置的一些实例中，可已经由差异确定单元220确定D_ren(k,c)。从方程式(20)可以看出，当音频对象k与一些集群之间的呈现器意识感知差异很小时，可将对象到集群增益确定为大值，使得成本函数C_D的值可减小或最小化。

应了解，给出上文实例是为了说明目的且可在对象分配的各种其它方面中采用音频对象之间的感知差异。

图6描绘根据本文中揭示的一个实例实施例的处理音频对象600的过程的流程图。在步骤610，获得呈现器相关信息。呈现器相关信息指示呈现器的配置。在步骤620中，基于所获得的呈现器相关信息确定音频对象中的第一音频对象和第二音频对象之间相对于呈现器的呈现差异。在步骤630中，至少部分基于呈现差异而聚集第一和第二音频对象。

在一些实例实施例中，呈现器可包含扬声器呈现器且呈现器相关信息可指示参考扬声器布局(指示不同位置处的扬声器)和扬声器呈现器的预定义呈现方案。在一些实例实施例中，可通过以下步骤确定呈现差异：基于参考扬声器布局和预定义呈现方案确定第一音频对象的第一组对象到扬声器增益和第二音频对象的第二组对象到扬声器增益，对象到扬声器增益定义由扬声器呈现器基于预定义呈现方案呈现到扬声器中的一者的相应音频对象的比例；及基于第一和第二组对象到扬声器增益来确定呈现差异。

在一些实例实施例中，可将呈现差异确定为与第一和第二组对象到扬声器增益之间的差异正相关。

在一些实例实施例中，可通过以下步骤进一步确定呈现差异：识别包含扬声器中的至少一者的第一作用扬声器组，其用第一组中的非零对象到扬声器增益呈现第一音频对象；识别包含扬声器中的至少一者的第二作用扬声器组，其用第二组中的非零对象到扬声器增益呈现第二音频对象；及进一步基于确定第一和第二作用扬声器组中的一者是否覆盖第一和第二作用扬声器组中的另一者而确定呈现差异。

在一些实例实施例中，呈现器可包含耳机呈现器且呈现器相关信息可指示耳机呈现器的预定义呈现方案。在一些实例实施例中，可通过以下步骤确定呈现差异：基于预定义呈现方案确定用于通过耳机呈现器呈现第一音频对象的第一滤波器和用于通过耳机呈现器呈现第二音频对象的第二滤波器；及基于第一和第二滤波器来确定呈现差异。

在一些实例实施例中，可通过进一步基于第一和第二音频对象的空间位置之间的角度差异确定呈现差异而进一步确定呈现差异。

在一些实例实施例中，可通过基于第一滤波器的第一光谱和第二滤波器的第二光谱之间的差异确定呈现差异而确定呈现差异。

在一些实例实施例中，可通过使用呈现差异代替第一和第二音频对象之间的空间距离或与空间距离结合使用来聚集音频对象而聚集音频对象。

在一些实例实施例中，可通过以下步骤聚集音频对象：基于呈现差异测量第一和第二音频对象相对于彼此的掩盖程度；基于掩盖程度确定音频对象中的第一音频对象的第一部分响度和第二音频对象的第二部分响度；及基于第一和第二部分响度聚集音频对象。

在一些实例实施例中，可通过以下步骤聚集音频对象：基于第一和第二部分响度确定集群位置；基于集群位置确定音频对象的对象到集群增益，对象到集群增益定义分配给与所确定的集群位置中的一者相关联的集群信号的相应音频对象的比例；及基于对象到集群增益聚集音频对象。

在一些实例实施例中，可通过以下步骤确定集群位置：确定初始集群位置；通过基于初始集群位置聚集音频对象而产生初始集群信号；至少部分基于第一和第二部分响度测量由呈现器将音频对象呈现到输出通道和由呈现器将初始集群信号呈现到输出通道之间的呈现失真；及通过基于呈现失真更新初始集群位置而确定集群信号的集群位置。

应了解，***200的组件可为硬件模块或软件单元模块。例如，在一些实施例中，***可部分或完全实施为软件和/或固件，例如，实施为体现在计算机可读介质中的计算机程序产品。替代地或另外，***可部分或完全基于硬件来实施，例如，作为集成电路(IC)，专用集成电路(ASIC)，片上***(SOC)，现场可编程门阵列(FPGA)等。本文中揭示的标的物范围不限于这个方面。

图7描绘适于实施本文中揭示的实例实施例的实例计算机***700的框图。如描绘，计算机***700包含中央处理单元(CPU)701，其能够根据存储在只读存储器(ROM)702中的程序或从存储单元708加载到随机存取存储器(RAM)703的程序执行各种过程。在RAM 703中，还根据需要存储CPU 701执行各种过程或类似物时所需的数据。CPU 701、ROM 702和RAM703经由总线704彼此连接。输入/输出(I/O)接口705也连接到总线704。

以下组件连接到I/O接口705：输入单元706，其包含键盘、鼠标或类似物；输出单元707，其包含例如阴极射线管(CRT)，液晶显示器(LCD)或类似物的显示器和扩音器或类似物；存储单元708，其包含硬盘或类似物；通信单元709，其包含例如LAN卡、调制解调器或类似物的网络接口卡。通信单元709经由例如因特网的网络执行通信过程。根据需要，驱动器710也连接到I/O接口705。可移动介质711(例如磁盘、光盘、磁光盘、半导体存储器或类似物)根据需要安装在驱动器710上，使得根据需要将从其读取的计算机程序安装到存储单元708中。

具体来说，根据本文中揭示的实例实施例，上文参考图6描述的过程600可实施为计算机软件程序。例如，本文中揭示的实例实施例包含计算机程序产品，所述计算机程序产品包含有形地体现在机器可读介质上的计算机程序，所述计算机程序包含用于执行过程600的程序代码。在这种实施例中，计算机程序可经由通信单元709从网络下载和安装和/或从可移动介质711安装。

一般来说，本文中揭示的各种实例实施例可以硬件或专用电路、软件、逻辑或其任何组合来实施。一些方面可以硬件实施，而其它方面可以可由控制器、微处理器或其它计算装置执行的固件或软件来实施。虽然本文中揭示的实例实施例的各个方面说明并描述为框图、流程图或使用一些其它图形表示，但是应了解，本文中揭示的框、设备、***、技术或方法可以(作为非限制性实例)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算装置或其某种组合来实施。

另外，流程图中展示的各种框可被视为方法步骤和/或由计算机程序代码的操作产生的操作和/或经构造以执行相关功能的多个耦合逻辑电路元件。例如，本文中揭示的实例实施例包含计算机程序产品，所述计算机程序产品包含有形地体现在机器可读介质上的计算机程序，所述计算机程序含有经配置以执行如上文描述的方法的程序代码。

在本发明的上下文中，机器可读介质可为任何有形介质，其可含有或存储供指令执行***、设备或装置使用或与其结合使用的程序。机器可读介质可为机器可读信号介质或机器可读存储介质。机器可读介质可包含(但不限于)电子、磁、光学、电磁、红外或半导体***、设备或装置或前述的任何合适组合。机器可读存储介质的更特定实例将包含具有一个或多个电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述的任何合适组合。

用于实施本文中揭示的方法的计算机程序代码可用一或多种编程语言的任何组合来编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器，使得程序代码在由计算机或其它可编程数据处理装置的处理器执行时导致实施流程图和/或框图中指定的功能/操作。程序代码可完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。程序代码可以分布在专门编程的装置上，所述装置在本文中通常可以称为“模块”。模块的软件组件部分可用任何计算机语言编写且可为单片代码库的部分，或可在更离散的代码部分中开发，例如在面向对象的计算机语言中是典型的。另外，模块可以分布在多个计算机平台、服务器、终端、移动装置和类似物上。甚至可以实施给定模块，使得所描述的功能由单独的处理器和/或计算硬件平台执行。

如在本申请案中使用，术语“电路”是指以下所有内容：(a)仅硬件电路实施方案(例如仅在模拟和/或数字电路中的实施方案)和(b)电路和软件(和/或固件)的组合，例如(如适用)：(i)处理器的组合或(ii)处理器/软件的部分(包含数字信号处理器、软件和存储器，它们一起工作以使设备(例如，移动电话或服务器)执行各种功能)和(c)电路，例如微处理器或微处理器的部分，即使软件或固件实际上不存在，也需要软件或固件进行操作。此外，所属领域的技术人员都知道，通信介质通常以调制数据信号(例如，载波或其它传输机制)来体现计算机可读指令、数据结构、程序模块或其它数据且包含任何信息递送介质。

此外，虽然以特定顺序描绘操作，但是这不应该被理解为要求以所展示的特定顺序或依序执行这些操作，或执行所有说明的操作以达到期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。同样地，虽然在上文讨论中包含若干特定实施细节，但这些不应被解释为对本文中揭示的标的物范围或可能要求的内容的限制，而是作为可能特定于特定实施例的特征描述。本说明书中描述的在各单独实施例的上下文中的某些特征也可以在单个实施例中组合实施。相反地，在单个实施例的上下文中描述的各种特征也可以分开在多个实施例中实施或在任何适当的子组合中实施。

当结合附图阅读时，鉴于前述描述，对于本文中揭示的前述实例实施例的各种修改、调整对于所属领域的技术人员而言将变得显而易见。任何和所有修改仍将落入本文中揭示的非限制性和实例实施例的范围内。此外，受益于前述描述和图式中呈现的教导的那些实施例所属领域的技术人员将想到本文中揭示的其它实施例。

因此，本标的物可以本文中描述的任何形式体现。例如，以下列举的实例实施例(EEE)描述本文中揭示的标的物的一些方面的一些结构、特征和功能。

EEE 1.一种处理基于对象的音频数据的方法，其包括：基于对象元数据确定音频对象的呈现器意识感知差异；及基于所述呈现器意识感知差异而将所述音频对象组合成集群。

EEE 2.根据EEE 1的方法，所述呈现器意识感知差异包含以下的至少一者：扬声器呈现器意识感知差异中，其中可考虑一或多个扬声器布局上的一或多个扬声器呈现器；及耳机呈现器意识感知差异，其中可考虑一或多个耳机呈现器。

EEE 3.根据EEE 1的方法，可通过替换音频对象之间的空间距离或与所述空间距离组合而使用所述呈现器意识感知差异。

EEE 4.根据EEE 2的方法，可基于所述音频对象的对象到扬声器增益和所述音频对象的扬声器区域中的至少一者来计算两个对象的所述扬声器呈现器意识感知差异。

EEE 5.根据EEE 4的方法，可基于呈现所述对象的扬声器组来确定所述对象的所述扬声器区域。

EEE 6.根据EEE 2的方法，可基于对应HRTF滤波器的差异来计算两个音频对象的所述耳机呈现器意识感知差异。

EEE 7.根据EEE 1的方法，在聚集过程中利用呈现器意识感知差异的方法可包含：将所述空间距离替换为所述呈现器意识感知差异，或在一些或所有音频聚集组件中组合所述空间距离与所述呈现器意识感知差异；及导出呈现失真以指导所述聚集过程。

EEE 8.根据EEE 7的方法，可基于所述呈现器意识感知差异来估计部分响度计算中的掩盖量。

EEE 9.根据EEE 7的方法，可基于所述呈现器意识感知差异来估计所述呈现失真以指导质心选择过程。

EEE 10.根据EEE 7的方法，所述呈现器意识感知差异可用作对象到集群增益计算期间的距离度量。

应了解，本文中揭示的标的物的实施例不限于所揭示的特定实施例且修改和其它实施例意在包含于所附权利要求书的范围内。尽管本文中使用特定术语，但它们仅以一般性和描述性意义使用，而不是出于限制目的。

从以下新列举的实例实施例(NEE)可以了解本发明的各个方面。

NEE 1.一种处理音频对象的方法，其包括：

获得指示呈现器配置的呈现器相关信息；

基于所述获得的呈现器相关信息确定所述音频对象中的第一音频对象与第二音频对象之间相对于所述呈现器的呈现差异；及

至少部分基于所述呈现差异而聚集所述音频对象。所述呈现器相关信息可指示所述呈现器的预定义呈现方案，且确定所述呈现差异可包括确定基于所述第一音频对象的所述预定义呈现方案的第一向量和基于所述第二音频对象的所述预定义呈现方案的第二向量。另外，确定所述呈现差异可进一步包括基于所述第一向量且基于所述第二向量来确定所述呈现差异。这里，所述第一向量和所述第二向量可表示用于呈现所述音频对象的所述呈现器的输入信号。所述第一向量和所述第二向量的元素可以要么是对象到扬声器增益要么是滤波器系数。具体来说，所述滤波器系数可为头部相关传递函数HRTF的滤波器系数。

NEE 2.根据NEE 1的方法，其中所述呈现器包含扬声器呈现器且所述呈现器相关信息指示参考扬声器布局和所述扬声器呈现器的预定义呈现方案，所述参考扬声器布局指示不同位置处的扬声器，且其中确定所述呈现差异包括：

基于所述参考扬声器布局和所述预定义呈现方案确定所述第一音频对象的第一组对象到扬声器增益和所述第二音频对象的第二组对象到扬声器增益，对象到扬声器增益定义由所述扬声器呈现器基于所述预定义呈现方案呈现到所述扬声器中的一者的所述相应音频对象的比例；及

基于所述第一和第二组对象到扬声器增益来确定所述呈现差异。

NEE 3.根据NEE 2的方法，其中基于所述第一和第二组对象到扬声器增益来确定所述呈现差异包括：

将所述呈现差异确定为与所述第一和第二组对象到扬声器增益之间的差异正相关。

NEE 4.根据NEE 2到3的方法，其中基于所述第一和第二组对象到扬声器增益来确定所述呈现差异进一步包括：

识别包含所述扬声器中的至少一者的第一作用扬声器组，其用所述第一组中的非零对象到扬声器增益呈现所述第一音频对象；

识别包含所述扬声器中的至少一者的第二作用扬声器组，其用所述第二组中的非零对象到扬声器增益呈现所述第二音频对象；及

进一步基于确定所述第一和第二作用扬声器组中的一者是否覆盖所述第一和第二作用扬声器组中的另一者而确定所述呈现差异。

NEE 5.根据NEE 1的方法，其中所述呈现器包含耳机呈现器且所述呈现器相关信息指示所述耳机呈现器的预定义呈现方案，且其中确定所述呈现差异包括：

基于所述预定义呈现方案确定用于通过所述耳机呈现器呈现所述第一音频对象的第一滤波器和用于通过所述耳机呈现器呈现所述第二音频对象的第二滤波器；及

基于所述第一滤波器和所述第二滤波器来确定所述呈现差异。

NEE 6.根据NEE 5的方法，其中确定所述呈现差异进一步包括：

进一步基于所述第一和第二音频对象的空间位置之间的角度差异来确定所述呈现差异。

NEE 7.根据NEE 5到6中任一者的方法，其中基于所述第一和第二滤波器来确定所述呈现差异进一步包括：

基于所述第一滤波器的第一光谱和所述第二滤波器的第二光谱之间的差异来确定所述呈现差异。

NEE 8.根据NEE 1到7中任一者的方法，其中聚集所述音频对象包括：

通过使用所述呈现差异代替所述第一和第二音频对象之间的空间距离或与所述空间距离结合使用来聚集所述音频对象。

NEE 9.根据NEE 1到7中任一者的方法，其中聚集所述音频对象包括：

基于所述呈现差异测量所述第一和第二音频对象相对于彼此的掩盖程度；

基于掩盖程度确定所述音频对象中的所述第一音频对象的第一部分响度和所述第二音频对象的第二部分响度；及

基于所述第一和第二部分响度聚集所述音频对象。

NEE 10.根据NEE 9的方法，其中基于所述第一和第二部分响度聚集所述音频对象包括：

基于所述第一和第二部分响度确定集群位置；

基于所述集群位置确定所述音频对象的对象到集群增益，对象到集群增益定义分配给与所述确定的集群位置中的一者相关联的集群信号的所述相应音频对象的比例；及

基于所述对象到集群增益聚集所述音频对象。

NEE 11.根据NEE 10的方法，其中确定所述集群位置包括：

确定初始集群位置；

通过基于所述初始集群位置聚集所述音频对象而产生初始集群信号；

至少部分基于所述第一和第二部分响度测量由所述呈现器将所述音频对象呈现到输出通道和由所述呈现器将所述初始集群信号呈现到所述输出通道之间的呈现失真；及

通过基于所述呈现失真更新所述初始集群位置而确定所述集群信号的所述集群位置。

NEE 12.一种用于处理音频对象的***，其包括：

信息获得单元，其经配置以获得指示呈现器配置的呈现器相关信息；

差异确定单元，其经配置以基于所述获得的呈现器相关信息确定所述音频对象中的第一音频对象与第二音频对象之间相对于所述呈现器的呈现差异；及

聚集子***，其经配置以至少部分基于所述呈现差异而聚集所述第一和第二音频对象。所述呈现器相关信息可指示所述呈现器的预定义呈现方案，且所述差异确定单元可经配置以确定基于所述第一音频对象的所述预定义呈现方案的第一向量和基于所述第二音频对象的所述预定义呈现方案的第二向量。所述差异确定单元可经进一步配置以基于所述第一向量且基于所述第二向量来确定所述呈现差异。所述第一向量和所述第二向量可表示用于呈现所述音频对象的所述呈现器的输入信号。所述第一向量和所述第二向量的元素可以要么是对象到扬声器增益要么是滤波器系数。具体来说，所述滤波器系数可为头部相关传递函数HRTF的滤波器系数。

NEE 13.根据NEE 12的***，其中所述呈现器包含扬声器呈现器且所述呈现器相关信息指示参考扬声器布局和所述扬声器呈现器的预定义呈现方案，参考扬声器布局指示不同位置处的扬声器，且其中所述差异确定单元经配置以：

NEE 14.根据NEE 13的***，其中所述差异确定单元经配置以将所述呈现差异确定为与所述第一和第二组对象到扬声器增益之间的差异正相关。

NEE 15.根据NEE 13到14中任一者的***，其中所述差异确定单元经进一步配置以：

NEE 16.根据NEE 12的***，其中所述呈现器包含耳机呈现器且所述呈现器相关信息指示所述耳机呈现器的预定义呈现方案，且其中所述差异确定单元经配置以：

NEE 17.根据NEE 16的***，其中所述差异确定单元经配置以进一步基于所述第一和第二音频对象的空间位置之间的角度差异来确定所述呈现差异。

NEE 18.根据NEE 16到17中任一者的***，其中所述差异确定单元经配置以基于所述第一滤波器的第一光谱和所述第二滤波器的第二光谱之间的差异来确定所述呈现差异

NEE 19.根据NEE 12到18中任一者的***，其中所述聚集子***经配置以通过使用所述呈现差异代替所述第一和第二音频对象之间的空间距离或与所述空间距离结合使用来聚集所述第一和第二音频对象。

NEE 20.根据NEE 12到18中任一者的***，其中所述聚集子***经配置以：

基于所述第一和第二部分响度聚集所述音频对象。

NEE 21.根据NEE 20的***，其中所述聚集子***经配置以：

基于所述第一和第二部分响度确定集群位置；

基于所述对象到集群增益聚集所述音频对象。

NEE 22.根据NEE 21的***，其中所述聚集子***经配置以：

确定初始集群位置；

NEE 23.一种用于处理音频对象的计算机程序产品，其包括有形地体现在机器可读介质上的计算机程序，所述计算机程序含有用于执行根据NEE 1到11中任一者的方法的程序代码。

NEE 24.一种用于处理音频对象的装置，其包括：

处理单元；及

存储器，其存储指令，当由所述处理单元执行所述指令时导致所述装置执行根据NEE 1到11中任一者的方法的步骤。

Claims

1.一种处理音频对象的方法，其包括：

获得指示呈现器配置的呈现器相关信息；

至少部分基于所述呈现差异而聚集所述音频对象，

其中所述呈现器包含扬声器呈现器，且所述呈现器相关信息指示参考扬声器布局和所述扬声器呈现器的预定义呈现方案，所述参考扬声器布局指示不同位置处的扬声器，且其中确定所述呈现差异包括：

基于所述参考扬声器布局和所述预定义呈现方案确定所述第一音频对象的第一组对象到扬声器增益和所述第二音频对象的第二组对象到扬声器增益，对象到扬声器增益定义由所述扬声器呈现器基于所述预定义呈现方案呈现到所述扬声器中的一者的相应音频对象的比例；及

2.根据权利要求1所述的方法，其中基于所述第一和第二组对象到扬声器增益来确定所述呈现差异包括：

3.根据权利要求1或2中任一权利要求所述的方法，其中基于所述第一和第二组对象到扬声器增益来确定所述呈现差异进一步包括：

4.根据权利要求1或2中任一权利要求所述的方法，其中聚集所述音频对象包括：

5.根据权利要求1或2中任一权利要求所述的方法，其中聚集所述音频对象包括：

基于所述第一和第二部分响度聚集所述音频对象。

6.根据权利要求5所述的方法，其中基于所述第一和第二部分响度聚集所述音频对象包括：

基于所述第一和第二部分响度确定集群位置；

基于所述对象到集群增益聚集所述音频对象。

7.根据权利要求6所述的方法，其中确定所述集群位置包括：

确定初始集群位置；

8.一种处理音频对象的方法，其包括：

获得指示呈现器配置的呈现器相关信息；

至少部分基于所述呈现差异而聚集所述音频对象，

其中所述呈现器包含耳机呈现器且所述呈现器相关信息指示所述耳机呈现器的预定义呈现方案，且其中确定所述呈现差异包括：

9.根据权利要求8所述的方法，其中确定所述呈现差异进一步包括：

10.根据权利要求8或9中任一权利要求所述的方法，其中基于所述第一和第二滤波器来确定所述呈现差异进一步包括：

11.根据权利要求8或9中任一权利要求所述的方法，其中聚集所述音频对象包括：

12.根据权利要求8或9中任一权利要求所述的方法，其中聚集所述音频对象包括：

基于所述第一和第二部分响度聚集所述音频对象。

13.根据权利要求12所述的方法，其中基于所述第一和第二部分响度聚集所述音频对象包括：

基于所述第一和第二部分响度确定集群位置；

基于所述集群位置确定所述音频对象的对象到集群增益，对象到集群增益定义分配给与所述确定的集群位置中的一者相关联的集群信号的相应音频对象的比例；及

基于所述对象到集群增益聚集所述音频对象。

14.根据权利要求13所述的方法，其中确定所述集群位置包括：

确定初始集群位置；

15.一种用于处理音频对象的***，其包括：

聚集子***，其经配置以至少部分基于所述呈现差异而聚集所述第一和第二音频对象，

其中所述呈现器包含扬声器呈现器且所述呈现器相关信息指示参考扬声器布局和所述扬声器呈现器的预定义呈现方案，所述参考扬声器布局指示不同位置处的扬声器，且其中所述差异确定单元经配置以：

16.根据权利要求15所述的***，其中所述聚集子***经配置以通过使用所述呈现差异代替所述第一和第二音频对象之间的空间距离或与所述空间距离结合使用来聚集所述第一和第二音频对象。

17.一种用于处理音频对象的***，其包括：

其中所述呈现器包含耳机呈现器且所述呈现器相关信息指示所述耳机呈现器的预定义呈现方案，且其中所述差异确定单元经配置以：

18.根据权利要求17所述的***，其中所述聚集子***经配置以通过使用所述呈现差异代替所述第一和第二音频对象之间的空间距离或与所述空间距离结合使用来聚集所述第一和第二音频对象。