CN114080822A

CN114080822A - S扬声器上m声道输入(s＜m)的渲染

Info

Publication number: CN114080822A
Application number: CN202080044706.1A
Authority: CN
Inventors: 杨子瑜; 双志伟; 刘阳; 刘志芳
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-06-20
Filing date: 2020-06-17
Publication date: 2022-02-22
Anticipated expiration: 2040-06-17
Also published as: CN114080822B; WO2020257331A1; EP3987825A1; JP2022536530A

Abstract

一种音频渲染器，其用于将具有M个声道的多声道音频信号渲染到具有S个独立扬声器的便携式装置，其包括：第一矩阵应用模块，其用于将主渲染矩阵应用到输入音频信号，以提供适合于在所述多个独立扬声器上播放的第一预渲染信号；第二矩阵应用模块，其用于将副渲染矩阵应用到所述输入音频信号，以提供适合于在所述多个独立扬声器上播放的第二预渲染信号；声道分析模块，其经配置以根据时变声道分布计算混合增益；及混合模块，其经配置以通过基于所述混合增益混合所述第一及第二预渲染信号来产生经渲染输出信号。

Description

S扬声器上M声道输入(S＜M)的渲染

相关申请案的交叉引用

本申请案要求2019年6月20日申请的第PCT/CN2019/092021号PCT申请案及2019年7月17日申请的第62/875,160号美国临时申请案的优先权，所述申请案中的每一者的全部内容特此以引用的方式并入。

技术领域

本发明涉及当S小于M时S扬声器上M声道输入的渲染。

背景技术

便携式装置(例如手机及平板电脑)已变得越来越流行，且现在非常普遍。它们经常用于媒体播放，包含电影及音乐，例如来自YouTube或类似源。为了实现沉浸式聆听体验，便携式装置通常配备有多个独立扬声器。例如，平板电脑可配备有两个顶层扬声器及两个底层扬声器。进一步来说，装置通常配备有用于扬声器的多个独立的功率放大器(PA)，以使装置灵活地进行播放控制。

同时，多声道音频内容，即具有两个以上声道的内容(例如5.1、5.1.2)变得越来越普遍。多声道音频可原始地产生，或可从其它格式(例如，基于对象的音频)转换，或通过各种上混方法转换。

存在不同的方法将多声道音频渲染到具有少于声道数目的扬声器的便携式装置。将5.1.2音频信号(八个声道)渲染到四扬声器平板电脑的一种方法是将输入信号的高置声道渲染到两个顶层扬声器。为了保持播放声音在顶层扬声器与底层扬声器方面的平衡，将直接声道(即，非高置声道)渲染到两个底层扬声器。此类渲染方法的一个实例通过WO2017/165837提供。

然而，现有技术的渲染方法尚未考虑输入音频声道的时变行为。

发明内容

本发明的目的是提供一种基于输入音频的更动态的渲染方法。

根据本发明的第一方面，通过音频渲染器来实现此目的及其它目的，所述音频渲染器用于将具有数目M个声道的多声道音频信号渲染到具有数目S个独立扬声器的便携式装置，其中S＜M，其包括：第一矩阵应用模块，其用于将主渲染矩阵应用到输入音频信号，以提供适合于在所述多个独立扬声器上播放的第一预渲染信号；第二矩阵应用模块，其用于将副渲染矩阵应用到所述输入音频信号，以提供适合于在所述多个独立扬声器上播放的第二预渲染信号；声道分析模块，其经配置以根据时变声道分布计算混合增益；及混合模块，其经配置以通过基于所述混合增益混合所述第一及第二预渲染信号来产生经渲染输出信号。

根据本发明的第二方面，通过用于将具有数目M个声道的多声道音频信号渲染到具有数目S个独立扬声器的便携式装置的方法来实现此目的及其它目的，其中S＜M，其包括：将主渲染矩阵应用到输入音频信号以提供适合于在所述多个独立扬声器上播放的第一预渲染信号；将副渲染矩阵应用到所述输入音频信号以提供适合于在所述多个独立扬声器上播放的第二预渲染信号；根据时变声道分布计算混合增益；及基于所述混合增益混合所述第一及第二预渲染信号来产生经渲染输出信号。

本发明是基于多声道音频输入可具有不同数目的活动声道的实现。通过提供若干(至少两个)不同的渲染矩阵，并基于所述输入信号的分析选择渲染矩阵的适当混合，可实现可用扬声器上的更高效渲染。

在极端情况下，所述经渲染输出将与所述预渲染信号中的一者对应，在其它情况下，所述经渲染输出将是两者的混合。

所述副渲染矩阵可经配置以忽略输入音频格式中的声道中的至少一者。当所述输入信号的一或若干个声道相对较弱时，这可能是适当的，且因此不再显著地贡献于所述经渲染输出。在多段时间期间可能较弱的声道的一个实例是高置声道，即旨在用于在位于听者上方的(高置)扬声器上播放的声道，或至少高于其它(直接)扬声器的声道。

具体实例涉及5.1.2音频，即具有左、右、中、左后、右后、LFE及左/右高置声道的音频。例如，在一些时段期间，高置声道可能相对较弱，在这种情况下，5.1.2信号退化为5.1信号，即六个声道而不是八个声道。在那种情况下，原始渲染矩阵(适于5.1.2)可能导致顶层与底层扬声器之间的不平衡的响度。根据本发明，可动态地调整渲染以聚焦于当前活动声道。因此，在给定的实例中，可使用适于5.1的渲染矩阵而不是适于5.1.2的渲染矩阵来渲染输入音频。以下详细描述将提供渲染矩阵的更详细实例。

附图说明

将参考附图更详细地描述本发明，所述附图展示本发明的当前优选实施例。

图1是根据本发明的实施例的音频渲染器的框图。

图2是本发明的实施例的流程图。

图3a到b展示便携式装置横向定向的四个扬声器布局的两个实例，与上/下发射(图3a)及左/右发射(图3b)对应。

具体实施方式

下文公开的***及方法可被实施为软件、固件、硬件或其组合。在硬件实施方案中，任务的划分不一定与物理单元的划分对应；相反，一个物理组件可具有多个功能性，且一个任务可由多个物理组件协同执行。某些组件或所有组件可被实施为由数字信号处理器或微处理器执行的软件，或被实施为硬件或专用集成电路。此类软件可分布在计算机可读媒体上，所述计算机可读媒体可包括计算机存储媒体(或非暂时性媒体)及通信媒体(或暂时性媒体)。如所属领域的技术人员众所周知的，术语计算机存储媒体包含易失性及非易失性、可移除及不可移除媒体两者，其以任何方法或技术实施用于信息(例如计算机可读指令、数据结构、程序模块或其它数据)的存储。计算机存储媒体包含但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术、CD-ROM、数字多功能光盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储或其它磁性存储装置，或可用于存储所期望的信息并可由计算机存取的任何其它媒体。进一步来说，所属领域的技术人员众所周知的是，通信媒体通常在调制数据信号(例如载波或其它传输机制)中体现计算机可读指令、数据结构、程序模块或其它数据，并包含任何信息输送媒体。

现在将参考图1中的框图及图2中的流程图来讨论本发明的实施例。

所述方法以实时方式执行。最初，在步骤S1中接收(例如解码)多声道输入音频，且在步骤S2中基于所接收的声道的数目M及可用扬声器的数目S生成一组渲染矩阵。每一渲染矩阵经配置以将M个所接收的信号渲染成S个扬声器馈送，其中S＜M。在所说明的实例中，所述组包含主(默认)矩阵及副(替代)矩阵，但一或若干个额外替代矩阵是可能的。在步骤S3中，由矩阵应用模块11、12将每一矩阵应用到输入信号，以生成用于进一步混合的预渲染信号。在并行步骤S4中，由声道分析模块13分析输入音频。在步骤S5中，由分析模块13例如基于声道之间的能量分布来计算增益。此增益在步骤S6中由平滑化模块14进一步平滑化，且然后输入到混合模块15，所述混合模块15还接收来自矩阵应用模块11、12的输出。在步骤S7中，混合模块15基于经平滑化增益混合(加权)预渲染信号，并输出经渲染音频信号。渲染过程的细节将在下文讨论。

渲染矩阵

给定M声道输入信号及S扬声器装置，一般渲染过程可表示为以下等式：

y＝Rx (1)

其中x是表示输入信号的M维矢量，y是表示渲染信号的S维矢量，R是S×M渲染矩阵。针对渲染矩阵R，行与扬声器对应，而列与输入信号的声道对应。渲染矩阵的条目指示从声道到扬声器的映射。

给定具有S个独立扬声器(S>2)的便携式装置，且主渲染矩阵R_prim及副渲染矩阵R_sec将根据输入声道M的数目确定。R_prim与R_sec两者具有相同的大小S×M。明确来说，矩阵R_prim及R_sec可被书写为

其中R_prim是用于渲染输入M声道音频的最优矩阵，而R_sec是用于退化信号的最优矩阵，即仅包含D个相关声道(D＜M)及具有不明显贡献且可被忽略的一或若干个声道的M声道音频信号。因此，渲染矩阵R_sec也是SxM矩阵，但具有一或若干个零列(零列将导致来自M个声道中的一者的零贡献)。当将两个渲染矩阵R_prim及R_sec应用到输入信号x时，生成两个预渲染信号y_prim及y_sec：

y_prim＝R_primx (4)

y_sec＝R_secx (5)

一般来说，多声道音频通常包括四类声道：

1)前置声道，即左、右及中心声道(L、R、C)

2)听者平面环绕声道，例如5.1/5.1.2/5.1.4等的左/右环绕(Ls/Rs)，或7.1/7.1.2/7.1.4等的左/右后环绕(Lrs/Rrs)

3)高置声道，例如5.1.2/7.1.2/9.1.2等的左/右顶部(Lt/Rt)，5.1.4/7.1.4/9.1.4等的左/右顶部前/后(Ltf/Rtf、Ltr/Rtr)

4)LFE声道。

给定目标扬声器布局，等式(2)中定义的主矩阵可重新书写为分块矩阵：

其中F、R及H分别是前置、环绕及高置声道的数目，且l_i与LFE的系数对应。

副矩阵R_sec可从具有一或多个零列的R_prim导出。

下文将讨论根据本发明的实施例的渲染矩阵的一些更具体的实例。

图3a及3b说明便携式装置的两个实例，此处为横向定向的平板电脑，所述装置配备有多个独立控制的扬声器。在两个实例中，装置具有四个扬声器a到d(S＝4)。在图1a中，扬声器经布置在装置的上及下侧，且因此包含向上发射声音的两个扬声器a、b及向下发射声音的两个扬声器c、d。在图1b中，扬声器经布置在装置的左及右侧，且因此包含侧向发射声音的两个上部扬声器a、b，及也侧向发射声音的两个下部扬声器c、d。

在本实例中，在图3a或3b中的便携式装置上播放5.1.2声道音频信号(M＝8)。

在这种情况下，主矩阵R_prim可由以下等式定义

其中行索引1到4分别与扬声器a到d对应，且列索引1到8与5.1.2格式的L、R、C、Ls、Rs、LFE、Lt、Rt声道对应。

在当原始5.1.2信号的高置声道近似静音的时段期间，音频信号退化为5.1信号加上两个可被忽略的声道。因此，副渲染矩阵R_sec1可通过以下等式定义

其中最后两列为零，其与两个静音高置声道Lt及Rt对应。

应注意，针对给定装置及输入信号，可存在多个副渲染矩阵R_secX。在将5.1.2音频渲染到四个扬声器的上述实例中，如果除了高置声道外，环绕声道Ls、Rs也近似静音，那么信号退化为仅含有C、L、R及LFE声道以及可忽略的一组声道的3.1信号。在那种情况下，对应的副矩阵R_sec2变为

在实践中，如果存在多个副矩阵，那么将基于下文描述的声道分析动态地选择适当副矩阵。

除了确保输入信号的有效渲染外，还存在一个挑战，即确保渲染之后所有输入声道(例如高置声道)都清晰可辨。这归因于便携式装置中扬声器位置之间的小距离。以高置声道为实例，它们很可能被渲染到相对靠近非高置声道的扬声器的扬声器。这将导致高置声音图像的空间折叠。

为了在渲染之后减轻空间折叠并使高置声道可区分，生成渲染矩阵R_prim的适当条目至关重要。明确来说，期望将大多数高置声道渲染到顶部扬声器，同时将前置声道渲染到底部扬声器。这将减轻高置声道“沉入”前置声道。

针对上文提及的实例，R_prim的条目可经设置为

替代地，R_prim的条目可经设置为

在上述两个实例中，列(从左到右)分别与声道L、R、C、LFE、Ls、Rs、Lt及Rt对应。

经配置以忽略两个高置声道Lt及Rt(列7及8)的第一副矩阵R_sec1的条目可经设置为

经配置以忽略两个高置声道Lt及Rt(列7及8)以及两个环绕声道Ls及Rs(列5及6)的第二副矩阵R_sec2的条目可经设置为

在另一实例中，7.1.2声道(M＝10)输入信号由图3a或3b中的装置(S＝4)播放。在这种情况下，R_prim的条目可经设置为

在这种情况下，列(从左到右)分别与声道L、R、C、LFE、Ls、Rs、Lrs、Rrs、Lt及Rt对应。

副矩阵R_sec1及R_sec2的条目可经设置为

其中R_src1及R_src2分别与退化7.1及3.1信号对应。

应注意，渲染矩阵R_prim及R_srcX的条目可为实常数或频率相依复矢量。例如，等式(2)中R_prim的条目可扩展到B维复矢量，其中B是频带的数目。在前面提及的用例中，为了增强高置声道，可针对等式(2)中的R_prim的最后两列的条目修改特定频带。特定频带的实例可为7kHz到9kHz。

还应注意，并通过上述实例说明，R_prim及R_srcX矩阵的条目中的至少一些可经设置为相同。

声道分析

声道分析模块23旨在确定输入信号是否退化，使得可使用适当的预渲染信号或其适当混合。模块23逐帧执行。

一种方法是基于输入声道之间的能量分布。

前面提及的用例(仅具有两个不同的渲染矩阵)可作为实例。针对4扬声器便携式装置及5.1.2输入信号，增益g_raw通过以下等式计算

其中r_height是高置声道的能量与总能量之间的比率，m是功率参数，T_u及T_l分别是上边界及下边界。

除了能量外，扩散度也可作为分析输入声道的替代或额外准则。大的扩散度倾向于分配顶部与底部扬声器之间的L/R声道的不平衡系数。

自适应平滑化及混合

可由平滑化模块14根据输入信号的历史进一步平滑化增益g_raw。在当前帧n(n>1)中，经平滑化增益g_raw可如下般计算

g_sm(n)＝αg_raw(n)+(1-α)g_sm(n-1) (18)

其中α是平滑化参数。

最终渲染信号y可通过如下混合过程获得

y＝g_smy_prim+(1-g_sm)y_sec (19)

如果存在两个以上不同的渲染矩阵，那么渲染输出将取决于声道分析包含三个或更多个预渲染信号的混合。

最后备注

如本文所使用，除非另有指定，否则使用顺序形容词“第一”、“第二”、“第三”等来描述共同对象仅指示提及类似对象的不同例项，且并不旨在暗示如此描述的对象必须按给定的序列，无论是在时间上、空间上、在等级上，或以任何其它方式。

在下文的权利要求及本文的描述中，术语包括(comprising、comprised of或which comprises)中的任一者是开放性术语，其意指至少包含以下元件/特征，但不排除其它。因此，术语包括当在权利要求中使用时，不应被解释为限于其后列出的手段或元件或步骤。例如，装置包括A及B的表达的范围不应限于装置仅由元件A及B组成。如本文所使用的术语包含(including或which includes或that includes)中的任一者也是开放性术语，其也意指至少包含术语之后的元件/特征，但不排除其它。因此，包含与包括同义，并意指包括。

如本文所使用的，术语“示范性”是在提供实例的意义上使用的，而不是指示质量。也就是说，“示范性实施例”是作为实例提供的实施例，而不一定是示范性质量的实施例。

应理解，在本发明的示范性实施例的上文描述中，出于简化本公开并帮助各种发明方面中的一或多者的理解的目的，本发明的各种特征有时在单个实施例、图或其描述中组合在一起。然而，本公开的方法不应被解释为反映所要求发明需要比每一权利要求中明确陈述的更多特征的意图。确切来说，如所附权利要求所反映，发明性方面不在于单个前述公开的实施例的所有特征。因此，在详细描述之后的权利要求在此明确地并入本详细描述中，其中每一权利要求作为本发明的单独实施例独立存在。

此外，尽管本文所描述的一些实施例包含其它实施例中所包含的一些而非其它特征，但不同实施例的特征的组合意指在本发明的范围内，并形成不同的实施例，如所属领域的技术人员所理解。例如，在所附权利要求中，可以任何组合使用所要求实施例中的任一者。

此外，实施例中的一些在本文中被描述为可由计算机***的处理器或由执行功能的其它构件来实施的方法或方法的元素的组合。因此，具有用于执行此类方法或方法的元素的必要指令的处理器形成用于执行方法或方法的元素的构件。此外，设备实施例的本文所描述的元件是用于执行由元件出于执行本发明的目的而执行的功能的构件的实例。

在本文所提供的描述中，阐述许多具体细节。然而，应理解，本发明的实施例可在没有这些具体细节的情况下实践。在其它例项中，为了不模糊对本描述的理解，未详细展示众所周知的方法、结构及技术。

类似地，应注意，术语耦合当在权利要求中使用时，不应被解释为仅限于直接连接。可使用术语“耦合”及“连接”连同其衍生词。应理解，这些术语不旨在作为彼此的同义词。因此，装置A耦合到装置B的表达的范围不应限于其中装置A的输出直接连接到装置B的输入的装置或***。其意指在A的输出与B的输入之间存在一条路径，所述路径可为包含其它装置或构件的路径。“耦合”可意指两个或更多个元件直接物理或电气接触，或两个或更多个元件彼此不直接接触，但仍彼此共同操作或相互作用。

因此，虽然已描述本发明的具体实施例，但所属领域的技术人员将认识到，在不脱离本发明的精神的情况下，可对其进行其它及进一步修改，且其旨在要求如落入本发明的范围内的所有这些变更及修改。例如，上文给出的任何公式仅代表可能使用的程序。功能性可被添加到框图或自其删除，且操作可在功能框之间互换。步骤可被添加到本发明的范围内所描述的方法或自其删除。

因此，虽然已描述本发明的具体实施例，但所属领域的技术人员将认识到，在不脱离本发明的精神的情况下，可对其进行其它及进一步修改，且其旨在要求如落入本发明的范围内的所有这些变更及修改。例如，上文给出的任何公式仅代表可能使用的程序。功能性可被添加到框图或自其删除，且操作可在功能框之间互换。步骤可被添加到本发明的范围内所描述的方法或自其删除。例如，在所说明的实施例中，便携式装置具有四个扬声器(S＝4)。当然，可能具有多于(或少于)四个扬声器，这导致不同的矩阵大小。

Claims

1.一种音频渲染器，其用于将具有M个声道的多声道音频信号渲染到具有S个独立扬声器的便携式装置，其中S<M，其包括：

第一矩阵应用模块，其用于将主渲染矩阵应用到输入音频信号，以提供适合于在所述多个独立扬声器上播放的第一预渲染信号，

第二矩阵应用模块，其用于将副渲染矩阵应用到所述输入音频信号，以提供适合于在所述多个独立扬声器上播放的第二预渲染信号，

声道分析模块，其经配置以根据时变声道分布计算混合增益；及

混合模块，其经配置以通过基于所述混合增益混合所述第一及第二预渲染信号来产生经渲染输出信号。

2.根据权利要求1所述的音频渲染器，其中所述副渲染矩阵经配置以忽略所述输入音频信号中的所述声道中的至少一者。

3.根据权利要求2所述的音频渲染器，其中所述输入音频信号包含两个高置声道，且所述副渲染矩阵经配置以忽略所述高置声道。

4.根据前述权利要求中任一权利要求所述的音频渲染器，其中所述输入音频信号是具有七个声道(M＝7)的5.1.2音频信号，独立扬声器的数目是四个(S＝4)，且其中所述主渲染矩阵经设置为：

5.根据权利要求1到3中任一权利要求所述的音频渲染器，其中所述输入音频信号是具有七个声道(M＝7)的5.1.2音频信号，独立扬声器的所述数目是四个(S＝4)，且其中所述主渲染矩阵经设置为：

6.根据前述权利要求中任一权利要求所述的音频渲染器，其中所述输入音频信号是具有七个声道(M＝7)的5.1.2音频信号，独立扬声器的所述数目是四个(S＝4)，且其中所述副渲染矩阵经设置为：

7.根据前述权利要求中任一权利要求所述的音频渲染器，其进一步包括平滑化模块以基于一组先前帧的混合增益平滑化当前帧的混合增益。

8.根据前述权利要求中任一权利要求所述的音频渲染器，其中所述主渲染矩阵及所述副渲染矩阵的条目是实常数或频率相依复矢量。

9.根据前述权利要求中任一权利要求所述的音频渲染器，其中所述主渲染矩阵的至少一些条目被细分为特定频带，例如7kHz到9kHz。

10.根据前述权利要求中任一权利要求所述的音频渲染器，其中所述主渲染矩阵与所述副渲染矩阵的至少一些条目相等。

11.根据前述权利要求中任一权利要求所述的音频渲染器，其中所述声道分析模块基于所述输入声道之间的能量分布确定所述混合增益。

12.一种用于将具有M个声道的多声道音频信号渲染到具有S个独立扬声器的便携式装置的方法，其中S<M，其包括：

将主渲染矩阵应用到输入音频信号以提供适合于在所述多个独立扬声器上播放的第一预渲染信号，

将副渲染矩阵应用到所述输入音频信号以提供适合于在所述多个独立扬声器上播放的第二预渲染信号，

根据时变声道分布计算混合增益，及

基于所述混合增益混合所述第一及第二预渲染信号来产生经渲染输出信号。

13.根据权利要求12所述的方法，其中所述副渲染矩阵经配置以忽略所述输入音频信号中的所述声道中的至少一者。

14.根据权利要求13所述的方法，其中所述输入音频信号包含两个高置声道，且所述副渲染矩阵经配置以忽略所述高置声道。

15.根据权利要求12到14中任一权利要求所述的方法，其中所述输入音频信号是具有七个声道(M＝7)的5.1.2音频信号，独立扬声器的数目是四个(S＝4)，且其中所述主渲染矩阵经设置为：

16.根据权利要求12到14中任一权利要求所述的方法，其中所述输入音频信号是具有七个声道(M＝7)的5.1.2音频信号，独立扬声器的所述数目是四个(S＝4)，且其中所述主渲染矩阵经设置为：

17.根据权利要求12到16中任一权利要求所述的方法，其中所述输入音频信号是具有七个声道(M＝7)的5.1.2音频信号，独立扬声器的所述数目是四个(S＝4)，且其中所述主渲染矩阵经设置为：

18.根据权利要求12到17中任一权利要求所述的方法，其进一步基于一组先前帧的混合增益平滑化当前帧的混合增益。

19.一种计算机程序产品，其包含经配置以当在处理器上执行时执行权利要求12到18中任一权利要求所述的步骤的计算机程序代码部分。

20.根据权利要求19所述的计算机程序产品，其存储在非暂时性计算机可读媒体上。