CN115668368A

CN115668368A - 执行动态范围控制的方法和单元

Info

Publication number: CN115668368A
Application number: CN202180036093.1A
Authority: CN
Inventors: S·戈洛; R·特辛
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2020-05-20
Filing date: 2021-05-17
Publication date: 2023-01-31
Also published as: US20230198488A1; EP4154251A1; WO2021233809A1

Abstract

本文档描述了一种动态范围控制单元(210)，该动态范围控制单元被配置为将被称为DRC的动态范围控制应用于音频信号(211)。DRC单元(210)被配置为：对从音频信号(211)得到的子带信号(212)进行下采样，以提供下采样子带信号(321)；基于下采样子带信号(321)确定DRC增益(329)；以及将DRC增益(329)应用于子带信号(212)，以提供压缩音频信号(214)的压缩子带信号(213)。

Description

执行动态范围控制的方法和单元

相关申请的交叉引用

本申请要求以下优先申请的优先权：于2020年5月20日提交的美国临时申请63/027,517(参考号：D17089USP1)和于2020年5月20日提交的欧洲申请20175651.7(参考号：D17089EP)，这些申请通过引入并入本文。

技术领域

本文档涉及一种用于将动态范围控制(DRC)应用于音频信号、尤其是多通道音频信号的方法和对应的设备或单元。

背景技术

动态范围控制或动态范围压缩(DRC)可以用于各种应用，例如，以允许在嘈杂的环境中以高感知质量呈现音频内容。特别地，音频信号将以使得(压缩)音频信号对周围的噪声是稳健的(并且因此是可理解的和/或可听到的)方式被修改。DRC可以通过在动态方面增大音频信号密度来实现这一点。可以应用DRC使得音频信号的平均功率提高并且音频信号的峰值水平不提高。通过这样做，可以实现增大的信噪比(SNR)。

将DRC应用于多通道音频信号可能与高计算复杂度相关联。此外，将DRC应用于音频信号可能会导致可听到的伪像，这可能会令普通收听者群体感觉不愉快。

本文档解决了尤其是在如杜比AC-4编码***等多通道和/或多对象编码***的背景下以相对较低的计算复杂度和/或以相对较高的感知质量实现DRC的技术问题。

发明内容

根据一个方面，描述了一种动态范围控制单元，该动态范围控制单元被配置为将被称为DRC的动态范围控制应用于音频信号。DRC单元被配置为对从音频信号得到的子带信号进行下采样，以提供下采样子带信号。此外，DRC单元被配置为基于下采样子带信号确定DRC增益，以及将DRC增益应用于子带信号(即在对其进行下采样之前)，以提供压缩音频信号的压缩子带信号。

应注意，子带信号的下采样是在转换到子带域(例如，进行QMF滤波器组处理)之后执行的。因此，本发明的下采样是在除了子带域转换中固有的任何下采样之外完成的。例如，在US 2007/0078645中讨论了固有地包括在子带域转换中的这种下采样，其中，固有地在将时域信号转换为抽取子带信号的滤波器组中实施该下采样。

进一步地，应注意，根据本发明，仅对下采样子带信号执行DRC增益的确定。然后将DRC增益应用于从子带域转换输出的子带信号，而不是应用于其额外下采样的版本。这与如US 2007/0078645等现有技术解决方案存在根本区别，其中，下采样子带信号用于所有下游音频处理。

根据另一方面，描述了一种解码单元，其中，该解码单元被配置为从指示音频信号的比特流中得到动态范围压缩音频信号。解码单元包括本文中描述的DRC单元。

根据另一方面，描述了一种用于将被称为DRC的动态范围控制应用于音频信号的方法。该方法包括对从音频信号得到的子带信号进行下采样，以提供下采样子带信号。此外，该方法包括基于下采样子带信号确定DRC增益，以及将DRC增益应用于子带信号，以提供压缩音频信号的压缩子带信号。

根据另一方面，描述了一种软件程序。该软件程序可以适于在处理器上执行并且当由处理器执行时用于执行本文档中概述的方法步骤。

根据另一方面，描述了一种存储介质。该存储介质可以包括软件程序，该软件程序适于在处理器上执行并且当由处理器执行时用于执行本文档中概述的方法步骤。

根据另一方面，描述了一种计算机程序产品。该计算机程序可以包括可执行指令，该可执行指令当在计算机上执行时用于执行本文档中概述的方法步骤。

应当注意，如在本专利申请中概述的包括其优选实施例的方法和***可以独立使用，或者与本文档中公开的其他方法和***结合使用。此外，本专利申请中概述的方法和***的所有方面可以任意组合。特别地，权利要求的特征可以以任意方式彼此组合。

附图说明

下面参照附图以示例性方式解释本发明，在附图中：

图1示出了示例编码***的框图；

图2图示了在子带域中应用DRC的示例方案；

图3示出了示例DRC单元的框图；以及

图4示出了用于将DRC应用于音频信号的示例方法的流程图。

具体实施方式

如上文所概述的，本文档解决了以低计算复杂度和/或高感知质量实现动态范围控制的技术问题。在此上下文中，图1示出了示例音频编码***(也被称为编解码器)100的框图，音频编码***包括编码单元110(也被称为编码器)和对应的解码单元120(也被称为解码器)。编码单元110被配置为生成(多通道)音频信号111的比特流112，其中，比特流112指示音频信号111的编码音频数据和元数据。解码单元120被配置为基于比特流112生成重建的(多通道)音频信号113。解码单元120可以包括本文档中描述的DRC单元。

为了使解码单元120能够对重建音频信号113执行DRC，编码单元110可以被配置为提供DRC配置文件数据(也被称为DRC元数据)作为比特流112的一部分，DRC配置文件数据可以由解码单元120用来执行DRC。特别地，编码单元110可以使用配置文件数据在解码单元120中(尤其是在解码单元120的DRC单元中)操纵或控制DRC。因此，配置文件数据可以包括用于在解码单元120中执行DRC的控制数据。配置文件数据可以指示要用于DRC的压缩曲线。

DRC可以在子带域(也被称为变换域)中执行。为此目的，可以使用正向变换或分析滤波器组(如分析(伪)正交镜像滤波器(QMF)组)将音频信号111从时域变换或转换到子带域。在子带域中执行DRC之后，动态范围压缩子带信号可以使用逆变换或合成滤波器组(如合成QMF组)从子带域变换或转换回时域。

图2图示了用于在子带域中执行DRC的示例方案。可以使用正向变换或分析滤波器组201(例如分析伪QMF组)将音频信号211(例如图1的音频信号111)从时域变换或转换到子带域。作为正向变换或分析的结果，获得对应的多个子带或频率仓(bin)的多个子带信号212。举例来说，可以获得K个子带信号212，例如，K＝64。

可以将DRC应用于DRC单元210中的不同子带信号212，其中，DRC单元210可考虑配置文件数据215(该配置文件数据可以由编码单元110在比特流112中提供)。如上所述，配置文件数据215也可以被称为DRC元数据。

DRC单元210可以分别从对应的多个子带信号212生成多个(动态范围)压缩子带信号213(尤其是K个压缩子带信号213)。可以使用逆变换或合成滤波器组203(例如，合成伪QMF组)将压缩子带信号213变换或转换到时域，从而提供(动态范围)压缩音频信号214。应当注意，在本文档中，术语“压缩”是指动态范围压缩(而不是数据压缩)。

在下文中，描述了用于伪QMF组的示例DRC方案，其中，K＝64个子带信号212。应当注意，以下描述的各方面以类似的方式适用于其他时域/频域或子带域变换或其他分析/合成滤波器组。

馈送到DRC单元210的输入数据212可以被组织为K×N矩阵，其中，K代表子带的数量并且N是联合处理的时隙的数量(例如，N＝32)。对应于N个时隙的N个子带样本212可以被称为块或帧。来自DRC单元210的输出数据213通常具有与输入数据212相同的维度。

DRC单元210可以在Q个DRC频带(例如Q＝4)中操作，每一个DRC频带都覆盖一个或多个子带或频率仓。因此，K个子带可以分组为Q个频带。可以使用各种子带或频率仓分组。举例来说，可以使用以下非均匀子带分组(也被称为分带)：

·Q＝4个频带；并且

·start_band＝[1,2,4,19,K_max+1]。

换言之，第一个频带可以包括频率仓k＝1，第二个频带可以包括频率仓k＝2、3，第三个频带可以包括频率仓k＝4、5、…、18，并且第四个频带可以包括频率仓k＝19、20、…、K_max。为了降低计算复杂度，在计算用于执行DRC的DRC增益时，可以只考虑K个子带信号212中的K_max个子带信号，其中，K_max<K。

图3示出了示例DRC单元210的框图。下面描述每个子单元。DRC单元210可以包括在图3的上下文中描述的子单元的任意子集。

DRC单元201可以包括下采样单元301，该下采样单元被配置为从K_max个子带信号212生成K_max个下采样子带信号321。特别地，子带信号212的时间分辨率可以被下采样因子M降低，

因此可以对K_max×N/M输入数据矩阵执行增益计算(针对多通道音频信号211的每个通道，例如针对在立体声信号211的情况下的两个通道，从而产生输入数据张量)。因此，用于计算一个或多个DRC增益的输入数据的维度可以被下采样因子M降低。

应注意，如上所述的按因子M执行的下采样与在到子带域的转换中可能固有的任何下采样是分开的。例如，QMF滤波器组可以被配置为提供子带信号的下采样。下采样单元301中的下采样是在除了任何这样的下采样之外执行的。

在优选示例中，下采样因子M被选择为使得N是M的整数倍，以允许均匀采样。此外，考虑到人类听觉的时间分辨率，即假设新的采样周期小于(或等于)人耳的积分时间，则可以在不使用低通滤波器的情况下执行下采样，从而进一步降低计算复杂度。因此，可以通过只保留子带信号212的每第M个样本或时隙而以高效的方式按下采样因子M对子带信号212执行下采样。

鉴于使用复杂的伪QMF组会导致采样因子为2的过采样，因此按因子M＝2执行下采样通常对应用DRC之后的质量没有感知影响。

作为按下采样因子M对子带信号212执行下采样的结果，这K_max个下采样子带信号321展示了时隙数，该时隙数是小于对应子带信号212的时隙数的因子M。下采样子带信号321的时隙可以使用索引n来标识。

响度单元302可以被配置为：针对每个子带组(或DRC频带)i＝1、2、…、Q，针对每个时隙n＝1、2、…、N/M，并且可能针对(多通道)音频信号211的每个通道l＝1、2、…、L(例如，L＝2)，确定响度值或响度估计322(在线性域中)。

对于DRC频带i和时隙n，响度计算可以如下。首先，每个通道l(例如，l∈{1，2})的带内功率P_inl可以根据以下公式确定

其中，start_band_i是第i个DRC频带中的第一个(最低)频率仓，并且其中，start_band_i+1-1是第i个DRC频带中的最后一个(最高)频率仓。

是样本x_knl(针对时隙n、频率仓k和通道l)的实部，并且

是样本x_knl的虚部。

随后，可以通过对带内功率P_inl求平方根来将带内功率值P_inl转换为(带内)幅度值，即

最后，可以使用响度指数(α＝0.67)来应用斯蒂文思幂定律以确定响度值或响度估计L_inl 322(针对DRC频带i、时隙n和通道l)，即

这样，在每个时刻或时隙n获得Q×L个响度值或响度估计L_inl 322(在线性域中)，一个响度值或响度估计针对每个DRC频带i(i＝1、2、…、Q)与每个通道l(l＝1、2、…、L)的组合。

线性到对数转换器单元303可以被配置为将响度值L_inl 322从线性域转换到对数域。DRC通常使用静态压缩曲线，该静态压缩曲线是DRC配置文件的一部分。由于压缩曲线通常在对数域中定义，线性域中的响度值322可以使用以下公式转换为分贝

从而提供对数响度值或响度估计

323。

响度到增益映射单元304可以被配置为基于对应的响度值或响度估计

323来得到增益值324(在本文中被称为映射增益值)。为此目的，可以使用压缩曲线。压缩曲线的参数化可以例如在ETSI标准ETSI TS 103 190(尤其是针对AC-4中的DRC)中定义。该文档通过引用以其全文并入本文。

压缩曲线可以是对数域中的分段线性函数，包括以下七个子函数中的至少一些：

压缩曲线F(L)的参数可以作为配置文件数据215提供。示例参数是针对不同响度区间的不同的(线性)增益值G_maxcut、G_sectioncut、G_sectionboost和/或G_maxboost。

其他示例参数是用于定义压缩曲线的不同段的阈值

·L_maxcut，用于定义开始(使用增益值G_maxcut)执行最大向下压缩的响度值或响度估计；

·L_sectioncut和L_0high，用于定义开始执行中间向下压缩的一个或多个响度值或响度估计；

·L_0low和L_0high，用于定义不执行压缩的响度值或响度估计区间；

·L_sectionboost和L_0low，用于定义开始执行中间向上压缩的一个或多个响度值或响度估计；和/或

·L_maxboost，用于定义开始(使用增益值G_maxboost)执行最大向上压缩的响度值或响度估计。

压缩曲线F(L)被配置为将响度值或响度估计L 323映射到对应的(映射)增益值324。可以针对每个时隙n、每个DRC频带i和/或每个通道l确定(映射)增益值324。

分段定义的函数F(L)包括以参考值为中心的提升段(向上压缩或“扩展”)和削减段(向下压缩或简称“压缩”)。参考值可以对应于音频信号211内的平均对话水平，别名对白归一(dialnorm)。在上述公式中，假设参考值为0dB。替代性地，可以使用根据对白归一值的参考值(可以在比特流112中指示)。

压缩曲线F(L)的操作点O_inl可以由瞬时宽带响度水平与参考水平(例如对白归一值)的响度偏差ΔL确定。因此，每个DRC频带i的(映射)增益值F_inl 334(针对每个时隙n和/或通道l)可由下式给出

其中，O_inl是压缩曲线的操作点331，取决于响度偏差ΔL。

是上述对数域中的带内响度值或响度估计323。有关计算偏差ΔL和操作点O_inl的首选方法的详细信息进一步在下面给出。

立体声或多通道链接单元305可以被配置为确定音频信号211的子组或所有通道的单个增益值325。通常，期望保留音频信号211的多通道(尤其是立体声)图像。这一点可以通过对音频信号211的所有通道l(l＝1、2、…、L)应用相同的增益值来实现。特别地，对于音频信号211的所有通道l(l＝1、2、…、L)，最小增益值(即在压缩情况下的最大衰减量和在扩展情况下的最小放大量)可以被选择作为公共增益值325。因此，在双通道音频信号211的情况下，增益值325可以被选择为

F_in＝min(F_in1，F_in2)。

这个原理可以被推广到更大数量(L)的通道。

增益平滑单元306可以被配置为随时间平滑(映射)增益值324、325。特别地，指数平滑可以在连续的时刻应用于(映射)增益值324、325，以避免输出信号由于压缩或扩展而发生突然变化。平滑增益G_in 326可以被确定为

G_in＝αF_in+(1-α)·G_i，n-1，

其中，G_i,n-1是前一个时隙n-1的平滑增益326，其中，F_in是为当前时隙n计算的(瞬时或映射)增益值324、325，并且其中，G_in是当前时隙n的平滑增益326。

平滑因子α可以取决于信号的(带内)响度水平或响度估计

323(针对音频信号211的一个或多个通道)是低于还是高于参考点或操作点331、以及响度水平或响度估计

323是正在上升还是正在下降来确定。特别地，

其中，分别

并且

可以在配置文件数据215内提供用于执行增益平滑的参数α_attack和α_release。

此外，可以根据两个连续时刻或时隙n之间的响度跳跃(即响度估计323之间的差异)来区分两个不同的平滑因子。对于相对较大的跳跃，通常期望DRC更迅速地做出反应。对于相对较小的变化，DRC的反应通常应该是徐缓的。为此目的，在上述ETSI标准中预见了两个阈值：T_attack和T_release(这两个阈值可以在配置文件数据215内指示)。因此，平滑因子α可以分别被确定为，

并且

平滑因子与对应的时间常数之间的关系可以是

其中，T_s是下采样之后的采样周期，并且其中，τ是时间常数。T_s和τ两者通常以毫秒表示。参数T_s和τ可以在配置文件数据215内指示。

增益补偿单元307可以被配置为将恒定偏移添加到平滑增益值326，以提供修改的增益值327。与(AC-4)比特流112相关联的元数据可以指示在应用DRC之前音频信号111、211的平均对话水平(即，对白归一)。此外，比特流112可以指示应用DRC之后的期望输出参考水平。两个水平之间的差异B可以作为恒定增益B 332添加到平滑增益326，从而产生控制信号或控制增益327，即

C_in＝G_in+B。

对数到线性转换器单元308可以被配置为将控制信号或控制增益327从对数域转换到线性域，以便允许控制增益327与子带信号212组合。这一点可以通过下面的逆运算来完成

从而在线性域中提供控制增益328(针对时隙n和DRC频带i)。

上采样单元309可以被配置为按因子M对控制增益328进行上采样，以便为子带信号212的每个时隙提供上采样控制增益328。因此，控制信号或增益328可以达到子带信号212的采样率。这一点可以用M-1个零分离开控制增益328的原始样本并用原始样本填充这些零来以高效的方式实现，类似于“采样和保持”操作：

c_i，j+n·M＝c_in，j＝0，1，...，M-1。

增益应用单元310可以被配置为通过乘法运算将(上采样)控制信号或增益329应用到子带信号212的所有通道：

相同DRC频带i的子带信号212(即，不同子带信号212的样本)可以使用该DRC频带i的增益c_in 329压缩。结果，获得压缩子带信号213。可以使用子带域到时域(逆)变换或合成滤波器组(例如，合成伪QMF组)将压缩子带信号213变换或转换到时域，以确定压缩音频信号214。

再次强调，单元310中的控制增益是应用于从子带域转换输出的子带信号，而不是其下采样版本。因此，单元301中的下采样仅对DRC增益的确定具有计算影响，而不是其应用。

如上所述，可以单独为每个DRC频带i和时隙n确定压缩曲线F(L)的操作点O_in331。可以基于瞬时宽带响度水平与整个音频信号211中的平均对话水平的偏差ΔL_t的估计来确定操作点331。平均对话水平通常是在比特流112中提供的音频信号211的元数据的一部分。

为了确定操作点331，可以确定在整个输入数据块(分布在N时隙n＝1、2、…、N之间)的时间方向上的块平均(BA)功率值。为简单起见，通道索引l在以下省略。BA功率值可以被确定为

这会产生针对不同的DRC频带i(i＝1、2、…、Q)的带内BA值

这些BA值

可以使用斯蒂文思幂定律和常用对数(以10为底)转换为以分贝为单位的对应响度值

如上文针对单元302和303所概述的。可以对转换后的BA值进行指数平滑以形成短期平均值(STA)，

另外，可以对STA进行平滑以产生长期平均值(LTA)，

其中，t是指示连续输入数据块的时间索引。因此，可以为连续的数据块或帧确定带内BA值

的短期平均值(STA)和长期平均值(LTA)。

LTA

可以表示(在时刻t数据块的)带内瞬时响度水平

瞬时宽带响度水平

(在所有DRC频带上)可以通过将LTA转换为功率值从窄带LTA得到，

针对所有DRC频带对这些功率值求总和，

并将总和转换为以分贝为单位的对应响度值(即在对数域中)：

响度水平

与参考水平(例如，对白归一)的瞬时偏差然后可以被确定为差异

不同的DRC频带i(i＝1、2、…、Q)中的操作点O_in331可以通过将窄带响度水平

移动与宽带功率在不同DRC频带上的分布成比例的偏差ΔL_t来计算：

针对所有时隙n，在输入数据的第t个块中。操作点331因此可以被认为是音频信号211中的平均对话水平的带内对应物。

STA和LTA两者通常都需要初始值以在时间t＝0进行初始化。在示例中，在开始时(即在时间t＝1时)，值

和

可以以BA值

初始化。

每当以分贝为单位的任何当前LTA值(在时刻t)与前一LTA值(在时刻t-1)之间的绝对差值超过预定阈值(例如，阈值为10分贝)时，运行的STA和LTA值可以重置为瞬时BA值

这使DRC能够快速响应突然的场景变化。每当检测到场景变化时，可以将相应的DRC增益设置为零。

如上所述，QMF或子带域中的时间抽取可用于降低DRC的计算复杂度。替代性地或另外，DRC的应用可能被限制在某个频率，例如16kHz。特别地，可以使用低于奈奎斯特频率(Nyquist frequency)的上截止频率来减少最高DRC频带中的QMF频带的数量。举例来说，仅考虑K_max(<K)个子带。这可以减少响度检测器单元302中的MAC(乘法累加)操作的数量。

每个DRC频带i(i＝1、2、…、Q)的功率值通常在多个场合被访问。功率值可以一次性计算并进行存储，然后可以在需要时经由查找操作重新使用。

为了进一步降低计算复杂度，可以在早期(例如，在响度检测器单元302中)执行通道链接。举例来说，可以基于不同通道中的功率值(针对每个DRC频带i，i＝1、2、…、Q)决定要维持哪个通道以确定音频信号211的所有通道的联合控制增益329。通过这样做，可以降低计算复杂度。

在本文档中，提出使用斯蒂文思幂定律来近似响度。可以使用替代方法来近似响度，例如A-加权或K-加权。然而，考虑到计算复杂度，使用史蒂文斯幂律更是优选的，因为它可以以高效的方式实施，尤其是结合lin2log运算(即结合上述从线性域到对数域的转换，例如使用运算20log₁₀(·))。

图4示出了用于将动态范围控制或动态范围压缩(DRC)应用于音频信号211的示例(可能是计算机实施的)方法400的流程图。音频信号211可以包括多个通道l，l＝1、2、…、L，其中，L≥2。换言之，音频信号211可以是多通道音频信号。

方法400包括对从音频信号211得到的子带信号212进行下采样401，以提供下采样子带信号321。下采样401可以按下采样因子M来执行，如本文档所概述的。方法400可以在解码单元120处执行，该解码单元被配置为解码比特流112，其中，比特流112指示音频信号211。一个或多个子带信号212可以使用时频(正向)变换或分析滤波器组(诸如分析伪QMF组)从音频信号211得到。换言之，方法400可以包括对音频信号211应用正向变换或分析滤波器组以确定一个或多个(尤其是K个)子带信号212。

如此，可以提供K个不同子带或频率仓的K个子带信号212，其中，可以使用时频逆变换或合成滤波器组(例如合成伪QMF组)对K个子带信号212重新组合以提供音频信号211。

一个或多个子带信号212的下采样401可以通过以下高效的方式执行：从相应子带信号212中只选择每第M个样本以提供对应的下采样子带信号321。

方法400进一步包括基于下采样子带信号321确定402DRC增益329。DRC增益319(本文也被称为控制增益)可以使用图3的上下文中概述的方案来确定。

另外，方法400包括将DRC增益329应用403于子带信号212，以提供动态范围压缩音频信号214的动态范围压缩子带信号213。因此，可以将已经使用下采样子带信号321确定的DRC增益329应用于子带信号212(具有原始分辨率)。结果，可以以高效的方式执行DRC，而不会降低声音质量。

如上文已经指出的，术语“压缩”在本文档中指的是“动态范围压缩”。该术语与术语“编码(coded)”不同，编码可能涉及数据或比特率压缩操作(用于降低音频信号的传输速率)。

因此，描述了被配置为将动态范围控制(DRC)应用于音频信号211的动态范围控制单元210。DRC单元210可以包括在图3的上下文中描述的一个或多个单元。DRC单元210可以是解码单元120的一部分或可以与所述解码单元一起工作。

DRC单元210可以被配置为对从音频信号211得到的子带信号212进行下采样，以提供下采样子带信号321。可以使用在图3的上下文中描述的下采样单元301来执行下采样。通常，音频信号211使用K个频率仓的K个子带信号212来表示。可以对K个子带信号212一部分或全部(尤其是对K_max个子带信号)执行下采样，其中，K_max<K。可以使用(整数)下采样因子M执行下采样，使得与包括N个样本的对应子带信号212相比较，下采样子带信号321包括N/M个样本。

特别地，子带信号212的帧或块可以包括对应于N个时隙的N个样本，并且下采样子带信号321的对应帧或块可以包括N/M个时隙的N/M个样本，其中，M>1是下采样因子。

DRC单元210可以被配置为在不使用滤波器，尤其是低通滤波器的情况下对子带信号212进行下采样。特别地，DRC单元210可以被配置为通过选择子带信号212的每第M个样本作为下采样子带信号321的样本来确定下采样子带信号321。通过这样做，可以特别高效地执行下采样操作(这是可能的，因为一个或多个下采样子带信号321仅用于确定DRC增益329)。

DRC单元210进一步被配置为基于下采样子带信号321确定DRC增益329。特别地，可以为下采样子带信号321的N/M个样本确定具有N/M个DRC增益329的序列。换言之，DRC单元210可以被配置为基于下采样子带信号321确定下采样子带信号321的对应的N/M个时隙的N/M个DRC增益329。DRC增益329可以对应于在图3的上下文中描述的控制增益c_in。

另外，DRC单元210被配置为将DRC增益329应用于子带信号212，以提供压缩音频信号214的压缩子带信号213。为此目的，DRC单元210可以被配置为对子带信号212的对应的N个样本和/或时隙的N/M个DRC增益329至N个DRC增益329进行上采样。可以通过对M个后续时隙重复使用相同的DRC增益329来以高效的方式执行上采样。替代性地，通过在来自N/M个DRC增益329的两个连续DRC增益329之间进行插值，以确定来自N/M个DRC增益329的两个连续DRC增益329之间的M-1个后续时隙的M-1个DRC增益329来执行上采样。换言之，可以在连续的(下采样)DRC增益329之间使用插值方案，以便确定中间(上采样)DRC增益329。举例来说，可以使用线性插值或一些其他形式的插值，尤其是二阶或更高阶插值。然而，应当注意，与使用零阶插值(例如，对于M个后续时隙重复使用相同的DRC增益329)相比，使用更高阶插值的上采样可能导致复杂度和/或延迟提高。

在上采样之后，DRC单元210可以被配置为将子带信号212的对应N个时隙的N个样本乘以对应的N个DRC增益329(在线性域中)，以确定压缩子带信号213。

因此，可以在子带域中以高效的计算方式执行DRC，并保持高感知质量。

如上所述，音频信号211可以使用K个不同的频率仓的K个子带信号212来表示，其中，K>1(K＝20或更多，或者K＝50或更多，尤其是K＝64)。

DRC单元210可以被配置为将K个不同的频率仓中至少一些分组为Q个DRC频带，其中，Q<K，特别地，Q＜＜K(例如，Q>1和/或Q<64，例如，Q＝4)。因此，Q个DRC频带可以通过将至少一些或所有的下采样子带信号312分派给不同的DRC频带来形成。DRC单元210可以进一步被配置为：分别基于分派给Q个DRC频带中至少一个DRC频带的子带信号212，确定Q个DRC频带中的至少一个DRC频带的DRC增益329。特别地，可以为Q个不同的DRC频带确定专用DRC增益329。另一方面，可以将相同的DRC增益用于已经分派给联合DRC频带的子带信号212。通过形成不同的DRC频带来确定相应DRC频带的不同子带信号212的联合DRC增益329，可以进一步降低计算复杂度。

DRC单元210可以被配置为：当确定Q个DRC频带的DRC增益329时，忽略K个频率仓中的一个或多个，尤其是对应于K个频率仓中的最高频率和/或对应于的K个频率仓中的最低频率(尤其是最低或DC频率仓)的一个或多个频率仓。换言之，在确定DRC增益329时，一些子带信号212(尤其是用于频率仓k>K_max的子带信号212)可以被忽略。通过这样做，可以进一步降低计算复杂度。

DRC单元210可以被配置为：确定下采样子带信号321的样本的响度估计323。示例响度估计323是L_inl(在线性域中)或

(在对数域中)，如图3的上下文中概述的。可以针对下采样子带信号321的每个时隙或样本n、每个DRC频带i和/或每个通道l确定响度估计323。

为了确定重新分组到或分派给DRC频带的多个下采样子带信号321的样本的响度估计323，可以对多个下采样子带信号321的对应样本的功率或幅度求和。

DRC单元210可以被配置为：基于下采样子带信号321的样本的响度估计323来确定下采样子带信号321的样本的增益值329。为此目的，可以使用压缩曲线，该压缩曲线被配置为将增益值(在本文中被称为映射增益值324)分派给响度估计323(或从响度估计323得到的值)。压缩曲线可以对应于或者可以是上文指定的压缩曲线(在图3的上下文中)。

DRC单元210可以被配置为：确定下采样子带信号321的样本(或分派给相同DRC频带的多个下采样子带信号321的对应样本)的幅度。幅度可以是在图3的上下文中描述的值I_inl。

此外，DRC单元210可以被配置为：将斯蒂文思幂定律和从线性域到对数域的转换应用于下采样子带信号321的样本的幅度，以确定下采样子带信号321的样本的响度估计323。使用斯蒂文思幂定律允许以高效计算的方式确定响度估计323。

压缩曲线可以被配置为根据响度估计323与操作点331的偏差(例如使用公式

)提供增益值324，这里被称为映射增益值(例如，如图3的上下文中概述的值F_inl)。

操作点331可以取决于对白归一参数或音频信号211内的对话内容的平均对话水平或音频信号211的平均功率水平。该参数可以在音频信号211的比特流112中提供。通过考虑用于应用压缩曲线的操作点331(其可沿时间线变化)，DRC对音频信号211的感知质量的影响可能进一步降低。

DRC单元210可以被配置为：基于下采样子带信号321的样本的块(或帧)的功率值(例如，在图3的上下文中概述的BA值

)，确定平均块功率值。然后可以基于平均块功率值来确定下采样子带信号321的样本块(或帧)的操作点331。

特别地，DRC单元210可以被配置为：基于下采样子带信号321的样本块的平均块功率值和下采样子带信号321的先前样本块的序列，确定下采样子带信号321的样本块的长期平均块功率值。特别地，长期平均块功率值

可以如图3的上下文中概述的那样确定。在音频信号211内检测到场景变化的情况下(尤其是在响度估计323突然变化的情况下)，可以重置长期平均块功率。

此外，DRC单元210可以被配置为：例如使用以下公式确定长期平均块功率值与对白归一参数的功率偏差ΔL_t

然后可以基于功率偏差精确地确定来自下采样子带信号321的样本块的样本的操作点331，例如使用公式

结果，DRC对音频信号的音质的影响可以进一步降低。特别地，通过如上文所概述的为不同的DRC频带设置操作点331，即使在DRC频带中执行DRC时，也可以保持音频信号的频谱组成(即，可以降低均衡效果)。

压缩曲线可以由配置文件数据215(其可以由比特流112提供)来定义。配置文件数据215可以包括或可以指示用于实现向上压缩和/或向下压缩的一个或多个增益值。特别地，配置文件数据215可以包括或可以指示增益值G_maxcut、G_sectioncut、G_sectionboost和/或G_maxboost。替代性地或另外，配置文件数据215可以包括或可以指示一个或多个响度阈值。响度阈值可以用于为压缩曲线的不同段指定响度估计323的不同响度区间。特别地，配置文件数据215可以包括或可以指示阈值L_maxcut、L_sectioncut、L_0high、L_sectionboost、L_0low和/或L_maxboost。通过提供压缩曲线的参数作为配置文件数据215，可以高效且精确(尤其是在解码单元120处)执行DRC，而实际上不会显著增加编解码***100的比特率。

DRC单元210可以被配置为：基于当前时隙的下采样子带信号321的样本的响度的响度估计323，确定当前时隙的下采样子带信号321的样本的映射增益值324(例如使用压缩曲线)。此外，DRC单元210可以被配置为：对当前时隙和一个或多个先前时隙的下采样子带信号321的样本的增益值324执行增益平滑，以确定当前时隙的下采样子带信号321的样本的平滑增益值326。可以如增益平滑单元306的上下文中所概述的那样执行增益平滑。特别地，增益平滑可以使用低通滤波器。用于执行增益平滑的平滑因子α可以取决于响度估计323是高于还是低于压缩曲线的操作点331。替代性地或另外，平滑因子可以取决于当前时隙n处的响度估计323是高于还是低于前一个时隙n-1处的平滑增益值326(例如，如图3的上下文中概述的)。通过这样做，可以进一步降低DRC对音频信号211的感知质量的影响。

然后可以基于当前时隙n的下采样子带信号321的样本的平滑增益值326来确定当前时隙n的下采样子带信号321的样本的DRC增益329。通过使用增益平滑，可以进一步降低DRC对音频信号211的感知质量的影响。

如上文所概述的，DRC单元210可以被配置为：确定下采样子带信号321的样本的DRC增益329。可以将下采样子带信号321的特定样本的DRC增益329应用于子带信号212的多个连续样本，以确定压缩子带信号213。换言之，DRC增益329可以被上采样到子带信号212的采样率。可以使用采样和保持方法来执行上采样。结果，可以以高效计算的方式执行DRC。

音频信号211可以包括多个不同通道。换言之，音频信号211可以是多通道音频信号。DRC单元210可以被配置为：确定多个不同通道或一个或多个通道子组的联合DRC增益329。用于5.1多通道音频信号211的示例通道子组可以是通道的第一子组{L,R,C}和通道的第二子组{Ls,Rs}。可以为每个通道子组单独确定联合DRC增益329。

特别地，DRC单元210可以被配置为：尤其是基于对应的多个不同通道的样本的多个功率值，从多个不同通道(或从通道子组)中选择通道中的一个。举例来说，可以选择需要最高压缩程度或需要最低压缩程度的通道。然后可以将所选通道的DRC增益329确定为多个不同通道的联合DRC增益329。因此，DRC增益329可以仅针对单个通道来确定，但可以用于多个不同通道。通过这样做，可以降低计算复杂度，同时降低对音频信号211的感知质量的影响。特别地，可以保持音频信号211的空间图像，即可以保持音频信号211的不同通道之间的平衡。

DRC单元210可以被配置为：确定多个DRC增益329并将多个DRC增益329应用于对应的多个子带信号212，以提供对应的多个压缩子带信号329。如上文所概述的，可以为一个或多个DRC频带确定联合DRC增益329。可以通过将逆变换或合成滤波器组(尤其是合成伪QMF组)应用于多个压缩子带信号329，来确定压缩音频信号214。逆变换或合成滤波器组是用于从音频信号211得到多个子带信号212的正向变换或分析滤波器组的互补逆操作。特别地，正向变换和逆变换对和/或一对分析滤波器组和合成滤波器组可以满足完美的重建标准。

DRC单元210可以被配置为：根据压缩子带信号329的参考水平来确定(下采样)子带信号212、321的样本的DRC增益329。可以在比特流112中指示参考水平(例如，作为配置文件数据215)。参考水平可以用于抵消由压缩曲线提供的(可能已平滑的)增益324、326，以便根据参考水平对压缩音频信号214进行调节。特别地，可以应用偏移B 332(如图3的上下文中概述的)。结果，可以将音频信号的预期响度水平设置为期望值。

此外，描述了解码单元120，该解码单元被配置为从比特流112得到动态范围压缩音频信号214。比特流112可以指示音频信号211或音频信号211的多个子带信号212。解码单元120包括本文档中描述的DRC单元210。DRC单元210被配置为对音频信号211应用动态范围压缩。

在本文档中，描述了允许以高效计算的方式执行DRC而不降低声音质量的方案。

本文档中描述的方法和***可以被实施为软件、固件和/或硬件。某些部件可以例如被实施为在数字信号处理器或微处理器上运行的软件。其他部件可以例如被实施为硬件和/或专用集成电路。所描述的方法和***中遇到的信号可以存储在如随机存取存储器或光学存储介质等介质上。这些信号可以经由如无线电网络、卫星网络、无线网络或有线网络(例如，因特网)等网络来传输。利用本文档中描述的方法和***的典型设备是用于存储和/或呈现音频信号的便携式电子设备或其他消费设备。

Claims

1.一种动态范围控制(被称为DRC)单元(210)，被配置为将DRC应用于音频信号(211)；其中，所述DRC单元(210)被配置为

-对从所述音频信号(211)得到的子带信号(212)进行下采样，以提供下采样子带信号(321)；

-基于所述下采样子带信号(321)，确定DRC增益(329)；以及

-将所述DRC增益(329)应用于所述子带信号(212)，以提供压缩音频信号(214)的压缩子带信号(213)。

2.如权利要求1所述的DRC单元(210)，其中，

-所述子带信号(212)的帧包括N个时隙，并且所述下采样子带信号(321)的对应帧包括N/M个时隙；并且

-M>1是下采样因子。

3.如权利要求2所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-基于所述下采样子带信号(321)，确定所述下采样子带信号(321)的对应N/M个时隙的N/M个DRC增益(329)；以及

-对所述N/M个DRC增益(329)进行到所述子带信号(212)的对应N个时隙的N个DRC增益(329)的上采样。

4.如权利要求3所述的DRC单元(210)，其中，上采样包括

-对M个后续时隙重复使用相同的DRC增益(329)；或者

-在来自所述N/M个DRC增益(329)的两个连续DRC增益(329)之间进行插值，以确定来自所述N/M个DRC增益(329)的两个连续DRC增益(329)之间的M-1个后续时隙的M-1个DRC增益(329)。

5.如权利要求3或4所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：将所述子带信号(212)的对应N个时隙的N个样本与对应的N个DRC增益(329)相乘，以确定所述压缩子带信号(213)。

6.如前述权利要求中任一项所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-在不使用低通滤波器的情况下，对所述子带信号(212)进行下采样；和/或

-通过选择所述子带信号(212)的每第M个样本作为所述下采样子带信号(321)的样本，确定所述下采样子带信号(321)。

7.如前述权利要求中任一项所述的DRC单元(210)，其中，

-所述音频信号(211)使用K个不同频率仓的K个子带信号(212)来表示，其中，K>1；并且

-所述DRC单元(210)被配置为：

-将所述K个不同频率仓中的至少一些分组为Q个DRC频带，其中，Q<K；以及

-分别基于分派给所述Q个DRC频带中至少一个DRC频带的子带信号(212)，确定所述Q个DRC频带中的至少一个DRC频带的DRC增益(329)。

8.如权利要求7所述的DRC单元(210)，其中，所述DRC单元(210)被配置为在确定所述Q个DRC频带的DRC增益(329)时，忽略所述K个频率仓中的一个或多个。

9.如权利要求8所述的DRC单元(210)，其中，所述一个或多个被忽略的频率仓对应于所述K个频率仓中的最高频率。

10.如前述权利要求中任一项所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-确定所述下采样子带信号(321)的样本的响度估计(323)；以及

-使用压缩曲线，基于所述响度估计(323)来确定所述增益值(329)。

11.如权利要求10所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-确定所述下采样子带信号(321)的样本的幅度；以及

-将斯蒂文思幂定律和从线性域到对数域的转换应用于所述下采样子带信号(321)的样本的幅度，以确定所述下采样子带信号(321)的样本的所述响度估计(323)。

12.如权利要求10至11中任一项所述的DRC单元(210)，其中，

-所述压缩曲线被配置为：根据所述响度估计(323)与操作点(331)的偏差来提供映射增益值(324)；并且

-所述操作点(331)取决于对白归一参数或所述音频信号(211)内的对话内容的平均对话水平或所述音频信号(211)的平均功率水平。

13.如权利要求12所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-基于所述下采样子带信号(321)的样本块的功率值，确定平均块功率值；以及

-还基于所述平均块功率值，确定所述下采样子带信号(321)的样本块的操作点(331)。

14.如权利要求13所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-基于所述下采样子带信号(321)的样本块的平均块功率值和所述下采样子带信号(321)的先前样本块的序列，确定所述下采样子带信号(321)的样本块的长期平均块功率值；

-确定所述长期平均块功率值与所述对白归一参数的功率偏差；以及

-基于所述功率偏差，确定来自所述下采样子带信号(321)的样本块中的样本的操作点(331)。

15.如权利要求10至14中任一项所述的DRC单元(210)，其中，所述压缩曲线由包括在配置文件数据(215)中的一个或多个参数定义。

16.如前述权利要求中任一项所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-基于当前时隙的下采样子带信号(321)的样本的响度的响度估计(323)，确定所述当前时隙的下采样子带信号(321)的样本的映射增益值(324)；

-对所述当前时隙和一个或多个先前时隙的所述下采样子带信号(321)的样本的映射增益值(324)执行增益平滑，以确定所述当前时隙的所述下采样子带信号(321)的样本的平滑增益值(326)；以及

-基于所述当前时隙的所述下采样子带信号(321)的样本的平滑增益值(326)，确定所述当前时隙的所述下采样子带信号(321)的样本的DRC增益(329)。

17.如前述权利要求中任一项所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-确定所述下采样子带信号(321)的样本的DRC增益(329)；以及

-将所述下采样子带信号(321)的样本的DRC增益(329)应用于所述子带信号(212)的多个连续样本，以确定所述压缩子带信号(213)。

18.如前述权利要求中任一项所述的DRC单元(210)，其中，

-所述音频信号(211)包括多个不同通道；并且

-所述DRC单元(210)被配置为：确定所述多个不同通道的或所述多个不同通道的一个或多个子组的联合DRC增益(329)。

19.如权利要求18所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-从所述多个不同通道中选择所述通道中的一个；以及

-将所选通道的DRC增益(329)确定为所述多个不同通道的或所述多个不同通道的一个或多个子组的所述联合DRC增益(329)。

20.如权利要求19所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：基于对应的所述多个不同通道的样本的多个功率值，从所述多个不同通道中选择所述通道中的一个。

21.如前述权利要求中任一项所述的DRC单元(210)，其中，所述DRC单元(210)被配置为：

-为对应的多个子带信号(212)确定并应用多个DRC增益(329)，以提供对应的多个压缩子带信号(329)；以及

-通过将逆变换或合成滤波器组应用于所述多个压缩子带信号(329)，确定所述压缩音频信号(214)；

其中，所述逆变换或所述合成滤波器组与正向变换或分析滤波器组互补，所述正向变换或所述分析滤波器组用于从所述音频信号(211)得到所述子带信号(212)。

22.一种解码单元(120)，所述解码单元被配置为：从指示音频信号(211)的比特流(112)中得到动态范围压缩音频信号(214)；其中，所述解码单元(120)包括根据前述权利要求中任一项所述的DRC单元(210)，所述DRC单元被配置为将动态范围控制应用于所述音频信号(211)。

23.一种用于将被称为DRC的动态范围控制应用于音频信号(211)的方法(400)；其中，所述方法(400)包括

-对从所述音频信号(211)得到的子带信号(212)进行下采样(401)，以提供下采样子带信号(321)；

-基于所述下采样子带信号(321)确定(402)DRC增益(329)；以及

-将所述DRC增益(329)应用(403)于所述子带信号(212)，以提供压缩音频信号(214)的压缩子带信号(213)。

24.一种软件程序，所述软件程序适于在处理器上执行并且当由所述处理器执行时用于执行如权利要求23所述的方法。

25.一种存储介质，所述存储介质包括软件程序，所述软件程序用于在处理器上执行并且当由所述处理器执行时用于执行如权利要求23所述的方法。

26.一种计算机程序产品，所述计算机程序产品包括可执行指令，所述可执行指令当在计算机上执行时用于执行如权利要求23所述的方法。