CN112384976A

CN112384976A - 动态eq

Info

Publication number: CN112384976A
Application number: CN201980046361.0A
Authority: CN
Inventors: G·琴加莱; A·马特奥斯索莱; D·J·布莱巴特
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2018-07-12
Filing date: 2019-07-11
Publication date: 2021-02-19
Also published as: EP3821430A1; US11430463B2; US20210312937A1; WO2020014517A1

Abstract

公开了用于(可能同时)将EQ和DRC应用于音频信号的各种实施例。在实施例中，一种方法包括：将输入音频信号划分为n个帧，其中，n为大于1的正整数；将所述输入音频信号的每一帧划分为Nb个频带，其中，Nb为大于1的正整数；对于每一帧n：计算每个频带f中所述输入音频信号的输入电平，得到所述输入音频信号的输入音频电平分布；至少部分地基于所述输入音频电平分布的一个或多个属性到从一个或多个参考音频信号计算出的参考音频电平分布的映射针对每个频带f计算增益；以及将每个频带f的每个计算出的增益应用于所述输入音频信号的每个对应频带f。

Description

动态EQ

相关申请的交叉引用

本申请要求于2018年7月12日提交的西班牙专利申请号P201830698、于2018年9月13日提交的美国临时专利申请号62/730,780以及于2018年9月25日提交的欧洲专利申请号18196532.8的优先权，所述专利申请通过引用并入本文。

技术领域

本公开总体上涉及音频信号处理，并且更具体地涉及对音频信号应用均衡和动态压缩。

背景技术

业余的音频录音通常包含专业录音中不存在的一些不良特征，诸如由于房间模式而引起的低谷(dip)和共振、与麦克风相关的频率响应异常、不受控制的动态范围、失真、不同设备所记录的信号中数字电平的变化很大等。可以在录音和混合期间通过使用均衡(EQ)和动态范围压缩(DRC)来改善这些低质量的录音。EQ和DRC的用途之一是控制信号链中的固有缺陷(例如，麦克风定位、强烈的室内共振等)，并帮助用户制作清晰且有深度的更平衡的录音。

发明内容

公开了用于(可能同时)将EQ和DRC(下文中称为“DynEQ”)应用于音频信号(例如，歌曲)的各种实施例。DynEQ通过分析参考资料诸如经过良好母带处理的音乐音轨来建立和利用频谱轮廓(以下称为“目标轮廓”)。目标轮廓包括关于信号的每个频带的动态的统计数据(例如，以分位数曲线的形式)，而不是单个平均目标EQ曲线。将信号处理应用于音频信号，以便以依赖于动态统计数据的方式将音频信号的频谱轮廓与目标频谱轮廓进行匹配。例如，信号处理包括将时变的频率相关增益应用于原始音频信号，这具有时变均衡器和时变调平器的共同作用。

在实施例中，这允许DynEQ在“离线”模式下使用，在该模式下，在应用信号处理之前对音频信号进行第一遍分析。第一遍使DynEQ可以获得音频信号的准确统计数据，该统计数据可以用于改善该音频信号的质量。准确统计数据使DynEQ可以避免在应以不同方式处理音频信号的各个部分时将各个部分与目标频谱轮廓进行匹配。例如，在“离线”模式下，可以分析整首歌曲以了解柔和部分(例如，前奏)或响亮部分(例如，合唱)的位置，从而可以使用相同目标轮廓的不同分位数曲线来均衡歌曲的柔和部分和响亮部分。在实施例中，DynEQ也可以在“在线”模式下使用，在该模式下，在音频回放设备上向收听者回放音频信号的同时从音频信号获得动态统计数据。

在实施例中，DynEQ可以使用对音频信号中的静态背景噪声的估计来避免提升音频信号中具有低信噪比(SNR)的时频片(tile)。在实施例中，DynEQ结合了归一化步骤，该归一化步骤使DynEQ处理独立于通常是不可预测的音频信号的整体数字电平。

在实施例中，一种方法包括：将输入音频信号划分为n个帧，其中，n为大于1的正整数；将所述输入音频信号的每一帧划分为Nb个频带，其中，Nb为大于1的正整数；对于每一帧n：计算每个频带f中所述输入音频信号的输入电平，得到所述输入音频信号的输入音频电平分布；至少部分地基于所述输入音频电平分布的一个或多个属性到从一个或多个参考音频信号计算出的参考音频电平分布的映射针对每个频带f计算增益；以及将每个频带f的每个计算出的增益应用于所述输入音频信号的每个对应频带f。

其他实施例包括***、装置和非暂态计算机可读介质。

在以下附图和描述中阐述了本发明主题的一个或多个实施方式的细节。本发明主题的其他特征、方面和优点将在说明书、附图和权利要求中变得更明显。

附图说明

图1是根据实施例的用于建立音频信号的频谱轮廓的音频处理***的框图。

图2是图示了根据实施例的对应于频谱轮廓的分位数曲线的曲线图。

图3A是根据实施例的在离线工作流中用于将DynEQ应用于音频信号的音频处理***的框图。

图3B是根据实施例的在在线工作流中用于将DynEQ应用于音频信号的音频处理***的框图。

图4图示了根据实施例的计算在音频信号的每个频带中的DynEQ增益。

图5A和图5B分别是根据实施例的频谱轮廓的原始版本和压缩版本。

图6是根据实施例的被修改以提升高频的频谱轮廓。

图7根据实施例比较了三种不同类型的音乐的频谱轮廓的分位数曲线。

图8是根据实施例的用于建立音频信号的频谱轮廓的过程的流程图。

图9是根据实施例的DynEQ过程的流程图。

图10是用于执行参考图1至图9描述的过程的音频处理单元的框图。

具体实施方式

示例***

图1是根据实施例的用于建立音频信号的频谱轮廓的音频处理***100的框图。***100包括帧生成器101、窗口函数102、滤波器组103、电平检测器104和分位数生成器105。

输入音频信号的频谱轮廓是在音频帧上计算出的每频带的输入音频信号电平的统计分布。帧生成器101将输入音频信号s(t)划分为长度frameLength的样本(例如4096个样本)的帧，其中，连续帧之间重叠nOverlap个样本(例如2048个样本)。在下文中，在帧n处的输入音频信号称为s(n)。将窗口函数102(例如，淡入、淡出窗口)应用于每一帧n，以确保连续帧之间的平滑插值。在实施例中，使用汉宁(Hanning)窗。

滤波器组103将加窗信号s(t)划分为Nb个频带(例如83个频带或子频带)。我们将帧n处的频带f中的信号称为s(n，f)。电平检测器104计算每一帧n处的每个频带f中输入音频信号的电平L_in(n，f)。E(n，f)是在给定帧n处的频带中输入音频信号的能量。电平是转换为dB的能量：

L_in(n，f)＝10·log10(E(n，f))。

在实施例中，当计算每个频带中的新帧的能量时，可以通过使用例如由以下公式描述的一阶低通滤波器来随时间对结果进行平滑：

eSmooth(n，f)＝eSmooth(n-1，f)·α+E(n，f)·(1-α)，

其中，取决于当前帧处的能量分别大于还是小于前一帧处的平滑值，系数α可以从不同的起始(attack)/释放(release)时间常数得出的起始或释放系数中选择。

图2是对应于***100产生的频谱轮廓的分位数曲线的示例。竖直轴线是电平(dBFS)，并且水平轴线是频率(Hz)。在每个频带f中，电平分布的第x个分位数q_x(f)被计算为一值，低于该值包含有该频带中的帧上的电平的x％。在该示例中，频谱轮廓包括针对每个频带的7个分位数207-201(q₁₀，q₃₀，q₅₀，q₇₀，q₉₀，q₉₅，q₉₉)。如果信号是多声道的，则可以将给定帧n处的每个频带中的电平计算为例如声道上的能量的均方根(RMS)平均值：

其他选择诸如在声道上取最大值在一般情况下会导致相似的结果，但可能在特定域中是优选的(例如，应用于5.1音轨)。

A.建立轮廓(训练)

在训练阶段，使用***100生成目标轮廓。目标轮廓是参考歌曲或音轨或参考歌曲/音轨的集合的频谱轮廓。也可以例如通过使用男歌手录音、低音乐器录音等的集合为人声或乐器轨建立目标轮廓。术语“歌曲”或“音轨”被一般地使用来指代集合的每个摘录。如果目标轮廓是从多于一首歌曲/音轨生成的，则在计算轮廓之前将歌曲/音轨进行归一化，以使其具有相同的响度。在实施例中，如标准欧洲广播联盟建议(EBU)R128所规定地那样来计算响度。在归一化之后，通过分析所有歌曲/音轨的聚合帧(就像所有歌曲/音轨已被级联为一个)来建立统计数据。

***100可以生成多个目标轮廓，诸如对应于不同音乐类型、乐器轨(例如人声、低音乐器、鼓等)、电影主干(例如对话、效果、音乐等)的目标，并将其存储以用于如参考图3所描述的DynEQ处理。在一些应用中，可以在同一个组内提供各种目标轮廓，以允许用户选择和改变得到的输出效果。例如，可以提供不同的人声目标轮廓，其表示内容创作者所使用的不同的声音混合风格或技术。这样，应用的最终用户可以选择使用哪个目标(或参考)轮廓来在处理步骤中做出创造性的决策。

B.处理音频信号

图3A是根据实施例的在离线工作流中用于将DynEQ应用于音频信号的音频处理***300的框图。给定目标轮廓和输入音频信号，目标是处理该输入音频信号，以使其频谱轮廓(以下称为“输入轮廓”)与目标轮廓相匹配。此操作包括在每一帧n中针对每个频带f计算和应用增益g(f，n)。

在所示的实施例中，信号分析器301分析输入音频信号和背景噪声以建立输入轮廓和噪声轮廓。在离线模式下，该计算如参考图1所描述的进行。在在线模式下，输入轮廓是当正在播放歌曲/音轨时建立的。在线模式可能在歌曲/音轨开头导致一些不准确，但会在歌曲/音轨结束时趋近于离线版本。在这种情况下，计算每个频带的增益可以包括附加条件，以最大限度地减少在初始帧期间缺少关于整个歌曲/音轨的信息的潜在不期望影响。

当背景噪声轮廓的估计可用时(例如，当仅包含噪声的片段可用并且其轮廓被计算时)，信号分析器301针对每个时频片建立SNR的内部估计SNR(f，n)。如果背景噪声估计不可用，则可以通过将所有SNR设置为非常大的值(相当于假设非常低的背景噪声)或通过试错法设置的值来跳过该步骤。信号分析器301还计算每个频带中的SNR得分，SNRscore(f)是[0.0，1.0]中的实数，其表示分位数有多接近噪声分布的分位数。值0.0表示SNR较差(例如，SNR＜0.0)，值1.0表示SNR良好(例如SNR＞12.0)，并通过线性插值将两者之间的值映射到SNRscore(f)。

在实施例中，通过将函数F应用于SNR(f，n)来计算SNRscore(f)，其中，F将真实值的范围[-inf，+inf]映射到[0.0，1.0]。这种函数F的示例是：

F(SNR)＝0.0，如果SNR＜0.0；

F(SNR)＝1.0，如果SNR＞12.0；并且

F(SNR)＝SNR/12.0，如果0.0＜SNR＜12.0；(线性插值)

可以使用将[-inf，+inf]映射到[0.0，1.0]的其他函数，诸如Sigmoid函数。

静态增益生成器302计算静态增益g_s(f)。首先，将目标轮廓移位，使其具有与输入轮廓相同的响度。在实施例中，通过在所有频带上对给定分位数(例如，q₉₀)的值求平均来计算响度。该步骤确保算法的操作与输入整体数字电平无关。因此所有目标分位数都发生了移位：Q_x，target(f)＝q_x，target(f)+＜q_90，input(f)-q_90，tartet(f)＞，其中，<...>表示所有频带上的平均运算，其中，平均值是以能级表示分位数之后得出的。在每个频带f中，移位目标与输入之间的分位数q₉₀之差被计算为：

g_diff(f)＝Q_90，target(f)-q_90，input(f)。

然后，静态增益生成器302计算meanGainDdB，即，具有足够好的SNR得分(例如SNRscore＞0.3)的频带中gdiff(f)的平均值。最后，静态增益被计算为：

g_s(f)＝meanGainDdB+SNRscore(f)·(g_diff(f)-meanGainDdB)。

在实施例中，可以在某些频带上对增益进行平滑，主要是为了避免对频域中非常稀疏的内容进行过度均衡。例如，在低音乐器总是演奏相同音符的歌曲中，平坦的目标轮廓会试图减少该音符并提升周围的空频带。这可以通过对增益求平均来减轻，以使得在低频带(例如f＜150Hz)中，增益是频率上最近的邻居的平均值，在低中频带(例如150Hz＜f＜250Hz)中，增益是例如六个邻居增益的平均值，并且在中高范围(例如f＞250Hz)中，增益是例如八个邻居增益的平均值。总而言之，将静态增益应用于除SNR不好的频带之外的所有帧，意图是将歌曲的总体频谱平衡调整到目标。

动态增益生成器303计算动态增益g_d(f，n)。在每一帧n和频带f处，计算输入电平L_in(n，f)，并计算其在输入分布中的位置(图4左侧的星形401)。动态增益是将输入能量带入其在目标轮廓的统计分布的对应点(图4右侧的星形402)所需的增益量。低于q₁₀或高于q₉₉的电平分别钳位到q₁₀和q₉₉。期望的输出电平L_out(n，f)是使得被处理的帧和频带将落在输出分布的对应位置(星形402)。期望的动态增益g_d(n，f)被计算为：

g_d(n，f)＝L_out(n，f)-L_in(n，f)-g_s(f)，

其中，g_s(f)是先前计算的给定频带f的静态增益。这确保了处理后的输入信号的所得分布将与目标分布匹配。在实施例中，SNRscore(f)用于减少动态增益，其减少方式与静态增益相同。例如，在计算动态增益g_d(n，f)之后，将其乘以SNRscore(f)：

g_d(n，f)＝SNRscore(f)*g_d(n，f)。

如果输入轮廓的动态范围非常有限(例如，恒定、稳定的信号)，则将输入轮廓映射到目标轮廓可能会随时间推移导致过多和不必要的增益变化。为了避免这种过度扩张，通过减去其相应的q₉₀和q₁₀值来计算输入轮廓和目标轮廓的动态范围(DR_in，DR_target)，并且定义了最大期望扩张率maxRatio。在输入轮廓与目标轮廓的动态范围之差超过最大期望扩张率(DR_in/DR_target＞maxRatio)的频带中，将动态增益g_d(n，f)设置为0dB。在扩张在okRatio到maxRatio之间的频带中，将增益乘以(DR_in/DR_target-maxRatio)/(okRatiomaxRatio)

在实施例中，maxRatio和okRatio是根据经验确定的常数。例如，maxRatio＝10大致对应于20dB，并且okRatio＝5大致对应于15dB。如果动态范围在小于15dB的频带内扩张，则会应用增益。如果动态范围扩张超过20dB，则不会应用增益。如果动态范围在15dB到20dB之间，则在全增益与零增益之间应用插值。

增益组合器304对静态增益和动态增益进行组合。为了避免过度提升，可以限制增益(例如，限制为+10dB)。在实施例中，可以通过指定dynEQamount和staticEQamoount(两者都在0.0到1.0之间)由用户对每个频带的EQ量进行调谐，其中，值1.0保留计算出的增益，0.0将增益设置为0.0，并且介于两者之间的值将EQ量与该值成比例地减少。频带f和帧n的最终增益量因此变为：

g(n，f)＝dynEQamount·g_d(n，f)+staticEQamount·g_s(f)。

在实施例中，在某些频带上对最终增益进行平滑以避免由于增益在频率上的突然变化而引起的潜在伪迹。

在计算了最终增益之后，音频处理器305将增益应用于输入音频信号。以上描述的***300进行的处理是基于对整个歌曲/音轨的分析，因此它适用于离线工作流，在该离线工作流中，在进行处理之前已经记录了整个内容。

图3B是根据实施例的在在线工作流中用于将DynEQ应用于音频信号的音频处理***300的框图。在该实施例中，该处理可以被适配用于线工作流，在在线工作流中，在播放歌曲/音轨的同时，将输入轮廓初始化为合适的轮廓并由输入轮廓更新器306进行更新。可以取决于应用而以多种方式确定初始化的轮廓。示例包括针对音乐类型(例如，摇滚、原声、古典音乐等)、针对默认人声声轨、或者在歌曲开始之前通过分析初始的可能是简短的样本录音、诸如声音检查，来选择默认轮廓。在这种实施例中，在演奏开始时可能会出现一些不准确，但是会在歌曲/音轨结束时趋近于离线版本。

C.进一步处理

将内容调整到通过目标轮廓的分位数定义的目标频率响应和动态范围的概念自然允许在DynEQ的默认结果之上进行有意义的高级修改。例如，如果期望更高压缩的动态范围，预处理目标分位数是足够的，竖直对它们进行移位以使得减小分位数之间的间距。类似地，对于较大的动态范围，增大分位数之间的间距是足够的。图5A示出了先前在图2中示出的原始目标轮廓，并且图5B示出了目标轮廓的压缩版本，示出了分位数曲线竖直移位，从而减小了分位数曲线之间的间距。

如果期望“更明亮”的声音，增加目标轮廓中的高频量是足够的。图6示出了原始目标分位数曲线601和高音提升602。调整高频或低频的量允许通过预处理目标轮廓来表达和捕获用户的微调，从而创建修改版本。该技术提供了可预测和可重复的更改，而与所选的目标轮廓和所处理的输入资料无关。

在实施例中，期望在多种可能性中自动选择最合适的目标轮廓。如图7所示，从不同类型计算出的目标分位数曲线701至703可能显著不同。当处理某首歌曲/音轨时，目标分位数曲线的不匹配可能会导致歌曲/音轨没有有意义信号的区域中的过度提升。作为示例，摇滚目标轮廓可能具有大量的低音能量。如果对原声或人声独奏进行处理以匹配这种目标轮廓，则可能会导致低频下出现不必要的EQ量。为了避免这种不匹配，可以自动选择最合适的目标轮廓。在实施例中，选择在某个频率范围例如60Hz＜f＜500Hz内使目标的q₉₀与歌曲/音轨的q₉₀之间的均方误差最小的目标轮廓。

到目前为止所描述的处理是在音乐母带处理的上下文中提出的，其中，对单个文件进行校正，该文件通常是多个源(乐器、音轨等)的混合。然而，DynEQ也可以应用于对混合有贡献的各个音轨中的每个(或一些)音轨。该过程将保持不变，但是可以为每个音轨定义特定的目标轮廓(例如，通过为歌曲中的每个乐器或源创建目标轮廓)。该实施例提供了以下优点：1)在自动混合过程中进行更多控制；2)针对每种乐器优化EQ/DRC；3)用户有机会独立地对每种乐器进行高级微调(例如，以获得更明亮、更压缩的鼓)；以及4)有机会将单个高级用户微调映射到针对每种乐器的针对性的特定微调。例如，选择“60年代摇滚乐”风格不仅会在最终混合中应用EQ和DRC，而且实际上会以最适合该类型的方式处理每一件乐器，从而更匹配期望的风格。

图8是根据实施例的用于建立音频信号的频谱轮廓的过程800的流程图。过程800可以由图10的音频处理单元实施。

过程800可以开始于将输入音频信号划分为n个帧(801)。例如，音频信号s(t)可以被划分为长度frameLength的样本(例如4096个样本)的帧，其中，连续帧之间重叠nOverlap个样本(例如2048个样本)。在实施例中，将窗口函数(例如，汉宁窗)应用于这些帧以确保连续帧之间的平滑插值。

过程800继续将输入音频信号的每一帧n划分为Nb个频带f(802)。例如，滤波器组可以将加窗信号s(t)划分为Nb个频带(例如83个频带或子频带)。

过程800继续计算帧n的每个频带f中输入音频信号的输入电平(803)。例如，电平检测器可以计算每一帧n的每个频带f中输入音频信号的电平L_in(n，f)。在实施例中，电平是转换为dB的能量E(n，f)。在实施例中，电平是幅度或响度。

过程800继续计算频带f中输入电平分布的多个分位数曲线(804)。例如，在每个频带f中，输入电平分布的第x个分位数q_x(f)被计算为一值，低于该值包含有该频带中的帧上的电平的x％。如果信号是多声道的，则给定帧处每个频带中的电平根据各个声道的电平得出，诸如通过使用声道上能量的均方根(RMS)平均值或声道上最大能量来得出。

图9是根据实施例的DynEQ过程900的流程图。过程900可以由图10的音频处理单元实施。对于每一帧n，过程900计算每个频带f中输入音频信号的输入电平(901)，并且然后计算每个频带f中的输入音频电平分布(902)，所述输入音频电平分布包括多个输入分位数曲线。过程900继续至少部分地基于输入音频电平分布的输入分位数曲线到包括从一个或多个参考音频信号计算出的目标分位数曲线的参考音频电平分布的映射来针对每个频带f计算静态增益(903)，如参考图3所描述的。在实施例中，该映射基于将输入音频电平分布的一个或多个统计矩与目标电平分布的矩进行匹配，诸如匹配均值或标准偏差，可能用高阶矩来增强等。

过程900继续至少部分地基于静态增益、输入电平以及频带f的指定输出电平来针对每个频带f计算动态增益(904)，如参考图3描述的。过程900继续通过组合静态增益的一部分和动态增益的一部分来针对每个频带f计算最终增益(905)，并将最终增益应用于输入音频信号的每个频带f(906)，如参考图3所描述的。

在已将最终增益应用于每个频带f之后，可以通过变换回时域并使用重叠和相加技术或音频领域技术人员已知的任何其他技术来重构音频信号。然后，重构的音频信号可以流式传输或在音频回放设备上回放(例如，通过立体声或多声道音频***的扬声器或耳机/耳塞或安装在移动设备上的媒体播放器应用)。

示例***架构

图10是用于执行参考图1至图9描述的过程的音频处理单元1000的框图。包括具有更多或更少部件的架构的其他架构是可能的。在一些实施方式中，音频处理单元1000包括一个或多个处理器1002(例如，双核

处理器、数字信号处理器)、一个或多个输出设备1004(例如，LCD)、一个或多个网络接口1006(例如，物理端口、无线收发器)、一个或多个输入设备1008(例如，鼠标、键盘、触敏显示器)和一个或多个计算机可读介质1012(例如，RAM、ROM、SDRAM、硬盘、光盘、闪速存储器等)。这些部件可以通过通信信道1010(例如，总线)交换通信和数据，这些通信信道可以利用各种硬件和软件来促进部件之间的数据与控制信号的传递。术语“计算机可读介质”是指参与将指令提供给处理器1002以供执行的介质，该介质包括但不限于非易失性介质(例如，光盘或磁盘)、易失性介质(例如，存储器)和传输介质。传输介质包括但不限于同轴电缆、铜线和光纤。

计算机可读介质1012可以进一步包括操作***指令1014(例如，

操作***)、通信模块1016和DynEQ模块1018。操作***1014可以是多用户、多处理、多任务、多线程、实时等的。操作***1014执行基本任务，这些基本任务包括但不限于：从网络接口1006和/或设备1008识别输入并向这些网络接口和/或设备提供输出；跟踪和管理计算机可读介质1012(例如，存储器或存储设备)上的文件和目录；控制***设备；并且管理一个或多个通信信道1010上的通信量。通信模块1016包括用于通过网络(例如，因特网)与其他设备和服务器计算机进行通信的软件栈(例如，TCP/IP栈)。DynEQ模块1018包括计算机指令，这些计算机指令在被执行时使处理器1002执行参考图1至图9描述的过程。

所描述的特征可以有利地在可编程***上执行的一个或多个计算机程序中实施，所述可编程***包括至少一个可编程处理器，所述至少一个可编程处理器被耦接以从数据存储***、至少一个输入设备和至少一个输出设备接收数据和指令并向它们发送数据和指令。计算机程序是一组指令，所述指令可以直接或间接在计算机中使用，以执行某种活动或带来某种结果。计算机程序可以以包括编译或解释型语言的任何形式的编程语言(例如，Objective-C、Java)编写，并且可以以任何形式部署，包括作为单独的程序或作为模块、部件、子例程、基于浏览器的web应用或适合于在计算环境中使用的其他单元。

作为示例，用于执行指令程序的适合的处理器包括通用微处理器和专用微处理器两者，以及任何类型的计算机的唯一的处理器或多个处理器或核中的一个。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机必不可少的元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。通常，计算机还将包括用于存储数据文件的一个或多个大容量存储设备，或者可操作地耦接成与其通信；这种设备包括磁盘，如内部硬盘和可移动盘；磁光盘；以及光盘。适合于有形地体现计算机程序指令和数据的存储设备包括所有形式的非易失性存储器，所述非易失性存储器作为示例包括半导体存储器设备，如EPROM、EEPROM和闪速存储器设备；磁盘，如内部硬盘和可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。所述处理器和所述存储器都可以由ASIC(专用集成电路)补充或并入ASIC中。

为了提供与用户的交互，可以在具有显示设备的计算机上实施特征，所述显示设备如CRT(阴极射线管)监测器或LCD(液晶显示器)监视器或用于将信息显示给用户的视网膜显示设备。计算机可以具有触摸表面输入设备(例如，触摸屏)或键盘以及如鼠标或轨迹球等指点设备，通过所述指点设备，用户可以向计算机提供输入。计算机可以具有用于从用户接收语音命令的语音输入设备。

可以在计算机***中实施特征，所述计算机***包括如数据服务器等后端部件，或包括如应用服务器或因特网服务器等中间件部件，或包括如具有图形用户界面或因特网浏览器的客户端计算机等前端部件或其任何组合。***的部件可以通过任何数字数据通信形式或介质如通信网络连接。通信网络的示例包括例如LAN、WAN以及形成因特网的计算机和网络。

计算***可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络交互。客户端与服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。在一些实施例中，服务器将数据(例如，HTML页面)传输给客户端设备(例如，为了向与客户端设备交互的用户显示数据以及从所述用户接收用户输入的目的)。可以在服务器处从所述客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

一个或多个计算机的***可以被配置用于通过具有在***上安装的在操作时使***执行动作的软件、固件、硬件或其组合来执行特定动作。一个或多个计算机程序可以被配置用于通过包括在由数据处理装置执行时使所述装置执行动作的指令来执行特定动作。

虽然本说明书包含许多特定实施方式细节，但这些不应被解释为对任何发明或可能要求保护的事物的范围的限制，而是被解释为对特定于具体发明的具体实施例的特征的描述。在单独的实施例的上下文中在本说明书中所描述的某些特征还可以按组合形式实现在单一实施例中。相反，在单一实施例的上下文中描述的各种特征也可以被单独地或以任何适合的子组合的方式实施在多个实施例中。此外，尽管特征在上文可以被描述为以某些组合起作用并且甚至最初如此声明，但是在某些情况下可以从组合中去除要求保护的组合的一个或多个特征，并且所要求保护的组合可以涉及子组合或子组合的变体。

类似地，虽然附图中以具体顺序描绘了操作，但这不应被理解成要求这种操作以所示的具体顺序或以有序顺序执行，或者所有展示的操作可以被执行，以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上文描述的实施例中的各种***部件的分离不应被理解成在所有实施例中都要求这种分离，并且应理解的是，所描述的程序部件和***通常可以一起整合在单个软件产品中或封装进多个软件产品中。

因此，已经描述了主题的特定实施例。其他实施例在以下权利要求的范围内。在一些情况下，权利要求中引用的动作可以以不同的顺序执行并且仍然实现期望的结果。另外，在附图中描绘的过程不必需要所示出的特定顺序或者有序顺序来实现期望的结果。在某些实施方式中，多任务处理和并行处理可能是有利的。

已经描述了本发明的多个实施方式。然而，应当理解的是，在不脱离本发明的精神和范围的情况下，可以进行各种修改。

可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面：

1.一种方法，包括：

由音频处理单元将输入音频信号划分为n个帧，其中，n为大于1的正整数；

由所述音频处理单元将所述输入音频信号的每一帧划分为Nb个频带，其中，Nb为大于1的正整数；

对于每一帧n：

由所述音频处理单元计算每个频带f中所述输入音频信号的输入电平，得到所述输入音频信号的输入音频电平分布；

由所述音频处理单元至少部分地基于所述输入音频电平分布的一个或多个属性到参考音频电平分布的映射针对每个频带f计算增益；以及

由所述音频处理单元将针对每个频带f的每个计算出的增益应用于所述输入音频信号的每个对应频带f。

2.根据EEE 1所述的方法，进一步包括：

在每一帧n中，并且在应用计算出的增益之后，将所述输入音频信号重构回时域。

3.根据EEE 1所述的方法，其中，针对每个频带f的增益通过以下方式计算：首先计算静态增益，然后基于所述静态增益、所述输入电平、所述输入音频电平分布和所述参考音频电平分布计算针对每个频带f的动态增益，并且然后通过组合所述静态增益的一部分和所述动态增益的一部分来计算针对每个频带f的最终增益。

4.根据EEE 3所述的方法，进一步包括：

在每一帧n中，将所述最终增益应用于所述输入音频信号，并且然后将所述输入音频信号重构回时域。

5.根据EEE 3所述的方法，进一步包括：

对频带上的所述静态增益、所述动态增益或所述最终增益中的至少一个进行平滑。

6.根据EEE 1所述的方法，其中，所述输入音频电平分布到所述参考音频电平分布的所述映射基于将所述输入音频电平分布的输入分位数曲线与所述参考音频电平分布的目标分位数曲线进行匹配。

7.根据EEE 6所述的方法，进一步包括：

在每一帧n中，由所述音频处理单元更新每个频带f中所述输入电平的分布的所述输入分位数曲线。

8.根据EEE 6或7所述的方法，其中，对于每个频带f，第x个输入分位数曲线被计算为一值，低于该值包含有频带f中的Nb个帧上的输入电平的x％。

9.根据EEE 6或7所述的方法，其中，在对共享给定特征的一个或多个参考音频信号求平均之后，确定所述目标分位数曲线。

10.根据EEE 1所述的方法，其中，所述输入音频电平分布到所述参考音频电平分布的映射基于将所述输入音频电平分布的一个或多个矩与所述参考音频电平分布的矩进行匹配。

11.根据EEE 1的方法，在将所述输入音频信号划分为多个帧之后，将窗口函数应用于每一帧n。

12.根据EEE 1所述的方法，其中，所述输入音频信号的计算出的输入电平是能量、幅度、分贝或响度水平之一。

13.根据EEE 12所述的方法，进一步包括：

基于所述计算出的能量、幅度或响度水平大于还是小于先前帧中的能量、幅度或响度水平，对每一帧n的每个频带f中的计算出的能量、幅度、分贝或响度水平进行平滑。

14.根据EEE 1所述的方法，其中，所述输入音频信号是多声道音频信号，并且根据每个声道的能量确定每个频带f中所述输入音频信号的输入电平。

15.根据EEE 14的方法，其中，所述输入音频电平是通过使用均方根平均值或选择最大能量来计算的。

16.根据EEE 1所述的方法，其中，所述参考音频电平分布是在相同音乐类型内的一个或多个参考音频信号上计算的。

17.根据EEE 1所述的方法，其中，所述参考音频电平分布是在包括对话、效果或音乐中的至少一种的一个或多个参考音频信号上计算的。

18.根据EEE 1所述的方法，其中，所述参考音频电平分布是在相同类型的乐器或乐器轨内的一个或多个参考音频信号上计算的。

19.根据EEE 2所述的方法，其中，至少部分地基于所述输入分位数曲线到所述目标分位数曲线的映射来计算静态增益进一步包括：

确定所述输入音频信号的背景噪声频谱轮廓；

估计所述输入音频信号的每个时频片的信噪比(SNR)；

针对每个频带f计算SNR得分，所述SNR得分表示所述输入分位数曲线与噪声分位数曲线之差；

使用以下公式计算第x个输入分位数曲线与对应的第x个目标分位数曲线之差：

g_diff(f)＝Q_x，target(f)-q_x，input(f)；

针对每个频带f计算SNR得分大于指定阈值的平均静态增益；以及

使用以下公式针对每个频带f计算静态增益：

g_s(f)＝meanGainDdB+SNRscore(f)·(gdiff(f)-meanGaimnDaB)，

其中，meanGainDdB是所述平均静态增益，SNRscore(f)是针对频带f的SNR得分，并且g_diff(f)是针对频带f的第x个输入分位数曲线与对应的第x个目标分位数曲线之差。

20.根据EEE 19的方法，其中，在一个或多个频带上对所述静态增益进行平滑。

21.根据EEE 19的方法，其中，所述动态增益使用如下公式计算：

g_d(n，f)＝SNRscore(f)*(L_out(n，f)-L_in(n，f)-g_s(f))，

其中，g_s(f)是频带f的静态增益，L_out(n，f)是帧n的频带f的指定输出电平，并且L_in(n，f)是帧n的频带f的输入电平。

22.根据EEE21所述的方法，进一步包括：

确定所述输入分位数曲线在每个频带f中的第一动态范围；

确定所述目标分位数曲线在每个频带f中的第二动态范围；

作为所述第一动态范围与所述第二动态范围的比率，计算扩张率；

定义最大期望扩张率；以及

对于所述扩张率超过所述最大期望扩张率的频带，将所述动态增益设置为零。

23.根据EEE 19的方法，其中，帧n的针对每个频带f的最终增益包括：

g(n，f)＝dynEQamount·g_d(n，f)+staticEQamount·g_s(f)，

其中，dynEQamount和staticEQamount是0.0到1.0之间的实数，分别确定动态增益g_d(n，f)和静态增益g_s(f)对所述最终增益g(n，f)的贡献。

24.根据EEE 6所述的方法，进一步包括：

基于期望的动态范围，处理所述目标分位数曲线以增大或减小所述目标分位数曲线之间的间距。

25.根据EEE 6所述的方法，进一步包括：

基于期望的频谱修改所述目标分位数曲线。

26.根据EEE 1所述的方法，进一步包括：

选择在指定频率区域中使第x个目标分位数曲线与对应的第x个输入分位数曲线之间的均方误差最小的目标分位数曲线。

27.一种音频处理单元，包括一个或多个处理器和存储指令的存储器，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行前述EEE 1至26中任一项所述的方法。

28.一种存储指令的非暂态计算机可读存储介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行前述EEE 1至26中任一项所述的方法。

Claims

1.一种方法，包括：

对于每一帧n：

由所述音频处理单元至少部分地基于所述输入音频电平分布的一个或多个属性到参考音频电平分布的映射，针对每个频带f计算增益；

由所述音频处理单元将针对每个频带f的每个计算出的增益应用于所述输入音频信号的每个对应频带f，以形成经修改的输入音频信号；以及

将所述经修改的输入音频信号重构回时域。

2.根据权利要求1所述的方法，进一步包括从一组预存储的目标轮廓中选择目标轮廓。

3.根据权利要求1或2所述的方法，其中，通过以下方式计算针对每个频带f的增益：首先计算静态增益，然后基于所述静态增益、所述输入电平、所述输入音频电平分布和所述参考音频电平分布计算针对每个频带f的动态增益，并且然后通过组合所述静态增益的一部分和所述动态增益的一部分来计算针对每个频带f的最终增益。

4.根据权利要求3所述的方法，进一步包括：

5.根据任一前述权利要求所述的方法，其中，所述输入音频电平分布到所述参考音频电平分布的映射基于所述输入音频电平分布的输入分位数曲线与所述参考音频电平分布的目标分位数曲线的匹配。

6.根据权利要求5所述的方法，其中，对于每个频带f，第x个输入分位数曲线被计算为一值，低于该值包含有所述频带f中的Nb个帧的输入电平的x％。

7.根据权利要求5或6所述的方法，其中，在对共享给定特征的一个或多个参考音频信号求平均之后，确定所述目标分位数曲线。

8.根据任一前述权利要求所述的方法，其中，所述输入音频信号的计算出的输入电平是能量、幅度、分贝或响度水平之一。

9.根据权利要求8所述的方法，进一步包括：

10.根据任一前述权利要求所述的方法，其中，至少部分地基于所述输入分位数曲线到所述目标分位数曲线的映射来计算静态增益进一步包括：

确定所述输入音频信号的背景噪声频谱轮廓；

估计所述输入音频信号的每个时频片的信噪比(SNR)；

g_diff(f)＝Q_x，target(f)-q_x，input(f)；

使用以下公式针对每个频带f计算静态增益：

g_s(f)＝meanGainDdB+SNRscore(f)·(g_diff(f)-meanGainDdB)，

11.根据权利要求10所述的方法，其中，所述动态增益使用如下公式计算：

g_d(n，f)＝SNRscore(f)*(L_out(n，f)-L_in(n，f)-g_s(f))，

12.根据权利要求11所述的方法，进一步包括：

确定所述输入分位数曲线在每个频带f中的第一动态范围；

确定所述目标分位数曲线在每个频带f中的第二动态范围；

定义最大期望扩张率；以及

13.根据权利要求10至12中任一项所述的方法，其中，帧n的每个频带f的最终增益包括：

g(n，f)＝dynEQamount·g_d(n，f)+staticEQamount·g_s(f)，

14.根据任一前述权利要求所述的方法，进一步包括：

15.根据任一前述权利要求所述的方法，进一步包括：

基于期望的频谱修改所述目标分位数曲线。