CN102684628B

CN102684628B - 修正音频动态处理器的参数的方法以及执行该方法的设备

Info

Publication number: CN102684628B
Application number: CN201210148962.2A
Authority: CN
Inventors: 布雷特·格雷厄姆·克罗克特; 阿兰·杰弗里·西费尔特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2006-04-27
Filing date: 2007-03-30
Publication date: 2014-11-26
Anticipated expiration: 2027-03-30
Also published as: NO20161296A1; NO342160B1; HK1176177A1; NO20190018A1; US20170179901A1; NO20180271A1; US9685924B2; US20190013786A1; US20190222186A1; US20160359465A1; NO20190024A1; US20230318555A1; CN102684628A; JP5129806B2; NO20191310A1; HK1126902A1; US8428270B2; JP2009535897A; US9768750B2; NO20190022A1

Abstract

提供了用于修正音频动态处理器的参数的方法以及用于执行该方法的设备。该方法包括：检测音频信号中的信号特性相对于时间的变化；识别所述音频信号中的所述信号特性相对于时间的超过阈值的变化作为听觉事件边界，其中连续边界之间的音频段构成听觉事件；至少部分地基于所述听觉事件来产生参数修正控制信号；以及根据所述控制信号来修正所述音频动态处理器的所述参数。

Description

修正音频动态处理器的参数的方法以及执行该方法的设备

本申请是申请号为“200780014742.8”、发明名称为“使用基于特性响度的听觉事件检测的音频增益控制”的发明专利申请(进入国家阶段的PCT申请，其国际申请号为PCT/US2007/008313)的分案申请。

技术领域

本发明涉及音频动态范围控制方法和设备，其中音频处理装置对音频信号进行分析并改变所述音频的电平、增益或动态范围，并且音频增益和动态处理的参数中的全部或某些参数被产生为听觉事件的函数。本发明还涉及用于实现这种方法或控制这种设备的计算机程序。

本发明还涉及利用基于特性响度的听觉事件检测的方法和设备。本发明还涉及用于实现这种方法或控制这种设备的计算机程序。

本发明还涉及用于修正音频动态处理器的参数的方法。本发明还涉及用于执行这种方法的设备。

背景技术

对音频的动态处理

自动增益控制(AGC)和动态范围控制(DRC)的技术是众所周知的，并且是许多音频信号通路的常见组成部分。在抽象意义上，这两种技术均以某种方式测量音频信号的电平，然后按照作为所测量的电平的函数的数量来对该信号进行增益修正。在线性的1:1动态处理***中，不处理输入音频，并且输出音频信号理想上与输入音频信号相匹配。此外，如果具有自动测量输入信号的特性并利用该测量来控制输出信号的音频动态处理***，那么在输入信号的电平升高6dB且输出信号被处理以使得所述输出信号的电平仅升高3dB的情况下，该输出信号相对于输入信号已被以2:1的比率进行了压缩。国际公开WO2006/047600A1(Alan JeffreySeefeldt的“Calculating and Adjusting the Perceived Loudness and/or thePerceived Spectral Balance of an Audio Signal”)提供了对以下五种基本类型的音频动态处理的详细综述：压缩、限幅、自动增益控制(AGC)、扩展和门限(gating)。

听觉事件和听觉事件检测

将声音划分成被感知为独立且明显的单元或段的过程有时被称为“听觉事件分析”或“听觉场景分析”(“ASA”)，并且所述段有时被称为“听觉事件”或“音频事件”。Albert S.Bregman在他的著作《Auditory SceneAnalysis--The Perceptual Organization of Sound》(MassachusettsInstitute of Technology,1991,Fourth printing,2001,Second MIT Presspaperback edition)中陈述了对听觉场景分析的广泛讨论。此外，在1999年12月14日授权给Bhadkamkar等人的美国专利6,002,776中引用了日期回溯至1976年的出版物作为“与借助于听觉场景分析的声音分离相关的现有技术”。然而，Bhadkamkar等人的该专利不赞成听觉场景分析的实际应用，并断定“尽管涉及听觉场景分析的技术作为人类听觉处理的模型从科学的观点来看是令人感兴趣的，但是其目前对计算的要求过高并且过于专门化，以至于在取得根本进展之前不能作为用于声音分离的实用技术。”

在下文的“通过引用的合并”的标题下列出的各个专利申请和论文中，Crockett和Crocket等人提出了用于识别听觉事件的有效方式。根据这些文献，通过检测频谱成分(作为频率的函数的幅度)相对于时间的变化来将音频信号划分为听觉事件，其中每个听觉事件倾向于被感知为独立且明显的。这可以例如通过以下方式来完成：计算音频信号的连续时间块的频谱内容(spectral content)，计算所述音频信号的连续时间块之间的频谱内容的差异，并将听觉事件边界识别为当连续时间块之间的频谱内容的差异超过阈值时这种连续时间块之间的边界。替代性地，除了频谱成分相对于时间的变化之外或者代替频谱成分相对于时间的变化地，可以计算幅度相对于时间的变化。

所述处理在其对计算要求最少的实现方式中通过以下方式来将音频划分成时间段：分析整个频带(全带宽音频)或基本上整个频带(在实际实现中通常使用在频谱端点处的带限滤波)，并对最响亮的音频信号分量给予最大的权重。该方法利用了在较小的时间标度(20毫秒(ms)以下)下人耳在给定时间可能倾向于专注于单一听觉事件的心理声学现象。这意味着，虽然可能同时发生多个事件，但是一个分量倾向于在感知上是最突出的，并且可以如同该分量是所发生的唯一事件一样地单独处理该分量。利用该效果，还允许所述听觉事件检测随着被处理的音频的复杂度而缩放。例如，如果被处理的输入音频信号是独奏曲，则被识别的音频事件可能是正在播放的个别音符。类似地，对于输入语音信号，可能将语音的个别分量比如元音和辅音识别为个别的音频元素。随着音频复杂度的增大，例如具有鼓声或多种乐器及声部的音乐，听觉事件检测识别在任意给定时刻“最突出”(即最响亮)的音频元素。

以更大的计算复杂度为代价，所述处理还可考虑离散的子频带(固定的子频带或动态确定的子频带，或者固定的子频带以及动态确定的子频带二者)而不是整个带宽中的频谱成分相对于时间的变化。该备选方法考虑不同子频带中的多于一个的音频流，而不是假设在特定时间只能感知单个音频流。

可以通过以下方式来实现听觉事件检测：将时域音频波形划分成时间间隔或块，然后利用滤波器组或诸如FFT之类的时-频变换将每块中的数据转换到频域。每块的频谱内容的幅度可以被归一化，以消除或减少幅度变化的影响。作为结果的每个频域表示提供了对特定块中的音频的频谱内容的指示。对连续块的频谱内容进行比较，并且大于阈值的变化可以被用来指示听觉事件的时间起点或时间终点。

优选地，频域数据被如下文所述地归一化。频域数据需要被归一化的程度给出了对幅度的指示。因此，如果该程度的变化超过预定阈值，则该变化也可被用来指示事件边界。可以对源于频谱变化和源于幅度变化的事件起点和事件终点一起进行或运算，以识别源于任一类型的变化的事件边界。

尽管在所述的Crockett和Crockett等人的申请和论文中描述的技术与本发明的多个方面结合是特别有效的，但是其它用于识别听觉事件和事件边界的技术也可以在本发明的多个方面中使用。

发明内容

传统的现有技术的音频动态处理包括将音频与调整该音频的增益的时变控制信号相乘以产生期望结果。“增益”是缩放音频幅度的比例因子。该控制信号可以持续地产生或从音频数据块产生，但是该控制信号通常是通过对正在处理的音频的某些形式的测量来导出的，并且该控制信号的变化速率是通过有时具有固定的特性而有时具有随音频的动态而变化的特性的平滑滤波器来确定的。例如，响应时间可以是能根据音频的量值或功率的变化来调整的。诸如自动增益控制(AGC)和动态范围压缩(DRC)之类的现有技术方法并不以任何基于心理声学的方式来估计在其期间增益变化可能被感知为缺陷的时间间隔、以及当可以应用所述增益变化而不会带来听觉失真(audible artifact)时的时间间隔。因此，传统的音频动态处理通常会引入听觉失真，即，动态处理的结果会引入不期望的可感知的音频变化。

听觉场景分析识别感知上离散的听觉事件，其中每个事件在两个连续的听觉事件边界之间发生。通过确保在听觉事件内增益更加接近于常量以及通过将大部分增益变化限制在事件边界附近，可以大大减少由所述增益变化所导致的可听到的缺陷。在压缩器或扩展器的环境中，对音频电平升高(通常称为冲击)的响应可能是迅速的，并且是可与听觉事件的最短持续时间相当的或者小于听觉事件的最短持续时间的，但是对降低(释放或恢复)的响应可能更慢，因此，应当呈现为常量或逐渐减弱的声音可能在听觉上被扰乱。在这种情况下，在下个边界之前延迟增益恢复或者在事件期间减缓增益的变化速率是非常有利的。对于其中音频的中长期电平或中长期响度被归一化因而冲击时间和释放时间与听觉事件的最短持续时间相比可能较长的自动增益控制应用而言，在事件期间针对增加增益和减少增益采取以下操作是有利的：在下个事件边界之前延迟增益变化或减缓增益变化的速率。

根据本发明的一个方面，一种音频处理***接收音频信号并分析和改变所述音频的增益和/或动态范围特性。对所述音频的动态范围修正通常受到动态处理***的对动态处理所引入的感知失真有重大影响的参数(冲击时间和释放时间、压缩比率等等)的控制。检测音频信号中信号特性相对于时间的变化并将其识别为听觉事件边界，以使连续边界之间的音频段构成所述音频信号中的听觉事件。所关注的听觉事件的特性可以包括诸如感知强度或持续时间之类的事件特性。所述一个或更多个动态处理参数中的一些参数是至少部分地响应于听觉事件和/或与所述听觉事件边界相关联的信号特性变化的程度而产生的。

根据本发明的另一方面，提供了一种用于修正音频动态处理器的参数的方法，该方法包括：检测音频信号中的信号特性相对于时间的变化；识别所述音频信号中的所述信号特性相对于时间的超过阈值的变化作为听觉事件边界，其中连续边界之间的音频段构成听觉事件；基于所述听觉事件的所识别的边界来产生参数修正控制信号；以及根据所述控制信号来修正所述音频动态处理器的所述参数。

根据本发明的又一方面，提供了一种用于执行上述方法的设备。

典型地，听觉事件是倾向于被感知为独立且明显的音频段。对信号特性的一个有效测量包括对音频的频谱内容的测量，例如如同在所引用的Crockett和Crockett等人的文献中所述的一样。所述一个或更多个动态处理参数中的全部或一些参数可以是至少部分地响应于一个或更多个听觉事件的存在或不存在及其特性而产生的。听觉事件边界可以被识别为信号特性相对于时间的超过阈值的变化。替代性地，所述一个或更多个参数中的全部或一些参数可以是至少部分地响应于对与所述听觉事件边界相关联的信号特性变化的程度的持续测量而产生的。尽管本发明的多个方面在原理上可以在模拟域和/或数字域中实现，但是实际的实现方式可能是在用单独的样本或数据块中的样本表示每个音频信号的数字域中实现的。在这种情况下，信号特性可以是块内的音频的频谱内容，对信号特性相对于时间的变化的检测可以是对块与块之间的音频的频谱内容变化的检测，并且听觉事件的时间起始边界和时间终止边界每个均与数据块的边界一致。应当注意到，对于更为传统的基于逐个样本地执行动态增益变化的情况，所描述的听觉场景分析可以基于块地执行，并且作为结果的听觉事件信息被用于执行所述逐个样本地应用的动态增益变化。

通过利用听觉场景分析的结果来控制关键的音频动态处理参数，可以实现动态处理引入的听觉失真的显著减少。

本发明提供了两种执行听觉场景分析的方式。第一种方式执行频谱分析，并通过识别频谱内容的变化来识别用于控制动态增益参数的可感知的音频事件的位置。第二种方式将音频变换到感知响度域(与第一种方式相比可以提供更多的心理声学上相关的信息)，并识别随后被用于控制动态增益参数的、听觉事件的位置。应当注意到，第二种方式要求音频处理获知绝对声学再现电平，而这在某些实现方式中可能是不可行的。这两种听觉场景分析方法的提供使得能够实现利用可能被校准或可能不被校准以考虑绝对再现电平的处理或设备的、受ASA控制的动态增益修正。

在此在包括其它发明的多个方面的音频动态处理环境中描述了本发明的多个方面。在本申请的所有人Dolby Laboratories LicensingCorporation的各个未决美国专利申请和国际专利申请中描述了这种其它发明，在此标识了这些申请。

附图说明

图1是示出了用于执行听觉场景分析的处理步骤的示例的流程图；

图2示出了在执行听觉场景分析的同时对音频进行块处理、加窗(windowing)和执行DFT的示例；

图3具有流程图或功能框图的性质，其示出了利用音频来识别听觉事件和识别听觉事件的特性以便利用所述事件及其特性来修正动态处理参数的并行处理；

图4具有流程图或功能框图的性质，其示出了只利用音频来识别听觉事件并根据听觉事件检测来确定事件特性以便利用所述事件及其特性来修正动态处理参数的处理；

图5具有流程图或功能框图的性质，其示出了只利用音频来识别听觉事件并根据听觉事件检测来确定事件特性以便只利用所述听觉事件的特性来修正动态处理参数的处理；

图6示出了接近于ERB标度上的临界频带的理想化地设置的听觉滤波器响应特性，其水平标度是以赫兹为单位的频率，垂直标度是以分贝为单位的电平；

图7示出了ISO226的等响曲线，其水平标度是以赫兹为单位的频率(以10为底的对数标度)，垂直标度是以分贝为单位的声压级；

图8a-c示出了理想化的输入/输出特性以及音频动态范围压缩器的输入增益特性；

图9a-f示出了利用听觉事件来控制传统动态范围控制器(DRC)的数字实现中的释放时间的示例，其中在所述传统动态范围控制器中增益控制源自信号的均方根(RMS)功率；

图10a-f示出了针对图9中所使用的信号的替代信号而利用听觉事件来控制传统动态范围控制器(DRC)的数字实现中的释放时间的示例，其中在所述传统动态范围控制器中增益控制源自信号的均方根(RMS)功率；

图11描述了用于在响度域动态处理***中在DRC之前应用AGC的、一组适当的理想化的AGC和DRC曲线，该组合的目的是使得所有处理后的音频具有近似于相同的感知响度，同时仍保持至少一些原始音频的动态。

具体实施方式

听觉场景分析(原始的非响度域的方法)

根据本发明的一个方面的实施例，听觉场景分析可以由图1的部分中所示的四个一般处理步骤组成。第一个步骤1-1(“执行频谱分析”)取时域音频信号，将其划分成块并计算每个块的频谱轮廓或频谱内容。频谱分析将该音频信号变换到短期频域中。这可以在线性的或弯曲的频率空间(例如较好地近似于人耳特性的Bark标度或临界频带)中利用任何滤波器组、基于带通滤波器的变换或带通滤波器组来执行。在利用任何滤波器组的情况下存在时间与频率之间的折衷。较大的时间分辨率以及因此而较短的时间间隔导致了较低的频率分辨率。较大的频率分辨率以及因此而较窄的子频带导致了较长的时间间隔。

图1中概念性地示出的第一个步骤计算音频信号的连续时间段的频谱内容。尽管512个样本提供了时间分辨率与频率分辨率之间的良好的折衷，但是在实际实施例中ASA块大小可以来自输入音频信号的任意数量的样本。在第二个步骤1-2中，确定块与块之间的频谱内容的差异(“执行频谱轮廓差异测量”)。因此，第二个步骤计算音频信号的连续时间段之间的频谱内容的差异。如上文所讨论的，认为对感知的听觉事件的起点或终点的有效指示符是频谱内容的变化。在第三个步骤1-3(“识别听觉事件边界的位置”)中，当一个频谱轮廓块与下个频谱轮廓块之间的频谱差异大于阈值时，取该块的边界作为听觉事件边界。连续边界之间的音频段构成了听觉事件。因此，第三个步骤设置了当连续时间段之间的频谱轮廓内容的差异超过阈值时这种连续时间段之间的听觉事件边界，由此定义了听觉事件。在该实施例中，听觉事件边界定义了长度是频谱轮廓块的整数倍的听觉事件，其最小长度是一个频谱轮廓块(在该示例中是512个样本)。事件边界在原理上不需要受到这样的限制。作为在此讨论的实际实施例的替代方案，输入块大小可以变化成例如基本上是听觉事件的大小。

如步骤1-4所示，在识别事件边界之后，识别听觉事件的关键特性。

重叠或不重叠的音频段可以被加窗并被用于计算输入音频的频谱轮廓。重叠导致了对于听觉事件位置的更好的分辨率，并且也使得更不会遗漏事件，比如短暂的瞬态。然而，重叠也增加了计算复杂度。因此，可以省略重叠。图2示出了被加窗并被经由离散傅立叶变换(DFT)变换到频域的N个不重叠的样本块的概念性表示。每个块可以被加窗并被变换到频域，例如通过使用DFT(优选地为了速度而被实现为快速傅立叶变换(FFT))来进行。

下面的变量可用于计算输入块的频谱轮廓：

M＝用于计算频谱轮廓的块中加窗的样本的数量

P＝频谱计算重叠的样本的数量

通常，任何整数均可用于上述变量。然而，在M被设置成等于2的幂以便可以利用标准FFT来进行频谱轮廓计算的情况下，该实现将更为有效。在听觉场景分析处理的实际实施例中，所列出的参数可以被设置成：

M＝512个样本(或在44.1kHz时的11.6ms)

P＝0个样本(无重叠)

上面列出的值是根据实验来确定的，并且被发现通常可以以足够的精确度来识别听觉事件的位置和持续时间。然而，将P的值设置为256个样本(50％的重叠)而非零个样本(无重叠)已被发现在对某些难以发现的事件的识别上是有效的。虽然可以利用许多不同类型的窗口来最小化由于加窗而导致的频谱失真，但是在频谱轮廓计算中使用的窗口是M点Hamming(汉明)窗、M点Kaiser-Bessel(凯塞-贝塞尔)窗或其它适当的(优选地是非矩形的)窗。在大量实验分析之后选择了上面指示的值和汉明窗类型，这是由于它们显示出提供了跨越大范围的音频资料的优异结果。对于主要是低频内容的音频信号的处理而言，加非矩形窗是优选的。加矩形窗产生了可能导致不正确的事件检测的频谱失真。与其中全部重叠/相加处理必须提供恒定电平的某些编码器/解码器(编解码器)应用不同，此处并未施加这种限制，并且可以针对诸如窗的时间分辨率/频率分辨率以及阻带抑制之类的特性来选择所述窗。

在步骤1-1(图1)中，可以通过以下方式来计算每个M个样本的块的频谱：利用M点汉明窗、M点凯塞-贝塞尔窗或其它适当的窗来对数据加窗，利用M点快速傅立叶变换来转换到频域，以及计算复数FFT系数的量值。对作为结果的数据进行归一化以使最大的量值被设置为一(unity)，并将归一化后的M个数的阵列转换到对数域。还可以通过诸如所述数据的平均量值或平均功率值之类的某些其它度量来归一化所述数据。所述阵列并不需要被转换到对数域，但是所述转换简化了步骤1-2中的差异测量的计算。此外，对数域更接近地匹配于人类听觉***的特性。作为结果的对数域值的范围是从负无穷大到零。在实际实施例中，可以对该数值范围加以下限，所述限制可以是固定的(比如-60dB)，或者可以是频率相关的，以反映静音在低频和甚高频下的较低的可听度。(注意，由于FFT表示负频率以及正频率，因此可以将所述阵列的大小减小到M/2。)

步骤1-2计算相邻块的频谱之间的差异的测量值。对于每个块，将来自步骤1-1的M个(对数)频谱系数中的每个频谱系数从在先的块的对应系数中减去，并计算差值的量值(忽略符号)。然后将这M个差值求和为一个数。还可以通过将所述差异测量值除以在所述求和中使用的频谱系数的数量(在这种情况下是M个系数)，来将该差异测量值表示为每个频谱系数的平均差值。

步骤1-3通过将阈值应用于来自步骤1-2的具有阈值的差异测量值的阵列，来识别听觉事件边界的位置。当差异测量值超过阈值时，频谱的变化被认为足以发信号通知新事件，并且该变化的块编号被记录作为事件边界。对于上面给出的M和P的值以及对于以dB为单位表示的对数域值(步骤1-1中)而言，如果对FFT的全部量值(包括镜像部分)进行比较，则所述阈值可以被设置成等于2500，或者如果对FFT的一半量值进行比较(如同上文所注意到的，FFT表示负频率和正频率——对于FFT的量值而言，这二者中一个是另一个的镜像)，则所述阈值可以被设置成等于1250。该值是根据实验来选择的，并且其提供了良好的听觉事件边界检测。可以改变该参数值以减少(增大阈值)或增加(减小阈值)事件检测。

可以用图3、4和5的等效布置来更一般性地表示图1的处理。在图3中，音频信号被并行地施加给以下处理：将音频信号划分成其中每个均被感知为独立且明显的听觉事件的“识别听觉事件”功能或步骤3-1、以及可选的“识别听觉事件的特性”功能或步骤3-2。可以使用图1的处理来将音频信号划分成听觉事件以及所识别的所述听觉事件的特性，或者可以使用一些其它适当的处理。通过功能或步骤3-1所确定的、可以是听觉事件边界的标识的听觉事件信息随后被“修正动态参数”功能或步骤3-3用来根据期望而修正音频动态处理参数(例如冲击、释放、比率等等)。可选的“识别特性”功能或步骤3-3还接收听觉事件信息。“识别特性”功能或步骤3-3可以用一个或更多个特性来表征一些或全部的所述听觉事件。如结合图1的处理所描述的，这种特性可以包括听觉事件的主要子频带的标识。所述特性还可包括一个或更多个音频特性，例如包括听觉事件的功率的测量值、听觉事件的幅度的测量值、听觉事件的频谱平坦度的测量值、以及听觉事件是否基本上无声、或者其它有助于修正动态参数以使所述处理的无益的听觉失真被减少或去除的特性。所述特性还可包括其它特性，比如所述听觉事件是否包括瞬态。

在图4和5中示出了图3的布置的替代方案。在图4中，并不将音频输入信号直接施加给“识别特性”功能或步骤4-3，而是所述“识别特性”功能或步骤4-3接收来自“识别听觉事件”功能或步骤4-1的信息。图1的布置是这种布置的具体示例。在图5中，功能或步骤5-1、5-2和5-3是串行布置的。

该实际实施例的细节并不重要。可以使用用于进行以下处理的其它方式：计算音频信号的连续时间段的频谱内容、计算连续时间段之间的差异、以及当连续时间段之间的频谱轮廓内容的差异超过阈值时将听觉事件边界设置在这种连续时间段之间的相应边界处。

听觉场景分析(新的响度域方法)

由Alan Jeffrey Seefeldt于2005年10月25日递交并被公布为国际公开WO2006/047600A1的、题为“Calculating and Adjusting the PerceivedLoudness and/or the Perceived Spectral Balance of an Audio Signal”的、根据专利合作条约的国际申请PCT/US2005/038579在其中公开了基于心理声学模型的感知响度的客观测量。所述申请的全部内容被通过引用合并于此。如所述申请中所述，根据音频信号x[n]来计算激励信号E[b,t]，其中所述激励信号近似于在时间块t期间在临界频带b处的、沿内耳的基底膜的能量分布。如下所示，可以根据音频信号的短时离散傅里叶变换(STDFT)来计算该激励：

E [b, t] = λ_{b} E [b, t - 1] + (1 - λ_{b}) \underset{k}{Σ} {| T [k] |}^{2} {| C_{b} [k] |}^{2} {| X [k, t] |}^{2} - - - (1)

其中X[k,t]表示x[n]在时间块t和频点(bin)k处的STDFT。注意，在等式1中，与连续测量(例如秒)相对比地，t表示以变换块为离散单位的时间。T[k]表示对音频经过外耳和中耳的传输进行仿真的滤波器的频率响应，C_b[k]表示在与临界频带b相对应的位置处基底膜的频率响应。图6描述了一组适当的临界频带滤波器响应，其中40个频带被如同Moore和Glasberg所定义的一样沿着等效矩形带宽(ERB)标度而均匀地间隔开。用舍入的指数函数来描述每个滤波器形状，并利用1ERB的间隔来分布所述频带。最后，等式1中的平滑时间常数λ_b可以被有利地选择成与频带b内人类响度感知的积累时间(integration time)成比例。

利用诸如图7所示的那些等响曲线之类的等响曲线，将每个频带处的激励变换成将在1kHz处产生相同的感知响度的激励电平。然后借助于压缩非线性来根据变换后的激励E_1kHz[b,t]计算特性响度，即，横跨频率和时间而分布的感知响度的测量值。下式给出了一个这样的用于计算特性响度N[b,t]的适当函数：

N [b, t] = β ({(\frac{E_{1 kHz} [b, t]}{{TQ}_{1 kHz}})}^{α} - 1) - - - (2)

其中TQ_1kHz是无声情况下在1kHz处的阈值，常量β和α被选择以与从收听实验中收集的响度数据的增长相匹配。抽象地，该从激励到特性响度的变换可以用使得下式成立的函数Ψ{}表示：

N[b,t]＝Ψ{E[b,t]}

最后，通过跨频带地对特性响度求和来计算出以宋为单位表示的总响度L[t]：

L [t] = \underset{b}{Σ} N [b, t] - - - (3)

特性响度N[b,t]是旨在对人类将音频感知为频率和时间的函数的方式进行模拟的频谱表示。所述特性响度捕捉针对不同频率的灵敏度变化、针对电平的灵敏度变化、以及频率分辨率的变化。因此，所述特性响度是与听觉事件检测良好地相匹配的频谱表示。与直接使用上述的连续FFT频谱相比，对连续时间块之间的跨频带的N[b,t]的差异的比较尽管在计算上更为复杂，但是在许多情况下可能导致感知上更为精确的听觉事件检测。

在所述专利申请中，公开了用于基于该心理声学响度模型来修正音频的若干应用。其中存在若干动态处理算法，例如AGC和DRC。这些公开的算法可能受益于利用听觉事件来控制各种相关参数。由于已经计算出特性响度，因此容易实现检测所述事件的目的。下面讨论优选实施例的细节。

利用听觉事件的音频动态处理参数控制

现在提供本发明的实施例的两个示例。第一个示例描述了利用听觉事件来对动态范围控制器(DRC)的数字实现中的释放时间进行控制，其中增益控制源自信号的均方根(RMS)功率。第二个实施例描述了利用听觉事件来对在上述的心理声学响度模型的环境中实现的AGC和DRC的更加复杂的组合的特定方面进行控制。这两个实施例旨在仅用作本发明的示例，并且应当理解，利用听觉事件来控制动态处理算法的参数并不限于下面所描述的细节。

动态范围控制

已描述的DRC的数字实现将音频信号x[n]分段成加窗的半重叠的块，并针对每个块基于对所述信号的局部功率的测量以及所选压缩曲线来计算修正增益。所述增益被跨块地进行平滑，然后与每个块进行相乘。最后修正后的块被叠加以产生修正后的音频信号y[n]。

应当注意到，虽然在此描述的听觉场景分析和DRC的数字实现将时域音频信号划分成块以执行分析和处理，但是DRC处理并不需要利用块分割来执行。例如，可以利用上述的块分割和频谱分析来执行听觉场景分析，并且可以利用作为结果的听觉事件位置和特性，以向典型地基于逐个样本地进行操作的传统DRC实现的数字实现提供控制信息。然而，这里针对DRC而使用与用于听觉场景分析的分块结构相同的分块结构，以简化对DRC和听觉场景分析的组合的描述。

继续进行对基于块的DRC实现的描述，音频信号的重叠块可以表示为：

x[n,t]＝w[n]x[n+tM/2]，其中0＜n＜M-1 (4)

其中M是块长度，其跳距离(hopsize)是M/2，w[n]是所述窗口，n是所述块内的样本索引，t是块索引(注意，这里以与等式1中针对STDFT的使用方式相同的方式来使用t；例如，t表示以块为离散单位的时间，而不是秒)。理想地，窗口w[n]在两端逐渐减小至零，并且在与其自身半重叠时总和为一；例如，常用的正弦窗口满足这些标准。

对于每个块，随后可以计算RMS功率，以产生每个块的以dB为单位的功率测量值P[t]:

P [t] = 10 * \log 10 (\frac{1}{M} Σ_{n = 1}^{M} x^{2} [n, t]) - - - (5)

如先前所提及的，可以在利用压缩曲线进行处理之前，利用快速冲击和缓慢释放来平滑该功率测量值，不过，作为替代方案，对即时功率P[t]进行处理，并对作为结果的增益进行平滑。该替代方案具有可以利用简单的具有锐利拐点的压缩曲线的优点，但是作为结果的增益在功率行进经过拐点时仍然是平滑的。将压缩曲线如图8c所示地表示成产生增益的信号电平的函数F，并由下式给出块增益G[t]：

G[t]＝F{P[t]} (6)

假设压缩曲线随着信号电平的增加而应用更大的衰减，则当所述信号处于“冲击模式”时所述增益将减少，并且当所述信号处于“释放模式”时所述增益将增加。因此，可以根据下式来计算平滑后的增益

\overset{&OverBar;}{G} [t] = α [t] \cdot \overset{&OverBar;}{G} [t - 1] + (1 - α [t]) G [t] - - - (7 a)

其中，

α [t] = \{\begin{matrix} α_{attack} & G [t] < \overset{&OverBar;}{G} [t - 1] \\ α_{release} & G [t] &GreaterEqual; \overset{&OverBar;}{G} [t - 1] \end{matrix} - - - (7 b)

以及

α_release＞＞α_attack (7c)

最后，以dB为单位的平滑后的增益被应用于所述信号的每一块，并且修正后的块被叠加以产生修正后的音频：

y [n + tM / 2] = (10^{\overset{&OverBar;}{G} [t] / 20}) x [n, t] + (10^{\overset{&OverBar;}{G} [t - 1] / 20}) x [n + M / 2, t - 1],

其中0＜n＜M/2 (8)

注意，由于所述块被如等式4所示地与逐渐减小的窗口相乘，因此上面示出的叠加合成有效地平滑了横跨经处理后的信号y[n]的样本的增益。因此，增益控制信号受到除了等式7a示出的平滑之外的平滑。在逐个样本而非逐个块地进行操作的DRC的更传统的实现中，为了避免处理后的信号中的听觉失真，比等式7a所示的简单的单极滤波器更加复杂的增益平滑可能是必要的。此外，基于块的处理的使用向***引入了固有的M/2个样本的延迟，并且只要与α_attack相关的延迟时间接近于该延迟，就不必为了防止过调而在应用所述增益之前进一步延迟信号x[n]。

图9a至9c描述了将所述DRC处理应用于音频信号的结果。对于该具体实现，在44.1kHz的采样速率时采用M＝512的块长度。使用了与图8b所示的压缩曲线相类似的压缩曲线：

所述信号在相对于满标度数字高于-20dB处被以5:1的比率衰减，在相对于满标度数字低于-30dB处被以5:1的比率增强。利用与10ms的半衰期相对应的冲击系数α_attack以及与500ms的半衰期相对应的释放系数α_release来平滑所述增益。图9a中描述的原始音频信号包括衰减至无声的六个连续的钢琴和弦，其中最后的和弦位于第1.75×10⁵个样本附近。在研究图9b所示的增益的曲线时，应当注意到，在播放所述六个和弦时所述增益保持接近于0dB。这是因为所述信号的能量主要介于-30dB与-20dB之间，即，其中DRC曲线不需要修正的区域。然而，在到达最后的和弦之后，所述信号的能量降低到-30dB以下，并且所述增益随着所述和弦的减弱而开始增加，最终超过15dB。图9c描述了作为结果的修正的音频信号，可以看到，最后的和弦的尾部被显著增强。这种对和弦的本来低电平减弱的声音的增强在听觉上产生了特别不自然的效果。本发明的目的是避免这种类型的与传统动态处理器相关的问题。

图10a至10c描述了将完全相同的DRC***应用于不同的音频信号的结果。在这种情况下，所述信号的前一半包括以高电平的快节奏乐曲，然后所述信号在约第10×10⁴个样本处切换到第二快节奏乐曲，但是以低得多的电平来进行。在研究图6b中的增益时，可以看到，所述信号在所述前一半期间被衰减了约10dB，随后所述增益在播放所述第二乐曲时的后一半期间增加回至0dB。在这种情况下，所述增益表现是所期望的。可能希望第二曲相对于第一曲被增强，并且所述增益应当在转换到第二曲之后快速增加，以使得在听觉上不唐突。可以看到与所讨论的针对第一信号的增益表现相类似的增益表现，但是在这里该表现是所期望的。因此，可能希望调整第一种情况而不影响第二种情况。利用听觉事件来控制该DRC***的释放时间提供了这种解决方案。

在图9中所研究的第一信号中，由于最后的和弦及其减弱被感知为其完整性被期望保持的单一听觉事件，因此对该和弦的减弱的增强看起来是不自然的。然而，在第二种情况下，许多听觉事件在增益增加的同时发生，这意味着对于任何个别的事件带来很小的变化。因此整体的增益变化并不会令人感到不舒服。可能因此而争辩应当仅允许在听觉事件边界的邻近时间区域中的增益变化。在所述增益处于冲击模式或释放模式时可以将此原则应用于所述增益，但是对于DRC的大多数实际实现而言，与事件感知的人类时间分辨率相比，所述增益在冲击模式中变动(move)得如此之快，以至于不需要控制。因此可以仅在DRC增益处于释放模式时利用事件来控制对DRC增益的平滑。

现在描述释放控制的适当的行为。用定性的措辞来说，如果检测到事件，则利用上面在等式7a中指定的释放时间常数来平滑所述增益。随着时间推进经过所检测到的事件，如果没有检测到后续的事件，则所述释放时间常数持续地增加，以使平滑后的增益最终被“冻结”在适当位置。如果检测到另一事件，则所述平滑时间常数被重置为初始值，并且重复所述处理。为了调整所述释放时间，可以首先基于所检测到的事件边界而产生控制信号。

如先前所讨论的，可以通过查找音频信号的连续频谱的变化来检测事件边界。在该具体实现中，可以计算每个重叠块x[n,t]的DFT，以产生音频信号x[n]的STDFT：

X [k, t] = Σ_{n = 0}^{M - 1} x [n, t] e^{- j \frac{2 πkn}{M}} - - - (9)

接下来，可以根据下式来计算连续块的归一化的对数量值频谱之间的差异：

D [t] = \underset{k}{Σ} | X_{NORM} [k, t] - X_{NORM} [k, t - 1] | - - - (10 a)

其中：

X_{NORM} [k, t] = \log (\frac{| X [k, t] |}{\max_{k} {| X [k, t] |}}) - - - (10 b)

尽管可以使用其它的归一化因子，比如|X[k,t]|的横跨频点的平均值，但是在这里使用|X[k,t]|的横跨频点k的最大值来进行归一化。如果差异D[t]超过阈值D_min，则认为事件已发生。此外，可以基于D[t]的大小与最大值阈值D_max之间的比较，来向该事件分配介于零和一之间的强度。作为结果的听觉事件强度信号A[t]可以被计算为：

A [t] = \{\begin{matrix} 0 & C [t] \leq D_{\min} \\ \frac{D [t] - D_{\min}}{D_{\max} - D_{\min}} & D_{\min} < [t] < D_{\max} \\ 1 & D [t] &GreaterEqual; D_{\max} \end{matrix} - - - (11)

通过向听觉事件分配与同该事件相关的频谱变化的量成比例的强度，实现了与二进制事件判决相比对动态处理的更大的控制。发明人已经发现在较强的事件期间较大的增益变化是可接受的，并且等式11中的信号允许这种可变控制。

信号A[t]是在事件边界的位置处出现脉冲的脉冲信号。为了控制释放时间，可以进一步平滑信号A[t]，以使得在检测到事件边界之后信号A[t]平滑地衰减至零。可以根据下式从A[t]计算出平滑后的事件控制信号A[t]：

这里，α_event控制事件控制信号的衰减时间。图9d和10d描述了针对两个对应的音频信号的事件控制信号其中平滑器的半衰期被设置为250ms。在第一种情况下，可以看到，针对六个钢琴和弦的每一个的事件边界被检测到，并且事件控制信号在每个事件之后平滑地衰减至零。对于第二个信号，许多时间上彼此非常接近的事件被检测到，因此事件控制信号从未完全衰减至零。

现在可以利用事件控制信号来改变用于平滑增益的释放时间常数。当所述控制信号等于一时，如前所述，来自等式7a的平滑系数α[t]等于α_release，并且当所述控制信号等于零时，所述系数等于一，以避免平滑后的增益发生变化。根据下式而利用控制信号将平滑系数插值在这两个极限值之间：

α [t] = \{\begin{matrix} α_{attack} & G [t] < \overset{&OverBar;}{G} [t - 1] \\ \overset{&OverBar;}{A} [t] α_{release} + (1 - \overset{&OverBar;}{A} [t]) & G [t] &GreaterEqual; \overset{&OverBar;}{G} [t - 1] \end{matrix} - - - (13)

通过将平滑系数连续地插值作为事件控制信号的函数，所述释放时间被重置为与事件开始时的事件强度成比例的值，并随后在事件发生后平滑地增加到无穷大。通过用于产生平滑后的事件控制信号的系数α_event来指示该增加的速率。

图9e和10e示出了与来自等式7b的不受事件控制的系数相对照地、利用来自等式13的受事件控制的系数来平滑增益的效果。在第一种情况下，事件控制信号在最后一个钢琴和弦之后降低至零，由此避免增益向上变动。因此，图9f中对应的修正后的音频并未受到对和弦的减弱的不自然的增强。在第二种情况下，事件控制信号从未接近于零，因此通过事件控制的应用防止了平滑后的增益信号变得很小。平滑后的增益的迹线接近地等于图10b中的不受事件控制的增益。这正是所期望的效果。

基于响度的AGC和DRC

作为其中信号修正是诸如峰值功率或RMS功率之类的简单信号测量值的直接函数的传统动态处理技术的替代方案，国际专利申请PCT/US2005/038579公开了先前所述的基于心理声学的响度模型被用作用于在其中执行动态处理的框架。引述了若干优点。首先，指定了以宋(sone)为单位的测量值和修正值，宋是与诸如峰值功率或RMS功率之类的更基本的测量值相比对响度感知的更精确的度量。其次，可以修正所述音频，以便在总响度改变时保持原始音频的感知频谱平衡。这样，与利用宽带增益来进行例如修正音频的动态处理器相比，总响度的变化变得在感知上更加不明显。最后，所述心理声学模型固有地是多频带的，因此***被容易地配置成执行多频带动态处理，以缓解众所周知的与宽带动态处理器相关联的交叉谱泵浦(cross-spectral pumping)问题。

尽管在该响度域中执行动态处理已经具有超过更传统的动态处理的若干优点，但是，通过利用听觉事件来控制各种参数，该技术可以得到进一步改进。考虑包含在27a中所描述的钢琴和弦的音频段以及图10b和10c所示的相关的DRC。可以在该响度域中执行类似的DRC，并且在这种情况下，当最后的钢琴和弦的响度的减弱被增强时，由于在应用所述增强时将保持减弱的音符的频谱平衡，因此所述增强将更加不明显。然而，更好的解决方案是完全不增强所述减弱，从而可以有利地应用与先前针对传统DRC所描述的原则相同的利用听觉事件控制冲击时间和释放时间的原则。

现在所描述的响度域动态处理***包括AGC并继之以DRC。该组合的目的是使得所有处理后的音频具有近似于相同的感知响度，同时仍保持至少一些原始音频的动态。图11描述了一组适当的用于该应用的AGC曲线和DRC曲线。注意，由于处理是在响度域中执行的，因此这两个曲线的输入和输出是以宋为单位表示的。AGC曲线力求使输出音频接近于某一目标电平，并如先前所述地利用相对慢的时间常数来这样做。可以认为AGC使音频的长期响度等于所述目标，但是响度可以短期地围绕该目标而显著波动。因此，可以使用更快地起作用的DRC来将这些波动限制到被认为对于特定应用是可接受的某个范围。图11示出了这种DRC曲线，其中AGC目标落入DRC的“零频带(null band)”、即所述曲线的不需要修正的部分中。利用该曲线组合，AGC将所述音频的长期响度置于DRC曲线的零频带中，因此需要应用最低限度的快速起作用的DRC修正。如果短期响度在所述零频带外仍然波动，则DRC随后起作用以使所述音频的响度向该零频带变动。作为最后的一般性说明，可以应用缓慢地起作用的AGC，以使该响度模型的所有频带受到相同量的响度修正，由此保持所述感知频谱平衡，并且可以以允许所述响度修正跨频带地变化的方式来应用所述快速起作用的DRC，以缓解在其它情况下可能由快速起作用的与频带无关的响度修正引起的交叉谱泵浦。

可以利用听觉事件来控制AGC和DRC的冲击和释放。在AGC的情况下，冲击时间和释放时间与事件感知的时间分辨率相比均是大的，因此在这两种情况下均可以有利地使用事件控制。对于DRC而言，冲击相对短，因此可以如同上文针对传统的DRC所描述的一样，仅需要对释放进行事件控制。

如先前所讨论的，可以利用与所使用的响度模型相关联的特性响度频谱以用于事件检测。可以如下地根据等式2中定义的特性响度N[b,t]来计算与等式10a和10b中的差分信号相类似的差分信号D[t]：

D [t] = \underset{b}{Σ} | N_{NORM} [b, t] - N_{NORM} [b, t - 1] | - - - (14 a)

其中，

N_{NORM} [b, t] = \frac{N [b, t]}{\max_{b} {| N [b, t] |}} - - - (14 b)

尽管可以使用其它归一化因子，比如|N[b,t]|的横跨频带的平均值，但是这里使用|N[b,t]|的横跨频带b的最大值来进行归一化。如果差异D[t]超过阈值D_min，则认为事件已发生。然后以与等式11和12所示的方式相同的方式处理所述差分信号，以产生用于控制冲击时间和释放时间的平滑的事件控制信号

可以将图11中描述的AGC曲线表示成将其输入取为响度的测量值并产生期望的输出响度的函数：

L_o＝F_AGC{L_i} (15a)

可以类似地将所述DRC曲线表示成：

L_o＝F_DRC{L_i} (15b)

对于AGC而言，输入响度是音频的长期响度的测量值。可以通过利用相对长的时间常数(约若干秒)对等式3中定义的即时响度L[t]进行平滑来计算这种测量值。已经证明，人类在判断音频段的长期响度时与较轻声的部分相比更多地偏重于较大声的部分，并且可以在所述平滑中利用比释放更快的冲击来模拟该效果。因此，利用对冲击和释放的事件控制的合并，可以根据下式来计算用于确定AGC修正的长期响度：

L_AGC[t]＝α_AGC[t]L_AGC[t-1]+(1-α_AGC[t])L[t] (16a)

其中，

α_{AGC} [t] = \{\begin{matrix} \overset{&OverBar;}{A} [t] α_{AGCattach} + (1 - \overset{&OverBar;}{A} [t]) & L [t] > L_{AGC} [t - 1] \\ \overset{&OverBar;}{A} [t] α_{AGCrelease} + (1 - \overset{&OverBar;}{A} [t]) & L [t] \leq L_{AGC} [t - 1] \end{matrix} - - - (16 b)

此外，可以计算稍后会被用于多频带DRC的相关的长期特性响度频谱：

N_AGC[b,t]＝α_AGC[t]N_AGC[b,t-1]+(1-α_AGC[t])N[b,t] (16c)

在实践中，可以选择平滑系数以使冲击时间约为释放时间的一半。在给定长期响度测量值的情况下，随后可以计算出与AGC相关的响度修正缩放比例，作为输出响度相对于输入响度的比率：

S_{AGC} [t] = \frac{F_{AGC} {L_{AGC} [t]}}{L_{AGC} [t]} - - - (17)

现在将根据应用所述AGC缩放之后的响度来计算DRC修正。可以替代地将DRC曲线应用于即时响度并随后对作为结果的修正进行平滑，而不是在应用所述DRC曲线之前对所述响度的测量值进行平滑。这与先前所描述的用于平滑传统DRC的增益的技术相类似。此外，可以以多频带方式应用DRC，这意味着所述DRC修正是每个频带b中的特性响度N[b,t](而不是总响度L[t])的函数。然而，为了保持原始音频的平均频谱平衡，可以将DRC应用于每个频带，以使作为结果的修正具有与将DRC应用于总响度将会导致的平均效果相同的平均效果。这可以通过以下方式来实现：按照长期总响度(在应用AGC缩放之后)相对于长期特性响度的比率来缩放每个频带，并利用该值作为所述DRC函数的自变量。该结果随后被按照所述比率的倒数而重新缩放，以产生特性响度。因此，可以根据下式来计算每个频带中的DRC缩放比例：

S_{DRC} [b, t] = \frac{\frac{N_{AGC} [b, t]}{S_{AGC} [t] L_{AGC} [t]} F_{DRC} {\frac{S_{AGC} [t] L_{AGC} [t]}{N_{AGC}} N [b, t]}}{N [b, t]} - - - (18)

然后可以组合AGC修正和DRC修正以形成每个频带的总响度缩放比例：

S_TOT[b,t]＝S_AGC[t]S_DRC[b,t] (19)

然后可以利用快速的冲击和缓慢的释放以及只应用于所述释放的事件控制来与每个频带无关地跨时间地平滑所述总缩放比例。理想地，与以其分贝表示而被平滑的传统DRC的增益相类似地，对所述缩放比例的对数执行平滑，但是这并不是必要的。为了确保平滑后的总缩放比例与每个频带中的特性响度相同步地变动，可以通过同时对特性响度自身进行平滑来确定冲击模式和释放模式：

{\overset{&OverBar;}{S}}_{TOT} [b, t] = \exp (α_{TOT} [b, t] \log ({\overset{&OverBar;}{S}}_{TOT} [b, t - 1]) + (1 - α_{TOT} [b, t]) \log (S_{TOT} [b, t])) - - - (20 a)

\overset{&OverBar;}{N} [b, t] = α_{TOT} [b, t] \overset{&OverBar;}{N} [b, t - 1] + (1 - α_{TOT} [b, t]) N [b, t] - - - (20 b)

其中，

α_{TOT} [b, t] = \{\begin{matrix} α_{TOTattack} & N [b, t] > \overset{&OverBar;}{N} [b, t - 1] \\ \overset{&OverBar;}{A} [t] α_{TOTrelease} + (1 - \overset{&OverBar;}{A} [t]) & N [b, t] \leq \overset{&OverBar;}{N} [b, t - 1] \end{matrix} - - - (20 c)

最后，可以基于应用于原始特性响度的平滑后的缩放比例来计算目标特性响度：

\hat{N} [b, t] = {\overset{&OverBar;}{S}}_{TOT} [b, t] N [b, t] - - - (21)

然后，对当被应用于原始激励时导致了等于所述目标的特性响度的增益G[b,t]进行求解：

\hat{N} [b, t] = Ψ {G^{2} [b, t] E [b, t]} - - - (22)

所述增益可以应用于用于计算所述激励的滤波器组的每个频带，并且随后可以通过使所述滤波器组倒置(invert)以产生修正后的时域音频信号，来产生所述修正后的音频。

附加的参数控制

虽然上述讨论聚焦于借助于对被处理的音频的听觉事件分析对AGC和DRC的冲击参数和释放参数的控制，但是其它重要的参数也可以从受到借助于ASA结果的控制中获益。例如，可以利用来自等式12的事件控制信号来改变用于动态地调整所述音频的增益的DRC比率参数。与所述冲击时间参数和释放时间参数相类似地，所述比率参数对于动态增益调整所引入的感知失真可能有显著的贡献。

实现

可以以硬件或软件或者这两者的组合(例如可编程逻辑阵列)来实现本发明。除了另外指定的之外，被包括为本发明的部分的所述算法并不是固有地与任何特定计算机或其它设备相关联。具体而言，各种通用机器可以随根据此处的教导而编写的程序一起使用，或者构造更专用的设备(例如集成电路)来执行所需要的方法步骤可能更为方便。因此，可以以在一个或更多个可编程计算机***上运行的一个或更多个计算机程序来实现本发明，其中每个所述可编程计算机***包括至少一个处理器、至少一个数据存储***(包括易失性存储器和非易失性存储器和/或存储元件)、至少一个输入装置或输入端口、以及至少一个输出装置或输出端口。程序代码被应用于输入数据，以执行在此描述的功能和产生输出信息。所述输出信息被以已知的方式应用于一个或更多个输出装置。

每个这种程序可以以任何期望的计算机语言(包括机器语言、汇编语言、高级过程式语言、逻辑语言或面向对象的编程语言)来实现，以便与计算机***进行通信。在任何情况下，所述语言可以是编译型语言或解释型语言。

每个这种计算机程序优选地被存储在或下载到可由通用或专用的可编程计算机读取的存储介质或存储装置(例如，固态存储器或介质、或者磁介质或光学介质)中，以用于在所述存储介质或存储装置被所述计算机***读取时配置和操作所述计算机以执行在此描述的过程。还可以考虑将本发明的***实现为配置有计算机程序的计算机可读存储介质，其中所述存储介质被配置成使计算机***以特定的和预定义的方式操作，以执行在此描述的功能。

根据本申请，提供了以下方案：

方案1.一种音频处理方法，其中处理器接收输入声道并产生输出声道，所述输出声道是通过将动态增益修正应用于输入声道而产生的，所述音频处理方法包括：

检测所述音频输入声道中信号特性相对于时间的变化，

识别所述输入声道中信号特性相对于时间的变化，作为听觉事件边界，其中连续边界之间的音频段构成了所述声道中的听觉事件，以及

至少部分地响应于听觉事件和/或与所述听觉事件边界相关的信号特性变化的程度，而产生音频动态增益修正方法的一个或更多个参数中的全部或一些参数。

方案2.根据方案1所述的方法，其中听觉事件是倾向于被感知为独立且明显的音频段。

方案3.根据方案1或2所述的方法，其中所述信号特性包括所述音频的频谱内容。

方案4.根据方案1或2所述的方法，其中所述信号特性包括所述音频的感知响度。

方案5.根据方案1-4中的任一项所述的方法，其中至少部分地响应于一个或更多个听觉事件的存在或不存在，而产生所述一个或更多个参数中的全部或一些参数。

方案6.根据方案1-4中的任一项所述的方法，其中所述识别步骤识别信号特性相对于时间的超过阈值的变化，作为听觉事件边界。

方案7.根据方案1-4中的任一项所述的方法，其中所述听觉事件边界可以借助于用于产生被用来修正音频动态增益修正参数的控制信号的函数来修正。

方案8.根据方案1-4中的任一项所述的方法，其中至少部分地响应于对与所述听觉事件边界相关的信号特性变化的程度的连续测量，而产生所述一个或更多个参数中的全部或一些参数。

方案9.一种适合于执行方案1-8中的任一项所述的方法的设备。

方案10.一种存储在计算机可读介质上的计算机程序，用于使计算机对方案9所述的设备进行控制。

方案11.一种存储在计算机可读介质上的计算机程序，用于使计算机执行方案1-8中任一项所述的方法。

方案12.一种用于将音频信号划分成听觉事件的方法，其中每个听觉事件倾向于被感知为独立的和明显的，所述方法包括：

计算所述音频信号的连续时间块之间的频谱内容的差异，其中所述差异是通过比较连续时间块之间的特性响度的差异而计算出的，其中所述特性响度是作为频率和时间的函数的感知响度的测量值，以及

当连续时间块之间的频谱内容的差异超过阈值时，识别出作为这种连续时间块之间的边界的听觉事件边界。

方案13.根据方案12所述的方法，其中通过以采样频率f_s从音频源采样的离散事件序列x[n]来表示所述音频信号，并且通过比较连续时间块t之间的跨频带b的特性响度N[b,t]的差异来计算所述差异。

方案14.根据方案13所述的方法，其中根据下式来计算所述音频信号的连续时间块之间的频谱内容的差异：

D [t] = \underset{b}{Σ} | N_{NORM} [b, t] - N_{NORM} [b, t - 1] |,

其中，

N_{NORM} [b, t] = \frac{N [b, t]}{\max_{b} {N [b, t]}} .

方案15.根据方案13所述的方法，其中根据下式来计算所述音频信号的连续时间块之间的频谱内容的差异：

D [t] = \underset{b}{Σ} | N_{NORM} [b, t] - N_{NORM} [b, t - 1] |,

其中，

N_{NORM} [b, t] = \frac{N [b, t]}{\underset{b}{avg} {N [b, t]}} .

方案16.一种适合于执行方案12-15中的任一项所述的方法的设备。

方案17.一种存储在计算机可读介质上的计算机程序，用于使计算机对方案16所述的设备进行控制。

方案18.一种存储在计算机可读介质上的计算机程序，用于使计算机执行方案12-15中任一项所述的方法。

已经描述了本发明的诸多实施例。但是，应当理解，在不背离本发明的精神和范围的情况下可以进行各种修改。例如，在此描述的一些步骤可以与顺序无关，因此可以以与所描述的顺序不相同的顺序来实现。

应当理解，本发明及其各方面的其它变化和修改的实现对于本领域的技术人员而言是明显的，并且本发明不限于所描述的这些特定实施例。因此，本发明旨在涵盖落入在此公开并要求保护的基本原理的真实精神和范围内的任何和全部的修改、变化或等效内容。

通过引用的合并

下面的专利、专利申请和出版物中每个的全部内容通过引用而合并于此。

音频动态处理

1999年由Michael Talbot-Smith编辑的《Audio Engineer’s ReferenceBook》，第二版，Limiters and Compressors，Alan Tutton，2-1492-165，Focal Press，Reed Educational and Professional Publishing有限公司。

检测和利用听觉事件

2004年6月24日被公布为US2004/0122662A1的、Brett GrahamCrockett的美国专利申请10/474,387“High Quality Time-Scaling andPitch-Scaling of Audio Signals”。

2004年7月29日被公布为US2004/0148159A1的、Brett G.Crockett等人的美国专利申请10/478,398“Method for Time Aligning Audio SignalsUsing Characterizations Based on Auditory Events”。

2004年8月26日被公布为US2004/0165730A1的、Brett G.Crockett的美国专利申请10/478,538“Segmenting Audio Signals Into AuditoryEvents”。本发明的多个方面提供了除了Crockett的所述申请中公开的方式之外的用于检测听觉事件的方式。

2004年9月2日被公布为US2004/0172240A1的、Brett G.Crockett等人的美国专利申请10/478,397“Comparing Audio UsingCharacterizations Based on Auditory Events”。

2005年7月13日递交并于2006年3月9日被公布为WO2006/026161的、Michael John Smithers的标题为“Method for Combining AudioSignals Using Auditory Scene Analysis”的根据专利合作条约的国际申请PCT/US05/24630。

2004年5月27日递交并于2004年12月23日被公布为国际公开WO2004/111994A2的、Alan Jeffrey Seefeldt等人的标题为“Method,Apparatus and Computer Program for Calculating and Adjusting thePerceived Loudness of an Audio Signal”的根据专利合作条约的国际申请PCT/US2004/016964。

2005年10月25日递交并被公布为国际公开WO2006/047600的、Alan Jeffrey Seefeldt的标题为“Calculating and Adjusting the PerceivedLoudness and/or the Perceived Spectral Balance of an Audio Signal”的根据专利合作条约的国际申请PCT/US2005/038579。

Brett Crockett和Michael Smithers的“A Method for Characterizingand Identifying Audio Based on Auditory Scene Analysis”，AudioEngineering Society Convention Paper6416,118^th Convention,Barcelona,2005年5月28-31日。

Brett Crockett的“High Quality Multichannel Time Scaling andPitch-Shifting using Auditory Scene Analysis”，Audio Engineering SocietyConvention Paper5948,New York,2003年10月。

Alan Seefeldt等人的“A New Objective Measure of PerceivedLoudness”，Audio Engineering Society Convention Paper6236,SanFrancisco,2004年10月28日。

由Glen M.Ballou编辑的《Handbook for Sound Engineers,The NewAudio Cyclopedia》，第二版，Dynamics，850-851，Focal Press an imprintof Butterworth-Heinemann，1998年。

由Michael Talbot-Smith编辑的《Audio Engineer’s Reference Book》，第二版，第2.9节(Alan Tutton的“Limiters and Compressors”)，第2149-2165页，Focal Press，Reed Educational and Professional Publishing有限公司，1999年。

Claims

1.一种用于修正音频动态处理器的参数的方法，包括：

检测音频信号中的信号特性相对于时间的变化，

识别所述音频信号中的所述信号特性相对于时间的超过阈值的变化作为听觉事件边界，其中连续边界之间的音频段构成听觉事件，

基于所述听觉事件的所识别的边界来产生参数修正控制信号，以及

根据所述参数修正控制信号来修正所述音频动态处理器的所述参数。

2.根据权利要求1所述的方法，其中听觉事件是倾向于被感知为独立且明显的音频段。

3.根据权利要求1所述的方法，其中所述信号特性包括所述音频信号的频谱内容。

4.根据权利要求1所述的方法，其中所述信号特性包括所述音频信号的感知强度。

5.根据权利要求1所述的方法，其中所述信号特性包括所述音频信号的感知响度。

6.根据权利要求1所述的方法，其中至少部分地响应于一个或更多个听觉事件的存在或不存在而产生所述参数。

7.一种用于修正音频动态处理器的参数的设备，包括：

用于检测音频信号中的信号特性相对于时间的变化的装置，

用于识别所述音频信号中的所述信号特性相对于时间的超过阈值的变化作为听觉事件边界的装置，其中连续边界之间的音频段构成听觉事件，

用于基于所述听觉事件的所识别的边界来产生参数修正控制信号的装置，以及

用于根据所述参数修正控制信号来修正所述音频动态处理器的所述参数的装置。

8.根据权利要求7所述的设备，其中听觉事件是倾向于被感知为独立且明显的音频段。

9.根据权利要求7所述的设备，其中所述信号特性包括所述音频信号的频谱内容。

10.根据权利要求7所述的设备，其中所述信号特性包括所述音频信号的感知强度。

11.根据权利要求7所述的设备，其中所述信号特性包括所述音频信号的感知响度。

12.根据权利要求7所述的设备，其中至少部分地响应于一个或更多个听觉事件的存在或不存在而产生所述参数。