CN103262409A

CN103262409A - 用于改进的感觉的频谱不平衡的音频信号的动态补偿

Info

Publication number: CN103262409A
Application number: CN2011800510719A
Authority: CN
Inventors: M·沃尔什; E·斯特因; J-M·卓特
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2010-09-10
Filing date: 2011-09-08
Publication date: 2013-08-21
Anticipated expiration: 2031-09-08
Also published as: TW201225518A; HK1187741A1; PL2614586T3; JP5917518B2; US20120063616A1; EP2614586A2; KR20130106395A; CN103262409B; TWI580180B; JP2013537321A; EP2614586A4; EP2614586B1; WO2012033942A3; KR101914312B1; WO2012033942A2; US9391579B2

Abstract

本发明涉及用于改进的感觉的频谱不平衡的音频信号的动态补偿，其中，均衡输入音频信号以基于期望的接听声压水平、特定的回放装置的输出能力和听者的特有听力特性形成输出音频信号。首先基于音频信号的性能和控制声音水平确定期望的接听水平。期望的接听水平被用于基于其能力和任何主音量增益确定特定的回放装置的最佳声压水平。这两个水平被用于基于标准化或者直接测量的属于人听力感觉的数据确定使得单个频率多大声。在任选地扩展信号带宽之后，进一步基于标准化或直接测量的听力损失数据补偿音频。最终的补偿的音频信号被发送到回放装置以供回放。

Description

用于改进的感觉的频谱不平衡的音频信号的动态补偿

（对相关申请的交叉引用）

本申请要求在2010年9月10日提交的美国临时申请No.61/381831的权益，在此通过引入其并入其全部内容。

技术领域

本发明涉及用于通过使用适应滤波来均衡用于回放的音频信号。

背景技术

音频信号可由其频谱平衡或频率响应描述。当在回放装置中被播放时，音频信号具有相关的声压水平或“SPL”。音频信号的这两种性能在逻辑上是独立的：假定线性的时间不变再现***，改变音频信号的声压水平不应影响该信号的频谱平衡的任何客观测量。

但是，从主观的心理声学的观点，我们观察到声压水平的变化在信号的感觉的频谱平衡上产生明显的变化。这是由于人耳朵对于声压水平的差异的敏感度随频率改变。例如，当我们降低音频信号的声压水平时，低频率的感觉的响度以远大于中间范围频率的速率降低。

该现象可由等响度曲线描述。图1表示由ISO标准226（2003）定义的等响度曲线。响度的测量单位是方，这里，1方被定义为1000Hz（1kHz）频率下的1分贝（dB）的声压水平（SPL）。图1中的各曲线代表跨频率提供一致的响应水平所需要的SPL，这可由“平均”个体感觉到。图1示出将以20方的增量从人听力阈值直到100方的感觉的响度水平模型化的6条这种曲线。注意，根据方的定义，20方的响度在1kHz下需要20dB的SPL，40方的响度在1kHz下需要40dB的SPL，等等。

响度感觉也可由于环境和诸如与年龄有关的听力损失的物理属性而在人之间改变，这种听力损失也称为老年性耳聋。在从包括于ISO标准7029（2000）中的数据改编的图2中，示出了“平均”人的随年龄而增大的衰减。基线衰减是20岁平均个体的听力，由以0dB衰减的直线代表。从图2可以看出，平均30岁的人的听力比20岁仅在高于约1800Hz时稍差。相反，平均60岁的人的听力对于高于1000Hz的频率具有明显降低（超过20dB的听力损失）。因此，老年性耳聋在较高可听频率中是特别有问题的，并且是高度年龄依赖的。

听者常常尝试通过向他们的音频输出施加均衡功能（“EQ”）来在高频率和低频率中抵消平衡中的感觉的损失。过去，常通过使用提升低频率和高频率的图形均衡器来施加该EQ功能，从而在八度音带分开的滑块上产生微笑的形状。虽然“笑脸”EQ很好地增补低接听水平上的感觉的频谱，但一般与声压水平无关应用它。因此，在较高声压水平下，得到的均衡的声学轨道可被感觉为在低频率下太低重并且在高频率下太刺耳。

最后，作为编码处理的结果，通过对于低比特率已使用感知的编码技术（例如，mp3）主动压缩的音频可被感觉为欠清亮或者含混的。这常常是由于较高频率已被滤除以节省带宽。由于音频只是不存在于较高频带中，因此应用高频率EQ将无助于这种情况。

上述的与在较低水平下播放的音频信号的频谱感觉的频谱平衡有关的问题可被概括如下：

人耳朵对于声压水平的差异的敏感性随在较低接听水平上产生感觉的频谱不平衡的频率而改变。

与年龄有关的听力损失产生更安静的高频率内容的感觉。

虽然应用“笑脸”EQ曲线可帮助校正较低接听水平上的感觉的频谱平衡，但它也会在较高的接听水平上过度补偿（当需要较少的补偿时）。

较低比特率感知的音频编码可产生含混的音频的感觉。

应用任何类型的高频率EQ可能不能增亮低比特率编码的材料。

发明内容

本发明的各种实施例通过使用SPL依赖的适应EQ、任选的频谱带宽扩展和SPL无关（但听者依赖）EQ的组合对于感觉的频谱不平衡进行动态补偿播放的音频内容，来解决现有技术的以上不足。作为连续回放水平和信号带宽分析的结果，当需要时仅有利地处理播放的音频。

如上所述，人对于低频率（<1000kHz）的敏感性与高频率不同，使得输出增益的降低将产生低得多的低音感觉的水平，常常到低音频率当在非常低的水平上播放时根本听不到的程度。SPL均衡通过对于作为回放信号输出连续地自适应输入音频信号的频谱而起作用，使得在一些理想的监视水平下相对于感觉的频谱平衡，保持再现的感觉的频谱平衡。通过计算对于期望的接听水平和实际接听水平产生的等响度曲线的相对差异，来完成这一点。期望和实际回放水平之间的差值越大，则感觉的低音水平越低并且感觉到低音损失的平衡所需要的低频率EQ越大。例如，如在Holman et al.,“Loudness Compensation:Use and Abuse”，J.Audio Eng.Soc.,vol.26,pp.526-536（July-Aug.1978）中描述的那样，SPL均衡的基础在现有技术中是已知的。如下面更详细地解释的那样，本发明的各种实施例修改该基本技术。

如图2所示，随着频率增大，高频率听力损失会产生高频率听力敏锐度的降低。为了补偿各种程度的听力损害，我们实现基于在图2中描述的趋势的逆反但不直接基于音频信号的采样的听者依赖EQ。因而，随着希望的补偿量增大，我们通过更高的量并且在更低的截止频率下开始而提升高频率。施加的高频率EQ的总体增益也依赖于假定的实际回放水平，以避免在更高的声压水平下施加太多的高频率提升，它会另外被感觉为干扰或刺耳。

在听者依赖均衡被应用但是由于有限的高频率内容而具有更少的可听效果的情况下，可以使用带宽扩展技术。广义上说，典型的音频带宽扩展算法通过使用,诸如在Larsen et al.,“EfficientHigh-Frequency Bandwidth Extension of Music and Speech”,AES112th Convention(May2002)中描述的非线性畸变和在Dietz et al.,“Spectral Band Replication,A Novel Approach in Audio Coding”,AES112th Convention(May2002)中描述的频带复制的技术，从存在的较低频率内容导出附加的较高频率音频内容。为了从带宽扩展和响应均衡的组合得到全部的益处，在本发明的一些实施例中，在高频率响度均衡之前应用带宽扩展。可以使用任选的带宽检测算法以检测存在输入信号中的高频率内容的量，使得仅当需要时施加带宽扩展。

因此，在本发明的第一实施例中，提供一种均衡处理装置内的音频信号的方法。该方法包括：在第一过程中，将音频信号的一部分的频率系数分成多个子带，其中，每个子带包括一个或多个频率系数。该方法包括：对于多个子带中的一个或多个，使用处理装置以执行一系列的过程。首先，处理装置部分地基于（i）预定的控制声压水平和（ii）一个或多个子带的频率系数确定至少一个控制信号大小。然后，处理装置部分地基于回放装置的控制音量水平确定至少一个回放信号大小。然后，处理装置基于控制信号大小产生第一等响度曲线数据。然后，处理装置基于回放信号大小产生第二等响度曲线数据。一旦对于音频信号的特定的部分产生曲线，该方法就继续在一个或多个子带内基于第一和第二等响度曲线数据发展补偿数据并且通过使用补偿数据补偿音频信号的一部分的频率系数。

相关的方法还包括在子带内变换补偿的频率系数，以产生均衡的音频信号，该音频信号可被输出到回放装置。音频信号可包括多个部分，并且，可对于每个部分重复确定至少一个控制信号大小、确定至少一个回放信号大小、产生第一等响度曲线数据、产生第二等响度曲线数据、发展补偿数据和补偿该部分的频率系数的步骤。产生第一等响度曲线数据（属于理想化的接听设定）可包括对于控制信号大小根据ISO226产生等响度曲线数据和将产生的等响度曲线数据归一化为在1kHz下具有0dB的增益。类似地，产生第二等响度曲线数据（属于理想化的接听设定）可包括对于回放信号大小根据ISO226产生等响度曲线数据和将产生的等响度曲线数据归一化为在1kHz下具有0dB的增益。

关于这些方法，控制水平可以是在音频信号的记录中出现的规定的频率的峰值水平。并且，一个或多个子带可限于低于例如1kHz的频率。确定补偿数据可包括从该部分的低频率音频内容导出附加的高频率音频内容。

该方法还可包括：基于属于听者的听力特性的接收数据确定第二补偿数据；和基于第二补偿数据增大频率系数中的至少一个。在该扩展方法中，增大频率系数中的至少一个可部分地基于假定的回放水平。并且，确定第二补偿数据可包括根据函数计算提升水平，并且，数据可具有预定的最大提升水平。

在第二实施例中还提供一种用于均衡用于在回放装置上回放的音频信号的方法。与前面那样，该方法包括将音频信号分成包括一个或多个频率系数的多个子带。第二方法还要求基于回放装置的回放水平和控制声压水平使一个或多个子带的频率系数动态适应。然后，该方法要求基于听者的听力损失数据使多个子带中的一个或多个的频率系数适应。最后，该方法要求将适应的频率系数变换成用于在回放装置上回放的均衡的音频信号。根据该方法，动态适应和用于听力损失的适应导致个体化并且动态均衡的音频信号接近控制时的音频信号的频谱平衡。据推测，控制音频信号的声音工程师具有优异的接听敏锐度，并且该方法对于另一个体提供基本上等同的接听体验。

在相关的实施例中，使一个或多个子带的音频大小动态适应被限于低于1kHz的频率。动态适应对于音频信号的每个采样周期可包括四个子过程。第一子过程是部分地基于控制声压水平确定预定频率上的期望信号大小。第二子过程是部分地基于回放装置的控制音量调整和回放装置的最大声压水平确定至少一个实际回放大小。第三子过程是基于期望信号大小和实际回放大小产生等响度曲线数据。第四子过程是应用等响度曲线数据以使频率系数中的一个或多个频率系数适应。

在另一相关的实施例中，该方法还包括基于用户的年龄调整频率系数。因此，该扩展的方法包括接收识别用户的年龄的用户输入。从而，基于听力损失数据使一个或多个子带适应包括确定第一和第二频率之间的函数，使得至少第一频率和函数基于用户的接收年龄和基于确定的函数提升多个子带中的一个或多个中的频率系数。使子带适应还可包括接收指示函数的变量的用户输入，使得用户修改函数并导致频率系数中的一个或多个的提升的增大或减小。

在另一相关的实施例中，该方法包括通过产生用于被用户响应的一系列的基于频率的声音执行听力测试；使得多个子带中的一个或多个的适应包括基于用户对于听力测试的响应确定频率系数中的一个或多个的提升水平。

还提供用于音频信号的均衡的第三方法。该方法包括：将音频信号转换成数字表示；滤波数字表示，以基于控制声压水平和属于给定听者的听力特性的数据动态调整音频信号；和将滤波的数字表示转换成用于在回放装置上回放的滤波的音频信号。

还提供一种计算机程序产品，该计算机程序产品包括在上面具有用于执行以上的方法中的任一个或者全部的计算机代码的非暂时性计算机可读介质。

还提供一种用于音频信号的均衡的***，其中，音频信号由在多个采样时间采样的频率系数代表。该***包括：用于（i）接收音频信号和（ii）基于期望声压水平和音频信号的实际回放声压水平对于采样时间使频率系数动态适应的声压水平均衡器。声压水平均衡器通过使用基于实际回放声压水平和期望声压水平确定的等响度曲线数据确定用于使频率系数适应的频率系数调整。该***还包括用于基于确定听力损失补偿数据的用户输入对于采样时间调整频率成分的听者依赖均衡器。

在相关的实施例中，***还包括用于（i）对于采样时间基于频率系数检测每个采样时间上的音频信号的带宽和（ii）输出代表带宽的带宽信号的带宽检测器。相关的***还包括用于接收带宽信号并且（i）如果带宽被确定为低于预定的频率则向带宽扩展模块提供音频信号或者（ii）如果带宽被确定为对于采样时间高于预定频率则绕过带宽扩展模块的逻辑开关。带宽扩展模块对于给定的采样时间基于包括于音频信号内的信息向高于预定的带宽的频率上的音频信号添加附加的频率系数。

***可包括与听者依赖均衡器通信的包括多组听者依赖曲线数据并且基于用户输入向听者依赖均衡器提供特定的听者依赖曲线数据的存储器。类似地，***还包括与声压水平均衡器通信的包括多组等响度曲线数据并且基于实际回放声压水平或期望声压水平提供特定的等响度曲线数据的存储器。最后，***可包括用于在不同的频率上产生一系列的可听音调、响应可听音调接收用户输入并确定用户特有的听力数据的听力测试模块。

附图说明

结合附图参照以下的详细的描述，将更容易理解实施例的以上特征，其中，

图1表示由ISO标准226（2003）定义的等响度曲线；

图2表示从包括于ISO标准7029（2000）中的数据改编的随年龄变化的听力阈值的典型的统计分布；

图3表示通过本发明的实施例执行的用于滤波输入音频信号以产生输出音频信号的均衡处理的结果；

图4是表示根据本发明的实施例的、可用于动态均衡输入音频信号的响度的功能模块的布置的框图；

图5是表示根据图4的实施例的用于在可听低频率和可听高频率二者中均衡响度的算法的流程图；

图6示出根据本发明的实施例的、与计算峰值信号水平与输入音频信号水平之间的dB偏移以动态均衡可听低频率相关的概念；

图7A表示图6的概念如何应用以近似控制声音；

图7B表示图6的概念如何应用以近似输入音频信号的听者希望听到的声压水平；

图8表示根据本发明的实施例被修改以均衡音频信号以补偿单个听者的听力损失的特性的图2。

具体实施方式

定义。如在本说明书和所附的权利要求中使用的那样，除非上下文另外要求，否则，以下的术语应具有指示的意思：

连续（模拟）音频信号可在“采样频率”下被数字采样，以形成数字数据的流。常见的采样频率包括：包括MP3的MPEG-1音频使用的44.1kHz；诸如SDI的各种专业数字视频标准使用的48kHz；和对于DVD音频、蓝光音频和HD-DVD音频使用的96kHz。数字数据代表被定义为音频信号的采样之间的时间的“采样周期”。

采样周期的数字数据可通过使用诸如离散余弦变换（DCT）的公知的变换从基于时间的表示（“时域”）变换成基于频率的表示（“频域”）。虽然时域中的数据值可代表一系列的电压大小（例如），但是，频域中的数据值可代表在采样周期中存在于音频信号中的频率的大小。频域中的这种数据值在这里被称为“频率系数”。

本发明的各种实施例通过使用依赖于音频内容的第一处理和不依赖于音频内容的第二处理的组合对于感觉的频谱不平衡动态补偿音频内容。在第一处理中，优选在控制中，SPL依赖EQ被自适应地应用于音频信号以对于更早的时间的音频信号校正音频回放装置的输出SPL和音频信号的SPL之间的差异。在第二处理中，应用固定的均衡，以与音频信号的特定的SPL无关地补偿诸如老年性耳聋的听者的听力特性。任选地，在第三处理中，在应用听者依赖EQ之前扩展音频信号的频谱带宽以在更高的频率下提高声音质量。

图3表示通过本发明的实施例执行的均衡处理的结果。实线曲线301代表频域中的输入音频信号的一部分。虚线曲线302代表向输入音频信号301的任选的带宽扩展。虚线曲线303代表由实施例产生的输出音频信号。注意，由于带宽扩展302，输出曲线303扩展到比（未扩展）输入信号301高的频率。

图左面的间隙304代表SPL依赖滤波的效果，将在后面结合图4～7更完整地描述这一点。在图3中，该间隙代表用于动态补偿“录音棚”音量和回放音量之间的差值的低频的一些中的SPL的适中的增大。图右面的间隙305代表听者依赖（SPL无关）滤波的效果，将在后面结合图8更完整地描述这一点。听者依赖滤波被用于与输入音频信号无关地主要补偿听力损失和其它的听者听觉特性。

虽然图3所示的曲线301、303在中间频率范围上明显重叠并且在低频率和高频率范围上不同，但是，该示图仅用于示出SPL依赖滤波与听者依过波滤之间的差异。特别地，SPL依赖滤波一般比较高频率更多地影响较低频率，以及SPL独立滤波一般比较低频率更多地影响较高频率。但是，如后面描述的那样，两种滤波效果会在可听频谱中的一些或全部上重叠，并且，图3不应被视为将本发明限于非重叠滤波器。

在图4中示出以上概括的完整方案的一般化示图。为了评价是否保证带宽扩展，向输入音频信号401应用带宽检测算法402。如果得到保证，那么如虚线所示的那样，应用任选的带宽扩展403。该带宽扩展从低频率音频内容导出附加的高频率音频内容。带宽扩展算法可以是现有技术中的许多算法中的一种。对于公开的算法的优秀的概述，参照Larsen et al.,Audio Bandwidth Extension:Application ofPsychoacoustics,Signal Processing and Loudspeaker Design(Wiley,2004)。在本发明的其它实施例中，总是执行带宽扩展，而在又一些实施例中从不执行。

不管是否应用带宽扩展403，都进一步通过SPL依赖响度均衡级404和听者依赖响度均衡级405处理信号。这些级应用单独的均衡函数，这些均衡函数本身是SPL中的假定的期望接听水平与实际接听水平（假定为较低）之间的预定差值的函数。EQ曲线也可根据用户偏好被修改为在高频率带和低频率带上更主动或者更不主动。应用这些均衡函数的结果是可被供给到回放装置以供输出的输出音频信号406。来自回放装置的控制回放音量410被用作对于均衡处理404、405中的一个或两个的输入。

一般地，可在包含专门硬件、计算机硬件、计算机程序代码形式的软件或它们的组合的处理装置或***中实现图4的处理。如以上关于处理402描述的那样，这种处理装置可包括用于对于采样时间基于频率系数检测每个采样时间上的输入音频信号的带宽并输出代表带宽的带宽信号的带宽检测器。处理装置还可包括用于接收带宽信号的逻辑开关。如果带宽被确定为低于预定的频率，则该开关导致音频信号被提供给带宽扩展模块。以上关于处理403描述的带宽扩展模块可基于包含于给定的采样时间的音频信号中的信息将附加的频率系数加到高于确定的带宽的频率上的音频信号上。但是，如果带宽被确定为对于采样时间高于预定的频率，那么开关导致音频信号绕过带宽扩展模块。

利用本发明的***还可包括用于接收音频信号并且对于音频信号基于期望声压水平和实际回放声压水平使采样时间的频率系数动态适应的SPL依赖均衡器。声压均衡器通过使用基于实际回放声压水平和期望声压水平确定的等响度曲线数据确定用于使频率系数适应的频率系数调整。该***还可包括用于基于确定听力损失补偿数据的用户输入对于采样时间调整频率成分的听者依赖均衡器。

可通过与听者依赖均衡器通信的、包含多组听者依赖曲线数据并且基于用户输入向听者依赖均衡器提供特定的听者依赖曲线数据的存储器实现这种***。类似地，可通过与声压水平均衡器通信的、包含多组等响度曲线数据并且基于实际回放声压水平或期望声压水平提供特定的等响度曲线数据的存储器实现这种***。根据以下描述的本发明的一些替代性实施例，该***可包括用于在不同的频率上产生一系列的可听音调、响应可听音调接收用户输入并确定用户特有的听力数据的听力测试模块。这些数据可包括属于由用户听到的等响度曲线的数据或用户的听力损失数据或者两者。

在图5中表示用于实现本发明的一个实施例中的响度均衡的流程图。简言之，本实施例通过确定诸如控制录音室的原始环境中的目标音频采样的SPL与环境的最大SPL之间的差值工作。然后，通过考虑回放装置的自身的最大SPL和由主回放音量水平产生的任何增益而产生用于在回放环境中用于回放的输出信号，复制该差值。

我们从峰值期望峰值声压水平（例如，在控制水平下播放的粉红或褐色噪声的峰值水平）、消费者的回放装置的实际峰值声压水平能力和主音量水平的假定的知识开始。该信息可使用任何手边的装置获得。例如，峰值控制SPL可在输入音频数据流中被编码，或者，它可被手动键入回放装置中。作为非限制性例子，控制上的峰值SPL可在通过记录工程师的音频信号的记录期间被确定为约85dB SPL。另一方面，听者的回放装置的峰值SPL仅取决于装置的函数，并由此与任何特定的输入音频信号无关。在一个实施例中，在与外部扬声器连接的放大器或其它装置内执行图5的方法，并且，可基于例如具有集成的扬声器的膝上型计算机中的放大器的硬件特性（包含其功率本身）确定峰值SPL，因此，可直接通过询问制造商预设值或询问链接计算机模型与它们的扬声器特性的数据库，确定回放装置的峰值SPL。

图5的方法从处理501开始，在该处理中，输入音频信号的一部分通过使用64带过采样多相分析滤波器组被转换成复杂频域表示。可以使用其它类型的滤波器组。也可使用不同数量的滤波器组。在这里描述的实现中，分析滤波器组对于64时域输入采样的每个块提取64频域采样的块，由此分割频率系数以形成多个子带。

在处理502中，应用于输入数据的任何已知的主音量增益都被“取消”。通过这样做，我们可更好地估计期望内容依赖控制水平。在处理503中，通过用例如在现有技术中已知的泄漏积分器在时间上取平均，将低频率（<1kHz）频谱平滑化。

在处理504中，通过导出数据的当前帧的平均低频率大小并从假定的峰值或“全尺寸”大小计算其偏移，估计期望内容依赖水平。在图6中在视觉上示出该处理504的效果。输入音频信号的特定部分的频谱被示为曲线601。通过直到在这种情况为1kHz的截止频率的频率限定该部分的低频谱。这些频率的平均大小602是处理503的输出。图6还表示假定的峰值控制SPL603。处理504的目的是确定音频信号的给定部分的低频率平均602与峰值控制SPL603之间的间隙604的尺寸。

图7A提供该处理的实现的更多的细节。图7A表示输入音频信号601的频谱的一部分、低频率平均大小602和假定的峰值控制SPL603。处理504向峰值控制SPL603分配“M”dB SPL的值，并且向差值604分配“X”dB SPL的值。因此，在（M-X）dB SPL上出现“期望”控制水平。可通过从假定的峰值大小603减去低频率平均602，确定X的值。

基于图7B所示和现在描述的X的值确定希望回放SPL701。首先，峰值回放装置SPL702被分配“P”dB SPL的值，并且，在回放时施加的任何主音量增益703被分配“V”dB SPL的值。注意，回放装置峰值SPL（P dB）一般比控制峰值SPL（M dB）高。输出信号的期望有效声压水平701被计算为（P-X-V）dB SPL。因此，选择希期望输出音频信号水平701，使得，当通过主音量增益703提升它时，它听起来是低于回放装置的最大输出水平702的X dB。这些计算的效果在于，音频信号在理想化的录音室中以及在听者的回放装置上都听起来均以相同的量（X dB，图7A和图7B中的元素604）比相关峰值SPL“更安静”。

但是，如上所述，人耳朵对于声压水平的差异的敏感性随频率而变，从而在较低接听水平上产生感觉的频谱不平衡。因此，简单地根据这些公式在所有频率上均等地减小声压水平（例如，通过均等地减小各种频率窗口中的每一个中的频率系数）会产生错误感觉的频谱平衡。通过应用处理505～507，在示出的实施例中有利地避免这种情况。

因此，返回图5，在处理505中，对于由图7A和图7B中的（M-X）dB SPL和（P-X-V）dB SPL表示的期望SPL和回放SPL，产生等响度曲线数据。一般地，通过参照上面引用的ISO226完成等响度曲线数据的产生。可例如通过内插计算标准水平之间的声压水平的数据。但是，在一些实施例中，处理装置可配有直接测试每个听者的听力的等响度测试模块。该替代性实施例能够产生完美地匹配给定的听者如何感觉等响度的等响度曲线，避免在比较时使用更粗糙的标准化ISO数据。这种实施例可提供有不同的听者简档，这里，每个简档包含与不同的听者的听力特性有关的数据。

在处理506中，等响度曲线的值被归一化，以在1kHz下具有0dB增益。可通过在现有技术中已知的缩放计算执行该处理。并且，在处理506中，基于两个等响度曲线发展EQ值形式的音频信号补偿数据（例如，用于每个频率窗口的频率系数）。在一个实施例中，通过跨着每个频率窗口计算归一化的等响度曲线的差值（单位是dB）完成这一点。然后，在处理507中，从处理506得到的EQ值从对数分贝刻度变换成线性刻度，以直接应用于音频信号。这些值现在代表需要的线性EQ，使得在消费者的设备上播放的音频具有在控制水平上听到的相同感觉的低频率平衡。

出于产生由具有完美的听力的听者感觉为适当大声的输出音频信号的目的，响应输入音频信号动态地进行以上的调整。但是，不是所有的听者都具有完美的听力。因此，我们现在转向在处理508中确定的听者依赖EQ。

参照图8，听者依赖EQ基于可通过听者调整的直线示图。该直线的特性模仿补偿听者的听力损伤所需要的曲线行为，并且一般操作为在较高频率下提升声音水平。因此，对于具有完美听力的20岁的人，不需要或者不应用补偿。对于30岁的人，可以应用直线曲线801。

可以限制EQ曲线，使得它具有最大提升水平802（例如，12dB）和0dB的最小增益。对于40岁的人，EQ曲线803可被应用于频率，直到它与最大增益线802相交，然后，对于更高的频率沿曲线802施加平坦的12dB增益。对于50岁的人，可以以这种方式一起应用曲线804以及曲线802的一部分。并且，对于60岁的人，可以一起应用曲线805和曲线802。

虽然图8中的曲线801、803～805基于ISO标准，但是，也可通过使用修改频率截距和EQ的斜率的用户参数，将EQ曲线特性修改为更主动或更不主动。因此，可对于给定的听者的听力损失特性调整直线曲线。作为替代方案，处理装置可接收识别听者的年龄的用户输入，并且，基于接收的年龄计算适当的曲线。

要得到更高的精度，处理装置可配有听力损失测试模块，以以与确定听者的等响度听力特性类似的方式确定听者的确切的听力损失特性。该模块通过在当声音变得可听时用户响应的给定频率下产生一系列的声音来执行听力测试。EQ曲线然后基于用户对于听力测试的响应。类似地，处理装置可包含每个包含与特定的听者有关的听力损失数据的一系列的听者简档。

重新参照图5，在处理509中，SPL依赖和听者依赖补偿曲线被组合以形成组合的补偿数据。为了避免在较高接听水平上施加太高的增益，EQ曲线还受作为假定的接听水平的函数的频率无关增益影响。在处理510中，通过使用组合的补偿数据补偿输入采样的频率系数。因此，根据在现有技术中公知的方法，EQ（在频域中）被应用于输入音频信号以产生输出音频信号。一般地，EQ的应用涉及基于听者依赖补偿数据增大频率系数中的至少一个。最后，在处理511中，得到的复杂带系数通过使用64带合成组或等同的频率-时间域滤波器被重新组合并变换为时域均衡的输出采样块。可对于每个输入采样块重复图5的这些处理。均衡的音频信号可然后被输出到回放装置以供回放。

以上描述的本发明的实施例仅是示例性的；对于本领域技术人员来说，大量的变更和修改是十分明显的。所有这些变更和修改要处于由任何所附的权利要求限定的本发明的范围内。

应当注意，这里使用逻辑流程图以描述本发明的各方面，并且，不应被解释为将本发明限于任何特定的逻辑流程或逻辑实现。描述的逻辑可在不改变总体结果或另外背离本发明的真实范围的情况下被分成不同的逻辑块（例如，程序、模块、功能或子程序）。在不改变总体结果或另外背离本发明的真实范围的情况下，常常可以按不同的次序添加、修改、省略和执行或者通过使用不同的逻辑结构（例如，逻辑门、循环基本式、条件逻辑和其它的逻辑结构）实现逻辑要素。

可以按包括但不限于供处理器（例如，微处理器、微控制器、数字信号处理器或通用计算机）使用的计算机程序逻辑、供可编程逻辑器件（例如，场可编程门阵列（FPGA）或其它PLD）使用的可编程逻辑、离散组件、集成电路（例如，应用特定集成电路ASIC）或包括它们的任意的组合的任何其它手段的许多不同的形式体现本发明。

可以以包括但决不限于源代码形式、计算机可执行形式和各种中间形式（例如，由汇编程序、编译程序、链接器或***产生的形式）的各种形式体现实现这里描述的功能的全部或一部分的计算机程序逻辑。源代码可包含以供各种操作***或操作环境使用的各种编程语言（例如，对象代码、汇编语言或诸如Fortran、C、C++、JAVA或HTML的高级语言）中的任一种实现的一系列的计算机程序指令。源代码可限定和使用各种数据结构和通信消息。源代码可以为计算机可执行形式（例如，通过解释程序），或者源代码可被转换（例如，通过转换器、汇编程序或编译程序）成计算机可执行形式。

可以在诸如半导体存储装置（例如，RAM、ROM、PROM、EEPROM或快擦写可编程RAM）、磁存储装置（例如，盘或固定盘）、光学存储装置（例如，CD-ROM）、PC卡（例如，PCMCIA卡）或其它存储装置的非暂时性存储介质中，以任何形式（例如，源代码形式、计算机可执行形式或中间形式）固定计算机程序和任何可编程逻辑。计算机程序可作为具有通过计算机***（例如，在***ROM或固定盘上）被预加载的伴随的打印或电子文件（例如，收缩包装软件）的可去除存储介质以任何形式被分发，或者在通信***（例如，因特网或万维网）上从服务器或电子公告板上被分发。

可通过使用常规的手动方法设计或者通过使用诸如计算机辅助设计（CAD）、硬件描述语言（例如，VHDL或AHDL）或PLD编程语言（例如，PALASM、ABEL或CUPL）的各种工具以电子的方式设计、捕获、模拟或记载实现这里描述的功能的全部或一部分的硬件逻辑（包含供可编程逻辑器件使用的可编程逻辑）。

Claims

1.一种均衡处理装置内的音频信号的方法，该方法包括：

将音频信号的一部分的频率系数分成多个子带，其中，每个子带包括一个或多个频率系数；

对于多个子带中的一个或多个，使用处理装置以：

a）部分地基于（i）预定的控制声压水平和（ii）一个或多个子带的频率系数确定至少一个控制信号大小；

b）部分地基于回放装置的主音量水平确定至少一个回放信号大小；

c）基于控制信号大小产生第一等响度曲线数据；和

d）基于回放信号大小产生第二等响度曲线数据；

在一个或多个子带内基于第一和第二等响度曲线数据发展补偿数据；和

使用补偿数据补偿所述音频信号的一部分的频率系数。

2.根据权利要求1的方法，还包括：

在子带内变换补偿的频率系数，以产生均衡的音频信号。

3.根据权利要求2的方法，还包括：

将均衡的音频信号输出到回放装置。

4.根据权利要求1的方法，其中，音频信号包括多个部分，该方法还包括：

对于多个部分中的每个部分，重复确定至少一个控制信号大小、确定至少一个回放信号大小、产生第一等响度曲线数据、产生第二等响度曲线数据、发展补偿数据以及补偿该部分的频率系数的步骤。

5.根据权利要求1的方法，其中，产生第一等响度曲线数据包括：

对于控制信号大小，根据ISO226产生等响度曲线数据；和

将产生的等响度曲线数据归一化为在1kHz下具有0dB的增益。

6.根据权利要求1的方法，其中，产生第二等响度曲线数据包括：

对于回放信号大小，根据ISO226产生等响度曲线数据；和

将产生的等响度曲线数据归一化为在1kHz下具有0dB的增益。

7.根据权利要求1的方法，其中，控制水平是在音频信号的记录期间出现的规定的频率的峰值水平。

8.根据权利要求1的方法，其中，一个或多个子带限于低于1kHz的频率。

9.根据权利要求1的方法，其中，确定补偿数据包括从该部分的低频率音频内容导出附加的高频率音频内容。

10.根据权利要求1的方法，还包括：

基于属于听者的听力特性的接收的数据确定第二补偿数据；和

基于第二补偿数据增大频率系数中的至少一个。

11.根据权利要求10的方法，其中，增大频率系数中的至少一个部分地基于假定的回放水平。

12.根据权利要求10的方法，其中，确定第二补偿数据包括根据函数计算提升水平。

13.根据权利要求12的方法，其中，第二补偿数据具有预定的最大提升水平。

14.一种用于均衡用于在回放装置上回放的音频信号的方法，该方法包括：

将音频信号分成包含一个或多个频率系数的多个子带；

基于回放装置的回放水平和控制声压水平，使一个或多个子带的频率系数动态地适应；

基于听者的听力损失数据，使多个子带中的一个或多个子带的频率系数适应；

将适应的频率系数变换成用于在回放装置上回放的均衡的音频信号，

其中，使动态适应和用于听力损失的适应导致个体化的并且动态均衡的音频信号接近被控制时的音频信号的频谱平衡。

15.根据权利要求14的方法，其中，使一个或多个子带的音频大小动态适应被限于低于1kHz的频率。

16.根据权利要求14的方法，其中，使音频大小动态适应包括：

对于音频信号的每个采样周期：

部分地基于控制声压水平，确定预定频率上的期望信号大小；

部分地基于回放装置的主音量调整和回放装置的最大声压水平，确定至少一个实际回放大小；

基于期望信号大小和实际回放大小，产生等响度曲线数据；和

应用等响度曲线数据以使频率系数中的一个或多个系数适应。

17.根据权利要求14的方法，还包括：

接收识别用户的年龄的用户输入；

其中，基于听力损失数据使多个子带中的一个或多个子带适应包括：

确定第一和第二频率之间的函数，其中，至少第一频率和所述函数基于接收的用户的年龄；和

基于确定的函数提升多个子带中的一个或多个子带中的频率系数。

18.根据权利要求17的方法，其中，使多个子带中的一个或多个子带适应包括：

接收表示所述函数的变量的用户输入，并且，

其中，所述用户输入修改所述函数，并使得增大或减小频率系数中至少一个的提升。

19.根据权利要求14的方法，还包括：

通过产生用于由用户响应的一系列的基于频率的声音，执行听力测试，并且，

其中，使多个子带中的一个或多个子带适应包括基于用户对于听力测试的响应确定用于频率系数中的一个或多个的提升水平。

20.一种用于均衡音频信号的方法，该方法包括：

将音频信号转换成数字表示；

滤波该数字表示，以基于控制声压水平和属于给定听者的听力特性的数据二者，动态地调整音频信号；和

将滤波的数字表示转换成用于在回放装置上回放的滤波的音频信号。

21.一种计算机程序产品，包括其上具有用于均衡音频信号的计算机代码的非暂时性计算机可读介质，该计算机代码包括：

用于将音频信号的一部分的频率系数分成多个子带的计算机代码，其中，每个子带包括一个或多个频率系数；

对于多个子带中的一个或多个，用于以下的计算机代码：

c）基于控制信号大小产生第一等响度曲线数据；和

d）基于回放信号大小产生第二等响度曲线数据；

用于在一个或多个子带内基于第一和第二等响度曲线数据发展补偿数据的计算机代码；和

用于使用补偿数据补偿所述音频信号的一部分的频率系数的计算机代码。

22.根据权利要求21的计算机程序产品，还包括：

在子带内变换补偿的频率系数以产生均衡的音频信号的计算机代码。

23.根据权利要求22的计算机程序产品，还包括：

用于将均衡的音频信号输出到回放装置的计算机代码。

24.根据权利要求21的计算机程序产品，其中，音频信号包括多个部分，该计算机程序产品还包括：

用于对于多个部分中的每个部分重复确定至少一个控制信号大小、确定至少一个回放信号大小、产生第一等响度曲线数据、产生第二等响度曲线数据、发展补偿数据和补偿该部分的频率系数的计算机代码。

25.根据权利要求21的计算机程序产品，其中，用于产生第一等响度曲线数据的计算机代码包括：

用于对于控制信号大小根据ISO226产生等响度曲线数据的计算机代码；和

用于将产生的等响度曲线数据归一化为在1kHz下具有0dB的增益的计算机代码。

26.根据权利要求21的计算机程序产品，其中，用于产生第二等响度曲线数据的计算机代码包括：

用于对于回放信号大小根据ISO226获得等响度曲线数据的计算机代码；和

用于将获得的等响度曲线数据归一化为在1kHz下具有0dB的增益的计算机代码。

27.根据权利要求21的计算机程序产品，其中，所述控制水平是在音频信号的记录期间出现的规定的频率的峰值水平。

28.根据权利要求21的计算机程序产品，其中，一个或多个子带被限于低于1kHz的频率。

29.根据权利要求21的计算机程序产品，其中，用于确定补偿数据的计算机代码包括用于从该部分的低频率音频内容导出附加的高频率音频内容的计算机代码。

30.根据权利要求21的计算机程序产品，还包括：

用于基于属于听者的听力特性的接收的数据确定第二补偿数据的计算机代码；和

用于基于第二补偿数据增大频率系数中的至少一个的计算机代码。

31.根据权利要求30的计算机程序产品，其中，用于增大频率系数中的至少一个的计算机代码部分地基于假定的回放水平。

32.根据权利要求30的计算机程序产品，其中，用于确定第二补偿数据的计算机代码包括用于根据函数计算第一频率和第二频率之间提升水平的计算机代码。

33.根据权利要求32的计算机程序产品，其中，第二补偿数据具有预定的最大提升水平。

34.一种计算机程序产品，包括其上具有用于均衡用于在回放装置上回放的音频信号的计算机代码的非暂时性计算机可读介质，该计算机代码包括：

用于将音频信号分成多个包含一个或多个频率系数的子带的计算机代码；

用于基于回放装置的回放水平和控制声压水平使一个或多个子带的频率系数动态地适应的计算机代码；

用于基于听者的听力损失数据使多个子带中的一个或多个子带的频率系数适应的计算机代码；

用于将适应的频率系数变换成用于在回放装置上回放的均衡的音频信号的计算机代码；

其中，用于动态适应的计算机代码和用于听力损失适应的计算机代码导致个体化的并且动态均衡的音频信号接近被控制时的音频信号的频谱平衡。

35.根据权利要求34的计算机程序产品，其中，用于使一个或多个子带的音频大小动态地适应的计算机代码被限于低于1kHz的频率。

36.根据权利要求34的计算机程序产品，其中，用于使音频大小动态地适应的计算机代码包括：

用于对于音频信号的每个采样周期执行以下的计算机代码：

部分地基于回放装置的任何主音量调整和回放装置的最大声压水平，确定至少一个实际回放大小；

应用等响度曲线数据以使频率系数中的一个或多个频率系数适应。

37.根据权利要求34的计算机程序产品，还包括：

用于接收识别用户的年龄的用户输入的计算机代码，其中，基于与年龄有关的听力损失数据使多个子带中的一个或多个子带适应包括：

用于确定第一和第二频率之间的函数的计算机代码，其中，至少第一频率和所述函数基于接收的用户的年龄；和

用于基于确定的函数提升多个子带中的一个或多个子带中的频率系数的计算机代码。

38.根据权利要求37的计算机程序产品，其中，用于使多个子带中的一个或多个子带适应的计算机代码包括：

用于接收表示函数的变量的用户输入的计算机代码，并且，

其中，所述用户输入修改所述函数并使得增大或减小频率系数中的至少一个的提升。

39.根据权利要求34的计算机程序产品，还包括：

用于通过产生用于由用户响应的一系列的基于频率的声音执行听力测试的计算机代码，并且，

其中，用于使多个子带中的一个或多个子带适应的计算机代码包括用于基于用户对于听力测试的响应确定频率系数中的一个或多个的提升水平的计算机代码。

40.一种计算机程序产品，包括其上具有用于均衡音频信号的计算机代码的非暂时性计算机可读介质，该计算机代码包括：

用于将音频信号转换成数字表示的计算机代码；

用于滤波数字表示以基于控制声压水平和属于给定听者的听力特性的数据二者动态地调整音频信号的计算机代码；和

用于将滤波的数字表示转换成用于在回放装置上回放的滤波的音频信号的计算机代码。

41.一种用于均衡音频信号的***，其中，音频信号由在多个采样时间采样的频率系数表示，该***包括：

声压水平均衡器，用于（i）接收音频信号和（ii）基于音频信号的实际回放声压水平和期望声压水平对于采样时间使频率系数动态地适应，其中，声压水平均衡器使用基于实际回放声压水平和期望声压水平确定的等响度曲线数据确定用于使频率系数适应的频率系数调整；和

听者依赖均衡器，用于基于确定听力损失补偿数据的用户输入对于采样时间调整频率成分。

42.根据权利要求41的***，还包括：

带宽检测器，用于（i）对于采样时间基于频率系数检测每个采样时间上的音频信号的带宽和（ii）输出代表带宽的带宽信号；

逻辑开关，用于接收带宽信号并且对于采样时间（i）如果带宽被确定为低于预定的频率则向带宽扩展模块提供音频信号或者（ii）如果带宽被确定为高于预定频率则绕过带宽扩展模块；

所述带宽扩展模块对于给定的采样时间基于包含于音频信号内的信息向高于确定的带宽的频率上的音频信号添加附加的频率系数。

43.根据权利要求41的***，还包括：

存储器，与听者依赖均衡器通信，该存储器包含多组听者依赖曲线数据并且基于用户输入向听者依赖均衡器提供特定的听者依赖曲线数据。

44.根据权利要求41的***，还包括：

存储器，与声压水平均衡器通信，该存储器包括多组等响度曲线数据并且基于实际回放声压水平或期望声压水平提供特定的等响度曲线数据。

45.根据权利要求41的***，还包括：

听力测试模块，用于在不同的频率上产生一系列可听音调，响应可听音调接收用户输入，并确定对用户特有的听力数据。