CN110853660B

CN110853660B - 解码比特流以从该比特流产生音频输出信号的解码器设备

Info

Publication number: CN110853660B
Application number: CN201910925735.8A
Authority: CN
Inventors: 罗伯特·布莱特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-01-28
Filing date: 2014-01-27
Publication date: 2024-01-23
Anticipated expiration: 2034-01-27
Also published as: KR20150109418A; WO2014114781A1; BR122022020326A8; RU2639663C2; ES2628153T3; TW201438003A; BR122022020326B1; MX351187B; CN105190750A; CA2898567C; JP6445460B2; AR096574A1; BR122022020276A2; CN105190750B; CA2898567A1; KR101849612B1; BR122022020284B1; US9576585B2; BR122022020319A2; JP2016509693A

Abstract

提供一种用于解码比特流以从比特流产生音频输出信号的解码器设备，该比特流包含音频数据且选择地包含含有参考响度值的响度元数据，解码器设备包含：音频解码器设备，从音频数据重构音频信号；以及信号处理器，基于音频信号产生音频输出信号；其中信号处理器包含为调整该音频输出信号的水平的增益控制设备；其中增益控制设备包含产生响度值的参考响度解码器，其中在参考响度值存在于该比特流中的情况下，响度值是参考响度值；其中增益控制设备包含基于该响度值且基于音量控制值计算增益值的增益计算器，音量控制值是由允许使用者控制该音量控制值的外部使用者接口提供；其中增益控制设备包含基于增益值控制音频输出信号的响度的响度处理器。

Description

解码比特流以从该比特流产生音频输出信号的解码器设备

本申请为国际申请日为2014年1月27日、国际申请号为PCT/EP2014/051484、发明名称为“用于新媒体设备上的具有及不具有嵌入式响度元数据的媒体的标准化音频播放的方法及装置”的中国国家阶段申请的分案申请，该中国国家阶段申请的进入国家阶段日为2015年9月24日、申请号为201480018076.5、发明名称为“用于新媒体设备上的具有及不具有嵌入式响度元数据的媒体的标准化音频播放的方法及装置”。

技术领域

本发明涉及对在电子重现设备上以数字形式播放的音频、视频及多媒体内容的响度的控制，具体而言但非排他性地，涉及常发生在新媒体设备上的对播放响度的控制，其中内容是制作成具有及不具有嵌入式响度元数据。

背景技术

在产生及传输音乐、视频及其它多媒体内容时，在不同歌曲间或在不同节目间执行响度标准化过程来确保消费者听到具有适当响度的音频信号。自早期的录音及电影以来，此操作在产生过程期间进行或经由用于剧场的重现标准来进行。当今在音乐及无线电广播业内的惯常做法是将响度调整为接近媒体的最大峰值水平的值，而在电影及电视业内的做法是使用比最大峰值水平低20dB至31dB的若干标准响度水平中的之一。在媒体汇流(media convergence)之前的时代，消费者并未注意到上述情形，因为使用分开的设备或音量设定来播放每种类型的内容。

随着用于播放音乐及电影内容两者的移动设备(诸如移动电话或可携式媒体播放器)的出现，若将未经修改的内容传输至设备，则生产实践中的此差异导致可能高达30dB的响度差异。当从一种类型的内容切换至另一种类型时，上述情形可能导致电影的音量太小或音乐的音量太大。

相关趋势为，在录音的母带后期处理(mastering)期间经由使用强烈的动态范围压缩、限制及限幅(clipping)来增大许多类型的录制音乐的响度。此种母带后期处理是在仅考虑诸如光盘片的无损耗记录媒体的情况下进行，但是当今所售的大多数音乐是诸如MPEG AAC及MP3的有损耗的数据压缩格式。数据压缩过程可能引入在播放期间在解码器中重构的时域波形的变化，这种变化引起波形中超过信号的全尺度限值或最大峰值的过冲(overshoot)。在通常用于移动设备中的定点解码器(或饱和浮点解码器)中，上述情形可导致将过冲限幅至全尺度限值，从而引起重现信号中的额外可听见的限幅。

在一些情况下，对音乐的强烈压缩及限幅是出于艺术目的进行，但更常见的是为了以下目的进行：通过使录音比其它录音“听起来更响”来增加录音的商业吸引力，或为了在所有倾听环境中(诸如在机场或嘈杂场所以及安静环境中)提供可被理解的内容。

在电影及视频行业内，在一些类型中使用广泛音频动态范围来获得巨大效果及创造更具吸引力的体验。当经由杜比数位或MPEG-4AAC编码传送给消费者时，通常包括音频动态范围控制元数据，以便允许在存在嘈杂环境的情况下或在大声场景过于烦扰的情况下在接收器或播放器处选择地减小动态范围。

由杜比数位来编码的DVD或BluRay内容中所包括的传统元数据或在由杜比数位(在先进电视***委员会公司的音频压缩标准A/52中标准化)或MPEG-4AAC(在ISO/IEC14496-3及ETSI TS 101 154中标准化)来编码的TV信号中所传输的传统元数据包括以下分量：

1.单个静态元数据值，其指示节目的总体长期整合响度，在MPEG标准中称为节目参考水平。

2.降混增益的静态元数据值，其用来控制多声道内容的降混以便经由立体声或单声道设备输出。

3.动态范围控制增益或缩放因子之两个集合，其是在音频信号中针对用于多个频带或频区的每一经数据压缩的比特流帧加以发送。在行业术语中，一个集合是用于“轻度”压缩，且另一个集合用于“重度”压缩。所述轻度及重度DRC值的使用通常与在针对操作模式“线路模式”及“RF模式”所建立的解码器响度目标水平上的操作有关。针对此等模式的命名惯例及操作点是在数字媒体的初期建立的，在数字媒体的初期可能必需将数字音频转换为模拟信号，所述这些模拟信号发送基频缆线至后续设备上的线路输入端或经由RF载波传输至模拟电视机装置。

这个元数据的使用允许在播放期间以非破坏性方式使重现适应于倾听环境。可用不同的元数据集合或完全不使用元数据来播放相同的流或文件，以便产生不同的动态范围。不同于使用仅存在于播放设备中的压缩器，使用元数据的动态范围控制允许创造性艺术家必要时在产生过程期间监视及控制压缩的性质。

不幸的是，常常在诸如MPEG AAC或杜比数字家族的有损耗多媒体数字信号编解码器中实现的动态范围控制元数据不能对足够强的信号进行压缩以便与当代音乐的响度匹配，因为该元数据以音频压缩帧为基础影响信号的平均功率(可能在若干频带中)，其中常见的帧周期为20ms至40ms。此逐帧增益控制不够快，以致于不能将信号的峰值与平均值之比减小至经高度处理的当代音乐的峰值与平均值之比。

如[5]中所描述的，由Wolters等人用来解决此问题的方法是在播放设备中使用接在解码器后面的音频限制器来增加平均响度。此将解决响度匹配问题，以使得音乐及电影内容具有相等响度，但有若干缺点。当消费者在安静环境中(可能在安静房间内使用连接至扬声器的移动设备，或使用具有强隔音效果的头戴式耳机或入耳式耳机)播放内容时，电影内容被压缩的强烈程度将与音乐相同，这是不符合要求的。限制器亦在设备CPU或DSP上引入额外工作负载，从而缩短电池寿命。

由Camerer等人在[6]中描述一种不同的方法，其提议将诸如ITU标准BS.1770-2中所描述的响度量测结果编码作为音乐文件中的元数据，并且将每一文件的播放标准化为设备的音量控制所设定的目标水平集合。此方法依靠先前的音乐响度标准化***，诸如SoundCheck(www.apple.com)及ReplayGain(www.replaygain.org)，这些所述***是诸如iPod的一些音乐播放器的可选择的特征。在这些他们的方法中，提倡要求响度标准化预设为开启；然而，并未规定当使用者关闭响度标准化时出现什么情况，或更重要的是，当播放未用响度元数据来编码的内容时出现什么情况。假设所有内容在播放前将由播放设备或由安全的可信赖的散布者(诸如iTunes)进行分析。另外，关于调整内容的总体动态范围来使其适应于倾听环境并未作出规定。

因此，本发明之一的目标是提供统一的方法来解决使以下两种内容的播放响度标准化的问题：电影/视频式内容，其可能具有广泛的动态范围及可能的嵌入式响度元数据；以及音乐或无线电/播客内容，其可能具有极窄的动态范围及强烈的压缩、限制及限幅，可能含有但很可能不含嵌入式响度元数据，由于消费者已经拥有或交换了大量先前音乐内容。

本发明的另一目标是允许按消费者之倾听环境或品味来调整含有动态范围控制元数据的内容的动态范围。

本发明的另一目标是预防有损耗的数据压缩音频解码器(诸如AAC、MP3或杜比数位解码器)中由信号分量变化引起的可能的限幅，这些变化是由数据压缩过程引入。

本发明的另一目标是对音乐录制业提供轻微的激励，以使其放弃对其内容中的更强的动态范围压缩、限制及限幅的追求。

本发明的又一目标是限制设备CPU或DSP上由响度处理或限幅预防所引起的额外工作负载。

发明内容

本发明之一实施例包括一种用于解码比特流以便从该比特流产生音频输出信号的解码器设备，该比特流包含音频数据且选择地包含含有一参考响度值的响度元数据，该解码器设备包含：

音频解码器设备，其被配置为从该音频数据重构音频信号；以及

信号处理器，其被配置为基于该音频信号产生该音频输出信号；

其中该信号处理器包含增益控制设备，该增益控制设备被配置为调整该音频输出信号的水平；

其中该增益控制设备包含参考响度解码器，该参考响度解码器被配置为产生一响度值，其中在该参考响度值存在于该比特流中的情况下，该响度值为该参考响度值；

其中该增益控制设备包含增益计算器，该增益计算器被配置为基于该响度值且基于音量控制值计算增益值，该音量控制值是由允许使用者控制该音量控制值的使用者接口提供；

其中该增益控制设备包含响度处理器，该响度处理器被配置为基于该增益值控制该音频输出信号的响度。

该音频解码器设备可为能够从压缩式比特流的音频数据重构音频信号的任何设备。信号处理器可以是能够在来自音频解码器设备的音频信号被设定至其时产生音频输出信号并且具有如下文所阐述的增益控制设备的任何设备。增益控制设备是经设置来控制音频输出信号的响度的设备。

参考响度解码器被配置为解码比特流中所含的响度元数据。若响度元数据含有参考响度值，则参考响度解码器正是将此参考响度值输出为响度值。

增益计算器是用于计算增益值的设备，该增益值是基于由参考响度解码器输出的响度值及由解码器设备的使用者设定的音量控制值。为了设定音量控制值，可使用任何使用者界面。增益计算器特定而言可为减法器。

响度处理器能够基于由增益计算器提供的增益值来控制音频输出信号的响度水平。响度处理器特定而言可为乘法器。

不同于可携式设备中或消费者电子设备中所使用的传统的压缩式解码器设备(诸如杜比数位或AAC解码器设备)，用可变增益值或解码器目标临界值(对应于全尺度比特流的解码水平)来操作压缩解码器设备，该临界值受控于使用者的音量控制。此允许解码器设备通常在设备的数字音频***的最大全尺度范围以下很好地操作。此操作避免了限幅解码器过冲的可能性，且允许不具有重度动态范围压缩及限制的电影式内容的响度标准化至具有重度压缩及限制的音乐内容的响度标准化，而无需不会如通常所需对电影式内容进行进一步压缩或限制。仅出于响度匹配目的，本发明在不减小内容的动态范围的情况下执行此标准化。

在本发明之一优选实施例中，在参考响度值不存在于比特流中的情况下，响度值为预设响度值。此等特征允许不具有响度元数据的比特流的高质量播放。

在本发明之一优选实施例中，预设响度值被设定为介于-4dB与-10dB之间的值，特定而言，介于-6dB与-8dB之间，该值被称为全尺度振幅。当代音乐的实验研究显示，倾向于进行全尺度播放的音乐内容的响度的观测上限约为-7dB。因此，所主张预设响度值提供用于播放不具有响度元数据的比特流的最佳化模式。

在本发明之一优选实施例中，信号处理器包含动态范围控制设备，该动态范围控制设备被配置为调整音频输出信号的动态范围，

其中该动态范围控制设备包含动态范围控制开关，该动态范围控制开关被配置为从响度元数据导出至少一个动态范围控制值且二者择一地输出这些导出的动态范围控制值中之一者或预设动态范围控制值，

其中该动态范围控制设备包含动态范围计算器，该动态范围处理器被配置为基于由该动态范围控制开关输出的动态范围控制值且基于一压缩控制值计算动态范围值，该压缩控制值是由允许使用者控制该压缩控制值的使用者接口提供；

其中该动态范围控制设备包含动态范围处理器，该动态范围处理器被配置为基于该动态范围值控制该音频输出信号的动态范围。

动态范围控制设备包含动态范围控制开关，该动态范围控制开关被配置为将比特流的响度元数据解码成使得可导出至少一个动态范围控制值。动态范围控制开关通常被配置为使得可导出用于轻度动态范围控制的动态范围控制值以及用于重度动态范围控制的另一动态范围控制值。动态范围控制开关可二者择一地输出此等导出的动态范围控制值中之一或预设动态范围控制值。该动态范围控制开关可受到自动控制，例如根据使用音频输出信号的后续设备，或通过使用者动作来手动控制。预设动态范围控制值可设定为例如0dB。

动态范围控制设备可包含动态范围计算器，该动态范围计算器能够基于由该动态范围控制开关输出的动态范围控制值且基于一压缩控制值计算动态范围值，该压缩控制值是由允许使用者控制该压缩控制值的使用者接口提供。动态范围计算器特定而言可为乘法器。

此外，动态范围处理器是预知的，其能够基于动态范围值控制音频输出信号的动态范围。通过此等特征，可使比特流的播放适应于倾听环境和/或倾听者的品味。

根据本发明的优选实施例，信号处理器包含限制器设备，该限制器设备被配置为限制输出音频信号的振幅，其中该限制器设备包含具有限制器的限制器组件以及被配置为控制该限制器组件的控制组件，其中已处理的音频信号被输入至该限制器组件，该已处理的音频信号是从音频信号通过至少由增益控制设备加以处理而导出，且其中从该限制器组件输出该音频输出信号。

该限制器设备提供用于达成解码器过冲限幅预防目的的限制，提供针对听力损失预防或使用者偏好的音量限制，且在由于倾听环境或使用者品味而需要时提供艺术压缩来允许用峰值限制进行内容的可逆产生。

根据本发明之一优选实施例，控制组件被配置为根据比特流的位速率来控制限制器组件。当位速率降低时，解码器过冲限幅的可能性增加。因此，当根据比特流的位速率来控制限制器组件时，解码器过冲限幅预防得以增强。

根据本发明之一优选实施例，控制组件被配置为根据音频解码器设备的压缩效率来控制限制器组件。产生比特流的音频编码器设备的压缩效率以及在解码比特流的音频解码器设备的同时的压缩效率描述了在编码原始音频数据来产生比特流时，数据质量降低了多少。数据质量降低越多，解码器过冲限幅的可能性增加。因此，当根据音频解码器设备的压缩效率来控制限制器组件时，解码器过冲限幅预防得以增强。

根据本发明之一优选实施例，控制组件被配置为根据真峰值来控制限制器组件，该真峰值在比特流的响度元数据中加以传输且指示由外部编码器转换为比特流的音频源的最大峰值水平。此真峰值的使用允许为音频输出信号的最大可能峰值水平计算更准确的值。

根据本发明之一优选实施例，控制组件被配置为根据增益控制设备的增益值来控制限制器组件。音频输出信号的最大可能峰值水平在此子情况下是由增益控制设备的增益值判定的。若所述值为0dB，则解码器设备按音量控制值的最大设定所要求的以其全尺度限值操作。当该音量控制值减小时，解码器设备将操作以使得全尺度比特流值仅达到由增益控制设备的增益值所设定的最大水平。

根据本发明之一优选实施例，控制组件被配置为根据音量限值来控制限制器组件，该音量限值是由使用者或制造商设定以便预防听力损伤。通过此等特征，可有效地避免听力损伤。

根据本发明之一优选实施例，控制组件被配置为根据艺术限制器参数来控制限制器组件，这些艺术限制器参数是在比特流的响度元数据中加以传输且指示艺术限制器临界值、艺术限制器启动时间(attack time)值和/或艺术限制器解除时间(release time)值。此等特征允许限制器设备的操作受到艺术家或内容创作者的创造性控制。先前所论述的响度元数据中所含的动态范围控制值允许经由使用在典型时间常数为100ms至3秒的情况下作用的压缩增益来使内容的总体动态范围适应于倾听环境。在具有挑战性的倾听环境中，用此等时间常数来压缩音频信号可能不会产生具有足够响度来获得可懂度或享受而不具有令人不快的高峰值水平的信号。亦存在以下可能：传统上仅产生经高度压缩的“压扁的(crushed)”混音的音乐创作者可能需要使用本发明的灵活性来产生“压扁的”混音及具有较少限制及压缩的“未压扁的(uncrushed)”混音两者，以使得消费者在安静环境中或在需要时可听到“未压扁的”版本。

根据本发明之一优选实施例，控制组件被配置为持续地或重复地控制限制器组件。此等特征允许随着时间的流逝对限制器组件的可变控制。

根据本发明的优选实施例，限制器设备被配置为经由旁路设备旁路限制器，就增益及延迟而言，该旁路设备的传递函数类似于限制器的传递函数。通过此等特征，可显著减小信号处理器的工作负载。

本发明之一实施例包括一种***，该***包含解码器及编码器，其中该解码器根据权利要求进行设计。

本发明之一实施例包括一种解码比特流以便从该比特流产生音频输出信号的方法，该比特流包含音频数据且选择地包含含有参考响度值的响度元数据，该方法包含以下步骤：

使用音频解码器设备从该音频数据重构音频信号；以及

使用信号处理器来基于该音频信号产生该音频输出信号；

其中使用该信号处理器所包含的增益控制设备来调整该音频输出信号的响度水平；

其中通过该增益控制设备所包含的参考响度解码器产生响度值，其中在该参考响度值存在于该比特流中的情况下，该响度值为该参考响度值；

其中通过该增益控制设备所包含的增益计算器基于该响度值且基于音量控制值计算增益值，该音量控制值由允许使用者控制该音量控制值的使用者接口提供；

其中通过该增益控制设备所包含的响度处理器基于该增益值控制该音频输出信号的响度水平。

本发明之一实施例包括一种计算机程序，该计算机程序用于在计算机或处理器上运行时执行本文中所要求的方法。

附图说明

随后参考附图来论述本发明的优选实施例，其中：

图1展示出诸如ISO/IEC 14496-3及ETSI TS 101 154所规定的具有响度元数据支持的现有先前技术数据压缩式音频解码器的方块图，该解码器整合于典型移动电话、平板计算机或可携式媒体播放器中；

图2展示出根据本发明的具有数据压缩式音频解码器设备及可选择的音频限制器的解码器之一实施例，该解码器适合整合于典型移动电话、平板计算机或可携式媒体播放器中；

图3展示出AAC-LC立体声解码器中由于重构的信号波形的过冲所引起的可能的额外限幅对比特流位速率的按经验导出的函数；

图4展示出根据本发明的任意的限制器设备之一优选实施例的方块图；以及

图5展示出根据本发明的任意的限制器设备之一优选实施例的方块图，该限制器设备在艺术限制模式下操作。

具体实施方式

作为对理解本发明的操作的帮助，图1中介绍诸如ISO/IEC 14496-3及ETSI TS101 154所规定的现有先前技术具备元数据实现型数据压缩式音频解码器设备21的操作，该解码器设备整合于典型移动电话、平板计算机或可携式媒体播放器中。压缩式音频比特流1可包括压缩式音频本质数据2及响度元数据3两者。解码器设备21包含：音频解码器设备9，被配置为从音频数据2重构音频信号8；以及信号处理器26，被配置为基于音频信号8产生音频输出信号18。响度元数据3包括整个文件、节目、歌曲或专辑的总体整合响度的参考响度值4，在ISO/IEC 14496-3中被称为节目参考水平。此参考响度值4可在比特流1中加以传输，每个文件传输一次，或以足以允许在节目进行的同时加入广播比特流1的重复率加以传输。通过设计为减法器16的增益计算器16将此参考响度值4与由静态目标水平提供器17提供的固定的解码器目标水平值进行比较。增益计算器16的输出是传入的比特流1与所需目标水平之间的响度差。将此响度差应用于设计为乘法器15的响度处理器15，以便调整音频输出信号18的水平以使得获得歌曲或节目的目标长期响度。

动态范围控制开关12允许应用通常在“线路模式”下使用的轻度动态范围控制值6或通常在“RF模式”下使用的重度动态范围控制值7，或根本不应用动态范围控制值。此等值6、7是在比特流1中针对用于多个频带或频区的每一数据压缩式比特流帧加以发送，且被应用于设计为乘法器13的动态范围处理器13，以便改变音频解码器设备9的输出水平以使得根据所需动态范围来压缩音频输出信号18的短期(大约几秒)响度。通常，还调整由静态目标水平提供器17提供的解码器目标水平，该解码器目标水平具有以下选择：针对RF模式的12dB至-20dB及针对线路模式的-31dB。动态范围控制值6和/或7的运算通常被预先计算出，以使得由乘法器16结合乘法器13的运算所产生的任何水平增加受控制，以使得音频输出信号18处的限幅得以预防。

元数据3还包含降混增益值5，该降混增益值用来在需要时将多声道内容(诸如5.1声道环绕节目)的声道混合为立体声或单声道输出。因为本发明可应用于含有任何数目个声道的比特流1，所以未进一步论述此特征。

重要的是，若给定的比特流1中不存在参考响度值4，则将参考响度解码器10所输出的响度值31设定为等于静态目标水平提供器17所输出的解码器目标水平，以使得音频输出信号18中没有增益调整，且解码器设备21作为简单的解码器设备操作，其输出范围等于音频输出信号18的全尺度动态范围。

然后，通常将音频解码器21的输出供应至***音频混合器23，在此音频混合器中将音频输出信号18与使用者接口声音(UI声音)、振铃音或其它音频信号22相结合，以使得产生混合音频信号19。通过音量控制值20控制总音量。音频信号混合器23的操作可包括次级音量控制，该次级音量控制用于调整每一种类型的音频信号的相对水平或根据设备的操作模式来改变音频信号的振幅，这些次级音量控制与理解本发明的操作无关。重要的是，解码器设备21的音频输出信号18通常经缩放以使得全尺度输出信号对应于最大固定点或标称全尺度(通常在-1.0至1.0的范围内)浮点值。在对当代音乐而言很典型的重度压缩的音频数据的情况下，当在标称倾听水平上倾听时，解码器输出信号18将具有接近其全尺度值的峰值。因此，当在安静环境中倾听时，音频输出信号18上的0dB FS(称为音频输出信号的全尺度振幅)全尺度峰值将在***音频混合器23中受到衰减，且对应于倾听者耳朵处的声压水平(SPL)，可能为75dB SPL。

图2描绘用于解码比特流1以便从比特流产生音频输出信号42的解码器设备41，比特流1包含音频数据2且选择地包含含有参考响度值4的响度元数据3，解码器设备41包含：

音频解码器设备9，其被配置为从音频数据2重构音频信号8；以及信号处理器27，其被配置为基于音频信号8产生音频输出信号42；

其中信号处理器27包含增益控制设备10、15、28，其被配置为调整音频输出信号42的水平；

其中增益控制设备10、15、28包含参考响度解码器10，该参考响度解码器10被配置为产生响度值37，其中在参考响度值4存在于比特流1中的情况下，响度值37为参考响度值4；

其中增益控制设备10、15、28包含增益计算器28，该增益计算器被配置为基于响度值37且基于音量控制值20计算增益值33，该音量控制值20由允许使用者控制音量控制值20的使用者接口提供；

其中增益控制设备10、15、28包含响度处理器28，该响度处理器被配置为基于增益值33控制音频输出信号42的响度。

音频解码器设备9可为能够从压缩式比特流1的音频数据2重构音频信号8的任何设备9。信号处理器37可为能够在来自音频解码器设备9的音频信号8被馈送至该信号处理器37时产生音频输出信号42并且具有如下文所阐述的增益控制设备10、15、28的任何设备37。增益控制设备10、15、28是经设置来控制音频输出信号42的响度的设备。

参考响度解码器10被配置为解码比特流1中所含的响度元数据3。若响度元数据3含有参考响度值4，则参考响度解码器10正是将此参考响度值4输出为响度值37。

增益计算器28是用于计算增益值33的设备，该增益值是基于由参考响度解码器10输出的响度值37及由解码器设备41的使用者设定的音量控制值20。为了设定音量控制值20，可使用任何使用者界面。增益计算器28特定而言可为减法器28。

响度处理器15能够基于由增益计算器28提供的增益值33来控制音频输出信号42的响度水平。响度处理器15特定而言可为乘法器15。

不同于可携带式设备中或消费者电子设备中所使用的传统的压缩式解码器设备21(诸如杜比数位或AAC解码器设备)，用可变增益值33或解码器目标临界值33(对应于全尺度比特流的解码水平)来操作压缩解码器设备41，该值受控于使用者的音量控制。此允许解码器设备41通常在设备的数字音频***的最大全尺度范围以下很好地操作。此操作避免了限幅解码器过冲的可能性，且允许不具有重度动态范围压缩及限制的电影式内容的响度标准化至具有重度压缩及限制的音乐内容的响度标准化，而无需如通常所需对电影式内容进行进一步压缩或限制。仅出于响度匹配目的，本发明在不减小内容的动态范围的情况下执行此标准化。

在本发明之一优选实施例中，在参考响度值4不存在于比特流1中的情况下，响度值37为预设响度值37。此等特征允许不具有响度元数据3的比特流1的高质量播放。

在本发明之一优选实施例中，预设响度值37设定为介于-4dB与-10dB之间的值，特定而言，介于-6dB与-8dB之间，该值被称为全尺度振幅。当代音乐的实验研究显示，倾向于进行全尺度播放的音乐内容的响度的观测上限约为-7dB。因此，所主张的预设响度值37提供用于播放不具有适当的响度元数据3的比特流的最佳化模式。

在本发明之一优选实施例中，信号处理器27包含动态范围控制设备12、13、14，该动态范围控制设备被配置为调整音频输出信号42的动态范围，

其中该动态范围控制设备12、13、14包含动态范围控制开关12，该动态范围控制开关被配置为从响度元数据3导出至少一个动态范围控制值6、7且二者择一地输出导出的动态范围控制值6、7中之一或预设动态范围控制值43，

其中动态范围控制设备12、13、14包含动态范围计算器14，该动态范围计算器被配置为基于由动态范围控制开关12输出的动态范围控制值6、7、43且基于压缩控制值25计算动态范围值44，该压缩控制值25由允许使用者控制压缩控制值25的使用者接口提供；

其中动态范围控制设备12、13、14包含动态范围处理器13，该动态范围处理器被配置为基于动态范围值44控制音频输出信号42的动态范围。

动态范围控制设备12、13、14包含动态范围控制开关12，该动态范围控制开关被配置为将比特流1的响度元数据3解码使得可导出至少一个动态范围控制值6、7。动态范围控制开关12通常被配置成使得可导出用于轻度动态范围控制的动态范围控制值6以及用于重度动态范围控制的另一动态范围控制值7。动态范围控制开关12可二者择一地输出此等导出的动态范围控制值6、7中之一或预设动态范围控制值43。动态范围控制开关12可受到自动控制，例如根据使用音频输出信号42的后续设备，或通过使用者动作来手动控制。预设动态范围控制值可设定为例如0dB。

动态范围控制设备12、13、14可包含动态范围计算器14，该动态范围计算器能够基于由动态范围控制开关12输出的动态范围控制值6、7、43且基于压缩控制值25计算动态范围值44，该压缩控制值25由允许使用者控制压缩控制值25的使用者接口提供。动态范围计算器14特定而言可为乘法器14。

此外，动态范围处理器13是预知的，其能够基于动态范围值44控制音频输出信号42的动态范围。通过此等特征，可使比特流1的播放适应于倾听环境和/或倾听者的品味。

图2展示出改良式音频解码器41中所含的本发明之一优选实施例之操作。传入的比特流1由音频本质数据2及可选择的响度元数据3组成，该响度元数据3含有节目参考水平4、降混增益5、轻度DRC值6及重度DRC值7的前述标准元数据值。元数据3还可包括在可选择的实施例中使用的艺术限制器参数32及真峰值36。

与先前在图1中所描述的操作相反，将参考响度解码器10所输出的响度值37与音量控制的音量控制值20进行比较，以使得使用乘法器15将解码器设备41的音频输出信号42调整至所需倾听水平。然后将该音频输出信号41与***音频混合器23的经响度调整的辅助音频信号24相加来形成混合音频信号29，该混合音频信号29被发送至设备中的后续音频后处理功能，或直接发送至数字模拟转换器(DAC)且自DAC发送至扬声器，或发送至设备的数字输出端(诸如当设备经由HDMI、MHL、S/PDIF、AES、TosLink、AirPlay或其它有线或无线数字接口标准连接至其它设备时，常常发生此情形)。

重要的是，音频输出信号42在本发明中通常并不以全尺度值来操作。音频输出信号42之0dB FS现在对应于在解码器设备41的情况下有可能的最大声压水平，且根据所连接的耳机、扬声器或其它换能器，在典型耳机的情况下可能对应于110dB SPL至120dB SPL的范围。

若给定的比特流1中不存在值4，则将响度值37设定为-7dB FS的水平。当代音乐的实验研究(诸如[5]中)显示，此响度值是倾向于进行全尺度播放的音乐内容的响度的观测上限。此对音乐创作者及散布者提供轻微的激励，以使其制作其内容的不具有重度限制、压缩或限幅的版本以用于散布至利用本发明的设备或散布生态***，因为其内容随后将与响度元数据3一起加以散布，响度元数据3将允许其内容被重现为大声的或比内容的传统“压扁”版本更大声。

如同图1的先前技术解码器中一样，动态范围控制开关12同样允许选择不进行动态范围修改，或应用轻度动态范围控制值6或重度动态范围控制值7之一。例如，在移动电话中，当电话经由HDMI连接至外部音频***时可应用轻度动态范围控制值6，且当使用头戴式耳机插孔时可应用重度动态范围控制值7。然后将此等动态范围控制值(或静态预设动态范围控制值43，若不应用动态范围控制，则可将其设定为零)馈送至乘法器14，乘法器14根据新的使用者压缩控制值25来缩放动态范围控制值，使用者压缩控制值25在0至1的范围内变化。压缩控制值25允许缩放动态范围控制值6、7、43，以使得可将可变量的动态范围压缩应用于音频输出信号42而不根据倾听水平。压缩控制值25的值可自解码器设备41中的使用者接口控制组件获得，自对应于设备41的模式或其位置或组态的预设值获得，自解码器设备41所获得的周围噪音的估计获得，自总音量设定或输出水平的按经验获得的函数获得，或经由其它手段获得。然后将含有经缩放的动态范围控制值的乘法器14的输出44以通常方式应用于乘法器13，其中乘法器13修改音频解码器设备9的音频信号8的响度以便由乘法器15加以进一步修改。由乘法器15输出(或在其它实施例中由乘法器13输出)的已处理的音频信号35被连接至下文所阐述的可选择的实施例的限制器设备30，或直接用作音频输出信号42。

本领域技术人员将理解，在***音频混合器23或减法器28中可能需要对音量控制值20加以偏移或缩放，以使得混合音频信号29的音量在响度方面与经响度调整的辅助音频信号24相符。

在用来匹配各种类型的内容的响度的先前方法中(诸如[5]中)，在核心音频解码器之后且在应用了动态范围控制元数据之后于信号链中使用限制器，以便在不进行限幅的情况下限制信号峰值且因此增加信号的平均水平。与简单地在临界水平处实现数学饱和的“硬”限制器或限幅器相反，此限制器应以如下方式操作：通过在信号波形接近或超过临界值时改变信号增益来以“软”方式限制信号峰值，从而避免将可听见的假影引入至信号中。此类软限制器的计算成本很高，可能占解码器设备所引起的工作负载的10％至30％。

相反，本发明不需要用于控制音频输出信号42的峰值与平均值之比来达成响度匹配目的限制器，而是可包括可选择的限制器设备30，其用于达成以下目的：进行保护以对抗限幅、进行限制来避免听力损伤，以及进行限制来获得艺术效果或压缩增加。特定解码器设备41可配备有限制器设备30来达成此等目的中的任一个或全部，其具有变化的实现成本，或可直接省略限制器设备30。下文阐述此等情况中之每一个。

考虑到限幅保护，必须考虑信号的两种子情况。一些比特流1可能不含任何元数据3，诸如已经存在于使用者的设备上的旧有音乐内容，其未经分析来得到响度或动态范围。在此子情况下，乘法器13不在使用中，且乘法器15在最高音量控制设定下提供最大均一增益。因此，限幅的唯一可能是信号波形中数据压缩所致的过冲的可能性。在普通信号的情况下可能的可能过冲量可针对压缩编码解码器在可信区间内按经验判定为每声道每样本的位数或压缩比的类似量度的函数。针对AAC LC立体声比特流的典型按经验判定值限幅预测函数56展示于图3中。本领域技术人员应理解，可使用其它方法(经验法、分析法或迭代法)来判定或预测可能存在的限幅的量。

根据图4及图5所示的本发明的优选实施例，信号处理器27包含限制器设备30，该限制器设备30被配置为限制输出音频信号42的振幅，其中限制器设备30包含具有限制器51的限制器组件62以及被配置为控制限制器组件62的控制组件63，其中已处理的音频信号35被输入至限制器组件62，该已处理的音频信号是从音频信号8通过至少由增益控制设备10、15、28加以处理而导出，且其中自限制器组件62输出音频输出信号42。

限制器设备30提供用于达成解码器过冲限幅预防目的的限制，提供针对听力损失预防或使用者偏好的音量限制，且在由于倾听环境或使用者品味而需要时提供艺术压缩来允许用峰值限制进行内容的可逆产生。

限制器51受控于内部信号或所供应的峰值水平或艺术元数据，该艺术元数据提供用于达成解码器过冲限幅预防目的的限制，提供针对听力损失预防或使用者偏好的音量限制，且在由于倾听环境或使用者品味而需要时提供艺术压缩来允许用峰值限制进行内容的可逆产生。

限制器51理想地为有效的非限幅式预见性限制器，诸如常用于数字音频母带后期处理且被本领域技术人员已知的。例如，其可为诸如[8]中所描述之实施方式。或者，若限幅保护并非所需特征，而音量限制是所需特征，则可替代具有由58的输出所设定的临界值的硬限幅器，且可移除或缩短补偿缓冲器53。

根据图4所示的本发明的优选实施例，控制组件63被配置为根据比特流1的位速率来控制限制器组件62。当位速率降低时，解码器过冲限幅的可能性增加。因此，当根据比特流1的位速率来控制限制器组件62时，解码器过冲限幅预防得以增强。

在此可选择的特征的优选实施例中，由音频解码器设备9解码的比特流1的位速率值34被输入至限幅预测设备54中，限幅预测设备54包含限幅预测函数56，该函数是在逻辑叙述或逻辑栅中实现为查找表，或通过将被本领域技术人员所已知的实现至少一个变量的函数的其它技术来实现。经由类似地实现的最小函数59将函数56的输出馈送至比较器55，该最小函数选择其两个输入中较小者。此处认为下文所描述的音量限制特征不在使用中，且开关58输出对应于0dB FS(全尺度)的值，因此最小函数59总是由限幅预测函数56的输出来控制。以此方式，比较器55将限幅保护函数56的输出与已处理的音频信号35的最大可能峰值水平进行比较，来判定是否有必要经由限制器开关52接合限制器51来进行保护以对抗音频输出信号42处的限幅。

根据本发明的优选实施例，控制组件被配置为根据音频解码器设备9的压缩效率来控制限制器组件62。产生比特流的音频编码器设备的压缩效率以及解码比特流1的音频解码器设备9的同时的压缩效率描述了在编码原始音频数据来产生比特流1时，数据质量降低了多少。数据质量降低越多，解码器过冲限幅的可能性增加。因此，当根据音频解码器设备9的压缩效率来控制限制器组件62时，解码器过冲限幅预防得以增强。

在此可选择的特征的优选实施例中，音频解码器设备9的压缩效率被输入至限幅预测设备54中，限幅预测设备54包含限幅预测函数56，该函数在逻辑叙述或逻辑栅中实现为查找表，或通过将被本领域技术人员所已知的实现至少一个变量的函数的其它技术来实现。经由类似地实现的最小函数59将函数56的输出馈送至比较器55，该最小函数选择其两个输入中较小者。此处认为下文所描述的音量限制特征不在使用中，且开关58输出对应于0dB FS(全尺度)的值，因此最小函数59总是由限幅预测函数56的输出来控制。以此方式，比较器55将限幅保护函数56的输出与已处理的音频信号35的最大可能峰值水平进行比较，来判定是否有必要经由限制器开关52接合限制器51来进行保护以对抗音频输出信号42处的限幅。

在已处理的核心解码器输出信号35的最大水平小于由限幅预测函数56预测的水平的情况下，不存在由于解码器过冲所引起的限幅的可能性(在函数54的可信区间或误差界内)，且开关52选择补偿缓冲器53的输出。该缓冲器仅为用来与限制器51的处理延迟相匹配的延迟，且将引入与限制器51的显著工作负载相比而言仅为可忽略的计算工作负载。

根据本发明的优选实施例，控制组件63被配置为根据增益控制设备10、15、28的增益值33来控制限制器组件62。音频输出信号42的最大可能峰值水平在此子情况下由增益控制设备10、15、28的增益值33判定。若该值为0dB，则解码器设备41按音量控制值20的最大设定所要求的以其全尺度限值操作。当该音量控制值20减小时，解码器设备41将操作以使得全尺度比特流值仅达到由10、15、28的增益值33所设定的最大水平。

在不存在元数据3的此子情况下，开关60输出0dB FS值，因为这是比特流1的传入音频数据2中可能的最大值。

根据本发明的优选实施例，控制组件63被配置为根据真峰值36来控制限制器组件62，该真峰值是在比特流1的响度元数据3中加以传输且指示由外部编码器转换为比特流1之音频源的最大峰值水平。此真峰值36的使用允许为音频输出信号42的最大可能峰值水平计算更准确的值。

在比特流含有响度元数据3的情况下，可规定元数据3还包括由ITU标准BS.1770-3所规定的真峰值量测结果。在此子情况下，开关60选择响度元数据3中所含的真峰值36，而不是0dB FS常数。通过加法器61计算增益调整33与真峰值36的总和，该总和指示限制器30的信号输入35的最大峰值振幅，且然后通过比较器55将该总和与限幅函数56之输出进行比较。此真峰值元数据值36的使用仅允许为音频输出信号41的最大可能峰值水平计算更准确的值。

根据本发明的优选实施例，控制组件63被配置为根据音量限值57来控制限制器组件62，该音量限值是由使用者或制造商设定以便预防听力损伤。通过此等特征，可有效地避免听力损伤。

在进行限制来避免听力损伤的情况下，设备使用者或制造商可使用音量限制信号来设定最大峰值水平57，输出必须被限于该最大峰值水平。当开关58被扳转来启动此音量限制特征时，最小函数59选择所需的两个输出水平中的较低者，其接合限制器51以用于限制输出(由于限幅预防)或用于音量限制。开关58的输出亦被输入至限制器51，以便将其临界值设定为适当水平。

根据图5中所示的本发明的优选实施例，控制组件63被配置为根据艺术限制器参数32来控制限制器组件62，这些艺术限制器参数是在比特流1的响度元数据3中加以传输且指示艺术限制器临界值74a、艺术限制器启动时间值74b和/或艺术限制器解除时间值74c。此等特征允许限制器设备30的操作受到艺术家或内容创作者的创造性控制。先前所论述的响度元数据3中所含的动态范围控制值6、7允许经由使用在典型时间常数为100ms至3秒的情况下作用的压缩增益来使内容的总体动态范围适应于倾听环境。在具有挑战性的倾听环境中，用此等时间常数来压缩音频信号可能不会产生具有足够响度来获得可懂度或享受而不具有令人不快的高峰值水平的信号。亦存在以下可能：传统上仅产生经高度压缩之“压扁的”混音的音乐创作者可能需要使用本发明之灵活性来产生“压扁的」”混音及具有较少限制及压缩之“未压扁的”混音，以使得消费者在安静环境中或在需要时可听到“未压扁的”版本。为解决这两个担忧，限制器30可经重新组配来在艺术限制器模式下操作，如图5所示。

在此模式下，响度元数据3包括针对内容的每一音频帧所发送的艺术限制器参数32，其在图5中以电总线标记法展示。32中含有针对轻度模式及重度模式的限制器启动时间、解除时间及临界值，其由开关12选择且由对应联动开关73选择来输出总线74。总线74含有：所选的艺术限制器临界值74a，通过加法器71将其与解码器增益调整33相加；以及所需的启动时间74b及解除时间74c，其被直接供应至限制器51。最小函数72是用来选择音量限值57(或在未使用音量限值的情况下，0dB FS)或加法器71的输出。以此方式，限制器51通常以受控于值74a的临界值操作，直至音量控制20增加至音量限值已达到并且限制该限制器临界值之最大水平的点。在此模式下，限制器51持续地操作，且开关52总是在所示位置中。在混音、母带后期处理或其它创造性操作或散布操作期间，可通过监视以下各者的输出来达成此等参数的艺术用途：设备、音频软件外挂程序，或含有本发明的副本的其它装置。

根据本发明的优选实施例，不可能在限制器设备30之后应用补偿增益(makeup-gain)来人工地增加其响度，因为此操作将移除上文所提及的轻微激励。

根据本发明的优选实施例，控制组件63被配置为持续地或重复地控制限制器组件62。此等特征允许随着时间的流逝对限制器组件62的可变控制。

根据本发明的优选实施例，限制器设备30被配置为经由旁路设备53旁路限制器51，就增益及延迟而言，该旁路设备的传递函数类似于限制器51的传递函数。通过此等特征，可显著减小信号处理器27之工作负载。

本领域技术人员将理解，此过程可在软件中实现为一系列计算机指令或在硬件组件中实现。此处所描述的操作通常是通过计算机CPU或数字信号处理器作为软件指令来执行，且图中所示的缓存器及操作可通过对应的计算机指令来实现。然而，此并不排除等效硬件设计中使用硬件组件的实施例。本领域技术人员将理解，值4、6、7、20、33、36、57、74a及其它值通常将在对数尺度的域中表达，这是标准做法且是在所参考的标准中规定的。此外，本发明的操作在此处是以循序的基本方式加以展示。本领域技术人员将理解，这些操作在特定硬件或软件平台上实现时可加以组合、变换或预先计算以便使效率最佳化。本领域技术人员亦将理解，此等操作可在时域数据上执行，或可在频域中的一个或多个频带中执行。

在改良式解码器41设备的构造中，本领域技术人员将认识到，将有必要使用数值表示、缓存器长度或其它常规手段来在信号路径中以及本发明的别处避免内部饱和、限幅或溢位，该信号路径为自音频解码器9至乘法器13及15，及可选择的的限制器设备30至音频输出信号42。

应进一步了解，虽然本发明提供了在诸如AAC、MP3或杜比数位的有损耗音频数据压缩编码解码器中控制由解码器过冲所产生的限幅的特定优点，但本发明亦可用于具有无损耗音频编码解码器或具有根本未由音频编码解码器加以压缩的音频信号的音频***中。

本发明可提供：

1.一种用于音频响度标准化的***，其提供输出，该输出的全尺度值意欲对应于合并设备的最大峰值输出电压或声压水平，其中该输出的响度水平或平均功率直接或间接受控于该设备的使用者音量控制，以使得具有音频响度元数据的内容及不具有音频响度元数据但已标准化为其全尺度值的内容两者几乎在相同的音频响度水平得以重现。

2.一种***，其中不具有音频响度元数据的内容的长期平均功率或感知响度是通过固定值来估计，该固定值通过对内容的经验分析或统计分析来判定的。

3.一种***，其中该估计经偏压来以比具有适当准备的元数据的相同内容略低的响度来重现不具有元数据的典型内容，从而对使用该元数据提供激励。

4.一种用于数据压缩式音频解码的***，其含有输出峰值限制器，其中对峰值限制的需要通过压缩音频解码器的目标水平以及音频编码解码器压缩效率或位速率的计算出的函数来判定，该峰值限制是用于达成预防对解码器过冲的限幅的目的。

5.一种用于数据压缩式音频解码的***，其含有输出峰值限制器，其中对峰值限制的需要通过由压缩音频解码器的目标水平、音频编码解码器压缩效率或位速率的计算出的函数以及在压缩比特流中传输的指示音频节目的最大峰值水平的元数据值来判定，该峰值限制是用于达成预防对解码器过冲的限幅的目的。

6.一种用于数据压缩式音频解码的***，其含有输出峰值限制器，其中对峰值限制的需要是通过压缩音频解码器的目标水平来判定，该峰值限制是用于达成限制设备的最大峰值音频输出的目的。

7.一种用于数据压缩式音频解码或音频处理的***，其含有输出峰值限制器，其中对峰值限制的需要是通过应用于音频信号的缩放增益的值来判定，该峰值限制是用于达成限制设备的最大峰值音频输出的目的。

8.一种用于数据压缩式音频解码或音频处理的***，其含有输出峰值限制器，其中对峰值限制的需要通过应用于音频信号的缩放增益的值以及在压缩式比特流中传输的指示音频节目的最大峰值水平的元数据值来判定，该峰值限制是用于达成限制设备的最大峰值音频输出的目的。

9.一种***，其中在不需要限制时，用具有类似增益及延迟的函数替换该限制器。

10.一种用于数据压缩式音频解码或音频处理的***，其含有输出峰值限制器，其中峰值限制器临界值是由在压缩式比特流中传输的元数据值来控制或在周期性基础上加以控制。

11.一种用于音频响度标准化的对应的方法或非暂时性储存器，其提供输出，该输出的全尺度值倾向对应于合并设备的最大峰值输出电压或声压水平，其中该输出的响度水平或平均功率是直接或间接受控于该设备的使用者音量控制，以使得具有音频响度元数据的内容及不具有音频响度元数据但已标准化为其全尺度值的内容两者几乎在相同的音频响度水平得以重现。

12.一种用于解码比特流(1)以从该比特流产生音频输出信号(42)的解码器设备，该比特流(1)包含音频数据(2)且选择地包含含有参考响度值(4)的响度元数据(3)，该解码器设备(41)包含：

音频解码器设备(9)，被配置为从该音频数据(2)重构音频信号(8)；以及

信号处理器(27)，被配置为基于该音频信号(8)产生该音频输出信号(42)，

其中，该信号处理器(27)包含增益控制设备(10，15，28)，该增益控制设备被配置为调整该音频输出信号(42)的响度水平，

其中，该增益控制设备(10，15，28)包含参考响度解码器(10)，该参考响度解码器被配置为产生响度值(37)，其中，在该参考响度值(4)存在于该比特流(1)中的情况下，该响度值(37)是该参考响度值(4)，

其中，该增益控制设备(10，15，28)包含增益计算器(28)，该增益计算器被配置为基于该响度值(37)且基于音量控制值(20)计算增益值(33)，该音量控制值由允许使用者控制该音量控制值(20)的使用者接口提供，

其中，该增益控制设备(10，15，28)包含响度处理器(15)，该响度处理器被配置为基于该增益值(33)控制该音频输出信号(42)的该响度水平。

13.根据前述解码器设备，其中，在该参考响度值(4)不存在于该比特流(1)中的情况下，该响度值(33)为预设响度值。

14.根据前述解码器设备，其中，该预设响度值被设定为介于-4dB与-10dB之间的值，特定而言，介于-6dB与-8dB之间，该值被称为全尺度振幅。

15.根据前述解码器设备，其中，该信号处理器(27)包含动态范围控制设备(12，13，14)，该动态范围控制设备被配置为调整该音频输出信号(42)的动态范围，

其中，该动态范围控制设备(12，13，14)包含动态范围控制开关(12)，该动态范围控制开关被配置为从该响度元数据(3)导出至少一个动态范围控制值(6，7)且二者择一地输出所导出的动态范围控制值(6，7)中的一个或预设动态范围控制值(43)，

其中，该动态范围控制设备(12，13，14)包含动态范围计算器(14)，该动态范围计算器被配置为基于由该动态范围控制开关(12)输出的该动态范围控制值(6，7，43)且基于压缩控制值(25)计算动态范围值(44)，该压缩控制值(25)是由允许使用者控制该压缩控制值的使用者接口提供，

其中，该动态范围控制设备(12，13，14)包含动态范围处理器(13)，该动态范围处理器被配置为基于该动态范围值(44)控制该音频输出信号(42)的该动态范围。

16.根据前述解码器设备，其中，该信号处理器(27)包含限制器设备(30)，该限制器设备被配置为限制该音频输出信号(42)的振幅，其中，该限制器设备(30)包含具有限制器(51)的限制器组件(62)以及被配置为控制该限制器组件(62)的控制组件(63)，其中，已处理的音频信号(35)被输入至该限制器组件(62)，该已处理的音频信号从该音频信号(8)通过至少由该增益控制设备(10，15，28)加以处理而导出，并且其中，从该限制器组件(62)输出该音频输出信号(42)。

17.根据前述解码器设备，其中，该控制组件(63)被配置为根据该比特流(1)的位速率来控制该限制器组件(62)。

18.根据项16或17所述的解码器设备，其中，该控制组件(63)被配置为根据该音频解码器设备(9)的压缩效率来控制该限制器组件(62)。

19.根据项16至18中的一项所述的解码器设备，其中，该控制组件(63)被配置为根据真峰值(36)来控制该限制器组件(62)，该真峰值是在该比特流(1)的该响度元数据(3)中加以传输且指示由外部编码器转换为该比特流(1)的音频源的最大峰值水平。

20.根据项16至19中的一项所述的解码器设备，其中，该控制组件(63)被配置为根据该增益控制设备(10，15，28)的该增益值(33)来控制该限制器组件(62)。

21.根据项16至20中的一项所述的解码器设备，其中，该控制组件(63)被配置为根据音量限值(57)来控制该限制器组件(62)，该音量限值是由该使用者或制造商设定以预防听力损伤。

22.根据项16至21中的一项所述的解码器设备，其中，该控制组件(63)被配置为根据艺术限制器参数(32)来控制该限制器组件(62)，该艺术限制器参数是在该比特流(1)的该响度元数据(3)中加以传输且指示艺术限制器临界值(74a)、艺术限制器启动时间值(74b)和/或艺术限制器解除时间值(74c)。

23.根据项16至22中的一项所述的解码器设备，其中，该控制组件(63)被配置为持续地或重复地控制该限制器组件(62)。

24.根据项16至23中的一项所述的解码器设备，其中，该限制器设备(30)被配置为经由旁路设备(53)旁路该限制器(51)，就增益及延迟而言，该旁路设备的传递函数类似于该限制器(51)的传递函数。

25.一种***，其包含解码器设备(41)及编码器，其中，该解码器设备(41)是根据权利要求1至13中的一项设计的。

26.一种解码比特流(1)以从该比特流产生音频输出信号(42)的方法，该比特流(1)包含音频数据(2)且选择地包含含有参考响度值(4)的响度元数据(3)，该方法包含以下步骤：

使用音频解码器设备(9)从该音频数据(2)重构音频信号(8)；以及

使用信号处理器(27)基于该音频信号(8)产生该音频输出信号(42)，

其中，使用该信号处理器(27)所包含的增益控制设备(10，15，28)来调整该音频输出信号(42)的响度水平，

其中，通过该增益控制设备(10，15，28)所包含的参考响度解码器(10)产生响度值(37)，其中，在该参考响度值(4)存在于该比特流中的情况下，该响度值(37)为该参考响度值(4)，

其中，通过该增益控制设备(10，15，28)所包含的增益计算器(28)基于该响度值(37)且基于音量控制值(20)计算增益值(33)，该音量控制值(20)是由允许使用者控制该音量控制值的使用者接口提供，

其中，通过该增益控制设备(10，15，28)所包含的响度处理器(15)基于该增益值(33)来控制该音频输出信号(42)的该响度水平。

27.一种计算机程序，当在计算机或处理器上运行时，该计算机程序用于执行项26所述的方法。

虽然已就装置的情境来描述一些方面，但显然这些方面亦表示对应的方法的描述，其中方块或设备对应于方法步骤或方法步骤的特征。类似地，就方法步骤的情境所描述的方面亦表示对应的方块或对应的装置的项目或特征的描述。这些方法步骤中的一些或全部可通过(或使用)例如为微处理器、可规划计算机或电子电路的硬件装置来执行。在一些实施例中，最重要的方法步骤中的一个或多个可通过此装置来执行。

根据特定的实施方式要求，本发明的实施例可在硬件或软件中实现。可使用储存有电子可读控制信号的非暂时性储存媒体来执行实施方式，非暂时性储存媒体诸如数字储存媒体，例如软盘、DVD、蓝光盘、CD、ROM、PROM及EPROM、EEPROM或闪存，这些电子可读控制信号与可规划计算机***合作(或能够与可规划计算机***合作)以使得各别方法得以执行。因此，数字储存媒体可为计算机可读的。

根据本发明的一些实施例包含一种具有电子可读控制信号的数据载体，这些电子可读控制信号能够与可规划计算机***合作以使得本文中所描述的方法中的之一得以执行。

一般而言，本发明的实施例可实现为一种具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码可操作来执行这些方法中的之一。该程序代码可例如储存于机器可读载体上。

其它实施例包含用于执行本文中所描述的方法中的一个的计算机程序，其储存于机器可读载体上。

换言之，本发明的方法的一各实施例因此是一种具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码用于执行本文中所描述的方法中的一个。

本发明之方法的另一实施例因此是一种数据载体(或数字储存媒体或计算机可读媒体)，其包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字储存媒体或记录媒体通常为有形的和/或非暂时性的。

本发明之方法的另一实施例因此是一种数据流或一种信号序列，其表示用于执行本文中所描述的方法中的一个的计算机程序。该数据流或该信号序列可例如被配置为经由数据通讯连接(例如经由因特网)加以传递。

另一实施例包含一种处理构件，例如计算机或可规划逻辑设备，其被配置为执行或适于执行本文中所描述的方法中的一个。

另一实施例包含一种计算机，该计算机上安装有用于执行本文中所描述的方法中的一个的计算机程序。

根据本发明的另一实施例包含一种装置或一种***，其被配置为将用于执行本文中所描述的方法中的一个的计算机程序传递(例如，电子地或光学地)至接收器。该接收器可例如为计算机、移动设备、内存设备或类似物。该装置或***可例如包含用于将计算机程序传递至接收器之文件服务器。

在一些实施例中，可规划的逻辑设备(例如场可规划门阵列)可用来执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中，场可规划门阵列可与微处理器合作以便执行本文中所描述的方法中的一个。一般而言，优选地通过任何硬件装置来执行这些方法。

上述实施例仅例示出本发明的原理。应理解，本文中所描述的配置及细节的修改及变化对本领域技术人员而言将显而易见。因此，倾向于仅受权利要求的范围的限制，而不受本文中经由对实施例的描述及阐释所呈现的特定细节限制。

符号说明

1 比特流

2 音频数据

3 响度元数据

4 参考响度值

5 降混增益值

6 轻度动态范围控制值

7 重度动态范围控制值

8 音频信号

9 音频解码器设备

10 参考响度解码器

11 降混增益解码器

12 动态范围控制开关

13 动态范围处理器

14 动态范围计算器

15 响度处理器

16 增益计算器

17 静态目标水平提供器

18 音频输出信号

19 混合音频信号

20 音量控制值

21 解码器设备

22 辅助音频信号

23 音频信号混合器

24 经响度调整的辅助音频信号

25 压缩控制值

26 信号处理器

27 信号处理器

28 增益计算器

29 混合音频信号

30 限制器设备

31 响度值

32 艺术限制器参数

33 增益值

34 位速率值

35 已处理的音频信号

36 真峰值

37 响度值

41 解码器设备

42 音频输出信号

43 预设动态范围控制值

44 动态范围值

51 限制器

52 限制器开关

53 旁路设备

54 限幅预测设备

55 比较器

56 限幅预测函数

57 音量限值

58 音量限制开关

59 最小值寻找器

60 真峰值开关

61 组合器

62 限制器组件

63 控制组件

71 组合器

72 最小值寻找器

73 动态范围控制开关

74 动态范围控制开关的输出数据

70a 艺术限制器临界值

70b 艺术限制器启动时间值

70c 艺术限制器解除时间值。

参考文献

[1]International Organization for Standardization and InternationalElectrotechnical Commission,ISO/IEC 14496-3Information technology–Coding ofaudio-visual objects–部分3:Audio,www.iso.org.

[2]European Telecommunications Standards Institute,ETSI TS 101154:Digital Video Broadcasting(DVB)；Specification for the use of Video and AudioCoding in Broadcasting Applications based on the MPEG-2transport stream,www.etsi.org.

[3]Advanced Television Systems Committee,Inc.,Audio CompressionStandard A/52,www.atsc.org.

[4]International Telecommunications Union,Recommendation ITU-RBS.1770-3:Algorithms to measure audio programme loudness and true-peak audiolevel,www.itu.int.

[5]Martin Wolters,Harald Mundt,and Jeffrey Riedmiller,“LoudnessNormalization In The Age Of Portable Media Players”,论文8044,AudioEngineering Society 128th Convention,www.aes.org

[6]Florian Camerer,et al,“Loudness Normalization:The Future of File-Based Playback,”Music Loudness Alliance,www.music-loudness.com.

[7]Dolby Laboratories,Inc.,Dolby Digital Professional EncodingGuidelines,www.dolby.com.

[8]Perttu Hamalainen,“Smoothing Of The Control Signal Without ClippedOutput In Digital Peak Limiters”,Proc.of the 5th International Conference onDigital Audio Effects,2002年9月26-28日,德国,汉堡.

Claims

1.一种用于解码比特流(1)以从该比特流产生音频输出信号(42)的解码器设备，该比特流(1)包含音频数据(2)且选择地包含含有参考响度值(4)的响度元数据(3)，该解码器设备(41)包含：

其中，该增益控制设备(10，15，28)包含增益计算器(28)，该增益计算器被配置为基于该响度值(37)且基于音量控制值(20)计算增益值(33)，该音量控制值由允许使用者控制该音量控制值(20)的使用者接口提供，其中，该增益计算器(28)为减法器，

2.根据权利要求1所述的解码器设备，其中，在该参考响度值(4)不存在于该比特流(1)中的情况下，该响度值(37)为预设响度值。

3.根据权利要求2所述的解码器设备，其中，该预设响度值被设定为介于-4dB与-10dB之间的值，该值被称为全尺度振幅。

4.根据权利要求1所述的解码器设备，其中，该信号处理器(27)包含动态范围控制设备(12，13，14)，该动态范围控制设备被配置为调整该音频输出信号(42)的动态范围，

其中，该动态范围控制设备(12，13，14)包含动态范围控制开关(12)，该动态范围控制开关被配置为从该响度元数据(3)导出一个或多个动态范围控制值(6，7)且输出从该响度元数据(3)所导出的该一个或多个动态范围控制值(6，7)中的一个或预设动态范围控制值(43)，

5.根据权利要求1所述的解码器设备，其中，该信号处理器(27)包含限制器设备(30)，该限制器设备被配置为限制该音频输出信号(42)的振幅，其中，该限制器设备(30)包含具有限制器(51)的限制器组件(62)以及被配置为控制该限制器组件(62)的控制组件(63)，其中，已处理的音频信号(35)被输入至该限制器组件(62)，该已处理的音频信号从该音频信号(8)通过至少由该增益控制设备(10，15，28)加以处理而导出，并且其中，从该限制器组件(62)输出该音频输出信号(42)。

6.根据权利要求5所述的解码器设备，其中，该控制组件(63)被配置为根据该比特流(1)的位速率来控制该限制器组件(62)。

7.根据权利要求5所述的解码器设备，其中，该控制组件(63)被配置为根据该音频解码器设备(9)的压缩效率来控制该限制器组件(62)。

8.根据权利要求5所述的解码器设备，其中，该控制组件(63)被配置为根据真峰值(36)来控制该限制器组件(62)，该真峰值是在该比特流(1)的该响度元数据(3)中加以传输且指示由外部编码器转换为该比特流(1)的音频源的最大峰值水平。

9.根据权利要求5所述的解码器设备，其中，该控制组件(63)被配置为根据该增益控制设备(10，15，28)的该增益值(33)来控制该限制器组件(62)。

10.根据权利要求5所述的解码器设备，其中，该控制组件(63)被配置为根据音量限值(57)来控制该限制器组件(62)，该音量限值是由该使用者或制造商设定以预防听力损伤。

11.一种解码比特流(1)以从该比特流产生音频输出信号(42)的方法，该比特流(1)包含音频数据(2)且选择地包含含有参考响度值(4)的响度元数据(3)，该方法包含以下步骤：

其中，通过该增益控制设备(10，15，28)所包含的增益计算器(28)基于该响度值(37)且基于音量控制值(20)计算增益值(33)，该音量控制值(20)是由允许使用者控制该音量控制值的使用者接口提供，其中，该增益计算器(28)为减法器，

12.一种机器可读存介质，存储有计算机程序，当在计算机或处理器上运行时，该计算机程序用于执行权利要求11所述的方法。