CN101855901A - 用于压缩数字电视的音频处理 - Google Patents
用于压缩数字电视的音频处理 Download PDFInfo
- Publication number
- CN101855901A CN101855901A CN200880102054.1A CN200880102054A CN101855901A CN 101855901 A CN101855901 A CN 101855901A CN 200880102054 A CN200880102054 A CN 200880102054A CN 101855901 A CN101855901 A CN 101855901A
- Authority
- CN
- China
- Prior art keywords
- perceived loudness
- loudness
- signal
- perceived
- frequency band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title description 10
- 230000008447 perception Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 230000000399 orthopedic effect Effects 0.000 claims 1
- 230000006835 compression Effects 0.000 description 10
- 238000007906 compression Methods 0.000 description 10
- 238000010606 normalization Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 239000003638 chemical reducing agent Substances 0.000 description 6
- 230000001276 controlling effect Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 238000011282 treatment Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000000344 soap Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 244000287680 Garcinia dulcis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011284 combination treatment Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
- H04N5/602—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/025—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Television Receiver Circuits (AREA)
- Control Of Amplification And Gain Control (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种用于控制音量的***,包括感知响度估计单元,该感知响度估计单元用于确定信号的多个频带中的每一个频带的感知响度。增益控制单元用于接收所述信号的所述多个频带之一的感知响度,并且用于根据该频带的感知响度来调节所述信号的该频带的增益。
Description
技术领域
本发明涉及广播信号的音量控制。
背景技术
音量控制仍然是广播界的一个实际问题。如果观众感到足够烦扰,他们确实就会“改变频道”。“现代的”高动态范围内容与(较低动态范围的)传统内容和喧闹刺耳(高密度)的商业广告的集成实际上是“被观众排斥的”。
已有考虑到这个问题的可行的元数据技术,然而,存在内容与使用者之间的元数据集成的挑战、以及传统内容问题(先前存在的没有相关元数据的内容)。
SMPTE曾经将-20dBFS作为用于数字音频***的“工作电平”,并且将VU 0设为-20dBFS以便对于VU峰值0产生约-10dBFS的典型PPM峰值。由于似乎难以将其保持为一致意见,所以在从-31dBFS至-1dBFS的可变范围内进行对白归一化(dialognormalization)。尽管对白归一表(dialnorm meter)已经可以买到,但是正确的对白归一(dialnorm)测量需要在节目中挑选适当的对白部分,并且依赖于操作者在高度受控环境中进行监听时的判断力。这些测量需要熟练的操作者花时间对每个节目进行完全的电平评估,这在广播环境中是不可能的。只有在全部运行良好和满足所有这些条件之后,然后对白归一必须原样传送到所有目的地解码器。
发明内容
根据本发明,提供用于控制广播信号的音量的***和方法。
提供一种用于控制音量的***。该***包括感知响度估计单元,其用于例如通过利用人类听觉机制的心理声学模型处理信号,来确定信号的多个频带中每一个频带的感知响度。增益控制单元接收信号的频带之一的感知响度,并且根据该频带的感知响度来调节该信号的该频带的增益。
本领域的技术人员在阅读了下面结合附图的详细描述后,将进一步认识到本发明的优点和优越特征以及它的其它重要方面。
附图说明
图1是根据本发明一个示例性实施例的压缩曲线的图;
图2是根据本发明一个示例性实施例的等响曲线的图;
图3是根据本发明一个示例性实施例的等响滤波器的图;
图4A-4C是根据本发明一个示例性实施例的在3个音轨中RMS能量值的直方图;
图5是根据本发明一个示例性实施例的中间(interim)处理器的图;
图6是根据本发明一个示例性实施例的动态范围轮廓线(dynamic range contours,DRC)的图;
图7是根据本发明一个示例性实施例的由日期和时间(15分钟军用时间(military time)间隔)表示的日程安排时间表(day-partingschedule);
图8是根据本发明一个示例性实施例的使用者“音量锁定”功能的图;
图9是根据本发明一个示例性实施例的用于响度控制的***的图;
图10是根据本发明一个示例性实施例的用于感知响度估计的***的图;
图11是根据本发明一个示例性实施例的用于感知平坦度缩放(scaling)的***的图;及
图12是根据本发明一个示例性实施例的用于执行响度调整(leveling)的***的图。
具体实施方式
在随后的描述中,相同部件在整个说明书和附图中分别用相同的附图标记标注。附图可能不按比例,并且为了清楚和简明起见,某些元件可能以一般化的或示意性的形式示出并由商业名称来标识。
通常,响度控制传递函数的整体形状是可能产生问题的地方。在没有元数据时,可定义并保持节目动态的缺省“目标图”。当存在有效元数据时,目标图可转换成由元数据描述的压缩曲线。如果元数据消失或变坏,则压缩曲线被转换回缺省目标图。
图1是根据本发明一个示例性实施例的压缩曲线的图。在所有条件下都维持整个节目的长期感知响度(压缩曲线中“空带(null band)”的中心)是所希望的特征。尽管瞬时校正是不可能的,但是如果根据心理声学原理来对恢复/减小发射特性(ballistics)进行整形,则令人满意的(本地)空带增益归一化是可实现的。
广播工程师在存在有效元数据时则可以选择超驰(override)本地归一。这种特征允许广播台在元数据变得较好理解和较可靠时,退出本地归一和缺省的目标图特征。如果全部进行良好,则除了设置了特定于广播台的动态优选项的广播台之外,维持本地压缩曲线目标图和空带增益归一化将成为不必要的。
音量归一化处理音频内容的头端采集(head end ingest)。在该阶段,利用具有统计处理的心理声学模型对内容归一化,以保证长期感知响度是一致的。这里所描述的是可用于完成自动归一化的示例性元件。
图2是根据本发明一个示例性实施例的等响曲线图。等响曲线是基于由Fletcher和Munson在1933年进行的原始测量、由Robinson和Dadson在1956年测量的,曲线上往往带有他们的姓名。
这些线条表示,对于任何频率的测试音调,使其听起来与1kHz的测试音调一样响所需要的声压。以标记为“60”的线条为例,在1kHz(x轴上为“1”)时,该标记为“60”的线条在60dB(y轴上)。随着该“60”线条向下到达0.5kHz(500Hz),y轴值大约为55dB。因而,对于人类听众,在55dB SPL处的500Hz音调跟在60dB SPL处的1kHz音调听起来一样响。该原理被用来控制音量级。
图3是根据本发明一个示例性实施例的等响滤波器的图。在线条向上弯曲处,对该处频率的声音较不敏感。从而,滤波器衰减该频率的声音。理想的滤波器是等响滤波器的逆滤波器。由于重放电平是未知的,并且不希望对不同响度的声音采用不同的滤波器,所以曲线的代表性平均可被选作目标滤波器。
虽然能够计算出在整个音频文件上的RMS能量,但这个值不会给出对信号的感知响度的良好指示,尽管它比由峰值振幅给出的值更加接近。通过逐时刻地计算RMS能量,可以利用以下过程来实现较好的解决方案:
●信号以50ms长度的块被采样。
●每个样本被平方。
●取平均值。
●计算该平均值的平方根。
利用这四个步骤,每个50ms块的RMS值可用于进一步处理。
在研究了25ms与1秒之间的值的效果之后,挑选了50ms的块长度。观测表明,25ms太短以致于不能准确地反映某些声音的感知响度。超过50ms,则观测到在统计处理之后没有什么变化。为此,挑选50ms。
对于如何处理立体声文件具有困难。在计算RMS能量之前,它们可被总计到单声道,但这样的话,任何异相分量(在每个声道上具有相反信号)会抵消到零(即,静音)。由于这不是它们被感知的那样,所以该过程不是良好的解决方案。
一种替换方式是计算两个RMS值,每个声道一个,并且然后将它们相加。不幸地是,线性相加仍然不会给出听众听到的相同效果。为了说明这个,考虑单(单声道)音轨。当它在一个扬声器上重放并与在两个扬声器上重放的声音相比较时,线性相加将表明它会是一半响,而观测到的音量是0.75倍响。
感知上,如果在计算平方根之前将声道信号的平均值相加,则获得更接近的表示。按照声像移动器(pan-pot)术语,这意味着使用“等功率”而不是“等电压”。如果也假定任何单(单声道)信号将在两个扬声器上重放,则该单信号可被视为一对相同的立体声信号。这样,单信号给出(a+a)/2(即a),而立体声信号给出(a+b)/2,其中a和b是每个声道的均方值。在这之后,进行平方根,并且转化为dB。
图4A-4C是根据本发明一个示例性实施例的在3个音轨中的RMS能量值的直方图。图4A表示话音(speech),图4B表示流行音乐,而图4C表示古典音乐。在计算出文件从头至尾每50ms的RMS信号电平后,可确定单个偏移值来代表整个文件的感知响度。示例性直方图表示出,在每个文件中每个RMS值出现多少次。
在话音音轨中最普遍的RMS值是45dB(背景噪声),所以该最普遍的RMS值明显不是好的感知响度指示符。类似地,平均RMS值对于话音样本是易于误导的,对于古典音乐也是如此。
作为代替,确定整体感知响度的一种好的方法是将RMS能量值排列成数值顺序,然后对靠近列表顶部的值进行平均。
为了确定代表值沿该排序列表向下有多远,对于图4B的高度压缩流行音乐,选择几乎不会造成差别。而对于话音和古典音乐,选择会造成巨大差别。可按下式计算与感知响度的人类感知最准确匹配的值:
在计算出内容的“正常电平(normal level)”后,增大或减小长期音量以满足所选择的-21dBFS的归一化电平(normalizationlevel)。使用这种方法,话音片段会被带高5.7dB,流行音乐片段降低6dB,而古典音乐片段降低7dB。
归一化内容然后被存储到服务器、位于头端的播出(playout)或任何其它海量存储器,或者在许多情况下被存储到分台(affiliate)。
图5是根据本发明一个示例性实施例的中间处理器的图。假定内容在头端和本地分台都已经被归一化,中间处理器不再负责长期音量控制。就是说,现在依靠中间处理器(IP)来控制音频内容的使人惊吓的增加和使人困惑的降低。为了实现这个,可使用对内容的上边界和下边界的控制,其中所述上下边界跟踪内容的预归一化电平。IP可连续地跟踪内容的长期电平,以及调节边界并使其保持“不挡道(outof the way)”,以维持完全的透明性。完成这个任务的一个示例性途径是使上界限和下界限随内容包络一起“浮动”。只要短期动态特性停留在长期包络的一阶导数内,就不采取行动。
图6是根据本发明一个示例性实施例的动态范围轮廓线(DRC)的图。DRC定义内容的动态“特性”。轮廓线允许分台具有调节内容的动态特性的能力,以在给定时隙中更好地匹配观众人口统计数据。即使当基于元数据的***正确时,在跨过几个时区时,单一大小也不会全部适合。该条件可通过对DRC进行日程安排和将控制给予分台而减轻。通过这种方式,考虑到宽动态范围大片电影不会在凌晨或深夜欣赏,而谈话或“审判(judge)”节目要被精密地调节以不失去任何对白,可以按切合实际并可预知的方式来控制已提前知道的编排。通过提供对内容上下边界的可调节控制来实现这个过程。
注意,提升和降低轮廓线在-21dBFS附近聚集。这个电平被确定成对于传统的和适当采集的内容具有最佳益处。依据选择的动态范围轮廓线,“死区(deadband)”——即传递函数中完全透明的部分——被调节大小以得出对内容的刚好恰当的控制量。如在图6中看到的那样,增益提升曲线可以由普通AGC处理,而增益降低曲线可通过压缩和限制来执行。
黄色轮廓线对应于压缩,绿色轮廓线对应于AGC功能,而红色轮廓线是限制的结果。容易看到,可以怎样使组合成适当的DRC十分简单。
DRC“A”表示严格受控轮廓线,其表明在47dB范围上的4dB动态范围。这种DRC是极端状态,但可能在“关键任务(mission critical)”对白的播送中具有应用。DRC“B”表明较少的控制;在40dB范围上的20dB。该轮廓线将代表中等范围电影。
每当内容漂移到轮廓线的红色或绿色部分中时,中间处理器的“警报”特征就会启动。在该过程期间,长期增益被调节,直到内容电平位于黄色区“中心”。这时,警报功能停止,直到探测到再次从低失真黄色区偏离。在使用AGC期间,警报被启动以便将偏离通知操作者,并且记录警报的时间。
基于音频相关元数据的***难以预测在内容旅程(journey)另一端处使用者的时区。鉴于这个事实,IP由本地日程安排或时间安排***来驱动,该***允许分台控制音量边界,作为一天中时间的函数。由于本地内容的类型和时间安排被高度控制,所以分台容易对处理进行日程安排,以匹配内容的类型(谈话、动作片、卡通、肥皂剧)和一天中的时间(在凌晨和深夜控制得更多)这两者。
图7是根据本发明一个示例性实施例的由日期和时间(15分钟军用时间间隔)表示的日程安排时间表。日期可拷贝到其它日期,以节省编辑时间。对于特殊事件或日程的突然改变,能够远程编辑该日程安排时间表(诸如通过互联网协议)。每个日期/时间代表一个预置。每个预置代表一个可编排的特定动态范围轮廓线。日程安排时间表一旦写好,就只需要一年改变或更新少数几次。
IP还可以采用附加的处理以增强内容的聆听享受,即使内容有缺陷。去嗡嗡声和去噪声对于较老的内容是有用的工具,而时间和强度归一化对于仍在将基于左-右的内容与立体声内容混合广播的分台是有帮助的。
在使用者端,可提供最终感知音量控制或锁定。这种音量锁定的主要目的是给予使用者对动态范围轮廓线和内容电平的最终控制。使用者的条件是不可能预知的,因为使用者可能拥有最佳的家庭影院或仅仅拥有小的单声道电视。使用者可能生活在非常嘈杂的环境中或者可能有听力障碍。使用者可能有正在睡觉的幼儿,或者有既有听力障碍又容易受惊吓的老年亲属。音量锁定向使用者提供简单的解决方案,在该方案中,对音量和三个动态范围(宽、平均及窄)之一进行简单的选择。
图8是根据本发明一个示例性实施例的使用者“音量锁定”功能的图。AGC目标和压缩器和限制器功能被“成套组合(ganged)”,以使得能够容易地设置所希望的音量级。三个本地预置允许使用者选择窄、中等或宽动态范围轮廓线。在“宽”模式中,使用者选择成按原样信任广播。在“中等”模式中,使用者可以在宽松控制下欣赏各种节目。“窄”模式对于不时被吵闹的商业广告打断的访谈节目或肥皂剧是有用的。
收集的信息针对一个三部分***:采集、具有日程安排的中间处理、及使用者控制。这三个过程的任一个应当基于其本身的优点而有益于使用者的体验。当组合时,它们为内容的音频部分提供安全防故障的环境,没有惊人的电平突升或降低。该***与任意传统的基础设施一起工作,并且不依赖元数据来控制归一化电平或动态范围轮廓线。它为喧闹的商业广告或者头端或分台错误提供改进的性能。如果遵循采集和中间处理协议,则除非为了方便,否则不需要使用者处理。一旦采集了内容并编排了中间过程每日时段分割,***就是自动的,无需人为干预。在缺乏适当采集的内容时,中间处理智能地控制电平,仅具有很小的、非常短期的跟踪误差。
图9是根据本发明一个示例性实施例的用于响度控制的***900的图。***900包括感知响度估计902、增益控制904、压缩器906及最终限制器908,其每一个可以以硬件、软件或硬件和软件的适当组合来实施,并且可以是在通用处理平台上运行的一个或多个软件***。如这里所使用的,“硬件”可包括分立元件的组合、集成电路、专用集成电路、现场可编程门阵列、或其它适当硬件。如这里所使用的,“软件”可包括一个或多个对象、代理、线程、代码行、子例行程序、单独的软件应用、在两个或更多个软件应用中或者在两个或更多个处理器上运行的两个或更多个代码行或其它适当的软件结构、或其它适当的软件结构。在一个示例性实施例中,软件可包括:在诸如操作***之类的通用软件应用中运行的一个或多个代码行或其它适当软件结构、在专用软件应用中运行的一个或多个代码行或其它适当软件结构。
感知响度估计***902利用心理声学和信号处理技术来准确地探测和调节适当的源的感知响度,适当的源诸如图9中所示的示例性5.1源。同样,可处理诸如单声道信号、立体声信号、7.1信号、或其它适当信号之类的声源。
增益控制***904用于基于来自感知响度估计***902的输出、预定的响度约束或其它适当因素,来增大或减小信号的增益以修改响度。
压缩器906可用于控制未被感知响度估计***902和增益控制***904适当处理的短期响度变化。在一个示例性实施例中,压缩器906可被设置成允许预定的容许短期峰值高于预定的目标电平,诸如2dB至8dB。压缩器906可在用户选择的范围上应用诸如0.40至0.80的压缩比。
最终限制器908可用于控制绝对波形峰值电平。在一个示例性实施例中,最终限制器908在诸如-10dB满刻度(FS)至0dBFS之类的预定范围上可以是用户可选择的。
在操作时,诸如通过利用心理声学和信号处理技术来准确地探测和调节声源的感知响度、并与诸如压缩器和限制器之类的其它适当响度控制相结合,***900使得响度能够在广播***处或其它适当位置处被控制。通过将心理声学和信号处理技术与其它适当的响度控制相结合,***900避免响度的过补偿,诸如在用轻柔的对白来抵消间歇性的喧闹噪声——如枪击、碰撞、***、或其它所希望的内容——的情况中。
图10是根据本发明一个示例性实施例的用于感知响度估计的***1000的图。源音频信号的音频通道x1(t)至xN(t)(其中N是表示源音频数据的通道数目的适当整数)通过复时频滤波器组1002a至1002n而被处理,其中滤波器组1002a至1002n将时域信号x1(t)至xN(t)转换成相应的频域信号x1(f)至xN(f)。每个子带的幅度|X1(f)|至|XN(f)|然后被输入到相应的感知平坦度缩放1004a至1004n,其产生应用于每个相应子带的幅度的缩放值a1至aN。
在每个通道的音频频谱已经与感知平坦度成比例地缩放之后,所有通道a1|X1(f)|至aN|XN(f)|由恒功率求和1006诸如根据以下等式来求和:
恒功率求和是从恒功率平移定律(constant power panning law)导出的,并且可用来为当音频信号要在扬声器上重放时存在于聆听“最佳位置(sweet-spot)”处的每个子带的声功率级建模。使用恒功率求和来为声功率级建模,提供了一种在感知上适当的、用于对各通道求和以及在多个输入通道中提供可缩放性的方法。恒功率求和1006输出组合的音频频谱Y(f)。
等响整形1008使用等响曲线来处理组合的音频频谱Y(f),所述等响曲线诸如Fletcher-Munson曲线或其它适当的等响曲线,其针对对于典型人类听众,不同频率在不同响度级处被感知这一现象建模。例如,对于给定声压级(SPL),一般的听众将感知到,1-4kHz左右的中频将比低频或高频更响。等响整形1008产生等响整形频谱YEL(f)。
等响整形频谱YEL(f)的每个子带被四次乘方,并且然后由感知频带分组1010分组成感知频带。将频谱YEL(f)四次乘方以补偿将带状(banded)频谱YEL(bark)0.25次乘方这一后续处理。所有压缩感知频带YEL(bark)0.25然后由求和1012求和并且转换成dB,得到针对给定音频段的感知响度估计PLE。
图11是根据本发明一个示例性实施例的用于感知平坦度缩放的***1100的图。感知频带分组1102将频谱|X1(f)|分组成感知频带,并且产生输出|X1(barks)|。频谱平坦度测量1104计算感知频带|X1(barks)|上的频谱平坦度,得到感知平坦度PFM。高的感知平坦度表明,信号在所有感知频带中具有几乎相等的能量值,可能听起来类似于粉红噪声(pink noise)。低的感知平坦度表明,信号能量集中在少数感知频带中,可能听起来类似于音调混合。
感知平坦度PFM然后由反相器(inverter)1106转换成缩放值ai,该缩放值ai用于通过乘法器1108来缩放|X1(f)|的整个频谱。当PFM高时,缩放因子ai应当低,而当PFM低时,缩放因子a1应当高,这基于如下的经验观测结果:宽带和感知平坦的信号的能量水平相对于它们的感知响度通常太高。在一个示例性实施例中,缩放值a1的范围可从针对感知平坦材料的-6dB到针对感知音调材料的0dB。
图12是根据本发明一个示例性实施例的用于进行响度调整的***1200的图。***1200通过简单的一阶低通滤波器来平滑从感知响度估计***902接收到的短期感知响度估计(PLE)。
输入到减法器1208的目标感知响度级可预先确定、由用户设置、或者以别的方式确定。因为终端用户重放音量级是未知的,所以目标响度级可按dBFS而不是按SPL设置。例如,如果用户将目标响度级选择为-20dBFS,则校正后的音频信号将具有-20dBFS的长期平均电平,同时维持相等的感知响度。
***1200包括滤波器LP 1 1202和LP 2 1204,这两个滤波器可以是一阶无限冲激响应低通滤波器或其它适当的滤波器。滤波器LP 11202基于响度校正信号的上升时间来控制,而滤波器LP 2 1204基于响度校正信号的下降时间来控制。PLE值通过两个滤波器LP 1 1202和滤波器LP 2 1204被发送,并且由max 1026挑选最大输出作为平滑后的PLE值。在实际中,使用比下降时间值要快的上升时间值。这个过程使得上升时间滤波器LP 1 1202控制开始(onset)事件,而下降时间滤波器LP 2 1204控制衰减(decay)事件。
存在反馈环路以便向响度校正提供可变速度处理。计算DELTA值,其为当前的平滑后PLE值与前一个平滑后PLE值之间的差。当DELTA值超过预定的或用户定义的阈值时,用于滤波器LP 1 1202和滤波器LP 2 1204的截止频率分别被设置为预定或用户定义值FastRT和FastFT。当DELTA值的值下降到低于阈值时,截止频率被设置为预定或用户定义值SlowRT和SlowFT。加入这个简单反馈环路和可变速度平滑有助于在出现突然的响度开始时将其捕获。
由减法器1208计算最终校正值,其为目标值与平滑后的PLE值之间的差。然后由加法器1210a至1210n将该校正值应用于源信号的所有通道x1(f)至xN(f),并且分别由频时变换1212a至1212n产生响度校正后的输出信号y1(t)至yN(t)。
尽管这里已经详细描述了本发明的***和方法的示例性实施例,但本领域技术人员也将认识到,可以对所述***和方法可进行各种替代和修改,而不脱离所附权利要求的范围和精神。
Claims (20)
1.一种用于控制音量的***,包括:
感知响度估计单元,用于确定信号的多个频带中的每一个频带的感知响度;和
增益控制单元,用于接收所述信号的所述多个频带之一的感知响度,并且用于根据该频带的感知响度来调节所述信号的该频带的增益。
2.根据权利要求1所述的***,其中所述感知响度估计单元还包括多个感知平坦度缩放单元,每一个感知平坦度缩放单元用于接收所述信号的一个子带的幅度数据、产生对应的缩放值、以及将所述幅度数据乘以所述对应的缩放值以产生缩放后的子带幅度。
3.根据权利要求2所述的***,其中所述感知响度估计单元还包括恒功率求和单元,用于接收多个缩放后的子带幅度,并且产生组合的音频频谱。
4.根据权利要求3所述的***,其中所述组合的音频频谱根据以下等式确定:
5.根据权利要求3所述的***,还包括等响整形***,用于接收所述组合的音频频谱,并通过根据等响曲线缩放所述组合的音频频谱来产生等响整形频谱。
6.根据权利要求5所述的***,还包括感知响度估计***,所述感知响度估计***接收所述等响整形频谱,并产生感知响度估计。
7.根据权利要求1所述的***,其中所述增益控制单元还包括:
上升时间滤波器,用于接收感知响度估计和控制开始事件;和
下降时间滤波器,用于接收所述感知响度估计和控制衰减事件。
8.根据权利要求1所述的***,其中所述增益控制单元还包括感知响度估计平滑***,所述感知响度估计平滑***接收一系列感知响度估计值,并且产生平滑后的感知响度估计值。
9.根据权利要求1所述的***,其中所述增益控制单元还包括反馈环路,所述反馈环路用于从当前的平滑后感知响度估计值和前一个平滑后感知响度估计值产生差值,并且如果该差值超过预定阈值,则修改用于一个或多个滤波器的截止频率。
10.一种用于控制音量的方法,包括:
确定信号的多个频带中的每一个频带的感知响度;
在增益控制单元处接收所述信号的所述多个频带之一的感知响度;和
根据该频带的感知响度来调节所述信号的该频带的增益。
11.根据权利要求10所述的方法,还包括:
接收所述信号的多个子带的幅度数据;
为所述信号的多个子带中的每一个子带产生对应的缩放值;和
将所述幅度数据乘以所述对应的缩放值以产生缩放后的子带幅度。
12.根据权利要求11所述的方法,还包括接收多个缩放后的子带幅度,和产生组合的音频频谱。
13.根据权利要求12所述的方法,其中所述组合的音频频谱根据以下等式确定:
14.根据权利要求12所述的方法,还包括通过根据等响曲线缩放所述组合的音频频谱来产生等响整形频谱。
15.根据权利要求14所述的方法,还包括产生感知响度估计。
16.根据权利要求10所述的方法,还包括:
基于感知响度估计,控制开始事件;和
基于所述感知响度估计,控制衰减事件。
17.根据权利要求10所述的方法,还包括接收一系列感知响度估计值,和产生平滑后的感知响度估计值。
18.根据权利要求10所述的方法,还包括:
从当前的平滑后感知响度估计值和前一个平滑后感知响度估计值产生差值;和
如果该差值超过预定阈值,则修改用于一个或多个滤波器的截止频率。
19.一种用于控制音量的***,包括:
用于确定信号的多个频带中的每一个频带的感知响度的装置;和
用于接收所述信号的所述多个频带之一的感知响度并根据该频带的感知响度来调节所述信号的该频带的增益的装置。
20.根据权利要求19所述的***,还包括多个感知平坦度缩放单元,每一个感知平坦度缩放单元用于接收所述信号的一个子带的幅度数据,产生对应的缩放值,以及将所述幅度数据乘以所述对应的缩放值以产生缩放后的子带幅度。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US96493007P | 2007-08-16 | 2007-08-16 | |
US60/964,930 | 2007-08-16 | ||
PCT/US2008/073299 WO2009026143A1 (en) | 2007-08-16 | 2008-08-15 | Audio processing for compressed digital television |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101855901A true CN101855901A (zh) | 2010-10-06 |
CN101855901B CN101855901B (zh) | 2012-11-14 |
Family
ID=40378541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200880102054.1A Expired - Fee Related CN101855901B (zh) | 2007-08-16 | 2008-08-15 | 用于压缩数字电视的音频处理 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20090074209A1 (zh) |
EP (1) | EP2188986B1 (zh) |
JP (1) | JP2010537233A (zh) |
KR (1) | KR20100049590A (zh) |
CN (1) | CN101855901B (zh) |
CA (1) | CA2694613A1 (zh) |
HK (1) | HK1144513A1 (zh) |
WO (1) | WO2009026143A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253117A (zh) * | 2011-03-31 | 2011-11-23 | 浙江大学 | 一种基于压缩感知的新型声学信号采集方法 |
CN103714824A (zh) * | 2013-12-12 | 2014-04-09 | 小米科技有限责任公司 | 一种音频处理方法、装置及终端设备 |
CN104937844A (zh) * | 2013-01-21 | 2015-09-23 | 杜比实验室特许公司 | 用于在不同回放设备之间优化响度和动态范围的***和方法 |
CN105513606A (zh) * | 2015-11-27 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音信号处理方法、装置和*** |
CN103796136B (zh) * | 2012-10-30 | 2017-02-08 | 广州三星通信技术研究有限公司 | 保证不同音效模式输出响度及音质的设备和方法 |
CN108322848A (zh) * | 2017-01-16 | 2018-07-24 | 塞舌尔商元鼎音讯股份有限公司 | 具有听力保护功能的声音调整装置及其声音调整的方法 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8315409B2 (en) * | 2008-09-16 | 2012-11-20 | International Business Machines Corporation | Modifications of audio communications in an online environment |
US8787595B2 (en) * | 2008-10-17 | 2014-07-22 | Sharp Kabushiki Kaisha | Audio signal adjustment device and audio signal adjustment method having long and short term gain adjustment |
JP5394905B2 (ja) * | 2009-01-14 | 2014-01-22 | ローム株式会社 | 自動レベル制御回路およびそれを用いたオーディオ用デジタル信号プロセッサならびに可変利得増幅器の利得制御方法 |
US8302047B2 (en) * | 2009-05-06 | 2012-10-30 | Texas Instruments Incorporated | Statistical static timing analysis in non-linear regions |
US9998081B2 (en) | 2010-05-12 | 2018-06-12 | Nokia Technologies Oy | Method and apparatus for processing an audio signal based on an estimated loudness |
US8731216B1 (en) * | 2010-10-15 | 2014-05-20 | AARIS Enterprises, Inc. | Audio normalization for digital video broadcasts |
TW201218784A (en) * | 2010-10-28 | 2012-05-01 | Optoma Technology Inc | Speaker system and method for optimizing output of speaker thereof |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
US9806688B2 (en) | 2012-04-12 | 2017-10-31 | Dolby Laboratories Licensing Corporation | System and method for leveling loudness variation in an audio signal |
JP6079119B2 (ja) * | 2012-10-10 | 2017-02-15 | ティアック株式会社 | 録音装置 |
JP6056356B2 (ja) | 2012-10-10 | 2017-01-11 | ティアック株式会社 | 録音装置 |
US10027303B2 (en) * | 2012-11-13 | 2018-07-17 | Snell Advanced Media Limited | Management of broadcast audio loudness |
CN103916097B (zh) * | 2013-01-02 | 2018-10-19 | 三星电子株式会社 | 用于处理音频信号的设备和方法 |
US9171552B1 (en) * | 2013-01-17 | 2015-10-27 | Amazon Technologies, Inc. | Multiple range dynamic level control |
CN107093991B (zh) | 2013-03-26 | 2020-10-09 | 杜比实验室特许公司 | 基于目标响度的响度归一化方法和设备 |
WO2015038522A1 (en) | 2013-09-12 | 2015-03-19 | Dolby Laboratories Licensing Corporation | Loudness adjustment for downmixed audio content |
JP6476192B2 (ja) * | 2013-09-12 | 2019-02-27 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 多様な再生環境のためのダイナミックレンジ制御 |
US9608588B2 (en) * | 2014-01-22 | 2017-03-28 | Apple Inc. | Dynamic range control with large look-ahead |
US9338552B2 (en) | 2014-05-09 | 2016-05-10 | Trifield Ip, Llc | Coinciding low and high frequency localization panning |
US20170078793A1 (en) * | 2015-03-23 | 2017-03-16 | Eric Jay Alexander | Inversion Speaker and Headphone for Music Production |
US9590580B1 (en) * | 2015-09-13 | 2017-03-07 | Guoguang Electric Company Limited | Loudness-based audio-signal compensation |
US10911013B2 (en) | 2018-07-05 | 2021-02-02 | Comcast Cable Communications, Llc | Dynamic audio normalization process |
CN109473115B (zh) * | 2018-11-22 | 2022-04-12 | 四川长虹电器股份有限公司 | 数字音频信号音量等响度调节方法 |
WO2021050639A1 (en) * | 2019-09-13 | 2021-03-18 | Dolby Laboratories Licensing Corporation | Dynamic range compression with reduced artifacts |
US11128925B1 (en) * | 2020-02-28 | 2021-09-21 | Nxp Usa, Inc. | Media presentation system using audience and audio feedback for playback level control |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0123274B1 (ko) * | 1992-12-31 | 1997-11-17 | 김주용 | 사용자 기호 보상형 심리음향 모델 |
KR0144841B1 (ko) * | 1993-09-24 | 1998-07-15 | 김광호 | 음향신호의 적응적 부호화 및 복호화장치 |
KR100285419B1 (ko) * | 1999-04-30 | 2001-03-15 | 박종섭 | 방송용 디지털 오디오 부호화 장치 및 그 제어방법 |
CA2525942C (en) * | 2003-05-28 | 2015-04-07 | Dolby Laboratories Licensing Corporation | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal |
KR20060022053A (ko) * | 2004-09-06 | 2006-03-09 | 삼성전자주식회사 | Av 시스템 및 그 튜닝 방법 |
EP2262108B1 (en) | 2004-10-26 | 2017-03-01 | Dolby Laboratories Licensing Corporation | Adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
KR100636213B1 (ko) * | 2004-12-28 | 2006-10-19 | 삼성전자주식회사 | 실시간 주파수 특성 보정 방법 및 그를 적용한 사운드재생 장치 |
-
2008
- 2008-08-15 CA CA2694613A patent/CA2694613A1/en not_active Abandoned
- 2008-08-15 CN CN200880102054.1A patent/CN101855901B/zh not_active Expired - Fee Related
- 2008-08-15 US US12/192,266 patent/US20090074209A1/en not_active Abandoned
- 2008-08-15 EP EP08827901.3A patent/EP2188986B1/en not_active Not-in-force
- 2008-08-15 WO PCT/US2008/073299 patent/WO2009026143A1/en active Application Filing
- 2008-08-15 KR KR1020107003255A patent/KR20100049590A/ko not_active Application Discontinuation
- 2008-08-15 JP JP2010521199A patent/JP2010537233A/ja active Pending
-
2010
- 2010-11-25 HK HK10110946.2A patent/HK1144513A1/xx not_active IP Right Cessation
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253117A (zh) * | 2011-03-31 | 2011-11-23 | 浙江大学 | 一种基于压缩感知的新型声学信号采集方法 |
CN103796136B (zh) * | 2012-10-30 | 2017-02-08 | 广州三星通信技术研究有限公司 | 保证不同音效模式输出响度及音质的设备和方法 |
CN104937844A (zh) * | 2013-01-21 | 2015-09-23 | 杜比实验室特许公司 | 用于在不同回放设备之间优化响度和动态范围的***和方法 |
CN103714824A (zh) * | 2013-12-12 | 2014-04-09 | 小米科技有限责任公司 | 一种音频处理方法、装置及终端设备 |
CN103714824B (zh) * | 2013-12-12 | 2017-06-16 | 小米科技有限责任公司 | 一种音频处理方法、装置及终端设备 |
CN105513606A (zh) * | 2015-11-27 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音信号处理方法、装置和*** |
CN105513606B (zh) * | 2015-11-27 | 2019-12-06 | 百度在线网络技术(北京)有限公司 | 语音信号处理方法、装置和*** |
CN108322848A (zh) * | 2017-01-16 | 2018-07-24 | 塞舌尔商元鼎音讯股份有限公司 | 具有听力保护功能的声音调整装置及其声音调整的方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2188986A4 (en) | 2010-10-06 |
WO2009026143A1 (en) | 2009-02-26 |
US20090074209A1 (en) | 2009-03-19 |
KR20100049590A (ko) | 2010-05-12 |
JP2010537233A (ja) | 2010-12-02 |
EP2188986B1 (en) | 2016-04-06 |
CN101855901B (zh) | 2012-11-14 |
CA2694613A1 (en) | 2009-02-26 |
EP2188986A1 (en) | 2010-05-26 |
HK1144513A1 (en) | 2011-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101855901B (zh) | 用于压缩数字电视的音频处理 | |
US11429341B2 (en) | Dynamic range control for a wide variety of playback environments | |
Siegel et al. | Auditory feedback in the regulation of voice | |
CN100518269C (zh) | 用于控制声级的设备和方法 | |
US20180218742A1 (en) | Encoded audio extended metadata-based dynamic range control | |
CN101208742B (zh) | 自适应的音频响应 | |
JP2019097219A (ja) | ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整 | |
Blesser | Audio dynamic range compression for minimum perceived distortion | |
TWI692937B (zh) | 具高階環繞處理之可調整多重頻段壓縮器架構 | |
CN104050969A (zh) | 空间舒适噪声 | |
US20070291960A1 (en) | Sound Electronic Circuit and Method for Adjusting Sound Level Thereof | |
US5301236A (en) | System for producing stereo-simulated signals for simulated-stereophonic sound | |
Robinson et al. | Dynamic range control via metadata | |
Stone et al. | Multichannel fast-acting dynamic range compression hinders performance by young, normal-hearing listeners in a two-talker separation task | |
WO1999008380A1 (en) | Improved listening enhancement system and method | |
JP3627189B2 (ja) | 音響電子回路の音量調節方法 | |
Alvarsson et al. | Aircraft noise and speech intelligibility in an outdoor living space | |
Leembruggen | Equalizing the Effects of Perforated Cinema Screens | |
EP3935636B1 (en) | Method and device for improving dialogue intelligibility during playback of audio data | |
Højlund et al. | Applying the EBU R128 Loudness Standard in live-streaming sound sculptures | |
Dvorko et al. | Audio-visual Perception of Video and Multimedia Programs | |
Travaglini | Broadcast Loudness: Mixing, Monitoring and Control | |
Wolters | State of the art speech Processing for broadcasting | |
Rumsey | Loudness revisited | |
Sack | Diplom-Ingenieur |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1144513 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1144513 Country of ref document: HK |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121114 Termination date: 20200815 |