CN107925388A - 用于增强瞬时处理的后置处理器、预处理器、音频编码器、音频解码器及相关方法 - Google Patents
用于增强瞬时处理的后置处理器、预处理器、音频编码器、音频解码器及相关方法 Download PDFInfo
- Publication number
- CN107925388A CN107925388A CN201780002163.5A CN201780002163A CN107925388A CN 107925388 A CN107925388 A CN 107925388A CN 201780002163 A CN201780002163 A CN 201780002163A CN 107925388 A CN107925388 A CN 107925388A
- Authority
- CN
- China
- Prior art keywords
- block
- audio
- frequency band
- gain
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 79
- 238000005728 strengthening Methods 0.000 title description 3
- 230000005236 sound signal Effects 0.000 claims abstract description 140
- 230000004048 modification Effects 0.000 claims abstract description 28
- 238000012986 modification Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 70
- 238000005070 sampling Methods 0.000 claims description 35
- 230000002123 temporal effect Effects 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 34
- 238000001228 spectrum Methods 0.000 claims description 32
- 230000008859 change Effects 0.000 claims description 31
- 238000007493 shaping process Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000012805 post-processing Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 11
- 230000002829 reductive effect Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 10
- 230000001965 increasing effect Effects 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000011049 filling Methods 0.000 claims description 5
- 238000005194 fractionation Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 34
- 230000000694 effects Effects 0.000 description 11
- 239000007787 solid Substances 0.000 description 10
- 230000006872 improvement Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000000873 masking effect Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000002156 mixing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 2
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
- 101100031387 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) drc-1 gene Proteins 0.000 description 1
- 229910000746 Structural steel Inorganic materials 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/005—Tone control or bandwidth control in amplifiers of digital signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Stereophonic System (AREA)
Abstract
一种用于对具有时变高频增益信息(104)作为边信息的音频信号(102)进行后处理的音频后置处理器(100),包括:频带提取器(110),用于提取音频信号(102)的高频频带(112)及音频信号(102)的低频频带(114);高频带处理器(120),用于根据时变高频增益信息(104)执行高频频带(112)的时变修改以获得经处理高频频带(122);以及组合器(130),用于组合经处理高频频带(122)与低频频带(114)。此外,预处理器用于分析音频信号以确定时变高频增益信息,执行高频频带的修改,以及输出包括经预处理的音频信号和高频增益信息的信号。
Description
技术领域
本发明关于音频处理,且特别地,关于音频预处理及音频后处理上下文中的音频处理。
背景技术
前回声:时间遮蔽问题
基于典型滤波器组的感知编码器(如MP3或AAC)主要被设计为利用同时遮蔽的感知效应,但也必须处理遮蔽现象的时间方面:噪声在遮蔽信号出现之前及之后被短时间遮蔽(前遮蔽及后遮蔽现象)。观察到后遮蔽比前遮蔽持续更长时间段(取决于遮蔽器的位准及持续时间,大约10.0至50.0ms,而非0.5至2.0ms)。
因此,遮蔽的时间方面导致对感知编码方案的额外要求:为了达成感知透明的编码质量,量化噪声也必须不超过时间相依遮蔽阈值。
实际上,此要求对感知编码器而言不容易达成,这是因为将频谱信号分解用于量化及编码表示:此域中所引入的量化误差将在通过合成滤波器组的重构之后在时间上散开(时间/频率不确定性原理)。对于常用滤波器组设计(例如,1024线MDCT),这意味着量化噪声可以CD采样率在多于40毫秒的时段上散开。此会在待编码的信号仅在分析滤波器组窗口的部分中含有强烈信号分量时(即对于瞬时信号)产生问题。特别地,量化噪声在信号的起始之前散开,且在极端情况下甚至可以在特定时间间隔期间在位准上超过原始信号分量。关键冲击信号的熟知示例为响板录音,其中在解码量化之后,噪声分量在原始信号的“攻击”之前的某一时间散开。此群集传统上被称为“前回声现象”[Joh92b]。
归因于人类听觉***的性质,这种“前回声”仅在无大量编码噪声在信号的起始之前存在长于大约2.0ms时被遮蔽。否则,编码噪声将作为前回声伪讯(即,信号开始前的类短噪声事件)被感觉到。为了避免这种伪讯,必须小心地维持量化噪声的适当时间特性,以使得量化噪声仍然满足时间遮蔽的条件。此时间噪声整形问题传统上使得对于瞬时信号(如响板、钟琴、三角铁等)难以在低比特率下达成良好的感知信号质量。
类鼓掌信号:极其关键类别的信号
虽然先前提及的瞬时信号可在感知音频编解码器中触发前回声,但它们呈现信号隔离的攻击,即存在某一最小时间,直至下一个攻击出现。因此,感知编码器具有一些时间从处理最后攻击恢复,且可例如再次收集备用位以解决下一个攻击(参见如下所述的‘比特池(bit reservoir)’)。与此相比,鼓掌观众的声音由密集隔开的拍手的稳定流组成,拍手中的每个为其自身的瞬时事件。图11示出立体声鼓掌信号的高频时间包络的说明。如图可见,后续拍手事件之间的平均时间明显地低于10ms。
出于此原因,鼓掌及类鼓掌信号(如雨滴或爆裂烟火)构成极其难以在由许多实况记录共享同时对信号编码的一类。此情况在将参数方法用于两个或更多个声道的联合编码时也成立[Hot08]。
编码瞬时信号的传统方法
已建议一组技术以便避免经编码/经解码信号中的前回声伪讯:
前回声控制及比特池
一个方法为增大用于首先覆盖瞬时信号部分的滤波器组窗口的频谱系数的编码精度(所谓的“前回声控制”,[MPEG1])。由于此使得用于编码这种帧必需的比特数显著增大,此方法不能应用于恒定比特率编码器中。在一定程度上,比特率需求的局部变化能够通过使用比特池来解释([Bra87]、[MPEG1])。此技术准许使用在编码早先帧的期间已保留的比特来处置比特率中的峰值需要,同时平均比特率仍然保持恒定。
自适应窗口切换
用于许多感知音频编码器中的不同策略为如通过Edler[Edl89]引入的自适应窗口切换。此技术使滤波器组窗口的大小适应输入信号的特性。尽管固定信号部分将使用长窗口长度来编码,但短窗口用以对信号的瞬时部分编码。以此方式,峰值比特需求可显著减小,这是因为需要高编码精度的区域在时间上受限。前回声在持续时间上通过较短变换大小被隐式地限制。
时间噪声整形(TNS)
时间噪声整形(TNS)在[Her96]中被引入,且通过在频谱域中沿着频率方向将开环预测性编码应用于时间块来达成量化噪声的时间整形。
增益修改(增益控制)
避免量化噪声的时间分散的另一方法为在计算信号的频谱分解及编码之前将动态增益修改(增益控制处理)应用于信号。
此方法的原理在图12中说明。输入信号的动态在其编码之前通过增益修改(乘法预处理)被减小。以此方式,信号中的“峰值”在编码之前被衰减。增益修改的参数系在比特流中传输。使用此信息,处理在解码器侧反转,即,在解码之后,另一增益修改恢复原始信号动态。
[Lin93]建议增益控制作为对感知音频编码器的加法,其中增益修改对时域信号(且因此对整体信号频谱)执行。
频率相依增益修改/控制已经在以前被用于许多实例中:
基于滤波器的增益控制:在Vaupel的论文[Vau91]中,Vaupel注意到完全频带增益控制没有良好地作用。为了达成频率相依增益控制,他建议在其增益特性上能够进行动态控制的压缩器与扩展器滤波器对。此方案示于图13a及图13b中。
滤波器的频率响应的变化示于图13b中。
混合式滤波器组情况下的增益控制(说明于图14中):在MPEG-2进阶音频编码[Bos96]方案的SSR分布中,增益控制在混合式滤波器组结构内使用。第一滤波器组级(PQF)将输入信号拆分成宽度相等的四个频带。接着,增益检测器及增益修改器执行增益控制编码器处理。最后,作为第二级,具有减小大小(256替代1024)的四个单独MDCT滤波器组进一步拆分所得信号且产生用于后续编码的频谱分量。
导引包络整形(Guided envelope shaping,GES)为MPEG环绕中包含的工具,其传输声道个别的时间包络参数且在解码器侧恢复时间包络。请注意,与HREP处理相比,编码器侧上不存在包络平坦化,以便维持降混的回溯兼容性。MPEG环绕中用以执行包络整形的另一工具为子频带时间处理(STP)。此处,低阶LPC滤波器在音频信号的QMF滤波器组表示内应用。
相关现有技术记载于专利公开WO 2006/045373 A1、WO 2006/045371 A1、WO2007/042108 A1,WO 2006/108543 A1或WO 2007/110101 A1中。
参考文献
[Bos96]M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,M.Dietz,J.Herre,G.Davidson,Oikawa:"MPEG-2 Advanced Audio Coding",101届AES大会,洛杉矶1996
[Bra87]K.Brandenburg:"OCF-A New Coding Algorithm for High QualitySound Signals",Proc.IEEE ICASSP,1987
[Joh92b]J.D.Johnston,K.Brandenburg:"Wideband Coding PerceptualConsiderations for Speech and Music",in S.Furui and M.M.Sondhi,editors:"Advances in Speech Signal Processing",Marcel Dekker,纽约,1992
[Edl89]B.Edler:"Codierung von Audiosignalen mitüberlappenderTransformation und adaptiven Fensterfunktionen",Frequenz,卷43,页252-256,1989
[Her96]J.Herre,J.D.Johnston:"Enhancing the Performance of PerceptualAudio Coders by Using Temporal Noise Shaping(TNS)",101届AES大会,洛杉矶1996,预印本4384
[Hot08]Gerard Hotho,Steven van de Par,and Jeroen Breebaart:"Multichannel coding of applause signals",EURASIP Journal of Advances inSignal Processing,Hindawi,2008年1月,doi:10.1155/2008/531693
[Lin93]M.Link:"An Attack Processing of Audio Signals for Optimizingthe Temporal Characteristics of a Low Bit-Rate Audio Coding System",95届AES大会,纽约1993,预印本3696
[MPEG1]ISO/IEC JTC1/SC29/WG11MPEG,International Standard ISO 11172-3"Coding of moving pictures and associated audio for digital storage media atup to about 1.5Mbit/s"
[Vau91]T.Vaupel:"Ein Beitrag zur Transformationscodierung vonAudiosignalen unter Verwendung der Methode der'Time Domain AliasingCancellation(TDAC)'und einer Signalkompandierung im Zeitbereich",PhD Thesis,-Gesamthochschule Duisburg,德国,1991
比特池可帮助处置对感知编码器中的比特率的峰值需要,且由此改进瞬时信号的感知质量。然而,实际上,比特池的大小必须不现实地大,以便避免当对非常瞬时性质的输入信号编码(无其他注意事项)时的伪讯。
自适应窗口切换限制信号的瞬时部分的比特需求且通过受限的瞬态将前回声缩小成短变换块。自适应窗口切换的限由其延迟及重复时间给定:两个短块序列之间的最快可能周转周期需要至少三个块(“短”→“停止”→“开始”→“短”,对于512至1024个样本的典型块大小为大约30.0至60.0ms),这对于特定类型的包括鼓掌的输入信号而言过长。因此,类鼓掌信号的量化噪声的时间分散仅可通过永久地选择短窗口大小来避免,此通常引起编码器的源编码效率的减小。
TNS执行编码器中的时间平坦化及解码器中的时间整形。原则上,任意精细的时间分辨率是可能的。然而,实际上,性能受到编码器滤波器组的时间混叠(通常MDCT,即具有50%重叠的重叠块变换)的限制。因此,经整形编码噪声还以成镜像的方式出现在合成滤波器组的输出端处。
宽带增益控制技术遭受缺乏频谱分辨率。然而,为了针对许多信号良好地执行,重要的是增益修改处理能够在音频频谱的不同部分中独立地应用,这是因为瞬时事件常常仅在频谱的部分中占优势(实际上,难以编码的事件几乎始终存在于频谱的高频部分中)。有效地,在输入信号在编码器中的频谱分解之前应用输入信号的动态乘法修改等效于滤波器组的分析窗口的动态修改。根据增益修改函数的形状,分析滤波器的频率响应根据复合窗口函数进行更改。然而,不希望加宽滤波器组的低频滤波器声道的频率响应,因为这使得与关键带宽标度的失配增大。
使用混合式滤波器组的增益控制具有增加的计算复杂度的缺点,这是因为第一级的滤波器组必须达成相当大的选择性,以便避免在通过第二滤波器组级进行的稍后拆分之后的混叠变形。此外,针对48kHz的采样率,增益控制频带之间的交叉频率被固定至奈奎斯特频率的四分之一,即为6、12及18kHz。对于大部分信号,6kHz下的第一交叉对良好效能而言过高。
已知半参数多声道编码解决方案(如MPEG环绕(STP,GES))中包含的包络整形技术,以经由输出信号或其部分在解码器中的时间再整形来改进瞬态的感知质量。然而,这些技术并不执行编码器之前的时间平坦化。因此,瞬时信号仍然以其原始短时间动态进入编码器且对编码器比特预算强加高比特率需求。
发明内容
另一方面,本发明的目标为提供音频预处理、音频后处理或音频编码、或音频解码的经改进概念。
此目标通过权利要求1的音频后置处理器、权利要求32的音频预处理器、权利要求53的音频编码设备、权利要求55的音频解码设备、权利要求57的后处理方法、权利要求58的预处理方法、权利要求59的编码方法、权利要求60的音频解码方法或权利要求61的计算机程序来达成。
本发明的第一方面为一种用于对具有时变高频增益信息作为边信息的音频信号进行后处理的音频后置处理器,其包含:频带提取器,用于提取所述音频信号的高频频带及所述音频信号的低频频带;高频带处理器,用于根据所述时变高频增益信息执行所述高频带的时变修改以获得经处理高频频带;以及组合器,用于组合所述经处理高频频带与所述低频频带。
本发明的第二方面为一种用于预处理音频信号的音频预处理器,其包含:信号分析器,用于分析所述音频信号以确定时变高频增益信息;频带提取器,用于提取所述音频信号的高频频带及所述音频信号的低频频带;高频带处理器,用于根据所述时变高频增益信息执行所述高频带的时变修改以获得经处理高频频带;组合器,用于组合所述经处理高频频带与所述低频频带以获得经预处理的音频信号;以及输出接口,用于产生包含所述经预处理的音频信号及作为边信息的所述时变高频增益信息的输出信号。
本发明的第三方面为一种用于编码音频信号的音频编码设备,其包含:第一方面的音频预处理器,被配置为产生具有时变高频增益信息作为边信息的输出信号;核心编码器,用于产生核心经编码信号及核心边信息;以及输出接口,用于产生包含所述核心经编码信号、所述核心边信息以及作为额外边信息的所述时变高频增益信息的经编码信号。
本发明的第四方面为一种音频解码设备,其包含:输入接口,用于接收包含核心经编码信号、核心边信息以及作为额外边信息的时变高频增益信息的经编码音频信号;核心解码器,用于使用所述核心边信息来解码所述核心经编码信号以获得经解码核心信号;以及后置处理器,用于根据上文的第二方面使用所述时变高频增益信息对所述经解码核心信号进行后处理。
本发明的第五方面为一种对具有时变高频增益信息作为边信息的音频信号进行后处理的方法,其包含:提取所述音频信号的高频频带及所述音频信号的低频频带;根据所述时变高频增益信息执行所述高频带的时变修改以获得经处理高频频带;以及组合所述经处理高频频带与所述低频频带。
本发明的第六方面为一种预处理音频信号的方法,其包含:分析所述音频信号以确定时变高频增益信息;提取所述音频信号的一高频频带及所述音频信号的低频频带;根据所述时变高频增益信息执行所述高频带的时变修改以获得经处理高频频带;组合所述经处理高频频带与所述低频频带以获得经预处理的音频信号;以及产生包含所述经预处理的音频信号及作为边信息的所述时变高频增益信息的输出信号。
本发明的第七方面为一种编码音频信号的方法,其包含:第六方面的音频预处理的方法,被配置为产生具有时变高频增益信息作为边信息的输出信号;产生核心经编码信号及核心边信息;以及产生包含所述核心经编码信号、所述核心边信息以及作为额外边信息的所述时变高频增益信息的经编码信号。
本发明的第八方面为一种音频解码方法,其包含:接收包含核心经编码信号、核心边信息以及作为额外边信息的时变高频增益信息的经编码音频信号;使用所述核心边信息来解码所述核心经编码信号以获得经解码核心信号;以及根据第五方面使用所述时变高频增益信息来后处理所述经解码核心信号。
本发明的第九方面关于一种计算机程序或一种具有存储于其上的计算机程序的非暂时性存储介质,所述计算机程序在计算机或处理器上运行时执行根据以上第五方面、第六方面、第七方面或第八方面的方法中的任一个。
本发明提供频带选择性高频处理,诸如预处理器中的选择性衰减或后置处理器中的选择性放大,以便选择性地编码某一类别的信号,诸如具有用于高频带的时变高频增益信息的瞬时信号。因此,经预处理的信号为具有直接的时变高频增益信息的形式的额外边信息及信号本身的信号,使得某一类别的信号(诸如瞬时信号)在经预处理的信号中不再出现或仅较小程度地出现。在音频后处理中,原始信号形状通过根据作为边信息的与音频信号相关联的时变高频增益信息执行高频频带的时变乘法来恢复,使得,在最后(即,在由预处理、编码、解码以及后处理组成的链之后),收听者未感知与原始信号的实质差异,且特别地,未感知具有降低的瞬时性质的信号,尽管内部核心编码器/核心解码器块(其中处理对于编码器处理已导致一方面减小的必需比特数及另一方面增加的音频质量的较小瞬时信号的位置),这是因为难以编码的类别的信号已在编码器实际开始其任务之前从信号移除。然而,难以编码的信号部分的移除并不导致降低的音频质量,因为这些信号部分在解码器操作之后通过音频后处理被重建。
在优选实施例中,预处理器还放大与平均背景位准相比略微安静的部分,且后置处理器使它们衰减。此额外处理对个别强烈攻击及连续瞬时事件之间的部分是可能有用的。
随后,概述优选实施例的特定优点。
HREP(高分辨率包络处理)为用于主要由许多密集瞬时事件(诸如鼓掌、雨滴声等)组成的信号的经改进编码的工具。在编码器侧,所述工具通过分析输入信号、使瞬时事件的高频部分衰减且因此在时间上平坦化以及产生少量边信息(针对立体声信号,1至4kbps),在实际感知音频编码解码之前充当具有高时间分辨率的预处理器。在解码器侧,所述工具通过强化且因此在时间上整形瞬时事件的高频部分、利用在编码期间所产生的边信息,充当音频编码解码之后的后置处理器。应用HREP的益处加倍:HREP通过减少输入信号的短时间动态而放松强加于编码器的比特率需求;另外,HREP确保解码器的(上)混频阶段中的恰当包络复原,此在参数性多声道编码技术已应用于编码解码内的情况下更加重要。
此外,本发明是有利的,因为本发明通过使用适当的信号处理方法(例如,一方面预处理,或另一方面后处理)增强类鼓掌信号的编码性能。
本发明的另一优点为,本发明的高分辨率包络处理(HREP)(即,音频预处理或音频后处理)通过执行编码器之前的预平坦化或解码器之后的对应反平坦化解决了现有技术问题。
随后,概述针对HREP信号处理的本发明的实施例的特性及新颖特征,且描述特有优点。
HREP处理通过滤波器被拆分成仅两个频带中的音频信号。此使得处理简单且具有低计算及结构复杂度。仅处理高频带,低频带以未修改方式通过。
这些频带是通过输入信号的低通滤波以计算第一频带而得出的。高通(第二)频带是通过从输入信号减去低通分量而简单导出的。以此方式,仅一个滤波器必须被明确地计算(而非两个),此使复杂度降低。替代地,经高通滤波的信号能够被明确地计算,且低通分量可作为输入信号与高通信号之间的差而导出。
为了支持低复杂度后置处理器实施,以下限制是可能的
·作用中的HREP声道/对象的限制
·对非不重要的最大传输增益因子g(k)的限制(0dB的不重要增益因子减轻对于相关联DFT/IDFT对的需要)
·有效率的***基2稀疏拓朴中DFT/iDFT的计算。
在实施例中,编码器或与核心编码器相关联的音频预处理器被配置为限制HREP同时在作用中的声道或对象的最大数目,或解码器或与核心解码器相关联的音频后置处理器被配置为仅对HREP同时在作用中的最大数目个声道或对象执行后处理。针对作用中声道或对象的限制的优选数目为16且甚至更优选为8。
在又一实施例中,HREP编码器或与核心编码器相关联的音频预处理器被配置为将输出限制至非不重要增益因子的最大值,或解码器或与核心解码器相关联的音频后置处理器被配置为使得值“1”的不重要增益因子并不计算DFT/iDFT对,而使无变化(经开窗)时域信号通过。对每个帧及声道或对象,针对非不重要增益因子的限制的优选数目为24且甚至更优选为16。
在又一实施例中,HREP编码器或与核心编码器相关联的音频预处理器被配置为计算有效率的***基2稀疏拓朴中的DFT/iDFT,或解码器或与核心解码器相关联的音频后置处理器被配置为也计算有效率的***基2稀疏拓朴中的DFT/iDFT。
HREP低通滤波器能够通过使用稀疏FFT算法来有效地实施。此处,给出从N=8点时间抽取基2FFT拓朴开始的示例,其中仅X(0)及X(1)是进一步处理所需的;因此,E(2)及E(3)以及O(2)及O(3)并不需要;接下来,设想两个N/2点DFT各自被进一步细分成两个N/4点DFT+后续蝶形。现在,可以以如图15中所说明的类似方式重复上述省略。与基于混合式滤波器组的增益控制方案(其中处理频带交叉频率通过第一滤波器组级来指示,且实际上与奈奎斯特频率的二次方分数相关联)相比,HREP的拆分频率能够/可以通过调适滤波器来自由地调整。此实现对信号特性及音质要求的最佳适应。
与基于混合式滤波器组的增益控制方案相比,不需要长滤波器以分离处理频带,以便避免第二滤波器组级之后的混叠问题。此情况是可能的,因为HREP为独立的前置/后置处理器,其不一定必须用临界取样滤波器组进行操作。
与其他增益控制方案相比,HREP动态地适应信号的局部统计(计算输入高频背景能量包络的双侧滑动平均值)。此将输入信号的动态减少至其原始大小的某一分数(所谓的α因子)。此实现方案的“温和”操作,不会由于与音频编解码器的不受期望的交互而引入伪讯。
与其他增益控制方案相比,HREP能够补偿由低比特率音频编解码器引起的动态中的额外损失,通过将其模型化为“损失某一分数的能量动态”(所谓的β因子)及恢复此损失。
HREP前置/后置处理器对在量化不存在的情况下(即,无编码解码器的情况下)(接近)完美地重建。
为了达成此目标,后置处理器根据高频幅度加权因子而对拆分滤波器使用自适应斜率,且通过在时域中应用校正因子而校正在恢复应用于重叠T/F变换的时变频谱权重时出现的内插误差。
HREP实施可包含所谓的后设增益控制(Meta Gain Control,MGC),其优雅地控制由HREP处理提供的感知效应的强度,且可避免处理非鼓掌信号时的伪讯。因此,它缓解外部输入信号分类的准确度要求以控制HREP的应用。
鼓掌分类结果至MGC及HREP设置的映射。
HREP为独立的前置/后置处理器,其涵盖所有其他编码器组件,包括带宽扩展及参数空间编码工具。
HREP经由高频时间包络的预平坦化来放松对低比特率音频编码器的要求。有效地,较少短块将在编码器中被触发,且将需要较少的作用中TNS滤波器。
HREP通过减少由于有限时间空间线索分辨率通常发生的经处理声道之间的串扰而也改进参数性多声道编码。
编码解码器拓朴:与TNS/TTS、IGF以及立体声填充的交互
比特流格式:HREP信令(signaling)
附图说明
随后在所附附图的上下文中描述本发明的优选实施例,其中:
图1说明根据实施例的音频后置处理器;
图2说明图1的频带提取器的优选实施;
图3a为具有时变高频增益信息作为边信息的音频信号的示意性表示;
图3b为由频带提取器、高频带处理器或组合器进行的处理的示意性表示,使用具有重叠区域的重叠块;
图3c说明具有重叠加法器的音频后置处理器;
图4说明图1的频带提取器的优选实施;
图5a说明音频后置处理器的另一优选实施;
图5b说明音频后置处理器(HREP)在MPEG-H 3D音频解码器的架构中的优选嵌入;
图5c说明音频后置处理器(HREP)在MPEG-H 3D音频解码器的架构中的另一优选嵌入;
图6a说明含有对应位置信息的边信息的优选实施例;
图6b说明用于音频后置处理器的与边信息解码器组合的边信息提取器;
图7说明根据优选实施例的音频预处理器;
图8a说明由音频预处理器执行的步骤的流程图;
图8b说明由音频预处理器的信号分析器执行的步骤的流程图;
图8c说明由音频预处理器的信号分析器、高频带处理器以及输出接口执行的程序的流程图;
图8d说明由图7的音频预处理器执行的程序;
图9a说明根据实施例的具有音频预处理器的音频编码设备;
图9b说明包含音频后置处理器的音频解码设备;
图9c说明音频预处理器的优选实施;
图10a说明具有多声道/多对象功能的音频编码设备;
图10b说明具有多声道/多对象功能的音频解码设备;
图10c说明预处理器及后置处理器至编码/解码链中的嵌入的另一实施;
图11说明立体声鼓掌信号的高频时间包络;
图12说明增益修改处理的功能;
图13a说明基于滤波器的增益控制处理;
图13b说明针对图13a的对应滤波器的不同滤波器功能;
图14说明混合式滤波器组情况下的增益控制;
图15说明稀疏数字傅里叶变换实施的实施;
图16说明收听测试概述;
图17a说明针对128kbps 5.1声道测试的绝对MUSHRA分数;
图17b说明针对128kbps 5.1声道测试的不同MUSHRA分数;
图17c说明针对128kbps 5.1声道测试鼓掌信号的绝对MUSHRA分数;
图17d说明针对128kbps 5.1声道测试鼓掌信号的不同MUSHRA分数;
图17e说明针对48kbps立体声测试的绝对MUSHRA分数;
图17f说明针对48kbps立体声测试的不同MUSHRA分数;
图17g说明针对128kbps立体声测试的绝对MUSHRA分数;以及
图17h说明针对128kbps立体声测试的不同MUSHRA分数。
具体实施方式
图1说明用于对具有时变高频增益信息104作为图3a中所说明的边信息106的音频信号102进行后处理的音频后置处理器100的优选实施例。所述音频后置处理器包含用于提取音频信号102的高频频带112及音频信号102的低频频带114的频带提取器110。此外,根据此实施例的音频后置处理器包含高频带处理器120,所述高频带处理器120用于根据时变高频增益信息104执行高频频带112的时变修改以获得经处理高频频带122。此外,所述音频后置处理器包含组合器130,所述组合器130用于组合经处理高频频带122与低频频带114。
优选地,高频带处理器120根据用于此特定频带的时变高频增益信息执行高频频带的选择性放大。这是用以消除(undo)或重建原始高频频带,因为对应高频频带在随后将描述的音频预处理器(诸如,图7的音频预处理器)中之前已被衰减。
特别地,在实施例中,向频带提取器110在其输入处提供如从具有相关联边信息的音频信号提取的音频信号102。此外,频带提取器的输出连接至组合器的输入。此外,组合器的第二输入连接至高频带处理器120的输出以将经处理高频频带122馈入至组合器130中。此外,频带提取器110的另一输出连接至高频带处理器120的输入。此外,高频带处理器额外具有用于接收时变高频增益信息的控制输入,如图1中所说明。
图2说明频带提取器110的优选实施。特别地,频带提取器110包含低通滤波器111,所述低通滤波器111在其输出处传递低频频带114。此外,高频频带112通过从音频信号102(即,已输入至低通滤波器111中的音频信号)减去低频频带114而产生。然而,减法器113能够在通常的实际逐样本减法之前执行某种预处理,如相对于图4中的音频信号开窗器121或图5a中的对应块121将示出的。因此,如图2中所说明,频带提取器110可包含低通滤波器111及随后连接的减法器113,即,减法器113具有连接至低通滤波器111的输出的输入且具有连接至低通滤波器111的输入的另一输入。
然而,替代地,频带提取器110还可通过实际上使用高通滤波器及通过从音频信号减去高通输出信号或高频频带而得到低频频带来实施。或者,替代地,频带提取器能够在无任何减法器的情况下(即,例如,通过两通道滤波器组的低通滤波器与高通滤波器的组合)实施。优选地,图1(或图2)的频带提取器110被实施为提取仅两个频带,即,单个低频频带及单个高频频带,而这些频带一起横跨音频信号的全部频率范围。
优选地,由频带提取器110提取的低频频带的截止或转角频率介于音频信号的最大频率的1/8与1/3之间,且优选地等于音频信号的最大频率的1/6。
图3a说明具有块300、301、302、303的序列中的有用信息的音频信号102的示意性表示,其中,出于说明原因,块301被视为取样值的第一块,且块302被视为音频信号的取样值的稍后第二块。块300在时间上先于第一块301且块303在时间上在块302之后,且第一块301及第二块302在时间上彼此邻近。此外,如图3a中的106处所说明,每个块具有与其相关联的边信息106,其包含用于第一块301的第一增益信息311且包含用于第二块的第二增益信息312。
图3b说明频带提取器110(及高频带处理器120及组合器130)在重叠块中的处理。因此,用于计算第一块301的窗口313与用于提取第二块302的窗口314重叠,且两个窗口313及314在重叠范围321内重叠。
虽然图3a及图3b中的标度概述每个块的长度为窗口的长度的大小的一半,但情形也可不同,即,每个块的长度的大小与用于将对应块开窗的窗口的大小相同。实际上,这是图4或特别的针对后置处理器的图5a或针对预处理器的图9c中所说明的这些后续优选实施例的优选实施。
因而,重叠范围321的长度为窗口的大小的一半,对应于取样值的块的大小或长度的一半。
特别地,针对音频信号102的取样值的块的序列300至303而提供时变高频增益信息,使得取样值的第一块301具有与其相关联的第一增益信息311且音频信号的取样值的稍后第二块302具有不同的第二增益信息312,其中频带提取器110被配置为从取样值的第一块301提取第一低频频带及第一高频频带且从取样值的第二块302提取第二低频频带及第二高频频带。此外,高频带处理器120被配置为使用第一增益信息311来修改第一高频频带以获得第一经处理高频频带且使用第二增益信息312来修改第二高频频带以获得第二经处理高频频带。此外,组合器130接着被配置为组合第一低频频带与第一经处理高频频带以获得第一组合块且组合第二低频频带与第二经处理高频频带以获得第二组合块。
如图3c中所说明,频带提取器110、高频带处理器120及组合器130被配置为对图3b中所说明的重叠块进行操作。此外,音频后置处理器100还包含重叠加法器140,其用于通过在块重叠范围321中将第一块301的音频样本与第二块302的音频样本相加来计算经后处理的部分。优选地,重叠加法器140被配置用于使用减小或淡出函数对第一块的第二半的音频样本加权及使用淡入或增加函数对第一块之后的第二块的第一半加权。淡出函数及淡入函数可为对于淡入函数单调增加且对于淡出函数单调减小的线性或非线性函数。
在重叠加法器140的输出处,存在经后处理的音频信号的样本的序列,如例如图3a中所说明的,但现在不具有任何边信息,因为边信息已由音频后置处理器100“消耗”。
图4说明图1中所说明的音频后置处理器的频带提取器110,或替代地,图7的音频预处理器200的频带提取器210的优选实施。图1的频带提取器110或图7的频带提取器210两者能够以相同方式实施,如图4中所说明或如针对后置处理器的图5a或针对预处理器的图9c中所说明。在实施例中,音频后置处理器包含具有用于使用分析窗口来产生音频信号的取样值的块的序列的分析开窗器115作为特定特征的频带提取器,其中块是通过重叠范围321时间重叠的,如图3b中所说明。此外,频带提取器110包含DFT处理器116,其用于执行用于产生频谱值的块的序列的离散傅立叶变换。因此,取样值的每个个别块被转换成作为频谱值的块的频谱表示。因此,相同数目个频谱值的块被产生,如同它们为取样值的块。
DFT处理器116具有连接至低通整形器117的输入的输出。低通整形器117实际上执行低通滤波动作,且低通整形器117的输出连接至DFT逆处理器118以用于产生低通时域取样值的块的序列。最后,合成开窗器119设置于DFT逆处理器的输出处以用于使用合成窗口将低通时域取样值的块的序列开窗。合成开窗器119的输出为时域低通信号。因此,块115至119对应于图2的“低通滤波器”块111,且块121及113对应于图2的“减法器”113。因此,在图4中所说明的实施例中,频带提取器进一步包含音频信号开窗器121,其用于使用分析窗口及合成窗口将音频信号102开窗以获得音频信号值的经开窗块的序列。特别地,音频信号开窗器121与分析开窗器115和/或合成开窗器119同步,使得由合成开窗器119输出的低通时域取样值的块的序列与由块121输出的音频信号值的经开窗块的序列(其为完全频带信号)时间同步。
然而,完全频带信号现在使用音频信号开窗器121进行开窗,且因此,逐样本减法由图4中的逐样本减法器113执行以最终获得高通信号。因此,高通信号在块的序列中额外可获得,因为逐样本减法113已针对每个块执行。
此外,高频带处理器120被配置为将修改应用于如由图3c中的块110产生的高通时域取样值的块的序列的每个块的每个样本。优选地,针对块的样本的修改取决于此外先前块的信息及此外当前块的信息,或替代或额外地,此外当前块的信息及此外下一个块的信息。特别地且优选地,修改通过图5a的乘法器125进行,且修改之前为内插校正块124。如图5a中所说明,内插校正在先前增益值g[k-1]、g[k]及此外当前块之后的下一个块的因子g[k+1]之间进行。
此外,如所陈述,乘法器125由增益补偿块126控制,所述增益补偿块126一方面由beta_factor 500且另一方面由用于当前块的增益因子g[k]104来控制。特别地,beta_factor用以计算由乘法器125应用的实际修改,被指示为来自与当前块相关联的增益因子g[k]的1/gc[k]。
因此,beta_factor解释瞬时的额外衰减,其通过此beta_factor近似地模型化,其中瞬时事件的此额外衰减是在图5a中所说明的后置处理器之前操作的编码器或解码器的副作用。
预处理及后处理通过将输入信号拆分成低通(LP)部分及高通(HP)部分而应用。此拆分能够通过以下操作实现:a)使用FFT计算LP部分或HP部分;b)使用零相位FIR滤波器计算LP部分或HP部分;或c)使用在两个方向上所应用的IIR滤波器(达成零相位)计算LP部分或HP部分。给定LP部分或HP部分,另一部分能够通过时域中的简单减法来获得。时间相依标量增益被应用至HP部分,其被添加回至LP部分以形成经预处理或经后处理的输出。
使用FFT将信号拆分成LP部分及HP部分(图5a、图9c)
在建议实施中,FFT用以计算LP部分。令FFT变换大小为N,特别地,N=128。输入信号s被拆分成大小为N的块,所述块是半重叠的,从而产生输入块其中k为块索引且i为块k中的样本位置。窗口w[i]被应用(115,215)于ib[k],特别地,正弦窗口,其被定义为
其中0≤i<N,
且在也应用FFT(116,216)之后,获得复数系数c[k][f]为
c[k][f]=FFT(w[i]×ib[k][i]),其中
在编码器侧(图9c)(217a)上,为了获得LP部分,施加c[k][f]与处理形状ps[f]的逐元素乘法(217a),所述处理形状ps[f]由以下组成:
lp_size=lastFFTLine[sig]+1-transitionWidthLines[sig]参数表示低通区域的FFT线的宽度,且且tr_size=transitionWidthLines[sig]参数表示转变区域的FFT线的宽度。建议的处理形状的形状为线性的,然而,可使用任何任意形状。
LP块lpb[k]通过再次应用IFFT(218)及开窗(219)而获得为
lpb[k][i]=w[i]×IFFT(ps[f]×c[k][f]),其中0≤i<N。
以上等式对于图9c的编码器/预处理器有效。对于解码器或后置处理器,使用自适应处理形状rs[f]替代ps[f]。
HP块hpb[k]接着通过时域中的简单减法(113、213)而获得
hpb[k][i]=in[k][i]×w2[i]-lpb[k][i],其中0≤i<N。
输出块ob[k]通过将标量增益g[k]应用于HP块而获得为(225)(230)
ob[k][i]=lpb[k][i]+g[k]×hpb[k][i]
输出块ob[k]最后使用重叠加法与先前输出块ob[k-1]组合,从而形成经预处理的输出信号o的个额外最终样本为
其中
所有处理针对每个输入声道单独进行,每个输入声道通过sig来索引。
后处理侧的自适应重建形状(图5a)
在解码器侧,为了得到转变区域中的完美重建,必须使用转变区域中的自适应重建形状rs[f](117b)来替代编码器侧所使用的处理形状ps[f](217b),取决于处理形状ps[f]及g[k]为
在LP区域中,ps[f]及rs[f]两者为一,在HP区域中,ps[f]及rs[f]两者为零,它们仅在转变区域中不同。此外,当g[k]=1时,则得到rs[f]=ps[f]。
自适应重建形状能够通过保证转变区域中的FFT线的量值在后处理之后被恢复来演绎,从而给出如下关系
所述处理类似于预处理侧,使用rs[f]替代ps[f]除外,
lpb[k][i]=w[i]×IFFT(rs[f]×c[k][f]),其中i={0,…,N-1}
且输出块ob[k][i]被使用标量增益g[k]的倒数计算为(125)
后处理侧的内插校正(124)(图5a)
输出块k的第一半对最终经预处理的输出的贡献通过给出,其中因此,归因于开窗及重叠加法操作,预处理侧上所应用的增益g[k-1]及g[k]隐含地被内插。HP区域中的每个FFT线的量值在时域中被有效地乘以标量因子
类似地,在后处理侧,HP区域中的每个FFT线的量值在时域中被有效地乘以因子
为了达成完美重建,两个先前项的乘积
(其表示HP区域中的每个FFT线的位置j处的总时域增益)应在输出块k的第一半中标准化为
corr[j]的值可被简化且重写为
其中
输出块k的第二半对最终经预处理的输出的贡献通过给出,且内插校正可基于增益g[k]及g[k+1]而被写为
其中
输出块k的第二半的更新值通过下式给出
预处理侧的增益计算(图9c)
在预处理侧,块k的HP部分(假设含有瞬时事件)使用标量增益g[k]进行调整,以便使其更类似于其邻居中的背景。块k的HP部分的能量将由hp_e[k]表示,且块hp_e[k]的邻居中的HP背景的平均能量将由hp_bg_e[k]表示。
控制调整的量的参数α∈[0,1]被定义为
gfloat[k]的值经量化且削减至extendedGainRange配置选项的选择值所允许的范围,以产生增益索引gainIdx[k][sig]为
gainIdx[k][sig]=min(max(0,gidx),2×GAIN_INDEX_OdB-1)。
用于处理的值g[k]为量化值,在解码器侧定义为
当α为0时,增益具有值gfloat[k]=1,因此不进行调整,且当α为1时,增益具有值gfloat[k]=hp_bg_e[k]/hp_e[k],因此,经调整能量被变得与背景的平均能量一致。以上关系可被重写为
gfloat[k]×hp_e[k]=hp_bg_e[k]+(1-α)×(hp_e[k]-hp_bg_e[k]),
指示经调整能量gfloat[k]×hp_e[k]围绕背景的对应平均能量hp_bg_e[k]的变化以因子(1-α)减小。在建议***中,使用α=0.75,因此,每个块的HP能量围绕背景的对应平均能量的变化减小至原来的25%。
后处理侧的增益补偿(126)(图5a)
核心编码器及解码器引入瞬时事件的额外衰减,此通过取决于核心编码器配置及帧的信号特性使用参数β∈[0,1]引入额外衰减步骤而近似地模型化为
指示:在通过核心编码器及解码器之后,经解码能量gcfloat[k]×hp_e[k]围绕背景的对应平均能量hp_bg_e[k]的变化以额外因子(1-β)进一步减小。
仅使用g[k]、α以及β,可以将解码器侧处的gc[k]的估计计算为
参数被量化为betaFactorIdx[sig]且作为用于每个帧的边信息被传输。补偿增益gc[k]可使用beta_factor被计算为
gc[k]=(1+beta_factor)×g[k]-beta_factor
后设增益控制(Meta Gain Control,MGC)
现场音乐会等的鼓掌信号通常不仅含有手掌拍打的声音,并且含有人群喊叫、显著口哨以及观众的跺脚声。常常,演出者在鼓掌期间发出声明,或乐器(操纵)声音与持久鼓掌重叠。此处,时间包络整形的现有方法(如STP或GES)在非鼓掌分量在干扰声音的恰好瞬时启动的情况下可削弱这些非鼓掌分量。因此,信号分类器保证这种信号期间的撤销启动。HREP提供所谓的后设增益控制(MGC)的特征。MGC用以优雅地放松HREP处理的感知效应,从而避免非常准确的输入信号分类的必要性。利用MGC,与周围环境及所有种类的干扰声音混合的鼓掌能够在不引入非所需假像的情况下被处置。
如之前所论述,优选实施例额外具有控制参数807,或替代地具有在图5a中以500指示的控制参数beta_factor。替代地或额外地,如之前所论述的个别因子α或β可作为额外边信息被传输,但优选地具有由一方面β及另一方面α组成的单个控制参数beta_factor,其中β为0与1之间的参数且取决于核心编码器配置且还可选地取决于信号特性,且额外地,因子α确定每个块的高频部分能量围绕背景的对应平均能量的变化,且α也为0与1之间的参数。如果一个帧中的瞬时的数目非常小,如1-2,则TNS可以可选地更好地保留它们,且结果,帧的经由编码器及解码器的额外衰减可减小。因此,进阶编码器可相应地略微减小beta_factor以防止过度放大。
换言之,MGC当前使用类概率参数(如g'=g^p)来修改所计算的增益g(此处由g_float[k]表示),类概率参数在增益被量化之前将增益朝1挤压。beta_factor参数为用以控制经量化增益的扩展的额外机制,然而,当前实施使用基于核心编码器配置(诸如比特率)的固定值。
Beta_factor通过βx(1-α)/α被确定且优选地在编码器侧被计算且加以量化,且除时变高频增益信息g[k]外,经量化beta_factor索引betaFactorIdx作为边信息被每个帧传输一次。
特别地,额外控制参数807(诸如β或beta_factor 500)具有低于时变高频增益信息的时间分辨率的时间分辨率,或额外控制参数甚至针对特定核心编码器配置或音频片段是固定的。
优选地,高频带处理器、频带提取器以及组合器在重叠块中操作,其中使用在块长度的40%与60%之间的重叠范围且优选地,50%的重叠范围321。
在其他实施例中或在相同实施例中,块长度在0.8ms与5.0ms之间。
此外,优选地或额外地,由高频带处理器120执行的修改为根据g[k],额外地根据控制参数500且额外地符合如在图5a的块124的上下文中所论述的内插校正,在时域中应用于块的每个样本的时间相依乘法因子。
此外,低频频带的截止或转角频率在音频信号的最大频率的1/8与1/3之间且优选地等于音频信号的最大频率的1/6。
此外,在优选实施例中,由图5a的117b及117a组成的低通整形器被配置为应用取决于对应块的时变高频增益信息的整形函数rs[f]。之前已论述整形函数rs[f]的优选实施,但也可使用替代函数。
此外,优选地,整形函数rs[f]额外取决于音频预处理器200中所使用的整形函数ps[f],音频预处理器用于使用对应块的时变高频增益信息来修改或衰减音频信号的高频频带。之前已关于图5a论述rs[f]与ps[f]的特定相依性,但也可使用其他相依性。
此外,如之前关于图5a的块124所论述,针对块的样本的修改额外取决于针对某一样本所应用的开窗因子,如之前例如关于取决于窗口函数w[j]且甚至优选地来自窗口因子的平方w[j]的校正因子所论述的分析窗口函数或合成窗口函数所定义的。
如之前所陈述,特别地关于图3b,由频带提取器、组合器以及高频带处理器执行的处理在重叠块中执行,使得稍早块的稍后部分来源于作为在时间上与稍早块邻近的稍后块的稍早部分的音频信号的相同音频样本,即,处理在重叠范围321内使用所述重叠范围执行。重叠块313及314的此重叠范围321等于稍早块的二分之一,且稍后块就样本值的数目而言具有与稍早块相同的长度,且后置处理器额外包含用于执行重叠加法运算的重叠加法器140,如图3c中所说明。
特别地,频带提取器110被配置为将在拆分滤波器的停止范围与通过范围之间的拆分滤波器111的斜率应用于音频样本的块,其中此斜率取决于样本的块的时变高频增益信息。优选的斜率相对于如前所定义的且如图5a的上下文中所论述的取决于增益信息g[k]的斜率rs[f]给出,但其他相依性也可为有用的。
一般而言,高频增益信息优选地具有当前块k的增益值g[k],其中与斜率针对较低增益值的增加相比,斜率针对较高增益值增加更强。
图6a说明图3的边信息106的更详细表示。特别地,所述边信息包含增益索引601的序列、增益精度信息602、增益补偿信息603及补偿精度信息604。
优选地,音频后置处理器包含边信息提取器610,其用于从具有边信息的音频信号提取音频信号102及边信息106,且边信息被转发至边信息解码器620,所述边信息解码器620基于对应增益精度信息及对应补偿精度信息而产生且计算经解码增益621和/或经解码增益补偿值622。
特别地,精度信息确定不同值的数目,其中与指示增益值可具有的较少数目个值的较低增益精度信息相比,高增益精度信息定义增益索引可具有的较多数目个值。
因此,与指示用于传递增益信息的较少数目个比特的较低增益精度信息相比,高精度增益信息可指示用于传递增益索引的较多数目个比特。针对增益量化,高精度信息可指示4个比特(用于增益信息的16个值),且较低增益信息仅可为3个比特(8个值)。因此,增益精度信息可例如为指示为“extendedGainRange”的简单标记。在后一情况中,配置标记extendedGainRange并不指示准确度或精度信息,而是指示增益是否具有正常范围或延伸范围。延伸范围含有正常范围中的所有值,且额外含有使用正常范围可能的更小及更大值。在某些实施例中能够使用的延伸范围可选地允许针对强瞬时事件应用更剧烈的预处理效果,否则其可被削减至正常范围。
类似地,对于β因子精度,即,对于增益补偿精度信息,也可使用标记,所述标记概述beta_factor索引是否使用3个比特或4个比特,且此标记可被称为extendedBetaFactorPrecision。
优选地,FFT处理器116被配置为执行逐块离散傅立叶变换(具有N个取样值的块长度),以通过执行稀疏离散傅立叶变换算法来获得低于N/2个复数频谱值的数目的数个频谱值,其中针对最大频率以上的频谱值的分支的计算被跳过,且频带提取器被配置为通过使用上至转变开始频率范围的频谱值及通过对转变频率范围内的频谱值加权来计算低频频带信号,其中转变频率范围仅延伸直至最大频率或小于最大频率的频率。
此程序在例如图15(其中某些蝶形操作被说明)中进行说明。给出从N=8点时间抽取基2FFT拓朴开始的示例,其中仅X(0)及X(1)是进一步处理所需的;因此,E(2)及E(3)以及O(2)及O(3)并不需要。接下来,设想两个N/2点DFT各自被进一步细分成两个N/4点DFT及后续蝶形。现在,可以如图15中所说明的类似方式重复上述省略。
随后,关于图7更详细地论述音频预处理器200。
音频预处理器200包含信号分析器260,其用于分析音频信号202以确定时变高频增益信息204。
额外地,音频预处理器200包含频带提取器210,其用于提取音频信号202的高频频带212及音频信号202的低频频带214。此外,提供高频带处理器220,其用于根据时变高频增益信息204执行高频频带212的时变修改以获得经处理高频频带222。
音频预处理器200额外包含组合器230,其用于组合经处理高频频带222与低频频带214以获得经预处理的音频信号232。额外地,提供输出接口250,其用于产生包含经预处理的音频信号232及时变高频增益信息204作为边信息206的输出信号252,边信息206对应于图3的上下文中所论述的边信息106。
优选地,信号分析器260被配置为分析音频信号以确定音频信号的第一时间块301中的第一特性(如图8a的块801中所说明)及第二时间块302中的第二特性(如图8a的块802中所说明),第二特性比第一特性更瞬时。
此外,分析器260被配置为确定用于第一特性的第一增益信息311及用于第二特性的第二增益信息312,如图8a中的块803处所说明。接着,高频带处理器220被配置为使根据第二增益信息的第二时间块302的高频带部分比根据第一增益信息的第一时间块301的高频带部分衰减更强,如图8a的块804中所说明。
此外,信号分析器260被配置为针对一个或多个时间块的高频带的背景能量计算背景测量,所述一个或多个时间块在时间上相邻地放置于当前时间块之前或放置于当前时间块之后或放置在当前时间块之前及之后或包括当前时间块或排除当前时间块,如图8b的块805中所说明。此外,如块808中所说明,计算针对当前块的高频带的能量测量,且如块809中所概述,使用一方面背景测量及另一方面能量测量来计算增益因子。因此,块809的结果为图8b中的810处说明的增益因子。
优选地,信号分析器260被配置为基于在g_float之前所说明的等式来计算增益因子810,但也可执行其他计算方法。
此外,参数α影响所述增益因子,使得每个块的能量围绕背景的对应平均能量的变化减小至少50%且优选地减小75%。因此,每个块的高通能量围绕背景的对应平均能量的变化优选地借助于因子α减小至原来的25%。
此外,后设增益控制块/功能806被配置为产生控制因子p。在实施例中,MGC块806使用统计检测方法用于识别潜在瞬时。对于每个块(具有例如128个样本),后设增益控制块/功能产生在0与1之间的类概率“置信”因子p。将应用于块的最终增益为g'=g^p,其中g为原始增益。当p为零时,g'=1,因此,不应用处理,且当p为1时,g'=g,应用完全处理强度。
MGC 806用以在预处理期间在量化之前将增益朝1挤压,以将处理的强度控制在不改变与完全效果之间。参数beta_factor(其为参数β的经改进参数化)用以在后处理期间在反量化之后扩展增益,且一个可能性为使用由比特率定义的针对每个编码器配置的固定值。
在实施例中,参数α固定在0.75。因此,因子α为平均背景周围的能量变化的减小,且所述因子在MPEG-H实施中固定至75%。图8b中的控制因子p充当类概率“置信”因子p。
如图8c中所说明,信号分析器被配置为对增益信息值的原始序列进行量化及削减,以获得时变高频增益信息作为经量化值的序列,且高频带处理器220被配置为根据经量化值的序列而非根据未量化值来执行高频带的时变修改。
此外,输出接口250被配置为将经量化值的序列引入边信息206中作为时变高频增益信息204,如图8c中以块814所说明。
此外,音频预处理器200被配置为确定815另外增益补偿值,其描述由随后连接的编码器或解码器引入的能量变化的损失,且额外地,音频预处理器200量化816此另外增益补偿信息且将此经量化的另外增益补偿信息引入817至边信息中,且额外地,信号分析器优选地被配置为在确定时变高频增益信息时应用后设增益控制,以根据额外控制数据807逐渐减小或逐渐增强高频带处理器对音频信号的影响。
优选地,音频预处理器200的频带提取器210如图4中或图9c中所说明更详细地实施。因此,频带提取器210被配置为使用低通滤波器装置111提取低频频带且通过以与先前关于后置处理器装置已论述的方式完全相同的方式从音频信号减去113低频频带而提取高频频带。
此外,频带提取器210、高频带处理器220以及组合器230被配置为在重叠块中操作。组合器230额外包含重叠加法器,其用于通过在块重叠范围中将第一块的音频样本及第二块的音频样本相加来计算经后处理部分。因此,与图7的组合器230相关联的重叠加法器可与图3c中所说明的后置处理器的重叠加法器(以参考数字130表示)以相同方式实施。
在实施例中,对于音频预处理器,重叠范围320在块长度的40%与块长度的60%之间。在其他实施例中,块长度在0.8ms与5.0ms之间,和/或由高频带处理器220执行的修改为在时域中应用于块的每个样本的乘法因子,使得完全预处理的结果为具有减小瞬时性质的信号。
在又一实施例中,低频频带的截止或转角频率在音频信号202的最大频率范围的1/8与1/3之间且优选地等于音频信号的最大频率的1/6。
如例如图9c中所说明且如关于图4中的后置处理器也已论述的,频带提取器210包含分析开窗器215,其用于使用分析窗口产生音频信号的取样值的块的序列,其中这些块是时间重叠的,如图3b中以321所说明。此外,提供用于产生频谱值的块的序列的离散傅立叶变换处理器216,且还提供随后连接的低通整形器217a、217b,以用于对频谱值的每个块整形以获得频谱值的低通整形块的序列。此外,提供用于产生时域取样值的块的序列的离散傅里叶逆变换处理器218,且合成开窗器219连接至离散傅里叶逆变换处理器218的输出,以用于使用合成窗口对低通时域取样值的块的序列开窗。
优选地,由块217a、217b组成的低通整形器通过乘以个别FFT线来应用低通形状ps[f],如乘法器217a所说明。如先前关于图9c所指示地计算低通形状ps[f]。
另外,音频信号本身(即,完全频带音频信号)亦使用音频信号开窗器221被开窗,以获得音频信号值的经开窗块的序列,其中此音频信号开窗器221与分析开窗器215和/或合成开窗器219同步,使得低通时域取样值的块的序列与音频信号值的窗口块的序列同步。
此外,图7的分析器260被配置为额外提供控制参数807(用以将预处理的强度控制在无与完全效果之间)及500(即,beta_factor)作为另外边信息,其中高频带处理器220被配置为在也考虑额外控制参数807下应用修改,其中beta_factor参数的时间分辨率低于时变高频增益信息的时间分辨率,或额外控制参数针对特定音频片段是固定的。如之前所提及,来自MGC的类概率控制参数用以在量化之前朝1挤压增益,且所述参数不作为边信息被明确地传输。
此外,组合器230被配置为执行低通时域取样值的块的序列与高通时域取样值的经修改(即,经处理)块的序列的对应块的逐样本加法,以获得组合信号值的块的序列,如图3c中针对后置处理器侧所说明。
图9a说明用于编码音频信号的音频编码设备,其包含如前所论述的音频预处理器200,所述音频预处理器被配置为产生具有时变高频增益信息作为边信息的输出信号252。此外,提供核心编码器900,以用于产生核心经编码信号902及核心边信息904。另外,音频编码设备包含输出接口910,其用于产生包含核心经编码信号902、核心边信息904以及作为额外边信息106的时变高频增益信息的经编码信号912。
优选地,音频预处理器200单独地执行每个声道或每个对象的预处理,如图10a中所说明。在此情况下,音频信号为多声道或多对象信号。在图5c中所说明的又一实施例中,音频预处理器200单独地执行每个SAOC传输声道或每个高阶立体混响(HOA)传输声道的预处理,如图10a中所说明。在此情况下,音频信号为空间音频对象传输声道或高阶立体混响传输声道。
与其相比,核心编码器900被配置为对经预处理的声道232应用联合多声道编码器处理或联合多对象编码器处理或编码器间隙填充或编码器带宽扩展处理。
因此,通常,核心经编码信号902具有的声道比引入至联合多声道/多对象核心编码器900中的少,因为核心编码器900通常包含一种降混操作。
音频解码设备在图9b中说明。音频解码设备具有音频输入接口920,其用于接收包含核心经编码信号902、核心边信息904以及作为额外边信息106的时变高频增益信息104的经编码音频信号912。此外,音频解码设备包含核心解码器930,其用于使用核心边信息904解码核心经编码信号902以获得经解码核心信号102。另外,音频解码设备具有后置处理器100,其用于使用时变高频增益信息104对经解码核心信号102进行后处理。
优选地,且如图10b中所说明,核心解码器930被配置为应用多声道解码器处理或多对象解码器处理或带宽扩展解码器处理或间隙填充解码器处理,以用于产生多声道信号102的经解码声道或多对象信号102的经解码对象。因此,换言之,联合解码器处理器930通常包含几种上混,以便从经编码音频信号902中的较少数目个通道产生较多数目个个别对象/声道。这些个别声道/对象由音频后置处理器100使用针对每个声道或每个对象的个别时变高频增益信息(如图10b中以104所说明)输入至声道个别后处理中。声道个别后置处理器100输出经后处理的声道,所述经后处理的声道可输出至数字/模拟转换器及随后连接的扬声器或可输出至某种进一步处理或存储器或用于处理音频对象或音频声道的任何其他合适程序。
图10c说明类似于在图9a或9b中已说明的情形的情形,即,包含连接至用于产生比特流的编码器900的高分辨率包络处理预处理器100的完全链,且比特流由解码器930解码,且解码器输出由高分辨率包络处理器后置处理器100进行后处理以产生最终输出信号。
图16及图17a至图17h说明5.1声道扬声器收听(128kbps)的收听测试结果。另外,提供中等(48kbps)及高(128kbps)质量下的立体声耳机收听的结果。图16概括收听测试设置。所述结果在图17a至图17h说明。
在图17a中,感知质量在“良好”至“优异”范围中。应注意,类鼓掌信号在范围“良好”中的最低评分项目中。
图17b说明所有鼓掌项目呈现显著改进,而针对非鼓掌项目,未观察到感知质量的显著改变。项目中没有任一个被明显地降级。
关于图17c及图17d,概述了绝对感知质量在“良好”范围中。总体而言,在差异上,存在七个点的显著增益。个体质量增益范围在4个点与9个点之间,全部为显著的。
在图17e中,测试集的所有信号为鼓掌信号。感知质量在“一般”至“良好”范围中。一贯地,“HREP”条件得分高于“NOHREP”条件。在图17f,可看到,对于除一个以外的所有项目,“HREP”得分明显地优于“NOHREP”。观察到范围在3个点至17个点的改进。总体而言,存在12个点的显著平均增益。项目中没有任一个被明显地降级。
关于图17g及图17h,可看到,在绝对分数中,所有信号得分在范围“优异”中。在差异分数中,可以看出,即使感知质量接近透明,但对于八个信号中的六个信号,存在三个至九个点的显著改良,总体总计五个MUSHRA点的平均值。项目中没有任一个被明显地降级。
这些结果清楚地示出,优选实施例的HREP技术对于广泛范围的比特率/绝对质量中的类鼓掌信号的编码具有相当大功劳。此外,示出对非鼓掌信号不存在任何削弱。HREP为用于主要由许多密集瞬时事件(诸如鼓掌、雨声等)构成的信号的经改进感知编码的工具。应用HREP的益处是加倍的:HREP通过减少输入信号的短时动态来放松强加于编码器的比特率需求;另外,HREP确保解码器的(向上)混频阶段中的恰当包络修复,此在参数性多声道编码技术已在编码解码器中应用的情况下更加重要。主观试验已示出约12个MUSHRA点(通过HREP处理,在48kbps立体声下)及7个MUSHRA点(在128kbps 5.1声道下)的改进。
随后,参看图5b,图5b说明MPEG-H 3D音频编码器/解码器架构内的一方面后处理或另一方面预处理的实施。具体地,图5b将HREP后置处理器100说明为实施于MPEG-H 3D音频解码器内。具体地,本发明的后置处理器在图5b中以100来指示。
可看到的是,HREP解码器连接至以550说明的3D音频核心解码器的输出。另外,在上部部分中的组件550与块100之间,说明了MPEG环绕组件,其通常执行来自块560的输入处的基础声道的MPEG环绕实施的上混以在块560的输出处获得更多输出通道。
此外,图5b说明除音频核心部分外的其他组件。在音频呈现部分中,这些组件为一方面用于声道且另一方面用于对象的drc_1 570。此外,提供格式转换块580、对象呈现器590、对象元数据解码器592、SAOC 3D解码器594以及高阶立体混响(HOA)解码器596。
所有这些组件馈入重新取样器582,且重新取样器将其输出数据馈入至混频器584中。混频器将其输出信道转发至扬声器馈入586或耳机馈入588中,这些表示“链的终点”中的组件且表示在混频器584输出之后的额外后处理。
图5c说明音频后置处理器(HREP)在MPEG-H 3D音频解码器的架构中的另一优选嵌入。与图5b相比,HREP处理还应用于SAOC传输声道和/或HOA传输声道。图5c中的其他功能类似于图5b中的那些功能。
应注意,与频带提取器相关的所附权利要求同样适用于音频后置处理器及音频预处理器中的频带提取器,即使当权利要求仅针对后置处理器或预处理器中的一个中的后置处理器提供时。上述情况对于高频带处理器及组合器有效。
特定参考附录及附录A中所说明的其他实施例。
虽然已就若干实施例描述了本发明,但存在属于本发明的范围内的更改、置换及等同。还应注意,存在实施本发明的方法及组成的许多替代性方式。因此,旨在将以下所附权利要求解释为包括如属于本发明的真实精神及范围内的所有这种更改、置换及等同。
尽管已在设备的上下文中描述一些方面,但显然,这些方面还表示对应方法的描述,其中块或装置对应于方法步骤或方法步骤的特征。类似地,方法步骤的上下文中所描述的方面也表示对应块或项目或对应设备的特征的描述。可由(或使用)硬件设备(类似于例如微处理器、可编程计算机或电子电路)来执行方法步骤中的一些或全部。在一些实施例中,最重要的方法步骤中的某一个或多个可由此设备执行。
本发明的经编码音频信号可存储于数字存储介质上或可在诸如无线传输介质或诸如因特网的有线传输介质的传输介质上传输。
取决于某些实施要求,本发明的实施例可在硬件或软件中实施。实施可使用具有存储于其上的电子可读控制信号的数字存储介质来执行,例如软性磁盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存,所述电子可读控制信号与可编程计算机***协作(或能够协作),以便执行各个方法。因此,数字存储介质可为计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机***协作,以便执行本文中所描述方法中的一个。
一般而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码操作性地用于执行所述方法中的一个。程序代码可例如存储于机器可读载体上。
其他实施例包含存储于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。
换言之,因此,本发明方法的实施例为计算机程序,其具有用于当计算机程序运行于计算机上时执行本文中所描述的方法中的一个的程序代码。
因此,本发明方法的另一实施例为数据载体(或数字存储介质,或计算机可读介质),所述数据载体包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常为有形的和/或非瞬变的。
因此,本发明方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可例如被配置以经由数据通信连接(例如,经由因特网)而传递。
另一实施例包含处理元件,例如,被配置或被调适以执行本文中所描述的方法中的一个的计算机或可编程逻辑设备。
另一实施例包含其上安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。
根据本发明的另一实施例包含被配置为将用于执行本文中所描述的方法中的一个的计算机程序(例如,电子地或光学地)传送至接收器的设备或***。接收器可例如为计算机、移动装置、内存装置等。设备或***可例如包含用于将计算机程序传送至接收器的文件服务器。
在一些实施例中,可编程逻辑设备(例如,现场可编程门阵列)可用以执行本文中所描述的方法的功能中的一些或所有。在一些实施例中,现场可编程门阵列可与微处理器协作,以便执行本文中所描述的方法中的一个。一般而言,方法优选地由任何硬件设备执行。
本文中所描述的设备可使用硬件设备或使用计算机或使用硬件设备与计算机的组合来实施。
本文中所描述的方法可使用硬件设备或使用计算机或使用硬件设备与计算机的组合来执行。
上文所描述的实施例仅仅说明本发明的原理。应理解,对本文中所描述的配置及细节的修改及变化对于本领域的技术人员是显而易见的。因此,旨在仅受到接下来的权利要求的范围的限制,而不受到通过本文中的实施例的描述解释所呈现的特定细节的限制。
附录
MPEG-H 3D音频中的HREP的进一步实施例的描述
高分辨率包络处理(HREP)为用于主要由许多密集瞬时事件(诸如鼓掌、雨滴声等)组成的信号的经改进感知编码的工具。这些信号传统上非常难以针对MPEG音频编码解码器进行编码,特别在低比特率下。主观试验已示出约12个MUSHRA点(通过HREP处理,在48kbps立体声下)的改进。
执行概要
HREP工具提供针对含有密集地隔开的瞬时事件的信号(诸如鼓掌信号)的经改进编码性能,因为瞬时事件是实况记录的重要部分。类似地,雨滴声或其他声音(如烟火)可示出这种特性。不幸地,此类别的声音对现有音频编码解码器带来困难,尤其当以低比特率和/或利用参数性编码工具进行编码时。
图10c描绘装备HREP的编码解码器中的信号流。在编码器侧,工具作为预处理器起作用,其针对高频率在时间上平坦化信号,同时产生少量边信息(针对立体声信号,1至4kbps)。在解码器侧,工具作为后置处理器起作用,其针对高频率在时间上将信号整形,利用边信息。应用HREP的益处加倍:HREP通过减少输入信号的短时动态来放松强加于编码器的比特率需求;另外,HREP确保解码器的(向上)混频阶段中的恰当包络修复,此在参数性多声道编码技术已在编码解码器中应用的情况下更加重要。
图10c:装备HREP的编码解码器中的信号流的概述。
HREP工具对所有输入声道配置(单声道、立体声、包括3D的多声道)起作用且也对音频对象起作用。
在核心实验中,我们呈现MUSHRA收听测试结果,结果示出用于编码鼓掌信号的HREP的功绩。针对以下测试情况表明感知质量的显著改进
·对于128kbit/s下的5.1声道,7个MUSHRA点的平均改进
·对于立体声48kbit/s,12个MUSHRA点的平均改进
·对于立体声128kbit/s,5个MUSHRA点的平均改进
示例性地,通过使用完全熟知的MPEG环绕测试集来评估5.1声道信号的感知质量,我们证明非鼓掌信号的质量不被HREP削弱。
HREP的详细描述
图10c描绘装备HREP的编码解码器中的信号流。在编码器侧,所述工具通过分析输入信号、使瞬时事件的高频部分衰减且因此在时间上平坦化以及产生少量边信息(针对立体声信号,1至4kbps),在实际感知音频编码解码之前充当具有高时间分辨率的预处理器。鼓掌分类器可导引是否启动HREP的编码器决策。在解码器侧,所述工具通过强化且因此在时间上整形瞬时事件的高频部分、利用在编码期间所产生的边信息,充当音频编码解码之后的后置处理器。
图9c:编码器中的详细HREP信号流。
图9c显示编码器内的HREP处理器内部的信号流。预处理通过将输入信号拆分成低通(LP)部分及高通(HP)部分而被应用。这通过使用FFT计算LP部分来实现,给定LP部分,HP部分通过时域中的减法而获得。将时间相依标量增益应用于HP部分,其被添加回至LP部分以产生经预处理的输出。
边信息包含低通(LP)形状信息及在HREP分析块(未示出)内估计出的标量增益。HREP分析块可含有能够优雅地减轻HREP处理对信号内容(“非鼓掌信号”)的影响的额外机制,其中HREP并非完全可适用。因此,对鼓掌检测准确度的要求被显著放松。
图5a:解码器中的详细HREP信号流。
解码器侧处理在图5a中概述。关于HP形状信息及标量增益的边信息从比特流(未示出)解析且应用于信号,类似于解码器后处理,其与编码器预处理相反。后处理通过再次将信号拆分成低通(LP)部分及高通(HP)部分而被应用。这通过使用FFT计算LP部分来实现,给定LP部分,HP部分通过时域中的减法而获得。依赖于所传输的边信息的标量增益被应用于HP部分,其被添加回至LP部分以产生经预处理的输出。
所有HREP边信息在扩展有效载荷中被信令且回溯兼容地嵌入MPEG-H 3D音频比特流内。
规范本文
必需的WD改变、建议的比特流语法、语义以及解码过程的详细描述可在文件的附录A中发现作为diff-文本。
复杂度
HREP处理的计算复杂度由实施信号的LP/HP拆分的DFT/IDFT对的计算而控制。对于包含1024个时域值的每个音频帧,必须计算16对的128点实值DFT/IDFT。
为了包括至低复杂度(LC)分布中,我们提出以下约束
·作用中HREP声道/对象的限制
·对非不重要的最大传输增益因子g(k)的限制(0dB的不重要增益因子减轻对于相关联DFT/IDFT对的需要)
·有效率的***基2稀疏拓朴中DFT/iDFT的计算
功绩证据
收听测试
作为功绩证据,将针对5.1声道扬声器收听(128kbps)呈现收听测试结果。另外,提供中等(48kbps)及高(128kbps)质量下的立体声耳机收听的结果。图16概括收听测试设置。
图16—收听测试概述。
结果
128kbps 5.1声道
图式示出128kbps 5.1声道测试的绝对MUSHRA分数。感知质量在“良好”至“优异”范围中。应注意,类鼓掌信号在范围“良好”中的最低评分项目中。
图17a:128kbps 5.1声道测试的绝对MUSHRA分数。
图17b描绘128kbps 5.1声道测试的差异MUSHRA分数。所有鼓掌项目呈现显著改进,而针对非鼓掌项目,未观察到感知质量的显著改变。项目中没有任一个被明显地降级。
图17b:128kbps 5.1声道测试的差异MUSHRA分数。
图17c描绘测试集中所含的所有鼓掌项目的绝对MUSHRA分数,图17d描绘测试集中所含的所有鼓掌项目的差异MUSHRA分数。绝对感知质量在“良好”范围中。总体而言,在差异上,存在7个点的显著增益。个体质量增益范围在4个点与9点之间,全部为显著的。
图17c:128kbps 5.1声道测试鼓掌信号的绝对MUSHRA分数。
图17d:128kbps 5.1声道测试鼓掌信号的差异MUSHRA分数。
48kbps立体声
图17e示出48kbps立体声测试的绝对MUSHRA分数。此处,集合的所有信号为鼓掌信号。感知质量在“一般”至“良好”范围中。一贯地,“hrep”条件得分高于“nohrep”条件。图17f描绘差异MUSHRA分数。对于除一个以外的所有项目,“hrep”得分明显地优于“nohrep”。观察到范围在3个点至17个点的改进。总体而言,存在12个点的显著平均增益。项目中无一个被明显地降级。
图17e:48kbps立体声测试的绝对MUSHRA分数。
图17f:48kbps立体声测试的差异MUSHRA分数。
128kbps立体声
图17g及图17h分别地示出128kbps立体声测试的绝对及差异MUSHRA分数。在绝对分数中,所有信号得分在范围“优异”中。在差异分数中,可以看出,即使感知质量接近透明,但对于8个信号中的6个信号,存在3个至9个点的显著改良,总体总计5个MUSHRA点的平均值。项目中无一个被明显地降级。
图17g:128kbps立体声测试的绝对MUSHRA分数。
图17h:128kbps立体声测试的差异MUSHRA分数。
结果清楚地示出,CE建议的HREP技术对于广泛范围的比特率/绝对质量中的类鼓掌信号的编码具有相当大功绩。此外,经证明对非鼓掌信号不存在任何削弱。
结论
HREP为用于主要由许多密集瞬时事件(诸如鼓掌、雨滴声等)组成的信号的经改进感知编码的工具。应用HREP的益处加倍:HREP通过减少输入信号的短时动态来放松强加于编码器的比特率需求;另外,HREP确保解码器的(向上)混频阶段中的恰当包络修复,此在参数性多声道编码技术已在编码解码器中应用的情况下更加重要。主观试验已示出约12个MUSHRA点(通过HREP处理,在48kbps立体声下)及7个MUSHRA点(在128kbps 5.1声道下)的改进。
附录A
MPEG-H 3D音频内的HREP的优选实施例
随后,给出关于ISO/IEC 23008-3:2015及ISO/IEC 23008-3:2015/EAM3文件的HREP所需的改变的数据修改。
在节10.2中将以下句子添加至表1:“MPEG-H 3DA功能块及内部处理域。fs,core表示核心解码器输出采样率,fs,out表示解码器输出采样率。”:
表1—MPEG-H 3DA功能块及内部处理域。fs,core表示核心解码器输出采样率,fs,out表示解码器输出采样率。
在节5.2.2.3中将以下情况添加至表13:“mpegh3daExtElementConfig()的语法”:
表13-mpegh3daExtElementConfig()的语法
在节5.3.4中将以下值定义添加至表50:「usacExtElementType的值」:
表50-usacExtElementType的值
ID_EXT_ELE_HREP | 12 |
/*为ISO用途保留*/ | 13-127 |
在节5.3.4中将以下解释添加至表51:「用于扩展有效载荷解码的数据块的解释」:
表51-用于扩展有效载荷解码的数据块的解释
在5.2.2结束后添加新的子条款且添加下表:
5.2.2.X扩展元素配置
表2—HREPConfig()的语法
在5.2.2.3结束后添加下表:
表3—HREPFrame()的语法
帮助函数HREP_decode_ac_data(gain_count、signal_count)描述使用以下USAC低层级算术编码函数将增益值读取至数组gainIdx中:
arith_decode(*ari_state,cum_freq,cf1),
arith_start_decoding(*ari_state),
arith_done_decoding(*ari_state)
引入两个额外帮助函数,
ari_decode_bit_with_prob(*ari_state,count_0,count_total),
其利用p0=count_0/total_count及p1=1-p0解码一个比特,及
ari_decode_bit(*ari_state),
其利用p0=0.5及p1=0.5解码一个比特而无需模型化。
在子条款5.5结束后添加以下新的子条款“5.5.X高分辨率包络处理(HREP)工具”:
5.5.X高分辨率包络处理(HREP)工具
5.5.X.1工具描述
HREP工具提供针对含有密集地隔开的瞬时事件的信号(诸如鼓掌信号)的经改进编码性能,这是因为瞬时事件事实况记录的重要部分。类似地,雨滴声或其他声音如烟火可示出这种特性。不幸地,此类别的声音对现有音频编码解码器带来困难,尤其当以低比特率和/或利用参数性编码工具进行编码时。
图5b或图5c描绘装备HREP的编码解码器中的信号流。在编码器侧,工具作为预处理器起作用,其针对高频率在时间上平坦化信号,同时产生少量边信息(针对立体声信号,1至4kbps)。在解码器侧,工具作为后置处理器起作用,其针对高频率在时间上将信号整形,利用边信息。应用HREP的益处加倍:HREP通过减少输入信号的短时动态来放松强加于编码器的比特率需求;另外,HREP确保解码器的(向上)混频阶段中的恰当包络修复,此在参数性多声道编码技术已在编码解码器中应用的情况下更加重要。HREP工具对所有输入声道配置(单声道、立体声、包括3D的多声道)起作用且也对音频对象起作用。
5.5.X.2数据及帮助元素
5.5.X.2.1对低复杂度分布的限制
如果所有信号群组中总计的信号的总数目至多为6,则不存在限制。
否则,如果所有信号群组中总计的其中HREP有效的信号的总数目(通过HREPConfig()中的HREPActive[sig]语法元素指示)至多为4,则不存在进一步限制。
否则,所有信号群组总总计的其中HREP有效的信号的总数目(通过HREPConfig()中的HREPActive[sig]语法元素指示)应限于至多为8。
另外,对于每个帧,对于其中HREP有效的信号且在所有信号群组上统计的不同于GAIN_INDEX_0dB的增益索引的总数目应至多为4×gain_count。对于具有等于GAIN_INDEX_0dB的增益索引的块,FFT、内插校正以及IFFT应当跳过。在此情况下,输入块应与正弦窗口的平方相乘且直接用于重叠加法程序中。
5.5.X.3解码过程
5.5.X.3.1概述
在语法元素mpegh3daExtElementConfig()中,字段usacExtElementPayloadFrag在ID_EXT_ELE_HREP元素的情况下应为零。HREP工具仅可适用于类型SignalGroupTypeChannels及SignalGroupTypeObject的信号群组,如Signals3d()语法元素中的SignalGroupType[grp]所定义。因此,ID_EXT_ELE_HREP元素应仅对于类型SignalGroupTypeChannels及SignalGroupTypeObject的信号群组存在。
块大小其对应地所使用的FFT大小为N=128。
整体处理对当前信号群组中的每个信号独立地进行。因此,为了简化记法,仅针对位置sig上的一个信号描述解码过程。
图5a:解码侧处的高分辨率包络处理(HREP)工具的框图
5.5.X.3.2经量化β因子的解码
取决于extendedBetaFactorPrecision的值,应使用用于将β因子索引bettaFactorIdx[sig]转换至β因子beta_factor的以下查找表。
If extendedBetaFactorPrecision=0,the conversion is computed as
beta_factor=tab_beta_factor_dequant_coarse[betaFactorIndex[sig]]
If extendedBetaFactorPrecision=1,the conversion is computed as
beta_factor=tab_beta_factor_dequant_precise[betaFactorIndex[sig]]
5.5.X.3.3经量化增益的解码
一个帧被处理为各自由N个样本组成的gain_count块,这些块是半重叠的。用于每个块的标量增益系基于extendedGainRange的值导出。
其中0≤k<gain_count
5.5.X.3.4LP部分及HP部分的计算
输入信号s被拆分成大小为N的块,这些块是半重叠的,从而产生输入块其中k为块索引且i为块k中的样本位置。窗口w[i]将应用于ib[k],特别为正弦窗口,定义为
其中0≤i<N,
且在也应用FFT之后,复数系数c[k][f]被获得为
c[k][f]=FFT(w[i]×ib[k]),其中
在编码器侧,为了获得LP部分,我们应用c[k]与处理形状ps[f]的逐元素乘法,处理形状由下式组成:
lp_size=lastFFTLine[sig]+1-transitionWidthLines[sig]参数表示低通区域的FFT线的宽度,且tr_size=transitionWidthLines[sig]参数表示转变区域的FFT线的宽度。
在解码器侧,为了在转变区域中得到完美重建,必须使用转变区域中的自适应重建形状rs[f],来替代编码器侧处所使用的处理形状ps[f],取决于处理形状ps[f]及g[k],rs[f]为
LP块lpb[k]通过再次应用IFFT及开窗而获得为
lpb[k][i]=w[i]×IFFT(rs[f]×c[k][f]),其中0≤i<N,
HP块hpb[k]接着通过时域中的简单减法而获得为
hpb[k][i]=in[k][i]×w2[i]-lpb[k][i],其中0≤i<N。
5.5.X.3.5内插校正的计算
在编码器侧上应用于位置k-1及k上的块的增益g[k-1]及g[k]由于开窗及重叠加法操作而隐式地被内插。为了达成转变区域以上的HP部分中的完美重建,需要内插修正系数为
其中
其中
5.5.X.3.6经补偿增益的计算
核心编码器及解码器引入瞬时事件的额外衰减,其通过使用先前计算出的beta_factor将增益g[k]调整如下来补偿
gc[k]=(1+beta_factor)g[k]-beta_factor
5.5.X.3.7输出信号的计算
基于gc[k]及corr[i],输出块ob[k]的值被计算为
其中0≤i<N
最终,使用重叠加法使用输出块将输出信号计算为
其中
其中
5.5.X.4编码器描述(信息性)
图9c:编码侧处的高分辨率包络处理(HREP)工具的框图
5.5.X.4.1增益及β因子的计算
在预处理侧,块k的HP部分(假定含有瞬时事件)使用标量增益g[k]进行调整,以便使其更类似于其邻居中的背景。块k的HP部分的能量将由hp_e[k]表示,且块k的邻居中的HP背景的平均能量将由hp_bg_e[k]表示。
我们定义参数α∈[0,1],其将调整量控制为
gfloat[k]的值经量化且削减至extendedGainRange配置选项的选定值所允许的范围,以产生增益索引gainIdx[k][sig]为
gainIdx[k][sig]=min(max(0,gidx),2×GAIN_INDEX_0dB-1)。
用于处理的值g[k]为经量化值,其在解码器侧定义为
当α为0时,增益具有值gfloat[k]=1,因此不进行调整,且当α为1时,增益具有值gfloat[k]=hp_bg_e[k]/hp_e[k],因此经调整能量变得与背景的平均能量一致。我们可将以上关系重写为
gfloat[k]×hp_e[k]=hp_bg_e[k]+(1-α)×(hp_e[k]-hp_bg_e[k]),
指示经调整能量gfloat[k]×hp_e[k]围绕背景的对应平均能量hp_bg_e[k]的变化以因子(1-α)减小。在建议***中,使用α=0.75,因此每个块的HP能量围绕背景的对应平均能量hp_bg_e[k]的变化减小至原来的25%。
核心编码器及解码器引入瞬时事件的额外衰减,此通过取决于核心编码器配置及帧的信号特性使用参数β∈[0,1]引入额外衰减步骤而近似地模型化为
指示,在通过核心编码器及解码器之后,经解码能量gcfloat[k]×hp_e[k]围绕背景的对应平均能量hp_bg_e[k]的变化以额外因子(1-β)进一步减小。
使用仅g[k]、α以及β,可以在解码器侧将gc[k]的估计计算为
针对每个帧,参数被量化为betaFactorIdx[sig]且作为边信息被传输。经补偿增益gc[k]可使用beta_factor计算为
gc[k]=(1+beta_factor)×g[k]-beta_factor
5.5.X.4.2LP部分及HP部分的计算
处理等同于稍早所定义的解码器侧处的对应处理,以下除外:在LP块lpb[k]的计算中,使用处理形状ps[f],以替代自适应重建形状rs[f],LP块通过再次应用IFFT及开窗而获得为
lpb[k][i]=w[i]×IFFT(ps[f]×c[k][f]),其中0≤i<N。
5.5.X.4.3输出信号的计算
基于g[k],输出块ob[k]的值被计算为
ob[k][i]=lpb[k][i]+g[k]×hpb[k][i],其中0≤i<N。
等同于解码器侧,输出信号被使用重叠加法使用输出块计算为
其中
其中
5.5.X.4.4使用算术编码的增益编码
帮助函数HREP_encode_ac_data(gain_count,signal_count)使用以下USAC低层级算术编码函数来描述来自数组gainIdx的增益值的写入:
arith_encode(*ari_state,symbol,cum_freq),
arith_encoder_open(*ari_state),
arith_encoder_flush(*ari_state).
引入两个额外帮助函数,
ari_encode_bit_with_prob(*ari_state,bit_value,count_0,count_total),
其利用p0=count_0/total_count及p1=1-p0编码一个比特bit_value,及
ari_encode_bit(*ari_state,bit_value),
其利用p0=0.5及p1=0.5编码一个比特bit_value而无需模型化。
Claims (61)
1.一种用于对具有时变高频增益信息(104)作为边信息(106)的音频信号(102)进行后处理的音频后置处理器(100),包括:
频带提取器(110),用于提取所述音频信号(102)的高频频带(112)及所述音频信号(102)的低频频带(114);
高频带处理器(120),用于根据所述时变高频增益信息(104)执行所述高频频带(112)的时变放大以获得经处理高频频带(122);
组合器(130),用于组合所述经处理高频频带(122)与所述低频频带(114)。
2.如权利要求1所述的音频后置处理器,其中所述频带提取器(110)被配置为使用低通滤波器装置(111)来提取所述低频频带,且通过从所述音频信号减去(113)所述低频频带来提取所述高频频带。
3.如权利要求1或2所述的音频后置处理器,其中针对所述音频信号(102)的取样值的块的序列(300-303)而提供所述时变高频增益信息(104),使得取样值的第一块(301)具有与其相关联的第一增益信息(311),且所述音频信号的取样值的稍后第二块(302)具有不同的第二增益信息(312),其中所述频带提取器(110)被配置为从取样值的所述第一块(301)提取第一低频频带及第一高频频带以及从取样值的所述第二块(302)提取第二低频频带及第二高频频带,以及
其中所述高频带处理器(120)被配置为使用所述第一增益信息(311)来修改所述第一高频频带以获得第一经处理高频频带以及使用所述第二增益信息(312)来修改所述第二高频频带以获得第二经处理高频频带,以及
其中所述组合器(130)被配置为组合所述第一低频频带与所述第一经处理高频频带以获得第一组合块,以及组合所述第二低频频带与所述第二经处理高频频带以获得第二组合块。
4.如前述权利要求中任一项所述的音频后置处理器,
其中所述频带提取器(110)及所述高频带处理器(120)以及所述组合器(130)被配置为在重叠块中操作,以及
其中所述音频后置处理器(100)进一步包括重叠加法器(140),所述重叠加法器(140)用于通过在块重叠范围中将第一块(301)的音频样本与第二块(302)的音频样本相加来计算经后处理的部分。
5.如前述权利要求中任一项所述的音频后置处理器,其中所述频带提取器(110)包括:
分析开窗器(115),用于使用分析窗口产生所述音频信号的取样值的块的序列,其中所述块是时间重叠的;
离散傅立叶变换处理器(116),用于产生频谱值的块的序列;
低通整形器(117),用于对频谱值的每个块进行整形以获得频谱值的经低通整形块的序列;
离散傅立叶逆变换处理器(118),用于产生低通时域取样值的块的序列;以及
合成开窗器(119),用于使用合成窗口对低通时域取样值的块的序列开窗。
6.如权利要求5所述的音频后置处理器,其中所述频带提取器(110)进一步包括:
音频信号开窗器(121),用于使用所述分析窗口及所述合成窗口对所述音频信号(102)开窗以获得音频信号值的经开窗块的序列,其中所述音频信号开窗器(121)与所述开窗器(115,119)同步,使得低通时域取样值的块的序列与音频信号值的经开窗块的序列同步。
7.如权利要求5或6所述的音频后置处理器,
其中所述频带提取器(110)被配置为执行从来源于所述音频信号的块的对应序列减去低通时域值的块的序列的逐样本减法(113),以获得高通时域取样值的块的序列。
8.如权利要求7所述的音频后置处理器,
其中所述高频带处理器(120)被配置为将所述修改应用于高通时域取样值的块的序列的每个块的每个样本,
其中对于块的样本的所述修改取决于
先前块的增益信息及当前块的增益信息,或
当前块的增益信息及下一个块的增益信息。
9.如权利要求1至7中任一项所述的音频后置处理器,其中所述音频信号包括额外控制参数(500)作为另外边信息,其中所述高频带处理器(120)被配置为在也考虑所述额外控制参数(500)下应用所述修改,其中所述额外控制参数(500)的时间分辨率低于所述时变高频增益信息的时间分辨率,或所述额外控制参数针对特定音频片段为固定的。
10.如权利要求8所述的音频后置处理器,
其中所述组合器(130)被配置为执行低通时域取样值的块的序列与高通时域取样值的经放大块的序列的对应块的逐样本加法,以获得组合信号值的块的序列。
11.如权利要求10所述的音频后置处理器,进一步包括:
重叠加法(140)处理器,用于通过在块重叠范围(321)中将组合信号值的序列的第一块(301)的音频样本与邻近于所述第一块的相邻第二块(302)的音频样本相加来计算经后处理的音频信号部分。
12.如前述权利要求中任一项所述的音频后置处理器,
其中所述频带提取器(110)、所述高频带处理器(120)以及所述组合器(130)在重叠块中操作,其中重叠范围(321)在块长度的40%与块长度的60%之间,或
其中块长度在0.8毫秒与5毫秒之间,或
其中由所述高频带处理器(120)执行的所述修改为在时域中应用于块的每个样本的乘法因子,或
其中所述低频频带的截止或转角频率在所述音频信号的最大频率的1/8与1/3之间且优选地等于所述音频信号的所述最大频率的1/6。
13.如权利要求5所述的音频后置处理器,
其中所述低通整形器(117)被配置为取决于对应块的所述时变高频增益信息(104)而应用整形函数。
14.如权利要求13所述的音频后置处理器,
其中所述整形函数额外取决于用于使用对应块的所述时变高频增益信息来修改或衰减所述音频信号的高频频带的音频预处理器(200)中所使用的整形函数。
15.如权利要求8所述的音频后置处理器,
其中针对块的样本的所述修改额外取决于如由所述分析窗口函数或所述合成窗口函数所定义的应用于特定样本的开窗因子。
16.如前述权利要求中任一项所述的音频后置处理器,其中所述频带提取器(110)、所述高频带处理器(120)以及所述组合器(130)被配置为将来源于所述音频信号的块的序列(300-303)处理为重叠块,使得早前块的后部分与在时间上邻近所述早前块的后来块的前部分来源于所述音频信号的相同的音频样本。
17.如权利要求16所述的音频后置处理器,其中所述重叠块的重叠范围(321)等于所述早前块的二分之一,且其中所述后来块关于样本值的数目具有与所述早前块相同的长度,且其中所述后置处理器额外包括用于执行重叠加法操作的重叠加法器(140)。
18.如权利要求16或17的音频后置处理器,其中所述频带提取器(110)被配置为将拆分滤波器(111)的在所述拆分滤波器的停止范围与通过范围之间的斜率应用于音频样本的块,其中所述斜率取决于用于样本的块的所述时变高频增益信息。
19.如权利要求18所述的音频后置处理器,
其中所述高频增益信息包括增益值,其中与所述斜率针对较低增益值的增加相比,所述斜率针对较高增益值增加得更强。
20.如权利要求17至19中任一项所述的音频后置处理器,
其中所述拆分滤波器(111)的所述斜率基于以下等式定义:
<mrow>
<mi>r</mi>
<mi>s</mi>
<mo>&lsqb;</mo>
<mi>f</mi>
<mo>&rsqb;</mo>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>p</mi>
<mi>s</mi>
<mo>&lsqb;</mo>
<mi>f</mi>
<mo>&rsqb;</mo>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mfrac>
<mrow>
<mi>g</mi>
<mo>&lsqb;</mo>
<mi>k</mi>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mi>g</mi>
<mo>&lsqb;</mo>
<mi>k</mi>
<mo>&rsqb;</mo>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>p</mi>
<mi>s</mi>
<mo>&lsqb;</mo>
<mi>f</mi>
<mo>&rsqb;</mo>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中rs[f]为所述拆分滤波器(111)的所述斜率,其中ps[f]为在产生所述音频信号时所使用的拆分滤波器的斜率,其中g[k]为来源于所述时变高频增益信息的增益因子,其中f为频率索引且其中k为块索引。
21.如权利要求16至20中任一项所述的音频后置处理器,
其中所述高频增益信息包括用于邻近块的增益值,其中所述高频带处理器(120)被配置为根据用于所述邻近块的所述增益值且根据用于对应样本的窗口因子而计算用于每个样本的校正因子。
22.如权利要求21所述的音频后置处理器,其中所述高频带处理器(120)被配置为基于以下等式操作:
其中
其中
其中corr[j]为用于具有索引j的样本的校正因子,其中g[k-1]为用于先前块的增益因子,其中g[k]为用于当前块的增益因子,其中w[j]为用于具有样本索引j的样本的窗口函数因子,其中N为块的以样本计的长度,且其中g[k+1]为用于后来块的增益因子,其中k为所述块索引,且其中来自以上等式的上部等式是针对输出块k的第一半,且其中以上等式的下部等式是针对所述输出块k的第二半。
23.如权利要求17至22中任一项所述的音频后置处理器,
其中所述高频带处理器(120)被配置为在由所述音频后置处理器(100)进行的处理之前额外补偿通过所执行的处理而引入至所述音频信号中的瞬时事件的衰减。
24.如权利要求23所述的音频后置处理器,
其中所述高频带处理器被配置为基于以下等式操作:
gc[k]=(1+beta_factor)×g[k]-beta_factor
其中gc[k]为用于具有块索引k的块的经补偿增益,其中g[k]为通过如作为所述边信息被包括的所述时变高频增益信息所指示的未经补偿增益,且其中beta_factor(500)为被包括于所述边信息(106)内的额外控制参数值。
25.如权利要求22及24中一项所述的音频后置处理器,其中所述高频带处理器(120)被配置为基于以下等式计算经处理高频带:
其中0≤i<N
其中phpb[k][i]指示针对块k及样本值i的所述经处理高频带,其中gc[k]为所述经补偿增益,其中corr[i]为校正因子,其中k为块索引,其中i为取样值索引,且其中hpb[k][i]为针对块k及取样值i的高频带,且其中N为块的以样本计的长度。
26.如权利要求25所述的音频后置处理器,
其中所述组合器(130)被配置为将所述组合块计算为
ob[k][i]=lpb[k][i]+phpb[k][i],
其中lpb[k][i]为针对块k及样本索引i的低频频带。
27.如权利要求16至26中任一项所述的音频后置处理器,进一步包括基于以下等式操作的重叠加法器(140):
其中
其中
其中o[]为针对来源于k及j的样本索引的经后处理的音频输出信号的样本的值,其中k为块值,N为块的以样本计的长度,j为块内的取样索引,且ob[]指示针对早前块索引k-1、当前块索引k或后来块索引k+1的组合块。
28.如权利要求1至27中任一项所述的音频后置处理器,其中所述时变高频增益信息包含增益索引(600)的序列及增益延伸范围信息(602),或其中所述边信息额外包含增益补偿信息(603)及增益补偿精度信息(604),
其中所述音频后置处理器包括:
解码器(620),用于根据所述增益精度信息(602)而解码所述增益索引(601),以获得第一精度信息的第一数目个不同值的经解码增益(621)或第二精度信息的第二数目个不同值的经解码增益(621),所述第二数目大于所述第一数目,或
解码器(620),用于根据所述补偿精度信息(604)而解码所述增益补偿索引(603),以获得第一补偿精度信息的第一数目个不同值的经解码增益补偿值(622)或第二不同补偿精度信息的第二不同数目个值的经解码增益补偿值(622),所述第一数目大于所述第二数目。
29.如权利要求28所述的音频后置处理器,
其中所述解码器(620)被配置为计算用于块的增益因子(621):
<mrow>
<mi>g</mi>
<mo>&lsqb;</mo>
<mi>k</mi>
<mo>&rsqb;</mo>
<mo>=</mo>
<msup>
<mn>2</mn>
<mfrac>
<mrow>
<mi>g</mi>
<mi>a</mi>
<mi>i</mi>
<mi>n</mi>
<mi>I</mi>
<mi>d</mi>
<mi>x</mi>
<mo>&lsqb;</mo>
<mi>k</mi>
<mo>&rsqb;</mo>
<mo>&lsqb;</mo>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mo>&rsqb;</mo>
<mo>-</mo>
<mi>G</mi>
<mi>A</mi>
<mi>I</mi>
<mi>N</mi>
<mo>_</mo>
<mi>I</mi>
<mi>N</mi>
<mi>D</mi>
<mi>E</mi>
<mi>X</mi>
<mo>_</mo>
<mn>0</mn>
<mi>d</mi>
<mi>B</mi>
</mrow>
<mn>4</mn>
</mfrac>
</msup>
</mrow>
其中g[k]为用于具有块索引k的块(301)的所述增益因子(621),其中gainIdx[k][sig]为包括于所述边信息中作为所述时变高频增益信息(104)的经量化值,且其中GAIN_INDEX_0dB为对应于0dB的增益索引偏移,其在所述增益精度信息具有第一状态时具有第一值且在所述增益精度信息具有第二状态时具有第二不同值。
30.如前述权利要求中任一项所述的音频后置处理器,
其中所述频带提取器(110)被配置为以N个取样值的块长度执行逐块离散傅立叶变换(116),以通过执行稀疏离散傅立叶变换算法而获得低于N/2个复频谱值的数目的数个频谱值,在所述稀疏离散傅立叶变换算法中,高于最大频率的频谱值的分支的计算被跳过,以及
其中所述频带提取器(110)被配置为通过使用上至转变开始频率范围的频谱值及通过对所述转变开始频率范围内的频谱值加权(117a,117b)来计算低频频带信号,其中所述转变开始频率范围仅延伸直至所述最大频率或小于所述最大频率的频率。
31.如权利要求1至30中任一项所述的音频后置处理器,
被配置为:仅对用于所述高频频带的时变放大的边信息(106)可获得的最大数目个声道或对象执行后处理,且不对用于所述高频频带的时变放大的任何边信息不可获得的数个声道或对象执行任何后处理,或
其中所述频带提取器(110)被配置为针对用于所述高频频带的时变放大的不重要增益因子不执行任何频带提取或不计算离散傅立叶变换及逆离散傅立叶变换对,且经过与所述不重要增益因子相关联的无变化或经开窗的时域信号。
32.一种用于预处理音频信号(202)的音频预处理器(200),包括:
信号分析器(260),用于分析所述音频信号(202)以确定时变高频增益信息(204);
频带提取器(210),用于提取所述音频信号(202)的高频频带(212)及所述音频信号的低频频带(214);
高频带处理器(220),用于根据所述时变高频增益信息执行所述高频频带(212)的时变修改以获得经处理高频频带(222);
组合器(230),用于组合所述经处理高频频带(222)与所述低频频带(214)以获得经预处理的音频信号(232);以及
输出接口(250),用于产生包含所述经预处理的音频信号(232)及作为边信息(206)的所述时变高频增益信息(204)的输出信号(252)。
33.如权利要求32的音频预处理器,
其中所述信号分析器(260)被配置为分析所述音频信号以确定(801,802)所述音频信号的第一时间块(301)中的第一特性及所述音频信号的第二时间块(302)中的第二特性,所述第二特性与所述第一特性相比更具瞬时性或与所述第一特性相比为更大高频能量位准,
其中所述信号分析器(260)被配置为确定(803)用于所述第一特性的第一增益信息(311)及用于所述第二特性的第二增益信息(312),以及
其中所述高频带处理器(220)被配置为与根据所述第一增益信息的所述第一时间块(301)的高频带部分相比,将乘法因子(804)更强地应用于根据所述第二增益信息的所述第二时间块(302)的高频带部分。
34.如权利要求32至33中任一项所述的音频预处理器,其中所述信号分析器(260)被配置为:
计算(805)针对时间上相邻的一个或多个时间块的高频带的背景能量的背景测量,所述时间上相邻的一个或多个时间块放置于当前时间块之前,或放置于所述当前时间块之后,或放置于所述当前时间块之前及之后,或包括所述当前时间块,或排除所述当前时间块;
计算(808)针对所述当前块的高频带的能量测量;以及
使用所述背景测量及所述能量测量来计算(809)增益因子。
35.如权利要求33所述的音频预处理器,其中所述信号分析器(260)被配置为基于以下等式计算所述增益因子:
其中gfloat为未量化增益因子,其中k为块索引,其中α为变化影响因子,其中hp_bg_e[k]为块k的高频背景能量,其中hp_e[k]为高频块的能量,其中T_quiet为安静阈值,且其中所述因子α及所述安静阈值为预定的或由额外控制参数可控的。
36.如权利要求32至35中任一项所述的音频预处理器,其中所述信号分析器(260)及所述高频带处理器(120)被配置为计算所述时变高频增益信息且应用所述时变高频增益信息,使得每个块的能量围绕背景的对应平均能量的变化减小至少50%且优选地减小75%。
37.如权利要求32至36中任一项所述的音频预处理器,
其中所述信号分析器(260)被配置为对增益信息值的原始序列进行量化及削减(812),以获得作为经量化值的序列的所述时变高频增益信息,
其中所述高频带处理器(220)被配置为根据所述经量化值的序列来执行(813)所述高频带的所述时变修改,以及
其中所述输出接口(250)被配置为将所述经量化值的序列引入(814)至所述边信息(206)中作为所述时变高频增益信息(204)。
38.如权利要求32至37中任一项所述的音频预处理器,其中所述音频预处理器(200)被配置为:
确定(815)描述由随后连接的编码器或解码器引入的能量变化的损失的另外增益补偿值,以及
量化(816)另外增益补偿信息,以及
其中所述输出接口(250)被配置为将经量化的另外增益补偿信息引入(817)至所述边信息中。
39.如权利要求32至38中任一项所述的音频预处理器,其中所述信号分析器(260)被配置为应用控制所计算出的时变高频增益信息的另外修改的后设增益控制(806),以根据额外来源于所述音频信号的额外控制数据(807)逐渐减小或逐渐增强所述高频带处理器(220)对所述音频信号的影响,或
其中所述信号分析器(260)被配置为在基于以下等式计算所述增益信息时影响因子α,其中增大α产生较强影响且减小α产生较低影响,
其中gfloat为未量化增益因子,其中k为块索引,其中hp_bg_e[k]为块k的所述高频背景能量,其中hp_e[k]为所述高频块的能量,其中T_quiet为安静阈值,且其中所述因子α及所述安静阈值为预定的或由额外控制参数可控的。
40.如权利要求32至39中任一项所述的音频预处理器,其中所述频带提取器(210)被配置为使用低通滤波器装置(111)来提取所述低频频带且通过从所述音频信号减去(113)所述低频频带来提取所述高频频带。
41.如权利要求32至40中任一项所述的音频预处理器,
其中针对所述音频信号的取样值的块的序列(300-303)而提供所述时变高频增益信息(204),使得取样值的第一块(301)具有与其相关联的第一增益信息(311)且所述音频信号的样本值的稍后第二块(302)具有不同的第二增益信息(312),其中所述频带提取器被配置为从取样值的所述第一块提取第一低频频带及第一高频频带以及从取样值的所述第二块提取第二低频频带及第二高频频带,以及
其中所述高频带处理器(220)被配置为使用所述第一增益信息(311)来修改所述第一高频频带以获得第一经处理高频频带以及使用所述第二增益信息(312)来修改所述第二高频频带以获得第二经处理高频频带,以及
其中所述组合器(230)被配置为组合所述第一低频频带与所述第一经处理高频频带以获得第一组合块以及组合所述第二低频频带与所述第二经处理高频频带以获得第二组合块。
42.如权利要求32至41中任一项所述的音频预处理器,
其中所述频带提取器(210)及所述高频带处理器(220)以及所述组合器(230)被配置为在重叠块中操作,以及
其中所述组合器(230)进一步包括重叠加法器,所述重叠加法器用于在块重叠范围(321)中将第一块的音频样本与第二块的音频样本相加来计算经后处理部分,或
其中所述频带提取器(210)、所述高频带处理器(220)以及所述组合器(230)在重叠块中操作,其中重叠范围(321)在块长度的40%与块长度的60%之间,或
其中块长度在0.8毫秒与5毫秒之间,或
其中通过所述高频带处理器(220)执行的所述修改为在时域中应用于块的每个样本的衰减,或
其中所述低频频带的截止或转角频率在所述音频信号(202)的最大频率的1/8与1/3之间且优选地等于所述音频信号的所述最大频率的1/6。
43.如权利要求32至42中任一项所述的音频预处理器,其中所述频带提取器(210)包括:
分析开窗器(215),用于使用分析窗口产生所述音频信号的取样值的块的序列,其中所述块是时间重叠的;
离散傅立叶变换处理器(216),用于产生频谱值的块的序列;
低通整形器(217a,217b),用于对频谱值的每个块进行整形以获得频谱值的经低通整形块的序列;
离散傅立叶逆变换处理器(218),用于产生低通时域取样值的块的序列;以及
合成开窗器(219),用于使用合成窗口对低通时域取样值的块的序列开窗。
44.如权利要求43所述的音频预处理器,其中所述低通整形器(217a,217b)被配置为基于以下等式而操作:
其中ps[f]指示将由所述低通整形器针对频率值f应用的整形的整形因子,其中f为频率值,其中tr_size为确定转变区域的频谱线的宽度的值,其中lp_size指示无所述转变区域的低通部分的大小,其中N指示块的取样值的数目。
45.如权利要求43或44中任一项所述的音频预处理器,其中所述块提取器进一步包括:
音频信号开窗器(221),用于使用所述分析窗口及所述合成窗口对所述音频信号开窗以获得音频信号值的经开窗块的序列,其中所述音频信号开窗器与所述开窗器(215,219)同步,使得低通时域取样值的块的序列与音频信号值的经开窗块的序列同步。
46.如权利要求43至45中任一项所述的音频预处理器,
其中所述频带提取器(210)被配置为执行从来源于所述音频信号的块的对应序列减去低通时域值的块的序列的逐样本减法(113),以获得高通时域取样值的块的序列。
47.如权利要求32至46中任一项所述的音频预处理器,其中所述分析器(260)额外提供通过后设增益控制(806)计算出的控制参数(807),其中所述高频带处理器(220)被配置为在也考虑所述控制参数下应用所述修改。
48.如权利要求43至47中任一项所述的音频预处理器,
其中所述组合器(230)被配置为执行低通时域取样值的块的序列及高通时域取样值的经修改块的序列的对应块的逐样本加法,以获得组合信号值的块的序列。
49.如权利要求48所述的音频预处理器,进一步包括:
重叠加法处理器,用于通过在块重叠范围中将组合信号值的序列的第一块的音频样本与邻近于所述第一块的相邻第二块的音频样本相加来计算经预处理的音频信号部分。
50.如权利要求32至49中任一项所述的音频预处理器,其中
其中所述频带提取器(211)、所述高频带处理器(720)以及所述组合器(230)在重叠块中操作,其中重叠范围在块长度的40%与块长度的60%之间,或
其中块长度在0.8毫秒与5毫秒之间,或
其中由所述高频带处理器(220)执行的所述修改为在时域中应用于块的每个样本的乘法因子。
51.如权利要求32至50中任一项所述的音频预处理器,
其中所述重叠块的重叠范围(321)等于早前块的一半,且其中后来块关于样本值的数目与所述早前块具有相同长度,且其中所述组合器包括用于执行重叠加法操作的重叠加法器。
52.如权利要求32至51中任一项所述的音频后置处理器,
被配置为仅对最大数目个声道或对象执行预处理以产生用于所述最大数目个声道或对象的所述边信息(206),且不对针对其不产生所述边信息(206)的数个声道或对象执行任何预处理,或
其中所述频带提取器(210)被配置为针对用于由所述信号分析器(260)确定的所述时变高频增益信息(204)的不重要增益因子,不执行任何频带提取或不计算离散傅立叶变换及逆离散傅立叶变换对,且经过与所述不重要增益因子相关联的无变化或经开窗的时域信号。
53.一种用于编码音频信号的音频编码设备,包括:
如权利要求32至52中任一项所述的音频预处理器,被配置为产生具有时变高频增益信息作为边信息的输出信号(252);
核心编码器(900),用于产生核心经编码信号(902)及核心边信息(904);以及
输出接口(910),用于产生包含所述核心经编码信号(902)、所述核心边信息(904)以及作为额外边信息(106)的所述时变高频增益信息的经编码信号(912)。
54.如权利要求53所述的音频编码设备,其中所述音频信号为多声道或多对象信号,其中所述音频预处理器(200)被配置为单独地预处理每个声道或每个对象,且其中所述核心编码器(900)被配置为对经预处理的声道(232)应用联合多声道编码器处理或联合多对象编码器处理或编码器带隙填充或编码器带宽扩展处理。
55.一种音频解码设备,包括:
输入接口(920),用于接收包含核心经编码信号(902)、核心边信息(904)以及作为额外边信息的时变高频增益信息(104)的经编码音频信号(912);
核心解码器(930),用于使用所述核心边信息(904)来解码所述核心经编码信号(902)以获得经解码核心信号;以及
如权利要求1至31中任一项所述的后置处理器(100),用于使用所述时变高频增益信息(104)对所述经解码核心信号(102)进行后处理。
56.如权利要求55的音频解码器设备,
其中所述核心解码器(930)被配置为应用多声道解码器处理或多对象解码器处理或带宽扩展解码器处理或间隙填充解码器处理,以用于产生多声道信号(102)的经解码声道或多对象信号(102)的经解码对象,以及
其中所述后置处理器(100)被配置为使用针对每个声道或每个对象的个别时变高频增益信息个别地对每个声道或每个对象应用所述后处理。
57.一种对具有时变高频增益信息(104)作为边信息(106)的音频信号(102)进行后处理(100)的方法,包括:
提取(110)所述音频信号的高频频带(112)及所述音频信号的低频频带(114);
根据所述时变高频增益信息(104)执行高频带的时变修改以获得经处理高频频带(122);以及
组合(130)所述经处理高频频带(122)与所述低频频带(114)。
58.一种预处理(200)音频信号(202)的方法,包括:
分析(260)所述音频信号(202)以确定时变高频增益信息(204);
提取(210)所述音频信号的高频频带(212)及所述音频信号的低频频带(214);
根据所述时变高频增益信息执行(220)所述高频频带的时变修改以获得经处理高频频带;
组合(230)所述经处理高频频带(222)与所述低频频带(214)以获得经预处理的音频信号;以及
产生(250)包含所述经预处理的音频信号(232)及作为边信息(106)的所述时变高频增益信息(204)的输出信号(252)。
59.一种编码音频信号的方法,包括:
如权利要求58所述的音频预处理(200)的方法,被配置为产生具有时变高频增益信息(204)作为边信息(106)的输出信号;
产生核心经编码信号(902)及核心边信息(904);以及
产生(910)包含所述核心经编码信号(902)、所述核心边信息(904)以及作为额外边信息(106)的所述时变高频增益信息(204)的经编码信号(912)。
60.一种音频解码方法,包括:
接收(920)包含核心经编码信号(902)、核心边信息(904)以及作为额外边信息(106)的时变高频增益信息(204)的经编码音频信号(912);
使用所述核心边信息(904)来解码(930)所述核心经编码信号(902)以获得经解码核心信号(102);以及
根据权利要求所述55的方法,使用所述时变高频增益信息(104)对所述经解码核心信号(102)进行后处理(100)。
61.一种计算机程序,用于当在计算机或处理器上运行时,执行如权利要求57、58、59、60所述的方法中的任一个。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16156200.4 | 2016-02-17 | ||
EP16156200 | 2016-02-17 | ||
PCT/EP2017/053068 WO2017140600A1 (en) | 2016-02-17 | 2017-02-10 | Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107925388A true CN107925388A (zh) | 2018-04-17 |
CN107925388B CN107925388B (zh) | 2021-11-30 |
Family
ID=55361427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780002163.5A Active CN107925388B (zh) | 2016-02-17 | 2017-02-10 | 后置处理器、预处理器、音频编解码器及相关方法 |
Country Status (18)
Country | Link |
---|---|
US (3) | US10720170B2 (zh) |
EP (2) | EP3627507A1 (zh) |
JP (2) | JP6603414B2 (zh) |
KR (1) | KR102067044B1 (zh) |
CN (1) | CN107925388B (zh) |
AR (1) | AR107662A1 (zh) |
AU (1) | AU2017219696B2 (zh) |
BR (1) | BR112017024480A2 (zh) |
CA (1) | CA2985019C (zh) |
ES (1) | ES2771200T3 (zh) |
MX (1) | MX371223B (zh) |
MY (1) | MY191093A (zh) |
PL (1) | PL3417544T3 (zh) |
PT (1) | PT3417544T (zh) |
RU (1) | RU2685024C1 (zh) |
TW (1) | TWI618053B (zh) |
WO (1) | WO2017140600A1 (zh) |
ZA (1) | ZA201707336B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022267754A1 (zh) * | 2021-06-22 | 2022-12-29 | 腾讯科技(深圳)有限公司 | 语音编码、语音解码方法、装置、计算机设备和存储介质 |
CN115866487A (zh) * | 2022-12-30 | 2023-03-28 | 广州市韵强电子有限公司 | 一种基于均衡放大的音响功放方法及*** |
WO2024094006A1 (zh) * | 2022-11-01 | 2024-05-10 | 抖音视界有限公司 | 一种音频信号的编码、解码方法及装置 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017050398A1 (en) * | 2015-09-25 | 2017-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
WO2017080835A1 (en) * | 2015-11-10 | 2017-05-18 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
KR102067044B1 (ko) * | 2016-02-17 | 2020-01-17 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법 |
US10559315B2 (en) * | 2018-03-28 | 2020-02-11 | Qualcomm Incorporated | Extended-range coarse-fine quantization for audio coding |
CN112771610A (zh) | 2018-08-21 | 2021-05-07 | 杜比国际公司 | 用压扩对密集瞬态事件进行译码 |
US20200402523A1 (en) * | 2019-06-24 | 2020-12-24 | Qualcomm Incorporated | Psychoacoustic audio coding of ambisonic audio data |
US11545166B2 (en) | 2019-07-02 | 2023-01-03 | Dolby International Ab | Using metadata to aggregate signal processing operations |
US11432069B2 (en) * | 2019-10-10 | 2022-08-30 | Boomcloud 360, Inc. | Spectrally orthogonal audio component processing |
WO2021126155A1 (en) | 2019-12-16 | 2021-06-24 | Google Llc | Amplitude-independent window sizes in audio encoding |
CN111294367B (zh) * | 2020-05-14 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 音频信号后处理方法和装置、存储介质及电子设备 |
CN111916090B (zh) * | 2020-08-17 | 2024-03-05 | 北京百瑞互联技术股份有限公司 | 一种lc3编码器近奈奎斯特频率信号检测方法、检测器、存储介质及设备 |
TWI772930B (zh) * | 2020-10-21 | 2022-08-01 | 美商音美得股份有限公司 | 適合即時應用之分析濾波器組及其運算程序、基於分析濾波器組之信號處理系統及程序 |
WO2022097242A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
JPWO2022097240A1 (zh) * | 2020-11-05 | 2022-05-12 | ||
US11837244B2 (en) | 2021-03-29 | 2023-12-05 | Invictumtech Inc. | Analysis filter bank and computing procedure thereof, analysis filter bank based signal processing system and procedure suitable for real-time applications |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4292467A (en) * | 1977-10-07 | 1981-09-29 | Transcale A.B. | Control for audio receiver |
GB9518298D0 (en) * | 1994-09-20 | 1995-11-08 | Ricoh Kk | Apparatus for compression using reversible embedded wavelets |
CN1275234A (zh) * | 1997-10-17 | 2000-11-29 | 多尔拜实验特许公司 | 采用附加的滤波器阵列在帧边界处衰减频谱邻频干扰的基于帧的音频编码 |
CN1992533A (zh) * | 2005-12-26 | 2007-07-04 | 索尼株式会社 | 信号编码设备和方法、信号译码设备和方法、程序及介质 |
US20070253563A1 (en) * | 2006-04-22 | 2007-11-01 | Iroquois Holding Company | Method for dynamically adjusting the spectral content of an audio signal |
US20080300866A1 (en) * | 2006-05-31 | 2008-12-04 | Motorola, Inc. | Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice |
CN101485094A (zh) * | 2006-07-14 | 2009-07-15 | 安凯(广州)软件技术有限公司 | 最大熵意义下的后向兼容多通道音频编码与解码方法和*** |
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
CN102257728A (zh) * | 2008-10-17 | 2011-11-23 | 夏普株式会社 | 音频信号调节设备及音频信号调节方法 |
CN102985970A (zh) * | 2010-03-09 | 2013-03-20 | 弗兰霍菲尔运输应用研究公司 | 在用于音频信号的基于相角声码器的带宽扩展中改善的幅值响应和时间对准 |
CN103210443A (zh) * | 2010-09-15 | 2013-07-17 | 三星电子株式会社 | 用于高频带宽扩展的对信号进行编码和解码的设备和方法 |
CN103366751A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN104269173A (zh) * | 2014-09-30 | 2015-01-07 | 武汉大学深圳研究院 | 切换模式的音频带宽扩展装置与方法 |
CN104517610A (zh) * | 2013-09-26 | 2015-04-15 | 华为技术有限公司 | 频带扩展的方法及装置 |
WO2015077665A1 (en) * | 2013-11-22 | 2015-05-28 | Qualcomm Incorporated | Frequency domain gain shape estimation |
CN105122358A (zh) * | 2013-01-29 | 2015-12-02 | 弗劳恩霍夫应用研究促进协会 | 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5222189A (en) * | 1989-01-27 | 1993-06-22 | Dolby Laboratories Licensing Corporation | Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio |
DE69620967T2 (de) * | 1995-09-19 | 2002-11-07 | At & T Corp | Synthese von Sprachsignalen in Abwesenheit kodierter Parameter |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP4281131B2 (ja) * | 1998-10-22 | 2009-06-17 | ソニー株式会社 | 信号符号化装置及び方法、並びに信号復号装置及び方法 |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
FI109393B (fi) * | 2000-07-14 | 2002-07-15 | Nokia Corp | Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite |
KR100648760B1 (ko) * | 2001-11-29 | 2006-11-23 | 코딩 테크놀러지스 에이비 | 고주파 재생 기술 향상을 위한 방법들 및 그를 수행하는 프로그램이 저장된 컴퓨터 프로그램 기록매체 |
US7072477B1 (en) * | 2002-07-09 | 2006-07-04 | Apple Computer, Inc. | Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file |
FR2852172A1 (fr) * | 2003-03-04 | 2004-09-10 | France Telecom | Procede et dispositif de reconstruction spectrale d'un signal audio |
US7801383B2 (en) * | 2004-05-15 | 2010-09-21 | Microsoft Corporation | Embedded scalar quantizers with arbitrary dead-zone ratios |
KR100636145B1 (ko) * | 2004-06-04 | 2006-10-18 | 삼성전자주식회사 | 확장된 고해상도 오디오 신호 부호화 및 복호화 장치 |
EP1803953B1 (en) * | 2004-09-10 | 2013-11-06 | NTN Corporation | Bearing device for wheel, having rotation speed detection device |
US8204261B2 (en) | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
US7720230B2 (en) | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
WO2006075269A1 (en) * | 2005-01-11 | 2006-07-20 | Koninklijke Philips Electronics N.V. | Scalable encoding/decoding of audio signals |
AU2006232361B2 (en) | 2005-04-01 | 2010-12-23 | Qualcomm Incorporated | Methods and apparatus for encoding and decoding an highband portion of a speech signal |
EP1829424B1 (en) | 2005-04-15 | 2009-01-21 | Dolby Sweden AB | Temporal envelope shaping of decorrelated signals |
US7974713B2 (en) | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
CN101406073B (zh) | 2006-03-28 | 2013-01-09 | 弗劳恩霍夫应用研究促进协会 | 用于多声道音频重构中的信号成形的增强的方法 |
US8126721B2 (en) * | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
WO2008108082A1 (ja) * | 2007-03-02 | 2008-09-12 | Panasonic Corporation | 音声復号装置および音声復号方法 |
JP5325293B2 (ja) * | 2008-07-11 | 2013-10-23 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 符号化されたオーディオ信号を復号化するための装置および方法 |
US8392200B2 (en) * | 2009-04-14 | 2013-03-05 | Qualcomm Incorporated | Low complexity spectral band replication (SBR) filterbanks |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
US8793126B2 (en) * | 2010-04-14 | 2014-07-29 | Huawei Technologies Co., Ltd. | Time/frequency two dimension post-processing |
CN101964189B (zh) | 2010-04-28 | 2012-08-08 | 华为技术有限公司 | 语音频信号切换方法及装置 |
US8600737B2 (en) | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
US9047875B2 (en) | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
JP5743137B2 (ja) * | 2011-01-14 | 2015-07-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
MX339764B (es) * | 2011-02-18 | 2016-06-08 | Ntt Docomo Inc | Descodificador de habla, codificador de habla, metodo para descodificacion de habla, metodo para codificacion de habla, programa para descodificacion de habla, y programa para codificacion de habla. |
WO2014021890A1 (en) * | 2012-08-01 | 2014-02-06 | Dolby Laboratories Licensing Corporation | Percentile filtering of noise reduction gains |
US9741350B2 (en) | 2013-02-08 | 2017-08-22 | Qualcomm Incorporated | Systems and methods of performing gain control |
US9947335B2 (en) * | 2013-04-05 | 2018-04-17 | Dolby Laboratories Licensing Corporation | Companding apparatus and method to reduce quantization noise using advanced spectral extension |
KR102067044B1 (ko) * | 2016-02-17 | 2020-01-17 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법 |
-
2017
- 2017-02-10 KR KR1020177036732A patent/KR102067044B1/ko active IP Right Grant
- 2017-02-10 EP EP19208046.3A patent/EP3627507A1/en active Pending
- 2017-02-10 PL PL17703771T patent/PL3417544T3/pl unknown
- 2017-02-10 CN CN201780002163.5A patent/CN107925388B/zh active Active
- 2017-02-10 CA CA2985019A patent/CA2985019C/en active Active
- 2017-02-10 EP EP17703771.0A patent/EP3417544B1/en active Active
- 2017-02-10 WO PCT/EP2017/053068 patent/WO2017140600A1/en active Application Filing
- 2017-02-10 PT PT177037710T patent/PT3417544T/pt unknown
- 2017-02-10 RU RU2017143564A patent/RU2685024C1/ru active
- 2017-02-10 AU AU2017219696A patent/AU2017219696B2/en active Active
- 2017-02-10 MX MX2017014734A patent/MX371223B/es active IP Right Grant
- 2017-02-10 BR BR112017024480-2A patent/BR112017024480A2/pt active Search and Examination
- 2017-02-10 ES ES17703771T patent/ES2771200T3/es active Active
- 2017-02-10 JP JP2018527783A patent/JP6603414B2/ja active Active
- 2017-02-10 MY MYPI2017001635A patent/MY191093A/en unknown
- 2017-02-17 TW TW106105242A patent/TWI618053B/zh active
- 2017-02-17 AR ARP170100408A patent/AR107662A1/es active IP Right Grant
- 2017-10-27 ZA ZA2017/07336A patent/ZA201707336B/en unknown
-
2018
- 2018-01-30 US US15/884,190 patent/US10720170B2/en active Active
-
2019
- 2019-10-10 JP JP2019186928A patent/JP7007344B2/ja active Active
- 2019-11-19 US US16/688,938 patent/US11094331B2/en active Active
-
2020
- 2020-06-04 US US16/892,648 patent/US20200402520A1/en active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4292467A (en) * | 1977-10-07 | 1981-09-29 | Transcale A.B. | Control for audio receiver |
GB9518298D0 (en) * | 1994-09-20 | 1995-11-08 | Ricoh Kk | Apparatus for compression using reversible embedded wavelets |
CN1275234A (zh) * | 1997-10-17 | 2000-11-29 | 多尔拜实验特许公司 | 采用附加的滤波器阵列在帧边界处衰减频谱邻频干扰的基于帧的音频编码 |
CN1992533A (zh) * | 2005-12-26 | 2007-07-04 | 索尼株式会社 | 信号编码设备和方法、信号译码设备和方法、程序及介质 |
US20070253563A1 (en) * | 2006-04-22 | 2007-11-01 | Iroquois Holding Company | Method for dynamically adjusting the spectral content of an audio signal |
US20080300866A1 (en) * | 2006-05-31 | 2008-12-04 | Motorola, Inc. | Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice |
CN101485094A (zh) * | 2006-07-14 | 2009-07-15 | 安凯(广州)软件技术有限公司 | 最大熵意义下的后向兼容多通道音频编码与解码方法和*** |
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
CN102257728A (zh) * | 2008-10-17 | 2011-11-23 | 夏普株式会社 | 音频信号调节设备及音频信号调节方法 |
CN102985970A (zh) * | 2010-03-09 | 2013-03-20 | 弗兰霍菲尔运输应用研究公司 | 在用于音频信号的基于相角声码器的带宽扩展中改善的幅值响应和时间对准 |
CN103210443A (zh) * | 2010-09-15 | 2013-07-17 | 三星电子株式会社 | 用于高频带宽扩展的对信号进行编码和解码的设备和方法 |
CN103366751A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN105122358A (zh) * | 2013-01-29 | 2015-12-02 | 弗劳恩霍夫应用研究促进协会 | 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法 |
CN104517610A (zh) * | 2013-09-26 | 2015-04-15 | 华为技术有限公司 | 频带扩展的方法及装置 |
WO2015077665A1 (en) * | 2013-11-22 | 2015-05-28 | Qualcomm Incorporated | Frequency domain gain shape estimation |
CN104269173A (zh) * | 2014-09-30 | 2015-01-07 | 武汉大学深圳研究院 | 切换模式的音频带宽扩展装置与方法 |
Non-Patent Citations (2)
Title |
---|
YONG-TAO SHA等: "High frequency reconstruction of audio signal based on chaotic prediction theory", 《2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
张海波: "音频编码频带扩展技术的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022267754A1 (zh) * | 2021-06-22 | 2022-12-29 | 腾讯科技(深圳)有限公司 | 语音编码、语音解码方法、装置、计算机设备和存储介质 |
WO2024094006A1 (zh) * | 2022-11-01 | 2024-05-10 | 抖音视界有限公司 | 一种音频信号的编码、解码方法及装置 |
CN115866487A (zh) * | 2022-12-30 | 2023-03-28 | 广州市韵强电子有限公司 | 一种基于均衡放大的音响功放方法及*** |
CN115866487B (zh) * | 2022-12-30 | 2023-08-11 | 广州市韵强电子有限公司 | 一种基于均衡放大的音响功放方法及*** |
Also Published As
Publication number | Publication date |
---|---|
MY191093A (en) | 2022-05-30 |
US11094331B2 (en) | 2021-08-17 |
EP3417544B1 (en) | 2019-12-04 |
TW201732784A (zh) | 2017-09-16 |
MX2017014734A (es) | 2018-06-28 |
CN107925388B (zh) | 2021-11-30 |
KR102067044B1 (ko) | 2020-01-17 |
AU2017219696B2 (en) | 2018-11-08 |
RU2685024C1 (ru) | 2019-04-16 |
AU2017219696A1 (en) | 2017-11-16 |
KR20180016417A (ko) | 2018-02-14 |
WO2017140600A1 (en) | 2017-08-24 |
CA2985019A1 (en) | 2017-08-24 |
ES2771200T3 (es) | 2020-07-06 |
US10720170B2 (en) | 2020-07-21 |
PT3417544T (pt) | 2020-03-02 |
PL3417544T3 (pl) | 2020-06-29 |
JP2020024440A (ja) | 2020-02-13 |
US20180190303A1 (en) | 2018-07-05 |
US20200090670A1 (en) | 2020-03-19 |
BR112017024480A2 (pt) | 2018-07-24 |
JP6603414B2 (ja) | 2019-11-06 |
TWI618053B (zh) | 2018-03-11 |
JP7007344B2 (ja) | 2022-01-24 |
CA2985019C (en) | 2022-05-03 |
AR107662A1 (es) | 2018-05-23 |
JP2019500641A (ja) | 2019-01-10 |
ZA201707336B (en) | 2019-02-27 |
EP3417544A1 (en) | 2018-12-26 |
US20200402520A1 (en) | 2020-12-24 |
EP3627507A1 (en) | 2020-03-25 |
MX371223B (es) | 2020-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107925388A (zh) | 用于增强瞬时处理的后置处理器、预处理器、音频编码器、音频解码器及相关方法 | |
US11929084B2 (en) | Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor | |
US10388287B2 (en) | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal | |
US10236007B2 (en) | Audio encoder and decoder using a frequency domain processor , a time domain processor, and a cross processing for continuous initialization | |
AU2005280392B2 (en) | Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering | |
US8275626B2 (en) | Apparatus and a method for decoding an encoded audio signal | |
CN104995680B (zh) | 使用高级频谱延拓降低量化噪声的压扩装置和方法 | |
AU2012205170B2 (en) | Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering | |
KR20130012972A (ko) | 오디오/스피치 신호 부호화방법 | |
KR20120089230A (ko) | 신호 복호화 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |