CN103370740A - 分级编码器中的改善阶段的改善编码 - Google Patents
分级编码器中的改善阶段的改善编码 Download PDFInfo
- Publication number
- CN103370740A CN103370740A CN2011800676432A CN201180067643A CN103370740A CN 103370740 A CN103370740 A CN 103370740A CN 2011800676432 A CN2011800676432 A CN 2011800676432A CN 201180067643 A CN201180067643 A CN 201180067643A CN 103370740 A CN103370740 A CN 103370740A
- Authority
- CN
- China
- Prior art keywords
- stage
- signal
- input signal
- coding
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006872 improvement Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000013139 quantization Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 8
- 241001123248 Arma Species 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011002 quantification Methods 0.000 abstract description 17
- 238000012545 processing Methods 0.000 abstract description 6
- 238000007493 shaping process Methods 0.000 description 33
- 230000014509 gene expression Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明属于一种在分级编码器中用于对数字音频输入信号(x(n))进行编码的方法,包括具有B比特的核心编码阶段和输出量化指标的至少一个当前改善编码阶段k,该量化指标被连结从而形成先前交错编码器的指标(IB+k-1)。该方法包括下列步骤:基于来自先前交错编码器的指标(IB+k-1)通过确定重构单个当前阶段k的绝对级别来获取(303)当前改善阶段k的可能量化值(di B+k(n)),根据所述可能量化值(di B+k(n))来量化(306)分级编码器的输入信号,该输入信号经历或未经历感知加权处理(x(n)或x'(n)),以形成阶段k的标量量化指标(Ienh B+k(n))以及与可能量化值之一对应的量化信号(xB+k(n))。本发明还涉及实现上述编码方法的分级编码器。
Description
技术领域
本发明涉及数字信号编码的领域。
根据本发明的编码特别适于数字信号例如音频信号(语音、音乐等)的传输和/或存储。
本发明更具体地属于例如PCM(“脉冲编码调制”)编码的波形编码或者ADPCM(“自适应差分脉冲编码调制”)编码类型的自适应波形编码。本发明尤其属于嵌入码编码,使得可能给出可伸缩二进制串量化指标。
背景技术
例如参考图1和2来描述ITU-T建议G.722或ITU-T G.727指定的嵌入码ADPCM编码/解码的一般原理。
图1由此表示在每样本B和B+K比特之间运行的ADPCM类型的嵌入码编码器(例如G.722低波段,G.727);注意到非伸缩ADPCM编码(例如G.726,G.722高波段)对应于K=0,其中,B是可以从各个可能的比特率中选择的固定值。
它包括:
-预测模块110,使得可能基于量化误差信号的之前的样本 以及重构信号rB(n′)n′=n-1,...,n-NP来给出信号预测其中,v(n′)是量化比例因子,n是当前时刻。
-减法模块120,从输入信号x(n)中减去其预测以获取e(n)所表示的预测误差信号。
-用于误差信号的量化模块130QB+K,其接收误差信号e(n)作为输入,以给出由B+K比特构成的量化指标IB+K(n)。量化模块QB+K是嵌入码类型,也就是说,它包含具有B比特的“核心”量化器以及被嵌入在“核心”量化器中的具有B+k k=1,...,K比特的量化器。
在ITU-T G.722标准的低波段编码的情形下,通过X.Maitre描述G.722的综述文章“7kHz audio coding within64kbit/s.”IEEE Journal on SelectedAreas in Communication,Vol.6,No.2,February1988中的表IV和VI来定义B=4且K=0、1或2时量化器QB、QB+1、QB+2的决策级别以及重构级别。
例如参考图2所述,通过传输信道140将量化模块QB+K输出的B+K比特的量化指标IB+K(n)发送到解码器。
编码器还包括:
-模块150,用于删除指标IB+K(n)的K个低阶位,给出B比特的低比特率指标IB(n);
-反量化模块121(QB)-1,在输出处给出B比特的量化误差信号
-模块170QAdapt,使得量化器和反量化器适于在下一时刻给出也被称为比例因子的级别控制参数v(n)。
需要注意,在图1中,参考155的虚线部分表示低比特率局部解码器,其包含预测器165和175以及反量化器121。该局部解码器使得可能基于低比特率指标IB(n)来适应170处的反量化器,并基于重构的低比特率数据来适应预测器165和175。
在参考图2所述的嵌入码ADPCM解码器中也可以同样找到该部分。
图2的嵌入码ADPCM解码器接收来自传输信道140的指标I'B+K,即IB+K的可能被二进制误码干扰的版本,作为输入,并且通过每样本B比特的比特率的反量化模块210(QB)-1来实现反量化,以获得信号符号“'”表示基于接收到的比特来解码的值,这可能由于传输错误而与编码器使用的不同。
B比特的输出信号r'B(n)将会等于信号预测与B比特的反量化器的输出之和。解码器的该部分255等于图1的低比特率局部解码器155。
使用模式比特率指标以及选择器220,解码器可以改善恢复的信号。
通过使用z-变换符号,我们可以将它写作循环结构:
RB+k(z)=X(Z)+QB+k(z)
通过下列等式来定义具有B+k比特的量化噪声QB+k(z):
ITU-T标准G.722(以下被称为G.722)的嵌入码ADPCM编码实现宽带中的信号编码,该宽带由[50-7000Hz]的最小带宽并以16kHz抽样来定义。G.722编码是通过正交镜像滤波器对信号进行分解而得到的两个信号子带[0-4000Hz]和[4000-8000Hz]中每个的ADPCM编码。通过对6、5和4比特的嵌入码ADPCM编码来对低波段进行编码,而通过每样本2比特的ADPCM编码器来对高波段进行编码。根据用于低波段解码的比特数,总比特率将是64、56或48bit/s。
该编码最初在ISDN(集成服务数字网络)中被开发使用。它最近被用于IP网络上被称为“高清(HD)语音”的改善质量电话的应用。
对于具有大量级别的量化器,量化噪声的频谱将相对较平坦。但是,在信号具有低能量的频率区域中,噪声可具有与所述信号可比或甚至更大的级别,且由此不再被必要地屏蔽。它于是在这些区域中变得可听见。
因此编码噪声的整形是必要的。在例如G.722的编码器中,此外更需要适应于嵌入码编码的编码噪声整形。
一般来说,编码噪声整形的目的是获得量化噪声,其频谱包络遵循短期屏蔽阈值;该原则经常被简化,从而噪声的频谱大致遵循信号的频谱,确保更多的同构信噪比,从而即使是在信号的低能量的区域中噪声也保持不可听。
在ITU-T建议G.711.1"Wideband embedded extension for G.711pulse codemodulation"or"G.711.1:A wideband extension to ITU-T G.711".Y.Hiwasaki,S.Sasaki,H.Ohmuro,T.Mori,J.Seong,M.S.Lee,B.S.Ragot,J.-L.Garcia,C.Marro,L.M.,J.Xu,V.Malenovsky,J.Lapierre,R.Lefebvre.EUSIPCO,Lausanne,2008中描述了用于嵌入码PCM(“脉冲编码调制”)的编码的噪声整形技术。
该建议由此描述了用于核心比特率编码的具有编码噪声整形的编码。基于过去的解码信号来计算用于编码噪声整形的感知滤波器,该解码信号来自反核心量化器。核心比特率局部解码器由此使得可能计算噪声整形滤波器。于是,在解码器上,可以基于核心比特率解码信号来计算该噪声整形滤波器。
在编码器上使用传送改善比特的量化器。
接收核心二进制流和改善比特的解码器基于核心比特率解码信号以和编码器相同的方式来计算用于编码噪声整形的滤波器,并将该滤波器用于改善比特反量化器的输出信号,通过将过滤信号加到解码的核心信号来获取被整形的高比特率信号。
噪声的整形由此改善了核心比特率信号的感知质量。它对于改善比特提供了有限的质量提高。确实,不会对改善比特的编码执行编码噪声整形,对于核心量化,量化器的输入与改善量化相同。
在核心比特之外对改善比特进行解码时,解码器于是必须通过合适的过滤来删除产生的伪分量。
在解码器上对滤波器的额外计算增加了解码器的复杂度。
该技术未被用于现有的G.722或G.727解码器类型的标准可伸缩解码器。因此需要改善信号质量,不管什么比特率,而保持与现有标准可伸缩解码器的兼容。
在专利申请WO2010/058117中描述了一种不需要在解码器上执行补充信号处理的解决方案。在该申请中,在解码器上接收的信号被标准解码器解码,该标准解码器能够对核心比特率和嵌入比特率信号进行解码,而不需要噪声整形或校正项目的任何计算。
该文档描述了针对分级编码器改善阶段、通过最小化感知过滤域中的平方误差准则来进行量化。
因此,编码噪声整形滤波器被定义,并被应用于至少基于先前编码阶段的重构信号来确定的误差信号。该方案还需要计算当前改善阶段的重构信号作为下一编码阶段的预报。
此外,针对当前改善阶段来计算并存储改善项。这由此带来了很大的复杂度以及先前阶段的改善项或重构信号样本的显著存储。
因此,从复杂度的角度来说,该解决方案不是最优的。
因此,需要改进对改善编码噪声进行编码和整形的现有方案,而保持与现有分级编码器的兼容。
发明内容
本发明易于改善该状况。
为此它提出了一种用于在分级编码器中对数字音频输入信号(x(n))进行编码的方法,包括具有B比特的核心编码阶段和至少一个当前改善编码阶段k,该核心编码以及在当前阶段k之前的改善阶段的编码给出量化指标,该量化指标被连结以形成先前嵌入编码器的指标(IB+k-1)。该方法如此从而包括下列步骤:
-基于仅当前阶段k的绝对重构级别以及先前嵌入编码器的指标来获取当前改善阶段k的可能量化值;
-基于所述可能量化值来量化分级编码器的输入信号,该输入信号经历或未经历感知加权处理,以形成阶段k的量化指标以及与可能量化值之一对应的量化信号。
于是,改善阶段的量化确定了与之前阶段的指标直接连结的量化指标比特。与现有技术方案相反,不需要计算改善信号或改善项。
此外,量化输入处的信号直接是分级编码器输入信号,或者是直接经过感知加权处理的该相同输入信号。这里不涉及现有技术中的输入信号和之前的编码阶段的重构信号之间的差异的差信号。
由此降低了与计算负载相关的复杂度。
此外,与现有技术方案相反,存储的量化值不是差值。于是,存储在之前阶段中用于重构的量化值从而构造改善阶段的量化字典是没有用的。
此外,与现有技术方案相反,不需要构造和存储差异字典,因为改善阶段直接使用通过现有分级编码器和解码器存储的绝对值。于是,本发明避免了现有技术中可能遇到的字典重复,其中,在编码器上使用差异字典而在解码器上使用绝对字典。
由此减少了用于字典存储以及编码器上的量化操作和解码器上的反量化所需的存储。
最后,直接获取改善阶段的量化值而不执行差化,例如在以有限准确性来运行时在编码器上获取的值与解码器上获取的值之间带来额外的准确性。
下文中提及的各个特定实施例可被单独或互相组合地添加到以上定义的方法步骤。
在特定的实施例中,输入信号在量化步骤之前使用预定的加权滤波器来进行感知加权处理以给出调整的输入信号,并且所述方法还包括基于当前改善编码阶段的量化信号来适应加权滤波器的存储的步骤。
针对阶段k的改善编码,直接向分级编码器的输入信号施加的感知加权处理相对于现有技术还降低了在计算负载方面的复杂度,现有技术对输入信号和先前的编码阶段的重构信号之间的差的差信号进行感知加权处理。
于是,所述编码方法还允许现有解码器对信号进行解码而不用进行任何调整或设想附加处理,同时受益于有效的编码噪声整形带来的信号改善。
在特定的实施例中,改善阶段k的可能量化值包含来自自适应类型核心编码的比例因子和预测值。
这使得可能适应与核心编码中定义的值相关的量化值。
在替代的实施例中,在改善阶段k量化的调整输入信号是感知加权的信号,从该输入信号中减去来自自适应类型核心编码的预测值。
这还使得可能适应与核心编码中的定义的值相关的量化值,但在量化器输入时执行该适应而不是针对每个量化值来执行。在针对若干比特来进行改善的情形下,这是有利的。
通过特定的方式,感知加权处理由预测滤波器执行,该滤波器构成ARMA类型的滤波器。
改善编码噪声的整形由此质量较好。
本发明还属于一种数字音频输入信号的分级编码器,包括具有B比特的核心编码阶段和至少一个当前改善编码阶段k,该核心编码以及在当前阶段k之前的改善阶段的编码给出量化指标,该量化指标被连结以形成先前嵌入编码器的指标,该编码器在于它包括:
-基于先前嵌入编码器的指标、通过确定仅当前阶段k的绝对重构级别来获取用于当前改善阶段k的可能量化值的模块;
-基于所述可能量化值来量化分级编码器的输入信号以形成阶段k的量化指标以及与可能量化值之一对应的量化信号的模块,该输入信号经历或未经历感知加权处理。
分级编码器还包括感知加权预处理模块,其使用预定的加权滤波器在量化模块的输入处给出调整的输入信号,以及基于当前改善编码阶段的量化信号来适应加权滤波器的存储的模块。
该分级编码器提供与其实现的方法相同的优势。
本发明还属于一种包含代码指令的计算机程序,当这些指令被处理器执行时,用于实现如根据本发明的编码方法的步骤。
本发明最后属于存储装置,其存储所述计算机程序且可被处理器读取。
附图说明
根据下列描述仅通过非限制的示例并参考附图,本发明的其他特征和优势将变得明显,在附图中:
-图1示出了根据现有技术且如上所述的ADPCM类型的嵌入码编码器;
-图2示出了根据现有技术且如上所述的ADPCM类型的嵌入码解码器;
-图3示出了根据本发明的编码方法以及根据本发明的编码器的一般实施例;
-图4示出了根据本发明的编码方法和编码器的第一特定实施例;
-图5示出了根据本发明的编码方法和编码器的第二特定实施例;
-图6示出了根据本发明的编码方法和编码器的第三特定实施例;
-图7示出了根据本发明的编码方法和编码器的一般替代实施例;
-图7b示出了根据本发明的编码法方法和编码器的另一一般替代实施例;
-图8示出了根据本发明的编码器的核心编码的示例性实施例;
-图9示出了现有技术中使用的量化重构级别的例子;并且
-图10示出了根据本发明的编码器的硬件实施例。
具体实施方式
参考图3,描述了根据本发明的一个实施例的编码器以及编码方法。
回顾一下,这里考虑了嵌入码编码器或分级编码器的情形,其中,设想具有B比特的核心编码和等级k的至少一个改善阶段。例如以306表示的改善阶段k的编码之前的核心编码和改善阶段给出了在每样本B+k-1比特的指标IB+k-1(n)中多路复用的标量量化指标。
在以下描述的示例性实施例中,为了简化表述,(等级k的)改善阶段被表示为产生每样本的额外比特。在该情形下,每个改善阶段中的编码涉及从两个可能值中选择一个。后面会很明显,与等级k的改善阶段可以产生的所有量化值对应的与绝对级别(就“非差异”而言)相关的“绝对字典”的大小为2B+k,有时候略小于2B+k,例如在G.722编码器中,其在低波段6比特量化器中仅具有60种可能的级别而不是64种。分级编码涉及“绝对字典”的二叉树结构,其说明了,给定先前阶段的B+k-1比特,一个改善比特足以进行编码。
图9是从上述的X.Maitre的文章中的表格VI提取的,且表示具有B比特(B=4比特)的核心量化器的前4个级别和G.722编码器的低波段编码的具有B+1和B+2比特的量化器的级别、以及现有技术中的B+2比特的量化器的输出值。
如该图所示,通过划分具有B=4比特的量化器的级别来获取具有B+1=5比特的嵌入量化器。通过划分具有B+1=5比特的量化器的级别来获取具有B+2=6比特的嵌入量化器。重构级别的划分事实上是在G.722中以树形结构标量量化字典(每样本4、5或6比特)的形式来实现的低波段的分级编码限制的结果。
o表示具有B+k比特(B表示核心编码的比特数)的嵌入编码器的量化的重构级别的值,以及
o表示具有B+k-1比特的嵌入量化器的量化重构级别的值,通过划分具有B+k-1比特的嵌入量化器的重构级别来定义具有B+k比特的嵌入量化器的重构级别。
在编码器上可以与在解码器上一样来使用阶段k的绝对重构级别在于可以通过乘上比例因子v(n)并加上预测信号基于这些绝对重构级别在ADPCM编码的一般情形下获取重构信号,如参考表示标准嵌入码ADPCM解码器的图2的描述所示。这些级别已被定义并被存储在解码器中,因此解码器在编解码器(编码器+解码器)中不会添加任何额外的量化表。
对于改善阶段每样本增加若干比特的情形,根据本发明的改善阶段的编码非常容易被一般化。在该情形下,如后面定义的改善阶段使用的字典的大小Dk(n)简单地为2U,其中,U>1是改善阶段的每样本的比特数。
如图3表示的编码器示出了嵌入码编码器或分级编码器,其中设想了具有B比特的核心编码和等级k的至少一个改善阶段。在例如图306所表示的改善阶段k的编码之前的核心编码和改善阶段给出了标量量化指标,其被连结以形成先前嵌入编码器的指标IB+k-1(n)。
图3以简单的方式示出了在306的改善编码之前的表示嵌入编码的PCM/ADPCM编码模块302。
可以使用在301确定的屏蔽滤波器来可选地执行先前嵌入编码的核心编码,以对“核心”编码噪声进行整形。后面参考图8来描述该类型核心编码的例子。
嵌入量化指标IB+k-1(n)和绝对重构级别的知识,以及如果合适,预测信号和比例因子v(n)的知识,使得可能在用于构造量化值字典的模块303中确定用于当前改善阶段k的量化值 该字典Dk(n)被等级k的改善阶段的在这里称为“改善量化器”的量化器使用。
于是,根据优选实施例,在ADPCM编码的情形下以下列方式来定义字典的量化值:
需要注意,字典Dk(n)的两个元素依赖于IB+k-1。事实上,该字典是如下定义的“绝对字典”的子集:
“绝对字典”是树形结构的字典。指标IB+k-1调整所考虑的树的各个分支,以确定阶段k的可能量化值(Dk(n))。
如图1所示通过ADPCM编码的核心阶段来确定比例因子v(n),改善阶段由此使用该相同的比例因子来衡量量化字典的码字。
在本发明的一个实施例中,图3的编码器不包括模块301和310,即不提供任何编码噪声整形处理。于是,量化模块306量化的是输入信号x(n)自身。
在特定的实施例中,编码器还包括模块301,用于计算屏蔽滤波器并确定后面描述的加权滤波器W(z)或预测版本WPRED(z)。这里基于输入信号x(n)来确定屏蔽或加权滤波器,但也可以基于例如先前嵌入编码器的解码信号的解码信号来确定屏蔽或加权滤波器。可以逐个样本或通过样本块来确定或适应屏蔽滤波器。
确实,通过在利用滤波器W(z)加权的域中使用量化,即通过最小化利用W(z)所过滤的量化噪声的能量,根据本发明的编码器执行改善阶段的编码噪声整形。
加权滤波器在311被过滤模块使用,且更普遍地被模块310使用,该模块310用于输入信号x(n)的感知加权预处理。该预处理被直接应用于输入信号x(n),而不是现有技术的情形下的误差信号。
预处理模块310在改善量化器307的输入处给出调整信号x'(n)。
改善阶段k的量化模块307给出了量化指标Ienh B+k(n),通过这里未展示的模块,该量化指标与先前嵌入编码的指标(IB+k-1)连结,以形成当前嵌入编码的指标(IB+k)。
模块308通过指标的反量化给出输入信号的量化值。在解码器上,简单地通过直接使用阶段k的反量化器和连结指标 来获取相同的值。
于是,在加权域中实现信号x(n)的量化,这意味着我们在用滤波器W(z)过滤之后使之间的平方误差最小化。改善阶段的量化噪声由此通过滤波器1/W(z)整形,使该噪声更不易听见。加权量化噪声的能量由此被最小化。
图3中给出的框310的一般实施例示出了一般情形,其中,W(z)是无限脉冲响应(IIR)滤波器或有限脉冲响应(FIR)滤波器。通过用W(z)过滤x(n)来获取信号x′(n),然后在量化值已知时更新滤波器W(z)的存储,好像已经对信号进行过滤一样。
虚线箭头表示滤波器的存储的更新。
于是,还可以展示如图3所示在编码器中实现的步骤。确实,其中存在下列步骤:
在图3所示的情形下,使用在301预先确定的加权滤波器,输入信号在310经过感知加权处理,在306的量化步骤之前给出调整的输入信号x'(n)。
图4、5和6现在描述了预处理块310的特定实施例。
框301、302、303、306、307和308于是保持和参考图3所述的相同。
图4展示了具有滤波器W(z)=A′(z)的预处理块310的第一实施例,该滤波器具有有限脉冲响应(FIR)。
bB+k(n'),n'=n-1,...,n-ND.
ND是感知滤波器W(z)的阶。
在302,输入信号x(n)通过PCM/ADPCM编码模块302编码,具有或没有嵌入编码器B+k-1的编码噪声的整形。
在303,根据预测值在ADPCM自适应类型的编码的情形下根据核心阶段的比例因子v(n)、以及参考图3所示根据编码指标IB+k-1(n)来构造自适应字典Dk。在改善阶段k中设想单个改善比特的特定实施例中,自适应字典Dk包含下列两项:和
在该实施例中,存在基于预测在301计算屏蔽滤波器并确定加权滤波器W(z)以及其预测版本WPRED(z)的步骤,即仅使用过去的样本来进行计算。
在此回顾预测滤波器的定义。
Y(z)=A(z)X(z)
对应于差分方程
y(n)=a0x(n)+a1x(n-1)+a2x(n-2)+a3x(n-3)+a4x(n-4)
y(n)的该表达式可被分为两部分:
-第一部分仅依赖于当前输入x(n):a0x(n)。通常并且我们在本文档中所关注的情形下,a0=1
-第二部分仅依赖于过去的输入x(n-i),i>0:a1x(n-1)+a2x(n-2)+a3x(n-3)+a4x(n-4),其因此将被认为是通过线性预测的类推来过滤的预测部分,其中,它基于之前的样本来表示x(n)的预测。
该第二部分在抽样时刻n对应于“零输入响应”(ZIR)或“振铃(ringing)”,其事实上是一般化的预测。该分量的z-变换为:
YPRED(z)=(A(z)-1)X(z)=HA,PRED(z)X(z),其中,HA,PRED(z)=A(z)-1
其差分方程:
y(n)=x(n)-b1y(n-1)-b2y(n-2)-b3y(n-3)-b4y(n-4)
创新部分为x(n),预测部分为-b1y(n-1)-b2y(n-2)-b3y(n-3)-b4y(n-4),其z-变换为YPRED(z)=-(B(z)-1)Y(z)=(1-B(z))Y(z)。
对于在同一时间包含零点和极点的滤波器(ARMA(自回归移动平均)滤波器)的情形存在相同的情况:
其差分方程(在该例子中A(z)和B(z)的阶为4)为:
以下,通常HPRED(z)表示滤波器,其当前输入x(n)的系数为零。
在该情形下,在图4中,通过将过滤划分为创新和预测部分,于是,能量必须被最小化的项为:
于是,阶段k的改善量化器所量化的信号为
在306通过改善阶段k的量化模块来执行x′(n)的量化,给出改善阶段k的量化指标以及阶段k的解码信号模块307给出了自适应字典Dk的码字指标(在示例性说明中的1比特),其最小化在x′(n)与量化值和之间的平方误差。该指标必须与先前嵌入编码的指标IB+k-1连结,以在解码器上获取阶段k的码字的指标IB+k。模块308通过指标的反量化来给出输入信号的量化值。
框310的预处理操作由此使得可能通过执行输入信号x(n)的感知加权来对阶段k的改善编码噪声进行整形。输入信号自身被感知加权,而不是现有技术方案的情形下的误差信号。
图5示出了在该实施例中使用ARMA(自回归移动平均)类型的过滤的预处理模块的另一示例性实施例,其传递函数为:
根据图5的操作如下地被串在一起:
-在302通过B+k-1比特的PCM/ADPCM类型的嵌入编码器来对输入信号x(n)进行编码,可选地具有噪声编码整形,该噪声编码整形使用在301确定的屏蔽滤波器来对编码噪声进行整形;
这些步骤与参考图3所述的相同。
在505,执行将预测信号加到信号x(n)的步骤,以给出调整的信号x′(n)。
通过量化模块306、以和参考图3和4所示类似的方式来执行对所述调整信号x′(n)进行量化的步骤。
通过预处理器块310的模块在505、509、510、511、512和513执行的所有步骤使得可能对改善编码阶段k的编码噪声进行整形。由此通过两个预测滤波器来执行噪声整形,该滤波器由此构成ARMA滤波器,其提供噪声整形的更好准确性。
图7示出了通过对来自核心编码的预测信号进行不同地处理来量化信号x′(n)的步骤306的替代实施例。该实施例用图3所示的示例性预处理框310来表示,但明显可以与图4、5和6所示的预处理块集成。根据图7的操作如下被串在一起:
-在301计算屏蔽滤波器并确定加权滤波器W(z)或其预测版本WPRED(z);
-在302通过B+k-1比特的PCM/ADPCM类型的嵌入编码器对输入信号x(n)进行编码,可选地具有编码噪声整形,其中使用在301确定的屏蔽滤波器来对编码噪声进行整形;
-在701根据核心阶段(在ADPCM编码的情形下)的比例因子v(n)和嵌入编码先前阶段k的量化指标IB+k-1(n)来确定自适应字典Dk'
模块707给出了自适应字典Dk'的码字指标(在示例性说明中的1比特),其最小化在x′′(n)与码字和之间的平方误差。该指标必须和先前嵌入编码的指标IB+k-1连结,以在解码器上获取包含阶段k的当前嵌入编码的指标IB+k。
图7中的解决方案在质量和存储方面与图3的相同,但在改善阶段使用多于一比特的情形下需要更少的计算。确实,不是将预测值加到所***字(>2),而是我们仅进行量化之前的一次减法且仅进行一次加法来恢复量化值由此降低了复杂度。
图7b示出了另一替代实施例。这里,通过从调整的输入信号减去阶段k的重构级别来构造自适应字典并且如果合适,通过比例因子v(n)来对该重构级别进行加权。在该典型情形下,通过最小化平方误差来量化预测信号接下来通过下列方式 来获取用于更新存储的已解码信号
图8详细描述了在核心编码中对噪声进行整形的可能实现。模块801计算噪声整形滤波器的系数或模块802计算之前的抽样时刻n-1、n-2、……的编码误差该误差被预测滤波器HPRED(z)过滤,以获取预测信号qw,pred(n)。与HPRED(z)对应的滤波器H(z)可以等于例如 或
在时刻n,将从要编码的信号中减去该预测值,以获取要编码的调整信号x'(n)=x(n)-qw,pred(n)。
因此
图8的操作顺序如下:
-在804从x(n)减去预测qw,pred(n),以获取调整的信号x'(n);
-在805-806通过标准的PCM/ADPCM编码器/解码器来对调整的信号x'(n)进行编码/解码。局部解码器可以是G.711、G.721、G.722或G.727的PCM/ADPCM类型的标准局部解码器。
围绕部分807可以被看作并被实现为噪声整形预处理,其调整标准编码器/解码器链的输入。
现在参考图10来描述根据本发明的编码器的示例性实施例。
在硬件方面,例如根据以上各个实施例来描述的编码器900在本发明的概念中典型地包含与存储器块BM协作的处理器μP,该存储器块包括储存器和/或工作存储器以及上述缓冲存储器MEM,作为存储例如实现如上参考图3、4、5、6和7所述的编码方法所需的量化重构级别或任意其他数据的字典的装置。该编码器接收数字信号x(n)的连续帧作为输入,并给出连结的量化指标IB+K。
存储器块BM可以包括计算机程序,其包含代码指令,在这些指令被编码器的处理器μP执行时,用于实现根据本发明的方法的步骤,特别是基于先前嵌入编码器的指标通过确定仅当前阶段k的绝对重构级别来获取当前改善阶段k的可能量化值的步骤,基于所述可能量化值来量化分层编码器的输入信号的步骤,该输入信号经历或未经历感知加权处理(x(n)或x'(n)),以形成阶段k的量化指标以及与可能量化值之一对应的量化信号。
通过更一般的方式,存储装置存储根据本发明的实现编码方法的计算机程序,该存储装置可被计算机或处理器读取、可能被集成到编码器中、可选地可移动。
图3到7例如可以说明这样的计算机程序的算法。
Claims (8)
1.一种用于在分级编码器中对数字音频输入信号(x(n))进行编码的方法,该分级编码器包括具有B比特的核心编码阶段和至少一个当前改善编码阶段k,该核心编码以及在当前阶段k之前的改善阶段的编码给出量化指标,该量化指标被连结以形成先前嵌入编码器的指标(IB+k-1),该方法的特征在于它包括下列步骤:
3.如权利要求1所述的方法,其特征在于,用于改善阶段k的可能量化值还包含来自自适应类型核心编码的比例因子和预测值。
4.如权利要求2所述的方法,其特征在于,要在改善阶段k量化的调整输入信号(x''(n))是感知加权的输入信号,从该输入信号中减去了来自自适应类型核心编码的预测值。
5.如权利要求1到4所述的方法,其特征在于,所述感知加权处理由预测滤波器执行,该预测滤波器形成ARMA类型的滤波器。
6.一种数字音频输入信号(x(n))的分级编码器,包括具有B比特的核心编码阶段和至少一个当前改善编码阶段k,该核心编码以及在当前阶段k之前的改善阶段的编码给出量化指标,所述量化指标被连结以形成先前嵌入编码器的指标(IB+k-1),该编码器的特征在于,它包括:
-基于先前嵌入编码器的指标(IB+k-1)通过确定仅当前阶段k的绝对重构级别来获取用于当前改善阶段k的可能量化值(di B+k(n))的模块(303);
8.一种包含代码指令的计算机程序,当这些指令被处理器执行时,用于实现如权利要求1到5之一所述的编码方法的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1060631A FR2969360A1 (fr) | 2010-12-16 | 2010-12-16 | Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique |
FR1060631 | 2010-12-16 | ||
PCT/FR2011/052959 WO2012080649A1 (fr) | 2010-12-16 | 2011-12-13 | Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103370740A true CN103370740A (zh) | 2013-10-23 |
CN103370740B CN103370740B (zh) | 2015-09-30 |
Family
ID=44356295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180067643.2A Expired - Fee Related CN103370740B (zh) | 2010-12-16 | 2011-12-13 | 分级编码器中的改善阶段的改善编码 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20130268268A1 (zh) |
EP (1) | EP2652735B1 (zh) |
JP (1) | JP5923517B2 (zh) |
KR (1) | KR20140005201A (zh) |
CN (1) | CN103370740B (zh) |
FR (1) | FR2969360A1 (zh) |
WO (1) | WO2012080649A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679312A (zh) * | 2016-03-04 | 2016-06-15 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
CN112954323A (zh) * | 2014-07-28 | 2021-06-11 | 弗劳恩霍夫应用研究促进协会 | 编码器、解码器、用于编码及解码的***及方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
WO2020086067A1 (en) * | 2018-10-23 | 2020-04-30 | Nine Energy Service | Multi-service mobile platform for well servicing |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1623185A (zh) * | 2002-03-12 | 2005-06-01 | 诺基亚有限公司 | 可伸缩音频编码的有效改进 |
CN101385079A (zh) * | 2006-02-14 | 2009-03-11 | 法国电信公司 | 在音频编码/解码中用于知觉加权的设备 |
EP2171713A1 (fr) * | 2007-06-15 | 2010-04-07 | France Telecom | Codage de signaux audionumériques |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
CN101796579A (zh) * | 2007-07-06 | 2010-08-04 | 法国电信公司 | 数字音频信号的分级编码 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100261253B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
US20110022924A1 (en) * | 2007-06-14 | 2011-01-27 | Vladimir Malenovsky | Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711 |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
KR101370192B1 (ko) * | 2009-10-15 | 2014-03-05 | 비덱스 에이/에스 | 오디오 코덱을 갖는 보청기 및 방법 |
FR2960335A1 (fr) * | 2010-05-18 | 2011-11-25 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
FR2981781A1 (fr) * | 2011-10-19 | 2013-04-26 | France Telecom | Codage hierarchique perfectionne |
-
2010
- 2010-12-16 FR FR1060631A patent/FR2969360A1/fr not_active Withdrawn
-
2011
- 2011-12-13 WO PCT/FR2011/052959 patent/WO2012080649A1/fr active Application Filing
- 2011-12-13 KR KR20137018623A patent/KR20140005201A/ko not_active Application Discontinuation
- 2011-12-13 US US13/995,014 patent/US20130268268A1/en not_active Abandoned
- 2011-12-13 CN CN201180067643.2A patent/CN103370740B/zh not_active Expired - Fee Related
- 2011-12-13 EP EP11811097.2A patent/EP2652735B1/fr not_active Not-in-force
- 2011-12-13 JP JP2013543859A patent/JP5923517B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1623185A (zh) * | 2002-03-12 | 2005-06-01 | 诺基亚有限公司 | 可伸缩音频编码的有效改进 |
CN101385079A (zh) * | 2006-02-14 | 2009-03-11 | 法国电信公司 | 在音频编码/解码中用于知觉加权的设备 |
EP2171713A1 (fr) * | 2007-06-15 | 2010-04-07 | France Telecom | Codage de signaux audionumériques |
CN101796579A (zh) * | 2007-07-06 | 2010-08-04 | 法国电信公司 | 数字音频信号的分级编码 |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954323A (zh) * | 2014-07-28 | 2021-06-11 | 弗劳恩霍夫应用研究促进协会 | 编码器、解码器、用于编码及解码的***及方法 |
CN105679312A (zh) * | 2016-03-04 | 2016-06-15 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
CN105679312B (zh) * | 2016-03-04 | 2019-09-10 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
Also Published As
Publication number | Publication date |
---|---|
FR2969360A1 (fr) | 2012-06-22 |
WO2012080649A1 (fr) | 2012-06-21 |
US20130268268A1 (en) | 2013-10-10 |
JP2014501395A (ja) | 2014-01-20 |
EP2652735A1 (fr) | 2013-10-23 |
CN103370740B (zh) | 2015-09-30 |
JP5923517B2 (ja) | 2016-05-24 |
KR20140005201A (ko) | 2014-01-14 |
EP2652735B1 (fr) | 2015-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102282611B (zh) | 数字音频信号的分级编码方法和分级编码器 | |
CN101443842B (zh) | 信息信号编码 | |
CA2862715C (en) | Multi-mode audio codec and celp coding adapted therefore | |
JP5186054B2 (ja) | マルチステージコードブックおよび冗長コーディング技術フィールドを有するサブバンド音声コーデック | |
AU2008316860B2 (en) | Scalable speech and audio encoding using combinatorial encoding of MDCT spectrum | |
JP5085543B2 (ja) | 適応コーディングおよびデコーディングでの複数のエントロピモデルの選択的使用 | |
KR101344174B1 (ko) | 오디오 신호 처리 방법 및 오디오 디코더 장치 | |
RU2752127C2 (ru) | Усовершенствованный квантователь | |
KR101180202B1 (ko) | 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치 | |
EP2489041A1 (en) | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms | |
AU2013283568B2 (en) | Linear prediction based audio coding using improved probability distribution estimation | |
CN103081366A (zh) | 在数字音频信号编码器中控制噪声整形反馈环路 | |
CN103370740B (zh) | 分级编码器中的改善阶段的改善编码 | |
KR20090036459A (ko) | 계층형 광대역 오디오 신호의 부호화 방법 및 장치 | |
WO2009015944A1 (en) | A low-delay audio coder | |
Bhatt et al. | Proposed modification in ETSI GSM 06.10 full rate speech codec for high rate data hiding and its objective evaluation of performance using Simulink |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150930 Termination date: 20171213 |