CN102812511A - 优化的参数立体声解码 - Google Patents

优化的参数立体声解码 Download PDF

Info

Publication number
CN102812511A
CN102812511A CN2010800574434A CN201080057443A CN102812511A CN 102812511 A CN102812511 A CN 102812511A CN 2010800574434 A CN2010800574434 A CN 2010800574434A CN 201080057443 A CN201080057443 A CN 201080057443A CN 102812511 A CN102812511 A CN 102812511A
Authority
CN
China
Prior art keywords
signal
decoding
parameter
stereophonic
centerdot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800574434A
Other languages
English (en)
Inventor
B·科维塞
S·拉格特
T·M·N·霍恩格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN102812511A publication Critical patent/CN102812511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种用于立体声数字音频信号的参数解码的方法,包括:合成步骤(synth.),用于针对频率子带,基于从立体声信号的缩混产生的公式(I)的已解码单声道信号和根据立体声信号的空间信息参数,来合成立体声信号,使得所获得的信号具有以下形式:公式(II),其中公式(III)和公式(IV)表示合成信号的声道,公式(V)和公式(VI)表示取决于已解码单声道信号的信号,以及c1[j]和c2[j]表示增益。所述增益的特征在于它们按照以下方式计算:公式(VII),其中公式
Figure DDA00002172326000011
是从解码的参数获得的、在立体声信号的两个声道之间的幅度比。本发明还涉及用于实现所述方法的解码器。

Description

优化的参数立体声解码
技术领域
本发明涉及数字信号编码/解码的领域。
根据本发明的编码和解码具体地适于诸如音频信号(语音、音乐等)之类的数字信号的传送和/或存储。
更具体地,本发明涉及多声道音频信号的参数编码/解码。
背景技术
这个类型的编码/解码是基于空间信息参数的提取,从而在解码时,这些空间特性可被恢复以用于收听者。
这个类型的参数编码被具体应用于立体声信号。这样的编码/解码技术例如在如下的文献中描述:作者为Breebaart,J.和van de Par,S和Kohlrausch,A.和Schuijers,题目为"Parametric Coding of Stereo Audio"in EURASIPJournal on Applied Signal Processing 2005:9,1305-1322。参考分别描述参数立体声编码器和解码器的图1和图2来重现(reprise)这个示例。
这样,图1描述了接收两个音频声道(左声道(表示为L)和右声道(表示为R))的编码器。
通过执行短期(short-term)傅立叶分析的块101、102、和103、104,来分别处理所述声道L(n)和R(n)。因此获得了所述变换的信号L[j]和R[j]。
块105执行声道缩小矩阵化(reduction matrixing),或“缩混”,以从所述左和右信号获得和信号、下文中称作单声道信号的单音调信号,在本案中,所述信号处于频域。
还在块105中执行空间信息参数的提取。
也称为声道间强度差的ICLD(声道间级别差)类型的参数表征对于每个频率子带在左和右声道之间的能量比。
它们以dB为单位用如下的公式来定义:
ICLD [ k ] = 10 . log 10 ( Σ j = B [ k ] B = [ k + 1 ] - 1 L [ j ] · L * [ j ] Σ j = B [ k ] B [ k + 1 ] - 1 R [ j ] · R * [ j ] ) dB - - - ( 1 )
其中L[j]和R[j]对应于L和R声道的(复数)谱系数,值B[k]和B[k+1]为每个频带k定义到谱的子带的细分,并且符号*指示复共轭。
也称为频率子带相位差的ICPD(声道间相位差)类型的参数根据如下的关系来定义:
ICPD [ k ] = ∠ ( Σ j = B [ k ] B [ k + 1 ] - 1 L [ j ] · R * [ j ] ) - - - ( 2 )
其中,∠指示复数运算数的辐角(argument)(相位)。还可能按照等价于ICPD的方式来定义声道间时间偏移或声道间时间差(ICTD)。
声道间相干性参数ICC表示声道间相关性。
这些ICLD、ICPD和ICC参数是通过所述块105从所述立体声信号中提取的。
单声道信号在短期傅立叶合成(逆FFT、窗口化、以及相加重叠,在英语中称为重叠相加或OLA)之后被传送到时域(块106到108),并执行单声道编码(块109)。并行地,所述立体声参数在块110中被量化和编码。
通常,所述信号(L[j]、R[j])的谱根据ERB(等效矩形带宽)或Bark类型的非线性频率标度来划分,其中子带的数目典型地为从20到34。这个标度定义了用于每个子带k的值B(k)和B(k+l)。所述参数(ICLD、ICPD、ICC)通过标度量化来编码,所述标度量化后面可能跟随有熵编码或差分编码。例如,在前面提到的文章中,利用差分编码通过非均衡量化器(范围为从-50到+50dB)对所述ICLD进行编码;所述非均衡量化步骤利用了以下事实:ICLD值变得越大,则对这个参数的变化的听觉敏感度变得越弱。
在解码器200中,单声道信号被解码(块201),使用去相关器(块202)来产生已解码单声道信号的两个版本
Figure BDA00001777855700023
Figure BDA00001777855700024
这两个信号进入频域(块203至206),并且解码的立体声参数(块207)由立体声合成(块208)使用,以重构频域中的左和右声道。最后在时域中重构这些声道(块209至214)。
对于在块208中执行的立体声合成,存在不同的方法用于根据ICLD参数和解码的单声道信号合成两个立体声声道。
在下面的文章中描述了示例:作者为Lapierre和Lefebvre,题目为"OnImproving Parametric Stereo Audio Coding",公布在第120届AES大会上,巴黎,2006。
根据下面的等式,通过仅考虑声道间级别差参数来合成解码的左和右声道:
L ^ [ j ] = c 1 [ k ] · M ^ [ j ] R ^ [ j ] = c 2 [ k ] · M ^ [ j ] - - - ( 3 )
其中
c 1 [ k ] = 2 c 2 [ k ] 1 + c 2 [ k ] c 2 [ k ] = 2 1 + c 2 [ k ] - - - ( 4 )
其中
c[k]=10ICLD[k]/20以及
Figure BDA00001777855700033
然而,为了达到这个结果,必须进行相对强的假设。实践中,如下地计算单声道的“缩混”操作:
M [ j ] = L [ j ] + R [ j ] 2 - - - ( 5 )
单声道信号的能量的确切表达如下:
| M [ j ] | 2 = | L [ j ] + R [ j ] 2 | 2 = | L [ j ] | 2 + | R [ j ] | 2 + 2 L [ j ] R [ j ] * 4 - - - ( 6 )
给出c1[k]和c2[k]的公式来自如下的能量约束:
假设左声道和右声道是相同的(L[j]=R[j]),并且可以写为如下:
|M[j]|2=L[j]R[j]*                  (7)
因此, 2 | M ^ [ j ] | 2 = | L ^ [ j ] | 2 + | R ^ [ j ] | 2 - - - ( 8 )
上面的约束因此被写为:
c 1 [ k ] 2 | M ^ [ j ] | 2 + c 2 [ k ] 2 | M ^ [ j ] | 2 = 2 | M ^ [ j ] | 2 或者c1[k]2+c2[k]2=2(9)
因为
Figure BDA00001777855700041
所以得到c[k]2c2[k]2+c2[k]2=c2[k]2(c[k]2+1)=2,这使得可能得到结果:
c 2 [ k ] = 2 1 + c 2 [ k ] 以及,类似地,
c 1 [ k ] 2 c [ k ] 2 + c 1 [ k ] 2 = c 1 [ k ] 2 ( c [ k ] 2 + 1 ) c [ k ] 2 = 2 , 其给出 c 1 [ k ] = 2 c 2 [ k ] 1 + c 2 [ k ]
这个示范示出在现有技术的级别立体声编码技术中施加的能量约束
Figure BDA00001777855700045
仅仅对于等同的L和R声道子带(L[j]=R[j])的特定情况有效。
在其中左和右声道通常不同的实际立体声信号的情况中,没有证实这个假设。
在其它的情况中,将没有很好地保存合成的立体声信号的能量。此外,必须开发能量补偿方法或所谓的“主动”缩混方法来保存这个能量。
在上面提及的作者为Lapierre的文献中描述了基于解码器的标度因子的方法。
这里描述的以下示例例如示出了其中在现有技术的技术中施加的能量约束不再能应用的情况。
在这个示例中,两个声道之一的能量在子带中占优势。
对于子带被减少到系数的情况,通过假设L[j]=1000X以及R[j]=X,其中X是实数,推导出了单声道信号M[j]=(L[j]+R[j])/2=500.5X。
因此接下来获得:2|M[j]|2=2*250500.25X2=501000.5X2
这个值不同于|L[j]|2+|R[j]|2=1000001X2。这个坏开始假设的结果是已解码信号的能量明显地小于在其中两个声道不平衡的情况中要编码的信号的能量。在我们的示例中,空间信息参数被写为:
ICLD [ k ] = 10 . log 10 ( L 2 R 2 ) dB - - - ( 10 )
因此,接下来获得:
c [ k ] = 10 ICLD [ k ] / 20 = L R = 1000 X X = 1000
这给出:
c 1 [ k ] = 2 c 2 [ k ] 1 + c 2 [ k ] = 2000000 1000001 ≈ 1.4142 - - - ( 11 )
c 2 [ k ] = 2 1 + c 2 [ k ] = 2 1000001 ≈ 0.0014142 - - - ( 12 )
已解码值然后将是:
L ^ [ j ] = c 1 [ k ] · M ^ [ j ] ≈ 1.4142 · 500.5 X = 707.8071 X 而不是1000X,以及
R ^ [ j ] = c 2 [ k ] · M ^ [ j ] ≈ 0.0014142 · 500.5 X = 0.7078071 X 而不是X,这相当于每个声道中大约3dB的损耗。
对于这类情况,可以看出必须实现能量补偿技术,这将增加用于在解码器中正确地合成立体声信号所需要的比特率。
为了不增加立体声编码所需要的比特率,需要执行立体声信号的合成,其不要求任何能量补偿。
发明内容
本发明改进这个情形。
为此,它提出了一种用于立体声数字音频信号的参数解码方法,包括:合成步骤,用于针对每个频率子带,根据从立体声信号的缩混获得的已解码单声道信号和根据立体声信号的空间信息参数,来合成立体声信号,使得所获得的信号为如下的形式:
L ^ [ j ] = c 1 [ j ] · M ^ 1 [ j ]
R ^ [ j ] = c 2 [ j ] · M ^ 2 [ j ]
其中是合成信号的声道,
Figure BDA00001777855700059
Figure BDA000017778557000510
是作为已解码单声道信号的函数的信号,以及c1[j]、c2[j]是增益。所述增益的值得注目之处在于它们被如下计算:
c 1 [ j ] = 2 I ^ [ j ] I ^ [ j ] + 1
c 2 [ j ] = 2 I ^ [ j ] + 1
其中
Figure BDA000017778557000513
是从解码的参数获得的在立体声信号的两个声道之间的幅度比。
这样,这些增益用于立体声信号合成的应用使得可能废除为了保存信号的能量而要应用的任何补偿。
在实践中,通过应用这些增益,所述合成使得可能没有能量损耗地合成立体声信号和声道间级别差。
下面提及的各个具体实施例可被独立地添加到上面限定的方法的步骤,或者与上面限定的方法的步骤彼此组合。
在一个实施例中,所述信号
Figure BDA00001777855700061
Figure BDA00001777855700062
等于所述已解码的单声道信号。这具体地应用在其中立体声信号的声道不异相(out of phase)的情况。
在另一实施例中,所述方法还包括用于接收立体声信号的声道的相位的步骤,并且所述信号
Figure BDA00001777855700063
对应于其中对于每个声道应用与所接收的相位对应的相移的已解码单声道信号。
这应用在其中立体声信号的声道异相的情况中。
在又一实施例中,所述信号
Figure BDA00001777855700065
Figure BDA00001777855700066
之一对应于已解码单声道信号的时间去相关,而另一个等于已解码单声道信号。
这个实施例应用在其中合成不仅考虑已解码的单声道信号而且考虑去相关的单声道信号的情况中。
本发明还涉及一种用于解码立体声数字音频信号的参数解码器,包括:合成模块,用于针对每个频率子带,根据从立体声信号的缩混获得的已解码单声道信号和根据立体声信号的空间信息参数,来执行立体声信号的合成,使得所获得的信号为如下的形式:
L ^ [ j ] = c 1 [ j ] · M ^ 1 [ j ]
R ^ [ j ] = c 2 [ j ] · M ^ 2 [ j ]
其中
Figure BDA00001777855700069
是合成信号的声道,
Figure BDA000017778557000611
Figure BDA000017778557000612
是作为已解码单声道信号的函数的信号,以及c1[j]、c2[j]是增益。所述合成模块如下地计算所述增益:
c 1 [ j ] = 2 I ^ [ j ] I ^ [ j ] + 1
c 2 [ j ] = 2 I ^ [ j ] + 1
其中
Figure BDA000017778557000615
是从解码的参数获得的在立体声信号的两个声道之间的幅度比。
它还涉及一种包括代码指令的计算机程序,当由处理器执行所述计算机程序时,所述代码指令实现上述的解码方法的步骤。
本发明最后涉及一种能够通过处理器读取的、用于存储上述的计算机程序的存储部件。
附图说明
在阅读了仅作为非限制性示例、并参考附图给出的下面的描述时,本发明的其它特征和优点将更清楚地显现,在附图中:
-图1图示了现有技术已知的且在前面描述的用于实现参数编码的编码器;
-图2图示了现有技术已知的且在前面描述的用于实现参数解码的解码器;
-图3图示了传递从缩混获得的单声道信号和立体声信号的空间信息参数的立体声参数编码器;
-图4图示了根据本发明的一个实施例的解码器,用于实现根据本发明一个实施例的解码方法;
-图5图示了本发明使得可能获得的自动补偿效果;以及
-图6图示了能够实现根据本发明一个实施例的解码方法的装置。
具体实施方式
参考图3,现在描述用于传递单声道信号和立体声信号的空间信息参数二者的参数立体声信号编码器。
应该注意,在下面的描述中,索引k将用于表示频率子带索引,而索引j用于表示频率射线(ray)索引。
这个参数立体声编码器在宽带模式中操作,以16kHz、5ms帧对所述立体声信号进行采样。每个声道(L和R)首先被高通滤波器(HPF)预滤波,所述高通滤波器(HPF)消除了50Hz以下的分量(块301和302)。
所述立体声信号通过块303a、303b、303c和303d而传递到频域中。
在立体声“缩混”块303e中计算单声道信号,其中,在频域中通过下面的公式来计算所述信号:
M ′ [ j ] = | L ′ [ j ] | + | R ′ [ j ] | 2 · e j ∠ L ′ ( j ) - - - ( 13 )
其中|·|表示幅度(复数模),而∠(.)表示相位(复辐角)。
这样,按照其中选择相位∠M(j)作为参考相位以用于单声道信号的每个谱射线的方式,将所述L和R声道设置为同相。通过对L和R声道的幅度取平均,来计算所述单声道信号的幅度。在优选的实施例中,如下地进行设置:∠M(j)=∠R(j)。
块303f、303g和303h用于将单声道信号带入时域中,以便通过块304编码。
如所描述的,例如在ITU-T建议G.722、7kHz audio-coding within 64kbit/s、1988年11月中,通过G.722类型编码器对所述单声道信号进行编码。
在G.722类型编码中引入的延迟是16kHz的22个样本,并且频域中的缩混的延迟是16kHz的80个样本。所述L和R声道在时间上对准(块305和308),其中具有延迟T’=22+80=102个采样,并且通过变换(例如,通过离散傅立叶变换,其具有正弦开窗术,其重叠在这里的示例中为50%)在频域中分析(块306、307、和309、310)。每个窗口因此覆盖两个5ms帧或10ms帧(160个采样)。
块311用于提取立体声信号的空间信息参数。
在具体的实施例中,在将谱L[j]和R[j]细分为预定数目的频率子带(例如这里为20个子带)的步骤之后,根据下面定义的标度,来对每个频率子带进行参数的计算:
{B(k)}k=0,..,20=[0,1,2,3,4,5,6,7,9,11,13,16,19,23,27,31,37,44,52,61,80]
这个标度为索引k=0到19的频率子带进行划界(作为多个傅立叶系数)。例如,第一子带(k=0)经历从系数B(k)=0到B(k+l)-1=0;因此减少到单个系数(100Hz)。
类似地,最后的子带(k=19)经历从系数B(k)=61到B(k+l)-1=79,它包括19个系数(1900Hz)。
这些参数例如通过下面的计算来获得:
比率
Figure BDA00001777855700082
表示在已解码的左和右声道之间的逐射线的幅度比。为了在解码器上再现与编码器的输入处的立体声信号的空间图像类似的空间图像,所述比率I[k]在这里在编码器上被定义为:
I [ k ] = Σ j = B [ k ] B [ k + 1 ] - 1 L [ j ] · L * [ j ] Σ j = B [ k ] B [ k + 1 ] - 1 R [ j ] · R * [ j ] - - - ( 14 )
假设所述比率I[k]在对数域中被编码。还可能利用其中可以不管参数ICLD[k](其中k=0)的事实。可以避免它的计算并因此避免它的编码。
下面详述所述参数I[k]的编码的示例:
-对于偶数索引的帧:通过非均衡标度量化来编码9个参数{I[k]}k=1,...,9的块,其中:
·5个比特用于第一参数5I[k],其中k=1
·4个比特用于接下来的8个参数I[k]
-对于奇数索引t的帧:如先前呈现的对10个参数{I[k]}k=10,...,19的块进行编码
·5个比特用于第一参数5I[k],
·4个比特用于接下来的8个参数I[k],
·4个比特用于最后的(第十)参数I[k]。
这样,在这个实施例中,使用37个比特用于偶数索引的帧(其中3个比特被保留使用),并且使用40个比特用于奇数索引的帧。由于帧长度是5ms,所以每个帧获得40比特,或者获得8k比特/秒的比特率用于立体声扩展(除了G.722编码之外)。
更详细的示范实施例例如是:
对于量化表:
tab_ild_q5[31]={-50,-45,-40,-35,-30,-25,-22,-19,-16,-13,-10,-8,-6,-4,-2,0,2,4,6,8,10,13,16,19,22,25,30,35,40,45,50}
I[k]的5比特量化包括得到量化索引i使得
i=arg minj=0…30|I[k]-tab_ild_q5[j]|^2
类似地,对于量化表:
tab_ild_q4[15]={-16,-13,-10,-8,-6,-4,-2,0,2,4,6,8,10,13,16}
I[k]的4比特量化包括得到量化索引i使得
i=arg minj=0…15|I[k]-tab_ild_q4[j]|^2
最后,对于量化表tab_ild_q3[7]={-16,-8,-4,0,4,8,16}
I[k]的3比特量化包括得到量化索引i使得
i=arg minj=0…15|I[k]–tab_ild_q3[j]|^2
在优选的实施例中,还在第二8k比特/秒扩展层中每个相位5比特地传送相位∠R[j],其中j=2..10。这个相位利用均衡量化器来量化,其重构级别表给出如下:
tab_phase_q5[32]={0,π/16,2π/16,3π/16,4π/16,5π/16,6π/16,7π/16,8π/16,9π/16,10π/16,11π/16,12π/16,13π/16,14π/16,15π/16}
在等式(1)中定义的ICLD参数因此对应于比率I[k],然而,I[k]与幅度比一致,而ICLD与能量比一致。
上面描述的实施例涉及以16kHz的采样频率和具体的子带细分来操作的宽带编码器的环境。
在另一可能实施例中,编码器可以以其它的频率(诸如32kHz)并且具有不同的子带细分地操作。
具体地,在实施例的变体中,逐射线地计算参数,其等同于定义被减少到傅立叶系数的频率子带;然后,对于其中具有16kHz采样频率的5ms帧的实施例示例,获得80个子带。
图4图示了在本发明的实施例中的解码器以及它所实现的解码方法。
比特率可缩放(scalable)并且从G.722编码器接收的比特流的部分通过G.722类型解码器(块401)以56或64kbit/s的模式被解多路复用和解码。在不存在传送误差时,所获得的合成信号对应于单声道信号
Figure BDA00001777855700101
Figure BDA00001777855700102
执行利用与编码器的开窗术相同的开窗术、通过短期离散傅立叶变换的分析(块402和403),以获得谱
Figure BDA00001777855700103
与立体声扩展相关联的比特流的部分还在块404中解多路复用。如先前说明的,这里假设编码器生成两个比特流层用于G.722立体声扩展:第一层包含参数I[k]的编码索引,以及第二层包含相位∠R[j]的编码索引。
现在详述合成块405的操作。
最初,为了简化描述,假设进行到频率子带的细分,使得每个子带包括单个系数。这样,
Figure BDA00001777855700104
变成
左和右声道的谱被合成如下:
L ^ [ j ] = c 1 [ j ] · M ^ 1 [ j ]
R ^ [ j ] = c 2 [ j ] · M ^ 2 [ j ] - - - ( 15 )
其中
Figure BDA00001777855700111
Figure BDA00001777855700112
是合成信号的声道,
Figure BDA00001777855700113
Figure BDA00001777855700114
是作为已解码单声道信号
Figure BDA00001777855700115
的函数的信号,以及c1[j]、c2[j]是如下计算的增益:
c 1 [ j ] = 2 I ^ [ j ] I ^ [ j ] + 1
c 2 [ j ] = 2 I ^ [ j ] + 1 - - - ( 16 )
其中
Figure BDA00001777855700118
是从已解码参数获得的、在立体声信号的两个声道之间的幅度比。
在优选的实施例中,当解码器以8k比特/秒接收到第一立体声扩展层时,定义 M ^ 1 [ j ] = M ^ 2 [ j ] = M ^ [ j ] , M ^ 1 [ j ] = M ^ [ j ] M ^ 1 [ j ] = M ^ [ j ] · e j ∠ R ^ [ j ] , 其中
Figure BDA000017778557001112
是当解码器还以16kbit/s接收第二立体声扩展层时解码的相位。
应该注意,本发明同样地应用于其中从
Figure BDA000017778557001113
推导出
Figure BDA000017778557001114
Figure BDA000017778557001115
的更一般的情况。例如,在变体中,信号
Figure BDA000017778557001116
Figure BDA000017778557001117
之一对应于已解码并且处于频域中的单声道信号的时间去相关,而另一个等于处于频域中的已解码单声道信号
Figure BDA000017778557001118
根据本发明的一个实施例,解码器不直接接收两个标度因子c1[j]和c2[j]的已编码值,但是它解码被定义为两个标度因子之间的比率(这里表示为
Figure BDA000017778557001119
)的参数:
I ^ [ j ] = c 1 [ j ] c 2 [ j ] - - - ( 17 )
在所述编码器上,作为示范实施例,I[j]可被定义为两个声道的幅度比:
I [ j ] = | L [ j ] | | R [ j ] | - - - ( 18 )
并且
Figure BDA000017778557001122
被用于表示解码器处的I[j]的重构值。
本发明包括通过对已解码的单声道信号定义如下的约束
Figure BDA000017778557001123
来根据比率
Figure BDA000017778557001124
确定所述标度因子c1[j]和c2[j]:
M ^ [ j ] = L ^ ( j ) + R ^ ( j ) 2 - - - ( 18 )
然后,根据上面的等式(16),基于所述比率
Figure BDA000017778557001126
来确定因子c1[j]和c2[j]。
下面证实这些标度因子可用于恢复所编码的立体声信号。
在其中
Figure BDA000017778557001127
的具体实施例情况下,也就是说,当立体声信号的声道不是异相时,将实际上注意到,根据等式(15)和(17),已解码的左和右声道通过如下的关系链接:
L ^ [ j ] = c 1 [ j ] c 2 [ j ] R ^ [ j ] = I ^ [ j ] R ^ [ j ] - - - ( 19 )
施加等式(18)的约束:
M ^ ( j ) = I ^ [ t , k ] R ^ ( j ) + R ^ ( j ) 2 = ( I ^ [ j ] + 1 ) R ^ ( j ) 2 - - - ( 20 )
等式(20)可用于根据和根据参数
Figure BDA00001777855700124
来获得已解码的右声道:
R ^ ( j ) = 2 I ^ [ j ] + 1 M ^ ( j ) - - - ( 21 )
类似地,通过组合等式(16)和(21),根据
Figure BDA00001777855700126
和根据参数
Figure BDA00001777855700127
获得已解码的左声道:
L ^ ( j ) = I ^ [ j ] R ^ ( j ) = 2 I ^ [ j ] I ^ [ j ] + 1 M ^ ( j ) - - - ( 22 )
通过比较等式(15)、(21)和(22),因此正确地恢复等式(16)。
假设左和右声道(频域中的复信号)为同相并且仅仅幅度不同,也就是说L[j]=I[j]R[j],其中I[j]是幅度比,则易于核查到,在其中
Figure BDA00001777855700129
Figure BDA000017778557001210
的理想编码的情况下,本发明使得可能准确地恢复原始声道;事实上,在这个情况下,对于∠M(j)=∠R(j), M [ j ] = | L [ j ] | + | R [ j ] | 2 · e j ∠ R ( j ) = I [ j ] + 1 2 | R [ j ] | · e j ∠ R ( j ) = 1 + I [ j ] 2 R [ j ] , 以及根据等式(21)和(22),得到:
R ^ ( j ) = 2 I ^ [ j ] + 1 M ^ ( j ) = 2 I ^ [ j ] + 1 · 1 + I [ j ] 2 R [ j ] = R [ j ]
L ^ ( j ) = I ^ [ j ] R ^ ( j ) = I [ j ] R [ j ] = L [ j ]
当左和右声道不同相时,也就是说当
Figure BDA000017778557001214
时,在等式(5)描述的缩混强制这些声道的相位对准。
在本发明的这个实施例中,因此应用解码方法以准确地恢复幅度比。然而,除了所述参数之外,左和右声道的相位必须被编码并且传送,以正确地合成两个声道。
如果假设∠M(j)=∠R(j),则已解码单声道信号的相位对应于右声道的相位∠R(j),并且足以传送左声道的相位∠L(j),或者如果已解码单声道信号的相位对应于左声道的相位∠L(j),则反之亦然。
信号
Figure BDA00001777855700131
Figure BDA00001777855700132
然后对应于其中对于每个声道应用与所接收的相位对应于的相移的已解码单声道信号。
在第一实施例中,本发明这里假设传送所述参数I[j]用于每个频率射线。在上述的示例中,谱包括80个复射线,因此,原理上,应该传送80个参数。
第二,假设进行频率子带的细分,使得所述子带具有如同编码器的优选实施例中那样的非均衡尺寸。这样,所述解码器接收立体声参数
Figure BDA00001777855700133
其对应于每个子带的已编码值I[k],前面已经在等式14中给出了立体声参数
Figure BDA00001777855700134
的示范定义。
在本发明的这个更有利的变化实施例中,如参考图3所描述的将谱划分为子带。
在解码器上,像编码器上一样,谱
Figure BDA00001777855700135
Figure BDA00001777855700136
根据下面定义的标度被细分为20个子带:
{B(k)}k=0,..,20=[0,1,2,3,4,5,6,7,9,11,13,16,19,23,27,31,37,44,52,61,80]
第一子带被减小为单个(复)系数,这使得可能实现根据本发明的解码方法。
对于具有多于一个系数的子带-索引k>6-的情况,根据如下的等式,而对整个子带k、为每个声道使用单个标度因子:
L ^ [ j ] = c 1 [ k ] · M ^ [ j ] , R ^ [ j ] = c 2 [ k ] · M ^ [ j ] , j = B ( k ) . . . B ( k + 1 ) - 1 - - - ( 23 )
然后如下地定义 I [ k ] = c 1 [ k ] c 2 [ k ] - - - ( 24 )
编码器然后传送I[k]。
通过使用与上述实施例的原理相同的原理,在解码器上得到如下等式:
c 1 [ j ] = 2 I ^ [ j ] I ^ [ j ] + 1 c 2 [ j ] = 2 I ^ [ j ] + 1 - - - ( 25 )
R ^ ( j ) = 2 I ^ [ k ] + 1 M ^ ( j ) - - - ( 26 )
L ^ ( j ) = I ^ [ k ] R ^ ( j ) = 2 I ^ [ k ] I ^ [ k ] + 1 M ^ ( j ) - - - ( 27 )
这个变体的优点在于传送20个参数I[k],而不是80个参数。在最佳的版本中,不传送参数I[0],该参数I[0]对应于其中声道间级别差感觉不显著的0-50Hz波段。
通过下面的等式给出已解码立体声信号的逐射线的总能量:
L ^ ( j ) 2 + R ^ ( j ) 2 = 4 I ^ 2 [ k ] + 1 ( I ^ [ k ] + 1 ) 2 M ^ ( j ) 2 = α ( I [ k ] ) M ^ ( j ) 2 , j = B ( k ) . . . B ( k + 1 ) - 1
通过注意
Figure BDA00001777855700145
得到两个限制值:
对于 I ^ [ k ] = 0 dB , α(I[k])=2
对于 I ^ [ k ] > + / - 100 dB , α(I[k])=4
图5图示了作为比率I的函数的dB为单位的能量值。因此可以注意到,根据本发明的合成使得可能获得在其中的区域中的能量的自动补偿。
这个方法因此不需要在比特率方面代价高的任何补偿技术,因为通过仅仅专门计算向合成应用的增益,可以获得这个补偿。
再次参考图4,通过从合成块405获得的相应谱
Figure BDA00001777855700149
Figure BDA000017778557001410
的逆离散傅立叶变换(块406和409)以及与正弦开窗术(块407和410)的重叠相加(块408和411),重构了左和右声道
Figure BDA000017778557001411
Figure BDA000017778557001412
因此,在具体的立体声信号解码实施例中,参考图4描述的解码器实现了立体声数字音频信号的参数解码的方法,所述方法包括:合成步骤(synth.),用于针对每个频率子带,根据从立体声信号的缩混获得的已解码单声道信号
Figure BDA000017778557001413
和根据立体声信号的空间信息参数,来合成立体声信号,使得所获得的信号为如下的形式:
L ^ [ j ] = c 1 [ j ] · M ^ 1 [ j ]
R ^ [ j ] = c 2 [ j ] · M ^ 2 [ j ]
其中
Figure BDA00001777855700153
Figure BDA00001777855700154
是合成信号的声道,
Figure BDA00001777855700155
Figure BDA00001777855700156
是作为已解码单声道信号的函数的信号,以及c1[j]、c2[j]是增益。所述增益计算如下:
c 1 [ j ] = 2 I ^ [ j ] I ^ [ j ] + 1
c 2 [ j ] = 2 I ^ [ j ] + 1
其中是在立体声信号的两个声道之间的幅度比,其从解码的参数获得。
通过返回到根据现有技术的技术的在开始时提到的示例,其中L[j]=1000X、R[j]=X、M[j]=(L[j]+R[j)/2=500.5X,并且通过将I[j]定义为:
I [ j ] = | L | | R | = 1000 X X = 1000
不管量化误差,它遵循
Figure BDA000017778557001511
并且获得下式:
c 1 [ j ] = 2 I ^ [ j ] I ^ [ j ] + 1 = 2000 1001
c 2 [ j ] = 2 I ^ [ j ] + 1 = 2 1001
解码的值然后是:
L ^ [ j ] = c 1 [ k ] · M ^ [ j ] = 2000 1001 · 500.5 X = 1000 X
R ^ [ j ] = c 2 [ k ] · M ^ [ j ] = 2 1001 · 500.5 X = X
因此,准确地在解码器上恢复要编码的值,而不需要校正因子。这个技术因此比现有技术中使用的技术更有效。
这里,已经在G.722编码器/解码器的情况中描述了本发明。它明显地可以应用在修改的G.722编码器的情况中,所述修改的G.722编码器例如包括噪声减少(或“噪声反馈“)机制或包括具有附加信息的G.722的可缩放扩展。本发明还可应用在除了G.722类型之外的单声道编码器(例如,G.711.1类型编码器)的情况中。在后者的情况中,可以调整延迟T以考虑G.711.1编码器的延迟。
类似地,可以根据不同的变体来替换参考图3描述的实施例的时间频率分析:
-可以使用除了正弦开窗术之外的开窗术,
-在连续的窗口之间可以使用除了50%重叠之外的重叠,
-可以使用除了傅立叶变换之外的频率变换,例如修正的离散余弦变换(MDCT)。
先前描述的实施例处置立体声信号类型的多声道信号的情况,但是本发明的实现还从单声道甚或立体声缩混扩展到对多声道信号(具有多于两个音频声道)进行编码的更一般情况。
在这个情况中,空间信息的编码涉及空间信息参数的编码和传送。这例如是其中5.1声道的信号的情况,所述5.1声道包括左声道(L)、右声道(R)、中央声道(C)、左后(或左环绕,Ls)声道、右后(或右环绕,Rs)声道、以及低音炮(低频效果,LFE)。所述多声道信号的空间信息参数然后考虑在不同声道之间的差异或一致性。
参考图3和图4描述的编码器和解码器可被合并在房间解码器、计算机类型的多媒体设备项中,甚或合并在诸如蜂窝电话或个人数字助理之类的通信设备项中。
图6表示包括根据本发明的解码器的这样的设备项或解码装置的示例。
这个装置包括与存储器块BM协作的处理器PROC,所述BM包括存储器和/或工作存储器MEM。
所述存储器块可有利地包含计算机程序,所述计算机程序包括代码指令,当这些指令由所述处理器PROC执行时,实现在本发明的意义上的解码方法的步骤,并且具体地实现合成步骤(synth.):用于针对每个频率子带,根据从立体声信号的缩混获得的已解码单声道信号
Figure BDA00001777855700161
和根据立体声信号的空间信息参数,来合成立体声信号,使得所获得的信号为如下的形式:
L ^ [ j ] = c 1 [ j ] · M ^ 1 [ j ]
R ^ [ j ] = c 2 [ j ] · M ^ 2 [ j ]
其中
Figure BDA00001777855700164
是合成信号的声道,
Figure BDA00001777855700166
Figure BDA00001777855700167
是作为已解码单声道信号的函数的信号,以及c1[j]、c2[j]是增益。所述增益计算如下:
c 1 [ j ] = 2 I ^ [ j ] I ^ [ j ] + 1
c 2 [ j ] = 2 I ^ [ j ] + 1
其中是在立体声信号的两个声道之间的幅度比,其从解码的参数获得。
典型地,图4的描述呈现这样的计算机程序的算法的步骤。所述计算机程序还可以存储在存储介质上,所述存储介质可以通过装置的读取器读取、或者可以下载到设备的存储空间中。
所述装置包括输入模块,所述输入模块适合于接收例如源自通信网络的已编码空间信息参数Pc和单声道信号M。这些输入信号可源自存储介质上的读取。
所述装置包括输出模块,适合于传送通过所述设备实现的解码方法而解码的立体声信号Ss
这个多媒体设备项还可包括扬声器类型的重放部件、或者适合于传送这个立体声信号的通信部件。

Claims (6)

1.一种用于立体声数字音频信号的参数解码方法,包括:合成步骤(synth.),用于针对每个频率子带,根据从立体声信号的声道缩小矩阵化获得的已解码单声道信号
Figure FDA00001777855600011
和根据立体声信号的空间信息参数,来合成立体声信号,使得所获得的信号为如下的形式:
L ^ [ j ] = c 1 [ j ] · M ^ 1 [ j ]
R ^ [ j ] = c 2 [ j ] · M ^ 2 [ j ]
其中是合成信号的声道,
Figure FDA00001777855600016
是作为已解码单声道信号的函数的信号,以及c1[j]、c2[j]是增益,其特征在于所述增益被如下计算:
c 1 [ j ] = 2 I ^ [ j ] I ^ [ j ] + 1
c 2 [ j ] = 2 I ^ [ j ] + 1
其中
Figure FDA000017778556000110
是从解码的参数获得的、在立体声信号的两个声道之间的幅度比。
2.根据权利要求1的方法,其特征在于,所述信号
Figure FDA000017778556000111
Figure FDA000017778556000112
等于所述已解码的单声道信号。
3.根据权利要求1的方法,其特征在于,所述方法还包括用于接收立体声信号的声道的相位的步骤,并且其特征在于,所述信号
Figure FDA000017778556000113
Figure FDA000017778556000114
对应于其中对于每个声道应用与所接收的相位对应的相移的已解码单声道信号。
4.根据权利要求1的方法,其特征在于,所述信号
Figure FDA000017778556000115
Figure FDA000017778556000116
之一对应于已解码单声道信号的时间去相关,而另一个等于已解码单声道信号。
5.一种包括代码指令的计算机程序,当由处理器执行所述代码指令时,所述代码指令实现根据权利要求1到4之一的解码方法的步骤。
6.一种用于解码立体声数字音频信号的参数解码器,包括:合成模块(405),用于针对每个频率子带,根据从立体声信号的声道缩小矩阵化获得的已解码单声道信号和根据立体声信号的空间信息参数,来执行立体声信号的合成,使得所获得的信号为如下的形式:
L ^ [ j ] = c 1 [ j ] · M ^ 1 [ j ]
R ^ [ j ] = c 2 [ j ] · M ^ 2 [ j ]
其中
Figure FDA00001777855600024
是合成信号的声道,
Figure FDA00001777855600026
是作为已解码单声道信号的函数的信号,以及c1[j]、c2[j]是增益,其特征在于,所述增益由所述合成模块如下地计算:
c 1 [ j ] = 2 I ^ [ j ] I ^ [ j ] + 1
c 2 [ j ] = 2 I ^ [ j ] + 1
其中
Figure FDA00001777855600029
是从解码的参数获得的、在立体声信号的两个声道之间的幅度比。
CN2010800574434A 2009-10-16 2010-10-15 优化的参数立体声解码 Pending CN102812511A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0957297 2009-10-16
FR0957297 2009-10-16
PCT/FR2010/052193 WO2011045549A1 (fr) 2009-10-16 2010-10-15 Decodage parametrique stereo optimise

Publications (1)

Publication Number Publication Date
CN102812511A true CN102812511A (zh) 2012-12-05

Family

ID=42174341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800574434A Pending CN102812511A (zh) 2009-10-16 2010-10-15 优化的参数立体声解码

Country Status (4)

Country Link
US (1) US20120265542A1 (zh)
EP (1) EP2489040A1 (zh)
CN (1) CN102812511A (zh)
WO (1) WO2011045549A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700372A (zh) * 2013-12-30 2014-04-02 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3539127B1 (en) * 2016-11-08 2020-09-02 Fraunhofer Gesellschaft zur Förderung der Angewand Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647157A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 信号合成
CN1647155A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 空间声频的参数表示
WO2006048226A1 (en) * 2004-11-02 2006-05-11 Coding Technologies Ab Stereo compatible multi-channel audio coding
CN101263742A (zh) * 2005-09-13 2008-09-10 皇家飞利浦电子股份有限公司 音频编码

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
KR101646650B1 (ko) * 2009-10-15 2016-08-08 오렌지 최적의 저-스루풋 파라메트릭 코딩/디코딩
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647157A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 信号合成
CN1647155A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 空间声频的参数表示
WO2006048226A1 (en) * 2004-11-02 2006-05-11 Coding Technologies Ab Stereo compatible multi-channel audio coding
CN101263742A (zh) * 2005-09-13 2008-09-10 皇家飞利浦电子股份有限公司 音频编码

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700372A (zh) * 2013-12-30 2014-04-02 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法

Also Published As

Publication number Publication date
EP2489040A1 (fr) 2012-08-22
WO2011045549A1 (fr) 2011-04-21
US20120265542A1 (en) 2012-10-18
WO2011045549A8 (fr) 2012-05-03

Similar Documents

Publication Publication Date Title
US10433091B2 (en) Compatible multi-channel coding-decoding
CN102656628B (zh) 优化的低吞吐量参数编码/解码
EP1934973B1 (en) Temporal and spatial shaping of multi-channel audio signals
CN103329197B (zh) 用于反相声道的改进的立体声参数编码/解码
CN101036183B (zh) 用于立体声兼容的多声道音频编码/解码的方法和设备
CN101248483B (zh) 多声道音频信号的生成
US8433583B2 (en) Audio decoding
US9818429B2 (en) Apparatus, medium and method to encode and decode high frequency signal
NO337395B1 (no) Oppbygging av multikanal-utgangssignal og generering av nedblandingssignal
NO342863B1 (no) Konsept for kopling av gapet mellom parametrisk flerkanals audiokoding og matrise-surround flerkanalkoding
KR20080109299A (ko) 오디오 신호의 부호화/복호화 방법 및 장치
CN102812511A (zh) 优化的参数立体声解码
Melkote et al. Transform-Domain Decorrelation in Dolby Digital Plus
AU2004306509B2 (en) Compatible multi-channel coding/decoding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121205