CN101053018A

CN101053018A - 包括幅度包络的参数音频编码

Info

Publication number: CN101053018A
Application number: CNA2005800377098A
Authority: CN
Inventors: M·G·克里斯坦森; S·L·J·D·E·范德帕尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-11-01
Filing date: 2005-10-28
Publication date: 2007-10-10
Also published as: US20090138271A1; WO2006048803A1; JP2008518264A

Abstract

一种音频编码器，包括正弦类型编码器以及幅度调制编码器，它们二者都接收音频输入信号。所述幅度调制编码器产生一组正弦分量，每一个正弦分量已分配与时变幅度包络有关的单独参数。所述正弦类型编码器可以是传统的恒定幅度类型编码器并产生一组恒定正弦分量。基于使用预定的编码效率标准(如感知相关的标准)的最优化，所述音频编码器判定要把来自两个编码器的哪些分量包含于输出比特流中。在一优选的实施例中，仅仅使用来自两个编码器之一的分量。优选地，对每个音频信号段重复最优化过程，且优选地，用于每段的标志包含于该比特流中，用以表明幅度包络参数是否存在于该段中。本发明另外涉及一种音频编码器、编码和解码方法以及包含编码器和解码器的编码信号和设备。根据本发明的音频编码对瞬态声回波效应提供高声音质量，同时由于在仅仅证明比特率是有效的情况下才包含幅度包络，所以所述音频编码在比特率上也是高效的。

Description

包括幅度包络的参数音频编码

技术领域

本发明涉及高质量低比特率音频信号编码领域。本发明尤其涉及基于参数编码且用于有效编码以及瞬态声的情况下的高声音质量的音频编码。更具体地，本发明涉及基于幅度调制的和恒定幅度正弦曲线的组合编码。

背景技术

音频编码中的典型问题是前回音失真，即错误发生在开始(onset)之前。与存在掩码(marsker)时的情形相比较，这些错误非常不易被人类的听觉***掩蔽。因此，量化错误发生在瞬态前很可能引起明显的听觉失真。因此，对于合适地编码瞬态声，必须特别关注。

可以测量预掩蔽，通常其持续仅仅大约20ms，而滞后掩蔽可以持续长于100ms。另外，应注意的是该掩蔽现象基于临界频带发生，即它们基于宽带无法被精确地处理。许多音频编码技术，如正弦编码器，用10-20ms的驻波分量为音频信号建模。然后，需要许多分量为短的持续时间瞬态建模。

在参数音频建模及编码内，幅度调制的正弦模型是捕捉瞬态声的特征(例如在″钟乐器(Glockenspiel)″和″响板(Castanets)″摘录中遇到的特征)所关注的。例如，在音频建模的情景下为此目的减幅正弦波已受到一些关注。

在音频编码中使用幅度调制的现有技术解决方案的例子是B.Edler，H.Purnhagen和C.Ferekidis的″Analysis/Synthesis Audio Codecfor Very Low Bit Rates″(100th Conv.Audio Eng.Soc.preprint4179，1996)以及Schuijers，Oomen，den Brinker和Gerrits的″Advances in parametric coding for high-quality audion″(Proc.1st IEEE Benelux Workshop on Model Based Processing and Codingof Audio(MPCA-2002))。然而，这些在其瞬态的定义、检测及编码中都是单波带的，意思是包络对所有分量来说都是相同的。不过，在″Analysis/Synthesis Audio Codec for Very Low Bit Rates″中，对于每个分量都要判定是否要应用一个被估计的包络。

所提到的现有技术的例子都存在着如下缺点：幅度调制信号的窗口长度或估计可以由强驻波低频分量占主导，而较弱的瞬态出现在高频处，因此引起听觉假象。另一缺点是：因存在高频瞬态的原因而要挑选短的窗口长度，因此导致频率分辨率很差，以致于降低驻波低频信号部分的听觉质量。

发明内容

可以看到本发明的目的是提供一种幅度调制正弦音频编码器，它在速率失真方面是高效的，意思是，在给定比特率的情况下，与传统的正弦编码器相比较，它实现了更低的失真，而且它在复杂性方面也是高效的，且同时它能够处理瞬态声音而没有严重的听觉假象。

根据本发明的第一方面，该目的通过提供一种适于对音频信号编码的音频编码器来实现，该音频编码器包括：

-正弦类型编码器，适于产生第一编码信号部分，该部分包括第一多个正弦分量，以及

-幅度调制编码器，适于产生第二编码信号部分，该部分包括第二多个正弦分量，所述第二多个正弦分量被单独分配有与时变幅度包络有关的至少一个参数，

其中该音频编码器包括适于相对于预定的编码效率标准评价第一与第二编码信号部分并响应其而产生编码的输出信号的装置。

根据本发明的第一方面的编码器还对瞬态音频信号提供高编码效率。原因是幅度调制编码器适于向每个单独的正弦分量分配幅度包络参数，优选地每个单独的正弦分量还在一个段内。因此，所述音频编码器能够精确地表示瞬态音频信号，原因在于它可以使一些正弦分量随时间相当大地变化，而其它的正弦分量可以是恒定的或者差不多是恒定的。据此，瞬态信号可以以一种方式来代表，使得可以避免或者至少相当大地减少明显的听觉前回音效应。这是优于现有技术编码器的一个优点。

根据本发明的第一方面的编码器也是高效的，原因在于音频输入信号的编码效率是相对于正弦类型编码器和幅度调制编码器而评价的，优选地，正弦类型编码器是传统的恒定幅度类型编码器。因此，在就一些预定的编码效率标准已评价是高效的时候，仅仅使用代表与每个正弦分量的时变幅度包络有关的参数的额外比特率。优选地，效率标准包括感知相关的失真测量。在优选的实施例中，所述效率标准包括总体比特率与感知失真测量的组合。使用感知失真测量，所感知的声音质量可以在判定幅度调制参数是否应被包含于编码的输出信号中予以考虑。

在一个优选的实施例中，所述音频编码器适于选择第一与第二编码信号部分中之一以便包含于编码的输出信号中。优选地，基于编码效率评价，判定音频信号应由正弦类型编码器还是由幅度调制编码器编码。这样的判定可以包括在目标比特率的约束的情况下对两种编码器比较失真测量的任务，然后选择提供最低失真的一个。代替直接使用失真测量，代价函数可以被定义且选择具有代价最低的备选方案。所述代价函数可以包含比特率与感知失真的组合。

可选地，所述音频编码器可以考虑来自正弦编码器和幅度调制编码器的正弦分量的混合。这可以导致一个更高效率的编码表示。然而，该任务更复杂。

优选地，所述编码器适于评价第一与第二编码信号部分的编码效率并响应其为音频信号的每一段产生编码的输出信号。对于快速变化的信号，诸如瞬态，逐段处理音频输入信号是重要的，原因在于单个瞬态通常会发生在仅仅一个或两个段中，因此相对于编码效率而言仅仅在有必要的地方(即发现就预定的编码效率标准而言是高效的段中)使用幅度调制编码器是很重要的。否则，就把比特率浪费在了不必要的段的包络参数数据上。

优选地，所述幅度调制编码器适于产生与时变幅度包络的突变(attack)有关的时变幅度包络参数。所述突变参数可以包括幅度包络的陡度的数学描述。另外，它可以包括开始或突变时间。

优选地，所述音频编码器适于为每个音频信号段产生一个标志用以表明时变幅度信号是否包含于编码的输出信号中并且进入到其输出比特流中。据此就向解码设备通知：是准备好了接收包络参数数据还是没有准备好。

尤其对于所述音频编码器适于产生具有恒定正弦分量与包含幅度包络信息的正弦分量的混合的编码的输出信号的实施例，可以优选的是，所述音频编码器适于为每个正弦分量都产生一个标志用于表明它是否具有幅度包络信息并且进入到其输出比特流中。

根据第二方面，本发明提供一种适于对编码的音频信号进行解码的音频解码器，该音频解码器包括：

-适于接收包含一组正弦分量的编码的音频信号的装置，该正弦分量被单独分配具有与时变幅度包络有关的至少一个参数，以及

-信号产生装置，适于响应其产生音频信号。

优选地，所述解码器适于在其输入比特流中接收一个表明每个段它是否包含幅度包络数据的标志。

在第三方面，本发明提供一种编码音频信号的方法，该方法包括如下步骤：

-产生第一编码信号部分，该部分包括第一组正弦分量，

-产生第二编码信号部分，该部分包括第二组正弦分量，所述第二组正弦分量被单独分配具有与时变幅度包络有关的至少一个参数，

-相对于预定的编码效率标准评价第一与第二编码信号部分，以及

-基于对第一与第二编码信号部分的评价的编码效率的结果，产生包含第一与第二编码信号部分的编码音频信号。

在第四方面，本发明提供一种对编码音频信号解码的方法，该方法包括如下步骤：

-接收一组正弦分量，

-为每个单独的正弦分量，接收至少一个与时变幅度包络有关的参数，以及

-响应该组正弦分量以及单独的时变幅度包络产生音频信号。

在第五方面，本发明提供一种编码的音频信号，该编码的音频信号包括：

-一组正弦分量，

-一组与被单独分配给正弦分量的时变幅度包络有关的至少一个参数。

优选地，该编码的音频信号为每个段包括一个标志，该标志表明是否存在与所述时变幅度包络有关的至少一个参数。另外，该编码的音频信号为每个正弦分量包括一个标志，用以表明是否为此分量包括了幅度包络参数。

在第六方面，本发明提供一种存储介质，其包含代表根据第五方面的编码的音频信号的数据。优选地，该存储介质是标准的音频数据存储介质，例如DVD、DVDrom、DVD-r、DVD+rw、CD、CD-r、CD-rw、袖珍闪存、存储棒等。然而，它也可以是计算机数据存储介质，如计算机硬盘、计算机存储器、软盘等。

在第七方面，本发明提供一种包含根据第一方面的音频编码器的设备。

在第八方面，本发明提供一种包含根据第二方面的音频编码器的设备。

根据第七与第八方面的优选设备都是不同类型的音频设备，如磁带、盘、或基于存储器的音频记录器和播放器。例如，固态播放器、DVD播放器与记录器、用于计算机的音频处理器等。另外，对于移动电话它也是有利的。

在第九方面，本发明提供一种适于根据第三方面的方法对音频信号编码的计算机可读程序代码。

在第十方面，本发明提供一种适于根据第四方面的方法对编码的音频信号解码的计算机可读程序代码。

根据第九与第十方面的计算机可读程序代码可以包含适合信号处理器、个人计算机等的软件算法。而且它可以存在于可携带介质上，如盘或存储卡或存储棒，或它可以存在于ROM芯片上或者以其它方式存储于一个设备中。

附图说明

下面参照附图更详细地描述本发明，其中

图1示出了图示说明包含正弦编码器部分以及幅度调制编码器部分的优选编码器实施例的原理的框图；

图2图示说明时变幅度包络的例子；

图3图示说明加窗口的伽马时变幅度包络；

图4图示说明用于迭代提取幅度调制编码器部分中的正弦分量的优选算法，

图5示出了表明比特率与对根据本发明的正弦编码器及对组合的正弦与幅度调制编码器的感知失真之间的差异的曲线图的一个例子，

图6图示说明了与根据本发明的组合编码器相比较，对于用正弦编码器编码的铃声的摘录的时间信号的一个例子。

虽然本发明能够允许各种修改及备选形式，但是具体实施例已作为例子显示于附图中且将在这里详细描述。然而，应明白的是，本发明不限于所公开的特定形式。更确切地讲，本发明覆盖落在所附权利要求限定的本发明的精神和范围内的所有修改、对等物、以及替换。

具体实施方式

图1示出了根据本发明的组合编码器的框图。将音频信号IN施加到传统正弦编码器部分CA和幅度调制编码器部分AM。这些编码器或子编码器CA、AM的每一个都能响应音频信号IN而产生一组正弦分量。正弦编码器CA以传统方式工作，即作为恒定幅度正弦编码器而工作，而幅度调制编码器AM提取正弦分量，每一个正弦分量被分配具有由一个或多个参数所描述的单独时变幅度包络，因而这耗用过量的比特率，原因在于为每个正弦分量所选择的幅度调制参数的表示都需要包含到输出比特流OUT中。另外，关于幅度调制子编码器AM的更多细节将在下面描述。

速率失真控制单元RDC用于为两个编码器CA、AM选择编码模板并根据编码效率标准，例如通过最小化代价函数，来相对于编码效率评价它们性能。在总体目标比特率的约束下，标准可以是感知失真测量的最优化，即听觉质量的最优化。

编码器CA、AM的每一个导致产生一定量的比特率R以及音频信号IN的失真D。基于这些比特率R及失真D，速率失真控制单元RDC对编码器CA、AM的每一个基于拉格朗日乘子(由λ*表示)优化代价函数。据此，它以产生速率-失真方面的两个结果而终止，且它选择两个编码器CA、AM中最好的一个，以产生在输出比特流OUT中提供的编码的输出信号。在图1中，该在两个编码器CA、AM之间的这一选择由速率失真控制单元RDC控制的输出开关OS图示说明，从而选择两个编码器CA、AM中活动的那一个。

优选地，为音频信号IN的每一段执行在正弦编码器CA及幅度调制编码器AM之间的选择。据此，就有了让所述编码器适应音频信号IN(包括存在于段尾的瞬态)的快速变化的最佳可能性。优选地，音频信号被***成重叠段。

在备选实施例中，所述编码器适于产生音频信号的编码表示，该音频信号包含由正弦编码器产生的正弦分量以及幅度调制的混合，即编码信号包含具有恒定幅度的正弦分量以及幅度调制正弦分量。优选地，该实施例将适于在输出比特流中产生一个标志，该标志表明为每个正弦分量是否应用幅度调制。优选地，读备选实施例也将适于逐段地评价速率-失真效率。

对每个正弦分量的各时变幅度包络通过至少一个参数来描述，优选地通过多个参数(例如如后面将更详细描述的开始时间、突变率、衰减时间等)来描述。

任选地，图1示出感知模型单元PM，读感知模型单元PM适于基于音频信号IN计算掩蔽曲线mc的表示，即产生赋予音频信号IN的人的听觉掩蔽阈值的表示。读掩蔽曲线mc被提供给子编码器CA、AM，以便使它们能够增加编码效率，因为掩蔽曲线的知识有助于提供一个感知相关的失真测量参数，即，描述所感知的声音质量的失真测量。

关于感知失真相关测量以及关于正弦估计的背景信息的进一步细节可以在R.Heusdons，R.Vafin，W.B.Kloijn的″Sinusoidal modelingusing psychoacoustical matching pursuits″((2002)，IEEE SignalProcossing Lett.，9(8)，pp.262-265)以及S.van de Par，A.Kohlrausch，G.Charestan，R.Heusdons的″A newpsychoacoustical masking model for audio coding applications″((2002)，IEEE Int.Conf.Acoust，Speoch and Sigilal Process.，Orlande，USA，2002，pp.11-1805-1808)中找到，这两篇文章据此通过参考而被引入。

优选地，幅度调制编码器AM适用于根据下式产生正弦分量：

其中n＝1，...，N。

A₁、ω₁以及φ₁分别是第一正弦分量的幅度、频率以及相位。γ₁(n)是第一正弦分量的时变幅度包络。允许γ₁(n)随时间变化被标示为幅度调制。优选地，对于瞬态分量，按照如下给读包络建模：

γ_{1} (n) = u (n - n_{1}) {{(n - n_{1})}^{α_{1}} e}^{- β (n - n_{1})} - - - (2)

以及

对于所有的n，对于驻波分量，γ₁(n)＝1。

每个包络以开始n₁、突变参数α₁、以及延迟参数β₁为特征。单位步阶函数被标示为u(n)。

图2图示说明对于根据(2)的包络(被称为伽马包络)的时间幅度图的例子。应当明白的是，图示说明的幅度与时间比例以及其它参数是任意选择的，仅仅用于图示说明通常由非常明确地急剧的开始以及缓慢衰落表征的曲线的形状。

通过对每个正弦分量施加(2)的不同时变的伽马包络，可以产生具有单独调制特征的一组幅度调制的正弦曲线。

图3图示说明了加窗口的幅度包络(即加窗口的伽马包络)的时间幅度图。关于图2，这些曲线主要用于图示说明大体的形状。优选地，使用von Hann类型窗口。

图4用于图示说明对于包括三个步骤的幅度调制编码器AM的优选的迭代估计过程。音频输入信号IN首先被相对于第一正弦分量FE的频率估计，然后估计开始OE，最后是包络参数估计EE，该EE包含相应的相位与幅度。然后根据被找到的参数通过正弦曲线的合成SS生成正弦分量，然后从输入信号IN将其减去。因此，用这种方式，一组正弦分量一次被找到一个并且每次被从输入信号IN中减去，直到满足预定的停止标准为止。

在优选的实施例中，使用5比特均匀量化正弦分量的相位，而幅度和频率在对数域中量化。对于伽马包络，已经发现8-10比特/分量产生了好结果：大部分比特用在开始网格上。另外，已经发现使用8比特的包络缓冲区大小(dictionary size)是适当的。

对速率失真最优化过程，估计的平均速率优选地用在为两个编码器CA、AM确定编码模板的速率中。发现对于正弦编码器CA大约16比特/分量是适当的，而对于幅度调制编码器AM 24比特/分量是适当的(假设差分编码)。

图5示出了图示说明对于“钟乐器”即来自钟的声音的摘录在失真D与比特率R方面的编码效率。标准的正弦编码器用实线示出，而根据本发明的组合编码器用虚线示出。明显地看到，用根据本发明的组合编码器在给定的比特率R得到基本上较低的失真D，或者可选地，为达到某一声音质量(失真D)所需要的比特率R降低了。

图6图示说明了对于“钟乐器”的短的摘录的时间信号，即幅度A相对于时间T。在图6的上部示出原始信号ORG。图6的中部示出标准正弦编码器CA，而根据本发明的组合编码器AM/CA在图的下部示出。如所看到的，正弦编码器在时刻t1完全没有峰值，而峰值差不多完全在时刻t3。在t2的开始也不象在原始信号中那样尖锐。虽然不完美，但是看到，与标准正弦编码器相比较，根据本发明的组合编码器在时刻t1、t2、t3要好得多地再现了瞬态和开始。

听力测试已经确认：在与标准正弦编码相比较时，低比特率的声音质量，如30kbps，音频编码获益于根据本发明的合成编码器。前回音明显地降低，而瞬态被更好地建模。音频信号表现出快速的开始、类似脉冲的激励、在不同类型的信号之间的过渡，如从有声音的到无声音的语音以及敲击乐器的过渡。

当然，适于对来自根据本发明的编码器的比特流进行解码的解码器必须适于接收许多时变幅度包络参数并响应其产生相符的音频信号。

如将明白的，本发明可应用于大范围的应用中，如通常的存储设备、固态音频设备、DVD播放器/记录器、移动通信设备、诸如因特网上的音频多媒体流等等。

在权利要求书中，对附图的标记的引用仅仅是为了清楚的原因。在图中对例示性实施例的引用无论如何都不应被解释成对权利要求书的范围的限定。

Claims

1.一种音频编码器，适于编码音频信号(IN)，该音频编码器包括：

-正弦类型编码器(CA)，适于产生第一编码信号部分，该部分包括第一多个正弦分量，以及

-幅度调制编码器(AM)，适于产生第二编码信号部分，该部分包括第二多个正弦分量，所述第二多个正弦分量被单独分配有与时变幅度包络有关的至少一个参数，

其中该音频编码器包括适于相对于预定的编码效率标准评价第一与第二编码信号部分并响应其而产生编码的输出信号(OUT)的装置。

2.根据权利要求1所述的音频编码器，适于选择第一与第二编码信号部分之一以便包含于所述编码的输出信号(OUT)中。

3.根据权利要求1所述的音频编码器，适于评价第一与第二编码信号部分的编码效率，并响应其为音频信号(IN)的每一段产生编码的输出信号。

4.根据权利要求1所述的音频编码器，其中幅度调制编码器(AM)适于产生与时变幅度包络的突变有关的时变幅度包络参数。

5.根据权利要求1所述的音频编码器，其中所述预定的编码效率标准包含总体比特率与感知失真测量的组合。

6.根据权利要求1所述的音频编码器，适于在所述编码输出信号(OUT)中为每段音频信号(IN)产生一个标志，用以表明时变幅度信息是否包含于所述编码输出信号(OUT)中。

7.根据权利要求1所述的音频编码器，适于在所述编码输出信号(OUT)中为每段以及为所述编码输出信号(OUT)的每个单独的正弦分量产生一个标志，用以表明时变幅度信息是否被包括。

8.根据权利要求1所述的音频编码器，其中幅度调制编码器(AM)包含适于基于包含正弦分量的频率(FE)、开始(OE)以及包络(EE)参数的估计的迭代循环产生正弦分量。

9.一种音频解码器，适于对编码的音频信号解码，该音频解码器包括：

-适于接收包含一组正弦分量的编码的音频信号的装置，该正弦分量被单独分配有与时变幅度包络有关的至少一个参数，以及

-信号产生装置，适于响应其产生音频信号。

10.一种编码音频信号的方法，包括如下步骤：

-产生第一编码信号部分，该部分包括第一组正弦分量，

-产生第二编码信号部分，该部分包括第二组正弦分量，所述第二组正弦分量被单独分配有与时变幅度包络有关的至少一个参数，

-基于对第一与第二编码信号部分的评价的编码效率，产生包含第一与第二编码信号部分的编码音频信号。

11.一种对编码的音频信号解码的方法，包括如下步骤：

-接收一组正弦分量，

-响应该组正弦分量以及单独的时变幅度包络而产生音频信号。

12.一种编码的音频信号，包括：

-一组正弦分量，

-一组与被单独分配给所述正弦分量的时变幅度包络有关的至少一个参数。

13.一种存储介质，包含表示根据权利要求12所述的编码音频信号的数据。

14.一种设备，包含根据权利要求1所述的音频编码器。

15.一种设备，包含根据权利要求9所述的音频解码器。

16.一种计算机可读程序代码，适于根据权利要求10的方法编码音频信号。

17.一种计算机可读程序代码，适于根据权利要求11的方法对编码的音频信号解码。