CN103443856B

CN103443856B - 音频编码中的后量化增益校正

Info

Publication number: CN103443856B
Application number: CN201180068987.5A
Authority: CN
Inventors: 艾力克·诺维尔; 沃洛佳·格兰恰诺夫
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2011-03-04
Filing date: 2011-07-04
Publication date: 2015-09-09
Anticipated expiration: 2031-07-04
Also published as: US10460739B2; EP2681734B1; EP3244405B1; ES2744100T3; TR201910075T4; ES2641315T3; BR112013021164B1; US20210287688A1; BR112013021164A2; CN105225669B; US20130339038A1; DK3244405T3; RU2013144554A; PL2681734T3; CN103443856A; US11056125B2; PL3244405T3; PT2681734T; EP2681734A4; CN105225669A

Abstract

一种用于在对已经以相对独立的增益表示和形状表示来编码的音频进行解码中使用的增益调整装置(60)，包括：精度仪(62)，被配置为估计所述形状表示的精度测度(A(b))，并且基于所估计的精度测度(A(b))来确定增益校正(g_c(b))。其还包括：包络调整器(64)，被配置为基于所确定的增益校正来调整所述增益表示

Description

音频编码中的后量化增益校正

技术领域

本技术涉及基于量化被划分为增益表示和形状表示的量化方案的音频编码(所谓的增益-形状音频编码)中的增益校正，尤其涉及后量化增益校正。

背景技术

期望现代通信服务处理很多不同类型的音频信号。虽然主要音频内容是语音信号，但期望处理更普通的信号(例如音乐以及音乐和语音的混合)。虽然通信网络的容量持续增加，但很大的兴趣仍然是限制每通信信道的所需带宽。在移动网络中，用于每个呼叫传输带宽越小在移动设备和基站中产生的功耗越低。这对于移动运营商而言转变为能量和成本节约，而端用户将体验到延长的电池寿命和增加的交谈时间。此外，在每用户消耗带宽较小的情况下，移动网络能够并行地服务于更大数量的用户。

如今，用于移动语音服务的主流压缩技术是CELP(码激励线性预测)，其对于低带宽语音实现了良好的音频质量。其广泛地用在已部署的编解码器(例如AMR(自适应多速率)、AMR-WB(自适应多速率宽带)和GSM-EFR(全球移动通信***-增强全速率))中。然而，对于普通音频信号(例如音乐)，CELP技术具有糟糕的性能。一般可以通过使用基于频率变换的编码(例如ITU-T编解码器G.722.1[1]和G.719[2])来更好地表示这些信号。然而，变换域编解码器通常以比语音编解码器更高的比特率操作。就编码而言在语音与普通音频域之间存在分歧，期望以较低比特率提高变换域编解码器的性能。

变换域编解码器需要频域变换系数的压缩表示。这些表示常常依赖于矢量量化(VQ)，在VQ中按群组对系数进行编码。针对矢量量化的各种方法中包括增益-形状VQ。该方法在对各个系数进行编码之前将归一化应用于矢量。归一化因子以及归一化后的系数被称为矢量的增益和形状，其可被相对独立地编码。增益-形状结构具有很多优点。通过划分增益和形状，编解码器可以容易地适用于通过设计增益量化器来改变源输入级别。从感知角度看，还有利的是：增益和形状可以在不同频率区域中携带不同重要性。最后，增益-形状划分简化了量化器设计，并且使得其与无约束矢量量化器相比在存储器和计算资源方面复杂度较小。图1可见增益-形状量化器的功能概述。

如果应用于频域谱，则增益-形状结构可以用于形成谱包络和精细结构表示。增益值序列形成谱包络，而形状矢量给出谱细节。从感知角度看，使用服从人类听觉***的频率分辨率的不均匀带结构对谱进行分区是有利的。这通常意味着，针对低频率使用窄带宽，而针对高频率使用较大带宽。谱精细结构的感知重要性随着频率而变化，但还取决于信号自身的特性。变换编码器常常采用听觉模型来确定精细结构的重要部分，并且将可用资源分配给该最重要的部分。谱包络常常被用作该听觉模型的输入。形状编码器使用所分配的比特对形状矢量进行量化。对于具有听觉模型的基于变换的编码***的示例，见图2。

取决于形状量化器的精度，用于重构矢量的增益值可能比较适当或不那么适当。尤其是当所分配的比特很少时，增益值偏离最优质。一种用于解决该问题的方式是：在形状量化之后对考虑增益失配的校正因子进行编码。另一解决方案是首先对形状进行编码，然后在给定量化后的形状的情况下计算优化增益因子。

用于在形状量化之后对增益校正因子进行编码的解决方案可能消耗大量比特率。如果速率已经很低，则这意味着，必须另外取得更多比特，并且有可能减少用于精细结构的可用比特率。

在对增益进行编码之前对形状进行编码是更好的解决方案，但如果根据所量化的增益值来判断用于形状量化器的比特率，则增益和形状量化将相互依赖。迭代解决方案可能有望解决这种相互依赖性，但可能容易变得太复杂而无法在移动设备上实时地运行。

发明内容

目的在于在对已经以相对独立的增益表示和形状表示编码的音频进行解码中获得增益调整。

根据所附权利要求来实现该目的。

第一方面包括一种增益调整方法，其包括以下步骤：

估计所述形状表示的精度测度。

基于所估计的精度测度来确定增益校正。

基于所确定的增益校正来调整所述增益表示。

第二方面包括一种增益调整装置，其包括：

精度仪，被配置为：估计所述形状表示的精度测度，以及基于所估计的精度测度来确定增益校正。

包络调整器，被配置为：基于所确定的增益校正来调整所述增益表示。

第三方面包括一种解码器，其包括如第二方面所述的增益调整装置。

第四方面包括一种网络节点，其包括如第三方面所述的解码器。

所提出的用于增益校正的方案改进了增益-形状音频编码***的感知质量。该方案具有低的计算复杂度，并且需要的附加比特很少(如果需要任何附加比特的话)。

附图说明

通过连同附图一起参照下述描述，可以最佳地理解本发明连同其其它目的和优点，其中：

图1示出示例增益-形状矢量量化方案；

图2示出示例变换域编码和解码方案；

图3A-图3C示出在简化情况下的增益-形状矢量量化；

图4示出使用精度测度来确定包络校正的示例变换域解码器；

图5A-图5B示出当形状矢量是稀疏脉冲矢量时以增益因子来标定合成的示例结果；

图6A-图6B示出最大脉冲高度可以如何指示形状矢量的精度；

图7示出实施例1的基于速率的衰减函数的示例；

图8示出用于实施例1的依赖速率和最大脉冲高度的增益调整函数的示例；

图9示出用于实施例1的依赖速率和最大脉冲高度的增益调整函数的另一示例；

图10示出在基于MDCT的音频编码器和解码器***的情况下的本发明实施例；

图11示出从稳定性测度到增益调整限制因子的映射函数的示例。

图12示出具有自适应步长大小的AD PCM编码器和解码器***的示例；

图13示出在基于子带AD PCM的音频编码器和解码器***的情况下的示例；

图14示出在基于子带AD PCM的音频编码器和解码器***的情况下的本发明实施例；

图15示出包括信号分类器的示例变换域编码器；

图16示出使用精度测度来确定包络校正的另一示例变换域解码器；

图17示出根据本发明的增益调整装置的实施例；

图18更详细地示出根据本发明的增益调整的实施例；

图19是示出根据本发明的方法的流程图；

图20是示出根据本发明的方法的实施例的流程图；

图21示出根据本发明的网络的实施例。

具体实施方式

在以下描述中，相同标号将用于执行相同或相似功能的要素。

在详细描述本发明之前，将参照图1-图3说明增益-形状编码。

图1示出示例增益-形状矢量量化方案。该图的上部示出编码器侧。输入矢量x转发到范数计算器10，其确定矢量范数(增益)g，典型地是欧几里德范数。在范数量化器12中对该确切范数进行量化，量化后的范数的倒数转发到乘法器14，用于缩放输入矢量x得到形状。在形状量化器16中对形状进行量化。量化后的增益和形状的表示转发到比特流复用器(mux)18。通过虚线来示出这些表示，以指示它们可以例如将指数构成为表(码书)而不是实际量化后的值。

图1的下部示出解码器侧。比特流解复用器(demux)20接收增益和形状表示。形状表示转发到形状解量化器22，增益表示转发到增益解量化器24。所获得的增益转发到乘法器26，在此，其缩放所获得的形状，其给出重构的矢量

图2示出示例变换域编码和解码方案。该图的上部示出编码器侧。输入信号转发到频率变换器30(其例如基于修正离散余弦变换(MDCT))，以产生频率变换X。频率变换X转发到包络计算器32，其确定每个频带b的能量E(b)。这些能量在包络量化器34中被量化为能量量化后的能量转发到包络归一化器36，包络归一化器36以包络的对应的量化后的能量的倒数来缩放变换X的频带b的系数。所得缩放后的形状转发到精细结构量化器38。量化后的能量E(b)还转发到比特分配器40，其将精细结构量化的比特分配给每个频带b。如上所述，比特分配R(b)可以基于人类听觉***的模型。量化后的增益和对应的量化后的形状的表示转发到比特流复用器18。

图2的下部示出解码器侧。比特流解复用器20接收增益和形状表示。增益表示转发到包络解量化器42。所生成的包络能量转发到比特分配器44，其确定所接收到的形状的比特分配R(b)。形状表示转发到精细结构解量化器46，其受控于比特分配R(b)。解码的形状转发到包络成形器48，其以对应包络能量来缩放它们，以形成重构的频率变换。该变换转发到逆频率变换器50(其例如基于逆修正离散余弦变换(IMDCT))，其产生表示合成音频的输出信号。

图3A-图3C示出在简化情况下以上所描述的增益-形状矢量量化，其中，在图3A中，通过2维矢量X(b)表示频带b。这种情况足够简单以在图中示出，但也足够普通以示出关于增益-形状量化的问题(实际上矢量典型地具有8维或更多维)。图3A的右手边示出具有增益E(b)和形状(单位长度矢量)N′(b)的矢量X(b)的确切增益-形状表示。

然而，如图3B所示，在编码器侧上将确切增益E(b)编码为量化后的增益由于量化后的增益的倒数用于矢量X(b)的缩放，因此所得缩放后的矢量N(b)将在正确方向上点，但将不一定是单位长度。在形状量化期间，所缩放的矢量N(b)量化为量化后的形状在此情况下，量化基于脉冲编码方案[3]，其依据有符号整数脉冲之和来构成形状(或方向)。可以对于每一维度在彼此顶部加入脉冲。这意味着，图3B-图3C所示的矩形栅格中的大的点表示所允许的形状量化位置。结果是，量化后的形状将通常与N(b)(以及N′(b))的形状(方向)不一致。

图3C示出形状量化的精度取决于所分配的比特R(b)或等效地取决于形状量化可用的脉冲的总数。在图3C的左部中，形状量化基于8个脉冲，而右部中的形状量化仅使用3个脉冲(图3B中的示例使用4个脉冲)。

因此，应理解，取决于形状量化器的精度，用于在解码器侧上重构矢量X(b)的增益值可能是较更适合或不那么适合。根据本发明，增益校正可以基于量化后的形状的精度测度。

可以依据在解码器中已经可用的参数来推导用于校正增益的精度测度，但其也可以取决于指定用于精度测度的附加参数。典型地，该参数将包括针对形状矢量所分配的比特的数量以及形状矢量自身，但其也可以包括与形状矢量关联的增益值以及关于对于编码和解码***典型的信号的预先存储的统计。图4示出包括精度测度和增益校正或调整的***的概述。

图4示出使用精度测度来确定包络校正的示例变换域解码器300。为了避免使得附图杂乱，仅示出解码器侧。可以如图2实现编码器侧。新特征是增益调整装置60。增益调整装置60包括精度仪62，被配置为：估计形状表示的精度测度A(b)，基于所估计的精度测度A(b)来确定增益校正g_c(b)。其还包括：包络调整器64，被配置为：基于所确定的增益校正来调整增益表示

如上所述，可以在不花费附加比特的情况下在一些实施例中执行增益校正。通过据在解码器中已经可用的参数来估计增益校正而完成该操作。该处理可以描述为所编码的形状的精度的估计。典型地，这种估计包括：据指示形状量化的分辨率的形状量化特性来推导精度测度A(b)。

实施例1

在一个实施例中，本发明用在音频编码器／解码器***中。***是基于变换的，并且所使用的变换是使用具有50％重叠的正弦窗口的修正离散余弦变换(MDCT)。然而，应理解，可以连同分段和加窗一起使用适合于变换编码的任何变换。

实施例1的编码器

输入音频使用50％交叠而被提取到帧中，并且以对称正弦窗口被加窗。每个加窗的帧然后变换为MDCT谱X。谱分区为用于处理的子带，其中，子带宽度是不均匀的。属于带b的帧m的谱系数表示为X(b，m)，并且具有带宽BW(b)。由于多数编码器和解码器步长可以在一帧内被描述，因此我们省略帧指数并且仅使用标记X(b)。带宽应优选地随着增加频率而增加，以符合人类听觉***的频率分辨率。每个带的根均方(RMS)值用作归一化因子并且表示为E(b)：

E (b) = \sqrt{\frac{X {(b)}^{T} X (b)}{BW (b)}} - - - (1)

其中，X(b)^T表示X(b)的转置。

RMS值可以被看作每系数的能量值。b=1、2、……、N_bands的归一化因子E(b)的序列形成MDCT谱的包络，其中，N_bands表示带号。接下来，对序列进行量化以发送到解码器。为了确保该操作，可以在解码器中逆归一化，获得量化后的包络(b)。在该示例实施例中，使用3dB的步长大小在对数域中对包络系数进行标量量化，使用霍夫曼编码对量化器指数进行差分编码。量化后的包络用于谱带的归一化，即：

N (b) = \frac{1}{\hat{E} (b)} X (b) - - - (2)

注意，如果非量化后的包络E(b)用于归一化，则形状将具有RMS=1，即：

N^{'} (b) = \frac{1}{E (b)} X (b) &DoubleRightArrow; \sqrt{\frac{N^{'} {(b)}^{T} N^{'} (b)}{BW (b)}} = 1 - - - (3)

通过使用量化后的包络(b)，形状矢量将具有接近1的RMS值。该特征将用在解码器中，以创建增益值的近似。

归一化的形状矢量N(b)的逻辑和(union)形成MDCT谱的精细结构。量化后的包络用于产生比特分配R(b)，以用于归一化的形状矢量N(b)的编码。比特分配算法优选地使用听觉模型来将比特分布到感知上最相关的部分。任何量化器方案可以用于对形状矢量进行编码。对于所有情况普通的是，可以在输入被归一化的假设下设计它们，这简化了量化器设计。在该实施例中，使用依据有符号整数脉冲之和来构成合成形状的脉冲编码方案[3]来完成形状量化。脉冲可以加入在彼此顶部上，以形成不同高度的脉冲。在该实施例中，比特分配R(b)表示分配给带b的脉冲的数量。

来自包络量化和形状量化的量化器指数复用到待存储或发送到解码器的比特流。

实施例1的解码器

解码器对来自比特流的指数进行解复用，并且将相关指数转发到每个解码模块。首先，获得量化后的包络(b)。接下来，使用与编码器中所使用的比特分配相同的比特分配据量化后的包络来推导精细结构比特分配。使用指数以及所获得的比特分配R(b)对精细结构的形状矢量(b)进行解码。

现在，在以包络来标定所解码的精细结构之前，确定附加增益校正因子。首先，如下获得RMS匹配增益：

g_{RMS} (b) = \sqrt{\frac{BM (b)}{\hat{N} {(b)}^{T} \hat{N} (b)}} - - - (4)

g_RMS(b)因子是将RMS值归一化为1的标定因子，即：

\sqrt{\frac{{(g_{RMS} (b) \hat{N} (b))}^{T} (g_{RMS} (b) \hat{N} (b))}{BW (b)}} = 1 - - - (5)

在该实施例中，我们寻求使得合成的均方差(MSE)最小化：

g_{MSE} (b) = \underset{g}{\arg \min} | N (b) - g \cdot \hat{N} (b) | - - - (6)

具有解

g_{MSE} (b) = \frac{\hat{N} {(b)}^{T} N (b)}{N {(b)}^{T} N (b)} - - - (7)

由于g_MSE取决于输入形状N(b)，因此其在解码器中并非已知。在该实施例中，通过使用精度测度来估计该影响。这些增益的比率被定义为增益校正因子g_c(b)：

g_{c} (b) = \frac{g_{MSE} (b)}{g_{RMS} (b)} - - - (8)

当形状量化的精度良好时，校正因子接近于1，即：

\hat{N} (b) &RightArrow; N (b) &DoubleRightArrow; g_{c} (b) &RightArrow; 1 - - - (9)

然而，当(b)的精度很低时，g_MSE(b)和g_RMS(b)将偏离。在该实施例中，在使用脉冲编码方案对形状进行编码的情况下，低速率将使得形状矢量稀疏，g_RMS将给出适当增益关于MSE的高估。对于这种情况，g_c(b)应小于1，以补偿过冲。对于低速率脉冲形状情况的示例说明，见图5A-图5B。图5A-图5B示出当形状矢量是稀疏脉冲矢量时以g_MSE(图5B)和g_RMS(图5A)来缩放合成的示例。g_RMS给出在MSE意义上过高的脉冲。

另一方面，可以通过脉冲形状来良好地表示弱(peaky)或稀疏的目标信号。虽然输入信号的稀疏性在合成阶段可能并非已知，但合成形状的稀疏性可以充当所合成的形状矢量的精度的指示符。用于测量合成形状的稀疏性的一种方式是形状中的最大峰值的高度。该情况背后的原因在于，稀疏输入信号更可能在合成形状中生成高峰值。对于峰值高度可以如何指示两个相等速率脉冲矢量的精度的说明，见图7A-图7B。在图7A中，存在5个可用的脉冲(R(b)=5)，以表示虚线形状。由于形状相当恒定，因此编码生成相等高度1的5个分布脉冲，即p_max=1。在图7B中，也存在5个可用的脉冲，以表示虚线形状。然而，在此情况下，形状是弱或稀疏的，最大峰值由在彼此顶部的3个脉冲表示，即p_max=3。这指示增益校正gc(b)取决于量化后的形状的所估计的稀疏性p_max(b)。

如上所述，解码器并非已知输入形状N(b)。由于g_MSE(b)取决于输入形状N(b)，因此这意味着增益校正或补偿g_c(b)可能实际上并不基于理想公式(8)。在该实施例中，反而关于脉冲R(b)的数量、形状矢量的最大脉冲的高度p_max(b)以及频带b而基于比特速率来判断增益校正g_c(b)，即：

g_c(b)=f(R(b)，p_max(b)，b) (10)

已经观测到，较低速率通常需要增益的衰减，以使得MSE最小化。速率依赖性可以实现为在相关音频信号数据上所训练的查找表t(R(b))。示例查找表可以见于图7中。由于形状矢量在该实施例中具有不同的宽度，因此速率可以优选地表示为每采样的脉冲的数量。以此方式，相同速率依赖衰减可以用于所有带宽。在该实施例中所使用的备选解决方案是，取决于带的宽度而使用表中的步长大小T。在此，我们使用4个不同群组中的4个不同带宽，因此需要4个步长大小。在表1中找寻步长大小的示例。使用步长大小，通过使用取整运算来获得查找值，其中，表示对最近整数的取整。

表1

带群组	带宽	步长大小T
			1	8	4
2	16	4／3
			3	24	2
4	34	1

表2给出另一示例查找表。

表2

带群组	带宽	步长大小T
			1	8	4
2	16	4／3
			3	24	2
4	32	1

所估计的稀疏性可以基于脉冲R(b)的数量以及最大脉冲p_max(b)的高度而实现为另一查找表u(R(b)，p_max(b))。图8中示出示例查找表。查找表u充当用于带b的精度测度A(b)，即：

A(b)=u(R(b)，p_max(b)) (11)

注意，从感知角度来看，g_MSE的近似更适合于较低频率范围。对于较高频率范围，精细结构变得在感知上较不重要，能量或RMS值的匹配变得关键。为此，可以仅在特定带号b_THR之下施加增益衰减。在此情况下，增益校正g_c(b)将具有对频带b的明确依赖性。所得增益校正函数在此情况下可以定义为：

g_{c} (b) = \{\begin{matrix} t (R (b)) \cdot A (b), & b < b_{THR} \\ 1, & otherwise \end{matrix} - - - (12)

至此的描述也可以用于描述图4的示例实施例的必要特征。因此，在图4的实施例中，最终合成(b)计算为：

作为备选，函数u(R(b)，p_max(b))可以实现为最大脉冲高度p_max和所分配的比特速率R(b)的线性函数，例如：

u(R(b)，p_max(b))=k·(p_max(b)-R(b))+1 (14)

其中，斜率k由下式确定：

k = \frac{1 - (a_{\min} + R (b) \cdot Δa)}{R (b) - 1}

Δα=(α_max-α_min)／R(b) (15)

a_{\max} = 1 - \frac{1 - a_{\min}}{R (b) - 1}

该函数取决于调谐参数α_min，其给出用于R(b)=1和p_max(b)=1的初始衰减因子。图9中示出该函数，其中，调谐参数α_min=0.41。典型地，u_max∈[0.7，1.4]，u_min∈[0，u_max]。在公式(14)中，u在p_max(b)与R(b)之间的差的方面是线性的。另一可能性是对于p_max(b)和R(b)具有不同的斜率因子。

用于给定带的比特率可以对于邻近帧之间的给定带而剧烈地改变。这可能导致增益校正的快速变化。当包络非常稳定(即，帧之间的总的改变非常小)时，这些变化尤其关键。这一般对于典型地具有更稳定的能量包络的音乐信号而发生。为了避免增益衰减不稳定地增加，可以加入附加适配。图10中给出该实施例的概述，其中，稳定度仪66已经加入到解码器300中的增益调整装置60。

适配可以例如基于包络(b)的稳定度测度。这种测度的示例是计算邻近log2包络矢量之间的平方欧几里德距离：

ΔE (m) = \frac{1}{N_{bands}} Σ_{b = 0}^{N_{bands} - 1} {({1 og}_{2} \hat{E} (b, m) - {1 og}_{2} \hat{E} (b, m - 1))}^{2} - - - (16)

在此，ΔE(m)表示用于帧m和帧m-1的包络矢量之间的平方欧几里德距离。稳定度测度也可以是低通滤波的，以具有更平滑的适配：

Δ \tilde{E} (m) = αΔE (m) + (1 - α) ΔE (m - 1) - - - (17)

用于忘记因子α的合适值可以是0.1。平滑后的稳定度测度于是可以用于使用例如S形函数来创建衰减的极限，例如：

g_{\min} = \frac{1}{{1 - e}^{C_{1} (Δ \tilde{E} (m) - C_{2}) - C_{3}}}, - - - (18)

其中，参数可以设置为C₁=6，C₂=2，C₃=1.9。应注意，这些参数将被看作示例，而可以更自由地选取实际值。例如：

C₁∈[1，10]

C₂∈[1，4]

C₃∈[-5，10]

图11示出从稳定性测度Δ(m)到增益调整限制因子g_min的映射函数的示例。用于g_min的以上表达式优选地实现为查找表或具有简单的步长函数，例如：

g_{\min} = \{\begin{matrix} 1, & Δ \tilde{E} (m) < C_{3} / C_{1} + C_{2} \\ 0, & Δ \tilde{E} (m) &GreaterEqual; C_{3} / C_{1} + C_{2} \end{matrix} - - - (19)

衰减极限变量g_min∈[0，1]可以用于创建稳定度适配增益修正为：

{\tilde{g}}_{c} (b) = \max (g_{c} (b), g_{\min}) - - - (20)

在估计增益之后，最终合成计算为：

在所描述的实施例1的变形中，所合成的矢量的逻辑和形成合成谱其使用逆MDCT变换而进一步受处理，以对称正弦窗被加窗，并且使用重叠和相加策略而加入到输出合成。

实施例2

在另一示例实施例中，对于形状量化使用QMF(正交镜像滤波器)滤波器组和ADPCM(自适应差分脉码调制)方案来对形状进行量化。子带ADPCM方案的示例是ITU-TG.722[4]。优选地在分段中处理输入音频信号。示例ADPCM方案示出于图12中，具有自适应步长大小S。在此，形状量化器的自适应步长大小充当已经在解码器中存在并且不需要附加信令的精度测度。然而，量化步长大小需要从解码处理所使用的参数而不是从所合成的形状自身被提取。图14中示出该实施例的概述。然而，在详细描述该实施例之前，将参照图12和图13描述基于QMF滤波器组的示例ADPCM方案。

图12示出具有自适应量化步长大小的ADPCM编码器和解码器***。ADPCM量化器70包括加法器72，其接收输入信号并且减去先前输入信号的估计，以形成误差信号e。在量化器74中对误差信号进行量化，量化器74的输出转发到比特流复用器18，并且还转发到步长大小计算器76和解量化器78。步长大小计算器76适配量化步长大小S，以获得可接受的误差。量化步长大小S转发到比特流复用器18，并且还控制量化器74和解量化器78。解量化器78将误差估计输出到加法器80。加法器80的另一输入接收延迟元件82已经延迟的输入信号的估计。这形成输入信号的当前估计，其转发到延迟元件82。受延迟的信号还转发到步长大小计算器76和(具有符号改变)加法器72，以形成误差信号e。

ADPCM解量化器90包括步长大小解码器92，其对所接收到的量化步长大小S进行解码并且将其转发到解量化器94。解量化器94对误差估计进行解码，其转发到加法器98，加法器98的另一输入从加法器接收延迟元件96所延迟的输出信号。

图13示出基于子带ADPCM的音频编码器和解码器***的情况下的示例。编码器侧与图2的实施例的编码器侧相似。关键差别在于，频率变换器30已经由QMF(正交镜像滤波器)分析滤波器组100代替，精细结构量化器38已经由ADPCM量化器(例如图12中量化器70)代替。解码器侧与图2的实施例的解码器侧相似。关键差别在于，逆频率变换器50已经由QMF合成滤波器组102代替，精细结构解量化器46已经由ADPCM解量化器(例如图12中的解量化器90)代替。

图14示出在基于子带ADPCM的音频编码器和解码器***的情况下的本发明实施例。为了避免使得附图杂乱，仅示出解码器侧300。可以如图13实现编码器侧。

实施例2的编码器

编码器应用QMF滤波器组以获得子带信号。计算每个子带信号的RMS值，并且对子带信号进行归一化。如实施例1中那样获得包络E(b)、子带比特分配R(b)和归一化的形状矢量N(b)。每个归一化的子带馈送到ADPCM量化器。在该实施例中，ADPCM以前向自适应方式而操作，并且将标定步长S(b)确定为用于子带b。选取标定步骤以使得穿过子带帧的MSE最小化。在该实施例中，通过尝试所有可能的步长并且选择给出最小MSE的步长来选取步骤：

S (b) = \min_{s} \frac{1}{BW (b)} {(N (b) - Q (N (b), s))}^{T} (N (b) - Q (N (b), s)) - - - (22)

其中，Q(x，s)是使用步长大小s的变量x的ADPCM量化函数。所选择的步长大小可以用于生成量化后的形状：

\hat{N} (b) = Q (N (b), S (b)) - - - (23)

实施例2的解码器

解码器对来自比特流的指数进行解复用，并且将相关指数转发到每个解码模块。如实施例1中那样获得量化后的包络和比特分配R(b)。连同自适应步长大小S(b)一起从ADPCM解码器或解量化器获得合成的形状矢量步骤大小指示量化后的形状矢量的精度，其中，较小的步长大小与较高的精度对应，反之亦然。一种可能的实现是，使用比例因子γ来使得精度A(b)与步长大小成反比：

A (b) = γ \frac{1}{S (b)} - - - (24)

其中，γ应设置为实现所期望的关系。一个可能的选择是γ=S_min，其中，S_min是最小步长大小，其对于S(b)=S_min给出精度1。

可以使用映射函数来获得增益校正因子g_c：

g_{c} (b) = h (R (b), b) \cdot A (b) - - - (25)

映射函数h可以基于速率R(b)和频带b而实现为查找表。可以通过以这些参数对优化增益校正值g_MSE／g_RMS进行聚类并且通过对每个聚类的优化增益校正值进行平均而计算表项来定义该表。

在估计增益校正之后，子带合成(b)计算为：

通过将合成QMF滤波器组应用于子带来获得输出音频帧。

在图14所示的示例实施例中，增益调整装置60中的精度仪62直接从所接收到的比特流接收尚未解码的量化步长大小S(b)。如上所述，备选是，在ADPCM解量化器90中对其进行解码，并且将其以解码的形式转发到精度仪62。

其它备选

可以通过编码器中所推导的信号类参数来补充精度测度。这可以例如是语音／音乐鉴别器或背景噪声级别估计器。图15-图16示出包括信号分类器的***的概述。图15中的编码器侧与图2中的编码器侧相似，但已经配备有信号分类器104。图16中的解码器侧300与图4中的解码器侧相似，但已经配备有输入到精度仪62的另一信号类。

可以例如通过具有类依赖适配而在增益校正中包括信号类。如果我们假设信号类是分别与值C=1和C＝0对应的语音或音乐，则我们可以将增益调整限制为仅在语音期间有效，即：

g_{c} (b) = \{\begin{matrix} t (R (b)) \cdot A (b), & b < b_{THR}^C = 1 \\ 1, & otherwise \end{matrix} - - - (27)

在另一备选实施例中，***可以连同部分编码增益校正或补偿一起充当预测器。在该实施例中，精度测度用于改进增益校正或补偿的预测，从而可以通过更少的比特来对其余增益误差进行编码。

当创建增益校正或补偿因子g_c时，我们可能想要在匹配RMS值或能量与使得MSE最小化之间进行折中。在一些情况下，匹配能量变得比精确波形更重要。这例如对于较高频率是真实的。为了容纳该情况，在另一实施例中，可以通过使用不同增益值的加权和来形成最终增益校正：

{g_{c}}^{'} = \frac{β g_{RMS} + (1 - β) g_{MSE}}{g_{RMS}} = β + (1 - β) \frac{g_{MSE}}{g_{RMS}} = β + (1 - β) g_{c} - - - (28)

其中，g_c是根据上述方法之一所获得的增益校正。可以使得加权因子β自适应于频率、比特率或信号类型。

可以在包括通用电子电路和专用电路的使用任何传统技术的硬件(例如分立式电路或集成电路技术)的硬件中实现在此所描述的步骤、功能、过程和／或块。

或者，可以在用于由处理设备(例如微处理器、数字信号处理器(DSP))和／或任何合适的可编程逻辑器件(例如现场可编程门阵列(FPGA)器件)执行的软件中实现在此所描述的步骤、功能、过程和／或块中的至少一些。

应理解，可以可能的是，重用解码器的普通处理能力。例如，可以通过现有软件的重新编程或通过加入新的软件组件来完成该操作。

图17示出根据本发明的增益调整装置60的实施例。该实施例基于处理器110，例如微处理器，其执行用于估计精度测度的软件组件120、用于确定增益校正的软件组件130以及用于调整增益表示的软件组件140。这些软件组件存储在存储器150中。处理器110通过***总线与存储器进行通信。控制处理器110和存储器150连接到的I／O总线的输入／输出(I／O)控制器160接收参数R(b)、在该实施例中，I／O控制器160所接收到的参数存储在存储器150中，在此，它们由软件组件处理。软件组件120、130可以实现上述实施例中的块62的功能。软件组件140可以实现上述实施例中的块64的功能。I／O控制器160通过I／O总线从存储器150输出从软件组件140所获得的调整后的增益表示

图18更详细地示出根据本发明的增益调整的实施例。衰减估计器200被配置为使用所接收到的比特分配R(b)来确定增益衰减t(R(b))。衰减估计器200可以例如基于线性公式(例如上述公式(14))而实现为查找表或实现在软件中。比特分配R(b)还转发到形状精度估计器202，形状精度估计器202还接收例如形状表示中的最高脉冲的高度所表示的量化后的形状的所估计的稀疏性p_max(b)。形状精度估计器202可以例如实现为查找表。所估计的衰减和所估计的形状精度A(b)在乘法器204中相乘。在一个实施例中，该乘积t(R(b))·A(b)直接形成增益校正g_c(b)。在另一实施例中，根据以上公式(12)来形成增益校正g_c(b)。这需要受控于比较器208的开关206，其确定频带b是否小于频率限制b_THR。如果情况如此，则g_c(b)等于t(R(b))·A(b)。否则，g_c(b)设置为1。增益校正g_c(b)转发到另一乘法器210，其另一输入接收RMS匹配增益gRMA(b)。RMS匹配增益计算器212基于所接收到的形状表示和对应带宽BW(b)来确定RMS匹配增益gRMA(b)，见以上公式(4)。所得乘积转发到另一乘法器214，其还接收形状表示和增益表示并且形成合成

参照图10所描述的稳定性检测可以合并到实施例2以及上述其它实施例中。

图19是示出根据本发明的方法的流程图。步骤S1估计形状表示的精度测度A(b)。可以例如据形状量化特性(例如R(b)、S(b))来推导指示形状量化的分辨率的精度测度。步骤S2基于所估计的精度测度来确定增益校正(例如g_c(b)、g_c′(b))。步骤S3基于所确定的增益校正来调整增益表示

图20是示出根据本发明的方法的实施例的流程图，其中，已经使用脉冲编码方案和增益校正编码的形状取决于量化后的形状的所估计的稀疏性p_max(b)。假设已经在步骤S1确定精度测度(图19)。步骤S4估计取决于所分配的比特速率的增益衰减。步骤S5基于所估计的精度测度和所估计的增益衰减来确定增益校正。此后，过程进入步骤S3(图19)以调整增益表示。

图21示出根据本发明的网络的实施例。其包括解码器300，配备有根据本发明的增益调整装置。该实施例示出无线电终端，但其它网络节点也是可行的。例如，如果IP(互联网协议)上的语音用在网络中，则节点可以包括计算机。

在图21中的网络节点中，天线302接收编码的音频信号。无线电单元304将该信号变换为音频参数，其转发到解码器300，以用于生成数字音频信号，如参照以上各个实施例所描述的那样。数字音频信号然后受D／A转换，并且在单元306中放大，最终转发到外放扬声器308。

虽然以上描述关注基于变换的音频编码，但相同的原理也可以应用于具有相对独立的增益表示和形状表示的时域音频编码(例如CELP编码)。

本领域技术人员应理解，可以在不脱离所附权利要求所限定的本发明的范围的情况下对本发明进行各种修改和改变。

缩写

ADPCM自适应差分脉码调制

AMR自适应多速率

AMR-WB自适应多速率宽带

CELP码激励线性预测

GSM-EFR全球移动通信***-增强全速率

DSP数字信号处理器

FPGA现场可编程门阵列

IP互联网协议

MDCT修正离散余弦变换

MSE均方误差

QMF正交镜像滤波器

RMS根均方

VQ矢量量化

参考

[1]″ITU-T G.722.1ANNEX C：A NEW LOW-COMPLEXITY 14KHZ AUDIO CODING STANDARD″，ICASSP2006

[2]″ITU-T G.719：A NEW LOW-COMPLEXITY FULL-BAND(20KHZ)AUDIO CODING STANDARD FOR HIGH-QUALITYCONVERSATIONAL APPLICATIONS″，WASPA2009

[3]U.Mittal，J.Ashley，E.Cruz-Zeno，″Low Complexity FactorialPulse Coding of MDCT Coefficients using Approximation ofCombinatorial Functions，″ICASSP 2007

[4]″7kHz Audio Coding Within 64 kbit／s″，[G.722]，IEEEJOURNAL ON SELECTED AREAS1N COMMUNICATIONS，1988

Claims

1.一种在对音频进行解码时使用的增益调整方法，所述音频已经以相对独立的增益表示和形状表示进行了编码，所述方法包括步骤：

估计(S1)所述形状表示的精度测度(A(b))，其中，所述形状已经使用脉冲矢量编码方案进行编码；

基于所估计的精度测度(A(b))来确定(S2)增益校正(g_c(b))，以使得合成的均方差MSE最小化；

基于所确定的增益校正来调整(S3)所述增益表示

2.如权利要求1所述的增益调整方法，其中，所述估计步骤包括：依据指示所述形状量化的分辨率的形状量化特性(R(b)，S(b))来推导所述精度测度(A(b))。

3.如权利要求2所述的增益调整方法，其中，所述增益校正(g_c(b))取决于所述量化后的形状的估计的稀疏性(p_max(b))。

4.如权利要求3所述的增益调整方法，其中，所述增益校正(g_c(b))至少取决于以下形状特性：

所分配的比特速率(R(b))，

最大脉冲高度(p_max(b))。

5.如权利要求4所述的增益调整方法，其中，所述增益校正(g_c(b))还取决于频带(b)。

6.如权利要求1-5中的任一项所述的增益调整方法，包括步骤：

估计(S4)取决于所分配的比特速率(R(b))的增益衰减(t(R(b)))；

基于所估计的精度测度(A(b))以及所估计的增益衰减(t(R(b)))来确定(S5)增益校正(g_c(b))。

7.如权利要求6所述的增益调整方法，其中，依据查找表(200)来估计所述增益衰减(t(R(b)))。

8.如权利要求6所述的增益调整方法，包括步骤：依据查找表(202)来估计(S5)所述形状精度测度(A(b))。

9.如权利要求6所述的增益调整方法，包括步骤：依据最大脉冲高度(p_max)和所分配的比特速率(R(b))的线性函数来估计所述形状精度测度(A(b))。

10.如权利要求1-5中的任一项所述的增益调整方法，包括步骤：调整所述增益校正(g_c(b))以适合所确定的音频信号类。

11.一种在对音频进行解码时使用的增益调整装置(60)，所述音频已经以相对独立的增益表示和形状表示进行了编码，所述增益调整装置(60)包括：

精度仪(62)，被配置为估计所述形状表示的精度测度(A(b))，其中，所述形状已经使用脉冲矢量编码方案进行编码，并且被配置为确定增益校正(g_c(b))以使得合成的均方差MSE最小化，其中所述增益校正(g_c(b))是基于所估计的精度测度(A(b))来确定的；

包络调整器(64)，被配置为：基于所确定的增益校正来调整所述增益表示

12.如权利要求11所述的增益调整装置，其中，所述精度仪被配置为：依据指示所述形状量化的分辨率的形状量化特性(R(b)，S(b))来推导所述精度测度(A(b))。

13.如权利要求12所述的增益调整装置，其中，所述增益校正(g_c(b))取决于所述量化后的形状的估计的稀疏性(p_max(b))。

14.如权利要求13所述的增益调整装置，其中，所述增益校正(g_c(b))至少取决于以下形状特性：

所分配的比特速率(R(b))，

最大脉冲高度(p_max(b))。

15.如权利要求14所述的增益调整装置，其中，所述增益校正(g_c(b))还取决于频带(b)。

16.如权利要求11-15中的任一项所述的增益调整装置，其中，所述精度仪包括：

衰减估计器(200)，被配置为：估计取决于所分配的比特速率(R(b))的增益衰减(t(R(b)))；

形状精度估计器(202)，被配置为：估计所述精度测度(A(b))；

增益校正器(204，206，208)，被配置为：基于所估计的精度测度(A(b))和所估计的增益衰减(t(R(b)))来确定增益校正(g_c(b))。

17.如权利要求16所述的增益调整装置，其中，所述衰减估计器(200)实现为查找表。

18.如权利要求16所述的增益调整装置，其中，所述形状精度估计器(202)是查找表。

19.如权利要求16所述的增益调整装置，其中，所述形状精度估计器(202)被配置为：依据最大脉冲高度(p_max)和所分配的比特速率(R(b))的线性函数来估计所述形状精度测度(A(b))。

20.如权利要求11-15中的任一项所述的增益调整装置，其中，所述精度仪(62)被配置为：调整所述增益校正(g_c(b))以适合所确定的音频信号类。

21.一种解码器，包括如权利要求11-20中的任一项所述的增益调整装置(60)。

22.一种网络节点，包括如权利要求21所述的解码器。