CN1363923A

CN1363923A - 一种基于自适应阀值和典型样本预测的块长选择方法

Info

Publication number: CN1363923A
Application number: CN01134556A
Authority: CN
Inventors: 陈常谦
Original assignee: BEIJING FUGUO DIGITAL TECHN Co Ltd
Current assignee: BEIJING FUGUO DIGITAL TECHN Co Ltd
Priority date: 2001-11-02
Filing date: 2001-11-02
Publication date: 2002-08-14
Anticipated expiration: 2021-11-02
Also published as: CN1165036C

Abstract

本发明涉及音频信号变换编码中的块长选择部件。本发明特别涉及一种音频信号压缩中基于自适应阀值和典型样本预测进行的块长选择方法。所提出的新方法在完全消除前回波噪音的同时取得了很高编码效率。所需要的运算量很小。二种关于突跃信号检测的度量判据被建议。所提议的“局部最大掩蔽分析法”可避免较短块长的过度使用,以优化编码器的率－失真性能。本发明还提出了一个基于亚抽样机制的快速运算方案。

Description

一种基于自适应阀值和典型样本预测的块长选择方法

技术领域

本发明涉及音频信号处理中的数据压缩，更详细地说，它用以消除低比特率高品音频信号编解码过程中的前回波噪声(pre-echo)；本发明特别涉及一种音频信号压缩中基于自适应阀值和典型样本预测进行的块长选择方法。

现有技术

众所周知，一些线性变换能够导致接近于零的高频系数，换句话说，时域信号包含的大部分信息能够被转换或集中到频域或时频域系数的一个子集中，于是，音频信号压缩技术广泛地采用变换作为提高编码效率的手段；这些音频信号压缩技术包括在下述文献中：(1)R.N.J.Veldhuis，“Bit Rates in Audio Source Coding”，IEEE J.SelectedAreas in Communications，vol.10，pp.86-96，Jan.1992.(2)J.D.Johnston in“Perceptual Transform Coding of Wide-band StereoSignals”，ICASSP’89，Glasgow，Scotland，pp.1993-1996，May 1989.(3)“Information Technology-Coding of Moving Pictures and AssociatedAudio for Digital Storage Media at up to About 1.5 Mbit/s Part 3：Audio(ISO/IEC 11172-3：1993)”.(4)“The MD system description document(Sony Inc.：Sept.1992).(5)“MPEG-2 AAC，ISO/IEC 13818-7：1997(E)”

而目前大部分新近开发的音频信号编解码方案都采用ModifiedDiscrete Cosine Transform(MDCT)作为其滤波器组，MDCT是由Princen和Bradley于1987年提出的(“Subband/Transform Coding Using Filter BankDesigns Based on Time Domain Aliasing Cancellation”，Proceedings of theICASSP 1987，pp 2161-2164)，它以重叠块和动态窗把一个信号分解成等长的子带，由于cosine系列函数之特质和编解码过程中的量化噪声，系数重构和反向MDCT的使用会在合成出的突跃信号周围形成波纹，人类听觉***的后向掩蔽时效远长于前向掩蔽时效，PCM帧的后端通常处于后向掩蔽时效内，因此，突越信号之后的波纹不会被听到，如果前向掩蔽时效不能覆盖PCM帧的前端，突越信号前面的波纹会形成可感知的噪声(如图1所示)，这种噪声被称为前回声。

为抑制或消除这种前回声，较小的MDCT块长应被使用以便把突越信号前面的波纹限制在前向掩蔽时效内，由于块长与编码效率成正比，一种自动而精确地选择MDCT块长的算法可消除或抑制前回声并优化编解码器的率失真性能。

在过去的几年里，一些用于抑制或消除前回声的块长选择方法被提出并使用于不同的***，图2描述了MD***(ATRAC)中的块长选择方法。该方法是由SONY公司于1992年9月提出的。如图所示，block 3.1检测每个由32点构成的子帧之峰值，连续的子帧之峰值在block 3.2中进行比较，block3.3为决策部分，如果连续子帧的峰值之差大于18dB，短块(mode 1)被选择(由block 3.4所表示)，否则，较长块(mode 3或mode 4)被选择(由block 3.5和3.6所表示)，以应用于不同的频带，在这一块长选择过程中，邻近PCM子帧之峰值被提取出以用作为波型特征，接着，基于波形特征的分类被执行，显然，特征提取的过程中丢失了大量的波形信息；于是，该方法的选择精度不会很高。换句话说，该方法所选定的具有较大块长的帧数与最佳数之间有较大的偏差；不足或过度地使用短块将导致前回声噪音或编码效率的不必要下降，这种简单方法的使用在很大程度上是基于复杂度之考量。

在MPEG-2 AAC标准中，块长是根据感知熵(perceptual entropy)确定的，感知熵(PE)被定义为能量阀值、静音阀值以及频谱各部分之能量的函数，MPEG-2 AAC先计算与各种块长相对应的PE值，如果长块的PE值较大，短块被使用，否则，较长的块被使用，这一方法建立在心理声学关于稳态/非稳态的概念之上，它是基于全局信息(全部频率系数)的频域解决方案，直接导致前回声的原始时域信号上短暂而显著的变化并没有得到足够的强调和利用，因此，前回声的消除将伴随着编码效率的过度下降；性能代价比不会非常高。

如上所述，在使用块变换的音频编码器时，输入信号在时域上短暂而显著的变化(突跃信号)在前向掩蔽时效不能覆盖PCM帧的前端时会导致前回波噪音；为了抑制或消除这种前回声，较短的块应被使用以便把突跃信号前面的波纹限制在前向掩蔽时效内，然而，较小的块长不可避免地导致频域分辨率的下降、从而降低编码效率，对具有突跃特质的输入信号而言，在编码效率和前回声消除之间存在一个平衡问题。

本发明的内容

本发明的目的在于提供音频信号压缩中基于自适应阀值和典型样本预测进行的块长选择方法，在消除前回波噪音的前提下，最大程度提高优化编码效率。

附图说明

图1：基于MDCT的编解码器中，突跃信号之合成所引起的波纹。

图2：MD(ATRAC)编码器使用的块长选择方法流程。

图3：低复杂度MPEG-2 AAC编码器之框图。

图4：本发明所涉及的操作进程。

图5：本发明的块长选择算法框图。

本发明的具体实现方式

实现本发明目的的技术方案为一种音频信号压缩中基于自适应阀值和典型样本预测进行的块长选择方法，在保持编码效率的前提下完全去除前回波噪声，其特征在于方法由以下步骤所组成：

a)根据所采用的变换之配置，将输入音频数据分解成帧；

b)将上述的帧进一步分解成S个等长的子帧，找出各个子帧上PCM数据绝对值的峰值，在各子帧的峰值中选出那些局部最大点；

c)用上述的局部最大点前面的几个子帧峰值p_i来预测位于局部最大点之前d个子帧处的典型样本值，计算当前局部最大点与所预测出的典型样本值之差值和比值；

d)根据所计算出的差值和比值、前面的子帧峰值以及对应于可选块长的一系列自适应阀值，确定与本局部最大点相关联的最佳块长；

e)根据具有特定块长的帧数在总帧数中所占的百分比，调整对应的当前阀值；

f)重复上述操作直到最短的块长被选择或者最后一个局部最大点被达到；

g)在与各个局部最大点相关联的块长中，选出最小者作为本帧之块长。

本发明的进一步特征在于子帧峰值p_i预测前面d个子帧处典型样本值的方法：

S (d) = \frac{1}{1 + 2 \cdot Σ_{j = 1}^{N} 2^{- j}} (p_{i - d} + Σ_{j = 1}^{N} [(p_{i - d - j} + p_{i - d + j}) / 2^{j}]

where S(d)为子幀峰值p_i向前延迟d个子幀处的预测样本峰值。

p_k为第k个子幀的样本峰值。

N为运算所涉及的子幀数的一半。

本发明所涉及的突跃信号检测的度量判据，上述峰值与所预测出的典型样本值之差值和比值确定如下：

D(d)＝p_i-S(d)

= p_{i} - \frac{1}{1 + 2 \cdot Σ_{j = 1}^{N} 2^{- j}} (p_{i - d} + Σ_{j = 1}^{N} [(p_{i - d - j} + p_{i - d + j}) / 2^{j}]

R(d)＝p_i/S(d)

= p_{i} \cdot (1 + 2 Σ_{j = 1}^{N} 2^{- j}) / (p_{i - d} + Σ_{j = 1}^{N} [(p_{i - d - j} + p_{i - d + j}) / 2^{j}]

本发明最短的块长一种避免过度使用较短块长的方法，“局部最大掩蔽分析法”，被陈述如下：找出当前局部最大点之前的第一个具备后向掩蔽前回波噪声的局部最大峰点，这里的前回波噪声由当前局部最大点所引发；如果在找出的具有后向掩蔽能力的峰点之前存在一个峰值足够小的子帧，即为最短的块长以消除前回声，否则，使用较长块以提高编码效率。

本发明阀值调整方法由以下步骤所构成：

a)计算采用特定块长的帧数占总帧数的百分比；

b)把对应的阀值增加或减少一个步长，以控制对应的百分比，该步长与上述百分比成比例，调整后的阀值为下一输入帧所用。

本发明涉及的各子帧峰值的快速确定法由下述步骤所构成：

a)对一帧PCM信号的绝对值{x₀，x₁，...，x_L)进行亚抽样，在亚抽样版本(M为亚抽样因子)中找出各子帧峰值点；

b)在以各个亚抽样峰值点为中心的(2M-1)-样本邻域中，找出最大者作为原始PCM帧{x₀，x₁，...，x_L}的子帧峰值。

作为一种消除前回声的方案，块长通常在执行变换之前被确定，块长选择的目标为：在消除前回波噪音的前提下，尽可能提高块长，减少运算量，以优化编码效率，运算量是编码效率另一个重要的指标。本发明建立在心理声学关于前向和后向掩蔽时效的理论之上，一个所谓的PCM数据帧被划分成时间上等长的子帧，每个子帧的时长约为前向掩蔽时效的一半(1.5ms)，各个子帧上PCM数据绝对值的峰点被找出，从这些峰值点中标识出那些局部最大值。

一个局部最大点前面的几个子帧峰值被用来预测位于当前局部最大点前面d个子帧处之典型样本值，当前局部最大点与预测值之差值和比值被用作检测突跃信号的判据，本发明所提出的“局部最大掩蔽分析法”将心理声学理论用于避免短块的过度使用，从而优化编解码器的率-失真性能，一个亚抽样机制被用来降低寻找子帧峰值之过程所需要的运算量，其它手段包括：确认在帧前端与前向掩蔽时效前端之间是否存在具有较低峰值的子帧。

在应用本发明时，分段操作被执行：根据所采用的变换之配置，把输入音频数据分解成帧，帧进一步被分解成子帧，接着，比较操作被执行以确定各个子帧的峰点。如果一个子帧峰点是局部最大值，其前向延迟d子帧处的典型样本值被线性预测。局部最大值与预测样本值之差值和比值被计算，如果计算出的差值和比值都大于各自的门限，判断存在突跃信号，确认具备后向掩蔽前回声的局部最大峰点，如果在帧前端与前向掩蔽时效前端之间存在一个峰值足够小的子帧，使用较短块以消除前回波噪音，否则，使用较长块以提高编码效率，重复上述块长选择运算直到最短的块长被选择或者最后一个局部最大点被达到，在与各个局部最大点相关联的块长中，选出最小者作为本帧之块长，找寻各子帧峰值的过程能够被简化：搜索亚抽样版本子帧并评测亚抽样峰值的邻域，上述操作的进程如图4所示。

MPEG-2 AAC编码器所涉及的块长决策部件被选作本发明的实现平台，低复杂度MPEG-2 AAC编码器的框架如图3所示，一个输入音频信号被以44.1kHz采样，采样信号被划分成帧，每帧由1024个样本组成(约23.22ms)，心理声学模型利用人类听觉***的掩蔽现象从输入信号帧中去除感觉不到的内容，同时，信号帧被缓存，然后，缓存信号帧的块长被确定。接着，执行MDCT，随后，MDCT频谱的量化噪声被暂态成形，强度偶合模块利用一对声道之间高频段枝节信息的不敏感性以提升率-失真性能；主/从分解(Middle/Side)利用“双耳掩蔽电平压抑”特性以控制噪声和暂态/语音信号的编码。最后，预处理过的数据被量化和编码，索引值和枝节信息被打包进比特流。

MPEG-2 AAC涉及二种可能的块长、长块(2048点)和短块(256点)，本发明的实现细节如以下步骤所描述：Step 1.将输入音频数据分解成帧(1024点)。Step 2.进一步把输入帧分解成16个子帧(64点)。找出各个子帧上PCM数据绝对值的峰值。在各子帧的峰值中选出那些局部最大点。Step 3.对一个局部最大点，用其前面的3个子帧峰值来预测相对其前向延迟4个子帧处的典型样本值。计算局部最大点与所预测出的典型样本值之差值和比值。

S (4) = \frac{1}{1 + 2 \cdot Σ_{j = 1}^{1} 2^{- j}} (p_{i - 4} + Σ_{j = 1}^{1} [(p_{i - 4 - j} + p_{i - 4 + j}) / 2^{j}]

D(4)＝p_i-S(4)

= p_{i} - \frac{1}{1 + 2 \cdot Σ_{j = 1}^{1} 2^{- j}} (p_{i - 4} + Σ_{j = 1}^{1} [(p_{i - 4 - j} + p_{i - 4 + j}) / 2^{j}]

R(4)＝p_i/S(4)

= p_{i} \cdot (1 + 2 Σ_{j = 1}^{1} 2^{- j}) / (p_{i - 4} + Σ_{j = 1}^{1} [(p_{i - 4 - j} + p_{i - 4 + j}) / 2^{j}]

where D(4)和R(4)分别是局部最大点与所预测出的典型样本值之差值和比值。Step 4。如果D(4)＞T_d同时R(4)＞T_R，判断存在突跃信号。确认具备后向掩蔽前回波噪声能力的局部最大峰点。如果在帧前端与掩蔽峰点前面2.5ms处之间存在一个峰值足够小的子帧，使用较短块以消除前回声。否则，使用较长块以提高编码效率。Step 5.重复上述各步骤直到最短块被选择或者最后一个局部最大点被达到。Step 6.结束上述步骤的流程如图5所示。

本发明完全消除了由突跃信号所引发的前回波噪音，并取得了很高编码效率，所需要的运算量很小。

Claims

1、一种基于自适应阀值和典型样本预测的块长选择方法，在保持编码效率的前提下完全去除前回波噪声，其特征在于方法由以下步骤所组成：

a)根据所采用的变换之配置，将输入音频数据分解成帧；

b)将上述的帧进一步分解成S个等长的子帧，找出各个子帧上PCM数据

绝对值的峰值，在各子帧的峰值中选出那些局部最大点；

c)用上述的局部最大点前面的几个子帧峰值p_i来预测位于局部最大点之

前d个子帧处的典型样本值，计算当前局部最大点与所预测出的典型

样本值之差值和比值；

d)根据所计算出的差值和比值、前面的子帧峰值以及对应于可选块长的

一系列自适应阀值，确定与本局部最大点相关联的最佳块长；

e)根据具有特定块长的帧数在总帧数中所占的百分比，调整对应的当前

阀值；

f)重复上述操作直到最短的块长被选择或者最后一个局部最大点被达

到；

2、根据权利要求1所述的一种基于自适应阀值和典型样本预测的块长选择方法，其特征在于子帧峰值p_i预测前面d个子帧处典型样本值的方法：

S (d) = \frac{1}{1 + 2 \cdot Σ_{j = 1}^{N} 2^{- j}} (p_{i - d} + Σ_{j = 1}^{N} [(p_{i - d - j} + p_{i - d + j}) / 2^{j}]

where S(d)为子幀峰值p_i向前延迟d个子幀处的预测样本峰值。

p_k为第k个子幀的样本峰值。

N为运算所涉及的子幀数的一半。

3、根据权利要求1所述的一种基于自适应阀值和典型样本预测的块长选择方法，其特征在于所涉及的突跃信号检测的度量判据，上述峰值与所预测出的典型样本值之差值和比值确定如下：D(d)＝p_i-S(d)

= p_{i} - \frac{1}{1 + 2 \cdot Σ_{j = 1}^{N} 2^{- j}} (p_{i - d} + Σ_{j = 1}^{N} [(p_{i - d - j} + p_{i - d + j}) / 2^{j}]

R(d)＝p_i/S(d)

= p_{i} \cdot (1 + 2 Σ_{j = 1}^{N} 2^{- j}) / (p_{i - d} + Σ_{j = 1}^{N} [(p_{i - d - j} + p_{i - d + j}) / 2^{j}]

。

4、根据权利要求1所述的一种基于自适应阀值和典型样本预测的块长选择方法，其特征在于一种避免过度使用较短块长的方法，“局部最大掩蔽分析法”，被陈述如下：

a)找出当前局部最大点之前的第一个具备后向掩蔽前回波噪声的局部最

大峰点，这里的前回波噪声由当前局部最大点所引发。

b)如果在找出的具有后向掩蔽能力的峰点之前存在一个峰值足够小的子

帧，即为最短的块长以消除前回声，否则，使用较长块以提高编码效

率。

5、根据权利要求1所述的一种基于自适应阀值和典型样本预测的块长选择方法，其特征在于阀值调整方法由以下步骤所构成：

a)计算采用特定块长的帧数占总帧数的百分比；

6、根据权利要求1所述的一种音频信号压缩中进行的块长选择方法，其特征在于涉及的各子帧峰值的快速确定法由下述步骤所构成：

a)对一帧PCM信号的绝对值{x₀，x₁，...，x_L}进行亚抽样，在亚抽样版本

(M为亚抽样因子)中找出各子帧峰值点；

b)在以各个亚抽样峰值点为中心的(2M-1)-样本邻域中，找出最大者作

为原始PCM帧{x₀，x₁，...，x_L}的子帧峰值。