CN1327408C

CN1327408C - 一种低比特率语音编码器

Info

Publication number: CN1327408C
Application number: CNB2004101032190A
Authority: CN
Inventors: 董恩清
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2004-12-31
Filing date: 2004-12-31
Publication date: 2007-07-18
Anticipated expiration: 2024-12-31
Also published as: CN1632861A

Abstract

本发明公开了一种语音编码器，特别涉及一种基于局部余弦变换的低比特率语音编码器，适用于要求低比特率语音编码的通信***中。它应用了一个可以灵活调整的整形函数，利用这个整形函数对Donoho采用的钟函数进行整形，得到一个能够提高谱能量聚集性的新的钟函数；对局部余弦变换系数的编码，采用分维量化方法，对于每一维矢量，均采用LGB方法设计码书；编码中码书的搜索采用树形结构搜索方法，实现了一种在局部余弦变换域内具有优良的低比特语音编码器。经客观参数评价和非正式听力测试表明，该编码器比LPC-10e编码器具有更好的自然度和可理解性。

Description

一种低比特率语音编码器

技术领域

本发明涉及一种语音编码器，特别涉及一种基于局部余弦变换(LocalCosine Transform，LCT)的低比特率语音编码器，适合于要求低比特率语音编码的通信***中使用。

背景技术

低比特率语音编码在过去20年已成为一个主要研究主题，结果导致已经将比特率从16kb/s到2.4kb/s范围的很多语音编码算法标准化。目前语音编码器研究的重点在4kb/s及更低的高质量语音编码。虽然CELP波形编码器在低于6.3kb/s比特率时仍能产生高质量的语音，但当比特率减少至4kb/s及更低时，由于没有足够的比特对波形细节进行编码，波形编码***将会产生大量量化噪声。另一方面，参数编码(也称声码器)并不企图产生与原始信号相似的波形，而代之，试图找到能够较好地表示语音知觉重要属性的一组参数，但它们对各种特殊环境噪声的鲁棒性较差。

然而，对于在4kb/s比特率及更低比特率的语音编码，最近的研究显示在频域进行语音编码比已存在的基于CELP的编码器具有更好语音质量的潜力。谱编码器试图重构语音振幅谱而不是精确地恢复语音波形。尽管以上的编码器广泛应用于低比特率语音编码，它们大多受假设的模型精度的限制，还有它们主要依赖于正确的参数估计，往往这些要求很难得到保证。所以，在特殊环境下，这些编码方法的鲁棒性是很差的，编码后的语音质量具有一定的局限性。

由Coifman和Meyer(1991)及Auscher等(1992)先后构造的局部余弦基是由平滑、紧支撑钟函数与余弦函数乘积构成的。这些局部化的余弦函数仍保留着正交性，并且具有较小的Heisenberg乘积。近些年来，局部余弦变换理论方法得到广泛深入的研究，该方法在图像压缩编码中应用较多，而应用在语音信号处理方面的研究相对较少，特别是应用在语音编码中则更少。但在MalvarH.S.“Lapped transforms for efficient transform/subband coding”.IEEETrans.on Acoust.，Speech Signal Processing，1990.，vol.38(6)，Page(s)：969-978发表的文献中证明了在语音编码中LCT方法的编码增益优于DCT编码，并且十分接近于KL变换编码。特别是与DCT编码方法相比，明显减少了帧之间的“喀嚓”声，不需要象DCT变换编码在编码中为了减少帧之间出现的异常“喀嚓”声音而经常采用半帧长滑动的方法。所以，该LCT方法比DCT方法减少接近一半的计算量。在Wickerhauser M.V.于1994年发表的文献“Comparison of picture compression methods：wavelet，waveletpacket and local cosine”.Wavelets：Theory，Algorithms，and Applications，Editor(Charles K.Chui and Laura Montefusco and Luigia Puccio)，Academic Press，San Diego，California，p.585～621，中进行的几个二维图像编码方法对比研究也表明了在编码增益上LCT方法优于DCT方法，并同样也非常接近于KL变换方法。研究表明，提高变换编码的编码增益的关键在于正交基的选取，同样，在局部余弦变换编码中的关键也是局部余弦正交基的选取，而影响局部余弦正交基选取的主要因素却是钟函数的选取。以上少量的将LCT方法应用于语音编码中的研究只是停留在简单的编码增益对比，并没有真正设计一个可行的语音编码器。

发明内容

本发明的目的是利用局部余弦变换具有较高的编码增益的特点，提供一种在局部余弦变换域内实用的优良的低比特率语音编码器。

实现本发明目的的技术方案是：一种低比特率语音编码器，它基于局部余弦变换，由高通滤波预处理器对输入编码器的原始语音信号进行处理，然后进行局部余弦变换(LCT)处理，其特征在于：所述的LCT变换中的钟函数b_new(n)符合如下条件：

b_{new} (n) = \{\begin{matrix} \sin [πx (n) / 2] \cdot ξ_{[n]} (n) & 1 \leq n \leq m \\ 1 & m + 1 \leq n \leq 3 m \\ {1 - [\sin (πx (n - 3 m) / 2) \cdot ξ_{[n]} (n - 3 m)]}^{1 / 2} & 3 m + 1 \leq n \leq 4 m \end{matrix},

其中m＝80，

ξ_[n](n)为采用的整形函数，符合条件

{ξ_{[n + 1]}}^{def} = ξ_{[n]} [\sin (πt / 2)]

和

ξ_{[0]} {(t)}^{def} = ξ (t),

其中：

ξ (t) = \{\begin{matrix} 0 & t \leq - 1 \\ \sin [π (1 + t) / 4] & - 1 < t < 1 \\ 1 & t &GreaterEqual; 1 \end{matrix}

下标n为该整形函数的迭代次数；钟函数在1～4m的宽度上取值。

所述的钟函数b_new(n)确保与余弦函数相乘形成一个局部余弦正交基。

所述的整形函数的迭代次数n为8～10。

每一帧经过LCT变换后的LCT系数，先按从低频到高频分别40、40、40、20进行分维矢量维数的划分，再利用四个不同的分维矢量量化码书进行分维矢量量化，从第一维矢量到第四维矢量分配的比特位分别依次为12、12、8、8比特，每一帧的增益量化采用8比特标量量化，按照从第一分维矢量比特位到第四分维矢量比特位、增益量化比特位的顺序输出比特位为48比特，用6个字节表示每一帧输出的比特流。

所述的语音编码器还有一个与其匹配的语音解码器。

本发明由于应用了一个可以灵活调整的整形函数，利用这个整形函数对Donoho采用的钟函数进行整形，得到一个能够提高谱能量聚集性的新的钟函数；对局部余弦变换系数的编码，采用分维量化方法，对于每一维矢量，均采用LGB方法设计码书；编码中码书的搜索采用树形结构搜索方法，实现了一种在局部余弦变换域内具有优良的低比特语音编码器。经客观参数评价和非正式听力测试表明，该编码器比LPC-10e编码器具有更好的自然度和可理解性，它适合于各种环境下的语音编码。

附图说明

图1是本发明实施例语音编码器中的整形函数随着递归次数变化的曲线图；

图2是本发明实施例语音编码器中所采用的整形后的钟函数随着递归次数的增加低半频能量增加百分比图(英语+汉语)；

图3是本发明实施例语音编码器的结构示意图；

图4是本发明实施例语音解码器的结构示意图；

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

参见附图3、附图4，附图中分别提供了本实施例所述的低比特率编码器和解码器的结构示意图。

本发明实施例的关键技术为：

一、最佳整形后的钟函数的获得

图3中，对输入编码器的原始语音信号进行高通滤波预处理，然后进行LCT变换处理，在LCT变换中，本发明采用整形后的钟函数为：

b_{new} (n) = \{\begin{matrix} \sin [πx (n) / 2] \cdot ξ_{[n]} (n) & 1 \leq n \leq m \\ 1 & m + 1 \leq m \leq 3 m \\ {1 - [\sin (πx (n - 3 m) / 2) \cdot ξ_{[n]} (n - 3 m)]}^{1 / 2} & 3 m + 1 \leq n \leq 4 m \end{matrix},

其中m＝80，

上述整形后的钟函数由如下步骤得到：

1、采用Donoho的钟函数：

在Wickerhauser M.V.于1994年出版的专著中阐述局部余弦变换算法时，给出的钟函数对于给定的I_j和r，则钟形函数是固定不变的。

下面给出Donoho采用的钟函数简单构造过程。设I_j＝2m，r＝m，则钟形窗宽度为4m，令

t(n)＝n-0.5， 1≤n≤m. (1)

x(n)＝(1+t(n)/m)/2 (2)

那么，Donoho采用的钟形窗函数为：

b (n) = \{\begin{matrix} \sin [πx (n) / 2] & 1 \leq n \leq m \\ 1 & m + 1 \leq n \leq 3 m \\ {[1 - \sin^{2} (πx (n - 3 m) / 2)]}^{1 / 2} & 3 m + 1 \leq n \leq 4 m \end{matrix} - - - (3)

2、整形函数的构造为：

令输入实值序列t(n)为

t(n)＝[2(n-1)-m+0.5]/2m， 1≤n≤m (4)

定义一个实值连续函数

ξ (t) = \{\begin{matrix} 0 & t \leq - 1 \\ \sin [π (1 + t) / 4] & - 1 < t < 1 \\ 1 & t &GreaterEqual; 1 \end{matrix} - - - (5)

对于上式重复用sin(πt/2)代替t，对于任意大固定整数d，可以获得d次连续可微函数(ξ∈C^d)。定义如下递归函数

ξ_{[0]} \overset{def}{=} ξ (t) - - - (6)

ξ_{[n + 1]} \overset{def}{=} ξ_{[n]} [\sin (πt / 2)] - - - (7)

其中ξ的下标表示递归次数。通过递归将会看到ξ_[n](t)在t＝+1和t＝-1点上2ⁿ-1阶导数为0，也即意味着

ξ_{[n]} &Element; C^{2 n - 1} .

如图1为这个整形函数的几个递归结果曲线，这里m＝80。

3、整形后的钟函数的求取：

通过改变递归次数产生各种整形函数，利用递归n次后的整形函数ξ_[n](t)对(6.3)式中的钟函数进行整形得到如下一个新的钟函数

b_{new} (n) \{\begin{matrix} \sin [πx (n) / 2] \cdot ξ_{[n]} (n) & 1 \leq n \leq m \\ 1 & m + 1 \leq n \leq 3 m \\ {1 - [\sin (πx (n - 3 m) / 2) \cdot ξ_{[n]} (n - 3 m)]}^{1 / 2} & 3 m + 1 \leq n \leq 4 m \end{matrix},

其中m＝80， (8)

上式中的钟函数确保与余弦函数相乘形成一个局部余弦正交基。

在实际问题中，需要在一个固定的窗宽度上求取最佳的正交基。也就是要求设计一个能够灵活调整的钟函数来满足实际问题的需要。在本实施例中，采用的技术方案是对语音信号进行解相关去冗余，目的是使固定帧长语音信号谱能量较好地集中在若干频带内，便于分频带编码。为此，本发明实施例所提供的整形方法，是能够对Donoho采用的钟函数进行灵活整形的整形函数，从中选取适合于频率域语音编码的整形函数，进而得到最佳的钟函数。

4、最佳钟形函数的确定：

本发明实施例中将要涉及到变换域语音编码的实际问题，需要解决的是确定进行多少次递归后形成的整形函数对Donoho采用的钟形函数进行整形而得到的钟函数最适合。在本实施例中，把帧长为20ms，采样率为8kHz的语音信号的频带划分为高低两个频带，整形钟函数的目的是要求谱能量尽可能集中在信息量较大的低半频频带内，便于后面编码对高、低半频带的谱系数进行比特位数的优化分配。

参见附图2，本发明实施例采用英语和汉语语音进行测试而得到的随着递归次数的变化，利用整形后的钟函数比采用Donoho的钟函数进行局部余弦变换后低半频带的谱能量占总的谱能量百分比的增加量。从图2可以看到，当递归9次时谱能量增加最大，因此，本发明实施例选择9次递归的整形函数进行整形。虽然谱能量增加的比例较小，但说明了调整合适的钟函数能够改变谱能量聚集程度，便于编码时对比特位的分配优化。

二、分维矢量量化方法

粗略地讲，成年人语音信号前四个共振峰分别位于500Hz、1500Hz、2500Hz和3500Hz。这实际上将语音信号划分成四个重要区域，要求我们在编码时对这四个区域的谱区别对待。对于变换域的参数进行编码，大多采用分维矢量量化(Splitted Vector Quantization)方法，所以，本发明实施例中，所设计的编码器将局部余弦变换的系数采取分维量化的方法。对于每一维矢量分别进行码书训练。当利用LGB算法生成码书后，为了提高编解码时码书的搜索速度采用树形码书搜索方法。

在分维量化时，各个维矢量的变换系数数目划分从低频到高频分别为40、40、40、20。我们把这四个矢量分别称为第一维矢量、第二维矢量、第三维矢量和第四维矢量。由于对采样率为8kHz的语音信号，只保留3500Hz以下的谱成分就足以较好地恢复出满意质量的语音信号。为了降低计算复杂度，第四维矢量只用20个系数。在解码器中的反变换合成语音信号时，将剩余最高频成分的20个系数填充为0。

在本发明实施例中，比特位分配是从低频到高频的各维矢量分配的比特位数分别为12、12、8、8。语音编码器的增益是通过采用将输入信号谱能量与编码时搜索的四个码矢量的谱能量和之比计算得来的。增益的量化采用8比特标量量化方法。本发明实施例中设计的编码器每帧总的比特分配如表1所示。

语音编码器输入语音信号是采样率为8kHz 16比特PCM格式的语音信号。本实施例采用的是wav格式的语音数据，所以电平幅值是归一化了的。***对语音的种类没有特殊的要求，适合于各种语种的语音编码。

对本发明实施例所述的编码器的评价：

1、客观评价

与发明实施例所述的编码器进行测试对比时所采用的其它标准化了的编码器有G.729 Annex B(G.729B)、GSM Half-Rate、FS1016、FS1015(LPC-10e)。客观评价采用的参数有信噪比(Signal to Noise Ratio，SNR)和峰值信噪比(Peak Signal to Noise Ratio，PSNR)：

SNR = 10 \log_{10} \frac{(σ_{x}^{2})}{(σ_{e}^{2})} - - - (9)

这里σ_x ²是语音信号的均方，σ_e ²为原始语音信号与重构的语音信号差的均方。

PSNR = 10 \log_{10} \frac{N X^{2}}{{| | x - \tilde{x} | |}^{2}} - - - (10)

这里N为重构信号的长度，X为在长度为N的信号x内的绝对值最大值，为原始信号与重构信号之间差的平方和。

众所周知，对编码后的语音信号进行客观评价有时得到令人费解的结果。即使一个编码器编码后的语音具有高信噪比，有时可能它的语音质量不一定比另一个编码器编码后产生低信噪比的语音质量高。相反，同样也成立。所以说客观参数评价不能作为语音编码器性能评价的主要指标，它只能作为一个辅助评价。

表2为本实施例语音编码器(FBR-LCT)与G.729B、GSM Half-Rate、FS1016和FS1015编码标准进行对比的结果。该结果也说明了客观评价方法在语音编码器性能评价的可靠性。G.729B、GSM Half-Rate和FS1016都属于中低比特率的编码标准，它们编码的语音质量远远超过FS1015和LCT编码方法，但从这两个指标看，相比较而言LCT方法具有相当高的优势。与相同比特率的FS1015编码器进行比较，表明LCT编码方法的SNR和PSNR明显比FS1015标准的SNR和PSNR最多高出近5dB。

本发明实施例编码器所采用的编码方法是在变换域内进行的，其实质是波形编码的范畴。所以利用SNR和PSNR两个评价指标来进行客观评价，对其是有利的。所以，客观地讲单从若干个客观指标对编码器进行评价是不能说明问题的，只能作为一个参考。

2、主观评价：

语音编码器产生的语音最终的接受对象是人的耳朵，所以编码后的语音质量好坏主要是接受人的听觉感知评价。一般采用非正式语音听力测试进行语音质量的评价。

对于无噪声清晰语音，本发明实施例所采用的LCT编码方法重构(FBR-LCT)的语音具有轻微的模糊，所以听不到象LPC-10e重构的语音洪亮。没有G.729B、GSM Half-Rate和FS1016编码标准产生的语音清晰度高，但是它的理解性和自然度是好的，且明显比同比特率的LPC-10e方法要好。LCT编码方法具有较强的鲁棒性，它的编码失真随着信号的改变不敏感，甚至于对G.729B、GSM Half-Rate、FS1016和LPC-10e方法无效的信号仍然很稳定。当使用背景音乐或其它非语音信号时，FBR-LCT编码方法比LPC-10e方法明显好。这些完全是由于LCT编码方法属于在变换域内的波形编码，所以它不依赖于如基音等语音特征参数。相反，G.729B、GSM Half-Rate、FS1016及LPC-10e是基于语音源-滤波生成模型及线性预测参数的估计，对参数估计的精度特别敏感。本发明所述的的基于局部余弦变换低比特率编码器还可通过软件仿真实现。

表1

分维矢量				增益(比特)	帧(比特)
分维矢量						第一维矢量	第二维矢量	第三维矢量	第四维矢量
12	12	8	8			第一维矢量	第二维矢量	第三维矢量	第四维矢量	8	48

表2

编码器类	英语		汉语		汉语+背景音乐	比特率(kb/s)
	英语		汉语		汉语+背景音乐		SNR(dB)	PSNR(dB)	SNR(dB)	PSNR(dB)	SNR(dB)PSNR(dB)
	G.729 AnnexGSM Half-RateFS1016FS1015(LPC10e)FBR-LCT	-.95-1.240.71-3.59-0.44	15.0814.8116.7412.4715.08	-1.46-0.821.37-2.650.26	18.3219.4621.6317.6420.54		SNR(dB)	PSNR(dB)	SNR(dB)	PSNR(dB)	SNR(dB)PSNR(dB)	-1.18 15.58-0.74 16.091.27 18.09-1.80 15.02-1.07 15.75	85.64.82.42.4

Claims

1.一种低比特率语音编码器，它基于局部余弦变换，由高通滤波预处理器对输入编码器的原始语音信号进行处理，然后进行局部余弦变换处理，其特征在于：所述的局部余弦变换中的钟函数b_new(n)符合如下条件：

b_{new} (n) = \{\begin{matrix} \sin [πx (n) / 2] \cdot ξ_{[n]} (n) & 1 \leq n \leq m \\ 1 & m + 1 \leq n \leq 3 m \\ {1 - [\sin (πx (n - 3 m) / 2) \cdot ξ_{[n]} (n - 3 m)]}^{1 / 2} & 3 m + 1 \leq n \leq 4 m \end{matrix},

其中m＝80，

ξ_[n](n)为采用的整形函数，符合条件

ξ_{[n + 1]} \overset{def}{=} ξ_{[n]} [\sin (πt / 2)]

和

ξ_{[0]} (t) \overset{def}{=} ξ (t),

其中：

ξ (t) = \{\begin{matrix} 0 & t \leq - 1 \\ \sin [π (1 + t) / 4] & - 1 < t < 1 \\ 1 & t &GreaterEqual; 1 \end{matrix}

下标n为该整形函数的迭代次数；钟函数在1～4m的宽度上取值；

对获得的局部余弦变换***进行分维矢量量化处理，每一帧经过局部余弦变换后的局部余弦变换系数，先按从低频到高频分别40、40、40、20进行分维矢量维数的划分，再利用四个不同的分维矢量量化码书进行分维矢量量化，从第一维矢量到第四维矢量分配的比特位分别依次为12、12、8、8比特，每一帧的增益量化采用8比特标量量化，按照从第一分维矢量比特位到第四分维矢量比特位、增益量化比特位的顺序输出比特位为48比特，用6个字节表示每一帧输出的比特流。

2.根据权利要求1所述的一种低比特率语音编码器，其特征在于：所述的钟函数b_new(n)确保与余弦函数相乘形成一个局部余弦正交基。

3.根据权利要求1所述的一种低比特率语音编码器，其特征在于：所述的整形函数的迭代次数n为8～10。

4.根据权利要求1所述的一种低比特率语音编码器，其特征在于：所述的语音编码器还有一个与其匹配的语音解码器。