CN1737904A

CN1737904A - 移动通信终端中使用知觉线性预测的语音编码设备和方法

Info

Publication number: CN1737904A
Application number: CNA2005101098544A
Authority: CN
Inventors: 金灿佑
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2004-07-23
Filing date: 2005-07-25
Publication date: 2006-02-22
Also published as: KR100619893B1; ATE480852T1; KR20060008078A; JP2006039559A; DE602005023385D1; EP1619665B1; EP1619665A1

Abstract

通过使用知觉线性预测(PLP)系数执行线性预测编码(LPC)，与使用线性预测(LP)系数的情况相比较，移动通信终端的语音编码设备和方法可以实施更高的压缩率和确保高的声音质量。

Description

移动通信终端中使用知觉线性预测的语音编码设备和方法

技术领域

本发明涉及移动通信终端的编码，尤其是，涉及使用知觉线性预测(PLP)的语音编码设备和方法。

背景技术

随着移动通信技术的发展，语音移动通信终端已经提供有利用数字、字符、符号等等的数据通信，包括各种各样图像信号的多媒体通信以及语音通信。多个终端用户从***接收分配于此的无线电信道，并且使用无线电资源来发送和接收所需的数据。但是，为了使多个用户同时使用该无线电信道，该无线电信道具有受限的带宽，因此每个用户的数据比特率理所当然地受到限制。

因此，已经提出了一种用于使用以上有限的数据比特率来传送更大量数据的编码技术。各种各样的方法作为现有技术语音编码技术而存在，其中每个在某一比特率上具有若干优点。

例如，使用通用音频编码、脉冲编码调制(PCM)和自适应增量脉码调制(ADPCM)的语音编码在超过16Kbps的高比特率被有效使用，并且码激励线性预测(CELP)和其他各种各样的变化在2.4Kbps至16Kbps范围内的中间比特率被有效使用。尤其是，使用LD-CELP、CS-ACELP、VSELP和MELP的编码方法和宽带语音编码可以在中间比特率上被使用。此外，线性预测编码(LPC)、残留激励线性预示(RELP)、共振峰声码器和倒谱(Cepstral)声码器在75bps至2.4Kbps范围的低比特率上具有许多的优点。

因此，在现有技术和本发明中，现在将解释一种用于在以低比特率使用的编码方法中间改善LPC的方法。

图1举例说明现有技术的LPC编码器的结构。

如在该图中举例说明的，现有技术的LPC编码器包括：用于计算输入信号x[n]的自相关值r_x[n]的相关器10；用于通过处理该自相关值r_x[n]来计算LP系数a_L和增益G的LP系数计算器11；用于确定该输入信号x[n]是一个有声V信号还是无声UV信号的V/UV确定单元12；用于当该输入信号x[n]是有声V信号的时候，计算相应信号的音高P的音高计算器13；用于按照从V/UV确定单元12输出的V/UV指示比特，通过编码从LP系数计算器11和音高计算器13接收的LP系数a_n、增益G和音高P，来输出比特流的参数编码单元14。

现在将解释具有上述结构的现有技术LPC编码器的操作。

首先，该相关器10自相关一个输入信号x[n]。LP系数计算器11处理由该相关器10计算的自相关值r_x[n]，以便计算LP系数a_n和增益G。此时，V/UV确定单元12确定该输入信号x[n]是有声V信号还是无声UV信号以输出一个V/UV指示比特，然后仅仅输出有声V信号。音高计算器13计算从V/UV确定单元12输出的有声V信号的音高P。

因此，当V/UV指示比特表示有声V信号的时候，通过编码(通过低比特率编码)从LP系数计算器11和音高计算器13接收的LP系数a_n、增益G和音高P，参数编码单元14输出一个比特流。然后，控制器(未示出)处理该比特流，从而将其输出到无线电(无线)单元(未示出)。该无线电单元将从控制单元输出的信号变换为无线电(无线)信号，并且发射经变换的无线电信号。

因而，在现有技术中，移动通信终端执行LPC编码，以通过低的比特率发送一个音频信号。但是，在现有技术LPC编码中，通常使用线性预测系数，其不考虑人的听觉感觉特点。因此，对于使用低比特率操作的现有技术LPC编码来说，压缩效率不是很高(即，1200Kbps至2400Kbps)，并且不能获得很好的声音质量。

发明内容

因此，本发明的一个目的是提供一种能够通过使用PLP系数执行LPC编码改善压缩效率和声音质量的移动通信终端的语音编码设备和方法。

为了实现这些和其他的优点，以及按照本发明的目的，正如在此处具体实施和广泛地描述的，提供了一种移动通信终端的线性预测编码(LPC)编码器，包括：知觉线性预测(PLP)系数计算器，用于通过处理输入信号来计算PLP系数和增益；V/UV确定单元，用于确定输入信号是有声信号还是无声信号，从而当输入信号是有声信号的时候，输出确定信号和有声信号；音高计算器，用于计算从V/UV确定单元输出的输入信号的音高；和参数编码单元，用于基于确定信号使用PLP系数、增益和音高来执行低比特率编码。

为了实现这些和其他的优点，以及按照本发明的目的，正如在此处具体实施和广泛地描述的，提供了一种移动通信终端的低比特率语音编码方法，包括：通过处理输入信号来计算知觉线性预测(PLP)系数和增益；确定输入信号是有声信号还是无声信号，从而当输入信号被确定为有声信号的时候，输出确定比特值和有声信号；计算从V/UV确定单元输出的输入信号的音高；和基于确定比特值使用PLP系数、增益和音高来执行低比特率编码。

优选地，该有声信号是一个语音信号。

优选地，该PLP系数对于8kHz采样速率具有大约第七次。

从下面结合附图的详细说明中，本发明的上述和其他的目的、特点、方式以及优点将变得更加清晰可见。

附图说明

被包括以提供对本发明进一步的理解，并被并入和构成本说明书的一部分的附图举例说明本发明的实施例，并且与说明书一起可以起解释本发明原理的作用。

在附图中：

图1举例说明一个使用LP系数的现有技术LPC编码器的结构；

图2举例说明一个按照本发明的使用PLP系数的LPC编码器；和

图3详细地举例说明计算图2中的PLP系数的顺序步骤。

具体实施方式

现在将详细地进行介绍本发明的优选实施例，其举例在附图中被举例说明。

本发明提供一种使用知觉线性预测(PLP)的低比特率语音编码，该知觉线性预测(PLP)能够执行比线性预测编码(LPC)更低次(阶)的编码，以便执行具有高压缩率的语音编码。

现在首先将解释PLP和LP之间的差别。

LP是传统地公知的，因此将不给出为.比详细的推导公式的描述。LP基本上涉及获得一个LP系数a_k，使得按照公式(1)的均方误差(MSE)，即，e[n]的值可以是最小值，如同下述。

\underset{&OverBar;}{e} [n] = \underset{&OverBar;}{x} [n] - x_{&OverBar;}^{^} [n] = Σ_{k = 0}^{N_{pred}} a_{k} \underset{&OverBar;}{x} [n - k]

公式(1)

该获得的LP系数a_k对于8kHz采样速率具有大约第8至第12次(阶)。因此，该获得的LP系数a_k被用于使用线性预测(LP)的各种各样的编码方法(例如，LPC、CELP、MELP、RELP等等)，其被更详细地在语音编码及合成，阿姆斯特丹，荷兰：Elsevier，1995年中公开。

PLP在Hermansky的论文中于1990年第一次介绍。PLP使用类似于现有的Mel频率倒谱系数(MFCC)的人的听觉感觉特点。因此，当以低比特率执行LPC时，本发明使用PLP系数而不是使用LP系数来执行低比特率语音编码。

也就是说，本发明使用PLP系数来获得频谱。PLP系数反映人的听觉效果。因此，在MSE方面，使用PLP系数比使用LP可能在该频谱中出现更大的误差。但是，当考虑到听觉效果的时候，使用PLP系数的频谱可以具有更少的误差。此外，对于系数传输，在LPC的情况下，对于典型的8kHz采样速率，使用大约第10次(阶)的传输，但是对于PLP，使用大约第7次(阶)的传输，从而可以降低该比特率。

图2举例说明一个按照本发明的使用PLP系数的LPC编码器的结构。

参考图2，除了不包括相关器10并且用PLP系数计算器20代替LP系数计算器11之外，使用PLP系数的LPC编码器被构成为与在图1中的现有技术LPC编码器是相同的。

PLP系数计算器20处理语音信号S[n]，以计算PLP系数a_p和增益G，其中考虑到听觉效果。

现在将参考附图解释具有按照本发明的上述结构的使用PLP系数的LPC编码器的操作。

首先，PLP系数计算器20接收语音信号S[n]，以便通过顺序地执行图3所示的操作来计算PLP系数a_p和增益G。

也就是说，PLP系数计算器20对输入信号，即，语音信号S[n]执行快速傅里叶变换(FFT)。对于该经傅里叶变换的语音信号执行临界频带积分(critical-bankintegration)和重复取样处理，以通过频率单元从该语音信号S[n]中除去噪声分量。

一旦除去该噪声分量，PLP系数计算器20对该傅里叶变换的语音信号执行均衡和扩音处理，以使其变成具有适合于人的听觉感觉幅值的声音分量，然后该语音信号与一个允许人类收听的输出功率相匹配。

当完成功率匹配的时候，PLP系数计算器20对相应的语音信号执行离散傅里叶逆变换，而后从相应的语音信号中获得一组线性方程。因此，PLP系数计算器20对该线性方程组执行倒谱递归处理，从而输出PLP模型的倒谱系数，即，PLP系数a_p。换句话说，PLP系数计算器20向参数编码单元23输出反映人的听觉感觉特点的低次(阶)PLP系数a_p和增益G作为参数值。

此时，V/UV确定单元21输出一个V/UV指示比特，并且将语音信号S[n]传送给音高计算器22。音高计算器22计算语音信号S[n]的音高P。

因此，参数编码单元23通过编码(通过低比特率编码)从PLP系数计算器20和音高计算器22接收的V/UV指示比特值、PLP系数a_p、增益G和音高P来输出一个比特流。优选地，所传送的PLP系数a_p的次数大约是用于8kHz采样速率的第七次。然后，控制器(未示出)处理该比特流，然后输出该处理的比特流给无线电(无线)单元(未示出)。无线电单元将从控制器输出的信号变换为无线电信号(无线电信号)并且发射它。

如上所述，在本发明中，LPC是通过使用PLP系数执行的，从而可以改善压缩率，并且语音等级信号可以被利用更有效率的低比特率传送。

此外，在本发明中，可以实现更高的压缩率，并且通过使用PLP系数而不是使用现有的LP系数作为一个参数，可以期待具有高的声音质量的信号质量。

因此，按照本发明的语音编码设备和方法可以使用低的比特率用于编码和解码语音，或者被用于占据很小面积的设备，并且使用PLP参数执行语音合成。

此外，按照本发明的语音编码设备和方法可以用于供声音本身差不多不是非常重要的，但是足以听到的应用的语音编码。此外，通过高压缩率因特网存储数据或者需要低的比特率，在一个具有有限存储器的嵌/***中，可以在因特网上执行有效的语音对话。

由于本发明可以不脱离其精神或者基本的特性以若干形式实施，除非另作说明的，此外应该理解，以上所述的实施例不受先前描述的任何细节的限制，而是应该广泛地解释为在所附的权利要求限定的精神和范围内，因此，所有的变化和修改落在权利要求的范围内，或者这样的范围的等价因此意欲被所附的权利要求所包含。

Claims

1.一种移动通信终端中的语音编码设备，包括：

知觉线性预测(PLP)系数计算器，用于通过处理输入信号来计算PLP系数和增益；

V/UV确定单元，用于确定输入信号是有声信号还是无声信号，从而当输入信号是有声信号的时候，输出确定结果和有声信号；

音高计算器，用于计算从V/UV确定单元输出的输入信号的音高；和

参数编码单元，用于基于确定结果使用PLP系数、增益和音高来执行低比特率编码。

2.根据权利要求1的设备，其中有声信号是一个语音信号。

3.根据权利要求1的设备，其中确定结果表示输入信号是有声信号还是无声信号的比特值。

4.根据权利要求1的设备，其中该PLP系数的次数对于8kHz采样速率大约是第七次。

5.一种移动通信终端的语音编码方法，包括：

通过处理输入信号来计算知觉线性预测(PLP)系数和增益；

确定输入信号是有声信号还是无声信号，从而当输入信号被确定为有声信号的时候，输出确定信号和有声信号；

计算从V/UV确定单元输出的输入信号的音高；和

基于确定信号使用该PLP系数、增益和音高来执行低比特率编码。

6.根据权利要求5的方法，其中有声信号是一个语音信号。

7.根据权利要求5的方法，其中计算PLP系数和增益的步骤包括：

对于输入信号执行快速傅里叶变换(FFT)；

对经傅里叶变换的语音信号执行临界频带积分和重复取样，从而利用频率单元除去噪声分量；

对经傅里叶变换的语音信号执行均衡和扩音处理，使之变成具有适合于人的听觉感觉幅值的声音分量，然后将该语音信号与一个适宜的输出功率相匹配；

对与输出功率相匹配的语音信号执行离散傅里叶逆变换，从而获得一组线性方程；和

对于该线性方程组执行倒谱递归处理，从而获得PLP系数和增益。

8.根据权利要求5的方法，其中PLP系数的次数对于8kHz采样速率大约是第七次。