CN1815894A

CN1815894A - 一种音频信号编码的方法和设备

Info

Publication number: CN1815894A
Application number: CNA2005100073304A
Authority: CN
Inventors: 俞铁城; 许牧
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-02-06
Filing date: 2005-02-06
Publication date: 2006-08-09

Abstract

公开了一种音频信号编码方法，其中该音频信号被采样并分割成多个正、负半波，根据设定的上、下阈值频率对该半波进行发声/不发声判定。对判定为发声的多个半波根据其两个零点间所包含的采样点数目，即该半波的矢量维数，各自寻找对应维数的分代码本，进行矢量量化，形成输出索引，由于各半波所对应的分代码本长度远小于总代码本长度，因此能够不降低解码时音频信号的听觉品质，减少矢量量化中代码搜索的运算量。还公开了一种执行编码和解码方法的解码方法及设备。

Description

一种音频信号编码的方法和设备

技术领域

本发明涉及一种对音频信号进行编码的方法，特别地，但不专门地涉及语音信号的编码方法及设备。

背景技术

音频信号的编码方法有很多种，传统波形编码器用减少量化误差的方法，使重构音频朝着原始音频信号收敛；参量编码器则利用音频产生的数学模型，提取音频信号的特征参量，并按照模型参量重构音频信号。

波形编码器与参量编码器相比较各有优缺点，总体来说，波形编码器具有音质好、复杂度小的优点，但比特率较高，如比特率为32Kbit/s的自适应差分脉码调制(ADPCM，ITU-T G.726)，复杂度为1.25MIPS；而参量编码器具有比特率较低的优点，但音质稍差，复杂度较高，如比特率为8Kbit/s的G.729语音编码器(CELP，ITU-T G.729)，复杂度为25MIPS。

在音频信号编码中，广泛使用了矢量量化方法，按照这种方法，将一个输入矢量与存储在一个代码本中的代码矢量比较，以输出这些代码矢量中的一个最佳矢量的索引。矢量量化方法能够以非常低的比特率，提供超过标量量化的性能，但是，如果代码本中所含代码矢量的数目较大，则会增加为输入矢量寻找匹配的代码矢量的搜索操作次数，明显地增大代码本搜索处理的工作量，也增加了相应音频信号编码器的复杂度。

本发明的目的在于提供一种音频信号编码的方法和设备，它能够减少音频编码过程中对音频信号进行矢量量化操作产生的代码本搜索的处理量，在较低的复杂度和比特率下，实现音频信号高质量的重构。

发明内容

根据本发明的第一方面提供了编码音频信号的方法，包括步骤：

设定上阀值频率和下阀值频率(上阀值频率＞下阀值频率)；

采样音频信号；

将样本音频信号分成多个正、负半波；

对每个半波将其频率与阀值频率比较，分成三类：

第一类半波：频率大于上阀值频率的半波；

第二类半波：频率小于下阀值频率的半波；

第三类半波：频率小于或等于上阀值频率且大于或等于下阀值频率的半波；

对第一、二类半波判定为不发声信号；

对第三类半波进行矢量量化以形成多个索引；

其特征在于：

根据采样频率和作为人的听觉性质的听觉灵敏特性，选择上述的上阀值频率和下阀值频率，并对样本音频信号按照时域和量化数值分成多个正、负半波，对处于上、下阀值频率之间的每个半波根据其两个零点间所包含的采样点数目，即该半波矢量的维数，各自寻找对应维数的分代码本，进行矢量量化，输出索引，对其他半波作不发声信号处理。

参照图1示出了根据本发明的方法将音频信号分成多个正、负半波，以及半波的零点位置。

更好地，对包含相同矢量维数的第三类半波根据其正、负特性，分别寻找对应正、负特性的分代码本，进行矢量量化。

利用本发明的方法，选择对人的听觉感受最重要的信号频率区间，对多个半波根据其矢量维数的不同，分别按照不同的分代码本进行矢量量化，能够较好的重构原始音频信号；同时，与迄今为止所知的其他矢量量化方法相比，在总代码本大小相同的情况下，本发明的方法由于各半波对应的分代码本的长度远小于总代码本的长度，且在代码本搜索方法相同的情况下，各分代码本搜索运算量的和总不大于各分代码本搜索运算量的乘，于是减少了寻找匹配代码矢量的代码本搜索的运算量。

根据本发明的第二方面，提供了一种解码输入数据信号用于音频输出的方法，包括步骤：

从输入的数据信号中获取发声/不发声判定信息；

根据数据信号的索引作矢量去量化操作获取半波信息；

根据不发声判定信息和半波信息构造一音频信号。

根据本发明的第三方面，提供了一种音频编码设备，包括：

用于采样音频信号并将采样的信号分成多个正、负半波的装置；

半波频率与阀值频率比较装置，用于获取半波类别；

变换装置，用于将前述第一、二类半波变换为不发声信号；

矢量量化装置，用于量化前述第三类半波以形成输出索引；

其特征在于：

该音频编码设备以半波为音频编码单位，对于包含不同矢量维数的前述第三类半波，用包含对应维数的代码本进行矢量量化。

根据本发明的第四方面，提供了一种用于解码输入数据信号以作音频合成的解码设备，包括：

发声/不发声判定装置；

矢量去量化装置；

根据不发声信息和半波信息构造一音频信号的装置。

附图说明

图1以举例的形式说明半波的划分。

图2是本发明的编码设备的一个实施例的方框图。

图3是用于解码利用图2所示实施例编码的语音的本发明的解码设备的一个实施例的方框图。

具体实施方式

参照图2，示出了根据本发明的编码设备的一个实例。

一输入音频信号在100被采样作模数转换(A/D)并将信号按时域和量化数值分成多个正、负半波。

然后在110对每个半波的半波频率进行上、下阀值频率比较分类，将半波频率大于上阀值频率或小于下阀值频率的半波信号送往120；将半波频率处于上、下阀值频率之间的半波信号送往130。

送往120的半波信号被变换为不发声信号后送往140。

送往130的半波信号根据其所含矢量维数的不同，寻找具有对应矢量维数的分代码本进行矢量量化，输出代码矢量的索引至140。

在140的组合过程保持每个元素以预定的顺序相互离散以使得可作下面将要描述的解码。

参照图3，示出了解码图2的输出信号的解码器，它执行图2的编码器的相反操作。

在310数据信号被判定分成发声/不发声信号两部分，不发声信号直接送至340，发声信号则将代码矢量的索引送至330。

代码矢量的索引在330通过抽取正确的代码矢量而被解码，然后送至340。

在340以预定的顺序组装信号各部分并通过数模转换(D/A)形成一个音频信号。

本发明特别适用于以数字形式实时传输音频信号的设备，例如有线IP电话机和无线IP电话机。

本发明尤其适用于无线IP电话机，因为它需要较好的音频质量但同时作为电源能力有限、带宽不稳定的移动通讯器，需要较低的数字编码计算和较小的比特率以降低功耗保证通信质量。

利用本发明的此实例便可能以低于2MIPS的复杂度，以8Kbit/s的比特率传输数字音频信息。

上述描述的此实施例不应理解为限定性的。例如虽然选择了64个半波形的分代码本进行矢量量化，但也可根据对音频编码语音质量和比特率的要求，选择更多的或更少的半波形的分代码本进行矢量量化；同时各半波形的分代码本长度也可根据需要的量化精度与对音频编码语音质量的要求而进行调整，而且每一个半波形的分代码本都可以选择不同的代码本种类和量化方法，以进一步降低音频编码的复杂度、音频编码的比特率或提高音频编码的语音质量。

Claims

1.一种音频信号编码的方法，包括步骤：

设定设定上、下阀值频率；

采样音频信号；

将样本音频信号分成多个正、负半波；

对每个半波将其频率于阀值频率比较，分成三类：

第一类半波：频率大于上阀值频率的半波；

第二类半波：频率小于下阀值频率的半波；

对第一、二类半波判定为不发声信号；

对第三类半波进行矢量量化以形成多个索引；

其特征在于：根据采样频率和作为人的听觉性质的听觉灵敏特性，选择上述的上阀值频率和下阀值频率，并对样本音频信号按照时域和量化数值分成多个正、负半波，对处于上、下阀值频率之间的每个半波根据其两个零点间所包含的采样点数目，即该半波矢量的维数，各自寻找对应维数的分代码本，进行矢量量化，输出索引，对其他半波作不发声信号处理。

2.根据权利要求1的方法，对包含相同矢量维数的第三类半波根据其正、负特性，分别寻找对应正、负特性的分代码本，进行矢量量化。

3.一种用于解码由前述任一权利要求的方法所编码的信号的方法，包括步骤：

从输入的数据信号中获取发声/不发声判定信息；

根据数据信号的索引作矢量去量化操作获取半波信息；

根据不发声判定信息和半波信息构造一音频信号。

4.用于执行前述任一权利要求的方法的设备。

5.音频编码设备，包括：

半波频率与阀值频率比较装置，用于获取半波类别；

变换装置，用于将前述第一、二类半波变换为不发声信号；

矢量量化装置，用于量化前述第三类半波以形成输出索引；

其特征在于：

6.用于解码输入数据信号以作音频合成的解码设备，包括：

发声/不发声判定装置；

矢量去量化装置；

根据不发声信息和半波信息构造一音频信号的装置。

7.组合权利要求5～6任一项的设备。

8.用于存储及复制音频的设备，包括权利要求5～6任一项的设备。

9.一种手持无线IP通信设备，包括权利要求5～6任一项的设备。