CN103137135B

CN103137135B - Lpc系数量化方法和装置及多编码核音频编码方法和设备

Info

Publication number: CN103137135B
Application number: CN201310027233.6A
Authority: CN
Inventors: 闫建新; 张勇
Original assignee: Shenzhen Rising Source Technology Co ltd
Current assignee: Guangdong Guangsheng Research And Development Institute Co ltd
Priority date: 2013-01-22
Filing date: 2013-01-22
Publication date: 2015-05-06
Anticipated expiration: 2033-01-22
Also published as: CN103137135A

Abstract

本发明涉及一种用于音频信号编码的LPC系数量化方法和装置。所述方法包括如下步骤：S1、基于预定的规则确定输入音频信号的类型；S2、对输入音频信号执行线性预测处理，计算LPC系数；S3、针对不同的音频信号类型，应用与该音频信号类型相匹配的矢量量化码书对所述LPC系数进行矢量量化。本发明还涉及采用该LPC系数量化方法和装置的多编码核音频编码方法和设备。本发明基于音频信号分类对LPC系数进行量化，应用于有至少一个编码核使用线性预测LPC对至少两个类型的音信信号进行编码处理的多编码核编码算法，可进一步提高内部线性预测编码模块的预测参数的量化精度，从而改进整体数字音频编码算法的效率以及编码器的主观声音质量。

Description

LPC系数量化方法和装置及多编码核音频编码方法和设备

技术领域

本发明涉及数字音频编码技术，更具体地说，涉及一种用于音频信号编码的LPC系数量化方法和装置以及一种多编码核音频编码方法和设备。

背景技术

在数字音频编码中，由于音频信号非常复杂，一般包括音乐类信号、语音类信号和混合类信号等，一些音频编码算法如MPEG-1、MPEG-2、MPEG-4、Dolby AC-3和DTS等主要工作在高码率高质量，当在低码率下对于语音类信号的编码效率较低；而另外一些ITU G系列标准编码算法主要针对低码率语音信号，对于宽带信号则编码效率下降。为了对所有类型的音频信号能一致获得较高的编码效率，一般需要采用具有多种编码内核的混合编码结构，如3GPP的AMR-WB+（参见3GPP TS26.290:"Audio codec processing functions;Extended AMR Wideband codec;Transcoding functions"）以及MPEG-D USAC（参见ISO/IEC DIS23003-3-Information technology--MPEG audiotechnologies--Part3:Unified speech and audio coding"）等。在这些混合编码算法中，对每个音频信号类型都有不同的压缩算法处理，期望综合编码性能得以改善。

在AMR-WB+中，针对语音信号采用ACELP（Algebraic Code ExcitedLinear Prediction，代数码本激励线性预测）编码核，针对混合类和音乐类信号一般采用TCX（Transform Coded Excitation，变化码激励）编码核，两种编码核都应用LPC（Linear Predictive Coding，线性预测编码)）技术来描述语音的短时谱包络，因而对LPC系数的高效量化是语音编码中的一个关键性问题。由于LPC系数的动态范围比较大，出于合成滤波器稳定性和量化效率的考虑，LPC系数通常被转换为在数学上完全等价的其它形式的参数后再量化，通常的表示形式为ISF（Immittance Spectral Frequency，导抗谱频率系数）或LSF（LineSpectral Frequency，线谱频率参数）。LSF作为LPC系数的一种频域参数，由于其具有更好的量化和插值特性，语音编码端常将LPC系数转换为LSF参数，然后再将LSF参数进行量化（一般采用矢量量化技术），语音解码端进行逆量化得到量化后的LSF参数，并将LSF参数再转换为LPC系数，因此LSF在基于LPC语音编码中得到了广泛的应用。

在MPEG-D USAC（Unified Speech and Audio Coding，统一的语音/音频编码）编码中，对于音乐类信号，采用高效的AAC（AdvancedAudio coding，高级音频编码）编码；对于语音信号，一般采用ACELP类编码核；对于混合类信号，一般采用TCX类编码核。像AMR-WB+一样，在MPEG-D USAC混合编码结构中，ACELP和TCX编码核会共用LPC编码技术。

AMR-WB+和MPEG-D USAC等多编码核音频编码算法尽管开始有对输入音频信号的类型进行分析，针对不同类型，采用不同的编码核，来获取综合最佳编码效率。AMR-WB+中，语音信号类采用ACELP编码核，音乐类及混合类信号采用TCX编码核；在MPEG-D USAC中，语音类信号采用ACELP编码核，混合类采用TCX编码核，音乐类采用AAC编码核。AMR-WB+和MPEG-D USAC这两种多编码核音频编码算法中都采用了ACELP和TCX，而这两个编码核会共用一个线性预测LPC技术，并且一般都是对LPC系数转换为LSF谱参数后，再进行矢量量化编码，且可采用的矢量量化方法有很多种，例如，申请日为2012年7月17日，申请号为201210246780.9，名称为“用于对语音信号LPC系数进行多级矢量量化的方法和***”的中国专利申请便公开了一种多级矢量量化方法，但是这些矢量量化方法所生成的码书不依赖于输入的数字音频信号的类型，即对所有音频信号，都只生成一套矢量量化码书，因而LPC系数的量化精度仍不是很理想，从而影响整体数字音频编码算法的编码效率以及编码器的主观声音质量。

发明内容

本发明要解决的第一个技术问题在于，针对现有技术的上述缺陷，提供一种能够进一步改进量化精度的用于音频信号编码的LPC系数量化方法和装置。

本发明要解决的第二个技术问题在于，针对现有技术的上述缺陷，提供一种能够提高内部预测参数的量化精度进而改进整体数字音频编码算法的效率以及主观声音质量的多编码核音频编码方法和编码设备。

本发明解决其第一个技术问题所采用的技术方案是：提出一种用于音频信号编码的LPC系数量化方法，包括如下步骤：

S1、基于预定的规则确定输入音频信号的类型；

S2、对输入音频信号执行线性预测处理，计算LPC系数；

S3、针对不同的音频信号类型，应用与该音频信号类型相匹配的矢量量化码书对所述LPC系数进行矢量量化。

本发明上述用于音频信号编码的LPC系数量化方法中，

所述步骤S2进一步包括：

将所述LPC系数转换为等效的LSF参数；

所述步骤S3进一步包括：

针对不同的音频信号类型，应用与该音频信号类型相匹配的矢量量化码书对所述LSF参数进行矢量量化。

本发明上述用于音频信号编码的LPC系数量化方法中，所述步骤S3中矢量量化采用多级矢量量化方法。

本发明上述用于音频信号编码的LPC系数量化方法中，所述方法在步骤S1之前还包括：

将针对不同音频信号类型的信号模型构建的编码所需的矢量量化码书存储于本地。

本发明上述用于音频信号编码的LPC系数量化方法进一步包括：

S4、将矢量量化的编码参数传送给复用器复用到总的音频编码帧中。

本发明为解决其第一个技术问题还提出一种用于音频信号编码的LPC系数量化装置，包括：

音频类型确定模块，用于基于预定的规则确定输入音频信号的类型；

线性预测处理模块，用于对输入音频信号执行线性预测处理，计算LPC系数；

谱参数量化模块，用于针对不同的音频信号类型，应用与该音频信号类型相匹配的矢量量化码书对所述LPC系数进行矢量量化。

本发明上述用于音频信号编码的LPC系数量化装置中，所述线性预测处理模块进一步包括：

LPC系数计算模块，用于输入音频信号执行线性预测处理，计算出LPC系数；

等效转换模块，用于将所述LPC系数转换为等效的LSF参数。

本发明上述用于音频信号编码的LPC系数量化装置中，所述谱参数量化模块进一步用于针对不同的音频信号类型，应用与该音频信号类型相匹配的矢量量化码书对所述LSF参数进行矢量量化。

本发明上述用于音频信号编码的LPC系数量化装置还包括：

存储模块，用于存储针对不同音频信号类型的信号模型构建的编码所需的矢量量化码书。

本发明上述用于音频信号编码的LPC系数量化装置还将矢量量化的编码参数传送给复用器复用到总的音频编码帧中。

本发明解决其第二个技术问题所采用的技术方案是：提出一种多编码核音频编码方法，包括如下步骤：

a、对输入音频信号的类型进行分析；

b、针对多个音频信号类型，采用相应的多个编码核进行编码，其中，至少一个编码核对至少两个音频信号类型的音频信号执行线性预测编码；

其中，所述线性预测编码通过上述的用于音频信号编码的LPC系数量化方法来对LPC系数进行量化。

本发明为解决其第二个技术问题还提出一种多编码核音频编码设备，包括：

音频信号分类处理模块，用于对输入音频信号的类型进行分析；

多个编码核，用于基于音频信号类型对相应的音频信号进行编码，其中，至少一个编码核对至少两个音频信号类型的音频信号进行线性预测编码；

其中，所述线性预测编码通过上述的用于音频信号编码的LPC系数量化装置来对LPC系数进行量化。

通过本发明用于音频信号编码的LPC系数量化方法和装置，在编码算法中的LPC参数量化编码时，为不同音频信号类型分别提供各自最匹配的矢量量化码书，在不需要额外音频信号类型指示比特开销的情况下，可进一步对LPC谱参数改进量化精度。进而，本发明的采用该LPC系数量化方法和装置的多编码核音频编码方法和设备能够提高整体编码算法的编码效率，或者同样质量下减少编码比特率，改进编码器的主观声音质量。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是MPEG-D USAC编码算法的编码过程示意框图；

图2是本发明一个实施例的用于音频信号编码的LPC系数量化方法的流程图；

图3是本发明另一实施例的用于音频信号编码的LPC系数量化方法的流程图；

图4是本发明一个实施例的用于音频信号编码的LPC系数量化装置的逻辑框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

音频信号的信号类型可以分为2类、3类或者更多类型。当分成2类时可以是语音信号、非语音信号；分为3类时可以是语音信号、音乐信号、语音与音乐混合类信号。本发明的用于音频信号编码的LPC系数量化方法和装置便基于音频信号分类分别采用不同的匹配矢量量化码书来对LPC频谱系数进行矢量量化，从而能够进一步改进谱参数的量化精度，或者说同等精度下能够减少谱参数编码所需要的比特数。

例如，AMR-WB+多编码核混合编码算法将音频信号分类成语音类信号、音乐类信号和语音音乐混合类信号。本发明应用于AMR-WB+时，对于语音类信号，使用与该信号模型相关的一组矢量量化码书进行矢量量化，然后再进行ACELP编码；而对于音乐类和语音音乐混合类信号，分别各自使用不同的两组矢量量化码书来进行量化，然后完成TCX处理。

又例如，MPEG-D USAC多编码核混合编码算法也将音频信号分类成语音类信号、音乐类信号和语音音乐混合类信号。本发明应用于MPEG-D USAC时，由于仅仅语音类和音乐语音混合类两种类型的信号需要LPC处理，因此针对这两类信号分别提供匹配的矢量量化码书进行量化，然后再对应进行ACELP编码或者TCX编码。以下将以MPEG-D USAC编码算法为例来详细介绍本发明。

图1示出了MPEG-D USAC编码算法的编码过程。如图1所示，MPEG-DUSAC编码算法主要包括三个阶段。预处理阶段：在步骤110中对输入PCM（Pulse Code Modulation，脉冲编码调制）音频信号进行重采样，其目的是在输入采样率和编码采样率不同时，调整输入采样率到适合编码处理的最佳采样率；在步骤130中对输入PCM音频信号进行信号类型分析，以便针对不同类型信号进行不同编码处理；在步骤120中对经过重采样的音频信号进行环绕MPEG编码（MPEG Surround）和增强的SBR（Spectral band replication，频段复制）处理。基于音频信号的不同类型，经过预处理的音频信号被送入两个编码核，即第一编码分支（频域编码核）140和第二编码分支（时域编码核）150。如前所介绍，在MPEG-D USAC中，语音类信号采用ACELP编码核，混合类信号采用TCX编码核，音乐类信号采用AAC编码核。也即，经过预处理的音乐类信号进入第一编码分支140，经过音调估计、块切换控制、心理声学模型控制、滤波、TNS（Temporal Noise Shaping，时域噪音整形）、M/S编码等处理；经过预处理的语音类信号进入第二编码分支150，进行LPC谱参数量化处理151后再进行ACELP编码；经过预处理的混合类信号进入第二编码分支150，进行LPC谱参数量化处理151后再进行TCX编码。两个分支出来的信号经过后处理160后，经过复用器将所有编码参数复用170，输出总的音频编码帧。

本发明的技术方案主要体现在对LPC谱参数量化处理151的改进，提出一种基于音频信号分类的LPC系数量化方法和装置，以下将详细给出说明。有关图1所示的MPEG-D USAC编码算法的其它功能模块和步骤，为本领域技术人员所熟知的现有技术，故在此不再赘述。

图2是根据本发明一个实施例的用于音频信号编码的LPC系数量化方法200的流程图。如图2所示，该方法200包括如下步骤：

步骤210中，基于预定的规则确定输入音频信号的类型。如前所述，MPEG-D USAC等多编码核音频编码算法会基于不同的信号类型采用不同的编码核，必然会首先对输入的PCM音频信号进行信号类型分析，并将分类类型参数编码到压缩码流中（参见图1中标号130所示）。例如，在MPEG-USAC中，分为语音类信号、音乐类信号、音乐语音混合类信号三种类型。因而，本发明的LPC系数量化方法不需要再额外增加信号类型处理模块和信号类型指示信息，可基于预定的规则从压缩码流中解析出输入音频信号的类型。因此，本发明的LPC系数量化方法应用于多编码核音频编码算法时，不需要在编码帧中增加任何额外开销。

随后步骤220中，对输入音频信号执行线性预测处理（LPC），计算LPC系数。对输入PCM信号，本发明通过合理分段（如ACELP编码一般256样点计算一次，而TCX编码可能256、512或1024样点计算一次）计算出LPC系数。

随后步骤230中，针对不同的音频信号类型，应用与该音频信号类型相匹配的矢量量化码书对LPC系数进行矢量量化。本发明可预先针对不同音频信号类型的信号模型分别进行编码所需的矢量量化码书的设计，构建出与各音频信号类型最匹配的一个矢量量化码书，并存储于本地。由于不同音频信号类型对应一个匹配的矢量量化码书，因此应用本发明进行音频信号编码需要在编码端和解码端都有存储这些矢量量化码书，会增加一定的存储空间需求。

步骤230中对LPC系数进行矢量量化，可采用本领域已知和可行的各种矢量量化方法，例如，申请日为2012年7月17日，申请号为201210246780.9，名称为“用于对语音信号LPC系数进行多级矢量量化的方法和***”的中国专利申请公开的多级矢量量化方法。

图3是根据本发明另一具体实施例的用于音频信号编码的LPC系数量化方法300的流程图。如图3所示，该方法300包括如下步骤：

步骤310中，基于预定的规则确定输入音频信号的类型。

随后步骤320中，对输入音频信号执行线性预测处理，计算LPC系数。

随后步骤330中，将LPC系数转换为等效的LSF参数。

随后步骤340中，针对不同的音频信号类型，应用本地存储的与该音频信号类型相匹配的矢量量化码书对LSF参数进行矢量量化。如前所述，本发明可预先针对不同音频信号类型的LSF参数分别进行矢量量化码书的设计，构建出编码需要的最匹配的矢量量化码书并存储于本地。

随后步骤350中，将矢量量化的编码参数传送给复用器复用到总的音频编码帧中，以便传送给接收端（解码器）。

通过本发明用于音频信号编码的LPC系数量化方法，在编码算法中的LPC参数量化编码时，为不同音频信号类型分别提供各自最匹配的矢量量化码书，在不需要额外音频信号类型指示比特开销的情况下，可进一步对LPC谱参数改进量化精度，从而提高整体编码算法的编码效率，或者同样质量下减少编码比特率。

图4是根据本发明一个实施例的用于音频信号编码的LPC系数量化装置400的逻辑框图。用于音频信号编码的LPC系数量化装置400包括音频类型确定模块410、线性预测处理模块420、谱参数量化模块430和存储模块440。其中，音频类型确定模块410用于基于预定的规则确定输入音频信号的类型。如前所述，MPEG-D USAC等多编码核音频编码算法会基于不同的信号类型采用不同的编码核，必然设有音频信号分类处理模块首先对输入的PCM音频信号进行信号类型分析，并将分类类型参数编码到压缩码流中（参见图1中标号130所示）。因而，音频类型确定模块410可基于预定的规则从压缩码流中解析出输入音频信号的类型，不需要额外增加音频信号类型分析处理和指示信息，因此不需要在编码帧中增加任何额外开销。线性预测处理模块420用于对输入音频信号执行线性预测处理，计算LPC系数。存储模块440用于在本地存储针对不同音频信号类型的信号模型所构建的编码所需的矢量量化码书。谱参数量化模块430用于针对不同的音频信号类型，应用本地存储的与该音频信号类型相匹配的矢量量化码书对线性预测处理模块420计算出的LPC系数进行矢量量化。

具体实施例中，如图4所示，线性预测处理模块420进一步包括LPC系数计算模块421和等效转换模块422。LCP系数计算模块421对输入音频信号通过合理分段计算出LPC系数。等效转换模块422将LCP系数转换成等效的LSF参数。进一步，普参数量化模块430针对不同的音频信号类型，应用本地存储的与该音频信号类型相匹配的矢量量化码书对LSF参数进行矢量量化。最后，矢量量化的编码参数被传送给复用器复用到总的音频编码帧中。

本发明基于音频信号分类的LPC系数量化方法和装置，应用于有至少一个编码核使用线性预测LPC对至少两个类型的音频信号进行编码处理的多编码核编码算法，可进一步提高内部线性预测编码模块的预测参数的量化精度，从而改进整体数字音频编码算法的效率以及编码器的主观声音质量。

以AMR-WB+多核编码算法为例，应用本发明的基于音频分类的多矢量量化码书，对其中LPC系数（或者转换的LSF参数）进行矢量量化，其中具体的矢量量化方案采用申请日为2012年7月17日，申请号为201210246780.9，名称为“用于对语音信号LPC系数进行多级矢量量化的方法和***”的中国专利申请公开的多级矢量量化方法。

下面比较分类和非分类情况的特性：

（a）复杂度

由于在AMR-WB+中已经存在对音频信号分类的处理，分别进行ACELP（语音类信号）和TCX（混合类信号）编码，因此本发明主要会增加1倍的存储空间（大约98k字节），其他复杂度相当。

（b）性能

采用201210246780.9“用于对语音信号LPC系数进行多级矢量量化的方法和***”中的多级矢量量化方法，比较分类情况的多个矢量量化码书和非分类情况的单一矢量量化码书，分别对12个MPEG典型测试序列进行LPC参数矢量量化后的精度比较结果，如表1到表12所示。

从12个表中，观察代表LPC参数量化精度的平均谱失真，可以认为：分类算法一致好于非分类算法，这也标志着基于音频分类的多矢量量化码书算法能够进一步提高编码效率。

表1算法性能（测试序列：es01）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.697600	0.000000	0.000000
分类算法	0.502818	0.000000	0.000000

表2算法性能（测试序列：es02）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.662532	0.000000	0.000000
分类算法	0.506807	0.000000	0.000000

表3算法性能（测试序列：es03）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.662490	0.000000	0.000000
分类算法	0.597712	0.000000	0.000000

表4算法性能（测试序列：sc01）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.679964	0.000000	0.000000
分类算法	0.568026	0.000000	0.000000

表5算法性能（测试序列：sc02）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.624548	0.000000	0.000000
分类算法	0.600093	0.000000	0.000000

表6算法性能（测试序列：sc03）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.620681	0.000000	0.000000
分类算法	0.483082	0.000000	0.000000

表7算法性能（测试序列：si01）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.657625	0.000000	0.000000
分类算法	0.530154	0.000000	0.000000

表8算法性能（测试序列：si02）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.735683	0.000000	0.000000
分类算法	0.701430	0.000000	0.000000

表9算法性能（测试序列：si03）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.612262	0.000000	0.000000
分类算法	0.366940	0.000000	0.000000

表10算法性能（测试序列：sm01）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.731752	0.000000	0.000000
分类算法	0.475733	0.000000	0.000000

表11算法性能（测试序列：sm02）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	1.051757	0.423729	0.000000
分类算法	0.800497	0.847458	0.000000

表12算法性能（测试序列：sm03）

算法	平均谱失真(dB)	2～4dB比例(%)	＞4dB比例(%)
				不分类算法	0.643514	0.423729	0.000000
分类算法	0.626824	0.847458	0.000000

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于音频信号编码的LPC系数量化方法，其特征在于，包括如下步骤：

S1、基于预定的规则确定输入音频信号的类型；

S2、对输入音频信号执行线性预测处理，计算LPC系数；

S3、针对不同的音频信号类型，应用与该音频信号类型相匹配的矢量量化码书对所述LPC系数进行矢量量化；

所述方法在步骤S1之前还包括：

针对不同音频信号类型的信号模型分别构建出编码所需的与各音频信号类型最匹配的矢量量化码书并存储于本地。

2.根据权利要求1所述的方法，其特征在于，

所述步骤S2进一步包括：

将所述LPC系数转换为等效的LSF参数；

所述步骤S3进一步包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤S3中矢量量化采用多级矢量量化方法。

4.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

5.一种用于音频信号编码的LPC系数量化装置，其特征在于，包括：

存储模块，用于存储针对不同音频信号类型的信号模型分别构建的编码所需的与各音频信号类型最匹配的矢量量化码书；

6.根据权利要求5所述的装置，其特征在于，所述线性预测处理模块进一步包括：

等效转换模块，用于将所述LPC系数转换为等效的LSF参数。

7.根据权利要求6所述的装置，其特征在于，所述谱参数量化模块进一步用于针对不同的音频信号类型，应用与该音频信号类型相匹配的矢量量化码书对所述LSF参数进行矢量量化。

8.根据权利要求5所述的装置，其特征在于，所述装置将矢量量化的编码参数传送给复用器复用到总的音频编码帧中。

9.一种多编码核音频编码方法，其特征在于，包括如下步骤：

a、对输入音频信号的类型进行分析；

其特征在于，

所述线性预测编码通过根据权利要求1-4中任一项所述的方法来对LPC系数进行量化。

10.一种多编码核音频编码设备，其特征在于，包括：

其特征在于，

所述线性预测编码通过根据权利要求5-8中任一项所述的装置来对LPC系数进行量化。