CN101350199A

CN101350199A - 音频编码器及音频编码方法

Info

Publication number: CN101350199A
Application number: CNA2008101173430A
Authority: CN
Inventors: 邓昊
Original assignee: Vimicro Corp
Current assignee: Vimicro Corp
Priority date: 2008-07-29
Filing date: 2008-07-29
Publication date: 2009-01-21

Abstract

本发明提供了一种音频编码器和音频编码方法，用于高级音频编码，其中该编码器包括顺序连接的谱处理模块、量化和比特分配模块，以及比特封装模块，其中，还包括：复修正离散余弦变换模块，用于对接收到的音频时域数据执行复修正离散余弦变换，生成复修正离散余弦变换频域谱数据；取实部操作模块，用于对所述复修正离散余弦变换模块输出的复修正离散余弦变换频域谱数据执行取实部操作，得到修正离散余弦变换频域谱数据，并发送给所述谱处理模块；心理声学模型模块，用于利用所述复修正离散余弦变换频域谱数据分析音频信号的感知特性，获取音频信号的掩蔽阈值，并发送给所述量化和比特分配模块。本发明降低了运算复杂度，减小了内存需求量。

Description

音频编码器及音频编码方法

技术领域

本发明涉及音频编码技术领域，特别是一种音频编码器及音频编码方法。

背景技术

AAC(Advanced Audio Coding，高级音频编码)采用通用的变换域音频编码器结构。

图1所示为对音频信号进行编码的常规音频编码器的框图，其中，图1示出了1S0/IEC 14496-3(表示与MPEG-4AAC相关联的标准技术)中推荐的设备，其中包括：

MDCT(Modified Discrete Cosine Transform，修正离散余弦变换)模块，用于对接收到的时域音频信号进行修正离散余弦变换，生成MDCT频域谱数据；

DFT(Discrete Flourier Transform，离散傅立叶变换)模块，用于对接收到的时域音频信号执行DFT处理，生成DFT频域谱数据；

谱处理模块，用于使用多种方法(诸如用于抑制预回声的时域噪声整形TNS，用于增强立体声信号压缩效率的联合立体声Joint Stereo、用于增强周期性信号压缩性能的长时预测LTP、用于增强噪声分量压缩效率的感知噪声替换PNS等)对MDCT频域谱数据进行处理，增强编码的效率；上述各种方法组件己经在MPEG-4AAC标准中有详细的定义；

心理声学模型模块，用于利用DFT频域谱数据分析音频信号的感知特性，确定所分析的音频信号的掩蔽阈值，即各频段内的最大允许量化噪声；

量化和比特分配模块，依据心理声学模型模块得到的各频段的掩蔽阈值信息，按照最优化比特分配原则，对谱处理模块输出的谱系数进行量化，且对谱系数的量化值和尺度因子(实际就是量化步长)进行huffman编码，在保证编码当前帧使用的比特数不超过可用比特数的前提条件下，尽可能使得(量化过程会引入量化噪声，谱处理过程中不会引入量化噪声)谱系数的量化噪声小于心理声学模型模块得到的最大允许量化噪声量；

比特封装模块，用于对量化和比特分配模块输出的信号和相关控制信息进行封装处理后输出AAC码流。该DFT模块的实现方式可以是如下方式：首先对输入时域音频信号进行加窗，而后分别进行一次2048点离散傅立叶变换和8次连续的256点离散傅立叶变换，然后将离散傅立叶变换得到的谱数据输出给心理声学模型模块进行后续处理。

当然，该DFT模块也可以采用其他的变换方式，将输入时域音频信号转换为频域信号。

发明人在实现本发明的过程中发现，现有技术至少存在以下问题，心理声学模型模块的分析对象为DFT模块输出的频域谱数据，而谱处理模块的处理对象为MDCT频域谱数据，这种对输入的时域音频信号分别进行DFT和MDCT两种变换，采用两套谱数据的AAC编码器实现方法由于需要进行两次变换处理，运算复杂度高，内存需求量大。

发明内容

本发明的目的是提供一种音频编码器及音频编码方法，降低运算复杂度，减小内存需求量。

为了实现上述目的，本发明实施例提供了一种音频编码器，用于高级音频编码，包括顺序连接的谱处理模块、量化和比特分配模块，以及比特封装模块，其中，还包括：

复修正离散余弦变换模块，用于对接收到的音频时域数据执行复修正离散余弦变换，生成复修正离散余弦变换频域谱数据；

取实部操作模块，用于对所述复修正离散余弦变换模块输出的复修正离散余弦变换频域谱数据执行取实部操作，得到修正离散余弦变换频域谱数据，并发送给所述谱处理模块；

心理声学模型模块，用于利用所述复修正离散余弦变换频域谱数据分析音频信号的感知特性，获取音频信号的掩蔽阈值，并发送给所述量化和比特分配模块。

上述的音频编码器，其中：

所述心理声学模型模块还用于基于频域感知熵进行块类型判决，获取一判决结果；

所述复修正离散余弦变换模块输出块类型与所述判决结果相对应的复修正离散余弦变换频域谱数据到所述取实部操作模块。

上述的音频编码器，其中：所述量化和比特分配模块对所述修正离散余弦变换频域谱数据的量化值使用哈夫曼码表进行编码。

为了实现上述目的，本发明实施例还提供了一种音频编码方法，用于高级音频编码，包括谱处理步骤、量化和比特分配步骤，以及比特封装步骤，其中，还包括：

变换步骤，对接收到的音频时域数据执行复修正离散余弦变换，生成复修正离散余弦变换频域谱数据；

取实部步骤，对所述变换步骤输出的复修正离散余弦变换频域谱数据执行取实部操作，得到修正离散余弦变换频域谱数据，作为所述谱处理步骤的输入数据；

心理声学处理步骤，利用所述复修正离散余弦变换频域谱数据分析音频信号的感知特性，获取音频信号的掩蔽阈值，作为所述量化和比特分配步骤的其中一个输入数据。

上述的音频编码方法，其中：

所述变换步骤输出的复修正离散余弦变换频域谱数据为块类型与判决结果相对应的复修正离散余弦变换频域谱数据；

所述判决结果基于频域感知熵判决得到。

上述的音频编码方法，其中：所述量化和比特分配步骤中对所述修正离散余弦变换频域谱数据的量化值使用哈夫曼码表进行编码。

本发明实施例具有以下的有益效果：

由于本发明实施例的方法，将CMDCT得到的频域谱数据作为心理声学模型模块的输入，同时将CMDCT得到的频域谱数据取实部得到的频域谱数据作为谱处理模块的输入，在整个处理过程中，仅仅进行一次变换，降低了运算复杂度高和内存需求量；

同时，由于CMDCT得到的频域谱数据取实部得到的频域谱数据为MDCT频域谱数据，因此谱处理，量化和比特分配等模块的处理对象与AAC规范一致，满足了规范的要求；

由于CMDCT频域谱数据与DFT频域谱数据相类似，也具有幅度和相位信息，因此，心理声学模型模块的处理过程与现有技术完全相同，只不过处理对象的区别，因此，对心理声学模型模块不需要作变动。

附图说明

图1为现有的AAC编码器的结构示意图；

图2为本发明实施例的AAC编码器的结构示意图；

图3为本发明实施例的CMDCT变换的处理示意图；

图4为本发明实施例的AAC编码方法的流程示意图。

具体实施方式

本发明实施例的编码器和编码方法中，考虑到音频时域数据执行CMDCT(Complex Modified Discrete Cosine Transform，复修正离散余弦变换)变换后得到的数据的实部与对音频时域数据执行MDCT变换后得到的数据相同，因此，本发明实施例的编码器和编码方法，对音频时域数据执行CMDCT变换，并对得到的数据执行取实部的操作，将操作结果发送给谱处理模块，而将对音频时域数据执行CMDCT变换得到的数据发送给心理声学模型模块进行处理，降低了编码器的实现复杂度。

本发明实施例的编码器如图2所示，包括：

CMDCT模块，用于对接收到的音频时域数据执行CMDCT变换，生成CMDCT频域谱数据；

取实部操作模块，用于对所述CMDCT频域谱数据执行取实部操作，得到MDCT频域谱数据；

心理声学模型模块，用于利用CMDCT频域谱数据分析音频信号的感知特性，获取音频信号的掩蔽阈值，即各频段内的最大允许量化噪声；由于CMDCT频域谱数据与DFT频域谱数据相类似，也具有幅度和相位信息，因此，心理声学模型模块的处理过程与现有技术完全相同，只不过处理对象的区别。

量化和比特分配模块，依据心理声学模型模块得到的各频段的掩蔽阈值信息，按照最优化比特分配原则，对谱处理模块输出的谱系数进行量化，且对谱系数的量化值和尺度因子(实际就是量化步长)进行huffman编码，在保证编码当前帧使用的比特数不超过可用比特数的前提条件下，尽可能使得谱系数的量化噪声小于心理声学模型模块得到的最大允许量化噪声量；

；

比特封装模块，用于对量化和比特分配模块输出的信号进行封装处理后输出AAC码流。

所述量化和比特分配模块对所述修正离散余弦变换频域谱数据的量化值使用哈夫曼码表进行编码。

本发明实施例的心理声学模型模块还包括：

块类型判决单元，基于频域感知熵进行块类型判决，获取一判决结果；

所述CMDCT模块根据块类型判决结果输出对应块类型的CMDCT频域谱数据到所述取实部操作模块。

下面对各模块的工作过程进行详细描述。

在本发明的具体实施例中，CMDCT模块同时进行两种变换，如：

对输入时域信号作一次2048点的CMDCT变换和8次连续的256点的CMDCT变换。

类似MDCT变换，CMDCT变换的输入数据存在50％的重叠，如图3所示，AAC一帧信号长度M固定为1024个样本点。

设当前帧序号为n+1，计算第n+1帧信号的CMDCT系数时，输入数据为第n帧和第n+1帧这两帧信号共2048个样本点，输出数据为M个CMDCT谱系数，其中，CMDCT的计算公式为：

CMDCT (k) = \sqrt{\frac{2}{N}} Σ_{n = 0}^{2 N - 1} w (n) x (n) e^{j (\frac{(2 n + 1 + N) (2 k + 1)}{4 N} π)}, k = 0, . . ., N - 1

其中：

x(n)为输入时域信号，n为时域信号序号；

2^N为CMDCT窗长，长块时为2048，短块时为256；

CMDCT(k)为CMDCT频域谱数据，k为频域谱数据序号。

由于CMDCT频域谱数据为复数，而其实部正好等价为MDCT频域谱数据，因此对其执行取实部操作后可以得到MDCT频域谱数据，并将其作为谱处理模块的输入。

对于CMDCT的计算存在成熟的快速算法，一个N点CMDCT的运算复杂度与N/2点复FFT相当，其算法参见Rolf Gluth，“Regular FFT-RelatedTransform Kernels for DCT/DST-Based Polyphase Filter Banks”，ICASSP 1991，pp.2205-2208。

在此进行两种变换是为了选择更好的变换应用于后续的处理。

然后将得到的两套CMDCT频域谱数据发送给心理声学模型模块进行掩蔽阈值计算和窗长判决，心理声学模型模块基于频域感知熵进行块类型判决后，根据窗长判决信息选择一套CMDCT系数，并将选择结果返回给CMDCT模块。

本发明实施例的编码方法如图4所示，包括：

步骤41，对接收到的音频时域数据执行CMDCT变换，生成CMDCT频域谱数据；

步骤42，利用CMDCT频域谱数据分析音频信号的感知特性，获取音频信号的掩蔽阈值，即各频段内的最大允许量化噪声；由于CMDCT频域谱数据与DFT频域谱数据相类似，也具有幅度和相位信息，因此，心理声学模型模块的处理过程与现有技术完全相同，只不过处理对象的区别。

步骤43，对CMDCT频域谱数据执行取实部操作，得到MDCT频域谱数据；

步骤44，谱处理步骤，用于使用多种方法(诸如用于抑制预回声的时域噪声整形TNS，用于增强立体声信号压缩效率的联合立体声Joint Stereo、用于增强周期性信号压缩性能的长时预测LTP、用于增强噪声分量压缩效率的感知噪声替换PNS等)对MDCT频域谱数据进行处理，增强编码的效率；上述各种方法组件己经在MPEG-4AAC标准中有详细的定义；

步骤45，量化和比特分配步骤，依据得到的各频段的掩蔽阈值信息，按照最优化比特分配原则，对谱处理步骤输出的谱系数进行量化，且对谱系数的量化值和尺度因子(实际就是量化步长)进行huffman编码在保证编码当前帧使用的比特数不超过可用比特数的前提条件下，尽可能使得谱处理模块输出的谱系数的量化噪声小于心理声学模型模块得到的最大允许量化噪声量；

步骤46，对量化和比特分配步骤输出的信号进行封装处理后输出AAC码流。

在本发明的具体实施例中，步骤45中对所述修正离散余弦变换频域谱数据的量化值使用哈夫曼码表进行编码。

所述步骤42和43之间还包括：

基于频域感知熵进行块类型判决，获取一判决结果，所述步骤43中的CMDCT频域谱数据为与块类型判决结果对应块长的CMDCT频域谱数据。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频编码器，用于高级音频编码，包括顺序连接的谱处理模块、量化和比特分配模块，以及比特封装模块，其特征在于，还包括：

2.根据权利要求1所述的音频编码器，其特征在于：

3.根据权利要求1或2所述的音频编码器，其特征在于，所述量化和比特分配模块对所述修正离散余弦变换频域谱数据的量化值使用哈夫曼码表进行编码。

4.一种音频编码方法，用于高级音频编码，包括谱处理步骤、量化和比特分配步骤，以及比特封装步骤，其特征在于，还包括：

5.根据权利要求4所述的音频编码方法，其特征在于：

所述判决结果基于频域感知熵判决得到。

6.根据权利要求4或5所述的音频编码方法，其特征在于，所述量化和比特分配步骤中对所述修正离散余弦变换频域谱数据的量化值使用哈夫曼码表进行编码。