CN101223576A

CN101223576A - 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备

Info

Publication number: CN101223576A
Application number: CNA2006800259202A
Authority: CN
Inventors: 金重会; 吴殷美; 康斯坦丁·奥斯波夫; 波利斯·库德里亚索夫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2005-07-15
Filing date: 2006-07-14
Publication date: 2008-07-16
Anticipated expiration: 2026-07-14
Also published as: US8615391B2; EP1905007A4; EP2490215A3; CN103106902A; EP2490215A2; KR100851970B1; KR20070009339A; EP1905007A1; WO2007027006A1; JP5107916B2; JP5788833B2; JP2012198555A; CN103106902B; CN101223576B; JP2009501359A; US20070016404A1

Abstract

一种提取具有重要频谱分量(ISC)的音频信号的方法和设备、以及使用该提取ISC的方法和设备的低比特率音频信号编码/解码方法。提取ISC的方法包括：通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性，使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；根据预定权重因数从选作为ISC的频谱音频信号提取频谱峰值以选择第二ISC。因此，可有效地对感知重要频谱分量编码，从而获得低比特率的高声音质量。此外，通过使用心理模型能够提取感知重要频谱分量，能够无需相位信息执行编码，并且能够有效地表示低比特率的频谱信号。此外，该方法和设备可被应用到需要低比特率音频编码方案的所有应用中以及下一代音频方案中。

Description

从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备

本申请要求于2005年7月15日提交到韩国知识产权局的第10-2005-0064507号韩国专利申请的利益，该申请公开于此以资参考。

技术领域

本发明总体发明构思涉及一种音频信号编码和/或解码***，更具体地讲，涉及一种提取音频信号的重要频谱分量的方法和设备以及使用其的对低比特率音频信号编码和解码的方法和设备。

背景技术

“MPEG(运动图像专家组)音频”是用于高质量高性能立体声编码的ISO/IEC标准。MPEG音频与运动图像编码根据MPEG的ISO/IEC SC29/WG11一起被标准化。对于MPEG音频，基于32个频带的子带编码(频带分解编码)和改进离散余弦变换(MDCT)用于压缩，具体地讲，通过使用心理特征执行高性能压缩。与传统压缩编码方案相比，MPEG音频可实现高质量的声音。

为了高性能地压缩音频信号，MPEG音频利用“感知编码”压缩方案以减小音频信号的压缩量，在该“感知编码”压缩方案中，通过使用感测音频信号的人类的敏感特性来去除详细的低敏感信息。

此外，在MPEG音频中，无声阶段的最小可听限制和掩蔽特性主要用于使用听觉心理特征的感知编码。无声阶段的最小可听限制是听觉可感知的声音的最小级别。最小可听限制与在无声阶段听觉可感知的噪声的限制有关。最小可听限制根据声音的频率改变。在一些频率，可听到比最小可听限制高的声音，但是在另一些频率，可能不会听到比最小可听限制低的声音。此外，特定声音的感测限制可根据与该特定声音一起听到的其他声音大大改变。这被称为“掩蔽效应”。发生掩蔽效应的频率的宽度被称为临界带。为了有效地利用听觉心理特征(例如，临界带)，将声音信号分解为频谱分量很重要。为此，频带被分为32个子带，随后执行子带编码。另外，在MPEG音频中，滤波器组用于消除32个子带的混叠噪声。

发明内容

技术问题

MPEG音频包括使用滤波器组和心理模型的比特分配和量化。通过MDCT产生的系数分配有最佳量化比特，并且通过使用心理模型2被压缩。用于分配最佳比特的心理模型2通过使用扩散函数基于FFT来估计掩蔽效应。因此，需要相对大量的复杂度。

通常，对于低比特率(32kbps或更少)音频信号的压缩，可分配给信号的比特数不足以量化音频信号的所有频谱分量及其无损编码。因此，需要提取感知的重要频谱分量(ISC)和量化及其无损编码。

技术方案

本发明总体发明构思提供一种从音频信号提取重要频谱分量以低比特率压缩音频信号的方法和设备。

本发明总体发明构思还提供一种使用从音频信号提取重要频谱分量的方法和设备的低比特率音频信号编码方法和设备。

本发明总体发明构思还提供一种对通过低比特率音频信号编码方法和设备编码的低比特率音频信号解码的低比特音频信号解码方法和设备。

将在接下来的描述中部分阐述本发明另外的方面和优点，还有一部分通过描述将是清楚的，或者可以经过本发明总体发明构思的实施而得知。

可通过提供一种提取音频信号的重要频谱分量(ISC)的方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括：通过使用心理模型计算包括变换的频谱音频信号的信号掩蔽比(SMR)值的感知重要性，使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值以选择第二ISC。可通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得权重因数。

该方法还可包括获得频带的SNR(信噪比)；和将具有低SNR的频带中峰值大于预定值的频谱分量选作为ISC。

还可通过提供一种提取音频信号的重要频谱分量(ISC)的方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括：通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；和获得选作为第一ISC的频谱音频信号中的频带的SNR以将具有低SNR的频带中峰值大于预定值的频谱分量的频谱音频信号选作为另一ISC。

还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括：通过使用心理模型计算包括频谱音频信号的SMR(信号掩蔽比)值的感知重要性；使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；和根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值，并将具有该频谱峰值的频率的频谱音频信号选作为第二ISC；和对具有第二ISC的频谱音频信号执行量化和无损编码。提取频谱峰值的步骤可包括：获得频带的SNR(信噪比)，并且通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。低比特率音频信号编码方法还可包括：通过使用MDCT(改进离散余弦变换)和MDST(改进离散正弦变换)来将时域音频信号变换为频谱音频信号以产生频谱音频信号。对ISC音频信号执行量化的步骤可包括：根据使用的比特量和量化误差将音频信号分成多个组以最小化附加信息；根据SMR(信号掩蔽比)和所述多组的动态范围的数据分布确定量化步长；和通过使用所述多组的一个或多个预定量化器对音频信号量化。可通过使用采用组的最大值规格化的值和量化步长确定量化器。量化可以是Max-LIoyd量化。

对量化的信号执行无损编码的步骤可包括：上下文算术编码。执行上下文算术编码的步骤可包括：采用指示ISC的存在的频谱索引表示组成帧的频谱分量；和根据与先前帧的相关性和相邻ISC的分布选择随机模型，以对音频信号的量化值以及包括量化器信息、量化步骤、分组信息和频谱索引值的附加信息执行无损编码。

还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括：通过使用心理模型计算包括频谱音频信号的SMR(信号掩蔽比)值的感知重要性；使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为第一ISC；获得选作为第一ISC的频谱音频信号中的频带的SNR，并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC；和对于具有另一ISC的频谱音频信号执行量化和无损编码。

还可通过提供一种提取音频信号ISC(重要频谱分量)的设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括：心理建模单元，通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；第一ISC选择单元，使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；和第二ISC选择单元，根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值并选择第二ISC。可通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得第二ISC选择单元的权重因数。该设备还可包括：第三ISC选择单元，获得频带的SNR(信噪比)，并通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。

还可通过提供一种提取音频信号ISC(重要频谱分量)的设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括：心理建模单元，通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；第一ISC选择单元，使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；和另一ISC选择单元，获得选作为第一ISC的频谱音频信号中的频带的SNR，并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC。

还可通过提供一种低比特音频信号编码提取设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括：心理建模单元，通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；第一ISC(重要频谱分量)选择单元，使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；第二ISC选择单元，根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值并且选择第二ISC；量化器，对具有第二ISC的频谱音频信号量化；和无损编码器，对量化的信号执行无损编码。

低比特率音频信号编码设备还可包括：第三ISC选择单元，获得频带的SNR(信噪比)，并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。

低比特率音频信号编码设备还可包括：T/F变换单元，通过使用MDCT(改进离散余弦变换)和MDST(改进离散正弦变换)来将时域音频信号变换为频谱音频信号。

量化器可包括：分组单元，根据使用的比特量和量化误差将频谱音频信号分为多个组以最小化附加信息；量化步长确定单元，根据SMR(信号掩蔽比)和所述多个组的数据分布(动态范围)确定量化步长；和组量化器，通过使用所述多组的预定量化器对频谱音频信号量化。组量化器的量化可以是Max-LIoyd量化，无损编码器的无损编码可以是上下文算术编码。

无损编码器可包括：索引单元，采用指示ISC的存在的频谱索引表示组成帧的频谱分量；随机模型无损编码器，根据与先前帧的相关性和相邻ISC的分布选择随机模型，并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。

还可通过提供一种低比特音频信号编码设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括：心理建模单元，通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；第一ISC(重要频谱分量)选择单元，使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；另一ISC选择单元，获得选作为第一ISC的频谱音频信号中的频带的SNR，并且通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC；和量化器，对具有所述另一ISC的频谱音频信号量化；和无损编码器，对量化的信号执行无损编码。

还可通过提供一种低比特音频信号解码方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括：恢复指示ISC(重要频谱分量)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值；参照恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化；和将逆量化的值变换为时域信号。

还可通过提供一种低比特音频信号解码设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括：无损解码器，提取用于帧的随机模型信息，并且通过使用该随机模型信息恢复指示ISC(重要频谱分量)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值；逆量化器，参照恢复的量化器信息、量化步长和分组信息执行逆量化；和F/T变换单元，将逆量化的值变换为时域信号。

还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介质来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括：根据心理模型计算包括变换的频谱音频信号的信号掩蔽比(SMR)值的感知重要性，使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一重要频谱分量(ISC)；根据预定权重因数从选作为一个或多个第一ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二ISC。

还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介质来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括：对音频信号恢复指示重要频谱分量(ISC)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值；根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化；和将逆量化的信号变换为时域信号。

还可通过提供一种音频信号编码和/或解码***来实现本发明总体发明构思的前述和/或其他方面和优点，该***包括：编码器，根据频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重要频谱分量(ISC)的频谱音频信号，并且根据关于选择的ISC的信息对频谱音频信号编码；和解码器，根据所述信息对编码频谱音频信号解码。

还可通过提供一种音频信号编码和/或解码***来实现本发明总体发明构思的前述和/或其他方面和优点，该***包括：编码器，根据频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重要频谱分量(ISC)的频谱音频信号，并且根据关于选择的ISC的信息对频谱音频信号编码。

还可通过提供一种音频信号编码和/或解码***来实现本发明总体发明构思的前述和/或其他方面和优点，该***包括：解码器，根据关于ISC的信息对编码的音频信号解码。可根据频谱音频信号的频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个获得ISC。

附图说明

通过下面结合附图对实施例进行的详细描述，本发明总体发明构思的这些和/其他方面和优点将会变得更加清楚和更易于理解，其中：

图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的设备的框图；

图2是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的流程图；

图3是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的示意图；

图4是示出根据本发明总体发明构思的实施例的使用从输入的音频信号提取重要频谱分量的设备按低比特率压缩音频信号的低比特率音频信号编码设备的构造的框图；

图5是示出图4的设备的量化器的框图；

图6是示出图4的设备的无损编码单元的框图；

图7是示出根据本发明总体发明构思的实施例的使用从音频信号提取重要频谱分量的方法的低比特率音频信号编码方法的流程图；

图8是示出图7的方法的ISC量化的详细流程图；

图9是示出根据本发明总体发明构思的实施例的对通过使用从音频信号提取重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码设备的框图；和

图10是示出根据本发明总体发明构思的实施例的对通过使用提取音频信号的重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码方法的流程图。

具体实施方式

现在将对本发明总体发明构思的实施例进行详细参照，其示例在附图中表示，在整个附图中，相同的标号始终表示相同的部件。以下通过参考附图描述实施例以解释本发明总体发明构思。

图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量(ISC)以按低比特率压缩音频信号的设备的框图。音频信号ISC提取设备包括心理建模单元100和ISC选择单元150。

心理建模单元100对根据心理特征变换的频谱音频信号计算信号掩蔽比(SMR)值。通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)(而不是离散傅立叶变换(DFT))产生输入到心理建模单元100的频谱音频信号。由于MDCT和MDST分别代表音频信号的实部和虚部，因此可表示音频信号的相位信息。因此，可解决DFT和MDCT之间不匹配的问题。当通过使用经受了DFT的时域音频信号量化MDCT的系数时发生不匹配的问题。

ISC选择单元150通过使用SMR值从音频信号选择ISC。ISC选择单元150包括第一ISC选择器152、第二ISC选择器154和第三ISC选择器156以分别选择一个或多个第一ISC、第二ISC和第三ISC。一个或多个第一ISC、第二ISC和/或第三ISC可被称为ISC。

第一ISC选择器152通过使用由心理建模单元100计算的SMR值选择掩蔽阈值小于频谱音频信号的掩蔽阈值的一个或多个频谱信号作为一个或多个第一重要频谱分量(ISC)。

第二ISC选择器154根据预定权重因数通过从在第一ISC选择器152中选作为一个或多个第一ISC的音频信号提取频谱峰值来选择一个或多个第二ISC。

在一个或多个第一ISC中搜索频谱峰值。基于信号的大小确定频谱峰值。由经过MDCT和MDST变换的信号的实部平方加上虚部平方的根来定义信号的大小。通过使用该信号附近的频谱值获得该信号的权重因数。通过使用当前信号(当前信号的权重因数将被获得)的频率附近的预定数量的频谱值来获得第二ISC选择器154中的权重因数。可通过使用等式1获得该权重因数。

等式1

W_{k} = \frac{| {SC}_{k} |}{Σ_{i = k - len}^{k - 1} | {SC}_{i} | + Σ_{j = k + 1}^{k + len} | {SC}_{j} |}

这里，|SC_k|表示权重因数将被获得的当前信号的大小，|SC_i|和|SC_j|表示当前信号附近的信号的大小。此外，len表示当前信号附近的信号的数量。

基于该信号的峰值和权重因数选择第二ISC。例如，峰值和权重因数的乘积与预定阈值进行比较以仅选择大于该阈值的值作为第二ISC。

第三ISC选择器156对音频信号执行信噪比(SNR)均衡。也就是，该音频信号的频谱分量被分为频带，并且获得这些频带的SNR，在具有低SNR的频带中，峰值大于预定值的频谱分量被选作为一个或多个第三ISC。执行这种操作来防止ISC集中在特定频带上。换句话说，在具有低SNR的频带中选择主要峰值，从而在整个频带中这些频带的SNR近似相等。其结果是，具有低SNR的频带的SNR值增加，从而整个频带的SNR值近似相等。

组成ISC选择单元150的第一ISC选择器152、第二ISC选择器154和第三ISC选择器156可选择性地用于提取具有感知的重要频谱分量(ISC)的音频信号。例如，仅第一ISC选择器152和第二ISC选择器154可被使用。然而，仅第一ISC选择器152和第三ISC选择器156可被使用。否则，所有的第一ISC选择器152、第二ISC选择器154和第三ISC选择器156都可被使用。因此，可从音频信号提取第一ISC、第二ISC和/或第三ISC以被用作ISC，从而在音频信号的所有频谱分量的量化和/或其无损编码中使用提取的ISC压缩音频信号。

图2是示出根据本发明总体发明构思的实施例的提取音频信号的重要频谱分量以按低比特率压缩音频信号的方法的流程图。参照图1和图2，通过使用心理模型计算变换到频域的音频信号的SMR值(操作200)。接下来，通过使用SMR值，在掩蔽阈值低于频域中的音频信号的掩蔽阈值的频谱信号被选作为第一SIC(操作220)。

根据预定权重因数从选作为第一ISC的音频信号提取频谱峰值并将该频谱峰值选作为第二ISC(操作240)。可通过使用当前信号(当前信号的权重因数将被获得)的频率附近的预定频率的频谱值来获得权重因数。操作240可以与前述图1的第二ISC选择器154的操作相同。因此，省略对其的描述。

通过执行SNR均衡选择频率(或频带)的第三ISC(操作260)。也就是，音频信号的频谱分量被分为频带，获得频带的SNR，并且在具有低SNR的频带中，峰值大于预定值的频谱分量被选作为第三ISC。第一ISC、第二ISC和第三ISC可被统称为ISC。如上所述，执行这种操作来防止ISC集中在特定频带上。换句话说，在具有低SNR的频带中选择主要峰值，从而在整个频带中，具有低SNR的频带的SNR近似相等。其结果是，具有低SNR的频带的SNR值增加，从而整个频带的SNR值近似相等。

另一方面，可选择地使用操作220至260中的ISC提取。例如，仅操作200和200可被用于提取ISC。然而，仅操作200和260可用于提取ISC。否则，所有的操作200、240和260可用于提取ISC。

图3是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的示意图。参照图2和图3，例如使用MDCT和MDST将输入的音频信号变换为频谱音频信号，并且根据与可听见信号和听不见信号相应的心理模型的心理特征计算与变换的频谱音频信号相应的信号掩蔽比(SMR)值。可根据SNR值、权重因数(或权重最大值)和/或SNR均衡获得具有第一ISC、第二ISC和/或第三ISC的频谱音频信号。

图4是示出根据本发明总体发明构思的实施例的使用提取音频信号的重要频谱分量的设备的低比特率音频信号编码设备的构造的框图。低比特率音频信号编码设备包括ISC提取器420、量化器440和无损编码器460。低比特率音频信号编码设备还可包括T/F变换单元400。

参照图1和图4，T/F变换单元400通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)将时域音频信号变换为频谱信号(频谱音频信号)。通过使用MDCT和MDST(而不是离散傅立叶变换(DFT))产生输入给ISC提取器420的心理模型的频谱音频信号。通过这样做，MDCT和MDST代表实部和虚部，从而可另外表示音频信号的相位分量。因此，可解决DFT和MDST不匹配的问题。当通过使用经过DFT的时域音频信号量化MDCT的系数时发生不匹配问题。

ISC提取器420从频谱音频信号提取具有ISC的音频信号。ISC提取器420可以与图1的音频信号ISC提取设备相同，因此省略对其的描述。也就是，ISC提取器420包括心理建模单元100和ISC选择单元150来选择具有ISC的音频信号。

量化器440量化ISC的音频信号。如图5所示，量化器440包括分组单元442、量化步长确定单元444和量化器446。

分组单元442根据使用的比特量和量化误差执行分组以最小化附加信息。下面执行对选择的ISC的量化。首先，根据比率失真对选择的ISC执行分组以最小化附加信息。比率失真表示使用的比特量和量化误差之间的关系。使用的比特量和量化误差可交替换位。也就是，如果使用的比特量增加，则量化误差减少。

相反，如果使用的比特量减少，则量化误差增加。选择的ISC被分组，并且分组的成本被计算。执行分组从而降低成本。

各组可以形成为相同，并且可以合并，从而降低频带的成本。此外，如等式2所示，通过将各组所需的比特数和关于比特数的附加信息相加来获得成本。

等式2

成本＝q_bit+附加信息[比特数]

这里，q_bit表示每一组所需的比特数，附加信息包括缩放因数、量化信息等。

当完成分组时，量化步长确定单元444根据SMR和各组的数据分布(动态范围)确定量化步长。此外，采用组成该组的ISC的最大值将该ISC规格化。

量化器446量化组的音频信号。通过使用采用组的ISC的最大值规格化的值和量化步长来确定量化器446。

量化可以是Max-LIoyd量化。

无损编码器460对量化的信号执行无损编码。如图6所示，无损编码器460包括索引单元462和随机模型无损编码器464。无损编码可以是上下文算术编码。

索引单元462产生一个或多个频谱索引以代表构成每一帧的频谱分量。频谱索引指示ISC的存在。通过使用上下文算术编码对ISC的频谱信息编码。更具体地讲，通过代表ISC的选择的频谱索引设置构成每一帧的频谱分量。频谱索引可以是具有代表ISC的存在或不存在的0或1的信号。

随机模型无损编码器464根据与先前帧的相关性和相邻ISC的分布选择随机模型，并且对音频信号的量化值和附加信息(包括量化器信息、量化步长、分组信息和频谱索引信息)执行无损编码。

图7是示出根据本发明总体发明构思的实施例的使用音频信号ISC提取方法的低比特率音频信号编码方法的流程图。

参照图4和图7，通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)来将时域音频信号变换为频谱信号(操作700)。变换的频谱音频信号被输入到心理模型。在心理模型中，计算信号掩蔽比(SMR)以预测频谱音频信号的重要性(操作720)。通过使用SMR值提取ISC(操作740)。该ISC提取可以与图2的ISC提取方法相同，因此省略对其的描述。

在提取ISC之后，执行ISC量化(操作760)。在图8中示出ISC量化的详细操作。参照图8，根据使用的比特量和量化误差之间的关系执行分组以最小化附加信息(操作762)。该分组可以与图5的分组单元442的分组相同，因此省略对其的描述。

在分组之后，根据SMR和各组的数据分布(动态范围)确定量化步长(操作764)。此外，采用ISC的最大值将组成组的ISC规格化。

接下来，通过使用采用组的最大值规格化的值和量化步长确定量化器。

量化可以是Max-LIoyd量化。

参照回图7，在量化之后，执行无损编码(操作780)。通过上下文算术编码对ISC的量化值和频谱信息编码。此外，通过代表ISC的选择的频谱索引设置组成每一帧的频谱分量。频谱索引分别采用0和1代表ISC的存在和不存在。接下来，对频谱索引的值编码。根据与先前帧的相关性和相邻ISC的分布选择随机模型，并且执行无损编码。接下来，对编码值执行比特打包。

图9是示出对使用提取音频信号的重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码设备的框图。低比特率音频信号解码设备包括无损解码器900、逆量化器920和F/T变换单元940。

无损解码器900提取各组的随机模型信息，并且通过使用随机模型信息恢复各组的指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值。

逆量化器920参照恢复的量化器信息、量化步长和分组信息执行逆量化。

F/T变换单元940将逆量化的值变换为时域信号。

图10是示出根据本发明总体发明构思的实施例的对使用提取具有ISC的音频信号的设备编码的低比特率音频信号进行解码的低比特率音频信号解码方法的流程图。将参照图9和图10描述低比特率音频信号解码方法和设备的操作。

首先，通过无损解码器900提取帧的随机模型信息(操作1000)。接下来，通过使用随机模型信息恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值(操作1020)。接下来，由逆量化器920根据恢复的量化器信息、量化步长和分组信息对量化值逆量化(操作1040)。在逆量化之后，通过F/T变换单元940将逆量化的值变换为时域信号(操作1060)。

根据提取具有ISC的音频信号的方法和设备以及使用该方法和设备的低比特率音频信号编码/解码方法和设备，能够有效地对感知重要频谱分量编码以获得低比特率的高声音质量。此外，能够通过使用心理模型提取感知重要分量，无需相位信息执行编码，并且有效地代表低比特率频谱信号。此外，可在需要低比特率音频编码方案的所有应用中和下一代音频方案中应用本发明。

本发明总体发明构思也可实现为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可存储其后由计算机***读取的数据的任何数据存储装置。计算机可读记录介质的例子包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、关学数据存储装置和载波(例如，通过互联网的数据传输)。计算机可读记录介质也可分布在网络连接的计算机***，从而以分布方式存储和执行计算机可读代码。此外，本发明所属领域的编程人员容易解释实现本发明的功能性程序、代码和代码段。

尽管已经显示和描述了本发明总体发明构思的一些实施例，但是本领域的技术人员应该理解，在不脱离本发明总体发明构思的原理和精神的情况下，可以对这些实施例进行改变，在权利要求及其等同物中限定本发明总体发明构思的范围。

Claims

1.一种音频信号编码和/或解码***的方法，该方法包括：

根据心理模型对变换的频谱音频信号计算包括SMR值的感知重要性；

根据计算的感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC；和

根据预定权重因数从选作为所述一个或多个第一ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二ISC。

2.如权利要求1所述的方法，其中，提取频谱峰值作为一个或多个第二ISC的步骤包括：根据权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得权重因数。

3.如权利要求1所述的方法，还包括：

获得与频谱音频信号的频带相应的SNR；和

将具有低SNR的频带中峰值大于预定值的频谱分量选作为将被用于对频谱音频信号编码的一个或多个第三ISC。

4.一种音频信号编码和/或解码***的方法，该方法包括：

获得与具有所述一个或多个第一ISC的频谱音频信号的频带相应的SNR，并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多介另一ISC。

5.一种低比特音频信号编码方法，包括：

根据心理模型对频谱音频信号计算包括SMR值的感知重要性；

根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC；和

根据预定权重因数从具有所述一个或多个第一ISC的频谱音频信号提取频谱峰值，并将该频谱峰值的频率选作为一个或多个第二ISC；和

根据所述一个或多个第一ISC和第二ISC对频谱音频信号执行量化和无损编码。

6.如权利要求5所述的低比特率音频信号编码方法，其中，提取频谱峰值的步骤包括：获得频谱音频信号的频带的SNR，并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个第三ISC。

7.如权利要求5所述的低比特率音频信号编码方法，其中，计算包括频谱音频信号的SMR值的感知重要性的步骤包括：通过使用MDCT和MDST来将时域音频信号变换为频谱音频信号，以产生频谱音频信号。

8.如权利要求5所述的低比特率音频信号编码方法，其中，对频谱音频信号执行量化的步骤包括：

根据使用的比特量和量化误差执行分组以形成多个组，从而最小化附加信息；

根据SMR和所述多个组的动态范围的数据分布确定量化步长；和

通过使用所述多个组的预定量化器对频谱音频信号量化。

9.如权利要求8所述的低比特率音频信号编码方法，其中，对频谱音频信号量化的步骤包括：采用组的最大值规格化的值和量化步长确定量化器。

10.如权利要求8所述的低比特率音频信号编码方法，其中，执行量化的步骤包括：执行Max-LIoyd量化。

11.如权利要求8所述的低比特率音频信号编码方法，其中，对量化的信号执行无损编码的步骤包括：执行上下文算术编码。

12.如权利要求11所述的低比特率音频信号编码方法，其中，执行上下文算术编码的步骤包括：

使用组成频谱音频信号的帧的频谱分量产生一个或多个频谱索引以指示第一ISC和第二ISC中的至少一个的存在；和

根据与先前帧的相关性和相邻ISC的分布选择随机模型，并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。

13.一种低比特率音频信号编码方法，包括：

根据心理模型计算包括频谱音频信号的SMR值的感知重要性；

根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为一个或多个第一ISC；

获得具有第一ISC的频谱音频信号的频带的SNR，并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个另一ISC；和

对具有所述一个或多个第一ISC和另一ISC中的至少一个的频谱音频信号执行量化和无损编码。

14.一种提取音频信号的分量的设备，包括：

心理建模单元，根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性；

第一ISC选择单元，根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC；和

第二ISC选择单元，根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值以选择一个或多个第二ISC。

15.如权利要求14所述的设备，其中，通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得第二ISC选择单元的权重因数。

16.如权利要求14所述的设备，还包括：

第三ISC选择单元，获得频谱音频信号的频带的SNR，并将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个第三ISC。

17.一种提取音频信号的分量的设备，包括：

第一ISC选择单元，使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC；和

另一ISC选择单元，获得与具有所述一个或多个第一ISC的频谱音频信号的频带相应的SNR，并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个另一ISC。

18.一种低比特音频信号编码设备，包括：

第一ISC选择单元，使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；

第二ISC选择单元，根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值以选择第二ISC；

量化器，对与第一ISC和第二ISC相应的频谱音频信号量化；和

无损编码器，对量化的信号执行无损编码。

19.如权利要求18的低比特率音频信号编码设备，还包括：

第三ISC选择单元，获得频谱音频信号的频带的SNR，并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。

20.如权利要求18的低比特率音频信号编码设备，还包括：

T/F变换单元，通过使用MDCT和MDST来将时域音频信号变换为频谱音频信号。

21.如权利要求18的低比特率音频信号编码设备，其中，量化器包括：

分组单元，根据使用的比特量和量化误差对频谱音频信号执行分组以最小化附加信息；

量化步长确定单元，根据SMR和各组的数据分布确定量化步长；和

量化器，通过使用各组的预定量化器对频谱音频信号量化。

22.如权利要求21的低比特率音频信号编码设备，其中，量化器使用Max-LIoyd量化对频谱音频信号量化。

23.如权利要求21的低比特率音频信号编码设备，其中，无损编码器使用上下文算术编码执行无损编码。

24.如权利要求23的低比特率音频信号编码设备，其中，无损编码器包括：

索引单元，使用组成频谱音频信号的帧的频谱分量产生频谱索引以指示第一ISC和第二ISC的存在；和

随机模型无损编码器，根据与先前帧的相关性和相邻ISC的分布选择随机模型，并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。

25.一种低比特率音频信号编码设备，包括：

第一ISC选择单元，使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为第一ISC；

第三ISC选择单元，获得与选作为第一ISC的频谱音频信号中的频带相应的SNR，并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC；

量化器，对具有第一ISC和所述另一ISC的频谱音频信号量化；和

无损编码器，对量化的信号执行无损编码。

26.一种低比特音频信号解码方法，包括：

对音频信号恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值；

根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化；和

将逆量化的信号变换为时域信号。

27.如权利要求26所述的低比特率音频信号解码方法，还包括：

通过使用对音频信号的帧预测的随机模型信息对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。

28.如权利要求26所述的低比特率音频信号解码方法，还包括：

通过使用预定随机模型对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。

29.如权利要求26所述的低比特率音频信号解码方法，恢复ISC的步骤包括：

对ISC解码；和

通过使用指示ISC的存在的索引信息将解码的ISC映射到频谱轴。

30.一种低比特率音频信号解码设备，包括：

无损解码器，提取用于音频信号的帧的随机模型信息，并且通过使用该随机模型信息恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值；

逆量化器，根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化；和

F/T变换单元，将逆量化的信号变换为时域信号。

31.如权利要求30所述的低比特率音频信号解码设备，其中，无损解码器通过使用对音频信号的帧预测的随机模型信息对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。

32.如权利要求30所述的低比特率音频信号解码设备，其中，无损解码器通过使用预定随机模型对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。

33.如权利要求30所述的低比特率音频信号解码设备，其中，无损解码器对ISC解码，并通过使用指示ISC的存在的索引信息将解码的ISC映射到频谱轴。

34.一种实现用于执行以下方法的计算机程序的计算机可读介质，该方法包括：

根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性；

将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC；和

35.一种实现用于执行以下方法的计算机程序的计算机可读介质，该方法包括：

将逆量化的信号变换为时域信号。

36.一种音频信号编码和/或解码***，包括：

编码器，根据频带的SMR值、以及权重因数和SNR中的一个选择具有一个或多个ISC的频谱音频信号，并且根据关于选择的ISC的信息对频谱音频信号编码；和

解码器，根据所述信息对编码频谱音频信号解码。

37.一种音频信号编码和/或解码***，包括：

编码器，根据频谱音频信号的频带的SMR值、以及权重因数和SNR中的一个选择具有一个或多个ISC的频谱音频信号，并且根据关于选择的ISC的信息对频谱音频信号编码。

38.一种音频信号编码和/或解码***，包括：

解码器，根据关于一个或多个ISC的信息对编码的音频信号解码。