CN102089806B

CN102089806B - 噪声填充器、噪声填充参数计算器、用于提供噪声填充参数的方法/用于提供音频信号的填充了噪声的频谱表示的方法

Info

Publication number: CN102089806B
Application number: CN2009801270908A
Authority: CN
Inventors: 尼古拉斯·里特尔博谢; 伯恩哈德·格瑞; 屈扬姆·富克斯; 斯特凡·盖尔斯贝格; 马库斯·马特拉斯; 哈拉尔德·波普; 于尔根·赫勒; 斯特凡·瓦希尼克; 杰拉尔德·舒勒; 延斯·希斯费尔德
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-07-11
Filing date: 2009-06-26
Publication date: 2012-12-05
Anticipated expiration: 2029-06-26
Also published as: ATE535903T1; US20170004839A1; US20110170711A1; KR101706009B1; ES2955669T3; WO2010003556A1; US20110173012A1; AU2009267459A1; US20140236605A1; CA2730536A1; ES2526767T3; US10629215B2; RU2512103C2; KR20140036042A; AU2009267468A1; CA2730361C; PL2304719T3; BRPI0910811A2; TW201007696A; AR072482A1

Abstract

一种用于基于音频信号的输入频谱表示提供该音频信号的填充了噪声的频谱表示的噪声填充器，包括：频谱区识别器，被配置为识别与该输入频谱表示的非零频谱区间隔至少一个中间频谱区的输入频谱表示的频谱区而获得已识别的频谱区；以及噪声***器，被配置为将噪声选择性地引入该已识别的频谱区而获得该音频信号的填充了噪声的频谱表示。一种用于基于音频信号的已量化频谱表示提供噪声填充参数的噪声填充参数计算器，包括：如上所述的频谱区识别器；以及噪声值计算器，被配置为选择性地考虑该已识别的频谱区的量化误差用于该噪声填充参数的计算。相应地，可获得表示该音频信号的已编码音频信号表示。

Description

噪声填充器、噪声填充参数计算器、用于提供噪声填充参数的方法/用于提供音频信号的填充了噪声的频谱表示的方法

技术领域

根据本发明的实施例涉及一种用于基于音频信号的输入频谱表示提供该音频信号的填充了噪声的频谱表示的噪声填充器；一种用于基于音频信号的已量化频谱表示提供噪声填充参数的噪声填充参数计算器；一种表示音频信号的编码音频信号表示；一种用于提供音频信号的填充了噪声的频谱表示的方法；一种用于基于音频信号的已量化频谱表示提供噪声填充参数的方法；及用于实施所述方法的计算机程序。

背景技术

后文将说明若干情形，其中可有优势地应用根据本发明的实施例。许多频域音频信号编码器是基于下述构想：某些频率区或频谱区(例如由时域至频域变换所提供的频率线或频谱线)比其它频谱区更重要。相应地，典型地，与较低频谱声学相关的频谱区相比，以更高的精度对高心理声学相关的频谱区进行编码。不同频谱区的心理声学关可例如使用心理声学模型来计算，该模型考虑由相邻强频谱峰遮蔽较弱的频谱区。

若期望将已编码音频信号的比特率降低至低水平，以极低精度(例如只有一位精度或二位精度)量化某些频谱区。相应地，以低精度量化的多个频谱区被量化至零。如此，在低比特率下，基于变换的音频编码器容易出现不同的伪信号，特别是源自于零量化的频率线的伪信号。确实，在低比特率音频编码中对频谱值的粗糙量化可能导致在逆量化后极为稀疏的频谱，其原因在于许多频谱线可能被量化为零。这些重构信号中的频谱孔洞产生非期望的声音伪信号。当频谱中的频谱孔洞在帧间移动时，可能造成重现的声音极为尖锐或不稳定(唧啾声)。

噪声填充是通过在解码器侧用随机噪声填充零量化系数或频带来遮蔽这些伪信号的手段。所***的噪声能量是由编码器计算及发送的参数。

已知不同的噪声填充构思。例如，如参考文献[1]中描述的，所谓的AMR-WB+组合了噪声填充及离散傅立叶变换(DFT)。此外，国际标准ITU-T G.729.1定义了组合噪声填充及修改型离散余弦变换(MDCT)的构思。具体细节说明于参考文献[2]。

有关噪声填充的额外方面说明于Koninklijke的国际专利申请PCT/IB2002/001388(飞利浦电子公司(Philips Electronics N.V.))(参考参考文献[3])。

虽然如此，传统的噪声填充构思导致听觉失真。

鉴于此讨论，期望创造一种可提供改良型听觉印象的噪声填充构思。

发明内容

根据本发明的实施例创造了一种用于基于音频信号的输入频谱表示提供该音频信号的填充了噪声的频谱表示的噪声填充器。该噪声填充器包含频谱区识别器，被配置为识别与输入频谱表示的非零频谱区(例如频谱线或频谱仓(spectral bins))间隔至少一个中间频谱区的该输入频谱表示的频谱区(例如频谱线或频谱仓)而获得已识别的频谱区。噪声填充器还包含噪声***器，被配置为选择性地将噪声引入已识别的频谱区(例如频谱线或频谱仓)而获得该音频信号的填充了噪声的频谱表示。

本发明的实施例基于以下发现：若噪声填充应用于音频信号的频谱表示的音调组分的紧邻，则就听觉印象而言，该音调组分典型地将会降级。相应地，发现若噪声填充只应用于与此种音调非零频谱区间隔开的频谱区，则可获得填充了噪声的音频信号的改良型听觉印象。相应地，音频信号频谱的音调组分(在输入该噪声填充器的已量化频谱表示中非量化至零的组分)维持可听闻(亦即不会被紧邻的噪声所污染)，而仍可有效避免大的频谱孔洞的存在。

在优选实施例中，频谱区识别器被配置为识别输入频谱表示的频谱线，所述频谱线被量化为零并且包含至少第一预定数目的量化为零的较低频邻近频谱线及至少第二预定数目的量化为零的较高频邻近频谱线作为已识别的频谱区，其中该第一预定数目大于或等于1，并且该第二预定数目大于或等于1。在本实施例中，噪声***器被配置为将噪声选择性地引入已识别的频谱线，同时使量化至非零值的频谱线及量化为零的频谱线(但不包含第一预定数目的量化为零的较低频邻近频谱线或第二预定数目的量化为零的较高频邻近频谱线)未受噪声填充影响。如此，噪声填充为选择性的，使得噪声只引入于被量化为零的频谱线，且沿向上的频谱方向及向下的频谱方向，与量化为非零值的频谱线例如间隔第一预定数目的量化为零的较低频邻近频谱线及第二预定数目的量化为零的较高频邻近频谱线。

在优选实施例中，第一预定数目等于第二预定数目，使得沿由量化为非零值的线向上的频率方向的最小间隔等于沿由量化为非零值的线向下的频率方向的最小间隔。

在优选实施例中，噪声填充器被配置为将噪声只引入音频信号的频谱表示的上部的频谱区，而使音频信号的频谱表示的下部不受噪声填充影响。此种构思是有用的，其原因在于通常较高频于感知重要性上次于低频。此外，零量化值大部分出现于频谱的第二半(亦即高频)。同时添加高频噪声较不易获得最终杂音回复。

在优选实施例中，频谱区识别器被配置为对给定频谱区的预定双边频谱邻近(亦即延展至较低频及较高频的频谱邻近)的频谱区的量化强度值(例如能量值或振幅值)求和来获得和值；以及评估该和值来判定该给定频谱区是否为已识别的频谱区。已发现，给定频谱区的双边频谱邻近上的已量化频谱的能量的和值为判定噪声填充是否应应用至该给定频谱区的有意义的量。

在另一个实施例中，该频谱区识别器被配置为扫描输入频谱表示的频谱区范围以检测量化为零的频谱区的连续序列，且辨识此种所检测的连续序列的一个或多个中心频谱区(亦即非边界频谱区)，作为已识别的频谱区。

已发现，对被量化为零的频谱区的特定“游程长度”的检测为可以特低运算复杂度实施的任务。为了识别此种频谱区的连续序列，可判定在此频谱区序列中的全部频谱区是否皆量化为零，这可使用相对简单的算法或电路来实施。若发现此种频谱区的连续序列被量化为零，则序列的内部频谱区中的一个或多个(距本频谱区序列外侧频谱区的间隔够远)被当作已识别的频谱区。如此，通过扫描频谱区范围(例如通过随后选择不同移位的频谱区序列)，可以对频谱表示进行高效分析，来识别被量化为零且与量化为非零值的频谱区间隔预定最小距离的频谱区。

根据本发明的另一实施例创造了用于基于音频信号的已量化频谱表示，提供噪声填充参数的噪声填充参数计算器。该噪声填充参数计算器包含频谱区识别器，被配置为识别与该已量化频谱表示的非零频谱区间隔至少一个中间频谱区的该已量化频谱表示的频谱区，以获得已识别的频谱区。该噪声填充参数计算器还包含噪声值计算器，被配置为针对噪声填充参数的计算，选择性地考虑已识别的频谱区的量化误差。噪声填充参数计算器基于下述关键构思：期望将解码器侧的噪声填充限于与音调频谱区(量化至非零值)隔开的频谱区；以及结果，考虑此种构思，须在编码器侧计算噪声参数。相应地，获得特别适合前述解码器构思的噪声填充参数。还发现：被量化为零但极为接近量化为非零值的频谱区的频谱区通常并未反映真正类似噪声的音频内容，反而与相邻的音调(量化至非零值)频谱区强相关。相应地，已发现：对于噪声填充参数的计算，一般不期望考虑临近量化为非零值的频谱区的频谱区的量化误差，其原因在于如此典型地导致噪声的强烈超估，因而导致过多噪声的重构的频谱表示。

如此，此处所述的噪声填充参数计算构思可与前述噪声填充构思结合使用，甚至与传统噪声填充构思结合使用。

在优选实施例中，已经就噪声填充器讨论的频谱区识别构思还能够与噪声填充参数计算器结合应用。

在又一优选实施例中，噪声值计算器被配置为考虑已识别的频谱区的量化误差的实际能量，用于噪声填充参数的计算。已发现：考虑实际量化误差(而非考虑估计的量化误差或平均量化误差)典型地获得改良的结果，其原因在于实际量化误差典型地偏离统计上的期望量化误差。

在又一优选实施例中，噪声值计算器被配置为关于集中于单个频谱区的音调量化误差能量，强调分布在多个已识别频谱区上的非音调量化误差能量。此种构思基于以下发现：其平均能量低于量化阈值因而被量化为零的非音调宽带噪声与其强度低于量化阈值的单个音调音频组分相比，对于该噪声填充器在感知上远为相关得多，即使量化为零的非音调宽带噪声及量化为零的音调组分二者皆被量化为零亦如此。原因在于，通过在解码器处产生随机噪声的噪声填充器可以对遗漏该已量化频谱表示中的非音调宽带噪声但不遗漏音调组分进行建模。如此，相对于量化为零的音调组分，强调量化为零的非音调噪声组分获得更理想的声音重构。这还由于以下事实：与因不存在量化为零的小频谱尖峰，人类听觉印象因频谱孔洞的存在(例如，具有不存在量化为零的宽带噪声的形式)而造成的降级远远大得多。音调组分可集中于单个频谱线，或可扩展在数条连续的线(例如i-1、i、i+1)上。频谱区例如可以包含一条或多条频谱线。

在优选实施例中，噪声值计算器被配置为计算该已识别的频谱区的对数量化误差能量的和而获得噪声填充参数。通过计算该已识别的频谱区的对数量化误差能量的和，可以高效地方式获得如前文说明的相对于量化为零的音调区，相对强调量化为零的非音调频谱区。

根据本发明的另一实施例创造了用于表示音频信号的已编码音频信号表示。已编码音频信号表示包含该音频信号的已编码已量化的频谱域表示及已编码的噪声填充参数。该噪声填充参数表示量化为零且与量化至非零值的该频谱域表示的频谱区间隔至少预定数目的中间频谱区的该频谱域表示的频谱区的量化误差。前述已编码音频信号表示可由前文讨论的噪声填充器使用，并且可使用如前文讨论的噪声填充参数计算器获得。已编码音频信号表示允许以特佳音频质量重构该音频信号，其原因在于该噪声填充参数选择性地反映出其中存在有意义的噪声信息的此种频谱区的已量化频谱域表示的量化误差，且该量化误差对于解码器侧的噪声填充也须选择性地加以考虑。

根据本发明的另一个实施例创造了一种用于提供音频信号的填充了噪声的表示的方法。

根据本发明的又一个实施例创造了一种基于音频信号的已量化频谱表示提供噪声填充参数的方法。

根据本发明的又一个实施例创造了用于实施前述方法的计算机程序。

附图说明

随后将参考附图说明根据本发明的实施例，附图中：

图1示出了根据本发明的实施例的噪声填充器的示意框图；

图2示出了包含根据本发明的噪声填充器的音频信号解码器的示意框图；

图3示出了用于实施图1的噪声填充器的功能的伪程序代码；

图4示出了可在根据图1的噪声填充器进行的频谱区识别的图形表示；

图5示出了根据本发明的实施例的噪声填充参数计算器的示意框图；

图6示出了用于实施根据图5的噪声填充参数计算器的功能的伪程序代码；

图7示出了用于基于音频信号的输入频谱表示，提供音频信号的填充了噪声的频谱表示的方法的流程图；

图8示出了用于基于音频信号的量化频谱表示提供噪声化填充参数的流程图；及

图9示出了根据本发明的实施例的音频信号表示的图形表示。

具体实施方式

根据图1-4的噪声填充器

图1示出了根据本发明的实施例的噪声填充器100的示意框图。噪声填充器100被配置为接收音频信号的输入频谱表示110，该表示例如具有已解码频谱系数(例如可以进行了量化或逆量化)的形式。噪声填充器100还被配置为基于输入频谱表示110提供该音频信号的填充了噪声的频谱表示112。

噪声填充器100包含频谱区识别器120，其被配置为识别与输入频谱表示110的非零频谱区间隔至少一个中间频谱区的该输入频谱表示110的频谱区，而获得指示该已识别的频谱区的信息122。噪声填充器100还包含噪声***器130，其被配置为将噪声选择性地引入已识别的频谱区(以信息122描述)，而获得该音频信号的填充了噪声的频谱表示112。

有关噪声填充器100的功能，通常可以说噪声填充器100以噪声选择性地填充输入频谱表示110的频谱区(例如频谱线或频谱仓)，例如通过描述噪声的置换频谱值来替换被量化为零的频谱线的频谱值。藉此方式，可填充输入频谱表示110内的频谱孔洞或频谱间隙，该孔洞或间隙可能是由输入频谱表示110的粗糙量化引起的。但噪声填充器100并未将噪声引入量化为零的全部频谱线(即，其频谱值被量化为零的频谱线)。相反，噪声填充器100只将噪声引入包含距量化为非零值的任何频谱线有足够距离的此种量化为零的频谱线。藉此方式，噪声填充并未完全填充频谱孔洞或频谱间隙，反而在其中引入噪声的那些频谱线与量化为非零值的频谱线间维持至少一个频谱区的频谱距离(或至少任何其他预定数目的频谱区的频谱距离)。如此，维持引入频谱表示的填充噪声与量化至非零值的频谱线间的频谱距离，使得(由于预定数目的一个或多个频谱区的频谱距离)可清晰区分心理声学相关频谱线(在音频信号的输入频谱表示中未量化为零)与由噪声填充器引入频谱的填充噪声。相应地，可清晰感知心理声学上最相关的音频内容(在输入频谱表示110中以非零频谱线值表示)，同时避免大的频谱孔洞。其原因在于，在被量化为非零值的输入频谱表示的频谱线附近选择性地省去噪声填充，而在频谱孔洞或频谱间隙的中央区执行噪声填充。

后文将参考图2说明噪声填充器100的应用环境。图2示出了根据本发明的实施例的音频信号解码器200的示意框图。音频信号解码器200包含噪声填充器100作为关键组件。音频信号解码器200还包含频谱系数解码器210，其被配置为接收已编码音频信号表示212及提供该已编码音频信号的频谱系数的已解码(选择性地经逆量化)的表示214。频谱系数解码器210例如可包含熵解码器(例如算术解码器或游程长度解码器)及选择性地包含逆量化器来由该已编码的音频信号表示212导出频谱系数的已解码表示214(例如具有逆量化系数的形式)。噪声填充器100被配置为接收频谱系数的已解码表示214(选择性地可经逆量化)，作为该音频信号的输入频谱表示110。

音频信号解码器200还包含噪声因子提取器220，其被配置为由该已编码的音频信号表示212提取噪声因子信息222，且将该已提取的噪声因子信息222提供给噪声填充器100。音频信号解码器200还包含频谱整形器230，其被配置为从噪声填充器100接收已重构的频谱表示232。已重构的频谱表示232例如可以是等于由噪声填充器所提供的填充了噪声的频谱表示112。频谱整形器230可视为可选的，被配置为基于已重构的频谱表示232而提供频谱信息234。音频信号解码器200进一步包含频谱域至时域变换器240，其接收由频谱整形器230所提供的频谱表示234，或在不存在频谱整形器230的情况下，接收已重构的频谱表示232；以及基于此提供时域音频信号表示242。频谱域至时域变换器240例如可被配置为执行逆修改型离散余弦变换(IMDCT)。

在优选实施例中，解码器侧的噪声填充包括下列步骤(或遵循其次步骤)：

1.解码本底噪声(noise floor)；

2.解码频率线的已量化值；

3.在频谱的选定部分中检测频谱区，其中，零的游程长度高于最小游程长度大小；及

4.对于选定区内部的各条线，将随机产生的符号应用于已解码的本底噪声。

本底噪声解码如下：

nf_decoded＝0.0625*(8-index)

所检测的频谱区例如是以与在编码器侧相同的方式选择的(容后详述)。

在MDCT域中的无记忆高斯噪声是由对全部线皆有相同振幅但具有随机符号的频谱产生的。如此，对选定区内部的各线，解码器产生随机符号(-1或+1)且将其应用至已解码的本底噪声。但其它提供噪声贡献的方法也适用。

后文中将参考第1、2、3及图4说明若干细节，其中图3示出了可由噪声填充器100执行的用于在解码器侧噪声填充的算法的伪程序代码，及其中图4示出了噪声填充的图形表示。

首先，由噪声因子提取器220执行本底噪声的解码，噪声因子提取器220例如接收噪声因子索引(也简写为(“索引”)，基于此提供已解码噪声因子值222(也标示为“nf_decoded”)。噪声因子索引例如可使用三位或四位编码，例如可为0至7的范围的整数值或0至15的范围的整数值。

频率线(也称作为“频谱线”或“频谱仓”)的量化值可由频谱系数解码器210提供。相应地，获得已量化的(或选择性地，已逆量化的)频谱线值(也称作为“频谱系数”)，标示为“已量化(x(i))”。此处i表示频谱线值的频率索引。

随后，由噪声填充器100检测在频谱的选定部分(例如始于预定频谱线频率索引i的频谱上部)中的频谱区，此处零的游程长度(亦即量化为零的已量化频谱线值)高于最小游程长度大小。此种频谱区的检测是由图3的算法300的第一部分310执行的。如由算法300的第一部分310可见，所检测的区域的集合R于算法起点被初始化空集(R＝{}；)。

在图3的算法示例中，最小游程长度被设定为8的固定值，当然也可选用任何其它数值。

随后，对所考虑的多个频谱线(标示为游程变量“线索引”)，确定所考虑的各条频谱线是否包含量化至零的频谱线的双边环境(及所考虑的频谱线是否本身量化为零)。举例而言，在频谱的第二半部分中的全部频谱线随后皆被看作所考虑的频谱线，其中目前正在考虑的线标示为频率索引“线索引”。对标示为“线索引”的所考虑的线，运算由“线索引-(最小游程长度)/2”的频谱线频率索引至“线索引+最小游程长度)/2”的频谱线频率索引的范围环境中的已量化的频谱系数“量化(x(i))”的和。若发现在目前正在考虑的频谱线(具有频谱线频率索引“线索引”)的所述环境中的频谱线值的和为零，则目前正在考虑的频谱线(或更精确而言，其频谱线频率索引“线索引”)加至所检测的区域的集合R(或所检测的频谱线)。结果，若频谱线的频谱线频率索引加至集合R，表示具有“线索引-(最小游程长度)/2”至“线索引+(最小游程长度)/2”间的线索引的频谱线全部皆包含量化为零的频谱线值。

相应地，在伪程序代码310的第一部分310中，获得频谱线频率索引“线索引”的集合R，集合R枚举了所考虑的频谱部分的那些(且只有那些)与量化至非零值的任何频谱线“充分”隔开(亦即间隔至少最小游程长度/2条线)的频谱线。

此区的检测示意于于图4，图4示出了频谱的图形表示400。横坐标410以频谱线频率索引“线索引”描述频谱线的频率。纵坐标412描述频谱线的强度(亦即振幅或能量)。如此可见，图形表示400中示意的频谱的部分包含量化至非零值的四条频谱线420a、420b、420c、及420d。此外，频谱线420c与420d间有11条量化为零的频谱线422a-422k。进一步，假设：如果目前正在考虑的频谱线与量化至非零值的任何其它频谱线间有至少四条量化为零的频谱线(及当然，若目前正在考虑的频谱线本身被量化为零)，该频谱线才被认为与量化为非零值的频谱线充分间隔。但当考虑频谱线422a时，将发现频谱线422a紧邻于未量化为零的频谱线422c，故频谱线422a的频谱线频率索引根据算法300的第一部分310将不会构成所运算的集合R的一部分。同理，将发现频谱线422b、422c及422d与量化至非零值的任何频谱线并未间隔得足够远，使得频谱线422b至422d的频谱线频率索引也非为集合R的一部分。相反地，将认识到频谱线422e与任何量化为非零值的频谱线间隔得足够远，这是由于频谱线422e为9条全部量化为零的连续频谱线的序列的中心线(或更通常为中线)。相应地，频谱线422e的频谱线频率索引将为在算法300的第一部分310中运算的集合R的一部分。频谱线422f及422g亦如此，使得频谱线422f及422g的频谱线频率索引将成为在算法300的第一部分310中确定的集合R的一部分，这是由于频谱线422f、422g与量化为非零值的较低频频谱线420a、420b、及420c间隔得足够远，且与量化为非零值的任何较高频频谱线间隔得足够远。另一方面，频谱线422h、422i、422j、及422k将不属于集合R的一部分，这是由于就频率而言所述频谱线太过接近量化为非零值的频谱线420d。

相应地，集合R将不包含频谱线420a、420b、420c、420d的频谱线频率索引，这是由于所述频谱线被量化为非零值。此外，频谱线422a、422b、422c、422d、422h、422i、422j、及422k的频谱线频率索引将不构成集合R的一部分，这是由于所述频谱线太过接近频谱线420a、420b、420c、及420d。相反地，频谱线422e、422f、422g的频谱线频率索引将包括于集合R，这是由于所述频谱线本身被量化为零，且与任何相邻的非零频谱线间隔得足够远。

算法300还包含解码本底噪声的第二部分320，其中噪声值索引(程序代码部分320中的“索引”)被变换成已解码的噪声因数值(程序代码300中的“nf_decoded”)。

程序代码300还包含用噪声填充已识别的频谱线(亦即其频谱线频率索引i在集合R中的频谱线)的第三部分330。用于此项目的，已识别的频谱线的频谱值(例如以x(i)标示，其中游程变量i随后取集合R所包括的全部频谱线频率索引)被设定为噪声填充值。噪声填充值例如是通过将已解码的噪声填充值(nf_decoded)乘以随机数或伪随机数(标示为“random(-1，+1)”)获得的，其中随机数或伪随机数例如可随机或伪随机地取数-1及+1。但当然随机噪声或伪随机噪声不同供应也是可以的。

噪声填充也示意于图4。如图4可见，以噪声填充值替换(图4中以虚线表示)频谱线422e、422f、及422g的零频谱值。

根据图5及图6的噪声填充参数计算器

图5示出了噪声填充参数计算器500的示意框图。噪声填充参数计算器500被配置为获得音频信号的已量化频谱表示510，以及基于该表示而提供噪声填充参数512。噪声填充参数计算器500包含频谱区识别器520，其被配置为接收音频信号的已量化频谱表示510，且识别与已量化频谱表示510的非零频谱区间隔至少一个中间频谱区(例如频谱线)的已量化频谱表示510的频谱区(例如频谱线)，来获得描述已识别的频谱区(例如已识别的频谱线)的信息522。噪声填充参数计算器500进一步包含噪声值计算器530，被配置为接收量化误差信息532及提供噪声填充参数512。用于此项目的，噪声值计算器被配置为选择性地考虑由信息522描述的用于计算噪声填充参数512的已识别的频谱区的量化误差。

量化误差信息532例如可与描述已量化频谱表示510中被量化为零的那些频谱线的能量(或强度)的能量信息(或强度信息)相同。

噪声填充参数计算器500可以选择性地包含量化器540，被配置为接收音频信号的未经量化的频谱表示542，和提供音频信号的已量化频谱表示510。量化器540可具有可调整的量化分辨率，例如可以是每条频谱线个别调整或每个频带个别调整(例如取决于使用心理声学模型获得的频谱线或频谱带的心理声学相关)。可变分辨率量化器的功能可等于国际标准ISO/IEC 13818-7及ISO/IEC 14496-3中说明的功能。特定而言，量化器540可被调整为：音频信号的量化频谱表示510中有频谱间隙或频谱孔洞，亦即被量化为零的相邻频谱线的连续区。

此外，未经量化的频谱表示542可用作量化误差信息532，或量化误差信息532可由未经量化的频谱表示542导出。

后文将详细说明可由噪声填充参数计算器500执行的噪声填充参数运算功能。在编码器侧的噪声填充参数运算中，噪声填充优选地应用于量化域。藉此方式，随后由心理声学相关的逆滤波器成形所引入的噪声。于编码器侧，遵照下列步骤计算和编码由解码器所引入的噪声能量：

1.获得频率线的已量化值；

2.只选择部分频谱；

3.在频谱的选定部分中检测频谱区，其中，零的游程长度高于最小游程长度大小；

4.对先前检测的频谱区计算量化误差的几何平均；及

5.以3位均匀量化该几何平均。

有关第一步骤，频谱线的已量化值可使用量化器540来获得。因此，频谱线的已量化值是由已量化频谱表示510表示的。

有关第二步骤，第二步骤被视为可选的，须注意噪声填充的运算优选地是基于频谱的高频部分执行的。在优选实施例中，只对频谱的第二半部分亦即对高频(而非对低频)计算噪声能量(称作为本底噪声)。确实，通常高频(频谱上部)于感知重要性上次于低频，零量化值大部分出现于频谱的第二半部分。此外，添加高频噪声较不容易获得最终杂音回复。

有关第三步骤，通过限制在出现零量化值游程长度的频谱区上的噪声填充，避免噪声填充过度影响非零值。藉此方式，噪声填充并未应用于非零值邻近，这些线的原始音调得到更好地保留。在优选实施例中，最小游程长度大小固定为8。表示一个非零值附近的8条线不受噪声填充影响(因此，不考虑用于噪声值的计算)。

有关第四步骤，在已量化域中的量化误差位于[-0.5；0.5]的范围内，且假设为均匀分布。所检测的区域的量化误差能量为对数域中的平均值(亦即几何平均)。然后，本底噪声nf计算如下：

nf＝power(10，sum(log10(E(x(i))))/(2*n))

上式中，sum()为所检测的区域内部个别线x(i)的对数能量log10(E())的和，n为这些区内的线数目。本底噪声nf为0至0.5。此种计算允许将零化值的原始频谱平坦度列入考虑，然后获得有关其音调/噪声特性的信息。

若零化值极为有调性，则本底噪声(于装置500运算)将朝向零而去，在解码器(例如于前述解码器100、200)处将加上低本底噪声。若零化值实际上有噪声，则本底噪声将高，噪声填充可视为零化频谱线的高度参数编码，类似PNS(感知噪声取代)(也参见参考文献[4])。

有关第五步骤，本底噪声的量化索引(“索引”)计算如下：

index＝max(0，min(7，int(8-16*nf)))。

索引例如以3位传送。

后文中将参考第6图说明运算噪声填充参数的算法，图6示出了根据本发明的实施例，用于获得噪声填充参数的此种算法的伪程序代码600。算法600包含检测运算噪声填充参数须考虑的区的第一部分610。已识别区(例如频谱线)以集合R描述，例如可包含已识别频谱线的频谱线频率索引(“线索引”)。可识别本身被量化为零且与被量化为非零值的任何其它频谱线间隔得充分远的频谱线。

程序600的第一部分610可以与程序300的第一部分310相同。相应地，用于算法600的已量化频谱表示(“已量化(x(i))”)可与解码器侧用于算法300的已量化频谱表示(“已量化(x(i))”)相同。换言之，用于编码器侧的已量化频谱表示可以编码形式传送至包含编码器及解码器的传送***中的解码器。

算法600包含运算本底噪声的第二部分620。于本底噪声的运算中，只考虑由算法600的第一部分610中运算的集合R描述的那些频谱区(或频谱线)。可见，噪声填充值nf首先被初始化为零。所考虑的频谱线数目(n)也被初始化为零。随后，对线索引包括于集合R的全部频谱线的能量进行求和，其中在对频谱线的能量进行求和前进行对数化。例如可对频谱线能量(E(x(i)))的以10为底的对数(log10)进行求和。须注意，量化前频谱线的实际能量(以“E或能量(x(i))”表示)是以对数化形式求和的。还计算所考虑的频谱线的数目。如此，在执行算法600的第二部分620后，变量nf指示量化前已识别的频谱线的能量的对数和，变量n描述已识别的频谱线的数目。

算法600还包含量化值nf(亦即已识别的频谱线的对数和)的第三部分630。可使用如前文说明或如第6图所示的映射方程。

根据第7图的方法

图7示出了用于基于音频信号的输入频谱表示，提供音频信号的填充了噪声的频谱表示的方法的流程图。图7的方法700包含步骤710，识别与音频信号的输入频谱表示间隔至少一个中间频谱区的该输入频谱表示的频谱区，来获得已识别的频谱区。方法700还包含步骤720，将噪声选择性地引入已识别的频谱区，来获得音频信号的填充了噪声的频谱表示。

方法700可由此处参考本发明的噪声填充器的任何特征及功能补充。

根据图8的方法

图8示出了用于基于音频信号的已量化频谱表示提供噪声填充参数的方法的流程图。方法800包含步骤810，识别与音频信号的量化频谱表示间隔至少一个中间频谱区的该量化频谱表示的频谱区，来获得已识别的频谱区。方法800还包含步骤820，选择性地考虑已识别的频谱区的量化误差用于填充参数的计算。

方法800可由此处关于噪声填充参数计算器的任何特征及功能补充。

根据图9的音频信号表示

图9示出了根据本发明的实施例的音频信号表示的图形表示。音频信号表示900例如可形成输入频谱表示110的基础。音频信号表示900也可以接管已编码音频信号表示212的功能。音频信号表示900可使用噪声填充参数计算器500来获得，其中音频信号表示900可以例如包含音频信号的已量化频谱表示510及噪声填充参数512，例如二者皆呈编码形式。

换言之，已编码的音频信号表示900可表示音频信号。已编码的音频信号表示900包含音频信号的已编码已量化的频谱域表示，也包含已编码的噪声填充参数。该噪声填充参数表示频谱域表示的量化为零的且与量化为非零的频谱域表示的频谱区间隔至少一个中间频谱区的频谱区的量化误差。

当然音频信号表示900可由前述任何信息补充。

可替换实施

依据某些实施要求，本发明的实施例可用硬件或软件实施。该实施可使用数字储存媒体来实现，例如软盘、DVD、CD、ROM、PROM、EPROM、 EEPROM或FLASH内存，其上存储有可电子式读取的控制信号，且与可编程计算机***协作(或能够与可编程计算机***协作)从而执行相应方法。

根据本发明的若干实施例包含具有可电子式读取的控制信号的数据载体，所述信号可与可编程计算机***协作，从而执行此处所述的方法之一。

通常，本发明的实施例可以被实施为具有程序代码的计算机程序产品，该程序代码可操作用于当该计算机程序产品运行于计算机上时执行所述方法之一。

该程序代码例如可储存于机器可读载体上。

其它实施例包含储存于机器可读载体上的用于执行此处所述方法之一的计算机程序。

换言之，因此，本发明方法的一实施例为计算机程序，其具有程序代码，当该计算机程序运行于计算机上时该程序代码用于执行此处所述的方法之一。

因此，本发明方法的又一实施例为数据载体(或数字储存介质)包含可用于执行此处所述方法之一的计算机程序。

因此，本发明方法的又一实施例为数据流或信号序列，表示用于执行此处所述方法之一的计算机程序。数据流或信号序列例如可配置为经由数据通信连接(例如因特网)传输。

又一实施例包含被配置为或适于执行此处所述方法之一的一种处理装置，例如计算机或可编程逻辑装置。

又一实施例包含计算机，其上安装有用于执行此处所述方法之一的计算机程序。

在若干实施例中，可编程逻辑装置(例如现场可编程门阵列)可用来执行此处所述方法的部分或全部功能。在若干实施例中，现场可编程门阵列可与微处理器协作来执行此处所述方法之一。

结论

综上所述，当在编码器侧运算噪声填充参数，及在解码器侧施加噪声时，通过考虑输入信号特性及已解码信号特性，本发明强化了音频编码工具“噪声填充”。在本发明的实施例中，估计零量化频谱线的调性/噪声度，并将其用于估计本底噪声。然后，将此本底噪声传送至解码器，解码器将该噪声填充应用至出现于频谱的特定区的零量化值。这些区域是基于已解码频谱的特性选定的。

有关本发明的上下文，注意本发明应用于在MDCT上使用标量量化的基于转换的编码。MDCT系数先前是通过基于感知线索计算的曲线规格化的。通过如同于AMR-WB+的TCX模式(参考参考文献[1])下进行的对LPC系数进行加权，由先前的LPC(线性预测编码)分析阶段推断该曲线。由已加权系数，设计感知加权滤波器并于MDCT前应用该感知加权滤波器。还在逆MDCT后，在解码器侧应用逆滤波器。该逆感知加权滤波器对量化噪声进行成型，使得其最小化或遮蔽所感知的噪声。

在根据本发明的实施例中，克服了现有技术的缺陷。传统上，只考虑基于频谱包络的阈值、遮蔽阈值、或能量阈值，以***化性方式对零量化值应用噪声填充。现有技术既未考虑输入信号特性，也未考虑已解码信号特性。如此，传统装置可引入非期望的额外伪信号(特别地，噪声伪信号)而抵消此种工具的优点。

相反地，根据本发明的实施例允许如前文讨论的具有减少的伪信号的改良式噪声填充。

参考文献：

[1]“Extended Adaptive Multi-Rate-Wideband(AMR-WB+)codec”，3GPP TS 26.290 V6.3.0，2005-06，Technical Specification

[2]Ragot et al，“ITU-T G.729.1：AN 8-32Kbit/S Scalable Coder Interoperable with G.729 for Wideband Telephony and Voice Over IP”，Vol.4，ICASSP 07，15-20 April 2007

[3]“AUDIO CODING”，International Application No.：PCT/IB2002/001388，Applicant：KONINKLIJKE PHILIPS ELECTRONICS N.V.[NL/NL]；Groenewoudseweg 1 NL-5621 BA Eindhoven(NL).Inventors：TAORI，Rakesh；Prof Holstlaan 6 NL-5656 AA Eindhoven(NL)and VAN DE PAR，Steven，L.，J.，D.，E.；Prof.Holstlaan 6 NL-5656 AA Eindhoven(NL).

[4]Generic Coding of Moving Pictures and Associated Audio：Advanced Audio Coding.International Standard 13818-7，ISO/IECJTC1/SC29/WG11 Moving Pictures Expert Group，1997.

Claims

1.一种用于基于音频信号的输入频谱表示(110)提供该音频信号的填充了噪声的频谱表示(112)的噪声填充器(100)，该噪声填充器包括：

频谱区识别器(120)，被配置为识别量化为零并且与输入频谱表示(110)的非零频谱区(420a、420b、420c、420d)间隔至少一个中间频谱区(422a、422b、422c、422d、422h、422i、422j、422k)的输入频谱表示(110)的频谱区(422e、422f、422g)，而获得已识别的频谱区(422e、422f、422g)；以及

噪声***器(130)，被配置为将噪声选择性地引入已识别的频谱区(422e、422f、422g)，而获得音频信号的填充了噪声的频谱表示(112)。

2.根据权利要求1所述的噪声填充器(100)，其中频谱区识别器(120)被配置为识别输入频谱表示(110)的频谱线(422e、422f、422g)作为已识别的频谱区，所述频谱线被量化为零，并且包含至少第一预定数目的量化为零的较低频邻近频谱线及至少第二预定数目的量化为零的较高频邻近频谱线作为已识别的频谱区；

其中第一预定数目大于或等于1，并且第二预定数目大于或等于1；以及

其中噪声***器(130)被配置为将噪声选择性地引入已识别的频谱线(422e、422f、422g)，同时使量化为非零值的频谱线(420a、420b、420c、420d)及量化为零的但不包含第一预定数目的量化为零的较低频邻近频谱线或第二预定数目的量化为零的较高频邻近频谱线的频谱线，不受噪声填充影响。

3.根据权利要求2所述的噪声填充器(100)，其中第一预定数目等于第二预定数目。

4.根据权利要求1所述的噪声填充器(100)，其中该噪声填充器被配置为：将噪声只引入音频信号的输入频谱表示(110)高频部分中的频谱区，而使该音频信号的输入频谱表示(110)的低频部分不受噪声填充影响。

5.根据权利要求1所述的噪声填充器(100)，其中频谱区识别器(120)被配置为：对给定频谱区(i)的预定双边频谱邻近中的频谱区的已量化强度值求和，以获得和值(E)；以及评估该和值(E)以判定该给定频谱区(i)是否为已识别的频谱区。

6.根据权利要求1所述的噪声填充器(100)，其中频谱区识别器(120)被配置为：扫描输入频谱表示(110)的频谱区范围，以检测量化为零的频谱区的连续序列；以及辨识所检测的连续序列的一个或多个中央频谱区(422e、422f、422g)，作为已识别的频谱区。

7.一种用于基于音频信号的已量化频谱表示(510)提供噪声填充参数(512)的噪声填充参数计算器(500)，该噪声填充参数计算器包括：

频谱区识别器(520)，被配置为识别与已量化频谱表示(510)的非零频谱区(420a、420b、420c、420d)间隔至少一个中间频谱区(422a、422b、422c、422d、422h、422i、422j、422k)的已量化频谱表示(110)的频谱区(422e、422f、422g)，而获得已识别的频谱区(422e、422f、422g)；以及

噪声值计算器(530)，被配置为选择性地考虑已识别的频谱区(i)的量化误差，用于噪声填充参数(512、nf)的计算。

8.根据权利要求7所述的噪声填充参数计算器(500)，

其中频谱区识别器(520)被配置为识别输入频谱表示(510)的频谱线(422e、422f、422g)，所述频谱线被量化为零，并且包含至少第一预定数目的量化为零的较低频邻近频谱线及至少第二预定数目的量化为零的较高频邻近频谱线作为已识别的频谱区；

其中噪声值计算器(520)被配置为选择性地考虑已识别的频谱区的量化误差，用于噪声填充参数的计算，同时不考虑将量化为非零值的频谱线(420a、420b、420c、420d)及量化为零的但不包含第一预定数目的量化为零的较低频邻近频谱线或第二预定数目的量化为零的较高频邻近频谱线的频谱线用于噪声填充参数的计算。

9.根据权利要求7所述的噪声填充参数计算器(500)，其中噪声值计算器(530)被配置为：考虑已识别的频谱区的量化误差的实际能量，用于噪声填充参数(512、nf、nf_index)的计算。

10.根据权利要求7所述的噪声填充参数计算器(500)，其中噪声值计算器(530)被配置为：相对于集中于单个频谱区或集中于多个连续频谱线的音调量化误差能量，强调分布于多个已识别的频谱区的非音调量化误差能量。

11.根据权利要求7所述的噪声填充参数计算器(500)，其中噪声值计算器(530)被配置为：计算已识别的频谱区(i)的对数量化误差能量的和，以获得噪声填充参数(512、nf、nf_index)。

12.一种用于基于音频信号的输入频谱表示提供音频信号的填充了噪声的频谱表示的方法(700)，该方法包括：

识别(710)与输入频谱表示的非零频谱区间隔至少一个中间频谱区的输入频谱表示的频谱区，而获得已识别的频谱区；以及

将噪声选择性地引入(720)已识别的频谱区，而获得音频信号的填充了噪声的频谱表示。

13.一种用于基于音频信号的已量化频谱表示提供噪声填充参数的方法(800)，该方法包括：

识别(810)与已量化频谱表示的非零频谱区间隔至少一个中间频谱区的已量化频谱表示的频谱区，而获得已识别的频谱区；以及

选择性地考虑(820)已识别的频谱区的量化误差，用于噪声填充参数的计算。