CN1736127A

CN1736127A - 音频信号处理

Info

Publication number: CN1736127A
Application number: CNA2003801085007A
Authority: CN
Inventors: 塞缪尔·卡嘉司; 萨卡瑞·瓦瑞拉
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2003-01-09
Filing date: 2003-12-30
Publication date: 2006-02-15
Anticipated expiration: 2023-12-30
Also published as: EP1582089A1; ATE484161T1; EP1582089B1; CN100579297C; DE60334496D1; WO2004064451A1; US20040138874A1; US7519530B2; AU2003290132A1

Abstract

一种用于处理音频信号的处理器，所述处理器可具有接收单元、处理单元和扩展单元，所述接收单元被配置为接收音频信号，所述处理单元被配置为处理所述音频信号以空间再生，所述扩展单元被配置为在处理所述音频信号以空间再生之前，扩展所接收音频信号的带宽。

Description

音频信号处理

技术领域

本发明涉及处理音频信号。

背景技术

被称为3D音频处理的空间处理使用各种处理技术，以便生成似乎位于收听者周围空间内的特定位置处的虚拟声音源(或多个源)。空间处理可以一个或多个单通道扩声流作为输入，并生成可使用耳机或扬声器再现的立体声(双频道)输出声音流。典型的空间处理包括生成两耳时差和两耳电平差(TTD和ILD)，以输出由头部几何引起的信号。人类耳廓所引起的光谱记号同样重要，因为人类听觉***使用这个信息来确定所述声音源是在所述收听者之前还是之后。还可根据所述光谱记号来确定所述源的高度。

空间处理已被广泛用于各种家庭娱乐***，例如游戏***和家庭音响***。在诸如移动电信***的电信***内，空间处理例如可用于虚拟移动电话会议应用，或用于监控和控制目的。所述***的实例在WO 00/67502内说明。

在典型的移动通信***内，以相对低频，例如8kHz取样所述音频(例如语音)信号，随后借助语音编解码器编码所述音频信号。结果，所再生的音频信号由抽样率限制带宽。如果所述抽样频率为8kHz，则所述结果信号并不包括4kHz以上的信息。

所述音频信号内缺乏高频率会产生问题，如果空间处理将被应用于所述信号的话。这归因于收听声音源的人需要高频(4kHz之上的频率范围)的信号内容，以能够分辨所述源在他/她之前还是之后。高频信息还用于感知声音源高于0度水平的高度。因此，如果所述音频信号仅限于4kHz之下的频率，则对于所述音频信号生成空间效应是困难或不可能的。

对于以上问题的一种解决方案是在取样所述音频信号时使用较高取样率，因而增加了所述信号的高频内容。然而，在电信***内使用较高的取样率并非始终可行，因为其导致更高的数据率，并增加了处理和存储负载，此外还需要设计一组新的语音编码器。

发明内容

本发明的目的因而在于提供一种方法和用于实施所述方法的装置，以便克服上述问题，或至少缓解以上缺点。

本发明目的的实现通过提供一种用于处理音频信号的方法，所述方法包括接收具有窄带宽的音频信号，并处理所述音频信号，以空间再生扩展所述音频信号的所述带宽，其特征在于，所述方法还包括步骤：在处理所述音频信号以空间再生之前扩展所接收音频信号的所述窄带宽。

本发明目的的实现通过提供一种用于处理音频信号的***，所述***用于处理所述音频信号以空间再生的处理装置，其特征在于，所述***还包括用于在处理所述音频信号以空间再生之前扩展所接收音频信号的带宽的扩展装置。

此外，本发明目的的实现通过提供一种用于处理音频信号的处理器，所述处理器包括被配置为接收音频信号的接收单元，以及被配置为处理所述音频信号以空间再生的处理单元，其特征在于，所述处理器还包括被配置为在处理所述音频信号以空间再生之前扩展所述音频信号的带宽的扩展单元。

本发明基于这样的构思，即通过在所述空间处理之前人工扩展所述信号的带宽，即通过生成具有更大带宽的信号，从而提高低带宽音频信号的空间处理。

本发明方法和布置的优点在于，所建议方法和布置与现有电信***兼容，从而能够仅以相对微小的修改和低成本将高质量空间处理引入现有低带宽***。

此外，从以下的具体实施方式可使本发明的适用范围显而易见。

附图说明

以下将借助优选实施例，并参照附图详细描述本发明，在附图中：

图1是根据本发明实施例的信号处理布置的方框图；

图2是根据本发明实施例的信号处理布置的方框图。

具体实施方式

以下将结合诸如移动电信***的电信***描述本发明。然而，本发明并不仅限于任何特定***，而是可用于各种数字或模拟的电信、娱乐和其它***。本领域技术人员可将指令应用于其它包括对应特征的***。

图1是根据本发明实施例的信号处理布置的方框图。应当理解的是，此图仅示出了理解本发明必需的单元。***单元的详细结构和功能并未详细示出，因为这些对于本领域技术人员而言显而易见。根据本发明，首先处理诸如语音信号的低带宽(或窄带宽)音频信号，以便扩展所述音频信号的带宽；这发生在带宽扩展方框20内。然后，所得到的高带宽(或扩展后带宽)音频信号被进一步处理以空间再生；这发生在空间处理方框30内，其优选的是生成立体声双声道音频信号。所述低带宽音频信号例如可从电信***的传输路径，经由诸如语音解码器10的音频解码器得到，如果所述音频信号被以已编码形式发射的话。然而，在方框20内接收的所述低带宽音频信号的信源与本发明基本构思无关。此外，术语“低带宽”或“窄带宽”，以及“高带宽”或“所扩展带宽”应当被理解为描述性的，而非限于任何精确的频率值。一般而言，术语“低带宽”或“窄带宽”大约是指低于4kHz的频率，而术语“高带宽”或“所扩展带宽”大约是指高于4kHz的频率。本发明和方框10、20和30可由数字信号处理设备借助其内的适当软件实施，所述数字信号处理器例如是通用数字信号处理器(DSP)。还可使用特定集成电路或对应设备。

所述语音解码器10的输入通常为已编码语音比特流。电信***内的典型语音编码器基于线性预测编码(LPC)模型。在基于LPC的语音编码中，通过借助线性预测过滤器过滤激励脉冲，从而模型化有声语音。噪音被用作无声语音的激励。流行的CELP(电码本激励线性预测)和ACELP(代数电码本激励线性预测)编码器是这种基本方案的变化形式，其中使用可能具有特定结构的电码本来计算(多个)激励脉搏。电码本和过滤器系数参数被发射到电信***内的解码器。所述解码器10通过借助LPC过滤器过滤所述激励来合成语音信号。最近的一些语音编码***还体现了这样一种事实，即一个语音帧很少包括单纯的有声或无声语音，而是通常包括两者的混合。因此，需要为不同频带做出果断的分离有声/无声判定，从而增加编码增益。MBE(多带激励)和MELP(混合激励线性预测)使用这种方法。另一方面，使用正弦或WI(波形极化)技术的编解码器基于对信息理论的更一般观点，而带有有声/无声判定的经典语音编码模型并非必然包括在这样的理论内。不论所使用的语音编码器为何，结果的再生语音信号被原始取样率(通常为8kHz)和模型化过程自身限制带宽。有声语音的低通型频谱通常包括全极线性预测过滤器所生成的一组清晰共振。有声语音的频谱具有高通性质，且通常包括更高频率内的更多能量。

带宽扩展方框20的目的是人工生成并不包括任何信息的频带(大约＞4kHz)上的频率内容，从而提高空间定位精确度。研究表明在前/后和上/下声音定位中更高频带较为重要。对于上/下定位而言大约6kHz和8kHz的频带较为重要，而对于前/或定位而言大约10kHz和12kHz频带较为重要。必须理解的是，结果取决于对象的不同，但通常而言4到10kHz的频率范围对于人类听觉***确定声音位置时较为重要。如果带宽扩展方框20被设计为提高这些频带，例如6kHz和8kHz，则有可能为原始受带宽限制的信号(例如已编码语音被带宽限制为低于4kHz)增加空间声音源定位的上/下精确度。

通过使用所谓的AWB(人造宽带)技术来实施带宽扩展方框20。所述AWB概念最初是为在低比特语音编码之后提高无声语音再生而开发的，但可使用多种方法，本发明并不仅限于任何特定方法。许多AWB技术依赖于低和高频带之间的关联性，并使用一些电码本或其它映射技术，借助现存较低频带来生成较上频带。还可将智能别名过滤方案与通常的上取样过滤相组合。可在本发明实施方式内适用的适当AWB技术的实例在US5,455,888、US5,581,652和US5,978,759内公开，此处引入作为参考。仅有的可能限制在于，带宽扩展算法应当优选的是可控的，因为值得推荐的是区别处理无声与有声语音，因此关于当前语音类别的一些信息是可得到的。在图1所示的本发明实施例内，所述控制信息由语音解码器10提供。所述扩展方法对于各种语音编解码器和空间处理技术而言是可调的，这有利于最优语音质量。然而，这种特性并不必要。来自所述扩展方框20的输出优选的是为带有高于原始取样率一半的频率(尼奎斯特频率)内的人工生成频率中的内容的音频信号。应当注意的是，如果借助数字信号处理装置实现本发明，且所述信号是数字信号，则输出信号具有高于低带宽输入信号的取样率。

所述空间处理方框30可使用各种处理技术来生成处于收听者周围特定位置内的(多个)虚拟声音源。所述空间处理方框30可将一个或若干立体声音流作为输入，其优选的是生成可使用耳机或扬声器再现的一个立体声(双声道)输出声音流。还可使用多于两个的声道。在生成虚拟声音源时，所述空间处理30优选的是试图生成声音信号的三个主要记号。所述记号是：1)到所述收听者左耳与右耳的音频路径的不同长度所造成的两耳时差(ITD)，2)头的阴影所噪声的两耳水平差(ILD)，以及3)人类头、躯干和耳廓所造成的信号频谱改造。人类耳廓所造成的频谱记号很重要，因为人类听觉***使用此信息来确定所述声音源在收听者之前还是之后。还可从所述频谱记号确定所述信源的高度。尤其是，高于4kHz的频率范围包括分辨上/下和前/后方向的重要信息。所有这些记号的生成通常组合在一个过滤操作内，这些过滤器被称为HRTF过滤器(头部关联转移函数)。例如可借助耳机、双声道扬声器***或多声道扬声器***执行空间化音频信号的再生。当使用耳机再现时，在收听者试图在前/后和上/下位置内定位信号时通常会产生问题。此原因通常在于，当声音源位于以收听者头部中点为交点的垂直平面(中间平面)内的任何地方时，所述ILD和ITD值是相同的，仅剩下频谱记号确定信源位置。如果所述信号仅具有关于人类听觉***用来分辨前/后和上/下的频带的很少信息，则信号的位置相当困难。

当优化***及其特征时，带宽扩展的设计与参数选择能够影响空间处理方框，反之亦然。一般而言，4kHz频率范围之上的信息越多，空间效应越佳。另一方面，就语音性质而言，过度放大的更高频率例如会降级所感觉的语音质量，而所述语音智能仍然得到改善。可在设计通常用于实施光谱和ILD记号的HRTF过滤器时考虑所述带宽扩展方框20的特征。一些频带可被放大或衰减。这些相互关系并不重要，而是可在优化本发明时使用。

在带宽扩展20与空间处理30之间存在另一种相关。通常用于空间处理的HRTF过滤器通常强化特定频带，而衰减其它。为了能够实现实时实施方式，所述过滤器优选的是计算上不应过于复杂。这可能对于特定过滤器频率响应能够近似于目标HRTF内的峰值和谷值的程度设置了限制。如果带宽扩展20推进特定频带，则当考虑带宽扩展20与空间处理30的组合频率响应时，有限量的可用极点和零值可用于其它频带，这将导致更佳的总近似值。因此，带宽扩展20与空间处理30可联合起来优化，以减少和重新分配例如与扩展20或空间处理30相关的所述***的总或部分处理负载。所述带宽扩展20例如可能将带宽被扩展的音频信号的频谱整形为，提高借助有限复杂性的HRTF过滤器实现的空间效应。这种方法在可借助简单加权，即可能仅通过调整加权系数或其它相关参数来执行所述频谱整形时尤其有用。如果现有带宽扩展过程20已包括一些频率加权，则支持所述空间处理30特定要求必需的附加修改可能实际上并不存在，或至少是温和的。

此外，上述技术可用于在一个处理器内运行带宽扩展20，而在另一处理器内运行空间处理30的多处理器***。可通过将计算转移到带宽扩展处理器以及相反，减少所述空间音频处理器的处理负载。此外，根据可用于带宽扩展20和/或空间处理30的处理资源，在两个处理器之间动态分布和平衡全面负载。

图2示出了根据本发明又一实施例的信号处理布置。在所示备选实施例内，并无控制信息从语音解码器10提供给人工带宽扩展方框20。相反，控制信息由附加语音活动检测器(VAD)40提供。应当理解，所述VAD方框40可集成到带宽扩展方框20内，尽管在图中其被示为独立单元。所述***还可在各个处理方框之间并不存在任何相关情况下实施。

根据本发明实施例，所述音频解码器10是通用音频解码器。在本发明的这个实施例内，带宽扩展方框20的实施方式可能不同于上述实施方式。本发明的此实施例的可能应用是其中已编码音频信号由低带宽音乐播放器提供的布置。

对于本发明技术人员而言，显然随着技术进步，本发明概念可以任何方式实施。本发明及其实施例并不仅限于上述实施例，而是可在所附权利要求书范围内改变。

Claims

1、一种用于处理音频信号的方法，所述方法包括：

接收具有窄带宽的音频信号；以及

处理所述音频信号以空间再生；

其特征在于，所述方法还包括步骤：

在处理所述音频信号以空间再生之前，扩展所述接收的音频信号的窄带宽。

2、根据权利要求1的方法，其特征在于，所述接收音频信号的步骤包括步骤：

接收具有所述窄带宽的已编码音频信号；

所述方法还包括步骤：

在扩展所述已编码音频信号的窄带宽之前，解码所述已编码音频信号。

3、根据权利要求1或2的方法，其特征在于，所述接收音频信号的步骤包括：

接收语音信号的步骤。

4、根据权利要求1、2或3的方法，其特征在于，所述扩展音频信号的窄带宽的步骤包括步骤：

生成频率内容信号，所述频率内容信号具有所述窄带宽的音频信号的频带之外的频率内容；以及

将所述频率内容信号加入所述窄带宽的音频信号，以扩展所述音频信号。

5、根据权利要求1到4中任何一个的方法，其特征在于，所述处理音频信号以空间扩展的步骤包括：

借助头部关联转移函数过滤器来过滤所述音频信号的步骤。

6、根据权利要求1到5中任何一个的方法，其特征在于，所述处理音频信号以空间扩展的步骤包括：

生成立体声信号的步骤。

7、根据权利要求1到6中任何一个的方法，其特征在于，所述方法还包括步骤：

相对于至少一个特征，联合优化扩展所述音频信号的窄带宽的步骤以及所述处理音频信号以空间再生的步骤的性能。

8、根据权利要求7的方法，其特征在于，所述至少一个特征影响所述空间再生的结果。

9、根据权利要求7或8的方法，其特征在于，所述至少一个特征影响所述扩展音频信号的窄带宽的步骤和/或所述处理音频信号以空间再生的步骤所需的处理负载。

10、根据权利要求7、8或9的方法，其特征在于，所述优化步骤包括步骤：

改变影响所述扩展音频信号的窄带宽的步骤和/或所述处理音频信号以空间再生的步骤的至少一个参数。

11、根据权利要求1到10中任何一个的方法，其特征在于，所述方法还包括步骤：

在所述扩展音频信号的窄带宽的步骤与所述处理音频信号以空间再生的步骤之间，动态分配全部处理负载。

12、一种用于处理音频信号的***，所述***包括：

处理装置，用于处理所述音频信号以空间再生，其特征在于，所述***包括：

扩展装置，用于在处理所述音频信号以空间再生之前，扩展所述音频信号的带宽。

13、根据权利要求12的***，其特征在于，所述***还包括：

解码装置，用于在扩展所述音频信号的带宽之前，解码所述音频信号。

14、根据权利要求13的***，其特征在于，所述用于解码音频信号的解码装置将信息提供给所述扩展装置。

15、根据权利要求12、13或14的***，其特征在于，所述音频信号是语音信号。

16、根据权利要求12到15中任何一个的***，其特征在于，所述***还包括：

语音活动检测器，用于将控制信息提供给所述用于扩展音频信号的带宽的扩展装置。

17、根据权利要求12到16中任何一个的***，其特征在于，所述扩展装置还包括：

生成装置，用于生成频率内容信号，所述频率内容信号具有所述音频信号的频带之外的频率内容；以及

组合装置，用于将所述频率内容信号与所述音频信号相组合，以扩展所述音频信号的带宽。

18、根据权利要求12到17的***，其特征在于，所述处理装置生成立体声信号。

19、根据权利要求12到18的***，其特征在于，所述处理装置包括头部关联转移函数过滤装置，用于过滤所述扩展带宽后的音频信号。

20、根据权利要求12到19中任何一个的***，其特征在于，相对于至少一个特征，联合优化所述扩展装置与所述处理装置。

21、根据权利要求20的***，其特征在于，所述至少一个特征影响所述空间再生的结果。

22、根据权利要求20或21的***，其特征在于，所述至少一个特征影响所述扩展装置的处理负载和/或所述处理装置的处理负载。

23、根据权利要求20、21或22的***，其特征在于，所述***被配置成通过改变所述扩展装置和/或所述处理装置的至少一个参数来执行所述优化。

24、根据权利要求12到23中任何一个的***，其特征在于，所述***被配置成在所述装置之间分配所述扩展装置与所述处理装置的全部处理负载。

25、一种用于处理音频信号的处理器，所述处理器包括：

接收单元，被配置为接收音频信号；以及

处理单元，被配置为处理所述音频信号以空间再生，

其特征在于，所述处理器还包括：

扩展单元，被配置为在处理所述音频信号以空间再生之前，扩展所述音频信号的带宽。

26、根据权利要求25的处理器，其特征在于，所述处理器还包括：

解码器，被配置为解码在所述接收单元中接收的音频信号。

27、根据权利要求25或26的处理器，其特征在于，所述处理器还包括：

生成单元，被配置为生成频率内容信号，所述频率内容信号具有在所述接收单元中接收的所述音频信号的频带之外的频率内容；以及

组合单元，被配置为将所述频率内容信号与在所述接收单元中接收的音频信号相组合。