CN109074813B

CN109074813B - 处理高清晰度音频数据

Info

Publication number: CN109074813B
Application number: CN201680051965.0A
Authority: CN
Inventors: N·L·恩格尔; N·L·爱坡顿; A·J·希菲尔德
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-09-25
Filing date: 2016-09-21
Publication date: 2020-04-03
Anticipated expiration: 2036-09-21
Also published as: US10586553B2; EP3353786B1; CN109074813A; EP3353786A1; US20180211682A1; WO2017053447A1

Abstract

在被配置为对第一采样速率的音频数据执行信号处理的装置中，本文所公开的方法包括接收第二采样速率的音频数据，第二采样速率高于第一采样速率。该方法包括对第二采样速率的音频数据应用滤波以由此产生第一滤波音频数据和第二滤波音频数据，第一滤波音频数据主要包括人耳可听的分量频率，第二滤波音频数据主要包括人耳基本上听不到的分量频率。该方法还包括对第一滤波音频数据应用第一信号处理；并且对第二滤波音频数据应用第二信号处理，第二信号处理具有比第一信号处理低的计算复杂度。本文还公开了对应的装置和计算机可读介质。

Description

处理高清晰度音频数据

相关申请的交叉引用

本申请要求2015年9月25日提交的美国临时申请No.62/232,557的权益，并且要求2015年10月28日提交的欧洲专利申请No.15191932.1的优先权，这两篇申请整体通过引用并入。

技术领域

本文的公开内容大体上涉及在被配置为对第一采样速率的音频数据执行信号处理的装置中对第二(较高的)采样速率的音频数据执行信号处理的方法。

背景技术

对音频数据执行信号处理(比如后处理)是常见的。例如，在个人计算机(PC)上运行的音频播放器应用可以对它从源(例如，来自CD-ROM、来自蓝光盘、在互联网上流传输的、等等)接收的音频数据执行各种后处理操作，比如对话增强、音量调平(level)、均衡化、虚拟化、虚拟低音等。

传统上，来自这样的源的音频数据趋向于是以例如44.1kHz或48kHz的采样速率生成的。然而，最近，即使是在消费者硬件中，较高的采样速率(比如192kHz)也已经变得较流行；以这些较高的采样速率生成的音频数据有时被称为高清晰度音频数据。

对于音频后处理，移到较高的采样速率意味着计算负担增加。例如，将现有的音频后处理算法改为支持较高的采样速率可能需要更新底层算法，例如通过包括新的系数表、使信号路径变宽以及在一些情况下改变底层算法以解决数值精度问题来更新底层算法。

附图说明

现在将参照附图来描述示例实施例，其中：

图1是示出包括被配置为对其从源接收的音频数据执行音频后处理的装置的***的示意图；

图2是示出图1所示的音频后处理的主要组件中的一些在对以较低的采样速率(例如，44.1kHz或48kHz)生成的音频数据执行时的示意图；

图3是示出图2所示的主要组件的附加细节的示意图；

图4是示出由图1中所示的装置执行的一类方法的主要步骤中的一些的示意图；

图5是示出根据本公开的第一实施例的、图1中所示的音频后处理的主要组件中的一些在对以较高的采样速率(例如，192kHz)生成的音频数据执行时的示意图；

图6是示出图5中所示的主要组件的附加细节的示意图；

图7是示出根据本公开的第二实施例的、图1中所示的音频后处理的主要组件中的一些在对以较高的采样速率(例如，192kHz)生成的音频数据执行时的示意图；

图8是示出图7所示的主要组件的附加细节的示意图；

图9是示出适合于第一实施例和第二实施例以及其他实施例的示例实现的示意图。

所有的图是示意性的，并且一般仅示出为阐明本公开所必需的部分，而其他部分则可以被省略或者仅被暗示。除非另有指示，否则相似的附图标记在不同的图中指的是相似的部分。

具体实施方式

鉴于以上描述，一个目的尤其是，使得能够在不过度增加与音频后处理相关联的计算负担的情况下进行较高采样速率(比如高清晰度音频数据采样速率)下的音频处理。

A.概述

本公开的一方面提供了一种装置中的方法。该装置被配置为对第一采样速率的音频数据执行信号处理。该方法包括：接收第二采样速率的音频数据，第二采样速率高于第一采样速率；对第二采样速率音频数据应用滤波，以由此产生第一频域音频数据和第二频域音频数据，第一频域音频数据主要包括人耳可听的分量频率，第二频域音频数据主要包括人耳基本上听不到的分量频率；对第一频域音频数据应用第一信号处理；并且对第二频域音频数据应用第二信号处理，与第一信号处理相比，第二信号处理具有较低的计算复杂度。

该方法使得装置能够在不过度增加相关联的计算负担的情况下执行较高采样速率(比如所述第二采样速率)下的音频处理。更具体地说，该方法对人耳基本上听不到的分量频率应用计算复杂度较低的信号处理。发明人认识到，为了降低总体计算复杂度，对基本上听不到的分量频率，较低的信号处理性能是可以容忍的(并且原则上应是感知不到的)。

可选地，所述对第一滤波音频数据应用第一信号处理利用对第一采样速率的音频数据执行的信号处理的至少一个现有处理或步骤。

通过(至少部分地)避免组件的重新设计并且通过允许使用“经过尝试和测试的”组件，重复使用至少一个现有处理或步骤的能力可以导致可靠的且较简单的实现。

可选地，装置被配置为在对第一采样速率的音频数据执行信号处理之前使用滤波器组来将该音频数据转换到频域中，并且其中，所述对第二采样速率音频数据应用滤波包括对第二采样速率音频数据应用滤波器组的改动(adapt)版本。

改动共同的滤波器组可以比例如使用不同的滤波器组高效；例如，它可以导致存储器(memory)占用降低。此外，因为不同的滤波器趋向于具有不同的属性，所以使用共同的滤波器组可以导致第一采样速率频域数据和第二采样速率频域数据之间较一致。

可选地，滤波器组生成频率数据的第一数量的带，其改动版本生成频率数据的第二数量的带，第二数量高于第一数量，第一数量与第二数量的比率和第一采样速率与第二采样速率的比率相同。可选地，频率数据的所有带具有基本上相同的带宽。

可选地，所述第二信号处理包括基于第一信号处理的动态增益来应用动态增益。

发明人认识到，如果第一信号处理引入了动态增益，则应用对应的动态增益作为第二信号处理的一部分可以导致在组合第一滤波数据和第二滤波数据之后较“自然的”频谱包络。

可选地，所述第二信号处理包括所述第一信号处理的步骤或处理的计算上较简单的版本。

可选地，所述应用第一信号处理包括应用以下中的至少一个：对话增强、音量调平或均衡化。可选地，所述应用第二信号处理包括不应用以下中的任何一个：对话增强、音量调平或均衡化。

可选地，所述对第二滤波音频数据应用第二信号处理包括第二滤波音频数据的时域信号处理。

可选地，第一采样速率为44.1kHz，第二采样速率为88.2kHz(即，两倍的因子)或176.4kHz(即，四倍的因子)中的一个。可选地，第一采样速率为48kHz，第二采样速率为96kHz(即，两倍的因子)或192kHz(即，四倍的因子)中的一个。

可选地，第二信号处理包括引入延迟来补偿由第一信号处理引入的延迟。

本公开的另一方面提供一种装置。该装置包括：输入，其用于接收第一采样速率的音频数据和第二采样速率的音频数据；以及逻辑***，其被配置为执行前述有或没有上面讨论的可选特征中的任何一个或多个的方法。

本公开的又一方面提供一种计算机可读介质，该计算机可读介质包括当被逻辑***执行时将该逻辑***配置为执行根据权利要求1至12中任一项所述的方法的指令。

B.示例实施例

在附图中，图5和图6中示出了第一实施例的细节，图7和图8中示出了第二实施例的细节。图1至图4以及图9示出了第一实施例和第二实施例二者共同的架构和实现细节。

B.1.第一实施例和第二实施例的概述

参照图1，在第一实施例和第二实施例中，***100包括装置105，装置105被配置为对经由装置105的输入从源110接收的音频数据执行信号处理。装置105还被配置为对音频数据进行渲染以用于经由***100的一个或多个扩音器115进行回放。

装置105可以例如是个人计算机(PC)、平板计算机、移动电话、会议电话、电视机顶盒等。其他合适的装置对于本领域的普通技术人员将是容易明白的。

源110可以例如是CD-ROM、蓝光盘、只读存储器、闪存存储器等，或者例如是来自内容分发网络的装置，例如经由互联网连接的计算机服务器。其他合适的源对于本领域的普通技术人员将是容易明白的。

一个或多个扩音器115可以例如是耳机、听筒等，或者例如是独立式扩音器(可能成环绕声布置)、条形音箱、电视机的扩音器等。一个或多个扩音器115可以直接连接到装置105，或者经由中间设备(比如音频视频接收器(AVR))连接。其他合适的扩音器对于本领域的普通技术人员将是容易明白的。

音频数据可以在包括音频数据、通常还有一些元数据的编码位流中接收。编码位流可以是通过符合公布标准的编码处理而生成的位流，公布标准比如有：高级电视***委员会(Advanced Television Systems Committee,Inc.)公布的“数字音频压缩标准(Digital Audio Compression Standard)(AC-3,E-AC-3)”,Revision B,Document A/52B，2005年6月14日(在本文中被称为“ATSC标准”)；以及国际标准组织(ISO)公布的ISO/IEC13818-7,高级音频编码(Advanced Audio Coding)(AAC)(在本文中被称为“MPEG-2AAC标准”)和ISO/IEC 14496-3,subpart 4(在本文中被称为“MPEG-4音频标准”)。符合这些标准的编码和解码处理仅仅作为例子而被提及。本公开的原理也可以与符合其他标准的编码***一起使用。

参照图2，在第一实施例和第二实施例中，装置105的时频域变换模块205接收第一采样速率(例如，44.1kHz或48kHz)的时域(例如，脉冲代码调制的)音频数据，并且从其生成对应的频域音频数据。装置105的信号处理模块210接收频域音频数据，并且从其生成对应的处理后的音频数据。装置105的频时域变换模块215接收处理后的音频数据，并且从其生成对应的时域的处理后的音频数据。这在图3中被更详细地示出。变换模块205、信号处理模块210和变换模块215在本文中一起被称为音频处理模块220。

参照图3，在第一实施例和第二实施例中，时频域变换模块205是统一调制滤波器组。统一调制滤波器组的类型的合适选择包括但不限于，调制复数重叠变换滤波器组(modulated complex lapped transform filter banks)、离散傅立叶变换滤波器组等。

在图3中可以看出，由统一调制滤波器组205接收的时域音频数据在第一采样速率(其为44.1kHz或48kHz(在图3中，f_s＝44.1kHz或f_s＝48kHz))下是以64个时间采样的块到达的。例如，统一调制滤波器组205可以一次接收4个块，每个块64个时间采样。由统一调制滤波器组205生成的对应的频域音频数据由频域音频数据的64个不同的带组成，每个是在第一采样速率除以64的采样速率(即，689.0625Hz或750Hz)下。将意识到，时间采样的数量、时间采样的块的数量以及频域音频数据的不同带的数量仅仅是作为例子给出的。

信号处理模块210被配置为接收这种格式的频域音频数据，即，频域音频数据的64个不同的子带，每个是在689.0625Hz或750Hz的采样速率下。由信号处理模块210生成的处理后的音频数据的格式与由信号处理模块210接收的频域音频数据的格式是相同的。

信号处理模块210被配置为执行各种现有技术的(已知的)信号处理操作，这些操作基于由信号处理模块210接收的频域音频数据的格式而配置。例如，信号处理模块210可以被配置为使用专用于这种格式的频域音频数据的系数来执行耳机虚拟化处理。信号处理模块210还可以被配置为执行以下中的任何一个或多个：对话增强、音量调平、均衡化、耳机虚拟化、下混、混音、虚拟低音等。

频时域变换模块215是逆滤波器组，即，统一调制滤波器组205的逆。

第一实施例和第二实施例的前述描述及其变体讨论了装置105在接收到第一采样速率的音频数据时执行的处理，在上面讨论的特定例子中，第一采样速率为44.1kHz或48kHz。该处理本身是已知的，并且在上文中是针对上下文概括的以提供本文所公开的实施例的新颖特征的较好理解。

我们现在转到装置105在接收到第二采样速率(例如，88.2kHz、96kHz、132.3kHz、144kHz、176.4kHz或192kHz)的音频数据时执行的处理的讨论。适应(adapt)第二采样速率的音频数据的能力以及装置105对第二采样速率的音频数据进行处理的方式相信是新颖的。图4示意性地示出了第一实施例和第二实施例二者中的当装置105接收到第二采样速率的音频数据时装置105执行的方法400的主要步骤。

参照图4，在第一实施例和第二实施例中，方法400包括在步骤S405，接收第二采样速率的音频数据。第二采样速率高于第一采样速率。装置105识别音频数据的采样速率的特定方式并不重要；采样速率可以例如在附随的元数据中指示，或者它可以例如根据像这样的音频数据的分析而确定。

方法400包括在步骤S410，对第二采样速率音频数据应用滤波，由此产生第一滤波音频数据和第二滤波音频数据。第一滤波音频数据主要包括0kHz至24kHz的范围内的分量频率；在该实施例中，在第一滤波音频数据中，所述范围之外的分量频率被高度地衰减。第二滤波音频数据主要包括24kHz及24kHz以上的范围内的分量频率，这些分量频率是人耳基本上听不到的频率；在该实施例中，在第二滤波音频数据中，所述范围之外的分量频率被高度地衰减。

方法400包括在步骤S415，对第一滤波音频数据应用第一信号处理。通常，应用第一信号处理利用对第一采样速率的音频数据执行的信号处理的至少一个现有处理或步骤。在第一实施例和第二实施例中，所述第一信号处理包括与由信号处理模块210对第一采样速率的音频数据执行的信号处理基本上相同的信号处理。

方法400包括在步骤S420，对第二滤波音频数据应用第二信号处理，与第一信号处理相比，第二信号处理具有较低的计算复杂度。也就是说，对人耳基本上听不到的分量频率执行相对“轻量级的(lightweight)”信号处理。

B.2.第一实施例的细节

参照图5，在第一实施例中，装置105的时频域变换模块505在步骤S405中接收第二采样速率的时域音频数据。

此外，时频域变换模块505在步骤S410中对第二采样速率音频数据应用滤波。在步骤S410中应用的滤波不同于由时频域变换模块205对第一采样速率音频数据应用的滤波。然而，如下面将参照图6更详细地描述的，模块505是模块205的改动版本。

信号处理模块210在步骤S415对第一滤波音频数据应用第一信号处理。第一信号处理与如上面在第B.1节中描述的由信号处理模块210对第一采样速率音频数据执行的信号处理没有本质的不同。

附加处理模块510在第一实施例中在步骤S420，对第二滤波音频数据应用第二信号处理。如下面将参照图6更详细地描述的，第二信号处理的计算复杂度低于第一信号处理。

在第一实施例中，装置105的频时域变换模块515从信号处理模块210接收处理后的第一滤波音频数据，并且从附加处理模块510接收处理后的第二滤波音频数据，它使用在时频域变换模块505中所用的变换的逆变换来将处理后的第一滤波音频数据和处理后的第二滤波音频数据一起变换回时域中。

参照图6，在第一实施例中，变换模块505是变换模块205的改动版本。像变换模块205那样，变换模块505是统一调制滤波器组；滤波器组类型的合适选择包括上面参照变换模块205列出的那些。

至少从变换模块505产生频率数据的大量带的意义上来说，变换模块505是变换模块205的改动版本。如本领域的普通技术人员将意识到的，为了产生频率数据的大量带，变换模块505包括的滤波器多于变换模块205包括的滤波器。具体地说，在本实施例中，变换模块205和变换模块505是具有相同原型滤波器的统一调制滤波器组；变换模块505所具有的原型滤波器的“调制”多于变换模块205所具有的原型滤波器的“调制”。

由统一调制滤波器组505接收的时域音频数据在第二采样速率(在该实施例中为176.4kHz或192kHz)下是以256个时间采样的块到达的。将意识到，这是由统一调制滤波器组205在接收第一采样速率的时域音频数据时接收的时间采样的四倍。

由统一调制滤波器组505生成的对应的频域音频数据由频域音频数据的256个不同的带(也被称为区间)组成，每个是在第二采样速率除以256的采样速率下(即，689.0625Hz或750Hz)(该采样速率与参照图3描述的频域音频数据的带的采样速率是相同的)。如本领域的普通技术人员将意识到的，为了在第二采样速率除以给定因子(比如说因子256)的采样速率下产生频域音频数据，统一调制滤波器组被配置为在滤波器的下游执行抽取。换句话说，在变换模块205和变换模块505中，统一调制滤波器组是抽取的滤波器组，其中变换模块505的抽取因子高于变换模块205的抽取因子。

带是相连的(contiguous)并且相等宽度的，当第二采样速率为176.4kHz时，覆盖频率范围0Hz至88.2kHz，或者当第二采样速率为192kHz时，覆盖频率范围0Hz至96kHz。

将意识到，时间采样的数量、时间采样的块的数量以及频域音频数据的不同带的数量仅仅是以例子的方式给出的。

将意识到，在该实施例中，从第一采样速率到第二采样速率存在四倍放大(即，第二采样速率是第一采样速率的四倍)，并且频域音频数据的相应带数中存在对应的四倍放大(即，统一调制滤波器组505生成的频域音频数据的带是统一调制滤波器组205生成的频域音频数据的带的四倍)。

更一般地说，统一调制滤波器组205生成频域音频数据的第一数量的带，统一调制滤波器组505生成频域音频数据的第二数量的带，第二数量高于第一数量，第一数量与第二数量的比率和第一采样速率与第二采样速率的比率相同。因此，由统一调制滤波器组505生成的频域音频数据的各个带的带宽与由统一调制滤波器组205生成的频域音频数据的各个带的带宽是相同的(包括具有相同的中心频率)。有利地，这在本实施例中通过将统一调制滤波器组205中存在的滤波器四倍的滤波器(特别地，(相同的)原型滤波器的“调制”的四倍)包括在统一调制滤波器组505中来实现。

将意识到，在该实施例中，从第一采样速率到第二采样速率存在四倍的放大(即，第二采样速率是第一采样速率的四倍)，并且在由统一调制滤波器组505接收的时间采样的数量中存在对应的四倍放大(即，统一调制滤波器组505接收的时间采样是统一调制滤波器组205生成的时间采样的四倍)。

更一般地说，统一调制滤波器组205接收时域音频数据的第一数量的时间采样，统一调制滤波器组505接收时域音频数据的第二数量的时间采样，第二数量高于第一数量，第一数量与第二数量的比率和第一采样速率与第二采样速率的比率是相同的。因此，由统一调制滤波器组505生成的频域音频数据的采样速率与由统一调制滤波器组205生成的频域音频数据的采样速率是相同的。有利地，这在本实施例中通过将统一调制滤波器组505的抽取因子增大到统一调制滤波器组205的抽取因子的四倍来实现。

如上面所指出的，信号处理模块210对第一滤波音频数据应用第一信号处理。在该实施例中，第一滤波音频数据是由被统一调制滤波器组505生成的频域音频数据的带0至63(即，64个最低频带)构成的。当第二采样速率为176.4kHz时，这些带覆盖频率范围0至22.05kHz，或者当采样速率为192kHz时，这些带覆盖频率范围0至24kHz。将认识到，这与由未调制的滤波器组205从第一采样速率下的时域音频数据生成的整个频域音频数据是相同数量的带，覆盖相同的频率范围。

此外，由统一调制滤波器组505生成的频域音频数据的带0至63的采样速率与第一采样速率是相同的。

因此，所述第一信号处理无需与如上面在第B.1节中描述的由信号处理模块210对第一采样速率音频数据执行的信号处理有本质的不同(并且事实上没有本质的不同)(即，因为由统一调制滤波器组505生成的频域音频数据的带0至63与由统一调制滤波器组205生成的频域音频数据的64个带就采样速率和带宽两者而言基本上是相同的)。因此，并且有利地，无需为了使信号处理模块210适应从第一采样速度到第二采样速率的时域音频数据切换而对信号处理模块210进行本质改变。例如，不需要改变底层信号处理算法(或者不对底层信号处理算法做出改变)。

如上面所指出的，附加处理模块510对第二滤波音频数据应用第二信号处理。在该实施例中，第二滤波音频数据是由被统一调制滤波器组505生成的频域音频数据的带号64至255(即，192个最高频带)构成的。当第二采样速率为176.4kHz时，这些带覆盖频率范围22.05kHz至88.2kHz，或者当第二采样速率为192kHz时，这些带覆盖频率范围24kHz至96kHz。将意识到，该范围内的分量频率是人耳基本上听不到的。(人可听频率的普遍接受的标准范围为20Hz至20kHz。)

第二信号处理的计算复杂度低于第一信号处理。在该实施例中，附加处理模块510包括一个或多个延迟补偿模块(未示出)和增益模块(未示出)。增益模块的目的是对第二滤波音频数据应用以下增益：该增益对由信号处理模块210对第一滤波音频数据应用的净增益(net gain)进行近似。(一个或多个)延迟补偿模块的目的是使由附加处理模块510生成的处理后的第二滤波音频数据与由信号处理模块210生成的对应的处理后的第一滤波音频数据在时间上对齐。

因为应用于第一滤波音频数据的净增益是动态的，所以基于由第一滤波音频数据表示的音频信号的分析来改变由增益模块应用于第二滤波音频数据的增益应以对应的方式改变；这通过信号处理模块210和附加处理模块510之间的通信来实现，下面将在第B.4节中更详细地对该通信进行描述。

通常，由信号处理模块210引入的净延迟在运行时不变化，所以由附加处理模块510的(一个或多个)延迟补偿模块引入的(一个或多个)延迟无需在运行时变化。因此，信号处理模块210无需(并且不)将其净延迟传送到附加处理模块510。

附加处理模块510可以包括一个或多个另外的模块。如下面将在第B.5节中更详细地讨论的，该另外的模块或每个另外的模块可以是信号处理模块210中的对应模块的计算上较简单的版本。

如上面所指出的，变换模块515从信号处理模块210接收处理后的第一滤波音频数据，并且从附加处理模块510接收处理后的第二滤波音频数据(如上面所指出的，处理后的第二滤波音频数据与处理后的第一滤波音频数据是在时间上对齐的)(即处理后的频域音频数据的所有256个带)并且将它变换回时域中。在该实施例中，变换模块515是逆滤波器组；逆滤波器组类型的合适选择包括上面参照逆变换模块215描述的那些。

B.3.第二实施例的细节

参照图7，在第二实施例中，装置105的滤波器模块705在步骤S405中接收第二采样速率的时域音频数据。

此外，滤波器模块705在步骤S410中对第二采样速率音频数据应用滤波。在该实施例中，所述滤波是在时域中由高通滤波器和低通滤波器执行的。

(在该实施例的变体中，所述滤波可以在频域中执行，并且滤波器模块705的变体可以将滤波后的音频数据变换回时域中或者可以不将滤波后的音频数据变换回时域中。)

第一改动模块710从滤波器模块705接收第一滤波音频数据(第一滤波音频数据是通过对时域音频数据应用转角频率近似为22.05kHz或24kHz的低通滤波器而生成的)，并且对它进行改动以用于后续处理。通常，改动包括对第一滤波音频数据进行抽取。改动的结果是，改动的第一滤波音频数据与如上面参照图2和图3描述的第一采样速率的时域音频数据基本上是相同的。下面将参照图8来更详细地描述由第一改动模块710执行的改动。

(在该实施例的其中滤波器模块705在频域中执行滤波并且不将第一滤波音频数据变换回时域中的变体中，由第一改动模块710执行的改动可以包括将第一滤波音频数据变换回时域中。)

音频处理模块220从改动模块710接收改动的第一滤波音频数据。比较图7和图2，将意识到，音频处理模块220包括信号处理模块210、变换模块205和逆变换模块215。

音频处理模块220在步骤S415对(改动的)第一滤波音频数据应用第一信号处理。因为(改动的)第一滤波音频数据与第一采样速率的时域音频数据基本上是相同的，所以音频处理模块220在步骤S420对(改动的)第一滤波音频数据执行与它对第一采样速率的时域音频数据执行的处理基本上相同的处理。换句话说，在步骤S420执行的第一信号处理与由音频处理模块220对第一采样速率的时域音频数据执行的处理没有实质不同；因此，该实施例中的音频处理模块220无需(并且不)为了使装置105能够除了第一采样速率的音频数据之外还对第二采样速率的音频数据进行处理而被改动。

第二改动模块715从音频处理模块220接收处理后的第一滤波音频数据。由第二改动模块715执行的改动是由第一改动模块710执行的改动的逆。下面将参照图8来更详细地描述由第二改动模块715执行的改动。

附加处理模块720从滤波器模块705接收第二滤波音频数据。在该实施例中，第二滤波音频数据是通过对时域音频数据应用转角频率近似为22.05kHz或24kHz的高通滤波器而生成的。将意识到，第二滤波音频数据中的分量频率对于人耳是基本上听不到的。

附加处理模块720对第二滤波音频数据应用第二信号处理。该实施例中的由附加处理模块720应用的第二信号处理大体上等同于第一实施例中的由附加处理模块510应用的第二信号处理。再次，如下面将参照图8更详细地描述的，第二信号处理的计算复杂度低于第一信号处理。

组合模块725从第二改动模块715接收处理后的第一滤波音频数据，并且从附加处理模块720接收处理后的第二滤波音频数据，并且将它们组合为处理后的时域音频数据。在该实施例中，组合是由第一滤波音频数据和第二滤波音频数据表示的相应信号的求和。

参照图8，滤波器模块705是接收第二采样速率的时域音频数据的滤波器组，在该实施例中，第二采样速率为176.4kHz或192kHz(在图8中，f_s＝176.4kHz或192kHz)。

在该实施例中，滤波器模块705被配置为通过对接收的时域音频数据应用具有第二采样速率除以8的转角频率(即，22.05kHz或24kHz)的低通滤波器来生成第一滤波音频数据。因此，第一滤波音频数据在第二采样速率下包括0Hz至22.05kHz或0Hz至24kHz的范围内的分量频率，在该实施例中，第二采样速率为176.4kHz或192kHz。

滤波器模块705被配置为通过对接收的时域音频数据应用具有第二采样速率除以8的下转角频率(lower corner frequency)(即，22.05kHz或24kHz)和第二采样速率除以2的上转角频率(upper corner frequency)(即，88.2kHz或96kHz)的高通滤波器来生成第二滤波音频数据。从而，第二滤波音频数据在第二采样速率下包括22.05kHz至88.2kHz或24kHz至96kHz的范围内的分量频率，在该实施例中，第二采样速率为176.4kHz或192kHz。

第一改动模块710包括下采样模块805。下采样模块接收第一滤波音频数据，并且按因子4对它进行下采样。从而，在该实施例中，由下采样模块805生成的(改动的)第一滤波音频数据在第二采样速率除以4(即，44.1kHz或48kHz)下包括0Hz至22.05kHz或0Hz至24kHz的范围内的分量频率。

从而，音频处理模块220在第二采样速率除以4(其与第一采样速率相同)下执行其处理。如上面所指出的，这意味着该实施例中的音频处理模块220无需被改动(并且不被改动)来应对从第一采样速率的时域音频数据到第二采样速率的时域音频数据的切换。

第二改动模块715包括上采样模块810。上采样模块810接收处理后的第一滤波音频数据，并且按因子4对它进行上采样。从而，使(改动的)处理后的第一滤波音频数据返回到第二采样速率。

对第二滤波音频数据执行第二信号处理的附加处理模块720包括一个或多个延迟补偿模块815和增益模块820。

增益模块820的目的是对第二滤波音频数据应用以下增益：该增益对由音频处理模块220对第一滤波音频数据应用的净增益进行近似。因为应用于第一滤波音频数据的净增益是动态的(基于由第一滤波音频数据表示的信号的分析而改变)，所以由增益模块820应用于第二滤波音频数据的增益应以对应的方式改变；这通过音频处理模块220和附加处理模块720之间的通信来实现，下面将在第B.4节中更详细地对该通信进行描述。

延迟补偿模块815的目的是使由附加处理模块720生成的处理后的第二滤波音频数据与由音频处理模块220生成的对应的处理后的第一滤波音频数据在时间上对齐。换句话说，由增益模块820和延迟补偿模块815引入的相应延迟的和与由第一改动模块710、音频处理模块220和第二改动模块715引入的相应延迟的和是相同的。音频处理模块220无需(并且不)将其净延迟传送到附加处理模块720。

附加处理模块720可以包括一个或多个另外的模块。如下面将在第B.5节中更详细地讨论的，该另外的模块或每个另外的模块可以是信号处理模块210中的对应模块的计算上较简单的版本。

B.4.处理路径之间的通信

在上文所描述的第一实施例和第二实施例中，由相应的附加处理模块510、720应用的信号处理包括动态增益。动态增益基于由信号处理模块210应用的动态增益。具体地说，附加处理模块510、720的动态增益跟踪信号处理模块210的动态增益，以使得当处理后的第一滤波数据和处理后的第二滤波数据被组合时，组合的滤波数据具有频谱上连续的频谱包络。因此，在频域中，组合的滤波数据看起来与对第一滤波数据和第二滤波数据二者应用相同的信号处理的结果没有显著不同。

在第一实施例和第二实施例中，信号处理模块210与附加处理模块510、720进行通信。更具体地说，附加处理模块510从信号处理模块210接收控制信号。

控制信号是由信号处理模块210的分析模块(未示出)生成的。控制信号实时地对附加处理模块510、720的动态增益指定当前值。当前值对应于由信号处理模块210内的各种处理的净效应导致的当前总增益值。例如，信号处理模块210可以包括对由第一滤波音频数据表示的音频信号进行分析并且应用频率相关的增益的音量调平处理。然后控制信号将指定附加处理模块510、720的动态增益的当前值，该当前值考虑应用于第一滤波音频数据的频率相关增益。

B.5简化的处理模块

在上文所描述的第一实施例和第二实施例中，相应的附加处理模块510、720(每个包括增益模块和一个或多个延迟模块)每个还可以包括信号处理模块210中的对应模块的一个或多个计算上较简单的版本。计算上较简单的模块被配置为执行与由信号处理模块210中的相应的对应模块执行的步骤或处理等同、但是具有较低计算负担的步骤或处理。

例如，信号处理模块210可以包括下混模块(未示出)。下混模块可以例如从5.1声道或7.1声道环绕声信号生成表示双耳立体声信号的音频数据。附加处理模块510、720中的对应的计算上较简单的模块可以简单地丢弃除了5.1声道或7.1声道环绕声信号的左前和右前声道之外的所有声道，而不是对第二滤波数据执行“完全”下混。

附加处理模块510、720可以包括与信号处理模块210的每一个模块相对应的相应的计算上较简单的模块。各种计算上较简单的模块的特定配置并不重要；各种替代方案对于本领域的普通技术人员将是容易明白的。

C.示例实现架构

在各种实施例中，本文所描述的技术是由一个或多个装置(比如一个或多个专用计算设备)实现的。在至少一个实施例中，一个或多个这样的专用计算设备可以被连接在一起和/或被连接到其他计算设备。

图9是示出这样的专用计算设备900的组件的例子的框图。在该例子中，计算设备900包括接口***905。接口***905可以包括网络接口，比如无线网络接口。可替代地，或附加地，接口***905可以包括通用串行总线(USB)接口或另一这样的接口。

设备900包括逻辑***910。逻辑***910可以包括处理器，比如通用单芯片或多芯片处理器。逻辑***910可以包括数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立的门或晶体管逻辑、或分立的硬件组件、或它们的组合。逻辑***910可以被配置为控制设备900的其他组件。尽管图9中示出设备900的组件之间没有接口，但是逻辑***910可以被配置为具有用于与其他组件通信的接口。视情况，其他组件可以被配置为彼此通信，或者可以不被配置为彼此通信。

逻辑***910可以被配置为执行音频处理功能性，包括但不限于本文所描述的技术。在一些这样的实现中，逻辑***910可以被配置为(至少部分地)根据存储在一个或多个非暂时性介质上的软件(比如计算机程序)进行操作。非暂时性介质可以包括与逻辑***910相关联的存储器，比如随机存取存储器(RAM)和/或只读存储器(ROM)。非暂时性介质可以包括存储器***915的存储器。存储器***915可以包括一种或多种合适类型的非暂时性存储介质，比如闪存存储器、硬盘驱动器等。

显示***930可以根据设备900的表现而包括一种或多种合适类型的显示器。例如，显示***930可以包括液晶显示器、等离子体显示器、双稳显示器等。

用户输入***935可以包括被配置为接受来自用户的输入的一个或多个设备。在一些实现中，用户输入***935可以包括覆盖显示***930的显示的触摸屏。用户输入***935可以包括鼠标、跟踪球、手势检测***、控制杆、呈现在显示***930上的一个或多个GUI和/或菜单、按钮、键盘、开关等。在一些实现中，用户输入***935可以包括麦克风925；用户可以经由麦克风925为设备900提供语音命令。逻辑***可以被配置用于语音识别并且用于根据这样的语音命令来控制设备900的至少一些操作。

电力***940可以包括一个或多个合适的能量储存设备，比如镍镉电池或锂离子电池。电力***940可以被配置为从电插座接收电力。

等同、扩展、替代及其他

对于本领域技术人员来说，在研究上面的描述之后，本公开的另外的实施例将变得清楚。

例如，在另外的实施例中，可以在对第一采样速率的音频数据执行信号处理之前使用一种类型的滤波器组来将该音频数据转换到频域中，并且对第二采样速率音频数据应用滤波可以包括应用不同类型的滤波器组，而不是应用相同的滤波器组的改动版本，前提条件是频域音频数据的所得带仍为信号处理模块210可以对其进行操作的格式。

附加地或可替代地，在另外的实施例中，滤波器组生成频率数据的第一数量的带，其改动版本生成频率数据的第二数量的带，第二数量高于第一数量，第一数量与第二数量的比率小于第一采样速率与第二采样速率的比率。在这样的实施例中，信号处理模块210或其上游的模块被配置为对频率数据的带执行抽取(因为抽取之前的频率数据的带的采样速率高于第一采样速率)。在一些实施例中，第一信号处理是采样速率不可知的(组成的(constituent)信号处理中的任何一个均不依赖于正在被处理的数据的采样速率)，所以不需要抽取。

附加地或可替代地，在另外的实施例中，滤波器组生成频率数据的第一数量的带，其改动版本生成频率数据的第二数量的带，第二数量高于第一数量，第一数量与第二数量的比率高于第一采样速率与第二采样速率的比率。在这样的实施例中，信号处理模块210或其上游的模块被配置为对频率数据的带执行插值(因为抽取之前的频率数据的带的采样速率低于第一采样速率)。在一些实施例中，第一信号处理是采样速率不可知的(组成的信号处理中的任何一个均不依赖于正在被处理的数据的采样速率)，所以不需要插值。

附加地或可替代地，在另外的实施例中，第二信号处理不是基于第一信号处理的动态增益来应用动态增益，而是可以包括通过以下方式来应用动态增益，即，对通过第一信号处理生成的数据进行分析，以便由此找到当被作为第二信号处理的一部分应用时导致组合的(处理的)第一滤波音频数据和第二滤波音频数据的频谱适当对齐的增益。

即使本说明书和附图公开了实施例和例子，本公开也不限于这些特定的例子。在不脱离由所附权利要求限定的本公开的范围的情况下，可以做出许多修改和变化。

权利要求中出现的任何引用符号都不应被理解为限制它们的范围。

附加地，所公开的实施例的变型可以被技术人员在实施本公开时通过研究附图、公开内容和所附权利要求来理解和实施。在权利要求中，词语“包括”不排除其他要素或步骤，并且不定冠词“一”、“一个”不排除多个。仅仅某些措施被记载在相互不同的从属权利要求中的这一事实并不表明这些措施的组合不能被用来获得益处。

Claims

1.一种装置中的信号处理方法，该装置被配置为对第一采样速率的音频数据执行信号处理，该方法包括：

接收第二采样速率的音频数据，第二采样速率高于第一采样速率；

对第二采样速率的音频数据应用滤波以由此产生第一滤波音频数据和第二滤波音频数据，第一滤波音频数据主要包括人耳可听的范围内的分量频率，第二滤波音频数据主要包括高于人耳可听的范围的分量频率；

对第一滤波音频数据应用第一信号处理，其中所述应用第一信号处理包括应用以下中的至少一个：对话增强、音量调平或均衡化；以及

对第二滤波音频数据应用第二信号处理，第二信号处理具有比第一信号处理低的计算复杂度，

其中，装置被配置为在对第一采样速率的音频数据执行信号处理之前使用滤波器组来将该第一采样速率的音频数据转换到频域中，并且其中，所述对第二采样速率的音频数据应用滤波包括对第二采样速率的音频数据应用滤波器组的改动版本，

其中，滤波器组生成频域音频数据的第一数量的带，并且其改动版本生成频域音频数据的第二数量的带，第二数量高于第一数量，带的第一数量与带的第二数量的比率和第一采样速率与第二采样速率的比率是相同的，以及

其中频域音频数据的所有的带具有基本上相同的带宽。

2.根据权利要求1所述的方法，其中，滤波器组包括第一数量的滤波器，并且其改动版本包括第二数量的滤波器，第二数量高于第一数量，滤波器的第一数量与滤波器的第二数量的比率和第一采样速率与第二采样速率的比率是相同的。

3.根据权利要求1所述的方法，其中所述对第一滤波音频数据应用第一信号处理利用对第一采样速率的音频数据执行的信号处理的至少一个处理或步骤。

4.根据权利要求1所述的方法，其中，滤波器组接收第一采样速率的音频数据的第一数量的采样，并且其改动版本接收第二采样速率的音频数据的第二数量的采样，第二数量高于第一数量，采样的第一数量与采样的第二数量的比率和第一采样速率与第二采样速率的比率是相同的。

5.根据权利要求1所述的方法，其中，滤波器组及其改动版本分别是具有第一抽取因子和第二抽取因子的抽取式滤波器组，第二抽取因子高于第一抽取因子，第一抽取因子与第二抽取因子的比率和第一采样速率与第二采样速率的比率是相同的。

6.根据权利要求1所述的方法，其中，所述第二信号处理包括基于第一信号处理的动态增益来应用动态增益。

7.根据权利要求1所述的方法，其中，所述第二信号处理包括所述第一信号处理的步骤或处理的在计算上较简单的版本。

8.根据权利要求1所述的方法，其中，所述应用第二信号处理包括不应用以下中的任何一个：对话增强、音量调平或均衡化。

9.根据权利要求1所述的方法，其中，所述对第二滤波音频数据应用第二信号处理包括第二滤波音频数据的时域信号处理。

10.根据权利要求1所述的方法，其中，第一采样速率为44.1kHz或48kHz中的一个。

11.根据权利要求1所述的方法，其中，第二采样速率为88.2kHz、96kHz、176.4kHz或192kHz中的一个。

12.根据权利要求1至11中任一项所述的方法，其中，第二信号处理包括引入延迟来补偿由第一信号处理引入的延迟。

13.一种信号处理装置，包括：

输入，该输入用于接收第一采样速率的音频数据和第二采样速率的音频数据；以及

逻辑***，该逻辑***被配置为执行根据权利要求1至12中任一项所述的方法。

14.一种计算机可读介质，该计算机可读介质包括当被逻辑***执行时将逻辑***配置为执行根据权利要求1至12中任一项所述的方法的软件指令。