CN108630211A

CN108630211A - 使用全通滤波器的动态音频增强

Info

Publication number: CN108630211A
Application number: CN201810231519.9A
Authority: CN
Inventors: E·L·特拉梅尔; J·R·古尔德
Original assignee: Ban Bu Technology Co Ltd
Current assignee: Ban Bu Technology Co Ltd
Priority date: 2017-03-20
Filing date: 2018-03-20
Publication date: 2018-10-09
Also published as: US10477314B2; US20180270574A1

Abstract

本发明涉及使用全通滤波器的动态音频增强。输入音频信号在与原始版本的所述输入音频信号结合之前被全通滤波和缩放，以产生输出信号。检测输入信号的包络，且所述全通滤波器随着检测的包络动态地或实时地改变。其他实施方式也被描述和要求保护。

Description

使用全通滤波器的动态音频增强

技术领域

本发明的实施方式总体上涉及音频信号处理技术，旨在提高音频信号在播放期间的声音方面的质量。还描述了其他实施方式。

背景技术

在现代持续了对能够再现具有更高质量的声音的音频信号处理技术和音响***的探寻。原始的、高质量的音频信号通常由于为了存储和传输而对其施加的操作而变差。为了减少存储需求或满足通过互联网降低的传输带宽，当原始音频信号经过有损压缩以降低其比特率时，播放期间的低质量声音的问题尤为严重。

编码和然后解码(编解码处理)的音频信号的质量可通过编解码处理的信号的数字信号处理来改善，以寻求谐波增强和频率均衡信号。数字滤波器可以被设计成整形经过它的编解码处理的音频信号的相位和频率内容，以希望恢复丢失的真实性(如其播放期间所经历的那样)。在另一种方法中，已经提出全通滤波器的使用，其作为信号处理模块，在增益或幅值方面均等地传送所有频率，但改变各种频率之间的相位关系。在全通滤波器中，输出和输入之间的相移随频率而变化。全通滤波器可以由其相移跨过90°时的频率来描述，或者由当输入和输出信号被描述为正交时的频率来描述或者由当输出和输入之间存在四分之一波长的延迟时的频率来描述。全通滤波器通常用于补偿音频***中出现的不希望的相移。全通滤波器可以以很多方式实现为数字无限脉冲响应(infinite impulse response，IIR)滤波器，其差分方程具有众所周知的一般形式：

任何编解码处理的音频信号增强技术的功效可以通过对增强的音频信号的频谱内容与原始音频信号进行比较来判断，或者可以根据增强的音频信号在播放期间的声音的改善来判断。

发明内容

本发明的一个实施方式是一种数字音频信号增强技术，用于处理输入音频信号以产生输出音频信号，从声音更饱满或更丰富来说，该输出音频信号可以在其播放期间如何发声方面具有改进的质量，或显然为更真实的声音。然后，可以使用有损压缩算法(用于比特率降低)对输出音频信号进行编码，然后接着进行解码以准备播放。这种情况下，增强技术是预处理操作，其使得后续音频信号的编解码处理变型能够保持更完整的音频频谱(与没有应用增强技术作为预处理操作的情况下产生编解码处理信号的情况相比)。特别地，预处理可有利地防止编解码处理的音频信号的较高频率内容被抑制。

在本发明的另一实施方式中，输入音频信号在被并行地分别馈送到相应的增强处理模块之前被分成其低频部分和高频部分。然后，这两个增强处理模块的输出可以通过求和单元进行结合。

对于立体声音频信号的典型的左信道和右信道中的各信道，增强处理可以被复制，其中每个信道被单独增强而没有来自其他信道的作用。

上述概述不包括本发明所有方面的详尽列举。能够预料，本发明包括能够从上述概括的各个方面的所有合适组合以及在下述的详细描述中公开的并且在与本申请一起提交的权利要求中特别指出那些内容来实现的所有***和方法。这些组合具有在上述概述中没有具体列举的特定优点。

附图说明

本发明的实施方式在附图中以示例而非限制的方式示出，其中，相同的附图标记指代同样的元件。应该注意的是，在本公开中对本发明的“一”或“一个”实施方式的引用不一定针对相同的实施方式，并且它们意指至少一个。而且，为了简洁和减少图的总数，可以使用给定的图来说明本发明的多于一个实施方式的特征，并且对于给定的实施方式可能不需要图中的所有元件。

图1是具有全通模块的数字音频信号处理器的框图。

图2是作为全通模块的一部分的示例性全通滤波器的信号流程图。

图3a示出了图2中所示的全通滤波器的示例的幅值响应。

图3b示出了全通滤波器的示例的相位响应。

图4a示出了全通滤波器的示例的群延迟。

图4b示出了全通滤波器的示例的脉冲响应。

图5是使用图1中的全通模块的低通版本的另一种信号增强技术的框图。

图6示出了图1的全通模块的高通版本。

图7示出了信号增强技术的示例性多信道应用，其中，左信道和右信道在被编解码处理之前被相应的全通模块分别预处理。

图8示出了对原始立体声音频信号执行的传统编解码过程。

图9是示例性原始音频信号的幅值频谱的曲线图。

图10是在没有对原始信号预处理的情况下图9的原始信号的编解码处理变型的幅值频谱。

图11是在对原始信号预处理的情况下图9的原始信号的编解码处理变型的幅值频谱。

具体实施方式

现在参照附图说明本发明的多个实施方式。每当实施方式中描述的部件的形状、相对位置和其他方面没有明确限定时，本发明的范围不仅限于所示出的部件，所示出的部件仅仅是为了说明的目的。而且，虽然阐述了许多细节，但应该理解，可以在没有这些细节的情况下实践本发明的一些实施方式。在其他情况下，众所周知的电路、结构和技术未被详细示出以免使对本说明书的理解模糊不清。

图1是数字音频信号处理器的框图，其具有全通模块1，所述全通模块1对输入音频信号进行滤波，以在求和单元5的输入处产生全通滤波版本。作为全通模块1的一部分，存在全通滤波器2，所述全通滤波器2具有接收输入音频信号的输入和改变全通滤波器的相位响应的控制输入。所述控制输入连接到也接收输入音频信号的调制发生器6的输出。在一个实施方式中，调制发生器6和全通滤波器2的输入是相同的输入音频信号，而在其他实施方式中可以存在被添加到全通滤波器2的前端的延迟元件(如图1中的虚线所示)(并且不在调制发生器6的前端)。可选的延迟元件可以呈现静态延迟(例如，不变的，而全通滤波器2被调制发生器6动态地改变)。通过增益元件4对全通滤波器2的输出进行缩放以产生缩放的全通滤波版本。来自全通模块1的输出的信号在求和单元5处与绕过全通模块1的输入音频信号结合。因此，求和单元5的输出产生输出音频信号，该输出音频信号是为了改善真实性而增强的输入音频信号的增强版本。

输入音频信号可以由音频源7(诸如存储在存储器中并由处理器执行的数字媒体播放器程序)产生为数字音频信号，处理器和存储器可以是服务器的一部分，或者它们可以是消费类电子产品终端用户设备(诸如智能手机、笔记本电脑或车载信息娱乐***)的一部分。音频源7和全通模块1之间的链接可以包括例如经由互联网或经由蜂窝电话网络的数字通信路径。在另一个实施方式中，音频源7和全通模块1之间的连接可以完全位于服务器内，例如作为媒体服务器的产生输出音频信号的一部分，所述输出音频信号通过互联网而被流传输；在该情况下，出于比特率降低的目的，输出音频信号可以由音频编码器8编码，例如，音频编码器8可以执行有损压缩算法。在编码之后，由撤销由音频编码器8执行的编码的音频解码器10执行对应的解码操作。解码器10可以是消费类电子产品终端用户设备(客户端或播放设备)的一部分，消费类电子产品终端用户设备诸如智能手机、笔记本电脑或车载信息娱乐***。音频编码器8的输出端与音频解码器10的输入端之间的“信道”可以包括经由因特网或其他数字通信网络(例如包括蜂窝电话网络)的路径。它也可以是或者代之以存储设备，所述存储设备诸如基于云的大容量存储器。在另一个实施方式中，输出音频信号可以被音响***9转换为声音，例如，音响***9作为消费类电子产品终端用户(客户端或播放)设备的一部分，其中在此情况下，全通模块1和求和单元5可以在音响***9是其一部分的同一消费类电子产品设备内实现，消费类电子产品设备例如是智能手机、笔记本电脑或车载信息娱乐***。

仍参考图1，调制发生器6可用于检测输入音频信号的包络，同时输入音频信号在被求和元件5结合之前被全通滤波器2滤波并且被增益元件4缩放。在一个实施方式中，调制发生器6可以是使用数字信号处理实现的包络跟随器或包络检测器，所述包络跟随器或包络检测器计算输入音频信号的幅值的移动平均值。检测的包络(作为计算出的移动平均值)可以以输入音频信号的每个采样到每10(十)个采样之间的速率更新。可以针对输入音频信号的采样窗口计算移动平均值，其中所述窗口可以具有在1(一)个采样到50(五十)个采样的范围的长度，而不管采样率如何。请注意，本文中术语“平均值”一般用于指的是集中趋势的任何度量，其包括仅作为示例的样本的算术平均值，因为计算集中趋势的度量的其他方式是可能的；在本文术语“幅值”也一般限定为指的是例如峰-峰幅值或根均方(root meanssquare，RMS)幅值。

(由调制发生器6)检测的包络用于“动态地”或实时地改变全通滤波器2。因此，全通滤波器2是由调制发生器6例如以输入音频信号的每个采样、或稍慢例如高达每10个采样的速率更新的时变数字滤波器。图2中的信号流程图描述了全通滤波器2的一个示例。存在一个滤波器输入，在所述滤波器输入处的x[n]代表输入序列(输入音频信号)，以及一个滤波器输出，在所述滤波器输出处的y[n]是输出序列。求和点11具有第一输入和第二输入，所述第一输入通过具有标量增益g₁的前馈增益元件13接收滤波器输入x[n]的未延迟版本，所述第二输入通过输入序列x[n]经过具有第一延迟d₁的前馈延迟元件12而接收滤波器输入x[n]的延迟版本。求和点11具有第三输入，所述第三输入通过使滤波器输出信号y[n]经过具有第二延迟d₂的反馈延迟元件14而接收滤波器输出y[n]的延迟版本。由于可变的第一延迟d₁，全通滤波器2的相位响应是时变的，第一延迟d₁代表采样的数量(通过这些采样，延迟了滤波器输入的延迟版本(通过前馈延迟元件12))。在图2中这由z变换命名来表示，代表延迟元件12的变换函数。全通滤波器2的时变相位响应也由于可变标量增益g₂而产生，g₂是通过反馈增益元件15施加于滤波器输出的延迟版本的增益。

在一个实施方式中，这两个时变元件，即延迟元件12和增益元件15，是全通滤波器2的仅时变元件，其根据检测的包络被动态地或实时地进行更新。前馈增益元件13的标量增益g₁和由反馈延迟元件14提供的第二延迟d₂可以保持不变或静态(相对于动态变化的第一延迟d₁和标量增益g₂)。换句话说，全通滤波器2的相位响应由于d₁和g₂的变化而变化，d₁和g₂由调制发生器6(参见图1)动态地控制，而由延迟元件14提供的延迟和由增益元件13施加的增益是不变化的。当然，应该认识到静态参数g₁和d₂仍然可以改变以适应全通模块1的特定“调谐”，考虑到增强预处理的特定应用，诸如(例如，基于也作用于输入音频信号并且在预处理之前或之后的上行通信音频信号处理链的特定元件来确定的)输入音频信号的类型。全通模块1的静态调谐也可以基于将对输出音频信号执行的预期的后续或下游处理(例如，编解码处理，或用于播放的渲染，诸如动态范围控制和均衡)设置。静态参数可以在下述期间被调谐：例如，考虑到特定类型的输入音频信号的全通模块1的实验室测试，包括例如输出音频信号的动态范围或对输出音频信号执行的预期的后续处理，例如特定类型的编解码处理或用于播放的特定音响***。

第一延迟d₁可以指采样的数量，通过这些采样，滤波器输入x[n]被延迟元件12延迟，第一延迟d₁与输入音频信号x[n]的检测的包络成比例地在最小延迟(下限)和最大延迟(上限)之间可变。换言之，通过检测x[n]的包络的调制发生器6以动态方式调制全通滤波器2，使得第一延迟d₁与检测的包络增大成比例地变长或响应于检测的包络增大而变长，与检测的包络减小成比例地变短或响应于检测的包络减小而变短。例如，如果最小延迟被设置为“0”并且最大延迟被设置“10”，并且输入信号的包络或电平为允许的最高电平的50％，那么第一延迟d₁被设定为“5”。这个数字代表第一延迟d₁根据输入信号x[n]实时变化。在一个实施方式中，当输入音频信号的电平为“最低”时，这可能发生于输入音频信号处于高于本底噪声的某最低阈值电平时，调制发生器6被设计成设置第一延迟d₁为“0”(最小延迟)。另外，在一个实施方式中，调制发生器6被设计为独立于用户音量设置(其可以由播放设备的用户“手动”调整以调整由音响***9产生的声音的音量-见图1)。

在一个实施方式中，施加到滤波器输出的延迟版本的反馈增益g₂(在求和点11的第三输入)是与输入音频信号的检测的包络成比例地可变的(在最大增益和最小增益之间)。例如，反馈增益g₂响应于检测的包络增大而增大，响应于检测的包络减小而减小。在一个实施方式中，同样的检测的包络可能会触发反馈增益g₂的变化和第一延迟d₁的变化。

图3a示出了图2中所示的全通滤波器的示例性的幅值响应，其中，最小延迟＝1和最大延迟＝10。图3b示出其相位响应，图4a示出其群延迟，并且图4b示出其脉冲响应。

现在转到图5，其是另一种信号增强技术的框图，其中，着重于低通的全通模块1_LP用于产生音频输出信号。模块1_LP是图1中的全通模块1的着重于低通的版本，其中，通过低通滤波器(low-pass filter)LPF 17对输入音频信号x[n]进行低通滤波以产生低通滤波版本，然后输入到全通滤波器2。换言之，LPF 17具有接收x[n](可选地延迟，如图1所示)的输入和提供全通滤波器2的输入的输出。因此，LPF 17在全通滤波器2的前端，而不在调制发生器6的前端。

在图6中，着重于高通的全通模块1_HP用于产生音频输出信号。在全通模块1_HP中，代替LPF 17，高通滤波器(high-pass filter)HPF 19被***到全通模块2的前端(而不是调制发生器6的前端)。请注意，在图5和图6中，调制发生器6的输入如何保持为未经滤波的输入音频信号x[n]，以及未经滤波的输入音频信号在绕过全通模块1_LP或1_HP时如何仍然在求和单元5处与全通滤波器2的缩放输出结合。

现在转到图7，示出了音频信号增强技术的多信道应用，其中，左信道L和右信道R中的各信道分别由相应的全通模块对1_LP、1_HP进行预处理，并且在求和单元5处被结合。然后，由音频编码器8和随后的音频解码器10对(分别在成对的求和单元的输出处的)增强或预处理的L和R音频输出信号进行编解码处理。对于L输入信道和R输入信道中的各信道，存在两个全通模块，即如图5所示的全通模块1_LP和图6所示的全通模块1_HP，这两个全通模块对相同的输入音频信号进行操作。输入音频信号分成三路，使得通过三条路径(即两个全通模块1_LP、1_HP和旁路路径)并行处理输入音频信号。三条路径的输出由求和单元5结合以产生相应的L或R增强的或预处理的信道。

图9是示例性的48kHz采样率WAV格式的原始输入音频信号的幅值频谱的曲线图，例如原始输入音频信号可以是图7的实施方式中的L或R信道。完整的频谱具有高达约16kHz的显著的频率分量。图10是图9的原始输入音频信号的“裸”编解码处理变型的幅值频谱，没有(对图8所示的原始输入音频信号)施加上述信号增强预处理。请注意，如图10所示，对6500Hz以上的频率分量有明显的抑制作用。图11是使用根据上述的技术执行了预处理的图9的原始输入音频信号的预处理变型的编解码处理变型(与图10中使用的编解码器相同)的幅值频谱。可以看出，这种编解码器处理变型如何在6500Hz至17kHz之间具有显著的频率分量。因此，根据上述信号增强技术的输入音频信号的预处理防止了随后的编解码处理变型中的较高频率分量的抑制，从而导致具有增强的真实性的输出音频信号。

如上所述，本发明的实施方式可以是数字信号处理方法，其包括诸如全通滤波、缩放、结合(例如，求和)、包络检测和全通滤波的时变的操作。这些操作可以完全由根据上述的结构算法或程序进行编程的编程处理器执行。本发明的另一个实施方式是一种机器可读介质(例如微电子存储器)，其中存储有对一个或多个数据处理部件(此处统称为“处理器”)进行编程以执行上述结构化数字信号处理操作的指令。这样的指令可以是媒体服务器应用程序或媒体客户端/播放器应用程序的一部分。在其他实施方式中，这些操作中的一些可以由包含硬连线逻辑的特定硬连线电路部件(例如，专用数字滤波模块，状态机)执行。这些操作也可以通过编程的数据处理部件和硬连线电路部件的任意组合来可替选地执行。

虽然已经在附图中描述和示出了某些实施方式，但应该理解的是，这样的实施方式仅仅是对宽泛的本发明的示例说明而不是限制，并且本发明不限于所示出和描述的具体构造和布置，因为本领域的普通技术人员可以想到各种其他修改。例如，在图7中，虽然求和单元5被示出为具有源于相同输入音频信号(L或R信道)的分别连接到三个路径的三个输入，但求和单元5也可以具有源于相同输入音频信号(L或R信道)的连接到的其他信号处理路径的附加输入，以便为输出音频信号提供附加的调节。作为示例，可能存在低音增强路径和管模拟器路径(除了图7中所示的全通模块路径之外)。因此，认为本说明书是示例性的而不是限制性的。

Claims

1.一种数字信号处理方法，用于增强输入音频信号的真实性，所述数字信号处理方法包括以下操作：

a.使用全通滤波器对输入音频信号进行滤波，以产生全通滤波版本；

b.对所述全通滤波版本进行缩放以产生缩放的全通滤波版本；

c.将所述缩放的全通滤波版本与所述输入音频信号结合，以形成输出音频信号；

d.在执行操作a中的所述滤波、操作b中的所述缩放和操作c中的所述结合的同时，检测所述输入音频信号的包络；以及

e.根据检测到的所述输入音频信号的包络来改变所述全通滤波器。

2.根据权利要求1所述的方法，其中，所述全通滤波器包括：

a.滤波器输入；

b.滤波器输出；

c.求和点，所述求和点具有：

i.第一输入，用于接收所述滤波器输入的未延迟版本，

ii.第二输入，用于接收所述滤波器输入的延迟版本，和

iii.第三输入，用于接收所述滤波器输出的延迟版本。

3.根据权利要求2所述的方法，其中，改变所述全通滤波器包括：

改变第一延迟，所述第一延迟为采样的数量，通过这些数量的采样，延迟了所述滤波器输入的所述延迟版本。

4.根据权利要求3所述的方法，其中，所述第一延迟与检测到的所述输入音频信号的包络成比例地在最小延迟和最大延迟之间变化，因此所述第一延迟与检测到的包络增大成比例地变长，与检测到的包络减小成比例地变短。

5.根据权利要求1至4中任一项所述的方法，其中，检测所述输入音频信号的包络包括：

计算所述输入音频信号的幅值的移动平均值，其中所述检测到的包络以所述输入音频信号的每个采样到每十个采样之间的速率被更新为所述移动平均值。

6.根据权利要求2至5中任一项所述的方法，其中，所述全通滤波器包括：

a.在所述求和点的所述第三输入处施加到所述滤波器输出的延迟版本的反馈增益，

并且其中，改变所述全通滤波器包括与检测到的所述输入音频信号的包络成比例地改变所述反馈增益。

7.根据权利要求6所述的方法，其中，与检测到的所述输入音频信号的包络成比例地改变所述反馈增益包括：

响应于所述检测到的包络增大而增大所述反馈增益，并且响应于所述检测到的包络减小而减小所述反馈增益。

8.根据权利要求1至7中任一项所述的方法，还包括：

对所述输入音频信号进行低通滤波以产生低通滤波版本，其中，使用所述全通滤波器对所述输入音频信号进行滤波包括对所述低通滤波版本进行滤波。

9.根据权利要求1至8中任一项所述的方法，还包括使用有损压缩算法对所述输出音频信号进行编码。

10.根据权利要求1至8中任一项所述的方法，还包括将所述输出音频信号变换成声音。

11.一种数字音频信号处理器，被配置为处理输入音频信号以增强其真实性，所述数字音频信号处理器包括：

a.全通滤波器，所述全通滤波器具有接收输入音频信号的输入和改变所述全通滤波器的相位响应的控制输入；

b.增益元件，所述增益元件具有连接到所述全通滤波器的输出的输入；

c.求和单元，所述求和单元具有连接到所述增益元件的输出的第一输入，接收绕过所述全通滤波器和所述增益元件的所述输入音频信号的第二输入；和

d.调制发生器，所述调制发生器具有接收绕过所述全通滤波器和所述增益元件的所述输入音频信号的输入，其中，所述调制发生器具有连接到所述全通滤波器的所述控制输入的输出。

12.根据权利要求11所述的处理器，其中，所述调制发生器包括包络跟随器，并且所述全通滤波器包括：

a.滤波器输入；

b.滤波器输出；

c.求和点，所述求和点具有：

i.第一输入，用于接收来自所述滤波器输入的信号的未延迟版本，

ii.第二输入，用于接收来自所述滤波器输入的信号的延迟版本，和

iii.第三输入，用于接收来自所述滤波器输出的信号的延迟版本。

13.根据权利要求12所述的处理器，其中，所述全通滤波器的所述控制输入改变第一延迟，所述第一延迟为采样的数量，通过这些数量的采样，延迟了所述滤波器输入的所述延迟版本。

14.根据权利要求13所述的处理器，其中，所述第一延迟与所述输入音频信号的包络成比例地在最小延迟和最大延迟之间变化，因此所述第一延迟与包络增大成比例地变长，与包络减小成比例地变短。

15.根据权利要求12至14中任一项所述的处理器，其中，所述包络跟随器以所述输入音频信号的每个采样到每十个采样之间的速率重复计算所述输入音频信号的幅值的移动平均值。

16.根据权利要求12至15中任一项所述的处理器，其中，所述全通滤波器包括：

a.反馈路径增益元件，所述反馈路径增益元件在所述求和点的第三输入处将标量增益施加于来自所述滤波器输出的信号的延迟版本，

其中，所述标量增益与所述输入音频信号的包络成比例地变化。

17.根据权利要求11至16中任一项所述的处理器，还包括低通滤波器，所述低通滤波器具有用于接收所述输入音频信号的输入和用于馈送至所述全通滤波器的输入的输出。

18.根据权利要求11至17中任一项所述的处理器，其中，所述处理器与音频编码器结合，所述音频编码器实现有损压缩算法并具有连接到所述求和单元的输出的输入。

19.根据权利要求11至17中任一项所述的处理器，其中，所述处理器与音响***结合，所述音响***将来自所述求和单元的输出的输出音频信号转换为声音。

20.一种制品，包括：

非暂时性机器可读介质，所述非暂时性机器可读介质中存储有指令，当由处理器执行所述指令时，

e.在执行操作a中的所述滤波、操作b中的所述缩放和操作c中的所述结合的同时，根据检测到的所述输入音频信号的包络来改变所述全通滤波器。

21.根据权利要求20所述的制品，其中，所述机器可读介质具有存储于其中的指令，所述指令配置所述全通滤波器以使所述全通滤波器包括：

a.滤波器输入；

b.滤波器输出；

c.求和点，所述求和点具有：

i.第一输入，用于接收所述滤波器输入的未延迟版本，

ii.第二输入，用于接收所述滤波器输入的延迟版本，和

iii.第三输入，用于接收所述滤波器输出的延迟版本。