CN104050971A

CN104050971A - 声学回声减轻装置和方法、音频处理装置和语音通信终端

Info

Publication number: CN104050971A
Application number: CN201310084973.3A
Authority: CN
Inventors: 施栋; 孙学京; 格伦·迪金斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-03-15
Filing date: 2013-03-15
Publication date: 2014-09-17
Also published as: US9947336B2; EP2973557B1; WO2014150211A1; EP2973557A1; US20160019909A1

Abstract

本申请提供了声学回声减轻装置和方法、音频处理装置和语音通信终端。根据一种实施方式，提供了一种声学回声减轻装置，包括：声学回声消除器，用于从麦克风信号中消除估计的声学回声，并且输出差信号；残余回声估计器，用于估计残余回声功率；以及声学回声抑制器，用于基于残余回声功率和噪声功率来进一步抑制差信号中的残余回声和噪声。这里，残余回声估计器被配置成连续地自适应于差信号的功率变化。根据本申请的实施方式，声学回声减轻装置和方法可以至少很好地自适应于AEC处理之后的差信号的功率变化，比如由双向谈话状态、回声路径特性、噪声水平等的变化所引起的差信号的功率变化。

Description

声学回声减轻装置和方法、音频处理装置和语音通信终端

技术领域

本申请总体上涉及音频信号处理。更具体地，本申请的实施方式涉及声学回声减轻装置和方法，以及包括该声学回声减轻装置的音频处理装置和语音通信终端。

背景技术

在语音通信中，缓解声学回声是一个巨大的挑战。声学回声是由麦克风可能再次捕获由扬声器播放的音频信号（扬声器信号或者参考信号）的事实引起的，从而，在另一侧（远端）的交谈者将连同近端的输入一起听到他自己的声音。

通常有两种用于减轻声学回声的基本技术。一种技术是声学回声消除（AEC），另一种技术是声学回声抑制（AES）。现今，通常使用AEC来消除来自麦克风信号的大部分声学回声，并且通常使用AES来进一步抑制在AEC处理之后所获得的差信号中的残余回声。当期望复杂度较低或对微小的回声路径变化具有鲁棒性时，可以单独使用AES（Christof Faller,Jingdong Chen:Suppressing Acoustic Echo in a Spectral Envelope Space.IEEE Transactions on Speech and Audio Processing13(5-2):1048-1062(2005)，其全部内容通过引用合并到本文中）。

AES的恰当运转取决于基于残余回声功率而获得的恰当增益，该残余回声功率是根据从AEC输出的差信号估计的。但是，由于差信号的功率变化，既鲁棒又快速地估计残余回声功率是一项有挑战性的任务，差信号的功率变化可以由各种因素引起，比如噪声、双向谈话（或近端谈话）、回声路径（扬声器-场地-麦克风，LEM）的特性变化比如在耳机和扬声器之间的切换等。

一种解决方案是采用简单的硬判决语音活动检测器获得双向谈话标记，然后，可以取决于该标记来调整AES，以使得近端谈话不会被认为是残余回声而被错误地抑制。可以在Makoto Shozakai等人的于2008年10月21日授权的，并且初始转让给Asahi Kasei Kabushiki Kaisha的题为“Speech Processing Method and Apparatus for Improving Speech Qualityand Speech Recognition Performance”的美国专利No.7440891中找到示例，其全部内容通过引用合并到本文中。但是，在这样的解决方案中，针对双向谈话的硬判决标记将取决于对阈值的经验性选择，这通常不能满足所有场景中的要求。此外，这样的解决方案往往混淆了双向谈话和其他变化，比如同样会引起差信号的功率变化的回声路径变化或噪声水平变化。

发明内容

本申请的实施方式提供了至少适当地处理差信号的功率变化的解决方案。本申请不是进行与例如双向谈话、回声路径变化或噪声相关的硬判决，而是提出了基于精心设计的机制根据历史选择更加可靠的估计的同时，连续地追踪或者跟随差信号的功率变化。以此方式，很好地跟随了回声路径变化（包括噪声变化）并且很好地将其与双向谈话进行区分。此外，所提出的方法提出了使用软判决来控制AEC中的自适应滤波器的方式。这样就不一定要定义用于确定双向谈话/回声路径变化的硬阈值。

根据本申请的一种实施方式，提供了一种声学回声减轻装置，包括：声学回声消除器，用于从麦克风信号中消除估计的回声，并且输出差信号；残余回声估计器，用于估计残余回声功率；以及声学回声抑制器，用于基于残余回声功率和噪声功率来进一步抑制差信号中的残余回声和噪声。这里，残余回声估计器被配置成连续地自适应于差信号的功率变化。

根据另一种实施方式，还提供了一种声学回声减轻方法，包括：使用声学回声消除器来从麦克风信号中消除估计的回声，产生差信号；以连续地自适应于差信号的功率变化的方式，基于差信号估计残余回声功率；以及使用声学回声抑制器来基于残余回声功率和噪声功率进一步抑制差信号中的残余回声和噪声。

本申请还提供了包括上述声学回声减轻装置的音频处理装置，以及包括上述声学回声减轻装置的语音通信终端。

又一个实施方式涉及其上记录有计算机程序指令的计算机可读介质，当该指令由处理器执行时，使得处理器能够执行上述声学回声减轻方法。

根据本申请的实施方式，声学回声减轻装置和方法至少可以很好地自适应于AEC处理之后的差信号的功率的变化，比如因双向谈话状态的变化、回声路径特性的变化、噪声水平的变化等引起的差信号的功率的变化。

附图说明

附图以示例而非限制性的方式来说明本申请，在附图中，相同的附图标记指代相似的元件，其中：

图1是示意性地示出了本申请的实施方式可以应用的示例语音通信***的图；

图2是示出了根据本申请的实施方式的声学回声减轻装置的图；

图3至图7是示出了根据如图2所示的实施方式的声学回声减轻装置的变型的图；

图8是示出了根据本申请的另一种实施方式的声学回声减轻装置的图；

图9是示出了根据如图8所示的实施方式的变型的声学回声减轻装置的图；

图10是示出了用于实现本申请的实施方式的示例***的框图；

图11至图17是示出了根据本发明的实施方式以及这些实施方式的一些变型的声学回声减轻方法的流程图；以及

图18至图19是示出了本申请的实施方式的效果的曲线图。

具体实施方式

以下参照附图来描述本申请的实施方式。应当注意，为了简洁，在附图和描述中省略了与本领域的技术人员公知的但是对于理解本申请而言并非必需的部件和处理有关的表示和描述。此外，在本申请中提出的公式中的符号在整篇说明书中是一致的，除非另有说明。因此，为了简明起见，通常各个符号的含义只在第一次出现时说明一次，在其后不再重复。

本领域的技术人员应当理解，本申请的各个方面可以实施为***、设备（例如移动电话、便携式媒体播放器、个人计算机、服务器、电视机机顶盒或数字录像机或者任意其他媒体播放器）、方法或者计算机程序产品。因此，本申请的各个方面可以采用硬件的实施方式的形式、软件的实施方式（包括固件、驻留软件、微代码等）的形式或者软件方面与硬件方面相结合的实施方式的形式，在本文中其可以总体上被称为“电路”、“模块”或“***”。此外，本申请的各个方面可以采用包括在一个或更多个计算机可读介质中的计算机程序产品的形式，其中，计算机可读介质上包括有计算机可读程序代码。

可以利用一个或更多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体***、装置或设备、或者以上的任意适当的组合。计算机可读存储介质的更具体的示例（非穷举性的列举）可以包括：具有一条或更多条导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或闪存）、光纤、便携式光盘只读存储器（CD-ROM）、光学存储设备、磁性存储设备或者以上的任意适当组合。在本文献的上下文中，计算机可读存储介质可以是能够包含或者存储用于由指令执行***、装置或设备来使用或者与其结合使用的程序的任意有形的介质。

计算机可读信号介质可以包括其中包括有计算机可读程序代码的传播的数据信号，该数据信号为基带信号或者作为载波的一部分。这样的传播的信号可以采用各种形式，包括但不限于电磁信号或光学信号或者其任意适当的组合。

计算机可读信号介质可以为不是计算机可读存储介质并且可以传递、传播或传输用于由指令执行***、装置或设备使用或者与其结合使用的程序的任意计算机可读介质。

包括在计算机可读介质上的程序代码可以使用任意适当的介质发送，介质包括但不限于无线、有线线路、光纤光缆、射频（RF）等或者以上的任意适当的组合。

用于执行本申请的各个方面的操作的计算机程序代码可以用一种或更多种编程语言的任意组合来编写，编程语言包括面向对象的编程语言比如Java、Smalltalk、C++等以及传统的过程编程语言比如“C”编程语言或类似的编程语言。程序代码可以在用户的计算机上作为单独软件包整体执行，或者部分在用户的计算机上执行且部分在远程计算机上执行，或者整体在远程计算机或服务器上执行。在后一种场景中，远程计算机可以通过包括局域网（LAN）或广域网（WAN）的任意类型的网络连接至用户的计算机，或者可以连接到外部计算机（例如通过使用因特网服务提供商的因特网）。

下面参照根据本申请的实施方式的方法、装置（***）和计算机程序产品的流程图和/或框图来描述本申请的各个方面。应当理解，流程图和/或框图的每个块以及流程图和/或框图中的块的组合可以用计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，以形成机器，使得通过计算机或其他可编程数据处理装置的处理器来执行的指令形成用于实现流程图和/或框图的块或多个块中所指定的功能/行为的装置。

这些计算机程序指令还可以存储在如下计算机可读介质中：该计算机可读介质可以引导计算机、其他可编程数据处理装置或其他设备以特定的方式工作，以使得存储在计算机可读介质中的指令产生制品，该制品包括实现流程图和/或框图的块或多个块中所指定的功能/行为的指令。

计算机程序指令还可以加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列运算操作，从而产生计算机实现的处理，以使得在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图的块或多个块中所指定的功能/行为的处理。

***概述和整体解决方案

图1是示意性地示出了本申请的实施方式可以应用的示例语音通信***的图。

如图1所示，用户A操作通信终端A，并且用户B操作通信终端B。在语音通信会话中，用户A和用户B通过他们的通信终端A和通信终端B彼此交谈。通信终端A和通信终端B通过数据链路100耦接。数据链路100可以被实现为点对点连接或者通信网络。在用户A和用户B的任何一侧，通过数据链路100将音频块传送到另一个用户的通信终端。该另一个用户的通信终端接收传送的音频块并且将该音频块存储至与相同时间对应的条目，作为其抖动缓冲器中的音频块，以消除传输抖动。通过解码和处理来馈送抖动缓冲器中的音频块，以在通信终端的一个或多个输出换能器处再现这些音频块。

由一个终端比如终端B的扬声器再现的语音可能由同一终端的麦克风捕获（麦克风信号），从而传输到另一个终端比如终端A。因此，用户A将听到被传输到终端B（参考信号）又被返回到终端A的他/她自己的语音。这就是声学回声现象。因此，两个终端都需要用于减轻声学回声的模块。

如图2所示，根据一种实施方式，声学回声减轻装置200包括声学回声消除器（AEC）400，用于从麦克风信号中消除估计的声学回声，并且输出差信号；残余回声估计器（REE）500，用于估计残余回声功率；以及声学回声抑制器（AES）600，用于基于残余回声功率和噪声功率来进一步抑制差信号中的残余回声和噪声。其中，REE500被配置成连续地自适应于差信号的功率变化。

在该实施方式中，如同在常规的解决方案中，所有的输入音频信号首先被变换到频域，然后通过这些模块的处理。使用i和n来代表频点（frequency bin）和帧索引，而X(i，n)D(i，n)和E(i，n)分别是参考信号（或者远端发送信号/扬声器信号）、麦克风信号和滤波器输出的差信号。如果在声学回声减轻装置200中只使用了AEC400，则滤波器输出的差信号理论上是近端发送信号。在所提出的解决方案中，差信号进一步由REE500和AES600来处理。

AEC的任务应是从麦克风信号D(i，n)中移除回声，麦克风信号D(i，n)是通过LEM（扬声器-场地-麦克风，即，回声路径）300传输，并且因LEM300的传递函数H(i，n)而失真的扬声器信号X(i，n)。

在AEC模块中进行的基本操作形成自适应滤波器，该自适应滤波器通常采用通过以下公式所给出的归一化最小均方（normalized leastmean-square,NLMS）优化准则：

计算滤波器输出，也就是估计的声学回声：

\hat{D} (i, n) = \hat{H} * (i, n - 1) X (i, n) - - - (1)

计算差信号：

E (i, n) = D (i, n) - \hat{D} (i, n) - - - (2)

更新滤波器系数集合，或者传递函数：

\hat{H} (i, n) = \hat{H} (i, n - 1) + \frac{μ (i, n)}{P_{x} (i, n) + &Element;} X (i, n) E * (i, n) - - - (3)

其中，X(i，n)是参考信号历史，X(i，n)＝[X(i，n)，X(i，n-1)，...X(i，n-M-1)]^T，其中，M是指定滤波器长度的预定常数。P_x(i，n)是输入信号（参考信号）X(i，n)的功率，以及∈是为了避免0或极小分母的小的调节因子，其取决于数据精度，应该尽可能地小。与X(i，n)具有相同的维度，并且是实际传递函数H(i，n)的估计。μ(i，n)是用于更新系数集合的步长。

步长可以是固定的也可以是动态的。在本申请的一种实施方式中，残余回声估计器（REE）被配置成基于由REE所估计的残余回声功率（稍后将详细描述）和差信号的功率|E(i，n)|²来更新声学回声消除器中的步长μ(i，n)，即：

μ (i, n) = \frac{σ_{R}^{2} (i, n)}{{| E (i, n) |}^{2}} - - - (4)

在另一种实施方式中，差信号的功率|E(i，n)|²可以被替换为差信号的功率|E(i，n)|²的期望值

μ (i, n) = \frac{σ_{R}^{2} (i, n)}{σ_{E}^{2} (i, n)} - - - (5)

可以用各种方式来计算差信号功率的期望值，其中一种方式可以是：

σ_{E}^{2} (i, n) = \frac{Σ_{n = 1}^{P} {| E (i, n) |}^{2}}{U} - - - (6)

其中，U是用于计算该期望值（均值）的帧的数量。当然，该期望值还可以被计算成差信号功率的长期均值。可替代地，该期望值可以被计算成差信号功率的时间平滑版本。另外，还可以使用一阶IIR（无限冲击响应）滤波器来计算该期望值。

公式（4）反映了步长的瞬时值，而公式（5）反映了理论最优步长。当使用公式（4）时，如果例如在存在双向谈话的期间有明显的功率变化，则该步长将快速地减小，而在公式（5）中由于延迟而不会发生这种情况。因此，在实际中使用公式（4）提供应对比如双向谈话期间的功率变化的更高的鲁棒性。

用于更新AEC的滤波器的系数集合的步长通常用于基于NLMS的AEC中。有各种基于NLMS的算法，包括比例归一化最小均方（PNLMS）、改进的PNLMS（IPNLMS）和仿射投影算法（affine projection algorithm，APA）等。还有使用步长的其他算法，或者使用随着AEC的结果自适应地变化的其他参数的其他算法。

为了避免AEC中的自适应滤波器的发散，还可以如下限制步长：

μ(i，n)＝min(μ(i，n)，μ_max) (7)

其中，μ_max是步长的上限。通常，用于最快收敛的理论步长是1，而2是用于避免发散的上限。在本申请中，步长可以被设定为比1小很多。所以，取决于具体的应用场景，上限可以被设定为0.5至1，比如0.65。

残余回声功率还连同噪声功率估计一起被用于AES600，从而进一步地抑制来自AEC的差信号中的噪声和残余回声。

通常，AES如下计算施加到AEC差信号的增益G(i，n)：

G (i, n) = \min (1, \frac{\max (0, {| E (i, n) |}^{2} - σ_{R}^{2} (i, n) - σ_{N}^{2} (i, n))}{{| E (i, n) |}^{2}}) - - - (8)

O(i，n)＝G(i，n)*E(i，n) (9)

其中，O(i，n)是AES的输出信号，即待传送到例如如图1所示的语音通信***中另一侧的处理过的近端发送信号。增益函数（8）也可以采取其他形式。

可以通过很多常规方式来获得噪声功率估计例如，可以通过检测话音空闲时间并且对麦克风信号功率进行平均来估计噪声功率。此外，一种通常使用的方法是基于对输入功率的最小统计值的使用。可以参考如下论文：R.Martin:Noise Power Spectral Density Estimation Based OnOptimal Smoothing And Minimum Statistics,IEEE Trans.Speech AudioProcess.9(5),504-512(2001)，其全部内容通过引用合并到本文中。

残余回声估计：第一实施方式

图3至图7示出了残余回声估计器（REE）的一些实现方式。

基本上，本申请的实施方式是基于追踪来自AEC的输出（差信号）的变化，并且通过监测差信号的最小统计值来隐式地区分引起差信号变化的不同场景（比如双向谈话和单向谈话），从而提供对滤波器的自适应和残余回声估计的高效且鲁棒的控制。

在一种实施方式中，如图3至7所示，残余回声估计器500（500A至500E）可以包括：第一自适应滤波器510，用于获得残余回声功率的初步估计值；第一缓冲器530，用于保存第一自适应滤波器510针对第一数量的过去帧的系数集合；第二自适应滤波器520，用于获得残余回声功率的最终估计值；以及系数适配器540，用于基于保存在第一缓冲器530中的所述系数集合的范数的最小统计值来确定第二自适应滤波器520针对当前帧的系数集合。在该实施方式中，第一自适应滤波器510的系数集合被自适应地更新以连续地跟随差信号的功率变化。

因此，基于对第一自适应滤波器510的过去的系数集合的范数的检测来更新或调整第二自适应滤波器520。通过追踪第一自适应滤波器510的系数集合的最小统计值，可以显著地减小差信号的功率变化（比如由于双向谈话导致的功率变化）对残余回声功率估计的影响。这里，第一自适应滤波器510针对过去帧的系数集合构建了用于确定第二自适应滤波器520针对当前帧的系数集合的背景，因此，第一自适应滤波器510也可以称为“背景滤波器”而第二自适应滤波器520也可以被称为“前景滤波器”。

注意，一般而言，可以基于与AEC的原理相同或相似的原理来构建第一自适应滤波器510和第二自适应滤波器520，只是输入、输出和参数设置不同。但是，在具体的应用中，第一自适应滤波器510和第二自适应滤波器520可以采用与AEC不同的技术。

具体地，令L_FG(i，n)和L_BG(i，n)分别代表保存第二自适应滤波器（前景滤波器）的系数（或者系数集合）和第一自适应滤波器（背景滤波器）的系数（或者系数集合的）两个M’乘1的向量。第一自适应滤波器510被配置成在估计初步的残余回声功率的过程中来逐帧地更新其系数集合，而通过第二自适应滤波器520使用由系数适配器540所确定的系数集合来计算实际的残余回声功率（或者残余回声功率的最终估计值）。注意，无论AEC和REE是否采用相同或者不同的技术，这里滤波器长度M’可以与AEC的滤波器长度M相同或者不同。具体地，M’可以或者小于M或者大于M。

在一种变型中，第二自适应滤波器520被配置成基于参考信号功率的历史来获得残余回声功率的最终估计值，并且系数适配器540被配置成选择下述系数集合：该系数集合的范数是第一缓冲器中所保存的系数集合中的最小统计值。

例如，将第一自适应滤波器的系数集合的范数定义为N_BG(i，n)＝|L_BG(i，n)|，其中|X|表示向量X的幅值（模，范数）。类似地，N_FG(i，n)＝|L_FG(i，n)|表示第二自适应滤波器的系数集合的范数。此外，令F_BG(i，n)是第一缓冲器530，用于保存第一自适应滤波器针对过去Q（第一数量）个帧的系数集合，即F_BG(i，n)=[L_BG(i，n)，L_BG(i，n-1)，...L_BG(i，n-Q-1)]并且将向量N_BG(i，n)＝[N_BG(i，n)，N_BG（i，n-1)...，N_BG（i，n-Q-1)]^T定义为用于保存第一自适应滤波器针对过去Q个帧的系数集合的范数的集合。令和分别表示N_BG(i，n)中的最小范数和最大范数。则：

σ_{R}^{2} (i, n) = L_{FG}^{T} (i, n) X^{2} (i, n) - - - (10)

其中X²(i，n)＝[|X(i，n)|²，|X(i，n-1)|²，...，|X(i，n-M′-1)|²]^T

L_{FG} (i, n) = L_{BG}^{\min (i, n)} - - - (11)

其中是F_BG(i，n)中与N_BG(i，n)中的最小范数对应的系数集合。

这里，使用最小范数作为最小统计值。但是，范数的最小统计值也可以是其他统计值，比如范数沿时间轴的一阶或者更高阶的最小导数。对于一阶导数，其可以被看作是系数集合的范数（因而也是系数集合本身）随时间——换言之，随帧索引n——的变化率。

可以看出，在所提出的实施方式中，第二自适应滤波器将追踪具有最小统计值（最小范数）的第一自适应滤波器系数集合。通常，最小统计值往往与不太可能有双向谈话或者回声路径变化的帧对应。因此，通过追踪最小统计值，本申请的实施方式可以隐式地连续地追踪与没有或者几乎没有双向谈话或者噪声的场景对应的系数集合，从而在不受双向谈话或者噪声的影响的情况下获得残余回声估计的正确结果。即，即使双向谈话或者噪声增加，最小统计值也会仍然保持处于只具有声学回声的场景的低水平上。另一方面，如果回声路径变化了（比如从耳机变为扬声器），则最小统计值也将增大，因而不会被误认为是双向谈话或者噪声的增大。

总之，通过追踪具有最小范数的第一自适应滤波器系数，显著地减小了用第一自适应滤波器的发散的系数集合来更新第二滤波器的风险。因此，即使是在双向谈话期间，估计的残余回声功率也保持接近于真实值。因此，AEC可以获得更精确的步长来完成声学回声消除处理，并且AES可以获得更精确的增益来完成声学回声抑制处理。这将最终使输出信号（近端发送）仅包括尽可能无失真的并且尽可能有效去除了噪声和声学回声的近端话音。

第一自适应滤波器L_BG(i，n)可以是能够通过追踪差信号的变化来估计残余回声功率的任何滤波器。在一种变型中，第一自适应滤波器可以是试图逼近来自AEC的差信号E(i，n)的平滑后版本的自适应滤波器。具体地，第一自适应滤波器510可以被配置成基于参考信号功率的平滑后版本的历史、差信号的平滑后版本和噪声功率来获得残余回声功率的初步估计值，并且更新系数集合。令和分别为来自AEC的差信号的平滑后版本和参考信号功率的平滑后版本，其中

\tilde{E} (i, n) = α \tilde{E} (i, n - 1) + (1 - α) {| E (i, n) |}^{2} - - - (12)

{\tilde{X}}^{2} (i, n) = α {\tilde{X}}^{2} (i, n - 1) + (1 - α) {| X (i, n) |}^{2} - - - (13)

其中，α是范围为[0,1]的平滑因子，优选地该范围可以是0.7至0.95，例如0.9，但是不限于此。第一自适应滤波器的基本操作可以如下：

计算残余回声功率的初步估计值：

{\tilde{σ}}_{R}^{2} (i, n) = L_{BG}^{T} (i, n - 1) {\tilde{X}}^{2} (i, n) - - - (14)

计算从第一自适应滤波器输出的差信号：

\hat{E} (i, n) = \tilde{E} (i, n) - {\tilde{σ}}_{R}^{2} (i, n) - σ_{N}^{2} (i, n) - - - (15)

更新滤波器系数集合：

L_{BG} (i, n) = L_{BG} (i, n - 1) + \frac{μ_{0}}{P_{x^{2}} (i, n) + &Element;} {\tilde{X}}^{2} (i, n) \hat{E} (i, n) - - - (16)

其中，是包括参考信号功率的平滑后版本的滤波器历史，即

{\tilde{X}}^{2} (i, n) = {[{\tilde{X}}^{2} (i, n), {\tilde{X}}^{2} (i, n - 1), . . . {\tilde{X}}^{2} (i, n - M^{'} - 1)]}^{T} .

μ₀是范围为[0.1，0.3]的恒定步长，但是范围不限于此。被计算成：

P_{x^{2}} (i, n) = Σ_{p = 0}^{M^{'} - 1} {| {\tilde{X}}^{2} (i, n - p) |}^{2} - - - (17)

在以上的实施方式和变型中，与第一自适应滤波器的系数集合的范数的最小统计值对应的第一自适应滤波器的系数集合被确定为第二自适应滤波器的系数集合。在另外的变型中，有一些例外。

在一个场景中，如果第一自适应滤波器的系数集合波动得太剧烈，则最好不改变第二自适应滤波器以避免因任何不稳定的状态而引起的发散，不稳定的状态例如是不稳定的回声路径、或者单向谈话与双向谈话之间的频繁切换、或者不稳定的双向谈话状态。在很多情况下，这对应于第一自适应滤波器系数经历了重大波动的双向谈话。因此，对于过去的Q个帧，第一自适应滤波器系数比单向谈话情况（其中没有本地话音活动）不稳定得多。因此，系数适配器540可以被配置成：如果第一缓冲器530中所保存的系数集合的范数的波动达到预定程度，则使用第二自适应滤波器针对上一帧的系数集合。在一个实现方式中，可以通过第一自适应滤波器的系数集合的范数中的最大统计值与最小统计值之间的比率来反映该波动。即，系数适配器540可以被配置成：如果第一缓冲器中所保存的系数集合的范数中的最大统计值与最小统计值之间的比率达到第一阈值，则使用针对上一帧的系数集合。如前面所论述的，最大统计值和最小统计值可以是最大范数和最小范数，或者是范数关于时间的最大和最小（一阶或者更高阶）导数。注意，如果使用导数，则应该是导数的绝对值，因此，在本申请的全文中都应该这样解释术语“导数”。以最小范数和最大范数为例，系数集合可以被设定为：

其中，阈值TH1是范围从1.1至1.5的预定常数，例如1.2，但是不限于此。

在另一个实施方式中，如果第二自适应滤波器的当前系数集合已经正确地反映了没有或者几乎没有双向谈话或者噪声的场景，则最好继续使用当前系数集合。因此，如果最小统计值是第一缓冲器中所保存的系数集合的范数中的最小范数，则系数适配器540可以被配置成：如果最小范数大于第二自适应滤波器针对上一帧的系数集合的范数，则使用针对上一帧的系数集合，即：

在一种变型中，公式（18）和公式（19）可以组合起来：

应该指出，为了提高最小值查找效率，还可以将过去的Q个帧进一步分成更小的块，而查找并存储每个块中的最小的一个。以此方式，每次更新帧时，可以通过仅比较每个块的最小值而不是比较所有的Q个值，来减小查找操作的数量。

因此，在如图4所示的变型中提供了第二缓冲器550，用于保存针对每一个包括第二数量的（例如A个）帧的帧组的系数集合的范数的局部最小统计值，并且其中，系数适配器540可以被配置成选择下述系数集合：所述系数集合的范数是针对第三数量的（例如B个）过去帧组的局部最小统计值中的最小统计值。即，Q=A×B。

通过以上描述，可以看出，为了找到最小统计值，使用第一数量（Q）的过去帧。实际上，当前帧n也包括在该Q个帧中。为了简明起见，在本申请的全文中只使用表述“第一数量的过去帧”，并且这样的表述应该被解释成包括当前帧或不包括当前帧。换言之，权利要求涵盖了这两种方案。这些过去帧可以认为是使用具有Q个帧的长度并且以当前帧（或者前一帧）结束的滑动窗所选择的。顺便提及，该滑动窗的移动步长可以是一个或者更多个帧。当移动步长多于一个帧时，虽然“当前帧”是不断变化的，但是用于当前帧的最小统计值在滑动窗的两次移动之间不变化。例如，在使用第二缓冲器的变型中，步长的长度可以是每个帧组的长度，即A个帧。

在另外的变型中，可以取决于场景来调整滑动窗的尺寸，即第一数量。例如，当抑制回声比保持双向谈话话音质量更重要时，可以减小第一数量；否则，可以增大第一数量。即，例如，如果单向谈话回声估计更重要（即，抑制回声比保持双向谈话话音质量更重要），则更有利的可能是减小窗尺寸以能够快速地对变化进行响应。另一方面，如果更加强调话音质量，则具有更长的窗尺寸可以改善双向谈话的性能。

如果可获得更高级别的上下文信息（通话上下文、会议类型等），则可以根据不同的具体目的来改变窗尺寸。例如，如果本申请的实施方式用于安装在具有稳定的回声路径的安静的会议室中的通信设备中，则为了更好的双向谈话性能可以增大窗尺寸，但是如果本申请的实施方式用于有强烈回声和不稳定噪声的移动设备中，则可以针对不断变化的回声路径减小窗尺寸。窗尺寸的调整还可以取决于操作***条件。

高级别的上下文信息可以在结合本申请的实施方式的装置的制造期间考虑，或者可以从外部提供，例如通过设置在结合有本申请的实施方式的装置上的模式切换按钮、或者通过检测相关事件比如耳机与扬声器的切换的其他装置从外部提供。

但是，当没有高级别的信息时，窗尺寸还可以取决于长期历史而变化。因此，在另外的变型中提供了变化率估计器560，用于计算第一自适应滤波器的系数集合的范数的变化率，并且其中，当该变化率在第七数量的连续观察中小于第四阈值时，第一数量（滑动窗的尺寸Q）可以减小；并且/或者当该变化率在第八数量的连续观察中不小于第四阈值时，第一数量可以增大。即，系数集合变化得越慢，窗尺寸越小，这是因为低的变化率通常意味着来自AEC的差信号相对稳定，并且很可能没有双向谈话或者噪声等，因此不需要在过多的过去帧上花费过多的资源。另一方面，系数集合的较快的变化率通常意味着来自AEC的差信号由于麦克风信号的功率变化而波动，很可能包括双向谈话、噪声等，从而需要较大的窗尺寸以确保可以找到反映实际声学回声水平的实际最小统计值。通常，需要对双向谈话或噪声的出现进行较快地响应，因此，可以设定比第七数量更小的第八数量。注意，这里的术语“连续观察”意味着连续的“当前帧”。即，将针对每个当前帧来计算第一自适应滤波器的系数集合的范数的变化率。

残余回声估计：第二实施方式

图6和图7示出了与图3至图5所示的不同的第一自适应滤波器和第二自适应滤波器的另一种构造。

即，与第一实施方式类似，第一自适应滤波器510被配置成隐式地追踪来自AEC的差信号的功率的变化，而第二自适应滤波器520被配置成直接估计残余回声功率并且独立于第一自适应滤波器510来更新其自身的系数集合，并且，只有当第一自适应滤波器的系数集合的统计值指示出有必要时，才调整第二自适应滤波器的系数集合。

于是在该第二实施方式中，由于在大多数情况下第二自适应滤波器520本身应该足以获得实际的残余回声功率，而不需要参考第一自适应滤波器510的系数集合的范数的最小统计值，所以，用于估计残余回声功率并且更新系数集合的第二自适应滤波器520的参数设定应该与第一实施方式中的第一自适应滤波器510的参数设定不同，尽管第二实施方式中的第二自适应滤波器采用了与第一实施方式中的第一自适应滤波器类似的算法。具体地，第二自适应滤波器520中的算法可以是：

计算残余回声功率：

σ_{R}^{2} (i, n) = L_{FG}^{T} (i, n - 1) {\tilde{X}}^{2} (i, n) - - - (14^{,})

计算从第二自适应滤波器输出的差信号：

\hat{E} (i, n) = \tilde{E} (i, n) - σ_{R}^{2} (i, n) - σ_{N}^{2} (i, n) - - - (15^{,})

更新滤波器系数集合：

L_{FG} (i, n) = L_{FG} (i, n - 1) + \frac{μ_{FG}}{P_{x^{2}} (i, n) + &Element;} {\tilde{X}}^{2} (i, n) \hat{E} (i, n) - - - (16^{,})

其中，μ_FG是固定值或者动态值，动态值可以取决于外部因素比如空间特性（针对多通道回声控制）、发送信号与接收信号或者差信号与接收信号之间的相干性、或者来自其他双向谈话检测器的事件信息等。对于固定的μ_FG，通常μ_FG＞μ_BG)以使得背景滤波器比前景滤波器的自适应更慢。例如，μ_FG＝1.2μ_BG，但是不限于此。对于动态变化的μ_FG，其当单独使用AES时其可以是如公式（4）或者公式（5）中那样的最优步长。

此外，在本实施方式中，第一自适应滤波器只起到补充或辅助滤波器的作用，其中，只在某些条件下才会根据第一自适应滤波器来调整第二自适应滤波器。以下定义了示例的规则：

其中，C是预定常数（C>1），比如1.2但是不限于此。该公式表明：如果第二自适应滤波器用于上一帧的系数集合的范数大于C倍的如前所述的针对第一自适应滤波器的最小范数，则根据第一自适应滤波器以缩放因子S_i来调整第二自适应滤波器。换言之，条件是：最小范数充分地小于用于上一帧的第二自适应滤波器的系数集合的范数。

因此，根据第二实施方式，如图6所示，第二自适应滤波器520可以被配置成基于参考信号功率的平滑后版本的历史、差信号的平滑后版本和噪声功率，来获得残余回声功率的最终估计值并且更新其系数集合。其中，最小统计值是第一缓冲器530中所保存的系数集合的范数中的最小范数，并且系数适配器540可以被配置成：当最小范数小于基于第二自适应滤波器520针对上一帧的系数集合的范数而确定的第二阈值时，调整第二自适应滤波器520的系数集合。

缩放因子S_i可以是：

S_{i} = \frac{N_{BG} (i, n)}{N_{FG} (i, n)} - - - (22)

即，系数适配器540可以被配置成以下述缩放因子来调整第二自适应滤波器520的系数集合：所述缩放因子被确定为第一自适应滤波器510的系数集合的范数与第二自适应滤波器520的系数集合的范数之间的比率。

在该实施方式中，第一自适应滤波器和第二自适应滤波器都照常针对每个帧和每个频点来工作，因此，对于存储容量和***MIPS来说，复杂性将是一个问题。所以，在实施方式的变型中，有意义的是针对第一自适应滤波器对频点进行分组，以降低复杂性。

即，如图7所示，针对第一自适应滤波器，可以将频点（索引i）分组到较少的频带（索引j）中，比如只有一个频带（整个频带）、两个频带（比如高频带和低频带），或者多于两个频带但是少于所有频点的数量。对于每个频带（包括多个以i为索引的频点），根据与公式（14）至公式（16）类似的公式可以得到一组系数：

计算残余回声功率的初步估计值：

{\tilde{σ}}_{R}^{2} (j, n) = L_{BG}^{T} (j, n - 1) {\tilde{X}}^{2} (j, n) - - - (14^{,,})

计算从第一自适应滤波器输出的差信号：

\hat{E} (j, n) = \tilde{E} (j, n) - {\tilde{σ}}_{R}^{2} (j, n) - σ_{N}^{2} (j, n) - - - (15^{,,})

更新滤波器系数集合：

L_{BG} (j, n) = L_{BG} (j, n - 1) + \frac{μ_{BG}}{P_{x^{2}} (j, n) + &Element;} {\tilde{X}}^{2} (j, n) \hat{E} (j, n) - - - (16^{,,})

P_{x^{2}} (j, n) = Σ_{p = 0}^{M^{'} - 1} {| {\tilde{X}}^{2} (j, n - p) |}^{2} - - - (17^{,,})

其中，以上公式（14’’）至公式（16”）中使用的所有符号与以前的公式（14）至公式（16）中所使用的符号具有相同含义，仅仅是使用针对频带的索引j替代了针对频点的索引i。

因此，可以使用仅针对更少频带的第一自适应滤波器510的结果来表明是否需要调整第二自适应滤波器的系数集合，从而降低了复杂性。但是，因为第二自适应滤波器520必须提供针对每个频点的残余回声功率以进一步由AEC和AES来使用，因此存在如何获得缩放因子的问题。

于是，在另外的变型中，可以使用每个频带中包括的频点上的（用于第二自适应滤波器520的）系数集合的范数的均值来计算用于频带中的各个频点的缩放因子。

注意，在本申请中所讨论的处理是在频域中进行的，并且在上文中讨论的所有的算法/部件都是针对每个频点（索引i）的。但是，在上文中的描述中，针对每个频点所有的操作都是相同的，因此虽然所有公式都包括索引i，但是在上文中并未强调频点。

现在，在当前的变型中，将涉及不同的频点和不同的频带。在频带/频点的意义上，在上文中所讨论的所有部件针对每个频点/频带起作用，并且，针对每个部件，可以认为存在与频点/频带的数量对应的多个重复部件。但是为了简明起见，在本申请中仍然将这些重复部件当做一个单个部件。

回到缩放因子的计算上。假设频带包括F个频点，则可以如下计算缩放因子：

S_{i} = \frac{N_{BG} (j, n)}{(Σ_{i} N_{FG} (i, n)) / F},

频点i∈频带j (23)

即，在如图7所示的变型中，第一自适应滤波器510被配置成针对至少一个频带j工作，每个频带均包括多个频点i；第二自适应滤波器520被配置成针对每个频点工作；并且系数适配器被配置成使用下述缩放因子来调整第二自适应滤波器针对每个频点的系数集合，所述缩放因子被确定为第一自适应滤波器针对对应频带的系数集合的范数与第二自适应滤波器针对对应频带中的各个频点的各个系数集合的各个范数的均值之间的比率。

以此方式，第一自适应滤波器510将消耗较少的资源。

回声路径估计器

AES用于进一步抑制没有被AEC完全消除的残余声学回声。但是，当AEC工作得足够好时，不需要AES来消耗资源。或者，当比如在使用耳机而几乎没有声学回声时，也不需要AES（甚至不需要AEC）。

因此，在如图8所示的另一个实施方式中提供了回声路径估计器（EPE）700，用于估计回声路径的重要性，并且当回声路径具有低重要性时关闭声学回声消除器和/或声学回声抑制器。

回声路径估计器700可以是高级别信息检测器。例如，回声路径估计器700可以是耳机检测器，用于检测耳机是否***其插孔，并且可以用现有技术来实现这样的检测。当检测到耳机时，意味着回声路径具有低重要性，可以关闭AES和/或AEC。

也可以通过在预定时间段中在REE模块中连续地追踪第一自适应滤波器系数来实现回声路径估计器700。具体地，如前所述，获得第一自适应滤波器的系数集合的最小统计值比如最小范数。令N_EPE(n)代表在帧n处第一自适应滤波器针对所有频点的最小范数的和，

N_{EPE} (n) = Σ_{i} N_{BG}^{\min} (i, n) - - - (24)

然后，如果针对K₁个连续观察N_HDS(n)＜TH3，则可以确定回声路径具有低重要性，其中，TH3和K₁都是预定常数。即，为了关闭AES和/或AEC，第一自适应滤波器的系数集合的范数必须在一段时间内足够小。在所提出的实施方式中，TH3可以被设定到-40db至-60db，而K₁可以被设定成使缓冲器具有5秒至30秒的长度，例如20秒。这样，使用EPE700的输出来启用/禁用AES和/或AEC。

此外，为了使***相对于任何回声路径变化更鲁棒，如果回声路径再次变得重要（比如如果用户拔去耳机），则EPE也需要检测到这一点并且启用AES和/或AEC。以与上述所讨论的类似的方式来完成这一点。具体地，如果针对K₂个连续观察N_EPE（n）>TH3，则可以再次启用AES和/或AEC，其中，K₂可以设定成使缓冲器具有3秒至6秒的长度，比如5秒。应该注意，K₂片可以被设定为小于K₁，从而一旦重新出现回声返回则能够更迅速地恢复使用AES和/或AEC。

在以上实施方式中，使用了来自第一缓冲器530中所保存的系数集合的最小统计值，即，EPE700使用具有Q个帧的长度的同一滑动窗。但是，EPE700也可以使用长度与第一缓冲器530不同的滑动窗。因此，在如图9所示的变型中，回声路径估计器700还包括：第三缓冲器710，用于保存第一自适应滤波器510针对第四数量的过去帧的系数集合的范数，其中针对每个频点并且针对当前帧，保存在第三缓冲器中的范数中存在最小范数；指标计算器720，用于计算针对各个频点的各个最小范数的和；并且回声路径估计器可以被配置成：当该和在第五数量（K₁）的连续观察中小于第三阈值时，关闭声学回声消除器和/或声学回声抑制器；并且/或者当该和在第六数量（K₂）的连续观察中不小于第三阈值时，开启声学回声消除器和/或声学回声抑制器。其中第四数量可以用T代表，T可以等于Q，或者可以与Q不同。

当T等于Q时，最小统计值比如最小范数的获取可以共用与REE相关的实施方式中所讨论的相同操作。当T大于Q时，可以通过利用与REE相关的实施方式的结果来简化最小统计值比如最小范数的获得。即，考虑到REE已经获得了针对Q个帧的最小范数，则第三缓冲器710可以只保存针对每Q个帧的最小范数，然后根据第三缓冲器710中所保存的最小范数可以找到长期最小范数。在这样的情况下，T通常是Q的整数倍。因此，在另外的变型中，第三缓冲器710可以被配置成保存针对第四数量（T）的过去帧的最小范数，其中，针对每个频点并且针对当前帧，保存在第三缓冲器中的最小范数中存在长期最小范数；以及指标计算器720可以被配置成计算针对各个频点的各个长期最小范数的和。并且回声路径估计器700被配置成：当该和在第五数量的连续观察中小于第三阈值时，关闭声学回声消除器和/或声学回声抑制器；并且/或者当该和在第六数量的连续观察中不小于第三阈值时，开启声学回声消除器和/或声学回声抑制器。

EPE块可以每隔T个帧来运行，因此需要TK₁个帧来断定低回声模式，而需要TK₂个帧来从低回声模式恢复。因此，取决于帧长度（通常20ms但是不限于此），可以分别算出T和所设计的响应时间（比如前面所提到的20s或5s）、K₁和K₂。可替代地，可以使用T帧的滑动窗（具有一帧或者更多帧的滑动步长）。即，EPE模块可以每一帧或者每隔更多帧地来运行以检查滑动窗中的长期最小范数。在这样的情况下，K₁或K₂乘以步长再加上T，将是设计的响应时间。

实施方式的组合和应用场景

以上讨论的所有实施方式及其变型可以用其任意组合来实现，并且，在不同的部分/实施方式中提及的但是具有相同或者相似功能的任意部件都可以实现为相同的或者单独的部件。

例如，图3至图5中所示的实施方式及其变型可以以其任何组合来实现；并且这些实现方式还可以与参照图2所描述的任何实施方式和/或变型进行组合，以及/或者与参照图8和图9所描述的那些实施方式和/或变型进行组合。此外，参照图2和图6至图9所描述的实施方式和/或变型也可以以其任何组合来实现。

如在本申请的“具体实施方式”部分的开始处所讨论的，本申请的实施方式可以用硬件或软件或者二者来实现。图10是示出了用于实现本申请的各个方面的示例性***的框图。

在图10中，中央处理单元（CPU）1001根据只读存储器（ROM）1002中存储的程序或者从存储部分1008加载到随机存取存储器（RAM）1003的程序来执行各种处理。在RAM1003中，还根据需要存储在CPU1001执行各种处理等时所需要的数据。

CPU1001、ROM1002和RAM1003通过总线1004彼此连接。输入/输出接口1005也连接至总线1004。

以下部件连接至输入/输出接口1005：输入部分1006，包括键盘、鼠标等；输出部分1007，包括显示器比如阴极射线管（CRT）、液晶显示器（LCD）等，以及扬声器等；存储部分1008，包括硬盘等；以及通信部分1009，包括网络接口卡比如LAN卡、调制解调器等。通信部分1009通过网络比如互联网来执行通信处理。

根据需要，输入/输出接口1005还连接有驱动器1010。根据需要，驱动器1010上安装有可移除介质1011，比如磁盘、光盘、磁光盘、半导体存储器等，以使得根据需要将从其读取的计算机程序安装到存储部分808中。

在上述部件用软件实现的情况下，构成软件的程序从网络比如互联网或者存储介质比如可移除介质1011安装。

除了通用计算装置，也可以在专用计算设备中实现本申请的实施方式，该专用计算设备可以是任何类型的音频处理装置的一部分或者是任何类型的语音通信终端的一部分。

声学回声减轻方法

在上文的实施方式中描述声学回声减轻装置时，显然还公开了一些处理或方法。下文中，在不重复上文中已经讨论过的某些细节的情况下给出这些方法的概述，但是，应当注意，虽然是在描述声学回声减轻装置的过程中公开了这些方法，然而，这些方法并不一定采用上述这些部件，或者并不一定由这些部件来执行。例如，可以部分地或者完全地用硬件和/或固件来实现声学回声减轻装置的实施方式，而以下讨论的声学回声减轻方法也可以完全用计算机可执行的程序来实现，虽然这些方法也可以采用声学回声减轻装置的硬件和/或固件。

以下将参照图11至图17来描述方法。

如图11所示，本申请中的声学回声减轻方法的实施方式可以包括：使用声学回声消除器来从麦克风信号中消除（操作1100，AEC）估计的声学回声，产生差信号；以连续地自适应于差信号的功率变化的方式，基于差信号估计（操作1200）残余回声功率；以及使用声学回声抑制器基于残余回声功率和噪声功率进一步抑制（操作1300，AES）差信号中的残余回声和噪声。

可以用许多现有技术来实现消除估计的声学回声的操作1100和进一步抑制残余回声和噪声的操作1200。在本申请中，消除估计的声学回声的操作可以用基于NLMS的算法来进行，并且可以基于残余回声功率和差信号的功率来更新该基于NLMS的算法的步长。在一种变型中，可以基于残余回声功率和差信号的功率的期望值来更新该基于NLMS的算法的步长。

另外，在本申请中，进一步抑制残余回声的操作可以包括向差信号施加下述增益：该增益基于差信号的功率、残余回声功率和噪声功率而确定。

在以上所讨论的实施方式和变型中，可以通过很多现有技术来获得噪声功率，这里不再详细讨论。

根据另一种实施方式，如图12所示，估计残余回声功率的操作1200还可以包括：在获得残余回声功率的初步估计值的处理期间，自适应地更新（操作1202）第一自适应滤波器的系数集合，以使得系数集合连续地跟随差信号的功率变化；基于第一自适应滤波器针对第一数量的过去帧的系数集合的范数的最小统计值来确定（操作1204）第二自适应滤波器针对当前帧的系数集合；以及使用第二自适应滤波器来获得（操作1206）残余回声功率的最终估计值。这里，范数的最小统计量包括最小范数，或者包括范数沿着时间轴（相对于帧索引n）的一阶或者更高阶的最小导数。

这里，自适应地更新第一自适应滤波器的系数集合的操作1202是基于参考信号功率的平滑后版本的历史、差信号的平滑后版本和噪声功率进行的。

并且获得最终估计值的操作1206可以被配置成基于参考信号功率的历史来获得残余回声功率的最终估计值。确定系数集合的操作1204可以包括：找到针对第一数量的过去帧的系数集合中的最小统计值（图13中的操作12041或图14中的操作12042）；并且选择对应的系数集合比如具有最小范数的系数集合，作为第二自适应滤波器的系数集合（图13和图14中的操作12046）。

可以施加一些限制来避免在不稳定状态下系数集合的发散。因此，确定系数集合的操作1204可以被配置成：如果针对第一数量的过去帧的系数集合的范数的波动达到预定程度（操作12043中的“是”），则使用针对上一帧的系数集合（图13中的操作12048）。可以使用针对第一数量的过去帧的系数集合的范数的最大统计值与最小统计值的比率比如最大范数与最小范数的比率，来量度该波动程度。

在如图14所示的另一种变型中，为了更紧密地追踪“实际”残余回声水平并且隐式地区分由双向谈话或噪声等引起的功率变化，该方法可以尽可能地保留历史最小统计值。因此，确定系数集合的操作1204可以被配置成：找到针对第一数量的过去帧的系数集合的范数中的最小范数（操作12042）；并且如果该最小范数大于第二自适应滤波器针对上一帧的系数集合的范数（操作12044中的“是”），则使用针对上一帧的系数集合（操作12048）。

图13和图14中所示的变型可以结合起来。

在以上实施方式和变型中，使用了用于确定第一数量的帧的滑动窗以获得最小统计值。第一数量是滑动窗的长度，并且可以取决于场景来调整第一数量。例如，当抑制回声比保持双向谈话话音质量更重要时，可以减小第一数量；否则增大第一数量。即，如果几乎没有双向谈话而主要任务是消除/抑制声学回声，则可以减小第一数量。

可以根据高级别信息比如音频处理装置的类型（比如电话会议***或者移动设备）、或者耳机或扬声器的使用来确定主导的是声学回声还是双向谈话。在本申请中提出的变型中，这也可以通过利用来自第一自适应滤波器的结果来确定。例如，可以计算第一自适应滤波器的系数集合的范数的变化率，并且如果变化率在第七数量的连续观察中小于第四阈值，则可以减小第一数量；以及/或者，如果该变化率在第八数量的连续观察中不小于第四阈值，则增大第一数量。

在以上所讨论的实施方式和变型中，虽然通过第二自适应滤波器给出了残余回声的最终估计值，但是第一自适应滤波器对于确定第二自适应滤波器的系数起到了主导作用。

在如图15所示的另一种实施方式中，在给出残余回声功率的最终估计值和在确定其自身系数集合这两点上，第二自适应滤波器起到主导作用，其中只在某些条件下调整其系数集合。

在该实施方式中，获得残余回声功率的最终估计值的操作12021基于参考信号功率的平滑后版本的历史、差信号的平滑后版本和噪声功率进行。而第一自适应滤波器可以是相同的，即，更新其系数集合以连续地跟随差信号的功率变化（操作1202）并且寻找第一自适应滤波器针对第一数量的过去帧的系数集合的范数中的最小统计值（最小范数）（操作12042）。那么，确定第二自适应滤波器的系数集合的操作1204可以被配置成：当最小范数小于下述第二阈值时（操作12045中的“是”），调整（操作12047）第二自适应滤波器的系数集合，该第二阈值是基于第二自适应滤波器针对上一帧的系数集合的范数确定的。否则，第二自适应滤波器使用其原来的系数集合（操作12045中的“否”和操作12049）。

调整操作12047可以使用缩放因子，该缩放因子可以是第一自适应滤波器的系数集合的范数与第二自适应滤波器的系数集合的范数的比率。

在以上实施方式中，第一自适应滤波器和第二自适应滤波器两者都以相似的方式工作。为了简化该技术方案并且减少资源消耗，在一种变型中提出了针对第一自适应滤波器，将频点分组到较少的频带中。即，自适应地更新第一自适应滤波器的系数集合的操作针对至少一个频带执行，每个频带包括多个频点，获得残余回声功率的最终估计的操作是针对每个频点执行的。并且确定第二自适应滤波器的系数集合的操作可以包括：确定第一自适应滤波器针对每个频带的系数集合的范数与第二自适应滤波器针对该频带中的各个频点的各个系数集合的各个范数的均值的比率；以及使用该比率作为缩放因子来调整第二自适应滤波器针对每个频点的系数集合。

为了减小资源消耗，当回声路径具有低重要性或者回声低于阈值时，可以禁用AES甚至禁用AEC。因此，在另一种实施方式中，可以首先估计回声路径的重要性（图16中的操作1402）。如果回声路径具有低重要性（操作1404中的“是”），则不执行消除估计的声学回声的操作和/或进一步抑制残余回声的操作（操作1406）。

可以从高级别信息比如耳机或者扬声器的使用获得与回声路径相关的信息，也可以观察从第一自适应滤波器用于更新其系数集合的操作（操作1202）得到的最小统计值来获得与回声路径相关的信息。最小统计值可以是用于第一数量的过去帧的系数集合的范数中的最小范数。那么，估计回声路径的重要性的操作还可以包括：针对每个频点并且针对当前帧，找到（操作14021）针对第四数量的过去帧的最小范数中的长期最小范数；计算（操作14022）针对各个频点的各个长期最小范数的和。当该和在第五数量的连续观察中（操作14042中的“是”）小于（操作14041中的“是”）第三阈值时，不执行消除所估计的声学回声的操作和/或进一步抑制残余回声的操作（操作1406）；并且/或者，当该和在第六数量的连续观察中（操作1405中的“是”）不小于（操作14041中的“否”）第三阈值时，执行消除所估计的声学回声的操作和/或进一步抑制残余回声的操作。当然，在其他的情形中，AES和AEC将保持其当前状态（操作1408）。第四数量可以不小于第一数量。

在可替代的方案中，针对每个频点并且针对当前帧，可以从针对第四数量的过去帧的范数中直接找到长期最小值，而不从针对每第一数量的过去帧的最小范数中找。

示例

给出两个示例来示出所提出的实施方式在估计不同场景中的残余回声功率方面的效果。

图18示出了针对继单向谈话之后有双向谈话（发生在帧1370之后），第一自适应滤波器（背景滤波器）和第二自适应滤波器（前景滤波器）的系数集合的系数范数。在此例子中，回声路径是稳定的。可以看出，在双向谈话期间，第二自适应滤波器的系数集合保持不变。因此，残余回声功率估计不受双向谈话的影响。但是，在图18中，如果滑动窗的尺寸更小，或者如果双向谈话继续，则在曲线图的右部中，前景系数范数可能上升到背景系数范数的谷值。

图19示出了针对在帧3500处有突然的回声路径跳跃的单向谈话（仅有回声）的背景系数范数和前景系数范数。两个滤波器都以零系数初始化，但是随着时间的前进，在大多数情况下，第一自适应滤波器的系数集合比第二自适应滤波器的系数集合具有更大的范数。应该注意，帧索引始于大约3200（省略了大概前3100个帧）。可以看出，第二自适应滤波器的系数范数以特定延迟跟随第一自适应滤波器的系数集合的最小范数。因此，残余回声功率估计可以快速地追踪回声路径变化。

根据以上两个图，可以看出，所提出的实施方式对于双向谈话具有鲁棒性，同时每当回声路径变化（其导致残余回声功率的增大或减小）都保持积极跟进。

应当注意，本文中所使用的术语仅用于描述具体的实施方式的目的，而非意在限制本申请。本文中所使用的单数形式的“一个”和“该（the）”意在还包括复数形式，除非上下文清楚地指出不同含义。还应当理解，术语“包括”在本说明书中使用时指所说明的特征、整体、操作、步骤、元件和/或部件的存在，但是不排除一个或更多个其他特征、整体、操作、步骤、元件、部件和/或其组合的存在或添加。

权利要求中的相应结构、材料、动作和以“装置或者步骤加功能”定义的要素的所有等同形式意在包括用于结合其他要求保护的要素来执行功能的任意结构、材料或动作。对本申请的描述是用于说明和描述的目的，而非意在以所公开的形式来穷举或限制本申请。本领域技术人员可以在不偏离本申请的范围和精神的情况下想到对本申请的很多修改和变化。所选择和描述的实施方式是为了最佳地解释本申请的原理和实际应用，并使得本领域的其他技术人员能够针对具有适于所想到的具体用途的各种修改的各种实施方式来理解本申请。

根据以上，可以看出描述了以下示例性实施方式（均用“EE”表示）。

EE1.一种声学回声减轻装置，包括：

声学回声消除器，用于从麦克风信号中消除估计的声学回声，并且输出差信号；

残余回声估计器，用于估计残余回声功率；以及

声学回声抑制器，用于基于所述残余回声功率和噪声功率来进一步抑制所述差信号中的残余回声和噪声；

其中，所述残余回声估计器被配置成连续地自适应于所述差信号的功率变化。

EE2.根据EE1所述的声学回声减轻装置，其中，所述残余回声估计器还包括：

第一自适应滤波器，用于获得所述残余回声功率的初步估计值，所述第一自适应滤波器的系数集合被自适应地更新以连续地跟随所述差信号的所述功率变化；

第一缓冲器，用于保存所述第一自适应滤波器针对第一数量的过去帧的系数集合；

第二自适应滤波器，用于获得所述残余回声功率的最终估计值；以及

系数适配器，用于基于保存在所述第一缓冲器中的所述系数集合的范数的最小统计值来确定所述第二自适应滤波器针对当前帧的系数集合。

EE3.根据EE2所述的声学回声减轻装置，其中，所述范数的最小统计值包括最小范数或者所述范数沿时间轴的一阶导数的最小绝对值。

EE4.根据EE2所述的声学回声减轻装置，其中，

所述第二自适应滤波器被配置成基于参考信号功率的历史来获得所述残余回声功率的所述最终估计值；以及

所述系数适配器被配置成从所述第一缓冲器中保存的系数集合中选择其范数具有最小统计值的系数集合。

EE5.根据EE4所述的声学回声减轻装置，其中，所述系数适配器被配置成：如果保存在所述第一缓冲器中的所述系数集合的范数的波动达到预定程度，则使用针对上一帧的所述系数集合。

EE6.根据EE4所述的声学回声减轻装置，其中，所述系数适配器被配置成：如果保存在所述第一缓冲器中的所述系数集合的范数的最大统计值与最小统计值的比率达到第一阈值，则使用针对上一帧的所述系数集合。

EE7.根据EE4至EE6中任一项所述的声学回声减轻装置，其中，所述最小统计值是保存在所述第一缓冲器中的所述系数集合的范数中的最小范数，以及所述系数适配器被配置成：如果所述最小范数大于所述第二自适应滤波器针对上一帧的系数集合的范数，则使用针对上一帧的所述系数集合。

EE8.根据EE4所述的声学回声减轻装置，其中，所述第一自适应滤波器被配置成基于参考信号功率的平滑后版本的历史、所述差信号的平滑后版本和所述噪声功率，来获得所述残余回声功率的初步估计值并且更新所述系数集合。

EE9.根据EE4至EE6中任一项所述的声学回声减轻装置，还包括：

第二缓冲器，用于保存系数集合的范数针对每一个包括第二数量的帧的帧组的局部最小统计值，并且其中，

所述系数适配器被配置成选择下述系数集合：该系数集合的范数是针对过去帧的第三数量的帧组的局部最小统计值中的最小统计值。

EE10.根据EE2至EE6中任一项所述的声学回声减轻装置，其中，当抑制回声比保持双向谈话话音质量更重要时，减小所述第一数量；否则，增大所述第一数量。

EE11.根据EE10所述的声学回声减轻装置，还包括：

变化率估计器，用于计算所述第一自适应滤波器的系数集合的范数的变化率，以及

其中，当所述变化率在第七数量的连续观察中小于第四阈值时，减小所述第一数量；以及/或者，当所述变化率在第八数量的连续观察中不小于第四阈值时，增大所述第一数量。

EE12.根据EE2所述的声学回声减轻装置，其中，

所述第二自适应滤波器被配置成基于参考信号功率的平滑后版本的历史、所述差信号的平滑后版本和所述噪声功率，来获得所述残余回声功率的所述最终估计值并且更新其系数集合；

所述最小统计值是保存在所述第一缓冲器中的所述系数集合的范数中的最小范数；以及

所述系数适配器被配置成：当所述最小范数小于第二阈值时，调整所述第二自适应滤波器的系数集合，所述第二阈值基于所述第二自适应滤波器针对上一帧的系数集合的范数确定。

EE13.根据EE12所述的声学回声减轻装置，其中，所述系数适配器被配置成使用缩放因子来调整所述第二自适应滤波器的系数集合，所述缩放因子被确定为所述第一自适应滤波器的系数集合的范数与所述第二自适应滤波器的系数集合的范数的比率。

EE14.根据EE12所述的声学回声减轻装置，其中，

所述第一自适应滤波器被配置成针对至少一个频带工作，所述至少一个频带每一个均包括多个频点；

所述第二自适应滤波器被配置成针对每个频点工作，以及

所述系数适配器被配置成使用缩放因子来调整所述第二自适应滤波器针对每个所述频点的系数集合，所述缩放因子被确定为所述第一自适应滤波器针对相应频带的系数集合的范数与所述第二自适应滤波器针对相应频带中的各个频点的各个系数集合的各个范数的均值的比率。

EE15.根据EE1至EE6和EE12至EE14中任一项所述的声学回声减轻装置，其中，

所述声学回声消除器是基于归一化最小均方算法的；以及

所述残余回声估计器被配置成基于所述残余回声功率和所述差信号的功率来更新所述声学回声消除器中的滤波器步长。

EE16.根据EE15所述的声学回声减轻装置，其中，所述残余回声估计器被配置成基于所述残余回声功率和所述差信号的功率的期望值来更新所述声学回声消除器中的所述滤波器步长。

EE17．根据EE4至EE6和EE12至EE14中任一项所述的声学回声减轻装置，还包括：

回声路径估计器，用于估计回声路径的重要性，并且当所述回声路径具有低重要性时，关闭所述声学回声消除器和/或所述声学回声抑制器。

EE18.根据EE17所述的声学回声减轻装置，其中，所述最小统计值是所述第一缓冲器中保存的所述系数集合的范数中的最小范数，并且所述回声路径估计器还包括：

第三缓冲器，用于保存针对第四数量的过去帧的最小范数，其中针对每个频点并且针对当前帧，保存在所述第三缓冲器中的所述最小范数中存在长期最小范数；

指标计算器，用于计算针对各个频点的各个长期最小范数的和；以及

所述回声路径估计器被配置成：当所述和在第五数量的连续观察中小于第三阈值时，关闭所述声学回声消除器和/或所述声学回声抑制器；并且/或者当所述和在第六数量的连续观察中不小于所述第三阈值时，开启所述声学回声消除器和/或所述声学回声抑制器。

EE19.根据EE17所述的声学回声减轻装置，其中，所述回声路径估计器还包括：

第三缓冲器，用于保存所述第一自适应滤波器针对第四数量的过去帧的系数集合的范数，其中，针对每个频点并且针对当前帧，保存在所述第三缓冲器中的范数中存在最小范数；

指标计算器，用于计算针对各个频点的各个最小范数的和；以及

EE20.根据EE1至EE6和EE12至EE14中任一项所述的声学回声减轻装置，其中，所述声学回声抑制器被配置成通过施加基于所述差信号的功率、所述残余回声功率和所述噪声功率确定的增益来对所述差信号进行滤波。

EE21．一种声学回声减轻方法，包括：

使用声学回声消除器从麦克风信号中消除估计的声学回声，产生差信号；

以连续地自适应于所述差信号的功率变化的方式，基于所述差信号估计残余回声功率；以及

使用声学回声抑制器来基于所述残余回声功率和噪声功率进一步抑制所述差信号中的残余回声和噪声。

EE22.根据EE21所述的声学回声减轻方法，其中，估计所述残余回声功率的操作还包括：

在获得所述残余回声功率的初步估计值的处理过程中，自适应地更新第一自适应滤波器的系数集合，以使得所述系数集合连续地跟随所述差信号的功率变化；

基于所述第一自适应滤波器针对第一数量的过去帧的系数集合的范数的最小统计值来确定第二自适应滤波器针对当前帧的系数集合；以及

使用所述第二自适应滤波器来获得所述残余回声功率的最终估计值。

EE23.根据EE22所述的声学回声减轻方法，其中，所述范数的最小统计值包括最小范数、或者所述范数沿时间轴的一阶导数的最小绝对值。

EE24.根据EE22所述的声学回声减轻方法，其中，

获得所述最终估计值的操作被配置成基于参考信号功率的历史来获得所述残余回声功率的所述最终估计值；以及

确定所述系数集合的操作被配置成从针对所述第一数量的过去帧的系数集合中选择其范数具有最小统计值的系数集合。

EE25.根据EE24所述的声学回声减轻方法，其中,确定所述系数集合的操作被配置成：如果针对所述第一数量的过去帧的系数集合的范数的波动达到预定程度，则使用针对上一帧的所述系数集合。

EE26.根据EE24所述的声学回声减轻方法，其中，确定所述系数集合的操作被配置成：如果针对所述第一数量的过去帧的所述系数集合的范数的最大统计值与最小统计值的比率达到第一阈值，则使用针对上一帧的所述系数集合。

EE27.根据EE24至EE26中任一项所述的声学回声减轻方法，其中，所述最小统计值是针对所述第一数量的过去帧的系数集合的范数中的最小范数，确定所述系数集合的操作被配置成：如果所述最小范数大于所述第二自适应滤波器针对上一帧的系数集合的范数，则使用针对上一帧的所述系数集合。

EE28.根据EE24所述的声学回声减轻方法，其中，自适应地更新所述第一自适应滤波器的所述系数集合的操作是基于参考信号功率的平滑后版本的历史、所述差信号的平滑后版本和所述噪声功率进行的。

EE29.根据EE22至EE26中任一项所述的声学回声减轻方法，其中，当抑制回声比保持双向谈话话音质量更重要时，减小所述第一数量；否则，增大所述第一数量。

EE30.根据EE29所述的声学回声减轻方法，还包括：

计算所述第一自适应滤波器的系数集合的范数的变化率，以及

EE31.根据EE22所述的声学回声减轻方法，其中，

获得所述残余回声功率的最终估计值的操作是基于参考信号功率的平滑后版本的历史、所述差信号的平滑后版本和所述噪声功率进行的；

所述最小统计值是所述第一自适应滤波器针对所述第一数量的过去帧的系数集合的范数中的最小范数；以及

确定所述第二自适应滤波器的系数集合的操作被配置成：当所述最小范数小于第二阈值时，调整所述第二自适应滤波器的系数集合，所述第二阈值是基于所述第二自适应滤波器针对上一帧的系数集合的范数确定的。

EE32.根据EE31所述的声学回声减轻方法，其中，确定所述第二自适应滤波器的系数集合的操作被配置成：使用缩放因子来调整所述第二自适应滤波器的系数集合，所述缩放因子被确定为所述第一自适应滤波器的系数集合的范数与所述第二自适应滤波器的系数集合的范数的比率。

EE33.根据EE31所述的声学回声减轻方法，其中，

自适应地更新所述第一自适应滤波器的系数集合的操作针对至少一个频带执行，所述至少一个频带每一个均包括多个频点；

获得所述残余回声功率的最终估计值的操作针对每个频点执行；以及

确定所述第二自适应滤波器的系数集合的操作包括：

确定所述第一自适应滤波器针对每个频带的系数集合的范数与所述第二自适应滤波器针对所述频带中的各个频点的各个系数集合的各个范数的均值的比率；以及

使用所述比率作为缩放因子来调整所述第二自适应滤波器针对每个频点的系数集合。

EE34.根据EE21至EE26和EE31至EE33中任一项所述的声学回声减轻方法，其中，

消除所估计的声学回声的操作是基于归一化最小均方算法执行的；以及

所述归一化最小均方算法的步长是基于所述残余回声功率和所述差信号的功率更新的。

EE35.根据EE34所述的声学回声减轻方法，其中，

所述归一化最小均方算法的步长是基于所述残余回声功率和所述差信号的功率的期望值更新的。

EE36.根据EE24至EE26和EE31至EE33中任一项所述的声学回声减轻方法，还包括：

估计回声路径的重要性；

其中，当所述回声路径具有低重要性时，不执行所述消除所估计的声学回声的操作和/或所述进一步抑制所述残余回声的操作。

EE37.根据EE36所述的声学回声减轻方法，其中，所述最小统计值是针对所述第一数量的过去帧的所述系数集合的范数中的最小范数，并且估计所述回声路径的重要性的操作还包括：

针对每个频点并且针对当前帧，找到针对第四数量的过去帧的最小范数中的长期最小范数；

计算针对各个频点的各个长期最小范数的和；以及

其中，当所述和在第五数量的连续观察中小于第三阈值时，不执行所述消除所估计的声学回声的操作和/或所述进一步抑制所述残余回声的操作；并且/或者，当所述和在第六数量的连续观察中不小于所述第三阈值时，执行所述消除所估计的声学回声的操作和/或所述进一步抑制所述残余回声的操作。

EE38.根据EE37所述的声学回声减轻方法，其中，估计所述回声路径的重要性的操作还包括：

针对每个频点并且针对当前帧，找到针对第四数量的过去帧的范数中的长期最小范数；

计算针对各个频点的各个最小范数的和；以及

EE39.根据EE21至EE26和EE31至EE33中任一项所述的声学回声减轻方法，其中，所述进一步抑制所述残余回声的操作包括向所述差信号施加基于所述差信号的功率、所述残余回声功率和所述噪声功率确定的增益。

EE40.一种音频处理装置，包括根据EE1至EE20中任一项所述的声学回声减轻装置。

EE41.一种语音通信终端，包括根据EE1至EE20中任一项所述的声学回声减轻装置。

EE42.一种其上记录有计算机程序指令的计算机可读介质，当所述指令由处理器执行时，使得所述处理器能够执行声学回声减轻方法，所述声学回声减轻方法包括：

Claims

1.一种声学回声减轻装置，包括：

残余回声估计器，用于估计残余回声功率；以及

2.根据权利要求1所述的声学回声减轻装置，其中，所述残余回声估计器还包括：

3.根据权利要求2所述的声学回声减轻装置，其中，

4.根据权利要求3所述的声学回声减轻装置，其中，所述系数适配器被配置成：如果保存在所述第一缓冲器中的所述系数集合的范数的最大统计值与最小统计值的比率达到第一阈值，则使用针对上一帧的所述系数集合。

5.根据权利要求3至权利要求4中任一项所述的声学回声减轻装置，其中，所述最小统计值是保存在所述第一缓冲器中的所述系数集合的范数中的最小范数，以及所述系数适配器被配置成：如果所述最小范数大于所述第二自适应滤波器针对上一帧的系数集合的范数，则使用针对上一帧的所述系数集合。

6.根据权利要求3所述的声学回声减轻装置，其中，所述第一自适应滤波器被配置成基于参考信号功率的平滑后版本的历史、所述差信号的平滑后版本和所述噪声功率，来获得所述残余回声功率的初步估计值并且更新所述系数集合。

7.根据权利要求2所述的声学回声减轻装置，其中，

8.根据权利要求7所述的声学回声减轻装置，其中，

所述第二自适应滤波器被配置成针对每个频点工作，以及

9.根据权利要求1至权利要求4和权利要求7至权利要求8中任一项所述的声学回声减轻装置，其中，

所述声学回声消除器是基于归一化最小均方算法的；以及

10.根据权利要求3至权利要求4和权利要求7至权利要求8中任一项所述的声学回声减轻装置，还包括：

11.根据权利要求10所述的声学回声减轻装置，其中，所述最小统计值是所述第一缓冲器中保存的所述系数集合的范数中的最小范数，并且所述回声路径估计器还包括：

12.一种声学回声减轻方法，包括：

13.根据权利要求12所述的声学回声减轻方法，其中，估计所述残余回声功率的操作还包括：

14.根据权利要求13所述的声学回声减轻方法，其中，

15.根据权利要求14所述的声学回声减轻方法，其中，确定所述系数集合的操作被配置成：如果针对所述第一数量的过去帧的所述系数集合的范数的最大统计值与最小统计值的比率达到第一阈值，则使用针对上一帧的所述系数集合。

16.根据权利要求14至权利要求15中任一项所述的声学回声减轻方法，其中，所述最小统计值是针对所述第一数量的过去帧的系数集合的范数中的最小范数，确定所述系数集合的操作被配置成：如果所述最小范数大于所述第二自适应滤波器针对上一帧的系数集合的范数，则使用针对上一帧的所述系数集合。

17.根据权利要求14所述的声学回声减轻方法，其中，自适应地更新所述第一自适应滤波器的所述系数集合的操作是基于参考信号功率的平滑后版本的历史、所述差信号的平滑后版本和所述噪声功率进行的。

18.根据权利要求13所述的声学回声减轻方法，其中，

19.根据权利要求18所述的声学回声减轻方法，其中，

确定所述第二自适应滤波器的系数集合的操作包括：

20.根据权利要求12至权利要求15和权利要求18至权利要求19中任一项所述的声学回声减轻方法，其中，

21.根据权利要求14至权利要求15和权利要求18至权利要求19中任一项所述的声学回声减轻方法，还包括：

估计回声路径的重要性；

22.根据权利要求21所述的声学回声减轻方法，其中，所述最小统计值是针对所述第一数量的过去帧的所述系数集合的范数中的最小范数，并且估计所述回声路径的重要性的操作还包括：

计算针对各个频点的各个长期最小范数的和；以及

23.一种音频处理装置，包括根据权利要求1至权利要求11中任一项所述的声学回声减轻装置。

24.一种语音通信终端，包括根据权利要求1至权利要求11中任一项所述的声学回声减轻装置。