CN115315935A

CN115315935A - 回声残余抑制

Info

Publication number: CN115315935A
Application number: CN202180023584.2A
Authority: CN
Inventors: 王宁
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2020-03-23
Filing date: 2021-03-19
Publication date: 2022-11-08
Also published as: WO2021194859A1; KR20220157475A; US20230138637A1; EP4128732A1; JP2023519249A; BR112022018422A2

Abstract

一种音频处理方法包括基于由估计功率增益曲线指示的回声消除的长期量来计算估计回声残余功率，其中，所述估计功率增益曲线基于参考信号和回声残余信号。然后，可以基于估计回声残余功率来执行回声残余的回声抑制。

Description

回声残余抑制

相关申请的交叉引用

本申请要求于2020年3月23日提交的美国临时专利申请62/993,149和2021年2月25日提交的美国临时专利申请63/153,523的优先权，所述美国临时专利申请中的每一个均通过引用以其全文特此并入。

技术领域

本公开涉及音频处理，并且更特别地涉及回声抑制。

背景技术

除非本文另外指出，否则本节中描述的方法不是本申请中的权利要求的现有技术，并且并不由于包含在本节中而被承认是现有技术。

如音频会议***等电信设备通常包括扩音器和麦克风。通信中的两方可以称为近端方和远端方。近端方靠近第一电信设备，而远端方在与近端方不同的位置并且使用第二电信设备经由有线或无线电信网络进行通信。近端设备的麦克风不仅会采集到近端方的话音，还可能会采集到已从近端处的扩音器输出的远端方的话音。麦克风采集到的扩音器的输出通常称为回声。近端电信设备通常包括回声管理***，用于在将在近端采集到的音频传输到远端之前减少回声。

回声管理***通常包括回声消除(cancellation)***，接着是回声抑制(suppression)***。回声消除***是线性***并且通常可以包括自适应滤波器(adaptivefilter)。在经历回声消除后，音频信号中剩余的回声通常称为“回声残余(echoresidual)”。回声抑制***是非线性***，其将附加的衰减应用于音频信号，以减少回声残余。回声抑制***执行的衰减被称为非线性衰减，因为该***可以将不同的增益应用于不同的频率或频带。

基于物理回声回波损耗(例如，由于扩音器与麦克风之间的距离导致)、回声消除和回声抑制的贡献，电信设备通常实现了大约50dB的回声减少。

发明内容

现有回声管理***的一个问题是：膝上型计算机越来越多地用于如音频会议或视频会议等电信领域。在膝上型计算机中，扩音器和麦克风非常靠近，因此很难达到50dB的回声减少目标。鉴于上述情况，需要改进回声抑制***以减少回声残余。

根据实施例，一种计算机实施的音频处理方法包括接收参考信号和回声残余信号。该方法进一步包括通过分别对参考信号和回声残余信号执行分带(banding)来生成分带参考信号和分带回声残余信号。该方法进一步包括基于分带参考信号和分带回声残余信号来计算估计功率增益曲线和环回功率。该方法进一步包括基于分带回声残余信号、环回功率和估计功率增益曲线来计算估计回声残余功率。该方法进一步包括基于分带回声残余信号和估计回声残余功率来计算多个分带增益。该方法进一步包括通过将多个分带增益应用于回声残余信号来生成修改后的回声残余信号。

根据另一个实施例，一种装置包括扩音器、麦克风和处理器。所述处理器被配置为控制所述装置以实施本文所描述的方法中的一种或多种。所述装置可以另外包括与本文所描述的方法中的一种或多种方法的细节类似的细节。

根据另一个实施例，一种非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置执行包括本文所描述的方法中的一种或多种方法的处理。

以下详细描述和附图提供了对各个实施方式的性质和优点的进一步理解。

附图说明

图1是回声管理***100的框图。

图2是回声消除器201(参见图1)的框图。

图3是回声抑制器301(参见图1)的框图。

图4是环回功率计算器(loopback power calculator)400的框图。

图5是自适应滤波器的环回功率

与误差(回声残余)传递函数

之间的关系的直方图。

图6是图示概率密度函数Pr(x|E^c)的曲线图。

图7是根据实施例的用于实施本文描述的特征和过程的移动设备架构700。

图8是音频处理方法800的流程图。

具体实施方式

本文描述了与回声抑制相关的技术。在以下描述中，出于解释的目的，阐述了许多示例和具体细节以便提供对本公开的透彻理解。然而，对于本领域技术人员显而易见的是，如由权利要求限定的本公开可以单独地或与以下描述的其他特征组合地包括这些示例中的一些或全部特征，并且可以进一步包括本文所描述的特征和概念的修改和等同物。

在以下描述中，详细描述了各种方法、过程和程序。尽管可能以特定顺序描述了特定步骤，但是这种顺序主要是为了方便和清楚。特定步骤可以重复执行一次以上，可以在其他步骤之前或之后发生(即使这些步骤另外以另一种顺序描述)，并且可以与其他步骤并行发生。仅在第一步骤必须在第二步骤开始之前完成的情况下，才需要第二步骤跟随第一步骤。当从上下文中不清楚时，将明确指出这种情况。

在本文档中，使用术语“和”、“或”以及“和/或”。这种术语应被理解为具有包含性含义。例如，“A和B”至少可以意指以下含义：“A和B两者”、“至少A和B两者”。作为另一个示例，“A或B”至少可以意指以下含义：“至少A”、“至少B”、“A和B两者”、“至少A和B两者”。作为另一个示例，“A和/或B”至少可以意指以下含义：“A和B”、“A或B”。当打算使用异或时，这将明确指出(例如，“要么A要么B”、“A和B中的至多一个”)。

本文档描述了与如块、元件、部件、电路等结构相关联的各种处理功能。通常，这些结构可以由一个或多个计算机程序控制的处理器来实施。

描述回声管理的各种实施例的简要概述如下。该***首先通过将回声消除器针对每个频带的功率增益建模为高斯分布的随机变量来估计输入信号的每个频带中的回声残余功率，该高斯分布的随机变量的均值和方差取决于环回功率和增益曲线估计。接下来，***估计针对每个频带和针对每个不同输入电平的统计增益曲线。***使用统计增益曲线将输入电平量化为几个区段。接下来，***将宽带回声残余建模为高斯混合模型，并计算本地讲话的似然性(似然值，likelihood)。最后，根据本地讲话的似然性，***将不同的最大抑制应用于输入信号的频带。下文提供了进一步的细节。

图1是回声管理***100的框图。回声管理***100通常从由近端设备采集的音频中去除回声然后再传输到远端设备。例如，当来自远端的音频被近端设备接收并由近端设备的扩音器输出时，“回声”对应于这种由近端设备的麦克风采集的从扩音器的输出。回声管理***100包括分析滤波器组101、回声消除器201、回声抑制器301和合成滤波器组111。

分析滤波器组101接收参考信号120(也表示为x(t))和采集信号122(也表示为y(t))，执行变换，并生成变换后的参考信号130(也表示为X(k，t′))和变换后的采集信号132(也表示为Y(k，t′))。参考信号120对应于从远端设备接收的由近端设备的扩音器输出的信号。采集信号122对应于由近端设备的麦克风采集到的音频，其可以包括本地讲话(例如，与近端设备相关联的人的话音)以及扩音器输出的回声(例如，与远端设备相关联的人的话音)。

变换通常对应于将输入信号从一个域变换到另一个域(例如，从时域变换到频域)。分析滤波器组101对参考信号120和采集信号122执行滤波和抽取，以生成变换后的参考信号130和变换后的采集信号132。例如，分析滤波器组101对x(t)执行滤波和抽取以生成X(k,t')，其中，k指示子带滤波器指数，并且t'指示抽取后的新时间变量。类似地，分析滤波器组101对y(t)执行滤波和抽取以生成Y(k,t')。

可以根据期望调整参数k，以针对给定的输入信号带宽调整变换仓(bin)的精细度。例如，参考信号120(或采集信号122)的常见带宽可以是4kHz、8kHz、12kHz、16kHz、24kHz等，对应的采样率为8kHz、16kHz、24kHz、32kHz、48kHz等。对于25Hz的变换仓带宽，在执行变换(例如，快速傅里叶变换)时，k可以是160个仓(对于4kHz信号)、960个仓(对于24kHz信号)等。

回声消除器201接收变换后的参考信号130和变换后的采集信号132，执行回声消除，并生成回声残余信号140(也表示为V(k,t'))。通常，回声消除是指基于X(k,t')将线性滤波应用于Y(k,t')以生成V(k,t')。回声消除器201通常实施自适应滤波器。参考图2，提供了回声消除器201的进一步细节。回声残余信号140被称为“回声残余信号”是因为它是通过将回声消除应用于变换后的采集信号132而产生的；在回声消除之后并且在回声抑制之前，信号中的剩余回声即为“残余回声”。

回声抑制器301接收变换后的参考信号130和回声残余信号140，执行回声抑制，并生成修改后的回声残余信号150(也表示为

)。通常，回声抑制是指基于X(k,t')将非线性衰减应用于V(k,t')以生成修改后的回声残余信号

作为抑制后的信号。参考图3，提供了回声抑制器301的进一步细节。

合成滤波器组111接收修改后的回声残余信号150，执行逆变换，并生成修改后的采集信号160(也表示为

其是时域信号)。逆变换通常对应于由分析滤波器组101执行的变换的逆变换。然后可以将修改后的采集信号160从近端设备传输到远端设备。

对于回声管理***100，回声可以通过将线性滤波器应用于回放信号来进行建模，例如使用等式(1)：

在等式(1)中，

对应于要消除的回声，h(t)对应于扬声器-房间-麦克风脉冲响应的模型(所述模型针对具有扬声器和麦克风的近端设备所在的房间)，x(t)对应于参考信号120，并且n(t)对应于噪声。

当不存在上行语音时(例如，近端处没有本地讲话，并且麦克风只采集到扩音器输出的回声；上行语音也可以称为近端语音)，得到等式(2)：

y(t)＝h(t)*x(t)+n(t) (2)

在等式(1)和(2)中，h(t)可以通过各种技术来估计，包括最小均方(LMS)过程、归一化最小均方(NLMS)过程、递归最小二乘(RLS)过程等。

由于声学性质，典型的房间脉冲响应具有超过数千个抽头，因此自适应滤波器将需要大量的计算资源。这对于膝上型计算机和台式计算机来说是非常不期望的，并且滤波器组101用于实施子带自适应滤波器以减少计算。

图2是回声消除器201(参见图1)的框图。回声消除器201包括与分析仓的数量相对应的多个自适应滤波器(例如，k个自适应滤波器)。示出了两个自适应滤波器251和252。自适应滤波器251接收X(0,t')和Y(0,t')，应用自适应滤波器H₀，并生成V(0,t')。自适应滤波器252接收X(k,t')和Y(k,t')，应用自适应滤波器H_k，并生成V(k,t')。回声消除器201中的未示出的其他自适应滤波器形成剩余的k-1个部件。X、Y和V分别对应于变换后的参考信号130、变换后的采集信号132和回声残余信号140(参见图1)，其中，与各个仓相对应的信号用与仓相对应的后缀来表示(例如，“130-0”表示参考信号130的第0个仓，“130-k”表示第k个仓等)。滤波器响应H对应于变换域中的房间脉冲响应h(t)。

虽然由滤波器组101实施的子带自适应滤波器可以大大降低算法的复杂性，但是由于滤波器之间的频谱重叠，回声消除器201的性能会降级。提出了一种闭环子带自适应滤波器来缓解所述问题，但由于复杂性大大增加，图2的开环子带自适应滤波器仍然是声学回声消除通常采用的技术。

图3是回声抑制器301(参见图1)的框图。如上所述，开环子带自适应滤波器是将回声消除50dB的量以实现良好的语音通信体验的实用(但不充分)的解决方案。即使在语音通话期间的大部分时间中很少发生全双工通信(例如，当双方都在讲话时的双重讲话)，并且当这种情况发生时没有一个活跃的说话者希望理解另一方的话音；相反，他们的意图仅仅是打断。基于此，可以在回声消除后应用非线性回声抑制来进一步抑制回声，但允许近端方的上行语音打断远端方。

考虑到这一点，在具有三个参与者的多端通话期间，如果抑制器让过多的回声残余通过，即使被打断的人可能没有糟糕的体验，但是(除了双工场景中活跃的两名讲话者之外的)第三方将具有糟糕的体验。因此，良好的抑制器应该尽可能多地抑制回声残余，同时尽可能多地使上行语音通过。对于线性操作，该目标只有通过如回声消除器201等的自适应滤波器才可能实现。

为了解决这些问题并提供附加的回声管理，回声抑制器301使用回声残余的固有统计来执行回声抑制。回声抑制器301包括分带部件311、功率增益曲线估计器312、回声残余估计器313、增益计算器314和信号组合器310。

分带部件311接收变换后的参考信号130(也表示为X(k,t'))和回声残余信号140(也表示为V(k,t'))，执行频率分带，并生成分带参考信号320(也表示为

)和分带回声残余信号322(也表示为

)。通常，“分带”是指将信号的多个子带或频率仓分组在一起或聚合以形成频带，其中，所得到的频带的数量小于子带或频率仓的原始数量。例如，可以通过对多个子带或频率仓求和以形成频带来执行分带，并且可以包括如乘法、绝对值计算、幅值计算等附加操作。分带部件311可以根据等式(3)对回声残余信号140执行分带以生成分带回声残余信号322：

分带部件311可以对变换后的参考信号130执行分带以根据等式(4)生成分带参考信号320：

在等式(3)和(4)中，B(b)对应于与频带b相关联的一组仓k，并且分带的输出对应于每个特定频带的信号功率。分带可以是等效矩形带宽(ERB)分带，其对应于人类听觉的心理声学模型并将较大的带宽与较低的频率相关联。例如，仓k的数量可以是960个仓，频带b的数量可以是61，并且每个频带b与多个仓k相关联，其中，与较低频带相关联的仓比与较高频带相关联的仓更多。

功率增益曲线估计器312接收分带参考信号320和分带回声残余信号322，估计功率增益曲线，并生成估计功率增益曲线324和环回功率420(也表示为

参见图4)。估计功率增益曲线324对应于如回声消除器201(参见图1)的声学回声消除器的功率增益曲线的估计。功率增益曲线估计器312还可以接收指示存在双重讲话的控制信号326。双重讲话是指远端方和近端方同时说话的情况(例如，在这种情况下，根据参考信号120指示远端话音，并且由采集信号122指示近端话音，所述近端话音还包括由扩音器输出并被近端处的麦克风采集到的远端话音的回声)。

当回声消除器201达到稳定状态，并且当不存在上行语音时(例如，这由根据控制信号326得出没有双重讲话并且根据参考信号120得出存在回声来指示)，将得到根据等式(5)表示的回声残余信号140(也表示为V(k,t'))：

在等式(5)中，

是自适应滤波器与真实的扬声器-房间-麦克风响应不匹配的误差响应。请注意，因为

取决于输入X(k,t)，所以

也将取决于所述输入。并且因为自适应滤波器

具有多个抽头，所以当前残余功率

可能不仅取决于当前输入功率，还取决于先前的输入功率。换言之，回声残余V(k,t')将不是线性时不变(LTI)***输出。

为了实施方式的简单和实用，根据等式(6)对残余功率进行建模：

功率增益曲线估计器312的附加细节在图4至图5中提供。

图4是环回功率计算器400的框图。环回功率计算器400可以是功率增益曲线估计器312(参见图3)的部件。环回功率计算器400通常计算分带参考信号320(参见图3；也表示为

)的环回功率420(也表示为

也参见图3)。通常，环回功率420对应于分带参考信号320的历史值的加权组合，如下文更全面详述的。环回功率计算器400包括自适应滤波器主导抽头查找器410、存储器412、乘法器414和416以及加法器418。

自适应滤波器主导抽头查找器410接收滤波器系数402(对应于图2的回声消除器201中的自适应滤波器H_k的滤波器系数)，确定两个主导抽头，并将主导抽头的权重w₀和w₁提供给乘法器414和416。主导抽头是与另一个抽头相比为自适应滤波器提供更大权重贡献的抽头。自适应滤波器主导抽头查找器410在所有子带上都使用与H_k相对应的滤波器系数402。权重w₀和w₁可以是相对权重。

存储器412存储分带参考信号

的历史。存储器412具有多个存储器元件，以存储分带参考信号

的当前值和分带参考信号的一个或多个先前值

作为具体示例，图2示出了包含4个存储器元件的存储器412。

乘法器414将存储在存储器412中的分带参考信号320的一个历史值乘以权重w₀，并且乘法器416将存储在存储器412中的分带参考信号320的另一个历史值乘以权重w₁。加法器418将乘法器414和416的结果相加。因此，可以根据等式(7)计算环回功率

在等式(7)中，n₀和n₁是分别对应于主导抽头w₀和w₁的延迟指数。在图4所示的示例中，n₀为2，且n₁为0。

当特定频带的输入功率(如对应于环回功率

)较大时，

的绝对值也趋于较大。这种关系在图5中进一步详述。

图5是自适应滤波器的环回功率

(在图3至图4中也称为环回功率420)与误差(回声残余)传递函数

之间的关系的直方图。从图5可以看出，当特定频带中的输入功率较大时(对应于特定频带的环回功率

)，

的绝对值也趋于较大。另一方面，当频带主要包含噪声时，由于噪声不会被消除，因此

趋于较小。

返回图3，功率增益曲线估计器312使用作为直方图的图5的关系来估计每个频带的增益曲线。估计功率增益曲线324可以表示为

的均值μ(b，t′)和方差σ²(b，t′)。(为简单起见，在以下段落中均值和方差表示为μ_b和

)总之，功率增益曲线估计器312使用回声残余信号(例如，回声残余信号140)的统计结合输入信号(例如，参考信号130)的历史来估计功率增益曲线。

功率增益曲线估计器312使用控制信号326(例如，双重讲话指示器)来更新增益曲线。具体地，功率增益曲线估计器312仅在其确信不存在上行(近端)语音(如控制信号326所指示的)时才更新增益曲线。控制信号326可以以各种方式生成，包括通过双重讲话检测器或使用随机方法来生成。随机方法的示例是：一旦参考信号已经超过第一阈值持续了长于第二阈值的持续时间，就在随机时间更新估计。

回声残余估计器313接收分带回声残余信号322(也表示为

)、环回功率420(也表示为

)以及估计功率增益曲线324(

的均值和方差，表示为μ_b和

)，并计算估计回声残余功率328(也表示为

)。回声残余估计器313可以基于估计功率增益曲线324和环回功率420的组合来计算估计回声残余功率328。回声残余估计器313可以使用应用于分带回声残余信号322、环回功率420和估计功率增益曲线324的组合的最小值算子来计算估计回声残余功率328。回声残余估计器313可以根据等式(8)来计算估计回声残余功率328：

在等式(8)中，β是通过调谐来确定的因子。最小值算子确保估计回声残余功率328永远不会超过

，其会是回声残余功率和本地讲话功率的复合函数。估计回声残余功率328可以建模为质心在

的高斯随机变量。总之，回声残余估计器313通过将回声消除器201(参见图1至图2)针对每个频带的功率增益建模为由估计功率增益曲线324参数化的高斯随机变量，根据每个频带的环回功率420来计算估计回声残余功率328。

增益计算器314接收分带回声残余信号322和估计回声残余功率328，并计算分带增益330(也表示为

)。计算分带增益330的一个目标是将半双工场景与全双工场景的不同抑制量应用于每个特定频带。(半双工场景描述了只有一方(例如，近端或远端)在讲话的情况。全双工场景描述了双方都在讲话(例如，双重讲话)的情况。)换言之，计算分带增益330包括基于回声残余信号中的本地讲话的似然性来选择性地计算多个分带增益。作为计算分带增益330的一部分，增益计算器314计算用于在两个场景之间操纵增益计算的特征。

由于房间噪声、电子噪声的性质和语音信号的随机性，假设以dB为单位的估计回声残余功率328具有均值为

并且方差为

的高斯分布，所述高斯分布对应于由功率增益曲线估计器312计算出的估计功率增益曲线324。还假设以dB为单位的估计回声残余功率328在频带之间没有互相关(与第一个假设无关)。设E^c为不存在上行语音的事件；针对特定频带的以dB为单位的回声残余功率的概率密度函数由等式(9)给出：

在等式(9)中，x是以dB为单位的估计回声残余功率328，

对应于估计回声残余功率328的质心。

图6是图示等式(9)的概率密度函数Pr(x|E^c)的曲线图。在图6中，x轴对应于x，并且y轴对应于Pr(x|E^c)。

通过将宽带回声残余建模为高斯混合模型，在所有频带b上没有上行语音的对数似然性L由等式(10)给出：

在等式(10)中，对数似然性L是等式(9)的指数分量

在所有频带b上的总和。换言之，回声残余信号140中的本地讲话的似然性是基于在多个频带上求和的估计功率增益曲线的均值和方差的对数似然性。总之，通过将回声残余信号140建模为应用于所有频带b上的高斯混合模型来计算对数似然性L。

当不存在上行语音(例如，设备没有采集到本地讲话)时，L(E^c)应该是较低的；否则L(E)较高，并且等式(10)的对数似然性L将是操纵增益计算的信号。

等式(10)的对数似然性L用于根据等式(11)计算所有频带G_max上的全局最大抑制增益：

在等式(11)中，G₀为当存在上行语音时以dB为单位的增益，而G₁为当不存在上行语音时以dB为单位的预定义增益。L_th是预定义阈值，其可以在初始设置期间经由本地讲话是否存在的先验知识为每个设备获得。

换言之，计算分带增益330包括计算在多个频带上的全局最大抑制增益G_max。全局最大抑制增益基于对应于存在本地讲话的第一增益G₀、对应于不存在本地讲话的第二增益G₁以及本地讲话的似然性L。

在每个频带上，增益计算器314可以使用一个或多个增益计算过程来计算每个频带的增益

。合适的示例增益计算过程包括美国专利号9,173,025、美国专利号8,712,076和美国专利号8,804,977中描述的增益计算过程，所述美国专利通过引用并入本文。

信号组合器310接收回声残余信号140(也表示为V(k,t'))和分带增益330(也表示为

)并生成修改后的回声残余信号150(也表示为

)。将针对给定频带b计算的增益应用于属于该给定ERB频带的所有子带k。信号组合器310可以根据等式(12)生成修改后的回声残余信号150：

换言之，回声残余信号140具有多个频率仓k，其中，分带增益330的给定分带增益

对应于给定频率仓(例如，每个频带b可以与多个仓k相关联)，并且生成修改后的回声残余信号150包括针对回声残余信号140的每个仓k，应用对应的分带增益

以生成修改后的回声残余信号150。

图7是根据实施例的用于实施本文描述的特征和过程的移动设备架构700。架构700可以在任何电子设备中实施，所述电子设备包括但不限于：台式计算机、消费类音频/视频(AV)设备、无线电广播设备、移动设备(例如，智能电话、平板计算机、膝上型计算机、可穿戴设备)等。在示出的示例实施例中，架构700用于膝上型计算机并且包括(多个)处理器701、***设备接口702、音频子***703、扩音器704、麦克风705、传感器706(例如，加速度计、陀螺仪、气压计、磁力计、相机)、位置处理器707(例如，GNSS接收器)、无线通信子***708(例如，Wi-Fi、蓝牙、蜂窝)、以及(多个)I/O子***709，所述I/O子***包括触摸控制器710和其他输入控制器711、触摸表面712和其他输入/控制设备713。也可以使用具有更多或更少部件的其他架构来实施所公开的实施例。

存储器接口714耦接到处理器701、***设备接口702和存储器715(例如，闪速存储器、RAM、ROM)。存储器715存储计算机程序指令和数据，包括但不限于：操作***指令716、通信指令717、GUI指令718、传感器处理指令719、电话指令720、电子消息传递指令721、web浏览指令722、音频处理指令723、GNSS/导航指令724和应用程序/数据725。音频处理指令723包括用于执行本文描述的音频处理的指令。

图8是音频处理方法800的流程图。方法800可以由具有图7的架构700的部件的设备(例如，膝上型计算机、移动电话等)执行，以例如通过执行一个或多个计算机程序来实施回声管理***100(参见图1)、回声消除器201(参见图2)、回声抑制器301(参见图3)、环回功率计算器400(参见图4)等的功能。

在802处，接收参考信号和回声残余信号。例如，回声抑制器301(参见图3)可以接收变换后的参考信号130和回声残余信号140。如从图1中可以看到的，变换后的参考信号130对应于参考信号120。

在804处，通过对参考信号和回声残余信号执行频率分带来生成分带参考信号和分带回声残余信号。例如，分带部件311(参见图3)可以对变换后的参考信号130和回声残余信号140执行分带，以分别生成分带参考信号320和分带回声残余信号322。

在806处，基于分带参考信号和分带回声残余信号来计算估计功率增益曲线和环回功率。估计功率增益曲线324对应于如回声消除器201(参见图1)的声学回声消除器的功率增益曲线的估计。例如，功率增益曲线估计器312(参见图3)可以基于分带参考信号320和分带回声残余信号322来计算估计功率增益曲线324。环回功率计算器400(参见图4)可以基于分带参考信号320来计算环回功率420。估计功率增益曲线324可以指示如由环回功率计算器400例如通过使用存储在存储器412中的分带参考信号320的历史来计算的回声消除的长期量。

在808处，基于分带回声残余信号、环回功率和估计功率增益曲线来计算估计回声残余功率。例如，回声残余估计器313(参见图3)可以基于分带回声残余信号322、环回功率420和估计功率增益曲线324来计算估计回声残余功率328。

在810处，基于分带回声残余信号和估计回声残余功率来计算多个分带增益。例如，增益计算器314(参见图3)可以基于分带回声残余信号322和估计回声残余功率328来计算分带增益330。

在812处，通过将多个分带增益应用于回声残余信号来生成修改后的回声残余信号。例如，信号组合器310(参见图3)可以通过将分带增益330应用于回声残余信号140来生成修改后的回声残余信号150。

方法800可以包括与本文所描述的回声管理***100、回声消除器201、回声抑制器301、环回功率计算器400等的其他功能相对应的附加步骤。例如，可以由如扩音器704(参见图7)的扩音器输出参考信号。作为另一示例，可以由麦克风(例如，图5的麦克风705)采集近端音频，可以生成近端音频信号，并且可以(例如，由图1的回声消除器201)通过对近端音频信号执行回声消除来生成回声残余信号。近端音频可以包括本地讲话(例如，由近端的人产生的话音)、回声(例如，由近端处的扩音器输出的远端话音)等。作为另一个示例，可以由近端设备将修改后的回声残余传输到远端设备，例如，作为电话会议、视频会议等的一部分。

实施方式细节

实施例可以以硬件、存储在计算机可读介质上的可执行模块、或二者的组合(例如，可编程逻辑阵列)来实施。除非另有说明，否则由实施例执行的步骤不需要固有地与任何特定计算机或其他装置相关，尽管其可能在某些实施例中相关。具体地，各种通用机器可以与根据本文的传授内容编写的程序一起使用，或可以更方便地构建更专业的装置(例如，集成电路)以执行所需的方法步骤。因此，实施例可以在一个或多个可编程计算机***上执行的一个或多个计算机程序中实施，所述一个或多个可编程计算机***各自包括至少一个处理器、至少一个数据存储***(包括易失性和非易失性的存储器和/或存储元件)、至少一个输入设备或端口以及至少一个输出设备或端口。程序代码应用于输入数据以执行本文描述的功能并生成输出信息。输出信息以已知的方式应用于一个或多个输出设备。

每个这种计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如，固态存储器或介质、或者磁性或光学介质)，以用于在计算机***读取存储介质或设备时配置并操作计算机以执行本文描述的程序。本发明的***还可以被认为是实施为配置有计算机程序的计算机可读存储介质，其中，这样配置的存储介质使计算机***以特定且预定义的方式操作以执行本文描述的功能。(软件本身和无形或暂态信号在它们是不可申请专利的主题的意义上被排除。)

本文所描述的***的各方面可以在适当的基于计算机的声音处理网络环境中实施，以便处理数字或数字化音频文件。自适应音频***的部分可以包括一个或多个网络，所述网络包括任何期望数量的独立机器，所述机器包括用于缓冲和路由在计算机之间传输的数据的一个或多个路由器(未示出)。这种网络可以在各种不同的网络协议上构建，并且可以是因特网、广域网(WAN)、局域网(LAN)或其任何组合。

一个或多个部件、块、过程或其他功能部件可以通过控制***的基于处理器的计算设备的执行的计算机程序来实施。还应当注意，本文公开的各种功能可以从其行为、寄存器传输、逻辑部件和/或其他特性的方面使用硬件、固件的任何数量的组合来描述，和/或描述为在各种机器可读或计算机可读介质中实施的数据和/或指令。可以实施这种格式化数据和/或指令的计算机可读介质包括但不限于各种形式的物理(非暂态)、非易失性存储介质，如光学存储介质、磁存储介质或半导体存储介质。

以上描述说明了本公开的各种实施例以及可以如何实施本公开的各方面的示例。以上示例和实施例不应被认为是仅有的实施例，而是被呈现以说明由所附权利要求限定的本公开的灵活性和优点。基于以上公开和所附权利要求，其他布置、实施例、实施方式和等同物对于本领域技术人员将是显而易见的，并且可以在不脱离由权利要求限定的本公开的精神和范围的情况下采用。

参考文献

美国专利号：10,115,411；8,111,833；9,338,551；9,363,600；10,382,092；10,313,789；10,477,031；9,503,815；9,185,506；8,462,958；6,163,608；9,420,390；9,173,025；8,712,076；8,804,977。

美国专利申请公开号：2016/0241955；2019/0349471。

C.Yemdji,M.M.Idrissa,N.W.D.Evans and C.Beaugeant,“Efficient low delayfiltering for residual echo suppression”,in 2010 18th European SignalProcessing Conference,Aalborg,2010,pp.16-20.[C.Yemdji,M.M.Idrissa,N.W.D.Evans和C.Beaugeant,用于残余回声抑制的高效低延迟滤波,2010年第18届欧洲信号处理会议,奥尔堡,2010年,第16-20页]。

Claims

1.一种计算机实施的音频处理方法，所述方法包括：

接收参考信号和回声残余信号；

通过分别对所述参考信号和所述回声残余信号执行频率分带来生成分带参考信号和分带回声残余信号；

基于所述分带参考信号和所述分带回声残余信号来计算声学回声消除器的估计功率增益曲线和环回功率，其中，所述环回功率对应于所述分带参考信号的历史值的组合；

基于所述分带回声残余信号、所述环回功率和所述估计功率增益曲线来计算估计回声残余功率；

基于所述分带回声残余信号和所述估计回声残余功率来计算多个分带增益；以及

通过将所述多个分带增益应用于所述回声残余信号来生成修改后的回声残余信号。

2.如权利要求1所述的方法，进一步包括：

由扩音器输出所述参考信号。

3.如权利要求1至2中任一项所述的方法，进一步包括：

由麦克风采集近端音频；

生成对应于所述近端音频的近端音频信号；以及

通过对所述近端音频信号执行回声消除来生成所述回声残余信号。

4.如权利要求1至3中任一项所述的方法，进一步包括：

将所述修改后的回声残余信号传输到远端设备。

5.如权利要求1至4中任一项所述的方法，其中，所述回声残余信号具有多个频率仓，其中，所述分带回声残余信号具有多个频带，并且其中，生成所述分带回声残余信号包括：

通过对所述回声残余信号执行等效矩形带宽分带来生成所述分带回声残余信号，其中，所述等效矩形分带根据人类听觉的心理声学模型将所述多个频率仓聚合成所述多个频带。

6.如权利要求1至5中任一项所述的方法，其中，计算所述估计功率增益曲线包括：

由主导自适应滤波器抽头查找器计算多个自适应滤波器的多个主导抽头，其中，与所述多个自适应滤波器的其他抽头相比，所述多个主导抽头为所述多个自适应滤波器提供更大的权重贡献；

使用所述多个主导抽头中的两个主导抽头和所述分带参考信号的历史来计算所述分带参考信号的环回功率；以及

使用基于所述分带参考信号的直方图来计算所述估计功率增益曲线。

7.如权利要求6所述的方法，其中，所述估计功率增益曲线包括均值和方差。

8.如权利要求1至7中任一项所述的方法，其中，所述环回功率是在多个频带上被计算的，其中，计算所述估计回声残余功率包括：

通过将回声消除器针对每个频带的功率增益建模为由所述估计功率增益曲线参数化的高斯随机变量，根据所述多个频带中的每个频带的环回功率来计算所述估计回声残余功率。

9.如权利要求1至8中任一项所述的方法，其中，计算所述多个分带增益包括基于所述回声残余信号中的本地讲话的似然性来选择性地计算所述多个分带增益，其中，所述本地讲话对应于由实施权利要求1至8中任一项所述的方法的设备采集的音频。

10.如权利要求9所述的方法，其中，所述回声残余信号中的本地讲话的似然性是通过将所述回声残余信号建模为应用于多个频带上的高斯混合模型来被计算的。

11.如权利要求9所述的方法，其中，所述回声残余信号中的本地讲话的似然性是基于在多个频带上求和的所述估计功率增益曲线的均值和方差的对数似然性。

12.如权利要求9所述的方法，其中，计算所述多个分带增益包括计算在所述多个频带上的全局最大抑制增益。

13.如权利要求12所述的方法，其中，计算所述全局最大抑制增益基于对应于存在所述本地讲话的第一增益、对应于不存在所述本地讲话的第二增益、以及所述本地讲话的似然性。

14.如权利要求1至13中任一项所述的方法，其中，所述回声残余信号具有多个频率仓，其中，所述多个分带增益中的给定分带增益对应于所述多个频率仓中的给定频率仓，并且其中，生成所述修改后的回声残余信号包括：

针对所述回声残余信号的多个频率仓中的每一个频率仓，应用所述多个分带增益中的对应分带增益以生成所述修改后的回声残余信号。

15.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置执行包括如权利要求1至14中任一项所述的方法的处理。

16.一种用于音频处理的装置，所述装置包括：

处理器，

其中，所述处理器被配置为控制所述装置接收参考信号和回声残余信号，

其中，所述处理器被配置为控制所述装置通过分别对所述参考信号和所述回声残余信号执行频率分带来生成分带参考信号和分带回声残余信号，

其中，所述处理器被配置为控制所述装置基于所述分带参考信号和所述分带回声残余信号来计算声学回声消除器的估计功率增益曲线和环回功率，其中，所述环回功率对应于所述分带参考信号的历史值的组合，

其中，所述处理器被配置为控制所述装置基于所述分带回声残余信号、所述环回功率和所述估计功率增益曲线来计算估计回声残余功率，

其中，所述处理器被配置为控制所述装置基于所述分带回声残余信号和所述估计回声残余功率来计算多个分带增益，并且

其中，所述处理器被配置为控制所述装置通过将所述多个分带增益应用于所述回声残余信号来生成修改后的回声残余信号。

17.如权利要求16所述的装置，进一步包括：

扩音器，所述扩音器被配置为输出所述参考信号。

18.如权利要求16至17中任一项所述的装置，进一步包括：

麦克风，所述麦克风被配置为采集近端音频，

其中，所述处理器被配置为控制所述装置生成对应于所述近端音频的近端音频信号，并且

其中，所述处理器被配置为控制所述装置通过对所述近端音频信号执行回声消除来生成所述回声残余信号。

19.如权利要求16至18中任一项所述的装置，其中，所述装置被配置为将所述修改后的回声残余信号传输到远端设备。

20.如权利要求16至19中任一项所述的装置，其中，所述环回功率是在多个频带上计算的；并且

其中，所述处理器被配置为控制所述装置通过将回声消除器针对每个频带的功率增益建模为由所述估计功率增益曲线参数化的高斯随机变量，根据所述多个频带中的每个频带的环回功率来计算所述估计回声残余功率。