CN102957819B

CN102957819B - 处理音频信号的方法及其设备

Info

Publication number: CN102957819B
Application number: CN201210368101.5A
Authority: CN
Inventors: P.阿格伦
Original assignee: Skype Ltd Ireland
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-09-30
Filing date: 2012-09-28
Publication date: 2015-01-28
Anticipated expiration: 2032-09-28
Also published as: CN102957819A

Abstract

用于在设备处处理音频信号的方法、设备和计算机程序产品，该设备包括用于输出音频信号的音频输出器件。在设备的多个麦克风处接收音频信号。测量多个麦克风所接收的音频信号中的至少一个的特性。波束成形器对所接收的音频信号应用波束成形器系数，由此生成波束成形器输出。回声消除器件被应用于波束成形器输出，由此从波束成形器输出抑制从音频输出器件所输出的音频信号所导致的回声，其中该回声消除器件的操作参数基于多个麦克风所接收的音频信号中的至少一个的所测量的特性进行控制。

Description

处理音频信号的方法及其设备

技术领域

本发明涉及对在设备处接收的音频信号进行处理。

背景技术

设备可以具有诸如麦克风之类的音频输入器件，其可以被用来从周围环境接收音频信号。例如，用户设备的麦克风可以接收主音频信号（诸如来自用户的话音）以及其它音频信号。所述其它音频信号可能是在设备的麦克风处所接收的干扰音频信号，并且可能是从干扰源接收的，或者可能是周围背景噪声或麦克风的自噪声。干扰音频信号可能干扰在设备处接收的主音频信号。设备可以将所接收音频信号用于许多不同用途。例如，在所接收的音频信号是从用户接收的话音信号的情况下，该话音信号可以由设备进行处理以便在通信事件中使用，例如通过经网络将该话音信号传送至可以与通信事件的另一用户相关联的另一设备。可替换地或除此之外，所接收的音频信号可以被用于如本领域已知的其它用途。

为了提高所接收音频信号（例如，从用户处接收的用于在呼叫中使用的话音信号）的质量，需要对在用户设备的麦克风处接收的干扰音频信号（例如，背景噪声以及从干扰音频源所接收的干扰音频信号）进行抑制。

立体声麦克风以及其中多个麦克风作为单个音频输入器件进行操作的其它麦克风阵列的使用变得日益普遍。在设备使用多个麦克风使得除了能够从单个麦克风所接收的音频信号中所提取的信息之外，还能够使用从所接收音频信号提取的空间信息。当使用这样的设备时，一种用于抑制干扰音频信号的方法是对多个麦克风所接收的音频信号应用波束成形器。波束成形是通过应用信号处理而对麦克风阵列所接收的音频信号进行集中以使得在麦克风阵列从一个或多个所期望位置（即，方向和距离）所接收的特定的音频信号相比在麦克风所接收音频信号的其余部分有所提升的处理。为了简要，这里将对仅具有单个所期望方向的情形进行描述，但是相同的方法可以在存在更多感兴趣的方向时应用。在波束成形行处理之前，可以确定或设置在麦克风阵列接收所期望音频信号的角度（和/或距离），即所谓的到达方向（DOA）信息。由于到达方向的估计可能是复杂的，所以将所期望的到达方向设置为固定会是有利的。然而，在替代的情形中，使得所期望的到达方向适应于变化的条件会是有利的，并且因此在使用波束成形器时实时执行对所期望的到达方向的估计可能是有利的。自适应波束成形器对所接收的音频信号应用多个权重（或“波束成形器系数”）。这些权重可以得以适配以考虑到DOA信息而对多个麦克风所接收的音频信号进行处理以形成“波束”，由此高增益被应用于麦克风从所期望的位置（即，所期望的方向和距离）接收的所期望的音频信号，而低增益则被应用于去往任意其它（例如，干扰）信号源的方向。就干扰源的抑制可以进行适配的意义而言，波束成形器可以是“自适应的”，而所期望源/观看方向的选择则不必是可适配的。

设备不但具有用于接收音频信号的多个麦克风，还可以具有用于输出音频信号的音频输出器件（例如，包括扬声器）。这样的设备例如在音频信号例如要在通信事件期间被输出到设备用户以及从设备用户接收的情况下是有用的。例如，设备可以是诸如电话、计算机或电视的用户设备，并且可以包括允许用户参与电话会议所必须的装置。

在设备包括音频输出器件（例如，包括扬声器）和音频输入器件（例如，麦克风）二者的情况下，则在所接收音频信号中存在回声是经常存在问题，其中回声产生于从扬声器输出并且在麦克风接收的音频信号。可以使用回声消除器来消除麦克风处所接收的音频信号中的回声。回声抑制和回声削减是实施回声消除器的两种方法。例如，回声消除器可以实施回声抑制器，其被用来对在麦克风所接收的音频信号中的回声进行抑制。音频信号从扬声器到麦克风的传播路径被称作回声路径，并且回声抑制器可以估计作为时间函数的回声路径增益并且使用其来估计所接收音频信号中的回声功率。所接收音频信号中的回声功率估计可以被用来将所接收信号中的回声抑制到使得它们在存在任意近端信号（在麦克风所接收的音频信号中并非来源于扬声器的信号分量）的情况下不会被注意到的水平。所接收的音频信号中的回声功率估计是基于回声消除器在其中进行操作的扬声器-封闭-麦克风（loudspeaker-enclosure-microphone）***的模型。该模型经常至少部分地是线性的，但是在一些情况下，该模型可能是非线性的。混合回声消除器由以层级方式应用的回声削减器和回声抑制器所构成。通过使用混合回声消除器，通过回声削减器实现了有所提高的双端语音（doubletalk）透明度，并且如果需要，则通过回声抑制器获得额外的回声抑制增益。

对于回声消除的最优操作的一般要求在于：

· 回声路径相对缓慢地变化，这是因为否则回声路径增益估计将很快不准确；

· ***足够线性，以便通过线性回声模型进行建模；和

· 回声路径增益不应当被低估，这是因为低估进而还会导致回声功率被低估。这将导致回声消除器应用过小的抑制并且由此放过不可忽视的残留回声。

对所接收音频信号实施波束成形器和回声消除器并非是微不足道的任务。实际上，当结合自适应麦克风波束成形器时（例如，在电话会议应用中），需要进行关注以使得回声消除器的性能不会被波束成形中的适配所降低。

在将波束成形和回声消除一起实施的第一***中，在执行波束成形之前对每个麦克风信号应用单独的回声消除器。然而，该第一***由于用于多个麦克风信号的多个回声消除器的操作而在计算上非常复杂。此外，对麦克风信号使用回声消除器（特别是使用实施回声抑制的回声消除器）会干扰波束成形器的波束成形处理。

在将波束成形和回声消除一起实施的第二***中，回声消除器被应用于波束成形器的输出。在该第二***中，数据自适应波束成形器的表现被优选地约束为随时间推移而非常缓慢地变化，这是因为否则，在回声消除器试图响应于波束成形器表现的变化而对回声路径估计进行调节时，在回声消除器所实施的回声抑制中所使用的回声路径估计的准确性将会受到不利影响。此外，在该第二***中，波束成形器优选地被约束为线性的以便防止回声消除器所实施的回声抑制在近端透明度方面可实现的回声消除性能的不利下降。一些波束成形器是线性的，但是一些则不是线性的，从而波束成形器的选择在第二***中受到限制（被限制为线性波束成形器）。

因此，以上所描述的第一***和第二***都存在问题。

发明内容

本发明的实施例允许麦克风波束成形器与回声消除器一起使用，而并不以任何方式对波束成形器的类型或表现进行限制而且并不影响回声消除器的性能。本发明的实施例基于波束成形器之前最强的麦克风信号计算回声消除器表现，并且对波束成形器输出应用回声消除器。

术语“最强”音频信号可以表示随时间推移具有最高平均功率的一个所接收音频信号。然而，“最强”音频信号可以表示随时间推移按平均值具有最高绝对值的一个所接收的音频信号，或者瞬时具有最强功率的音频信号。

根据本发明的第一方面，提供了一种在设备处对音频信号进行处理的方法，该设备包括用于输出音频信号的音频输出器件，该方法包括：在该设备的多个麦克风处接收音频信号；测量多个麦克风所接收的音频信号中的至少一个的特性；波束成形器对所接收的音频信号应用波束成形器系数，由此生成波束成形器输出；并且对该波束成形器输出应用回声消除器件，由此从该波束成形器输出中抑制从该音频输出器件所输出的音频信号所导致的回声，其中该回声消除器件的操作参数基于多个麦克风所接收的音频信号中的至少一个的所测量特性进行控制。

有利地，本发明实施例的计算复杂度低，原因在于回声消除器件被应用于波束成形器输出而不是波束成形器之前的每个所接受音频信号。因此所需的回声消除器更少。在优选实施例中，仅使用一个回声消除器，其被应用于波束成形器输出。此外，波束成形器的性能并不会受到回声消除器件的不利影响，这是因为回声消除器件在波束成形器对所接收音频信号应用波束成形器系数之前并不对所接收音频信号进行改变。此外，波束成形器的表现并不由于波束成形器输出缓慢变化的要求而受到限制，这是因为在波束成形器应用波束成形器系数之前，回声消除器件的操作参数基于一个或多个所接收音频信号的特性进行控制。这样，回声消除器件的操作参数并不受到波束成形器表现的影响，并且这样波束成形器输出并不被要求来为了回声消除器件正确工作而缓慢变化。类似地，由于回声消除器件的操作参数在波束成形处理之前基于至少一个所接收音频信号的特性进行控制，所以波束成形器所应用的波束成形器参数并不必局限于是线性的（虽然波束成形器系数在一些实施例中可以是线性的）。

在优选实施例中，多个麦克风所接收的音频信号中被根据来测量特性的至少一个包括最强的所接收的音频信号，并且该方法可以包括确定哪个所接收的音频信号为最强的所接收的音频信号的步骤。多个麦克风所接收的音频信号中被根据来测量特性的至少一个可以包括不同于最强音频信号的一个所接收音频信号。

此外，测量至少一个音频信号的特性的步骤可以包括从多个麦克风所接收的音频信号中的至少一个测量回声路径增益。该方法可以进一步包括使用所述所测量的回声路径增益来确定波束成形器输出中的回声功率估计，其中所述操作参数基于波束成形器输出中的回声功率估计进行控制。该操作参数可以包括回声消除器件（例如，通过回声消除器件的回声抑制器件）对波束成形器输出所应用的回声抑制水平。有利地，在优选实施例中，根据从最强的所接收的音频信号所测量的回声路径增益所确定的波束成形器输出中的回声功率估计保证不会是对波束成形器输出中回声功率的低估，由此确保了回声消除器件不会对波束成形器输出应用过小的回声抑制。

在优选实施例中，该方法进一步包括确定波束成形器对多个麦克风从波束成形器的主要方向所接收的音频信号所应用的波束成形器增益，其中所述波束成形器增益被用在波束成形器输出中的回声功率估计的所述确定中。所确定的回声功率估计可以表示波束成形器输出中回声功率的上限。

该方法可以进一步包括基于所接收音频信号的分析对波束成形器的波束成形器系数进行适配。例如，可以对波束成形器系数进行适配以在波束成形器的波束成形约束内将波束成形器输出中的功率最小化。波束成形器的波束成形约束例如可以包括多个麦克风在波束成形器的主要方向中所接收的音频信号并不由于应用波束成形器系数而失真的约束。波束成形器系数可以描述所接收的音频信号的线性函数或非线性函数。例如，波束成形器可以是最小方差无失真响应（MVDR）波束成形器。

根据本发明的第二方面，提供了一种用于处理音频信号的设备，该设备包括：音频输出器件，用于输出音频信号；多个麦克风，用于接收音频信号；波束成形器，其被配置为对所接收的音频信号应用波束成形器系数，由此生成波束成形器输出；回声消除器件，其被配置为应用于该波束成形器输出，由此从该波束成形器输出抑制从该音频输出器件所输出的音频信号所导致的回声；和处理器件，用于测量多个麦克风所接收的音频信号中至少一个的特性，并且用于基于多个麦克风所接收的音频信号中至少一个的所测量特性对该回声消除器件的操作参数进行控制。

该回声消除器件可以包括被安排为应用于波束成形器输出的回声抑制器件。该回声消除器件可以进一步包括被安排为在波束成形器向所接收的音频信号应用波束成形器系数之前应用于多个麦克风所接收的每个音频信号的回声削减器件。

根据本发明的第三方面，提供了一种用于在设备处对音频信号进行处理的计算机程序产品，该设备包括用于接收音频信号的多个麦克风以及用于输出音频信号的音频输出器件，该计算机程序产品记录在非瞬时的计算机可读介质上并且被配置为以便当在该设备的处理器上执行时执行步骤：测量多个麦克风所接收的音频信号中的至少一个的特性；使用波束成形器对所接收的音频信号应用波束成形器系数，由此生成波束成形器输出；并且对该波束成形器输出应用回声消除器件，由此从该波束成形器输出中抑制从该音频输出器件所输出的音频信号所导致的回声，其中该回声消除器件的操作参数基于多个麦克风所接收的音频信号中的至少一个所测量的特性进行控制。

附图说明

为了更好地理解本发明以及示出本发明可以如何生效，现在将通过示例参考以下附图，其中：

图1示出了根据优选实施例的设备的示意图；

图2示出了根据优选实施例的***；

图3示出了根据第一现有技术***的设备的部件的功能框图；

图4示出了根据第二现有技术***的设备的部件的功能框图；

图5示出了根据优选实施例的设备的部件的功能框图；

图6示出了根据优选实施例的用于处理音频信号的处理的流程图。

具体实施方式

现在将仅通过示例对本发明的优选实施例进行描述。例如，可能希望在设备处实施波束成形器和回声消除器二者以便随电话会议应用一起使用。在本发明的以下实施例中，对允许波束成形器连同回声消除器一起使用而并不对波束成形器类型或波束成形器表现进行限制并且并不影响回声消除器的性能的技术进行描述。

波束成形器可以如下进行建模。麦克风波束成形器的用途是对若干麦克风信号进行合并以便产生波束成形器输出。波束成形器输出可以由许多信号构成，但是为了简要，在以下所描述的优选实施例中，将假设波束成形器产生一个单独输出。存在许多不同的可以使用的波束成形算法并且用于描述波束成形算法的通用模型为

其中y(t)是波束成形器输出，y_n(t)是来自麦克风阵列中第n个麦克风的第n个输入信号，N是波束成形器输入信号的总数，并且f()是波束成形器函数。波束成形器函数f()可以采用许多不同形式之一并且可以是线性或非线性的。对于延迟叠加（Delay-and-sum）波束成形器而言，波束成形算法给出如下：

对于MVDR波束成形器而言，波束成形算法给出如下：

其中g_n(t)是第n个输入信号的权重因数。

进行操作以消除单个麦克风输入信号y(t)中的回声的回声消除器可以如下进行建模。回声路径是扬声器信号x(t)向麦克风信号y(t)进行传播的路径。使用回声抑制的回声消除器可以通过针对时间t和频率f估计回声路径增益，并且使用回声路径增益的估计来估计所接收音频信号中的回声功率来进行操作。回声功率的该估计可以根据以下等式基于在其上操作回声消除器的扬声器-封闭-麦克风***的线性模型来执行：

其中Y(t, f)是针对麦克风信号的频率估计（例如，数字傅里叶变换），X(t, f)是针对扬声器信号的频率估计，S(t, f)是针对回声信号的频率估计，H(t, f)是回声路径的频率响应，并且N(t, f)是所有近端声音、麦克风噪声和建模误差（它们都是所接收的回声之外的音频信号）的频率估计。为了回声消除模型是有效的，假设用来计算频率估计的变换全部都具有足够的阶（sufficient orders）。由于设备将了解要从其扬声器输出什么信号，所以针对扬声器信号的频率估计X(t, f)是已知的。因此，为了确定回声功率，应当估计回声路径的频率响应H(t, f)。

在X(t, f)与N(t, f)无关的假设下，回声路径增益可以根据作为Y(t, f)和X(t, f)的函数的模型进行估计。此外，可以基于预计回声与近端的比率对估计速度或估计可信度进行调节，该比率限制估计的可能准确度，即主要在预计回声功率在麦克风信号中强时对估计进行更新。一种可以使用的估计方法是最小平方估计方法。

回声路径增益估计被用来使用以上模型来估计回声功率，即：

回声消除的最优操作的一般要求是：

· ***足够线性以便通过以上的线性回声模型进行建模；和

· 回声路径增益不应当被低估，即，这是因为低估进而还会导致回声功率被低估。这将导致回声消除器应用过小的已知并且由此放过不可忽视的残留回声。

现在参考图1，其图示了设备102的示意性视图。设备102可以是固定或移动设备。设备102包括CPU 104，与之连接的是用于接收音频信号的麦克风阵列106，用于输出音频信号的音频输出器件110，诸如用于向设备102的用户输出视觉数据的屏幕的显示器112以及用于存储数据的存储器114。

现在参见图2，其图示了设备102在其中进行操作的示例环境200。

设备102的麦克风阵列106从环境200接收音频信号。例如，如图2所示，麦克风阵列106接收来自用户202（如图2中的d₁所表示）的音频信号，来自另一个用户204（如图2中的d₂所表示）的音频信号，来自风扇206（如图2中的d₃所表示）的音频信号，以及来自扬声器210（如图2中的d₄所表示）的音频信号。设备102的音频输出器件110包括音频输出处理器件208和扬声器210。音频输出处理器件208进行操作以向扬声器210发送音频输出信号以便从扬声器210输出。音频输出处理器件208可以作为CPU 104上执行的软件或者作为设备102中的硬件进行操作。对于本领域技术人员将显而易见的是，麦克风阵列106可以接收图2所示之外的其它音频信号。在图2所示的情形中，来自用户202的音频信号是所期望的音频信号，而在麦克风阵列106所接收的所有其它音频信号是干扰音频信号。在其它实施例中，在麦克风阵列106所接收的多于一个的音频信号可以被认为是“所期望的”音频信号，但是为了简要，在这里所描述的实施例中，仅有一个所期望的音频信号（其是来自用户202的音频信号）而其它音频信号都被认为是干扰。所不期望的噪声信号的其它源例如可以包括空调***、播放音乐的设备，以及例如在环境200中离开墙壁的音频信号的混响（reverberance）。

现在参见图3，其图示了第一现有技术设备的部件的功能表示。麦克风阵列106包括多个麦克风302₁、302₂和302₃。第一现有技术设备进一步包括波束成形器304。麦克风阵列106中每个麦克风的输出耦接至多个声音回声消除器306₁、306₂和306₃的相应输入。以这种方式，针对每个所接收信号（图3中所表示的y₁(t)、y₂(t)和y₃(t)）有一个回声消除器306。每个回声消除器306的输出耦接到波束成形器304的相应输入。本领域技术人员将会意识到，需要多个输入以便实施波束成形。如图3所示，麦克风302₁、302₂和302₃接收近端音频信号以及从扬声器210所输出的回声音频信号。

在第一现有技术设备中，在波束成形器304执行波束成形之前对每个所接收的音频信号y(t)应用单独的回声消除器306。因此，如以上所描述的，图3所示的第一现有技术设备由于实施了多个回声消除器306而在计算上是复杂的。此外，引入回声消除器306会对自适应波束成形器304的波束成形处理造成干扰。

现在参见图4，其图示了第二现有技术设备的部件的功能表示。与图3所示的第一现有技术设备类似，第二现有技术设备具有包括多个麦克风302₁、302₂和302₃的麦克风阵列106以及波束成形器404。然而，在第二现有技术设备中，麦克风阵列106中的每一个麦克风的输出耦接至波束成形器404的相应输入，并且波束成形器404的输出耦合至声音回声消除器404的输入。以这种方式，波束成形器404在回声消除器406进行回声消除处理之前应用波束成形处理。第二现有技术设备省去了对多个回声消除器的需要，但是第二现有技术设备具有缺陷。例如，波束成形器404的操作需要进行调节以便在第二现有技术设备中非常缓慢地变化，因为否则回声消除器406将无法足够快地针对波束成形器表现的变化进行调节以对所接收音频信号中的回声提供满意的抑制。此外，为了回声消除器406正确操作，波束成形器404优选地需要是线性的。这限制了波束成形器404实施方式的选择。

现在参见图5，其图示了根据本发明优选实施例的设备102的部件的功能表示。麦克风阵列106包括多个麦克风302₁、302₂和302₃。设备102进一步包括波束成形器504、声音回声消除器506和处理块508。波束成形器504例如可以是最小方差无失真响应（MVDR）波束成形器。波束成形器504、回声消除器506和处理块508可以在CPU 104上执行的软件或者在设备102中的硬件中实施。麦克风阵列106中每个麦克风的输出耦接至波束成形器504的相应输入。麦克风阵列106中每个麦克风的输出还耦接至处理块508的相应输入。波束成形器504的输出耦接至回声消除器506的输入。处理块508的输出耦接至回声消除器506的输入以由此向回声消除器506提供边信息。本领域技术人员将会意识到的是，需要多个输入以便实施波束成型。麦克风阵列106在图5中被示为具有三个麦克风（302₁、302₂和302₃），但是将要理解的是，这个麦克风的数量仅是示例而并非以任何方式进行限制。

波束成形器504包括用于接收和处理来自麦克风阵列106的麦克风302₁、302₂和302₃音频信号y₁(t)、y₂(t)和y₃(t)的器件。例如，波束成形器504可以包括语音活动检测器（VAD）和DOA估计块（图中未示出）。在操作中，波束成形器504确定麦克风阵列106所接收的音频信号的属性并且基于如VAD和DOA估计块所检测的质量的话音检测，确定（一个或多个）主扬声器的一个或多个主要方向。在其它实施例中，（一个或多个）主扬声器的（一个或多个）主要方向可以预先设置以使得波束成形器304集中于固定方向。在图2所示的示例中，从用户202所接收的音频信号的方向（d₁）被确定为主要方向。波束成形器504可以通过形成波束而使用DOA信息（或者简单地使用预先设置供波束成形器504使用的固定查看方向）来处理音频信号，所述波束在麦克风阵列106处接收所期望信号的来自主要方向（d₁）的方向中具有高增益，并且在任意其它信号的方向（例如，d₂、d₃和d₄）中具有低增益。

波束成形器504还可以确定到达的干扰方向（d₂、d₃和d₄），并且有利地，可以对波束成形器504的表现进行适配以使得特别低的增益被应用于从那些进行干扰的到达方向所接收的音频信号，以便对进行干扰的音频信号进行抑制。同时，以上已经描述了，波束成形器504能够确定任意数量的主要方向，所确定的主要方向的数量影响波束成形器的属性，例如，对于大量的主要方向而言，与仅确定了单个主要方向的情况相比，波束成形器504将对在麦克风阵列从其它（所不期望的）方向所接收的信号应用较小的衰减。波束成形器504的输出以所要进行处理的单个通道的形式被提供至回声消除器506。例如，也可能输出多于一个的通道以保存或虚拟生成立体声图像。如对于本领域技术人员将显而易见的，回声消除器506的输出可以在设备102中以许多不同的方式使用。例如，回声消除器506的输出可以被用作用户202正使用设备102所参与的通信事件的一部分。

参考图6，现在对根据优选实施例的处理音频信号的方法进行描述。在步骤S602，在麦克风阵列106的麦克风（302₁、302₂和302₃）处接收音频信号。该音频信号例如从用户202、用户204和风扇206接收，并且这些信号构成了如图2和图5所示的近端音频信号。麦克风阵列106中的麦克风还从如图2和图5所示的扬声器210接收回声信号。诸如背景噪声之类的其它干扰音频信号也可以在麦克风阵列106的麦克风（302₁、302₂和302₃）处接收，并且这些其他干扰音频信号将构成进一步的近端音频信号。由麦克风阵列106的每个麦克风（302₁、302₂和302₃）所接收音频信号y₁(t)、y₂(t)和y₃(t)被送至波束成形器504和处理块508。回声信号是音频输出处理器件208向扬声器210发送扬声器音频信号x(t)以及扬声器输出扬声器音频信号x(t)的结果。扬声器音频信号x(t)通过（H(t, f)所描述的）回声路径进行传播并且出现在所接收的音频信号y₁(t)、y₂(t)和y₃(t)中。

在步骤S604，波束成形器504对所接收的音频信号（y₁(t)、y₂(t)和y₃(t)）应用其波束成形器过滤系数以由此生成波束成形器输出。如以上所描述的，波束成形器504集中于在麦克风阵列106从主要方向（d₁）所接收的音频信号以由此增强从用户202所接收的所期望的音频信号，并且对在麦克风阵列106从其它方向所接收的其它音频信号应用抑制。波束成形器504对于从主要位置（即，方向和距离）所接收的音频信号应当具有固定增益，其中波束成形器增益应当优选地随时间推移是恒定的（但是随频率可能不是恒定的），以由此防止所期望音频信号的失真。作为示例，波束成形器增益针对主要位置（即，主要方向和/或距离）可以被设置为数值1。波束成形器504的任务是相对于其它干扰源提升来自主要源的信号。波束成形器输出被送至回声消除器506。

在步骤S606，处理块508对所接收的音频信号y₁(t)、y₂(t)和y₃(t)进行分析以确定哪个是所接收音频信号y₁(t)、y₂(t)和y₃(t)中最强的。在其它实施例中，在步骤S606中选择所接收音频信号中不同于最强音频信号的一个信号，但是在优选实施例中选择最强音频信号。最强的所接收音频信号y_max(t)可以作为边信息从处理块508被送至回声消除模块506。从这个意义上来说，在对音频信号应用波束成形器504之前确定最强的所接收的音频信号。通过找出哪个所接收音频信号满足以下等式来确定最强的所接收音频信号：

在其它实施例中，最强的所接收音频信号可以根据某个其他的等式来确定。例如，“最强”音频信号可以是随时间推移具有最高平均功率的所接收音频信号。可替换地，“最强”音频信号可以是平均随时间推移具有最高绝对值的一个所接收音频信号，或者瞬时具有最强功率的音频信号。

在步骤S608，测量最强音频信号的回声路径增益。这包括根据以下等式找出回声路径增益的估计：

其中，如以上所描述的，假设X(t, f)在估计中与N(t, f)不相关。

在步骤610，确定要由回声消除器506所应用的回声抑制水平。该确定基于所接收音频信号中回声功率的估计。回声功率通过将步骤S608中所测量的最强音频信号的回声路径增益乘以从扬声器210所输出的扬声器信号而估计，也就是：

以这种方式，在优选实施例中，回声功率基于n个所接收音频信号y_n(t)中的最强信号的回声路径增益进行估计。步骤S608和S610可以由处理块508利用被送至回声消除器506作为边信息的结果来执行。可替换地，步骤S608和S610之一或二者可以由回声消除器506自身基于在回声消除器506从处理块508所接收的最强所接收音频信号的边信息来执行。

在步骤S612，回声消除器506被应用于波束成形器输出，其中回声消除器506所应用的抑制水平是在步骤S610中所确定的。在步骤S614，从回声消除器506输出信号以便在设备102中进一步处理。例如，从回声消除器506所输出的信号可以在通信事件中使用，例如用于作为从用户202到另一用户的话音信号而通过网络传输到另一个设备以作为音频或视频呼叫的一部分。

与以上所描述的用于（在没有波束成形的情况下）应用于单个所接收音频信号的回声消除器的模型相比，优选实施例的回声消除器506应用于波束成形器输出。波束成形处理将对回声消除器506处所接收的音频信号中的回声信号有所影响，并且因此回声消除器***模型需要进行修正以便可应用于波束成形器输出。如以上所描述的，对于n个所接收的音频信号的每一个使用以下等式：

在回声消除器506所接收的信号（Y(t, f)）是波束成形器504的输出，并且因此是所接收音频信号（Y_n (t, f)）的组合，其中该组合依据波束成形器所使用的波束成形器算法。也就是：

其中F()是波束成形器函数f()的频域表示。

从以上等式能够意识到为何图4所示的第二现有技术设备需要对波束成形功能施加要求以便回声消除器406成功消除回声。特别地，为了***模型是线性的，优选地需要波束成形器404由麦克风输出的线性组合所构成（即，f()必须是线性函数），否则用来估计回声消除器406所使用的回声功率的回声功率的线性模型就不再适用，并且可能需要使用非线性模型，这会降低回声消除器406的近端透明度。此外，波束成形器表现需要随时间推移缓慢变化，因为否则以上***将高度时变的并且回声消除器406将由于回声路径较不准确的估计而对于近端信号将不会是透明的。

如以上所描述的，本发明的优选实施例通过基于最强的所接收音频信号的回声路径增益来估计回声功率而克服了这些问题。

1. 从标准回声消除后面的基本假设和要求来看，无论波束成形器的类型如何，y_max(t, f)和X(t, f)优选地是线性相关的（因为y_max(t, f)在波束成形处理之前与音频信号相关）并且因此该相关可以使用线性估计方法由良好地近似。因此，即使波束成形器504并不使用线性函数f()，也可以使用以上所描述的线性模型有效地确定回声功率的估计。这放松了对波束成形器504的约束以使得波束成形函数f()可以是线性或非线性的。注意到，回声消除器可以包括非线性模型以处理回声路径中的非线性。然而，在回声路径中引入另外的非线性（其中的一些可能甚至无法被建模）将对回声消除器的近端透明度有所影响。

2. 无论波束成形器表现如何，的时间变化对于标准回声消除的情形而言都应当是相同的。这是因为最强所接收音频信号的回声路径增益的估计在波束成形处理之前确定。这放松了对波束成形器504的约束以使得波束成形器输出可以在时间上缓慢或快速变化而不会对回声消除器506所使用的回声功率的估计造成不利影响。

3. 由于（在优选实施例中）回声路径增益基于最强麦克风信号进行估计，并且由于阵列中麦克风之间的回声功率与近端的比率差异由于麦克风阵列106的有限宽度而仅是较小的，所以回声功率估计被约束为：

其中是波束成形器输出中的实际回声功率，而B(f)是波束成形器504对在波束成形器504的主要方向中所接收的音频信号所应用的波束成形器504的恒定波束成形器增益。典型地，波束成形器增益B(f)对所有频率f被选择为1。的值被用作波束成形器输出中的回声功率的估计。这是因为我们知道波束成形器504最多在观看方向中应用依赖于频率的增益B(f)。可以对B(f)进行一些约束，比如，例如所已知的，用于扬声器210的方向的波束成形器增益小于B(f)。对回声功率估计的约束的解释如下。波束成形器504相对于来自其它方向的所不期望的音频信号对来自主要方向的所期望音频信号进行增强。该增强可以意味着所期望信号被放大或者所不期望信号被减弱，或者同时意味着这二者。在优选实施例中，对波束成形器504的要求是波束成形器504的主要方向（即，“观看”方向）中的音频信号的放大应当随时间推移是恒定的，因为否则所需音频信号由波束成形器504导致失真。因此，以下等式将始终成立：

其中如以上所描述的，Y(t, f)表示频域中的波束成形器输出，而Y_n(t, f)则表示频域中麦克风阵列106的第n个麦克风的所接收音频信号。波束成形器504可以被计算为输入信号的平均值，并且在那种情况下B(f)=1。在实践中，B(f)优选地应当不大于1，因为否则就无法保证波束成形器中16比特的采样麦克风信号，以给出可能存储在16比特样本格式中的波束成形器输出（并没有暗示使用Q数值进行比例调节，这无论如何都会在其作为音频文件播放或存储时使得波束成形器输出饱和）。然而注意到，对于完整性而言，可以包括小于1的B(f)数值并且这在一些情况下可能是有益的（例如在波束成形器输入信号为24比特而输出信号为16比特时）。此外，在一些实施例中，B(f)可以大于1并且这在一些情况下可能是有益的（例如在波束成形器输入信号为16比特而输出为24比特时，还有在波束成形器中的所期望信号需要被放大时，并且对于出于准确度的理由而在波束成形器中执行放大将是有益的）。

由于（在优选实施例中）回声功率的估计基于最强的所接收音频信号，所以保持的值至少与波束成形器输出中的实际回声功率一样大。应用于波束成形器504的主要方向中的所接收音频信号的波束成形器504的恒定波束成形器增益B(f)对于波束成形器504而言是先验的，或者可以另外简单地进行估计。

因此，本发明的优选实施例提供了回声功率估计（其中B(f)在一些优选实施例中为1），其：

1. 基于线性模型并且因此可以使用线性回声消除功能进行估计；

2. 具有与没有实施波束成形的情况下所实施的回声消除器相同的时间变化；并且

3. 提供了回声功率的限制估计，其被保证不小于波束成形器输出中的回声功率，由此确保了回声消除器506并不会应用过小的抑制。

能够注意到，理想地，了解到波束成形器所实现的瞬时回声抑制将是有益的，原因在于这将允许由回声消除器506应用较少量的回声抑制，这进而将使得回声消除器506对于近端信号更为透明。然而，麦克风的波束成形器阵列通常具有有限数量的麦克风并且波束成形器504所能够实现的回声抑制因此是有限的，从而未将此纳入考虑所导致的透明度降低是较小的。

概言之，在本发明的优选实施例中，回声消除器506的表现是基于在对所接收音频信号应用波束成形器之前的多个所接收音频信号中的最强信号（Y_max(t, f)）的，而回声消除器506则应用于波束成形器504的输出。

本发明优选实施例优于图3所示的第一现有技术设备的优势在于：

· 计算复杂度：对于图3所示的第一现有技术设备而言，每个麦克风需要使用附加的回声消除器，并且即使一些计算可以在回声消除器之间进行共享，但是对于阵列中的每个麦克风计算复杂度明显增加。相反，本发明优选实施例所要求的复杂度提高仅是较小的，原因在于仅需要实施一个回声消除器（例如，506）。

· 便于整合：对于图3所示的第一现有技术设备而言，需要对现有回声消除器进行主要的重新设计。相反，在本发明的优选实施例中，所需要的回声消除器的修改是较小的。

· 波束成形性能：对于图3所示的第一现有技术设备而言，波束成形器304的操作需要进行调节，原因在于否则应用于每个波束成形器输入的回声消除器306可以干扰波束成形以及波束成形处理的自适应性。此外，通过在波束成形之前引入回声消除功能，波束成形器304所实现的扬声器回声的可能抑制无法被用来提高回声消除的透明度。相反，本发明的优选实施例没有为了使用回声消除器506执行回声消除而对波束成形器504的表现加以要求。此外，波束成形器504所实现的任何回声抑制的任何可用信息都可能被用来提高对于近端信号的回声消除器透明度。

本发明优选实施例优于图4所示的第二现有技术设备的优势在于：

· 波束成形器性能：对于图4所示的第二现有技术设备而言，波束成形器404的操作需要被调节为相对缓慢地变化，因为否则回声消除器406将发现难以调节以适应波束成形器404的表现变化。需要该调节是因为波束成形器404包括在回声消除器406所感知的回声路径中。如果回声消除器406无法适当调节以适应波束成形器404中的变化，就可能出现回声通过回声消除器406。此外，为了该第二现有技术设备正确工作，波束成形器404的表现的变化必须在扬声器活动期间执行，以使得回声消除器406能够检测到波束成形器表现的变化并调节以适应之。该要求明显限制了波束成形器404的性能。相反，本发明优选实施例没有为了回声消除器506执行回声消除而对波束成形器504的表现加以要求。因此，本发明的优选实施例并没有像第二现有技术设备那样对波束成形器504的表现进行限制。

· 波束成形器一般性：如果回声消除器406要对回声消除使用线性模型，则图4所示的第二现有技术设备的波束成形器404的波束成形函数f()必须是线性的。相反，在本发明的优选实施例中，并不要求波束成形器504的波束成形函数f()是线性的。实际上，在本发明的实施例中，波束成形器504的波束成形函数f()可以是线性或非线性的。

在以上所描述的示例实施例中，麦克风阵列106是麦克风（302₁、302₂和302₃）的1-D阵列，其允许波束成形器504在一个维度（例如，沿水平轴线）中的不同角度所接收的音频信号之间进行区分。在可替换的实施例中，麦克风阵列106可以是麦克风的2-D或3-D阵列，其将允许波束成形器对分别在两个或三个维度（例如，沿水平、垂直和深度轴线）中的不同角度所接收的音频信号之间进行区分。此外，在优选实施例中，麦克风阵列106是麦克风302的均匀阵列。然而，在可替换实施例中，麦克风阵列106可以是麦克风302的非均匀阵列。

如以上所描述的，波束成形器504、回声消除器506和处理块508可以在CPU 104上执行的软件或者在设备102中的硬件中实施。当波束成形器504、回声消除器506和处理块508在软件中实施时，它们可以通过记录于非瞬时计算机可读介质上的计算机程序产品来提供，该计算机程序产品被配置为当在设备102的CPU 104上执行时用于执行如以上所描述的波束成形器504、回声消除器506和处理块508的功能。方法步骤S604至S614可以由波束成形器504、回声消除器506和处理块508的功能块（作为软件或硬件块）来执行。

同时，以上所描述的实施例已经涉及了麦克风阵列106从单个用户202接收一个所期望音频信号（d₁），将要理解的是，麦克风阵列106可以从例如在会议呼叫中的多个用户接收音频信号，其可以全部被视为所期望的音频信号。在这种情形中，所期望音频信号的多个源到达麦克风阵列106。

设备102可以是电视或计算机或者用于实施本发明的任意其它适当设备。此外，可以使得波束成形器504、回声消除器506和处理块508能够用于使用立体声麦克风拾取的任意适当设备。以上所描述的方法可以实现为设备内的语音质量提升（VQE）模块的一部分，并且在任意适当平台上运行。

在以上所描述的实施例中，扬声器210是用于输出单声道音频信号的单声道扬声器，并且来自波束成形器504的波束成形器输出是单个信号。然而，这仅是为了简化表示，并且本发明并不局限于仅被用于这样的***。换句话说，本发明的一些实施例可以使用用于输出立体声音频信号的立体声扬声器，并且本发明的一些实施例可以使用输出多个信号的波束成形器。

本发明对于针对基于回声抑制的回声消除器的应用是特别有用的，因为其仅需要使用一个回声消除器（诸如以上所描述的回声消除器506），并且因为随后波束成形器整合到回声消除器中非常简单。对于使用基于削减回声消除（其可以是线性或非线性的）和回声抑制二者的混合回声消除器而言，情况就略有不同。混合回声消除器的回声削减部分需要被应用于每个波束成形器的麦克风输入信号（以与图3所示的第一现有技术设备中所进行的类似方式）。与图3所示的第一现有技术设备类似，其所具有的缺陷在于计算复杂度将更高，这是因为需要实施多个回声削减模块并且需要大量的集成来将波束成形器整合到回声消除器解决方案中。但是与图3所示的第一现有技术设备相反，波束成形器504的性能将不会受到回声消除的明显不利影响，原因在于在波束成形之前执行的回声削减将主要影响所接收音频信号中的回声并且将不会明显影响其它所接收音频信号。当根据本发明实施混合回声消除时，回声消除器的回声抑制部分仍然在波束成形器之后执行。

虽然在以上所描述的实施例中，处理块508被示为独立于波束成形器504和回声消除器506，但是在一些实施例中，处理块508的一些或全部功能可以在波束成形器504和/或回声消除器506内实施。

如以上所描述的，在优选实施例中，回声路径估计是基于最强的所接收音频信号的。然而，在可替换的实施例中，回声路径估计可以基于不同的一个（或多个）所接收音频信号。这样做的一种方式是通过增加用户参数，规定回声路径估计所基于的所选择的音频信号的功率不可以比最强音频信号的功率低多于x dB。满足该条件的任何所接收音频信号都可以被选择在估计回声路径时使用。x的值可以是固定的或者可以是可变化的。用户可以能够改变x的值。可替换地或除此之外，设备102可以能够改变x的值。

选择不同于最强音频信号的音频信号的另一种方式是在麦克风阵列106中的任意部件之间提供之前已知的最大距离，这可以被用来计算在麦克风阵列106的不同麦克风302处所接收的音频信号之间的最大功率差异。该最大差异随后可以被用来将任意麦克风信号的功率限制为具有最大功率的麦克风信号。因此，任意麦克风信号的功率的知识都能够提供最强音频信号的功率的上限，这是因为已知最强信号和任意其它信号的功率之间的差异被限制为小于特定量。

以上描述了针对回声消除器的最优操作的要求包括回声路径缓慢变化以及回声路径是线性的以使得其能够通过线性模型进行建模。除此之外，我们注意到，回声消除器应当并且能够应对环境200中能够出现的所有类型的回声。术语“应对”在这里意味着回声消除器能够从麦克风所接收的信号中去除所有可感知的回声。此外，回声消除器还应当尽可能保留任何的近端声音。这些部分冲突的要求之间的权衡是主观的，并且没有针对其的明确的规则。

回声去除通过估计回声样本（在回声削减中）和/或回声功率（在回声抑制中）而执行。这些估计越准确，回声消除对于任何近端声音的影响就将越低。回声样本/功率估计的准确度是基于回声路径模型的准确度的。如果回声路径可以被认为是线性的，则与其是非线性的情况相比将被更为准确地估计。如果回声路径变化非常快，则与其变化非常慢的情况相比也将被较不准确地估计。

在回声路径中（例如，在图4所示的第二现有技术设备中）具有非线性波束成形器将要求针对其非线性特征的模型。即使可能提出这样的模型，其也可能是粗糙的，并且将针对具体波束成形器进行定制。因此，波束成形器404的存在无论如何都对回声消除器406保留近端的能力存在负面影响，但如果适当设计，则对于去除回声的能力没有影响。

回声消除器实际上可以包括对扬声器所导致的非线性进行建模的功能，从而其完全可能在回声路径中存在非线性的情况下执行回声消除，但是根据非线性模型的准确度，可实现的回声消除性能在近端透明度方面通常有所下降。

类似地，在回声路径中（例如，在图4所示的第二现有技术设备中）具有快速改变回声路径的波束成形器将导致回声路径增益/回声样本估计的较不准确的估计。因此，对于回声消除器保留近端声音的能力将存在负面影响。然而，回声消除器去除回声的能力应当不会受到影响，这是因为回声消除器可以被设计为应对那些变化。

此外，虽然已经参考优选实施例特别示出并描述了本发明，但是本领域技术人员将要理解的是，可以在形式和细节上进行各种改变而并不背离如所附权利要求所限定的本发明的范围。

Claims

1.一种在设备处处理音频信号的方法，该设备包括用于输出音频信号的音频输出器件，该方法包括：

在该设备的多个麦克风处接收音频信号；

测量多个麦克风所接收的音频信号中的至少一个的特性, 包括从多个麦克风所接收的音频信号中的至少一个测量回声路径增益；

使用所述所测量的回声路径增益来确定波束成形器输出中的回声功率估计；

波束成形器对所接收的音频信号应用波束成形器系数，由此生成波束成形器输出；并且

对该波束成形器输出应用回声消除器件，由此从该波束成形器输出中抑制从该音频输出器件所输出的音频信号所导致的回声，

其中多个麦克风所接收的音频信号中的所述至少一个包括最强的所接收的音频信号，以及该回声消除器件的操作参数基于所述波束成形器输出中的回声功率估计进行控制。

2.根据权利要求1所述的方法，进一步包括确定哪个所接收音频信号为最强的所接收的音频信号。

3.根据权利要求1所述的方法，其中多个麦克风所接收的音频信号中的所述至少一个从具有不大于预定量小于最强的所接收的音频信号的功率的功率的那些所接收的音频信号中进行选择。

4.根据权利要求3所述的方法，其中该预定量是可变的，并且该方法包括用户改变该预定量或者设备改变该预定量。

5.根据权利要求1所述的方法，其中多个麦克风所接收的音频信号中的所述至少一个的功率被用来基于该设备的多个麦克风之间的距离确定最强的所接收音频信号的功率的上限。

6.根据权利要求1所述的方法，进一步包括确定由波束成形器对多个麦克风从波束成形器的主要方向所接收的音频信号所应用的依赖于频率的波束成形器增益，其中所述波束成形器增益被用在波束成形器输出中的回声功率估计的所述确定中。

7.根据权利要求1所述的方法，其中所述所确定的回声功率估计表示波束成形器输出中回声功率的上限。

8.根据权利要求1所述的方法，其中所述操作参数包括由回声消除器件应用于波束成形器输出的回声抑制水平。

9.根据权利要求1所述的方法，进一步包括基于对所接收的音频信号的分析对波束成形器的所述波束成形器系数进行适配。

10.根据权利要求9所述的方法，其中对所述波束成形器系数进行适配以在波束成形器的波束成形约束内将波束成形器输出中的功率最小化。

11.根据权利要求10所述的方法，其中波束成形器的所述波束成形约束包括多个麦克风在波束成形器的主要方向中所接收的音频信号并不由于应用波束成形器系数而失真。

12.根据权利要求1所述的方法，其中波束成形器系数描述所接收的音频信号的线性函数或非线性函数。

13.一种用于处理音频信号的设备，该设备包括：

音频输出器件，用于输出音频信号；

多个麦克风，用于接收音频信号；

波束成形器，其被配置为对所接收的音频信号应用波束成形器系数，由此生成波束成形器输出；

回声消除器件，其被配置为应用于该波束成形器输出，由此从该波束成形器输出中抑制从该音频输出器件所输出的音频信号所导致的回声；和

处理器件，用于测量多个麦克风所接收的音频信号中至少一个的特性，包括从多个麦克风所接收的音频信号中的至少一个测量回声路径增益，用于使用所述所测量的回声路径增益来确定波束成形器输出中的回声功率估计，并且用于基于所述波束成形器输出中的回声功率估计对该回声消除器件的操作参数进行控制，其中多个麦克风所接收的音频信号中的所述至少一个包括最强的所接收的音频信号。

14.根据权利要求13所述的设备，其中所述回声消除器件包括被安排为应用于波束成形器输出的回声抑制器件。

15.根据权利要求14所述的设备，其中所述回声消除器件进一步包括被安排为在波束成形器向所接收的音频信号应用波束成形器系数之前应用于多个麦克风所接收的每个音频信号。

16.根据权利要求13至15中任一项所述的设备，其中该波束成形器是最小方差无失真响应波束成形器。