CN106782584A

CN106782584A - 音频信号处理设备、方法和电子设备

Info

Publication number: CN106782584A
Application number: CN201611233909.7A
Authority: CN
Inventors: 徐荣强
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2017-05-31
Anticipated expiration: 2036-12-28
Also published as: CN106782584B

Abstract

公开了一种音频信号处理设备、方法和电子设备。该音频信号处理设备包括：扬声器；麦克风阵列，包括具有不同拾音区的多个指向麦克风，每个指向麦克风用于在自身的拾音区内采集分路输入信号，分路输入信号包括来自信号源的关注信号分量和来自扬声器的回声信号分量；复用器，用于将每个指向麦克风所采集的分路输入信号合并为总输入信号；声源***件，用于确定信号源和扬声器的位置；以及增益控制器件，用于根据信号源和扬声器的位置来调整每个指向麦克风的增益，以使得在总输入信号中从信号源接收到的关注信号分量的功率与从扬声器接收到的回声信号分量的功率之间的信回比最大。因此，可以实现无损的关注信号增强和回声信号抑制。

Description

音频信号处理设备、方法和电子设备

技术领域

本申请涉及音频技术领域，且更具体地，涉及一种音频信号处理设备、音频信号处理方法、电子设备、计算机程序产品和计算机可读存储介质。

背景技术

无论是智能化的语音识别***(例如，智能家电、机器人等)，还是传统的语音通信***(例如，会议***、因特网协议传送话音VoIP***等)，都会遇到回声抵消的问题。

例如，在单讲模式下：在智能设备应用场景中，设备不希望自己所播放的内容中包括的唤醒词或识别词再次进入自己的识别***从而造成误报，影响体验和浪费资源；在传统通信***中，远端用户不希望听到自己说话的回音。在双讲模式下：在智能设备应用场景中，希望设备可以听到用户说话的声音，但不被自己播放的内容所干扰；在传统通信***中，希望即使近端和远端用户同时说话，也能够保证清晰的通信质量和较高的可懂度。以上都是在语音体验中非常重要的场景，也是当今音频信号处理中的难题。

目前现有的回声消除技术是基于单麦克风和回声抑制算法的结合。回声抑制算法仅仅从时域和频域的角度来处理输入信号，使得在处理回声的时候也会同时损伤语音，从而影响后续的识别率。并且，在存在大回声的情况下，就会面临要么回声处理不干净而影响识别率，要么算法抑制过强而损伤语音成分，二者都会影响识别效果。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种音频信号处理设备、音频信号处理方法、电子设备、计算机程序产品和计算机可读存储介质，其可以利用指向麦克风阵列的特性来实现无损的关注信号增强和回声信号抑制。

根据本申请的一个方面，提供了一种音频信号处理设备，所述设备包括：扬声器；麦克风阵列，包括具有不同拾音区的多个指向麦克风，每个指向麦克风用于在自身的拾音区内采集分路输入信号，所述分路输入信号包括来自信号源的关注信号分量和来自所述扬声器的回声信号分量；复用器，与每个指向麦克风电连接，用于将每个指向麦克风所采集的分路输入信号合并为总输入信号；声源***件，用于确定所述信号源的位置和所述扬声器的位置；以及增益控制器件，与所述声源***件和每个指向麦克风电连接，用于根据所述信号源的位置和所述扬声器的位置来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大。

在本申请的一个实施例中，所述声源***件包括：信号源***件，用于检测在当前场景中是否存在正在输出关注信号的信号源、所述信号源的数量及其相应位置；以及扬声器***件，用于检测在所述当前场景中是否存在正在播放声音信号的扬声器、所述扬声器的数量及其相应位置。

在本申请的一个实施例中，所述信号源***件包括：摄像头，用于捕捉所述当前场景的场景图像；以及图像识别单元，用于在所述场景图像中识别所述信号源，确定所述信号源的数量，并且确定所述信号源与所述音频信号处理设备的基准位置之间的相对位置。

在本申请的一个实施例中，所述图像识别单元根据所述信号源在所述场景图像中的位置来确定所述信号源与所述信号源***件的基准位置之间的相对位置，并且根据所述信号源***件的基准位置与所述音频信号处理设备的基准位置之间的配准关系来确定所述信号源与所述音频信号处理设备的基准位置之间的相对位置。

在本申请的一个实施例中，所述信号源***件包括：信号分离单元，用于接收由至少两个指向麦克风所采集的至少两路分路输入信号，并且从所述至少两路分路输入信号中分离来自所述信号源的关注信号分量；以及声音识别单元，用于根据分离出的所述信号源的关注信号分量的相位来确定所述信号源与所述音频信号处理设备的相对位置。

在本申请的一个实施例中，所述扬声器***件包括：信号分离单元，用于接收由至少两个指向麦克风所采集的至少两路分路输入信号，并且从所述至少两路分路输入信号中分离来自所述扬声器的关注信号分量；以及声音识别单元，用于根据分离出的所述扬声器的关注信号分量的相位来确定所述扬声器与所述音频信号处理设备的相对位置。

在本申请的一个实施例中，所述增益控制器件包括：比较单元，用于响应于存在正在输出关注信号的一个或多个信号源且不存在正在播放声音信号的扬声器，比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系；以及增益调整单元，用于根据所述第一位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大。

在本申请的一个实施例中，所述增益调整单元增大所述一个或多个信号源位于其拾音区的一个或多个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大且没有任何一个关注信号分量发生失真。

在本申请的一个实施例中，所述增益调整单元进一步减小所述麦克风阵列中除了所述一个或多个指向麦克风的其他麦克风的增益，以降低在所述总输入信号中从噪声源接收到的噪声分量的功率。

在本申请的一个实施例中，所述增益控制器件包括：比较单元，用于响应于不存在正在输出关注信号的信号源且存在正在播放声音信号的一个或多个扬声器，比较所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系；以及增益调整单元，用于根据所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个扬声器接收到的回声信号分量的功率最小。

在本申请的一个实施例中，所述增益调整单元减小所述一个或多个扬声器位于其拾音区的一个或多个指向麦克风的增益。

在本申请的一个实施例中，所述增益控制器件包括：比较单元，用于响应于同时存在正在输出关注信号的一个或多个信号源和正在播放声音信号的一个或多个扬声器，比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系和所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系；以及增益调整单元，用于根据所述第一位置关系和所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率与从所述一个或多个扬声器接收到的回声信号分量的功率之间的信回比最大。

在本申请的一个实施例中，所述设备还包括：自适应滤波器，用于根据所述扬声器正在播放的声音来在时域和/或频域上对增益调整后的总输入信号进行回声消除。

根据本申请的另一方面，提供了一种音频信号处理方法，所述方法包括：从麦克风阵列中的每个指向麦克风接收分路输入信号，所述麦克风阵列包括具有不同拾音区的多个指向麦克风，每个指向麦克风用于在自身的拾音区内采集包括来自信号源的关注信号分量和来自扬声器的回声信号分量的所述分路输入信号；将每个指向麦克风所采集的分路输入信号合并为总输入信号；确定所述信号源的位置和所述扬声器的位置；以及根据所述信号源的位置和所述扬声器的位置来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大。

根据本申请的另一方面，提供了一种电子设备，包括：处理器；存储器；以及存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行上述的音频信号处理方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的音频信号处理方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的音频信号处理方法。

与现有技术相比，采用根据本申请实施例的音频信号处理设备、音频信号处理方法、电子设备、计算机程序产品和计算机可读存储介质，可以根据信号源的位置和扬声器的位置来调整麦克风阵列中每个指向麦克风的增益，以使得在麦克风阵列所采集的总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大。因此，可以利用指向麦克风阵列的特性来实现无损的关注信号增强和回声信号抑制。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的音频信号处理设备的结构示意图。

图2图示了根据本申请实施例的麦克风阵列的结构示意图。

图3图示了根据本申请实施例的声源***件的结构示意图。

图4图示了根据本申请实施例的增益控制器件的结构示意图。

图5图示了根据本申请实施例的音频信号处理设备和信号源的示例位置关系示意图。

图6图示了根据本申请实施例的音频信号处理方法的流程示意图。

图7图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，传统的单麦克风结合回声抑制算法的回声消除方案从时域和频域的角度来处理麦克风采集的输入信号，其在扬声器强耦合的情况下将面临：如果回声抑制算法抑制过强，会对关注的语音信号衰减过多，造成语音信号损伤，影响识别率；而如果回声抑制算法过弱，会有大部分的回声信号无法消除，对语音信号将成为新的非稳态噪声，同样影响识别率。

例如，在智能设备应用场景中，诸如电视、音响、机器人之类的智能设备为了实现远场效果，扬声器功率都会比较大，这就导致该扬声器播放的声音将被麦克风再次采集而产生较大的回声。常规的自适应滤波算法很难消除这种回声，会导致消除后的残余回声较大并且该算法对语音的损伤也较大，从而使得语音信号的识别率低并且通信质量低。

针对该技术问题，本申请的基本构思是提出一种音频信号处理设备、音频信号处理方法、电子设备、计算机程序产品和计算机可读存储介质，其是基于麦克风阵列和回声抑制算法的结合，从空域上实现关注信号(例如，语音信号)的增强和回声信号的消除。空域增强对关注信号的损伤最小，后续回声算法仅仅利用线性回声抑制部分即可非常好地消除回声信号，从而提升回声消除能力且不影响识别率。指向麦克风阵列相比于全向麦克风阵列，是利用麦克风本身的特性、而不引入空域算法的形式，其对于关注信号的损伤更小。再进一步结合关注信号与回声信号最大比原则进行算法配置，针对指向性麦克风阵列的麦克风进行不同增益配比，保证关注信号功率与回声信号功率之间的信回比(SER)最大。因此，可以自适应地最大化语音识别可懂度以及语音通信质量等，提升用户体验。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性音频信号处理设备

如图1所示，根据本申请实施例的音频信号处理设备100包括：扬声器110、麦克风阵列120、复用器130、声源***件140、和增益控制器件150。

在一个实施例中，扬声器110用于播放声音信号，其可以是单独的扬声器或由多个扬声器构成的扬声器阵列。该声音信号在播放时是已知的。

例如，该扬声器110可以是2.1音箱，由一个低音音箱(一般称为低音炮)和一对低音较弱的全频音箱(一般称为卫星箱)组成。该音箱对包括左(L)声道扬声器和右(R)声道扬声器，从而形成立体声播放效果。显然，本申请不限于此。例如，该扬声器110也可以是2.0音箱、5.1音箱等。

在一个实施例中，麦克风阵列120可以包括具有不同拾音区的多个指向麦克风，每个指向麦克风用于在自身的拾音区内采集分路输入信号，所述分路输入信号包括来自信号源的关注信号分量和来自所述扬声器的回声信号分量。

例如，麦克风阵列120是由一定数目的麦克风组成、用来对声场的空间特性进行采样并处理的***。麦克风的指向性是麦克风对来自空间各个方向声音灵感度模式的一个描述，是它的一个重要属性。根据指向性不同，麦克风可以分为：全向麦克风和指向麦克风。全向麦克风对于来自不同角度的声音，其灵敏度是基本相同的，其头部采用压力感应的原理设计，振膜只接受来自外界的压力。指向麦克风主要采用压力梯度的原理设计，通过头部腔体后面的小孔，振膜接受到正反两面的压力，因此振膜受不同方向的压力并不相同，麦克风具有了指向性。指向麦克风阵列相比于全向麦克风阵列，是利用麦克风本身的特性、而不引入空域算法的形式，其对于语音的损伤更小。

例如，取决于各个麦克风的相对位置关系，麦克风阵列120可以分为：线性阵列，其阵元中心位于同一条直线上；平面阵列，其阵元中心分布在一个平面上；以及空间阵列，其阵元中心分布在立体空间中。

例如，麦克风阵列120可以包括具有不同拾音区的多个指向麦克风MIC1到MICn，其中n是大于等于2的自然数。下面，将在一个示例中以平面阵列为例对麦克风阵列进行描述。

图2图示了根据本申请实施例的麦克风阵列的结构示意图。

如图2所示，例如，在音频信号处理设备100上装备有一平面型的麦克风阵列120，所述麦克风阵列120包括具有同一中心点且呈现中心对称的8个指向麦克风MIC1到MIC8。所述8个指向麦克风并联后用于在自身的拾音区内采集分路输入信号。

具体地，指向麦克风MIC1到MIC8设置在同一平面，各指向麦克风之间的距离根据实际需求和所采用的算法设置。相邻的指向麦克风在二维平面围绕中心点均匀分布，相互之间呈45°角。如图2所示，假设MIC1位于音频信号处理设备100的基准方向，即0°方向，则MIC2位于45°方向，MIC3位于90°方向，MIC4位于135°方向，MIC5位于180°方向，MIC6位于225°方向，MIC7位于270方向，MIC8位于315°方向。

当然，本申请不限于此。在其他实施例中，麦克风阵列也可以是其他平面阵列，也可以是线性阵列或空间立体阵列等。麦克风阵列中的各个指向麦克风可根据实际需求设置在同一平面或不同平面，可根据实际需求设置成围绕中心点均匀分布以获取尽可能大的采集定位范围，或设置成非均匀分布以重点对某些方向的声源进行采集。并且，所述指向麦克风也可以是以单独、成组等非成对方式设置的。

MIC1到MIC8可以分别具有朝向自己正前方的拾音区，即分别朝向0°方向、45°方向、90°方向、135°方向、180°方向、225°方向、270方向和315°方向的拾音区。为了避免出现信号的漏检，相邻的拾音区可以具有重叠区域。MIC1到MIC8中的每个可以在自身的拾音区内采集各自的分路输入信号，当信号源处于其拾音区内时，该分路输入信号包括来自信号源的关注信号分量；当扬声器处于其拾音区内时，该分路输入信号包括来自所述扬声器的回声信号分量；当信号源和扬声器同时处于其拾音区内时，该分路输入信号包括来自信号源的关注信号分量和来自所述扬声器的回声信号分量两者；当信号源和扬声器均未处于其拾音区内时，该分路输入信号为零。

在一个实施例中，复用器130与每个指向麦克风电连接，用于将每个指向麦克风所采集的分路输入信号合并为总输入信号。

例如，该复用器简单地可以是加法器，用于将各路分路输入信号在时域上对齐并且叠加为一路总输入信号。替换地，该复用器也可以是加权加法器，用于通过在叠加的过程中向不同的分路输入信号施加不同的权重，以使得关注的分路输入信号在总输入信号中具有更高的峰值。

在一个实施例中，声源***件140用于确定所述信号源的位置和所述扬声器的位置。可以采用各种方式来对信号和扬声器进行定位。

图3图示了根据本申请实施例的声源***件的结构示意图。

如图3所示，所述声源***件140可以包括：信号源***件141，用于检测在当前场景中是否存在正在输出关注信号的信号源、所述信号源的数量及其相应位置；以及扬声器***件142，用于检测在所述当前场景中是否存在正在播放声音信号的扬声器、所述扬声器的数量及其相应位置。

这里，术语“位置”更加关注信号源和扬声器相对于所述音频信号处理设备的基准方向(例如，图2中的0°方向)的夹角。

在第一示例中，所述信号源***件141可以包括：摄像头，用于捕捉所述当前场景的场景图像；以及图像识别单元，用于在所述场景图像中识别所述信号源，确定所述信号源的数量，并且确定所述信号源与所述音频信号处理设备的基准位置之间的相对位置。

例如，该摄像头可以用于捕捉当前场景(例如，其至少覆盖所有指向麦克风的拾音区)的场景图像，其可以是单独的摄像头或摄像头阵列。例如，摄像头所采集到的场景图像可以是单帧图像、连续图像帧序列(即，视频流)或离散图像帧序列(即，在预定采样时间点采样到的图像数据组)等。例如，该摄像头可以是如单目相机、双目相机、多目相机等，另外，其可以用于捕捉灰度图，也可以捕捉带有颜色信息的彩色图。当然，本领域中已知的以及将来可能出现的任何其他类型的相机都可以应用于本申请，本申请对其捕捉图像的方式没有特别限制，只要能够获得输入图像的灰度或颜色信息即可。为了减小后续操作中的计算量，在一个实施例中，可以在进行分析和处理之前，将彩色图进行灰度化处理。

例如，成像器件可以不断捕捉图像帧，捕捉到的图像帧可以被不断进行分析和处理，以识别其中的信号源。例如，在智能化电子设备(例如，智能家电、机器人等)的语音识别场景下，信号源可以是与电子设备进行交互的用户。这时，信号源的识别可以基于人体识别、人脸识别、口部识别等算法来实现。例如，简单地，可以在识别出在当前场景中存在用户的情况下，即判断识别出作为信号源的用户；更精确地，也可以在识别到在当前场景中存在用户并且用户的嘴唇在开合的情况下，判断识别出作为信号源的用户。

需要说明的是，发出关注信号的信号源并不限于用户，而可以是其他任何可能的来源，例如，电视、车辆、动物等。相应地，信号源的识别算法也可以对应地调整为电视识别、车辆识别、动物识别等识别算法。

接下来，所述图像识别单元根据所述信号源在所述场景图像中的位置来确定所述信号源与所述信号源***件的基准位置之间的相对位置，并且根据所述信号源***件的基准位置与所述音频信号处理设备的基准位置之间的配准关系来确定所述信号源与所述音频信号处理设备的基准位置之间的相对位置。

例如，图像识别单元可以确定识别到的信号源(例如，用户或用户口部)在图像坐标系中的位置，并且根据摄像头的外参矩阵，将其转换为世界坐标系中的位置。然后，图像识别单元可以获取事先校准好的摄像头的基准方向与音频信号处理设备100的基准方向(例如，麦克风阵列的基准方向)之间的映射关系，将信号源在世界坐标系中的位置再次转换到声音坐标系中，从而得到信号源与麦克风阵列的基准方向(即，0°方向)之间的夹角。

在第二示例中，所述信号源***件141可以包括：信号分离单元，用于接收由至少两个指向麦克风所采集的至少两路分路输入信号，并且从所述至少两路分路输入信号中分离来自所述信号源的关注信号分量；以及声音识别单元，用于根据分离出的所述信号源的关注信号分量的相位来确定所述信号源与所述音频信号处理设备的相对位置。

例如，由于已知扬声器当前正在播放的声音信号，所以信号分离单元可以在时域和/或频域上从麦克风所采集的分路输入信号中去除该声音信号分量(相当于回声信号分量)，而获得仅仅来自信号源的关注信号分量。例如，在此情况下，该信号分离单元简单地可以是减法器。然后，声音识别单元可以基于至少两路分离出来的来自所述信号源的关注信号分量，利用现有的、或者将来开发的声源定位方法来直接得到信号源与麦克风阵列的基准方向(即，0°方向)之间的夹角。

显然，本申请不限于上述提到的两个示例，任何可以用于确定信号源的位置的方法都可以应用于此，并因而，落入本申请的保护范围之内。例如，还可以将上述第一示例和第二示例相结合，即，只有在不但识别到在当前场景中存在用户并且用户的嘴唇在开合，而且还在相应方向中检测到声音信号时，才判断识别出在该方向存在信号源，以获得更加准确的信号源检测和定位结果。

另外，在一个示例中，所述扬声器***件142包括：信号分离单元，用于接收由至少两个指向麦克风所采集的至少两路分路输入信号，并且从所述至少两路分路输入信号中分离来自所述扬声器的关注信号分量；以及声音识别单元，用于根据分离出的所述扬声器的关注信号分量的相位来确定所述扬声器与所述音频信号处理设备的相对位置。

由于扬声器***件142的该示例结构与第二示例中的信号源***件141的结构相同，所以为了简洁，在此省略了其相关描述。更进一步地，为了节省成本和空间，该扬声器***件142还可以与信号源***件141共用同一组信号分离单元和声音识别单元。

在另一示例中，考虑到扬声器阵列在音频信号处理设备100中的位置往往是预设且固定的，在出厂模式中往往包含有扬声器相对麦克风阵列的位置信息，因此，简单起见，扬声器***件142可以直接利用该位置信息来确定一个或多个扬声器与麦克风阵列的基准方向(即，0°方向)之间的夹角。

在此情况下，所述扬声器***件142包括：位置获取单元，用于读取所述扬声器与所述音频信号处理设备的相对位置。

显然，本申请不限于上述提到的两个示例，任何可以用于确定扬声器的位置的方法都可以应用于此，并因而，落入本申请的保护范围之内。例如，还可以将上述两个示例相结合，即，为了防止扬声器的位置可能会与预设位置产生偏移，可以先以预设位置为基础，粗略确定扬声器与麦克风阵列之间的相对位置关系，然后，再根据声源定位方法来自适应寻找真实模式下的区别。

在一个实施例中，增益控制器件150与所述声源***件140和每个指向麦克风电连接，用于根据所述信号源的位置和所述扬声器的位置来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大。

图4图示了根据本申请实施例的增益控制器件的结构示意图。

如图4所示，所述增益控制器件150可以包括：比较单元151，用于比较所述信号源和所述扬声器与每个指向麦克风的拾音区之间的位置关系；以及增益调整单元152，用于根据所述位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大。

例如，该比较单元151简单地可以是比较器，在声源***件检测到信号源与麦克风阵列的基准方向(即，0°方向)之间的夹角和扬声器与麦克风阵列的基准方向(即，0°方向)之间的夹角之后，确定信号源和扬声器分别位于哪一个或多个指向麦克风的拾音区内。

例如，该增益调整单元152可以是模拟放大器和数字放大器中的一个或两者，用于基于上述位置关系来生成每个指向麦克风的增益因子，并且根据所述增益因子对每个指向麦克风所采集的分路输入信号进行放大或缩小，以在增强关注信号功率(例如，来自用户的语音信号)的同时，抑制回声信号功率。

下面，在几个具体的场景中描述该增益调整过程。

在第一场景中，假设存在正在输出关注信号的一个或多个信号源且不存在正在播放声音信号的扬声器。

这时，该比较单元151可以用于比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系。该增益调整单元152可以用于根据所述第一位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大。

例如，所述增益调整单元152可以增大所述一个或多个信号源位于其拾音区的一个或多个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大且没有任何一个关注信号分量发生失真。

更进一步地，所述增益调整单元152还可以减小所述麦克风阵列中除了所述一个或多个指向麦克风的其他麦克风的增益，以降低在所述总输入信号中从噪声源接收到的噪声分量的功率，或降低从潜在噪声源接收到噪声分量的可能性。例如，可以将其他麦克风的增益减小为0，即禁用相应麦克风，以减小噪声输入并节省功率。然而，由于禁用麦克风可能导致相应麦克风无法起到实时检测的目的，所以替换地，可以将其他麦克风的增益减小为一个预定值，以满足最小能量要求Emin，从而在功率节省和实时检测之间取得权衡。

在第二场景中，假设不存在正在输出关注信号的信号源且存在正在播放声音信号的一个或多个扬声器。

这时，该比较单元151可以用于比较所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系。该增益调整单元152可以用于根据所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个扬声器接收到的回声信号分量的功率最小。

例如，所述增益调整单元152可以减小所述一个或多个扬声器位于其拾音区的一个或多个指向麦克风的增益。类似地，出于不同的目的，例如，可以将所述一个或多个麦克风的增益减小为0，也可以将所述麦克风的增益减小为一个预定值，例如Emin。

在第三场景中，假设同时存在正在输出关注信号的一个或多个信号源和正在播放声音信号的一个或多个扬声器。本场景是第一场景与第二场景的结合。

这时，该比较单元151可以用于比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系和所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系。该增益调整单元152用于根据所述第一位置关系和所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率与从所述一个或多个扬声器接收到的回声信号分量的功率之间的信回比最大。

例如，所述增益调整单元152可以生成每个指向麦克风的第一组增益，其中，所述一个或多个信号源位于其拾音区的一个或多个指向麦克风的增益被增大，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大。然后，所述增益调整单元152可以生成每个指向麦克风的第二组增益，其中，所述一个或多个扬声器位于其拾音区的一个或多个指向麦克风的增益被减小，以使得在所述总输入信号中从所述一个或多个扬声器接收到的回声信号分量的功率最小。接下来，所述增益调整单元152可以生成用于第一组增益的第一组权重和用于第二组增益的第二组权重，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率与从所述一个或多个扬声器接收到的回声信号分量的功率之间的信回比最大。最后，所述增益调整单元152可以使用所述第一组增益、所述第一组权重、所述第二组增益、和所述第二组权重来调整每个指向麦克风的增益。

下面，将参考图5来在一个具体示例中描述上述不同场景中的该增益调整过程。

如图5所示，在音频信号处理设备100中包括麦克风阵列120。所述麦克风阵列120包括具有同一中心点且呈现中心对称的4个指向麦克风MIC1到MIC4。假设MIC1位于音频信号处理设备100的基准方向，即0°方向，则MIC2位于90°方向，MIC3位于180°方向，MIC4位于270方向。简单起见，假设该音频信号处理设备100仅包括一个扬声器110，并且在该应用场景中仅包括一个信号源200，该信号源200可以是与智能化电子设备进行交互的用户。该扬声器110位于音频信号处理设备100的基准方向(即，0°方向)的45°方向。该信号源200位于音频信号处理设备100的基准方向(即，0°方向)的135°方向。

例如，首先，该设备可以通过诸如摄像头之类的信号源***件来检测信号源(含多个信号源)的方向，并且该设备可以判断扬声器的播放状态，判断扬声器是否在播放声音。

一方面，一旦判断出有声源(或称为信号源)而无扬声器播放，则说明进入上述的第一场景，即纯近端单讲模式，只有近端讲话。此时没有回声E，只有近端语音S，设备只需要通过配置获取最大的语音能量即可，支持单/多声源。

每个指向麦克风配有独立增益控制，例如其可以通过信号增益控制向量[Gs1,Gs2,…,Gsn](其中，n为麦克风的数量)来表示，从而控制对该指向方向的灵敏度或者声音采集能力。

然后，声源检测器件获取声源的个数和位置(方向)坐标，例如其可以通过多声源方向向量[S1,S2,...,Sm](其中，m为声源的数量)来表示。算法根据声源的个数和位置，自适应地计算增益控制矩阵，自适应地将声源方向的指向麦克风增益向量(例如，图5中的MIC2和MIC3)调整增大，使得多声源信号通过设备后，确保在声源方向的信号能量最大，即S最大，且不失真。无声源角度方向的麦克风增益置零，降低噪声。

随后，可以循环地执行上述过程，即，当声源变化(例如，数量改变、位置改变)时，自适应更新多声源方向向量，通过最大SER准则自适应地更新增益控制向量。

另一方面，一旦判断出无声源而有扬声器播放，则说明进入上述的第二场景，即纯近端播放模式，只有扬声器播放。此时只有回声E，没有近端语音S，设备只需要通过配置获取最小的回声能量即可。

每个指向麦克风配有独立增益控制，例如其可以通过回声增益控制向量[Ge1,Ge2,…,Gen](其中，n为麦克风的数量)来表示，从而控制对该指向方向的灵敏度或者声音采集能力。

然后，回声检测器件获取扬声器的个数和位置(方向)坐标，例如其可以通过多回声方向向量[E1,E2,...,El](其中，l为扬声器的数量)来表示。例如，出厂预设模式包含扬声器相对麦克风阵列的位置信息，以此为基础开始算法收敛，自适应寻找真实模式下的区别。算法根据回声源(即，扬声器)的个数和位置，自适应地计算增益控制矩阵，自适应地将有回声角度方向的指向麦克风增益向量(例如，图5中的MIC1和MIC2)调整降低，使得多声源信号通过设备后，确保在有回声方向E的能量小，设定门限，满足最小能量要求Emin。无回声角度方向的麦克风增益向量保持不变，保证此时仍然可以唤醒。

随后，可以循环地执行上述过程，即，当扬声器变化(例如，数量改变、位置改变)时，自适应更新多回声方向向量，通过最大SER准则自适应地更新增益控制向量。

又一方面，一旦判断出有声源且有扬声器播放，则说明进入上述的第三场景，即近/远端双讲模式。此时既有回声E，又有近端语音S，设备需要通过配置获取最大SER，即S和E的比最大。

算法可以设置信号加权系数向量[α1,α2,…,αn]和回声加权系数向量[β1,β2,…,βn]。该第三模式为第一模式和第二模式的结合，加权系数分别为第一模式和第二模式的加权系数向量，用来加权第一模式和第二模式的增益控制向量。

使得α向量和β向量分别与信号增益控制向量和回声增益控制向量进行加权，利用最大SER比准，获得α向量、β向量、Gs向量、和Gn向量的最优值。

然后，可以将α向量、β向量、Gs向量、和Gn向量写入到处理设备中，进行增益控制，获取当前最优的SER性能。

随后，可以循环地执行上述过程，即，当声源变化(例如，数量改变、位置改变)时，自适应更新多声源方向向量，通过最大SER准则自适应地更新增益控制向量。另外，上述参数还可以被存储起来，以便在稍后相同的场景下被直接读取出来，而无需再次执行增益和向量计算操作，从而加快处理音频信号的速度。

在一个实施例中，音频信号处理设备100还可以包括：自适应滤波器160，用于根据所述扬声器正在播放的声音来在时域和/或频域上对增益调整后的总输入信号进行回声消除。

在经过上述增益调整之后，可以将麦克风采集的、包括已经在空域上实现增强的关注信号分量和消除后的回声信号分量的分路输入信号在通过复用器130合并为一路总输入信号之后，通过基于自适应滤波的回声抑制器件。

例如，由于已知扬声器当前正在播放的声音信号，所以自适应滤波器160可以从麦克风所采集的分路输入信号中去除该声音信号分量(相当于回声信号分量)，而获得仅仅来自信号源的关注信号分量。显然，本申请不限于此。无论是现有的、还是将来开发的自适应滤波器，都可以应用于根据本申请实施例的音频信号处理设备中，并且也应包括在本申请的保护范围内。

最后，取决于音频信号处理设备是纯近端设备还是近/远端设备，还可以执行对于滤波处理后的信号的音频识别操作，或将它发送到远端设备，以用于远程通信目的。

由此可见，采用根据本申请实施例的音频信号处理设备，可以根据信号源的位置和扬声器的位置来调整麦克风阵列中每个指向麦克风的增益，以使得在麦克风阵列所采集的总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大。因此，可以利用指向麦克风阵列的特性来实现无损的关注信号增强和回声信号抑制。

具体地，本申请的实施例具有以下优点：

1.在声源方向增强的同时，还可以自适应地抑制回声方向，且自适应地调整指向麦克风阵列增益获得最大SER，从而对于大声音播放下的回声有非常好的抑制效果，提升信号(例如，语音信号)的可懂度/识别率/通信质量；

2.可以利用指向麦克风阵列的特性做到无损地对诸如语音之类的关注信号进行增强并对回声信号进行抑制，相比于全向麦克风的波束形成算法，利用麦克风本体特性可以更好地保护语音质量，并且可以做到多声源同时增强；

3.支持三种模式下的自由切换。

最后，将参考附图，继续描述根据本申请实施例的音频信号处理方法。

示例性音频信号处理方法

根据本申请实施例的音频信号处理方法可以应用于参考图1到图5所描述的音频信号处理设备100。

如图6所示，所述音频信号处理方法可以包括：

在步骤S110中，从麦克风阵列中的每个指向麦克风接收分路输入信号，所述麦克风阵列包括具有不同拾音区的多个指向麦克风，每个指向麦克风用于在自身的拾音区内采集包括来自信号源的关注信号分量和来自扬声器的回声信号分量的所述分路输入信号；

在步骤S120中，将每个指向麦克风所采集的分路输入信号合并为总输入信号；

在步骤S130中，确定所述信号源的位置和所述扬声器的位置；以及

在步骤S140中，根据所述信号源的位置和所述扬声器的位置来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大。

在一个实施例中，该步骤S130包括：检测在当前场景中是否存在正在输出关注信号的信号源、所述信号源的数量及其相应位置；以及检测在所述当前场景中是否存在正在播放声音信号的扬声器、所述扬声器的数量及其相应位置。

在一个实施例中，检测在当前场景中是否存在正在输出关注信号的信号源、所述信号源的数量及其相应位置包括：接收摄像头捕捉的所述当前场景的场景图像；以及在所述场景图像中识别所述信号源，确定所述信号源的数量，并且确定所述信号源与所述音频信号处理设备的基准位置之间的相对位置。

在一个实施例中，确定所述信号源与所述音频信号处理设备的基准位置之间的相对位置包括：根据所述信号源在所述场景图像中的位置来确定所述信号源与所述信号源***件的基准位置之间的相对位置，并且根据所述信号源***件的基准位置与所述音频信号处理设备的基准位置之间的配准关系来确定所述信号源与所述音频信号处理设备的基准位置之间的相对位置。

在一个实施例中，检测在当前场景中是否存在正在输出关注信号的信号源、所述信号源的数量及其相应位置包括：接收由至少两个指向麦克风所采集的至少两路分路输入信号，并且从所述至少两路分路输入信号中分离来自所述信号源的关注信号分量；以及根据分离出的所述信号源的关注信号分量的相位来确定所述信号源与所述音频信号处理设备的相对位置。

在一个实施例中，检测在所述当前场景中是否存在正在播放声音信号的扬声器、所述扬声器的数量及其相应位置包括：接收由至少两个指向麦克风所采集的至少两路分路输入信号，并且从所述至少两路分路输入信号中分离来自所述扬声器的关注信号分量；以及根据分离出的所述扬声器的关注信号分量的相位来确定所述扬声器与所述音频信号处理设备的相对位置。

在一个实施例中，该步骤S140包括：响应于存在正在输出关注信号的一个或多个信号源且不存在正在播放声音信号的扬声器，比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系；以及根据所述第一位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大。

在一个实施例中，根据所述第一位置关系来调整每个指向麦克风的增益包括：增大所述一个或多个信号源位于其拾音区的一个或多个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大且没有任何一个关注信号分量发生失真。

在一个实施例中，根据所述第一位置关系来调整每个指向麦克风的增益还包括：减小所述麦克风阵列中除了所述一个或多个指向麦克风的其他麦克风的增益，以降低在所述总输入信号中从噪声源接收到的噪声分量的功率。

在一个实施例中，该步骤S140包括：响应于不存在正在输出关注信号的信号源且存在正在播放声音信号的一个或多个扬声器，比较所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系；以及根据所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个扬声器接收到的回声信号分量的功率最小。

在一个实施例中，根据所述第二位置关系来调整每个指向麦克风的增益包括：减小所述一个或多个扬声器位于其拾音区的一个或多个指向麦克风的增益。

在一个实施例中，该步骤S140包括：响应于同时存在正在输出关注信号的一个或多个信号源和正在播放声音信号的一个或多个扬声器，比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系和所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系；以及根据所述第一位置关系和所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率与从所述一个或多个扬声器接收到的回声信号分量的功率之间的信回比最大。

在一个实施例中，所述音频信号处理方法还可以包括：在步骤S150中，根据所述扬声器正在播放的声音来在时域和/或频域上对增益调整后的总输入信号进行回声消除。

上述音频信号处理方法中的各个步骤的具体功能和操作已经在上面参考图1到图5描述的音频信号处理设备100中详细介绍，并因此，将省略其重复描述。

示例性电子设备

下面，参考图7来描述根据本申请实施例的电子设备。该电子设备可以是智能化的语音识别***(例如，智能家电、机器人等)、传统的语音通信***(例如，会议***、因特网协议传送话音VoIP***等)中的近端设备或远端设备等。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的音频信号处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如信号源的位置、扬声器的位置、信号增益控制向量、回声增益控制向量、信号加权系数向量、回声加权系数向量等信息。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以包括例如键盘、鼠标、以及通信网络及其所连接的远程输入设备等等。替换地或附加地，该输入装置13也可以是上述的麦克风阵列120，包括具有不同拾音区的多个指向麦克风，每个指向麦克风用于在自身的拾音区内采集分路输入信号。

输出装置14可以向外部(例如，用户)输出各种信息，包括调整后的每个指向麦克风的增益、回声消除后的总输入信号等。该输出设备14可以包括例如显示器、打印机、以及通信网络及其所连接的远程输出设备等等。替换地或附加地，该输出装置14也可以是上述的扬声器110，用于播放声音，其可以是单独的扬声器或由多个扬声器构成的扬声器阵列。

当然，为了简化，图7中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。应当注意，图7所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，电子设备10也可以具有其他组件和结构。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频信号处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频信号处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种音频信号处理设备，其特征在于，所述设备包括：

扬声器；

麦克风阵列，包括具有不同拾音区的多个指向麦克风，每个指向麦克风用于在自身的拾音区内采集分路输入信号，所述分路输入信号包括来自信号源的关注信号分量和来自所述扬声器的回声信号分量；

复用器，与每个指向麦克风电连接，用于将每个指向麦克风所采集的分路输入信号合并为总输入信号；

声源***件，用于确定所述信号源的位置和所述扬声器的位置；以及

增益控制器件，与所述声源***件和每个指向麦克风电连接，用于根据所述信号源的位置和所述扬声器的位置来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大。

2.如权利要求1所述的设备，其特征在于，所述声源***件包括：

信号源***件，用于检测在当前场景中是否存在正在输出关注信号的信号源、所述信号源的数量及其相应位置；以及

扬声器***件，用于检测在所述当前场景中是否存在正在播放声音信号的扬声器、所述扬声器的数量及其相应位置。

3.如权利要求2所述的设备，其特征在于，所述信号源***件包括：

摄像头，用于捕捉所述当前场景的场景图像；以及

图像识别单元，用于在所述场景图像中识别所述信号源，确定所述信号源的数量，并且确定所述信号源与所述音频信号处理设备的基准位置之间的相对位置。

4.如权利要求3所述的设备，其特征在于，所述图像识别单元根据所述信号源在所述场景图像中的位置来确定所述信号源与所述信号源***件的基准位置之间的相对位置，并且根据所述信号源***件的基准位置与所述音频信号处理设备的基准位置之间的配准关系来确定所述信号源与所述音频信号处理设备的基准位置之间的相对位置。

5.如权利要求2所述的设备，其特征在于，所述信号源***件包括：

信号分离单元，用于接收由至少两个指向麦克风所采集的至少两路分路输入信号，并且从所述至少两路分路输入信号中分离来自所述信号源的关注信号分量；以及

声音识别单元，用于根据分离出的所述信号源的关注信号分量的相位来确定所述信号源与所述音频信号处理设备的相对位置。

6.如权利要求2所述的设备，其特征在于，所述扬声器***件包括：

信号分离单元，用于接收由至少两个指向麦克风所采集的至少两路分路输入信号，并且从所述至少两路分路输入信号中分离来自所述扬声器的关注信号分量；以及

声音识别单元，用于根据分离出的所述扬声器的关注信号分量的相位来确定所述扬声器与所述音频信号处理设备的相对位置。

7.如权利要求1所述的设备，其特征在于，所述增益控制器件包括：

比较单元，用于响应于存在正在输出关注信号的一个或多个信号源且不存在正在播放声音信号的扬声器，比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系；以及

增益调整单元，用于根据所述第一位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大。

8.如权利要求7所述的设备，其特征在于，所述增益调整单元增大所述一个或多个信号源位于其拾音区的一个或多个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大且没有任何一个关注信号分量发生失真。

9.如权利要求8所述的设备，其特征在于，所述增益调整单元进一步减小所述麦克风阵列中除了所述一个或多个指向麦克风的其他麦克风的增益，以降低在所述总输入信号中从噪声源接收到的噪声分量的功率。

10.如权利要求1所述的设备，其特征在于，所述增益控制器件包括：

比较单元，用于响应于不存在正在输出关注信号的信号源且存在正在播放声音信号的一个或多个扬声器，比较所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系；以及

增益调整单元，用于根据所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个扬声器接收到的回声信号分量的功率最小。

11.如权利要求10所述的设备，其特征在于，所述增益调整单元减小所述一个或多个扬声器位于其拾音区的一个或多个指向麦克风的增益。

12.如权利要求1所述的设备，其特征在于，所述增益控制器件包括：

比较单元，用于响应于同时存在正在输出关注信号的一个或多个信号源和正在播放声音信号的一个或多个扬声器，比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系和所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系；以及

增益调整单元，用于根据所述第一位置关系和所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率与从所述一个或多个扬声器接收到的回声信号分量的功率之间的信回比最大。

13.如权利要求1所述的设备，其特征在于，所述设备还包括：

自适应滤波器，用于根据所述扬声器正在播放的声音来在时域和/或频域上对增益调整后的总输入信号进行回声消除。

14.一种音频信号处理方法，其特征在于，所述方法包括：

从麦克风阵列中的每个指向麦克风接收分路输入信号，所述麦克风阵列包括具有不同拾音区的多个指向麦克风，每个指向麦克风用于在自身的拾音区内采集包括来自信号源的关注信号分量和来自扬声器的回声信号分量的所述分路输入信号；

将每个指向麦克风所采集的分路输入信号合并为总输入信号；

确定所述信号源的位置和所述扬声器的位置；以及

根据所述信号源的位置和所述扬声器的位置来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大。

15.如权利要求14所述的方法，其特征在于，根据所述信号源的位置和所述扬声器的位置来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大包括：

响应于存在正在输出关注信号的一个或多个信号源且不存在正在播放声音信号的扬声器，比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系；以及

根据所述第一位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率最大。

16.如权利要求14所述的方法，其特征在于，根据所述信号源的位置和所述扬声器的位置来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大包括：

响应于不存在正在输出关注信号的信号源且存在正在播放声音信号的一个或多个扬声器，比较所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系；以及

根据所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个扬声器接收到的回声信号分量的功率最小。

17.如权利要求14所述的方法，其特征在于，根据所述信号源的位置和所述扬声器的位置来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述信号源接收到的关注信号分量的功率与从所述扬声器接收到的回声信号分量的功率之间的信回比最大包括：

响应于同时存在正在输出关注信号的一个或多个信号源和正在播放声音信号的一个或多个扬声器，比较所述一个或多个信号源与每个指向麦克风的拾音区之间的第一位置关系和所述一个或多个扬声器与每个指向麦克风的拾音区之间的第二位置关系；以及

根据所述第一位置关系和所述第二位置关系来调整每个指向麦克风的增益，以使得在所述总输入信号中从所述一个或多个信号源接收到的关注信号分量的功率与从所述一个或多个扬声器接收到的回声信号分量的功率之间的信回比最大。

18.如权利要求14所述的方法，其特征在于，所述方法还包括：

根据所述扬声器正在播放的声音来在时域和/或频域上对增益调整后的总输入信号进行回声消除。

19.一种电子设备，包括：

处理器；

存储器；以及

存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求14-18中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求14-18中任一项所述的方法。