CN107993671A

CN107993671A - 声音处理方法、装置和电子设备

Info

Publication number: CN107993671A
Application number: CN201711258117.XA
Authority: CN
Inventors: 朱长宝; 陈本东; 李育国
Original assignee: Nanjing Horizon Robotics Technology Co Ltd
Current assignee: Nanjing Horizon Robotics Technology Co Ltd
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-05-04

Abstract

公开了一种声音处理方法、装置、电子设备和计算机可读存储介质。所述方法包括：根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向；基于所述声音预处理方向选择预处理滤波系数；使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号；确定自适应滤波系数；以及，使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。可以增强信号源信号，从而提高声音的音质。

Description

声音处理方法、装置和电子设备

技术领域

本申请涉及声音处理领域，且更为具体地，涉及一种声音处理方法、声音处理装置、电子设备和计算机可读存储介质。

背景技术

随着各种电子设备的普及，为了提高控制电子设备的便利性，越来越多的电子设备提供了通过语音进行控制的功能。例如，诸如智能手机或者车载设备的电子设备提供有语音控制功能，用户可以通过语音来控制电子设备以执行相应的功能。因此，电子设备需要识别用户的语音，从而获知用户的真实意图，以控制相应的功能单元执行用户所需的功能。但是，无论是在使用智能手机的家庭环境，还是在使用车载设备的车载环境下，语音识别都比较容易受到外界环境的干扰，特别是外界噪声对于语音识别影响较大。

因此，现有的声音处理方法存在音质较差、识别率较低的问题。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种声音处理方法、声音处理装置、电子设备和计算机可读存储介质，其可以提高声音的音质从而改进声音的识别率。

根据本申请的一个方面，提供了一种声音处理方法，包括：根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向；基于所述声音预处理方向选择预处理滤波系数；使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号；确定自适应滤波系数；以及，使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。

根据本申请的另一方面，提供了一种声音处理装置，包括：声音预处理方向确定单元，用于根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向；预处理滤波系数选择单元，用于基于所述声音预处理方向选择预处理滤波系数；预处理滤波单元，用于使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号；自适应滤波系数确定单元，用于确定自适应滤波系数；以及，自适应滤波单元，用于使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的声音处理方法。

根据本申请的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的声音处理方法。

与现有技术相比，采用根据本申请实施例的声音处理方法、声音处理装置、电子设备和计算机可读存储介质，可以根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向；基于所述声音预处理方向选择预处理滤波系数；使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号；确定自适应滤波系数；以及，使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。因此，可以通过基于声音预处理方向来增强信号源信号，从而提高声音的音质，进而改进声音识别的精度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的声音处理方法的应用场景的示意图；

图2图示了根据本申请实施例的声音处理方法的流程图；

图3图示了根据本申请实施例的声音处理方法中确定声音预处理方向的流程图；

图4图示了根据本申请实施例的声音处理方法中的确定声音增强方向和声音抑制方向中的至少一个的流程图；

图5图示了根据本申请实施例的声音处理方法中的自适应滤波系数更新的流程图；

图6图示了根据本申请实施例的声音处理方法中的用户的嘴动检测的流程图；

图7图示了根据本申请实施例的声音处理装置的框图；

图8图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，无论在家庭环境还是车载环境下，语音识别都比较容易受到外界环境的干扰，特别是外界噪声对于语音识别影响较大。例如，外界的噪声可能来自于带有方向性的人，电视机等发声物体。

现有的技术方案是通过语音增强的手段来提升语音音质，从而进一步提升语音识别率。其中，语音增强又可以分为单通道的语音增强和多通道的语音增强。

单通道的语音增强算法难以处理带有方向性的非稳态的干扰，比如电视机的干扰。并且，单通道降噪在降低噪声的时候，还是对音质有一定损失，音质的损失也继而会带来语音识别率的下降。

多通道语音增强技术一般采用波束形成和盲源分离技术。波束形成大都需要提前知道方位信息，单纯依靠语音信号处理手段，当干扰能量较大时，比如信号和干扰的能量比小于0dB的情况，声源定位的准确度很低。盲源分离技术也会面临通道选择的问题，在0dB的场景下仍然难以选择准确，另外干扰声源个数比通道个数多的情况下，盲源分离也很难更好地求解。

针对上述问题，本申请的基本构思是提出一种声音处理方法、声音处理装置、电子设备和计算机可读存储介质，其通过麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向，并基于声音预处理方向来对多个声音信号进行滤波以得到增强信号源信号。因此，可以针对关注的信号源，增强该信号源的信号，从而提高声音的音质，并进而改进声音识别的精度。

本领域技术人员可以理解，根据本申请实施例的声音处理方法可以应用于包括如上所述的家庭环境和车载环境的各种环境下的各种发声物体的声音处理，本申请实施例并不意在对此进行任何限制。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性***

图1图示了根据本申请实施例的声音处理方法的应用场景的示意图。

如图1所示，用于该声音处理方法的应用场景包括处理设备110和一个或多个声源，例如，第一声源120和第二声源130。

该处理设备110可以是用于接收声音并进行声音识别的任何类型的电子设备，其包括声音采集器件111，比如麦克风阵列，且包括图像采集器件112，比如摄像头。

例如，在家庭环境下，该处理设备110可以是智能手机，用于接收用户的语音输入并执行相应的功能。或者，该处理设备110可以是车载设备。另外，该处理设备110除了可以接收来自希望关注的信号源的声音信号(例如，用户语音)之外，还可以接收其它类型的声音信号，例如，来自不希望关注的噪声源的信号。

上述声音采集器件111可以用于采集包括信号源或噪声源等声源的音频信号，其可以是麦克风阵列。例如，该麦克风阵列可以是由一定数目的麦克风组成、用来对声场的空间特性进行采样并处理的***，其可以包括各自拾音区不完全相同的多个麦克风MIC1到MICn，其中n是大于等于2的自然数。例如，取决于各个麦克风的相对位置关系，麦克风阵列可以分为：线性阵列，其阵元中心位于同一条直线上；平面阵列，其阵元中心分布在一个平面上；以及空间阵列，其阵元中心分布在立体空间中。

上述图像采集器件112可以用于捕捉监控场景的图像信号，其可以包括一个或多个摄像头。例如，该摄像头所采集到的图像数据可以是连续图像帧序列(即，视频流)或离散图像帧序列(即，在预定采样时间点采样到的图像数据组)等。例如，该摄像头可以是如单目相机、双目相机、多目相机等，另外，其可以用于捕捉灰度图，也可以捕捉带有颜色信息的彩色图。当然，本领域中已知的以及将来可能出现的任何其他类型的相机都可以应用于本申请，本申请对其捕捉图像的方式没有特别限制，只要能够获得输入图像的灰度或彩色信息即可。为了减小后续操作中的计算量，在一个实施例中，可以在进行分析和处理之前，将彩色图进行灰度化处理。当然，为了保留更大的信息量，在另一实施例中，也可以直接对彩色图进行分析和处理。

第一声源120和第二声源130可以是任何类型的声源，其可以包括发出希望关注的信号分量的信号源和希望消除的噪声分量的噪声源。例如，该声源可以是有生命或无生命的声源。例如，有生命的声源可以包括人和动物等；而无生命的声源可以包括机器人、电视机、音响等。

需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施例不限于此。相反，本申请的实施例可以应用于可能适用的任何场景。例如，该声源可以是更多和更少数目。

示例性方法

图2图示了根据本申请实施例的声音处理方法的流程图。

如图2所示，根据本申请实施例的声音处理方法包括：S210，根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向；S220，基于所述声音预处理方向选择预处理滤波系数；S230，使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号；S240，确定自适应滤波系数；以及，S250，使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。

在一个示例中，在根据本申请实施例的声音处理方法中，根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向S210可以包括：根据所述多个声音信号确定声音声源方向；根据所述图像信号确定图像声源方向；以及，基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个，作为所述声音预处理方向。

在步骤S210中，例如，可以由声音采集器件111(例如，麦克风阵列)采集来自第一声源120和第二声源130的声音信号，并由图像采集器件112(例如，摄像头)采集图像信号。这里，声音采集器件111用于采集当前的环境的声音，例如，其包含例如希望关注的声音信号(例如，用户语音)以及对应的干扰信号(例如，来自电视机、收音机等)。该声音采集器件111包含但不限于模拟麦克风阵列及对应的模拟数字转换器等。然后，可以基于所采集的多个声音信号和所采集的图像信号确定声音预处理方向。

下面，将参考图3来详细说明如何基于所采集的多个声音信号和所采集的图像信号确定声音预处理方向。

图3图示了根据本申请实施例的声音处理方法中确定声音预处理方向的流程图。

如图3所示，在根据本申请实施例的声音处理方法中，根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向S210可以包括：S310，采集所述多个声音信号；S320，对所述多个声音信号进行声源定位以确定声音声源方向；S330，采集所述图像信号；S340，识别所述图像信号；S350，进行基于图像的方位判决以确定图像声源方向；以及S360，基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个，作为所述声音预处理方向。

在步骤S310，由声音采集器件111采集多个声音信号，例如，其包含例如希望关注的声音信号(例如，用户语音)以及对应的干扰信号(例如，来自电视机、收音机等)。

在步骤S320，对声音采集器件111所采集的多个声音信号进行声源定位，该声源定位不仅限于单个声源的判决，也可以进行多个声源的判决，从而获得多个声源的方位。

例如，多声源定位可以使用MUSIC(多信号分类：Multiple SignalClassification)算法。该算法首先对接收的多通道信号计算协方差矩阵，并对协方差矩阵进行特征值分解，然后按照特征值的大小进行排序，找到对应的噪声对应的特征矢量，最后由噪声特征矢量和事先预知的不同方向导向矢量构成空间谱，谱极值对应的方向即为对应的声源方向。例如，通过声源定位，最后输出基于声音信号的M个声源方向，记为d1(i)，0<i≤M。

在步骤S330，通过图像采集器件112采集图像。

在步骤S340，识别采集到的图像，从而输出潜在的声源，比如用户、电视机、收音机等。假设潜在声源个数为N，分别对应不同声源为s(j)，其中0<j≤N。

在步骤S350，进行基于图像的方位判决，用于判决图像识别出的潜在声源对应的方位，比如，用户(脸部)在90度，电视机在45度。最后输出基于图像信号的N个潜在声源角度，记为d2(j)，0<j≤N。

显然，尽管上面先描述了步骤S310和S320、后描述了步骤S330-S350，但是在实际应用中，也可以先执行步骤S330-S350而后执行步骤S310和S320，替换地，两组步骤也可以并行执行。

在步骤S360，根据图像的方位判决信息和声源定位的判决结果，来确定声音增强方向和声音抑制方向中的至少一个，作为所述声音预处理方向。也就是说，在根据本申请实施例的声音处理方法中，可以仅对于信号源的信号进行增强，也可以仅对于噪声源的信号进行抑制，也可以同时对信号源的信号进行增强并对噪声源的信号进行抑制。

下面，将对如何基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个以作为所述声音预处理方向S360进行具体说明。

在一个示例中，在根据本申请实施例的声音处理方法中，基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个S360可以包括：确定所述图像声源方向是否包含与信号源相关联的至少一个图像信号源方向；以及，响应于确定所述图像声源方向包含与信号源相关联的至少一个图像信号源方向，将所述至少一个图像信号源方向确定为所述声音增强方向。

另外，该步骤S360可以进一步包括：将所述声音声源方向中所述声音增强方向以外的方向确定为所述声音抑制方向。

例如，假设应用场景中包括三个声源，在步骤S320中根据基于声音信号的声源定位得出，第一声源在0度，第二声源在50度，第三声源在100度，则声音声源方向为0度、50度和100度。另外，假设在步骤S350中根据基于图像信号的声源定位得出，用户在0度，电视机在45度，收音机在120度，则图像声源方向为0度、45度和120度。此时，确定图像声源方向是否包含与信号源(例如，用户)相关联的至少一个图像信号源方向。由于上述图像声源方向包含与用户相关联的图像信号源方向，即0度，因此，可以直接将0度确定为声音增强方向。然后，可以将声音声源方向中声音增强方向以外的方向，即50度和100度确定为声音抑制方向。

此外，在一个替换示例中，在根据本申请实施例的声音处理方法中，基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个S360可以包括：确定所述图像声源方向是否包含与信号源相关联的至少一个图像信号源方向；以及，响应于确定所述图像声源方向包含与信号源相关联的至少一个图像信号源方向，基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个。

下面，将参考图4来具体描述本替换示例。

图4图示了根据本申请实施例的声音处理方法中的确定声音增强方向和声音抑制方向中的至少一个的流程图。

如图4所示，在该替换示例中，基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个S360可以包括：S361，确定所述图像声源方向是否包含与信号源相关联的图像信号源方向，如果否，则进入S362，如果是，则进入S363；S362，确定无声音增强方向；S363，确定所述图像声源方向是否包含与信号源相关联的多个图像信号源方向，如果是，则进入S364，如果否，则进入S365；S364，将所述一个图像信号源方向确定为声音增强方向；以及，S365，基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个。

例如，在信号源为用户的情况下，可以判断当前基于图像信号检测到的潜在声源是否包含人脸，若不包含人脸，则认为当前无声源增强方向；若包含人脸，则继续判断该潜在声源是否包含多个人脸，若仅包含一个人脸，则输出当前人脸对应的角度为声源增强方向；若包含多个人脸，则根据基于多个声音信号定位的声源角度和基于图像信号定位的声源角度输出最终的声源增强方向。

在一个示例中，在根据本申请实施例的声音处理方法中，基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个可以包括：确定所述声音声源方向与所述至少一个图像信号源方向的第一差异性；响应于所述第一差异性取最小值，确定与所述取最小值的第一差异性对应的候选声音声源方向和候选图像声源方向；以及，基于所述候选声音声源方向和所述候选图像声源方向确定所述声音增强方向。

例如，基于所述候选声音声源方向和所述候选图像声源方向确定所述声音增强方向可以包括：将所述候选声音声源方向、所述候选图像声源方向、或者所述候选声音声源方向和所述候选图像声源方向的中值作为所述声音增强方向。

具体来说，如上所述，假设在步骤S320中基于声音信号的声源定位，确定出存在M个声源方向，记为d1(i)，0<i≤M。并且，假设在步骤S350中基于图像信号的声源定位，确定出存在N个声源方向，记为d2(j)，0<j≤N，其中包括Nf个信号源(例如，人脸)，信号源方向记为df(j)，0<j≤Nf≤N。计算df和d1的第一差异性c₁(i,j)，例如可以表示为c₁(i,j)＝|sin(d1(i))-sin(df(j))|。当第一差异性c₁(i,j)取最小值时，分别对应的d1(i)和df(j)最接近，则增强方向可以选择二者其一或者计算二者角度中间的角度或基于一定权重系数的角度作为增强方向。当然，本领域技术人员可以理解，差异性的计算不仅限于上述方法，也可以根据两者的角度间隔计算，即，间隔越近，表示差异越小，两者越相似。

例如，假设应用场景中包括三个声源，在步骤S320中根据基于声音信号的声源定位得出，第一声源在0度，第二声源在50度，第三声源在100度，即声音声源方向为0度、50度和100度，分别记为d1(1)、d1(2)、d1(3)。另外，假设在步骤S350中根据基于图像信号的声源定位得出，用户1在0度，电视机在45度，用户2在90度，收音机在120度，即图像声源方向为0度、45度、90度和120度，其中用户1和用户2(信号源1和信号源2)为两个信号源，方向分别记为df(1)和df(2)，需要进行第一差异性的判断。通过第一差异性的判断，可以知道，c₁(i＝1,j＝1)＝0，取最小值，则可以直接将0度确定为声音增强方向。

另外，在一个示例中，在根据本申请实施例的声音处理方法中，基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个可以进一步包括：确定所述声音声源方向中除所述声音增强方向以外的方向与所述至少一个图像信号源方向中除所述声音增强方向以外的方向的第二差异性；确定所述第二差异性是否小于一预定相似度阈值；以及，响应于所述第二差异性小于所述预定相似度阈值，确定与所述第二差异性对应的所述声音声源方向中除所述声音增强方向以外的方向为所述声音抑制方向。

具体来说，如上所述，假设在步骤S320中基于声音信号的声源定位，确定出存在M个声源方向，记为d1(i)，0<i≤M，其中去除声音增强方向以外，还存在NR1个声源方向，记为dr1(i)，其中0<i≤NR1≤M。并且，假设在步骤S350中基于图像信号的声源定位，确定出存在N个声源方向，记为d2(j)，0<j≤N，其中去除声音增强方向以外，还存在NR2个声源方向，记为dr2(j)，其中0<j≤NR2≤N。根据dr1(i)和dr2(j)联合判决抑制方向，抑制方向可以为一个方向也可以为多个方向。计算dr1(i)和dr2(j)的第二差异性c₂(i,j)，例如可以表示为c₂(i,j)＝|sin(dr1(i))-sin(dr2(j))|。当c₂(i,j)小于一定的阈值时，对应的dr1(i)为抑制方向。当然，本领域技术人员可以理解，差异性的计算不仅限于上述方法，也可以根据两者的角度间隔计算，即，间隔越近，表示差异越小，两者越相似。

同样以上面的例子为例，声音声源方向为0度、50度和100度，声音增强方向为0度，去除0度，剩下为50度和100度，分别记为dr1(1)、dr1(2)。另外，图像声源方向为0度、45度、90度和120度，去除0度，剩下为45度、90度和120度，分别记为dr2(1)、dr2(2)、dr2(3)。假设阈值为10度，则通过第二差异性的判断，c₂(i＝1,j＝1)＝5，小于阈值10度，则例如可以将50度确定为声音抑制方向。当然，本申请不限于此，例如，也可以将45度确定为声音抑制方向或将47.5度确定为声音抑制方向等。

返回参考图2，在步骤S220，基于所述声音预处理方向选择预处理滤波系数。

在一个示例中，在根据本申请实施例的声音处理方法中，基于所述声音预处理方向选择预处理滤波系数S220可以包括：预先设计对应于不同角度的增强滤波系数和抑制滤波系数；以及，选择分别与所述声音增强方向对应的增强滤波系数和与所述声音抑制方向对应的抑制滤波系数。

具体来说，可以预先根据麦克风阵列***的阵型设计不同角度的增强滤波系数和抑制滤波系数，滤波系数设计可以使用最小二乘法来设计。增强滤波系数和抑制滤波系数预先计算好之后，可以存储在相应的存储介质当中，***初始化进行读取，或者预先存储在程序当中。然后，可以根据对应的声音增强方向和声音抑制方向来选择对应的增强滤波系数和抑制滤波系数。

因此，在一个示例中，在根据本申请实施例的声音处理方法中，预先设计对应于不同角度的增强滤波系数和抑制滤波系数包括：基于所述麦克风阵列的阵型预先设计对应于不同角度的增强滤波系数和抑制滤波系数。

在步骤S230，使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号。

在一个示例中，在根据本申请实施例的声音处理方法中，使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号S230可以包括：分别使用所述增强滤波系数和所述抑制滤波系数来对所述多个声音信号进行增强滤波和抑制滤波，以得到所述初始信号源信号和所述初始噪声源信号。

具体来说，通过增强滤波系数对多个声音信号进行增强滤波，可以得到主要包含信号源信号且少量包含噪声源信号的初始信号源信号(例如，期望语音信号)。并且，通过抑制滤波系数对多个声音信号进行抑制滤波，可以得到主要包含噪声源信号且少量包含信号源信号的初始噪声源信号(例如，抑制噪声信号)。

接下来，在步骤S240，确定自适应滤波系数。

在根据本申请实施例的声音处理方法中，自适应滤波系数具有初始值，可以根据初始的自适应滤波系数直接执行后续操作。

替换地，为了保证自适应滤波的准确性，在声音的实时处理过程中，也可以首先对该初始的自适应滤波系数进行更新。

也就是说，在一个示例中，在根据本申请实施例的声音处理方法中，确定自适应滤波系数包括：获取初始自适应滤波系数；和，根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新。

具体地，例如，可以依据以下公式1对所述初始自适应滤波系数进行更新：

W(n+1)＝W(n)+μe(n)X(n) 公式1

其中，W(n)是初始自适应滤波系数，W(n+1)是更新后的自适应滤波系数，μ是常数，e(n)是残差信号，X(n)是所述初始噪声源信号。

另外，残差信号e(n)可以由以下公式2表示：

e(n)＝d(n)-X^T(n)W(n) 公式2

其中，d(n)是所述初始信号源信号。

并且，优选地，为了更好地确定噪声源信号的特性，可以在无信号源信号或者信号源信号较弱或噪声源信号较强的情况下更新自适应滤波系数，从而更好地匹配噪声源信号的特性。

因此，例如，在信号源为用户的情况下，可以根据初始信号源信号、初始噪声源信号和用户的说话与否(例如，其通过嘴动检测来实现)对初始自适应滤波系数进行更新。

下面，将以信号源为用户为例，结合图5来说明更新初始自适应滤波系数的过程。

图5图示了根据本申请实施例的声音处理方法中的自适应滤波系数更新的流程图。

如图5所示，在根据本申请实施例的声音处理方法中，更新自适应滤波系数包括：S510，基于所述声音声源方向和所述图像声源方向确定是否存在声音增强方向，如果是，则进入步骤S520，否则进入步骤S550；S520，响应于存在声音增强方向，进行用户的嘴动检测；S530，确定是否检测到用户嘴动，如果是，则进入步骤S540，否则进入步骤S550；S540，响应于检测到用户嘴动，确定初始信号源信号和初始噪声源信号的比率是否小于预定信噪比阈值，如果是，则进入步骤S550，如果否，则不执行更新；S550，更新自适应滤波系数。

在步骤S510，基于所述声音声源方向和所述图像声源方向确定是否存在声音增强方向。声音增强方向的存在与否例如可以通过上面的步骤S360来获得。

因此，在一个示例中，在根据本申请的声音处理方法中，根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新包括：响应于基于所述声音声源方向和所述图像声源方向确定无声音增强方向，对所述初始自适应滤波系数进行更新。

在步骤S520，进行用户的嘴动检测。

例如，可以根据摄像头所采集的图像信号来检测用户的嘴部是否运动。

图6图示了根据本申请实施例的声音处理方法中的用户的嘴动检测的流程图。

如图6所示，根据本申请实施例的声音处理方法中的用户的嘴动检测包括：S610，响应于确定图像声源为用户，采集与所述用户的脸部方向对应的多帧图像信息；S620，基于所述多帧图像信息检测是否存在嘴动。

在步骤S610中，由于通过单帧图像识别用户的嘴动比较困难，所以可以根据声音增强方向选择录制一段时间内视频信息或者多帧图像信息，即以实时或准实时的方式采集与所述用户的脸部方向对应的多帧图像信息。

然后，在步骤S620中，基于所述多帧图像信息检测是否存在嘴动。例如，将多帧图像中的每两个相邻帧图像进行匹配，如果嘴部位置没有明显差异，则说明可能不存在嘴动，否则可能存在嘴动。如果用户的嘴部存在运动，则说明用户可能正在说话。

返回图5，在步骤S530，确定是否检测到用户嘴动。并且，在没有检测到用户嘴动的情况下，对所述初始自适应滤波系数进行更新。

因此，在一个示例中，在根据本申请实施例的声音处理方法中，根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新包括：响应于信号源为用户，采集与所述用户的脸部方向对应的多帧图像信息；基于所述多帧图像信息检测是否存在嘴动；以及，响应于不存在嘴动，对所述初始自适应滤波系数进行更新。

在步骤S540，响应于检测到用户嘴动，基于初始信号源信号和初始噪声源信号确定是否更新自适应滤波系数。如上所述，在初始信号源信号小或者初始噪声源信号大的情况下更新自适应滤波系数。

也就是说，在一个示例中，在根据本申请实施例的声音处理方法中，在基于所述多帧图像信息检测是否存在嘴动之后进一步包括：响应于存在嘴动，确定所述初始信号源信号与所述初始噪声源信号的比率是否小于一预定信噪比阈值；以及，响应于确定所述初始信号源信号与所述初始噪声源信号的比率小于所述预定信噪比阈值，对所述初始自适应滤波系数进行更新。

最后，在步骤S550，更新自适应滤波系数。所述自适应滤波系数的更新过程与上面结合公式1和2所述的相同，在这里就不再赘述。

最后，在步骤S250，使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。

也就是说，通过步骤S250，可以基于初始噪声源信号对初始信号源信号进行进一步的自适应滤波，从而去除初始信号源信号中包含的少量噪声源信号，从而得到增强信号源信号。

在一个示例中，在根据本申请实施例的声音处理方法中，使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波S250包括：将所述初始噪声源信号作为参考信号，使用所述自适应滤波系数来对所述初始信号源信号进行自适应滤波，以得到所述增强信号源信号。

另外，需要注意的是，在根据本申请实施例的声音处理方法中，在对自适应滤波系数进行更新的情况下，自适应滤波系数的更新过程可以在使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波以得到增强信号源信号之前进行，也可以在其之后进行，或者与其同时进行。

也就是说，在一个示例中，在根据本申请实施例的声音处理方法中，在使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波之后，进一步包括：根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新。

或者，在一个示例中，在根据本申请实施例的声音处理方法中，在使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波的同时，进一步包括：根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新。

由此可见，采用根据本申请实施例的声音处理方法，可以根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向；基于所述声音预处理方向选择预处理滤波系数；使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号；确定自适应滤波系数；以及，使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。因此，可以通过基于声音预处理方向来增强信号源信号，从而实现检测距离远、抗噪性好、语音识别准确率提升的优点。

具体地，在本申请的实施例中，可以通过麦克风阵列获取声音信号，得到多个声音方位信息，通过摄像头获取图像信号，进行潜在发声物体(潜在发声物体，比如电视机、人、收音机、音响等)检测，并记录人脸所在图像方位信息；根据图像方位信息和声音方位信息获得期望语音增强方向和噪声抑制方向，根据增强方向和抑制方向选择一个已经设计好的增强滤波系数和抑制滤波系数，根据增强滤波系数和抑制滤波系数对声音信号进行滤波，得到期望语音信号和抑制噪声信号，以对抑制噪声信号和期望语音信号做自适应滤波，并且根据图像信号和声音信号进行自适应滤波系数更新。

这样，通过声音和图像的识别，能够更好地定位信号源(例如，人)的方位，同时根据已设计好的期望方向的滤波器能够更好的抑制方向性的干扰，通过结合人嘴动检测，可以更好地做滤波器更新；由于结合了图像和语音，即使在信号和干扰的能量比小于0dB以下的情况下，声源定位仍然有效。

示例性装置

图7图示了根据本申请实施例的声音处理装置的框图。

如图7所示，根据本申请实施例的声音处理装置700包括：声音预处理方向确定单元710，用于根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向；预处理滤波系数选择单元720，用于基于所述声音预处理方向确定单元710所确定的声音预处理方向选择预处理滤波系数；预处理滤波单元730，用于使用所述预处理滤波系数选择单元720所选的预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号；自适应滤波系数确定单元740，用于确定自适应滤波系数；以及自适应滤波单元750，用于使用所述自适应滤波系数确定单元740所得到的自适应滤波系数来对所述预处理滤波单元730所得到的初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。

在一个示例中，在上述声音处理装置700中，所述声音预处理方向确定单元710用于：根据所述多个声音信号确定声音声源方向；根据所述图像信号确定图像声源方向；以及，基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个，作为所述声音预处理方向。

在一个示例中，在上述声音处理装置700中，所述声音预处理方向确定单元710基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个包括：确定所述图像声源方向是否包含与信号源相关联的至少一个图像信号源方向；以及，响应于确定所述图像声源方向包含与信号源相关联的至少一个图像信号源方向，将所述至少一个图像信号源方向确定为所述声音增强方向。

在一个示例中，在上述声音处理装置700中，所述声音预处理方向确定单元710基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个进一步包括：将所述声音声源方向中所述声音增强方向以外的方向确定为所述声音抑制方向。

在一个示例中，在上述声音处理装置700中，所述声音预处理方向确定单元710基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个包括：确定所述图像声源方向是否包含与信号源相关联的至少一个图像信号源方向；以及，响应于确定所述图像声源方向包含与信号源相关联的至少一个图像信号源方向，基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个。

在一个示例中，在上述声音处理装置700中，所述声音预处理方向确定单元710基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个包括：确定所述声音声源方向与所述至少一个图像信号源方向的第一差异性；响应于所述第一差异性取最小值，确定与所述取最小值的第一差异性对应的候选声音声源方向和候选图像声源方向；以及，基于所述候选声音声源方向和所述候选图像声源方向确定所述声音增强方向。

在一个示例中，在上述声音处理装置700中，所述声音预处理方向确定单元710基于所述候选声音声源方向和所述候选图像声源方向确定所述声音增强方向包括：将所述候选声音声源方向、所述候选图像声源方向、或者所述候选声音声源方向和所述候选图像声源方向的中值作为所述声音增强方向。

在一个示例中，在上述声音处理装置700中，所述声音预处理方向确定单元710基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个进一步包括：确定所述声音声源方向中除所述声音增强方向以外的方向与所述至少一个图像信号源方向中除所述声音增强方向以外的方向的第二差异性；确定所述第二差异性是否小于一预定相似度阈值；以及，响应于所述第二差异性小于所述预定相似度阈值，确定与所述第二差异性对应的所述声音声源方向中除所述声音增强方向以外的方向为所述声音抑制方向。

在一个示例中，在上述声音处理装置700中，所述预处理滤波系数选择单元720用于：预先设计对应于不同角度的增强滤波系数和抑制滤波系数；以及，选择分别与所述声音增强方向对应的增强滤波系数和与所述声音抑制方向对应的抑制滤波系数。

在一个示例中，在上述声音处理装置700中，所述预处理滤波系数选择单元720预先设计对应于不同角度的增强滤波系数和抑制滤波系数包括：基于所述麦克风阵列的阵型预先设计对应于不同角度的增强滤波系数和抑制滤波系数。

在一个示例中，在上述声音处理装置700中，所述预处理滤波单元730用于：分别使用所述增强滤波系数和所述抑制滤波系数来对所述多个声音信号进行增强滤波和抑制滤波，以得到所述初始信号源信号和所述初始噪声源信号。

在一个示例中，在上述声音处理装置700中，自适应滤波系数确定单元740用于：获取初始自适应滤波系数；和，根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新。

在一个示例中，在上述声音处理装置700中，自适应滤波系数确定单元740根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新包括：响应于基于所述声音声源方向和所述图像声源方向确定无声音增强方向，对所述初始自适应滤波系数进行更新。

在一个示例中，在上述声音处理装置700中，自适应滤波系数确定单元740根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新包括：响应于信号源为用户，采集与所述用户的脸部方向对应的多帧图像信息；基于所述多帧图像信息检测是否存在嘴动；以及，响应于不存在嘴动，对所述初始自适应滤波系数进行更新。

在一个示例中，在上述声音处理装置700中，自适应滤波系数确定单元740根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新包括：响应于存在嘴动，确定所述初始信号源信号与所述初始噪声源信号的比率是否小于一预定信噪比阈值；以及，响应于确定所述初始信号源信号与所述初始噪声源信号的比率小于所述预定信噪比阈值，对所述初始自适应滤波系数进行更新。

在一个示例中，在上述声音处理装置700中，所述自适应滤波单元750用于：将所述初始噪声源信号作为参考信号，使用所述自适应滤波系数来对所述初始信号源信号进行自适应滤波，以得到所述增强信号源信号。

在一个示例中，在上述声音处理装置700中，在所述自适应滤波单元750使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波之后，所述自适应滤波系数确定单元740根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新。

此外，在一个示例中，在上述声音处理装置700中，在所述自适应滤波单元750使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波的同时，所述自适应滤波系数确定单元740根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新。

这里，本领域技术人员可以理解，根据本申请实施例的声音处理装置的其它细节与之前说明的根据本申请实施例的声音处理方法的相应细节完全相同，为了避免冗余便不再赘述。

如上所述，根据本申请实施例的声音处理装置700可以集成在处理设备110中，也可以是与处理设备110独立的单机设备。

在一个示例中，根据本申请实施例的声音处理装置700可以作为一个软件模块和/或硬件模块而集成到该处理设备110中。例如，该声音处理装置700可以是该处理设备110的操作***中的一个软件模块，或者可以是针对于该处理设备110所开发的一个应用程序；当然，该声音处理装置700同样可以是该处理设备110的众多硬件模块之一。

替换地，在另一示例中，该声音处理装置700与该处理设备110也可以是分立的设备，并且该声音处理装置700可以通过有线和/或无线网络连接到该处理设备110，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图8来描述根据本申请实施例的电子设备。该电子设备可以是如图1所示的处理设备110、或与其独立的单机设备，该单机设备可以与该处理设备110进行通信，以从其接收所采集到的输入信号。

图8图示了根据本申请实施例的电子设备的框图。

如图8所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的声源定位方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如声音信号、图像分量、滤波系数等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是该处理设备110时，该输入装置13可以是上述的麦克风阵列，用于捕捉声源的声音信号，或者摄像机，用于捕捉图像信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从该处理设备110接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声音处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声音处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种声音处理方法，包括：

根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向；

基于所述声音预处理方向选择预处理滤波系数；

使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号；

确定自适应滤波系数；以及

使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。

2.如权利要求1所述的声音处理方法，其中，根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向包括：

根据所述多个声音信号确定声音声源方向；

根据所述图像信号确定图像声源方向；以及

基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个，作为所述声音预处理方向。

3.如权利要求2所述的声音处理方法，其中，基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个包括：

确定所述图像声源方向是否包含与信号源相关联的至少一个图像信号源方向；以及

响应于确定所述图像声源方向包含与信号源相关联的至少一个图像信号源方向，将所述至少一个图像信号源方向确定为所述声音增强方向。

4.如权利要求3所述的声音处理方法，基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个进一步包括：

将所述声音声源方向中所述声音增强方向以外的方向确定为所述声音抑制方向。

5.如权利要求2所述的声音处理方法，其中，基于所述声音声源方向和所述图像声源方向来确定声音增强方向和声音抑制方向中的至少一个包括：

响应于确定所述图像声源方向包含与信号源相关联的至少一个图像信号源方向，基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个。

6.如权利要求5所述的声音处理方法，其中，基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个包括：

确定所述声音声源方向与所述至少一个图像信号源方向的第一差异性；

响应于所述第一差异性取最小值，确定与所述取最小值的第一差异性对应的候选声音声源方向和候选图像声源方向；以及

基于所述候选声音声源方向和所述候选图像声源方向确定所述声音增强方向。

7.如权利要求6所述的声音处理方法，其中，基于所述候选声音声源方向和所述候选图像声源方向确定所述声音增强方向包括：

将所述候选声音声源方向、所述候选图像声源方向、或者所述候选声音声源方向和所述候选图像声源方向的中值作为所述声音增强方向。

8.如权利要求6所述的声音处理方法，其中，基于所述声音声源方向和所述至少一个图像信号源方向联合确定所述声音增强方向和所述声音抑制方向中的至少一个进一步包括：

确定所述声音声源方向中除所述声音增强方向以外的方向与所述至少一个图像信号源方向中除所述声音增强方向以外的方向的第二差异性；

确定所述第二差异性是否小于一预定相似度阈值；以及

响应于所述第二差异性小于所述预定相似度阈值，确定与所述第二差异性对应的所述声音声源方向中除所述声音增强方向以外的方向为所述声音抑制方向。

9.如权利要求2所述的声音处理方法，其中，基于所述声音预处理方向选择预处理滤波系数包括：

预先设计对应于不同角度的增强滤波系数和抑制滤波系数；以及

选择分别与所述声音增强方向对应的增强滤波系数和与所述声音抑制方向对应的抑制滤波系数。

10.如权利要求9所述的声音处理方法，其中，预先设计对应于不同角度的增强滤波系数和抑制滤波系数包括：

基于所述麦克风阵列的阵型预先设计对应于不同角度的增强滤波系数和抑制滤波系数。

11.如权利要求9所述的声音处理方法，其中，使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号包括：

分别使用所述增强滤波系数和所述抑制滤波系数来对所述多个声音信号进行增强滤波和抑制滤波，以得到所述初始信号源信号和所述初始噪声源信号。

12.如权利要求2所述的声音处理方法，其中，确定自适应滤波系数包括：

获取初始自适应滤波系数；和

根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新。

13.如权利要求12所述的声音处理方法，其中，根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新包括：

响应于基于所述声音声源方向和所述图像声源方向确定无声音增强方向，对所述初始自适应滤波系数进行更新。

14.如权利要求12所述的声音处理方法，其中，根据所述初始信号源信号和所述初始噪声源信号对所述初始自适应滤波系数进行更新包括：

响应于信号源为用户，采集与所述用户的脸部方向对应的多帧图像信息；

基于所述多帧图像信息检测是否存在嘴动；以及

响应于不存在嘴动，对所述初始自适应滤波系数进行更新。

15.如权利要求14所述的声音处理方法，进一步包括：

响应于存在嘴动，确定所述初始信号源信号与所述初始噪声源信号的比率是否小于一预定信噪比阈值；以及

响应于确定所述初始信号源信号与所述初始噪声源信号的比率小于所述预定信噪比阈值，对所述初始自适应滤波系数进行更新。

16.如权利要求1所述的声音处理方法，其中，使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波包括：

将所述初始噪声源信号作为参考信号，使用所述自适应滤波系数来对所述初始信号源信号进行自适应滤波，以得到所述增强信号源信号。

17.如权利要求1所述的声音处理方法，其中，在使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波之后，进一步包括：

18.一种声音处理装置，包括：

声音预处理方向确定单元，用于根据麦克风阵列所采集的多个声音信号和摄像头所采集的图像信号确定声音预处理方向；

预处理滤波系数选择单元，用于基于所述声音预处理方向选择预处理滤波系数；

预处理滤波单元，用于使用所述预处理滤波系数对所述多个声音信号进行预处理滤波，以得到初始信号源信号和初始噪声源信号；

自适应滤波系数确定单元，用于确定自适应滤波系数；以及

自适应滤波单元，用于使用所述自适应滤波系数来对所述初始信号源信号和所述初始噪声源信号进行自适应滤波，以得到增强信号源信号。

19.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-17中任一项所述的声音处理方法。

20.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-17中任一项所述的声音处理方法。