CN113450769B

CN113450769B - 语音提取方法、装置、设备和存储介质

Info

Publication number: CN113450769B
Application number: CN202010158648.7A
Authority: CN
Inventors: 童仁杰
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2024-06-25
Anticipated expiration: 2040-03-09
Also published as: CN113450769A

Abstract

本发明提供一种语音提取方法、装置、设备和存储介质。该方法包括：获取目标声源处的图像；根据所述目标声源在所述图像中的像素位置，确定所述目标声源的波达方向DOA；根据所述DOA，以及预设的N个波束的输出信号，提取目标声源的语音输出信号；所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2。本发明实施例在语音信号的信噪比较低的情况下，特别是远距离悄悄话的情景下，根据目标声源处的图像的信息，确定目标声源的波达方向DOA，可以提高DOA估计的准确性，进而能够提高提取的语音信号的质量。

Description

语音提取方法、装置、设备和存储介质

技术领域

本发明涉及音频信号处理技术领域，尤其涉及一种语音提取方法、装置、设备和存储介质。

背景技术

目前，远距离拾音的应用需求非常广泛。例如某些监控场景下需要秘密拾音。但当前的远距离拾音技术还无法达到近距离拾音的效果。

相关技术中，利用麦克风阵列技术，设计指向多个方位角的固定波束，并跟踪各个波束内的能量最小值。综合各个波束能量的最小值跟踪的结果，检测出声源所在的目标波束。接着，利用波束形成算法抑制环境噪声从而提取语音输出信号，然而在远距离、低信噪比的场景下，仅根据各个波束能量的最小值对目标波束的估计容易出现错误，并导致提取的语音输出信号的质量不高。

发明内容

本发明提供一种语音提取方法、装置、设备和存储介质，以提高语音提取质量。

第一方面，本发明提供一种语音提取方法，包括：

获取目标声源处的图像；

根据所述目标声源在所述图像中的像素位置，确定所述目标声源的波达方向DOA；

根据所述DOA，以及预设的N个波束的输出信号，提取目标声源的语音输出信号；所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2。

第二方面，本发明提供一种语音提取装置，包括：

获取模块，用于获取目标声源处的图像；

确定模块，用于根据所述目标声源在所述图像中的像素位置，确定所述目标声源的波达方向DOA；

处理模块，用于根据所述DOA，以及预设的N个波束的输出信号，提取目标声源的语音输出信号；所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。

第四方面，本发明实施例提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的方法。

本发明实施例提供的语音提取方法、装置、设备和存储介质，获取目标声源处的图像；根据所述目标声源在所述图像中的像素位置，确定所述目标声源的波达方向DOA；根据所述DOA，以及预设的N个波束的输出信号，提取目标声源的语音输出信号；所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2，在语音信号的信噪比较低的情况下，特别是远距离悄悄话的情景下，根据目标声源处的图像的信息，确定目标声源的波达方向DOA，可以提高DOA估计的准确性，进而根据DOA提取目标声源的语音输出信号，能够提高提取的语音信号的质量。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明一实施例提供的原理实现示意图；

图2是本发明提供的语音提取方法一实施例的流程示意图；

图3是本发明提供的方法一实施例的波束形成示意图；

图4是本发明提供的方法一实施例的成像原理示意图；

图5是本发明提供的方法另一实施例的流程示意图；

图6是本发明提供的语音提取装置一实施例的结构示意图；

图7是本发明提供的电子设备实施例的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书及所述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本发明所涉及的名词和应用场景进行介绍：

麦克风阵列：按照一定几何形状排列的多个麦克风。通常每个麦克风是无指向的，而且各麦克风之间的频率响应具有较好的一致性。

波达方向(Direction Of Arrival，简称DOA)：平面波到达麦克风阵列的方向。通过测量辐射信号的波达方向来估测辐射源的位置。

波束形成：对多个麦克风输出的音频信号做加权求和，并得到增强的语音信号。

散射噪声：在各个方向功率相等的噪声场。

语音活动性检测(Voice Activity Detection，简称VAD)算法：检测某段音频是否包含人类的语音活动。

本发明实施例提供的方法，应用于智能监控***中，例如对声音进行监控，特别是远距离悄悄话的场景下，以提高语音提取的质量。该监控***中可以包括图像采集组件、声音采集组件以及处理器芯片，其中，上述图像采集组件、声音采集组件以及处理器芯片可以集成在一个设备或多个设备上。

其中，图像采集组件例如包括：镜头、图像传感器，声音采集组件例如可以是麦克风阵列，包括至少两个麦克风。麦克风阵列的排列方式可根据需求设定，例如环形，多边形，螺旋形等。

如图1所示，图像采集组件例如为摄像头1，麦克风阵列包括4个麦克风2，麦克风阵列按照圆形阵列设置，摄像头和麦克风阵列通过固定部件3固定。

本发明实施例的方法，通过采集的图像数据，确定当前的场景模式，若在悄悄话模式下，则根据图像数据，估计DOA，准确性较高，进而根据估计的DOA通过不同指向的波束的输出信号，提取目标声源的语音输出信号。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2是本发明提供的语音提取方法一实施例的流程示意图。如图1所示，本实施例提供的方法，包括：

步骤101、获取目标声源处的图像。

根据图像采集组件采集的图像信息，判断当前是否有人说悄悄话，一般悄悄话伴随着比较明显的肢体动作特征，如交头接耳等。例如，在图像中检测到相邻两个人脸的距离非常靠近，则此二人说悄悄话的可能性比较大。

图像采集组件可采集当前场景下不同位置、不同角度的多张图像，根据采集的图像，定位出目标声源。

假设人脸检测算法一共检测出N张人脸，且人脸区域中心点的像素位置分别为(x_i,y_i),i＝1,2,...,N。根据相邻人脸在一幅图像中的像素距离，可以判断二人是否在用悄悄话交流。

在一种实现方式中，可以确定所述图像中相邻人脸之间的像素距离；

若所述像素距离小于预设阈值，则执行步骤102的操作。

相邻人脸之间的像素距离，可通过如下方式确定：

确定所述图像中相邻人脸的中心点的像素位置；

根据所述图像中相邻人脸的中心点的像素位置，确定所述相邻人脸之间的像素距离。

具体而言，相邻的第i个和第j个人脸之间的像素距离可以表示为在其他实施例中，像素距离还可以通过其他方式计算，本申请对此并不限定。

当相邻人脸的区域中心点的像素距离低于一个预先设定的阈值ε时，可判断此二人的头部非常靠近，且极有可能正在用悄悄话的方式交流。此时，可采用悄悄话模式进行语音提取。所述的判决过程可以表示为：

indicator取值为1表明触发悄悄话模式；取值为0则触发普通模式。

步骤102、根据目标声源在图像中的像素位置，确定目标声源的波达方向DOA。

具体的，假设检测到相邻的第i个和第j个人脸距离较近且触发悄悄话模式，则此时目标声源在图像中的像素位置可通过如下方式确定：

根据图像的相邻人脸中每个人脸的中心点的像素位置，确定目标声源在图像中的像素位置；相邻人脸之间的距离小于预设阈值。

在一种实现方式中，可以将图像的相邻人脸的两个中心点的中心位置，确定为所目标声源在图像中的像素位置。

或者，在其他方式中还可以将相邻人脸中任一人脸的中心点的像素位置，作为目标声源在图像中的像素位置。或，将相邻人脸的两个中心点之间的其他像素位置作为目标声源在图像中的像素位置，本申请对此并不限定。

例如可通过如下公式计算目标声源在图像中的像素位置(x_s,y_s)：

(x_s,y_s)＝((x_i+x_j)/2,(y_i+y_j)/2)

进而根据目标声源在图像中的像素位置，确定目标声源的DOA，例如利用成像原理，根据目标声源在图像中的像素位置以及目标声源的空间位置的几何关系，确定目标声源的DOA。

综上，在悄悄话模式，语音信噪比较低，若利用普通的声源定位算法估计DOA，结果不准确，而本申请实施例中利用目标声源对应的图像，确定DOA，结果较为准确。

步骤103、根据DOA，以及预设的N个波束的输出信号，提取目标声源的语音输出信号；N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2。

具体的，确定出DOA之后可以基于DOA的结果，通过波束形成来实现噪声的抑制，并提取语音输出信号。

如图3所示，按照方位角，可以将空间划分为N个区域，区域中心角为l取值为1-N，N例如为6，图3中麦克风阵列包括四个麦克风，采用环形阵列，通过确定N个波束对应的权重，进而确定目标声源对应的目标波束，并提取语音输出信号。

本实施例的方法，获取目标声源处的图像；根据所述目标声源在所述图像中的像素位置，确定所述目标声源的波达方向DOA；根据所述DOA，以及预设的N个波束的输出信号，提取目标声源的语音输出信号；所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2，在语音信号的信噪比较低的情况下，特别是远距离悄悄话的情景下，根据目标声源处的图像的信息，确定目标声源的波达方向DOA，可以提高DOA估计的准确性，进而根据DOA提取目标声源的语音输出信号，能够提高提取的语音信号的质量。

在上述实施例的基础上，在另一实施例中，步骤102确定目标声源的DOA，可以通过如下方式实现：

根据目标声源在图像中的像素位置，图像采集组件中镜头与图像传感器的距离，镜头的中心点在图像中的像素位置，图像传感器中相邻的感光元件之间的距离，确定目标声源的DOA。

如图4所示，假设镜头与图像传感器的距离为f1，镜头的中心点对应的像素位置为(x₀,y₀)，相邻的感光元件之间的距离为Δd，则目标声源对应的俯仰角可以通过如下公式计算：

在其他实施例中还可以通过该公式的其他变形计算，另外可采用类似方法获得目标声源的方位角从而得到DOA。

如图5所示，基于音频的DOA估计，容易受到信噪比等因素的影响，而视频信号不受语音信噪比的影响。因此，如果触发普通模式(图像中相邻人脸之间的像素距离大于预设阈值)，说明语音信号的信噪比较高，可以采用传统的声源定位算法(如SRP，MUSIC等)获得目标声源的DOA。如果触发悄悄话模式(图像中相邻人脸之间的像素距离小于预设阈值)，说明信噪比较低，可以采用上述实施例中的方式估计声源的DOA，即根据图像的像素信息获取目标声源在真实空间对应的DOA。

在普通模式下，语音信号的信噪比较高，利用VAD判断是否有语音活动；若无语音，则输出麦克风阵列采集的原始波形；否则，根据声源定位算法估计DOA并构造波束形成器，抑制环境噪声，提取语音输出信号。

进而，根据噪声分布和DOA信息，得到N个波束的权重，提取目标声源的语音输出信号。

在一实施例中，步骤103可以通过如下方式实现：

根据DOA，确定N个波束对应的权重；

根据所述N个波束对应的权重以及所述麦克风阵列接收的语音信号，确定N个波束的输出信号；

根据N个波束的输出信号，获取目标声源的语音输出信号。

具体的，根据前述实施例中计算的DOA值，计算N个波束的权重，提取目标语音。下面以散射噪声为例，介绍一种可行的提取语音信号的实现方案。

具体过程详述如下：

散射噪声在空间中均匀分布，这意味着：以麦克风阵列为参考点，各个方向的噪声功率相等。假设麦克风数目为M，对于散射噪声场，在频率f处，通道i和通道j的相关系数可以计算为：

l_ij表示通道i和j的直线距离，c表示声速，Ω_ij(f)表示协方差矩阵Ω(f)第i行，第j列对应的元素。其中，通道i为第i个麦克风对应的通道；通道j为第j个麦克风对应的通道。

在一实施例中，根据协方差矩阵，以及N个波束对应的导向矢量，确定N个波束对应的权重。

其中，可以根据DOA包括的俯仰角，以及N个波束各自对应的空间区域的中心方位角，确定N个波束对应的导向矢量。

假设某个波束对应的DOA为具体可以通过/>计算麦克风阵列中各个麦克风相对于参考麦克风的延时。

N个波束的导向矢量可以为：其中/>表示第i个麦克风相对于参考麦克风的延时，由声源方位和阵列形状唯一确定。参考麦克风为M个麦克风中的一个，例如最先接收的语音信号的麦克风。

权重w_l(f)例如可以通过如下公式计算：

将w_l(f)作用于输入的多通道的音频数据(即M个麦克风接收到的语音信号向量)，即可实现对目标语音的增强和对环境噪声的抑制。

假设在某时频点(t,f)处，麦克风阵列的接收的语音信号的矢量为x(t,f)，N个波束的输出信号分别表示为y_l(t,f)＝w_l(f)x(t,f),l＝1,2,...,N。然后通过N个波束的输出信号，获取目标声源的语音输出信号，例如通过目标声源的DOA，确定N个波束中的目标波束，进而获取目标波束的输出信号。进一步的，还可以对目标波束的输出信号进行增强，例如乘以某一增益，该增益可以是固定的预设值，或通过其他方式计算得到的。

其中，x(t,f)可以是通过分帧并进行频域变换处理后的信号矢量，例如通过短时傅里叶变换进行处理。

本实施例的方法，由于DOA估计的准确性，进而根据DOA，确定N个波束对应的权重；根据所述N个波束对应的权重以及所述麦克风阵列接收的语音信号，确定N个波束的输出信号；根据N个波束的输出信号，获取目标声源的语音输出信号，能够提高提取的语音信号的质量。

上述方案复杂度低且易于实现，但是对DOA的估计精度要求较高，在其他实施例中，为了提高算法的稳定性，可以采用如下方式确定权重：

根据对角加载后的协方差矩阵，以及N个波束对应的导向矢量，确定N个波束对应的权重；协方差矩阵表示频点为f的散射噪声基于麦克风阵列的协方差矩阵。

例如可以通过如下公式确定

Ω_ε(f)＝Ω(f)+ε·I

其中，对角加载系数ε，控制着波束器的白噪声增益和波束宽度。考虑DOA误差和麦克风失配等因素，需要选择ε使得波束具有良好的白噪声增益和合适的波束宽度。ε可以是根据实际需求确定的。

按照方位角可以将空间划分为N_b个区域，区域中心角为/>分别对应N_b个波束形成器/>假设在某时频点(t,f)处，麦克风阵列的接收信号矢量为x(t,f)，则N_b个波束的输出可表示为y_i(t,f)＝w_i(f)x(t,f),i＝1,2,...,N_b。

在一实施例中，为了提高提取的目标语音的质量，可以采用如下方式实现：

根据目标声源对应的目标波束的输出信号，以及N个波束的输出信号，确定目标波束存在目标声源的语音的概率；目标波束为N个波束的一个波束；

根据目标波束存在语音的第一后处理增益、目标波束不存在语音的第二后处理增益以及概率，确定第三后处理增益；

根据第三后处理增益确定目标声源的语音输出信号。

具体的，假设目标波束中语音不存在的第二后处理增益为预设的固定值G_min，语音存在的第一后处理增益为G_s，其中，G_s可通过经典降噪算法得到，则总的第三后处理增益可计算为：其中，p表示目标波束存在目标声源的语音的概率。

一般而言，如果某个波束的能量值较大，则目标声源的语音位于该波束的可能性较大，即语音存在概率p(t,f)与各波束能量大小的关联性极高。假设目标声源的DOA值对应的目标波束的方位角为/>则在时频点(t,f)处，目标波束存在语音的概率可以通过如下公式计算：

最终的语音输出信号可以为y_o(t,f)＝G·y_s(t,f)。

本实施例的方法，根据目标声源对应的目标波束的输出信号，以及N个波束的输出信号，确定目标波束存在目标声源的语音的概率；目标波束为N个波束的一个波束；根据目标波束存在语音的第一后处理增益、目标波束不存在语音的第二后处理增益以及概率，确定第三后处理增益；根据第三后处理增益确定目标声源的语音输出信号，能够进一步提高提取的语音信号的质量。

图6为本发明提供的语音提取装置一实施例的结构图，如图6所示，本实施例的语音提取装置，包括：

获取模块601，用于获取目标声源处的图像；

确定模块602，用于根据所述目标声源在所述图像中的像素位置，确定所述目标声源的波达方向DOA；

处理模块603，用于根据所述DOA，以及预设的N个波束的输出信号，提取目标声源的语音输出信号；所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2。

在一种可能的实现方式中，所述确定模块602，具体用于：

确定所述图像中相邻人脸之间的像素距离；

若所述像素距离小于预设阈值，则根据所述目标声源在所述图像中的像素位置，确定目标声源的波达方向DOA的操作。

在一种可能的实现方式中，所述确定模块602，具体用于：

确定所述图像中相邻人脸的中心点的像素位置；

在一种可能的实现方式中，所述确定模块602，还用于：

根据所述图像的相邻人脸中每个人脸的中心点的像素位置，确定所述目标声源在所述图像中的像素位置；所述相邻人脸之间的距离小于预设阈值。

在一种可能的实现方式中，所述确定模块602，具体用于：

将所述图像的相邻人脸的两个中心点的中心位置，确定为所述目标声源在所述图像中的像素位置。

在一种可能的实现方式中，所述确定模块602，具体用于：

根据所述目标声源在所述图像中的像素位置，图像采集组件中镜头与图像传感器的距离，所述镜头的中心点在所述图像中的像素位置，所述图像传感器中相邻的感光元件之间的距离，确定所述目标声源的DOA。

在一种可能的实现方式中，所述处理模块603，具体用于：

根据所述DOA，确定所述N个波束对应的权重；

根据所述N个波束对应的权重以及所述麦克风阵列接收的语音信号，确定所述N个波束的输出信号；

根据所述N个波束的输出信号，获取目标声源的语音输出信号。

在一种可能的实现方式中，所述处理模块603，具体用于：

根据所述目标声源对应的目标波束的输出信号，以及所述N个波束的输出信号，确定所述目标波束存在所述目标声源的语音的概率；所述目标波束为所述N个波束的一个波束；

根据所述目标波束存在语音的第一后处理增益、所述目标波束不存在语音的第二后处理增益以及所述概率，确定第三后处理增益；

根据所述第三后处理增益确定所述目标声源的语音输出信号。

在一种可能的实现方式中，所述处理模块603，具体用于：

根据所述DOA包括的俯仰角，以及所述N个波束各自对应的空间区域的中心方位角，确定N个波束对应的导向矢量；

根据对角加载后的协方差矩阵，以及所述N个波束对应的导向矢量，确定所述N个波束对应的权重；所述协方差矩阵表示频点为f的散射噪声基于所述麦克风阵列的协方差矩阵。

在一种可能的实现方式中，所述处理模块603，用于：

根据所述DOA包括的方位角，以及所述N个波束各自对应的空间区域的中心方位角，确定所述目标声源对应的目标波束；

根据所述目标声源对应的目标波束对应的权重，以及所述麦克风阵列接收的语音信号，确定所述目标声源对应的目标波束的输出信号。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本发明提供的电子设备实施例的结构图，如图7所示，该电子设备包括：

处理器701、麦克风阵列702、图像采集组件703，其中，可选的，还可以包括存储处理器701的可执行指令的存储器。

图像采集组件703用于采集图像。麦克风阵列702用于采集语音信号。

上述部件可以通过一条或多条总线进行通信。

其中，处理器701配置为经由执行所述可执行指令来执行前述方法实施例中对应的方法，其具体实施过程可以参见前述方法实施例，此处不再赘述。

本发明实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方法实施例中对应的方法，其具体实施过程可以参见前述方法实施例，其实现原理和技术效果类似，此处不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种语音提取方法，其特征在于，包括：

获取目标声源处的图像；

确定所述图像中相邻人脸之间的像素距离；

若所述像素距离小于预设阈值，则根据所述目标声源在所述图像中的像素位置，确定所述目标声源的波达方向DOA；

根据所述波达方向DOA，以及预设的N个波束的输出信号，提取所述目标声源的语音输出信号；所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2；

所述根据所述目标声源在所述图像中的像素位置，确定所述目标声源的波达方向DOA，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述图像中相邻人脸之间的像素距离，包括：

确定所述图像中相邻人脸的中心点的像素位置；

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标声源在所述图像中的像素位置，确定所述目标声源的波达方向DOA之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述图像的相邻人脸中每个人脸的中心点的像素位置，确定所述目标声源在所述图像中的像素位置，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述根据所述DOA，以及预设的N个波束的输出信号，提取所述目标声源的语音输出信号，包括：

根据所述DOA，确定所述N个波束对应的权重；

根据所述N个波束的输出信号，获取所述目标声源的语音输出信号。

6.根据权利要求5所述的方法，其特征在于，所述根据所述N个波束的输出信号，获取所述目标声源的语音输出信号，包括：

7.根据权利要求5所述的方法，其特征在于，所述DOA包括所述目标声源的俯仰角和方位角，所述根据所述DOA，确定所述N个波束对应的权重，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据所述目标声源对应的目标波束的输出信号，以及所述N个波束的输出信号，确定所述目标波束存在所述目标声源的语音的概率之前，还包括：

9.一种语音提取装置，其特征在于，包括：

获取模块，用于获取目标声源处的图像；

确定模块，用于

确定所述图像中相邻人脸之间的像素距离；

处理模块，用于根据所述波达方向DOA，以及预设的N个波束的输出信号，提取目标声源的语音输出信号；所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束，N≥2；

所述确定模块，具体用于根据所述目标声源在所述图像中的像素位置，图像采集组件中镜头与图像传感器的距离，所述镜头的中心点在所述图像中的像素位置，所述图像传感器中相邻的感光元件之间的距离，确定所述目标声源的DOA。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法。

11.一种电子设备，其特征在于，包括：

处理器、麦克风阵列和图像采集组件；

其中，所述图像采集组件用于采集图像；

所述麦克风阵列用于接收语音信号；

所述处理器配置为执行权利要求1-8任一项所述的方法。