CN115884038A

CN115884038A - 音频采集方法、电子设备及存储介质

Info

Publication number: CN115884038A
Application number: CN202111156525.0A
Authority: CN
Inventors: 朱梦尧; 黎椿键; 石超宇; 罗雪琴; 陈景东; 张雯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-03-31

Abstract

本申请涉及数据处理技术领域，尤其涉及一种音频采集方法、电子设备及存储介质。本申请的音频采集方法利用了指向性相对于全向麦克风阵列更好的声矢量传感器(acoustic vector sensor，AVS)阵列作为拾音装置，采集空间中的语音信号，其中构成AVS阵列中的每个AVS都包括全向麦克风和指向性麦克风，然后根据目标方向调整每个AVS中全向麦克风以及指向性麦克风采集到的语音信号的权重，得到每个AVS在目标方向上增强后的语音信号，之后对每个AVS采集到的增强后的信号施加所设计的超指向性波束形成器做进一步的增强处理，得到整个AVS阵列在目标方向上增强后的语音信号。

Description

音频采集方法、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种音频采集方法、电子设备及存储介质。

背景技术

在近场语音交互场景中，例如，用户通过语音交互设备例如手机进行语音聊天时，手机都是利用单麦克风(即一个麦克风)获得符合语音识别需求的语音信号。但是，当语音交互的场景发展到智能家居、智能音箱等远场语音交互时，由于声源距离麦克风的距离较远，并且真实环境中存在大量的噪声干扰，故单麦克风采集的语音信号的质量下降。

发明内容

为了解决上述问题，本申请提供一种音频采集方法、电子设备及存储介质，下面对本申请的技术方案介绍。

第一方面，本申请提供一种音频采集方法，该方法应用于电子设备，该电子设备包括至少两个指向音频采集器，该方法包括：对于所述至少两个指向音频采集器采集的第一指向音频数据，增大与目标方向满足第一预设条件的指向音频采集器的所采集的第一指向音频数据中的有效音频数据所占的比值，确定第二指向音频数据。

结合第一方面以及上述可能的实现方式，所述电子设备还包括至少一个全向音频采集器，并且该方法还包括：对于所述至少一个全向音频采集器采集的第一全向音频数据，增大采集方向与所述目标方向满足第二预设条件的第一全向音频数据中有效音频数据所占的比值，确定第二全向音频数据，并且所述音频采集数据包括所述第二全向音频数据。

在一种可能的实现方式中，音频采集数据为第二指向音频数据与第二全向音频数据叠加得到的。

其中，第一指向音频数据指的是指向音频采集器采集到的音频数据，可以理解，音频数据包括了噪声、干扰以及有效音频数据等，例如，噪声信号、干扰信号等等。其中，有效音频数据指的是目标方向的目标声源的音频数据，例如，目标声源的语音信号等。第一全向音频数据、第二全向音频数据、第二指向音频数据与第一指向音频数据的定义类似。

其中，在一种可能的实现方式中，有效音频数据的比值指的是该指向音频采集器采集到的在特定方向上的音频数据的信干噪比(Signal to Interference plus NoiseRatio)，指的是采集到的音频数据中目标声源音频数据与干扰和噪声之和的比值。也即，增大与目标方向满足第一预设条件的指向音频采集器采集的第一指向音频数据的有效音频数据的比值的表现为增大了与目标方向满足第一预设条件的指向音频采集器采集的第一指向音频数据的信干噪比。

其中，需要说明的是，上述将第一指向音频数据与第一全向音频数据进行叠加，并不是简单的将第一指向音频数据与第一全向音频数据做加法处理，此处叠加应当理解为物理意义上，音频信号之间的加权和(具体参见下文实施例中的具体计算过程)。

其中，可以理解，目标方向为一种理想值，在实际应用中，对目标方向上的音频数据的音频强度进行增强，可以是对于目标方向满足一定条件的方向范围内的音频数据进行增强。其中，与目标方向满足第一预设条件的情况包括：指向音频采集器的采集方向与目标方向之间的方向差小于第一预设值。其中，关于第一预设值可以根据音频采集方法的具体应用场景来设置。具体地，对于收音范围本身就较小的电子设备而言，第一预设值可以设置的较小些，对于收音范围本身就较大的电子设备而言，第一预设值可以设置的较大写。例如，对于智能音箱和会议室常用麦克风而言，智能音箱的收音范围为家庭场所，相对于会议室常用麦克风所在的、动辄几十、几百人参与的会议室而言，其收音范围相对较小，所以第一预设值可以设置小一些，比如10°、10°等数值，以便提高智能音箱对音频数据的增强效果，进而提高用户体验。而对于会议室常用麦克风而言，其收音范围相对较大，所以第一预设值可以设置大一些，例如20°、30°等数值。应理解，前述数值以及设置方式仅为示例性的，本申请对此不作限制。

可以理解，理论上，无论对全向音频采集器还是指向音频采集器，目标方向是一致的，但是在实际应用中，由于全向音频采集器、指向音频采集器的摆放方向等因素，可能会造成目标方向相对于全向音频采集器和目标方向相对于指向音频采集的相对位置有些许差异，故在一种可能的实现方式中，第一预设条件可以与第二预设条件一致，相应地，第一预设值与第二预设值也一致，在一种可能的实现方式中，第一预设条件与第二预设条件可以不一致，相应得，第一预设值与第二预设值也可以不一致。但是可以理解，第一预设条件与第二预设条件以及第一预设值与第二预设值的设置原理是一致的。故，关于第二预设值的设置方式可以参考第一预设值的设置方式，此处不再赘述。

在上述方法中，分别通过增大指向音频采集器与目标方向一致(或满足第一预设条件)的第一指向音频数据的有效数据的比值，以及全向音频采集器与目标方向一致(或满足第一预设条件)的第一全向音频数据的有效数据的比值，然后将第一指向音频数据与第一全向音频数据进行叠加，即可得到在目标方向上得到增强的音频采集数据。其中，音频采集数据中也包括了噪声、干扰以及有效音频数据等，但是可以理解，此时的音频采集数据相对于未做上述处理的音频采集数据，其中的有效音频数据的比值得到了提高。

结合上述第一方面以及上述可能的实现方式，在一种可能的实现方式中，上述对增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值的方法包括：根据目标方向，确定每个指向性声压梯度传感器采集的第一指向音频数据的权重参数；增大与目标方向满足第一预设条件的指向性声压梯度传感器采集到的第一指向音频数据的权重参数，以增大与目标方向满足第一预设条件的指向性声压梯度传感器所采集的第一指向音频数据中的有效数据的比值。其中，根据目标方向，确定每个指向性声压梯度传感器采集的第一指向音频数据的权重参数的方式可以为：根据目标方向，为每个指向性声压梯度传感器采集的第一指向音频数据分配权重，可以理解，在一种可能的实现方式中，可以将每个指向性声压梯度传感器的权重都设置为相同值，也可以将每个指向性声压梯度传感器的权重参数设置为不同值，本申请对具体设置指向性声压梯度传感器的权重参数的方式不作限制。其中，为每个指向性声压梯度传感器的分配权重参数的具体方式将在下文具体实施例中详细介绍，此处不作赘述。

之后，在根据目标方向，增大与目标方向满足一定条件的指向性声压梯度传感器采集到的音频数据中权重参数，即可达到增大指向性梯度压力传感器采集到的音频数据中有效音频数据的比值的目的。

其中，在一种可能的实现方式中，上述增大与目标方向满足第一预设条件的指向性声压梯度传感器采集到的第一指向音频数据的权重参数可以理解为对指向性声压梯度传感器做的定向波束形成，其中，定向波束形成的方式将在下文具体实施例进行详细介绍。

结合上述第一方面以及上述可能的实现方式，在一种可能的实现方式中，上述对增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值的方法包括：根据目标方向，确定每个指向性声压梯度传感器采集的第一指向音频数据的权重参数；通过调整波束形成参数、指向性因子以及白噪声增益，以增大与目标方向满足第一预设条件的指向性声压梯度传感器采集到的音频数据的权重参数，从而增大与目标方向满足第一预设条件的指向性声压梯度传感器所采集的第一指向音频数据的有效音频数据的比值。其中，在一种可能的实现方式中，上述增大与目标方向满足第一预设条件的指向性声压梯度传感器采集到的第一指向音频数据的权重参数可以理解为对指向性声压梯度传感器做的超指向性波束形成，其中，超指向性波束形成的方式将在下文具体实施例进行详细介绍。其中，可以理解，波束形成参数指的是波束图或者波束的空间响应。关于波束形成参数、指向性因子以及白噪声增益的具体解释和作用可参考下文具体实施例部分的相关描述。

结合上述第一方面以及上述可能的实现方式，在一种可能的实现方式中，上述增大与目标方向满足第二预设条件的全向音频采集器所采集的第一全向音频数据中的有效音频数据所占的比值的方法包括：根据目标方向，确定全向压力传感器采集的第一全向音频数据的权重参数；增大与目标方向满足第二预设条件的全向压力梯度传感器采集到的第一全向音频数据的权重参数，以增大与目标方向满足第二预设条件的全向性压力梯度传感器所采集的第一全向音频数据中的有效数据的比值。可以理解，在一种可能的实现方式中，可以同时调整全向压力传感器与指向性声压梯度传感器的采集的音频数据的权重，具体方式将在下文具体实施例部分进行详细介绍。

结合上述第一方面以及上述可能的实现方式，在一种可能的实现方式中，上述增大与目标方向满足第二预设条件的全向音频采集器所采集的第一全向音频数据中的有效音频数据所占的比值的方法包括：根据目标方向，确定全向压力传感器采集的第一全向音频数据的权重参数；通过调整波束形成参数、指向性因子以及白噪声增益，以增大与目标方向满足第二预设条件的全向性压力梯度传感器采集到的音频数据的权重参数，从而增大与目标方向满足第二预设条件的全向性压力梯度传感器所采集的第一全向音频数据的有效音频数据的比值。

从上文可以看出，本申请利用了兼顾指向音频采集器与全向音频采集器的优点的音频采集器件，使得音频采集器件的指向性比全向音频采集器的指向性更强，而且由于增加了指向音频采集器，使得整个音频采集器件可以实现对各个方向(包括目标方向)上的音频数据中的有效音频数据的比值的提高，也即可以根据目标方向的具***置，增大与目标方向满足一定条件的指向音频采集器与全向音频采集器采集到的音频数据中有效音频数据的比值。

可以理解，在一种可能的实现方式中，上述提高音频数据中有效音频数据的比值的方式称为“语音增强”。

可以理解，在一种可能的实现方式中，上述多个音频采集器件可以以阵列的方式排布，例如，多个音频采集器件排布成线性阵列、面阵或者体阵。本申请对此不作限制。在一种可能的实现方式中，上述多个音频采集器件内包括至少一个全向音频采集器和至少两个指向音频采集器，例如，多个音频采集器件包括1个全向音频采集器和2个指向音频采集器，其中，全向音频采集器采集的音频数据为全向音频数据，指向音频采集器采集的音频数据为第一指向音频数据。在一种可能的实现方式中，音频数据的表现形式可以为语音信号等声信号。

可以理解，上述指向音频采集器和全向音频采集器指代的仅为能够采集到指向音频数据和全向音频数据的两种采集设备，至于该采集设备具体的形式，本申请对此不作限制。

更为具体地，结合上述第一方面，在第一方面的一种可能的实现方式中，电子设备可以包括多个声矢量传感器，然后声矢量传感器中的全向压力传感器作为全向音频采集器，声矢量传感器中的指向性声压梯度传感器作为指向音频采集器。其中，可以理解，全向压力传感器包括了全向麦克风，指向性声压梯度传感器包括了指向性麦克风。

结合上述第一方面以及可能的实现方式，在第一方面的一种可能的实现方式中，多个声矢量传感器按照预设规则排布，并且每个声矢量传感器中包括一个全向压力传感器以及至少3个指向性声压梯度传感器。其中，预设规则指的是多个声矢量传感器排布成线性阵列(具体可参考下文具体实施例的相关描述)或者多个声矢量传感器也可以排布成其他形式，例如面阵、体阵等，本申请对多个声矢量传感器的排布方式不作限制。在另一些可能的实现方式中，本申请的声矢量传感器阵列可以采用于热线式、压差式、A-format混合式等结构，本申请对声矢量传感器所采用的具体结构也不作限制。

结合上述第一方面以及可能的实现方式，在第一方面的一种可能的实现方式中，电子设备包括多个声矢量传感器，目标方向可以通过以下方法确定：利用至少两个声矢量传感器采集到的第一指向音频数据和/或全向音频数据的时间差，确定至少两个声矢量传感器采集到的第一指向音频数据和/或全向音频数据的相位差；基于至少两个音频采集器件采集到的第一指向音频数据和/或全向音频数据的相位差，确定目标方向。其中，电子设备可以利用至少两个声矢量传感器采集到的第一指向音频数据确定时间差指的是，电子设备根据两个声矢量传感器采集到的两个第一指向音频数据到达各个声矢量传感器的时间差，至少两个声矢量传感器采集到的第一指向音频数据的相位差指的是，两个声矢量传感器采集到的两个第一指向音频数据到达各个声矢量传感器的相位差。根据波达方向估计法，电子设备可以根据音频数据到达各个声矢量传感器的相位差得到一个导向矢量，该导向矢量包括了音频数据的角度信息，故电子设备可以根据音频数据的角度信息确定目标方向。

可以理解，在一种可能的实现方式中，目标方向可以为研发人员根据音频采集方法的具体应用场景设置的一定的方向范围，例如某些应用场景中，目标方向可能是固定的或者鲜有变动的，那么研发人员可以将目标方向设置在某一个方向范围内，使得电子设备仅需对该方向范围内的音频数据做增强处理即可。举例来说明，比如电子设备为蓝牙耳机，那么一般用户与蓝牙耳机进行语音交互时，用户的语音指令发出的位置相对于蓝牙耳机而言就是固定的，此时就可以将蓝牙耳机的目标方向设置为固定方向范围。应理解，本申请对目标方向的设置方式不作限制。

可以理解，本申请的音频采集方法的原理和理念同样可以适用于与音频采集类似的其他场景，例如，天线毫米波信号的增强等等，本申请对该方法的其他应用场景也不作限制。

可以理解，上述无论是指向性音频采集器还是全向音频采集器，均表示该器件可以采集到特定的音频数据，例如指向音频数据和全向音频数据，在其他可能的实现方式中，指向音频采集器和全向音频采集器也可以由其他可以实现对应功能的器件代替，本申请对此不作限制。

第二方面，本申请提供了一种电子设备，所述电子设备包括处理器、存储器以及至少两个指向音频采集器；并且所述存储器用于存储由电子设备的一个或多个处理器执行的指令；以及处理器，是所述电子设备的处理器之一，用于运行所述指令以使所述电子设备实现如下操作：对于所述至少两个指向音频采集器采集的第一指向音频数据，增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值，确定第二指向音频数据；确定所述电子设备在所述目标方向的音频采集数据，其中，所述音频采集数据包括所述第二指向音频数据。

结合第二方面，在第二方面的一种可能实现方式中，电子设备还包括至少一个全向音频采集器，并且所述方法还包括：对于所述至少一个全向音频采集器采集的第一全向音频数据，增大采集方向与所述目标方向满足第二预设条件的第一全向音频数据中有效音频数据所占的比值，确定第二全向音频数据；并且，所述音频采集数据包括所述第二全向音频数据。

结合第二方面，在第二方面的一种可能实现方式中，所述音频采集数据为所述第二指向音频数据和所述第二全向音频数据叠加后得到的。

结合第二方面，在第二方面的一种可能实现方式中，电子设备包括多个声矢量传感器，声矢量传感器中的全向压力传感器作为全向音频采集器，声矢量传感器中的指向性声压梯度传感器作为指向音频采集器。

结合第二方面以及上述可能的实现方式，在第二方面的一种可能实现方式中，多个声矢量传感器按照预设规则排布，并且每个声矢量传感器中包括一个全向压力传感器以及至少3个指向性声压梯度传感器。

结合第二方面以及上述可能的实现方式，在第二方面的一种可能实现方式中，增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值的方法包括：根据目标方向，确定每个指向性声压梯度传感器采集的第一指向音频数据的权重参数；增大与目标方向满足第一预设条件的指向性声压梯度传感器采集到的第一指向音频数据的权重参数，以增大与目标方向满足第一预设条件的指向性声压梯度传感器所采集的第一指向音频数据中的有效数据的比值。

结合第二方面以及上述可能的实现方式，在第二方面的一种可能实现方式中，增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值的方法包括：根据目标方向，确定每个指向性声压梯度传感器采集的第一指向音频数据的权重参数；通过调整波束形成参数、指向性因子以及白噪声增益，以增大与目标方向满足第一预设条件的指向性声压梯度传感器采集到的音频数据的权重参数，从而增大与目标方向满足第一预设条件的指向性声压梯度传感器所采集的第一指向音频数据的有效音频数据的比值。

结合第二方面以及上述可能的实现方式，在第二方面的一种可能实现方式中，增大与目标方向满足第二预设条件的全向音频采集器所采集的第一全向音频数据中的有效音频数据所占的比值的方法包括：根据目标方向，确定全向性压力梯度传感器采集的第一全向音频数据的权重参数；增大与目标方向满足第二预设条件的全向压力梯度传感器采集到的第一全向音频数据的权重参数，以增大与目标方向满足第二预设条件的全向性压力梯度传感器所采集的第一全向音频数据中的有效数据的比值。

结合第二方面以及上述可能的实现方式，在第二方面的一种可能实现方式中，增大与目标方向满足第二预设条件的全向音频采集器所采集的第一全向音频数据中的有效音频数据所占的比值的方法包括：根据目标方向，确定全向性压力梯度传感器采集的第一全向音频数据的权重参数；通过调整波束形成参数、指向性因子以及白噪声增益，以增大与目标方向满足第二预设条件的全向性压力梯度传感器采集到的音频数据的权重参数，从而增大与目标方向满足第二预设条件的全向性压力梯度传感器所采集的第一全向音频数据的有效音频数据的比值。

结合第二方面以及上述可能的实现方式，在第二方面的一种可能实现方式中，电子设备包括多个声矢量传感器，目标方向可以通过以下方法确定：利用至少两个声矢量传感器采集到的第一指向音频数据和/或全向音频数据的时间差，确定至少两个声矢量传感器采集到的第一指向音频数据和/或全向音频数据的相位差；基于至少两个音频采集器件采集到的第一指向音频数据和/或全向音频数据的相位差，确定目标方向。

结合第二方面以及上述可能的实现方式，在第二方面的一种可能实现方式中，与目标方向满足第一预设条件的情况包括：指向音频采集器的采集方向与目标方向之间的方向差小于第一预设值。

结合第二方面以及上述可能的实现方式，在第二方面的一种可能实现方式中，采集方向与目标方向满足第二预设条件的情况包括：采集方向与目标方向的方向差小于第二预设值。

第三方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述第一方面中任一种可能的实现方式中的音频采集方法。

第四方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一种可能的实现方式中的音频采集方法。

可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是一些实施例提供的一例语音交互场景示意图；

图2是一些实施例提供的一例利用麦克风阵列定位声源方向的示意图；

图3是一些实施例提供的一例麦克风阵列的拓扑图；

图4是一些实施例提供的一例声矢量传感器结构示意图；

图5是一些实施例提供的一例全向麦克风的波束图和指向性麦克风的波束图对比示意图；

图6是一些实施例提供的一例音频采集装置的结构示意图；

图7是一些实施例提供的一例声矢量传感器阵列排布示意图；

图8是一些实施例提供的一例音频采集方法的流程示意图；

图9是一些实施例提供的一例期望方向与声源方向的对比示意图；

图10是一些实施例提供的又一例音频采集方法的流程示意图；

图11是一些实施例提供的利用不同麦克风阵列形成波束的对比示意图；

图12是一些实施例提供的利用不同麦克风阵列形成波束的性能对比示意图；

图13是一些实施例提供的利用不同麦克风阵列形成波束的对比示意图；

图14是一些实施例提供的利用不同麦克风阵列形成波束的性能对比示意图；

图15是一些实施例提供的利用不同麦克风阵列形成波束的对比示意图；

图16是一些实施例提供的利用不同麦克风阵列形成波束的性能对比示意图；

图17是一些实施例提供的又一例音频采集装置示意图；

图18是一些实施例提供的一例利用音频采集装置增强后的语音进行声场重建的场景示意图；

图19是一些实施例提供的一例语音交互设备的硬件结构示意图。

具体实施方式

随着人工智能技术的发展，越来越多的终端设备具有语音交互功能，在本实施例中，将具有语音交互功能的终端设备称为语音交互设备。语音交互设备中设置有拾音装置(例如，单麦克风或麦克风阵列)。语音交互设备可以通过拾音装置采集语音信号，并对语音信号进行语音识别等处理。本实施例的语音交互设备包括但不限于，智能手机、笔记本电脑、平板电脑、智能音箱、智能车载设备、智能机器人、智能家居设备、智能穿戴设备等。

本申请公开了一种提高电子设备接收到的语音信号质量的技术方案。下面以图1所示的用户与智能音箱的交互场景为例，介绍本申请的音频采集方法。

如图1所示，用户10在向智能音箱20发出语音指令时，由于周围环境不可避免的存在噪声和/或干扰，比如图中电视机30的声音干扰，因此智能音箱20采集到的语音信号是包含了用户10的语音指令以及电视机30的噪声以及其他干扰的语音信号。

为了使得智能音箱20能够采集到的质量较好的用户10的语音信号，在本申请的一些实施例中，智能音箱20中以全向麦克风阵列作为拾音装置来采集用户10的语音信号，其中，全向麦克风阵列是由多个全向麦克风按照一定规则排布形成的，全向麦克风是对各个方向语音信号的敏感度一致的麦克风，它可以采集到任意方向的语音信号，全向麦克风是相对于指向性麦克风(或指向性声压梯度传感器)而言的，指向性麦克风是仅对特定方向上的语音信号比较敏感的麦克风，也即指向性麦克风仅能采集特定方向的语音信号，智能音箱20利用全向麦克风阵列每个全向麦克风采集到的用户10的语音信号之间的相位差异，确定用户10相对于麦克风阵列的方向，并产生指向该方向的波束，以实现对来自该方向的用户10的语音信号的增强。

其中，波束用于表示麦克风阵列朝向特定方向的空间响应，也即麦克风阵列对特定方向上语音信号的敏感度，波束朝向哪个方向，则表明麦克风阵列对该方向上的语音信号的比较敏感。例如在图1中，智能音箱20如需要对来自用户10的语音信号进行增强，那么智能音箱20就需产生朝向用户10的波束，以实现对来自用户10所在方向上的语音信号的增强。

具体地，在一些实施例中，智能音箱20可以利用延迟求和波束形成算法(Delayand Sum Beamforming，DSB)形成波束，具体如下：

图2所示为设置于图1所示的智能音箱20中的一种全向麦克风阵列，该全向麦克风阵列可以是由M个全向麦克风21a(下称阵元)构成的均匀线阵，其中，每个阵元以间隔d排布在Z轴上。假设远场声源(例如图1中的用户10)的语音信号的入射方向为θ，即用户10的语音信号到达各个全向麦克风的角度均为θ，则用户10的语音信号到达后一个阵元比到达前一个阵元的距离要多出dcosθ，对应地，用户10的语音信号到达后一个阵元比到达前一个阵元的时间则延迟

(c指的是声音在空气中传播的速度)。

需要说明的是，远场声源指的是声源距离麦克风阵列中某一个麦克风的距离大于声源发出的声信号的波长，近场声源则是相对于远程声源而言，指的是声源距离麦克风阵列中某一个麦克风的距离小于声源发出的声信号的波长。一般而言，近场声源将声信号看完是球面波，也即在近场声源场景中，对某一个方向上的语音信号进行增强，不仅需要考虑语音信号到达麦克风阵列各阵元的距离，还要考虑语音信号到达麦克风阵列各阵元的幅度，而在远场声源场景中，则将声信号看为是平面波，即在具体计算时，可以忽略语音信号到达各阵元时的幅度差，仅需考虑语音信号到达各阵元之间的时延关系或则相位差即可。下文为了便于描述，将以远场声源场景为例，介绍本申请的各个实施例，但是可以理解，本申请各个实施例对应的方法及原理同样也适用于近场声源场景。

现以用户10的语音信号到达图2中的第一个阵元21a为参考，则每一个阵元相对于第一个阵元的时间差为：

假设用户10的语音信号的频率为f₀，根据相位计算公式：ω＝2πf₀t，其中，π为圆周率，t为表示时间，则每一个阵元相对于第一个阵元的相位差为：

再假设用户10的语音信号为s(n)，那么整个麦克风阵列能够采集到的信号可以通过下式(3)来计算：

将上式(3)中的s(n)提出来，即可得到下式(4)：

将上式(4)做如下定义：

则上式(4)可写为：

X(n)＝α(θ)s(n) (6)

其中，X(n)表示麦克风阵列采集到的语音信号(即采集信号)，α(θ)为麦克风阵列的导向矢量，用于表示语音信号到达麦克风阵列各个阵元的相位差，它包含了语音信号的角度信息，s(n)为用户10的语音信号。

假设用户10的语音信号为正弦波。如上文所述，由于用户10的语音信号到达麦克风阵列的距离不同，进而导致麦克风阵列中各个阵元采集到的正弦波存在相位差Δθ₀，而整个麦克风阵列采集到的信号为各个阵元采集到正弦波的叠加。那么为了使得智能音箱20采集到的用户10的语音信号在方向θ上得到增强，根据正弦波叠加原理可知，为相位相消的各个正弦波赋予较小的权重，并为相位相长的各个正弦波赋予较大的权重，然后对各个正弦波进行叠加，即可得到最大叠加效果(表现为最终采集到正弦波的幅值最大)。

上述方法在一定程度上可以使麦克风阵列实现对θ方向上用户10的语音信号的增强，但是这种由全向麦克风构成的麦克风阵列的指向性不高，比如全向麦克风排布成如图3(A)至图3(B)所示的线阵，或者图3(C)至图3(D)所示的面阵的时候，智能音箱20没有办法控制麦克风阵列所在平面以外的非阵列平面上的波束朝向，而且在θ不等于0°(即语音信号的入射角为非端射方向)的时候，麦克风线阵抑制噪声或干扰的能力会随着θ的变化显著下降；并且在用户10的语音信号为低频信号时，根据上式(2)可知各阵元采集到的用户10的语音信号之间的相位的差异较小，故全向麦克风阵列的指向性较弱，无法更好地实现对方向θ上的用户10的语音信号的增强。

在一些实施例中，智能音箱20也可以以排布成图3(F)或图3(G)所示的体阵麦克风阵列作为拾音装置，这种排布方式虽然可以解决上述问题，增强整个全向麦克风阵列的指向性，但是其所需要的麦克风数量也会增加，对于空间有限的语音交互设备，例如智能音箱、智能手机、耳机等而言，实用性较低。应理解，上图3(A)至3(G)中麦克风阵列的排布方式仅为示例性的，麦克风阵列还可以具有其他线阵、面阵或是体阵的排布方式，本申请对此不作限制。

为了解决上述技术问题，本申请还提供了一种音频采集装置1，该音频采集装置1采用了指向性更好的声矢量传感器(acoustic vector sensor，AVS)阵列(下称AVS阵列)作为拾音装置，然后利用AVS阵列采集声信号，并根据目标方向对构成AVS阵列的每个AVS进行定向波束形成，以使阵列中的每个AVS都能对目标方向上的语音信号进行初步增强，之后再对每个AVS采集到的增强后的语音信号，根据目标方向确定超指向性波束形成器的语音增强参数，然后利用超指向性波束形成器对整个AVS阵列采集到的增强后的目标方向上的语音信号进行滤波处理，得到AVS阵列在目标方向上最终增强后的语音信号。

其中，AVS阵列是由多个AVS构成的麦克风阵列。示例性地，图5示出了一些实施例中的AVS阵列的结构图，其中图4(B)为图4(A)的结构简图，如图4(B)所示AVS由1个全向麦克风以及3个指向性麦克风构成，并且结合图4(A)以及图4(B)可以看出，3个指向性麦克风相互正交并且共点设置，每个指向性麦克风都具有拾取语音信号的拾音孔。在一些实施例中，上述指向性麦克风为8字型指向性麦克风，并且需要说明的是，8字型指向性麦克风并非形状为8字型，而是尤其形成的波束为8字型，故称为8字型指向性麦克风。其中，关于8字型指向性麦克风的波束图将在下图5中与全向麦克风的波束图对比进行介绍，此处不作描述。

如图4(C)所示为图4(A)的俯视图，如图4(C)所示，X通道表示X轴指向性麦克风的拾音通道，Y通道表示Y轴指向性麦克风的拾音通道，z通道表示Z轴指向性麦克风的拾音通道。可以理解，图4(A)以及图4(B)所示仅为一种示例性的AVS的结构，在其他实施例中，AVS也可以具有不同于图4(A)以及图4(B)所示的结构，本申请对此不作限制。

例如，在一些实施例中，AVS也可以由1个全向麦克风以及2个8字型指向性麦克风构成，本申请对此不作限制。又例如，AVS也可以由1个全向麦克风或者其他指向性的麦克风构成，本申请对此不作限制。再例如，AVS阵列可以排布成如上图3(A)至图3(B)所示的线性阵列，也可以排布成如图3(C)至图3(E)所示的面阵，还可以排布成图3(F)至图3(G)所示的体阵，本申请对此也不作限制。

可以理解，本申请AVS阵列中多个AVS的具体数量还可以为2个、4个、5个或6个，本申请对AVS的数量不作限制。并且，每个AVS中的全向麦克风数量以及指向性麦克风数量也可以为其他数值，例如1个全向麦克风和2个指向性麦克风，或1个全向麦克风和3个指向性麦克风，本申请对此也不作限制。

可以理解，AVS阵列中各个AVS之间的间隔可以是3厘米、3.5厘米、4厘米，当然也可以是其他数值，本申请对此也不作限制。

在一些实施例中，AVS阵列中各个AVS之间的间隔距离与音频采集装置1用途相关，例如如果音频采集装置1是应用在智能手机上的，由于智能手机本身的空间较小，故AVS阵列中各个AVS之间的间隔也不宜过大，如果音频采集装置1是应用在智能音箱上的，由于智能音箱的体积和空间要大于智能手机的体积和空间，在这种情况下各个AVS阵列之间的间隔可以设计地相对较大。

上文概述了本申请音频采集装置所能实现的效果以及实现效果的大致过程，下面将对本申请的语音增强以及基于本申请音频采集装置进行的音频采集方法进行详细介绍。在此之前，为了便于理解AVS阵列相对于全向麦克风阵列具有更强指向性的原理，下面简单介绍全向麦克风和8字型指向性麦克风在采集语音信号时的指向性差异，图6示出了全向麦克风形成的波束图以及指向性麦克风形成的波束图。其中，图5(A)为全向麦克风形成的波束图，图5(B)为指向性麦克风形成的波束图。

从图5(A)中可以看出，全向麦克风的波束图接近圆，该圆的边界处于0分贝(dB)处，也即最大凹陷度为0dB，即表明全向麦克风对各个方向的语音信号都比较敏感，也即不会只采集特定方向上的语音信号，故全向麦克风的指向性较差。其中，最大凹陷深度用于表示指向性麦克风在特定方向上对语音信号的衰减，理想情况下，以图5(B)为例，最大凹陷程度应该为-50dB，它表明指向性麦克风在该特定方向上不采集语音信号，但是在实际应用中，由于指向性麦克风的摆放等等因素，最大凹陷程度很难达到-50dB。

而从图5(B)所示的指向性麦克风形成的波束图可以清楚的看出，指向性麦克风的波束图类似于“8”字，也即仅对特定的方向的语音信号比较敏感，例如图中的30°和210°方向上，指向性波束可以达到0dB，即表明对30°和210°方向上的声音不做衰减。而对于其他方向的信号则都存在抑制，例如图中的P、Q两处衰减较大。

故AVS阵列兼顾了全向麦克风以及指向性麦克风的优点，其指向性要优于均由全向麦克风构成的麦克风阵列。并且由于AVS阵列采集到的信号为全向麦克风采集到的各个方向语音信号和其他指向性麦克风采集到特定方向的语音信号叠加，所以AVS阵列采集到语音信号本身就具有了一定的指向性，所以AVS阵列仅需要排布成线性阵列即可以通过定向波束形成模块12以及超指向性波束形成模块13生成指向性更强的波束，以实现对特定方向的语音增强。

下面在上文的基础上，结合如图6至图16介绍本申请的音频采集装置以及音频采集方法。

如图6所示，音频采集装置包括AVS阵列11、定向波束形成器12、超指向性波束形成器13。

其中，AVS阵列11用于采集空间中的语音信号，定向波束形成器12则用于对AVS阵列11中的每个声矢量传感器采集到的语音信号进行定向波束形成，以使每个声矢量传感器都能够对目标方向上的语音信号进行增强，以得到AVS阵列在目标方向上初步增强的语音信号，由于目标方向上不可避免的存在白噪声等噪声或干扰，所以需要超指向波束形成器13对定向波束形成器12输出的语音信号进行超指向性滤波处理，以得到在目标方向上增强后的语音信号。其中，定性波束形成器12以及超指向性波束形成器13的具体处理过程将结合下图8进行介绍。可以理解，在一些实施例中，上述定向波束形成器12与超指向性波束形成器13可以不分开设置，即定向波束形成器12与超指向性波束形成器13的功能可以集成在一个处理器中，本申请对此不作限制。

为了进一步理解本申请音频采集方法的实现方法，下面结合图7所示的AVS阵列介绍本申请的音频采集装置1实现音频采集方法800的过程。其中，图7中AVS阵列由6个AVS排布在X轴方向构成，图中的白色圆圈表示全向麦克风，浅灰色表示X指向性麦克风，深灰色表示Y指向性麦克风，深灰色表示Z指向性麦克风，每个AVS由1个全向麦克风以及3个8字指向性麦克风构成，并且图中构成AVS的1个全向麦克风和3个相互正交的指向性麦克风共点设置。

应理解，在实际应用中，对AVS阵列中AVS的数量、每个AVS中各个麦克风的信噪比、指向性麦克风的朝向、语音信号到达每个AVS的相位、幅度均需要进行周密计算和设计，以此更好地实现对目标方向的语音信号的增强，本申请AVS阵列中AVS数量以及各个AVS满足的参数要求不作限制。

其中，信噪比(signal to noise ratio，SNR)指的是电子设备或者电子***中信号与噪声的比例。其中，信号指的是来自电子设备外部需要通过该电子设备进行处理的电子信号，噪声是指经过上述电子设备后产生的原信号中并不存在的无规则的额外信号(或信息)，并且这种额外信号并不随原信号的变化而变化。，幅度一致性用于表示语音信号到达麦克风阵列中各个AVS的上的幅度要尽可能一致，幅度也可以理解为语音信号的能量，它可以反映各个AVS采集到的语音信号的能量是否一致。相位一致性用于表示语音信号到达每个AVS的相位差在一定范围内，以此在信号叠加时，能够实现对目标方向语音信号最大化。AVS中的指向性麦克风的朝向一致性是为了使得每个AVS中的指向性麦克风的朝向尽可能一致，以此使得每个AVS中的指向性麦克风采集到的语音信号的仅在相位有差异。在一些实施例中，上述AVS中各个麦克风信噪比大于60dB，指向性麦克风的最大凹陷深度大于-20dB，并且各个AVS之间幅度一致性满足±1dB，相位一致性满足±5°，各个AVS中的指向性麦克风的朝向一致性满足±5°，本申请对此不作限制。

下面结合图1所示的场景图以及图6所示的音频采集装置1的结构图介绍本申请的音频采集方法800，如图8所示，方法800包括：

801，通过AVS阵列采集声信号。

在一些实施例中，音频采集装置1通过AVS阵列采集声信号，其中，可以理解声信号包括了用户10的语音信号、电视机30的噪声及空间中的其他干扰信号。

可以理解，由于AVS阵列中每个AVS均由1个全向麦克风以及3个指向性麦克风构成，故AVS阵列中每个AVS采集到的语音信号实则为全向麦克风采集到的全向分量、以及三个指向性麦克风采集到的指向分量，也即X轴指向分量、Y轴指向分量以及Z轴指向分量叠加而成。其中，全向分量指的是由全向麦克风采集到的各个方向上的语音信号，X轴指向分量指的是由X轴指向性麦克风采集到的沿着X轴方向上的语音信号，Y轴指向分量指的是由Y轴指向性麦克风采集到的沿着Y轴方向上的语音信号，X轴指向分量指的是由X轴指向性麦克风采集到的沿着X轴方向上的语音信号。

802，根据目标方向，调整每个AVS采集到的语音信号的各个分量的权重，以使每个AVS均得到指向目标方向的语音信号。

可以理解，为了使AVS阵列能够得到在目标方向上增强后的语音信号，音频采集装置1可以使AVS阵列中每个AVS都分别得到在目标方向上增强后的语音信号，然后将每个AVS得到的语音信号进行叠加，以得到AVS阵列在目标方向上增强后的语音信号。

其中，目标方向

由俯仰角θ_s(取值范围0°～180°)和方位角/>

(取值范围为-180°～180°)构成，图9示出了目标方向示意图，从图9中可以看出，θ_s为语音信号与z轴的夹角，/>

为语音信号与x轴的夹角，目标方向/>

可以指向空间中的任意方向。

目标方向为期望进行语音信号增强的方向。在一些实施例中，目标方向可以由研发人员根据语音交互设备的具体应用场景预先设置，例如，以图1中用户10与智能音箱20交互的场景为例，研发人员可以将智能音箱20的前方作为目标方向，也即当用户10站在智能音箱20的前方发出语音指令时，智能音箱20将对该语音指令对应的语音信号对语音增强处理。在另一些实施例中，由于声源的方位可能会发生变化，故目标方向也可以是音频采集装置1通过波达方向(Direction Of Arrival，DOA)实时判定的。例如，以图1中用户10与智能音箱20交互的场景为例，当用户10在各个位置移动时，智能音箱20可以利用DOA判断用户10此时所处的大致方向，然后对该方向上的用户10的语音信号进行增强。具体地，音频采集装置1根据各个AVS采集到的语音信号之间的时间差，确定各个AVS采集到的语音信号之间的相位差，然后利用上式(3)至(5)即可计算出AVS阵列的导向矢量，其中，导向矢量中包括了语音信号的角度信息，音频采集装置1可以根据导向矢量中语音信号的角度信息，确定目标方向。

可以理解，在实际应用中，对目标方向上的语音信号进行增强也可以对与目标方向满足一定条件的方向上的语音信号进行增强。其中，与目标方向满足一定条件的方向的情况包括，与目标方向的方向差在一定范围内的方向。例如，假设目标方向为(30°，60°)，也即目标方向为AVS阵列的俯仰角30°、方位角60°的方向，那么在对目标方向上的语音信号进行增强时，实则指地是与俯仰角30°相差±10°、与方位角相差±5°的方向范围内的语音信号进行增强。

又由于每个AVS是由全向麦克风以及指向性麦克风构成的，为了使每个AVS能够朝目标方向采集语音信号，需要对每个AVS中各个麦克风采集到的各个方向的语音信号的权重进行调整，即调整AVS中全向麦克风采集到的语音信号(下称全向分量)的权重、X轴指向性麦克风采集到语音信号(下称X轴指向性分量)、Y轴指向性麦克风采集到语音信号(下称Y轴指向性分量)以及Z轴指向性麦克风采集到语音信号(下称Z轴指向性分量)。

例如，如果目标方向为(0°，0°)，即在图9所示的Z轴上，则可以将全向麦克风采集的全向分量的权重设置为0.2，则X轴指向性麦克风采集X轴指向性分量设置为0、Y轴指向性麦克风采集到Y轴指向性分量也设置为0，以及Z轴指向性麦克风采集的Z轴指向性分量也为0.8，也即增大3个正交指向性麦克风采集到的指向性分量的权重；如果目标方向为(45°，45°)，则可以将全向麦克风采集的全向分量的权重设置为0.5，则X轴指向性麦克风采集X轴指向性分量设置为0.25、Y轴指向性麦克风采集到Y轴指向性分量也设置为0.25，以及Z轴指向性麦克风采集的Z轴指向性分量也为

也即增大全向麦克风采集到的全向分量的权重。需要说明的是，三个指向性麦克风采集到的指向性分量的权重可以一致，也可以不一致，当三个指向性麦克风采集到的指向性分量的权重一致时，则任意一个指向性麦克风采集到的指向性分量的权重与全向麦克风采集到的全向分量的权重之和为1，当三个指向性麦克风采集到的指向性分量的权重不一致时，则三个指向性麦克风采集到的指向性分量的权重之和与全向麦克风采集到的全向分量的权重之和为1，本申请对此不作限制。

再根据目标方向调整了每个AVS的采集到的语音信号的各个分量的权重后，对每个AVS的定向波束形成，得到该AVS在目标方向的采集到的增强的语音信号，以得到AVS阵列在目标方向上增强的语音信号。

其中，本步骤涉及到的具体计算过程将在下文进行详细说明。

803，根据AVS阵列输出的语音信号，确定超指向性波束形成器的各个参数。

可以理解，上述AVS阵列得到的在目标方向上增强的语音信号中不仅包含了该目标方向上的用户10的语音信号，还包含了该目标方向上的噪声、干扰等语音信号。所以，需要利用超指向性波束形成器对上述AVS阵列输出的在目标方向上增强的语音信号进行滤波处理，以得到在目标方向上增强的语音信号。

又超指向性波束形成器，一般包括波束空间响应、白噪声增益以及指向性因子等性能评价参数，其中，波束空间响应表示AVS阵列对来自俯仰角θ，方位角为

方向上的语音信号的增强程度，波束空间响应越高，表明AVS阵列对俯仰角θ，方位角为/>

方向上的语音信号的增强程度越强；指向性因子则表示波束的空间增益，也即波束的能量集中程度，指向性因子越高，表明AVS阵列越能集中地从某一方向提取信号；白噪声增益则体现的是AVS阵列对噪声的鲁棒程度，白噪声增益越高，白噪声对超指向性波束形成器13的影响就越小。由于这些参数均是用于评价波束形成器的性能的，所以需要计算上述空间响应、白噪声增益、指向性因子，然后利用这些参数构建超指向性波束形成器13，以使用超指向性波束形成器13对AVS阵列的输出的语音信号进行处理，得到增强后的语音信号。

804，利用上述超指向性波束形成器对AVS阵列输出的语音信号进行滤波处理，得到增强后的语音信号。

在经过上述803确定超指向性波束形成器13的参数后，即可利用超指向性波束形成器13对AVS阵列输出的语音信号进行滤波处理，以得到AVS阵列在目标方向上增强后的语音信号。

需要说明的是，在一些实施例中，也可直接利用超指向性波束形成器13对AVS阵列采集到的语音信号进行滤波处理，也即上述方法800中的802可以省略，即音频采集装置1不再先根据目标方向对每个AVS采集到的语音信号进行预先处理，以使每个AVS得到在目标方向上增强的语音信号，进而得到AVS阵列在目标方向上的增强后的语音信号，而是直接根据目标方向，利用超指向性波束形成器13对AVS阵列采集到的语音信号在目标方向上进行滤波处理，以得到增强后的语音信号。

可以理解，上述方法800是根据目标方向对AVS阵列中每个AVS采集到的语音信号分量进行一致的权重调整，然后对每个AVS采集到的语音信号进行定向波束形成之后，再对经过定向波束形成后的语音信号进行超指向性波束形成，这在一定程度上限制了AVS阵列性能的发挥，影响AVS阵列最终形成的波束的指向性，进一步影响AVS阵列的语音增强效果。故为了能够充分发挥AVS阵列的性能，在本申请的另一些实施例中，也可以直接基于全局优化设计思想，利用超指向性波束形成器13直接对AVS阵列采集到的语音信号做滤波处理后得到的增强后的用户10的语音信号。

下面展开介绍上述利用超指向性波束形成器13直接对AVS阵列采集的语音信号进行滤波处理的方法如图10所示，其中，与上述方法800相同或类似的实施细节可参考上述方法800的具体实现过程，此处不再赘述。

方法1000包括：

1001，通过AVS阵列采集语音信号。

1002，根据AVS阵列输出的语音信号，确定超指向性波束形成器的各个参数。

1003，利用上述超指向性波束形成器对AVS阵列输出的语音信号进行滤波处理，得到增强后的语音信号。

通过上文的介绍，可以看出本申请的音频采集装置1由于采用了AVS阵列，所以在采集语音信号时具有更好的指向性，故利用定向波束形成器以及超指向性波束形成器13对其进行处理后，能够实现对特定方向的语音信号进行增强的效果。

可以理解，在本申请的其他实施例中，也可以采用前文所述的全向麦克风阵列实现上述音频采集方法800，但是应理解，正如前文所述，由于线阵、面阵全向麦克风阵列的指向性较差，所以利用方法800所能实现的语音增强效果必然没有本申请AVS阵列利用同样的方法所实现的语音增强效果好，而如果使用体阵全向麦克风阵列，如需实现与AVS线性阵列相同的效果，其所使用的麦克风的数量要多于AVS线性阵列所需的麦克风的数量，故其整体效果也没有本申请的AVS阵列的效果好。

为了直观地了解本申请的音频采集装置的优异之处，下面以具有6个阵元，每个阵元之间间隔为3.5cm的AVS线性阵列和全向麦克风阵线性列为例，对比地介绍AVS阵列和全向麦克风阵列形成地波束图。可以理解，在本领域中，波束图的波束宽度可以表示对应的麦克风阵列的指向性是否更强，波束宽度越小，对应的麦克风阵列的指向性越强，波束宽度越大，对应的麦克风阵列的指向性越弱。具体如下：

图11是一些实施例提供的一例基于均匀线性全向麦克风阵列和基于本申请AVS阵列利用超指向性波束形成器的波束图。更具体地，图11(A)是均匀线全向麦克风阵列的波束图，图11(B)是本申请AVS阵列经过方法800形成的波束图，图11(C)是本申请AVS阵列经过方法900形成的波束图，其中，空间中的语音信号频率为f＝1kHz，AVS阵列和全向麦克风阵列的目标方向是

AVS阵列中每个AVS的各个声矢量传感器的权重分配为a₀＝a₁＝1/2。

由于目标方向

相当于此时期望的声源位置在Z轴的正半轴，从图11(A)中可以看出，全向麦克风线性阵列的波束图的波束的指向性不强，而图11(B)中的AVS线性阵列形成的波束图的波束变窄，指向性更强，图11(C)中AVS线性阵列形成的波束图的波束宽度也变窄，其指向性也变强，也即全向麦克风阵列的指向性没有本申请的AVS阵列的指向性强；并且同一个AVS麦克风阵列，直接使用方法1000形成的波束的指向性要比使用方法800的波束的指向性要更好。

因为本申请的AVS阵列要比全向麦克风阵列的指向性更强，所以，能够理解，本申请AVS阵列对特定方向的语音信号更为敏感，相应地，对其他方向的语音信号则有抑制作用，故本申请的AVS阵列的能够更好地抑制空间噪声。

为了更直观地了解本申请AVS阵列相比全向麦克风阵列具有指向性更强优点，并且对空间背景噪声的抑制效果也较好，下图12示出了对应于上图11各个波束图的指向性因子曲线图。图12为AVS阵列和全向麦克风阵列的指向性因子(单位为：分贝(dB))曲线图。

如图12所示，点划线代表线性全向传感器线性阵列的指向性因子，虚线代表AVS线性阵列使用方法800形成的波束图的指向性因子，实线则代表AVS线性阵列使用方法1000形成的波束图的指向性因子。

从图12中可以看出，线性全向麦克风阵列的形成的波束指向性因子较低，而且随着频率的增加，其指向性因子明显变小。例如在频率为2Khz时，线性全向麦克风阵列的指向性因子为14dB，但是在频率为6Khz时，线性全向麦克风阵列的指向性因子就变为7dB。

而AVS阵列的形成的波束的指向性子一直较高，而且随着频率的增大，其指向性因子也比较稳定。例如，在频率为2KHz时，AVS阵列使用方法800形成的波束的指向性因子为16dB，AVS阵列使用方法1000形成的波束的指向性因子为19dB，在频率为6Khz时，AVS阵列使用方法800形成的波束的指向性因子为13dB，AVS阵列使用方法1000形成的波束的指向性因子为20dB。

故，本申请的AVS阵列形成的波束的指向性要比全向麦克风阵列形成的波束的指向性强，而且本申请的AVS阵列形成的波束的具有频率一致性，即其指向性不会随着频率的变化而发生太明显的变化，因此本申请的AVS阵列对场景中语音信号的频率要求不高，能够适用的场景要比全向麦克风阵列能够适用的场景更加广泛。

下图13和图15分别展示了在不同目标方向上，本申请AVS阵列和全向麦克风阵列形成的波束图。分别对应于图13和图15，图14和图16则分别展示了在不同目标方向上，本申请AVS阵列和全向麦克风阵列形成的波束的指向性因子的对比。

下面对此展开介绍，在此之前，需要说明的是，图11、图13、图15之间的主要差别在于目标方向不同，其他相同或类似的部分，为避免重复可参考上图11的描述。同样的，图12、图14、图16之间的主要差别也在于目标方向不同，其他相同或类似的部分，可参考上图12的相关的描述。此外，图11至图16中所涉及的AVS阵列以及全向麦克风阵列的阵元数量、阵元之间的间隔则如前所述是一致的，此处不再赘述。

具体地，图13为目标方向为

时，全向麦克风阵列和AVS阵列形成的波束图。更具体地，图13(A)是全向麦克风阵列形成的波束图，图13(B)是AVS阵列使用方法800形成的波束图，图13(C)是AVS阵列使用方法1000形成的波束图。

从图13(A)中可以看出，全向麦克风阵列形成的波束没有明显的指向性，而图13(B)中AVS阵列形成的波束并且对比图13(A)已经有了明显了指向性(变窄)，图13(C)中的AVS阵列形成的波束对比图13(A)也具有明显的指向性。而且，AVS阵列形成的波束的宽度小于全向麦克风阵列形成的波束的宽度，具有好的指向性，而且使用方法1000形成的波束的宽度要小于使用方法800形成的波束的宽度，具有更好的指向性。

进一步，从图14(A)中可以看出，线性全向麦克风阵列形成的波束的指向性因子要低于AVS阵列的指向性因子，而且线性全向麦克风阵列形成的波束的指向性因子随着频率的变化改变较为明显，而AVS阵列形成的波束的指向性因子则具有频率一致性，即并不会随着频率的变化发生太多的变化，而使用方法1000形成的波束的指向性因子则更具有频率一致性，其指向性因子几乎不会随着频率的变化发生改变。

图15为目标方向为

时，全向麦克风阵列和AVS阵列形成的波束图。更具体地，图15(A)是全向麦克风阵列形成的波束图，图15(B)是AVS阵列使用方法800形成的波束图，图15(C)是AVS阵列使用方法900形成的波束图。

从图15(A)中可以看出，全向麦克风阵列形成的波束没有明显的指向性，而图15(B)中AVS阵列形成的波束对比图15(A)已经有了明显了指向性，图15(C)中的AVS阵列形成的波束对比图15(A)也具有明显的指向性。而且AVS阵列形成的波束的宽度小于全向麦克风阵列形成的波束的宽度，具有好的指向性，而且使用方法1000形成的波束的宽度要小于使用方法800形成的波束的宽度，具有更好的指向性。

进一步，从图16(A)中可以看出，线性全向麦克风阵列形成的波束的指向性因子要低于AVS阵列的指向性因子，而且线性全向麦克风阵列形成的波束的指向性因子随着频率的变化改变较为明显，而AVS阵列形成的波束的指向性因子则具有频率一致性，即并不会随着频率的变化发生太多的变化，而使用方法1000形成的波束的指向性因子则更具有频率一致性，其指向性因子几乎不会随着频率的变化发生改变。

上面对比地介绍了在不同的目标方向上，AVS阵列指向性要比全向麦克风阵列的指向性要好，从另一个角度来看，对比上述图11、图13、图15，也能体现出AVS阵列的相对于全向麦克风阵列的波束调向能力也要更好，也即AVS阵列因为具有良好的指向性，所以可以形成指向任意方向的波束，以对该方向的语音信号进行增强，并同时抑制其他方向语音信号。

上文介绍了本申请音频采集装置使用AVS阵列相对于其他实施例中使用全向麦克风构成的阵列的优异之处，下面对应于上述方法800介绍，介绍本申请音频采集装置实现音频采集方法的具体实施细节以及所涉及的计算过程。其中，方法1000中与方法800中相同或类似的实施细节可参考方法800的相关描述，此处不再赘述。具体如下：

对应于上述802，在一些实施例中，使AVS阵列得到在目标方向上增强后的语音信号的过程如下：

首先，可以理解的是，在空间中，AVS阵列中每个AVS采集到的声信号不仅包括了用户10的语音信号，还包括了噪声及干扰信号等声信号，例如除声源之外的其他声源发出的信号、背景白噪声等。

又如前文所述，每个AVS是由一个全向麦克风和三个指向性麦克风构成，所以，对每个AVS采集机到的语音信号进行傅里叶变换的本质，实则是对每个AVS中全向麦克风采集到的语音信号(全向分量)以及三个指向性麦克风采集到的语音信号(X轴分量、Y轴分量、Z轴分量)进行短时傅里叶变换。其中，傅里叶变换可以理解为对每个AVS采集到的语音信号进行频域变换，以得到该信号在频域中频率响应，其中频率响应包括了该信号在频域的幅度响应以及相位响应。

现假设每个AVS所采集到的语音信号中的全向分量、X轴分量、Y轴分量、Z轴分量，经傅里叶变换后可写为向量形式(7)：

其中，y(ω)表示每个AVS采集到的语音信号，Y_o(ω)是全向分量，Y_i(ω)，i∈{x，y，z}，分别是沿x轴分量、y轴分量、z轴分量，T表示转置运算符，X(ω)表示每个AVS采集到的语音信号，V(ω)是噪声向量，其定义与y(ω)类似，ω＝2πf是角频率，f＞0为频率，

θ是俯仰角(取值范围0°～180°)，/>

为方位角取值范围为(-180°～180°)。

假设目标方向为

对每个AVS采集到的语音信号y(ω)施加一个加权向量(8)：

其中，目标方向

表示期望对语音信号进行增强的方向，T表示转置，目标方向与声源方向一致时，/>

对每个AVS施加该目标方向上的加权向量，即可得到该目标方向上的增强的空间响应，a₀和a₁(a₁＝1-a₀)为实数系数，用以调整对目标方向的波束形状以获取不同的空间增益。

例如，假设目标方向为(90°，60°)，上式(8)则表明音频采集装置1将对空间中俯仰角为90°，方位角为60°方向上的语音信号进行增强。

而a₀和a₁则为每个AVS中全向分量以及指向性分量的权重调整系数，用于调整每个AVS中各个麦克风采集到的语音信号分量在该AVS采集到的语音信号中的比例，也即可以通过调节a₀和a₁的取值，对各个AVS的波束的形状进行调整。例如，假设目标方向仍为(90°，60°)，a₀＝1，则a₁＝0，那么上式(8)可写为：w(90°，60°)＝[1，0，0，0]，也即此时AVS采集的语音信号仅为全向麦克风采集到的空间中各个方向的语音信号在俯仰角为90°，方位角为60°方向上的增强信号。

之后利用下式(9)，可计算出每个AVS采集到目标方向

上的增强后的语音信号Z(ω)：

/>

此时每个AVS的空间响应为：

利用上式(8)对式(10)进行展开，可写为：

之后将AVS阵列中M个AVS的输出进行叠加，即可得到AVS阵列的输出信号，可写为：

z(ω)＝[Z_1(ω)Z_2(ω)…Z_M(ω)]^T (12)

将上式(9)、(10)、(11)代入式(12)，可写为：

其中，

表示在目标方向上每个AVS采集到的语音信号的相位延迟向量。

J是虚数单位，J²＝-1，且

其中δ表示AVS阵列中各个AVS之间的间隔，

以及

v(ω)＝[V₁ _(ω)V _2(ω _)…V_M(ω)]^T (16)

对应于上述803，在一些实施例中，上述波束的空间响应为写为：

其中，H表示共轭转置，h(ω)表示长度为M的线性滤波器，M表示AVS阵列中AVS的数量，h^H(ω)为h(ω)的共轭转置，d(ω，θ)与d(ω，θ_s)的定义类似，此处不再赘述。

白噪声增益可写为：

其中，α的值为：

指向性因子可写为：

其中，Γ_d(ω)表示归一化相关矩阵。

它的第(i，j)个元素可写为：

其中，γ_ij表示，

将式(23)带入式(22)可以推导得到：

其中sin h(γ_ij)的值为：

cos h(γ_ij)的值为：

ξ₁的值为：

ξ₂和-ξ₄的值为：

ξ₂＝-ξ₄＝-2a₁a₀ cosθ_s (28)

ξ₃和-ξ₅的值为：

对应于上述804，在一些实施例中，确定了超指向性波束形成器13的各个参数后，超指向波束形成器将对AVS阵列输出的语音信号进行滤波处理，以得到在目标方向上增强后的语音信号。

具体地，超指向波束形成器将在抑制目标方向

的干扰噪声的同时，无失真地恢复目标方向的目标信号。具体地，假设目标方向上的无失真约束为：

由于假设了目标方向上无失真，故AVS阵列在目标方向上的响应

所以上式(30)实则为：

即h^H(ω)d(ω，θ_s)＝1。

此时，上式(17)即可写为：

从上式(31)可以看出，在坐标系以及AVS位置都确定的情况下，沿着方位角

方向的波束图仅取决于AVS的指向性/>

不会随着滤波器h^H(ω)发生改变。因此，最大化指向性因子波束形成可以通过最大化指向性因子，同时约束波束的主瓣方向和俯仰角与θ_s一致得到。其中，主瓣方向指的是波束形成后波束实际所指的方向，也即最大空间响应的方向。在数学上，对波束形成主瓣方向以及俯仰角的约束条件为：

其中，等式左边可推导为：

上式(33)中

为对角矩阵，它的第(i，i)个元素为：

当

上式可简化为：/>

将式(34)代入式(33)，则上式(32)的导数约束最终可写为：h^H(ω)∑_M(θ_s)d(ω，θ_s)＝0(35)

当目标方向为端射方向时，即俯仰角θ_s＝0°，当1≤i≤M时，

此时在上式(30)的无失真约束下最大化指向性因子，就相当于求解以下优化问题：

min_h(ω)h^H(ω)Γ_d(ω)h(ω)subjeot to h^H(ω)d(ω，θ_s)＝1(36)

上式(36)的解为：

则经过该滤波器h(ω)对AVS阵列的估计处理，即可得到超指向性的波束形成。

在一些实施例中，当目标方向为其他方向，即俯仰角θ_s≠0°，也可以增加导数约束来保证最大响应出现在目标方向

上。此时，相当于求解以下优化问题：

min_h(ω)h^H(ω)Γ_d(ω)h(ω)s.t.C^H(ω，θ_s)h(ω)＝i₁ (38)

其中，C(ω，θ_s)＝[d(ω，θ_s)∑_M(θ_s)d(ω，θ_s)](39)，表示是一个M×2的矩阵，i₁＝[1 0]^T，对上式(38)进行求解可得：

在上述(40)中，自相关矩阵Γ_d(ω)可以对角加载Γ_d(ω)+∈I_M，其中，∈≥0为控制对角加载的正则化因子，以提高超指向波束形成器的鲁棒性。

最后，将z(ω)通过波束形成器h(ω)，波束形成器内置固定滤波器系数，即可得到增强后的语音信号

其中，H表示共轭转置算子。

对上述

进行逆傅里叶变换，即可得到增强后的语音信号。

上面为对应于方法800中各个步骤的实施细节，可以理解，在本申请的其他实施例中，上述公式也可以为本领域人员所熟知的能够实现对应功能的其他公式，本申请对此不作限制。

可以理解，AVS阵列采集的在目标方向上的语音信号经过上述方法800或1000的处理后，能够得到在目标方向上增强的语音信号，但是该语音信号中有可能仍然存在噪声或者其他干扰信号，所以为了能够进一步得到纯净的语音信号，本申请音频采集装置1还可以包括噪声抑制器14，用于对超指向波束形成器13输出的增强后的语音信号进行噪声抑制处理。其中，噪声处理主要包括两种方式，(1)对目标方向经过上述方法800或1000处理后的增强后的信号进行扩散场噪声抑制；(2)对经过上述方法800或1000处理后的增强后的目标方向的信号进行非线性滤波。可以理解，在一些实施例中，上述两种噪声处理的方式可以择一执行、也可以同时执行，即既可以只执行方式(1)，也可以只执行方式(2)，还可以同时执行方式(1)和(2)，本申请对此不作限制。

下面对此展开介绍：

(1)扩散场噪声抑制：

对于每个AVS，其可以根据语音信号到达同一个AVS各通道的能量关系区分直达声和扩散场噪声。本实施例中将每个AVS的信号存储为B-Format(FuMa)格式，全向通道与x、y、z三个轴向通道的采集信号分别表示X_w、X_x、X_y、X_z。

当空间属于完美扩散场，即采集来自空间各个方向的能量相同但互不相关的信号时，其关系满足下式(42)：

X_w ²＝Xx²+X_y ²+Xz² (42)

当其空间仅存在位于X轴方向的点声源噪声时，则全向通道采集的信号X_w＝X_x，X_w ^z＝3X_x ²(同理适用于y、z轴方向或三维空间任意方向点声源)。

此时可以根据通道间采集信号的能量关系，即

判断每个时频点AVS采集到的语音信号是否为点声源噪声或扩散场噪声，将(1，3)通过高斯关系映射至(0，1)，对扩散场噪声进行相应的滤波抑制。

在一些实施例中，由于构成AVS阵列后引入了相位信息，可以对各AVS计算的扩散场噪声滤波系数进行均衡平滑，可以实现更高质量和更低失真的噪声抑制。

在一些实施例中，对于AVS器件的实现方式，包括但不限于热线式、压差式、A-format混合式等；在一些实施例中，对于每个AVS的指向性，包括但不限于一阶指向性(0≤a₀≤1)，可以回退为零阶(全向)，也可以是其他高阶具有指向性的拾音器件。

在一些实施例中，对于超指向性波束形成器13的设计，可以如实施例1进行多步优化(定向波束器12×超指向性波束形成器13，也即上述方法800)，也可以根据超指向性波束形成器13的计算方法，对所有拾音通道进行全局优化(无定向波束器步骤，上述方法1000)。

(2)非线性波束滤波

对于每个AVS，其可以根据AVS采集的声强度矢量计算每个时频点的到达方向，其中，每个AVS的声强度矢量可以表示为：

其中，(f，n)表示频点为f、帧数n的时频点，则该频点的方位可以表示为：

其中

表示取实部，将时频点与目标方向的差(0～180°)通过高斯函数映射到滤波器系数(1～0)，可以进行对信号的非线性波束实现声音的定向采集，抑制来自其他方向的干扰噪声、混响等，提升信号质量。

可以理解，上述噪声抑制器14的工作不仅限于对目标方向的信号进行噪声抑制、线性滤波以及基于声场重建，还可以对目标方向的信号进行混响抑制、干扰抑制等，本申请对噪声抑制器14的功能不作限制。

并且，在一些实施例中，对于噪声抑制器13涉及到的扩散场噪声抑制、非线性波束中的滤波系数映射，包括但不限于高斯映射、线性映射、分段线性映射、对数映射等映射关系，本申请对此不作限制。

在经过上述一系列处理后，音频采集装置1能够输出噪声、干扰较少，并且增强后的对象化语音信号，之后语音交互设备20a播放由音频采集装置1输出的语音信号时，能够根据该语音信号进行声场重建，即根据用户的选择或默认播放语音信号的位置，对上述音频采集装置1输出的语音信号按照设置，分别投射到立体声通道，形成立体语音信号，还原或虚拟重构声源的空间分布。可以理解，立体声通道包括但不限于立体声、5.1、7.1声道等。其中，5.1声道是立体环绕声，7.1声道比5.1多两个声道，是更强大的声道***。

举例来说明，以具有上述音频采集装置1的语音交互设备20a和20b为例，其中语音交互设备20a为麦克风、语音交互设备20b为耳机，麦克风20a通过音频采集装置1采集到了与会人员10a～10d的会议录音，然后麦克风20a将该段会议录音发送至耳机20b，用户10通过耳机20b播放该段会议录音时，耳机20b能够在空间内再现这段会议录音，模拟该段会议录音对应的真实的会议场景，使得用户10在通过耳机20b播放会议录音时，感受到真实的会议场景，提升了用户体验。

在一些实施例中，耳机20b可以使用头部相关传递函数(head related transferfunction，HRTF)进行声场重建，其中，HRTF可以描述语音信号在进入听音者(例如用户10)的听觉***之前如何反射或衍射至听音者的头部以及外耳所需的所有声学信息，其本质为一个滤波器，利用某个位置或角度相关的HRTF对特定的语音信号进行滤波处理，即可模拟出该语音信号在该位置或角度处播放的效果。

在一些实施例中，研发人员可以采用HRTF测量***事先采集不同用户在不同角度的HRTF，然后利用大数据得到能够满足普通用户需求的与角度相关HRTF，然后在耳机20b进行声场重建时，可以根据用户此时的头部角度Ω1以及预先设定的播放语音信号的目标方向Ω2，确定语音信号相对于用户头部角度的位置Ω3，然后选择与Ω3相匹配的HRTF作为滤波器，对将要播放的语音信号进行滤波处理，模拟出滤波处理后的语音信号从相对于用户头部角度的相对角度Ω3处播放的场景。

在一些实施例中，耳机20b中还可以设置头部姿态传感器，用于检测用户实时的头部角度，以使当用户头部角度改变时，例如用户转动头部至Ω4处，耳机20b依然可以根据用户转动头部后的位置Ω4以及目标方向Ω2，确定二者之间的相对角度Ω5，并模拟语音信号从相对于用户头部角度的相对角度Ω5处播放的场景，本申请对此不作限制。

图19为本申请实施例提供的一种电子设备的结构示意图。该电子设备可以是语音交互设备，包括但不限于：智能手机、笔记本电脑、平板电脑、智能音箱、智能车载设备、智能机器人、智能家居设备、智能耳机等。该电子设备还可以是与语音交互设备通信连接的服务器。

该硬件包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，扬声器170A，AVS阵列170B，传感器模块180，按键190，显示屏194等。其中传感器模块180可以包括压力传感器180A，触摸传感器180K等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。例如，如果电子设备为耳机时，则可以不具有显示屏194，并且传感器模块180可以增加姿态传感器以检测人头的移动方向等，本申请对此不作限制。

其中，处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(Application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integratedcircuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端设备100的结构限定。在本申请另一些实施例中，终端设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器采集充电输入。电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141采集电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。

电子设备的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和采集电磁波信号。移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。无线通信模块160可以提供应用在电子设备上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(Bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。

显示屏194用于显示图像，视频等。在一些实施例中，电子设备可以包括1个或N个显示屏194，N为大于1的正整数。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备100的存储能力。内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。

电子设备100可以通过扬声器170A播放上述增强后的语音信号，或利用上述语音信号进行声场重建等，本申请对此不作限制。

电子设备100可以通过上述AVS阵列采集语音信号，利用处理器110对目标方向上的语音信号进行增强。

压力传感器180A可以用于检测用户在电子设备的触控压力，以确定用户的触控操作类型，例如长按、短按、重压等，在一些实施例中，压力传感器180A与触摸传感器180K配合工作。触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作，例如触控耳机上的触摸传感器180K可以检测用户的触控信号，以实现播放、暂停的功能。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以采集按键输入，产生与电子设备的用户设置以及功能控制有关的键信号输入。

本申请实施例还提供一种计算机可读存储介质，包括：其上存储有计算机程序，该程序被处理器执行时实现上述任意方法实施例所述的音频采集方法。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(英文：read-only memory，缩写：ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文：magnetic tape)、软盘(英文：floppydisk)、光盘(英文：optical disc)及其任意组合。

本申请实施例是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种音频采集方法，应用于电子设备，其特征在于，所述电子设备包括至少两个指向音频采集器；

并且所述方法包括：

对于所述至少两个指向音频采集器采集的第一指向音频数据，增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值，确定第二指向音频数据；

确定所述电子设备在所述目标方向的音频采集数据，其中，所述音频采集数据包括所述第二指向音频数据。

2.根据权利要求1所述的方法，其特征在于，还包括至少一个全向音频采集器，并且

所述方法还包括：

对于所述至少一个全向音频采集器采集的第一全向音频数据，增大采集方向与所述目标方向满足第二预设条件的第一全向音频数据中有效音频数据所占的比值，确定第二全向音频数据；

并且，所述音频采集数据包括所述第二全向音频数据。

3.根据权利要求2所述的方法，其特征在于，所述音频采集数据为所述第二指向音频数据和所述第二全向音频数据叠加后得到的。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述电子设备包括多个声矢量传感器，所述声矢量传感器中的全向压力传感器作为所述全向音频采集器，所述声矢量传感器中的指向性声压梯度传感器作为所述指向音频采集器。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述多个声矢量传感器按照预设规则排布，并且

每个所述声矢量传感器中包括一个全向压力传感器以及至少3个指向性声压梯度传感器。

6.根据权利要求5所述的方法，其特征在于，所述增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值的方法包括：

根据目标方向，确定每个所述指向性声压梯度传感器采集的第一指向音频数据的权重参数；

增大与所述目标方向满足第一预设条件的所述指向性声压梯度传感器采集到的第一指向音频数据的权重参数，以增大与所述目标方向满足第一预设条件的所述指向性声压梯度传感器所采集的第一指向音频数据中的有效数据的比值。

7.根据权利要求5所述的方法，其特征在于，所述增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值的方法包括：

根据所述目标方向，确定每个所述指向性声压梯度传感器采集的第一指向音频数据的权重参数；

通过调整波束形成参数、指向性因子以及白噪声增益，以增大与所述目标方向满足第一预设条件的所述指向性声压梯度传感器采集到的音频数据的权重参数，从而增大与目标方向满足第一预设条件的所述指向性声压梯度传感器所采集的第一指向音频数据的有效音频数据的比值。

8.根据权利要求5至7中任一项所述的方法，其特征在于，所述增大与目标方向满足第二预设条件的全向音频采集器所采集的第一全向音频数据中的有效音频数据所占的比值的方法包括：

根据目标方向，确定所述全向性压力梯度传感器采集的第一全向音频数据的权重参数；

增大与所述目标方向满足第二预设条件的所述全向压力传感器采集到的第一全向音频数据的权重参数，以增大与所述目标方向满足第二预设条件的所述全向压力传感器所采集的第一全向音频数据中的有效数据的比值。

9.根据权利要求5至7中任一项所述的方法，其特征在于，所述增大与目标方向满足第二预设条件的全向音频采集器所采集的第一全向音频数据中的有效音频数据所占的比值的方法包括：

根据所述目标方向，确定所述全向压力传感器采集的第一全向音频数据的权重参数；

通过调整波束形成参数、指向性因子以及白噪声增益，以增大与所述目标方向满足第二预设条件的所述全向压力传感器采集到的音频数据的权重参数，从而增大与目标方向满足第二预设条件的所述全向压力传感器所采集的第一全向音频数据的有效音频数据的比值。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述电子设备包括多个声矢量传感器，所述目标方向可以通过以下方法确定：

利用至少两个所述声矢量传感器采集到的所述第一指向音频数据和/或所述全向音频数据的时间差，确定所述至少两个所述声矢量传感器采集到的所述第一指向音频数据和/或所述全向音频数据的相位差；

基于所述至少两个音频采集器件采集到的所述第一指向音频数据和/或所述全向音频数据的相位差，确定所述目标方向。

11.根据权利要求1至9中任一项所述的方法，其特征在于，所述与目标方向满足第一预设条件的情况包括：

所述指向音频采集器的采集方向与所述目标方向之间的方向差小于第一预设值。

12.根据权利要求1至9中任一项所述的方法，其特征在于，所述采集方向与所述目标方向满足第二预设条件的情况包括：

所述采集方向与所述目标方向的方向差小于第二预设值。

13.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及至少两个指向音频采集器；并且

所述存储器用于存储由电子设备的一个或多个处理器执行的指令；

以及处理器，是所述电子设备的处理器之一，用于运行所述指令以使所述电子设备实现如下操作：

14.根据权利要求13所述的电子设备，其特征在于，还包括至少一个全向音频采集器，并且

所述电子设备还包括：

并且，所述音频采集数据包括所述第二全向音频数据。

15.根据权利要求14所述的电子设备，其特征在于，所述音频采集数据为所述第二指向音频数据和所述第二全向音频数据叠加后得到的。

16.根据权利要求13至15中任一项所述的电子设备，其特征在于，所述电子设备包括多个声矢量传感器，所述声矢量传感器中的全向压力传感器作为所述全向音频采集器，所述声矢量传感器中的指向性声压梯度传感器作为所述指向音频采集器。

17.根据权利要求13至16中任一项所述的电子设备，其特征在于，所述多个声矢量传感器按照预设规则排布，并且

18.根据权利要求17所述的电子设备，其特征在于，所述增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值的电子设备包括：

19.根据权利要求17所述的电子设备，其特征在于，所述增大与目标方向满足第一预设条件的指向音频采集器所采集的第一指向音频数据中的有效音频数据所占的比值的电子设备包括：

20.根据权利要求17至19中任一项所述的电子设备，其特征在于，所述增大与目标方向满足第二预设条件的全向音频采集器所采集的第一全向音频数据中的有效音频数据所占的比值的电子设备包括：

21.根据权利要求17至19中任一项所述的电子设备，其特征在于，所述增大与目标方向满足第二预设条件的全向音频采集器所采集的第一全向音频数据中的有效音频数据所占的比值的电子设备包括：

22.根据权利要求13至21中任一项所述的电子设备，其特征在于，所述电子设备包括多个声矢量传感器，所述目标方向可以通过以下电子设备确定：

23.根据权利要求13至21中任一项所述的电子设备，其特征在于，所述与目标方向满足第一预设条件的情况包括：

24.根据权利要求13至21中任一项所述的电子设备，其特征在于，所述采集方向与所述目标方向满足第二预设条件的情况包括：

所述采集方向与所述目标方向的方向差小于第二预设值。

25.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有指令，该指令在电子设备上执行时使电子设备执行权利要求1至12中任一项所述的音频采集方法。