CN115396783A

CN115396783A - 基于麦克风阵列的自适应波束宽度的音频采集方法及装置

Info

Publication number: CN115396783A
Application number: CN202211016950.4A
Authority: CN
Inventors: 徐浩; 侯欢; 杨维国
Original assignee: Yinman Beijing Technology Co ltd
Current assignee: Yinman Beijing Technology Co ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-25

Abstract

本发明公开提供基于麦克风阵列的自适应波束宽度的音频采集方法及装置。音频采集方法包括根据获得的声场环境的混响参数和噪声参数确定波束宽度；根据获得的声场环境的声源位置和所述波束宽度确定理想波束响应；根据所述理想波束响应拟合出自适应宽度FIR滤波器组；结合自适应宽度FIR滤波器组的系数，利用对应的波束成形器对多通道音频数据处理后输出音频信号。本发明实现了在进行多通道音频数据采集时，根据环境辨识结果自适应调整波束宽度进行多通道音频数据的采集，使得音频采集能适应不同声场环境，更好地满足音频采集的需要。

Description

基于麦克风阵列的自适应波束宽度的音频采集方法及装置

技术领域

本发明涉及音频采集技术领域，特别是涉及一种基于麦克风阵列的自适应波束宽度的音频采集方法及装置。

背景技术

传统空间音频信号采集时，波束宽度一般为恒定宽度。声场麦克风阵列被放在房间的中间进行声场音频信号的采集，其结构如图1及图2所示，在会议***等应用中，音频采集处理设备逐渐向全向采音，远场拾音发展。由于房间的混响与噪声以及非主讲人的语音，实际信噪比很低。通过对目标声源的定位、追踪，使用恒定宽度的波束进行采集，可以提升信噪比。

然而，由于多人讨论时，较窄波束宽度会抑制有用信号，采音不稳定，使得需适当增加波束宽度。而低混响，低噪声的环境，为了保证采音范围与距离，也需适当增加波束宽度；而通过减少波束宽度，对周围噪声和混响抑制，能提升语音信噪比和信混比。因此，在不同声场环境中，采用恒定宽度的波束进行声音的采集，不同满足声音采集的需要。

发明内容

本发明的目的是针对三维声场采集的波束宽度变化问题，而提供一种基于麦克风阵列的自适应波束宽度的音频采集方法及装置，在进行多通道音频数据采集时，通过对空间音频环境辨识后，根据环境辨识结果自适应调整、调节波束宽度进行多通道音频数据的采集，使得音频采集能适应不同声场环境，更好地满足音频采集的需要。

本发明第一方面，提供基于麦克风阵列的自适应波束宽度的音频采集方法，包括：

根据获得的声场环境的混响参数和噪声参数确定波束宽度；

根据获得的声场环境的声源位置和所述波束宽度确定理想波束响应；

根据所述理想波束响应拟合出自适应宽度FIR滤波器组；

结合自适应宽度FIR滤波器组的系数，利用对应的波束成形器对多通道音频数据处理后输出音频信号。

本发明第二方面，提供基于麦克风阵列的自适应波束宽度的音频采集装置，包括：

波束宽度确定模块，用于根据获得的声场环境的混响参数和噪声参数确定波束宽度；

理想波束响应确定模块，根据获得的声场环境的声源位置和所述波束宽度确定理想波束响应；

自适应宽度FIR滤波器组生成模块，用于根据所述理想波束响应拟合出自适应宽度FIR滤波器组；

波束成型模块，用于结合自适应宽度FIR滤波器组的系数，利用对应的波束成形器对多通道音频数据处理后输出音频信号。

本发明的基于麦克风阵列的自适应波束宽度的音频采集方法，通过辨识三维声场的混响参数、噪声参数以及声源位置，对实际的声场环境进行判断，调整自适应滤波器，并根据声场环境自适应调节波束宽度，实现有效抑制噪声或是抑制混响，从而极大地满足了声音采集的需要。如在声音嘈杂的地铁站或街道，通过减少波束宽度来抑制噪声；在混响比较大的会议室，通过减少波束宽度来抑制混响。

附图说明

图1-图2是声场麦克风阵列的结构示意图。

图3是本发明的基于麦克风阵列的自适应波束宽度的音频采集方法的示意图。

图4是远场模型的示意图。

图5是使用远场模型确定声源方向的示意图。

图6是近场模型的示意图。

图7是使用近场模型确定声源位置点的示意图。

图8是本发明的基于麦克风阵列的自适应波束宽度的音频采集装置的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图3所示，本发明实施例第一方面，提供基于麦克风阵列的自适应波束宽度的音频采集方法，在采集多通道音频信号时，通过以下步骤进行：

S1.根据获得的声场环境的混响参数和噪声参数确定波束宽度；

S2.根据获得的声场环境的声源位置和所述波束宽度确定理想波束响应；

S3.根据所述理想波束响应拟合出自适应宽度FIR滤波器组；

S4.结合自适应宽度FIR滤波器组的系数，利用对应的波束成形器对多通道音频数据处理后输出音频信号。

作为一个实施例，所述混响参数包括相干扩散功率比，用于度量声场中混响的大小。

示例性的，所述相干扩散功率比通过以下式计算获得：

其中，CDR表示相干扩散功率比(Coherent-to-Diffusepower Ratio)，l为音频帧的时间标号，f为频率，Φ_s为单麦克风的语音功率谱，Φ_n为单麦克风的噪声功率谱，SNR为单麦克风的信噪比，Φ_s1s2为双麦克风的语音互功率谱，Φ_n1n2为双麦克风的噪声互功率谱，Γ_s，Γ_n，Γ_x为中间变量，Re为求复数实部。

作为一个实施例，所述噪声参数可以是包括环境底噪水平；

其中，所述环境底噪水平可以是下由下式计算：

S(l，f)＝α·S(l-1，f)+(1-α)·|Y(l，f)|²

其中，l为音频帧的时间标号，f为频率，Y为信号频率谱，S为环境底噪水平，α为平滑系数。

作为一个实施例，所述的声源位置的获得，可以是先使用远场模型测定声源方向，然后在声源方向确定的情况下，使用近场模型来测定声源距离。

示例性的，具体实现上，可以是通过以下的方法来实现：

A.使用多组麦克风使用远场模型测定声源方向，其中，可以是通过间距小于10Cm的多组麦克风使用远场模型测定声源方向：

使用延时求和波束成型((beamformer))的方法，遍历空间球面各个方向点，选择不相邻的能量峰值点作为多个声源的方向；

B.通过多组麦克风使用近场模型测定声源距离，其中，可以是通过间距大于20cm的多组麦克风使用近场模型测定声源距离：

使用延时求和波束成型的方法，遍历声源方向处预定距离范围(0.5m到10m的位置)的位置，选择最大能量点作为声源位置点。

示例性的，所述延时求和波束成形的方法，包括计算延时求和波束信号、波束能量，计算式表示如下：

式中，x_m为第m个麦克风信号，τ_m为第m个麦克风对应的延时，y(n)为延时求和波束信号，E为波束能量，M为麦克风的数量，L为延时求和波束信号的数量。

示例性的，利用远场模型测定声源方向时，选定一个空间方向，根据远场模型计算麦克风所对应的延时τ_m，然后根据前述的波束能量计算式，计算该空间方向所对应的波束能量E。所述远场模型如图4所示，d_far_m表示麦克风位置到空间方向的投影距离，所述的麦克风所对应的延时计算如下：

其中，fs为信号采样率，c为声速。

示例性的，使用延时求和波束成型的方法，遍历空间球面各个方向点，选择不相邻的能量峰值点作为多个声源的方向时，是遍历整个空间方向，计算所有空间方向的波束能量E，在波束能量E中，查找不相邻的能量峰值点作为多个声源的方向，如图5所示。参见图5所示，图5中为存在3个声源的情况，黑色圆圈表示声源的位置，然后根据该位置确定声源的方向。

示例性的，如前所述，在利用所述的近场模型确定声源位置时，基于利用远场模块所确定的声源方向，在声源方向处预定距离，如0.5m到10m的位置，根据近场模型，计算该距离所对应的波束能量E。

其中，近场模型如图6所示，图6中，d_near_m表示麦克风位置到声源位置的距离，此时的麦克风延时的计算如下：

其中，fs为信号采样率，c为声速。根据近场模型计算麦克风所对应的延时τ_m，然后根据前述的波束能量计算式，计算预定距离处，如0.5m到10m的位置，所对应的波束能量E，遍历声源方向处该预定距离的位置，选择不相邻的能量峰值点作为声源位置点，如图7所示。图7中为存在2个声源的情况，黑色圆圈表示声源位置。

作为一个实施例，所述根据获得的声场环境的混响参数和噪声参数确定波束宽度，可以是根据前述的实施例中的所述相干扩散功率比(CDR)和环境底噪水平(S)来确定波束宽度。

为了获得更好的音频信号，噪声越大时，波束宽度应该越窄，混响越大时，波束宽度应该越窄，因此，在采用相干扩散功率比(CDR)和环境底噪水平(S)来确定波束宽度时，可以采用以下的方法或步骤实现：

比较环境底噪水平(S)与高噪声阈值(S_th)的大小，获得第一比较结果；

比较相干扩散功率比(CDR)与高混响阈值(CDR_th)的大小，获得第二比较结果；

根据所述第一比较结果以及第二比较结果相互组合形成的组合比较结果，确定波束宽度：其中，一个组合比较结果对应一个波束宽度。

示例性的，为了对以上波束宽度确定的说明更直观，下面通过一个式子以表示说明，如下：

θ_width为波束宽度，当CDR≥CDR_th S≥S_th的条件成立时，波束宽度为5度，

CDR≥CDR_th S＜S_th时，波束宽度为10度，CDR＜CDR_th S≥S_th的条件成立时，波束宽度为20度，CDR＜CDR_th S＜S_th的条件成立时，波束宽度为30度。从而实现根据环境底噪水平(S)、相干扩散功率比(CDR)对波束宽度的选择或调节，其中，CDR≥CDR_th时，认为混响较大，S≥S_th时，噪声较大，因此，CDR≥CDR_th S≥S_th时，波束宽度也应较小。

在理想情况下，声源方向的波束宽度以内，声音应该无失真通过。声源方向的波束宽度以外，声音应该被完全抑制。因此，作为一个实施例，所述的理想波束响计算如下：

其中，B_d为理想波束响应，θ_source为声源方位，θ_width为波束宽度，θ为空间方位，当|θ-θ_source|≤θ_width时，理想波束响应取1，反之，理想波束响应取0。

作为一个实施例，所述根据理想波束响应拟合自适应宽度FIR滤波器组(FIR)，是在拟合自适应滤波器时，要使自适应宽度FIR滤波器组的空域频率响应趋近于理想波束响应，包括使波束主瓣趋近于理想波束响应，波束旁瓣趋近于0；其中，通过最小化自适应宽度FIR滤波器组的系数实现最优化，如下式所示：

min_hmax_k，j|u^T(f_k，θ_j)h-B_d(θ_j)| f_k∈[f₁，f_u] θ_j∈Θ_M

subject to|u^T(f_k，θ_i)h|≤ξ₀ f_k∈F_PB θ_i∈Θ_SL

其中，h为滤波器组系数，f_k为频率，f₁为主瓣下限截止频率，f_u为主瓣上限截止频率，F_PB为旁瓣频率，θ_i，θ_j为空间方向，Θ_ML为主瓣方向，Θ_SL为旁瓣方向，u^T(f_k，θ_j)为响应向量，ξ₀为小正数。

上述最优化问题为经典的二阶锥优化问题(SOCP)，可以通过二阶锥优化的相关方法进行求解，求解得到自适应宽度FIR滤波器组的系数h。

其中，很多数学软件均可完成此求解，在此不做累述。

示例性的，在具体实现时，先通过离线的方式离线计算自适应宽度FIR滤波器组的系数h并存储在内存中，对多通道音频数据采集时，根据声场环境的辨识结果确定自适应宽度FIR滤波器组的系数h，然后通过该系数h实时查找对应宽度的波束模型，利用确定的对应宽度的波束模型进行音频数据的采集。

参见图8所示，本发明实施例的第二方面，提供基于麦克风阵列的自适应波束宽度的音频采集装置，包括：

波束宽度确定模块，用于根据获得的声场环境的混响参数和噪声参数确定波束宽度；理想波束响应确定模块，根据获得的声场环境的声源位置和所述波束宽度确定理想波束响应；自适应宽度FIR滤波器组生成模块，用于根据所述理想波束响应拟合出自适应宽度FIR滤波器组；波束成型模块，用于结合拟合出的自适应宽度FIR滤波器组的系数，利用对应的波束成形器对多通道音频数据处理后输出音频信号。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的本发明实施例第二方面，提供基于麦克风阵列的自适应波束宽度的音频采集装置的具体工作过程，可以参考前述第一实施例中的对应过程，在此不再赘述。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于麦克风阵列的自适应波束宽度的音频采集方法，其特征在于，包括步骤：

根据获得的声场环境的混响参数和噪声参数确定波束宽度；

根据所述理想波束响应拟合出自适应宽度FIR滤波器组；

2.根据权利要求1所述基于麦克风阵列的自适应波束宽度的音频采集方法，其特征在于，所述混响参数包括相干扩散功率比，用于度量声场中混响的大小。

3.根据权利要求2所述基于麦克风阵列的自适应波束宽度的音频采集方法，其特征在于，所述相干扩散功率比通过以下式计算获得：

其中，CDR表示相干扩散功率比，l为音频帧的时间标号，f为频率，Φ_s为单麦克风的语音功率谱，Φ_n为单麦克风的噪声功率谱，SNR为单麦克风的信噪比，Φ_s1s2为双麦克风的语音互功率谱，Φ_n1n2为双麦克风的噪声互功率谱，Γ_s，Γ_n，Γ_x为中间变量，Re为求复数实部。

4.根据权利要求1所述基于麦克风阵列的自适应波束宽度的音频采集方法，其特征在于，所述噪声参数包括环境底噪水平；

其中，所述环境底噪水平可以是下由下式计算：

S(l，f)＝α.S(l-1，f)+(1-α)·|Y(l，f)|²

5.根据权利要求1所述基于麦克风阵列的自适应波束宽度的音频采集方法，其特征在于，所述的声源位置的获得，包括步骤：

基于多组麦克风使用远场模型测定声源方向，然后基于测定出的声源方向，基于多组麦克风使用近场模型，遍历声源方向处预定距离范围的位置，选择波束能量最大点作为声源位置点，从而确定声源位置。

6.根据权利要求5所述基于麦克风阵列的自适应波束宽度的音频采集方法，其特征在于，基于多组麦克风使用远场模型测定声源方向时，根据远场模型计算远场麦克风对应的延时，根据远场麦克风对应的延时计算远场麦克风的延时求和波束信号，根据所述延时求和波束信号计算远场麦克风的波束能量，根据远场麦克风的波束能量，选择不相邻的波束能量峰值点作为多个声源的方向：

确定声源位置时，遍历声源方向处预定距离范围的位置的步骤之前，包括：

根据近场模型计算近场麦克风对应的延时；

根据近场麦克风的对应延时，计算近场麦克风距离声源方向预定距离范围的近场麦克风的波束能量。

7.根据权利要求6所述基于麦克风阵列的自适应波束宽度的音频采集方法，其特征在于，所述根据获得的声场环境的混响参数和噪声参数确定波束宽度，包括：根据所述相干扩散功率比CDR和环境底噪水平确定波束宽度，包括：

比较环境底噪水平与高噪声阈值的大小，获得第一比较结果；

比较相干扩散功率比与高混响阈值的大小，获得第二比较结果；

8.根据权利要求1所述基于麦克风阵列的自适应波束宽度的音频采集方法，其特征在于，所述的理想波束响计算如下：

其中，B_d为理想波束响应，θ_source为声源方位，θ_width为波束宽度，θ为空间方位。

9.根据权利要求1所述基于麦克风阵列的自适应波束宽度的音频采集方法，其特征在于，所述根据理想波束响应拟合自适应宽度FIR滤波器组，是要使自适应宽度FIR滤波器组的空域频率响应趋近于理想波束响应，包括使波束主瓣趋近于理想波束响应，波束旁瓣趋近于0；通过最小化自适应宽度FIR滤波器组的系数实现最优化；

min_hmax_k，j|u^T(f_k，θ_j)h-B_d(θ_j)| f_k∈[f₁，f_u] θ_j∈Θ_M

subject to|u^T(f_k，θ_i)h|≤ξ₀ f_k∈F_PB θ_i∈Θ_SL

10.基于麦克风阵列的自适应波束宽度的音频采集装置，其特征在于，包括：