CN110082725B

CN110082725B - 基于麦克风阵列的声源定位时延估计方法、声源定位***

Info

Publication number: CN110082725B
Application number: CN201910186091.5A
Authority: CN
Inventors: 刘路路; 葛建华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2023-02-28
Anticipated expiration: 2039-03-12
Also published as: CN110082725A

Abstract

本发明属于信号处理技术领域，公开了一种基于麦克风阵列的声源定位时延估计方法、声源定位***，利用新提出的频域加权函数W_qγβ(ω)，其综合了改进的PATH和ML两种频域加权函数，弥补了原算法不能同时抵抗噪声和混响的不足。首先由麦克风阵列接收两路信号，通过ADC采样转化为数字信号，对两路信号进行加窗分帧，接着经傅里叶变换获得频域信号并计算两帧信号的互功率谱和W_qγβ(ω)加权函数，利用W_qγβ(ω)对互功率谱进行加权，然后对加权后的互功率谱进行经傅里叶逆变换得到两路信号的互相关函数，最后对互相关函数进行峰值检测即可获得两路信号的相对时延。本发明降低了环境噪声和混响对时延估计的影响，提高了时延估计的准确率，提升了声源定位精度。

Description

基于麦克风阵列的声源定位时延估计方法、声源定位***

技术领域

本发明属于信号处理技术领域，尤其涉及一种基于麦克风阵列的声源定位时延估计方法、声源定位***。

背景技术

目前，最接近的现有技术：声源定位技术研究目标主要是研究***接收的语音信号相对于接收传感器是来自什么方向和什么距离，即方向估计和距离估计，其中方向估计也叫方向识别或DOA(Direction-of-Arrival)估计。声源定位是一个具有广泛应用背景的研究课题，基于麦克风阵列的声源定位技术的研究在国内越来越受到关注，声源定位技术在军用、民用、工业上都有广泛的应用，如在军事领域，声源定位***可以对低空飞机、火炮等发声目标定位，是对雷达定位***的补充，且声源定位***自身不产生声波，具有很强的隐蔽性；在民用领域，视频会议***中可以采用传声器阵列对说话人进行定向，突出说话人的信号，声源定位的结果还可用于调整摄像头的指向，从而降低对摄像师的依赖。经过多年的发展，基于麦克风阵列的声源定位技术已经有了一些比较成熟的理论和方法。传统的声源定位技术可分为基于最大输出功率的可控波束形成法、高分辨率估计法和到达时间差(Time Difference OfArrival，TDOA)的声源定位法。基于最大可控响应功率的波束形成算法是早期的一种定位方法，但是其理论和实际性能差异很大，而且依赖声源信号的频谱特性。基于子空间的声源定位算法来源于现代高分辨率估计技术，具有较高的空间分辨率，但是在噪声和混响的情况下，定位效果不佳。基于时延估计的方法运算量相对较小，实时性较好，是目前声源定位信号处理中常用的方法。

然而影响麦克风阵列声源定位性能的因素有很多，噪声和混响就是其中的主要因素。通常麦克风阵列定位***多处于室内环境中，除了其他干扰噪声和环境噪声的影响外，声源本身经过环境反射造成的混响也会对其性能造成较大的影响。基于到达时延估计，在互相关原理的基础上，两种常用的不同的频域加权算法PATH加权和ML加权各有优点和不足。使用ML加权函数的GCC-ML算法对于环境背景噪声具有一定的鲁棒性，但抑制混响能力不足，而使用PHAT加权函数的GCC-PHAT算法能有效抑制混响的干扰，但低信噪比条件下性能下降严重。实际语音环境非常复杂，有些场合的背景噪声和混响影响较严重，在文献《TIME DELAY ESTIMATION IN THE PRESENCE OF CORRELATEDNOISE AND REVERBERATION》中，Yong Rui and Dinei Florencio提出了W_SWITCH(ω)频域加权函数，其实质上是引入预定门限值SNR₀，当环境信噪比SNR大于SNR₀时，W_SWITCH(ω)采用W_PHAT(ω)，否则W_SWITCH(ω)采用W_ML(ω)，显然SNR₀的设定非常关键，而SNR₀并非简单选取即可达到很好地效果；《基于麦克风阵列的声源定位算法研究》中提出一种最大似然相位变换时延估计算法(GCC-MLP算法)，其根据混响能量比系数把ML和PHAT加权函数结合起来得到W_MLP(ω)加权函数，该加权函数考虑了混响的影响。上述文献中的两种方案在一定程度上提高了算法同时抵抗环境噪声和室内混响对时延估计的影响，但W_PHAT(ω)加权函数对噪声较敏感，在信号功率较小的情况下，分母会接近于零，从而导致误差增大，有较大混响和环境噪声的场合算法的性能仍有待提高。

综上所述，现有技术存在的问题是：现有的ML和PHAT加权函数对应的广义互相关算法不能同时具有很好的抗噪和抗混响的能力，W_SWITCH(ω)加权算法和根据混响能量比系数把ML和PHAT加权函数结合起来得到W_MLP(ω)加权函数有较大混响和环境噪声的场合算法的性能仍有待提高。

解决上述技术问题的难度：

W_PHAT(ω)加权函数对噪声较敏感，在信号功率较小的情况下，分母会接近于零，从而导致误差增大，本发明改进了W_MLP(ω)加权函数得到W_qγβ(ω)，式中引入W_γβ-PHAT(ω)，其中γ和β值是根据信噪比的大小确定的。

解决上述技术问题的意义：

提高时延估计算法对环境噪声的鲁棒性和抗混响能力，精确估计麦克风阵列阵元间相对时延，对提高声源定位精度具有重要意义。

发明内容

针对现有技术存在的问题，本发明提供了一种基于麦克风阵列的声源定位时延估计方法、声源定位***。

本发明是这样实现的，一种基于麦克风阵列的声源定位时延估计方法，所述基于麦克风阵列的声源定位时延估计方法包括：

首先由麦克风阵列接收两路信号，通过ADC采样转化为数字信号，对两路信号进行加窗分帧，将两路信号进行加窗分帧然后进行音活动检测VAD检测，检测到语音信号进行下一步操作，否则继续采集信号并进行VAD检测；

然后检测到语音信号后对两路帧信号进行傅里叶变换FFT获得频域信号，计算两帧信号的互功率谱，求出提出的改进的频域加权函数；利用其对互功率谱进行加权，对加权后的互功率谱进行采用傅里叶逆变换IFFT得到两路信号的互相关函数；

最后对互相关函数进行峰值检测即可获得两路信号各帧的相对时延，剔除异常值即估计出两路信号的相对时延。

进一步，所述基于麦克风阵列的声源定位时延估计方法具体包括：

(1)摆放好两麦克风M₁和M₂，其间距为d；

(2)麦克风M₁和M₂分别接收到信号S1、S2，通过ADC采样得到对应的信号X1、X2；

对通过ADC采样得到对应的两路信号X1、X2进行加窗分帧；窗函数可选择Hamming窗；

(3)进行语音活动检测VAD检测，若检测到语音信号进行(4)操作，否则进行(2)操作；

(4)对两路各帧信号进行傅里叶变换FFT获得频域信号；

X_i(ω)＝FFT[x_i(n)]，i＝0,1；

(5)计算两路信号的互功率谱；

(6)计算提出的改进的频域加权函数，对两路信号的互功率谱进行加权；

(7)采用傅里叶逆变换得到两路信号的互相关函数；

(8)通过对互相关函数进行峰值检测即可获得两路信号各帧的相对时延；

(9)剔除异常时延估计值即可估计出两路信号的相对时延。

进一步，所述(6)中改进的频域加权函数W_qγβ(ω)，实现步骤为：

式中γ和β是和信噪比相关的一个参数，根据信噪比的大小调节γ和β的取值，参数q根据混响能量比估计。

进一步，所述(9)中剔除异常时延估计值，引入时延后处理模块，用于平滑时延估计，表达式为：

其中，τ_i代表第i帧时延估计值，

代表前三帧时延估计值的平均值，σ为时延估计值与平均时延之间的相对误差的阈值。

本发明的另一目的在于提供一种应用所述基于麦克风阵列的声源定位时延估计方法的声源定位***。

本发明的另一目的在于提供一种应用所述基于麦克风阵列的声源定位时延估计方法的低空飞机、火炮发声目标定位***。

本发明的另一目的在于提供一种应用所述基于麦克风阵列的声源定位时延估计方法的雷达定位***。

本发明的另一目的在于提供一种应用所述基于麦克风阵列的声源定位时延估计方法的视频会议***。

综上所述，本发明的优点及积极效果为：发明提供了一种新的频域加权函数，使用该加权函数的广义互相关算法可以有效降低噪声和混响的影响，准确估计阵元间的相对时间延迟，提高时延估计的抗噪声和抗混响能力。

本发明与现有技术相比，具有以下优点：

在互相关理论的基础上，提出在频域加权函数W_qγβ兼具相位变换加权和最大似然加权这两种加权方法的优点，并通过引入相关参数，使得在有混响的情况下，仍可以准确估计阵元间的相对时间延迟，提高了时延估计的稳健性和抗混响能力。仿真结果表明，本发明相比于现有广义互相关时延估计加权函数可以明显提高时延估计稳健性和抗混响能力，对提高声源定位精度具有重要意义。

附图说明

图1是本发明实施例提供的基于麦克风阵列的声源定位时延估计方法流程图。

图2是本发明实施例提供的模拟室内声学环境示意图。

图3是本发明实施例提供的混响能量比例系数q与混响时间关系曲线示意图。

图4是本发明实施例提供的信噪比和时延估计相对误差之间的关系示意图。

图5是本发明实施例提供的房间混响时间和时延估计相对误差关系曲线图。

图6是本发明实施例提供的时延估计正确率与SNR的关系(RT₆₀＝100ms)示意图。

图7是本发明实施例提供的时延估计正确率与RT₆₀的关系(SNR＝5dB)示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

使用改进后的时延估计方法，可以提高在混响和噪声环境下的时延估计精度，有利于提高声源定位精度。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于麦克风阵列的声源定位时延估计方法包括以下步骤：

S101：首先由麦克风阵列接收两路信号，通过ADC采样转化为数字信号，对两路信号进行加窗分帧，将两路信号进行加窗分帧然后进行音活动检测(VoiceActivityDetection，VAD)检测，检测到语音信号进行下一步操作，否则继续采集信号并进行VAD检测；

S102：检测到语音信号后对两路帧信号进行傅里叶变换(FFT)获得频域信号，计算两帧信号的互功率谱，求出提出的改进的频域加权函数，利用其对互功率谱进行加权，对加权后的互功率谱进行采用傅里叶逆变换(inverse FastFouriertransform，IFFT)得到两路信号的互相关函数；

S103：最后对互相关函数进行峰值检测即可获得两路信号各帧的相对时延，剔除异常值即可估计出两路信号的相对时延。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明适用的麦克风接收信号模型，包括单个声源和多个麦克风节点。声源到麦克风M1和M2的距离分别为d1，d2，声源到两麦克风间的时间差τ＝(d1-d2)/c，其中c为声音在空气中的传播速度，c＝341m/s。

如图1所示，本发明实施例提供的基于麦克风阵列的声源定位时延估计的改进方法包括如下步骤：

步骤1)摆放好麦克风M₁和M₂；

步骤2)麦克M₁和M₂分别接收到信号S1、S2，通过ADC采样得到对应的信号X1、X2；

步骤3)进行语音活动检测(VoiceActivity Detection，VAD)检测，若检测到语音信号进行(4)操作，否则进行(2)操作；

步骤4)对两路各帧信号进行FFT变换获得频域信号；

X_i(ω)＝FFT[x_i(n)]，i＝0,1；

步骤5)计算两路信号的互功率谱；

步骤6)计算提出的改进的频域加权函数W_qγβ(ω)，对两路信号的互功率谱进行加权；

步骤7)采用傅里叶逆变换得到两路信号的互相关函数；

步骤8)通过对互相关函数进行峰值检测即可获得两路信号各帧的相对时延；

步骤9)剔除异常值即可估计出两路信号的相对时延；

在获得时延估计的初值后，为去除时延估计中的异常点，将平滑作为时延估计中的后处理模块，表达式为：

其中，τ_i代表第i帧时延估计值，

步骤(6)对于频域加权函数W_qγβ(ω)的提出：

麦克风时延模型：考虑到实际环境中存在混响，设麦克风M1和麦克风M2所接收的信号x₁(n)和x₂(n)分别为：

x₁(n)＝s(n-τ₁)+h₁(n)*s(n)+n₁(n) (1)

x₂(n)＝s(n-τ₂)+h₂(n)*s(n)+n₂(n) (2)

式中：*为卷积计算，τ₁、τ₂分别为为声源到麦克风M1与麦克风M2的时延，n₁(n)，n₂(n)为噪声，h₁(n)*s(n)，h₂(n)*s(n)为混响。ML和PHAT加权函数分别为：

式中，X_i(ω),i＝1,2表示麦克风接收信号的频谱，N_i(ω),i＝1,2表示噪声能量的频谱；

假定H_i(ω)是随机的，并独立于S_i(ω)，得到：

得到信号能量等式:

|X_i(ω)|²＝|S_i(ω)|²+|H_i(ω)|²|S_i(ω)|²+|N_i(ω)|² (7)

式中|S_i(ω)|²为直达信号能量，|H_i(ω)|²|S_i(ω)|²为混响能量，|N_i(ω)|²为环境噪声能量。

式(7)中，直达信号能量为有用信号，混响分量|H_i(ω)|²|S_i(ω)|²和环境噪声能量是对有用信号的干扰。将混响视作是另一种特殊的噪声干扰，则麦克风总的噪声能量

为；

设p为混响能量比例系数，则总噪声能量也可以表示为；

由(7)和(9)得到；

令q_i＝p_i/(1+p_i)，由(8)可得；

如果将等式(11)带入等式(3)，可以变换得到ML函数针对混响、噪声的新的加权函数W_MLP(ω)；

若麦克风阵元间距较小，两麦克风阵元受到室内混响差别不大，所以可以假定q₁≈q₂＝q，从而式(3-34)可以进一步化简为；

从ML加权函数和PATH加权函数的特性以及式(13)中得到的新的W_MLP(ω)加权函数，可以看出MLP加权是PATH加权和ML加权的一种线性表达，可表示为:

使用了W_MLP(ω)的广义互相关函数称为GCC-MLP，由GCC-MLP表达式可知，该算法融合了MLP加权和PATH加权两种加权函数，使其同时具备这两种加权算法函数的优点，根据室内环境混响能量比合理地确定q值，可以同时提升***的抗噪性能和抗混响效果。

混响能量比DRR的定义如下；

h(n)为声道冲激响应RIP，h_d(n)表示直达冲激响应，h_r(n)表示混响部分的冲激响应。DRR的大小依赖于声源与麦克风的距离和混响时间。

式(14)引入了混响能量比系数q，其大小可根据混响强度调节，减弱时延估计精度受混响的影响，提高GCC-MLP算法对抗混响性能。但是W_PHAT(ω)加权函数对噪声较敏感，在信号功率较小的情况下，分母会接近于零，从而导致误差增大。因此在本发明在式中引入一个非线性参数γ和参数β；

其中γ和β是和信噪比相关的一个参数，根据信噪比的大小调节γ和β的值。式(16)为本发明提出的频域加权函数，称为W_qγβ(ω)加权函数，该加权函数同时考虑了环境背景噪声和混响的影响，在实际语音环境中能更好的抑制噪声和混响的影响，提高估计时延的精度。其中q可以根据混响能量比估计，γ和β值是根据信噪比的大小确定的，因此需要粗略估计麦克风接收语音信号的信噪比。

采用傅里叶逆变换得到两路信号的互相关函数；

通过对互相关函数进行峰值检测即可获得两路信号各帧的相对时延；

剔除异常值即可估计出两路信号的相对时延。

进一步，步骤(9)对于时延估计的后处理：

在获得时延估计的初值后，为去除存在的少量的异常时延估计值，提高时延估计精度引入时延后处理模块，用于平滑时延估计，表达式为：

其中，τ_i代表第i帧时延估计值，

以下结合仿真实验对本发明的应用效果作详细的描述。

1、仿真条件和内容：

本发明的仿真实验是在运行***为Intel(R)Core(TM)i5-3210M [email protected]，64位Windows操作***的硬件平台进行，仿真软件采用MATLAB。仿真内容是应用本发明提出W_qγβ(ω)加权函数对应的时延估计算法GCC-qγβ与GCC-ML、GCC-PHAT以及GCC-MLP时延估计算法进行比较。

本发明与现有技术的仿真采用图2所示模拟室内声学环境，麦克风阵列由麦克风M₁、M₂组成。在本仿真实验中，模型房间的高为350cm，长度和宽度为500cm。构建一个空间笛卡尔直角坐标系，坐标原点O位于房间墙角处，坐标系的X、Y、Z分别重合于墙角处的三条边。两麦克风的连接的中点位于(200,0,150)处，两麦克风M₁、M₂的间距为d＝10cm，其坐标分别(195,0,150)和(205,0,150)。房间中声源S的坐标设置为(450,400,150)，距离麦克风阵列中心的距离约为471.70cm，S到M₁和M₂之间的距离差D＝5.30cm，设声速c＝341m/s，然后可以通过计算得到声源S到麦克风M₁和M₂的理论时延差τ₁₂为0.155ms。声源信号S采用一段纯净的语音信号，其频率范围为300Hz～3000Hz，采样频率为32kHz，信号长度为1.6s。根据麦克风与声源之间的距离和声速，可求得M₁和M₂收到的直达信号对应的时间延迟分别是13.911ms和13.756ms，然后将声源的声音信号进行响应的延迟，即可得到M₁、M₂收到的直达信号。实验中采用高斯白噪声，环境信噪比SNR取值范围为[0dB,20dB]，通过在各个麦克风的直达信号上叠加加性高斯白噪声来模拟室内噪声情况。对于房间混响，采用经典的IMAGE模型进行仿真，得到房间脉冲响应，用来模拟房间混响。

为衡量算法的时延估计性能，引入了以下评价指标：定义时延估计的相对误差δ_τ为：

式中，τ和

分别为两麦克风之间的理论时延和估计时延。

定义时延估计正确率AR为；

AR＝N_corrrect/N_total；

式中，N_corrrect表示时延估计完全正确的实验次数，N_total表示时延估计的总实验次数，理论时延τ若满足

则表示时延估计

准确，也即延迟估计与真实延迟相差在1个采样点，否则延迟估计被认是为不准确的。

2、仿真结果分析：

图3为混响能量比例系数q与混响时间关系曲线，参数q的取值主要与混响能量比有关，而混响时间是决定混响能量比的关键因素。

设低混响情况下的房间墙壁反射系数为0.4，此时的混响时间约为100ms，混响能量比例系数为0.07。

图4是在低混响的情况下，环境信噪比与各算法的时延估计的相对误差的曲线图。分析可知，GCC-ML时延估计算法对抵抗噪声的干扰效果最好，在信噪比较低的环境下，其时延估计相对误差不超过6％，其抗环境噪声最强，时延估计精度较好。GCC-PHAT时延估计算法具有最差抗噪性能，当SNR小10dB，GCC-PHAT时延估计相对误差超过了10％，当SNR大于14dB时，其时延估计误差较小，均小于5％，其对噪声较敏感。比对GCC-ML和GCC-PHAT的抗噪性能，GCC-qγβ算法和GCC-MLP算法抗噪能力居中。当环境信噪比大于10dB时，GCC-qγβ算法和GCC-MLPT算法时延估计相对误差之间的差异较小。然而，随着信噪比的降低，本发明提出的GCC-qγβ抗噪能力略好于改进前的GCC-MLP算法，其时延估计相对误差降低了1％～2％。

图5是在不考虑环境噪声而只考虑混响影响的情况下的各算法的时延估计的相对误差的曲线图。分析表明，GCC-ML时延估计算法对房间混响很敏感。在房间混响较为严重，RT₆₀>400ms环境下，时延估计相对误差超过10％。GCC-PHAT时延估计算法具有较强的抗混响能力。当混响时间为500ms时，时延估计相对误差小于10％，算法的延迟估计精度仍然能达到较高水平。与GCC-ML和GCC-PHAT的抗混响性能相比，GCC-qγβ算法和GCC-MLP算法性能居中。相比GCC-MLP，GCC-qγβ算法的抗混响能力更好，且高混响情况下，混响对算法误差的影响变大，两者之间的差别也逐渐变大。可见，经过改进，在高混响情况下，GCC-qγβ算法较GCC-MLP算法有着更好的时延估计精度，其综合抗混响能力强于GCC-MLP算法。

图6和图7分别是上述四种算法的时延估计正确率和信噪比以及混响的关系。分析图6和图7，可得出GCC-ML时延估计算法抵抗环境噪声的干扰效果最好，但对房间混响较为敏感。当SNR较低时(SNR＝0～10dB)，相对于GCC-PHAT算法，GCC-ML算法的准确率更高，但是其对混响较为敏感，当混响较严重时，时延估计准确率较低。GCC-PHAT时延估计算法具有良好的抗混响效果。在RT₆₀为500ms时，该算法的时延估计准确率仍然较高，然而其对噪声鲁棒性不是很强，当噪声比较大时，其时延估计精度严重下降。GCC-qγβ和GCC-MLP算法同时具备ML加权函数良好的抗噪性能和PATH加权函数良好的抗混响效果。相比于GCC-MLP算法，改进的GCC-qγβ算法同时又引入与信噪比相关的参数，其可以根据混响能量比DDR和信噪比SNR的大小，来调整加权函数，时延估计正确率有明显的提升，更加有利于提高室内声源定位精度。GCC-qγβ算法引入了和信噪比有关的系数γ和β，通过大量仿真实验得到麦克风接收语音信噪比(SNR)与γ、β的关系，如表1所示。

表1信噪比(SNR)与γ、β的关系

仿真结果表明，相比现有技术，本发明改进时延估计算法GCC-qγβ算法可以明显提高时延估计稳健性和抗混响能力，对提高声源定位精度具有重要意义。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。