CN102565759B

CN102565759B - 一种基于子带信噪比估计的双耳声源定位方法

Info

Publication number: CN102565759B
Application number: CN 201110448129
Authority: CN
Inventors: 周琳; 周菲菲; 吴镇扬
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2013-10-30
Anticipated expiration: 2031-12-29
Also published as: CN102565759A

Abstract

一种基于子带信噪比估计的双耳声源定位方法，为一种改进的声源定位方法，将各方位耳间时间差ITD(Interaural Time Difference)的均值作为声源方位的定位特征线索，建立方位映射模型；实际声源定位时，输入为双通路声信号，输入声信号先经过频域变换，在频域划分若干子带，在各子带内进行信噪比估计，根据子带信噪比，选择相应子带的功率谱计算各帧的ITD参数，根据ITD特征参数与训练模块建立的方位特征模型进行逐一匹配，基于欧氏距离测度，输出方位。本发明方法提高了噪声环境下声源定位的性能。

Description

一种基于子带信噪比估计的双耳声源定位方法

技术领域

本发明属于声源定位技术领域，为一种基于子带信噪比估计的双耳声源定位方法。

背景技术

声源定位技术作为一门新兴的边缘交叉学科，可以帮助传递和识别可视信息，增加三维仿真环境的逼真度。目前主要定位算法有多麦克风阵列的声源定位算法和基于双通路的声源定位算法。多麦克风阵列的声源定位算法存在计算量大、麦克风阵列尺寸大，并且算法受混响等因素干扰大等问题。基于双通路声信号的声源定位方法模拟人耳的听觉特征，可以实现较为准确的声源定位。最具有代表性的是基于互相关的耳间时间差ITD(Interaural Time Difference)估计，然而对于含噪信号，基于互相关的ITD估计的定位性能严重下降。

发明内容

本发明要解决的问题是：目前的多麦克风阵列的声源定位算法存在计算量大、麦克风阵列尺寸大，并且算法受混响等因素干扰大等问题，现有基于双通路声信号的声源定位方法对于含噪信号的定位性能不足。

本发明的技术方案为：一种基于子带信噪比估计的双耳声源定位方法，先进行数据训练，训练数据为方位已知的声信号，经过特征提取，估计各方位声信号的耳间时间差ITD参数，将各方位多帧声信号的ITD参数的均值作为该方位ITD参数的矢量量化VQ模型的参数，建立方位映射模型；实际声源定位时，输入双通路声信号，输入声信号先经过频域变换，在频域划分若干子带，估计各子带信噪比，将各子带信噪比与设定的信噪比阈值进行比较，选择信噪比高于信噪比阈值的子带，计算子带ITD特征参数，根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配，基于欧氏距离测度，输出方位。

具体步骤包括：

1)数据训练：

11)使用KEMAR小耳廓水平面右侧37个方位，即θ＝0°～180°的头相关脉冲响应HRIR数据，与白噪声卷积生成方位已知的虚拟声；

12)对步骤11)所得虚拟声进行预处理，包括幅度归一化、预加重、分帧和加窗，对各方位的每一帧声信号获得平稳的单帧信号；

13)将步骤12)所述的平稳的单帧信号进行端点检测，获得有效的单帧信号；

14)计算各单帧信号进行耳间时间差ITD特征参数，得到ITD训练样本；

15)根据步骤14)所得ITD训练样本，将各方位多帧声信号的ITD训练样本的均值作为对应方位ITD的矢量量化VQ模型的参数，建立方位映射模型；

2)对待定位声源定位的定位步骤为：

21)将采集的声信号进行预处理，包括幅度归一化、预加重、分帧和加窗，对各方位的每一帧声信号获得平稳的单帧信号；

22)将步骤21)所得单帧信号进行端点检测，获得有效的单帧信号；

23)将步骤22)所得有效的单帧信号进行FFT变换，划分为若干子带，计算估计各子带的信噪比，所述子带采用平均划分规则，划分为7-13个子带；

24)将各子带信噪比与设定的信噪比阈值进行比较，将低于信噪比阈值的子带幅度设为0，选择信噪比高于信噪比阈值的子带，计算子带ITD特征参数；

25)根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配，根据欧氏距离测度，输出方位信息。

与现有双通路声信号定位技术相比，本发明提出的方法能明显提高噪声下声源定位的性能，在信噪比为0dB时，本发明的定位正确率达到89％，原有方法定位正确率仅为63％，信噪比10dB时，本发明声源定位正确率可以达到94％，原有方法定位正确率为82％。

附图说明

图1为本发明声源定位的空间坐标***示意图。

图2为本发明定位***框图。

具体实施方式

本发明先进行数据训练，训练数据为方位已知的声信号，经过特征提取，估计各方位声信号的耳间时间差ITD参数，将各方位多帧声信号的ITD参数的均值作为该方位ITD参数的矢量量化VQ(Vector Quantization)模型的参数，建立方位映射模型；实际声源定位时，输入双通路声信号，输入声信号先经过频域变换，即快速傅里叶变换FFT(Fast Fourier Transform)，在频域划分若干子带，估计各子带信噪比，将各子带信噪比与设定的信噪比阈值进行比较，选择信噪比高于信噪比阈值的子带，计算子带ITD特征参数，根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配，基于欧氏距离测度，输出方位。

图1为本发明声源定位的空间坐标***示意图，在本发明中，声源位置由坐标唯一确定。其中，0≤r＜+∞为声源与原点的距离；仰角

为方向矢量与水平面的夹角，

和+90°分别表示正下方、水平面和正上方；方向角0°≤θ＜360°为方向矢量在水平面的投影与中垂面的夹角。水平面上，θ＝0°表示正前方，沿顺时针方向θ＝90°、180°和270°分别表示正右、正后和正左方。

本发明方法包括数据训练和声源定位两大步：

1)数据训练：

2)对待定位声源定位的定位步骤为：

下面对应本发明的实施步骤，结合附图对本发明技术方案的具体实施进行详细说明：

图2给出了基于信噪比估计的双通路声信号的声源定位的实现框图，HRTF(Head-Response Transfer Function)为头相关传递函数，与白噪声卷积，产生用于训练的方位性虚拟声信号。图中分别对训练和测试阶段声信号的处理流程进行了标注，下面具体介绍各模块的功能和实现方案。

1、预处理模块，对应步骤12)和21)中所述的预处理：

由于采集设备采集到的声信号中可能夹杂着很多电子噪声和背景噪声，为了抑制噪声影响到后续信号的分析，需要进行预处理；本方法的预处理包括：幅度归一化、预加重、分帧及加窗。本发明采取帧长为30ms，帧移为10ms。

预加重采用一阶数字滤波器H(z)＝1-μz^-1，其中μ＝0.97。本方法使用汉明窗对分帧后的语音信号进行加窗处理，加窗后的第n帧信号可以表示为x_n(m)＝w_H(m)x(nN+m) 0≤m＜N，N为一帧采样数据长度，为1323，

其中，

w_{H} (m) = \{\begin{matrix} 0.54 - 0.46 \cos [2 πm / (N - 1)] & 0 \leq m < N \\ 0 & m &GreaterEqual; N \end{matrix}

为汉明窗。

2、端点检测模块，对应步骤13)和22)中所述端点检测：

端点检测的目的就是从一段接收声信号中找出有效信号的起始点和结束点，从而只对有效信号进行处理。准确的端点检测不仅可以减少数据存储量和处理时间，而且能排除无声段和噪声的干扰。本发明方法采用短时能量和过零率特征相结合，对单耳信号进行检测，采用短时能量和过零率特征相结合进行语音端点检测的方法为现有技术，本发明在这里进行简单介绍：

短时能量即一帧信号所具有的平均能量，计算公式为

E_{n} = Σ_{m = 0}^{N - 1} {| x_{n} (m) |}^{2} = Σ_{k = 0}^{N - 1} {| X_{n} (k) |}^{2}

其中x_n(m)，m＝0，1，...N-1为经过预处理的第n帧采集声信号，X_n(k)，k＝0，1，...N-1为对应的频域信号。短时能量的门限值可以设为固定值也可以使用多帧平均能量作为判决门限。

短时过零率为一帧信号波形穿过零电平的次数占帧长的百分比，对于离散信号，只要比较相邻两个采样点的符号即可，计算公式为

Z_{n} = \frac{1}{2 N} Σ_{m = 1}^{N - 1} | sgn {x_{n} (m)} - sgn {x_{n} (m - 1)} |

其中，sgn(x)为符号函数。本发明使用的判决门限为Z_min＝0.01，Z_max＝0.4，其中设置下限Z_min是为了滤除部分静音帧的影响。

短时能量和过零率特征在判决门限之内的为有效信号，从而可以判断有声段的起始和终点位置。

3、子带信噪比SNR估计模块，对应步骤23)：

对端点检测得到的有效信号进行频域变换，在频域划分若干子带，在各子带内进行信噪比估计，所述子带采用平均划分规则，本发明中划分为7-13个子带；具体公式如下：

频域信号模型可以用矢量表示为：

X(k)＝S(k)+N(k)

X(k)＝{x_i(k)，x_r(k)}^T

S(k)＝{S_i(k)，S_r(k)}^T

其中，X(k)为含噪语音，S(k)为纯净声信号，k表示频域。下标l，r分别表示左、右两路声信号。

针对双通路声信号，传播路径对不同频率声信号的衰减是有所区别的，并且由于与多麦克风阵列的声源定位方法不同，双通路声源定位只有两路声信号，因此本方法在子带内估计信噪比，将一帧信号在频域划分为若干子带，估计每个子带的协方差矩阵，然后由协方差矩阵计算每个频率的信噪比。由频域信号模型矢量形式，可知，第i个子带的协方差矩阵为

R = [\begin{matrix} R_{1} & R_{2} \\ R_{3} & R_{4} \end{matrix}] = E {X_{i} (k) X_{i}^{T} (k)} = [\begin{matrix} P_{li} + σ^{2} & \sqrt{P_{li} * P_{ri}} \\ \sqrt{P_{li} * P_{ri}} & P_{ri} + σ^{2} \end{matrix}] = [\begin{matrix} P_{li} + σ^{2} & \sqrt{IID} P_{li} \\ \sqrt{IID} P_{li} & IId * P_{li} + σ^{2} \end{matrix}]

其中，X_i(k)为第i个子带的左右路声信号组成的频域矢量。P_li、P_ri、σ²分别表示第i个子带左右声信号的能量和噪声功率谱密度，IID为该子带声信号的耳间强度差。

由上式可以得出第i个子带的语音和噪声能量功率谱密度：

由方程

P_{li}^{2} + (R_{4} - R_{1}) P_{li} - R_{2}^{2} = 0

可以得出P_li

σ²＝R₁-P_li P_ri＝R₄-σ²

由此，可以得出第i个子带的信噪比，

子带信噪比估计中，由于双耳信号在不同子带的频谱本身就存在耳间强度差。因此，子带大小的决定了算法的性能。

子带的个数选择与声源信号的类型、信噪比的高低等因素有关。子带的个数需要适中，一方面，若子带个数太多，每一子带里面的频率点太少，SNR较低时，加入了更多不可靠的频点，影响了算法效果。另一方面由于一个子带的平均SNR较低，便会忽略整个子带的频率数据，子带个数也不宜太少。本发明设置不同参数的仿真测试环境，根据测试结果，权衡考虑，本发明采用的子带数为7-13个。

4、ITD特征提取模块，对应步骤14)和24)中的ITD特征参数的计算：

双耳声信号经过预处理和端点检测后，将其与每一帧的各子带的信噪比参数输入ITD特征提取模块。采用恒定的信噪比门限，选择信噪比高于门限值的频带进行ITD的计算。在定位线索提取时，选择信噪比高的谱信号进行ITD估计，而舍弃掉信噪比低的谱信号，有效提高了含噪信号定位线索的提取准确性，从而提高了定位性能。

第i帧声信号的ITD估计过程及公式如下：

(1)根据子带信噪比和阈值，计算各频点的SNR标识参数SNRIndex：

(2)根据SNR标识参数，对左右路声信号频谱进行修正。将双耳声信号频谱中，信噪比低于阈值的子带的频谱设为0：

P_u＝P_i·*SNRIndex

P_rr＝P_r·*SNRIndex

其中，P_i和P_r是左右路声信号频谱，P_ll和P_rr为根据修正后左右路声信号频谱。

(3) 运用广义互相关法进行ITD的估计。

左右声信号的互功率谱密度P_lr的计算公式为：P_lr＝P_ll*P_rr。由P_lr经过IFFT变换，可以得到互相关函数R_lr(k)。这里R_lr(k)表示时间差为k个采样点时双耳信号的互相关函数。

从而可以计算出，第i帧声信号的ITD估计值为

5、训练模块，对应实现步骤15)：

训练模块用于建立定位特征的统计模型，其输入信号为方位已知的声信号，经过特征提取过程，估计各方位声信号的ITD参数。其中，将各方位多帧声信号的ITD的均值作为该方位ITD的VQ模型的参数。

本发明使用MIT媒体实验室测量的HRIR数据与白噪声卷积生成的虚拟声作为训练数据；使用KEMAR小耳廓水平面右侧37个方位(θ0°～180°)的HRIR数据获得用于训练的虚拟声信号，该部分数据的角度间隔为5°。

6、定位模块，对应实现步骤25)：

定位模块用于将待测声信号与训练模块建立的各方位特征模型逐一匹配并寻找似然度最大的方位。定位过程按以下步骤进行：

(1)计算待定位声信号每一帧各子频带的信噪比；

(2)对待定位声信号进行FFT，对低于信噪比门限的频带将其幅度设为0；

(3)提取待定位声信号的ITD特征参数；

(4)根据ITD特征参数在0°～90°，270°-360°范围内搜索最小欧式距离，输出定位方位：

p^{*} = \arg \min_{1 \leq p \leq P} d (x, λ_{p})

上式中，λ_p(p＝1，2，...，P，P为位置数)为模型ITD的值。x为测量ITD值。p*为输出的前向声源位置。

按照上述***框架搭建定位***，先进行数据训练，然后用于双耳声源定位，经实验对比，与现有双通路声信号定位技术相比，本发明提出的方法能明显提高噪声下声源定位的性能，在信噪比为0dB时，本发明的定位正确率达到89％，现有技术方法定位正确率仅为63％，信噪比10dB时，本发明声源定位正确率可以达到94％，现有技术方法定位正确率为82％。

Claims

1.一种基于子带信噪比估计的双耳声源定位方法，其特征是先进行数据训练，训练数据为方位已知的声信号，经过特征提取，估计各方位声信号的耳间时间差ITD参数，将各方位多帧声信号的ITD参数的均值作为该方位ITD参数的矢量量化VQ模型的参数，建立方位映射模型；实际声源定位时，输入双通路声信号，输入声信号先经过频域变换，在频域划分若干子带，估计各子带信噪比，将各子带信噪比与设定的信噪比阈值进行比较，选择信噪比高于信噪比阈值的子带，计算子带ITD特征参数，根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配，基于欧氏距离测度，输出方位，具体步骤包括：

1）数据训练：

11）使用KEMAR小耳廓水平面右侧37个方位，即θ=0°～180°的头相关脉冲响应HRIR数据，与白噪声卷积生成方位已知的虚拟声；

12）对步骤11）所得虚拟声进行预处理，包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号；

13）将步骤12）所述的平稳的单帧信号进行端点检测，获得有效的单帧信号；

14）计算各单帧信号进行耳间时间差ITD特征参数，得到ITD训练样本；

15）根据步骤14）所得ITD训练样本，将各方位多帧声信号的ITD训练样本的均值作为对应方位ITD的矢量量化VQ模型的参数，建立方位映射模型；

2）对待定位声源定位的定位步骤为：

21）将采集的声信号进行预处理，包括幅度归一化、预加重、分帧和加窗，对各方位的每一帧声信号获得平稳的单帧信号；

22）将步骤21）所得单帧信号进行端点检测，获得有效的单帧信号；

23）将步骤22）所得有效的单帧信号进行FFT变换，划分为若干子带，计算估计各子带的信噪比，所述子带采用平均划分规则，划分为7-13个子带；

24）将各子带信噪比与设定的信噪比阈值进行比较，将低于信噪比阈值的子带幅度设为0，选择信噪比高于信噪比阈值的子带，计算子带ITD特征参数；

25）根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配，根据欧氏距离测度，输出方位信息。