CN102565759B - 一种基于子带信噪比估计的双耳声源定位方法 - Google Patents
一种基于子带信噪比估计的双耳声源定位方法 Download PDFInfo
- Publication number
- CN102565759B CN102565759B CN 201110448129 CN201110448129A CN102565759B CN 102565759 B CN102565759 B CN 102565759B CN 201110448129 CN201110448129 CN 201110448129 CN 201110448129 A CN201110448129 A CN 201110448129A CN 102565759 B CN102565759 B CN 102565759B
- Authority
- CN
- China
- Prior art keywords
- signal
- orientation
- subband
- itd
- noise ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种基于子带信噪比估计的双耳声源定位方法,为一种改进的声源定位方法,将各方位耳间时间差ITD(Interaural Time Difference)的均值作为声源方位的定位特征线索,建立方位映射模型;实际声源定位时,输入为双通路声信号,输入声信号先经过频域变换,在频域划分若干子带,在各子带内进行信噪比估计,根据子带信噪比,选择相应子带的功率谱计算各帧的ITD参数,根据ITD特征参数与训练模块建立的方位特征模型进行逐一匹配,基于欧氏距离测度,输出方位。本发明方法提高了噪声环境下声源定位的性能。
Description
技术领域
本发明属于声源定位技术领域,为一种基于子带信噪比估计的双耳声源定位方法。
背景技术
声源定位技术作为一门新兴的边缘交叉学科,可以帮助传递和识别可视信息,增加三维仿真环境的逼真度。目前主要定位算法有多麦克风阵列的声源定位算法和基于双通路的声源定位算法。多麦克风阵列的声源定位算法存在计算量大、麦克风阵列尺寸大,并且算法受混响等因素干扰大等问题。基于双通路声信号的声源定位方法模拟人耳的听觉特征,可以实现较为准确的声源定位。最具有代表性的是基于互相关的耳间时间差ITD(Interaural Time Difference)估计,然而对于含噪信号,基于互相关的ITD估计的定位性能严重下降。
发明内容
本发明要解决的问题是:目前的多麦克风阵列的声源定位算法存在计算量大、麦克风阵列尺寸大,并且算法受混响等因素干扰大等问题,现有基于双通路声信号的声源定位方法对于含噪信号的定位性能不足。
本发明的技术方案为:一种基于子带信噪比估计的双耳声源定位方法,先进行数据训练,训练数据为方位已知的声信号,经过特征提取,估计各方位声信号的耳间时间差ITD参数,将各方位多帧声信号的ITD参数的均值作为该方位ITD参数的矢量量化VQ模型的参数,建立方位映射模型;实际声源定位时,输入双通路声信号,输入声信号先经过频域变换,在频域划分若干子带,估计各子带信噪比,将各子带信噪比与设定的信噪比阈值进行比较,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数,根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,基于欧氏距离测度,输出方位。
具体步骤包括:
1)数据训练:
11)使用KEMAR小耳廓水平面右侧37个方位,即θ=0°~180°的头相关脉冲响应HRIR数据,与白噪声卷积生成方位已知的虚拟声;
12)对步骤11)所得虚拟声进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;
13)将步骤12)所述的平稳的单帧信号进行端点检测,获得有效的单帧信号;
14)计算各单帧信号进行耳间时间差ITD特征参数,得到ITD训练样本;
15)根据步骤14)所得ITD训练样本,将各方位多帧声信号的ITD训练样本的均值作为对应方位ITD的矢量量化VQ模型的参数,建立方位映射模型;
2)对待定位声源定位的定位步骤为:
21)将采集的声信号进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;
22)将步骤21)所得单帧信号进行端点检测,获得有效的单帧信号;
23)将步骤22)所得有效的单帧信号进行FFT变换,划分为若干子带,计算估计各子带的信噪比,所述子带采用平均划分规则,划分为7-13个子带;
24)将各子带信噪比与设定的信噪比阈值进行比较,将低于信噪比阈值的子带幅度设为0,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数;
25)根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,根据欧氏距离测度,输出方位信息。
与现有双通路声信号定位技术相比,本发明提出的方法能明显提高噪声下声源定位的性能,在信噪比为0dB时,本发明的定位正确率达到89%,原有方法定位正确率仅为63%,信噪比10dB时,本发明声源定位正确率可以达到94%,原有方法定位正确率为82%。
附图说明
图1为本发明声源定位的空间坐标***示意图。
图2为本发明定位***框图。
具体实施方式
本发明先进行数据训练,训练数据为方位已知的声信号,经过特征提取,估计各方位声信号的耳间时间差ITD参数,将各方位多帧声信号的ITD参数的均值作为该方位ITD参数的矢量量化VQ(Vector Quantization)模型的参数,建立方位映射模型;实际声源定位时,输入双通路声信号,输入声信号先经过频域变换,即快速傅里叶变换FFT(Fast Fourier Transform),在频域划分若干子带,估计各子带信噪比,将各子带信噪比与设定的信噪比阈值进行比较,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数,根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,基于欧氏距离测度,输出方位。
图1为本发明声源定位的空间坐标***示意图,在本发明中,声源位置由坐标唯一确定。其中,0≤r<+∞为声源与原点的距离;仰角为方向矢量与水平面的夹角,和+90°分别表示正下方、水平面和正上方;方向角0°≤θ<360°为方向矢量在水平面的投影与中垂面的夹角。水平面上,θ=0°表示正前方,沿顺时针方向θ=90°、180°和270°分别表示正右、正后和正左方。
本发明方法包括数据训练和声源定位两大步:
1)数据训练:
11)使用KEMAR小耳廓水平面右侧37个方位,即θ=0°~180°的头相关脉冲响应HRIR数据,与白噪声卷积生成方位已知的虚拟声;
12)对步骤11)所得虚拟声进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;
13)将步骤12)所述的平稳的单帧信号进行端点检测,获得有效的单帧信号;
14)计算各单帧信号进行耳间时间差ITD特征参数,得到ITD训练样本;
15)根据步骤14)所得ITD训练样本,将各方位多帧声信号的ITD训练样本的均值作为对应方位ITD的矢量量化VQ模型的参数,建立方位映射模型;
2)对待定位声源定位的定位步骤为:
21)将采集的声信号进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;
22)将步骤21)所得单帧信号进行端点检测,获得有效的单帧信号;
23)将步骤22)所得有效的单帧信号进行FFT变换,划分为若干子带,计算估计各子带的信噪比,所述子带采用平均划分规则,划分为7-13个子带;
24)将各子带信噪比与设定的信噪比阈值进行比较,将低于信噪比阈值的子带幅度设为0,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数;
25)根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,根据欧氏距离测度,输出方位信息。
下面对应本发明的实施步骤,结合附图对本发明技术方案的具体实施进行详细说明:
图2给出了基于信噪比估计的双通路声信号的声源定位的实现框图,HRTF(Head-Response Transfer Function)为头相关传递函数,与白噪声卷积,产生用于训练的方位性虚拟声信号。图中分别对训练和测试阶段声信号的处理流程进行了标注,下面具体介绍各模块的功能和实现方案。
1、预处理模块,对应步骤12)和21)中所述的预处理:
由于采集设备采集到的声信号中可能夹杂着很多电子噪声和背景噪声,为了抑制噪声影响到后续信号的分析,需要进行预处理;本方法的预处理包括:幅度归一化、预加重、分帧及加窗。本发明采取帧长为30ms,帧移为10ms。
预加重采用一阶数字滤波器H(z)=1-μz-1,其中μ=0.97。本方法使用汉明窗对分帧后的语音信号进行加窗处理,加窗后的第n帧信号可以表示为xn(m)=wH(m)x(nN+m) 0≤m<N,N为一帧采样数据长度,为1323,
其中, 为汉明窗。
2、端点检测模块,对应步骤13)和22)中所述端点检测:
端点检测的目的就是从一段接收声信号中找出有效信号的起始点和结束点,从而只对有效信号进行处理。准确的端点检测不仅可以减少数据存储量和处理时间,而且能排除无声段和噪声的干扰。本发明方法采用短时能量和过零率特征相结合,对单耳信号进行检测,采用短时能量和过零率特征相结合进行语音端点检测的方法为现有技术,本发明在这里进行简单介绍:
短时能量即一帧信号所具有的平均能量,计算公式为
其中xn(m),m=0,1,...N-1为经过预处理的第n帧采集声信号,Xn(k),k=0,1,...N-1为对应的频域信号。短时能量的门限值可以设为固定值也可以使用多帧平均能量作为判决门限。
短时过零率为一帧信号波形穿过零电平的次数占帧长的百分比,对于离散信号,只要比较相邻两个采样点的符号即可,计算公式为
其中,sgn(x)为符号函数。本发明使用的判决门限为Zmin=0.01,Zmax=0.4,其中设置下限Zmin是为了滤除部分静音帧的影响。
短时能量和过零率特征在判决门限之内的为有效信号,从而可以判断有声段的起始和终点位置。
3、子带信噪比SNR估计模块,对应步骤23):
对端点检测得到的有效信号进行频域变换,在频域划分若干子带,在各子带内进行信噪比估计,所述子带采用平均划分规则,本发明中划分为7-13个子带;具体公式如下:
频域信号模型可以用矢量表示为:
X(k)=S(k)+N(k)
X(k)={xi(k),xr(k)}T
S(k)={Si(k),Sr(k)}T
其中,X(k)为含噪语音,S(k)为纯净声信号,k表示频域。下标l,r分别表示左、右两路声信号。
针对双通路声信号,传播路径对不同频率声信号的衰减是有所区别的,并且由于与多麦克风阵列的声源定位方法不同,双通路声源定位只有两路声信号,因此本方法在子带内估计信噪比,将一帧信号在频域划分为若干子带,估计每个子带的协方差矩阵,然后由协方差矩阵计算每个频率的信噪比。由频域信号模型矢量形式,可知,第i个子带的协方差矩阵为
其中,Xi(k)为第i个子带的左右路声信号组成的频域矢量。Pli、Pri、σ2分别表示第i个子带左右声信号的能量和噪声功率谱密度,IID为该子带声信号的耳间强度差。
由上式可以得出第i个子带的语音和噪声能量功率谱密度:
由方程 可以得出Pli
σ2=R1-Pli Pri=R4-σ2
子带信噪比估计中,由于双耳信号在不同子带的频谱本身就存在耳间强度差。因此,子带大小的决定了算法的性能。
子带的个数选择与声源信号的类型、信噪比的高低等因素有关。子带的个数需要适中,一方面,若子带个数太多,每一子带里面的频率点太少,SNR较低时,加入了更多不可靠的频点,影响了算法效果。另一方面由于一个子带的平均SNR较低,便会忽略整个子带的频率数据,子带个数也不宜太少。本发明设置不同参数的仿真测试环境,根据测试结果,权衡考虑,本发明采用的子带数为7-13个。
4、ITD特征提取模块,对应步骤14)和24)中的ITD特征参数的计算:
双耳声信号经过预处理和端点检测后,将其与每一帧的各子带的信噪比参数输入ITD特征提取模块。采用恒定的信噪比门限,选择信噪比高于门限值的频带进行ITD的计算。在定位线索提取时,选择信噪比高的谱信号进行ITD估计,而舍弃掉信噪比低的谱信号,有效提高了含噪信号定位线索的提取准确性,从而提高了定位性能。
第i帧声信号的ITD估计过程及公式如下:
(1)根据子带信噪比和阈值,计算各频点的SNR标识参数SNRIndex:
(2)根据SNR标识参数,对左右路声信号频谱进行修正。将双耳声信号频谱中,信噪比低于阈值的子带的频谱设为0:
Pu=Pi·*SNRIndex
Prr=Pr·*SNRIndex
其中,Pi和Pr是左右路声信号频谱,Pll和Prr为根据修正后左右路声信号频谱。
(3) 运用广义互相关法进行ITD的估计。
左右声信号的互功率谱密度Plr的计算公式为:Plr=Pll*Prr。由Plr经过IFFT变换,可以得到互相关函数Rlr(k)。这里Rlr(k)表示时间差为k个采样点时双耳信号的互相关函数。
5、训练模块,对应实现步骤15):
训练模块用于建立定位特征的统计模型,其输入信号为方位已知的声信号,经过特征提取过程,估计各方位声信号的ITD参数。其中,将各方位多帧声信号的ITD的均值作为该方位ITD的VQ模型的参数。
本发明使用MIT媒体实验室测量的HRIR数据与白噪声卷积生成的虚拟声作为训练数据;使用KEMAR小耳廓水平面右侧37个方位(θ0°~180°)的HRIR数据获得用于训练的虚拟声信号,该部分数据的角度间隔为5°。
6、定位模块,对应实现步骤25):
定位模块用于将待测声信号与训练模块建立的各方位特征模型逐一匹配并寻找似然度最大的方位。定位过程按以下步骤进行:
(1)计算待定位声信号每一帧各子频带的信噪比;
(2)对待定位声信号进行FFT,对低于信噪比门限的频带将其幅度设为0;
(3)提取待定位声信号的ITD特征参数;
(4)根据ITD特征参数在0°~90°,270°-360°范围内搜索最小欧式距离,输出定位方位:
上式中,λp(p=1,2,...,P,P为位置数)为模型ITD的值。x为测量ITD值。p*为输出的前向声源位置。
按照上述***框架搭建定位***,先进行数据训练,然后用于双耳声源定位,经实验对比,与现有双通路声信号定位技术相比,本发明提出的方法能明显提高噪声下声源定位的性能,在信噪比为0dB时,本发明的定位正确率达到89%,现有技术方法定位正确率仅为63%,信噪比10dB时,本发明声源定位正确率可以达到94%,现有技术方法定位正确率为82%。
Claims (1)
1.一种基于子带信噪比估计的双耳声源定位方法,其特征是先进行数据训练,训练数据为方位已知的声信号,经过特征提取,估计各方位声信号的耳间时间差ITD参数,将各方位多帧声信号的ITD参数的均值作为该方位ITD参数的矢量量化VQ模型的参数,建立方位映射模型;实际声源定位时,输入双通路声信号,输入声信号先经过频域变换,在频域划分若干子带,估计各子带信噪比,将各子带信噪比与设定的信噪比阈值进行比较,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数,根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,基于欧氏距离测度,输出方位,具体步骤包括:
1)数据训练:
11)使用KEMAR小耳廓水平面右侧37个方位,即θ=0°~180°的头相关脉冲响应HRIR数据,与白噪声卷积生成方位已知的虚拟声;
12)对步骤11)所得虚拟声进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;
13)将步骤12)所述的平稳的单帧信号进行端点检测,获得有效的单帧信号;
14)计算各单帧信号进行耳间时间差ITD特征参数,得到ITD训练样本;
15)根据步骤14)所得ITD训练样本,将各方位多帧声信号的ITD训练样本的均值作为对应方位ITD的矢量量化VQ模型的参数,建立方位映射模型;
2)对待定位声源定位的定位步骤为:
21)将采集的声信号进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;
22)将步骤21)所得单帧信号进行端点检测,获得有效的单帧信号;
23)将步骤22)所得有效的单帧信号进行FFT变换,划分为若干子带,计算估计各子带的信噪比,所述子带采用平均划分规则,划分为7-13个子带;
24)将各子带信噪比与设定的信噪比阈值进行比较,将低于信噪比阈值的子带幅度设为0,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数;
25)根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,根据欧氏距离测度,输出方位信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110448129 CN102565759B (zh) | 2011-12-29 | 2011-12-29 | 一种基于子带信噪比估计的双耳声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110448129 CN102565759B (zh) | 2011-12-29 | 2011-12-29 | 一种基于子带信噪比估计的双耳声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102565759A CN102565759A (zh) | 2012-07-11 |
CN102565759B true CN102565759B (zh) | 2013-10-30 |
Family
ID=46411648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110448129 Expired - Fee Related CN102565759B (zh) | 2011-12-29 | 2011-12-29 | 一种基于子带信噪比估计的双耳声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102565759B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103901401B (zh) * | 2014-04-10 | 2016-08-17 | 北京大学深圳研究生院 | 一种基于双耳匹配滤波器的双耳声音源定位方法 |
CN103901400B (zh) * | 2014-04-10 | 2016-08-17 | 北京大学深圳研究生院 | 一种基于时延补偿和双耳一致性的双耳声音源定位方法 |
CN104464750B (zh) * | 2014-10-24 | 2017-07-07 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
CN104468576A (zh) * | 2014-12-10 | 2015-03-25 | 深圳市彩煌通信技术有限公司 | 一种基于无源光网络的协议转换方法及协议转换器 |
CN105204002B (zh) * | 2015-10-19 | 2019-01-04 | Tcl集团股份有限公司 | 一种声源定位方法及*** |
CN106226739A (zh) * | 2016-07-29 | 2016-12-14 | 太原理工大学 | 融合子带分析的双声源定位方法 |
CN106373589B (zh) * | 2016-09-14 | 2019-07-26 | 东南大学 | 一种基于迭代结构的双耳混合语音分离方法 |
CN107799124A (zh) * | 2017-10-12 | 2018-03-13 | 安徽咪鼠科技有限公司 | 一种应用于智能语音鼠标的vad检测方法 |
CN108122559B (zh) * | 2017-12-21 | 2021-05-14 | 北京工业大学 | 一种数字助听器中基于深度学习的双耳声源定位方法 |
CN109164415B (zh) * | 2018-09-07 | 2022-09-16 | 东南大学 | 一种基于卷积神经网络的双耳声源定位方法 |
CN109298642B (zh) * | 2018-09-20 | 2021-08-27 | 三星电子(中国)研发中心 | 采用智能音箱进行监控的方法及装置 |
CN110133596B (zh) * | 2019-05-13 | 2023-06-23 | 江苏第二师范学院(江苏省教育科学研究院) | 一种基于频点信噪比和偏置软判决的阵列声源定位方法 |
CN110221249A (zh) * | 2019-05-16 | 2019-09-10 | 西北工业大学 | 基于压缩感知的宽带声源定位方法 |
CN111707990B (zh) * | 2020-08-19 | 2021-05-14 | 东南大学 | 一种基于密集卷积网络的双耳声源定位方法 |
CN116316706B (zh) * | 2023-05-08 | 2023-07-21 | 湖南大学 | 基于互补平均固有时间尺度分解的振荡定位方法及*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6178245B1 (en) * | 2000-04-12 | 2001-01-23 | National Semiconductor Corporation | Audio signal generator to emulate three-dimensional audio signals |
EP1600791B1 (en) * | 2004-05-26 | 2009-04-01 | Honda Research Institute Europe GmbH | Sound source localization based on binaural signals |
CN101982793B (zh) * | 2010-10-20 | 2012-07-04 | 武汉大学 | 一种基于立体声信号的移动音源定位方法 |
-
2011
- 2011-12-29 CN CN 201110448129 patent/CN102565759B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102565759A (zh) | 2012-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102565759B (zh) | 一种基于子带信噪比估计的双耳声源定位方法 | |
CN102438189B (zh) | 基于双通路声信号的声源定位方法 | |
CN106373589B (zh) | 一种基于迭代结构的双耳混合语音分离方法 | |
CN104464750A (zh) | 一种基于双耳声源定位的语音分离方法 | |
Mandel et al. | An EM algorithm for localizing multiple sound sources in reverberant environments | |
WO2020042708A1 (zh) | 基于时频掩蔽和深度神经网络的声源方向估计方法 | |
EP1818909B1 (en) | Voice recognition system | |
CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及*** | |
CN107219512B (zh) | 一种基于声传递函数的声源定位方法 | |
CN106504763A (zh) | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 | |
CN111429939B (zh) | 一种双声源的声音信号分离方法和拾音器 | |
CN107346664A (zh) | 一种基于临界频带的双耳语音分离方法 | |
CN106226739A (zh) | 融合子带分析的双声源定位方法 | |
Ren et al. | A novel multiple sparse source localization using triangular pyramid microphone array | |
Cai et al. | Multi-Channel Training for End-to-End Speaker Recognition Under Reverberant and Noisy Environment. | |
Wang et al. | Pseudo-determined blind source separation for ad-hoc microphone networks | |
CN103901400A (zh) | 一种基于时延补偿和双耳一致性的双耳声音源定位方法 | |
Mandel et al. | EM localization and separation using interaural level and phase cues | |
Plinge et al. | Online multi-speaker tracking using multiple microphone arrays informed by auditory scene analysis | |
Talagala et al. | Binaural localization of speech sources in the median plane using cepstral HRTF extraction | |
Zohny et al. | Modelling interaural level and phase cues with Student's t-distribution for robust clustering in MESSL | |
Hu et al. | Robust binaural sound localisation with temporal attention | |
Wu et al. | Binaural localization of speech sources in 3-D using a composite feature vector of the HRTF | |
Zhang et al. | A speech separation algorithm based on the comb-filter effect | |
Habib et al. | Auditory inspired methods for localization of multiple concurrent speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131030 Termination date: 20161229 |