CN110082725B - 基于麦克风阵列的声源定位时延估计方法、声源定位*** - Google Patents

基于麦克风阵列的声源定位时延估计方法、声源定位*** Download PDF

Info

Publication number
CN110082725B
CN110082725B CN201910186091.5A CN201910186091A CN110082725B CN 110082725 B CN110082725 B CN 110082725B CN 201910186091 A CN201910186091 A CN 201910186091A CN 110082725 B CN110082725 B CN 110082725B
Authority
CN
China
Prior art keywords
signals
time delay
sound source
paths
delay estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910186091.5A
Other languages
English (en)
Other versions
CN110082725A (zh
Inventor
刘路路
葛建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910186091.5A priority Critical patent/CN110082725B/zh
Publication of CN110082725A publication Critical patent/CN110082725A/zh
Application granted granted Critical
Publication of CN110082725B publication Critical patent/CN110082725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明属于信号处理技术领域,公开了一种基于麦克风阵列的声源定位时延估计方法、声源定位***,利用新提出的频域加权函数Wqγβ(ω),其综合了改进的PATH和ML两种频域加权函数,弥补了原算法不能同时抵抗噪声和混响的不足。首先由麦克风阵列接收两路信号,通过ADC采样转化为数字信号,对两路信号进行加窗分帧,接着经傅里叶变换获得频域信号并计算两帧信号的互功率谱和Wqγβ(ω)加权函数,利用Wqγβ(ω)对互功率谱进行加权,然后对加权后的互功率谱进行经傅里叶逆变换得到两路信号的互相关函数,最后对互相关函数进行峰值检测即可获得两路信号的相对时延。本发明降低了环境噪声和混响对时延估计的影响,提高了时延估计的准确率,提升了声源定位精度。

Description

基于麦克风阵列的声源定位时延估计方法、声源定位***
技术领域
本发明属于信号处理技术领域,尤其涉及一种基于麦克风阵列的声源定位时延估计方法、声源定位***。
背景技术
目前,最接近的现有技术:声源定位技术研究目标主要是研究***接收的语音信号相对于接收传感器是来自什么方向和什么距离,即方向估计和距离估计,其中方向估计也叫方向识别或DOA(Direction-of-Arrival)估计。声源定位是一个具有广泛应用背景的研究课题,基于麦克风阵列的声源定位技术的研究在国内越来越受到关注,声源定位技术在军用、民用、工业上都有广泛的应用,如在军事领域,声源定位***可以对低空飞机、火炮等发声目标定位,是对雷达定位***的补充,且声源定位***自身不产生声波,具有很强的隐蔽性;在民用领域,视频会议***中可以采用传声器阵列对说话人进行定向,突出说话人的信号,声源定位的结果还可用于调整摄像头的指向,从而降低对摄像师的依赖。经过多年的发展,基于麦克风阵列的声源定位技术已经有了一些比较成熟的理论和方法。传统的声源定位技术可分为基于最大输出功率的可控波束形成法、高分辨率估计法和到达时间差(Time Difference OfArrival,TDOA)的声源定位法。基于最大可控响应功率的波束形成算法是早期的一种定位方法,但是其理论和实际性能差异很大,而且依赖声源信号的频谱特性。基于子空间的声源定位算法来源于现代高分辨率估计技术,具有较高的空间分辨率,但是在噪声和混响的情况下,定位效果不佳。基于时延估计的方法运算量相对较小,实时性较好,是目前声源定位信号处理中常用的方法。
然而影响麦克风阵列声源定位性能的因素有很多,噪声和混响就是其中的主要因素。通常麦克风阵列定位***多处于室内环境中,除了其他干扰噪声和环境噪声的影响外,声源本身经过环境反射造成的混响也会对其性能造成较大的影响。基于到达时延估计,在互相关原理的基础上,两种常用的不同的频域加权算法PATH加权和ML加权各有优点和不足。使用ML加权函数的GCC-ML算法对于环境背景噪声具有一定的鲁棒性,但抑制混响能力不足,而使用PHAT加权函数的GCC-PHAT算法能有效抑制混响的干扰,但低信噪比条件下性能下降严重。实际语音环境非常复杂,有些场合的背景噪声和混响影响较严重,在文献《TIME DELAY ESTIMATION IN THE PRESENCE OF CORRELATEDNOISE AND REVERBERATION》中,Yong Rui and Dinei Florencio提出了WSWITCH(ω)频域加权函数,其实质上是引入预定门限值SNR0,当环境信噪比SNR大于SNR0时,WSWITCH(ω)采用WPHAT(ω),否则WSWITCH(ω)采用WML(ω),显然SNR0的设定非常关键,而SNR0并非简单选取即可达到很好地效果;《基于麦克风阵列的声源定位算法研究》中提出一种最大似然相位变换时延估计算法(GCC-MLP算法),其根据混响能量比系数把ML和PHAT加权函数结合起来得到WMLP(ω)加权函数,该加权函数考虑了混响的影响。上述文献中的两种方案在一定程度上提高了算法同时抵抗环境噪声和室内混响对时延估计的影响,但WPHAT(ω)加权函数对噪声较敏感,在信号功率较小的情况下,分母会接近于零,从而导致误差增大,有较大混响和环境噪声的场合算法的性能仍有待提高。
综上所述,现有技术存在的问题是:现有的ML和PHAT加权函数对应的广义互相关算法不能同时具有很好的抗噪和抗混响的能力,WSWITCH(ω)加权算法和根据混响能量比系数把ML和PHAT加权函数结合起来得到WMLP(ω)加权函数有较大混响和环境噪声的场合算法的性能仍有待提高。
解决上述技术问题的难度:
WPHAT(ω)加权函数对噪声较敏感,在信号功率较小的情况下,分母会接近于零,从而导致误差增大,本发明改进了WMLP(ω)加权函数得到Wqγβ(ω),式中引入Wγβ-PHAT(ω),其中γ和β值是根据信噪比的大小确定的。
解决上述技术问题的意义:
提高时延估计算法对环境噪声的鲁棒性和抗混响能力,精确估计麦克风阵列阵元间相对时延,对提高声源定位精度具有重要意义。
发明内容
针对现有技术存在的问题,本发明提供了一种基于麦克风阵列的声源定位时延估计方法、声源定位***。
本发明是这样实现的,一种基于麦克风阵列的声源定位时延估计方法,所述基于麦克风阵列的声源定位时延估计方法包括:
首先由麦克风阵列接收两路信号,通过ADC采样转化为数字信号,对两路信号进行加窗分帧,将两路信号进行加窗分帧然后进行音活动检测VAD检测,检测到语音信号进行下一步操作,否则继续采集信号并进行VAD检测;
然后检测到语音信号后对两路帧信号进行傅里叶变换FFT获得频域信号,计算两帧信号的互功率谱,求出提出的改进的频域加权函数;利用其对互功率谱进行加权,对加权后的互功率谱进行采用傅里叶逆变换IFFT得到两路信号的互相关函数;
最后对互相关函数进行峰值检测即可获得两路信号各帧的相对时延,剔除异常值即估计出两路信号的相对时延。
进一步,所述基于麦克风阵列的声源定位时延估计方法具体包括:
(1)摆放好两麦克风M1和M2,其间距为d;
(2)麦克风M1和M2分别接收到信号S1、S2,通过ADC采样得到对应的信号X1、X2;
对通过ADC采样得到对应的两路信号X1、X2进行加窗分帧;窗函数可选择Hamming窗;
(3)进行语音活动检测VAD检测,若检测到语音信号进行(4)操作,否则进行(2)操作;
(4)对两路各帧信号进行傅里叶变换FFT获得频域信号;
Xi(ω)=FFT[xi(n)],i=0,1;
(5)计算两路信号的互功率谱;
Figure BDA0001992905860000041
(6)计算提出的改进的频域加权函数,对两路信号的互功率谱进行加权;
Figure BDA0001992905860000042
Figure BDA0001992905860000043
(7)采用傅里叶逆变换得到两路信号的互相关函数;
Figure BDA0001992905860000044
(8)通过对互相关函数进行峰值检测即可获得两路信号各帧的相对时延;
Figure BDA0001992905860000045
(9)剔除异常时延估计值即可估计出两路信号的相对时延。
进一步,所述(6)中改进的频域加权函数Wqγβ(ω),实现步骤为:
Figure BDA0001992905860000046
Figure BDA0001992905860000047
Figure BDA0001992905860000048
式中γ和β是和信噪比相关的一个参数,根据信噪比的大小调节γ和β的取值,参数q根据混响能量比估计。
进一步,所述(9)中剔除异常时延估计值,引入时延后处理模块,用于平滑时延估计,表达式为:
Figure BDA0001992905860000051
其中,τi代表第i帧时延估计值,
Figure BDA0001992905860000052
代表前三帧时延估计值的平均值,σ为时延估计值与平均时延之间的相对误差的阈值。
本发明的另一目的在于提供一种应用所述基于麦克风阵列的声源定位时延估计方法的声源定位***。
本发明的另一目的在于提供一种应用所述基于麦克风阵列的声源定位时延估计方法的低空飞机、火炮发声目标定位***。
本发明的另一目的在于提供一种应用所述基于麦克风阵列的声源定位时延估计方法的雷达定位***。
本发明的另一目的在于提供一种应用所述基于麦克风阵列的声源定位时延估计方法的视频会议***。
综上所述,本发明的优点及积极效果为:发明提供了一种新的频域加权函数,使用该加权函数的广义互相关算法可以有效降低噪声和混响的影响,准确估计阵元间的相对时间延迟,提高时延估计的抗噪声和抗混响能力。
本发明与现有技术相比,具有以下优点:
在互相关理论的基础上,提出在频域加权函数Wqγβ兼具相位变换加权和最大似然加权这两种加权方法的优点,并通过引入相关参数,使得在有混响的情况下,仍可以准确估计阵元间的相对时间延迟,提高了时延估计的稳健性和抗混响能力。仿真结果表明,本发明相比于现有广义互相关时延估计加权函数可以明显提高时延估计稳健性和抗混响能力,对提高声源定位精度具有重要意义。
附图说明
图1是本发明实施例提供的基于麦克风阵列的声源定位时延估计方法流程图。
图2是本发明实施例提供的模拟室内声学环境示意图。
图3是本发明实施例提供的混响能量比例系数q与混响时间关系曲线示意图。
图4是本发明实施例提供的信噪比和时延估计相对误差之间的关系示意图。
图5是本发明实施例提供的房间混响时间和时延估计相对误差关系曲线图。
图6是本发明实施例提供的时延估计正确率与SNR的关系(RT60=100ms)示意图。
图7是本发明实施例提供的时延估计正确率与RT60的关系(SNR=5dB)示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
使用改进后的时延估计方法,可以提高在混响和噪声环境下的时延估计精度,有利于提高声源定位精度。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于麦克风阵列的声源定位时延估计方法包括以下步骤:
S101:首先由麦克风阵列接收两路信号,通过ADC采样转化为数字信号,对两路信号进行加窗分帧,将两路信号进行加窗分帧然后进行音活动检测(VoiceActivityDetection,VAD)检测,检测到语音信号进行下一步操作,否则继续采集信号并进行VAD检测;
S102:检测到语音信号后对两路帧信号进行傅里叶变换(FFT)获得频域信号,计算两帧信号的互功率谱,求出提出的改进的频域加权函数,利用其对互功率谱进行加权,对加权后的互功率谱进行采用傅里叶逆变换(inverse FastFouriertransform,IFFT)得到两路信号的互相关函数;
S103:最后对互相关函数进行峰值检测即可获得两路信号各帧的相对时延,剔除异常值即可估计出两路信号的相对时延。
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明适用的麦克风接收信号模型,包括单个声源和多个麦克风节点。声源到麦克风M1和M2的距离分别为d1,d2,声源到两麦克风间的时间差τ=(d1-d2)/c,其中c为声音在空气中的传播速度,c=341m/s。
如图1所示,本发明实施例提供的基于麦克风阵列的声源定位时延估计的改进方法包括如下步骤:
步骤1)摆放好麦克风M1和M2
步骤2)麦克M1和M2分别接收到信号S1、S2,通过ADC采样得到对应的信号X1、X2;
对通过ADC采样得到对应的两路信号X1、X2进行加窗分帧;窗函数可选择Hamming窗;
步骤3)进行语音活动检测(VoiceActivity Detection,VAD)检测,若检测到语音信号进行(4)操作,否则进行(2)操作;
步骤4)对两路各帧信号进行FFT变换获得频域信号;
Xi(ω)=FFT[xi(n)],i=0,1;
步骤5)计算两路信号的互功率谱;
Figure BDA0001992905860000071
步骤6)计算提出的改进的频域加权函数Wqγβ(ω),对两路信号的互功率谱进行加权;
Figure BDA0001992905860000072
Figure BDA0001992905860000073
步骤7)采用傅里叶逆变换得到两路信号的互相关函数;
Figure BDA0001992905860000081
步骤8)通过对互相关函数进行峰值检测即可获得两路信号各帧的相对时延;
Figure BDA0001992905860000082
步骤9)剔除异常值即可估计出两路信号的相对时延;
在获得时延估计的初值后,为去除时延估计中的异常点,将平滑作为时延估计中的后处理模块,表达式为:
Figure BDA0001992905860000083
其中,τi代表第i帧时延估计值,
Figure BDA0001992905860000084
代表前三帧时延估计值的平均值,σ为时延估计值与平均时延之间的相对误差的阈值。
步骤(6)对于频域加权函数Wqγβ(ω)的提出:
麦克风时延模型:考虑到实际环境中存在混响,设麦克风M1和麦克风M2所接收的信号x1(n)和x2(n)分别为:
x1(n)=s(n-τ1)+h1(n)*s(n)+n1(n) (1)
x2(n)=s(n-τ2)+h2(n)*s(n)+n2(n) (2)
式中:*为卷积计算,τ1、τ2分别为为声源到麦克风M1与麦克风M2的时延,n1(n),n2(n)为噪声,h1(n)*s(n),h2(n)*s(n)为混响。ML和PHAT加权函数分别为:
Figure BDA0001992905860000085
Figure BDA0001992905860000091
式中,Xi(ω),i=1,2表示麦克风接收信号的频谱,Ni(ω),i=1,2表示噪声能量的频谱;
Figure BDA0001992905860000092
假定Hi(ω)是随机的,并独立于Si(ω),得到:
Figure BDA0001992905860000093
得到信号能量等式:
|Xi(ω)|2=|Si(ω)|2+|Hi(ω)|2|Si(ω)|2+|Ni(ω)|2 (7)
式中|Si(ω)|2为直达信号能量,|Hi(ω)|2|Si(ω)|2为混响能量,|Ni(ω)|2为环境噪声能量。
式(7)中,直达信号能量为有用信号,混响分量|Hi(ω)|2|Si(ω)|2和环境噪声能量是对有用信号的干扰。将混响视作是另一种特殊的噪声干扰,则麦克风总的噪声能量
Figure BDA0001992905860000094
为;
Figure BDA0001992905860000095
设p为混响能量比例系数,则总噪声能量也可以表示为;
Figure BDA0001992905860000096
由(7)和(9)得到;
Figure BDA0001992905860000097
令qi=pi/(1+pi),由(8)可得;
Figure BDA0001992905860000098
如果将等式(11)带入等式(3),可以变换得到ML函数针对混响、噪声的新的加权函数WMLP(ω);
Figure BDA0001992905860000101
若麦克风阵元间距较小,两麦克风阵元受到室内混响差别不大,所以可以假定q1≈q2=q,从而式(3-34)可以进一步化简为;
Figure BDA0001992905860000102
从ML加权函数和PATH加权函数的特性以及式(13)中得到的新的WMLP(ω)加权函数,可以看出MLP加权是PATH加权和ML加权的一种线性表达,可表示为:
Figure BDA0001992905860000103
使用了WMLP(ω)的广义互相关函数称为GCC-MLP,由GCC-MLP表达式可知,该算法融合了MLP加权和PATH加权两种加权函数,使其同时具备这两种加权算法函数的优点,根据室内环境混响能量比合理地确定q值,可以同时提升***的抗噪性能和抗混响效果。
混响能量比DRR的定义如下;
Figure BDA0001992905860000111
h(n)为声道冲激响应RIP,hd(n)表示直达冲激响应,hr(n)表示混响部分的冲激响应。DRR的大小依赖于声源与麦克风的距离和混响时间。
式(14)引入了混响能量比系数q,其大小可根据混响强度调节,减弱时延估计精度受混响的影响,提高GCC-MLP算法对抗混响性能。但是WPHAT(ω)加权函数对噪声较敏感,在信号功率较小的情况下,分母会接近于零,从而导致误差增大。因此在本发明在式中引入一个非线性参数γ和参数β;
Figure BDA0001992905860000112
Figure BDA0001992905860000113
其中γ和β是和信噪比相关的一个参数,根据信噪比的大小调节γ和β的值。式(16)为本发明提出的频域加权函数,称为Wqγβ(ω)加权函数,该加权函数同时考虑了环境背景噪声和混响的影响,在实际语音环境中能更好的抑制噪声和混响的影响,提高估计时延的精度。其中q可以根据混响能量比估计,γ和β值是根据信噪比的大小确定的,因此需要粗略估计麦克风接收语音信号的信噪比。
采用傅里叶逆变换得到两路信号的互相关函数;
通过对互相关函数进行峰值检测即可获得两路信号各帧的相对时延;
剔除异常值即可估计出两路信号的相对时延。
进一步,步骤(9)对于时延估计的后处理:
在获得时延估计的初值后,为去除存在的少量的异常时延估计值,提高时延估计精度引入时延后处理模块,用于平滑时延估计,表达式为:
Figure BDA0001992905860000121
其中,τi代表第i帧时延估计值,
Figure BDA0001992905860000122
代表前三帧时延估计值的平均值,σ为时延估计值与平均时延之间的相对误差的阈值。
以下结合仿真实验对本发明的应用效果作详细的描述。
1、仿真条件和内容:
本发明的仿真实验是在运行***为Intel(R)Core(TM)i5-3210M [email protected],64位Windows操作***的硬件平台进行,仿真软件采用MATLAB。仿真内容是应用本发明提出Wqγβ(ω)加权函数对应的时延估计算法GCC-qγβ与GCC-ML、GCC-PHAT以及GCC-MLP时延估计算法进行比较。
本发明与现有技术的仿真采用图2所示模拟室内声学环境,麦克风阵列由麦克风M1、M2组成。在本仿真实验中,模型房间的高为350cm,长度和宽度为500cm。构建一个空间笛卡尔直角坐标系,坐标原点O位于房间墙角处,坐标系的X、Y、Z分别重合于墙角处的三条边。两麦克风的连接的中点位于(200,0,150)处,两麦克风M1、M2的间距为d=10cm,其坐标分别(195,0,150)和(205,0,150)。房间中声源S的坐标设置为(450,400,150),距离麦克风阵列中心的距离约为471.70cm,S到M1和M2之间的距离差D=5.30cm,设声速c=341m/s,然后可以通过计算得到声源S到麦克风M1和M2的理论时延差τ12为0.155ms。声源信号S采用一段纯净的语音信号,其频率范围为300Hz~3000Hz,采样频率为32kHz,信号长度为1.6s。根据麦克风与声源之间的距离和声速,可求得M1和M2收到的直达信号对应的时间延迟分别是13.911ms和13.756ms,然后将声源的声音信号进行响应的延迟,即可得到M1、M2收到的直达信号。实验中采用高斯白噪声,环境信噪比SNR取值范围为[0dB,20dB],通过在各个麦克风的直达信号上叠加加性高斯白噪声来模拟室内噪声情况。对于房间混响,采用经典的IMAGE模型进行仿真,得到房间脉冲响应,用来模拟房间混响。
为衡量算法的时延估计性能,引入了以下评价指标:定义时延估计的相对误差δτ为:
Figure BDA0001992905860000131
式中,τ和
Figure BDA0001992905860000132
分别为两麦克风之间的理论时延和估计时延。
定义时延估计正确率AR为;
AR=Ncorrrect/Ntotal
式中,Ncorrrect表示时延估计完全正确的实验次数,Ntotal表示时延估计的总实验次数,理论时延τ若满足
Figure BDA0001992905860000133
则表示时延估计
Figure BDA0001992905860000134
准确,也即延迟估计与真实延迟相差在1个采样点,否则延迟估计被认是为不准确的。
2、仿真结果分析:
图3为混响能量比例系数q与混响时间关系曲线,参数q的取值主要与混响能量比有关,而混响时间是决定混响能量比的关键因素。
设低混响情况下的房间墙壁反射系数为0.4,此时的混响时间约为100ms,混响能量比例系数为0.07。
图4是在低混响的情况下,环境信噪比与各算法的时延估计的相对误差的曲线图。分析可知,GCC-ML时延估计算法对抵抗噪声的干扰效果最好,在信噪比较低的环境下,其时延估计相对误差不超过6%,其抗环境噪声最强,时延估计精度较好。GCC-PHAT时延估计算法具有最差抗噪性能,当SNR小10dB,GCC-PHAT时延估计相对误差超过了10%,当SNR大于14dB时,其时延估计误差较小,均小于5%,其对噪声较敏感。比对GCC-ML和GCC-PHAT的抗噪性能,GCC-qγβ算法和GCC-MLP算法抗噪能力居中。当环境信噪比大于10dB时,GCC-qγβ算法和GCC-MLPT算法时延估计相对误差之间的差异较小。然而,随着信噪比的降低,本发明提出的GCC-qγβ抗噪能力略好于改进前的GCC-MLP算法,其时延估计相对误差降低了1%~2%。
图5是在不考虑环境噪声而只考虑混响影响的情况下的各算法的时延估计的相对误差的曲线图。分析表明,GCC-ML时延估计算法对房间混响很敏感。在房间混响较为严重,RT60>400ms环境下,时延估计相对误差超过10%。GCC-PHAT时延估计算法具有较强的抗混响能力。当混响时间为500ms时,时延估计相对误差小于10%,算法的延迟估计精度仍然能达到较高水平。与GCC-ML和GCC-PHAT的抗混响性能相比,GCC-qγβ算法和GCC-MLP算法性能居中。相比GCC-MLP,GCC-qγβ算法的抗混响能力更好,且高混响情况下,混响对算法误差的影响变大,两者之间的差别也逐渐变大。可见,经过改进,在高混响情况下,GCC-qγβ算法较GCC-MLP算法有着更好的时延估计精度,其综合抗混响能力强于GCC-MLP算法。
图6和图7分别是上述四种算法的时延估计正确率和信噪比以及混响的关系。分析图6和图7,可得出GCC-ML时延估计算法抵抗环境噪声的干扰效果最好,但对房间混响较为敏感。当SNR较低时(SNR=0~10dB),相对于GCC-PHAT算法,GCC-ML算法的准确率更高,但是其对混响较为敏感,当混响较严重时,时延估计准确率较低。GCC-PHAT时延估计算法具有良好的抗混响效果。在RT60为500ms时,该算法的时延估计准确率仍然较高,然而其对噪声鲁棒性不是很强,当噪声比较大时,其时延估计精度严重下降。GCC-qγβ和GCC-MLP算法同时具备ML加权函数良好的抗噪性能和PATH加权函数良好的抗混响效果。相比于GCC-MLP算法,改进的GCC-qγβ算法同时又引入与信噪比相关的参数,其可以根据混响能量比DDR和信噪比SNR的大小,来调整加权函数,时延估计正确率有明显的提升,更加有利于提高室内声源定位精度。GCC-qγβ算法引入了和信噪比有关的系数γ和β,通过大量仿真实验得到麦克风接收语音信噪比(SNR)与γ、β的关系,如表1所示。
表1信噪比(SNR)与γ、β的关系
Figure BDA0001992905860000151
仿真结果表明,相比现有技术,本发明改进时延估计算法GCC-qγβ算法可以明显提高时延估计稳健性和抗混响能力,对提高声源定位精度具有重要意义。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于麦克风阵列的声源定位时延估计方法,其特征在于,所述基于麦克风阵列的声源定位时延估计方法包括:
首先由麦克风阵列接收两路信号,通过ADC采样转化为数字信号,对两路信号进行加窗分帧,将两路信号进行加窗分帧然后进行音活动检测VAD检测,检测到语音信号进行下一步操作,否则继续采集信号并进行VAD检测;
然后检测到语音信号后对两路帧信号进行傅里叶变换FFT获得频域信号,计算两帧信号的互功率谱,求出提出的改进的频域加权函数;利用其对互功率谱进行加权,对加权后的互功率谱进行采用傅里叶逆变换IFFT得到两路信号的互相关函数;
最后对互相关函数进行峰值检测即可获得两路信号各帧的相对时延,剔除异常值即估计出两路信号的相对时延;
所述基于麦克风阵列的声源定位时延估计方法具体包括:
(1)摆放好两麦克风M1和M2,其间距为d;
(2)麦克风M1和M2分别接收到信号S1、S2,通过ADC采样得到对应的信号X1、X2;
对通过ADC采样得到对应的两路信号X1、X2进行加窗分帧;窗函数可选择Hamming窗;
(3)进行语音活动检测VAD检测,若检测到语音信号进行(4)操作,否则进行(2)操作;
(4)对两路各帧信号进行傅里叶变换FFT获得频域信号;
Xi(ω)=FFT[xi(n)],i=1,2;
(5)计算两路信号的互功率谱;
Figure FDA0003937408270000011
(6)计算提出的改进的频域加权函数,对两路信号的互功率谱进行加权;
Figure FDA0003937408270000012
Figure FDA0003937408270000021
(7)采用傅里叶逆变换得到两路信号的互相关函数;
Figure FDA0003937408270000022
(8)通过对互相关函数进行峰值检测即可获得两路信号各帧的相对时延;
Figure FDA0003937408270000023
(9)剔除异常时延估计值即可估计出两路信号的相对时延;
所述(6)中改进的频域加权函数Wqγβ(ω),实现步骤为:
Figure FDA0003937408270000024
Figure FDA0003937408270000025
Figure FDA0003937408270000026
式中γ和β是和信噪比相关的一个参数,根据信噪比的大小调节γ和β的取值,参数q根据混响能量比估计。
2.如权利要求1所述的基于麦克风阵列的声源定位时延估计方法,其特征在于,所述(9)中剔除异常时延估计值,引入时延后处理模块,用于平滑时延估计,表达式为:
Figure FDA0003937408270000027
其中,τi代表第i帧时延估计值,
Figure FDA0003937408270000028
代表前三帧时延估计值的平均值,σ为时延估计值与平均时延之间的相对误差的阈值。
3.如权利要求1~2任意一项所述基于麦克风阵列的声源定位时延估计方法,其特征在于,所述基于麦克风阵列的声源定位时延估计方法应用于声源定位***。
4.如权利要求1~2任意一项所述基于麦克风阵列的声源定位时延估计方法,其特征在于,所述基于麦克风阵列的声源定位时延估计方法应用于低空飞机、火炮发声目标定位***。
5.如权利要求1~2任意一项所述基于麦克风阵列的声源定位时延估计方法,其特征在于,所述基于麦克风阵列的声源定位时延估计方法应用于雷达定位***。
6.如权利要求1~2任意一项所述基于麦克风阵列的声源定位时延估计方法,其特征在于,所述基于麦克风阵列的声源定位时延估计方法应用于视频会议***。
CN201910186091.5A 2019-03-12 2019-03-12 基于麦克风阵列的声源定位时延估计方法、声源定位*** Active CN110082725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910186091.5A CN110082725B (zh) 2019-03-12 2019-03-12 基于麦克风阵列的声源定位时延估计方法、声源定位***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910186091.5A CN110082725B (zh) 2019-03-12 2019-03-12 基于麦克风阵列的声源定位时延估计方法、声源定位***

Publications (2)

Publication Number Publication Date
CN110082725A CN110082725A (zh) 2019-08-02
CN110082725B true CN110082725B (zh) 2023-02-28

Family

ID=67412407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910186091.5A Active CN110082725B (zh) 2019-03-12 2019-03-12 基于麦克风阵列的声源定位时延估计方法、声源定位***

Country Status (1)

Country Link
CN (1) CN110082725B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110740404B (zh) * 2019-09-27 2020-12-25 广州励丰文化科技股份有限公司 一种音频相关性的处理方法及音频处理装置
CN113948098A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 一种立体声音频信号时延估计方法及装置
CN112363112B (zh) * 2020-10-13 2024-04-09 厦门亿联网络技术股份有限公司 一种基于线性麦克风阵列的声源定位方法及装置
CN112394324A (zh) * 2020-10-21 2021-02-23 西安合谱声学科技有限公司 一种基于麦克风阵列的远距离声源定位的方法及***
CN112540346A (zh) * 2020-12-07 2021-03-23 国网山西省电力公司大同供电公司 一种基于信噪比权重优化更新的声源定位方法
CN112904278B (zh) * 2021-01-19 2024-02-20 中国科学院上海微***与信息技术研究所 一种基于声音信号起始点估计信号间时延的方法
CN112485761B (zh) * 2021-02-03 2021-04-09 成都启英泰伦科技有限公司 一种基于双麦克风的声源定位方法
EP4323806A1 (en) * 2021-04-13 2024-02-21 B.G. Negev Technologies and Applications Ltd., at Ben-Gurion University System and method for estimating direction of arrival and delays of early room reflections
CN113484823B (zh) * 2021-06-21 2024-03-29 南京航空航天大学 一种基于闭式补偿的高分辨率时延估计方法
CN113687304A (zh) * 2021-07-07 2021-11-23 浙江大华技术股份有限公司 直达声检测方法、***以及计算机可读存储介质
CN113655440B (zh) * 2021-08-09 2023-05-30 西南科技大学 一种自适应折中预白化的声源定位方法
CN113777412B (zh) * 2021-08-11 2024-03-19 中电科思仪科技股份有限公司 一种提高天线方向图零深位置测试精度的方法
CN113655441B (zh) * 2021-08-11 2023-05-30 西南科技大学 一种低复杂度折中预白化的鲁棒声源定位方法
CN113687307B (zh) * 2021-08-19 2023-08-18 中国人民解放军海军工程大学 低信噪比及混响环境下的自适应波束成形方法
CN113567926A (zh) * 2021-09-24 2021-10-29 杭州格物智安科技有限公司 一种设备跟踪方法、***及装置
CN115586493A (zh) * 2022-12-12 2023-01-10 杭州兆华电子股份有限公司 一种基于gcc-path方法的噪声定位方法及***
CN116047413B (zh) * 2023-03-31 2023-06-23 长沙东玛克信息科技有限公司 一种封闭混响环境下的音频精准定位方法
CN116299182A (zh) * 2023-05-11 2023-06-23 深圳市烽火宏声科技有限公司 一种声源三维定位的方法及装置
CN117214814A (zh) * 2023-09-12 2023-12-12 重庆市特种设备检测研究院 基于噪声角谱减法的互相关声源doa估计方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位***
CN109188362A (zh) * 2018-09-03 2019-01-11 中国科学院声学研究所 一种麦克风阵列声源定位信号处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6999593B2 (en) * 2003-05-28 2006-02-14 Microsoft Corporation System and process for robust sound source localization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位***
CN109188362A (zh) * 2018-09-03 2019-01-11 中国科学院声学研究所 一种麦克风阵列声源定位信号处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
麦克风阵列声源定位中时延估计的改进;张雷岳等;《南京大学学报(自然科学)》;20150130(第01期);全文 *

Also Published As

Publication number Publication date
CN110082725A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110082725B (zh) 基于麦克风阵列的声源定位时延估计方法、声源定位***
CN108375763B (zh) 一种应用于多声源环境的分频定位方法
CN103308889B (zh) 复杂环境下被动声源二维doa估计方法
CN109188362B (zh) 一种麦克风阵列声源定位信号处理方法
CN103117064A (zh) 处理信号
CN110534126B (zh) 一种基于固定波束形成的声源定位和语音增强方法及***
CN106646350B (zh) 一种单只矢量水听器各通道幅度增益不一致时的修正方法
CN109541548B (zh) 一种基于匹配场的空气声呐定位方法
CN111798869B (zh) 一种基于双麦克风阵列的声源定位方法
CN111474521A (zh) 多径环境中基于麦克风阵列的声源定位方法
CN113702909A (zh) 一种基于声音信号到达时间差的声源定位解析解计算方法及装置
JPH10207490A (ja) 信号処理装置
KR101733231B1 (ko) 음원의 3차원 위치 파악 방법 및 그 장치와, 음원의 3차원 위치를 이용한 음질 개선 방법 및 그 장치
CN106683685B (zh) 基于最小二乘法的目标方向语音检测方法
CN106782618B (zh) 基于二阶锥规划的目标方向语音检测方法
CN108152796B (zh) 一种基于灰色卡尔曼滤波的主瓣移动干扰消除方法
Wan et al. Improved steered response power method for sound source localization based on principal eigenvector
CN112731292B (zh) 局部imf能量加权的低空飞行目标信号时延估计方法
JP3720795B2 (ja) 音源受音位置推定方法、装置、およびプログラム
JP2005077205A (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
CN114755628A (zh) 非均匀噪声下声矢量传感器阵列波达方向估计方法
Garcia-Barrios et al. Exploiting spatial diversity for increasing the robustness of sound source localization systems against reverberation
Xu et al. Sound Source Localization of Firearms Based on TDOA Optimization Algorithm
CN111157949A (zh) 一种语音识别及声源定位方法
Hadad et al. Maximum likelihood multi-speaker direction of arrival estimation utilizing a weighted histogram

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant