CN112904279B - 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 - Google Patents
基于卷积神经网络和子带srp-phat空间谱的声源定位方法 Download PDFInfo
- Publication number
- CN112904279B CN112904279B CN202110059164.1A CN202110059164A CN112904279B CN 112904279 B CN112904279 B CN 112904279B CN 202110059164 A CN202110059164 A CN 202110059164A CN 112904279 B CN112904279 B CN 112904279B
- Authority
- CN
- China
- Prior art keywords
- srp
- subband
- phat
- frame
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001228 spectrum Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 62
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 230000004807 localization Effects 0.000 claims abstract description 18
- 238000009432 framing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 8
- 238000005316 response function Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 abstract description 36
- 230000008569 process Effects 0.000 abstract description 8
- 230000000694 effects Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Remote Sensing (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Radar, Positioning & Navigation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于卷积神经网络和子带SRP‑PHAT空间谱的声源定位方法,包括:麦克风阵列采集语音信号,对采集的语音信号进行分帧和加窗的预处理得到单帧信号;计算每帧信号的子带SRP‑PHAT空间谱矩阵;将所有帧信号的子带SRP‑PHAT空间谱矩阵输入训练完成的卷积神经网络,输出语音信号属于每个方位角的概率,取概率最大的方位角作为该语音信号的声源方位角估计值。本发明可提高麦克风阵列在复杂声学环境下的声源定位性能,提高对声源空间结构、混响和噪声的泛化能力;可离线完成卷积神经网络的训练过程,将训练好的卷积神经网络保存于内存中,测试时仅需要一帧信号就可以实现实时声源定位。
Description
技术领域
本发明属于声源定位领域,具体涉及一种基于卷积神经网络和子带SRP-PHAT空间谱的声源定位方法。
背景技术
基于麦克风阵列的声源定位技术在语音识别、说话人识别、情感识别***的前端处理中,以及视频会议、智能机器人、智能家居、智能车载设备、助听器等方面有着广泛的应用前景和潜在的经济价值。传统声源定位方法中以SRP-PHAT(Steered Response Power-Phase Transform)方法最为流行和常用,该方法通过检测空间谱的峰值实现声源定位,但噪声和混响常导致空间谱呈现多峰特性,尤其在强混响环境中,反射声产生的空间谱峰值可能大于直达声的峰值,导致声源位置检测错误。近年来,基于模型的声源定位方法被用来在复杂声学环境中进行定位,这类方法通过对空间特征参数建模,构建声源位置和空间特征参数之间的映射关系,从而实现声源定位,但目前该类算法对未知环境(噪声和混响)的泛化能力较低,性能还有待进一步提高。空间特征参数和建模方法是影响基于模型的声源定位方法性能的主要因素。
发明内容
发明目的:为了克服现有技术中存在的问题,本发明公开了一种基于卷积神经网络和子带SRP-PHAT空间谱的声源定位方法,采用子带SRP-PHAT空间谱作为空间特征参数,采用卷积神经网络(Convolutional Neural Network,CNN)对多种混响和噪声环境下的方向性语音数据的空间特征参数建模,可提高麦克风阵列在复杂声学环境下的声源定位性能,提高对声源空间结构、混响和噪声的泛化能力。
技术方案:为实现上述目的,本发明采用如下技术方案:一种基于卷积神经网络和子带SRP-PHAT空间谱的声源定位方法,其特征在于,包括如下步骤:
S1、麦克风阵列采集语音信号,对采集的语音信号进行分帧和加窗的预处理得到单帧信号;
S2、计算每帧信号的子带SRP-PHAT空间谱矩阵;
S3、将所有帧信号的子带SRP-PHAT空间谱矩阵输入训练完成的卷积神经网络,输出语音信号属于每个方位角的概率,取概率最大的方位角作为该语音信号的声源方位角估计值。
优选地,步骤S2中,计算每帧信号的子带SRP-PHAT空间谱矩阵包括如下步骤:
S21、对每帧信号进行离散傅里叶变换:
其中,xm(i,n)为麦克风阵列中第m个麦克风的第i帧信号,m=1,2,…,M,M为麦克风的数目,Xm(i,k)是xm(i,n)的离散傅里叶变换,表示第m个麦克风第i帧的频域信号,k为频率点,K为离散傅里叶变换的长度,N为帧长,K=2N,DFT(·)表示离散傅里叶变换;
S22、设计Gammatone滤波器组的脉冲响应函数:
其中,j表示Gammatone滤波器的序号;C是Gammatone滤波器的增益;t表示连续时间;a为Gammatone滤波器的阶数;表示相位;fj表示第j个Gammatone滤波器的中心频率;bj表示第j个Gammatone滤波器的衰减因子,bj计算公式为:
bj=1.109ERB(fj)
ERB(fj)=24.7(4.37fj/1000+1)
对每个Gammatone滤波器的脉冲响应函数进行离散傅里叶变换:
其中,Gj(k)是第j个Gammatone滤波器的频域表达式,k为频率点,K为离散傅里叶变换的长度,N为帧长,K=2N,fs表示信号采样率,DFT(·)表示离散傅里叶变换;
S23、计算每帧信号的子带SRP-PHAT函数:
其中,P(i,j,r)表示波束方向为r时,第i帧信号的第j个子带SRP-PHAT函数;M为麦克风阵列中麦克风的数目;τmn(r)表示声波从波束方向r传播到第m个麦克风和第n个麦克风的时间差,其计算公式为:
其中,r表示波束方向的坐标,rm表示第m个麦克风的位置坐标,rn表示第n个麦克风的位置坐标,c为空气中的声速;
S24、对每帧信号的子带SRP-PHAT函数进行归一化处理:
S25、将同一帧信号的所有的子带SRP-PHAT函数组合为矩阵形式,得到子带SRP-PHAT空间谱矩阵:
其中,y(i)表示第i帧信号的子带SRP-PHAT空间谱矩阵,J为子带个数,即Gammatone滤波器的个数,L为波束方向的个数。
优选地,步骤S23中,当设定声源与麦克风阵列处于同一水平面,声源位于麦克风阵列的远场时,τmn(r)的等价计算公式为:
其中,ξ=[cosθ,sinθ]T,θ为波束方向r的方位角。
优选地,卷积神经网络包括依次连接的一个输入层、三个卷积-池化层、一个全连接层和一个输出层;
卷积-池化层中,每个卷积层采用大小为3×3的卷积核,步长为1,三层卷积层的卷积核个数依次为24、48和96,每个卷积层进行卷积操作后,先进行批量归一化,再使用ReLU函数激活,卷积操作中采用补零的方式使得卷积前后的特征维度保持不变;池化层采用最大池化方式,池化大小为2×2,步长为2;
卷积-池化层后,将特征数据拉直变形为一维向量特征数据;
全连接层与一维向量特征数据的连接中加入Dropout连接方式;
输出层采用Softmax分类器。
优选地,卷积神经网络的训练步骤如下:
S1、将纯净语音信号与不同方位角的房间脉冲响应卷积,并加上不同程度的噪声和混响,生成多个不同指定方位角的方向性语音信号:
xm(t)=hm(t)*s(t)+vm(t),m=1,2,...,M
其中,xm(t)表示麦克风阵列中第m个麦克风接收到的指定方位角的方向性语音信号;m为麦克风的序号,m=1,2,…,M,M为麦克风的数目;s(t)为纯净语音信号;hm(t)表示从指定方位角到第m个麦克风的房间脉冲响应;vm(t)表示噪声;
S2、对所有方向性语音信号进行分帧和加窗的预处理得到单帧信号,并计算每帧信号的子带SRP-PHAT空间谱矩阵;
S3、将所有方向性语音信号的子带SRP-PHAT空间谱矩阵作为训练样本,将所有方向性语音信号的指定方位角作为对应训练样本的类别标签,将训练样本和类别标签作为训练数据集,采用带动量的随机梯度下降算法最小化损失函数来对卷积神经网络进行训练。
有益效果:本发明具有如下显著的有益效果:
1、本发明可提高麦克风阵列在复杂声学环境下的声源定位性能,提高对声源空间结构、混响和噪声的泛化能力;
2、本发明采用子带SRP-PHAT空间谱作为空间特征参数,该参数不仅能表征整体声学环境信息,而且具有鲁棒性强的优点;采用卷积神经网络对多种混响和噪声环境下的方向性语音数据的空间特征参数建模,建立方位与空间特征参数的映射关系,将声源定位问题转化为多分类问题;
3、本发明可离线完成卷积神经网络的训练过程,将训练好的卷积神经网络保存于内存中,测试时仅需要一帧信号就可以实现实时声源定位。
附图说明
图1为本发明的算法流程图;
图2为本发明中卷积神经网络的模型结构图;
图3为在测试环境和训练环境一致且混响时间为0.5s时,本发明所述方法与传统SRP-PHAT算法的定位成功率的对比图;
图4为在测试环境和训练环境一致且混响时间为0.8s时,本发明所述方法与传统SRP-PHAT算法的定位成功率的对比图;
图5为在测试环境和训练环境的噪声环境不一致且混响时间均为0.5s时,本发明所述方法与传统SRP-PHAT算法的定位成功率的对比图;
图6为在测试环境和训练环境的噪声环境不一致且混响时间均为0.8s时,本发明所述方法与传统SRP-PHAT算法的定位成功率的对比图;
图7为在测试环境和训练环境的混响环境不一致且测试环境的混响时间为0.6s时,本发明所述方法与传统SRP-PHAT算法的定位成功率的对比图;
图8为在测试环境和训练环境的混响环境不一致且测试环境的混响时间为0.9s时,本发明所述方法与传统SRP-PHAT算法的定位成功率的对比图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
子带SRP-PHAT空间谱表征了整体的声学环境空间信息,包括声源方位、房间尺寸和房间反射特征等,而且具有较强鲁棒性,可以作为定位***中的空间特征参数。深度神经网络可以模拟神经***信息处理的模式,能够描述空间特征参数之间的融合关系和结构信息,具有强大的表达和建模能力,与此同时,建模时无需对数据的分布性进行假设。其中,卷积神经网络是一种专门用来处理具有类似网络结构的数据的神经网络,在图像或时间序列的数据中得到应用。麦克风阵列采集的语音信号正是一种时间序列数据。
因此,本发明提出了一种基于卷积神经网络和子带SRP-PHAT空间谱的声源定位方法,如图1所示,包括如下步骤:
步骤一:将纯净语音信号与不同方位角的房间脉冲响应卷积,并加上不同程度的噪声和混响,生成多个不同指定方位角的方向性语音信号,即麦克风阵列信号:
xm(t)=hm(t)*s(t)+vm(t),m=1,2,...,M
其中,xm(t)表示麦克风阵列中第m个麦克风接收到的指定方位角的方向性语音信号;m为麦克风的序号,m=1,2,…,M,M为麦克风的数目;s(t)为纯净语音信号;hm(t)表示从指定方位角到第m个麦克风的房间脉冲响应,hm(t)与声源方位、房间混响有关;vm(t)表示噪声。
本实施例中设定麦克风阵列是由6个全向麦克风组成的均匀圆阵,阵列半径为0.1m。设定声源与麦克风阵列处于同一水平面,声源位于麦克风阵列的远场。定义水平面的正前方为90°,声源的方位角的范围为[0°,360°),间隔为10°,训练方位的个数标记为F,则F等于36。训练数据的混响时间包括0.5s和0.8s,由Image算法产生不同混响时间下不同方位角的房间脉冲响应hm(t)。vm(t)为高斯白噪声,训练数据的信噪比包括0dB、5dB、10dB、15dB和20dB。
步骤二、将步骤一中得到的麦克风阵列信号进行预处理获得单帧信号。
预处理包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将第m个麦克风的指定方位角的方向性语音信号xm(t)划分为多个单帧信号xm(iN+n),其中i为帧序号,n表示一帧内的采样序号,0≤n<N,N为分帧长度。本实施例中信号采样率fs为16kHz,采取的分帧长度N为512(即32ms),帧移为0。
加窗方法为:xm(i,n)=wH(n)xm(iN+n),其中xm(i,n)为加窗处理后的第m个麦克风的第i帧信号,为汉明窗。
步骤三、提取麦克风阵列信号的空间特征参数,即子带SRP-PHAT空间谱矩阵。具体包括:
(3-1)、对步骤二中得到的每帧信号进行离散傅里叶变换,将时域信号转换为频域信号。
离散傅里叶变换计算公式为:
其中,Xm(i,k)是xm(i,n)的离散傅里叶变换,表示第m个麦克风第i帧的频域信号,k为频率点,K为离散傅里叶变换的长度,K=2N,DFT(·)表示离散傅里叶变换。本实施例中设定离散傅里叶变换的长度为1024。
(3-2)、设计Gammatone滤波器组。
gj(t)为第j个Gammatone滤波器的脉冲响应函数,其表达式为:
其中,j表示Gammatone滤波器的序号;C是Gammatone滤波器的增益;t表示连续时间;a为Gammatone滤波器的阶数;表示相位;fj表示第j个Gammatone滤波器的中心频率;bj表示第j个Gammatone滤波器的衰减因子,bj计算公式为:
bj=1.109ERB(fj)
ERB(fj)=24.7(4.37fj/1000+1)
本实施例中阶数a为4,相位设置为0,Gammatone滤波器的个数为36,即j=1,2,…,36,Gammatone滤波器的中心频率fj的范围为[200Hz,8000Hz]。
对每个Gammatone滤波器的脉冲响应函数进行离散傅里叶变换,得到其频域表达式:
其中,Gj(k)是gj(n/fs)的离散傅里叶变换,表示第j个Gammatone滤波器的频域表达式,k为频率点,K为离散傅里叶变换的长度,K=2N,DFT(·)表示离散傅里叶变换,fs表示采样率。本实施例中设定离散傅里叶变换的长度为1024。
(3-3)、计算每帧信号的子带SRP-PHAT函数,计算公式如下:
其中,P(i,j,r)表示阵列的波束方向为r时,第i帧信号的第j个子带SRP-PHAT函数;(·)*表示共轭;τmn(r)表示声波从波束方向r传播到第m个麦克风和第n个麦克风的时间差,其计算公式为:
其中,r表示波束方向的坐标,rm表示第m个麦克风的位置坐标,rn表示第n个麦克风的位置坐标,c为空气中的声速,常温下约为342m/s,fs为信号采样率;||·||表示2范数。
本实施例中设定声源与麦克风阵列处于同一水平面,声源位于麦克风阵列的远场,则τmn(r)的等价计算公式为:
其中,ξ=[cosθ,sinθ]T,θ为波束方向r的方位角。τmn(r)与接收信号无关,因而可以离线计算后保存于内存中。
对子带SRP-PHAT函数P(i,j,r)进行归一化处理,计算公式如下:
(3-4)、将同一帧信号的所有的子带SRP-PHAT函数组合为矩阵形式,得到子带SRP-PHAT空间谱矩阵:
其中,y(i)表示第i帧信号的空间特征参数,即子带SRP-PHAT空间谱矩阵,J为子带个数,即Gammatone滤波器的个数,本实施例中J=36。定义水平面的正前方为90°,本实施例中阵列的波束方向的方位范围为[0°,360°),间隔为5°,因此波束方向的个数L=72。通常取波束方向的个数L大于训练方位的个数F,因此能够提高信号的空间特征参数的精度,从而提高CNN模型的训练精度。
步骤四、准备训练集:按照步骤一至步骤三,提取所有训练环境下(训练环境的实施设置详见步骤一)方向性语音信号的空间特征参数,将其作为CNN的训练样本,同时标记每个训练样本的对应的指定方位角,将其作为训练样本的类别标签。
步骤五、构建CNN模型,将步骤四得到的训练样本和类别标签作为CNN的训练数据集,进行训练,从而得到CNN模型。具体包括:
(5-1)、设定CNN模型结构。
本发明采用的CNN结构如图2所示,包括一个输入层,其后紧跟三个卷积-池化层,然后是全连接层,最后是输出层。
输入层的输入信号为J×L的二维子带SRP-PHAT空间谱矩阵,即训练样本,本实施例中,J=36,L=72。
输入层后紧跟着三个卷积-池化层,每个卷积层采用大小为3×3的卷积核,步长为1,卷积操作中采用补零的方式使得卷积前后的特征维度保持不变。第1、2、3个卷积层的卷积核个数分别为24、48和96。每个卷积层进行卷积操作后,先进行批量归一化,再使用ReLU函数激活。池化层采用最大池化方式,池化大小为2×2,步长为2。
经过三个卷积-池化操作,36×72的二维子带SRP-PHAT空间谱矩阵成为5×9×96特征数据,将其拉直变形为4320×1的一维向量特征数据。全连接层中的神经元连接到前一层中的所有特征数据,并加入Dropout的连接方式防止过拟合,Dropout率设置为0.5。
输出层采用Softmax分类器,Softmax函数将全连接层的特征数据转化为语音信号相对于每个方位角的概率,取概率最大的方位角作为预测的声源方向。
(5-2)、训练CNN模型的网络参数。
CNN的训练过程包括前向传播和反向传播两个部分。
前向传播是计算输入数据在当前网络参数下的输出,是特征的逐层传递过程,第d层中位置(u,v)处的前向传播表达式为:
Sd(u,v)=ReLU((Sd-1*wd)(u,v)+βd(u,v))
其中,d表示层标识且第d层为卷积层,Sd表示第d层的输出,Sd-1表示第d-1层的输出,*号表示卷积运算,wd表示第d层的卷积核权重,βd表示第d层的偏置,ReLU是激活函数。本发明采用的CNN结构中的层包括输入层、卷积-池化层中的卷积层和池化层、全连接层以及输出层。
D表示输出层,则输出层的表达式为:
SD=Softmax((wD)TSD-1+βD)
其中,SD表示输出层的输出,SD-1表示全连接层的输出,wD表示输出层的卷积核权重,βD表示输出层的偏置。
反向传播阶段的目标是最小化交叉熵损失函数E(w,β):
其中,下标f表示第f个方位角,表示输出层在第f个方位角的期望输出,/>表示输出层在第f个方位角的实际输出。F表示训练方位的个数,本实施例中F=36。本发明采用带动量的随机梯度下降(Stochastic Gradient Descent with Momentum,SGDM)算法最小化损失函数,SGDM的相关参数为:动量参数Momentum设置为0.9,L2正则化系数是0.0001,初始学习率设置为0.01,每6轮将学习率降低0.2倍,mini-batch设置为200。
本发明在训练过程中采用7∶3交叉验证的方式。多次迭代训练,直至收敛。至此,CNN模型训练完成。
步骤六、将测试信号按照步骤二、步骤三处理,得到单帧测试信号的空间特征参数,即子带SRP-PHAT空间谱矩阵,将其作为测试样本。
步骤七、将测试样本作为步骤四中训练完成的CNN模型的输入特征,CNN输出测试信号属于每个方位角的概率,取概率最大的方位作为该测试样本的声源方位角估计值。
与现有技术相比,本发明方法包含训练和测试两个阶段。在训练阶段,对多种混响和噪声环境下的方向性语音信号提取空间特征参数,将其输入CNN进行训练,得到CNN模型。测试阶段,提取测试信号的空间特征参数,输入训练好的CNN模型,取概率最大的方位作为目标声源方位估计值。本发明可离线完成CNN的训练过程,将训练好的CNN模型保存于内存中,测试时仅需要一帧信号就可以实现实时声源定位。与传统SRP-PHAT算法相比,本发明算法显著提高了复杂声学环境下的定位性能,并且对声源空间结构、混响和噪声都具有较好的泛化能力。
图3和图4展示了测试环境和训练环境一致时,本发明所述方法与传统SRP-PHAT算法的定位效果:图3中测试环境和训练环境的混响时间为0.5s,图4中测试环境和训练环境的混响时间为0.8s,分别研究测试环境和训练环境均在信噪比为0dB、5dB、10dB、15dB和20dB下的定位效果,可以看出本发明方法的定位成功率远高于传统SRP-PHAT算法。
图5和图6展示了测试环境和训练环境的信噪比不一致时,本发明所述方法与传统SRP-PHAT算法的定位效果:图5中测试环境和训练环境的混响时间均为0.5s,测试环境的信噪比与训练环境不同,图6中测试环境和训练环境的混响时间均为0.8s,测试环境的信噪比与训练环境不同,分别研究测试环境在信噪比为-2dB、3dB、8dB、13dB和18dB下的定位效果,可以看出本发明方法的定位成功率远高于传统SRP-PHAT算法。
图7和8展示了测试环境和训练环境的混响时间不一致时,本发明所述方法与传统SRP-PHAT算法的定位效果:图7中测试环境和训练环境的混响时间不同,测试环境的混响时间为0.6s,图8中测试环境和训练环境的混响时间不同,测试环境的混响时间为0.9s,分别研究测试环境和训练环境均在信噪比为0dB、5dB、10dB、15dB和20dB下的定位效果,可以看出本发明方法的定位成功率远高于传统SRP-PHAT算法。
从图5至图8中可以看出,即使在非训练环境下,本发明方法的成功率依旧远高于传统SRP-PHAT算法,说明了本发明方法对未知环境具有更好的鲁棒性和泛化能力。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于卷积神经网络和子带SRP-PHAT空间谱的声源定位方法,其特征在于,包括如下步骤:
S1、麦克风阵列采集语音信号,对采集的语音信号进行分帧和加窗的预处理得到单帧信号;
S2、计算每帧信号的子带SRP-PHAT空间谱矩阵;具体包括如下步骤:
S21、对每帧信号进行离散傅里叶变换:
其中,xm(i,n)为麦克风阵列中第m个麦克风的第i帧信号,m=1,2,…,M,M为麦克风的数目,Xm(i,k)是xm(i,n)的离散傅里叶变换,表示第m个麦克风第i帧的频域信号,k为频率点,K为离散傅里叶变换的长度,N为帧长,K=2N,DFT(·)表示离散傅里叶变换;
S22、设计Gammatone滤波器组的脉冲响应函数:
其中,j表示Gammatone滤波器的序号;C是Gammatone滤波器的增益;t表示连续时间;a为Gammatone滤波器的阶数;表示相位;fj表示第j个Gammatone滤波器的中心频率;bj表示第j个Gammatone滤波器的衰减因子,bj计算公式为:
bj=1.109ERB(fj)
ERB(fj)=24.7(4.37fj/1000+1)
对每个Gammatone滤波器的脉冲响应函数进行离散傅里叶变换:
其中,Gj(k)是第j个Gammatone滤波器的频域表达式,k为频率点,K为离散傅里叶变换的长度,N为帧长,K=2N,fs表示信号采样率,DFT(·)表示离散傅里叶变换;
S23、计算每帧信号的子带SRP-PHAT函数:
其中,P(i,j,r)表示波束方向为r时,第i帧信号的第j个子带SRP-PHAT函数;M为麦克风阵列中麦克风的数目;τmn(r)表示声波从波束方向r传播到第m个麦克风和第n个麦克风的时间差,其计算公式为:
其中,r表示波束方向的坐标,rm表示第m个麦克风的位置坐标,rn表示第n个麦克风的位置坐标,c为空气中的声速;
S24、对每帧信号的子带SRP-PHAT函数进行归一化处理:
S25、将同一帧信号的所有的子带SRP-PHAT函数组合为矩阵形式,得到子带SRP-PHAT空间谱矩阵:
其中,y(i)表示第i帧信号的子带SRP-PHAT空间谱矩阵,J为子带个数,即Gammatone滤波器的个数,L为波束方向的个数;
S3、将所有帧信号的子带SRP-PHAT空间谱矩阵输入训练完成的卷积神经网络,输出语音信号属于每个方位角的概率,取概率最大的方位角作为该语音信号的声源方位角估计值。
2.根据权利要求1所述的一种基于卷积神经网络和子带SRP-PHAT空间谱的声源定位方法,其特征在于,步骤S23中,当设定声源与麦克风阵列处于同一水平面,声源位于麦克风阵列的远场时,τmn(r)的等价计算公式为:
其中,ξ=[cosθ,sinθ]T,θ为波束方向r的方位角。
3.根据权利要求1所述的一种基于卷积神经网络和子带SRP-PHAT空间谱的声源定位方法,其特征在于,卷积神经网络包括依次连接的一个输入层、三个卷积-池化层、一个全连接层和一个输出层;
卷积-池化层中,每个卷积层采用大小为3×3的卷积核,步长为1,三层卷积层的卷积核个数依次为24、48和96,每个卷积层进行卷积操作后,先进行批量归一化,再使用ReLU函数激活,卷积操作中采用补零的方式使得卷积前后的特征维度保持不变;池化层采用最大池化方式,池化大小为2×2,步长为2;
卷积-池化层后,将特征数据拉直变形为一维向量特征数据;
全连接层与一维向量特征数据的连接中加入Dropout连接方式;
输出层采用Softmax分类器。
4.根据权利要求1所述的一种基于卷积神经网络和子带SRP-PHAT空间谱的声源定位方法,其特征在于,卷积神经网络的训练步骤如下:
S1、将纯净语音信号与不同方位角的房间脉冲响应卷积,并加上不同程度的噪声和混响,生成多个不同指定方位角的方向性语音信号:
xm(t)=hm(t)*s(t)+vm(t),m=1,2,...,M
其中,xm(t)表示麦克风阵列中第m个麦克风接收到的指定方位角的方向性语音信号;m为麦克风的序号,m=1,2,…,M,M为麦克风的数目;s(t)为纯净语音信号;hm(t)表示从指定方位角到第m个麦克风的房间脉冲响应;vm(t)表示噪声;
S2、对所有方向性语音信号进行分帧和加窗的预处理得到单帧信号,并计算每帧信号的子带SRP-PHAT空间谱矩阵;
S3、将所有方向性语音信号的子带SRP-PHAT空间谱矩阵作为训练样本,将所有方向性语音信号的指定方位角作为对应训练样本的类别标签,将训练样本和类别标签作为训练数据集,采用带动量的随机梯度下降算法最小化损失函数来对卷积神经网络进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110059164.1A CN112904279B (zh) | 2021-01-18 | 2021-01-18 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110059164.1A CN112904279B (zh) | 2021-01-18 | 2021-01-18 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112904279A CN112904279A (zh) | 2021-06-04 |
CN112904279B true CN112904279B (zh) | 2024-01-26 |
Family
ID=76114123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110059164.1A Active CN112904279B (zh) | 2021-01-18 | 2021-01-18 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112904279B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113655440B (zh) * | 2021-08-09 | 2023-05-30 | 西南科技大学 | 一种自适应折中预白化的声源定位方法 |
CN113589230B (zh) * | 2021-09-29 | 2022-02-22 | 广东省科学院智能制造研究所 | 一种基于联合优化网络的目标声源定位方法及*** |
CN114994608B (zh) * | 2022-04-21 | 2024-05-14 | 西北工业大学深圳研究院 | 基于深度学习的多设备自组织麦克风阵列声源定位方法 |
CN114897033B (zh) * | 2022-07-13 | 2022-09-27 | 中国人民解放军海军工程大学 | 用于多波束窄带历程数据的三维卷积核组计算方法 |
CN115201753B (zh) * | 2022-09-19 | 2022-11-29 | 泉州市音符算子科技有限公司 | 一种低功耗多频谱分辨的语音定位方法 |
CN115331691A (zh) * | 2022-10-13 | 2022-11-11 | 广州成至智能机器科技有限公司 | 无人机拾音方法、装置、无人机及计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109164415A (zh) * | 2018-09-07 | 2019-01-08 | 东南大学 | 一种基于卷积神经网络的双耳声源定位方法 |
CN109490822A (zh) * | 2018-10-16 | 2019-03-19 | 南京信息工程大学 | 基于ResNet的语音DOA估计方法 |
CN110133572A (zh) * | 2019-05-21 | 2019-08-16 | 南京林业大学 | 一种基于Gammatone滤波器和直方图的多声源定位方法 |
CN110133596A (zh) * | 2019-05-13 | 2019-08-16 | 南京林业大学 | 一种基于频点信噪比和偏置软判决的阵列声源定位方法 |
CN110517705A (zh) * | 2019-08-29 | 2019-11-29 | 北京大学深圳研究生院 | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和*** |
CN110544490A (zh) * | 2019-07-30 | 2019-12-06 | 南京林业大学 | 一种基于高斯混合模型和空间功率谱特征的声源定位方法 |
WO2020042708A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN111123202A (zh) * | 2020-01-06 | 2020-05-08 | 北京大学 | 一种室内早期反射声定位方法及*** |
CN111583948A (zh) * | 2020-05-09 | 2020-08-25 | 南京工程学院 | 一种改进的多通道语音增强***和方法 |
CN111707990A (zh) * | 2020-08-19 | 2020-09-25 | 东南大学 | 一种基于密集卷积网络的双耳声源定位方法 |
CN111968677A (zh) * | 2020-08-21 | 2020-11-20 | 南京工程学院 | 面向免验配助听器的语音质量自评估方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101090893B1 (ko) * | 2010-03-15 | 2011-12-08 | 한국과학기술연구원 | 음원 방향 검지 시스템 및 방법 |
-
2021
- 2021-01-18 CN CN202110059164.1A patent/CN112904279B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020042708A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN109164415A (zh) * | 2018-09-07 | 2019-01-08 | 东南大学 | 一种基于卷积神经网络的双耳声源定位方法 |
CN109490822A (zh) * | 2018-10-16 | 2019-03-19 | 南京信息工程大学 | 基于ResNet的语音DOA估计方法 |
CN110133596A (zh) * | 2019-05-13 | 2019-08-16 | 南京林业大学 | 一种基于频点信噪比和偏置软判决的阵列声源定位方法 |
CN110133572A (zh) * | 2019-05-21 | 2019-08-16 | 南京林业大学 | 一种基于Gammatone滤波器和直方图的多声源定位方法 |
CN110544490A (zh) * | 2019-07-30 | 2019-12-06 | 南京林业大学 | 一种基于高斯混合模型和空间功率谱特征的声源定位方法 |
CN110517705A (zh) * | 2019-08-29 | 2019-11-29 | 北京大学深圳研究生院 | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和*** |
CN111123202A (zh) * | 2020-01-06 | 2020-05-08 | 北京大学 | 一种室内早期反射声定位方法及*** |
CN111583948A (zh) * | 2020-05-09 | 2020-08-25 | 南京工程学院 | 一种改进的多通道语音增强***和方法 |
CN111707990A (zh) * | 2020-08-19 | 2020-09-25 | 东南大学 | 一种基于密集卷积网络的双耳声源定位方法 |
CN111968677A (zh) * | 2020-08-21 | 2020-11-20 | 南京工程学院 | 面向免验配助听器的语音质量自评估方法 |
Non-Patent Citations (5)
Title |
---|
Deep and CNN fusion method for binaural sound source localization;S. Jiang, W. L., P. Yuan, Y. Sun and H. Liu;《The Journal of Engineering》;511–516 * |
End-to-end Binaural Sound Localisation from the Raw Waveform;Vecchiotti等;《IEEE》;451-455 * |
Sound Source Localization Based on SRP-PHAT Spatial Spectrum and Deep Neural Network;Xiaoyan Zhao 等;《Computers, Materials & Continua 》;第253-271页 * |
基于卷积神经网络的交通声音事件识别方法;张文涛;韩莹莹;黎恒;;现代电子技术(第14期);全文 * |
基于神经网络的鲁棒双耳声源定位研究;王茜茜;《中国优秀硕士学位论文全文数据库 信息科技辑》;I136-129 * |
Also Published As
Publication number | Publication date |
---|---|
CN112904279A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112904279B (zh) | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 | |
CN107703486B (zh) | 一种基于卷积神经网络cnn的声源定位方法 | |
CN109490822B (zh) | 基于ResNet的语音DOA估计方法 | |
CN1664610B (zh) | 使用传声器阵列聚束的方法 | |
CN112151059A (zh) | 面向麦克风阵列的通道注意力加权的语音增强方法 | |
CN110068795A (zh) | 一种基于卷积神经网络的室内麦克风阵列声源定位方法 | |
US20040175006A1 (en) | Microphone array, method and apparatus for forming constant directivity beams using the same, and method and apparatus for estimating acoustic source direction using the same | |
CN107167770A (zh) | 一种混响条件下的麦克风阵列声源定位装置 | |
CN107527626A (zh) | 一种音频识别*** | |
CN110444220B (zh) | 一种多模态远程语音感知方法及装置 | |
CN110610718A (zh) | 一种提取期望声源语音信号的方法及装置 | |
Aroudi et al. | Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation | |
CN112363112A (zh) | 一种基于线性麦克风阵列的声源定位方法及装置 | |
CN114245266B (zh) | 小型麦克风阵列设备的区域拾音方法及*** | |
CN113111765B (zh) | 一种基于深度学习的多语音源计数和定位方法 | |
CN112180318B (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
CN111123202B (zh) | 一种室内早期反射声定位方法及*** | |
CN116559778B (zh) | 一种基于深度学习的车辆鸣笛定位方法及*** | |
CN113593596A (zh) | 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法 | |
CN116859336A (zh) | 一种声源定位的高精度实现方法 | |
CN111443328A (zh) | 基于深度学习的声音事件检测与定位方法 | |
CN110838303A (zh) | 一种利用传声器阵列的语音声源定位方法 | |
Wang et al. | U-net based direct-path dominance test for robust direction-of-arrival estimation | |
Firoozabadi et al. | Combination of nested microphone array and subband processing for multiple simultaneous speaker localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |