CN113111765B - 一种基于深度学习的多语音源计数和定位方法 - Google Patents

一种基于深度学习的多语音源计数和定位方法 Download PDF

Info

Publication number
CN113111765B
CN113111765B CN202110379637.6A CN202110379637A CN113111765B CN 113111765 B CN113111765 B CN 113111765B CN 202110379637 A CN202110379637 A CN 202110379637A CN 113111765 B CN113111765 B CN 113111765B
Authority
CN
China
Prior art keywords
sound source
doa
sources
estimation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110379637.6A
Other languages
English (en)
Other versions
CN113111765A (zh
Inventor
潘翔
张敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110379637.6A priority Critical patent/CN113111765B/zh
Publication of CN113111765A publication Critical patent/CN113111765A/zh
Application granted granted Critical
Publication of CN113111765B publication Critical patent/CN113111765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于深度学习的多语音源计数和定位方法。包括:根据像源法的房间冲激响应模型构造麦克风阵列接收的多语音源信号;对麦克风阵列信号进行特征提取,提取相位变换加权的广义互相关系数和对数梅尔谱;神经网络训练提取到的输入特征,对声源个数估计和到达角估计做多任务学习的训练;根据声源个数的估计值,对到达角估计预测值进行峰值检测,峰值出现的位置即为多个语音源的到达角估计值。本发明能在未知声源个数的前提下对含有多个语音源的信号进行声源计数和到达角估计,能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能,对混响的环境具有一定的鲁棒性。

Description

一种基于深度学习的多语音源计数和定位方法
技术领域
本发明涉及声源定位技术领域,尤其涉及一种基于深度学习的未知声源个数的多语音源计数和定位方法。
背景技术
准确估计语音源的方位角是许多应用中的关键要素。如在电话会议中,利用说话人的位置知识来操控摄像机的转动,或通过波束形成实现对目标信号的增强,声源事件检测和跟踪,以及未知环境中的机器人移动等应用。在实际场景中,除了环境噪声和混响外,往往可能含有多个说话人,由于多个声源之间的混叠效应使得多语音源的定位更加困难。多数传统的高分辨率定位算法都是针对窄带信号提出来的,而语音信号是宽带非平稳信号且能量主要集中在低频成分,这些传统算法在小尺度阵列上存在对语音信号定位分辨率不足的问题,在大混响和低信噪比时定位性能也显著下降。基于深度学习的方法,多数将多语音源问题当做多标签分类问题求解,通过神经网络得到声源出现在所划分的类别中的后验概率,最大值出现的类别即为声源到达方位。定位精度与类别划分的精度相关,而且需要知道声源数目,在实际应用中受到很多限制。
发明内容
针对现有技术存在的问题,本发明所要解决的问题是,提供一种基于深度学习的小尺度麦克风阵列定位算法,实现对多个语音源的计数和到达角估计。
本发明所采用的技术方案是:一种基于深度学习的多语音源计数和定位方法,该方法包括以下步骤:
步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;
步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;
步骤3:训练神经网络,对声源个数估计和到达角(direction-of-arrival,DOA)估计做多任务学习训练;
步骤4:输出声源个数估计值和DOA估计值。
进一步地,所述步骤1构造室内混响环境下含有多个语音源的训练数据,具体步骤如下:
麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积:
Figure BDA0003012480190000021
其中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,
Figure BDA0003012480190000022
表示卷积操作,
Figure BDA0003012480190000023
Figure BDA0003012480190000024
表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,
Figure BDA0003012480190000025
根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
进一步地,所述步骤2具体包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数(generalized correlation coefficient with phasetransform,GCC-PHAT),计算公式如下所示:
Figure BDA0003012480190000026
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
Figure BDA0003012480190000027
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
进一步地,所述步骤3具体如下:
将提取的特征输入到深度神经网络进行训练。输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元(Gated Recurrent Unit,GRU),最后分为两路输出。一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值
Figure BDA0003012480190000028
其中全连接层的神经元个数为N1;另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值
Figure BDA0003012480190000029
其中全连接层的神经元个数为N2
声源个数估计问题作为多分类模型求解,每个个数取值作为一个类别,采用交叉熵作为损失函数,计算公式如下:
Figure BDA0003012480190000031
其中p(xn)表示属于第n个类别的真实概率,
Figure BDA0003012480190000032
表示预测属于第n个类别的概率。
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
Figure BDA0003012480190000033
其中y(i)代表θi角度的标签值,K代表声源个数,
Figure BDA0003012480190000034
代表第j个声源的真实角度值,θi代表麦克风阵列可以有效估计的到达角范围内的任意角度值,σ是控制高斯函数的参数。
DOA估计问题采用均方误差作为损失函数,计算公式如下:
Figure BDA0003012480190000035
其中
Figure BDA0003012480190000036
表示角度值为θn时的预测值;
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1。在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型。
进一步地,所述步骤4具体如下:
对麦克风阵列接收到的声源信号进行特征提取,将提取的特征输入到步骤3训练得到的网络模型,得到声源个数预测值
Figure BDA0003012480190000037
和DOA预测值
Figure BDA0003012480190000038
Figure BDA0003012480190000039
的最大值对应的类别即为声源个数估计值
Figure BDA00030124801900000310
Figure BDA00030124801900000311
进行峰值检测,前
Figure BDA00030124801900000312
个最大峰值出现的位置即为DOA估计值。
本发明的有益效果是:本发明提出的一种基于深度学习的多语音源计数和定位方法,通过对麦克风阵列信号提取相位变换的广义互相关系数和对数梅尔谱,将其作为输入特征对神经网络进行训练,对声源个数估计和到达角估计做多任务学习训练,能在未知声源个数的情况下,对含有多个语音源的信号进行到达角估计。与传统的定位算法和其他深度学习的方法相比,能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能,对混响的环境具有一定的鲁棒性。
附图说明
图1是本发明具体实施例中基于深度学习的多语音源计数和定位方法流程图;
图2是本发明具体实施例中多语音源计数和定位的网络结构图;
图3是本发明具体实施例中多语音源定位测试结果图。
具体实施方式
下面结合实施例和附图对本发明提出的一种基于深度学习的多语音源计数和定位方法做出详细说明。
图1给出了本发明的总体流程图。在神经网络训练阶段,首先根据像源法构造房间冲激响应模型来模拟麦克风阵列接收到的声源信号,然后对麦克风阵列接收信号进行特征提取,将提取的信号特征输入到神经网络进行训练,网络模型为声源计数和到达角估计的多任务模型,多次迭代优化后得到训练好的网络模型。在推理测试阶段,对麦克风阵列接收到的声源信号进行特征提取后,输入到训练阶段得到的最优网络模型中,得到声源数目的估计值
Figure BDA0003012480190000041
最后对神经网络的DOA估计输出值进行峰值检测,前
Figure BDA0003012480190000042
个峰值出现的位置即为声源的DOA估计值。
本发明的技术方法具体实施方式如下:
步骤1,根据像源法的房间冲激响应模型模拟麦克风阵列接收到的声源信号,构造室内混响环境下含有多个语音源的训练数据。
Figure BDA0003012480190000043
式中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,
Figure BDA0003012480190000044
表示卷积操作,
Figure BDA0003012480190000045
Figure BDA0003012480190000046
表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,
Figure BDA0003012480190000047
根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
步骤2,对步骤1中得到的声源信号X进行特征提取,包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数对互功率谱进行调整,再进行逆傅里叶变换得到GCC-PHAT,计算公式如下所示:
Figure BDA0003012480190000048
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作,对于M个通道的麦克风阵列,一共计算M(M-1)/2组GCC-PHAT系数;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
Figure BDA0003012480190000051
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
步骤3,将提取的特征输入到神经网络进行训练,神经网络结构如图2所示,包括以下步骤:
输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,卷积神经网络CNNblock1和CNNblock2均由4层的卷积层组成,每个卷积层后面跟着最大值池化层和Batch Normalization层。将经过CNNblock1和CNNblock2模块后的特征拼接起来成为新特征再输入到GRU,GRU隐藏层神经元个数设置为512。最后分为两路输出,全连接层FC1的神经元个数设置为N1,通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值
Figure BDA0003012480190000058
全连接层FC2的神经元个数设置为N2,通过全连接层FC2和激活函数Sigmoid后得到DOA预测值
Figure BDA0003012480190000059
声源个数估计问题作为多分类模型求解,采用交叉熵作为损失函数,计算公式如下:
Figure BDA0003012480190000052
其中p(xn)表示第n个类别的真实概率,
Figure BDA0003012480190000053
表示预测属于第n个类别的概率。
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
Figure BDA0003012480190000054
其中y(i)代表θi角度的标签值,K代表声源个数,
Figure BDA0003012480190000055
代表第j个声源的真实角度值,θi代表麦克风阵列可以有效估计的到达角范围内的任意角度值,σ是控制高斯函数的参数。
DOA估计问题采用均方误差作为损失函数,计算公式如下:
Figure BDA0003012480190000056
其中
Figure BDA0003012480190000057
表示角度值为θn时的预测值;
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1。在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型。
步骤4,对麦克风阵列采集到的声源信号进行声源计数和定位。包括以下步骤:
对声源信号进行特征提取,将提取的特征输入到步骤3训练得到的网络模型,得到声源个数预测值
Figure BDA0003012480190000061
和DOA预测值
Figure BDA0003012480190000062
Figure BDA0003012480190000063
的最大值对应的类别即为声源个数估计值
Figure BDA0003012480190000064
Figure BDA0003012480190000065
进行峰值检测,前
Figure BDA0003012480190000066
个最大峰值出现的位置即为DOA估计值。
实施例
本实例将上述的多语音源计数和定位方法应用于一个2×2的矩形阵,矩形阵的阵间距均为3.8cm。设置5个不同大小的房间生成3600条不同的房间冲激响应,干净语音数据来源于Librispeech数据库,信噪比控制在10dB-20dB之间。信号采样频率16kHz,按照64ms的帧长和32ms帧移进行短时傅里叶变换。选择连续30帧的特征作为输入特征,广义互相关系数的τ取值64,梅尔滤波器个数取值为96,则GCC-PHAT的特征大小为6×30×64,LogMel的特征大小为4×30×96。声源个数估计的输出维度N1取值为4,DOA估计的输出维度N2取值为360,对神经网络进行迭代训练。
在房间大小为6×8×3.5m3的室内用上述的2×2的矩形阵采集到声源信号,用前文中训练好的模型对采集到的数据进行测试,如图3所示为一个含有2个语音源的混合信号的DOA估计结果。本发明所提出的方法,在此测试数据集上平均角度误差为8.6°,声源计数准确率为95.4%
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于深度学习的多语音源计数和定位方法,其特征在于,包括以下步骤:
步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;
步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;
步骤3:训练神经网络,对声源个数估计和到达角DOA估计做多任务学习训练;具体为:将提取的特征输入到深度神经网络进行训练;输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元GRU,最后分为两路输出;一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值
Figure FDA0004084577800000011
其中全连接层的神经元个数为N1;另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值
Figure FDA0004084577800000012
其中全连接层的神经元个数为N2
声源个数估计问题作为多分类模型求解,每个个数取值作为一个类别,采用交叉熵作为损失函数,计算公式如下:
Figure FDA0004084577800000013
其中p(xn)表示属于第n个类别的真实概率,
Figure FDA0004084577800000014
表示预测属于第n个类别的概率;
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
Figure FDA0004084577800000015
其中y(i)代表θi角度的标签值,K代表声源个数,
Figure FDA0004084577800000016
代表第j个声源的真实角度值,θi代表麦克风阵列可以有效估计的到达角范围内的任意角度值,σ是控制高斯函数的参数;
DOA估计问题采用均方误差作为损失函数,计算公式如下:
Figure FDA0004084577800000017
其中
Figure FDA0004084577800000018
表示角度值为θn时的预测值;
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1;在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型;
步骤4:输出声源个数估计值和DOA估计值,具体如下:对麦克风阵列接收到的声源信号进行特征提取,将提取的特征输入到步骤3训练得到的网络模型,得到声源个数预测值
Figure FDA0004084577800000021
和DOA预测值
Figure FDA0004084577800000022
Figure FDA0004084577800000023
的最大值对应的类别即为声源个数估计值
Figure FDA0004084577800000024
Figure FDA0004084577800000025
进行峰值检测,前
Figure FDA0004084577800000026
个最大峰值出现的位置即为DOA估计值。
2.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤1构造室内混响环境下含有多个语音源的训练数据,具体步骤如下:
麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积:
Figure FDA0004084577800000027
其中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,
Figure FDA0004084577800000028
表示卷积操作,
Figure FDA0004084577800000029
表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,
Figure FDA00040845778000000210
根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
3.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤2具体包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数GCC-PHAT,计算公式如下所示:
Figure FDA00040845778000000211
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
Figure FDA00040845778000000212
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
CN202110379637.6A 2021-04-08 2021-04-08 一种基于深度学习的多语音源计数和定位方法 Active CN113111765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110379637.6A CN113111765B (zh) 2021-04-08 2021-04-08 一种基于深度学习的多语音源计数和定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110379637.6A CN113111765B (zh) 2021-04-08 2021-04-08 一种基于深度学习的多语音源计数和定位方法

Publications (2)

Publication Number Publication Date
CN113111765A CN113111765A (zh) 2021-07-13
CN113111765B true CN113111765B (zh) 2023-04-18

Family

ID=76715106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110379637.6A Active CN113111765B (zh) 2021-04-08 2021-04-08 一种基于深度学习的多语音源计数和定位方法

Country Status (1)

Country Link
CN (1) CN113111765B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113835065B (zh) * 2021-09-01 2024-05-17 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN114994608B (zh) * 2022-04-21 2024-05-14 西北工业大学深圳研究院 基于深度学习的多设备自组织麦克风阵列声源定位方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109427328B (zh) * 2017-08-28 2023-04-28 中国科学院声学研究所 一种基于滤波网络声学模型的多通道语音识别方法
CN111239687B (zh) * 2020-01-17 2021-12-14 浙江理工大学 一种基于深度神经网络的声源定位方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章宇栋 ; 黄惠祥 ; 童峰 ; .面向多声源的压缩感知麦克风阵列的波达方向估计.厦门大学学报(自然科学版).2018,(第02期),全文. *

Also Published As

Publication number Publication date
CN113111765A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN107703486B (zh) 一种基于卷积神经网络cnn的声源定位方法
Chakrabarty et al. Broadband DOA estimation using convolutional neural networks trained with noise signals
Adavanne et al. Direction of arrival estimation for multiple sound sources using convolutional recurrent neural network
CN109490822B (zh) 基于ResNet的语音DOA估计方法
Salvati et al. Exploiting CNNs for improving acoustic source localization in noisy and reverberant conditions
CN111239687B (zh) 一种基于深度神经网络的声源定位方法及***
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN112904279B (zh) 基于卷积神经网络和子带srp-phat空间谱的声源定位方法
CN113111765B (zh) 一种基于深度学习的多语音源计数和定位方法
CN110068795A (zh) 一种基于卷积神经网络的室内麦克风阵列声源定位方法
CN110544490B (zh) 一种基于高斯混合模型和空间功率谱特征的声源定位方法
CN107167770A (zh) 一种混响条件下的麦克风阵列声源定位装置
Aroudi et al. Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
Zhang et al. A new regional localization method for indoor sound source based on convolutional neural networks
Bai et al. Time difference of arrival (TDOA)-based acoustic source localization and signal extraction for intelligent audio classification
Kwak et al. Convolutional neural network trained with synthetic pseudo-images for detecting an acoustic source
Salvati et al. Two-microphone end-to-end speaker joint identification and localization via convolutional neural networks
CN112180318B (zh) 声源波达方向估计模型训练和声源波达方向估计方法
Salvati et al. End-to-End Speaker Identification in Noisy and Reverberant Environments Using Raw Waveform Convolutional Neural Networks.
Zhu et al. Broadband direction of arrival estimation based on convolutional neural network
CN111859241B (zh) 一种基于声传递函数学习的非监督声源定向方法
CN111443328A (zh) 基于深度学习的声音事件检测与定位方法
Ding et al. Microphone array acoustic source localization system based on deep learning
Salvati et al. Time Delay Estimation for Speaker Localization Using CNN-Based Parametrized GCC-PHAT Features.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant