CN111239686B - 一种基于深度学习的双通道声源定位方法 - Google Patents

一种基于深度学习的双通道声源定位方法 Download PDF

Info

Publication number
CN111239686B
CN111239686B CN202010099231.8A CN202010099231A CN111239686B CN 111239686 B CN111239686 B CN 111239686B CN 202010099231 A CN202010099231 A CN 202010099231A CN 111239686 B CN111239686 B CN 111239686B
Authority
CN
China
Prior art keywords
channel
time
direction information
frequency domain
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010099231.8A
Other languages
English (en)
Other versions
CN111239686A (zh
Inventor
李军锋
程龙彪
夏日升
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202010099231.8A priority Critical patent/CN111239686B/zh
Publication of CN111239686A publication Critical patent/CN111239686A/zh
Application granted granted Critical
Publication of CN111239686B publication Critical patent/CN111239686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于深度学习的双通道声源定位方法,包括:对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到第一通道和第二通道的时频域拾取信号;利用深度学习从时频域拾取信号和其对应的时频域直达声信号中估计出相位敏感掩蔽,利用相位敏感掩蔽指导声源方向信息的估计,利用相位敏感掩蔽计算方向信息估计的准确性,利用深度学习从估计的方向信息和方向信息估计准确性中获得方向信息增强值,利用增强后的方向信息与方向信息估计的准确性构建加权直方图,最终选取直方图峰值所对应的方向作为声源方向。本发明从双通道麦克风拾取数据中估计出声源的方向,充分利用神经网络的泛化能力,对噪声混响环境具有更好的鲁棒性。

Description

一种基于深度学习的双通道声源定位方法
技术领域
本发明涉及声源定位技术领域,尤其涉及一种基于深度学习的双通道声源定位方法。
背景技术
目前,声源定位技术主要是从麦克风阵列拾取的含有背景噪声和混响的数据中估计声源的方位,从而在声源分离、声源跟踪等方面取得更好的表现。在以方位为输出的声源定位技术中,通过利用信号空间与噪声空间的正交性可以估计出声源的方位,但是这类算法在混响存在时性能下降明显。利用深度学习,可以更好的提升算法在噪声及混响存在时的鲁棒性。大多数基于深度学习的声源定位算法把声源定位当作一个分类问题,利用神经网络从划分好的区域中估计声源的位置。这种算法定位准确度与区域划分有关,且定位精度需求改变时,神经网络需要重新训练。
发明内容
本发明的目的在于,解决现有声源定位技术存在的上述缺陷。
为达到上述目的,本发明公开了一种基于深度学习的双通道声源定位方法,包括步骤:
对每个通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到每通道的时频域拾取信号;双通道时频域信号中包含声源位置的信息;
对第一通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第一通道的输入特征;对第二通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第二通道的输入特征;
利用第一通道的时频域拾取信号和其对应的时频域直达声信号计算得到第一通道的相位敏感掩蔽估计值;利用第二通道的时频域拾取信号和其对应的时频域直达声信号计算得到第二通道的相位敏感掩蔽估计值;
使用每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型;
将第一通道的输入特征作为估计模型的输入,输出第一通道的相位敏感掩蔽估计值;将第二通道的输入特征作为概率估计模型的输入,输出第二通道的相位敏感掩蔽的估计值;
使用每一通道时频域拾取信号和每一通道时频域相位敏感掩蔽估计值一起计算语音协方差矩阵;
对语音协方差矩阵进行特征值分解,获取其主特征向量作为声源的导向矢量;
对导向矢量的两个元素取其相角差作为方向信息;
利用两通道相位敏感掩蔽估计值计算每个时频点方向信息估计准确性;
利用声源到达麦克风的时间差计算两个麦克风拾取数据的理想相位差作为目标方向信息;
使用方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型;
将方向信息和方向信息估计准确性作为方向信息增强模型的输入,输出为增强的方向信息;
使用增强的方向信息在每个时频点处计算声源方向;
利用方向特征估计准确性和所有时频点处的方向信息构建加权统计直方图。
利用加权直方图,选取统计结果最大的方向作为声源方向。
优选地,对每个通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换的具体步骤为:
对每通道取512个采样点作为一帧信号,若长度不足则先补到512点;然后对每一帧信号进行加窗,加窗函数采用布莱克曼窗;最后对每一帧信号进行傅里叶变换。
优选地,每通道输入特征为:
Figure BDA0002386318970000031
其中,n是数据帧的编号,m是通道的编号,
Figure BDA0002386318970000032
是第m个通道的时频域信号的对数幅度谱,
Figure BDA0002386318970000033
是第m个通道的时频域信号的相位差。
优选地,每通道相位敏感掩蔽为:
Figure BDA0002386318970000034
Figure BDA0002386318970000035
其中,f是频带的编号,θ是麦克风拾取数据时频域信号的相位,
Figure BDA0002386318970000036
是直达声数据时频域信号的相位,
Figure BDA0002386318970000037
是直达声的时频域信号,X是麦克风拾取数据的时频域信号。
优选地,使用每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型的步骤,具体为:
神经网络为一个三层的长短时记忆网络,每层有512个节点。将相位敏感掩蔽理论值作为所述神经网络的训练目标,通过迭代不断使相位敏感掩蔽估计值与相位敏感掩蔽理论值的均方误差减小。
优选地,每通道相位敏感掩蔽的估计值为:
Figure BDA0002386318970000041
优选地,语音协方差矩阵为:
Figure BDA0002386318970000042
Figure BDA0002386318970000043
Figure BDA0002386318970000044
优选地,对语音协方差矩阵进行特征值分解,获取其主特征向量作为声源的导向矢量为:
Figure BDA0002386318970000045
优选地,方向信息为:
Figure BDA0002386318970000046
优选地,方向信息估计的准确性为:
Figure BDA0002386318970000047
优选地,理想相位差为:
Figure BDA0002386318970000048
其中,
Figure BDA0002386318970000049
Figure BDA00023863189700000410
是声源到达第1、2个麦克风所用的时间,fs是拾取信号的采样率。
优选地,使用所述方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型,具体为:
神经网络为一个三层的全连接神经网络,每层有2048个节点。神经网络的输入特征为方向信息的正弦值与余弦值、方向信息估计准确性的拼接向量,具体为:
In=[sinθn,0,…,sinθn,F-1,cosθn,0,…,cosθn,F-1,Wn,0,…,Wn,F-1]
神经网络的估计目标为目标方向信息,具体为:
Figure BDA0002386318970000051
通过迭代不断地使增强后的方向信息与目标方向信息的均方误差减小。
优选地,增强后的方向信息为:
Figure BDA0002386318970000052
其中,
Figure BDA0002386318970000053
是增强模型的输出值。
优选地,每个时频点处计算的声源方向为:
Figure BDA0002386318970000054
其中,c是声音传播速度,d是麦克风间距。
优选地,加权直方图在构建时,每一个时频点的权重为Wn,f
优选地,统计结果最大的方向为:
Figure BDA0002386318970000055
本发明的优点在于:1)通过空间信息与谱信息估计相位敏感掩蔽,从而获得更准确的方向信息估计;2)通过利用神经网络对估计的方向信息进行增强,从而提升定位方法在噪声混响环境中的性能;3)通过利用加权直方图估计最终的声源方位,可以减小静音段对声源定位准确性的影响。通过在训练数据中包含足够多的噪声类型和方位,可以充分利用深度神经网络的泛化能力,提高模型的鲁棒性,达到在噪声混响环境中进行声源定位的目的。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于深度学习的双通道声源定位方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一种基于深度学习的双通道声源定位方法的流程图。如图1所示,该方法包括:
步骤S101:对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到每通道的时频域拾取信号。双通道时频域信号中包含声源位置的信息。
在一个具体实施例中,对每通道取512个采样点作为一帧信号,若长度不足则先补到512点;然后对每一帧信号进行加窗,加窗函数采用布莱克曼窗;最后对每一帧信号进行傅里叶变换,得到每通道的时频域拾取信号。
步骤S102:对左通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第一通道的输入特征;对右通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第二通道的输入特征。
具体地,每通道输入特征为:
Figure BDA0002386318970000071
其中,n是数据帧的编号,m是通道的编号,
Figure BDA0002386318970000072
是第m个通道的时频域信号的对数幅度谱,
Figure BDA0002386318970000073
是第m个通道的时频域信号的相位差。
步骤S103:利用第一通道的时频域拾取信号和其对应的时频域直达声信号计算得到第一通道的相位敏感掩蔽估计值;利用第二通道的时频域拾取信号和其对应的时频域直达声信号计算得到第二通道的相位敏感掩蔽估计值。
具体地,每通道相位敏感掩蔽为:
Figure BDA0002386318970000074
Figure BDA0002386318970000075
其中,f是频带的编号,θ是麦克风拾取数据时频域信号的相位,
Figure BDA0002386318970000076
是直达声数据时频域信号的相位,
Figure BDA0002386318970000077
是直达声的时频域信号,X是麦克风拾取数据的时频域信号。
步骤S104:使用每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型。
在一个具体实施例中,神经网络为一个三层的长短时记忆网络,每层有512个节点。将相位敏感掩蔽理论值作为所述神经网络的训练目标,通过迭代不断使相位敏感掩蔽估计值与相位敏感掩蔽理论值的均方误差减小。
步骤S105:将第一通道的输入特征作为估计模型的输入,输出第一通道的相位敏感掩蔽估计值;将第二通道的输入特征作为概率估计模型的输入,输出第二通道的相位敏感掩蔽的估计值。
具体地,每通道相位敏感掩蔽的估计值为:
Figure BDA0002386318970000081
步骤S106:使用每一通道时频域拾取信号和每一通道时频域相位敏感掩蔽估计值一起计算语音协方差矩阵。
具体地,语音协方差矩阵为:
Figure BDA0002386318970000082
Figure BDA0002386318970000083
步骤S107:对语音协方差矩阵进行特征值分解,获取其主特征向量作为声源的导向矢量。
具体地,导向矢量为:
Figure BDA0002386318970000084
步骤S108:对导向矢量的两个元素取其相角差作为方向信息。
具体地,方向信息为:
Figure BDA0002386318970000085
步骤S109:利用两通道相位敏感掩蔽估计值计算每个时频点方向信息估计准确性。
具体地,方向信息估计的准确性为:
Figure BDA0002386318970000086
步骤S110:利用声源到达麦克风的时间差计算两个麦克风拾取数据的理想相位差作为目标方向信息。
具体地,目标方向信息为:
Figure BDA0002386318970000087
其中,
Figure BDA0002386318970000088
Figure BDA0002386318970000089
是声源到达第1、2个麦克风所用的时间,fs是拾取信号的采样率。
步骤S111:使用方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型。
在一个具体实施例中,神经网络为一个三层的全连接神经网络,每层有2048个节点。
具体地,神经网络的输入特征为方向信息的正弦值与余弦值、方向信息估计准确性的拼接向量:
In=[sinθn,0,…,sinθn,F-1,cosθn,0,…,cosθn,F-1,Wn,0,…,Wn,F-1]
具体地,神经网络的估计目标为目标方向信息:
Figure BDA0002386318970000091
通过迭代不断地使增强后的方向信息与目标方向信息的均方误差减小。
步骤S112:将方向信息和方向信息估计准确性作为方向信息增强模型的输入,输出为增强的方向信息。
具体地,增强后的方向信息为:
Figure BDA0002386318970000092
其中,
Figure BDA0002386318970000093
是增强模型的输出值。
步骤S113:使用增强的方向信息在每个时频点处计算声源方向。
具体地,每个时频点处计算的声源方向为:
Figure BDA0002386318970000094
其中,c是声音传播速度,d是麦克风间距。
步骤S114:利用方向特征估计准确性和所有时频点处的方向信息构建加权统计直方图。
具体地,加权直方图在构建时,每一个时频点的权重为Wn,f
步骤S115:利用加权直方图,选取统计结果最大的方向作为声源方向。
具体地,统计结果最大的方向为:
Figure BDA0002386318970000095
本发明实施例提供了一种基于深度学习的双通道声源定位方法,通过同时利用空间信息与谱信息估计相位敏感掩蔽,并以相位敏感掩蔽为指导对方向信息进行估计,然后通过神经网络对方向信息进行增强,最终通过加权统计直方图确定最终的声源方位。通过在训练数据中包含足够多的噪声类型和方位,可以充分利用深度神经网络的泛化能力,提高模型的鲁棒性,达到在噪声混响环境中对声源方位进行估计的目的。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于深度学习的双通道声源定位方法,其特征在于,包括以下步骤:
对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到第一通道和第二通道的时频域拾取信号;所述双通道时频域信号中包含声源位置的信息;
对所述第一通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第一通道的输入特征;对所述第二通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第二通道的输入特征;
利用所述第一通道的时频域拾取信号和其对应的时频域直达声信号计算得到第一通道的相位敏感掩蔽估计值;利用所述第二通道的时频域拾取信号和其对应的时频域直达声信号计算得到第二通道的相位敏感掩蔽估计值;
使用所述每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型;
将所述第一通道的输入特征作为估计模型的输入,输出第一通道的相位敏感掩蔽估计值;将所述第二通道的输入特征作为概率估计模型的输入,输出第二通道的相位敏感掩蔽的估计值;
使用所述每一通道时频域拾取信号和每一通道时频域相位敏感掩蔽估计值一起计算语音协方差矩阵;
对所述语音协方差矩阵进行特征值分解,获取其主特征向量作为声源的导向矢量;
对所述导向矢量的两个元素取其相角差作为方向信息;
利用所述的两通道相位敏感掩蔽估计值计算每个时频点方向信息估计准确性;
利用声源到达麦克风的时间差计算两个麦克风拾取数据的理想相位差作为目标方向信息;
使用所述方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型;
将所述方向信息和方向信息估计准确性作为方向信息增强模型的输入,输出为增强的方向信息;
使用所述增强的方向信息在每个时频点处计算声源方向;
利用所述方向特征估计准确性和所有时频点处的方向信息构建加权统计直方图;
利用所述的加权直方图,选取统计结果最大的方向作为声源方向。
2.根据权利要求1所述的方法,其特征在于,所述对每个通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换的具体步骤为:
对每通道取512个采样点作为一帧信号,若长度不足则先补到512点;然后对每一帧信号进行加窗,加窗函数采用布莱克曼窗;最后对每一帧信号进行傅里叶变换。
3.根据权利要求1所述的方法,其特征在于,所述每通道输入特征为:
Figure FDA0003204458900000021
其中,n是数据帧的编号,m是通道的编号,
Figure FDA0003204458900000022
是第m个通道的时频域信号的对数幅度谱,
Figure FDA0003204458900000023
是第m个通道的时频域信号的相位差;
所述每通道相位敏感掩蔽为:
Figure FDA0003204458900000024
Figure FDA0003204458900000031
其中,f是频带的编号,θ是麦克风拾取数据时频域信号的相位,
Figure FDA0003204458900000032
是直达声数据时频域信号的相位,
Figure FDA0003204458900000033
是直达声的时频域信号,X是麦克风拾取数据的时频域信号。
4.根据权利要求1所述的方法,其特征在于,所述使用所述每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型的步骤,具体为:
所述神经网络为一个三层的长短时记忆网络,每层有512个节点;将相位敏感掩蔽理论值作为所述神经网络的训练目标,通过迭代不断使相位敏感掩蔽估计值与相位敏感掩蔽理论值的均方误差减小;所述每通道相位敏感掩蔽的估计值为:
Figure FDA0003204458900000034
5.根据权利要求1所述的方法,其特征在于,所述加权直方图在构建时,每一个时频点的权重为Wn,f
6.根据权利要求1所述的方法,其特征在于,所述统计结果最大的方向为:
Figure FDA0003204458900000035
CN202010099231.8A 2020-02-18 2020-02-18 一种基于深度学习的双通道声源定位方法 Active CN111239686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010099231.8A CN111239686B (zh) 2020-02-18 2020-02-18 一种基于深度学习的双通道声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010099231.8A CN111239686B (zh) 2020-02-18 2020-02-18 一种基于深度学习的双通道声源定位方法

Publications (2)

Publication Number Publication Date
CN111239686A CN111239686A (zh) 2020-06-05
CN111239686B true CN111239686B (zh) 2021-12-21

Family

ID=70874955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010099231.8A Active CN111239686B (zh) 2020-02-18 2020-02-18 一种基于深度学习的双通道声源定位方法

Country Status (1)

Country Link
CN (1) CN111239686B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113948098A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 一种立体声音频信号时延估计方法及装置
CN112269158B (zh) * 2020-10-14 2022-09-16 南京南大电子智慧型服务机器人研究院有限公司 一种基于unet结构利用传声器阵列语音源定位方法
CN113476041B (zh) * 2021-06-21 2023-09-19 苏州大学附属第一医院 一种人工耳蜗使用儿童的言语感知能力测试方法及***
CN113643714B (zh) * 2021-10-14 2022-02-18 阿里巴巴达摩院(杭州)科技有限公司 音频处理方法、装置、存储介质及计算机程序

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886858A (zh) * 2014-03-11 2014-06-25 中国科学院信息工程研究所 一种声掩蔽信号产生方法和***
CN107703486A (zh) * 2017-08-23 2018-02-16 南京邮电大学 一种基于卷积神经网络cnn的声源定位算法
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN109975762A (zh) * 2017-12-28 2019-07-05 中国科学院声学研究所 一种水下声源定位方法
CN110517705A (zh) * 2019-08-29 2019-11-29 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886858A (zh) * 2014-03-11 2014-06-25 中国科学院信息工程研究所 一种声掩蔽信号产生方法和***
CN107703486A (zh) * 2017-08-23 2018-02-16 南京邮电大学 一种基于卷积神经网络cnn的声源定位算法
CN109975762A (zh) * 2017-12-28 2019-07-05 中国科学院声学研究所 一种水下声源定位方法
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN110517705A (zh) * 2019-08-29 2019-11-29 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和***

Also Published As

Publication number Publication date
CN111239686A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111239686B (zh) 一种基于深度学习的双通道声源定位方法
US10901063B2 (en) Localization algorithm for sound sources with known statistics
EP1818909B1 (en) Voice recognition system
CN108375763B (zh) 一种应用于多声源环境的分频定位方法
Kayser et al. A discriminative learning approach to probabilistic acoustic source localization
WO2018133056A1 (zh) 一种声源定位的方法和装置
CN105652243B (zh) 多通道群稀疏线性预测时延估计方法
CN112363112B (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN109188362A (zh) 一种麦克风阵列声源定位信号处理方法
CN111798869B (zh) 一种基于双麦克风阵列的声源定位方法
CN106019230B (zh) 一种基于i-vector说话人识别的声源定位方法
CN103901400B (zh) 一种基于时延补偿和双耳一致性的双耳声音源定位方法
CN114171041A (zh) 基于环境检测的语音降噪方法、装置、设备及存储介质
Pertilä et al. Multichannel source activity detection, localization, and tracking
CN116559778B (zh) 一种基于深度学习的车辆鸣笛定位方法及***
CN111179959B (zh) 一种基于说话人嵌入空间的竞争说话人数量估计方法及***
CN114664288A (zh) 一种语音识别方法、装置、设备及可存储介质
CN111060867A (zh) 一种指向性麦克风微阵列波达方向估计方法
CN111929638A (zh) 一种语音波达方向估计方法及装置
CN113345421B (zh) 一种基于角度谱特征的多通道远场的目标语音识别方法
Yamada et al. Hands-free speech recognition based on 3-D Viterbi search using a microphone array
Kindt et al. Exploiting speaker embeddings for improved microphone clustering and speech separation in ad-hoc microphone arrays
CN109239665B (zh) 一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置
Wang et al. A robust doa estimation method for a linear microphone array under reverberant and noisy environments
KR101022457B1 (ko) Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant