CN111239686B - 一种基于深度学习的双通道声源定位方法 - Google Patents
一种基于深度学习的双通道声源定位方法 Download PDFInfo
- Publication number
- CN111239686B CN111239686B CN202010099231.8A CN202010099231A CN111239686B CN 111239686 B CN111239686 B CN 111239686B CN 202010099231 A CN202010099231 A CN 202010099231A CN 111239686 B CN111239686 B CN 111239686B
- Authority
- CN
- China
- Prior art keywords
- channel
- time
- direction information
- frequency domain
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 230000000873 masking effect Effects 0.000 claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 230000005236 sound signal Effects 0.000 claims abstract description 7
- 238000009432 framing Methods 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims abstract description 3
- 230000035945 sensitivity Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 230000004807 localization Effects 0.000 description 7
- 230000007787 long-term memory Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于深度学习的双通道声源定位方法,包括:对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到第一通道和第二通道的时频域拾取信号;利用深度学习从时频域拾取信号和其对应的时频域直达声信号中估计出相位敏感掩蔽,利用相位敏感掩蔽指导声源方向信息的估计,利用相位敏感掩蔽计算方向信息估计的准确性,利用深度学习从估计的方向信息和方向信息估计准确性中获得方向信息增强值,利用增强后的方向信息与方向信息估计的准确性构建加权直方图,最终选取直方图峰值所对应的方向作为声源方向。本发明从双通道麦克风拾取数据中估计出声源的方向,充分利用神经网络的泛化能力,对噪声混响环境具有更好的鲁棒性。
Description
技术领域
本发明涉及声源定位技术领域,尤其涉及一种基于深度学习的双通道声源定位方法。
背景技术
目前,声源定位技术主要是从麦克风阵列拾取的含有背景噪声和混响的数据中估计声源的方位,从而在声源分离、声源跟踪等方面取得更好的表现。在以方位为输出的声源定位技术中,通过利用信号空间与噪声空间的正交性可以估计出声源的方位,但是这类算法在混响存在时性能下降明显。利用深度学习,可以更好的提升算法在噪声及混响存在时的鲁棒性。大多数基于深度学习的声源定位算法把声源定位当作一个分类问题,利用神经网络从划分好的区域中估计声源的位置。这种算法定位准确度与区域划分有关,且定位精度需求改变时,神经网络需要重新训练。
发明内容
本发明的目的在于,解决现有声源定位技术存在的上述缺陷。
为达到上述目的,本发明公开了一种基于深度学习的双通道声源定位方法,包括步骤:
对每个通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到每通道的时频域拾取信号;双通道时频域信号中包含声源位置的信息;
对第一通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第一通道的输入特征;对第二通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第二通道的输入特征;
利用第一通道的时频域拾取信号和其对应的时频域直达声信号计算得到第一通道的相位敏感掩蔽估计值;利用第二通道的时频域拾取信号和其对应的时频域直达声信号计算得到第二通道的相位敏感掩蔽估计值;
使用每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型;
将第一通道的输入特征作为估计模型的输入,输出第一通道的相位敏感掩蔽估计值;将第二通道的输入特征作为概率估计模型的输入,输出第二通道的相位敏感掩蔽的估计值;
使用每一通道时频域拾取信号和每一通道时频域相位敏感掩蔽估计值一起计算语音协方差矩阵;
对语音协方差矩阵进行特征值分解,获取其主特征向量作为声源的导向矢量;
对导向矢量的两个元素取其相角差作为方向信息;
利用两通道相位敏感掩蔽估计值计算每个时频点方向信息估计准确性;
利用声源到达麦克风的时间差计算两个麦克风拾取数据的理想相位差作为目标方向信息;
使用方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型;
将方向信息和方向信息估计准确性作为方向信息增强模型的输入,输出为增强的方向信息;
使用增强的方向信息在每个时频点处计算声源方向;
利用方向特征估计准确性和所有时频点处的方向信息构建加权统计直方图。
利用加权直方图,选取统计结果最大的方向作为声源方向。
优选地,对每个通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换的具体步骤为:
对每通道取512个采样点作为一帧信号,若长度不足则先补到512点;然后对每一帧信号进行加窗,加窗函数采用布莱克曼窗;最后对每一帧信号进行傅里叶变换。
优选地,每通道输入特征为:
优选地,每通道相位敏感掩蔽为:
优选地,使用每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型的步骤,具体为:
神经网络为一个三层的长短时记忆网络,每层有512个节点。将相位敏感掩蔽理论值作为所述神经网络的训练目标,通过迭代不断使相位敏感掩蔽估计值与相位敏感掩蔽理论值的均方误差减小。
优选地,语音协方差矩阵为:
优选地,对语音协方差矩阵进行特征值分解,获取其主特征向量作为声源的导向矢量为:
优选地,方向信息为:
优选地,方向信息估计的准确性为:
优选地,理想相位差为:
优选地,使用所述方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型,具体为:
神经网络为一个三层的全连接神经网络,每层有2048个节点。神经网络的输入特征为方向信息的正弦值与余弦值、方向信息估计准确性的拼接向量,具体为:
In=[sinθn,0,…,sinθn,F-1,cosθn,0,…,cosθn,F-1,Wn,0,…,Wn,F-1]
神经网络的估计目标为目标方向信息,具体为:
通过迭代不断地使增强后的方向信息与目标方向信息的均方误差减小。
优选地,增强后的方向信息为:
优选地,每个时频点处计算的声源方向为:
其中,c是声音传播速度,d是麦克风间距。
优选地,加权直方图在构建时,每一个时频点的权重为Wn,f。
本发明的优点在于:1)通过空间信息与谱信息估计相位敏感掩蔽,从而获得更准确的方向信息估计;2)通过利用神经网络对估计的方向信息进行增强,从而提升定位方法在噪声混响环境中的性能;3)通过利用加权直方图估计最终的声源方位,可以减小静音段对声源定位准确性的影响。通过在训练数据中包含足够多的噪声类型和方位,可以充分利用深度神经网络的泛化能力,提高模型的鲁棒性,达到在噪声混响环境中进行声源定位的目的。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于深度学习的双通道声源定位方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一种基于深度学习的双通道声源定位方法的流程图。如图1所示,该方法包括:
步骤S101:对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到每通道的时频域拾取信号。双通道时频域信号中包含声源位置的信息。
在一个具体实施例中,对每通道取512个采样点作为一帧信号,若长度不足则先补到512点;然后对每一帧信号进行加窗,加窗函数采用布莱克曼窗;最后对每一帧信号进行傅里叶变换,得到每通道的时频域拾取信号。
步骤S102:对左通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第一通道的输入特征;对右通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第二通道的输入特征。
步骤S103:利用第一通道的时频域拾取信号和其对应的时频域直达声信号计算得到第一通道的相位敏感掩蔽估计值;利用第二通道的时频域拾取信号和其对应的时频域直达声信号计算得到第二通道的相位敏感掩蔽估计值。
步骤S104:使用每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型。
在一个具体实施例中,神经网络为一个三层的长短时记忆网络,每层有512个节点。将相位敏感掩蔽理论值作为所述神经网络的训练目标,通过迭代不断使相位敏感掩蔽估计值与相位敏感掩蔽理论值的均方误差减小。
步骤S105:将第一通道的输入特征作为估计模型的输入,输出第一通道的相位敏感掩蔽估计值;将第二通道的输入特征作为概率估计模型的输入,输出第二通道的相位敏感掩蔽的估计值。
步骤S106:使用每一通道时频域拾取信号和每一通道时频域相位敏感掩蔽估计值一起计算语音协方差矩阵。
步骤S107:对语音协方差矩阵进行特征值分解,获取其主特征向量作为声源的导向矢量。
步骤S108:对导向矢量的两个元素取其相角差作为方向信息。
步骤S109:利用两通道相位敏感掩蔽估计值计算每个时频点方向信息估计准确性。
步骤S110:利用声源到达麦克风的时间差计算两个麦克风拾取数据的理想相位差作为目标方向信息。
步骤S111:使用方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型。
在一个具体实施例中,神经网络为一个三层的全连接神经网络,每层有2048个节点。
具体地,神经网络的输入特征为方向信息的正弦值与余弦值、方向信息估计准确性的拼接向量:
In=[sinθn,0,…,sinθn,F-1,cosθn,0,…,cosθn,F-1,Wn,0,…,Wn,F-1]
具体地,神经网络的估计目标为目标方向信息:
通过迭代不断地使增强后的方向信息与目标方向信息的均方误差减小。
步骤S112:将方向信息和方向信息估计准确性作为方向信息增强模型的输入,输出为增强的方向信息。
步骤S113:使用增强的方向信息在每个时频点处计算声源方向。
步骤S114:利用方向特征估计准确性和所有时频点处的方向信息构建加权统计直方图。
具体地,加权直方图在构建时,每一个时频点的权重为Wn,f。
步骤S115:利用加权直方图,选取统计结果最大的方向作为声源方向。
本发明实施例提供了一种基于深度学习的双通道声源定位方法,通过同时利用空间信息与谱信息估计相位敏感掩蔽,并以相位敏感掩蔽为指导对方向信息进行估计,然后通过神经网络对方向信息进行增强,最终通过加权统计直方图确定最终的声源方位。通过在训练数据中包含足够多的噪声类型和方位,可以充分利用深度神经网络的泛化能力,提高模型的鲁棒性,达到在噪声混响环境中对声源方位进行估计的目的。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于深度学习的双通道声源定位方法,其特征在于,包括以下步骤:
对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换,得到第一通道和第二通道的时频域拾取信号;所述双通道时频域信号中包含声源位置的信息;
对所述第一通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第一通道的输入特征;对所述第二通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第二通道的输入特征;
利用所述第一通道的时频域拾取信号和其对应的时频域直达声信号计算得到第一通道的相位敏感掩蔽估计值;利用所述第二通道的时频域拾取信号和其对应的时频域直达声信号计算得到第二通道的相位敏感掩蔽估计值;
使用所述每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型;
将所述第一通道的输入特征作为估计模型的输入,输出第一通道的相位敏感掩蔽估计值;将所述第二通道的输入特征作为概率估计模型的输入,输出第二通道的相位敏感掩蔽的估计值;
使用所述每一通道时频域拾取信号和每一通道时频域相位敏感掩蔽估计值一起计算语音协方差矩阵;
对所述语音协方差矩阵进行特征值分解,获取其主特征向量作为声源的导向矢量;
对所述导向矢量的两个元素取其相角差作为方向信息;
利用所述的两通道相位敏感掩蔽估计值计算每个时频点方向信息估计准确性;
利用声源到达麦克风的时间差计算两个麦克风拾取数据的理想相位差作为目标方向信息;
使用所述方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型;
将所述方向信息和方向信息估计准确性作为方向信息增强模型的输入,输出为增强的方向信息;
使用所述增强的方向信息在每个时频点处计算声源方向;
利用所述方向特征估计准确性和所有时频点处的方向信息构建加权统计直方图;
利用所述的加权直方图,选取统计结果最大的方向作为声源方向。
2.根据权利要求1所述的方法,其特征在于,所述对每个通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换的具体步骤为:
对每通道取512个采样点作为一帧信号,若长度不足则先补到512点;然后对每一帧信号进行加窗,加窗函数采用布莱克曼窗;最后对每一帧信号进行傅里叶变换。
5.根据权利要求1所述的方法,其特征在于,所述加权直方图在构建时,每一个时频点的权重为Wn,f。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099231.8A CN111239686B (zh) | 2020-02-18 | 2020-02-18 | 一种基于深度学习的双通道声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099231.8A CN111239686B (zh) | 2020-02-18 | 2020-02-18 | 一种基于深度学习的双通道声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111239686A CN111239686A (zh) | 2020-06-05 |
CN111239686B true CN111239686B (zh) | 2021-12-21 |
Family
ID=70874955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010099231.8A Active CN111239686B (zh) | 2020-02-18 | 2020-02-18 | 一种基于深度学习的双通道声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111239686B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113948098A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 一种立体声音频信号时延估计方法及装置 |
CN112269158B (zh) * | 2020-10-14 | 2022-09-16 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种基于unet结构利用传声器阵列语音源定位方法 |
CN113476041B (zh) * | 2021-06-21 | 2023-09-19 | 苏州大学附属第一医院 | 一种人工耳蜗使用儿童的言语感知能力测试方法及*** |
CN113643714B (zh) * | 2021-10-14 | 2022-02-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频处理方法、装置、存储介质及计算机程序 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886858A (zh) * | 2014-03-11 | 2014-06-25 | 中国科学院信息工程研究所 | 一种声掩蔽信号产生方法和*** |
CN107703486A (zh) * | 2017-08-23 | 2018-02-16 | 南京邮电大学 | 一种基于卷积神经网络cnn的声源定位算法 |
CN109448751A (zh) * | 2018-12-29 | 2019-03-08 | 中国科学院声学研究所 | 一种基于深度学习的双耳语音增强方法 |
CN109839612A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN109975762A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院声学研究所 | 一种水下声源定位方法 |
CN110517705A (zh) * | 2019-08-29 | 2019-11-29 | 北京大学深圳研究生院 | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和*** |
-
2020
- 2020-02-18 CN CN202010099231.8A patent/CN111239686B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886858A (zh) * | 2014-03-11 | 2014-06-25 | 中国科学院信息工程研究所 | 一种声掩蔽信号产生方法和*** |
CN107703486A (zh) * | 2017-08-23 | 2018-02-16 | 南京邮电大学 | 一种基于卷积神经网络cnn的声源定位算法 |
CN109975762A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院声学研究所 | 一种水下声源定位方法 |
CN109839612A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN109448751A (zh) * | 2018-12-29 | 2019-03-08 | 中国科学院声学研究所 | 一种基于深度学习的双耳语音增强方法 |
CN110517705A (zh) * | 2019-08-29 | 2019-11-29 | 北京大学深圳研究生院 | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN111239686A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111239686B (zh) | 一种基于深度学习的双通道声源定位方法 | |
US10901063B2 (en) | Localization algorithm for sound sources with known statistics | |
EP1818909B1 (en) | Voice recognition system | |
CN108375763B (zh) | 一种应用于多声源环境的分频定位方法 | |
Kayser et al. | A discriminative learning approach to probabilistic acoustic source localization | |
WO2018133056A1 (zh) | 一种声源定位的方法和装置 | |
CN105652243B (zh) | 多通道群稀疏线性预测时延估计方法 | |
CN112363112B (zh) | 一种基于线性麦克风阵列的声源定位方法及装置 | |
CN109188362A (zh) | 一种麦克风阵列声源定位信号处理方法 | |
CN111798869B (zh) | 一种基于双麦克风阵列的声源定位方法 | |
CN106019230B (zh) | 一种基于i-vector说话人识别的声源定位方法 | |
CN103901400B (zh) | 一种基于时延补偿和双耳一致性的双耳声音源定位方法 | |
CN114171041A (zh) | 基于环境检测的语音降噪方法、装置、设备及存储介质 | |
Pertilä et al. | Multichannel source activity detection, localization, and tracking | |
CN116559778B (zh) | 一种基于深度学习的车辆鸣笛定位方法及*** | |
CN111179959B (zh) | 一种基于说话人嵌入空间的竞争说话人数量估计方法及*** | |
CN114664288A (zh) | 一种语音识别方法、装置、设备及可存储介质 | |
CN111060867A (zh) | 一种指向性麦克风微阵列波达方向估计方法 | |
CN111929638A (zh) | 一种语音波达方向估计方法及装置 | |
CN113345421B (zh) | 一种基于角度谱特征的多通道远场的目标语音识别方法 | |
Yamada et al. | Hands-free speech recognition based on 3-D Viterbi search using a microphone array | |
Kindt et al. | Exploiting speaker embeddings for improved microphone clustering and speech separation in ad-hoc microphone arrays | |
CN109239665B (zh) | 一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置 | |
Wang et al. | A robust doa estimation method for a linear microphone array under reverberant and noisy environments | |
KR101022457B1 (ko) | Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |