CN111239686B

CN111239686B - 一种基于深度学习的双通道声源定位方法

Info

Publication number: CN111239686B
Application number: CN202010099231.8A
Authority: CN
Inventors: 李军锋; 程龙彪; 夏日升; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2021-12-21
Anticipated expiration: 2040-02-18
Also published as: CN111239686A

Abstract

本发明公开了一种基于深度学习的双通道声源定位方法，包括：对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换，得到第一通道和第二通道的时频域拾取信号；利用深度学习从时频域拾取信号和其对应的时频域直达声信号中估计出相位敏感掩蔽，利用相位敏感掩蔽指导声源方向信息的估计，利用相位敏感掩蔽计算方向信息估计的准确性，利用深度学习从估计的方向信息和方向信息估计准确性中获得方向信息增强值，利用增强后的方向信息与方向信息估计的准确性构建加权直方图，最终选取直方图峰值所对应的方向作为声源方向。本发明从双通道麦克风拾取数据中估计出声源的方向，充分利用神经网络的泛化能力，对噪声混响环境具有更好的鲁棒性。

Description

一种基于深度学习的双通道声源定位方法

技术领域

本发明涉及声源定位技术领域，尤其涉及一种基于深度学习的双通道声源定位方法。

背景技术

目前，声源定位技术主要是从麦克风阵列拾取的含有背景噪声和混响的数据中估计声源的方位，从而在声源分离、声源跟踪等方面取得更好的表现。在以方位为输出的声源定位技术中，通过利用信号空间与噪声空间的正交性可以估计出声源的方位，但是这类算法在混响存在时性能下降明显。利用深度学习，可以更好的提升算法在噪声及混响存在时的鲁棒性。大多数基于深度学习的声源定位算法把声源定位当作一个分类问题，利用神经网络从划分好的区域中估计声源的位置。这种算法定位准确度与区域划分有关，且定位精度需求改变时，神经网络需要重新训练。

发明内容

本发明的目的在于，解决现有声源定位技术存在的上述缺陷。

为达到上述目的，本发明公开了一种基于深度学习的双通道声源定位方法，包括步骤：

对每个通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换，得到每通道的时频域拾取信号；双通道时频域信号中包含声源位置的信息；

对第一通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第一通道的输入特征；对第二通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第二通道的输入特征；

利用第一通道的时频域拾取信号和其对应的时频域直达声信号计算得到第一通道的相位敏感掩蔽估计值；利用第二通道的时频域拾取信号和其对应的时频域直达声信号计算得到第二通道的相位敏感掩蔽估计值；

使用每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型；

将第一通道的输入特征作为估计模型的输入，输出第一通道的相位敏感掩蔽估计值；将第二通道的输入特征作为概率估计模型的输入，输出第二通道的相位敏感掩蔽的估计值；

使用每一通道时频域拾取信号和每一通道时频域相位敏感掩蔽估计值一起计算语音协方差矩阵；

对语音协方差矩阵进行特征值分解，获取其主特征向量作为声源的导向矢量；

对导向矢量的两个元素取其相角差作为方向信息；

利用两通道相位敏感掩蔽估计值计算每个时频点方向信息估计准确性；

利用声源到达麦克风的时间差计算两个麦克风拾取数据的理想相位差作为目标方向信息；

使用方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型；

将方向信息和方向信息估计准确性作为方向信息增强模型的输入，输出为增强的方向信息；

使用增强的方向信息在每个时频点处计算声源方向；

利用方向特征估计准确性和所有时频点处的方向信息构建加权统计直方图。

利用加权直方图，选取统计结果最大的方向作为声源方向。

优选地，对每个通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换的具体步骤为：

对每通道取512个采样点作为一帧信号，若长度不足则先补到512点；然后对每一帧信号进行加窗，加窗函数采用布莱克曼窗；最后对每一帧信号进行傅里叶变换。

优选地，每通道输入特征为：

其中，n是数据帧的编号，m是通道的编号，

是第m个通道的时频域信号的对数幅度谱，

是第m个通道的时频域信号的相位差。

优选地，每通道相位敏感掩蔽为：

其中，f是频带的编号，θ是麦克风拾取数据时频域信号的相位，

是直达声数据时频域信号的相位，

是直达声的时频域信号，X是麦克风拾取数据的时频域信号。

优选地，使用每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型的步骤，具体为：

神经网络为一个三层的长短时记忆网络，每层有512个节点。将相位敏感掩蔽理论值作为所述神经网络的训练目标，通过迭代不断使相位敏感掩蔽估计值与相位敏感掩蔽理论值的均方误差减小。

优选地，每通道相位敏感掩蔽的估计值为：

优选地，语音协方差矩阵为：

优选地，对语音协方差矩阵进行特征值分解，获取其主特征向量作为声源的导向矢量为：

优选地，方向信息为：

优选地，方向信息估计的准确性为：

优选地，理想相位差为：

其中，

与

是声源到达第1、2个麦克风所用的时间，f_s是拾取信号的采样率。

优选地，使用所述方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型，具体为：

神经网络为一个三层的全连接神经网络，每层有2048个节点。神经网络的输入特征为方向信息的正弦值与余弦值、方向信息估计准确性的拼接向量，具体为：

I_n＝[sinθ_n,0,…,sinθ_n,F-1,cosθ_n,0,…,cosθ_n,F-1,W_n,0,…,W_n,F-1]

神经网络的估计目标为目标方向信息，具体为：

通过迭代不断地使增强后的方向信息与目标方向信息的均方误差减小。

优选地，增强后的方向信息为：

其中，

是增强模型的输出值。

优选地，每个时频点处计算的声源方向为：

其中，c是声音传播速度，d是麦克风间距。

优选地，加权直方图在构建时，每一个时频点的权重为W_n,f。

优选地，统计结果最大的方向为：

本发明的优点在于：1)通过空间信息与谱信息估计相位敏感掩蔽，从而获得更准确的方向信息估计；2)通过利用神经网络对估计的方向信息进行增强，从而提升定位方法在噪声混响环境中的性能；3)通过利用加权直方图估计最终的声源方位，可以减小静音段对声源定位准确性的影响。通过在训练数据中包含足够多的噪声类型和方位，可以充分利用深度神经网络的泛化能力，提高模型的鲁棒性，达到在噪声混响环境中进行声源定位的目的。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于深度学习的双通道声源定位方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为一种基于深度学习的双通道声源定位方法的流程图。如图1所示，该方法包括：

步骤S101：对左通道和右通道的麦克风拾取数据分别进行分帧、加窗和傅里叶变换，得到每通道的时频域拾取信号。双通道时频域信号中包含声源位置的信息。

在一个具体实施例中，对每通道取512个采样点作为一帧信号，若长度不足则先补到512点；然后对每一帧信号进行加窗，加窗函数采用布莱克曼窗；最后对每一帧信号进行傅里叶变换，得到每通道的时频域拾取信号。

步骤S102：对左通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第一通道的输入特征；对右通道的时频域拾取信号的对数功率谱和通道间相位差进行组合得到第二通道的输入特征。

具体地，每通道输入特征为：

其中，n是数据帧的编号，m是通道的编号，

是第m个通道的时频域信号的对数幅度谱，

是第m个通道的时频域信号的相位差。

步骤S103：利用第一通道的时频域拾取信号和其对应的时频域直达声信号计算得到第一通道的相位敏感掩蔽估计值；利用第二通道的时频域拾取信号和其对应的时频域直达声信号计算得到第二通道的相位敏感掩蔽估计值。

具体地，每通道相位敏感掩蔽为：

是直达声数据时频域信号的相位，

是直达声的时频域信号，X是麦克风拾取数据的时频域信号。

步骤S104：使用每一通道的输入特征和其对应的理论相位敏感掩蔽对神经网络进行训练得到相位敏感掩蔽的估计模型。

在一个具体实施例中，神经网络为一个三层的长短时记忆网络，每层有512个节点。将相位敏感掩蔽理论值作为所述神经网络的训练目标，通过迭代不断使相位敏感掩蔽估计值与相位敏感掩蔽理论值的均方误差减小。

步骤S105：将第一通道的输入特征作为估计模型的输入，输出第一通道的相位敏感掩蔽估计值；将第二通道的输入特征作为概率估计模型的输入，输出第二通道的相位敏感掩蔽的估计值。

具体地，每通道相位敏感掩蔽的估计值为：

步骤S106：使用每一通道时频域拾取信号和每一通道时频域相位敏感掩蔽估计值一起计算语音协方差矩阵。

具体地，语音协方差矩阵为：

步骤S107：对语音协方差矩阵进行特征值分解，获取其主特征向量作为声源的导向矢量。

具体地，导向矢量为：

步骤S108：对导向矢量的两个元素取其相角差作为方向信息。

具体地，方向信息为：

步骤S109：利用两通道相位敏感掩蔽估计值计算每个时频点方向信息估计准确性。

具体地，方向信息估计的准确性为：

步骤S110：利用声源到达麦克风的时间差计算两个麦克风拾取数据的理想相位差作为目标方向信息。

具体地，目标方向信息为：

其中，

与

步骤S111：使用方向信息、方向信息估计准确性和目标方向信息对神经网络进行训练得到方向信息增强模型。

在一个具体实施例中，神经网络为一个三层的全连接神经网络，每层有2048个节点。

具体地，神经网络的输入特征为方向信息的正弦值与余弦值、方向信息估计准确性的拼接向量：

I_n＝[sinθ_n,0,…,sinθ_n,F-1,cosθ_n,0,…,cosθ_n,F-1,W_n,0,…,W_n,F-1]

具体地，神经网络的估计目标为目标方向信息：

步骤S112：将方向信息和方向信息估计准确性作为方向信息增强模型的输入，输出为增强的方向信息。

具体地，增强后的方向信息为：

其中，

是增强模型的输出值。

步骤S113：使用增强的方向信息在每个时频点处计算声源方向。

具体地，每个时频点处计算的声源方向为：

其中，c是声音传播速度，d是麦克风间距。

步骤S114：利用方向特征估计准确性和所有时频点处的方向信息构建加权统计直方图。

具体地，加权直方图在构建时，每一个时频点的权重为W_n,f。

步骤S115：利用加权直方图，选取统计结果最大的方向作为声源方向。

具体地，统计结果最大的方向为：

本发明实施例提供了一种基于深度学习的双通道声源定位方法，通过同时利用空间信息与谱信息估计相位敏感掩蔽，并以相位敏感掩蔽为指导对方向信息进行估计，然后通过神经网络对方向信息进行增强，最终通过加权统计直方图确定最终的声源方位。通过在训练数据中包含足够多的噪声类型和方位，可以充分利用深度神经网络的泛化能力，提高模型的鲁棒性，达到在噪声混响环境中对声源方位进行估计的目的。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。