CN112731291B

CN112731291B - 协同双通道时频掩码估计任务学习的双耳声源定位方法及***

Info

Publication number: CN112731291B
Application number: CN202011096916.3A
Authority: CN
Inventors: 丁润伟; 吴璐璐; 杨冰; 刘宏
Original assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION; Peking University Shenzhen Graduate School
Current assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION; Peking University Shenzhen Graduate School
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2024-02-20
Anticipated expiration: 2040-10-14
Also published as: CN112731291A

Abstract

本发明公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及***。该方法为：1)使用双耳信号的短时傅里叶变换系数作为输入特征；2)使用对数维纳滤波作为目标时频掩码，同时估计双通道对数频谱特征的时频掩码；3)将估计得到的时频掩码与对数频谱特征相乘，得到增强后的对数频谱特征；4)利用增强后的对数频谱特征及相位谱特征作为输入，估计声源的方位角；5)利用两阶段训练模式，在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系，微调所有网络参数。本发明能够利用卷积神经网络同时估计双通道时频掩码，提升定位特征的鲁棒性，并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。

Description

协同双通道时频掩码估计任务学习的双耳声源定位方法及 ***

技术领域

本发明属于音频信号处理和计算机听觉技术领域，具体涉及一种适用于在存在噪声、混响、多声源环境下的双耳麦克风声源定位方法及***，通过卷积神经网络学习双通道信号的空间信息，同时估计双通道时频掩码，能够增强双耳信号和双耳定位特征，并且将双通道时频掩码增强后的定位特征作为定位模型的输入，能够协同双通道时频掩码估计任务学习端到端的声源定位模型。

背景技术

在人类日常生活的交互中，人们感知外界信息的主要方式有视觉、听觉、触觉、嗅觉和味觉等等。其中，人类通过视觉来获取的信息约占70％-80％，通过听觉获取的信息约占10％-20％。听觉感知是人们与外界进行信息交流的最自然、方便、直接有效的方式之一。相对于视觉、触觉等，听觉具有全向性和衍射性，能够不受方位和物理结构(如墙壁)的限制，可以在被障碍物遮蔽的情况下依然有效地接收声音信号。机器人听觉***包括声源信号的定位与跟踪、声源分离与分类、说话人识别、语音识别、语音情感识别等功能。机器人听觉声源定位指的是利用搭载在机器人***上的麦克风设备定位出声源相对于麦克风设备的位置，包括水平角、俯仰角和距离。作为语音信号处理的基础前端任务，机器人听觉声源定位可以为其他语音信号处理任务提供空间辅助信息。利用少量的麦克风估计声源的位置是实现实用机器人听觉***的一个重要目标，声源定位技术在人机交互、语音分离、语音增强、会议***中有着广泛的应用。随着智能科学技术的发展，人们对机器人智能化程度的要求不断提高，具有多模态感官的智能机器人逐渐成为学术界和工业界研究的热点。听觉***作为智能机器人***的重要组成部分，已成为人工智能领域的重要研究课题之一。然而，针对机器人听觉***的声源定位研究较少，现如今仍然存在着许多研究难点，如声学环境的复杂性，强噪声和强混响的声学环境，多声源干扰等等。因此，声源定位技术在智能机器人领域具有重要的应用价值和研究意义。为了提升双耳声源定位在噪声、混响和多声源环境下的性能，学者们提出了许多双耳声源定位的方法。

根据麦克风数量以及是否具有机器人工头的耳廓结构，声源定位技术可以粗略地分为基于麦克风阵列的声源定位和基于双耳麦克风的声源定位。麦克风阵列可以搭载在机器人身上，也可以分散在环境中各个角落。常见的麦克风阵列类别有：立方体麦克风阵列、线性麦克风阵列、柱形麦克风阵列等等。双耳麦克风则搭载在人工头或机器人头部的耳廓结构中。基于双耳麦克风的声源定位充分利用了仿真的人耳听觉特性，即由头部阴影效应和耳廓的衍射及散射效应带来的声谱特性。由于人工头的前后对称性，人工头的前后声源容易造成混淆，而耳廓的存在为区分声源前后向提供了有利条件。

双耳声源定位一般包括提取双耳定位特征和在线定位两个阶段。传统的定位特征包括双耳时间差、双耳能量差，它们分别表示声源到达双耳麦克风时的时间差异和能量差异。在线定位方法主要有模板匹配、高斯混合模型、深度神经网络等等。为了提升双耳定位特征在噪声和混响环境下的鲁棒性，也有研究提出使用时频掩码选择可靠的时频单元，并在这些单元内计算双耳定位特征。实际上，经过语音信号处理之后，双耳声源定位任务是一个模式识别问题，现有的双耳声源定位***包括以下步骤：

1、利用麦克风接收信号，对麦克风信号进行预滤波。双耳声源定位中常用Gammatone滤波器对麦克风信号进行滤波，Gammatone滤波器组是一种标准的耳蜗听觉滤波器组，各个滤波器的带宽从低频到高频由窄变宽。Gammatone滤波器组只需要较少的参数就能很好地模拟人耳听觉***的生理数据，并且充分体现基底膜尖锐的滤波特征。

2、预加重。信号通过高频加重滤波器冲激响应H(z)＝1-0.95z^-1，以补偿嘴唇辐射带来的高频衰减。

3、分帧、加窗。由于语音信号的慢时变性，整体非平稳，局部平稳，一般认为语音信号在10-30ms内是平稳的，可以把声音信号按照20ms的长度进行分帧。

4、特征提取。双耳定位特征主要有双耳时间差、双耳能量差、双耳相位差、短时傅里叶变换系数等等。

5、在线定位。在提取双耳定位特征之后，利用存储的特征进行全局匹配，差别最小的情况被视为最有可能出现的位置；或者利用训练好的定位模型将双耳定位特征映射到声源位置。

目前，为了提升双耳声源定位在噪声、混响和多声源环境下的性能，不少学者开始将单通道时频(Time-Frequency，TF)掩码估计应用于特征提取阶段。然而，单通道时频掩码只针对单通道信号进行估计，没有充分利用通道信号间的空间信息，使得估计的时频掩码可能会影响双耳定位特征的准确性。此外，大多数双耳声源定位方法将特征提取和在线定位分为两阶段，这种独立的两阶段定位流程中定位模型不能将学习过程中的方位信息反馈给特征提取阶段，从而导致了模型学习和定位特征更新之间的断层。即使经过二十几年的探索，双耳声源定位还存在许多问题亟待解决。

发明内容

本发明提出了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及***，以提高在噪声、混响和多声源环境下双耳声源定位的性能。

为了实现上述目的，本发明采用以下技术方案：

一种协同双通道时频掩码估计任务学习的双耳声源定位方法，主要包括以下步骤：

使用双耳麦克风信号的对数频谱作为输入，对数维纳滤波器作为目标时频掩码，训练基于卷积神经网络的双通道时频掩码估计网络(称为TFNet)；

将双通道时频掩码估计网络估计得到的时频掩码与对数频谱特征相乘，得到增强后的对数频谱特征；

利用增强后的对数频谱特征及相位谱特征作为输入，训练基于卷积神经网络的多方位角估计网络(称为DOANet)；

协同双通道时频掩码估计网络和多方位角估计网络，形成端到端的双耳声源定位模型(称为TFNet-DOANet)；

将双耳麦克风信号的短时傅里叶变换的对数频谱图和相位谱作为输入，利用训练好的双耳声源定位模型估计多声源方位角。

进一步地，上述方法利用公开的头相关传递函数模拟双耳声源信号，并且利用噪声、混响数据库模拟噪声、混响环境下的双耳声源定位，多声源双耳信号由多个单声源信号叠加而成；模拟的双耳声源信号可以表示为头相关脉冲响应(双耳室脉冲响应)与语音声源信号的卷积，以及加性噪声的和：

其中，Y_m(t,f)表示麦克风接收到的双耳信号的短时傅立叶变换，N为目标声源个数，t表示双耳信号分帧后的第t帧，f表示双耳信号经过傅立叶变换后的频带，H_mi(f)表示头相关传递函数或双耳室传递函数，S_i(t,f)表示原始声源信号的短时傅立叶变换，V_m(t,f)表示噪声信号的短时傅立叶变换，i为声源的下标，m表示麦克风下标，l表示左耳麦克风，r表示右耳麦克风。

进一步地，本发明在训练阶段，利用对数频谱特征训练估计双通道时频掩码的TFNet(双通道时频掩码估计网络)，具体包括：

1)提出对数维纳滤波器作为目标时频掩码，表示为：

其中，η_m(t,f)表示目标时频掩码，代表直达路径上的头相关传递函数，U_m(t,f)代表其他干扰噪声，也包括早期混响和晚期混响：

其中，表示除了直达路径的早期和晚期混响的头相关传递函数。

2)使用双耳麦克风信号的对数频谱作为输入，对数维纳滤波器作为目标时频掩码，设计卷积神经网络同时估计双通道时频掩码，神经网络使用估计的时频掩码和目标时频掩码之间的均方误差训练参数，均方误差表示为：

其中，T表示信号时间帧数，F表示信号的频带数，表示预测的时频掩码。

双通道时频掩码估计网络TFNet不同于单通道时频掩码估计，利用卷积神经网络同时学习多个通道信号之间的空间信息，以提升双耳信号增强和定位特征增强的性能。

然后，将估计得到的时频掩码与对数频谱特征相乘，得到增强后的对数频谱特征，抑制原始特征中的噪声和混响成分。

进一步地，在本发明的声源定位模型中，方位角估计模型被视为回归任务，模型用于回归多个具有最大概率的方位角表示多个声源的目标方位角。不同于方位角分类任务，本发明提出使用类高斯函数编码多个方位角的概率值，具体为：

其中，o_i∈I表示类高斯函数编码的方位角概率，I表示方位角类别数，θ_j为第j个目标声源的方位角，d(θ_i-θ_j)表示两个方位角之间的角距离，σ是限制的容忍角距离，表示与任一目标声源的角距离在此容忍距离内的相邻方位角具有大于0的概率，超过此容忍距离的方位角的概率为0。在类高斯函数中，任一角度都会去查找最近的目标方位角，并计算其最大概率值。由于声源定位范围是水平全方位角，在编码方位角的概率时，也需要考虑编码概率的闭环。

进一步地，在训练阶段，使用双耳麦克风信号的对数频谱特征(即增强后的对数频谱特征)、相位谱特征作为输入，类高斯函数编码的方位角概率作为目标值，设计卷积神经网络DOANet(多方位角估计网络)估计多个声源的方位角概率，卷积神经网络DOANet使用估计的方位角概率分布与目标方位角概率分布之间的均方误差训练参数，均方误差表示为：

其中，p(θ)表示真实方位角的概率值，表示预测的方位角的概率值。

进一步地，所述协同双通道时频掩码估计网络和多方位角估计网络作为端到端微调阶段。上述步骤分别独立训练了双通道时频掩码估计网络TFNet，多方位角估计网络DOANet。为了提升双耳声源定位在噪声、混响及多声源环境下的性能，本发明协同双通道时频掩码估计网络和多方位角估计网络，形成端到端的双耳声源定位模型。经过时频掩码增强后的双耳定位特征表示为：

其中，“协同”是指双通道时频掩码估计网络为多方位角估计网络提供增强后的定位特征，在方位角估计网络训练的过程中，结合方位角估计损失微调双通道时频掩码估计网络，进一步提升掩码估计的准确性，二者相互促进。

端到端微调阶段与前述TFNet和DOANet的单独训练阶段合在一起被称为两阶段训练过程。第一阶段训练过程中TFNet的训练损失为：

第一阶段训练过程中DOANet的训练损失为：

第二阶段端到端微调过程中的损失表示为：

Loss＝Loss_TF+Loss_DOA

进一步地，在线定位阶段和训练阶段差别不大，除了不反馈与目标值之间的损失外，其他部分完全一样。TFNet-DOANet估计出声源方位角的概率值之后，使用以下逻辑解码以得到多声源的方位角

在该解码逻辑中，声源的最大个数N是已知的，这里，ξ表示概率阈值。解码公式表示的是选取容忍距离内概率大于阈值的方位角。若存在概率大于阈值的方位角，则被放入方位角候选集。最终的方位角估计只选取候选集中概率最大的N个方位角作为多声源的方位角，即

基于同一发明构思，本发明还提供一种采用上述方法的协同双通道时频掩码估计任务学习的双耳声源定位***，其包括：

双通道时频掩码估计网络训练模块，用于使用双耳麦克风信号的对数频谱作为输入，对数维纳滤波器作为目标时频掩码，训练基于卷积神经网络的双通道时频掩码估计网络；

多方位角估计网络训练模块，用于将双通道时频掩码估计网络估计得到的时频掩码与对数频谱特征相乘，得到增强后的对数频谱特征；利用增强后的对数频谱特征及相位谱特征作为输入，训练基于卷积神经网络的多方位角估计网络；

端到端微调模块，用于协同双通道时频掩码估计网络和多方位角估计网络，形成端到端的双耳声源定位模型；

在线定位模块，用于将双耳麦克风信号的短时傅里叶变换的对数频谱图和相位谱作为输入，利用训练好的双耳声源定位模型估计多声源方位角。

本发明的有益效果是：

本发明提出了一种用于估计双通道时频掩码的卷积网络以增强双耳定位特征，利用估计的双通道时频掩码增强双耳定位特征，有效提升了定位特征在噪声、混响、多声源环境下的鲁棒性。本发明提出了一种端到端的声源定位模型，使用麦克风信号经过时频掩码增强后的短时傅里叶变换系数作为输入，有效解决了定位特征更新和模型学习之间的断层的问题。通过该定位模型，可以提高在噪声、混响和多声源环境下双耳声源定位的性能。

附图说明

图1是本发明协同双通道时频掩码估计任务学习的端到端双耳声源定位网络结构示意图。

图2是在噪声和混响环境下的混合信号的对数频谱特征经过时频掩码增强后的对数频谱特征的示意图。

图3是在端到端微调阶段的训练损失，以及在此阶段中TFNet训练损失的放大图。

图4(a)是在不同环境下不同方法对单声源双耳信号的定位结果图，图4(b)是对双声源双耳信号的定位结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施实例采用德国柏林工业大学的KEMAR和加州大学戴维斯分校的CIPIC数据库进行试验，这两个数据库都是目前国际上人形机器人声源定位研究中较为权威且使用广泛的头相关传递函数数据库。KEMAR数据库包含360个方位角在0.5m，1m，2m和3m的声源到麦克风距离的头相关传递函数，覆盖了全向水平方位角，角距离为1°，CIPIC数据库包含了25个水平方位角以及50个俯仰角，此数据库只考虑了声源的前向方位角，声源到麦克风的距离为1.5m。此外，本实例采用NOISEX-92数据库中的white、m109、f16、babble四种噪声作为加性噪声，按照不同的信噪比分别加到训练集和测试集中。RoomSim工具包用来模拟混响环境中的双耳声源信号。

图1是本发明实施例中的定位网络结构图，图2是端到端定位网络在微调阶段的训练损失，可以看出，TFNet为了寻求语音增强和双耳定位特征增强之间的平衡，其损失值一直在震荡下降。

图1中，上层结构为TFNet，具体包括：输入的双通道对数频谱特征，五层卷积层，一层全连接层，以及输出的双通道时频掩码。

图1中，下层结构为DOANet，具体包括：输入的双通道对数频谱特征、相位谱特征，经过双通道时频掩码增强后的对数频谱特征，五层卷积层以及五个残差模块，每个残差模块包含三个卷积层，以及最后的全连接层输出360个方位角的估计概率。

表1和表2分别给出了双通道时频掩码估计和单通道时频掩码估计对单声源双耳信号和双声源双耳信号的语音增强和双耳定位特征增强的结果。其中，语音增强结果使用信号干扰比(Signal-to-Interference Ratio,SIR)评估：

双耳定位特征增强使用掩码抑制后的双耳能量差和无噪声污染的信号的双耳能量差之间的均方根误差(Root-Mean-Square Error,RMSE)评估：

其中，IID(t,f)表示真实的双耳强度差，表示双耳对数频谱特征经过时频掩码的掩蔽效应后的双耳强度差。

从对比结果看，对比单通道时频掩码，双通道时频掩码估计可以更有效地增强双耳信号，并且有效增强了双耳定位特征，这为提升双耳声源定位的性能奠定了基础。

表1单/双通道时频掩码估计对双耳信号的语音增强性能(dB)

表2单/双通道时频掩码估计对双耳信号的双耳定位特征增强性能

为了更直观地说明双通道TFNet对噪声的抑制能力，图3展现了一个TF掩蔽信号的频谱图例子。在图3中，第一列的频谱图对应左耳信号，第二列的频谱图对应右耳信号。第一行是接收到的双耳信号在混响时间为0.1s的环境下的对数频谱图，该混响环境还包含了信噪比为5dB的babble加性噪声。第二和第三行分别为无噪声无混响环境下该信号的频谱图，以及通过TFNet预测的掩码掩蔽后的双耳信号。与接收信号相比，掩蔽信号的频谱图更接近于无噪声无混响的信号频谱图，这说明了TF掩码可有效抑制麦克风信号中的噪声信号。从掩蔽信号的频谱图中可以看出，低频的频谱变得更清晰，对噪声的抑制作用更大。低频部分的频谱能够显示出与语音信号相关的波纹形状。由于语音信号在高频部分的能量较少，导致高频部分的信号能量被掩蔽。但是高频的频谱特征对声源定位的影响较小，因此高频频谱的能量损失可以忽略不计。

图4(a)、图4(b)分别为不同环境下单声源、双声源双耳信号的定位性能图，MAE衡量了估计值与目标值之间的对齐角距离的平均绝对误差：

其中，C表示测试样本数量，Li表示DOANet估计第i条测试样本时有Li个概率最大的候选方位角，表示估计的方位角的概率，/>表示真实方位角的概率。

对比的方法为单任务DOANet、端到端无两阶段训练的TF-DOANet-N2S、以及固定TFNet参数的Fixed TFNet-DOANet。

DOANet：对比该方法是为了验证协同任务的有效性。单任务DOANet不包含TFNet，使用原始双耳信号的相位谱特征和对数频谱特征作为输入，估计多声源的方位角概率。

TF-DOANet-N2S：对比该方法是为了验证两阶段训练模式的有效性。TFNet和DOANet融合在一起从零开始进行端到端地训练，不包含预训练阶段。

Fixed TFNet-DOANet：对比该方法是为了验证两阶段训练模式中将预训练好的TFNet和DOANet融合在一起再进行微调的有效性。在此对比方法中，TFNet首先进行预训练，之后固定参数再与DOANet融合训练。

根据以上对比结果，时-频掩蔽效应被证明可以作为一种注意力机制来突出可靠的TF单元，增强相应的频谱特征。在TFNet的训练过程，时-频掩码增强信号和增强双耳定位特征之间的矛盾会导致训练损失震荡，不易于收敛。两阶段的训练模式可以有效缓解这个问题，使得TFNet可以先充分训练时-频掩码增强信号，再在DOA信息的引导下，增强双耳定位线索。

基于同一发明构思，本发明的另一个实施例提供一种采用上述方法的协同双通道时频掩码估计任务学习的双耳声源定位***，其包括：

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的实例，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于该实例的内容。

Claims

1.一种协同双通道时频掩码估计任务学习的双耳声源定位方法，其特征在于，包括以下步骤：

使用双耳麦克风信号的对数频谱作为输入，对数维纳滤波器作为目标时频掩码，训练基于卷积神经网络的双通道时频掩码估计网络；

利用增强后的对数频谱特征及相位谱特征作为输入，训练基于卷积神经网络的多方位角估计网络；

协同双通道时频掩码估计网络和多方位角估计网络，形成端到端的双耳声源定位模型；

将双耳麦克风信号的短时傅里叶变换的对数频谱图和相位谱作为输入，利用训练好的双耳声源定位模型估计多声源方位角；

所述目标时频掩码表示为：

其中，η_m(t,f)表示目标时频掩码；代表直达路径上的头相关传递函数；N为目标声源个数，t表示双耳信号分帧后的第t帧，f表示双耳信号经过傅立叶变换后的频带；S_i(t,f)表示原始声源信号的短时傅立叶变换；U_m(t,f)代表其他干扰噪声，也包括早期混响和晚期混响：

其中，表示除了直达路径的早期和晚期混响的头相关传递函数，V_m(t,f)表示噪声信号的短时傅立叶变换。

2.如权利要求1所述的方法，其特征在于，所述双通道时频掩码估计网络利用卷积神经网络同时学习多个通道信号之间的空间信息，以提升双耳信号增强和定位特征增强的性能；所述双通道时频掩码估计网络使用估计的时频掩码和目标时频掩码之间的均方误差训练参数，均方误差表示为：

3.如权利要求2所述的方法，其特征在于，所述多方位角估计网络使用类高斯函数编码的方位角概率作为目标值；类高斯函数编码的方位角概率为：

其中，o_i∈I表示类高斯函数编码的方位角概率；I表示方位角类别数；θ_j为第j个目标声源的方位角，d(θ_i-θ_j)表示两个方位角之间的角距离；σ是限制的容忍角距离，表示与任一目标声源的角距离在此容忍角距离内的相邻方位角具有大于0的概率，超过此容忍角距离的方位角的概率为0。

4.如权利要求3所述的方法，其特征在于，所述多方位角估计网络使用估计的方位角概率分布与目标方位角概率分布之间的均方误差训练参数，均方误差表示为：

其中，p(θ)表示真实方位角的概率值，表示预测的方位角的概率值，θ表示方位角。

5.如权利要求4所述的方法，其特征在于，所述协同双通道时频掩码估计网络和多方位角估计网络，作为端到端微调阶段，与双通道时频掩码估计网络、多方位角估计网络的单独训练阶段合在一起称为两阶段训练过程；第一阶段训练过程中双通道时频掩码估计网络的训练损失为Loss_TF，第一阶段训练过程中多方位角估计网络的训练损失为Loss_DOA，第二阶段端到端微调过程中的损失表示为：Loss＝Loss_TF+Loss_DOA。

6.如权利要求5所述的方法，其特征在于，在线定位时，所述双耳声源定位模型估计出声源方位角的概率值之后，使用以下逻辑解码以得到多声源的方位角

其中，声源的最大个数N是已知的，ξ表示概率阈值；该解码公式表示选取容忍距离内概率大于阈值的方位角，若存在概率大于阈值的方位角，则被放入方位角候选集，最终的方位角估计只选取候选集中概率最大的N个方位角作为多声源的方位角，即

7.一种采用权利要求1～6中任一权利要求所述方法的协同双通道时频掩码估计任务学习的双耳声源定位***，其特征在于，包括：

8.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～6中任一权利要求所述方法的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～6中任一权利要求所述的方法。