CN111948609B

CN111948609B - 基于Soft-argmax回归器的双耳声源定位方法

Info

Publication number: CN111948609B
Application number: CN202010872003.XA
Authority: CN
Inventors: 周琳; 王天仪; 冯坤; 许越; 马康宇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2022-02-18
Anticipated expiration: 2040-08-26
Also published as: CN111948609A

Abstract

本发明公开了一种基于Soft‑argmax回归器的双耳声源定位方法，属于声源定位技术领域。在子带内计算双耳声信号的互相关函数和耳间强度差，将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数，对Soft‑argmax回归器进行训练；测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数，利用训练好的Soft‑argmax回归器估计每帧双耳声信号对应的方位角。其步骤简单，鲁棒性良好，在高噪声和强混响干扰的场景中对目标生源定位精度高。

Description

基于Soft-argmax回归器的双耳声源定位方法

技术领域

本发明涉及一种双耳声源定位方法，尤其涉及一种基于Soft-argmax回归器的双耳声源定位方法，属于声源定位技术领域。

背景技术

在语音信号处理领域，声源定位技术是一个经典的研究课题。可靠的声源定位技术有利于提升语音增强、语音分离等前端语音处理算法的性能。声源定位技术在生活中也有着广泛的应用场景。例如，在人机交互场景中，机器人可以通过声源定位技术寻找或跟随说话者，或者利用声源定位技术提升语音识别的能力；在视频监控场景中，通过声源定位技术，摄像头可以自动转向以追踪发出声响的方向。

声源定位技术所涉领域很广，包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。双耳声源定位利用双耳信号的差异进行分析从而估计声源方位，目前的定位算法根据其定位参数的区别可以分为两类，但均存在缺陷：

1、基于耳间差的定位

Lord Rayleigh于1907年首次提出基于耳间线索差的定位理论，“双工理论”。该理论指出，人类可以依靠声音到达左右耳时产生的耳间时间差(Interaural TimeDifference,ITD)和耳间强度差(Interaural Intensity Difference,IID)进行声源的定位，其中，ITD主要来自于声音中的低频部分，IID主要来自于声音中的高频部分，此外与ITD、IID相关双耳声信号的互相关函数(Cross Correlation Function，CCF)也是耳间差异参数。ITD、IID和CCF在目前主流的方法中被用来作为双耳声源定位***的重要参数，但实际环境中由于混响和噪声的干扰，会导致定位性能的下降，如何提升复杂环境中定位算法的鲁棒性仍然需要进一步的研究。

2、基于头相关传递函数的定位

ITD信息可以判断左、右方位的声源，而不能判别声音是来自前方还是后方，也不能定位仰角位置。但是基于与头相关传递函数(Head-Related Transfer Function，HRTF)的方法对声源的定位就不再局限于水平面及前向声源，可以实现对三维空间声源的定位，该方法利用HRTF数据库设计逆滤波器，通过逆滤波之后的双耳信号计算互相关值，据此来估计声源方位。此类方法解决了三维空间声源定位问题，但是计算复杂度过大，并且与头相关传递函数的个体性较强，对不同个体，或者周围环境有所差异(即存在不同噪声或混响情况下)时，可能导致实际传递函数与定位模型中使用的函数不一致，进而影响定位的准确率。

发明内容

针对上述技术的不足之处，提供一种步骤简单，鲁棒性良好，在高噪声和强混响干扰的场景中对目标生源定位精度高的一种基于Soft-argmax回归器的双耳声源定位方法。

为实现上述技术目的，本发明的基于Soft-argmax回归器的双耳声源定位方法包括以下步骤：

(1)收集不同方位角、不同混响时间、不同信噪比下的双耳声信号；

(2)双耳声信号先后进行子带滤波、分帧和加窗，从而得到各个子带分帧后的双耳声信号；

(3)计算每一帧子带分帧后的双耳声信号的耳间特征参数，将耳间特征参数进行融合，从而形成耳间二维特征参数矩阵X(τ)，将X(τ)与第τ帧的声源真实方位角θ(τ)组成训练样本(X(τ),θ(τ))；

(4)利用训练双耳声信号的二维特征参数训练Soft-argmax回归器，训练过程具体包括：

(4-2)首先随机初始化Soft-argmax回归器所有卷积层和全连接层的权值；

(4-2)然后向Soft-argmax回归器输入训练样本(X(τ),θ(τ))，X(τ)为第τ帧的耳间二维特征参数矩阵，作为Soft-argmax回归器的输入；θ(τ)为第τ帧的声源真实方位角，作为Soft-argmax回归器的输入X(τ)对应的预期输出；

(4-3)根据前向传播算法，依次计算每层网络的实际输出值，直到计算出Soft-argmax的实际输出值θ_pred；

(4-4)计算当前训练特征参数的代价函数，定义如下：

L_MAE(θ(τ),θ_pred)＝|θ(τ)-θ_pred|

(4-5)使用反向传播算法，计算代价函数L_MAE对网络权重的偏导，并修正权重；

(4-6)若当前迭代次数未达到预设总迭代次数，则返回至步骤(4-2)，继续输入下一个训练样本进行计算，直至得到达到预设迭代次数时迭代结束，Soft-argmax回归器训练结束；

(5)利用训练的Soft-argmax回归器对测试双耳声信号对应的融合二维空间特征参数进行运算，确定输入的双耳声信号的方位。

一种基于Soft-argmax回归器的双耳声源定位方法，其具体步骤如下：

a利用公式：

获取不同方位角、不同混响时间、不同信噪比下的双耳声信号，将获取到的双耳声信号生成训练样本集，式中，x_L(m)、x_R(m)分别表示加入混响和噪声后的左、右耳声信号，s(m)为单声道源信号，h_L(m)、h_R(m)为不同混响时间对应的双耳房间冲激响应函数，v_L(m)、v_R(m)表示指定信噪比下的左、右耳白噪声信号，m表示样本点序号，*为卷积运算；；

b对双耳声信号训练样本集进行子带滤波、分帧、加窗，得到各个子带分帧后的训练双耳声信号样本集，其中子带滤波器为：

或者任何实现声信号的子带滤波功能的滤波器，式中，x_L(i,m)、x_R(i,m)分别为滤波后的第i个子带的左耳声信号、右耳声信号；

c计算子带分帧双耳声信号的耳间特征参数互相关函数和耳间强度差，并将耳间特征参数进行融合组成一维的特征向量，然后将每一帧中每个子带的一维特征向量，根据子带顺序，融合组成二维特征参数矩阵X(τ)，二维特征参数集X(τ)的维数为K×(2L+2)，其中K为子带个数，L为最大延迟采样点数；

d利用训练双耳声信号的二维特征参数训练Soft-argmax回归器，训练过程具体为：

d1初始化Soft-argmax回归器中的卷积层以及全连接层的权值；，Soft-argmax回归器包括输入层、卷积层、若干密集连接块和转换层、全局池化层、全连接层、输出层，具体依次包含1个输入层，1个卷积层，3个密集连接块和2个转换层，1个池化层，1个全连接层和1个Soft-argmax输出层；

d2输入训练样本(X(τ),θ(τ))，其中X(τ)是步骤三获得的特征参数矩阵；θ(τ)表示Soft-argmax回归器在第τ帧的预期输出，即声源的真实方位角；

d3根据前向传播算法，依次计算Soft-argmax回归器每层网络的实际输出值，直到计算出Soft-argmax回归器的输出代价函数θ_pred；

d4当前训练特征参数的代价函数L_MAE定义为：L_MAE(θ(τ),θ_pred)＝|θ(τ)-θ_pred|；

d5用反向传播算法，计算代价函数L_MAE对网络权重的偏导，并修正权重；

d6判断当前迭代次数是否小于预设总迭代次数，若小于则返回至步骤d2继续向Soft-argmax回归器输入训练样本(X(τ),θ(τ))中的数据进行计算，直至得到达到预设迭代次数时迭代结束，结束训练Soft-argmax回归器，获得训练完成的Soft-argmax回归器。

e利用训练完成的Soft-argmax回归器对测试双耳声信号对应的融合二维空间特征参数进行运算，得到Soft-argmax回归器输出神经元的输出值，该输出值即为目标声源的方位角。

优选的，所述计算子带分帧双耳声信号的耳间特征参数，并将耳间特征参数进行融合，从而形成二维特征参数的步骤具体包括：

首先利用公式：

计算子带每一帧双耳声信号的互相关函数CCF；式中，CCF(i,τ,d)表示第i个子带、第τ帧的双耳声信号对应的互相关函数，d为延迟采样点数，x_L(i,τ,m)、x_R(i,τ,m)分别表示子带滤波、分帧、加窗后第i个子带、第τ帧的左、右耳声信号，m表示样本点序号，L为最大延迟采样点数；

然后利用公式：

计算子带每一帧双耳声信号的耳间强度差IID，式中，IID(i,τ)表示第i个子带、第τ帧的耳间强度差；

最后利用公式：C(i,τ)＝[CCF(i,τ,-L),CCF(i,τ,-L+1),...,CCF(i,τ,L),IID(i,τ)]将第i个子带、第τ帧的CCF和IID参数组成一维特征向量C(i,τ)。

优选的，计算子带分帧双耳声信号的耳间特征参数，并将耳间特征参数进行融合，从而形成二维特征参数的步骤包括：将每一帧中每个子带的一维特征向量，根据子带顺序，融合组成一个二维向量，其计算过程为：

式中，X(τ)表示第τ帧双耳声信号的二维特征参数向量，K为子带个数。

优选的，二维特征参数训练Soft-argmax回归器的输入层输入特征参数矩阵X(τ)，Soft-argmax回归器的卷积层后为若干个密集连接块和转换层依次排列，密集连接块中包含卷积和dropout操作，转换层中包含卷积和池化操作，最后一个密集连接块后为全局池化层，全连接层将上一层的输出转化为一维向量，通过Soft-argmax转化为回归预测数值，对应方位角线性映射的标签得到真实方位角；真实方位角回归预测值θ_pred的计算公式为：

式中，

表示全连接层的输出经Softmax激活后的向量中第j点的值，u_j表示全连接层的输出向量中第j点的值，β是改变向量分布的参数，w_j为权值，P为的方位角个数，

表示βu_j的指数函数；

w_j的计算公式为：

式中，θ_min表示可能方位角的最小值，θ_max表示可能方位角的最大值，P为的方位角个数。

有益效果：

在不同声学环境下的实验结果表明，本发明提出的基于Soft-argmax回归器的双耳声源定位方法，在子带内提取出训练双耳声信号的互相关函数和耳间强度差，组成二维特征参数作为训练样本，采用密集卷积网络作为Soft-argmax回归器的骨干网络，对多环境下的特征参数进行训练，得到Soft-argmax回归器，测试中提取测试双耳声信号的二维特征参数，利用训练得到的Soft-argmax回归器估计每帧双耳声信号对应的方位信息，其具有很好的鲁棒性，尤其是在高噪声和强混响情况下显著提升了定位正确率，优于现有技术中的经典算法。

附图说明

图1为本发明基于Soft-argmax回归器的双耳声源定位方法的流程示意图；

图2为一帧中各个子带的互相关函数与耳间强度差组成二维特征参数可视化后的灰度图；

图3为本发明的Soft-argmax回归器整体结构示意图；

图4为本发明方法在不同条件下均方根误差比较结果图；

图5为不同方法在四种不同房间声学环境的均方根误差平均值比较结果图；

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本发明的基于Soft-argmax回归器的双耳声源定位方法包括以下步骤：

步骤一、获取不同方位角、不同混响时间、不同信噪比下的双耳声信号，计算公式为：

x_L(m)＝s(m)*h_L(m)+v_L(m)

x_R(m)＝s(m)*h_R(m)+v_R(m)

式中，x_L(m)、x_R(m)分别表示加入混响和噪声后的左、右耳声信号，s(m)为单声道源信号，h_L(m)、h_R(m)为不同混响时间对应的双耳房间冲激响应函数，v_L(m)、v_R(m)表示指定信噪比下的左、右耳白噪声信号，m表示样本点序号，*为卷积运算。

本例中，单声道源信号采用CHAINS Speech Corpus语音库SOLO中的单声道女声、男声信号：训练数据的双耳房间脉冲响应函数采用Roomsim仿真软件生成的数据，无混响时，双耳房间脉冲响应函数即为与头相关脉冲响应函数HRIR。测试数据的混响采用Surrey大学实测的双耳房间脉冲响应数据。方位角的范围为[-90°,90°]，间隔5°取值，总计37个方位角。每个方位角对应一对双耳房间脉冲响应函数，即左耳房间脉冲响应函数、右耳房间脉冲响应函数。

训练样本为噪声、混响环境下的双耳声信号，是为了能让Soft-argmax回归器能够学习到噪声、混响环境下双耳声信号的空间特征参数的分布规律。训练双耳声信号的混响时间设置为0.2s、0.6s，信噪比设置为10dB、20dB、30dB，从而得到不同方位角在6种不同声学环境下的双耳声信号。训练数据的混响来自四个不同房间A、B、C、D的实测数据，信噪比设置为0dB、5dB、10dB、15dB、20dB，从而得到20种不同方位角在20种不同声学环境下的双耳声信号。表1是各房间的声学特性，包括混响时间T60、直达反射比(Direct-to-ReverberantRatio,DRR)、初始时延间隔(Initial Time Delay Gap,ITDG)。

表1房间声学特性

房间	A	B	C	D
					T60(s)	0.32	0.47	0.68	0.89
DDR(dB)	6.09	5.31	8.82	6.12
					ITDG(ms)	8.72	9.66	11.9	21.6

步骤二、对步骤一得到的训练双耳声信号进行子带滤波、分帧、加窗，得到各个子带分帧后的训练双耳声信号，具体包括如下子步骤：

子带滤波可以采用Gammatone滤波器组，Gammatone滤波器的时域冲激响应函数为：

式中，i表示滤波器的序号；A为滤波器增益；f_i是滤波器的中心频率；fs是采样频率；b_i是滤波器的衰减因子，决定了脉冲响应的衰减速度；u(m)代表阶跃函数。

子带滤波的计算公式为：

x_L(i,m)＝x_L(m)*g_i(m)

x_R(i,m)＝x_R(m)*g_i(m)

式中，x_L(i,m)、x_R(i,m)分别为滤波后的第i个子带的左耳声信号、右耳声信号。

实际上，本发明的子带滤波器不限制于此实施例的滤波器结构，只要是实现声信号的子带滤波功能的，都可以采用。

分帧和加窗的公式为：

x_L(i,τ,m)＝w_H(m)x_L(i,τ·N/2+m),0≤m＜N

x_R(i,τ,m)＝w_H(m)x_R(i,τ·N/2+m)，0≤m＜N

式中，x_L(i,τ,m)、x_R(i,τ,m)分别表示分帧后第i个子带、第τ帧的左、右耳声信号，w_H(m)为窗函数，N为帧长。

步骤三、计算子带分帧双耳声信号的耳间特征参数，并将耳间特征参数进行融合，从而形成二维特征参数。

首先计算子带每一帧双耳声信号的互相关函数CCF和耳间强度差IID，并将互相关函数和耳间强度差参数组成一维的特征向量，其中互相关函数CCF的计算为：

式中CCF(i,τ,d)表示第i个子带、第τ帧的双耳声信号对应的互相关函数，d为延迟采样点数，L为最大延迟采样点数。

耳间强度差IID的计算公式为：

式中，IID(i,τ)表示第i个子带、第τ帧的耳间强度差。

将第i个子带、第τ帧的CCF和IID参数组成一维特征向量的计算过程为：

C(i,τ)＝[CCF(i,τ,-L),CCF(i,τ,-L+1),...,CCF(i,τ,L),IID(i,τ)]

式中，C(i,τ)表示第i个子带、第τ帧的一维特征向量。

然后将每一帧中每个子带的一维特征向量，根据子带顺序，融合组成一个二维向量，其计算过程为：

在本实施例中，子带个数K取值为64，互相关函数的最大延迟采样点数L取值为16，这样X(τ)是一个64×34的特征向量。

图2是一个特征参数矩阵X(τ)可视化后的实例；

步骤四、利用训练双耳声信号的二维特征参数训练Soft-argmax回归器。

如图3所示，本实施例采用的Soft-argmax回归器依次包含1个输入层，1个卷积层，3个密集连接块和2个转换层，1个池化层，1个全连接层和1个Soft-argmax输出层。输入层的输入特征参数为步骤三得到的X(τ)，维数为K×(2L+2)，K为子带个数，L为最大延迟采样点数，本例中X(τ)即64×34的特征向量。首个卷积层卷积核大小设置为5×2，卷积核个数为16，步长为1；卷积层后3个密集连接块和2个转换层依次排列，每个密集连接块中各有8层，每层依次经过块归一化函数、ReLU激活函数、3×3卷积、dropout处理，单层固定输出通道数为12，每个密集连接块增加的通道数为96；转换层依次经过块归一化函数、ReLU激活函数、1×1卷积、dropout、2×2最大池化处理，其中1×1卷积的压缩系数θ＝0.5，最大池化步长为2；与最后一个密集连接块连接的全局平均池化层步长为2。卷积和池化前均前对上一层的输出进行零填充，以确保卷积和池化前后特征尺寸不会缩小；dropout的保留概率为0.8，引入Dropout方法可以降低过拟合的风险，该方法是从神经网络中随机丢弃神经元以及所连接的权值，这样可以防止神经元调整过多，这种随机丢弃的方法使得在训练过程中创建稀疏网络。将最后一个池化层的多维输出展开成一维输出，即将三维特征展开成1×172的一维特征。全连接层将特征映射为1×37的向量，通过Soft-argmax将向量转化为数值，代表了方位角对应的标签，Soft-argmax层中β设置为10。方位角回归预测值θ_pred的计算公式为：

式中，

表示βu_j的指数函数；

w_j的计算公式为：

基于设定的参数，步骤四具体包括以下步骤：

(4-1)随机初始化各卷积层以及全连接层的权值；

(4-2)输入训练样本(X(τ),θ(τ))，其中X(τ)是步骤三获得的特征参数矩阵；θ(τ)表示Soft-argmax回归器在第τ帧的预期输出，即声源的真实方位角。

(4-3)根据前向传播算法，依次计算每层网络的实际输出值，直到计算出Soft-argmax的输出θ_pred；

(4-4)计算当前训练特征参数的代价函数，定义如下：

L_MAE(θ(τ),θ_pred)＝|θ(τ)-θ_pred|

(4-6)若当前迭代次数小于预设总迭代次数，则返回至(4-2)，继续输入训练样本进行计算，直至得到达到预设迭代次数时迭代结束，训练Soft-argmax回归器结束。

步骤五、通过训练的Soft-argmax回归器对测试双耳声信号对应的融合二维空间特征参数进行运算，确定声源的方位。

将测试双声信号经过子带滤波、分帧加窗后提取的二维特征参数作为预先训练的Soft-argmax回归器的输入特征，经过计算，得到Soft-argmax回归器输出神经元的输出值，对应线性映射的标签得到的方位角为目标声源的方位。

对以上方法进行仿真验证，最终的性能评估如下：

使用[-90°,+90°]范围内以5°为间隔的测试双耳声信号对Soft-argmax回归器进行定位测试，使用均方根误差RMSE作为定位性能的评价指标。RMSE的计算公式为：

其中，M为语音帧样本总数，θ(τ)和θ_pred(τ)分别表示第τ个语音帧的真实方位角和网络输出的预测方位角(单位为°)。

测试环境由4种混响环境和5种信噪比组成，共20测试组。测试结果如表2所示。

表2不同混响和噪声情况下本发明的均方根误差

将表2的数据绘制成图4，从而分析均方根误差随各因素变化趋势。由图可知，在复杂的混响条件下，环境为高信噪比时定位正确率较高，环境为低信噪比时定位正确率有所下降，但下降并不明显。这说明本发明对噪声、混响具有一定的鲁棒性。

使用不同信噪比、不同混响时间下的测试双耳声信号，将本发明方法的均方根误差与其余双耳声源定位算法，如GCC-PHAT算法、全连接回归器、密集连接网络分类器DCNN这三种算法做对比，表3给出了不同算法的比较结果。

表3不同定位算法在不同环境下的均方根误差比较

图5为表3中均方根误差的房间平均值的图示形式。根据结果，基于Soft-argmax回归器的双耳声源定位算法比之前三者的均方根误差整体有所降低，在低信噪比和复杂的混响条件下定位效果提升明显。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于Soft-argmax回归器的双耳声源定位方法，其特征在于步骤如下：

(4-4)计算当前训练特征参数的代价函数，定义如下：

L_MAE(θ(τ),θ_pred)＝|θ(τ)-θ_pred|

(5)利用训练的Soft-argmax回归器对测试双耳声信号对应的融合二维空间特征参数进行运算，确定输入的双耳声信号的方位；

具体步骤如下：

a利用公式：

获取不同方位角、不同混响时间、不同信噪比下的双耳声信号，将获取到的双耳声信号生成训练样本集，式中，x_L(m)、x_R(m)分别表示加入混响和噪声后的左、右耳声信号，s(m)为单声道源信号，h_L(m)、h_R(m)为不同混响时间对应的双耳房间冲激响应函数，v_L(m)、v_R(m)表示指定信噪比下的左、右耳白噪声信号，m表示样本点序号，*为卷积运算；

d1初始化Soft-argmax回归器中的卷积层以及全连接层的权值，Soft-argmax回归器包括输入层、卷积层、若干密集连接块和转换层、全局池化层、全连接层、输出层，具体依次包含1个输入层，1个卷积层，3个密集连接块和2个转换层，1个池化层，1个全连接层和1个Soft-argmax输出层；

d6判断当前迭代次数是否小于预设总迭代次数，若小于则返回至步骤d2继续向Soft-argmax回归器输入训练样本(X(τ),θ(τ))中的数据进行计算，直至得到达到预设迭代次数时迭代结束，结束训练Soft-argmax回归器，获得训练完成的Soft-argmax回归器；

e利用训练完成的Soft-argmax回归器对测试双耳声信号对应的融合二维空间特征参数进行运算，得到Soft-argmax回归器输出神经元的输出值，该输出值即为预测得到的目标声源的方位角；

所述计算子带分帧双耳声信号的耳间特征参数，并将耳间特征参数进行融合，从而形成二维特征参数的步骤具体包括：

首先利用公式：

然后利用公式：

最后利用公式：C(i,τ)＝[CCF(i,τ,-L),CCF(i,τ,-L+1),...,CCF(i,τ,L),IID(i,τ)]将第i个子带、第τ帧的CCF和IID参数组成一维特征向量C(i,τ)；

二维特征参数训练Soft-argmax回归器的输入层输入特征参数矩阵X(τ)，Soft-argmax回归器的卷积层后为若干个密集连接块和转换层依次排列，密集连接块中包含卷积和dropout操作，转换层中包含卷积和池化操作，最后一个密集连接块后为全局池化层，全连接层将上一层的输出转化为一维向量，通过Soft-argmax转化为回归预测数值，对应方位角线性映射的标签得到真实方位角；真实方位角回归预测值θ_pred的计算公式为：

式中，

表示βu_j的指数函数；

w_j的计算公式为：

2.根据权利要求1所述的基于Soft-argmax回归器的双耳声源定位方法，其特征在于：计算子带分帧双耳声信号的耳间特征参数，并将耳间特征参数进行融合，从而形成二维特征参数的步骤包括：将每一帧中每个子带的一维特征向量，根据子带顺序，融合组成一个二维向量，其计算过程为：