CN108172231B

CN108172231B - 一种基于卡尔曼滤波的去混响方法及***

Info

Publication number: CN108172231B
Application number: CN201711285885.4A
Authority: CN
Inventors: 齐园蕾; 杨飞然; 杨军
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2021-07-30
Anticipated expiration: 2037-12-07
Also published as: CN108172231A

Abstract

本发明公开了一种基于卡尔曼滤波的去混响方法及***，所述方法包括：将各麦克风采集到的原始信号进行预处理得到相应的频域信号，延迟后构成输入信号；利用卡尔曼滤波算法和时变的多通道自回归模型估计混响信号，将当前时刻的各麦克风采集到的原始信号作为参考信号，减去混响信号得到误差信号；利用卡尔曼增益矩阵和误差信号更新卡尔曼滤波器的系数；利用当前时刻各麦克风采集到的原始信号、输入信号和更新后的卡尔曼滤波器系数得到目标信号；最后，利用逆傅里叶变换将频域目标信号转换到时域。本发明的方法通过对角化卡尔曼滤波器状态向量误差协方差矩阵，降低了自适应多通道线性预测去混响算法的复杂度。

Description

一种基于卡尔曼滤波的去混响方法及***

技术领域

本发明涉及语音去混响领域，特别涉及一种基于卡尔曼滤波的去混响方法及***。

背景技术

如图1所示，由于房间边界及房间内物体对声波的反射作用，麦克风除接收到声源发出的直达声外，还有来自各个方向的反射声。一般将到达时间在直达声之后30-50ms的声信号称为早期反射声，在此之后到达的声信号称为晚期反射声，即混响拖尾。心理声学研究发现，早期反射声可增强直达声的强度，提高语音可懂度。而混响信号会掩蔽后续到达的直达声信号，导致语音模糊。另外，混响信号还会降低麦克风接收信号的语音质量，以及语音识别***的准确识别率。在密闭房间内进行的电话会议、智能音箱等应用场景下，麦克风往往处在声源的远场。随着声源与麦克风之间距离的增加，混响对麦克风接收信号的破坏作用更加严重。另外，在语音通信***中，环境噪声较小，麦克风接收到的信号主要受房间混响的影响，导致语音信号精确度和可懂度都有所下降，严重影响通信质量。因此，对麦克风接收信号去混响是一项十分必要的工作。

语音去混响是一个热门的研究课题。目前的解决方法主要有：

(1)线性预测残差增强算法。线性预测残差增强算法利用的语音模型为声源滤波器模型。该模型中将语音视作一串激励序列通过一个时变的全极点滤波器。对混响语音信号作线性预测分析可得到全极点滤波器系数的估计值，也就是线性预测系数。然后对麦克风接收信号作逆滤波，即可得到对应的激励信号，也就是残差信号。通过增强残差信号即可实现去混响，通过估计得到的线性预测系数可重建语音信号。

(2)谱增强方法。谱增强方法是一类经典的去混响算法。该方法通过在短时傅里叶变换域修正含噪或含混响信号，达到增强语音信号的目的。文献[1](K.Kinoshita,M.Delcroix,T.Nakatani,and M.Miyoshi,“Suppression of late reverberationeffecton speech signal using long-term multiple-step linear prediction,”IEEETrans.Audio,Speech,Lang.Process.,vol.17,no.4,pp.534–545,May 2009.)通过延迟线性预测估计晚期混响，再利用后续的谱减法实现去混响。文献[2](F.Xiong,N.Moritz,R.Rehr,J.Anemuller,B.Meyer,T.G.G.Doclo,and S.Goetze,“Robust ASR inreverberant environments using temporal cepstrum smoothing for speechenhancement and an amplitude modulation filterbank for feature extraction,”inProc.REVERB Challenge Workshop,Florence,Italy,2014.)利用最小均方误差方法估计干净的语音信号幅度谱，作为自动语音识别的预处理阶段，由晚期混响和平稳背景噪声的功率谱密度可估计干净语音信号的功率谱密度。一般情况下，谱增强方法为确定谱衰减等级需要先估计混响时间。然而，盲混响估计仍然是十分困难的问题，尤其是在含有噪声的环境，该问题的研究仍在不断进展中。

(3)逆滤波方法。盲去混响算法是指在去混响的过程中，对声源和麦克风之间的房间冲激响应的先验知识是未知的。基于麦克风阵列的多通道线性预测算法是一种经典的盲去混响算法。根据多输入输出求逆理论(Multiple input/output inverse theorem,MINT)，在各通道传递函数不含公共零点的条件下，多通道方法可以完美均衡时不变的房间冲激响应。然而，MINT算法对***辨识误差十分敏感，而且实际房间的冲激响应往往含有相近的零点，因此MINT算法在实际中难以应用。

由于时域线性预测算法往往要求很长的滤波器长度，并且存在白化目标信号的问题。最近有学者提出在短时傅里叶变换域应用多通道线性预测算法在各子带独立处理信号。在STFT域，混响语音信号在每个频带用自回归模型描述，由此可以减少每个子带的滤波器长度。由于房间冲激响应实际上是随时间变化的，所以需要时变的预测模型系数建模。最近有学者提出了STFT域的多通道自回归(Multichannel autoregressive,MAR)信号模型，利用卡尔曼滤波器估计MAR系数，该算法可视为一种广义的递归最小二乘(Recursiveleastsquares,RLS)算法。

基于STFT域的多通道线性预测算法的计算复杂度与每个子带滤波器阶数成平方关系。该复杂度限制了算法在很多资源有限的***平台上的应用。文献[3](Dietzen T,Doclo S,Spriet A,et al.Low-complexity Kalmanfilterformulti-channel linear-prediction-basedblindspeechdereverberarion[C].IEEE Workshop on Applicationsof Signal Processing to Audio and Acoustics.IEEE,2017.)针对STFT域的自适应多通道线性预测去混响算法，提出了一种简化的卡尔曼滤波求解方法，将计算复杂度降到与滤波器阶数成线性关系。然而，该简化方法会导致一定程度的语音质量下降。另外，该算法只估计一个通道信号，实际中需要计算多个通道。

发明内容

本发明的目的在于克服目前去混响方法存在的上述缺陷，提出一种基于卡尔曼滤波的低复杂度去混响方法，该方法在保证不损失语音质量的同时，进一步降低STFT域自适应多通道线性预测去混响算法的复杂度。

为实现上述发明目的，本发明提出一种基于卡尔曼滤波的去混响方法，该方法包括：

将各麦克风采集到的原始信号进行预处理得到相应的频域信号，延迟后构成输入信号；

利用卡尔曼滤波算法和时变的多通道自回归模型估计混响信号，将当前时刻的各麦克风采集到的原始信号作为参考信号，减去混响信号得到误差信号；

利用卡尔曼增益矩阵和误差信号更新卡尔曼滤波器的系数；

利用当前时刻各麦克风采集到的原始信号、输入信号和更新后的卡尔曼滤波器系数得到目标信号；

最后，利用逆傅里叶变换将频域目标信号转换到时域。

作为上述方法的一种改进，所述方法具体包括：

步骤1)将M个麦克风采集到的信号y_m(n)，1≤m≤M进行分帧、加窗和傅里叶变换得到相应的频域信号Y_m(n)，

频域信号Y_m(n)为：

其中，k为频率下标，N是傅里叶变换的点数；n为时间帧下标，w_STFT(l)为短时傅里叶变换分析窗函数，R代表帧移；

步骤2)由n-D到n-L时刻的M个麦克风的频域信号构成输入信号矩阵Y(n-D)，利用卡尔曼权重向量估计混响信号向量r(n)，其中D为延迟，L为线性预测长度；

y(n)＝[Y₁(n),...,Y_M(n)]^T (2)

式(3)中，I_M是M×M的单位阵，

代表Kronecker乘积，Y(n-D)是由麦克风观测信号构成的尺寸为M×L_c的稀疏矩阵，L_c＝M²(L-D+1)；

按照式(4)计算混响信号向量r(n)；

式(4)中，

M×M的矩阵C_p(n-1)为时变的卡尔曼权重向量系数，p＝[D,D+1,...,L]，Vec{·}为矩阵列堆叠操作因子；

步骤3)利用当前时刻各麦克风采集的信号y(n)减去所述的步骤2)获得的混响信号向量r(n)得到误差信号向量e(n)；

e(n)＝y(n)-r(n) (5)

步骤4)计算卡尔曼增益矩阵K(n)；

步骤5)由卡尔曼增益矩阵K(n)和误差信号向量e(n)更新卡尔曼滤波器系数

步骤6)利用当前时刻麦克风采集的信号y(n)、输入信号矩阵Y(n-D)和更新后的卡尔曼滤波器系数

计算目标信号向量x(n)；

步骤7)对频域目标信号向量x(n)进行逆傅里叶变换，得到时域目标信号向量x_t(l)：

作为上述方法的一种改进，所述步骤4)具体包括：

步骤401)按照式(6)采用一阶平滑的方式计算

其中，

为n-1时刻的目标信号方差，

为n-2时刻的目标信号方差，x(n-1)为n-1时刻目标信号向量；α为平滑因子，取值为0.2；

步骤402)按照式(7)首先计算扰动噪声w(n)的方差

然后按照式(8)计算先验失调方差

式(7)中，L_c＝M²(L-D+1)，η通常为10^-5；

为n-1时刻的后验失调方差；

步骤403)按照式(9)由目标信号方差

和先验失调方差

计算规整化因子δ(n)；

步骤404)按照式(10)由麦克风采集到的信号计算协方差矩阵S_Y(n-D)；

S_Y(n-D)＝Y(n-D)Y^H(n-D) (10)

步骤405)按照式(11)计算卡尔曼增益矩阵K(n)；

K(n)＝Y^H(n-D)[S_Y(n-D)+δ(n)I_M]^-1 (11)。

作为上述方法的一种改进，所述步骤7)后还包括：

更新后验失调方差

一种基于卡尔曼滤波的去混响***，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法的步骤。

本发明的优点在于：

1、本发明的方法通过对角化卡尔曼滤波器状态向量误差协方差矩阵，降低了自适应多通道线性预测去混响算法的复杂度；

2、本发明的简化的卡尔曼滤波算法可看作是一种变规整化因子的归一化最小均方(Normalized Least Mean Square,NLMS)算法。另外，本发明提出的简化的卡尔曼滤波算法的误差信号向量e(n)和目标信号向量x(n)均为M×1的向量，这为后续级联其他多通道算法提供了方便。另外，也为计算目标信号的方差

提供了更多的可用信息。

附图说明

图1为房间混响产生示意图；

图2为本发明的卡尔曼滤波去混响的框图；

图3为本发明的卡尔曼权向量更新的框图；

图4为本发明的计算卡尔曼增益矩阵模块的框图；

图5为本发明的估计先验失调方差的框图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细的说明。

一种基于卡尔曼滤波的低复杂度去混响方法，所述方法包括：

步骤1)将M个麦克风采集到的信号y_m(n)，1≤m≤M进行分帧、加窗和傅里叶变换得到相应的频域信号Y_m(k,n)，为简化表示，下文中将省略频率下标k；

频域信号Y_m(k,n)的计算按照式(1)计算：

Y(n-D)是由麦克风观测信号构成的尺寸为M×L_c的稀疏矩阵，L_c＝M²(L-D+1)。r(n)代表晚期混响。

按照式(2)和(3)得到输入信号矩阵Y(n-D)；

y(k,n)＝[Y₁(k,n),...,Y_M(k,n)]^T (2)

式(3)中，

代表Kronecker乘积。

按照式(4)计算混响信号向量r(n)；

式(4)中，

表示对某一信号的估计值，

M×M的矩阵C_p(n-1)为时变的卡尔曼权重向量系数系数，p＝[D,D+1,...,L]。L为线性预测长度，延迟D＞1的选择与STFT(Short-time Fourier transform,STFT)的帧重叠参数有关，取值要保证x(n)与r(n)的相关可以忽略。Vec{·}为矩阵列堆叠操作因子。

e(n)＝y(n)-r(n) (5)

步骤4)由输入信号矩阵Y(n-D)、目标信号方差

和先验失调方差

计算卡尔曼增益矩阵K(n)；具体包括：

步骤401)按照式(6)采用一阶平滑的方式计算n时刻的目标信号方差

其中，

为n-1时刻的目标信号方差，

步骤402)按照式(7)首先计算扰动噪声w(n)的方差

然后按照式(8)计算先验失调方差

式(7)中，L_c＝M²(L-D+1)，η是一个小正常数，一般建议取10^-5。

步骤403)按照式(9)由目标信号方差

和先验失调方差

计算规整化因子δ(n)；

S_Y(n-D)＝Y(n-D)Y^H(n-D) (10)

步骤405)按照式(11)计算卡尔曼增益矩阵K(n)；

K(n)＝Y^H(n-D)[S_Y(n-D)+δ(n)I_M]^-1 (11)

计算目标信号向量x(n)；

步骤7)求频域信号向量x(n)的逆傅里叶变换，得到时域目标信号向量x_t(l)；

步骤8)更新后验失调方差

式(15)中，I_M是M×M的单位阵，L_c＝M²(L-D+1)，L为线性预测长度。tr[·]表示求矩阵的迹。

如图2所示，图2为本发明的基于卡尔曼滤波的低复杂度去混响算法***框图。其中，Y(n-D)是由n-D到n-L时刻的M个麦克风的频域信号构成的输入信号矩阵，r(n)是由卡尔曼滤波算法估计出的混响信号向量，y(n)是由当前时刻麦克风采集的信号构成的参考信号向量，x(n)为最终输出的目标信号向量。傅里叶变换模块201表示对麦克风采集的信号进行傅里叶变换，第m个麦克风信号的傅里叶变换用Y_m(n)表示。延时模块202表示对麦克风采集的信号进行延迟操作。延迟D＞1的选择与STFT的帧重叠参数有关，取值要保证x(n)与r(n)的相关可以忽略。卡尔曼滤波模块203表示利用卡尔曼滤波器对输入信号进行滤波，估计混响信号。由求和模块204计算得到目标信号向量x(n)。逆傅里叶变换模块205将频域信号变换到时域。

图3为卡尔曼权系数更新原理框图，其中包含卡尔曼增益计算模块303。由误差信号向量、卡尔曼增益矩阵得到权向量的更新量，由更新的权向量可计算得到最终输出的目标信号向量x(n)。

图4为计算卡尔曼增益矩阵的原理框图，其中包含先验失调方差估计模块403。乘积模块401实现两输入变量相乘，求逆模块402表示对输入信号进行取逆操作。利用目标信号的方差

输入信号矩阵Y(n-D)和先验失调误差

计算卡尔曼增益矩阵。

由先验失调方差估计模块403计算得到。卡尔曼增益对滤波器权系数的更新以及先验失调方差的估计至关重要。首先计算R_e(n)，然后计算得到卡尔曼增益矩阵K(n)。

图5所示的先验失调方差估计模块也反映了后验失调方差

的计算方法。转置模块501表示对矩阵进行转置操作。模块503表示求矩阵的迹。

通过上述分析和图2、图3和图4可以得出以下结论：

首先，采用本发明技术后，大大降低了STFT域自适应多通道线性预测去混响算法的计算复杂度；

其次，采用本发明技术后，不仅降低了计算复杂度，输出的语音质量也得到了保证；

最后，采用本发明技术后，可以在卡尔曼滤波器的跟踪性能和收敛性能之间得到很好的折中。

以上充分的表明本发明提供了一种有效的去混响技术，可以很好的去除由于房间声反射引起的混响干扰，提高语音可懂度和自动语音识别***的准确识别率。

应该指出的是，本发明所描述的简化的卡尔曼滤波算法可看作是一种变规整化因子的NLMS算法，其中δ(n)可视为一个可变的规整化因子。方差

对滤波器系数c(n)的估计具有重要作用，较小的

值表征了良好的失调性能及差的跟踪性能，较大的

值表征了良好的跟踪性能及差的失调性能。换句话说，

的取值高度决定了卡尔曼滤波器的跟踪性能和收敛性能。当算法还未收敛时，

和

的差值较大，根据式(7)，

此时也取较大的值，因此提供了快速的收敛性能和跟踪性能。当算法开始收敛到稳态时，

和

的差值减小，导致了较小的

也就是较低的失调。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。