CN108172231B - 一种基于卡尔曼滤波的去混响方法及*** - Google Patents

一种基于卡尔曼滤波的去混响方法及*** Download PDF

Info

Publication number
CN108172231B
CN108172231B CN201711285885.4A CN201711285885A CN108172231B CN 108172231 B CN108172231 B CN 108172231B CN 201711285885 A CN201711285885 A CN 201711285885A CN 108172231 B CN108172231 B CN 108172231B
Authority
CN
China
Prior art keywords
signal
kalman
matrix
microphone
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711285885.4A
Other languages
English (en)
Other versions
CN108172231A (zh
Inventor
齐园蕾
杨飞然
杨军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201711285885.4A priority Critical patent/CN108172231B/zh
Publication of CN108172231A publication Critical patent/CN108172231A/zh
Application granted granted Critical
Publication of CN108172231B publication Critical patent/CN108172231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于卡尔曼滤波的去混响方法及***,所述方法包括:将各麦克风采集到的原始信号进行预处理得到相应的频域信号,延迟后构成输入信号;利用卡尔曼滤波算法和时变的多通道自回归模型估计混响信号,将当前时刻的各麦克风采集到的原始信号作为参考信号,减去混响信号得到误差信号;利用卡尔曼增益矩阵和误差信号更新卡尔曼滤波器的系数;利用当前时刻各麦克风采集到的原始信号、输入信号和更新后的卡尔曼滤波器系数得到目标信号;最后,利用逆傅里叶变换将频域目标信号转换到时域。本发明的方法通过对角化卡尔曼滤波器状态向量误差协方差矩阵,降低了自适应多通道线性预测去混响算法的复杂度。

Description

一种基于卡尔曼滤波的去混响方法及***
技术领域
本发明涉及语音去混响领域,特别涉及一种基于卡尔曼滤波的去混响方法及***。
背景技术
如图1所示,由于房间边界及房间内物体对声波的反射作用,麦克风除接收到声源发出的直达声外,还有来自各个方向的反射声。一般将到达时间在直达声之后30-50ms的声信号称为早期反射声,在此之后到达的声信号称为晚期反射声,即混响拖尾。心理声学研究发现,早期反射声可增强直达声的强度,提高语音可懂度。而混响信号会掩蔽后续到达的直达声信号,导致语音模糊。另外,混响信号还会降低麦克风接收信号的语音质量,以及语音识别***的准确识别率。在密闭房间内进行的电话会议、智能音箱等应用场景下,麦克风往往处在声源的远场。随着声源与麦克风之间距离的增加,混响对麦克风接收信号的破坏作用更加严重。另外,在语音通信***中,环境噪声较小,麦克风接收到的信号主要受房间混响的影响,导致语音信号精确度和可懂度都有所下降,严重影响通信质量。因此,对麦克风接收信号去混响是一项十分必要的工作。
语音去混响是一个热门的研究课题。目前的解决方法主要有:
(1)线性预测残差增强算法。线性预测残差增强算法利用的语音模型为声源滤波器模型。该模型中将语音视作一串激励序列通过一个时变的全极点滤波器。对混响语音信号作线性预测分析可得到全极点滤波器系数的估计值,也就是线性预测系数。然后对麦克风接收信号作逆滤波,即可得到对应的激励信号,也就是残差信号。通过增强残差信号即可实现去混响,通过估计得到的线性预测系数可重建语音信号。
(2)谱增强方法。谱增强方法是一类经典的去混响算法。该方法通过在短时傅里叶变换域修正含噪或含混响信号,达到增强语音信号的目的。文献[1](K.Kinoshita,M.Delcroix,T.Nakatani,and M.Miyoshi,“Suppression of late reverberationeffecton speech signal using long-term multiple-step linear prediction,”IEEETrans.Audio,Speech,Lang.Process.,vol.17,no.4,pp.534–545,May 2009.)通过延迟线性预测估计晚期混响,再利用后续的谱减法实现去混响。文献[2](F.Xiong,N.Moritz,R.Rehr,J.Anemuller,B.Meyer,T.G.G.Doclo,and S.Goetze,“Robust ASR inreverberant environments using temporal cepstrum smoothing for speechenhancement and an amplitude modulation filterbank for feature extraction,”inProc.REVERB Challenge Workshop,Florence,Italy,2014.)利用最小均方误差方法估计干净的语音信号幅度谱,作为自动语音识别的预处理阶段,由晚期混响和平稳背景噪声的功率谱密度可估计干净语音信号的功率谱密度。一般情况下,谱增强方法为确定谱衰减等级需要先估计混响时间。然而,盲混响估计仍然是十分困难的问题,尤其是在含有噪声的环境,该问题的研究仍在不断进展中。
(3)逆滤波方法。盲去混响算法是指在去混响的过程中,对声源和麦克风之间的房间冲激响应的先验知识是未知的。基于麦克风阵列的多通道线性预测算法是一种经典的盲去混响算法。根据多输入输出求逆理论(Multiple input/output inverse theorem,MINT),在各通道传递函数不含公共零点的条件下,多通道方法可以完美均衡时不变的房间冲激响应。然而,MINT算法对***辨识误差十分敏感,而且实际房间的冲激响应往往含有相近的零点,因此MINT算法在实际中难以应用。
由于时域线性预测算法往往要求很长的滤波器长度,并且存在白化目标信号的问题。最近有学者提出在短时傅里叶变换域应用多通道线性预测算法在各子带独立处理信号。在STFT域,混响语音信号在每个频带用自回归模型描述,由此可以减少每个子带的滤波器长度。由于房间冲激响应实际上是随时间变化的,所以需要时变的预测模型系数建模。最近有学者提出了STFT域的多通道自回归(Multichannel autoregressive,MAR)信号模型,利用卡尔曼滤波器估计MAR系数,该算法可视为一种广义的递归最小二乘(Recursiveleastsquares,RLS)算法。
基于STFT域的多通道线性预测算法的计算复杂度与每个子带滤波器阶数成平方关系。该复杂度限制了算法在很多资源有限的***平台上的应用。文献[3](Dietzen T,Doclo S,Spriet A,et al.Low-complexity Kalmanfilterformulti-channel linear-prediction-basedblindspeechdereverberarion[C].IEEE Workshop on Applicationsof Signal Processing to Audio and Acoustics.IEEE,2017.)针对STFT域的自适应多通道线性预测去混响算法,提出了一种简化的卡尔曼滤波求解方法,将计算复杂度降到与滤波器阶数成线性关系。然而,该简化方法会导致一定程度的语音质量下降。另外,该算法只估计一个通道信号,实际中需要计算多个通道。
发明内容
本发明的目的在于克服目前去混响方法存在的上述缺陷,提出一种基于卡尔曼滤波的低复杂度去混响方法,该方法在保证不损失语音质量的同时,进一步降低STFT域自适应多通道线性预测去混响算法的复杂度。
为实现上述发明目的,本发明提出一种基于卡尔曼滤波的去混响方法,该方法包括:
将各麦克风采集到的原始信号进行预处理得到相应的频域信号,延迟后构成输入信号;
利用卡尔曼滤波算法和时变的多通道自回归模型估计混响信号,将当前时刻的各麦克风采集到的原始信号作为参考信号,减去混响信号得到误差信号;
利用卡尔曼增益矩阵和误差信号更新卡尔曼滤波器的系数;
利用当前时刻各麦克风采集到的原始信号、输入信号和更新后的卡尔曼滤波器系数得到目标信号;
最后,利用逆傅里叶变换将频域目标信号转换到时域。
作为上述方法的一种改进,所述方法具体包括:
步骤1)将M个麦克风采集到的信号ym(n),1≤m≤M进行分帧、加窗和傅里叶变换得到相应的频域信号Ym(n),
频域信号Ym(n)为:
Figure BDA0001498435170000031
其中,k为频率下标,N是傅里叶变换的点数;n为时间帧下标,wSTFT(l)为短时傅里叶变换分析窗函数,R代表帧移;
步骤2)由n-D到n-L时刻的M个麦克风的频域信号构成输入信号矩阵Y(n-D),利用卡尔曼权重向量估计混响信号向量r(n),其中D为延迟,L为线性预测长度;
y(n)=[Y1(n),...,YM(n)]T (2)
Figure BDA0001498435170000032
式(3)中,IM是M×M的单位阵,
Figure BDA0001498435170000033
代表Kronecker乘积,Y(n-D)是由麦克风观测信号构成的尺寸为M×Lc的稀疏矩阵,Lc=M2(L-D+1);
按照式(4)计算混响信号向量r(n);
Figure BDA0001498435170000034
式(4)中,
Figure BDA0001498435170000041
M×M的矩阵Cp(n-1)为时变的卡尔曼权重向量系数,p=[D,D+1,...,L],Vec{·}为矩阵列堆叠操作因子;
步骤3)利用当前时刻各麦克风采集的信号y(n)减去所述的步骤2)获得的混响信号向量r(n)得到误差信号向量e(n);
e(n)=y(n)-r(n) (5)
步骤4)计算卡尔曼增益矩阵K(n);
步骤5)由卡尔曼增益矩阵K(n)和误差信号向量e(n)更新卡尔曼滤波器系数
Figure BDA0001498435170000042
Figure BDA0001498435170000043
步骤6)利用当前时刻麦克风采集的信号y(n)、输入信号矩阵Y(n-D)和更新后的卡尔曼滤波器系数
Figure BDA0001498435170000044
计算目标信号向量x(n);
Figure BDA0001498435170000045
步骤7)对频域目标信号向量x(n)进行逆傅里叶变换,得到时域目标信号向量xt(l):
Figure BDA0001498435170000046
作为上述方法的一种改进,所述步骤4)具体包括:
步骤401)按照式(6)采用一阶平滑的方式计算
Figure BDA0001498435170000047
Figure BDA0001498435170000048
其中,
Figure BDA0001498435170000049
为n-1时刻的目标信号方差,
Figure BDA00014984351700000410
为n-2时刻的目标信号方差,x(n-1)为n-1时刻目标信号向量;α为平滑因子,取值为0.2;
步骤402)按照式(7)首先计算扰动噪声w(n)的方差
Figure BDA00014984351700000411
然后按照式(8)计算先验失调方差
Figure BDA00014984351700000412
Figure BDA00014984351700000413
Figure BDA00014984351700000414
式(7)中,Lc=M2(L-D+1),η通常为10-5
Figure BDA0001498435170000051
为n-1时刻的后验失调方差;
步骤403)按照式(9)由目标信号方差
Figure BDA0001498435170000052
和先验失调方差
Figure BDA0001498435170000053
计算规整化因子δ(n);
Figure BDA0001498435170000054
步骤404)按照式(10)由麦克风采集到的信号计算协方差矩阵SY(n-D);
SY(n-D)=Y(n-D)YH(n-D) (10)
步骤405)按照式(11)计算卡尔曼增益矩阵K(n);
K(n)=YH(n-D)[SY(n-D)+δ(n)IM]-1 (11)。
作为上述方法的一种改进,所述步骤7)后还包括:
更新后验失调方差
Figure BDA0001498435170000055
Figure BDA0001498435170000056
一种基于卡尔曼滤波的去混响***,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明的优点在于:
1、本发明的方法通过对角化卡尔曼滤波器状态向量误差协方差矩阵,降低了自适应多通道线性预测去混响算法的复杂度;
2、本发明的简化的卡尔曼滤波算法可看作是一种变规整化因子的归一化最小均方(Normalized Least Mean Square,NLMS)算法。另外,本发明提出的简化的卡尔曼滤波算法的误差信号向量e(n)和目标信号向量x(n)均为M×1的向量,这为后续级联其他多通道算法提供了方便。另外,也为计算目标信号的方差
Figure BDA0001498435170000057
提供了更多的可用信息。
附图说明
图1为房间混响产生示意图;
图2为本发明的卡尔曼滤波去混响的框图;
图3为本发明的卡尔曼权向量更新的框图;
图4为本发明的计算卡尔曼增益矩阵模块的框图;
图5为本发明的估计先验失调方差的框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细的说明。
一种基于卡尔曼滤波的低复杂度去混响方法,所述方法包括:
步骤1)将M个麦克风采集到的信号ym(n),1≤m≤M进行分帧、加窗和傅里叶变换得到相应的频域信号Ym(k,n),为简化表示,下文中将省略频率下标k;
频域信号Ym(k,n)的计算按照式(1)计算:
Figure BDA0001498435170000061
其中,k为频率下标,N是傅里叶变换的点数;n为时间帧下标,wSTFT(l)为短时傅里叶变换分析窗函数,R代表帧移;
步骤2)由n-D到n-L时刻的M个麦克风的频域信号构成输入信号矩阵Y(n-D),利用卡尔曼权重向量估计混响信号向量r(n),其中D为延迟,L为线性预测长度;
Y(n-D)是由麦克风观测信号构成的尺寸为M×Lc的稀疏矩阵,Lc=M2(L-D+1)。r(n)代表晚期混响。
按照式(2)和(3)得到输入信号矩阵Y(n-D);
y(k,n)=[Y1(k,n),...,YM(k,n)]T (2)
Figure BDA0001498435170000062
式(3)中,
Figure BDA0001498435170000063
代表Kronecker乘积。
按照式(4)计算混响信号向量r(n);
Figure BDA0001498435170000064
式(4)中,
Figure BDA0001498435170000065
表示对某一信号的估计值,
Figure BDA0001498435170000066
M×M的矩阵Cp(n-1)为时变的卡尔曼权重向量系数系数,p=[D,D+1,...,L]。L为线性预测长度,延迟D>1的选择与STFT(Short-time Fourier transform,STFT)的帧重叠参数有关,取值要保证x(n)与r(n)的相关可以忽略。Vec{·}为矩阵列堆叠操作因子。
步骤3)利用当前时刻各麦克风采集的信号y(n)减去所述的步骤2)获得的混响信号向量r(n)得到误差信号向量e(n);
e(n)=y(n)-r(n) (5)
步骤4)由输入信号矩阵Y(n-D)、目标信号方差
Figure BDA0001498435170000071
和先验失调方差
Figure BDA0001498435170000072
计算卡尔曼增益矩阵K(n);具体包括:
步骤401)按照式(6)采用一阶平滑的方式计算n时刻的目标信号方差
Figure BDA0001498435170000073
Figure BDA0001498435170000074
其中,
Figure BDA0001498435170000075
为n-1时刻的目标信号方差,
Figure BDA0001498435170000076
为n-2时刻的目标信号方差,x(n-1)为n-1时刻目标信号向量;α为平滑因子,取值为0.2;
步骤402)按照式(7)首先计算扰动噪声w(n)的方差
Figure BDA0001498435170000077
然后按照式(8)计算先验失调方差
Figure BDA0001498435170000078
Figure BDA0001498435170000079
Figure BDA00014984351700000710
式(7)中,Lc=M2(L-D+1),η是一个小正常数,一般建议取10-5
步骤403)按照式(9)由目标信号方差
Figure BDA00014984351700000711
和先验失调方差
Figure BDA00014984351700000712
计算规整化因子δ(n);
Figure BDA00014984351700000713
步骤404)按照式(10)由麦克风采集到的信号计算协方差矩阵SY(n-D);
SY(n-D)=Y(n-D)YH(n-D) (10)
步骤405)按照式(11)计算卡尔曼增益矩阵K(n);
K(n)=YH(n-D)[SY(n-D)+δ(n)IM]-1 (11)
步骤5)由卡尔曼增益矩阵K(n)和误差信号向量e(n)更新卡尔曼滤波器系数
Figure BDA0001498435170000081
Figure BDA0001498435170000082
步骤6)利用当前时刻麦克风采集的信号y(n)、输入信号矩阵Y(n-D)和更新后的卡尔曼滤波器系数
Figure BDA0001498435170000083
计算目标信号向量x(n);
Figure BDA0001498435170000084
步骤7)求频域信号向量x(n)的逆傅里叶变换,得到时域目标信号向量xt(l);
Figure BDA0001498435170000085
步骤8)更新后验失调方差
Figure BDA0001498435170000086
Figure BDA0001498435170000087
式(15)中,IM是M×M的单位阵,Lc=M2(L-D+1),L为线性预测长度。tr[·]表示求矩阵的迹。
如图2所示,图2为本发明的基于卡尔曼滤波的低复杂度去混响算法***框图。其中,Y(n-D)是由n-D到n-L时刻的M个麦克风的频域信号构成的输入信号矩阵,r(n)是由卡尔曼滤波算法估计出的混响信号向量,y(n)是由当前时刻麦克风采集的信号构成的参考信号向量,x(n)为最终输出的目标信号向量。傅里叶变换模块201表示对麦克风采集的信号进行傅里叶变换,第m个麦克风信号的傅里叶变换用Ym(n)表示。延时模块202表示对麦克风采集的信号进行延迟操作。延迟D>1的选择与STFT的帧重叠参数有关,取值要保证x(n)与r(n)的相关可以忽略。卡尔曼滤波模块203表示利用卡尔曼滤波器对输入信号进行滤波,估计混响信号。由求和模块204计算得到目标信号向量x(n)。逆傅里叶变换模块205将频域信号变换到时域。
图3为卡尔曼权系数更新原理框图,其中包含卡尔曼增益计算模块303。由误差信号向量、卡尔曼增益矩阵得到权向量的更新量,由更新的权向量可计算得到最终输出的目标信号向量x(n)。
图4为计算卡尔曼增益矩阵的原理框图,其中包含先验失调方差估计模块403。乘积模块401实现两输入变量相乘,求逆模块402表示对输入信号进行取逆操作。利用目标信号的方差
Figure BDA0001498435170000091
输入信号矩阵Y(n-D)和先验失调误差
Figure BDA0001498435170000092
计算卡尔曼增益矩阵。
Figure BDA0001498435170000093
由先验失调方差估计模块403计算得到。卡尔曼增益对滤波器权系数的更新以及先验失调方差的估计至关重要。首先计算Re(n),然后计算得到卡尔曼增益矩阵K(n)。
图5所示的先验失调方差估计模块也反映了后验失调方差
Figure BDA0001498435170000094
的计算方法。转置模块501表示对矩阵进行转置操作。模块503表示求矩阵的迹。
通过上述分析和图2、图3和图4可以得出以下结论:
首先,采用本发明技术后,大大降低了STFT域自适应多通道线性预测去混响算法的计算复杂度;
其次,采用本发明技术后,不仅降低了计算复杂度,输出的语音质量也得到了保证;
最后,采用本发明技术后,可以在卡尔曼滤波器的跟踪性能和收敛性能之间得到很好的折中。
以上充分的表明本发明提供了一种有效的去混响技术,可以很好的去除由于房间声反射引起的混响干扰,提高语音可懂度和自动语音识别***的准确识别率。
应该指出的是,本发明所描述的简化的卡尔曼滤波算法可看作是一种变规整化因子的NLMS算法,其中δ(n)可视为一个可变的规整化因子。方差
Figure BDA0001498435170000095
对滤波器系数c(n)的估计具有重要作用,较小的
Figure BDA0001498435170000096
值表征了良好的失调性能及差的跟踪性能,较大的
Figure BDA0001498435170000097
值表征了良好的跟踪性能及差的失调性能。换句话说,
Figure BDA0001498435170000098
的取值高度决定了卡尔曼滤波器的跟踪性能和收敛性能。当算法还未收敛时,
Figure BDA0001498435170000099
Figure BDA00014984351700000910
的差值较大,根据式(7),
Figure BDA00014984351700000911
此时也取较大的值,因此提供了快速的收敛性能和跟踪性能。当算法开始收敛到稳态时,
Figure BDA00014984351700000912
Figure BDA00014984351700000913
的差值减小,导致了较小的
Figure BDA00014984351700000914
也就是较低的失调。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于卡尔曼滤波的去混响方法,所述方法包括:
将各麦克风采集到的原始信号进行预处理得到相应的频域信号,延迟后构成输入信号;
利用卡尔曼滤波算法和时变的多通道自回归模型估计混响信号,将当前时刻的各麦克风采集到的原始信号作为参考信号,减去混响信号得到误差信号;
利用卡尔曼增益矩阵和误差信号更新卡尔曼滤波器的系数;
利用当前时刻各麦克风采集到的原始信号、输入信号和更新后的卡尔曼滤波器系数得到目标信号;
最后,利用逆傅里叶变换将频域目标信号转换到时域;
所述方法具体包括:
步骤1)将M个麦克风采集到的信号ym(n),1≤m≤M进行分帧、加窗和傅里叶变换得到相应的频域信号Ym(n),
频域信号Ym(n)为:
Figure FDA0002919441760000011
其中,k为频率下标,N是傅里叶变换的点数;n为时间帧下标,wSTFT(l)为短时傅里叶变换分析窗函数,R代表帧移;
步骤2)由n-D到n-L时刻的M个麦克风的频域信号构成输入信号矩阵Y(n-D),利用卡尔曼权重向量估计混响信号向量r(n),其中D为延迟,L为线性预测长度;
y(n)=[Y1(n),...,YM(n)]T (2)
Figure FDA0002919441760000012
式(3)中,IM是M×M的单位阵,
Figure FDA0002919441760000013
代表Kronecker乘积,Y(n-D)是由麦克风观测信号构成的尺寸为M×Lc的稀疏矩阵,Lc=M2(L-D+1);
按照式(4)计算混响信号向量r(n);
Figure FDA0002919441760000014
式(4)中,
Figure FDA0002919441760000021
M×M的矩阵Cp(n-1)为时变的卡尔曼权重向量系数,p=[D,D+1,...,L],Vec{·}为矩阵列堆叠操作因子;
步骤3)利用当前时刻各麦克风采集的信号y(n)减去所述的步骤2)获得的混响信号向量r(n)得到误差信号向量e(n);
e(n)=y(n)-r(n) (5)
步骤4)计算卡尔曼增益矩阵K(n);
步骤5)由卡尔曼增益矩阵K(n)和误差信号向量e(n)更新卡尔曼滤波器系数
Figure FDA0002919441760000022
Figure FDA0002919441760000023
步骤6)利用当前时刻麦克风采集的信号y(n)、输入信号矩阵Y(n-D)和更新后的卡尔曼滤波器系数
Figure FDA0002919441760000024
计算目标信号向量x(n);
Figure FDA0002919441760000025
步骤7)对频域目标信号向量x(n)进行逆傅里叶变换,得到时域目标信号向量xt(l):
Figure FDA0002919441760000026
所述步骤4)具体包括:
步骤401)按照式(6)采用一阶平滑的方式计算
Figure FDA0002919441760000027
Figure FDA0002919441760000028
其中,
Figure FDA0002919441760000029
为n-1时刻的目标信号方差,
Figure FDA00029194417600000210
为n-2时刻的目标信号方差,x(n-1)为n-1时刻目标信号向量;α为平滑因子,取值为0.2;
步骤402)按照式(7)首先计算扰动噪声w(n)的方差
Figure FDA00029194417600000211
然后按照式(8)计算先验失调方差
Figure FDA00029194417600000212
Figure FDA0002919441760000031
Figure FDA0002919441760000032
式(7)中,Lc=M2(L-D+1),η通常为10-5
Figure FDA0002919441760000033
为n-1时刻的后验失调方差;
步骤403)按照式(9)由目标信号方差
Figure FDA0002919441760000034
和先验失调方差
Figure FDA0002919441760000035
计算规整化因子δ(n);
Figure FDA0002919441760000036
步骤404)按照式(10)由麦克风采集到的信号计算协方差矩阵SY(n-D);
SY(n-D)=Y(n-D)YH(n-D) (10)
步骤405)按照式(11)计算卡尔曼增益矩阵K(n);
K(n)=YH(n-D)[SY(n-D)+δ(n)IM]-1 (11)。
2.根据权利要求1所述的基于卡尔曼滤波的去混响方法,其特征在于,所述步骤7)后还包括:
更新后验失调方差
Figure FDA0002919441760000037
Figure FDA0002919441760000038
3.一种基于卡尔曼滤波的去混响***,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~2之一所述方法的步骤。
CN201711285885.4A 2017-12-07 2017-12-07 一种基于卡尔曼滤波的去混响方法及*** Active CN108172231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711285885.4A CN108172231B (zh) 2017-12-07 2017-12-07 一种基于卡尔曼滤波的去混响方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711285885.4A CN108172231B (zh) 2017-12-07 2017-12-07 一种基于卡尔曼滤波的去混响方法及***

Publications (2)

Publication Number Publication Date
CN108172231A CN108172231A (zh) 2018-06-15
CN108172231B true CN108172231B (zh) 2021-07-30

Family

ID=62524587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711285885.4A Active CN108172231B (zh) 2017-12-07 2017-12-07 一种基于卡尔曼滤波的去混响方法及***

Country Status (1)

Country Link
CN (1) CN108172231B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600894B (zh) * 2018-07-11 2023-07-04 甘肃米笛声学有限公司 一种耳机自适应有源噪声控制***及方法
CN109297718B (zh) * 2018-09-29 2020-08-07 重庆长安汽车股份有限公司 一种阶次啸叫噪声的评价方法
CN109243476B (zh) * 2018-10-18 2021-09-03 电信科学技术研究院有限公司 混响语音信号中后混响功率谱的自适应估计方法及装置
CN110289011B (zh) * 2019-07-18 2021-06-25 大连理工大学 一种用于分布式无线声传感器网络的语音增强***
CN111599372B (zh) * 2020-04-02 2023-03-21 云知声智能科技股份有限公司 一种稳定的在线多通道语音去混响方法及***
CN111474481B (zh) * 2020-04-13 2022-08-09 深圳埃瑞斯瓦特新能源有限公司 基于扩展卡尔曼滤波算法的电池soc估算方法及装置
CN111599374B (zh) * 2020-04-16 2023-04-18 云知声智能科技股份有限公司 一种单通道语音去混响方法及装置
CN111540372B (zh) * 2020-04-28 2023-09-12 北京声智科技有限公司 一种多麦克阵列降噪处理的方法及装置
CN111933170B (zh) * 2020-07-20 2024-03-29 歌尔科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN115065422A (zh) * 2021-07-26 2022-09-16 中国计量科学研究院 混响室内通信质量的评估***和方法
CN114205731B (zh) * 2021-12-08 2023-12-26 随锐科技集团股份有限公司 发言人区域检测方法、装置、电子设备和存储介质
CN117316175B (zh) * 2023-11-28 2024-01-30 山东放牛班动漫有限公司 一种动漫数据智能编码存储方法及***
CN117318671B (zh) * 2023-11-29 2024-04-23 有研(广东)新材料技术研究院 一种基于快速傅里叶变换的自适应滤波方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101460999A (zh) * 2006-06-05 2009-06-17 埃克奥迪公司 盲信号提取
CN103187068A (zh) * 2011-12-30 2013-07-03 联芯科技有限公司 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法
CN107393550A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332156A1 (en) * 2012-06-11 2013-12-12 Apple Inc. Sensor Fusion to Improve Speech/Audio Processing in a Mobile Device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101460999A (zh) * 2006-06-05 2009-06-17 埃克奥迪公司 盲信号提取
CN103187068A (zh) * 2011-12-30 2013-07-03 联芯科技有限公司 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法
CN107393550A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multichannel Online Blind Speech Dereverberation with Marginalization of Static Observation Parameters in a Rao-Blackwellized Particle Filter;Christine Evers et al.;《Journal of Signal Processing Systems》;20110615;第315-316页 *
Online Dereverberation for Dynamic Scenarios Using a Kalman Filter With an Autoregressive Model;Sebastian Braun et al.;《IEEE Signal Processing Letters》;20161231;第23卷(第12期);第1741-1743页 *

Also Published As

Publication number Publication date
CN108172231A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及***
US10446171B2 (en) Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
Kinoshita et al. Neural Network-Based Spectrum Estimation for Online WPE Dereverberation.
CN110085249B (zh) 基于注意力门控的循环神经网络的单通道语音增强方法
KR101934636B1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
US5924065A (en) Environmently compensated speech processing
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
US20110002473A1 (en) Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
CN109979476B (zh) 一种语音去混响的方法及装置
Heymann et al. Frame-online DNN-WPE dereverberation
EP3685378B1 (en) Signal processor and method for providing a processed audio signal reducing noise and reverberation
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN112863535A (zh) 一种残余回声及噪声消除方法及装置
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
CN109243476B (zh) 混响语音信号中后混响功率谱的自适应估计方法及装置
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
Kinoshita et al. Multi-step linear prediction based speech dereverberation in noisy reverberant environment.
CN116052702A (zh) 一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法
Braun et al. Low complexity online convolutional beamforming
Tan et al. Kronecker Product Based Linear Prediction Kalman Filter for Dereverberation and Noise Reduction
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
CN112687285B (zh) 回声消除方法和装置
KR102358151B1 (ko) 컨볼루션 순환신경망을 이용한 잡음 제거 방법

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant