CN101777349B - 基于听觉感知特性的信号子空间麦克风阵列语音增强方法 - Google Patents

基于听觉感知特性的信号子空间麦克风阵列语音增强方法 Download PDF

Info

Publication number
CN101777349B
CN101777349B CN2009102498006A CN200910249800A CN101777349B CN 101777349 B CN101777349 B CN 101777349B CN 2009102498006 A CN2009102498006 A CN 2009102498006A CN 200910249800 A CN200910249800 A CN 200910249800A CN 101777349 B CN101777349 B CN 101777349B
Authority
CN
China
Prior art keywords
noise
subspace
signal
power spectrum
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102498006A
Other languages
English (en)
Other versions
CN101777349A (zh
Inventor
刘文举
程宁
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2009102498006A priority Critical patent/CN101777349B/zh
Publication of CN101777349A publication Critical patent/CN101777349A/zh
Application granted granted Critical
Publication of CN101777349B publication Critical patent/CN101777349B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于听觉感知特性的信号子空间麦克风阵列语音增强方法。本发明在改进传统的麦克风阵列信号子空间语音增强方法的基础上,充分结合了人耳的听觉掩蔽效应。信号子空间的算法核心在于合理地估计线性滤波器,其要点包括:准确的估计信号子空间维度和噪声功率谱,合理地估计拉格朗日乘子。对此,本发明提出了一套行之有效的解决方案。该方案包括下列步骤:对麦克风阵列采集到的信号进行时域对齐,短时傅里叶变换和功率谱的特征值分解;通过假设检验来确定噪声子空间维度;在噪声子空间上,通过条件概率的方法估计出噪声功率谱;基于信号子空间估计听觉掩蔽阈值;根据人耳听觉感知特性,结合拉格朗日乘子估计线性滤波器。

Description

基于听觉感知特性的信号子空间麦克风阵列语音增强方法
技术领域
本发明涉及麦克风阵列的信号子空间方法、人耳听觉掩蔽效应及后滤波器的设计。
背景技术
麦克风阵列语音增强方法近年来得到了广泛的研究。其中,信号子空间算法具有出色的消除加性宽带噪声的能力。信号子空间算法将带噪信号空间分解为信号子空间(包含目标语音信号和噪声)和噪声子空间(只包含噪声),并在信号子空间中估计出目标语音信号。信号子空间算法的核心在于合理地估计线性滤波器,其要点之一是准确地估计信号子空间维度和噪声功率谱。对信号子空间语音增强方法的研究已证明该方法具有很好的语音增强性能。尽管信号子空间算法性能优越,但想要完全消除噪声,依然具有相当的难度。通常,信号子空间算法消噪以后,增强语音中依然会存在一定的残余噪声,这些噪声降低了语音的感知质量。为了尽量减少残余噪声对目标语音信号的影响,人们在大量的实验基础上发现人耳的听觉掩蔽效应能够用来达到这一目标。人耳的听觉掩蔽效应是指,在通常情况下,目标语音信号信号是强信号,而背景噪声相对较弱,这样人耳听觉***会根据具体的目标语音信号信号确定频域上的听觉掩蔽阈值,如果使滤波后的残余噪声限制在人耳的听觉掩蔽阈值之下,那么该噪声就不会被人耳感知。经过多年来的研究,这一听觉效应被有效地应用在了语音增强方法中。只要将增强后的语音中的残余噪声的量限制在一定的范围内,就能使其在目标语音信号的掩蔽下不被人耳感知,从而实现对目标语音信号的增强。
信号子空间算法的原理在于通过特征值分解的方法将带噪信号空间分解成两个子空间:信号子空间(包含目标语音信号和噪声)和噪声子空间(只包含噪声),然后在信号子空间上恢复出目标语音信号。这样做的原因在于:语音信号能够被建模成一些基向量的线性组合。通常,纯净语音信号功率谱矩阵的一些特征值非常接近于零,这表明纯净语音信号的能量只分布在某些基向量上。信号子空间算法的噪声假设为白噪声(有色噪声可通过预白化的方法予以白化),白噪声的所有特征值都是正的,噪声能量分布在带噪信号的所有基向量上。所以,由带噪信号的基所组成的空间可分解成一个信号子空间(包含目标语音信号和噪声)和一个噪声子空间(只包含噪声)。相应地,在信号子空间上就可以恢复出目标语音信号,而噪声子空间由于不包含目标语音信号则可以不用考虑。
假设由L个麦克风组成的阵列上接收到的带噪语音信号向量的频域表示为:X=[X1,…,XL]H。由阵列输入信号的加权相加得到的增强后的语音信号的频域表示如下:
Y=wHX=wH[S+N]                    (1)
其中,w=[w1,…,wL]H是系数向量,S是目标语音信号,N是噪声,[·]H为共轭转置算子。
设RX为带噪信号的功率谱矩阵,RS为目标语音信号的功率谱矩阵,RN为噪声的功率谱矩阵。在目标语音信号与噪声信号不相关的假设下,有:
RX=RS+RN                         (2)
目标语音信号功率谱矩阵的特征值分解可表述如下:
RS=UΛSUH                        (3)
其中,ΛS为特征值降序排列的特征值矩阵,矩阵的秩为Q,即后L-Q项为0,U为对应的特征向量矩阵。
假设噪声为白噪声且功率谱为σN 2,则有:
R X = UΛ X U H = U ( Λ S + σ N 2 I ) U H - - - ( 4 )
其中,ΛX为特征值降序排列的带噪语音信号功率谱特征值矩阵,I为L阶单位阵。
RX的第i个特征值与RS的第i个特征值
Figure G2009102498006D00023
有下式的关系成立:
λ S i = λ X i - σ N 2 , if i = 1 , . . . , Q 0 , if i = Q + 1 , . . . , L - - - ( 5 )
其中,i∈{1,…,L}是特征值的下标。
设H为一线性滤波器,可得到目标语音信号的估计如下:
S ^ = HX - - - ( 6 )
事实上,由线性滤波器恢复的目标语音信号的质量主要表现在两个方面:一是目标语音信号的畸变,二是残余噪声的大小。Y.Ephaim和H.L.Van Trees在“A signal subspace approach for speech enhancement”(“一种用于语音增强的信号子空间方法”),IEEE Trans.Speech AudioProcess.,vol.3,no.4,pp.251-266,Jul,1995中,将噪声限制在一定的范围内的条件下,通过极小化语音畸变,得到了线性滤波器H的表达式如下:
H = UG U H = U G 1 0 0 0 U H - - - ( 7 )
其中,G1为Q×Q的满秩矩阵。
G可表述如下:
G = Λ S ( Λ S + σ N 2 Λ μ ) - 1 - - - ( 8 )
其中,Λμ=diag(μ1,…,μL)为L阶拉格朗日乘子矩阵。
G为L阶对角矩阵,对角线元素gi可表述如下:
g i = λ S i λ S i + μ i σ N 2 , if i = 1 , . . . , Q 0 , if i = Q + 1 , . . . , L - - - ( 9 )
其中,μi为第i个拉格朗日乘子,i∈{1,…,L}是下标。
发明内容
为了解决现有技术的问题,本发明的目的在于对线性滤波器进行估计,利用人耳的听觉掩蔽效应设计一种新的基于听觉感知特性的线性滤波器,由此,本发明提供一种基于听觉感知特性的信号子空间麦克风阵列语音增强方法。
为达成所述目的,本发明提供一种基于听觉感知特性的信号子空间麦克风阵列语音增强方法,该方法的具体步骤如下:
步骤a:通过麦克风阵列采集带噪声的多路语音信号,把各路带噪语音信号进行时域对齐,使用短时离散傅里叶变换将对齐后的各路信号表示成复数值的频率信号形式,计算麦克风阵列多路信号的功率谱矩阵并对此功率谱矩阵进行特征值分解,得到特征值矩阵和特征向量矩阵;
步骤b:对功率谱矩阵的特征值矩阵进行假设检验,确定信号子空间维度Q;
步骤c:在噪声子空间上,利用噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点,通过条件概率求期望的方法估计出噪声功率谱;
步骤d:利用噪声子空间维度P和噪声功率谱估计,根据人耳听觉掩蔽效应,基于信号子空间估计得到各频点的听觉掩蔽阈值,噪声子空间维度表示为:P=L-Q,L是麦克风阵列中麦克风的个数;
步骤e:根据噪声功率谱、听觉掩蔽阈值,结合拉格朗日乘子估计线性滤波器,实现基于听觉感知特性的信号子空间麦克风阵列语音增强。
其中,所述对功率谱矩阵进行特征值分解,包括:
设定带噪语音信号X为:X=S+N,
那么,功率谱矩阵RX表示为:
R X = UΛ X U H = U ( Λ S + σ N 2 I ) U H
其中,S为目标语音信号,N为噪声,RX为带噪语音信号功率谱矩阵,ΛX为特征值降序排列的带噪语音信号功率谱特征值矩阵,ΛS为特征值降序排列的目标语音信号功率谱特征值矩阵,U为特征向量矩阵,σN 2为白噪声功率,I为L阶单位阵,[·]H为共轭转置算子。
其中,所述假设检验是在原假设H0:特征值矩阵ΛX的后L-Q个特征值全部相等成立的前提下,取最小的信号子空间维度Q值。
其中,判断原假设是否能够成立的步骤包括如下:
原假设H0:特征值矩阵ΛX的后L-Q个特征值全部相等;
对立假设H1:特征值矩阵ΛX的后L-Q个特征值中至少有两个特征值不同;
信号子空间维度定义为:
arg max Q ( θ | - 2 log [ F ( H 0 ) / F ( H 1 ) ] ≥ χ θ , α 2 )
式中,-2log[F(H0)/F(H1)]近似的服从自由度为θ=L-Q-1的卡方分布,α为置信度,F(H0)和F(H1)是特征值的分布函数;即取满足 - 2 log [ F ( H 0 ) / F ( H 1 ) ] ≥ χ θ , α 2 的最大L-Q值为噪声子空间维度P,argmax(·)是寻找具有最大评分的参数值的算子,χθ,α 2为θ自由度的卡方分布置信度为α时的接受域下界。
其中,所述特征值的分布函数F(H0)和F(H1)采用高斯模型。
其中,对于由噪声子空间维度的估计错误产生的噪声功率谱估计的误差,使用一个补偿因子进行补偿;补偿因子为噪声功率谱估计的期望值与噪声功率与估计的比值。将噪声功率谱估计除以补偿因子,得到修正后的噪声功率谱估计。
其中,所述估计听觉掩蔽阈值的步骤包括:
步骤ea:将人耳听觉频率范围0-15500Hz划分为若干个关键子频带;
步骤eb:分别计算每个子频带中的听觉掩蔽阈值。
其中,所述计算每个子频带中的听觉掩蔽阈值是计算各子频带上各频点的能量,计算人耳基膜对于各频段声音的传播系数,然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值。再根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系计算得到掩蔽阈值。
其中,所述结合拉格朗日乘子估计线性滤波器的步骤如下:
步骤e1:根据频域到特征值域的变换关系,把听觉掩蔽阈值映射到特征值域上;
步骤e2:估计拉格朗日乘子,以使线性滤波后得到的残余噪声的功率谱特征值小于特征值域上的听觉掩蔽阈值;
步骤e3:进一步设计出极小化语音畸变的一个线性滤波器H,使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值,从而消除残余噪声影响,并使目标语音信号的畸变最小化。
本发明的有益效果:传统的信号子空间方法确定子空间维度的方法通常是设一个固定阈值,信号子空间的维度就是大于该阈值的特征值的个数。这种确定子空间维度的方法在实际应用中效果较差,因为阈值的设定具有较大的人为性,而且通常不能随着信号的改变而自适应地调整。这导致了子空间维度估计常出现较大误差,降低了信号子空间方法的性能。针对这一情况,本发明采用了一种通过假设检验来确定噪声子空间维度的方法,极大地减小了子空间维度估计的误差。为准确地估计噪声功率谱,考虑到噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点,本发明用条件概率来估计噪声功率谱。本发明利用基于信号子空间估计听觉掩蔽阈值的方法。将噪声限制在该阈值以下,就可以将噪声掩蔽掉,从而实现对目标语音信号信号的增强。本发明根据人耳听觉感知特性设计线性滤波器,能够在特征值域上应用听觉掩蔽效应,需要将听觉掩蔽阈值Cthr映射到特征值域上。
附图说明
本发明进一步的特色和优点将参考说明性的附图在下面描述。
图1示出一个基于听觉感知特性的信号子空间麦克风阵列语音增强方法的示例流程图;
图2是一个通过假设检验来确定噪声子空间维度的流程图;
图3是一个在噪声子空间上通过条件概率的方法估计出噪声功率谱的流程图;
图4是一个计算入耳听觉掩蔽阈值的流程图;
图5是一个估计线性滤波器的流程图。
具体实施方式
应当理解,不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例;被描述的说明性实施例仅仅是例证本发明的各个步骤,其范围由附加的权利要求来定义。
本发明利用人耳的听觉掩蔽效应设计了一种新的基于听觉感知特性的线性滤波器,人耳的听觉掩蔽效应是指,在通常情况下,目标语音信号信号是强信号,而背景噪声相对较弱,这样人耳听觉***会根据具体的目标语音信号信号确定频域上的听觉掩蔽阈值,如果使滤波后的残余噪声限制在人耳的听觉掩蔽阈值之下,那么该噪声就不会被人耳感知,从而实现对带噪语音信号的增强。
传统的信号子空间方法确定子空间维度的方法通常是设一个固定阈值,信号子空间的维度就是大于该阈值的特征值的个数。这种确定子空间维度的方法在实际应用中效果较差,因为阈值的设定具有较大的人为性,而且通常不能随着信号的改变而自适应地调整。这导致了子空间维度估计常出现较大误差,降低了信号子空间方法的性能。
针对这一情况,本发明步骤b)采用了一种通过假设检验来确定噪声子空间维度的方法,极大地减小了子空间维度估计的误差。本发明的方法利用噪声子空间本身的特点,即白噪声子空间上噪声功率谱应该相等。由于ΛX中的特征值是降序排列的,先假设噪声子空间维度是P=1,然后依次增加噪声子空间的维度值,测试ΛX中最后L-Q个特征值是否相等,取符合相等条件的最大值为噪声子空间的维度P,这样就可以较为准确地估计出噪声子空间维度,进而得到信号子空间维度Q。
利用这一思想,本发明提出了采用条件假设来估计噪声子空间维度的方法,提出原假设和对立假设如下:
原假设H0:特征值矩阵ΛX的后L-Q个特征值全部相等;
对立假设H1:特征值矩阵ΛX的后L-Q个特征值中至少有两个特征值不同;
假设特征值服从高斯分布,则分布函数可表述如下:
F ( H 0 ) = ( 2 π ) - L - Q 2 ( 1 L - Q Σ i = Q + 1 L λ X i ) - L - Q 2 e - 1 2 tr [ Λ m ] (10)
F ( H 1 ) = ( 2 π ) - L - Q 2 ( Π i = Q + 1 L λ X i ) - 1 2 e - 1 2 tr [ Λ m ]
其中, Λ m = diag ( λ X Q + 1 , . . . , λ X L ) , tr[·]是求迹算子,i∈{Q+1,…,L}是特征值的下标。
令: λ ‾ = 1 L - Q Σ i = Q + 1 L λ X i , λ X i = λ ‾ + h i , hi
Figure G2009102498006D00076
相对于λ的偏差。
- 2 log F ( H 0 ) F ( H 1 ) = - log Π i = Q + 1 L λ X i + ( L - Q ) log λ ‾
= - Σ i = Q + 1 L log ( λ X i λ ‾ )
= - Σ i = Q + 1 L ( h i λ ‾ - h i 2 2 λ ‾ 2 + . . . ) - - - ( 11 )
≈ - Σ i = Q + 1 L h i λ ‾ + Σ i = Q + 1 L h i 2 2 λ ‾ 2
= Σ i = Q + 1 L h i 2 2 λ ‾ 2
其中,i∈{Q+1,…,L}是特征值的下标。
hi近似地服从均值为零,方差为2λ2的高斯分布。所以,-2log[F(H0)/F(H1)]近似地服从自由度为θ=L-Q-1的卡方分布。确定置信度α,取满足 - 2 log [ F ( H 0 ) / F ( H 1 ) ] ≥ χ θ , α 2 的最大L-Q值为噪声子空间维度P,进而得到信号子空间维度Q,其中,χθ,α 2为θ自由度的卡方分布置信度为α时的接受域下界。
在步骤c)中,提供了一种在噪声子空间上通过条件概率估计出噪声功率谱的方法。为准确地估计噪声功率谱,考虑到噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点,本发明用条件概率来估计噪声功率谱。首先定义两个重要参数:
λ ‾ N = 1 L - Q Σ i = Q + 1 L λ X i λ ‾ S + N = 1 Q Σ i = 1 Q λ X i
其中,i∈{Q+1,…,L}是特征值的下标。λN应取小于λS+N的值,所以本发明用条件概率给出噪声功率谱估计如下:
&sigma; ^ N 2 = E [ &lambda; &OverBar; N | &lambda; &OverBar; N < &lambda; &OverBar; S + N ]
= &Integral; 0 &lambda; &OverBar; S + N x f &lambda; &OverBar; N ( x ) dx &Integral; 0 &lambda; &OverBar; S + N f &lambda; &OverBar; S + N ( x ) dx
= &Integral; 0 &lambda; &OverBar; S + N x 2 2 &pi; &lambda; &OverBar; N e - x 2 2 &lambda; &OverBar; N dx &Integral; 0 &lambda; &OverBar; S + N x 2 &pi; &lambda; &OverBar; S + N e - x 2 2 &lambda; &OverBar; S + N dx - - - ( 12 )
= 2 &pi; &lambda; &OverBar; N ( 1 - e - &lambda; &OverBar; S + N 2 2 &lambda; &OverBar; N ) 1 2 - &lambda; &OverBar; N &lambda; &OverBar; S + N e - &lambda; &OverBar; S + N 2 2 &lambda; &OverBar; N &lambda; &OverBar; S + N ( 1 - e - &lambda; &OverBar; S + N 2 )
式中,f(·)是概率密度函数,由于噪声子空间维度的过估计或欠估计会导致噪声功率谱的估计误差,这一误差可以用一个补偿因子来解决。
步骤d)提供了一种基于信号子空间估计听觉掩蔽阈值的方法。将噪声限制在该阈值以下,就可以将噪声掩蔽掉,从而实现对目标语音信号信号的增强。
人耳听觉频率范围是0到15500Hz,覆盖了24个关键子频带,需要在每个子频带中计算听觉掩蔽阈值。首先计算各子频带上各频点的能量,再计算人耳基膜对于各频段声音的传播系数,然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值。最后,根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系,再进一步计算得到掩蔽阈值。
步骤e)提供了一种根据人耳听觉感知特性设计线性滤波器的方法。为了能够在特征值域上应用听觉掩蔽效应,需要将听觉掩蔽阈值Cthr映射到特征值域上。F.Jabloun和B.Champagne在“Incorporating the HumanHearing Properties in the Signal Subspace Approach for SpeechEnhancement”(“人耳听觉特性在语音增强的信号子空间方法中的应用”),IEEE Trans.Speech Audio Process.Vol.11,No.6,pp.700-708,2003中,根据频域到特征值域的变换关系,给出听觉掩蔽阈值Cthr到特征值域上的映射如下:
&theta; = | U 1 H | 2 C thr - - - ( 13 )
其中,θ=[θ1,…,θQ]H为特征值域的掩蔽能量,在掩蔽能量之下的噪声将会被目标语音信号掩蔽掉。
接下来,需要计算增强后语音中的残余噪声能量,以使其低于掩蔽能量值而被目标语音信号掩蔽。残余噪声
Figure G2009102498006D00102
可由带噪输入信号中的噪声线性滤波后得到,即: N ^ = HN . 计算残余噪声
Figure G2009102498006D00104
的功率谱矩阵如下:
R N ^ = E [ N ^ N ^ H ]
= E [ HN N H H H ]
= H R N H H - - - ( 14 )
= UGU H ( &sigma; ~ N 2 I ) UG H U H
= U &Lambda; N ^ U H
其中,I为L阶单位阵, &Lambda; N ^ = &Lambda; S ( &Lambda; S + &sigma; ~ N 2 &Lambda; &mu; ) - 1 &sigma; ~ N 2 I [ &Lambda; S ( &Lambda; S + &sigma; ~ N 2 &Lambda; &mu; ) - 1 ] H 为L阶对角矩阵,其第i个对角元素为:
&lambda; N ^ i = ( &lambda; S i &lambda; S i + &mu; i &sigma; ~ N 2 ) 2 &sigma; ~ N 2 , i∈{1,…,L}            (15)
为掩蔽噪声,应使 &lambda; N ^ i &le; &theta; i , θi为特征值域上第i个掩蔽能量值,i∈{1,…,L}是掩蔽能量值的下标。可得:
&mu; i &GreaterEqual; &lambda; S i ( &sigma; ~ N - &theta; i 1 / 2 ) &sigma; ~ N 2 &CenterDot; &theta; i 1 / 2 - - - ( 16 )
考虑到应使μi≥0,本实施例取:
&mu; i = &lambda; S i ( &sigma; ~ N - &theta; i 1 / 2 ) &sigma; ~ N 2 &theta; i 1 / 2 , if &sigma; ~ N - &theta; i 1 / 2 &GreaterEqual; 0 0 , if &sigma; ~ N - &theta; i 1 / 2 < 0 - - - ( 17 )
式中,i∈{1,…,L}是下标。
将(17)式代入到(9)式中,得到对角矩阵G的对角线元素gi的估计如下:
g i = 1 1 + max ( &sigma; ~ N / &theta; i 1 / 2 - 1,0 ) , if i = 1 , . . . , Q 0 , if i = Q + 1 , . . . , L - - - ( 18 )
式中,i∈{1,…,L}是下标。
将G代入到(7)式中,即可得到所需的线性滤波器H。
在图1中给出一个应用基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强方法流程图。***包括至少两个麦克风101的麦克风阵列。麦克风阵列的麦克风可能有不同的排列,特别地,麦克风101被置于一排,其中每个麦克风和相邻近的麦克风有预定距离。例如,两个麦克风之间的距离可能大约是5厘米。对于不同的应用环境和技术要求,麦克风阵列可能被安装在适当的位置。
从麦克风101采集的语音信号被送到信号处理单元102。在送往信号处理单元之前,语音信号可以经过低通滤波器来预处理语音信号。
信号处理单元102对不同麦克风输采集的语音信号进行延迟补偿以实现时域对齐。使用短时离散傅里叶变换将对齐后的各麦克风信号表示成复数值的频率信号形式,计算麦克风阵列输入信号的功率谱矩阵并对此矩阵进行特征值分解,得到特征值矩阵和特征向量矩阵。
在接下来的步骤103中,对功率谱矩阵的特征值矩阵ΛX进行假设检验,确定信号子空间维度。
接着,步骤104在噪声子空间上,利用噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点,通过条件概率求期望的方法估计出噪声功率谱。
步骤105利用步骤103得到的信号子空间维度和步骤104得到的噪声功率谱估计,根据人耳听觉掩蔽效应,基于信号子空间估计得到各频点的听觉掩蔽阈值。
步骤106利用步骤104得到的噪声功率谱估计和步骤105得到的听觉掩蔽阈值,结合拉格朗日乘子估计线性滤波器,实现基于听觉感知特性的信号子空间麦克风阵列语音增强。
在图2,说明了一个确定信号子空间维度的方法的流程,该方法对应于图1中的步骤103。
在该方法之前,经过步骤101和步骤102,麦克风阵列采集的语音信号已经通过时域对齐,短时傅里叶变换,计算信号功率谱并对此矩阵进行特征值分解,得到特征值矩阵和特征向量矩阵。由(4)式可知,带噪信号功率谱特征值矩阵被分解为信号功率谱特征值与噪声功率谱特征值的和,Q是信号子空间的维度。
步骤201,初始化Q,令其为L-1,即使P=1。
接下来,步骤202由(11)式更新-2log[F(H0)/F(H1)]的计算结果。
由于-2log[F(H0)/F(H1)]近似地服从自由度为θ=L-Q-1的卡方分布。步骤203中,预先确定置信度α,判断-2log[F(H0)/F(H1)]是否大于χθ,α 2。特别地,当条件满足时,进行步骤204,Q完成一次自减运算;否则进行步骤205。Q自减运算的目的是为了逐步增大噪声子空间的维度P,自减完成后再回到步骤202。
步骤205实际上是找出了满足条件 - 2 log [ F ( H 0 ) / F ( H 1 ) ] &GreaterEqual; &chi; &theta; , &alpha; 2 的最大L-Q值为噪声子空间维度P,进而信号子空间维度Q定义为:
arg max Q ( &theta; | - 2 log [ F ( H 0 ) / F ( H 1 ) ] &GreaterEqual; &chi; &theta; , &alpha; 2 ) - - - ( 19 )
式中,argmax(·)是寻找具有最大评分的参数值的算子。
在图3中,说明了一个在噪声子空间上通过条件概率的方法估计出噪声功率谱的流程图。该方法对应于图1中的步骤104。
为准确地估计噪声功率谱,考虑到噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点,利用步骤205得到的信号子空间维度Q,步骤301计算两个重要参数 &lambda; &OverBar; N = 1 L - Q &Sigma; i = Q + 1 L &lambda; X i , &lambda; &OverBar; S + N = 1 Q &Sigma; i = 1 Q &lambda; X i , i∈{1,…,L}是下标。
由于λN≤λS+N,步骤302利用条件概率估计噪声功率谱,在此重写(12)式
&sigma; ^ N 2 = 2 &pi; &lambda; &OverBar; N ( 1 - e - &lambda; &OverBar; S + N 2 2 &lambda; &OverBar; N ) 1 2 - &lambda; &OverBar; N &lambda; &OverBar; S + N e - &lambda; &OverBar; S + N 2 2 &lambda; &OverBar; N &lambda; &OverBar; S + N ( 1 - e - &lambda; &OverBar; S + N 2 ) - - - ( 20 )
噪声子空间维度的过估计或欠估计会导致噪声功率谱的估计误差,这一误差可以用一个补偿因子来解决。步骤303计算补偿因子B(Q)。
B ( Q ) = E [ &sigma; ^ N 2 ] &sigma; &OverBar; N 2 - - - ( 21 )
其中,σN 2为预估噪声功率谱,可根据VAD方法得到。
步骤304利用补偿因子完成对噪声功率谱估计的校正,如下:
&sigma; ~ N 2 = 1 B ( Q ) &sigma; ^ N 2 - - - ( 22 )
在图4中,说明了一种计算人耳听觉掩蔽阈值的方法的流程图。该方法对应于图1中的步骤105。为了将信号中的噪声掩蔽掉,从而实现对目标语音信号信号的增强,需要将噪声限制在该阈值以下。
估计目标语音信号的强度需要用到信号子空间的基向量,所以根据步骤205得到的信号子空间维度,将特征向量矩阵U分解为两个子矩阵:U1和U2,其中,U1∈CL×Q为信号子空间的基,U2∈CL×(L-Q)为噪声子空间的基。
人耳听觉频率范围是0到15500Hz,覆盖了若干个关键子频带,步骤401把其分成了24个子频带。需要在每个子频带中计算听觉掩蔽阈值。
E(j,b)表示的是第j个子频带内第b个频点上的能量,可根据信号子空间特征值和特征向量计算出来。在步骤402中,计算了各频点的能量
E ( j , b ) = mean ( 1 L &Sigma; i = 1 Q &lambda; S i | U 1 , i | 2 ) - - - ( 23 )
其中, &lambda; S i = &lambda; X i - &sigma; ~ N 2 为目标语音信号功率谱矩阵的特征值估计,U1,i为信号子空间的第i个基,i∈{1,…,Q}是下标,mean(·)为取均值算子。
SF(j)是表达第j个子频带上人耳基膜传播特性的函数,j∈{1,…,24}。
在步骤403中,计算每个子频带的传播函数
SF ( j ) = 15.81 + 7.5 ( j + 0.474 ) - 17.5 1 + ( j + 0.474 ) 2 , j∈{1,…,24}  (24)
接下来,步骤404计算表征人耳基膜上能量的激励能量值
C(j,b)=SF(j)*E(j,b),j∈{1,…,24}    (25)
步骤405,计算听觉掩蔽阈值
C thr = 10 log 10 | C ( j , b ) | - | O ( j ) 10 | - | &sigma; ~ N 2 10 | - - - ( 26 )
其中,O(j)是偏移量,j∈{1,…,24}表示第j个子频带。
在图5中,说明了一个估计线性滤波器的流程图。该方法对应于图1中的步骤106。
为了能够在特征值域上应用听觉掩蔽效应,需要将听觉掩蔽阈值Cthr映射到特征值域上。步骤501根据频域到特征值域的变换关系,由(13)式计算特征值域上的听觉掩蔽阈值θ=[θ1,…,θQ]H
接下来,步骤502利用(18)式计算得到对角矩阵G的对角线元素gi的估计,i∈{1,…,L}是对角线元素的下标。
最终,步骤503将G矩阵代入(7)式中,即可得到所需的线性滤波器H。
根据本说明书,本发明进一步的修改和变化对于所述领域的技术人员是显而易见的。因此,本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解,本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。

Claims (8)

1.一种基于听觉感知特性的信号子空间麦克风阵列语音增强方法,包括下列步骤:
步骤a:通过麦克风阵列采集带噪声的多路语音信号,把各路带噪语音信号进行时域对齐,使用短时离散傅里叶变换将对齐后的各路信号表示成复数值的频率信号形式,计算麦克风阵列多路信号的功率谱矩阵并对此功率谱矩阵进行特征值分解,得到特征值矩阵和特征向量矩阵;
步骤b:对功率谱矩阵的特征值矩阵进行假设检验,确定信号子空间维度Q;
步骤c:在噪声子空间上,利用噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点,通过条件概率求期望的方法估计出噪声功率谱;
步骤d:利用噪声子空间维度P和噪声功率谱估计,根据人耳听觉掩蔽效应,基于信号子空间估计得到各频点的听觉掩蔽阈值,噪声子空间维度表示为:P=L-Q,L是麦克风阵列中麦克风的个数;
步骤e:根据噪声功率谱、听觉掩蔽阈值,结合拉格朗日乘子估计线性滤波器,实现基于听觉感知特性的信号子空间麦克风阵列语音增强,所述结合拉格朗日乘子估计线性滤波器的步骤如下:
步骤e1:根据频域到特征值域的变换关系,把听觉掩蔽阈值映射到特征值域上;
步骤e2:估计拉格朗日乘子,以使线性滤波后得到的残余噪声的功率谱特征值小于特征值域上的听觉掩蔽阈值;
步骤e3:进一步设计出极小化语音畸变的一个线性滤波器H,使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值,从而消除残余噪声影响,并使目标语音信号的畸变最小化。
2.如权利要求1所述的信号子空间麦克风阵列语音增强方法,其特征在于,所述对功率谱矩阵进行特征值分解,包括:
设定带噪语音信号X为:X=S+N,
那么,功率谱矩阵RX表示为:
R X = U &Lambda; X U H = U ( &Lambda; S + &sigma; N 2 I ) U H
其中,S为目标语音信号,N为噪声,RX为带噪语音信号功率谱矩阵,ΛX为特征值降序排列的带噪语音信号功率谱特征值矩阵,ΛS为特征值降序排列的目标语音信号功率谱特征值矩阵,U为特征向量矩阵,
Figure FSB00000615443700022
为白噪声功率,I为L阶单位阵,[·]H为共轭转置算子。
3.如权利要求1所述的信号子空间麦克风阵列语音增强方法,其特征在于,所述假设检验是在原假设H0:特征值矩阵ΛX的后L-Q个特征值全部相等成立的前提下,取最小的信号子空间维度Q值。
4.如权利要求3所述的信号子空间麦克风阵列语音增强方法,其特征在于,判断原假设是否能够成立的步骤包括如下:
原假设H0:特征值矩阵ΛX的后L-Q个特征值全部相等;
对立假设H1:特征值矩阵ΛX的后L-Q个特征值中至少有两个特征值不同;
信号子空间维度定义为:
arg max Q ( &theta; | - 2 log [ F ( H 0 ) / F ( H 1 ) ] &GreaterEqual; &chi; &theta; , &alpha; 2 )
式中,-2log[F(H0)/F(H1)]近似的服从自由度为θ=L-Q-1的卡方分布,α为置信度,F(H0)和F(H1)是特征值的分布函数;即取满足
Figure FSB00000615443700024
的最大L-Q值为噪声子空间维度P,argmax(·)是寻找具有最大评分的参数值的算子,
Figure FSB00000615443700025
为θ自由度的卡方分布置信度为α时的接受域下界。
5.如权利要求4所述的信号子空间麦克风阵列语音增强方法,其特征在于,所述特征值的分布函数F(H0)和F(H1)采用高斯模型。
6.如权利要求1所述的信号子空间麦克风阵列语音增强方法,其特征在于,对于由噪声子空间维度的估计错误产生的噪声功率谱估计的误差,使用一个补偿因子进行补偿;补偿因子为噪声功率谱估计的期望值与噪声功率与估计的比值;将噪声功率谱估计除以补偿因子,得到修正后的噪声功率谱估计。
7.如权利要求1所述的信号子空间麦克风阵列语音增强方法,其特征在于,所述估计听觉掩蔽阈值的步骤包括:
步骤ea:将人耳听觉频率范围0-15500Hz划分为若干个关键子频带;
步骤eb:分别计算每个子频带中的听觉掩蔽阈值。
8.如权利要求7所述的信号子空间麦克风阵列语音增强方法,其特征在于,所述计算每个子频带中的听觉掩蔽阈值是计算各子频带上各频点的能量,计算人耳基膜对于各频段声音的传播系数,然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值;再根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系计算得到掩蔽阈值。
CN2009102498006A 2009-12-08 2009-12-08 基于听觉感知特性的信号子空间麦克风阵列语音增强方法 Expired - Fee Related CN101777349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102498006A CN101777349B (zh) 2009-12-08 2009-12-08 基于听觉感知特性的信号子空间麦克风阵列语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102498006A CN101777349B (zh) 2009-12-08 2009-12-08 基于听觉感知特性的信号子空间麦克风阵列语音增强方法

Publications (2)

Publication Number Publication Date
CN101777349A CN101777349A (zh) 2010-07-14
CN101777349B true CN101777349B (zh) 2012-04-11

Family

ID=42513784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102498006A Expired - Fee Related CN101777349B (zh) 2009-12-08 2009-12-08 基于听觉感知特性的信号子空间麦克风阵列语音增强方法

Country Status (1)

Country Link
CN (1) CN101777349B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102157156B (zh) * 2011-03-21 2012-10-10 清华大学 一种单通道语音增强的方法和***
CN102300140B (zh) 2011-08-10 2013-12-18 歌尔声学股份有限公司 一种通信耳机的语音增强方法及降噪通信耳机
CN102969000B (zh) * 2012-12-04 2014-10-22 中国科学院自动化研究所 一种多通道语音增强方法
CN104575511B (zh) * 2013-10-22 2019-05-10 陈卓 语音增强方法及装置
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
CN105845127B (zh) * 2015-01-13 2019-10-01 阿里巴巴集团控股有限公司 语音识别方法及其***
CN108564963B (zh) * 2018-04-23 2019-10-18 百度在线网络技术(北京)有限公司 用于增强语音的方法和装置
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置
CN110858485B (zh) * 2018-08-23 2023-06-30 阿里巴巴集团控股有限公司 语音增强方法、装置、设备及存储介质
CN109036452A (zh) * 2018-09-05 2018-12-18 北京邮电大学 一种语音信息处理方法、装置、电子设备及存储介质
CN109727605B (zh) * 2018-12-29 2020-06-12 苏州思必驰信息科技有限公司 处理声音信号的方法及***
CN110047519B (zh) * 2019-04-16 2021-08-24 广州大学 一种语音端点检测方法、装置及设备
CN110867082B (zh) * 2019-10-30 2020-09-11 中国科学院自动化研究所南京人工智能芯片创新研究院 一种禁鸣路段鸣笛车辆检测***
CN111370017B (zh) * 2020-03-18 2023-04-14 苏宁云计算有限公司 一种语音增强方法、装置、***

Also Published As

Publication number Publication date
CN101777349A (zh) 2010-07-14

Similar Documents

Publication Publication Date Title
CN101777349B (zh) 基于听觉感知特性的信号子空间麦克风阵列语音增强方法
CN107993670B (zh) 基于统计模型的麦克风阵列语音增强方法
CN108831495A (zh) 一种应用于噪声环境下语音识别的语音增强方法
CN101778322B (zh) 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
CN110085248B (zh) 个人通信中降噪和回波消除时的噪声估计
CN102164328B (zh) 一种用于家庭环境的基于传声器阵列的音频输入***
CN108922554B (zh) 基于对数谱估计的lcmv频率不变波束形成语音增强算法
Pedersen et al. Convolutive blind source separation methods
US7761291B2 (en) Method for processing audio-signals
CN1670823B (zh) 通过麦克风阵列检测和降低噪声的方法
DE112017006486T5 (de) Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
US8351554B2 (en) Signal extraction
CN105812598A (zh) 一种降低回声的方法及装置
CN110310656A (zh) 一种语音增强方法
CN110517701A (zh) 一种麦克风阵列语音增强方法及实现装置
CN105390142A (zh) 一种数字助听器语音噪声消除方法
CN105679330A (zh) 基于改进子带信噪比估计的数字助听器降噪方法
CN112530451A (zh) 基于去噪自编码器的语音增强方法
CN111508516A (zh) 基于信道关联时频掩膜的语音波束形成方法
CN104464745A (zh) 一种双通道语音增强***及其方法
CN113763984B (zh) 一种用于分布式多说话人的参数化噪声消除***
CN113223549A (zh) 一种用于智能饮水机的远场语音识别增强方法
CN115061087A (zh) 信号处理方法、doa估计方法及电子设备
CN114724574A (zh) 一种期望声源方向可调的双麦克风降噪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120411

Termination date: 20211208

CF01 Termination of patent right due to non-payment of annual fee