CN101777349B

CN101777349B - 基于听觉感知特性的信号子空间麦克风阵列语音增强方法

Info

Publication number: CN101777349B
Application number: CN2009102498006A
Authority: CN
Inventors: 刘文举; 程宁; 李超
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2009-12-08
Filing date: 2009-12-08
Publication date: 2012-04-11
Anticipated expiration: 2029-12-08
Also published as: CN101777349A

Abstract

本发明公开了一种基于听觉感知特性的信号子空间麦克风阵列语音增强方法。本发明在改进传统的麦克风阵列信号子空间语音增强方法的基础上，充分结合了人耳的听觉掩蔽效应。信号子空间的算法核心在于合理地估计线性滤波器，其要点包括：准确的估计信号子空间维度和噪声功率谱，合理地估计拉格朗日乘子。对此，本发明提出了一套行之有效的解决方案。该方案包括下列步骤：对麦克风阵列采集到的信号进行时域对齐，短时傅里叶变换和功率谱的特征值分解；通过假设检验来确定噪声子空间维度；在噪声子空间上，通过条件概率的方法估计出噪声功率谱；基于信号子空间估计听觉掩蔽阈值；根据人耳听觉感知特性，结合拉格朗日乘子估计线性滤波器。

Description

基于听觉感知特性的信号子空间麦克风阵列语音增强方法

技术领域

本发明涉及麦克风阵列的信号子空间方法、人耳听觉掩蔽效应及后滤波器的设计。

背景技术

麦克风阵列语音增强方法近年来得到了广泛的研究。其中，信号子空间算法具有出色的消除加性宽带噪声的能力。信号子空间算法将带噪信号空间分解为信号子空间(包含目标语音信号和噪声)和噪声子空间(只包含噪声)，并在信号子空间中估计出目标语音信号。信号子空间算法的核心在于合理地估计线性滤波器，其要点之一是准确地估计信号子空间维度和噪声功率谱。对信号子空间语音增强方法的研究已证明该方法具有很好的语音增强性能。尽管信号子空间算法性能优越，但想要完全消除噪声，依然具有相当的难度。通常，信号子空间算法消噪以后，增强语音中依然会存在一定的残余噪声，这些噪声降低了语音的感知质量。为了尽量减少残余噪声对目标语音信号的影响，人们在大量的实验基础上发现人耳的听觉掩蔽效应能够用来达到这一目标。人耳的听觉掩蔽效应是指，在通常情况下，目标语音信号信号是强信号，而背景噪声相对较弱，这样人耳听觉***会根据具体的目标语音信号信号确定频域上的听觉掩蔽阈值，如果使滤波后的残余噪声限制在人耳的听觉掩蔽阈值之下，那么该噪声就不会被人耳感知。经过多年来的研究，这一听觉效应被有效地应用在了语音增强方法中。只要将增强后的语音中的残余噪声的量限制在一定的范围内，就能使其在目标语音信号的掩蔽下不被人耳感知，从而实现对目标语音信号的增强。

信号子空间算法的原理在于通过特征值分解的方法将带噪信号空间分解成两个子空间：信号子空间(包含目标语音信号和噪声)和噪声子空间(只包含噪声)，然后在信号子空间上恢复出目标语音信号。这样做的原因在于：语音信号能够被建模成一些基向量的线性组合。通常，纯净语音信号功率谱矩阵的一些特征值非常接近于零，这表明纯净语音信号的能量只分布在某些基向量上。信号子空间算法的噪声假设为白噪声(有色噪声可通过预白化的方法予以白化)，白噪声的所有特征值都是正的，噪声能量分布在带噪信号的所有基向量上。所以，由带噪信号的基所组成的空间可分解成一个信号子空间(包含目标语音信号和噪声)和一个噪声子空间(只包含噪声)。相应地，在信号子空间上就可以恢复出目标语音信号，而噪声子空间由于不包含目标语音信号则可以不用考虑。

假设由L个麦克风组成的阵列上接收到的带噪语音信号向量的频域表示为：X＝[X₁，…，X_L]^H。由阵列输入信号的加权相加得到的增强后的语音信号的频域表示如下：

Y＝w^HX＝w^H[S+N] (1)

其中，w＝[w₁，…，w_L]^H是系数向量，S是目标语音信号，N是噪声，[·]^H为共轭转置算子。

设R_X为带噪信号的功率谱矩阵，R_S为目标语音信号的功率谱矩阵，R_N为噪声的功率谱矩阵。在目标语音信号与噪声信号不相关的假设下，有：

R_X＝R_S+R_N (2)

目标语音信号功率谱矩阵的特征值分解可表述如下：

R_S＝UΛ_SU^H (3)

其中，Λ_S为特征值降序排列的特征值矩阵，矩阵的秩为Q，即后L-Q项为0，U为对应的特征向量矩阵。

假设噪声为白噪声且功率谱为σ_N ²，则有：

R_{X} = {UΛ}_{X} U^{H} = U (Λ_{S} + σ_{N}^{2} I) U^{H} - - - (4)

其中，Λ_X为特征值降序排列的带噪语音信号功率谱特征值矩阵，I为L阶单位阵。

R_X的第i个特征值与R_S的第i个特征值

有下式的关系成立：

λ_{S_{i}} = \{\begin{matrix} λ_{X_{i}} - σ_{N}^{2}, & if & i = 1, . . ., Q \\ 0, & if & i = Q + 1, . . ., L \end{matrix} - - - (5)

其中，i∈{1，…，L}是特征值的下标。

设H为一线性滤波器，可得到目标语音信号的估计如下：

\hat{S} = HX - - - (6)

事实上，由线性滤波器恢复的目标语音信号的质量主要表现在两个方面：一是目标语音信号的畸变，二是残余噪声的大小。Y.Ephaim和H.L.Van Trees在“A signal subspace approach for speech enhancement”(“一种用于语音增强的信号子空间方法”)，IEEE Trans.Speech AudioProcess.，vol.3，no.4，pp.251-266，Jul，1995中，将噪声限制在一定的范围内的条件下，通过极小化语音畸变，得到了线性滤波器H的表达式如下：

H = UG U^{H} = U [\begin{matrix} G_{1} & 0 \\ 0 & 0 \end{matrix}] U^{H} - - - (7)

其中，G₁为Q×Q的满秩矩阵。

G可表述如下：

G = Λ_{S} {(Λ_{S} + σ_{N}^{2} Λ_{μ})}^{- 1} - - - (8)

其中，Λ_μ＝diag(μ₁，…，μ_L)为L阶拉格朗日乘子矩阵。

G为L阶对角矩阵，对角线元素g_i可表述如下：

g_{i} = \{\begin{matrix} \frac{λ_{S_{i}}}{λ_{S_{i}} + μ_{i} σ_{N}^{2}}, & if & i = 1, . . ., Q \\ 0, & if & i = Q + 1, . . ., L \end{matrix} - - - (9)

其中，μ_i为第i个拉格朗日乘子，i∈{1，…，L}是下标。

发明内容

为了解决现有技术的问题，本发明的目的在于对线性滤波器进行估计，利用人耳的听觉掩蔽效应设计一种新的基于听觉感知特性的线性滤波器，由此，本发明提供一种基于听觉感知特性的信号子空间麦克风阵列语音增强方法。

为达成所述目的，本发明提供一种基于听觉感知特性的信号子空间麦克风阵列语音增强方法，该方法的具体步骤如下：

步骤a：通过麦克风阵列采集带噪声的多路语音信号，把各路带噪语音信号进行时域对齐，使用短时离散傅里叶变换将对齐后的各路信号表示成复数值的频率信号形式，计算麦克风阵列多路信号的功率谱矩阵并对此功率谱矩阵进行特征值分解，得到特征值矩阵和特征向量矩阵；

步骤b：对功率谱矩阵的特征值矩阵进行假设检验，确定信号子空间维度Q；

步骤c：在噪声子空间上，利用噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点，通过条件概率求期望的方法估计出噪声功率谱；

步骤d：利用噪声子空间维度P和噪声功率谱估计，根据人耳听觉掩蔽效应，基于信号子空间估计得到各频点的听觉掩蔽阈值，噪声子空间维度表示为：P＝L-Q，L是麦克风阵列中麦克风的个数；

步骤e：根据噪声功率谱、听觉掩蔽阈值，结合拉格朗日乘子估计线性滤波器，实现基于听觉感知特性的信号子空间麦克风阵列语音增强。

其中，所述对功率谱矩阵进行特征值分解，包括：

设定带噪语音信号X为：X＝S+N，

那么，功率谱矩阵R_X表示为：

R_{X} = {UΛ}_{X} U^{H} = U (Λ_{S} + σ_{N}^{2} I) U^{H}

其中，S为目标语音信号，N为噪声，R_X为带噪语音信号功率谱矩阵，Λ_X为特征值降序排列的带噪语音信号功率谱特征值矩阵，Λ_S为特征值降序排列的目标语音信号功率谱特征值矩阵，U为特征向量矩阵，σ_N ²为白噪声功率，I为L阶单位阵，[·]^H为共轭转置算子。

其中，所述假设检验是在原假设H₀：特征值矩阵Λ_X的后L-Q个特征值全部相等成立的前提下，取最小的信号子空间维度Q值。

其中，判断原假设是否能够成立的步骤包括如下：

原假设H₀：特征值矩阵Λ_X的后L-Q个特征值全部相等；

对立假设H₁：特征值矩阵Λ_X的后L-Q个特征值中至少有两个特征值不同；

信号子空间维度定义为：

\underset{Q}{\arg \max} (θ | - 2 \log [F (H_{0}) / F (H_{1})] &GreaterEqual; χ_{θ, α}^{2})

式中，-2log[F(H₀)/F(H₁)]近似的服从自由度为θ＝L-Q-1的卡方分布，α为置信度，F(H₀)和F(H₁)是特征值的分布函数；即取满足

- 2 \log [F (H_{0}) / F (H_{1})] &GreaterEqual; χ_{θ, α}^{2}

的最大L-Q值为噪声子空间维度P，argmax(·)是寻找具有最大评分的参数值的算子，χ_θ，α ²为θ自由度的卡方分布置信度为α时的接受域下界。

其中，所述特征值的分布函数F(H₀)和F(H₁)采用高斯模型。

其中，对于由噪声子空间维度的估计错误产生的噪声功率谱估计的误差，使用一个补偿因子进行补偿；补偿因子为噪声功率谱估计的期望值与噪声功率与估计的比值。将噪声功率谱估计除以补偿因子，得到修正后的噪声功率谱估计。

其中，所述估计听觉掩蔽阈值的步骤包括：

步骤ea：将人耳听觉频率范围0-15500Hz划分为若干个关键子频带；

步骤eb：分别计算每个子频带中的听觉掩蔽阈值。

其中，所述计算每个子频带中的听觉掩蔽阈值是计算各子频带上各频点的能量，计算人耳基膜对于各频段声音的传播系数，然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值。再根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系计算得到掩蔽阈值。

其中，所述结合拉格朗日乘子估计线性滤波器的步骤如下：

步骤e1：根据频域到特征值域的变换关系，把听觉掩蔽阈值映射到特征值域上；

步骤e2：估计拉格朗日乘子，以使线性滤波后得到的残余噪声的功率谱特征值小于特征值域上的听觉掩蔽阈值；

步骤e3：进一步设计出极小化语音畸变的一个线性滤波器H，使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值，从而消除残余噪声影响，并使目标语音信号的畸变最小化。

本发明的有益效果：传统的信号子空间方法确定子空间维度的方法通常是设一个固定阈值，信号子空间的维度就是大于该阈值的特征值的个数。这种确定子空间维度的方法在实际应用中效果较差，因为阈值的设定具有较大的人为性，而且通常不能随着信号的改变而自适应地调整。这导致了子空间维度估计常出现较大误差，降低了信号子空间方法的性能。针对这一情况，本发明采用了一种通过假设检验来确定噪声子空间维度的方法，极大地减小了子空间维度估计的误差。为准确地估计噪声功率谱，考虑到噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点，本发明用条件概率来估计噪声功率谱。本发明利用基于信号子空间估计听觉掩蔽阈值的方法。将噪声限制在该阈值以下，就可以将噪声掩蔽掉，从而实现对目标语音信号信号的增强。本发明根据人耳听觉感知特性设计线性滤波器，能够在特征值域上应用听觉掩蔽效应，需要将听觉掩蔽阈值C_thr映射到特征值域上。

附图说明

本发明进一步的特色和优点将参考说明性的附图在下面描述。

图1示出一个基于听觉感知特性的信号子空间麦克风阵列语音增强方法的示例流程图；

图2是一个通过假设检验来确定噪声子空间维度的流程图；

图3是一个在噪声子空间上通过条件概率的方法估计出噪声功率谱的流程图；

图4是一个计算入耳听觉掩蔽阈值的流程图；

图5是一个估计线性滤波器的流程图。

具体实施方式

应当理解，不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例；被描述的说明性实施例仅仅是例证本发明的各个步骤，其范围由附加的权利要求来定义。

本发明利用人耳的听觉掩蔽效应设计了一种新的基于听觉感知特性的线性滤波器，人耳的听觉掩蔽效应是指，在通常情况下，目标语音信号信号是强信号，而背景噪声相对较弱，这样人耳听觉***会根据具体的目标语音信号信号确定频域上的听觉掩蔽阈值，如果使滤波后的残余噪声限制在人耳的听觉掩蔽阈值之下，那么该噪声就不会被人耳感知，从而实现对带噪语音信号的增强。

传统的信号子空间方法确定子空间维度的方法通常是设一个固定阈值，信号子空间的维度就是大于该阈值的特征值的个数。这种确定子空间维度的方法在实际应用中效果较差，因为阈值的设定具有较大的人为性，而且通常不能随着信号的改变而自适应地调整。这导致了子空间维度估计常出现较大误差，降低了信号子空间方法的性能。

针对这一情况，本发明步骤b)采用了一种通过假设检验来确定噪声子空间维度的方法，极大地减小了子空间维度估计的误差。本发明的方法利用噪声子空间本身的特点，即白噪声子空间上噪声功率谱应该相等。由于Λ_X中的特征值是降序排列的，先假设噪声子空间维度是P＝1，然后依次增加噪声子空间的维度值，测试Λ_X中最后L-Q个特征值是否相等，取符合相等条件的最大值为噪声子空间的维度P，这样就可以较为准确地估计出噪声子空间维度，进而得到信号子空间维度Q。

利用这一思想，本发明提出了采用条件假设来估计噪声子空间维度的方法，提出原假设和对立假设如下：

原假设H₀：特征值矩阵Λ_X的后L-Q个特征值全部相等；

假设特征值服从高斯分布，则分布函数可表述如下：

F (H_{0}) = {(2 π)}^{- \frac{L - Q}{2}} {(\frac{1}{L - Q} Σ_{i = Q + 1}^{L} λ_{X_{i}})}^{- \frac{L - Q}{2}} e^{- \frac{1}{2} tr [Λ_{m}]}

(10)

F (H_{1}) = {(2 π)}^{- \frac{L - Q}{2}} {(Π_{i = Q + 1}^{L} λ_{X_{i}})}^{- \frac{1}{2}} e^{- \frac{1}{2} tr [Λ_{m}]}

其中，

Λ_{m} = diag (λ_{X_{Q + 1}}, . . ., λ_{X_{L}}),

tr[·]是求迹算子，i∈{Q+1，…，L}是特征值的下标。

令：

\overset{&OverBar;}{λ} = \frac{1}{L - Q} Σ_{i = Q + 1}^{L} λ_{X_{i}},

λ_{X_{i}} = \overset{&OverBar;}{λ} + h_{i},

h_i为

相对于λ的偏差。

- 2 \log \frac{F (H_{0})}{F (H_{1})} = - \log Π_{i = Q + 1}^{L} λ_{X_{i}} + (L - Q) \log \overset{&OverBar;}{λ}

= - Σ_{i = Q + 1}^{L} \log (\frac{λ_{X_{i}}}{\overset{&OverBar;}{λ}})

= - Σ_{i = Q + 1}^{L} (\frac{h_{i}}{\overset{&OverBar;}{λ}} - \frac{h_{i}^{2}}{2 {\overset{&OverBar;}{λ}}^{2}} + . . .) - - - (11)

\approx - Σ_{i = Q + 1}^{L} \frac{h_{i}}{\overset{&OverBar;}{λ}} + Σ_{i = Q + 1}^{L} \frac{h_{i}^{2}}{2 {\overset{&OverBar;}{λ}}^{2}}

= Σ_{i = Q + 1}^{L} \frac{h_{i}^{2}}{2 {\overset{&OverBar;}{λ}}^{2}}

其中，i∈{Q+1，…，L}是特征值的下标。

h_i近似地服从均值为零，方差为2λ²的高斯分布。所以，-2log[F(H₀)/F(H₁)]近似地服从自由度为θ＝L-Q-1的卡方分布。确定置信度α，取满足

- 2 \log [F (H_{0}) / F (H_{1})] &GreaterEqual; χ_{θ, α}^{2}

的最大L-Q值为噪声子空间维度P，进而得到信号子空间维度Q，其中，χ_θ，α ²为θ自由度的卡方分布置信度为α时的接受域下界。

在步骤c)中，提供了一种在噪声子空间上通过条件概率估计出噪声功率谱的方法。为准确地估计噪声功率谱，考虑到噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点，本发明用条件概率来估计噪声功率谱。首先定义两个重要参数：

{\overset{&OverBar;}{λ}}_{N} = \frac{1}{L - Q} Σ_{i = Q + 1}^{L} λ_{X_{i}}

和

{\overset{&OverBar;}{λ}}_{S + N} = \frac{1}{Q} Σ_{i = 1}^{Q} λ_{X_{i}}

其中，i∈{Q+1，…，L}是特征值的下标。λ_N应取小于λ_S+N的值，所以本发明用条件概率给出噪声功率谱估计如下：

{\hat{σ}}_{N}^{2} = E [{\overset{&OverBar;}{λ}}_{N} | {\overset{&OverBar;}{λ}}_{N} < {\overset{&OverBar;}{λ}}_{S + N}]

= \frac{{&Integral;}_{0}^{{\overset{&OverBar;}{λ}}_{S + N}} x f_{{\overset{&OverBar;}{λ}}_{N}} (x) dx}{{&Integral;}_{0}^{{\overset{&OverBar;}{λ}}_{S + N}} f_{{\overset{&OverBar;}{λ}}_{S + N}} (x) dx}

= \frac{{&Integral;}_{0}^{{\overset{&OverBar;}{λ}}_{S + N}} \frac{x^{2}}{\sqrt{2 π {\overset{&OverBar;}{λ}}_{N}}} e^{- \frac{x^{2}}{2 {\overset{&OverBar;}{λ}}_{N}}} dx}{{&Integral;}_{0}^{{\overset{&OverBar;}{λ}}_{S + N}} \frac{x}{\sqrt{2 π {\overset{&OverBar;}{λ}}_{S + N}}} e^{- \frac{x^{2}}{2 {\overset{&OverBar;}{λ}}_{S + N}}} dx} - - - (12)

= \frac{\sqrt{2 π} {\overset{&OverBar;}{λ}}_{N} {(1 - e^{- \frac{{\overset{&OverBar;}{λ}}_{S + N}^{2}}{2 {\overset{&OverBar;}{λ}}_{N}}})}^{\frac{1}{2}} - \sqrt{{\overset{&OverBar;}{λ}}_{N}} {\overset{&OverBar;}{λ}}_{S + N} e^{- \frac{{\overset{&OverBar;}{λ}}_{S + N}^{2}}{2 {\overset{&OverBar;}{λ}}_{N}}}}{\sqrt{{\overset{&OverBar;}{λ}}_{S + N}} (1 - e^{- \frac{{\overset{&OverBar;}{λ}}_{S + N}}{2}})}

式中，f(·)是概率密度函数，由于噪声子空间维度的过估计或欠估计会导致噪声功率谱的估计误差，这一误差可以用一个补偿因子来解决。

步骤d)提供了一种基于信号子空间估计听觉掩蔽阈值的方法。将噪声限制在该阈值以下，就可以将噪声掩蔽掉，从而实现对目标语音信号信号的增强。

人耳听觉频率范围是0到15500Hz，覆盖了24个关键子频带，需要在每个子频带中计算听觉掩蔽阈值。首先计算各子频带上各频点的能量，再计算人耳基膜对于各频段声音的传播系数，然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值。最后，根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系，再进一步计算得到掩蔽阈值。

步骤e)提供了一种根据人耳听觉感知特性设计线性滤波器的方法。为了能够在特征值域上应用听觉掩蔽效应，需要将听觉掩蔽阈值C_thr映射到特征值域上。F.Jabloun和B.Champagne在“Incorporating the HumanHearing Properties in the Signal Subspace Approach for SpeechEnhancement”(“人耳听觉特性在语音增强的信号子空间方法中的应用”)，IEEE Trans.Speech Audio Process.Vol.11，No.6，pp.700-708，2003中，根据频域到特征值域的变换关系，给出听觉掩蔽阈值C_thr到特征值域上的映射如下：

θ = {| U_{1}^{H} |}^{2} C_{thr} - - - (13)

其中，θ＝[θ₁，…，θ_Q]^H为特征值域的掩蔽能量，在掩蔽能量之下的噪声将会被目标语音信号掩蔽掉。

接下来，需要计算增强后语音中的残余噪声能量，以使其低于掩蔽能量值而被目标语音信号掩蔽。残余噪声

可由带噪输入信号中的噪声线性滤波后得到，即：

\hat{N} = HN .

计算残余噪声

的功率谱矩阵如下：

R_{\hat{N}} = E [\hat{N} {\hat{N}}^{H}]

= E [HN N^{H} H^{H}]

= H R_{N} H^{H} - - - (14)

{= UGU}^{H} ({\tilde{σ}}_{N}^{2} I) {UG}^{H} U^{H}

= U Λ_{\hat{N}} U^{H}

其中，I为L阶单位阵，

Λ_{\hat{N}} = Λ_{S} {(Λ_{S} + {\tilde{σ}}_{N}^{2} Λ_{μ})}^{- 1} {\tilde{σ}}_{N}^{2} I {[Λ_{S} {(Λ_{S} + {\tilde{σ}}_{N}^{2} Λ_{μ})}^{- 1}]}^{H}

为L阶对角矩阵，其第i个对角元素为：

λ_{{\hat{N}}_{i}} = {(\frac{λ_{S_{i}}}{λ_{S_{i}} + μ_{i} {\tilde{σ}}_{N}^{2}})}^{2} {\tilde{σ}}_{N}^{2},

i∈{1，…，L} (15)

为掩蔽噪声，应使

λ_{{\hat{N}}_{i}} \leq θ_{i},

θ_i为特征值域上第i个掩蔽能量值，i∈{1，…，L}是掩蔽能量值的下标。可得：

μ_{i} &GreaterEqual; \frac{λ_{S_{i}} ({\tilde{σ}}_{N} - θ_{i}^{1 / 2})}{{\tilde{σ}}_{N}^{2} \cdot θ_{i}^{1 / 2}} - - - (16)

考虑到应使μ_i≥0，本实施例取：

μ_{i} = \{\begin{matrix} \frac{λ_{S_{i}} ({\tilde{σ}}_{N} - θ_{i}^{1 / 2})}{{\tilde{σ}}_{N}^{2} θ_{i}^{1 / 2}}, & if & {\tilde{σ}}_{N} - θ_{i}^{1 / 2} &GreaterEqual; 0 \\ 0, & if & {\tilde{σ}}_{N} - θ_{i}^{1 / 2} < 0 \end{matrix} - - - (17)

式中，i∈{1，…，L}是下标。

将(17)式代入到(9)式中，得到对角矩阵G的对角线元素g_i的估计如下：

g_{i} = \{\begin{matrix} \frac{1}{1 + \max ({\tilde{σ}}_{N} / θ_{i}^{1 / 2} - 1,0)}, & if & i = 1, . . ., Q \\ 0, & if & i = Q + 1, . . ., L \end{matrix} - - - (18)

式中，i∈{1，…，L}是下标。

将G代入到(7)式中，即可得到所需的线性滤波器H。

在图1中给出一个应用基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强方法流程图。***包括至少两个麦克风101的麦克风阵列。麦克风阵列的麦克风可能有不同的排列，特别地，麦克风101被置于一排，其中每个麦克风和相邻近的麦克风有预定距离。例如，两个麦克风之间的距离可能大约是5厘米。对于不同的应用环境和技术要求，麦克风阵列可能被安装在适当的位置。

从麦克风101采集的语音信号被送到信号处理单元102。在送往信号处理单元之前，语音信号可以经过低通滤波器来预处理语音信号。

信号处理单元102对不同麦克风输采集的语音信号进行延迟补偿以实现时域对齐。使用短时离散傅里叶变换将对齐后的各麦克风信号表示成复数值的频率信号形式，计算麦克风阵列输入信号的功率谱矩阵并对此矩阵进行特征值分解，得到特征值矩阵和特征向量矩阵。

在接下来的步骤103中，对功率谱矩阵的特征值矩阵Λ_X进行假设检验，确定信号子空间维度。

接着，步骤104在噪声子空间上，利用噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点，通过条件概率求期望的方法估计出噪声功率谱。

步骤105利用步骤103得到的信号子空间维度和步骤104得到的噪声功率谱估计，根据人耳听觉掩蔽效应，基于信号子空间估计得到各频点的听觉掩蔽阈值。

步骤106利用步骤104得到的噪声功率谱估计和步骤105得到的听觉掩蔽阈值，结合拉格朗日乘子估计线性滤波器，实现基于听觉感知特性的信号子空间麦克风阵列语音增强。

在图2，说明了一个确定信号子空间维度的方法的流程，该方法对应于图1中的步骤103。

在该方法之前，经过步骤101和步骤102，麦克风阵列采集的语音信号已经通过时域对齐，短时傅里叶变换，计算信号功率谱并对此矩阵进行特征值分解，得到特征值矩阵和特征向量矩阵。由(4)式可知，带噪信号功率谱特征值矩阵被分解为信号功率谱特征值与噪声功率谱特征值的和，Q是信号子空间的维度。

步骤201，初始化Q，令其为L-1，即使P＝1。

接下来，步骤202由(11)式更新-2log[F(H₀)/F(H₁)]的计算结果。

由于-2log[F(H₀)/F(H₁)]近似地服从自由度为θ＝L-Q-1的卡方分布。步骤203中，预先确定置信度α，判断-2log[F(H₀)/F(H₁)]是否大于χ_θ，α ²。特别地，当条件满足时，进行步骤204，Q完成一次自减运算；否则进行步骤205。Q自减运算的目的是为了逐步增大噪声子空间的维度P，自减完成后再回到步骤202。

步骤205实际上是找出了满足条件

- 2 \log [F (H_{0}) / F (H_{1})] &GreaterEqual; χ_{θ, α}^{2}

的最大L-Q值为噪声子空间维度P，进而信号子空间维度Q定义为：

\underset{Q}{\arg \max} (θ | - 2 \log [F (H_{0}) / F (H_{1})] &GreaterEqual; χ_{θ, α}^{2}) - - - (19)

式中，argmax(·)是寻找具有最大评分的参数值的算子。

在图3中，说明了一个在噪声子空间上通过条件概率的方法估计出噪声功率谱的流程图。该方法对应于图1中的步骤104。

为准确地估计噪声功率谱，考虑到噪声子空间中的噪声功率谱要小于信号子空间中的带噪信号功率谱的特点，利用步骤205得到的信号子空间维度Q，步骤301计算两个重要参数

{\overset{&OverBar;}{λ}}_{N} = \frac{1}{L - Q} Σ_{i = Q + 1}^{L} λ_{X_{i}},

和

{\overset{&OverBar;}{λ}}_{S + N} = \frac{1}{Q} Σ_{i = 1}^{Q} λ_{X_{i}},

i∈{1，…，L}是下标。

由于λ_N≤λ_S+N，步骤302利用条件概率估计噪声功率谱，在此重写(12)式

{\hat{σ}}_{N}^{2} = \frac{\sqrt{2 π} {\overset{&OverBar;}{λ}}_{N} {(1 - e^{- \frac{{\overset{&OverBar;}{λ}}_{S + N}^{2}}{2 {\overset{&OverBar;}{λ}}_{N}}})}^{\frac{1}{2}} - \sqrt{{\overset{&OverBar;}{λ}}_{N}} {\overset{&OverBar;}{λ}}_{S + N} e^{- \frac{{\overset{&OverBar;}{λ}}_{S + N}^{2}}{2 {\overset{&OverBar;}{λ}}_{N}}}}{\sqrt{{\overset{&OverBar;}{λ}}_{S + N}} (1 - e^{- \frac{{\overset{&OverBar;}{λ}}_{S + N}}{2}})} - - - (20)

噪声子空间维度的过估计或欠估计会导致噪声功率谱的估计误差，这一误差可以用一个补偿因子来解决。步骤303计算补偿因子B(Q)。

B (Q) = \frac{E [{\hat{σ}}_{N}^{2}]}{{\overset{&OverBar;}{σ}}_{N}^{2}} - - - (21)

其中，σ_N ²为预估噪声功率谱，可根据VAD方法得到。

步骤304利用补偿因子完成对噪声功率谱估计的校正，如下：

{\tilde{σ}}_{N}^{2} = \frac{1}{B (Q)} {\hat{σ}}_{N}^{2} - - - (22)

在图4中，说明了一种计算人耳听觉掩蔽阈值的方法的流程图。该方法对应于图1中的步骤105。为了将信号中的噪声掩蔽掉，从而实现对目标语音信号信号的增强，需要将噪声限制在该阈值以下。

估计目标语音信号的强度需要用到信号子空间的基向量，所以根据步骤205得到的信号子空间维度，将特征向量矩阵U分解为两个子矩阵：U₁和U₂，其中，U₁∈C^L×Q为信号子空间的基，U₂∈C^L×(L-Q)为噪声子空间的基。

人耳听觉频率范围是0到15500Hz，覆盖了若干个关键子频带，步骤401把其分成了24个子频带。需要在每个子频带中计算听觉掩蔽阈值。

E(j，b)表示的是第j个子频带内第b个频点上的能量，可根据信号子空间特征值和特征向量计算出来。在步骤402中，计算了各频点的能量

E (j, b) = mean (\frac{1}{L} Σ_{i = 1}^{Q} λ_{S_{i}} {| U_{1, i} |}^{2}) - - - (23)

其中，

λ_{S_{i}} = λ_{X_{i}} - {\tilde{σ}}_{N}^{2}

为目标语音信号功率谱矩阵的特征值估计，U_1，i为信号子空间的第i个基，i∈{1，…，Q}是下标，mean(·)为取均值算子。

SF(j)是表达第j个子频带上人耳基膜传播特性的函数，j∈{1，…，24}。

在步骤403中，计算每个子频带的传播函数

SF (j) = 15.81 + 7.5 (j + 0.474) - 17.5 \sqrt{1 + {(j + 0.474)}^{2}},

j∈{1，…，24} (24)

接下来，步骤404计算表征人耳基膜上能量的激励能量值

C(j，b)＝SF(j)*E(j，b)，j∈{1，…，24} (25)

步骤405，计算听觉掩蔽阈值

C_{thr} = 10^{\log_{10} | C (j, b) | - | \frac{O (j)}{10} | - | \frac{{\tilde{σ}}_{N}^{2}}{10} |} - - - (26)

其中，O(j)是偏移量，j∈{1，…，24}表示第j个子频带。

在图5中，说明了一个估计线性滤波器的流程图。该方法对应于图1中的步骤106。

为了能够在特征值域上应用听觉掩蔽效应，需要将听觉掩蔽阈值C_thr映射到特征值域上。步骤501根据频域到特征值域的变换关系，由(13)式计算特征值域上的听觉掩蔽阈值θ＝[θ₁，…，θ_Q]^H。

接下来，步骤502利用(18)式计算得到对角矩阵G的对角线元素g_i的估计，i∈{1，…，L}是对角线元素的下标。

最终，步骤503将G矩阵代入(7)式中，即可得到所需的线性滤波器H。

根据本说明书，本发明进一步的修改和变化对于所述领域的技术人员是显而易见的。因此，本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解，本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。

Claims

1.一种基于听觉感知特性的信号子空间麦克风阵列语音增强方法，包括下列步骤：

步骤e：根据噪声功率谱、听觉掩蔽阈值，结合拉格朗日乘子估计线性滤波器，实现基于听觉感知特性的信号子空间麦克风阵列语音增强，所述结合拉格朗日乘子估计线性滤波器的步骤如下：

2.如权利要求1所述的信号子空间麦克风阵列语音增强方法，其特征在于，所述对功率谱矩阵进行特征值分解，包括：

设定带噪语音信号X为：X＝S+N，

那么，功率谱矩阵RX表示为：

R_{X} = U Λ_{X} U^{H} = U (Λ_{S} + σ_{N}^{2} I) U^{H}

其中，S为目标语音信号，N为噪声，R_X为带噪语音信号功率谱矩阵，Λ_X为特征值降序排列的带噪语音信号功率谱特征值矩阵，Λ_S为特征值降序排列的目标语音信号功率谱特征值矩阵，U为特征向量矩阵，

为白噪声功率，I为L阶单位阵，[·]^H为共轭转置算子。

3.如权利要求1所述的信号子空间麦克风阵列语音增强方法，其特征在于，所述假设检验是在原假设H₀：特征值矩阵Λ_X的后L-Q个特征值全部相等成立的前提下，取最小的信号子空间维度Q值。

4.如权利要求3所述的信号子空间麦克风阵列语音增强方法，其特征在于，判断原假设是否能够成立的步骤包括如下：

原假设H₀：特征值矩阵Λ_X的后L-Q个特征值全部相等；

信号子空间维度定义为：

\underset{Q}{\arg \max} (θ | - 2 \log [F (H_{0}) / F (H_{1})] &GreaterEqual; χ_{θ, α}^{2})

的最大L-Q值为噪声子空间维度P，argmax(·)是寻找具有最大评分的参数值的算子，

为θ自由度的卡方分布置信度为α时的接受域下界。

5.如权利要求4所述的信号子空间麦克风阵列语音增强方法，其特征在于，所述特征值的分布函数F(H₀)和F(H₁)采用高斯模型。

6.如权利要求1所述的信号子空间麦克风阵列语音增强方法，其特征在于，对于由噪声子空间维度的估计错误产生的噪声功率谱估计的误差，使用一个补偿因子进行补偿；补偿因子为噪声功率谱估计的期望值与噪声功率与估计的比值；将噪声功率谱估计除以补偿因子，得到修正后的噪声功率谱估计。

7.如权利要求1所述的信号子空间麦克风阵列语音增强方法，其特征在于，所述估计听觉掩蔽阈值的步骤包括：

步骤eb：分别计算每个子频带中的听觉掩蔽阈值。

8.如权利要求7所述的信号子空间麦克风阵列语音增强方法，其特征在于，所述计算每个子频带中的听觉掩蔽阈值是计算各子频带上各频点的能量，计算人耳基膜对于各频段声音的传播系数，然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值；再根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系计算得到掩蔽阈值。