CN101685638A

CN101685638A - 一种语音信号增强方法及装置

Info

Publication number: CN101685638A
Application number: CN200810198772A
Authority: CN
Inventors: 杨毅; 张清
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2008-09-25
Filing date: 2008-09-25
Publication date: 2010-03-31
Anticipated expiration: 2028-09-25
Also published as: CN101685638B

Abstract

本发明公开了一种语音信号增强方法及装置，该方法包括：获得多路语音信号中各路语音信号的先验信噪比和后验信噪比；根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数；根据所述信号参数和所述各路语音信号的先验信噪比和后验信噪比获得联合建模的所述各路语音信号的加权系数；利用所述各路语音信号的加权系数对所述对应的各路多路语音信号分别进行加权，获得加权后的多路语音信号；对所述加权后的多路语音信号进行合成，获得增强后的语音信号。本发明实施例中的技术方案，充分利用了多路信号间的相关性，提高了经过加权后的输出信号的信噪比。

Description

一种语音信号增强方法及装置

技术领域

本发明涉及语音信号处理领域，尤其涉及一种语音信号增强方法及装置。

背景技术

实际的语音通讯多发生在嘈杂的噪声环境中，如，工厂中的手机通讯会受到机器轰鸣声的影响；火车驾驶室中的语音通信会受到电机运行和铁轨碰撞声的干扰。在这样的噪声环境中，为从带噪语音信号中获得尽可能纯净的原始语音，改善语音质量，提高语音的清晰度和可懂度，需要对输入的语音信号进行语音信号增强处理。

按照拾取语音信号的话筒数目，语音增强分为单通道和多通道两种类型。单通道语音增强***只需要一个话筒，硬件资源要求低，算法复杂性较小，但是消噪性能优先。

基于统计模型的单通道语音增强技术主要采用频域加权的方法。如，对时域语音信号进行傅里叶变换，获得频域语音信号；再获得频域信号的信噪比估计，根据该估计计算权重；根据计算出来的权重对频域语音信号进行加权后进行傅里叶逆变换，获得经过增强处理后的时域语音信号。

多通道语音增强***使用麦克风(话筒)阵列获得多通道语音信号，在多通道语音信号中包含了丰富的空间信息和时间信息，具有更大的性能提升空间。在基于信号和阵列处理理论的麦克风阵列波束形成技术中，麦克风阵列是由按一定几何形状排列的一组麦克风组成。相对与传统的单麦克风语音增强算法，麦克风阵列具有空间指向性，能够提取特定方向的有用信号，可以一定程度上抑制噪声。波束形成是一种通过控制波束的方向和形状，从干扰中提取目标信号的技术。延迟-相加波束形成是一种对各个麦克风的信号进行时延和相加处理的基本的波束形成方法，其原理如图1所示。

其中S(t)为声源信号，Yn(t)为第n个麦克接收到的信号，Wn是第n个麦克的权重，Z(t)为阵列输出，通过将每个麦克接收到的信号乘以权重并进行相应的延迟相加得到期望的信号。

在实现本发明过程中，发明人发现，现有的多通道语音增强***的语音增强技术中，通过多个通道输入的各路信号的权重值的计算都是与其他通道输入的信号相互独立的，没有考虑到各通道信号的相关性，使得加权后输出信噪比仍然不高。

发明内容

本发明所要解决的技术问题在于，提供一种语音信号增强方法及装置，可充分利用各通道信号的相关性，使该语音信号增强后的信号具有较高的信噪比。

为此，一方面，本发明的实施例提供了一种语音信号增强方法，包括：获得多路语音信号中各路语音信号的先验信噪比和后验信噪比；根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数；根据所述信号参数和所述各路语音信号的先验信噪比和后验信噪比获得联合建模的所述各路语音信号的加权系数；利用所述各路语音信号的加权系数对所述对应的各路多路语音信号分别进行加权，获得加权后的多路语音信号；对所述加权后的多路语音信号进行合成，获得增强后的语音信号。

另一方面，本发明的实施例提供了一种语音信号增强装置，包括：信噪比获取单元，用于获得多路语音信号中各路语音信号的先验信噪比和后验信噪比；参数获取单元，用于根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数；系数计算单元，用于根据所述信号参数和所述各路语音信号的先验信噪比和后验信噪比获得联合建模的所述各路语音信号的加权系数；加权单元，用于利用所述各路语音信号的加权系数对所述对应的各路多路语音信号分别进行加权，获得加权后的多路语音信号；合成单元，用于对所述加权后的多路语音信号进行合成，获得增强后的语音信号。

在本发明实施例所提供的技术方案中，由于在获取每路加权系数时，均考虑了各路输入的语音信号的先验信噪比和后验信噪比信息，对多路输入信号进行了联合建模，充分利用了多路信号间的相关性，提高了加权后的输出信号的信噪比。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有的麦克风阵列波束形成技术中延迟相加波束形成的原理示意图；

图2是本发明中语音信号增强方法的一个具体实施例的流程示意图；

图3是本发明中语音信号增强方法的另一个具体实施例的流程示意图；

图4是本发明中语音信号增强装置的一个具体实施例的组成示意图；

图5是本发明中语音信号增强装置的另一个具体实施例的组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面参考附图对本发明的实施例进行描述。参见图2，为本发明中语音信号增强方法的一个具体实施例的流程示意图。该流程包括：

201、获得多路语音信号中各路语音信号的先验信噪比和后验信噪比。

202、根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数。

所述多路语音信号的统计模型可以包括比传统的高斯统计模型(或称高斯模型)更精准的语音模型，如超高斯模型、拉普拉斯模型以及增广高斯模型等，上述这些模型的模型参数可以较传统的高斯模型更好的体现出多路语音信号的信号特性。所述模型参数可以包括多路语音信号的幅度，多路语音能量谱密度，多路语音信号幅度的概率密度，还可以包括伽马函数信息等其他模型参数。

通过实际的多路语音信号和实际语音***的情况，根据模型参数可以获得，在当前的环境下该多路语音信号的信号参数。如，超高斯模型中的参数μ和ν。

所述的超高斯模型可以包括下面的实例但也不仅限于下述表示实例，

p (A) = \frac{μ^{v + 1}}{Γ (v + 1)} \frac{A^{v}}{σ_{S}^{2 + v - 1}} \exp {- μ \frac{A}{σ_{S}^{2 - 1}}}

拉普拉斯模型可以包括下面的实例但也不仅限于下述表示实例，

p (A) = \frac{1}{σ_{S}} \exp {- \frac{2 A}{σ_{S}}}

其中，多语音信号的信号特性通过模型参数表示包括：A语音信号的幅度，σ_S ²为语音能量谱密度，Γ为Gamma函数，μ和ν为所述超高斯模型的参数，p(A)为A的概率密度。)

203、根据所述模型参数和所述各路所述语音信号的先验信噪比和后验信噪比获得联合建模的每路所述语音信号的加权系数。

其中，获得加权系数的方法可以根据单通道的统计模型的加权系数获得。如，对于超高斯模型，根据最小均方误差估计，获得的单通道下的加权系数，如下面的实例所示：

G = u + \sqrt{u^{2} + \frac{v - 1 / 2}{2 γ}}

其中，G为单通道加权系数，

μ和ν为超高斯模型中的参数，ξ和γ为估计先验SNR和后验SNR。

再考虑各路信号的信号延迟，可以获得联合建模的每路所述语音信号的加权系数，如，下述为超高斯模型下的联合建模的第m路语音信号的加权系数：

G_{m} = \frac{\sqrt{\frac{ξ_{m}}{γ_{m}}}}{2 Σ_{i = 1}^{M} ξ_{i}} [Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2} + \sqrt{{(Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2})}^{2} + (2 &upsi; - M) Σ_{i = 1}^{M} ξ_{i}}]

其中，M是联合建模中所述语音信号的总路数，G_m是第m路语音信号的加权系数，ξ_m是第m路语音信号的先验信噪比，γ_m是第m路语音信号的后验信噪比，μ和υ是超高斯模型的参数。

ξ_i和γ_i分别是对应的各路语音信号的先验信噪比和后验信噪比。在本实例中，i的取值范围为1～M，即用1～M路信号的估计(ξ_i和γ_i)来计算第m路语音信号的加权系数，考虑了M路信号的相关性，实现了联合建模。

将m分别从1到M取值，即可获得所有输入的各路所述语音信号的加权系数。

204、根据所述加权系数对所述输入的多路语音信号分别进行加权，获得加权后的多路语音信号。

205、对所述加权后的多路语音信号进行合成，获得增强后的语音信号。其中，合成的方法包括时域或频域的自适应波束形成处理方法，或是延迟-相加波束形成处理方法；通过合成处理可以获得至少一路进行了语音信号增强的语音信号，通常只需要输出一路语音信号即可，但是在实际中也可能对多路进行不同的合成，获得一路以上的增强的语音信号。

若进行频域的自适应波束形成处理，则在步骤201中，可对输入的多路时域语音信号分别进行时频变换，获得多路频域语音信号；再获得所述多路频域语音信号的先验信噪比和后验信噪比。则相应的后续步骤中都是对频域语音信号进行处理，在步骤205中，对所述加权后的多路频域语音信号进行频域自适应波束形成处理，获得至少一路进行了语音信号增强的频域语音信号；再对所述进行了语音信号增强的频域语音信号进行时频变换，获得进行了语音信号增强的时域语音信号。

在具体实现时，由于语音信号是实时产生的，需要对实时输入的语音信号进行分帧加窗处理，再以分帧加窗后获得的各个重叠的语音帧分别进行增强处理，并最终根据处理结果结合各帧的实际重叠情况，实时获得增强后的语音信号。

如图3所示，为本发明中语音信号增强方法的另一个具体实施例的流程示意图。该流程包括：

301、分帧加窗：***的输入为时域带噪语音信号，进入M个麦克风，如M＝4。本例中分帧加窗可采用半交叠的汉宁窗(hann窗)，帧长为512点，时域带噪音语音信号经过分帧加窗后输出一帧一帧的帧长为512点的时域语音帧，获得M路时域语音帧信号。

302、傅里叶变换(FFT)：对上述M路时域语音帧进行FFT变换，将时域信号转变为频域信号。

303、对M路频域语音帧分别进行信噪比估计。其中，进行信噪比估计包括，计算每个通道的噪声能量谱密度和语音能量谱密度，并根据第i个通道的噪声能量谱密度和语音能量谱密度获得第i个通道的先验SNR和后验SNR，当i从1～M取值时，即获得M路频域语音帧的先验SNR和后验SNR。

具体方法如下所示：

1、根据第m路频域语音帧得到第m路的估计的噪声能量谱密度

和估计的语音能量谱密度

2、根据式

获得后验

其中，R(k)为带噪语音信号的离散傅里叶(DFT)幅值；

根据下式获得先验

\hat{ξ} (k) = α_{snr} \frac{{\hat{A}}^{2} (k)}{{\hat{σ}}_{N}^{2} (k)} + (1 - α_{snr}) F [γ (k) - 1]

其中，A(k)为语音信号的DFT幅值，

3、m分别在1～M取值，获得M路信号的先验SNR和后验SNR。

304、根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数。

中心极限理论假设无论时域采样点的功率谱密度函数(PDF)是多少，语音和噪声的DFT系数的分布都将收敛于高斯PDF，该假设的前提是采样点各自统计独立并且采样点之间的相关性相对于帧长是很小的。语音信号的高斯模型如下：

p (A) = \frac{2 A}{σ_{S}^{2}} \exp {- \frac{A^{2}}{σ_{S}^{2}}}

其中A为语音的幅度，σ_S ²为语音能量谱密度。

但是在实际情况中，通常存在相关的噪声或混响，使得高斯模型不能精确描述带噪信号的统计特性。因此本实施例中采用超高斯模型来作为多路语音信号的统计模型以获得多路语音信号的信号参数。

其中，超高斯模型的模型参数是针对所有路语音信号而言的，不是单独根据某一路语音信号计算获得的，而是根据实际情况获得的，如，根据当前环境情况得到的经验值。

本步与步骤301～303并无固定的顺序关系，只要在304之前获得即可。

305、加权系数计算。

考虑各路信号的相对延迟，可以获得联合建模的每路所述语音信号的加权系数为：

G_{m} = \frac{\sqrt{\frac{ξ_{m}}{γ_{m}}}}{2 Σ_{i = 1}^{M} ξ_{i}} [Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2} + \sqrt{{(Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2})}^{2} + (2 &upsi; - M) Σ_{i = 1}^{M} ξ_{i}}]

其中，G_m是第m路语音信号的加权系数，ξ_m是第m路语音信号的先验SNR，γ_m是第m路语音信号的后验SNR，M为总的语音信号的路数，μ和υ为超高斯模型中相应的参数，ξ_i和γ_i分别代表对应的第i个通道的估计先验SNR和后验SNR，i取值为1～M。

这样，就可以根据上式获得联合建模的加权系数G_m的计算，得到G_m，m为1～M。

306、根据G_m对第m路频域语音帧进行加权，其中，m取值为1～M，获得M路频域语音帧加权后的信号。

307、对加权后的M路频域语音帧进行自适应波束形成处理，输出一路频域信号。自适应波束形成法包括基于频域最小均方误差的自适应波束形成法、基于特征空间的自适应波束形成法、基于麦克风阵列的自适应波束形成法等。

其中，基于麦克风阵列的自适应波束形成方法包括：

假设阵列有M个麦克风，接收信号的频域相关空间矩阵表示为：

R(f)＝E[x(f)x^H(f)]

其中x(f)为频率f处阵列接收的信号矢量。

选取一系列频点f_i，i＝1，2...D，其中D为频点总数，自适应波束形成方法在每个频点上选取满足下式的权向量w(f)为相应频点的最优权向量，

w^H(f)a(f)＝1

其中a(f)为语音信号在该频点的方向矢量。

然后，在频域进行加权后求和，可得到加权后的信号为：

\min_{w (f)} w^{H} (f) R (f) w (f)

即可得到输出的一路频域信号。

308、对输出的一路频域信号进行傅里叶逆变换(IFFT变换)，得到一路时域信号。

其中，对于多帧信号，由于分帧加窗时，各帧是有交叠的，所以经过增强处理后的一路多帧信号可通过适当的overlap add处理形成一路时域语音信号。

采用上述实施例所提供的技术方案，由于采用更精确的语音模型来取代传统的高斯统计模型，提高了估计精度；对M路输入信号进行联合建模获得加权系数，充分利用了M路信号间的相关性，使得加权后的输出信噪比提高；同时，由于频域的系数相对时域更加集中在某个区域，而自适应算法的收敛性是通过逼近这些目标值的近似程度来体现的，因此，采用频域自适应波束形成算法可以获得较快的收敛速度。

相应的，本发明还提供了语音信号增强装置的具体实施例，如图4所示，该装置包括：

信噪比获取单元10，用于获得多路语音信号中各路语音信号的先验信噪比和后验信噪比。如图5所示，信噪比获取单元10可包括：第一时频转换模块101，用于对输入的多路时域语音信号分别进行时频变换，获得多路频域语音信号；信噪比获取模块102，用于获得所述多路频域语音信号的先验信噪比和后验信噪比。其中，第一时频转换模块101还用于对输入的多路时域语音信号进行分帧加窗，获得多路时域语音帧，并对所述多路时域语音帧分别进行时频变换，获得多路频域语音帧。

参数获取单元20，用于根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数。所述多路语音信号的统计模型可以包括比传统的高斯统计模型(或称高斯模型)更精准的语音模型，如超高斯模型、拉普拉斯模型以及增广高斯模型等，上述这些模型的模型参数可以较传统的高斯模型更好的体现出多路语音信号的信号特性。所述模型参数可以包括多路语音信号的幅度，多路语音能量谱密度，多路语音信号幅度的概率密度，还可以包括伽马函数信息等其他模型参数。

其中，所述的超高斯模型可以包括下面的实例但也不仅限于下述表示实例，

p (A) = \frac{μ^{v + 1}}{Γ (v + 1)} \frac{A^{v}}{σ_{S}^{2 + v - 1}} \exp {- μ \frac{A}{σ_{S}^{2 - 1}}}

p (A) = \frac{1}{σ_{S}} \exp {- \frac{2 A}{σ_{S}}}

系数计算单元30，用于根据所述模型参数和所述各路所述语音信号的先验信噪比和后验信噪比获得联合建模的每路所述语音信号的加权系数，进一步的可以是，根据所述信号参数、所述各路语音信号的先验信噪比和后验信噪比，基于最小均方误差估计和各路信号的信号延迟，获得联合建模的所述各路语音信号的加权系数。

如图5所示，系数计算单元30包括：取值模块301，用于对m分别从1到M进行取值；m路计算模块302，用于根据取值模块301对m的取值，根据下式获得联合建模的第m路所述语音信号的加权系数：

G_{m} = \frac{\sqrt{\frac{ξ_{m}}{γ_{m}}}}{2 Σ_{i = 1}^{M} ξ_{i}} [Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2} + \sqrt{{(Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2})}^{2} + (2 &upsi; - M) Σ_{i = 1}^{M} ξ_{i}}]

其中，M是联合建模中所述语音信号的总路数，G_m是第m路语音信号的加权系数，ξ_m是第m路语音信号的先验信噪比，γ_m是第m路语音信号的后验信噪比，ξ_i和γ_i分别是对应的各路语音信号的先验信噪比和后验信噪比，μ和υ是超高斯模型的参数。

加权单元40，用于利用所述各路语音信号的加权系数对所述对应的各路多路语音信号分别进行加权，获得加权后的多路语音信号；

合成单元50，用于对所述加权后的多路语音信号进行合成，获得增强后的语音信号。其中，合成的方法包括时域或频域的自适应波束形成处理方法，或是延迟-相加波束形成处理方法；通过合成处理可以获得至少一路进行了语音信号增强的语音信号，通常只需要输出一路语音信号即可，但是在实际中也可能对多路进行不同的合成，获得一路以上的增强的语音信号。

如果采用频域的自适应波束形成方法，则如图5所示，合成单元50可包括：波束形成模块501，用于对所述加权后的多路频域语音信号进行频域自适应波束形成处理，获得至少一路进行了语音信号增强的频域语音信号，其具体处理过程可参见图3中的相关说明；第二时频转换模块502，用于对所述进行了语音信号增强的频域语音信号进行时频变换，获得进行了语音信号增强的时域语音信号。

在本实施例所提供的技术方案中，由于采用更精确的语音模型来取代传统的高斯统计模型，提高了估计精度；对M路输入信号进行联合建模获得加权系数，充分利用了M路信号间的相关性，使得加权后的输出信噪比提高；同时，由于频域的系数相对时域更加集中在某个区域，而自适应算法的收敛性是通过逼近这些目标值的近似程度来体现的，因此，采用频域自适应波束形成算法可以获得较快的收敛速度。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述的实施方式，并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等，均应包含在该技术方案的保护范围之内。

Claims

1、一种语音信号增强方法，其特征在于，所述方法包括：

获得多路语音信号中各路语音信号的先验信噪比和后验信噪比；

根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数；

根据所述信号参数和所述各路语音信号的先验信噪比和后验信噪比获得联合建模的所述各路语音信号的加权系数；

利用所述各路语音信号的加权系数对所述对应的各路多路语音信号分别进行加权，获得加权后的多路语音信号；

对所述加权后的多路语音信号进行合成，获得增强后的语音信号。

2、如权利要求1所述的方法，其特征在于，所述统计模型包括超高斯模型、或拉普拉斯模型、或增广高斯模型，所述统计模型的模型参数包括超高斯模型中的参数、或拉普拉斯模型中的参数、或增广高斯模型中的参数。

3、如权利要求2所述的方法，其特征在于，所述统计模型为超高斯模型，所述超高斯模型可表示为：

p (A) = \frac{μ^{v + 1}}{Γ (v + 1)} \frac{A^{v}}{σ_{S}^{2 + v - 1}} \exp {- μ \frac{A}{σ_{S}^{2 - 1}}}

其中，A为语音信号的幅度，σ_S ²为语音能量谱密度，Γ为Gamma函数，μ和ν为所述超高斯模型的参数，p(A)为A的概率密度。

4、如权利要求1至3中任一项所述的方法，其特征在于，所述根据所述信号参数和所述各路语音信号的先验信噪比和后验信噪比获得联合建模的所述各路语音信号的加权系数包括：

根据所述信号参数、所述各路语音信号的先验信噪比和后验信噪比，基于最小均方误差估计和各路信号的信号延迟，获得联合建模的所述各路语音信号的加权系数。

5、如权利要求4所述的方法，其特征在于，所述根据所述模型参数和所述各路所述语音信号的先验信噪比和后验信噪比获得联合建模的每路所述语音信号的加权系数包括，

根据超高斯模型获得联合建模的第m路所述语音信号的加权系数为：

G_{m} = \frac{\sqrt{\frac{ξ_{m}}{γ_{m}}}}{2 Σ_{i = 1}^{M} ξ_{i}} [Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2} + \sqrt{{(Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2})}^{2} + (2 &upsi; - M) Σ_{i = 1}^{M} ξ_{i}}]

其中，M是联合建模中所述语音信号的总路数，G_m是第m路语音信号的加权系数，ξ_m是第m路语音信号的先验信噪比，γ_m是第m路语音信号的后验信噪比，ξ_i和γ_i分别是对应的各路语音信号的先验信噪比和后验信噪比，μ和υ是根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数；

所述m分别从1到M取值，获得所有输入的各路所述语音信号的加权系数。

6、如权利要求5所述的方法，其特征在于，所述根据输入的多路语音信号获得各路所述语音信号的先验信噪比和后验信噪比包括：

对输入的多路时域语音信号分别进行时频变换，获得多路频域语音信号；

获得所述多路频域语音信号的先验信噪比和后验信噪比。

7、如权利要求6所述的方法，其特征在于，所述对所述加权后的多路语音信号进行合成，获得增强后的语音信号包括：

对所述加权后的多路频域语音信号进行频域自适应波束形成处理，获得至少一路进行了语音信号增强的频域语音信号；

对所述进行了语音信号增强的频域语音信号进行时频变换，获得进行了语音信号增强的时域语音信号。

8、如权利要求6所述的方法，其特征在于，

在所述对输入的多路时域语音信号分别进行时频变换，获得多路频域语音信号之前包括，对输入的多路时域语音信号进行分帧加窗，获得多路时域语音帧；

所述对输入的多路时域语音信号分别进行时频变换，获得多路频域语音信号为，对所述多路时域语音帧分别进行时频变换，获得多路频域语音帧。

9、一种语音信号增强装置，其特征在于，所述装置包括：

信噪比获取单元，用于获得多路语音信号中各路语音信号的先验信噪比和后验信噪比；

参数获取单元，用于根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数；

系数计算单元，用于根据所述信号参数和所述各路语音信号的先验信噪比和后验信噪比获得联合建模的所述各路语音信号的加权系数；

加权单元，用于利用所述各路语音信号的加权系数对所述对应的各路多路语音信号分别进行加权，获得加权后的多路语音信号；

合成单元，用于对所述加权后的多路语音信号进行合成，获得增强后的语音信号。

10、如权利要求9所述的装置，其特征在于，参数获取单元可用于根据所述多路语音信号的超高斯模型的模型参数、或拉普拉斯模型中的参数、或增广高斯模型中的参数获得所述多路语音信号的信号参数。

11、如权利要求10所述的装置，其特征在于，所述参数获取单元用于根据所述多路语音信号的超高斯模型的参数获得所述多路语音信号的信号参数，所述超高斯模型可表示为：

p (A) = \frac{μ^{v + 1}}{Γ (v + 1)} \frac{A^{v}}{σ_{S}^{2 + v - 1}} \exp {- μ \frac{A}{σ_{S}^{2 - 1}}}

12、如权利要求9至11中任一项所述的装置，其特征在于，所述系数计算单元还用于根据所述信号参数、所述各路语音信号的先验信噪比和后验信噪比，基于最小均方误差估计和各路信号的信号延迟，获得联合建模的所述各路语音信号的加权系数。

13、如权利要求12所述的装置，其特征在于，所述系数计算单元包括：

取值模块，用于对m分别从1到M进行取值；

m路计算模块，用于根据取值模块对m的取值，根据超高斯模型获得联合建模的第m路所述语音信号的加权系数为：

G_{m} = \frac{\sqrt{\frac{ξ_{m}}{γ_{m}}}}{2 Σ_{i = 1}^{M} ξ_{i}} [Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2} + \sqrt{{(Σ_{i = 1}^{M} \sqrt{ξ_{i} γ_{i}} - \frac{μ}{2})}^{2} + (2 &upsi; - M) Σ_{i = 1}^{M} ξ_{i}}]

其中，M是联合建模中所述语音信号的总路数，G_m是第m路语音信号的加权系数，ξ_m是第m路语音信号的先验信噪比，γ_m是第m路语音信号的后验信噪比，ξ_i和γ_i分别是对应的各路语音信号的先验信噪比和后验信噪比，μ和υ是根据所述多路语音信号的统计模型的模型参数获得所述多路语音信号的信号参数。

14、如权利要求13所述的装置，其特征在于，信噪比获取单元包括：

第一时频转换模块，用于对输入的多路时域语音信号分别进行时频变换，获得多路频域语音信号；

信噪比获取模块，用于获得所述多路频域语音信号的先验信噪比和后验信噪比。

15、如权利要求14所述的装置，其特征在于，所述第一时频转换模块还用于对输入的多路时域语音信号进行分帧加窗，获得多路时域语音帧，并对所述多路时域语音帧分别进行时频变换，获得多路频域语音帧。

16、如权利要求14所述的装置，其特征在于，所述合成单元包括：

波束形成模块，用于对所述加权后的多路频域语音信号进行频域自适应波束形成处理，获得至少一路进行了语音信号增强的频域语音信号；

第二时频转换模块，用于对所述进行了语音信号增强的频域语音信号进行时频变换，获得进行了语音信号增强的时域语音信号。