CN106328155A

CN106328155A - 一种修正先验信噪比过估计的语音增强方法

Info

Publication number: CN106328155A
Application number: CN201610819097.8A
Authority: CN
Inventors: 谭洪舟; 李竺珊; 李宇
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2016-09-13
Filing date: 2016-09-13
Publication date: 2017-01-11

Abstract

本发明提供的方法通过对先验信噪比与后验信噪比进行修正或重估，使得先验信噪比与后验信噪比能够克服过估计的问题，从而语音增强方法在实际应用中能够起到很好的效果。

Description

一种修正先验信噪比过估计的语音增强方法

技术领域

本发明涉及语音处理技术领域，更具体地，涉及一种修正先验信噪比过估计的语音增强方法。

背景技术

嘈杂环境中，语音不可避免地会受到外界环境噪声的干扰，甚至可能使语音完全淹没在噪声中。外界噪声破坏了语音信号的模型参数和声学特性，从而严重影响语音处理***的性能，如语音识别、语音编码。因此，语音增强技术被广泛应用于语音处理***中，对带噪语音进行预处理，使用语音增强技术的目的是从带噪语音中获得尽可能纯净的原始语音。在频域中，目前常用的语音增强方法是基于统计模型的最小均方误差(Minimum MeanSquare Error,MMSE)法。它通过假设不同的语音频谱分布来获得更优的估计，在实际使用过程中，MMSE法的增益函数是一个被先验信噪比(Signal-Noise Ratio,SNR)影响的函数。

在经典的加性噪声模型中，带噪语音信号可表示为x(t)＝s(t)+n(t)，其中，s(t)表示语音信号，n(t)表示噪声信号。令S(p,k)，N(p,k)，X(p,k)分别表示语音信号s(t)，噪声信号n(t)，带噪语音信号x(t)的短时帧p的第k个频谱分量。语音增强的目标是在最小化失真测度条件下，由一系列噪声频谱特征值，找到一个估计器由于对频谱的估计不存在任何直接的解，则首先从噪声特征值中估计推导出SNR。随后，S(p,k)的估计可通过将谱增益G(p,k)作用于每个短时谱成分X(p,k)来获得。这个增益对应于不同的函数(如维纳滤波、MMSE等)。失真测度的选择决定增益行为的好坏。也就是说，在降噪和语音失真中有一个权衡。然而，信噪比的估计是关键的参数，因为在给定的噪声功率谱密度条件下，其决定语音增强的有效性。

大多数经典的语音增强技术要求两个参数的计算，即先验信噪比与后验信噪比。先验信噪比定义为后验信噪比定义为其中E[·]是期望算子。

在实际实现过程中，E[|S(p,k)|²]与E[|N(p,k)|²]的功率谱密度(Power SpectralDensity,PSD)未知，而仅仅是带噪语音的功率谱密度|X(p,k)|²是已知的，则前两者需要被估计。但是在具体实施的时候，由于估计的S(p,k)、N(p,k)数值与实际的数值存在着较大的误差，存在着过估计的问题，使得所计算得到先验信噪比与后验信噪比与实质上的不符，而导致语音增强技术的实际应用效果并不好。

发明内容

本发明为解决以上现有技术的难题，提供了一种修正先验信噪比过估计的语音增强方法，该方法通过对先验信噪比与后验信噪比进行修正或重估，使得先验信噪比与后验信噪比能够克服过估计的问题，从而语音增强方法在实际应用中能够起到很好的效果。

为实现以上发明目的，采用的技术方案是：

一种修正先验信噪比过估计的语音增强方法，包括以下步骤：

S1.将带噪语音信号经过预处理后变换到频域，得到带噪语音信号的频谱分布图；

S2.基于带噪语音信号的频谱分布图使用MMSE法对噪声功率谱进行估计，其中表示噪声信号n(t)的短时帧p的第k个频谱分量；

S3.计算后验信噪比：其中X(p,k)表示带噪语音信号x(t)的短时帧p的第k个频谱分量；

S4.基于后验信噪比SNR_post(p，k)使用判决引导法来对先验信噪比进行估计；

S5.对后验信噪比进行重估：

其中δ、为设定的参数；

S6.对先验信噪比进行修正：

S7.基于重估的后验信噪比与修正的先验信噪比来计算频谱增益G_MMSE(p,k)

S8.将频谱增益作用于带噪语音信号，则得到增强语音信号

| \hat{S} (p, k) | = G_{M M S E} (p, k) | X (p, k) | :

S9.将进行处理变换到时域从而输出增强的语音信号。

优选地，所述步骤S4可用下式表示：

S \hat{N} R_{p r i o} (p, k) = ξ_{p, k} = β \frac{{| \hat{S} (p - 1, k) |}^{2}}{{\hat{γ}}_{n} (p, k)} + (1 - β) P [γ_{p, k} - 1]

其中，P[·]表示半波整流，表示估计的短时帧p-1的第k个语音频谱分量，β＝0.98。

优选地，所述G_MMSE(p,k)表示如下：

其中Ei[·]表示指数积分，I₀(·)和I₁(·)表示第零阶和第一阶修正贝塞尔函数。

优选地，所述δ≈-6dB。

优选地，所述步骤S1的预处理包括依次执行的分帧、加窗和傅里叶变换处理。

优选地，所述步骤S9的处理包括依次执行的傅里叶逆变换、去窗和合帧处理。

与现有技术相比，本发明的有益效果是：

附图说明

图1为方法的流程图。

图2为估计的先验信噪比和后验信噪比的二元分布图。

图3为重估后验信噪比后先验信噪比和后验信噪比的二元分布图。

图4为修正先验信噪比后先验信噪比和后验信噪比的二元分布图。

图5为改进RFSNR(过估计修正后)之前与之后的语音时频图(包括纯净语音、带噪语音、增强语音)

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，图1为本发明提供的方法的流程示意图，本发明提供的方法具体包括以下步骤：

第一步、首先，带噪语音信号经过采样(采样频率8000HZ)、分帧(140*129)、加窗、傅里叶变换到频域。经过这些预处理后，用MMSE法估计噪声功率谱，带噪语音信号已知。

第二步、其次，分别根据如后两式计算后验信噪比与先验信噪比，

S \hat{N} R_{p o s t} (p, k) = γ_{p, k} = \frac{{| X (p, k) |}^{2}}{{\hat{γ}}_{n} (p, k)},

其中，β＝0.98。

上述方案中，本发明提供的方法在对后验信噪比与先验信噪比进行计算时，采用的是DD法。如图2所示，图2为估计的先验信噪比和后验信噪比的二元分布图。

第三步、接着，将后验信噪比进行重估，如式

其中，δ≈-6dB。

如图3所示，即为重估后验信噪比之后，先验信噪比和后验信噪比的二元分布。该方法被称为可靠后验信噪比技术(RFSNR)。

第四步、对有偏的先验信噪比进行修正：

如图4所示，即为修正先验信噪比后，先验信噪比和后验信噪比的二元分布。该方法被称为改进的可靠后验信噪比技术(改进的RFSNR)。

第五步、基于重估的后验信噪比与修正的先验信噪比来计算频谱增益，采用MMSE的增益函数，

第六步、最后，将频谱增益作用于带噪语音信号，则得到增强语音信号，

| \hat{S} (p, k) | = G_{M M S E} (p, k) | X (p, k) | .

如图5，纯净语音被车站噪声(SNR＝10)破坏后得到的带噪语音，从其纯净语音、带噪语音、增强语音的时频图明显可以看出带噪语音被增强。

第七步、对带噪语音信号进行傅里叶逆变换、去窗、合帧(17967*1)，则可输出增强的语音信号，可对语音进行主观听觉测试。

如表一所示，在不同的噪声环境以及输入SNR情况下，由分段信噪比客观评价DD、RFSNR、改进的RFSNR降噪算法，明显看出改进的RFSNR的优势。

表一

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种修正先验信噪比过估计的语音增强方法，其特征在于：包括以下步骤：

S5.对后验信噪比进行重估：

其中δ、为设定的参数；

S6.对先验信噪比进行修正：

S8.将频谱增益作用于带噪语音信号，则得到增强语音信号

| \hat{S} (p, k) | = G_{M M S E} (p, k) | X (p, k) | :

S9.将进行处理变换到时域从而输出增强的语音信号。

2.根据权利要求1所述的修正先验信噪比过估计的语音增强方法，其特征在于：所述步骤S4可用下式表示：

S \hat{N} R_{p r i o} (p, k) = ξ_{p, k} = β \frac{| \hat{S} (p - 1, k) |^{2}}{{\hat{γ}}_{n} (p, k)} + (1 - β) P [γ_{p, k} - 1]

3.根据权利要求1所述的修正先验信噪比过估计的语音增强方法，其特征在于：所述G_MMSE(p,k)表示如下：

4.根据权利要求1所述的修正先验信噪比过估计的语音增强方法，其特征在于：所述δ≈-6dB。

5.根据权利要求1～4任一项所述的修正先验信噪比过估计的语音增强方法，其特征在于：所述步骤S1的预处理包括依次执行的分帧、加窗和傅里叶变换处理。

6.根据权利要求5所述的修正先验信噪比过估计的语音增强方法，其特征在于：所述步骤S9的处理包括依次执行的傅里叶逆变换、去窗和合帧处理。