CN109102823B

CN109102823B - 一种基于子带谱熵的语音增强方法

Info

Publication number: CN109102823B
Application number: CN201811031344.3A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2022-12-06
Anticipated expiration: 2038-09-05
Also published as: CN109102823A

Abstract

本发明公开了一种基于子带谱熵的语音增强方法，首先将含噪语音的幅度谱划分成若干个子带，计算每个子带的谱熵；然后，根据子带谱熵，判断该子带是否存在语音；最后，对无音子带，更新该子带上所有数字频率处的噪声参数；对有音子带，用谱减法对含噪语音的幅度谱进行增强。本发明可以对每一帧信号的每个子带的语音存在性进行判断，增强噪声估计算法对非平稳环境的实时跟踪能力。

Description

一种基于子带谱熵的语音增强方法

技术领域

本发明属于语音信号处理技术领域，具体涉及到根据含噪语音每个子带的谱熵估计背景噪声的均值，对含噪语音进行谱减，恢复纯净语音的语音增强方法。

背景技术

在语音的传输过程中，不可避免地会受到环境噪声的干扰。含噪语音中混杂的噪声不仅使听者产生不舒服的感觉，而且会给语音编码、语音识别等应用***带来不利影响。因此，在实际应用中，就需要采用各种语音增强方法抑制噪声干扰，增强有用语音信号，增加语音的可懂度。

在传统的语音增强算法中，需要对含噪语音进行端点检测，将其划分为有音段和静音段，即将每一帧信号判断为语音帧和非语音帧。在静音段，估计噪声频谱的均值；在有音段，利用估得的噪声均值，对每个语音帧的幅度谱进行增强，减小噪声干扰的影响。然而，实际环境中的背景噪声往往是非平稳的，在有音段，噪声的类型或强度也有可能发生变化。因此，仅仅在静音段估计噪声，无法实时跟踪非平稳噪声的变化，这会给语音增强带来不利影响。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于子带谱熵的语音增强方法。

技术方案：一种基于子带谱熵的语音增强方法，首先将含噪语音的幅度谱划分成若干个子带，计算每个子带的谱熵；然后，根据子带谱熵，判断该子带是否存在语音；最后，对无音子带，更新该子带上所有数字频率处的噪声参数；对有音子带，用谱减法对含噪语音的幅度谱进行增强。

本发明的具体步骤如下：

(1)对含噪语音进行预处理，包括加窗、分帧和快速傅里叶变换(FFT：FastFourier Transform)，并将每帧信号的频谱分为幅度部分和相位部分；

(2)将含噪语音的幅度谱划分为若干个子带，并计算每个子带上的谱熵；

(3)根据每个子带上的谱熵，判断该子带是否存在语音；

(4)若某子带上不存在语音，则对该子带上的每个数字频率，用平滑滤波方式更新其噪声均值，并将其幅度谱设置为噪声均值的0.01倍；

(5)若某子带上存在语音，则对该子带上的每个数字频率，用加权谱减法减小噪声的影响，增强含噪语音的幅度谱，提高含噪语音的信噪比；

(6)对增强后的语音信号进行IFFT(Inverse FFT)运算，得到时域信号；

(7)对时域帧信号进行重叠相加，得到增强后的连续语音。

本发明采用上述技术方案，具有以下有益效果：

本发明可以对每一帧信号的每个子带的语音存在性进行判断，增强噪声估计算法对非平稳环境的实时跟踪能力。

附图说明

图1为本发明实施例的基于子带谱熵的语音增强方法的总体框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于子带谱熵的语音增强方法主要包括语音预处理、子带划分、子带谱熵计算、噪声估计、幅度增强、IFFT和重叠相加部分。

1、语音预处理

对含噪语音进行预处理，包括加窗、分帧和FFT。语音信号的采样频率为8000Hz，窗函数为海明窗，帧长为256，帧移为128。含噪语音经过预处理，可以得到每帧信号的幅度谱和相位谱，幅度谱用于噪声估计和谱减，相位谱用于在后端恢复时域信号。一般认为相位对听觉***的影响很小，可以直接用含噪语音的相位作为纯净语音的相位。

2、子带谱熵计算

首先将每帧语音的幅度谱划分为8个等间距的子带；然后，计算每个子带上的谱熵；最后，根据每个子带上的谱熵，判断该子带是否存在语音。

3、噪声估计

若某子带上不存在语音，则对该子带上的每个数字频率k，用平滑滤波方式更新其噪声均值N(k,l)：

N(k,l)＝α·N(k,l-1)+(1-α)·|Y(k,l)| (1)

其中，N(k,l-1)是上一帧(第(l-1)帧)的噪声估计值；|Y(k,l)|是当前帧(第l帧)的含噪语音幅度谱；实数α是平滑系数，这里取α＝0.9。若某子带上存在语音，则将α设置为1，即停止更新噪声，以上一帧的噪声估计值作为本帧的噪声估计值。

4、幅度增强

若某子带上存在语音，则对该子带上的每个数字频率k，用加权谱减法减小噪声的影响：

其中，

是纯净语音幅度的估计值，Y(k)、N(k)分别表示含噪语音的幅度和噪声的均值；β(m)是当前帧第m个子带上所有数字频率的过减系数，根据下式计算：

其中，E(m)是当前帧第m个子带的对数能量；E_min和E_max是E(m)的最小值和最大值；β_max是β(m)的上限，这里设置为6。

若某子带上不存在语音，则对该子带上的每个数字频率k，用下式估计

5、IFFT与重叠相加

首先将含噪语音的相位作为纯净语音的相位，与纯净语音幅度谱的估计值

相乘，得到纯净语音的完整频谱；然后，对每一帧的完整频谱进行IFFT运算，得到时域信号；最后，对各帧时域信号进行重叠相加，得到增强后的数字语音。

Claims

1.一种基于子带谱熵的语音增强方法，其特征在于：首先将含噪语音的幅度谱划分成若干个子带，计算每个子带的谱熵；然后，根据子带谱熵，判断该子带是否存在语音；最后，对无音子带，更新该子带上所有数字频率处的噪声参数；对有音子带，用谱减法对含噪语音的幅度谱进行增强；计算谱熵时，先对含噪语音进行加窗、分帧和快速傅里叶变换的预处理，并将每帧信号的频谱分为幅度部分和相位部分；然后将含噪语音的幅度谱划分为若干个子带，并计算每个子带上的谱熵；

具体的，若某子带上存在语音，则对该子带上的每个数字频率k，用加权谱减法减小噪声的影响：

其中，

其中，E(m)是当前帧第m个子带的对数能量；E_min和E_max是E(m)的最小值和最大值；β_max是β(m)的上限；

2.如权利要求1所述的基于子带谱熵的语音增强方法，其特征在于，根据每个子带上的谱熵，判断该子带是否存在语音；若某子带上不存在语音，则对该子带上的每个数字频率，用平滑滤波方式更新其噪声均值，并将其幅度谱设置为噪声均值的0.01倍；若某子带上存在语音，则对该子带上的每个数字频率，用加权谱减法减小噪声的影响，增强含噪语音的幅度谱，提高含噪语音的信噪比；对增强后的语音信号进行IFFT运算，得到时域信号；对时域帧信号进行重叠相加，得到增强后的连续语音。

3.如权利要求1所述的基于子带谱熵的语音增强方法，其特征在于，若某子带上不存在语音，则对该子带上的每个数字频率k，用平滑滤波方式更新其噪声均值N(k,l)：

N(k,l)＝α·N(k,l-1)+(1-α)·|Y(k,l)| (1)

其中，N(k,l-1)是第l-1帧的噪声估计值；|Y(k,l)|是第l帧的含噪语音幅度谱；实数α是平滑系数；若某子带上存在语音，则将α设置为1，即停止更新噪声，以第l-1帧的噪声估计值作为第l帧的噪声估计值。