CN111986660A

CN111986660A - 一种神经网络子带建模的单通道语音增强方法、***及存储介质

Info

Publication number: CN111986660A
Application number: CN202010872886.4A
Authority: CN
Inventors: 刘明; 孙冲武; 周彦兵; 赵学华; 李欣
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-11-24

Abstract

本发明提供了一种神经网络子带建模的单通道语音增强方法、***及存储介质，该单通道语音增强方法包括执行以下步骤：步骤1：采集带噪语音信号，并发送给数功率谱提取模块和巴克倒谱系数提取模块；步骤2：采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号，再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取，最后将提取的特征发送给频带特征划分模块；步骤3：采用频带特征划分模块接收步骤2提取的特征，再由频带特征划分模块对提取的特征进行子带特征的分配。本发明的有益效果是：本发明对语音信号的各子频带进行单独的神经网络建模，降低了神经网络的任务难度，减少了模型的参数。

Description

一种神经网络子带建模的单通道语音增强方法、***及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种神经网络子带建模的单通道语音增强方法、***及存储介质。

背景技术

目前，市场上的一系列语音类电子产品中，如通讯类产品、人机交互类产品都会受到各式各样噪声干扰的影响。嘈杂的背景噪声不仅会影响人与人之间交流通讯的质量，也会给人机交互带来很大的挑战。例如，对于智能音箱、智能电视、车载设备等语音交互类的电子设备而言，语音识别是不可或缺的技术，并且在安静环境下语音识别的准确率已经完全可以满足人们使用的要求。但是，当有一定的背景噪声存在时，机器的识别准确率就会受到很大的影响。因此，需要使用语音增强技术进行语音信号的降噪处理，减轻干扰噪声的影响，提高语音的质量，使机器能够在复杂的声学环境中也能实现较高的识别准确率。此外，对于一些对降噪和时延都有严格要求的语音产品，如助听器、对讲机、耳返等，语音增强算法不仅要保证较好的降噪效果，还要具备低运算量、低延时的特点。

发明内容

本发明提供了一种神经网络子带建模的单通道语音增强方法，包括执行以下步骤：

步骤1：采集带噪语音信号，并发送给对数功率谱提取模块和巴克倒谱系数提取模块；

步骤2：采用对数功率谱提取模块和巴克倒谱系数提取模块接收步骤1的带噪语音信号，再由对数功率谱提取模块和巴克倒谱系数提取模块对带噪语音信号进行特征提取，最后将提取的特征发送给频带特征划分模块；

步骤3：采用频带特征划分模块接收步骤2提取的特征，再由频带特征划分模块对提取的特征进行子带特征的分配，并将每个子频带上的特征输入到各自对应的神经网络映射模块进行先验信噪比的估计，最后组合所有子带上估计的先验信噪比，发送给全频带维纳滤波模块；

步骤4：采用全频带维纳滤波模块接收和处理步骤3的所有子带上估计的先验信噪比，得到了增强后的语音信号。

作为本发明的进一步改进，在所述步骤2中，所述对数功率谱特征提取模块对带噪语音信号进行特征提取还包括执行以下步骤：

第一步骤：对麦克风采集到的语音信号x(n)进行分帧加窗的预处理；

第二步骤：进行快速傅里叶变换得到信号的频谱，并求取频域的功率谱S2(k)；

第三步骤：进行自然对数运算；

第四步骤：对功率谱进行对数域压缩，便得到了提取的对数功率谱特征Y_log(k)，如下式(1)所示：

Y_log(k)＝ln(S²(k)),k＝1,2,...,N (1)

其中，k为频率索引，N为一帧语音信号的帧长，在该单通道语音增强方法中，采用16kHz的采样率，每帧帧长16ms，帧移8ms，N为129。

作为本发明的进一步改进，在所述步骤2中，所述巴克倒谱系数提取模块对带噪语音信号进行特征提取还包括执行以下步骤：

步骤S1：对输入的语音信号x(n)进行分帧加窗的预处理；

步骤S2：进行快速傅里叶变换将数据由时域变换到频域；

步骤S3：计算出频域功率谱S2(k)；

步骤S4：将计算得到的频域功率谱S2(k)经过巴克滤波器，计算出滤波后的能量谱，如式(2)所示：

其中，b为巴克能量谱的阶数索引，B为巴克滤波器的个数，这里取24，每一个滤波器都对应着一个巴克域的频带，Bark频率滤波器的传递函数表达式如下式(3)所示：

步骤S5：对每帧的巴克能量谱取对数，并作离散余弦变换(DCT)，如式(4)所示，就得到了巴克倒谱系数特征，

其中，Y_bark(n)为提取的BFCC特征，n为特征的频带索引，特征的维度与巴克滤波器的个数一致，取24维。

作为本发明的进一步改进，在所述步骤3中，所述频带特征划分模块还包括依次执行以下步骤：

子带划分步骤：将0-8000Hz的频域范围划分成8个子带，并根据每个子带对应的LPS特征和BFCC特征个数的不同分别给出了不同子带上特征的索引；

特征拼接步骤：将每个子带上的LPS和BFCC特征拼接起来分别送到各自的神经网络映射模块进行先验信噪比的估计。

作为本发明的进一步改进，在所述步骤3中，所述神经网络映射模块包括5层神经层，其中第一层和最后一层均为前馈神经网络层，中间的三层为GRU神经层，前馈神经网络层中以全连接的方式进行加权求和，并进行非线性激活，如下式(5)所示：

h＝g(W·X+b) (5)

其中，W和b分别是神经元的权重和偏置，h代表前馈神经网络层的输出，X为前馈神经网络层的输入，g(·)代表非线性的激活运算，这里的前馈神经网络层1采用ReLU激活函数，而前馈神经网络层2需要进行先验信噪比的估计，所以不进行激活操作，只进行线性加权求和。

作为本发明的进一步改进，所述神经网络映射模块GRU层中的记忆更新机理具体如下：

GRU单元将当前帧输入的特征x_t与之前保留的上一帧的输出h_t-1进行组合，经过更新门和重置门的处理，产生一个当前帧的输出h_t，如此反复一直迭代下去，各个门以及输出的计算式如下，

r_t＝σ(W_r·[h_t-1,x_t]) (6)

z_t＝σ(W_z·[h_t-1,x_t]) (7)

其中σ(·)和tanh(·)分别代表Sigmoid激活函数和双曲正切激活函数，r_t表示当前帧更新门的输出，z_t表示当前帧遗忘门的输出。

作为本发明的进一步改进，在所述步骤3中，经所述神经网络映射模块估计出的各子带上的先验信噪比值进行组合得到129维输出。

作为本发明的进一步改进，在所述步骤4中，所述全频带维纳滤波模块还包括执行以下步骤：

步骤Y1：计算出用于滤波的增益函数，表达形式如下式(10)所示：

其中，

为神经网络映射模输出的先验信噪比值；

步骤Y2：利用估计的增益函数对输入的带噪语音进行滤波，最后进行反傅里叶变换，得到降噪后的语音信号

公式如下：

公式(11)为维纳滤波的频域滤波过程，其中S(k)为输入的带噪语音信号的频谱，N为每一帧的频点个数，这里取129，

为增强后的语音信号频谱，进行公式(12)中的反傅里叶变换就得到了最后的时域信号输出

本发明还公开了一种神经网络子带建模的单通道语音增强***，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的单通道语音增强方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的单通道语音增强方法的步骤。

本发明的有益效果是：1.本发明的单通道语音增强方法对语音信号的各子频带进行单独的神经网络建模，降低了神经网络的任务难度，减少了模型的参数，实现了较低的算法复杂度；2.本发明的单通道语音增强方法采用神经网络模型进行信号的先验信噪比估计，再结合传统滤波的方法进行降噪，有效地提高了神经网络降噪算法的泛化能力；3.本发明的单通道语音增强方法针对每个子带单独训练的神经网络模型，映***度更高，可以实现更好的语音降噪效果。

附图说明

图1是本发明单通道语音增强方法原理框图；

图2是本发明单通道语音增强方法对数功率特征的提取原理框图；

图3是本发明单通道语音增强方法BFCC特征的提取原理框图；

图4是本发明单通道语音增强方法神经网络映射模块各子带的结构图；

图5是本发明单通道语音增强方法GRU层中的记忆更新原理框图。

具体实施方式

如图1所示，本发明公开了一种神经网络子带建模的单通道语音增强方法，该单通道语音增强方法以神经网络模型为基础，利用对数功率谱特征(Log power spectrum,LPS)和巴克倒谱系数特征(Bark-frequency cepstral coefficients,BFCC)对目标语音的先验信噪比进行估计，并与维纳滤波方法相结合，实现了降噪效果与运算复杂度的良好折衷。该单通道语音增强方法包括执行以下步骤：

步骤1：由单个麦克风采集带噪语音信号，并发送给对数功率谱提取模块和巴克倒谱系数提取模块；

步骤3：采用频带特征划分模块接收步骤2提取的特征，再由频带特征划分模块对提取的两组特征进行子带特征的分配，并将每个子频带上的特征输入到各自对应的神经网络映射模块进行先验信噪比的估计，最后组合所有子带上估计的先验信噪比，发送给全频带维纳滤波模块；

本发明的单通道语音增强方法中，我们挑选了Aishell中文数据集[1]中4800句话(24男24女，每人说100句话)作为训练集的纯净语音数据，然后与Freesound网站[2]上挑选出的100种不同的噪声类型，进行随机混合，混合的信噪比符合区间范围为[-5,20]的均匀分布，总共获得带噪训练数据时长约为100个小时。随后，提取出各子带的BFCC特征和对数功率谱特征，并构建出它们对应的理想先验信噪比值，然后采用反向传播算法对各个神经网络进行训练，并从所有训练数据中划分出10％作为验证集，当训练集和验证集上的损失最小时保存模型，便得到了不同子频带对应的神经网络映射模型。以上便是对整个单通道语音增强方法的处理流程和神经网络模型的训练过程，接下来将对各个关键模块进行详细介绍。

如图2所示，在所述步骤2中，所述对数功率谱特征提取模块，用来提取语音信号的频域对数功率特征，所述数功率谱特征提取模块对带噪语音信号进行特征提取还包括执行以下步骤：

第二步骤：进行快速傅里叶变换(FFT)得到信号的频谱，并求取频域的功率谱S2(k)；

第三步骤：进行自然对数运算；

Y_log(k)＝ln(S²(k)),k＝1,2,...,N (1)

其中，k为频率索引，N为一帧语音信号的帧长，在该单通道语音增强方法中，采用16kHz的采样率，每帧帧长16ms，帧移8ms，因此N为129。

如图3所示，在所述步骤2中，所述巴克倒谱系数特征提取模块，以Bark尺度在频域进行特征提取，模拟了人类听觉***对声音的掩蔽效应，并且充分利用了人耳对声音信号的低频分辨率高于其对高频分辨率的特性，提取出了一种非常接近人类主观感受的频谱特征。所述巴克倒谱系数提取模块对带噪语音信号进行特征提取还包括执行以下步骤：

步骤S1：对输入的语音信号x(n)进行分帧加窗的预处理；

步骤S2：进行快速傅里叶变换将数据由时域变换到频域；

步骤S3：计算出频域功率谱S2(k)；

在所述步骤3中，所述频带特征划分模块，将对提取的每帧信号的巴克倒谱系数特征和对数功率谱特征进行子带的划分，每个子带只包含其频率范围内的BFCC特征和LPS特征，如表1所示。

表1频域子带的特征分配

所述频带特征划分模块还包括依次执行以下步骤：

子带划分步骤：将0-8000Hz的频域范围划分成8个子带，并且考虑到大部分语音信号集中在低频范围，因此对低频的子带划分的更细。此外，根据每个子带对应的LPS特征和BFCC特征个数的不同分别给出了不同子带上特征的索引，如表1所示；

在所述步骤3中，所述神经网络映射模块，对每个子带特征进行建模，定制了应用于不同子带的专用降噪模型。考虑到语音信号的时序相关特性，在所述神经网络映射模块中以门控递归神经单元(Gated recurrent unit,GRU)为基础，构建具备映射先验信噪比能力的模型。

如图4所示，经过子带划分模块的分配以后，将各子带的特征输入到所设计的神经网络结构中，进行先验信噪比

的估计。所述神经网络映射模块包括5层神经层，其中第一层和最后一层均为前馈神经网络层，中间的三层为GRU神经层，前馈神经网络层中以全连接的方式进行加权求和，并进行非线性激活，如下式(5)所示：

h＝g(W·X+b) (5)

如图5所示，所述神经网络映射模块GRU层中的记忆更新机理具体如下：

r_t＝σ(W_r·[h_t-1,x_t]) (6)

z_t＝σ(W_z·[h_t-1,x_t]) (7)

另外，由于每个子带上的特征数量不同，虽然每个子带上的神经网络结构是一样的，但是考虑到每个子带的任务难度不同，所以每个子带所对应的神经网络模型的神经元个数是不同的，如下表2所示。

表2不同子带神经网络模块的神经元配置

在所述步骤3中，经所述神经网络映射模块估计出的各子带上的先验信噪比值进行组合得到129维输出。

在所述步骤4中，所述全频带维纳滤波模块还包括执行以下步骤：

其中，

为神经网络映射模输出的先验信噪比值；

步骤Y2：利用估计的增益函数对输入的带噪语音进行滤波，最后进行反傅里叶变换，就得到了降噪后的语音信号

公式如下：

为增强后的语音信号频谱，进行如公式(12)中的反傅里叶变换就得到了最后的时域信号输出

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种神经网络子带建模的单通道语音增强方法，其特征在于，包括执行以下步骤：

2.根据权利要求1所述的单通道语音增强方法，其特征在于，在所述步骤2中，所述对数功率谱特征提取模块对带噪语音信号进行特征提取还包括执行以下步骤：

第三步骤：进行自然对数运算；

Y_log(k)＝ln(S²(k)),k＝1,2,...,N (1)

3.根据权利要求1所述的单通道语音增强方法，其特征在于，在所述步骤2中，所述巴克倒谱系数提取模块对带噪语音信号进行特征提取还包括执行以下步骤：

步骤S1：对输入的语音信号x(n)进行分帧加窗的预处理；

步骤S2：进行快速傅里叶变换将数据由时域变换到频域；

步骤S3：计算出频域功率谱S2(k)；

4.根据权利要求1所述的单通道语音增强方法，其特征在于，在所述步骤3中，所述频带特征划分模块还包括依次执行以下步骤：

5.根据权利要求4所述的单通道语音增强方法，其特征在于，在所述步骤3中，所述神经网络映射模块包括5层神经层，其中第一层和最后一层均为前馈神经网络层，中间的三层为GRU神经层，前馈神经网络层中以全连接的方式进行加权求和，并进行非线性激活，如下式(5)所示：

h＝g(W·X+b) (5)

6.根据权利要求5所述的单通道语音增强方法，其特征在于，所述神经网络映射模块GRU层中的记忆更新机理具体如下：

r_t＝σ(W_r·[h_t-1,x_t]) (6)

z_t＝σ(W_z·[h_t-1,x_t]) (7)

7.根据权利要求1所述的单通道语音增强方法，其特征在于，在所述步骤3中，经所述神经网络映射模块估计出的各子带上的先验信噪比值进行组合得到129维输出。

8.根据权利要求7所述的单通道语音增强方法，其特征在于，在所述步骤4中，所述全频带维纳滤波模块还包括执行以下步骤：

其中，

为神经网络映射模输出的先验信噪比值；

公式如下：

9.一种神经网络子带建模的单通道语音增强***，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－8中任一项所述的单通道语音增强方法的步骤。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－8中任一项所述的单通道语音增强方法的步骤。