CN109949821A

CN109949821A - 一种利用cnn的u-net结构进行远场语音去混响的方法

Info

Publication number: CN109949821A
Application number: CN201910200023.XA
Authority: CN
Inventors: 李楠; 张健
Original assignee: Huiyan Technology (tianjin) Co Ltd
Current assignee: Huiyan Technology (tianjin) Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-28
Anticipated expiration: 2039-03-15
Also published as: CN109949821B

Abstract

本发明公开了一种利用CNN的U‑NET结构进行远场语音去混响的方法，属于语音信号处理技术领域，针对远场情况下混响比较大从而引起语音识别的识别准确率严重下降的情况，提出一种CNN的U‑NET结构，以2014年的REVERB Challenge数据集作为处理对象，主要包括以下步骤：对该数据集中的含混响的语音和与其对应的不含混响的语音进行特征提取；针对所提取的特征进行从含混响的语音特征到不含混响语音特征映射；将通过所提出的网络框架所增强后的特征进行声学模型训练及其解码。

Description

一种利用CNN的U-NET结构进行远场语音去混响的方法

技术领域

本发明属于语音信号处理技术领域，具体是涉及一种利用CNN的U-NET结构进行远场语音去混响的方法。

背景技术

近年来，智能家居、对话机器人、智能音响等新兴产业蓬勃发展，给人们的生活方式以及人和机器的交互方式产生了极大的变化，语音交互作为一个新的交互方式在这些新兴领域中得到了广泛的应用。随着深度学***。但是以上这些仅限于在近场的条件下，噪声和房间所产生的混响非常小，怎样在噪声很多或者混响很大的复杂场景下达到一个很好的识别效果成为极为重要的用户体验。

语音的去混响是远场语音识别中的一个主要的研究方向。在一个房间内，混响语音可以表示为干净语音信号和房间冲击响应(RIR)的卷积，所以含混响的语音会受到同一句话中的之前的语音信息的干扰。混响会包括早期混响和晚期混响，早期混响会对语音识别的效果带来一定的提升，但是晚期混响会使语音识别的识别效果下降。因此，如果能有效地抑制或减少晚期混响，将会得到一个良好的语音识别效果。

现有的研究分为两种：一种是使用信号处理的方法来进行语音去混响如日本的NTT公司的加权预测误差(WPE)的方法，但是单单使用这种信号处理的方法在更为复杂的场景下所产生的效果却远远不能满足人们的需求；另一种是使用深度学习的方法来进行语音去混响如利用深度神经网络来进行语音的去混响。目前神经网络方法虽然能够建立一个良好的非线性映射，但是仅仅使用全连接的神经网络，效果很难达到我们所预期的效果，构建一个好的网络结构对于语音识别将产生一个好的识别性能的提升，对复杂场景下的语音识别有着现实意义。本发明也将当前的方法在相同条件下进行了对比，结果表明我们所使用的神经网络框架大大的优于现在的主流方法。

发明内容

针对上述存在的问题，本发明提供了一种利用CNN的U-NET结构进行远场语音去混响的方法。

本发明的技术方案是：一种利用CNN的U-NET结构进行远场语音去混响的方法，包括以下步骤：

步骤一：数据的特征提取；

预加重：将数据集中任意一组语音信号s(n)通过高通滤波器，

加窗：取25ms为一帧，并使用汉宁窗；

快速傅里叶变换(FFT)：对每一帧进行FFT变换，从时域数据转变为频域数据，并计算谱线能量；

Mel滤波：把求出的每帧谱线能量通过Mel滤波器，并计算在Mel滤波器中的能量；

计算DCT倒谱：把Mel滤波器中的能量取对数后计算DCT，就可以得到Mel频率倒谱系数MFCC；

步骤二：前端特征增强的神经网络框架的设计

使用步骤二中得到的MFCC特征作为输入，卷积层的宽设置为MFCC的维度，卷积层的高设置为11，然后设置卷积层的filter大小分别为[12,12,24,24,32,32,24,24,12,12]，相当于一个encoder-decoder的网络结构，同时使用Resnet的结构连接了encoder和decoder，即将第二和第四个卷积层分别和第七个和第九个的输出相加，将输入的11帧的特征直接整合成一帧来和U-NET网络的输出进行拼接，添加两个全连接神经网络，通过输出层输出干净语音的MFCC特征。

步骤三：语音识别模型的训练及其解码

使用干净语音的MFCC特征进行归一化，然后求其一阶差分和二阶差分，将进行差分后的特征来进行单因素以及三音素训练，使用数据集中多场景下进行语音去混响之后MFCC特征进行声学模型的训练，将去混响之后的测试集数据进行解码。

进一步地，所述数据集为2014年的REVERB Challenge数据集。

进一步地，所述步骤一中高通滤波器的函数关系可以表示为：H(z)＝1-az^-1([a∈[0.9,1])，a值取0.95。

进一步地，所述步骤二中使用的损失函数为MSE，损失函数如下所示：

其中Y表示神经网络的MFCC特征，XC表示干净语音的MFCC特征。

进一步地，所述步骤二中输出干净语音的MFCC特征为一帧的特征。

进一步地，所述步骤二中作为输入的MFCC特征为上下文各五帧的MFCC特征，可以更好的学习上下文的信息。

进一步地，所述步骤二中两个网络的神经元个数均为1024。

本发明的有益效果是：本发明主要针对对于从干净语音模拟出来的含混响的语音，来通过神经网络处理真实世界的情况下含混响的，以此来提高真实情况下的语音识别准确率的情况，重点是构建了一个encoder-decoder为基础的U-NET框架，并且改进此网络框架和DNN相结合，最终在单通道数据的数据集上实现了一个比较好的语音识别性能，将基于encoder-decoder的U-NET框架应用在远场语音识别中的特征增强过程中，可以更好的学习语音特征的语义信息，而且可以更好的学习语音特征在频域上的特征，结合了CNN和DNN在远场语音识别中的各自优势，CNN可以更好地进行频域的学习，DNN可以更好的处理从含混响语音到干净语音的映射函数，本发明中没有使用RNN，由于RNN在训练解码的过程速度都很慢，而CNN由于各种硬件在卷积运算上的优化做的都比较好，所以使用的网络在解码速度上有很大的优势。

附图说明

图1是本发明的***框图。

具体实施方式

为便于对本发明技术方案的理解，下面结合附图1和具体实施例对本发明做进一步的解释说明，实施例并不构成对发明保护范围的限定。

实施例

本实例以基于Reverb Challenge数据集为例来，整个***算法流程如图1所示，包括数据的特征提取、基于encoder-decoder的U-NET+DNN的网络构建、语音识别模型的训练及其解码。具体如下：

使用REVERB挑战赛官方数据集中的单通道数据集进行实验，使用了一种多环境的训练集，该训练集由干净的训练数据通过卷积干净的话语与测量的房间冲击响应所得到，其中加入一些加性噪声总的来说信噪比为20db，实验中的测试数据包括模拟数据(SimData)和真实环境下的数据(RealData)，SimuData由基于WSJCAM0语料库生成的混响语音组成，这些语音采用与多条件训练集相同的人工失真方式。SimuData模拟了六种混响情况：三个不同大小的房间(小、中、大)和一个扬声器和麦克风之间的距离(near＝50cm和far＝200cm)，RealData发音来自MC-WSJ-AV语料库，在实际情况下，由于扬声器会跟随头部的运动，声源不能被认为是完全空间固定的，因此RealData与模拟数据是两种不同状态下的数据。用于RealData录音的房间不同于用于SimuData和训练集的房间，其房间的混响时间约为0.7s，还包含一些固定的环境噪声。RealData中根据扬声器和麦克风之间的两个距离(near＝100cm和far＝250cm)的不同也分为两种不同的条件。但是由于在RealData和SimuData中使用的句子的文本相同。因此，对于SimuData和RealData，我们可以使用相同的语言模型以及声学模型。

使用Kaldi中的nnet2中的声学模型进行的语音识别，使用干净语音的MFCC特征进行归一化然后求其一阶差分和二阶差分，将进行差分后的特征来进行单音素以及三音素训练，用一个LDA算法和MLLR算法来进行模型的优化，然后使用Reverb Challenge数据集中多场景下训练集的MFCC特征进行声学模型的训练，最后，我们将该数据集的测试集数据进行解码，使用语言模型为tri-gram语言模型进行语音识别，在不进行去混响的情况下，该数据集的结果记录为NULL，如表1所示；

使用TensorFlow作为前端特征特强部分的工具，用上下文各五帧，总共11帧的MFCC特征作为输入，卷积层的宽设置为MFCC的维度，卷积层的高设置为11，表示的输入的11帧，然后设置卷积层的filter的大小分别为[12,12,24,24,32,32,24,24,12,12]，相当于一个encoder-decoder的网络结构，与此同时我们也使用Resnet的结构连接了encoder和decoder，即将第二和第四个卷积层分别和第七个和第九个的输出相加，此网络结构可以大大的减少由于网络加深所引起的梯度弥散的现象，为了更好的保留原始输入的语音特征的一些信息，将输入的11帧的特征直接整合成一帧来和U-NET网络的输出进行拼接，这样既能保留原始的语音帧的一些特点，又能很好的学习到深层次的语义特征，后边为了更好的映射到干净语音的的MFCC特征，我们添加了两个全连接的神经网络，此全连接的神经网络的神经元的个数均设置为1024，最后就是一个输出层，输出的是我们的干净语音的MFCC特征(一帧)。最终所得出的词错率由记录为U-CNET+DNN，如表1所示；

对比主流的DNN的方法进行此任务的结果，DNN中使用了三个隐层，每个隐层的神经元的个数均设置为1024，同样采用输入上下文各五帧的方式，所得结果记录为DNN，如表1所示，单纯使用U-NET(输入的帧数等条件均和所提出的的结构的条件相同)的结果为U-NET，如表1所示，使用改进的U-NET(最后的CNN的输出和输入的11维整合的特征进行拼接然后输入到一个全连接层)的结果为U-CNET，如表1所示；

表1针对不同方法所得出的词错率结果

从表1中我们可以得出，使用本发明提供方法得到的结果相比其他方法得到的结果具有显著优势。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种利用CNN的U-NET结构进行远场语音去混响的方法，其特征在于，包括以下步骤：

步骤一：数据的特征提取；

预加重：将数据集中任意一组语音信号s(n)通过高通滤波器，

加窗：取25ms为一帧，并使用汉宁窗；

步骤二：前端特征增强的神经网络框架的设计

步骤三：语音识别模型的训练及其解码

2.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法，其特征在于，所述数据集为2014年的REVERB Challenge数据集。

3.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法，其特征在于，所述步骤一中高通滤波器的函数关系可以表示为：H(z)＝1-az^-1([a∈[0.9,1])，a值取0.95。

4.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法，其特征在于，所述步骤二中使用的损失函数为MSE，损失函数如下所示：

其中Y表示神经网络的MFCC特征，X_C表示干净语音的MFCC特征。

5.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法，其特征在于，所述步骤二中输出干净语音的MFCC特征为一帧的特征。

6.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法，其特征在于，所述步骤二中两个网络的神经元个数均为1024。