CN109949821A - 一种利用cnn的u-net结构进行远场语音去混响的方法 - Google Patents

一种利用cnn的u-net结构进行远场语音去混响的方法 Download PDF

Info

Publication number
CN109949821A
CN109949821A CN201910200023.XA CN201910200023A CN109949821A CN 109949821 A CN109949821 A CN 109949821A CN 201910200023 A CN201910200023 A CN 201910200023A CN 109949821 A CN109949821 A CN 109949821A
Authority
CN
China
Prior art keywords
feature
far field
speech
net structure
mfcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910200023.XA
Other languages
English (en)
Other versions
CN109949821B (zh
Inventor
李楠
张健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huiyan Technology (tianjin) Co Ltd
Original Assignee
Huiyan Technology (tianjin) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huiyan Technology (tianjin) Co Ltd filed Critical Huiyan Technology (tianjin) Co Ltd
Priority to CN201910200023.XA priority Critical patent/CN109949821B/zh
Publication of CN109949821A publication Critical patent/CN109949821A/zh
Application granted granted Critical
Publication of CN109949821B publication Critical patent/CN109949821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种利用CNN的U‑NET结构进行远场语音去混响的方法,属于语音信号处理技术领域,针对远场情况下混响比较大从而引起语音识别的识别准确率严重下降的情况,提出一种CNN的U‑NET结构,以2014年的REVERB Challenge数据集作为处理对象,主要包括以下步骤:对该数据集中的含混响的语音和与其对应的不含混响的语音进行特征提取;针对所提取的特征进行从含混响的语音特征到不含混响语音特征映射;将通过所提出的网络框架所增强后的特征进行声学模型训练及其解码。

Description

一种利用CNN的U-NET结构进行远场语音去混响的方法
技术领域
本发明属于语音信号处理技术领域,具体是涉及一种利用CNN的U-NET结构进行远场语音去混响的方法。
背景技术
近年来,智能家居、对话机器人、智能音响等新兴产业蓬勃发展,给人们的生活方式以及人和机器的交互方式产生了极大的变化,语音交互作为一个新的交互方式在这些新兴领域中得到了广泛的应用。随着深度学***。但是以上这些仅限于在近场的条件下,噪声和房间所产生的混响非常小,怎样在噪声很多或者混响很大的复杂场景下达到一个很好的识别效果成为极为重要的用户体验。
语音的去混响是远场语音识别中的一个主要的研究方向。在一个房间内,混响语音可以表示为干净语音信号和房间冲击响应(RIR)的卷积,所以含混响的语音会受到同一句话中的之前的语音信息的干扰。混响会包括早期混响和晚期混响,早期混响会对语音识别的效果带来一定的提升,但是晚期混响会使语音识别的识别效果下降。因此,如果能有效地抑制或减少晚期混响,将会得到一个良好的语音识别效果。
现有的研究分为两种:一种是使用信号处理的方法来进行语音去混响如日本的NTT公司的加权预测误差(WPE)的方法,但是单单使用这种信号处理的方法在更为复杂的场景下所产生的效果却远远不能满足人们的需求;另一种是使用深度学习的方法来进行语音去混响如利用深度神经网络来进行语音的去混响。目前神经网络方法虽然能够建立一个良好的非线性映射,但是仅仅使用全连接的神经网络,效果很难达到我们所预期的效果,构建一个好的网络结构对于语音识别将产生一个好的识别性能的提升,对复杂场景下的语音识别有着现实意义。本发明也将当前的方法在相同条件下进行了对比,结果表明我们所使用的神经网络框架大大的优于现在的主流方法。
发明内容
针对上述存在的问题,本发明提供了一种利用CNN的U-NET结构进行远场语音去混响的方法。
本发明的技术方案是:一种利用CNN的U-NET结构进行远场语音去混响的方法,包括以下步骤:
步骤一:数据的特征提取;
预加重:将数据集中任意一组语音信号s(n)通过高通滤波器,
加窗:取25ms为一帧,并使用汉宁窗;
快速傅里叶变换(FFT):对每一帧进行FFT变换,从时域数据转变为频域数据,并计算谱线能量;
Mel滤波:把求出的每帧谱线能量通过Mel滤波器,并计算在Mel滤波器中的能量;
计算DCT倒谱:把Mel滤波器中的能量取对数后计算DCT,就可以得到Mel频率倒谱系数MFCC;
步骤二:前端特征增强的神经网络框架的设计
使用步骤二中得到的MFCC特征作为输入,卷积层的宽设置为MFCC的维度,卷积层的高设置为11,然后设置卷积层的filter大小分别为[12,12,24,24,32,32,24,24,12,12],相当于一个encoder-decoder的网络结构,同时使用Resnet的结构连接了encoder和decoder,即将第二和第四个卷积层分别和第七个和第九个的输出相加,将输入的11帧的特征直接整合成一帧来和U-NET网络的输出进行拼接,添加两个全连接神经网络,通过输出层输出干净语音的MFCC特征。
步骤三:语音识别模型的训练及其解码
使用干净语音的MFCC特征进行归一化,然后求其一阶差分和二阶差分,将进行差分后的特征来进行单因素以及三音素训练,使用数据集中多场景下进行语音去混响之后MFCC特征进行声学模型的训练,将去混响之后的测试集数据进行解码。
进一步地,所述数据集为2014年的REVERB Challenge数据集。
进一步地,所述步骤一中高通滤波器的函数关系可以表示为:H(z)=1-az-1([a∈[0.9,1]),a值取0.95。
进一步地,所述步骤二中使用的损失函数为MSE,损失函数如下所示:
其中Y表示神经网络的MFCC特征,XC表示干净语音的MFCC特征。
进一步地,所述步骤二中输出干净语音的MFCC特征为一帧的特征。
进一步地,所述步骤二中作为输入的MFCC特征为上下文各五帧的MFCC特征,可以更好的学习上下文的信息。
进一步地,所述步骤二中两个网络的神经元个数均为1024。
本发明的有益效果是:本发明主要针对对于从干净语音模拟出来的含混响的语音,来通过神经网络处理真实世界的情况下含混响的,以此来提高真实情况下的语音识别准确率的情况,重点是构建了一个encoder-decoder为基础的U-NET框架,并且改进此网络框架和DNN相结合,最终在单通道数据的数据集上实现了一个比较好的语音识别性能,将基于encoder-decoder的U-NET框架应用在远场语音识别中的特征增强过程中,可以更好的学习语音特征的语义信息,而且可以更好的学习语音特征在频域上的特征,结合了CNN和DNN在远场语音识别中的各自优势,CNN可以更好地进行频域的学习,DNN可以更好的处理从含混响语音到干净语音的映射函数,本发明中没有使用RNN,由于RNN在训练解码的过程速度都很慢,而CNN由于各种硬件在卷积运算上的优化做的都比较好,所以使用的网络在解码速度上有很大的优势。
附图说明
图1是本发明的***框图。
具体实施方式
为便于对本发明技术方案的理解,下面结合附图1和具体实施例对本发明做进一步的解释说明,实施例并不构成对发明保护范围的限定。
实施例
本实例以基于Reverb Challenge数据集为例来,整个***算法流程如图1所示,包括数据的特征提取、基于encoder-decoder的U-NET+DNN的网络构建、语音识别模型的训练及其解码。具体如下:
使用REVERB挑战赛官方数据集中的单通道数据集进行实验,使用了一种多环境的训练集,该训练集由干净的训练数据通过卷积干净的话语与测量的房间冲击响应所得到,其中加入一些加性噪声总的来说信噪比为20db,实验中的测试数据包括模拟数据(SimData)和真实环境下的数据(RealData),SimuData由基于WSJCAM0语料库生成的混响语音组成,这些语音采用与多条件训练集相同的人工失真方式。SimuData模拟了六种混响情况:三个不同大小的房间(小、中、大)和一个扬声器和麦克风之间的距离(near=50cm和far=200cm),RealData发音来自MC-WSJ-AV语料库,在实际情况下,由于扬声器会跟随头部的运动,声源不能被认为是完全空间固定的,因此RealData与模拟数据是两种不同状态下的数据。用于RealData录音的房间不同于用于SimuData和训练集的房间,其房间的混响时间约为0.7s,还包含一些固定的环境噪声。RealData中根据扬声器和麦克风之间的两个距离(near=100cm和far=250cm)的不同也分为两种不同的条件。但是由于在RealData和SimuData中使用的句子的文本相同。因此,对于SimuData和RealData,我们可以使用相同的语言模型以及声学模型。
使用Kaldi中的nnet2中的声学模型进行的语音识别,使用干净语音的MFCC特征进行归一化然后求其一阶差分和二阶差分,将进行差分后的特征来进行单音素以及三音素训练,用一个LDA算法和MLLR算法来进行模型的优化,然后使用Reverb Challenge数据集中多场景下训练集的MFCC特征进行声学模型的训练,最后,我们将该数据集的测试集数据进行解码,使用语言模型为tri-gram语言模型进行语音识别,在不进行去混响的情况下,该数据集的结果记录为NULL,如表1所示;
使用TensorFlow作为前端特征特强部分的工具,用上下文各五帧,总共11帧的MFCC特征作为输入,卷积层的宽设置为MFCC的维度,卷积层的高设置为11,表示的输入的11帧,然后设置卷积层的filter的大小分别为[12,12,24,24,32,32,24,24,12,12],相当于一个encoder-decoder的网络结构,与此同时我们也使用Resnet的结构连接了encoder和decoder,即将第二和第四个卷积层分别和第七个和第九个的输出相加,此网络结构可以大大的减少由于网络加深所引起的梯度弥散的现象,为了更好的保留原始输入的语音特征的一些信息,将输入的11帧的特征直接整合成一帧来和U-NET网络的输出进行拼接,这样既能保留原始的语音帧的一些特点,又能很好的学习到深层次的语义特征,后边为了更好的映射到干净语音的的MFCC特征,我们添加了两个全连接的神经网络,此全连接的神经网络的神经元的个数均设置为1024,最后就是一个输出层,输出的是我们的干净语音的MFCC特征(一帧)。最终所得出的词错率由记录为U-CNET+DNN,如表1所示;
对比主流的DNN的方法进行此任务的结果,DNN中使用了三个隐层,每个隐层的神经元的个数均设置为1024,同样采用输入上下文各五帧的方式,所得结果记录为DNN,如表1所示,单纯使用U-NET(输入的帧数等条件均和所提出的的结构的条件相同)的结果为U-NET,如表1所示,使用改进的U-NET(最后的CNN的输出和输入的11维整合的特征进行拼接然后输入到一个全连接层)的结果为U-CNET,如表1所示;
表1针对不同方法所得出的词错率结果
从表1中我们可以得出,使用本发明提供方法得到的结果相比其他方法得到的结果具有显著优势。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (6)

1.一种利用CNN的U-NET结构进行远场语音去混响的方法,其特征在于,包括以下步骤:
步骤一:数据的特征提取;
预加重:将数据集中任意一组语音信号s(n)通过高通滤波器,
加窗:取25ms为一帧,并使用汉宁窗;
快速傅里叶变换(FFT):对每一帧进行FFT变换,从时域数据转变为频域数据,并计算谱线能量;
Mel滤波:把求出的每帧谱线能量通过Mel滤波器,并计算在Mel滤波器中的能量;
计算DCT倒谱:把Mel滤波器中的能量取对数后计算DCT,就可以得到Mel频率倒谱系数MFCC;
步骤二:前端特征增强的神经网络框架的设计
使用步骤二中得到的MFCC特征作为输入,卷积层的宽设置为MFCC的维度,卷积层的高设置为11,然后设置卷积层的filter大小分别为[12,12,24,24,32,32,24,24,12,12],相当于一个encoder-decoder的网络结构,同时使用Resnet的结构连接了encoder和decoder,即将第二和第四个卷积层分别和第七个和第九个的输出相加,将输入的11帧的特征直接整合成一帧来和U-NET网络的输出进行拼接,添加两个全连接神经网络,通过输出层输出干净语音的MFCC特征。
步骤三:语音识别模型的训练及其解码
使用干净语音的MFCC特征进行归一化,然后求其一阶差分和二阶差分,将进行差分后的特征来进行单因素以及三音素训练,使用数据集中多场景下进行语音去混响之后MFCC特征进行声学模型的训练,将去混响之后的测试集数据进行解码。
2.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法,其特征在于,所述数据集为2014年的REVERB Challenge数据集。
3.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法,其特征在于,所述步骤一中高通滤波器的函数关系可以表示为:H(z)=1-az-1([a∈[0.9,1]),a值取0.95。
4.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法,其特征在于,所述步骤二中使用的损失函数为MSE,损失函数如下所示:
其中Y表示神经网络的MFCC特征,XC表示干净语音的MFCC特征。
5.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法,其特征在于,所述步骤二中输出干净语音的MFCC特征为一帧的特征。
6.根据权利要求1所述的一种利用CNN的U-NET结构进行远场语音去混响的方法,其特征在于,所述步骤二中两个网络的神经元个数均为1024。
CN201910200023.XA 2019-03-15 2019-03-15 一种利用cnn的u-net结构进行远场语音去混响的方法 Active CN109949821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910200023.XA CN109949821B (zh) 2019-03-15 2019-03-15 一种利用cnn的u-net结构进行远场语音去混响的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910200023.XA CN109949821B (zh) 2019-03-15 2019-03-15 一种利用cnn的u-net结构进行远场语音去混响的方法

Publications (2)

Publication Number Publication Date
CN109949821A true CN109949821A (zh) 2019-06-28
CN109949821B CN109949821B (zh) 2020-12-08

Family

ID=67008408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910200023.XA Active CN109949821B (zh) 2019-03-15 2019-03-15 一种利用cnn的u-net结构进行远场语音去混响的方法

Country Status (1)

Country Link
CN (1) CN109949821B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544485A (zh) * 2019-09-27 2019-12-06 慧言科技(天津)有限公司 一种利用cnn的se-ed网络进行远场语音去混响的方法
CN111899738A (zh) * 2020-07-29 2020-11-06 北京嘀嘀无限科技发展有限公司 对话生成方法、装置及存储介质
CN112017682A (zh) * 2020-09-18 2020-12-01 中科极限元(杭州)智能科技股份有限公司 一种单通道语音同时降噪和去混响***
CN112542177A (zh) * 2020-11-04 2021-03-23 北京百度网讯科技有限公司 信号增强方法、装置及存储介质
CN113129919A (zh) * 2021-04-17 2021-07-16 上海麦图信息科技有限公司 一种基于深度学习的空中管制语音降噪方法
CN113421581A (zh) * 2021-08-24 2021-09-21 广州易方信息科技股份有限公司 一种跳跃网络的实时语音降噪方法
CN115331691A (zh) * 2022-10-13 2022-11-11 广州成至智能机器科技有限公司 无人机拾音方法、装置、无人机及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390403A (zh) * 2013-06-19 2013-11-13 北京百度网讯科技有限公司 Mfcc特征的提取方法及装置
US20150341722A1 (en) * 2014-05-23 2015-11-26 Apple Inc. Methods and devices for reverberation suppression
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN108320749A (zh) * 2018-03-14 2018-07-24 百度在线网络技术(北京)有限公司 远场语音控制设备和远场语音控制***
US20180220007A1 (en) * 2017-02-01 2018-08-02 Cisco Technology, Inc. Full-duplex adaptive echo cancellation in a conference endpoint
CN109243429A (zh) * 2018-11-21 2019-01-18 苏州奇梦者网络科技有限公司 一种语音建模方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390403A (zh) * 2013-06-19 2013-11-13 北京百度网讯科技有限公司 Mfcc特征的提取方法及装置
US20150341722A1 (en) * 2014-05-23 2015-11-26 Apple Inc. Methods and devices for reverberation suppression
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
US20180220007A1 (en) * 2017-02-01 2018-08-02 Cisco Technology, Inc. Full-duplex adaptive echo cancellation in a conference endpoint
CN108320749A (zh) * 2018-03-14 2018-07-24 百度在线网络技术(北京)有限公司 远场语音控制设备和远场语音控制***
CN109243429A (zh) * 2018-11-21 2019-01-18 苏州奇梦者网络科技有限公司 一种语音建模方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ORI ERNST ET AL.: "Speech Dereverberation Using Fully Convolutional Networks", 《EUSIPCO》 *
QIAO ZHANG ET AL.: "Image Segmentation with Pyramid Dilated Convolution Based on ResNet and U-Net", 《NEURAL INFORMATION PROCESSING》 *
肖朝霞等: "图像语义分割问题研究综述", 《软件导刊》 *
韩志艳著: "《语音识别及语音可视化技术研究》", 31 January 2017 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544485A (zh) * 2019-09-27 2019-12-06 慧言科技(天津)有限公司 一种利用cnn的se-ed网络进行远场语音去混响的方法
CN111899738A (zh) * 2020-07-29 2020-11-06 北京嘀嘀无限科技发展有限公司 对话生成方法、装置及存储介质
CN112017682A (zh) * 2020-09-18 2020-12-01 中科极限元(杭州)智能科技股份有限公司 一种单通道语音同时降噪和去混响***
CN112542177A (zh) * 2020-11-04 2021-03-23 北京百度网讯科技有限公司 信号增强方法、装置及存储介质
CN112542177B (zh) * 2020-11-04 2023-07-21 北京百度网讯科技有限公司 信号增强方法、装置及存储介质
CN113129919A (zh) * 2021-04-17 2021-07-16 上海麦图信息科技有限公司 一种基于深度学习的空中管制语音降噪方法
CN113421581A (zh) * 2021-08-24 2021-09-21 广州易方信息科技股份有限公司 一种跳跃网络的实时语音降噪方法
CN113421581B (zh) * 2021-08-24 2021-11-02 广州易方信息科技股份有限公司 一种跳跃网络的实时语音降噪方法
CN115331691A (zh) * 2022-10-13 2022-11-11 广州成至智能机器科技有限公司 无人机拾音方法、装置、无人机及计算机可读存储介质

Also Published As

Publication number Publication date
CN109949821B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN109949821A (zh) 一种利用cnn的u-net结构进行远场语音去混响的方法
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
US20200402497A1 (en) Systems and Methods for Speech Generation
Sun et al. Training augmentation with adversarial examples for robust speech recognition
CN109887489B (zh) 基于生成对抗网络的深度特征的语音去混响方法
Chai et al. A cross-entropy-guided measure (CEGM) for assessing speech recognition performance and optimizing DNN-based speech enhancement
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN108564940A (zh) 语音识别方法、服务器及计算机可读存储介质
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN107077842A (zh) 用于语音转录的***和方法
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及***
CN115762536A (zh) 一种基于桥接Transformer的小样本优化鸟声识别方法
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN105895082A (zh) 声学模型训练方法、语音识别方法及装置
Liu et al. Speech enhancement method based on LSTM neural network for speech recognition
CN113658583B (zh) 一种基于生成对抗网络的耳语音转换方法、***及其装置
CN110728991B (zh) 一种改进的录音设备识别算法
Liu et al. Non-parallel voice conversion with autoregressive conversion model and duration adjustment
Tu et al. A multi-target SNR-progressive learning approach to regression based speech enhancement
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和***
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
CN106875944A (zh) 一种语音控制家庭智能终端的***
CN112885326A (zh) 个性化语音合成模型创建、语音合成和测试方法及装置
CN110544485A (zh) 一种利用cnn的se-ed网络进行远场语音去混响的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant