CN108133702A - 一种基于mee优化准则的深度神经网络语音增强模型 - Google Patents
一种基于mee优化准则的深度神经网络语音增强模型 Download PDFInfo
- Publication number
- CN108133702A CN108133702A CN201711384226.6A CN201711384226A CN108133702A CN 108133702 A CN108133702 A CN 108133702A CN 201711384226 A CN201711384226 A CN 201711384226A CN 108133702 A CN108133702 A CN 108133702A
- Authority
- CN
- China
- Prior art keywords
- layer
- mee
- dnn
- neural network
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 19
- 239000004568 cement Substances 0.000 title claims abstract description 12
- 230000002708 enhancing effect Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 210000002569 neuron Anatomy 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000012076 audiometry Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000001965 increasing effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于MEE优化准则的深度神经网络语音增强模型,属于人工智能语音增强领域。该模型包括输入层、隐层和输出层,整个训练模型分为训练阶段和增强阶段。所述训练阶段,将纯净语音和多种类噪声两两相加构建不同信噪比下的混合带噪语音;对混合语音进行特征提取,输入到DNN网络进行训练。所述增强阶段,对待测混合语音进行相同特征提取,输入到已经训练好的DNN网络进行解码,网络输出对纯净语音的特征的估计,再进行波形重构,得到降噪后的语音文件。本发明对实际问题中含非平稳噪声的带噪语音降噪具有较好的普适性。
Description
技术领域
本发明属于本发明属于人工智能语音增强领域,主要涉及深度神经网络在语音声学模型中的应用。
背景技术
近年来,随着深度神经网络(Deep Neural Network,DNN)在语音识别领域的成功应用,语音增强任务也有了长足的发展。DNN的深层非线性结构可以被设计成一个精细的降噪滤波器,同时基于大数据训练,DNN能充分学习带噪语音和纯净语音之间的复杂的非线性关系。
在基于深度神经网络的语音增强模型中,需要一个代价函数来更新网络权值。在语音增强的回归任务中,一般用最小均方误差MSE准则作为优化准则,其优点是计算简单,但只适用于高斯噪声这样的平稳噪声。因为MSE在测量相似度的时候考虑了全局性,也就是说,待测空间的所有样本点的作用都比较大,尤其针对远离y=x这条线的样本点,MSE将放大这些远离误差分布均值样本点的作用。所以,当误差属于高斯分布时,MSE性能最优。但是在实际问题中,带噪语音中存在许多非平稳噪声,即噪声不属于高斯分布,因此MSE准则在实际问题中的效果通常不是很理想。
相对于MSE的全局性测量,最小误差熵MEE作为一种局部性的相似度测量方法,其相似度主要受核宽度的影响;当选择一个合适的核宽度时,MEE准则的性能曲面不只是固定的曲率,并且在大部分的空间内比MSE性能曲面要平滑。MEE不仅鲁棒性好,而且更适合实际问题中的非高斯噪声。针对MSE准则对非平稳噪声效果不理想的缺陷,因此需要一种基于深度神经网络的语音增强模型,采用MEE优化准则代替传统MSE准则。
发明内容
有鉴于此,本发明的目的在于提供一种基于MEE优化准则的深度神经网络语音增强模型,对实际问题中含非平稳噪声的带噪语音降噪具有较好的普适性。
为达到上述目的,本发明提供如下技术方案:
一种基于MEE优化准则的深度神经网络语音增强模型,如图2所示,包括输入层、隐层和输出层;所述隐层层数为3,节点数为1024。
如图1所示,该模型分为训练阶段和增强阶段。
所述训练阶段:将纯净语音和多种类噪声两两相加构建不同信噪比下的混合带噪语音,对混合语音进行特征提取,输入到深度神经网络(Deep Neural Network,,DNN)进行训练。
所述增强阶段:对待测混合语音进行相同特征提取,输入到已经训练好的DNN进行解码,DNN输出对纯净语音的特征的估计,再进行波形重构,得到降噪后的语音文件。
进一步,在DNN训练阶段,用误差逆传播(error BackPropagation,BP)算法更新DNN权值;输入通过各个隐层获得的激励响应,隐层的上一层的输出是下一层的输入,直到最后一层获得预测值;预测值和参考信号的差异需要反向传播的错误,根据这个错误来调节DNN的各个权值和偏置。
进一步,定义最小误差熵MEE代价函数的最后实际表达为:
其中,n表示隐层的节点数;e(i)和e(u)分别表示第i个神经元和第u个神经元的错误;错误e=target-output,表示经DNN训练后输出的对纯净语音对数功率谱的估计值与参考值的差异;h表示核宽度,即平滑参数,在本发明中设置为0.01;高斯核函数K表示为:
为了使用BP算法,需要得到梯度Δω的解析表达式;因为(1)式函数是单调递增的,最小化它的操作数,操作数可以表示为:
其中,yk=output;
当i=k时,的导数为:
当u=k时,的导数为:
综合(3)、(4)、(5)式可得:
化简整理(6)式可得:
其中,Wkj表示第j层第k个神经元的权值,net(j)表示为第j层第k个神经元的输入,f(·)是神经元的激活函数,f′(·)代表f(·)的导数;
综上,给定学习率η,用MEE作为代价函数的BP算法中的权值,更新公式(7)可得:
本发明的有益效果在于:本发明提出在基于深度神经网络的语音增强模型中,采用最小误差熵(MEE)优化准则代替传统最小均方误差准则,有效解决了实际问题中含非平稳噪声的带噪语音降噪的问题。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为深度神经网络语音增强***框图;
图2为BP网络框图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
从TIMIT数据集中选择4620条纯净语音与白噪声,粉红噪声,沃尔沃噪声和汽车噪声相加混合成-5db,5db信噪比下的带噪语音作为训练集。另选200条纯净语音在同样各个信噪比下混合babble噪声和工厂噪声作为测试集。
训练阶段,对训练集语音提特征,特征选择对数功率谱,分别输入到MSE-DNN网络和本发明提出的MEE-DNN网络进行训练。
网络训练完成后,对测试集语音同样提取对数功率谱,再次分别输入到两种不同的DNN网络中,得到对纯净语音对数功率谱的估计,用重叠相加法进行波形重构,得到增强后可测听的语音文件。
MSE-DNN网络增强后语音质量与MEE-DNN网络增强后语音质量对比如表1所示。其中,N1表示Babble噪声,N2表示Factory噪声。
表1
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (3)
1.一种基于MEE优化准则的深度神经网络语音增强模型,其特征在于:该模型包括输入层、隐层和输出层;所述隐层层数为3,节点数为1024;
该模型分为训练阶段和增强阶段;
所述训练阶段:将纯净语音和多种类噪声两两相加构建不同信噪比下的混合带噪语音,对混合语音进行特征提取,输入到深度神经网络(Deep Neural Network,,DNN)进行训练;
所述增强阶段:对待测混合语音进行相同特征提取,输入到已经训练好的DNN进行解码,DNN输出对纯净语音的特征的估计,再进行波形重构,得到降噪后的语音文件。
2.如权利要求1所述的一种基于MEE优化准则的深度神经网络语音增强模型,其特征在于:在DNN训练阶段,用误差逆传播(error BackPropagation,BP)算法更新DNN权值;输入通过各个隐层获得的激励响应,隐层中上一层的输出是下一层的输入,直到最后一层获得预测值;预测值和参考信号的差异需要反向传播的错误,根据这个错误来调节DNN的各个权值和偏置。
3.如权利要求1所述的一种基于MEE优化准则的深度神经网络语音增强模型,其特征在于:定义最小误差熵MEE代价函数的最后实际表达为:
其中,n表示隐层的节点数;e(i)和e(u)分别表示第i个神经元和第u个神经元的错误;错误e=target-output,表示经DNN训练后输出的对纯净语音对数功率谱的估计值与参考值的差异;h表示核宽度,即平滑参数;高斯核函数K表示为:
为了使用BP算法,需要得到梯度Δω的解析表达式;因为(1)式函数是单调递增的,最小化它的操作数,操作数表示为:
其中,yk=output;
当i=k时,的导数为:
当u=k时,的导数为:
综合(3)、(4)、(5)式可得:
化简整理(6)式可得:
其中,Wkj表示第j层第k个神经元的权值,net(j)表示为第j层第k个神经元的输入,f(·)是神经元的激活函数,f′(·)代表f(·)的导数;
综上,给定学习率η,用MEE作为代价函数的BP算法中的权值,更新(7)式可得:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711384226.6A CN108133702A (zh) | 2017-12-20 | 2017-12-20 | 一种基于mee优化准则的深度神经网络语音增强模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711384226.6A CN108133702A (zh) | 2017-12-20 | 2017-12-20 | 一种基于mee优化准则的深度神经网络语音增强模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108133702A true CN108133702A (zh) | 2018-06-08 |
Family
ID=62390713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711384226.6A Pending CN108133702A (zh) | 2017-12-20 | 2017-12-20 | 一种基于mee优化准则的深度神经网络语音增强模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108133702A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256144A (zh) * | 2018-11-20 | 2019-01-22 | 中国科学技术大学 | 基于集成学习与噪声感知训练的语音增强方法 |
CN109326299A (zh) * | 2018-11-14 | 2019-02-12 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN110111803A (zh) * | 2019-05-09 | 2019-08-09 | 南京工程学院 | 基于自注意多核最大均值差异的迁移学习语音增强方法 |
CN110211602A (zh) * | 2019-05-17 | 2019-09-06 | 北京华控创为南京信息技术有限公司 | 智能语音增强通信方法及装置 |
WO2020010566A1 (en) * | 2018-07-12 | 2020-01-16 | Intel Corporation | Devices and methods for link adaptation |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及*** |
CN112086100A (zh) * | 2020-08-17 | 2020-12-15 | 杭州电子科技大学 | 基于量化误差熵的多层随机神经网络的城市噪音识别方法 |
WO2021027132A1 (zh) * | 2019-08-12 | 2021-02-18 | 平安科技(深圳)有限公司 | 一种音频处理方法、装置及计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104883330A (zh) * | 2014-02-27 | 2015-09-02 | 清华大学 | 一种盲均衡方法和一种盲均衡*** |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及*** |
-
2017
- 2017-12-20 CN CN201711384226.6A patent/CN108133702A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104883330A (zh) * | 2014-02-27 | 2015-09-02 | 清华大学 | 一种盲均衡方法和一种盲均衡*** |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及*** |
Non-Patent Citations (2)
Title |
---|
JORGE M. SANTOS等: ""Robust Sound Event Classification Using Deep Neural Networks"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
YONG XU等: ""An Experimental Study on Speech Enhancement Based on Deep Neural Networks"", 《IEEE SIGNAL PROCESSING LETTERS》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020010566A1 (en) * | 2018-07-12 | 2020-01-16 | Intel Corporation | Devices and methods for link adaptation |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
CN109326299A (zh) * | 2018-11-14 | 2019-02-12 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
CN109326299B (zh) * | 2018-11-14 | 2023-04-25 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
CN109256144A (zh) * | 2018-11-20 | 2019-01-22 | 中国科学技术大学 | 基于集成学习与噪声感知训练的语音增强方法 |
CN109256144B (zh) * | 2018-11-20 | 2022-09-06 | 中国科学技术大学 | 基于集成学习与噪声感知训练的语音增强方法 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN110111803A (zh) * | 2019-05-09 | 2019-08-09 | 南京工程学院 | 基于自注意多核最大均值差异的迁移学习语音增强方法 |
CN110211602B (zh) * | 2019-05-17 | 2021-09-03 | 北京华控创为南京信息技术有限公司 | 智能语音增强通信方法及装置 |
CN110211602A (zh) * | 2019-05-17 | 2019-09-06 | 北京华控创为南京信息技术有限公司 | 智能语音增强通信方法及装置 |
WO2021027132A1 (zh) * | 2019-08-12 | 2021-02-18 | 平安科技(深圳)有限公司 | 一种音频处理方法、装置及计算机存储介质 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及*** |
CN112086100A (zh) * | 2020-08-17 | 2020-12-15 | 杭州电子科技大学 | 基于量化误差熵的多层随机神经网络的城市噪音识别方法 |
CN112086100B (zh) * | 2020-08-17 | 2022-12-02 | 杭州电子科技大学 | 基于量化误差熵的多层随机神经网络的城市噪音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133702A (zh) | 一种基于mee优化准则的深度神经网络语音增强模型 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN109524020B (zh) | 一种语音增强处理方法 | |
US8977551B2 (en) | Parametric speech synthesis method and system | |
CN111429947B (zh) | 一种基于多级残差卷积神经网络的语音情感识别方法 | |
CN108899051A (zh) | 一种基于联合特征表示的语音情感识别模型及识别方法 | |
CN108172238A (zh) | 一种语音识别***中基于多个卷积神经网络的语音增强算法 | |
CN104751228A (zh) | 深度神经网络的构建方法及*** | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN104751227B (zh) | 用于语音识别的深度神经网络的构建方法及*** | |
Shen et al. | Reinforcement learning based speech enhancement for robust speech recognition | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及*** | |
CN109256118B (zh) | 基于生成式听觉模型的端到端汉语方言识别***和方法 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN111261183A (zh) | 一种语音去噪的方法及装置 | |
CN107967920A (zh) | 一种改进的自编码神经网络语音增强算法 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN113823264A (zh) | 语音识别方法、装置、计算机可读存储介质及计算机设备 | |
CN114708855B (zh) | 一种基于二值残差神经网络的语音唤醒方法及*** | |
Sangeetha et al. | Emotion speech recognition based on adaptive fractional deep belief network and reinforcement learning | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
CN111583965A (zh) | 一种语音情绪识别方法、装置、设备及存储介质 | |
McAuley et al. | Subband correlation and robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180608 |
|
RJ01 | Rejection of invention patent application after publication |