CN108182938B - 一种基于dnn的蒙古语声学模型的训练方法 - Google Patents
一种基于dnn的蒙古语声学模型的训练方法 Download PDFInfo
- Publication number
- CN108182938B CN108182938B CN201711390467.1A CN201711390467A CN108182938B CN 108182938 B CN108182938 B CN 108182938B CN 201711390467 A CN201711390467 A CN 201711390467A CN 108182938 B CN108182938 B CN 108182938B
- Authority
- CN
- China
- Prior art keywords
- mongol
- dnn
- hmm
- model
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于DNN的蒙古语声学模型的训练方法。用DNN深度神经网络代替GMM高斯混合模型,实现对蒙古语声学状态的后验概率进行估算,构建DNN‑HMM声学模型,并公开了该模型的训练方法。本发明可有效降低词识别的错误率和字识别的错误率,提高模型使用性能。
Description
技术领域
本发明属于蒙古语语音识别领域,具体涉及一种基于DNN的蒙古语声学模型的训练方法。
背景技术
典型的大词汇量连续语音识别***(Large Vocabulary Continuous SpeechRecognition,LVCSR)由特征提取、声学模型、语言模型和解码器等组成.声学模型是语音识别***的核心组成部分,基于GMM模型(混合高斯模型)和HMM模型(隐马尔可夫模型)构建的GMM-HMM声学模型一度是大词汇量连续语音识别***中应用最广的声学模型。在
GMM-HMM模型中,GMM模型对语音特征向量进行概率建模,然后通过EM算法(最大期望算法)生成语音观察特征的最大化概率,当混合高斯分布数目足够多时,GMM模型可以充分拟合声学特征的概率分布,HMM模型根据GMM模型拟合的观察状态生成语音的时序状态。当采用GMM模型混合高斯模型的概率来描述语音数据分布时,GMM模型本质上属于浅层模型,并在拟合声学特征分布时对特征之间进行了独立性的假设,因此无法充分描述声学特征的状态空间分布;同时,GMM建模的特征维数一般是几十维,不能充分描述声学特征之间的相关性,模型表达能力有限。
发明内容
20世纪80年代利用神经网络和HMM模型构建声学模型的研究开始出现,但是,由于当时计算机计算能力不足且缺乏足够的训练数据,模型的效果不及GMM-HMM。2010年微软亚洲研究院的邓力与Hinton小组针对大规模连续语音识别任务提出了CD-DBN(动态贝叶斯网络)-HMM的混合声学模型框架,并进行了相关实验。实验结果表明,相比GMM-HMM声学模型,采用CD-DBN-HMM声学模型使语音识别***识别正确率提高30%左右,CD-DBN-HMM混合声学模型框架的提出彻底革新了语音识别原有的声学模型框架。与传统的高斯混合模型相比,深度神经网络属于深度模型,能够更好地表示复杂非线性函数,更能捕捉语音特征向量之间的相关性,易于取得更好的建模效果。基于上述成果本发明提出了一种基于DNN模型的蒙古语声学模型的构造和使用方法,以更好的完成蒙古语声学模型建模任务。
本发明的技术方案为:
1.模型构建:
用DNN深度神经网络代替GMM高斯混合模型,实现对蒙古语声学状态的后验概率进行估算。在给定蒙古语声学特征序列的情况下,首先由DNN模型用来估算当前特征属于HMM状态的概率,然后用HMM模型描述蒙古语语音信号的动态变化,捕捉蒙古语语音信息的时序状态信息。
蒙古语声学模型中DNN网络的训练分为预训练和调优两个阶段。
在DNN网络的预训练中,采用了逐层无监督训练算法,属于生成式训练算法。逐层无监督预训练算法是对DNN网络的每一层进行训练,而且每次只训练其中的一层,其他层的参数保持原来的初始化的参数不变,训练时,对每一层的输入和输出的误差尽量的减小,以保证每一层的参数对于该层来说都是最优的。接下来,将训练好的每一层的输出数据作为下一层的输入数据,则下一层的输入数据将比直接训练时经过多层神经网络输入到下一层的数据的误差小很多,逐层无监督预训练算法能够保证每一层之间的输入输出数据的误差都是相对较小的。
通过逐层无监督预训练算法可以得到较好的神经网络初始化参数,使用蒙古语标注数据(即特征状态)通过BP算法(误差反向传播算法)进行有监督的调优,最终得到可用于声学状态分类的DNN深度神经网络模型。
2.模型使用:
通过对DNN网络的预训练和调优后,可以利用DNN-HMM声学模型对蒙古语语音数据进行识别,具体的过程如下:
步骤一:根据输入的蒙古语声学特征向量,计算DNN深度神经网络前L层的输出。
步骤二:利用L层的softmax分类层计算当前特征关于全部声学状态的后验概率。即当前特征属于各蒙古语声学状态的概率。
步骤三:根据贝叶斯公式,将各个状态的后验概率除以其自身的先验概率,得到各状态规整的似然值。
步骤四:利用维特比解码算法进行解码得到最优路径。
其中,隐含状态的先验概率,通过计算各状态对应帧总数与全部声学特征帧数的比值即可得到。
3.模型的训练过程
DNN深度神经网络调优阶段采用的标注数据是由GMM-HMM声学模型强制对齐得到的,并采用随机梯度下降算法完成模型参数的更新,因此,在训练DNN-HMM前首先需要训练一个足够好的GMM-HMM蒙古语声学模型,然后由GMM-HMM蒙古语声学模型通过维特比算法生成DNN-HMM蒙古语声学模型训练所需要的标注数据。
由于DNN模型在调优时需要蒙古语语音帧对齐的蒙古语标注数据,而且标注数据质量往往会影响到DNN模型的性能。因此,在实际应用时,我们利用已训练的GMM-HMM蒙古语声学模型实现语音特征到状态的强制对齐。所以,DNN-HMM声学模型的训练过程为:首先训练GMM-HMM蒙古语声学模型,得到对齐的蒙古语语音特征数据;然后在对齐语音特征数据的基础上对深度神经网络(DNN)进行训练和调优;最后根据得到的蒙古语语音观察状态再对隐马尔科夫模型(HMM)进行训练。
附图说明
图1为DNN-HMM蒙古语声学模型图。
图2为DNN网络预训练过程图。
图3为相对于GMM-HMM声学模型的实验对比结果图。
图4为dropout技术和隐含层层数对DNN-HMM模型过拟合距离的影响图。
实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。1.模型构建:
用DNN深度神经网络代替GMM高斯混合模型,实现对蒙古语声学状态的后验概率进行估算。在给定蒙古语声学特征序列的情况下,首先由DNN模型用来估算当前特征属于HMM状态的概率,然后用HMM模型描述蒙古语语音信号的动态变化,捕捉蒙古语语音信息的时序状态信息。
DNN-HMM蒙古语声学模型结构具体如附图1所示。在DNN-HMM蒙古语声学模型中,DNN网络通过不断地自下而上堆叠隐含层实现的。其中S表示HMM模型中的隐含状态,A表示状态转移概率矩阵,L表示DNN深度神经网络的层数(其中隐含层为L-1层,L0层为输入层,LL层为输出层,DNN网络共包含L+1层),W表示层之间的连接矩阵。DNN-HMM蒙古语声学模型在进行蒙古语语音识别过程建模前,需要对DNN神经网络进行训练。在完成DNN神经网络的训练后,对蒙古语声学模型的建模过程与GMM-HMM模型一致。
蒙古语声学模型中DNN网络的训练分为预训练和调优两个阶段。
在DNN网络的预训练(如附图2所示)中,采用了逐层无监督训练算法,属于生成式训练算法。逐层无监督预训练算法是对DNN网络的每一层进行训练,而且每次只训练其中的一层,其他层的参数保持原来的初始化的参数不变,训练时,对每一层的输入和输出的误差尽量的减小,以保证每一层的参数对于该层来说都是最优的。接下来,将训练好的每一层的输出数据作为下一层的输入数据,则下一层的输入数据将比直接训练时经过多层神经网络输入到下一层的数据的误差小很多,逐层无监督预训练算法能够保证每一层之间的输入输出数据的误差都是相对较小的。预训练算法见算法1。
通过逐层无监督预训练算法可以得到较好的神经网络初始化参数,使用蒙古语标注数据(即特征状态)通过BP算法(误差反向传播算法)进行有监督的调优,最终得到可用于声学状态分类的DNN深度神经网络模型。有监督的调优算法采用随机梯度下降算法进行实现,具体见算法2。
2.模型使用:
步骤一:根据输入的蒙古语声学特征向量,计算DNN深度神经网络前L层的输出。即:
vα=f(zα)=f(Wαvα-1+bα),0≤α<L (1)
其中,zα表示激励向量,zα=Wαvα-1+bα且vα表示激活向量,Wα表示权重矩阵,bα表示偏执向量,Nα表示第α层的神经节点个数且Nα∈R。V0表示网络的输入特征,在DNN-HMM声学模型中,输入特征即为声学特征向量。其中N0=D表示输入声学特征向量的维度,表示激活函数对激励向量的计算过程,f(·)表示激活函数。
步骤二:利用L层的softmax分类层计算当前特征关于全部声学状态的后验概率。即当前特征属于各蒙古语声学状态的概率,即当前特征属于各蒙古语声学状态的概率。
vi=Pdnn(i|O)=softmax(i) (2)
在公式(2)中,i∈{1,2,…,C},其中C表示声学模型的隐含状态个数,xi表示softmax层第i个神经单元的输入,vi表示softmax分类层第i个神经单元的输出,即输入声学特征向量O关于声学模型第i个隐含状态的后验概率。
步骤三:根据贝叶斯公式,将各个状态的后验概率除以其自身的先验概率,得到各状态规整的似然值。
步骤四:利用维特比解码算法进行解码得到最优路径。
其中,隐含状态的先验概率,通过计算各状态对应帧总数与全部声学特征帧数的比值即可得到。
3.模型训练过程:
步骤1:进行GMM-HMM蒙古语声学模型训练,得到一个最优的GMM-HMM蒙古语语音识别***,用gmm-hmm表示。
步骤2:利用维特比解码算法解析gmm-hmm,对gmm-hmm蒙古语声学模型的模型中的每一个senone进行标号,得到senone_id。
步骤3:利用gmm-hmm蒙古语声学模型,将声学状态tri-phone映射到相应的senone_id。
步骤4:利用gmm-hmm蒙古语声学模型初始化DNN-HMM蒙古语声学模型,主要是HMM隐马尔科夫模型参数部分,最终得到dnn-hmm1模型。
步骤5:利用蒙古语声学特征文件预训练DNN深度神经网络,得到ptdnn。
步骤6:使用gmm-hmm蒙古语声学模型,将蒙古语声学特征数据进行状态级别的强制对齐,对齐结果为align-raw。
步骤7:将align-raw的物理状态转换成senone_id,得到帧级别对齐的训练数据align-frame。
步骤8:利用对齐数据align-data对ptdnn深度神经网络进行有监督地微调,得到网络模型dnn。
步骤9:根据最大似然算法,利用dnn重新估计dnn-hmm1中HMM模型的转移概率得到的网络模型用dnn-hmm2表示。
步骤10:如果dnn和dnn-hmm2上测试集识别准确率没有提高,训练结束。否则,使用dnn-hmm2对训练数据再次进行状态级别对齐,然后执行步骤7。
在训练过程中,首先训练一个最优的GMM-HMM蒙古语语音识别数据准备***(步骤1),目的是为DNN的监督调优服务。在训练GMM-HMM蒙古语声学模型时,采用期望最大化算法进行无监督训练,避免了对标注数据的要求;然后利用蒙古语声学特征对深度神经网络进行预训练(步骤5);在深度神经网络训练的第二阶段(即有监督调优阶段),利用了已训练的GMM-HMM蒙古语声学模型进行语音特征到状态的强制对齐(步骤6),得到标注数据;最后利用标注数据对DNN深度神经网络进行有监督的调优(步骤8)。DNN深度神经网络训练完成以后,根据DNN-HMM在测试集上的识别结果决定其下一步流程(步骤10)。
4.实验及结果:
4.1为验证提出的DNN-HMM蒙古语声学模型的有效性,制定如下实验:
(1)提取MFCC声学特征,展开GMM-HMM、DNN-HMM蒙古语声学模型建模的实验研究。观察不同声学建模单元对声学模型的性能影响、以及对比不同类型声学模型对语音识别***的影响。
(2)通过构建不同层数的深度网络结构的DNN-HMM三音子蒙古语声学模型,开展层数对蒙古语声学模型、以及对过拟合现象影响的实验研究。
4.2实验参数:
蒙古语语音识别的语料库由310句蒙古语教学语音组成,共计2291个蒙古语词汇,命名为IMUT310语料库。语料库共由三部分组成:音频文件、发音标注以及相应的蒙文文本。实验中,将IMUT310语料库划分成训练集和测试集两部分,其中训练集为287句,测试集为23句。实验在Kaldi平台上完成。Kaldi的具体实验环境配置如表1所示。
表1实验环境
实验过程中,蒙古语声学特征采用MFCC声学特征表示,共有39维数据,其中前13维特征由12个倒谱特征和1个能量系数组成,后面的两个13维特征是对前面13维特征的一阶差分和二阶差分。在提取蒙古语MFFC特征时,帧窗口长度为25ms,帧移10ms。对训练集和测试集分别进行特征提取,全部语音数据共生成119960个MFCC特征,其中训练数据生成的特征为112535个,测试数据生成的特征为7425个。GMM-HMM声学模型训练时,蒙古语语音MFCC特征采用39维数据进行实验。单音子DNN-HMM实验时,蒙古语MFCC语音特征为13维(不包括一、二阶差分特征)。三音子DNN-HMM实验时,蒙古语MFCC的特征为39维
DNN网络训练时,特征提取采用上下文结合的办法,即在当前帧前后各取5帧来表示当前帧的上下文环境,因此,在实验过程中,单音子DNN网络的输入节点数为143个(13*(5+1+5)),三音子DNN网络的输入节点数为429个(39*(5+1+5))。DNN网络的输出层节点为可观察蒙古语语音音素个数,根据语料库标注的标准,输出节点为27个;DNN网络的隐含层节点数设定为1024,调优训练次数设定为60,初始学习率设定为0.015,最终学习率设定为0.002。
4.3实验及结果:
4个实验单元分别是:单音子GMM-HMM、三音子GMM-HMM、单音子DNN-HMM和三音子DNN-HMM实验。实验结果数据见表2,对比结果见附图3.
表2 GMM-HMM与DNN-HMM蒙古语声学模型实验数据
附图3(a)中可以发现,相对于单音子GMM-HMM蒙古语声学模型,单音子DNN-HMM蒙古语声学模型在训练集上的词错误率降低了8.84%,在测试集上的词识别错误率降低了11.14%;但是,对于三音子模型来说,三音子DNN-HMM蒙古语声学模型比三音子GMM-HMM蒙古语声学模型在训练集上的词错误率降低了1.33%,在测试集上的词识别错误率降低了7.5%。附图3(b)发现,单音子模型在训练集上的句识别错误率降低了32.43%,在测试集上的句识别错误率降低了17.88%;对于三音子模型来说,三音子DNN-HMM蒙古语声学模型比三音子GMM-HMM蒙古语声学模型在训练集上的句识别错误率降低了19.3%,在测试集上的句识别错误率降低了13.63%。
由以上分析可见:单音子DNN-HMM蒙古语声学模型明显优于单音子GMM-HMM蒙古语声学模型;对于三音子模型来说,三音子DNN-HMM蒙古语声学模型比三音子GMM-HMM蒙古语声学模型的识别率还要高。
DNN-HMM蒙古语声学模型可有效降低词识别的错误率和字识别的错误率,提高模型使用性能。
为了研究隐含层层数、dropout技术对DNN-HMM三音子蒙古语声学模型的影响,以未采用dropout技术的四层三音子DNN-HMM蒙古语声学模型为基准实验,分别进行了关于隐含层层数以及dropout技术的对比实验,在实验结果数据见表3。
表3三音子DNN-HMM声学模型上dropout实验
为了表示过拟合现象的程度,我们定义了一个模型的过拟合距离,在语音识别中,过拟合往往是通过训练集和测试集上的识别率来进行判断的,当数据在训练集上的识别率很高,而在测试集上的识别率很低时,那么,就表示该模型有着严重的过拟合现象,我们用模型在测试集上的评价指标和模型在训练集上的评价指标的差值的绝对值来表示过拟合现象的程度,所以,将它的计算公式定义为:
模型的过拟合距离=|模型在测试集上的评价指标-模型在测试集上的评价指标|
从附图4深色部分中可以发现,在未采用dropout技术训练得到的DNN-HMM蒙古语声学模型中,当隐含层网络层数由4层增加至7层时,对词识别的过拟合距离从21.17%增长到了54.81%;对句识别的过拟合距离从35.32%增长到了80.72%。由此可以看出,随着隐含层网络层数的增加,模型的过拟合距离越来越大,过拟合距离的变大说明DNN网络构建的蒙古语声学模型已经严重过拟合,那么,DNN-HMM的表现就会越来越差。
在附图4中,通过深浅两种颜色的对比,我们可以看出,采用dropout技术后,当隐含层网络层数由4层增加至7层时,对词识别的过拟合距离分别是21.43%、21.91%、24.07%和25.48%。而未采用dropout技术,对词识别的过拟合距离分别是21.17%、21.91%、42.38%、54.81%。由此可知,采用dropout技术后的过拟合距离要比未采用dropout技术后的过拟合距离要小,这一点,在对句识别的过拟合距离上同样存在。所以,在加入了dropout技术后,有效的缓解了因隐含层数增加而导致的过拟合现象,从而提高了模型的识别性能。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (2)
1.一种基于DNN的蒙古语声学模型的训练方法,其特征在于:
首先训练GMM-HMM蒙古语声学模型,得到对齐的蒙古语语音特征数据;
然后在对齐语音特征数据的基础上对深度神经网络(DNN)进行训练和调优;
最后根据得到的蒙古语语音观察状态再对隐马尔科夫模型(HMM)进行训练
所述训练方法的具体步骤为:
步骤1: 进行GMM-HMM蒙古语声学模型训练,得到一个最优的GMM-HMM蒙古语语音识别***,用gmm-hmm表示;
步骤2: 利用维特比解码算法解析gmm-hmm,对gmm-hmm蒙古语声学模型的模型中的每一个senone进行标号,得到senone_id;
步骤3: 利用gmm-hmm蒙古语声学模型,将声学状态tri-phone映射到相应的senone_id;
步骤4: 利用gmm-hmm蒙古语声学模型初始化DNN-HMM蒙古语声学模型, HMM隐马尔科夫模型参数部分,最终得到dnn-hmm1模型;
步骤5: 利用蒙古语声学特征文件预训练DNN深度神经网络,得到ptdnn;
步骤6: 使用gmm-hmm蒙古语声学模型,将蒙古语声学特征数据进行状态级别的强制对齐,对齐结果为align-raw;
步骤7: 将align-raw的物理状态转换成senone_id,得到帧级别对齐的训练数据align-frame;
步骤8: 利用对齐数据align-data对ptdnn深度神经网络进行有监督地微调,得到网络模型dnn;
步骤9: 根据最大似然算法,利用dnn重新估计dnn-hmm1中HMM模型的转移概率得到的网络模型用dnn-hmm2表示;
步骤10: 如果dnn和dnn-hmm2上测试集识别准确率没有提高,训练结束,
否则,使用dnn-hmm2对训练数据再次进行状态级别对齐,然后执行步骤7。
2.如权利要求1所述的一种基于DNN的蒙古语声学模型的训练方法,其特征在于:在DNN-HMM 蒙古语声学模型训练中加入 dropout 技术避免过拟合现象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711390467.1A CN108182938B (zh) | 2017-12-21 | 2017-12-21 | 一种基于dnn的蒙古语声学模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711390467.1A CN108182938B (zh) | 2017-12-21 | 2017-12-21 | 一种基于dnn的蒙古语声学模型的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108182938A CN108182938A (zh) | 2018-06-19 |
CN108182938B true CN108182938B (zh) | 2019-03-19 |
Family
ID=62546662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711390467.1A Active CN108182938B (zh) | 2017-12-21 | 2017-12-21 | 一种基于dnn的蒙古语声学模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108182938B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326282A (zh) * | 2018-10-10 | 2019-02-12 | 内蒙古工业大学 | 一种小规模语料dnn-hmm声学训练结构 |
CN111696522B (zh) * | 2020-05-12 | 2024-02-23 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016037311A1 (en) * | 2014-09-09 | 2016-03-17 | Microsoft Technology Licensing, Llc | Variable-component deep neural network for robust speech recognition |
CN105957518B (zh) * | 2016-06-16 | 2019-05-31 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
CN106205603B (zh) * | 2016-08-29 | 2019-06-07 | 北京语言大学 | 一种声调评估方法 |
CN106991999B (zh) * | 2017-03-29 | 2020-06-02 | 北京小米移动软件有限公司 | 语音识别方法及装置 |
CN107293288B (zh) * | 2017-06-09 | 2020-04-21 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
-
2017
- 2017-12-21 CN CN201711390467.1A patent/CN108182938B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108182938A (zh) | 2018-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
CN109326283B (zh) | 非平行文本条件下基于文本编码器的多对多语音转换方法 | |
CN104575490B (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
CN104143327B (zh) | 一种声学模型训练方法和装置 | |
Badino et al. | An auto-encoder based approach to unsupervised learning of subword units | |
CN105741832B (zh) | 一种基于深度学习的口语评测方法和*** | |
CN108109615A (zh) | 一种基于dnn的蒙古语声学模型的构造和使用方法 | |
CN109801621A (zh) | 一种基于残差门控循环单元的语音识别方法 | |
CN104538028A (zh) | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 | |
CN106340297A (zh) | 一种基于云计算与置信度计算的语音识别方法与*** | |
CN101178896A (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
KR101664815B1 (ko) | 스피치 모델 생성 방법 | |
CN108364634A (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、***、设备及介质 | |
CN108182938B (zh) | 一种基于dnn的蒙古语声学模型的训练方法 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN117859173A (zh) | 利用基于语音合成的模型适配改进语音识别 | |
Sivaram et al. | Data-driven and feedback based spectro-temporal features for speech recognition | |
Razavi et al. | Towards weakly supervised acoustic subword unit discovery and lexicon development using hidden Markov models | |
Gómez et al. | Improvements on automatic speech segmentation at the phonetic level | |
KR100776729B1 (ko) | 결정 트리 기반의 상태 군집화 방법을 사용하는 비핵심어모델링부를 포함하는 화자독립 가변어휘 핵심어 검출시스템 및 그 방법 | |
Razavi et al. | An HMM-based formalism for automatic subword unit derivation and pronunciation generation | |
Li et al. | Deep neural networks for syllable based acoustic modeling in Chinese speech recognition | |
Hu et al. | I-vector and dnn hybrid method for short utterance speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |