CN108182938B

CN108182938B - 一种基于dnn的蒙古语声学模型的训练方法

Info

Publication number: CN108182938B
Application number: CN201711390467.1A
Authority: CN
Inventors: 马志强; 杨双涛; 李图雅
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2019-03-19
Anticipated expiration: 2037-12-21
Also published as: CN108182938A

Abstract

本发明提供了一种基于DNN的蒙古语声学模型的训练方法。用DNN深度神经网络代替GMM高斯混合模型，实现对蒙古语声学状态的后验概率进行估算，构建DNN‑HMM声学模型，并公开了该模型的训练方法。本发明可有效降低词识别的错误率和字识别的错误率，提高模型使用性能。

Description

一种基于DNN的蒙古语声学模型的训练方法

技术领域

本发明属于蒙古语语音识别领域，具体涉及一种基于DNN的蒙古语声学模型的训练方法。

背景技术

典型的大词汇量连续语音识别***(Large Vocabulary Continuous SpeechRecognition，LVCSR)由特征提取、声学模型、语言模型和解码器等组成.声学模型是语音识别***的核心组成部分，基于GMM模型(混合高斯模型)和HMM模型(隐马尔可夫模型)构建的GMM-HMM声学模型一度是大词汇量连续语音识别***中应用最广的声学模型。在

GMM-HMM模型中，GMM模型对语音特征向量进行概率建模，然后通过EM算法(最大期望算法)生成语音观察特征的最大化概率，当混合高斯分布数目足够多时，GMM模型可以充分拟合声学特征的概率分布，HMM模型根据GMM模型拟合的观察状态生成语音的时序状态。当采用GMM模型混合高斯模型的概率来描述语音数据分布时，GMM模型本质上属于浅层模型，并在拟合声学特征分布时对特征之间进行了独立性的假设，因此无法充分描述声学特征的状态空间分布；同时，GMM建模的特征维数一般是几十维，不能充分描述声学特征之间的相关性，模型表达能力有限。

发明内容

20世纪80年代利用神经网络和HMM模型构建声学模型的研究开始出现，但是，由于当时计算机计算能力不足且缺乏足够的训练数据，模型的效果不及GMM-HMM。2010年微软亚洲研究院的邓力与Hinton小组针对大规模连续语音识别任务提出了CD-DBN(动态贝叶斯网络)-HMM的混合声学模型框架，并进行了相关实验。实验结果表明，相比GMM-HMM声学模型，采用CD-DBN-HMM声学模型使语音识别***识别正确率提高30％左右，CD-DBN-HMM混合声学模型框架的提出彻底革新了语音识别原有的声学模型框架。与传统的高斯混合模型相比，深度神经网络属于深度模型，能够更好地表示复杂非线性函数，更能捕捉语音特征向量之间的相关性，易于取得更好的建模效果。基于上述成果本发明提出了一种基于DNN模型的蒙古语声学模型的构造和使用方法，以更好的完成蒙古语声学模型建模任务。

本发明的技术方案为：

1.模型构建：

用DNN深度神经网络代替GMM高斯混合模型，实现对蒙古语声学状态的后验概率进行估算。在给定蒙古语声学特征序列的情况下，首先由DNN模型用来估算当前特征属于HMM状态的概率，然后用HMM模型描述蒙古语语音信号的动态变化，捕捉蒙古语语音信息的时序状态信息。

蒙古语声学模型中DNN网络的训练分为预训练和调优两个阶段。

在DNN网络的预训练中，采用了逐层无监督训练算法，属于生成式训练算法。逐层无监督预训练算法是对DNN网络的每一层进行训练，而且每次只训练其中的一层，其他层的参数保持原来的初始化的参数不变，训练时，对每一层的输入和输出的误差尽量的减小，以保证每一层的参数对于该层来说都是最优的。接下来，将训练好的每一层的输出数据作为下一层的输入数据，则下一层的输入数据将比直接训练时经过多层神经网络输入到下一层的数据的误差小很多，逐层无监督预训练算法能够保证每一层之间的输入输出数据的误差都是相对较小的。

通过逐层无监督预训练算法可以得到较好的神经网络初始化参数，使用蒙古语标注数据(即特征状态)通过BP算法(误差反向传播算法)进行有监督的调优，最终得到可用于声学状态分类的DNN深度神经网络模型。

2.模型使用：

通过对DNN网络的预训练和调优后，可以利用DNN-HMM声学模型对蒙古语语音数据进行识别，具体的过程如下：

步骤一：根据输入的蒙古语声学特征向量，计算DNN深度神经网络前L层的输出。

步骤二：利用L层的softmax分类层计算当前特征关于全部声学状态的后验概率。即当前特征属于各蒙古语声学状态的概率。

步骤三：根据贝叶斯公式，将各个状态的后验概率除以其自身的先验概率，得到各状态规整的似然值。

步骤四：利用维特比解码算法进行解码得到最优路径。

其中，隐含状态的先验概率，通过计算各状态对应帧总数与全部声学特征帧数的比值即可得到。

3.模型的训练过程

DNN深度神经网络调优阶段采用的标注数据是由GMM-HMM声学模型强制对齐得到的，并采用随机梯度下降算法完成模型参数的更新，因此，在训练DNN-HMM前首先需要训练一个足够好的GMM-HMM蒙古语声学模型，然后由GMM-HMM蒙古语声学模型通过维特比算法生成DNN-HMM蒙古语声学模型训练所需要的标注数据。

由于DNN模型在调优时需要蒙古语语音帧对齐的蒙古语标注数据，而且标注数据质量往往会影响到DNN模型的性能。因此，在实际应用时，我们利用已训练的GMM-HMM蒙古语声学模型实现语音特征到状态的强制对齐。所以，DNN-HMM声学模型的训练过程为：首先训练GMM-HMM蒙古语声学模型，得到对齐的蒙古语语音特征数据；然后在对齐语音特征数据的基础上对深度神经网络(DNN)进行训练和调优；最后根据得到的蒙古语语音观察状态再对隐马尔科夫模型(HMM)进行训练。

附图说明

图1为DNN-HMM蒙古语声学模型图。

图2为DNN网络预训练过程图。

图3为相对于GMM-HMM声学模型的实验对比结果图。

图4为dropout技术和隐含层层数对DNN-HMM模型过拟合距离的影响图。

实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。1.模型构建：

DNN-HMM蒙古语声学模型结构具体如附图1所示。在DNN-HMM蒙古语声学模型中，DNN网络通过不断地自下而上堆叠隐含层实现的。其中S表示HMM模型中的隐含状态，A表示状态转移概率矩阵，L表示DNN深度神经网络的层数(其中隐含层为L-1层，L0层为输入层，LL层为输出层，DNN网络共包含L+1层)，W表示层之间的连接矩阵。DNN-HMM蒙古语声学模型在进行蒙古语语音识别过程建模前，需要对DNN神经网络进行训练。在完成DNN神经网络的训练后，对蒙古语声学模型的建模过程与GMM-HMM模型一致。

在DNN网络的预训练(如附图2所示)中，采用了逐层无监督训练算法，属于生成式训练算法。逐层无监督预训练算法是对DNN网络的每一层进行训练，而且每次只训练其中的一层，其他层的参数保持原来的初始化的参数不变，训练时，对每一层的输入和输出的误差尽量的减小，以保证每一层的参数对于该层来说都是最优的。接下来，将训练好的每一层的输出数据作为下一层的输入数据，则下一层的输入数据将比直接训练时经过多层神经网络输入到下一层的数据的误差小很多，逐层无监督预训练算法能够保证每一层之间的输入输出数据的误差都是相对较小的。预训练算法见算法1。

通过逐层无监督预训练算法可以得到较好的神经网络初始化参数，使用蒙古语标注数据(即特征状态)通过BP算法(误差反向传播算法)进行有监督的调优，最终得到可用于声学状态分类的DNN深度神经网络模型。有监督的调优算法采用随机梯度下降算法进行实现，具体见算法2。

2.模型使用：

步骤一：根据输入的蒙古语声学特征向量，计算DNN深度神经网络前L层的输出。即：

v^α＝f(z^α)＝f(W^αv^α-1+b^α),0≤α<L (1)

其中，z^α表示激励向量，z^α＝W^αv^α-1+b^α且vα表示激活向量，W^α表示权重矩阵,b^α表示偏执向量，N_α表示第α层的神经节点个数且N_α∈R。V⁰表示网络的输入特征，在DNN-HMM声学模型中，输入特征即为声学特征向量。其中N₀＝D表示输入声学特征向量的维度，表示激活函数对激励向量的计算过程，f(·)表示激活函数。

步骤二：利用L层的softmax分类层计算当前特征关于全部声学状态的后验概率。即当前特征属于各蒙古语声学状态的概率，即当前特征属于各蒙古语声学状态的概率。

v_i＝P_dnn(i|O)＝softmax(i) (2)

在公式(2)中，i∈{1,2,…,C},其中C表示声学模型的隐含状态个数，x_i表示softmax层第i个神经单元的输入，v_i表示softmax分类层第i个神经单元的输出，即输入声学特征向量O关于声学模型第i个隐含状态的后验概率。

步骤四：利用维特比解码算法进行解码得到最优路径。

3.模型训练过程：

步骤1：进行GMM-HMM蒙古语声学模型训练，得到一个最优的GMM-HMM蒙古语语音识别***，用gmm-hmm表示。

步骤2：利用维特比解码算法解析gmm-hmm，对gmm-hmm蒙古语声学模型的模型中的每一个senone进行标号，得到senone_id。

步骤3：利用gmm-hmm蒙古语声学模型，将声学状态tri-phone映射到相应的senone_id。

步骤4：利用gmm-hmm蒙古语声学模型初始化DNN-HMM蒙古语声学模型，主要是HMM隐马尔科夫模型参数部分，最终得到dnn-hmm1模型。

步骤5：利用蒙古语声学特征文件预训练DNN深度神经网络，得到ptdnn。

步骤6：使用gmm-hmm蒙古语声学模型，将蒙古语声学特征数据进行状态级别的强制对齐，对齐结果为align-raw。

步骤7：将align-raw的物理状态转换成senone_id，得到帧级别对齐的训练数据align-frame。

步骤8：利用对齐数据align-data对ptdnn深度神经网络进行有监督地微调，得到网络模型dnn。

步骤9：根据最大似然算法，利用dnn重新估计dnn-hmm1中HMM模型的转移概率得到的网络模型用dnn-hmm2表示。

步骤10：如果dnn和dnn-hmm2上测试集识别准确率没有提高，训练结束。否则，使用dnn-hmm2对训练数据再次进行状态级别对齐，然后执行步骤7。

在训练过程中，首先训练一个最优的GMM-HMM蒙古语语音识别数据准备***(步骤1)，目的是为DNN的监督调优服务。在训练GMM-HMM蒙古语声学模型时，采用期望最大化算法进行无监督训练，避免了对标注数据的要求；然后利用蒙古语声学特征对深度神经网络进行预训练(步骤5)；在深度神经网络训练的第二阶段(即有监督调优阶段)，利用了已训练的GMM-HMM蒙古语声学模型进行语音特征到状态的强制对齐(步骤6)，得到标注数据；最后利用标注数据对DNN深度神经网络进行有监督的调优(步骤8)。DNN深度神经网络训练完成以后，根据DNN-HMM在测试集上的识别结果决定其下一步流程(步骤10)。

4.实验及结果：

4.1为验证提出的DNN-HMM蒙古语声学模型的有效性，制定如下实验：

(1)提取MFCC声学特征，展开GMM-HMM、DNN-HMM蒙古语声学模型建模的实验研究。观察不同声学建模单元对声学模型的性能影响、以及对比不同类型声学模型对语音识别***的影响。

(2)通过构建不同层数的深度网络结构的DNN-HMM三音子蒙古语声学模型，开展层数对蒙古语声学模型、以及对过拟合现象影响的实验研究。

4.2实验参数：

蒙古语语音识别的语料库由310句蒙古语教学语音组成，共计2291个蒙古语词汇，命名为IMUT310语料库。语料库共由三部分组成：音频文件、发音标注以及相应的蒙文文本。实验中，将IMUT310语料库划分成训练集和测试集两部分，其中训练集为287句，测试集为23句。实验在Kaldi平台上完成。Kaldi的具体实验环境配置如表1所示。

表1实验环境

实验过程中，蒙古语声学特征采用MFCC声学特征表示，共有39维数据，其中前13维特征由12个倒谱特征和1个能量系数组成，后面的两个13维特征是对前面13维特征的一阶差分和二阶差分。在提取蒙古语MFFC特征时，帧窗口长度为25ms，帧移10ms。对训练集和测试集分别进行特征提取，全部语音数据共生成119960个MFCC特征，其中训练数据生成的特征为112535个，测试数据生成的特征为7425个。GMM-HMM声学模型训练时，蒙古语语音MFCC特征采用39维数据进行实验。单音子DNN-HMM实验时，蒙古语MFCC语音特征为13维(不包括一、二阶差分特征)。三音子DNN-HMM实验时，蒙古语MFCC的特征为39维

DNN网络训练时，特征提取采用上下文结合的办法，即在当前帧前后各取5帧来表示当前帧的上下文环境，因此，在实验过程中，单音子DNN网络的输入节点数为143个(13*(5+1+5))，三音子DNN网络的输入节点数为429个(39*(5+1+5))。DNN网络的输出层节点为可观察蒙古语语音音素个数，根据语料库标注的标准，输出节点为27个；DNN网络的隐含层节点数设定为1024，调优训练次数设定为60，初始学习率设定为0.015，最终学习率设定为0.002。

4.3实验及结果：

4个实验单元分别是：单音子GMM-HMM、三音子GMM-HMM、单音子DNN-HMM和三音子DNN-HMM实验。实验结果数据见表2，对比结果见附图3.

表2 GMM-HMM与DNN-HMM蒙古语声学模型实验数据

附图3(a)中可以发现，相对于单音子GMM-HMM蒙古语声学模型，单音子DNN-HMM蒙古语声学模型在训练集上的词错误率降低了8.84％，在测试集上的词识别错误率降低了11.14％；但是，对于三音子模型来说，三音子DNN-HMM蒙古语声学模型比三音子GMM-HMM蒙古语声学模型在训练集上的词错误率降低了1.33％，在测试集上的词识别错误率降低了7.5％。附图3(b)发现，单音子模型在训练集上的句识别错误率降低了32.43％，在测试集上的句识别错误率降低了17.88％；对于三音子模型来说，三音子DNN-HMM蒙古语声学模型比三音子GMM-HMM蒙古语声学模型在训练集上的句识别错误率降低了19.3％，在测试集上的句识别错误率降低了13.63％。

由以上分析可见：单音子DNN-HMM蒙古语声学模型明显优于单音子GMM-HMM蒙古语声学模型；对于三音子模型来说，三音子DNN-HMM蒙古语声学模型比三音子GMM-HMM蒙古语声学模型的识别率还要高。

DNN-HMM蒙古语声学模型可有效降低词识别的错误率和字识别的错误率，提高模型使用性能。

为了研究隐含层层数、dropout技术对DNN-HMM三音子蒙古语声学模型的影响，以未采用dropout技术的四层三音子DNN-HMM蒙古语声学模型为基准实验，分别进行了关于隐含层层数以及dropout技术的对比实验，在实验结果数据见表3。

表3三音子DNN-HMM声学模型上dropout实验

为了表示过拟合现象的程度，我们定义了一个模型的过拟合距离，在语音识别中，过拟合往往是通过训练集和测试集上的识别率来进行判断的，当数据在训练集上的识别率很高，而在测试集上的识别率很低时，那么，就表示该模型有着严重的过拟合现象，我们用模型在测试集上的评价指标和模型在训练集上的评价指标的差值的绝对值来表示过拟合现象的程度，所以，将它的计算公式定义为：

模型的过拟合距离＝|模型在测试集上的评价指标-模型在测试集上的评价指标|

从附图4深色部分中可以发现，在未采用dropout技术训练得到的DNN-HMM蒙古语声学模型中，当隐含层网络层数由4层增加至7层时，对词识别的过拟合距离从21.17％增长到了54.81％；对句识别的过拟合距离从35.32％增长到了80.72％。由此可以看出，随着隐含层网络层数的增加，模型的过拟合距离越来越大，过拟合距离的变大说明DNN网络构建的蒙古语声学模型已经严重过拟合，那么，DNN-HMM的表现就会越来越差。

在附图4中，通过深浅两种颜色的对比，我们可以看出，采用dropout技术后，当隐含层网络层数由4层增加至7层时，对词识别的过拟合距离分别是21.43％、21.91％、24.07％和25.48％。而未采用dropout技术，对词识别的过拟合距离分别是21.17％、21.91％、42.38％、54.81％。由此可知，采用dropout技术后的过拟合距离要比未采用dropout技术后的过拟合距离要小，这一点，在对句识别的过拟合距离上同样存在。所以，在加入了dropout技术后，有效的缓解了因隐含层数增加而导致的过拟合现象，从而提高了模型的识别性能。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于DNN的蒙古语声学模型的训练方法，其特征在于：

首先训练GMM-HMM蒙古语声学模型，得到对齐的蒙古语语音特征数据；

然后在对齐语音特征数据的基础上对深度神经网络（DNN）进行训练和调优；

最后根据得到的蒙古语语音观察状态再对隐马尔科夫模型（HMM）进行训练

所述训练方法的具体步骤为：

步骤1：进行GMM-HMM蒙古语声学模型训练，得到一个最优的GMM-HMM蒙古语语音识别***，用gmm-hmm表示；

步骤2：利用维特比解码算法解析gmm-hmm，对gmm-hmm蒙古语声学模型的模型中的每一个senone进行标号，得到senone_id；

步骤3：利用gmm-hmm蒙古语声学模型，将声学状态tri-phone映射到相应的senone_id；

步骤4：利用gmm-hmm蒙古语声学模型初始化DNN-HMM蒙古语声学模型， HMM隐马尔科夫模型参数部分，最终得到dnn-hmm1模型；

步骤5：利用蒙古语声学特征文件预训练DNN深度神经网络，得到ptdnn；

步骤6：使用gmm-hmm蒙古语声学模型，将蒙古语声学特征数据进行状态级别的强制对齐，对齐结果为align-raw；

步骤7：将align-raw的物理状态转换成senone_id，得到帧级别对齐的训练数据align-frame；

步骤8：利用对齐数据align-data对ptdnn深度神经网络进行有监督地微调，得到网络模型dnn；

步骤9：根据最大似然算法，利用dnn重新估计dnn-hmm1中HMM模型的转移概率得到的网络模型用dnn-hmm2表示；

步骤10：如果dnn和dnn-hmm2上测试集识别准确率没有提高，训练结束，

否则，使用dnn-hmm2对训练数据再次进行状态级别对齐，然后执行步骤7。

2.如权利要求1所述的一种基于DNN的蒙古语声学模型的训练方法，其特征在于：在DNN-HMM 蒙古语声学模型训练中加入 dropout 技术避免过拟合现象。