WO2018153200A1

WO2018153200A1 - 基于hlstm模型的声学建模方法、装置和存储介质

Info

Publication number: WO2018153200A1
Application number: PCT/CN2018/073887
Authority: WO
Inventors: 张鹏远; 董振江; 张宇; 贾霞; 李洁; 张恒生
Original assignee: 中兴通讯股份有限公司
Priority date: 2017-02-21
Filing date: 2018-01-23
Publication date: 2018-08-30
Also published as: CN108461080A

Abstract

一种基于直连长短时记忆(HLSTM)模型的声学建模方法、装置和存储介质，方法包括：基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化(101)；将训练数据通过经优化得到的HLSTM模型进行前向计算(102)；基于前向计算的结果和预设函数，训练已随机初始化的长短时记忆(LSTM)模型，得到的模型为语音识别***的声学模型(103)；其中，HLSTM模型与LSTM模型的网络参数相同。

Description

基于HLSTM模型的声学建模方法、装置和存储介质

相关申请的交叉引用

本申请基于申请号为201710094191.6、申请日为2017年02月21日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开涉及语音识别技术领域，尤其涉及一种基于直连长短时记忆(Highway Long Short Time Memory，HLSTM)模型的声学建模方法、装置和存储介质。

背景技术

近年来，大词汇连续语音识别***取得了重大进步。传统的语音识别***采用隐马尔科夫模型(Hidden Markov Model，HMM)来表达语音信号的时变特性，采用高斯混合模型(Gaussian Mixture Model，GMM)建模语音信号的发音多样性。后来，深度学习技术被引入到语音识别研究领域，使语音识别***的性能有了显著的提高，真正把语音识别推动到商业可用级别。由于语音识别技术存在巨大的实用价值，该领域成为科技巨头、互联网公司和知名高校的研究热点。深度神经网络(Deep Neural Network，DNN)被引入语音识别后，人们又进一步研究了神经网络的序列鉴别性训练和卷积神经网络(Convolutional Neural Network，CNN)在语音识别中的应用。

随后，长短时记忆(Long Short Time Memory，LSTM)模型被引入声学建模，相比于简单的前馈网络，LSTM模型具有更强的声学建模能力。由于数据量日益增大，因此需要加深声学模型神经网络的层数来提升建模能力。但随着LSTM模型网络层数的加深，网络的训练难度也随之增大，同时伴随着梯度消失问题。为了避免梯度消失，一种基于LSTM模型的HLSTM模型被提出，HLSTM模型是在LSTM模型相邻层的记忆单元之间引入直连。

HLSTM模型的提出使更深层的网络结构在识别***中得到实际的应用，并大幅度提升了识别准确度。虽然深层的HLSTM模型有更强的建模能力，但层数的加深和引入的新连接(上述直连)也使声学模型具有了更复杂的网络结构，因而前向计算耗费的时间会更长，最终导致解码变慢。因此，如何在提升性能的同时不增加声学模型的复杂度成为有待解决的问题。

发明内容

本公开实施例提供一种基于HLSTM模型的声学建模方法、装置和存储介质。

本公开实施例的技术方案是这样实现的：

本公开实施例提供了一种基于HLSTM模型的声学建模方法，包括：

基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化；

将训练数据通过经所述优化得到的HLSTM模型进行前向计算；

基于所述前向计算的结果和所述预设函数，训练已随机初始化的LSTM模型，得到的模型为语音识别***的声学模型；

其中，所述HLSTM模型与所述LSTM模型的网络参数相同。

上述方案中，所述基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化，包括：

采用交叉熵目标函数训练已随机初始化的HLSTM模型；

依据状态级最小贝叶斯风险准则优化经所述训练得到的HLSTM模型。

上述方案中，所述交叉熵目标函数为：

其中，所述F _CE表示交叉熵目标函数；所述

为t时刻的语音特征在y状态输出点的标注值；所述p(y|X _t)为神经网络t时刻的语音特征，对应y状态点的输出；所述X表示训练数据；所述S为输出状态点的数目，所述N为语音特征总时长。

上述方案中，所述状态级最小贝叶斯风险准则对应的目标函数为：

其中，所述W _u为语音的标注文本；所述W与W'均为种子模型的解码路径对应的标注；所述p(O _u|S)为声学似然概率；所述A(W,W _u)代表解码状态序列中正确状态标注的数目；所述种子模型为：所述优化后得到的HLSTM模型；所述u代表训练数据中语句编号的索引，所述k为声学得分系数，所述O _u为第u句语料的语音特征，所述S表示解码路径的状态序列，所述P(W)与P(W')均为语言模型概率得分。

上述方案中，所述HLSTM模型的网络层数大于或等于所述LSTM模型的网络层数。

上述方案中，所述基于所述前向计算的结果和所述预设函数，训练已随机初始化的LSTM模型，包括：

获取所述前向计算得到的每帧的输出结果；

基于所述每帧的输出结果和交叉熵目标函数，训练已随机初始化的LSTM模型；其中，所述交叉熵目标函数中的

为所述前向计算得到的每帧输出结果。

本公开实施例还提供了一种基于HLSTM模型的声学建模装置，包括：

HLSTM模型处理模块，配置为基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化；

计算模块，配置为将训练数据通过经所述优化得到的HLSTM模型进行前向计算；

LSTM模型处理模块，配置为基于所述前向计算的结果和所述预设函数，训练已随机初始化的长短时记忆LSTM模型，得到的模型为语音识别 ***的声学模型；

其中，所述HLSTM模型与所述LSTM模型的网络参数相同。

上述方案中，所述HLSTM模型处理模块包括：

第一训练单元，配置为采用交叉熵目标函数训练已随机初始化的HLSTM模型；

优化单元，配置为依据状态级最小贝叶斯风险准则优化经所述训练得到的HLSTM模型。

上述方案中，所述交叉熵目标函数为：

其中，所述F _CE表示交叉熵目标函数；所述

上述方案中，所述LSTM模型处理模块包括：

获取单元，配置为获取所述前向计算得到的每帧的输出结果；

第二训练单元，配置为基于所述每帧的输出结果和交叉熵目标函数，训练已随机初始化的LSTM模型；其中，所述交叉熵目标函数中的

为所述前向计算得到的每帧输出结果。

本公开实施例又提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本公开实施例提供的基于HLSTM模型的声学建模方法、装置和存储介质，基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化；将训练数据通过经所述优化得到的HLSTM模型进行前向计算；基于所述前向计算的结果和所述预设函数，训练已随机初始化的LSTM模型，得到的模型为语音识别***的声学模型；其中，所述HLSTM模型与所述LSTM模型的网络参数相同。本公开实施例将优化后的HLSTM模型的网络信息通过后验概率传递到LSTM网络，达到了在不增加模型复杂度的情况下，提升LSTM基线模型的性能。

附图说明

图1为本公开实施例所述基于HLSTM模型的声学建模方法流程示意图；

图2为本公开一实施例所述双向HLSTM模型网络结构图；

图3为本公开实施例所述基于HLSTM模型的声学建模装置结构示意图；

图4为本公开实施例所述HLSTM模型处理模块的结构示意图；

图5为本公开实施例所述LSTM模型处理模块的结构示意图。

具体实施方式

下面结合具体实施例对本公开进行详细描述。

图1为本公开实施例所述基于HLSTM模型的声学建模方法流程示意图，如图1所示，该方法包括：

步骤101：基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化；

步骤102：将训练数据通过经所述优化得到的HLSTM模型进行前向计算；

步骤103：基于所述前向计算的结果和所述预设函数，训练已随机初始化的LSTM模型，得到的模型为语音识别***的声学模型；

其中，所述HLSTM模型与所述LSTM模型的网络参数相同。

这里，所述HLSTM模型与所述LSTM模型可均为双向、或均为单向。所述网络参数可包括：输入层节点数、输出层节点数、输入的观测矢量、隐层的节点数、递归时延，以及每层隐层后连接的映射层等等。

本公开实施例将优化后的HLSTM模型的网络信息通过后验概率传递到LSTM网络，达到了在不增加模型复杂度的情况下，提升LSTM基线模型的性能。

作为一个实例，所述随机初始化的HLSTM模型如图2所示，虚线框中为在LSTM模型基础上设置的层间记忆单元连接(直连)，如图2所示。由于HLSTM模型里引入相邻层记忆单元间的直连，可避免梯度消失的问题，降低了网络训练的难度，因此实际应用中可以使用更深层的结构。但另一方面受制于参数量的限制，网络层数不能无限加深，因为相比于训练数据量来说，较大参数量模型会引起过拟合。实际使用中，HLSTM模型的网络层数可以根据可用训练数据量进行调整。

本公开实施例中，所述基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化，包括：

采用交叉熵目标函数训练已随机初始化的HLSTM模型；

其中，所述交叉熵目标函数为：

其中，所述F _CE表示交叉熵目标函数；所述

其中，所述状态级最小贝叶斯风险准则对应的目标函数为：

本公开实施例中，所述HLSTM模型的网络层数大于或等于所述LSTM模型的网络层数。

本公开实施例中，所述基于所述前向计算的结果和所述预设函数，训练已随机初始化的LSTM模型，包括：

获取所述前向计算得到的每帧的输出结果；

为所述前向计算得到的每帧输出结果。

经过对HLSTM与LSTM进行对比实验发现：对引入直连后的LSTM模型，即：HLSTM模型做鉴别性训练获得的性能提升明显高于LSTM模型获得的提升，因此，鉴别性训练对HLSTM模型性能的提升是非常有意义的。

本公开实施例还提供了一种基于HLSTM模型的声学建模装置，用于实现上述实施例及具体实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”“单元”可以实现预定功能的软件和/或硬件的组合。如图3所示，该装置包括：

HLSTM模型处理模块301，配置为基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化；

计算模块302，配置为将训练数据通过经所述优化得到的HLSTM模型进行前向计算；

LSTM模型处理模块303，配置为基于所述前向计算的结果和所述预设函数，训练已随机初始化的LSTM模型，得到的模型为语音识别***的声学模型；

其中，所述HLSTM模型与所述LSTM模型的网络参数相同。

作为一个实例，所述随机初始化的HLSTM模型如图2所示，虚线框中为在LSTM模型基础上设置的层间记忆单元连接(直连)，连接公式如图2所示。由于HLSTM模型里引入相邻层记忆单元间的直连，可避免梯度消失的问题，降低了网络训练的难度，因此实际应用中可以使用更深层的结构。但另一方面受制于参数量的限制，网络层数不能无限加深，因为相比于训练数据量来说，较大参数量模型会引起过拟合。实际使用中，HLSTM模型的网络层数可以根据可用训练数据量进行调整。

本公开实施例中，如图4所示，所述HLSTM模型处理模块301包括：

第一训练单元3011，配置为采用交叉熵目标函数训练已随机初始化的HLSTM模型；

优化单元3012，配置为依据状态级最小贝叶斯风险准则优化经所述训练得到的HLSTM模型。

其中，所述交叉熵目标函数为：

其中，所述F _CE表示交叉熵目标函数；所述

其中，所述状态级最小贝叶斯风险准则对应的目标函数为：

本公开实施例中，如图5所示，所述LSTM模型处理模块303包括：

获取单元3031，配置为获取所述前向计算得到的每帧的输出结果；

第二训练单元3032，配置为基于所述每帧的输出结果和交叉熵目标函数，训练已随机初始化的LSTM模型；其中，所述交叉熵目标函数中的

为所述前向计算得到的每帧输出结果。

实际应用时，HLSTM模型处理模块301、计算模块302、LSTM模型处理模块303、第一训练单元3011、优化单元3012、获取单元3031、第二训练单元3032可由基于HLSTM模型的声学建模装置中的处理器实现。

下面结合一具体场景实施例对本公开进行描述。

本实施例将训练完成具有更强建模能力的深层双向HLSTM模型做“教师”模型，将随机初始化的双向LSTM模型做“学生”模型，利用“教师”模型训练参数量相对较小的“学生”模型。具体方法描述如下：

一、训练“教师”模型

首先，随机初始化HLSTM模型，HLSTM模型网络结构如图2所示。由于HLSTM引入相邻层记忆单元间的直连，避免了梯度消失的问题，降低了网络训练的难度，因此实际应用中可以使用更深层的结构。但另一方面受制于参数量的限制，网络层数不能无限加深，因为相比于训练数据量来说，过大参数量模型会引起过拟合。实际使用中，HLSTM网络层数可以根据可用训练数据量做调整。本实施例中训练数据可为300h(小时)，使用的HLSTM模型为6层，即：输入层，输出层以及它们之间的四层隐层。

使用交叉熵(CrossEntropy，CE)目标函数迭代更新训练HLSTM模型，CE目标函数公式如下所示：

其中，所述F _CE表示交叉熵目标函数；所述

基于CE目标函数训练生成的HLSTM模型已具有较好的识别性能。在此基础上，利用鉴别性序列级训练准则，即：状态级最小贝叶斯风险(State-level Minimum Bayes Risk，SMBR)准则进一步优化模型。与CE准则的声学模型训练不同之处在于，鉴别性序列级训练准则通过优化与***识别率相关的函数，在有限的训练集上力图从正反两方面的训练样本中学习到更多的类区分度信息。它的目标函数如下所示：

其中，所述W _u为语音的标注文本；所述W与W'均为种子模型的解码路径对应的标注；所述p(O _u|S)为声学似然概率；所述A(W,W _u)代表解码状态序列中正确状态标注的数目；所述种子模型为：所述优化后得到的HLSTM模型；所述u代表训练数据中语句编号的索引，所述k为声学得分系数，所述O _u为第u句语料的语音特征，所述S表示解码路径的状态序列，所述P(W)与P(W')均为语言模型概率得分。通过对HLSTM与LSTM的对比实验，发现引入新连接后的模型(HLSTM模型)做鉴别性训练获得的性能提升要明显高于LSTM模型获得的提升，因此，鉴别性训练对HLSTM模型性能的提升是非常有意义的。至此，训练完成的模型即为“教师”模型。

二、训练“学生”模型

随机初始化一个含三层隐层的LSTM模型，模型的其它参数与“老师”模型一致。接下来，需要将HLSTM模型学到的信息传递给LSTM模型。本公开实施例的信息传递方式是将训练数据通过“教师”模型做前向计算，得到每帧输入对应的输出，将得到的输出做标注，使用上文提到的CE准则为目标函数，训练“学生”模型，训练得到的LSTM模型作为语音识别***使用的声学模型。

本公开实施例的优点是在不增加模型复杂度的情况下，提升LSTM基线模型性能。虽然，HLSTM模型有更强的建模能力和更高的识别性能，但解码实时率同样为评价识别***性能的指标之一。HLSTM模型从参数规模和模型复杂度都高于LSTM模型，必然会拖慢解码速度。将HLSTM模型网络信息通过后验概率传递到LSTM网络，以此提升LSTM基线模型的性能，虽然信息传递过程中会有不可避免的性能损失，即“学生”模型性能低于“老师”模型，但仍然高于直接训练的LSTM模型性能。

下面结合具体的模型参数对所述方法实施例进行描述。

步骤一：提取训练数据的语音特征。利用EM算法迭代更新GMM-HMM***均值方差，使用GMM-HMM***对特征数据做强制对齐，得到三因子聚类状态标注。

步骤二：基于交叉熵准则训练双向HLSTM模型。

本实施例中使用六层的双向HLSTM模型，模型的参数量为190M，具体配置如下：输入层有260个节点，输入的观测矢量为上下文各做2帧扩展，四层隐层的节点数目均为1024，递归时延分别为1，2，3，4；每层隐层后连接512维的映射层，用于降低维度减少参数量。输出层的节点数为2821，对应2821个三音子聚类状态。

步骤三：以步骤二生成的模型为种子模型，基于状态级最小贝叶斯风险准则迭代更新双向HLSTM模型。

步骤四：将训练数据通过步骤三生成的双向HLSTM模型做前向计算，得到输出向量。

步骤五：将步骤四得到的输出向量做对应输入特征的标注，训练含三层隐层的双向LSTM模型，参数量为120M。模型的网络参数与步骤二中的HLSTM模型一致。

本领域内的技术人员应明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

基于此，本公开实施例还提供了一种存储介质，具体为计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本公开实施例所述方法的步骤。

以上所述，仅为本公开的较佳实施例而已，并非用于限定本公开的保护范围。

工业实用性

本公开实施例提供的方案，基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化；将训练数据通过经所述优化得到的HLSTM模型进行前向计算；基于所述前向计算的结果和所述预设函数，训练已随机初始化的LSTM模型，得到的模型为语音识别***的声学模型；其中，所述HLSTM模型与所述LSTM模型的网络参数相同。本公开实施例将优化后的HLSTM模型的网络信息通过后验概率传递到LSTM网络，达到了在不增加模型复杂度的情况下，提升LSTM基线模型的性能。

Claims

一种基于直连长短时记忆HLSTM模型的声学建模方法，包括：

基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化；

将训练数据通过经所述优化得到的HLSTM模型进行前向计算；

基于所述前向计算的结果和所述预设函数，训练已随机初始化的长短时记忆LSTM模型，得到的模型为语音识别***的声学模型；

其中，所述HLSTM模型与所述LSTM模型的网络参数相同。
根据权利要求1所述的方法，其中，所述基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化，包括：

采用交叉熵目标函数训练已随机初始化的HLSTM模型；

依据状态级最小贝叶斯风险准则优化经所述训练得到的HLSTM模型。
根据权利要求2所述的方法，其中，所述交叉熵目标函数为：

其中，所述F _CE表示交叉熵目标函数；所述
为t时刻的语音特征在y状态输出点的标注值；所述p(y|X _t)为神经网络t时刻的语音特征，对应y状态点的输出；所述X表示训练数据；所述S为输出状态点的数目，所述N为语音特征总时长。
根据权利要求2所述的方法，其中，所述状态级最小贝叶斯风险准则对应的目标函数为：

其中，所述W _u为语音的标注文本；所述W与W'均为种子模型的解码路径对应的标注；所述p(O _u|S)为声学似然概率；所述A(W,W _u)代表解码状态序列中正确状态标注的数目；所述种子模型为：所述优化后得到的HLSTM 模型；所述u代表训练数据中语句编号的索引，所述k为声学得分系数，所述O _u为第u句语料的语音特征，所述S表示解码路径的状态序列，所述P(W)与P(W')均为语言模型概率得分。
根据权利要求1-4中任一项所述的方法，其中，所述HLSTM模型的网络层数大于或等于所述LSTM模型的网络层数。
根据权利要求3所述的方法，其中，所述基于所述前向计算的结果和所述预设函数，训练已随机初始化的LSTM模型，包括：

获取所述前向计算得到的每帧的输出结果；

基于所述每帧的输出结果和交叉熵目标函数，训练已随机初始化的LSTM模型；其中，所述交叉熵目标函数中的
为所述前向计算得到的每帧输出结果。
一种基于直连长短时记忆HLSTM模型的声学建模装置，包括：

HLSTM模型处理模块，配置为基于预设函数对已随机初始化的HLSTM模型进行训练，并对训练结果进行优化；

计算模块，配置为将训练数据通过经所述优化得到的HLSTM模型进行前向计算；

LSTM模型处理模块，配置为基于所述前向计算的结果和所述预设函数，训练已随机初始化的长短时记忆LSTM模型，得到的模型为语音识别***的声学模型；

其中，所述HLSTM模型与所述LSTM模型的网络参数相同。
根据权利要求7所述的装置，其中，所述HLSTM模型处理模块包括：

第一训练单元，配置为采用交叉熵目标函数训练已随机初始化的HLSTM模型；

优化单元，配置为依据状态级最小贝叶斯风险准则优化经所述训练得到的HLSTM模型。
根据权利要求8所述的装置，其中，所述交叉熵目标函数为：

其中，所述F _CE表示交叉熵目标函数；所述
为t时刻的语音特征在y状态输出点的标注值；所述p(y|X _t)为神经网络t时刻的语音特征，对应y状态点的输出；所述X表示训练数据；所述S为输出状态点的数目，所述N为语音特征总时长。
根据权利要求8所述的装置，其中，所述状态级最小贝叶斯风险准则对应的目标函数为：

其中，所述W _u为语音的标注文本；所述W与W'均为种子模型的解码路径对应的标注；所述p(O _u|S)为声学似然概率；所述A(W,W _u)代表解码状态序列中正确状态标注的数目；所述种子模型为：所述优化后得到的HLSTM模型；所述u代表训练数据中语句编号的索引，所述k为声学得分系数，所述O _u为第u句语料的语音特征，所述S表示解码路径的状态序列，所述P(W)与P(W')均为语言模型概率得分。
根据权利要求9所述的装置，其中，所述LSTM模型处理模块包括：

获取单元，配置为获取所述前向计算得到的每帧的输出结果；

第二训练单元，配置为基于所述每帧的输出结果和交叉熵目标函数，训练已随机初始化的LSTM模型；其中，所述交叉熵目标函数中的
为所述前向计算得到的每帧输出结果。
一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。