CN107633842B

CN107633842B - 语音识别方法、装置、计算机设备及存储介质

Info

Publication number: CN107633842B
Application number: CN201710445076.9A
Authority: CN
Inventors: 梁浩; 王健宗; 程宁; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-06-12
Filing date: 2017-06-12
Publication date: 2018-08-31
Anticipated expiration: 2037-06-12
Also published as: US11062699B2; US20190266998A1; CN107633842A; WO2018227780A1

Abstract

本发明提出了一种语音识别方法，该方法包括：获取待识别的语音数据；提取语音数据中的Filter Bank特征和MFCC特征；将MFCC特征作为GMM‑HMM模型的输入数据，获取第一似然概率矩阵；将Filter Bank特征作为具有连接单元LSTM模型的输入特征，获取后验概率矩阵；将后验概率矩阵和第一似然概率矩阵作为HMM模型的输入数据，获取第二似然概率矩阵，根据第二似然概率矩阵在音素解码网络中获取对应的目标词序列。该方法通过将混合高斯模型和深度学习模型结合，且采用创新的具有连接单元LSTM模型作为声学模型，提高了语音识别的准确度。此外，还提出了一种语音识别装置、计算机设备及存储介质。

Description

语音识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机处理领域，特别是涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术

语音识别，也被称为自动语音识别(Automatic Speech Recognition,ASR)，其目标是让机器通过识别和理解，把语音信号变成文字，是现代人工智能发展的重要分支。语音识别技术的实现是自然语言处理的前提，并能有效推动声控交互相关领域的发展并极大方便人们的生活，如智能家居、语音输入。语音识别的准确度直接决定了技术应用的有效性。

传统的语音识别技术是基于GMM-HMM(混合高斯模型和隐马尔科夫模型)进行声学模型的建立，近年来，随着深度学习技术的发展，基于DNN-HMM(深度学习模型和隐马尔科夫模型)进行声学模型的建立相对于GMM-HMM在识别准确度上虽然有了很大的提升，但是还有待于进一步提高语音识别的准确度。

发明内容

基于此，有必要针对上述语音识别准确度不够的问题，本发明提出了一种能更加准确的语音识别方法、装置、计算机设备及存储介质。

一种语音识别方法，所述方法包括：

获取待识别的语音数据；

提取所述语音数据中的Filter Bank特征和MFCC特征；

将所述MFCC特征作为训练后的GMM-HMM模型的输入数据，获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵；

将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动；

将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第二似然概率矩阵；

根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。

一种语音识别装置，所述装置包括：

获取模块，用于获取待识别的语音数据；

提取模块，用于提取所述语音数据中的Filter Bank特征和MFCC特征；

第一输出模块，用于将所述MFCC特征作为训练后的GMM-HMM模型的输入数据，获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵；

后验概率矩阵输出模块，用于将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动；

第二输出模块，用于将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第二似然概率矩阵；

解码模块，用于根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。

一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别的语音数据；

提取所述语音数据中的Filter Bank特征和MFCC特征；

一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现以下步骤:

获取待识别的语音数据；

提取所述语音数据中的Filter Bank特征和MFCC特征；

上述语音识别方法、装置、计算机设备及存储介质，通过将混合高斯模型GMM和深度学习模型中的长短时递归神经网络LSTM结合进行语音识别，先采用GMM-HMM模型根据提取的MFCC特征计算得到第一似然概率矩阵，第一似然概率矩阵表示对语音数据在音素状态上对齐结果，然后再使用LSTM在之前初步对齐结果的基础上进行进一步的对齐，有利于提高语音识别的准确度，且该LSTM采用的是创新性的具有连接单元的LSTM模型，该模型通过在传统的LSTM模型的层与层之间增加了连接单元，该连接单元可以控制层与层之间信息流动，通过该连接单元可以实现对信息的筛选，不但可以提高识别的速度，而且可以提高识别的准确度。

附图说明

图1为一个实施例中计算机设备的内部结构框图；

图2为一个实施例中语音识别的架构图；

图3为一个实施例中语音识别方法的流程图；

图4为一个实施例中通过具有连接单元LSTM模型获取后验概率矩阵的方法流程图；

图5为一个实施例中提取语音数据中的Filter Bank特征和MFCC特征的方法流程图；

图6为另一个实施例中通过具有连接单元LSTM模型获取后验概率矩阵的方法流程图；

图7为一个实施例中GMM-HMM模型和具有连接单元LSTM模型建立的方法流程图；

图8为另一个实施例中语音识别方法的流程图；

图9为一个实施例中语音识别装置的结构框图；

图10为一个实施例中后验概率矩阵输出模块的结构框图；

图11为另一个实施例中语音识别装置的结构框图；

图12为又一个实施例中语音识别装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，为一个实施例中计算机设备的内部结构示意图。该计算机设备可以是终端也可以是服务器。参照图1，该计算机设备包括通过***总线连接的处理器、非易失性存储介质、内存储器、网络接口、显示屏和输入装置。其中，该计算机设备的非易失性存储介质可存储操作***和计算机可读指令，该计算机可读指令被执行时，可使得处理器执行一种语音识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语音识别方法。计算机设备的网络接口用于进行网络通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。触摸层和显示屏构成触控屏。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

首先，介绍一下语音识别的框架，如图2所示，语音识别主要包括两个部分：声学模型和语言模型，然后结合字典就构成了语音识别的框架。语音识别的过程就是根据字典、声学模型和语言模型，将输入的语音特征序列转换为字符序列的过程。其中，声学模型的作用是得到语音特征与音素的映射，语言模型的作用是得到词与词、词与句子的映射，字典的作用是得到字词与音素之间的映射。具体语音识别的过程可以分为三步，第一步，把语音帧识别成音素状态，即进行语音帧和音素状态上的对齐。第二步是将状态组合成音素。第三步是把音素组合成单词。其中，第一步是声学模型的作用，是重点也是难点，语音帧与音素状态的对齐结果越准确，就意味着语音识别的效果就会越好。其中，音素状态是比音素更细致的语音单位，通常一个音素由3个音素状态构成。

如图3所示，在一个实施例中，提出了一种语音识别方法，该方法可应用于终端或服务器中，具体包括以下步骤：

步骤302，获取待识别的语音数据。

在本实施例中，这里待识别的语音数据通常是通过交互应用获取到用户输入的音频数据，包括数字的音频和文字的音频。

步骤304，提取语音数据中的Filter Bank特征和MFCC特征。

在本实施例中，Filter Bank(滤波器组)特征和MFCC(Mel frequency cepstrumcoefficient，梅尔倒谱系数)特征都是语音识别中用来表示语音特征的参数。其中，FilterBank用于深度学***滑，然后将经过预加重处理的语音数据进行分帧加窗，从而将非平稳的语音信号转变为短时平稳的信号，接着通过端点检测，区分语音与噪声，并提取出有效的语音部分。为了提取语音数据中的Filter Bank特征和MFCC特征，首先，将经过预处理的语音数据进行快速傅里叶变换，从而将时域的语音信号转换为频域的能量谱进行分析，然后将能量谱通过一组梅尔尺度的三角滤波器组，突出语音的共振峰特征，之后计算每个滤波器组输出的对数能量，该滤波器组输出的特征就是Filter Bank特征。进一步的，将计算得到的对数能量经离散余弦变换得到MFCC系数，即MFCC特征。

步骤306，将MFCC特征作为训练后的GMM-HMM模型的输入数据，获取训练后的GMM-HMM模型输出的第一似然概率矩阵。

在本实施例中，声学模型和语言模型共同实现对语音的识别。其中，声学模型的作用是用于识别语音帧与音素状态的对齐关系。GMM-HMM模型属于声学模型的一部分，用于将语音帧与音素状态进行初步对齐。具体地，将提取的待识别的语音数据的MFCC特征作为训练后的GMM-HMM模型的输入数据，然后获取该模型输出的似然概率矩阵，为了便于和后续进行区分，这里称为“第一似然概率矩阵”。似然概率矩阵表示的是语音帧与音素状态上的对齐关系，即根据计算得到的似然概率矩阵就可以得到语音帧与音素状态上的对齐关系，只不过，通过GMM-HMM训练得到的对齐关系并不十分准确，所以这里通过第一似然概率矩阵相当于对语音帧和音素状态进行了初步对齐。GMM模型具体的计算公式如下：

其中，x表示提取的语音特征(MFCC)向量，μ，D分别为均值和方差矩阵，K表示MFCC系数的阶数。

步骤308，将Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取具有连接单元的LSTM模型输出的后验概率矩阵，连接单元用于控制LSTM模型中层与层之间的信息流动。

在本实施例中，LSTM模型属于深度学习模型，也属于声学模型的一部分。具有连接单元的LSTM是在传统的LSTM模型的基础上提出的创新性的模型，该模型通过在传统的LSTM模型的层与层之间增加连接单元，通过该连接单元可以控制层与层之间的信息流动，所以通过该连接单元可以实现对有效信息的筛选，而且通过该连接单元可以使得LSTM模型训练的层次更深，层次越多，获得的特征表达越好，识别效果也就越好。所以具有连接单元的LSTM模型不但可以提高识别语音的速度，而且可以提高识别语音的准确度。具体地，连接单元是通过sigmoid函数来实现的，原理是将前一层的输出通过一个由sigmoid函数构成的门限来控制流入到后一层的信息，即输出作为后一层LSTM网络的输入。这个sigmoid函数的值是由前一层神经元节点的状态、前一层神经元节点的输出、后一层神经元节点的输入共同决定的。其中，神经元节点是负责神经网络模型的计算表达，每个节点包含一些计算关系，可以理解为一种计算公式，可以相同，也可以不同。每一层LSTM中的神经元结点的数量是根据输入的特征的帧数以及特征向量来决定的，比如，如果输入是拼接了前后5帧，那么总共有11帧输入向量，而每一帧对应的特征向量是由提取的语音特征决定的，比如，如果提取的Filter Bank特征为83维的特征向量，那么相应的训练得到的LSTM模型中每一层的神经元节点为11x83＝913个。

步骤310，将后验概率矩阵和第一似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第二似然概率矩阵。

在本实施例中，HMM(隐马尔科夫)模型是统计模型，它用来描述一个含有隐含未知参数的马尔科夫过程，作用是从可观察的参数中确定该过程中的隐含参数。HMM模型中主要涉及5个参数，分别是2个状态集合和3个概率集合。其中，2个状态集合分别为隐藏状态和观察状态，三个概率集合为初始矩阵，转移矩阵和混淆矩阵。其中，转移矩阵是训练得到的，也就是说，一旦HMM模型训练完成，该转移矩阵就确定了。在该实施例中，主要是采用可观察的语音特征(Filter Bank特征)作为观察状态，来计算确定音素状态与语音帧的对应关系(即隐含状态)。如果想要确定音素状态与语音帧的对应关系，还需要确定两个参数，那就是初始矩阵和混淆矩阵。其中，通过具有连接单元的LSTM模型计算得到的后验概率矩阵就是HMM模型中需要确定的混淆矩阵，第一似然概率矩阵就是需要确定的初始矩阵。所以将后验概率矩阵和第一似然概率矩阵作为训练后的HMM模型的输入数据，就可以获取输出的第二似然概率矩阵。该第二似然概率矩阵表示的是音素状态与语音帧的最终的对齐关系。后续根据该确定的第二似然概率矩阵就可以在音素解码网络中获取与待识别的语音数据对应的目标词序列。

步骤312，根据第二似然概率矩阵在音素解码网络中获取与待识别的语音数据对应的目标词序列。

在本实施例中，在语音识别过程中，包括两个部分，一个是声学模型，一个是语言模型。在语音识别前，首先需要根据训练后的声学模型和语言模型以及字典建一个音素级别的解码网络，根据搜索算法在该网络中寻找最佳的一条路径，其中，搜索算法可以采用维特比算法(Viterbi算法)。这个路径就是能够以最大概率输出与待识别语音数据对应的词串，这样就确定了这个语音数据中所包含的文字了。其中，音素解码级别的解码网络(即音素解码网络)是通过有限状态机(Finite State Transducer，FST)相关算法来完成的，如确定化算法determination、最小化算法minimization，通过将句子拆分成词、再将词拆分为音素(如汉语的声韵母、英文的音标)，然后将音素和发音词典、语法等通过上述方法进行对齐计算，得到输出的音素解码网络。音素解码网络中包含了所有可能识别的路径表达，解码的过程就是根据输入的语音数据，对这个庞大网络进行路径的删减，得到一个或多个候选路径，存储在一种词网络的数据结构中，然后最后的识别就是对候选路径进行打分，分数最高的路径为识别结果。

在本实施例中，通过将混合高斯模型GMM和深度学习模型中的长短时递归神经网络LSTM结合进行语音识别，先采用GMM-HMM模型根据提取的MFCC特征计算得到第一似然概率矩阵，第一似然概率矩阵表示对语音数据在音素状态上对齐结果，然后再使用LSTM在之前初步对齐结果的基础上进行进一步的对齐，且该LSTM采用的是创新性的具有连接单元的LSTM模型，该模型通过在传统的LSTM模型的层与层之间增加了连接单元，该连接单元可以控制层与层之间信息流动，通过该连接单元可以实现对有效信息的筛选，不但可以提高识别的速度，而且可以提高识别的准确度。

如图4所示，在一个实施例中，所述连接单元为sigmoid函数；所述将所述FilterBank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动，包括：

步骤308a，将Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征。

步骤308b，根据LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值；

步骤308c，根据层与层之间的连接单元所对应的sigmoid函数值，输出与FilterBank特征对应的后验概率矩阵。

在本实施例中，连接单元是采用sigmoid函数来实现的，在LSTM模型中通过sigmoid函数来控制层与层信息的流动，比如，控制是否流动以及流动多少。其中，sigmoid函数对应的函数值的确定是由前一层神经元节点的状态、前一层神经元节点的输出和后一层神经元节点的输入来决定的。具体地，sigmoid函数表示为：σ(x)＝1/(1+e^-x)，其中，X表示连接单元在该层的输入，t表示t时刻，d表示该连接单元的输出，l表示该连接单元的前一层，l+1表示该连接单元的下一层，b表示偏置项，W表示权重矩阵，其中，W_x是与输入相关的权重矩阵，W_c是与输出相关的权重矩阵，W_l是与层次相关的权重矩阵，c表示LSTM输出控制们的输出，LSTM有三个门限控制，输入控制门、遗忘控制门、输出控制门，输出控制门的作用是控制该神经元节点的输出流动量。是一种运算符，表示两个矩阵对应元素相乘。其中，偏置项b和权重矩阵W的值在模型完成训练后已经确定了，所以根据输入就可以确定层与层之间的信息流动了多少，在确定了层与层之间的信息流动，就可以获取输出的与Filter Bank特征对应的后验概率矩阵。

如图5所示，在一个实施例中，提取语音数据中的Filter Bank特征和MFCC特征的步骤304包括：

步骤304A，将待识别的语音数据进行傅里叶变换转换为频域的能量谱。

在本实施例中，由于语音信号在时域上的变换通常都很难看出信号的特性，所以通常需要将它转换为频域上的能量分布来观察，不同的能量分布，代表不同语音的特性。所以需要将待识别的语音数据经过快速傅里叶变换以得到频谱上的能量分布。其中，是通过将每一帧语音信号进行快速傅里叶变换得到每一帧的频谱，对语音信号的频谱取模平方得到语音信号的功率谱(即能量谱)。

步骤304B，将频域的能量谱作为梅尔尺度的三角滤波器组的输入特征，计算得到待识别语音数据的Filter Bank特征。

在本实施例中，为了得到待识别语音数据的Filter Bank特征，需要将得到的频域的能量谱作为梅尔尺度的三角滤波器组的输入特征，计算每个三角滤波器组输出的对数能量，即得到待识别语音数据的Filter Bank特征。其中，Filter Bank特征也是通过将每一帧语音信号对应的能量谱作为梅尔尺度的三角滤波器组的输入特征，然后得到每一帧语音信号对应的Filter Bank特征。

步骤304C，将Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。

在本实施例中，为了得到待识别语音数据的MFCC特征，还需要将经过滤波器组输出的对数能量进行离散余弦变换得到相应的MFCC特征。通过将每一帧语音信号对应的Filter Bank特征经过离散余弦变换得到每一帧语音信号对应的MFCC特征。其中，FilterBank特征与MFCC特征的区别在于，Filter Bank特征在不同特征维度之间存在数据相关性，而MFCC特征则是采用离散余弦变换去除Filter Bank特征的数据相关性所得到的特征。

如图6所示，在一个实施例中，将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动的步骤308包括：

步骤308A，获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序。

在本实施例中，在提取待识别语音数据中的Filter Bank特征时是通过先将语音数据进行分帧处理，然后提取每一帧语音数据对应的Filter Bank特征，并按照时间的先后顺序排序，即按照待识别语音数据中每一帧出现的先后顺序将对应的每一帧的FilterBank特征进行排序。

步骤308B，将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，通过连接单元控制层与层之间的信息流动，获取输出的每一帧语音数据对应的音素状态上的后验概率。

在本实施例中，深度学习模型的输入采用的是多帧特征，相对于传统的只有单帧输入的混合高斯模型更有优势，因为通过拼接前后语音帧有利于获取到上下文相关信息对当前的影响。所以一般是将每一帧语音数据和与每一帧语音数据的前后预设帧数的FilterBank特征作为训练后的具有连接单元的LSTM模型的输入特征。比如，将当前帧和该当前帧的前后5帧进行拼接，共11帧数据作为训练后的具有连接单元的LSTM模型的输入特征，这11帧语音特征序列通过具有连接单元的LSTM中的各个结点，输出该帧语音数据对应的音素状态上的后验概率。

步骤308C，根据每一帧语音数据对应的后验概率确定待识别语音数据对应的后验概率矩阵。

在本实施例中，当获取到每一帧语音数据对应的后验概率后就确定待识别语音数据对应的后验概率矩阵。后验概率矩阵是有一个个后验概率组成的。由于通过具有连接单元LSTM模型既可以包含有时间维度的信息，又可以包含有层次纬度的信息，所以相对于之前只有时间维度信息的传统模型，该模型能更好的得到待识别语音数据对应的后验概率矩阵。

如图7所示，在一个实施例中，在获取待识别的语音数据的步骤之前还包括：步骤301，GMM-HMM模型的建立和具有连接单元LSTM模型的建立。具体包括：

步骤301A，采用训练语料库对高斯混合模型GMM和HMM进行训练，通过不断的迭代训练确定GMM模型对应的方差和均值，根据方差和均值生成训练后的GMM-HMM模型。

在本实施例中，GMM-HMM声学模型的建立依次采用了单音素训练以及三音素进行训练，其中，三音素训练考虑了当前音素的前后相关音素影响，能够得到更加准确的对齐效果，也就能产生更好的识别结果。根据特征和作用的不用，三音素训练一般采用基于delta+delta-delta特征的三音素训练，线性判别分析+最大似然线性特征转换的三音素训练。具体地，首先对输入的训练预料库中的语音特征进行归一化，默认对方差进行归一化。语音特征归一化是为了消除电话信道等卷积噪声在特征提取计算造成的偏差。然后利用少量特征数据快速得到一个初始化的GMM-HMM模型，然后通过不断的迭代训练确定混合高斯模型GMM对应的方差和均值，一旦方差和均值确定，那么相应的GMM-HMM的模型就相应的确定了。

步骤301B，根据训练语料库中提取的MFCC特征，采用训练后的GMM-HMM模型获取到训练语料库对应的似然概率矩阵。

在本实施例中，采用训练预料库中的语音数据进行训练，提取训练语料库中语音的MFCC特征，然后作为上述训练后的GMM-HMM模型的输入特征，获取到输出的训练语料库中语音对应的似然概率矩阵。似然概率矩阵代表的是语音帧与音素状态上的对齐关系，通过训练后的GMM-HMM输出似然概率矩阵目的是将其作为后续训练深度学习模型的初始对齐关系，便于后续深度学习模型能够得到更好的深度学习的结果。

步骤301C，根据训练预料库中提取的Filter Bank特征和似然概率矩阵对具有连接单元的LSTM模型进行训练，确定与具有连接单元LSTM模型对应的权重矩阵和偏置矩阵，根据权重矩阵和偏置矩阵生成训练后的具有连接单元的LSTM模型。

在本实施例中，将上述通过GMM-HMM计算得到的对齐结果(即似然概率矩阵)和原始语音特征一起作为具有连接单元LSTM模型的输入特征进行训练，其中，这里的原始语音特征采用的Filter Bank特征，相对于MFCC特征，Filter Bank特征具有数据相关性，所以具有更好的语音特征表达。通过对具有连接单元LSTM模型进行训练，确定每一层LSTM对应的权重矩阵和偏置矩阵。具体地，具有连接单元LSTM也属于深度神经网络模型中的一种，神经网络层一般分为三类：输入层、隐藏层和输出层，其中，隐含层有多层。训练具有连接单元LSTM模型的目的就是为了确定每一层中所有的权重矩阵和偏置矩阵以及相应的层数，训练的算法可以采用前向传播算法、维特比算法等现有的算法，这里不对具体的训练算法进行限定。

如图8所示，在一个实施例中，提出了一种语音识别方法，该方法包括以下步骤：

步骤802，获取待识别的语音数据。

步骤804，提取语音数据中的Filter Bank特征和MFCC特征。

步骤806，将MFCC特征作为训练后的GMM-HMM模型的输入数据，获取训练后的GMM-HMM模型输出的第一似然概率矩阵。

步骤808，将Filter Bank特征和第一似然概率矩阵作为训练后的DNN-HMM模型的输入数据，获取训练后的DNN-HMM模型输出的第二似然概率矩阵。

步骤810，将Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取具有连接单元的LSTM模型输出的后验概率矩阵，连接单元用于控制LSTM模型中层与层之间的信息流动。

步骤812，将后验概率矩阵和第二似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第三似然概率矩阵。

步骤814，根据第三似然概率矩阵在音素解码网络中获取与待识别的语音数据对应的目标词序列。

在本实施例中，为了能得到更准确的识别效果，在通过训练后的GMM-HMM模型得到初步对齐结果(第一似然概率矩阵)，再经过训练后的DNN-HMM进行进一步的对齐，能够获取更好的对齐效果。由于深度神经网络模型比传统的混合高斯模型能得到更好的语音特征表达，因此使用深度神经网络模型做进一步强制对齐能进一步提高准确率。然后将该进一步对齐的结果(第二似然概率矩阵)代入具有创新型的具有连接单元LSTM-HMM模型，可以获取到最后的对齐结果(第三似然概率矩阵)。需要说明的是，这里的对齐结果是指语音帧与音素状态的对齐关系。上述不管是混合高斯模型还是深度学习模型等都是声学模型的一部分，而声学模型的作用就是获取语音帧与音素状态的对齐关系，便于后续结合语言模型在音素解码网络中获取与待识别语音数据对应的目标词序列。

如图9所示，在一个实施例中，提出了一种语音识别装置，该装置包括：

获取模块902，用于获取待识别的语音数据。

提取模块904，用于提取语音数据中的Filter Bank特征和MFCC特征。

第一输出模块906，用于将MFCC特征作为训练后的GMM-HMM模型的输入数据，获取训练后的GMM-HMM模型输出的第一似然概率矩阵。

后验概率矩阵输出模块908，将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动。

第二输出模块910，用于将后验概率矩阵和第一似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第二似然概率矩阵。

解码模块912，用于根据第二似然概率矩阵在音素解码网络中获取与待识别的语音数据对应的目标词序列。

在一个实施例中，提取模块还用于将待识别的语音数据进行傅里叶变换转换为频域的能量谱，将频域的能量谱作为梅尔尺度的三角滤波器组的输入特征，计算得到待识别语音数据的Filter Bank特征，将Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。

在一个实施例中，连接单元为sigmoid函数；所述后验概率矩阵输出模块908还用于将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征；根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值；根据所述层与层之间的连接单元所对应的sigmoid函数值，输出与所述Filter Bank特征对应的后验概率矩阵。

如图10所示，在一个实施例中，后验概率矩阵输出模块908包括：

排序模块908A，用于获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序。

后验概率输出模块908B，用于将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征，通过所述连接单元控制层与层之间的信息流动，获取输出的每一帧语音数据对应的音素状态上的后验概率。

确定模块908C，用于根据每一帧语音数据对应的后验概率确定待识别语音数据对应的后验概率矩阵。

如图11所示，在一个实施例中，上述语音识别装置还包括：

GMM-HMM模型训练模块914，用于采用训练语料库对高斯混合模型GMM和HMM进行训练，通过不断的迭代训练确定GMM模型对应的方差和均值，根据方差和均值生成训练后的GMM-HMM模型。

似然概率矩阵获取模块916，用于根据训练语料库中提取的MFCC特征，采用训练后的GMM-HMM模型获取到训练语料库对应的似然概率矩阵。

LSTM模型训练模块918，用于根据训练预料库中提取的Filter Bank特征和似然概率矩阵对具有连接单元LSTM模型进行训练，确定与具有连接单元LSTM模型对应的权重矩阵和偏置矩阵，根据权重矩阵和偏置矩阵生成训练后的具有连接单元LSTM模型。

如图12所示，在一个实施例中，提出了一种语音识别装置，该装置包括：

获取模块1202，用于获取待识别的语音数据。

提取模块1204，用于提取语音数据中的Filter Bank特征和MFCC特征。

第一输出模块1206，用于将MFCC特征作为训练后的GMM-HMM模型的输入数据，获取训练后的GMM-HMM模型输出的第一似然概率矩阵。

第二输出模块1208，将Filter Bank特征和第一似然概率矩阵作为训练后的DNN-HMM模型的输入数据，获取训练后DNN-HMM输出的第二似然概率矩阵。

后验概率矩阵输出模块1210，用于将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动。

第三输出模块1212，用于将后验概率矩阵和第二似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第三似然概率矩阵。

解码模块1214，用于根据第三似然概率矩阵在音素解码网络中获取与待识别的语音数据对应的目标词序列。

在一个实施例中，提出一种计算机设备，该计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取待识别的语音数据，提取所述语音数据中的Filter Bank特征和MFCC特征，将所述MFCC特征作为训练后的GMM-HMM模型的输入数据，获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵，将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动，将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第二似然概率矩阵，根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。

在一个实施例中，所述连接单元为sigmoid函数；所述处理器所执行的所述将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动，包括：将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征；根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值，根据所述层与层之间的连接单元所对应的sigmoid函数值，输出与所述Filter Bank特征对应的后验概率矩阵。

在一个实施例中，所述处理器所执行的所述提取所述语音数据中的Filter Bank特征和MFCC特征，包括：将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱；将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征，计算得到待识别语音数据的Filter Bank特征；将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。

在一个实施例中，所述处理器所执行的将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动的步骤包括：获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序；将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征，通过所述连接单元控制层与层之间的信息流动，获取输出的每一帧语音数据对应的音素状态上的后验概率；根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵。

在一个实施例中，在所述获取待识别的语音数据的步骤之前，所述处理器执行所述计算机程序是还用于实现以下步骤：采用训练语料库对高斯混合模型GMM和HMM进行训练，通过不断的迭代训练确定所述GMM模型对应的方差和均值；根据所述方差和均值生成训练后的GMM-HMM模型；根据所述训练语料库中提取的MFCC特征，采用训练后的GMM-HMM模型获取到所述训练语料库对应的似然概率矩阵；根据所述训练预料库中提取的Filter Bank特征和所述似然概率矩阵对所述具有连接单元的LSTM模型进行训练，确定与所述具有连接单元的LSTM模型对应的权重矩阵和偏置矩阵；根据所述权重矩阵和偏置矩阵生成训练后的具有连接单元的LSTM模型。

在一个实施例中，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现以下步骤：获取待识别的语音数据；提取所述语音数据中的FilterBank特征和MFCC特征；将所述MFCC特征作为训练后的GMM-HMM模型的输入数据，获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵；将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动；将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第二似然概率矩阵；根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。

在一个实施例中，所述连接单元为sigmoid函数；所述处理器所执行的所述将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动，包括：将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征；根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值；根据所述层与层之间的连接单元所对应的sigmoid函数值，输出与所述Filter Bank特征对应的后验概率矩阵。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，所述方法包括：

获取待识别的语音数据；

提取所述语音数据中的Filter Bank特征和MFCC特征；

将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动，包括：获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序；将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征，通过所述连接单元控制层与层之间的信息流动，获取输出的每一帧语音数据对应的音素状态上的后验概率；根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵；

2.根据权利要求1所述的方法，其特征在于，所述连接单元为sigmoid函数；所述将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动，包括：

将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征；

根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值；

根据所述层与层之间的连接单元所对应的sigmoid函数值，输出与所述FilterBank特征对应的后验概率矩阵。

3.根据权利要求1所述的方法，其特征在于，所述提取所述语音数据中的Filter Bank特征和MFCC特征的步骤包括：

将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱；

将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征，计算得到待识别语音数据的Filter Bank特征；

将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。

4.根据权利要求1所述的方法，其特征在于，在所述获取待识别的语音数据的步骤之前还包括：

采用训练语料库对高斯混合模型GMM和HMM进行训练，通过不断的迭代训练确定所述GMM模型对应的方差和均值；

根据所述方差和均值生成训练后的GMM-HMM模型；

根据所述训练语料库中提取的MFCC特征，采用训练后的GMM-HMM模型获取到所述训练语料库对应的似然概率矩阵；

根据所述训练预料库中提取的Filter Bank特征和所述似然概率矩阵对所述具有连接单元的LSTM模型进行训练，确定与所述具有连接单元的LSTM模型对应的权重矩阵和偏置矩阵；

根据所述权重矩阵和偏置矩阵生成训练后的具有连接单元的LSTM模型。

5.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的语音数据；

后验概率矩阵输出模块，用于将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动，包括：获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序；将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征，通过所述连接单元控制层与层之间的信息流动，获取输出的每一帧语音数据对应的音素状态上的后验概率；根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵；

6.根据权利要求5所述的装置，其特征在于，所述连接单元为sigmoid函数；所述后验概率矩阵输出模块还用于将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征；根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值；根据所述层与层之间的连接单元所对应的sigmoid函数值，输出与所述Filter Bank特征对应的后验概率矩阵。

7.根据权利要求5所述的装置，其特征在于，所述提取模块包括：

转换模块，用于将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱；

计算模块，用于将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征，计算得到待识别语音数据的Filter Bank特征；

变换模块，用于将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。

8.一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-4任意一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-4任意一项所述方法的步骤。