CN105139864B

CN105139864B - 语音识别方法和装置

Info

Publication number: CN105139864B
Application number: CN201510504840.6A
Authority: CN
Inventors: 刘孟竹; 唐青松; 张祥德
Original assignee: Beijing Eye Intelligence Technology Co Ltd
Current assignee: Beijing Eye Intelligent Technology Co Ltd; Beijing Eyecool Technology Co Ltd
Priority date: 2015-08-17
Filing date: 2015-08-17
Publication date: 2019-05-07
Anticipated expiration: 2035-08-17
Also published as: CN105139864A

Abstract

本发明公开了一种语音识别方法和装置，属于机器学习和语音识别领域，所述方法包括：获取待识别的语音信号；采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息。其中，所述RNN通过逐层训练得到，所述RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。与现有技术相比，本发明具有速度快、精度高的优点。

Description

语音识别方法和装置

技术领域

本发明涉及机器学习和语音识别领域，特别是指一种语音识别方法和装置。

背景技术

人类最重要的交流方式就是通过语音互相传递信息。如果人与计算机之间也能够通过语音进行交流，无疑会极大的提高人机界面的易用性。随着计算机技术及机器学习的不断发展，人与机器之间的交流也越来越广泛。语音识别把语音转换为相应的文本，以便机器理解和产生相应的操作，对实现机器智能具有重要的意义。

近年来，涌现了一些的语音识别方法，比较常用的语音识别方法有：模板匹配的方法和利用人工神经网络的方法。其中，隐马尔科夫模型(HMM，Hidden Markov Model)是最常用的模板匹配方法，该方法能够合理地模仿人的言语过程，较好地描述语音信号的整体非平稳性和局部平稳性；人工神经网络(ANN，Artificial Neural Network)能够模拟人类神经元的活动，具有自适应性、容错性、鲁棒性和学习性。但是，隐马尔科夫模型没有考虑帧与帧之间的相关性，其对概率密度的先验分布的假设缺乏非线性的判别能力，会导致***精确度差，而且对操作环境的变化十分敏感；而人工神经网络增加了训练的计算要求，由于神经网络缺少对时间依赖问题的建模能力，不能适应语音时间序列，在连续识别任务方面表现很差。

发明内容

本发明要解决的技术问题是提供一种速度快、精度高的语音识别方法和装置。

为解决上述技术问题，本发明提供技术方案如下：

一种语音识别方法，包括：

获取待识别的语音信号；

采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；

将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息；

其中，所述RNN通过逐层训练得到，所述RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。

一种语音识别装置，包括：

获取模块：用于获取待识别的语音信号；

提取模块：用于采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；

识别模块：用于将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息；

本发明的实施例具有以下有益效果：

本发明的语音识别方法和装置，首先采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征，MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数，能很好的反应出人耳的感知特性，同时，MFCC特征模拟了人的听觉特性，符合人听觉特性的语音特征参量，在实际应用中能够取得较高的识别率。然后，本发明利用逐层训练的方法训练RNN，所述RNN包含若干隐含层：当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数；当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本发明中，采用的逐层训练RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力，使得每层RNN提取的特征既可以很好的表征原始信号，又具有良好的分类能力，此外，RNN还具有收敛速度快的特点。与现有技术相比，本发明的具有速度快、精度高的优点。

附图说明

图1为本发明的语音识别方法的流程示意图；

图2为本发明的语音识别方法的MFCC特征提取的流程示意图；

图3为本发明的语音识别方法的非递归层的RNN逐层训练方法的流程示意图；

图4为本发明的语音识别方法的递归层的RNN逐层训练方法的流程示意图；

图5为本发明的语音识别方法的end-to-end训练方法的流程示意图；

图6为本发明的语音识别方法的语音识别的整体流程示意图；

图7为本发明的语音识别方法的RNN的连接方式示意图；

图8为本发明的语音识别方法的自动编码器的原理示意图；

图9为本发明的语音识别装置的结构示意图；

图10为本发明的语音识别装置的结构示意图一；

图11为本发明的语音识别装置的结构示意图二；

图12为本发明的语音识别装置的结构示意图三。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

名词解释：

RNN(Recurrent Neural Network)：递归神经网络，是一种序列模型，在神经网络的基础上，考虑相邻时间t和t-1的隐含层神经元之间的连接关系。

CTC(Connectionist Temporal Classification)：联结时间分类，通过对齐RNN的输出和语音序列标签最小化目标函数。

一方面，本发明提供一种语音识别方法，如图1所示，包括：

步骤S101：获取待识别的语音信号；

本步骤中的语音信号可以在本发明的不同应用场景中获取，其中，本发明可以应用在多种不同的应用场景中，如手机聊天工具中、手机语音搜索功能中、学习外语的校正***中，以及人与电脑进行语音交互的***中等。

步骤S102：采用MFCC算法对语音信号进行特征提取，得到MFCC特征；

本步骤中，MFCC特征的提取过程，如图2所示，MFCC特征是基于人耳听觉特性的Mel频率倒谱系数，该特性充分考虑了人耳的听觉***的非线性特性，将语音信号的频谱转化为基于Mel频率的非线性频谱，再转换到倒谱域上，因此MFCC具有良好识别性能和抗噪能力。

步骤S103：将MFCC特征输入预先训练好的RNN，得到识别出的文本信息；

本步骤中，采用的RNN是一种序列模型，在神经网络的基础上，考虑相邻时间的隐含层单元之间的连接关系，对非线性时间序列信号中的有效信息有突出的表征能力。

其中，RNN通过逐层训练得到，RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。

本发明的语音识别方法，首先采用MFCC算法对语音信号进行特征提取，得到MFCC特征，MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数，能很好的反应出人耳的感知特性，同时，MFCC特征模拟了人的听觉特性，符合人听觉特性的语音特征参量，在实际应用中能够取得较高的识别率。然后，本发明利用逐层训练的方法训练RNN，RNN包含若干隐含层：当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数；当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本发明中，采用的逐层训练RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力，使得每层RNN提取的特征既可以很好的表征原始信号，又具有良好的分类能力，此外，RNN还具有收敛速度快的特点。与现有技术相比，本发明的具有速度快、精度高的优点。

作为本发明的一种改进，如图3所示，RNN的逐层训练方法包括：

步骤S201：当隐含层为非递归层时，采用自动编码器对训练样本依次进行编码和解码操作，计算得到训练样本的每个时间步的重构误差；

步骤S202：采用误差反向传播算法使得重构误差最小，更新参数值，采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值，作为原始输入的抽象表示；

上述步骤S201和S202中，采用的自动编码器，具有良好的学习数据特征的能力，自动编码器能够学习数据中的特征，同时降低特征维数。本发明的实施过程为：

时间步t从1递增到T，编码过程为：

其中W⁽ⁱ⁾，b⁽ⁱ⁾为网络参数，解码过程为：

其中，f是一个非线性函数，优选的，f采用sigmoid函数。计算得到样本的每个时间步的重构误差；

δ_t＝x_t-y_t (3)

之后采用误差反向传播算法使得重构误差最小，更新参数值W⁽ⁱ⁾和b⁽ⁱ⁾，接着，采用更新后的参数计算该层时间t的编码作为原始输入x_t的抽象表示，如果编码值能够对它的原始输入进行良好的重构(即重构误差很小)，那么就认为它保留了原始数据所含有的大部分信息。

步骤S203：将激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

因为前述步骤中采用的自动编码器是一个特征提取器，所以，本步骤中要实现分类功能还需要在网络后添加分类器，本发明中，优选采用softmax分类器进行多分类任务，softmax分类器是一个激活函数，可以实现多分类，公式为：

其中，j表示第j类，N表示类别总数；

然后，本步骤中采用CTC网络对齐序列标签，将分类器的输出与标签对齐来计算误差。

步骤S204：采用误差反向传播算法调整该层与前一层连接的权重矩阵和偏差向量参数。

本发明中，采用逐层有监督训练RNN的语音识别方法，利用语音序列的标签逐层训练非递归层的RNN参数W⁽ⁱ⁾和b⁽ⁱ⁾，使得提取的特征具有很好的分类能力，并且，与现有技术相比，本发明采用CTC网络计算目标函数，不需要对语音序列样本和标签预先分节或者进行后处理，在减少工作量的同时也能提高训练精度。

作为本发明的进一步改进，如图4所示，RNN的训练方法包括：

步骤S301：当隐含层为递归层时，采用自动编码器对训练样本依次进行编码和解码操作，计算得到训练样本的每个时间步的重构误差；

步骤S302：采用误差反向传播算法使得重构误差最小，更新参数值，采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值，作为原始输入的抽象表示；

上述步骤S301和S302中，通过自动编码器训练该层隐含层参数W⁽ⁱ⁾和b⁽ⁱ⁾，因为该层是递归层，编码过程还需考虑不同时间t的权重矩阵W_hh，即

时间步t从1递增到T，编码过程为：

其中，W⁽ⁱ⁾、b⁽ⁱ⁾和W_hh，以及t＝1时的初始状态的激活值为网络参数，解码过程为：

δ_t＝x_t-y_t (7)

之后采用误差反向传播算法使得重构误差最小，更新参数值W⁽ⁱ⁾、b⁽ⁱ⁾、W_hh和从而得到该层时间t的编码作为原始输入x_t的抽象表示。

步骤S303：将激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

步骤S304：采用误差反向传播算法调整该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。

本步骤中，与非递归层的RNN的逐层训练方法不同的是，误差反向传播算法中还需考虑该层不同时间t之间误差的传播。

本发明中，采用逐层有监督训练RNN的语音识别方法，利用语音序列的标签逐层训练递归层的RNN参数W⁽ⁱ⁾、b⁽ⁱ⁾、W_hh和使得提取的特征具有很好的分类能力，并且，与现有技术相比，本发明采用CTC网络计算目标函数，不需要对语音序列样本和标签预先分节或者进行后处理，在减少工作量的同时也能提高训练精度。

本发明中，RNN在逐层训练之后还进行了end-to-end训练，如图5所示，end-to-end训练包括：

步骤S401：将逐层训练得到的每层隐含层的参数作为RNN参数的初始值，将训练样本的MFCC特征作为RNN的输入，从第一层隐含层开始，到最后一层隐含层结束，逐层向后传播，得到最后一层隐含层的激活值；

步骤S402：将最后一层隐含层的激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

步骤S403：采用误差反向传播算法从最后一层隐含层开始，到第一层隐含层结束，逐层地向前传播，调整每层隐含层的RNN参数。

本发明中，在RNN的训练方法之后又采用end-to-end训练，使我们在通过RNN的训练方法得到的很好的参数初值的基础上，再对每个隐含层的RNN参数进行微调，当调整对象为非递归层时，RNN参数为W⁽ⁱ⁾和b⁽ⁱ⁾；当调整对象为递归层时，RNN参数为W⁽ⁱ⁾、b⁽ⁱ⁾、W_hh和本发明有效地避免了RNN参数陷入局部极小值，使每个隐含层的RNN参数串联后，能够具有很好的分类能力，可以更快的收敛到最优解。

本发明中，误差反向传播算法优选为BP算法。BP算法是将输出层误差通过隐含层向输入层逐层传播，并将误差按照权重分摊给前一层隐含层的所有单元，从而获得各隐含层单元的误差信号，此误差信号即作为修正各单元权值的依据，误差反向传播的各层权值调整过程，是周而复始地进行的，权值不断调整的过程，也就是网络的学习训练过程，此过程一直进行到网络输出的误差减少到可接受的程度为止。

本发明中的误差反向传播算法是对每个训练样本，时间从T(T为语音序列的长度)递减到1，目标函数对softmax层输入的导数为式(8)，进行误差反向传播并更新参数。

其中，

下面，本发明提供了一个完整的实施例，对本发明的逐层有监督训练RNN的过程进行详细说明。

如图6所示，本实施例在进行训练时可以分为以下步骤：

(1)对训练集中的语音样本提取MFCC特征；

(2)将提取的特征作为RNN的输入，预训练网络参数；

(3)end-to-end调整网络参数，得到训练好的RNN。

本发明，在具体实施时可以参照如下步骤进行：

上述步骤(1)具体实施过程：

首先，对训练集中的语音信号进行分帧，一般分帧的间隔是0.2ms，分帧之后一维的语音信号变为了一个2维的矩阵，矩阵的每行表示一帧语音信号，然后，进行加窗处理并做FFT变换，将每帧的时域信号映射到频率域，最后提取MFCC特征，作为RNN的输入x。

上述步骤(2)具体实施过程：

训练RNN参数时，分成两部分：对递归层的训练和对非递归层的训练。即根据RNN的网络结构分类的，例如我们设计的网络是一个4层的网络，第1层是输入层，中间的2层是隐含层，其中第2层是非递归层，第3层是递归层，第4层是输出层。那么训练第2层就采用非递归层的训练方式，训练的参数只有W⁽²⁾和b⁽²⁾，训练第3层采用递归层的训练方法，参数为W⁽³⁾、b⁽³⁾、W_hh和其中，W_hh为序列样本前后时间的相关关系，为初始状态激活值参数。两种方法的本质相同，只是参数不同。

本发明中，RNN是一种序列模型，在神经网络的基础上，考虑相邻时间t和t-1的隐含层单元之间的连接关系，对非线性时间序列信号中的有效信息有突出的表征能力。如图7所示，为本发明的RNN连接方式，前向传导计算如下：

其中，x_t为时间t的输入向量，为时间t的第i(i＝1,2)层隐含层的输出向量，W⁽ⁱ⁾表示连接第i层与第i-1层的权重矩阵、W_hh为递归层的权重矩阵，b⁽ⁱ⁾为第i层的偏差向量，f为隐含层的非线性激活函数，本发明中选用sigmoid函数作为激活函数：g为softmax层的激活函数。

当隐含层为非递归层时，具体训练每层参数的方法：

(a)如图8所示，本发明中采用的自动编码器是一种尽可能复现输入信号的神经网络。为了实现这种复现，自动编码器提取出可以代表输入数据的最重要的因素，找到可以代表原信号的主要成分。

编码之后的结果为式：

解码的过程：

解码后的时间t的重构误差为：

之后采用反向传播算法使得重构误差最小，得到W⁽ⁱ⁾和b⁽ⁱ⁾，从而得到该层时间t的编码作为原始输入x_t的抽象表示。

(b)在解码器后加入softmax分类器，通过CTC网络对齐序列标签，有监督地训练调整该层参数W⁽ⁱ⁾和b⁽ⁱ⁾。具体步骤如下：

按照(12)式计算softmax层的输出：

其中，g为softmax层的激活函数。

按照(13)式计算CTC前向变量：

这里，y′是语音序列标签y在开始和结尾加入空格(表示没有输出，用b表示)，然后在每对标签字符之间加入空格得到的。

按照(14)式计算CTC后向变量：

前向变量、后向变量规范化：

目标函数为：

其中S为训练集，(x,y)为训练集中的一个训练样本，P(y/x)为CTC网络的输出是标签序列的概率。

当隐含层为递归层时，具体训练每层参数的方法：

(a)通过自动编码器训练该层隐含层参数W⁽ⁱ⁾和b⁽ⁱ⁾，因为该层是递归层，编码过程还需考虑不同时间t的权重矩阵W_hh，即

(b)加入序列标签，对该层参数W⁽ⁱ⁾、b⁽ⁱ⁾、W_hh和调整，误差反向传播过程需考虑该层不同时间t之间误差的传播，误差按照图7所示的箭头的反方向传播。

上述过程中采用的误差反向传播算法是对每个训练样本，时间从T(T为语音序列的长度)递减到1，目标函数对softmax层输入的导数为式(18)，进行误差反向传播并更新参数W⁽ⁱ⁾和b⁽ⁱ⁾：

其中，

上述步骤(3)具体实施过程：

end-to-end训练过程中，将逐层训练得到的每层隐含层的参数作为RNN参数的初始值，将训练样本的MFCC特征作为RNN的输入，从第一层隐含层开始，到最后一层隐含层结束，逐层向后传播，得到最后一层隐含层的激活值；

本实施例中，首先判断该层网络的结构是非递归层还是递归层，然后采用本领域技术人员公知的激活值计算公式进行计算：如果是非递归层，按照下式计算：

如果是递归层，则计算公式为：

当i＝1时，即计算第一层隐含层激活值时，最后得到的即为softmax分类器的输入；

将计算得出的激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与标签的误差；

采用误差反向传播算法从最后一个隐含层开始，到第一个隐含层结束，逐层地向前传播，调整每个隐含层的RNN参数。

本实施例中，采用反向传播算法使得重构误差最小的具体说明如下：

根据式(21)得到解码后的时间t的重构误差：

然后求解δ_t对参数W⁽ⁱ⁾和b⁽ⁱ⁾的偏导数为和

按照下式更新参数：

然后使用新的参数计算样本的重构误差，若不满足我们需要的精度，继续按照上式更新，如果满足我们需要的精度，就得到了训练好的参数W⁽ⁱ⁾和b⁽ⁱ⁾。

本实施例中，采用误差反向传播算法进行参数更新的具体方法如下：对于第i层，首先判断是否是递归层：

对于非递归层：t从T递减到1：

按照下式更新参数：

其中，这里η为学习速率。

对于递归层：

按照下式更新参数：

当t＝1时

本实施例的语音识别方法，利用语音序列的标签逐层训练RNN的参数，使得每层网络提取的特征既可以很好的表征原始信号，又具有分类能力。与现有技术相比，本方法在进行端到端(end-to-end)训练时可以获得一个相对较好的参数初始值，可以有效地避免陷入局部极小值，以更快地收敛到最优解，并且本发明利用CTC网络计算目标函数，不需要对语音序列样本和标签预先分节或者进行后处理，在减少工作量的同时也能提高训练精度。此外，本发明采用的RNN训练方法可以学习更加非线性和更加抽象的特征，与现有技术相比，无需对获取的语音信号进行预处理，就能够实现准确的语音识别，在一定程度上提高了本发明的语音识别的处理速度。本发明在TIMIT数据库上的RNN训练的速度是改进前的6倍，并且识别的错误率从37.67％下降到28.5％。

另一方面，本发明还提供一种语音识别装置，如图9所示，包括：

获取模块11：用于获取待识别的语音信号；

提取模块12：用于采用MFCC算法对语音信号进行特征提取，得到MFCC特征；

识别模块13：用于将MFCC特征输入预先训练好的RNN，得到识别出的文本信息；

本发明的语音识别装置，首先采用MFCC算法对语音信号进行特征提取，得到MFCC特征，MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数，能很好的反应出人耳的感知特性，同时，MFCC特征模拟了人的听觉特性，符合人听觉特性的语音特征参量，在实际应用中能够取得较高的识别率。然后，本发明利用逐层训练的方法训练RNN，RNN包含若干隐含层：当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数；当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本发明中，采用的逐层训练RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力，使得每层RNN提取的特征既可以很好的表征原始信号，又具有良好的分类能力，此外，RNN还具有收敛速度快的特点。与现有技术相比，本发明的具有速度快、精度高的优点。

作为本发明的一种改进，识别模块13连接有RNN训练模块1，如图10所示，RNN训练模块1包括：

第一自动编码模块21：用于当隐含层为非递归层时，采用自动编码器对训练样本依次进行编码和解码操作，计算得到训练样本的每个时间步的重构误差；

第一训练模块22：用于采用误差反向传播算法使得重构误差最小，更新参数值，采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值，作为原始输入的抽象表示；

第一计算模块23：用于将激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

第一调整模块24：用于采用误差反向传播算法调整该层与前一层连接的权重矩阵和偏差向量参数。

本发明中，采用RNN训练模块1，利用语音序列的标签逐层训练非递归层的RNN参数W⁽ⁱ⁾和b⁽ⁱ⁾，使得提取的特征既可以很好的表征原始信号，又具有分类能力。并且，与现有技术相比，本发明采用CTC网络计算目标函数，不需要对语音序列样本和标签预先分节或者进行后处理，在减少工作量的同时也能提高训练精度。

作为本发明的进一步改进，如图11所示，RNN训练模块1还包括：

第二自动编码模块31：用于当隐含层为递归层时，采用自动编码器对训练样本依次进行编码和解码操作，计算得到训练样本的每个时间步的重构误差；

第二训练模块32：用于采用误差反向传播算法使得重构误差最小，更新参数值，采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值，作为原始输入的抽象表示；

第二计算模块33：用于将激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

第二调整模块34：用于采用误差反向传播算法调整该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。

本发明中，采用RNN训练模块1，利用语音序列的标签逐层训练递归层的RNN参数W⁽ⁱ⁾、b⁽ⁱ⁾、W_hh和使得提取的特征既可以很好的表征原始信号，又具有分类能力。并且，与现有技术相比，本发明采用CTC网络计算目标函数，不需要对语音序列样本和标签预先分节或者进行后处理，在减少工作量的同时也能提高训练精度。

本发明中，RNN训练模块1还连接有end–to-end训练模块2，如图12所示，end–to-end训练模块2，包括：

传播模块41：用于将逐层训练得到的每层隐含层的参数作为RNN参数的初始值，将训练样本的MFCC特征作为RNN的输入，从第一层隐含层开始，到最后一层隐含层结束，逐层向后传播，得到最后一层隐含层的激活值；

计算模块42：用于将最后一层隐含层的激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

调整模块43：用于采用误差反向传播算法从最后一层隐含层开始，到第一层隐含层结束，逐层地向前传播，调整每层隐含层的RNN参数。

本发明中的end–to-end训练模块2，使我们在通过RNN训练模块1得到的很好的参数初值的基础上，再对每个隐含层的RNN参数进行微调，有效地避免了RNN参数陷入局部极小值，使每个隐含层的RNN参数串联后，能够具有很好的分类能力，可以更快的收敛到最优解。

本发明中，误差反向传播算法为BP算法。BP算法是将输出层误差通过隐含层向输入层逐层传播，并将误差按照权重分摊给前一层隐含层的所有单元，从而获得各隐含层单元的误差信号，此误差信号即作为修正各单元权值的依据，误差反向传播的各层权值调整过程，是周而复始地进行的，权值不断调整的过程，也就是网络的学习训练过程，此过程一直进行到网络输出的误差减少到可接受的程度为止。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别的语音信号；

采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；

其中，所述RNN通过逐层训练得到，所述RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数；

所述RNN的训练方法包括：

当隐含层为递归层时，采用自动编码器对训练样本依次进行编码和解码操作，计算得到训练样本的每个时间步的重构误差；

采用误差反向传播算法使得重构误差最小，更新参数值，采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值，作为原始输入的抽象表示；

将所述激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

采用误差反向传播算法调整该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数；

所述RNN在逐层训练之后还进行了end-to-end训练，所述end-to-end训练包括：

将逐层训练得到的每层隐含层的参数作为RNN参数的初始值，将训练样本的MFCC特征作为RNN的输入，从第一层隐含层开始，到最后一层隐含层结束，逐层向后传播，得到最后一层隐含层的激活值；

将最后一层隐含层的激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

采用误差反向传播算法从最后一层隐含层开始，到第一层隐含层结束，逐层地向前传播，调整每层隐含层的RNN参数。

2.根据权利要求1所述的语音识别方法，其特征在于，所述RNN的逐层训练方法包括：

当隐含层为非递归层时，采用自动编码器对训练样本依次进行编码和解码操作，计算得到训练样本的每个时间步的重构误差；

采用误差反向传播算法调整该层与前一层连接的权重矩阵和偏差向量参数。

3.根据权利要求2所述的语音识别方法，其特征在于，所述误差反向传播算法为BP算法。

4.一种语音识别装置，其特征在于，包括：

获取模块：用于获取待识别的语音信号；

所述RNN训练模块包括：

第二自动编码模块：用于当隐含层为递归层时，采用自动编码器对训练样本依次进行编码和解码操作，计算得到训练样本的每个时间步的重构误差；

第二训练模块：用于采用误差反向传播算法使得重构误差最小，更新参数值，采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值，作为原始输入的抽象表示；

第二计算模块：用于将所述激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

第二调整模块：用于采用误差反向传播算法调整该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数；

所述RNN训练模块还连接有end–to-end训练模块，所述end–to-end训练模块，包括：

传播模块：用于将逐层训练得到的每层隐含层的参数作为RNN参数的初始值，将训练样本的MFCC特征作为RNN的输入，从第一层隐含层开始，到最后一层隐含层结束，逐层向后传播，得到最后一层隐含层的激活值；

计算模块：用于将最后一层隐含层的激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

调整模块：用于采用误差反向传播算法从最后一层隐含层开始，到第一层隐含层结束，逐层地向前传播，调整每层隐含层的RNN参数。

5.根据权利要求4所述的语音识别装置，其特征在于，所述识别模块连接有RNN训练模块，所述RNN训练模块还包括：

第一自动编码模块：用于当隐含层为非递归层时，采用自动编码器对训练样本依次进行编码和解码操作，计算得到训练样本的每个时间步的重构误差；

第一训练模块：用于采用误差反向传播算法使得重构误差最小，更新参数值，采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值，作为原始输入的抽象表示；

第一计算模块：用于将所述激活值输入softmax分类器，并通过CTC网络对齐序列标签，计算softmax输出与序列标签的误差；

第一调整模块：用于采用误差反向传播算法调整该层与前一层连接的权重矩阵和偏差向量参数。

6.根据权利要求5所述的语音识别装置，其特征在于，所述误差反向传播算法为BP算法。