CN110211574A

CN110211574A - 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法

Info

Publication number: CN110211574A
Application number: CN201910477034.2A
Authority: CN
Inventors: 韩纪庆; 唐海桃; 郑铁然; 郑贵滨
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-09-06
Anticipated expiration: 2039-06-03
Also published as: CN110211574B

Abstract

基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，属于建模方法领域。传统的注意力模型存在识别性能较差，注意力尺度单一等问题。一种基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，采用深度置信网络提取瓶颈特征作为前端，能够增加模型的鲁棒性，而后端则采用由不同尺度的卷积核组成的多尺度多头注意力模型，分别对音素、音节、词等级别的语音基元进行建模，逐个计算出循环神经网络隐含层状态序列以及输出序列；使用每个头的注意力网络所对应的解码网络计算输出序列在位置处的元素，最终将所有输出序列采整合成一个新的输出序列。本发明能够提高语音识别***的识别效果。

Description

基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法

技术领域

本发明涉及一种语音识别技术领域的训练模型，具体涉及一种通过提取瓶颈特征来增加模型的鲁棒性，以及建立多尺度多头模型来对音素、音节、词等级别的语音基元进行建模，以提高其识别性能的改进方法。

背景技术

语音信号是人类社会中最普遍和常用的信号之一，它是人们表达、交流和传播信息的重要途径。在当今信息***的时代，互联网和电话信道中无时无刻不在产生海量语音数据，为了更加高效地对大规模语音信号进行识别、分类和检索，自动语音识别(AutomaticSpeech Recognition,ASR)的需求变得更加的迫切。与基于传统的隐马尔可夫模型(HiddenMarkov Model,HMM)语音识别***相比，端到端的语音识别***把声学模型、发音字典和语音模型全部融合至一套神经网络中，在让模型变得更加简洁的同时也更便于对参数直接优化；端到端模型具有更强的通用性，既减少了对专业语言学知识的依赖，又降低了语音识别***的搭建难度；端到端模型的训练数据不需要对齐信息，可直接将带标注的语音直接用于训练。注意力模型摆脱对模型输出独立性假设，通过注意力系数来量化音素与特征的对齐关系，具有一定的解释性。本专利关于端到端语音识别的研究将从注意力模型展开，聚焦目前基于注意力模型的语音识别***存在的训练周期长和识别性能欠缺等问题。针对注意力模型由于内部应用大量循环神经网络单元，致使其参数规模庞大且内部结构复杂，因此造成训练效率低下的问题，尽管可以通过增加硬件计算资源来部分的加以解决，但从算法层面研究仍然是一个难点问题。注意力模型将语音学的先验知识彻底摒弃致使其缺少有效的初始化参数，造成参数收敛速度缓慢，这也是增加训练时间的重要原因，因而如何将模型与语音特征整合是一项非常有意义的工作。注意力模型在性能上与传统模型存在差距的原因为：语料资源有限导致的训练不充分、生成特征与音素(字素)对齐关系不够准确，模型对噪声的鲁棒性较差。针对以上问题，需要对此模型进行深入研究，寻求合理的解决方案。

发明内容

本发明的目的是为了解决现有的传统注意力模型存在识别性能较差，注意力尺度单一的问题，而提出一种基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法。

一种基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，所述方法包括以下步骤：

步骤一、利用输入的样本FBank语音特征向量X＝(x₁,x₂,...,x_T)对DBN中的RBM网络进行无监督训练，得到初始化编码网络中前三层连接权重矩阵W₁、W₂、W₃，由这三层连接权重矩阵和一层随机初始化权值输出层W₄组成编码网络前端的基于DBN的瓶颈特征提取网络；RBM网络表示受限玻尔兹曼机，英文全称为Restricted Boltzmann Machine，简称RBM；DBN表示深度置信网络，英文全称为Deep Belief Network，简称DBN；FBank表示滤波器组；样本FBank语音特征向量X＝(x₁,x₂,...,x_T)中，x₁表示第一时刻fbank的特征序列，x₂表示第二时刻fbank的特征序列，x_T表示第T个时刻fbank的特征序列，由这些特征序列最终组成了语音特征向量；fbank特征是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)MFCC未做离散余弦变换的结果；

步骤二、抽取样本FBank语音特征向量X＝(x₁,x₂,...,x_T)输入至步骤一的四层瓶颈特征提取网络中，利用前向计算得到瓶颈特征提取网络输出v；然后，根据瓶颈特征提取网络的输出v和样本训练数据X的实际输出采用BP算法对瓶颈特征提取网络进行有监督训练，以计算四层的瓶颈特征提取网络的每层权值和偏置的梯度，再对权值和偏置进行迭代更新；步骤二进行的有监督训练，可以计算得更快，更准确；

步骤三、将步骤二的四层瓶颈特征提取网络最后一层输出层去掉，只保留前三层重新作为编码网络的前端，将前端输出的瓶颈特征序列(v₁,v₂,...,v_n)作为RNN的输入，此处RNN为编码网络的后端，它由两组基于GRU的多层RNN组成，分别为前向网络和后向网络；

则输入的FBank语音特征向量X经过编码网络前端瓶颈特征提取网络得到瓶颈特征序列(v₁,v₂,...,v_n)，输出的瓶颈特征序列通过编码器后端基于GRU的多层RNN得到最终的输出为高层特征序列(h₁,h₂,...,h_T)；

编码网络由步骤1瓶颈特征提取网络、步骤3的循环神经网络组成，称瓶颈特征提取网络为编码网络的前端；GRU的英文全称为Gated Recurrent Unit，简称GRU；RNN表示循环神经网络，全称为Recurrent Neural Network，简称RNN；

步骤四、采用多尺度多头的注意力机制将编码网络后端输出的高层特征序列(h₁,h₂,...,h_T)分别注入不同尺度的卷积核F_i中，并对音素、音节、词等级别的语音基元进行建模，从而得到各自的目标向量ct_o，以便于后端模式分类。再将每种模型对应的ct_o作为多尺度多头注意力网络中每个头的解码RNN网络的输入，逐个计算出RNN隐含层状态序列(s₁,s₂,...,s_o)，以及输出音素序列(y₁,y₂,...,y_o)；

步骤五、使用多尺度多头注意力网络中每个头的注意力网络所对应的解码RNN网络计算输出序列(y₁,y₂,...,y_o)进行拼接得到新的输出序列(y₁,y₂,...,y_o)_i；将新的输出序列采用DNN整合成最终的输出序列(Y₁,Y₂,...,Y_o)。这里，每个头对应的解码网络的输出y_o是由每个头注意力网络生成目标向量ct_o和在位置o-1的元素y_o-1产生的。

本发明的有益效果为：

本发明提供了一种基于瓶颈特征和多尺度多头注意力机制的语音识别方法。该方法采用DBN提取瓶颈特征来作为编码网络的前端，能够增加语音识别***的鲁棒性，而解码网络则采用由不同尺度的卷积核组成的多尺度多头注意力模型，能够分别对音素、音节、词等不同等级的语音基元进行建模，提高语音识别***的识别效果。

本发明方法设计的基于多尺度多头的注意力模型的语音识别在音素序列识别方面性能优于传统模型，具有更强大的时序建模能力和区分能力。设计的语音识别训练模型提高识别的准确性，降低***误识率和拒识率。

附图说明

图1为结合瓶颈特征提取网络的多尺度多头注意力模型；

图2为基于DBN的瓶颈特征提取网络；

具体实施方式

具体实施方式一：

本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，所述方法包括以下步骤：

具体实施方式二：

与具体实施方式一不同的是，本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，所述的步骤一中，输入的语音特征向量X＝(x₁,x₂,...,x_T)采用40维FBank特征和能量，再拼接对应一阶和二阶差分，共计123维参数；对提取的特征，首先在训练集范围内进行归一化，使每个分量服从标准正态分布，再利用训练集的归一化参数对测试集和开发集特征归一化处理。

具体实施方式三：

与具体实施方式一或二不同的是，本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，所述的步骤一和步骤二中，对DBN中的RBM网络进行无监督训练过程，其中，RBN网络的训练包括采用无监督预训练(pretraining)和反向梯度传播算法有监督训练方法；所述的RBM网络的输入为FBank语音特征，RBM网络的输出层为softmax层，每个输出层单元对应绑定三音子状态的后验概率；在输入层和输出层之间有三个隐含层，第二个隐含层为瓶颈层，第二个隐含层的状态单元数目少于其他隐含层。

具体实施方式四：

与具体实施方式一或二不同的是，本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，所述的步骤一中，利用输入的语音特征FBank对RBM网络进行无监督训练的过程为：

步骤一一、在4层结构的DBN的基础上增加一层输出音素状态的分类标签，得到5层结构的瓶颈特征，将语音特征作为5层结构的瓶颈特征以提取RBM网络的输入；其中，4层DBN由4组单层RBM连续堆叠而成，第一层为高斯-伯努利RBM，其余三层均为伯努利-伯努利RBM；

步骤一二、在RBM中，由于可见层和隐含层内部之间没有神经元相连接，所以彼此间互相独立。因此后验概率p(v|h)和p(h|v)均能被方便地计算出来。其中伯努利-伯努利RBM的后验概率p(h|v)计算过程如下：

其中，E(v,h)为单层RBM的能量值，v为可视层向量，a为可视层的偏置向量，h为隐含层向量，b为隐含层偏置向量，W为连接可见层和隐含层的权重矩阵，W_i,*v表示权值矩阵W的第i行。公式(1)推导说明在可见层确定的情况下，隐含层状态的各个分量之间互相独立；

步骤一三、由伯努利-伯努利RBM隐含层神经元状态每个分量h_i的取值只有0和1，有：

其中，σ(·)表示Sigmoid函数；

隐含层状态的向量可以用如下公式表示：

p(h＝1|v)＝σ(Wv+b) (3)

根据对称关系，在已知隐含层状态下，单层伯努利-伯努利RBM的可见层状态为：

p(v＝1|h)＝σ(W^Th+a) (4)

步骤一四、对于可见层为高斯分布的高斯-伯努利RBM，后验概率p(h＝1|v)的计算与式(3)相同，而p(v|h)的计算方式如下：

p(v|h)＝N(v；W^Th+a,I) (5)

其中I代表单位阵；

步骤一五、编码的DBN网络的堆叠的过程如下：

首先，训练一个高斯-伯努利RBM，原因是第一层输入的语音特征为实数，与高斯分布相适配；然后，将隐含层单元的激活概率作为下一层为伯努利-伯努利RBM的可见层输入，第二层RBM的隐含状态再作为第三层RBM的输入，此后所有层依次类推；

在给定训练数据集V下，单层RBM的参数训练通过采用梯度下降法最小化负对数似然度实现：

训练过程中，负对数似然度的导数一般形式为：

其中，θ＝{a,b,W}决定RBM的可视层向量v的分布，<ξ>_data和<ξ>_model分别表示从样本数据和模型中估计出随机变量ξ的期望值；对于单层RBM中连接矩阵的权重，有：

以伯努利-伯努利RBM为例，期望<v_ih_j>_data为训练数据中可见层状态v_i和隐含层状态v_i取值同时为1的频率，期望<v_ih_j>_model为RBM生成式模型分布计算得到的期望。

步骤一六、训练该DBN：

首先，根据输入样本数据对第一层RBM用对比散度算法(Compare Divergence,CD)算法初始化；其中，CD算法中运用吉布斯采样(Gibbs Sample)得到的样本对模型进行估计，CD算法中的吉布斯采样过程具体为：

1)、吉布斯采样器通过数据样本对可见层初始化，得到可见层状态v；

2)、采用式(3)计算得到后验概率p(h|v)作为隐含层状态h；

其次，再根据RBM类型的不同分别采用式(4)或式(5)分别采样重构可见层状态v；之后，固定第一层RBM的参数，根据样本数据计算RBM的隐含层状态，并将其作为第二层RBM可见层状态；此时，再采用CD算法获取训练第二层RBM；

往后依次类推，最终逐个得到连接DBN层与层之间的权重参数；

最终，训练结束后，只保留连接层与层的权重矩阵作为DBN转移矩阵的初始化参数。

具体实施方式五：

与具体实施方式一或二不同的是，本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，所述的步骤二中，采用BP算法对RBM网络进行有监督训练，即为借助RBM技术利用样本输入数据对网络进行无监督训练后，编码网络中前3层连接权重矩阵均得到初始化，并且训练后的权重矩阵能够部分反映和“记忆”样本数据中的有效信息。为了进一步增强网络对语音特征的提取和区分能力，使得后续的注意力模型获取的瓶颈特征具有更强的鲁棒性和区分性，在无监督训练基础上采用语音样本标注对语音样本进行有监督训练，具体过程为：

步骤二一、将DBN的权重直接迁移至深度神经网络(Deep Neural Network,DNN)中；之后，在已知DNN部分模型参数的基础上进行微调(fine tuning)；网络的前3个连接矩阵权重W₁,W₂,W₃已知，这三层和一层随机初始化权值输出层W₄组成编码网络前端的基于DBN的瓶颈特征提取网络，在层与层之间加入激活函数，计算网络前向：

令f(·)表示激活函数，第1个隐含层状态h₁和第l个隐含层状态h_l分别为：

h₁＝f(W¹x+b¹) (9)

h_l＝f(W^lh_l-1+b^l) (10)

由第4个隐含层h₄通过softmax函数得到网络最后的输出向量v：

v＝softmax(W⁴h₃+b⁴) (11)

其中，在运用上述方法训练网络时，每次从训练样本集中随机抽取固定数目的样本，并将抽取样本的特征输入至网络中，通过前向计算得到网络输出；

步骤二二、根据网络的输出和样本训练数据采用BP算法计算每层参数的梯度，再对模型参数进行更新：

DBN网络训练准则通常采用最小化交叉熵(crossentropy,CE)函数：

然后，使用反向传播算法(BackPropagation，BP)对网络参数进行微调，该算法通常按照如下公式对模型参数更新：

其中，和分别为进行t次参数更新之后，网络中第l层的权重矩阵和偏置向量，μ为学习速率，△W_t ^l和分别为权重矩阵和偏置向量的梯度，该梯度由训练样本计算一阶导数而得：

其中，M为每次训练使用到的样本数目；

步骤二三、循环地执行步骤二一和步骤二二两个步骤，并且将网络的输出与模型输出的误差是否达到设定的阈值作为训练是否结束的标志：

首先，在训练过程中，通常也采用开发集(development set)计算网络输出与标准输出的误差，用于交叉验证(cross validation)；

然后，在此基础上为了获得瓶颈特征提取网络，将训练好的网络中最后输出层的网络状态单元、转移矩阵和偏置向量全部删除，将剩下的作为编码网络的前端，将特征提取瓶颈层的状态作为编码网络前端的输出；为了提取瓶颈特征，把语音原始特征参数作为网络输入，通过该网络逐层计算出瓶颈层输出向量，该向量即为瓶颈特征参数；因为该网络训练过程中采用RBM对模型参数进行初始化，并且有监督训练时GMM-HMM模型提供的对齐信息，所以提取的瓶颈特征与传统特征相比对于不同音素状态有更好的区分性和鲁棒性。因而如果将该瓶颈特征应用于注意力模型，相当于将网络中的知识迁移至注意力模型中。

具体实施方式六：

与具体实施方式五不同的是，本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，

所述的多尺度多头注意力模型由编码网络、解码网络和注意力网络三个模块组成；

编码网络和解码网络均包含循环神经网络单元；

编码网络前端为DBN特征提取网络，后端则为深层循环神经网络，目的是学习和挖掘语音特征序列的上下文关联信息，从原始特征中提取高层信息，增强特征的区分度和表征能力；

注意力网络的主体是多层感知器，网络输入是编码网络的输出和解码网络的隐含层单元状态，网络的输出是它们的关联度分数；关联度分数在指数归一化处理后即得到注意力系数；

解码网络由单层循环神经网络和maxout网络连接而成，首先根据注意力网络得到注意力系数，然后对所有编码网络的输出加权求和得到目标向量，最后将目标向量作为网络输入，计算输出序列每个位置上各个音素出现的后验概率。

具体实施方式七：

与具体实施方式六不同的是，本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，所述的步骤三中，高层特征序列(h₁,h₂,...,h_T)是通过多尺度多头注意力模型的编码网络前后端构建得到的，具体过程为：

编码网络的后端由两组基于GRU单元的多层循环神经网络组成，分别为前向网络和后向网络。双向网络的结构能够同时传递过去和将来的信息，提升高层特征的信息量。

步骤三一、首先，将编码网络前端训练好的DBN瓶颈特征(v₁,v₂,...,v_n)作为循环神经网络的输入；然后，缩减循环神经网络单元堆叠层数，只留1层网络处理特征序列的时序信息，输出高层特征序列(h₁,h₂,...,h_T)；

步骤三二、在编码网络后端时刻t，第c层的前向网络和后向网络的隐含层状态分别为和由于前向网络和后向网络的隐含层单元信息传递方向相反，则对应的传递函数分别为式(17)和式(18)：

步骤三二、前向网络和后向网络通过各自的传递函数并行进行层与层之间的特征传递，传递过程中在时域上进行降采样，以达到降低计算量的目标。以前向网络中，由于将GRU作为基本单元，所以隐含层状态计算如式(17)(18)所示，由输入特征序列(x₁,x₂,...,x_T)可得到第1层隐含层状态同理，由c-1层隐含层状态可计算出第c层隐含层状态计算过程隐含层状态如式(19)所示：

同理，计算后向网络第c层隐含层状态；

步骤三三、拼接前向网络和后向网络的第c层隐含状态，得到编码网络在时刻t的高层特征h_t：

具体实施方式八：

与具体实施方式七不同的是，本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，所述的步骤四中，多尺度多头注意力模型的注意力网络构建过程：

注意力机制是在序列到序列的模型中，从特征序列中提取有效特征的技术。它将注意力分配到特征序列的部分相关区域，从而忽略无关特征。采用多尺度多头的注意力机制，计算序列到序列模型的输出序列的元素y_o，将特征序列(h₁,h₂,...,h_T)采用不同尺度的卷积核F_i映射成每个头的注意力机制的一个目标向量ct_o；目标向量ct_o含有序列中压缩后的重要信息，实现将序列重要特征信息变换为固定长度向量，从而便于后端模式分类；再将ct_o作为每个头的注意力网络后的解码网络输入，逐个计算出循环神经网络隐含层状态序列(s₁,s₂,...,s_o)，以及输出序列(y₁,y₂,...,y_o)；其中，

多尺度多头注意力模型的单个头注意力模型，采用注意力机制计算输出序列位置o∈{1,2,...,O}对应的目标向量ct_o过程如下：

首先，计算输出序列位置o-1的隐含层状态s_o-1与时刻t的特征的关联度，如式(21)所示：

e_o,t＝a(s_o-1,h_t) (21)

其中，a(·)代表注意力网络，是只含一个隐含层的多层感知器，可显示表示为：

e_o,t＝ω^T tanh(W[s_o-1,h_t,f_o,t]+b) (22)

f_o＝F_i*α_o-1 (23)

其中，W和b分别为输入层到隐含层权重矩阵和偏置向量，ω为隐含层到输出层权重矩阵，F_i为卷积核，对于多尺度多头的注意力机制，F_i的卷积核大小是不一样的，每一个头的卷积部分采用不同大小的卷积滤波器；由于多头且卷积滤波器的大小不同，该模型不但能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理，而且不同大小的卷积滤波器能够对音素、音节、词一级的信息进行建模。

这里，多尺度多头模型不仅采用不同的卷积滤波器参数随机初始化，使多头模型形成集成模型，而且不同大小的卷积滤波器代表不同的模型，能够让上一时刻的注意力得分在各种模型的监督下进行学习和训练，得到不同的语音基元模型；这里，卷积滤波器尺寸较小的模型主要代表着音素一级的模型，正常大小的模型主要代表着音节一级的模型，而较大的代表着词一级的模型。所以，通过多尺度多头的注意力模型能够对不同等级的语音基元进行建模，达到提高语音识别效果的目的。

然后，对所有时刻特征的关联度进行指数归一化，归一化后的数值称为注意力系数如下：

最后，将注意力系数作为权重，对所有时刻的特征加权求和，得到注意力机制下输出序列位置o的目标向量ct_o:

采用注意力机制计算目标向量的过程，可以简记为式(26)：

ct_o＝attention([h₁,h₂,...,h_T],s_o-1) (26)。

具体实施方式八：

与具体实施方式七不同的是，本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，所述的步骤五中，使用每个头的注意力网络所对应的解码网络计算输出序列(y₁,y₂,...,y_o)在位置o的元素y_o的过程，为：

对于多尺度多头注意力模型的单个头而言，每个头的注意力网络后的解码网络在计算输出序列(y₁,y₂,...,y_o)位置o的元素y_o时，网络的输入是多尺度单个注意力网络生成目标向量ct_o和位置o-1的元素y_o-1，计算过程如下：

首先，解码网络依据注意力网络计算得到目标向量ct_o，并且将ct_o和y_o-1作为基于GRU单元循环神经网络的输入，计算循环神经网络的隐含层状态s_o,如式(27)所示：

s_o＝GRU(s_o-1,[y_o-1,ct_o]) (27)

然后，给定解码网络的隐含层状态s_o∈R^d作为输入条件下，通过maxout网络计算得到音素i的后验概率maxout网络的每个隐含层单元有多个候选单元，该网络从中选择数值最大的单元作为输出，计算过程下：

其中，d为输入隐含层状态s_o的维度，对应隐含层单元数目，W_i,j∈R^d×m×k和b_i,j∈R^m ^×k分别为maxout网络参数矩阵和偏置向量，k为maxout网络每个隐含层单元的候选单元数，m为输出层单元数目，在声学模型中对应输出音素种类数目；

最后，如式(30)所示，由maxout网络的输出层得到输出向量y_o，y_o第i个分量表示输出序列位置o上音素i出现的后验概率；

最终，将所有输出序列(y₁,y₂,...,y_o)_i采用DNN整合成一个新的输出序列(Y₁,Y₂,...,Y_o)；

Y_i＝DNN((y₁,y₂,...,y_o)_i) (31)。

基于多尺度多头的注意力模型的语音识别在音素序列识别方面性能优于传统模型，具有更强大的时序建模能力和区分能力。为了增加模型在噪声环境下的鲁棒性，在此基础上增加基于DBN网络的瓶颈特征，其原因在于：首先，因为基于DBN的瓶颈特征提取网络不是递归结构，所以训练DBN时能够在GPU上并行计算多帧的梯度从而有效提升训练效率，进而能有效避免循环神经网络的多层结构带来的规模庞大和训练耗时的问题；其次，通过减少循环神经网络的层数，能降低梯度在网络中反向传递的距离，进一步减少训练耗费。同时采用区分性更加强大的特征能够让模型的训练更容易收敛，进一步提高训练效率。最后，基于DBN提取的瓶颈特征对噪声具有较强的鲁棒性，使用它能弥补多尺度多头的注意力模型抗噪能力弱的缺陷。多尺度模型不仅采用不同的卷积滤波器参数随机初始化，使多头模型形成集成模型，从而优于单头模型，而且不同大小的卷积滤波器代表不同的模型，能够让上一时刻的注意力得分在各种模型的监督下进行学习和训练，得到不同的语音基元模型。这里，卷积滤波器尺寸较小的模型主要代表着音素一级的模型，正常大小的模型主要代表着音节一级的模型，而较大的卷积滤波器尺寸代表着对词一级建立模型。所以，通过多尺度多头的注意力模型能够对不同等级的语音基元进行建模，达到提高语音识别效果的目的。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，其特征在于：所述方法包括以下步骤：

步骤一、利用输入的样本FBank语音特征向量X＝(x₁,x₂,...,x_T)对DBN中的RBM网络进行无监督训练，得到初始化编码网络中前三层连接权重矩阵W₁、W₂、W₃，由这三层连接权重矩阵和一层随机初始化权值输出层W₄组成编码网络前端的基于DBN的瓶颈特征提取网络；RBM网络表示受限玻尔兹曼机；DBN表示深度置信网络；FBank表示滤波器组；

步骤二、抽取样本FBank语音特征向量X＝(x₁,x₂,...,x_T)输入至步骤一的四层瓶颈特征提取网络中，利用前向计算得到瓶颈特征提取网络输出v；然后，根据瓶颈特征提取网络的输出v和样本训练数据X的实际输出采用BP算法对瓶颈特征提取网络进行有监督训练，以计算四层的瓶颈特征提取网络的每层权值△W_t ^l和偏置的梯度，再对权值和偏置进行迭代更新；

步骤四、采用多尺度多头的注意力机制将编码网络后端输出的高层特征序列(h₁,h₂,...,h_T)分别注入不同尺度的卷积核F_i中，并对音素、音节、词等级别的语音基元进行建模，从而得到各自的目标向量ct_o，再将每种模型对应的ct_o作为多尺度多头注意力网络中每个头的解码RNN网络的输入，逐个计算出RNN隐含层状态序列(s₁,s₂,...,s_o)，以及输出音素序列(y₁,y₂,...,y_o)；

步骤五、使用多尺度多头注意力网络中每个头的注意力网络所对应的解码RNN网络计算输出序列(y₁,y₂,...,y_o)进行拼接得到新的输出序列(y₁,y₂,...,y_o)_i；将新的输出序列采用DNN整合成最终的输出序列(Y₁,Y₂,...,Y_o)。

2.根据权利要求1所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，其特征在于：所述的步骤一中，输入的FBank语音特征向量X＝(x₁,x₂,...,x_T)采用40维FBank特征和能量，再拼接对应一阶和二阶差分，共计123维参数；对提取的特征，首先在训练集范围内进行归一化，使每个分量服从标准正态分布，再利用训练集的归一化参数对测试集和开发集特征归一化处理。

3.根据权利要求2所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，其特征在于：所述的步骤一和步骤二中，对DBN中的RBM网络进行无监督训练过程，所述的RBM网络的输入为FBank语音特征，RBM网络的输出层为softmax层，每个输出层单元对应绑定三音子状态的后验概率；在输入层和输出层之间有三个隐含层，第二个隐含层为瓶颈层，第二个隐含层的状态单元数目少于其他隐含层。

4.根据权利要求3所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，其特征在于：所述的步骤一中，利用输入的FBank语音特征向量X＝(x₁,x₂,...,x_T)对DBN中的RBM网络进行无监督训练的过程为：

步骤一二、在RBM中，伯努利-伯努利RBM的后验概率p(h|v)计算过程如下：

其中，E(v,h)为单层RBM的能量值，v为可视层向量，a为可视层的偏置向量，h为隐含层向量，b为隐含层偏置向量，W为连接可见层和隐含层的权重矩阵，W_i,*v表示权值矩阵W的第i行，隐含层状态的各个分量之间互相独立；

其中，σ(·)表示Sigmoid函数；

隐含层状态的向量可以用如下公式表示：

p(h＝1|v)＝σ(Wv+b) (3)

p(v＝1|h)＝σ(W^Th+a) (4)

p(v|h)＝N(v；W^Th+a,I) (5)

其中I代表单位阵；

步骤一五、编码的DBN网络的堆叠的过程如下：

首先，训练一个高斯-伯努利RBM；然后，将隐含层单元的激活概率作为下一层为伯努利-伯努利RBM的可见层输入，第二层RBM的隐含状态再作为第三层RBM的输入，此后所有层依次类推；

训练过程中，负对数似然度的导数一般形式为：

步骤一六、训练该DBN：

首先，根据输入样本数据对第一层RBM用对比散度算法算法初始化；其中，CD算法中运用吉布斯采样得到的样本对模型进行估计，CD算法中的吉布斯采样过程具体为：

2)、采用式(3)计算得到后验概率p(h|v)作为隐含层状态h；

5.根据权利要求4所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，其特征在于：所述的步骤二中，根据瓶颈特征提取网络的输出v和样本训练数据X的实际输出采用BP算法对瓶颈特征提取网络进行有监督训练，即为在无监督训练基础上采用语音样本标注对语音样本进行有监督训练，具体过程为：

步骤二一、将DBN的权重直接迁移至深度神经网络中；之后，在已知DNN部分模型参数的基础上进行微调；网络的前三个连接矩阵权重W₁,W₂,W₃已知，这三层和一层随机初始化权值输出层W₄组成编码网络前端的基于DBN的瓶颈特征提取网络，在层与层之间加入激活函数，计算网络前向：

h₁＝f(W¹x+b¹) (9)

h_l＝f(W^lh_l-1+b^l) (10)

由第4个隐含层h₄通过softmax函数得到网络最后的输出向量v：

v＝softmax(W⁴h₃+b⁴) (11)

DBN网络训练准则采用最小化交叉熵函数：

然后，使用反向传播算法对网络参数进行微调，按照如下公式对模型参数更新：

其中，M为每次训练使用到的样本数目；

首先，在训练过程中，采用开发集计算网络输出与标准输出的误差，用于交叉验证；

然后，在此基础上，将训练好的网络中最后输出层的网络状态单元、转移矩阵和偏置向量全部删除，将剩下的作为编码网络的前端，将特征提取瓶颈层的状态作为编码网络前端的输出；把语音原始特征参数作为网络输入，通过该网络逐层计算出瓶颈层输出向量，该向量即为瓶颈特征参数，提取瓶颈特征。

6.根据权利要求5所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，其特征在于：所述的多尺度多头注意力模型由编码网络、解码网络和注意力网络三个模块组成；

编码网络和解码网络均包含循环神经网络单元；

编码网络前端为DBN特征提取网络，后端则为深层循环神经网络；

7.根据权利要求6所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，其特征在于：所述的步骤三中，高层特征序列(h₁,h₂,...,h_T)是通过多尺度多头注意力模型的编码网络前后端构建得到的，具体构建过程为：

步骤三二、前向网络中，将GRU作为基本单元，隐含层状态计算如式(17)(18)所示，由输入特征序列(x₁,x₂,...,x_T)可得到第1层隐含层状态同理，由c-1层隐含层状态可计算出第c层隐含层状态计算过程隐含层状态如式(19)所示：

同理，计算后向网络第c层隐含层状态；

8.根据权利要求7所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，其特征在于：所述的步骤四中，多尺度多头注意力模型的注意力网络构建过程：

采用多尺度多头的注意力机制，计算序列到序列模型的输出序列的元素y_o，将特征序列(h₁,h₂,...,h_T)采用不同尺度的卷积核F_i映射成每个头的注意力机制的一个目标向量ct_o；再将ct_o作为每个头的注意力网络后的解码网络输入，逐个计算出循环神经网络隐含层状态序列(s₁,s₂,...,s_o)，以及输出序列(y₁,y₂,...,y_o)；其中，

e_o,t＝a(s_o-1,h_t) (21)

其中，a(·)代表注意力网络，是只含一个隐含层的多层感知器，表示为：

e_o,t＝ω^Ttanh(W[s_o-1,h_t,f_o,t]+b) (22)

f_o＝F_i*α_o-1 (23)

其中，W和b分别为输入层到隐含层权重矩阵和偏置向量，ω为隐含层到输出层权重矩阵，F_i为卷积核，对于多尺度多头的注意力机制，F_i的卷积核大小是不一样的，每一个头的卷积部分采用不同大小的卷积滤波器；

多尺度多头模型不仅采用不同的卷积滤波器参数随机初始化，使多头模型形成集成模型，而且不同大小的卷积滤波器代表不同的模型，能够让上一时刻的注意力得分在各种模型的监督下进行学习和训练，得到不同的语音基元模型；

采用注意力机制计算目标向量的过程，可以简记为式(26)：

ct_o＝attention([h₁,h₂,...,h_T],s_o-1) (26)。

9.根据权利要求8所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法，其特征在于：所述的步骤五中，使用每个头的注意力网络所对应的解码网络计算输出序列(y₁,y₂,...,y_o)在位置o的元素y_o的过程，为：

s_o＝GRU(s_o-1,[y_o-1,ct_o]) (27)

其中，d为输入隐含层状态s_o的维度，对应隐含层单元数目，W_i,j∈R^d×m×k和b_i,j∈R^m×k分别为maxout网络参数矩阵和偏置向量，k为maxout网络每个隐含层单元的候选单元数，m为输出层单元数目，在声学模型中对应输出音素种类数目；

Y_i＝DNN((y₁,y₂,...,y_o)_i) (31)。