CN110211574A - 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 - Google Patents

基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 Download PDF

Info

Publication number
CN110211574A
CN110211574A CN201910477034.2A CN201910477034A CN110211574A CN 110211574 A CN110211574 A CN 110211574A CN 201910477034 A CN201910477034 A CN 201910477034A CN 110211574 A CN110211574 A CN 110211574A
Authority
CN
China
Prior art keywords
network
layer
output
attention
rbm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910477034.2A
Other languages
English (en)
Other versions
CN110211574B (zh
Inventor
韩纪庆
唐海桃
郑铁然
郑贵滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910477034.2A priority Critical patent/CN110211574B/zh
Publication of CN110211574A publication Critical patent/CN110211574A/zh
Application granted granted Critical
Publication of CN110211574B publication Critical patent/CN110211574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,属于建模方法领域。传统的注意力模型存在识别性能较差,注意力尺度单一等问题。一种基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,采用深度置信网络提取瓶颈特征作为前端,能够增加模型的鲁棒性,而后端则采用由不同尺度的卷积核组成的多尺度多头注意力模型,分别对音素、音节、词等级别的语音基元进行建模,逐个计算出循环神经网络隐含层状态序列以及输出序列;使用每个头的注意力网络所对应的解码网络计算输出序列在位置处的元素,最终将所有输出序列采整合成一个新的输出序列。本发明能够提高语音识别***的识别效果。

Description

基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立 方法
技术领域
本发明涉及一种语音识别技术领域的训练模型,具体涉及一种通过提取瓶颈特征来增加模型的鲁棒性,以及建立多尺度多头模型来对音素、音节、词等级别的语音基元进行建模,以提高其识别性能的改进方法。
背景技术
语音信号是人类社会中最普遍和常用的信号之一,它是人们表达、交流和传播信息的重要途径。在当今信息***的时代,互联网和电话信道中无时无刻不在产生海量语音数据,为了更加高效地对大规模语音信号进行识别、分类和检索,自动语音识别(AutomaticSpeech Recognition,ASR)的需求变得更加的迫切。与基于传统的隐马尔可夫模型(HiddenMarkov Model,HMM)语音识别***相比,端到端的语音识别***把声学模型、发音字典和语音模型全部融合至一套神经网络中,在让模型变得更加简洁的同时也更便于对参数直接优化;端到端模型具有更强的通用性,既减少了对专业语言学知识的依赖,又降低了语音识别***的搭建难度;端到端模型的训练数据不需要对齐信息,可直接将带标注的语音直接用于训练。注意力模型摆脱对模型输出独立性假设,通过注意力系数来量化音素与特征的对齐关系,具有一定的解释性。本专利关于端到端语音识别的研究将从注意力模型展开,聚焦目前基于注意力模型的语音识别***存在的训练周期长和识别性能欠缺等问题。针对注意力模型由于内部应用大量循环神经网络单元,致使其参数规模庞大且内部结构复杂,因此造成训练效率低下的问题,尽管可以通过增加硬件计算资源来部分的加以解决,但从算法层面研究仍然是一个难点问题。注意力模型将语音学的先验知识彻底摒弃致使其缺少有效的初始化参数,造成参数收敛速度缓慢,这也是增加训练时间的重要原因,因而如何将模型与语音特征整合是一项非常有意义的工作。注意力模型在性能上与传统模型存在差距的原因为:语料资源有限导致的训练不充分、生成特征与音素(字素)对齐关系不够准确,模型对噪声的鲁棒性较差。针对以上问题,需要对此模型进行深入研究,寻求合理的解决方案。
发明内容
本发明的目的是为了解决现有的传统注意力模型存在识别性能较差,注意力尺度单一的问题,而提出一种基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法。
一种基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,所述方法包括以下步骤:
步骤一、利用输入的样本FBank语音特征向量X=(x1,x2,...,xT)对DBN中的RBM网络进行无监督训练,得到初始化编码网络中前三层连接权重矩阵W1、W2、W3,由这三层连接权重矩阵和一层随机初始化权值输出层W4组成编码网络前端的基于DBN的瓶颈特征提取网络;RBM网络表示受限玻尔兹曼机,英文全称为Restricted Boltzmann Machine,简称RBM;DBN表示深度置信网络,英文全称为Deep Belief Network,简称DBN;FBank表示滤波器组;样本FBank语音特征向量X=(x1,x2,...,xT)中,x1表示第一时刻fbank的特征序列,x2表示第二时刻fbank的特征序列,xT表示第T个时刻fbank的特征序列,由这些特征序列最终组成了语音特征向量;fbank特征是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)MFCC未做离散余弦变换的结果;
步骤二、抽取样本FBank语音特征向量X=(x1,x2,...,xT)输入至步骤一的四层瓶颈特征提取网络中,利用前向计算得到瓶颈特征提取网络输出v;然后,根据瓶颈特征提取网络的输出v和样本训练数据X的实际输出采用BP算法对瓶颈特征提取网络进行有监督训练,以计算四层的瓶颈特征提取网络的每层权值和偏置的梯度,再对权值和偏置进行迭代更新;步骤二进行的有监督训练,可以计算得更快,更准确;
步骤三、将步骤二的四层瓶颈特征提取网络最后一层输出层去掉,只保留前三层重新作为编码网络的前端,将前端输出的瓶颈特征序列(v1,v2,...,vn)作为RNN的输入,此处RNN为编码网络的后端,它由两组基于GRU的多层RNN组成,分别为前向网络和后向网络;
则输入的FBank语音特征向量X经过编码网络前端瓶颈特征提取网络得到瓶颈特征序列(v1,v2,...,vn),输出的瓶颈特征序列通过编码器后端基于GRU的多层RNN得到最终的输出为高层特征序列(h1,h2,...,hT);
编码网络由步骤1瓶颈特征提取网络、步骤3的循环神经网络组成,称瓶颈特征提取网络为编码网络的前端;GRU的英文全称为Gated Recurrent Unit,简称GRU;RNN表示循环神经网络,全称为Recurrent Neural Network,简称RNN;
步骤四、采用多尺度多头的注意力机制将编码网络后端输出的高层特征序列(h1,h2,...,hT)分别注入不同尺度的卷积核Fi中,并对音素、音节、词等级别的语音基元进行建模,从而得到各自的目标向量cto,以便于后端模式分类。再将每种模型对应的cto作为多尺度多头注意力网络中每个头的解码RNN网络的输入,逐个计算出RNN隐含层状态序列(s1,s2,...,so),以及输出音素序列(y1,y2,...,yo);
步骤五、使用多尺度多头注意力网络中每个头的注意力网络所对应的解码RNN网络计算输出序列(y1,y2,...,yo)进行拼接得到新的输出序列(y1,y2,...,yo)i;将新的输出序列采用DNN整合成最终的输出序列(Y1,Y2,...,Yo)。这里,每个头对应的解码网络的输出yo是由每个头注意力网络生成目标向量cto和在位置o-1的元素yo-1产生的。
本发明的有益效果为:
本发明提供了一种基于瓶颈特征和多尺度多头注意力机制的语音识别方法。该方法采用DBN提取瓶颈特征来作为编码网络的前端,能够增加语音识别***的鲁棒性,而解码网络则采用由不同尺度的卷积核组成的多尺度多头注意力模型,能够分别对音素、音节、词等不同等级的语音基元进行建模,提高语音识别***的识别效果。
本发明方法设计的基于多尺度多头的注意力模型的语音识别在音素序列识别方面性能优于传统模型,具有更强大的时序建模能力和区分能力。设计的语音识别训练模型提高识别的准确性,降低***误识率和拒识率。
附图说明
图1为结合瓶颈特征提取网络的多尺度多头注意力模型;
图2为基于DBN的瓶颈特征提取网络;
具体实施方式
具体实施方式一:
本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,所述方法包括以下步骤:
步骤一、利用输入的样本FBank语音特征向量X=(x1,x2,...,xT)对DBN中的RBM网络进行无监督训练,得到初始化编码网络中前三层连接权重矩阵W1、W2、W3,由这三层连接权重矩阵和一层随机初始化权值输出层W4组成编码网络前端的基于DBN的瓶颈特征提取网络;RBM网络表示受限玻尔兹曼机,英文全称为Restricted Boltzmann Machine,简称RBM;DBN表示深度置信网络,英文全称为Deep Belief Network,简称DBN;FBank表示滤波器组;样本FBank语音特征向量X=(x1,x2,...,xT)中,x1表示第一时刻fbank的特征序列,x2表示第二时刻fbank的特征序列,xT表示第T个时刻fbank的特征序列,由这些特征序列最终组成了语音特征向量;fbank特征是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)MFCC未做离散余弦变换的结果;
步骤二、抽取样本FBank语音特征向量X=(x1,x2,...,xT)输入至步骤一的四层瓶颈特征提取网络中,利用前向计算得到瓶颈特征提取网络输出v;然后,根据瓶颈特征提取网络的输出v和样本训练数据X的实际输出采用BP算法对瓶颈特征提取网络进行有监督训练,以计算四层的瓶颈特征提取网络的每层权值和偏置的梯度,再对权值和偏置进行迭代更新;步骤二进行的有监督训练,可以计算得更快,更准确;
步骤三、将步骤二的四层瓶颈特征提取网络最后一层输出层去掉,只保留前三层重新作为编码网络的前端,将前端输出的瓶颈特征序列(v1,v2,...,vn)作为RNN的输入,此处RNN为编码网络的后端,它由两组基于GRU的多层RNN组成,分别为前向网络和后向网络;
则输入的FBank语音特征向量X经过编码网络前端瓶颈特征提取网络得到瓶颈特征序列(v1,v2,...,vn),输出的瓶颈特征序列通过编码器后端基于GRU的多层RNN得到最终的输出为高层特征序列(h1,h2,...,hT);
编码网络由步骤1瓶颈特征提取网络、步骤3的循环神经网络组成,称瓶颈特征提取网络为编码网络的前端;GRU的英文全称为Gated Recurrent Unit,简称GRU;RNN表示循环神经网络,全称为Recurrent Neural Network,简称RNN;
步骤四、采用多尺度多头的注意力机制将编码网络后端输出的高层特征序列(h1,h2,...,hT)分别注入不同尺度的卷积核Fi中,并对音素、音节、词等级别的语音基元进行建模,从而得到各自的目标向量cto,以便于后端模式分类。再将每种模型对应的cto作为多尺度多头注意力网络中每个头的解码RNN网络的输入,逐个计算出RNN隐含层状态序列(s1,s2,...,so),以及输出音素序列(y1,y2,...,yo);
步骤五、使用多尺度多头注意力网络中每个头的注意力网络所对应的解码RNN网络计算输出序列(y1,y2,...,yo)进行拼接得到新的输出序列(y1,y2,...,yo)i;将新的输出序列采用DNN整合成最终的输出序列(Y1,Y2,...,Yo)。这里,每个头对应的解码网络的输出yo是由每个头注意力网络生成目标向量cto和在位置o-1的元素yo-1产生的。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,所述的步骤一中,输入的语音特征向量X=(x1,x2,...,xT)采用40维FBank特征和能量,再拼接对应一阶和二阶差分,共计123维参数;对提取的特征,首先在训练集范围内进行归一化,使每个分量服从标准正态分布,再利用训练集的归一化参数对测试集和开发集特征归一化处理。
具体实施方式三:
与具体实施方式一或二不同的是,本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,所述的步骤一和步骤二中,对DBN中的RBM网络进行无监督训练过程,其中,RBN网络的训练包括采用无监督预训练(pretraining)和反向梯度传播算法有监督训练方法;所述的RBM网络的输入为FBank语音特征,RBM网络的输出层为softmax层,每个输出层单元对应绑定三音子状态的后验概率;在输入层和输出层之间有三个隐含层,第二个隐含层为瓶颈层,第二个隐含层的状态单元数目少于其他隐含层。
具体实施方式四:
与具体实施方式一或二不同的是,本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,所述的步骤一中,利用输入的语音特征FBank对RBM网络进行无监督训练的过程为:
步骤一一、在4层结构的DBN的基础上增加一层输出音素状态的分类标签,得到5层结构的瓶颈特征,将语音特征作为5层结构的瓶颈特征以提取RBM网络的输入;其中,4层DBN由4组单层RBM连续堆叠而成,第一层为高斯-伯努利RBM,其余三层均为伯努利-伯努利RBM;
步骤一二、在RBM中,由于可见层和隐含层内部之间没有神经元相连接,所以彼此间互相独立。因此后验概率p(v|h)和p(h|v)均能被方便地计算出来。其中伯努利-伯努利RBM的后验概率p(h|v)计算过程如下:
其中,E(v,h)为单层RBM的能量值,v为可视层向量,a为可视层的偏置向量,h为隐含层向量,b为隐含层偏置向量,W为连接可见层和隐含层的权重矩阵,Wi,*v表示权值矩阵W的第i行。公式(1)推导说明在可见层确定的情况下,隐含层状态的各个分量之间互相独立;
步骤一三、由伯努利-伯努利RBM隐含层神经元状态每个分量hi的取值只有0和1,有:
其中,σ(·)表示Sigmoid函数;
隐含层状态的向量可以用如下公式表示:
p(h=1|v)=σ(Wv+b) (3)
根据对称关系,在已知隐含层状态下,单层伯努利-伯努利RBM的可见层状态为:
p(v=1|h)=σ(WTh+a) (4)
步骤一四、对于可见层为高斯分布的高斯-伯努利RBM,后验概率p(h=1|v)的计算与式(3)相同,而p(v|h)的计算方式如下:
p(v|h)=N(v;WTh+a,I) (5)
其中I代表单位阵;
步骤一五、编码的DBN网络的堆叠的过程如下:
首先,训练一个高斯-伯努利RBM,原因是第一层输入的语音特征为实数,与高斯分布相适配;然后,将隐含层单元的激活概率作为下一层为伯努利-伯努利RBM的可见层输入,第二层RBM的隐含状态再作为第三层RBM的输入,此后所有层依次类推;
在给定训练数据集V下,单层RBM的参数训练通过采用梯度下降法最小化负对数似然度实现:
训练过程中,负对数似然度的导数一般形式为:
其中,θ={a,b,W}决定RBM的可视层向量v的分布,<ξ>data和<ξ>model分别表示从样本数据和模型中估计出随机变量ξ的期望值;对于单层RBM中连接矩阵的权重,有:
以伯努利-伯努利RBM为例,期望<vihj>data为训练数据中可见层状态vi和隐含层状态vi取值同时为1的频率,期望<vihj>model为RBM生成式模型分布计算得到的期望。
步骤一六、训练该DBN:
首先,根据输入样本数据对第一层RBM用对比散度算法(Compare Divergence,CD)算法初始化;其中,CD算法中运用吉布斯采样(Gibbs Sample)得到的样本对模型进行估计,CD算法中的吉布斯采样过程具体为:
1)、吉布斯采样器通过数据样本对可见层初始化,得到可见层状态v;
2)、采用式(3)计算得到后验概率p(h|v)作为隐含层状态h;
其次,再根据RBM类型的不同分别采用式(4)或式(5)分别采样重构可见层状态v;之后,固定第一层RBM的参数,根据样本数据计算RBM的隐含层状态,并将其作为第二层RBM可见层状态;此时,再采用CD算法获取训练第二层RBM;
往后依次类推,最终逐个得到连接DBN层与层之间的权重参数;
最终,训练结束后,只保留连接层与层的权重矩阵作为DBN转移矩阵的初始化参数。
具体实施方式五:
与具体实施方式一或二不同的是,本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,所述的步骤二中,采用BP算法对RBM网络进行有监督训练,即为借助RBM技术利用样本输入数据对网络进行无监督训练后,编码网络中前3层连接权重矩阵均得到初始化,并且训练后的权重矩阵能够部分反映和“记忆”样本数据中的有效信息。为了进一步增强网络对语音特征的提取和区分能力,使得后续的注意力模型获取的瓶颈特征具有更强的鲁棒性和区分性,在无监督训练基础上采用语音样本标注对语音样本进行有监督训练,具体过程为:
步骤二一、将DBN的权重直接迁移至深度神经网络(Deep Neural Network,DNN)中;之后,在已知DNN部分模型参数的基础上进行微调(fine tuning);网络的前3个连接矩阵权重W1,W2,W3已知,这三层和一层随机初始化权值输出层W4组成编码网络前端的基于DBN的瓶颈特征提取网络,在层与层之间加入激活函数,计算网络前向:
令f(·)表示激活函数,第1个隐含层状态h1和第l个隐含层状态hl分别为:
h1=f(W1x+b1) (9)
hl=f(Wlhl-1+bl) (10)
由第4个隐含层h4通过softmax函数得到网络最后的输出向量v:
v=softmax(W4h3+b4) (11)
其中,在运用上述方法训练网络时,每次从训练样本集中随机抽取固定数目的样本,并将抽取样本的特征输入至网络中,通过前向计算得到网络输出;
步骤二二、根据网络的输出和样本训练数据采用BP算法计算每层参数的梯度,再对模型参数进行更新:
DBN网络训练准则通常采用最小化交叉熵(crossentropy,CE)函数:
然后,使用反向传播算法(BackPropagation,BP)对网络参数进行微调,该算法通常按照如下公式对模型参数更新:
其中,分别为进行t次参数更新之后,网络中第l层的权重矩阵和偏置向量,μ为学习速率,△Wt l分别为权重矩阵和偏置向量的梯度,该梯度由训练样本计算一阶导数而得:
其中,M为每次训练使用到的样本数目;
步骤二三、循环地执行步骤二一和步骤二二两个步骤,并且将网络的输出与模型输出的误差是否达到设定的阈值作为训练是否结束的标志:
首先,在训练过程中,通常也采用开发集(development set)计算网络输出与标准输出的误差,用于交叉验证(cross validation);
然后,在此基础上为了获得瓶颈特征提取网络,将训练好的网络中最后输出层的网络状态单元、转移矩阵和偏置向量全部删除,将剩下的作为编码网络的前端,将特征提取瓶颈层的状态作为编码网络前端的输出;为了提取瓶颈特征,把语音原始特征参数作为网络输入,通过该网络逐层计算出瓶颈层输出向量,该向量即为瓶颈特征参数;因为该网络训练过程中采用RBM对模型参数进行初始化,并且有监督训练时GMM-HMM模型提供的对齐信息,所以提取的瓶颈特征与传统特征相比对于不同音素状态有更好的区分性和鲁棒性。因而如果将该瓶颈特征应用于注意力模型,相当于将网络中的知识迁移至注意力模型中。
具体实施方式六:
与具体实施方式五不同的是,本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,
所述的多尺度多头注意力模型由编码网络、解码网络和注意力网络三个模块组成;
编码网络和解码网络均包含循环神经网络单元;
编码网络前端为DBN特征提取网络,后端则为深层循环神经网络,目的是学习和挖掘语音特征序列的上下文关联信息,从原始特征中提取高层信息,增强特征的区分度和表征能力;
注意力网络的主体是多层感知器,网络输入是编码网络的输出和解码网络的隐含层单元状态,网络的输出是它们的关联度分数;关联度分数在指数归一化处理后即得到注意力系数;
解码网络由单层循环神经网络和maxout网络连接而成,首先根据注意力网络得到注意力系数,然后对所有编码网络的输出加权求和得到目标向量,最后将目标向量作为网络输入,计算输出序列每个位置上各个音素出现的后验概率。
具体实施方式七:
与具体实施方式六不同的是,本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,所述的步骤三中,高层特征序列(h1,h2,...,hT)是通过多尺度多头注意力模型的编码网络前后端构建得到的,具体过程为:
编码网络的后端由两组基于GRU单元的多层循环神经网络组成,分别为前向网络和后向网络。双向网络的结构能够同时传递过去和将来的信息,提升高层特征的信息量。
步骤三一、首先,将编码网络前端训练好的DBN瓶颈特征(v1,v2,...,vn)作为循环神经网络的输入;然后,缩减循环神经网络单元堆叠层数,只留1层网络处理特征序列的时序信息,输出高层特征序列(h1,h2,...,hT);
步骤三二、在编码网络后端时刻t,第c层的前向网络和后向网络的隐含层状态分别为由于前向网络和后向网络的隐含层单元信息传递方向相反,则对应的传递函数分别为式(17)和式(18):
步骤三二、前向网络和后向网络通过各自的传递函数并行进行层与层之间的特征传递,传递过程中在时域上进行降采样,以达到降低计算量的目标。以前向网络中,由于将GRU作为基本单元,所以隐含层状态计算如式(17)(18)所示,由输入特征序列(x1,x2,...,xT)可得到第1层隐含层状态同理,由c-1层隐含层状态可计算出第c层隐含层状态计算过程隐含层状态如式(19)所示:
同理,计算后向网络第c层隐含层状态;
步骤三三、拼接前向网络和后向网络的第c层隐含状态,得到编码网络在时刻t的高层特征ht
具体实施方式八:
与具体实施方式七不同的是,本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,所述的步骤四中,多尺度多头注意力模型的注意力网络构建过程:
注意力机制是在序列到序列的模型中,从特征序列中提取有效特征的技术。它将注意力分配到特征序列的部分相关区域,从而忽略无关特征。采用多尺度多头的注意力机制,计算序列到序列模型的输出序列的元素yo,将特征序列(h1,h2,...,hT)采用不同尺度的卷积核Fi映射成每个头的注意力机制的一个目标向量cto;目标向量cto含有序列中压缩后的重要信息,实现将序列重要特征信息变换为固定长度向量,从而便于后端模式分类;再将cto作为每个头的注意力网络后的解码网络输入,逐个计算出循环神经网络隐含层状态序列(s1,s2,...,so),以及输出序列(y1,y2,...,yo);其中,
多尺度多头注意力模型的单个头注意力模型,采用注意力机制计算输出序列位置o∈{1,2,...,O}对应的目标向量cto过程如下:
首先,计算输出序列位置o-1的隐含层状态so-1与时刻t的特征的关联度,如式(21)所示:
eo,t=a(so-1,ht) (21)
其中,a(·)代表注意力网络,是只含一个隐含层的多层感知器,可显示表示为:
eo,t=ωT tanh(W[so-1,ht,fo,t]+b) (22)
fo=Fio-1 (23)
其中,W和b分别为输入层到隐含层权重矩阵和偏置向量,ω为隐含层到输出层权重矩阵,Fi为卷积核,对于多尺度多头的注意力机制,Fi的卷积核大小是不一样的,每一个头的卷积部分采用不同大小的卷积滤波器;由于多头且卷积滤波器的大小不同,该模型不但能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理,而且不同大小的卷积滤波器能够对音素、音节、词一级的信息进行建模。
这里,多尺度多头模型不仅采用不同的卷积滤波器参数随机初始化,使多头模型形成集成模型,而且不同大小的卷积滤波器代表不同的模型,能够让上一时刻的注意力得分在各种模型的监督下进行学习和训练,得到不同的语音基元模型;这里,卷积滤波器尺寸较小的模型主要代表着音素一级的模型,正常大小的模型主要代表着音节一级的模型,而较大的代表着词一级的模型。所以,通过多尺度多头的注意力模型能够对不同等级的语音基元进行建模,达到提高语音识别效果的目的。
然后,对所有时刻特征的关联度进行指数归一化,归一化后的数值称为注意力系数如下:
最后,将注意力系数作为权重,对所有时刻的特征加权求和,得到注意力机制下输出序列位置o的目标向量cto:
采用注意力机制计算目标向量的过程,可以简记为式(26):
cto=attention([h1,h2,...,hT],so-1) (26)。
具体实施方式八:
与具体实施方式七不同的是,本实施方式的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,所述的步骤五中,使用每个头的注意力网络所对应的解码网络计算输出序列(y1,y2,...,yo)在位置o的元素yo的过程,为:
对于多尺度多头注意力模型的单个头而言,每个头的注意力网络后的解码网络在计算输出序列(y1,y2,...,yo)位置o的元素yo时,网络的输入是多尺度单个注意力网络生成目标向量cto和位置o-1的元素yo-1,计算过程如下:
首先,解码网络依据注意力网络计算得到目标向量cto,并且将cto和yo-1作为基于GRU单元循环神经网络的输入,计算循环神经网络的隐含层状态so,如式(27)所示:
so=GRU(so-1,[yo-1,cto]) (27)
然后,给定解码网络的隐含层状态so∈Rd作为输入条件下,通过maxout网络计算得到音素i的后验概率maxout网络的每个隐含层单元有多个候选单元,该网络从中选择数值最大的单元作为输出,计算过程下:
其中,d为输入隐含层状态so的维度,对应隐含层单元数目,Wi,j∈Rd×m×k和bi,j∈Rm ×k分别为maxout网络参数矩阵和偏置向量,k为maxout网络每个隐含层单元的候选单元数,m为输出层单元数目,在声学模型中对应输出音素种类数目;
最后,如式(30)所示,由maxout网络的输出层得到输出向量yo,yo第i个分量表示输出序列位置o上音素i出现的后验概率;
最终,将所有输出序列(y1,y2,...,yo)i采用DNN整合成一个新的输出序列(Y1,Y2,...,Yo);
Yi=DNN((y1,y2,...,yo)i) (31)。
基于多尺度多头的注意力模型的语音识别在音素序列识别方面性能优于传统模型,具有更强大的时序建模能力和区分能力。为了增加模型在噪声环境下的鲁棒性,在此基础上增加基于DBN网络的瓶颈特征,其原因在于:首先,因为基于DBN的瓶颈特征提取网络不是递归结构,所以训练DBN时能够在GPU上并行计算多帧的梯度从而有效提升训练效率,进而能有效避免循环神经网络的多层结构带来的规模庞大和训练耗时的问题;其次,通过减少循环神经网络的层数,能降低梯度在网络中反向传递的距离,进一步减少训练耗费。同时采用区分性更加强大的特征能够让模型的训练更容易收敛,进一步提高训练效率。最后,基于DBN提取的瓶颈特征对噪声具有较强的鲁棒性,使用它能弥补多尺度多头的注意力模型抗噪能力弱的缺陷。多尺度模型不仅采用不同的卷积滤波器参数随机初始化,使多头模型形成集成模型,从而优于单头模型,而且不同大小的卷积滤波器代表不同的模型,能够让上一时刻的注意力得分在各种模型的监督下进行学习和训练,得到不同的语音基元模型。这里,卷积滤波器尺寸较小的模型主要代表着音素一级的模型,正常大小的模型主要代表着音节一级的模型,而较大的卷积滤波器尺寸代表着对词一级建立模型。所以,通过多尺度多头的注意力模型能够对不同等级的语音基元进行建模,达到提高语音识别效果的目的。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (9)

1.基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述方法包括以下步骤:
步骤一、利用输入的样本FBank语音特征向量X=(x1,x2,...,xT)对DBN中的RBM网络进行无监督训练,得到初始化编码网络中前三层连接权重矩阵W1、W2、W3,由这三层连接权重矩阵和一层随机初始化权值输出层W4组成编码网络前端的基于DBN的瓶颈特征提取网络;RBM网络表示受限玻尔兹曼机;DBN表示深度置信网络;FBank表示滤波器组;
步骤二、抽取样本FBank语音特征向量X=(x1,x2,...,xT)输入至步骤一的四层瓶颈特征提取网络中,利用前向计算得到瓶颈特征提取网络输出v;然后,根据瓶颈特征提取网络的输出v和样本训练数据X的实际输出采用BP算法对瓶颈特征提取网络进行有监督训练,以计算四层的瓶颈特征提取网络的每层权值△Wt l和偏置的梯度,再对权值和偏置进行迭代更新;
步骤三、将步骤二的四层瓶颈特征提取网络最后一层输出层去掉,只保留前三层重新作为编码网络的前端,将前端输出的瓶颈特征序列(v1,v2,...,vn)作为RNN的输入,此处RNN为编码网络的后端,它由两组基于GRU的多层RNN组成,分别为前向网络和后向网络;
则输入的FBank语音特征向量X经过编码网络前端瓶颈特征提取网络得到瓶颈特征序列(v1,v2,...,vn),输出的瓶颈特征序列通过编码器后端基于GRU的多层RNN得到最终的输出为高层特征序列(h1,h2,...,hT);
步骤四、采用多尺度多头的注意力机制将编码网络后端输出的高层特征序列(h1,h2,...,hT)分别注入不同尺度的卷积核Fi中,并对音素、音节、词等级别的语音基元进行建模,从而得到各自的目标向量cto,再将每种模型对应的cto作为多尺度多头注意力网络中每个头的解码RNN网络的输入,逐个计算出RNN隐含层状态序列(s1,s2,...,so),以及输出音素序列(y1,y2,...,yo);
步骤五、使用多尺度多头注意力网络中每个头的注意力网络所对应的解码RNN网络计算输出序列(y1,y2,...,yo)进行拼接得到新的输出序列(y1,y2,...,yo)i;将新的输出序列采用DNN整合成最终的输出序列(Y1,Y2,...,Yo)。
2.根据权利要求1所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述的步骤一中,输入的FBank语音特征向量X=(x1,x2,...,xT)采用40维FBank特征和能量,再拼接对应一阶和二阶差分,共计123维参数;对提取的特征,首先在训练集范围内进行归一化,使每个分量服从标准正态分布,再利用训练集的归一化参数对测试集和开发集特征归一化处理。
3.根据权利要求2所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述的步骤一和步骤二中,对DBN中的RBM网络进行无监督训练过程,所述的RBM网络的输入为FBank语音特征,RBM网络的输出层为softmax层,每个输出层单元对应绑定三音子状态的后验概率;在输入层和输出层之间有三个隐含层,第二个隐含层为瓶颈层,第二个隐含层的状态单元数目少于其他隐含层。
4.根据权利要求3所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述的步骤一中,利用输入的FBank语音特征向量X=(x1,x2,...,xT)对DBN中的RBM网络进行无监督训练的过程为:
步骤一一、在4层结构的DBN的基础上增加一层输出音素状态的分类标签,得到5层结构的瓶颈特征,将语音特征作为5层结构的瓶颈特征以提取RBM网络的输入;其中,4层DBN由4组单层RBM连续堆叠而成,第一层为高斯-伯努利RBM,其余三层均为伯努利-伯努利RBM;
步骤一二、在RBM中,伯努利-伯努利RBM的后验概率p(h|v)计算过程如下:
其中,E(v,h)为单层RBM的能量值,v为可视层向量,a为可视层的偏置向量,h为隐含层向量,b为隐含层偏置向量,W为连接可见层和隐含层的权重矩阵,Wi,*v表示权值矩阵W的第i行,隐含层状态的各个分量之间互相独立;
步骤一三、由伯努利-伯努利RBM隐含层神经元状态每个分量hi的取值只有0和1,有:
其中,σ(·)表示Sigmoid函数;
隐含层状态的向量可以用如下公式表示:
p(h=1|v)=σ(Wv+b) (3)
根据对称关系,在已知隐含层状态下,单层伯努利-伯努利RBM的可见层状态为:
p(v=1|h)=σ(WTh+a) (4)
步骤一四、对于可见层为高斯分布的高斯-伯努利RBM,后验概率p(h=1|v)的计算与式(3)相同,而p(v|h)的计算方式如下:
p(v|h)=N(v;WTh+a,I) (5)
其中I代表单位阵;
步骤一五、编码的DBN网络的堆叠的过程如下:
首先,训练一个高斯-伯努利RBM;然后,将隐含层单元的激活概率作为下一层为伯努利-伯努利RBM的可见层输入,第二层RBM的隐含状态再作为第三层RBM的输入,此后所有层依次类推;
在给定训练数据集V下,单层RBM的参数训练通过采用梯度下降法最小化负对数似然度实现:
训练过程中,负对数似然度的导数一般形式为:
其中,θ={a,b,W}决定RBM的可视层向量v的分布,<ξ>data和<ξ>model分别表示从样本数据和模型中估计出随机变量ξ的期望值;对于单层RBM中连接矩阵的权重,有:
步骤一六、训练该DBN:
首先,根据输入样本数据对第一层RBM用对比散度算法算法初始化;其中,CD算法中运用吉布斯采样得到的样本对模型进行估计,CD算法中的吉布斯采样过程具体为:
1)、吉布斯采样器通过数据样本对可见层初始化,得到可见层状态v;
2)、采用式(3)计算得到后验概率p(h|v)作为隐含层状态h;
其次,再根据RBM类型的不同分别采用式(4)或式(5)分别采样重构可见层状态v;之后,固定第一层RBM的参数,根据样本数据计算RBM的隐含层状态,并将其作为第二层RBM可见层状态;此时,再采用CD算法获取训练第二层RBM;
往后依次类推,最终逐个得到连接DBN层与层之间的权重参数;
最终,训练结束后,只保留连接层与层的权重矩阵作为DBN转移矩阵的初始化参数。
5.根据权利要求4所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述的步骤二中,根据瓶颈特征提取网络的输出v和样本训练数据X的实际输出采用BP算法对瓶颈特征提取网络进行有监督训练,即为在无监督训练基础上采用语音样本标注对语音样本进行有监督训练,具体过程为:
步骤二一、将DBN的权重直接迁移至深度神经网络中;之后,在已知DNN部分模型参数的基础上进行微调;网络的前三个连接矩阵权重W1,W2,W3已知,这三层和一层随机初始化权值输出层W4组成编码网络前端的基于DBN的瓶颈特征提取网络,在层与层之间加入激活函数,计算网络前向:
令f(·)表示激活函数,第1个隐含层状态h1和第l个隐含层状态hl分别为:
h1=f(W1x+b1) (9)
hl=f(Wlhl-1+bl) (10)
由第4个隐含层h4通过softmax函数得到网络最后的输出向量v:
v=softmax(W4h3+b4) (11)
其中,在运用上述方法训练网络时,每次从训练样本集中随机抽取固定数目的样本,并将抽取样本的特征输入至网络中,通过前向计算得到网络输出;
步骤二二、根据网络的输出和样本训练数据采用BP算法计算每层参数的梯度,再对模型参数进行更新:
DBN网络训练准则采用最小化交叉熵函数:
然后,使用反向传播算法对网络参数进行微调,按照如下公式对模型参数更新:
其中,分别为进行t次参数更新之后,网络中第l层的权重矩阵和偏置向量,μ为学习速率,△Wt l分别为权重矩阵和偏置向量的梯度,该梯度由训练样本计算一阶导数而得:
其中,M为每次训练使用到的样本数目;
步骤二三、循环地执行步骤二一和步骤二二两个步骤,并且将网络的输出与模型输出的误差是否达到设定的阈值作为训练是否结束的标志:
首先,在训练过程中,采用开发集计算网络输出与标准输出的误差,用于交叉验证;
然后,在此基础上,将训练好的网络中最后输出层的网络状态单元、转移矩阵和偏置向量全部删除,将剩下的作为编码网络的前端,将特征提取瓶颈层的状态作为编码网络前端的输出;把语音原始特征参数作为网络输入,通过该网络逐层计算出瓶颈层输出向量,该向量即为瓶颈特征参数,提取瓶颈特征。
6.根据权利要求5所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述的多尺度多头注意力模型由编码网络、解码网络和注意力网络三个模块组成;
编码网络和解码网络均包含循环神经网络单元;
编码网络前端为DBN特征提取网络,后端则为深层循环神经网络;
注意力网络的主体是多层感知器,网络输入是编码网络的输出和解码网络的隐含层单元状态,网络的输出是它们的关联度分数;关联度分数在指数归一化处理后即得到注意力系数;
解码网络由单层循环神经网络和maxout网络连接而成,首先根据注意力网络得到注意力系数,然后对所有编码网络的输出加权求和得到目标向量,最后将目标向量作为网络输入,计算输出序列每个位置上各个音素出现的后验概率。
7.根据权利要求6所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述的步骤三中,高层特征序列(h1,h2,...,hT)是通过多尺度多头注意力模型的编码网络前后端构建得到的,具体构建过程为:
步骤三一、首先,将编码网络前端训练好的DBN瓶颈特征(v1,v2,...,vn)作为循环神经网络的输入;然后,缩减循环神经网络单元堆叠层数,只留1层网络处理特征序列的时序信息,输出高层特征序列(h1,h2,...,hT);
步骤三二、在编码网络后端时刻t,第c层的前向网络和后向网络的隐含层状态分别为由于前向网络和后向网络的隐含层单元信息传递方向相反,则对应的传递函数分别为式(17)和式(18):
步骤三二、前向网络中,将GRU作为基本单元,隐含层状态计算如式(17)(18)所示,由输入特征序列(x1,x2,...,xT)可得到第1层隐含层状态同理,由c-1层隐含层状态可计算出第c层隐含层状态计算过程隐含层状态如式(19)所示:
同理,计算后向网络第c层隐含层状态;
步骤三三、拼接前向网络和后向网络的第c层隐含状态,得到编码网络在时刻t的高层特征ht
8.根据权利要求7所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述的步骤四中,多尺度多头注意力模型的注意力网络构建过程:
采用多尺度多头的注意力机制,计算序列到序列模型的输出序列的元素yo,将特征序列(h1,h2,...,hT)采用不同尺度的卷积核Fi映射成每个头的注意力机制的一个目标向量cto;再将cto作为每个头的注意力网络后的解码网络输入,逐个计算出循环神经网络隐含层状态序列(s1,s2,...,so),以及输出序列(y1,y2,...,yo);其中,
多尺度多头注意力模型的单个头注意力模型,采用注意力机制计算输出序列位置o∈{1,2,...,O}对应的目标向量cto过程如下:
首先,计算输出序列位置o-1的隐含层状态so-1与时刻t的特征的关联度,如式(21)所示:
eo,t=a(so-1,ht) (21)
其中,a(·)代表注意力网络,是只含一个隐含层的多层感知器,表示为:
eo,t=ωTtanh(W[so-1,ht,fo,t]+b) (22)
fo=Fio-1 (23)
其中,W和b分别为输入层到隐含层权重矩阵和偏置向量,ω为隐含层到输出层权重矩阵,Fi为卷积核,对于多尺度多头的注意力机制,Fi的卷积核大小是不一样的,每一个头的卷积部分采用不同大小的卷积滤波器;
多尺度多头模型不仅采用不同的卷积滤波器参数随机初始化,使多头模型形成集成模型,而且不同大小的卷积滤波器代表不同的模型,能够让上一时刻的注意力得分在各种模型的监督下进行学习和训练,得到不同的语音基元模型;
然后,对所有时刻特征的关联度进行指数归一化,归一化后的数值称为注意力系数如下:
最后,将注意力系数作为权重,对所有时刻的特征加权求和,得到注意力机制下输出序列位置o的目标向量cto:
采用注意力机制计算目标向量的过程,可以简记为式(26):
cto=attention([h1,h2,...,hT],so-1) (26)。
9.根据权利要求8所述的基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述的步骤五中,使用每个头的注意力网络所对应的解码网络计算输出序列(y1,y2,...,yo)在位置o的元素yo的过程,为:
对于多尺度多头注意力模型的单个头而言,每个头的注意力网络后的解码网络在计算输出序列(y1,y2,...,yo)位置o的元素yo时,网络的输入是多尺度单个注意力网络生成目标向量cto和位置o-1的元素yo-1,计算过程如下:
首先,解码网络依据注意力网络计算得到目标向量cto,并且将cto和yo-1作为基于GRU单元循环神经网络的输入,计算循环神经网络的隐含层状态so,如式(27)所示:
so=GRU(so-1,[yo-1,cto]) (27)
然后,给定解码网络的隐含层状态so∈Rd作为输入条件下,通过maxout网络计算得到音素i的后验概率maxout网络的每个隐含层单元有多个候选单元,该网络从中选择数值最大的单元作为输出,计算过程下:
其中,d为输入隐含层状态so的维度,对应隐含层单元数目,Wi,j∈Rd×m×k和bi,j∈Rm×k分别为maxout网络参数矩阵和偏置向量,k为maxout网络每个隐含层单元的候选单元数,m为输出层单元数目,在声学模型中对应输出音素种类数目;
最后,如式(30)所示,由maxout网络的输出层得到输出向量yo,yo第i个分量表示输出序列位置o上音素i出现的后验概率;
最终,将所有输出序列(y1,y2,...,yo)i采用DNN整合成一个新的输出序列(Y1,Y2,...,Yo);
Yi=DNN((y1,y2,...,yo)i) (31)。
CN201910477034.2A 2019-06-03 2019-06-03 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 Active CN110211574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910477034.2A CN110211574B (zh) 2019-06-03 2019-06-03 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910477034.2A CN110211574B (zh) 2019-06-03 2019-06-03 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法

Publications (2)

Publication Number Publication Date
CN110211574A true CN110211574A (zh) 2019-09-06
CN110211574B CN110211574B (zh) 2022-03-11

Family

ID=67790458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910477034.2A Active CN110211574B (zh) 2019-06-03 2019-06-03 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法

Country Status (1)

Country Link
CN (1) CN110211574B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN110824915A (zh) * 2019-09-30 2020-02-21 华南师范大学 基于ga-dbn网络的废水处理智能监控方法及***
CN110880328A (zh) * 2019-11-20 2020-03-13 Oppo广东移动通信有限公司 到站提醒方法、装置、终端及存储介质
CN110930978A (zh) * 2019-11-08 2020-03-27 北京搜狗科技发展有限公司 一种语种识别方法、装置和用于语种识别的装置
CN111145760A (zh) * 2020-04-02 2020-05-12 支付宝(杭州)信息技术有限公司 用于说话人识别的方法及神经网络模型
CN111159419A (zh) * 2019-12-09 2020-05-15 浙江师范大学 基于图卷积的知识追踪数据处理方法、***和存储介质
CN111243578A (zh) * 2020-01-10 2020-06-05 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111243609A (zh) * 2020-01-10 2020-06-05 平安科技(深圳)有限公司 有效语音智能检测方法、装置及计算机可读存储介质
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和***
CN111312228A (zh) * 2019-12-09 2020-06-19 中国南方电网有限责任公司 一种基于端到端的应用于电力企业客服的语音导航方法
CN111309965A (zh) * 2020-03-20 2020-06-19 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别***
CN111489738A (zh) * 2020-04-13 2020-08-04 深圳市友杰智新科技有限公司 基于多头注意力机制的特征提取方法及语音命令识别方法
CN111524519A (zh) * 2020-05-28 2020-08-11 中国科学技术大学 采用高级特征融合的端到端多通道语音识别方法
CN111680591A (zh) * 2020-05-28 2020-09-18 天津大学 一种基于特征融合和注意力机制的发音反演方法
CN112530421A (zh) * 2020-11-03 2021-03-19 科大讯飞股份有限公司 语音识别方法、电子设备及存储装置
CN112633175A (zh) * 2020-12-24 2021-04-09 哈尔滨理工大学 复杂环境下基于多尺度卷积神经网络单音符实时识别算法
CN112992125A (zh) * 2021-04-20 2021-06-18 北京沃丰时代数据科技有限公司 一种语音识别方法、装置、电子设备、可读存储介质
CN112992126A (zh) * 2021-04-22 2021-06-18 北京远鉴信息技术有限公司 语音真伪的验证方法、装置、电子设备及可读存储介质
CN113192489A (zh) * 2021-05-16 2021-07-30 金陵科技学院 一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法
CN113450781A (zh) * 2020-03-25 2021-09-28 阿里巴巴集团控股有限公司 语音处理方法、语音编码器、语音解码器及语音识别***
CN113537472A (zh) * 2021-07-26 2021-10-22 北京计算机技术及应用研究所 一种低计算和存储消耗的双向递归神经网络
CN113593526A (zh) * 2021-07-27 2021-11-02 哈尔滨理工大学 一种基于深度学习的语音情感识别方法
CN113705322A (zh) * 2021-06-11 2021-11-26 北京易达图灵科技有限公司 基于门限图神经网络的手写汉字识别方法和装置
CN113782014A (zh) * 2021-09-26 2021-12-10 联想(北京)有限公司 语音识别方法及装置
CN113936680A (zh) * 2021-10-08 2022-01-14 电子科技大学 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN114333900A (zh) * 2021-11-30 2022-04-12 南京硅基智能科技有限公司 端到端提取bnf特征的方法、网络模型、训练方法及***
CN114999459A (zh) * 2022-05-05 2022-09-02 苏州大学 一种基于多尺度递归量化分析的语音识别方法及***
WO2022267960A1 (zh) * 2021-06-24 2022-12-29 长沙理工大学 基于客户端选择的联邦注意力dbn协同检测***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253812A1 (en) * 2011-04-01 2012-10-04 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120328161A1 (en) * 2011-06-22 2012-12-27 Palenychka Roman Method and multi-scale attention system for spatiotemporal change determination and object detection
US20140114655A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
CN104756182A (zh) * 2012-11-29 2015-07-01 索尼电脑娱乐公司 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及***
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及***
CN108510983A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于序列标注的自动单元选择和目标分解的***和方法
CN109271838A (zh) * 2018-07-19 2019-01-25 重庆邮电大学 一种基于fmcw雷达的三参数特征融合手势识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253812A1 (en) * 2011-04-01 2012-10-04 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
CN103503060A (zh) * 2011-04-01 2014-01-08 索尼电脑娱乐公司 使用听觉注意力线索的语音音节/元音/音素边界检测
CN105023573A (zh) * 2011-04-01 2015-11-04 索尼电脑娱乐公司 使用听觉注意力线索的语音音节/元音/音素边界检测
US20120328161A1 (en) * 2011-06-22 2012-12-27 Palenychka Roman Method and multi-scale attention system for spatiotemporal change determination and object detection
US20140114655A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
CN104756182A (zh) * 2012-11-29 2015-07-01 索尼电脑娱乐公司 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及***
CN108510983A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于序列标注的自动单元选择和目标分解的***和方法
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及***
CN109271838A (zh) * 2018-07-19 2019-01-25 重庆邮电大学 一种基于fmcw雷达的三参数特征融合手势识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDROS TJANDRA ET AL.: "MULTI-SCALE ALIGNMENT AND CONTEXTUAL HISTORY FOR ATTENTION MECHANISM IN SEQUENCE-TO-SEQUENCE MODEL", 《SLT 2018》 *
YOON KIM: "Convolutional Neural Networks for Sentence Classification", 《ARXIV》 *
龙星延: "基于注意力机制的端到端语音识别技术研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110824915B (zh) * 2019-09-30 2022-06-07 华南师范大学 基于ga-dbn网络的废水处理智能监控方法及***
CN110824915A (zh) * 2019-09-30 2020-02-21 华南师范大学 基于ga-dbn网络的废水处理智能监控方法及***
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN110765966B (zh) * 2019-10-30 2022-03-25 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN110930978A (zh) * 2019-11-08 2020-03-27 北京搜狗科技发展有限公司 一种语种识别方法、装置和用于语种识别的装置
CN110880328A (zh) * 2019-11-20 2020-03-13 Oppo广东移动通信有限公司 到站提醒方法、装置、终端及存储介质
CN111159419A (zh) * 2019-12-09 2020-05-15 浙江师范大学 基于图卷积的知识追踪数据处理方法、***和存储介质
CN111159419B (zh) * 2019-12-09 2021-05-25 浙江师范大学 基于图卷积的知识追踪数据处理方法、***和存储介质
CN111312228A (zh) * 2019-12-09 2020-06-19 中国南方电网有限责任公司 一种基于端到端的应用于电力企业客服的语音导航方法
CN111243578A (zh) * 2020-01-10 2020-06-05 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111243609A (zh) * 2020-01-10 2020-06-05 平安科技(深圳)有限公司 有效语音智能检测方法、装置及计算机可读存储介质
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和***
CN111309965A (zh) * 2020-03-20 2020-06-19 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN111309965B (zh) * 2020-03-20 2024-02-13 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN113450781A (zh) * 2020-03-25 2021-09-28 阿里巴巴集团控股有限公司 语音处理方法、语音编码器、语音解码器及语音识别***
CN111145760B (zh) * 2020-04-02 2020-06-30 支付宝(杭州)信息技术有限公司 用于说话人识别的方法及神经网络模型
CN111145760A (zh) * 2020-04-02 2020-05-12 支付宝(杭州)信息技术有限公司 用于说话人识别的方法及神经网络模型
CN111489738A (zh) * 2020-04-13 2020-08-04 深圳市友杰智新科技有限公司 基于多头注意力机制的特征提取方法及语音命令识别方法
CN111489738B (zh) * 2020-04-13 2021-02-23 深圳市友杰智新科技有限公司 基于多头注意力机制的特征提取方法及语音命令识别方法
CN111524519A (zh) * 2020-05-28 2020-08-11 中国科学技术大学 采用高级特征融合的端到端多通道语音识别方法
CN111680591A (zh) * 2020-05-28 2020-09-18 天津大学 一种基于特征融合和注意力机制的发音反演方法
CN111680591B (zh) * 2020-05-28 2023-01-13 天津大学 一种基于特征融合和注意力机制的发音反演方法
CN111477221B (zh) * 2020-05-28 2022-12-30 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别***
CN111524519B (zh) * 2020-05-28 2022-09-30 中国科学技术大学 采用高级特征融合的端到端多通道语音识别方法
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别***
CN112530421A (zh) * 2020-11-03 2021-03-19 科大讯飞股份有限公司 语音识别方法、电子设备及存储装置
CN112633175A (zh) * 2020-12-24 2021-04-09 哈尔滨理工大学 复杂环境下基于多尺度卷积神经网络单音符实时识别算法
CN112992125A (zh) * 2021-04-20 2021-06-18 北京沃丰时代数据科技有限公司 一种语音识别方法、装置、电子设备、可读存储介质
CN112992125B (zh) * 2021-04-20 2021-08-03 北京沃丰时代数据科技有限公司 一种语音识别方法、装置、电子设备、可读存储介质
CN112992126A (zh) * 2021-04-22 2021-06-18 北京远鉴信息技术有限公司 语音真伪的验证方法、装置、电子设备及可读存储介质
CN113192489A (zh) * 2021-05-16 2021-07-30 金陵科技学院 一种基于多尺度增强BiLSTM模型的喷漆机器人语音识别方法
CN113705322A (zh) * 2021-06-11 2021-11-26 北京易达图灵科技有限公司 基于门限图神经网络的手写汉字识别方法和装置
CN113705322B (zh) * 2021-06-11 2024-05-24 北京易达图灵科技有限公司 基于门限图神经网络的手写汉字识别方法和装置
WO2022267960A1 (zh) * 2021-06-24 2022-12-29 长沙理工大学 基于客户端选择的联邦注意力dbn协同检测***
CN113537472B (zh) * 2021-07-26 2024-04-09 北京计算机技术及应用研究所 一种低计算和存储消耗的双向递归神经网络的构建方法
CN113537472A (zh) * 2021-07-26 2021-10-22 北京计算机技术及应用研究所 一种低计算和存储消耗的双向递归神经网络
CN113593526A (zh) * 2021-07-27 2021-11-02 哈尔滨理工大学 一种基于深度学习的语音情感识别方法
CN113782014A (zh) * 2021-09-26 2021-12-10 联想(北京)有限公司 语音识别方法及装置
CN113782014B (zh) * 2021-09-26 2024-03-26 联想(北京)有限公司 语音识别方法及装置
CN113936680B (zh) * 2021-10-08 2023-08-08 电子科技大学 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN113936680A (zh) * 2021-10-08 2022-01-14 电子科技大学 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN114333900A (zh) * 2021-11-30 2022-04-12 南京硅基智能科技有限公司 端到端提取bnf特征的方法、网络模型、训练方法及***
CN114333900B (zh) * 2021-11-30 2023-09-05 南京硅基智能科技有限公司 端到端提取bnf特征的方法、网络模型、训练方法及***
CN114999459A (zh) * 2022-05-05 2022-09-02 苏州大学 一种基于多尺度递归量化分析的语音识别方法及***

Also Published As

Publication number Publication date
CN110211574B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN110211574A (zh) 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
Zhang et al. End-to-end attention based text-dependent speaker verification
An et al. Deep CNNs with self-attention for speaker identification
Cai et al. A novel learnable dictionary encoding layer for end-to-end language identification
Zeng et al. Effective combination of DenseNet and BiLSTM for keyword spotting
CN109409296B (zh) 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN109192199A (zh) 一种结合瓶颈特征声学模型的数据处理方法
Deng et al. New types of deep neural network learning for speech recognition and related applications: An overview
Waibel Modular construction of time-delay neural networks for speech recognition
Tan et al. The artificial intelligence renaissance: deep learning and the road to human-level machine intelligence
Elleuch et al. Arabic handwritten characters recognition using deep belief neural networks
Irum et al. Speaker verification using deep neural networks: A
Frinken et al. Deep BLSTM neural networks for unconstrained continuous handwritten text recognition
CN109545227A (zh) 基于深度自编码网络的说话人性别自动识别方法及***
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN116010874A (zh) 基于深度学习多模态深尺度情感特征融合的情感识别方法
Jiang et al. Speech Emotion Recognition Using Deep Convolutional Neural Network and Simple Recurrent Unit.
Huang et al. A neural net approach to speech recognition
Singh et al. Emoception: An inception inspired efficient speech emotion recognition network
Wang et al. L2 mispronunciation verification based on acoustic phone embedding and Siamese networks
Huilian et al. Speech emotion recognition based on BLSTM and CNN feature fusion
Duduka et al. A neural network approach to accent classification
Yang et al. Exploration of acoustic and lexical cues for the interspeech 2020 computational paralinguistic challenge
Cai et al. Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition
Bottou Multilayer neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant