CN107293291A - 一种基于自适应学习率的端到端的语音识别方法 - Google Patents
一种基于自适应学习率的端到端的语音识别方法 Download PDFInfo
- Publication number
- CN107293291A CN107293291A CN201610192763.XA CN201610192763A CN107293291A CN 107293291 A CN107293291 A CN 107293291A CN 201610192763 A CN201610192763 A CN 201610192763A CN 107293291 A CN107293291 A CN 107293291A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- neutral net
- gradient
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000013016 learning Effects 0.000 title claims abstract description 19
- 230000007935 neutral effect Effects 0.000 claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 20
- 230000002123 temporal effect Effects 0.000 claims abstract description 5
- 230000001186 cumulative effect Effects 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000000205 computational method Methods 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 12
- 230000003213 activating effect Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 230000000306 recurrent effect Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种基于自适应学习率的端到端的语音识别方法,该方法具体包括:(1)、采用双向递归神经网络作为声学模型,分别计算所述前向递归神经网络隐层和所述反向递归神经网络隐层再采用长短时记忆单元(long‑short term memory cell,LSTM)分别替代和得到神经网络的最终输出,即y;(2)、将上述步骤(1)中的声学模型建模单元作为音素,采用connectionist temporal classification准则,引入了blank符号辅助对齐,构建和计算目标函数;对所述目标函数关于神经网络输出进行求偏导计算,再通过使用误差反向传播算法(error back propagation,BP)计算所述步骤(1)中权值矩阵中的参数集合w的梯度g;(3)、基于上述步骤(2)所提供的一阶梯度信息,即梯度g,再结合ADADELTA自适应学习率的方法,对所述参数集合w进行更新。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种基于自适应学习率的端到端的语音识别方法。
背景技术
随着深度学习的兴起,基于深度神经网络的语音识别技术取得了显著的进步。目前,常用的语音识别方法采用基于隐马尔可夫模型和深度神经网络的混合方法,需要训练隐马尔可夫模型以及相应的高斯混合模型,为后续训练深度神经网络提供帧级别的训练标注。但是,基于隐马尔可夫模型和深度神经网络的混合方法的语音识别框架较复杂:一是其训练得到的高斯混合模型并不会用于最终的解码过程中;二是训练模型依赖过多的语言学知识,比如建立决策树时需要的问题集;三是较多的超参数,均需要精细的调参才能获取最优性能,如状态聚类个数和高斯混合模型的高斯数等。
端到端的语音识别一般采用connectionist temporal classification(CTC)准则作为递归神经网络(recurrent neural network,RNN)的目标函数进行训练。在计算得到目标函数对神经网络中各参数的偏导数后,使用最为常见的参数更新方法,结合冲量(momentum)的随机梯度下降法,更新神经网络中的各个参数。CTC准则引入的blank符号对目标函数的贡献与其他建模单元相同,并且blank符号由于其辅助对齐的作用,会频繁出现在对齐路径上,但却对识别结果的统计没有影响。
发明内容
本发明的目的在于,为解决现有的语音识别方法的复杂的语音识别框架的缺陷,提供一种基于自适应学习率的端到端的语音识别方法;该方法具体包括:
(1)、采用双向递归神经网络作为声学模型,分别计算所述前向递归神经网络隐层和所述反向递归神经网络隐层再采用长短时记忆单元(long-short term memorycell,LSTM)分别替代所述前向递归神经网络隐层和所述反向递归神经网络隐层通过计算得到神经网络的最终输出,即y;
(2)、将上述步骤(1)中的声学模型建模单元作为音素,采用connectionisttemporal classification(CTC)准则,在CTC准则引入了blank符号辅助对齐,构建和计算目标函数:再对目标函数关于神经网络输出进行求偏导计算,所得的偏导数再通过使用误差反向传播算法(error back propagation,BP)计算所述步骤(1)中权值矩阵中的参数集合w的梯度g;
(3)、基于上述步骤(2)所提供的一阶梯度信息,即梯度g,再结合ADADELTA自适应学习率的方法,对所述步骤(1)中权值矩阵中的参数集合w进行更新。
所述参数集合w包括权值矩阵和偏置构成整个神经网络集合。
计算包含所述步骤(1)中权值矩阵的参数集合w的梯度g如下:
假设一句输入的语音x共有T帧特征,那么一个基于CTC准则的对齐序列表示为p=(p1,...,pT),每一个pt表示时刻t的输出音素,那么该对齐序列的似然概率,即Pr(p|x),
其中,表示在时刻t神经网络输出pt的后验概率;
blank出现在任意位置,且其不影响最终的输出结果;给定输入的特征序列x,对应标注为z的似然概率进行如下计算,
其中,Pr(z|x)为目标函数,Φ(z)为对应的标注z若干带有blank的对齐序列;
计算所述目标函数Pr(z|x)关于神经网络输出的偏导数,即为根据所述的偏导数采用误差反向传播算法(error back propagation,BP)来计算参数集合w的梯度g。
所述ADADELTA自适应学习率的方法,其具体计算方法如下:
其中,gt为时刻t的梯度,E[g2]t表示t时刻累加的梯度gt平方的期望,E[g2]t-1为t-1时刻累加梯度的平方的期望,ρ为一个衰减因子,取值范围为(0,1);
假设E[g2]0表示E[g2]t初始化为0;
其中,∈用于防止数学运算错误,RMS[g]t为梯度gt均方根值;
其中,Δwt表示t时刻神经网络中参数集合w中的任一参数的更新值,RMS[Δw]t-1为t-1时刻的更新值的均方根值;
其中,E[Δw2]t表示t时刻参数w中的任一参数的累加更新值平方的期望,
E[Δw2]t-1表示t-1时刻参数ω中的任一参数的累加更新值平方的期望;
假设E[Δω2]0表示E[Δω2]t初始化为0;
wt+1=wt+Δwt
其中,ωt+1为更新后的参数值,ωt为当前参数值。
本发明的优点在于:端到端的语音识别***抛弃了传统的隐马尔可夫模型,而是利用递归神经网络(recurrent neural network,RNN)在时间序列建模方面的优点,借助递归神经网络建立语音特征序列到对应音素或字符序列的直接映射。端到端的语音识别建模方法极大地简化了构建语音识别***的流程;使用CTC准则作为训练目标函数,引入了blank符号且其对似然函数的贡献远大于其他音素;再结合自适应学习率的方法ADADELTA,通过将神经网络中每个参数的梯度累积下来,可以减弱频繁出现的特征对网络权重的影响。
附图说明
图1是本发明提供的基于自适应学习率的端到端的语音识别方法的LSTM结构图;
图2是本发明提供的基于自适应学习率的端到端的语音识别方法的训练流程图;
具体实施方式
以下结合附图对本发明作进一步的详细说明。
如图2所示,本发明提供一种基于自适应学习率的端到端的语音识别方法;该方法具体包括:
(1)、采用双向递归神经网络作为声学模型,分别计算前向和反向的递归神经网络隐层,即和具体过程如下:
假设输入特征序列使用x=(x1,…,xT),那么所述的前向递归神经网络隐层可以用(1)式描述;
其中,σ为sigmoid激活函数,为输入层和隐层相连接的权值矩阵,为t-1时刻隐层输出和t时刻隐层相连接的权值矩阵,为偏置,xt表示t时刻的输入,表示t-1时刻隐层的输出,表示t时刻隐层的输出。
所述反向递归神经网络隐层可以用(2)式描述;
其中,σ为sigmoid激活函数,为输入层和隐层相连接的权值矩阵,为t+1时刻隐层输出和t时刻隐层相连接的权值矩阵,为偏置,xt表示t时刻的输入,表示t+1时刻隐层的输出,表示t时刻隐层的输出。
前向和反向递归神经网络的隐层输出拼接成为整个网络的隐层输出隐层和输出层通过权值矩阵连接,并在输出前经过公式(3)中的softmax函数进行概率规整:
y=G(WhyH+by) (3)
其中,Why为连接隐藏层和输出层的权值矩阵;by为偏置;y为神经网络的最终输出;G(·)为softmax函数,计算公式如下:
其中,z表示神经网络做规整前的输出值,ez为其指数运算,zk表示第k个节点的输出值,k为输出节点个数。
通过公式(1),(2)计算前向和反向的递归神经网络隐层,即和所述前向递归神经网络隐层和所述反向递归神经网络隐层会出现梯度消失的问题。因此,采用长短时记忆单元(long-short term memory cell,LSTM)分别替代所述前向递归神经网络隐层和所述反向递归神经网络隐层具体计算过程如下:
如图1所示,采用LSTM计算所述前向递归神经网络隐层
其中,为t时刻输入门的输出,为输入序列到输入门的权值矩阵,为t-1时刻LSTM输出到输入门的权值矩阵,为LSTM细胞到输入门的权值矩阵,为t-1时刻单元激活的输出,为t-1时刻隐层的输出,为输入门的偏置;
其中,为忘记门的输出,为输入序列到忘记门的权值矩阵,为隐层到忘记门的权值矩阵,为单元激活到忘记门的权值矩阵,为忘记门的偏置;
其中,为t时刻单元激活的输出,为输入序列到单元激活的权值矩阵,为隐层到LSTM细胞的权值矩阵,为单元激活的偏置;
其中,为t时刻输出门的输出,为输入序列到输出门的权值矩阵,为隐层到输出门的权值矩阵,为单元激活到输出门的权值矩阵,为输出门的偏置;
通过对上述公式(5)-(9)的计算,得出所述前向递归神经网络隐层的最终的输出结果
类似的,采用LSTM计算所述反向递归神经网络隐层即使用t+1时刻各个门的输出作为t时刻的输入。其计算公式为:
其中,为t时刻输入门的输出,为输入序列到输入门的权值矩阵,为t+1时刻LSTM输出到输入门的权值矩阵,为LSTM细胞到输入门的权值矩阵,为t+1时刻单元激活的输出,为t+1时刻隐层的输出,为输入门的偏置;
其中,为忘记门的输出,为输入序列到忘记门的权值矩阵,为隐层到忘记门的权值矩阵,为单元激活到忘记门的权值矩阵,为忘记门的偏置;
其中,为t时刻单元激活的输出,为输入序列到单元激活的权值矩阵,为隐层到LSTM细胞的权值矩阵,为单元激活的偏置;
其中,为t时刻输出门的输出,为输入序列到输出门的权值矩阵,为隐层到输出门的权值矩阵,为单元激活到输出门的权值矩阵,为输出门的偏置;
通过对上述公式(10)-(14)的计算,得出所述反向递归神经网络隐层的最终的输出结果
其中,上述所有公式中提到的权值矩阵和偏置构成整个神经网络的参数w的集合;即
其中,
和
通过计算得出的所述前向递归神经网络隐层和所述反向递归神经网络隐层的最终输出结果,即和二者组成所述整个网络的隐层输出将带入公式(3),得到神经网络的最终输出,即y。
(2)、根据上述步骤(1)中的声学模型建模单元为音素,采用connectionisttemporal classification(CTC)准则,在CTC准则中引入了blank符号辅助对齐,构建和计算目标函数,具体计算过程如下:
假设一句输入的语音x共有T帧特征,那么一个基于CTC准则的对齐序列可以表示为p=(p1,...,pT),每一个pt表示时刻t的输出音素,那么该对齐序列的似然概率,即Pr(p|x),可以用(15)式描述:
其中表示在时刻t神经网络输出pt的后验概率;
blank可以出现在任意位置,且其不影响最终的输出结果;给定输入的特征序列x,对应标注为z的似然概率进行如下计算,用(16)式描述:
其中,Pr(z|x)为目标函数,Φ(z)为对应的标注z可以若干带有blank的对齐序列。
随后,计算所述目标函数Pr(z|x)关于神经网络输出的偏导数,即为根据所述的偏导数使用误差反向传播算法(error back propagation,BP)来计算参数集合ω的梯度g;
(3)、基于上述步骤(1)所提供的一阶梯度信息,即g,结合ADADELTA自适应学习率的方法,对神经网络中的参数集合ω中的任意一个参数进行更新,计算方法如下:
其中,gt为时刻t的梯度,E[g2]t表示t时刻累加的梯度gt平方的期望,E[g2]t-1为t-1时刻累加梯度的平方的期望,ρ为一个衰减因子,取值范围为(0,1);
假设E[g2]0表示E[g2]t初始化为0;
其中,∈是为了防止数学运算错误,RMS[g]t为梯度gt均方根值;
其中,Δwt表示t时刻神经网络中参数ω的更新值,RMS[Δω]t-1为t-1时刻的更新值的均方根值;
其中,E[Δω2]t表示t时刻参数ω累加更新值平方的期望,E[Δω2]t-1表示t-1时刻参数ω累加更新值平方的期望;
假设E[Δω2]0表示E[Δω2]t初始化为0;
ωt+1=ωt+Δωt (21)
其中,ωt+1为更新后的参数值,ωt为当前参数值。
本发明实验使用数据为Switchboard数据集,其中训练数据总共为全部训练数据的子集,时长共110小时的电话交谈语音,测试数据为Hub5’00中的Switchboard测试集。测试评价指标有训练过程中的标注正确率(label accuracy rate,LAC)和测试集的字错误率(word error rate,WER)。测试结果如下表:
由表中可以看出,采用本发明的方法后,在训练集和验证集的标注正确率上分别有接近6%和1%的绝对提升,而字错误率也有0.9%的绝对提升。因此,通过使用ADADELTA方法可以简化语音识别的框架,并且明显提升端到端的语音识别***的识别性能。
最后需要说明的是,具体实施方式中所述的实验用图仅用来说明本发明的技术方案软件算法的可行性而非局限于此例,算法已经经过大量实验数据验证,是真实可靠的,搭配硬件便可实现本发明的技术方案。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于自适应学习率的端到端的语音识别方法;其特征在于,该方法具体包括:
(1)、采用双向递归神经网络作为声学模型,分别计算所述前向递归神经网络隐层和所述反向递归神经网络隐层再采用长短时记忆单元分别替代所述前向递归神经网络隐层和所述反向递归神经网络隐层得到神经网络的最终输出,即y;
(2)、将上述步骤(1)中的声学模型建模单元作为音素,采用connectionist temporalclassification准则,即CTC准则;在CTC准则中引入了blank符号辅助对齐,构建和计算目标函数;再对所述目标函数关于神经网络输出进行求偏导计算,再通过使用误差反向传播算法来计算包含所述步骤(1)中权值矩阵的参数集合ω的梯度g;
(3)、基于上述步骤(2)所提供的一阶梯度信息,即梯度g,再结合ADADELTA自适应学习率的方法,对所述步骤(1)中权值矩阵中的参数集合ω进行更新。
2.根据权利要求1所述的一种基于自适应学习率的端到端的语音识别方法;其特征在于,所述参数集合ω包括构成整个神经网络集合的权值矩阵和偏置。
3.根据权利要求1所述的一种基于自适应学习率的端到端的语音识别方法;其特征在于,计算包含所述步骤(1)中权值矩阵的参数集合ω的梯度g如下:
假设一句输入的语音x共有T帧特征,那么一个基于CTC准则的对齐序列表示为p=(p1,...,pT),每一个pt表示时刻t的输出音素,那么该对齐序列的似然概率,即Pr(p|x),
<mrow>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</munderover>
<msubsup>
<mi>y</mi>
<mi>t</mi>
<msub>
<mi>p</mi>
<mi>t</mi>
</msub>
</msubsup>
</mrow>
其中,表示在时刻t神经网络输出pt的后验概率;
blank出现在任意位置,且其不影响最终的输出结果;给定输入的特征序列x,对应标注为z的似然概率进行如下计算,
<mrow>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>z</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>p</mi>
<mo>&Element;</mo>
<mi>&Phi;</mi>
<mrow>
<mo>(</mo>
<mi>z</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mi>Pr</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
其中,Pr(z|x)为目标函数,Φ(z)为对应的标注z若干带有blank的对齐序列;
计算所述目标函数Pr(z|x)关于神经网络输出的偏导数,即为根据所述的偏导数采用误差反向传播算法来计算参数集合ω的梯度g。
4.根据权利要求1所述的一种基于自适应学习率的端到端的语音识别方法;其特征在于,所述ADADELTA自适应学习率的方法,其计算方法如下:
<mrow>
<mi>E</mi>
<msub>
<mrow>
<mo>[</mo>
<msup>
<mi>g</mi>
<mn>2</mn>
</msup>
<mo>]</mo>
</mrow>
<mi>t</mi>
</msub>
<mo>=</mo>
<mi>&rho;E</mi>
<msub>
<mrow>
<mo>[</mo>
<msup>
<mi>g</mi>
<mn>2</mn>
</msup>
<mo>]</mo>
</mrow>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&rho;</mi>
<mo>)</mo>
</mrow>
<msubsup>
<mi>g</mi>
<mi>t</mi>
<mn>2</mn>
</msubsup>
</mrow>
其中,gt为时刻t的梯度,E[g2]t表示t时刻累加的梯度gt平方的期望,E[g2]t-1为t-1时刻累加梯度的平方的期望,ρ为一个衰减因子,取值范围为(0,1);
假设E[g2]0表示E[g2]t初始化为0;
<mrow>
<mi>R</mi>
<mi>M</mi>
<mi>S</mi>
<msub>
<mrow>
<mo>&lsqb;</mo>
<mi>g</mi>
<mo>&rsqb;</mo>
</mrow>
<mi>t</mi>
</msub>
<mo>=</mo>
<msqrt>
<mrow>
<mi>E</mi>
<msub>
<mrow>
<mo>&lsqb;</mo>
<msup>
<mi>g</mi>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
<mi>t</mi>
</msub>
<mo>+</mo>
<mo>&Element;</mo>
</mrow>
</msqrt>
</mrow>
其中,∈用于防止数学运算错误,RMS[g]t为梯度gt均方根值;
<mrow>
<msub>
<mi>&Delta;w</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mi>R</mi>
<mi>M</mi>
<mi>S</mi>
<msub>
<mrow>
<mo>&lsqb;</mo>
<mi>&Delta;</mi>
<mi>w</mi>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mrow>
<mi>R</mi>
<mi>M</mi>
<mi>S</mi>
<msub>
<mrow>
<mo>&lsqb;</mo>
<mi>g</mi>
<mo>&rsqb;</mo>
</mrow>
<mi>t</mi>
</msub>
</mrow>
</mfrac>
<msub>
<mi>g</mi>
<mi>t</mi>
</msub>
</mrow>
其中,Δwt表示t时刻神经网络中参数集合ω中的任一参数的更新值,RMS[Δω]t-1为t-1时刻的更新值的均方根值;
<mrow>
<mi>E</mi>
<msub>
<mrow>
<mo>&lsqb;</mo>
<msup>
<mi>&Delta;w</mi>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
<mi>t</mi>
</msub>
<mo>=</mo>
<mi>&rho;</mi>
<mi>E</mi>
<msub>
<mrow>
<mo>&lsqb;</mo>
<msup>
<mi>&Delta;w</mi>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&rho;</mi>
<mo>)</mo>
</mrow>
<msubsup>
<mi>&Delta;w</mi>
<mi>t</mi>
<mn>2</mn>
</msubsup>
</mrow>
其中,E[Δω2]t表示t时刻参数ω中的任一参数的累加更新值平方的期望,
E[Δω2]t-1表示t-1时刻参数ω中的任一参数的累加更新值平方的期望;
假设E[Δω2]0表示E[Δω2]t初始化为0;
ωt+1=ωt+Δωt
其中,ωt+1为更新后的参数值,ωt为当前参数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192763.XA CN107293291B (zh) | 2016-03-30 | 2016-03-30 | 一种基于自适应学习率的端到端的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192763.XA CN107293291B (zh) | 2016-03-30 | 2016-03-30 | 一种基于自适应学习率的端到端的语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107293291A true CN107293291A (zh) | 2017-10-24 |
CN107293291B CN107293291B (zh) | 2021-03-16 |
Family
ID=60086614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610192763.XA Active CN107293291B (zh) | 2016-03-30 | 2016-03-30 | 一种基于自适应学习率的端到端的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107293291B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065032A (zh) * | 2018-07-16 | 2018-12-21 | 杭州电子科技大学 | 一种基于深度卷积神经网络的外部语料库语音识别方法 |
CN109243494A (zh) * | 2018-10-30 | 2019-01-18 | 南京工程学院 | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 |
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及*** |
CN109523995A (zh) * | 2018-12-26 | 2019-03-26 | 出门问问信息科技有限公司 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
CN109754790A (zh) * | 2017-11-01 | 2019-05-14 | 中国科学院声学研究所 | 一种基于混合声学模型的语音识别***及方法 |
CN110033766A (zh) * | 2019-04-17 | 2019-07-19 | 重庆大学 | 一种基于二值化递归神经网络的语音识别方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110210480A (zh) * | 2019-06-05 | 2019-09-06 | 北京旷视科技有限公司 | 文字识别方法、装置、电子设备和计算机可读存储介质 |
CN110784228A (zh) * | 2019-10-23 | 2020-02-11 | 武汉理工大学 | 一种基于lstm模型的地铁结构振动信号的压缩方法 |
CN111091817A (zh) * | 2018-10-24 | 2020-05-01 | 中国科学院声学研究所 | 一种基于窗口输入的双向回馈神经网络的语音识别方法 |
CN111243574A (zh) * | 2020-01-13 | 2020-06-05 | 苏州奇梦者网络科技有限公司 | 一种语音模型自适应训练方法、***、装置及存储介质 |
CN111243578A (zh) * | 2020-01-10 | 2020-06-05 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111429887A (zh) * | 2020-04-20 | 2020-07-17 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111695297A (zh) * | 2020-06-02 | 2020-09-22 | 哈尔滨工程大学 | 一种近海面气温反演方法 |
CN114598565A (zh) * | 2022-05-10 | 2022-06-07 | 深圳市发掘科技有限公司 | 一种厨电设备远程控制***、方法及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及*** |
CN105139864A (zh) * | 2015-08-17 | 2015-12-09 | 北京天诚盛业科技有限公司 | 语音识别方法和装置 |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
-
2016
- 2016-03-30 CN CN201610192763.XA patent/CN107293291B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及*** |
CN105139864A (zh) * | 2015-08-17 | 2015-12-09 | 北京天诚盛业科技有限公司 | 语音识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
GRAVES,ALEX;FERNANDEZ,SANTIAGO;GOMEZ,FAUSTINO;SCHMIDHUBER,JURGEN: "Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural"networks", 《ICML 2006: 23RD INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 * |
MATTHEW D. ZEILER: "ADADELTA: An Adaptive Learning Rate Method", 《COMPUTER SCIENCE》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754790A (zh) * | 2017-11-01 | 2019-05-14 | 中国科学院声学研究所 | 一种基于混合声学模型的语音识别***及方法 |
CN109754790B (zh) * | 2017-11-01 | 2020-11-06 | 中国科学院声学研究所 | 一种基于混合声学模型的语音识别***及方法 |
CN109065032A (zh) * | 2018-07-16 | 2018-12-21 | 杭州电子科技大学 | 一种基于深度卷积神经网络的外部语料库语音识别方法 |
CN111091817A (zh) * | 2018-10-24 | 2020-05-01 | 中国科学院声学研究所 | 一种基于窗口输入的双向回馈神经网络的语音识别方法 |
CN111091817B (zh) * | 2018-10-24 | 2022-10-11 | 中国科学院声学研究所 | 一种基于窗口输入的双向回馈神经网络的语音识别方法 |
CN109243494A (zh) * | 2018-10-30 | 2019-01-18 | 南京工程学院 | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 |
CN109243494B (zh) * | 2018-10-30 | 2022-10-11 | 南京工程学院 | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 |
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及*** |
CN109346064B (zh) * | 2018-12-13 | 2021-07-27 | 思必驰科技股份有限公司 | 用于端到端语音识别模型的训练方法及*** |
CN109523995B (zh) * | 2018-12-26 | 2019-07-09 | 出门问问信息科技有限公司 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
CN109523995A (zh) * | 2018-12-26 | 2019-03-26 | 出门问问信息科技有限公司 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110033766A (zh) * | 2019-04-17 | 2019-07-19 | 重庆大学 | 一种基于二值化递归神经网络的语音识别方法 |
CN110210480A (zh) * | 2019-06-05 | 2019-09-06 | 北京旷视科技有限公司 | 文字识别方法、装置、电子设备和计算机可读存储介质 |
CN110784228A (zh) * | 2019-10-23 | 2020-02-11 | 武汉理工大学 | 一种基于lstm模型的地铁结构振动信号的压缩方法 |
CN110784228B (zh) * | 2019-10-23 | 2023-07-25 | 武汉理工大学 | 一种基于lstm模型的地铁结构振动信号的压缩方法 |
CN111243578A (zh) * | 2020-01-10 | 2020-06-05 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111243574A (zh) * | 2020-01-13 | 2020-06-05 | 苏州奇梦者网络科技有限公司 | 一种语音模型自适应训练方法、***、装置及存储介质 |
CN111429887A (zh) * | 2020-04-20 | 2020-07-17 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111429887B (zh) * | 2020-04-20 | 2023-05-30 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111695297A (zh) * | 2020-06-02 | 2020-09-22 | 哈尔滨工程大学 | 一种近海面气温反演方法 |
CN111695297B (zh) * | 2020-06-02 | 2022-08-02 | 哈尔滨工程大学 | 一种近海面气温反演方法 |
CN114598565A (zh) * | 2022-05-10 | 2022-06-07 | 深圳市发掘科技有限公司 | 一种厨电设备远程控制***、方法及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107293291B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107293291A (zh) | 一种基于自适应学习率的端到端的语音识别方法 | |
CN103049792B (zh) | 深层神经网络的辨别预训练 | |
JP6712642B2 (ja) | モデル学習装置、その方法、及びプログラム | |
CN106126507B (zh) | 一种基于字符编码的深度神经翻译方法及*** | |
CN107680582A (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN107679618A (zh) | 一种静态策略定点化训练方法及装置 | |
CN105139864B (zh) | 语音识别方法和装置 | |
CN109992629A (zh) | 一种融合实体类型约束的神经网络关系抽取方法及*** | |
CN111475655B (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN109635124A (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN110334354A (zh) | 一种中文关系抽取方法 | |
CN108229582A (zh) | 一种面向医学领域的多任务命名实体识别对抗训练方法 | |
CN107688849A (zh) | 一种动态策略定点化训练方法及装置 | |
CN108133038A (zh) | 一种基于动态记忆网络的实体级别情感分类***及方法 | |
CN110555084B (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN108630199A (zh) | 一种声学模型的数据处理方法 | |
CN106340297A (zh) | 一种基于云计算与置信度计算的语音识别方法与*** | |
CN110275928B (zh) | 迭代式实体关系抽取方法 | |
CN107180084A (zh) | 词库更新方法及装置 | |
CN111738002A (zh) | 基于Lattice LSTM的古文领域命名实体识别方法和*** | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN108364634A (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
CN105810191A (zh) | 融合韵律信息的汉语方言辨识方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |