CN106782518A - 一种基于分层循环神经网络语言模型的语音识别方法 - Google Patents
一种基于分层循环神经网络语言模型的语音识别方法 Download PDFInfo
- Publication number
- CN106782518A CN106782518A CN201611059843.4A CN201611059843A CN106782518A CN 106782518 A CN106782518 A CN 106782518A CN 201611059843 A CN201611059843 A CN 201611059843A CN 106782518 A CN106782518 A CN 106782518A
- Authority
- CN
- China
- Prior art keywords
- rnn
- character
- level
- word
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000007935 neutral effect Effects 0.000 title claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000020411 cell activation Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 230000003750 conditioning effect Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明中提出的一种基于分层循环神经网络语言模型的语音识别方法,其主要内容包括:使用RNN的字符级语言建模、用外部时钟和复位信号扩展RNN结构、具有分级RNN的字符级语言建模、进行语音识别,其过程为,先使用RNN的字符级语言建模,接着用外部时钟和复位信号扩展RNN结构,具有分级RNN的字符级语言建模,最后进行语音识别。本发明用基于分层循环神经网络语言模型替换传统的单时钟RNN字符级语言模型,具有更好的识别精度,降低了参数的数量;语言模型词汇量大,需要的存储空间更小;分层语言模型可以被扩展以处理更长时期的信息,例如句子,主题或其他上下文。
Description
技术领域
本发明涉及语音识别领域,尤其是涉及了一种基于分层循环神经网络语言模型的语音识别方法。
背景技术
随着现代技术的发展,基于循环神经网络(RNN)的字符级语言模型(CLMs)在语音识别、文本生成和机器翻译等领域应用广泛。它对于自然界中未见的单词的建模非常有用。然而,它们的性能通常比词级语言模型(WLMs)差得多。而且,统计语言模型需要大的存储空间,通常超过1GB,因为不仅要考虑大量的词汇,还需要考虑它们的组合。
本发明提出了一种基于分层循环神经网络语言模型的语音识别方法,其分级RNN架构由具有不同时钟速率的多个模块组成。尽管是多时钟结构,但是输入层和输出层都是以字符级时钟操作,这允许现有的RNN字符级语言模型训练方法可以直接应用而不需要任何修改。首先使用RNN的字符级语言建模,接着用外部时钟和复位信号扩展RNN结构,具有分级RNN的字符级语言建模,最后进行语音识别。本发明用基于分层循环神经网络语言模型替换传统的单时钟RNN字符级语言模型,具有更好的识别精度,降低了参数的数量;语言模型词汇量大,需要的存储空间更小;分层语言模型可以被扩展以处理更长时期的信息,例如句子,主题或其他上下文。
发明内容
针对识别精度不高,所占存储空间大等问题,本发明的目的在于提供一种基于分层循环神经网络语言模型的语音识别方法,首先使用RNN的字符级语言建模,接着用外部时钟和复位信号扩展RNN结构,具有分级RNN的字符级语言建模,最后进行语音识别。
为解决上述问题,本发明提供一种基于分层循环神经网络语言模型的语音识别方法,其主要内容包括:
(一)使用RNN的字符级语言建模;
(二)用外部时钟和复位信号扩展RNN结构;
(三)具有分级RNN的字符级语言建模;
(四)进行语音识别。
其中,所述的基于分层循环神经网络语言模型,结合了字符级和词级语言模型的有利特性;循环神经网络(RNN)由低级RNNs和高级RNNs组成;低级RNN采用字符级输入和输出,并且向作为词级RNN操作的高级RNN提供短期嵌入;高级RNN不需要复杂的输入和输出,因为它从低级网络接收特征信息,并且以压缩形式将字符预测信息发送回低级;因此,当考虑输入和输出时,所提出的网络是一个字符级语言模型(CLM),但它包含一个词级模型;低级模块使用字符输入时钟,而高级模块使用分隔字的空格(<w>)运行;该分层语言模型可以被扩展,以处理更长时期的信息,例如句子,主题或其他上下文;分层语言模型可以用基于文本的字符来进行端对端训练。
其中,所述的使用RNN的字符级语言建模,对于训练RNN CLMs,训练数据应首先转换为独热编码字符向量序列xt,其中字符包括字边界符号<w>,或空格,以及可选的句子边界符号<s>;训练RNN,通过使表示下一个字符的概率分布的softmax输出的交叉熵损失最小化来预测下一个字符xt+1。
其中,所述的用外部时钟和复位信号扩展RNN结构,大多数类型的RNNs可以被概括为
st=f(xt,st-1) (1)
yt=g(st) (2)
其中,xt是输入,st是状态,yt是时间步骤t的输出,f(·)是递归函数,g(·)是输出函数;例如,Elman网络可以表示为
st=ht=σ(Whxxt+Whhht-1+bh) (3)
yt=ht (4)
其中,ht是隐层的激活,σ(·)是激活函数,Whx和Whh是权重矩阵,bh是偏置向量;
具有遗忘门和窥视孔连接的LSTMs也可以转换为泛化形式;LSTM层的前向方程如下:
it=σ(Wixxt+Wihht-1+Wimmt-1+bi) (5)
ft=σ(Wfxxt+Wfhht-1+Wfmmt-1+bf) (6)
mt=ft°mt-1+it°tanh(Wmxxt+Wmhmt-1+bm) (7)
ot=σ(Woxxt+Wohht-1+Wommt+bo) (8)
ht=ot tanh(mt) (9)
其中,it,ft和ot分别是输入门,遗忘门和输出门的值,mt是存储器单元激活,ht是输出激活,σ(·)是逻辑S型函数,о是元素智能乘法运算符;这些方程可以通过设置st=[mt,ht]和yt=ht来概括。
进一步地,所述的用外部时钟和复位信号扩展RNN结构,任何广义RNNs可以被转换为并入外部时钟信号的那些RNNs,ct,如
st=(1-ct)st-1+ctf(xt,st-1) (10)
yt=g(st) (11)
其中,ct是0或1;RNN仅在ct=1时更新其状态和输出;否则,当ct=0时,状态和输出值保持与前一步骤相同;
通过将st-1设置为0来执行RNN的重置;具体地,公式(10)变为
st=(1-ct)(1-rt)st-1+ctf(xt,(1-rt)st-1) (12)
其中,复位信号rt=0或1;当rt=1时,RNN忘记先前的上下文;
如果原始RNN方程是可微分的,则具有时钟和复位信号的扩展方程也是可微分的;因此,可以采用用于RNNs的现有的基于梯度的训练算法,诸如通过时间反向传播(BPTT),来训练扩展版本,而不用进行任何修改。
其中,所述的具有分级RNN的字符级语言建模,所提出的分层RNN(HRNN)架构具有若干具有不同时钟速率的RNN模块;较高级模块采用比较低模块更慢的时钟速率,并且在较高级的每个时钟模块重置较低级模块。
进一步地,所述的不同时钟速率的RNN模块,如果有L个层级,则RNN由L个子模块组成;每个子模块l用外部时钟cl,t和复位信号rl,t操作,其中,l=1,…,L;最低级模块l=1具有最快的时钟速率,即对于所有t,有cl,t=1;而高级模块l>1具有较慢的时钟速率,并且cl,t可以仅在cl-1,t=1时为1;而较低级模块l<L由较高级时钟信号复位,即rl,t=cl+1,t;
模块的隐藏激活l<L被馈送到下一较高级模块l+1,延迟一个时间步长,以避免由rl,t=cl+1,t,t=1的不期望的复位;该隐藏激活向量,或嵌入向量,包含压缩的短期上下文信息;由较高级别时钟信号的模块复位有助于模块集中于仅压缩短期信息;下一个较高级模块l+1处理这个短期信息可以生成长期上下文向量,其被反馈到较低级别模块l;这种上下文传播没有延迟。
进一步地,所述的字符级语言建模,使用二级(L=2)HRNN,使l=1为字符级模块,l=2为词级模块;词级模块在字边界输入计时,<w>,通常是空格字符;输入和softmax输出层连接到字符级模块,并且当前字边界标记(例如<w>或<s>)的信息被赋给词级模块;因为HRNN具有可扩展的体系结构,所以可以通过添加句子级模块l=3来扩展HRNN CLM,为语句级上下文建模;在这种情况下,当输入字符为句子边界标记<s>时,句子级时钟c3,t变为1;此外,字级模块应当在字边界输入<w>和句子边界输入<s>两者处被计时;同样,可扩展模型以包括其他更高级别的模块,例如段落级模块或主题建模模块。
进一步地,所述的两级HRNN CLM体系结构,具有两种类型,两个模型每个子模块有两个LSTM层;
在HLSTM-A架构中,字符级模块中的两个LSTM层都接收一次性编码字符输入;因此,字符级模块的第二层是由上下文向量条件化的生成模型;
在HLSTM-B中,字符级模块的第二LSTM层没有直接与字符输入连接;相反,从第一LSTM层嵌入的字被馈送到第二LSTM层,这使得字符级模块的第一和第二层一起工作,以在给出上下文向量时估计下一字符概率;
实验结果表明,HLSTM-B对于CLM应用更有效;
由于字符级模块被字边界标记(即,<w>或空白)复位,所以来自词级模块的上下文向量是字间上下文信息的唯一来源;因此,训练模型以生成包含关于下一个词的概率分布的有用信息的上下文向量;从这个角度来看,HRNN CLM架构中的字级模块可以被认为是字级RNN LM,其中输入是字嵌入向量,输出是下一个字概率的压缩描述符。
其中,所述的进行语音识别,将语音输入通过傅里叶变换转化为频谱图,利用RNNs网络进行定向搜索解码,最终产生识别结果。
附图说明
图1是本发明一种基于分层循环神经网络语言模型的语音识别方法的***流程图。
图2是本发明一种基于分层循环神经网络语言模型的语音识别方法的训练基于RNN的CLM。
图3是本发明一种基于分层循环神经网络语言模型的语音识别方法的分层RNN。
图4是本发明一种基于分层循环神经网络语言模型的语音识别方法的CLM的两级分层LSTM(HLSTM)结构。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于分层循环神经网络语言模型的语音识别方法的***流程图。主要包括使用RNN的字符级语言建模,用外部时钟和复位信号扩展RNN结构,具有分级RNN的字符级语言建模和进行语音识别。
其中,所述的用外部时钟和复位信号扩展RNN结构,大多数类型的RNNs可以被概括为
st=f(xt,st-1) (1)
yt=g(st) (2)
其中,xt是输入,st是状态,yt是时间步骤t的输出,f(·)是递归函数,g(·)是输出函数;例如,Elman网络可以表示为
st=ht=σ(Whxxt+Whhht-1+bh) (3)
yt=ht (4)
其中,ht是隐层的激活,σ(·)是激活函数,Whx和Whh是权重矩阵,bh是偏置向量;
具有遗忘门和窥视孔连接的LSTMs也可以转换为泛化形式;LSTM层的前向方程如下:
it=σ(Wixxt+Wihht-1+Wimmt-1+bi) (5)
ft=σ(Wfxxt+Wfhht-1+Wfmmt-1+bf) (6)
mt=ftоmt-1+itоtanh(Wmxxt+Wmhmt-1+bm) (7)
ot=σ(Woxxt+Wohht-1+Wommt+bo) (8)
ht=ot tanh(mt) (9)
其中,it,ft和ot分别是输入门,遗忘门和输出门的值,mt是存储器单元激活,ht是输出激活,σ(·)是逻辑S型函数,о是元素智能乘法运算符;这些方程可以通过设置st=[mt,ht]和yt=ht来概括。
进一步地,所述的用外部时钟和复位信号扩展RNN结构,任何广义RNNs可以被转换为并入外部时钟信号的那些RNNs,ct,如
st=(1-ct)st-1+ctf(xt,st-1) (10)
yt=g(st) (11)
其中,ct是0或1;RNN仅在ct=1时更新其状态和输出;否则,当ct=0时,状态和输出值保持与前一步骤相同;
通过将st-1设置为0来执行RNN的重置;具体地,公式(10)变为
st=(1-ct)(1-rt)st-1+ctf(xt,(1-rt)st-1) (12)
其中,复位信号rt=0或1;当rt=1时,RNN忘记先前的上下文;
如果原始RNN方程是可微分的,则具有时钟和复位信号的扩展方程也是可微分的;因此,可以采用用于RNNs的现有的基于梯度的训练算法,诸如通过时间反向传播(BPTT),来训练扩展版本,而不用进行任何修改。
其中,所述的进行语音识别,将语音输入通过傅里叶变换转化为频谱图,利用RNNs网络进行定向搜索解码,最终产生识别结果。
图2是本发明一种基于分层循环神经网络语言模型的语音识别方法的训练基于RNN的CLM。对于训练RNN CLMs,训练数据应首先转换为独热编码字符向量序列xt,其中字符包括字边界符号<w>,或空格,以及可选的句子边界符号<s>;训练RNN,通过使表示下一个字符的概率分布的softmax输出的交叉熵损失最小化来预测下一个字符xt+1。
图3是本发明一种基于分层循环神经网络语言模型的语音识别方法的分层RNN。分层RNN(HRNN)架构具有若干具有不同时钟速率的RNN模块;较高级模块采用比较低模块更慢的时钟速率,并且在较高级的每个时钟模块重置较低级模块。
不同时钟速率的RNN模块,如果有L个层级,则RNN由L个子模块组成;每个子模块l用外部时钟cl,t和复位信号rl,t操作,其中,l=1,…,L;最低级模块l=1具有最快的时钟速率,即对于所有t,有cl,t=1;而高级模块l>1具有较慢的时钟速率,并且cl,t可以仅在cl-1,t=1时为1;而较低级模块l<L由较高级时钟信号复位,即rl,t=cl+1,t;
模块的隐藏激活l<L被馈送到下一较高级模块l+1,延迟一个时间步长,以避免由rl,t=cl+1,t,t=1的不期望的复位;该隐藏激活向量,或嵌入向量,包含压缩的短期上下文信息;由较高级别时钟信号的模块复位有助于模块集中于仅压缩短期信息;下一个较高级模块l+1处理这个短期信息可以生成长期上下文向量,其被反馈到较低级别模块l;这种上下文传播没有延迟。
字符级语言建模,使用二级(L=2)HRNN,使l=1为字符级模块,l=2为词级模块;词级模块在字边界输入计时,<w>,通常是空格字符;输入和softmax输出层连接到字符级模块,并且当前字边界标记(例如<w>或<s>)的信息被赋给词级模块;因为HRNN具有可扩展的体系结构,所以可以通过添加句子级模块l=3来扩展HRNN CLM,为语句级上下文建模;在这种情况下,当输入字符为句子边界标记<s>时,句子级时钟c3,t变为1;此外,字级模块应当在字边界输入<w>和句子边界输入<s>两者处被计时;同样,可扩展模型以包括其他更高级别的模块,例如段落级模块或主题建模模块。
图4是本发明一种基于分层循环神经网络语言模型的语音识别方法的CLM的两级分层LSTM(HLSTM)结构。两级HRNN CLM体系结构具有两种类型,两个模型每个子模块有两个LSTM层;
在HLSTM-A架构中,字符级模块中的两个LSTM层都接收一次性编码字符输入;因此,字符级模块的第二层是由上下文向量条件化的生成模型;
在HLSTM-B中,字符级模块的第二LSTM层没有直接与字符输入连接;相反,从第一LSTM层嵌入的字被馈送到第二LSTM层,这使得字符级模块的第一和第二层一起工作,以在给出上下文向量时估计下一字符概率;
实验结果表明,HLSTM-B对于CLM应用更有效;
由于字符级模块被字边界标记(即,<w>或空白)复位,所以来自词级模块的上下文向量是字间上下文信息的唯一来源;因此,训练模型以生成包含关于下一个词的概率分布的有用信息的上下文向量;从这个角度来看,HRNN CLM架构中的字级模块可以被认为是字级RNN LM,其中输入是字嵌入向量,输出是下一个字概率的压缩描述符。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于分层循环神经网络语言模型的语音识别方法,其特征在于,主要包括使用RNN的字符级语言建模(一);用外部时钟和复位信号扩展RNN结构(二);具有分级RNN的字符级语言建模(三);进行语音识别(四)。
2.基于权利要求书1所述的基于分层循环神经网络的语言模型,其特征在于,它结合了字符级和词级语言模型的有利特性;循环神经网络(RNN)由低级RNNs和高级RNNs组成;低级RNN采用字符级输入和输出,并且向作为词级RNN操作的高级RNN提供短期嵌入;高级RNN不需要复杂的输入和输出,因为它从低级网络接收特征信息,并且以压缩形式将字符预测信息发送回低级;因此,当考虑输入和输出时,所提出的网络是一个字符级语言模型(CLM),但它包含一个词级模型;低级模块使用字符输入时钟,而高级模块使用分隔字的空格(<w>)运行;该分层语言模型可以被扩展,以处理更长时期的信息,例如句子,主题或其他上下文;分层语言模型可以用基于文本的字符来进行端对端训练。
3.基于权利要求书1所述的使用RNN的字符级语言建模(一),其特征在于,对于训练RNNCLMs,训练数据应首先转换为独热编码字符向量序列xt,其中字符包括字边界符号<w>,或空格,以及可选的句子边界符号<s>;训练RNN,通过使表示下一个字符的概率分布的softmax输出的交叉熵损失最小化来预测下一个字符xt+1。
4.基于权利要求书1所述的用外部时钟和复位信号扩展RNN结构(二),其特征在于,大多数类型的RNNs可以被概括为
st=f(xt,st-1) (1)
yt=g(st) (2)
其中,xt是输入,st是状态,yt是时间步骤t的输出,f(·)是递归函数,g(·)是输出函数;例如,Elman网络可以表示为
st=ht=σ(Whxxt+Whhht-1+bh) (3)
yt=ht (4)
其中,ht是隐层的激活,σ(·)是激活函数,Whx和Whh是权重矩阵,bh是偏置向量;
具有遗忘门和窥视孔连接的LSTMs也可以转换为泛化形式;LSTM层的前向方程如下:
it=σ(Wixxt+Wihht-1+Wimmt-1+bi) (5)
ft=σ(Wfxxt+Wfhht-1+Wfmmt-1+bf) (6)
ot=σ(Woxxt+Wohht-1+Wommt+bo) (8)
ht=ot tanh(mt) (9)
其中,it,ft和ot分别是输入门,遗忘门和输出门的值,mt是存储器单元激活,ht是输出激活,σ(·)是逻辑S型函数,是元素智能乘法运算符;这些方程可以通过设置st=[mt,ht]和yt=ht来概括。
5.基于权利要求书4所述的用外部时钟和复位信号扩展RNN结构,其特征在于,任何广义RNNs可以被转换为并入外部时钟信号的那些RNNs,ct,如
st=(1-ct)st-1+ctf(xt,st-1) (10)
yt=g(st) (11)
其中,ct是0或1;RNN仅在ct=1时更新其状态和输出;否则,当ct=0时,状态和输出值保持与前一步骤相同;
通过将st-1设置为0来执行RNN的重置;具体地,公式(10)变为
st=(1-ct)(1-rt)st-1+ctf(xt,(1-rt)st-1) (12)
其中,复位信号rt=0或1;当rt=1时,RNN忘记先前的上下文;
如果原始RNN方程是可微分的,则具有时钟和复位信号的扩展方程也是可微分的;因此,可以采用用于RNNs的现有的基于梯度的训练算法,诸如通过时间反向传播(BPTT),来训练扩展版本,而不用进行任何修改。
6.基于权利要求书1所述的具有分级RNN的字符级语言建模(三),其特征在于,所提出的分层RNN(HRNN)架构具有若干具有不同时钟速率的RNN模块;较高级模块采用比较低模块更慢的时钟速率,并且在较高级的每个时钟模块重置较低级模块。
7.基于权利要求书6所述的不同时钟速率的RNN模块,其特征在于,如果有L个层级,则RNN由L个子模块组成;每个子模块l用外部时钟cl,t和复位信号rl,t操作,其中,l=1,…,L;最低级模块l=1具有最快的时钟速率,即对于所有t,有cl,t=1;而高级模块l>1具有较慢的时钟速率,并且cl,t可以仅在cl-1,t=1时为1;而较低级模块l<L由较高级时钟信号复位,即rl,t=cl+1,t;
模块的隐藏激活l<L被馈送到下一较高级模块l+1,延迟一个时间步长,以避免由rl,t=cl+1,t,t=1的不期望的复位;该隐藏激活向量,或嵌入向量,包含压缩的短期上下文信息;由较高级别时钟信号的模块复位有助于模块集中于仅压缩短期信息;下一个较高级模块l+1处理这个短期信息可以生成长期上下文向量,其被反馈到较低级别模块l;这种上下文传播没有延迟。
8.基于权利要求书6所述的字符级语言建模,其特征在于,使用二级(L=2)HRNN,使l=1为字符级模块,l=2为词级模块;词级模块在字边界输入计时,<w>,通常是空格字符;输入和softmax输出层连接到字符级模块,并且当前字边界标记(例如<w>或<s>)的信息被赋给词级模块;因为HRNN具有可扩展的体系结构,所以可以通过添加句子级模块l=3来扩展HRNN CLM,为语句级上下文建模;在这种情况下,当输入字符为句子边界标记<s>时,句子级时钟c3,t变为1;此外,字级模块应当在字边界输入<w>和句子边界输入<s>两者处被计时;同样,可扩展模型以包括其他更高级别的模块,例如段落级模块或主题建模模块。
9.基于权利要求书8所述的两级HRNN CLM体系结构,其特征在于,两级HRNN CLM体系结构具有两种类型,两个模型每个子模块有两个LSTM层;
在HLSTM-A架构中,字符级模块中的两个LSTM层都接收一次性编码字符输入;因此,字符级模块的第二层是由上下文向量条件化的生成模型;
在HLSTM-B中,字符级模块的第二LSTM层没有直接与字符输入连接;相反,从第一LSTM层嵌入的字被馈送到第二LSTM层,这使得字符级模块的第一和第二层一起工作,以在给出上下文向量时估计下一字符概率;
实验结果表明,HLSTM-B对于CLM应用更有效;
由于字符级模块被字边界标记(即,<w>或空白)复位,所以来自词级模块的上下文向量是字间上下文信息的唯一来源;因此,训练模型以生成包含关于下一个词的概率分布的有用信息的上下文向量;从这个角度来看,HRNN CLM架构中的字级模块可以被认为是字级RNNLM,其中输入是字嵌入向量,输出是下一个字概率的压缩描述符。
10.基于权利要求书1所述的进行语音识别(四),其特征在于,将语音输入通过傅里叶变换转化为频谱图,利用RNNs网络进行定向搜索解码,最终产生识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611059843.4A CN106782518A (zh) | 2016-11-25 | 2016-11-25 | 一种基于分层循环神经网络语言模型的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611059843.4A CN106782518A (zh) | 2016-11-25 | 2016-11-25 | 一种基于分层循环神经网络语言模型的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106782518A true CN106782518A (zh) | 2017-05-31 |
Family
ID=58913229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611059843.4A Withdrawn CN106782518A (zh) | 2016-11-25 | 2016-11-25 | 一种基于分层循环神经网络语言模型的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782518A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153943A (zh) * | 2017-12-08 | 2018-06-12 | 南京航空航天大学 | 基于时钟循环神经网络的功率放大器的行为建模方法 |
CN108175426A (zh) * | 2017-12-11 | 2018-06-19 | 东南大学 | 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN109003614A (zh) * | 2018-07-31 | 2018-12-14 | 上海爱优威软件开发有限公司 | 一种语音传输方法、语音传输***及终端 |
CN109086865A (zh) * | 2018-06-11 | 2018-12-25 | 上海交通大学 | 一种基于切分循环神经网络的序列模型建立方法 |
CN109147773A (zh) * | 2017-06-16 | 2019-01-04 | 上海寒武纪信息科技有限公司 | 一种语音识别装置和方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
WO2019154210A1 (zh) * | 2018-02-08 | 2019-08-15 | 腾讯科技(深圳)有限公司 | 机器翻译的方法、设备以及计算机可读存储介质 |
CN110389996A (zh) * | 2018-04-16 | 2019-10-29 | 国际商业机器公司 | 实现用于自然语言处理的全句递归神经网络语言模型 |
CN111480197A (zh) * | 2017-12-15 | 2020-07-31 | 三菱电机株式会社 | 语音识别*** |
CN112673421A (zh) * | 2018-11-28 | 2021-04-16 | 谷歌有限责任公司 | 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 |
CN113077785A (zh) * | 2019-12-17 | 2021-07-06 | 中国科学院声学研究所 | 一种端到端的多语言连续语音流语音内容识别方法及*** |
CN113362811A (zh) * | 2021-06-30 | 2021-09-07 | 北京有竹居网络技术有限公司 | 模型的训练方法、语音识别方法、装置、介质及设备 |
-
2016
- 2016-11-25 CN CN201611059843.4A patent/CN106782518A/zh not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
KYUYEON HWANG等: ""Character-Level LanguageModeling with Hierarchical Recurrent Neural Networks"", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1609.03777V1》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147773A (zh) * | 2017-06-16 | 2019-01-04 | 上海寒武纪信息科技有限公司 | 一种语音识别装置和方法 |
CN108153943A (zh) * | 2017-12-08 | 2018-06-12 | 南京航空航天大学 | 基于时钟循环神经网络的功率放大器的行为建模方法 |
CN108153943B (zh) * | 2017-12-08 | 2021-07-23 | 南京航空航天大学 | 基于时钟循环神经网络的功率放大器的行为建模方法 |
CN108175426A (zh) * | 2017-12-11 | 2018-06-19 | 东南大学 | 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 |
CN111480197B (zh) * | 2017-12-15 | 2023-06-27 | 三菱电机株式会社 | 语音识别*** |
CN111480197A (zh) * | 2017-12-15 | 2020-07-31 | 三菱电机株式会社 | 语音识别*** |
CN111401084A (zh) * | 2018-02-08 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
US11593571B2 (en) | 2018-02-08 | 2023-02-28 | Tencent Technology (Shenzhen) Company Limited | Machine translation method, device, and computer-readable storage medium |
CN111401084B (zh) * | 2018-02-08 | 2022-12-23 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
WO2019154210A1 (zh) * | 2018-02-08 | 2019-08-15 | 腾讯科技(深圳)有限公司 | 机器翻译的方法、设备以及计算机可读存储介质 |
CN108492820B (zh) * | 2018-03-20 | 2021-08-10 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN110389996A (zh) * | 2018-04-16 | 2019-10-29 | 国际商业机器公司 | 实现用于自然语言处理的全句递归神经网络语言模型 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN109086865A (zh) * | 2018-06-11 | 2018-12-25 | 上海交通大学 | 一种基于切分循环神经网络的序列模型建立方法 |
CN109086865B (zh) * | 2018-06-11 | 2022-01-28 | 上海交通大学 | 一种基于切分循环神经网络的序列模型建立方法 |
CN109003614A (zh) * | 2018-07-31 | 2018-12-14 | 上海爱优威软件开发有限公司 | 一种语音传输方法、语音传输***及终端 |
CN112673421A (zh) * | 2018-11-28 | 2021-04-16 | 谷歌有限责任公司 | 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN113077785A (zh) * | 2019-12-17 | 2021-07-06 | 中国科学院声学研究所 | 一种端到端的多语言连续语音流语音内容识别方法及*** |
CN113077785B (zh) * | 2019-12-17 | 2022-07-12 | 中国科学院声学研究所 | 一种端到端的多语言连续语音流语音内容识别方法及*** |
CN113362811A (zh) * | 2021-06-30 | 2021-09-07 | 北京有竹居网络技术有限公司 | 模型的训练方法、语音识别方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782518A (zh) | 一种基于分层循环神经网络语言模型的语音识别方法 | |
CN109902293B (zh) | 一种基于局部与全局互注意力机制的文本分类方法 | |
WO2016101688A1 (zh) | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 | |
JP7109302B2 (ja) | 文章生成モデルのアップデート方法及び文章生成装置 | |
CN105244020B (zh) | 韵律层级模型训练方法、语音合成方法及装置 | |
CN111461004B (zh) | 基于图注意力神经网络的事件检测方法、装置和电子设备 | |
JP2020520492A (ja) | 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体 | |
TWI610295B (zh) | 解壓縮及壓縮用於語音辨識之轉換器資料的電腦實施方法及電腦實施之語音辨識系統 | |
US20230196202A1 (en) | System and method for automatic building of learning machines using learning machines | |
Räsänen et al. | Modeling dependencies in multiple parallel data streams with hyperdimensional computing | |
CN110442721B (zh) | 神经网络语言模型、训练方法、装置及存储介质 | |
CN110083702B (zh) | 一种基于多任务学习的方面级别文本情感转换方法 | |
CN110019795B (zh) | 敏感词检测模型的训练方法和*** | |
CN112764738A (zh) | 基于多视图程序特征的代码自动生成方法及*** | |
CN113641819A (zh) | 基于多任务稀疏共享学习的论辩挖掘***及方法 | |
CN114881035B (zh) | 训练数据的增广方法、装置、设备和存储介质 | |
CN113869324A (zh) | 一种基于多模态融合的视频常识性知识推理实现方法 | |
CN113157941A (zh) | 业务特征数据处理、文本生成方法、装置及电子设备 | |
JP2021117989A (ja) | 言語生成方法、装置及び電子機器 | |
CN116431807B (zh) | 一种文本分类方法、装置、存储介质及电子装置 | |
CN117980915A (zh) | 用于端到端自监督预训练的对比学习和掩蔽建模 | |
CN116306612A (zh) | 一种词句生成方法及相关设备 | |
CN112650861A (zh) | 一种基于任务分层的人格预测方法、***及装置 | |
CN113901789A (zh) | 基于门控空洞卷积和图卷积的方面级情感分析方法及*** | |
Razumovskaia et al. | Incorporating rules into end-to-end dialog systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170531 |
|
WW01 | Invention patent application withdrawn after publication |