CN107615308A

CN107615308A - 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置

Info

Publication number: CN107615308A
Application number: CN201680027062.9A
Authority: CN
Inventors: 神田直之
Original assignee: State-Run Research And Development Legal Person Nict
Current assignee: State-Run Research And Development Legal Person Nict
Priority date: 2015-05-11
Filing date: 2016-05-10
Publication date: 2018-01-19
Anticipated expiration: 2036-05-10
Also published as: JP6628350B2; JP2016212273A; EP3296930A1; EP3296930A4; US10467525B2; US20180121800A1; WO2016181951A1; CN107615308B

Abstract

提供使基于时间序列的数据的循环神经网络(RNN)的学习高效化的学习方法。学习方法包含：步骤(220)，将RNN初始化；和学习步骤(226)，将某矢量指定为开始位置，将各参数最佳化，以使得误差函数最小化，由此进行RNN的学习。学习步骤(226)包含：更新步骤(250)，使用以被指定的矢量为开头的连续的N个(N≥3)矢量，通过将末尾的矢量的参考值设为正解标签的Truncated BPTT来更新RNN的参数；和第1重复步骤240，直到结束条件成立为止，都重复以下处理，即，新指定相对于更新步骤中使用的N个矢量的末尾的矢量处于满足给定的关系的位置的矢量来执行学习步骤的处理。处于满足给定的关系的位置的矢量是从被指定的矢量起至少2个以上后的矢量。

Description

循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置

技术领域

本发明涉及循环神经网络(RNN)的学习方法，特别涉及能提高学习的效率且能提高学习后的RNN的精度的RNN的学习方法以及用于该学习方法的计算机程序。

背景技术

近年来，提出有使用RNN作为用于声音识别的声学模型的技术。所谓RNN，是在神经网络中嵌入时间序列的信息而成的构成。

图1示意性示出通常的神经网络的原理。神经网络30包含：接受输入矢量46的输入层40；为了接受输入层40的输出而与输入层40结合的隐含层42；和为了接受隐含层42的输出而被结合且输出输出矢量48的输出层44。在图1中，为了使图简明而示出了隐含层为1层的情况，但隐含层的数目并不限定于1。

在这样的神经网络中，数据从输入层40向隐含层42并从隐含层42向输出层44这样地在一个方向上流动。因此，将该类型的神经网络称作前馈神经网络(FFNN)。对从某节点向另外节点的结合赋予权重，有时还进一步赋予偏置，这些权重以及偏置的值通过学习来确定。在学习时，将学习数据作为输入矢量46提供给隐含层42，从输出层44得到输出矢量48。将该输出矢量48与正解数据的误差从输出层44侧提供给隐含层42、输入层40的各节点，将各权重以及偏置的值最佳化，以使得作为神经网络30的误差成为最小。

另一方面，RNN不是如FFNN那样向一个方向去的节点的结合，还包括反向的节点的结合、同一层内的节点间的结合、同一节点的自环等。图2示意性示出RNN的隐含层的1例的与各节点的结合相关的构成。在图2中，该隐含层70作为示例而包含3个节点。这3个节点各自除了具有用于从更下层(靠近输入层的层)接受数据的结合以及用于向更上层(靠近输出层的层)交付数据的结合以外，还具有用于向下层的节点交付数据的结合、与相同隐含层70内的节点之间的结合、以及自环。对这些结合各自分配权重作为参数。这些参数的数目也有时达到数百万到数千万。在作为用于声音识别的声学模型使用的情况下，需要从声音语料库(声音数据与文本的对)自动学习它们。

作为RNN的学习方法，有Back-propagation through time法(沿时间反向传播法，以下称为“BPTT”)及其变形Truncated back-propagation through time法(以下称为“Truncated BPTT(截断式BPTT)”)。

现有技术文献

非专利文献

非专利文献1：H.Jaeger(2002)：Tutorial on training recurrent neuralnetworks，covering BPPT，RTRL，EKF and the″echo state network″approach.GMDReport 159，German National Research Center for Information Technology，2002(48pp.)

非专利文献2：Mikael Boden.A Guide to Recurrent Neural NetworksandBackpropagation.In the Dallas project，2002.

非专利文献3：Mikolov Tomas：Statistical Language Models based on NeuralNetworks.PhD thesis，Brno University of Technology，2012.

非专利文献4：G.Heigold，E.McDermott，V.Vanhoucke，A.Senior，andM.Bacchiani，“Asynchronous stochastic optimization for sequence training ofdeep neural networks，”in Acoustics，Speech and Signal Processing(ICASSP)，2014IEEE International Conference on.IEEE，2014，pp.5587-5591.

发明内容

发明要解决的课题

上述非专利文献1公开了如下两种方法：对序列整体使用全部输入和全部正解数据来进行BPTT的方法；和针对序列整体的一部分即部分序列，对该部分序列整体一边使用全部输入和全部正解数据进行BPTT一边将部分序列在序列整体中错开下去的TruncatedBPTT法。

非专利文献2和引用了非专利文献2的非专利文献3公开了在上述非专利文献1记载的Truncated BPTT法中将部分序列作为1个样本的变种。

非专利文献4公开了通过同时处理多个时间序列数据来使RNN的学习高效化的方法。

但是，已知，在非专利文献1～非专利文献4公开的任一种方法中，都存在针对声音数据那样连续值的时间序列数据的学习变得低效率这样的问题。

关于这点，已知，在FFNN的学习中，在相邻的学习数据相似的情况下，学习也会变得低效率。因此，在FFNN中，采用在学习前对全部样本随机排序的手法。通过这样的手法，相邻的学习数据成为类似的数据的可能性变低，能提高学习的效率。

但是，在声音数据那样的时间序列的数据中，样本之间的时间上的关系很重要。若将数据随机排序，就会失去这样的时间上的信息。因此，对于这样的数据，不能如FFNN那样将学习数据随机排序。因此，在RNN中进行基于声音数据那样连续的时间序列的数据的学习的情况下，提高其学习效率是大问题。在此，所谓提高学习的效率，是指在利用相同的学习数据的学习中不使计算时间变长就能进行提高精度的学习；或者能使用较少的学习数据在短时间的学习中得到与已有的方法同等的精度。

因此，本发明的目的在于，提供一种能使与RNN相关的基于时间序列的数据的学习高效化的学习方法。

用于解决课题的手段

本发明的第1局面所涉及的RNN的学习方法使用预先准备的学习数据由计算机进行。学习数据包含各自由学习对象数据的特征量和参考值构成的矢量的序列。该学习方法包含：将RNN初始化的步骤；第1指定步骤，将矢量的序列内的某矢量指定为学习开始位置；和学习步骤，将RNN的各参数最佳化，以使得针对学习数据计算的给定的误差函数最小化，由此进行RNN的学习。学习步骤包含：更新步骤，使用矢量的序列当中的以被指定的矢量为开头的连续的N个矢量，通过将该连续的N个矢量的末尾的矢量的参考值设为正解标签的Truncated BPTT来进行RNN的参数的更新，其中，N是3以上的整数；和第1重复步骤，直到预先确定的结束条件成立为止，都重复以下处理，即，新指定相对于更新步骤中使用的N个矢量的末尾的矢量处于满足给定的关系的位置的矢量来执行学习步骤的处理。处于满足给定的关系的位置的矢量是从进行选择的步骤中的被指定的矢量起至少2个以上后的矢量。

优选地，处于满足给定的关系的位置的矢量是N个矢量的末尾的矢量。

更优选地，RNN的学习方法还包含：第2指定步骤，响应于第1重复步骤中判定为第1重复步骤的结束条件成立这一情况，将从第1指定步骤中指定的矢量起比N小的数目后的矢量新指定为下一次学习的开始位置；和执行学习步骤直到结束条件成立为止的步骤。

进一步优选地，比N小的数目是1。

RNN的学习方法还包含：第2重复步骤，响应于第1重复步骤中判定为结束条件成立这一情况，一边将从某矢量起1个接1个后的矢量指定为新的学习开始位置，一边重复执行学习步骤，直到指定了从某矢量起N-1个后的矢量的处理结束为止。

构成矢量的序列的各矢量各自可以由以下构成：将声音变换后得到的声音数据的特征量；和由该声音的音素标签构成的参考值。

本发明的第2局面所涉及的计算机程序使计算机执行上述任意的RNN的学习方法的全部步骤。

本发明的第3局面所涉及的声音识别装置包含：帧化处理单元，对所输入的声音信号以给定移位量以及给定帧长进行帧化；特征量提取单元，从帧化处理单元输出的各帧的声音信号中提取给定的声音特征量，并将特征量矢量输出；声学模型，由RNN构成，将由特征量提取单元输出的特征量矢量的序列作为输入，每当被输入特征量矢量时，就通过上述任意的RNN的学习方法进行学习，以便输出以与该特征量矢量对应的帧的声音是所设想的音素的集合的各要素的概率作为要素的矢量；和声音识别解码器，通过使用了声学模型输出的矢量的序列和统计语言模型的概率性的处理来输出生成所述声音信号的似然性最高的单词串。

附图说明

图1是表示FFNN的1例的简要构成的示意图。

图2是表示RNN的隐含层的构成的1例的示意图。

图3是用于说明RNN的展开的示意图。

图4是将RNN展开1步来表示各层之间的结合与其权重矩阵等的关系的图。

图5是将RNN展开3步来表示各层之间的结合与其权重矩阵等的关系的图。

图6是表示将RNN展开3步时的误差逆传播、权重矩阵、隐含层的值、和各层的误差的关系的图。

图7是示意表示本发明的1个实施方式中的学习数据的选择方法的图。

图8是表示本发明的1个实施方式所涉及的RNN的学习***的构成的框图。

图9是表示实现图8所示的学习***的学习处理部的计算机程序的控制结构的流程图。

图10是将本发明的1个实施方式所涉及的学习方法的效果与现有方法对比来表示的图表。

图11是使用了由通过本发明的1个实施方式所涉及的学习方法学习的RNN构成的声学模型的声音识别装置的框图。

图12是表示执行用于生成学习数据的程序的计算机的外观的图。

图13是图12中示出外观的计算机的硬件框图

具体实施方式

在以下的说明以及附图中，对同一部件标注同一参考编号。因此，不再重复对它们的详细的说明。在以下的实施方式中，说明将RNN应用在声学模型中的示例。但是，本发明并不限定于这样的实施方式，只要是使用时间序列的数据进行RNN的学习的实施方式，就能对任何对象进行应用。例如将声音识别、自动翻译、图像识别、动态图像识别等考虑成应用对象。

另外，本实施方式中使用的声音特征量是每个梅尔滤波器组(Mel Filter Bank)的对数功率、它们的delta(一次微分)以及delta delta(二次微分)，但也可以使用这些以外的声音特征量，例如梅尔频率倒谱系数或基于线性预测法的声音特征量。

另外，RNN典型地通过计算机和在其上执行的程序来实现。实现RNN的程序通过表示RNN的结构的信息(层的数目、各层内的节点数、与节点间的结合相关的信息、分配给各结合的权重以及偏置的值、与用于实现后述的展开的存储区域以及它们和各节点的结合相关的信息等)和算出针对输入的各节点的值的程序例程的集合来实现。在学习中进一步需要用于其的程序。

[第1实施方式]

<本实施方式中的学习方法>

以下说明的使用了RNN的声学模型将声音特征量矢量x(t)的时间序列作为输入，输出该声音特征量是隐含马尔可夫模型的值s的概率P(s|x(t))。以下，将该输出记作y(t)。在作为声学模型来使用RNN的情况下，使用似然性计算P(x(t)|s)。因此，在声学模型中，将RNN的输出用遵循贝叶斯定理的下式变形后进行利用。

[数学表达式1]

作为FFNN的学习方法，已知误差逆传播方式。在误差逆传播方式中，对每个学习数据，将该数据提供给输入层，经过隐含层从输出层得到FFNN的输出。一边使该输出与正解数据的误差从FFNN的输出层向输入层反向传播，一边不断调整赋予各节点间的结合的权重的值，以使得误差成为最小。

但是，这样的误差逆传播方式不能就这样应用于RNN。这是因为，与FFNN的情况不同，存在循环的路径。但是，已知，通过以下叙述的那样的技巧，就能将误差逆传播方式利用于RNN的学习。这是如下那样的方法：在每个提供学习数据的序列的时刻，将网络视作不同的网络，作为某时刻下的各节点的输出被提供给下一个时刻下的各节点那样的网络，来对RNN进行处置。

参考图3，这是如下思路：将各时刻下的网络作为不同的网络来进行处置，以使得时刻t-2下的网络内的各节点的输出被提供给时刻t-1下的各节点。在图3中，为了易于理解地示出该关系，仅对时刻t-1下的网络内的节点90示出这样的输入输出的结合关系的示例。对其他节点也同样。

参考图3，时刻t-1下的向节点90的输入仅来自时刻t-2的网络的各节点。时刻t-1下的来自节点90的输出仅提供给时刻t下的网络的节点。若如此考虑，则数据在时间序列上考虑，仅在一个方向上流动。因此，能与FFNN同样地来考虑RNN，能将基于误差逆传播方式的学习也应用到RNN。另外，将如此在各时刻下如不同的RNN那样对RNN进行处置称作“展开”。

为了说明要在RNN中学习的参数，说明RNN中的向隐含层的输入与来自隐含层的输出的关系。另外，在此，为了使说明简明而说明隐含层为1个的情况。图4是将RNN展开的图。参考图4，将在时刻t提供给输入层104的特征矢量设为x(t)，将隐含层102的状态设为s(t)，将输出层100的输出矢量设为y(t)。若将1步前的隐含层设为隐含层106，则隐含层106的状态成为s(t-1)。将以输入层104的各节点与隐含层102的各节点的结合的权重作为要素的矩阵设为Wxs，将其偏置矢量设为bs，将以隐含层102的各节点与输出层100的各节点的结合的权重作为要素的矩阵设为Wsy，将其偏置矢量设为by，将以1步前的隐含层106的各节点与隐含层102的各节点之间的结合的权重作为要素的矩阵设为Wss。于是，隐含层102的值s(t)以及来自输出层100的输出y(t)按照以下的式子被更新。

[数学表达式2]

s(t)＝H(W_xs·x(t)+b_s+W_ss·s(t-1)) (1)

y(t)＝G(W_sy·s(t)+b_y) (2)

另外，在上式中，H()表征对应要素间的Tanh或对应要素间的Sigmoid函数。G()是被称作Softmax函数的函数。若将矢量a的要素设为a_i(i＝1，...，n)，则G(a)的第i个要素G_i由下式表征。

[数学表达式3]

如通过上述所明确的那样，作为RNN的参数，需要求取矩阵Wxs、Wss、偏置矢量bs、by的要素的值。求取这些值的处理是RNN的学习。在此，说明使用直至从当前时刻起3步前为止的隐含层的值，通过Truncated BPTT来进行RNN的学习的情况。

参考图5，在该情况下，输出层100的输出y(t)、隐含层102的值s(t)、向输入层104的输入x(t)、以及1步前的隐含层106之间的关系与图4同样，隐含层102的值s(t)和输出层100的输出y(t)由上述式(1)以及(2)表征。但是，如图5所示那样，在使用直至3步前为止的隐含层102的输出的情况下，为了得到RNN的输出y(t)，需要以下：向1步前的输入层108的输入矢量x(t-1)、向2步前的输入层112的输入矢量x(t-2)、2步前的隐含层110的值s(t-2)、以及3步前的隐含层114的值s(t-3)。因此，需要在存储区域中确保用于它们的区域，并存储这些值。它们之间的结合的权重与上述的式(1)所示同样。另外，在隐含层102、106、110以及114各自中，状态数据s(t)、s(t-1)、s(t-2)、以及s(t-3)分别包含误差e(t)、e(t-1)、e(t-2)、以及e(t-3)。

参考图6，基于与RNN相关的Truncated BPTT的学习(参数的更新)如以下那样进行。如图5所示，使用到3步前的隐含层的输出以及2步前的输入来算出时刻t下的RNN的输出y(t)。这时，学习数据包含针对输入矢量x(t)的参考值ref(t)。在此，将两者的误差e_sm设为e_sm＝y(t)-ref(t)。也有时将误差的正负号记述成与此相反。基于误差逆传播的参数Wss的更新如以下那样进行。

首先，输出层中的误差e(t)的传播以及隐含层102中的递归的误差e(t-1)的传播分别按照以下的式(4)以及(5)算出。

[数学表达式4]

其中，s′表征s的微分，“ο”表征哈达玛(Hadamard)积。

另外，参数W_ss的更新通过以下的式(6)来进行。

[数学表达式5]

在此，γ表征学习率，N表征学习数据的数目。另外，不仅W_ss，其他参数也同样被更新。

现有的RNN的学习手法当中的第1个手法将学习数据序列整体作为输入，使用学习数据序列的各时刻下的RNN的输出和该时刻的正解数据来进行Truncated BPTT。将这个处理针对各学习数据序列轮流进行下去，是这样的手法。

第2个手法使用学习数据序列当中需要的数据来得到某时刻下的RNN的输出。使用该输出和该时刻下的正解数据，通过Truncated BPTT来进行参数的更新。针对各时刻执行这个处理，来对学习数据整体进行处理，由此进行参数的学习。

但是，如前述那样，可知不管用哪种方法，学习效率都不太好。作为其原因之一，能举出以下一点，即，在声学数据那样的连续的时间序列的数据的情况下，相邻的数据彼此相似。如前述那样，在FFNN中，若相邻的学习数据彼此相似则学习效率差，关于RNN，情况也是同样。

因此，在本实施方式中，通过如下那样的方法来解决该问题。参考图7，在该实施方式的手法中，在提供了学习数据序列130时，不采用连续利用相邻的学习数据来进行参数更新这样的方法，在基于某学习数据的参数更新结束时，使用不与该学习数据相邻的跳越了给定数目(图7的情况下为2个)的学习数据(图7的情况下是从学习结束的数据起第3个学习数据)来进行下一次参数更新。以下，将如此在连续的学习中使用的学习数据间的距离称作跳过长度。图7的示例中跳过长度为3。

如此重复进行学习而到达学习数据序列130的末尾附近，在这以后不再存在同样能选择的学习数据时，结束第1次学习。若在该时间点完成学习，则在图7的示例中，学习中所用的数据成为整体的3分之1程度，因此计算量也成为现有的方法的计算量的3分之1程度。但是，即便如此，学习后的RNN的精度也高于现有方法的精度。但是，在本实施方式中，为了进一步有效使用学习数据整体，再次使处理位置回到学习数据序列130的开头，将与挑选为第1次处理时的处理对象的学习数据相邻的学习数据重新挑选成处理对象的开头，重复进行与第1次处理相同的跳越处理。同样地，也执行第3次处理。通过该重复，能进行使用了全部学习数据的学习。

根据该方法，在各学习中，相邻的学习数据不会被连续使用。在图7所示的示例中，利用每隔2个的学习数据。如此，由于不是利用相邻的学习数据，因此提高了学习效率。并且，在例如声学模型的学习中采用这样的手法的结果，也如后述那样能够确认到模型的精度得到提高。

<构成>

图8以框图形式示出进行上述的RNN的学习的学习***的构成。参考图8，该***包含存储学习中所用的声音语料库的学习语料库存储部190。存储于学习语料库存储部190的声音语料库由大量发声的声音数据和与它们成对的文本构成。另外，在声音数据与文本之间建立对应关系，从而可知声音数据的哪个部分与哪个音素对应。

该***还包含：学习数据作成部192，将存储于学习语料库存储部190的各发声的声音数据帧化，以给定移位量以及给定帧长容许一部分重复，并对各帧附加对应音素的标签，作为学习数据来输出；学习数据存储部194，存储学习数据作成部192输出的学习数据；和学习处理部196，使用存储于学习数据存储部194的学习数据，通过上述手法进行RNN198的学习。进行与现有技术不同的处理的部分是该学习处理部196。

学习处理部196通过计算机硬件和该计算机硬件的中央运算处理装置(CPU)所执行的程序来实现。参考图9，这样的程序包含：初始化步骤220，在存储器上确保存储RNN的各参数的区域，且将各参数用给定的初始化方式进行初始化；步骤222，读出作为存储于硬盘等存储装置的变量的跳过长度skip_size，存放在存储器中；步骤224，将RNN的学习时展开的隐含层的数目N从硬盘等存储装置中读出，存储到存储器；和步骤226，一边使重复变量loop的值从0到变量skip_size的值为止每次变化1，一边重复执行处理228。

在步骤226重复执行的处理228包含：处理250，将变量t的初始值设为0，一边使变量t的值增加变量skip_size，一边执行函数RNN.truncated_BPTT。在此，函数RNN.truncated_BPTT是执行Truncated BPTT的函数，将成为对象的时刻设为t，其自变量是时刻t-N下的隐含层的值s(t-N)、从时刻t-N+1到时刻t为止的输入的值x(t-N+1)、x(t-N+2)、...、x(t)和时刻t下的正解标签ref(t)。

<动作>

图8以及图9示出构成的本实施方式所涉及的RNN的学习***如以下那样动作。直至从存储于学习语料库存储部190的声音语料库生成学习数据并存储到学习数据存储部194为止的该装置的动作，与现有技术没有变化。

学习处理部196执行具有图9所示的控制结构的程序来进行以下那样的处理。

在该程序的执行过程中，在初始化步骤220中，在存储器等存储装置内确保用于存储RNN的参数的存储区域，各存储区域分别以合适的值被初始化。这时，关于隐含层的值s，实际上并没有意义，可以是任意的值，例如初始化成0。当然，也可以用以任何手法预先得到的值进行初始化。

在接下来的步骤222中，从存储装置读入跳过长度，存储到存储器的分配给变量skip_size的区域。在此，所谓跳过长度，是指学习时选择的2个学习数据之间的数据数目。在步骤224中，从存储装置读出在RNN的学习中展开的隐含层的数目，存储到分配给变量N的存储器区域。

在步骤226中，最初将变量loop的值决定为0。接下来，判定变量loop的值是否满足结束条件(loop＜skip_size)。变量skip_size是2以上的正的整数。因此，在最初的重复的判定中不具备结束条件，执行处理228。若处理228的执行结束，则变量loop的值递增1，判定是否具备结束条件。若不具备结束条件，则重复处理228。如此，直到结束条件成立为止都重复执行处理228。

在处理228的各次重复中，处理250在由步骤240确定的条件下重复执行。在步骤240中，在最初的重复中对变量t设定0的值。即，作为当前时刻t而指定t＝0。接下来，判定是否具备重复的结束条件(t＜数据长度)。这里的数据长度相当于学习数据的数目。若不具备结束条件，则执行处理250。即，将隐含层的值s(t-N)、从时刻t-N+1到时刻t为止的输入的值x(t-N+1)、x(t-N+2)、...、x(t)和时刻t下的正解标签ref(t)作为自变量来执行函数RNN.truncated_BPTT。在最初的处理中，这些值不确定，在该情况下使用0作为初始值即可。

在步骤240中，一边使变量t的值增加变量skip_size的值一边重复执行这样的处理250。通过如此使变量t的值增加变量skip_size的值来执行处理250，从而以图7的最上段所示那样的形式执行学习数据的选择和参数的更新。

在本实施方式中，将处理228重复变量skip_size的值。但是，在上述手法中，即使重复的数目少也能得到足够的精度。若变量skip_size的值为2以上，则即使仅执行1次处理228，也能以比现有技术高的精度进行RNN的学习。该情况下的学习所需的时间与现有技术相比变短。然而，如本实施方式这样，在一边跳过学习数据一边进行学习的处理完成后，回到学习数据的开头，本次如图7的下一段所示那样从错开到1个后的位置起同样地一边跳过学习数据一边进行学习，以下同样地进行，由此能效率良好地利用学习数据的整体，还能提高RNN的效率。在该情况下，计算量与现有的技术相比没有变化，因此处理速度与现有的技术相比没有变化。

在本实施方式中，将进行展开的隐含层的数目N为3的情况作为示例。但是，当然本发明并不限定于这样的实施方式。N的值对应于计算量以及能利用的数据量，可以是任意的值。在现有的RNN的学习中，经常使用N＝9以及N＝15等。

结果，在上述实施方式所涉及的手法中，选择每隔给定数目的间隔的学习数据来进行基于Truncated BPTT的参数的更新。在该过程中，由于也计算了与未被选择的学习数据对应的隐含层的值，因此能从那里开始计算误差并利用到学习中。在现有的TruncatedBPTT中实际这样进行，但本手法相当于省略了该误差计算来执行。乍一看，可以认为由于未利用能利用的误差信息，因而学习的效率变差。但是，却能如上述那样得到RNN的学习效率反而变高这样的与预测相反的结果。现有技术被认为是，过于重视学习数据的利用的效率而不能发现这样一边使用分散的学习数据并丢弃计算的结果的一部分一边进行参数的更新的方法。

<效果>

图10示出帧精度的图表260和帧精度的图表262，其中，图表260的帧精度是使用了基于利用本实施方式所涉及的学习手法学习的RNN的声学模型308的帧精度，图表262的帧精度是使用了通过利用现有的方式当中的第2方式学习的RNN得到的声学模型的帧精度。图10的图表在纵轴示出根据针对共同的英语演说声音的以帧为单位的RNN的输出值而找到哪个音素的精度(帧精度)，在横轴示出学习的更新次数。RNN的构成两者都相同，只是改变了学习手法。

使用了上述的学习手法的RNN的学习最终收敛时的声音识别错误率(后述的图11的声音识别解码器310的输出的错误率)是18.8％。另一方面，基于现有手法的RNN的学习收敛时的声音识别错误率是21.9％。

如从图10明确可知的那样，若使用本实施方式所涉及的学习方法进行RNN的学习，就能以少的更新次数得到高的精度。另外，可知，在最终学习收敛时，使用上述方法得到的模型的精度与使用现有手法得到的模型的精度相比变得相当高。

另外，在本实施方式中，在执行图9所示的处理228以及处理250前进行重复的结束条件的判定。但是，本发明并不限定于这样的实施方式。也可以在执行处理228或处理250后进行结束条件的判定。

[第2实施方式]

上述的第1实施方式涉及RNN的学习方法以及学习***。本发明的第2实施方式涉及将通过第1个实施方式的RNN的学习方法或学习***学习的RNN作为声学模型来利用的声音识别装置。

参考图11，该第2实施方式所涉及的声音识别装置280具有进行针对输入声音282的声音识别并输出为声音识别文本284的功能。声音识别装置280包含：A/D变换电路300，对输入声音282进行模拟/数字(A/D)变换并输出为数字信号；帧化处理部302，将A/D变换电路300输出的数字化的声音信号帧化，以给定长度以及给定移位量重复一部分；和特征量提取部304，通过对帧化处理部302输出的各帧进行给定的声学处理来提取该帧的声音特征量，并输出特征量矢量。在各帧以及特征量矢量中附加输入声音282的例如相对于开头的相对时刻等信息。作为特征量，如前述那样，使用每个梅尔滤波器组的对数功率、其一次微分、二次微分等。

声音识别装置280还包含：特征量存储部306，用于临时存储特征量提取部304输出的特征量矢量；由RNN构成的声学模型308，将存储于特征量存储部306的特征量矢量作为输入，输出按每个音素来表示各时刻的各帧与某音素对应的概率的矢量；和声音识别解码器310，用于通过使用声学模型308输出的矢量和未图示的统计语言模型进行概率性的处理从而输出似然性最高的单词串作为与输入声音282对应的声音识别文本284。

声学模型308的输入层的节点的数目与特征量矢量的要素的数目一致。声学模型308的输出层的节点的数目与以声音识别装置280所处置的语言来设想的音素的数目一致。对输出层的各节点输出在某时刻输入的声音是该节点所表征的音素的概率。因此，声学模型308的输出是以该时刻下的输入声音是各节点所表征的音素的概率为要素的矢量。

声音识别解码器310是使用预先进行了学习的被称作WFST(Weighted FiniteState transducer，加权有限状态转换器)的模型的解码器。这里使用的WFST是由与语言相关的知识预先构建的图表，使用被称作HCLG的知识源。H表征HMM，C表征上下文关系，L表征词汇，G表征语法。WFST的各节点表征状态(音素)，连结节点间的弧表征状态过渡。对各弧赋予权重。该权重表征状态过渡的概率。

声音识别解码器310针对声学模型308输出的矢量的各要素利用该WFST进行音素串的概率计算，一边适当地进行剪枝一边抵达WFST上，由此最终输出似然性最高的单词串作为声音识别文本284。

如已经叙述的那样，通过将声学模型308作为第1个实施方式所涉及的RNN，声音识别装置280的声音识别的精度高于现有的声音识别装置。另外，由于声学模型的学习效率也变高，因此能将其构建成本抑制得低，能实现性能良好成本也低的声音识别装置。

[基于计算机的实现]

本发明的实施方式所涉及的RNN的学习***以及声音识别装置280能由计算机硬件和在该计算机硬件上执行的计算机程序来实现。图12表示该计算机***330的外观，图13表示计算机***330的内部构成。

参考图12，该计算机***330包括具有存储器端口352以及DVD(DigitalVersatile Disc，数字多功能盘)驱动器350的计算机340、键盘346、鼠标348、和监视器342。

参考图13，计算机340除了存储器端口352以及DVD驱动器350以外，还包含：CPU(中央处理装置)356；与CPU356、存储器端口352以及DVD驱动器350连接的总线366；存储引导程序等的读出专用存储器(ROM)358；与总线366连接并存储程序命令、***程序以及作业数据等的随机存取存储器(RAM)360；和硬盘354。计算机***330还包含提供向能与其他终端进行通信的网络368的连接的网络接口(I/F)344。

用于使计算机***330作为上述的实施方式所涉及的RNN的学习***以及声音识别装置280的各功能部起作用的计算机程序存储在安装于DVD驱动器350或存储器端口352的DVD362或可移动存储器364中，进而被转送给硬盘354。或者，程序也可以经过网络368发送到计算机340而存储到硬盘354。程序在执行时被载入到RAM360。也可以从DVD362、从可移动存储器364或经由网络368直接将程序载入到RAM360。

该程序包含由用于使计算机340作为上述实施方式所涉及的RNN的学习***以及声音识别装置280的各功能部起作用的多个命令构成的命令串。使计算机340进行该动作所需的基本的功能中的几个功能由在计算机340上动作的操作***或第三方的程序或安装在计算机340的可动态链接的各种编程工具包或程序库提供。因此，该程序本身可以不一定非要包含实现本实施方式的***以及方法所需的全部功能。该程序通过以命令当中的被控制成能得到期望的结果的做法在执行时动态调用合适的功能或编程工具包或程序库内的合适的程序，从而仅包含实现作为上述的***或装置的功能的命令即可。当然，也可以仅用程序来提供全部所需的功能。

本次公开的实施方式仅是例示，本发明并不仅限制在上述的实施方式。本发明的范围在参酌发明的详细的说明的记载的基础上由权利要求书的各项权利要求示出，包含与其中所记载的语句等同的意义以及范围内的全部变更。

产业上的可利用性

本发明能利用在通过有效率地进行RNN的学习方法来使用RNN的人工智能的构建以及动作中，特别能利用在高精度地提供声音识别等复杂的功能的装置的制造产业以及提供这样的功能的产业中。

标号的说明

40、104、108、112 输入层

42、70、102、106、108、110、114 隐含层

44、100 输出层

130 学习数据序列

190 学习语料库存储部

192 学习数据作成部

194 学习数据存储部

196 学习处理部

198 RNN

280 声音识别装置

304 特征量提取部

306 特征量存储部

308 声学模型

310 声音识别解码器

Claims

1.一种循环神经网络RNN的学习方法，是使用预先准备的学习数据由计算机进行的RNN的学习方法，

所述学习数据包含各自由学习对象数据的特征量和参考值构成的矢量的序列，

所述学习方法包含：

将所述RNN初始化的步骤；

第1指定步骤，将所述矢量的序列内的某矢量指定为学习开始位置；和

学习步骤，将所述RNN的各参数最佳化，以使得针对所述学习数据计算的给定的误差函数最小化，由此进行所述RNN的学习，

所述学习步骤包含：

更新步骤，使用所述矢量的序列当中的以被指定的矢量为开头的连续的N个矢量，通过将该连续的N个矢量的末尾的矢量的参考值设为正解标签的Truncated BPTT来进行所述RNN的参数的更新，其中，N是3以上的整数，

第1重复步骤，直到预先确定的结束条件成立为止，都重复以下处理，即，新指定相对于所述更新步骤中使用的所述N个矢量的末尾的矢量处于满足给定的关系的位置的矢量来执行所述学习步骤的处理，

处于满足所述给定的关系的位置的矢量是从所述进行选择的步骤中的所述被指定的矢量起至少2个以上后的矢量。

2.根据权利要求1所述的RNN的学习方法，其中，

处于满足所述给定的关系的位置的矢量是所述N个矢量的末尾的矢量。

3.根据权利要求1或2所述的RNN的学习方法，其中，

所述RNN的学习方法还包含：

第2指定步骤，响应于所述第1重复步骤中判定为所述结束条件成立这一情况，将从所述第1指定步骤中指定的所述矢量起比所述N小的数目后的矢量新指定为下一次学习的开始位置；和

执行所述学习步骤直到所述结束条件成立为止的步骤。

4.根据权利要求1或2所述的RNN的学习方法，其中，

所述RNN的学习方法还包含：

第2重复步骤，响应于所述第1重复步骤中判定为所述结束条件成立这一情况，一边将从所述某矢量起1个接1个后的矢量指定为新的学习开始位置，一边重复执行所述学习步骤，直到指定了从所述某矢量起N-1个后的矢量的处理结束为止。

5.一种计算机程序，使计算机执行1～4中任一项所述的RNN的学习方法的全部步骤。

6.一种声音识别装置，包含：

帧化处理单元，对所输入的声音信号以给定移位量以及给定帧长进行帧化；

特征量提取单元，从所述帧化处理单元输出的各帧的声音信号中提取给定的声音特征量，并将特征量矢量输出；

声学模型，由RNN构成，将由所述特征量提取单元输出的特征量矢量的序列作为输入，每当被输入特征量矢量时，就通过权利要求1～4中任一项所述的学习方法进行学习，以便输出以与该特征量矢量对应的帧的声音是所设想的音素的集合的各要素的概率作为要素的矢量；和

声音识别解码器，通过使用了所述声学模型输出的矢量的序列和统计语言模型的概率性的处理来输出生成所述声音信号的似然性最高的单词串。