CN109952580B

CN109952580B - 基于准循环神经网络的编码器-解码器模型

Info

Publication number: CN109952580B
Application number: CN201780068559.XA
Authority: CN
Inventors: J·布拉德伯里; S·J·梅里蒂; 熊蔡明; R·佐赫尔
Original assignee: Shuo Power Co
Current assignee: Shuo Power Co
Priority date: 2016-11-04
Filing date: 2017-11-03
Publication date: 2023-08-01
Anticipated expiration: 2037-11-03
Also published as: CN109923559A; CN109952580A; CA3040188C; CN109923559B; US20180129931A1; JP7233475B2; EP3535700A1; JP6903752B2; AU2017355537B2; US20180129937A1; US11080595B2; CA3040153C; CA3040153A1; AU2017355535B2; WO2018085722A1; AU2021201242A1; AU2017355535A1; JP2020501231A; WO2018085724A1; US20210103816A1

Abstract

所公开的技术提供了一种准循环神经网络(QRNN)，其交替跨时间步长并行应用的卷积层，和跨特征维度并行应用的极简主义循环池化层。

Description

基于准循环神经网络的编码器-解码器模型

其他申请的交叉引用

本申请要求于2016年11月4日提交的申请号为62/417，333的美国临时专利申请“准循环神经网络(QUASI-RECURRENT NEURAL NETWORKS)”(代理人案卷号为SALE 1180-1/1946PROV)的权益。在此通过引用并入优先权临时申请以用于所有目的。

本申请要求于2016年11月4日提交的申请号为62/418，075的美国临时专利申请“准循环神经网络(QUASI-RECURRENT NEURAL NETWORKS)”(代理人案卷号为SALE 1180-2/1946PROV2)的权益。在此通过引用并入优先权临时申请以用于所有目的。

本申请要求于2017年1月31日提交的，申请号为15/420，710的美国非临时专利申请“准循环神经网络(QUASI-RECURRENT NEURAL NETWORKS”(代理人案卷号SALE 1180-3/1946US)的权益。在此通过引用并入优先权非临时申请以用于所有目的。以及

本申请要求于2017年1月31日提交的，申请号为15/420，801的美国非临时专利申请“基于准循环神经网络的编码器-解码器模型(QUASI-RECURRENT NEURAL NETWORK BASEDENCODER-DECODER MODEL)”(代理人案卷号SALE 1180-4/1946US2)的权益。在此通过参引用并入优先权非临时申请以用于所有目的。

所公开的技术的技术领域

所公开的技术一般涉及使用深度神经网络进行自然语言处理(NLP)，尤其涉及涉及提高NLP任务中的计算效率的准循环神经网络(QRNN)务。

背景技术

不应将本节中讨论的主题仅因其在本节中提及就假设为现有技术。类似地，本节中提到的或与所提供的作为背景的主题相关的问题不应假设先前已在现有技术中认识。本节中的主题仅表示不同的方法，这些方法本身也可以对应于所要求保护的技术的实现。

循环神经网络(RNN)是用于对序列数据建模的强大工具，但是每个时间步长计算对先前时间步长输出的依赖性限制了并行性并使得RNN对于非常长的序列而言不实用。所公开的技术提供了一种准循环神经网络(QRNN)，所述准循环神经网络交替跨时间步长中并行应用的卷积层和跨特征维度并行应用的极简循环池化层。

尽管缺乏可训练的循环层，但堆叠的QRNN具有比具有相同隐藏尺寸的堆叠长短期记忆网络(LSTM)更好的预测精度。由于它们的并行性增加，它们在训练和测试时间上快了高达16倍。语言建模、情感分类和字符级神经机器翻译的实验证明了这些优点，并强调了QRNN作为各种序列任务的基本构建块的可行性。

附图的简要说明

在附图中，相同的附图标记在不同视图中通常指代相同的部分。而且，附图不一定按比例绘制，而是通常将重点放在说明所公开的技术的原理上。在以下描述中，参考以下附图描述所公开的技术的各种实现方式，其中：

图1示出了提高了自然语言处理(NLP)任务中的计算效率的准循环神经网络(QRNN)的各方面。

图2示出了在输入向量的时间序列上并行操作并同时输出卷积向量的卷积层的一种实现。

图3描绘了包括激活向量、遗忘门向量、输入门向量和输出门向量的卷积向量的一种实现。

图4是包括由卷积层同时输出的激活向量和门向量的多个卷积向量的一种实现。

图5示出了由卷积层同时输出的激活向量和门向量中的序数位置处的特征值的一种实现。

图6是并行地应用累加器以在状态向量中同时累加特征和的有序集合，并且顺序地输出连续的状态向量的单门池化层的一种实现。

图7示出了并行地应用累加器以在状态向量中同时累加特征和的有序集合，并且顺序地输出连续的状态向量的多门池化层的一种实现。

图8描绘了由池化层顺序输出的连续状态向量的一种实现。

图9是准循环神经网络(QRNN)编码器-解码器模型的一种实现。

图10是示出QRNN对情绪分类任务的准确性比较的表。

图11示出了QRNN的状态向量的可视化的一种实现。

图12描绘了示出QRNN对语言建模任务的准确性进行比较的表格。

图13是示出QRNN对语言翻译任务的准确性比较的表。

图14描绘了示出QRNN的训练速度和推理速度的图表。

图15是可用于实现准循环神经网络(QRNN)的计算机***的简化框图。

图16是示出了与典型LSTM和CNN架构相比较的QRNN的计算结构的框图。

图17示出了用于机器翻译实验的QRNN编码器-解码器架构。

详细说明

呈现以下讨论以使得本领域技术人员能够制造和使用所公开的技术，并且在特定应用及其要求的背景下提供以下讨论。对于本领域技术人员来说，所公开的实现的各种修改是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，这里定义的一般原则可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现方式，而是符合与本文公开的原则和特征相一致的最宽范围。

讨论组织如下。首先，呈现描述QRNN解决的一些问题的介绍。然后，描述了实现时间步长方面并行性的卷积层，接着是实现特征尺寸方面并行性的池化层。接下来，讨论了QRNN编码器-解码器模型。最后，提供了一些实验结果，说明了QRNN在各种NLP任务上的性能。

介绍

包括诸如长短期记忆(LSTM)的门控变体的循环神经网络(RNN)已经成为用于序列建模任务的深度学习方法的标准模型架构。RNN重复将具有可训练参数的函数应用于隐藏状态。

还可以堆叠循环层，增加网络深度、代表性功率以及通常情况下的精确度。自然语言领域中的RNN应用范围从句子分类到单词级和字符级语言建模。RNN通常也是用于诸如机器翻译或问答的任务的更复杂模型的基本构建块。

在RNN中，在每个时间步长处的计算取决于来自先前时间步长的结果。由于这个原因，包括LSTM在内的RNN在处理包含很长序列的任务的能力方面受到限制，例如文档分类或字符级机器翻译，因为对文档不同部分的特征或状态的计算不能并行发生。

卷积神经网络(CNN)虽然在包含图像数据的任务上更受欢迎，但也已应用于序列编码任务。这些模型沿着输入序列与窗口并行地应用时间不变的滤波器函数。与循环模型相比，CNN具有几个优点，包括增加的并行性和更好地扩展到诸如那些通常用字符级语言数据看到的序列的长序列。当在混合架构中与RNN层结合时，用于序列处理的卷积模型已经更成功，因为跨时间步长结合卷积特征的传统最大池和平均池方法假设时间不变，因此不能充分利用大规模序列次序信息。

所公开的技术提供了一种准循环神经网络(QRNN)，其解决了类似RNN和CNN的标准模型的缺点。QRNN允许跨时间步长和特征维度进行并行计算，从而实现高吞吐量和长序列的良好缩放。与RNN一样，QRNN允许输出取决于序列中元素的整体顺序。QRNN适用于多种自然语言任务，包括文档级情感分类、语言建模和字符级机器翻译。QRNN在所有三项任务上都优于强大的LSTM基线，同时大大缩短了计算时间。

直观地，长序列的语义的许多方面是上下文不变的并且可以并行地(例如，卷积地)计算，但是一些方面需要长距离上下文并且必须循环地计算。许多现有的神经网络架构要么无法利用上下文信息，要么无法利用并行性。QRNN开发并行性和上下文，展现出卷积和循环神经网络的优势。QRNN比具有相同隐藏大小的基于LSTM的模型具有更好的预测准确性，即使它们使用更少的参数并且实质上运行得更快。

实验表明，速度和准确度优势在任务以及单词和字符级别上保持一致。CNN和RNN的扩展直接适用于QRNN，而模型的隐藏状态比其他循环架构更容易解释，因为它的通道跨时间步长保持独立性。因此，QRNN有机会充当以前对传统RNN不切实际的长序列任务的构建块。

准循环神经网络(QRNN)

图1示出了QRNN 100的计算结构。QRNN 100包含两种组件或层，即卷积层(如102，106)和池化层(如104，108)。卷积层102，106允许跨序列微小区(minibatches)和时间步长的完全并行计算。池化层104，108缺少可训练参数并且跨序列微小区和特征维度应用完全并行计算。在图1中，池化层104，108的连续块表示沿着特征尺寸并行操作的无参数函数。

图1还示出了子QRNN110，112。子QRNN110包含至少一个卷积层102和至少一个池化层104。子QRNN112包含至少一个卷积层106和至少一个池化层108。在其他实现中，子QRNN110，112中的每一个包括任何数量的卷积层(例如，两个，三个或更多个)和任何数量的池化层(例如，两个，三个或更多个)。同样在其他实现中，QRNN100可以包括一个或更多个子QRNN。

在一些实现方式中，QRNN 100包含从序列中的最低子QRNN到序列中的最高子QRNN布置的子QRNN序列。如这里所使用的，将具有以序列布置的的多个子QRNN的QRNN称为“堆叠的QRNN”。诸如QRNN 100的堆叠QRNN通过序列中的每个子QRNN处理所接收的输入数据，以生成输入数据的替代表示。另外，子QRNN(例如，子QRNN 110，112)接收由序列中的前一子QRNN生成的先前输出作为输入。这些接收的步骤由子QRNN的输入接收器(例如，输入接收器144)实现。例如，在图1中，第二子QRNN 112的第二卷积层106处理作为输入的、来自第一子QRNN110的前一个第一池化层104的输出。相反，第一子QRNN 110的第一卷积层102将作为输入的、嵌入的向量(例如，单词向量、字符向量、短语向量)映射到高维嵌入空间。因此，在一些实现方式中，将变化的输入提供给堆叠的QRNN的不同子QRNN和/或子QRNN内的不同组件(例如，卷积层、池化层)。

此外，QRNN 100通过卷积层处理来自前一子QRNN的输出，以产生前一输出的替代表示。然后，QRNN 100通过池化层处理替代表示以产生输出。例如，在图1中，第二子QRNN112使用第二卷积层106来对来自第一子QRNN 110的第一池化层104的先前输出114进行卷积。卷积产生替代表示116，其由第二子QRNN 112的第二池化层108进一步处理以产生输出118。

在一些实现方式中，QRNN 100还包括子QRNN之间和/或子QRNN中的层之间的跳跃连接。跳跃连接，例如120，122，124，将前一层的输出与当前层的输出连接，并将连接提供给后一层作为输入。在子QRNN的层之间的跳跃连接的一个示例中，跳跃连接120将第一子QRNN110的第一卷积层102的输出126与第一子QRNN 110的第一池化层104的输出128连接。该连接随后作为输入提供给第二子QRNN 112的第二卷积层106。在子QRNN之间的跳跃连接的一个示例中，跳跃连接122连接第一子QRNN 110的第一卷积层102的输出126和第二子QRNN112的第二卷积层106的输出130。该连接随后作为输入提供给第二子QRNN 112的第二池化层108。同样，跳跃连接124连接第一子QRNN 110的第一池化层104的输出128和第二子QRNN112的第二卷积层106的输出130。该连接随后作为输入提供给第二子QR NN 112的第二池化层108。

对于序列分类任务，QRNN 100包括每个QRNN层之间的跳跃连接，其在本文中称为“密集连接”。在一种实现中，QRNN 100包括输入嵌入与每个QRNN层之间以及每对QRNN层之间的密集连接。这导致在将得到的状态向量馈送到下一层之前QRNN 100沿着特征维度将每个QRNN层的输入连接到其输出后。然后将最后一层的输出用作整体编码结果。

ORNN卷积层-时间步骤并行性

图2示出了QRNN卷积层200的操作的一种实现。图2示出了表示输入序列中的n个元素的d维输入向量x₁,...,x₆,...,x_n。输入向量x₁,...,x₆,...,x_n分别在n时间步长上产生。在一种实现中，输入序列是具有n个单词的单词级输入序列。在另一实现中，输入序列是具有n个字符的字符级输入序列。在又一实现中，输入序列是具有n个短语的短语级输入序列。输入向量x₁,...,x₆,...,x_n被映射到高维向量空间，在此称为“嵌入空间”。使用嵌入矩阵/>来定义嵌入空间，其中ν表示词汇的大小。在实现中，嵌入空间可以是单词嵌入空间，字符嵌入空间或短语嵌入空间。在一些实现中，使用诸如GloVe和word2vec的预训练嵌入模型来初始化输入向量x₁,...,x₆,...,x_n。在其他实现中，输入向量基于独热编码。

QRNN卷积层200利用b个一组的滤波器对输入向量x₁,...,x₆,...,x_n上的m个时间序列窗口执行并行卷积，以同时输出m个卷积向量y₁,...,y₅,...,y_m的序列ζd是每个卷积向量的维度，其中ζ标识维度增加参数。这些产生并发卷积向量的步骤由卷积层的卷积向量产生器(例如，卷积向量产生器212)实现。这些增加步骤由卷积层的维度增加器(例如，维度增加器214)体现。如这里所使用的，“跨越时间步长或时间序列维度的并行性”或“时间步长或时间序列并行性”是指在时间序列m个时间序列窗口上将卷积滤波器组并行应用到输入向量x₁,...,x₆,...,x_n以同时生成m个卷积向量y₁,...,y₅,...,y_m的QRNN卷积层200。

在实现中，根据卷积滤波器组中的多个卷积滤波器，相对于输入向量x₁,...,x₆,...,x_n的维度增加了同时产生的卷积向量y₁,...,y₅,...,y_m的维度。因此，维度增加参数ζ成比例地取决于卷积滤波器组中的卷积滤波器的数量，从而ζd＝b。例如，如果输入向量x₁,...,x₆,...,x_n的维度是100，即d＝100，并且卷积滤波器组包含200个卷积滤波器，即b＝200，同时输出的卷积向量y₁,...,y₅,...,y_m的维度是200，即ζd＝200和ζ＝2。在其他实现中，卷积滤波器组(例如，卷积滤波器组210)配置有不同数量的卷积滤波器，使得同时输出的卷积向量的维度ζd是300，400，500，800或任何其他数。

图3描绘了卷积向量y_m208的一种实现，其包括激活向量z_m302、遗忘门向量f_m304、输入门向量i_m306和输出门向量o_m308。在实现中，卷积向量可以包括激活向量和一个或更多个门向量的任何组合。例如，在一种实现中，卷积向量208包括激活向量302和遗忘门向量304。在另一实现中，卷积向量208包括激活向量302、遗忘门向量304和输入门向量306。在又一个实现中，卷积向量208包括激活向量302、遗忘门向量304和输出门向量308。

在实现中，卷积向量208中的多个门向量根据卷积向量的维度ζd来配置，使得维度ζd在激活向量和卷积向量的一个或更多个门向量之间成比例地分开。在一个示例中，对于卷积向量y_m208，如果ζd＝400，则激活向量z_m302，遗忘门向量f_m304，输入门向量i_m306和输出门向量o_m308都具有相同的维度d＝100。在另一个示例中，对于维度ζd＝200的卷积向量，卷积向量包括激活向量和仅一个门向量(例如，遗忘门向量)，每一个的维度d＝100。在又一示例中，对于维度ζd＝300的卷积向量，卷积向量包括激活向量和两个门向量(例如，遗忘门向量和输出门向量或遗忘门向量和输入门向量)，每一个的维度d＝100。

图4是多个卷积向量y₁,...,y₅,...,y_m的一种实现，包括由QRNN卷积层200同时输出的激活向量和门向量。图4示出了由QRNN卷积层200生成的第一时间序列窗口的卷积向量y₁202。卷积向量y₁202包括激活向量z₁402，遗忘门向量f₁404，输入门向量i₁406和输出门向量o₁408.类似地，QRNN卷积层200产生第m个时间序列窗口的卷积向量208。

在一些实现中，为了对包括预测输入序列的下一元素的任务有用，卷积滤波器必须不允许对任何给定时间步长的计算访问来自未来时间步长的信息。也就是说，对于宽度为k的滤波器，每个卷积向量y_t仅取决于x_t-k+1到x_t的输入向量。这种卷积操作在本文中称为“掩蔽卷积”。在一个实现中，通过将卷积的滤波器大小减去1将输入填充到左侧来应用掩蔽卷积。

同时产生的卷积向量y₁,...,y₅,...,y_m提供由QRNN池化层使用以实现一个或更多个QRNN池化功能的激活向量和门向量。在一种实现中，在被QRNN池化层使用之前，激活向量和门向量经历预处理。在一种实现中，预处理包括使激活向量通过双曲正切非线性激活(tanh)。在一种实现中，预处理包括使门向量通过逐元素的sigmoid非线性激活(σ)。对于在每个时间步长窗口需要遗忘门向量f_t和输出门向量o_t的QRNN池化函数，相应QRNN卷积层中的计算由以下数学公式定义：

Z＝tanh(W_z*X)

F＝σ(W_f*X)

O＝σ(W_o*X)

其中，激活向量W_z，W_f，和W_o，每一个在中，是卷积滤波器组并且*表示沿时间步长维度的掩蔽卷积。

在一个典型实现中，当卷积滤波器的滤波器宽度为2时，激活向量和门向量表示类似LSTM的门，并且由以下数学公式定义：

其中激活向量z_t，遗忘门向量f_t，输入门向量i_t，和输出门向量o_t通过将各自的卷积滤波器权重矩阵W_z ¹，W_z ²，W_f ¹，W_f ²，W_i ¹，W_i ²，W_o ¹，W_o ²应用到输入向量x_t-1和x_t而同时生成。

在其他实现中，更大宽度的卷积滤波器用于在每个时间步长窗口处计算更高的n-gram特征。在实现中，更大的宽度对于字符级任务尤其有效。

QRNN池化层-QRNN池化函数

QRNN池化层实现各种QRNN池化函数。QRNN池化函数由对应的QRNN卷积层提供的一个或多个门向量控制。门向量跨时间步长窗口上混合状态向量，同时在状态向量的每个元素上独立地操作。在实现中，QRNN池化函数从LSTM单元的逐元素门构建。在其他实现中，QRNN池化函数基于LSTM的变体构建，例如无输入门(NIG)变体、无遗忘门(NFG)变体、无输出门(NOG)变体、无输入激活函数(NIAF)变体、无输出激活函数(NOAF)变体，耦合输入-遗忘门(CIFG)变体和全门循环(FGR)变体。在其他实现中，QRNN池化函数是基于门控循环单元(GRU)或任何其他类型的RNN或任何其他传统或未来开发的神经网络的操作来构建的。

f-池化

考虑以下数学公式，其定义QRNN池化函数的一个实现，在此称为“f-池化”，其使用单个门向量：

其中，

c_t是当前状态向量

f_t是当前遗忘状态向量

c_t-1是先前状态向量

z_t是当前激活状态向量

表示逐元素相乘或Hadamard乘积

关于状态向量，当前状态向量c_t是当前激活向量z_t与过去状态向量c_t-1的合并。当前激活向量z_t由当前卷积向量y_t识别，该卷积向量y_t是从输入向量x_t,...,x_t+k-1的当前时间序列窗口上的卷积导出的，其中k是卷积滤波器的大小或宽度。像人一样，当前状态向量c_t知道将当前卷积的输入向量窗口x_t,...,x_t+k-1与过去状态向量c_t-1组合或混合的配方，以便根据上下文过去来概括当前的输入向量窗口x_t,...,x_t+k-1。因此，当前激活向量z_t和过去状态向量c_t-1用于生成包括当前输入向量窗口x_t,...,x_t+k-1的各方面的当前状态向量c_t。

关于遗忘门向量，当前遗忘门向量f_t评估过去状态向量c_t-1对计算当前状态向量c_t有多少用。此外，当前遗忘门向量f_t还提供了对当前激活向量z_t对计算当前状态向量c_t有多少用的评估。

fo-池化

在一些实现中，QRNN池化函数，除遗忘门向量之外还使用输出门向量，在本文中被称为“fo-池化”并且由以下数学公式定义：

其中，

h_t是当前隐藏状态向量

o_t是当前输出状态向量

c_t是当前状态向量

表示逐元素相乘或Hadamard乘积

当前状态向量c_t可以包含不一定需要保存的信息。当前输出门向量o_t评估当前状态向量c_t的哪些部分需要暴露或存在于当前隐藏状态向量h_t中。

Ifo-池化

考虑以下数学公式，其定义QRNN池化函数的一个实现，在此称为“ifo-池化”，其使用多个门向量：

其中，

c_t是当前状态向量

f_t是当前遗忘状态向量

c_t-1是先前状态向量

i_t是当前输入门向量

z_t是当前激活状态向量

表示逐元素相乘或Hadamard乘积

关于输入门向量，为了生成当前状态向量c_t，当前输入门向量i_t考虑当前激活向量z_t的重要性，并且引申开来，考虑当前输入向量窗口x_t,...,x_t+k-1的重要性。输入门向量i_t是有多少当前输入值得保留的指示器，因此用于门控当前状态向量c_t。

因此，跟人一样，数学公式(3)涉及：获取当前遗忘门向量f_t的建议以确定应忘记多少过去状态向量c_t-1，接受当前输入门向量i_t的建议以确定应考虑多少当前激活向量z_t，并将两个结果相加以产生当前状态向量c_t。

QRNN池化层-特征维度并行性

QRNN池化层使用诸如f-池化，fo-池化和ifo-池化之类的一个或多个QRNN池化函数来计算m个时间序列窗口中的每一个的状态向量。每个状态向量由多个元素组成。状态向量的每个元素在本文中称为“特征和”。状态向量的每个特征和由状态向量中的对应序数位置标识。

考虑图8中描绘的状态向量序列C。序列C包括状态向量c₁,...,c_m。在一个示例中，第一时间序列窗口的状态向量c₁802由以下100个特征和的有序集合组成：

c₁ ¹,...,c₁ ¹⁰⁰

其中，上标标识特定状态向量中给定特征和的序数位置，下标标识特定状态向量，并且引申开来，还标识特定时间序列窗口。

类似地，第m个时间序列窗口的状态向量c_m804也由100个特征和c_m ¹,...,c_m ¹⁰⁰的有序集合组成。

状态向量中的特征和或元素的数量成比例地取决于状态向量的维度d。因此，由于状态向量c₁802具有维度100，即d＝100，它具有100个特征和。此外，状态向量的维度d取决于用于计算状态向量的激活向量和门向量的维度。在实现中，激活向量，门向量和结果状态向量共享相同的维度d。

通常，由QRNN池化层为给定输入序列产生的所有状态向量共享相同的维度d。因此，如图8所示，状态向量c₁,...,c_m具有相同数量的特征和或元素，每个特征和由每个状态向量内的相应序数位置标识。

类似状态向量，激活向量和门向量也由多个元素组成。激活向量的每个元素在本文中被称为“特征值”。类似地，门向量的每个元素在本文中也称为“特征值”。激活向量的每个特征值由激活向量中的对应序数位置标识。类似地，门向量的每个特征值由门向量中的对应序数位置标识。

转到图5，其示出了激活向量z₁,...,z_m的激活向量序列Z，遗忘门向量f₁,...,f_m的遗忘门向量序列F，输入门向量i₁,...,i_m的输入门向量序列I，以及输出门向量o₁,...,o_m的输出门向量序列O。如上所述，QRNN卷积层200同时输出序列中Z，F，I和O的所有激活向量和门向量。

在一个示例中，第一时间序列窗口的激活向量z₁402由以下100个特征值的有序集合组成：

z₁ ¹,...,z₁ ¹⁰⁰

其中，上标标识特定激活向量中给定特征值的序数位置，下标标识特定激活向量，并且引申开来还标识特定时间序列窗口。

类似地，图3中第m个时间序列窗口的激活向量z_m302也由一组100个特征值z_m ¹,...,z_m ¹⁰⁰的有序集合组成。

在另一示例中，第一时间序列窗口的遗忘门向量f₁404由以下的100个特征值的有序集合组成：

f₁ ¹,...,f₁ ¹⁰⁰

其中，上标标识特定遗忘门向量中给定特征值的序数位置，下标标识特定遗忘门向量，并且引申开来，还标识特定时间序列窗口。

类似地，第m时间序列窗口的遗忘门向量f_m304也由100个特征值f_m ¹,...,f_m ¹⁰⁰的有序集合组成。

在又一示例中，用于第一时间序列窗口的输入门向量i₁406由以下的100个特征值的有序集合组成：

i₁ ¹,...,i₁ ¹⁰⁰

其中，上标标识特定输入门向量中给定特征值的序数位置，下标标识特定输入门向量，并且引申开来，还标识特定时间序列窗口。

类似地，第m时间序列窗口的输入门向量i_m306也由100个特征值i_m ¹,...,i_m ¹⁰⁰的有序集合构成。

在又一示例中，第一时间序列窗口的输出门向量o₁408由以下的的100个特征值的有序集合组成：

o₁ ¹,...,o₁ ¹⁰⁰

其中，上标标识特定输出门向量中给定特征值的序数位置，下标标识特定输出门向量，并且引申开来还标识特定时间序列窗口。

类似地，第m个时间序列窗口的输出门向量o_m308也由100个特征值o_m ¹,...,o_m ¹⁰⁰的有序集合构成。

如本文所使用的，“跨特征维度的并行性”或“特征并行性”是指在卷积向量的特征值上(即，在相应激活向量和由卷积向量产生的一个或多个门向量中的相应特征值上)并行操作，以在状态向量中同时累加特征和的有序集合的QRNN池化层。特征和的累加可以基于一个或多个QRNN池化函数，例如f-池化，fo-池化和ifo-池化。逐元素累加涉及用作参数的门向量中的特征值，所述参数分别通过序数位置应用于激活向量中的特征值。

考虑图6中的特征并行性的一个示例，其基于由单门QRNN池化层600实现的f-池化。注意，QRNN池化层600使用以下数学公式应用f-池化“逐序数位置”：

其中，所有符号的对指示在矩阵的两个维度上的操作以及

表示连续时间序列窗口上的操作

表示在序数位置之上的操作，其是可并行的操作

是在当前状态向量c_t中的j序数位置处的特征和

是在当前遗忘门向量f_t中的j序数位置处的特征值

在前期状态向量c_t-1中的j序数位置处的特征值

是在当前激活向量z_t中的j序数位置处的特征值

·表示乘法

数学公式(4)涉及根据以下情况计算当前时间序列窗口t的状态向量c_t中的给定序数位置j的特征和在先前时间序列窗口t-1的状态向量c_t-1中的相同序数位置j处的特征和/>当前时间序列窗口t的遗忘门向量f_t中的相同序号位置j处的特征值/>以及当前时间序列窗口t的遗忘门向量z_t中的相同序号位置j处的特征值/>

因此，跟人一样，在数学公式(4)中，当前遗忘门向量的每个特征值控制来自当前激活向量的相应特征值和来自先前状态向量的相应特征和的逐序数位置累加。因此，在图6中，根据特征和特征值f₁ ¹和特征值/>累加特征和/>类似地，根据特征和/>特征值和特征值/>累加特征和/>同样，根据特征和/>特征值f₁ ¹⁰⁰和特征值/>累加特征和/>在实现中，第一状态向量c₀的特征和可以被初始化为零，或者被初始化为预训练的值，或者被初始化为取决于激活向量的特征值的值。

关于特征并行性，对于当前时间序列状态向量c_t，QRNN池化层600并行地应用累加器(例如，累加器602)以根据数学公式(4)同时累加状态向量c_t中的所有序数位置的特征和。因此，在图6中，并行地累加第一时间序列窗口的状态向量c₁ 802的特征和c₁ ¹,...,c₁ ¹⁰⁰。类似地，并行地累加第二时间序列窗口的状态向量c₂的特征和c₂ ¹,...,c₂ ¹⁰⁰。同样地，并行地累加第m个时间序列窗口的状态向量c_m 804的特征和c_m ¹,...,c_m ¹⁰⁰。

此外，QRNN池化层600顺序输出m时间序列窗口中的每个连续时间序列窗口的状态向量c₁,...,c_m。这些顺序输出状态向量的步骤由QRNN 100的输出产生器(例如，输出产生器604)体现。

考虑图7中的特征并行性的另一示例，其基于由多门池化层700实现的ifo-池化。注意，QRNN池化层700使用以下数学公式应用ifo-池化“逐序数位置”：

其中，所有符号的对表示在矩阵的两个维度上的操作以及

表示连续时间序列窗口上的操作

表示在序数位置之上的操作，其是可并行的操作

是在当前状态向量c_t中的j序数位置处的特征和

是在当前遗忘门向量f_t中的j序数位置处的特征值/>

在先前的状态向量c_t-1中的j序数位置处的特征值

是在当前输入门向量i_t中的i序数位置处的特征值

是在当前激活向量z_t中的j序数位置处的特征值

·表示乘法

数学公式(5)涉及根据以下情况计算当前时间序列窗口t的状态向量c_t中的给定序数位置j的特征和在先前时间序列窗口t-1的状态向量c_t-1中的相同序数位置j处的特征和/>当前时间序列窗口t的遗忘门向量f_t中相同序数位置j的特征值/>当前时间序列窗口t的输入门向量i_t中相同序数位置j的特征值/>以及在当前时间序列窗口t的遗忘门向量z_t中相同序数位置j的特征值/>

因此，像人一样，在数学公式(5)中，当前遗忘门向量的每个特征值控制来自先前状态向量的相应特征和的逐序数位置累加，以及当前输入门向量的每个特征值控制来自当前激活向量相应的特征值的逐序数位置累加。因此，在图7中，根据特征和特征值f₁ ¹，特征值/>和特征值/>来累加特征和/>类似地，根据特征和/>特征值f₁ ²，特征值/>和特征值/>来累加特征和/>同样，根据特征和/>特征值f₁ ¹⁰⁰，特征值/>和特征值累/>来累加特征和/>在实现中，可以将第一状态向量的特征和c₀初始化为零，或者初始化为预训练的值，或者初始化为取决于激活向量的特征值的值。

关于特征并行性，对于当前时间序列状态向量c_t，QRNN池化层700并行地应用累加器以根据数学公式(5)同时累加状态向量c_t中的所有序数位置处的特征和。因此，在图7中，将第一时间序列窗口的状态向量c₁ 802的特征和c₁ ¹,...,c₁ ¹⁰⁰并行累加。类似地，并行地累加第二时间序列窗口的状态向量c₂的特征和c₂ ¹,...,c₂ ¹⁰⁰。同样地，并行地累加第m个时间序列窗口的状态向量c_m 804的特征和c_m ¹,...,c_m ¹⁰⁰。

此外，QRNN池化层700顺序地输出m时间序列窗口中的每个连续时间序列窗口的状态向量c₁,...,c_m。

因此，单个QRNN池化层执行依赖于输入的池化，接着是卷积特征的门控线性组合。虽然QRNN池化函数的循环部分是由输入序列中每个时间步长的QRNN池化层计算的，但QRNN池化层沿特征维度的并行性意味着，实际上，在长输入序列上实现QRNN池化函数需要的计算时间的量可以忽略不计。

在一个实现中，通过要求当前时间序列窗口的状态向量中的给定序数位置处的特征和的随机子集来使QRNN规则化，以在先前的时间序列窗口同时累加的状态向量中的给定序数位置处复制相应的特征和。这是通过要求当前时间序列窗口的遗忘门向量中的给定序数位置处的相应特征值一致来实现的。

QRNN编码器-解码器模型

图9是QRNN编码器-解码器模型900的一种实现，其增加了神经网络序列到序列建模中的计算效率。模型900包括QRNN编码器和QRNN解码器。QRNN编码器包括一个或多个编码器卷积层(如902，906)和一个或多个编码器池化层(如904，908)。至少一个编码器卷积层(如902)接收编码器输入向量的时间序列，并同时输出用于时间序列窗口的编码的卷积向量。此外，至少一个编码器池化层(如904或908)接收时间序列窗口的编码的卷积向量，同时在当前时间序列窗口的编码的状态向量中累加特征和的有序集合，并顺序输出用于在时间序列窗口中的每个连续时间序列窗口的编码的状态向量(如922a，922b或922c)。

QRNN解码器包括一个或多个解码器卷积层(如914，918)和一个或多个解码器池化层(如916，920)。至少一个解码器卷积层(如914)接收解码器输入向量的时间序列，并同时输出时间序列窗口的解码的卷积向量。至少一个解码器池化层(如916或920)接收时间序列窗口的解码的卷积向量(如915a，915b，915c)，其分别与由最终时间序列窗口的编码器池化层(如904或908)输出的编码的状态向量(如910或912)连接，同时在当前时间序列窗口的解码的状态向量中累加特征和的有序集合，并为时间序列窗口中的每个连续时序序列窗口顺序输出解码的状态向量(如924a，924b或924c)。因此，每个解码器QRNN层的卷积函数的输出在每个时间步长处用最终编码器隐藏状态进行补充。这是通过将l层的卷积结果(例如，in/>)用广播添加到层l的最后编码器状态(例如，/>in/>)(如910或912)的线性投影副本来实现的。补充解码器池化输入的这些步骤由QRNN 100的补充器(例如，补充器934)体现。

QRNN编码器-解码器模型900的激活向量和门向量由以下数学公式定义：

其中，波浪字符是编码器变量。

然后，状态比较器计算编码的状态向量(如922a，922b或922c)与解码的状态向量(如924a，924b或924c)之间的语言相似性(例如，使用点积或内积或双线性乘积)，以产生具有逐编码轴和逐解码轴的亲和度矩阵926。这些计算语言相似性的步骤由关注编码器/注意力接口938的状态比较器(例如，状态比较器940)表现。接下来，诸如softmax的指数归一化器928逐编码归一化亲和度矩阵926以产生相应的编码-解码注意权重α_st，定义为：

然后，编码混合器(例如，注意编码器/注意力接口938的编码混合器942)分别将编码的状态向量(如922a，922b或922c)与编码-解码注意权重结合以生成相应的编码的状态向量的上下文摘要k_t，定义如下：

最后，注意编码器分别将解码的状态向量(如924a，924b或924c)与编码的状态向量的相应的上下文摘要结合，以产生每个时间序列窗口的注意编码。在一个实现中，注意编码器是多层感知器，其将经解码的状态向量和编码的状态向量的相应的上下文摘要的连接投影到非线性投影中，以产生每个时间序列窗口的注意编码。

在一些实现中，经编码的状态向量(如922a，922b或922c)分别乘以经编码的卷积向量的输出门向量(例如，注意编码器/注意力接口938的解码器输出门948)以产生相应的编码的隐藏状态向量。在这样的实现中，状态比较器计算(例如，使用点积或内积或双线性乘积)编码的隐藏状态向量和解码的状态向量之间的语言相似性，以产生具有逐编码轴和逐解码轴的亲和度矩阵。而且，在这样的实现中，编码混合器分别将编码的隐藏状态向量与编码-解码注意权重相结合，以生成编码的隐藏状态向量的相应的上下文摘要。此外，在这样的实现中，注意编码器分别将解码的状态向量与编码的隐藏状态向量的相应的上下文摘要结合，并且进一步将这些组合与解码的卷积向量的相应输出门向量相乘，以产生每个时间序列窗口的注意编码。在一个实现中，注意编码器是多层感知器，其将经解码的状态向量和编码的隐藏状态向量的相应上下文摘要的连接投影到非线性投影中，并且进一步将线性投影930与解码的卷积向量相应的输出门向量932相乘，以产生每个时间序列窗口的注意编码，定义如下：

其中L为最后一层为。线性投影的这些步骤由注意编码器/注意力接口938的线性感知器944实现。这些连接步骤由注意编码器/注意力接口938的连接器946实现。

虽然注意过程的第一步是序列长度的二次方，但实际上由于简单且高度并行的点积打分函数，它比模型的线性和卷积层花费明显更少的计算时间。

所公开的技术的其他实施方式包括使用与指数归一化器不同的，与指数归一化器一起使用的归一化器和/或与指数归一化器组合使用的归一化器。一些示例包括基于sigmoid的归一化器(例如，多类sigmoid，分段斜坡)，基于双曲正切的归一化器，基于整流线性单元(ReLU)的归一化器，基于标识的归一化器，基于逻辑的归一化器，基于正弦的归一化器，基于余弦的归一化器，基于单位和的归一化器和基于步长的归一化器。其他示例包括分层softmax(分类器)，差分softmax，重要性采样，噪声对比估计，负采样，门控分类器球面softmax，泰勒(Taylor)softmax和离散最大化器。在其他实施方式中，可以使用任何其他常规或未来开发的归一化器。

实验结果

QRNN在三种不同的自然语言处理(NLP)任务(即文档级情感分类，语言建模和基于字符的神经网络机器翻译)上优于相等状态向量大小的基于LSTM的模型，同时显著提高计算速度。使用状态向量执行不同NLP任务的这些步骤由QRNN 100的分类器(例如，分类器806)或QRNN编码器-解码器模型900的翻译器950实现。

图10是示出QRNN在流行文档级情绪分类基准，IMDb电影评论数据集的情绪分类任务上的的准确性比较的表。该数据集由25000个正面和25000个负面评论的平衡样本组成，分为等大小的训练和测试集，平均文档长度为231个单词。在一种实现中，具有四层密集连接架构的QRNN(每层256个单元)和使用300维度的外壳(cased)GloVe嵌入初始化的单词向量在保持开发上实现最佳性能。

图11示出了在来自IMDb数据集的示例的一部分上的最终QRNN层的隐藏状态向量的可视化的一种实现，其具有沿垂直轴的时间步长。即使没有任何后处理，隐藏状态的变化也是可见的，并且可以根据输入进行解释。这是循环池化函数的逐元素性质的结果，其延迟隐藏状态的不同通道之间的直接交互，直到下一个QRNN层的计算。

在图11中，颜色表示神经元激活。在最初的正向声明“这部电影简直华丽(Thismovie is simply gorgeous)”之后(在时间步长9处关闭图表)，由于短语“不完全是一个坏故事(not exactly a bad story)”(在“主要弱点是其故事”之后不久)，时间步长117触发大多数隐藏状态的重置。只有在时间步158中，在“我向所有人推荐这部电影，即使你从未玩过游戏(I recommend this movie to everyone,even if you’ve never played thegame)”之后，进行隐藏的单元的恢复。

图12描绘了表格，其表示QRNN在语言建模任务上的准确性比较。该实验使用宾夕法尼亚大学树图资料库(Penn Treebank)(PTB)的标准预处理版本。图12显示了单一模型在宾夕法尼亚大学树图资料库(Penn Treebank)语言建模任务的验证集和测试集上的困惑。越低越好。“中值(medium)”是指每层具有640或650个隐藏单元的双层网络。在一些实现中，所有QRNN模型在嵌入上以及层间包括0.5的失活(dropout)。MC指测试时的蒙特卡洛失活平均值。

如图12所示，QRNN强烈地优于不同类型的LSTM。这是归因于QRNN的池化层相对于LSTM的重复权重的有效计算能力，其在循环上提供结构正则化。

图13是示出QRNN对语言翻译任务的准确性比较的表。QRNN编码器-解码器模型在具有挑战性的应用完全字符级字段的神经网络机器翻译任务，(IWSLT德语-英语口语域翻译)上进行评估。该数据集包括来自转录的TED和TEDx演示文稿中的并行训练数据的209772个句子对，德语的平均句子长度为103个字符，英语的平均句子长度为93个字符。

QRNN编码器-解码器模型使用每个层具有320个单元、没有失活或L2正则化的四层编码器-解码器QRNN在开发集(TED.tst2013)上以及梯度重新缩放到最大幅度为5的情况下实现最佳性能。图13示出QRNN编码器-解码器模型优于字符级LSTM，几乎匹配单词级注意基线的性能。

图14描绘了示出QRNN的训练速度和推理速度的图表。在图14中，左侧示出了105时间步长中一批20个示例上的两层640单元PTB LM的训练速度。“RNN”和“softmax”包括前向和后向时间，而“优化开销”包括梯度限幅，L2正则化和SGD计算。在右边，图14示出了对于具有给定批大小和序列长度的数据，320单位QRNN层的推理速度相对于相等大小的cuDNNLSTM层具有优势。训练结果相似。

示例代码

下面的示例代码示出了QRNN100的一个实现：

/>

特别实现

我们描述了用于准循环神经网络(QRNN)的***、方法和制造产品。实现的一个或多个特征可以与基础实现组合。可以将不相互排斥的实现教导为是可组合的。实现的一个或多个特征可以与其他实现组合。本公开定期提醒用户这些选项。不应将重复这些选项的一些实施方案的省略视为限制前面部分中教导的组合-这些叙述通过引用结合到以下每个实现中。

在该特别实现部分中，在不改变其操作原理或QRNN 100或QRNN编码器-解码器模型900的情况下，使用较小的模块化模块或组件来替代地描述先前描述的QRNN 100和QRNN编码器-解码器模型900的模块或组件，诸如卷积层、池化层和关注编码器。

该特定实现部分中的模块可以用硬件或软件实现，并且不需要以与该特定实现部分中讨论的完全相同的方式进行划分。一些模块也可以在不同的处理器或计算机上实现，或者在许多不同的处理器或计算机之间传播。此外，应当理解，一些模块可以组合，并行操作或以与该特定实现部分中讨论的顺序不同的顺序操作，而不影响所实现的功能。同样如这里所使用的，术语“模块”可以包括“子模块”，可以将这些子模块本身认为是构成模块。例如，在此可以将卷积滤波器组210，卷积向量产生器212和维度增加器214认为是卷积层200的子模块。在另一个例子中，在此可以将状态比较器940，编码混合器942，线性感知器944，连接器946和解码器输出门948认为是关注编码器或注意力接口938的子模块。在另一个示例中，这里可以将用于编码状态向量中的元素的顺序和上下文信息的编码器认为是池化层的子模块。可以认为在该特定实现中讨论的模块也是方法中的流程图步骤。模块也不一定必须将其所有代码连续地存储在存储器中；代码的某些部分可以与来自其他模块或其他功能的代码的其他部分分开。

QRNN

在一个实现中，所公开的技术呈现了准循环神经网络(缩写为QRNN)***。QRNN***在许多并行处理核心上运行。QRNN***提高了基于神经网络的序列分类任务的训练和推理阶段期间的计算速度。

QRNN***包括卷积层、池化层、输出产生器(例如，输出产生器604)和分类器(例如，分类器806)。

卷积层包括卷积滤波器组，用于在输入向量的多个时间序列中的一组输入向量的时间序列上在时间序列窗口中的输入向量的并行卷积。卷积层还包括卷积向量产生器，用于基于并行卷积同时输出每个时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值，并且门向量中的特征值分别是按序数位置逐元素应用于激活向量中的特征值的参数。

池化层包括累加器(例如，累加器602)，用于通过在逐序数位置的基础上同时累加卷积向量的分量的特征值，在当前时间序列窗口的状态向量中并行累加特征和的有序集合。每个特征和由累加器根据为当前时间序列窗口输出的激活向量中的给定序数位置处的特征值，在为当前时间序列窗口输出的一个或多个门向量中的给定序数位置处的一个或多个特征值，以及在用于先前时间序列窗口的状态向量中给定序数位置处的特征和进行累加。

输出产生器在每个连续时间序列窗口处顺序输出由池化层池化的状态向量。

分类器使用由输出产生器产生的连续状态向量来执行序列分类任务。

所公开的该***实现和其他***可选地包括以下特征中的一个或多个。***还可以包括结合所公开的方法描述的特征。为了简明起见，***特征的替代组合不是单独列举的。对于每个法定类别的基本特征组，不重复适用于***、方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。

QRNN***还包括维度增加器，用于根据卷积滤波器组中的多个卷积滤波器来增加卷积向量相对于输入向量的维度的维度。

输入向量可以表示输入序列的元素。池化层可以包括编码器(例如，编码器142，146)，用于编码状态向量中的元素的顺序和上下文信息。这些编码步骤由池化层的编码器(例如，编码器142，146)实现。

在一些实现中，输入序列可以是单词级序列。在其他实现中，输入序列可以是字符级序列。

门向量可以是遗忘门向量。在这样的实现中，池化层可以使用用于当前时间序列窗口的遗忘门向量来控制来自先前时间序列窗口累加的状态向量的信息和来自当前时间序列窗口的激活向量的信息的累加。

门向量可以是输入门向量。在这样的实现中，池化层可以使用用于当前时间序列窗口的输入门向量来控制来自当前时间序列窗口的激活向量的信息的累加。

门向量可以是输出门向量。在这样的实现中，池化层可以使用用于当前时间序列窗口的输出门向量来控制来自当前时间序列窗口的状态向量的信息的累加。

QRNN***还可以包括以从最低到最高的顺序布置的多个子QRNN。每个子QRNN可以包括至少一个卷积层和至少一个池化层。

子QRNN还可以包括输入接收器(例如，输入接收器144)，用于接收由序列中的前一子QRNN***生成的在前输出作为输入，用于在前输出的并行卷积以产生在前输出的替代表示的卷积层，以及用于并行累加替代表示以产生输出的池化层。

QRNN***还可以包括子QRNN之间以及子QRNN中的层之间的跳跃连接，用于将先前层的输出与当前层的输出连接，并且用于将连接作为输入提供给后续层。

序列分类任务可以是语言建模，情感分类，文档分类，单词级机器翻译或字符级机器翻译。

QRNN***还可以包括正则化器(例如，正则化器140)，用于通过要求的当前时间序列窗口的遗忘门向量中的给定序数位置处的相应特征值一致来使卷积层和池化层正则化。这在当前时间序列窗口的状态向量中的给定序数位置处产生特征和的随机子集，其匹配在先前时间序列窗口同时累加的状态向量中的给定序数位置处的各个特征和。

其他实现可以包括存储可由处理器执行以执行上述***的动作的指令的非暂时性计算机可读存储介质。

在另一实现中，所公开的技术呈现了准循环神经网络(缩写为QRNN)***。QRNN***在许多并行处理核心上运行。QRNN***提高基于神经网络的序列分类任务的训练和推理阶段期间的计算速度。

QRNN***包括卷积层，池化层，输出产生器(例如，输出产生器604)和分类器(例如，分类器806)。

卷积层包括卷积滤波器组，用于在输入向量的多个时间序列中的一组输入向量的时间序列上在时间序列窗口的输入向量的并行卷积。卷积层还包括卷积向量产生器，用于基于并行卷积同时输出每个时间序列窗口的卷积向量。

池化层包括累加器(例如，累加器602)，用于通过在逐序数位置的基础上同时累加卷积向量的分量的特征值，在当前时间序列窗口的状态向量中特征和的有序集合的并行累加。

输出产生器在每个连续时间序列窗口处顺序地输出由池化层池化的状态向量。

分类器使用由输出生成器生成的连续状态向量来执行序列分类任务。

在该特定实现部分中针对第一***实现所讨论的每个特征同样适用于该***实现。如上所述，这里不重复所有***特征，应该通过引用重复考虑。

其他实现可以包括非暂时性计算机可读存储介质，其存储可由处理器执行以执行上述***的动作的指令。

在又一实现中，所公开的技术提出了一种条在基于神经网络的序列分类任务的训练和推理阶段期间的计算速度的方法。

该方法包括将卷积滤波器组并行地应用于输入向量的多个时间序列中的一组输入向量的时间序列上时间序列窗口中的输入向量，以同时输出每个时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值，并且门向量中的特征值分别是按序数位置逐元素应用于激活向量中的特征值的参数。

该方法包括在卷积向量的分量的特征值上并行地应用累加器，以在逐序数位置的基础上、在当前时间序列窗口的状态向量中同时累加特征和的有序集合。每个特征和由累加器根据在为当前时间序列窗口输出的激活向量中的给定序数位置处的特征值、在为当前时间序列窗口输出的一个或多个门向量中的给定序数位置处的一个或多个特征值，以及在先前时间序列窗口累加的状态向量中给定序数位置处的特征和进行累加。

该方法包括在每个连续时间序列窗口处顺序输出由累加器累加的状态向量。

该方法包括使用连续状态向量执行序列分类任务。

在第一***实现的这一特定实现部分中所讨论的每个特征同样适用于该方法实现。如上所述，这里不重复所有***特征，应该通过引用重复考虑。

其他实现可以包括存储可由处理器执行以执行上述方法的指令的非暂时性计算机可读存储介质(CRM)。又一实现可以包括一种***，该***包括存储器和一个或多个处理器，处理可操作以执行存储在存储器中的指令，以执行上述方法。

所公开的技术提出了一种准循环神经网络(QRNN)***，其增加了神经网络序列建模中的计算效率。

QRNN***包括在许多处理核上运行的卷积层。卷积层接收输入向量的时间序列，将卷积滤波器组并行地应用于输入向量上的时间序列窗口，并同时输出时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值，并且门向量中的特征值分别是通过序数位置逐元素应用于激活向量中的特征值的参数。

QRNN***包括在多个处理核上运行的池化层。池化层接收时间序列窗口的卷积向量，并且在卷积向量的特征值上并行操作，以在当前时间序列窗口的状态向量中同时累加逐序数位置的特征和的有序集合。

对特征和根据在为当前时间序列窗口输出的激活向量中的给定序数位置处的特征值，在为当前时间序列窗口输出的一个或多个输出的门向量中的给定序数位置处的一个或多个特征值，以及在为先前时间序列窗口累加的状态向量中给定序数位置处的特征和进行累加。

所公开的该***实现和其他***可选地包括以下特征中的一个或多个。***还可以包括结合所公开的方法描述的特征。为了简明起见，***特征的替代组合不是单独列举的。对于每个法定类别的基本特征组，不重复适用于***，方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。

在该特定实现部分中讨论的用于现有方法和***实现的每个特征同样适用于该***实现。如上所述，这里不重复所有方法和***特征，并且应该通过引用重复考虑。

然后，池化层顺序地输出时间序列窗口中的每个连续时间序列窗口的状态向量。

根据卷积滤波器组中的多个卷积滤波器，可以相对于输入向量的维度来增加卷积向量的维度。

输入向量可以表示输入序列的元素。在这样的实现中，池化层可以编码状态向量中的元素的顺序和上下文信息。

门向量可以是遗忘门向量。在这样的实现中，池化层可以使用用于当前时间序列窗口的遗忘门向量来控制来自先前时间序列窗口累加的状态向量的信息以及来自当前时间序列窗口的激活向量的信息的累加。

QRNN***可以包括从最低到最高的顺序布置的多个子QRNN。每个子QRNN可以包括至少一个卷积层和至少一个池化层。

子QRNN可以配置成接收由序列中的先前子QRNN生成的先前输出作为输入，通过卷积层处理先前输出以产生先前输出的替代表示，以及通过池化层处理该替代表示以产生输出。

QRNN***可以包括子QRNN之间以及子QRNN中的层之间的跳跃连接。跳跃连接可以将在先层的输出与当前层的输出相连接，并将连接提供给后一层作为输入。

可以使用序列任务来训练卷积滤波器组中的卷积滤波器。序列任务可以是语言建模，情感分类，文档分类，单词级机器翻译或字符级机器翻译。

通过要求当前时间序列窗口的遗忘门向量中的给定序数位置处的相应特征值一致，可以使QRNN***正规化。这在当前时间序列窗口的状态向量中的给定序数位置处产生特征和的随机子集，其匹配在先前时间序列窗口同时累加的状态向量中的给定序数位置处的各个特征和。

QRNN***包括在许多处理核上运行的卷积层。卷积层接收输入向量的时间序列，将卷积滤波器组并行地应用于输入向量上的时间序列窗口，并同时输出时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值，并且门向量中的特征值分别是按照序数位置逐元素应用于激活向量中的特征值的参数。

QRNN***包括在多个处理核上运行的池化层。池化层接收时间序列窗口的卷积向量，并且将累加器并行地应用于卷积向量的各个特征值，以计算时间序列窗口中每个连续时间步长的状态向量。

在每个时间步长，对于卷积向量的激活向量个一个或多个门向量中的各个序数位置，累加器以来自先前时间步长的状态向量中的给定序数位置处的特征和开始，如果有的话，对于当前时间步长，在遗忘门向量中的给定序数位置处乘以相应的特征值，将当前时间步长的激活向量中的给定序数位置处的相应特征值与当前时间步长的门向量中的给定序数位置的一个或多个相应特征值相加，并输出当前时间步的状态向量，该状态向量组合所有相应的序数位置上累加器的结果。

所公开的技术提出了一种在神经网络序列建模中提高计算效率的方法。

该方法包括接收输入向量的时间序列，将卷积滤波器组并行地应用于于输入向量上的时间序列窗口，以及同时输出时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值，并且门向量中的特征值分别是按序数位置逐元素应用于激活向量中的特征值的参数。

该方法包括并行地在卷积向量的特征值上操作，以在当前时间序列窗口的状态向量中同时累加逐序数位置的特征和的有序集合。特征和根据在为当前时间序列窗口输出的激活向量中的给定序数位置处的特征值，在为当前时间序列窗口输出的一个或多个门向量中的给定序数位置处的一个或多个特征值来，以及在先前时间序列窗口累加的状态向量中给定序数位置处的特征和进行累加。

在该特定实现部分中讨论的用于现有方法和***实现的每个特征同样适用于该方法实现。如上所述，这里不重复所有方法和***特征，并且应该通过引用重复考虑。

其他实现可以包括存储可由处理器执行以执行上述方法的指令的非暂时性计算机可读存储介质(CRM)。又一实现可以包括一种***，该***包括存储器和一个或多个处理器，其可操作以执行存储在存储器中的指令，以执行上述方法。

QRNN***包括卷积层，其接收输入向量的时间序列并同时输出用于时间序列窗口的卷积向量。

QRNN***包括池化层，其接收时间序列窗口的卷积向量并同时在当前时间序列窗口的状态向量中累加特征值的有序集合，以及顺序地输出时间序列窗口中的每个连续时间序列窗口的状态向量。

QRNN编码器-解码器模型

在一个实现中，所公开的技术呈现了准循环神经网络(缩写为QRNN)***。QRNN***在许多并行处理核心上运行。QRNN***提高在将源语言序列翻译成目标语言序列的基于神经网络的序列到序列机器翻译任务的训练和推理阶段期间的计算速度。

QRNN***包括QRNN编码器、QRNN解码器和翻译器。QRNN编码器包括至少一个编码器卷积层、至少一个编码器池化层和至少一个编码器输出门。QRNN解码器包括至少一个解码器卷积层、至少一个解码器池化层、以及至少一个注意力接口或注意力编码器。该注意力接口包括状态比较器、编码混合器、感知器或线性感知器、以及解码器输出门。

编码器卷积层包括编码器卷积滤波器组，用于在源语言向量的多个时间序列中的源语言向量的一组时间序列上的编码器时间序列窗口中的源语言向量的并行卷积。编码器卷积层还包括编码器卷积向量产生器，用于基于并行卷积同时输出每个编码器时间序列窗口的编码器的卷积向量。

编码器池化层包括累加器，用于通过在逐序数位置的基础上同时累加编码器的卷积向量的分量的特征值，在每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中特征和的有序集合的并行累加。

编码器输出门(例如，编码器输出门936)包括编码器隐藏状态产生器(例如，编码器隐藏状态产生器937)，用于将输出门向量应用于编码器的状态向量，从而产生编码器的隐藏状态向量。

解码器卷积层包括解码器卷积滤波器组，用于在解码器输入向量的多个时间序列中的解码器输入向量的一组时间序列上的解码器时间序列窗口中的解码器输入向量的并行卷积。在初始解码器时间序列窗口处，解码器卷积滤波器组仅在单个解码器输入向量上进行卷积，该解码器输入向量是翻译开始令牌。在连续的解码器时间序列窗口处，解码器卷积滤波器组在解码器输入向量上进行卷积，该输入向量包括翻译开始令牌和先前发射的目标语言向量。

解码器卷积层还包括解码器卷积向量产生器，用于基于并行卷积同时输出解码器时间序列窗口中的每一个的解码器的卷积向量。

解码器池化层包括累加器，用于通过在逐序数位置的基础上同时累加解码器的卷积向量的分量的特征值，在每个连续的解码器时间序列窗口顺序产生的解码器的每个状态向量中的特征和的有序集合的并行累加。

注意力接口包括状态比较器(例如，状态比较器940)，用于确定编码器的隐藏状态向量与解码器的状态向量之间的逐对相似性得分。

注意力接口包括编码混合器(例如，编码混合器942)，用于生成编码器的隐藏状态向量的上下文摘要，作为编码器的隐藏状态向量的凸组合，其通过沿着编码器时间序列窗口所生成的指数归一化的相似性得分序列进行缩放。

注意力接口包括感知器或线性感知器(例如，线性感知器944)，用于线性投影上下文摘要和解码器的状态向量。

注意力接口包括连接器(例如，连接器946)，用于结合线性投影的上下文摘要和解码器的状态向量。

注意力接口包括解码器输出门(例如，解码器输出门948)，用于将输出门向量应用于结合的线性投影的上下文摘要和解码器的状态向量，从而产生解码器的隐藏状态向量。

QRNN***包括翻译器(例如，翻译器950)，用于通过基于解码的隐藏状态向量发射目标语言向量来执行序列到序列机器翻译任务。

QRNN***还包括补充器(例如，补充器934)，用于利用编码器隐藏状态产生器为最终编码器时间序列窗口产生的编码器的最终隐藏状态向量来补充每个输入到解码器池化层。

状态比较器可以使用点积或双线性乘积来确定编码器的隐藏状态向量与解码器的状态向量之间的逐对相似性得分。

源语言序列和目标语言序列可以是单词级序列或字符级序列。

在另一实现中，所公开的技术呈现了准循环神经网络(缩写为QRNN)***。QRNN***在许多并行处理核心上运行。QRNN***提高在将源语言序列翻译成目标语言序列的基于神经网络的序列到序列机器翻译任务的训练和推理阶段期间的计算速度。

QRNN***包括QRNN编码器、QRNN解码器和翻译器。

QRNN编码器包括至少一个编码器卷积层，用于通过在多个源语言向量的时间序列中的源语言向量的一组时间序列上并行卷积编码器时间序列窗口中的源语言向量，从而同时输出用于每个编码器时间序列窗口的编码器的卷积向量；至少一个编码器池化层，用于在为每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中并行累加特征和的有序集合，以及编码器隐藏状态产生器，用于将输出门向量应用于编码器的状态向量，从而产生编码器的隐藏状态向量。

QRNN解码器包括至少一个解码器卷积层，用于在解码器输入向量的多个时间序列中的解码器输入向量的时间序列集合上的解码器时间序列窗口的解码器输入向量的并行卷积，从而同时输出用于每个解码器时间序列窗口的解码器的卷积向量和至少一个解码器池化层，用于在为每个连续的解码器时间序列窗口顺序产生的解码器的每个状态向量中并行累加特征和的有序集合。

QRNN***包括用于通过结合编码器的隐藏状态向量的上下文摘要与解码器的状态向量来生成解码器的隐藏状态向量的注意力接口(attender)。

所公开的技术提出了一种在将源语言序列翻译成目标语言序列的基于神经网络的序列到序列机器翻译任务的训练和推理阶段期间提高计算速度的方法。

该方法包括在源语言向量的多个时间序列中的源语言向量的一组时间序列上并行地卷积编码器时间序列窗口中的源语言向量，以同时输出每个编码器时间序列窗口的编码器的卷积向量，并行地累加在为每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中的特征和的有序集合，以及将输出门向量应用于编码器的状态向量以产生编码器的隐藏状态向量。

该方法包括在解码器输入向量的多个时间序列中的一组解码器输入向量的时间序列上并行累加解码器时间序列窗口中的解码输入向量，以同时输出每个解码器时间序列窗口的解码器卷积向量，以及并行地累加在为每个连续解码器时间序列窗口顺序产生的解码器的每个状态向量中的特征和的有序集合。

该方法包括通过结合编码器的隐藏状态向量的上下文摘要与解码器的状态向量来生成解码器的隐藏状态向量。

该方法包括通过基于解码的隐藏状态向量发射目标语言向量来执行序列到序列机器翻译任务。

在该特定实现部分中针对先前方法和***实现所讨论的每个特征同样适用于该方法实现。如上所述，这里不重复所有方法和***特征，并且应该通过引用重复考虑。

其他实现可以包括存储可由处理器执行以执行上述方法的指令的非暂时性计算机可读存储介质(CRM)。又一实现可以包括一种***，该***包括存储器和一个或多个处理器，处理器可操作以执行存储在存储器中的指令，以执行上述方法。

在一个实现中，所公开的技术提出了一种准循环神经网络(缩写为QRNN)***。QRNN***在许多并行处理核上运行。QRNN***提高在基于神经网络的序列到序列分类任务的训练和推理阶段期间的计算速度。

QRNN***包括QRNN编码器、QRNN解码器和分类器。QRNN编码器包括至少一个编码器卷积层、至少一个编码器池化层和至少一个编码器输出门。QRNN解码器，包括至少一个解码器卷积层、至少一个解码器池化层，以及至少一个注意力接口或注意力编码器。该注意力接口包括状态比较器、编码混合器、感知器或线性感知器，以及解码器输出门。

编码器卷积层包括编码器卷积滤波器组，用于在编码器输入向量的多个时间序列中的编码器输入向量的一组时间序列上对编码器时间序列窗口中的编码器输入向量进行并行卷积。编码器卷积层还包括编码器卷积向量产生器，用于基于并行卷积同时输出每个编码器时间序列窗口的编码器的卷积向量。

编码器池化层包括累加器，用于通过在逐序数位置的基础上同时累加编码器的卷积向量的分量的特征值，在每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中并行累加特征和的有序集合。

解码器卷积层包括解码器卷积滤波器组，用于在解码器输入向量的多个时间序列中的解码器输入向量的一组时间序列上的解码器时间序列窗口中的解码器输入向量的并行卷积。在初始解码器时间序列窗口处，解码器卷积滤波器组仅在单个解码器输入向量上进行卷积，该解码器输入向量是翻译开始令牌。在连续的解码器时间序列窗口处，解码器卷积滤波器组在解码器输入向量上进行卷积，该输入向量包括翻译起始令牌和先前发射的目标语言向量。

解码器卷积层还包括解码器卷积向量产生器，用于基于并行卷积同时输出每个解码器时间序列窗口的解码器的卷积向量。

解码器池化层包括累加器，用于通过在逐序数位置的基础上同时累加编码器的卷积向量的分量的特征值，在每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中的累加特征和的有序集合的并行累加。

所述注意力接口包括状态比较器(例如，状态比较器940)，用于确定编码器的隐藏状态向量与解码器的状态向量之间的逐对相似性得分。

所述注意力接口包括编码混合器(例如，编码混合器942)，用于生成所述编码器的隐藏状态向量的上下文摘要，作为所述编码器的隐藏状态向量的凸组合，所述隐藏状态向量通过沿着所述编码器时间序列窗口生成的指数标准化的相似性得分序列进行缩放。

所述注意力接口包括感知器或线性感知器(例如，线性感知器944)，用于线性投影上下文摘要和解码器的状态向量。

所述注意力接口包括用于结合线性投影的上下文摘要和解码器的状态向量的连接器(例如，连接器946)。

所述注意力接口包括解码器输出门(例如，解码器输出门948)，用于将输出门向量应用于所结合的线性投影的上下文摘要和解码器的状态向量，从而产生解码器的隐藏状态向量。

QRNN***包括分类器，用于使用解码的隐藏状态向量执行序列到序列分类任务。

序列到序列分类任务可以是机器翻译、语音识别、文本到语音合成、问题回答和抽象文本摘要。

所公开的技术提出了一种准循环神经网络(QRNN)***，其增加了神经网络序列到序列建模的计算效率。

QRNN***包括QRNN编码器，其还包括一个或更多个编码器卷积层和一个或更多个编码器池化层。

至少一个编码器卷积层接收编码器输入向量的时间序列，并同时输出用于时间序列窗口的经编码的卷积向量。

至少一个编码器池化层接收时间序列窗口的编码卷积向量，同时在当前时间序列窗口的编码状态向量中累加特征和的有序集合，并且顺序输出时间序列窗口中的每个连续时间序列窗口的编码的状态向量。

QRNN***包括QRNN解码器，QRNN解码器还包括一个或更多个解码器卷积层和一个或更多个解码器池化层。

至少一个解码器卷积层接收解码器输入向量的时间序列，并同时输出用于时间序列窗口的经解码的卷积向量。

至少一个解码器池化层接收用于分别与由编码器池化层输出的用于最终时间序列窗口的编码的状态向量连接的时间序列窗口的解码的卷积向量，同时累加用于当前时间序列窗口的解码的状态向量中的特征和的有序集合，并顺序输出用于时间序列窗口中每个连续时间序列窗口的解码的状态向量。

QRNN***包括状态比较器，其计算编码状态向量与解码状态向量之间的语言相似性，以产生具有逐编码轴和逐解码轴的亲和度矩阵。

QRNN***包括指数归一化器，其对逐编码的亲和度矩阵进行归一化以产生相应的编码-解码注意力权重。

QRNN***包括编码混合器，其分别将编码的状态向量与编码-解码注意力权重相结合，以生成编码状态向量的相应上下文摘要。

QRNN***包括关注编码器，其分别将解码的状态向量与编码的状态向量的相应的上下文摘要结合以产生用于每个时间序列窗口的注意编码。

注意编码器可以是多层感知器，其将经解码的状态向量和编码的状态向量的相应的上下文摘要的连接投影到线性投影中，以产生每个时间序列窗口的注意编码。

可以将编码的状态向量分别乘以编码的卷积向量的输出门向量，以产生相应的编码的隐藏状态向量。

状态比较器可以计算编码的隐藏状态向量和解码的状态向量之间的语言相似性，以产生具有编码方向和解码方向轴的亲和度矩阵。

编码混合器可以分别将编码的隐藏状态向量与编码-解码注意力权重相结合，以生成编码的隐藏状态向量的相应的上下文摘要。

注意编码器可以分别将解码的状态向量与编码的隐藏状态向量的相应的上下文摘要结合，并且可以进一步将这些结合与解码的卷积向量的相应输出门向量相乘，以产生每个时间序列窗口的注意编码。

注意编码器可以是多层感知器，其将经解码的状态向量和经编码的隐藏状态向量的相应上下文摘要的连接投影到线性投影中，并且可以进一步将非线性投影与解码的卷积向量的相应的输出门向量相乘，以产生每个时间序列窗口的注意编码。

所公开的技术提出了一种提高神经网络序列到序列建模的效率的方法。

该方法包括在QRNN编码器的编码器卷积层处接收编码器输入向量的时间序列，并同时输出用于时间序列窗口的编码的卷积向量。

该方法包括在QRNN编码器的编码器池化层接收用于时间序列窗口的编码的卷积向量，同时在当前时间序列窗口的编码的状态向量中累加特征和的有序集合，并且顺序地输出时间序列窗口中每个连续时间序列窗口的编码的状态向量。

该方法包括在QRNN解码器的解码器卷积层接收解码器输入向量的时间序列，并同时输出用于时间序列窗口的解码的卷积向量。

该方法包括在QRNN解码器的解码器池化层处接收用于时间序列窗口的解码的卷积向量，其分别与由编码器池化层输出的用于最终时间序列窗口的编码的状态向量连接，同时累加当前时间序列窗口的解码的状态向量中的特征和的有序集合，并且顺序输出时间序列窗口中每个连续时间序列窗口的解码的状态向量。

该方法包括计算编码的状态向量和解码的状态向量之间的语言相似性，以产生具有逐编码轴和逐解码轴的亲和度矩阵。

该方法包括以编码方向地对亲和度矩阵进行指数归一化以产生相应的编码-解码注意力权重。

该方法包括将编码的状态向量与编码-解码注意力权重相结合以生成编码的状态向量的相应上下文摘要。

该方法包括将解码的状态向量与编码的状态向量的相应的上下文摘要结合以产生用于每个时间序列窗口的注意编码。

在该特定实现部分中针对现有方法和***实现所讨论的每个特征同样适用于该方法实现。如上所述，这里不重复所有方法和***特征，并且应该通过引用重复考虑。

计算机***

图15是可用于实现准循环神经网络(QRNN)100的计算机***1500的简化框图。计算机***1500包括通过总线子***1522与多个***设备通信的至少一个中央处理单元(CPU)1524。这些***设备可以包括存储子***1510，其包括例如存储器设备和文件存储子***1518、用户接口输入设备1520、用户接口输出设备1528和网络接口子***1526。输出和输入设备允许用户与计算机***1500交互。网络接口子***1526提供到外部网络的接口，包括到其他计算机***中的相应接口设备的接口。

在一个实现中，QRNN 100可通信地链接到存储子***1510和用户接口输入设备1520。

用户接口输入设备1520可包括键盘；指向设备，如鼠标，轨迹球，触摸板或图形输入板；扫描仪；一个包含在显示器中的触摸屏；音频输入设备，如语音识别***和麦克风；和其他类型的输入设备。通常，术语“输入设备”的使用旨在包括所有可能类型的设备和将信息输入计算机***1500的方式。

用户接口输出设备1528可以包括显示子***、打印机、传真机或诸如音频输出设备的非可视显示器。显示子***可包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板装置、投影装置或用于产生可见图像的一些其他机构。显示子***还可以提供非可视显示，例如音频输出设备。通常，术语“输出设备”的使用旨在包括所有可能类型的设备和将信息从计算机***1500输出到用户或另一个机器或计算机***的方式。

存储子***1510存储编程和数据构造，其提供本文描述的一些或所有模块和方法的功能。这些软件模块通常由深度学习处理器1530执行。

深度学***台托管。深度学习处理器1530的示例包括Google的张量处理单元(TPU)^TM，机架式解决方案，如GX4 Rackmount Series^TM，GX8 Rackmount Series^TM，NVIDIA DGX-1^TM，Microsoft的Stratix V FPGA^TM，Graphcore的智能处理器单元(IPU)^TM，Qualcomm’s ZerothPlatform^TM采用Snapdragon处理器^TM，NVIDIA的Volta^TM，NVIDIA的DRIVE PX^TM，NVIDIA的JETSON TX1/TX2 MODULE^TM，Intel的Nirvana^TM，Movidius VPU^TM，Fujitsu DPI^TM，ARM的DynamicIQ^TM，IBM TrueNorth^TM等。

存储子***1510中使用的存储器子***1512可以包括包含用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1514和其中存储有固定指令的只读存储器(ROM)1516的多个存储器。文件存储子***1518可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器，软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实现的功能的模块可以由文件存储子***1518存储在存储子***1510中，或者存储在处理器可访问的其他机器中。

总线子***1522提供用于使计算机***1500的各种组件和子***按预期彼此通信的机制。虽然总线子***1522示意性地示为单个总线，但总线子***的替代实施方式可以使用多个总线。

计算机***1500本身可以是各种类型，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型机、服务器群、一组广泛分布的离散网络计算机或任何其他数据处理***或用户设备。由于计算机和网络的不断变化的性质，图15中描述的计算机***1500仅用作说明本发明优选实施例的具体例子。计算机***1500的许多其他配置可能具有比图15中描绘的计算机***更多或更少的组件。

提供前述描述以使得能够制造和使用所公开的技术。对所公开的实现的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现，而是与符合本文公开的原理和特征的最宽范围相一致。所公开的技术的范围由所附权利要求限定。

根据ICLR 2017在审核的会议文件

_______________________________________________________________

准循环神经网络

詹姆斯·布拉德伯里*(James Bradbury)斯提芬·麦瑞提*Stephen Merity熊蔡明(Claiming Xiong)理查德·苏尔赫(Richard Socher)

软件营销部队研发中心(Salesforce Research)

帕洛阿尔托，加利福利亚

{james.bradbury,smerit y,cxionq,rsocher}@salesforce.com

摘要

循环神经网络是用于对顺序数据建模的强大工具，但是每个时间步长的计算对先前时间步长的依赖性限制了并行性并使得RNN对于非常长的序列而言不实用。我们介绍了准循环神经网络(QRNN)，这是一种神经序列建模方法，可以交替跨时间步长并行应用的卷积层，和跨通道并行应用的极简循环池化层。尽管缺乏可训练的循环层，但堆叠的QRNN具有比具有相同隐藏尺寸的堆叠LSTM更好的预测精度。由于它们的并行性增加，它们在训练和测试时间上的速度提高高达16倍。语言建模，情感分类和字符级神经机器翻译的实验证明了这些优点，并强调了QRNN作为各种序列任务的基本构建块的可用性。

1介绍

循环神经网络(RNN)，包括门控变体，如长短期记忆(LSTM)(Hochreiter&Schmklhuber，1997)，已成为深度学习序列建模任务方法的标准模型体系构架。RNN重复将具有可训练参数的函数应用于隐藏状态。循环层也可以堆叠，增加网络深度，代表功率和精度。自然语言领域中的RNN应用范围从句子分类(Wang等，201 5)到单词和字符级语言建模(Zaremba等，2014)。RNN通常也是更复杂模型的基本构件，用于例如机器翻译(Bahdanau等，2015；Luong等，2015；Bradbury和Socher，2016)或问答(Kumar等，2016；熊等，2016)的任务。遗憾的是，包括LSTM在内的标准RNN在处理涉及很长序列的任务的能力方面受到限制，例如文档分类或字符级机器翻译，因为文档的不同部分的特征或状态的计算不能并行发生。

卷积神经网络(CNNs)(Krizhevsky等，2012)虽然在涉及图像数据的任务中更受欢迎，但也已应用于序列编码任务(Zhang e等，2015)。此类模型将时间不变滤波函数沿着输入序列并行应用于窗口。与循环模型相比，CNN具有几个优点，包括增加的并行性和更好地扩展到长序列，例如那些通常用字符级语言数据看到的序列。用于序列处理的卷积模型在与在混合架构中(Lee等，2016)的RNN层结合时更成功，因为传统的最大和平均池化方法在时间步长之间组合卷积特征假设时间不变性，并且因此不能充分使用大规模序列订的顺序信息。

我们提出了用于神经序列建模的准循环神经网络。QRNN解决了标准模型的两个缺点：与CNN一样，QRNN允许跨时间步长和小批量维度进行并行计算，从而实现高吞吐量和良好扩展到长序列。与RNN一样，QRNN允许输出取决

根据ICLR 2017在审核的会议文件

_______________________________________________________________

于序列中元素的整体顺序。我们描述了针对几种自然语言任务量身定制的QRNN变体，包括文档级情感分类，语言建模和字符级机器翻译。这些模型在所有三项任务上都优于强大的LSTM基线，同时大大缩短了计算时间。如图16所示，红色表示卷积或矩阵乘法；连续块意味着那些计算可以并行进行。蓝色表示沿通道/特征尺寸并行操作的无参数函数。LSTM可以分解为(红色)线性块和(蓝色)元素块，但是每个时间步长的计算仍然取决于前一个时间步长的结果。

2模型

准循环神经网络的每一层由两种与在CNN中卷积和池化层类似的子组件组成。如在CNN中的卷积层的卷积分量，允许跨微小区和空间维度的完全并行计算，在这种情况下是序列维度。池化组件(如CNN中的池化层)缺少可训练的参数，并允许跨小批量和特征维度进行完全并行计算。

T个n-维向量x₁...x_T的给定输入序列QRNN的卷积子组件在时间步长维度上用一组m滤波器执行卷积，产生m维候选向量zt的/>序列。为了对包含下一个令牌预测的任务有用，滤波器必须不允许任何时间步长的计算访问来自未来的时间步长的信息。也就是说，对于宽度为k的滤波器，每个z_t仅依赖于x_t-k+1到x_t。这个被称为掩蔽卷积的概念(van den Oord等，2016)，是通过将卷积的滤波器大小减去1来填充输入至左边来实现的。我们使用单独的滤波器组应用额外的卷积，以获得用于池化函数所需的逐元素的向量序列。当候选向量通过tanh非线性时，门使用逐元素sigmoid函数。如果池化函数在每个时间步长需要一个遗忘门f_t和一个输出门o_t，那么卷积分量中的计算的完整集合为：

Z＝tanh(W_z*X)

F＝σ(W_f*X)

O＝σ(w*X)， (1)

其中在中的每一个Wz，Wf和Wo为卷积滤波器组以及*表示沿着时间步长维度的掩蔽的卷积。注意如果滤波器宽度为2，这些方程式减小至像LSTM一样

根据ICLR 2017在审核的会议文件

_______________________________________________________________

较大宽度的卷积滤波器在每个时间步长有效计算了较高n-gram特征；从而较大宽度对字符级任务尤其重要。

用于池化子组件的合适函数可以从传统LSTM单元的熟悉的逐元件门构建。我们寻找一个由门控制的函数，它可以跨时间步长混合状态，但是它们独立地作用于状态向量的每个通道。Balduzzi和Ghifary(2016)把“动态平均池化”叫做最简单的选择，只使用了一个遗忘门：

h_t＝f_t⊙h_t-1+(1 … f_t)⊙z_t

其中⊙表示逐元素乘积。所述函数还可以包括输出门：

c_t＝f_t⊙c_t-1+(1-f_t)⊙z_t

h_t＝o_t⊙_t.

或者循环关系可以包括独立输入和遗忘门：

c_t＝f_t⊙c_t-1+i_t⊙z_t

h_i＝o_t⊙c_t.

我们分别将这三个选项称为f-也化，f0-池化和if0-池化；在每种情况下，我们将h或c初始化为零。尽管必须按顺序计算每个时间步长的这些函数的循环部分，但它们沿着特征维度的简单性和并行性意味着，在实践中，即使是长序列对它们进行评估也需要可忽略的计算时间。

因此，单个QRNN层执行输入相关池化，接着是卷积特征的门控线性组合。与卷积神经网络一样，应堆叠两个或更多个QRNN层以创建具有近似更复杂功能的能力的模型。

2.1变体

受到几种常见的自然语言任务以及相关架构的长期工作历史的激励，我们对上述堆叠QRNN进行了几种扩展。值得注意的是，对于循环和卷积模型的许多扩展可以直接应用于QRNN，因为它结合了两种模型类型的元素。

正则化：受到最近LSTM正则化工作的启发，堆叠QRNN的一个重要扩展是强大的正则化方案。

对于LSTM的有效正则化方法的需求，以及当应用于循环连接时退出的相对缺乏效率，导致循环退出方案的发展，包括基于变分推理的退出(Gal&Ghahramani，2016)和偶然退出(Krueger等人，2016)。这些方案利用重复循环网络的结构将退出扩展到循环设置，提供更强大和破坏性更小的正则化。基于变分推理的退出锁定用于跨时间步长的循环连接的退出掩码，因此单个RNN传递使用循环权重的单个随机子集。偶然退出随机选择一个新的通道子

根据ICLR 2017在审核的会议文件

_______________________________________________________________

集，在每个时间步长“区域输出”；对于这些通道，网络将状态从一个时间步骤复制到下一个时间段而不进行修改。

由于QRNN缺乏循环权重，因此变分推理方法不适用。因此，我们通过修改池化函数将zoneout扩展到QRNN架构，如图17所示，以保持随机信道子集的先前池化状态。方便地，这相当于将QRNN的f门通道的子集随机设置为1，或者在1-f上应用退出：

F＝1-σ(dropout(1-W_f*X)) (6)

因此，池化函数本身不需要在所有情况下进行修改。我们注意到，在此上下文中使用现成的退出层时，如果存在，则从实现中删除自动重新安装功能非常重要。在许多实验中，我们还在层之间应用普通的退出，包括在单词嵌入和第一个QRNN层之间。

密集连接的层：我们还可以使用为卷积网络引入的技术来扩展QRNN架构。对于序列分类任务，我们发现在每个QRNN层之间使用跳过连接是有帮助的，这是Huang等人(2016)称之为“密集卷积”的技术。传统的前馈或卷积网络只在后续层之间建立连接，具有L层的“DenseNet”在每对层之间具有前馈或卷积连接，总共为L(L-I)。这可以改善梯度流和收敛特性，尤其是在更深的网络中，尽管它需要的参数计数是层数的二次方。

当将此技术应用于QRNN时，我们在输入嵌入和每个QRNN层之间以及每对QRNN层之间包括连接。这相当于在将状态馈送到下一层之前，沿着通道维度将每个QRNN层的输入连接到其输出。然后将最后一层的输出用作整体编码结果。

根据ICLR 2017在审核的会议文件

_______________________________________________________________

编码器-解码器模型：为了证明QNNN的一般性，通过使用QRNN作为编码器和将修改后的具有增强注意力的QRNN作为解码器，我们将模型体系结构扩展到序列到序列的任务，例如机器翻译。修改解码器的动机是简单地将最后编码器隐藏状态(编码器池化层的输出)馈送到解码器的循环池化层，类似于传统的循环编码器-解码器架构，不允许编码器状态影响门或更新提供给解码器池化层的值。这将基本上限制解码器的表示能力。

相反，每个解码器QRNN层的卷积函数的输出在每个时间步长处以最终编码器隐藏状态被补充。这是通过为具有广播到层l的最后编码器状态(例如，在中的/>)的线性投影副本的层1(例如，/>中的/>)添加卷积的结果来实现的：

其中波浪号表示是编码器变量。在长序列上运行的编码器-解码器模型通过增加软注意力而变得更加强大(Bahdanau等，2015)，这消除了整个输入表示适合固定长度编码向量的需要。在我们的实验中，我们计算了编码器最后一层隐藏状态的注意和。我们使用这些编码器隐藏状态的点积与解码器的最后一层的非门控隐藏状态，沿编码器时间步长应用分类器，将编码器状态加权为每个解码器时间步长的注意和k_t。然后将该上下文和解码器状态馈送到线性层，然后输出门：

其中L为最终层。

虽然该注意过程的第一步是序列长度的二次方，但实际上由于简单且高度并行的点积计分函数，它比模型的线性和卷积层花费的计算时间要少得多。

根据ICLR 2017在审核的会议文件

_______________________________________________________________

表1：IMDb二元情绪分类任务的准确性比较。我们所有的模型每层使用256个单元；第一层以外的所有层(滤波器宽度可能不同)使用滤波器宽度k＝2。训练时间在单个NVIDIAK40 GPU上进行。我们排除了半监督模型，这些模型对数据集的未标记部分进行了额外的训练。

3实验

我们评估了QRNN在三种不同自然语言任务上的表现：文档级情感分类、语言建模和基于角色的神经网络机器翻译。我们的QRNN模型在所有三项任务中均优于基于LSTM的相同隐藏大小的模型，同时显着提高了计算速度。实验在Chainer(Tokui等人)中实施。

3.1情感分类

我们在流行的文档级情感分类基准测试中评估QRNN架构，即IMDb电影评论数据集(Maas等，2011)。该数据集包括25000个正面和25000个负面评论的平衡样本，分为等大小训练和测试集，平均文档长度为231个单词(Wang&Manning，2012)。我们仅比较未使用其他未标记数据的其他结果(因此排除例如Miyato等(2016))。

我们使用四层密集连接的QRNN(每层256个单元)和使用300维外壳GloVe嵌入初始化的单词向量(Pennington等，2014)实现了我们在保持开发集上的最佳性能。在层之间应用0.3的退出，我们使用了4×10^-6的L²正规化。使用具有学习率为0.001，α＝0.9，ε＝10^-8的RMSprop(Tieieman&Hinton，2012)对24个实施例的ininibatehes进行优化。

小批量和长序列长度为证明QRNN相对于传统循环架构的性能优势提供了理想的条件。我们观察到，与NVIDIA的cuDNN库中提供的优化LSTM实施相比，每个时期的IMDb训练时间加速了3.2倍。对于特定的批大小和序列长度，可以实现16倍的速度增益。图4提供了广泛的速度比较。

在图3中，我们在IMDb数据集的示例的一部分上可视化最终QRNN层的隐藏状态向量。即使没有任何后处理，隐藏状态的变化也是可见的，并且可以根据输入进行解释。这是循环池化函数的逐元素性质的结果，其延迟隐藏状态的不同通道之间的直接交互，直到下一个QRNN层的计算。

3.2语言模型

我们复制了Zaremba等人(2014)和Gal&Ghahramani(2016)的语言模拟实验，以对QRNN架构进行自然语言序列预测的基准测试。该实验使用Mikolov等人(2010)的标准预处理版本的Penn Treebank(PTB)。

我们实现了具有中等隐藏大小(2层，每层640个单元)的门控QRNN模型。两个QRNN层都使用两个时间步长的卷积滤波器宽度k。虽然其他工作中使用的“中等”模型(Zaremba等，2014；Gal&Ghahramani，2016)由每层650个单元组成，但使用32的倍数在计算上更方便。因为Perm Treebank是一个

根据ICLR 2017在审核的会议文件

_______________________________________________________________

相对较小的数据集，防止过度填充是相当重要的，也是最近研究的重点。事先并不明显的是，当应用于QRNN时，许多RNN正则化方案中的哪一个将表现良好。我们的测试表明，如第2.1节所述，实施了一个令人鼓舞的结果，这些结果应用于QRNN的循环池化层。

实验设置主要遵循Zaremha等人(2014)的“中等”设置。通过无动量的随机梯度下降(SGD)进行优化。学习率在六个时期设定为1，然后在每个后续时期衰减0.95，总共72个时期。我们另外使用2×10^-4的L2正则化和具有10以上范数的重新缩放梯度。通过在QRNN的遗忘门上执行比率为0.1的退出来应用zoneout，而不重新设置退出函数的输出。批次包含20个示例，每个105个时间步长。

图11：IMDb任务中最终QRNN层的隐藏状态向量的可视化，沿垂直轴的时间步长。颜色表示神经元激活。在最初的正向声明“这部电影简直华丽”之后(在时间步长9处关闭图表)，时间步长1 17触发了大多数隐藏状态的重置，因为短语“不完全是故事”(不久之后“主要弱点就是它的故事”)。只有在时间步长158在，在“我向所有人推荐这部电影，即使你从未玩过游戏”之后，进行隐藏的单元的恢复。

将我们在门控QRNN上的结果与表2中普通和变分退出的LSTM结果的偶然退出进行比较，我们发现QRNN具有很强的竞争力。没有zoneout的QRNN强烈地优于我们的中值LSTM和Zaremba等人(2014)的不使用循环退出的甚至与变异LSTM竞争的中等LSTM。这可能是由于QRNN的池化层相对于LSTM的循环权重的计算能力有限，从而在循环时提供结构正则化。

如果没有zoneout，则需要基于生效损失的早期停止，因为QRNN将开始溢出。通过应用少量的zoneout(p＝0.1)，不需要提前停止，并且QRNN对Gal&Ghahramani(2016)的变体LSTM实现了竞争性的困惑，其具有循环应用的基于变分推理的0.2的退出。性能最佳的变体还使用在1000个不同掩模的测试时间内的蒙特卡罗(MC)失活平均值，使得运行计算成本高昂。

表2：针对Penn Ireebank语言建模任务的验证集和测试集上的单一模型困惑度。越低越好。“中值”指的是每层具有640或650个隐藏单元的两层网络。所有的QRNN模型在嵌入上和层间都包括0.5的失活。MC指的是测试时的蒙特卡洛失活求平均。

根据ICLR 2017在审核的会议文件

_______________________________________________________________

在使用NVIDIA K40 GPU对PTB数据集进行训练时，我们发现QRNN比标准LSTM快得多，即使与优化的cuDNN LSTM进行比较也是如此。在图4中，我们提供了Chainer’s默认LSTM，cuDNN LSTM和QRNN在PTB上训练RNN LM期间在单个批次上执行完全前向和后向传递所花费的时间的细分。对于两种LSTM实现，运行时间由RNN计算主导，即使使用高度优化的cuDNN实现也是如此。然而，对于QRNN实施，“RNN”层不再是瓶颈。实际上，由于分类器和优化花费需要相等或更长的时间，因此QRNN本身的进一步优化会带来收益递减。请注意，在仅10000字的词汇量上，分类器相对较小；对于具有较大词汇量的任务，分类器可能会主导计算时间。

同样重要的是要注意cuDNN库的RNN原语本身不支持任何形式的循环失活。也就是说，以类似euDNN的速度运行使用最新的正则化方案的LSTM，可能需要一个完全自定义的内核。

3.3字符级神经网络机器翻译

图14：左部分：两个640单元PTB LM在105个时间步长的一组20个示例上的训练速度。“RNN”和“分类器”包括前向和后向时间，而“优化花费”包括梯度限幅，L²正则化和SGD计算。

右部分：对于具有给定批量大小和序列长度的数据，仅在相同大小的cuDNN LSTM层上的320单元QRNN层的推理速度优势。训练结果相似。

我们评估2.1中描述的序列到序列QRNN体系结构的挑战性神经网络机器翻译任务，IWSLT德语-英语口语领域翻译，应用全字符级分割。该数据集由转录的TED和TEDx演示文稿中的209772个句子对并行训练数据组成，德语的平均句子长度为103个字符和英语的平均句子长度为93个字符。我们删除英语或德语超过300个字符的训练句子，并使用187个同一的字符编码标准(Unicode)代码点的统一词汇表。

我们在开发集(TED.tst2013)上的最佳性能是使用四层编码器-解码器QRNN实现的，每层320个单元，没有退出或L2正则化，并且梯度重新缩放到最大幅度为5。将输入提供给反向编码器。第一个编码器层使用宽度k＝6的卷积滤波器，而其他编码器层使用k＝2。使用Adam在16个例子的微型机上进行了10个时期的优化(Kingma&Ba，2014)，其中α＝0.001，β₁＝0-9，β₂＝

根据ICLR 2017在审核的会议文件

_______________________________________________________________

0.999，ε＝10^-8。使用波束宽度为8且长度归一化α＝0.6的定向搜索来执行解码。修改后的对数概率排序标准在附录中提供。

使用这种架构的结果与相同尺寸的四层编码器-解码器LSTM进行了比较，应用了0.2的退出。我们再次使用Adam进行了优化；其他超参数等于它们的QRNN值，并应用相同的定向搜索程序。表3显示QRNN优于字符级LSTM，几乎与单词级注意基线的性能相匹配。

表3：IWSLT德语-英语口语翻译任务的翻译性能和每个时期的训练速度(以小时为单位)，由BLEU测量。所有模型仅针对in-领域数据进行训练，并使用负对数似然作为训练标准。我们的模型训练了10个时代。QRNN模型对除第一编码器层之外的所有层使用k＝2。

4相关工作

探索用于序列任务的传统RNN的替代方案是当前研究的主要领域。准循环神经网络与几个最近描述的模型有关，尤其是Balduzzi&Ghifary(2016)引入的强类型循环神经网络(T-RNN)。虽然这项工作中描述的动机和约束是不同的，但Balduzzi和Ghifary(2016)的“学习软件”和“固件”的概念与我们对类似卷积和类似池化的子组件的讨论相似。由于完全连接层用于循环连接违反了“强类型”的约束，所有强类型RNN架构(包括T-RNN，T-GRU和T-LSTM)也是准循环的。但是，一些QRNN模型(包括那些有注意力或跳过连接的模型)不是“强类型”。特别地，T-RNN不同于本文所述的QRNN，其中滤波器大小为1，并且仅在z上没有激活函数时进行f-池化。类似地，T-GRU和T-LSTM分别与具有滤波器大小2和/或fo-或ifo-池化的QRNN不同，因为它们在z上缺少tanh并且在o上使用tanh而不是sigmoid。

QRNN还与混合卷积-循环模型中的工作有关。周等(2015)在单词级别应用CNN以生成由LSTM使用用于文本分类的n-gram特征。Xiao&Cho(2016)还通过在字符级别应用卷积来解决文本分类问题，同时减少序列长度，然后将这些特征提供给双向LSTM。Lee等(2016)采取了类似的方法，用于字符级机器翻译。他们的模型的编码器使用卷积层，然后是最大池以减少序列长度，四层高速网络和双向GRU。卷积，池化和高速层的并行性允许训练速度与没有硬编码文本分段的子字级模型相当。

QRNN编码器-解码器模型共享ByteNet(Kalchbrenner等，2016)所展示的有利的并行性和路径长度属性，这是基于二叉树上的残余卷积的字符级机器翻

根据ICLR 2017在审核的会议文件

_______________________________________________________________

译的体系结构。构建它们的模型以实现三个期望的属性：并行性，线性时间计算复杂度，以及任何一对词之间的短路径，以便更好地传播梯度信号。

5结论

直观地，长序列的语义的许多方面是上下文不变的并且可以并行计算(例如，卷积地)，但是一些方面需要长距离上下文并且必须反复计算。许多现有的神经网络架构要么不能利用上下文信息，要么不能利用并行性。QRNN利用并行性和上下文，展现出卷积和循环神经网络的优势。QRNN比具有相同隐藏大小的基于LSTM的模型具有更好的预测准确性，即使它们使用更少的参数并且运行得更快。我们的实验表明，速度和准确性优势在任务以及单词和字符级别上保持一致。

CNN和RNN的扩展通常直接适用于QRNN，而模型的隐藏状态比其他周期性架构更容易解释，因为它的通道在时间跨度上保持独立性。我们认为QRNN可以作为长序列任务的构建块，而这些任务以前在传统RNN中是不切实际的。

参考文献

Dzmitry Bahdanau,Kyunghyun Cho,和Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译(Neural machine translation by jointly learning to align andtranslate).参见ICLR,2015.

David Baiduzzi和Muhammad Ghifary.强类型循环神经网络(Strongly-typedrecurrent neural networks).参见ICML,2016.

Tames Bradbury和Richard Socher.用于WMT2016.的MetaMind神经机器翻译***(MetaMind neural machine translation system forWMT 2016).参见第一届机器翻译会议论文集(Proceedings of the First Conference on Machine Translation)，德国柏林，计算语言学协会(Association for Computational Linguistics)，2016.

Yarin Gal和Zoubin Ghahramani.循环神经网络中的退出的理论基础应用(Atheoretically grounded application of dropout in recurrentneural networks).参见NIPS,2016.

Sepp Hochreiter和Jiirgen Schmidliuber.长短期存储器(Long short-termmemory).神经计算(Neural Computation),9(8):1735-1780,1997.11.ISSN 0899-7667.

Gao Huang,Zhuang Liu,和Kilian Q Weinberger.密集连接的卷积网络(Denselyconnected convolutional networks).arXiv预印本arXiv(arXiv preprint arXiv):1608.06993,2016.

Rie Johnson和Tong Zhang.使用卷积神经网络有效地使用词序进行文本分类(Effective use of word order for text categorization with convolutionalneural networks).arXiv预印本arXiv(arXiv preprint arXiv):1412.1058,2014.

根据ICLR 2017在审核的会议文件

_______________________________________________________________

Nal Kalchbrenner,Lasse Espeholt,Karen Simonyan,Aaron van den Oord,Alex Graves,和Koray Kavukcuoglu.线性时间的神经机器翻译(Neural machinetranslation in linear time).arXiv预印本arXiv(arXiv preprint arXiv):1610.10099,2016.

Yoon Kitn,Yacine Jernite,David Sontag,和Alexander M.Rush.字符感知神经语言模型(Character-aware neural language models).arXiv预印本arXiv(arXivpreprint arXiv:1508.0661 5,2016.

Diederik Kingma和Jimmy Ba.亚当：随机优化的一种方法(Adam:A method forstochastic optimization).arXiv预印本arXiv(arXiv preprint arXiv):1412.6980,2014.

Alex Krizhevsky,Ilya Sutskever,和Geoffrey E Hinton.使用深度卷积神经网络的数据集分类(ImageNet classification with deep convolutional neuralnetworks).参见NIPS,2012.

David Krueger,Tegan Maharaj,Linos Kramar,Mohammad Pezeshki,NicolasBallas,Nan RosemaryKe,Anirudh Goyal,Yoshua Bengio,Hugo Larochelle,AaronCourville,et al.偶然退出：通过随机保留隐藏激活来规范RNN(Zoneout:RegularizingRNNs by Randomly Preserving Hidden Activations).arXiv预印本arXiv(arXivpreprint arXiv):1606.01305,2016.

Ankit Kumar,Ozan Irsoy,Peter Ondruska,Mohit Iyyer,James Bradbury,Ishaan Gulrajani,Victor Zhong,Romain Paulus,和Richard Socher.问我什么：用于自然语言处理的动态内存网络(Ask me anything:Dynamic memory networks for naturallanguage processing).参见ICML,2016.

Jason Lee,Kyunghyun Cho,和Thomas Hofmann.完全字符级神经机器翻译，无需显式分割(Fully character-level neural machine translation without explicitsegmentation).arXiv预印本arXiv(arXiv preprint arXiv):1610.0301 7,2016.ShayneLongpre,Sabeek Pradhan,Calming Xiong,和Richard Socher.走出奥德赛的方法：分析并结合最新的LSTM见解(A way out of the odyssey:Analyzing and combining recentinsights forLSTMs).提交至ICLR,2016.

M.T,Luong,H.Pham,和C.D.Manning.基于注意力的神经机器翻译的有效方法(Effective approaches to attention-based neural machine translation).参见EMNLP,2015.

Andrew L Maas,Andrew Y Ng,和Christopher Potts.具有学习表示的多维情感分析(Multi-dimensional sentiment analysis with learned representations).技术报告(Technical report),2011.

Stephen Merity,Caiming Xiong,James Bradbury,和Richard Socher.指针哨兵混合模型(Pointer sentinel mixturemodels),arXiv预印本arXiv(arXiv preprintarXiv):1609.07843,2016.

根据ICLR 2017在审核的会议文件

_______________________________________________________________

Gregoire Mesnil,Tomas Mikolov,Marc'Aurelio Ranzato,和Yoshua Bengio.用于电影评论情感分析的生成和判别技巧的集合(Ensemble of generative anddiscriminative techniques for sentiment analysis of movie reviews).arXiv预印本arXiv(arXiv preprint arXiv):1412.5335,2014.

Tomas Mikolov,Martin Karafiat,Lukas Burget,Ian Cernocky,和SanjeevKhudanpur.基于语言模型的准循环神经网络(Recurrent neural network basedlanguage model).参见INTERSPEECH,2010.

Takem Miyato,Andrew M Dai和Ian Goodfeilow.半监督文本分类的虚拟对抗训练(Virtual adversarial training for semi-supervised text classification).arXiv预印本arXiv(arXiv preprint arXiv):1605.07725,2016.

Jeffrey Pennington,Richard Socher和Christopher D Manning.GloVe：单词表示的全局向量(GloVe:Global vectors for word representation).参见EMNLP,2014.

Marc*Aurelio Ranzato,Sumit Chopra,Michael Auli,和Wojciech Zaremba.循环神经网络的序列水平训练(Sequence level training with recurrent neuralnetworks).参见ICLR,2016.

Tijmen Tieleman和Geoffrey Hinton.讲座6.5-更新频率：将梯度除以其最近幅度的运行平均值(Lecture 6.5-rmsprop:Divide the gradient by a running averageof its recent magnitude).COURSERA：机器学习的神经网络(COURSERA:Neural Networksfor Machine Learning),4(2),2012,Seiya Tokui,Kenta Oono和Shohei Hido.Chainer：用于深度学习的下一代开源框架(Chainer:A next-generation open source frameworkfordeep learning).Aaron van den Oord,Nal Kalchbrenner和Koray Kavukcuoglu.像素循环神经网络(Pixel recurrent neural networks).arXiv预印本arXiv(arXiv preprintarXiv):1601.06759,2016.

Sida Wang和Christopher D Manning.基线和双字母：简单，良好的情感和主题分类(Baselines and bigrams:Simple,good sentiment and topic classification).参见ACL,2012.

Xin Wang,Yuanchao Liu,Chengjie Sun,Baoxun Wang和Xiaolong Wang.通过组合具有长短期记忆的单词嵌入来预测推文的极性(Predicting polarities of tweets bycomposing word embeddings with long short-term memory).In ACL,2015,

Sam Wiseman和AlexanderM Rush.作为定向搜索优化的序列到序列学习(Sequence-to-sequence learning as beam-search optimization).arXiv预印本arXiv(arXiv preprint arXiv):1606.02960,2016.

Yonghui Wu,Mike Schuster,Zhifeng Chen,Quoc V Le,Mohammad Norouzi,Wolfgang Macherey,Maxim Krikun,Yuan Cao,Qin Gao,Klaus Macherey,等.谷歌的神经机器翻译***：缩小人机翻译的差距(Google's neural machine

根据ICLR 2017在审核的会议文件

_______________________________________________________________

translation system:Bridging the gap between human and machinetranslation).arXiv预印本arXiv(arXiv preprint arXiv):1609.08144,2016,YijunXiao和Kyunghyun Cho.通过组合卷积和循环层来实现高效的字符级文档分类(Efficientcharacter-level document classification by combining convolution andrecurrent layers).arXiv预印本arXiv(arXiv preprint arXiv):1602.00367,2016.

Calming Xiong,Stephen Merity和Richard Socher,用于视觉和文本问答的动态内存网络(Dynamic memory networks for visual and textual question answering).参见lCML,2016.

Wojciech Zaremba,Ilya Sutskever和Oriol Vinyals.循环神经网络正则化(Recurrent neural network regularization).arXiv预印本arXiv(arXiv preprintarXiv):1409.2329,2014.

Xiana Zhang,Junbo Zhao和Yann LeCun.用于文本分类的字符级卷积网络(Character-level convolulional networks for text classification).参见NIPS,2015,Chunting Zhou,Chonglin Sun,Zhiyuan Liu和Francis Lau.用于文本分类的AC-LSTM神经网络(AC-LSTM neural network for text classification).arXiv预印本arXiv(arXiv preprint arXiv):1511.08630,2015.

附录

定向搜索排名标准

我们在定向搜索中用于翻译实验的修改的对数概率排序标准是：

其中α是长度归一化参数(Wu等，2016)，w_i是第i个输出字符，T_trg是等于源句长度加上5个字符的“目标长度”。这在α＝0时减少到普通定向搜索的概率：

以及在α＝1时使用长度归一化的概率进行波束搜索(直到目标长度)：

方便地，可以在中间定向搜索时间步长处计算该排序标准，从而避免在完全假设上应用单独的重新排名的需要。

Claims

1.一种准循环神经网络QRNN***，运行在众多并行处理核上，其提高将源语言序列翻译成目标语言序列的基于神经网络的序列到序列机器翻译任务的训练和推理阶段期间的计算速度，包括：

QRNN编码器，包括至少一个编码器卷积层、至少一个编码器池化层和至少一个编码器输出门；

所述编码器卷积层包括

编码器卷积滤波器组，用于对在源语言向量的多个时间序列中的源语言向量的一组时间序列上的编码器时间序列窗口中的源语言向量进行并行卷积；以及

编码器卷积向量产生器，用于基于所述并行卷积并发输出每个编码器时间序列窗口的编码器的卷积向量；

所述编码器池化层包括累加器，用于通过在逐序数位置的基础上并发累加所述编码器的所述卷积向量的分量的特征值，在为每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中并行累加特征和的有序集合；以及

所述编码器输出门包括编码器隐藏状态产生器，用于将输出门向量应用于编码器的状态向量，从而产生编码器的隐藏状态向量；

QRNN解码器，包括至少一个解码器卷积层、至少一个解码器池化层和至少一个注意力接口；

所述解码器卷积层包括：

解码器卷积滤波器组，用于对在解码器输入向量的多个时间序列中的解码器输入向量的一组时间序列上的解码器时间序列窗口中的解码器输入向量进行并行卷积，

其中，在初始解码器时间序列窗口处，所述解码器卷积滤波器组仅在作为翻译开始标记的单个解码器输入向量上进行卷积，以及

其中，在连续的解码器时间序列窗口处，所述解码器卷积滤波器组在包括翻译起始标记和先前发出的目标语言向量的解码器输入向量上进行卷积；以及

解码器卷积向量产生器，用于根据并行卷积并发输出每个解码器时间序列窗口的解码器的卷积向量；

所述解码器池化层包括累加器，用于通过在逐序数位置的基础上并发累加解码器的卷积向量的分量的特征值，在为每个连续的解码器时间序列窗口顺序产生的解码器的每个状态向量中并行累加特征和的有序集合；

所述注意力接口包括：

状态比较器，用于确定编码器的隐藏状态向量与解码器的状态向量之间的逐对相似度得分；

编码混合器，用于生成编码器的隐藏状态向量的上下文摘要，

作为通过沿编码器时间序列窗口产生的指数归一化相似度得分序列缩放的编码器的隐藏状态向量的凸组合；

感知器，用于线性投影所述上下文摘要和所述解码器的状态向量；

连接器，用于结合线性投影的上下文摘要和所述解码器的状态向量；以及

解码器输出门，用于将输出门向量应用于结合的线性投影的上下文摘要和所述解码器的状态向量，从而产生所述解码器的隐藏状态向量；以及

翻译器，用于通过基于解码的隐藏状态向量发射目标语言向量来执行序列到序列机器翻译任务。

2.如权利要求1所述的QRNN***，其中每个卷积向量包括激活向量和一个或更多个门向量中的特征值，用于分别在逐元素序数位置的基础上将门向量中的特征值作为参数应用于激活向量中的特征值。

3.如权利要求1-2中任一项所述的QRNN***，其中每个特征和由累加器根据在为当前时间序列窗口输出的激活向量中给定序数位置处的特征值，在为当前时间序列窗口输出的一个或更多个门向量中的给定序数位置处的一个或更多个特征值，以及在先前时间序列窗口累加的状态向量中给定序数位置处的特征和进行累加。

4.如权利要求1-2中任一项所述的QRNN***，进一步包括补充器，用于利用由编码器隐藏状态产生器为最终编码器时间序列窗口产生的编码器的最终隐藏状态向量来向解码器池化层补充每个输入。

5.如权利要求1-2中任一项所述的QRNN***，其中状态比较器使用点积来确定所述编码器的隐藏状态向量和所述解码器的状态向量之间的逐对相似度得分。

6.如权利要求1-2中任一项所述的QRNN***，其中所述源语言序列和所述目标语言序列是单词级序列。

7.如权利要求1-2中任一项所述的QRNN***，其中所述源语言序列和所述目标语言序列是字符级序列。

8.如权利要求1-2中任一项所述的QRNN***，其中门向量是遗忘门向量，以及

其中每个池化层包括用于当前时间序列窗口的遗忘门向量，用于控制来自为先前时间序列窗口累加的状态向量的信息和来自当前时间序列窗口的激活向量的信息的累加。

9.如权利要求1-2中任一项所述的QRNN***，其中门向量是输入门向量，以及

其中每个池化层使用包括用于当前时间序列窗口的输入门向量，以控制来自当前时间序列窗口的激活向量的信息的累加。

10.如权利要求1-2中任一项所述的QRNN***，其中门向量是输出门向量，以及

其中每个池化层使用包括用于当前时间序列窗口的输出门向量，以控制来自当前时间序列窗口的状态向量的信息的累加。

11.如权利要求1-2中任一项所述的QRNN***，进一步包括正则化器，用于通过要求当前时间序列窗口的遗忘门向量中的给定序数位置处的相应特征值一致来对每个所述卷积层和每个所述池化层进行正则化，从而在当前时间序列窗口的状态向量中的给定序数位置处产生特征和的随机子集，所述特征和的随机子集匹配在为先前时间序列窗口并发累加的状态向量中的给定序数位置处的相应特征和。

12.一种准循环神经网络QRNN***，运行在多个并行处理核上，其提高在将源语言序列翻译成目标语言序列的基于神经网络的序列到序列机器翻译任务的训练和推理阶段的期间的计算速度，包括：

QRNN编码器，包括至少一个编码器卷积层，用于对在源语言向量的多个时间序列中的一组源语言向量的时间序列上的编码器时间序列窗口中的源语言向量进行并行卷积，从而并发输出用于每个编码器时间序列窗口的QRNN编码器的卷积向量，至少一个编码器池化层，用于在为每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中并行累加特征和的有序集合，以及编码器隐藏状态产生器，用于将输出门向量应用于编码器的状态向量，从而产生编码器的隐藏状态向量；

QRNN解码器，包括至少一个解码器卷积层，用于对在解码器输入向量的多个时间序列中的解码器输入向量的一组时间序列上的解码器时间序列窗口中的解码器输入向量进行并行卷积，从而并行输出用于每个解码器时间序列窗口的QRNN解码器的卷积向量，和至少一个解码器池化层，用于在为每个连续的解码器时间序列窗口顺序产生的解码器的每个状态向量中并行累加特征和的有序集合；

注意力接口，用于通过结合所述编码器的所述隐藏状态向量的上下文摘要与所述解码器的所述状态向量来生成所述解码器的隐藏状态向量；以及

翻译器，用于通过基于所述解码的隐藏状态向量发射目标语言向量来执行序列到序列机器翻译任务。

13.如权利要求12所述的QRNN***，其中，在初始解码器时间序列窗口处，解码器卷积滤波器组仅在单个解码器输入向量上进行卷积，所述单个解码器输入向量是翻译开始标记。

14.如权利要求12-13中任一项所述的QRNN***，其中所述注意力接口还包括状态比较器，用于确定所述编码器的隐藏状态向量与所述解码器的所述隐藏状态向量之间的逐对相似度得分。

15.如权利要求12-13中任一项所述的QRNN***，其中所述注意力接口还包括编码混合器，用于生成所述编码器的隐藏状态向量的上下文摘要，作为通过沿编码器时间序列窗口产生的指数归一化相似度得分序列来缩放的所述编码器的隐藏状态向量的凸组合。

16.如权利要求12-13中任一项所述的QRNN***，其中所述注意力接口还包括感知器，用于线性地投影所述上下文摘要和所述解码器的所述状态向量。

17.如权利要求16所述的QRNN***，其中所述注意力接口还包括用于结合线性投影的上下文摘要和所述解码器的所述状态向量的连接器。

18.如权利要求17所述的QRNN***，其中所述注意力接口还包括解码器输出门，用于将输出门向量应用于结合的线性投影的上下文摘要和所述解码器的所述状态向量，从而产生所述解码器的所述隐藏状态向量。

19.一种计算机实现的方法，用于提高在将源语言序列翻译成目标语言序列的基于神经网络的序列到序列机器翻译任务的训练和推理阶段期间的计算速度，包括：

使用编码器在源语言向量的多个时间序列中的源语言向量的一组时间序列中编码器时间序列窗口中并行卷积源语言向量，以并发输出用于每个编码器时间序列窗口的编码器的卷积向量，并行地累加为每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中的特征和的有序集合，并将输出门向量应用于编码器的状态向量以产生编码器的隐藏状态向量；

使用解码器在解码器输入向量的多个时间序列中的解码器输入向量的一组时间序列上的解码器时间序列窗口中并行卷积解码器输入向量，以并发输出用于每个解码器时间序列窗口的解码器的卷积向量，以及并行地累加为每个连续的解码器时间序列窗口顺序产生的解码器的每个状态向量中的特征和的有序集合；

通过将编码器的隐藏状态向量的上下文摘要与解码器的状态向量结合，产生解码器的隐藏状态向量；以及

通过基于解码的隐藏状态向量发射目标语言向量来执行序列到序列机器翻译任务。

20.一种准循环神经网络QRNN***，在众多并行处理核上运行，其提高了基于神经网络的序列到序列分类任务的训练和推理阶段的计算速度，包括：

所述编码器卷积层包括：

编码器卷积滤波器组，用于对在编码器输入向量的多个时间序列中的一组编码器输入向量的时间序列上的编码器时间序列窗口中编码器输入向量进行并行卷积；以及

所述解码器卷积层包括：

所述注意力接口包括：

感知器，用于线性投影上下文摘要和解码器的状态向量；

连接器，用于结合线性投影的上下文摘要和解码器的状态向量；以及

解码器输出门，用于将输出门向量应用于结合的线性投影的上下文摘要和解码器的状态向量，从而产生解码器的隐藏状态向量；以及

分类器，用于使用解码的隐藏状态向量执行序列到序列分类任务。

21.根据权利要求20所述的QRNN***，其中所述序列到序列分类任务是机器翻译。

22.如权利要求20所述的QRNN***，其中所述序列到序列分类任务是语音识别。

23.如权利要求20所述的QRNN***，其中所述序列到序列分类任务是文本到语音合成。

24.如权利要求20所述的QRNN***，其中所述序列到序列分类任务是问题回答。

25.如权利要求20所述的QRNN***，其中所述序列到序列分类任务是抽象文本摘要。