WO2021238289A1

WO2021238289A1 - 序列处理的方法与装置

Info

Publication number: WO2021238289A1
Application number: PCT/CN2021/073868
Authority: WO
Inventors: 黄文勇; 杨宇庭; 陈晓
Original assignee: 华为技术有限公司
Priority date: 2020-05-26
Filing date: 2021-01-27
Publication date: 2021-12-02
Also published as: CN111783446A; EP4152203A4; EP4152203A1; CN111783446B; US20230088915A1

Abstract

一种序列处理的方法与装置，涉及人工智能领域，具体涉及序列数据处理领域。该方法包括：接收输入序列（S410）；对输入序列中的第一元素，使用M个窗口内包含的元素进行自注意力计算，获得第一元素的表示，每个窗口内包含输入序列中的一个元素或连续的多个元素，且不同窗口之间至少间隔一个元素，M个窗口中至少一个窗口内不包含第一元素，M为大于或等于1的整数（S420）；基于第一元素的表示，获得输入序列对应的输出序列（S430）。对于序列中元素，通过使用一个或多个窗口内的元素而非序列中所有元素进行自注意力计算，可以减小自注意力的计算量；其中至少一个窗口可以跳过第一元素，且该窗口的位置不固定，可以减小对自注意力的依赖范围的限制。

Description

序列处理的方法与装置

本申请要求于2020年05月26日提交中国国家知识产权局、申请号为202010454695.6、申请名称为“序列处理的方法与装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，具体涉及一种序列处理的方法与装置。

背景技术

语音处理和自然语言处理(natural language processing，NLP)的很多问题，都可以看成序列处理问题。序列由若干存在先后顺序的元素组成。例如，语音数据可以表示成采样点为元素的序列。又例如，文本数据可以表示成以词为元素的序列。序列中的某个元素，其代表的意义往往与序列中其他元素存在关系。如何建模序列中元素之间的关系，是序列处理问题的关键。当前，建模序列中元素之间的关系的方法有循环神经网络(recurrent neural network，RNN)、卷积神经网络(convolutional neural networks，CNN)与自注意力(self-attention)。其中，自注意力是一种通过建立序列中某个元素与序列中其它元素的关系来得到这个元素的表示的方法。

传统的自注意力的方法是，针对一个元素，建立这个元素与序列中所有元素的关系，这导致自注意力的计算量很大。为了减小自注意力的计算量，当前技术提出的解决方案为，针对一个元素，固定使用该元素附近的几个元素进行自注意力计算，但是，该方案会产生自注意力的依赖范围受到限制的问题。

如何平衡自注意力的计算量与依赖范围，是需要解决的问题。

发明内容

本申请提供一种序列处理的方法与装置，可以较好地平衡自注意力的计算量与依赖范围。

第一方面，提供了一种序列处理的方法，所述方法包括：接收输入序列，所述输入序列包括多个具有先后顺序的元素；对所述输入序列中的第一元素，使用M个窗口内包含的元素进行自注意力计算，获得所述第一元素的表示，其中，所述M个窗口中每个窗口内包含所述输入序列中的一个元素或连续的多个元素，且不同窗口之间至少间隔一个元素，所述M个窗口中至少一个窗口内不包含所述第一元素，M为大于或等于1的整数；基于所述第一元素的表示，获得所述输入序列对应的输出序列。

M等于1时，表示，可以使用一个窗口(记为第一窗口)内的元素对第一元素进行自注意力计算，第一窗口包含所述输入序列中除所述第一元素之外的一个元素或多个连续的元素，换句话说，第一窗口跳过第一元素，包含输入序列中其他的一个元素或多个连续的元素。可选地，第一窗口内也不包括第一元素的相邻元素。

第一窗口的位置是可以灵活配置的，而不是固定的。只要跳过第一元素(或者，还有其相邻元素)，第一窗口可以位于输入序列上的任何位置。

第一窗口的大小，即第一窗口内包含的元素的数量也是可以配置的，不是固定的。

在本申请中，对于序列中的第一元素，可以使用第一窗口内的元素而非序列中的所有元素进行自注意力计算，这可以减小自注意力的计算量。

现有技术在获取序列中某个元素的表示时，固定选取该元素附近的几个元素进行自注意力计算，这导致自注意力的依赖范围受到限制。在本申请中，基于第一窗口内的元素对序列中的第一元素进行自注意力计算，因为该第一窗口可以跳过第一元素及其相邻元素，且该第一窗口的位置可以不固定，因此，相对于现有技术可以减小对自注意力的依赖范围的限制。

因此，本申请实施例可以较好地平衡自注意力的计算量与依赖范围。

结合第一方面，在第一方面的一种可能的实现方式中，所述方法还包括：根据所述第一元素在所述输入序列中的位置，确定所述M个窗口，所述M个窗口中包括第一窗口，所述第一窗口包含所述输入序列中与所述第一元素的依赖长度大于或等于a，且小于b的元素，其中，a为大于1的整数，b为大于a的整数，所述依赖长度表示所述第一元素与所述M个窗口内的元素之间的距离。

实际应用中，可以根据应用需求灵活配置a与b的取值，以合理确定第一窗口的位置，从而选择合理的自注意力依赖范围。

自注意力的依赖范围表示，针对一个元素，与它建立关系(即进行自注意力计算)的其他元素与该元素之间的依赖长度的范围。该依赖长度表示该元素与其他元素之间的距离。

可选地，在本实现方式中，所述方法应用于多个自注意力层，所述输入序列是当前自注意力层的前一级自注意力层输出的序列；其中，b与a的取值被设置为，使得当前自注意力层对所述第一元素的自注意力计算与所述前一级自注意力层对所述第一元素的自注意力计算没有重复计算。

假设所述前一级自注意力层基于第五窗口内包含的元素对所述第一元素进行自注意力计算，所述第五窗口包含所述序列中与所述第一元素的依赖长度大于或等于a1，且小于b1的元素，b1为正整数，a1为小于b1的非负整数；其中，a的取值大于b1的取值。

在本申请中，通过根据序列中第一元素的位置确定用于对第一元素进行自注意力计算的窗口的位置，使得可以灵活地选择第一元素的自注意力依赖范围，因此可以进一步地减小对自注意力的依赖范围的限制。

结合第一方面，在第一方面的一种可能的实现方式中，第一窗口的位置可以预设。

结合第一方面，在第一方面的一种可能的实现方式中，M大于1，且M的取值是预设的。

M大于1，表示，可以使用多个窗口内的元素对第一元素进行自注意力计算。

M的取值是预设的，表示，M的取值与输入序列的长度无关。也就是说，M的取值可以不随输入序列长度的增大而增大。

在本申请中，通过使用大于1个的窗口对序列中的元素进行自注意力计算，这可以保证自注意力的依赖范围。可以理解到，针对一个元素，进行自注意力计算的窗口越多，该元素的自注意力依赖范围越大。本申请实施例可以通过合理设置窗口的数量，来保证自注意力的依赖范围。

此外，对一个元素进行自注意力计算的窗口的个数M与输入序列的长度无关，因此，可以避免现有技术中存在的计算开销随输入序列的长度呈平方增长的问题，因此，相对于现有技术可以减小自注意力的计算量。此外，M个窗口中不同窗口之间间隔一个或多个元素，这也可以减小自注意的计算量。

结合第一方面，在第一方面的一种可能的实现方式中，所述M个窗口中包括第二窗口，和/或第三窗口。

第二窗口，所述第二窗口包含所述输入序列中位于所述第一元素前面的与所述第一元素的依赖长度大于或等于al，且小于bl的元素，bl为正整数，al为小于bl的非负整数。

第三窗口，所述第三窗口包含所述输入序列中位于所述第一元素后面的与所述第一元素的依赖长度大于或等于ar，且小于br的元素，br为正整数，ar为小于br的非负整数。

在所述M个窗口中包括第二窗口和第三窗口的情况下，al与ar可以相等或不相等，bl与br可以相等或不相等。

结合第一方面，在第一方面的一种可能的实现方式中，所述M个窗口中包括第四窗口，所述第四窗口包含所述第一元素及其相邻元素。

结合第一方面，在第一方面的一种可能的实现方式中，所述输入序列为语音序列或文本序列。

第二方面，提供一种序列处理的装置，所述装置包括接收单元、处理单元与输出单元。

所述接收单元，用于接收输入序列，所述输入序列包括多个具有先后顺序的元素。所述处理单元，用于对所述输入序列中的第一元素，使用M个窗口内包含的元素进行自注意力计算，获得所述第一元素的表示，其中，所述M个窗口中每个窗口内包含所述输入序列中的一个元素或连续的多个元素，且不同窗口之间至少间隔一个元素，所述M个窗口中至少一个窗口内不包含所述第一元素，M为大于或等于1的整数。所述输出单元，用于基于所述第一元素的表示，获得所述输入序列对应的输出序列。

结合第二方面，在第二方面的一种可能的实现方式中，所述处理单元还用于，根据所述第一元素在所述输入序列中的位置，确定所述M个窗口，所述M个窗口中包括第一窗口，所述第一窗口包含所述输入序列中与所述第一元素的依赖长度大于或等于a，且小于b的元素，其中，a为大于1的整数，b为大于a的整数，所述依赖长度表示所述第一元素与所述M个窗口内的元素之间的距离。

结合第二方面，在第二方面的一种可能的实现方式中，所述装置应用于多个自注意力层，所述输入序列是当前自注意力层的前一级自注意力层输出的序列；其中，b与a的取值被设置为，使得当前自注意力层对所述第一元素的自注意力计算与所述前一级自注意力层对所述第一元素的自注意力计算没有重复计算。

结合第二方面，在第二方面的一种可能的实现方式中，所述前一级自注意力层基于第五窗口内包含的元素对所述第一元素进行自注意力计算，所述第五窗口包含所述序列中与所述第一元素的依赖长度大于或等于a1，且小于b1的元素，b1为正整数，a1为小于b1的非负整数；其中，a的取值大于b1的取值。

结合第二方面，在第二方面的一种可能的实现方式中，M大于1，且M的取值是预设的。

结合第二方面，在第二方面的一种可能的实现方式中，所述M个窗口中包括第二窗口，和/或第三窗口。第二窗口与第三窗口的描述详见前文，这里不再赘述。

结合第二方面，在第二方面的一种可能的实现方式中，所述M个窗口中包括第四窗口，所述第四窗口包含所述第一元素及其相邻元素。

结合第二方面，在第二方面的一种可能的实现方式中，所述输入序列为语音序列或文本序列。

第三方面，提供一种神经网络处理装置，包括输入模块、处理模块、输出模块以及如权利要求9-16中任一项所述的序列处理的装置。所述输入模块用于，将输入序列输入所述序列处理的装置；所述序列处理的装置用于，对所述输入序列进行自注意力计算，获得所述输入序列对应的输出序列；所述处理模块用于，对所述输出序列进行处理，获得序列处理结果；所述输出模块，用于基于所述处理模块获得的序列处理结果输出输出信号。其中，在所述输入序列为语音序列的情况下，所述处理模块用于对所述输出序列进行语音识别处理，获得语音识别结果；或在所述输入序列为文本序列的情况下，所述处理模块用于对所述输出序列进行语义理解处理，获得语义理解结果。

第四方面，提供一种数据处理的装置，该装置包括：存储器，用于存储程序；处理器，用于执行存储器存储的程序，当存储器存储的程序被执行时，处理器用于执行上述第一方面中的方法。

第五方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行上述第一方面中的方法。

第六方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面中的方法。

第七方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行上述第一方面中的方法。

基于上述描述，在本申请提供的方案中，可以基于第一窗口内的元素对序列中的第一元素进行自注意力计算，因为该第一窗口可以跳过第一元素及其相邻元素，且该第一窗口的位置可以不固定，因此，相对于现有技术可以减小对自注意力的依赖范围的限制。

此外，本申请在获得序列中的一个元素的表示时，可以使用多个窗口内的元素进行自注意力计算，该多个窗口的个数与序列的长度无关，且不同窗口之间具有间隔，可以在减小自注意力的计算量的同时，尽量兼顾自注意力的依赖范围，从而可以实现自注意力的计算量与依赖范围的平衡。

附图说明

图1为自注意力机制的示意图。

图2为包含自注意力层的神经网络的架构示意图。

图3为局部自注意力机制的示意图。

图4为本申请实施例提供的序列处理的方法的示意性流程图。

图5为本申请实施例中用于对序列中第一元素进行自注意力计算的窗口的示意图。

图6为本申请实施例提供的序列处理的方法的另一示意性流程图。

图7为本申请实施例应用于多个自注意力层场景中时对序列中第一元素进行自注意力计算的窗口的示意图。

图8至图12为本申请实施例中用于对序列中第一元素进行自注意力计算的M个窗口的示意图。

图13为本申请实施例应用于多个自注意力层场景中时对序列中元素进行自注意力计算的示意图。

图14为在多个自注意力层场景中采用局部自注意力机制的示意图。

图15为本申请实施例提供的序列处理的装置的示意性框图。

图16为本申请实施例提供的序列处理的装置的另一示意性框图。

图17为本申请实施例提供的神经网络处理装置的示意性框图。

图18为本申请实施例提供的语音识别***的示意性框图。

图19本申请实施例提供的一种芯片硬件结构示意图。

具体实施方式

语音处理和自然语言处理(natural language processing，NLP)的很多问题，都可以看成序列数据(sequence data)的处理问题，可以简称为序列处理问题。

例如，在自然语音处理的***中，输入的一句话可以表示成一个词序列。如图1所示，“他在26岁创立著名的狭义相对论”这句话被表示成一个词序列。词序列也可称为文本序列。又例如，在语音识别***中，一段连续的语音被分割成时间相等的帧，即可表示成一个帧序列。帧序列也可称为语音序列。

序列由若干元素组成，且元素之间存在先后顺序。例如，语音数据可以表示成以采样点为元素的序列。又例如，文本数据可以表示成以词为元素的序列。例如，在图1的例子中，“他”、“在”、“26”、“岁”、“创立”、“著名”、“的”、“狭义”与“相对论”分别是文本序列“他在26岁创立著名的狭义相对论”中的元素。

序列中的某个元素，其代表的意义往往与序列中其他元素存在关系。例如，在图1的例子中，元素“他”与元素“创立”在语法上是主谓关系。如何建模序列中元素之间的关系，是序列处理问题的关键。

当前技术中，建模序列中元素之间的关系的方法有循环神经网络(recurrent neural network，RNN)、卷积神经网络(convolutional neural networks，CNN)与自注意力(self-attention)。其中，自注意力是一种通过建立序列中某个元素与序列中其它元素的关系来获得这个元素的表示的方法。或者说，自注意力是一种用来建模序列中元素间的关系进而得到更好的元素表示的方法。针对一个元素，相对于该元素在进行自注意力计算之前的表示，通过自注意力计算之后得到表示可以称为该元素的新的表示。

自注意力可以作为神经网络中的一个层。包括自注意力层的神经网络也可以称为输入序列处理器。图2示出输入序列处理器的示意性框图。输入序列处理器为包括自注意力层的神经网络，该神经网络中还可以包括其他神经网络层。

例如，待处理的序列被输入序列处理器，自注意力层对该序列进行自注意力操作，获得该序列中各个元素的新的表示，从而获得新的序列，该新的序列被输入其他神经网络层进行处理，最终获得序列处理结果，即序列处理器输出序列处理结果。例如，待处理的序列为文本序列，序列处理器输出的序列处理结果可以是语义理解结果或机器翻译结果等文本处理结果。再例如，待处理的序列为语音序列，序列处理器输出的序列处理结果可以是语音识别结果等语音处理结果。

需要说明的是，图2仅为示例而非限定。例如，待处理的序列可以经过特征提取模块的处理后再被输入序列处理器。又例如，序列处理器中可以包括一个或多个自注意力层，在包括多个自注意力层的场景中，在两个自注意力层之间可以包含其他神经网络层。包括自注意力层的神经网络的架构设计为现有技术，本文不作详述。

在传统的自注意力方法中，针对一个元素，建立这个元素与序列中所有元素的关系，也就是说，针对一个元素，使用序列中所有元素来进行自注意力计算。

如图1所示，对于文本序列“他在26岁创立著名的狭义相对论”，在计算序列中的元素“创立”的表示时，会选择序列中所有元素进行自注意力计算。例如，计算元素“创立”与序列中其他所有元素的分数，这个分数代表“创立”跟其他元素是否存在某种关系，分数越高代表存在这种关系的可能性越高。

传统自注意力在数学上的描述如下。

假设一个序列表示为H＝{h ₁,h ₂,...h _i,...,h _L}，h _i表示序列H中的元素。例如，每个元素h _i使用宽度为d的向量表示。使用自注意力建模元素h _i与序列中的其他元素的关系，并得到这个元素h _i的新的表示h′ _i的过程可表示如下。

h′ _i＝Attend(h _i,S)

其中S＝H，Attend()表示自注意力的计算方式。

自注意力的计算方式包括多种方式。例如，一种自注意力的计算方式如下所示。

其中，Q()、K()与V()分别通常为一个线性映射。d表示用于表示元素的向量的宽度，即序列中每个元素分别使用宽度为d的向量表示。Softmax()表示归一化指数函数。自注意力的计算方式为现有技术，本文不作详述。

应理解，采用上述公式所示的方式对一个序列进行自注意力计算，其中，单个元素的自注意力的计算量为O(Ld)，整个序列的计算量为O(L ²d)。可知，采用上述公式所示的方式对一个序列进行自注意力计算，计算开销会随着输入的序列的长度呈平方增长，则在处理长序列时，往往存在计算量过大的问题。

为了减小自注意力的计算量，当前技术中提出局部自注意力(也称为截断自注意力)的方案。在局部自注意力的方案中，在计算序列中的某个元素的表示时，仅选取该元素附近的几个元素而非序列中所有元素进行自注意力计算。如图3所示，文本序列为“他在26岁创立著名的狭义相对论”，在计算元素“创立”的表示时，仅选取元素“创立”附近的元素“26”、“岁”、“创立”、“著名”、“的”进行自注意力计算。

但是，局部自注意力的方案会产生自注意力的依赖范围受到限制的问题。

自注意力的依赖范围表示，针对一个元素，与它建立关系(即进行自注意力计算)的其他元素与该元素之间的依赖长度的范围。该依赖长度表示该元素与其他元素之间的距离。例如，在图3的例子中，针对元素“创立”，假设将其与自身即“创立”之间的依赖长度记为0，则元素“创立”与元素“岁”之间的依赖长度为1(同理，与元素“著名”之间的依赖长度也为1)，元素“创立”与元素“26”之间的依赖长度为2(同理，与元素“的”之间的依赖长度也为2)。即，在图3的例子中，对元素“创立”进行自注意力计算时的依赖范围是0～2。

上述可知，现有技术无法平衡自注意力的依赖范围与计算量。

针对上述问题，本申请提出一种序列处理的方法与装置，可以较好地实现自注意力的计算量与依赖范围的平衡。

图4为本申请实施例提供的序列处理的方法400的示意性流程图。方法400包括步骤S410、步骤S430与步骤S430。

S410，接收输入序列，输入序列包括多个具有先后顺序的元素。

该输入序列表示待进行自注意力处理的序列。

作为一个示例，采用图2中所示的自注意力层执行本方法400，该输入序列可以为该自注意力层的前一个神经网络层输出的序列。

例如，该输入序列可以是语音序列。例如，在语音识别***中，一段连续的语音被分割成时间相等的帧，所形成的帧序列可以称为语音序列。例如，语音序列为元素为采样点的序列。

又例如，该输入序列可以是文本序列。例如，在自然语音处理的***中，输入的一句话可以表示成一个词序列。如图1所示，“他在26岁创立著名的狭义相对论”这句话被表示成一个词序列。词序列也可称为文本序列。文本序列为元素为词的序列。

S420，对输入序列中的第一元素，使用M个窗口内包含的元素进行自注意力计算，获得第一元素的表示，其中，M个窗口中每个窗口内包含输入序列中的一个元素或连续的多个元素，且不同窗口之间至少间隔一个元素，M个窗口中至少一个窗口内不包含第一元素，M为大于或等于1的整数。

第一元素表示输入序列中任一个元素。如前文描述，对一个序列的自注意力处理包括对该序列中每个元素的自注意力计算。在本申请实施例中，自然也是要对输入序列中每个元素进行自注意力计算，从而获得对应元素的表示。考虑到序列中每个元素的自注意力计算方式是类似的，也为了便于理解与描述，本申请实施例中以第一元素为例进行描述。第一元素表示输入序列中的任一个元素。换句话说，对于输入序列中任一个元素，均采用步骤S420的方式对该元素进行自注意力计算，以获得该元素的表示。

M等于1时，表示，可以使用一个窗口(记为第一窗口)内的元素对第一元素进行自注意力计算，第一窗口包含所述输入序列中除所述第一元素之外的一个元素或多个连续的元素，换句话说，第一窗口跳过第一元素，包含输入序列中其他的一个元素或多个连续的元素。

可选地，第一窗口内也不包括第一元素的相邻元素。

第一元素的相邻元素包括与第一元素相邻的元素。

例如，在图5的示例中，第一元素为元素7，第一元素的相邻元素包括前面相邻的元素6与右边相邻的元素8。

M大于1时，表示，可以使用多个窗口内的元素对第一元素进行自注意力计算。下文将描述M大于1时的情形。

下面先以在步骤S420中使用第一窗口内的元素对第一元素进行自注意力计算为例进行描述。

例如，第一窗口位于第一元素的前面。又例如，第一窗口位于第一元素的后面。

在第一元素为输入序列中的首个元素的情况下，第一窗口位于第一元素的后面；在第一元素为输入序列中的最后一个元素的情况下，第一窗口位于第一元素的前面；在第一元素为输入序列中的中间元素的情况下，第一窗口可以位于第一元素的前面或后面。

实际应用中，可以根据应用需求合理确定第一窗口的位置。

例如，第一窗口包含1个、2个、3个或更多数量的元素。

应用中，可以根据应用需求合理配置第一窗口的大小。

作为一个示例，如图5所示，输入序列由元素1至元素15组成，第一元素为元素7，第一窗口可以为图5中所示的窗口1、窗口2与窗口3中的任一个窗口。

例如，可以使用如下公式对第一元素h _i进行自注意力计算，获得第一元素的新的表示h′ _i：

h′ _i＝Attend(h _i,S)

其中，S表示用于对第一元素进行自注意力计算的元素的集合，S中包括第一窗口内的元素。Attend()表示自注意力的计算方式。自注意力的计算方式为现有技术，本文不作详述。

S430，基于第一元素的表示，获得输入序列对应的输出序列。

应理解，在步骤S430中，基于输入序列中每个元素的表示，获得该输出序列。其中，对于输入序列中每个元素，均通过步骤S420的方式获取对应元素的表示。

作为一个示例，采用图2中所示的自注意力层执行本方法400，步骤S430获得的输出序列可以被传递到该自注意力层的下一个神经网络层进行后续处理。

在本申请实施例中，对于序列中的第一元素，基于第一窗口内的元素而非序列中的所有元素进行自注意力计算，这可以减小自注意力的计算量。

此外，如前文描述，在如图3所示的现有技术中，在获取序列中某个元素的表示时，固定选取该元素附近的几个元素进行自注意力计算，这导致自注意力的依赖范围受到限制。

在本申请实施例中，基于第一窗口内的元素对序列中的第一元素进行自注意力计算，因为该第一窗口可以跳过第一元素及其相邻元素，且该第一窗口的位置可以不固定，因此，相对于现有技术可以减小对自注意力的依赖范围的限制。

本申请实施例提供的自注意力机制中，用来进行自注意力计算的窗口不是固定的，可以动态变化，因此，本申请实施例提供的自注意力机制可以称为跳跃自注意力。

第一窗口在输入序列上的位置可以通过多种方式确定。

第一种方式，第一窗口的位置是根据第一元素的位置确定的。

例如，设置第一窗口包含输入序列中与第一元素的依赖长度大于或等于a，且小于b的元素，该依赖长度表示第一元素与第一窗口内的元素之间的距离，其中，a为大于1的整数，b为大于a的整数。应理解，b的取值小于输入序列的长度。

可选地，如图6所示，在图4所示实施例中，方法400还可以包括步骤S440。

S440，根据第一元素在输入序列中的位置，确定第一窗口，第一窗口包含输入序列中与第一元素的依赖长度大于或等于a，且小于b的元素，其中，a为大于1的整数，b为大于a的整数。在步骤S420中，使用第一窗口内的元素对第一元素进行自注意力计算，获得第一元素的表示。

以仅使用第一窗口内的元素获取第一元素的新的表示为例，可以使用如下公式对第一元素h _i进行自注意力计算，获得第一元素的新的表示h′ _i：

h′ _i＝Attend(h _i,S)

其中，S＝{h _i|i-b≤j≤i-a}，Attend()表示自注意力的计算方式。

应理解，通过设置a与b的取值，可以灵活选择第一元素的依赖范围。

继续参见图5，若设置第一窗口包含输入序列中与第一元素(即图5中的元素7)的依赖长度大于1且小于4的元素，则第一窗口可以为窗口1。若设置第一窗口包含输入序列中与第一元素的依赖长度大于1且小于5的元素，则第一窗口还是窗口1。若设置第一窗口包含输入序列中与第一元素的依赖长度大于2且小于6(或7，或8)的元素，则第一窗口为窗口2。若设置第一窗口包含输入序列中与第一元素的依赖长度大于6且小于9的元素，则第一窗口为窗口3。

上述参见图5的描述仅为示例而非限定，实际应用中，可以根据应用需求灵活配置a与b的取值，以合理确定第一窗口的位置，从而选择合理的自注意力依赖范围。

在本申请实施例中，通过根据序列中第一元素的位置确定用于对第一元素进行自注意力计算的窗口的位置，使得可以灵活地选择第一元素的自注意力依赖范围，因此可以进一步地减小对自注意力的依赖范围的限制。

第二种方式，第一窗口的位置是预设的。例如，第一窗口的位置与第一元素的位置无关。例如，继续参见图5，可以设置对元素7与元素8进行自注意力计算时，均使用窗口2。

继续参见图2，在包括自注意力层的神经网络中，通常包括多个自注意力层，如图2所示的“×N”，表示神经网络中可以包括N个图2中虚线所示的层组合，即包括多个自注意力层。

本申请实施例提供的序列处理的方法，不仅可以应用于单个自注意力层上，还可应用于多个自主注意力层上。其中，通过合理设置相邻两层上的窗口的位置，可以进一步减小自注意力的计算量。下文将描述。

可选地，在图4所示实施例中，方法400应用于多个自注意力层，输入序列是当前自注意力层的前一级自注意力层输出的序列，第一窗口的位置是根据第一元素的位置确定的，第一窗口包含输入序列中与第一元素的依赖长度大于或等于a，且小于b的元素，其中，b与a的取值被设置为，使得当前自注意力层对第一元素的自注意力计算与前一级自注意力层对第一元素的自注意力计算没有重复计算。

为了便于理解与描述，将当前自注意力层记为自注意力层X，将自注意力层X的前一级自注意力层记为自注意力层(X-1)。假设自注意力层(X-1)在对第一元素进行自注意力计算时，已建立了第一元素与元素1之间的关系，则在方法400中，设置b与a的取值，可以跳过元素1，使用其他元素对第一元素进行自注意力计算。

例如，自注意力层(X-1)基于第五窗口内包含的元素对第一元素进行自注意力计算，第五窗口包含序列中与第一元素的依赖长度大于或等于a1，且小于b1的元素，b1为正整数，a1为小于b1的非负整数，则在方法400中，a的取值大于b1的取值。

作为一个示例，如图7所示，输入序列由元素1至元素15组成，第一元素为元素7。自注意力层(X-1)为自注意力层X的前一级自注意力层，自注意力层X的输入序列是基于自注意力层(X-1)的输出序列得到的。自注意力层(X-1)使用窗口1内的元素对第一元素进行自注意力计算，则自注意力层X在对第一元素进行自注意力计算时可以跳过元素6、7、8，例如，可以使用窗口2、窗口3或窗口4内的元素进行计算，这样可以避免重复计算。

需要说明的是，图7仅为示例而非限定。在实际应用中，可以根据具体需求，协调设置上下相邻两个自注意力层上的窗口，以减小自注意力的计算量。

在图7的示例中，在自注意力层(X-1)与自注意力层X之间没有其他神经网络层的情况下，自注意力层X的输入序列直接就是自注意力层(X-1)的输出序列。例如，在自注意力层(X-1)与自注意力层X之间具有其他神经网络层的情况下，自注意力层X的输入序列是自注意力层(X-1)的输出序列经过其他神经网络层处理后输出的序列。

作为另一个示例，在具有三个自注意力层的场景中，假设在每个自注意力层上，针对序列中的第一元素，使用包含序列中与第一元素的依赖长度大于a且小于b的元素的窗口内的元素进行自注意力计算。假设自注意力层1是自注意力层2的前一级，自注意力层2是自注意力层3的前一级。3个自注意力层上a与b的定义如表1所示。

表1

自注意力层	a	b
1	0	5
2	5	12
3	12	18

在本申请实施例中，通过根据序列中第一元素的位置确定用于对第一元素进行自注意力计算的第一窗口的位置，可以使得多个注意力层之间避免重复计算，从而进一步减小自注意力的计算量。

如前文描述，在本申请实施例中，可以使用一个或多个窗口内的元素对第一元素进行自注意力计算。

可选地，在图4所示实施例中，步骤S420包括：使用一个窗口(即第一窗口)内的元素对第一元素进行自注意力计算，获得第一元素的表示。

可选地，在图4所示实施例中，步骤S420包括：对第一元素，使用M个窗口内包含的元素进行自注意力计算，获得第一元素的表示，其中，M个窗口中每个窗口包含输入序列中的一个元素或多个连续的元素，不同窗口之间至少间隔一个元素，M个窗口中包括所述第一窗口，M大于1，且M的取值是预设的。

作为示例，用于对第一元素进行自注意力计算的M个窗口如图8、图9、图10、图11与图12所示。例如，在图8中，输入序列由元素1至元素15组成，用于对第一元素进行自注意力计算的M个窗口包括包含元素1、2与3的窗口1与包含元素11、12、13的窗口2，窗口1与窗口2之间间隔7个元素。

在本申请实施例中，通过使用大于1个的窗口对序列中的元素进行自注意力计算，这可以保证自注意力的依赖范围。可以理解到，针对一个元素，进行自注意力计算的窗口越多，该元素的自注意力依赖范围越大。本申请实施例可以通过合理设置窗口的数量，来保证自注意力的依赖范围。

作为一个示例，假设输入序列的长度为L1，M的取值被设置为Q；假设输入序列的长度为L2(L2>L1)，M的取值依然被设置为Q；假设输入序列的长度为L3(L3<L1)，M的取值依然被设置为Q。例如，Q等于2或3或其它大于1的整数。

在本申请实施例中，对一个元素进行自注意力计算的窗口的个数M与输入序列的长度无关，因此，可以避免现有技术中存在的计算开销随输入序列的长度呈平方增长的问题，因此，相对于现有技术可以减小自注意力的计算量。

此外，在本申请实施例中，用于对一个元素进行自注意力计算的M个窗口中不同窗口之间间隔一个或多个元素，这也可以减小自注意的计算量。

此外，M的取值是预设的，也就是说，本申请实施例可以对自注意力的计算量具有一定程度的控制，从而可以通过M的取值的设置来减小自注意力的计算量。

可以根据应用需求确定M的取值。例如，可以根据当前计算能力合理设置M的取值。在计算能力较强的情况下，可以为M设置较大的取值；在计算能力较弱的情况下，可以为M设置较小的取值。

还应理解，在一定程度上，M的取值越大，自注意力的依赖范围也越大。因此，本申请实施例可以在自注意力的计算量不超过计算能力的前提下，尽量扩大自注意力的依赖范围。

因此，本申请实施例在对序列中的元素进行自注意力计算时，通过使用多个窗口内的元素进行计算，该多个窗口的个数与序列的长度无关，且不同窗口之间具有间隔，可以在减小自注意力的计算量的同时，尽量兼顾自注意力的依赖范围，从而可以实现自注意力的计算量与依赖范围的平衡。

使用M个窗口内包含的元素对第一元素进行自注意力计算，获得第一元素的表示，表示，通过建立第一元素与M个窗口内的每个元素之间的关系(即第一元素的元素关系的建模)，获得第一元素的表示。

作为一个示例，可以使用如下公式对第一元素h _i进行自注意力计算，获得第一元素的新的表示h′ _i：

h′ _i＝Attend(h _i,S)

其中，S表示M个窗口内包含的元素，Attend()表示自注意力的计算方式。自注意力的计算方式为现有技术，本文不作详述。

类似于第一窗口的位置的确定方式，M个窗口的位置也可以通过多种方式确定。例如，M个窗口的位置是根据第一元素的位置确定的，或者，M个窗口的位置是预设的，与第一元素的位置无关。

作为一个示例，如图8所示，输入序列由元素1至元素15组成，第一元素为元素7，假设设置对元素7进行自注意力计算的窗口内的元素与元素7的依赖长度大于3，且小于7，则对元素7进行自注意力计算的M个窗口包括窗口1与窗口2。

作为另一个示例，如图10所示，输入序列为文本序列“他在26岁创立著名的狭义相对论”，第一元素为元素“创立”，假设设置对元素“创立”进行自注意力计算的窗口内的元素与元素“创立”的依赖长度大于2，且小于5，则对元素“创立”进行自注意力计算的M个窗口包括窗口1与窗口2。

在M个窗口的位置根据第一元素的位置而确定的实施例中，基于第一元素在输入序列中的不同位置，其对应的M个窗口的确定方式可以不同。

方式1)，在第一元素为位于输入序列的中间位置的元素的情况下，用于对第一元素进行自注意力计算的M个窗口均位于第一元素的后面。

可选地，在M个窗口的位置根据第一元素的位置而确定的实施例中，在第一元素为输入序列中的中间元素的情况下，M个窗口中包括第三窗口，第三窗口包含输入序列中位于第一元素后面的与第一元素的依赖长度大于或等于ar，且小于br的元素，br为正整数，ar为小于br的非负整数。

h′ _i＝Attend(h _i,S)

其中，S＝{h _i|i+ar≤j≤i+br}，Attend()表示自注意力的计算方式。

作为一个示例，如图11所示，输入序列由元素1至元素15组成，第一元素为输入序列中的中间元素：元素7，用于对元素7进行自注意力计算的M个窗口包括位于元素7后面的窗口1与窗口2。其中，窗口1包含的元素与元素7的依赖长度大于2，且小于5，窗口2包含的元素与元素7的依赖长度大于6，且小于9。

方式2)，在第一元素为位于输入序列的中间位置的元素的情况下，用于对第一元素进行自注意力计算的M个窗口均位于第一元素的前面。

可选地，在M个窗口的位置根据第一元素的位置而确定的实施例中，在第一元素为输入序列中的中间元素的情况下，M个窗口中包括第二窗口，第二窗口包含输入序列中位于第一元素前面的与第一元素的依赖长度大于或等于al，且小于bl的元素，bl为正整数，al为小于bl的非负整数。

h′ _i＝Attend(h _i,S)

其中，S＝{h _i|i-bl≤j≤i-al}，Attend()表示自注意力的计算方式。

作为一个示例，如图12所示，输入序列由元素1至元素15组成，第一元素为输入序列中的中间元素：元素7，用于对元素7进行自注意力计算的M个窗口包括位于元素7 前面的窗口1与窗口2。其中，窗口1包含的元素与元素7的依赖长度大于4，且小于7，窗口2包含的元素与元素7的依赖长度大于1，且小于4。

方式3)，在第一元素为位于输入序列的中间位置的元素的情况下，用于对第一元素进行自注意力计算的M个窗口可以包括位于第一元素的前面的窗口以及位于第一元素的后面的窗口。

可选地，在M个窗口的位置根据第一元素的位置而确定的实施例中，在第一元素为输入序列中的中间元素的情况下，M个窗口中包括第二窗口与第三窗口。第二窗口包含输入序列中位于第一元素前面的与第一元素的依赖长度大于或等于al，且小于bl的元素，bl为正整数，al为小于bl的非负整数。第三窗口包含输入序列中位于第一元素后面的与第一元素的依赖长度大于或等于ar，且小于br的元素，br为正整数，ar为小于br的非负整数。

h′ _i＝Attend(h _i,S)

其中，S＝{h _i|i-bl≤j≤i-al或i+ar≤j≤i+br}，Attend()表示自注意力的计算方式。

在本例中，al与ar可以相等或不相等，bl与br可以相等或不相等。

作为一个示例，如图8所示，输入序列由元素1至元素15组成，第一元素为输入序列中的中间元素：元素7，用于对元素7进行自注意力计算的M个窗口包括位于元素7前面的窗口1与位于元素7后面的窗口2，窗口1内的元素与元素7的依赖长度大于3，且小于7，窗口2内的元素与元素7的依赖长度也是大于3，且小于7。

方式4)，在第一元素为输入序列中首个元素的情况下，用于对第一元素进行自注意力计算的M个窗口为位于第一元素的后面的多个窗口。

方式5)，在第一元素为输入序列中最后一个元素的情况下，用于对第一元素进行自注意力计算的M个窗口为位于第一元素的前面的多个窗口。

应理解，上述方式1)、方式2)与方式3)中任一种方式可以与方式4)和方式5)组合。

可选地，在一些实施例中，M个窗口中还可以包括第四窗口，第四窗口包含第一元素及其相邻元素。

作为一个示例，如图9所示，输入序列由元素1至元素15组成，第一元素为输入序列中的中间元素：元素7，用于对元素7进行自注意力计算的M个窗口不仅包括不包含元素7及其相邻元素的窗口1与窗口2，还包括窗口3，窗口3中包含元素7及其相邻元素：元素6与元素8。

在本申请实施例中，针对序列中的一个元素，通过根据该元素的位置确定用于对该元素进行自注意力计算的多个窗口的位置，从而可以灵活地实现自注意力的依赖范围。

可选地，在一些实施例中，M个窗口的位置也可以是预设的。例如，可以与第一元素的位置无关。作为一个示例，以输入序列如图8所示为例，对于输入序列中每个元素，用于对其进行自注意力计算的M个窗口均为图8所示的窗口1与窗口2。

上文实施例中以图8至图12为例描述了用于对序列中的第一元素进行自注意力计算的M个窗口，需要说明的是，图8至图12仅为示例而非限定。在实际应用中，可以根据应用需求设置M的取值，以尽可能地减小自注意力的计算量，也可以根据应用需求设置M个窗口中每个窗口的边界以及M个窗口中不同窗口之间的间隔，以实现合理的自注意力依赖范围。

在本申请实施例中，在对序列中的元素进行自注意力计算时，通过使用多个窗口内的元素进行计算，该多个窗口的个数与序列的长度无关，且不同窗口之间具有间隔，可以在减小自注意力的计算量的同时，尽量兼顾自注意力的依赖范围，从而可以实现自注意力的计算量与依赖范围的平衡。此外，通过根据待计算元素的位置确定用于对该元素进行自注意力计算的多个窗口的位置，可以灵活地实现自注意力的依赖范围。

在多个自主注意力层的场景中，通过采用本申请实施例提供的方法，可以让高层的自注意力层跳过前面层已经建模过的部分元素，可以减小计算量。

图13与图14示出在三个自注意力层场景下，使用本申请实施例提供的自注意力机制与图3所示的局部自注意力对同一个文本序列进行自注意力计算的情形。在图13与图14中，文本序列为“他在26岁创立著名的狭义相对论”，自注意力层(X-2)为自注意力层(X-1)的前一级层，自注意力层(X-1)为自注意力层X的前一级层。

图13为使用本申请实施例提供的自注意力机制对文本序列进行自注意力计算的示意图。以对元素“创立”进行自注意力计算为例，在自注意力层(X-2)上，使用元素“岁”、“创立”与“著名”进行计算；在自注意力层(X-1)上，使用元素“在”、“26”、“的”与“狭义”进行计算；在自注意力层X上，使用元素“他”与“相对论”进行计算。可知，3个自注意力层分别在对元素“创立”进行自注意力计算时，自注意力层(X-1)跳过了自注意力层(X-2)已使用的元素(元素“岁”、“创立”与“著名”)，自注意力层X跳过了自注意力层(X-1)已使用的元素(元素“在”、“26”、“的”与“狭义”)，这可以减小计算量。

继续参见图13，通过自注意力层(X-2)对元素“相对论”的自注意力计算、自注意力层(X-1)对元素“创立”的自注意力计算、自注意力层X对元素“他”的自注意力计算，实现了序列中距离最远的两个元素“他”与“相对论”的关系建立。换句话说，通过3个自注意力层的处理，实现了长度为8的依赖。

图14为使用图3所示的局部自注意力机制对文本序列进行自注意力计算的示意图。以对元素“创立”进行自注意力计算为例，在自注意力层(X-2)上，使用元素“26”、“岁”、“创立”、“著名”与“的”进行计算；在自注意力层(X-1)与自注意力层X上，依然使用元素“26”、“岁”、“创立”、“著名”与“的”进行计算，这导致了多个自注意力层之间的重复计算。

继续参见图14，通过自注意力层(X-2)对元素“创立”的自注意力计算、自注意力层(X-1)对元素“26”的自注意力计算、自注意力层X对元素“他”的自注意力计算，仅实现了序列中元素“他”与“的”的关系建立。换句话说，通过3个自注意力层的处理，实现了长度为6的依赖。

对比图13与图14可知，在经过相同数量的自注意力层的处理的情况下，本申请实施例提供的自注意力机制比现有局部自注意力机制可以建模更远距离的依赖。

本申请实施例提供的序列处理的方法可以应用于语音处理***。例如，该语音处理***为语音识别***。例如，上述实施例提供的方法400中的输入序列为语音序列。

本申请实施例提供的序列处理的方法还可以应用于自然语音处理***。例如，自然语音处理***为下列***中的任一种***：翻译***、基于BERT模型的自然语言理解模块(natural language understanding，NLU)***。例如，上述实施例提供的方法400中的输入序列为语音序列。

本文中描述的各个实施例可以为独立的方案，也可以根据内在逻辑进行组合，这些方案都落入本申请的保护范围中。

上文描述了本申请提供的方法实施例，下文将描述本申请提供的装置实施例。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的内容可以参见上文方法实施例，为了简洁，这里不再赘述。

图15为本申请实施例提供的序列处理的装置1500的示意性框图。装置1500包括输入单元1510、处理单元1520与输出单元1530。

输入单元1510，用于接收输入序列，并将输入序列输入处理单元1520，输入序列包括多个具有先后顺序的元素。

处理单元1520，用于对输入序列中的第一元素，使用M个窗口内包含的元素进行自注意力计算，获得第一元素的表示，其中，M个窗口中每个窗口内包含输入序列中的一个元素或连续的多个元素，且不同窗口之间至少间隔一个元素，M个窗口中至少一个窗口内不包含第一元素，M为大于或等于1的整数。

输出单元1530，用于基于第一元素的表示，获得输入序列对应的输出序列。

可选地，在一些实施例中，处理单元1520还用于，处理单元还用于，根据第一元素在输入序列中的位置，确定M个窗口，M个窗口中包括第一窗口，第一窗口包含输入序列中与第一元素的依赖长度大于或等于a，且小于b的元素，其中，a为大于1的整数，b为大于a的整数，该依赖长度表示第一元素与所述M个窗口内的元素之间的距离。

可选地，在一些实施例中，装置1500应用于多个自注意力层，输入序列是当前自注意力层的前一级自注意力层输出的序列；处理单元1520还用于，根据第一元素在输入序列中的位置，确定第一窗口，第一窗口包含输入序列中与第一元素的依赖长度大于或等于a，且小于b的元素，b与a的取值被设置为，使得当前自注意力层对第一元素的自注意力计算与前一级自注意力层对第一元素的自注意力计算没有重复计算。

可选地，在一些实施例中，前一级自注意力层基于第五窗口内包含的元素对第一元素进行自注意力计算，第五窗口包含序列中与第一元素的依赖长度大于或等于a1，且小于b1的元素，b1为正整数，a1为小于b1的非负整数；处理单元1520还用于，根据第一元素在输入序列中的位置，确定第一窗口，第一窗口包含输入序列中与第一元素的依赖长度大于或等于a，且小于b的元素，其中，a的取值大于b1的取值。

可选地，在一些实施例中，M等于1，处理单元1520，用于对输入序列中的第一元素，使用第一窗口内包含的元素进行自注意力计算，获得第一元素的表示，其中，第一窗口内包含输入序列中的一个元素或连续的多个元素，但不包含第一元素。

可选地，在一些实施例中，M大于1，且M的取值是预设的。

可选地，在一些实施例中，M个窗口中包括第二窗口和/或第三窗口。

第二窗口，第二窗口包含输入序列中位于第一元素前面的与第一元素的依赖长度大于或等于al，且小于bl的元素，bl为正整数，al为小于bl的非负整数。

第三窗口，第三窗口包含输入序列中位于第一元素后面的与第一元素的依赖长度大于或等于ar，且小于br的元素，br为正整数，ar为小于br的非负整数。

可选地，在一些实施例中，M个窗口中包括第四窗口，第四窗口包含第一元素及其相邻元素。

可选地，在一些实施例中，输入序列为语音序列或文本序列。

本申请实施例提供的序列处理的装置1500也可以称为序列处理装置。可选地，该序列处理装置中还可以包括其他神经网络层的处理模块。

如图16所示，本申请实施例还提供一种序列处理的装置1600。该装置1600包括处理器1610，处理器1610与存储器1620耦合，存储器1620用于存储计算机程序或指令，处理器1610用于执行存储器1620存储的计算机程序或指令，使得上文方法实施例中的方法被执行。

可选地，如图16所示，该装置1600还可以包括存储器1620。

可选地，如图16所示，该装置1600还可以包括数据接口1630，数据接口1630用于与外界进行数据的传输。

如图17所示，本申请实施例还提供一种包括神经网络处理装置1700，包括输入模块1710、处理模块1720、输出模块1730以及本申请实施例提供的序列处理的装置1500。

输入模块1710，用于将待处理的输入序列传递到序列处理的装置1500。

可选地，输入模块1710还可以包括特征提取单元，用于从待处理数据中提取特征数据，该特征数据作为序列处理的装置1500的输入。

序列处理的装置1500用于对输入序列进行自注意力计算，获得该输入序列对应的输出序列。

处理模块1720，用于对装置1500获得的输出序列进行处理，获得序列处理结果。

输出模块1730，用于基于处理模块1720获得的序列处理结果输出输出信号。

可选地，在一些实施例中，输入模块1710，用于将语音序列传递到序列处理的装置1500；处理模块1720用于对序列处理的装置1500获得的输出序列进行语音识别处理，获得语音识别结果。

在本实施例中，神经网络处理装置1700可以称为语音处理***。

可选地，在一些实施例中，输入模块1710，用于将待文本序列传递到序列处理的装置1500；处理模块1720用于对序列处理的装置1500获得的输出序列进行语义理解处理，获得语义理解结果。

在本实施例中，神经网络处理装置1700可以称为自然语言处理***。

通过组合其他类型的神经网络层与应用本申请实施例提供的自注意力机制的自注意力层，可以构建高效的序列数据处理***。

图18为本申请实施例可以应用的语音识别***1800的示意性框图。语音识别***1800可用于进行实时的语音识别。语音识别***1800包括输入模块1810、识别器模块1820与输出模块1830。识别器模块1820为包括自注意力层的神经网络，其中，识别器模块1820包括的至少一个自注意力层采用本申请实施例提供的自注意力机制，即采用上文实施例提供的方法400处理输入序列。

输入模块1810用于接收待处理数据，并基于待处理数据获得识别器模块1820的输入，即输入序列。

例如，输入模块1810中可以包括声学特征提取单元。声学特征提取单元用于对输入的待处理数据进行特征提取，获得特征数据。声学特征提取单元提取的特征数据是识别器模块1820的输入。

识别器模块1820用于对输入模块1810输入的序列进行语音识别的处理，获得语音识别结果。识别器模块1820包括自注意力模块1821与其他神经网络模块1822。

例如，自注意力模块1821包括如下结构：批标准化(batch normalization)层、自注意力层、残差连接(residual)、FFN层。自注意力模块1821中包括的至少一个自注意力层采用了本申请实施例提供的自注意力机制，即采用上文实施例提供的方法400处理输入的序列。

残差连接是一种神经网络连接方式，一般指的是，把当前层的输出与前面某一个层的输出相加作为输出。批标准化(batch normalization)是一种对神经网络的中间值做归一化的方法。FFN层例如为Position-wise FFN，Position-wise FFN是指在对序列中每个位置都使用同一个FFN，该FFN有两层，第一层的激活函数是ReLU，第二层没有激活函数。其中，ReLU是一种神经网络的激活函数。例如，ReLU的计算方法为y＝max(x，0)，其中x表示输入，y表示输出。

例如，自注意力模块1821可以堆叠N次。

其他神经网络模块1822可以包括卷积模块(Convolution block)。例如，卷积模块可重复堆叠M次。

例如，其他神经网络模块1822可以为ConvBlock。ConvBlock指的是，卷积(Convolution)层接批标准化(batch normalization)层再接ReLU的结构。

例如，识别器模块1820也可以堆叠K次。

卷积(Convolution)层、批标准化(batch normalization)层、FFN、ReLU都是常见的神经网络结构组件，本申请对此不作详述。

输出模块1830用于基于识别器模块1820获得的语音识别结果输出输出信号。例如，输出信号为字符序列。

可选地，输出模块1830包括如下结构：层标准化(layer normalizationlayer norm)与输出前馈神经网路(output ffn)。

前馈神经网络(FFN)是一种神经网络。例如，单层FFN的计算过程可以表示为y＝act(Wx+b)，其中，x表示输入特征数据，y表示输出特征数据，W与b表示参数，act()表示激活函数。

应理解，本申请实施例提供的语音识别***1800，因为应用了本申请实施例提供的自注意力机制，因此可以减小自注意力的计算量，同时可以保证自注意力的依赖范围，从而可以实现序列数据的高效处理。

本申请实施例还提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行上述实施例的方法。

本申请实施例还提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述实施例的方法。

本申请实施例还提供一种芯片，该芯片包括处理器与数据接口，处理器通过数据接口读取存储器上存储的指令，执行上述实施例的方法。

可选地，作为一种实现方式，该芯片还可以包括存储器，存储器中存储有指令，处理器用于执行存储器上存储的指令，当指令被执行时，处理器用于执行上述实施例中的方法。

图19为本申请实施例提供的一种芯片硬件结构，该芯片上包括神经网络处理器1900。该芯片可以被设置在如下任一种或多种装置中：

如图15所示的装置1500、如图16所示的装置1600、如图17中所示的装置1700、如图18所示的装置1800。

上文方法实施例中的方法400可在如图19所示的芯片中得以实现。

神经网络处理器1900作为协处理器挂载到主处理器(Host CPU)上，由主CPU分配任务。神经网络处理器1900的核心部分为运算电路1903，控制器1904控制运算电路1903获取存储器(权重存储器1902或输入存储器1901)中的数据并进行运算。

在一些实现中，运算电路1903内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路1903是二维脉动阵列。运算电路1903还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1903是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路1903从权重存储器1902中取矩阵B相应的数据，并缓存在运算电路1903中每一个PE上。运算电路1903从输入存储器1901中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1908中。

向量计算单元1907可以对运算电路1903的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元1907可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现种，向量计算单元能1907将经处理的输出的向量存储到统一存储器(也可称为统一缓存器)1906。例如，向量计算单元1907可以将非线性函数应用到运算电路1903的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1907生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1903的激活输入，例如用于在神经网络中的后续层中的使用。

上文方法实施例中的方法400可以由1903或1907执行。

统一存储器1906用于存放输入数据以及输出数据。

可以通过存储单元访问控制器1905(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器1901和/或统一存储器1906、将外部存储器中的权重数据存入权重存储器1902，以及将统一存储器1906中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)1910，用于通过总线实现主CPU、DMAC和取指存储器1909之间进行交互。

与控制器1904连接的取指存储器(instruction fetch buffer)1909，用于存储控制器1904使用的指令；

控制器1904，用于调用指存储器1909中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器1906，输入存储器1901，权重存储器1902以及取指存储器1909 均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

需要说明的是，本文中涉及的第一或第二等各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(USB flash disk，UFD)(UFD也可以简称为U盘或者优盘)、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种序列处理的方法，其特征在于，包括：

接收输入序列，所述输入序列包括多个具有先后顺序的元素；

对所述输入序列中的第一元素，使用M个窗口内包含的元素进行自注意力计算，获得所述第一元素的表示，其中，所述M个窗口中每个窗口内包含所述输入序列中的一个元素或连续的多个元素，且不同窗口之间至少间隔一个元素，所述M个窗口中至少一个窗口内不包含所述第一元素，M为大于或等于1的整数；

基于所述第一元素的表示，获得所述输入序列对应的输出序列。
如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一元素在所述输入序列中的位置，确定所述M个窗口，所述M个窗口中包括第一窗口，所述第一窗口包含所述输入序列中与所述第一元素的依赖长度大于或等于a，且小于b的元素，其中，a为大于1的整数，b为大于a的整数，所述依赖长度表示所述第一元素与所述M个窗口内的元素之间的距离。
根据权利要求2所述的方法，其特征在于，所述方法应用于多个自注意力层，所述输入序列是当前自注意力层的前一级自注意力层输出的序列；

其中，b与a的取值被设置为，使得所述当前自注意力层对所述第一元素的自注意力计算与所述前一级自注意力层对所述第一元素的自注意力计算没有重复计算。
根据权利要求3所述的方法，其特征在于，所述前一级自注意力层基于第五窗口内包含的元素对所述第一元素进行自注意力计算，所述第五窗口包含所述序列中与所述第一元素的依赖长度大于或等于a1，且小于b1的元素，b1为正整数，a1为小于b1的非负整数；

其中，a的取值大于b1的取值。
根据权利要求1-4中任一项所述的方法，其特征在于，所述M大于1，且M的取值是预设的。
根据权利要求5所述的方法，其特征在于，所述M个窗口中包括：

第二窗口，所述第二窗口包含所述输入序列中位于所述第一元素前面的元素；和/或

第三窗口，所述第三窗口包含所述输入序列中位于所述第一元素后面的的元素。
根据权利要求5或6所述的方法，其特征在于，所述M个窗口中包括第四窗口，所述第四窗口包含所述第一元素及其相邻元素。
根据权利要求1-7中任一项所述的方法，其特征在于，所述输入序列为语音序列或文本序列。
一种序列处理的装置，其特征在于，包括：

接收单元，用于接收输入序列，所述输入序列包括多个具有先后顺序的元素；

处理单元，用于对所述输入序列中的第一元素，使用M个窗口内包含的元素进行自注意力计算，获得所述第一元素的表示，其中，所述M个窗口中每个窗口内包含所述输入序列中的一个元素或连续的多个元素，且不同窗口之间至少间隔一个元素，所述M个窗口中至少一个窗口内不包含所述第一元素，M为大于或等于1的整数；

输出单元，用于基于所述第一元素的表示，获得所述输入序列对应的输出序列。
根据权利要求9所述的装置，其特征在于，所述处理单元还用于，根据所述第一元素在所述输入序列中的位置，确定所述M个窗口，所述M个窗口中包括第一窗口，所述第一窗口包含所述输入序列中与所述第一元素的依赖长度大于或等于a，且小于b的元素，其中，a为大于1的整数，b为大于a的整数，所述依赖长度表示所述第一元素与所述M个窗口内的元素之间的距离。
根据权利要求10所述的装置，其特征在于，所述装置应用于多个自注意力层，所述输入序列是当前自注意力层的前一级自注意力层输出的序列；

其中，b与a的取值被设置为，使得所述当前自注意力层对所述第一元素的自注意力计算与所述前一级自注意力层对所述第一元素的自注意力计算没有重复计算。
根据权利要求11所述的装置，其特征在于，所述前一级自注意力层基于第五窗口内包含的元素对所述第一元素进行自注意力计算，所述第五窗口包含所述序列中与所述第一元素的依赖长度大于或等于a1，且小于b1的元素，b1为正整数，a1为小于b1的非负整数；

其中，a的取值大于b1的取值。
根据权利要求9-12中任一项所述的装置，其特征在于，M大于1，且M的取值是预设的。
根据权利要求13所述的装置，其特征在于，所述M个窗口中包括：

第二窗口，所述第二窗口包含所述输入序列中位于所述第一元素前面的元素；和/或

第三窗口，所述第三窗口包含所述输入序列中位于所述第一元素后面的元素。
根据权利要求13或14所述的装置，其特征在于，所述M个窗口中包括第四窗口，所述第四窗口包含所述第一元素及其相邻元素。
根据权利要求9-15中任一项所述的装置，其特征在于，所述输入序列为语音序列或文本序列。
一种神经网络处理装置，其特征在于，包括输入模块、处理模块、输出模块以及如权利要求9-16中任一项所述的序列处理的装置；

所述输入模块用于，将输入序列输入所述序列处理的装置；

所述序列处理的装置用于，对所述输入序列进行自注意力计算，获得所述输入序列对应的输出序列；

所述处理模块用于，对所述输出序列进行处理，获得序列处理结果；

所述输出模块，用于基于所述处理模块获得的序列处理结果输出输出信号；

其中，在所述输入序列为语音序列的情况下，所述处理模块用于对所述输出序列进行语音识别处理，获得语音识别结果；或

在所述输入序列为文本序列的情况下，所述处理模块用于对所述输出序列进行语义理解处理，获得语义理解结果。
一种数据处理的装置，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于调用并运行所述存储器中的所述可执行指令，以执行权利要求1至8中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现权利要求1至8中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，实现权利要求1至8中任一项所述的方法。