CN115186825A

CN115186825A - 具有稀疏计算成本的全注意力

Info

Publication number: CN115186825A
Application number: CN202210800059.3A
Authority: CN
Inventors: 戴涵俊; 戴博; 戴自航; 任泓宇; 杨梦娇; 达莱·埃里克·舒尔曼斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-07-09
Filing date: 2022-07-08
Publication date: 2022-10-14
Also published as: US20230022151A1

Abstract

本公开涉及具有稀疏计算成本的全注意力的机器学习模型架构，该机器学习模型架构在每个注意力头中提供全注意力能力，同时维持低计算和存储器复杂度。具体地，根据本公开的一个方面，本文提供的示例注意力模型能够将自注意力机制视为对每个位置处的嵌入的条件期望并且用结构化因子分解来近似条件分布。每个位置能够经由直接注意力或者通过对组表示的间接注意力来注意所有其他位置，所述组表示又是来自对应局部区域的嵌入的条件期望。

Description

具有稀疏计算成本的全注意力

相关申请

本申请要求2021年7月9日提交的美国临时专利申请号63/220,063的优先权和权益。美国临时专利申请号63/220,063由此通过引用整体地并入。

技术领域

本公开通常涉及机器学习。更具体地，本公开涉及提供具有稀疏计算成本的全注意力机制的机器学习注意力模型。

背景技术

Transformer是已经使用单向语言建模或双向语言建模经由预训练在机器翻译和许多其他自然语言处理(NLP)任务中演示了现有技术水平性能的强大神经网络架构。它及其变体已在像图像识别、代码理解、语音识别、蛋白质、音乐和图像生成式建模一样的其他领域中同样实现了极好结果。

Transformer和其他基于注意力的模型的核心组件是注意力机制，其计算序列中的位置的所有对之间的依赖。然而，对于长度L的序列，逐对注意力的可表达性在时间和存储器消耗两者方面以二次成本

出现。这使vanilla Transformer变得对涉及长序列(包括高分辨率图像、蛋白质序列或原始语音信号)的应用来说望而却步，其中序列长度L常常大于10,000。

最近，已经有扩大对长序列的注意力的若干尝试。一类流行的方法用包括局部窗口、局部+步幅、log-稀疏、轴向模式或通过散列或聚类的可学习模式的不同稀疏模式来稀疏化注意力矩阵。稀疏注意力享有次二次成本，但是在捕获所有对关系时是有损的。通常，稀疏注意力需要更多层来为长序列中的每个位置实现全自回归或双向依赖(或感受野)。

替换地，另一项研究已设法用对注意力矩阵的显式低秩假设或者通过使用一些核的显式特征图来实现可放缩性。然而这些显式低维近似对使用实际上无限维的指数核的潜在全秩注意力矩阵来说可以是太受限制的。作为一个示例，Performer在试图用随机特征技巧近似常规全秩注意力的第一工作当中。然而此类基于随机特征的方法需要更多基础来更好地近似指数核，并且凭经验已发现在诸如密度估计的一些序列建模任务中产生交差结果。

因此，诸如Transformer的基于注意力的模型提供对序列建模来说极为有效的一类表达架构。然而，Transformer的关键局限性是其相对于注意力层中的序列长度的二次存储器和时间复杂度

这限制极长序列中的应用。大多数现有方法利用注意力矩阵中的稀疏或低秩假设来降低成本，但是牺牲可表达性。

发明内容

本公开的实施例的各方面和优点将在以下描述中部分地阐述，或者能够从描述中学习，或者能够通过对实施例的实践来学习。

一个一般方面包括一种用于执行具有降低的计算要求的注意力机制的计算***。该计算***还包括一个或多个处理器。该***还包括一种或多种非暂时性计算机可读介质，该一种或多种非暂时性计算机可读介质共同地存储被配置成接收并且处理模型输入以生成模型输出的机器学习注意力模型，其中机器学习注意力模型可以包括一个或多个注意力层，其中注意力层中的至少一个可以包括一个或多个注意力头，并且其中注意力头中的至少一个被配置成：接收输入数据元素序列；并且对输入数据元素序列应用结构化注意力模式以生成输出数据元素序列。对于输入数据元素序列中的每个输入数据元素，结构化注意力模式能够指定直接期望的一个或多个位置和局部期望的一个或多个位置组。对于具有局部期望的一个或多个位置组中的每一个，注意力头中的至少一个被配置成：确定位置组的单个组概率；并且确定位置组中的每个位置的单独局部期望。此方面的其他实施例包括对应的计算机***、装置、以及记录在一个或多个计算机存储设备上的计算机程序，每个计算机程序被配置成执行方法的动作。

实现方式可以包括以下特征中的一个或多个。计算***，其中结构化注意力模式可以包括具有覆盖输入数据元素序列的全体的支集(support)的全注意力模式。注意力头中的至少一个可以被配置成在对于输入数据元素序列中的两个或更多个不同输入数据元素应用结构化注意力模式时，重新使用位置组中的每个位置的单独局部期望。输入数据元素序列可以包括输入嵌入序列。结构化注意力模式能够指定局部期望的多个位置组。机器学习注意力模型可以包括多个注意力层，其中多个注意力层中的每一个可以包括多个注意力头，并且其中多个注意力头中的每一个被配置成应用结构化注意力模式。结构化注意力模式可以包括具有两个或更多个层次划分级别的划分树。注意力头中的至少一个可以被配置成：对于具有局部期望的一个或多个位置组中的每一个，规范化(normalize)位置组的单独局部期望；并且规范化直接期望的一个或多个位置和一个或多个位置组的单个组概率。结构化注意力模式可以包括combiner-固定(combiner-fixed)注意力模式。结构化注意力模式可以包括combiner-logsparse注意力模式。模型输入可以包括自然语言数据。模型输入可以包括图像数据、音频数据、蛋白质数据、或计算机可读代码数据。结构化注意力模式可以指定局部期望的多个位置组。结构化注意力模式可以包括combiner-轴向(combiner-axial)注意力模式。结构化注意力模式可以包括指定直接期望的一个或多个位置和局部期望的一个或多个位置组的机器学习因子分解计划。所描述的技术的实现方式可以包括硬件、方法或过程，或计算机可访问介质上的计算机软件。

另一一般方面包括一种用于执行具有降低的计算要求的注意力机制的计算机实现的方法。该计算机实现的方法包括接收输入数据元素序列。该方法还包括对输入数据元素序列中的每一个输入数据元素应用结构化注意力模式以生成输出数据元素序列，其中对每个输入数据元素应用结构化注意力模式可以包括：确定直接期望的一个或多个位置和局部期望的一个或多个位置组；对于直接期望的一个或多个位置中的每一个，确定直接期望；以及对于具有局部期望的一个或多个位置组中的每一个：确定位置组的单个组概率；以及确定位置组中的每个位置的单独局部期望。此方面的其他实施例包括对应的计算机***、装置、以及记录在一个或多个计算机存储设备上的计算机程序，每个计算机存储设备被配置成执行方法的动作。

实现方式可以包括以下特征中的一个或多个。计算机实现的方法，其中结构化注意力模式具有覆盖输入数据元素序列的全体的支集。对于具有局部期望的一个或多个位置组中的至少一个，确定位置组中的每个位置的单独局部期望可以包括重新使用针对输入数据元素序列中的不同输入数据元素先前计算的位置组中的每个位置的单独局部期望。输入数据元素序列可以包括输入嵌入序列。所描述的技术的实现方式可以包括硬件、方法或过程，或计算机可访问介质上的计算机软件。本公开的其他方面涉及各种***、装置、非暂时性计算机可读介质、用户界面和电子设备。

参考以下描述和所附权利要求，本公开的各种实施例的这些及其他特征、方面和优点将变得被更好地理解。被并入在本说明书中并构成本说明书的一部分的附图图示本公开的示例实施例，并且与说明书一起，用来说明相关原理。

附图说明

在参考附图的说明书中阐述针对本领域的普通技术人员的实施例的详细讨论，在附图中：

图1描绘根据本公开的示例实施例的示例机器学习注意力模型。

图2A-F描绘根据本公开的示例实施例的示例注意力模式。

图3A描绘根据本公开的示例实施例的示例计算***的框图。

图3B描绘根据本公开的示例实施例的示例计算设备的框图。

图3C描绘根据本公开的示例实施例的示例计算设备的框图。

跨多个图重复的附图标记旨在标识各种实现方式中的相同特征。

具体实施方式

概述

通常，本公开涉及在每个注意力头中提供全注意力能力同时维持低计算和存储器复杂度的机器学习模型架构。具体地，根据本公开的一个方面，本文提供的示例注意力模型能够将自注意力机制视为对每个位置处的嵌入的条件期望并且用结构化因子分解来近似条件分布。每个位置能够经由直接注意力或通过对组表示的间接注意力来注意所有其他位置，所述组表示又是来自对应局部区域的嵌入的条件期望。本公开还提供用于全注意力的特定示例注意力模式，其粗略地对应于现有稀疏变换器中使用的某些稀疏模式并且产生相同的次二次成本

或

本文描述的***和方法(其示例实现方式能够被称为“Combiner”)是现有变换器中的注意力层的直接替代品并且能够被容易地实现在常见框架中。美国临时专利申请号63/220,063中包含的对自回归和双向序列任务两者的示例实验评价演示了此方法的有效性，从而在若干图像和文本建模任务上产生现有技术水平结果。

更具体地，本公开提供能够被用作具有次二次计算和存储器成本的vanilla二次注意力机制的直接替代品的改进的注意力机制。与采用稀疏或低秩近似的方法不同，所提出的方法能够仍然在多头注意力的每个头内实现全注意力能力。特别地，在一些实现方式中，能够将在每个位置处计算的标准注意力视为给定当前位置在所有可行位置处的值嵌入的条件期望。

基于这样的理解，所提出的注意力机制通过概率空间的结构化分解来显式地近似条件分布。具体地，给定位置x，注意位置y的概率能够经由x的查询向量和y的关键向量直接地计算，或者通过在其中x首先注意表示位置组的关键向量的基于局部组的方法间接地计算，所述位置组包含y然后乘以在该组内选取y的概率。能够将此方法的示例实现方式称为Combiner，因为注意力中的条件分布变成若干局部注意力与直接注意力之间的组合。此结构化因子分解使得所提出的注意力机制能够采取现有稀疏注意力模式并且将它们转换成用于实现全注意力的概率因子分解的对应设计选择。

本公开的示例实现方式能够用与稀疏变体相同的渐近复杂度实现全注意力。所提出的注意力机制能够在无需专门硬件实现方式的情况下被容易地实现在大多数现有深度学习框架中并且是GPU/TPU友好的。事实上，来自许多现有Transformer变体的固定和可学习稀疏注意力模式都能够以相同量级的时间或存储器成本用此类结构化因子分解来增强。

美国临时专利申请号63/220,063中包含的示例实验在包括文本和图像的各种领域上在自回归和双向序列建模任务两者上验证Combiner。实验表明Combiner能够在使用相同的Transformer架构时实现更好的困惑度和准确度，同时在运行时方面快得多，并且在标准数据集CIFAR-10(2.77位/dim)和ImageNet-64(3.42位/dim)以及Long-Range Arena上对密度估计实现现有技术水平性能。

本公开的***和方法提供许多技术效果和益处。作为一个示例，本公开的***和方法能够使得能够以降低的计算成本在长序列之上执行全注意力，从而导致计算资源的节省，诸如减少的存储器使用、减少的处理器使用等。以降低的计算成本执行全注意力的能力还在大输入长度先前由于计算成本而妨碍全注意力的使用的情形下从机器学习模型提供更好的性能(例如，准确度)。因此，本公开的***和方法既改进模型和计算机它本身的性能，同时还使得能实现计算资源的保存。

现在参考图，将进一步详细地讨论本公开的示例实施例。

示例注意力模型

图1描绘根据本公开的示例实施例的示例机器学习注意力模型12。图1所图示的示例模型12既出于图示的目的被简化且还只作为示例被提供。在不偏离本公开的范围的情况下，能够使用层的其他不同架构或布置。

机器学习注意力模型12能够被配置成接收并且处理模型输入14以生成模型输出16。模型输入14可以是任何形式的数据，包括原始文本或自然语言数据、文本或自然语言嵌入、音频数据、图像数据、传感器数据、蛋白质数据和/或其他形式的数据，诸如各种数据序列。

机器学习注意力模型12能够包括一个或多个注意力层(被图示为示例注意力层18、20和22)。注意力层中的一些或全部能够包括一个或多个注意力头。例如，注意力层20被示出为包括四个注意力头，包括注意力头24。能够使用任何数目的层和/或头。

所有注意力头中的一些(例如，头24)能够被配置成接收输入数据元素序列26并且对该输入数据元素序列应用结构化注意力模式以生成输出数据元素序列28。

根据本公开的一个方面，对于输入数据元素序列中的每个输入数据元素，结构化注意力模式能够指定直接期望的一个或多个位置和局部期望的一个或多个位置组。位置组的每个组能够包含任何数目的位置。这些组可以是相同大小(位置数)或不同大小(位置数)。

注意力头24能够如下应用结构化注意力模式：对于直接期望的一个或多个位置中的每一个，注意力头24能够确定直接期望。对于具有局部期望的一个或多个位置组中的每一个，注意力头24能够：确定位置组的单个组概率；并且确定位置组中的每个位置的单独局部期望。一组的单个组概率能够针对总体上该组或该组的代表性成员被确定。

作为此方法的示例，图2A-F描绘根据本公开的示例实施例的示例注意力模式。特别地，图2A-C示出具有对少于全输入集的支集的现有稀疏注意力模式。相比之下，图2D-F示出根据本公开的示例结构化注意力模式，其利用对输入集的全体的支集提供全注意力。

参考作为示例的图2D，结构化注意力模式200包括直接期望的位置(例如，位置202、204和206)。模式200还包括位置组(例如，组208和210)。例如，组208包含包括例如位置212和214的四个位置。

在一个示例中，能够将给定输入x_i的注意力输出表达为

其中

表示具有直接期望的位置集并且

表示具有局部期望的不同位置组，其中r是组的索引，并且v_j是第j个位置的值。

因此，在一些实现方式中，对给定输入x_i应用结构化注意力模式200能够包括计算

中的直接期望的每个位置(例如，202、204、206等)的直接期望，计算每个

(例如，组208)的单个组概率，并且计算位置组之一内的每个位置的单独局部期望(例如，位置212的局部期望、位置214的局部期望等)。然后能够如以上表达式中所示出的那样提供最终注意力。

在一些实现方式中，例如如以上表达式中所示出的那样，局部期望可能不一定依赖于x_i的值，因此能够被重新用于多个不同输入元素，从而减少需要被执行的计算的数目。

作为条件期望的注意力

此部分从条件期望的角度重新审视标准Transformer的制定，这启发Combiner的得出。

在不失一般性的情况下，为了描述的容易本公开在自注意力场景中使用单个序列。给定L个嵌入的序列X＝[x₁，x₂，...，x_L]，其中

并且每个嵌入

是d维向量，Transformer的核心组件是多头注意力，其中每个头h是缩放点积注意力：

并且来自每个头A_h(X)的注意力向量被拼接和投影：

这里H是每Transformer层的头的总数。本公开描述如何在多头注意力的每个头内近似全注意力。为了表示法的容易，只要可能我们就丢掉头索引h，并且使用小写字母x_i、q_i、k_i、

来分别表示对应于长度L的原始序列中的位置i的X、Q、K、V中的行。我们使用[n]来表示正整数集{1，2，...，n}。

对于位置i∈[L]，能够将注意力公式(1)视为V中的行的条件期望。具体地，由于softmax输出概率分布，所以我们能够将(1)重写为

其中p(j|i)表示给定位置i处的词元在位置j处的条件概率，并且遍及支集Ω_i的划分函数

p(j|i)的支集Ω_i定义第i个词元能够注意的有效位置集。例如，自回归语言建模(LM)中的支撑集由所有先前词元构成，即

在掩蔽语言建模(MLM)中，支集由序列中的所有词元构成，即

也就是说，

和

分别表示LM和MLM设定中的全注意力能力。

经由结构化条件期望的全注意力

p(j|i)的复杂度是A(x_i)的计算的瓶颈。通常，在现有稀疏变换器中，p(j|i)的支集被稀疏化以降低计算和存储器复杂度，例如对LM来说

而对MLM来说

但是这可能导致降低的容量或有限的适用性。此部分介绍Combiner，其对于LM实现

而对于MLM实现

同时仍然维持次二次计算和存储器成本。在下面如果没有歧义或者不需要区分LM或MLM，则我们将Ω_i表示为用于全注意力的支集。

条件期望的局部因子分解

本文描述的一个主要思想是为了利用层次结构进行等式(3)中的条件概率建模，这提供用于在维持相同支集的同时降低计算复杂度的机会。具体地，我们引入支集变量

其中r＝0，...，n_i并且i∈[L]。支集变量是不相交的，即

并且

然后我们能够将p(j|i)因子分解为

其中r_j表示j属于的支集的索引。最后的等式产生于

彼此不相交

的事实。因此，存在包含j的仅一个支集

在其中对r≠r_j来说

的剩余项全部是零，因为

此外，假定

是充分统计量，即给定

j和i是独立的，我们获得

给定划分

能够将(3)中的注意力形式重写为

其中我们在划分

中考虑直接注意力并且将局部因子分解(5)应用于划分r＝1，...，n_i。这里

但是具有不同规范化常数，将在下面对此进行说明。我们将此模型称为Combiner，因为结构化注意力(7)经由

和

组合

的直接期望和多个局部期望以形成最终条件期望。

等效地，我们还能够将结构化注意力(7)重写为

其中

是二元指示符函数。在重新排序之后，任何人能够从(8)看到，我们获得设法近似原始p(j|i)的有效条件概率q(j|i)。每个概率项取决于当前位置i和其他位置j两者，并且期望仍然是相对于有效条件概率(非负并且遍及Ω_i合计为1)而获得的。

对次二次成本的要求。能够从(7)中的局部期望与位置i无关的事实立即看到此公式的益处。全依赖是经由乘数

实现的，其中

如果我们能够设计局部因子分解使得：

1.针对p(·|i)

的(7)中的项数的阶:

是次二次的；并且

2.令

为用于局部期望计算的唯一划分集，则

的阶(即，

中的唯一划分的数目))是次二次的；

3.(7)中跨所有位置的局部期望的唯一计算的总数的阶

是次二次的；

然后，任何人能够看到整体计算和存储器成本在全注意力支集

情况下将是次二次的。

评述(进一步层次分解)：为了简单引入具有p(·|i)的支集的一个层划分的局部分解。事实上，能够进一步堆叠此类局部分解，这引入划分树。具体地，我们能够用不相交的子集

进一步对

进行划分，并且考虑局部分解

其中k_j是j属于的子区域的索引。因此，我们获得p(j|i)的层次分解，其还能够被***到(6)并且产生新全注意力公式。

参数化条件概率

虽然我们经由直接期望和局部期望的组合获得了用于加速标准Transformer的可能方式，但是对于(7)中的概率项——即来自直接期望的

来自局部期望的

和针对r∈[1，n_i]的

——具有有效的设计选择也是有益的。为了简单并且作为示例，任何人能够使用缩放点积，这意味着我们将使位置i、j和变量集

与对应的嵌入表示相关联，因此概率与嵌入內积的指数成比例。具体地：

由于此项是用于直接期望，我们能够令

其与vanilla注意力(3)相同但具有不同规范化，将在等式9中对此进行说明。

此项目的旨在捕获联合事件概率，即

因此

的设计选择应该做出对应的支集

的抽象。我们发现

已经在不用引入附加参数的情况下提供良好的经验结果；我们还能够使用DeepSets[32]来获得这种抽象。

此项是在此局部跨度

内取得j的概率。我们做出

其中我们遍及

使用最大池化(max pooling)或DeepSets以类似地获得

规范化概率项。能够在局部跨度内规范化每个局部期望

中的项；能够一起规范化直接期望

和

中的项，

并且Z(x_i)是当计算

和

时的规范化常数。

示例权衡

Combiner以降低的成本实现全注意力而不用遍及注意力矩阵做出显式稀疏或低秩假设。然而此效率增益不是免费的。此部分讨论由Combiner做出的简化的局限性，并且提供简单的应变方法。

结构化注意力近似。

我们在条件独立假设下获得局部分解(5)。因此，(7)中的局部期望与位置i无关，这表明具有

的任何两个位置i₁和i₂将遍及区域Ω具有线性相关注意力分数。形式上，由有效条件分布形成的概率

换句话说，在所得的注意力矩阵中遍及相同划分的子矩阵的秩是1，因此，注意力矩阵基于划分是局部低秩的。另一方面，直接期望充分地注意子支集Ω₀中的每个位置，这确保全秩块。这两个注意力方案使Combiner的注意力矩阵变得结构化。与注意力的低秩近似相比，利用局部低秩块和全秩块两者的结构化近似已在大规模内核机器中被证明理论上且经验上更强大。

使用混合模型来改进可表达性。

用于进一步改进局部因子分解的可表达性的一个方式是使用混合模型。此想法在语言建模中获得高秩softmax层。令ω为Ω_i的支集(即，

的合集)的某个划分，那么任何人能够容易地使用

来计算注意力，其中混合A(x_i；ω_m)的每个分量是使用特定因子分解计划ω_m的项(7)。经验上人们发现两个分量已经足以改进性能。

示例实例化

此部分示出满足本文描述的要求的若干示例局部因子分解方案。如所示，Combiner能够以相同量级的计算和存储器消耗将若干稀疏变换器转换成全注意力。任何人还能够设计能够在Combiner中容易地实例化的其他因子分解模式。

Combiner-固定

Sparse Transformer是能够用稀疏注意力来实现

计算和存储器成本的最具代表性变体之一。参见Rewon Child,Scott Gray,Alec Radford and IlyaSutskever.Generating long sequences with sparse transformers.arXiv preprintarXiv:1904.10509,2019(Rewon Child、Scott Gray、Alec Radford和Ilya Sutskever。使用稀疏转换器生成长序列。arXiv预印本arXiv:1904.10509,2019)。

这里示出了如何将固定模式转换成因子分解计划，并且实例化名为Combiner-固定的全注意力变体(图2D)。

在固定稀疏注意力中，支集是

其中s是超参数，div是整数除法，并且j≡i(div s)表示i和j相对于s的商是相同的。在自回归情况下，

请参考图2A以获得LM版本的说明。

我们对

的设计具有以下形式：

其中在大小s的每个跨度中执行每个局部期望，并且跨所有位置总共有L div s个跨度。对于每个位置i∈[L]，在(7)中有(s+(L divs))个项；局部期望具有(L div s)个项。整体复杂度是

最优s是

并且我们能够实现

计算和存储器复杂度，这与[14]相同，但是这里我们在每个注意力头中获得全注意力能力。对于LM情况，我们能够简单地具有

其具有相同的

最优复杂度。

Combiner-Logsparse

Logsparse Transformer在Shiyang Li,Xiaoyong Jin,Yao Xuan,Xiyou Zhou,Wenhu Chen,Yu-Xiang Wang and Xifeng Yan.Enhancing the locality and breakingthe memory bottleneck of transformer on time series forecasting.In Advancesin Neural Information Processing Systems(NeurIPS),2019(Shiyang Li,XiaoyongJin,Yao Xuan,Xiyou Zhou,Wenhu Chen,Yu-Xiang Wang和Xifeng Yan。增强局部性并打破transformer对时间序列预测的存储器瓶颈。神经信息处理***(NeurIPS)的进展，2019年)中被提出。

Logsparse Transformer能够理论上实现

成本。一般思想是使支集

的大小不大于

为了表示法的容易，我们首先将

定义为整数n的二元表示，其中b_t∈{0，1}基底2^t的系数。因此我们具有

在LM情况下做出Logsparse的可能设计选择之一是

即，注意等于加权位(i-1)的后缀和的位置索引以及位置i它本身。这用作我们的如图2B所示的基础稀疏版本。

为了在Combiner框架中利用此方案，我们能够定义

非重叠支集，其中

具有边界情况

注意，为了表示法的容易，

中的一些是空的，其将被忽视。在这种情况下，直接注意力集

包括i，以及当i是偶数时的{i-1}。这样的因子分解导致Combiner-Logsparse，如图2E所示。从图中，我们观察到总共我们将每2、4、8、…、

个位置具有跨度摘要，从而产生总共

或

个摘要。每个位置i将选择至多

个非重叠跨度以覆盖全支集Ω_i，因此，总成本将是

Combiner-轴向

轴向Transformer在Jonathan Ho,Nal Kalchbrenner,Dirk Weissenborn andTim Salimans.Axial attention in multidimensional transformers.arXiv preprintarXiv:1912.12180,2019(Jonathan Ho、Nal Kalchbrenner、Dirk Weissenborn和TimSalimans。多维transforme中的轴向注意力。arXiv预印本arXiv:1912.12180,2019)中有所描述。

轴向Transformer沿着输入数据的每个轴构建注意力。在不失一般性的情况下，我们集中于其中输入序列被重塑成大小n×m＝L的矩阵的2D情况。具体地，原始序列中的位置i将在row_i＝(i-1)div m+1和col_i＝(i-1)mod m+1中。我们示出如何利用对2D矩阵进行因子分解来简单地实现全注意力，从而实现Combiner-轴向。

稀疏轴向具有

并且

它们对于每个i全部具有至多O(m+n)个条目，如图2C所图示的。我们提出若干因子分解方案来使其变成具有全支集的注意力。

并且对于r∈[m]\col_i，

如图2A所描绘的，

对应于row_i上方的列r，其中我们使用最大池化来获得抽象。为了对于所有位置获得这种抽象，我们能够对于每列利用cummax运算符以高效地获得最大前缀。

除了在图2B中每个

概括row_i之前的行r并且排除col_i之外与ω_{axial-vertical}类似。

即同一行中的元素直接被注意，然而

捕获row_i之前的行。除了计算抽象(以及因此局部期望)的方式之外，此结构类似于Combiner-固定。Combiner-固定仅基于划分

的r计算抽象，其中ω_{axial-rowmajor}取决于r和列col_i两者(图2F)。

在以上所有情况下，如果我们将序列重塑为具有

的二维矩阵，则成本类似于为

的轴向Transformer。

Combiner-可学习(Combiner-Learnable)

另一示例实现方式还能够从数据学习因子分解计划ω。我们用路由Transformer(Routing Transformer)图示这个并且提供用于在遵循Combiner原则的路由Transformer中实现全注意力的方式。

对于特定层，假设我们具有学习的不相交区域(或路由Transformer中的聚类)

其中∪_rΩ^r＝[L]。在路由Transformer中，我们简单地具有

其中

表示位置i属于的区域。为了定义Combiner因子分解，我们令

注意，对所有位置来说n_i＝n(学习的聚类数)。以上因子分解仅能够适用于MLM。LM需要以下定义：

一般而言，当

时LM和MLM都能够具有次二次成本。然而，路由变体(包括Routing Transformer)需要收集操作，这在TPU上可能是慢的。路由Transformer在Roy,Mohammad Saffar,Ashish Vaswani and David Grangier.Efficient content-basedsparse attention with routing transformers.Transactions of the Associationfor Computational Linguistics,9:53–68,2021(Aurko Roy、Mohammad Saffar、AshishVaswani和David Grangier。使用路由transformer实现高效的基于内容的稀疏注意力。计算语言学协会汇刊，9：53-68，2021年)中有所描述。

示例设备和***

图3A描绘根据本公开的示例实施例的能够以降低的计算成本执行全注意力的示例计算***100的框图。***100包括通过网络180通信地耦合的用户计算设备102、服务器计算***130和训练计算***150。

用户计算设备102可以是任何类型的计算设备，诸如例如个人计算设备(例如，膝上型电脑或台式机)、移动计算设备(例如，智能电话或平板)、游戏机或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或在操作上连接的多个处理器。存储器114能够包括一种或多种非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪速存储器设备、磁盘等及其组合。存储器114能够存储由处理器112运行以使用户计算设备102执行操作的数据116和指令118。

在一些实现方式中，用户计算设备102能够存储或者包括一个或多个机器学习模型120。例如，机器学习模型120可以是或者能够以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型，包括非线性模型和/或线性模型。神经网络能够包括前馈神经网络、循环神经网络(例如，长短期记忆循环神经网络)、卷积神经网络或其他形式的神经网络。一些示例机器学习模型能够利用诸如自注意力的注意力机制。例如，一些示例机器学习模型能够包括多头自注意力模型(例如，transformer模型)。参考图1-2F讨论示例机器学习模型120。

在一些实现方式中，一个或多个机器学习模型120能够通过网络180从服务器计算***130接收，被存储在用户计算设备存储器114中，然后由一个或多个处理器112使用或以其他方式实现。在一些实现方式中，用户计算设备102能够实现单个机器学习模型120的多个并行实例(例如，以跨输入的多个实例执行并行处理)。

附加地或替换地，一个或多个机器学习模型140能够被包括在服务器计算***130中或者由服务器计算***130以其他方式存储和实现，所述服务器计算***130根据客户端-服务器关系与用户计算设备102进行通信。例如，机器学习模型140能够由服务器计算***140实现为web服务的一部分。因此，一个或多个模型120能够被存储和实现在用户计算设备102处并且/或者一个或多个模型140能够被存储和实现在服务器计算***130处。

用户计算设备102还能够包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或触针)的触摸敏感的触敏组件(例如，触敏显示屏幕或触摸板)。触敏组件能够用来实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户能够通过其提供用户输入的其他装置。

服务器计算***130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或在操作上连接的多个处理器。存储器134能够包括一种或多种非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪速存储器设备、磁盘等及其组合。存储器134能够存储由处理器132运行以使服务器计算***130执行操作的数据136和指令138。

在一些实现方式中，服务器计算***130包括一个或多个服务器计算设备或者由一个或多个服务器计算设备以其他方式实现。在服务器计算***130包括多个服务器计算设备的情况下，此类服务器计算设备能够根据顺序计算架构、并行计算架构或其某种组合来操作。

如上所述，服务器计算***130能够存储或以其他方式包括一个或多个机器学习模型140。例如，模型140可以是或者能够以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、循环神经网络和卷积神经网络。一些示例机器学习模型能够利用诸如自注意力的注意力机制。例如，一些示例机器学习模型能够包括多头自注意力模型(例如，transformer模型)。参考图1-2F讨论示例模型140。

用户计算设备102和/或服务器计算***130能够经由与通过网络180通信地耦合的训练计算***150的交互来训练模型120和/或140。训练计算***150能够与服务器计算***130分开或者可以是服务器计算***130的一部分。

训练计算***150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或在操作上连接的多个处理器。存储器154能够包括一种或多种非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪速存储器设备、磁盘等及其组合。存储器154能够存储由处理器152运行以使训练计算***150执行操作的数据156和指令158。在一些实现方式中，训练计算***150包括一个或多个服务器计算设备或者由一个或多个服务器计算设备以其他方式实现。

训练计算***150能够包括模型训练器160，所述模型训练器160使用诸如例如误差的反向传播的各种训练或学习技术来训练存储在用户计算设备102和/或服务器计算***130处的机器学习模型120和/或140。例如，能够通过模型来反向传播损失函数以更新模型的一个或多个参数(例如，基于损失函数的梯度)。能够使用各种损失函数，诸如均方误差、似然损失、交叉熵损失、铰链损失和/或各种其他损失函数。梯度下降技术能够用于通过许多训练迭代来迭代地更新参数。

在一些实现方式中，执行误差的反向传播能够包括通过时间执行截断反向传播。模型训练器160能够执行许多泛化技术(例如，权重衰减、暂退法等)以改进被训练模型的泛化能力。

特别地，模型训练器160能够基于训练数据162的集合来训练机器学习模型120和/或140。在一些实现方式中，如果用户已提供了同意，则训练示例能够由用户计算设备102提供。因此，在此类实现方式中，提供给用户计算设备102的模型120能够由训练计算***150在从用户计算设备102接收到的用户特定数据上训练。在一些情况下，能够将此过程称为个性化模型。

模型训练器160包括被利用来提供期望功能性的计算机逻辑。能够在控制通用处理器的硬件、固件和/或软件中实现模型训练器160。例如，在一些实现方式中，模型训练器160包括存储在存储设备上、加载到存储器中并且由一个或多个处理器运行的程序文件。在其他实现方式中，模型训练器160包括被存储在诸如RAM、硬盘或光学或磁性介质的有形计算机可读存储介质中的计算机可运行指令的一个或多个集合。

网络180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，因特网)或其某种组合并且能够包括任何数目的有线或无线链路。一般而言，网络180上的通信能够使用各式各样通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)来经由任何类型的有线和/或无线连接承载。

可以在各种任务、应用和/或用例中使用本说明书中描述的机器学习模型。

在一些实现方式中，本公开的机器学习模型的输入可以是图像数据。机器学习模型能够处理图像数据以生成输出。作为示例，机器学习模型能够处理图像数据以生成图像识别输出(例如，图像数据的识别、图像数据的潜在嵌入、图像数据的编码表示、图像数据的散列等)。作为另一示例，机器学习模型能够处理图像数据以生成图像分段输出。作为另一示例，机器学习模型能够处理图像数据以生成图像分类输出。作为另一示例，机器学习模型能够处理图像数据以生成图像数据修改输出(例如，图像数据的变更等)。作为另一示例，机器学习模型能够处理图像数据以生成编码图像数据输出(例如，图像数据的编码和/或压缩表示等)。作为另一示例，机器学习模型能够处理图像数据以生成扩大的图像数据输出。作为另一示例，机器学习模型能够处理图像数据以生成预测输出。

在一些实现方式中，本公开的机器学习模型的输入可以是文本或自然语言数据。机器学习模型能够处理文本或自然语言数据以生成输出。作为示例，机器学习模型能够处理自然语言数据以生成语言编码输出。作为另一示例，机器学习模型能够处理文本或自然语言数据以生成潜在文本嵌入输出。作为另一示例，机器学习模型能够处理文本或自然语言数据以生成翻译输出。作为另一示例，机器学习模型能够处理文本或自然语言数据以生成分类输出。作为另一示例，机器学习模型能够处理文本或自然语言数据以生成文本分段输出。作为另一示例，机器学习模型能够处理文本或自然语言数据以生成语义意图输出。作为另一示例，机器学习模型能够处理文本或自然语言数据以生成扩大文本或自然语言输出(例如，质量比输入文本或自然语言更高的文本或自然语言数据等)。作为另一示例，机器学习模型能够处理文本或自然语言数据以生成预测输出。

在一些实现方式中，本公开的机器学习模型的输入可以是语音数据。机器学习模型能够处理语音数据以生成输出。作为示例，机器学习模型能够处理语音数据以生成语音识别输出。作为另一示例，机器学习模型能够处理语音数据以生成语音翻译输出。作为另一示例，机器学习模型能够处理语音数据以生成潜在嵌入输出。作为另一示例，机器学习模型能够处理语音数据以生成编码语音输出(例如，语音数据的编码和/或压缩表示等)。作为另一示例，机器学习模型能够处理语音数据以生成扩大语音输出(例如，质量比输入语音数据更高的语音数据等)。作为另一示例，机器学习模型能够处理语音数据以生成文本表示输出(例如，输入语音数据的文本表示等)。作为另一示例，机器学习模型能够处理语音数据以生成预测输出。

在一些实现方式中，本公开的机器学习模型的输入可以是潜在编码数据(例如，输入的潜在空间表示等)。机器学习模型能够处理潜在编码数据以生成输出。作为示例，机器学习模型能够处理潜在编码数据以生成识别输出。作为另一示例，机器学习模型能够处理潜在编码数据以生成重建输出。作为另一示例，机器学习模型能够处理潜在编码数据以生成搜索输出。作为另一示例，机器学习模型能够处理潜在编码数据以生成重新聚类输出。作为另一示例，机器学习模型能够处理潜在编码数据以生成预测输出。

在一些实现方式中，本公开的机器学习模型的输入可以是统计数据。统计数据可以是、表示或者以其他方式包括从一些其他数据源计算和/或计算出的数据。机器学习模型能够处理统计数据以生成输出。作为示例，机器学习模型能够处理统计数据以生成识别输出。作为另一示例，机器学习模型能够处理统计数据以生成预测输出。作为另一示例，机器学习模型能够处理统计数据以生成分类输出。作为另一示例，机器学习模型能够处理统计数据以生成分段输出。作为另一示例，机器学习模型能够处理统计数据以生成可视化输出。作为另一示例，机器学习模型能够处理统计数据以生成诊断输出。

在一些实现方式中，本公开的机器学习模型的输入可以是传感器数据。机器学习模型能够处理传感器数据以生成输出。作为示例，机器学习模型能够处理传感器数据以生成识别输出。作为另一示例，机器学习模型能够处理传感器数据以生成预测输出。作为另一示例，机器学习模型能够处理传感器数据以生成分类输出。作为另一示例，机器学习模型能够处理传感器数据以生成分段输出。作为另一示例，机器学习模型能够处理传感器数据以生成可视化输出。作为另一示例，机器学习模型能够处理传感器数据以生成诊断输出。作为另一示例，机器学习模型能够处理传感器数据以生成检测输出。

在一些情况下，机器学习模型能够被配置成执行包括对输入数据进行编码以进行可靠和/或高效传输或存储(和/或对应解码)的任务。例如，任务可以是音频压缩任务。输入可以包括音频数据并且输出可以包括压缩音频数据。在另一示例中，输入包括视觉数据(例如，一个或多个图像或视频)，输出包括压缩视觉数据，并且任务是视觉数据压缩任务。在另一示例中，任务可以包括为输入数据(例如输入音频或视频数据)生成嵌入。

在一些情况下，输入包括视觉数据并且任务是计算机视觉任务。在一些情况下，输入包括一个或多个图像的像素数据并且任务是图像处理任务。例如，图像处理任务可以是图像分类，其中输出是分数集合，每个分数对应于不同对象类并且表示一个或多个图像描绘属于该对象类的对象的可能性。图像处理任务可以是对象检测，其中图像处理输出标识一个或多个图像中的一个或多个区域，以及对于每个区域，区域描绘感兴趣对象的可能性。作为另一示例，图像处理任务可以是图像分段，其中图像处理输出为一个或多个图像中的每个像素定义预定类别集合中的每个类别的相应可能性。例如，类别集合可以是前景和背景。作为另一示例，类别集合可以是对象类。作为另一示例，图像处理任务可以是深度估计，其中图像处理输出为一个或多个图像中的每个像素定义相应的深度值。作为另一示例，图像处理任务可以是运动估计，其中网络输入包括多个图像，并且图像处理输出为输入图像之一的每个像素定义在在网络输入中的图像之间的像素处描绘的场景的运动。

在一些情况下，输入包括表示口语话语的音频数据并且任务是语音识别任务。输出可以包括被映射到口语话语的文本输出。在一些情况下，任务包括对输入数据进行加密或解密。在一些情况下，任务包括微处理器性能任务，诸如分支预测或存储器地址转换。

图3A图示能够用于实现本公开的一个示例计算***。也能够使用其他计算***。例如，在一些实现方式中，用户计算设备102能够包括模型训练器160和训练数据集162。在此类实现方式中，能够在用户计算设备102处既训练又在本地使用模型120。在一些此类实现方式中，用户计算设备102能够实现模型训练器160以基于用户特定数据个性化模型120。

图3B描绘根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括许多应用(例如，应用1至N)。每个应用包含它自己的机器学习库和机器学习模型。例如，每个应用能够包括机器学习模型。示例应用包括文本消息传送应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图3B所图示的，每个应用能够与计算设备的许多其他组件如例如一个或多个传感器、场境管理器、设备状态组件和/或附加组件进行通信。在一些实现方式中，每个应用能够使用API(例如，公用API)来与每个设备组件进行通信。在一些实现方式中，由每个应用使用的API特定于该应用。

图3C描绘根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括许多应用(例如，应用1至N)。每个应用与中央智能层通信。示例应用包括文本消息传送应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实现方式中，每个应用能够使用API(例如，跨所有应用的公共API)与中央智能层(和存储在其中的模型)进行通信。

中央智能层包括许多机器学习模型。例如，如图3C所图示的，能够为每个应用提供相应的机器学习模型并且相应的机器学习模型由中央智能层管理。在其他实现方式中，两个或更多个应用能够共享单个机器学习模型。例如，在一些实现方式中，中央智能层能够为所有应用提供单个模型。在一些实现方式中，中央智能层被包括在计算设备50的操作***内或者由计算设备50的操作***以其他方式实现。

中央智能层能够与中央设备数据层进行通信。中央设备数据层可以是用于计算设备50的数据的集中式储存库。如图3C所图示的，中央设备数据层能够与诸如例如一个或多个传感器、场境管理器、设备状态组件和/或附加组件的计算设备的许多其他组件进行通信。在一些实现方式中，中央设备数据层能够使用API(例如，专用API)来与每个设备组件进行通信。

附加公开内容

本文讨论的技术参考服务器、数据库、软件应用和其他基于计算机的***，以及所采取的动作和往返于此类***发送的信息。基于计算机的***的固有灵活性允许实现任务和功能性在组件之间和当中的各种各样可能的配置、组合和划分。例如，本文讨论的过程能够使用单个设备或组件或相结合地工作的多个设备或组件来实现。数据库和应用能够被实现在单个***上或者跨多个***分布。分布式组件能够顺序地或并行工作。

虽然已相对于本主题的各种特定示例实施例详细地描述了本主题，但是每个示例是作为对本公开的说明而非限制提供的。本领域的技术人员在获得对前文的理解后，能够容易地产生对此类实施例的变更、变化和等同物。因此，主题公开不排除包括如对本领域的普通技术人员而言将容易地显而易见的对本主题的此类修改、变化和/或添加。例如，作为一个实施例的一部分图示或描述的特征能够与另一实施例一起使用以产生再一个实施例。因此，本公开旨在涵盖此类变更、变化和等同物。

Claims

1.一种用于执行具有降低的计算要求的注意力机制的计算***，所述计算***包括：

一个或多个处理器；以及

一个或多个非暂时性计算机可读介质，所述一个或多个非暂时性计算机可读介质共同存储被配置成接收并且处理模型输入以生成模型输出的机器学习注意力模型，其中，所述机器学习注意力模型包括一个或多个注意力层，其中，所述一个或多个注意力层中的至少一个包括一个或多个注意力头，并且其中，所述一个或多个注意力头中的至少一个注意力头被配置成：

接收输入数据元素序列；并且

对所述输入数据元素序列应用结构化注意力模式以生成输出数据元素序列；

其中，对于所述输入数据元素序列中的每个输入数据元素，所述结构化注意力模式指定直接期望的一个或多个位置和局部期望的一个或多个位置组；以及

其中，对于局部期望的所述一个或多个位置组中的每一个位置组，所述一个或多个注意力头中的所述至少一个注意力头被配置成：

确定该位置组的单个组概率；并且

确定该位置组中的每个位置的局部期望。

2.根据权利要求1所述的计算***，其中，所述结构化注意力模式包括具有覆盖所述输入数据元素序列的全体的支集的全注意力模式。

3.根据权利要求1所述的计算***，其中，所述一个或多个注意力头中的所述至少一个注意力头被配置成在对于所述输入数据元素序列中的两个或更多个不同输入数据元素应用所述结构化注意力模式时，重新使用所述位置组中的每个位置的局部期望。

4.根据权利要求1所述的计算***，其中，所述输入数据元素序列包括输入嵌入序列。

5.根据权利要求1所述的计算***，其中，所述结构化注意力模式指定局部期望的多个位置组。

6.根据权利要求1所述的计算***，其中，所述机器学习注意力模型包括多个注意力层，其中，所述多个注意力层中的每一个包括多个注意力头，并且其中，所述多个注意力头中的每一个被配置成应用所述结构化注意力模式。

7.根据权利要求1所述的计算***，其中，所述结构化注意力模式包括具有两个或更多个层次划分级别的划分树。

8.根据权利要求1所述的计算***，其中，所述一个或多个注意力头中的所述至少一个注意力头被配置成：

对于局部期望的所述一个或多个位置组中的每一个位置组，规范化该位置组的所述单独局部期望；并且

规范化直接期望的所述一个或多个位置和所述一个或多个位置组的所述单个组概率。

9.根据权利要求1所述的计算***，其中，所述结构化注意力模式包括combiner-固定注意力模式。

10.根据权利要求1所述的计算***，其中，所述结构化注意力模式包括combiner-logsparse注意力模式。

11.根据权利要求1所述的计算***，其中，所述结构化注意力模式包括combiner-轴向注意力模式。

12.根据权利要求1所述的计算***，其中，所述结构化注意力模式包括指定直接期望的所述一个或多个位置和局部期望的所述一个或多个位置组的机器学习因子分解计划。

13.根据权利要求1-12中的任一项所述的计算***，其中，所述模型输入包括自然语言数据。

14.根据权利要求1-12中的任一项所述的计算***，其中，所述模型输入包括图像数据、音频数据、蛋白质数据或计算机可读代码数据。

15.一种用于执行具有降低的计算要求的注意力机制的计算机实现的方法，所述方法包括：

接收输入数据元素序列；以及

对所述输入数据元素序列中的每个输入数据元素应用结构化注意力模式以生成输出数据元素序列，其中，将所述结构化注意力模式应用于每个输入数据元素包括：

确定直接期望的一个或多个位置和局部期望的一个或多个位置组；以及

对于直接期望的所述一个或多个位置中的每一个位置，确定直接期望；以及

对于局部期望的所述一个或多个位置组中的每一个位置组：

确定该位置组的单个组概率；以及

确定该位置组中的每个位置的局部期望。

16.根据权利要求15所述的计算机实现的方法，其中，所述结构化注意力模式具有覆盖所述输入数据元素序列的全体的支集。

17.根据权利要求15所述的计算机实现的方法，其中，对于局部期望的所述一个或多个位置组中的至少一个位置组，确定所述位置组中的每个位置的局部期望包括：重新使用先前针对所述输入数据元素序列中的不同输入数据元素计算的所述位置组中的每个位置的局部期望。

18.根据权利要求15所述的计算机实现的方法，其中，所述输入数据元素序列包括输入嵌入序列。

19.根据权利要求15-18中的任一项所述的计算机实现的方法，其中，所述结构化注意力模式指定局部期望的多个位置组。

20.一个或多个非暂时性计算机可读介质，所述一个或多个非暂时性计算机可读介质共同存储机器学习注意力模型，其中：

所述机器学习注意力模型被配置成接收并且处理模型输入以生成模型输出，所述机器学习注意力模型包括一个或多个注意力层，所述一个或多个注意力层中的至少一个包括一个或多个注意力头，并且所述一个或多个注意力头中的至少一个注意力头被配置成：

接收输入数据元素序列；以及

确定该位置组的单个组概率；并且

确定该位置组中的每个位置的局部期望。