CN108733596A

CN108733596A - 用于脉动阵列架构的静态可调度馈送和排放结构

Info

Publication number: CN108733596A
Application number: CN201810233525.8A
Authority: CN
Inventors: R·黄; Y·T·刘; J·G·H·翁
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-04-21
Filing date: 2018-03-21
Publication date: 2018-11-02
Also published as: US10585621B2; EP3407203A3; EP3407203B1; EP3407203A2; US20180307438A1

Abstract

公开了一种在集成电路的电路中实施的脉动阵列，其包括处理元件阵列，该处理元件阵列包括处理元件。脉动阵列包括通信耦合到处理元件阵列的一个或多个馈送器电路。一个或多个馈送器电路中的每个包括：第一区域，其被配置成接收存储在所述集成电路外部的存储器中的数据；以及第二区域，其被配置成向所述处理元件阵列发送所接收的数据，其中，从所述存储器传输到所述处理元件阵列的数据被所述第一区域和所述第二区域双重缓冲。脉动阵列还包括通信耦合到所述处理元件阵列的一个或多个排出电路，所述排出电路包括被配置成存储由所述处理元件阵列输出的数据的一个或多个存储器缓冲器。

Description

用于脉动阵列架构的静态可调度馈送和排放结构

相关申请的交叉引用

本申请要求享有2017年4月21日提交的题为“Statically schedulable Feed andDrain Structure for Systolic Array Architecture”的美国临时专利申请No.62/488635的优先权和权益，在此通过引用的方式将该美国临时专利申请的全文并入。

技术领域

本公开总体上涉及矩阵乘法运算。更具体而言，本公开涉及实施用于矩阵乘法运算的脉动阵列矩阵乘法器的方法和设备。

背景技术

本节意在向读者介绍可能与以下描述和/或主张的本公开的各方面相关的技术的各方面。相信本论述有助于为读者提供背景信息以便于更好地理解本公开的各方面。因此，应当理解，这些陈述要从这一角度阅读，并且不能作为现有技术被接纳。

很多数值计算应用，例如高性能计算、深度学***台上实施脉动阵列架构可能存在困难。例如，可能存在与外部存储器(例如，集成电路外部的存储器、芯片外存储器)带宽限制和FPGA片上存储器限制相关的挑战。具体而言，芯片外存储器带宽可能不足以维持脉动阵列的峰值操作性能，而芯片上存储器带宽可以更高但仍然受限。

附图说明

在阅读以下具体实施方式并参考附图时，本公开的优点可以变得显而易见，在附图中：

图1A是根据实施例的示出了脉动阵列的示例性架构的框图；

图1B是根据实施例的进入和离开图1A的脉动阵列的处理元件的数据馈送的示意图；

图2是根据实施例的图1A的脉动阵列的馈送器阵列微架构的示意图；

图3是根据实施例的图1A的脉动阵列的排出微架构的示意图；

图4是根据实施例的由图1A的脉动阵列执行的矩阵乘法中的矩阵结构的示意图；

图5是根据实施例的图4的矩阵结构的预先布置的示意图；

图6是根据实施例的示出了用于从图5的预先布置的矩阵结构向图1A的脉动阵列中馈送矩阵数据的馈送模式的示意图。

图7是根据实施例的示出了图5的预先布置的矩阵结构的进入图1A的脉动阵列的处理元件阵列中的馈送数据流的示意图；

图8是根据实施例的示出了可以用于执行图1A的脉动阵列的实施方式的集成电路***的框图；以及

图9是根据实施例的用于使用本公开的***和方法处理数据集的电子***的示例。

具体实施方式

下面将描述本公开的一个或多个具体实施例。为了提供这些实施例的简明描述，在说明书中未描述实际实施方式的所有特征。应当认识到，在开发任何这种实际实施方式时，如在任何工程学或设计项目中那样，必须要做出众多实施方式特定的决策，以实现开发者的具体目标，例如遵守***相关和商务相关的约束，在一种实施方式和另一种之间，约束可能变化。此外，应当认识到，这种开发努力可能很复杂且消耗时间，但仍然是受益于本公开的普通技术人员着手进行设计、制造和制作的惯例。本文提出并主张权利的技术被参考并应用于可论证地改进当前技术领域的实践性质的实物和具象的示例，并且这样一来，不是抽象的、无形的或纯粹理论的。

这些实施例涉及矩阵乘法，其中可以将矩阵A的每行与矩阵B的每列相乘。数据流可以是预先确定的。矩阵A和B可以被布置成矩阵A被原样使用并且矩阵B被转置的方式。这样可以减小复杂数据排列和用于重新排序的存储器缓冲器的尺寸。矩阵数据可以在馈送器电路处被双重缓冲。可以去除个体反向压力信号和脉动阵列内的用于中间数据的缓冲器。双重缓冲可以实现同时从芯片外存储器获取数据以及向脉动阵列进行数据流传输。双重缓冲也可以隐藏芯片外存储器延迟。本公开鼓励高的数据重复使用，因为矩阵的每个值都可以在脉动阵列处理元件(PE)内共享。

馈送器电路具有两个区域作为其存储器缓冲器(双重缓冲)。一个区域用于从芯片外加载，而一个区域用于向PE中流传输。数据被顺序填充到每个区域中；于是，没有序列发生器或重新排序。所有馈送器电路可以共享同一个馈送器控制器，从而能够进行集中馈送控制并减少控制逻辑单元。可以检查/验证(例如，有效性检查)从每个区域加载数据的完成。每个区域可以基于该区域已完成而具有有效性。在排出先进先出(FIFO)存储器缓冲器已满时，可以从排出电路提供反向压力。可以将重复块用作数据重复使用计数器。

关于排出电路，可以通过静态调度的方式接收脉动阵列结果，因为PE的产生会导致固定的周期性延迟。馈送器区域可以被预先缓冲，并能够进行高数据重复使用，以确保所产生结果的恒定流。停顿可能直接受到影响FIFO存储器缓冲器水平的写入带宽(例如，写入等待请求)的驱动。所有排出电路可以共享同一个控制器，使得能够进行集中排出控制并减少控制逻辑单元。可以通过监测FIFO存储器缓冲器水平来产生FIFO完整信号。排出电路的效率可以与写入带宽成正比。

提出的实施例可以被设计成实现高效率的矩阵乘法和使用诸如神经网络的矩阵结构的任何适当应用。馈送器电路处的双重缓冲实现了静态调度的PE。可以在脉动阵列内充分前馈数据和控制。效率可能直接受到写入带宽的驱动。使用这种预先模式矩阵中数据结构可以减小或消除复杂的数据序列发生器。结果，可以实现高性能和高频电路，其具有减少的控制逻辑单元，而大部分时间可以花在数据流水线操作中。

考虑到以上内容，涉及矩阵乘法脉动阵列的提出的实施例提供用于高效率地实施脉动阵列的方法和相关联的处理微架构。这些可以实施在集成电路(例如，现场可编程门阵列(FPGA)或专用集成电路(ASIC)硬件)上。具有静态调度的有效电路用于馈送数据和排出数据，实现了高性能和/或充分前馈数据流，而没有个体反向压力控制信号和复杂的重新排序电路。具体而言，从芯片外存储器向矩阵乘法脉动阵列馈送的数据(例如，具有行和列索引m和n的矩阵A_m,n，以及具有行和列索引k和l的矩阵B_k,l)可以被预先布置，从而预先确定数据流以消除其它复杂数据排列和用于重新排序的大存储器缓冲器。可以在馈送器处对数据进行双重缓冲，从而去除个体反向压力信号和脉动阵列内的用于中间数据的缓冲器，使得能够同时从芯片外存储器获取数据并向脉动阵列中进行数据流传输(例如，芯片外存储器的延迟减小)。此外，可以在脉动阵列的处理元件(PE)内共享数据，以促进高数据重复使用(例如，数据交织)。结果，本文论述的用于脉动阵列架构的静态调度馈送和排出电路可以改善芯片外存储器带宽，而这些电路也可以缩放以实施更大尺寸的脉动阵列。

图1A显示了示出在集成电路12上实施的脉动阵列10的示例性架构的框图。集成电路12可以代表例如可编程逻辑器件，例如现场可编程门阵列(FPGA)或包括以本公开的方式设计和/或编程的电路的专用集成电路(ASIC)。脉动阵列10包括二维(2D)处理元件(PE)阵列14，其包括跨越宽度18和高度20的若干PE 16。在例示的实施例中，PE阵列14的宽度18和高度20分别为四和四(例如，PE 16的4行×4列阵列)。PE阵列14沿PE阵列14的正交边缘耦合到馈送器阵列22和馈送器阵列26。馈送器阵列22可以包括若干馈送器24(例如，第一馈送器“馈送器Y₁”、第二馈送器“馈送器Y₂”等)，并且馈送器阵列26可以包括若干馈送器28(例如，第一馈送器“馈送器X₁”、第二馈送器“馈送器X₂”等)。馈送器阵列22具有高度30并且馈送器阵列24具有宽度32。在例示的实施例中，馈送器阵列22的高度30等于PE阵列14的高度20(例如，四个馈送器24)，并且馈送器阵列26的宽度32等于PE阵列14的宽度18(例如，四个馈送器28)。馈送器阵列22和26耦合到外部或芯片外存储器34，例如外部随机存取存储器(RAM)。尽管存储器34被描述为在集成电路12的“外部”，此外或替代地，它可以在芯片上或在集成电路12“内部”。

在操作时，矩阵数据被从外部存储器34加载到馈送器阵列22和26，馈送器阵列22、26缓冲输入矩阵数据并将输入矩阵数据传递到进行矩阵乘法的PE阵列14中。如稍后在图2中所述，馈送阵列22和26中的这种数据缓冲可以实现同时从外部存储器34获取数据并向脉动阵列10中进行数据流传输。类似地，PE阵列14中的PE 16中的每个都具有存储器36，以充当暂时存储计算结果的“存储体”。在PE阵列14内，以线性方式向后续PE 16传播数据传输，如PE 16之间的箭头38所示，沿行或列传递通过PE阵列14。PE 16中的每个负责处理其输入并将处理的数据或结果传递到对应的排出器或汇集器。在例示的实施例中，脉动阵列10包括排出或汇集阵列40，其具有通信耦合到PE阵列14的若干排出器或汇集器42。排出或汇集阵列40可以沿PE阵列14的轴(例如，沿馈送器阵列22或沿馈送器阵列26的边缘或轴)之一设置。排出阵列40的宽度等于馈送器阵列26的宽度32(例如，四个排出器42)。若干排出器42中的每个处理来自PE阵列14的每列的部分结果和/或将其传递到适当位置(例如，***主机)。图3中提供了关于排出阵列40的更多论述。

图1B是根据实施例的进入和离开图1A的脉动阵列10的PE 16的数据馈送的示意图。在例示的实施例中，可以如数据通路23所指示的从馈送器阵列22向PE 16中馈送数据(例如，来自第一矩阵的数据的一部分)，并且可以如数据通路27所指示的从馈送器阵列26向PE 16中馈送数据(例如，来自第二矩阵的数据)。可以将处理/计算的数据或结果馈送到并存储于PE 16的存储器36中，如数据通路37所指示的。可以将处理/计算的数据或结果从存储器36馈送到排出阵列40，例如对应的排出器或汇集器，如数据通路39所指示的。在一个实施例中，也可以将处理/计算的数据或结果从存储器36馈送回到PE 16，如数据通路41所指示的。

类似地，可以将数据(例如，来自第一矩阵的数据的一部分)从馈送器阵列22馈送到另一PE 16(例如，PE阵列14中的相邻行中的PE)，如数据通路43所指示的。在一个实施例中，正向寄存器45可以沿数据通路43设置，用于正向传输数据。可以将数据(例如，来自第二矩阵的数据的一部分)从馈送器阵列26馈送到另一PE 16(例如，PE阵列14中的相邻列中的PE)，如数据通路47所指示的。正向寄存器(例如，正向寄存器45)也可以沿数据通路47设置，用于正向传输数据。

图2示出了用于馈送器阵列(例如，馈送器阵列22或馈送器阵列26)的馈送器微架构50的示例。馈送器微架构50可以包括针对每个馈送器的馈送器电路52。在例示的实施例中，每个馈送器阵列中有四个馈送器(例如，图1A中的馈送器阵列22的四个馈送器24以及馈送器阵列26的四个馈送器28)；对应地，馈送器微架构50包括四个馈送器电路52。馈送器电路52中的每个包括存储器缓冲器54，其包括两个区域(例如，双重缓冲)，第一区域56和第二区域58。第一区域56从芯片外存储器34向对应的馈送器加载矩阵数据，而第二区域58向PE阵列14中流传输加载的矩阵数据。矩阵数据被顺序加载到第一和第二区域56和58的每个中。这样一来，在一些实施例中，馈送器微架构50可以不包括序列发生器或重新排序引擎。馈送器微架构50还可以包括操作耦合到馈送器电路52的馈送器控制器60。在例示的实施例中，四个馈送器电路52全部耦合到同一馈送器控制器60，从而能够进行集中馈送控制并减少控制逻辑单元的量。在其它实施例中，少于所有馈送器电路52可以耦合到馈送器控制器，并且其余馈送器电路52可以耦合到不同的馈送器控制器。

馈送器控制器60可以包括读取控制器62、有效检查引擎64和反向压力检查引擎66。读取控制器62可以使能经由馈送器电路52读取矩阵数据(例如，矩阵A_m,n和矩阵B_k,l，如数据通信箭头68所指示的)。有效检查引擎64可以对第一区域56和第二区域58中的每个进行有效检查。例如，可以检查/验证(例如，有效检查)从第一区域56和第二区域58中的每个加载数据的完成。具体而言，有效检查引擎64可以包括检查第一区域56和/或第二区域58中的数据加载是否完成的块或逻辑单元70，如数据通信箭头72所指示的。反向压力检查引擎66可以提供与来自排出阵列40的反向压力相关的信息。例如，如数据通信箭头74所指示的，在排出器(例如，排出器42)的先进先出(FIFO)存储器缓冲器已满时，可以从排出电路提供表示反向压力的信息(例如，写入等待请求)。在反向压力检查(例如，数据通信箭头74)清空(例如，FIFO存储器缓冲器不满)时，有效检查引擎64可以发送读取请求，如数据通信箭头76所指示的，以获取要馈送到PE阵列14中的读取矩阵数据。有效检查引擎64可以包括确定有效信号80的块或逻辑单元78，有效信号80发起经由馈送器电路52向PE阵列14中加载读取矩阵数据(例如，矩阵A_m,n和矩阵B_k,l)，如数据通信箭头82所指示的。例如，在(例如，在框78处)接收到有效检查和反向压力检查两者的传递时确定有效信号80。在一些实施例中，反向压力检查引擎66可以包括用作数据重复使用计数器的重复块或逻辑单元84。稍后将论述数据重复使用(例如，数据交织)的示例。

图3示出了用于排出阵列(例如，排出阵列40)的排出微架构90的示例。排出微架构90可以包括针对每个排出器的排出电路92。在例示的实施例中，每个排出阵列中有四个排出器(例如，图1A中的排出阵列40的排出器42)；对应地，排出微架构90包括四个排出电路92。排出电路92中的每个包括针对每个对应PE 16的存储器缓冲器94，例如FIFO存储器缓冲器。例如，将来自PE 16中的每个的数据被排出到对应的存储器缓冲器94，例如对应排出电路92的FIFO存储器缓冲器。排出微架构90还包括经由适配器电路98操作耦合到排出电路92的排出控制器96。在例示的实施例中，四个排出电路92全部都耦合到同一排出控制器96，从而能够实现集中排出控制并减少控制逻辑单元的数量。在其它实施例中，少于全部排出电路92可以耦合到排出控制器，并且其余排出电路92可以耦合到不同的排出控制器。排出控制器96可以包括写入控制器100和存储器缓冲器监测器102。写入控制器100可以使能从排出电路92中的每个向适当位置(例如，***主机)写入计算结果(例如，部分计算结果)。例如，适配器98可以包括耦合于相应PE 16和芯片外存储器34之间的数据总线宽度转换器，并且写入控制器100可以操作耦合到数据总线宽度转换器以控制从PE 16输出到芯片外存储器34的数据的流传输。具体而言，与芯片外存储器34的相对较窄的数据总线接口相比，PE16可以在相对较大的宽度上流传输数据。在该情况下，写入控制器100可以控制适配器98的操作以缩窄/集中从PE 16向芯片外存储器34中流传输的输出数据。在一个实施例中，可以在相同尺寸的多个数据包中流传输来自PE 16的输出数据。存储器缓冲器监测器102可以监测存储器缓冲器94中的每个的FIFO水平。具体而言，写入控制器100可以从存储器缓冲器94接收指示反向压力的信息并向存储器缓冲器监测器102传送该信息，如数据通信箭头74所指示的。在存储器缓冲器监测器102确定存储器缓冲器94已满时，排出控制器96可以向馈送器(例如，馈送器阵列22和26)发送信号，如数据通信箭头104所指示的，以停止向PE 16馈送矩阵数据。

另一方面，在没有指示临界反向压力(例如，存储器缓冲器94已满)的数据通信(例如，如箭头74和104所指示)时，可以遵循如箭头106所指示的数据通路接收来自PE阵列14的计算结果(例如，部分计算结果)并将其写入到适当位置(例如，***主机)。可以通过静态调度的方式接收来自脉动阵列10的计算结果，因为结果是由PE 16以固定周期延迟产生的。具体而言，由于馈送器架构50包括双重缓冲区域(例如，第一和第二区域56和58)并且数据流被预先布置和/或预先确定以实现高数据重复使用(例如，交织数据)，可以由脉动阵列10将计算结果产生为恒定流。因此，基于上文阐述的馈送器微架构50和排出微架构90，停顿可以直接受写入带宽(例如，写入等待请求，如数据通信箭头74所指示)驱动，写入带宽至少部分取决于存储器缓冲器94的FIFO存储器缓冲器水平。这样一来，在至少一些情况下，排出电路92的效率可以与写入带宽成正比。

接下来，论述将矩阵A_m,n和矩阵B_k,l到PE阵列12中的馈送器数据流传输(例如，从馈送器阵列22和26到PE阵列14的数据流)，以及存储在芯片外存储器34中的矩阵结构的对应的预先布置。在图4-7中所示的例示中，矩阵数据被预先布置为经由八个馈送器沿每个正交边缘馈送到8×8PE阵列中，但是应当理解，可以将所述过程用于大得多的PE阵列(例如，10×10PE阵列、12×12PE阵列、16×16PE阵列、24×24PE阵列、50×50PE阵列、100×100PE阵列、200×200PE阵列、1000×1000PE阵列或更大)。应当认识到，可以实现具有如下馈送模式的馈送器数据流传输，该馈送模式实现高数据重复使用而无需复杂的数据排列和用于重新排序的大存储器缓冲器，因为矩阵数据(例如，矩阵A_m,n和矩阵B_k,l)以预先布置的方式存储于芯片外存储器34中，该方式支持馈送器数据流传输的这种馈送模式。经由馈送器阵列22和26向PE阵列14中流传输的馈送器数据以及芯片外存储器34中存储的预先布置的矩阵结构可能紧密相关，因此，交换矩阵A_m,n和矩阵B_k,l的预先布置的矩阵结构将不支持具有本文所述的馈送模式的馈送器数据流传输。

图4是示出了芯片外存储器34上存储的矩阵A_m,n的初始矩阵结构110和矩阵B_k,l的初始矩阵结构112的示意图。初始矩阵结构110和112都以行优先次序存储(例如，一行的相继要素彼此相邻；阵列的行要素在存储器中连续)。初始矩阵结构110和112中的每个可以被分成或划分成适当数量的区域。在例示的实施例中，初始矩阵结构110是16×16矩阵(例如，m＝n＝16)，并且初始矩阵结构112也是16×16矩阵(例如，k＝l＝16)。初始矩阵结构110和112中的每个可以被划分成四个区域，区域0、1、2和3，如所示。区域0包括来自行0-7和列0-7的矩阵数据，区域1包括行0-7和列8-15，区域2包括行8-15和列0-7，并且区域3包括行8-15和列8-15。

图5是示出了芯片外存储器34上存储的矩阵A_m,n的初始矩阵结构110的预先布置的矩阵结构114和矩阵B_k,l的初始矩阵结构112的预先布置的矩阵结构116的示意图。初始矩阵结构110和112中的每个可以被进一步分成或划分成适当数量的子区域。在例示的实施例中，初始矩阵结构110和112中的每个被划分成八个子区域，子区域1、子区域2……和子区域8，如所示。具体而言，对于矩阵A_m,n，区域0被进一步划分成子区域1和3，区域1被进一步划分成子区域5和7，区域2被进一步划分成子区域2和4，并且区域3被进一步划分成子区域6和8，如所示。然后将子区域1-8重新布置成预先布置的矩阵结构114。

对于矩阵A_m,n，随着初始矩阵结构110被重新布置成预先布置的矩阵结构114，矩阵的取向发生改变。具体而言，初始矩阵结构110中的行0-7和列0-3变成预先布置的矩阵结构114中的行0-3和列0-7，初始矩阵结构110中的行8-15和列0-3变成预先布置的矩阵结构114中的行0-3和列8-15，初始矩阵结构110中的行0-7和列4-7变成预先布置的矩阵结构114中的行4-7和列0-7，等等(例如，取向已经改变)。

另一方面，对于矩阵B_k,l，预先布置的矩阵结构116和初始矩阵结构112之间的差异是划分的数量。具体而言，四个区域0-3被进一步划分成子区域1-8，而取向不变。

预先布置的矩阵结构114的子区域中的每个具有高度118×宽度120的尺寸，并且预先布置的矩阵结构116的子区域中的每个具有高度122×宽度124的尺寸。在例示的实施例中，预先布置的矩阵结构114和116均具有四行×八列(例如，高度118＝高度122＝4倍宽度120＝宽度124＝8)的尺寸。

图6为示出了分别用于从芯片外存储器34向馈送器阵列22和26馈送来自预先布置的矩阵结构114的矩阵A_m,n数据的馈送模式130以及馈送来自预先布置的矩阵结构116的矩阵B_k,l的馈送模式132的示意图。按照相对于时间坐标134馈送矩阵数据的次序布置馈送模式130和132。

对于馈送模式130，将预先布置的矩阵结构114中的矩阵数据A_m,n从芯片外存储器34馈送到第一馈送器Y₁被例示为示例。具体而言，馈送来自子区域1的数据的一部分(例如，子区域1中的八列数据中的第一列)，接着是来自子区域2的数据的一部分(例如，第一列)，接着是来自子区域3的数据的一部分(例如，第一列)，以及沿时间坐标134以此类推。因此，第一馈送器Y₁可以从子区域1接收段141，接着从子区域2接收段142……，接着从子区域3接收段143……，接着从子区域8接收段148。如所示，段141-148被指示为列1。通过相同方式，第二馈送器Y₂可以从列2接收段，第三馈送器Y₃可以从列3接收段，等等。

应当指出，根据馈送模式130，子区域1的段141对应于初始矩阵结构110中的A_0,0、A_0,1、A_0,2、A_0,3，子区域2的段142对应于初始矩阵结构110中的A_8,0、A_8,1、A_8,2、A_8,3，等等。这样一来，初始矩阵结构110中的矩阵A_m,n的区域0-3中的每个的第一行被馈送器阵列22接收。具体而言，矩阵A_m,n的区域0-3中的每个的第一行被第一馈送器Y₁接收，矩阵A_m,n的区域0-3中的每个的第二行被第二馈送器Y₂接收，矩阵A_m,n的区域0-3中的每个的第三行被第三馈送器Y₃接收，等等。

对于馈送模式132，将预先布置的矩阵结构116中的矩阵数据B_k,l从芯片外存储器34馈送到第一馈送器X₁被例示为示例。具体而言，馈送来自子区域1和2的数据的部分(例如，子区域1中的八列数据中的第一列和子区域2中的八列数据中的第一列)，接着是来自子区域3和4的数据的部分(例如，第一列)，接着是来自子区域5和6的数据的部分(例如，第一列)，并且接着是来自子区域7和8的数据的部分(例如，第一列)。因此，第一馈送器X₁可以从子区域1和2接收段161，接着从子区域3和4接收段162，接着从子区域5和6接收段163，接着从子区域7和8接收段164，如所示。通过相同的方式，第二馈送器X₂可以从子区域1-8中的每个的列2接收段，第三馈送器X₃可以从子区域1-8中的每个的列3接收段，等等。

应当指出，根据馈送模式132，子区域1-2的段161对应于初始矩阵结构112中的B_0,0、B_0,8、B_1,0、B_1,8、B_2,0、B_2,8、B_3,0和B_3,8，子区域3-4的段162对应于初始矩阵结构112中的B_4,0、B_4,8、B_5,0、B_5,8、B_6,0、B_6,8、B_7,0、B_7,8，等等。这样一来，来自区域0-3的子区域1-8的第一列被第一馈送器X₂接收，来自区域0-3的子区域1-8的第二列被第二馈送器X₂接收，来自B_k,l的区域0-3的子区域1-8的第三列被第三馈送器X₃接收，等等。

图7是分别示出了从馈送器阵列22和26到PE阵列14的矩阵A_m,n的馈送器数据流传输170和矩阵B_k,l的馈送器数据流传输172的示意图。具体而言，馈送器数据流传输170和172基于馈送器阵列22和26根据馈送模式130和132接收矩阵数据A_m,n和B_k,l的次序或排列。对于图示的馈送器数据流传输170和172，PE阵列14是8×8阵列(例如，高度20＝宽度18＝8)，并被耦合到馈送器阵列22和26，每个馈送器阵列包括八个馈送器。

预先布置的矩阵结构114中的矩阵A_m,n数据被馈送到PE阵列14中，使得初始矩阵结构110中的矩阵数据A_m,n“相对于区域0-3中的矩阵数据重复两次并交织”。例如，使用第一馈送器Y₁论述馈送器数据流传输170。来自区域0-3的段141-148中的每个的矩阵数据被馈送两次(例如，重复两次)。例如，来自段141的A_0,0、A_0,0、A_0,1、A_0,1、A_0,2、A_0,2、A_0,3、A_0,3，来自段142的A_8,0、A_8,0、A_8,1、A_8,1、A_8,2、A_8,2、A_8,3、A_8,3和来自段143-148(未示出)的数据的其余部分经由第一馈送器Y₁被馈送。术语“交织”可以指通过同一馈送器馈送的数据随时间被共享。例如，来自区域0-3的段141-148中的每个的矩阵数据被交织(例如，通过第一馈送器Y₁馈送的数据随时间被共享)。

一旦完成了第一馈送器Y₁的数据流传输170，该数据流传输170利用第二馈送器Y₂继续，接着是第三馈送器Y₃，等等，直到第八馈送器Y₈。馈送器Y₂-Y₈中的每个都从预先布置的矩阵结构114的子区域1-8中的直接相邻的列流传输数据。例如，第二馈送器Y₂流传输与由第一馈送器Y₁流传输的A_0,0、A_0,1、A_0,2、A_0,3和A_8,0、A_8,1、A_8,2、A_8,3(在预先布置的矩阵结构114中)直接相邻的A_1,0、A_1,1、A_1,2、A_1,3和A_9,0、A_9,1、A_9,2、A_9,3。例如，第三馈送器Y₃流传输与由第二馈送器Y₂流传输的A_1,0、A_1,1、A_1,2、A_1,3和A_9,0、A_9,1、A_9,2、A_9,3(在预先布置的矩阵结构114中)直接相邻的A_2,0、A_2,1、A_2,2、A_2,3和A_10,0、A_10,1、A_10,2、A_10,3。

矩阵B_k,l数据被馈送到PE阵列14中，使得矩阵数据B_k,l“在区域0-3中被交织并重复两次”。来自区域0-3的段161-164中的每个的矩阵数据被馈送两次(例如，重复两次)。例如，按照该精确次序将来自段161的B_0,0、B_0,8、B_1,0、B_1,8、B_2,0、B_2,8、B_3,0、B_3,8馈送两次，并经由第一馈送器X₁按照其相应次序将来自段162-164(未示出)的数据的其余部分馈送两次。术语“交织”可以指通过同一馈送器馈送的数据随时间被共享。例如，来自区域0-3的段161-164中的每个的矩阵数据被交织(例如，通过第一馈送器X₁馈送的数据随时间被共享)。

一旦完成了第一馈送器X₁的数据流传输172，该数据流传输172利用第二馈送器X₂继续，接着是第三馈送器X₃，等等，直到第八馈送器X₈。馈送器X₂-X₈中的每个都从预先布置的矩阵结构116的子区域1-8中的直接相邻的列流传输数据。例如，第二馈送器X₂流传输与由第一馈送器X₁流传输的B_0,0、B_0,8、B_1,0、B_1,8、B_2,0、B_2,8、B_3,0、B_3,8(在预先布置的矩阵结构116中)直接相邻的B_0,1、B_0,9、B_1,1、B_1,9、B_2,1、B_2,9、B_3,1、B_3,9。例如，第三馈送器X₃流传输与由第一馈送器X₁流传输的B_0,1、B_0,9、B_1,1、B_1,9、B_2,1、B_2,9、B_3,1、B_3,9(在预先布置的矩阵结构116中)直接相邻的B_0,2、B_0,10、B_1,2、B_1,10、B_2,0、B_2,10、B_3,2、B_3,10。

考虑到以上内容，矩阵A_m,n和B_k,l的尺寸和PE阵列14的尺寸彼此相关。矩阵A_m,n和B_k,l可以尺寸不同(例如，m×n≠l×k)。矩阵A_m,n和B_k,l的尺寸可以是脉动阵列10的尺寸的倍数或者可以相应地为零填充。换言之，m可以是为PE阵列14的高度20(或馈送器阵列22的高度30)的任何适当正整数倍的数字或填充到数字的零，并且l可以是为PE阵列14的宽度18(或馈送器阵列26的宽度32)的任何适当正整数倍的数字或填充到数字的零。此外，n必须等于k，以使A_mn×B_kl的外积运算能够正常运算，并且n和k除以2可以是任何适当的正整数。例如，矩阵A_m,n的尺寸可以是704×256，经由尺寸为22的馈送器阵列22被馈送到尺寸为22×17的PE阵列14中。矩阵B_k,l的尺寸可以是256×544，经由尺寸为17的馈送器阵列26被馈送到尺寸为22×17的PE阵列14中。在该情况下，m是PE阵列14的高度20(或馈送器阵列22的高度30)的32倍，并且n除以2为128；l是PE阵列14的宽度18(或馈送器阵列26的宽度32)的32倍，并且k除以2为128。还应当指出，图5中的子区域1-8中的每个是4×8阵列，因为在例示的实例中，每个PE 16是4输入乘法累积(MAC)模式PE(例如，PE执行四次相继的乘法和累积运算)，并且在馈送器阵列22和26中的每个中都有八个馈送器。可以概括出，矩阵A_m,n的每个子区域的尺寸＝MAC输入模式×馈送器的数量(例如，馈送器24)，并且矩阵B_k,l的每个子区域的尺寸＝MAC输入模式×馈送器的数量(例如，馈送器26)。MAC输入模式对于矩阵A_m,n和B_k,l是恒定的，因为矩阵A_m,n行和B_k,l必须是相同长度(m＝l)。

图8示出了可以用于向集成电路210上编写脉动阵列的***200的框图。集成电路210可以重新配置(例如，现场可编程门阵列(FPGA))或者可以是专用集成电路(ASIC)。用户可以使用诸如的Quartus版本的设计软件214来实施要编写到集成电路210上的电路设计。

设计软件214可以由计算***215的一个或多个处理器217执行。计算***215可以包括能够执行设计软件214的任何适当装置，例如台式计算机、膝上计算机、移动电子装置、服务器等。计算***215可以访问、配置和/或与集成电路210通信。处理器217可以包括多个微处理器、一个或多个其它集成电路(例如，专用集成电路、现场可编程门阵列、精简指令集处理器等)或这些的某种组合。

一个或多个存储器装置219可以存储设计软件214。此外，存储器装置219可以存储与集成电路210相关的信息，例如控制软件、配置软件、查阅表、配置数据等。在一些实施例中，处理器217和/或存储器装置219可以在计算***215外部。存储器装置219可以包括有形、非暂态、机器可读介质，例如易失性存储器(例如，随机存取存储器(RAM))和/或非易失性存储器(例如，只读存储器(ROM))。存储器装置219可以存储各种信息并用于各种目的。例如，存储器装置219可以存储用于由处理器217执行的机器可读和/或处理器可执行指令(例如，固件或软件)，例如用于确定集成电路210或集成电路210的区域的速度、确定集成电路210或集成电路210的区域中所编写的设计的通路的临界性、在集成电路210或集成电路210的区域中编写设计等的指令。存储器装置219可以包括一个或多个存储装置(例如，非易失性存储装置)，其可以包括只读存储器(ROM)、闪存存储器、硬盘驱动器或任何其它适当的光学、磁性或固态存储介质或其任意组合。

设计软件214可以使用编译程序216以产生低层级电路设计程序218(比特流)，有时称为对集成电路210编程的程序目标文件。亦即，编译程序216可以提供代表集成电路210的电路设计的机器可读指令。例如，集成电路210可以接收一个或多个程序218(比特流)，其描述应当存储于集成电路210中的硬件实施方式。程序218(比特流)可以被编写到集成电路210中作为配置程序211。

如图9所示，集成电路210可以在数据处理***200中操作以辅助使用本公开的脉动阵列***和方法来处理数据集226(例如，矩阵数据)。数据处理***220可以代表例如数据中心中的计算装置，其可以处理网络业务、图像数据、视频数据、金融数据或任何其它适当形式的数据。在一些示例中，可以使用可以采用本公开的脉动阵列的机器学习或神经网络算法来处理数据集226。处理器复合体224可以执行存储器和/或存储设备222中存储的指令(例如，软件或固件)以接收和路由数据集226并控制集成电路210。例如，处理器复合体224可以运行软件以分析处理网络业务、图像数据、视频数据、金融数据或任何其它适当形式的数据，其卸载到很适于由集成电路210上的脉动阵列处理的集成电路210操作。存储器和/或存储设备222可以存储一个或多个程序218(比特流)，其可以用于编写集成电路210的可编程结构(例如，在集成电路210是诸如现场可编程门阵列(FPGA)的可编程序逻辑器件时)。

尽管本公开阐述的实施例易受各种修改和替代形式的影响，但已经在附图中通过示例的方式示出并在本文中详细描述了具体实施例。然而，应当理解，本公开并非意在限于所公开的特定形式。本公开要涵盖落在如以下所附权利要求所界定的本公开的精神和范围内的所有修改、等价物和替代物。

本文给出并主张权利的技术被援引并适用于有实际属性的实物和具象的示例，该实际属性可论证地改善了本技术领域，并且这样一来，不是抽象的、无形的或纯粹理论的。此外，如果本说明书末尾所附的任何权利要求包含被指定为“用于[执行][功能]的模块……”或“用于[执行][功能]的步骤……”的一个或多个要素，其意在在35U.S.C.112(f)下解释这种要素。然而，对于包含通过任何其它方式指定的要素的任何权利要求，其意在使这种要素不在35U.S.C.112(f)下被解释。

Claims

1.一种在集成电路的电路中实施的脉动阵列，包括：

处理元件阵列，所述处理元件阵列包括处理元件；

通信耦合到所述处理元件阵列的一个或多个馈送器电路，其中，所述一个或多个馈送器电路中的每个包括：

第一区域，其被配置成接收存储在所述集成电路外部的存储器中的数据；以及

第二区域，其被配置成向所述处理元件阵列发送所接收的数据，其中，从所述存储器传输到所述处理元件阵列的数据被所述第一区域和所述第二区域双重缓冲；

通信耦合到所述处理元件阵列的一个或多个排出电路，所述一个或多个排出电路包括被配置成存储由所述处理元件阵列输出的数据的一个或多个存储器缓冲器。

2.根据权利要求1所述的脉动阵列，包括通信耦合到所述一个或多个馈送器电路的第一控制器，其中，所述第一控制器包括：

读取控制器，其被配置成使能对存储在所述集成电路外部的所述存储器中的所述数据的读取；

有效检查逻辑单元，其被配置成对所述第一区域、所述第二区域或两者执行有效检查；以及

反向压力检查逻辑单元，其被配置成提供与从所述一个或多个排出电路到所述读取控制器的反向压力相关的指示。

3.根据权利要求2所述的脉动阵列，其中，所述反向压力检查逻辑单元响应于所述一个或多个排出电路的一个或多个存储器已满而提供指示。

4.根据权利要求1所述的脉动阵列，包括通信耦合到所述一个或多个排出电路的第二控制器，其中，所述第二控制器包括：

写入控制器，其被配置成使能对由所述处理元件阵列输出的所述数据的写入；以及

缓冲器监测器，其被配置成监测所述一个或多个存储器缓冲器中的每个的先进先出(FIFO)水平。

5.根据权利要求4所述的脉动阵列，其中，所述第二控制器响应于所述一个或多个存储器缓冲器已满而发送信号以停止向所述处理元件阵列馈送所述外部存储器中存储的所述数据。

6.根据权利要求1所述的脉动阵列，其中，所述外部储存器中存储的所述数据包括：

采用第一预先布置的矩阵结构重新布置的矩阵A_m,n，其中，采用所述第一预先布置的矩阵结构的所述矩阵A_m,n的取向与采用其初始布置的所述矩阵A_m,n的取向不同；以及

采用第二预先布置的矩阵结构重新布置的矩阵B_k,l。

7.根据权利要求6所述的脉动阵列，其中，所述第一预先布置的矩阵结构包括被布置成促进所述矩阵A_m,n进入所述处理元件阵列的第一馈送模式的一个或多个子区域，其中，所述第二预先布置的矩阵结构包括被布置成促进所述矩阵B_k,l进入所述处理元件阵列的第二馈送模式的一个或多个子区域。

8.根据权利要求7所述的脉动阵列，其中，所述第一预先布置的矩阵结构和所述第二预先布置的矩阵结构是基于所述处理元件阵列的尺寸和尺寸而预先确定的。

9.根据权利要求1所述的脉动阵列，其中，所述集成电路是现场可编程门阵列。

10.一种集成电路装置，包括：

包括脉动阵列的集成电路，所述脉动阵列包括：

处理元件阵列，其包括在竖直方向和水平方向上布置的处理元件；

通信耦合到所述处理元件阵列的排出阵列；

第一馈送器阵列，其包括在竖直方向上通信耦合到所述处理元件的第一馈送器，所述第一馈送器根据第一馈送模式从外部存储器向所述处理元件阵列加载第一矩阵数据，其中，所述第一矩阵数据包括采用第一预先布置的矩阵结构的矩阵A_m,n，使得采用所述第一预先布置的矩阵结构的所述矩阵A_m,n的取向与所述矩阵A_m,n的初始取向不同；以及

第二馈送器阵列，其包括在水平方向上通信耦合到所述处理元件的第二馈送器，所述第二馈送器根据第二馈送模式从所述外部存储器向所述处理元件阵列加载第二矩阵数据，其中，所述第二矩阵数据包括采用第二预先布置的矩阵结构的矩阵B_k,l，并且其中，所述第一馈送模式和所述第二馈送模式分别基于所述第一预先布置的矩阵结构和所述第二预先布置的矩阵结构，以实现数据重复使用并减少所述外部存储器的带宽使用。

11.根据权利要求10所述的集成电路装置，包括：

耦合到所述集成电路的一个或多个存储器装置；以及

一个或多个处理器，所述一个或多个处理器耦合到所述一个或多个存储器装置并被配置成执行存储在所述一个或多个存储器装置中的指令以控制所述集成电路的操作。

12.根据权利要求10所述的集成电路装置，其中，所述第一馈送器阵列和所述第二馈送器阵列中的每个包括：

第一区域，其被配置为从所述外部储存器接收数据；以及

第二区域，其被配置为向所述处理元件阵列发送所接收的数据。

13.根据权利要求12所述的集成电路装置，包括通信耦合到所述第一馈送器阵列、所述第二馈送器阵列或两者的馈送器控制器，其中，所述第一控制器包括：

读取控制器，其被配置成使能对所述第一矩阵数据、所述第二矩阵数据或两者的读取；

反向压力检查逻辑单元，其被配置成提供与从所述排出阵列到所述读取控制器的反向压力相关的指示。

14.根据权利要求10所述的集成电路装置，其中，所述排出阵列包括：

通信耦合到所述处理元件阵列的一个或多个排出电路，所述一个或多个排出电路包括被配置成存储由所述处理元件阵列输出的数据的一个或多个存储器缓冲器；以及

通信耦合到所述一个或多个排出电路的排出控制器。

15.根据权利要求14所述的集成电路装置，其中，所述排出控制器包括：

16.根据权利要求14所述的集成电路装置，其中，所述排出控制器响应于所述一个或多个存储器缓冲器已满而发送信号以停止从所述外部存储器向所述处理元件阵列加载所述第一矩阵数据、所述第二矩阵数据或两者。

17.一种向在集成电路中实施的脉动阵列加载数据的方法，包括：

在所述集成电路外部的存储器中存储采用第一预先布置的矩阵结构的第一矩阵，其中，所述第一预先布置的矩阵结构具有与所述第一矩阵的初始矩阵取向不同的矩阵取向；

在所述集成电路外部的所述存储器中存储采用第二预先布置的矩阵结构的第二矩阵，其中，所述第二预先布置的矩阵结构具有与所述第二矩阵的初始矩阵取向相同的矩阵取向；

基于所述第一预先布置的矩阵结构并根据第一馈送模式向所述脉动阵列的处理元件阵列加载所述第一矩阵的数据；以及

基于所述第二预先布置的矩阵结构并根据第二馈送模式向所述脉动阵列的所述处理元件阵列加载所述第二矩阵的数据。

18.根据权利要求17所述的方法，其中，根据所述第一馈送模式加载数据包括对重复两次的数据进行流传输并使来自所述第一预先布置的矩阵结构的不同区域的流传输的数据交织。

19.根据权利要求17所述的方法，其中，根据所述第二馈送模式加载数据包括对数据进行两次流传输并使来自所述第一预先布置的矩阵结构的不同区域的流传输的数据交织。

20.根据权利要求17所述的方法，其中，加载所述第一矩阵的所述数据包括使用通信耦合到所述处理元件阵列的双重缓冲馈送器阵列加载所述第一矩阵的数据。