CN118076944A

CN118076944A - 可重新配置计算组构中的循环执行期间的数据存储

Info

Publication number: CN118076944A
Application number: CN202280066587.9A
Authority: CN
Inventors: B·霍尔农; D·瓦内斯科
Original assignee: Micron Technology Inc
Current assignee: Micron Technology Inc
Priority date: 2021-08-16
Filing date: 2022-07-25
Publication date: 2024-05-24
Also published as: WO2023022851A1; US20230050687A1; US11709796B2

Abstract

各种实例涉及其中第一同步流的第一流控制器可接收用以使用所述第一同步流执行第一循环的指令的***及方法。所述第一流控制器可确定所述第一循环的第一次迭代的第一迭代索引。所述第一流控制器可将第一同步消息发送到所述第一同步流的第一计算元件，所述第一同步消息用以启动用于执行所述第一循环的所述第一次迭代的第一同步流线程。所述第一同步消息可包括所述迭代索引。所述第一计算元件可在由所述第一迭代索引指示的第一计算元件存储器的第一位置处执行输入/输出操作。

Description

可重新配置计算组构中的循环执行期间的数据存储

优先权声明

本申请要求2021年8月16日提交的第17/402,840号美国申请的优先权，所述申请的全文特此以引用的方式并入本文中。

背景技术

各种计算机架构(例如冯·诺依曼(Von Neumann)架构)常规上使用数据的共享存储器、用于存取共享存储器的总线、算术单元及程序控制单元。然而，在处理器与存储器之间移动数据可能需要大量的时间及能量，这又可能约束计算机***的性能及容量。鉴于这些限制，期望新的计算架构及装置以使计算性能超越晶体管微缩(即，摩尔定律)的实践。

附图说明

为了便于识别任何特定元件或动作的论述，参考编号中的最高有效数字或若干最高有效数字指代其中首次出现那个元件的图号。

图1大体上说明根据实施例的在存储器计算***的背景下的第一存储器计算装置的第一实例。

图2大体上说明根据实施例的存储器计算装置的存储器子***的实例。

图3大体上说明根据实施例的用于存储器控制器的可编程原子单元的实例。

图4说明根据实施例的存储器计算装置的混合线程处理器(HTP)加速器的实例。

图5说明根据实施例的存储器计算装置的混合线程组构(HTF)的表示的实例。

图6A大体上说明根据实施例的小芯片***的实例。

图6B大体上说明展示来自图6A的实例的小芯片***中的各种组件的框图。

图7大体上说明根据实施例的存储器计算装置的基于小芯片的实施方案的实例。

图8说明根据实施例的存储器计算装置小芯片的实例平铺。

图9是展示用于使用多于一个同步流在可重新配置计算组构处执行操作的工作流程的一个实例的图。

图10是展示用于在可重新配置计算组构处执行操作的工作流程的一个实例的图，其中同步流与存储器接***互。

图11是展示用于使用可重新配置计算组构执行循环的工作流程的一个实例的图。

图12是展示用于使用可重新配置计算组构执行三重嵌套循环的工作流程的一个实例的图。

图13是展示布置有经配置以产生迭代索引的流控制器的同步流的一个实例的图。

图14是展示可由流控制器执行以使用迭代索引在同步流处执行循环的过程流程的一个实例的流程图。

图15是展示利用经打包迭代索引的同步流的流控制器及计算元件的一个实例的图。

图16说明实例机器的框图，利用所述机器、在所述机器中或通过所述机器可实施本文中所论述的任何一或多种技术(例如，方法论)。

具体实施方式

可利用材料、装置及集成技术的最新进展来提供以存储器为中心的计算拓扑。例如，对于受大小、重量或功率要求约束的应用，此类拓扑可实现计算效率及工作负载处理量的提升。所述拓扑可被用来促进存储器或其它数据存储元件附近或内部的低延时计算。所述方法可特别适用于具有稀疏查找的各种计算密集型操作，例如在变换计算(例如，快速傅里叶变换计算(FFT))中，或在例如神经网络或人工智能(AI)、金融分析或者例如针对计算流体动力学(CFD)、增强型工程师声学模拟器(EASE)、以集成电路为核心的模拟程序(SPICE)等等的模拟或建模的应用中。

本文中所论述的***、装置及方法可包含或使用具有处理器或处理能力的存储器计算***，所述存储器计算***提供在存储器或数据存储组件中、附近或与其集成在一起。此类***在本文中通常被称为近存储器计算(CNM)***。CNM***可为基于节点的***，其中所述***中的个别节点使用***缩放组构来耦合。每一节点可包含或使用专用或通用处理器及用户可存取加速器与定制计算组构来促进密集型操作，特别是在预期较高高速缓存未命中率的环境中。

在实例中，CNM***中的每一节点可具有一或若干主机处理器。在每一节点内，专用混合线程处理器可占据芯片上网络的离散端点。混合线程处理器可存取所述***的特定节点中的存储器的一些或全部，或者混合线程处理器可经由***缩放组构跨多个节点的网络存取存储器。每一节点处的定制计算组构或混合线程组构可具有(若干)其自身处理器或加速器且可在比混合线程处理器更高的带宽下操作。可不同地配置近存储器计算***中的不同节点，例如具有不同计算能力、不同类型的存储器、不同接口或其它差异。然而，所述节点可共同地经耦合以在所定义地址空间内共享数据及计算资源。

在实例中，近存储器计算***或所述***内的节点可由用户进行配置以用于定制操作。用户可使用高级编程语言(例如C/C++)提供指令，所述指令可被编译及直接映射到所述***或者CNM***中的一或多个节点的数据流架构中。即，所述***中的节点可包含可经配置以直接实施或支持用户指令以由此增强***性能且减少延时的硬件块(例如，存储器控制器、原子单元、其它客户加速器等)。

在实例中，近存储器计算***可特别适合于实施指令及嵌套循环(例如，两个、三个或更多个深度循环，或者多维循环)的层次结构。标准编译器可被用来接受高级语言指令且又直接编译成所述节点中的一或多者的数据流架构。例如，所述***中的节点可包含混合线程组构加速器。混合线程组构加速器可在CNM***的用户空间中执行且可启动其自身线程或子线程，所述线程或子线程可并行操作。每一线程可映射到不同循环迭代以由此支持多维循环。凭借启动此类嵌套循环的能力以及其它能力，CNM***可为计算密集型操作实现显著的时间节省及延时改进。

在一些实例中，近存储器计算***经编程以将可重新配置计算组构(例如本文中所描述的各种HTF)的组件布置成一或多个同步流。可重新配置计算组构包括可经布置以形成一或多个同步流的一或多个硬件流控制器及一或多个硬件计算元件，如本文中所描述。

计算元件包括计算元件存储器及形成用于处理经接收数据的计算流水线的处理器或其它合适逻辑电路***。在一些实例中，计算元件包括多个并行处理通道，例如单指令多数据(SIMD)处理通道。计算元件还包括用于将同步及异步消息发送及接收到流控制器、其它计算元件及其它***组件的电路***，如本文中所描述。本文中关于图5的片块504、510、512描述实例计算元件。

流控制器包括用于管理同步流的处理器或其它逻辑电路***，如本文中所描述。流控制器包括用于将同步及异步消息发送到计算元件、其它流控制器及其它***组件的电路***，如本文中所描述。在一些实例中，流控制器使用本文中所描述的片块504、510、512中的一或多者的片块基础来实施。

同步流是包括硬件流控制器及一组一或多个硬件计算元件之间的有序同步数据路径的可重新配置计算组构中的硬件布置。同步流可执行一或多个工作线程。为了执行线程，同步流的硬件组件传递同步消息且按同步流的顺序执行一组预定操作。

同步流的流控制器通过将第一同步消息提供到同步流的第一计算元件来启动同步流处的线程。第一同步消息包含数据(例如，用于由计算元件处理的数据)且还可包含向计算元件提供各种旗标以及其它配置及/或指令数据的控制信息。第一计算元件经编程以例如基于由第一同步消息提供的数据而执行一或多个操作。第一计算元件产生也可包含数据及控制信息的第二同步消息。例如，第二同步消息可描述由第一计算元件执行的一或多个操作的结果。

第一计算元件根据同步流的顺序将第二同步消息提供到下一计算元件。同步流的下一计算元件可为可重新配置计算组构的另一计算元件，但在一些实例中，单个计算元件可执行同步流的连贯操作，这意味着在一些布置中，同步流的计算元件可将同步消息引导到其本身。下一计算元件经编程以执行一或多个操作，所述操作可包含准备第三同步消息及将第三同步消息发送到后续计算元件。

线程在同步流的所有计算元件已按同步流的预定顺序完成它们的经编程操作时完成。当线程已完成时，同步消息的流水线将在流控制器处开始按同步流的预定顺序在各种计算元件之间传播。因为所述布置是同步的，所以线程的完成可在固定的时间量(例如，从流控制器启动同步流起的可预测数目个时钟周期)内发生。

包含同步流的HTF的布置可促进并行处理。例如，用于同步流的流控制器不需要在启动额外线程之前等待一个线程完成。考虑包含流控制器及多个计算元件的实例同步流。流控制器通过将同步消息提供到同步流的第一计算元件来启动第一线程。第一计算元件执行其处理且将第二同步消息引导到下一计算元件，以此类推。在第一计算元件完成其处理且将同步消息引导到下一计算元件之后，流控制器可例如通过将额外同步消息提供到第一计算元件来启动同步流处的额外线程。

可通过利用以预定义节奏或辐条计数操作的计算元件(例如本文中所描述的各种片块)来获得同步流在可重新配置计算组构处的额外并行化。例如，计算元件可使用预定数个时钟周期来执行各种操作，例如接收同步消息、执行处理操作、发送同步消息等。计算元件可经配置以接收新同步消息且在来自先前线程的操作仍在传播通过计算元件时开始一个线程的操作。新线程可为先前线程的同一同步流的不同线程或可为不同同步流的线程。

同步流可使用可重新配置计算组构的异步组构来使用异步消息与可重新配置计算组构的其它同步流及/或其它组件进行通信。例如，流控制器可从分派接口及/或从另一流控制器接收指示流控制器开始同步流处的线程的异步消息。分派接口可在可重新配置计算组构与其它***组件之间进行对接。而且，在一些实例中，同步流可将用以指示线程完成的异步消息发送到分派接口。

异步消息还可被各种同步流用来存取存储器。例如，可重新配置计算组构可包含一或多个存储器接口。存储器接口是被同步流或其组件用来存取不是同步流的部分的外部存储器的硬件组件。在同步流处执行的线程可包含将读取及/或写入请求发送到存储器接口。因为读取及写入是异步的，所以向存储器接口启动读取或写入请求的线程可能不会接收到请求的结果。代替地，读取或写入请求的结果可被提供到在不同同步流处执行的不同线程。

考虑布置成具有用于启动读取请求的第一同步流及用于接收读取请求的结果的第二同步流的实例可重新配置计算组构。第一同步流处的第一线程将异步读取请求消息发送到存储器接口。第一线程还可将异步继续型消息发送到第二同步流的流控制器，其中所述继续消息指示读取请求。存储器接口从存储器获取经请求数据且将读取数据引导到第二同步流的适当计算元件。计算元件接着将指示数据已被接收的异步消息引导到第二流控制器。(在一些实例中，存储器接口将读取数据直接提供提供到第二流控制器。)在接收到读取数据已被接收的指示之后，第二流控制器启动第二同步流处的线程以进一步处理读取请求的结果。

在一些实例中，可重新配置计算组构(例如本文中所描述的HTF)被用来执行一或多个循环，例如一组嵌套循环。为了执行循环，可重新配置计算组构利用布置成一或多个同步流的流控制器及计算元件，如本文中所描述。例如，用于同步流的流控制器可在循环的每次迭代中启动同步流处的线程。考虑下文代码段[1]给出的简单实例循环：

流控制器可通过在i＝1循环迭代中启动同步流处的第一线程来开始实例循环。在这个实例中，x[i-1]的初始值通过流控制器与初始同步消息的有效负载数据一起传递到第一计算元件。同步流的计算元件或若干计算元件确定x[1]的值且将x[1]的值作为同步或异步消息返回到流控制器。流控制器接着在i＝2循环迭代中启动同步流处的第二线程，在同步消息中将x[1]的经返回值作为x[i-1]进行传递。这个过程继续进行，直到循环的所有迭代完成且x[10]的值被返回为止。

上述实例循环对于循环的每次迭代使用单个同步流。然而，在一些实例中，可对于每次循环迭代使用多个同步流。考虑由下文代码段[2]给出的实例循环：

在这个实例中，每次循环迭代涉及将i乘以从存储器读取的值y[i]，且接着将结果写入到存储器。因此，每次循环迭代包含异步存储器读取及异步存储器写入。如本文中所描述，存储器读取涉及将异步消息发送到存储器接口且接着等待存储器接口用包含经请求数据的另一异步消息进行回复。因为存储器读取是异步的，所以每次循环迭代可使用在两个不同同步流处执行的同步流线程。对于i＝1循环迭代，第一同步流处的线程将包含针对y[1]的值的读取请求的异步消息发送到存储器接口。第一同步流处的线程还可将指示第二流控制器期待读取请求的结果(直接来自存储器接口抑或来自已接收到读取数据的第二同步流的计算元件)的异步消息发送到第二同步流的第二流控制器。存储器接口启动y[1]的值的读取且经由异步消息将y[1]的值提供到第二同步流。在接收到指示读取数据被接收的异步消息时，第二流控制器启动第二同步流处的线程。(y[1]的经返回值可例如经由线程的同步通信及/或在线程启动之前直接从存储器接口提供到计算元件。)第二线程确定x[1]的值且将包含针对x[1]的写入请求的同步消息发送到存储器接口。

在一些实例中，同步流控制器可在同步流处启动的线程的数目受同步流的组件的资源的限制。例如，同步流的线程可将数据写入到同步流计算元件处的各种本地计算元件存储器。如果同时启动太多同步流线程，那么一些同步流线程可能缺乏足够的本地存储器或其它资源。这可阻止同步流线程写入其数据及/或致使其覆写其它同步流线程的本地存储数据。

为了防止这种情况，可重新配置计算组构可限制可在给定时间启动的同步流线程的数目。例如，可重新配置计算组构可实施线程识别符(ID)的池。流控制器可确定线程ID在实施同步流线程之前可用。在一些实例中，同步流线程的同步消息可包含给定线程的线程ID的指示。

当同步流线程完成时，其可将异步自由消息发送例如到启动同步流线程的流控制器。这向流控制器指示完成的同步流线程的线程ID(及相关联资源)现在可供新同步流线程使用。

在一些实例中，可同时在多于一个同步流处使用单个线程ID。例如，当在多于一个同步流处执行单个操作串时，多个同步流处的对应线程可利用相同线程ID。再次考虑代码段[2]的实例。回顾针对i＝1循环迭代，第一同步流处的线程将异步消息与对y[1]值的读取请求一起发送到存储器接口且将异步继续型消息发送到第二同步流的第二流控制器。当在第二同步流处接收到y[1]的值时，第二流控制器启动第二同步流处的线程。在这个实例中，第一同步流处的i＝1线程及第二同步流处的i＝1线程可使用共同线程ID(及相关联资源)。

而且，在一些实例中，线程ID可通过不同级来描述，其中在不同级处可使用不同数目个线程ID(及对应资源)。考虑嵌套循环。执行嵌套循环的一级循环的同步流线程可被指派来自一级线程池的线程ID(及对应资源)。来自二级循环的同步流线程可被指配来自二级线程池的线程ID(及对应资源)，以此类推。

在一些实例中，可由流控制器基于由流控制器接收以指示流控制器开始启动同步流线程的异步消息而跟踪线程ID。考虑其中分派接口将异步循环消息发送到同步流的流控制器的实例。循环消息可指示待执行的循环迭代的次数、可用的线程ID的数目及在一些实例中先前使用的线程ID再次变得可用的一或若干条件。例如，被流控制器用来启动同步流线程的线程ID在那个同步流线程完成时(如果在仅一个同步流处使用单个线程ID)或在不同同步流处的后续同步流线程完成时(如果在多于一个同步流处使用单个线程ID，如本文中所描述)可能再次可用。

近存储器计算***或者近存储器计算***的节点或组件可包含或使用各种存储器装置、控制器及互连件等等。在实例中，所述***可包括各种互连节点，且所述节点或节点群组可使用小芯片来实施。小芯片是一种用于集成各种处理功能性的新兴技术。通常，小芯片***由集成在中介层上且封装在一起的离散芯片(例如，不同衬底或裸片上的集成电路(IC))组成。这种布置不同于在一个衬底(例如，单个裸片)上含有不同装置块(例如，知识产权(IP)块)的单个芯片(例如，IC)(例如芯片上***(SoC))或集成在板上的离散封装装置。一般来说，小芯片提供优于单裸片芯片的生产效益，包含更高的良率或降低的开发成本。下文所论述的图6A及图6B大体上说明例如可包括近存储器计算***的小芯片***的实例。

当同步流被用来执行循环时，执行循环的不同迭代的同步流线程可能需要从存储器读取数据及/或将数据写入到存储器。例如，在同步流线程的执行期间，一或多个计算元件可从计算元件存储器读取特定于当前循环迭代的操作数数据。类似地，一或多个计算元件可将特定于当前循环迭代的结果数据写入到计算元件存储器。此外，在一些实例中，在同步流线程的执行期间，计算元件可经由存储器接口进行从外部存储器的循环迭代特定读取或到外部存储器的循环迭代特定写入。

当同步流的计算元件在执行循环迭代的同时对存储器进行读取及/或写入时，有时期望计算元件对特定于正被执行的循环迭代的存储器位置进行读取及/或写入。例如，如果执行第一次循环迭代的同步流线程从计算元件存储器处的第一位置读取操作数数据，那么执行第二次迭代的同步流线程可从不同位置读取其操作数数据。执行第三次迭代的同步流线程可从又一不同位置读取其操作数数据，以此类推。类似地，同步流可经布置使得线程将结果数据写入到循环迭代特定存储器位置。

一种致使同步流计算元件对循环迭代特定存储器位置进行读取及写入的方式是使用迭代索引。迭代索引从循环的迭代次数导出且指向可在迭代执行期间读取及/或写入的特定存储器位置或存储器位置组。当同步流计算元件对存储器进行读取或写入时，其使用迭代索引来引用迭代特定存储器位置。

考虑上文实例代码段[2]。第一及第二同步流处的计算元件可使用迭代次数i来导出迭代索引。在代码段[2]的实例中，i循环的每次迭代使用两个存储器位置。从存储器位置读取操作数数据x[i]且将输出数据y[i]写入到存储器位置。因此，简单的迭代索引可通过简单地将迭代的i值乘以2来确定。

考虑由下文代码段[3]给出的另一实例：

这个实例包含具有一级x循环及二级y循环的嵌套循环。在这个例中，对于从1到4096的x的值，一级x循环将执行4096次。对于外循环的每次迭代，二级y循环将执行4096次，总共16,777,216次迭代。可期望确定对于16,777,216次迭代中的每一者具有唯一值的代码段的迭代索引。在一些实例中，这可通过从一级循环的迭代次数及二级循环的迭代产生迭代索引来实现。对于代码段[3]，可通过对一级x循环迭代次数及二级y循环迭代次数执行运算来导出唯一迭代索引。例如，可通过对588及2043执行运算来导出其中x＝588及y＝2043的循环迭代的迭代索引。

可在循环的执行期间导出迭代索引。然而，在同步流中导出迭代索引可能涉及使用额外计算元件资源或甚至用额外计算元件结构化同步流。例如，参考上文代码段[3]，用于计算值s[x,y]的同步流可包含从计算元件存储器取出值r[x,y]，执行所指示乘法且将结果s[x,y]写回到计算元件存储器的计算元件。然而，计算元件可首先导出迭代索引，接着使用所述迭代索引来从恰当计算元件存储器位置读取r[x,y]且将s[x,y]写入到属性计算元件存储器位置。迭代索引可在计算元件处导出或在一些实例中，可使用在第一计算元件之前定位的额外计算元件。这可能导致对计算元件的低效使用。

此外，在一些可重新配置计算组构中，计算迭代索引可能不是计算元件的最佳用途。再次考虑上文实例代码段[3]。在这个实例中，产生迭代索引涉及处理两个12位值(表示1到4096)。然而，在各种实例中，可重新配置计算组构的计算元件经布置以对宽于或甚至远宽于12个位的数据进行操作。在本文中所描述的一些实例中，计算元件可经布置以在512位数据管道上操作。使用512位数据管道的一或多个周期来对12位值执行操作可能并不高效。

可通过配置流控制器以产生迭代索引来解决这些及其它问题。接着经由同步消息将经产生迭代索引传递到同步流的计算元件。例如，迭代索引可在同步流线程的执行期间作为计算元件之间传递的控制信息的部分来传递。如本文中所描述，将迭代索引电路添加到流控制器可减少计算元件资源的使用且甚至减少执行各种编程任务所需的计算元件的数目。

图1大体上说明近存储器计算***或CNM***102的第一实例。CNM***102的实例包含例如可各自包含各种近存储器计算装置的多个不同存储器计算节点。所述***中的每一节点可在其自身操作***(OS)域(例如，Linux等等)中操作。在实例中，所述节点可共同存在于CNM***102的共同OS域中。

图1的实例包含CNM***102的第一存储器计算节点104的实例。CNM***102可具有使用缩放组构106耦合的多个节点，例如包含第一存储器计算节点104的不同例子。在实例中，CNM***102的架构可支持使用缩放组构106按比例放大到n个不同存储器计算节点(例如，n＝4096)。如下文进一步论述，CNM***102中的每一节点可为多个装置的组合件。

CNM***102可包含用于所述***中的各种节点的全局控制器，或所述***中的特定存储器计算节点可任选地充当同一***中的一或多个其它存储器计算节点的主机或控制器。因此，可类似地或不同地配置CNM***102中的各种节点。

在实例中，CNM***102中的每一节点可包括使用所指定操作***的主机***。所述操作***在CNM***102中的各种节点当中可为共同或不同的。在图1的实例中，第一存储器计算节点104包括主机***108、第一交换机110及第一存储器计算装置112。主机***108可包括处理器，例如可包含X86、ARM、RISC-V或其它类型的处理器。第一交换机110可经配置以促进例如使用专用或其它通信协议(本文中统称为芯片到芯片协议接口(CTCPI))在第一存储器计算节点104或CNM***102的装置之间或当中进行通信。即，CTCPI可包含专属于CNM***102的专用接口，或者可包含或使用其它接口，例如计算快速链路(CXL)接口、***组件互连快速(PCIe)接口或小芯片协议接口(CPI)等等。第一交换机110可包含经配置以使用CTCPI的交换机。例如，第一交换机110可包含CXL交换机、PCIe交换机、CPI交换机或其它类型的交换机。在实例中，第一交换机110可经配置以耦合以不同方式配置的端点。例如，第一交换机110可经配置以例如在PCIe与CPI格式之间转换分组格式，等等。

本文中描述呈各种实例配置的CNM***102，例如包括节点的***，且每一节点可包括各种芯片(例如，处理器、交换机、存储器装置等)。在实例中，CNM***102中的第一存储器计算节点104可包含使用小芯片实施的各种芯片。在CNM***102的下述基于小芯片的配置中，小芯片间通信以及所述***内的额外通信可使用CPI网络。本文中所描述的CPI网络是CTCPI的实例，即，作为CTCPI的小芯片特定实施方案。因此，CPI的下述结构、操作及功能性可同样适用于如可使用非基于小芯片的CTCPI实施方案实施的结构、操作及功能。除非另有明确地指示，否则本文中对CPI的任何论述同样适用于CTCPI。

CPI接口包含支持虚拟信道以实现小芯片之间的灵活及高速交互的基于分组的网络，例如可包括第一存储器计算节点104或CNM***102的部分。CPI可实现从小芯片内网络到更广泛小芯片网络的桥接。例如，高级可扩展接口(AXI)是一种用于芯片内通信的规范。然而，AXI规范涵盖多种物理设计选项，例如物理信道的数目、信号时序、功率等。在单个芯片中，通常选择这些选项来满足设计目标，例如功耗、速度等。然而，为了实现基于小芯片的存储器计算***的灵活性，例如使用CPI的适配器可在能够在各种小芯片中实施的各种AXI设计选项之间进行对接。通过实现物理信道到虚拟信道的映射以及用分组化协议封装基于时间的信令，CPI可被用来例如在特定存储器计算节点内跨更广泛小芯片网络(例如跨第一存储器计算节点104或跨CNM***102)桥接小芯片内网络。

CNM***102可缩放以包含多节点配置。即，第一存储器计算节点104或其它以不同方式配置的存储器计算节点的多个不同例子可使用缩放组构106来耦合，以提供经缩放***。所述存储器计算节点中的每一者可运行其自身操作***且可经配置以联合协调全***的资源使用。

在图1的实例中，第一存储器计算节点104的第一交换机110耦合到缩放组构106。缩放组构106可提供可促进不同存储器计算节点当中及之间的通信的交换机(例如，CTCPI交换机、PCIe交换机、CPI交换机或其它交换机)。在实例中，缩放组构106可帮助各种节点在分区全局地址空间(PGAS)中进行通信。

在实例中，来自第一存储器计算节点104的第一交换机110耦合到一个或多个不同存储器计算装置，例如包含第一存储器计算装置112。第一存储器计算装置112可包括本文中被称为近存储器计算(CNM)小芯片的基于小芯片的架构。第一存储器计算装置112的封装版本可包含例如一个或多个CNM小芯片。为了高带宽及低延时，所述小芯片可使用CTCPI通信地耦合。

在图1的实例中，第一存储器计算装置112可包含芯片上网络(NOC)或第一NOC118。通常，NOC是装置内的互连网络，其连接一组特定端点。在图1中，第一NOC 118可提供第一存储器计算装置112的各种存储器、计算资源与端口之间的通信及连接性。

在实例中，第一NOC 118可包括例如在存储器计算装置的每一例子内或作为耦合一节点中的多个存储器计算装置的网格的折叠式Clos拓扑。例如可使用多个较小基数的交叉开关来提供与较高基数的交叉开关拓扑相关联的功能性的Clos拓扑提供各种益处。例如，Clos拓扑可跨NOC展现一致的延时及对分带宽。

第一NOC 118可包含各种不同交换机类型，包含中心交换机、边缘交换机及端点交换机。所述交换机中的每一者可被构造为在输入与输出节点之间提供基本上均匀的延时及带宽的交叉开关。在实例中，端点交换机及边缘交换机可包含两个单独交叉开关，一个用于去往中心交换机的业务而另一个用于远离中心交换机的业务。中心交换机可被构造为将所有输入交换到所有输出的单个交叉开关。

在实例中，所述中心交换机可例如取决于特定集线器交换机是否参与芯片间通信而各自具有多个端口(例如，各自四个或六个端口)。参与芯片间通信的中心交换机的数目可根据芯片间带宽要求来设置。

第一NOC 118可支持计算元件与存储器之间的各种有效负载(例如，从8到64字节有效负载；可类似地使用其它有效负载大小)。在实例中，第一NOC 118可针对相对较小的有效负载(例如，8到16字节)进行优化以高效地处置对稀疏数据结构的存取。

在实例中，第一NOC 118可经由第一物理层接口114、PCIe从属模块116或端点及PCIe主导模块126或根端口耦合到外部主机。即，第一物理层接口114可包含用以允许外部主机处理器耦合到第一存储器计算装置112的接口。外部主机处理器可任选地例如使用PCIe交换机或其它本机协议交换机耦合到一个或多个不同存储器计算装置。通过基于PCIe的交换机与外部主机处理器通信可能将装置到装置通信限于由所述交换机支持的通信。相比之下，例如使用CTCPI通过存储器计算装置-本机协议交换机的通信可允许不同存储器计算装置之间或当中的更充分通信，包含对例如用于创建工作线程及发送事件的分区全局地址空间的支持。

在实例中，CTCPI协议可由第一存储器计算装置112中的第一NOC 118使用，且第一交换机110可包含CTCPI交换机。CTCPI交换机可允许将CTCPI分组从源存储器计算装置(例如第一存储器计算装置112)传送到不同目的地存储器计算装置(例如，在同一节点或其它节点上)，例如而无需转换为另一分组格式。

在实例中，第一存储器计算装置112可包含内部主机处理器122。内部主机处理器122可经配置以例如使用内部PCIe主导模块126与第一NOC 118或第一存储器计算装置112的其它组件或模块进行通信，这可帮助消除将消耗时间及能量的物理层。在实例中，内部主机处理器122可基于RISC-V ISA处理器，且可使用第一物理层接口114以在第一存储器计算装置112外部进行通信，例如与第一存储器计算装置112的其它存储装置、联网装置或其它***装置进行通信。内部主机处理器122可控制第一存储器计算装置112且可充当操作***相关功能性的代理。内部主机处理器122可包含相对少量的处理核心(例如，2到4个核心)及主机存储器装置124(例如，包括DRAM模块)。

在实例中，内部主机处理器122可包含PCI根端口。当内部主机处理器122在使用中时，其根端口中的一者接着可连接到PCIe从属模块116。内部主机处理器122的根端口中的另一者可连接到第一物理层接口114，例如以提供与外部PCI***装置的通信。当内部主机处理器122被停用时，接着可将PCIe从属模块116耦合到第一物理层接口114以允许外部主机处理器与第一NOC 118进行通信。在具有多个存储器计算装置的***的实例中，第一存储器计算装置112可经配置以充当***主机或控制器。在这个实例中，内部主机处理器122可在使用中，且相应的其它存储器计算装置中的内部主机处理器的其它例子可被停用。

可在第一存储器计算装置112通电时配置内部主机处理器122，例如以允许主机初始化。在实例中，内部主机处理器122及其相关联数据路径(例如，包含第一物理层接口114、PCIe从属模块116等)可从输入引脚配置到第一存储器计算装置112。所述引脚中的一或多者可被用来启用或停用内部主机处理器122且相应地配置PCI(或其它)数据路径。

在实例中，第一NOC 118可经由缩放组构接口模块136及第二物理层接口138连接到缩放组构106。缩放组构接口模块136或SIF可促进第一存储器计算装置112与装置空间(例如分区全局地址空间(PGAS))之间的通信。PGAS可经配置使得特定存储器计算装置(例如第一存储器计算装置112)可例如使用加载/存储范例存取不同存储器计算装置上(例如，同一节点或不同节点上)的存储器或其它资源。可使用各种可缩放组构技术，包含CTCPI、CPI、Gen-Z、PCI或通过CXL桥接的以太网。缩放组构106可经配置以支持各种分组格式。在实例中，缩放组构106支持无序分组通信或支持有序分组，例如可使用路径识别符以跨多个等效路径展开带宽。缩放组构106通常可支持远程操作，例如远程存储器读取、写入及其它内置原子、远程存储器原子、远程存储器计算装置发送事件以及远程存储器计算装置调用及返回操作。

在实例中，第一NOC 118可耦合到一个或多个不同存储器模块，例如包含第一存储器装置128。第一存储器装置128可包含各种种类的存储器装置，例如LPDDR5或GDDR6等等。在图1的实例中，第一NOC 118可经由可专用于特定存储器模块的存储器控制器130协调与第一存储器装置128的通信。在实例中，存储器控制器130可包含存储器模块高速缓存及原子操作模块。原子操作模块可经配置以提供相对高处理量的原子运算符，例如包含整数及浮点运算符。原子操作模块可经配置以将其运算符应用于存储器模块高速缓存(例如，包括SRAM存储器侧高速缓存)内的数据，由此允许使用同一存储器位置以最小的处理量下降进行背靠背原子操作。

存储器模块高速缓存可为频繁存取的存储器位置提供存储，例如而无须重新存取第一存储器装置128。在实例中，存储器模块高速缓存可经配置以仅高速缓存存储器控制器130的特定例子的数据。在实例中，存储器控制器130包含经配置以与第一存储器装置128(例如包含DRAM装置)对接的DRAM控制器。存储器控制器130可提供存取调度及位错误管理，以及其它功能。

在实例中，第一NOC 118可耦合到混合线程处理器(HTP 140)、混合线程组构(HTF142)以及主机接口及分派模块(HIF 120)。HIF 120可经配置以促进存取基于主机的命令请求队列及响应队列。在实例中，HIF 120可分派在HTP 140或HTF 142的处理器或计算元件上执行的新线程。在实例中，HIF 120可经配置以维持跨HTP 140模块及HTF 142模块的工作负载平衡。

混合线程处理器或HTP 140可包含例如可基于RISC-V指令集的加速器。HTP 140可包含高度线程化的事件驱动处理器，其中线程可在单指令旋转中执行，例如以维持高指令处理量。HTP 140包括相对较少的定制指令以支持低开销线程能力、事件发送/接收及共享存储器原子运算符。

混合线程组构或HTF 142可包含加速器，例如可包含非冯·诺依曼、粗粒度的可重新配置处理器。HTF 142可针对高级语言操作及数据类型(例如，整数或浮点)进行优化。在实例中，HTF 142可支持数据流计算。HTF 142可经配置以例如当执行受存储器限制的计算内核时，使用第一存储器计算装置112上可用的基本上全部存储器带宽。

CNM***102的HTP及HTF加速器可使用各种高级的结构化编程语言来编程。例如，HTP及HTF加速器可使用C/C++编程(例如使用LLVM编译器框架)来编程。HTP加速器可利用例如具有经配置以改进存储器存取效率、提供消息传递机制及管理事件以及其它事项的各种增添的定制指令集的开源编译器环境。在实例中，HTF加速器可经设计以实现使用高级编程语言对HTF 142进行编程，且编译器可产生在HTF 142硬件上运行的模拟器配置文件或二进制文件。HTF 142可提供用于精确及简明地表达算法，同时隐藏HTF加速器本身的配置细节的中级语言。在实例中，HTF加速器工具链可使用LLVM前端编译器及LLVM中间表示(IR)以与HTF加速器后端对接。

图2大体上说明根据实施例的存储器计算装置的存储器子***200的实例。存储器子***200的实例包含控制器202、可编程原子单元208及第二NOC 206。控制器202可包含或使用可编程原子单元208以使用存储器装置204中的信息实行操作。在实例中，存储器子***200包括来自图1的实例的第一存储器计算装置112的一部分，例如包含第一NOC 118或存储器控制器130的部分。

在图2的实例中，第二NOC 206耦合到控制器202，且控制器202可包含存储器控制模块210、本地高速缓存模块212及内置原子模块214。在实例中，内置原子模块214可经配置以处置相对简单、单循环的整数原子。内置原子模块214可以与例如正常存储器读取或写入操作相同的处理量执行原子。在实例中，原子存储器操作可包含将数据存储到存储器、执行原子存储器操作且接着用来自存储器的加载数据进行响应的组合。

可提供本地高速缓存模块212(例如可包含SRAM高速缓存)以帮助减少重复存取的存储位置的延时。在实例中，本地高速缓存模块212可为子存储器行存取提供读取缓冲区。本地高速缓存模块212对于具有相对小数据高速缓存或没有数据高速缓存的计算元件特别有益。

存储器控制模块210(例如可包含DRAM控制器)可提供低级请求缓冲及调度，例如以提供对存储器装置204(例如可包含DRAM装置)的高效存取。在实例中，存储器装置204可包含或使用例如具有16Gb密度及64Gb/sec峰值带宽的GDDR6 DRAM装置。可类似地使用其它装置。

在实例中，可编程原子单元208可包含例如可经配置以执行整数加法或更复杂的多指令操作(例如布隆过滤器***)的单循环或多循环运算符。在实例中，可编程原子单元208可经配置以执行加载及存储到存储器操作。可编程原子单元208可经配置以利用具有一组专用指令的RISC-V ISA来促进与控制器202的交互以原子地执行用户定义的操作。

例如从节点上或节点外主机接收的可编程原子请求可经由第二NOC 206及控制器202路由到可编程原子单元208。在实例中，(例如，由可编程原子单元208实行的)定制原子操作可与(例如，由内置原子模块214实行的)内置原子操作相同，区别仅在于编程原子操作可由用户而不是***架构师来定义或编程。在实例中，可编程原子请求分组可通过第二NOC206发送到控制器202，且控制器202可将所述请求识别为定制原子。控制器202接着可将经识别请求转发到可编程原子单元208。

图3大体上说明根据实施例的与存储器控制器一起使用的可编程原子单元302的实例。在实例中，可编程原子单元302可包括或对应于来自图2的实例的可编程原子单元208。即，图3说明可编程原子单元302(PAU)的实例中的组件，例如上文关于图2(例如，在可编程原子单元208中)或图1(例如，在存储器控制器130的原子操作模块中)所述的组件。如图3中所说明，可编程原子单元302包含PAU处理器或PAU核心306、PAU线程控制件304、指令SRAM 308、数据高速缓存310及用以与存储器控制器314对接的存储器接口312。在实例中，存储器控制器314包含来自图2的实例的控制器202的实例。

在实例中，PAU核心306是流水线处理器使得每时钟周期一起执行不同指令的多个阶段。PAU核心306可包含桶形多线程处理器，其中线程控制件304电路***在每一时钟周期时在不同寄存器堆(例如，含有当前处理状态的寄存器组)之间切换。这实现当前执行的线程之间进行高效上下文切换。在实例中，PAU核心306支持八个线程，从而导致八个寄存器堆。在实例中，一些或所有寄存器堆未集成到PAU核心306中，而是驻留在本地数据高速缓存310或指令SRAM 308中。这通过消除用于此类存储器中的寄存器的传统触发器来降低PAU核心306中的电路复杂性。

本地PAU存储器可包含例如可包含用于各种原子的指令的指令SRAM 308。所述指令包括用以支持各种应用程序加载的原子运算符的若干组指令。当例如由应用小芯片请求原子运算符时，由PAU核心306执行对应于原子运算符的一组指令。在实例中，指令SRAM 308可经分区以建立若干组指令。在这个实例中，由请求进程请求的特定可编程原子运算符可通过分区号来识别可编程原子运算符。分区号可在向可编程原子单元302注册可编程原子运算符(例如，将可编程原子运算符加载到可编程原子单元302中)时建立。可编程指令的其它元数据可被存储在可编程原子单元302本地的存储器中的存储器中(例如，在分区表中)。

在实例中，原子运算符操纵数据高速缓存310，所述数据高速缓存通常在原子运算符的线程完成时同步(例如，刷新)。因此，除从外部存储器(例如从存储器控制器314)进行初始加载以外，可在可编程原子运算符线程的执行期间减少大多数存储器操作的延时。

当执行线程试图发出存储器请求时，如果潜在危险条件会阻止此请求，那么流水线处理器(例如PAU核心306)可能会遇到问题。在此，存储器请求是从存储器控制器314检索数据，无论其是来自存储器控制器314上的高速缓存还是裸片外存储器。为了解决这个问题，PAU核心306经配置以拒绝对线程的存储器请求。通常，PAU核心306或线程控制件304可包含用以启用流水线中的一或多个线程重新调度点的电路***。在此，拒绝发生在流水线中的位于这些线程重新调度之外(例如，之后)的点处。在实例中，危险发生在所述重新调度点之外。在此，在存储器请求指令通过其中可进行存储器请求的流水线阶段之前的最后线程重新调度点之后，线程中的前一指令产生危险。

在实例中，为了拒绝存储器请求，PAU核心306经配置以确定(例如，检测)在存储器请求中指示的存储器上存在危险。在此，危险表示使得允许(例如，执行)存储器请求将导致线程的不一致状态的任何状况。在实例中，危险是飞行中的存储器请求。在此，无论数据高速缓存310是否包含经请求存储器地址的数据，飞行中的存储器请求的存在都使得数据高速缓存310中的位于那个地址处的数据应是什么不确定。因此，线程必须等待飞行中的存储器请求完成以对当前数据进行操作。当存储器请求完成时，危险被清除。

在实例中，危险是数据高速缓存310中的用于经请求存储器地址的脏高速缓存行。尽管脏高速缓存行通常指示高速缓存中的数据是当前的且这个数据的存储器控制器版本不是当前的，但在不从高速缓存操作的线程指令上可能出现问题。此指令的实例使用存储器控制器314的内置原子运算符或其它单独硬件块。在存储器控制器的背景下，内置原子运算符可与可编程原子单元302分离且不能存取PAU内部的高速缓存或数据高速缓存310。如果高速缓存行是脏的，那么内置原子运算符将不会对最新近数据进行操作，直到高速缓存经刷新以同步化高速缓存与其它存储器或裸片外存储器为止。这种相同情况可能发生在存储器控制器的其它硬件块(例如密码块、编码器等)上。

图4说明混合线程处理器(HTP)加速器或HTP加速器400的实例。根据实施例，HTP加速器400可包括存储器计算装置的一部分。在实例中，HTP加速器400可包含或包括来自图1的实例的HTP 140。HTP加速器400包含例如HTP核心402、指令高速缓存404、数据高速缓存406、转译块408、存储器接口410及线程控制器412。HTP加速器400可进一步包含例如分派接口414及用于与NOC(例如来自图1的实例的第一NOC 118、来自图2的实例的第二NOC 206或其它NOC)对接的NOC接口416。

在实例中，HTP加速器400包含基于RISC-V指令集的模块且可包含相对少量的其它或额外定制指令以支持低开销、具备线程能力的混合线程(HT)语言。HTP加速器400可包含高线程处理器核心(HTP核心402)，在所述核心中或利用所述核心，线程可在单个指令旋转中执行，例如以维持高指令处理量。在实例中，线程可在其等待其它未决事件完成时被暂停。这可允许计算资源高效地用于相关工作而非轮询上。在实例中，多线程屏障同步可使用高效的HTP到HTP及HTP往/返主机的消息传递，例如可允许数千个线程在例如几十个时钟周期内初始化或唤醒。

在实例中，分派接口414可包括用于处置基于硬件的线程管理的HTP加速器400的功能块。即，分派接口414可管理将工作分派给HTP核心402或其它加速器。然而，非HTP加速器通常不能分派工作。在实例中，从主机分派的工作可使用驻留在例如主机主存储器(例如，基于DRAM的存储器)中的分派队列。另一方面，从HTP加速器400分派的工作可使用驻留在SRAM中的分派队列，例如在对特定节点内的目标HTP加速器400的分派中。

在实例中，HTP核心402可包括代表线程执行指令的一或多个核心。即，HTP核心402可包含指令处理块。HTP核心402可进一步包含或可耦合到线程控制器412。线程控制器412可为HTP核心402内的每一活动线程提供线程控制及状态。数据高速缓存406可包含用于主机处理器(例如，用于本地及远程存储器计算装置，包含用于HTP核心402)的高速缓存，且指令高速缓存404可包含用于由HTP核心402使用的高速缓存。在实例中，数据高速缓存406可经配置用于读取及写入操作，且指令高速缓存404可经配置用于只读操作。

在实例中，数据高速缓存406是每硬件线程提供的小型高速缓存。数据高速缓存406可暂时存储由拥有线程使用的数据。数据高速缓存406可由HTP加速器400中的硬件或软件来管理。例如，在由HTP核心402执行加载及存储操作时，硬件可经配置以根据需要自动地分配或逐出行。例如使用RISC-V指令的软件可确定哪些存储器存取应被高速缓存及何时应使行无效或将其写回到其它存储器位置。

HTP加速器400上的数据高速缓存具有各种益处，包含使较大存取对存储器控制器更高效、允许执行线程避免停止。然而，存在使用高速缓存会引起低效的情况。实例包含其中数据仅被存取一次且致使高速缓存行颠簸的存取。为了帮助解决这个问题，HTP加速器400可使用一组定制加载指令来强制加载指令检查高速缓存命中且在高速缓存未命中时，发出对经请求操作数的存储器请求且不将所获得数据放入数据高速缓存406中。因此，HTP加速器400包含各种不同类型的加载指令，包含非高速缓存及高速缓存行加载。如果在高速缓存中存在脏数据，那么非高速缓存加载指令将使用高速缓存数据。非高速缓存加载指令忽略高速缓存中的干净数据且不将经存取数据写入到数据高速缓存。对于高速缓存行加载指令，完整的数据高速缓存行(例如，包括64个字节)可从存储器加载到数据高速缓存406中且可将所寻址存储器加载到所指定寄存器中。如果干净或脏数据在数据高速缓存406中，那么这些加载可使用高速缓存数据。如果所引用存储器位置不在数据高速缓存406中，那么可从存储器存取整个高速缓存行。使用高速缓存行加载指令可在正引用循序存储器位置(例如存储器复制操作)时减少高速缓存未命中，但如果不使用所引用存储器数据，那么也可能浪费NOC接口416处的存储器及带宽。

在实例中，HTP加速器400包含非高速缓存的定制存储指令。非高速缓存的存储指令可帮助避免因未被循序地写入到存储器的写入数据而使数据高速缓存406颠簸。

在实例中，HTP加速器400进一步包含转译块408。转译块408可包含用于存储器计算装置的本地存储器的虚拟到物理转译块。例如，主机处理器(例如HTP核心402)可执行加载或存储指令，且所述指令可产生虚拟地址。虚拟地址可例如使用来自转译块408的转译表被转译为主机处理器的物理地址。例如，存储器接口410可包含HTP核心402与NOC接口416之间的接口。

图5说明根据实施例的存储器计算装置的混合线程组构(HTF)或HTF 500的表示的实例。在实例中，HTF 500可包含或包括来自图1的实例的HTF 142。HTF 500是可针对高级语言操作数类型及运算符(例如，使用C/C++或其它高级语言)进行优化的粗粒度、可重新配置的计算组构。在实例中，HTF 500可包含互连强化SIMD运算单元的可配置、n位宽(例如，512位宽)的数据路径。

在实例中，HTF 500包括包含多个HTF片块(包含实例片块504或片块N)的HTF集群502。每一HTF片块可实施具有本地片块或计算元件存储器及算术功能的一或多个计算元件。例如，每一片块可包含支持整数及浮点运算的计算流水线。在实例中，数据路径、计算元件及其它基础结构可被实施为强化IP以提供最大性能，同时最小化功耗及重新配置时间。

在图5的实例中，包括HTF集群502的片块线性地经布置，且所述集群中的每一片块可耦合到HTF集群502中的一或多个其它片块。在图5的实例中，实例片块504或片块N耦合到四个其它片块，包含经由标记为SF IN N-2的端口耦合到片块510(例如，片块N-2)的片块基础、经由标记为SF IN N-1的端口耦合到邻近片块512(例如，片块N-1)及经由标记为SF INN+1的端口耦合到片块N+1及经由标记为SF IN N+2的端口耦合到片块N+2。片块基础是经配置以启动线程及/或以其它方式充当流控制器的片块(例如片块504、510、512)的硬件部分。实例片块504可经由相应输出端口(例如标记为SF OUT N-1、SF OUT N-2、SF OUT N+1及SFOUT N+2的输出端口)耦合到相同片块或其它片块。在这个实例中，各种片块的名称的有序列表是所述片块的位置的概念指示。在其它实例中，包括HTF集群502的片块可被布置成栅格或其它配置，其中每一片块类似地耦合到所述栅格中的其最近邻居中的一或若干者。设置在集群的边缘处的片块可任选地具有到邻近片块的较少连接。例如，片块N-2或图5的实例中的片块510的片块基础可仅耦合到邻近片块512(片块N-1)及实例片块504(片块N)。类似地，可使用更少或额外片块间连接。

HTF集群502可进一步包含存储器接口模块，包含第一存储器接口模块506。存储器接口模块可将HTF集群502耦合到NOC，例如第一NOC 118。在实例中，存储器接口模块可允许集群内的片块向存储器计算***中(例如所述***中的同一或不同节点中)的其它位置提出请求。即，HTF 500的表示可包括可跨多个节点分布的较大组构的一部分，例如在所述节点中的每一者处具有一或多个HTF片块或HTF集群。请求可在较大组构的背景下的片块或节点之间提出。

在图5的实例中，HTF集群502中的片块使用同步组构(SF)来耦合。同步组构可提供HTF集群502中的特定片块与其相邻片块之间的通信，如上文所描述。每一HTF集群502可进一步包含异步组构(AF)，所述异步组构可提供例如所述集群中的片块、所述集群中的存储器接口与所述集群中的分派接口508当中的通信。

在实例中，同步组构可交换包含数据及控制信息的消息。控制信息可尤其包含指令RAM地址信息或线程识别符。控制信息可被用来设置数据路径，且可选择数据消息字段作为所述路径的源。通常，可更早地提供或接收控制字段，使得它们可被用来配置数据路径。例如，为了帮助最小化通过片块中的同步流流水线的任何延迟，控制信息可比数据字段早几个时钟周期到达片块。可提供各种寄存器来帮助协调流水线中的数据流时序。

在实例中，HTF集群502中的每一片块可包含一或多个片块存储器。每一片块存储器可具有与数据路径相同的宽度(例如，512个位)且可具有所指定深度，例如在512到1024个元件的范围内。片块存储器可被用来存储支持数据路径操作的数据。例如，经存储数据可包含作为内核的集群配置的部分加载的常数，或可包含作为数据流的部分计算的变量。在实例中，片块存储器可作为来自另一同步流的数据传送从异步组构写入，或可包含例如由另一同步流启动的加载操作的结果。片块存储器可经由同步流中的同步数据路径指令执行来读取。

在实例中，HTF集群502中的每一片块可具有专用指令RAM(INST RAM)。在具有16个片块的HTF集群502及具有64个条目的相应指令RAM例子的实例中，所述集群可允许用多达1024个乘法-移位及/或ALU运算来映射算法。各种片块可任选地例如使用同步组构流水线化在一起，以允许具有最少存储器存取的数据流计算，从而最小化延时且降低功耗。在实例中，异步组构可允许存储器引用与计算并行进行，由此提供更高效的流内核。在实例中，各种片块可包含对基于循环的结构的内置支持且可支持嵌套循环内核。

同步组构可允许多个片块(例如，其多个计算元件)被流水线化，例如而无需数据排队。例如，参与同步流的计算元件可充当单个流水线数据路径。用于同步流的流控制器可为或包含片块(例如，在图5的实例中是片块N-2)、片块上的计算元件及/或片块上的片块基础或控制器。同步流的流控制器可通过流水线片块启动工作线程。流控制器可负责以预定义节奏(在本文中被称为辐条计数)起始线程。例如，如果辐条计数是3，那么片块基础可每隔两个时钟周期启动线程。

在实例中，同步流包括HTF集群502中的一组所连接计算元件。线程的执行可从流控制器开始且可经由同步组构从流控制器前进到其它计算元件(例如，在同一同步流中的其它片块处)。流控制器可提供待对于第一片块执行的指令。在默认情况下，第一计算元件可提供相同指令以供其它所连接计算元件执行。然而，在一些实例中，流控制器或后续计算元件可实施有条件地指定或使用替代指令的条件操作。可通过使计算元件的数据路径产生布尔(Boolean)条件值来选择替代指令，且接着可使用所述布尔值以在当前计算元件的指令集与替代指令之间进行选择。

异步组构可被用来执行相对于同步流异步地发生的操作。HTF集群502中的每一片块可包含到异步组构的接口。入站接口可包含例如FIFO缓冲区或队列(例如，AF IN QUEUE)以为无法立即处理的消息提供存储。类似地，异步组构的出站接口可包含FIFO缓冲区或队列(例如，AF OUT QUEUE)以为无法立即发出的消息提供存储。

在实例中，异步组构中的消息可被分类为数据消息或控制消息。数据消息可包含写入到片块存储器0(MEM_0)抑或存储器1(MEM_1)的SIMD宽度数据值。控制消息可经配置以控制线程创建、释放资源或发出外部存储器引用。

HTF集群502中的片块可为HTF执行各种计算操作。所述计算操作可通过配置片块及/或其计算元件内的数据路径来执行。在实例中，片块包含为片块执行计算操作的两个功能块：乘法及移位运算块(MS OP)以及算术、逻辑及位运算块(ALB OP)。所述两个块可经配置以执行流水线操作，例如乘法及加法，或移位及加法等等。

在实例中，***中的存储器计算装置的每一例子可具有用于其运算符块(例如，MSOP及ALB OP)的完整支持指令集。在这种情况下，可跨***中的所有装置实现二进制兼容性。然而，在一些实例中，维持一组基础功能性及任选指令集类别是有帮助的，例如以满足各种设计折中，例如裸片大小。所述方法可与RISC-V指令集具有基础集及多个任选指令子集的方式类似。

在实例中，实例片块504可包含辐条RAM。辐条RAM可被用来指定哪个输入(例如，来自四个SF片块输入及片块基础输入当中)是每一时钟周期的主要输入。辐条RAM读取地址输入可源于从零计数到辐条计数减一的计数器。在实例中，可在不同片块(例如在同一HTF集群502内)上使用不同辐条计数，以允许由内循环用于确定特定应用程序或指令集的性能的数个切片或唯一片块例子。在实例中，辐条RAM可指定何时将同步输入写入到片块存储器，例如何时使用特定片块指令的多个输入及所述输入中的一者何时先于其它者到达。较早到达的输入可被写入到片块存储器且稍后可在所有输入都可用时被读取。在这个实例中，片块存储器可作为FIFO存储器来存取，且FIFO读取及写入指针可被存储在片块存储器中的基于寄存器的存储区或结构中。

图6A及图6B大体上说明可被用来实施CNM***102的一或多个方面的小芯片***的实例。如上文类似地提及，CNM***102中的节点或CNM***102中的节点内的装置可包含基于小芯片的架构或近存储器计算(CNM)小芯片。封装式存储器计算装置可包含例如一个、两个或四个CNM小芯片。所述小芯片可使用高带宽、低延时互连件(例如使用CPI接口)来互连。通常，小芯片***由集成在中介层上且在许多实例中根据需要通过一或多个所建立网络互连以提供具有所期望功能性的***的离散模块(各自为“小芯片”)组成。中介层及所包含小芯片可被封装在一起以促进与更大***的其它组件互连。每一小芯片可包含潜在地与离散电路组件组合的一或多个个别集成电路(IC)或“芯片”，且可耦合到相应衬底以促进附接到中介层。***中的大多数或所有小芯片可个别地经配置用于通过所建立网络进行通信。

将小芯片配置为***的个别模块不同于在单个芯片上实施此***，所述单个芯片含有一个衬底(例如，单个裸片)上的不同装置块(例如，知识产权(IP)块)(例如芯片上***(SoC))或集成在印刷电路板(PCB)上的离散封装装置。一般来说，小芯片提供比离散封装装置更好的性能(例如，更低的功耗、减少的延时等)，且小芯片提供比单裸片芯片更大的生产效益。这些生产效益可包含更高的良率或减少的开发成本及时间。

小芯片***可包含例如一或多个应用(或处理器)小芯片及一或多个支持小芯片。在此，应用小芯片与支持小芯片之间的区别仅仅是对小芯片***的可能设计场景的参考。因此，例如，仅举例来说，合成视觉小芯片***可包含用以产生合成视觉输出的应用小芯片连同支持小芯片，例如存储器控制器小芯片、传感器接口小芯片或通信小芯片。在典型使用案例中，合成视觉设计者可设计应用小芯片且从其它方获得支持小芯片。因此，设计支出(例如，在时间或复杂性方面)减少，因为避免了支持小芯片中体现的功能性的设计及生产。

小芯片还支持原本可能难以实现的IP块(例如使用不同处理技术或使用不同特征大小(或使用不同接触技术或间距)制造的IP块)的紧密集成。因此，具有不同物理特性、电特性或通信特性的多个IC或IC组合件可以模块化方式组装以提供具有各种所期望功能性的组合件。小芯片***还可促进调适以适应小芯片***将并入到其中的不同更大***的需求。在实例中，可针对特定功能的功率、速度或发热进行优化—如可能发生在传感器上—的IC或其它组合件可比试图在单个裸片上与其它装置集成更容易地与其它装置集成在一起。另外，通过减小裸片的总大小，小芯片的良率趋向于高于更复杂的单裸片装置的良率。

图6A及图6B大体上说明根据实施例的小芯片***的实例。图6A是安装在可例如通过***组件互连快速(PCIe)连接到更广泛计算机***的***板604上的小芯片***602的表示。小芯片***602包含封装衬底606、中介层608及四个小芯片：应用小芯片610、主机接口小芯片612、存储器控制器小芯片614及存储器装置小芯片616。其它***可包含许多额外小芯片以提供额外功能性，如从以下论述将显而易见。小芯片***602的封装被说明为具有盖子或覆盖物618，但可使用小芯片***的其它封装技术及结构。图6B是为了清楚起见而标记小芯片***中的组件的框图。

应用小芯片610被说明为包含小芯片***NOC 620以支持用于小芯片间通信的小芯片网络622。在实例实施例中，小芯片***NOC 620可被包含在应用小芯片610上。在实例中，来自图1的实例的第一NOC 118可响应于选定支持小芯片(例如，主机接口小芯片612、存储器控制器小芯片614及存储器装置小芯片616)而定义，从而使设计者能够为小芯片***NOC 620选择适当数目个小芯片网络连接或交换机。在实例中，小芯片***NOC 620可位于单独小芯片上，或位于中介层608内。在如本文中所论述的实例中，小芯片***NOC 620实施小芯片协议接口(CPI)网络。

在实例中，小芯片***602可包含或包括第一存储器计算节点104或第一存储器计算装置112的一部分。即，第一存储器计算装置112的各种块或组件可包含可安装在***板604、封装衬底606及中介层608上的小芯片。第一存储器计算装置112的接口组件通常可包括主机接口小芯片612，第一存储器计算装置112的存储器及存储器控制相关组件通常可包括存储器控制器小芯片614，第一存储器计算装置112的各种加速器及处理器组件通常可包括应用小芯片610或其例子等等。

例如可被用于***中的小芯片之间或当中的通信的CPI接口是支持虚拟信道以实现小芯片之间的灵活且高速交互的基于分组的网络。CPI实现从小芯片内网络到小芯片网络622的桥接。例如，AXI是被广泛地用来设计芯片内通信的规范。然而，高级可扩展接口(AXI)规范涵盖各种各样的物理设计选项，例如物理信道的数目、信号时序、功率等。在单个芯片内，通常选择这些选项来满足设计目标，例如功耗、速度等。然而，为了实现小芯片***的灵活性，使用适配器(例如CPI)来在可在各种小芯片中实施的各种AXI设计选项之间进行对接。通过实现物理信道到虚拟信道的映射且用分组化协议封装基于时间的信令，CPI跨小芯片网络622桥接小芯片内网络。

CPI可使用多种不同物理层来传输分组。物理层可包含简单的导电连接，或可包含用以增大电压或以其它方式促进在更长距离上传输信号的驱动器。一个此类物理层的实例可包含高级接口总线(AIB)，在各种实例中，所述高级接口总线可在中介层608中实施。AIB使用带有经转发时钟的源同步数据传送来传输及接收数据。分组相对于经传输时钟以单倍数据速率(SDR)或双倍数据速率(DDR)跨AIB传送。AIB支持各种信道宽度。所述信道可经配置以具有对称数目个传输(TX)及接收(RX)输入/输出(I/O)或具有非对称数目个传输器及接收器(例如，全传输器抑或全接收器)。取决于哪个小芯片提供主导时钟，所述信道可充当AIB主导信道或从属信道。AIB I/O单元支持三种时控模式：异步(即，非时控)、SDR及DDR。在各种实例中，非时控模式被用于时钟及一些控制信号。SDR模式可使用专用仅SDR I/O单元或两用SDR/DDR I/O单元。

在实例中，CPI分组协议(例如，点对点或可路由)可使用AIB信道内的对称的接收及传输I/O单元。CPI流协议允许更灵活地使用AIB I/O单元。在实例中，用于流模式的AIB信道可将I/O单元配置为全TX、全RX或半TX半RX。CPI分组协议可在SDR抑或DDR操作模式下使用AIB信道。在实例中，AIB信道对于SDR模式以80个I/O单元(即，40TX及40RX)的增量配置且对于DDR模式以40个I/O单元的增量配置。CPI流协议可在SDR抑或DDR操作模式下使用AIB信道。在此，在实例中，AIB信道对于SDR及DDR模式两者以40个I/O单元为增量。在实例中，每一AIB信道被指派唯一接口识别符。在CPI重置及初始化期间使用所述识别符来确定跨邻近小芯片的成对AIB信道。在实例中，接口识别符是包括7位小芯片识别符、7位列识别符及6位链路识别符的20位值。AIB物理层使用AIB带外移位寄存器传输接口识别符。使用移位寄存器的位32到51，跨AIB接口在两个方向上传送20位接口识别符。

AIB将一组堆叠AIB信道定义为AIB信道列。AIB信道列具有某一数目个AIB信道加上一辅助信道。辅助信道含有用于AIB初始化的信号。列内的所有AIB信道(辅助信道除外)具有相同配置(例如，全TX、全RX或半TX及半RX)，并且具有相同数目个数据I/O信号。在实例中，AIB信道从邻近于AUX信道的AIB信道开始以连续递增顺序编号。邻近于AUX的AIB信道被定义为AIB信道零。

通常，个别小芯片上的CPI接口可包含串行化-去串行化(SERDES)硬件。SERDES互连件非常适合其中期望具有低信号计数的高速信令的场景。然而，SERDES可能导致复用及解复用、错误检测或校正(例如，使用块级循环冗余校验(CRC))、链路级重试或前向错误校正的额外功耗及更长延时。然而，当低延时或能耗是超短距离的小芯片到小芯片互连的主要关注点时，可利用具有允许以最小延时进行数据传送的时钟速率的并行接口。CPI包含用以最小化这些超短距离小芯片互连件中的延时及能耗两者的元件。

对于流控制，CPI采用基于信用的技术。接收者(例如应用小芯片610)向发送者(例如存储器控制器小芯片614)提供表示可用缓冲区的信用。在实例中，CPI接收者包含在给定传输时间单位内用于每一虚拟信道的缓冲区。因此，如果CPI接收者支持时间上的五个消息及单个虚拟信道，那么接收者具有布置在五行中的五个缓冲区(例如，每单位时间一行)。如果支持四个虚拟信道，那么接收者具有布置在五行中的二十个缓冲区。每一缓冲区保存一个CPI分组的有效负载。

当发送者向接收者传输时，发送者基于所述传输而使可用信用递减。一旦接收者的所有信用被消耗，发送者就停止将分组发送到接收者。这确保接收者总是具有可用缓冲区来存储所述传输。

随着接收者处理经接收分组且释放缓冲区，接收者将可用缓冲区空间传达给发送者。接着，发送者可使用这个信用返回以允许传输额外信息。

图6A的实例包含使用直接的小芯片到小芯片技术而无需小芯片***NOC 620的小芯片网状网络624。小芯片网状网络624可在CPI或另一小芯片到小芯片协议中实施。小芯片网状网络624通常实现小芯片的流水线，其中一个小芯片充当到流水线的接口，而流水线中的其它小芯片仅与它们本身对接。

另外，专用装置接口(例如一或多个行业标准存储器接口(例如举例来说同步存储器接口，例如DDR5、DDR6))可被用来将装置连接到小芯片。小芯片***或个别小芯片到外部装置(例如更大***的连接可通过所期望接口(例如，PCIe接口)进行。在实例中，此外部接口可通过主机接口小芯片612来实施，在所描绘实例中，所述主机接口小芯片提供小芯片***外部的PCIe接口。当行业中的惯例或标准集中在此接口上时，通常采用此类专用小芯片接口626。将存储器控制器小芯片614连接到动态随机存取存储器(DRAM)存储器装置小芯片616的双倍数据速率(DDR)接口的所说明实例正是此行业惯例。

在多种可能的支持小芯片中，存储器控制器小芯片614可能存在于小芯片***中，这是因为几乎无所不在地对于计算机处理使用存储以及对于存储器装置使用精湛的尖端技术。因此，使用由他人生产的存储器装置小芯片616及存储器控制器小芯片614使小芯片***设计者能够获得由成熟生产商生产的稳健产品。通常，存储器控制器小芯片614提供存储器装置特定接口来读取、写入或擦除数据。通常，存储器控制器小芯片614可提供额外特征，例如错误检测、错误校正、维护操作或原子运算符执行。对于一些类型的存储器，维护操作往往特定于存储器装置小芯片616，例如NAND快闪存储器或存储类存储器中的废弃项目收集、NAND快闪存储器中的温度调节(例如，交叉温度管理)。在实例中，维护操作可包含逻辑到物理(L2P)映射或管理以在数据的物理与逻辑表示之间提供间接层级。在其它类型的存储器(例如DRAM)中，一些存储器操作(例如刷新)有时可由主机处理器或存储器控制器来控制，且在其它时候，由DRAM存储器装置或者由与一或多个DRAM装置相关联的逻辑(例如接口芯片(在实例中，缓冲区))来控制。

原子运算符是例如可由存储器控制器小芯片614执行的数据操纵。在其它小芯片***中，原子运算符可由其它小芯片来执行。例如，“递增”的原子运算符可由应用小芯片610在命令中指定，所述命令包含存储器地址及可能的递增值。在接收到所述命令时，存储器控制器小芯片614从所指定存储器地址检索数字，将所述数字递增所述命令中指定的量，且存储结果。在成功完成时，存储器控制器小芯片614将命令成功的指示提供到应用小芯片610。原子运算符避免跨小芯片网状网络624传输数据，从而实现此类命令的较低延时执行。

原子运算符可被分类为内置原子或可编程(例如，定制)原子。内置原子是在硬件中不变地实施的有限操作集。可编程原子是可在存储器控制器小芯片614的可编程原子单元(PAU)(例如，定制原子单元(CAU))上执行的小程序。

存储器装置小芯片616可为易失性存储器装置或非易失性存储器，或者包含易失性存储器装置或非易失性存储器的任何组合。易失性存储器装置的实例包含但不限于随机存取存储器(RAM)—例如DRAM)、同步DRAM(SDRAM)及图形双倍数据速率类型6SDRAM(GDDR6SDRAM)等等。非易失性存储器装置的实例包含但不限于与非(NAND)型快闪存储器、存储类存储器(例如，相变存储器或基于忆阻器的技术)、铁电RAM(FeRAM)等等。所说明实例包含作为小芯片的存储器装置小芯片616，然而，所述装置可驻留在别处，例如在***板604上的不同封装中。对于许多应用，可提供多个存储装置小芯片。在实例中，这些存储器装置小芯片可各自实施一或多种存储技术且可包含集成计算主机。在实例中，存储器小芯片可包含不同技术的多个堆叠式存储器裸片，例如一或多个静态随机存取存储器(SRAM)装置与一或多个动态随机存取存储器(DRAM)装置堆叠在一起或者以其它方式与一或多个DRAM装置通信。在实例中，存储器控制器小芯片614可用于协调小芯片***602中的多个存储器小芯片之间的操作(例如，在高速缓存存储的一或多个层级中使用一或多个存储器小芯片，且使用一或多个额外存储器小芯片作为主存储器)。小芯片***602可包含如可被用来为单独主机、处理器、传感器、网络等提供存储器控制功能性的多个存储器控制器小芯片614例子。例如所说明***中的小芯片架构通过经更新小芯片配置(例如在不需要重新设计***结构的其余部分的情况下)，在允许适应不同存储器存储技术及不同存储器接口方面提供优势。

图7大体上说明根据实施例的存储器计算装置的基于小芯片的实施方案的实例。所述实例包含具有四个近存储器计算或CNM小芯片的实施方案，且所述CNM小芯片中的每一者可包含或包括来自图1的实例的第一存储器计算装置112或第一存储器计算节点104的部分。各种部分本身可包含或包括相应小芯片。基于小芯片的实施方案可包含或使用基于CPI的***内通信，如上文在来自图6A及图6B的实例小芯片***602中类似地论述。

图7的实例包含包括多个小芯片的第一CNM封装700。第一CNM封装700包含耦合到CNM NOC集线器710的第一小芯片702、第二小芯片704、第三小芯片706及第四小芯片708。第一到第四小芯片中的每一者可包括相同或基本上相同的组件或模块的例子。例如，所述小芯片可各自包含HTP加速器、HTF加速器及用于存取内部或外部存储器的存储器控制器的相应例子。

在图7的实例中，第一小芯片702包含耦合到CNM NOC集线器710的第一NOC集线器边缘714。第一CNM封装700中的其它小芯片类似地包含NOC集线器边缘或端点。NOC集线器边缘中的交换机促进经由CNM NOC集线器710进行小芯片内或小芯片***内通信。

第一小芯片702可进一步包含一个或多个存储器控制器716。存储器控制器716可对应于与第一NOC集线器边缘714对接的相应不同NOC端点交换机。在实例中，存储器控制器716包括存储器控制器小芯片614，或包括存储器控制器130，或包括存储器子***200或其它存储器计算实施方案。存储器控制器716可耦合到相应不同存储器装置，例如包含第一外部存储器模块712a或第二外部存储器模块712b。所述外部存储器模块可包含例如可由***中的相应不同小芯片选择性地存取的GDDR6存储器。

第一小芯片702可进一步包含例如经由相应不同NOC端点交换机耦合到第一NOC集线器边缘714的第一HTP小芯片718及第二HTP小芯片720。所述HTP小芯片可对应于HTP加速器，例如来自图1的实例的HTP 140，或来自图4的实例的HTP加速器400。所述HTP小芯片可与HTF小芯片722进行通信。HTF小芯片722可对应于HTF加速器，例如来自图1的实例的HTF142，或来自图5的实例的HTF 500。

CNM NOC集线器710可凭借各种接口及交换机耦合到其它小芯片或其它CNM封装中的NOC集线器例子。例如，CNM NOC集线器710可凭借第一CNM封装700上的多个不同NOC端点耦合到CPI接口。多个不同NOC端点中的每一者可耦合到例如第一CNM封装700外部的不同节点。在实例中，CNM NOC集线器710可使用CTCPI或其它非CPI协议耦合到其它***装置、节点或装置。例如，第一CNM封装700可包含经配置以将第一CNM封装700与其它装置对接的PCIe缩放组构接口(PCIE/SFI)或CXL接口(CXL)。在实例中，第一CNM封装700使用各种CPI、PCIe、CXL或其它组构所耦合到的装置可组成共同全局地址空间。

在图7的实例中，第一CNM封装700包含主机接口724(HIF)及主机处理器(R5)。主机接口724可对应于例如来自图1的实例的HIF 120。主机处理器或R5可对应于来自图1的实例的内部主机处理器122。主机接口724可包含用于将第一CNM封装700耦合到其它外部装置或***的PCI接口。在实例中，可由主机接口724在第一CNM封装700上或在第一CNM封装700内的片块集群上启动工作。例如，主机接口724可经配置以命令例如第一CNM封装700中的各种小芯片当中的个别HTF片块集群进入及退出功率/时钟门模式。

图8说明根据实施例的存储器计算装置的实例平铺。在图8中，平铺式小芯片实例800包含小芯片的不同近存储器计算集群的四个例子，其中所述集群耦合在一起。近存储器计算小芯片的每一例子本身可包含一或多个构成小芯片(例如，主机处理器小芯片、存储器装置小芯片、接口小芯片等等)。

平铺式小芯片实例800包含来自图7的实例的第一近存储器计算(CNM)封装700的例子作为其CNM集群中的一或多者。例如，平铺式小芯片实例800可包含第一CNM集群802，所述第一CNM集群包含第一小芯片810(例如，对应于第一小芯片702)、第二小芯片812(例如，对应于第二小芯片704)、第三小芯片814(例如，对应于第三小芯片706)及第四小芯片816(例如，对应于第四小芯片708)。第一CNM集群802中的小芯片可耦合到共同NOC集线器，所述共同NOC集线器又可耦合到邻近集群或若干邻近集群中(例如，第二CNM集群804或第四CNM集群808中)的NOC集线器。

在图8的实例中，平铺式小芯片实例800包含第一CNM集群802、第二CNM集群804、第三CNM集群806及第四CNM集群808。各种不同CNM小芯片可经配置在共同地址空间中使得所述小芯片可跨不同片块分配及共享资源。在实例中，集群中的小芯片可彼此进行通信。例如，第一CNM集群802可经由小芯片间CPI接口818通信地耦合到第二CNM集群804，且第一CNM集群802可经由另一或同一CPI接口通信地耦合到第四CNM集群808。第二CNM集群804可经由同一或其它CPI接口通信地耦合到第三CNM集群806，以此类推。

在实例中，平铺式小芯片实例800中的近存储器计算小芯片中的一者可包含负责跨平铺式小芯片实例800的工作负载平衡的主机接口(例如，对应于来自图7的实例的主机接口724)。主机接口可促进例如从平铺式小芯片实例800外部存取基于主机的命令请求队列及响应队列。主机接口可使用平铺式小芯片实例800中的近存储器计算小芯片中的一或多者中的混合线程处理器及混合线程组构分派新执行线程。

图9是展示用于使用多于一个同步流在可重新配置计算组构(例如HTF 142或HTF500)处执行操作的工作流程900的一个实例的图。图9的工作流程900利用分派接口902及两个同步流901、903。分派接口902经配置以从近存储器计算***的其它部分接收指令及/或数据，如本文中所描述。在一些实例中，分派接口902以与本文中所描述的分派接口508类似的方式布置。

同步流901、903包含相应流控制器904、906及有序同步数据路径908、910，如本文中所描述。同步数据路径908、910例如可在相应同步流901、903的计算元件之间，如本文中所描述。流控制器904、906及同步数据路径908、910由可重新配置计算组构(例如本文中所描述的HTF 142或HTF 500)布置。

可重新配置计算组构可经布置以实施包含流控制器904、906及同步数据路径908、910的各种计算元件的同步流901、903。例如，流控制器904、906可使用片块510、512等的相应片块基础来实施。同步数据路径908、910可在片块510、512等之间实施，其中片块510、512等实施本文中所描述的计算元件。如本文中所描述及图5处所说明的片块、片块基础等可为混合线程组构(HTF)(例如HTF 142)的组件，所述HTF是存储器计算装置(例如图1的存储器计算装置112)的部分。本文中所描述的其它同步流可使用如本文中所描述的HTF的片块及片块基础类似地布置。

在图9的工作流程900中，域接口902通过经由可重新配置计算组构的异步组构将异步消息912提供到流控制器904来启动处理任务。异步消息912可为继续型消息。域接口902可基于其自身编程及/或响应于来自近存储器计算***可重新配置计算组构的另一组件的指令而启动处理任务。在一些实例中，域接口902还针对用于执行处理任务(包含例如对各种流控制器904、906及计算元件进行编程以实施同步流901、903)的正确内核配置对可重新配置计算组构进行配置。

异步消息912可指示流控制器904开始同步流线程。例如，当辐条RAM为同步流901的组件之间的同步数据路径908选择流控制器904时，所述流控制器可通过将第一同步消息提供到同步数据路径908的第一计算元件来启动所述线程。同步消息可包含数据及控制信息，如本文中所描述。同步数据路径908的第一计算元件通过执行处理任务且产生被发送到同步数据路径908的第二计算元件的下一同步消息来开始线程的执行。第二计算元件执行处理任务且产生被发送到同步数据路径908的第三计算元件的第三同步消息，以此类推，直到在同步数据路径908的所有计算元件处均执行线程为止。

同步数据路径908的计算元件经编程以在执行线程的同时执行各种操作，包含例如用于配置同步流903的操作。例如，在执行同步流901处的线程期间，同步数据路径908的计算元件中的一或多者将异步消息914发送到同步流903的流控制器906。异步消息914指示流控制器906以至少一个条件的出现为条件而启动同步流903处的线程。在这个实例中，所述条件或若干条件包含从同步流901接收到指示线程完成或启动同步流903处的线程是可接受的另一异步消息。稍后在执行同步流901处的线程时，同步数据路径908的计算元件将异步消息916发送到同步流903的流控制器906。异步消息916指示同步流901处的线程已完成及/或到达同步流903处的对应线程可开始的点。在一些实例中，异步消息916指示在同步流903处的线程期间执行的处理的结果。

在接收到异步消息916时(及当满足异步消息914的其它条件(如果有的话)时)，流控制器906例如通过将第一同步消息发送到同步数据路径910的第一计算元件来启动同步流903处的线程。在一些实例中，例如，在同步流903处的线程完成时，同步数据路径910的计算元件将把用以指示经请求处理任务已完成的异步消息918发送到分派接口902。

图10是展示用于在可重新配置计算组构(例如HTF 142或HTF 500)处执行操作的工作流程1000的一个实例的图，其中同步流1001、1003与存储器接口1016交互。在工作流程1000中，域接口1002通过经由可重新配置计算组构的异步组构将异步消息1010提供到流控制器1004来启动处理任务。异步消息1010指示流控制器1004在一或多个条件出现时启动同步流1001处的线程。(在一些实例中，消息1010可指示流控制器1004立即开始执行线程，而无需等待任何条件的出现)。

流控制器1004通过将同步消息提供到同步数据路径1022的第一计算元件来启动线程，如本文中所描述。在执行同步流1001处的线程期间，同步数据路径1022的计算元件将异步消息1012提供到同步流1003的流控制器1006。异步消息1012可指示流控制器1006在接收到来自存储器接口1016的数据已被接收的指示时启动同步流1003处的线程。

作为执行同步流1001处的线程的部分，同步数据路径1022的另一计算元件将异步消息1014提供到存储器接口1016。异步消息1014包括待引导到近存储器计算***的存储器(例如举例来说包含可重新配置计算组构的存储器计算装置的存储器元件)的读取请求。在一些实例中，异步消息1014还可识别将接收读取请求的结果的同步流1003的计算元件。

存储器接口1016在适当***存储器处执行读取请求以获得加载数据。当加载数据被接收时，存储器接口1016将包含加载数据的异步消息1018引导到由异步消息1014指示的同步流1003的计算元件(例如，同步数据路径1024的计算元件中的一者)。在接收到加载数据时，计算元件将加载数据写入到计算元件存储器且将异步消息1017发送到同步流1003的流控制器1006。消息1017指示加载数据已被接收。在一些实例中，存储器接口1016将与消息1018类似的包含加载数据的异步消息提供到同步流1003的多个计算元件。已接收到加载数据的每一计算元件可将与消息1017类似的对应异步消息提供到流控制器1006。

在接收到异步消息1017时(及在满足继续型消息1012的任何其它条件之后)，流控制器1006例如通过将同步消息提供到同步数据路径1024的第一计算元件来启动同步流1003处的线程。如果同步流1003的多于一个的计算元件将接收加载数据，那么当流控制器1006已从已接收到加载数据的计算元件接收所有预期异步消息时流控制器1006可启动线程。在一些实例中，在同步流1003处的线程完成时，同步数据路径1024的计算元件中的一或多者(例如，其最后计算元件)将指示完成的异步消息1020发送到分派接口1002。

图11是展示用于使用可重新配置计算组构(例如HTF 142或HTF 500)执行循环1122的工作流程1100的一个实例的图。工作流程1100使用三个同步流1101、1103、1105来说明。在这个实例中，循环1122的每次迭代使用单个同步流1103处的单个线程来执行。在这个实例中，同步流1101及同步流1105的线程可执行具有共同线程ID的线程。同步流1103处的线程可具有不同线程ID，所述线程ID可为较低级线程ID。例如，如果同步流1101及1105的线程处于级T1，那么同步流1103的线程可处于级T0。

流控制器1102例如通过将同步消息提供到同步数据路径1108的第一计算元件来启动同步流1101处的第一线程。执行同步流1101处的线程包含将异步消息1114发送到同步流1105的流控制器1106。异步消息1114可为指示流控制器1106将在接收到循环1122已完成的指示之后执行同步流1105处的线程的继续型消息。在一些实例中，异步消息1114还指示在同步流1101处执行的线程的线程ID使得同步流1105处的对应线程可使用相同线程ID(及相关联资源)。执行同步流1101处的线程还包含将异步消息1116发送到同步流1103的流控制器1104。异步消息1116可为指示流控制器1104执行循环的循环型消息。例如，异步消息1116可包含指示循环中的迭代次数的迭代计数。

流控制器1104启动用于循环的第一次迭代的线程。在一些实例中，流控制器1104产生迭代索引，如本文中所描述。迭代索引可被包含例如在经由同步消息传播通过同步流的控制信息中。同步数据路径1110的计算元件可使用由流控制器1104产生的迭代索引。当线程完成时，一或多个计算元件将指示循环的第一次迭代已完成的异步消息1120发送到流控制器1104。由同步流1103产生的异步消息(例如消息1118)可携载循环1122的迭代索引。

在一些实例中，流控制器1104在启动用于循环的第一次迭代的第一线程之后继续启动用于执行循环的额外迭代的额外线程。例如，如果流控制器1104具有辐条计数3，那么其可每隔两个时钟周期启动同步流1103处的用于循环的新迭代的新线程。这可在不考虑用于先前循环迭代的线程是否已完成传播通过同步数据路径1110的计算元件的情况下发生。在一些实例中，实施不同循环迭代的各种线程可在同步流1103的同步数据路径1110的计算元件处并发地执行(例如，偏移达辐条计数)。

当实施循环1122的所有迭代的线程已完成时，流控制器1104将接收到源自实施迭代的所有线程的异步消息。当这已发生时，流控制器1104将指示循环1122已完成的异步消息1118发送到流控制器1106。流控制器1106可通过在计算元件1112处启动线程以实施可重新配置计算组构的编程的下一部分而作出响应。

图11展示可经组合以在不同背景下实施循环的各种实例元件。首先，尽管图11的实例展示由同步流1101处的线程启动循环1122，但在一些实例中，循环可由另一组件(例如分派接口)来启动。而且，尽管在图11的实例中，循环1122的完成触发另一同步流1105处的另一线程，但在一些实例中，循环的完成可指示处理任务的完成。因此，作为如图11中所展示那样将指示循环的完成的同步消息1118提供到另一流控制器1106的补充或代替，可将所述同步消息提供到分派接口。

而且，图11说明可被用来实施嵌套循环的元件。例如，同步流1101处的启动循环1122的线程可能正执行将循环1122作为内循环进行调用的外循环的迭代。而且，在一些实例中，例如，同步流1103处的实施循环1122的迭代的每一线程可致使另一同步流(未展示)实施另一循环，如同同步流1101处的线程致使同步流1103执行循环1122那样。

在图11的实例中，循环1122的每次迭代使用单个同步流1103来执行。然而，在一些实例中，循环迭代的执行可利用多个同步流。例如，执行用于循环1122的迭代的线程可包含将异步消息发送到第二流控制器及/或存储器接口。第二流控制器启动另一同步流(未展示)处的线程以执行循环迭代的另一部分。在这个实例中，在循环迭代完成时，完成循环迭代的同步流将异步消息发送到启动所述循环的流控制器(例如，流控制器1104)。

在一些实例中，图11的布置可经修改使得循环型异步消息1116及继续型异步消息1114由流控制器1102而不是由同步流1101的计算元件来发送，如图11中所展示。这可减少在同步数据路径1108处使用的计算元件的数目。在一些实例中，其可容许省略同步流1101的计算元件。

图12是展示用于使用可重新配置计算组构(例如HTF 142或HTF 500)执行三重嵌套循环的工作流程1200的实例的图。工作流1200使用分派接口1202及四个同步流1203、1205、1207及1209来说明。图12的工作流程1200可被用来执行下文代码段[4]：

在图12的实例中，可重新配置计算组构经配置以包含三个线程级T2、T1及T0。然而，在图12的实例中，分派接口1202经配置以直接将循环型异步消息1212发送到流控制器1204。这可允许分派接口1202有效地作为具有一个可用线程ID的额外线程级进行操作，所述额外线程级在本文中被称为线程级T3。异步消息1212可指示一级x循环的迭代次数(在这个实例中是L次迭代)。

流控制器1204通过启动同步流1203处用于执行一级x循环的迭代的线程来响应于循环型异步消息1212。例如，流控制器1204可对于同步流1203处启动的每一线程产生迭代索引值且经由同步消息将迭代索引提供到同步流1203的计算元件，如本文中所描述。同步流1203处启动的线程可被指派T2级线程ID。同步流1203处的每一线程可将异步消息1214发送到流控制器1206。异步消息1214可为指示流控制器1206开始启动同步流1205处用于执行二级y循环的迭代的线程的循环型消息。异步消息1214可指示二级y循环的迭代次数(在这个实例中是M次迭代)。

流控制器1206可对于每一经启动线程确定相应迭代索引且例如通过发送一或多个同步消息来启动同步流1205处的线程，如本文中所描述。同步流1205处启动的线程可被指派T1级线程ID。同步流1205处的每一线程可将异步消息1216发送到流控制器1208。异步消息1216可为指示流控制器1208开始启动同步流1207处用于执行三级z循环的迭代的线程的循环型消息。异步消息1216可指示三级z循环的迭代次数(在这个实例中是N次迭代)。

流控制器1208可对于每一经启动线程确定相应迭代索引且例如通过发送一或多个同步消息来启动同步流1207处的线程，如本文中所描述。同步流1207处启动的线程可被指派T0级线程ID。同步流1207处的线程可例如通过将累加值s的迭代特定值写入到由迭代索引指示的计算元件存储器位置来更新s。同步流1207处的线程也可在完成时将异步消息1218发送到流控制器1208。异步消息1218可为指示同步流1207处的线程完成且由经完成线程使用的T0线程ID(及相关联资源)现在可用于重新指派给另一同步流线程的完整及自由型消息。

当流控制器1208启动N个线程且接收异步消息1218的N个例子时，其可确定三级z循环的例子已完成(例如，三级z循环的N次迭代已完成)。流控制器1208将指示由特定循环异步消息1216请求的三级z循环的例子已完成且同步流1205处的发送循环异步消息1216的线程的T1级线程ID现在是自由的异步消息1220发送到流控制器1206。例如，如在图12的实例中，因为异步消息1220由流控制器1208来发送，所以包含额外同步流来结束z循环可能不是必要的。

流控制器1206可启动用于二级y循环的M次迭代中的每一者的线程且那些线程中的每一者可发送启动三级z循环的例子的异步消息1216。因此，流控制器1206最终可接收异步消息1220的M个例子。在接收到异步消息1220的M个例子时，流控制器1206可确定二级y循环的一个例子的所有迭代已执行。作为响应，流控制器1206将异步消息1222发送到流控制器1204。异步消息1222可为指示二级y循环的例子完成且同步流1203处的请求其的线程的T2级线程ID现在是自由的完整及自由型消息。

流控制器1204可启动用于一级x循环的L次迭代中的每一者的线程且那些线程中的每一者可发送启动二级y循环的例子的异步消息1214。因此，流控制器1206最终可接收异步消息1222的L个例子。在接收到异步消息1222的L个例子时，流控制器1208可确定一级x循环的所有迭代已执行。作为响应，流控制器1208将异步消息1224发送到流控制器1204。异步消息1222可为指示三重嵌套循环完成的完整型消息。响应于异步消息1224及来自分派接口1202的先前继续型异步消息1213，流控制器1210启动同步流1209处的线程以执行累加值s的保存。在完成时，同步流1209处的线程将异步消息1226发送到分派接口1202。异步消息1226可为指示代码段[5]完整且(单个)T3级线程ID可用的完整及自由型消息。

图13是展示布置有经配置以产生迭代索引的流控制器1302的同步流1300的一个实例的图。同步流1300可由可重新配置计算组构(例如本文中所描述的HTF 142或HTF 500)布置而成。图13的实例同步流1300包含流控制器1302及实例计算元件1304、1306、1308、1310。可重新配置计算组构的一或多个片块、片块基础或其它组件可经编程以实施流控制器1302且各种片块(或其部分)可经配置以实施相应计算元件1304、1306、1308、1310。

图13的同步流1300展示在从流程控制器1302到计算元件1304；从计算元件1304到计算元件1308；从计算元件1308到计算元件1310；及从计算元件1310到计算元件1306的组件之间传递同步消息1328、1330、1332、1334的实例同步数据路径。

流控制器1302可接收指示流控制器1302使用使用同步流1300执行循环的异步消息1326。异步消息1326可包含例如待使用同步流1300执行的循环的迭代计数。如果待由同步流1300执行的循环是嵌套循环的二级或更低级循环，那么异步消息1326还可包含关于一或多个更高级循环的信息，包含例如所述更高级循环的迭代计数、发送异步消息1326的更高级循环迭代的迭代次数等。迭代计数是待执行的循环的总迭代次数。例如，对于1与4096之间的x的值执行的循环具有循环计数4096。迭代次数是正执行的特定迭代的次数。

再次参考上文实例代码段[4]，如果异步消息1326指示流控制器1302实施三级z循环，那么其可包含与三级z循环的经调用执行相关联的来自一级x循环的迭代次数及二级y循环的迭代次数。在一些实例中，如本文中所描述，异步消息1326还可包含一级x循环及/或二级y循环的迭代计数。

流控制器1302可通过开始启动同步流1300处的同步流线程来实施由异步消息1326指示的循环。同步流线程对应于经请求循环的不同迭代。流控制器1302通过将同步消息1328发送到同步流1300的第一计算元件1304来启动同步流线程。流控制器1302可包含产生循环的每次迭代的迭代索引的迭代索引电路1324。由迭代索引电路1324产生的迭代索引作为同步消息1328的部分提供到同步流1300的第一计算元件1304。迭代索引可被包含例如在控制信息中。

迭代索引电路1324可以任何合适方式确定迭代索引。在一些实例中，迭代索引电路1324使用正在同步流1300处执行的循环的迭代次数及/或迭代计数以及/或者一或多个更高级循环的迭代次数及/或迭代计数产生迭代索引。考虑其中存在一个更高级循环的实例，其在这个实例中被称为外循环，而由同步流1300递增的循环被称为内循环。迭代索引电路1324可对所述更高级循环的迭代次数执行第一运算且将结果与内循环迭代次数组合。

在一些实例中，对外循环迭代次数的运算包含将二进制掩码应用于外循环迭代次数。这可能返回经屏蔽的外循环迭代次数。在其它实例中，对外循环迭代次数的运算包含将外循环迭代次数乘以常数以产生外循环迭代次数乘积。例如，通过加法、布尔“或”或者任何其它合适函数，可将对外循环迭代次数的运算的结果与经屏蔽的外循环迭代次数组合。如果存在多于一个外循环(例如，如果在同步流1300处执行的循环是三级或更低级循环)，那么迭代索引可考虑多于一个或所有外循环的迭代次数及/或迭代计数。

在一些实例中，将运算应用于外循环迭代次数会将外循环迭代次数限于与同步流1300相关联的外循环迭代的指示。考虑上文代码段[3]的实例。在此，x的一级外循环执行4096次且y的-级内循环的二级内循环也执行4096次，这意味着内循环总共执行16,777,216次迭代。同步流1300的计算元件可能不具有足够的计算元件存储器来存储所有16,777,216次迭代的数据。因此，可使用多个同步流来执行内循环及/或在预定迭代次数之后将计算元件存储器写入到***存储器并进行清除。因此，屏蔽外循环迭代次数及/或对外循环迭代次数进行乘法运算可限制所得经屏蔽的外循环迭代次数以指示待在同步流1300处执行的外循环迭代。

在一些实例中，迭代索引电路1324例如从外循环迭代次数及唯一内环迭代次数产生待由同步流1300执行的循环的每次迭代的唯一迭代索引。在其它实例中，迭代电路1324产生待将由同步流1300执行的循环的第一次迭代的初始迭代索引。迭代索引电路1324将余量加到循环的后续迭代的初始迭代索引。余量可反映在每次迭代时可由计算元件使用的相应计算元件存储器处的空间量。在一些实例中，余量是或基于计算元件1304、1306、1308、1310的数据宽度。例如，每一计算元件1304、1306、1308、1310可在每一操作中处理预定数据量。迭代索引电路1324通过将数据宽度(或数据宽度的倍数)加到先前迭代的迭代索引来寻找一次循环迭代的迭代索引。

如所描述，由迭代索引电路1324对于给定同步流线程产生的迭代索引对应于待由那个线程实施的循环迭代。流控制器1302将迭代索引包含在发送到计算元件1304的同步消息1328中以启动同步流1300。计算元件1304使用迭代索引来执行I/O操作。在图13的实例中，计算元件1304使用迭代索引以在计算元件1304的计算元件存储器1314处执行一或多个I/O操作。例如，计算元件1304可从计算元件存储器读取操作数数据及/或在由迭代索引指示的存储器位置处将结果数据写入到计算元件存储器1314。例如，计算元件1304可从与基础存储器位置偏移达等于迭代索引的量的存储器位置读取数据及/或将数据写入到所述存储器位置。在一些实例中，对于不同操作，相对于不同基础存储器位置使用迭代索引。例如，计算元件1304可从与第一基础位置偏移达迭代索引量的存储器位置读取操作数数据且将结果数据写入到与第二基础位置偏移达迭代索引量的另一存储器位置。

计算元件1304可经由同步消息1330将由迭代索引电路1324产生的迭代索引传递到下一计算元件1308。以这种方式，迭代索引可继续在作为同一同步流线程的部分的计算元件1306、1308、1310之间传递。计算元件1308、1310、1306可例如对于对相应计算元件存储器1318、1320、1316的I/O操作使用迭代索引。

在一些实例中，一或多个计算元件1304、1306、1308、1310可使用迭代索引来引用外部存储器位置。在图13的实例中，计算元件1306将异步消息1336发送到存储器接口1322。异步消息1336可包含迭代索引且使用迭代索引来引用***存储器处对应于执行线程的迭代的一或多个存储器位置。例如，异步消息1336可包含写入消息，所述写入消息包含待写入的数据及使用迭代索引来引用用于存储所述数据的存储器位置。在其它实例中，作为写入请求的补充或代替，异步消息1336还可包含读取请求。读取请求可请求在由迭代索引指示的存储器位置处存储到***存储器的数据。

图14是展示可由流控制器执行以使用迭代索引在同步流处执行循环的过程流程1400的一个实例的流程图。执行过程流程1400的流控制器与同步流处的线程相关联且启动所述线程，如本文中所描述。在操作1402处，流控制器接收指示流控制器在同步流处执行循环的异步消息。异步消息包含循环的迭代计数。

在操作1404处，流程控制器对于同步流线程确定迭代索引以执行循环的第一次迭代。这可包含例如对一或多个相关联外循环的迭代次数执行运算且将结果与经请求循环的迭代次数组合，如本文中所描述。在操作1406处，流控制器例如通过将同步消息引导到同步流的第一计算元件来启动同步流处的线程。

在操作1408处，流控制器确定是否存在经请求循环的更多迭代待执行。如果是，那么在操作1404处，流控制器产生循环的下一次迭代的迭代索引。这可包含对外循环迭代计数执行运算且将结果与内循环迭代次数组合，如上文所指示。在其它实例中，在操作1404处确定下一次迭代的迭代索引包含将余量值加到先前迭代的迭代索引。当新同步流线程的线程ID可用时且例如处于适当辐条计数时，在操作1406处，流控制器启动同步流处的下一线程以执行下一次迭代。如果在操作1408处不存在所述循环的更多迭代待执行，那么在操作1410处，流控制器等待其下一消息。

图15是展示利用经打包迭代索引的同步流的流控制器及计算元件的一个实例的图。在一些实例中，可重新配置计算组构的片块或其它计算元件各自包括多个并行处理通道，例如SIMD处理通道。图15展示包含具有用以产生迭代索引的迭代索引电路1528的流控制器1502的实例，如本文中所描述。流控制器1502产生经打包迭代索引且经由同步消息1508将经打包迭代索引提供到实例计算元件1504。

计算元件1504包含并行处理通道1510、1512、1514、1516。展示N个并行处理通道，其中N可为任何合适数字，包含例如8。而且，并行处理通道的宽度可具有任何合适值。在一些实例中，存在64位具有的8个处理通道，总数据管道宽度是512个位。也可使用其它数目个处理通道及处理通道宽度。在这个实例中，每一并行处理通道使用不同迭代索引IIL0、IIL1、IIL2、IILN。每一通道特定迭代索引可偏移达各种通道的数据宽度。例如，如果并行处理通道具有8个位的数据宽度，那么每一通道特定迭代索引可与前一通道的迭代索引偏移达8个位。

流控制器1502的迭代索引电路1528可经配置以产生经打包迭代索引。经打包迭代索引包含打包成单个值的用于多于一个并行处理的通道特定迭代索引。例如，迭代索引电路1528可产生第一通道1510的第一迭代索引，如本文中所描述。迭代索引电路1528可通过将通道宽度加到第一通道迭代索引来产生下一通道1512的对应迭代索引。可通过将通道宽度加到通道1512的迭代索引上来产生通道1514的迭代索引，以此类推。可产生所有通道1510、1512、1514、1516的索引接口且将其打包成单个经打包迭代索引。在一些实例中，经打包迭代索引具有等于并行处理通道1510、1512、1514的组合数据宽度的宽度。例如，经打包迭代接口可被并行提供到相应通道1510、1512、1514、1516，如所展示。每一通道1510、1512、1514、1516可使用其通道特定迭代索引来执行对计算元件存储器1506及/或***存储器的I/O操作，如本文中所描述。

图16说明实例机器1600的框图，利用所述机器、在所述机器中或通过所述机器可实施本文中所论述的任何一或多种技术(例如，方法论)。如本文中所论述，实例可包含机器1600中的逻辑或数个组件或机制，或者可由其来操作。电路***(例如，处理电路***)是在包含硬件(例如，简单电路、门、逻辑等)的机器1600的有形实体中实施的电路的集合。电路***成员资格可随时间推移而变化。电路***包含可在操作时独自地或组合地执行所指定操作的成员。在实例中，电路***的硬件可不变地经设计以执行特定操作(例如，硬连线)。在实例中，电路***的硬件可包含可变连接的物理组件(例如，执行单元、晶体管、简单电路等)(包含物理修改(例如，磁性地、电地、不变聚集粒子的可移动放置等)的机器可读媒体)以对特定操作的指令进行编码。在连接物理组件时，硬件构成的基础电性质例如从绝缘体变为导体，或反之亦然。所述指令使嵌入式硬件(例如，执行单元或加载机构)能够经由可变连接在硬件中创建电路***的成员以在操作时实行特定操作的部分。因此，在实例中，机器可读媒体元件是电路***的部分或当装置操作时通信地耦合到电路***的其它组件。在实例中，所述物理组件中的任一者可被用于多于一个电路***的多于一个成员中。例如，在操作中，执行单元可在一个时间点被用于第一电路***的第一电路中且由第一电路***中的第二电路重用，或在不同时间由第二电路***中的第三电路重用。这些组件关于机器1600的额外实例。

在替代实施例中，机器1600可作为独立装置操作或可连接(例如，联网)到其它机器。在联网部署中，机器1600可在服务器-客户端网络环境中以服务器机器、客户端机器或两者的身份操作。在实例中，机器1600可充当对等(P2P)(或其它分布式)网络环境中的对等机器。机器1600可为个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络器具、网络路由器、交换机或网桥，或者能够执行指令(循序或以其它方式)的任何机器，所述指令指定待由那个机器采取的动作。此外，虽然仅说明单个机器，但术语“机器”也应被理解为包含个别地或联合地执行一组(或多组)指令以执行本文中论述的任何一或多种方法论(例如云计算、软件即服务(SaaS)、其它计算机集群配置)的任何机器集合。

机器1600(例如，计算机***)可包含硬件处理器1602(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核心或其任何组合)、主存储器1604、静态存储器1606(例如，用于固件、微码、基本输入输出(BIOS)、统一可扩展固件接口(UEFI)等的存储器或存储装置)及大容量存储装置1608(例如，硬盘驱动器、磁带驱动器、快闪存储装置或其它块装置)，其中的一些或全部可经由互连链路1630(例如，总线)彼此进行通信。机器1600可进一步包含显示装置1610、字母数字输入装置1612(例如，键盘)及用户接口(UI)导航装置1614(例如，鼠标)。在实例中，显示装置1610、输入装置1612及UI导航装置1614可为触摸屏显示器。机器1600可另外包含大容量存储装置1608(例如，驱动单元)、信号产生装置1618(例如，扬声器)、网络接口装置1620及一或多个传感器1616，例如全球定位***(GPS)传感器、指南针、加速度计或其它传感器。机器1600可包含输出控制器1628，例如串行(例如，通用串行总线(USB)、并行或者其它有线或无线(例如，红外线(IR)、近场通信(NFC)等)连接以与一或多个***装置(例如，打印机、读卡器等)进行通信或者对其进行控制。

硬件处理器1602、主存储器1604、静态存储器1606或大容量存储装置1608的寄存器可为或包含机器可读媒体1622，所述机器可读媒体上存储有体现本文中所论述的任何一或多种技术或功能或者由其使用的一或多组数据结构或指令1624(例如，软件)。指令1624在由机器1600执行期间还可完全或至少部分地驻留在硬件处理器1602、主存储器1604、静态存储器1606或大容量存储装置1608的寄存器中的任一者内。在实例中，硬件处理器1602、主存储器1604、静态存储器1606或大容量存储装置1608中的一者或任何组合可构成机器可读媒体1622。虽然机器可读媒体1622被说明为单个媒体，但术语“机器可读媒体”可包含经配置以存储一或多个指令1624的单个媒体或多个媒体(例如，集中式或分布式数据库，或者相关联的高速缓存及服务器)。

术语“机器可读媒体”可包含能够存储、编码或携载用于由机器1600执行且致使机器1600执行本公开的任何一或多种技术的指令，或者能够存储、编码或携载由此类指令使用或与此类指令相关联的数据结构的任何媒体。非限制性机器可读媒体实例可包含固态存储器、光学媒体、磁性媒体及信号(例如，射频信号、其它基于光子的信号、声音信号等)。在实例中，非暂时性机器可读媒体包括带有具有不变(例如，静止)质量的多个粒子的机器可读媒体，且因此是物质的组合物。因此，非暂时性机器可读媒体是不包含暂时性传播信号的机器可读媒体。非暂时性机器可读媒体的具体实例可包含：非易失性存储器，例如半导体存储器装置(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))及快闪存储器装置；磁盘，例如内部硬盘及可卸除磁盘；磁光盘；以及CD-ROM及DVD-ROM盘。

在实例中，存储或以其它方式提供在机器可读媒体1622上的信息可代表指令1624，例如指令1624本身或可从其导出指令1624的格式。可从其导出指令1624的这种格式可包含源代码、经编码指令(例如，以经压缩或经加密形式)、经打包指令(例如，分成多个包)等。机器可读媒体1622中代表指令1624的信息可由处理电路***处理成指令以实施本文中所论述的操作中的任一者。例如，从信息导出指令1624(例如，由处理电路处理)可包含：编译(例如，从源代码、目标代码等)、解译、加载、组织(例如，动态地或静态地链接)、编码、解码、加密、解密、打包、解包信息或以其它方式将信息操纵到指令1624中。

在实例中，指令1624的导出可包含(例如，由处理电路***)汇编、编译或解译信息以从由机器可读媒体1622提供的一些中间或预处理格式创建指令1624。信息在以多个部分提供时可被组合、解包及修改以创建指令1624。例如，信息可在一或若干远程服务器上呈多个压缩源代码包(或目标代码，或二进制可执行代码等)。源代码包在通过网络传输时可被加密，且在必要时可被解密、解压缩、汇编(例如，链接)，及在本地机器处被编译或解译(例如，成库、独立可执行文件等)，且由本地机器来执行。

指令1624可利用数种传送协议(例如，帧中继、因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传送协议(HTTP)等)中的一者，经由网络接口装置1620通过使用传输媒体的通信网络1626进一步传输或接收。实例通信网络可包含局域网(LAN)、广域网(WAN)、分组数据网络(例如，因特网)、移动电话网络(例如，蜂窝网络)、普通老式电话(POTS)网络及无线数据网络(例如，被称为的电气及电子工程师协会(IEEE)802.16标准族、被称为/>的IEEE 802.16标准族)、IEEE 802.15.4标准族、对等(P2P)网络等等。在实例中，网络接口装置1620可包含一或多个物理插孔(例如，以太网、同轴或电话插孔)或者一或多根天线以连接到网络1626。在实例中，网络接口装置1620可包含多根天线以使用单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术中的至少一者进行无线通信。术语“传输媒体”应被理解为包含能够存储、编码或携载用于由机器1600执行的指令的任何无形媒体，且包含数字或模拟通信信号或其它无形媒体以促进此软件的通信。传输媒体是机器可读媒体。

为了更好地说明本文中所论述的方法及设备，下文陈述一组非限制性实例实施例作为数字识别实例。

上述详细描述包含对附图的参考，所述附图形成所述详细描述的一部分。附图以说明的方式展示其中可实践本发明的具体实施例。这些实施例在本文中也被称为“实例”。此类实例可包含除所展示或描述元件之外的元件。然而，本发明人也考虑其中仅提供那些所展示或描述元件的实例。此外，对于特定实例(或者其一或多个方面)，抑或对于本文中所展示或描述的其它实例(或者其一或多个方面)，本发明人还考虑使用那些所展示或描述元件(或者其一或多个方面)的任何组合或排列的实例。

在本文献中，如专利文献中常用，术语“一(a)”或“一(an)”被用来包含一或多于一个，而与“至少一个”或“一或多个”的任何其它例子或用法无关。在本文献中，术语“或”被用指代非排他性“或”，使得“A或B”可包含“A而非B”、“B而非A”以及“A及B”，除非另有指示。在所附权利要求书中，术语“包含”及“其中(in which)”被用作相应术语“包括”及“其中(wherein)”的简明英语等效词。而且，在所附权利要求书中，术语“包含”及“包括”是开放式的，即，包含除在一权利要求中在此术语之后列出的元件之外的元件的***、装置、物品或过程仍然被认为落入那个权利要求的范围内。此外，在所附权利要求书中，术语“第一”、“第二”及“第三”等仅仅被用作标签且并不意在对它们的对象施加数值要求。

上述描述意在说明性的而非限制性的。例如，上述实例(或者其一或多个方面)可彼此组合地使用。例如，所属领域的一般技术人员在审阅上述描述后可使用其它实施例。提交时应理解是，其将不被用来解释或限制权利要求书的范围或含义。而且，在上述详细描述中，各种特征可被分组在一起以简化本公开。这不应被解释为意指非要求的所公开特征对于任何权利要求是必不可少的。相反，发明主题可在于少于特定所公开实施例的所有特征。因此，所附权利要求书由此并入到所述详细描述中，其中每一权利要求自身要求作为单独实施例，且经考虑，此类实施例可以各种组合或排列彼此组合。本发明的范围应参考所附权利要求书连同此权利要求书所授权的等效物的全范围来确定。

Claims

1.一种设备，其包括：

可重新配置计算组构，其包括多个计算元件及至少一个流控制器，所述可重新配置计算组构经布置以包含包括流控制器及所述可重新配置计算组构的所述多个计算元件中的数者的第一同步流，所述流控制器通过使用经存储指令进行编程以执行包括以下者的操作：

接收用以使用所述第一同步流执行第一循环的指令；

确定所述第一循环的第一次迭代的第一迭代索引；及

将包括所述第一迭代索引的第一同步消息发送到所述第一同步流的第一计算元件，所述第一同步消息用以启动用于执行所述第一循环的所述第一次迭代的第一同步流线程；且

所述第一计算元件包括第一计算元件存储器，所述第一计算元件经编程以执行包括以下者的操作：

在由所述第一迭代索引指示的第一计算元件存储器的第一位置处执行输入/输出操作。

2.根据权利要求1所述的设备，所述流控制器经编程以执行进一步包括以下者的操作：

确定所述第一循环的第二次迭代的第二迭代索引；及

将第二同步消息发送到所述第一同步流的所述第一计算元件，所述第二同步消息用以启动用于执行所述第一循环的所述第二次迭代的第二同步流线程，所述第二同步消息包括所述第二迭代索引。

3.根据权利要求2所述的设备，其中确定所述第二迭代索引包括使所述第一迭代索引偏移达所述第一计算元件的数据宽度。

4.根据权利要求1所述的设备，所述第一计算元件经编程以执行进一步包括将额外同步消息发送到第二计算元件的操作，所述额外同步消息包括所述第一迭代索引。

5.根据权利要求1所述的设备，所述第一循环是内循环且用以执行所述第一循环的所述指令包括外循环迭代次数，所述确定所述第一迭代索引包括：

将掩码应用于所述外循环迭代次数以产生经屏蔽的外循环迭代计数；及

使用所述经屏蔽的外循环迭代次数来产生所述第一迭代索引。

6.根据权利要求1所述的设备，所述第一循环是内循环且用以执行所述第一循环的所述指令包括外循环迭代次数，所述确定所述第一迭代索引进一步包括：

将所述外循环迭代次数乘以常数以产生外循环迭代次数乘积；及

将第一循环迭代次数加到所述外循环迭代次数乘积。

7.根据权利要求1所述的设备，所述第一计算元件包括数个并行处理通道，所述设备进一步包括：

将第一偏移加到所述第一迭代索引以产生下一并行处理通道迭代索引；及

产生包括所述第一迭代索引及所述下一并行处理通道迭代索引的经打包迭代索引，所述第一同步消息包括所述经打包迭代索引。

8.根据权利要求1所述的设备，所述输入/输出操作包括从所述第一计算元件存储器的所述第一位置的读取或到所述第一计算元件存储器的所述第一位置的写入中的至少一者。

9.根据权利要求1所述的设备，所述第一计算元件经编程以执行进一步包括将写入请求消息发送到存储器接口的操作，所述写入请求消息包括第一数据及所述第一迭代索引。

10.一种方法，其包括：

由可重新配置计算组构的第一流控制器接收用以使用第一同步流执行第一循环的指令，所述可重新配置计算组构包括多个计算元件及至少所述第一流控制器，所述可重新配置计算组构经布置以包含所述第一同步流，所述第一同步流包括所述第一流控制器及所述可重新配置计算组构的所述多个计算元件中的数者；

由所述第一流控制器确定所述第一循环的第一次迭代的第一迭代索引；

由所述第一流控制器将第一同步消息发送到所述第一同步流的第一计算元件，所述第一同步消息用以启动用于执行所述第一循环的所述第一次迭代的第一同步流线程，所述第一同步消息包括所述第一迭代索引；及

由所述第一计算元件在由所述第一迭代索引指示的第一计算元件存储器的第一位置处执行输入/输出操作。

11.根据权利要求10所述的方法，其进一步包括：

由所述第一流控制器确定所述第一循环的第二次迭代的第二迭代索引；

由所述第一流控制器将第二同步消息发送到所述第一同步流的所述第一计算元件，所述第二同步消息用以启动用于执行所述第一循环的所述第二次迭代的第二同步流线程，所述第二同步消息包括所述第二迭代索引；及

由所述第一计算元件在由所述第二迭代索引指示的所述第一计算元件存储器的第二位置处执行输入/输出操作。

12.根据权利要求11所述的方法，其中确定所述第二迭代索引包括使所述第一迭代索引偏移达所述第一计算元件的数据宽度。

13.根据权利要求10所述的方法，其进一步包括：

由所述第一计算元件将包括所述第一迭代索引的额外同步消息发送到第二计算元件；及

由所述第二计算元件在由所述第一迭代索引指示的第二计算元件存储器的第一位置处执行输入/输出操作。

14.根据权利要求10所述的方法，所述第一循环是内循环且用以执行所述第一循环的所述指令包括外循环迭代次数，所述确定所述第一迭代索引包括：

15.根据权利要求10所述的方法，所述第一循环是内循环且用以执行所述第一循环的所述指令包括外循环迭代次数，所述确定所述第一迭代索引进一步包括：

将第一循环迭代次数加到所述外循环迭代次数乘积。

16.根据权利要求10所述的方法，所述第一计算元件包括数个并行处理通道，其进一步包括：

17.根据权利要求10所述的方法，所述输入/输出操作包括从所述第一计算元件存储器的所述第一位置的读取或到所述第一计算元件存储器的所述第一位置的写入中的至少一者。

18.根据权利要求10所述的方法，其进一步包括由所述第一计算元件将写入请求消息发送到存储器接口，所述写入请求消息包括所述第一数据及所述第一迭代索引。

19.一种上面包括指令的机器可读媒体，所述指令在由计算机架构执行时致使所述计算机架构执行包括以下者的操作：

由所述计算机架构的第一同步流的第一流控制器接收用以使用所述第一同步流执行第一循环的指令；

20.根据权利要求19所述的机器可读媒体，所述操作进一步包括：