CN116775518A

CN116775518A - 用于高效访问多维数据结构和/或其他大型数据块的方法和装置

Info

Publication number: CN116775518A
Application number: CN202211261672.9A
Authority: CN
Inventors: A·L·明金; A·卡茨; O·吉鲁; J·肖凯特; S·加德雷; M·帕特尔; J·特兰; R·克拉辛斯基; J·舍特米勒
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2022-03-10
Filing date: 2022-10-14
Publication date: 2023-09-19
Also published as: US20230289292A1; DE102023105565A1

Abstract

本公开涉及用于高效访问多维数据结构和/或其他大型数据块的方法和装置。并行处理单元包括多个处理器，每个处理器被耦合到存储器访问硬件电路。每个存储器访问硬件电路被配置为从耦合的处理器接收指定多维数据结构的坐标的存储器访问请求，其中存储器访问硬件电路是多个存储器访问电路之一，每个存储器访问电路被耦合到相应的处理器之一；以及，响应于存储器访问请求，将多维数据结构的坐标转换为多维数据结构的多个存储器地址，并使用多个存储器地址异步传输多维数据结构的至少一部分以便由耦合的处理器处理。存储器位置可以在耦合的处理器的共享存储器和/或外部存储器中。

Description

用于高效访问多维数据结构和/或其他大型数据块的方法和装置

相关申请的交叉引用

本申请涉及以下共同转让的共同未决的美国专利申请，将这些专利申请中的每一个的全部内容通过引用合并：

2022年3月10日提交的题目为“用于高效访问多维数据结构和/或其他大数据块的方法和装置(Method And Apparatus For Efficient Access To Multidimensional DataStructures and/or other Large Data Blocks)”的美国申请No.17/691,276；

2022年3月10日提交的题目为“协作组阵列(Cooperative Group Arrays)”的美国申请No.17/691,621；

2022年3月10日提交的题目为“分布式共享存储器(Distributed SharedMemory)”的美国申请No.17/691,690；

2022年3月10日提交的题目为“虚拟化处理器中的硬件处理资源(VirtualizingHardware Processing Resources in a Processor)”的美国申请No.17/691,759；

2022年3月10日提交的题目为“跨多个计算引擎的程序化控制的数据多播(Programmatically Controlled Data Multicasting Across Multiple ComputeEngines)”的美国申请No.17/691,288；

2022年3月10日提交的题目为“具有异步事务支持的硬件加速的同步(HardwareAccelerated Synchronization with Asynchronous Transaction Support)”的美国申请No.17/691,296；

2022年3月10日提交的题目为“处理器和存储器中的快速数据同步(Fast DataSynchronization in Processors And Memory)”的美国申请No.17/691,303；

2022年3月10日提交的题目为“高效矩阵乘法和与一组线程束相加(EfficientMatrix Multiply and Add with a Group of Warps)”的美国申请No.17/691,406；

2022年3月10日提交的题目为“用于处理器中的线程组的可扩展负载均衡的技术(Techniques for Scalable Load Balancing of Thread Groups in a Processor)”的美国专利申请No.17/691,872；以及

2022年3月10日提交的题目为“不需要硬件复位的处理组件之间的执行软件的灵活迁移(Flexible Migration of Executing Software Between Processing ComponentsWithout Need For Hardware Reset)”的美国申请No.17/691,808。

技术领域

该技术通常涉及提高处理器的处理效率和减少处理器的功耗。更具体地，本文的技术涉及用于由并行处理器处理存储器访问数据块的专用电路。

背景技术

大规模并行高性能计算处理***——包含许多并行操作的计算处理核心的***——可以将复杂的计算分解成更小的任务，然后这些任务可以由多个处理核心同时并行执行。例如，GEMM(通用矩阵乘法)是神经网络(例如全连接层，诸如RNN、LSTM或GRU等的循环层和卷积层)和科学应用中许多操作的基本构建块。GEMM通常定义为操作C＝αAB+βC，其中A和B为矩阵输入，α和β为标量输入，C为被输出覆盖的预先存在的矩阵。在许多应用中，矩阵可能非常大(例如，1024x1024元素)——需要数千次单独的计算。

为了提高效率，现代GPU将这种矩阵输入划分为图块(tile)并且并行计算这些图块以提高计算速度。与仅一个或几个处理器顺序计算相同计算所需的时间相比，这种并行处理允许在小部分时间内执行复杂的计算。例如，两个大矩阵相乘的结果可以由一组并行线程确定，其中结果矩阵的每个元素由该组并行线程中的相应线程计算。

此外，来自NVIDIA和其他制造商的最新GPU已经引入张量核心以最大化张量乘法的速度。这种张量核心加速了机器学习和科学应用的矩阵乘法和累加运算。然而，虽然张量核心显著提高了计算速度，但存储器访问速度却没有跟上。

许多现代处理***以层次结构组织存储器(例如，1级(L1)高速缓存、2级(L2)高速缓存、3级(L3)高速缓存、全局存储器等)。这样的存储器层次结构将处理核心当前正在处理的数据存储在更靠近那些处理核心的位置，以便可以以较低的延迟将其提供给那些处理核心。最接近处理核心的高速缓存存储器，例如L1高速缓存，可以被分区、分布或以其他方式组织，以便每个处理核心或处理核心组对其自己的高速缓存具有独占访问权，从而避免由于与其他核心的存储器争用而导致的等待时间。这种高速缓存存储器通常由硬件电路支持，该硬件电路维护标签并负责在行刷新之前将“脏的”(更新的)高速缓存行自动写回主存储器——使软件程序员无需显式管理该高速缓存。L1高速缓存可能经常“片上”，与它所服务的处理核心一起。在一些***中，并行处理核心可以访问非高速缓存的“共享存储器”，该共享存储器也可以“片上”或至少比L2高速缓存更接近该并行处理核心。参见例如美国专利申请：于2006年10月30日提交的标题为“多线程处理器核心中并发线程的共享存储器(Shared Memory For Concurrent Threads in a Multithreaded Processor Core)”，申请序列号No.11/554,552。该存储器在不同的处理核心之间共享，以允许它们同步和通信，以及增加数据位置和数据重用。

传统上，将数据从全局存储器(有时也称为“主存储器”或“外部存储器”)检索到共享存储器中需要多步骤过程。处理器通过执行来自主存储器的存储器加载指令来启动该过程。该存储器加载指令从主存储器检索寻址数据并将其存储到高速缓存存储器的高速缓存行中。在现代GPU架构中，可以有多个不同级别的高速缓存(例如，L3、L2、L1)。最后，从“最接近”处理器的高速缓存存储器(例如L1高速缓存)中检索数据，并将其存储到处理器的一个或更多个寄存器中。此类寄存器可以在寄存器文件中分配(可能是本地或“片上”存储器的另一个块)——寄存器文件中的不同寄存器分配给不同的处理器或处理器核心。

在某些常见事务(例如矩阵乘法)需要大数据传输的情况下，这种用于将数据加载到GPU共享存储器中的传统方法会在延长的且通常不确定的时间段内消耗大量寄存器。在此期间(在某些情况下，由于主存储器的长延迟或其他依赖关系，这可能会持续数千个周期)，寄存器可能会被占用并且无法用于任何其他目的。这种寄存器绑定可能会阻止共享存储器的处理器在释放寄存器之前进行其他有用的工作。

在2021年8月3日发布的标题为“有效地将数据传输到处理器的技术(Techniquesfor Efficiently Transfer Data To a Processor)”的美国专利No.11,080,051号中描述的诸如CUDA LDGSTS(异步全局到共享存储器复制)指令之类的指令，通过分路L1高速缓存和/或寄存器文件并将从主存储器检索的数据直接写入到共享存储器，改善了与将数据从全局存储器传输到NVIDIA架构中的流式多处理器(SM)的共享存储器的数据移动相关的延迟。然而，需要进一步改进用于将数据移入和移出共享存储器的方法，以更有效地管理存储器访问需求并提高整体数据处理效率，同时仍能在人工智能(AI)、深度学习(DL)等领域实现更高的数学吞吐量以及可以有利地利用并行执行的其他应用程序。

附图说明

以下对示例性非限制性说明性实施例的详细描述应结合附图阅读：

图1示出了根据一些示例实施例的包括并行处理单元的GPU架构，其中每个流式多处理器被耦合到张量存储器访问单元(“TMAU”)，其为存储器地址计算和移动多维数据结构或数据块进/出几种类型的存储器提供专门的硬件电路。

图2示出了根据一些示例实施例的当从外部存储器加载数据块到共享存储器时，在流式多处理器、耦合到流式多处理器的张量存储器访问单元电路、外部存储器和流式多处理器的本地共享存储器之间的交互。

图3A和3B(统称为图3)示出了根据一些示例实施例的可应用于存储在外部存储器中并且由张量存储器访问单元访问的张量寻址的张量参数。

图4A和4B(统称为图4)示出了根据一些示例实施例的诸如出界(out-of-bounds)条件的各方面，所述出界条件是当从外部存储器读取张量数据时，由张量存储器访问单元可以检测到的出界。

图5A和5B(统称为图5)示出了根据一些示例实施例的用于访问数据的示例描述符。

图6是根据一些示例实施例的张量存储器访问单元中的存储器访问请求处理管线的示意图。

图7A示出了根据一些示例实施例的影响张量存储器访问单元读取张量数据的示例参数。

图7B示出了根据一些实施例的张量存储器访问单元处理的示例高级伪代码。

图7C示出了表示流式多处理器使用TMAU来加载和存储用于GEMM(通用矩阵乘法)计算的张量数据的示例高级伪代码。

图8A-8K(统称为图8)示出了根据一些示例实施例的示例数据加载模式的使用，特别是图块(tile)模式和图像到列模式。

图9A-9D(统称为图9)示出了根据一些示例实施例的可由张量存储器访问单元处理的数据混杂(swizzling)的示例。

图10示出了根据一些实施例的GPU的示例并行处理单元。

图11A示出了根据一些实施例的图10的并行处理单元内的示例通用处理集群(GPC)，其中通用处理集群中的每个流式多处理器被耦合到张量存储器访问单元。

图11B示出了图10的并行处理单元的示例存储器分区单元。

图12示出了图11A的示例流式多处理器。

图13A是使用图10的并行处理单元(PPU)实现的处理***的示例概念图。

图13B是示例性***的框图，其中可以实现各种先前实施例的各种架构和/或功能。

具体实施方式

示例非限制性实施例的详细描述

本公开中描述的示例非限制性技术在具有紧密耦合的专用硬件电路的并行处理***中提供流式多处理器(SM)或其他并行处理器核心，用于将数据移入和移出存储器。例如，所公开的技术使每个并行处理器核心被紧密耦合到张量存储器访问单元(TMAU)硬件电路，用于在并行处理器核心的共享存储器和外部存储器(例如并行处理***的存储器全局存储器)之间移动大数据块。

许多计算应用程序需要在全局存储器和并行处理器核心(例如SM)的计算核心之间进行非常大(例如，兆字节或甚至千兆字节)的数据移动。通常情况下，以具有非顺序访问模式的复杂多维结构的方式排列在全局存储器中的数据必须在被SM使用之前传输到SM本地的共享存储器或其他存储器(SMEM)。例如，当一个或更多个SM上运行的多个线程执行两个非常大的矩阵(例如在DL应用等中使用的矩阵)的乘法时，这两个矩阵的数据需要在一个或更多个SM可以对数据进行操作之前从全局存储器复制到该一个或更多个SM的共享存储器中。

访问全局存储器中的这种多维结构通常需要大量的计算开销。这种计算开销的原因可能包括复杂的地址计算、出界条件的处理、解决SMEM读/写存储库冲突等。这种类型的开销可能会对在SM上执行的内核的性能产生负面影响并引发重要的软件开发成本。这种计算开销在DL等应用程序中通常很明显，例如在卷积内核中。典型的卷积内核访问多维数据结构(可以表示张量或其他信息集的矩阵)，这些数据结构可以根据全局存储器中不同类型的标准布局进行排列。DL内核中与地址计算相关的性能损失可能归因于寄存器文件(RF)带宽消耗、额外的RF容量需求、出界条件处理、有限指令高速缓存容量、指令调度挑战等。各种DL网络上的性能试验显示平均性能损失超过10％。此外，在DL软件成本方面，一些开发人员估计高达90％的开发人员时间用于编写和测试数据访问代码。开发人员时间花在指令调度的复杂性、寄存器分配的挑战、为不同的图块大小定制内核的需要等方面上。与内核相关的地址计算复杂度会影响内核的功能正确性和性能优化。

为了解决概述的问题，本公开的示例实施例提供耦合到SM的专用存储器访问单元。对于其中专用存储器访问单元包括有助于张量或其他多维数据结构数据移动的能力的一些实施例，它也可以被称为张量存储器访问单元(TMAU)。然而，TMAU可以移动的数据的类型不限于张量数据，使用该数据的目标计算核心不必是张量核心，而可以是任何类型的处理核心。

TMAU的关键设计目标是为耦合的一个或更多个SM提供高效的数据传输机制，以在存储器位置之间移动大量数据，例如，全局存储器位置和共享存储器位置。通过将大量相关数据访问操作从一个或更多个SM上运行的内核卸载到TMAU，TMAU可以使一个或更多个SM在计算上更加高效。与依赖于每个线程加载/存储指令(操作数据量相对较小)的内核不同，TMAU被配置为接受对更大数据块或其他数据结构的请求。通过向TMAU发出一个请求，可以传输多个千字节或兆字节的数据供一个或更多个SM后续使用。另外，尽管对TMAU的请求可以由运行在单个SM上的单个线程发出，但获取的数据可以由执行在该SM上或多个SM上的多个线程使用。

根据本公开中描述的技术的装置可以以比依靠SM计算要复制的数据中的存储器地址并跟踪复制大量数据块的进度的技术更快的速率馈送SM核心数学单元。示例非限制性实施例提供导致数据传输和存储器访问开销减少的块数据传输技术。减少的数据传输和存储器访问开销可以显著降低多处理器(例如，SM级别)的能耗并提高处理效率。打个比方，考虑一位负责在餐厅烤牛排和排骨的流水线厨师。该流水线厨师可以非常快速地烧烤和摆盘牛排和排骨。但在繁忙的餐厅里，流水线厨师通常也不负责离开他们的工作岗位以从餐厅的大型步入式冰箱中取肉、将肉切成份、去除肉中的脂肪等。相反，流水线厨师依靠他们的学徒(助理)厨师做这项工作。然后，流水线厨师可以专注于只有他们能做的事情；根据客户的订单将牛排和排骨烤至完美。

上面提到的LDGSTS指令通过将数据从全局存储器移动到SM的共享存储器并且没有对L1高速缓存和/或寄存器文件的中间写入来减少数据访问延迟。然而，使用该指令，大型数据块的移动需要SM执行大量复杂的地址计算，然后才能向存储器***发出存储器访问请求。与SM执行的LDGSTS指令相比，TMAU使SM能够通过一条指令异步传输更大的数据块，还能将相关地址计算等从SM上的线程卸载到TMAU。此外，与通过LDGSTS指令或其他常规加载/存储指令完成的每个并行执行线程发出其自己的指令以从全局存储器获取数据的小部分(例如，图块)相比，TMAU启用了线程组中的单个线程，例如协作线程阵列(“CTA”)，以发出指令以获取数据以供组中的所有其他线程访问。

TMAU可以被认为类似于直接存储器访问(DMA)引擎，因为TMAU可以独立于请求处理器来处理对全局存储器的读取和写入。关键的区别在于TMAU能够了解和遍历多维数据布局，而DMA通常处理线性排列的数据。此外，在一个示例实施例中，TMAU不要求请求处理器在对存储器访问的请求中包括存储器地址。TMAU可以替代地基于由请求处理核心提供的多维结构的坐标生成适当的存储器地址。

在一个实施例中，每个TMAU被紧密耦合到SM，并且在一些实施例中，每个TMAU以一对一的关系耦合到相应的SM。与特定SM的紧密耦合可以使TMAU能够以更少的争用更有效地服务存储器访问请求，而不是它必须服务来自多个处理器的请求。与从驱动程序接收命令的DMA引擎相比，每个TMAU从耦合的SM接收存储器访问请求。在一些实施例中，与仅限于从全局存储器读取的DMA引擎相比，TMAU可以将数据从全局存储器复制到共享存储器、从共享存储器复制到全局存储器、从全局存储器源地址复制到全局存储器目标地址和/或从共享(本地)存储器源地址到共享(本地)存储器目标地址。在共享存储器内复制时，耦合到第一SM的TMAU可以在第一SM的共享/本地存储器和GPU中任何其他SM的共享/本地存储器之间移动数据。例如，在一个实施例中TMAU可以将数据从第一SM本地的分布式共享存储器复制到另一SM本地的分布式共享存储器。

TMAU还可以包括检测超出张量边界的数据读取的能力。在一些实施例中，与SM上的每个线程从全局存储器加载数据量的技术相反，TMAU可以为耦合的SM中的任意的线程数量或线程组加载数据。此外，响应于来自请求SM的对数据块的单个请求，TMAU能够生成多个请求，每个请求针对所请求块的相应(不同)部分。

在另一个实施例中，单个TMAU可以服务多个SM，其中每个SM可以向单个TMAU发送独立的请求。在该实施例中，以硬件实现的仲裁器可以操作以接受来自多个SM的请求并将请求连续地转发到单个TMAU。单个TMAU通过将数据传输到相应请求SM的本地共享存储器来服务从不同SM接收到的请求。

包括TMAU电路的并行处理***

图1示意性地示出了根据一些非限制性实施例的并行处理单元，例如GPU。如图1所示，GPU 100包括多个处理器。在一些实施例中，多个处理器包括多核处理器，例如流式多处理器(SM)、102a…102n(统称为102)。每个SM 102包括多个处理核心，例如功能单元104a…104m(统称为104)。在一些实施例中，这些功能单元104可以执行各种不同类型的计算，例如浮点32位精度算术、浮点16位精度算术、不同精度的整数算术等。此外，这些功能单元104中的一些可以包括张量核，这些张量核被设计为在N×N矩阵上每个时钟周期承载多个GEMM，包含用于浮点乘法和加法的浮点值。GPU中的SM数量和SM中功能单元的数量不受限制。SM中的每个功能单元104可以访问该SM的寄存器文件106、L1高速缓存108和该SM的共享/本地存储器110。在一些实施例中，如图1中所示的实施例，L1高速缓存108可以是共享/本地存储器110的一部分。在一些其他实施例中，L1高速缓存和共享存储器110可以彼此分离。此外，在一些实施例中，共享存储器110可以是在其他SM上执行的线程也可以访问的分布式共享存储器(DSMEM)布置的一部分。标题为“分布式共享存储器(Distributed Shared Memory)”的美国申请No.17/691,690描述了分布式共享存储器，其全部内容通过引用并入本文。

多个SM 102可以通过全局存储器接口114访问GPU 100外部的全局存储器116。全局存储器116可以包括分层高速缓存存储器(例如，L2高速缓存和/或L3高速缓存)和动态随机存取存储器(DRAM)。在一些示例中，全局存储器116可以包括存储器管理单元(MMU)、X-Bar或分层交叉开关互连网络、存储器分区单元和/或参照图10、11A和11B描述的存储器。

每个SM 102中诸如功能单元104的多个核被配置为并行处理多个线程。线程(例如，执行线程)是被配置为由功能单元104在特定数据集上执行的一组指令或内核的实例化。线程块的线程可以并发执行，且多个线程块可以并发执行。在一些实施例中，使用单指令多数据(SIMD)指令发布技术来支持大量线程的并行执行而未提供多个独立指令单元。在其他实施例中，单指令多线程(SIMT)技术用于支持大量通用同步线程的并行执行，通过使用被配置为向一组核心发出指令的公共指令单元。

每个功能单元104可以经由互连网络连接到高速缓存存储器108、共享存储器110和寄存器文件104，例如，具有一个或更多个读取和/或写入交叉开关的分层交叉开关。共享存储器110和可以是L1高速缓存的高速缓冲存储器108在SM 102的功能单元104附近提供低延迟片上存储器。寄存器文件106可以包括可通过软件分配给多个功能单元104的不同功能单元的数据寄存器和/或由SM 102执行的不同线程束。寄存器文件106为SM上的功能单元104提供临时存储。

GPU 100可以支持多个地址空间，包括本地的、共享的和全局的，以支持线程的数据可见性。包括常量和纹理的其他只读地址空间可以被支持。每个线程具有其自己的每个线程的本地或私有存储器，其可以通过寄存器的分配来控制(参见例如美国专利No.8,555,035和美国专利No.7,634,621，其通过引用并入本文，如明确阐述了一样)。

相同线程块或不同线程块中的每个线程可以使用分层高速缓存存储器访问全局存储器116。同一线程块中的每个线程可以访问共享存储器110的分配部分，这可以被认为是按块(per-clock)共享存储器。每个执行线程块可以具有共享存储器110的分配部分。共享存储器110是软件管理的高速缓存，用于从全局存储器加载数据，从而减少执行线程的片外存储器访问次数。软件显式分配和访问共享存储器110。线程块中的线程被同步(例如，在将数据从全局存储器协作加载到共享存储器之后)以避免关键资源使用冲突。

当线程块中的多个线程预期使用来自全局存储器116的相同数据时，共享存储器110可用于存储该数据，使得各个线程对全局存储器116对相同数据的请求数为减少。共享存储器110还可用于通过以合并模式从全局存储器116加载和存储数据，然后在共享存储器110中对其重新排序以改进线程对数据的访问，从而避免未合并的存储器访问。

在一些例如图1中所示的那些实施例中，在共享存储器110包括L1高速缓存108的情况下，共享存储器可以被称为统一存储器或统一高速缓存。统一高速缓存可以在用于L1高速缓存和共享存储器的同一片上存储器(例如SRAM)中提供，并包括一种机制，用于分配多少统一存储器专用于L1高速缓存，相比于共享存储器用于每个内核调用。在一些示例中，统一高速缓存还可以包括动态可配置的寄存器文件(例如，寄存器文件106)。有关统一高速缓存***及其如何配置的更多信息，请参见以下参考文献，这些参考文献通过引用并入本文，如同明确阐述一样：美国专利申请公开号No.2018/0322078；以及2019年5月CUDA C编程指南，PG-02829-001_v10.1|https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#shared-memory。

多个SM 102a-102n可以通过多个TMAU 112a-112n(统称为112)访问全局存储器116。每个SM 102紧密耦合到相应的TMAU 112，该TMAU 112被配置为通过全局存储器接口114访问全局存储器116。在一些实施例中，SM 102和TMAU 112之间的紧密耦合是一对一的，并且每个SM具有其自己的专用TMAU 112，但实施例不限于此。通过向存储器子***还有全局存储器116发出请求，每个TMAU 112具有对相应紧密耦合的SM 102的共享存储器110和L1高速缓存108的读/写访问。在一些实施例中，TMAU 112除了对其耦合的SM的共享存储器110的读取/写入访问权限，还有通过向存储器子***发出请求来对其他SM上的共享存储器的读取和/或写入访问权限。可以被一个SM的TMAU用来访问另一个SM上的共享存储器的分布式共享存储器在已通过引用并入的美国申请No.17/691,690中有所描述。此外，TMAU可以在大容量全局存储器和可由在一个或更多个SM上执行的协作组阵列(CGA)访问的线性共享全局存储器之间传输多维数据结构或其他数据。

当在一个或更多个功能单元104上运行的软件需要存储在全局存储器116中的数据时，软件使用从存储器“加载(load)”命令启动线程。从存储器加载命令可以从全局存储器116加载数据并将数据存储在共享存储器110中，使其对所有线程(例如，线程块中的所有线程)可见。数据存入共享存储器后，线程可以多次访问数据。

每个TMAU 112使相应SM中的处理核心的电路能够继续应用程序内核的数学和其他处理，同时地址计算和存储器访问操作被外包给紧密耦合的专用于地址计算和存储器访问的电路。如下所述，耦合到SM 102并具有其自己的硬件电路以计算存储器地址并读取和写入共享存储器和全局存储器的TMAU 112能够通过外包给TMAU可以访问任何类型的数据来使耦合的SM 102改进整体应用程序内核性能。在访问通常消耗数百甚至更多时钟周期的大型多维数据结构或数据块的情况下，将此类数据访问外包并异步进行处理SM的能力提供了特别显著的性能改进。

图2示出了根据一些实施例的全局存储器116的SM 102、耦合到SM 102的TMAU112、共享存储器110和L2高速缓存202在由运行在SM 102上的线程进行的存储器访问期间的示例交互。

当在SM 102上运行的线程需要访问数据块时，SM确定全局存储器中数据块的访问参数，并且在操作204，通过传输单个存储器访问请求来命令TMAU 112，获取数据块。需要从SM提供给TMAU的访问参数的类型可以基于所请求的数据块是否是张量而不同，如下文详细描述的。如下文更详细描述的，对非张量块数据的请求，除了所请求数据的全局存储器地址和共享存储器地址之外，还可以包括要加载的块的大小。对张量数据的请求包括指向张量描述符的指针、与被请求的块相关联的位置坐标以及共享存储器地址。

在一些情况下，来自SM的请求可以请求大小大于可以通过单个加载/存储请求从全局存储器请求和/或获得的数据。例如，存储器子***可能只处理最大为一个L2高速缓存行的大小的请求。因此，响应于从SM接收到的请求大量数据(大于对存储器子***的单个请求所允许的最大大小的数据结构或块)的单个存储器访问请求，TMAU 112形成并发出多个存储器访问请求以获取请求的全部数据。TMAU 112与发出请求的SM 102异步操作，并继续在操作206生成多个存储器访问请求，每个访问请求对于所请求的数据中的相应子块具有相应不同的地址。多个存储器访问请求从TMAU 112传输到L2高速缓存202。

操作208表示来自L2高速缓存202(或全局存储器)的对由操作206发送的多个存储器访问请求中的每一个的响应。子块可以在操作210中和/或由TMAU 112在操作212中写入到共享存储器110。操作212和214可以提供同步请求SM 102和数据请求的完成状态。例如，在将每个子块写入共享存储器时，TMAU可以递增计数器。在一些实施例中，从TMAU产生的每个子块请求包括共享存储器中的计数器地址，并且计数器的更新(递增)可以由共享存储器执行。SM可以监视计数器以确定何时将整个请求的数据块写入共享存储器。在一些实施例中，从SM发送的请求包括地址计数器地址，并且SM包括专用于监控计数器同步的硬件。

在操作206发出对数据的存储器访问请求和随后在操作214与写入共享存储器的数据同步之间，可能经过许多时钟周期。特别是对于大量数据的请求，这个间隔可能是几千个时钟周期。然而，由于SM 102可以在单个请求204中向TMAU 112请求整个数据块，然后继续处理指令，同时TMAU 112异步且独立于SM 112，通过向全局存储器(例如，通过L2高速缓存202)发出一个或更多个请求来获取数据，可以提高SM的处理效率。通过将获得数据结构或块的大量数据所需的大量地址计算以及大量数据的各个子块的加载和存储的相关坐标委托给TMAU中的硬件，SM的功耗可以也会减少。

与本公开的实施例相比，当使用上述LDGSTS指令时，SM，或者更具体地是各个线程，计算要加载的每个子块的地址，并且将各个指令直接发布到全局存储器(例如，通过L2202)。SM然后必须自身与相应子块的共享存储器110同步。由于每个线程针对每个数据块发出相应的请求，该请求被限制为由存储器***处理的请求的最大大小，因此可以将大量请求从SM传输到存储器子***。大量请求的产生，以及关于各个线程请求的每个块的同步SM和共享存储器在处理方面以及在功耗方面都带来了显著的开销。与LDGSTS指令和其他先前技术的方式相比，这里公开的实施例使SM上的线程组中的一个线程能够从TMAU请求组中所有线程的全部数据，并且还启用线程继续与TMAU一起异步处理其任务，直到由TMAU完成请求的传输。

访问张量

尽管TMAU 112可用于访问任何类型的数据块布置，但在一些实施例中，TMAU包括特定于张量的能力。例如，在诸如深度学习(DL)的应用中，大量数据可能存储在张量中。张量可以是任何维度，从诸如一维数组的一维张量到诸如n维数组的n维张量，其中n是正数。虽然在一些实施例中，仅支持维度1-5的张量，但根据一些其他实施例，张量的大小和维度仅受存储器限制，并且TMAU 112不对可以由SM作为块来请求的张量的大小和/或维度施加限制。

TMAU电路使内核开发人员能够通过使用在计算上比存储器地址更简单的坐标(例如，二维张量中的(x，y))来访问张量内的子块。在向外部存储器发出请求之前，TMAU会将坐标转换为一个或更多个相应的存储器地址。

图3A-3B(统称为图3)示出了可以由SM用以访问张量数据的参数。图3A示出了存储在全局存储器中的三维张量302。张量302可以由在计算机***中的CPU、GPU或其他处理器上执行的进程写入全局存储器。本公开的一些实施例提供在GPU的一个或更多个SM上执行的线程以读取和/或写入位于全局存储器中的张量302。

张量302由SM以尺寸小于整个张量的块(诸如，例如，框306)的形式访问。图3A所示的张量参数包括张量的维数、每个维度的大小、每个维度的步幅以及张量中的元素大小。张量内要访问的块以块的每个维度的大小为特征。块的维数与张量的维数相同。张量可能具有沿某些维度的填充，如填充张量304内的张量302上方和右侧的区域所示。填充可以通过张量定义中的张量步幅来指示，其中特定维度上的张量的步幅是定义为特定维度中张量的大小加上该维度中填充的大小。请注意，可以使用不同大小的块访问相同的张量。在实施例中，对于每个张量，所有需要的参数都在“张量描述符”中定义，该“张量描述符”结合了张量和访问块属性。在发出对TMAU的存储器访问请求之前，所需的参数必须在描述符中定义。

张量描述符是在全局存储器中定义的并且可以由其在全局存储器中的地址唯一识别的数据结构。它可以在内核执行之前在主机端定义，也可以在内核运行时在GPU上定义。典型的张量访问模式假设从同一个张量加载多个块。为块的每个新TMAU请求从全局存储器加载张量描述符将是低效的，因为全局存储器延迟会对性能产生负面影响。因此，在一些实施例中，TMAU具有专用的描述符高速缓存(参见图6)以便利用在SM上运行的许多内核中的时间张量访问一致性。

图3B示出了二维填充张量308。该图示出了张量中的“元素”310、张量内的块312以及与所示维度相关的填充314。定义张量高度H和宽度W，以及元素大小310。张量308在x方向上用填充314填充。因此，x方向上的张量步幅包括填充的宽度。块312是内核所需的数据，也有自己的高度(块高度)和宽度(块宽度)。SM可以通过仅通过其在张量坐标系中的坐标(坐标对x，y)提供块的原点316来访问块312。

图4A-4B(统称为图4)示出了在访问外部存储器中的张量时由TMAU处理的运算的一些方面。如图4A示出了要从张量308(在该示例中为二维张量)读取的块可以位于块的锚在张量内的许多不同位置处。如图所示，一些锚位置可能导致框包含超出张量308范围的存储器区域。

图4B示出了出界情况可能发生在张量308的许多区域中。例如，该图示出了相应的框位置，其中框的左侧、块的右侧、块的顶部和右侧，块的顶部或整个块可以超出外部存储器中张量的界限。

TMAU必须适当地处理所请求的块可能跨越全局存储器中的张量边界的出界条件。图4B示出了请求块到达2D张量之外的一些示例。如果任何请求的元素位于张量之外，则它的值可能会被强制为零或一些其他的预定义的特殊常量(例如，非数字(NAN)值)。

处理出界访问的方式取决于具体应用。在最简单的情况下，零被分配给位于张量之外的元素。典型的例子是卷积滤波器应用于图像边界附近的像素，其中一些滤波器位置可能在图像之外。

在更复杂的应用中，可能需要用专用的非零常数填充出界元素。一个例子是深度学习神经网络中归一化层与后续卷积层的融合。归一化层在卷积处理之前对每个元素应用偏差和缩放。出界元素必须设置为零，卷积过滤才能正常工作；但是，由于归一化，它们被分配了偏差值。为了处理这种情况，可以对TMAU进行编程以分配和识别一个特殊的非数字(NaN)常量来指示出界访问。当全局存储器中的张量数据写入共享存储器时，TMAU可能会将特殊的NaN常量写入共享存储器位置。可能需要内核来检查全局存储器中的每个元素是否等于这个特殊常量。如果检测到特殊常数，则将零分配给元素，否则将应用比例和偏差。这种处理可能仅在DL的训练阶段与浮点格式相关。特殊的NaN编码是特定于格式的，并且基于张量描述符格式设置。参见例如于2021年10月8日提交的标题为“神经网络数据替换(Neural Network Data Replacement)”的美国专利申请No.17/497,507，其全部内容通过引用并入本文。

图5A-5B(统称为图5)在二维张量和对应块的上下文中示出了由TMAU用来高效访问存储器中的张量的参数分组。TMAU唯一地识别张量内的块所需的参数分为三组：一组描述整个张量的“张量描述符”参数，一组通常描述张量内的块的“访问描述符”参数，以及标识特定块的TMAU“指令参数”。张量描述符参数和访问描述符参数如图5A所示，TMAU指令参数如图5B所示。

如图5A所示，在一个实施例中，张量描述符参数包括张量高度、张量宽度、张量步幅和元素大小。张量步幅表示张量大小(高度或宽度)加上特定维度中的填充。访问描述符参数包括块高度、块宽度和出界值。张量高度、张量宽度、张量步幅、块高度和块宽度是按张量的维度指定的。如图5B所示，TMAU指令参数仅包括块的起始坐标(例如，(x，y))。因此，n维向量的起始坐标将是一个n维元组。

TMAU处理路径

图6示意性地示出了根据一些实施例的TMAU的示例数据处理路径。在图6中，TMAU612被如包括在SM 602内的所示。然而，应当理解，在一些实施例中，TMAU 612虽然没有物理上地位于SM 602内，但可以被紧密耦合到SM 602。

存储器输入/输出控制器(MIOC)604在SM 602和TMAU 612的请求处理管线之间提供接口。TMAU 612通过MIOC 604接收由SM发出的存储器访问请求。接收到的存储器访问请求被输入到内部请求队列606。在一些实施例中，队列606中的请求以先入先出(FIFO)顺序处理。然而，在其他实施例中，可以基于请求的一个或更多个特征来选择队列中的请求以进行进一步处理，例如请求类型、读取或写入请求的大小、请求的数据类型、要访问的存储空间等。

可以在请求队列606中接收两类请求：张量(具有张量描述符)和非张量(线性存储器，没有张量描述符)。请求可以是不同的请求类型，例如加载、存储、归约、预取等。对于张量数据的每个请求，TMAU都需要指向描述符的指针，该描述符提供有关要访问的张量的必要信息。而在一些实施例中，请求队列606是接收两种类型的请求的单个队列，而在其他实施例中，相应的队列可以为每种类型的请求提供服务。在一些实施例中，TMAU可以仅处理对张量数据的请求，并且在一些其他实施例中，可以仅处理对仅非张量块数据的请求。

出于性能原因，在TMAU被配置为接收对张量数据的存储器访问请求的一些实施例中，TMAU维护描述符高速缓存608以保存最近使用的张量描述符。因为通用访问模式通常涉及被时间上接近地接收的许多请求访问相同的张量描述符，所以描述符高速缓存可以提供减少的延迟。高速缓存可以由张量描述符的全局地址标记。每个接收到的存储器访问请求都可以指定相关张量描述符的全局地址。高速缓存通过接口连接到通用高速缓存控制器(GCC)622。在处理内部请求队列606中的当前请求时，TMAU可以检查下一个请求的描述符是否驻留在高速缓存608中。如果不是(即，如果它是未命中)，则向GCC发出描述符加载请求以便将描述符从全局存储器预取到高速缓存608。这种并行处理有助于隐藏描述符预取的延迟。

当从队列606中选择请求以在TMAU 602中处理时，如果该请求是针对张量的，则将所选择的请求发送到设置块610。当在设置块610中接收到存储器访问请求时，设置块610从描述符高速缓存608获得相应的描述符。设置块610收集和/或计算用于请求处理的必要参数。尽管存储器访问所需的许多参数是可用于(是包含在)描述符中的，但在存储器访问请求中会收到一些其他参数。例如，设置单元电路可以被配置为执行类似于下面参考图8的表1中所示的逻辑，以根据张量描述符填充地址计算等所需的参数。它还检查请求输入参数的正确性。如上所述，通过提供要从相应张量描述符获得的多个存储器访问请求所使用的参数，以及通过提供来自SM的存储器访问请求仅携带对特定请求唯一的参数，对于从SM到TMAU的存储器访问请求的带宽利用率被优化。存储器访问请求所特有的参数，例如块的坐标或地址，可以作为请求的直接参数携带。设置块被配置为在参数上执行计算和错误检查。如果参数不满足预定义的TMAU要求，则会生成错误并丢弃请求。设置块与请求生成器716并行操作，提供用于设置生成请求的管线，从而减少时延。

请求生成器616是主TMAU引擎。对于张量数据的请求，它通过迭代多维坐标、将坐标映射到地址、校验出界条件、计算共享存储器地址、计算全局存储器地址和生成对存储器子***的请求，来从设置块接收相关参数并遍历张量空间。请求生成器根据需要向存储器***生成尽可能多的请求以加载/存储张量数据块，同时遵守由存储器子***处理的存储器请求的最大大小。通常，存储器子***对在存储器子***处接收的每个请求强加一个高速缓存行的最大大小(例如，一个L2高速缓存行(line)的大小)。请求生成器优化请求以提高存储器子***的效率。请求生成器616的处理通过专用硬件提供了对整个块的访问请求的自动生成，从而减少了电力使用。说明请求生成器内的处理的高级示例伪代码在图7B中示出。

对数据的请求经由通用网络接口控制器(GNIC)接口614传输到存储器子***，并且在响应完成电路618中跟踪每个请求。该跟踪使得能够与SM进行异步处理。在GNIC响应处理器620处接收对请求的响应，其与请求跟踪电路618通信以跟踪从请求生成器716发送的每个请求的完成状态。

如果从SM接收的存储器访问请求是针对不是张量的块数据的，则在一些实施例中，可以绕过描述符高速缓存608将请求发送到请求生成器616。如图6所示，例如，对非张量块数据的请求可以绕过描述符高速缓存608和设置单元610从队列604路由到请求生成器。然而，在一些实施例中，在请求生成器616中处理之前可以从队列606引导这样的请求到设置单元610。从SM接收到的对大的非张量数据块的请求可以包括该块的全局存储器地址、该块的共享存储器地址和该块在字节数上的大小。对于从SM接收到的对大的非张量数据块的请求，请求生成器616可以自动生成对存储器子***的请求序列，其中每个请求是针对所请求块的较小子块的。请求生成器根据从SM接收的请求中包含的块的全局存储器地址计算子块的全局存储器地址，子块的大小可以根据由存储器子***处理的请求的最大大小来确定。请求完成跟踪电路618以与上面关于张量数据块描述的相同的方式跟踪对子块的存储器请求和从存储器子***接收的响应。

图7A和图7B示出了示例参数，图7B中所示的块704使用这些参数跟踪TMAU的电路何时读取张量数据结构702。图7A示出了在TMAU的硬件中实现的一部分处理逻辑的图7B所示的示例高级伪代码中使用的包括锚、基和当前元素的参数的示例。图7C示出了示例高级伪代码，其中SM调用TMAU中的张量加载操作以将数据从全局存储器复制到共享存储器，然后将结果数据写入全局存储器。

图7B中的伪代码是响应于从其耦合的SM接收请求以从全局存储器中的张量获得块而由TMAU执行的一些处理步骤的高级示例。伪代码被安排在五个嵌套的循环中，其中每个循环对应于张量数据空间的五个坐标轴中相应的一个。尽管该示例是针对五维张量数据空间的，但一些实施例可以支持用于N维张量数据空间的N个嵌套循环，其中N可以是任何正整数。

当前元素在最内层循环内通过指定五个维度(坐标c0、c1、c2、c3和c4)中的每一个中的计算坐标，当前元素将被加载到的共享存储器中的地址，以及当前元素的全局地址来处理。获得当前元素后，全局存储器地址和下一个元素的共享存储器地址是通过将全局地址增加张量的元素大小，并将共享存储器地址增加一个预定义的共享存储器地址增量(共享存储器地址增量可以在张量描述符中定义，并且可以基于为张量定义的元素大小)。最内层循环内的处理包括由TMAU执行的用于复制张量数据的例如检查出界条件等的处理。

最内层循环通过从所请求的块在维度0(blockstart0)中的坐标开始并且将维度0中的当前坐标c0增值维度0的遍历步幅来提供沿维度0(维度为维度0-4)的对元素的迭代(“tensorDescriptor.traversalStride[0]”)到维度0坐标，该坐标超过维度0中的盒大小(“blockStart0+tensorDescriptor.boxSize[0]”；超出了块边界)。

当最内层循环(该循环遍历维度0中的张量元素)退出时，下一个外部维度(即维度1)的基本全局地址会增加为维度0定义的张量步幅(“baseGlobalAddr[1]+＝tensorDescriptor.tensorStride[0]”)。这有效地将全局地址推进到下一个切片。每个维度的基本全局地址最初是根据与请求块的锚元素对应的全局地址确定的。

如图7B所示，以与上述针对维度0所描述的方式类似的方式，每个循环提供在相应维度中迭代由起始块坐标、沿该维度的遍历步幅和该维度的框大小确定的次数。应该注意的是，每个维度的遍历步幅和盒大小在张量的张量描述符中定义。

通过在硬件中执行从全局存储器中的张量复制数据块所涉及的处理，TMAU可以显著减少SM上用于数据移动的计算负载，从而提高SM的处理效率并且还降低了SM的功耗。

图7B中的上述伪代码提供了高级执行逻辑并省略了与某些方面相关的细节，例如高效的L2请求生成、混杂和处理在读取和/或写入张量中由TMAU执行的出界条件。

除了L2请求生成(对全局存储器的请求)之外，TMAU跟踪返回数据以便报告TMAU事务完成。TMAU必须有专门的计数器来跟踪发出的L2请求。每次将请求发送到L2高速缓存时，计数器递增。当数据从L2高速缓存返回时，计数器递减。一旦计数器达到零值，整个块就被加载到共享存储器中，并且TMAU可以报告事务完成。出于效率目的，TMAU可以使用单个计数器来跟踪一组多个背靠背交易并报告该组中最后一个交易的完成情况。在一些实施例中，计数器可以保持在共享存储器中的预定义位置中。SM可以包括监视计数器的同步电路，并且可以基于计数器实现同步屏障等。

图7C示出了由在SM上运行的内核执行的具有隐式GEMM的卷积滤波器的示例伪代码。如上所述，GEMM通常定义为操作C＝αAB+βC，其中A和B作为矩阵输入，α和β作为标量输入，C作为被输出覆盖的预先存在矩阵。普通矩阵乘积AB是GEMM，其中α等于1，β等于0。许多DL应用等都需要此类计算。可以利用TMAU的高效矩阵乘法和加法实现示例在标题为“具有线程束组的有效矩阵乘法和加法(Efficient Matrix Multiply and Add with a Groupof Warps)”的美国申请No.17/691,406中描述，其全部内容通过引用并入本文。

内核获得指向三个张量的张量描述符的指针：激活张量、权重张量和输出张量，以及这些张量中的每一个的大小信息。在GEMM计算中，激活张量、权重张量和输出张量可以分别表示为矩阵A、B和C。当内核向TMAU发出后续存储器访问请求(tensorBlockLoad())时，内核为TMAU提供了指向激活张量、权重张量和输出张量的张量描述符的指针。

该逻辑被组织为一系列嵌套循环，从而通过在最内层循环的每次迭代中复制相应块来复制每个张量的块序列。在最内层循环的每次迭代中，内核向耦合的TMAU发出相应的tensorBlockLoad请求，以从激活张量和权重张量中的每一个中加载块。tensorBlockLoad请求将张量在全局存储器中的地址(由SM确定)和共享存储器中的地址作为参数，全局存储器中的张量数据将写入该地址。嵌套循环的排列使得外部三个循环通过垂直、水平和通道方式迭代，最内层循环通过卷积滤波器迭代。

NHWC(N(维度)、高度、宽度、通道)布局被假设用于激活张量并且KNWC布局用于权重张量。代码遍历W和H维度。它为通道(C维)和卷积滤波器的每个r和s位置累积。简单起见，通过N和K维的迭代未示出。对于给定的[c,s,r]，TMAU将数据块从全局存储器加载到共享存储器。负载是针对激活和权重张量两者完成的。将两个矩阵的数据加载到共享存储器后，SM可能会调用GEMM计算(computeGEMM())。在一些实施例中，GEMM计算由专用硬件电路执行，并且结果被累加到输出矩阵中。矩阵乘法在共享存储器中计算。

在使用加载在共享存储器中的张量数据完成数学运算后，TMAU由SM上的内核通过发出请求(tensorBlockStore())并提供来自GEMM的结果存储在其中的输出矩阵的地址，并且该结果要写入其中的共享存储器中的地址，以将来自共享存储器缓冲区的结果保存到全局存储器中的张量。

支持张量加载模式

TMAU支持张量的多种存储器布局。例如，三维图像张量可能具有张量布局格式NDHWC，其中最里面的维度C表示通道的数量(例如，在图像张量中，每个通道可以表示一种颜色)，D、H、W维度分别对应于深度、高度和宽度维度，而N表示张量的批量大小。

除了支持多种张量布局格式之外，TMAU还支持以非交错模式或以交错模式存储在全局存储器中的张量。在交错模式下，TMAU可以支持多种切片大小(例如16字节切片、32字节大小等)。在一些实施例中，张量的张量描述符可以指定该张量在全局存储器中是处于非交错模式还是处于交错模式，并且还指定处于交错模式的切片的大小。

此外，在一些实施例中，TMAU支持多于一种张量加载模式。例如，可以支持图块模式和图像到列(也称为“im2col”)模式作为张量数据加载模式。

由于诸如在隐式通用矩阵乘法(GEMM)实现中不需要数据复制并因此提供显著的存储器带宽节省等原因，图块模式在某些情况下是优选的。另一方面，在某些情况下，性能可能会因为图块量化效应而损失。图块模式是一种通用的TMAU加载模式，可广泛用于不同的DL和高性能计算(HPC)应用程序。上面关于图7A和图7B描述了用于图块模式的张量遍历的示例。。

im2col模式主要用于基于隐式GEMM的卷积内核。如果选择了im2col模式，则TMAU在从全局存储器中加载张量块时会进行图像到列的转换。这给张量遍历算法增加了额外的复杂性。

在图块模式中，张量参数boxSize[]唯一地定义张量空间中的包围盒(boundingBox)大小，该张量空间保存TMAU响应于来自SM的指令而应该加载的所有元素。boxSize[]的每个元素都指定了沿相应维度的包围盒大小：boundingBox[i]＝boxSize[i]。来自SM的TMAU存储器访问请求中指定的坐标唯一地定义了包围盒在张量空间中的位置。

在im2col模式中，包围盒大小和位置被不同地定义。包围盒维度的数量比张量描述符中的张量维度少一。此模式下不使用boxSize[]，而是在张量描述符中有替代参数来支持im2col模式。该替代参数包括：rangeNDHW、rangeC、boxBaseCornerDHW、boxFarCornerDHW。boxBaseCornerDHW和boxFarCornerDHW定义了DHW(深度、高度、宽度)空间中的包围盒大小和位置。boxBaseCornerDHW指定包围盒原点的初始坐标，即盒子的左上角。boxFarCornerDHW指定相对右下角的初始位置。角点的位置被定义为从相应张量角点起的有符号偏移。因此，可以在张量边界的内部和外部指定包围盒角。

包围盒角的位置受卷积滤波器大小和所选膨胀因子的影响。角坐标可以计算为滤波器大小的一半乘以膨胀因子。选择包围盒角的精度以提供广泛的卷积内核大小和膨胀因子。基于实际应用分析，较小维度的张量可能需要更高的精度。例如，使用3D张量的语音处理应用程序可能需要高达8K的膨胀因子，而使用4D或5D张量的图像处理应用程序需要可达128的小得多的膨胀因子。

boxBaseCornerDHW和boxFarCornerDHW使用以下公式定义包围盒大小：boundingBox{D,H,W}＝tensorSize{D,H,W}-boxBaseCorner{D,H,W}+boxFarCorner{D,H,W}。对于C维度，大小由rangeC参数定义。

图8A说明包围盒如何依赖于boxBaseCorner{D,H,W}、boxFarCorner{D,H,W}设置。这个例子表明，数据结构中可以使用多种类型的边界，并且在im2col模式下，可以避免量化。

在图块模式中，要加载的元素数量取决于boxSize[]参数。当TMAU遍历特定维度时，它使用boxSize[]中的相应值来确定要加载多少元素。在im2col模式中，rangeNDHW用于确定沿NDHW维度加载多少元素，而rangeC用于确定维度C。单个TMAU请求可能需要TMAU遍历一批(N维度)中的多个图像以便于加载请求的数量的元素。当TMAU在多个图像的遍历过程中从当前图像切换到下一个图像时，可能会跳过rangeC参数定义的范围之外的通道。

在图块模式中，TMAU请求坐标指定张量空间中的包围盒位置(原点)。在im2col模式下，沿C和N维的坐标类似于图块模式使用；但是，沿W、H、D维度的坐标指定了张量空间中卷积滤波器的基本位置(左上角)。为了正确处理，TMAU要求滤波器的基本位置始终定义在包围盒内。此外，必须在TMAU请求中指定这些尺寸的坐标偏移。偏移允许相对于张量指定块的位置，因此仅使用最少的字节数。偏移被添加到滤波器基础位置坐标以确定加载操作必须从此处启动的张量空间中的起始位置。相同的偏移用于相对于boxBaseCornerDHW中指定的初始坐标的定位包围盒。根据上面定义的表格，将偏移应用于坐标子集。偏移被定义为具有可变精度的无符号整数。精度取决于张量维度，并根据包围盒坐标精度的早期调整进行选择。

在一些实施例中，所有偏移(offset)都打包在单个寄存器内的16位中。偏移的数量取决于张量维度；因此，精度可能会相应地变化。在典型的卷积内核中，一旦计算出滤波器基础，就可以将其重用于具有不同坐标偏移的多个TMAU请求。重用次数取决于卷积滤波器的大小。例如，对于3x3滤波器，会针对同一滤波器基础位置发出九个请求。

对于交错布局，C坐标必须根据通道切片而不是单个通道来指定。这适用于图块和im2col模式。

下面的表1示出了用于在TMAU中，更具体地，在设置块中实现的逻辑的高级示例伪代码，以基于接收到的TMAU请求中标识的张量描述符配置张量和访问参数。

/>

表1：示例伪代码用于初始化负载张量(维度3D-5D)

以下示例说明了im2col模式的使用。将3x3卷积滤波器应用于NHWC张量(64x14x9x64)。每个请求沿N、H、W维度加载64个元素，沿C加载8个元素。

在第一示例中，如图8B所示，滤波器可以跨出张量边界，访问可以定义为零或常数值的周围填充(边界)。张量描述符参数设置如下：tensorSize[0]＝64；tensorSize[1]＝9；tensorSize[2]＝14；tensorSize[4]＝64；rangeNDHW＝64；rangeC＝8；boxBaseCornerW＝-1；boxBaseCornerH＝-1；boxFarCornerW＝-1；boxFarCornerH＝-1。图8B示出了对坐标(7,7,4,0)和不同坐标偏移值：(0,0)、(1,1)、(2,2)的请求的处理。此示例显示加载张量的不同边界区域。它们被定义为偏移。请求者向TMAU指定边界区域以及需要加载多少元素(例如，一系列元素——在本例中64)。这可以指定为张量描述符中的参数。可以在指令级提供的另一个参数可以指定用于加载请求的块的起始位置。TMAU知道它必须从指定的起始位置开始加载张量元素，加上偏移保持在所示的矩形内并加载特定数量的数据。

在下一个示例中，滤波器被配置为必须保持在张量边界内，因此张量上不需要填充/边界。张量描述符参数设置如下：rangeNDHW＝64；rangeC＝8；boxBaseCornerW＝0；boxBaseCornerH＝0；boxFarCornerW＝-2；boxFarCornerH＝-2。如图8C示出了对坐标(7,7,4,0)和不同坐标偏移值：(0,0)、(1,1)、(2,2)的请求的处理。

为了比较，在下一个示例中说明了图块模式中类似卷积情况的处理。单个TMAU请求可能会在所有滤波器位置加载卷积计算所需的所有像素。为了实现这一点，必须加载额外的光晕像素。光晕像素的数量取决于滤波器的大小。

在下一个示例中，将3x3卷积滤波器应用于NHWC张量(64x14x8x64)。滤波器可以超出张量边界，访问可以定义为零或常数值的周围填充(边界)。单个请求沿H、W维度加载10x10的图块，沿C加载8个元素。每个加载的10x10图块具有2个光环行(halo row)和2个列。张量描述符(Tensor Descriptor)参数设置如下：tensorSize[0]＝64；tensorSize[1]＝8；tensorSize[2]＝14；tensorSize[4]＝64；boxSize[0]＝8；boxSize[1]＝10；boxSize[2]＝10；boxSize[3]＝1。对于任何给定的滤波器位置，只有一个8x8图块用于卷积计算。如图8D示出了对具有坐标(0,-1,-1,0)的请求的处理。需要负W、H块坐标来访问具有零或常数(填充)的张量出界的像素。显示的8x8图块用于处理不同的滤波器位置：(0,0)、(1,1)、(2,2)。

下面的例子与前面的例子类似，但滤波器必须保持在张量边界内，并且不允许填充/边界。单个TMAU请求沿H、W维度加载8x8图块，沿C维度加载8个元素。每个加载的8x8图块具有2个光环行和2个列。张量描述符参数设置如下：boxSize[0]＝8；boxSize[1]＝8；boxSize[2]＝8；boxSize[3]＝1。对于任何给定的滤波器位置，使用6x6图块进行卷积计算。在任何给定时间，只有36个像素用于数学运算。这小于最佳的64像素。这是可能影响整体性能的图块量化效果的示例。如图8E示出了对具有坐标(0,0,0,0)的TMAU请求的处理。将W、H块坐标设置为零可防止超出张量边界。显示的6x6图块用于处理不同的滤波器位置：(0,0)、(1,1)、(2,2)。

张量描述符traversalStride参数影响图块模式和im2col模式。在图块模式下，traversalStride越大，负载访问的张量位置的数量就越小，从而减少了加载元素的总数。在im2col模式下，为了比较，沿NDHW维度加载的元素的数量不依赖于沿这些维度的traversalStride：它等于张量描述符rangeNDHW参数。但是，与图块模式一样，沿W、H和D维度遍历的元素数量受基于公式ceil(boundingBox{D,H,W}/traversalStride{D,H,W})的traversalStride影响。

图8F示出了im2col模式下的traversalStride处理。将3x3卷积滤波器应用于NHWC张量(64x14x9x64)，其traversalStride等于2。每个请求加载N、H、W维度上的32个元素，以及C维度上的16个元素。张量描述符参数设置如下：tensorSize[0]＝64；tensorSize[1]＝9；tensorSize[2]＝14；tensorSize[4]＝64；traversalStride＝2；rangeNDHW＝32；fangeC＝16；boxBaseCornerW＝-1；boxBaseCornerH＝-1；boxFarCornerW＝-1；boxFarCornerH＝-1。如图8B示出了对具有坐标(7,7,5,0)和不同坐标偏移值：(0,0)、(1,1)、(2,2)的请求的处理。请注意，在此示例中，像素是从包围盒的顶行加载的，而不是从底行加载的。它们也从第一列和最后一列加载。

图8G示出了稍微修改的示例，其中沿W和H维度的张量大小减少了一个像素：NHWC(64x13x8x64)。请注意，在此示例中像素是从包围盒的顶部行和底部行加载的。但是，它们不是从最后一列加载的。

下一个例子，如图8H所示，示出了图块模式中的traversalStride处理。将3x3卷积滤波器应用于NHWC张量(64x14x8x64)，其traversalStride等于2。与traversalStride等于1的早期示例类似(图8D)，单个TMAU请求可以通过加载额外的光环像素来为所有卷积滤波器位置提供像素。

在一些实施例中，TMAU可能不具有用于卷积膨胀处理的专用硬件，并且其他TMAU电路可以为该特征提供必要的支持。然而，选择im2col坐标偏移和包围盒角坐标的精度以提供广泛的卷积内核大小和膨胀因子。如图8I说明了膨胀因子如何影响3x3卷积滤波器的包围盒设置。请注意，膨胀会影响盒子的位置，但不会影响大小。

图8J示出了如何在im2col模式中处理2的膨胀因子。将3x3卷积滤波器应用于NHWC张量(64x14x9x64)。每个请求在N、H、W维度加载64个元素，在C维度加载16个元素。张量描述符参数设置如下：tensorSize[0]＝64；tensorSize[1]＝9；tensorSize[2]＝14；tensorSize[4]＝64；rangeNDHW＝64；rangeC＝16；boxBaseCornerW＝-2；boxBaseCornerH＝-2；boxFarCornerW＝-2；boxFarCornerH＝-2。如图8J示出了对具有坐标(7,6,3,0)和不同坐标偏移值：(0,0)、(2,2)、(4,4)的请求的处理。

图8K示出了与图8J相似的示例，以图块模式处理。单个TMAU请求可以通过加载额外的光环像素为所有卷积滤波器位置提供像素。光环像素的数量取决于滤波器大小和膨胀因子。将3x3卷积滤波器应用于NHWC张量(64x14x8x64)。单个请求沿H、W维度加载12x12图块，沿C维度加载8个元素。每个加载的12x12图块具有4个光环行和4个列。张量描述符参数设置如下：tensorSize[0]＝64；tensorSize[1]＝8；tensorSize[2]＝14；tensorSize[4]＝64；boxSize[0]＝8；boxSize[1]＝12；boxSize[2]＝12；boxSize[3]＝1。对于任何给定的滤波器位置，只有一个8x8图块用于卷积计算。如图8K示出了对具有坐标(0,-2,-2,0)的请求的处理。需要负的W、H块坐标以访问使用零或常数(填充)的张量出界的像素。所示的8x8图块用于处理不同的滤波器位置：(0,0)、(2,2)、(4,4)。

支持张量数据混杂

在许多应用中，TMAU以与它们在全局存储器中的布局相同的顺序将数据加载到共享存储器中。但是，有些应用程序需要额外的数据移动以避免性能下降。这可以实现为依赖于应用程序的优化。TMAU支持非混杂模式，其中数据以与全局存储器中相同的排列方式写入共享存储器，以及混杂模式，其中数据根据预定义的或可配置的混杂模式写入共享存储器，即导致数据的排列方式与全局存储器中的不同。当TMAU处理存储器访问请求时，它可能会生成多个外部存储器请求，并且对于每个生成的外部存储器请求，它都可以为目标共享存储器生成对应的目标地址和混杂模式。在实现中可以使用两种用于跟踪目标地址和混杂模式的选项——或者通过包含请求和响应的存储器***发送所有信息，或者将信息存储在SM中的跟踪表中，并将相应的索引通过包含请求和响应的存储器***发送到该表中。在任何一种情况下，存储器***响应都可以使用该信息来确定在目标共享存储器中写入数据的地址和模式。

在一些实施例中，L2高速缓存线被组织在四个32B扇区中。共享存储器以8存储库为一组进行组织，总共4个组。将高速缓存行中的四个扇区映射到特定的存储库组具有灵活性：任何扇区都可以映射到任何组，每组一个扇区。此外，可以在扇区内交换16B半扇区。这为将16B数量映射到4个存储库的子组提供了额外的灵活性。

数据在全局存储器中以特定顺序组织；但是，它可能与应用程序在共享存储器中访问数据的顺序不匹配。很好的例子是行优先矩阵组织与列优先访问。当访问共享存储器时，数据组织的这种差异可能会导致存储库冲突。为了避免这个问题，数据可以通过共享存储器存储库的混排加载到共享存储器。L2高速缓存行扇区根据保证避免读取和写入的存储库冲突的预定义的模式映射到共享存储器存储库组和子组。TMAU支持基于特定张量布局的多种模式。反过来，数据使用者必须了解这些模式并相应地访问数据。

在一些实施例中，TMAU可以混杂被加载到按照行组织的共享存储器中的数据。在示例中，共享存储器按行组织，其中每行为128B(128字节)并具有唯一的地址。可以在8x8表中对共享存储器库混杂模式进行编码，其中每个条目代表128B数据块内的16B子块的存储库子组ID。根据目标共享存储器地址(行ID)的最后3位从表中选择适当的行。注意，这些位取自CTA共享存储器区域内的逻辑地址。其是该区域基地址的偏移。它不一定与共享存储器物理地址相同。

在图9A中，示出了用于swizzle_128B模式的示例库分配表。

图9B-9D示出了根据图9A的库分配表的用于swizzle_128B模式的全局和共享存储器中的示例数据布局。图9B显示了全局存储器中具有1x10x10x64(即N＝1、H＝10、W＝10和C＝64)维度的4维NHWC张量。2B/通道和64通道占用128B。每个枚举单元，有时也称为像素，代表8个通道(16B)。图像902的W和H大小都为10并且包括光环像素906以支持沿着8x8图像图块的3x3卷积滤波器904。在处理过程中，卷积滤波器一次左-右和上-下迭代地移动一个像素。单元在图9A-D中按它们存储在全局存储器中的顺序枚举。通道范围以不同的填充图案呈现。

图9C示出了在全局存储器中H＝0和1的图9B所示张量的一部分。图9C中的单元的每一行代表单个128B的L2高速缓存线。图9D示出了根据实施例的相同数据如何存储在共享存储器中。每行代表分布在存储器存储库中的128B数据。数据根据swizzle_128B模式的表进行混杂。在图9D的右边，从GMMA应用程序的角度显示了滤波器位置R＝0、S＝-0的数据视图。GMMA一定知道存储库混杂和步幅以在16个8x8图块中提供正确的数据。

该混杂适应其中数据存储在全局存储器中的顺序与该数据存储在共享存储器中的顺序不同的实施方式。当数据从全局存储器移动到共享存储器时，在一些实施例中，TMAU提供对数据的加扰，因为对于一些应用，SM垂直读取数据(例如，在数据列中)。此外，在写入共享存储器时，TMAU会考虑共享存储器中的存储器存储库布局，以优化SM对该数据的后续读取访问。在图示的示例中，共享存储器被规划在存储库中，特别是在8个存储库中。在任何给定的时钟，每个存储库都被读取，但只能读取来自任何给定存储库的小部分数据。在图中，每个填充图案表示根据张量的混杂模式写入共享存储器中不同存储库的数据。如果要从共享存储器中读取来自H＝0W＝0-7的数据，并且如果共享存储器中的该数据以与全局存储器中相同的方式排列，则在避免库冲突的同时读取该数据需要8个时钟周期。因此，如图9D左侧所示，来自H＝0W＝0-7的数据分布在共享存储器中的所有八个库(bank)中，以便所有这些数据(即来自H＝0W＝0-7的数据)在8个存储库上并行地被读取。这增加了每个时钟的数据吞吐量。

在图9D的右侧，最右侧的列示出了当W＝0时每个H的8x8图块，指示H＝0、W＝0和H＝1、W＝0的图块(分别枚举图块0和80)在共享存储器中被写入的位置的箭头。类似地，在从右侧数第二列中，示出了当W＝1时每个H的8x8图块，指示共享存储器中H＝0、W＝1和H＝1、W＝1的图块(分别枚举图块0和80)被写入的位置的箭头。根据预先配置的表格(例如TMAU中的如图9A所示的表格)执行混杂。

在一些实施例中，GMMA是GPU张量核心中的固定功能硬件单元，其被配置为执行矩阵对矩阵的乘法到累加器中。例如，两个16x16矩阵可以通过GMMA相乘成累加矩阵。在一些实施例中，GMMA可以被限制为小于预定义大小的矩阵。当两个矩阵要相乘时，GMMA，在示例实施例中，是由TMAU馈送的数据的使用者。当在SM上运行的计算内核中需要矩阵-矩阵乘法时，内核请求可以请求TMAU将两个矩阵中的每一个的数据复制到共享存储器中，然后发出矩阵-矩阵乘法请求到GMMA。作为响应，GMMA可以使用已由TMAU加载到共享存储器的数据执行其乘法运算。如果使用混杂，内核可以根据混杂模式信息读取共享存储器中的数据，执行其计算，然后将结果写回至共享存储器。混杂根据预先配置的表格，例如TMAU中的图9A中所示的表格，来执行。

在一些实施例中，GMMA电路可以被配置为从如图9D右侧所示的8x8像素图块中的共享存储器读取数据。为了获得位置R＝0、S＝0的数据(见图9B在全局存储器中未混杂图像中R＝0S＝0的指示)，位置R＝0S＝0的所有通道0-63需要从共享存储器中读取。对于由GMMA读取的第一个8x8像素图块，如图9D右侧处的右上角图块所示，对于位置R＝0，S＝0像素，通道C＝0-7，H＝0，W＝0-7被读取。由于如图9D所示数据在共享存储器中混杂在一起，包括R＝0、S＝0在内的八个位置的所有通道0-63可以在八个时钟周期内被读取。

GMMA操作可以使用3x3卷积滤波器904由卷积内核在诸如图9B所示的图像902上调用。对于每个位置，R＝0S＝0等，滤波器需要对3x3盒执行矩阵乘法，其中该位置是如图9B右下所示的左上位置。但是，GMMA电路可能会在每次读取时读取8x8图块。

多播支持

TMAU为程序化多播提供支持，其中单个TMAU生成加载请求，但数据被传递到多个目标(例如，SM)。例如，响应于来自在第一个SM上执行的内核的加载请求，耦合到第一个SM的TMAU请求来自全局存储器的张量数据或其他数据块，并且除了将其写入第一个SM的共享存储器(在一些实施例中，请求SM不需要接收请求的数据)，还将其写入一个或更多个其他SM的共享存储器。为了支持这一点，请求TMAU的特征是被提供了接收CTA的列表。在一些实施例中，接收的CTA ID可以被编码在16位掩码中，其中每个位对应于特定的CTA ID。在一些实施例中，具有多播选项的数据请求发起TMAU多播请求。目标CTA的掩码可以被编码在提供给指令的目标地址中。

每个接收方CTA需要检测事务完成。完成检测可以基于到达/等待同步机制。例如，每个接收到的数据包可以包括对应到达/等待结构位置的共享存储器地址，并且可以根据接收到的数据字节数更新结构中的计数器。接收器CTA可以基于计数器上的屏障等来实现同步。

为了支持抢占，TMAU跟踪接收到的数据包以便检测事务的完成。在典型情况下，所有簿记都在TMAU内本地安排。然而，在多播情况下，请求的TMAU必须考虑所有接收方的事务完成。因此，可以跨多个TMAU建立额外的确认机制。每次TMAU接收到数据时，它都必须将事件传达给请求的TMAU。请求的TMAU占所有接收器接收到的数据包的总数。可以使用TMAU实现的示例多播实现方式在标题为“跨多个计算引擎的程序控制数据多播(Programmatically Controlled Data Multicasting Across Multiple ComputeEngines)”的美国申请No.17/691,288中描述，其全文通过引用并入本文。

预取支持

除了加载张量数据之外，TMAU还支持数据预取请求以将数据从全局存储器DRAM预取到L2高速缓存。这提供了减少张量加载延迟和提高整体性能的机会。对于延迟影响多个CTA执行的多播操作，预取可能特别有利。预取请求处理类似于其他加载操作的，但TMAU不必执行任何类型的完成跟踪等。对于张量数据，预取请求处理有点类似于加载操作，其中张量描述符和坐标定义了如何处理请求。然而，对于张量数据的预取请求，TMAU可能无法处理共享存储器/全局对齐和以扇区或高速缓存行粒度处理请求。

存储和归约请求

TMAU存储请求将数据块从共享存储器复制到全局存储器。共享存储器中的数据以线性地址空间顺序处理；但是，目标存储器被视为多维张量。最大维度与加载请求相同。

与TMAU加载一样，向TMAU存储请求提供张量描述符指针、共享存储器基地址和目标块在张量空间中的坐标。存储请求在图块和im2col两种模式下都可以执行。存储请求还可以支持交错布局，并且可以指定共享存储器库混杂模式。可以支持遍历步幅的存储。在一些实施例中，存储操作还可以支持使用ZFILL/CFILL处理出界条件。此外，在某些实施例中，TMAU支持将数据从共享存储器复制到全局存储器或从共享存储器复制到共享存储器的带归约存储。支持的归约操作可能包括，但不限于，AND、ADD、XOR、MIN、MAX、DEC、OR和INC中的任何一个。

无描述符请求

广泛的应用程序执行不需要了解底层数据布局的存储器到存储器事务。在这种情况下，数据被视为预定大小的块的顺序阵列。在一些实施例中，例如，可以为TMAU操作配置16B的默认块大小。对非张量数据块的存储器访问请求比对张量的请求要简单得多，并且在一些实施例中，只需要源地址、目标地址和块数来执行传输。所有这些参数都可以在指令级别指定(即在对TMAU的请求中提供)，而无需存储在全局存储器中的相关张量描述符。这简化了编程模型，因为对于此类存储器访问请求，可以消除张量描述符定义的步骤。如果要传输的块数为零，则这些指令作为空操作(NOP)处理。

TMAU支持用于无描述符数据传输(也称为非张量数据请求)的专用指令。此类指令可用于将数据从全局存储器复制到共享存储器、共享存储器复制到全局存储器以及共享存储器复制到共享存储器。在另一个实施例中，可以实现全局到全局的复制。此外，另一条指令通过将从共享存储器到全局存储器或从共享存储器到共享存储器的数据复制来进行归约。支持的归约操作可以包括，但不限于，AND、ADD、XOR、MIN、MAX、DEC、OR和INC中的任何一个。TMAU支持从DRAM到L2的无描述符数据预取请求。

同步和事务完成

TMAU支持请求完成事件。在一些实施例中，到达/等待屏障被用作完成检测机制。每个TMAU加载请求都需要屏障结构所在的共享存储器地址。TMAU在每个L2请求中都包含此地址。当数据到达目标SM时，屏障结构会相应更新。TMAU本身不参与屏障更新。此机制可用于单播和多播请求。

此外，TMAU支持可用于检测所有先前发出的TMAU请求的完成的专用指令。

TMAU的编程模型

TMAU被设计成在全局和共享存储器之间移动大块的张量或其他数据。单个TMAU加载请求可以带来千字节、兆字节甚至更大量的数据，这些数据可以由多个线程和CTA处理。类似地，大型线程阵列生成的大块的共享存储器数据可以通过单个TMAU存储操作以张量或其他形式保存到全局存储器中。

TMAU请求的标量性质与CUDA编程范例的多线程性质没有很好地对齐。因此，一些实施例提供了直观且无中断的编程模型，该模型可以与CUDA环境集成以供在应用程序中使用TMAU。该编程模型为程序开发提供了灵活性，并且对于应用程序开发人员来说直观且易于学习。

在典型的DL应用中，期望TMAU以迭代方式使用。多个CTA通过访问不同的图块来遍历存储在全局存储器中的张量。在每次迭代中，张量块(block)(图块(tile))被提取和处理。对于每个块，应用程序通过计算多维坐标来确定张量空间中的块位置。此外，应用程序必须计算用于存储这些块的共享存储器地址。

TMAU指令的标量特性使得统一数据路径(UDP)和统一寄存器文件(URF)成为高效的执行场所。这不仅适用于TMAU指令，也适用于生成必要指令参数的周围代码。这种方法将消除代码执行冗余、节省寄存器文件(RF)容量、带宽、节省功耗和自由矢量数据路径。由于TMAU相关代码的迭代特性，将迭代参数保持在URF中很重要。任何URF/RF加载/存储都会导致性能损失和额外的功耗。

在一些实施例中，提供了一种机制，该机制帮助编译器识别附近代码块的单线程束语义并通过CUDA和PTX(并行线程执行指令集架构)来表达。修改添加了“.one”修饰符。在以下代码中，建议的修饰符强制选择单个线程来执行：

_warpsync.exclusive.one mask，L1；

执行线程是从掩码定义的活动线程集合中选择的。每次执行代码块时一致地选择相同的线程是很重要的。请注意，_warpsync.exclusive会导致所有线程在代码块执行之前和之后同步。所提出的编程模型可以简化代码分析，为UDP执行提供生成TMAU相关代码的机会，并将相关数据保留在URF中。

CUDA级模型位于PTX结构之上，其中一致地选择单个线程用于代码块执行。在以下代码中，__one_sync(mask)函数提供了所需的功能：

if(__one_sync(mask)){

}//no‘else’clause

在一些实施例中，基于TMAU的访问是通过一组函数来实现的。定义了四个C样式组以涵盖以下情况：带有L2描述符的图块负载、不带张量描述符的图块负载、带有张量描述符的im2col负载和不带张量描述符的im2col负载。这些函数可以将张量描述符指针、共享存储器目标地址、到达/等待屏障的共享存储器地址、访问块起点的张量坐标集、管线结构和可选的张量描述符作为输入参数。im2col组还期望卷积内核内的坐标偏移。

在示例实施例中，在SM上执行的内核可以向TMAU发出存储器访问请求，以使用以下形式的张量复制指令在全局和共享存储器之间复制张量，诸如：

对TMAU的存储器访问请求以将张量数据预取到L2高速缓存可以通过以下形式的张量预取指令发出，诸如：

prefetch_tensor.mode.dimensionality descriptor coordinates

im2col_coordinate_offsets}

where mode＝{tiles,im2col}and dimensionality＝{1D-5D}.

对TMAU的存储器访问请求以在全局和共享存储器之间复制非张量数据块可以通过以下形式的块复制指令发出，诸如：

copy_block.destination,source{.multicast}{reduction_op}destination_address{barrier_addr}source_address multicast_destinations number_blockswhere destination＝{shared,global},source＝{shared,global},multicast,andreduction_op＝{.AND,.ADD,.XOR,.MIN,.MAX,.DEC,.OR,.INC}.

对TMAU的存储器访问请求以将非张量数据块从全局存储器预取到L2高速缓存可以通过以下形式的块预取指令发出，诸如：prefetch_block address number_blocks。

使用TMAU的并行处理GPU架构示例

现在将描述其中并入本申请中公开的TMAU的示例说明性架构。以下信息仅用于说明目的，不应解释为以任何方式进行限制。在排除或不排除所描述的其他特征的情况下，可以任选地结合以下任何特征。

图10示出了根据一个实施例的并行处理单元(PPU)1000。在一个实施例中，PPU1000是在一个或更多个集成电路设备上实现的多线程处理器。PPU 1000是一种延迟隐藏架构，旨在并行处理多个线程。线程(例如，执行线程)是被配置为由PPU 1000执行的一组指令的实例化。在一个实施例中，PPU 1000是被配置为实现图形渲染管线的图形处理单元(GPU)处理三维(3D)图形数据以生成二维(2D)图像数据，用于在诸如液晶显示(LCD)设备的显示设备上显示。在其他实施例中，PPU 1000可用于执行通用计算。在一些其他实施例中，PPU1000被配置为在深度学习应用或其他高性能计算应用中实现大型神经网络。

一个或更多个PPU 1000可配置为加速数千个高性能计算(HPC)、数据中心和机器学***台、深度学习、高精度语音、图像和文本识别***、智能视频分析、分子模拟、药物发现、疾病诊断、天气预报、大数据分析、天文学、分子动力学模拟、金融建模、机器人、工厂自动化、实时语言翻译、在线搜索优化和个性化用户推荐等。

如图10中所示，PPU 1000包括输入/输出(I/O)单元1005、前端单元1015、调度器单元1020、工作分配单元1025、集线器1030、交叉开关(Xbar)1070、一个或更多个通用处理集群(GPC)1050和一个或更多个分区单元1080。PPU 1000可以通过一个或更多个高速NVLink互连1010连接到主机处理器或其他PPU 1000。PPU 1000可以通过互连1002连接到主机处理器或其他***设备。PPU 1000也可以连接到包括多个存储器设备1004的存储器。在一个实施例中，存储器设备1004可以包括多个动态随机存取存储器(DRAM)设备。DRAM设备可配置为高带宽存储器(HBM)子***，并且在每个设备内堆叠有多个DRAM裸芯。

NVLink 1010互连使***能够扩展，并包括与一个或更多个CPU结合的一个或更多个PPU 1000，支持PPU 1000和CPU之间的缓存相干以及CPU主控。NVLink 1010通过集线器1030将数据和/或命令传输到PPU 1000的其他单元，例如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元等(未明确示出)。NVLink 1010结合图13A和图13B更详细地描述。

I/O单元1005被配置为通过互连1002从主处理器(未示出)发送和接收通信(例如，命令、数据等)。I/O单元1005可以通过以下方式与主处理器直接通信互连1002或通过一个或更多个中间设备，例如存储器桥。在一个实施例中，I/O单元1005可以经由互连1002与一个或更多个其他处理器，例如一个或更多个PPU 1000通信。在一个实施例中，I/O单元1005实现***组件高速互连(PCIe)接口用于通过PCIe总线进行通信，并且互连1002是PCIe总线。在替代实施例中，I/O单元1005可以实现用于与外部设备通信的其他类型的众所周知的接口。

I/O单元1005对通过互连1002接收的包进行解码。在一个实施例中，包表示被配置为使PPU 1000执行各种操作的命令。I/O单元1005将解码的命令发送到PPU 1000的各种其他单元，如命令可以指定的。例如，一些命令可以被发送到前端单元1015。其他命令可以被发送到集线器1030或PPU 1000的其他单元，例如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元等(未明确显示)。换言之，I/O单元1005被配置为在PPU 1000的各种逻辑单元之间路由通信。

在一个实施例中，由主机处理器执行的程序在缓冲区中对命令流进行编码，该缓冲区将工作负载提供给PPU 1000以进行处理。工作负载可以包括若干指令和要由那些指令处理的数据。缓冲区是可由主机处理器和PPU 1000两者访问(例如，读/写)的存储器中的区域。例如，I/O单元1005可以配置为访问经由在互连1002传输的存储器请求连接到互连1002的***存储器中的缓冲区。在至少一个实施例中，主机处理器将命令流写入缓冲区，然后将指示命令流开始的指针发送给PPU 1000。前端单元1015接收指向一个或更多个命令流指针。前端单元1015管理一个或更多个流，从流中读取命令并将命令转发到PPU 1000的各个单元。

前端单元1015耦合到调度器单元1020，该调度器单元1020配置各种GPC 1050以处理由一个或更多个流定义的任务。调度器单元1020配置为跟踪与调度器单元1020管理的各种任务有关的状态信息。状态可以指示任务被分配给哪个GPC 1050，任务是活跃的还是非活跃的，与任务相关联的优先级等等。调度器单元1020管理在一个或更多个GPC 1050上执行的多个任务。

调度器单元1020耦合到工作分配单元1025，该工作分配单元1025配置为分派任务以在GPC 1050上执行。工作分配单元1025可以跟踪从调度器单元1020接收到的多个调度任务。在一个实施例中，工作分配单元1015管理每个GPC 1050的待处理任务池和活跃任务池。待处理任务池可以包括多个时隙(例如32个时隙)，这些时隙包含分配给要由特定的GPC1050处理的任务。活跃任务池可包括用于由GPC 1050主动处理的任务的多个时隙(例如4个时隙)。随着GPC 1050完成任务的执行，该任务将从GPC 1050的活动任务池中逐出，并且从待处理任务池中选择其他任务中的一个，并安排其在GPC 1050上执行。如果活跃任务在GPC 1050上已处于空闲状态，例如在等待数据依赖性解决时，则活跃任务可以从GPC 1050中驱逐并返回到待处理任务池，同时选择了待处理任务池中的另一个任务并调度在GPC1050上执行。

工作分配单元1025经由XBar 1070与一个或更多个GPC 1050通信。XBar 1070是互连网络，其将PPU 1000的许多单元耦合到PPU 1000的其他单元。例如，Xbar 1070可以配置为将工作分配单元1025耦合到特定的GPC 1050。虽然没有明确显示，一个或更多个PPU1000的其他单元也可以通过集线器1030连接到XBar 1070。

任务由调度器单元1020管理，并由工作分配单元1025分配给GPC 1050。GPC 1050配置为处理任务并产生结果。结果可以由GPC 1050中的其他任务消耗，通过XBar 1070路由到不同的GPC 1050或存储在存储器1004中。结果可以通过分区单元1080写到存储器1004中，其实现了用于向存储器1004写入数据或从存储器1004读取数据的存储器接口。结果可以经由NVLink 1010传输到另一PPU 1000或CPU。在一个实施例中，PPU 1000包括U个分区单元1080，其等于耦合到PPU 1000的分离且不同的存储器设备1004的数量。分区单元1080在下文结合图11B更详细地描述。

在一个实施例中，主机处理器执行驱动器核心，该驱动程序核心实现应用程序编程接口(API)，该应用程序编程接口使在主机处理器上执行的一个或更多个应用程序能够调度操作以在PPU 1000上执行。在一个实施例中，多个计算应用程序由PPU 1000同时执行，并且PPU 1000为多个计算应用程序提供隔离、服务质量(QoS)和独立的地址空间。应用程序可以生成指令(例如，API调用)，该指令使驱动器核心生成一个或更多个任务以供PPU 1000执行。驱动器核心将任务输出至由PPU 1000处理的一个或更多个流。每个任务可以包括一个或更多个相关线程组，本文中称为线程束(warp)。在一个实施例中，线程束包括可以并行执行的32个相关线程。协作线程可以指代多个线程，包括用于执行任务并且通过共享存储器交换数据的指令。根据一些实施例的线程、协作线程和诸如协作线程阵列(CTA)和协作组阵列(CGA)的线程的分层包在提交于2022年3月10日的标题为“协作组阵列(CooperativeGroup Arrays)”的美国申请No.17/691,621中有更详细的描述，其全部内容通过引用并入本文。

图11A示出了根据一个实施例的图10的PPU 1000的GPC 1050。如图11A中所示，每个GPC 1050包括用于处理任务的多个硬件单元。在一个实施例中，每个GPC 1050包括管线管理器1110、预光栅操作单元(PROP)1115、光栅引擎1125、工作分配交叉开关(WDX)1180、存储器管理单元(MMU)1190和一个或更多个数据处理集群(DPC)1120。应当理解，图11A的GPC1050可以包括代替图11A中所示的单元或除了图11A中所示的单元之外的其他硬件单元。

在一个实施例中，GPC 1050的操作由管线管理器1110控制。管线管理器1110管理一个或更多个DPC 1120的配置，以处理分配给GPC 1050的任务。在一个实施例中，管线管理器1110可以配置一个或更多个DPC 1120中的至少一个以实现图形渲染管线的至少一部分、神经网络和/或计算管线。例如，关于图形渲染管线，DPC 1120可以配置为在可编程流式多处理器(SM)1140上执行顶点着色器程序。管线管理器1110可以也配置为将从工作分配单元1025接收的分组路由到GPC 1050内的适当逻辑单元。例如，可以将一些分组路由到PROP1115和/或光栅引擎1125中的固定功能硬件单元，而可以将其他分组路由到DPC 1120以由图元引擎1135或SM 1140进行处理。

PROP单元1115配置为将由光栅引擎1125和DPC 1120生成的数据路由到光栅操作(ROP)单元，结合图11B更详细地描述。PROP单元1115可以也配置为执行用于颜色混合的优化、组织像素数据、执行地址转换等等。

包括在GPC 1050中的每个DPC 1120包括M管线控制器(MPC)1130、图元引擎1135和一个或更多个SM 1140。MPC 1130控制DPC 1120的操作，将从管线管理器1110接收的分组路由到DPC 1120中的适当单元。例如，将与顶点相关联的分组可以路由到图元引擎1135，图元引擎1135配置为从存储器1004中获取与顶点关联的顶点属性。相反地，可以将与着色器程序相关联的分组发送到SM 1140。

SM 1140包括可编程流式处理器，其配置为处理由多个线程表示的任务。每个SM1140是多线程的并且配置为同时执行来自特定线程组的多个线程(例如32个线程)。在一个实施例中，SM 1140实现SIMD(单指令、多数据)架构，其中将一组线程(例如，线程束)中的每个线程配置为基于相同的指令集来处理不同的数据集。线程组中的所有线程执行相同指令。在另一个实施例中，SM 1140实现SIMT(单指令、多线程)架构，其中一组线程中的每个线程配置为基于相同指令来处理不同的数据集，但是其中线程组中的各个线程允许在执行期间发散。在一个实施例中，为每个线程束维护程序计数器、调用栈和执行状态，从而当线程束中的线程发散时，实现线程束和线程束内的串行执行之间的并发性。在另一个实施例中，为每个单独的线程维护程序计数器、调用栈和执行状态，从而使得在线程束内和线程束之间的所有线程之间具有相等的并发性。当为每个单独的线程维持执行状态，为了最大化效率可以收敛并并行地执行执行相同指令的线程。下文结合图12更详细地描述SM 1140。

MMU 1190在GPC 1050和分区单元1080之间提供接口。MMU 1190可以提供虚拟地址到物理地址的转换、存储器保护以及存储器请求的仲裁。在一个实施例中，MMU 1190提供一个或更多个转换后备缓冲区(TLB)，用于执行虚拟地址到存储器1004中的物理地址的转换。

图11B示出了根据一个实施例的图10的PPU 1000的存储器分区单元1080。如图11B所示，存储器分区单元1080包括光栅操作(ROP)单元1150、二级(L2)高速缓存1160和存储器接口1170。存储器接口1170耦合到存储器1004。存储器接口1170可以实现32、64、128、1024位数据总线，或者类似的实现方式用于高速数据传输。在一个实施例中，PPU 1000包括U个存储器接口1170，每对分区单元1080一个存储器接口1170，其中每对分区单元1080连接到对应的存储器设备1004。例如，PPU 1000可以连接至多达Y个存储器设备1004，例如高带宽存储器堆栈或图形双数据速率版本5同步动态随机存取存储器，或其他类型的持久存储。

在一个实施例中，存储器接口1170实现HBM2存储器接口，并且Y等于U的一半。在一个实施例中，HBM2存储器堆栈与PPU 1000一起位于相同的物理封装上，与传统的GDDR5SDRAM***相比，可提供大量功率并节省面积。在一个实施例中，每个HBM2堆栈包括四个存储器管芯，且Y＝4，HBM2堆栈包括每个管芯两个128位通道，用于总共8个通道和1024位的数据总线宽度。

在一个实施例中，存储器1004支持单错误校正双错误检测(SECDED)错误校正码(ECC)以保护数据。ECC为对数据损坏敏感的计算应用程序提供更高的可靠性。在PPU 1000处理非常大的数据集和/或长时间运行应用程序的大规模集群计算环境中，可靠性尤其重要。

在一个实施例中，PPU 1000实现了多级存储器层次结构。在一个实施例中，存储器分区单元1080支持统一存储器以为CPU和PPU 1000存储器提供单个统一虚拟地址空间，从而实现虚拟存储器***之间的数据共享。在一个实施例中，跟踪PPU 1000对位于其他处理器上的存储器的访问频率，以确保将存储器页面移动到更频繁地访问页面的PPU 1000的物理存储器。在一个实施例中，NVLink 1010支持地址转换服务，其允许PPU 1000直接访问CPU的页表，并通过PPU 1000提供对CPU存储器的完全访问。

在一个实施例中，复制引擎在多个PPU 1000之间或PPU 1000与CPU之间传输数据。复制引擎可以为未被映射到页表中的地址生成页面错误。存储器分区单元1080然后可以为页面错误提供服务，将地址映射到页表中，之后复制引擎执行传输。在传统***中，为多个处理器之间的多个复制引擎操作固定(即不可分页)存储器，从而实质上减少了可用存储器。在硬件页面故障的情况下，可以将地址传递给复制引擎，而无需担心是否驻留存储器页，并且复制过程是透明的。

来自存储器1004或其他***存储器的数据可以由存储器分区单元1080获取，并将其存储在L2高速缓存1160中，L2高速缓存1160位于芯片上并且在各种GPC 1050之间共享。如图所示，每个存储器分区单元1080包括与对应的存储器设备1004相关联的L2高速缓存1160的一部分。然后在GPC 1050内的各个单元中可以实现较低级别的高速缓存。例如，SM1140中的每个可以实现一级(L1)高速缓存。L1高速缓存是专用于特定SM 1140的私有存储器。从L2高速缓存1160中可以获取数据并将其存储在每个L1高速缓存中，用于在SM 1140的功能单元中进行处理。L2高速缓存1160耦合到存储器接口1170和XBar 1070。

ROP单元1150执行与像素颜色有关的图形光栅操作，诸如颜色压缩、像素混合等。ROP单元1150结合光栅引擎1125也实现深度测试，从光栅引擎1125的剔除引擎接收与像素片段相关联的样本位置的深度。针对在与片段关联的样本位置的深度缓冲区中的相应深度测试深度。如果该片段通过了针对该样本位置的该深度测试，则ROP单元1150更新深度缓冲区，并将该深度测试的结果发送给光栅引擎1125。将意识到，分区单元1080的数量可以不同于GPC 1050的数量，因此，可以将每个ROP单元1150耦合到每个GPC 1050。ROP单元1150跟踪从不同GPC 1050接收到的包，并且确定ROP单元1150生成的结果是否要通过XBar 1070路由到的GPC 1050。尽管在图11B中ROP单元1150包括在存储器分区单元1080内，但在其他实施例中，ROP单元1150可以在存储器分区单元1080之外。例如，ROP单元1150可以驻留在GPC1050或其他单元中。

图12示出了根据一个实施例的图11A的流式多处理器1140。如图12所示，SM 1140包括指令高速缓存1205、一个或更多个调度器单元1210、寄存器文件1220、一个或更多个处理核心1250、一个或更多个特殊功能单元(SFU)1252、一个或更多个加载/存储单元(LSU)1254、互连网络1280、共享存储器/L1高速缓存1270。

如上所述，工作分配单元1025调度任务以在PPU 1000的GPC 1050上执行。任务被分配给GPC 1050内部的特定DPC 1120，并且如果任务与着色器程序相关联，则将该任务分配给SM 1140。调度器单元1210从工作分配单元1025接收任务并管理分配给SM 1140的一个或更多个线程块的指令调度。调度器单元1210调度线程块以作为并行线程的线程束来执行，其中，每个线程块被分配至少一个线程束。在一个实施例中，每个线程束执行32个线程。调度器单元1210可以管理多个不同的线程块，将线程束分配给不同的线程块，然后在每个时钟周期内将来自多个不同的协作组的指令分派给各种功能单元(例如，核心1250、SFU1252和LSU 1254)。

协作组是用于组织通信线程组的编程模型，其允许开发者表达线程正在通信的粒度，从而能够表达更丰富、更有效的并行分解。协作启动API支持线程块之间的同步以执行并行算法。常规编程模型提供了用于同步协作线程的单一、简单的构造：跨线程块的所有线程的屏障(例如，syncthreads()函数)。但是，程序员经常在小于线程块粒度的情形下来定义线程组，并在所定义的组内进行同步，以实现更高的性能、设计灵活性以及以集合组范围功能接口的形式实现软件重用。

协作组使程序员能够以子块(即，小到单个线程)和多块粒度明确定义线程组，并执行集合操作，例如对协作组中的线程进行同步。该编程模型支持跨软件边界的干净组合，从而库和实用程序功能可以在其本地环境中安全地同步，而不必进行关于收敛的假设。协作组图元使协作并行的新图案成为可能，包括生产者-消费者并行，机会主义并行以及整个线程块网格上的全局同步。根据一些实施例的诸如协作线程阵列(CTA)和协作组阵列(CGA)的分层线程组在美国申请No.17/691,621中更详细地描述，已通过引用并入本文。

调度单元1215配置为将指令发送到功能单元中的一个或更多个。在本实施例中，调度器单元1210包括两个调度单元1215，该两个调度单元1215使得来自相同线程束的两个不同指令能够在每个时钟周期被调度。在另一个实施例中，每个调度器单元1210可以包括单个调度单元1215或附加调度单元1215。

每个SM 1140包括寄存器文件1220，该寄存器文件1220为SM 1140的功能单元提供了一组寄存器。在一个实施例中，寄存器文件1220在每个功能单元之间划分，从而为每个功能单元分配寄存器文件1220的专用部分。在另一个实施例中，寄存器文件1220在由SM 1140执行的不同线程束之间划分。寄存器文件1220为连接到功能单元的数据路径的操作数提供临时存储。

每个SM 1140包括多个处理核心1250。在一个实施例中，SM 1140包括大量(例如128个等)不同的处理核心1250。每个核心1250可以包括全管线、单精度、双精度和/或混合精度处理单元，其包括浮点算术逻辑单元和整数算术逻辑单元。在一个实施例中，浮点算术逻辑单元实现用于浮点算术的IEEE 754-2008标准。在一个实施例中，核心1250包括64个单精度(32位)浮点核心、64个整数核心、32个双精度(64位)浮点核心和8个张量核心。

张量核心配置为执行矩阵运算，并且，在一个实施例中，一个或更多个张量核心包括在核心1250中。特别地，张量核心配置为执行深度学习矩阵算术，例如用于神经网络训练和推理的卷积运算。在一个实施例中，每个张量核心在4×4矩阵上操作并且执行矩阵乘法和累加运算D＝A×B+C，其中A、B、C和D是4×4矩阵。

在一个实施例中，矩阵乘法输入A和B是16位浮点矩阵，而累加矩阵C和D可以是16位浮点或32位浮点矩阵。张量核心对16位浮点输入数据进行32位浮点累加运算。16位浮点乘法需要64个运算，并得到全精度乘积，然后使用32位浮点加法与其他中间乘积累加起来，以进行4×4×4矩阵乘法。实际上，张量核心用于执行由这些较小元件构成的更大的二维或更高维度的矩阵运算。API(诸如CUDA C++API)公开专门的矩阵加载、矩阵乘法和累加以及矩阵存储操作，以有效地使用来自CUDA-C++程序的张量核心。在CUDA级别，线程束级别接口假定跨越所有32个线程束线程的16×16大小的矩阵。

在一些实施例中，转置硬件被包括在处理核心1250或另一个功能单元(例如，SFU1252或LSU 1254)中，并且被配置为生成由对角线存储的矩阵数据和/或从对角线生成原始矩阵和/或转置矩阵。对角线存储的矩阵数据。转置硬件可以在共享存储器1270内部提供给SM 1140的寄存器文件1220加载路径。

在一个示例中，可以从DRAM中取出对角线存储的矩阵数据并将其存储在共享存储器1270中。当使用对角线存储的矩阵数据执行处理的指令被处理时，设置在共享存储器1270的路径中的转置硬件并且寄存器文件1220可以提供原始矩阵、转置矩阵、压缩原始矩阵和/或压缩转置矩阵。直到指令之前的最后存储，可以保持由对角线存储的单个矩阵数据，并且由指令指定的矩阵类型根据需要在寄存器文件1220中生成。

每个SM 1140也包括执行特殊功能(例如，属性评估、倒数平方根等)的多个SFU1252。在一个实施例中，SFU 1252可以包括配置为遍历分层树数据结构的树遍历单元(例如TTU 1143)。在一个实施例中，SFU 1252可以包括配置为执行纹理映射过滤操作的纹理单元(例如纹理单元1142)。在一个实施例中，纹理单元配置为从存储器1004中加载纹理映射(例如，纹理像素的2D阵列)和采样纹理映射，以产生采样的纹理值以供由SM 1140执行的着色器程序使用。在一个实施例中，将纹理映射存储在共享存储器/L1高速缓存1170中。纹理单元使用mip映射(mip-maps)(例如，细节级别不同的纹理映射)来实现纹理操作(诸如过滤操作)。在一个实施例中，每个SM 1140包括两个纹理单元。

每个SM 1140也包括实现共享存储器/L1高速缓存1270与寄存器文件1220之间的加载和存储操作的多个LSU 1254。每个SM 1140包括互连网络1280，其将每个功能单元连接到寄存器文件1220，并且LSU 1254连接到寄存器文件1220、共享存储器/L1高速缓存1270。在一个实施例中，互连网络1280是交叉开关，其可以配置为将任何功能单元连接到寄存器文件1220中的任何寄存器，并且将LSU 1254连接到寄存器文件1220和共享存储器/L1高速缓存1270中的存储器位置。在示例实施例中，LSU 1254包括TMAU 112。然而，在某些实施例中，TMAU 112可以与LSU分离。每个TMAU 112可以被紧密耦合在单个SM或更多个SM上。在TMAU 112与多个SM紧密耦合的实施例中，仲裁器可以接收来自SM的请求并将其连续转发到TMAU 112。

共享存储器/L1高速缓存1270是片上存储器的阵列，其允许SM 1140与图元引擎1135之间以及SM 1140中的线程之间的数据存储和通信。在一个实施例中，共享存储器/L1高速缓存1270包括128KB的存储容量，并且位于从SM 1140到分区单元1180的路径中。共享存储器/L1高速缓存1270可以用于高速缓存读取和写入。共享存储器/L1高速缓存1270、L2高速缓存1160和存储器中1004的一个或更多个是后备存储。

将数据高速缓存和共享存储器功能组合到单个存储器块中，为两种类型的存储器访问提供了最佳的全局性能。容量由不使用共享存储器的程序使用或将其用作高速缓存。例如，如果共享存储器配置为使用一半容量，并且纹理和加载/存储操作可以使用剩余容量。在共享存储器/L1高速缓存1270内的集成使共享存储器/L1高速缓存1270能够用作用于流传输数据的高吞吐量管线，同时提供对频繁重用的数据的高带宽和低延迟访问。

在本公开的上下文中，SM或“流式多处理器”是指按照授予诺德奎斯特(Nordquist)的USP7,447,873中所述架构的处理器，包括对其的改进和进展，并且例如在多代NVIDIA GPU中实现。例如，SM可以包括多个处理引擎或核心，这些处理引擎或核心被配置为同时执行多个线程，这些线程排列在多个单指令多数据(SIMD)组(例如，线程束)中，其中每个线程在同一个SIMD组在不同的输入对象上执行包括一系列指令的相同数据处理程序，并且在同一个SIMD组中的不同线程使用不同的处理引擎或核心来执行。SM通常还可以提供具有多个通道的本地寄存器文件，其中每个处理引擎或核心被配置为访问通道的不同子集；指令发布逻辑，被配置为选择SIMD组之一并将相同数据处理程序的指令之一并行发布到多个处理引擎中的每一个，其中每个处理引擎与每个其他处理引擎并行地执行相同指令，每个其他处理引擎使用可对其访问的本地寄存器文件通道的子集。SM通常还包括被配置为启动一个或更多个SIMD组的执行的核心接口逻辑。如图所示，此类SM已被构建为提供快速的本地共享存储器，从而在SM上执行的CTA的所有线程之间实现数据共享/重用和同步。

当配置用于通用并行计算时，与图形处理相比，可以使用更简单的配置。特别地，绕过固定功能图形处理单元，从而创建了更加简单的编程模型。在至少一个实施例中，在通用并行计算配置中，工作分配单元直接将线程的块分配和分布给DPC 1120。块中的线程执行相同的程序，在计算中使用唯一的线程ID以确保每个线程生成唯一的结果，使用SM 1140执行程序并执行计算，使用共享存储器/L1高速缓存1270在线程之间进行通信，以及使用LSU 1254通过共享存储器/L1高速缓存1270和存储器分区单元1080来读写全局存储器。当被配置用于通用并行计算时，SM 1140向调度器单元1020写入可以用来在DPC 1120上启动新工作的命令。

PPU 1000被包括在台式计算机、膝上型计算机、平板电脑、服务器、超级计算机、智能电话(例如，无线、手持设备)、个人数字助理(PDA)、数码相机、车辆、头戴式显示器、手持式电子设备等中或与之耦合。在一个实施例中，PPU 1000被实现在单个半导体基板上。在另一个实施例中，PPU 1000与一个或更多个其他设备(例如附加的PPU 1000、存储器1004、精简指令集计算机(RISC)CPU，一个或更多个存储器管理单元(MMU)、数模转换器(DAC)等)一起被包括在片上***(SoC)中。

在一个实施例中，PPU 1000可以被包括在包括一个或更多个存储设备1004的图形卡上。该图形卡可以配置为与台式计算机主板上的PCIe插槽相连接。在另一个实施例中，该PPU 1000可以是包括在主板的芯片组中的集成图形处理单元(iGPU)或并行处理器。

示例性计算***

随着开发人员在人工智能计算等应用程序中公开和利用更多并行性，具有多个GPU和CPU的***被用于各种行业。具有数万到数千个计算节点的高性能GPU加速***部署在数据中心、研究设施和超级计算机中，以解决更大的问题。随着高性能***中处理设备数量的增加，通信和数据传输机制需要扩展以支持增加的带宽。

图13A是根据一个实施例的使用图10的PPU 1000实现的处理***1300的概念图。示例性***1300可以被配置为实施本申请中公开的方法(例如，图1、2、6或11A中的TMAU)。处理***1300包括CPU 1330、交换机1355和多个PPU 1000和相应的存储器1004。NVLink1010在每个PPU 1000之间提供高速通信链路。尽管特定数量的NVLink 1010和互连1002连接是如图13A所示，到每个PPU 1000和CPU 1330的连接数量可能会有所不同。交换机1355在互连1002和CPU 1330之间连接。PPU 1000、存储器1004和NVLink 1010可以位于单个半导体平台上以形成并行处理模块1325。在一个实施例中，交换机1355支持两个或更多个各种不同连接和/或链接之间的接口协议。

在另一个实施例(未示出)中，NVLink 1010在每个PPU 1000和CPU 1330之间提供一个或更多个高速通信链路，并且交换机1355在互连1002和每个PPU 1000之间提供接口。PPU 1000，存储器1004和互连1002可以位于单个半导体平台上以形成并行处理模块1325。在又一实施例(未示出)中，互连1002在每个PPU 1000和CPU 1330之间提供一个或更多个通信链路并且交换机1355使用NVLink 1010在每个PPU 1000之间连接，以在PPU 1000之间提供一个或更多个高速通信链路。在另一个实施例(未示出)中，NVLink 1010提供一个或更多个高速通信链路在PPU 1000和CPU 1330之间通过交换机1355。在又一个实施例中(未示出)，互连1002直接在每个PPU 1000之间提供一个或更多个通信链路。一个或更多个NVLink1010高速通信链路可以实现为物理NVLink互连或使用与NVLink 1010相同的协议的片上或片上互连。

在本说明书的上下文中，单个(single)半导体平台可以指代制造在管芯或芯片上的唯一的统一的基于半导体的集成电路。应该注意的是，术语单个半导体平台也可以指具有增强的连接性的多芯片模块，其模拟芯片上的操作并且相对于利用传统总线实现做出实质性改进。当然，各种电路或器件也可以根据用户的需要单独放置或以半导体平台的各种组合放置。或者，并行处理模块1325可以实现为电路板基板，并且每个PPU 1000和/或存储器1004可以是封装器件。在一个实施例中，CPU 1330、交换机1355和并行处理模块1325位于单个半导体平台上。

在一个实施例中，每个NVLink 1010的信令速率为20到25吉比特/秒并且每个PPU1000包括六个NVLink 1010接口(如图13A所示，每个PPU 1000包括五个NVLink 1010接口)。每个NVLink 1010在每个方向上提供25GB/秒的数据传输速率，六个链路提供1000GB/秒。当CPU 1330还包括一个或更多个NVLink 1010接口时，NVLink 1010可专门用于如图13A所示的PPU到PPU通信，或PPU到PPU和PPU到CPU的某种组合。

在一个实施例中，NVLink 1010允许从CPU 1330直接加载/存储/原子访问每个PPU1000的存储器1004。在一个实施例中，NVLink 1010支持一致性操作，允许从存储器1004读取的数据存储在高速缓存中CPU 1330的层次结构，减少CPU 1330的高速缓存访问延迟。在一个实施例中，NVLink 1010包括对地址转换服务(ATS)的支持，允许PPU 1000直接访问CPU1330内的页表。一个或更多个NVLinks 1010也可以配置为在低功率模式下运行。

图13B示出了示例性***1365，其中可以实现各种先前实施例的各种架构和/或功能。示例性***1365可以被配置为实现本申请中公开的方法(例如，图1、2、6或11A中的TMAU)。

如图所示，提供了一种***1365，包括至少一个中央处理单元1330，该中央处理单元1330连接到通信总线1375。通信总线1375可以使用任何合适的协议来实现，例如PCI(***组件互连)、PCI-Express、AGP(加速图形端口)、HyperTransport或任何其他总线或点对点通信协议。***1365还包括主存储器1340。控制逻辑(软件)和数据存储在可以采取随机存取存储器(RAM)形式的主存储器1340中。

***1365还包括输入设备1360、并行处理***1325和显示设备1345，例如传统的CRT(阴极射线管)、LCD(液晶显示器)、LED(发光二极管)、等离子显示器等。可以从输入设备1360接收用户输入，例如键盘、鼠标、触摸板、麦克风等。前述模块和/或设备中的每一个甚至可以位于单个半导体平台上以形成***1365。或者，根据用户的需要，各种模块也可以单独或以半导体平台的各种组合放置。

此外，***1365可以耦合到网络(例如，电信网络、局域网(LAN)、无线网络、广域网(WAN)如互联网、对等网络、有线网络或等)通过网络接口1335用于通信目的。

***1365还可以包括辅助存储器(未示出)。辅助存储器包括例如硬盘驱动器和/或可移动存储驱动器，代表软盘驱动器、磁带驱动器、压缩盘驱动器、数字通用磁盘(DVD)驱动器、记录设备、通用串行总线(USB)闪存。可移动存储驱动器以众所周知的方式从可移动存储单元读取和/或写入到可移动存储单元。

计算机程序或计算机控制逻辑算法可以存储在主存储器1340和/或辅助存储器中。这样的计算机程序在被执行时使***1365能够执行各种功能。存储器1340、存储器和/或任何其他存储器是计算机可读介质的可能示例。

各种先前附图的架构和/或功能可以在通用计算机***、电路板***、专用于娱乐目的的游戏控制台***、专用***和/或任何其他所需***的上下文中实现。例如，***1365可以采用台式计算机、膝上型计算机、平板计算机、服务器、超级计算机、智能电话(例如，无线手持设备)、个人数字助理(PDA)、数码相机、车辆、头戴式显示器、手持电子设备、移动电话设备、电视、工作站、游戏机、嵌入式***和/或任何其他类型的逻辑。

应用程序可以通过由诸如CPU之类的主处理器执行的应用来实现。在一个实施例中，设备驱动程序可以实现应用编程接口(API)，该API定义了可以由应用程序使用的各种功能，以便生成用于显示的图形数据。设备驱动程序是一种软件程序，包括控制PPU 1000操作的多个指令。API为程序员提供了一种抽象，使程序员能够利用诸如PPU 1000之类的专用图形硬件来生成图形数据无需程序员使用PPU 1000的特定指令集。应用程序可以包括一个API调用，该API调用被路由到PPU 1000的设备驱动程序。设备驱动程序解释API调用并执行各种操作以响应API称呼。在某些情况下，设备驱动程序可以通过在CPU上执行指令来执行操作。在其他情况下，设备驱动程序可以至少部分地通过利用CPU和PPU 1000之间的输入/输出接口在PPU 1000上启动操作来执行操作。在一个实施例中，设备驱动程序被配置为实现图形处理管线1400利用PPU 1000的硬件。

可以在PPU 1000内执行各种程序，以实现应用程序处理的各个阶段。例如，设备驱动程序可以启动PPU 1000上的内核以在一个SM 1140(或更多个SM 1140)上执行一个阶段的处理。设备驱动程序(或由PPU 1000执行的初始内核)也可以启动PPU 1000上的其他内核以执行处理的其他阶段。如果应用程序处理包括图形处理管线，则图形处理管线的一些阶段可以在固定单元硬件上实现，例如在PPU 1000内实现的光栅化器或数据组装器。应该理解的是，从一个在由SM 1140上的后续内核处理之前，内核可以由一个或更多个介入的固定功能硬件单元处理。

以上引用的所有专利和印刷出版物在此以引用方式并入，如同明确阐述一样。

尽管本发明已经结合目前被认为是最实用和优选的实施例进行了描述，但应理解本发明不限于所公开的实施例，相反，旨在涵盖各种包括在所附权利要求的精神和范围内的修改和等效布置。

Claims

1.一种并行处理器，包括：

到外部存储器的接口；

多个多核心处理器，每个多核心处理器具有相应的共享存储器；以及

多个存储器访问硬件电路，每个存储器访问硬件电路被耦合到所述多个多核心处理器中的多核心处理器，并被配置为：

从所耦合的多核心处理器接收对数据块的存储器访问请求；以及

响应于所述存储器访问请求，在所耦合的多核心处理器的共享存储器和所述外部存储器中的一个或两个中的存储器位置之间异步传输所述数据块。

2.如权利要求1所述的并行处理器，其中所述异步传输是从所述外部存储器中的位置到所述外部存储器中的另一位置。

3.如权利要求1所述的并行处理器，其中所述异步传输是从所耦合的多核心处理器的所述共享存储器中的位置到所耦合的多核心处理器的所述共享存储器中的另一个位置。

4.如权利要求1所述的并行处理器，其中所述异步传输是在所述外部存储器中的位置与所耦合的多核心处理器的共享存储器中的位置之间进行。

5.如权利要求4所述的并行处理器，其中耦合到所述多核心处理器的所述存储器访问硬件电路进一步被配置为：响应于存储器访问请求，向所述外部存储器发送多个请求以传输所述数据块，并且其中所述多个请求中的每一个请求包括由所述存储器访问硬件电路生成的所述数据块中相应的不同的存储器地址。

6.如权利要求1所述的并行处理器，其中耦合到所述多核心处理器的所述存储器访问硬件电路被配置为：对耦合到所述存储器访问硬件电路的所述多核心处理器的共享存储器和所述外部存储器进行读取和写入。

7.如权利要求1所述的并行处理器，其中耦合到所述多核心处理器的所述存储器访问硬件电路被配置为：将所述数据块从所述外部存储器复制到所耦合的多核心处理器的所述共享存储器。

8.如权利要求1所述的并行处理器，其中耦合到所述多核心处理器的所述存储器访问硬件电路进一步被配置为：通过将所述数据块从所述外部存储器直接写入所述多核心处理器的所述共享存储器，从所述多核心处理器的所述共享存储器直接写入所述外部存储器，从所述共享存储器中的第一位置直接写入所述共享存储器中的第二位置，或者从所述外部存储器中的第一位置直接写入所述外部存储器中的第二位置，来执行所述异步传输，其中所述共享存储器中的所述第一位置和所述第二位置能够由所述多个多核心处理器的相应的不同多核心处理器访问。

9.如权利要求1所述的并行处理器，其中耦合到所述多核心处理器的所述存储器访问硬件电路进一步被配置为：不管所述数据块的大小，响应于在单个消息中接收的所述存储器访问请求，来执行所述异步传输。

10.如权利要求1所述的并行处理器，其中耦合到所述多核心处理器的所述存储器访问硬件电路进一步被配置为：针对所述数据块中的每个子块，更新所述共享存储器中的计数器，其中所述多核心处理器包括被配置为监测所述计数器预定值的同步电路。

11.如权利要求1所述的并行处理器，其中耦合到所述多核心处理器的所述存储器访问硬件电路进一步被配置为：读取所述外部存储器中的所述数据块，并将所述数据块写入所述多个多核心处理器组中的每一个多核心处理器的共享存储器中的位置。

12.如权利要求1所述的并行处理器，其中耦合到所述多核心处理器的所述存储器访问硬件电路包括请求队列、请求生成电路和请求完成跟踪电路。

13.如权利要求12所述的并行处理器，其中所述请求队列被配置为接受张量的存储器访问请求和非张量数据块的存储器访问请求。

14.如权利要求1所述的并行处理器，其中每个所述多核心处理器包括具有不同计算能力和/或精度的多个并行处理核心，所述多个并行处理核心访问公共指令高速缓存存储器。

15.一种在包括多个多核心处理器的并行处理单元中执行的方法，所述方法包括：

通过耦合到所述多个多核心处理器中的多核心处理器的存储器访问硬件电路，从所耦合的多核心处理器接收对数据块的存储器访问请求，其中每个多核心处理器包括相应的共享存储器，其中所述存储器访问硬件电路是每个耦合到所述多核心处理器之一的多个存储器访问电路中的一个；以及

响应于所述存储器访问请求，通过所述存储器访问硬件电路在第一存储器位置和第二存储器位置之间异步传输所述数据块。

16.一种存储器访问硬件电路，包括

到外部存储器的接口；

存储器输入/输出接口，用于接收来自多核心处理器的存储器访问请求；

至少一个存储器接口，到一个或更多个其他多核心处理器和所述多核心处理器中的每一个多核心处理器处的相应的共享存储器；以及

处理管线，其被配置为：

从所述多核心处理器，接收对数据块的存储器访问请求；以及

响应于所述存储器访问请求，在第一存储器位置和第二存储器位置之间异步传输所述数据块。