CN108595258A

CN108595258A - 一种gpgpu寄存器文件动态扩展方法

Info

Publication number: CN108595258A
Application number: CN201810408687.0A
Authority: CN
Inventors: 白跃彬; 禹超; 杨海龙; 顾育豪; 栾广强; 王春阳; 陈庆斌
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-09-28
Anticipated expiration: 2038-05-02
Also published as: CN108595258B

Abstract

本发明公开了一种GPGPU寄存器文件动态扩展方法，包括：1)在编译器中对GPGPU程序指令块进行划分，并分析每个指令块的活动寄存器；2)运行时，依据资源状态对每个线程块的资源分配方式进行决策；3)当寄存器文件限制了GPGPU的线程级并行性时，将部分寄存器分配在共享内存中，从而在逻辑上增大了寄存器文件的容量；4)在每个指令块被调度执行前，通过数据预取将指令块使用的分配在共享内存中的寄存器数据读取到一个高带宽的小容量操作数缓存中。本发明能够有效提高GPGPU片上资源的使用效率，最大限度提升GPGPU的线程级并发性，充分挖掘GPGPU的性能潜力。

Description

一种GPGPU寄存器文件动态扩展方法

技术领域

本发明涉及GPGPU中片上资源优化管理和线程块调度等领域，特别是涉及一种GPGPU寄存器文件动态扩展方法。

背景技术

作为高性能计算中的重要组成部分，通用计算图形处理器(General PurposeGPU，以下简称GPGPU)主要通过其大规模的线程级并行(Thread Level Parallelism，以下简称TLP)来体现其高性能特性。在GPGPU中，指令延迟和内存访问所造成的低效主要通过大规模线程间的快速切换来进行隐藏。在执行一些线程束中高延迟的指令时，GPGPU中的线程束调度器会调度其余的线程束进行执行而避免流水线在高延迟指令上的等待。为了支持GPGPU大规模并发线程的快速切换，GPGPU的每个流多处理器(Streaming Multiprocessor，以下简称SM)中都会配备一个大容量的寄存器文件(Register File，以下简称RF)来存放所有并发线程的上下文信息。因此，为了提高GPGPU的TLP，需要对RF进行高效管理来提高其利用率，使尽可能多的线程能够分配到所需资源并运行。

为了充分利用RF、提高GPGPU的TLP，学术界和产业界开展了大量的工作。已有的具有代表性的研究成果主要分为以下两个方面：

(1)线程束级资源管理粒度

GPGPU默认采用线程块级资源管理粒度，当剩余的资源不足以满足一个线程块的资源需求时，那么将不会再有线程块被调度到SM上运行，剩余的资源也无法被充分利用，这不仅会造成资源碎片，而且还会限制GPGPU的TLP。线程束级的资源管理粒度能够在一定程度上解决资源碎片问题并提高GPGPU的TLP。当剩余的资源不足以满足一个线程块的资源需求，但是能够满足线程块中部分线程束的资源需求时，那么就将能够分配到资源的部分线程束调度到SM上运行。

(2)基于时分复用的RF重用机制

当寄存器被分配给GPGPU线程后，GPGPU线程对每一个寄存器的使用并不是从开始运行一直到运行结束，大部分寄存器的生命周期仅仅局限于GPGPU线程运行过程中的一个或多个时间段。通过分析GPGPU寄存器的生命周期，使不同的线程束能够在不同时间段使用同一个寄存器，而不是使每一个寄存器在其所属的线程运行过程中只能被一个线程使用。通过时分复用寄存器，能够增加每个时刻同时运行的线程数量，从而提高GPGPU的TLP。

综上可以看出，现有方法对RF的优化管理方法都是将RF看成一个独立的资源并仅仅对RF进行独立的优化。本发明从全局的角度提出一种GPGPU寄存器文件动态扩展方法，当由于RF的容量限制不足以调度更多的线程块到SM上运行时，将RF的功能动态扩展到SM上的共享内存(Shared Memory，以下简称SHMEM)，使线程块的部分寄存器能够分配到SHMEM，这样不仅能够充分利用RF，还能极大提高SHMEM的利用率。

发明内容

本发明技术解决问题：克服现有技术的不足和缺陷，提供一种GPGPU寄存器文件动态扩展方法，使RF的容量得到动态扩展，在充分利用RF的同时也极大提高SHMEM的利用率。

本发明的技术解决方案，一种GPGPU寄存器文件动态扩展方法，包括如下步骤：

(1)当GPGPU编译器编译GPGPU程序代码时，依据寄存器的权重由大到小对寄存器的声明顺序进行排序，然后对GPGPU程序的指令块进行划分，并对每个指令块的活动寄存器进行分析；

(2)将指令块活动寄存器的分析结果通过指令的形式插在每个指令块的前面，并生成GPGPU可执行程序；

(3)在运行时，将GPGPU可执行程序发送到GPGPU执行，GPGPU依据程序指定的参数创建一定数量的线程块(Thread Block，以下简称TB或CTA)；

(4)CTA调度器调度各个CTA到流多处理器(Streaming Multiprocessor，以下简称SM)上执行，此时，SM上的资源分配器会依据当前SM的资源状态以及每个CTA的资源需求情况来计算每个SM上可以同时容纳的CTA数量上限CTA_Upper以及下限CTA_Lower，然后对每个CTA的资源分配方式进行决策；

(5)如果一个CTA中有寄存器被分配在片上共享内存(Shared Memory，以下简称SHMEM)中，则依据一种双路分配策略在SHMEM上为CTA分配寄存器空间，并将该CTA的资源分配信息保存在寄存器分配表中；

(6)每个分配完所需资源的CTA，其中的线程束(Warp)都被放到线程束池中对应的队列中，线程束池中包含3个队列：pending、schedulable以及prefetching；初始时，当一个CTA中有寄存器被分配在SHMEM中，就将该CTA中所有线程束放在prefetching队列中，其余CTA中的线程束放在schedulable队列中；

(7)在每个时钟周期，寄存器预取器都会检查操作数缓存中是否有足够的空间来保存prefetching队列的首个线程束的下一个将要执行的指令块分配在SHMEM中的寄存器数据；如果操作数缓存具有足够的空间，就将线程束下一个指令块的分配在SHMEM中的寄存器数据预取到操作数缓存中，然后将线程束从prefetching队列移动到schedulable队列；

(8)在每个时钟周期，线程束调度器都会从schedulable队列中调度线程束的指令去执行；

(9)当一条指令被调度时，操作数收集器(Operand Collector)就会为其分配一个收集单元(Collector Unit)来读取操作数；

(10)在读取操作数过程中，收集单元将线程束物理编号Warp_ID和需要的寄存器索引号Reg发送到寄存器文件(Register File，以下简称RF)中的Bank仲裁器，Bank仲裁器判断所需要的寄存器分配在RF还是SHMEM中；

(11)如果判断寄存器分配在RF中，则直接从RF中读取寄存器数据；否则，从操作数缓存中读取对应的寄存器数据；

(12)当一条指令对应的所有操作数都读取到收集单元中，就将这个发送到SIMD单元执行；

(13)当一个线程束的一个指令块执行完成后，就将该线程束从schedulable队列移动到prefetching队列；

(14)重复步骤(4)至(13)直至GPGPU程序执行完成。

附图说明

图1是GPGPU现有的和本发明提出的资源分配对比原理图；

图2是本发明提出的GPGPU寄存器文件动态扩展的应用实例图；

图3是寄存器分配“垂直”策略示意图；

图4是共享内存的双路分配策略示意图；

图5是寄存器文件中Bank仲裁器的判断逻辑图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，如图1所示(假设每个寄存器大小为4字节)，将GPGPU的RF功能扩展到SHMEM，使部分寄存器能够保存在SHMEM中，在逻辑上提高RF的容量，使更多的线程能够在GPGPU上运行，即提高了RF的利用率，也提高了SHMEM的利用率；此外，为了保证分配在SHMEM上的寄存器访问效率，采用一种预取机制，将需要的寄存器数据从SHMEM读取到一个高带宽小容量的操作数缓存中。

本发明的应用实例如图2所示，首先在编译GPGPU程序时，对GPGPU程序指令进行分块，并分析每个指令块的活动寄存器；在GPGPU程序执行过程中，当GPGPU的RF由于容量有限而限制了GPGPU的TLP时，通过分析GPGPU资源状态以及GPGPU程序的资源需求情况，将部分线程块的部分寄存器分配到未被充分利用的SHMEM中，从而在逻辑上增大RF的容量，使更多的线程块由于能够分配到所需的资源而被调度到SM上执行。当寄存器数据被保存在SHMEM中时，为了在读取寄存器的阶段，减小SHMEM与RF在带宽上的差异，在指令块执行之前，将线程块需要的分配在SHMEM中的寄存器预先读取到一个高带宽的小容量操作数缓存中，在指令块执行过程中，所有的寄存器都从RF或操作数缓存中读取。通过以上措施，充分利用GPGPU资源，提高了TLP的同时又避免了流水线阻塞。

如图2所示，本发明GPGPU寄存器文件动态扩展方法包括以下步骤：

(1)当GPGPU编译器编译GPGPU程序代码时，执行以下几步操作：

(1-1)依据寄存器的权重由大到小对寄存器的声明顺序进行排序，其中每个寄存器的权重是编译器通过计算每个寄存器的引用次数来估算寄存器的权重大小；

(1-2)对GPGPU程序的指令块进行划分，指令块的划分满足以下几个原则：

(1-2-1)当遇到内存栅栏或线程同步指令时，结束一个指令块；

(1-2-2)当遇到高延迟指令时，结束一个指令块；

(1-2-3)每一个指令块包括至少Min_Reg个活动寄存器，Min_Reg的值通过编译器设置；

(1-2-4)每一个指令块最多包括C/τ个活动寄存器，其中C为操作数缓存容量，τ为每个CTA分配在SHMEM中的寄存器的比例上限；

(1-2-5)每一个指令块不能跨越一个基本指令块；

(1-3)对划分的每个指令块的活动寄存器进行统计分析；

(3)在运行时，将GPGPU可执行程序发送到GPGPU上执行，GPGPU依据程序指定的参数创建一定数量的线程块(Thread Block，以下简称TB或CTA)；

(4)CTA调度器调度各个CTA到流多处理器(Streaming Multiprocessor，以下简称SM)上执行，此时，SM上的资源分配器会依据当前SM的资源状态以及每个CTA的资源需求情况来计算每个SM上可以同时容纳的CTA数量上限为CTA数量下限为其中R和S分别为每个SM上的总RF容量和总SHMEM容量，R_CTA和S_CTA分别为每个CTA需要的RF容量和SHMEM容量；然后对每个CTA的资源分配方式进行决策，具体决策步骤包括：

(4-1)首先计算出每个SM中所有寄存器都可以分配在RF中的CTA数量CTA_RF以及寄存器既有分配在RF中又有分配在SHMEM中的CTA数量CTA_Mix，CTA_RF与CTA_Mix的和就是每个SM中可以同时容纳的最大CTA数量，其中，CTA_RF和CTA_Mix的具体计算方法如下：

(4-1-1)如果CTA_Lower≥CTA_Upper，则

(4-1-2)如果则

(4-1-3)如果则

(4-2)根据步骤(4-1)确定的CTA_RF和CTA_Mix，如果当前SM上的CTA数量小于CTA_RF，则将下一个CTA的所有寄存器分配在RF中，并称该CTA属于类型Type_RF，否则将其部分寄存器分配在SHMEM中，并称该CTA属于类型Type_Mix；

(4-3)在确定哪些CTA中的部分寄存器需要分配在SHMEM中后，将依据一种如图3所示的“垂直”的寄存器分配策略来使Type_Mix类型CTA中具有相同索引号的寄存器都分配在RF中或SHMEM中，其中基于“垂直”策略的寄存器分配具体步骤包括：

(4-3-1)计算出Type_Mix类型CTA中要分配在SHMEM中的寄存器起始索引号

(4-3-2)在计算出Start_Reg后，将Type_Mix类型CTA的所有寄存器索引号小于Start_Reg的寄存器都分配在RF中，将所有寄存器索引号大于等于Start_Reg的寄存器分配在SHMEM中；

(5)如果一个CTA中有寄存器被分配在片上共享内存(Shared Memory，以下简称SHMEM)中，则依据一种如图4所示的双路分配策略在SHMEM上为CTA分配寄存器空间，并将该CTA的资源分配信息保存在寄存器分配表中；其中，双路分配策略具体为分别从上到下以及从下到上两个方向来为CTA分配共享内存空间以及寄存器空间，其中对共享内存空间的管理方法采用SHMEM的默认方法，在对寄存器空间的管理中，为每个Type_Mix类型CTA的寄存器空间提供一个SBR寄存器来存储SHMEM为Type_Mix类型CTA分配的寄存器空间的基地址；SBR寄存器值的具体计算方法为：SBR＝S-(CTA_ID-Start_CTA)×(Max_Reg-Start_Reg+1)×Warps_CTA×128；其中，Start_CTA的值等于CTA_RF，表示Type_Mix类型的CTA的起始物理编号，Max_Reg表示CTA中寄存器的最大索引号，Warps_CTA表示每个CTA中的线程束数量，128表示线程束中32个线程的同一索引号的寄存器需要128字节的空间进行存储；寄存器分配表包含2个字段：CTA在SM上的物理编号CTA_ID和在SHMEM上分配的寄存器空间的基地址SBR；

(6)每个分配完所需资源的CTA，其中的线程束(Warp)都被放到线程束池中对应的队列中，线程束池中包含3个队列：pending、schedulable以及prefetching，其中pending队列中存放的是被高延迟指令阻塞的线程束，schedulable队列中存放的是可以被线程束调度器调度的线程束，prefetching队列中存放的是那些下一个要执行的指令块中要使用分配在了SHMEM中的寄存器的线程束；初始时，当一个CTA中有寄存器被分配在SHMEM中，就将该CTA中所有线程束放在prefetching队列中，其余CTA中的线程束放在schedulable队列中；

(7)在每个时钟周期，寄存器预取器都会检查操作数缓存中是否有足够的空间来保存prefetching队列的首个线程束的下一个将要执行的指令块分配在SHMEM中的寄存器数据；操作数缓存是一种类似RF的多Bank的小容量的片上存储，用来临时存放分配在SHMEM上的寄存器数据，从而加快从SHMEM访问寄存器数据速度；如果操作数缓存具有足够的空间，就将线程束下一个指令块的分配在SHMEM中的寄存器数据预取到操作数缓存中，然后将线程束从prefetching队列移动到schedulable队列，其中寄存器数据预取包括如下几个步骤：

(7-1)依据寄存器分配表中的信息计算要预取的寄存器在SHMEM上的基地址Address＝SBR+(Max_Reg-Start_Reg+1)×(Warp_ID mod W arps_CTA)×128+(Reg-Start_Reg)×128，其中Reg为要预取的寄存器索引号，Warp_ID为当前要预取的寄存器属于的线程束在SM上的物理编号；

(7-2)根据以上基地址Address，连续从SHMEM中地址Address处连续读取128字节的数据，然后保存到操作数缓存中；

(10)在读取操作数过程中，收集单元将线程束物理编号Warp_ID和需要的寄存器索引号Reg发送到寄存器文件(Register File，以下简称RF)中的Bank仲裁器，如图5所示，Bank仲裁器判断所需要的寄存器分配在RF还是SHMEM中，具体方法如下：

(10-1)首先依据线程束物理编号Warp_ID以及每个CTA中线程束数量Warps_CTA计算该线程束所属的CTA物理编号

(10-2)计算出CTA_ID后，如果Start_CTA大于CTA_ID，表示该寄存器分配在RF中，并将该寄存器数据访问请求发送到RF，否则执行下一步；

(10-3)如果Start_CTA不大于CTA_ID，并且Reg不小于Start_Reg，表示该寄存器分配在RF中，并将该寄存器数据访问请求发送到RF，否则，该寄存器访问请求被发送到操作数缓存；

(14)重复步骤(4)至(13)直至GPGPU程序执行完成。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种GPGPU寄存器文件动态扩展方法，其特征在于，包括以下步骤：

(14)重复步骤(4)至(13)直至GPGPU程序执行完成。

2.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(1)中，依据寄存器的权重由大到小对寄存器的声明顺序进行排序，其中每个寄存器的权重是编译器通过计算每个寄存器的引用次数来估算寄存器的权重大小。

3.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(1)中，对GPGPU程序的指令块进行划分，具体满足以下原则：

(1)当遇到内存栅栏或线程同步指令时，结束一个指令块；

(2)当遇到高延迟指令时，结束一个指令块；

(3)每一个指令块包括至少Min_Reg个活动寄存器，Min_Reg的值通过编译器设置；

(4)每一个指令块最多包括C/τ个活动寄存器，其中C为操作数缓存容量，τ为每个CTA分配在SHMEM中的寄存器的比例上限；

(5)每一个指令块不能跨越一个基本指令块。

4.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(4)中，计算每个SM上可以同时容纳的CTA数量上限为CTA数量下限为其中R和S分别为每个SM上的总RF容量和总SHMEM容量，R_CTA和S_CTA分别为每个CTA需要的RF容量和SHMEM容量。

5.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(4)中，对每个CTA的资源分配方式进行决策，具体包括如下步骤：

(1)首先计算出每个SM中所有寄存器都可以分配在RF中的CTA数量CTA_RF以及寄存器既有分配在RF中又有分配在SHMEM中的CTA数量CTA_Mix，CTA_RF与CTA_Mix的和就是每个SM中可以同时容纳的最大CTA数量，其中，CTA_RF和CTA_Mix的具体计算方法如下：

(1-1)如果CTA_Lower≥CTA_Upper，则

(1-2)如果则

(1-3)如果则

(2)根据步骤(1)确定的CTA_RF和CTA_Mix，如果当前SM上的CTA数量小于CTA_RF，则将下一个CTA的所有寄存器分配在RF中，并称该CTA属于类型Type_RF，否则将其部分寄存器分配在SHMEM中，并称该CTA属于类型Type_Mix；

(3)在确定哪些CTA中的部分寄存器需要分配在SHMEM中后，将依据一种如图3所述的“垂直”的寄存器分配策略来使Type_Mix类型CTA中具有相同索引号的寄存器都分配在RF中或SHMEM中。

6.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(5)中，依据一种双路分配策略在SHMEM上为CTA分配寄存器空间，如图4所示，具体为分别从上到下以及从下到上两个方向来为CTA分配共享内存空间以及寄存器空间，其中对共享内存空间的管理方法采用SHMEM的默认方法，在对寄存器空间的管理中，为每个Type_Mix类型CTA的寄存器空间提供一个SBR寄存器来存储SHMEM为Type_Mix类型CTA分配的寄存器空间的基地址。

7.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(5)中，将CTA的资源分配信息保存在寄存器分配表中，其中寄存器分配表包含2个字段：CTA在SM上的物理编号CTA_ID和在SHMEM上分配的寄存器空间的基地址SBR。

8.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(6)中，线程束池中包含3个队列：pending、schedulable以及prefetching，其中pending队列中存放的是被高延迟指令阻塞的线程束，schedulable队列中存放的是可以被线程束调度器调度的线程束，prefetching队列中存放的是那些下一个要执行的指令块中要使用分配在了SHMEM中的寄存器的线程束；。

9.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(7)中，操作数缓存是一种类似RF的多Bank的小容量的片上存储，用来临时存放分配在SHMEM上的寄存器数据，从而加快从SHMEM访问寄存器数据速度。

10.根据权利要求5所述的一种“垂直”的寄存器分配策略，其特征在于，基于“垂直”策略的寄存器分配具体步骤包括：

(1)计算出Type_Mix类型CTA中要分配在SHMEM中的寄存器起始索引号Start_Reg:

(2)在计算出Start_Reg后，将Type_Mix类型CTA的所有寄存器索引号小于Start_Reg的寄存器都分配在RF中，将所有寄存器索引号大于等于Start_Reg的寄存器分配在SHMEM中。

11.根据权利要求6所述的为每个Type_Mix类型CTA的寄存器空间提供一个SBR寄存器来存储SHMEM为Type_Mix类型CTA分配的寄存器空间的基地址，SBR寄存器值的具体计算方法为：SBR＝S-(CTA_ID-Start_CTA)×(Max_Reg-Start_Reg+1)×Warps_CTA×128；其中，Start_CTA的值等于CTA_RF，表示Type_Mix类型的CTA的起始物理编号，Max_Reg表示CTA中寄存器的最大索引号，Warps_CTA表示每个CTA中的线程束数量，128表示线程束中32个线程的同一索引号的寄存器需要128字节的空间进行存储。

12.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(7)中，将线程束下一个指令块的分配在SHMEM中的寄存器数据预取到操作数缓存，具体包括如下步骤：

(1)依据寄存器分配表中的信息计算要预取的寄存器在SHMEM上的基地址Address＝SBR+(Max_Reg-Start_Reg+1)×(Warp_IDmod Warps_CTA)×128+(Reg-Start_Reg)×128，其中Reg为要预取的寄存器索引号，Warp_ID为当前要预取的寄存器属于的线程束在SM上的物理编号；

(2)根据以上基地址Address，连续从SHMEM中地址Address处连续读取128字节的数据，然后保存到操作数缓存中。

13.根据权利要求1所述的GPGPU寄存器文件动态扩展方法，其特征在于：所述步骤(10)中，Bank仲裁器判断所需要的寄存器分配在RF还是SHMEM中，如图5所示，具体方法如下：

(1)首先依据线程束物理编号Warp_ID以及每个CTA中线程束数量Warps_CTA计算该线程束所属的CTA物理编号

(2)计算出CTA_ID后，如果Start_CTA大于CTA_ID，表示该寄存器分配在RF中，并将该寄存器数据访问请求发送到RF，否则执行下一步；

(3)如果Start_CTA不大于CTA_ID，并且Reg不小于Start_Reg，表示该寄存器分配在RF中，并将该寄存器数据访问请求发送到RF，否则，该寄存器访问请求被发送到操作数缓存。