CN110532091B

CN110532091B - 基于图形处理器的图计算边向量负载平衡方法及装置

Info

Publication number: CN110532091B
Application number: CN201910763962.5A
Authority: CN
Inventors: 黄立波; 郭辉; 郑重; 郭维; 雷国庆; 王俊辉; 隋兵才; 孙彩霞; 王永文; 倪晓强
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2022-02-22
Anticipated expiration: 2039-08-19
Also published as: CN110532091A

Abstract

本发明公开了一种基于图形处理器的图计算边向量负载平衡方法及装置，本发明方法包括定期找出所有SM核需要处理的边数据中的最多的和最少的数据量并计算差值，且差值超过预设阈值两个SM核的状态分别设置为等待捐赠负载状态和接收负载捐赠的状态，图形处理器的控制处理器向等待捐赠负载的SM核发送负载平衡请求，且在收到该SM核返回的捐赠数据的起始索引和终止索引后发送给接收负载捐赠的SM核，负载接收方记录作为待处理的边数据。本发明能够高效地实现图形处理器的流处理器核间的面向图计算边向量负载平衡，具有硬件结构简单、对程序员编程透明的优点，不需要对原有的程序进行修改即可完成所有的负载平衡任务。

Description

基于图形处理器的图计算边向量负载平衡方法及装置

技术领域

本发明涉及图形处理器的负载平衡技术，具体涉及一种基于图形处理器的图计算边向量负载平衡方法及装置。

背景技术

现代的微处理器体系结构为实现更高的吞吐率同时保持良好的能效比，不断地提高微处理器的并行处理能力。图形处理器（GPU）是目前并行处理能力最强的计算平台，其在使用较低的能耗的同时还能提供巨大的计算能力。GPU的编程语言允许程序员使用成百上千的线程并行执行应用程序，比如，CUDA和OpenCL。每个线程会按照单指令多线程（SIMT）的编程模型执行同一段内核代码。这种SIMT体系结构提供了巨大的并行计算能力，并为在GPU上加速图计算算法创造了条件。目前，前期的丰富研究已经针对BFS、SSSP、BC、STCON 等图计算算法在GPU上的性能提出了相应的优化算法。还有一部分工作致力于构建高级的面向GPU的软件图计算编程框架库，这些图计算编程框架库既可以提供高性能的并行计算，也简化了图计算应用的编程实现。

然而，实际上，使用GPU加速图计算并且获得显著的性能提升并不容易。图计算算法的GPU并行化会由于SIMT的负载平衡问题而导致GPU并行效率下降。尽管许多研究工作提出软件方法平衡每个GPU线程处理的活跃节点数量，但是由于节点度分布不均导致每个线程需要计算的边的数量并不相同，因此负载平衡的问题仍然存在。

前期研究工作提出许多平衡线程间边操作的策略来解决边向量负载不平衡问题。例如，Load-Balanced Partitioning将各个节点邻居列表中的边组合成长度相同的数据块，并将数据块分配给各个线程块执行。MapGraph采用基于节点度的动态调度策略对BFS、SSSP这类应用取得了较好的效果。然而，现已提出的软件负载平衡策略有一些共同的缺点：1）这些策略需要修改源程序代码并增加额外复杂的代码来实现边向量负载平衡，这样会使得不熟悉GPU编程的用户无法使用，提高了使用门槛；2）由于使用复杂的边向量负载平衡策略，因此需要大量的时间用来进行预处理计算，对于节点度均匀分布的图，这部分消耗的时间并没有获得较高的收益并且性能会比简单的负载平衡策略下降很多；（3）软件边向量负载平衡策略带来的额外计算开销非常大，导致执行的指令数显著增加。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于图形处理器的图计算边向量负载平衡方法及装置，本发明能够高效地实现图形处理器（GPU）流处理器核（Streaming Multiprocessor, SM）间的面向图计算边向量负载平衡，具有硬件结构简单、对程序员编程透明的优点，不需要对原有的程序进行修改即可完成所有的负载平衡任务。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于图形处理器的图计算边向量负载平衡方法，所述图形处理器的控制处理器进行负载平衡的调度步骤包括：

1）图形处理器的控制处理器定期找出所有SM核需要处理的边数据中的最多的和最少的数据量并计算差值；

2）图形处理器的控制处理器判断计算得到的差值是否超过预设阈值，如果尚未超过预设阈值，则结束并退出；否则跳转执行下一步；

3）图形处理器的控制处理器选择需要进行负载平衡的两个SM核，将两个SM核的状态分别设置为等待捐赠负载状态和接收负载捐赠的状态，并计算需要捐赠的边向量的数据量；

4）图形处理器的控制处理器向状态为等待捐赠负载的SM核发送负载平衡请求，且在收到该SM核返回的捐赠数据的起始索引和终止索引后跳转执行下一步；

5）图形处理器的控制处理器将捐赠数据的起始索引和终止索引发送给状态为接收负载捐赠的SM核，接收负载捐赠的SM核作为负载接收方记录这组捐赠数据的起始索引和终止索引作为待处理的边数据，完成边向量的负载平衡。

优选地，步骤3）中计算需要捐赠的边向量的数据量时，需要捐赠的边向量的数据量为需要进行负载平衡的两个SM核的需要处理的所有边的数量的差值的二分之一。

优选地，步骤4）中图形处理器的控制处理器向状态为等待捐赠负载的SM核发送负载平衡请求后，状态为等待捐赠负载的SM核的执行步骤包括：

S1）从本地所有需要处理的边数据表项中选取需要捐赠的边向量的数据量的数据作为捐赠数据，根据捐赠数据的数据量更新本地被捐赠边数据表项的索引信息，生成捐赠数据的起始索引和终止索引；

S2）将该捐赠数据的起始索引和终止索引发送给图形处理器的控制处理器。

优选地，步骤S1）的详细步骤包括：

S1.1）在本地的邻接链表工作表ALWT查找具有最大邻居数量的一个表项，所述邻接链表工作表用于记录当前SM核需要处理的边向量数据的索引范围，其包含三项内容：起始索引SIndex、终止索引EIndex以及数据状态Status；

S1.2）从查找得到的表项中选择需要捐赠的边向量的数据量的数据作为捐赠数据；

S1.3）根据查找得到的表项的原始起始索引加上捐赠数据的数据量得到新的起始索引，并更新查找得到的表项的起始索引为新的起始索引；并将查找得到的表项的原始起始索引作为捐赠数据的起始索引、将查找得到的表项的原始起始索加上捐赠数据的数据量作为捐赠数据的终止索引，从而生成捐赠数据的起始索引和终止索引。

优选地，步骤4）中图形处理器的控制处理器向状态为等待捐赠负载的SM核发送负载平衡请求以及收到该SM核返回的捐赠数据的起始索引和终止索引具体是通过SM核的控制寄存器实现的，每一个SM核的控制寄存器包括：边向量长度R_EFS、负载平衡控制寄存器R_BC、负载平衡状态寄存器R_BS以及两个负载平衡工作寄存器R_BW0和R_BW1；边向量长度R_EFS用于记录SM核需要处理的所有边的数量，负载平衡控制寄存器R_BC用于记录SM核等待捐赠负载状态、接收负载捐赠的状态以及接收边数据信息的状态，负载平衡状态寄存器R_BS用于记录SM核的发送边数据信息的状态，负载平衡工作寄存器R_BW0用于记录捐赠数据的起始索引的值，负载平衡工作寄存器R_BW1用于记录捐赠数据的终止索引的值。

本发明还提供一种基于图形处理器的图计算边向量负载平衡装置，该图计算边向量负载平衡装置被编程以执行本发明前述基于图形处理器的图计算边向量负载平衡方法的步骤。

本发明还提供一种图形处理器，包括控制处理器和多个SM核，该控制处理器被编程以执行本发明前述基于图形处理器的图计算边向量负载平衡方法的步骤。

和现有技术相比，本发明基于图形处理器的图计算边向量负载平衡方法具有下述优点：

1、高效的面向图计算的SM间边向量负载平衡策略。本发明基于图形处理器的图计算边向量负载平衡方法减少了软件负载平衡策略额外执行指令带来的开销，高效地平衡了各个SM核的计算负载，提高了GPU计算资源的利用率以及吞吐率。

2、硬件结构简单。本发明基于图形处理器的图计算边向量负载平衡方法利用了GPU控制处理器以及原有的片上网络来实现SM核间负载平衡。本发明基于图形处理器的图计算边向量负载平衡方法为了管理执行图计算任务的SM核间负载平衡，仅需要为每个SM核都增加了一些控制寄存器，并且为控制处理器增加了监控和管理控制寄存器的功能。

3、对程序员编程透明。本发明基于图形处理器的图计算边向量负载平衡方法不需要对原有的程序进行修改，完全由硬件结构完成所有的负载平衡任务。

本发明基于图形处理器的图计算边向量负载平衡装置以及图形处理器具有与本发明基于图形处理器的图计算边向量负载平衡方法相同的技术效果，在此不再赘述。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为应用本发明实施例的GPU结构示意图。

图3为本发明实施例中执行边向量负载平衡t0时刻的数据流示意图。

图4为本发明实施例中执行边向量负载平衡t1时刻的数据流示意图。

图5为本发明实施例中执行边向量负载平衡t2时刻的数据流示意图。

具体实施方式

如图1所示，本实施例基于图形处理器的图计算边向量负载平衡方法包括图形处理器的控制处理器进行负载平衡的调度步骤，调度步骤包括：

本实施例中，步骤3）中计算需要捐赠的边向量的数据量时，需要捐赠的边向量的数据量为需要进行负载平衡的两个SM核的需要处理的所有边的数量的差值的二分之一。

如图1所示，步骤4）中图形处理器的控制处理器向状态为等待捐赠负载的SM核发送负载平衡请求后，状态为等待捐赠负载的SM核的执行步骤包括：

本实施例中，步骤S1）的详细步骤包括：

S1.2）从查找得到的表项中选择需要捐赠的边向量的数据量的数据作为捐赠数据，所述需要捐赠的边向量的数据量为需要进行负载平衡的两个SM核的需要处理的所有边的数量的差值的二分之一；

如图2所示，本实施例步骤4）中图形处理器的控制处理器向状态为等待捐赠负载的SM核发送负载平衡请求以及收到该SM核返回的捐赠数据的起始索引和终止索引具体是通过SM核的控制寄存器实现的，每一个SM核的控制寄存器包括：边向量长度R_EFS、负载平衡控制寄存器R_BC、负载平衡状态寄存器R_BS以及两个负载平衡工作寄存器R_BW0和R_BW1；边向量长度R_EFS用于记录SM核需要处理的所有边的数量，负载平衡控制寄存器R_BC用于记录SM核等待捐赠负载状态、接收负载捐赠的状态以及接收边数据信息的状态，负载平衡状态寄存器R_BS用于记录SM核的发送边数据信息的状态，负载平衡工作寄存器R_BW0用于记录捐赠数据的起始索引的值，负载平衡工作寄存器R_BW1用于记录捐赠数据的终止索引的值。边向量负载平衡策略使用边向量长度寄存器R_EFS来记录SM核需要处理的所有边的数量，这里所有边的数据指的是所有已经载入到共享存储的边的数量与ALWT中所有边的数量。一个减少边向量负载平衡开销的重要策略是在SM核间移动ALWT中边的元数据来实现负载平衡。这个策略可以避免在两个SM核之间移动大量已经载入到共享存储的边的数据信息。边的平衡值由捐赠边数据的SM核和接收边数据的SM核的R_EFS值的差值决定。

图形处理器包括控制处理器和SM核，SM核中包括控制寄存器，邻接链表工作表ALWT以及负载平衡处理单元。现有GPU的控制处理器负责给SM核分配内核函数执行任务以及管理硬件资源。本实施例对控制处理器的功能进行扩展，增加了控制管理SM核间负载平衡的功能。控制寄存器主要负责记录负载平衡单元的工作状态、本地负载情况以及执行负载平衡时的信息交互。邻接链表工作表ALWT负责记录当前SM核需要处理的边向量数据的索引范围。负载平衡处理单元负责处理来自控制处理器的负载平衡请求。

如图3所示，在时间为t0（初始时刻）时，SM核♯0的边向量长度R_EFS的值为1024，SM核♯1的边向量长度R_EFS的值为128，本实施例中需要捐赠的边向量的数据量为需要进行负载平衡的两个SM核的需要处理的所有边的数量的差值的二分之一，即(1024-128)/2=448。

如图4所示，在时间为t1（开始负载均衡）时，控制处理器会将SM核♯0的寄存器R_BC的状态设置为正在捐赠边数据的状态（ED），并将SM核♯1的寄存器RBC设置为等待接收数据状态（ERS）后开始执行负载平衡策略。为了简化硬件设计，每一次负载平衡的调整间隔只允许邻接链表工作表ALWT中的一项进行传输以响应负载平衡请求。捐赠边数据的SM核♯0会找出具有最大邻居数量的ALWT项，如图3中所示为表中第二项。

如图5所示，在时间为t2（完成负载均衡）时，SM核♯0的邻接链表工作表ALWT的第二项会被修改，其中这一项中起始索引增加到1752(1304+448)。而将448条边的数据信息移动到SM核♯1，需要将原来的起始索引（1304）以及新的起始索引（1752）分别拷贝到寄存器R_BW0和R_BW1。然后，控制处理器将这两个值拷贝到SM核♯1中的寄存器R_BW0和R_BW1，并将其状态寄存器RBC设置为正在接收边数据信息的状态（ER）。SM核♯1的核间负载平衡单元会在其邻接链表工作表ALWT中增加新的一项，并且该项的起始索引和终止索引的值分别等于寄存器R_BW0和R_BW1的值。通过这种方式，448条边的数据信息被转移到SM核♯1进行处理，从而达到负载平衡的目的。

综上所述，本实施例基于图形处理器的图计算边向量负载平衡方法在不显著增加图形处理器芯片面积和设计复杂度的情况下，通过拓展GPU控制处理器的功能实现SM核间计算负载的平衡。相比于现有负载平衡策略，该负载平衡方法及装置可以更加高效地平衡各SM核的计算负载，提高GPU并行计算的效率，从而提高GPU处理图计算问题的性能。

此外，本实施例还提供一种基于图形处理器的图计算边向量负载平衡装置，该图计算边向量负载平衡装置被编程以执行本实施例前述基于图形处理器的图计算边向量负载平衡方法的步骤。此外，参见图2，本实施例还提供一种图形处理器，包括控制处理器和多个SM核，该控制处理器被编程以执行本实施例前述基于图形处理器的图计算边向量负载平衡方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于图形处理器的图计算边向量负载平衡方法，其特征在于，所述图形处理器的控制处理器进行负载平衡的调度步骤包括：

5）图形处理器的控制处理器将捐赠数据的起始索引和终止索引发送给状态为接收负载捐赠的SM核，接收负载捐赠的SM核作为负载接收方记录这组捐赠数据的起始索引和终止索引作为待处理的边数据，完成边向量的负载平衡；

步骤4）中图形处理器的控制处理器向状态为等待捐赠负载的SM核发送负载平衡请求后，状态为等待捐赠负载的SM核的执行步骤包括：

S2）将该捐赠数据的起始索引和终止索引发送给图形处理器的控制处理器；

步骤S1）的详细步骤包括：

2.根据权利要求1所述的基于图形处理器的图计算边向量负载平衡方法，其特征在于，步骤3）中计算需要捐赠的边向量的数据量时，需要捐赠的边向量的数据量为需要进行负载平衡的两个SM核的需要处理的所有边的数量的差值的二分之一。

3.根据权利要求1所述的基于图形处理器的图计算边向量负载平衡方法，其特征在于，步骤4）中图形处理器的控制处理器向状态为等待捐赠负载的SM核发送负载平衡请求以及收到该SM核返回的捐赠数据的起始索引和终止索引具体是通过SM核的控制寄存器实现的，每一个SM核的控制寄存器包括：边向量长度R_EFS、负载平衡控制寄存器R_BC、负载平衡状态寄存器R_BS以及两个负载平衡工作寄存器R_BW0和R_BW1；边向量长度R_EFS用于记录SM核需要处理的所有边的数量，负载平衡控制寄存器R_BC用于记录SM核等待捐赠负载状态、接收负载捐赠的状态以及接收边数据信息的状态，负载平衡状态寄存器R_BS用于记录SM核的发送边数据信息的状态，负载平衡工作寄存器R_BW0用于记录捐赠数据的起始索引的值，负载平衡工作寄存器R_BW1用于记录捐赠数据的终止索引的值。

4.一种基于图形处理器的图计算边向量负载平衡装置，其特征在于，该图计算边向量负载平衡装置被编程以执行权利要求1～3中任意一项所述基于图形处理器的图计算边向量负载平衡方法的步骤。

5.一种图形处理器，包括控制处理器和多个SM核，其特征在于，该控制处理器被编程以执行权利要求1～3中任意一项所述基于图形处理器的图计算边向量负载平衡方法的步骤。