CN102929724B

CN102929724B - 基于异构众核处理器的多级访存方法、离散访存方法

Info

Publication number: CN102929724B
Application number: CN201210441328.8A
Authority: CN
Inventors: 陈德训; 尹万旺; 周明忠; 孙唯哲
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2012-11-06
Filing date: 2012-11-06
Publication date: 2016-04-13
Anticipated expiration: 2032-11-06
Also published as: CN102929724A

Abstract

本发明公开了一种基于异构众核处理器的多级访存方法及离散访存方法。所述多级访存方法包括：从核读入第一次计算所需的数据；除第一次之外，从核在进行本次数据计算的同时，读入下一次计算所需的数据；除最后一次之外，从核在进行本次数据计算的同时，写回上一次计算结果数据；从核写回最后一次计算结果数据。所述离散访存方法包括：在从核上调整数组的存储顺序，将离散存储的数组调整为连续存储的数组；从核以多级访存方法，对所述数组进行通信读入数据、计算和通信写回数据。本发明实现了有效计算开销和多级存储资源访问开销之间最大限度的隐藏，提高了多级访存效率，充分发挥了从核的性能效率，从而提高科学计算课题的计算效率。

Description

基于异构众核处理器的多级访存方法、离散访存方法

技术领域

本发明涉及计算机领域，尤其涉及一种基于异构众核处理器的多级访存方法及基于异构众核处理器的离散访存方法。

背景技术

近年来，高性能计算软件获得飞速发展，尤其是各种科学计算软件。这些科学计算软件分布于天文、气象、地球模拟、航空航天、流体力学、基础科学研究等等各个学科领域，所研究的问题也越来越复杂，对高性能计算资源要求越来越高。科学计算软件取得巨大成功的同时，也对当今的高性能计算机提出了巨大的挑战。

众核处理器由于其更高的并行执行性能和较低的平均功耗而日渐受到人们的青睐，成为当前处理器技术研究和发展的一个重要方向。然而，由于众核体系架构中具有复杂的多级存储资源，对这些存储资源的管理和巨大的访问开销限制了众核处理器在高性能计算领域的推广。到目前为止，众核处理器已经在高并行度的图像处理等领域得到了认可，而对于其它高性能计算应用方面，众核处理器仍然面临着巨大的挑战。

此外，在科学计算软件中，不可避免地对多维数组进行访问操作，也无法避免离散访存。大量离散访存的存在会极大的制约科学问题的计算速度。因此如何优化和绕开离散访存也是高性能科学计算软件所必须面临的挑战。

在目前的众核技术方案中，未采取任何措施去降低协处理器对多级存储资源的访问的开销，而是以协处理器的“量”来取胜，即将原来科学计算课题“总计算开销”转化为许多份并行的“协处理器计算开销+协处理多级存储资源访问开销”。这样对于每个并行任务而言，都存在访存过程和计算过程，且二者不能互相隐藏。当计算并行域循环变量不是远大于协处理器的数量(一般为数百个)时，就会造成协处理计算资源的浪费，且由于每个协处理器上运行的线程数不远大于1，则相应的协处理器效率也不高。

另一方面，目前及可期的将来，大多数计算课题中的计算密集的并行域往往由多重循环构成。因外，这类科学问题也不可避免地存在离散访存。因此，在传统处理器构成的计算平台上，离散访问带来的性能降低是根本无法回避的。

据目前可查文献和已知的技术方案，在面向更广泛的科学计算课题时，现有技术方案中，计算资源未能获得充分利用，造成部分计算资源的闲置。而已经使用的协处理器的效率也得不到充分的发挥。

另外在目前技术方案中，面对科学计算中由于离散访存所带来的性能下降问题未能提供任何有效的解决方案。

发明内容

本发明所要解决的技术问题是异构众核体系结构下面向多级存储资源时访存效率低，以及由于低效率的访存而导致的计算资源未充分利用，协处理器的性能无法充分发挥的问题。

为了解决上述问题，本发明提供了一种基于异构众核处理器的多级访存方法，包括：

从核读入第一次计算所需的数据；

除第一次之外，从核在进行本次数据计算的同时，读入下一次计算所需的数据；

除最后一次之外，从核在进行本次数据计算的同时，写回上一次计算结果数据；

从核写回最后一次计算结果数据。

可选的，在从核读入计算所需的数据之前，还包括：发起DMA读入数据请求；

在从核写回计算结果数据之前，还包括：发起DMA写回数据请求。

可选的，在从核进行本次数据计算之前，还包括：等待本次计算所需数据读入加载完毕。

可选的，在从核发起DMA读入第一次数据请求之前还包括：

进行初始化。

可选的，所述初始化包括：并行任务分配和从核任务绑定。

可选的，在所述从核读入第一次计算所需的数据之前还包括：

在从核的局部存储空间上申请2倍于通信数据大小的存储空间，以存放2份同样大小的数据；分别存放所述2份同样大小的数据的存储空间互为对方缓冲。

本发明还提供了一种基于异构众核处理器的离散访存方法，包括：

在从核上调整数组的存储顺序，将离散存储的数组调整为连续存储的数组；

从核以如上述的基于异构众核处理器的多级访存方法，对所述数组进行通信读入数据、计算和通信写回数据。

可选的，在从核对所述数组进行通信读入数据、计算和通信写回数据之后，还包括：

在从核上再次调整数组的存储顺序，将连续存储的数组调整为原来离散存储的数组。

可选的，所述在从核上调整数组的存储顺序，将离散存储的数组调整为连续存储的数组包括：

每隔一个循环变量的维度，读入一个所述离散存储的数组的元素；

将读入的元素连续存储于第一临时数组；

将所述第一临时数组转置赋值，变换为第二临时数组；

将所述第二临时数据连续写回，获得所述连续存储的数组。

将读入的元素连续存储于第一临时数组；

将所述第一临时数组转置赋值，变换为第二临时数组；

将所述第二临时数据连续写回，获得所述连续存储的数组；

所述在从核上再次调整数组的存储顺序，将连续存储的数组调整为原来离散存储的数组为：与所述在从核上调整数组的存储顺序，将离散存储的数组调整为连续存储的数组相逆的过程。

与现有技术相比，本发明的技术方案具有以下优点：

1、本发明采用双缓冲机制，通过软硬件协同，以从核有效的计算开销来隐藏从核对多级存储资源的访问开销，实现了有效计算开销和多级存储资源访问开销之间最大限度的隐藏，提高了多级访存效率，能够充分发挥从核的性能效率，从而提高科学计算课题的计算效率。

2、本发明还根据众核处理器架构特性，通过软件方法，将科学计算课题中常见的离散访存转化为众核处理器上的连续访存，进一步提高科学计算课题的计算效率。

附图说明

图1为本发明的基于异构众核处理器的多级访存方法一具体实施方式的流程示意图；

图2为本发明的基于异构众核处理器的多级访存方法第一实施例的各步骤示意图；

图3为本发明的基于异构众核处理器的离散访存方法一具体实施方式的流程示意图；

图4为本发明的基于异构众核处理器的离散访存方法中调整数组存储顺序步骤一实施例的各步骤示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

其次，本发明利用示意图进行详细描述，在详述本发明实施例时，为便于说明，所述示意图只是实例，其在此不应限制本发明保护的范围。

首先，本发明的应用环境为一种异构众核处理器平台，该平台由一个主核(通用处理器)和相当数量的从核(协处理器单元)构成。主核可以访问较大的存储空间为主存空间和共享空间等，从核拥有专属的相对较小局部存储空间。主核与从核间的数据交换，即主从核间数据通信，通过存储器直接访问部件(DMA)来实现。在众核处理器执行计算时，一般由从核发起数据通信请求，并实现数据的读入或写回。

在科学计算类课题过程中，实现最大限度的隐藏从核对其它核外存储空间的访问延迟是获得良好性能加速的关键。因此，本发明提供了一种基于异构众核处理器的多级访存方法。图1为本发明的基于异构众核处理器的多级访存方法一具体实施方式的流程示意图。如图1所示，本具体实施方式包括以下步骤：

执行可选步骤S101，并行任务分配及从核任务绑定。

执行步骤S102，发起DMA读入第i次数据请求。需要说明的是，在发起DMA读入第1次数据请求之前，还包括在在从核的局部存储空间上申请2倍于通信数据大小的存储空间，存放2份同样大小的数据，且分别存放所述2份同样大小的数据的存储空间互为对方缓冲，以实现计算开销和通信开销的互相隐藏。具体地，通信双缓冲通过编程来控制和实现，除了第一轮次读入数据的通信过程之外，当从核进行本轮次数据计算的同时，进行下一轮次读入数据的通信。同时，除了最后一轮次写回数据的通信过程之外，当从核进行本轮次数据计算的同时，进行上一轮次写回数据的通信。

执行步骤S103，发起DMA读入第(i+1)次数据请求。

执行步骤S104，等待第i次数据读入加载完成。

执行步骤S105，从核计算第i次的数据。

执行步骤S106，发起DMA回写第i次计算结果数据请求。

执行步骤S107，当i>0时等待第(i-1)计算结果数据回写完成。

执行步骤S108，判断是否继续取值计算。若是，则从步骤S103开始循环，继续处理下一次的取值计算。若否，则执行步骤S109，等待最后一次计算数据回写完成。

下面结合附图和具体实施例对本发明的技术方案做进一步说明。图2为本发明的基于异构众核处理器的多级访存方法一实施例的各步骤示意图。

结合图1、图2，说明相关流程和隐藏机制。图2中虚线框内所示的是一个双缓冲流程过程(除第一次和最后一次外)。

具体来说，只有第1次的流程中仅包含读入过程，在其他轮次的流程中，读入过程和计算过程同时进行。同理，只有最后1次的流程中仅包含写回过程，在其他轮次的流程中，写回过程和计算过程同时进行。

参见图2中虚线框所示的第i次流程。在第i次的流程中，既包含第i次的计算过程，同时也包含有第i-1计算结果数据的回写过程和第i+1次数据的读入过程。且计算过程由处理器单元执行，而通信部分(附图2中阴影部分)由访存单元执行，计算过程和数据通信过程可以并发执行。因此每个双缓冲流程中，当计算部分开销大于通信部分时，该过程的总开销就等于计算开销，反之总的开销就等于通信开销，即每次双缓冲过程中(除第一次和最后一次外)的计算部分和通信部分可以实现相互“隐藏”。

此时从核数据通信部分开销分为两部分，一部分是不可隐藏部分，另外则是可以与计算开销相互隐藏部分。如果某程序在单核处理器上计算开销为T，在具有CoreNumber个从核的众核处理器上实现并行后从核计算部分开销为T/CoreNumber。如果忽略从核初始化开销，从核上单轮次数据通信部分开销为P，则从核上N轮次数据通信开销总计为P×N，其中不可隐藏部分开销为第一轮次读入与最后一轮次写回的数据通信开销之和，即单轮次通信部分的开销P。相应的可以与计算开销相互隐藏的数据通信开销为P×(N-1)，此时从核上计算开销仍为T/CoreNumber。那么众核加速比的计算表达式具有如下的形式：

上面众核加速比计算表达式表明，从核计算开销和部分的通信开销实现了隐藏。考虑计算密集型程序的情形，从核计算开销大于通信开销，而单轮次的通信开销又特别小时，根据上面计算表达式得到众核加速比将会接近CoreNumber。如果将众核加速比与众核具有的从核个数之比定义为众核并行效率，那么此时众核并行效率也将接近于1，即从核的性能得到充分的发挥。

实践过程表明，本发明能有效利用计算开销来隐藏从核对多级存储资源，尤其是对非专属存储空间访问所带来的开销。而且本发明的方法具有普适性，可在多种科学计算课题的众核并行过程中采用。

同时为了解决背景技术中的离散访存问题，本发明还提供了一种基于异构众核处理器的离散访存方法。图3为本发明的基于异构众核处理器的离散访存方法一具体实施方式的流程示意图。如图3所示，本具体实施方式包括以下步骤：

执行步骤S201，在从核上调整数组的存储顺序，将离散存储的数组调整为连续存储的数组。

执行步骤S202，对调整存储顺序后的数组进行通信读入数据、计算和通信写回数据。

如果有必要的话，执行可选步骤S203，在从核上再次调整数组的存储顺序，将连续存储的数组调整为原来离散存储的数组。

为更加详细的说明，以FORTRAN程序为例进行说明。对于一个三维数组F(i,j,k)(参考图4所示)，当该数组出现在以k为循环变量的循环体中时，就会造成大量的离散访存。而在异构众核平台上，可以进行如下的优化过程：首先在从核上对F(i,j,k)数组进行存储顺序调整，调整后的数组为F’(k,i,j)；然后在以k为循环变量的循环体中采用F’(k,i,j)代替F(i,j,k)；最后如果有必要，将计算后的F’(k,i,j)结果在调整回F(i,j,k)。

图4为本发明的基于异构众核处理器的离散访存方法中调整数组存储顺序步骤一实施例的各步骤示意图。下面结合附图和具体实施例对调整数组存储顺序步骤做进一步说明。

为了将数组的离散访存调整为连续访存，首先通过DMA部件进行离散数组的读入。仍以F(i,j,k)为例，假设i、j、k的维数大小为im、jm、km，对于每个异构处理器的从核而言，可以从核逻辑编号与j变量实现对应，从相应数组元素F(1,j,1)地址开始连续取im个元素，然后跨过im*jm长度再取im个元素，…，以此类推，共取出im*km个元素。然后进行小规模数组赋值，将这些取出的元素连续存储与第一临时数组A_temp(im,km)中，然后通过转置赋值变换为相应的第二临时数组B_temp(km,im)。最后每个从核上将第二临时数组B_temp中的元素连续写回相应的F’(k,i,j)。对于三维数组F’(k,i,j)，再出现在以k为循环变量的循环体中，则已可实现连续访存。

若在计算后，还需要将三维数组F’(k,i,j)再调整回F(i,j,k)，则采用与将数组的离散访存调整为连续访存相逆的过程即可。

相较于现有技术，虽然本发明的离散访存方法增加了前后两个数组存储顺序调整的过程，但由于上述过程都是在从核上来完成的，两个存储顺序调整所导致的从核开销增加并不大。而在计算方面，由于调整后的数组连续存储，便于从核通信和计算，从而使得从核计算开销大大减小。综合考量之下，计算方面节省的开销远远大于顺序调整增加的开销。实验结果也证实了：众核并行后的加速效果较为理想，甚至会达到超限性的加速效果。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明的部分或全部可借助软件并结合必需的通用硬件平台来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可包括其上存储有机器可执行指令的一个或多个机器可读介质，这些指令在由诸如计算机、计算机网络或其他电子设备等一个或多个机器执行时可使得该一个或多个机器根据本发明的实施例来执行操作。机器可读介质可包括，但不限于，软盘、光盘、CD-ROM(紧致盘-只读存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。

本发明可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于异构众核处理器的多级访存方法，其特征在于，所述众核处理器包括一个主核和多个从核，所述从核包括处理器单元和访存单元，所述多级访存方法包括：

在从核的局部存储空间上申请2倍于通信数据大小的存储空间，以存放2份同样大小的数据；分别存放所述2份同样大小的数据的存储空间互为对方缓冲；

所述从核的访存单元读入第一次计算所需的数据；

除第一次之外，所述从核的处理器单元在进行本次数据计算的同时，所述从核的访存单元读入下一次计算所需的数据；

除最后一次之外，所述从核的处理器单元在进行本次数据计算的同时，所述从核的访存单元写回上一次计算结果数据；

所述从核的访存单元写回最后一次计算结果数据。

2.如权利要求1所述的基于异构众核处理器的多级访存方法，其特征在于，

在所述从核的访存单元读入计算所需的数据之前，还包括：发起DMA读入数据请求；

在所述从核的访存单元写回计算结果数据之前，还包括：发起DMA写回数据请求。

3.如权利要求1所述的基于异构众核处理器的多级访存方法，其特征在于，

在所述从核的处理器单元进行本次数据计算之前，还包括：等待本次计算所需数据读入加载完毕。

4.如权利要求2所述的基于异构众核处理器的多级访存方法，其特征在于，在所述从核的访存单元发起DMA读入第一次数据请求之前还包括：

进行初始化。

5.如权利要求4所述的基于异构众核处理器的多级访存方法，其特征在于，所述初始化包括：并行任务分配和从核任务绑定。

6.一种基于异构众核处理器的离散访存方法，其特征在于，包括：

在所述从核上调整数组的存储顺序，将离散存储的数组调整为连续存储的数组；

所述从核以如权利要求1至5所述的任一种基于异构众核处理器的多级访存方法，对所述数组进行通信读入数据、计算和通信写回数据。

7.如权利要求6所述的基于异构众核处理器的离散访存方法，其特征在于，在所述从核对所述数组进行通信读入数据、计算和通信写回数据之后，还包括：

在所述从核上再次调整数组的存储顺序，将连续存储的数组调整为原来离散存储的数组。

8.如权利要求6所述的基于异构众核处理器的离散访存方法，其特征在于，所述在所述从核上调整数组的存储顺序，将离散存储的数组调整为连续存储的数组包括：

将读入的元素连续存储于第一临时数组；

将所述第一临时数组转置赋值，变换为第二临时数组；

将所述第二临时数据连续写回，获得所述连续存储的数组。

9.如权利要求7所述的基于异构众核处理器的离散访存方法，其特征在于，

所述在所述从核上调整数组的存储顺序，将离散存储的数组调整为连续存储的数组包括：

将读入的元素连续存储于第一临时数组；

将所述第一临时数组转置赋值，变换为第二临时数组；

将所述第二临时数据连续写回，获得所述连续存储的数组；

所述在所述从核上再次调整数组的存储顺序，将连续存储的数组调整为原来离散存储的数组为：与所述在所述从核上调整数组的存储顺序，将离散存储的数组调整为连续存储的数组相逆的过程。