CN101551761A

CN101551761A - 一种异构多处理器中共享流内存的方法

Info

Publication number: CN101551761A
Application number: CNA2009100149388A
Authority: CN
Inventors: 魏健; 王守昊
Original assignee: Langchao Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2009-04-30
Filing date: 2009-04-30
Publication date: 2009-10-07

Abstract

本发明提供一种异构多处理器中共享流内存的方法，该方法是应用程序运行在主处理器上第一次调用API，为配有流内存的多个处理器单元从包含局部变量的源代码编译一个或多个可执行程序；然后第二次调用API，去加载一个或多个可执行程序到多个处理器单元中，并行执行多个线程，加载时，从一个处理器的局部存储中分配局部存储单元；并且加载时，从流内存中，分配第一个流存储单元，当一个处理单元中同时执行多个线程，这些线程基于流内存的存储单元访问变量的值，对于包含流变量的源程序进一步包括：第三次调用API，在流内存中，为流变量分配第二个流存储单元；基于第二个流存储单元，从多个处理器单元访问流变量的变量值。

Description

一种异构多处理器中共享流内存的方法

技术领域

本发明涉及一种数据并行计算技术，尤其史通过异构多处理器CPUs和GPUs进行数据并行计算时共享流内存的方法。

背景技术

随着GPU逐渐纳入高性能并行计算设备，GPU被按照一般目的的计算设备，开发了越来越多的应用程序完成数据并行计算。今天，我们用供应商提供的专业接口和专业GPU设备，设计这些应用程序，因此，即使CPU和GPU一起用于数据处理***，CPU也不会负载过重，应用程序也可以运行在不同厂商的GPU上。

然而，随着越来越多的CPU被嵌入多核完成数据并行计算，越来越多的数据处理任务即可以用CPUs和GPUs完成。多个CPU或GPU组合的处理器简写CPUs和GPUs，传统意义上，GPUs和CPUs，是分别通过不同的程序环境编译的，因此使得CPU和GPU相互适应性不是很好。因此使应用同时利用好CPUs和GPUs处理资源是非常困难的，从而需要一个新的数据处理***克服上述困难。从而使应用能够充分利用好CPU和GPU各种处理资源。

发明内容

本发明的目的是提供一种异构多处理器中共享流内存的方法。

本发明的目的是按以下方式实现的，包括主处理器和计算处理器，运行在主处理器中的应用程序，基于主处理器调用API，把可执行程序从主处理器中加载到计算处理器，并为计算处理器配置存储能力，为计算处理器中的线程访问某个变量分配内存，计算处理器是GPU或者CPU；

步骤如下：应用程序运行在主处理器中第一次调用API，为配有流内存的多个处理器单元从包含局部变量的源代码编译一个或多个可执行程序；然后第二次调用API，去加载一个或多个可执行程序到多个处理器单元中，并行执行多个线程，加载时，从一个处理器的局部存储中分配局部存储单元；并且加载时，从流内存中分配第一个流存储单元，当一个处理单元中同时执行多个线程，这些线程基于流内存的存储单元访问变量的值，对于包含流变量的源程序进一步包括：第三次调用API，在流内存中，为流变量分配第二个流存储单元；基于第二个流存储单元，从多个处理器单元访问流变量的变量值。

本发明的优异效果是很好的使应用程序同时利用好CPUs和GPUs处理资源，提高应用程序处理海量数据的能力。

附图说明

图1是完成数据并行计算的计算设备配置图；

图2是多处理器并行执行多线程共享流内存示意图；

图3是调度API完成内存分配的过程示意图。

具体实施方式

参照说明书附图对本发明的一种异构多处理器中共享流内存的方法作以下详细地说明。

本发明中运行在主处理器上的应用，配置计算处理器的存储能力，计算处理器可以是CPU或者GPU，并且为计算处理中一组线程执行的可执行程序，访问一个变量分配存储单元。被这组线程访问的变量的值，或者来自计算处理器的局部内存或者主处理器和计算处理器共享的流内存。通过API调用，应用完成内存的分配和配置。第一次调用API时，为配有流内存的多个处理单元，从源代码编译一个或多个可执行程序；然后第二次调用API，去加载这些可执行程序到多个处理单元中，并且同时执行多个线程。加载时，从一个处理器的局部存储中分配局部存储单元，这个存储单元用于保存源代码中的局部变量；并且加载时从流内存中，分配第一个流存储单元，当一个处理单元中同时执行多个线程，多个线程基于流内存的存储单元访问局部变量的值。对于包含流变量的源程序进一步包括：第三次调用API，在流内存中，为流变量分配第二个流存储单元；基于第二个流存储单元，可以从多个处理器单元，访问流变量。在流缓存中为变量分配缓存单元，缓存单元中保存流存储单元中变量的值。

实施例

图1是为完成应用数据并行处理的计算设备配置图，在这个计算设备中，包含中央处理器CPU和图形处理器GPU，其中的主处理***中有一个主处理器，可以在网络中上传下载数据和结算结果，主处理器通过数据总线连接异构处理器CPUs和GPUs。CPU可以是多核的CPU，GPU是可以支持图形处理和双精度浮点运算的硬件。函数库保存源代码和可执行程序，编译层负责编译源代码，应用通过API调用，加载可执行程序到运行层，运行层通过计算资源的分配，管理处理任务的执行，运算平台层，负责物理计算设备的标识。编译完成的可执行程序，通过API调用加载到运行层，运行时运行层根据处理器的数据文件，与编译层交互，实时编译源代码生成新的可执行程序。运行层把符合条件的可执行程序通过运算平台层分配到计算资源。

图2是多处理器并行执行多线程共享流内存示意图，这时应用程序通过API调用已经将可执行程序从主处理器加载到计算处理器。可执行程序在一个处理单元中并行执行多个线程，从图中可见，计算处理器_1中有1到M个线程，计算处理器_L中有1到N个线程，一个计算处理中每个线程通过其私有内存访问其局部变量的值，一个计算处理中的多个线程通过局部共享内存访问变量的值，多个处理中的线程基于流内存的存储单元访问流变量的值。例如，计算处理器1中的私有内存1存储线程1要处理的局部变量的值；局部共享内存中存储线程1和M需要处理的变量值；而计算处理器_1线程M和计算处理器_L线程N，则通过流缓存访问流变量的值。局部共享内存也是基于流内存的存储单元的。

图3是调度API完成内存分配的过程示意图，应用程序首先通过API调度，完成源代码的编译，编译生成一个或多个可执行程序；然后再调用API加载可执行程序到处理单元，加载时完成对可执行程序中局部变量的内存分配，这个内存分配是基于处理器的局部存储能力的，同时完成第一个流内存的分配，用于一个处理器中多个线程同时访问变量；最后第三次调用API，在流内存中为流变量分配第二个流存储单元，从而使多个处理器单元，访问流变量。

Claims

1.一种异构多处理器中共享流内存的方法，包括主处理器和计算处理器，其特征在于，运行在主处理器中的应用程序，基于主处理器调用API，把可执行程序从主处理器中加载到计算处理器，并为计算处理器配置存储能力，为计算处理器中的线程访问某个变量分配内存，计算处理器是GPU或者CPU；

2、根据权利要求1所述的方法，其特征在于，存储单元是处理单元上配有的局部存储器，或是流内存，流存储单元是由运行在主处理器单元上的应用分配的，流内存的存储能力不包括局部存储器的支持，在流缓存中为变量分配缓存单元，缓存单元中保存流存储单元中变量的值。

3、根据权利要求1所述的方法，其特征在于，异构多处理器包括主处理器、一个或多个处理器单元、API库；其中主处理器和处理器单元配有共享流内存；API库中包含源代码和可执行程序；一个或多个处理单元中至少有一个处理单元有局部存储器，可执行程序中局部变量的内存的分配是基于这个局部存储器的存储能力。

4、根据权利要求1所述的方法，其特征在于，一个处理器单元至少包含一个CPU或一个GPU。