CN103279446A

CN103279446A - 一种利用cpu+gpu+mic异构混合计算的多平台***

Info

Publication number: CN103279446A
Application number: CN 201310229342
Authority: CN
Inventors: 张清; 张广勇
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2013-06-09
Filing date: 2013-06-09
Publication date: 2013-09-04

Abstract

本发明涉及一种利用CPU+GPU+MIC异构混合计算的多平台***，该***包括：一个中央处理器（CPU）平台，所述平台包括CPU芯片；至少一个GPU卡、至少一个集成众核（MIC）卡；连接器，用于连接所述GPU卡、MIC卡至所述CPU平台。本发明异构***可以有效提高***性能、提高计算密度，并满足不同的高性能应用的要求，以解决高性能计算应用时***性能低下、软件生产力低的问题。本发明信息处理异构***由CPU芯片、GPU芯片和MIC芯片构成，较佳地是采用目前比较流行的双路CPU芯片、2个GPU芯片和2个MIC芯片高计算密度***，可以有效提高***性能，满足高性能应用的要求。

Description

一种利用CPU+GPU+MIC异构混合计算的多平台***

技术领域

本发明涉及计算机技术领域,具体地说是一种利用CPU+GPU+MIC异构混合计算的多平台***。

背景技术

高性能计算是信息领域的前沿高技术，在保障国家安全、推动国防科技进步、促进尖端武器发展方面具有直接推动作用，是衡量一个国家综合实力的重要标志之一。随着信息化社会的飞速发展，人类对信息处理能力的要求越来越高，不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算，而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。

计算速度对于高性能计算尤为重要，高性能计算将朝多核、众核发展，采用异构并行提升应用计算速度，目前CPU+GPU是非常成熟的异构协同计算模式，适合高度并行计算的应用或算法，如计算流体力学应用、FFT计算等，但由于GPU在编程效率、细粒度并行算法设计、大规模并行性能上都存在巨大挑战。随着Intel MIC(Intel Many Integrated Core，集成众核)的正式发布，CPU+MIC将是高性能计算一个不错的选择，采用此架构能在提升应用性能的同时大大提高编程效率，MIC能与CPU完美结合解决更多的应用性能瓶颈，但对于某些向量化程度不高、内存密集型应用其性能也面临着挑战，而CPU+GPU+MIC异构混合计算的多平台架构将综合CPU+GPU与CPU+MIC两种异构模式的优势，将极大满足不同应用的计算性能需求。

发明内容

本发明的目的是提供一种利用CPU+GPU+MIC异构混合计算的多平台***。

本发明的目的是按以下方式实现的，该***包括：

一个中央处理器CPU平台，所述平台包括CPU芯片；至少一个GPU卡；至少一个集成众核MIC卡；还有用于连接所述GPU卡与MIC卡至所述CPU平台的连接器，所述的连接器为PCIE插槽，***的内存配置不小于128GB，最大功率支持不小于1800w；CPU平台的操作***、编译器及驱动都支持GPU、MIC，操作***为Linux，所述编译器为Intel的icc、icpc、ifort和Nvidia的nvcc；***还包括2个CPU芯片、2个GPU卡和2个MIC卡，所述CPU芯片包括8个核心，所述GPU卡包括512个GPU核心，所述的MIC卡包括至少50个核心。

该***包括：第一执行单元，其处理器由2个CPU芯片实现，用于执行信息处理；第二、第三执行单元，均与所述第一执行单元连接，处理器分别由2个GPU卡和2个MIC卡实现，用于与所述第一执行单元并行执行信息处理。

所述第一、第二、第三执行单元采用多线程的方式执行信息处理。

所述第一、第二、第三执行单元基于负载均衡的原则执行信息处理。

所述第一执行单元启动16个线程执行信息处理、所述第二执行单元启动至少1万个GPU线程执行信息处理、第三执行单元启动至少200个线程执行信息处理。

本发明的有益效果是：本发明要解决的技术问题是提供一种利用CPU+GPU+MIC异构混合计算的多平台***，以解决高性能计算应用时***性能低下、软件生产力低的问题。本发明信息处理异构***由CPU芯片、GPU芯片和MIC芯片构成，较佳地是采用目前比较流行的双路CPU芯片、2个GPU芯片和2个MIC芯片高计算密度***，可以有效提高***性能，满足高性能应用的要求。

附图说明

图1是利用CPU+GPU+MIC异构混合计算的多平台***实施例1的模块结构示意图；

图2是利用CPU+GPU+MIC异构混合计算的多平台***实施例2的模块结构示意图；

图3是 PSTM串行运行效果图；

图4是***运行PSTM的运行效果图。

具体实施方式

参照说明书附图对本发明的***作以下详细地说明。

实施例1

本发明基于CPU+GPU+MIC异构混合计算的多平台***，如图1所示，该***包括：

一个中央处理器（CPU）平台，所述平台包括CPU芯片；

至少一个GPU卡；

至少一个集成众核（MIC）卡；

连接器，用于连接所述MIC卡和GPU卡至所述CPU平台。

具体地，所述连接器为PCIE插槽。

GPU为NVIDIA公司开发的Fermi架构的GPU，MIC是Intel公司开发的，用于高性能并行计算的众核芯片。GPU与MIC都能提供高度并行的计算能力，其双精峰值性能都达到1TFlops以上。采用CPU+GPU+MIC混合异构方式，将综合三个平台的优势，适应加速不同的高性能应用，加快高性能计算的发展，快速解决高性能计算应用的性能瓶颈。

该***针对高性能计算应用，采用CPU+GPU+MIC异构体系结构，融合了CPU平台的多核计算能力、GPU与MIC的众核计算能力，充分利用三种芯片的计算能力，使三者都共同参与计算，从而使***的计算能力大大加强，解决了高性能计算应用的性能瓶颈，所以此***是一个高性能***，并且此***满足不同应用的需求，对不同的应用能实现加速。同时此***还是一个低能耗高密度***，其性能功耗比远远高于同构CPU平台，整个***在获得高性能的同时，节省了能耗，并减少机房的空间，所以总的来说，此***是一个高效能、高密度***。

所述***的内存配置为128GB以上，最大功率支持1800w以上。

所述CPU平台的操作***、编译器及驱动都支持MIC。

所述操作***为Linux，所述编译器为Intel的icc、icpc、ifort、nvcc。

优选地，所述***包括2个CPU芯片、2个GPU卡和2个MIC卡，所述CPU芯片包括8个核心，所述GPU卡包括512个GPU核心，所述的MIC卡包括50个核心以上。

为了使本发明的目的、技术方案和优点更加清晰，下面结合附图和实施例，对本发明作以下详细说明。

本发明是基于CPU+GPU+MIC异构混合架构，实现高性能、高计算密度、低功耗、高应用适应性。以下从硬件部分和***环境配置两发明进行说明：

硬件部分：

CPU平台采用双路，支持2块CPU同时工作，本实施过程***采用2块intel E5-2680 8核 CPU，主频为2.7GHz

***带有4个以上PCIE插槽，能够插2块GPU卡、2块MIC卡，本***采用2块MIC卡，每个卡上有50个核心以上。

***的内存配置要大，是原有CPU平台的2倍以上。本***配置128GB以上内存。

***功耗支持1800w以上，保证整个***正常运转，本***最大功率支持1800w。

***环境配置：

操作***支持MIC，需要安装Linux操作***。本实施过程采用Red Hat Enterprise Linux 6.0 GA 64-bit kernel 2.6.32-71 ；

编译器支持GPU、MIC，可采用采用Intel的icc、icpc、ifort和NVIDIA的nvcc编译器；

支持GPU和MIC的驱动。

实施例2

此***要实现高效，必须软硬件一体化设计，让应用软件运行跑在此***上效率最高。

鉴于此，本发明一种利用CPU+GPU+MIC异构混合计算的多平台***还可从以下角度进行描述，如图2所示，该***包括：

第一执行单元，其处理器由2个CPU芯片实现，用于执行信息处理；

第二、第三执行单元，均与所述第一执行单元连接，处理器分别由2个GPU卡和2个MIC卡实现，用于与所述第一执行单元并行执行信息处理；

具体地，所述第一、第二、第三执行单元采用多线程的方式执行信息处理，且所述第一、第二、第三执行单元基于负载均衡的原则执行信息处理。

其中，所述第一执行单元启动16个线程执行信息处理、所述第二执行单元2个GPU卡都启动成千或上万个GPU轻粒度线程执行信息处理、所述第三执行单元2块MIC卡都启动200个以上线程执行信息处理。

优选地，所述CPU芯片包括至少8个核心，每个核起一个线程，所述的GPU卡包括512个GPU核心，MIC卡包括至少50个核心，每个核心可以起4个线程。

目前主流的服务器是双路，即插2块CPU，由于目前SandyBridge CPU有40个通道，2块CPU为80个通道，在PCIE插槽上插2块GPU卡、2块MIC卡， PCIE效率最高，从CPU与GPU及CPU与MIC之间传输数据性能最好。

为了测试该***的性能，可选择高性能计算应用，此应用算法有高并行任务，并行任务之间数据无依赖，并行性好，整个应用对***性能要求高，地震叠前时间偏移（PreStack Time Migration，PSTM）正是具备以上特定的应用，以下以该应用为例，对现有以单线程运行的CPU平台进行改进的过程进行说明：

原有PSTM程序以单线程运行在CPU平台，首先利用CPU多核平台，采用OpenMP编程模型把它以多线程方式实现，把所用计算任务采用16个线程并行起来，使2块CPU的所有核的计算能力全部发挥出来；

把整个***的计算能力划分为5个设备，第一块GPU卡作为设备0，启动上万个GPU线程，第二块GPU卡作为设备1，启动上万个GPU线程；第一块MIC卡作为设备2，启动200个线程以上，第二块MIC芯片作为设备3，启动200个线程以上；2块CPU作为设备4，启动16个线程；如附图2所示；

把整个PSTM的计算任务按照这五个设备的计算能力进行划分，使五个设备同时并行计算，即这5个设备共同参与计算，达到CPU、GPU与MIC同时计算的效果，并且保证负载均衡，整个***实现高性能。

具体地，以测试91条测线，每条测线上963个CMP（共中心点）点，输入110000道数据进行偏移成像为例，在原有CPU同构***下，PSTM以单线程串行方式花费的时间为76053s，而本***运行时间为537s，性能大大提升。CPU串行版PSTM运行的成像效果图见附图(3)所示，本***运行的成像效果图见附图(4)所示，其中横坐标为某条侧线的共中心点，纵坐标为时间，从图像来看，两幅图像基本一致，说明运行结果正确。

本发明***，此***具有高性能、低功耗、高计算密集、高应用适应性特点，将解决高性能应用的性能瓶颈和功耗问题，满足实际生产和科研需求，并且降低机房构建成本和管理、运行、维护费用。本发明中，CPU不仅参加逻辑计算，还参与密集核心计算，而GPU、MIC仅参与核心密集计算，CPU+GPU+MIC异构混合计算，实现性能最大化。

从地震叠前时间偏移实施例可以看出整个***实现高性能、低功耗、高计算密度，大大满足了高性能应用的科研要求和工业生产要求，此***还减少了机房构建成本和管理、运行、维护费用。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种利用CPU+GPU+MIC异构混合计算的多平台***, 其特征在于该***包括：

2.根据权利要求1所述的多平台***，其特征在于，该***包括：第一执行单元，其处理器由2个CPU芯片实现，用于执行信息处理；第二、第三执行单元，均与所述第一执行单元连接，处理器分别由2个GPU卡和2个MIC卡实现，用于与所述第一执行单元并行执行信息处理。

3.根据权利要求2所述的多平台***，其特征在于，所述第一、第二、第三执行单元采用多线程的方式执行信息处理。

4.根据权利要求2所述的多平台***，其特征在于，所述第一、第二、第三执行单元基于负载均衡的原则执行信息处理。

5.根据权利要求2所述的多平台***，其特征在于，所述第一执行单元启动16个线程执行信息处理、所述第二执行单元启动至少1万个GPU线程执行信息处理、第三执行单元启动至少200个线程执行信息处理。