CN103279446A - 一种利用cpu+gpu+mic异构混合计算的多平台*** - Google Patents

一种利用cpu+gpu+mic异构混合计算的多平台*** Download PDF

Info

Publication number
CN103279446A
CN103279446A CN 201310229342 CN201310229342A CN103279446A CN 103279446 A CN103279446 A CN 103279446A CN 201310229342 CN201310229342 CN 201310229342 CN 201310229342 A CN201310229342 A CN 201310229342A CN 103279446 A CN103279446 A CN 103279446A
Authority
CN
China
Prior art keywords
gpu
cpu
mic
performance
card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201310229342
Other languages
English (en)
Inventor
张清
张广勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN 201310229342 priority Critical patent/CN103279446A/zh
Publication of CN103279446A publication Critical patent/CN103279446A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Multi Processors (AREA)

Abstract

本发明涉及一种利用CPU+GPU+MIC异构混合计算的多平台***,该***包括:一个中央处理器(CPU)平台,所述平台包括CPU芯片;至少一个GPU卡、至少一个集成众核(MIC)卡;连接器,用于连接所述GPU卡、MIC卡至所述CPU平台。本发明异构***可以有效提高***性能、提高计算密度,并满足不同的高性能应用的要求,以解决高性能计算应用时***性能低下、软件生产力低的问题。本发明信息处理异构***由CPU芯片、GPU芯片和MIC芯片构成,较佳地是采用目前比较流行的双路CPU芯片、2个GPU芯片和2个MIC芯片高计算密度***,可以有效提高***性能,满足高性能应用的要求。

Description

一种利用CPU+GPU+MIC异构混合计算的多平台***
技术领域
本发明涉及计算机技术领域,具体地说是一种利用CPU+GPU+MIC异构混合计算的多平台***。
背景技术
高性能计算是信息领域的前沿高技术,在保障国家安全、推动国防科技进步、促进尖端武器发展方面具有直接推动作用,是衡量一个国家综合实力的重要标志之一。随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算,而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。
计算速度对于高性能计算尤为重要,高性能计算将朝多核、众核发展,采用异构并行提升应用计算速度,目前CPU+GPU是非常成熟的异构协同计算模式,适合高度并行计算的应用或算法,如计算流体力学应用、FFT计算等,但由于GPU在编程效率、细粒度并行算法设计、大规模并行性能上都存在巨大挑战。随着Intel MIC(Intel Many Integrated Core,集成众核)的正式发布,CPU+MIC将是高性能计算一个不错的选择,采用此架构能在提升应用性能的同时大大提高编程效率,MIC能与CPU完美结合解决更多的应用性能瓶颈,但对于某些向量化程度不高、内存密集型应用其性能也面临着挑战,而CPU+GPU+MIC异构混合计算的多平台架构将综合CPU+GPU与CPU+MIC两种异构模式的优势,将极大满足不同应用的计算性能需求。
发明内容
本发明的目的是提供一种利用CPU+GPU+MIC异构混合计算的多平台***。
本发明的目的是按以下方式实现的,该***包括:
一个中央处理器CPU平台,所述平台包括CPU芯片;至少一个GPU卡;至少一个集成众核MIC卡;还有用于连接所述GPU卡与MIC卡至所述CPU平台的连接器,所述的连接器为PCIE插槽,***的内存配置不小于128GB,最大功率支持不小于1800w;CPU平台的操作***、编译器及驱动都支持GPU、MIC,操作***为Linux,所述编译器为Intel的icc、icpc、ifort和Nvidia的nvcc;***还包括2个CPU芯片、2个GPU卡和2个MIC卡,所述CPU芯片包括8个核心,所述GPU卡包括512个GPU核心,所述的MIC卡包括 至少50个核心。
该***包括:第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;第二、第三执行单元,均与所述第一执行单元连接,处理器分别由2个GPU卡和2个MIC卡实现,用于与所述第一执行单元并行执行信息处理。
所述第一、第二、第三执行单元采用多线程的方式执行信息处理。
所述第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
所述第一执行单元启动16个线程执行信息处理、所述第二执行单元启动至少1万个GPU线程执行信息处理、第三执行单元启动至少200个线程执行信息处理。
本发明的有益效果是: 本发明要解决的技术问题是提供一种利用CPU+GPU+MIC异构混合计算的多平台***,以解决高性能计算应用时***性能低下、软件生产力低的问题。本发明信息处理异构***由CPU芯片、GPU芯片和MIC芯片构成,较佳地是采用目前比较流行的双路CPU芯片、2个GPU芯片和2个MIC芯片高计算密度***,可以有效提高***性能,满足高性能应用的要求。
附图说明
图1是利用CPU+GPU+MIC异构混合计算的多平台***实施例1的模块结构示意图;
图2是利用CPU+GPU+MIC异构混合计算的多平台***实施例2的模块结构示意图;
图3是 PSTM串行运行效果图;
图4是***运行PSTM的运行效果图。
具体实施方式
 参照说明书附图对本发明的***作以下详细地说明。
实施例1
本发明基于CPU+GPU+MIC异构混合计算的多平台***,如图1所示,该***包括:
一个中央处理器(CPU)平台,所述平台包括CPU芯片;
至少一个GPU卡;
至少一个集成众核(MIC)卡;
连接器,用于连接所述MIC卡和GPU卡至所述CPU平台。
具体地,所述连接器为PCIE插槽。
GPU为NVIDIA公司开发的Fermi架构的GPU,MIC是Intel公司开发的,用于高性能并行计算的众核芯片。GPU与MIC都能提供高度并行的计算能力,其双精峰值性能都达到1TFlops以上。采用CPU+GPU+MIC混合异构方式,将综合三个平台的优势,适应加速不同的高性能应用,加快高性能计算的发展,快速解决高性能计算应用的性能瓶颈。
该***针对高性能计算应用,采用CPU+GPU+MIC异构体系结构,融合了CPU平台的多核计算能力、GPU与MIC的众核计算能力,充分利用三种芯片的计算能力,使三者都共同参与计算,从而使***的计算能力大大加强,解决了高性能计算应用的性能瓶颈,所以此***是一个高性能***,并且此***满足不同应用的需求,对不同的应用能实现加速。同时此***还是一个低能耗高密度***,其性能功耗比远远高于同构CPU平台,整个***在获得高性能的同时,节省了能耗,并减少机房的空间,所以总的来说,此***是一个高效能、高密度***。
所述***的内存配置为128GB以上,最大功率支持1800w以上。
所述CPU平台的操作***、编译器及驱动都支持MIC。
所述操作***为Linux,所述编译器为Intel的icc、icpc、ifort、nvcc。
优选地,所述***包括2个CPU芯片、2个GPU卡和2个MIC卡,所述CPU芯片包括8个核心,所述GPU卡包括512个GPU核心,所述的MIC卡包括50个核心以上。
为了使本发明的目的、技术方案和优点更加清晰,下面结合附图和实施例,对本发明作以下详细说明。
本发明是基于CPU+GPU+MIC异构混合架构,实现高性能、高计算密度、低功耗、高应用适应性。以下从硬件部分和***环境配置两发明进行说明:
硬件部分:
CPU平台采用双路,支持2块CPU同时工作,本实施过程***采用2块intel E5-2680 8核 CPU,主频为2.7GHz 
***带有4个以上PCIE插槽,能够插2块GPU卡、2块MIC卡,本***采用2块MIC卡,每个卡上有50个核心以上。
***的内存配置要大,是原有CPU平台的2倍以上。本***配置128GB以上内存。
***功耗支持1800w以上,保证整个***正常运转,本***最大功率支持1800w。
***环境配置:
操作***支持MIC,需要安装Linux操作***。本实施过程采用Red Hat Enterprise Linux 6.0 GA 64-bit kernel 2.6.32-71 ;
编译器支持GPU、MIC,可采用采用Intel的icc、icpc、ifort和NVIDIA的nvcc编译器;
支持GPU和MIC的驱动 。
实施例2
此***要实现高效,必须软硬件一体化设计,让应用软件运行跑在此***上效率最高。
鉴于此,本发明一种利用CPU+GPU+MIC异构混合计算的多平台***还可从以下角度进行描述,如图2所示,该***包括:
第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;
第二、第三执行单元,均与所述第一执行单元连接,处理器分别由2个GPU卡和2个MIC卡实现,用于与所述第一执行单元并行执行信息处理;
具体地,所述第一、第二、第三执行单元采用多线程的方式执行信息处理,且所述第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
其中,所述第一执行单元启动16个线程执行信息处理、所述第二执行单元2个GPU卡都启动成千或上万个GPU轻粒度线程执行信息处理、所述第三执行单元2块MIC卡都启动200个以上线程执行信息处理。
优选地,所述CPU芯片包括至少8个核心,每个核起一个线程,所述的GPU卡包括512个GPU核心,MIC卡包括至少50个核心,每个核心可以起4个线程。
目前主流的服务器是双路,即插2块CPU,由于目前SandyBridge CPU有40个通道,2块CPU为80个通道,在PCIE插槽上插2块GPU卡、2块MIC卡, PCIE效率最高,从CPU与GPU及CPU与MIC之间传输数据性能最好。
为了测试该***的性能,可选择高性能计算应用,此应用算法有高并行任务,并行任务之间数据无依赖,并行性好,整个应用对***性能要求高,地震叠前时间偏移(PreStack Time Migration,PSTM)正是具备以上特定的应用,以下以该应用为例,对现有以单线程运行的CPU平台进行改进的过程进行说明:
原有PSTM程序以单线程运行在CPU平台,首先利用CPU多核平台,采用OpenMP编程模型把它以多线程方式实现,把所用计算任务采用16个线程并行起来,使2块CPU的所有核的计算能力全部发挥出来; 
把整个***的计算能力划分为5个设备,第一块GPU卡作为设备0,启动上万个GPU线程,第二块GPU卡作为设备1,启动上万个GPU线程;第一块MIC卡作为设备2,启动200个线程以上,第二块MIC芯片作为设备3,启动200个线程以上;2块CPU作为设备4,启动16个线程;如附图2所示;
把整个PSTM的计算任务按照这五个设备的计算能力进行划分,使五个设备同时并行计算,即这5个设备共同参与计算,达到CPU、GPU与MIC同时计算的效果,并且保证负载均衡,整个***实现高性能。
具体地,以测试91条测线,每条测线上963个CMP(共中心点)点,输入110000道数据进行偏移成像为例,在原有CPU同构***下,PSTM以单线程串行方式花费的时间为76053s,而本***运行时间为537s,性能大大提升。CPU串行版PSTM运行的成像效果图见附图(3)所示,本***运行的成像效果图见附图(4)所示,其中横坐标为某条侧线的共中心点,纵坐标为时间,从图像来看,两幅图像基本一致,说明运行结果正确。
本发明***,此***具有高性能、低功耗、高计算密集、高应用适应性特点,将解决高性能应用的性能瓶颈和功耗问题,满足实际生产和科研需求,并且降低机房构建成本和管理、运行、维护费用。本发明中,CPU不仅参加逻辑计算,还参与密集核心计算,而GPU、MIC仅参与核心密集计算,CPU+GPU+MIC异构混合计算,实现性能最大化。
从地震叠前时间偏移实施例可以看出整个***实现高性能、低功耗、高计算密度,大大满足了高性能应用的科研要求和工业生产要求,此***还减少了机房构建成本和管理、运行、维护费用。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (5)

1.一种利用CPU+GPU+MIC异构混合计算的多平台***, 其特征在于该***包括:
一个中央处理器CPU平台,所述平台包括CPU芯片;至少一个GPU卡;至少一个集成众核MIC卡;还有用于连接所述GPU卡与MIC卡至所述CPU平台的连接器,所述的连接器为PCIE插槽,***的内存配置不小于128GB,最大功率支持不小于1800w;CPU平台的操作***、编译器及驱动都支持GPU、MIC,操作***为Linux,所述编译器为Intel的icc、icpc、ifort和Nvidia的nvcc;***还包括2个CPU芯片、2个GPU卡和2个MIC卡,所述CPU芯片包括8个核心,所述GPU卡包括512个GPU核心,所述的MIC卡包括 至少50个核心。
2.根据权利要求1所述的多平台***,其特征在于,该***包括:第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;第二、第三执行单元,均与所述第一执行单元连接,处理器分别由2个GPU卡和2个MIC卡实现,用于与所述第一执行单元并行执行信息处理。
3.根据权利要求2所述的多平台***,其特征在于,所述第一、第二、第三执行单元采用多线程的方式执行信息处理。
4.根据权利要求2所述的多平台***,其特征在于,所述第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
5.根据权利要求2所述的多平台***,其特征在于,所述第一执行单元启动16个线程执行信息处理、所述第二执行单元启动至少1万个GPU线程执行信息处理、第三执行单元启动至少200个线程执行信息处理。
CN 201310229342 2013-06-09 2013-06-09 一种利用cpu+gpu+mic异构混合计算的多平台*** Pending CN103279446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201310229342 CN103279446A (zh) 2013-06-09 2013-06-09 一种利用cpu+gpu+mic异构混合计算的多平台***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201310229342 CN103279446A (zh) 2013-06-09 2013-06-09 一种利用cpu+gpu+mic异构混合计算的多平台***

Publications (1)

Publication Number Publication Date
CN103279446A true CN103279446A (zh) 2013-09-04

Family

ID=49061971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201310229342 Pending CN103279446A (zh) 2013-06-09 2013-06-09 一种利用cpu+gpu+mic异构混合计算的多平台***

Country Status (1)

Country Link
CN (1) CN103279446A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461849A (zh) * 2014-12-08 2015-03-25 东南大学 一种移动处理器上cpu与gpu软件功耗测量方法
CN104536936A (zh) * 2015-01-28 2015-04-22 浪潮电子信息产业股份有限公司 一种拉杆箱式可编程计算器装置
CN105183079A (zh) * 2015-09-01 2015-12-23 浪潮(北京)电子信息产业有限公司 一种便携式可编程计算器
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构***
CN105893151A (zh) * 2016-04-01 2016-08-24 浪潮电子信息产业股份有限公司 一种基于cpu+mic异构平台的高维数据流的处理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461849A (zh) * 2014-12-08 2015-03-25 东南大学 一种移动处理器上cpu与gpu软件功耗测量方法
CN104461849B (zh) * 2014-12-08 2017-06-06 东南大学 一种移动处理器上cpu与gpu软件功耗测量方法
CN104536936A (zh) * 2015-01-28 2015-04-22 浪潮电子信息产业股份有限公司 一种拉杆箱式可编程计算器装置
CN105183079A (zh) * 2015-09-01 2015-12-23 浪潮(北京)电子信息产业有限公司 一种便携式可编程计算器
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构***
CN105893151A (zh) * 2016-04-01 2016-08-24 浪潮电子信息产业股份有限公司 一种基于cpu+mic异构平台的高维数据流的处理方法
CN105893151B (zh) * 2016-04-01 2019-03-08 浪潮电子信息产业股份有限公司 一种基于cpu+mic异构平台的高维数据流的处理方法

Similar Documents

Publication Publication Date Title
CN101901042B (zh) 多gpu***中基于动态任务迁移技术的降功耗方法
CN102243321B (zh) 一种地震叠前时间偏移的处理方法及***
CN103279446A (zh) 一种利用cpu+gpu+mic异构混合计算的多平台***
Wang et al. SODA: Software defined FPGA based accelerators for big data
CN102253919A (zh) 基于gpu和cpu协同运算的并行数值模拟方法和***
CN109284250A (zh) 一种基于大规模fpga芯片的计算加速***及其加速方法
Camp GPU Acceleration of Particle AdvectionWorkloads in a Parallel, Distributed Memory Setting
CN112631986B (zh) 大规模dsp并行计算装置
Lai et al. Hybrid MPI and CUDA parallelization for CFD applications on multi‐GPU HPC clusters
CN103294639A (zh) 一种实现大规模计算的cpu+mic混合异构集群***
CN103049329A (zh) 一种基于cpu/mic异构体系结构的高效能***
CN102902655A (zh) 信息处理异构***
Cui et al. Research on parallel association rules mining on GPU
Wang et al. Task scheduling of parallel processing in CPU-GPU collaborative environment
CN109918335A (zh) 一种基于cpu+fpga 8路dsm架构服务器***及处理方法
Wang Power analysis and optimizations for GPU architecture using a power simulator
CN104360979B (zh) 基于图形处理器的计算机***
CN203465722U (zh) 一种面向多尺度计算的计算机***
Zhou et al. Parallel data cube computation on graphic processing units
Kerbyson et al. Adapting wave-front algorithms to efficiently utilize systems with deep communication hierarchies
CN102866423B (zh) 地震叠前时间偏移的处理方法和***
Kryuchkov et al. Design of multipurpose computational cluster based on ARM single-board computers
Khaled et al. Parallel study of 3-D oil reservoir data visualization tool using hybrid distributed/shared-memory models
Gong et al. Optimizing Sweep3D for graphic processor unit
Wang et al. Data motion acceleration: Chaining cross-domain multi accelerators

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130904

WD01 Invention patent application deemed withdrawn after publication