CN103279446A - 一种利用cpu+gpu+mic异构混合计算的多平台*** - Google Patents
一种利用cpu+gpu+mic异构混合计算的多平台*** Download PDFInfo
- Publication number
- CN103279446A CN103279446A CN 201310229342 CN201310229342A CN103279446A CN 103279446 A CN103279446 A CN 103279446A CN 201310229342 CN201310229342 CN 201310229342 CN 201310229342 A CN201310229342 A CN 201310229342A CN 103279446 A CN103279446 A CN 103279446A
- Authority
- CN
- China
- Prior art keywords
- gpu
- cpu
- mic
- performance
- card
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title abstract description 22
- 238000012545 processing Methods 0.000 title abstract description 5
- 230000010365 information processing Effects 0.000 claims abstract description 24
- 238000004647 photon scanning tunneling microscopy Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Landscapes
- Multi Processors (AREA)
Abstract
本发明涉及一种利用CPU+GPU+MIC异构混合计算的多平台***,该***包括:一个中央处理器(CPU)平台,所述平台包括CPU芯片;至少一个GPU卡、至少一个集成众核(MIC)卡;连接器,用于连接所述GPU卡、MIC卡至所述CPU平台。本发明异构***可以有效提高***性能、提高计算密度,并满足不同的高性能应用的要求,以解决高性能计算应用时***性能低下、软件生产力低的问题。本发明信息处理异构***由CPU芯片、GPU芯片和MIC芯片构成,较佳地是采用目前比较流行的双路CPU芯片、2个GPU芯片和2个MIC芯片高计算密度***,可以有效提高***性能,满足高性能应用的要求。
Description
技术领域
本发明涉及计算机技术领域,具体地说是一种利用CPU+GPU+MIC异构混合计算的多平台***。
背景技术
高性能计算是信息领域的前沿高技术,在保障国家安全、推动国防科技进步、促进尖端武器发展方面具有直接推动作用,是衡量一个国家综合实力的重要标志之一。随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算,而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。
计算速度对于高性能计算尤为重要,高性能计算将朝多核、众核发展,采用异构并行提升应用计算速度,目前CPU+GPU是非常成熟的异构协同计算模式,适合高度并行计算的应用或算法,如计算流体力学应用、FFT计算等,但由于GPU在编程效率、细粒度并行算法设计、大规模并行性能上都存在巨大挑战。随着Intel MIC(Intel Many Integrated Core,集成众核)的正式发布,CPU+MIC将是高性能计算一个不错的选择,采用此架构能在提升应用性能的同时大大提高编程效率,MIC能与CPU完美结合解决更多的应用性能瓶颈,但对于某些向量化程度不高、内存密集型应用其性能也面临着挑战,而CPU+GPU+MIC异构混合计算的多平台架构将综合CPU+GPU与CPU+MIC两种异构模式的优势,将极大满足不同应用的计算性能需求。
发明内容
本发明的目的是提供一种利用CPU+GPU+MIC异构混合计算的多平台***。
本发明的目的是按以下方式实现的,该***包括:
一个中央处理器CPU平台,所述平台包括CPU芯片;至少一个GPU卡;至少一个集成众核MIC卡;还有用于连接所述GPU卡与MIC卡至所述CPU平台的连接器,所述的连接器为PCIE插槽,***的内存配置不小于128GB,最大功率支持不小于1800w;CPU平台的操作***、编译器及驱动都支持GPU、MIC,操作***为Linux,所述编译器为Intel的icc、icpc、ifort和Nvidia的nvcc;***还包括2个CPU芯片、2个GPU卡和2个MIC卡,所述CPU芯片包括8个核心,所述GPU卡包括512个GPU核心,所述的MIC卡包括 至少50个核心。
该***包括:第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;第二、第三执行单元,均与所述第一执行单元连接,处理器分别由2个GPU卡和2个MIC卡实现,用于与所述第一执行单元并行执行信息处理。
所述第一、第二、第三执行单元采用多线程的方式执行信息处理。
所述第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
所述第一执行单元启动16个线程执行信息处理、所述第二执行单元启动至少1万个GPU线程执行信息处理、第三执行单元启动至少200个线程执行信息处理。
本发明的有益效果是: 本发明要解决的技术问题是提供一种利用CPU+GPU+MIC异构混合计算的多平台***,以解决高性能计算应用时***性能低下、软件生产力低的问题。本发明信息处理异构***由CPU芯片、GPU芯片和MIC芯片构成,较佳地是采用目前比较流行的双路CPU芯片、2个GPU芯片和2个MIC芯片高计算密度***,可以有效提高***性能,满足高性能应用的要求。
附图说明
图1是利用CPU+GPU+MIC异构混合计算的多平台***实施例1的模块结构示意图;
图2是利用CPU+GPU+MIC异构混合计算的多平台***实施例2的模块结构示意图;
图3是 PSTM串行运行效果图;
图4是***运行PSTM的运行效果图。
具体实施方式
参照说明书附图对本发明的***作以下详细地说明。
实施例1
本发明基于CPU+GPU+MIC异构混合计算的多平台***,如图1所示,该***包括:
一个中央处理器(CPU)平台,所述平台包括CPU芯片;
至少一个GPU卡;
至少一个集成众核(MIC)卡;
连接器,用于连接所述MIC卡和GPU卡至所述CPU平台。
具体地,所述连接器为PCIE插槽。
GPU为NVIDIA公司开发的Fermi架构的GPU,MIC是Intel公司开发的,用于高性能并行计算的众核芯片。GPU与MIC都能提供高度并行的计算能力,其双精峰值性能都达到1TFlops以上。采用CPU+GPU+MIC混合异构方式,将综合三个平台的优势,适应加速不同的高性能应用,加快高性能计算的发展,快速解决高性能计算应用的性能瓶颈。
该***针对高性能计算应用,采用CPU+GPU+MIC异构体系结构,融合了CPU平台的多核计算能力、GPU与MIC的众核计算能力,充分利用三种芯片的计算能力,使三者都共同参与计算,从而使***的计算能力大大加强,解决了高性能计算应用的性能瓶颈,所以此***是一个高性能***,并且此***满足不同应用的需求,对不同的应用能实现加速。同时此***还是一个低能耗高密度***,其性能功耗比远远高于同构CPU平台,整个***在获得高性能的同时,节省了能耗,并减少机房的空间,所以总的来说,此***是一个高效能、高密度***。
所述***的内存配置为128GB以上,最大功率支持1800w以上。
所述CPU平台的操作***、编译器及驱动都支持MIC。
所述操作***为Linux,所述编译器为Intel的icc、icpc、ifort、nvcc。
优选地,所述***包括2个CPU芯片、2个GPU卡和2个MIC卡,所述CPU芯片包括8个核心,所述GPU卡包括512个GPU核心,所述的MIC卡包括50个核心以上。
为了使本发明的目的、技术方案和优点更加清晰,下面结合附图和实施例,对本发明作以下详细说明。
本发明是基于CPU+GPU+MIC异构混合架构,实现高性能、高计算密度、低功耗、高应用适应性。以下从硬件部分和***环境配置两发明进行说明:
硬件部分:
CPU平台采用双路,支持2块CPU同时工作,本实施过程***采用2块intel E5-2680 8核 CPU,主频为2.7GHz
***带有4个以上PCIE插槽,能够插2块GPU卡、2块MIC卡,本***采用2块MIC卡,每个卡上有50个核心以上。
***的内存配置要大,是原有CPU平台的2倍以上。本***配置128GB以上内存。
***功耗支持1800w以上,保证整个***正常运转,本***最大功率支持1800w。
***环境配置:
操作***支持MIC,需要安装Linux操作***。本实施过程采用Red Hat Enterprise Linux 6.0 GA 64-bit kernel 2.6.32-71 ;
编译器支持GPU、MIC,可采用采用Intel的icc、icpc、ifort和NVIDIA的nvcc编译器;
支持GPU和MIC的驱动 。
实施例2
此***要实现高效,必须软硬件一体化设计,让应用软件运行跑在此***上效率最高。
鉴于此,本发明一种利用CPU+GPU+MIC异构混合计算的多平台***还可从以下角度进行描述,如图2所示,该***包括:
第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;
第二、第三执行单元,均与所述第一执行单元连接,处理器分别由2个GPU卡和2个MIC卡实现,用于与所述第一执行单元并行执行信息处理;
具体地,所述第一、第二、第三执行单元采用多线程的方式执行信息处理,且所述第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
其中,所述第一执行单元启动16个线程执行信息处理、所述第二执行单元2个GPU卡都启动成千或上万个GPU轻粒度线程执行信息处理、所述第三执行单元2块MIC卡都启动200个以上线程执行信息处理。
优选地,所述CPU芯片包括至少8个核心,每个核起一个线程,所述的GPU卡包括512个GPU核心,MIC卡包括至少50个核心,每个核心可以起4个线程。
目前主流的服务器是双路,即插2块CPU,由于目前SandyBridge CPU有40个通道,2块CPU为80个通道,在PCIE插槽上插2块GPU卡、2块MIC卡, PCIE效率最高,从CPU与GPU及CPU与MIC之间传输数据性能最好。
为了测试该***的性能,可选择高性能计算应用,此应用算法有高并行任务,并行任务之间数据无依赖,并行性好,整个应用对***性能要求高,地震叠前时间偏移(PreStack Time Migration,PSTM)正是具备以上特定的应用,以下以该应用为例,对现有以单线程运行的CPU平台进行改进的过程进行说明:
原有PSTM程序以单线程运行在CPU平台,首先利用CPU多核平台,采用OpenMP编程模型把它以多线程方式实现,把所用计算任务采用16个线程并行起来,使2块CPU的所有核的计算能力全部发挥出来;
把整个***的计算能力划分为5个设备,第一块GPU卡作为设备0,启动上万个GPU线程,第二块GPU卡作为设备1,启动上万个GPU线程;第一块MIC卡作为设备2,启动200个线程以上,第二块MIC芯片作为设备3,启动200个线程以上;2块CPU作为设备4,启动16个线程;如附图2所示;
把整个PSTM的计算任务按照这五个设备的计算能力进行划分,使五个设备同时并行计算,即这5个设备共同参与计算,达到CPU、GPU与MIC同时计算的效果,并且保证负载均衡,整个***实现高性能。
具体地,以测试91条测线,每条测线上963个CMP(共中心点)点,输入110000道数据进行偏移成像为例,在原有CPU同构***下,PSTM以单线程串行方式花费的时间为76053s,而本***运行时间为537s,性能大大提升。CPU串行版PSTM运行的成像效果图见附图(3)所示,本***运行的成像效果图见附图(4)所示,其中横坐标为某条侧线的共中心点,纵坐标为时间,从图像来看,两幅图像基本一致,说明运行结果正确。
本发明***,此***具有高性能、低功耗、高计算密集、高应用适应性特点,将解决高性能应用的性能瓶颈和功耗问题,满足实际生产和科研需求,并且降低机房构建成本和管理、运行、维护费用。本发明中,CPU不仅参加逻辑计算,还参与密集核心计算,而GPU、MIC仅参与核心密集计算,CPU+GPU+MIC异构混合计算,实现性能最大化。
从地震叠前时间偏移实施例可以看出整个***实现高性能、低功耗、高计算密度,大大满足了高性能应用的科研要求和工业生产要求,此***还减少了机房构建成本和管理、运行、维护费用。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (5)
1.一种利用CPU+GPU+MIC异构混合计算的多平台***, 其特征在于该***包括:
一个中央处理器CPU平台,所述平台包括CPU芯片;至少一个GPU卡;至少一个集成众核MIC卡;还有用于连接所述GPU卡与MIC卡至所述CPU平台的连接器,所述的连接器为PCIE插槽,***的内存配置不小于128GB,最大功率支持不小于1800w;CPU平台的操作***、编译器及驱动都支持GPU、MIC,操作***为Linux,所述编译器为Intel的icc、icpc、ifort和Nvidia的nvcc;***还包括2个CPU芯片、2个GPU卡和2个MIC卡,所述CPU芯片包括8个核心,所述GPU卡包括512个GPU核心,所述的MIC卡包括 至少50个核心。
2.根据权利要求1所述的多平台***,其特征在于,该***包括:第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;第二、第三执行单元,均与所述第一执行单元连接,处理器分别由2个GPU卡和2个MIC卡实现,用于与所述第一执行单元并行执行信息处理。
3.根据权利要求2所述的多平台***,其特征在于,所述第一、第二、第三执行单元采用多线程的方式执行信息处理。
4.根据权利要求2所述的多平台***,其特征在于,所述第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
5.根据权利要求2所述的多平台***,其特征在于,所述第一执行单元启动16个线程执行信息处理、所述第二执行单元启动至少1万个GPU线程执行信息处理、第三执行单元启动至少200个线程执行信息处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201310229342 CN103279446A (zh) | 2013-06-09 | 2013-06-09 | 一种利用cpu+gpu+mic异构混合计算的多平台*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201310229342 CN103279446A (zh) | 2013-06-09 | 2013-06-09 | 一种利用cpu+gpu+mic异构混合计算的多平台*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103279446A true CN103279446A (zh) | 2013-09-04 |
Family
ID=49061971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201310229342 Pending CN103279446A (zh) | 2013-06-09 | 2013-06-09 | 一种利用cpu+gpu+mic异构混合计算的多平台*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279446A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104461849A (zh) * | 2014-12-08 | 2015-03-25 | 东南大学 | 一种移动处理器上cpu与gpu软件功耗测量方法 |
CN104536936A (zh) * | 2015-01-28 | 2015-04-22 | 浪潮电子信息产业股份有限公司 | 一种拉杆箱式可编程计算器装置 |
CN105183079A (zh) * | 2015-09-01 | 2015-12-23 | 浪潮(北京)电子信息产业有限公司 | 一种便携式可编程计算器 |
CN105227669A (zh) * | 2015-10-15 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种面向深度学习的cpu与gpu混合的集群架构*** |
CN105893151A (zh) * | 2016-04-01 | 2016-08-24 | 浪潮电子信息产业股份有限公司 | 一种基于cpu+mic异构平台的高维数据流的处理方法 |
-
2013
- 2013-06-09 CN CN 201310229342 patent/CN103279446A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104461849A (zh) * | 2014-12-08 | 2015-03-25 | 东南大学 | 一种移动处理器上cpu与gpu软件功耗测量方法 |
CN104461849B (zh) * | 2014-12-08 | 2017-06-06 | 东南大学 | 一种移动处理器上cpu与gpu软件功耗测量方法 |
CN104536936A (zh) * | 2015-01-28 | 2015-04-22 | 浪潮电子信息产业股份有限公司 | 一种拉杆箱式可编程计算器装置 |
CN105183079A (zh) * | 2015-09-01 | 2015-12-23 | 浪潮(北京)电子信息产业有限公司 | 一种便携式可编程计算器 |
CN105227669A (zh) * | 2015-10-15 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种面向深度学习的cpu与gpu混合的集群架构*** |
CN105893151A (zh) * | 2016-04-01 | 2016-08-24 | 浪潮电子信息产业股份有限公司 | 一种基于cpu+mic异构平台的高维数据流的处理方法 |
CN105893151B (zh) * | 2016-04-01 | 2019-03-08 | 浪潮电子信息产业股份有限公司 | 一种基于cpu+mic异构平台的高维数据流的处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101901042B (zh) | 多gpu***中基于动态任务迁移技术的降功耗方法 | |
CN102243321B (zh) | 一种地震叠前时间偏移的处理方法及*** | |
CN103279446A (zh) | 一种利用cpu+gpu+mic异构混合计算的多平台*** | |
Wang et al. | SODA: Software defined FPGA based accelerators for big data | |
CN102253919A (zh) | 基于gpu和cpu协同运算的并行数值模拟方法和*** | |
CN109284250A (zh) | 一种基于大规模fpga芯片的计算加速***及其加速方法 | |
Camp | GPU Acceleration of Particle AdvectionWorkloads in a Parallel, Distributed Memory Setting | |
CN112631986B (zh) | 大规模dsp并行计算装置 | |
Lai et al. | Hybrid MPI and CUDA parallelization for CFD applications on multi‐GPU HPC clusters | |
CN103294639A (zh) | 一种实现大规模计算的cpu+mic混合异构集群*** | |
CN103049329A (zh) | 一种基于cpu/mic异构体系结构的高效能*** | |
CN102902655A (zh) | 信息处理异构*** | |
Cui et al. | Research on parallel association rules mining on GPU | |
Wang et al. | Task scheduling of parallel processing in CPU-GPU collaborative environment | |
CN109918335A (zh) | 一种基于cpu+fpga 8路dsm架构服务器***及处理方法 | |
Wang | Power analysis and optimizations for GPU architecture using a power simulator | |
CN104360979B (zh) | 基于图形处理器的计算机*** | |
CN203465722U (zh) | 一种面向多尺度计算的计算机*** | |
Zhou et al. | Parallel data cube computation on graphic processing units | |
Kerbyson et al. | Adapting wave-front algorithms to efficiently utilize systems with deep communication hierarchies | |
CN102866423B (zh) | 地震叠前时间偏移的处理方法和*** | |
Kryuchkov et al. | Design of multipurpose computational cluster based on ARM single-board computers | |
Khaled et al. | Parallel study of 3-D oil reservoir data visualization tool using hybrid distributed/shared-memory models | |
Gong et al. | Optimizing Sweep3D for graphic processor unit | |
Wang et al. | Data motion acceleration: Chaining cross-domain multi accelerators |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130904 |
|
WD01 | Invention patent application deemed withdrawn after publication |