CN103294639A - 一种实现大规模计算的cpu+mic混合异构集群*** - Google Patents
一种实现大规模计算的cpu+mic混合异构集群*** Download PDFInfo
- Publication number
- CN103294639A CN103294639A CN 201310231369 CN201310231369A CN103294639A CN 103294639 A CN103294639 A CN 103294639A CN 201310231369 CN201310231369 CN 201310231369 CN 201310231369 A CN201310231369 A CN 201310231369A CN 103294639 A CN103294639 A CN 103294639A
- Authority
- CN
- China
- Prior art keywords
- cpu
- mic
- node
- performance element
- performance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 6
- 238000004647 photon scanning tunneling microscopy Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Landscapes
- Multi Processors (AREA)
Abstract
本发明提供一种实现大规模计算的CPU+MIC混合异构集群***,该混合异构集群***包括:一个纯CPU节点集群***,每个节点内只含CPU计算芯片;一个MIC节点集群***,每个节点含有CPU芯片和至少一个集成众核(MIC)卡。本发明混合异构集群***可以在原因CPU集群***上实现更大规模的计算扩展,有效提高***性能,满足更大规模计算的高性能应用的需求。
Description
技术领域
本发明涉及高性能计算领域,具体涉及一种实现大规模计算的CPU+ MIC混合异构集群***。
背景技术
高性能计算是信息领域的前沿高技术,在保障国家安全、推动国防科技进步、促进尖端武器发展方面具有直接推动作用,是衡量一个国家综合实力的重要标志之一。随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算,而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。
计算速度对于高性能计算尤为重要,高性能计算将朝多核、众核发展,采用异构并行提升应用计算速度,目前CPU+GPU是非常成熟的异构协同计算模式,但由于GPU在编程效率、细粒度并行算法、大规模并行性能上都存在巨大挑战。
MIC是Intel公司开发的,用于高性能并行计算的众核芯片。它是从已有的Xeon处理器产品基础上发展而来,它专为超高性能计算而生的新架构。基于MIC架构的正式产品为Xeon Phi。其在计算机体系中,并非欲取代CPU,而是作为协处理器存在的。MIC芯片通常有50个以上精简的x86核心,每个core支持4个硬件线程,可并行执行的任务数达到200以上,提供高度并行的计算能力,其双精峰值性能达到1TFlops。MIC技术将加快高性能计算的发展,快速解决高性能计算应用的性能瓶颈。
发明内容
本发明的目的是提供一种实现大规模计算的CPU+MIC混合异构集群***。
本发明的目的是按以下方式实现的,包括:
一个中央处理器CPU集群***,所述***只采用CPU芯片计算;
一个MIC集群***,该集群***中每个节点采用CPU+MIC异构架构,节点内除CPU芯片外,还含有至少一个集成众核MIC卡;
连接器,用于连接MIC集群***中每个节点内所述MIC卡至CPU芯片;
所述连接器为PCIE插槽;
高速网络,用于连接混合异构集群中每个节点,每个节点互相实现高速通信。
所述连接器为PCIE插槽。
所述***的CPU节点内存配置至少为64GB,每个节点的最大功率支持至少1200W;MIC节点内存配置为至少128GB,最大功率支持至少1800w。
所述***的操作***、编译器及驱动都支持CPU、MIC。
所述操作***为Linux,所述编译器为Intel的icc、icpc、ifort。
所述***中CPU集群***的每个节点计算设备包括2个CPU芯片,所述CPU芯片包括8个核心。
MIC集群***的每个节点计算设备包括2个CPU芯片、2个MIC卡,所述CPU芯片包括8个核心,所述的MIC卡包括至少50个核心。
***包括:
第一执行***,其采用CPU集群进行计算,每个计算节点的处理器由2个CPU芯片实现,用于执行信息处理;
第二执行***,其采用MIC集群进行计算,每个计算节点的处理器由2个CPU芯片和2块MIC卡实现,每个计算节点分为三个执行单元:
第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;
第二、第三执行单元,均与所述第一执行单元连接,处理器分别由1块MIC卡实现,用于与所述第一执行单元并行执行信息处理。
第一执行***与第二执行***的第一、第二、第三执行单元采用多线程的方式执行信息处理。
第一执行***与第二执行***的第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
CPU集群每个计算节点启动16个线程执行信息处理;MIC集群每个计算节点所述第一执行单元启动16个线程执行信息处理、所述第二、第三执行单元启动至少200个线程执行信息处理。
本发明的有益效果是: 本发明混合异构集群***由纯CPU节点计算集群和MIC节点计算集群组成,可以在保留原有传统CPU集群***的同时,实现计算规模的扩展,满足高性能应用的要求,并且此***可以有效的提高***性能。
附图说明
图1是大规模计算的CPU+ MIC混合异构集群***实施例1的模块结构示意图;
图2是大规模计算的CPU+ MIC混合异构集群***实施例2的模块结构示意图;
图3是 PSTM串行运行效果图;
图4是采用本发明***运行PSTM的运行效果图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
实施例1
本发明一种实现大规模计算的CPU+MIC 混合异构集群***,如图1所示,该***包括:
一个纯中央处理器(CPU)集群***,所述***只采用CPU芯片计算;
一个MIC集群***,该集群***中每个节点采用CPU+MIC异构架构,节点内除CPU芯片外,还含有至少一个集成众核(MIC)卡;
连接器,用于连接MIC集群***中每个节点内所述MIC卡至CPU芯片。
具体地,所述连接器为PCIE插槽。
高速网络,用于连接混合异构集群中每个节点,每个节点可以互相实现高速通信。
MIC是Intel公司开发的,用于高性能并行计算的众核芯片。它是从已有的Xeon处理器产品基础上发展而来,它专为超高性能计算而生的新架构。基于MIC架构的正式产品为Xeon Phi。其在计算机体系中,并非欲取代CPU,而是作为协处理器存在的。MIC芯片通常有50个以上精简的x86核心,每个core支持4个硬件线程,可并行执行的任务数达到200以上,提供高度并行的计算能力,其双精峰值性能达到1TFlops。MIC技术将加快高性能计算的发展,快速解决高性能计算应用的性能瓶颈。
该***针对高性能计算应用,采用CPU+MIC混合集群计算,在保留传统CPU集群资源的基础上,添加MIC集群,实现更大规模的扩展,并且此***实现两级异构,***级异构,一个CPU集群***,一个MIC集群***;节点内异构,MIC节点内含有CPU和MIC,CPU与MIC实现异构协同计算,整个***的计算能力在原有传统CPU集群基础上将大大加强,解决了高性能计算应用的性能瓶颈,所以此***是一个高性能***,并且此***满足不同应用的需求,对不同的应用能实现加速。
所述***的CPU节点内存配置为64GB以上,每个节点的最大功率支持1200W以上;MIC节点内存配置为128GB以上,最大功率支持1800w以上。
所述混合异构集群***的每个节点的操作***、编译器及驱动都支持CPU、MIC。
所述操作***为Linux,所述编译器为Intel的icc、icpc、ifort。
优选地,所述***中CPU集群***的每个节点计算设备包括2个CPU芯片,所述CPU芯片包括8个核心;MIC集群***的每个节点计算设备包括2个CPU芯片、2个MIC卡,所述CPU芯片包括8个核心,所述的MIC卡包括50个核心以上。
为了使本发明的目的、技术方案和优点更加清晰,下面结合附图和实施例,对本发明作以下详细说明。
本发明是基于CPU+MIC的混合异构架构,实现高性能、高计算密度、低功耗、高应用适应性、更大规模计算。以下从硬件部分和***环境配置两发明进行说明:
硬件部分:
CPU集群***的每个节点计算设备支持2块CPU同时工作,本实施过程***采用2块intel E5-2680 8核 CPU,主频为2.7GHz ;MIC集群***的每个节点计算设备支持2块CPU与2块MIC卡同时工作,本实施过程***采用2块intel E5-2680 8核 CPU,主频为2.7GHz,MIC节点内带有2个以上PCIE插槽,能够插2块MIC卡,每个卡上有50个核心以上。
所述***的CPU节点内存配置为64GB以上,每个节点的最大功率支持1200W以上;MIC节点内存配置为128GB以上,最大功率支持1800w以上。
***环境配置:
操作***支持CPU、MIC,需要安装Linux操作***。本实施过程采用Red Hat Enterprise Linux 6.0 GA 64-bit kernel 2.6.32-71 ;
编译器支持CPU、MIC,可采用采用Intel的icc、icpc、ifort;
支持MIC的驱动 。
实施例2
此***要实现高效,必须软硬件一体化设计,让应用软件运行跑在此***上效率最高。
鉴于此,本发明一种实现大规模计算的CPU+MIC 混合异构集群***,还可从以下角度进行描述,如图2所示,该***包括:
第一执行***,其采用CPU集群进行计算,每个计算节点的处理器由2个CPU芯片实现,用于执行信息处理;
第二执行***,其采用MIC集群进行计算,每个计算节点的处理器由2个CPU芯片和2块MIC卡实现,每个计算节点分为三个执行单元:
第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;
第二、第三执行单元,均与所述第一执行单元连接,处理器分别由1块MIC卡实现,用于与所述第一执行单元并行执行信息处理。
具体地,第一执行***与第二执行***的第一、第二、第三执行单元采用多线程的方式执行信息处理,且所述第一执行***与第二执行***的第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
其中,第一执行***的每个计算节点内启动16个线程执行信息处理;第二执行***的每个计算节点中所述第一执行单元启动16个线程执行信息处理、所述第二、第三执行单元MIC卡都启动200个以上线程执行信息处理。
优选地,所述CPU芯片包括至少8个核心,每个核起一个线程,所述MIC卡包括至少50个核心,每个核心可以起4个线程。
目前主流的服务器是双路,即插2块CPU,对于MIC集群中的每个计算节点而言,至少在PCIE插槽上插2块MIC卡, CPU与MIC之间传输数据性能才能最好。
为了测试该***的性能,可选择高性能计算应用,此应用算法有高并行任务,并行任务之间数据无依赖,并行性好,整个应用对***性能要求高,地震叠前时间偏移(PreStack Time Migration,PSTM)正是具备以上特定的应用,以下以该应用为例,对现有以单线程运行的CPU平台进行改进的过程进行说明:
原有PSTM程序以单线程运行在CPU平台,首先在CPU集群***中,利用CPU多核平台,采用OpenMP编程模型把它以多线程方式实现,把所用计算任务采用16个线程并行起来,使每个节点的2块CPU的所有核的计算能力全部发挥出来;
其次在MIC集群***中,把每个MIC计算节点的计算能力划分为3个设备,第一块MIC卡作为设备0,启动200个线程以上,第二块MIC芯片作为设备1,启动200个线程以上;2块CPU作为设备3,启动16个线程;如附图2所示;
把整个PSTM的计算任务按照连个异构集群***的计算能力进行划分,使连个集群***同时并行计算,达到CPU集群与MIC集群同时计算的效果,并且保证负载均衡,整个***实现高性能。
具体地,以测试910条测线,每条测线上963个CMP(共中心点)点,输入110000道数据进行偏移成像为例,在原有CPU同构集群***(10个计算节点),PSTM以多线程并行方式花费的时间为66053s,而本***(5个CPU节点集群和5个MIC节点集群)运行时间为18170s,性能大大提升。CPU串行版PSTM运行的成像效果图见附图(3)所示,本***运行的成像效果图见附图(4)所示,其中横坐标为某条侧线的共中心点,纵坐标为时间,从图像来看,两幅图像基本一致,说明运行结果正确。
本发明***,此***具有高性能、低功耗、高计算密集、高应用适应性、更大规模计算等特点,将解决高性能应用的性能瓶颈和功耗问题,满足实际生产和科研需求,并且降低机房构建成本和管理、运行、维护费用。本发明在保留了原有计算资源的投资的基础上,实现计算规模的扩展, CPU+MIC混合异构集群计算,实现性能最大化。
从地震叠前时间偏移实施例可以看出整个***实现高性能、低功耗、高计算密度、更多规模计算,大大满足了高性能应用的科研要求和工业生产要求,此***还减少了机房构建成本和管理、运行、维护费用。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (10)
1.一种实现大规模计算的CPU+MIC混合异构集群***, 其特征在于包括:
一个中央处理器CPU集群***,所述***只采用CPU芯片计算;
一个MIC集群***,该集群***中每个节点采用CPU+MIC异构架构,节点内除CPU芯片外,还含有至少一个集成众核MIC卡;
连接器,用于连接MIC集群***中每个节点内所述MIC卡至CPU芯片;
所述连接器为PCIE插槽;
高速网络,用于连接混合异构集群中每个节点,每个节点互相实现高速通信,所述连接器为PCIE插槽。
2.根据权利要求1所述的***,其特征在于,所述***的CPU节点内存配置至少为64GB,每个节点的最大功率支持至少1200W;MIC节点内存配置为至少128GB,最大功率支持至少1800w。
3.根据权利要求1所述的***,其特征在于,所述***的操作***、编译器及驱动都支持CPU、MIC。
4.根据权利要求1所述的***,其特征在于所述操作***为Linux,所述编译器为Intel的icc、icpc、ifort。
5.根据权利要求1所述的***,其特征在于,所述***中CPU集群***的每个节点计算设备包括2个CPU芯片,所述CPU芯片包括8个核心。
6.根据权利要求1所述的***,其特征在于MIC集群***的每个节点计算设备包括2个CPU芯片、2个MIC卡,所述CPU芯片包括8个核心,所述的MIC卡包括至少50个核心。
7.根据权利要求1所述的***,其特征在于,该***包括:
第一执行***,其采用CPU集群进行计算,每个计算节点的处理器由2个CPU芯片实现,用于执行信息处理;
第二执行***,其采用MIC集群进行计算,每个计算节点的处理器由2个CPU芯片和2块MIC卡实现,每个计算节点分为三个执行单元:
第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;
第二、第三执行单元,均与所述第一执行单元连接,处理器分别由1块MIC卡实现,用于与所述第一执行单元并行执行信息处理。
8.根据权利要求7所述的***,其特征在于:第一执行***与第二执行***的第一、第二、第三执行单元采用多线程的方式执行信息处理。
9.根据权利要求7所述的***,其特征在于:第一执行***与第二执行***的第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
10.根据权利要求7所述的***,其特征在于:CPU集群每个计算节点启动16个线程执行信息处理;MIC集群每个计算节点所述第一执行单元启动16个线程执行信息处理、所述第二、第三执行单元启动至少200个线程执行信息处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201310231369 CN103294639A (zh) | 2013-06-09 | 2013-06-09 | 一种实现大规模计算的cpu+mic混合异构集群*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201310231369 CN103294639A (zh) | 2013-06-09 | 2013-06-09 | 一种实现大规模计算的cpu+mic混合异构集群*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103294639A true CN103294639A (zh) | 2013-09-11 |
Family
ID=49095543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201310231369 Pending CN103294639A (zh) | 2013-06-09 | 2013-06-09 | 一种实现大规模计算的cpu+mic混合异构集群*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103294639A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123190A (zh) * | 2014-07-23 | 2014-10-29 | 浪潮(北京)电子信息产业有限公司 | 异构集群***的负载均衡方法和装置 |
CN105227669A (zh) * | 2015-10-15 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种面向深度学习的cpu与gpu混合的集群架构*** |
CN106650315A (zh) * | 2016-11-30 | 2017-05-10 | 郑州云海信息技术有限公司 | 一种基于cpu+mic异构平台的sift并行算法 |
CN109582631A (zh) * | 2018-11-02 | 2019-04-05 | 广东工业大学 | 一种基于mic架构处理器的数据传输优化方法 |
-
2013
- 2013-06-09 CN CN 201310231369 patent/CN103294639A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123190A (zh) * | 2014-07-23 | 2014-10-29 | 浪潮(北京)电子信息产业有限公司 | 异构集群***的负载均衡方法和装置 |
CN104123190B (zh) * | 2014-07-23 | 2017-09-19 | 浪潮(北京)电子信息产业有限公司 | 异构集群***的负载均衡方法和装置 |
CN105227669A (zh) * | 2015-10-15 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种面向深度学习的cpu与gpu混合的集群架构*** |
CN106650315A (zh) * | 2016-11-30 | 2017-05-10 | 郑州云海信息技术有限公司 | 一种基于cpu+mic异构平台的sift并行算法 |
CN106650315B (zh) * | 2016-11-30 | 2020-01-03 | 苏州浪潮智能科技有限公司 | 一种基于cpu+mic异构平台的sift并行处理方法 |
CN109582631A (zh) * | 2018-11-02 | 2019-04-05 | 广东工业大学 | 一种基于mic架构处理器的数据传输优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101901042B (zh) | 多gpu***中基于动态任务迁移技术的降功耗方法 | |
CN102243321B (zh) | 一种地震叠前时间偏移的处理方法及*** | |
CN109242754B (zh) | 一种基于OpenVPX平台的多GPU高性能处理*** | |
CN101833438A (zh) | 一种基于多重并行的数据通用处理方法 | |
CN103279446A (zh) | 一种利用cpu+gpu+mic异构混合计算的多平台*** | |
CN102135949A (zh) | 基于图形处理器的计算网络***、方法及装置 | |
CN103294639A (zh) | 一种实现大规模计算的cpu+mic混合异构集群*** | |
Bull et al. | Performance evaluation of mixed-mode OpenMP/MPI implementations | |
CN112631986B (zh) | 大规模dsp并行计算装置 | |
CN104615945A (zh) | 一种基于多gpu破解设备的密码破解方法和*** | |
He et al. | A survey to predict the trend of AI-able server evolution in the cloud | |
CN103049329A (zh) | 一种基于cpu/mic异构体系结构的高效能*** | |
Kozawa et al. | Gpu-accelerated graph clustering via parallel label propagation | |
Wang et al. | Task scheduling of parallel processing in CPU-GPU collaborative environment | |
He et al. | Haas: Cloud-based real-time data analytics with heterogeneity-aware scheduling | |
Zhang et al. | Comparison and analysis of GPGPU and parallel computing on multi-core CPU | |
Chen et al. | Integrated research of parallel computing: Status and future | |
Li et al. | HeteroYARN: a heterogeneous FPGA-accelerated architecture based on YARN | |
Wang et al. | Data motion acceleration: Chaining cross-domain multi accelerators | |
Li et al. | A GPU-based parallel algorithm for large scale linear programming problem | |
Kerbyson et al. | Adapting wave-front algorithms to efficiently utilize systems with deep communication hierarchies | |
Alekseev et al. | Scientific Data Lake for High Luminosity LHC project and other data-intensive particle and astro-particle physics experiments | |
Gong et al. | Optimizing Sweep3D for graphic processor unit | |
CN102866423A (zh) | 地震叠前时间偏移的处理方法和*** | |
Kryuchkov et al. | Design of multipurpose computational cluster based on ARM single-board computers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130911 |
|
WD01 | Invention patent application deemed withdrawn after publication |