CN103294639A - 一种实现大规模计算的cpu+mic混合异构集群*** - Google Patents

一种实现大规模计算的cpu+mic混合异构集群*** Download PDF

Info

Publication number
CN103294639A
CN103294639A CN 201310231369 CN201310231369A CN103294639A CN 103294639 A CN103294639 A CN 103294639A CN 201310231369 CN201310231369 CN 201310231369 CN 201310231369 A CN201310231369 A CN 201310231369A CN 103294639 A CN103294639 A CN 103294639A
Authority
CN
China
Prior art keywords
cpu
mic
node
performance element
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201310231369
Other languages
English (en)
Inventor
张清
张广勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN 201310231369 priority Critical patent/CN103294639A/zh
Publication of CN103294639A publication Critical patent/CN103294639A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Multi Processors (AREA)

Abstract

本发明提供一种实现大规模计算的CPU+MIC混合异构集群***,该混合异构集群***包括:一个纯CPU节点集群***,每个节点内只含CPU计算芯片;一个MIC节点集群***,每个节点含有CPU芯片和至少一个集成众核(MIC)卡。本发明混合异构集群***可以在原因CPU集群***上实现更大规模的计算扩展,有效提高***性能,满足更大规模计算的高性能应用的需求。

Description

一种实现大规模计算的CPU+MIC混合异构集群***
技术领域
本发明涉及高性能计算领域,具体涉及一种实现大规模计算的CPU+ MIC混合异构集群***。
背景技术
高性能计算是信息领域的前沿高技术,在保障国家安全、推动国防科技进步、促进尖端武器发展方面具有直接推动作用,是衡量一个国家综合实力的重要标志之一。随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算,而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。
计算速度对于高性能计算尤为重要,高性能计算将朝多核、众核发展,采用异构并行提升应用计算速度,目前CPU+GPU是非常成熟的异构协同计算模式,但由于GPU在编程效率、细粒度并行算法、大规模并行性能上都存在巨大挑战。
MIC是Intel公司开发的,用于高性能并行计算的众核芯片。它是从已有的Xeon处理器产品基础上发展而来,它专为超高性能计算而生的新架构。基于MIC架构的正式产品为Xeon Phi。其在计算机体系中,并非欲取代CPU,而是作为协处理器存在的。MIC芯片通常有50个以上精简的x86核心,每个core支持4个硬件线程,可并行执行的任务数达到200以上,提供高度并行的计算能力,其双精峰值性能达到1TFlops。MIC技术将加快高性能计算的发展,快速解决高性能计算应用的性能瓶颈。
发明内容
本发明的目的是提供一种实现大规模计算的CPU+MIC混合异构集群***。
本发明的目的是按以下方式实现的,包括:
一个中央处理器CPU集群***,所述***只采用CPU芯片计算;
一个MIC集群***,该集群***中每个节点采用CPU+MIC异构架构,节点内除CPU芯片外,还含有至少一个集成众核MIC卡;
连接器,用于连接MIC集群***中每个节点内所述MIC卡至CPU芯片;
所述连接器为PCIE插槽;
高速网络,用于连接混合异构集群中每个节点,每个节点互相实现高速通信。
所述连接器为PCIE插槽。
所述***的CPU节点内存配置至少为64GB,每个节点的最大功率支持至少1200W;MIC节点内存配置为至少128GB,最大功率支持至少1800w。
所述***的操作***、编译器及驱动都支持CPU、MIC。
所述操作***为Linux,所述编译器为Intel的icc、icpc、ifort。
所述***中CPU集群***的每个节点计算设备包括2个CPU芯片,所述CPU芯片包括8个核心。
MIC集群***的每个节点计算设备包括2个CPU芯片、2个MIC卡,所述CPU芯片包括8个核心,所述的MIC卡包括至少50个核心。
***包括:
第一执行***,其采用CPU集群进行计算,每个计算节点的处理器由2个CPU芯片实现,用于执行信息处理;
第二执行***,其采用MIC集群进行计算,每个计算节点的处理器由2个CPU芯片和2块MIC卡实现,每个计算节点分为三个执行单元:
第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;
第二、第三执行单元,均与所述第一执行单元连接,处理器分别由1块MIC卡实现,用于与所述第一执行单元并行执行信息处理。
第一执行***与第二执行***的第一、第二、第三执行单元采用多线程的方式执行信息处理。
第一执行***与第二执行***的第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
CPU集群每个计算节点启动16个线程执行信息处理;MIC集群每个计算节点所述第一执行单元启动16个线程执行信息处理、所述第二、第三执行单元启动至少200个线程执行信息处理。
本发明的有益效果是: 本发明混合异构集群***由纯CPU节点计算集群和MIC节点计算集群组成,可以在保留原有传统CPU集群***的同时,实现计算规模的扩展,满足高性能应用的要求,并且此***可以有效的提高***性能。
附图说明
图1是大规模计算的CPU+ MIC混合异构集群***实施例1的模块结构示意图;
图2是大规模计算的CPU+ MIC混合异构集群***实施例2的模块结构示意图;
图3是 PSTM串行运行效果图;
图4是采用本发明***运行PSTM的运行效果图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
实施例1
本发明一种实现大规模计算的CPU+MIC 混合异构集群***,如图1所示,该***包括:
一个纯中央处理器(CPU)集群***,所述***只采用CPU芯片计算;
一个MIC集群***,该集群***中每个节点采用CPU+MIC异构架构,节点内除CPU芯片外,还含有至少一个集成众核(MIC)卡;
连接器,用于连接MIC集群***中每个节点内所述MIC卡至CPU芯片。
具体地,所述连接器为PCIE插槽。
高速网络,用于连接混合异构集群中每个节点,每个节点可以互相实现高速通信。
MIC是Intel公司开发的,用于高性能并行计算的众核芯片。它是从已有的Xeon处理器产品基础上发展而来,它专为超高性能计算而生的新架构。基于MIC架构的正式产品为Xeon Phi。其在计算机体系中,并非欲取代CPU,而是作为协处理器存在的。MIC芯片通常有50个以上精简的x86核心,每个core支持4个硬件线程,可并行执行的任务数达到200以上,提供高度并行的计算能力,其双精峰值性能达到1TFlops。MIC技术将加快高性能计算的发展,快速解决高性能计算应用的性能瓶颈。
该***针对高性能计算应用,采用CPU+MIC混合集群计算,在保留传统CPU集群资源的基础上,添加MIC集群,实现更大规模的扩展,并且此***实现两级异构,***级异构,一个CPU集群***,一个MIC集群***;节点内异构,MIC节点内含有CPU和MIC,CPU与MIC实现异构协同计算,整个***的计算能力在原有传统CPU集群基础上将大大加强,解决了高性能计算应用的性能瓶颈,所以此***是一个高性能***,并且此***满足不同应用的需求,对不同的应用能实现加速。
所述***的CPU节点内存配置为64GB以上,每个节点的最大功率支持1200W以上;MIC节点内存配置为128GB以上,最大功率支持1800w以上。
所述混合异构集群***的每个节点的操作***、编译器及驱动都支持CPU、MIC。
所述操作***为Linux,所述编译器为Intel的icc、icpc、ifort。
优选地,所述***中CPU集群***的每个节点计算设备包括2个CPU芯片,所述CPU芯片包括8个核心;MIC集群***的每个节点计算设备包括2个CPU芯片、2个MIC卡,所述CPU芯片包括8个核心,所述的MIC卡包括50个核心以上。
为了使本发明的目的、技术方案和优点更加清晰,下面结合附图和实施例,对本发明作以下详细说明。
本发明是基于CPU+MIC的混合异构架构,实现高性能、高计算密度、低功耗、高应用适应性、更大规模计算。以下从硬件部分和***环境配置两发明进行说明:
硬件部分:
CPU集群***的每个节点计算设备支持2块CPU同时工作,本实施过程***采用2块intel E5-2680 8核 CPU,主频为2.7GHz ;MIC集群***的每个节点计算设备支持2块CPU与2块MIC卡同时工作,本实施过程***采用2块intel E5-2680 8核 CPU,主频为2.7GHz,MIC节点内带有2个以上PCIE插槽,能够插2块MIC卡,每个卡上有50个核心以上。
所述***的CPU节点内存配置为64GB以上,每个节点的最大功率支持1200W以上;MIC节点内存配置为128GB以上,最大功率支持1800w以上。
***环境配置:
操作***支持CPU、MIC,需要安装Linux操作***。本实施过程采用Red Hat Enterprise Linux 6.0 GA 64-bit kernel 2.6.32-71 ;
编译器支持CPU、MIC,可采用采用Intel的icc、icpc、ifort;
支持MIC的驱动 。
实施例2
此***要实现高效,必须软硬件一体化设计,让应用软件运行跑在此***上效率最高。
鉴于此,本发明一种实现大规模计算的CPU+MIC 混合异构集群***,还可从以下角度进行描述,如图2所示,该***包括:
第一执行***,其采用CPU集群进行计算,每个计算节点的处理器由2个CPU芯片实现,用于执行信息处理;
第二执行***,其采用MIC集群进行计算,每个计算节点的处理器由2个CPU芯片和2块MIC卡实现,每个计算节点分为三个执行单元:
第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;
第二、第三执行单元,均与所述第一执行单元连接,处理器分别由1块MIC卡实现,用于与所述第一执行单元并行执行信息处理。
具体地,第一执行***与第二执行***的第一、第二、第三执行单元采用多线程的方式执行信息处理,且所述第一执行***与第二执行***的第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
其中,第一执行***的每个计算节点内启动16个线程执行信息处理;第二执行***的每个计算节点中所述第一执行单元启动16个线程执行信息处理、所述第二、第三执行单元MIC卡都启动200个以上线程执行信息处理。
优选地,所述CPU芯片包括至少8个核心,每个核起一个线程,所述MIC卡包括至少50个核心,每个核心可以起4个线程。
目前主流的服务器是双路,即插2块CPU,对于MIC集群中的每个计算节点而言,至少在PCIE插槽上插2块MIC卡, CPU与MIC之间传输数据性能才能最好。
为了测试该***的性能,可选择高性能计算应用,此应用算法有高并行任务,并行任务之间数据无依赖,并行性好,整个应用对***性能要求高,地震叠前时间偏移(PreStack Time Migration,PSTM)正是具备以上特定的应用,以下以该应用为例,对现有以单线程运行的CPU平台进行改进的过程进行说明:
原有PSTM程序以单线程运行在CPU平台,首先在CPU集群***中,利用CPU多核平台,采用OpenMP编程模型把它以多线程方式实现,把所用计算任务采用16个线程并行起来,使每个节点的2块CPU的所有核的计算能力全部发挥出来; 
其次在MIC集群***中,把每个MIC计算节点的计算能力划分为3个设备,第一块MIC卡作为设备0,启动200个线程以上,第二块MIC芯片作为设备1,启动200个线程以上;2块CPU作为设备3,启动16个线程;如附图2所示;
把整个PSTM的计算任务按照连个异构集群***的计算能力进行划分,使连个集群***同时并行计算,达到CPU集群与MIC集群同时计算的效果,并且保证负载均衡,整个***实现高性能。
具体地,以测试910条测线,每条测线上963个CMP(共中心点)点,输入110000道数据进行偏移成像为例,在原有CPU同构集群***(10个计算节点),PSTM以多线程并行方式花费的时间为66053s,而本***(5个CPU节点集群和5个MIC节点集群)运行时间为18170s,性能大大提升。CPU串行版PSTM运行的成像效果图见附图(3)所示,本***运行的成像效果图见附图(4)所示,其中横坐标为某条侧线的共中心点,纵坐标为时间,从图像来看,两幅图像基本一致,说明运行结果正确。
本发明***,此***具有高性能、低功耗、高计算密集、高应用适应性、更大规模计算等特点,将解决高性能应用的性能瓶颈和功耗问题,满足实际生产和科研需求,并且降低机房构建成本和管理、运行、维护费用。本发明在保留了原有计算资源的投资的基础上,实现计算规模的扩展, CPU+MIC混合异构集群计算,实现性能最大化。
从地震叠前时间偏移实施例可以看出整个***实现高性能、低功耗、高计算密度、更多规模计算,大大满足了高性能应用的科研要求和工业生产要求,此***还减少了机房构建成本和管理、运行、维护费用。
 除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (10)

1.一种实现大规模计算的CPU+MIC混合异构集群***, 其特征在于包括:
一个中央处理器CPU集群***,所述***只采用CPU芯片计算;
一个MIC集群***,该集群***中每个节点采用CPU+MIC异构架构,节点内除CPU芯片外,还含有至少一个集成众核MIC卡;
连接器,用于连接MIC集群***中每个节点内所述MIC卡至CPU芯片;
所述连接器为PCIE插槽;
高速网络,用于连接混合异构集群中每个节点,每个节点互相实现高速通信,所述连接器为PCIE插槽。
2.根据权利要求1所述的***,其特征在于,所述***的CPU节点内存配置至少为64GB,每个节点的最大功率支持至少1200W;MIC节点内存配置为至少128GB,最大功率支持至少1800w。
3.根据权利要求1所述的***,其特征在于,所述***的操作***、编译器及驱动都支持CPU、MIC。
4.根据权利要求1所述的***,其特征在于所述操作***为Linux,所述编译器为Intel的icc、icpc、ifort。
5.根据权利要求1所述的***,其特征在于,所述***中CPU集群***的每个节点计算设备包括2个CPU芯片,所述CPU芯片包括8个核心。
6.根据权利要求1所述的***,其特征在于MIC集群***的每个节点计算设备包括2个CPU芯片、2个MIC卡,所述CPU芯片包括8个核心,所述的MIC卡包括至少50个核心。
7.根据权利要求1所述的***,其特征在于,该***包括:
第一执行***,其采用CPU集群进行计算,每个计算节点的处理器由2个CPU芯片实现,用于执行信息处理;
第二执行***,其采用MIC集群进行计算,每个计算节点的处理器由2个CPU芯片和2块MIC卡实现,每个计算节点分为三个执行单元:
第一执行单元,其处理器由2个CPU芯片实现,用于执行信息处理;
第二、第三执行单元,均与所述第一执行单元连接,处理器分别由1块MIC卡实现,用于与所述第一执行单元并行执行信息处理。
8.根据权利要求7所述的***,其特征在于:第一执行***与第二执行***的第一、第二、第三执行单元采用多线程的方式执行信息处理。
9.根据权利要求7所述的***,其特征在于:第一执行***与第二执行***的第一、第二、第三执行单元基于负载均衡的原则执行信息处理。
10.根据权利要求7所述的***,其特征在于:CPU集群每个计算节点启动16个线程执行信息处理;MIC集群每个计算节点所述第一执行单元启动16个线程执行信息处理、所述第二、第三执行单元启动至少200个线程执行信息处理。
CN 201310231369 2013-06-09 2013-06-09 一种实现大规模计算的cpu+mic混合异构集群*** Pending CN103294639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201310231369 CN103294639A (zh) 2013-06-09 2013-06-09 一种实现大规模计算的cpu+mic混合异构集群***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201310231369 CN103294639A (zh) 2013-06-09 2013-06-09 一种实现大规模计算的cpu+mic混合异构集群***

Publications (1)

Publication Number Publication Date
CN103294639A true CN103294639A (zh) 2013-09-11

Family

ID=49095543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201310231369 Pending CN103294639A (zh) 2013-06-09 2013-06-09 一种实现大规模计算的cpu+mic混合异构集群***

Country Status (1)

Country Link
CN (1) CN103294639A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123190A (zh) * 2014-07-23 2014-10-29 浪潮(北京)电子信息产业有限公司 异构集群***的负载均衡方法和装置
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构***
CN106650315A (zh) * 2016-11-30 2017-05-10 郑州云海信息技术有限公司 一种基于cpu+mic异构平台的sift并行算法
CN109582631A (zh) * 2018-11-02 2019-04-05 广东工业大学 一种基于mic架构处理器的数据传输优化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123190A (zh) * 2014-07-23 2014-10-29 浪潮(北京)电子信息产业有限公司 异构集群***的负载均衡方法和装置
CN104123190B (zh) * 2014-07-23 2017-09-19 浪潮(北京)电子信息产业有限公司 异构集群***的负载均衡方法和装置
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构***
CN106650315A (zh) * 2016-11-30 2017-05-10 郑州云海信息技术有限公司 一种基于cpu+mic异构平台的sift并行算法
CN106650315B (zh) * 2016-11-30 2020-01-03 苏州浪潮智能科技有限公司 一种基于cpu+mic异构平台的sift并行处理方法
CN109582631A (zh) * 2018-11-02 2019-04-05 广东工业大学 一种基于mic架构处理器的数据传输优化方法

Similar Documents

Publication Publication Date Title
CN101901042B (zh) 多gpu***中基于动态任务迁移技术的降功耗方法
CN102243321B (zh) 一种地震叠前时间偏移的处理方法及***
CN109242754B (zh) 一种基于OpenVPX平台的多GPU高性能处理***
CN101833438A (zh) 一种基于多重并行的数据通用处理方法
CN103279446A (zh) 一种利用cpu+gpu+mic异构混合计算的多平台***
CN102135949A (zh) 基于图形处理器的计算网络***、方法及装置
CN103294639A (zh) 一种实现大规模计算的cpu+mic混合异构集群***
Bull et al. Performance evaluation of mixed-mode OpenMP/MPI implementations
CN112631986B (zh) 大规模dsp并行计算装置
CN104615945A (zh) 一种基于多gpu破解设备的密码破解方法和***
He et al. A survey to predict the trend of AI-able server evolution in the cloud
CN103049329A (zh) 一种基于cpu/mic异构体系结构的高效能***
Kozawa et al. Gpu-accelerated graph clustering via parallel label propagation
Wang et al. Task scheduling of parallel processing in CPU-GPU collaborative environment
He et al. Haas: Cloud-based real-time data analytics with heterogeneity-aware scheduling
Zhang et al. Comparison and analysis of GPGPU and parallel computing on multi-core CPU
Chen et al. Integrated research of parallel computing: Status and future
Li et al. HeteroYARN: a heterogeneous FPGA-accelerated architecture based on YARN
Wang et al. Data motion acceleration: Chaining cross-domain multi accelerators
Li et al. A GPU-based parallel algorithm for large scale linear programming problem
Kerbyson et al. Adapting wave-front algorithms to efficiently utilize systems with deep communication hierarchies
Alekseev et al. Scientific Data Lake for High Luminosity LHC project and other data-intensive particle and astro-particle physics experiments
Gong et al. Optimizing Sweep3D for graphic processor unit
CN102866423A (zh) 地震叠前时间偏移的处理方法和***
Kryuchkov et al. Design of multipurpose computational cluster based on ARM single-board computers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130911

WD01 Invention patent application deemed withdrawn after publication