CN103294639A

CN103294639A - 一种实现大规模计算的cpu+mic混合异构集群***

Info

Publication number: CN103294639A
Application number: CN 201310231369
Authority: CN
Inventors: 张清; 张广勇
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2013-06-09
Filing date: 2013-06-09
Publication date: 2013-09-11

Abstract

本发明提供一种实现大规模计算的CPU+MIC混合异构集群***，该混合异构集群***包括：一个纯CPU节点集群***，每个节点内只含CPU计算芯片；一个MIC节点集群***，每个节点含有CPU芯片和至少一个集成众核（MIC）卡。本发明混合异构集群***可以在原因CPU集群***上实现更大规模的计算扩展，有效提高***性能，满足更大规模计算的高性能应用的需求。

Description

一种实现大规模计算的CPU+MIC混合异构集群***

技术领域

本发明涉及高性能计算领域，具体涉及一种实现大规模计算的CPU+ MIC混合异构集群***。

背景技术

高性能计算是信息领域的前沿高技术，在保障国家安全、推动国防科技进步、促进尖端武器发展方面具有直接推动作用，是衡量一个国家综合实力的重要标志之一。随着信息化社会的飞速发展，人类对信息处理能力的要求越来越高，不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算，而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。

计算速度对于高性能计算尤为重要，高性能计算将朝多核、众核发展，采用异构并行提升应用计算速度，目前CPU+GPU是非常成熟的异构协同计算模式，但由于GPU在编程效率、细粒度并行算法、大规模并行性能上都存在巨大挑战。

MIC是Intel公司开发的，用于高性能并行计算的众核芯片。它是从已有的Xeon处理器产品基础上发展而来，它专为超高性能计算而生的新架构。基于MIC架构的正式产品为Xeon Phi。其在计算机体系中，并非欲取代CPU，而是作为协处理器存在的。MIC芯片通常有50个以上精简的x86核心，每个core支持4个硬件线程，可并行执行的任务数达到200以上，提供高度并行的计算能力，其双精峰值性能达到1TFlops。MIC技术将加快高性能计算的发展，快速解决高性能计算应用的性能瓶颈。

发明内容

本发明的目的是提供一种实现大规模计算的CPU+MIC混合异构集群***。

本发明的目的是按以下方式实现的，包括：

一个中央处理器CPU集群***，所述***只采用CPU芯片计算；

一个MIC集群***，该集群***中每个节点采用CPU+MIC异构架构，节点内除CPU芯片外，还含有至少一个集成众核MIC卡；

连接器，用于连接MIC集群***中每个节点内所述MIC卡至CPU芯片；

所述连接器为PCIE插槽；

高速网络，用于连接混合异构集群中每个节点，每个节点互相实现高速通信。

所述连接器为PCIE插槽。

所述***的CPU节点内存配置至少为64GB，每个节点的最大功率支持至少1200W；MIC节点内存配置为至少128GB，最大功率支持至少1800w。

所述***的操作***、编译器及驱动都支持CPU、MIC。

所述操作***为Linux，所述编译器为Intel的icc、icpc、ifort。

所述***中CPU集群***的每个节点计算设备包括2个CPU芯片，所述CPU芯片包括8个核心。

MIC集群***的每个节点计算设备包括2个CPU芯片、2个MIC卡，所述CPU芯片包括8个核心，所述的MIC卡包括至少50个核心。

***包括：

第一执行***，其采用CPU集群进行计算，每个计算节点的处理器由2个CPU芯片实现，用于执行信息处理；

第二执行***，其采用MIC集群进行计算，每个计算节点的处理器由2个CPU芯片和2块MIC卡实现，每个计算节点分为三个执行单元：

第一执行单元，其处理器由2个CPU芯片实现，用于执行信息处理；

第二、第三执行单元，均与所述第一执行单元连接，处理器分别由1块MIC卡实现，用于与所述第一执行单元并行执行信息处理。

第一执行***与第二执行***的第一、第二、第三执行单元采用多线程的方式执行信息处理。

第一执行***与第二执行***的第一、第二、第三执行单元基于负载均衡的原则执行信息处理。

CPU集群每个计算节点启动16个线程执行信息处理；MIC集群每个计算节点所述第一执行单元启动16个线程执行信息处理、所述第二、第三执行单元启动至少200个线程执行信息处理。

本发明的有益效果是：本发明混合异构集群***由纯CPU节点计算集群和MIC节点计算集群组成，可以在保留原有传统CPU集群***的同时，实现计算规模的扩展，满足高性能应用的要求，并且此***可以有效的提高***性能。

附图说明

图1是大规模计算的CPU+ MIC混合异构集群***实施例1的模块结构示意图；

图2是大规模计算的CPU+ MIC混合异构集群***实施例2的模块结构示意图；

图3是 PSTM串行运行效果图；

图4是采用本发明***运行PSTM的运行效果图。

具体实施方式

参照说明书附图对本发明的方法作以下详细地说明。

实施例1

本发明一种实现大规模计算的CPU+MIC 混合异构集群***，如图1所示，该***包括：

一个纯中央处理器（CPU）集群***，所述***只采用CPU芯片计算；

一个MIC集群***，该集群***中每个节点采用CPU+MIC异构架构，节点内除CPU芯片外，还含有至少一个集成众核（MIC）卡；

连接器，用于连接MIC集群***中每个节点内所述MIC卡至CPU芯片。

具体地，所述连接器为PCIE插槽。

高速网络，用于连接混合异构集群中每个节点，每个节点可以互相实现高速通信。

该***针对高性能计算应用，采用CPU+MIC混合集群计算，在保留传统CPU集群资源的基础上，添加MIC集群，实现更大规模的扩展，并且此***实现两级异构，***级异构，一个CPU集群***，一个MIC集群***；节点内异构，MIC节点内含有CPU和MIC，CPU与MIC实现异构协同计算，整个***的计算能力在原有传统CPU集群基础上将大大加强，解决了高性能计算应用的性能瓶颈，所以此***是一个高性能***，并且此***满足不同应用的需求，对不同的应用能实现加速。

所述***的CPU节点内存配置为64GB以上，每个节点的最大功率支持1200W以上；MIC节点内存配置为128GB以上，最大功率支持1800w以上。

所述混合异构集群***的每个节点的操作***、编译器及驱动都支持CPU、MIC。

所述操作***为Linux，所述编译器为Intel的icc、icpc、ifort。

优选地，所述***中CPU集群***的每个节点计算设备包括2个CPU芯片，所述CPU芯片包括8个核心；MIC集群***的每个节点计算设备包括2个CPU芯片、2个MIC卡，所述CPU芯片包括8个核心，所述的MIC卡包括50个核心以上。

为了使本发明的目的、技术方案和优点更加清晰，下面结合附图和实施例，对本发明作以下详细说明。

本发明是基于CPU+MIC的混合异构架构，实现高性能、高计算密度、低功耗、高应用适应性、更大规模计算。以下从硬件部分和***环境配置两发明进行说明：

硬件部分：

CPU集群***的每个节点计算设备支持2块CPU同时工作，本实施过程***采用2块intel E5-2680 8核 CPU，主频为2.7GHz ；MIC集群***的每个节点计算设备支持2块CPU与2块MIC卡同时工作，本实施过程***采用2块intel E5-2680 8核 CPU，主频为2.7GHz，MIC节点内带有2个以上PCIE插槽，能够插2块MIC卡，每个卡上有50个核心以上。

***环境配置：

操作***支持CPU、MIC，需要安装Linux操作***。本实施过程采用Red Hat Enterprise Linux 6.0 GA 64-bit kernel 2.6.32-71 ；

编译器支持CPU、MIC，可采用采用Intel的icc、icpc、ifort；

支持MIC的驱动。

实施例2

此***要实现高效，必须软硬件一体化设计，让应用软件运行跑在此***上效率最高。

鉴于此，本发明一种实现大规模计算的CPU+MIC 混合异构集群***，还可从以下角度进行描述，如图2所示，该***包括：

具体地，第一执行***与第二执行***的第一、第二、第三执行单元采用多线程的方式执行信息处理，且所述第一执行***与第二执行***的第一、第二、第三执行单元基于负载均衡的原则执行信息处理。

其中，第一执行***的每个计算节点内启动16个线程执行信息处理；第二执行***的每个计算节点中所述第一执行单元启动16个线程执行信息处理、所述第二、第三执行单元MIC卡都启动200个以上线程执行信息处理。

优选地，所述CPU芯片包括至少8个核心，每个核起一个线程，所述MIC卡包括至少50个核心，每个核心可以起4个线程。

目前主流的服务器是双路，即插2块CPU，对于MIC集群中的每个计算节点而言，至少在PCIE插槽上插2块MIC卡， CPU与MIC之间传输数据性能才能最好。

为了测试该***的性能，可选择高性能计算应用，此应用算法有高并行任务，并行任务之间数据无依赖，并行性好，整个应用对***性能要求高，地震叠前时间偏移（PreStack Time Migration，PSTM）正是具备以上特定的应用，以下以该应用为例，对现有以单线程运行的CPU平台进行改进的过程进行说明：

原有PSTM程序以单线程运行在CPU平台，首先在CPU集群***中，利用CPU多核平台，采用OpenMP编程模型把它以多线程方式实现，把所用计算任务采用16个线程并行起来，使每个节点的2块CPU的所有核的计算能力全部发挥出来；

其次在MIC集群***中，把每个MIC计算节点的计算能力划分为3个设备，第一块MIC卡作为设备0，启动200个线程以上，第二块MIC芯片作为设备1，启动200个线程以上；2块CPU作为设备3，启动16个线程；如附图2所示；

把整个PSTM的计算任务按照连个异构集群***的计算能力进行划分，使连个集群***同时并行计算，达到CPU集群与MIC集群同时计算的效果，并且保证负载均衡，整个***实现高性能。

具体地，以测试910条测线，每条测线上963个CMP（共中心点）点，输入110000道数据进行偏移成像为例，在原有CPU同构集群***（10个计算节点），PSTM以多线程并行方式花费的时间为66053s，而本***（5个CPU节点集群和5个MIC节点集群）运行时间为18170s，性能大大提升。CPU串行版PSTM运行的成像效果图见附图(3)所示，本***运行的成像效果图见附图(4)所示，其中横坐标为某条侧线的共中心点，纵坐标为时间，从图像来看，两幅图像基本一致，说明运行结果正确。

本发明***，此***具有高性能、低功耗、高计算密集、高应用适应性、更大规模计算等特点，将解决高性能应用的性能瓶颈和功耗问题，满足实际生产和科研需求，并且降低机房构建成本和管理、运行、维护费用。本发明在保留了原有计算资源的投资的基础上，实现计算规模的扩展， CPU+MIC混合异构集群计算，实现性能最大化。

从地震叠前时间偏移实施例可以看出整个***实现高性能、低功耗、高计算密度、更多规模计算，大大满足了高性能应用的科研要求和工业生产要求，此***还减少了机房构建成本和管理、运行、维护费用。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种实现大规模计算的CPU+MIC混合异构集群***, 其特征在于包括：

一个中央处理器CPU集群***，所述***只采用CPU芯片计算；

所述连接器为PCIE插槽；

高速网络，用于连接混合异构集群中每个节点，每个节点互相实现高速通信，所述连接器为PCIE插槽。

2.根据权利要求1所述的***，其特征在于，所述***的CPU节点内存配置至少为64GB，每个节点的最大功率支持至少1200W；MIC节点内存配置为至少128GB，最大功率支持至少1800w。

3.根据权利要求1所述的***，其特征在于，所述***的操作***、编译器及驱动都支持CPU、MIC。

4.根据权利要求1所述的***，其特征在于所述操作***为Linux，所述编译器为Intel的icc、icpc、ifort。

5.根据权利要求1所述的***，其特征在于，所述***中CPU集群***的每个节点计算设备包括2个CPU芯片，所述CPU芯片包括8个核心。

6.根据权利要求1所述的***，其特征在于MIC集群***的每个节点计算设备包括2个CPU芯片、2个MIC卡，所述CPU芯片包括8个核心，所述的MIC卡包括至少50个核心。

7.根据权利要求1所述的***，其特征在于，该***包括：

8.根据权利要求7所述的***，其特征在于：第一执行***与第二执行***的第一、第二、第三执行单元采用多线程的方式执行信息处理。

9.根据权利要求7所述的***，其特征在于：第一执行***与第二执行***的第一、第二、第三执行单元基于负载均衡的原则执行信息处理。

10.根据权利要求7所述的***，其特征在于：CPU集群每个计算节点启动16个线程执行信息处理；MIC集群每个计算节点所述第一执行单元启动16个线程执行信息处理、所述第二、第三执行单元启动至少200个线程执行信息处理。