CN102169448A - 一种集群并行运算环境的部署方法 - Google Patents

一种集群并行运算环境的部署方法 Download PDF

Info

Publication number
CN102169448A
CN102169448A CN2011100656479A CN201110065647A CN102169448A CN 102169448 A CN102169448 A CN 102169448A CN 2011100656479 A CN2011100656479 A CN 2011100656479A CN 201110065647 A CN201110065647 A CN 201110065647A CN 102169448 A CN102169448 A CN 102169448A
Authority
CN
China
Prior art keywords
node
lustre
cluster
network
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100656479A
Other languages
English (en)
Other versions
CN102169448B (zh
Inventor
陈良华
郑辉
陈彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN 201110065647 priority Critical patent/CN102169448B/zh
Publication of CN102169448A publication Critical patent/CN102169448A/zh
Application granted granted Critical
Publication of CN102169448B publication Critical patent/CN102169448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种集群并行运算环境的部署方法,属于HPC集群的部署和实施领域,该方法包括以下步骤:A:在管理节点上安装linux***,使用网络安装计算节点和lustre节点的操作***;B:通过光纤存储网络把存储设备挂载到lustre节点上,部署lustre并行文件***;C:使用高速网络,针对管理节点和计算节点挂载lustre并行文件***和目录;D:配置无密码访问环境,实现节点间的无密码访问;E:在管理节点上,配置nis和ntp服务,实现用户共享和节点时间同步;F:部署应用软件到共享的lustre文件目录;G:配置监控工具,实时监控集群节点运行状态。本发明通过高效的HPC实施方法,降低实施成本,增强HPC集群的稳定性和可靠性。

Description

一种集群并行运算环境的部署方法
技术领域
本发明涉及HPC集群的部署和实施,具体地说是一种集群并行运算环境的部署方法。
背景技术
高性能计算(HPC)通常使用很多处理器,在高速互联网络中,使用MPI等并行计算环境,运行并行计算软件,加速科学运算的效率。伴随着HPC在高校和科研院所的普及,高效、稳定的并行环境部署实施方法,对于HPC项目实施和性能保证是一个不容忽视的环节。
对于HPC集群管理节点和多个计算节点的部署,传统部署方式基本采用基于以太网和NFS的网络共享目录,使用自定义shell脚本进行逐步部署。在此部署方法中,容易出现网络延迟、NFS文件***读写性能降低、脚本易用性差导致并行环境不稳定等现象。
发明内容
本发明的目的是提供一种集群并行运算环境的部署方法。
本发明的目的是按以下方式实现的,该方法包括以下步骤:
A、在管理节点上安装linux***,使用网络安装计算节点和lustre节点的操作***;
B、通过光纤存储网络把存储设备挂载到lustre节点上,部署lustre并行文件***;
C、使用高速网络,针对管理节点和计算节点挂载lustre并行文件***和目录;
D、配置无密码访问环境,实现节点间的无密码访问;
E、在管理节点上,配置nis(网络信息服务)和ntp(网络时间协议)服务,实现用户共享和节点时间同步;
F、部署应用软件到共享的lustre文件目录;
G、配置监控工具,实时监控集群节点运行状态。
针对集群并行运算环境,基于Infiniband网络和lustre文件***,采用tentakel工具集中部署,并使用ganglia进行集群监控。
通过基于Infiniband网络的lustre文件***集群共享管理节点/opt和/home目录,使用tentakel工具快速集中部署HPC集群并行环境,提高了并行环境部署效率和稳定性。
保护HPC项目的实施方法。
通过高效的HPC实施方法,降低实施成本,增强HPC集群的稳定性和可靠性。
附图说明
附图1为本发明的工作流程图;
附图2为本发明的网络结构示意图。
具体实施方式
下面结合附图对本发明作进一步介绍
该方法的网络架构共分为2部分:存储网络和计算网络。
存储网络使用8GB FC光纤交换机,采用FC SAN架构的存储设备,划分不同的lun(逻辑单元号)空间分别挂载到ls1、ls2……lsn等lustre(可扩展的高性能文件***)文件***服务器上。Ls1到lsn共n台服务器采用ls1做mds服务器,其他服务器做oss(运营支撑***)服务器,存储的lun分区分别做mdt和ost设备,形成lustre分布式文件***,文件的读写性能大幅度提高。
计算网络采用Infiniband交换机,通过IB线缆搭配服务器的HCA卡连接到lustre节点(ls1——lsn)、管理节点(m1)和计算节点(c1——cn)。采用IB overIP通讯机制,实现节点间的高速网络通讯。IB交换机的带宽能够达到40Gb/s,这是以太网所不能满足的。
使用m1管理节点和计算节点挂载lustre并行文件***对应的共享目录。
第一步,在管理节点m1上安装linux***,使用网络安装计算节点和lustre节点的操作***。
第二步,通过光纤存储网络把存储设备挂载到lustre节点(ls1——lsn)上,部署lustre并行文件***。
第三步,使用infiniband高速网络,针对管理节点和计算节点挂载lustre并行文件***/home和/opt目录。
第四步,配置ssh(安全外壳协议)和rsh(远程外壳命令)无密码访问环境,实现节点间的无密码访问。
第五步,在管理节点上,使用tentakel(多机管理)工具配置nis和ntp服务,实现用户共享和节点时间同步。
第六步,安装intel编译器、mkl(数学核心函数库)和mpi(多结构消息传递库),部署应用软件到共享的lustre文件目录/opt,使节点之间采用infiniband网络通讯满足网络带宽需求。
第七步,配置ganglia监控工具,实时监控集群节点运行状态。

Claims (1)

1.一种集群并行运算环境的部署方法,其特征在于该方法包括以下步骤:
A、在管理节点上安装linux***,使用网络安装计算节点和lustre节点的操作***;
B、通过光纤存储网络把存储设备挂载到lustre节点上,部署lustre并行文件***;
C、使用高速网络,针对管理节点和计算节点挂载lustre并行文件***和目录;
D、配置无密码访问环境,实现节点间的无密码访问;
E、在管理节点上,配置nis和ntp服务,实现用户共享和节点时间同步;
F、部署应用软件到共享的lustre文件目录;
G、配置监控工具,实时监控集群节点运行状态。
CN 201110065647 2011-03-18 2011-03-18 一种集群并行运算环境的部署方法 Active CN102169448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110065647 CN102169448B (zh) 2011-03-18 2011-03-18 一种集群并行运算环境的部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110065647 CN102169448B (zh) 2011-03-18 2011-03-18 一种集群并行运算环境的部署方法

Publications (2)

Publication Number Publication Date
CN102169448A true CN102169448A (zh) 2011-08-31
CN102169448B CN102169448B (zh) 2013-10-23

Family

ID=44490614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110065647 Active CN102169448B (zh) 2011-03-18 2011-03-18 一种集群并行运算环境的部署方法

Country Status (1)

Country Link
CN (1) CN102169448B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647448A (zh) * 2012-03-20 2012-08-22 浪潮电子信息产业股份有限公司 一种自动化快速部署网络信息服务nis的方法
CN102724311A (zh) * 2012-06-18 2012-10-10 苏州超集信息科技有限公司 工作站集群***
CN102902615A (zh) * 2012-09-18 2013-01-30 曙光信息产业(北京)有限公司 一种Lustre并行文件***错误报警方法及其***
CN103209098A (zh) * 2013-04-16 2013-07-17 浪潮电子信息产业股份有限公司 一种实现服务器双机功能的方法
CN103475734A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种Linux集群用户备份迁移的方法
CN103646194A (zh) * 2013-11-29 2014-03-19 北京广利核***工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN104268014A (zh) * 2014-10-20 2015-01-07 山东超越数控电子有限公司 一种基于申威平台的高性能计算作业管理实现方法
CN104580217A (zh) * 2015-01-09 2015-04-29 浪潮电子信息产业股份有限公司 一种Rack机柜ssh无密码批量访问各节点的方法
CN104572269A (zh) * 2015-01-19 2015-04-29 浪潮电子信息产业股份有限公司 一种基于Linux操作***的集群快速部署方法
CN104657276A (zh) * 2015-03-13 2015-05-27 浪潮集团有限公司 一种配置iozone集群测试的方法
CN105278985A (zh) * 2015-09-25 2016-01-27 浪潮(北京)电子信息产业有限公司 一种部署文件***的方法及***
CN105430096A (zh) * 2015-12-22 2016-03-23 曙光信息产业(北京)有限公司 并行文件***的自动安装方法及装置
CN106713493A (zh) * 2017-01-20 2017-05-24 郑州云海信息技术有限公司 一种在计算机集群环境中构建分布式文件***及方法
CN107454140A (zh) * 2017-06-27 2017-12-08 北京溢思得瑞智能科技研究院有限公司 一种基于大数据平台的Ceph集群自动化部署方法及***
CN107480030A (zh) * 2017-08-03 2017-12-15 郑州云海信息技术有限公司 一种对节点进行统一管理的集群部署方法及***
CN108234164A (zh) * 2016-12-14 2018-06-29 杭州海康威视数字技术股份有限公司 集群部署方法及装置
CN109739823A (zh) * 2018-12-27 2019-05-10 郑州云海信息技术有限公司 一种搭建并行文件***的方法及装置
CN111225064A (zh) * 2020-02-24 2020-06-02 中科星图股份有限公司 Ceph集群部署方法、***、设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731738A (zh) * 2005-08-30 2006-02-08 西安交通大学 大规模计算机集群***节点的自动化快速部署方法
CN1744047A (zh) * 2005-09-27 2006-03-08 浪潮电子信息产业股份有限公司 一种实现基于机群结构的高性能服务器动态部署方法
CN101170423A (zh) * 2007-11-15 2008-04-30 曙光信息产业(北京)有限公司 一种面向服务的机群部署方法
CN101232422A (zh) * 2008-01-18 2008-07-30 北京交通大学 一种基于网格技术的网络存储***
US20090094310A1 (en) * 2007-10-03 2009-04-09 Fuji Xerox Co., Ltd. Parallel computing system and parallel computing method
US20090113051A1 (en) * 2007-10-30 2009-04-30 Modern Grids, Inc. Method and system for hosting multiple, customized computing clusters

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731738A (zh) * 2005-08-30 2006-02-08 西安交通大学 大规模计算机集群***节点的自动化快速部署方法
CN1744047A (zh) * 2005-09-27 2006-03-08 浪潮电子信息产业股份有限公司 一种实现基于机群结构的高性能服务器动态部署方法
US20090094310A1 (en) * 2007-10-03 2009-04-09 Fuji Xerox Co., Ltd. Parallel computing system and parallel computing method
US20090113051A1 (en) * 2007-10-30 2009-04-30 Modern Grids, Inc. Method and system for hosting multiple, customized computing clusters
CN101170423A (zh) * 2007-11-15 2008-04-30 曙光信息产业(北京)有限公司 一种面向服务的机群部署方法
CN101232422A (zh) * 2008-01-18 2008-07-30 北京交通大学 一种基于网格技术的网络存储***

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647448A (zh) * 2012-03-20 2012-08-22 浪潮电子信息产业股份有限公司 一种自动化快速部署网络信息服务nis的方法
CN102724311A (zh) * 2012-06-18 2012-10-10 苏州超集信息科技有限公司 工作站集群***
CN102902615A (zh) * 2012-09-18 2013-01-30 曙光信息产业(北京)有限公司 一种Lustre并行文件***错误报警方法及其***
CN102902615B (zh) * 2012-09-18 2016-12-21 曙光信息产业(北京)有限公司 一种Lustre并行文件***错误报警方法及其***
CN103209098A (zh) * 2013-04-16 2013-07-17 浪潮电子信息产业股份有限公司 一种实现服务器双机功能的方法
CN103475734A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种Linux集群用户备份迁移的方法
CN103646194B (zh) * 2013-11-29 2016-04-06 北京广利核***工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN103646194A (zh) * 2013-11-29 2014-03-19 北京广利核***工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN104268014A (zh) * 2014-10-20 2015-01-07 山东超越数控电子有限公司 一种基于申威平台的高性能计算作业管理实现方法
CN104580217A (zh) * 2015-01-09 2015-04-29 浪潮电子信息产业股份有限公司 一种Rack机柜ssh无密码批量访问各节点的方法
CN104572269A (zh) * 2015-01-19 2015-04-29 浪潮电子信息产业股份有限公司 一种基于Linux操作***的集群快速部署方法
CN104657276A (zh) * 2015-03-13 2015-05-27 浪潮集团有限公司 一种配置iozone集群测试的方法
CN105278985A (zh) * 2015-09-25 2016-01-27 浪潮(北京)电子信息产业有限公司 一种部署文件***的方法及***
CN105430096A (zh) * 2015-12-22 2016-03-23 曙光信息产业(北京)有限公司 并行文件***的自动安装方法及装置
CN108234164A (zh) * 2016-12-14 2018-06-29 杭州海康威视数字技术股份有限公司 集群部署方法及装置
CN108234164B (zh) * 2016-12-14 2021-03-16 杭州海康威视数字技术股份有限公司 集群部署方法及装置
CN106713493A (zh) * 2017-01-20 2017-05-24 郑州云海信息技术有限公司 一种在计算机集群环境中构建分布式文件***及方法
CN106713493B (zh) * 2017-01-20 2020-09-29 苏州浪潮智能科技有限公司 一种在计算机集群环境中构建分布式文件***及方法
CN107454140A (zh) * 2017-06-27 2017-12-08 北京溢思得瑞智能科技研究院有限公司 一种基于大数据平台的Ceph集群自动化部署方法及***
CN107480030A (zh) * 2017-08-03 2017-12-15 郑州云海信息技术有限公司 一种对节点进行统一管理的集群部署方法及***
CN109739823A (zh) * 2018-12-27 2019-05-10 郑州云海信息技术有限公司 一种搭建并行文件***的方法及装置
CN111225064A (zh) * 2020-02-24 2020-06-02 中科星图股份有限公司 Ceph集群部署方法、***、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN102169448B (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
CN102169448B (zh) 一种集群并行运算环境的部署方法
US9361087B1 (en) Device driver aggregation in operating system deployment
US20170295108A1 (en) Specifying a highly-resilient system in a disaggregated compute environment
CN102413172B (zh) 一种基于集群技术的并行数据共享装置方法和装置
JP6137313B2 (ja) 高可用性コンピュータシステム
CN102387218A (zh) 一种计算机多机热备负载均衡***
CN104991483A (zh) 一种基于虚拟化技术的测发控远程监控平台
CN109547537A (zh) 基于SAN存储共享卷实现openstack高可用的方法
Wang et al. JVM-bypass for efficient Hadoop shuffling
CN106686099A (zh) 一种基于infiniband网络实现Oracle RAC数据库跨机房双活的方法
CN115102986B (zh) 一种边缘环境下物联网数据分发、存储方法及***
CN109302494A (zh) 一种网络存储***的配置方法、装置、设备及介质
Sun et al. Republic: Data multicast meets hybrid rack-level interconnections in data center
CN202798790U (zh) 一种基于InfiniBand云计算网络的虚拟化***
Zhao et al. Cloud storage technology in video surveillance
CN115225664B (zh) 一种气象信息基础设施资源云平台的构建方法
CN102799708B (zh) 应用于电磁仿真的gpu高性能计算平台装置
CN204652434U (zh) 一种大数据云计算一体机
CN103037031A (zh) 一种iSCSI目标器的IP地址管理方法
RU186862U1 (ru) Абонентское сетевое устройство с виртуализированными сетевыми функциями
CN207665011U (zh) 一种面向云计算的灾难恢复***
CN104104549A (zh) 一种高可用集群存储***实现方法
CN202406147U (zh) 一种计算机集群***
CN202720644U (zh) 应用于电磁仿真的gpu高性能计算平台装置
Zhou Optimizing Institute network storage building base on iSCSI for IP-SAN

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant