CN102404201A - 一种实现Lustre并行文件***最大带宽的方法 - Google Patents
一种实现Lustre并行文件***最大带宽的方法 Download PDFInfo
- Publication number
- CN102404201A CN102404201A CN2011103199865A CN201110319986A CN102404201A CN 102404201 A CN102404201 A CN 102404201A CN 2011103199865 A CN2011103199865 A CN 2011103199865A CN 201110319986 A CN201110319986 A CN 201110319986A CN 102404201 A CN102404201 A CN 102404201A
- Authority
- CN
- China
- Prior art keywords
- bandwidth
- lustre
- node
- client
- file system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种实现Lustre并行文件***最大带宽的方法,包括:在服务器上配置raid信息,在一套被测物理集群上安装linux操作***,在操作***上,部署Lustre并行文件***。再使用集群中计算接点作为客户端,由客户端向Lustre文件***进行加压,通过查看服务器物理资源来衡量Lustre文件***的IO性能。因此,本发明对为服务器厂商、向客户提供整体高性能计算解决方案具有非常重要的意义。
Description
技术领域
本发明涉及一种计算机网络集群技术领域, 具体地说是一种实现Lustre并行文件***最大带宽的方法。
背景技术
Lustre是HP,Intel,Cluster File System公司联合美国能源部开的Linux集群并行文件***。主要应用于高性能计算行业。Lustre 主要由Lustre Client,High Speed Interconnect,Metadata Server,Object Storage,Server组件组成,在高性能计算环境中,一般使用Lustre文件***作为集群文件***,但如何让Lustre发挥最大的性能呢,即如何让集群文件***达到最大的带宽,这是我们要考虑的。
本文假设用户的资金充裕,购买一套高性能集群,该集群由1个管理结点,512个计算结点,2个登陆结点、12个 IO 结点、12个存储、1个胖结点组成,配备1套千兆网络,1套INFINIBAND网络。
每个IO结点的存储***由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储***由1块存储控制器和12块SAS磁盘组成。
由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S。当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,我们的工作是为了消除由于网络引起的瓶颈,在如下的方案中,我们的交换网络均采用INFINIBAND网络。
发明内容
本发明的目的是提供一种实现Lustre并行文件***最大带宽的方法。
本发明的目的是按以下方式实现的,包括1个管理结点、512个计算结点、2个登陆结点、12个 IO 结点、12个存储节点、1个胖结点组成组成的集群***,配备1套千兆网络,1套INFINIBAND网络;每个IO结点的存储***由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储***由1块存储控制器和12块SAS磁盘组成,由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S,当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,为了消除由于网络引起的瓶颈,采用如下方案:
1)针对于IO结点,每个SAS磁盘单独做一个RAID0,共计6个RAID0;
2)针对于存储结点,每个SAS磁盘单独做一个RAID0,共计12个RAID0;
3)选取一个IO结点,用其6块SAS磁盘做一个RAID5,共计1个RAID5;
4)每个存储结点通过光纤连接到对应的IO结点上;
5)用RAID 0组成Lustre的OST,共计210个OST;
6)用RAID 5组成Lustre的MDT,共计1个MDT;
7)部署安装Lustre文件***client,mds,oss;
8)使用512个client同时向Lustre文件***写50G数据:
命令如下:dd if=/dev/zero of=/luster/c$$b$$test bs=1M count=50000
9)统计带宽 计算方法如下:
Client c01b01的io 带宽+ Client c01b02的io 带宽+…..Client c0nb0n的io 带宽……+……Client cnnbnn的io 带宽…..+Client c37b08……的io 带宽计算后,总带宽为4GB/S。大约为INFINBAND带宽的80%,***资源瓶颈出现在INFINBBAND,如需要,则可以把INFINBAND做成链路聚合,这样INFINBAND的带宽上升为80Gb/s,则Lustre的带宽预估算上升到8GB/S;
10)经过上述步骤,Lustre的带宽性能达最大,在数据安全性上不是最优,为使数据安全性最优,再采用如下步骤:
(1)令每两个OSS做成双机热备,每两个MDS做成双机热备,这样实现数据安全性最优。
(2)通过备份软件实现对Lustre文件***的备份,包括EMC networker。
本发明的有益效果是:本发明有效的解决Lustre文件***传统带宽低下的问题,是基于高性能计算,本方法能使Lustre的带宽达最优,满足客户对高的磁盘带宽的要求,基于该发明,可以扩展应用到搭建高性能的存储文件***。
附图说明
图1是存储节点连接结构示意图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
本发明的实现Lustre并行文件***最大带宽的方法, 包括1个管理结点、512个计算结点、2个登陆结点、12个 IO 结点、12个存储节点、1个胖结点组成组成的集群***,配备1套千兆网络,1套INFINIBAND网络;每个IO结点的存储***由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储***由1块存储控制器和12块SAS磁盘组成,由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S,当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,为了消除由于网络引起的瓶颈,包括如下步骤:
1)针对于IO结点,每个SAS磁盘单独做一个RAID0,共计6个RAID0;
2)针对于存储结点,每个SAS磁盘单独做一个RAID0,共计12个RAID0;
3)选取一个IO结点,用其6块SAS磁盘做一个RAID5,共计1个RAID5;
4)每个存储结点通过光纤连接到对应的IO结点上;
如图1所示:空心圆表示磁盘做RAID 0,实心圆表示磁盘做RAID 5;
5)用RAID 0组成Lustre的OST,共计210个OST;
6)用RAID 5组成Lustre的MDT,共计1个MDT;
7)部署安装Lustre文件***(client,mds,oss);
8)使用512个client同时向Lustre文件***写50G数据:
命令如下:dd if=/dev/zero of=/luster/c$$b$$test bs=1M count=50000
9)统计带宽 计算方法如下:
Client c01b01的io 带宽+ Client c01b02的io 带宽+…..Client c0nb0n的io 带宽……+……Client cnnbnn的io 带宽…..+Client c37b08……的io 带宽计算后,总带宽为4GB/S。大约为INFINBAND带宽的80%,***资源瓶颈出现在INFINBBAND,如需要,则可以把INFINBAND做成链路聚合,这样INFINBAND的带宽上升为80Gb/s,则Lustre的带宽预估算上升到8GB/S;
10)经过上述方案,Lustre的带宽性能达最大,在数据安全性上不是最优,为使数据安全性最优,可以通过方法一,令每两个OSS做成双机热备,每两个MDS做成双机热备。这样可以实现数据安全性最优。方法二,通过备份软件实现对Lustre文件***的备份(如:EMC networker)。
综上所述,本发明有效的解决Lustre文件***传统带宽低下。是基于高性能计算,本方法能使Lustre的带宽达最优。满足客户对高的磁盘带宽的要求。基于该发明,可以扩展应用到搭建高性能的存储文件***。
以上所述,仅为本发明较佳的具体实施方式,介但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可以轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种实现Lustre并行文件***最大带宽的方法, 其特征在于包括1个管理结点、512个计算结点、2个登陆结点、12个 IO 结点、12个存储节点、1个胖结点组成组成的集群***,配备1套千兆网络,1套INFINIBAND网络;每个IO结点的存储***由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储***由1块存储控制器和12块SAS磁盘组成,由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S,当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,为了消除由于网络引起的瓶颈,采用如下方案:
1)针对于IO结点,每个SAS磁盘单独做一个RAID0,共计6个RAID0;
2)针对于存储结点,每个SAS磁盘单独做一个RAID0,共计12个RAID0;
3)选取一个IO结点,用其6块SAS磁盘做一个RAID5,共计1个RAID5;
4)每个存储结点通过光纤连接到对应的IO结点上;
5)用RAID 0组成Lustre的OST,共计210个OST;
6)用RAID 5组成Lustre的MDT,共计1个MDT;
7)部署安装Lustre文件***client,mds,oss;
8)使用512个client同时向Lustre文件***写50G数据:
命令如下:dd if=/dev/zero of=/luster/c$$b$$test bs=1M count=50000
9)统计带宽 计算方法如下:
Client c01b01的io 带宽+ Client c01b02的io 带宽+…..Client c0nb0n的io 带宽……+……Client cnnbnn的io 带宽…..+Client c37b08……的io 带宽计算后,总带宽为4GB/S,大约为INFINBAND带宽的80%,***资源瓶颈出现在INFINBBAND,如需要,则可以把INFINBAND做成链路聚合,这样INFINBAND的带宽上升为80Gb/s,则Lustre的带宽预估算上升到8GB/S;
10)经过上述步骤,Lustre的带宽性能达最大,在数据安全性上不是最优,为使数据安全性最优,再采用如下步骤:
(1)令每两个OSS做成双机热备,每两个MDS做成双机热备,这样实现数据安全性最优;
(2)通过备份软件实现对Lustre文件***的备份,包括EMC networker。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110319986.5A CN102404201B (zh) | 2011-10-20 | 2011-10-20 | 一种实现Lustre并行文件***最大带宽的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110319986.5A CN102404201B (zh) | 2011-10-20 | 2011-10-20 | 一种实现Lustre并行文件***最大带宽的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102404201A true CN102404201A (zh) | 2012-04-04 |
CN102404201B CN102404201B (zh) | 2014-11-26 |
Family
ID=45886004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110319986.5A Active CN102404201B (zh) | 2011-10-20 | 2011-10-20 | 一种实现Lustre并行文件***最大带宽的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102404201B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077245A (zh) * | 2013-01-18 | 2013-05-01 | 浪潮电子信息产业股份有限公司 | 一种利用集群计算节点空闲硬盘空间扩展并行文件***的方法 |
CN103646194A (zh) * | 2013-11-29 | 2014-03-19 | 北京广利核***工程有限公司 | 一种基于形式化验证的同步数据流程序的可信排序方法 |
CN104378442A (zh) * | 2014-11-26 | 2015-02-25 | 北京航空航天大学 | 一种减少资源竞争的Trace文件转储方法 |
CN104598568A (zh) * | 2015-01-12 | 2015-05-06 | 浪潮电子信息产业股份有限公司 | 一种高效、低功耗的离线存储***及方法 |
CN106227839A (zh) * | 2016-07-26 | 2016-12-14 | 浪潮电子信息产业股份有限公司 | 一种lustre文件***的扩容方法及装置 |
CN110162312A (zh) * | 2019-05-28 | 2019-08-23 | 苏州浪潮智能科技有限公司 | 一种基于IML的BeeGFS配置方法与装置 |
WO2021208560A1 (zh) * | 2020-04-17 | 2021-10-21 | 苏州浪潮智能科技有限公司 | 一种文件***架构的性能调整方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980192A (zh) * | 2010-10-15 | 2011-02-23 | 中兴通讯股份有限公司 | 一种基于对象的集群文件***管理方法及集群文件*** |
CN102147809A (zh) * | 2011-03-22 | 2011-08-10 | 曙光信息产业股份有限公司 | 一种并行文件***及其管理方法 |
-
2011
- 2011-10-20 CN CN201110319986.5A patent/CN102404201B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980192A (zh) * | 2010-10-15 | 2011-02-23 | 中兴通讯股份有限公司 | 一种基于对象的集群文件***管理方法及集群文件*** |
CN102147809A (zh) * | 2011-03-22 | 2011-08-10 | 曙光信息产业股份有限公司 | 一种并行文件***及其管理方法 |
Non-Patent Citations (2)
Title |
---|
王博等: "Lustre文件***的性能优化研究", 《微型电脑应用》 * |
马天蔚: "I/O不再是瓶颈——惠普推出基于Lustre集群技术的存储网格产品", 《每周电脑报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077245A (zh) * | 2013-01-18 | 2013-05-01 | 浪潮电子信息产业股份有限公司 | 一种利用集群计算节点空闲硬盘空间扩展并行文件***的方法 |
CN103646194A (zh) * | 2013-11-29 | 2014-03-19 | 北京广利核***工程有限公司 | 一种基于形式化验证的同步数据流程序的可信排序方法 |
CN103646194B (zh) * | 2013-11-29 | 2016-04-06 | 北京广利核***工程有限公司 | 一种基于形式化验证的同步数据流程序的可信排序方法 |
CN104378442A (zh) * | 2014-11-26 | 2015-02-25 | 北京航空航天大学 | 一种减少资源竞争的Trace文件转储方法 |
CN104378442B (zh) * | 2014-11-26 | 2017-08-25 | 北京航空航天大学 | 一种减少资源竞争的Trace文件转储方法 |
CN104598568A (zh) * | 2015-01-12 | 2015-05-06 | 浪潮电子信息产业股份有限公司 | 一种高效、低功耗的离线存储***及方法 |
CN106227839A (zh) * | 2016-07-26 | 2016-12-14 | 浪潮电子信息产业股份有限公司 | 一种lustre文件***的扩容方法及装置 |
CN110162312A (zh) * | 2019-05-28 | 2019-08-23 | 苏州浪潮智能科技有限公司 | 一种基于IML的BeeGFS配置方法与装置 |
CN110162312B (zh) * | 2019-05-28 | 2023-01-06 | 苏州浪潮智能科技有限公司 | 一种基于IML的BeeGFS配置方法与装置 |
WO2021208560A1 (zh) * | 2020-04-17 | 2021-10-21 | 苏州浪潮智能科技有限公司 | 一种文件***架构的性能调整方法和装置 |
US12007953B2 (en) | 2020-04-17 | 2024-06-11 | Inspur Suzhou Intelligent Technology Co., Ltd. | Performance adjusting method and apparatus for file system architecture |
Also Published As
Publication number | Publication date |
---|---|
CN102404201B (zh) | 2014-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102404201B (zh) | 一种实现Lustre并行文件***最大带宽的方法 | |
CN105843557B (zh) | 冗余存储***、冗余存储方法和冗余存储装置 | |
CN105472047B (zh) | 存储*** | |
CN102571904A (zh) | 一种模块化设计的nas集群***构建方法 | |
CN102833237B (zh) | 一种基于桥接的无限带宽协议转换方法及*** | |
CN202870800U (zh) | 一种嵌入式大容量网络存储控制模块 | |
CN104333586A (zh) | 一种基于光纤链路的san存储设计方法 | |
US20150200818A1 (en) | High-availability computer system, working method and the use thereof | |
CN102413172A (zh) | 一种基于集群技术的并行数据共享装置方法和装置 | |
Shipman et al. | The spider center wide file system: From concept to reality | |
CN101815078B (zh) | 嵌入式虚拟磁带库并行存储*** | |
CN102820998B (zh) | 实现面向办公应用的双机容错服务***及其数据存储方法 | |
CN104202359A (zh) | 一种基于刀片服务器的NVMe SSD虚拟化设计方法 | |
CN106055276A (zh) | 一种非集中式集群存储*** | |
CN105653213A (zh) | 一种基于Freescale P3041的双控磁盘阵列 | |
Saini et al. | An application-based performance evaluation of nasa's nebula cloud computing platform | |
CN202856789U (zh) | 一种融合nas和san的数据资源存储*** | |
Dufrasne et al. | IBM DS8870 Architecture and Implementation (release 7.5) | |
CN105204787B (zh) | 一种pcie ssd阵列的数据读方法、***及读写方法 | |
CN116700445A (zh) | 一种基于分布式存储硬件架构的全闪存arm存储服务器 | |
CN103209218A (zh) | 容灾一体机管理*** | |
CN203054824U (zh) | 一种服务器存储*** | |
CN102799708B (zh) | 应用于电磁仿真的gpu高性能计算平台装置 | |
He et al. | STICS: SCSI-to-IP cache for storage area networks | |
CN204031220U (zh) | 一种智能网络磁盘存储*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |