CN102523258A - 一种面向云操作***的数据存储架构及其负载均衡方法 - Google Patents

一种面向云操作***的数据存储架构及其负载均衡方法 Download PDF

Info

Publication number
CN102523258A
CN102523258A CN2011103912246A CN201110391224A CN102523258A CN 102523258 A CN102523258 A CN 102523258A CN 2011103912246 A CN2011103912246 A CN 2011103912246A CN 201110391224 A CN201110391224 A CN 201110391224A CN 102523258 A CN102523258 A CN 102523258A
Authority
CN
China
Prior art keywords
data
metadata
catalogue
storage framework
load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103912246A
Other languages
English (en)
Inventor
刘祥涛
岳强
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2011103912246A priority Critical patent/CN102523258A/zh
Publication of CN102523258A publication Critical patent/CN102523258A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及云计算领域,尤其是一种面向云操作***的数据存储架构及其负载均衡方法。采用分布式存储架构将元数据和数据进行分离,使用专门的元数据服务器存储元数据和处理客户端对元数据的请求;以目录为操作的最小单位;对大目录,则进行目录划分,即将大目录划分为合适大小的目录;然后,采用哈希的方式来进行负载的均匀分配。本发明有效解决了云操作***数据的高效、稳定存储问题,可应用于云操作***的数据存储。

Description

一种面向云操作***的数据存储架构及其负载均衡方法
技术领域
本发明涉及云计算领域,尤其是一种面向云操作***的数据存储架构及其负载均衡方法。
背景技术
云操作***能对包括处理器、存储、网络在内的硬件资源进行统一管理。在当前的云操作***应用部署中,数据存储主要有两种用途:(1)用户接口存储,即提供给用户所使用的存储;(2)***所需存储,例如虚拟机镜像存储,当前,云操作***的数据存储存在性能不高、扩展性不好、不稳定、安全性不够等问题。
发明内容
本发明解决的技术问题之一在于提供一种面向云操作***的数据存储架构,可以解决元数据服务的可用性、可扩展性。
本发明解决的技术问题之二在于提供一种面向云操作***的数据负载均衡方法,可以充分利用元数据服务器的计算资源。
本发明解决上述技术问题之一的技术方案是:
采用分布式存储架构将元数据和数据进行分离,使用专门的元数据服务器存储元数据和处理客户端对元数据的请求;
当客户端欲获取某文件数据时,将首先和元数据服务器通信,获取描述该文件数据的元数据,即获取数据在数据服务器集群的存储位置以及其他信息;然后客户端和数据服务器集群通信,获取其想要的数据。
所述的元数据服务***架构采用了多台元数据服务器。
所述的元数据指描述数据及其环境的数据,特指描述文件信息或文件目录信息的数据,这些信息包括文件大小、存放位置等。
元数据存储介质为固态硬盘、高速缓存。
本发明解决上述技术问题之二的技术方案是:
以目录为操作的最小单位;对大目录,则进行目录划分,即将大目录划分为合适大小的目录;然后,采用哈希的方式来进行负载的均匀分配。
对热点数据,提供元数据副本机制,即根据文件或目录的流行度,设置相应数量的副本数。
本发明多元架构具有如下优点:(1)无单点故障,当部分元数据服务器失效时,其他元数据服务器会接管元数据服务,保证元数据服务的高可用性;(2)可扩展性好,存储规模需要不断扩展,可能扩展到PB甚至EB级存储量,当存储量扩充时,可相应增加元数据服务器数量,以适应元数据服务的速度要求。针对云操作***数据存储的元数据服务应用场景,提出独特的在多个元数据服务器上进行负载均衡的方法,平摊负载,从而充分利用元数据服务器的计算资源。将元数据与数据进行分离的优点在于:(1)功能划分清楚,逻辑简单;让数据服务器专门存储数据和处理数据请求,而将存储和处理元数据的任务交给专门的服务器,各司其职,让处理逻辑变的简单清晰。(2)元数据服务占数据读写总量的30%到70%,而且元数据读写中绝大部分为小数据量随机读写,将占高比重的元数据服务与数据服务相分离,可以提高处理速度。
用固态硬盘和高速缓存的方式存储元数据虽然成本较传统SATA硬盘高,但是由于固态硬盘在读写数据时没有寻道时间和旋转时间,特别适合于进行频繁的小数据量的数据读写,而且,元数据的数据量不大,故在关键性能点采用适合应用场景的成本较高的固态硬盘是可取的。为进一步提高元数据读写速度,对热点较高的数据,采用高速缓存的方式进行缓存,从而进一步提高元数据服务的读取性能。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明元数据服务***架构示意图;
图2是本发明多元数据服务器负载均衡示意图。
具体实施方式
如图1所示,本发明引入了多元数据服务器架构,分布式存储架构将元数据和数据进行分离,使用专门的元数据服务器来存储元数据和处理客户端对元数据的请求。当客户端欲获取某文件数据时,将首先和元数据服务器通信,获取描述该文件数据的元数据,即获取数据在数据服务器集群的存储位置以及其他信息;然后客户端和数据服务器集群通信,获取其想要的数据。针对占比高达30%到70%的元数据服务流量,提出引入多个元数据服务器来进行负载均衡,同时针对关键数据,采用固态硬盘和高速缓存的方式来存储,从而解决热点数据的输入输出速度。
元数据,指描述数据及其环境的数据;在本发明的数据存储背景下,特指描述文件信息或文件目录信息的数据,这些信息包括:文件大小、存放位置等。
多元数据服务器,是云操作***数据存储元数据服务的核心,负责响应元数据服务请求,进行相应的元数据响应,返回文件的元数据信息。
针对关键数据,采用固态硬盘加高速缓存的方式进行存储,以提高热点数据的输入输出速度。
在元数据服务中,通常会有局部性要求,例如显示某一目录下所有文件信息的命令:ls,就要获取某一目录下的文件信息;同时,负载均衡一般要求能将负载通过适当的方式分摊到多台服务器上。为兼顾这两种要求,本发明以目录为操作的最小单位(图2),但对大目录,还需要进行目录划分,即将大目录划分为合适大小的目录;然后,采用哈希的方式来进行负载的均匀分配,做到兼顾局部性的负载尽量分摊,其中,以目录为操作的最小单位可以保证同一目录下文件元数据的局部性,同时,哈希函数的引入可以打散对应不同目录的元数据分配,从而保证负载在多台元数据服务器上的均匀分配。同时,提供元数据副本机制,根据文件或目录的流行度,设置相应数量的副本数,以应对热点数据的突发请求。

Claims (7)

1.一种面向云操作***的数据存储架构,其特征在于:采用分布式存储架构将元数据和数据进行分离,使用专门的元数据服务器存储元数据和处理客户端对元数据的请求;
当客户端欲获取某文件数据时,将首先和元数据服务器通信,获取描述该文件数据的元数据,即获取数据在数据服务器集群的存储位置以及其他信息;然后客户端和数据服务器集群通信,获取其想要的数据。
2.根据权利要求1所述的数据存储架构,其特征在于:所述的元数据服务***架构采用多台元数据服务器。
3.根据权利要求1或2所述的数据存储架构,其特征在于:所述的元数据指描述数据及其环境的数据,特指描述文件信息或文件目录信息的数据,这些信息包括文件大小、存放位置等。
4.根据权利要求1或2所述的数据存储架构,其特征在于:元数据存储介质为固态硬盘、高速缓存。
5.根据权利要求4所述的数据存储架构,其特征在于:元数据存储介质为固态硬盘、高速缓存。
6.一种权利要求1-5任一项数据存储架构的负载均衡方法,其特征在于:以目录为操作的最小单位;对大目录,则进行目录划分,即将大目录划分为合适大小的目录;然后,采用哈希的方式来进行负载的均匀分配。
7.根据权利要求6所述的负载均衡方法,其特征在于:对热点数据,提供元数据副本机制,即根据文件或目录的流行度,设置相应数量的副本数。
CN2011103912246A 2011-11-30 2011-11-30 一种面向云操作***的数据存储架构及其负载均衡方法 Pending CN102523258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103912246A CN102523258A (zh) 2011-11-30 2011-11-30 一种面向云操作***的数据存储架构及其负载均衡方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103912246A CN102523258A (zh) 2011-11-30 2011-11-30 一种面向云操作***的数据存储架构及其负载均衡方法

Publications (1)

Publication Number Publication Date
CN102523258A true CN102523258A (zh) 2012-06-27

Family

ID=46294047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103912246A Pending CN102523258A (zh) 2011-11-30 2011-11-30 一种面向云操作***的数据存储架构及其负载均衡方法

Country Status (1)

Country Link
CN (1) CN102523258A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882983A (zh) * 2012-10-22 2013-01-16 南京云创存储科技有限公司 一种云存储***中提升并发访问性能的数据快速存储方法
CN103002027A (zh) * 2012-11-26 2013-03-27 中国科学院高能物理研究所 基于键值对***实现树形目录结构的数据存储***及方法
CN103150394A (zh) * 2013-03-25 2013-06-12 中国人民解放军国防科学技术大学 面向高性能计算的分布式文件***元数据管理方法
CN103685453A (zh) * 2013-09-11 2014-03-26 华中科技大学 一种云存储***中元数据的获取方法
CN103944997A (zh) * 2014-04-29 2014-07-23 上海交通大学 结合随机抽样和虚拟化技术的负载均衡方法
CN104503708A (zh) * 2014-12-29 2015-04-08 成都致云科技有限公司 数据散列存储的方法及装置
CN104571952A (zh) * 2014-12-25 2015-04-29 华中科技大学 一种分开处理数据与元数据读写请求的方法
CN104657115A (zh) * 2015-03-12 2015-05-27 浪潮集团有限公司 一种集群文件***客户端多核并发负载实现方法
CN106302659A (zh) * 2016-08-02 2017-01-04 合肥奇也信息科技有限公司 一种基于云存储***中提升访问数据快速存储方法
CN106326012A (zh) * 2016-08-25 2017-01-11 中国农业银行股份有限公司 web应用集群缓存利用方法和***
CN106599102A (zh) * 2016-11-29 2017-04-26 郑州云海信息技术有限公司 一种基于目录切分机制的元数据性能提升方法
CN107122264A (zh) * 2017-05-15 2017-09-01 成都优孚达信息技术有限公司 海量数据容灾备份方法
CN109445694A (zh) * 2018-10-19 2019-03-08 郑州云海信息技术有限公司 一种分布式存储***元数据分离方法和装置
CN109739439A (zh) * 2018-12-28 2019-05-10 华北电力科学研究院有限责任公司 大容量储能***海量数据的分布式存储方法及***
US10372370B2 (en) 2017-06-21 2019-08-06 Western Digital Technologies, Inc. Metadata load distribution management
CN116860564A (zh) * 2023-09-05 2023-10-10 山东智拓大数据有限公司 一种云服务器数据管理方法及其数据管理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080061631A (ko) * 2006-12-28 2008-07-03 (주)포스텍 지능형 홈 네트워크 시스템
CN101854388A (zh) * 2010-05-17 2010-10-06 浪潮(北京)电子信息产业有限公司 一种集群存储中并行访问大量小文件的方法及***
CN101866359A (zh) * 2010-06-24 2010-10-20 北京航空航天大学 一种机群文件***中的小文件存储和访问方法
CN102193952A (zh) * 2010-03-19 2011-09-21 联想(北京)有限公司 元数据服务器、机群***及机群***中的文件创建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080061631A (ko) * 2006-12-28 2008-07-03 (주)포스텍 지능형 홈 네트워크 시스템
CN102193952A (zh) * 2010-03-19 2011-09-21 联想(北京)有限公司 元数据服务器、机群***及机群***中的文件创建方法
CN101854388A (zh) * 2010-05-17 2010-10-06 浪潮(北京)电子信息产业有限公司 一种集群存储中并行访问大量小文件的方法及***
CN101866359A (zh) * 2010-06-24 2010-10-20 北京航空航天大学 一种机群文件***中的小文件存储和访问方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周功业,等: "一种基于对象存储***的元数据缓存实现方法", 《计算机科学》, vol. 34, no. 10, 15 October 2007 (2007-10-15), pages 146 - 148 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882983B (zh) * 2012-10-22 2015-06-10 南京云创存储科技有限公司 一种云存储***中提升并发访问性能的数据快速存储方法
CN102882983A (zh) * 2012-10-22 2013-01-16 南京云创存储科技有限公司 一种云存储***中提升并发访问性能的数据快速存储方法
CN103002027A (zh) * 2012-11-26 2013-03-27 中国科学院高能物理研究所 基于键值对***实现树形目录结构的数据存储***及方法
CN103002027B (zh) * 2012-11-26 2015-09-02 中国科学院高能物理研究所 基于键值对***实现树形目录结构的数据存储***及方法
CN103150394A (zh) * 2013-03-25 2013-06-12 中国人民解放军国防科学技术大学 面向高性能计算的分布式文件***元数据管理方法
CN103150394B (zh) * 2013-03-25 2014-07-23 中国人民解放军国防科学技术大学 面向高性能计算的分布式文件***元数据管理方法
CN103685453A (zh) * 2013-09-11 2014-03-26 华中科技大学 一种云存储***中元数据的获取方法
CN103685453B (zh) * 2013-09-11 2016-08-03 华中科技大学 一种云存储***中元数据的获取方法
CN103944997A (zh) * 2014-04-29 2014-07-23 上海交通大学 结合随机抽样和虚拟化技术的负载均衡方法
CN103944997B (zh) * 2014-04-29 2015-10-07 上海交通大学 结合随机抽样和虚拟化技术的负载均衡方法
CN104571952A (zh) * 2014-12-25 2015-04-29 华中科技大学 一种分开处理数据与元数据读写请求的方法
CN104571952B (zh) * 2014-12-25 2017-08-01 华中科技大学 一种分开处理数据与元数据读写请求的方法
CN104503708A (zh) * 2014-12-29 2015-04-08 成都致云科技有限公司 数据散列存储的方法及装置
CN104503708B (zh) * 2014-12-29 2018-05-22 成都极驰科技有限公司 数据散列存储的方法及装置
CN104657115A (zh) * 2015-03-12 2015-05-27 浪潮集团有限公司 一种集群文件***客户端多核并发负载实现方法
CN104657115B (zh) * 2015-03-12 2017-04-19 浪潮集团有限公司 一种集群文件***客户端多核并发负载实现方法
CN106302659A (zh) * 2016-08-02 2017-01-04 合肥奇也信息科技有限公司 一种基于云存储***中提升访问数据快速存储方法
CN106326012A (zh) * 2016-08-25 2017-01-11 中国农业银行股份有限公司 web应用集群缓存利用方法和***
CN106326012B (zh) * 2016-08-25 2019-09-24 中国农业银行股份有限公司 web应用集群缓存利用方法和***
CN106599102A (zh) * 2016-11-29 2017-04-26 郑州云海信息技术有限公司 一种基于目录切分机制的元数据性能提升方法
CN107122264A (zh) * 2017-05-15 2017-09-01 成都优孚达信息技术有限公司 海量数据容灾备份方法
CN107122264B (zh) * 2017-05-15 2020-06-09 成都优孚达信息技术有限公司 海量数据容灾备份方法
US10372370B2 (en) 2017-06-21 2019-08-06 Western Digital Technologies, Inc. Metadata load distribution management
CN109445694A (zh) * 2018-10-19 2019-03-08 郑州云海信息技术有限公司 一种分布式存储***元数据分离方法和装置
CN109445694B (zh) * 2018-10-19 2022-02-18 郑州云海信息技术有限公司 一种分布式存储***元数据分离方法和装置
CN109739439A (zh) * 2018-12-28 2019-05-10 华北电力科学研究院有限责任公司 大容量储能***海量数据的分布式存储方法及***
CN116860564A (zh) * 2023-09-05 2023-10-10 山东智拓大数据有限公司 一种云服务器数据管理方法及其数据管理装置
CN116860564B (zh) * 2023-09-05 2023-11-21 山东智拓大数据有限公司 一种云服务器数据管理方法及其数据管理装置

Similar Documents

Publication Publication Date Title
CN102523258A (zh) 一种面向云操作***的数据存储架构及其负载均衡方法
CN101997918B (zh) 异构san环境中的海量存储资源按需分配的实现方法
US20130036272A1 (en) Storage engine node for cloud-based storage
US20140189128A1 (en) Cluster system with calculation and storage converged
US8930501B2 (en) Distributed data storage system and method
US8996803B2 (en) Method and apparatus for providing highly-scalable network storage for well-gridded objects
US10356150B1 (en) Automated repartitioning of streaming data
CN102855294A (zh) 一种智能哈希数据布局方法、集群存储***及其方法
CN103530388A (zh) 一种云存储***中提升性能的数据处理方法
US9110820B1 (en) Hybrid data storage system in an HPC exascale environment
CN106534308B (zh) 一种分布式存储***中解决数据块访问热点的方法及装置
US11080207B2 (en) Caching framework for big-data engines in the cloud
CN102523105B (zh) 一种数据存储的故障恢复方法及其适用的数据分布架构
CN101916289A (zh) 支持海量小文件和动态备份数的数字图书馆存储***的构建方法
CN105516313A (zh) 一种用于大数据的分布式存储***
US20200401329A1 (en) Opportunistic storage service
CN104410666A (zh) 云计算下实现异构存储资源管理的方法及***
US11416156B2 (en) Object tiering in a distributed storage system
US10057348B2 (en) Storage fabric address based data block retrieval
Islam et al. Efficient data access strategies for Hadoop and Spark on HPC cluster with heterogeneous storage
US10606478B2 (en) High performance hadoop with new generation instances
CN103209219A (zh) 一种分布式集群文件***
CN101673288A (zh) 一种iptv***中的读、写文件的方法和***
US20130086317A1 (en) Passing hint of page allocation of thin provisioning with multiple virtual volumes fit to parallel data access
CN113472864B (zh) 高性能的区块链分布式存储***及方法、设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120627