CN102521419A - 分级存储的实现方法和*** - Google Patents

分级存储的实现方法和*** Download PDF

Info

Publication number
CN102521419A
CN102521419A CN201110460042XA CN201110460042A CN102521419A CN 102521419 A CN102521419 A CN 102521419A CN 201110460042X A CN201110460042X A CN 201110460042XA CN 201110460042 A CN201110460042 A CN 201110460042A CN 102521419 A CN102521419 A CN 102521419A
Authority
CN
China
Prior art keywords
data
level
storage
level memory
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110460042XA
Other languages
English (en)
Inventor
顾小宝
何牧君
马少杰
陈伟
吴宏文
占杰
李斌
曹征
何沧平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN201110460042XA priority Critical patent/CN102521419A/zh
Publication of CN102521419A publication Critical patent/CN102521419A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分级存储的实现方法和***,该方法包括:在多个服务器中的任意服务器需要对存储的数据进行访问的情况下,判断所需访问的数据是否存在于一级存储器中;如果需要访问的数据不存在于一级存储器中,则将需要访问的数据从二级存储器迁移至一级存储器;通过一级存储器实现该服务器对数据的访问。本发明采用了不同访问速率的存储器,通过数据的迁移由速度更快的存储器实现数据的访问,能够在不影响数据正常存储的前提下有效改善存储***的访问效率,优化集群服务器的存储数据结构。

Description

分级存储的实现方法和***
技术领域
本发明涉及计算机领域,并且特别地,涉及一种分级存储的实现方法和***。
背景技术
目前,在大规模高性能计算集群中,由于存在着用户众多、作业量巨大、整体IO吞吐量要求高的情况,因此现在基于单个服务器端的网络文件***已经大大不能满足用户的需求,特别是大型数据中心和并发数量大、IO量大的需求。这时,并行存储***(分布式存储***)的概念就应用而生了。
目前已经出现了一些并行存储***,这些存储***能够实现元数据和一般数据(是指原数据之外的数据,例如,文件数据,这些一般数据在本文中被统称为数据)分别存储,以便在读写的时候提高性能。
对于传统的存储***,用户往往要求存储***的速度更快,IO性能更高,存储***更大。但是对于管理者而言,越快、性能越高、容量越大就意味着成本越高,而且随着这些指标的提高,成本可能会数量级的上升。为此,分级存储(HSM)的概念就应运而生了。分级存储的目的是在一个大型的存储***可以分为两级存储,一级存储的容量较小,但是性能和可靠性很高;二级存储的容量很大,但是性能和可靠性则较低。
但是,对于大规模集群服务器并行存储***,尚未提出如何实现分级存储的解决方案。
发明内容
针对相关技术中缺少对大规模集群服务器并行存储***缺少分级存储方案的问题,本发明提出一种分级存储的实现方法和***,能够在集群服务器并行存储***中实现分级存储,有效改善存储***的访问效率,优化了集群服务器的存储数据结构。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种分级存储的实现方法,用于在集群服务器存储***中实现数据的分级存储。
该方法包括:在多个服务器中的任意服务器需要对存储的数据进行访问的情况下,判断所需访问的数据是否存在于一级存储器中;如果需要访问的数据不存在于一级存储器中,则将需要访问的数据从二级存储器迁移至一级存储器;通过一级存储器实现该服务器对数据的访问。
该方法可进一步包括:根据指示或预定的迁移策略将一级存储器中保存的数据迁移至二级存储器中,并在一级存储器中保存迁移至二级存储器中的数据的元数据。
并且,该方法可进一步包括:对于从一级存储器迁移至二级存储器的数据,对该数据对应的元数据在一级存储器中所占空间、与该数据在二级存储器中所占空间,采用相同的方式进行命名。
此外,可选地,上述迁移策略包括以下之一:
在一级存储器中保存的属于一用户的数据量超过第一阈值的情况下,将该用户在一级存储器中保存的预定时间段内没有使用过的数据迁移至二级存储器;
在一级存储器中保存的数据量在一级存储器总容量中所占的比例超过预定比例阈值的情况下,将一级存储器中预定时间段内没有使用过的数据迁移至二级存储器。
根据本发明的另一方面,提供各类一种分级存储的实现***。
该***包括:多个服务器,用于对存储的数据进行访问;一级存储器;二级存储器;数据查找模块,用于在多个服务器中的任意服务器需要对存储的数据进行访问的情况下,判断所需访问的数据是否存在于一级存储器中;迁移模块,用于在需要访问的数据不存在于一级存储器中的情况下,将需要访问的数据从二级存储器迁移至一级存储器;访问执行模块,用于使发起访问的服务器对一级存储器实现数据访问。
其中,迁移模块还用于根据指示或预定的迁移策略将一级存储器中保存的数据迁移至二级存储器中,并在一级存储器中保存迁移至二级存储器中的数据的元数据。
并且,对于从一级存储器迁移至二级存储器的数据,迁移模块还用于对该数据对应的元数据在一级存储器中所占空间、与该数据在二级存储器中所占空间,采用相同的方式进行命名。
此外,可选地,上述迁移策略包括以下之一:
在一级存储器中保存的属于一用户的数据量超过第一阈值的情况下,将该用户在一级存储器中保存的预定时间段内没有使用过的数据迁移至二级存储器;
在一级存储器中保存的数据量在一级存储器总容量中所占的比例超过预定比例阈值的情况下,将一级存储器中预定时间段内没有使用过的数据迁移至二级存储器。
此外,一级存储器的输入输出性能高于二级存储器。
本发明采用了不同访问速率的存储器,通过数据的迁移由速度更快的存储器实现数据的访问,能够在不影响数据正常存储的前提下有效改善存储***的访问效率,优化集群服务器的存储数据结构。
附图说明
图1是根据本发明实施例的分级存储的实现方法的流程图;
图2是根据本发明实施例的分级存储的实现***的框图。
具体实施方式
根据本发明的实施例,提供了一种分级存储的实现方法,用于在集群服务器存储***中实现数据的分级存储。
如图1所示,根据本发明实施例的分级存储的实现方法包括:
步骤S101,在多个服务器中的任意服务器需要对存储的数据进行访问的情况下,判断所需访问的数据是否存在于一级存储器中;
步骤S103,如果需要访问的数据不存在于一级存储器中,则将需要访问的数据从二级存储器迁移至一级存储器;
步骤S105,通过一级存储器实现该服务器对数据的访问。
其中,一级存储器的输入输出性能高于二级存储器的输入输出性能,也就是说,一级存储器相比于二级存储器具有更快的访问速度。
该方法可以进一步包括:根据指示或预定的迁移策略将一级存储器中保存的数据迁移至二级存储器中,并在一级存储器中保存迁移至二级存储器中的数据的元数据。
其中,对于从一级存储器迁移至二级存储器的数据,对该数据对应的元数据在一级存储器中所占空间、与该数据在二级存储器中所占空间,采用相同的方式进行命名。
此外,可选地,上述迁移策略包括以下之一:在一级存储器中保存的属于一用户的数据量超过第一阈值的情况下,将该用户在一级存储器中保存的预定时间段内没有使用过的数据迁移至二级存储器;在一级存储器中保存的数据量在一级存储器总容量中所占的比例超过预定比例阈值的情况下,将一级存储器中预定时间段内没有使用过的数据迁移至二级存储器。
当然,本发明的迁移策略并不局限于上述策略,根据需要,可以设置多种迁移策略来控制迁移的执行(对于不同的归属的数据或不同类型的数据,可以设置不同的策略),本文对迁移的策略不再一一列举。
根据本发明的另一方面,提供了一种分级存储的实现***。
如图2所示,根据本发明实施例的分级存储的实现***包括:
多个服务器(处于清楚的目的,图2中仅示出了2个服务器1和2,在实际应用中,服务器的数量可以更多,根据实际需要,可能会达到成百上千甚至更多,其他未示出的服务器均以类似的方式设置在本发明提出的***中),用于对存储的数据进行访问;
一级存储器21;
二级存储器22,与一级存储器21连接;
数据查找模块23,与一级存储器21和二级存储器22连接,用于在多个服务器中的任意服务器需要对存储的数据进行访问的情况下,判断所需访问的数据是否存在于一级存储器21中;
迁移模块24,与一级存储器21和二级存储器22连接,用于在需要访问的数据不存在于一级存储器中的情况下,将需要访问的数据从二级存储器迁移至一级存储器;
访问执行模块25,用于使发起访问的服务器对一级存储器实现数据访问。
其中,迁移模块还可用于根据指示或预定的迁移策略将一级存储器中保存的数据迁移至二级存储器中,并在一级存储器中保存迁移至二级存储器中的数据的元数据。
并且,对于从一级存储器迁移至二级存储器的数据,迁移模块还用于对该数据对应的元数据在一级存储器中所占空间、与该数据在二级存储器中所占空间,采用相同的方式进行命名。
此外,可选地,迁移策略包括以下之一:
在一级存储器中保存的属于一用户的数据量超过第一阈值的情况下,将该用户在一级存储器中保存的预定时间段内没有使用过的数据迁移至二级存储器;在一级存储器中保存的数据量在一级存储器总容量中所占的比例超过预定比例阈值的情况下,将一级存储器中预定时间段内没有使用过的数据迁移至二级存储器。
在实际应用中,可以对于一级存储和二级存储上的全部内容,建立数据库,对其各种属性进行记录,并且,可以设置一个策略管理***,对文件以属主、目录等进行区别,分别设置策略,当某个策略满足时,能够自动向迁移工具发出指令,将一级存储上的文件迁移到二级存储上(策略判断功能和迁移工具的功能就相当于上述迁移模块),迁移工具能够响应策略管理***的指令,将文件从一级存储迁移到二级存储上。
当文件迁移到二级存储上以后,一级存储应保留文件的元数据信息,使得一级存储和二级存储具有相同的名字空间,且迁移的过程可以对用户透明。
当用户访问已经迁移走的数据时,能够自动将迁移到二级存储上的文件迁移回来,使得用户能够访问。
文件既可以按照策略管理***的要求来迁走或迁回,也可按照用户的要求迁走迁回,用户能够查询到某个文件的状态,例如,查询该数据(文件)在一级存储中、在二级存储中、正在迁移、迁移完毕、或者是迁移失败等。
综上所述,借助于本发明的上述技术方案,采用不同访问速率的存储器,通过数据的迁移由速度更快的存储器实现数据的访问,能够在不影响数据正常存储的前提下有效改善存储***的访问效率,优化集群服务器的存储数据结构。本发明能够在多种存储***中建立分级存储,例如,可以在集群并行存储***parastor100上建立分级存储***。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种分级存储的实现方法,用于在集群服务器存储***中实现数据的分级存储,其特征在于,包括:
在多个服务器中的任意服务器需要对存储的数据进行访问的情况下,判断所需访问的数据是否存在于一级存储器中;
如果需要访问的数据不存在于所述一级存储器中,则将需要访问的数据从二级存储器迁移至所述一级存储器;
通过所述一级存储器实现该服务器对数据的访问。
2.根据权利要求1所述的实现方法,其特征在于,进一步包括:
根据指示或预定的迁移策略将所述一级存储器中保存的数据迁移至所述二级存储器中,并在所述一级存储器中保存迁移至所述二级存储器中的数据的元数据。
3.根据权利要求2所述的实现方法,其特征在于,进一步包括:
对于从所述一级存储器迁移至所述二级存储器的数据,对该数据对应的元数据在所述一级存储器中所占空间、与该数据在所述二级存储器中所占空间,采用相同的方式进行命名。
4.根据权利要求1所述的实现方法,其特征在于,所述迁移策略包括以下之一:
在所述一级存储器中保存的属于一用户的数据量超过第一阈值的情况下,将该用户在所述一级存储器中保存的预定时间段内没有使用过的数据迁移至所述二级存储器;
在所述一级存储器中保存的数据量在所述一级存储器总容量中所占的比例超过预定比例阈值的情况下,将所述一级存储器中预定时间段内没有使用过的数据迁移至所述二级存储器。
5.一种分级存储的实现***,其特征在于,包括:
多个服务器,用于对存储的数据进行访问;
一级存储器;
二级存储器;
数据查找模块,用于在所述多个服务器中的任意服务器需要对存储的数据进行访问的情况下,判断所需访问的数据是否存在于所述一级存储器中;
迁移模块,用于在需要访问的数据不存在于所述一级存储器中的情况下,将需要访问的数据从所述二级存储器迁移至所述一级存储器;
访问执行模块,用于使发起访问的服务器对所述一级存储器实现数据访问。
6.根据权利要求5所述的实现***,其特征在于,所述迁移模块还用于根据指示或预定的迁移策略将所述一级存储器中保存的数据迁移至所述二级存储器中,并在所述一级存储器中保存迁移至所述二级存储器中的数据的元数据。
7.根据权利要求6所述的实现***,其特征在于,对于从所述一级存储器迁移至所述二级存储器的数据,所述迁移模块还用于对该数据对应的元数据在所述一级存储器中所占空间、与该数据在所述二级存储器中所占空间,采用相同的方式进行命名。
8.根据权利要求5所述的实现***,其特征在于,所述迁移策略包括以下之一:
在所述一级存储器中保存的属于一用户的数据量超过第一阈值的情况下,将该用户在所述一级存储器中保存的预定时间段内没有使用过的数据迁移至所述二级存储器;
在所述一级存储器中保存的数据量在所述一级存储器总容量中所占的比例超过预定比例阈值的情况下,将所述一级存储器中预定时间段内没有使用过的数据迁移至所述二级存储器。
9.根据权利要求5至8中任一项所述的实现***,其特征在于,所述一级存储器的输入输出性能高于所述二级存储器。
CN201110460042XA 2011-12-31 2011-12-31 分级存储的实现方法和*** Pending CN102521419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110460042XA CN102521419A (zh) 2011-12-31 2011-12-31 分级存储的实现方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110460042XA CN102521419A (zh) 2011-12-31 2011-12-31 分级存储的实现方法和***

Publications (1)

Publication Number Publication Date
CN102521419A true CN102521419A (zh) 2012-06-27

Family

ID=46292332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110460042XA Pending CN102521419A (zh) 2011-12-31 2011-12-31 分级存储的实现方法和***

Country Status (1)

Country Link
CN (1) CN102521419A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103091707A (zh) * 2012-12-31 2013-05-08 中国石油集团川庆钻探工程有限公司地球物理勘探公司 地震数据分级存储装置及方法
CN103106045A (zh) * 2012-12-20 2013-05-15 华为技术有限公司 数据迁移方法和***、主机端设备
CN103198027A (zh) * 2013-02-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种存储文件和提供文件的方法和装置
CN103324713A (zh) * 2013-06-19 2013-09-25 北京奇虎科技有限公司 多级服务器中的数据处理方法、装置和数据处理***
CN104035925A (zh) * 2013-03-04 2014-09-10 深圳市腾讯计算机***有限公司 数据存储方法、装置和存储***
CN104199784A (zh) * 2014-08-20 2014-12-10 浪潮(北京)电子信息产业有限公司 一种基于分级存储的数据迁移方法及装置
CN104407987A (zh) * 2014-10-30 2015-03-11 曙光信息产业股份有限公司 一种分级存储的方法
CN104717531A (zh) * 2013-12-11 2015-06-17 宏正自动科技股份有限公司 影像日志存储***及其记录方法
CN104869140A (zh) * 2014-02-25 2015-08-26 阿里巴巴集团控股有限公司 多集群***和控制多集群***的数据存储的方法
CN105447182A (zh) * 2015-12-11 2016-03-30 芜湖乐锐思信息咨询有限公司 一种基于数据库的数据存储***
CN106354431A (zh) * 2016-08-26 2017-01-25 浪潮(北京)电子信息产业有限公司 一种数据存储方法及装置
CN107807798A (zh) * 2017-11-22 2018-03-16 郑州云海信息技术有限公司 一种分级存储性能优化方法及***
CN113296696A (zh) * 2021-03-02 2021-08-24 阿里巴巴新加坡控股有限公司 一种数据的访问方法、计算设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055544A (zh) * 2006-04-14 2007-10-17 国际商业机器公司 支持分级存储设置中多个一次性表访问操作的方法和装置
CN101067822A (zh) * 2006-05-03 2007-11-07 国际商业机器公司 用于元数据的分级存储管理的方法和***
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法
CN101101563A (zh) * 2007-07-23 2008-01-09 清华大学 基于海量数据分级存储***的迁移管理方法
CN101311911A (zh) * 2007-05-23 2008-11-26 株式会社日立制作所 分级存储***及其数据迁移方法
CN102291450A (zh) * 2011-08-08 2011-12-21 浪潮电子信息产业股份有限公司 一种集群存储***内部的数据在线分级存储方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055544A (zh) * 2006-04-14 2007-10-17 国际商业机器公司 支持分级存储设置中多个一次性表访问操作的方法和装置
CN101067822A (zh) * 2006-05-03 2007-11-07 国际商业机器公司 用于元数据的分级存储管理的方法和***
CN101311911A (zh) * 2007-05-23 2008-11-26 株式会社日立制作所 分级存储***及其数据迁移方法
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法
CN101101563A (zh) * 2007-07-23 2008-01-09 清华大学 基于海量数据分级存储***的迁移管理方法
CN102291450A (zh) * 2011-08-08 2011-12-21 浪潮电子信息产业股份有限公司 一种集群存储***内部的数据在线分级存储方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106045A (zh) * 2012-12-20 2013-05-15 华为技术有限公司 数据迁移方法和***、主机端设备
CN103091707A (zh) * 2012-12-31 2013-05-08 中国石油集团川庆钻探工程有限公司地球物理勘探公司 地震数据分级存储装置及方法
CN103091707B (zh) * 2012-12-31 2016-06-22 中国石油集团川庆钻探工程有限公司地球物理勘探公司 地震数据分级存储装置及方法
CN103198027A (zh) * 2013-02-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种存储文件和提供文件的方法和装置
CN104035925A (zh) * 2013-03-04 2014-09-10 深圳市腾讯计算机***有限公司 数据存储方法、装置和存储***
CN104035925B (zh) * 2013-03-04 2018-07-17 深圳市腾讯计算机***有限公司 数据存储方法、装置和存储***
CN103324713B (zh) * 2013-06-19 2017-04-12 北京奇安信科技有限公司 多级服务器中的数据处理方法、装置和数据处理***
CN103324713A (zh) * 2013-06-19 2013-09-25 北京奇虎科技有限公司 多级服务器中的数据处理方法、装置和数据处理***
CN104717531A (zh) * 2013-12-11 2015-06-17 宏正自动科技股份有限公司 影像日志存储***及其记录方法
CN104717531B (zh) * 2013-12-11 2018-03-09 宏正自动科技股份有限公司 影像日志存储***及其记录方法
CN104869140A (zh) * 2014-02-25 2015-08-26 阿里巴巴集团控股有限公司 多集群***和控制多集群***的数据存储的方法
CN104869140B (zh) * 2014-02-25 2018-05-22 阿里巴巴集团控股有限公司 多集群***和控制多集群***的数据存储的方法
CN104199784A (zh) * 2014-08-20 2014-12-10 浪潮(北京)电子信息产业有限公司 一种基于分级存储的数据迁移方法及装置
CN104199784B (zh) * 2014-08-20 2017-12-08 浪潮(北京)电子信息产业有限公司 一种基于分级存储的数据迁移方法及装置
CN104407987A (zh) * 2014-10-30 2015-03-11 曙光信息产业股份有限公司 一种分级存储的方法
CN104407987B (zh) * 2014-10-30 2018-10-23 曙光信息产业股份有限公司 一种分级存储方法
CN105447182A (zh) * 2015-12-11 2016-03-30 芜湖乐锐思信息咨询有限公司 一种基于数据库的数据存储***
CN106354431A (zh) * 2016-08-26 2017-01-25 浪潮(北京)电子信息产业有限公司 一种数据存储方法及装置
CN107807798A (zh) * 2017-11-22 2018-03-16 郑州云海信息技术有限公司 一种分级存储性能优化方法及***
CN113296696A (zh) * 2021-03-02 2021-08-24 阿里巴巴新加坡控股有限公司 一种数据的访问方法、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN102521419A (zh) 分级存储的实现方法和***
CN102332029B (zh) 一种基于Hadoop 的海量可归类小文件关联存储方法
CN100541454C (zh) 一种数据缓存方法及***
CN107168657B (zh) 一种基于分布式块存储的虚拟磁盘分层缓存设计方法
CN102117248A (zh) 一种缓存***和在缓存***中缓存数据的方法
CN101866359B (zh) 一种机群文件***中的小文件存储和访问方法
CN103647850B (zh) 一种分布式版本控制***的数据处理方法、设备及***
CN102541985A (zh) 一种分布式文件***中客户端目录缓存的组织方法
US20130006993A1 (en) Parallel data processing system, parallel data processing method and program
CN107436813A (zh) 一种元数据服务器动态负载均衡的方法及***
CN101375241A (zh) 集群文件***中的有效数据管理
CN107291889A (zh) 一种数据存储方法及***
CN101582076A (zh) 一种基于数据库的重复数据删除方法
CN103916459A (zh) 一种大数据归档存储***
CN102915340A (zh) 一种扩展的基于b+树对象文件***
CN102937964B (zh) 基于分布式***的智能数据服务方法
CN109800185A (zh) 一种数据存储***中的数据缓存方法
CN104462389A (zh) 基于分级存储的分布式文件***实现方法
CN103077197A (zh) 一种数据存储方法装置
CN104679442A (zh) 一种提高磁盘阵列性能的方法及装置
CN107832423A (zh) 一种用于分布式文件***的文件读写方法
CN103761059A (zh) 一种用于海量数据管理的多盘位存储方法及***
CN102495834A (zh) 基于内存映像的增量数据清洗方法
CN109918450A (zh) 基于分析类场景下的分布式并行数据库及存储方法
CN103473258A (zh) 云存储文件***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120627