CN104484460A - 一种分布式文件***元数据热度统计方法 - Google Patents

一种分布式文件***元数据热度统计方法 Download PDF

Info

Publication number
CN104484460A
CN104484460A CN201410838584.XA CN201410838584A CN104484460A CN 104484460 A CN104484460 A CN 104484460A CN 201410838584 A CN201410838584 A CN 201410838584A CN 104484460 A CN104484460 A CN 104484460A
Authority
CN
China
Prior art keywords
file
catalogue
hot value
metadata
access request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410838584.XA
Other languages
English (en)
Inventor
张延良
张在贵
程瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410838584.XA priority Critical patent/CN104484460A/zh
Publication of CN104484460A publication Critical patent/CN104484460A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据热度统计方法,包括:接收客户端发送的元数据信息访问请求;根据所述元数据信息访问请求,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新。能维护整个文件***下各个目录或文件的热度值,以便后续的负载计算、元数据集群和动态子树分区开发。

Description

一种分布式文件***元数据热度统计方法
技术领域
本发明涉及数据存储领域,尤其涉及一种分布式文件***元数据热度统计方法。
背景技术
目前,分布式文件***已经得到广泛应用,特别是在集群NAS文件***、大型海量存储***等应用中显得尤其突出。分布式文件***分为元数据服务器、数据服务器和客户端。客户在客户端写入数据后首先将数据的元数据信息保存到元数据服务器上,元数据服务器中指定了数据的存放位置,就可以将数据写入到对应的数据服务器端。当客户在客户端存取大量小文件时对元数据服务器压力很大,为了解决元数据的压力,提高元数据服务器端吞吐量,可以通过元数据集群解决这一问题。而开发元数据集群功能必不可少的工作就是有效地统计元数据的热度值,依据元数据的热度值将元数据压力分配到每个元数据进程,从而大大提升分布式文件***小文件IO性能。
发明内容
本发明要解决的技术问题是提供一种分布式文件***元数据热度统计方法,能维护整个文件***下各个目录或文件的热度值,以便后续的负载计算、元数据集群和动态子树分区开发。
一种数据热度统计方法,包括:
接收客户端发送的元数据信息访问请求;
根据所述元数据信息访问请求,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新。
可选地,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新,包括:所述目录或者文件被访问一次,所述目录或者文件的热度值加一。
可选地,还包括:当文件或目录的热度值变化后,累加变化的目录或者文件的上一级目录下的各个目录或者文件当前的热度值,将累加值作为所述目录或者文件的上一级目录新的热度值。
可选地,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新还包括:当两次相邻的访问的时间间隔超过预定阀值,对作为所述元数据访问请求对象的热度值减一。
可选地,所述预定阈值为2秒。
一种数据热度统计装置,包括接收模块,用于接收客户端发送的元数据信息访问请求;更新模块,用于根据所述元数据信息访问请求,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新。
可选地,所述更新模块,用于对作为所述元数据访问请求对象的目录或者文件的热度值进行更新,包括:所述目录或者文件被访问一次,所述目录或者文件的热度值加一。
可选地,所述更新模块,还用于当文件或目录的热度值变化后,累加变化的目录或者文件的上一级目录下的各个目录或者文件的当前的热度值,将累加值作为所述目录或者文件的上一级目录新的热度值。
可选地,所述更新模块,用于对作为所述元数据访问请求对象的目录或者文件的热度值进行更新还包括:当两次相邻的访问的时间间隔超过预定阀值,对作为所述元数据访问请求对象的热度值减一。
可选地,所述预定阀值为2秒。
本发明的创新点之一是将热度衰减时间阈值Tc设为2s,如果Tc设置较小会带来频繁的热度衰减计算;如果Tc设置太长会导致热度衰减不明显,整个文件***下的热度值维护比较繁琐。经过多次测试证明Tc设置为2s比较合理。
本发明的另一个创新点是父目录热度值为其子目录和/或其下文件热度值之和,这样能依据热度值的大小来实现整个元数据进程负载统计和元数据集群动态子树分区。
附图说明
附图1为方法流程图;
附图2为本发明中分布式文件***整个目录热度值简单维护模型;
附图3是一个实施例的目录被访问后整个目录热度值的变化模型。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
一种数据热度统计方法,包括:
接收客户端发送的元数据信息访问请求;
根据所述元数据信息访问请求,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新。
图1为方法的流程图。
步骤1:接收客户端发送的元数据信息访问请求;
步骤2:根据所述元数据信息访问请求,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新。
可选地,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新,包括:所述目录或者文件被访问一次,所述目录或者文件的热度值加一。
可选地,还包括:当文件或目录的热度值变化后,累加变化的目录或者文件的上一级目录下的各个目录或者文件当前的热度值,将累加值作为所述目录或者文件的上一级目录新的热度值。
可选地,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新还包括:当两次相邻的访问的时间间隔超过预定阀值,对作为所述元数据访问请求对象的热度值减一。
可选地,所述预定阈值为2秒。
一种数据热度统计装置,包括接收模块,用于接收客户端发送的元数据信息访问请求;更新模块,用于根据所述元数据信息访问请求,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新。
可选地,所述更新模块,用于对作为所述元数据访问请求对象的目录或者文件的热度值进行更新,包括:所述目录或者文件被访问一次,所述目录或者文件的热度值加一。
可选地,所述更新模块,还用于当文件或目录的热度值变化后,累加变化的目录或者文件的上一级目录下的各个目录或者文件的当前的热度值,将累加值作为所述目录或者文件的上一级目录新的热度值。
可选地,所述更新模块,用于对作为所述元数据访问请求对象的目录或者文件的热度值进行更新还包括:当两次相邻的访问的时间间隔超过预定阀值,对作为所述元数据访问请求对象的热度值减一。
可选地,所述预定阀值为2秒。
该方法主要在软件层面实现,具体流程如下:
(1)每次客户端发送元数据信息访问后,在原热度值的基础上更新一次元数据热度值。
(2)元数据热度更新完后,判断两次更新热度间隔时间是否>2s,如果>2s,执行热度衰减;否则不执行。
(3)文件热度值更新完后,再更新父目录以及更高祖先目录的热度值,通过直接累加其下目录或文件热度值进行更新
如图2所示:
***包括根目录,
第一级子目录,包括第一级子目录1、第一级子目录2;
第二级子目录,包括第二级子目录1、第二级子目录2、第二级子目录3;
第三级子目录,包括第三级子目录1、第三级文件2、第三级文件3、第三级文件4、第三级文件5;
上文所述的***数字“1”、“2”“3”“4”“5”等,只是表示区分,并不表示先后顺序。
根目录的热度值为51,
其下包括:
第一级子目录1,热度值为10;
第一级子目录2,热度值为41;
第一级子目录下面为第二级子目录;
第一级子目录1,其下包括:第二级子目录1,热度值为10;
第一级子目录2,其下包括:
第二级子目录2,热度值为20;
第二级子目录3,热度值为21;
第二级子目录下面为第三级子目录
第二级子目录1、其下包括:
第三级子目录1,热度值为0;
第三级文件1,热度值为10;
第二级子目录2、其下包括:
第三级文件2,热度值为20;
第二级子目录3、其下包括:
第三级文件3,热度值为15;
第三级文件4,热度值为0;
第三级文件5,热度值为6。
其中,某一个第N-1级子目录,可以看成是与其相连的第N级子目录或第N级文件的根目录;N大于等于1;
比如图中,第二级子目录1,可以看成是第三级子目录1的根目录,
第二级子目录3,可以看成是第三级文件3、第三级文件4、第三级文件5的根目录;
***还可以扩展,还可以包括第四级子目录,第五级子目录,以此类推,等等,本申请不做限制。
结合图3举例说明,
比如,当第三级子目录1,被访问一次,热度值加1,从0变为了1,
相应地,第二级子目录1,热度值加1,从10变为11;
相应地,第一级子目录1,热度值加1,从10变为11;
相应地,根目录的热度值加1,从51变为52。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims (10)

1.一种数据热度统计方法,其特征在于,包括:
接收客户端发送的元数据信息访问请求;
根据所述元数据信息访问请求,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新。
2.如权利要求1所述的方法,其特征在于,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新,包括:所述目录或者文件被访问一次,所述目录或者文件的热度值加一。
3.如权利要求1所述的方法,其特征在于,还包括:
当文件或目录的热度值变化后,累加变化的目录或者文件的上一级目录下的各个目录或者文件当前的热度值,将累加值作为所述目录或者文件的上一级目录新的热度值。
4.如权利要求2所述的方法,其特征在于,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新还包括:当两次相邻的访问的时间间隔超过预定阀值,对作为所述元数据访问请求对象的热度值减一。
5.如权利要求4所述的方法,其特征在于,所述预定阈值为2秒。
6.一种数据热度统计装置,其特征在于,包括接收模块,用于接收客户端发送的元数据信息访问请求;更新模块,用于根据所述元数据信息访问请求,对作为所述元数据访问请求对象的目录或者文件的热度值进行更新。
7.如权利要求6所述的装置,其特征在于,所述更新模块,用于对作为所述元数据访问请求对象的目录或者文件的热度值进行更新,包括:所述目录或者文件被访问一次,所述目录或者文件的热度值加一。
8.如权利要求6所述的装置,其特征在于,所述更新模块,还用于当文件或目录的热度值变化后,累加变化的目录或者文件的上一级目录下的各个目录或者文件的当前的热度值,将累加值作为所述目录或者文件的上一级目录新的热度值。
9.如权利要求7所述的装置,其特征在于,所述更新模块,用于对作为所述元数据访问请求对象的目录或者文件的热度值进行更新还包括:当两次相邻的访问的时间间隔超过预定阀值,对作为所述元数据访问请求对象的热度值减一。
10.如权利要求9所述的装置,其特征在于,所述预定阀值为2秒。
CN201410838584.XA 2014-12-29 2014-12-29 一种分布式文件***元数据热度统计方法 Pending CN104484460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410838584.XA CN104484460A (zh) 2014-12-29 2014-12-29 一种分布式文件***元数据热度统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410838584.XA CN104484460A (zh) 2014-12-29 2014-12-29 一种分布式文件***元数据热度统计方法

Publications (1)

Publication Number Publication Date
CN104484460A true CN104484460A (zh) 2015-04-01

Family

ID=52759001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410838584.XA Pending CN104484460A (zh) 2014-12-29 2014-12-29 一种分布式文件***元数据热度统计方法

Country Status (1)

Country Link
CN (1) CN104484460A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354793A (zh) * 2016-08-25 2017-01-25 华为技术有限公司 监控热点对象的方法及装置
CN107480310A (zh) * 2017-09-29 2017-12-15 郑州云海信息技术有限公司 一种元数据集群目录动态负载平衡方法及***
CN107679193A (zh) * 2017-10-09 2018-02-09 郑州云海信息技术有限公司 一种用于分布式文件***的热度统计方法和***
CN108846114A (zh) * 2018-06-26 2018-11-20 郑州云海信息技术有限公司 分布式***控制方法、装置、设备及可读存储介质
CN109144951A (zh) * 2018-08-01 2019-01-04 郑州云海信息技术有限公司 一种基于分布式文件***的目录更新方法及元数据服务器
CN109582233A (zh) * 2018-11-21 2019-04-05 网宿科技股份有限公司 一种数据的缓存方法和装置
CN112667149A (zh) * 2020-12-04 2021-04-16 北京浪潮数据技术有限公司 一种数据热度感知方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070100899A1 (en) * 2004-06-25 2007-05-03 Yan Arrouye Methods and systems for managing data
CN101697526A (zh) * 2009-10-10 2010-04-21 中国科学技术大学 分布式文件***中元数据管理的负载均衡方法及其***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070100899A1 (en) * 2004-06-25 2007-05-03 Yan Arrouye Methods and systems for managing data
CN101697526A (zh) * 2009-10-10 2010-04-21 中国科学技术大学 分布式文件***中元数据管理的负载均衡方法及其***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李宽: "基于HDFS的分布式Namenode节点模型的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354793A (zh) * 2016-08-25 2017-01-25 华为技术有限公司 监控热点对象的方法及装置
CN106354793B (zh) * 2016-08-25 2020-03-10 华为技术有限公司 监控热点对象的方法及装置
CN107480310A (zh) * 2017-09-29 2017-12-15 郑州云海信息技术有限公司 一种元数据集群目录动态负载平衡方法及***
CN107480310B (zh) * 2017-09-29 2020-09-04 郑州云海信息技术有限公司 一种元数据集群目录动态负载平衡方法及***
CN107679193A (zh) * 2017-10-09 2018-02-09 郑州云海信息技术有限公司 一种用于分布式文件***的热度统计方法和***
CN108846114A (zh) * 2018-06-26 2018-11-20 郑州云海信息技术有限公司 分布式***控制方法、装置、设备及可读存储介质
CN109144951A (zh) * 2018-08-01 2019-01-04 郑州云海信息技术有限公司 一种基于分布式文件***的目录更新方法及元数据服务器
CN109582233A (zh) * 2018-11-21 2019-04-05 网宿科技股份有限公司 一种数据的缓存方法和装置
CN112667149A (zh) * 2020-12-04 2021-04-16 北京浪潮数据技术有限公司 一种数据热度感知方法、装置、设备及介质
CN112667149B (zh) * 2020-12-04 2023-12-29 北京浪潮数据技术有限公司 一种数据热度感知方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN104484460A (zh) 一种分布式文件***元数据热度统计方法
US10037341B1 (en) Nesting tree quotas within a filesystem
CN108090168B (zh) 一种通用f2fs文件***解析方法、终端设备及存储介质
CN105183839A (zh) 一种基于Hadoop的小文件分级索引的存储优化方法
CN109542911B (zh) 一种元数据组织方法、***、设备及计算机可读存储介质
CN108196787B (zh) 集群存储***的配额管理方法以及集群存储***
CN103793534A (zh) 分布式文件***及均衡元数据存储和访问负载的实现方法
CN105159968A (zh) 一种文件***的目录管理方法及客户端
US8898677B2 (en) Data arrangement calculating system, data arrangement calculating method, master unit and data arranging method
CN105302920A (zh) 一种云存储数据的优化管理方法和***
CN109804359A (zh) 用于将数据回写到存储设备的***和方法
CN107391045B (zh) 一种目录空间配额方法及***
CN102821111A (zh) 文件云存储实时同步方法
CN102141926A (zh) 一种应用程序管理方法、装置以及数字电视机顶盒
CN103902562A (zh) 一种终端数据库升级方法及相关装置
CN104239511A (zh) 一种面向MongoDB的用户空间文件***实现方法
CN101763433B (zh) 一种数据存储***及方法
US10509767B2 (en) Systems and methods for managing snapshots of a file system volume
CN108920691A (zh) 前端静态资源的管理方法、装置、计算机设备及存储介质
CN103279489A (zh) 一种元数据的存储方法、装置
CN103942301A (zh) 一种面向多数据类型访问应用的分布式文件***
CN103713926A (zh) 一种预更新软件客户端的方法及***
CN104808953A (zh) 控制数据存储的方法、装置及移动终端
US10430400B1 (en) User controlled file synchronization limits
CN104572492A (zh) 一种烧录数据到fat32分区的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150401