CN106649608A - 分布式文件***小文件性能提升方法、目录生成器及*** - Google Patents

分布式文件***小文件性能提升方法、目录生成器及*** Download PDF

Info

Publication number
CN106649608A
CN106649608A CN201611071021.8A CN201611071021A CN106649608A CN 106649608 A CN106649608 A CN 106649608A CN 201611071021 A CN201611071021 A CN 201611071021A CN 106649608 A CN106649608 A CN 106649608A
Authority
CN
China
Prior art keywords
virtual directory
virtual
layer
catalogue
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611071021.8A
Other languages
English (en)
Inventor
张延良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201611071021.8A priority Critical patent/CN106649608A/zh
Publication of CN106649608A publication Critical patent/CN106649608A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式文件***小文件性能提升方法,包括以下步骤:目录下,创建虚拟目录层,虚拟目录层包括多个虚拟目录;将上述目录下任一小文件对应于一个虚拟目录;将一个或多个元数据服务对应于一个虚拟目录。包括:虚拟目录创建模块,用于在目录下创建虚拟目录层,虚拟目录层包括多个虚拟目录;小文件配置模块,用于将上述目录下任一小文件与虚拟目录层中一个虚拟目录对应;元数据服务配置模块,用于将一个或多个元数据服务与虚拟目录层中一个虚拟目录对应。本发明还公开了一种分布式文件***,包括:目录层和小文件层;其中:目录层中至少一个目录下设置有虚拟目录层,该虚拟目录层中具有多个虚拟目录。

Description

分布式文件***小文件性能提升方法、目录生成器及***
技术领域
本发明涉及分布式文件***中小文件IO性能提升技术领域,尤其涉及一种分布式文件***小文件性能提升方法,还涉及一种分布式文件***目录生成器,还涉及一种分布式文件***。
背景技术
在分布式文件***实际应用中,会遇到在海量小文件的应用场景。元数据集群可以提升大量小文件的元数据性能,数据缓存、小文件数据合并等方法可以提高数据性能。但是有一种应用场景存在性能瓶颈:单目录下小文件性能。单目录下小文件性能由元数据性能和数据性能两部分。数据性能可通过数据缓存机制、小文件数据合并等机制保证,但是元数据性能受到单个元数据服务瓶颈影响,无法通过缓存机制进行提升。除非是提升元数据服务性能,而分布式文件***元数据性能受到分布式架构影响,能力有限。
因此,对于本领域技术人员而言,如何在分布式文件***中,提升小文件性能为亟需解决的技术问题。
发明内容
为了便于理解,对本申请文件中出现的部分词语,澄清如下:
IO:input/output,输入/输出。
基于背景技术存在的技术问题,本发明提出了一种分布式文件***小文件性能提升方法,包括以下步骤:
目录下,创建虚拟目录层,虚拟目录层包括多个虚拟目录;
将上述目录下任一小文件对应于一个虚拟目录;
将一个或多个元数据服务对应于一个虚拟目录。
优选地,包括以下步骤:将单个虚拟目录对应的元数据服务形成元数据集群子树分区。
优选地,包括以下步骤:元数据服务操作中对虚拟目录进行过滤处理。
优选地,包括以下步骤:根据单个虚拟目录所对应小文件数量调整该虚拟目录所对应的元数据服务数量,且上述元数据服务数量与上述小文件数量呈正相关关系。
优选地,创建虚拟目录层过程前,包括以下步骤:根据小文件IO性能要求,确定需要创建虚拟目录层的目录。
本发明中提供的一种分布式文件***小文件性能提升方法,当某一目录下所存储的小文件具有IO性能要求时,在该目录下创建多个虚拟目录形成虚拟目录层,并将小文件分配至虚拟目录下形成对应关系,将一个或多个元数据服务形成元数据集群子树分区,将元数据服务集群子树分区分配至虚拟目录形成对应关系;从而使得该目录下的小文件通过元数据集群子树分区来保证IO性能;上述方法至少具有以下优点:
1、通过虚拟目录将单目录下的小文件IO性能通过多个元数据服务来保证;
2、利用分布式文件支持元数据集群的特点,将单目录、单元数据服务IO模型改为单目录、多元数据服务IO模型,利用元数据集群并发性能,使得单目录小文件IO性能由元数据集群子树分区来保证,提升小文件性能。
本发明还提供了一种分布式文件***目录生成器,包括:
虚拟目录创建模块,用于在目录下创建虚拟目录层,虚拟目录层包括多个虚拟目录;
小文件配置模块,用于将上述目录下任一小文件与虚拟目录层中一个虚拟目录对应;
元数据服务配置模块,用于将一个或多个元数据服务与虚拟目录层中一个虚拟目录对应。
优选地,元数据服务配置模块还用于将同一虚拟目录对应的元数据服务形成元数据集群子树分区。
优选地,还包括:过滤模块,用于元数据服务操作中对虚拟目录进行过滤处理。
本发明还提供了一种分布式文件***,包括:目录层和小文件层;其中:
目录层中至少一个目录下设置有虚拟目录层,该虚拟目录层中具有多个虚拟目录,小文件层中对应该目录的任一小文件均与所述虚拟目录层中一个虚拟目录对应,所述虚拟目录层中任一虚拟目录均与一个所述元数据集群子树分区对应,所述元数据集群子树分区由一个或多个元数据服务形成。
上述分布式文件***目录生成器和分布式文件***的有益效果与分布式文件***小文件性能提升方法中有益效果类似,此处不再赘述。
附图说明
图1为本发明提出的一种分布式文件***小文件性能提升方法中一种实施例的流程示意图;
图2为本发明提出的一种分布式文件***中一种实施例的***拓扑图。
具体实施方式
如图1-2所示,图1为本发明提出的一种分布式文件***小文件性能提升方法中一种实施例的流程示意图;图2为本发明提出的一种分布式文件***中一种实施例的***拓扑图。
下面结合附图和实施例对本发明进行详细的描述。
参考图1,一种分布式文件***小文件性能提升方法,包括以下步骤:
根据小文件IO性能要求,确定需要创建虚拟目录层的目录;
在上述指定目录下创建虚拟目录层,虚拟目录层包括多个虚拟目录;
将指定目录下的小文件分配到虚拟目录下形成对应关系;
根据单个虚拟目录对应小文件的数量,将多个元数据服务分配至虚拟目录形成对应关系,并将多个元数据服务形成元数据集群子树分区;
在元数据服务操作中对虚拟目录进行过滤处理。
在上述实施例中,我们可以获知,实施例采用的分布式文件***小文件性能提升方法,通过虚拟目录将单目录下的小文件IO性能由多个元数据服务形成元数据集群子树分区来保证;当客户端在一个目录下发送创建、查看、删除等文件操作请求时,可以依据所指定的文件将请求哈希到对应虚拟目录下,并将请求进一步发送至该虚拟目录对应的元数据集群子树分区,由多个元数据服务来响应操作;同时,通过在元数据服务操作中对虚拟目录进行过滤处理,可以使得虚拟目录不呈现给客户端,从而不会改变用户感知的目录结构。
一种分布式文件***目录生成器,包括:
虚拟目录创建模块,用于在目录下创建虚拟目录层,虚拟目录层包括多个虚拟目录;
小文件配置模块,用于将上述目录下任一小文件与虚拟目录层中一个虚拟目录对应;
元数据服务配置模块,用于将一个或多个元数据服务与虚拟目录层中一个虚拟目录对应;并将同一虚拟目录对应的元数据服务形成元数据集群子树分区;
过滤模块,用于元数据服务操作中对虚拟目录进行过滤处理。
参考图2,一种分布式文件***,包括:目录层和小文件层;其中:
目录层中至少一个目录下设置有虚拟目录层,该虚拟目录层中具有多个虚拟目录,小文件层中对应该目录的任一小文件均与所述虚拟目录层中一个虚拟目录对应,所述虚拟目录层中任一虚拟目录均与一个所述元数据集群子树分区对应,所述元数据集群子树分区由一个或多个元数据服务形成。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种分布式文件***小文件性能提升方法,其特征在于,包括以下步骤:
目录下,创建虚拟目录层,虚拟目录层包括多个虚拟目录;
将上述目录下任一小文件对应于一个虚拟目录;
将一个或多个元数据服务对应于一个虚拟目录。
2.根据权利要求1所述的分布式文件***小文件性能提升方法,其特征在于,包括以下步骤:单个虚拟目录对应的元数据服务形成元数据集群子树分区。
3.根据权利要求1所述的分布式文件***小文件性能提升方法,其特征在于,包括以下步骤:元数据服务操作中对虚拟目录进行过滤处理。
4.根据权利要求1所述的分布式文件***小文件性能提升方法,其特征在于,包括以下步骤:根据单个虚拟目录所对应小文件数量调整该虚拟目录所对应的元数据服务数量,且上述元数据服务数量与上述小文件数量呈正相关关系。
5.根据权利要求1所述的分布式文件***小文件性能提升方法,其特征在于,创建虚拟目录层过程前,包括以下步骤:根据小文件IO性能要求,确定需要创建虚拟目录层的目录。
6.一种分布式文件***目录生成器,其特征在于,包括:
虚拟目录创建模块,用于在目录下创建虚拟目录层,虚拟目录层包括多个虚拟目录;
小文件配置模块,用于将上述目录下任一小文件与虚拟目录层中一个虚拟目录对应;
元数据服务配置模块,用于将一个或多个元数据服务与虚拟目录层中一个虚拟目录对应。
7.根据权利要求6所述的分布式文件***目录生成器,其特征在于,元数据服务配置模块还用于将同一虚拟目录对应的元数据服务形成元数据集群子树分区。
8.根据权利要求6所述的分布式文件***目录生成器,其特征在于,还包括:
过滤模块,用于元数据服务操作中对虚拟目录进行过滤处理。
9.一种分布式文件***,其特征在于,包括:目录层和小文件层;其中:
目录层中至少一个目录下设置有虚拟目录层,该虚拟目录层中具有多个虚拟目录,小文件层中对应该目录的任一小文件均与所述虚拟目录层中一个虚拟目录对应,所述虚拟目录层中任一虚拟目录均与一个所述元数据集群子树分区对应,所述元数据集群子树分区由一个或多个元数据服务形成。
CN201611071021.8A 2016-11-29 2016-11-29 分布式文件***小文件性能提升方法、目录生成器及*** Pending CN106649608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611071021.8A CN106649608A (zh) 2016-11-29 2016-11-29 分布式文件***小文件性能提升方法、目录生成器及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611071021.8A CN106649608A (zh) 2016-11-29 2016-11-29 分布式文件***小文件性能提升方法、目录生成器及***

Publications (1)

Publication Number Publication Date
CN106649608A true CN106649608A (zh) 2017-05-10

Family

ID=58813882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611071021.8A Pending CN106649608A (zh) 2016-11-29 2016-11-29 分布式文件***小文件性能提升方法、目录生成器及***

Country Status (1)

Country Link
CN (1) CN106649608A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846136A (zh) * 2018-07-09 2018-11-20 郑州云海信息技术有限公司 一种分布式集群的优化方法、装置、***及可读存储介质
CN108965378A (zh) * 2018-05-29 2018-12-07 郑州云海信息技术有限公司 一种io模式识别方法、***、设备及计算机存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082927A (zh) * 2007-07-02 2007-12-05 浙江大学 一种基于ContextFS上下文文件***的文件服务方法
CN101334785A (zh) * 2008-07-30 2008-12-31 浙江大学 分布式文件***虚拟目录组织及命名空间管理的方法
CN101692239A (zh) * 2009-10-19 2010-04-07 浙江大学 一种分布式文件***元数据分配方法
CN102148839A (zh) * 2010-02-09 2011-08-10 蓝盾信息安全技术股份有限公司 一种管理ftp服务器的方法、装置及***
CN103150394A (zh) * 2013-03-25 2013-06-12 中国人民解放军国防科学技术大学 面向高性能计算的分布式文件***元数据管理方法
CN103198153A (zh) * 2013-04-25 2013-07-10 北京邮电大学 一种应用于分布式文件***的元数据分簇管理方法和模块
CN103544322A (zh) * 2013-11-08 2014-01-29 北京邮电大学 基于服务器集群的热点元数据管理方法
CN103744961A (zh) * 2014-01-06 2014-04-23 清华大学 用可重构的文件***目录树提高非易失性存储寿命的方法
CN105224257A (zh) * 2015-10-16 2016-01-06 浪潮(北京)电子信息产业有限公司 一种云存储***中大文件的处理方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082927A (zh) * 2007-07-02 2007-12-05 浙江大学 一种基于ContextFS上下文文件***的文件服务方法
CN101334785A (zh) * 2008-07-30 2008-12-31 浙江大学 分布式文件***虚拟目录组织及命名空间管理的方法
CN101692239A (zh) * 2009-10-19 2010-04-07 浙江大学 一种分布式文件***元数据分配方法
CN102148839A (zh) * 2010-02-09 2011-08-10 蓝盾信息安全技术股份有限公司 一种管理ftp服务器的方法、装置及***
CN103150394A (zh) * 2013-03-25 2013-06-12 中国人民解放军国防科学技术大学 面向高性能计算的分布式文件***元数据管理方法
CN103198153A (zh) * 2013-04-25 2013-07-10 北京邮电大学 一种应用于分布式文件***的元数据分簇管理方法和模块
CN103544322A (zh) * 2013-11-08 2014-01-29 北京邮电大学 基于服务器集群的热点元数据管理方法
CN103744961A (zh) * 2014-01-06 2014-04-23 清华大学 用可重构的文件***目录树提高非易失性存储寿命的方法
CN105224257A (zh) * 2015-10-16 2016-01-06 浪潮(北京)电子信息产业有限公司 一种云存储***中大文件的处理方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘俊: ""海量地理栅格数据存储关键技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
沈春辉: ""数字图书馆中海量数据存储组织的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈起等: ""MDDS:一种面向高性能计算的并行文件***元数据性能提升方法"", 《计算机研究与发展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965378A (zh) * 2018-05-29 2018-12-07 郑州云海信息技术有限公司 一种io模式识别方法、***、设备及计算机存储介质
CN108846136A (zh) * 2018-07-09 2018-11-20 郑州云海信息技术有限公司 一种分布式集群的优化方法、装置、***及可读存储介质

Similar Documents

Publication Publication Date Title
CN103179185B (zh) 一种分布式文件***客户端缓存中文件创建方法及其***
CN102158546B (zh) 一种集群文件***及其文件服务方法
CN103902593B (zh) 一种数据迁移的方法和装置
CN104133882A (zh) 一种基于hdfs的小文件处理方法
CN103577123A (zh) 一种基于hdfs的小文件优化存储方法
CN107786355A (zh) 一种智慧城市信息共享的方法和装置
CN104572505B (zh) 一种保证海量数据缓存最终一致性的***及方法
CN104156396B (zh) 大数据环境下提高数据库性能的方法及***
CN101478608A (zh) 基于二维散列的海量数据的快速操作方法
CN107391652A (zh) 一种模板化报表接口定义***及方法
CN103810238A (zh) 一种基于异步处理的大数据量Excel文件导出方法
CN103581332A (zh) HDFS架构及HDFS架构中NameNode节点的压力分解方法
CN106649608A (zh) 分布式文件***小文件性能提升方法、目录生成器及***
CN105354250A (zh) 一种面向云存储的数据存储方法及装置
CN104199901A (zh) 一种批量合并hbase表regions的方法
CN102467525A (zh) 单据关联方法及***
CN103294799B (zh) 一种数据并行批量导入只读查询***的方法及***
CN103198119A (zh) 一种快速查找具有相同重复数据删除标识的所有链接文件的方法
CN104504030A (zh) 一种面向电力调度自动化海量报文的索引方法
CN102646133B (zh) 基于元数据存储的二维表组织方法
CN1776689A (zh) 一种面向出版的智能模板模型的建立方法
CN104391961A (zh) 千万级小文件数据的一种读写解决策略
CN106487856A (zh) 一种网络文件存储的方法和***
CN107229755A (zh) 一种分布式***优化方法及设备
CN106383896A (zh) 一种基于爬虫+RocketMQ的数据抓取分发方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication