CN102902716A - 基于Hadoop分布式计算平台的存储*** - Google Patents

基于Hadoop分布式计算平台的存储*** Download PDF

Info

Publication number
CN102902716A
CN102902716A CN2012103055454A CN201210305545A CN102902716A CN 102902716 A CN102902716 A CN 102902716A CN 2012103055454 A CN2012103055454 A CN 2012103055454A CN 201210305545 A CN201210305545 A CN 201210305545A CN 102902716 A CN102902716 A CN 102902716A
Authority
CN
China
Prior art keywords
file
small documents
small
hdfs
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103055454A
Other languages
English (en)
Inventor
陈国庆
钱扬帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU LIANGJIANG TECHNOLOGY Co Ltd
Original Assignee
SUZHOU LIANGJIANG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU LIANGJIANG TECHNOLOGY Co Ltd filed Critical SUZHOU LIANGJIANG TECHNOLOGY Co Ltd
Priority to CN2012103055454A priority Critical patent/CN102902716A/zh
Publication of CN102902716A publication Critical patent/CN102902716A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Hadoop分布式计算平台的存储***,包括HDFS通用文件处理模块、文件类型判断模块、小文件处理模块和定时模块;所述文件类型判断模块用于判断用户上传的文件是否属于小文件;定时模块,通过设置定时器计时,到达预定周期时进行统计小文件处理模块中小文件序列的大小,判断小文件序列的大小是否大于HDFS文件***的块;小文件处理模块,用于将每个小文件作为一个Record存入SequenceFile类中形成小文件队列。该***减少了HDFS中小文件的数量,有效地提高了HDFS中文件读取的性能。

Description

基于Hadoop分布式计算平台的存储***
技术领域
本发明属于Hadoop分布式计算平台文件***技术领域,具体涉及一种基于Hadoop分布式计算平台的存储***。
背景技术
Hadoop Distributed File System,简称HDFS,是一个分布式文件***。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求这样可以实现流的形式访问(streaming access)文件***中的数据。HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而hadoop又是lucene的一部分。
随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,HDFS的小文件问题便是其中之一。小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有10000000个小文件,每个文件占用一个block,则namenode需要2G空间(存两份)。如果存储1亿个文件,则namenode需要20G空间。这样namenode内存容量严重制约了集群的扩展。其次,访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开发的,如果访问大量小文件,需要不断的从一个datanode跳到另一个datanode,严重影响性能。最后,处理大量小文件速度远远小于处理同等大小的大文件的速度。每一个小文件要占用一个slot,而task启动将耗费大量时间甚至大部分时间都耗费在启动task和释放task上。解决HDFS小文件问题,有助于扩大HDFS的应用范围及增强其扩展性和性能。本发明因此而来。
发明内容
本发明目的在于提供一种基于Hadoop分布式计算平台的存储***,解决了现有技术中Hadoop分布式计算平台小文件数量太大导致性能下降明显等问题。
为了解决现有技术中的这些问题,本发明提供的技术方案是:
一种基于Hadoop分布式计算平台的存储***,包括HDFS通用文件处理模块,其特征在于所述***还包括文件类型判断模块、小文件处理模块和定时模块;所述文件类型判断模块用于判断用户上传的文件是否属于小文件;当用户上传的文件大小小于HDFS文件***的块时,文件类型判断模块判断文件为小文件,否则文件类型判断模块判断文件为大文件;
定时模块,通过设置定时器计时,到达预定周期时进行统计小文件处理模块中小文件序列的大小,判断小文件序列的大小是否大于HDFS文件***的块;
小文件处理模块,用于将每个小文件作为一个Record存入SequenceFile类中形成小文件队列;当定时模块判断小文件序列的大小大于HDFS文件***的块时,以小文件的文件名作为Key值,而文件内容作为Value值,一次性将小文件队列写入MapFile中,并同时删除已处理的小文件。
优选的,所述***还包括小文件状态数据库,采用MySQL数据库存储小文件的文件名、文件大小、上传日期、存储路径,并使用FileList对象维护该小文件队列;当小文件队列写入MapFile后,更新FileList对象和MySQL数据库后,再删除已处理的小文件。
优选的,所述***还设置有文件信息表,所述文件信息表设置小文件状态字段flag,flag=0表示小文件处于待处理状态,flag=1表示小文件已处理,并存在于HDFS的MapFile中,flag=2表示小文件重生成写入到本地磁盘中。
优选的,所述***构建MySQL索引和MapFile索引,MapFile索引通过文件信息表的文件名字段构建索引。
本发明的另一目的在于提供一种基于Hadoop分布式计算平台的存储***的文件上传存储方法,其特征在于所述方法包括以下步骤:
(1)用户向具有基于Hadoop分布式计算平台的存储***的服务器上传文件;
(2)文件文件类型判断模块判断用户上传的文件是否属于小文件;当上传的文件为大文件时,直接上传存储到HDFS中;当上传的文件为小文件时,将每个小文件作为一个Record存入SequenceFile类中形成小文件队列,并启动定时模块;
(3)当到达预定周期时进行统计小文件处理模块中小文件序列的大小,判断小文件序列的大小是否大于HDFS文件***的块;当定时模块判断小文件序列的大小大于HDFS文件***的块时,以小文件的文件名作为Key值,而文件内容作为Value值,一次性将小文件队列写入MapFile中,并同时删除已处理的小文件。
本发明的又一目的在于提供一种基于Hadoop分布式计算平台的存储***的文件下载读取方法,其特征在于所述方法包括以下步骤:
(1)用户向具有基于Hadoop分布式计算平台的存储***的服务器发送下载文件;
(2)具有基于Hadoop分布式计算平台的存储***判断文件是否存储在本地磁盘;
(3)当文件存在于本地磁盘,直接通过下载组件访问下载;
(4)当文件不存在于本地磁盘,具有基于Hadoop分布式计算平台的存储***启动MYSQL索引和MapFile索引,先将小文件从MapFile中读取到本地磁盘,然后通过下载组件访问下载。
相对于现有技术中的方案,本发明的优点是:
本发明技术方案基于Hadoop的小文件存储方法,解决了HDFS的小文件存储问题。本发明技术方案使用SequenceFile作为解决小文件读写的方案就是说,将每个小文件作为一个Record存入SequenceFile中,其中,文件名作为Key值,而文件内容作为Value值,这种方法不论是从理论还是在众多实践中,是目前在HDFS中处理小文件最佳的解决途径。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为基于Hadoop分布式计算平台的存储***的文件上传的流程示意图。
图2为基于Hadoop分布式计算平台的存储***的文件下载的流程示意图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
实施例
如图1所示,本实施例在原有HDFS基础上添加一个小文件处理模块、文件类型判断模块和定时模块。其中所述文件类型判断模块用于判断用户上传的文件是否属于小文件;当用户上传的文件大小小于HDFS文件***的块时,文件类型判断模块判断文件为小文件,否则文件类型判断模块判断文件为大文件;定时模块,通过设置定时器计时,到达预定周期时进行统计小文件处理模块中小文件序列的大小,判断小文件序列的大小是否大于HDFS文件***的块;小文件处理模块,用于将每个小文件作为一个Record存入SequenceFile类中形成小文件队列;当定时模块判断小文件序列的大小大于HDFS文件***的块时,以小文件的文件名作为Key值,而文件内容作为Value值,一次性将小文件队列写入MapFile中,并同时删除已处理的小文件。
具体上传文件时,如图1所示,具体操作流程如下:
1、当用户上传文件时,判断该文件是否属于小文件,如果是,则交给小文件处理模块处理,否则,交给通用文件处理模块处理。
2、在小文件模块中开启一定时任务,其主要功能是当模块中文件总size大于HDFS上block大小的文件时,则通过SequenceFile组件以文件名做key,相应的文件内容为value将这些小文件一次性写入HDFS模块。
3、同时删除已处理的文件,并将结果写入数据库。
4、当用户进行读取操作时,可根据数据库中的结果标志来读取文件。
本发明技术方案减少了HDFS中小文件的数量,有效地提高了HDFS中文件读取的性能。
小文件通过上传组件上传到服务器上,同时使用FileList对象维护一个小文件队列,记录upload目录下总的文件大小,文件名列表,然后将FileList对象通过对象序列化技术持久化到本地磁盘。同时将小文件基本信息如文件名、文件大小、上传日期、存储路径等记录在MySQL数据库中。小文件有三种状态,分别是待处理(在本地磁盘upload目录下)、已处理(在HDFS中)、重生成(在本地磁盘download目录下),对应于文件信息表filetb的字段flag为0、1、2。在web方式下,使用Timer和TimeTask来指定一个定时任务,这个任务每隔五分钟将FileList对象读入内存,通过判断总的文件大小决定是否将upload目录下的小文件写入HDFS中。若总的文件大小大于HDFS block大小,通过MapFile组件以文件名做key,相应的文件内容为value将这些小文件一次性写入HDFS中,同时更新FileList对象和MySQL数据库,最后删掉这些小文件。这里定时任务主要执行的是MapFileTools类中MapFileWriter方法。
当要下载小文件时,首先根据filetb表的flag字段判断小文件是否在本地磁盘。若小文件不在本地磁盘,先将小文件从HDFS的MapFile中读到本地磁盘,并更新数据库,然后使用下载组件下载小文件。
为了高效地对小文件进行随机读取,本实施例采用两级索引,第一级是MySQL索引,第二级是MapFile的索引。MapFile的索引为filetb的filename字段建立索引,以便快速查询小文件所在的MapFile文件。MapFile包含两个文件:data文件、index文件。MapFile可以查找单个键(小文件名)所对应的value值。执行查找时,MapFile.Reader()需要把index读入内存中,然后执行一个简单的二叉搜索找到数据,MapFile.Reader()在查找时,会先在索引文件中找到小于想要找的索引key值,然后再到data文件中向后查找。Hadoop提供了一个非常有效的方法,就是读取索引文件时,可以隔几个索引key再读取索引key值,这样可以有效地降低读入内存的索引文件的大小。至于跳过key的个数是通过io.map.index.skip来设置的。
JAVA实现文件上传的几个组件:1、SmartUpload用的最多的一个组件,已经不再更新了,可以实现上传和下载;2、FileUpload Apache实现的文件上传组件,功能齐备;3、J2KUpload java2000实现的文件上传组件,全部使用内存,适合多个不超过10M的小文件。本发明主要采用第二种方式,按copy方式上传,将本地文件上传到服务器上,支持多文件上传,并且可以设置上传文件的大小、类型。
下载相对简单,只需提供文件的下载地址就可以了。文件的存放路径分为物理路径和虚拟路径。物理路径指的是文件存放在服务器硬盘上的位置,虚拟路径指的是文件存放在HDFS的位置,虚拟路径转换为物理路径的过程上文已经阐明,不再赘述。
上述实例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于Hadoop分布式计算平台的存储***,包括HDFS通用文件处理模块,其特征在于所述***还包括文件类型判断模块、小文件处理模块和定时模块;所述文件类型判断模块用于判断用户上传的文件是否属于小文件;当用户上传的文件大小小于HDFS文件***的块时,文件类型判断模块判断文件为小文件,否则文件类型判断模块判断文件为大文件;
定时模块,通过设置定时器计时,到达预定周期时进行统计小文件处理模块中小文件序列的大小,判断小文件序列的大小是否大于HDFS文件***的块;
小文件处理模块,用于将每个小文件作为一个Record存入SequenceFile类中形成小文件队列;当定时模块判断小文件序列的大小大于HDFS文件***的块时,以小文件的文件名作为Key值,而文件内容作为Value值,一次性将小文件队列写入MapFile中,并同时删除已处理的小文件。
2.根据权利要求1所述的基于Hadoop分布式计算平台的存储***,其特征在于所述***还包括小文件状态数据库,采用MySQL数据库存储小文件的文件名、文件大小、上传日期、存储路径,并使用FileList对象维护该小文件队列;当小文件队列写入MapFile后,更新FileList对象和MySQL数据库后,再删除已处理的小文件。
3.根据权利要求1所述的基于Hadoop分布式计算平台的存储***,其特征在于所述***还设置有文件信息表,所述文件信息表设置小文件状态字段flag,flag=0表示小文件处于待处理状态,flag=1表示小文件已处理,并存在于HDFS的MapFile中,flag=2表示小文件重生成写入到本地磁盘中。
4.根据权利要求3所述的基于Hadoop分布式计算平台的存储***,其特征在于所述***构建MySQL索引和MapFile索引,MapFile索引通过文件信息表的文件名字段构建索引。
5.一种基于Hadoop分布式计算平台的存储***的文件上传存储方法,其特征在于所述方法包括以下步骤:
(1)用户向具有基于Hadoop分布式计算平台的存储***的服务器上传文件;
(2)文件文件类型判断模块判断用户上传的文件是否属于小文件;当上传的文件为大文件时,直接上传存储到HDFS中;当上传的文件为小文件时,将每个小文件作为一个Record存入SequenceFile类中形成小文件队列,并启动定时模块;
(3)当到达预定周期时进行统计小文件处理模块中小文件序列的大小,判断小文件序列的大小是否大于HDFS文件***的块;当定时模块判断小文件序列的大小大于HDFS文件***的块时,以小文件的文件名作为Key值,而文件内容作为Value值,一次性将小文件队列写入MapFile中,并同时删除已处理的小文件。
6.一种基于Hadoop分布式计算平台的存储***的文件下载读取方法,其特征在于所述方法包括以下步骤:
(1)用户向具有基于Hadoop分布式计算平台的存储***的服务器发送下载文件;
(2)具有基于Hadoop分布式计算平台的存储***判断文件是否存储在本地磁盘;
(3)当文件存在于本地磁盘,直接通过下载组件访问下载;
(4)当文件不存在于本地磁盘,具有基于Hadoop分布式计算平台的存储***启动MYSQL索引和MapFile索引,先将小文件从MapFile中读取到本地磁盘,然后通过下载组件访问下载。
CN2012103055454A 2012-08-27 2012-08-27 基于Hadoop分布式计算平台的存储*** Pending CN102902716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103055454A CN102902716A (zh) 2012-08-27 2012-08-27 基于Hadoop分布式计算平台的存储***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103055454A CN102902716A (zh) 2012-08-27 2012-08-27 基于Hadoop分布式计算平台的存储***

Publications (1)

Publication Number Publication Date
CN102902716A true CN102902716A (zh) 2013-01-30

Family

ID=47574949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103055454A Pending CN102902716A (zh) 2012-08-27 2012-08-27 基于Hadoop分布式计算平台的存储***

Country Status (1)

Country Link
CN (1) CN102902716A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246700A (zh) * 2013-04-01 2013-08-14 厦门市美亚柏科信息股份有限公司 基于HBase的海量小文件低延时存储方法
CN103500089A (zh) * 2013-09-18 2014-01-08 北京航空航天大学 一种适应于Mapreduce计算模型的小文件存储***
CN103559036A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种基于Hadoop的数据批处理***和方法
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN103607451A (zh) * 2013-11-18 2014-02-26 上海爱数软件有限公司 支持并发的客户端与服务器端的文档操作同步方法
CN104199899A (zh) * 2014-08-26 2014-12-10 浪潮(北京)电子信息产业有限公司 一种基于Hbase的海量图片存储方法及装置
CN104283909A (zh) * 2013-07-03 2015-01-14 中国长城计算机深圳股份有限公司 一种兼容桌面应用的云计算方法及装置
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和***
CN104866350A (zh) * 2015-05-27 2015-08-26 小米科技有限责任公司 终端分区空间的优化方法、装置及终端
CN104978351A (zh) * 2014-04-09 2015-10-14 中国电信股份有限公司 海量小文件备份方法与云存储网关
CN105022779A (zh) * 2015-05-07 2015-11-04 云南电网有限责任公司电力科学研究院 一种利用Filesystem API实现HDFS文件存取方法
CN105049524A (zh) * 2015-08-13 2015-11-11 浙江鹏信信息科技股份有限公司 一种基于hdfs的大规模数据集装载的方法
CN105205082A (zh) * 2014-06-27 2015-12-30 国际商业机器公司 用于处理hdfs中的文件存储的方法和***
CN105357280A (zh) * 2015-10-19 2016-02-24 福建新大陆软件工程有限公司 一种基于hdfs的文件溯源ftp***
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法
CN105843813A (zh) * 2015-01-14 2016-08-10 ***通信集团重庆有限公司 一种处理大数据的方法及装置
CN105912675A (zh) * 2016-04-13 2016-08-31 中国科学院计算技术研究所 一种针对小文件合并的批量删除/查询方法与装置
CN107273368A (zh) * 2016-04-06 2017-10-20 中兴通讯股份有限公司 海量数据存储管理方法、装置及数据存储***
CN107295030A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 一种数据写入方法、装置、数据处理方法、装置及***
CN107402924A (zh) * 2016-05-19 2017-11-28 普天信息技术有限公司 Mr文件应用在hdfs的实现方法和装置
CN108932287A (zh) * 2018-05-22 2018-12-04 广东技术师范学院 一种基于Hadoop的海量小文件写入方法
CN109361748A (zh) * 2018-10-24 2019-02-19 杭州数梦工场科技有限公司 Binlog文件下载方法、装置、设备及可读存储介质
CN109542638A (zh) * 2018-10-26 2019-03-29 深圳点猫科技有限公司 一种基于教育***的文件处理方法及装置
CN110069451A (zh) * 2019-03-28 2019-07-30 浪潮卓数大数据产业发展有限公司 一种hdfs存储小文件的方法及装置
CN110515920A (zh) * 2019-08-30 2019-11-29 北京浪潮数据技术有限公司 一种基于Hadoop的海量小文件存取方法和***
CN110633261A (zh) * 2019-09-02 2019-12-31 恩亿科(北京)数据科技有限公司 一种图片存储方法、图片查询方法及装置
CN112860641A (zh) * 2021-01-29 2021-05-28 西藏宁算科技集团有限公司 基于hadoop的小文件存储方法及其装置
CN113190527A (zh) * 2021-05-19 2021-07-30 重庆忽米网络科技有限公司 一种基于hdfs的数据转换存储方法
US11301154B2 (en) 2016-02-06 2022-04-12 Huawei Technologies Co., Ltd. Distributed storage method and device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222092A (zh) * 2011-06-03 2011-10-19 复旦大学 一种MapReduce平台上的海量高维数据聚类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222092A (zh) * 2011-06-03 2011-10-19 复旦大学 一种MapReduce平台上的海量高维数据聚类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BO DONG 等: "A Novel Approach to Improving the Efficiency of Storing and Accessing Small Files on Hadoop: a Case Study by PowerPoint Files", 《2010 IEEE INTERNATIONAL CONFERENCE ON SERVICES COMPUTING》, 30 December 2010 (2010-12-30), pages 65 - 72 *
余思 等: "一种提高云存储中小文件存储效率的方案", 《西安交通大学学报》, vol. 45, no. 6, 30 June 2011 (2011-06-30), pages 59 - 63 *
源码天空: "基于Hadoop Sequencefile的小文件解决方案", 《HTTP://WWW.CODESKY.NET/ARTICLE/201203/172653.HTML》, 8 March 2012 (2012-03-08), pages 2 *
陈平: "移动终端中间件平台核心层关键技术研究及实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 01, 15 January 2012 (2012-01-15) *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246700B (zh) * 2013-04-01 2016-08-10 厦门市美亚柏科信息股份有限公司 基于HBase的海量小文件低延时存储方法
CN103246700A (zh) * 2013-04-01 2013-08-14 厦门市美亚柏科信息股份有限公司 基于HBase的海量小文件低延时存储方法
CN104283909A (zh) * 2013-07-03 2015-01-14 中国长城计算机深圳股份有限公司 一种兼容桌面应用的云计算方法及装置
CN103500089A (zh) * 2013-09-18 2014-01-08 北京航空航天大学 一种适应于Mapreduce计算模型的小文件存储***
CN103559036A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种基于Hadoop的数据批处理***和方法
CN103577123B (zh) * 2013-11-12 2016-06-22 河海大学 一种基于hdfs的小文件优化存储方法
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN103607451B (zh) * 2013-11-18 2017-02-15 上海爱数信息技术股份有限公司 支持并发的客户端与服务器端的文档操作同步方法
CN103607451A (zh) * 2013-11-18 2014-02-26 上海爱数软件有限公司 支持并发的客户端与服务器端的文档操作同步方法
CN104978351A (zh) * 2014-04-09 2015-10-14 中国电信股份有限公司 海量小文件备份方法与云存储网关
CN105205082A (zh) * 2014-06-27 2015-12-30 国际商业机器公司 用于处理hdfs中的文件存储的方法和***
US10210173B2 (en) 2014-06-27 2019-02-19 International Business Machines Corporation File storage processing in HDFS
CN104199899A (zh) * 2014-08-26 2014-12-10 浪潮(北京)电子信息产业有限公司 一种基于Hbase的海量图片存储方法及装置
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和***
CN105843813A (zh) * 2015-01-14 2016-08-10 ***通信集团重庆有限公司 一种处理大数据的方法及装置
CN105022779A (zh) * 2015-05-07 2015-11-04 云南电网有限责任公司电力科学研究院 一种利用Filesystem API实现HDFS文件存取方法
CN104866350A (zh) * 2015-05-27 2015-08-26 小米科技有限责任公司 终端分区空间的优化方法、装置及终端
CN105049524A (zh) * 2015-08-13 2015-11-11 浙江鹏信信息科技股份有限公司 一种基于hdfs的大规模数据集装载的方法
CN105049524B (zh) * 2015-08-13 2019-02-05 浙江鹏信信息科技股份有限公司 一种基于hdfs的大规模数据集装载的方法
CN105357280A (zh) * 2015-10-19 2016-02-24 福建新大陆软件工程有限公司 一种基于hdfs的文件溯源ftp***
CN105357280B (zh) * 2015-10-19 2019-02-19 福建新大陆软件工程有限公司 一种基于hdfs的文件溯源ftp***
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法
US11301154B2 (en) 2016-02-06 2022-04-12 Huawei Technologies Co., Ltd. Distributed storage method and device
US11809726B2 (en) 2016-02-06 2023-11-07 Huawei Technologies Co., Ltd. Distributed storage method and device
CN107295030A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 一种数据写入方法、装置、数据处理方法、装置及***
CN107273368A (zh) * 2016-04-06 2017-10-20 中兴通讯股份有限公司 海量数据存储管理方法、装置及数据存储***
CN105912675A (zh) * 2016-04-13 2016-08-31 中国科学院计算技术研究所 一种针对小文件合并的批量删除/查询方法与装置
CN105912675B (zh) * 2016-04-13 2019-06-18 中国科学院计算技术研究所 一种针对小文件合并的批量删除/查询方法与装置
CN107402924A (zh) * 2016-05-19 2017-11-28 普天信息技术有限公司 Mr文件应用在hdfs的实现方法和装置
CN108932287A (zh) * 2018-05-22 2018-12-04 广东技术师范学院 一种基于Hadoop的海量小文件写入方法
CN109361748A (zh) * 2018-10-24 2019-02-19 杭州数梦工场科技有限公司 Binlog文件下载方法、装置、设备及可读存储介质
CN109361748B (zh) * 2018-10-24 2021-04-20 杭州数梦工场科技有限公司 Binlog文件下载方法、装置、设备及可读存储介质
CN109542638A (zh) * 2018-10-26 2019-03-29 深圳点猫科技有限公司 一种基于教育***的文件处理方法及装置
CN110069451A (zh) * 2019-03-28 2019-07-30 浪潮卓数大数据产业发展有限公司 一种hdfs存储小文件的方法及装置
CN110515920A (zh) * 2019-08-30 2019-11-29 北京浪潮数据技术有限公司 一种基于Hadoop的海量小文件存取方法和***
CN110633261A (zh) * 2019-09-02 2019-12-31 恩亿科(北京)数据科技有限公司 一种图片存储方法、图片查询方法及装置
CN112860641A (zh) * 2021-01-29 2021-05-28 西藏宁算科技集团有限公司 基于hadoop的小文件存储方法及其装置
CN113190527A (zh) * 2021-05-19 2021-07-30 重庆忽米网络科技有限公司 一种基于hdfs的数据转换存储方法

Similar Documents

Publication Publication Date Title
CN102902716A (zh) 基于Hadoop分布式计算平台的存储***
CN102782683B (zh) 用于数据库服务器的缓冲池扩展
CN102667772B (zh) 文件级分级存储管理***、方法和设备
CN103023982B (zh) 一种云存储客户端的低延迟元数据访问方法
CN103136243B (zh) 基于云存储的文件***去重方法及装置
US8555018B1 (en) Techniques for storing data
EP3944556B1 (en) Block data storage method and apparatus, and block data access method and apparatus
CN106484906B (zh) 一种分布式对象存储***闪回方法及装置
CN105183839A (zh) 一种基于Hadoop的小文件分级索引的存储优化方法
CN102117248A (zh) 一种缓存***和在缓存***中缓存数据的方法
CN104967552A (zh) 消息推送方法及装置
CN108021717B (zh) 一种轻量级嵌入式文件***的实现方法
CN103186350A (zh) 混合存储***及热点数据块的迁移方法
CN103176754A (zh) 一种海量小文件读取存储方法
CN106775446A (zh) 基于固态硬盘加速的分布式文件***小文件访问方法
US20140317157A1 (en) Automatic worm-retention state transitions
CN104272249A (zh) 使用fpga设置检查点
CN102567821A (zh) 基于网络的图书管理***
CN104239438A (zh) 基于分离存储的文件信息存储方法和文件信息读写方法
CN103164525A (zh) Web应用发布方法和装置
CN111159176A (zh) 一种海量流数据的存储和读取的方法和***
CN102024019A (zh) 一种分布式文件***中基于后缀树的目录组织方法
CN106446038A (zh) 基于混合数据库的数据访问控制***及方法
CN104008207A (zh) 基于光盘的数据库的数据外部存储***及数据存储方法
CN111475102A (zh) 一种基于蓝光的对象存储***及其存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130130