CN102281312B - 一种数据加载方法、***和数据处理方法、*** - Google Patents

一种数据加载方法、***和数据处理方法、*** Download PDF

Info

Publication number
CN102281312B
CN102281312B CN201010205426.2A CN201010205426A CN102281312B CN 102281312 B CN102281312 B CN 102281312B CN 201010205426 A CN201010205426 A CN 201010205426A CN 102281312 B CN102281312 B CN 102281312B
Authority
CN
China
Prior art keywords
data
initial data
physical equipment
file
metadata information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010205426.2A
Other languages
English (en)
Other versions
CN102281312A (zh
Inventor
蔡斌
宫振飞
郭玮
刘奕慧
史晓峰
张文郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201010205426.2A priority Critical patent/CN102281312B/zh
Publication of CN102281312A publication Critical patent/CN102281312A/zh
Application granted granted Critical
Publication of CN102281312B publication Critical patent/CN102281312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据加载方法、***和数据处理方法、***。该方法包括:在原始数据所在的物理设备上创建并行分布式容错文件***数据节点,在该数据节点上为该原始数据划分文件带区;该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件***的名称节点上;所述元数据信息包括原始数据的名称和文件带区信息。应用本发明能够节省网络传输资源。

Description

一种数据加载方法、***和数据处理方法、***
技术领域
本发明涉及并行分布式容错文件***技术领域,尤其涉及一种数据加载方法、***和数据处理方法、***。
背景技术
目前,网络文件***得到了广泛应用,其工作原理是:将服务器上的逻辑卷开放给远程客户端,远程客户端可以像操作本地硬盘一样操作该服务器上的文件。分布式文件***是一种典型的网络文件***,分布式文件***允许其他多个***通过网络以透明的方式对分布在网络上的文件进行访问。
并行分布式容错文件***是一种支持文件带区划分、数据复制、数据一致性检查和并行访问的分布式文件***。并行分布式容错文件***将文件划分出多个文件带区,通过数据复制和数据一致性检查,使得各个文件带区存储的数据一致,从而达到容错的效果。同时,由于多个文件带区中存储相同的数据,因此可以并行访问多个文件带区。目前互联网上应用的大规模文件***,很多都采用并行分布式容错文件***的架构,例如Hadoop分布式文件***(HDFS)。
图1是现有技术中的并行分布式容错文件***的结构示意图。
图1所示结构是以HDFS为例,但是其仍然适用于其他并行分布式容错文件***。
图1中服务器侧包括名称节点(NameNode)模块和数据节点(DataNode)模块。其中一个HDFS***仅有一个NameNode,用于HDFS***中数据存储信息的元数据管理、数据完整性管理和访问安全性管理等,数据存储信息的元数据记载了文件带区名称以及文件带区的具体存储位置等。一个HDFS***通常有多个DataNode,用于存储文件带区的多个副本。
图1中,客户端(Client)用于文件***客户访问分布式文件***,即通过与服务器侧的NameNode模块和DataNode模块进行通信,获取客户需要的数据信息。
具体地,客户端与NameNode模块进行通信,获取NameNode模块上存储的文件带区的存储位置信息,客户端根据该存储位置信息,到相应的DataNode模块上获取所述文件带区中的数据。例如,在图1中,客户端要读取的数据在文件带区1中,那么,客户端通过NameNode查找文件带区1的存储位置,查找结果是文件带区1存储在DataNode1中,则客户端通过访问DataNode1读取文件带区1。再例如,在图1中,客户端需要向HDFS***中写数据,那么客户端首先通过访问NameNode得到数据的存储位置,然后向相应位置上的DataNode发起写请求,将相应的数据写到相应的DataNode上,其中,所写的数据可以同时写到多个DataNode上,以保证必要的文件带区副本数,这样,即便其中一个DataNode崩溃,还可以从其他正常的DataNode上获取数据,或者将该正常的DataNode上的数据复制到其他DataNode上,以保证所述文件带区副本数。
图2是目前并行分布式容错文件***加载数据的方法流程图。
如图2所示,该方法包括:
步骤201,将需要加载的原始数据上传到预先布置的DataNode上。
本步骤中,对于并行分布式容错文件***中所有要处理的原始数据,都需要通过客户端上传到DataNode上,其中的DataNode通常是在并行分布式容错文件***中用于存储数据并进行相应格式转换等处理的设备。
步骤202,DataNode将上传的原始数据处理成预定格式。
本步骤中,DataNode将数据根据文件带区格式进行划分,创建与各个文件带区相对应的校验文件。
步骤203,更新NameNode上相应的元数据信息。
在步骤202对新上传到DataNode上的原始数据处理完毕后,步骤203将处理完毕的数据信息,例如文件带区数、校验文件存储位置等作为元数据信息上传到NameNode上,至此完成数据加载过程。
由图2可知,并行分布式容错文件***中所有要处理的数据,都需要上传到预先布置的DataNode上,当客户端需要获取数据,或者当需要对数据进行分析处理时,都需要到相应的DataNode上获取数据。
无论是将数据加载到DataNode上,还是在需要对数据进行分析处理时从DataNode上获取数据,都需要占用大量的网络传输资源。例如,当计算资源本地有需要处理的数据时,也需要先通过图2将该数据加载到DataNode上,然后再从该DataNode上获取数据来进行相应的处理。
计算资源的调度是绿色计算(Green Computing)中的重要技术,其根据***的状态信息和预测信息,将互相独立的应用需要的计算资源,映射到适当的物理资源上,并在适当的时刻运行。
在采用计算资源调度技术的***中,常常会出现某些计算资源所在的物理设备上存储有需要利用该计算资源进行处理的原始数据,则按照现有技术,需要先根据图2加载原始数据的方法,将该计算资源所在物理设备上的原始数据加载到DataNode上,然后该计算资源所在物理设备再从DataNode上获取相应的数据,利用所述计算资源对获取的数据进行分析处理,浪费网络传输资源,特别是目前互联网***每天产生的数据已经达到了T级别,在各个***之间传输数据将占用大量的网络资源。
例如,在一个典型的互联网公司,通常业务处理***的忙时集中在早上8点到晚上12点,而相应的业务分析***的忙时出现在晚上12点到早上6点。通过计算资源的调度,可以在晚上12点到早上6点,将业务处理***的一部分计算资源转移到业务分析***;而在早上8点到晚上12点,可以将业务分析***的一部分计算资源转移到业务处理***,从而保证计算资源的利用率。
业务分析***需要分析的数据,例如访问日志数据、***日志数据等,都是由业务处理***产生的,按照现有技术,需要将业务处理***产生的数据加载到业务分析***的DataNode上。然而,当采用计算资源调度技术,将业务***的部分计算资源转移到业务分析***中用于业务分析处理时,可能会出现该部分计算资源上的原始数据已经按照现有技术加载到了业务分析***的DataNode上,因此利用该部分计算资源进行业务分析处理时,还需要从业务分析***的DataNode上获取相应的数据,而这部分数据本来就是由业务***产生并存储在该部分计算资源所在物理设备上的,可见,现有加载数据的方法将浪费大量的网络传输资源。
发明内容
有鉴于此,本发明提供了一种数据加载方法、***和数据处理方法、***,以节省网络传输资源。
本发明的技术方案具体是这样实现的:
一种数据加载方法,应用于并行分布式容错文件***,该方法包括:
在原始数据所在的物理设备上创建并行分布式容错文件***数据节点,在该数据节点上为该原始数据划分文件带区;
该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件***的名称节点上;
所述元数据信息包括原始数据的名称和文件带区信息。
一种数据加载***,该***包括原始数据所在的物理设备和并行分布式容错文件***中的名称节点;
原始数据所在的物理设备,在该物理设备上创建并行分布式容错文件***的数据节点,在该数据节点上为该原始数据划分文件带区,将该原始数据在该数据节点上的元数据信息加载到所述名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述名称节点,用于存储元数据信息。
一种数据处理方法,该方法包括:
在当前数据处理***中的计算资源所在物理设备上有需要处理的原始数据时,在该物理设备上创建并行分布式容错文件***的数据节点,在该数据节点上为该原始数据划分文件带区,该物理设备将该数据节点上的元数据信息上传到名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述计算资源从所述名称节点上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行处理。
一种数据处理***,该***包括计算资源所在的物理设备和并行分布式容错文件***中的名称节点;
所述计算资源所在的物理设备,如果该物理设备上有当前数据处理***需要处理的原始数据,则在该物理设备上创建并行分布式容错文件***的数据节点,在该数据节点上为该原始数据划分文件带区,该物理设备将该原始数据在数据节点上的元数据信息上传到所述名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述计算资源从所述名称节点上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行第一数据处理;
所述名称节点,用于存储元数据信息。
由上述技术方案可见,本发明提供的技术方案,通过在原始数据所在的物理设备上对该原始数据进行文件带区划分等预处理,并将相应的元数据信息上传到NameNode,实现将数据加载到并行分布式容错文件***中,也就是说,通过在本地对原始数据进行处理、且仅上传元数据信息实现向并行分布式容错文件***中加载数据,与现有技术中需要将所有的原始数据都传输到预先布置的DataNode相比,节省了网络传输资源。
特别地,当对计算资源进行调度时,如果被调度用于第一数据处理***的计算资源所在的物理设备上存储有需要进行第一数据处理的原始数据,则通过在该物理设备本地对该原始数据进行处理、且仅上传相应的元数据信息实现向并行分布式容错文件***中加载数据,这样就可以利用该计算资源在本地对相应的数据进行第一数据处理,既无需将原始数据上传到预先布置的DataNode上,也无需从预先布置的DataNode上下载数据来进行第一数据处理,能够大大地节省网络传输资源。
附图说明
图1是现有技术中的并行分布式容错文件***的结构示意图。
图2是目前并行分布式容错文件***加载数据的方法流程图。
图3是本发明提供的数据加载方法流程图。
图4是本发明提供的数据加载***的组成示意图。
图5是本发明提供的数据处理方法流程图。
图6是本发明提供的数据处理***的组成示意图。
图7是本发明提供的业务分析***的***组成及数据处理流程图。
具体实施方式
本发明提供的数据加载方法和***,通过在本地对原始数据进行处理、且仅上传元数据信息实现向并行分布式容错文件***中加载数据,具体请参见图3和图4。
图3是本发明提供的数据加载方法流程图。
如图3所示,该流程包括:
步骤301,在原始数据所在的物理设备上创建DataNode。
本步骤中,需要在所述物理设备上为原始数据创建持久的存储信息,一般通过创建并行分布式容错文件***的DataNode来实现。
步骤302,在该DataNode上为该原始数据划分文件带区。
本步骤中,需要对该原始数据进行预处理,使其符合DataNode要求的数据格式。具体地,该预处理包括划分文件带区,还可以包括:将原始数据复制到各个文件带区内,计算各个文件带区的校验值。其中,将原始数据复制到各个文件带区内以及计算各个文件带区的校验值可以在步骤303执行完之后再进行。
步骤303,该原始数据所在的物理设备将该原始数据在DataNode上的元数据信息加载到所述并行分布式容错文件***的NameNode上。
所述元数据信息包括原始数据的名称和文件带区信息,还可以包括各个文件带区的校验值信息。
图4是本发明提供的数据加载***的组成示意图。
如图4所示,该***包括原始数据所在的物理设备401和并行分布式容错文件***中的名称节点NameNode402。
原始数据所在的物理设备401,在该物理设备401上创建并行分布式容错文件***的数据节点DataNode,在该DataNode上为该原始数据划分文件带区,将该原始数据在该DataNode上的元数据信息加载到所述NameNode402上,所述元数据信息包括原始数据的名称和文件带区信息。
所述NameNode402,用于存储元数据信息。
其中,原始数据所在的物理设备401,还可以计算各个文件带区的校验值。
相应地,所述元数据信息进一步包括:原始数据的各个文件带区的校验值信息。
本发明提供的数据处理方法和***,通过在计算资源所在的物理设备本地对原始数据进行处理、且仅上传元数据信息实现向并行分布式容错文件***中加载数据,进而利用所述计算资源对该计算资源所在的物理设备本地的数据进行相应的处理,以节省网络传输资源,具体请参见图5和图6。
图5是本发明提供的数据处理方法流程图。
如图5所示,该方法包括:
步骤501,判断用于第一数据处理***的计算资源所在的物理设备上是否有进行第一数据处理所需要的原始数据,如果是,执行步骤502,否则结束本流程。
步骤502,在该物理设备上创建并行分布式容错文件***的DataNode。
步骤503,将该物理设备上的原始数据处理成符合DataNode要求的格式,并将处理后的数据存储在所述DataNode上。
本步骤中,需要为所述原始数据划分文件带区,将所述原始数据拷贝到各个文件带区,计算各个文件带区的校验值,其中,可以在步骤504更新完元数据信息以后再计算各个文件带区的校验值。
步骤504,所述物理设备将该DataNode上的元数据信息上传到NameNode上。
本步骤的元数据信息包括原始数据的名称、文件带区信息、校验值信息等。
通过在计算资源所在物理设备本地创建DataNode,并将原始数据处理成DataNode要求的格式,再将元数据信息上传到NameNode,不需要进行实际的网络传输,即可将所述物理设备上的原始数据导入并行分布式容错文件***,因而节省了网络传输资源。
步骤505,所述计算资源从所述NameNode上获取所述原始数据的元数据信息。
步骤506,所述计算资源根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行第一数据处理。
计算资源通过从NameNode上获取的元数据信息可以判断出其需要进行处理的数据存储在该计算资源所在物理设备本地,因此对本地的数据进行第一数据处理即可,无需从其他物理设备上获取数据,与现有技术中从预先布置的DataNode上获取数据相比,能够大大地节省网络传输资源。
典型地,图5所示方法可以应用在采用计算资源调度技术进行数据处理的场景中。
例如,计算资源首先被调度用于第二数据处理***,在该第二数据处理***中产生进行第一数据处理所需的原始数据,换言之,在该计算资源所在的物理设备上存储有第一数据处理所需的原始数据。在对所述原始数据进行第一数据处理时,需要将所述计算资源调度到第一数据处理***中,通过将该计算资源所在物理设备上产生的进行第一数据处理所需的原始数据转换成DataNode所要求的格式,再将相应的元数据信息上传到NameNode,使得该计算资源所在物理设备可以直接对本地数据进行第一数据处理,而无需通过网络传输从其他物理设备上获取需要处理的数据。其中,将原始数据转换成DataNode所要求的格式包括:为该原始数据划分文件带区,将原始数据拷贝到各个文件带区内,计算各个文件带区的校验值。
在所述计算资源再次被调度用于第二数据处理***时,删除该计算资源所在物理设备上创建的DataNode以及为所述原始数据划分的文件带区,并将更新的元数据信息上传到所述NameNode节点上,即将所述原始数据从并行分布式容错文件***中删除。
图6是本发明提供的数据处理***的组成示意图。
如图6所示,该***包括计算资源所在的物理设备601和并行分布式容错文件***中的名称节点NameNode602。
所述计算资源所在的物理设备601,在该计算资源用于第一数据处理***时,如果该物理设备601上有第一数据处理***需要处理的原始数据,则在该物理设备601上创建并行分布式容错文件***的DataNode,在该DataNode上为该原始数据划分文件带区,该物理设备601将该原始数据在DataNode上的元数据信息上传到所述NameNode602上,所述元数据信息包括原始数据的名称和文件带区信息。
所述计算资源从所述NameNode602上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备601本地的数据进行第一数据处理。
所述NameNode602,用于存储元数据信息。
其中,计算资源所在的物理设备601,在所述计算资源被调度用于第二数据处理***时,删除在该物理设备601上创建的DataNode以及为所述原始数据划分的文件带区,将更新的元数据信息上传到所述NameNode节点602上。
示例性地,第一数据处理***可以是业务分析***,第二数据处理***可以是业务处理***。
下面以第一数据处理***是业务分析***,第二数据处理***是业务***为例,对本发明提供的技术方案进行示例性说明,具体请参见图7。
图7是本发明提供的业务分析***的***组成及数据处理流程图。
参见图7,图7所示***包括:NameNode模块、DataNode模块、客户端模块和计算资源模块,其中的计算资源模块和DataNode模块位于相同物理设备上,所述计算资源模块是可以动态调度的计算机***,其可以用于业务处理***也可以用于业务分析***,在图7中,该计算资源模块被调度用于业务分析***,且该计算资源模块之前被调度用于业务处理***,因此该计算资源模块所在物理设备上存储有业务处理***产生的业务数据,该业务数据是业务分析***需要处理的原始数据。
参见图7,图7所示业务分析***处理数据的流程包括:
步骤1:进行计算资源模块的格式化。
本步骤中,需要按照并行分布式容错文件***的数据存储格式,在被业务***和业务分析***共享的计算资源模块上建立并行分布式容错文件***的DataNode需要的持久化存储信息,即在该计算资源模块所在的物理设备上创建并行分布式容错文件***的DataNode。
步骤2,对文件数据进行预处理。
本步骤中,对业务分析***需要处理的数据进行的预处理包括:在DataNode中为该文件数据划分文件带区,计算各个文件带区的校验值。
其中,计算各个文件带区的校验值也可以在步骤3或者步骤5执行的过程中或者执行完毕后再进行。
步骤3,将预处理后的文件数据上传到DataNode中。
本步骤中,将预处理后的文件数据传输到DataNode模块中的各个文件带区内,其中,可以通过流水线机制将文件数据传输到各个文件带区内,即通过步骤31将数据复制到多个DataNode模块中,步骤31执行完毕之后执行步骤5;也可以先通过步骤32将文件数据只上传到一个DataNode模块中,然后通过步骤4在将文件数据复制到其他DataNode模块中,步骤4执行完毕之后执行步骤5。
步骤5,更新NameNode中的元数据。
本步骤中,由客户端统一更改NameNode中的文件元数据,具体包括文件名、文件带区列表、文件带区的访问控制记录和文件带区的副本数信息等。
通过步骤2、步骤3和步骤5实现了将业务分析***需要处理的文件数据上传到并行分布式容错文件***,而在该上传过程中,仅在元数据更新的步骤中存在实际的数据传输,由于文件数据预处理和文件上传的过程都是在文件数据本地完成的,因此并不存在实际上的数据传输。
另外,在一个业务分析***中,可以存在多个实例用于执行步骤2、3和5的数据上传过程,各个实例之间相互不影响,
步骤6,从业务处理***中调度计算资源用于业务分析***。
本步骤中,将计算资源从业务处理***加载到业务分析***中,该计算资源从NameNode中获知其需要处理的数据存储在该计算资源所在物理设备本地,因此该计算资源对本地的数据进行处理。例如,该计算资源可以利用映射规约(MapReduce)算法对本地数据进行处理。
步骤7,将步骤6中的计算资源回收到业务处理***中。
本步骤中,需要将业务分析***中的计算资源回收到业务处理***中,具体包括:删除该业务分析***中的DataNode及其上的文件带区,更新NameNode中的元数据信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种数据加载方法,应用于并行分布式容错文件***,其特征在于,该方法包括:
在原始数据所在的物理设备上创建并行分布式容错文件***数据节点,在该数据节点上为该原始数据划分文件带区;
该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件***的名称节点上;
所述元数据信息包括原始数据的名称和文件带区信息。
2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
原始数据所在物理设备计算各个文件带区的校验值;
所述元数据信息进一步包括:原始数据的各个文件带区的校验值信息。
3.一种数据加载***,其特征在于,该***包括原始数据所在的物理设备和并行分布式容错文件***中的名称节点;
原始数据所在的物理设备,在该物理设备上创建并行分布式容错文件***的数据节点,在该数据节点上为该原始数据划分文件带区,将该原始数据在该数据节点上的元数据信息加载到所述名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述名称节点,用于存储元数据信息。
4.根据权利要求3所述的***,其特征在于,
所述原始数据所在的物理设备,计算各个文件带区的校验值;
所述元数据信息进一步包括:原始数据的各个文件带区的校验值信息。
5.一种数据处理方法,其特征在于,该方法包括:
在当前数据处理***中的计算资源所在物理设备上有需要处理的原始数据时,在该物理设备上创建并行分布式容错文件***的数据节点,在该数据节点上为该原始数据划分文件带区,该物理设备将该数据节点上的元数据信息上传到名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述计算资源从所述名称节点上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行处理。
6.根据权利要求5所述的方法,其特征在于,该方法进一步包括:
当所述计算资源被调度用于另一种数据处理***时,该计算资源所在的物理设备删除在该物理设备上创建的所述数据节点以及为所述原始数据划分的文件带区,将更新的元数据信息上传到所述名称节点上。
7.根据权利要求6所述的方法,其特征在于,
所述当前数据处理***是业务分析***,所述另一种数据处理***是业务处理***。
8.一种数据处理***,其特征在于,该***包括计算资源所在的物理设备和并行分布式容错文件***中的名称节点;
所述计算资源所在的物理设备,如果该物理设备上有当前数据处理***需要处理的原始数据,则在该物理设备上创建并行分布式容错文件***的数据节点,在该数据节点上为该原始数据划分文件带区,该物理设备将该原始数据在数据节点上的元数据信息上传到所述名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述计算资源从所述名称节点上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行第一数据处理;
所述名称节点,用于存储元数据信息。
9.根据权利要求8所述的***,其特征在于,
该计算资源所在的物理设备,在所述计算资源被调度用于另一种数据处理***时,删除在该物理设备上创建的所述数据节点以及为所述原始数据划分的文件带区,将更新的元数据信息上传到所述名称节点上。
10.根据权利要求9所述的***,其特征在于,
所述当前数据处理***是业务分析***,所述另一种数据处理***是业务处理***。
CN201010205426.2A 2010-06-12 2010-06-12 一种数据加载方法、***和数据处理方法、*** Active CN102281312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010205426.2A CN102281312B (zh) 2010-06-12 2010-06-12 一种数据加载方法、***和数据处理方法、***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010205426.2A CN102281312B (zh) 2010-06-12 2010-06-12 一种数据加载方法、***和数据处理方法、***

Publications (2)

Publication Number Publication Date
CN102281312A CN102281312A (zh) 2011-12-14
CN102281312B true CN102281312B (zh) 2015-05-20

Family

ID=45106483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010205426.2A Active CN102281312B (zh) 2010-06-12 2010-06-12 一种数据加载方法、***和数据处理方法、***

Country Status (1)

Country Link
CN (1) CN102281312B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207867B (zh) * 2012-01-16 2019-04-26 联想(北京)有限公司 处理数据块的方法、发起恢复操作的方法和节点
CN103631815B (zh) * 2012-08-27 2018-01-12 深圳市腾讯计算机***有限公司 块同步并行计算中实现检查点的方法、装置和***
CN102882927B (zh) * 2012-08-29 2016-12-21 华南理工大学 一种云存储数据同步框架及其实现方法
CN103544285B (zh) * 2013-10-28 2017-09-26 华为技术有限公司 一种数据加载方法及装置
CN106897279A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 用于分布式文件处理的方法和设备
CN106682227A (zh) * 2017-01-06 2017-05-17 郑州云海信息技术有限公司 基于分布式文件***的日志数据存储***及读写方法
CN109086358A (zh) * 2018-07-19 2018-12-25 郑州云海信息技术有限公司 一种Hadoop的数据快速加载方法与***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547137A (zh) * 2003-12-02 2004-11-17 中国科学院计算技术研究所 基于数据库的海量文件管理***与方法
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1433086A4 (en) * 2001-09-26 2006-07-26 Emc Corp EFFICIENT MANAGEMENT OF LARGE SIZE FILES

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547137A (zh) * 2003-12-02 2004-11-17 中国科学院计算技术研究所 基于数据库的海量文件管理***与方法
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法

Also Published As

Publication number Publication date
CN102281312A (zh) 2011-12-14

Similar Documents

Publication Publication Date Title
CN102281312B (zh) 一种数据加载方法、***和数据处理方法、***
US11507594B2 (en) Bulk data distribution system
CN103002010B (zh) 一种基于增量数据的数据更新方法、装置和***
US11042503B1 (en) Continuous data protection and restoration
US7899850B2 (en) Relational objects for the optimized management of fixed-content storage systems
US8285686B2 (en) Executing prioritized replication requests for objects in a distributed storage system
US10664196B2 (en) Random access file management
US20220188196A1 (en) Continuous data protection
US11579981B2 (en) Past-state backup generator and interface for database systems
CN105303456A (zh) 电力传输设备监控数据处理方法
WO2016148670A1 (en) Deduplication and garbage collection across logical databases
US9984079B1 (en) Managing data storage using storage policy specifications
KR20140100504A (ko) 데이터 송수신 시스템
US8423517B2 (en) System and method for determining the age of objects in the presence of unreliable clocks
CN103631820B (zh) 分布式文件***的元数据管理方法及设备
CN107220271B (zh) 一种分布式数字资源存储处理与管理的方法及***
US9600486B2 (en) File system directory attribute correction
CN106446099A (zh) 一种分布式云存储方法、***及其上传下载方法
CN111338834B (zh) 数据存储方法和装置
CN105022779A (zh) 一种利用Filesystem API实现HDFS文件存取方法
CN110012080B (zh) 数据处理方法
CN105761164A (zh) 一种基于Hadoop的电力***事故追忆的方法
CN103425707A (zh) 数据分析方法和装置
Jurik et al. Bridging the gap between real world repositories and scalable preservation environments
CN112528119A (zh) 一种基于Pulsar的分布式爬取网页信息的***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant