CN104123300B - 数据分布式存储***及方法 - Google Patents

数据分布式存储***及方法 Download PDF

Info

Publication number
CN104123300B
CN104123300B CN201310150539.0A CN201310150539A CN104123300B CN 104123300 B CN104123300 B CN 104123300B CN 201310150539 A CN201310150539 A CN 201310150539A CN 104123300 B CN104123300 B CN 104123300B
Authority
CN
China
Prior art keywords
data
back end
unit
internal memory
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310150539.0A
Other languages
English (en)
Other versions
CN104123300A (zh
Inventor
吴朱华
潘志铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI PEOPLEYUN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI PEOPLEYUN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI PEOPLEYUN INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI PEOPLEYUN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310150539.0A priority Critical patent/CN104123300B/zh
Publication of CN104123300A publication Critical patent/CN104123300A/zh
Application granted granted Critical
Publication of CN104123300B publication Critical patent/CN104123300B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了一种数据分布式存储***及方法,所述***包括节点集群模块、数据导入模块、存储模块;节点集群模块用以将集群内的数据节点连接对应的管理节点;数据导入模块用以对输入的数据按照设定大小的数据块进行扫描并载入内存,内存中的数据按照数据的特征值将其分组,而后将分组后的数据发送到相应数据节点;存储模块用以在数据节点接收到文件分片后将数据分片保留在内存中,数据节点输出日志至硬盘;判断内存中的数据大小是否超过所设定的阀值,如超过则将数据重新组织,压缩后写入硬盘,并删除对应的用户内存数据恢复的日志文件。本发明可以实现加速基于内存计算能力的集群;可提高对大规模数据的实时加载与处理能力,提升***的响应时间。

Description

数据分布式存储***及方法
技术领域
本发明属于数据库存储技术领域,涉及一种分布式存储***,尤其涉及一种数据分布式存储***;同时,本发明还涉及一种数据分布式存储方法。
背景技术
目前,数据库的数据存储方式有:1.单机数据存储方式;2.主从备份存储方式;3.利用分布式文件***的存储方式。然而,无论采用以上哪种方式,都存在着一定的不足。
单机数据存储方式虽然便于管理和使用,但是可扩展性存在严重缺陷难以满足当今海量数据的存取需要,数据的安全性也存在问题。主从备份存储方式只解决了安全性问题,其他问题依然存在。利用分布式文件***的数据库存储方式,虽然解决了数据的安全性和海量数据的存取需求,但是并不适合那些要求低延迟的数据访问和处理。
有鉴于此,如今迫切需要设计一种新的针对数据库的分布式存储***和方法,以便解决现有存储***的上述缺陷。
发明内容
本发明所要解决的技术问题是:提供一种针对数据库的分布式存储***,可实现基于加速内存计算能力的集群以及提升对大规模数据实时加载和处理能力,加快整个***的响应时间。
此外,本发明还提供一种数据分布式存储方法,可实现基于加速内存计算能力的集群以及提升对大规模数据实时加载和处理能力,加快整个***的响应时间。
为解决上述技术问题,本发明采用如下技术方案:
一种数据分布式存储***,所述***包括:
注册模块,用以通过客户端将集群内的数据节点注册到管理节点;
数据导入模块,用以对输入的数据按照设定大小的数据块进行扫描并载入内存,内存中的数据按照数据的特征值将其分组,而后将分组后的数据发送到相应的数据节点;所述数据导入模块具体包括数据扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元;所述数据扫描单元以对输入的数据按照设定大小的数据块进行扫描并载入内存,并用以按照数据特征值对数据进行切分并按照特征值生成一个整型数值作为数据的标识码;所述数据分组规则匹配单元用以根据不同数据的数据标识码将该标识码按照分组规则对其分组;所述数据分组单元用以将内存中经过扫描的设定大小数据块按照数据的特征值进行分组;所述数据发送单元将分组后的数据发送至相应的数据节点;
存储模块,用以在数据节点接收到文件分片后将数据分片保留在内存中,判断是否需要将该数据备份到其它数据节点,如需要则通过备份模块进行备份;数据节点输出日志至硬盘,用于数据内存数据恢复;判断内存中的数据大小是否超过所设定的阀值,如超过则将数据按照元数据特征进行归类,经过数据的重新组织后,再进行压缩;对数据的重新组织的方式主要是按照数据的特征值,以及数据间的相似度进行排序,使得最大相似度的数据会连续存放,为下一步的数据压缩存储做准备;经过数据的重新组织以后,由于相似的数据会存放在一起,采用LZAM算法对其压缩,以取得较高的压缩率,然后再后写入硬盘,并删除对应的用户内存数据恢复的日志文件;
备份模块,用以在数据传输到相应的数据节点上后,对该数据按照设定的备份数目进行备份,备份的数据将被分发到其它数据节点上;
检索模块,用以在管理节点收到数据检索的请求后对相应数据进行检索;检索模块具体包括定位单元、失效判断单元、请求分发单元、检索单元、结果合并单元;管理节点通过定位单元定位数据检索请求所涉及的数据节点;管理节点通过失效判断单元采用Lease机制确定该数据节点是否失效,如失效则直接返回请求失败信息,若有效,管理节点通过请求分发单元分发请求到相应节点;数据节点接收数据检索请求后,通过检索单元对相应数据进行检索后返回结果到客户端;客户端利用结果合并单元将接收到的结果进行合并。
一种数据分布式存储***,所述***包括:
节点集群模块,用以将集群内的数据节点连接对应的管理节点;
数据导入模块,用以对输入的数据按照设定大小的数据块进行扫描并载入内存,内存中的数据按照数据的特征值将其分组,而后将分组后的数据发送到相应的数据节点;
存储模块,用以在数据节点接收到文件分片后将数据分片保留在内存中,数据节点输出日志至硬盘,用于数据内存数据恢复;判断内存中的数据大小是否超过所设定的阀值,如超过则将数据重新组织,压缩后写入硬盘,并删除对应的用户内存数据恢复的日志文件。
作为本发明的一种优选方案,所述数据导入模块具体包括数据切分单元、文件扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元;
所述数据切分单元用以对输入的数据按照设定大小的数据块进行扫描并载入内存;所述数据分组规则匹配单元用以根据不同的数据类型设定不同的规则计算数据的特征值;所述数据分组单元用以将经过扫描的设定大小的数据块按照数据的特征进行分组;所述数据发送单元将分组后的数据发送至相应的数据节点。
作为本发明的一种优选方案,所述***还包括备份模块,用以在数据传输到相应的数据节点上后,对该数据按照设定的备份数目进行备份,备份的数据将被分发到其它数据节点上。
作为本发明的一种优选方案,所述***还包括检索模块,用以在管理节点收到数据检索的请求后对相应数据进行检索;
所述检索模块具体包括定位单元、失效判断单元、请求分发单元、检索单元、结果合并单元;
管理节点通过定位单元定位数据检索请求所涉及的数据节点;管理节点通过失效判断单元采用Lease机制确定该数据节点是否失效,如失效则直接返回请求失败信息,若有效,管理节点通过请求分发单元分发请求到相应节点;数据节点接收数据检索请求后,通过检索单元对相应数据进行检索后返回结果到客户端;客户端利用结果合并单元将接收到的结果进行合并。
一种数据分布式存储方法,所述方法包括如下步骤:
节点集群步骤:将集群内的数据节点连接对应的管理节点;
数据导入步骤:对输入的数据按照设定大小的数据块进行扫描并载入内存,内存中的数据按照数据的特征值将其分组,而后将分组后的数据发送到相应的数据节点;
存储步骤:在数据节点接收到文件分片后将数据分片保留在内存中,数据节点输出日志至硬盘,用于数据内存数据恢复;判断内存中的数据大小是否超过所设定的阀值,如超过则将数据重新组织,压缩后写入硬盘,并删除对应的用户内存数据恢复的日志文件。
作为本发明的一种优选方案,所述数据导入步骤包括:
数据扫描步骤,对输入的数据按照设定大小的数据块进行扫描并载入内存;
数据分组规则匹配步骤,根据不同的数据类型设定不同的规则计算数据的特征值;
数据分组步骤,将经过扫描的设定大小的数据块按照数据的特征进行分组;
数据发送步骤,将分组后的数据发送至相应的数据节点。
作为本发明的一种优选方案,所述方法还包括备份步骤:在数据传输到相应的数据节点上后,对该数据按照设定的备份数目进行备份,备份的数据将被分发到其它数据节点上。
作为本发明的一种优选方案,所述方法还包括检索步骤,在管理节点收到数据检索的请求后对相应数据进行检索;
所述检索步骤具体包括:
管理节点定位数据检索请求所涉及的数据节点;
管理节点采用Lease机制确定该数据节点是否失效,如失效则直接返回请求失败信息,若有效,管理节点分发请求到相应节点;
数据节点接收数据检索请求后,对相应数据进行检索后返回结果到客户端;
客户端将接收到的结果进行合并。
本发明的有益效果在于:本发明提出的数据分布式存储***及方法,可以实现基于内存计算的集群;可实现对大规模数据的实时事务处理,提升***的响应时间。在每一个数据节点上,内存数据都在磁盘上进行备份,保证单机数据的安全;同时***采用冗余化设计,每一份数据都在不同节点上有冗余备份,任何节点的宕机不影响数据完整和***可用性。
附图说明
图1为本发明数据分布式存储***的组成示意图。
图2为本发明数据分布式存储方法中导入数据的流程图。
图3为本发明***的数据导入模块的组成示意图。
图4为本发明数据分布式存储方法中数据存储的流程图。
图5为本发明数据分布式存储方法中数据检索的流程图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例一
请参阅图1,本发明揭示了一种数据分布式存储***,所述***包括:注册模块1(也可以称为“节点集群模块”)、数据导入模块2、存储模块3、备份模块、检索模块4。
注册模块1用以通过客户端将集群内的数据节点注册到管理节点;
数据导入模块2用以对输入的数据按照设定大小的数据块进行扫描并载入内存,内存中的数据按照数据的特征值将其分组,而后将分组后的数据发送到相应的数据节点。
具体地,请参阅图3,本实施例中,所述数据导入模块具体包括数据切分单元、文件扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元。
所述数据切分单元用以对输入的数据按照设定大小的数据块进行扫描并载入内存;所述数据分组规则匹配单元用以根据不同的数据类型设定不同的规则计算数据的特征值;所述数据分组单元用以将内存中经过扫描的设定大小数据块按照数据的特征值进行分组;所述数据发送单元将分组后的数据发送至相应的数据节点。
存储模块3用以在数据节点接收到文件分片后将数据分片保留在内存中,判断是否需要将该数据备份到其它数据节点,如需要则通过备份模块进行备份。备份模块用以在数据传输到相应的数据节点上后,对该数据按照设定的备份数目进行备份,备份的数据将被分发到其它数据节点上。数据节点输出日志至硬盘,用于数据内存数据恢复;判断内存中的数据大小是否超过所设定的阀值,如超过则将数据重新组织,再进行压缩;对数据的重新组织的方式主要是按照数据的特征值,以及数据间的相似度进行排序,使得最大相似度的数据会连续存放,为下一步的数据压缩存储做准备;经过数据的重新组织以后,由于相似的数据会存放在一起,采用LZAM算法对其压缩,以取得较高的压缩率,然后再后写入硬盘,并删除对应的用户内存数据恢复的日志文件。
检索模块4用以在管理节点收到数据检索的请求后对相应数据进行检索。检索模块具体包括定位单元、失效判断单元、请求分发单元、检索单元、结果合并单元。
具体地,管理节点通过定位单元定位数据检索请求所涉及的数据节点;管理节点通过失效判断单元采用Lease机制确定该数据节点是否失效,如失效则直接返回请求失败信息,若有效,管理节点通过请求分发单元分发请求到相应节点;数据节点接收数据检索请求后,通过检索单元对相应数据进行检索后返回结果到客户端;客户端利用结果合并单元将接收到的结果进行合并。
以上介绍了本发明数据分布式存储***的组成,本发明在揭示上述***的同时,还揭示一种数据分布式存储方法;请参阅图2、图4,所述方法包括如下步骤:
【步骤S1】节点集群步骤(即注册步骤):将集群内的数据节点连接对应的管理节点,可以通过注册的方式完成连接,如客户端发送注册信息,将集群内的数据节点注册到管理节点上。
【步骤S2】数据导入步骤:对输入的数据按照设定大小的数据块进行扫描并载入内存,内存中的数据按照数据的特征值将其分组,而后将分组后的数据发送到相应的数据节点。结合图3,所述数据导入步骤具体包括:
步骤S21、数据扫描步骤,对输入的数据按照设定大小的数据块进行扫描并载入内存;
步骤S22、数据分组规则匹配步骤,根据不同的数据类型设定不同的规则计算数据的特征值;
步骤S23、数据分组步骤,将经过扫描的设定大小的数据块按照数据的特征进行分组;
步骤S24、数据发送步骤,将分组后的数据发送至相应的数据节点。
【步骤S3】存储步骤:如图4所示,在数据节点接收到文件分片后将数据分片保留在内存中,判断是否需要将该数据备份到其它数据节点,如需要则进行备份。
备份步骤包括在数据传输到相应的数据节点上后,对该数据按照设定的备份数目进行备份,备份的数据将被分发到其它数据节点上。数据节点输出日志至硬盘,用于数据内存数据恢复。
判断内存中的数据大小是否超过所设定的阀值,如超过则将数据重新组织,再进行压缩;对数据的重新组织的方式主要是按照数据的特征值,以及数据间的相似度进行排序,使得最大相似度的数据会连续存放,为下一步的数据压缩存储做准备;经过数据的重新组织以后,由于相似的数据会存放在一起,采用LZAM算法对其压缩,以取得较高的压缩率,然后再后写入硬盘,并删除对应的用户内存数据恢复的日志文件。
【步骤S4】检索步骤,在管理节点收到数据检索的请求后对相应数据进行检索。请参阅图5,所述检索步骤具体包括:
步骤S40、客户端将数据检索的请求发送到数据管理的节点上;
步骤S41、管理节点定位数据检索请求所涉及的数据节点;
步骤S42、管理节点采用Lease机制确定该数据节点是否失效,如失效则直接返回请求失败信息,若有效,管理节点分发请求到相应节点;
步骤S43、数据节点接收数据检索请求后,对相应数据进行检索后返回结果到客户端;
步骤S44、客户端将接收到的结果进行合并。
综上所述,本发明提出的数据分布式存储***及方法,可以实现基于内存计算的集群;可实现对大规模数据的实时事务处理,提升***的响应时间。在每一个数据节点上,内存数据都在磁盘上进行备份,保证单机数据的安全;同时***采用冗余化设计,每一份数据都在不同节点上有冗余备份,任何节点的宕机不影响数据完整和***可用性。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (7)

1.一种数据分布式存储***,其特征在于,所述***包括:
注册模块,用以通过客户端将集群内的数据节点注册到管理节点;
数据导入模块,用以对输入的数据按照设定大小的数据块进行扫描并载入内存,内存中的数据按照数据的特征值将其分组,而后将分组后的数据发送到相应的数据节点;所述数据导入模块具体包括数据切分单元、数据扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元;所述数据切分单元用以对输入的数据按照设定大小的数据块进行扫描并载入内存;所述数据分组规则匹配单元用以根据不同的数据类型设定不同规则计算数据的特征值;所述数据分组单元用以将内存中经过扫描的设定大小数据块按照数据的特征值进行分组;所述数据发送单元将分组后的数据发送至相应的数据节点;
存储模块,用以在数据节点接收到文件分片后将数据分片保留在内存中,判断是否需要将该数据备份到其它数据节点,如需要则通过备份模块进行备份;数据节点输出日志至硬盘,用于数据内存数据恢复;判断内存中的数据大小是否超过所设定的阀值,如超过则将数据按照元数据特征进行归类,经过数据的重新组织后,再进行压缩;对数据的重新组织的方式是按照数据的特征值,以及数据间的相似度进行排序,使得最大相似度的数据会连续存放,为下一步的数据压缩存储做准备;经过数据的重新组织以后,由于相似的数据会存放在一起,采用LZAM算法对其压缩,以取得较高的压缩率,然后再后写入硬盘,并删除对应的用户内存数据恢复的日志文件;
备份模块,用以在数据传输到相应的数据节点上后,对该数据按照设定的备份数目进行备份,备份的数据将被分发到其它数据节点上;
检索模块,用以在管理节点收到数据检索的请求后对相应数据进行检索;检索模块具体包括定位单元、失效判断单元、请求分发单元、检索单元、结果合并单元;管理节点通过定位单元定位数据检索请求所涉及的数据节点;管理节点通过失效判断单元采用Lease机制确定该数据节点是否失效,如失效则直接返回请求失败信息,若有效,管理节点通过请求分发单元分发请求到相应节点;数据节点接收数据检索请求后,通过检索单元对相应数据进行检索后返回结果到客户端;客户端利用结果合并单元将接收到的结果进行合并。
2.一种数据分布式存储***,其特征在于,所述***包括:
节点集群模块,用以将集群内的数据节点连接对应的管理节点;
数据导入模块,用以对输入的数据按照设定大小的数据块进行扫描并载入内存,内存中的数据按照数据的特征值将其分组,而后将分组后的数据发送到相应的数据节点;
存储模块,用以在数据节点接收到数据分片后将数据分片保留在内存中,数据节点输出日志至硬盘,用于数据内存数据恢复;判断内存中的数据大小是否超过所设定的阀值,如超过则将数据重新组织,压缩后写入硬盘,并删除对应的用户内存数据恢复的日志文件;
所述***还包括检索模块,用以在管理节点收到数据检索的请求后对相应数据进行检索;
所述检索模块具体包括定位单元、失效判断单元、请求分发单元、检索单元、结果合并单元;
管理节点通过定位单元定位数据检索请求所涉及的数据节点;管理节点通过失效判断单元采用Lease机制确定该数据节点是否失效,如失效则直接返回请求失败信息,若有效,管理节点通过请求分发单元分发请求到相应节点;数据节点接收数据检索请求后,通过检索单元对相应数据进行检索后返回结果到客户端;客户端利用结果合并单元将接收到的结果进行合并。
3.根据权利要求2所述的数据分布式存储***,其特征在于:
所述数据导入模块具体包括数据切分单元、文件扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元;
所述数据切分单元用以对输入的数据按照设定大小的数据块进行扫描并载入内存;所述数据分组规则匹配单元用以根据不同的数据类型设定不同规则计算数据的特征值;所述数据分组单元用以将经过扫描的设定大小的数据块按照数据的特征进行分组;所述数据发送单元将分组后的数据发送至相应的数据节点。
4.根据权利要求2所述的数据分布式存储***,其特征在于:
所述***还包括备份模块,用以在数据传输到相应的数据节点上后,对该数据按照设定的备份数目进行备份,备份的数据将被分发到其它数据节点上。
5.一种数据分布式存储方法,其特征在于,所述方法包括如下步骤:
节点集群步骤:将集群内的数据节点连接对应的管理节点;
数据导入步骤:对输入的数据按照设定大小的数据块进行扫描并载入内存,内存中的数据按照数据的特征值将其分组,而后将分组后的数据发送到相应的数据节点;
存储步骤:在数据节点接收到文件分片后将数据分片保留在内存中,数据节点输出日志至硬盘,用于数据内存数据恢复;判断内存中的数据大小是否超过所设定的阀值,如超过则将数据重新组织,压缩后写入硬盘,并删除对应的用户内存数据恢复的日志文件;
所述方法还包括检索步骤,在管理节点收到数据检索的请求后对相应数据进行检索;
所述检索步骤具体包括:
管理节点定位数据检索请求所涉及的数据节点;
管理节点采用Lease机制确定该数据节点是否失效,如失效则直接返回请求失败信息,若有效,管理节点分发请求到相应节点;
数据节点接收数据检索请求后,对相应数据进行检索后返回结果到客户端;
客户端将接收到的结果进行合并。
6.根据权利要求5所述的数据分布式存储方法,其特征在于:
所述数据导入步骤包括:
数据扫描步骤,对输入的数据按照设定大小的数据块进行扫描并载入内存;
数据分组规则匹配步骤,根据不同的数据类型设定不同的规则计算数据的特征值;
数据分组步骤,将经过扫描的设定大小的数据块按照数据的特征进行分组;
数据发送步骤,将分组后的数据发送至相应的数据节点。
7.根据权利要求5所述的数据分布式存储方法,其特征在于:
所述方法还包括备份步骤:在数据传输到相应的数据节点上后,对该数据按照设定的备份数目进行备份,备份的数据将被分发到其它数据节点上。
CN201310150539.0A 2013-04-26 2013-04-26 数据分布式存储***及方法 Expired - Fee Related CN104123300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310150539.0A CN104123300B (zh) 2013-04-26 2013-04-26 数据分布式存储***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310150539.0A CN104123300B (zh) 2013-04-26 2013-04-26 数据分布式存储***及方法

Publications (2)

Publication Number Publication Date
CN104123300A CN104123300A (zh) 2014-10-29
CN104123300B true CN104123300B (zh) 2017-10-13

Family

ID=51768713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310150539.0A Expired - Fee Related CN104123300B (zh) 2013-04-26 2013-04-26 数据分布式存储***及方法

Country Status (1)

Country Link
CN (1) CN104123300B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102086B2 (en) 2014-12-19 2018-10-16 Futurewei Technologies, Inc. Replicated database distribution for workload balancing after cluster reconfiguration
CN104572987B (zh) * 2015-01-04 2017-12-22 浙江大学 一种通过压缩提高简易再生码存储效率的方法和***
CN104679847B (zh) * 2015-02-13 2019-03-15 高第网络技术(北京)有限公司 一种构建在线实时更新海量音频指纹库的方法和设备
CN104731676A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种加速集群***数据恢复的方法
CN105159818B (zh) * 2015-08-28 2018-01-02 东北大学 内存数据管理中日志恢复方法及其仿真***
CN106648442A (zh) * 2015-10-29 2017-05-10 阿里巴巴集团控股有限公司 一种元数据节点的内存镜像方法、装置
CN105335513B (zh) * 2015-10-30 2018-09-25 迈普通信技术股份有限公司 一种分布式文件***及文件存储方法
CN105516284B (zh) * 2015-12-01 2019-05-03 深圳市华讯方舟软件技术有限公司 一种集群数据库分布式存储的方法和装置
CN107203554A (zh) * 2016-03-17 2017-09-26 北大方正集团有限公司 一种分布式检索方法及装置
CN105912601A (zh) * 2016-04-05 2016-08-31 国电南瑞科技股份有限公司 能量管理***分布式实时内存数据库的分区存储方法
CN105956190A (zh) * 2016-06-14 2016-09-21 武汉斗鱼网络科技有限公司 基于rbf神经网络的搜索集群优化方法及***
CN106649481A (zh) * 2016-09-30 2017-05-10 郑州云海信息技术有限公司 一种SQL Server数据库的日志优化方法及***
CN106886555A (zh) * 2016-12-27 2017-06-23 苏州春禄电子科技有限公司 一种基于区块链技术的防数据丢失和损坏的数据存储***
CN107436738B (zh) * 2017-08-17 2019-10-25 北京理工大学 一种数据存储方法及***
CN110069483B (zh) * 2017-08-17 2023-04-28 阿里巴巴集团控股有限公司 装载数据到分布式数据仓库的方法、节点和***
CN110019210B (zh) * 2017-11-24 2024-01-09 阿里云计算有限公司 数据写入方法及设备
CN108664223B (zh) * 2018-05-18 2021-07-02 百度在线网络技术(北京)有限公司 一种分布式存储方法、装置、计算机设备及存储介质
CN108984686B (zh) * 2018-07-02 2021-03-30 中国电子科技集团公司第五十二研究所 一种基于日志合并的分布式文件***索引方法和装置
CN108921728B (zh) * 2018-07-03 2020-11-13 北京科东电力控制***有限责任公司 基于电网调度***的分布式实时库***
CN108920215A (zh) * 2018-07-18 2018-11-30 郑州云海信息技术有限公司 一种通过initramfs收集***日志的方法
CN109360605B (zh) * 2018-09-25 2020-10-20 安吉康尔(深圳)科技有限公司 基因组测序数据归档方法、服务器及计算机可读存储介质
CN109522310A (zh) * 2018-11-16 2019-03-26 北京锐安科技有限公司 数据存储、检索方法、***及存储介质
CN109885536B (zh) * 2019-02-26 2023-06-16 深圳众享互联科技有限公司 一种基于分布式数据分片存储和模糊查找方法
CN114281604B (zh) * 2022-03-02 2022-07-29 北京金山云网络技术有限公司 数据恢复方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079896A (zh) * 2007-06-22 2007-11-28 西安交通大学 一种并行存储***的多可用性机制共存架构
CN102906751A (zh) * 2012-07-25 2013-01-30 华为技术有限公司 一种数据存储、数据查询的方法及装置
CN103020077A (zh) * 2011-09-24 2013-04-03 国家电网公司 一种电力***实时数据库内存管理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120150824A1 (en) * 2010-12-10 2012-06-14 Inventec Corporation Processing System of Data De-Duplication

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079896A (zh) * 2007-06-22 2007-11-28 西安交通大学 一种并行存储***的多可用性机制共存架构
CN103020077A (zh) * 2011-09-24 2013-04-03 国家电网公司 一种电力***实时数据库内存管理方法
CN102906751A (zh) * 2012-07-25 2013-01-30 华为技术有限公司 一种数据存储、数据查询的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
搜索引擎中的分布式文件***的研究和优化;黄翀民;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110415;第8页2.1.2 *

Also Published As

Publication number Publication date
CN104123300A (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
CN104123300B (zh) 数据分布式存储***及方法
CN100565512C (zh) 消除文件存储***中冗余文件的***及方法
CN104301360B (zh) 一种日志数据记录的方法、日志服务器及***
CN103646111B (zh) 大数据环境下实现实时数据关联的***及方法
US20220405277A1 (en) Joining large database tables
CN104751359B (zh) 用于支付清算的***及方法
CN103345472B (zh) 基于有限二叉树布隆过滤器的去冗文件***及其构建方法
CN102411637B (zh) 分布式文件***的元数据管理方法
US20200117661A1 (en) Large scale application specific computing system architecture and operation
US8510344B1 (en) Optimistically consistent arbitrary data blob transactions
CN105095520B (zh) 面向结构化数据的分布式内存数据库索引方法
CN102156727A (zh) 一种采用双指纹哈希校验的重复数据删除方法
US8856089B1 (en) Sub-containment concurrency for hierarchical data containers
CN107809467B (zh) 一种云环境下容器镜像数据的删减方法
CN104391930A (zh) 分布式文件存储装置和方法
CN103139302A (zh) 考虑负载均衡的实时副本调度方法
CN103067525A (zh) 一种基于特征码的云存储数据备份方法
CN101170416A (zh) 网络数据存储***及其数据访问方法
CN103377100B (zh) 一种数据备份方法、网络节点及***
CN108399199A (zh) 一种基于Spark的应用软件运行日志的收集与服务处理***及方法
CN108108476A (zh) 高可靠分布式日志***的工作方法
CN108717457B (zh) 一种电子商务平台大数据处理方法和***
CN107800808A (zh) 一种基于Hadoop架构的数据存储***
CN103067461A (zh) 一种文件的元数据管理***以及元数据管理方法
US11775525B2 (en) Storage of a dataset via multiple durability levels

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171013

Termination date: 20180426

CF01 Termination of patent right due to non-payment of annual fee