CN104123300B

CN104123300B - 数据分布式存储***及方法

Info

Publication number: CN104123300B
Application number: CN201310150539.0A
Authority: CN
Inventors: 吴朱华; 潘志铭
Original assignee: SHANGHAI PEOPLEYUN INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI PEOPLEYUN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-04-26
Filing date: 2013-04-26
Publication date: 2017-10-13
Anticipated expiration: 2033-04-26
Also published as: CN104123300A

Abstract

本发明揭示了一种数据分布式存储***及方法，所述***包括节点集群模块、数据导入模块、存储模块；节点集群模块用以将集群内的数据节点连接对应的管理节点；数据导入模块用以对输入的数据按照设定大小的数据块进行扫描并载入内存，内存中的数据按照数据的特征值将其分组，而后将分组后的数据发送到相应数据节点；存储模块用以在数据节点接收到文件分片后将数据分片保留在内存中，数据节点输出日志至硬盘；判断内存中的数据大小是否超过所设定的阀值，如超过则将数据重新组织，压缩后写入硬盘，并删除对应的用户内存数据恢复的日志文件。本发明可以实现加速基于内存计算能力的集群；可提高对大规模数据的实时加载与处理能力，提升***的响应时间。

Description

数据分布式存储***及方法

技术领域

本发明属于数据库存储技术领域，涉及一种分布式存储***，尤其涉及一种数据分布式存储***；同时，本发明还涉及一种数据分布式存储方法。

背景技术

目前，数据库的数据存储方式有：1.单机数据存储方式；2.主从备份存储方式；3.利用分布式文件***的存储方式。然而，无论采用以上哪种方式，都存在着一定的不足。

单机数据存储方式虽然便于管理和使用，但是可扩展性存在严重缺陷难以满足当今海量数据的存取需要，数据的安全性也存在问题。主从备份存储方式只解决了安全性问题，其他问题依然存在。利用分布式文件***的数据库存储方式，虽然解决了数据的安全性和海量数据的存取需求，但是并不适合那些要求低延迟的数据访问和处理。

有鉴于此，如今迫切需要设计一种新的针对数据库的分布式存储***和方法，以便解决现有存储***的上述缺陷。

发明内容

本发明所要解决的技术问题是：提供一种针对数据库的分布式存储***，可实现基于加速内存计算能力的集群以及提升对大规模数据实时加载和处理能力，加快整个***的响应时间。

此外，本发明还提供一种数据分布式存储方法，可实现基于加速内存计算能力的集群以及提升对大规模数据实时加载和处理能力，加快整个***的响应时间。

为解决上述技术问题，本发明采用如下技术方案：

一种数据分布式存储***，所述***包括：

注册模块，用以通过客户端将集群内的数据节点注册到管理节点；

数据导入模块，用以对输入的数据按照设定大小的数据块进行扫描并载入内存，内存中的数据按照数据的特征值将其分组，而后将分组后的数据发送到相应的数据节点；所述数据导入模块具体包括数据扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元；所述数据扫描单元以对输入的数据按照设定大小的数据块进行扫描并载入内存，并用以按照数据特征值对数据进行切分并按照特征值生成一个整型数值作为数据的标识码；所述数据分组规则匹配单元用以根据不同数据的数据标识码将该标识码按照分组规则对其分组；所述数据分组单元用以将内存中经过扫描的设定大小数据块按照数据的特征值进行分组；所述数据发送单元将分组后的数据发送至相应的数据节点；

存储模块，用以在数据节点接收到文件分片后将数据分片保留在内存中，判断是否需要将该数据备份到其它数据节点，如需要则通过备份模块进行备份；数据节点输出日志至硬盘，用于数据内存数据恢复；判断内存中的数据大小是否超过所设定的阀值，如超过则将数据按照元数据特征进行归类，经过数据的重新组织后，再进行压缩；对数据的重新组织的方式主要是按照数据的特征值，以及数据间的相似度进行排序，使得最大相似度的数据会连续存放，为下一步的数据压缩存储做准备；经过数据的重新组织以后，由于相似的数据会存放在一起，采用LZAM算法对其压缩，以取得较高的压缩率，然后再后写入硬盘，并删除对应的用户内存数据恢复的日志文件；

备份模块，用以在数据传输到相应的数据节点上后，对该数据按照设定的备份数目进行备份，备份的数据将被分发到其它数据节点上；

检索模块，用以在管理节点收到数据检索的请求后对相应数据进行检索；检索模块具体包括定位单元、失效判断单元、请求分发单元、检索单元、结果合并单元；管理节点通过定位单元定位数据检索请求所涉及的数据节点；管理节点通过失效判断单元采用Lease机制确定该数据节点是否失效，如失效则直接返回请求失败信息，若有效，管理节点通过请求分发单元分发请求到相应节点；数据节点接收数据检索请求后，通过检索单元对相应数据进行检索后返回结果到客户端；客户端利用结果合并单元将接收到的结果进行合并。

一种数据分布式存储***，所述***包括：

节点集群模块，用以将集群内的数据节点连接对应的管理节点；

数据导入模块，用以对输入的数据按照设定大小的数据块进行扫描并载入内存，内存中的数据按照数据的特征值将其分组，而后将分组后的数据发送到相应的数据节点；

存储模块，用以在数据节点接收到文件分片后将数据分片保留在内存中，数据节点输出日志至硬盘，用于数据内存数据恢复；判断内存中的数据大小是否超过所设定的阀值，如超过则将数据重新组织，压缩后写入硬盘，并删除对应的用户内存数据恢复的日志文件。

作为本发明的一种优选方案，所述数据导入模块具体包括数据切分单元、文件扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元；

所述数据切分单元用以对输入的数据按照设定大小的数据块进行扫描并载入内存；所述数据分组规则匹配单元用以根据不同的数据类型设定不同的规则计算数据的特征值；所述数据分组单元用以将经过扫描的设定大小的数据块按照数据的特征进行分组；所述数据发送单元将分组后的数据发送至相应的数据节点。

作为本发明的一种优选方案，所述***还包括备份模块，用以在数据传输到相应的数据节点上后，对该数据按照设定的备份数目进行备份，备份的数据将被分发到其它数据节点上。

作为本发明的一种优选方案，所述***还包括检索模块，用以在管理节点收到数据检索的请求后对相应数据进行检索；

所述检索模块具体包括定位单元、失效判断单元、请求分发单元、检索单元、结果合并单元；

管理节点通过定位单元定位数据检索请求所涉及的数据节点；管理节点通过失效判断单元采用Lease机制确定该数据节点是否失效，如失效则直接返回请求失败信息，若有效，管理节点通过请求分发单元分发请求到相应节点；数据节点接收数据检索请求后，通过检索单元对相应数据进行检索后返回结果到客户端；客户端利用结果合并单元将接收到的结果进行合并。

一种数据分布式存储方法，所述方法包括如下步骤：

节点集群步骤：将集群内的数据节点连接对应的管理节点；

数据导入步骤：对输入的数据按照设定大小的数据块进行扫描并载入内存，内存中的数据按照数据的特征值将其分组，而后将分组后的数据发送到相应的数据节点；

存储步骤：在数据节点接收到文件分片后将数据分片保留在内存中，数据节点输出日志至硬盘，用于数据内存数据恢复；判断内存中的数据大小是否超过所设定的阀值，如超过则将数据重新组织，压缩后写入硬盘，并删除对应的用户内存数据恢复的日志文件。

作为本发明的一种优选方案，所述数据导入步骤包括：

数据扫描步骤，对输入的数据按照设定大小的数据块进行扫描并载入内存；

数据分组规则匹配步骤，根据不同的数据类型设定不同的规则计算数据的特征值；

数据分组步骤，将经过扫描的设定大小的数据块按照数据的特征进行分组；

数据发送步骤，将分组后的数据发送至相应的数据节点。

作为本发明的一种优选方案，所述方法还包括备份步骤：在数据传输到相应的数据节点上后，对该数据按照设定的备份数目进行备份，备份的数据将被分发到其它数据节点上。

作为本发明的一种优选方案，所述方法还包括检索步骤，在管理节点收到数据检索的请求后对相应数据进行检索；

所述检索步骤具体包括：

管理节点定位数据检索请求所涉及的数据节点；

管理节点采用Lease机制确定该数据节点是否失效，如失效则直接返回请求失败信息，若有效，管理节点分发请求到相应节点；

数据节点接收数据检索请求后，对相应数据进行检索后返回结果到客户端；

客户端将接收到的结果进行合并。

本发明的有益效果在于：本发明提出的数据分布式存储***及方法，可以实现基于内存计算的集群；可实现对大规模数据的实时事务处理，提升***的响应时间。在每一个数据节点上，内存数据都在磁盘上进行备份，保证单机数据的安全；同时***采用冗余化设计，每一份数据都在不同节点上有冗余备份，任何节点的宕机不影响数据完整和***可用性。

附图说明

图1为本发明数据分布式存储***的组成示意图。

图2为本发明数据分布式存储方法中导入数据的流程图。

图3为本发明***的数据导入模块的组成示意图。

图4为本发明数据分布式存储方法中数据存储的流程图。

图5为本发明数据分布式存储方法中数据检索的流程图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例一

请参阅图1，本发明揭示了一种数据分布式存储***，所述***包括：注册模块1（也可以称为“节点集群模块”）、数据导入模块2、存储模块3、备份模块、检索模块4。

注册模块1用以通过客户端将集群内的数据节点注册到管理节点；

数据导入模块2用以对输入的数据按照设定大小的数据块进行扫描并载入内存，内存中的数据按照数据的特征值将其分组，而后将分组后的数据发送到相应的数据节点。

具体地，请参阅图3，本实施例中，所述数据导入模块具体包括数据切分单元、文件扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元。

所述数据切分单元用以对输入的数据按照设定大小的数据块进行扫描并载入内存；所述数据分组规则匹配单元用以根据不同的数据类型设定不同的规则计算数据的特征值；所述数据分组单元用以将内存中经过扫描的设定大小数据块按照数据的特征值进行分组；所述数据发送单元将分组后的数据发送至相应的数据节点。

存储模块3用以在数据节点接收到文件分片后将数据分片保留在内存中，判断是否需要将该数据备份到其它数据节点，如需要则通过备份模块进行备份。备份模块用以在数据传输到相应的数据节点上后，对该数据按照设定的备份数目进行备份，备份的数据将被分发到其它数据节点上。数据节点输出日志至硬盘，用于数据内存数据恢复；判断内存中的数据大小是否超过所设定的阀值，如超过则将数据重新组织，再进行压缩；对数据的重新组织的方式主要是按照数据的特征值，以及数据间的相似度进行排序，使得最大相似度的数据会连续存放，为下一步的数据压缩存储做准备；经过数据的重新组织以后，由于相似的数据会存放在一起，采用LZAM算法对其压缩，以取得较高的压缩率，然后再后写入硬盘，并删除对应的用户内存数据恢复的日志文件。

检索模块4用以在管理节点收到数据检索的请求后对相应数据进行检索。检索模块具体包括定位单元、失效判断单元、请求分发单元、检索单元、结果合并单元。

具体地，管理节点通过定位单元定位数据检索请求所涉及的数据节点；管理节点通过失效判断单元采用Lease机制确定该数据节点是否失效，如失效则直接返回请求失败信息，若有效，管理节点通过请求分发单元分发请求到相应节点；数据节点接收数据检索请求后，通过检索单元对相应数据进行检索后返回结果到客户端；客户端利用结果合并单元将接收到的结果进行合并。

以上介绍了本发明数据分布式存储***的组成，本发明在揭示上述***的同时，还揭示一种数据分布式存储方法；请参阅图2、图4，所述方法包括如下步骤：

【步骤S1】节点集群步骤（即注册步骤）：将集群内的数据节点连接对应的管理节点，可以通过注册的方式完成连接，如客户端发送注册信息，将集群内的数据节点注册到管理节点上。

【步骤S2】数据导入步骤：对输入的数据按照设定大小的数据块进行扫描并载入内存，内存中的数据按照数据的特征值将其分组，而后将分组后的数据发送到相应的数据节点。结合图3，所述数据导入步骤具体包括：

步骤S21、数据扫描步骤，对输入的数据按照设定大小的数据块进行扫描并载入内存；

步骤S22、数据分组规则匹配步骤，根据不同的数据类型设定不同的规则计算数据的特征值；

步骤S23、数据分组步骤，将经过扫描的设定大小的数据块按照数据的特征进行分组；

步骤S24、数据发送步骤，将分组后的数据发送至相应的数据节点。

【步骤S3】存储步骤：如图4所示，在数据节点接收到文件分片后将数据分片保留在内存中，判断是否需要将该数据备份到其它数据节点，如需要则进行备份。

备份步骤包括在数据传输到相应的数据节点上后，对该数据按照设定的备份数目进行备份，备份的数据将被分发到其它数据节点上。数据节点输出日志至硬盘，用于数据内存数据恢复。

判断内存中的数据大小是否超过所设定的阀值，如超过则将数据重新组织，再进行压缩；对数据的重新组织的方式主要是按照数据的特征值，以及数据间的相似度进行排序，使得最大相似度的数据会连续存放，为下一步的数据压缩存储做准备；经过数据的重新组织以后，由于相似的数据会存放在一起，采用LZAM算法对其压缩，以取得较高的压缩率，然后再后写入硬盘，并删除对应的用户内存数据恢复的日志文件。

【步骤S4】检索步骤，在管理节点收到数据检索的请求后对相应数据进行检索。请参阅图5，所述检索步骤具体包括：

步骤S40、客户端将数据检索的请求发送到数据管理的节点上；

步骤S41、管理节点定位数据检索请求所涉及的数据节点；

步骤S42、管理节点采用Lease机制确定该数据节点是否失效，如失效则直接返回请求失败信息，若有效，管理节点分发请求到相应节点；

步骤S43、数据节点接收数据检索请求后，对相应数据进行检索后返回结果到客户端；

步骤S44、客户端将接收到的结果进行合并。

综上所述，本发明提出的数据分布式存储***及方法，可以实现基于内存计算的集群；可实现对大规模数据的实时事务处理，提升***的响应时间。在每一个数据节点上，内存数据都在磁盘上进行备份，保证单机数据的安全；同时***采用冗余化设计，每一份数据都在不同节点上有冗余备份，任何节点的宕机不影响数据完整和***可用性。

这里本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

Claims

1.一种数据分布式存储***，其特征在于，所述***包括：

数据导入模块，用以对输入的数据按照设定大小的数据块进行扫描并载入内存，内存中的数据按照数据的特征值将其分组，而后将分组后的数据发送到相应的数据节点；所述数据导入模块具体包括数据切分单元、数据扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元；所述数据切分单元用以对输入的数据按照设定大小的数据块进行扫描并载入内存；所述数据分组规则匹配单元用以根据不同的数据类型设定不同规则计算数据的特征值；所述数据分组单元用以将内存中经过扫描的设定大小数据块按照数据的特征值进行分组；所述数据发送单元将分组后的数据发送至相应的数据节点；

存储模块，用以在数据节点接收到文件分片后将数据分片保留在内存中，判断是否需要将该数据备份到其它数据节点，如需要则通过备份模块进行备份；数据节点输出日志至硬盘，用于数据内存数据恢复；判断内存中的数据大小是否超过所设定的阀值，如超过则将数据按照元数据特征进行归类，经过数据的重新组织后，再进行压缩；对数据的重新组织的方式是按照数据的特征值，以及数据间的相似度进行排序，使得最大相似度的数据会连续存放，为下一步的数据压缩存储做准备；经过数据的重新组织以后，由于相似的数据会存放在一起，采用LZAM算法对其压缩，以取得较高的压缩率，然后再后写入硬盘，并删除对应的用户内存数据恢复的日志文件；

2.一种数据分布式存储***，其特征在于，所述***包括：

存储模块，用以在数据节点接收到数据分片后将数据分片保留在内存中，数据节点输出日志至硬盘，用于数据内存数据恢复；判断内存中的数据大小是否超过所设定的阀值，如超过则将数据重新组织，压缩后写入硬盘，并删除对应的用户内存数据恢复的日志文件；

所述***还包括检索模块，用以在管理节点收到数据检索的请求后对相应数据进行检索；

3.根据权利要求2所述的数据分布式存储***，其特征在于：

所述数据导入模块具体包括数据切分单元、文件扫描单元、数据分组规则匹配单元、数据分组单元、数据发送单元；

所述数据切分单元用以对输入的数据按照设定大小的数据块进行扫描并载入内存；所述数据分组规则匹配单元用以根据不同的数据类型设定不同规则计算数据的特征值；所述数据分组单元用以将经过扫描的设定大小的数据块按照数据的特征进行分组；所述数据发送单元将分组后的数据发送至相应的数据节点。

4.根据权利要求2所述的数据分布式存储***，其特征在于：

所述***还包括备份模块，用以在数据传输到相应的数据节点上后，对该数据按照设定的备份数目进行备份，备份的数据将被分发到其它数据节点上。

5.一种数据分布式存储方法，其特征在于，所述方法包括如下步骤：

节点集群步骤：将集群内的数据节点连接对应的管理节点；

存储步骤：在数据节点接收到文件分片后将数据分片保留在内存中，数据节点输出日志至硬盘，用于数据内存数据恢复；判断内存中的数据大小是否超过所设定的阀值，如超过则将数据重新组织，压缩后写入硬盘，并删除对应的用户内存数据恢复的日志文件；

所述方法还包括检索步骤，在管理节点收到数据检索的请求后对相应数据进行检索；

所述检索步骤具体包括：

管理节点定位数据检索请求所涉及的数据节点；

客户端将接收到的结果进行合并。

6.根据权利要求5所述的数据分布式存储方法，其特征在于：

所述数据导入步骤包括：

数据发送步骤，将分组后的数据发送至相应的数据节点。

7.根据权利要求5所述的数据分布式存储方法，其特征在于：

所述方法还包括备份步骤：在数据传输到相应的数据节点上后，对该数据按照设定的备份数目进行备份，备份的数据将被分发到其它数据节点上。