CN104978336A

CN104978336A - 基于Hadoop分布式计算平台的非结构化数据存储***

Info

Publication number: CN104978336A
Application number: CN201410137127.8A
Authority: CN
Inventors: 罗学礼; 杨晴; 杨莉; 杜韶辉; 吴清华; 马瑞; 臧戎
Original assignee: Yunnan Electric Power Experimental Research Institute Group Co Ltd of Electric Power Research Institute; Kunming Enersun Technology Co Ltd
Current assignee: Yunnan Electric Power Experimental Research Institute Group Co Ltd of Electric Power Research Institute; Kunming Enersun Technology Co Ltd
Priority date: 2014-04-08
Filing date: 2014-04-08
Publication date: 2015-10-14

Abstract

本发明涉及信息技术处理领域，具体涉及一种基于Hadoop分布式计算平台的非结构化数据存储***；包括以下步骤：S1：客户端通过调用HDFS类DistributedFileSystem对象调用create()函数在文件***的命名空间中创建了一个新文件，该新文件还没有相应的数据块；S2：namenode执行检查确保当前创建的文件还不存在并且客户端有创建该文件的权限，检查通过则创建新文件记录，若检查不通过则文件创建失败并抛出异常；S3：客户端在给创建的新文件写入非结构化数据时，非结构化数据被分成一个个的数据包，并写入内部队列，HDFS的DataStreamer处理数据队列，根据datanode的队列列表要求namenode分配适合的新块来存储数据备份；大大的降低了存储数据所需要昂贵存储设备价格，并且在数据存储过程中，HDFS拥有很好的数据容灾机制。

Description

基于Hadoop分布式计算平台的非结构化数据存储***

技术领域

本发明涉及信息技术处理领域，具体涉及一种基于Hadoop分布式计算平台的非结构化数据存储***。

背景技术

在非结构化数据存储中我们主要考虑的是大数据的存储，虽然现行的商业平台也能满足非结构化数据的存储，但问题主要出在***可扩展性和建设费用上。对于庞大的非结构化数据存储产生的I/O瓶颈问题和昂贵的服务器价格不得不使我们另谋出路

发明内容

本发明的目的为了解决上述问题，提供了一种基于Hadoop分布式计算平台的非结构化数据存储***，其可以选择普通的PC机器作为数据节点，这大大的降低了存储数据所需要昂贵存储设备价格，并且在数据存储过程中，HDFS拥有很好的数据容灾机制。

为实现上述目的，本发明提供一种基于Hadoop分布式计算平台的非结构化数据存储***，包括以下步骤：

S1：客户端通过调用HDFS类DistributedFileSystem对象调用create()函数在文件***的命名空间中创建了一个新文件，该新文件还没有相应的数据块；

S2：namenode执行检查确保当前创建的文件还不存在并且客户端有创建该文件的权限，检查通过则创建新文件记录，若检查不通过则文件创建失败并抛出异常；

S3：客户端在给创建的新文件写入非结构化数据时，非结构化数据被分成一个个的数据包，并写入内部队列，HDFS的DataStreamer处理数据队列，根据datanode的队列列表要求namenode分配适合的新块来存储数据备份。

进一步的，所述步骤S3中的创建文件都存储为一系列的块，在同一文件中除最后一块以外其它所有块的大小都一样。

进一步的，所述文件的块都通过复制来保证容错，所述文件的块的大小和复制因子均可以配置，MapReduce程序可指定文件复制的次数，复制因子可以在文件创建时指定，也可以在文件创建后指定。

进一步的，名字节点根据块复制状态做出所有决定，它会周期的收到来自集群内数据结点的心跳和块报告。

进一步的，namenode在运行客户端的节点上放第一个复本，第二个复本放在与第一个不同且随机另外选择的机架中的节点上，第三个复本放在与第二个复本相同的机架，且随机选择另外一个节点，其他复本放在集群中随机选择的节点上。

进一步的，非结构化数据第一次引入***时计算校验和，并在数据通过一个不可靠的通道进行传输时再次计算校验和，这样就能发现数据是否损坏，若计算所得的新校验和原来的校验和不匹配，则认为该非结构化数据已损坏。

进一步的，客户端从datanode读取数据时也会验证校验和，将他们与datanode中存储的校验和进行比较，每个datanode都持久保存有一个用于验证校验和日志，所以它知道每个数据块最后校验时间，客户端成功校验数据后，会告诉这个datanode，这个datanode由此更新日志。

进一步的，客户端读取数据块时，如果检测到错误，就向namenode报告已损坏的数据块及其正在尝试读取操作的这个datanode；namenode将这个已损坏的数据块标记为已损坏，同时将已损坏的副本备份到其他块后，从其他复本进行读取数据。

进一步的，HDFS的命名空间存储在名字节点上，名字结点使用叫做“编辑日志”的事务日志来持久化记录文件***元数据的每次变化

本发明具有以下有益效果：Hadoop的分布式文件***HDFS出现恰好解决了商业平台中的I/O瓶颈和服务器价格昂贵问题。Hadoop的优势体现在以下几个方面：

1)Hadoop依赖于低端服务器甚至是普通计算机，相对于商业平台的高昂成本，它的成本要低得多，几乎可以说任何人都可以使用它，哪怕是信息化成本预算较少的小微企业；

2)HDFS与Map/Reduce紧密集成是Hadoop分布式计算的存储基石。它有自己明确的设计目标那就是支持大的数据文件大至T级，并且这些文件以顺序读取为主，以文件存/读的高吞吐量为目标。在使用HDFS分布式文件***存储非结构化文件后，将提高我们***的存储文件速度；

3)HDFS的数据恢复能力也保证了***的安全可靠性，可靠性体现在它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。

4)同时支持存储节点的热插拔和可以在普通PC机上存储非结构化文件，这不但提高了***的扩展灵活性，还大大降低了企业在硬件方面的投入。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明提供本发明提供一种基于Hadoop分布式计算平台的非结构化数据存储***，包括以下步骤：

5)Hadoop依赖于低端服务器甚至是普通计算机，相对于商业平台的高昂成本，它的成本要低得多，几乎可以说任何人都可以使用它，哪怕是信息化成本预算较少的小微企业；

6)HDFS与Map/Reduce紧密集成是Hadoop分布式计算的存储基石。它有自己明确的设计目标那就是支持大的数据文件大至T级，并且这些文件以顺序读取为主，以文件存/读的高吞吐量为目标。在使用HDFS分布式文件***存储非结构化文件后，将提高我们***的存储文件速度；

7)HDFS的数据恢复能力也保证了***的安全可靠性，可靠性体现在它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。

8)同时支持存储节点的热插拔和可以在普通PC机上存储非结构化文件，这不但提高了***的扩展灵活性，还大大降低了企业在硬件方面的投入。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于Hadoop分布式计算平台的非结构化数据存储***，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于Hadoop分布式计算平台的非结构化数据存储***，其特征在于：所述步骤S3中的创建文件都存储为一系列的块，在同一文件中除最后一块以外其它所有块的大小都一样。

3.根据权利要求2所述的基于Hadoop分布式计算平台的非结构化数据存储***，其特征在于：所述文件的块都通过复制来保证容错，所述文件的块的大小和复制因子均可以配置，MapReduce程序可指定文件复制的次数，复制因子可以在文件创建时指定，也可以在文件创建后指定。

4.根据权利要求3所述的基于Hadoop分布式计算平台的非结构化数据存储***，其特征在于：名字节点根据块复制状态做出所有决定，它会周期的收到来自集群内数据结点的心跳和块报告。

5.根据权利要求1所述的基于Hadoop分布式计算平台的非结构化数据存储***，其特征在于：namenode在运行客户端的节点上放第一个复本，第二个复本放在与第一个不同且随机另外选择的机架中的节点上，第三个复本放在与第二个复本相同的机架，且随机选择另外一个节点，其他复本放在集群中随机选择的节点上。

6.根据权利要求1所述的基于Hadoop分布式计算平台的非结构化数据存储***，其特征在于：非结构化数据第一次引入***时计算校验和，并在数据通过一个不可靠的通道进行传输时再次计算校验和，这样就能发现数据是否损坏，若计算所得的新校验和原来的校验和不匹配，则认为该非结构化数据已损坏。

7.根据权利要求6所述的基于Hadoop分布式计算平台的非结构化数据存储***，其特征在于：客户端从datanode读取数据时也会验证校验和，将他们与datanode中存储的校验和进行比较，每个datanode都持久保存有一个用于验证校验和日志，所以它知道每个数据块最后校验时间，客户端成功校验数据后，会告诉这个datanode，这个datanode由此更新日志。

8.根据权利要求7所述的基于Hadoop分布式计算平台的非结构化数据存储***，其特征在于：客户端读取数据块时，如果检测到错误，就向namenode报告已损坏的数据块及其正在尝试读取操作的这个datanode；namenode将这个已损坏的数据块标记为已损坏，同时将已损坏的副本备份到其他块后，从其他复本进行读取数据。

9.根据权利要求1所述的基于Hadoop分布式计算平台的非结构化数据存储***，其特征在于：HDFS的命名空间存储在名字节点上，名字结点使用叫做“编辑日志”的事务日志来持久化记录文件***元数据的每次变化。