CN103595805A

CN103595805A - 一种基于分布式集群的数据放置方法

Info

Publication number: CN103595805A
Application number: CN201310589416.7A
Authority: CN
Inventors: 郭美思; 王秀娟
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2013-11-22
Filing date: 2013-11-22
Publication date: 2014-02-19

Abstract

本发明公开了一种基于分布式集群的数据放置方法，针对分布式集群中节点的负载情况、计算节点计算能力及大量数据移动会影响运算性能的特点，把三个因素有效的结合起来计算出数据放置的评价值，然后根据评价值来选取节点。此方法带来的效果首先是可以实现数据放置的负载均衡，在数据读写时增加并行度；其次是能很好的利用节点的计算能力，根据计算能力分配相应的计算任务，减少运行时间；最后是实现良好的传输性能。数据被存储在就近于计算节点可以使数据传输最小化，提高效率。

Description

一种基于分布式集群的数据放置方法

技术领域

本发明涉及一种基于分布式集群的数据放置方法。

技术背景

随着互联网技术的不断发展与网络信息量的不断剧增，能够高效的、可靠地处理大规模数据集对于互联网的发展至关重要。MapReduce是易于编写的并行编程框架。海量的数据可以通过Hadoop集群中的MapReduce框架处理，通过并行性来提高效率。但由于MapReduce中运算的输入数据通常是大量的数据，若数据分布在不同机架上会导致大量的数据移动，从而影响运算的性能。所以数据的放置应就近于计算节点，减少因大量数据移动带来的性能损失。因此，分布式集群的数据放置方法是非常重要的。

目前对于Hadoop集群上的HDFS选择存放数据的方法是机架感知方法。该方法是将数据块的多个副本放置在本地机架与随机的远端机架的节点上。用户发起请求时，首先从本地操作数据，如果本地节点的数据因某种原因失效，***则通过远端节点的副本进行数据恢复。但此时可能会由于远端节点距离本地节点太远而增加不必要的数据恢复时间，同时随机选取节点也不能保证节点间数据存储的平衡。由于***中经常发生节点失效，随机的选取远端节点会造成数据恢复中不必要的性能损失，导致整个存储***性能下降。然而，远程数据副本的网络距离和各节点数据负载及各节点的计算能力都会影响性能。基于上述原因，提出一种基于分布式集群的数据放置方法。该方法根据数据负载、节点计算能力及节点网络距离计算Datanode的数据放置评价值，根据此值选取最佳的放置节点，从而实现了数据放置的负载均衡、充分利用节点计算能力的同时保证数据传输性能。

发明内容

本发明要解决的技术问题是：针对集群中节点数据的负载情况、节点的计算能力、及数据到运算节点的距离三个因素来计算每个节点的数据放置评价值，根据放置评价值选择最佳的节点。

在本方法中需要计算节点的负载情况，计算能力以及数据到运算节点的距离。计算每个节点的三种要素需要复杂的计算，因此，随机选取每个机架中的一定数目的节点，根据这些节点计算数据到运算节点的距离、当前存放的数据块、及该节点的计算能力。通过三个要素的综合计算给出这些节点的数据放置评价值，然后根据评价值列表中选择评价值最大的作为最优的放置数据的节点。该节点的选取既能实现数据放置的负载均衡，也能充分利用节点的计算能力，同时也实现了良好的数据传输。

本发明所采用的技术方案为：

一种基于分布式集群的数据放置方法，针对分布式集群中节点的负载情况、计算节点计算能力及大量数据移动会影响运算性能的特点，把三个因素有效的结合起来计算出数据放置的评价值，然后根据评价值来选取节点，这样既可以保证了数据的负载均衡，防止有的节点空闲浪费资源或者有的节点负载过重降低运行速度的现象发生，又可以保证数据选取的传输效率，提升存储的性能。

其中：分布式集群中节点的负载情况是指该节点能放置数据的能力，它反比于Datanode存放的数据块数，根据该节点中存放的数据块数决定的，通过获取特定Datanode上已经存放的数据块数量来表示该Datanode上当前的负载。当Datanode上数据块数越多时，负载较重，该节点上可放置数据的能力就越低，因此，可放置数据的负载系数就越小。

该过程根据数据块数来决定Datanode的负载能力。作为数据放置评价值中的参考因素之一，可以根据应用适当的调整该系数来达到负载均衡的目的。

计算节点计算能力是根据硬件特性来评估的，如根据CPU个数、内存大小，磁盘大小，磁盘转速等来评估节点的计算能力。硬件特性好的节点比硬件特性差的节点处理任务快，花费时间短，同样的时间内可以处理更多的任务，减少计算时间。因此，计算能力强的节点可防止数据的系数就越大。

存放多个数据副本的存储节点的选取要将副本放置于不同的机架上，而且选取距离当前节点最近的机架，可以保证数据传输的效率，提升存储时的性能。在当前机架发生故障的情况下仍然可以进行自动的数据恢复，同时保证效率。

计算节点的计算能力和数据传输性能的比重来作为数据放置评价值中的参考因素。可以通过综合考虑，调整相应的系数，达到应用的需求，使得任务处理的速度更快，提高效率。

当用户提交数据存储的请求时，首先随机选取一定数目的不同机架上的不同数据节点，然后获取各个节点中当前存放的数据数量、各个节点到当前节点的距离信息及相应的计算能力，结合上述三个方面计算出每个节点的数据放置评价值，依据此评价值从高到低选取数据存放节点。

所述数据放置方法的评价函数是根据数据负载情况、计算能力、相应距离信息综合计算得到的，具体的评价方法是E = A*a+ B*b + C*c ，其中A、B、C是相关系数比重，其取值范围是[0,1]，且A+B+C=1。其中a 为Datanode的负载系数，反比于该节点当前存放的数据块数；b为节点计算能力的系数，根据计算能力数组取得相应的值；c为距离系数，反比于该节点中的网络距离。网络距离是根据树形拓扑结构计算的，在该拓扑结构中，叶子节点是Datanode，内部节点表示路由器、交换机等网络设备。在网络拓扑中，任意两个节点的距离是两个节点到最近的公共祖先节点的距离和。上述的A、B、C可以根据具体的应用需求指定相应的值。

所述方法流程为：根据用户提交的数据块请求，循环的选取节点数量直到选取到一定数量为止，然后根据每个选取的节点测试是否在节点列表Nodelist中，如果节点不在候选节点集Nodelist中且与Nodelist中的任一节点均不在同一机架中，则将该节点加入到Nodelist中；其中选取的数量应小于或等于机架的数量；再次将循环在Nodelist列表中的节点，对每个节点根据数据放置的评价值函数计算其相应的评价值，若该节点计算完数据放置评价值，则将该节点标记为已评价，并将该E值加入评价列表Elist中；最后对每个Elist中的记录值进行排序，取最高的N个E值对应的节点为候选节点。如果在计算节点中处理用户请求，同时各个机架中的负载相同、计算能力也都相同过的情况下，应该会在离计算节点最近的机架中获得更多数据块的副本放置在其上。

为了保证数据存储的本地性和数据的安全性，所述方法实现是在Hadoop中实现的抽象类中做更改，抽象类中提供了数据块副本放置的相关方法，每当有数据块存储请求提交时就会被调用。

在该抽象类中主要有chooseNode函数，直接负责存放选取的Datanode节点，

为了获取Datanode节点的网络距离，在该类中增加getDistance函数，得到两个节点间的网络距离。通过获取节点中计算能力数据获取相应的计算能力系数。

在该抽象类中增加numBlock函数以获取节点中存放的数据块数量值，用于表示该节点中的当前负载情况。

通过这三个因素计算数据放置评价函数得到相应的数据放置评价值，选取评价值中最大的Datanode节点作为数据放置的节点，即选择了综合权衡数据负载、计算能力、网络距离较优的数据放置节点，从而优化数据块的存放。

本发明的有益效果为：

本发明采用的是基于分布式集群的数据放置方法。根据集群中节点数据的负载情况、节点的计算能力、及数据到运算节点的距离三个因素来计算每个节点的数据放置评价值，根据放置评价值选择最佳的节点。此方法带来的效果首先是可以实现数据放置的负载均衡，在数据读写时增加并行度；其次是能很好的利用节点的计算能力，根据计算能力分配相应的计算任务，减少运行时间；最后是实现良好的传输性能。数据被存储在就近于计算节点可以使数据传输最小化，提高效率。

附图说明

图1为分布式集群的数据放置方法流程图；

图2为数据放置评价模块的流程图；

图3为三因素平衡时远端机架上的数据块分布情况图；

图4为注重负载和距离时远端机架上的数据块分布情况图；

图5为注重计算能力和距离时远端机架上的数据块分布情况图；

其中：图3-5中每组机架直方图中从左到右分别代表：DataNode1, DataNode2, DataNode3, DataNode4, DataNode5。

具体实施方式

下面参照附图，对本发明的内容以一个具体实例来描述实现基于分布式集群的数据放置方法的过程。

首先部署分布式集群环境，在操作***是centos6.3上按照官方文档安装hadoop组件。然后将hdfs、mapreduce服务开启。机架1中节点具有普通的计算能力，机架2和机架3 的节点具有快速的计算能力。每个机架中都有5个Datanode节点。分布式集群的数据放置方法流程图如图1所示，当用户提交数据存储请求时，首先选取不同机架中的节点，然后判断获取的节点是否达到选中的固定值，如果符合条件就进入到数据放置评价模块中，否则继续获取符合条件的节点。在进入到数据放置评价模块中，首先要根据在网络拓扑中计算出当前节点的距离信息、各个节点中当前存放的数据副本的数量及节点的计算能力，具体流程如图2所示。然后结合这三方面的信息，根据数据放置的评价值选取评价值高的节点作为数据存放节点。在实际环境中，计算节点机架X距离机架1的网络距离是5；距离机架2的网络距离是1；距离机架3的网络距离是3；机架1距离机架2的网络距离是4；机架1距离机架3的网络距离是2；机架2距离机架3的网络距离是6。根据计算能力机架2和机架3的计算能力强，因此给的系数较高，机架X和机架1的计算能力系数是1，机架2和机架3的计算能力是2。

本发明所述方法是在hadoop源码中找到相应的数据块副本放置的相应类，在数据块存储请求提交时就会调用相应类中的方法，主要是存放数据时选取DataNode节点的方法，根据集群中节点数据的负载情况、节点的计算能力、及数据到运算节点的距离三个因素重写chooseNode方法，该方法中包含getDistance函数，得到两个节点间的网络距离。通过获取节点中计算能力数据获取相应的计算能力系数。在numBlock函数中获取节点中存放的数据块数量值，用于表示该节点中的当前负载情况。在calculateCapacity函数中获取节点计算能力值，根据每个选取的DataNode节点计算数据放置的评价值E = A*a+ B*b + C*c ，其中A、B、C是相关系数比重，其取值范围是[0,1]，且A+B+C=1。其中a 为Datanode的负载系数，反比于该节点当前存放的数据块数，在numBlock函数中获取；b为节点计算能力的系数，根据计算能力数组取得相应的值，在calculateCapacity函数中获取；c为距离系数，反比于该节点中的网络距离，网络距离在getDistance函数中获取。

采用基于分布式集群的数据放置方法，可以将数据负载、节点计算能力、数据传输性很好的结合起来。在有1500块大小相同的数据块提交时，在副本存放在非本地机架上时，默认考虑均衡三个因素，他们系数分别是A=0.3，B=0.4，C=0.3时，可得到图3中的数据分布情况，在此时机架2中节点计算能力强，并且网络距离最近，因此在附图3中很好的体现出来。若偏重于负载和网络距离，可将A、B、C参数设置如下：A=0.45，B=0.1，C=0.45，可得到图4中的数据分布情况，此时网络距离最近的机架2仍让具有较多的数据，同时机架中的数据负载都很均匀。若考虑计算能力和网络距离时，可将A、B、C参数设置如下：A=0.1，B=0.45，C=0.45，可得到图5中的数据分布情况，此时可以利用节点的计算能力，将任务分配分配到计算能力强的节点上，减少运行时间的同时实现良好的传输性能。据此，可以根据不同的应用注重的不同结果来调整相应的系数，如果只注重负载情况不注重计算时间可以将负载系数调高，若注重计算时间可将节点计算能力系数调高，若应用中由于网络传输导致性能不好，则可以将网络距离系数调高。此方法可以根据应用的需求达到很好的性能及效果。

Claims

1.一种基于分布式集群的数据放置方法，其特征在于：针对分布式集群中节点的负载情况、计算节点计算能力及大量数据移动会影响运算性能的特点，把三个因素有效的结合起来计算出数据放置的评价值，然后根据评价值来选取节点，其中：

分布式集群中节点的负载情况是指该节点能放置数据的能力，它反比于Datanode存放的数据块数，根据该节点中存放的数据块数决定的，通过获取特定Datanode上已经存放的数据块数量来表示该Datanode上当前的负载；

计算节点计算能力是根据硬件特性来评估的；

存放多个数据副本的存储节点的选取要将副本放置于不同的机架上，而且选取距离当前节点最近的机架。

2.根据权利要求1所述的一种基于分布式集群的数据放置方法，其特征在于：所述数据放置方法的评价函数是根据数据负载情况、计算能力、相应距离信息综合计算得到的，具体的评价方法是E = A*a+ B*b + C*c ，其中A、B、C是相关系数比重，其取值范围是[0,1]，且A+B+C=1，其中a 为Datanode的负载系数，反比于该节点当前存放的数据块数；b为节点计算能力的系数，根据计算能力数组取得相应的值；c为距离系数，反比于该节点中的网络距离，网络距离是根据树形拓扑结构计算的，在网络拓扑中，任意两个节点的距离是两个节点到最近的公共祖先节点的距离和。

3.根据权利要求1或2所述的一种基于分布式集群的数据放置方法，其特征在于，所述方法流程为：根据用户提交的数据块请求，循环的选取节点数量直到选取到一定数量为止，然后根据每个选取的节点测试是否在节点列表Nodelist中，如果节点不在候选节点集Nodelist中且与Nodelist中的任一节点均不在同一机架中，则将该节点加入到Nodelist中；其中选取的数量应小于或等于机架的数量；再次将循环在Nodelist列表中的节点，对每个节点根据数据放置的评价值函数计算其相应的评价值，若该节点计算完数据放置评价值，则将该节点标记为已评价，并将该E值加入评价列表Elist中；最后对每个Elist中的记录值进行排序，取最高的N个E值对应的节点为候选节点。

4.根据权利要求3所述的一种基于分布式集群的数据放置方法，其特征在于：为了保证数据存储的本地性和数据的安全性，所述方法实现是在Hadoop中实现的抽象类中做更改，抽象类中提供了数据块副本放置的相关方法，每当有数据块存储请求提交时就会被调用。

5.根据权利要求4所述的一种基于分布式集群的数据放置方法，其特征在于：在该抽象类中主要有chooseNode函数，直接负责存放选取的Datanode节点。

6.根据权利要求5所述的一种基于分布式集群的数据放置方法，其特征在于：为了获取Datanode节点的网络距离，在该抽象类中增加getDistance函数，得到两个节点间的网络距离。

7.根据权利要求6所述的一种基于分布式集群的数据放置方法，其特征在于：在该抽象类中增加numBlock函数以获取节点中存放的数据块数量值，用于表示该节点中的当前负载情况。