CN107729514A

CN107729514A - 一种基于hadoop的副本放置节点确定方法及装置

Info

Publication number: CN107729514A
Application number: CN201711007971.9A
Authority: CN
Inventors: 王宜燕; 江超
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2018-02-23

Abstract

本发明公开了一种基于hadoop的副本放置节点确定方法、装置、设备及计算机可读存储介质，包括：根据目标副本的副本类型确定目标机架服务器；从目标机架服务器中选取待放置节点，组成待放置节点集群；从待放置节点集群中选取工作连接数小于连接数阈值的节点，并从工作连接数小于连接数阈值的节点中确实时负载最小的节点，作为目标副本的放置节点。可见，在本方案中，在选取防置副本的节点时，需要同时考虑节点的实时负载和HDFS工作进程数，从而有效的提高了副本的合理分布，相比于默认的副本放置策略，优化的副本放置策略具有更明确的目的性，尽量选择了最低实时负载节点，避开了高负载节点的存储，提升了副本传输的时间。

Description

一种基于hadoop的副本放置节点确定方法及装置

技术领域

本发明涉及分布式文件***副本存储技术领域，更具体地说，涉及一种基于hadoop的副本放置节点确定方法、装置、设备及计算机可读存储介质。

背景技术

目前，Hadoop是当前主流的企业大数据分析平台。Hadoop采用的是HDFS分布式文件***来进行数据存储。HDFS采用主从式架构设计模式(master/slavearchitecture)，一个名称节点(NameNode)和若干数据节点(DataNode)构成HDFS集群。其中HDFS采用三副本冗余机制保证数据的安全性。HDFS默认的副本放置策略原则为：尽最大可能将其中两个数据块副本存储在一个机架上，将另一个数据块副本存储在另一个机架上，很好地在带宽资源及可靠性方面做了平衡。

然而默认副本放置策略具有一定的局限性，主要体现如下：选取副本存储节点时采用了随机机方式，HDFS虽然也考虑了数据节点的工作接连数的负载信息，但相对简单，并且是在随机选取存储节点之后才做出判断。这样的副本放置方式将导致副本的分布随意性大，特别在异构环境中很有可能出现分配较多数据副本的节点是性能较差的节点，这些情况将进一步造成有些节点具有很高的负载，有些节点却处于空闲状态造成数据传输效率的下降。

因此，如何确定副本的放置节点，以提高集群节点负载的均衡性，最终达到提升数据传输效率的目的，是本领域技术人员需要解决的。

发明内容

本发明的目的在于提供一种基于hadoop的副本放置节点确定方法、装置、设备及计算机可读存储介质，以确定副本的放置节点，提高集群节点负载的均衡性，最终达到提升数据传输效率的目的。

为实现上述目的，本发明实施例提供了如下技术方案：

一种基于hadoop的副本放置节点确定方法，包括：

根据目标副本的副本类型确定目标机架服务器；

从所述目标机架服务器中选取待放置节点，组成待放置节点集群；

从所述待放置节点集群中选取工作连接数小于连接数阈值的节点，并从所述工作连接数小于连接数阈值的节点中确实时负载最小的节点，作为所述目标副本的放置节点。

其中，所述根据目标副本的副本类型确定目标机架服务器，包括：

若所述目标副本的副本类型为第一个副本，则随机选取机架服务器作为所述目标机架服务器；

若所述目标副本的副本类型为第二个副本，则从与所述目标副本对应的第一个副本放置的机架服务器之外的其他机架服务器中，选取目标机架服务器；

若所述目标副本的副本类型为第三个副本，则判断所述目标副本对应的第一个副本放置的机架服务器于所述第二个副本放置的机架服务器是否相同；若相同，则从与所述目标副本对应的第二个副本放置的机架服务器之外的其他机架服务器中，选取目标机架服务器；若不相同，则将所述目标副本对应的第二个副本放置的机架服务器作为所述目标机架服务器。

其中，所述从所述待放置节点集群中选取工作连接数小于连接数阈值的节点，包括：

确定所述待放置节点集群中每个节点的工作连接数；

根据每个节点的工作连接数计算所述待放置节点集群的平均工作连接数，将所述平均工作连接数作为所述连接数阈值，并从所述待放置节点集群中选取工作连接数小于连接数阈值的节点。

其中，所述从所述工作连接数小于连接数阈值的节点中确实时负载最小的节点，作为所述目标副本的放置节点，包括：

确定每个工作连接数小于连接数阈值的节点的磁盘IO负载、内存负载、CPU负载以及网络负载；

根据每个工作连接数小于连接数阈值的节点的磁盘IO负载、内存负载、CPU负载以及网络负载和负载系数，确定每个工作连接数小于连接数阈值的节点的实时负载，并选取实时负载最小的节点作为所述目标副本的放置节点。

其中，所述根据每个工作连接数小于连接数阈值的节点的磁盘IO负载、内存负载、CPU负载以及网络负载和负载系数，确定每个工作连接数小于连接数阈值的节点的实时负载，包括：

利用实时负载确定规则确定每个工作连接数小于连接数阈值的节点的实时负载；所述实时负载确定规则为：

W＝λ_io×w_io+λ_mem×w_mem+λ_cpu×w_cpu+λ_band×w_band；

其中，W为实时负载，w_io为磁盘IO负载、w_mem为内存负载、w_cpu为CPU负载、w_band为网络负载，λ_io为磁盘比重系数、λ_mem为内存比重系数、λ_cpu为CPU比重系数、λ_band为网络带宽比重系数，λ_io+λ_mem+λ_cpu+λ_band＝1，且λ_io、λ_mem、λ_cpu、λ_band∈[0,1]。

一种基于hadoop的副本放置节点确定装置，包括：

目标机架服务器确定模块，用于根据目标副本的副本类型确定目标机架服务器；

集群确定模块，用于从所述目标机架服务器中选取待放置节点，组成待放置节点集群；

节点选取模块，用于从所述待放置节点集群中选取工作连接数小于连接数阈值的节点，并从所述工作连接数小于连接数阈值的节点中确实时负载最小的节点，作为所述目标副本的放置节点。

其中，所述节点选取模块包括：

工作连接数确定单元，用于确定所述待放置节点集群中每个节点的工作连接数；

平均工作连接数计算单元，用于根据每个节点的工作连接数计算所述待放置节点集群的平均工作连接数；

节点选取单元，用于将所述平均工作连接数作为所述连接数阈值，并从所述待放置节点集群中选取工作连接数小于连接数阈值的节点。

其中，所述节点选取模块包括：

负载确定单元，用于确定每个工作连接数小于连接数阈值的节点的磁盘IO负载、内存负载、CPU负载以及网络负载；

实时负载确定单元，用于根据每个工作连接数小于连接数阈值的节点的磁盘IO负载、内存负载、CPU负载以及网络负载和负载系数，确定每个工作连接数小于连接数阈值的节点的实时负载，并选取实时负载最小的节点作为所述目标副本的放置节点。

一种基于hadoop的副本放置节点确定设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述副本放置节点确定方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述副本放置节点确定方法的步骤。

通过以上方案可知，本发明实施例提供的一种基于hadoop的副本放置节点确定方法，包括：根据目标副本的副本类型确定目标机架服务器；从所述目标机架服务器中选取待放置节点，组成待放置节点集群；从所述待放置节点集群中选取工作连接数小于连接数阈值的节点，并从所述工作连接数小于连接数阈值的节点中确实时负载最小的节点，作为所述目标副本的放置节点。

可见，在本方案中，在选取防置副本的节点时，需要同时考虑节点的实时负载和HDFS工作进程数，从而有效的提高了副本的合理分布，相比于默认的副本放置策略，优化的副本放置策略具有更明确的目的性，尽量选择了最低实时负载节点，避开了高负载节点的存储，提升了副本传输的时间；本发明还公开了一种基于hadoop的副本放置节点确定装置、设备及计算机可读存储介质，同样能实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种基于hadoop的副本放置节点确定方法流程示意图；

图2为本发明实施例公开的一种基于hadoop的副本放置节点确定装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于hadoop的副本放置节点确定方法、装置、设备及计算机可读存储介质，以确定副本的放置节点，提高集群节点负载的均衡性，最终达到提升数据传输效率的目的。

参见图1，本发明实施例提供的一种基于hadoop的副本放置节点确定方法，包括：

S101、根据目标副本的副本类型确定目标机架服务器；

具体的，确定待放置副本的节点之前，首先需要确定机架服务器，在本方案中，确定机架服务器是根据副本的类型信息确定的，该类型信息指的是副本是第几个副本，一般来说，副本的放置位置的选取遵循将副本尽量放在不同机架上以保证可靠性的原则，在本实施例中，以最常见的3副本方案为例，也就是说目标副本的类型可以为：第一个副本、第二个副本或者第三个副本；具体来说，本方案的副本放置选择策略如下：

1)需要选取的副本数>0且需要选择第一个副本:

判断客户端节点是否为数据节点；如果客户端节点是数据节点就选择该节点存放副本，否则，随机确定机架服务器，并通过本方案所述的方法来选取放置目标副本的节点；

2)如果是选择第二副本:

则指定除去第一副本所在机架外的所有机架中选取目标机架服务器，并通过本方案的方法选择节点；

3)如果是选择第三副本:

如果第一和第二副本所在节点在同一机架，则指定除去第二副本所在机架外的所有机架通过本方案所述的方法去选取节点，否则指定第二副本所在机架通过本方案所述的方法去选取节点。

需要说明的是，从多个机架服务器中选取目标机架服务器时，可以随机的选取，也可以按照预定的选取规则进行选取，在此并不具体限定。

S102、从所述目标机架服务器中选取待放置节点，组成待放置节点集群；

具体的，本方案从指定的机架位置上选取一定数量的数据节点，生成待放置节点集群，该集群用来从中确定放置目标副本的节点，需要说明的是，该集群中的节点数量可以预先设定的，并且选取节点时，也可以按照预先设定的节点选取规则进行选取，同样也可以随机选取，在此并不具体限定。

S103、从所述待放置节点集群中选取工作连接数小于连接数阈值的节点，并从所述工作连接数小于连接数阈值的节点中确实时负载最小的节点，作为所述目标副本的放置节点。

确定所述待放置节点集群中每个节点的工作连接数；

在本方案中，确定集群后，需要从从该集群中进一步选取工作连接数低于连接数阈值的节点，并从低于连接数阈值的节点中选取实时负载最小的节点作为副本位置放置节点；需要说明的是，本方案中的连接数阈值可以为用户预先设定的，同样也可以根据实际情况动态的变化，例如将集群平均工作连接数作为连接数阈值，在此并不具体限定。

可以理解的是，HDFS数据节点工作进程即数据节点HDFS写入、读取等工作的连接数。由于这些负载是比值的关系，在异构环境下有些节点可能由于性能较好，其某些实时负载处于较低水平，在节点性能严重不均衡时将导致集群大量副本存储在个别高性能节点上。该负载信息能控制一个数据节点上进行的HDFS工作进程，抑制某个数据节点进行过多的HDFS服务。

可见，在本方案中，在选取防置副本的节点时，需要同时考虑节点的实时负载和HDFS工作进程数，从而有效的提高了副本的合理分布，相比于默认的副本放置策略，优化的副本放置策略具有更明确的目的性，尽量选择了最低实时负载节点，避开了高负载节点的存储，提升了副本传输的时间。

基于上述实施例，所述从所述工作连接数小于连接数阈值的节点中确实时负载最小的节点，作为所述目标副本的放置节点，包括：

具体的，本方案利用实时负载确定规则确定每个工作连接数小于连接数阈值的节点的实时负载；所述实时负载确定规则为：

W＝λ_io×w_io+λ_mem×w_mem+λ_cpu×w_cpu+λ_band×w_band；

具体的，数据节点的实时负载可以由多个指标进行衡量，在本方案中，以磁盘IO负载，内存负载，CPU负载，网络负载为例对本方案进行说明。假设数据节点实时负载为W，则：

W＝λ_io×w_io+λ_mem×w_mem+λ_cpu×w_cpu+λ_band×w_band；

其中，w_io为磁盘IO负载、w_mem为内存负载、w_cpu为CPU负载、w_band为网络负载，λ_io，λ_mem，λ_cpu，λ_band则代表了衡量节点工作负载时的节点磁盘、内存、CPU、网络带宽所占的比重，λ_io+λ_mem+λ_cpu+λ_band＝1，λ_io、λ_mem、λ_cpu、λ_band∈[0,1]，进一步的，本方案中的权值的选取采用运筹学中的层次分析法来确定，其中实时负载的权值确定为：λ_cpu＝0.153、λ_mem＝0.072、λ_io＝0.531、λ_band＝0.245。

下面对本发明实施例提供的副本放置节点确定装置进行介绍，下文描述的副本放置节点确定装置与上文描述的副本放置节点确定方法可以相互参照。

参见图2，本发明实施例提供的一种基于hadoop的副本放置节点确定装置，包括：

目标机架服务器确定模块100，用于根据目标副本的副本类型确定目标机架服务器；

集群确定模块200，用于从所述目标机架服务器中选取待放置节点，组成待放置节点集群；

节点选取模块300，用于从所述待放置节点集群中选取工作连接数小于连接数阈值的节点，并从所述工作连接数小于连接数阈值的节点中确实时负载最小的节点，作为所述目标副本的放置节点。

其中，所述节点选取模块包括：

基于上述任意实施例，本方案公开了一种基于hadoop的副本放置节点确定设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述述副本放置节点确定方法的步骤。

本方案还公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述副本放置节点确定方法的步骤。

需要说明的是，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于hadoop的副本放置节点确定方法，其特征在于，包括：

根据目标副本的副本类型确定目标机架服务器；

2.根据权利要求1所述的副本放置节点确定方法，其特征在于，所述根据目标副本的副本类型确定目标机架服务器，包括：

3.根据权利要求1所述的副本放置节点确定方法，其特征在于，所述从所述待放置节点集群中选取工作连接数小于连接数阈值的节点，包括：

确定所述待放置节点集群中每个节点的工作连接数；

4.根据权利要求1至3中任意一项所述的副本放置节点确定方法，其特征在于，所述从所述工作连接数小于连接数阈值的节点中确实时负载最小的节点，作为所述目标副本的放置节点，包括：

5.根据权利要求4所述的副本放置节点确定方法，其特征在于，所述根据每个工作连接数小于连接数阈值的节点的磁盘IO负载、内存负载、CPU负载以及网络负载和负载系数，确定每个工作连接数小于连接数阈值的节点的实时负载，包括：

W＝λ_io×w_io+λ_mem×w_mem+λ_cpu×w_cpu+λ_band×w_band；

6.一种基于hadoop的副本放置节点确定装置，其特征在于，包括：

7.根据权利要求6所述的副本放置节点确定装置，其特征在于，所述节点选取模块包括：

8.根据权利要求6或7所述的副本放置节点确定装置，其特征在于，所述节点选取模块包括：

9.一种基于hadoop的副本放置节点确定设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述副本放置节点确定方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述副本放置节点确定方法的步骤。