CN104750780B

CN104750780B - 一种基于统计分析的Hadoop配置参数优化方法

Info

Publication number: CN104750780B
Application number: CN201510096561.0A
Authority: CN
Inventors: 杨海龙; 栾钟治; 钱德沛
Original assignee: Beihang University
Current assignee: Beijing Benhua Technology Co ltd
Priority date: 2015-03-04
Filing date: 2015-03-04
Publication date: 2017-10-13
Anticipated expiration: 2035-03-04
Also published as: CN104750780A

Abstract

本发明公开了一种基于统计分析的Hadoop配置参数优化方法，优化步骤是：通过对具有代表性的应用在不同的Hadoop***配置下的运行状况和性能信息进行采样，从而根据应用的行为特征进行分类，针对每一类应用筛选出对应用性能影响显著的配置参数，并利用这些关键配置参数建立应用的性能预测模型，进而对不同***参数配置下的应用性能进行准确地预测，指导***管理员对Hadoop***进行参数调优。本发明方法降低了传统基于经验的***配置参数优化的复杂度，避免了对于不同类型应用和不同软硬件平台配置参数优化方案可移植性差的缺点，通过统计分析的方法建立应用性能预测模型，能够有效指导Hadoop***的配置参数优化。

Description

一种基于统计分析的Hadoop配置参数优化方法

技术领域

本发明涉及云计算的大数据处理技术领域，特别是涉及一种基于统计分析的Hadoop配置参数优化方法。

背景技术

云计算的兴起，其计算资源动态、弹性可伸缩的技术优势为互联网应用提供了新的契机。然而大型互联网应用，例如Google、Yahoo！和Facebook，每天需要处理百万个以上的用户请求，分析TB量级的用户数据，如何利用云计算的优势，编写出高效的并行和分布式应用却并不简单，特别是如何处理好大规模并行和分布式环境下的容错问题显得更为复杂。为了解决云计算环境下编程困难的问题，提高应用开发效率，让程序员将精力集中在应用的业务逻辑实现而不是底层复杂的容错处理上，Google最先提出了MapReduce编程模型。该模型允许程序员实现Map函数用于处理输入键值对并产生相应的中间结果，同时根据用户实现的Reduce函数将所有的中间结果键值对合并并产生最终输出。Hadoop作为目前最成功的MapReduce编程模型开源实现，已经被学术界和产业界所广泛采用。Yahoo！在其数据中心内上千个节点的Hadoop集群上每日成功处理上百TB的用户数据；科研社区EGEE也开发了自己的MapReduce实现，用于为全世界用户寻找合适的软件组件。

为了利用好MapReduce强大的并行处理能力，需要程序员将应用的业务逻辑通过一系列的MapReduce作业(jobs)描述出来。MapReduce的整个执行过程可以分为两大部分：Map阶段和Reduce阶段。每一个阶段都会有一组键值对作为输入和输出，而具体键值对的格式则由程序员根据应用需要进行定制。另外程序员还需要实现两个逻辑功能，即Map逻辑和Reduce逻辑。Map逻辑会被施加到每一对输入键值对，同时产生一组中间键值对。Reduce逻辑将所有的中间键值对作为输入，并对键进行排序，最终产生另一组输出键值对。Map和Reduce阶段的所有输入和输出键值对都会被存储在底层的分布式文件***中(HDFS)。在MapReduce应用执行过程中，MapReduce实现框架自动从HDFS中读取输入输出数据、并行化任务的执行过程、协调任务间的网络通信，同时提供容错处理。

然而如何对MapReduce应用在其运行的Hadoop平台上进行优化，从而获得较好的性能却始终极具挑战。首先，不同应用的行为特性不同，因而对资源的需求迥异，例如统计类型的应用在处理过程中需要大量CPU计算资源，而文件处理类型的应用则会产生大量的I/O操作；其次，Hadoop平台本身存在着超过上百个的配置调优参数，且不同配置参数之间相互影响，对***管理员和应用专家进行性能调优带来极大的负担，如图1所示，由于配置参数间存在着关联关系，因此应用的性能最优点并不是简单地将所有参数设置为最大值；最后，即使能获得一个全局最优的***配置，该***配置也不具备可移植性，对于不同的平台硬件配置和不同行为特性的应用，该***配置可能无法获得应用最优性能，严重时甚至无法保证应用正常运行。

综上可以看出，如何根据不同应用的行为特征，选择合适的Hadoop***配置参数，同时在应用需要迁移时，能够对新***上的参数配置方案提供指导，对于改善运行在Hadoop之上应用的性能，提高整个***的可用性是至关重要的。

发明内容

针对Hadoop***的现有技术的以上缺陷和改进需求，本发明提出了一种基于统计分析的Hadoop配置参数优化方法，解决了原有Hadoop***在配置参数优化时的困难，能够准确预测不同配置参数下应用的性能，为***针对不同应用的性能调优提供了指导。

本发明的一种基于统计分析的Hadoop配置参数优化方法，包括有下列步骤：

第一步：配置Hadoop***的工作负载集；

第二步：配置Hadoop***的参数集；

第三步：配置参数取值类型和范围；

第四步：配置硬件环境；

第五步：依据配置参数运行Hadoop的***；

根据第一步至第四步设置的***配置参数取值范围，首先为Hadoop***集群选择任意一参数配置组合conf_M，然后选择工作负载集中的任意一次应用app_i，最后运行Hadoop的***，记录下应用样本记录

第六步：构建样本输入矩阵；

将第五步采集到的应用样本记录组织成样本输入矩阵S，所述输入矩阵S中的每一行为选择的配置参数，每一列为应用app_i的运行样本。

第七步：聚类分析得到聚类特征；

对第六步得到的样本输入矩阵S进行聚类分析，根据应用app_i的运行行为特征将其划分到不同的特征分类cluster_i中。

第八步：主成分分析

针对第七步计算出的聚类特征cluster_i中的应用app_i，通过主成分分析筛选出其中对应用性能影响显著的配置参数A_para。

第九步：构建应用性能预测模型MD

根据第八步筛选出的对应用性能影响显著的配置参数A_para，首先从应用运行样本输入矩阵S中提取出与关键配置参数相对应的样本输入子矩阵S_sub；然后利用支持向量回归算法计算应用性能预测模型MD。

本发明的一种基于统计分析的Hadoop配置参数优化方法，一方面提出了一套具有代表性的工作负载集，能够模拟真实的MapReduce应用场景并涵盖应用的不同领域；另一方面提出了一套能够从不同角度描述应用运行行为特征的参数指标集，包括作业性能和***配置参数；本发明为不同配置参数设置了合理的取值类型和范围，有效减少了配置参数优化的搜索空间；本发明采集在不同配置参数下的工作负载集中应用在Hadoop***上运行的***配置和性能参数，为后续统计分析提供充足的输入样本；本发明通过聚类分析将运行行为特征相似的应用划分到同一个组内，可以有效提高性能预测的准确度；本发明针对不同聚类中的应用，利用主成分分析筛选出对应用性能影响显著的配置参数，可以显著降低性能预测模型的复杂度；本发明根据筛选出的关键配置参数，通过支持向量回归算法建立应用性能预测模型，能够准确预测不同***配置下应用的性能。本发明降低了传统基于经验的***配置参数优化的复杂度，避免了对于不同类型应用和不同软硬件平台配置参数优化方案可移植性差的缺点，通过统计分析的方法建立应用性能预测模型，能够有效指导Hadoop***的配置参数优化。

附图说明

图1是现有Hadoop***在调整配置参数时应用性能的变化。

图2是本发明基于统计分析的Hadoop配置参数优化方法的原理图。

图3是本发明基于统计分析的Hadoop配置参数优化方法的流程图。

图4是本发明聚类分析产生的连接距离树状图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，通过对具有代表性的应用在不同的Hadoop***配置下的运行状况和性能信息进行采样，从而根据应用的行为特征进行分类，针对每一类应用筛选出对应用性能影响显著的配置参数，并利用这些关键配置参数建立应用的性能预测模型，进而对不同***参数配置下的应用性能进行准确地预测，指导***管理员对Hadoop***进行参数调优。

本发明的应用实例如图2所示。首先选择一组具有代表性的工作负载集在Hadoop***平台上运行，并通过分析***日志获得应用运行期间的***配置、行为特征和性能信息，改变Hadoop***的参数配置并再次运行工作负载集直到获得足够的配置参数样本。利用聚类分析依据配置参数样本对应用进行分类，并针对每一类应用进行主成分分析筛选出关键配置参数，利用这些关键配置参数建立应用性能预测模型，从而准确预测不同***配置参数下的应用性能。

如图3所示，本发明基于统计分析的Hadoop配置参数优化方法包括以下步骤：

第一步：配置Hadoop***的工作负载集；

依据表1列举的工作负载集来配置对Hadoop***参数优化。表1为本发明所选择的工作负载集(benchmark)，由8个不同的应用组成，按照其所代表的应用领域又可以分为4类，分别是微工作负载、HDFS工作负载、网页检索和机器学习。

表1是本发明于统计分析的Hadoop配置参数优化方法的工作负载集

第二步：配置Hadoop***的参数集；

依据表2来配置Hadoop***的参数集。表2为本发明所选择的配置参数集，参数集可以分为工作负载(jobconf)和***配置(sysconf)两大类，同时工作负载根据其执行的不同阶段，又可以细分为Map阶段(map_phase)、Reduce阶段(reduce_phase)和整体阶段(overall)三部分。

表2是本发明于统计分析的Hadoop配置参数优化方法的配置参数集

第三步：配置参数取值类型和范围；

依据表3来配置Hadoop***的参数取值类型和范围。表3为本发明所选择的***配置参数取值类型和范围，参数取值类型包括整数、布尔型、字符串和百分比，参数的取值范围包括离散型和连续型。

表3是本发明于统计分析的Hadoop配置参数优化方法的配置参数取值类型和范围相关参数

Hadoop***配置参数	参数范围	配置示例
			dfs.replication	1,2	1
block.size	32,64,128,256	128
			io.sort.mb	100～200	200
mapred.child.java.opts	128,256,512	512
			io.sort.record.percent	0.05～0.08	0.05
io.sort.spill.percent	0.7～0.9	0.7
			io.sort.factor	10～20	100
mapred.compress.map.output	true,false	true
			io.file.buffer.size	4096,4608,5120	4096
max.map.tasks	2～16	14
			max.reduce.tasks	2～6	6
mapred.reduce.parallel.copies	5～12	20
			mapred.job.shuffle.input.buffer.percent	0.7～0.9	0.7
mapred.job.shuffle.merge.percent	0.66～0.86	0.66
			mapred.job.reduce.input.buffer.percent	0～0.4	0.2
mapred.output.compress	true,false	true
			mapred.output.compression.type	record,block	block
mapred.map.output.compression.codec	default,gzip,bzip	default

第四步：配置硬件环境；

依据表4来配置Hadoop***的硬件所需环境。表4为本发明所选择的Hadoop实验平台(platform)，包括一个单机架的Hadoop集群，在集群中选择一个节点作为Hadoop***的NameNode(节点名称)和JobTracker(工作追踪节点)，也就是主节点，剩下的节点都作为从节点，每个从节点上运行DataNode(数据节点)和TaskTracker(任务追踪节点)。

表4是本发明于统计分析的Hadoop配置参数优化方法的实验平台软硬件配置参数

第五步：依据配置参数运行Hadoop的***；

在本发明中，根据第一步至第四步设置的***配置参数取值范围，为Hadoop***集群选择任意一参数配置组合conf_M(M为不同配置参数的组合的次数)，即对于conf_M∈sysconf∪jobconf，配置组合中的每一个参数(para)都属于该参数的取值范围(range)内，即

在本发明中，选择工作负载集中的任意一次应用app_i∈benchmark。

在本发明中，在配置完成的conf_M和app_i条件下运行Hadoop的***，直至应用app_i运行完成后，解析每次Hadoop的***日志，获取***配置、作业运行和应用性能等指标，形成后续统计分析的应用样本记录

第六步：构建样本输入矩阵；

在本发明中，样本输入矩阵S的形式表达为M为不同配置参数的组合的次数，为第M次组合的第一次运行的样本记录，为第M次组合的第二次运行的样本记录，为第M次组合的第i次运行的样本记录。

conf为被选参数。app_i为任意一次Hadoop***的工作负载集程序运行(简称应用)，i为运行次数。para₁为运行Hadoop***的第一次的应用样本，para₂为运行Hadoop***的第二次的应用样本，para_i为运行Hadoop***的最后一次的应用样本。

第七步：聚类分析得到聚类特征；

对第六步得到的样本输入矩阵S进行聚类分析(Clustering Analysis)，根据应用app_i的运行行为特征将其划分到不同的特征分类cluster_i中，即app_i∈cluster_i，cluster_i为任意一次运行的聚类特征。行为特征集为CAS＝(cluster₁,cluster₂,…,cluster_i)，cluster₁为第一次运行的特征分类，cluster₂为第二运行的特征分类，cluster_i为第i次运行的特征分类。

在本发明中，聚类计算过程采用层次型聚类中的最近邻算法，即两个聚类间的距离(distance)由聚类中距离最近点的距离确定；聚类计算完成后，得到聚类特征参数cluster_i，所述的聚类特征参数cluster_i可以形成如图4所示的连接距离树状图，当不同应用的连接距离小于5时，可以认为应用的运行行为上具有较强的相似性，则被划分到同一个聚类里。

第八步：主成分分析

针对第七步计算出的聚类特征cluster_i中的应用app_i，通过主成分分析(Principal Component Analysis)筛选出其中对应用性能影响显著的配置参数(significant factors)。在本发明中，针对聚类中应用的运行样本矩阵，进行主成分分析计算，得到任意一主成分PC_i；从所述PC_i中选取出方差累积贡献率Contribution到达85％的主成分，即形成保留主成分R_PC_k，k为保留的主成分的个数；然而，对于每一个保留主成分R_PC_k，选择排名前三的配置参数，记为对应用性能影响显著的配置参数A_para，这是因为配置参数在该主成分上的因子载荷factor_loading绝对值是较大的。

第九步：构建应用性能预测模型MD

根据第八步筛选出的对应用性能影响显著的配置参数A_para，将其作为模型变量建立应用性能预测模型MD。具体地：首先从应用运行样本输入矩阵S中提取出与关键配置参数相对应的样本输入子矩阵S_sub；然后利用支持向量回归算法(Support VectorRegression)计算应用性能预测模型MD。

本发明适用于运行大规模数据密集型应用的Hadoop***配置参数调优，可以满足运行特征各异(如表1、表2、表3)的应用在不同软硬件平台(如表4)下的性能优化，避免了传统基于经验进行配置参数调优可移植性差的缺点，通过运行具有代表性的工作负载集并采集其运行参数样本并对所述进行矩阵排布，利用聚类分析将运行特征相似的应用进行聚类分类，针对分类后的运行样本进行主成分分析，筛选出对应用性能影响显著的作业和***配置参数A_para，并采用支持向量回归算法建立了性能预测模型，能够对不同Hadoop***配置参数下的应用性能进行准确地预测，从而达到优化Hadoop***的配置参数。

本发明解决了不同类型应用在Hadoop***上配置参数的优化问题，从而提高了配置参数优化的准确性和可移植性，通过聚类分析和主成分分析筛选出不同分类下对应用性能影响显著的配置参数，并利用性能预测模型对不同***配置参数下的应用性能给出准确地预测，降低了Hadoop***配置参数优化的复杂度，可以有效地指导***管理员对不同平台下的Hadoop***进行配置参数优化。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于统计分析的Hadoop配置参数优化方法，包括有下列步骤：

第一步：配置Hadoop***的工作负载集；

第二步：配置Hadoop***的参数集；

第三步：配置参数取值类型和范围；

第四步：配置硬件环境；

其特征在于：还包括有下列步骤：

第五步：依据配置参数运行Hadoop的***；

根据第一步至第四步设置的***配置参数取值范围，首先为Hadoop***集群选择任意一参数配置组合conf_M，然后选择工作负载集中的任意一次应用app_i，最后运行Hadoop的***，记录下应用样本记录为第M次组合的第一次运行的样本记录，为第M次组合的第二次运行的样本记录，为第M次组合的第i次运行的样本记录；M为不同配置参数的组合的次数；i为运行次数；

第六步：构建样本输入矩阵；

将第五步采集到的应用样本记录组织成样本输入矩阵S，所述输入矩阵S中的每一行为选择的配置参数，每一列为应用app_i的运行样本；

第七步：聚类分析得到聚类特征；

对第六步得到的样本输入矩阵S进行聚类分析，根据应用app_i的运行行为特征将其划分到不同的特征分类cluster_i中；

第八步：主成分分析

针对第七步计算出的聚类特征cluster_i中的应用app_i，通过主成分分析筛选出其中对应用性能影响显著的配置参数A_para；

第九步：构建应用性能预测模型MD

2.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法，其特征在于：在第八步的主成分分析过程中，针对聚类中应用的运行样本矩阵，进行主成分分析计算，得到任意一主成分PC_i；从所述PC_i中选取出方差累积贡献率Contribution到达85％的主成分，即形成保留主成分R_PC_k，k为保留的主成分的个数；然而，对于每一个保留主成分R_PC_k，选择排名前三的配置参数，记为对应用性能影响显著的配置参数A_para。

3.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法，其特征在于：在第七步的聚类处理过程中，聚类计算过程采用层次型聚类中的最近邻算法，即两个聚类间的距离由聚类中距离最近点的距离确定。

4.根据权利要求3所述的一种基于统计分析的Hadoop配置参数优化方法，其特征在于：当不同应用的连接距离小于5时，认为应用的运行行为上具有较强的相似性，则被划分到同一个聚类里。

5.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法，其特征在于：样本输入矩阵S的形式表达为

6.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法，其特征在于：在第一步的工作负载集的配置中，所述工作负载集由8个不同的应用组成，按照其所代表的应用领域又分为4类，分别是微工作负载、HDFS工作负载、网页检索和机器学习。

7.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法，其特征在于：在第二步的参数集的配置中，所述参数集可以分为工作负载和***配置两大类，同时工作负载根据其执行的不同阶段，又可以细分为Map阶段、Reduce阶段和整体阶段三部分。

8.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法，其特征在于：在第三步的参数取值和范围选取中，参数取值类型包括整数、布尔型、字符串和百分比，参数的取值范围包括离散型和连续型。