CN111309577A

CN111309577A - 一种面向Spark的批处理应用执行时间预测模型构建方法

Info

Publication number: CN111309577A
Application number: CN202010102494.XA
Authority: CN
Inventors: 梁毅; 李硕; 曾绍康; 伍佳名
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-19
Anticipated expiration: 2040-02-19
Also published as: CN111309577B

Abstract

一种面向Spark的批处理应用执行时间预测模型构建方法属于分布式计算领域。本发明提出了一种考虑了不同应用特征的Spark批处理应用执行时间预测模型，首先根据Spark***中批处理应用执行原理选取分类方法影响因素，从中筛选出强相关指标并构建批处理应用执行时间分类方法，然后在每一类批处理应用中充分分析了影响应用执行时间的指标并利用主成分分析法(PCA)和梯度提升决策树算法(GBDT)对应用执行时间进行预测，最后当即席应用到达之后，先判断其所属应用类别继而使用已构建的预测模型来预测其执行时间。

Description

一种面向Spark的批处理应用执行时间预测模型构建方法

技术领域

本发明属于分布式计算领域，具体涉及Spark***中批处理应用执行时间的预测模型构建方法。

背景技术

分布式内存计算***是大数据处理领域的最新技术进展。Spark***作为典型分布式内存计算***已被广泛应用于大数据处理的众多场景中。批处理应用是Spark***支撑的一类主要应用，其特点是基于有向无环图(Directed Acyclic Graph，DAG)计算模型对静态数据集进行并行处理。批处理应用执行时间预测是保证批处理应用达到软实时需求，指导Spark***资源分配以及应用均衡决策、保障批处理应用服务质量的基础。然而，如何精确预测Spark批处理应用执行时间仍然是一个开放的技术挑战。

近年来，针对大数据***的批处理应用执行时间预测研究工作可分为两类，分别是基于源代码分析的执行时间预测和选取相关因素构建执行时间预测模型。基于源代码分析预测批处理应用的执行时间，即首先对应用的源码进行建模分析，分析源码中每种操作的执行次数以及复杂度来对批处理应用执行时间进行评估。但是这类方法属于基于源代码的白盒分析，需要入侵源代码，不能适用于无法获取源代码的第三方批处理应用。第二类预测模型选取的相关因素包括输入数据规模和资源配置，选取输入数据规模作为相关因素的预测模型可以在输入数据规模改变的前提下进行执行时间预测，即单纯根据历史执行时间来预测应用的执行时间，但是无法在资源量改变的情况下进行有效预测；选取输入数据规模和资源配置作为相关因素的预测模型虽然考虑了输入数据规模以及资源量的变化，但未针对具有不同应用特征的批处理应用进行执行时间预测。

Spark***中，批处理应用的计算具有多样化特征，在相同的数据输入规模和资源配置下，应用执行时间具有较大的差异；并且随着输入数据规模和资源配置的改变，不同应用的执行时间变化趋势也差异较大。然而上述基于相关因素建模的工作针对不同批处理应用均采用统一建模的方法，并且考虑因素较为单一。这会造成Spark批处理应用执行时间预测精度不准确的问题，无法有效指导Spark***资源分配、应用均衡决策以及保障批处理应用服务质量。

发明内容

本发明针对目前Spark批处理应用执行时间预测方法的上述不足，提出了一种区分应用特征的Spark批处理应用执行时间预测方法。该方法首先选择典型的基准程序测试集Hibench作为基础，利用斯皮尔曼相关系数选取Spark批处理应用执行时间分类指标，基于选取指标采用均值漂移聚类算法进行批处理应用执行时间分类；针对每一类Spark批处理应用，该方法采用主成分分析法(PCA)和梯度提升决策树算法(GBDT)对应用执行时间进行预测。最后当即席应用到达之后，先判断其所属应用类别继而使用已构建的预测模型来预测其执行时间。

本发明所述的Spark批处理应用执行时间预测方法分为2个阶段：Spark批处理应用执行时间预测模型的构建和即席应用执行时间的类别匹配及预测。Spark批处理应用执行时间预测模型的构建分为4个步骤：初始化、Spark批处理应用执行时间分类、Spark批处理应用执行时间预测和结束。即席应用执行时间的类别匹配及预测分为4个步骤：初始化、即席应用执行时间分类、即席应用执行时间预测和结束。

上述方法在计算机上按照以下步骤实现：

1.Spark批处理应用执行时间预测模型的构建

1-1)初始化

1-1.1)根据Spark批处理应用的计算特征和对资源使用的特征分别在应用层和***层选取影响Spark批处理应用执行时间的备选指标。

1-1.2)采用控制变量法，变化上述备选指标，寻找在当前的指标组合下，该批处理应用的执行时间，样本集的形式化定义如(1)所示：

T＝{(x₁₁，x₁₂，...x_1n，y₁)，...(x_m1，x_m2，…x_mn，y_m)} (1)

其中x_ij表示第i个样本的第j个特征属性的特征值，m是样本的个数，n是特征指标的个数，y_i表示在特征集{x_i1，x_i2，...x_in}下的应用执行时间。

1-2)Spark批处理应用执行时间分类

1-2.1)用斯皮尔曼相关系数从备选指标中选择与应用执行时间强相关性的指标。计算公式如(2)所示：

其中m表示样本的数量，d_i＝α_i-β_i，其中元素α_i、β_i分别表示某种指标的第i个指标值在此指标集中的排行和第i条样本的执行时间在执行时间集合中的排行。

1-2.2)定义数据点P＝(p₁，p₂，...，p_n)。其中p₁...p_n是应用执行时间的强相关指标。

1-2.3)采用标准化欧式距离来计算数据点间距离，计算公式如(3)所示：

其中P_ej和P_fj分别表示数据点P_e和P_f的第j个指标值，s_j为两个数据点间第j个特征值的标准差。

1-2.4)本发明选用均值漂移聚类算法对Spark批处理应用的执行时间进行分类：

1-2.4.1)在未被分类的数据点中随机选择一个点作为中心O＝RandomSelect(s)。

1-2.4.2)找出离中心点距离在半径值r之内的所有点，记做集合R，认为这些点属于簇c，Q_r＝{s:Distance(s,pre)<r}。

1-2.4.3)计算从中心点开始到集合R中每个元素的向量，将这些向量相加，得到偏移向量

其中，Q_r是以O为中心点，半径为r的高维球区域；num是包含在Q_r范围内点的个数；x_i是包含在S_r范围内的点。

1-2.4.4)将中心点移动到偏移均值位置O^z+1＝R^z+O^z

其中，R^z为z状态下求得的偏移均值；O^z为z状态下的中心。

1-2.4.5)重复步骤1-2.4.1)-1-2.4.4)，直到偏移向量的大小大于0.01，记住此时的中心点。

1-2.4.6)重复1-2.4.1)-1-2.4.5)，直到所有的点都被归类。

1-2.4.7)根据每个类，对每个点的访问频率，取访问频率最大的那个类，作为当前点集的所属类。

1-2.4.8)从小到大变化r值，重复1-2.4.1)-1-2.4.7)，直到寻找到能够使评价函数E最小的分类方式，计算方法如(4)：

其中，P_c表示类簇c的某个数据点，O_c表示类簇c的中心点，k为类簇个数。

1-3)Spark批处理应用执行时间预测

1-3.1)根据Spark应用执行流程来筛选出所有可能影响应用执行时间的参数。

1-3.2)变化应用的输入数据规模以及配置参数的组合，寻找在当前输入数据规模以及配置参数下，该批处理应用的执行时间。模型中训练样本集的形式化定义如下：对于每一类应用L，样本数据集可以表示为：

T_L＝{(x₁₁，x₁₂，...x_1n，y₁)，...(x_m1，x_m2，…x_mn，y_m)} (5)

其中x_ij表示为类别L中第i个样本的第j个特征属性的取值，m是样本的个数，n是特征指标的个数，y_i表示在特征取值{x_i1，x_i2，...x_in}下的应用执行时间。

本发明选用PCA对影响Spark批处理应用执行时间的因素进行主成分提取：

1-3.3)将上述数据按列组成m*n的矩阵，并对矩阵按照公式(6)进行标准化处理：

B_ij＝(θ_ij-∧θ_j)/Sj (6)

其中，B_ij为标准化后数据，θ_ij为原始数据，∧θ_j为第j个指标的平均值，S_j为第j个指标的标准差。

1-3.4)计算标准化后n个指标的两两相关矩阵。

1-3.5)求取相关矩阵的特征根μ_j，特征向量，贡献率w_j和累计贡献率z_j。

贡献率是相关矩阵中第j大的特征值占全部相关矩阵特征值总和的比重，值越大，表明第j个指标呈现出了更多的原始数据信息。计算公式为：

累计贡献率是相关矩阵中前j个特征值的和与相关矩阵中全部特征值的和的比值，这个值越大，说明前j个成分越能充分代表原始数据的信息。计算公式为：

1-3.6)将特征向量按对应特征值大小从上到下按行排列成矩阵选，取前j个指标，使其累积贡献率大于85％，则使用前j个综合指标代替原始的n个指标，达到数据降维的目的。

本发明选用GBDT对Spark批处理应用的执行时间进行预测：

1-3.7)按照公式(9)初始化弱分类器：

其中，L(y_I，f(x))是定义的损失函数，m是样本个数。

1-3.8)对每个样本计算负梯度作为残差：

1-3.9)将残差作为新的样本真实值，组成新的训练数据，训练新的弱分类器：

其中，D_jh为第h棵回归树叶子节点的个数。

1-3.10)对强分类器进行更新：

1-3.11)重复步骤1-3.7)-1-3.10)t次，t为回归树的个数。

1-3.12)获得最终分类器

1-4)结束，完成Spark批处理应用执行时间预测模型的构建。

2.即席应用执行时间的类别匹配及预测

2-1)初始化：

2-1.1)将该应用运行在一组小规模输入数据集DS＝{ds₁,ds₂,…}下，对于每个输入数据集ds_i，分别收集Spark批处理应用执行时间分类方法的特征指标。

2-1.2)分别计算上述指标的均值作为最终的特征指标。

2-2)即席应用执行时间分类：执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-2.4)，对于分类方法中各个类簇的中心点O_c分别根据公式(3)计算距离d(P，O_c)。最终，将使距离d(P，O_c)最小的类别c作为该应用的类别。

2-3)即席应用执行时间预测：执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-3)，完成即席应用的执行时间预测。

2-4)结束，完成即席应用执行时间的类别匹配及预测。

为了实现上述方法，本发明需要构建Spark批处理应用执行时间预测模型和即席应用执行时间的类别匹配及预测。在Spark批处理应用执行时间预测模型的构建中，首先要初始化(步骤1-1))，其次完成Spark批处理应用执行时间分类(步骤1-2))，然后完成Spark批处理应用执行时间预测(步骤1-3))，最后结束，完成Spark批处理应用执行时间预测模型构建(步骤1-4))。在即席应用执行时间的类别匹配及预测中，首先要初始化(步骤2-1))，其次完成即席应用执行时间分类(步骤2-2))，然后完成即席应用执行时间预测(步骤2-3))，最后结束，完成即席应用执行时间的类别匹配及预测(步骤2-4))。

附图说明

图1为本发明方法所依附的Spark***的部署图。

图2为本发明方法的总体流程图。

图3为Spark批处理应用执行时间分类方法的构建流程图。

图4为Spark批处理应用执行时间预测模型的构建流程图。

图5为即席应用类别匹配的处理流程图。

图6不同半径值下的评价函数值。

图7PG、MSRG与本发明的均方根误差。

图8PG、MSRG与本发明的平均绝对百分误差。

具体实施方式

下面结合附图和具体实施方式对本发明进行说明。

本发明基于HiBench基准测试程序集中9个典型批处理应用：PageRank，Wordcount，Sort，Terasort，KMeans，Bayes，Nweight，LR以及LiR来作为Spark批处理应用，阐述所提出的Spark批处理应用执行时间预测方法。图1是本方法所依附的平台架构图，在应用运行过程中可以观测应用执行时间。图2是本发明的总流程。本实施方法步骤可以分为以下步骤：

1.Spark批处理应用执行时间预测模型的构建

1-1)初始化

1-1.1)根据Spark批处理应用的计算特征和对资源使用的特征分别在应用层和***层选取影响Spark批处理应用执行时间的备选指标，备选指标集如表1所示：

表1应用层备选指标信息

表2***层备选指标信息

T＝{(x₁₁，x₁₂，…x_1n，y₁)，…(x_m1，x_m2，...x_mn，y_m)} (1)

其中x_ij表示第i个样本的第j个特征属性的取值，m＝500，n＝9，y_i表示在特征取值{x_i1，x_i2，...x_in}下的应用执行时间。

1-2)Spark批处理应用执行时间分类

1-2.1)用斯皮尔曼相关系数从备选指标中选择与应用执行时间强相关性的指标。计算公式如(2)所示，结果如表3所示：

表3强相关性能指标

指标	Spearman相关系数
		MIA	0.736
OIA	0.734
		NO	0.657
WDOR	0.826
		NDOR	0.806
CCR	0.538

1-2.2)定义数据点P＝(p₁，p₂，...，p₆)。其中P₁＝MIA，P₂＝OIA，P₃＝NO，P₄＝WDOR，P₅＝NDPR，P₆＝CCR。

1-2.4.4)将中心点移动到偏移均值位置O^z+1＝R^z+O^z。

其中，R^z为z状态下求得的偏移均值；O^z为z状态下的中心。

1-2.4.5)重复步骤1-2.4.1)-1-2.4.4)，直到偏移向量值大于0.01，记住此时的中心点。

1-2.4.6)重复1-2.4.1)-1-2.4.5)，直到所有的点都被归类。

1-2.4.8)从小到大变化r值，重复1-2.4.1)-1-2.4.7)，直到寻找到能够使评价函数E最小的分类方式，计算方法如(4)，聚类结果的各类簇中心点如表4所示：

表4聚类结果的各类簇中心点

类簇中心点	坐标表示
		O<sub>1</sub>	(0.27,0.6,13,0.16,0.84,0.003)
O<sub>1</sub>	(0.013,2.3,12,0.29,0.71,0.13)
		O<sub>1</sub>	(1,1,3,0.33,0.67,2.1)

1-3)Spark批处理应用执行时间预测

1-3.1)根据Spark应用执行流程来筛选出所有可能影响应用执行时间的参数，根据Spark应用执行流程可以看出，影响应用执行时间的配置参数主要包括应用属性，Shuffle相关，内存管理，执行行为和资源调度参数中。

T_L＝{(x₁₁，x₁₂，…x_1n，y₁)，…(x_m1，x_m2，…，x_mn，y_m)} (5)

其中x_ij表示为类别L中第i个样本的第j个特征属性的取值，m＝1200，n＝21，y_i表示在特征取值{x_i1，x_i2，...x_in}下的应用执行时间。

B_ij＝(θ_ij-∧θ_j)/S_j (6)

1-3.4)计算标准化后n个指标的两两相关矩阵。

1-3.5)求取相关矩阵的特征根μ_j，特征向量，贡献率w_j和累计贡献率z_j，结果如表5所示。

表5特征根、贡献率及累计贡献率

序号	特征根	贡献率	累计贡献率
				1	1.70	0.235	0.235
2	1.63	0.233	0.468
				3	1.26	0.178	0.646
4	1.24	0.176	0.822
				5	0.77	0.110	0.932
…	…	…	…

1-3.6)将特征向量按对应特征值大小从上到下按行排列成矩阵，取前5个指标，其累积贡献率大于90％，达到数据降维的目的。

本发明选用GBDT对Spark批处理应用的执行时间进行预测：

1-3.7)按照公式(9)初始化弱分类器：

其中，L(y_I，f(x))是定义的损失函数，m＝1200。

1-3.8)对每个样本计算负梯度作为残差：

其中，D_jh为第h棵回归树叶子节点的个数。

1-3.10)对强分类器进行更新：

1-3.11)重复步骤1-3.7)-1-3.10)200次。

1-3.12)获得最终分类器

1-4)结束，完成Spark批处理应用执行时间预测模型的构建。

2.即席应用执行时间的类别匹配及预测

2-1)初始化：选取随机森林算法(RF)作为Spark即席应用来预测其执行时间。

2-1.1)将该应用运行在一组小规模输入数据集DS＝{100MB,200MB，300MB，400MB}下，对于每个输入数据集，分别收集Spark批处理应用执行时间分类方法的特征指标。

2-1.2)分别计算上述指标的均值作为最终的特征指标，结果如表6所示：

表6各特征指标均值

指标	均值
		MIA	0.27
OIA	0.6
		NO	34
WDOR	0.18
		NDOR	0.82

2-2)即席应用执行时间分类：执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-2.4)，对于分类方法中各个类簇的中心点O_j分别根据(14)计算距离d(P，O_j)。最终，将使距离d(P，O_j)最小的类别j作为该应用的类别：

预测点距离各类簇的中心点距离如表7所示：

表7预测点距离各类簇的中心点距离

类簇中心点	距离
		O<sub>1</sub>	0.27
O<sub>2</sub>	0.6
		O<sub>3</sub>	12

因此，RF的执行时间与O₁所在类簇为同一类。

2-3)即席应用执行时间预测：执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-3)，完成即席应用的执行时间预测。在固定输入数据规模为2G，内存资源为3G，CPU资源为3cores下，RF的预测执行时间为1020s。

2-4)结束，完成即席应用执行时间的类别匹配及预测。

根据本发明所提出的基于分类的Spark批处理应用执行时间预测模型，发明人对预测的准确度做了相关的测试。验证结果表明，与传统预测模型相比，采用本发明方法，可以达到更高的预测精度。

测试以均方根误差和平均绝对百分误差为指标，体现本发明提出的Spark批处理应用执行时间预测模型的预测精度。性能测试运行于5个节点构成的集群***，节点的硬件配置包括：Intel(R)Xeon(R)CPU [email protected]的CPU、16GB DDR3RAM、1TB SATA硬盘，节点间采用千兆以太网互连，操作***为Centos6.5。实验选用随机森林算法(RF)，交替最小二乘(ALS)，支持向量机(SVM)，词频统计(Wordcount)以及K均值聚类(Kmeans)作为Spark应用来评价本发明在变化输入数据规模与资源配置下的性能。

针对预测模型准确性的测试

通过发明内容所述方法计算Spark批处理应用的均方根误差和平均绝对百分误差。本实验选取随机森林算法(RF)，交替最小二乘(ALS)，支持向量机(SVM)，词频统计(Wordcount)以及K均值聚类(Kmeans)作为Spark应用来评价本发明在变化输入数据规模与资源配置下的性能。首先在改变输入数据规模和资源配置的前提下，进行本发明与KNN、SVM、LR算法的性能对比，测试结果如表3,4所示；然后在固定输入数据规模与资源配置前提下，对本发明与无分类前提下、无PCA前提下的预测模型进行性能对比，测试结果如图6,7所示。

首先在固定资源量下，改变应用的输入数据规模分别为500MB，1GB，2GB，4GB，进行若干次实验，得到各评价指标值如表8所示。

表8不同预测模型在改变输入数据规模下的预测精度

由表8可知，在固定资源配置、变换输入数据规模的条件下，本发明在所有测试应用的各组数据集上均比KNN获得了较低的RMSE和MAPE，经计算可得，与KNN相比，本发明使得RMSE和MAPE最大降低25.7％和28.5％。

然后在固定输入数据规模与CPU资源下，改变应用的内存资源分别为1G，2G，3G，进行若干次实验，得到各评价指标值如表9所示。

表9不同预测模型在改变内存资源下的预测精度

由表9可知，固定输入数据规模与CPU资源下，改变内存资源的条件下，本发明在所有测试应用的各组数据集上均比SVM和LR获得了较低的RMSE和MAPE，经计算可得，与SVM和LR相比，本发明使得RMSE和MAPE最大降低50.1％和47％。

最后在固定输入数据规模与内存资源下，改变应用的CPU资源分别为2cores，3cores，6cores，进行若干次实验，得到各评价指标值如表10所示。

表10不同预测模型在改变CPU资源下的预测精度

由表10可知，在固定输入数据规模与内存资源，改变CPU资源的条件下，本发明在所有测试应用的各组数据集上均比SVM和LR获得了较低的RMSE和MAPE，经计算可得，与SVM和LR相比，本发明使得RMSE和MAPE最大降低47.2％和41.3％。

接下来本发明在固定输入数据规模与资源配置下，验证本发明与无分类前提下的预测模型PG(PCA-GBDT)、无PCA前提下的预测模型MSRG(Mean Shift-Random-GBDT)的性能对比，得到各评价指标值如图7、8所示。由图7,8可知，在相同输入数据规模与资源配置下，与PG和MSRG相比，本发明均获得了更低的RMSE和MAPE。与PG相比，本发明使得RMSE和MAPE最大降低39.6％和35.5％；与MSRG相比，本发明使得RMSE和MAPE最大降低42.5％和37.7％。

综上所述，不管是KNN、SVM、LR模型，还是未分类前提下的PCA-GBDT模型、未PCA下的MSRG模型，本发明的预测精度均高于上述预测模型。实际结果表明，与上述预测模型相比，本发明可使得均方根误差和平均绝对百分误差平均降低32.1％和33.9％。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何本发明而并非限制本发明所描述的技术，而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向Spark的批处理应用执行时间预测模型构建方法，其特征在于，执行过程分为2个阶段：

1)Spark批处理应用执行时间预测模型的构建

1-1)初始化

1-1.1)根据Spark批处理应用的计算特征和对资源使用的特征分别在应用层和***层选取影响Spark批处理应用执行时间的备选指标；

T＝{(x₁₁，x₁₂，...x_1n，y₁)，...(x_m1，x_m2，...x_mn，y_m)} (1)

其中x_ij表示第i个样本的第j个特征属性的特征值，m是样本的个数，n是特征指标的个数，y_i表示在特征集{x_i1，x_i2，...x_in}下的应用执行时间；

1-2)Spark批处理应用执行时间分类

1-2.1)用斯皮尔曼相关系数从备选指标中选择与应用执行时间强相关性的指标；计算公式如(2)所示：

其中m表示样本的数量，d_i＝α_i-β_i，其中元素α_i、β_i分别表示某种指标的第i个指标值在此指标集中的排行和第i条样本的执行时间在执行时间集合中的排行；

1-2.2)定义数据点P＝(p₁，p₂，...，p_n)；其中p₁…p_n是应用执行时间的强相关指标；

其中P_ej和P_fj分别表示数据点P_e和P_f的第j个指标值，s_j为两个数据点间第j个特征值的标准差；

1-2.4)选用均值漂移聚类算法对Spark批处理应用的执行时间进行分类：

1-2.4.1)在未被分类的数据点中随机选择一个点作为中心O＝RandomSelect(s)；

1-2.4.2)找出离中心点距离在半径值r之内的所有点，记做集合R，认为这些点属于簇c，Q_r＝{s:Distance(s,pre)<r}；

其中，Q_r是以O为中心点，半径为r的高维球区域；num是包含在Q_r范围内点的个数；x_i是包含在S_r范围内的点；

1-2.4.4)将中心点移动到偏移均值位置O^z+1＝R^z+O^z

其中，R^z为z状态下求得的偏移均值；O^z为z状态下的中心；

1-2.4.5)重复步骤1-2.4.1)-1-2.4.4)，直到偏移向量的大小大于0.01，记住此时的中心点；

1-2.4.6)重复1-2.4.1)-1-2.4.5)，直到所有的点都被归类；

1-2.4.7)根据每个类，对每个点的访问频率，取访问频率最大的那个类，作为当前点集的所属类；

1-2.4.8)从小到大变化r值，重复步骤1-2.4.1)到1-2.4.7)，直到寻找到能够使评价函数E最小的分类方式，计算方法如(4)：

其中，P_c表示类簇c的某个数据点，O_c表示类簇c的中心点，k为类簇个数；

1-3)Spark批处理应用执行时间预测

1-3.1)根据Spark应用执行流程来筛选出所有可能影响应用执行时间的参数；

1-3.2)变化应用的输入数据规模以及配置参数的组合，寻找在当前输入数据规模以及配置参数下，该批处理应用的执行时间；模型中训练样本集的形式化定义如下：对于每一类应用L，样本数据集表示为：

T_L＝{(x₁₁，x₁₂，...x_1n，y₁)，...(x_m1，x_m2，...x_m)} (5)

其中x_ij表示为类别L中第i个样本的第j个特征属性的取值，m是样本的个数，n是特征指标的个数，y_i表示在特征取值{x_i1，x_i2，...x_in}下的应用执行时间；

选用PCA对影响Spark批处理应用执行时间的因素进行主成分提取：

其中，B_ij为标准化后数据，θ_ij为原始数据，

为第j个指标的平均值，S_j为第j个指标的标准差；

1-3.4)计算标准化后n个指标的两两相关矩阵；

1-3.5)求取相关矩阵的特征根μ_j，特征向量，贡献率w_j和累计贡献率z_j；

贡献率是相关矩阵中第j大的特征值占全部相关矩阵特征值总和的比重，计算公式为：

累计贡献率是相关矩阵中前j个特征值的和与相关矩阵中全部特征值的和的比值，这个值越大，说明前j个成分越能充分代表原始数据的信息；计算公式为：

1-3.6)将特征向量按对应特征值大小从上到下按行排列成矩阵选，取前j个指标，使其累积贡献率大于85％，则使用前j个综合指标代替原始的n个指标，达到数据降维的目的；

选用GBDT对Spark批处理应用的执行时间进行预测：

1-3.7)按照公式(9)初始化弱分类器：

其中，L(y_I，f(x))是定义的损失函数，m是样本个数；

1-3.8)对每个样本计算负梯度作为残差：

其中，D_jh为第h棵回归树叶子节点的个数；

1-3.10)对强分类器进行更新：

1-3.11)重复步骤1-3.7)-1-3.10)t次，t为回归树的个数；

1-3.12)获得最终分类器

1-4)结束，完成Spark批处理应用执行时间预测模型的构建；

2)即席应用执行时间的类别匹配及预测

2-1)初始化：

2-1.1)将该应用运行在一组小规模输入数据集DS＝{ds₁,ds₂,…}下，对于每个输入数据集ds_i，分别收集Spark批处理应用执行时间分类方法的特征指标；

2-1.2)分别计算上述指标的均值作为最终的特征指标；

2-2)即席应用执行时间分类：执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-2.4)，对于分类方法中各个类簇的中心点O_c分别根据公式(3)计算距离d(P，O_c)；最终，将使距离d(P，O_c)最小的类别c作为该应用的类别；

2-3)即席应用执行时间预测：执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-3)，完成即席应用的执行时间预测；

2-4)结束，完成即席应用执行时间的类别匹配及预测。