CN111126668A

CN111126668A - 基于图卷积网络的Spark作业时间预测方法和装置

Info

Publication number: CN111126668A
Application number: CN201911187393.0A
Authority: CN
Inventors: 李东升; 胡智尧; 赖志权; 梅松竹
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-05-08
Anticipated expiration: 2039-11-28
Also published as: CN111126668B

Abstract

本申请涉及一种基于图卷积网络的Spark作业时间预测方法和装置。所述方法包括：获取Spark作业的有向无环图，根据有向无环图中每个算子的操作信息，构建每个算子的多元向量，以此得到节点属性矩阵，将节点属性矩阵输入图卷积网络，输出算子执行时间，根据算子执行时间和每个算子实际执行时间，得到图卷积网络的损失函数，根据损失函数，反向传播训练图卷积网络，将节点属性矩阵输入训练好的图卷积网络，提取卷积层输出，得到算子的图状依赖关系的依赖特征值，提取Spark作业中的显式特征值，将显式特征值与依赖特征值进行拼接，得到样本特征，根据样本特征和损失函数训练得到预测模型，根据预测模型预测Spark作业时间。采用本方法能够提高时间预测的准确性。

Description

基于图卷积网络的Spark作业时间预测方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于图卷积网络的Spark作业时间预测方法和装置。

背景技术

大数据作业的编程者通过调节作业的配置参数(如计算任务的数量等)来优化作业的执行过程，最终减少作业完成时间。在众多的可选配置中存在一个最优的配置，在该最优配置下作业的完成时间是最少的。现有的预测方法会通过预测在不同配置下的作业完成时间来判别最优配置和次优配置。

目前主要有以下几种预测方法：(1)Ernest是一个数值拟合的建模方法。该方法分析了数据并行作业的执行过程中三种不同模式的网络通信过程，对机器数量、数据大小和作业完成时间之间的关系函数进行了建模。该关系函数的数学形式是固定的，但是其中的参数需要通过数据并行作业的样本数据来估计。Ernest采用非负最小二乘法来估计这些参数。这会对采集的样本有较高的要求。比如，如果要预测一个输入数据大小为100GB的大数据作业，Ernest会在不同输入数据大小的条件下测试这个作业的执行时间。这限制了Ernest的可用范围：如果要预测另一个作业的话，需要重新采集样本。因此，Ernest只能用于一个数据并行作业，而不是一类应用。(2)随机森林模型方法会分别对数据并行作业中的map任务和reduce任务分别建模。然而这一方法很难扩展到复杂的数据并行作业，比如Spark平台下的数据并行作业会涉及到除map、reduce以外的更多算子。而且，算子之间会有图状的依赖关系。(3)层级建模方法会用多个子模型来减小预测误差。每个子模型是一颗回归树模型。子模型之间是按照层级的方法组织。该层级建模方法不会像Ernest和随机森林方法那样分析数据并行作业的底层执行过程。层级建模方法会考虑Spark平台的各类配置参数，这些参数属于显示的特征；并没有充分考虑数据并行作业的执行过程。总的来说，上述预测模型预测的精度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决预测模型预测的精度低问题的基于图卷积网络的Spark作业时间预测方法和装置。

一种基于图卷积网络的Spark作业时间预测方法，所述方法包括：

获取Spark作业的有向无环图；

根据所述有向无环图中每个算子的操作信息，构建每个算子的多元向量，根据所述多元向量，得到节点属性矩阵；

将所述节点属性矩阵输入图卷积网络，输出算子执行时间，根据所述算子执行时间和每个算子实际执行时间，得到所述图卷积网络的损失函数；

根据所述损失函数，反向传播训练所述图卷积网络，将所述节点属性矩阵输入训练好的图卷积网络，提取卷积层输出，得到算子的图状依赖关系的依赖特征值；

提取Spark作业中的显式特征值，将所述显式特征值与所述依赖特征值进行拼接，得到样本特征；

根据所述样本特征和所述损失函数训练得到预测模型，根据所述预测模型预测Spark作业时间。

在其中一个实施例中，还包括：根据所述有向无环图中每个算子的算子类型、数据分区大小、内存资源数量、CPU核心数量以及计算任务数量，构建每个算子的多元向量；其中，所述算子类型采用词向量嵌入所述多元向量；将所述有向无环图中的算子按照宽度优先搜索进行拓扑排序，根据所述算子的排序结果，将所述多元向量进行拼接，得到节点属性矩阵。

在其中一个实施例中，还包括：计算所述算子执行时间和每个算子实际执行时间之差的平方和，得到所述图卷积网络的损失函数。

在其中一个实施例中，还包括：所述图卷积网络是基于传播规则的有向无环图卷积函数创建的图卷积神经网络；所述图卷积神经网络包括：有向无环图卷积层和回归层。

在其中一个实施例中，还包括：将所述节点属性矩阵输入训练好的图卷积网络，通过前向传播算法将图卷积网络的卷积层的输出取出，得到算子的图状依赖关系的依赖特征值。

在其中一个实施例中，还包括：提取Spark作业中的输入数据大小、分配给Spark作业的内存资源数量以及分配给Spark作业的计算资源数量作为显示特征值；将所述显式特征值和所述依赖特征值进行拼接，得到样本特征。

在其中一个实施例中，还包括：所述预测模型为采用贝叶斯正则化反向传播函数训练的全连接神经网络模型。

一种基于图卷积网络的Spark作业时间预测装置，所述装置包括：

隐式特征获取模块，用于获取Spark作业的有向无环图；根据所述有向无环图中每个算子的操作信息，构建每个算子的多元向量，根据所述多元向量，得到节点属性矩阵；将所述节点属性矩阵输入图卷积网络，输出算子执行时间，根据所述算子执行时间和每个算子实际执行时间，得到所述图卷积网络的损失函数；根据所述损失函数，反向传播训练所述图卷积网络，将所述节点属性矩阵输入训练好的图卷积网络，提取卷积层输出，得到算子的图状依赖关系的依赖特征值；

拼接模块，用于提取Spark作业中的显式特征值，将所述显式特征值与所述依赖特征值进行拼接，得到样本特征；

时间预测模块，用于根据所述样本特征和所述损失函数训练得到预测模型，根据所述预测模型预测Spark作业时间。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取Spark作业的有向无环图；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取Spark作业的有向无环图；

上述基于图卷积网络的Spark作业时间预测方法、装置、计算机设备和存储介质，通过从Spark作业的有向无环图中提取节点属性矩阵，从而通过图卷积网络分析算子之间的图状依赖关系作为隐式特征，然后结合Spark作业的显式特征，用于预测作业的完成时间，与传统的预测模型相对比，本发明结合隐式特征和显式特征的预测模型，可以实现更高的预测精确度。

附图说明

图1为一个实施例中基于图卷积网络的Spark作业时间预测方法的流程示意图；

图2为一个实施例中图卷积网络的示意性结构图；

图3为一个实施例中节点更新步骤的流程示意图；

图4为一个实施例中预测模块的结构示意图；

图5为一个实施例中基于图卷积网络的Spark作业时间预测装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于图卷积网络的Spark作业时间预测方法，该方法可以应用于终端，终端具备Spark平台的运行环境，在终端中执行基于图卷积网络的Spark作业时间预测方法时，包括以下步骤：

步骤102，获取Spark作业的有向无环图。

对于复杂的大数据作业来说，数据并行计算的过程不能一次达到处理数据的预期目的，在这种情况下，会把大数据作业分为包括多个计算阶段的数据并行作业，每个计算阶段包含一批并行的计算任务，计算阶段之间存在固定的执行顺序，前一计算计算的输出作为下一计算节点的输入，因此各个计算阶段之间固定的执行顺序称之为依赖关系，根据依赖关系，可以表示为一幅有向无环图(Directed acyclic graph，DAG)。

步骤104，根据有向无环图中每个算子的操作信息，构建每个算子的多元向量，根据多元向量，得到节点属性矩阵。

在有向无环图中，大数据作业会沿着代表数据流的有向边，被不同的计算阶段逐一处理，最终产生大数据分析结果，在每个计算阶段内部，数据被分区并且分发给一批并行执行的计算任务处理，这些计算任务会涉及到一系列的操作，例如，在Hadoop和Spark中的map、reduce操作等。这些操作称之为为算子，每个算子为有向无环图中的一个节点。

在节点属性矩阵中，每一行元素代表一个节点的所有属性值，属性值可以根据操作信息确定。

步骤106，将节点属性矩阵输入图卷积网络，输出算子执行时间，根据算子执行时间和每个算子实际执行时间，得到图卷积网络的损失函数。

图卷积网络对应的研究对象是图数据，因此便于对有向无环图进行研究。图卷积网络输出每个算子的算子执行时间。

步骤108，根据损失函数，反向传播训练图卷积网络，将节点属性矩阵输入训练好的图卷积网络，提取卷积层输出，得到算子的图状依赖关系的依赖特征值。

步骤110，提取Spark作业中的显式特征值，将显式特征值与依赖特征值进行拼接，得到样本特征。

Spark作业中的显式特征值指的是计算任务的数量、内存资源的数量等可以手动提取的特征。

步骤112，根据样本特征和损失函数训练得到预测模型，根据预测模型预测Spark作业时间。

上述基于图卷积网络的Spark作业时间预测方法中，通过从Spark作业的有向无环图中提取节点属性矩阵，从而通过图卷积网络分析算子之间的图状依赖关系作为隐式特征，然后结合Spark作业的显式特征，用于预测作业的完成时间，与传统的预测模型相对比，本发明结合隐式特征和显式特征的预测模型，可以实现更高的预测精确度。

在其中一个实施例中，构建节点属性矩阵的步骤包括：根据所述有向无环图中每个算子的算子类型、数据分区大小、内存资源数量、CPU核心数量以及计算任务数量，构建每个算子的多元向量，其中，算子类型采用词向量嵌入多元向量，将有向无环图中的算子按照宽度优先搜索进行拓扑排序，根据算子的排序结果，将多元向量进行拼接，得到节点属性矩阵。

在另一个实施例中，得到损失函数的步骤包括：计算算子执行时间和每个算子实际执行时间之差的平方和，得到图卷积网络的损失函数。

在其中一个实施例中，图卷积网络是基于传播规则的有向无环图卷积函数创建的图卷积神经网络，图卷积神经网络包括：有向无环图卷积层和回归层。

在其中一个实施例中，得到依赖特征值的步骤包括：将节点属性矩阵输入训练好的图卷积网络，通过前向传播算法将图卷积网络的卷积层的输出取出，得到算子的图状依赖关系的依赖特征值。

具体的，图卷积神经网络的结构如图2所示，第一层是DAG卷积层，在这一层，采用一个基于传播规则的DAG卷积函数创建图卷积神经网络，第二层是一个包含十个神经元(数量可以按需配置)的回归层，该图卷积神经网络的输入是节点属性矩阵，矩阵的每一行元素表示一个节点的所有属性值，具体是算子的类型、数据分区大小、内存资源数量、CPU核心数量以及计算任务数量，值得注意的是，算子的类型不是数值，因此进行词向量嵌入。

在DAG卷积层内，DAG中的节点属性会沿着DAG的依赖(即有向边)传输给邻居节点，这个传输过程被用于所有节点，当一个节点收到邻居节点的节点属性后，计算该节点的节点表示，在神经网络训练的每一个迭代过程里，一个节点的表示会不断更新，如图3所示，当第i个节点更新时，该节点所依赖的上游节点会把自身的节点属性发送给第i个节点，第i个节点可以由如下公式表示：

其中，ν_i表示第i个节点表示，Θ表示DAG卷积层的网络参数，Ni表示第i个节点的依赖节点集合，ci_j表示归一化系数，其值为

D％表示对角矩阵D和单位矩阵I的和。由此可以看出，上述迭代过程的复杂程度与DAG的边数有关。

节点属性矩阵被DAG卷积层处理后，通过DAG卷积层的前向传播函数，节点的属性和DAG依赖等信息被转化为节点的表示，该节点表示即需要得到的DAG中隐藏的特征，当DAG卷积层训练好之后，可以得到图状依赖关系的依赖特征值。

对于训练的过程，在图卷积神经网络中，DAG卷积层的输出作为一个回归层的输入，回归层将DAG的节点表示映射为对应算子的执行时间，记为T_op。回归层的作用是为了建模算子映射到执行时间的函数关系。图卷积神经网络的输出是T_out，在训练是图卷积神经网络的过程中，采用∑_i∈N(T_out-T_op)²作为损失函数，训练的过程采用标准的随机梯度下降算法更新网络参数。

在其中一个实施例中，得到样本特征的步骤包括：提取Spark作业中的输入数据大小、分配给Spark作业的内存资源数量以及分配给Spark作业的计算资源数量作为显示特征值，将显式特征值和依赖特征值进行拼接，得到样本特征。

在其中一个实施例中，预测模型为采用贝叶斯正则化反向传播函数训练的全连接神经网络模型。

具体的，进行Spark作业时间预测的预测模块包括了图卷积神经网络和全连接神经网络模型，具体结构如图4所示，利用图卷积神经网络获取DAG中包含的隐式特征(依赖特征值)，然后DAG的隐式特征和其他显式特征一起输入给预测模型，预测期用于预测数据并行作业的完成时间，该预测器采用了全连接神经网络模型，包含一个输入层、五个隐藏层(可以按需配置个数)以及一个输出层，在输出层内，仅需要用到一个神经元，其输出为作业完成时间的预测值，神经元之间采用全连接的方式，采用贝叶斯正则化反向传播函数训练全连接神经网络模型。

应该理解的是，虽然图1流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于图卷积网络的Spark作业时间预测装置，包括：隐式特征获取模块502、拼接模块504和时间预测模块506，其中：

隐式特征获取模块502，用于获取Spark作业的有向无环图；根据所述有向无环图中每个算子的操作信息，构建每个算子的多元向量，根据所述多元向量，得到节点属性矩阵；将所述节点属性矩阵输入图卷积网络，输出算子执行时间，根据所述算子执行时间和每个算子实际执行时间，得到所述图卷积网络的损失函数；根据所述损失函数，反向传播训练所述图卷积网络，将所述节点属性矩阵输入训练好的图卷积网络，提取卷积层输出，得到算子的图状依赖关系的依赖特征值；

拼接模块504，用于提取Spark作业中的显式特征值，将所述显式特征值与所述依赖特征值进行拼接，得到样本特征；

时间预测模块506，用于根据所述样本特征和所述损失函数训练得到预测模型，根据所述预测模型预测Spark作业时间。

在其中一个实施例中，隐式特征获取模块502还用于根据所述有向无环图中每个算子的算子类型、数据分区大小、内存资源数量、CPU核心数量以及计算任务数量，构建每个算子的多元向量；其中，所述算子类型采用词向量嵌入所述多元向量；将所述有向无环图中的算子按照宽度优先搜索进行拓扑排序，根据所述算子的排序结果，将所述多元向量进行拼接，得到节点属性矩阵。

在其中一个实施例中，隐式特征获取模块502还用于计算所述算子执行时间和每个算子实际执行时间之差的平方和，得到所述图卷积网络的损失函数。

在其中一个实施例中，隐式特征获取模块502中涉及的图卷积网络是基于传播规则的有向无环图卷积函数创建的图卷积神经网络；所述图卷积神经网络包括：有向无环图卷积层和回归层。

在其中一个实施例中，隐式特征获取模块502还用于将所述节点属性矩阵输入训练好的图卷积网络，通过前向传播算法将图卷积网络的卷积层的输出取出，得到算子的图状依赖关系的依赖特征值。

在其中一个实施例中，拼接模块504还用于提取Spark作业中的输入数据大小、分配给Spark作业的内存资源数量以及分配给Spark作业的计算资源数量作为显示特征值；将所述显式特征值和所述依赖特征值进行拼接，得到样本特征。

在其中一个实施例中，时间预测模块506中涉及的预测模型为采用贝叶斯正则化反向传播函数训练的全连接神经网络模型。

关于基于图卷积网络的Spark作业时间预测装置的具体限定可以参见上文中对于基于图卷积网络的Spark作业时间预测方法的限定，在此不再赘述。上述基于图卷积网络的Spark作业时间预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于图卷积网络的Spark作业时间预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图卷积网络的Spark作业时间预测方法，所述方法包括：

获取Spark作业的有向无环图；

2.根据权利要求1所述的方法，其特征在于，根据所述有向无环图中每个算子的操作信息，构建每个算子的多元向量，根据所述多元向量，得到节点属性矩阵，包括：

根据所述有向无环图中每个算子的算子类型、数据分区大小、内存资源数量、CPU核心数量以及计算任务数量，构建每个算子的多元向量；其中，所述算子类型采用词向量嵌入所述多元向量；

将所述有向无环图中的算子按照宽度优先搜索进行拓扑排序，根据所述算子的排序结果，将所述多元向量进行拼接，得到节点属性矩阵。

3.根据权利要求1所述的方法，其特征在于，根据所述算子执行时间和每个算子实际执行时间，得到所述图卷积网络的损失函数，包括：

计算所述算子执行时间和每个算子实际执行时间之差的平方和，得到所述图卷积网络的损失函数。

4.根据权利要求1所述的方法，其特征在于，所述图卷积网络是基于传播规则的有向无环图卷积函数创建的图卷积神经网络；所述图卷积神经网络包括：有向无环图卷积层和回归层。

5.根据权利要求1至4任一项所述的方法，其特征在于，将所述节点属性矩阵输入训练好的图卷积网络，提取卷积层输出，得到算子的图状依赖关系的依赖特征值，包括：

将所述节点属性矩阵输入训练好的图卷积网络，通过前向传播算法将图卷积网络的卷积层的输出取出，得到算子的图状依赖关系的依赖特征值。

6.根据权利要求1至4任一项所述的方法，其特征在于，提取Spark作业中的显式特征值，将所述显式特征值与所述依赖特征值进行拼接，得到样本特征，包括：

提取Spark作业中的输入数据大小、分配给Spark作业的内存资源数量以及分配给Spark作业的计算资源数量作为显示特征值；

将所述显式特征值和所述依赖特征值进行拼接，得到样本特征。

7.根据权利要求1至4任一项所述的方法，其特征在于，所述预测模型为采用贝叶斯正则化反向传播函数训练的全连接神经网络模型。

8.一种基于图卷积网络的Spark作业时间预测装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。