CN108182109A

CN108182109A - 一种云环境下的工作流调度与数据分配方法

Info

Publication number: CN108182109A
Application number: CN201711468801.0A
Authority: CN
Inventors: 陈羽中; 黄启成; 郭文忠
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-06-19
Anticipated expiration: 2037-12-28
Also published as: CN108182109B

Abstract

本发明涉及云计算技术领域，特别是一种云环境下的工作流调度与数据分配方法，包括如下步骤：获取云平台当前的工作流；根据调度模型计算工作流中每个任务的高度，并按照高度升序排列任务；使用粒子群优化算法，以工作流的执行时间以及执行成本为优化目标，获得全局最优的粒子编码；将全局最优的粒子编码解码成工作流调度与数据分配方案并输出。该方法考虑了数据存储，减少了跨节点之间的传输时间，优化了云平台中工作流的任务执行效率和执行成本。

Description

一种云环境下的工作流调度与数据分配方法

技术领域

本发明涉及云计算(IaaS)技术领域，特别是一种云环境下的工作流调度与数据分配方法。

背景技术

云计算作为一种以商业为主要推动力的计算模型和服务模式，从云提供商的角度来看，它是将计算资源作为一种服务的形式，通过网络提供给用户，而用户则可以方便地按照自己的需求租赁所需的计算资源，无需了解其具体的细节。云调度指在云平台下对用户提交的工作流进行资源分配与部署，是云计算操作***的核心任务。调度问题是云计算中的一个重要问题，直接关系到用户的满意程序和运营成本。因此，对云计算调度问题的研究无论从理论技术和实际应用方面都具有非常重要的意义。

一般来说，云工作流调度过程中，云服务提供商需要保证用户的服务质量(Quality of Servic,QoS)需求。其中主要的QoS需求包括完成时间、使用费用、数据存储等。完成时间和费用往往是工作流调度中用户关注的主要目标，因此现有的工作流调度算法主要从时间和费用两方面进行研究。

云工作流调度是一个NP完全问题，已有许多启发式算法被提出，这类算法根据制定的规则，首先对任务进行排序，然后逐个给任务分配当前最合适的资源。这类算法虽然能在较短的时间内找出可行的调度方案，但是寻找的是局部最优解，只要定制的启发式不变，最终得出的调度方案也保持不变，这类结果虽然能够满足用户约束的需求，但是仍有较大的优化空间。还有一类研究使用随机搜索算法来解决调度问题。与启发式不同，随机搜索算法通过在解集空间只能怪随机寻找调度方案，通过设置不同的参数来改进最终搜索的结果。由于算法的随机性，每次的结果有优有劣，经过多次执行有可能找到满足应用要求的较优调度方案，然而这类算法的执行时间远高于启发式算法，因此存在效率问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种云环境下的工作流调度与数据分配方法，该方法有利于提高云平台中的工作流调度效率和成本优化。

为实现上述目的，本发明的技术方案是：一种云环境下的工作流调度与数据分配方法，包括如下步骤：

步骤A：获取云平台当前的工作流；

步骤B：根据调度模型计算工作流中每个任务的高度，并按照高度升序排列任务；

步骤C：使用粒子群优化算法，每个粒子表示一种工作流调度与数据分配方案，以工作流的执行时间以及执行成本为优化目标，获得全局最优的粒子编码；

步骤D：将全局最优的粒子编码解码成工作流调度与数据分配方案并输出。

进一步地，所述步骤B中，计算工作流中每个任务的高度并按照高度升序排列任务，包括以下步骤：

步骤B1：构造工作流的有向无环图G，方法为：

工作流由n个相互依赖的任务T＝{T₁,T₂,…,T_n}构成，采用有向无环图G＝(V,E)表示，其中V表示节点集合，V＝T，E表示边集合，E＝{e_ij|T_i∈T∧T_j∈T∧T_i∈pred(T_j)}；其中任务T_j的直接前驱任务的集合表示为pred(T_j)，直接后续任务的集合表示为succ(T_j)，只有当pred(T_j)中的任务全部执行完成并且数据传输到任务T_j所在的虚拟机时，任务T_j才开始执行，没有前驱任务的任务节点称为开始任务T_entry，没有后继任务的任务节点称为结束任务T_exit；T_i∈pred(T_j)表示任务T_i是任务T_j的直接前驱任务，即任务T_j是任务T_i的直接后继任务，任务T_j依赖于任务T_i；e_ij表示任务T_i和任务T_j间的边，e_ij的值代表任务T_i需传输给任务T_j的数据量大小；

步骤B2：从工作流的开始任务T_entry出发，遍历工作流的有向无环图G，计算每个任务T_i的初始高度Height_init(T_i)；

步骤B3：从工作流的结束任务T_exit出发，遍历工作流的有向无环图G，计算每个任务T_i的高度Height(T_i)；

步骤B4：根据每个任务T_i的高度Height(T_i)，按照高度升序排列任务，构成任务的拓扑顺序。

进一步地，所述步骤B2中，任务T_i的初始高度Height_init(T_i)的计算方法如下：

进一步地，所述步骤B3中，任务T_i的高度Height(T_i)的计算方法如下：

其中，表示产生位于区间范围内的随机整数；

通过计算工作流中每个任务T_i的高度Height(T_i)，从而确定任务T_i执行的顺序，然后根据任务的高度升序排列，构成任务的拓扑顺序，该顺序是保持任务之间优先级约束的线性顺序。

进一步地，所述步骤C中，使用粒子群优化算法，以工作流的执行时间以及执行成本为优化目标，获得全局最优的粒子编码，包括以下步骤：

步骤C1：初始化粒子群，设置粒子群算法参数，包括粒子数量、惯性因子、认知能力因子、社会学习因子、迭代次数、种群规模、粒子维数、粒子速度控制范围；

步骤C2：计算粒子群中每个粒子的适应度值，根据粒子的适应度值，记录个体历史最优粒子和种群最优粒子；

步骤C3：根据更新策略，更新每个粒子的速度和位置，并计算更新后的粒子适应度值；

步骤C4：判断是否满足最大迭代次数，是则输出全局最优粒子编码，结束迭代，否则返回步骤C2，继续迭代。

进一步地，所述步骤C1中，初始化粒子群，粒子的编码方式如下：

X_i＝{x_i,1,x_i,2,…,x_i,N}是粒子群X中的第i个粒子，表示工作流调度问题的第i个调度方案，N是工作流所包含的元素数量，工作流元素包括构成工作流的任务和数据，X_i的每一维表示工作流元素与服务节点的映射关系，x_i,j的值表示该工作流元素所在的虚拟机的序号，即将工作流的第j个元素分配到序号为x_i,j的虚拟机，虚拟机的序号的取值范围为[1,m]，m为云平台中的虚拟机节点数。

进一步地，所述步骤C2中，粒子群中粒子的适应度值的计算方法如下：

fitness＝α.T_total+β.C_total

其中，α、β表示权重系数，T_total表示工作流执行的时间代价，C_total表示工作流执行的成本代价，具体定义如下：

C_total＝Cost_exe(G)+Cost_tx(G)

其中，工作流执行的时间代价T_total定位为从用户提交一个工作流到获得执行结果的总时间，即结束任务T_exit的完成时间工作流执行的成本代价C_total包括工作流的任务处理代价Cost_exe(G)和数据传输代价Cost_tx(G)。

进一步地，工作流执行的时间代价T_total的计算方法如下：

首先定义工作流中的任务T_i的任务开始时间和任务完成时间分别为ST_i和FT_i，则ST_i定义如下：

其中VM(T_i)表示任务T_i所分配的虚拟机的序号，表示和任务T_i分配到同一个虚拟机(即VM(T_k)＝VM(T_i))且是最晚先于任务T_i被虚拟机调度执行的任务T_k(即T_k→T_j)的任务完成时间；表示传输任务T_i所需的全部数据所需的时间；TRT_ji为任务T_j存在任务T_i所需的数据D_ji时的数据传输时间，定义如下：

其中，VM(T_j)表示任务T_j所分配的虚拟机的序号，VM(D_ji)表示数据D_ji所放置的虚拟机的序号，表示任务T_j所分配的虚拟机与数据D_ji所放置的虚拟机之间的链路带宽；表示数据D_ji所放置的虚拟机与任务T_i所分配的虚拟机之间的链路带宽；

根据ST_i的定义，FT_i定义为：

其中为任务T_i在虚拟机vm_j上被调度执行后的执行时间；

根据上述定义，当一个工作流的任务被调度之后，工作流的执行时间就等于结束任务T_exit的完成时间，即：

工作流的任务处理代价Cost_exe(G)的计算方法如下：

其中，VM(T_i)表示任务T_i分配的虚拟机的序号，表示任务T_i在分配的虚拟机VM(T_i)上的处理代价，工作流的任务处理代价Cost_exe(G)即为构成工作流的各个任务的处理代价之和；的具体定义如下：

假定VM(T_i)＝j，则

其中，DS_i表示任务T_i的数据大小，PS_j表示虚拟机vm_j的处理能力，RC_j表示虚拟机vm_j的租赁费用；

工作流执行过程中各个任务间的数据传输代价Cost_tx(G)的计算方法如下：

其中VM(T_i)表示任务T_i分配的虚拟机的序号，VM(D_ij)表示数据D_ij所放置的虚拟机的序号，D_ij是任务间的数据传输矩阵D中的元素，表示任务T_i和任务T_j之间需要传输的数据的大小，单位为MB，数据传输矩阵D定义如下：

表示任务T_i所分配的虚拟机节点与数据D_ij所放置的虚拟机节点之间的数据链路的租赁价格，单位是$/MB；表示数据D_ij所放置的虚拟机节点与任务T_j所分配的虚拟机节点之间的数据链路的租赁价格。

进一步地，所述步骤C3中，粒子位置的更新方法如下：

对于任务和虚拟机的分配问题，需要把粒子的位置转化为虚拟机节点的序号，因此在对粒子的位置进行更新时，采用取整的方法对粒子的位置进行离散值的转换：

其中，表示对实数x_ij向下取整。

相较于现有技术，本发明的有益效果是，综合考虑了工作流中任务的虚拟机分配、工作流中任务的执行顺序优化、工作流中任务的执行时间优化、工作流中任务的数据传输效率优化、工作流中任务的执行成本优化，给出了一种云环境下的工作流调度与数据分配方法，在提高云平台中的工作流调度效率的同时，优化了任务的执行成本和传输成本。

附图说明

图1是本发明实施例的实现流程图。

图2是本发明实施例中步骤B的实现流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

图1是本发明一种云环境下的工作流调度与数据分配方法的实现流程图。如图1所示，本发明方法，包括如下步骤：

步骤A：获取云平台当前的工作流。

步骤B：根据调度模型计算工作流中每个任务的高度，并按照高度升序排列任务。

图2是本发明实施例中步骤B的实现流程图，如图2所示，包括以下步骤：

步骤B1：构造工作流的有向无环图G，方法为：

工作流由n个相互依赖的任务T＝{T₁,T₂,…,T_n}构成，采用有向无环图G＝(V,E)表示，其中V表示节点集合，V＝T，E表示边集合，E＝{e_ij|T_i∈T∧T_j∈T∧T_i∈pred(T_j)}；其中任务T_j的直接前驱任务的集合表示为pred(T_j)，直接后续任务的集合表示为succ(T_j)，只有当pred(T_j)中的任务全部执行完成并且数据传输到任务T_j所在的虚拟机时，任务T_j才开始执行，没有前驱任务的任务节点称为开始任务T_entry，没有后继任务的任务节点称为结束任务T_exit；T_i∈pred(T_j)表示任务T_i是任务T_j的直接前驱任务，即任务T_j是任务T_i的直接后继任务，任务T_j依赖于任务T_i；e_ij表示任务T_i和任务T_j间的边，e_ij的值代表任务T_i需传输给任务T_j的数据量大小。

步骤B2：从工作流的开始任务T_entry出发，遍历工作流的有向无环图G，计算每个任务T_i的初始高度Height_init(T_i)。

任务T_i的初始高度Height_init(T_i)的计算方法如下：

步骤B3：从工作流的结束任务T_exit出发，遍历工作流的有向无环图G，计算每个任务T_i的高度Height(T_i)。

任务T_i的高度Height(T_i)的计算方法如下：

其中，表示产生位于区间范围内的随机整数。

步骤B4：根据每个任务T_i的高度Height(T_i)，确定每个任务T_i执行的顺序，然后按照高度升序排列任务，构成任务的拓扑顺序。该顺序是保持任务之间优先级约束的线性顺序。

步骤C：使用粒子群优化算法，每个粒子表示一种工作流调度与数据分配方案，以工作流的执行时间以及执行成本为优化目标，获得全局最优的粒子编码。具体包括以下步骤：

步骤C1：初始化粒子群，设置粒子群算法参数，包括粒子数量、惯性因子、认知能力因子、社会学习因子、迭代次数、种群规模、粒子维数、粒子速度控制范围。

初始化粒子群，粒子的编码方式如下：

X_i＝{x_i，1，x_i，2，...，x_i，N}是粒子群X中的第i个粒子，表示工作流调度问题的第i个调度方案，N是工作流所包含的元素数量，工作流元素包括构成工作流的任务和数据，X_i的每一维表示工作流元素与服务节点的映射关系，x_i，j的值表示该工作流元素所在的虚拟机的序号，即将工作流的第j个元素分配到序号为x_i，j的虚拟机，虚拟机的序号的取值范围为[1，m]，m为云平台中的虚拟机节点数。

步骤C2：计算粒子群中每个粒子的适应度值，根据粒子的适应度值，记录个体历史最优粒子和种群最优粒子。

粒子群中粒子的适应度值的计算方法如下：

fitness＝α·T_total+β·C_total

C_total＝Cost_exe(G)+Cost_tx(G)

工作流执行的时间代价T_total的计算方法如下：

云环境下，任务T_j和任务T_i间需要传输的数据D_ji可能放置在其他虚拟机节点上，因此VM(D_ji)可能不同于VM(T_i)；云环境下，位于同一物理节点的不同虚拟机节点之间的链路带宽较大，不同物理节点间的虚拟机节点之间的链路带宽较小，同一虚拟机内的链路带宽可认为是无穷大；

根据ST_i的定义，FT_i定义为：

其中为任务T_i在虚拟机vm_j上被调度执行后的执行时间；

根据上述定义，当一个工作流的任务被调度之后，工作流的执行时间就等于结束任务T_exit的完成时间，即：T_total＝FT_Texit；

工作流的任务处理代价Cost_exe(G)的计算方法如下：

假定VM(T_i)＝j，则

步骤C3：根据更新策略，更新每个粒子的速度和位置，并计算更新后的粒子适应度值。

其中，粒子位置的更新方法如下：

其中，表示对实数x_ij向下取整。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种云环境下的工作流调度与数据分配方法，其特征在于，包括如下步骤：

步骤A：获取云平台当前的工作流；

2.根据权利要求1所述的一种云环境下的工作流调度与数据分配方法，其特征在于，所述步骤B中，计算工作流中每个任务的高度并按照高度升序排列任务，包括以下步骤：

步骤B1：构造工作流的有向无环图G，方法为：

3.根据权利要求2所述的一种云环境下的工作流调度与数据分配方法，其特征在于，所述步骤B2中，任务T_i的初始高度Height_init(T_i)的计算方法如下：

4.根据权利要求3所述的一种云环境下的工作流调度与数据分配方法，其特征在于，所述步骤B3中，任务T_i的高度Height(T_i)的计算方法如下：

其中，表示产生位于区间范围内的随机整数；

5.根据权利要求1所述的一种云环境下的工作流调度与数据分配方法，其特征在于，所述步骤C中，使用粒子群优化算法，以工作流的执行时间以及执行成本为优化目标，获得全局最优的粒子编码，包括以下步骤：

6.根据权利要求5所述的一种云环境下的工作流调度与数据分配方法，其特征在于，所述步骤C1中，初始化粒子群，粒子的编码方式如下：

7.根据权利要求6所述的一种云环境下的工作流调度与数据分配方法，其特征在于，所述步骤C2中，粒子群中粒子的适应度值的计算方法如下：

fitness＝α.T_total+β.C_total

C_total＝Cost_exe(G)+Cost_tx(G)

8.根据权利要求7所述的一种云环境下的工作流调度与数据分配方法，其特征在于，工作流执行的时间代价T_total的计算方法如下：

根据ST_i的定义，FT_i定义为：

其中为任务T_i在虚拟机vm_j上被调度执行后的执行时间；

工作流的任务处理代价Cost_exe(G)的计算方法如下：

假定VM(T_i)＝j，则

9.根据权利要求5所述的一种云环境下的工作流调度与数据分配方法，其特征在于，所述步骤C3中，粒子位置的更新方法如下：对于任务和虚拟机的分配问题，需要把粒子的位置转化为虚拟机节点的序号，因此在对粒子的位置进行更新时，采用取整的方法对粒子的位置进行离散值的转换：

其中，表示对实数x_ij向下取整。