CN108989098B

CN108989098B - 一种混合云环境面向时延优化的科学工作流数据布局方法

Info

Publication number: CN108989098B
Application number: CN201810700970.0A
Authority: CN
Inventors: 林兵; 项滔; 卢宇; 黄志高; 陈星�; 郭文忠; 蔡飞雄
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2021-06-01
Anticipated expiration: 2038-08-24
Also published as: CN108989098A

Abstract

本发明公开一种混合云环境面向时延优化的科学工作流数据布局方法，考虑混合云环境下数据布局特点，结合科学工作流数据间的依赖关系，考虑云数据中心间的带宽、私有云数据中心个数和容量等因素对传输时延的影响；首先对其进行预处理操作，提高后期数据布局策略的执行效率；通过引入遗传算法的交叉算子和变异算子，避免粒子群优化算法的过早收敛问题，提高种群进化的多样性，有效压缩数据传输时延，有效降低混合云环境下的科学工作流数据传输时延。本发明提高数据布局策略的执行效率，优化科学工作流数据布局传输时延。

Description

一种混合云环境面向时延优化的科学工作流数据布局方法

技术领域

本发明涉及并行和分布式高性能计算领域的科学工作流数据布局方法，尤其涉及一种混合云环境面向时延优化的科学工作流数据布局方法。

背景技术

科学工作流***是一种数据密集型应用，已被广泛应用于天文、高能物理和生物信息等科学研究领域。科学工作流应用基于数据驱动，其计算任务节点之间存在复杂的数据依赖，且处理的数据集大小通常可达TB甚至PB量级。这些数据集包括已存在的原始输入数据集，以及处理分析过程中产生的中间数据集和最终数据集。由于科学工作流应用结构依赖复杂、数据量大等性质，其对部署环境的计算能力和数据存储方面有严格要求。网格等传统分布式环境，通常为某个具体科学应用研究而建设，它们之间的共享程度低，科学工作流部署在这样的环境中会造成严重的资源浪费。

云计算通过虚拟化技术将不同地理位置的资源虚拟成资源池，以即付即用的方式面向终端用户，其高效、灵活、高伸缩性、可定制的特点为科学工作流部署提供了一种经济解决方案。混合云计算环境通常包括一个公有云和多个私有云：公有云可以在科学工作流负载波动剧烈情况下保证资源供应，维护服务质量；私有云则可以为科学工作流隐私数据的安全性提供保障。随着大数据在科学应用领域重要性的增大，混合云环境下的科学工作流数据布局已成为科学研究领域的热点。在应急管理应用领域，存在大量并发的实例，对科学工作流数据布局的时延要求严格。然而，科学工作流隐私数据的固定数据中心存放，导致应用执行过程中需要进行大量跨数据中心的数据传输，TB甚至PB量级的数据集传输和数据中心之间的有限网络带宽形成巨大矛盾，造成传输时延严重。因此，研究混合云环境下合理的科学工作流数据布局方案，显得至关重要，具体体现为：(1)科学工作流应用结构依赖复杂、数据量大，混合云多数据中心环境下，合理的数据布局方案应保证单数据中心内部高内聚，数据中心之间低耦合，降低跨数据中心的数据传输时间开销。(2)出于安全性考虑，隐私数据被指定存放在特定私有云数据中心，由于私有云数据中心的容量有限，需要进行跨数据中心传输，如何在传输带宽有限和隐私数据固定存放限制下，考虑带宽因素的影响，优化数据传输时延，是科学工作流数据布局的一个挑战。(3)有效的数据布局方案，应在压缩数据传输时延前提下，兼顾数据中心资源的有效利用。

现有科学工作流数据布局工作主要基于聚类方法和智能方法。聚类方法主要考虑多个数据中心的负载均衡数据布局，有效利用数据中心资源。然而在混合云环境下，存在隐私数据的科学工作流需要一种单数据中心内部高内聚、数据中心之间低耦合的数据布局方式才能有效保障数据传输的低延时。传统基于负载均衡的聚类方法无法满足混合云环境下科学工作流的低延时数据布局要求。传统智能方法主要是基于遗传算法的数据布局策略，这些方法主要考虑负载均衡问题，且易陷入局部最优。现有研究方法主要针对优化数据布局过程中的跨数据中心传输次数和数据传输量展开，对数据传输时延的压缩研究较少，另外，传统研究方法尚未对数据中心之间的传输带宽差异进行充分讨论。因此，针对混合云环境下面向时延优化的科学工作流数据布局问题，目前研究工作尚未形成一个完整有效的解决方案。

发明内容

本发明的目的在于提供一种混合云环境面向时延优化的科学工作流数据布局方法。

本发明采用的技术方案是：

一种混合云环境面向时延优化的科学工作流数据布局方法，其包括以下步骤：

步骤1：基于混合云环境下科学工作流构建数据布局方案模型；

整个数据布局方案的定义为S＝(DS,DC,Map,T_total)，其中Map＝∪_{i＝1,2,...,|DS|}{＜dc_i,ds_k,dc_j＞}表示数据集DS到数据中心集DC的映射关系，T_total表示数据布局过程中跨数据中心的数据传输所造成的时间总开销；混合云环境下的时延优化的科学工作流数据布局问题形式化表示为公式(8)，

其中u_ij＝{0,1}表示数据集ds_j是否存放在数据中心dc_i上，如果是则u_ij的值为1，否则为0；T_total表示数据布局过程中跨数据中心的数据传输所造成的时间总开销。由于数据布局过程中，数据不断进行传输迁移，所以当某个私有云数据中心有新的数据放置时，就对其进行容量限定判断。其核心思想是追求时间总开销T_total最低，同时满足每个数据中心的存储容量限制。

步骤2：对科学工作流预处理，合并仅有一个相关任务的相邻数据集，减少数据集数量，提高数据布局算法的执行效率；

步骤3：初始化种群大小、最大迭代次数、惯性权重因子、认知因子，监督式随机生成初始种群；并初始化第一代粒子的自身历史最优粒子以及初始的种群全局最优粒子；这里需要注意，隐私数据的分位值为对应的固定数据中心编号；

步骤4：对预处理的数据集采用离散编码方式构建n维候选解粒子；

一个粒子代表混合云环境下科学工作流的一个数据布局方案，粒子i在第t次迭代的位置

如公式(11)所示。

每个粒子有n个分位，n代表经过预处理操作后的数据集数量；

表示第k个数据集在第t次迭代的存储位置，

取值是某个数据中心编号，即

步骤4：将数据布局结果与候选解粒子进行映射处理，获得跨数据中心传输时间和对应的数据布局方案；

步骤5：计算各个编码粒子的适应度，每个粒子设置为其自身历史最优粒子，并选取适应度值最小的可行解粒子作为种群全局最优粒子；

步骤6：基于粒子更新公式更新粒子，并重新计算每个更新粒子的适应度；

步骤7：更新粒子的自身历史最优粒子；

若更新粒子的适应度值小于其自身历史最优值，则将更新粒子设置为其自身历史最优粒子；反之，跳转到步骤9；

步骤8：更新种群全局最优粒子；

若更新粒子的适应度值小于种群全局最优粒子的适应度值，则将更新粒子设置为种群全局最优粒子；

步骤9：检查是否满足达到最大迭代次数的算法终止条件，当满足终止条件时，结束；反之，转到步骤6。

进一步地，步骤1中T_total的计算方法：

步骤1-1，映射<dc_i,ds_k,dc_j>表示数据集ds_k从源数据中心dc_i传输到目标数据中心dc_j，其数据传输时间T_transfer如公式(6)所示：

其中ds_k表示数据集，dc_i表示源数据中心，dc_j表示传输到目标数据中心，dc_i、dc_j均属于数据中心集DC；dsize_k表示数据集ds_k大小，band_ij表示数据中心dc_i和数据中心dc_j之间的网络带宽的带宽值；

步骤1-2，数据布局过程中跨数据中心的数据传输所造成的时间总开销T_total的计算公式如下：

其中e_ijk＝{0,1}表示数据布局过程中是否存在数据集ds_k从源数据中心dc_i传输到目标数据中心dc_j，如果存在则e_ijk的值为1，否则为0。

进一步地，步骤1-1中数据集ds_k＝<dsize_k,gt_k,lc_k,flc_k>，dsize_k是数据集大小，gt_k表示生成数据集ds_k的任务，lc_k表示数据集ds_k的存储位置，flc_k表示数据集ds_k的最终布局位置，gt_k和lc_k分别表示如下：

其中，DS_ini表示初表示始数据集，DS_gen表示生成数据集，初始数据集是科学工作流的原始输入，而生成数据集是科学工作流执行过程中产生的中间数据集，这些数据集往往成为其他任务的输入数据集，Task(ds_k)表示生成数据集ds_k的任务。数据集按照存放位置可分为DS_fix表示固定存放数据集(隐私数据集)和DS_flex任意存放数据集(非隐私数据集)，隐私数据集DS_fix只能存放在私有云数据中心DC_pri，fix(ds_k)表示指定存放隐私数据集的私有云数据中心编号。

进一步地，步骤1中数据中心集DC＝{DC_pub,DC_pri}，其中DC_pub,为公有云，DC_pri为私有云，均由多个数据中心构成；

数据中心集DC中编号为k的数据中心dc_k表示如下：

dc_k＝＜capacity_k,type_k＞ (1)

其中capacity_k表示数据中心dc_k的存储容量，存储在该数据中心上的数据集不能超过该容量。type_k＝{0,1}表示数据中心dc_k所属的云服务提供商，当type_k＝0时，dc_k属于公有云的数据中心，其只能存放非隐私数据；当type_k＝1时，dc_k属于私有云的数据中心，其能够存放隐私数据和非隐私数据。

进一步地，步骤2的具体步骤：

步骤2-1，记录科学工作流G所有任务和数据集的出度和入度；

步骤2-2，寻找‘单向数据割边’e_ij；

步骤2-3，当存在‘单向数据割边’e_ij，且ds_i和ds_j不全是隐私数据，则删除e_ij，合并ds_i和ds_j为新数据集ds_k并执行步骤2-2；当不存在‘单向数据割边’时，结束。

进一步地，步骤3中惯性权重因子w的调整机制根据当前粒子和全局最优粒子之间的差异程度来进行自适应调整；

其中div(X^t-1,gBest^t-1)表示当前粒子X^t-1和全局最优粒子gBest^t-1相同分位上存在不同取值的位数。

进一步地，步骤6中粒子的适应度的计算公式如下：

两个编码粒子为同类型粒子，选择跨数据中心数据传输时间较小的编码粒子，适应度函数定义如下：

两个编码粒子为可行解粒子和不可行解粒子的不同类型粒子组合，则适应度函数定义如下：

其中capacity_i表示数据中心dc_i的存储容量，u_ij＝{0,1}表示数据集ds_j是否存放在数据中心dc_i上，如果是则u_ij的值为1，否则为0。

进一步地，步骤7中更新粒子i的更新公式如下：

其中，其中C_g()和C_p()代表遗传算法的交叉算子，M_u()代表遗传算法的变异算子；

和gBest^t-1分别表示粒子在多次迭代后的个体最优位置和种群的全局最优位置；

表示粒子i在t时刻的位置，

表示粒子i在t-1时刻的位置。

进一步地，将更新粒子公式分解为惯性认知、个体认知和社会认知三个核心部分，则：

(1)将标准PSO算法结合遗传算法的变异操作得到粒子i在t时刻的惯性部分

的公式如下：

其中r₃是随机因子，取值范围(0,1)；w为惯性权重因子，w用于调节粒子对解空间的搜索能力，M_u()监督式随机选取编码粒子中的一个分位，随机改变该分位的数值，且该数值满足对应的取值范围，

表示粒子i在t时刻的位置，

表示粒子i在t-1时刻的位置；

(2)将标准PSO算法结合遗传算法的交叉操作分别得到粒子i在t时刻的个体认知部分和全局认知部分的公式如下：

其中c₁是个体认知因子，c₂是全局认知因子，

和gBest^t-1分别表示粒子在多次迭代后的个体最优位置和种群的全局最优位置；Cp()和Cg()表示交叉操作，Cp()和Cg()随机选择粒子的两个分位，与

或gBest^t-1相同分位之间的数值进行交叉；r₁和r₂是随机变量，取值范围是[0，1]，r₁和r₂用于加强迭代搜索过程中的随机性。

进一步地，个体认知因子c₁和全局认知因子c₂的设置为线性增减方式，公式(21)和公式(22)分别是c₁和c₂的更新机制。

其中

和

分别是自身认知因子c₁的设定初始值和最终值，

和

分别是种群认知因子c₂的设定初始值和最终值。当div(X^t-1)的较大时，说明当前粒子X^t-1和gBest^t-1之间差异较大，需要扩大搜索范围，所以应该增大w的权值，以保证粒子在更大范围内寻找问题解，避免过早陷入局部最优；否则，缩小搜索范围，减少w的权值，在小范围加速收敛过程，更快找到优化解。

进一步地，监督式随机包括以下两种情况：

情况1：编码粒子是可行解粒子，则选择的分位不包含隐私数据集所在分位；由于隐私数据集固定存放，所以不能改变该隐私数据集的存储位置。

情况2：编码粒子是不可行解粒子，则选择的分位为超负荷数据中心编码所对应的分位。一个不可行解粒子对应的数据布局方案，可能存在多个超负荷的数据中心，随机选择其中一个超负荷数据中心编码所对应的分位进行变异操作，有可能将不可行解粒子变异成可行解粒子。

本发明采用以上技术方案，考虑混合云环境下数据布局特点，结合科学工作流数据间的依赖关系，考虑云数据中心间的带宽、私有云数据中心个数和容量等因素对传输时延的影响；通过引入遗传算法的交叉算子和变异算子，避免粒子群优化算法的过早收敛问题，提高种群进化的多样性，有效压缩数据传输时延，有效降低混合云环境下的科学工作流数据传输时延。

本发明为了压缩科学工作流数据规模，首先对其进行预处理操作，提高后期数据布局策略的执行效率；避免传统解决NP-hard问题的粒子群优化算法的过早收敛问题，提高种群进化的多样性，优化科学工作流数据布局传输时延。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明的科学工作流示意图；

图2为本发明的科学工作流的数据布局实例之一；

图3为本发明的科学工作流的数据布局实例之二；图4为本发明的算法流程图；

图5为本发明的预处理过程的压缩‘单向数据割边’示意图；

图6为本发明的预处理前后的Epigenomics工作流结构；

图7为本发明的数据布局粒子编码示例图；

图8为本发明的个人认知因子和全局认知因子的交叉算子图；

图9为本发明的惯性部分的变异算子图

具体实施方式

如图1-7之一所示，本发明公开了一种混合云环境面向时延优化的科学工作流数据布局方法，下面结合附图对本发明进行详细说明。

1问题定义和分析

本节将对混合云环境下面向时延优化的科学工作流数据布局问题的相关概念进行定义，并结合实例进行问题分析。问题定义主要包括混合云环境、科学工作流，以及数据布局方案。

1.1问题定义

混合云DC＝{DC_pub,DC_pri}中主要包括公有云和私有云，无论是公有云还是私有云，均由多个数据中心构成。公有云数据中心DC_pub＝{dc₁,dc₂,...,dc_n}由n个数据中心构成，私有云数据中心DC_pri＝{dc₁,dc₂,...,dc_m}由m个数据中心构成。本文重点关注数据布局问题，因此仅关注数据中心的存储能力，忽略其计算能力。编号为i的数据中心dc_i表示如下：

dc_i＝＜capacity_i,type_i＞ (1)

其中capacity_i表示数据中心dc_i的存储容量，存储在该数据中心上的数据集不能超过该容量。type_i＝{0,1}表示数据中心dc_i所属的云服务提供商，当type_i＝0时，dc_i属于公有云的数据中心，其只能存放非隐私数据；当type_i＝1时，dc_i属于私有云的数据中心，其能够存放隐私数据和非隐私数据。另外，各个数据中心之间的带宽表示如下：

b_ij＝＜band_ij,type_i,type_j＞ (3)

其中对

且i≠j，b_ij表示数据中心dc_i和数据中心dc_j之间的网络带宽，band_ij是其带宽值。本文假设数据中心之间的带宽值可知，且不会产生波动。

科学工作流用有向无环图G＝(T,E,DS)来表示，其中T＝{t₁,t₂,...,t_r}表示包含r个任务的节点集合，E＝{e₁₂,e₁₃,...,e_ij}则表示任务之间数据依赖关系，而DS＝{ds₁,ds₂,...,ds_n}表示科学工作流的所有数据的集合。

每条数据依赖边e_ij＝(t_i,t_j)代表任务t_i和任务t_j之间存在数据依赖关系，其中任务t_i是任务t_j的直接先驱(父)节点，而任务t_j则是任务t_i的直接后继(子)节点。在科学工作流调度过程中，一个任务必须在其所有先驱节点都已被执行完毕后，该任务才能开始执行。在某个给定的代表科学工作流的有向无环图中，把没有先驱节点的任务称为‘入任务’，同理，把没有后继节点的任务称为‘出任务’。

对于某个子任务t_i＝<IDS_i,ODS_i>，其输入数据组成的集合是IDS_i，输出数据组成的集合是ODS_i。任务和数据之间的对应关系是多对多，即一个数据可被多个任务使用，一个任务执行时可能需要多个输入数据。

对于某个数据集ds_k＝<dsize_k,gt_k,lc_k,flc_k>，dsize_k是数据集大小，gt_k表示生成数据集ds_k的任务，lc_k表示数据集ds_k的存储位置，flc_k表示数据集ds_k的最终布局位置，gt_k和lc_k分别表示如下：

数据集按照来源可分为初始数据集DS_ini和生成数据集DS_gen，初始数据集是科学工作流的原始输入，而生成数据集是科学工作流执行过程中产生的中间数据集，这些数据集往往成为其他任务的输入数据集，Task(ds_k)表示生成数据集ds_k的任务。数据集按照存放位置可分为固定存放数据集(隐私数据集)DS_fix和任意存放数据集(非隐私数据集)DS_flex，隐私数据集只能存放在私有云数据中心DC_pri，fix(ds_k)表示指定存放隐私数据集ds_k的私有云数据中心编号。

数据布局的目的是在满足任务执行需求的前提下，最小化数据传输时间。任意一个任务执行需要满足两个条件：(1)该任务被调度到数据中心执行；(2)该任务所需的输入数据集都已在数据中心。由于向一个数据中心调度任务的时间远小于向该数据中心传输数据的传输时间，本文主要关注数据布局，而任务调度并非本文重点，因此假设将任务调度至传输时间开销最少的数据中心执行。整个数据布局方案的定义为S＝(DS,DC,Map,T_total)，其中Map＝∪_{i＝1,2,...,|DS|}{＜dc_i,ds_k,dc_j＞}表示数据集DS到数据中心DC的映射关系，某个映射<dc_i,ds_k,dc_j>表示数据集ds_k从源数据中心dc_i传输到目标数据中心dc_j，该过程产生的数据传输时间如公式(6)所示。T_total表示数据布局过程中跨数据中心的数据传输所造成的时间总开销，其定义如公式(7)所示。

基于以上相关定义，混合云环境下面向时延优化的科学工作流数据布局问题，可形式化表示为公式(8)，其核心思想是追求时间总开销T_total最低，同时满足每个数据中心的存储容量限制。

其中u_ij＝{0,1}表示数据集ds_j是否存放在数据中心dc_i上，如果是则u_ij的值为1，否则为0。由于数据布局过程中，数据不断进行传输迁移，所以当某个私有云数据中心有新的数据放置时，就对其进行容量限定判断。

1.2问题分析

图1是一个科学工作流示例，该科学工作流包含5个任务{t₁,t₂,t₃,t₄,t₅}，5个原始输入数据集{ds₁,ds₂,ds₃,ds₄,ds₅}和1个中间数据集{ds₆}组成，6个数据集的大小{dsize₁,dsize₂,dsize₃,dsize₄,dsize₅,dsize₆}分别是{3GB,5GB,3GB,3GB,5GB,8GB}，其中ds₄是隐私数据集，且必须存储在数据中心dc₂上。任务t₄的输入数据集为{ds₃,ds₄,ds₆}，由于ds₄是必须固定存放在数据中心dc₂上的隐私数据，所以t₄也必须在数据中心dc₂上执行。同样地，ds₅是必须存储在数据中心dc₃上的隐私数据集，t₅也必须在数据中心dc₃上执行。图2和图3分别是两种数据布局方案，dc₁是公有云数据中心，存储容量无限，而dc₂和dc₃是两个私有云数据中心，存储容量均为20GB，私有云数据中心间的带宽大约是公有云数据中心到私有云数据中心带宽的10倍，因此假设3个数据中心之间带宽的大小{band₁₂,band₁₃,band₂₃}分别是{10M/s,20M/s,150M/s}。

2是按照李学俊等人产生的数据布局方案，根据依赖矩阵划分模型，将公有数据集ds₁、ds₂和ds₃部署在公有云数据中心dc₁中，ds₆部署在私有云数据中心dc₂中，隐私数据集ds₄和ds₅各自部署在相关数据中心。形成的布局方案产生4次数据传输，27GB的数据传输量，跨数据中心传输时间约为1953秒。

3是最优数据布局方案，将公有数据集ds₁和ds₂部署在公有云数据中心dc₁中，ds₃和ds₆部署在私有云数据中心dc₃中。形成的布局方案产生5次数据传输，30GB的数据传输量，跨数据中心传输时间约为1023秒。虽然该布局方案在数据传输频率和数据传输量方面均超过李学俊等人，但跨数据中心传输时间明显优于前者，这主要是该方案综合考虑数据中心间传输带宽带来的影响。

传统的基于数据依赖破坏度的矩阵划分模型或负载均衡模型，将数据依赖度高的数据尽量划分到同一数据中心，可以有效降低数据中心之间的数据传输量，但这些方法未综合考虑不同数据中心之间的带宽差异带来的布局影响。因此，本文针对传统数据布局模型的不足，结合差异化带宽划分机制，设计一种基于GA-DPSO的数据布局策略，根据带宽和数据中心容量限制等因素，自适应地放置不同数据集，有效降低混合云环境下科学工作流数据布局的传输时延。

2基于GA-DPSO的数据布局策略

对于数据布局方案S＝(DS,DC,Map,T_total)，本文核心目的是寻找数据集DS到数据中心DC的最佳映射关系Map，使跨数据中心传输时间T_total最低。DS到DC的最佳映射寻找是一个NP-hard问题，且需要考虑混合云环境下不同数据中心之间的带宽差异。为压缩科学工作流数据规模，本文首先对其进行预处理操作，提高后期数据布局策略的执行效率；为避免传统解决NP-hard问题的粒子群优化算法的过早收敛问题，本文提出一种GA-DPSO算法，提高种群进化的多样性，优化科学工作流数据布局传输时延。以下内容依次介绍科学工作流预处理和基于遗传算法算子的自适应离散粒子群优化数据布局策略。

2.1科学工作流预处理

算法1:合并仅有一个相关任务的相邻数据集

procedure preProcess(G(T,E,DS))

1:记录科学工作流G所有任务和数据集的出度和入度

2:寻找‘单向数据割边’e_ij

3:如果存在‘单向数据割边’e_ij，且ds_i和ds_j不全是隐私数据，则删除e_ij，合并ds_i和ds_j为新数据集ds_k

4:反复执行步骤2，直到不存在‘单向数据割边’

end procedure

算法1主要介绍了基于科学工作流自身结构特点，合并仅有一个相关任务的相邻数据集的预处理过程伪代码。其中‘单向数据割边’的定义是：两个数据集ds_i和ds_j，ds_i的出度为1，ds_j的入度为1，两个数据集之间仅有一个相关任务，其结构如图3所示。当科学工作流存在‘单向数据割边’，且ds_i和ds_j不全是隐私数据，因此可以将ds_i和ds_j合并放置，如图5所示。对于某些存在大量‘单向数据割边’的科学工作流，如Epigenomics科学工作流，经过预处理后，可以大幅度减少数据集数量，从而提高后期数据布局算法的执行效率。图6展示了Epigenomics工作流在预处理前后的自身结构变化，经过预处理后，数据集数量压缩30％以上。

性质1科学工作流预处理策略可以压缩科学工作流数据集数量，提高算法执行效率，但可能会影响最终数据布局结果。

图5已经展示压缩科学工作流数据集数量实例，本文采用2.2.1小节介绍的基于数据集数量的离散编码方式，因此数据集数量的减少可以提高算法执行效率。图5中合并放置ds₅和ds₆，意味着ds₅和ds₆始终都放置在同一个数据中心。如果某个私有云数据中心的容量，只能存储ds₅或ds₆的其中一个数据集，则预处理后的数据布局结果与未预处理的数据布局结果将不同。

2.2基于遗传算法算子的自适应离散粒子群优化数据布局策略

PSO算法在1995年由Eberhart和Kennedy共同提出，是一种基于鸟群社会行为的群体随机优化算法。粒子是PSO中的重要概念，每个粒子代表问题的一个候选解，粒子在问题空间中移动和迭代更新，得到更优的粒子。粒子移动更新主要是调整它的速度和位置，速度和位置更新如公式(9)和公式(10)所示。

和

分别表示在第t次迭代时第i个粒子的速度和位置，为保证粒子在问题解空间中更新，需要定义限制粒子速度的最大粒子速度V_max。粒子的速度更新受粒子自身情况、粒子自身最佳历史位置以及种群历史最佳位置这三方面影响。惯性权重w直接影响算法的收敛性，调节粒子对解空间的搜索能力。

和gBest^t分别表示在第t次迭代后粒子i的自身历史最优位置和种群历史最佳位置。c₁和c₂是认知因子，分别表示对自身历史最优位置和种群历史最优位置的认知学习能力。r₁和r₂是两个随机因子，取值范围(0,1)，可以增加算法迭代过程中的搜索随机性，提高种群多样性。另外，为了判定粒子在问题空间不同位置的优劣性，需要定义适应度函数来评价。

传统PSO算法用于解决连续型问题，本文数据集到数据中心的数据布局是一种离散型问题，需要新的问题编码方式和适应度评价函数。针对传统PSO算法存在的过早收敛问题，需要一种新的粒子更新策略。另外，算法参数的设置直接影响算法执行过程的迭代次数和搜索能力。以下将从问题编码、适应度函数设置、粒子更新策略、算法参数设置等方面，详细介绍本文提出的GA-DPSO数据布局优化算法。

2.2.1问题编码

好的问题编码策略可以有效提高算法效率和搜索能力，问题编码主要考虑三个基本原则：完备性、非冗余性和健全性。

定义1(完备性)问题空间中的所有可行解，都能在编码空间中找到对应编码粒子。

定义2(非冗余性)问题空间中的某个候选解，在编码空间中只有唯一一个编码粒子与之对应。

定义3(健全性)编码空间中的任意编码粒子，都对应问题空间中的候选解。

要构建同时满足以上三个原则的问题编码具有挑战性。我们采用离散编码方式来构建n维的候选解粒子。一个粒子代表混合云环境下科学工作流的一个数据布局方案，粒子i在第t次迭代的位置

如公式(11)所示。

每个粒子有n个分位，n代表经过预处理操作后的数据集数量。

表示第k个数据集在第t次迭代的存储位置，具体取值是某个数据中心编号，即

这里需要注意，对于隐私数据集而言，无论如何迭代更新，其存储位置都是固定的，如图1中的数据集ds₄和ds₅，它们分别只能固定存储在dc₂和dc₃中。图7展示针对图1科学工作流所形成的图3数据布局所对应的问题编码方案，由于经过预处理操作，数据集由原来的6个压缩成5个，压缩成一个整体数据集的ds₅和ds₆都被存储在dc₃。

性质2离散编码策略满足非冗余性和完备性原则，但不满足健全性原则。

每个数据集最终存储在相应的数据中心上，都有对应的数据中心编号，一个数据集最终的存储位置只能在某个数据中心上，科学工作流某个数据布局方案对应一个n维粒子，每个分位的值就是对应的数据中心编号，一种布局方案只对应一个编码粒子，满足非冗余性原则。非隐私数据集可以在所有数据中心中选择存放，而对应的编码分位同样可以选择不同数据中心编号，每个数据集对应的编码分位值就是其指定存放的数据中心编号，每种布局方案都有对应的编码粒子，满足完备性原则。部分编码粒子无法满足现实的问题空间候选解，图7的数据集存放位置如果变为(1,2,2,2,2)，则除去ds₁外的所有数据集都被存储在dc₂，数据总量达到24GB，超过dc₂的20GB存储容量，造成数据布局方案不可行，因此不满足健全性原则。

2.2.2适应度函数

适应度函数是用来评价粒子的优劣性，一般情况下，适应度函数值较小的粒子性能较优。本文目的是减少科学工作流数据布局的跨数据中心数据传输时间，传输时间越小的粒子越优，因此可以直接定义适应度函数值就是等于粒子所对应数据布局方案的数据传输时间。然而，由于问题编码不满足健全性原则，即可能出现放置在某个数据中心的数据集超过该数据中心容量，因此需要对适应度函数区分定义。

定义4(可行解粒子)编码粒子所对应的数据布局策略满足数据中心容量限制要求，没有出现某个数据中心的数据集超过该数据中心容量。

定义5(不可行解粒子)编码粒子所对应的数据布局策略不满足数据中心容量限制要求，出现某个数据中心的数据集超过该数据中心容量。

本文分三种不同情况，比较两种编码粒子的适应度函数值。

情况1：两个编码粒子都是可行解粒子，选择跨数据中心数据传输时间较小的编码粒子，适应度函数定义如下：

情况2：两个编码粒子都是不可行解粒子，同样选择跨数据中心数据传输时间较小的编码粒子，通过后期的粒子更新操作，不可行解粒子有可能变成可行解粒子，而原先数据传输时间较小的编码粒子更有可能保持较小数据传输时间，适应度函数定义与公式(12)一致。

情况3：一个编码粒子是不可行解粒子，一个编码粒子是可行解粒子，毫无疑问地选择可行解粒子，适应度函数定义如下：

2.2.3粒子更新策略

如公式(9)所示，传统PSO包括三个核心部分：惯性、个体认知和社会认知。传统PSO基于连续空间的随机搜索，搜索空间都是局部慢慢扩大，容易过早收敛，陷入局部最优。为增强PSO的搜索能力，适用于离散型问题，同时使其可以探索更大范围的解空间，避免过早收敛问题，本文算法引入遗传算法的交叉和变异算子，改进公式(9)对粒子i在t时刻的更新操作如下：

其中C_g()和C_p()代表遗传算法的交叉算子，M_u()代表遗传算法的变异算子。

对于个体认知部分和社会认知部分，本文结合遗传算法的交叉算子思想，对公式(9)中相应的部分进行更新，其更新操作如公式(16)和(17)所示。

r₁、r₂是随机因子，取值范围(0,1)。C_p()(或C_g())随机选择编码粒子的两个分位，与

或

相同分位之间的数值进行交叉。图8是个人(社会)认知部分的交叉算子操作，随机选择编码粒子的两个交叉位置(ind₁和ind₂)，将旧粒子ind₁和ind₂分位之间的值替换成

在该区间上的值，形成新粒子。

性质3：交叉算子操作可能会将编码粒子从可行解变成不可行解，反之依然。

图7的编码粒子(1,1,3,2,3)是可行解，假设pBest粒子的编码是(2,3,2,2,3)，随机生成的交叉位置是1和2，因此交叉后形成的新编码粒子是(2,3,3,2,3)。新编码粒子将ds₂、ds₃、ds₅和ds₆放置在dc₃，ds₂、ds₃、ds₅和ds₆的数据量总和为21GB，而dc₃的数据中心容量只有20GB，因此新编码粒子为不可行解。同样的，不可行解粒子(2,3,3,2,3)，pBest编码粒子(2,2,1,2,3)，交叉位置是1和2，则可以生成新的可行解粒子(2,2,3,2,3)。

对于惯性部分，本文结合遗传算法的变异算子思想，对公式(9)中相应的部分进行更新，其更新操作如公式(18)所示。

r₃是随机因子，取值范围(0,1)。M_u()监督式随机选取编码粒子中的一个分位，随机改变该分位的数值，且该数值满足对应的取值范围。监督式随机就是在一定的分位范围内进行随机选取，主要有两种情况。

情况1：编码粒子是可行解粒子，则选择的分位不包含隐私数据集所在分位。由于隐私数据集固定存放，所以不能改变该隐私数据集的存储位置。

图7的编码粒子属于情况1，图9随机选择除了第四和第五分位(ds₄和ds₅所对应的分位)外的分位ind₁进行变异算子操作，ind₁分位上的值从3更新为2。

性质4：变异算子操作可能会将编码粒子从可行解变成不可行解，反之依然。

编码粒子(1,2,3,2,3)是可行解，随机选择第2分位变异，形成新的编码粒子(1,3,3,2,3)是不可行解，新编码粒子将ds₂、ds₃、ds₅和ds₆都放置在dc₃中，ds₂、ds₃、ds₅和ds₆的数据量总和为21GB，超过dc₃数据中心的20GB容量。同样的，不可行解粒子(1,3,3,2,3)，变异位置是2，则有可能生成新的可行解粒子(1,1,3,2,3)。

2.2.4粒子到数据布局结果的映射

算法2：编码粒子到数据布局结果的映射

算法2是编码粒子到数据布局结果映射的伪代码。该算法的输入包括科学工作流G＝(T,E,DS)、混合云环境数据中心DC和编码粒子X。首先，设置每个数据中心的初始存储量dc_cur(i)都为0，跨数据中心的传输时间为0(第1行)。初始化后，依次扫描粒子分位，按编码粒子每个分位的值，将数据集布局到对应数据中心，相应地，记录各个数据中心的当前存储量dc_cur(X[i])。当某个私有云数据中心的存储量超过其容量时，说明该编码粒子是不可行解粒子，停止操作并返回(第2-7行)。当编码粒子是可行解粒子，得到相应的数据集对应各个数据中心的布局，需要进一步计算跨数据中心传输时间。依次扫描科学工作流任务，查找任务t_j的输入数据集IDS_j对应的所有布局数据中心DC_j，计算任务放置在布局数据中心dc_k的输入数据传输时间Transfer_jk。选取输入数据传输时间最小的数据中心放置该任务，并叠加计算对应数据传输时间，形成最终的跨数据中心传输时间T_total，最后输出跨数据中心传输时间T_total和对应数据布局方案。

2.2.5参数设置

公式(9)中的惯性权重因子w决定速度的变化情况，它对PSO算法的搜索能力和收敛性有直接作用。当惯性权重因子w较大时，算法的全局搜索能力较强且不易收敛；否则，算法的局部搜索能力较强且容易收敛。公式(18)是经典的惯性权重因子调整机制，在算法运行初期，注重粒子的全局搜索能力和更大范围的问题解空间，随着后期迭代次数增加和搜索深入，粒子更注重局部搜索能力和收敛性。因此公式(18)的惯性权重因子w的值随着迭代次数的增加而线性递减。其中w_max和w_min分别是初始化时设定的惯性权重因子w最大值和最小值，iters_max和iters_cur分别是初始化时设定的最大迭代次数和当前的迭代次数。

公式(18)的惯性权重因子是基于迭代次数而进行线性递减调整，不能很好满足本文的非线性数据布局问题，因此需要设计一种可以根据当前粒子优劣来自适应调整搜索能力的惯性权重因子。如公式(19)所示，新的惯性权重因子调整机制可以根据当前粒子和全局最优粒子之间的差异程度来进行自适应调整。

其中div(X^t-1,gBest^t-1)表示当前粒子X^t-1和全局最优粒子gBest^t-1相同分位上存在不同取值的位数。当div(X^t-1)的较大时，说明当前粒子X^t-1和gBest^t-1之间差异较大，需要扩大搜索范围，所以应该增大w的权值，以保证粒子在更大范围内寻找问题解，避免过早陷入局部最优；否则，缩小搜索范围，减少w的权值，在小范围加速收敛过程，更快找到优化解。

另外，自身认知因子c₁和种群认知因子c₂的设置为线性增减方式，公式(21)和公式(22)分别是c₁和c₂的更新机制。

其中

和

分别是自身认知因子c₁的设定初始值和最终值，

和

分别是种群认知因子c₂的设定初始值和最终值。

Claims

1.一种混合云环境面向时延优化的科学工作流数据布局方法，其特征在于：其包括以下步骤：

整个数据布局方案的定义为S＝(DS,DC,Map,T_total)，其中Map＝∪_{i＝1,2,...,|DS|}{＜dc_i,ds_k,dc_j＞}表示数据集DS到数据中心集DC的映射关系，映射<dc_i,ds_k,dc_j>表示数据集ds_k从源数据中心dc_i传输到目标数据中心dc_j，T_total表示数据布局过程中跨数据中心的数据传输所造成的时间总开销；

步骤2：对科学工作流预处理，合并仅有一个相关任务的相邻数据集；

步骤3：初始化种群大小、最大迭代次数、惯性权重因子、认知因子，监督式随机生成初始种群；并初始化第一代粒子的自身历史最优粒子以及初始的种群全局最优粒子；

一个粒子代表混合云环境下科学工作流的一个数据布局方案，粒子i在第t次迭代的位置X_i ^t如公式(11)所示；

表示第k个数据集在第t次迭代的存储位置，

取值是某个数据中心编号，即

步骤5：将数据布局结果与候选解粒子进行映射处理，获得跨数据中心传输时间和对应的数据布局方案；

步骤6：计算各个编码粒子的适应度，每个粒子设置为其自身历史最优粒子，并选取适应度值最小的可行解粒子作为种群全局最优粒子；

步骤7：基于粒子更新公式更新粒子，并重新计算每个更新粒子的适应度；

步骤8：更新粒子的自身历史最优粒子；

若更新粒子的适应度值小于其自身历史最优值，则将更新粒子设置为其自身历史最优粒子；反之，跳转到步骤10；

步骤9：更新种群全局最优粒子；

步骤10：检查是否满足达到最大迭代次数的算法终止条件，当满足终止条件时，结束；反之，转到步骤7。

2.根据权利要求1所述的一种混合云环境面向时延优化的科学工作流数据布局方法，其特征在于：步骤1中T_total的计算方法：

3.根据权利要求2所述的一种混合云环境面向时延优化的科学工作流数据布局方法，其特征在于：步骤1-1中数据集ds_k＝<dsize_k,gt_k,lc_k,flc_k>，dsize_k是数据集大小，gt_k表示生成数据集ds_k的任务，lc_k表示数据集ds_k的存储位置，flc_k表示数据集ds_k的最终布局位置，gt_k和lc_k分别表示如下：

其中，DS_ini表示初表示始数据集，DS_gen表示生成数据集，DS_fix表示需固定存放的隐私数据集和DS_flex任意存放的非隐私数据集，隐私数据集DS_fix只存放在私有云数据中心DC_pri，Task(ds_k)表示生成数据集ds_k的任务，fix(ds_k)表示指定存放隐私数据集的私有云数据中心编号。

4.根据权利要求1所述的一种混合云环境面向时延优化的科学工作流数据布局方法，其特征在于：步骤2的具体步骤：

步骤2-1，记录科学工作流G所有任务和数据集的出度和入度，

步骤2-2，寻找‘单向数据割边’e_ij；‘单向数据割边’是指两个数据集ds_i和ds_j，ds_i的出度为1，ds_j的入度为1，两个数据集之间仅有一个相关任务；

5.根据权利要求1所述的一种混合云环境面向时延优化的科学工作流数据布局方法，其特征在于：步骤3中惯性权重因子w的调整机制根据当前粒子和全局最优粒子之间的差异程度来进行自适应调整；