CN108989098B - 一种混合云环境面向时延优化的科学工作流数据布局方法 - Google Patents

一种混合云环境面向时延优化的科学工作流数据布局方法 Download PDF

Info

Publication number
CN108989098B
CN108989098B CN201810700970.0A CN201810700970A CN108989098B CN 108989098 B CN108989098 B CN 108989098B CN 201810700970 A CN201810700970 A CN 201810700970A CN 108989098 B CN108989098 B CN 108989098B
Authority
CN
China
Prior art keywords
data
particle
particles
representing
scientific workflow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810700970.0A
Other languages
English (en)
Other versions
CN108989098A (zh
Inventor
林兵
项滔
卢宇
黄志高
陈星�
郭文忠
蔡飞雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN201810700970.0A priority Critical patent/CN108989098B/zh
Publication of CN108989098A publication Critical patent/CN108989098A/zh
Application granted granted Critical
Publication of CN108989098B publication Critical patent/CN108989098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/083Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for increasing network speed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种混合云环境面向时延优化的科学工作流数据布局方法,考虑混合云环境下数据布局特点,结合科学工作流数据间的依赖关系,考虑云数据中心间的带宽、私有云数据中心个数和容量等因素对传输时延的影响;首先对其进行预处理操作,提高后期数据布局策略的执行效率;通过引入遗传算法的交叉算子和变异算子,避免粒子群优化算法的过早收敛问题,提高种群进化的多样性,有效压缩数据传输时延,有效降低混合云环境下的科学工作流数据传输时延。本发明提高数据布局策略的执行效率,优化科学工作流数据布局传输时延。

Description

一种混合云环境面向时延优化的科学工作流数据布局方法
技术领域
本发明涉及并行和分布式高性能计算领域的科学工作流数据布局方法,尤其涉及一种混合云环境面向时延优化的科学工作流数据布局方法。
背景技术
科学工作流***是一种数据密集型应用,已被广泛应用于天文、高能物理和生物信息等科学研究领域。科学工作流应用基于数据驱动,其计算任务节点之间存在复杂的数据依赖,且处理的数据集大小通常可达TB甚至PB量级。这些数据集包括已存在的原始输入数据集,以及处理分析过程中产生的中间数据集和最终数据集。由于科学工作流应用结构依赖复杂、数据量大等性质,其对部署环境的计算能力和数据存储方面有严格要求。网格等传统分布式环境,通常为某个具体科学应用研究而建设,它们之间的共享程度低,科学工作流部署在这样的环境中会造成严重的资源浪费。
云计算通过虚拟化技术将不同地理位置的资源虚拟成资源池,以即付即用的方式面向终端用户,其高效、灵活、高伸缩性、可定制的特点为科学工作流部署提供了一种经济解决方案。混合云计算环境通常包括一个公有云和多个私有云:公有云可以在科学工作流负载波动剧烈情况下保证资源供应,维护服务质量;私有云则可以为科学工作流隐私数据的安全性提供保障。随着大数据在科学应用领域重要性的增大,混合云环境下的科学工作流数据布局已成为科学研究领域的热点。在应急管理应用领域,存在大量并发的实例,对科学工作流数据布局的时延要求严格。然而,科学工作流隐私数据的固定数据中心存放,导致应用执行过程中需要进行大量跨数据中心的数据传输,TB甚至PB量级的数据集传输和数据中心之间的有限网络带宽形成巨大矛盾,造成传输时延严重。因此,研究混合云环境下合理的科学工作流数据布局方案,显得至关重要,具体体现为:(1)科学工作流应用结构依赖复杂、数据量大,混合云多数据中心环境下,合理的数据布局方案应保证单数据中心内部高内聚,数据中心之间低耦合,降低跨数据中心的数据传输时间开销。(2)出于安全性考虑,隐私数据被指定存放在特定私有云数据中心,由于私有云数据中心的容量有限,需要进行跨数据中心传输,如何在传输带宽有限和隐私数据固定存放限制下,考虑带宽因素的影响,优化数据传输时延,是科学工作流数据布局的一个挑战。(3)有效的数据布局方案,应在压缩数据传输时延前提下,兼顾数据中心资源的有效利用。
现有科学工作流数据布局工作主要基于聚类方法和智能方法。聚类方法主要考虑多个数据中心的负载均衡数据布局,有效利用数据中心资源。然而在混合云环境下,存在隐私数据的科学工作流需要一种单数据中心内部高内聚、数据中心之间低耦合的数据布局方式才能有效保障数据传输的低延时。传统基于负载均衡的聚类方法无法满足混合云环境下科学工作流的低延时数据布局要求。传统智能方法主要是基于遗传算法的数据布局策略,这些方法主要考虑负载均衡问题,且易陷入局部最优。现有研究方法主要针对优化数据布局过程中的跨数据中心传输次数和数据传输量展开,对数据传输时延的压缩研究较少,另外,传统研究方法尚未对数据中心之间的传输带宽差异进行充分讨论。因此,针对混合云环境下面向时延优化的科学工作流数据布局问题,目前研究工作尚未形成一个完整有效的解决方案。
发明内容
本发明的目的在于提供一种混合云环境面向时延优化的科学工作流数据布局方法。
本发明采用的技术方案是:
一种混合云环境面向时延优化的科学工作流数据布局方法,其包括以下步骤:
步骤1:基于混合云环境下科学工作流构建数据布局方案模型;
整个数据布局方案的定义为S=(DS,DC,Map,Ttotal),其中Map=∪i=1,2,...,|DS|{<dci,dsk,dcj>}表示数据集DS到数据中心集DC的映射关系,Ttotal表示数据布局过程中跨数据中心的数据传输所造成的时间总开销;混合云环境下的时延优化的科学工作流数据布局问题形式化表示为公式(8),
Figure GDA0003022072380000021
其中uij={0,1}表示数据集dsj是否存放在数据中心dci上,如果是则uij的值为1,否则为0;Ttotal表示数据布局过程中跨数据中心的数据传输所造成的时间总开销。由于数据布局过程中,数据不断进行传输迁移,所以当某个私有云数据中心有新的数据放置时,就对其进行容量限定判断。其核心思想是追求时间总开销Ttotal最低,同时满足每个数据中心的存储容量限制。
步骤2:对科学工作流预处理,合并仅有一个相关任务的相邻数据集,减少数据集数量,提高数据布局算法的执行效率;
步骤3:初始化种群大小、最大迭代次数、惯性权重因子、认知因子,监督式随机生成初始种群;并初始化第一代粒子的自身历史最优粒子以及初始的种群全局最优粒子;这里需要注意,隐私数据的分位值为对应的固定数据中心编号;
步骤4:对预处理的数据集采用离散编码方式构建n维候选解粒子;
一个粒子代表混合云环境下科学工作流的一个数据布局方案,粒子i在第t次迭代的位置
Figure GDA0003022072380000022
如公式(11)所示。
Figure GDA0003022072380000031
每个粒子有n个分位,n代表经过预处理操作后的数据集数量;
Figure GDA0003022072380000032
表示第k个数据集在第t次迭代的存储位置,
Figure GDA0003022072380000033
取值是某个数据中心编号,即
Figure GDA0003022072380000034
Figure GDA0003022072380000035
步骤4:将数据布局结果与候选解粒子进行映射处理,获得跨数据中心传输时间和对应的数据布局方案;
步骤5:计算各个编码粒子的适应度,每个粒子设置为其自身历史最优粒子,并选取适应度值最小的可行解粒子作为种群全局最优粒子;
步骤6:基于粒子更新公式更新粒子,并重新计算每个更新粒子的适应度;
步骤7:更新粒子的自身历史最优粒子;
若更新粒子的适应度值小于其自身历史最优值,则将更新粒子设置为其自身历史最优粒子;反之,跳转到步骤9;
步骤8:更新种群全局最优粒子;
若更新粒子的适应度值小于种群全局最优粒子的适应度值,则将更新粒子设置为种群全局最优粒子;
步骤9:检查是否满足达到最大迭代次数的算法终止条件,当满足终止条件时,结束;反之,转到步骤6。
进一步地,步骤1中Ttotal的计算方法:
步骤1-1,映射<dci,dsk,dcj>表示数据集dsk从源数据中心dci传输到目标数据中心dcj,其数据传输时间Ttransfer如公式(6)所示:
Figure GDA0003022072380000036
其中dsk表示数据集,dci表示源数据中心,dcj表示传输到目标数据中心,dci、dcj均属于数据中心集DC;dsizek表示数据集dsk大小,bandij表示数据中心dci和数据中心dcj之间的网络带宽的带宽值;
步骤1-2,数据布局过程中跨数据中心的数据传输所造成的时间总开销Ttotal的计算公式如下:
Figure GDA0003022072380000037
其中eijk={0,1}表示数据布局过程中是否存在数据集dsk从源数据中心dci传输到目标数据中心dcj,如果存在则eijk的值为1,否则为0。
进一步地,步骤1-1中数据集dsk=<dsizek,gtk,lck,flck>,dsizek是数据集大小,gtk表示生成数据集dsk的任务,lck表示数据集dsk的存储位置,flck表示数据集dsk的最终布局位置,gtk和lck分别表示如下:
Figure GDA0003022072380000041
Figure GDA0003022072380000042
其中,DSini表示初表示始数据集,DSgen表示生成数据集,初始数据集是科学工作流的原始输入,而生成数据集是科学工作流执行过程中产生的中间数据集,这些数据集往往成为其他任务的输入数据集,Task(dsk)表示生成数据集dsk的任务。数据集按照存放位置可分为DSfix表示固定存放数据集(隐私数据集)和DSflex任意存放数据集(非隐私数据集),隐私数据集DSfix只能存放在私有云数据中心DCpri,fix(dsk)表示指定存放隐私数据集的私有云数据中心编号。
进一步地,步骤1中数据中心集DC={DCpub,DCpri},其中DCpub,为公有云,DCpri为私有云,均由多个数据中心构成;
数据中心集DC中编号为k的数据中心dck表示如下:
dck=<capacityk,typek> (1)
其中capacityk表示数据中心dck的存储容量,存储在该数据中心上的数据集不能超过该容量。typek={0,1}表示数据中心dck所属的云服务提供商,当typek=0时,dck属于公有云的数据中心,其只能存放非隐私数据;当typek=1时,dck属于私有云的数据中心,其能够存放隐私数据和非隐私数据。
进一步地,步骤2的具体步骤:
步骤2-1,记录科学工作流G所有任务和数据集的出度和入度;
步骤2-2,寻找‘单向数据割边’eij
步骤2-3,当存在‘单向数据割边’eij,且dsi和dsj不全是隐私数据,则删除eij,合并dsi和dsj为新数据集dsk并执行步骤2-2;当不存在‘单向数据割边’时,结束。
进一步地,步骤3中惯性权重因子w的调整机制根据当前粒子和全局最优粒子之间的差异程度来进行自适应调整;
Figure GDA0003022072380000051
Figure GDA0003022072380000052
其中div(Xt-1,gBestt-1)表示当前粒子Xt-1和全局最优粒子gBestt-1相同分位上存在不同取值的位数。
进一步地,步骤6中粒子的适应度的计算公式如下:
两个编码粒子为同类型粒子,选择跨数据中心数据传输时间较小的编码粒子,适应度函数定义如下:
Figure GDA0003022072380000053
两个编码粒子为可行解粒子和不可行解粒子的不同类型粒子组合,则适应度函数定义如下:
Figure GDA0003022072380000054
其中capacityi表示数据中心dci的存储容量,uij={0,1}表示数据集dsj是否存放在数据中心dci上,如果是则uij的值为1,否则为0。
进一步地,步骤7中更新粒子i的更新公式如下:
Figure GDA0003022072380000055
其中,其中Cg()和Cp()代表遗传算法的交叉算子,Mu()代表遗传算法的变异算子;
Figure GDA0003022072380000056
和gBestt-1分别表示粒子在多次迭代后的个体最优位置和种群的全局最优位置;
Figure GDA0003022072380000057
表示粒子i在t时刻的位置,
Figure GDA0003022072380000058
表示粒子i在t-1时刻的位置。
进一步地,将更新粒子公式分解为惯性认知、个体认知和社会认知三个核心部分,则:
(1)将标准PSO算法结合遗传算法的变异操作得到粒子i在t时刻的惯性部分
Figure GDA0003022072380000059
的公式如下:
Figure GDA00030220723800000510
其中r3是随机因子,取值范围(0,1);w为惯性权重因子,w用于调节粒子对解空间的搜索能力,Mu()监督式随机选取编码粒子中的一个分位,随机改变该分位的数值,且该数值满足对应的取值范围,
Figure GDA0003022072380000061
表示粒子i在t时刻的位置,
Figure GDA0003022072380000062
表示粒子i在t-1时刻的位置;
(2)将标准PSO算法结合遗传算法的交叉操作分别得到粒子i在t时刻的个体认知部分和全局认知部分的公式如下:
Figure GDA0003022072380000063
Figure GDA0003022072380000064
其中c1是个体认知因子,c2是全局认知因子,
Figure GDA0003022072380000065
和gBestt-1分别表示粒子在多次迭代后的个体最优位置和种群的全局最优位置;Cp()和Cg()表示交叉操作,Cp()和Cg()随机选择粒子的两个分位,与
Figure GDA0003022072380000066
或gBestt-1相同分位之间的数值进行交叉;r1和r2是随机变量,取值范围是[0,1],r1和r2用于加强迭代搜索过程中的随机性。
进一步地,个体认知因子c1和全局认知因子c2的设置为线性增减方式,公式(21)和公式(22)分别是c1和c2的更新机制。
Figure GDA0003022072380000067
Figure GDA0003022072380000068
其中
Figure GDA0003022072380000069
Figure GDA00030220723800000610
分别是自身认知因子c1的设定初始值和最终值,
Figure GDA00030220723800000611
Figure GDA00030220723800000612
分别是种群认知因子c2的设定初始值和最终值。当div(Xt-1)的较大时,说明当前粒子Xt-1和gBestt-1之间差异较大,需要扩大搜索范围,所以应该增大w的权值,以保证粒子在更大范围内寻找问题解,避免过早陷入局部最优;否则,缩小搜索范围,减少w的权值,在小范围加速收敛过程,更快找到优化解。
进一步地,监督式随机包括以下两种情况:
情况1:编码粒子是可行解粒子,则选择的分位不包含隐私数据集所在分位;由于隐私数据集固定存放,所以不能改变该隐私数据集的存储位置。
情况2:编码粒子是不可行解粒子,则选择的分位为超负荷数据中心编码所对应的分位。一个不可行解粒子对应的数据布局方案,可能存在多个超负荷的数据中心,随机选择其中一个超负荷数据中心编码所对应的分位进行变异操作,有可能将不可行解粒子变异成可行解粒子。
本发明采用以上技术方案,考虑混合云环境下数据布局特点,结合科学工作流数据间的依赖关系,考虑云数据中心间的带宽、私有云数据中心个数和容量等因素对传输时延的影响;通过引入遗传算法的交叉算子和变异算子,避免粒子群优化算法的过早收敛问题,提高种群进化的多样性,有效压缩数据传输时延,有效降低混合云环境下的科学工作流数据传输时延。
本发明为了压缩科学工作流数据规模,首先对其进行预处理操作,提高后期数据布局策略的执行效率;避免传统解决NP-hard问题的粒子群优化算法的过早收敛问题,提高种群进化的多样性,优化科学工作流数据布局传输时延。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明的科学工作流示意图;
图2为本发明的科学工作流的数据布局实例之一;
图3为本发明的科学工作流的数据布局实例之二;图4为本发明的算法流程图;
图5为本发明的预处理过程的压缩‘单向数据割边’示意图;
图6为本发明的预处理前后的Epigenomics工作流结构;
图7为本发明的数据布局粒子编码示例图;
图8为本发明的个人认知因子和全局认知因子的交叉算子图;
图9为本发明的惯性部分的变异算子图
具体实施方式
如图1-7之一所示,本发明公开了一种混合云环境面向时延优化的科学工作流数据布局方法,下面结合附图对本发明进行详细说明。
1问题定义和分析
本节将对混合云环境下面向时延优化的科学工作流数据布局问题的相关概念进行定义,并结合实例进行问题分析。问题定义主要包括混合云环境、科学工作流,以及数据布局方案。
1.1问题定义
混合云DC={DCpub,DCpri}中主要包括公有云和私有云,无论是公有云还是私有云,均由多个数据中心构成。公有云数据中心DCpub={dc1,dc2,...,dcn}由n个数据中心构成,私有云数据中心DCpri={dc1,dc2,...,dcm}由m个数据中心构成。本文重点关注数据布局问题,因此仅关注数据中心的存储能力,忽略其计算能力。编号为i的数据中心dci表示如下:
dci=<capacityi,typei> (1)
其中capacityi表示数据中心dci的存储容量,存储在该数据中心上的数据集不能超过该容量。typei={0,1}表示数据中心dci所属的云服务提供商,当typei=0时,dci属于公有云的数据中心,其只能存放非隐私数据;当typei=1时,dci属于私有云的数据中心,其能够存放隐私数据和非隐私数据。另外,各个数据中心之间的带宽表示如下:
Figure GDA0003022072380000081
bij=<bandij,typei,typej> (3)
其中对
Figure GDA0003022072380000082
且i≠j,bij表示数据中心dci和数据中心dcj之间的网络带宽,bandij是其带宽值。本文假设数据中心之间的带宽值可知,且不会产生波动。
科学工作流用有向无环图G=(T,E,DS)来表示,其中T={t1,t2,...,tr}表示包含r个任务的节点集合,E={e12,e13,...,eij}则表示任务之间数据依赖关系,而DS={ds1,ds2,...,dsn}表示科学工作流的所有数据的集合。
每条数据依赖边eij=(ti,tj)代表任务ti和任务tj之间存在数据依赖关系,其中任务ti是任务tj的直接先驱(父)节点,而任务tj则是任务ti的直接后继(子)节点。在科学工作流调度过程中,一个任务必须在其所有先驱节点都已被执行完毕后,该任务才能开始执行。在某个给定的代表科学工作流的有向无环图中,把没有先驱节点的任务称为‘入任务’,同理,把没有后继节点的任务称为‘出任务’。
对于某个子任务ti=<IDSi,ODSi>,其输入数据组成的集合是IDSi,输出数据组成的集合是ODSi。任务和数据之间的对应关系是多对多,即一个数据可被多个任务使用,一个任务执行时可能需要多个输入数据。
对于某个数据集dsk=<dsizek,gtk,lck,flck>,dsizek是数据集大小,gtk表示生成数据集dsk的任务,lck表示数据集dsk的存储位置,flck表示数据集dsk的最终布局位置,gtk和lck分别表示如下:
Figure GDA0003022072380000083
Figure GDA0003022072380000084
数据集按照来源可分为初始数据集DSini和生成数据集DSgen,初始数据集是科学工作流的原始输入,而生成数据集是科学工作流执行过程中产生的中间数据集,这些数据集往往成为其他任务的输入数据集,Task(dsk)表示生成数据集dsk的任务。数据集按照存放位置可分为固定存放数据集(隐私数据集)DSfix和任意存放数据集(非隐私数据集)DSflex,隐私数据集只能存放在私有云数据中心DCpri,fix(dsk)表示指定存放隐私数据集dsk的私有云数据中心编号。
数据布局的目的是在满足任务执行需求的前提下,最小化数据传输时间。任意一个任务执行需要满足两个条件:(1)该任务被调度到数据中心执行;(2)该任务所需的输入数据集都已在数据中心。由于向一个数据中心调度任务的时间远小于向该数据中心传输数据的传输时间,本文主要关注数据布局,而任务调度并非本文重点,因此假设将任务调度至传输时间开销最少的数据中心执行。整个数据布局方案的定义为S=(DS,DC,Map,Ttotal),其中Map=∪i=1,2,...,|DS|{<dci,dsk,dcj>}表示数据集DS到数据中心DC的映射关系,某个映射<dci,dsk,dcj>表示数据集dsk从源数据中心dci传输到目标数据中心dcj,该过程产生的数据传输时间如公式(6)所示。Ttotal表示数据布局过程中跨数据中心的数据传输所造成的时间总开销,其定义如公式(7)所示。
Figure GDA0003022072380000091
Figure GDA0003022072380000092
其中eijk={0,1}表示数据布局过程中是否存在数据集dsk从源数据中心dci传输到目标数据中心dcj,如果存在则eijk的值为1,否则为0。
基于以上相关定义,混合云环境下面向时延优化的科学工作流数据布局问题,可形式化表示为公式(8),其核心思想是追求时间总开销Ttotal最低,同时满足每个数据中心的存储容量限制。
Figure GDA0003022072380000093
其中uij={0,1}表示数据集dsj是否存放在数据中心dci上,如果是则uij的值为1,否则为0。由于数据布局过程中,数据不断进行传输迁移,所以当某个私有云数据中心有新的数据放置时,就对其进行容量限定判断。
1.2问题分析
图1是一个科学工作流示例,该科学工作流包含5个任务{t1,t2,t3,t4,t5},5个原始输入数据集{ds1,ds2,ds3,ds4,ds5}和1个中间数据集{ds6}组成,6个数据集的大小{dsize1,dsize2,dsize3,dsize4,dsize5,dsize6}分别是{3GB,5GB,3GB,3GB,5GB,8GB},其中ds4是隐私数据集,且必须存储在数据中心dc2上。任务t4的输入数据集为{ds3,ds4,ds6},由于ds4是必须固定存放在数据中心dc2上的隐私数据,所以t4也必须在数据中心dc2上执行。同样地,ds5是必须存储在数据中心dc3上的隐私数据集,t5也必须在数据中心dc3上执行。图2和图3分别是两种数据布局方案,dc1是公有云数据中心,存储容量无限,而dc2和dc3是两个私有云数据中心,存储容量均为20GB,私有云数据中心间的带宽大约是公有云数据中心到私有云数据中心带宽的10倍,因此假设3个数据中心之间带宽的大小{band12,band13,band23}分别是{10M/s,20M/s,150M/s}。
2是按照李学俊等人产生的数据布局方案,根据依赖矩阵划分模型,将公有数据集ds1、ds2和ds3部署在公有云数据中心dc1中,ds6部署在私有云数据中心dc2中,隐私数据集ds4和ds5各自部署在相关数据中心。形成的布局方案产生4次数据传输,27GB的数据传输量,跨数据中心传输时间约为1953秒。
3是最优数据布局方案,将公有数据集ds1和ds2部署在公有云数据中心dc1中,ds3和ds6部署在私有云数据中心dc3中。形成的布局方案产生5次数据传输,30GB的数据传输量,跨数据中心传输时间约为1023秒。虽然该布局方案在数据传输频率和数据传输量方面均超过李学俊等人,但跨数据中心传输时间明显优于前者,这主要是该方案综合考虑数据中心间传输带宽带来的影响。
传统的基于数据依赖破坏度的矩阵划分模型或负载均衡模型,将数据依赖度高的数据尽量划分到同一数据中心,可以有效降低数据中心之间的数据传输量,但这些方法未综合考虑不同数据中心之间的带宽差异带来的布局影响。因此,本文针对传统数据布局模型的不足,结合差异化带宽划分机制,设计一种基于GA-DPSO的数据布局策略,根据带宽和数据中心容量限制等因素,自适应地放置不同数据集,有效降低混合云环境下科学工作流数据布局的传输时延。
2基于GA-DPSO的数据布局策略
对于数据布局方案S=(DS,DC,Map,Ttotal),本文核心目的是寻找数据集DS到数据中心DC的最佳映射关系Map,使跨数据中心传输时间Ttotal最低。DS到DC的最佳映射寻找是一个NP-hard问题,且需要考虑混合云环境下不同数据中心之间的带宽差异。为压缩科学工作流数据规模,本文首先对其进行预处理操作,提高后期数据布局策略的执行效率;为避免传统解决NP-hard问题的粒子群优化算法的过早收敛问题,本文提出一种GA-DPSO算法,提高种群进化的多样性,优化科学工作流数据布局传输时延。以下内容依次介绍科学工作流预处理和基于遗传算法算子的自适应离散粒子群优化数据布局策略。
2.1科学工作流预处理
算法1:合并仅有一个相关任务的相邻数据集
procedure preProcess(G(T,E,DS))
1:记录科学工作流G所有任务和数据集的出度和入度
2:寻找‘单向数据割边’eij
3:如果存在‘单向数据割边’eij,且dsi和dsj不全是隐私数据,则删除eij,合并dsi和dsj为新数据集dsk
4:反复执行步骤2,直到不存在‘单向数据割边’
end procedure
算法1主要介绍了基于科学工作流自身结构特点,合并仅有一个相关任务的相邻数据集的预处理过程伪代码。其中‘单向数据割边’的定义是:两个数据集dsi和dsj,dsi的出度为1,dsj的入度为1,两个数据集之间仅有一个相关任务,其结构如图3所示。当科学工作流存在‘单向数据割边’,且dsi和dsj不全是隐私数据,因此可以将dsi和dsj合并放置,如图5所示。对于某些存在大量‘单向数据割边’的科学工作流,如Epigenomics科学工作流,经过预处理后,可以大幅度减少数据集数量,从而提高后期数据布局算法的执行效率。图6展示了Epigenomics工作流在预处理前后的自身结构变化,经过预处理后,数据集数量压缩30%以上。
性质1科学工作流预处理策略可以压缩科学工作流数据集数量,提高算法执行效率,但可能会影响最终数据布局结果。
图5已经展示压缩科学工作流数据集数量实例,本文采用2.2.1小节介绍的基于数据集数量的离散编码方式,因此数据集数量的减少可以提高算法执行效率。图5中合并放置ds5和ds6,意味着ds5和ds6始终都放置在同一个数据中心。如果某个私有云数据中心的容量,只能存储ds5或ds6的其中一个数据集,则预处理后的数据布局结果与未预处理的数据布局结果将不同。
2.2基于遗传算法算子的自适应离散粒子群优化数据布局策略
PSO算法在1995年由Eberhart和Kennedy共同提出,是一种基于鸟群社会行为的群体随机优化算法。粒子是PSO中的重要概念,每个粒子代表问题的一个候选解,粒子在问题空间中移动和迭代更新,得到更优的粒子。粒子移动更新主要是调整它的速度和位置,速度和位置更新如公式(9)和公式(10)所示。
Figure GDA0003022072380000111
Figure GDA0003022072380000112
Figure GDA0003022072380000113
Figure GDA0003022072380000114
分别表示在第t次迭代时第i个粒子的速度和位置,为保证粒子在问题解空间中更新,需要定义限制粒子速度的最大粒子速度Vmax。粒子的速度更新受粒子自身情况、粒子自身最佳历史位置以及种群历史最佳位置这三方面影响。惯性权重w直接影响算法的收敛性,调节粒子对解空间的搜索能力。
Figure GDA0003022072380000121
和gBestt分别表示在第t次迭代后粒子i的自身历史最优位置和种群历史最佳位置。c1和c2是认知因子,分别表示对自身历史最优位置和种群历史最优位置的认知学习能力。r1和r2是两个随机因子,取值范围(0,1),可以增加算法迭代过程中的搜索随机性,提高种群多样性。另外,为了判定粒子在问题空间不同位置的优劣性,需要定义适应度函数来评价。
传统PSO算法用于解决连续型问题,本文数据集到数据中心的数据布局是一种离散型问题,需要新的问题编码方式和适应度评价函数。针对传统PSO算法存在的过早收敛问题,需要一种新的粒子更新策略。另外,算法参数的设置直接影响算法执行过程的迭代次数和搜索能力。以下将从问题编码、适应度函数设置、粒子更新策略、算法参数设置等方面,详细介绍本文提出的GA-DPSO数据布局优化算法。
2.2.1问题编码
好的问题编码策略可以有效提高算法效率和搜索能力,问题编码主要考虑三个基本原则:完备性、非冗余性和健全性。
定义1(完备性)问题空间中的所有可行解,都能在编码空间中找到对应编码粒子。
定义2(非冗余性)问题空间中的某个候选解,在编码空间中只有唯一一个编码粒子与之对应。
定义3(健全性)编码空间中的任意编码粒子,都对应问题空间中的候选解。
要构建同时满足以上三个原则的问题编码具有挑战性。我们采用离散编码方式来构建n维的候选解粒子。一个粒子代表混合云环境下科学工作流的一个数据布局方案,粒子i在第t次迭代的位置
Figure GDA0003022072380000122
如公式(11)所示。
Figure GDA0003022072380000123
每个粒子有n个分位,n代表经过预处理操作后的数据集数量。
Figure GDA0003022072380000124
表示第k个数据集在第t次迭代的存储位置,具体取值是某个数据中心编号,即
Figure GDA0003022072380000125
Figure GDA0003022072380000126
这里需要注意,对于隐私数据集而言,无论如何迭代更新,其存储位置都是固定的,如图1中的数据集ds4和ds5,它们分别只能固定存储在dc2和dc3中。图7展示针对图1科学工作流所形成的图3数据布局所对应的问题编码方案,由于经过预处理操作,数据集由原来的6个压缩成5个,压缩成一个整体数据集的ds5和ds6都被存储在dc3
性质2离散编码策略满足非冗余性和完备性原则,但不满足健全性原则。
每个数据集最终存储在相应的数据中心上,都有对应的数据中心编号,一个数据集最终的存储位置只能在某个数据中心上,科学工作流某个数据布局方案对应一个n维粒子,每个分位的值就是对应的数据中心编号,一种布局方案只对应一个编码粒子,满足非冗余性原则。非隐私数据集可以在所有数据中心中选择存放,而对应的编码分位同样可以选择不同数据中心编号,每个数据集对应的编码分位值就是其指定存放的数据中心编号,每种布局方案都有对应的编码粒子,满足完备性原则。部分编码粒子无法满足现实的问题空间候选解,图7的数据集存放位置如果变为(1,2,2,2,2),则除去ds1外的所有数据集都被存储在dc2,数据总量达到24GB,超过dc2的20GB存储容量,造成数据布局方案不可行,因此不满足健全性原则。
2.2.2适应度函数
适应度函数是用来评价粒子的优劣性,一般情况下,适应度函数值较小的粒子性能较优。本文目的是减少科学工作流数据布局的跨数据中心数据传输时间,传输时间越小的粒子越优,因此可以直接定义适应度函数值就是等于粒子所对应数据布局方案的数据传输时间。然而,由于问题编码不满足健全性原则,即可能出现放置在某个数据中心的数据集超过该数据中心容量,因此需要对适应度函数区分定义。
定义4(可行解粒子)编码粒子所对应的数据布局策略满足数据中心容量限制要求,没有出现某个数据中心的数据集超过该数据中心容量。
定义5(不可行解粒子)编码粒子所对应的数据布局策略不满足数据中心容量限制要求,出现某个数据中心的数据集超过该数据中心容量。
本文分三种不同情况,比较两种编码粒子的适应度函数值。
情况1:两个编码粒子都是可行解粒子,选择跨数据中心数据传输时间较小的编码粒子,适应度函数定义如下:
Figure GDA0003022072380000131
情况2:两个编码粒子都是不可行解粒子,同样选择跨数据中心数据传输时间较小的编码粒子,通过后期的粒子更新操作,不可行解粒子有可能变成可行解粒子,而原先数据传输时间较小的编码粒子更有可能保持较小数据传输时间,适应度函数定义与公式(12)一致。
情况3:一个编码粒子是不可行解粒子,一个编码粒子是可行解粒子,毫无疑问地选择可行解粒子,适应度函数定义如下:
Figure GDA0003022072380000132
2.2.3粒子更新策略
如公式(9)所示,传统PSO包括三个核心部分:惯性、个体认知和社会认知。传统PSO基于连续空间的随机搜索,搜索空间都是局部慢慢扩大,容易过早收敛,陷入局部最优。为增强PSO的搜索能力,适用于离散型问题,同时使其可以探索更大范围的解空间,避免过早收敛问题,本文算法引入遗传算法的交叉和变异算子,改进公式(9)对粒子i在t时刻的更新操作如下:
Figure GDA0003022072380000141
其中Cg()和Cp()代表遗传算法的交叉算子,Mu()代表遗传算法的变异算子。
对于个体认知部分和社会认知部分,本文结合遗传算法的交叉算子思想,对公式(9)中相应的部分进行更新,其更新操作如公式(16)和(17)所示。
Figure GDA0003022072380000142
Figure GDA0003022072380000143
r1、r2是随机因子,取值范围(0,1)。Cp()(或Cg())随机选择编码粒子的两个分位,与
Figure GDA0003022072380000144
Figure GDA0003022072380000145
相同分位之间的数值进行交叉。图8是个人(社会)认知部分的交叉算子操作,随机选择编码粒子的两个交叉位置(ind1和ind2),将旧粒子ind1和ind2分位之间的值替换成
Figure GDA0003022072380000146
在该区间上的值,形成新粒子。
性质3:交叉算子操作可能会将编码粒子从可行解变成不可行解,反之依然。
图7的编码粒子(1,1,3,2,3)是可行解,假设pBest粒子的编码是(2,3,2,2,3),随机生成的交叉位置是1和2,因此交叉后形成的新编码粒子是(2,3,3,2,3)。新编码粒子将ds2、ds3、ds5和ds6放置在dc3,ds2、ds3、ds5和ds6的数据量总和为21GB,而dc3的数据中心容量只有20GB,因此新编码粒子为不可行解。同样的,不可行解粒子(2,3,3,2,3),pBest编码粒子(2,2,1,2,3),交叉位置是1和2,则可以生成新的可行解粒子(2,2,3,2,3)。
对于惯性部分,本文结合遗传算法的变异算子思想,对公式(9)中相应的部分进行更新,其更新操作如公式(18)所示。
Figure GDA0003022072380000147
r3是随机因子,取值范围(0,1)。Mu()监督式随机选取编码粒子中的一个分位,随机改变该分位的数值,且该数值满足对应的取值范围。监督式随机就是在一定的分位范围内进行随机选取,主要有两种情况。
情况1:编码粒子是可行解粒子,则选择的分位不包含隐私数据集所在分位。由于隐私数据集固定存放,所以不能改变该隐私数据集的存储位置。
情况2:编码粒子是不可行解粒子,则选择的分位为超负荷数据中心编码所对应的分位。一个不可行解粒子对应的数据布局方案,可能存在多个超负荷的数据中心,随机选择其中一个超负荷数据中心编码所对应的分位进行变异操作,有可能将不可行解粒子变异成可行解粒子。
图7的编码粒子属于情况1,图9随机选择除了第四和第五分位(ds4和ds5所对应的分位)外的分位ind1进行变异算子操作,ind1分位上的值从3更新为2。
性质4:变异算子操作可能会将编码粒子从可行解变成不可行解,反之依然。
编码粒子(1,2,3,2,3)是可行解,随机选择第2分位变异,形成新的编码粒子(1,3,3,2,3)是不可行解,新编码粒子将ds2、ds3、ds5和ds6都放置在dc3中,ds2、ds3、ds5和ds6的数据量总和为21GB,超过dc3数据中心的20GB容量。同样的,不可行解粒子(1,3,3,2,3),变异位置是2,则有可能生成新的可行解粒子(1,1,3,2,3)。
2.2.4粒子到数据布局结果的映射
算法2:编码粒子到数据布局结果的映射
Figure GDA0003022072380000151
Figure GDA0003022072380000161
算法2是编码粒子到数据布局结果映射的伪代码。该算法的输入包括科学工作流G=(T,E,DS)、混合云环境数据中心DC和编码粒子X。首先,设置每个数据中心的初始存储量dccur(i)都为0,跨数据中心的传输时间为0(第1行)。初始化后,依次扫描粒子分位,按编码粒子每个分位的值,将数据集布局到对应数据中心,相应地,记录各个数据中心的当前存储量dccur(X[i])。当某个私有云数据中心的存储量超过其容量时,说明该编码粒子是不可行解粒子,停止操作并返回(第2-7行)。当编码粒子是可行解粒子,得到相应的数据集对应各个数据中心的布局,需要进一步计算跨数据中心传输时间。依次扫描科学工作流任务,查找任务tj的输入数据集IDSj对应的所有布局数据中心DCj,计算任务放置在布局数据中心dck的输入数据传输时间Transferjk。选取输入数据传输时间最小的数据中心放置该任务,并叠加计算对应数据传输时间,形成最终的跨数据中心传输时间Ttotal,最后输出跨数据中心传输时间Ttotal和对应数据布局方案。
2.2.5参数设置
公式(9)中的惯性权重因子w决定速度的变化情况,它对PSO算法的搜索能力和收敛性有直接作用。当惯性权重因子w较大时,算法的全局搜索能力较强且不易收敛;否则,算法的局部搜索能力较强且容易收敛。公式(18)是经典的惯性权重因子调整机制,在算法运行初期,注重粒子的全局搜索能力和更大范围的问题解空间,随着后期迭代次数增加和搜索深入,粒子更注重局部搜索能力和收敛性。因此公式(18)的惯性权重因子w的值随着迭代次数的增加而线性递减。其中wmax和wmin分别是初始化时设定的惯性权重因子w最大值和最小值,itersmax和iterscur分别是初始化时设定的最大迭代次数和当前的迭代次数。
Figure GDA0003022072380000162
公式(18)的惯性权重因子是基于迭代次数而进行线性递减调整,不能很好满足本文的非线性数据布局问题,因此需要设计一种可以根据当前粒子优劣来自适应调整搜索能力的惯性权重因子。如公式(19)所示,新的惯性权重因子调整机制可以根据当前粒子和全局最优粒子之间的差异程度来进行自适应调整。
Figure GDA0003022072380000163
Figure GDA0003022072380000171
其中div(Xt-1,gBestt-1)表示当前粒子Xt-1和全局最优粒子gBestt-1相同分位上存在不同取值的位数。当div(Xt-1)的较大时,说明当前粒子Xt-1和gBestt-1之间差异较大,需要扩大搜索范围,所以应该增大w的权值,以保证粒子在更大范围内寻找问题解,避免过早陷入局部最优;否则,缩小搜索范围,减少w的权值,在小范围加速收敛过程,更快找到优化解。
另外,自身认知因子c1和种群认知因子c2的设置为线性增减方式,公式(21)和公式(22)分别是c1和c2的更新机制。
Figure GDA0003022072380000172
Figure GDA0003022072380000173
其中
Figure GDA0003022072380000174
Figure GDA0003022072380000175
分别是自身认知因子c1的设定初始值和最终值,
Figure GDA0003022072380000176
Figure GDA0003022072380000177
分别是种群认知因子c2的设定初始值和最终值。
本发明采用以上技术方案,考虑混合云环境下数据布局特点,结合科学工作流数据间的依赖关系,考虑云数据中心间的带宽、私有云数据中心个数和容量等因素对传输时延的影响;通过引入遗传算法的交叉算子和变异算子,避免粒子群优化算法的过早收敛问题,提高种群进化的多样性,有效压缩数据传输时延,有效降低混合云环境下的科学工作流数据传输时延。
本发明为了压缩科学工作流数据规模,首先对其进行预处理操作,提高后期数据布局策略的执行效率;避免传统解决NP-hard问题的粒子群优化算法的过早收敛问题,提高种群进化的多样性,优化科学工作流数据布局传输时延。

Claims (10)

1.一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:其包括以下步骤:
步骤1:基于混合云环境下科学工作流构建数据布局方案模型;
整个数据布局方案的定义为S=(DS,DC,Map,Ttotal),其中Map=∪i=1,2,...,|DS|{<dci,dsk,dcj>}表示数据集DS到数据中心集DC的映射关系,映射<dci,dsk,dcj>表示数据集dsk从源数据中心dci传输到目标数据中心dcj,Ttotal表示数据布局过程中跨数据中心的数据传输所造成的时间总开销;
步骤2:对科学工作流预处理,合并仅有一个相关任务的相邻数据集;
步骤3:初始化种群大小、最大迭代次数、惯性权重因子、认知因子,监督式随机生成初始种群;并初始化第一代粒子的自身历史最优粒子以及初始的种群全局最优粒子;
步骤4:对预处理的数据集采用离散编码方式构建n维候选解粒子;
一个粒子代表混合云环境下科学工作流的一个数据布局方案,粒子i在第t次迭代的位置Xi t如公式(11)所示;
Figure FDA0003022072370000011
每个粒子有n个分位,n代表经过预处理操作后的数据集数量;
Figure FDA0003022072370000012
表示第k个数据集在第t次迭代的存储位置,
Figure FDA0003022072370000013
取值是某个数据中心编号,即
Figure FDA0003022072370000014
步骤5:将数据布局结果与候选解粒子进行映射处理,获得跨数据中心传输时间和对应的数据布局方案;
步骤6:计算各个编码粒子的适应度,每个粒子设置为其自身历史最优粒子,并选取适应度值最小的可行解粒子作为种群全局最优粒子;
步骤7:基于粒子更新公式更新粒子,并重新计算每个更新粒子的适应度;
步骤8:更新粒子的自身历史最优粒子;
若更新粒子的适应度值小于其自身历史最优值,则将更新粒子设置为其自身历史最优粒子;反之,跳转到步骤10;
步骤9:更新种群全局最优粒子;
若更新粒子的适应度值小于种群全局最优粒子的适应度值,则将更新粒子设置为种群全局最优粒子;
步骤10:检查是否满足达到最大迭代次数的算法终止条件,当满足终止条件时,结束;反之,转到步骤7。
2.根据权利要求1所述的一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:步骤1中Ttotal的计算方法:
步骤1-1,映射<dci,dsk,dcj>表示数据集dsk从源数据中心dci传输到目标数据中心dcj,其数据传输时间Ttransfer如公式(6)所示:
Figure FDA0003022072370000021
其中dsk表示数据集,dci表示源数据中心,dcj表示传输到目标数据中心,dci、dcj均属于数据中心集DC;dsizek表示数据集dsk大小,bandij表示数据中心dci和数据中心dcj之间的网络带宽的带宽值;
步骤1-2,数据布局过程中跨数据中心的数据传输所造成的时间总开销Ttotal的计算公式如下:
Figure FDA0003022072370000022
其中eijk={0,1}表示数据布局过程中是否存在数据集dsk从源数据中心dci传输到目标数据中心dcj,如果存在则eijk的值为1,否则为0。
3.根据权利要求2所述的一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:步骤1-1中数据集dsk=<dsizek,gtk,lck,flck>,dsizek是数据集大小,gtk表示生成数据集dsk的任务,lck表示数据集dsk的存储位置,flck表示数据集dsk的最终布局位置,gtk和lck分别表示如下:
Figure FDA0003022072370000023
Figure FDA0003022072370000024
其中,DSini表示初表示始数据集,DSgen表示生成数据集,DSfix表示需固定存放的隐私数据集和DSflex任意存放的非隐私数据集,隐私数据集DSfix只存放在私有云数据中心DCpri,Task(dsk)表示生成数据集dsk的任务,fix(dsk)表示指定存放隐私数据集的私有云数据中心编号。
4.根据权利要求1所述的一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:步骤2的具体步骤:
步骤2-1,记录科学工作流G所有任务和数据集的出度和入度,
步骤2-2,寻找‘单向数据割边’eij;‘单向数据割边’是指两个数据集dsi和dsj,dsi的出度为1,dsj的入度为1,两个数据集之间仅有一个相关任务;
步骤2-3,当存在‘单向数据割边’eij,且dsi和dsj不全是隐私数据,则删除eij,合并dsi和dsj为新数据集dsk并执行步骤2-2;当不存在‘单向数据割边’时,结束。
5.根据权利要求1所述的一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:步骤3中惯性权重因子w的调整机制根据当前粒子和全局最优粒子之间的差异程度来进行自适应调整;
Figure FDA0003022072370000031
Figure FDA0003022072370000032
其中wmax和wmin分别表示w取值范围的上下限,div(Xt-1,gBestt-1)表示当前粒子的位置Xt-1和全局最优粒子gBestt-1相同分位上存在不同取值的位数。
6.根据权利要求1所述的一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:步骤6中粒子的适应度的计算公式如下:
两个编码粒子为同类型粒子,选择跨数据中心数据传输时间较小的编码粒子,适应度函数定义如下:
Figure FDA0003022072370000038
两个编码粒子为可行解粒子和不可行解粒子的不同类型粒子组合,则适应度函数定义如下:
Figure FDA0003022072370000033
其中capacityi表示数据中心dci的存储容量,uij={0,1}表示数据集dsj是否存放在数据中心dci上,如果是则uij的值为1,否则为0。
7.根据权利要求1所述的一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:步骤7中更新粒子i的更新公式如下:
Figure FDA0003022072370000034
其中,c1和c2分别表示粒子的个体认知因子和全局认知因子,即粒子向其他个体和种群最优个体的学习程度,Cg()和Cp()代表遗传算法的交叉算子,Mu()代表遗传算法的变异算子;
Figure FDA0003022072370000035
和gBestt-1分别表示粒子在t-1次迭代后的个体最优位置和种群的全局最优位置;
Figure FDA0003022072370000036
表示粒子i在t时刻的位置,
Figure FDA0003022072370000037
表示粒子i在t-1时刻的位置。
8.根据权利要求7所述的一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:将更新粒子公式分解为惯性认知、个体认知和社会认知三个核心部分,则:
(1)将标准PSO算法结合遗传算法的变异操作得到粒子i在t时刻的惯性部分
Figure FDA0003022072370000041
的公式如下:
Figure FDA0003022072370000042
其中r3是随机因子,取值范围(0,1);w为惯性权重因子,w用于调节粒子对解空间的搜索能力,Mu()监督式随机选取编码粒子中的一个分位,随机改变该分位的数值,且该数值满足对应的取值范围,
Figure FDA0003022072370000043
表示粒子i在t时刻的位置,
Figure FDA0003022072370000044
表示粒子i在t-1时刻的位置;
(2)将标准PSO算法结合遗传算法的交叉操作分别得到粒子i在t时刻的个体认知部分和全局认知部分的公式如下:
Figure FDA0003022072370000045
Figure FDA0003022072370000046
其中c1是个体认知因子,c2是全局认知因子,
Figure FDA0003022072370000047
和gBestt-1分别表示粒子在t-1次迭代后的个体最优位置和种群的全局最优位置;Cp()和Cg()表示遗传算法的交叉算子,Cp()和Cg()随机选择粒子的两个分位,与
Figure FDA0003022072370000048
或gBestt-1相同分位之间的数值进行交叉;r1和r2是随机变量,取值范围是[0,1],r1和r2用于加强迭代搜索过程中的随机性。
9.根据权利要求1或7所述的一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:个体认知因子c1,全局认知因子c2的设置为线性增减方式,公式(21)和公式(22)分别是c1和c2的更新机制:
Figure FDA0003022072370000049
Figure FDA00030220723700000410
其中
Figure FDA00030220723700000411
Figure FDA00030220723700000412
分别是个体认知因子c1的设定初始值和最终值,
Figure FDA00030220723700000413
Figure FDA00030220723700000414
分别是全局认知因子c2的设定初始值和最终值,iterscur表示当前迭代次数,itersmax表示初始化时设定的最大迭代次数。
10.根据权利要求1或7所述的一种混合云环境面向时延优化的科学工作流数据布局方法,其特征在于:步骤1中包括以下两种情况:
情况1:编码粒子是可行解粒子,则选择的分位不包含隐私数据集所在分位;
情况2:编码粒子是不可行解粒子,则选择的分位为超负荷数据中心编码所对应的分位。
CN201810700970.0A 2018-08-24 2018-08-24 一种混合云环境面向时延优化的科学工作流数据布局方法 Active CN108989098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810700970.0A CN108989098B (zh) 2018-08-24 2018-08-24 一种混合云环境面向时延优化的科学工作流数据布局方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810700970.0A CN108989098B (zh) 2018-08-24 2018-08-24 一种混合云环境面向时延优化的科学工作流数据布局方法

Publications (2)

Publication Number Publication Date
CN108989098A CN108989098A (zh) 2018-12-11
CN108989098B true CN108989098B (zh) 2021-06-01

Family

ID=64539632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810700970.0A Active CN108989098B (zh) 2018-08-24 2018-08-24 一种混合云环境面向时延优化的科学工作流数据布局方法

Country Status (1)

Country Link
CN (1) CN108989098B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033076B (zh) * 2019-04-19 2022-08-05 福州大学 混合云环境下面向代价优化的工作流数据布局方法
CN113411369B (zh) * 2020-03-26 2022-05-31 山东管理学院 一种云服务资源协同优化调度方法、***、介质及设备
CN111209091B (zh) * 2020-04-22 2020-07-21 南京南软科技有限公司 混合云环境下含隐私数据的Spark任务的调度方法
CN112256926B (zh) * 2020-10-21 2022-10-04 西安电子科技大学 一种云环境中科学工作流数据集的存储方法
CN112492032B (zh) * 2020-11-30 2022-09-23 杭州电子科技大学 一种移动边缘环境下的工作流协作调度方法
CN112579987B (zh) * 2020-12-04 2022-09-13 河南大学 遥感程序在混合云中的迁移部署方法及运行身份验证方法
CN112632615B (zh) * 2020-12-30 2023-10-31 福州大学 基于混合云环境的科学工作流数据布局方法
CN116955354A (zh) * 2023-06-30 2023-10-27 国家电网有限公司大数据中心 一种面向能源数联网的标识解析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567851A (zh) * 2011-12-29 2012-07-11 武汉理工大学 一种云计算环境下安全感知的科学工作流数据布局方法
CN105554873A (zh) * 2015-11-10 2016-05-04 胡燕祝 一种基于pso-ga-rbf-hop的无线传感器网络定位算法
CN108170529A (zh) * 2017-12-26 2018-06-15 北京工业大学 一种基于长短期记忆网络的云数据中心负载预测方法
CN108182109A (zh) * 2017-12-28 2018-06-19 福州大学 一种云环境下的工作流调度与数据分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461728B (zh) * 2013-09-18 2019-06-14 Sap欧洲公司 迁移事件调度管理的计算机***、介质和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567851A (zh) * 2011-12-29 2012-07-11 武汉理工大学 一种云计算环境下安全感知的科学工作流数据布局方法
CN105554873A (zh) * 2015-11-10 2016-05-04 胡燕祝 一种基于pso-ga-rbf-hop的无线传感器网络定位算法
CN108170529A (zh) * 2017-12-26 2018-06-15 北京工业大学 一种基于长短期记忆网络的云数据中心负载预测方法
CN108182109A (zh) * 2017-12-28 2018-06-19 福州大学 一种云环境下的工作流调度与数据分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A data placement strategy for scientific workflow in hybrid cloud;Zhanghui Liu;《IEEE》;20180707;全文 *

Also Published As

Publication number Publication date
CN108989098A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108989098B (zh) 一种混合云环境面向时延优化的科学工作流数据布局方法
Karthikeyan et al. A hybrid discrete firefly algorithm for solving multi-objective flexible job shop scheduling problems
Trivedi et al. Hybridizing genetic algorithm with differential evolution for solving the unit commitment scheduling problem
CN110033076B (zh) 混合云环境下面向代价优化的工作流数据布局方法
Senouci et al. Use of genetic algorithms in resource scheduling of construction projects
Prayogo et al. Optimization model for construction project resource leveling using a novel modified symbiotic organisms search
Yan et al. A hybrid metaheuristic algorithm for the multi-objective location-routing problem in the early post-disaster stage.
Parveen et al. Review on job-shop and flow-shop scheduling using multi criteria decision making
CN107656799B (zh) 一种多云环境下考虑通信和计算代价的工作流调度方法
CN110809275B (zh) 基于无线城域网的微云节点放置方法
Xu et al. Towards heuristic web services composition using immune algorithm
Fan et al. DNN deployment, task offloading, and resource allocation for joint task inference in IIoT
Tran et al. Using Fuzzy Clustering Chaotic-based Differential Evolution to solve multiple resources leveling in the multiple projects scheduling problem
Kechmane et al. A hybrid particle swarm optimization algorithm for the capacitated location routing problem
CN116050540A (zh) 一种基于联合双维度用户调度的自适应联邦边缘学习方法
CN112632615B (zh) 基于混合云环境的科学工作流数据布局方法
CN111885551B (zh) 基于边云协同模式的多移动社交网络中高影响力用户的选择和分配机制
Wen et al. A multi-objective optimization method for emergency medical resources allocation
CN114819714B (zh) 面向个性化定制的全域价值链生态资源配置优化方法
Zaman et al. Evolutionary algorithm for project scheduling under irregular resource changes
CN116128247A (zh) 一种排产前生产设备资源配置优化方法及***
Wang et al. Multiobjective optimization algorithm with objective-wise learning for continuous multiobjective problems
CN113220437B (zh) 一种工作流多目标调度方法及装置
CN114980216A (zh) 基于移动边缘计算的依赖型任务卸载***及方法
CN113821323A (zh) 一种面向混合部署数据中心场景的离线作业任务调度算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant