CN110489214A

CN110489214A - 云环境中数据密集型工作流的动态任务分配

Info

Publication number: CN110489214A
Application number: CN201910534070.8A
Authority: CN
Inventors: 华素兴; 刘茜萍; 冯定逸; 尚蕾; 陈俊宇
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-11-22
Anticipated expiration: 2039-06-19
Also published as: CN110489214B

Abstract

本发明针对云环境中数据密集型工作流的动态任务分配问题，希望减少传输的数据大小，并且数据大小是在工作流执行过程中动态决定的而不是在执行之前。提出了一种动态分配方法来处理这种情况，其中典型的三个控制流（包括顺序，并行和排他选择）和任务中每个数据依赖的未知大小是两个主要挑战。在执行之前，基于修订的树遍历操作获得并行分支中的每个任务的冲突任务。此外，还基于改进的warshall算法获得从每个任务开始的最大数据路径，包括独占选择分支中的最大数据路径。在执行过程中，任务按控制流定义和一些基本原则决定的顺序依次动态分配。每个任务的云服务器都经过精心选择，以获得尽可能减少数据的最佳决策。案例研究表明了该方法的可行性和有效性。

Description

云环境中数据密集型工作流的动态任务分配

技术领域：

本发明涉及一种云环境中数据密集型工作流的动态任务分配方法，属于互联网和软件工程领域。

背景技术：

云环境提供对大量计算资源的按需网络访问。在云环境中，服务提供商可以以弹性方式将其服务部署到云服务器，而不是以更高的价格维护自己的服务器。随着云环境中出现的服务越来越丰富，许多数据密集型工作流程已在云服务器上执行。

为了在云环境中高效执行数据密集型工作流，重要的是将工作流中的任务合理地安排到合适的服务器。许多研究人员一直在努力解决这个问题。穆加达姆等人提出了一种多目标优化模型和三级实现结构，以减少工作流完成时间，包括数据通信成本，等待时间和任务处理时间。库马尔等人提出了两种负载均衡的工作流调度算法，以最小化完工时间并最大化平均云利用率。罗德里格兹等人提出了一种粒子群优化算法，在最后期限约束条件下使总体执行成本最小化。崔等人提出了一种数据局部感知工作流调度方法，其中考虑了数据传输时间和任务并行性，以改善执行时间。这些研究主要集中在工作流程的完成时间优化，而货币成本很少考虑。但是，支付服务费用也是工作流程执行的一个非常重要的标准。对于数据密集型工作流，任务通常需要处理大量数据，并且大部分成本都用于数据传输。在降低数据传输成本方面想做出成效，这需要在执行之前对要传输的数据进行估计。但是，在许多应用场景中，通常很难预先评估传输的数据大小。此外，工作流的任务可能在一些独占选择分支中，并且不会被执行，这也给分配带来了挑战。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容：

本发明的目的在于为了在云环境中执行数据密集型工作流期间降低传输数据大小，本发明提出了一种根据该工作流的实际执行情况动态分配任务到云服务器的方法，从而克服上述现有技术中的缺陷。

为实现上述目的，本发明提供了一种云环境中数据密集型工作流的动态任务分配方法，首先基于进程代数描述了具有数据依赖性和典型控制逻辑的工作流，即：顺序，并行和排他性选择。只有在执行任务后才能获得与数据依赖性相关的数据大小；然后根据相关数据大小和最大数据路径将每个任务分配给特定的服务器；最后得到在云环境中执行数据密集型工作流程期间降低传输数据大小的分配方案。

本发明进一步限定的技术方案为：

优选地，上述技术方案中，包括以下步骤：

1)基于工作流构建的二叉树获取冲突任务集

基于工作流模型，通过将任务放在叶子节点上，将运算符放在内部节点上，可以很容易地建立一个完整的二叉树来表示任务之间的控制流。如冲突任务集算法所示，可以通过二叉树遍历获得并行分支中的每个任务的冲突任务。

2)通过修改warshall算法以搜索最大数据路径集

每个任务的MDP_i可能包含多个集合，并根据任务之间的数据依赖性获取。给定数据密集型工作流，可以通过该算法获得每个任务的冲突任务和最大数据路径。为最终的动态任务分配算法提供判定条件。

3)执行期间的动态任务分配

要决定首先分配冲突任务集中的哪个任务，应用三个原则来获得较小的候选任务集。之后，如果仍有多个任务(这种情况不经常发生)，则将从指定任务集中随机选择要分配的任务。

4)得到最终分配方案

当根据以上分配原则执行后，停止整个分配过程，然后得出总传输数据sumD(R)最小的分配方案，即为最终的分配方案。

优选地，上述技术方案中，步骤1)中，基于工作流构建的二叉树获取冲突任务集，具体为：

对于要分配的任务t_i，根据可能减少的传输数据从CS_i中选择服务器。与t_i相关的数据可以是转移到t_i(其大小已知)或从t_i转移的数据(其大小未知，因为t_i尚未执行)。为了尽可能减少传输的数据大小，最大数据路径被定义并用于服务器选择。

基于工作流模型，通过将任务放在叶子节点上，将运算符放在内部节点上，可以很容易地建立一个完整的二叉树来表示任务之间的控制流。如算法1所示，可以通过二叉树遍历获得并行分支中的每个任务的CT_i。

优选地，上述技术方案中，步骤2)中，通过修改warshall算法以搜索最大数据路径集，具体为：

每个任务的MDP_i可能包含多个集合，并根据任务之间的数据依赖性获取。可以修改warshall算法以搜索最大数据路径，如算法2所示。

在算法中，PS_i,j表示从t_i到t_j的数据路径上的节点集。MDPE_i表示从t_i开始的最大数据路径的结束任务集。从任务t_i开始的最大数据路径不包括独占选择分支中的任何t_k，因为这些任务可能不被执行，并且相关的数据依赖性对于减少传输的数据大小可能是无用的。对于这种情况，不考虑从t_i到t_j到可选任务t_k的路径，除非t_i和t_k在相同的独占选择分支中。如果t_i可以通过t_k达到t_j，则以t_k结尾的数据路径比在t_j结束的数据路径短，并且不是从t_i开始的最大数据路径，因此将删除t_k。此外，应将从t_i到t_j的数据路径添加到PS_i,j中。只要更新PS_i,j，就应该通过删除另一组中所包含的集合来简化它。

优选地，上述技术方案中，步骤3)中，执行期间的动态任务分配，具体为：

给定数据密集型工作流W，可以通过上述算法获得每个t_i的CT_i和MDP_i。然后可以基于CS_i,TS_p,CT_i,MDP_i和ds_j,i(从t_j到t_i传输的已知数据大小)来分配t_i，其中CT_i仅对某个并行分支中的t_i有用。具体算法如下所示。

通常，t₁和t_n是具有n个任务的工作流的第一个和最后一个任务(可以添加虚拟开始或结束任务以获得这样的工作流)。所以第一个任务在第20行分配给t₁，分配在t_n分配后终止。过程A(i)(第1行到第19行)用于分配t_i。任务执行完成后，getCandT()将检测执行的任务并返回接下来可以分配的任务。如果CdT中有多个任务，这些任务将按照从第26行到第36行的顺序依次动态分配。

要决定首先分配CdT中的哪个任务，应用三个原则来获得较小的候选任务集。之后，如果仍有多个任务(这种情况不经常发生)，则将从CT₃中随机选择要分配的任务。

第一个原则是任务最少|CS_i|是优选的。通常，CdT中的多个任务是多个并行分支的第一个任务，需要不同的服务器。如果稍后分配|CS_i|较少的t_i，则t_i的所有候选服务器可能已经分配给其他并行任务，并且必须招募另一个新服务器来处理t_i，而更多服务器通常意味着更多可能的传输数据。

选择任务的第二个原则是具有最大sumDT(i)的那个是优选的。sumDT(i)表示从某些已执行任务传输的已知数据总大小，可以通过将相关任务分配给同一服务器来减少这些大小。它可以通过以下公式计算。

第三个原则是最大的|P_i,u|是优选的。最大数据路径具有的任务越多，减少要传输的未知数据大小的可能性就越大。

为了确定应该将任务t_i分配给哪个服务器，有必要计算可能减少的传输数据。在此之前，如果CT_i不为空并且CS_i中的服务器s_p已经分配给CT_i中的任务t_j(as_j＝s_p)，则必须首先从CS_i中删除服务器s_p以保持t_i和t_j并行。对于缩减后的CS_i中的每个服务器s_p，如果t_i分配给s_p，则根据ds_j,i,as_j＝s_p,d_j,i＝1，计算总的传输数据大小，即sumS_p。具有最大sumS_p的服务器s_p是首选，因为它可以减少一定量的数据。如果没有传输的数据可以减少，因为在CS_i中的服务器上没有执行与t_i的数据相关的任务，则优选与从t_i开始的最大数据路径的最大交集的服务器s_p，因为它可能通过涉及更多的数据依赖关系来减少更多的传输数据。

基于实例和定义1中给出的11个任务的控制流程，随机生成数据密集型工作流并表示为W＝<T,D,E>，其中T＝{t_i|i＝1,2,…,11}，E＝t₁·(t₂//(t₃+t₄·t₅))·t₆·(t₇//t₈·(t₉//t₁₀))·t₁₁，D的子集满足d_i,j＝1有{d_1,2,d_1,3,d_1,4,d_2,6,d_2,7,d_3,6,d_4,5,d_4,6,d_4,8,d_4,11,d_5,6,d_6,7,d_6,8,d_6,9,d_6,11,d_7,11,d_8,9,d_8,10,d_9,11,d_10,11}。

在执行之前，可以根据算法1和算法2获得并行分支中的每个任务的CT_i和每个任务的MDP_i。

根据算法3，可以基于在执行之前给出的W，CS_i和实际执行细节，即ET＝T-{t₃}和MDP_i(i＝1,2，...，10)中的每个数据依赖性的数据大小来获得最终分配结果R。

在开始时，首先分配t₁。由于t₁没有从其他任务中传输数据，所以要分配给它的服务器是TS_p与MDP₁中三组任务交集最大的服务器。在本例中，s₃被选中，因为TS₁与P₁₃有6个公共元素。在执行t₁之后，CdT获得要分配的两个候选任务，即t₂和t₄(选择专用选择分支t₄·t₅但不选择t₃)。作为|CS₄|＝|CS₂|和sumDT(2)＝7>sumDT(4)＝0(并且不可能在同一服务器上生成t₄和t₁)，首先分配t₂(至s₃)，然后将t₄分配给s₁与MDP₄中设置的最大交集。然后，基于MDP₅将t₅分配给s₂。为了分配t₆，sumS₁和sumS₃分别由基于ds_4,6和ds_2,6的等式(2)计算，并且获得<t₆,s₁>。对于t₇和t₈，首先根据原理分配t₈，并获得<t₈,s₁>，<t₇,s₄>。对于t₉和t₁₀，t₁₀首先被分配给唯一的候选服务器s₃，并且t₉基于sumS₁和sumS₃被分配给s₁。最后，t₁₁被分配给s₁，因为sumS₁＝23，sumS₃＝9，sumS₄＝14。该分配方案sumD(R)＝62的总传输数据可以通过等式(1)来计算。

作为比较，给出了一个基于基本规则的分配结果，即每个t_i优先使用CS_i中|TS_p|较多的服务器。在完全相同的输入和执行情况下，得到R’＝{<t₁,s₃>,<t₂,s₃>,<t₄,s₁>,<t₅,s₄>,<t₆,s₃>,<t₇,s₄>,<t₈,s₃>,<t₉,s₁>,<t₁₀,s₃>,<t₁₁,s₃>}，该方案的总传输数据为sumD(R)＝94。与工作流的原始总数据大小相比，R’可以减少一些传输数据，同时它仍然获得比我们的方法获得的R大得多的数据。

本发明的实例模型及问题描述如下：

(1)实例模型

本例11个任务的工作流模型，其中每个任务都有一些功能需求，表示要执行的操作，任务之间的边代表控制流。例如，任务5在任务4之后执行，并且这两个任务都在独占选择分支中(该分支可能不会根据任务1的结果执行)。任务之间的数据依赖性可以通过有序对来呈现，例如<1,2>，<2,6>。在执行任务1之前，通常很难估计从任务1传输到任务2的实际数据大小，尽管该大小对于数据密集型工作流中的任务分配非常重要。

要在云环境中部署数据密集型工作流，应首先找到每个任务的候选云服务器。如果满足任务功能要求的服务位于服务器上，则该服务器可以是候选服务器。并非任何任务的候选服务器都有机会执行任务。以上述工作流为例，如果未选择任务3的分支，则不需要选择任务3的候选服务器。此外，如果服务器A是任务7和任务9的候选服务器，并且任务7已经分配给服务器A，那么A不能分配给任务9，因为它们应该以并行方式执行。

给定多个可用服务器，任务应选择最有可能减少更多传输数据的服务器。以上述实例中的工作流为例，假设任务6有三个候选服务器A，B和C，其中A和B未被任何任务选择，而B也是任务7的候选服务器，C由任务2选择并且任务2需要将1GB数据传输到任务6。在为任务6分配时，C将最终减少1GB，B可能会减少一些数据(任务7可能没有分配给B，即使如此，减小的大小也是未知的)，A似乎没有好处。在这种情况下，将任务6分配给C可能更合理。

真实情况要比上面的例子复杂得多。任务的分配必须同时考虑具有已知大小或未知大小的相关控制流和数据依赖性。详细的问题描述和分配方法如下所示。为了使方法描述更简洁，采用进程代数来定义工作流，尽管有多种工作流表示方法。

(2)问题描述

在云环境中分配的数据密集型工作流描述如下。

定义1(W)。工作流程定义为三元组W＝<T,D,E>

T＝{ti|ti表示工作流中的第i个任务，i＝1,2,…,n}提供任务集；

D＝{d_i,j|d_i,j表示从t_i到t_j的数据依赖性，值为0或1,i,j＝1,2,…,n}提供数据依赖集；

E＝t_i|(E·E)|(E+E)|(E//E)，E表示由T的有限算子和任务组成的表达式，其中·表示顺序，+表示排他性选择，//表示平行。E提供工作流的控制逻辑。

通过删除不必要的括号“(”和“)”，使用给定的优先顺序·>//>+，可以简化表达式。例如，实例1中的工作流可以表示为t₁·(t₂∥(t₃+t₄·t₅))·t₆·(t₇∥t₈·(t₉∥t₁₀))·t₁₁。

参与数据密集型工作流分配的云服务器表示为s_p，其中p＝1,2,…,m。工作流中的每个任务可能具有多个候选云服务器。

定义2(CS_i)。第i个任务的候选服务器被定义为集合CS_i＝{s_p|s_p可以提供满足t_i，p∈1,2,…,m}的功能要求的服务。

一般而言，仅当sp是可以提供多个服务以处理工作流的多个任务的服务器时，才有可能减少任务之间的传输数据。能够在工作流中处理更多任务的服务器将优选作为候选服务器。

定义3(TS_p)。s_p可以处理的任务定义为集合TS_p＝{t_i|t_i可以在s_p上执行，i＝1,2,…,n}。

显然，CS_i和TS_p以不同的方式提供类似的信息，并且它们都用于分配算法。每个任务t_i可以分配给CS_i中的服务器，并且如果它们具有数据依赖性，则同一TS_p中的任务有机会减少传输的数据。但是，如果同一TS_p中的某些任务位于不同的并行分支中，则不应将它们分配给同一服务器。并行分支中的每个任务可能都有一些冲突任务。

定义4(CT_i)。与第i个任务冲突的任务被定义为集合CT_i＝{t_j|t_j和t_i对服务器的选择存在冲突，j∈1,2,…,n}

以实例来说，CT₇＝{t₈,t₉,t₁₀}，CT₇＝{t₈,t₉,t₁₀}等。必须为冲突任务选择不同的服务器以使它们保持平行。

给定具有独占选择分支的工作流，并非所有任务都将被执行。例如，实例的实际执行结果可能是t₁·(t₂//t₃)·t₆·(t₇//t₈·(t₉//t₁₀))·t₁₁或t₁·(t₂//t₄·t₅)·t₆·(t₇//t₈·(t₉//t₁₀))·t₁₁。如果任务在独占选择分支中并且未选择此分支，则不必分配此任务。

定义5(ET)。工作流模型中执行的任务定义为集合ET＝{t_i|执行t_i，i∈1,2,…,n}

在云环境中的数据密集型工作流中分配任务的结果可以定义如下。

定义6(R)。由n个元组组成的结果定义为R＝{<t_i,as_i>|t_i被分配给as_i，as_i∈CS_i，t_i∈ET}。

给定W和CS_i(i＝1,2,…,n)，可以找到许多可行的解决方案，并且具有较少传输数据的R将更好。对于具有d_i，j＝1的两个任务t_i和t_j，可以仅在执行t_i之后获得要从t_i传送的数据大小，表示为ds_i，j。执行期间的总传输数据可以基于等式(1)来计算。

定义7(MDP_i)。从t_i开始的最大数据路径被定义为集合MDP_i＝{P_i，u|P_i，_u是T的子集，P_i，u中的任务可以形成路径v₀v₁…v_k…使其中v₀＝i，v_k≠i，v_k∈1,2,…,n,}。

附图说明：

图1为实例模型；

图2为动态任务分配方法步骤。

具体实施方式：

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

本发明提出了一种面向数据大小优化的动态任务分配方法，以期获得任务执行时间和传输数据总体较优的分配方法。为了减少传输的数据，可以直接将具有较大传输数据大小的任务分配给同一服务器。但是，与每个数据依赖关系相对应的数据大小是未知的，并且在执行之前很难获得全局最优解决方案。在我们的动态任务分配方法中，只有在执行所有先前任务后才分配任务。任务的分配基于具有已知或未知数据大小的相关数据依赖性、冲突任务和候选服务器。以下将对部分步骤进行具体描述。

(1)基于工作流构建的二叉树获取冲突任务集

在算法1中，h表示节点“//”的高度作为并行分支可能嵌入另一个节点中。以E＝t₇//t₈·(t₉//t₁₀)为例，第一个‘//’(h＝1)有左孩子t7和右孩子‘·’，其中‘·’有左孩子t8和右孩子‘//’(h＝2)。标志f_h用于表示子树的叶节点属于哪个分支。基于h和f_h，具有根‘//’的子树中的每个叶节点，即具有不同高度的并行分支中的任务，可以被添加到相应的集合中。根据该算法，t₇在LS₁中，t₈在RS₁中，t₉在RS₁和LS₂中，t₁₀在RS₁和RS₂中，并且可以容易地获得CT_i，例如CT₇＝{t₈,t₉,t₁₀},CT₉＝{t₇,t₁₀}。

(2)通过修改warshall算法以搜索最大数据路径集

在算法2中，PS_i,j表示从t_i到t_j的数据路径上的节点集。MDPE_i表示从t_i开始的最大数据路径的结束任务集。从任务t_i开始的最大数据路径不包括独占选择分支中的任何t_k，因为这些任务可能不被执行，并且相关的数据依赖性对于减少传输的数据大小可能是无用的。对于这种情况，不考虑从t_i到t_j到可选任务t_k的路径，除非t_i和t_k在相同的独占选择分支中。如果t_i可以通过t_k达到t_j，则以t_k结尾的数据路径比在t_j结束的数据路径短，并且不是从t_i开始的最大数据路径，因此将删除t_k。此外，应将从t_i到t_j的数据路径添加到PS_i,j中。只要更新PS_i,j，就应该通过删除另一组中所包含的集合来简化它。

(3)执行期间的动态任务分配

为了确定应该将任务t_i分配给哪个服务器，有必要计算可能减少的传输数据。在此之前，如果CT_i不为空并且CS_i中的服务器s_p已经分配给CT_i中的任务t_j(as_j＝s_p)，则必须首先从CS_i中删除服务器s_p以保持t_i和t_j并行。对于缩减后的CS_i中的每个服务器s_p，如果t_i分配给s_p，则根据ds_j,i,as_j＝s_p,d_j,i＝1，计算总的传输数据大小，即sumS_p。具有最大sumS_p的服务器s_p是首选，因为它可以减少一定量的数据。如果没有传输的数据可以减少，因为在CS_i中的服务器上没有执行与t_i的数据相关的任务，则优选与从ti开始的最大数据路径的最大交集的服务器s_p，因为它可能通过涉及更多的数据依赖关系来减少更多的传输数据。

(4)得到最终分配方案

基于实例和定义1中给出的11个任务的控制流程，随机生成数据密集型工作流并表示为W＝<T,D,E>，其中T＝{t_i|i＝1,2,…,11}，E＝t₁·(t₂//(t₃+t₄·t₅))·t₆·(t₇//t₈·(t₉//t₁₀))·t₁₁，D的子集满足d_i,j＝1有{d_1,2,d_1,3,d_1,4,d_2,6,d2,7,d_3,6,d_4,5,d_4,6,d_4,8,d_4,11,d_5,6,d_6,7,d_6,8,d_6,9,d_6,11,d_7,11,d_8,9,d_8,10,d_9,11,d_10,11}。

根据算法3，可以基于在执行之前给出的W，CS_i和实际执行细节，即ET＝T-{t3}和MDP_i(i＝1,2，...，10)中的每个数据依赖性的数据大小来获得最终分配结果R。

在开始时，首先分配t₁；由于t₁没有从其他任务中传输数据，所以要分配给它的服务器是TS_p与MDP₁中三组任务交集最大的服务器；在本例中，s₃被选中，因为TS₁与P₁₃有6个公共元素；在执行t₁之后，CdT获得要分配的两个候选任务，即t₂和t₄(选择专用选择分支t₄·t₅但不选择t₃)；作为|CS₄|＝|CS₂|和sumDT(2)＝7>sumDT(4)＝0(并且不可能在同一服务器上生成t₄和t₁)，首先分配t₂(至s₃)，然后将t₄分配给s₁与MDP₄中设置的最大交集；然后，基于MDP₅将t₅分配给s₂；为了分配t₆，sumS1和sumS3分别由基于ds_4,6和ds_2,6的等式(2)计算，并且获得<t₆,s₁>；对于t₇和t₈，首先根据原理分配t₈，并获得<t₈,s₁>，<t₇,s₄>；对于t₉和t₁₀，t₁₀首先被分配给唯一的候选服务器S₃，并且t₉基于sumS₁和sumS₃被分配给s₁；最后，t₁₁被分配给s₁，因为sumS₁＝23，sumS₃＝9，sumS₄＝14；该分配方案sumD(R)＝62的总传输数据可以通过等式(1)来计算。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种云环境中数据密集型工作流的动态任务分配方法，其特征在于，首先基于进程代数描述了具有数据依赖性和典型控制逻辑的工作流，即：顺序，并行和排他性选择，只有在执行任务后才能获得与数据依赖性相关的数据大小；然后根据相关数据大小和最大数据路径将每个任务分配给特定的服务器；最后得到在云环境中执行数据密集型工作流程期间降低传输数据大小的分配方案。

2.根据权利要求1所述的云环境中数据密集型工作流的动态任务分配方法，其特征在于，包括以下步骤：

1)基于工作流构建的二叉树获取冲突任务集，

基于工作流模型，通过将任务放在叶子节点上，将运算符放在内部节点上，可以很容易地建立一个完整的二叉树来表示任务之间的控制流。如冲突任务集算法所示，可以通过二叉树遍历获得并行分支中的每个任务的冲突任务；

2)通过修改warshall算法以搜索最大数据路径集，

每个任务的MDP_i可能包含多个集合，并根据任务之间的数据依赖性获取，给定数据密集型工作流，可以通过该算法获得每个任务的冲突任务和最大数据路径，为最终的动态任务分配算法提供判定条件；

3)执行期间的动态任务分配，

要决定首先分配冲突任务集中的哪个任务，应用三个原则来获得较小的候选任务集；之后，如果仍有多个任务，则将从指定任务集中随机选择要分配的任务；

4)得到最终分配方案

3.根据权利要求2所述的云环境中数据密集型工作流的动态任务分配方法，其特征是，步骤1)中，基于工作流构建的二叉树获取冲突任务集，具体为：

对于要分配的任务t_i根据可能减少的传输数据从CS_i中选择服务器。与t_i相关的数据可以是转移到大小已知的t_i或从t_i转移的大小未知的数据；为了尽可能减少传输的数据大小，最大数据路径被定义并用于服务器选择；

基于工作流模型，通过将任务放在叶子节点上，将运算符放在内部节点上，可以很容易地建立一个完整的二叉树来表示任务之间的控制流。

4.根据权利要求2所述的云环境中数据密集型工作流的动态任务分配方法，其特征是，步骤2)中，通过修改warshall算法以搜索最大数据路径集，具体为：

每个任务的MDP_i可能包含多个集合，并根据任务之间的数据依赖性获取。可以修改warshall算法以搜索最大数据路径，从任务ti开始的最大数据路径不包括独占选择分支中的任何t_k，因为这些任务可能不被执行，并且相关的数据依赖性对于减少传输的数据大小可能是无用的。对于这种情况，不考虑从t_i到t_j到可选任务t_k的路径，除非t_i和t_k在相同的独占选择分支中。如果t_i可以通过t_k达到t_j，则以t_k结尾的数据路径比在t_j结束的数据路径短，并且不是从t_i开始的最大数据路径，因此将删除t_k。此外，应将从t_i到t_j的数据路径添加到PS_i,j中。只要更新PS_i,j，就应该通过删除另一组中所包含的集合来简化它。

5.根据权利要求2所述的云环境中数据密集型工作流的动态任务分配方法，其特征是步骤3)中，执行期间的动态任务分配，具体为：

给定数据密集型工作流W，可以通过上述算法获得每个t_i的CT_i和MDP_i；然后可以基于CS_i,TS_p,CT_i,MDP_i和ds_j,i(从t_j到t_i传输的已知数据大小)来分配t_i，其中CT_i仅对某个并行分支中的t_i有用；

要决定首先分配CdT中的哪个任务，应用三个原则来获得较小的候选任务集；之后，如果仍有多个任务，则将从CT₃中随机选择要分配的任务；

第一个原则是任务最少|CS_i|是优选的；通常，CdT中的多个任务是多个并行分支的第一个任务，需要不同的服务器；如果稍后分配|CS_i|较少的t_i，则t_i的所有候选服务器可能已经分配给其他并行任务，并且必须招募另一个新服务器来处理t_i，而更多服务器通常意味着更多可能的传输数据；

选择任务的第二个原则是具有最大sumDT(i)的那个是优选的；sumDT(i)表示从某些已执行任务传输的已知数据总大小，可以通过将相关任务分配给同一服务器来减少这些大小；它可以通过以下公式计算：

第三个原则是最大的|P_i,u|是优选的；最大数据路径具有的任务越多，减少要传输的未知数据大小的可能性就越大；

为了确定应该将任务t_i分配给哪个服务器，有必要计算可能减少的传输数据。在此之前，如果CT_i不为空并且CS_i中的服务器s_p已经分配给CT_i中的任务t_j(as_j＝s_p)，则必须首先从CS_i中删除服务器s_p以保持t_i和t_j并行。对于缩减后的CS_i中的每个服务器s_p，如果t_i分配给s_p，则根据ds_j,i,as_j＝s_p,d_j,i＝1，计算总的传输数据大小，即sumS_p；具有最大sumS_p的服务器s_p是首选，因为它可以减少一定量的数据；如果没有传输的数据可以减少，因为在CS_i中的服务器上没有执行与t_i的数据相关的任务，则优选与从t_i开始的最大数据路径的最大交集的服务器s_p，因为它可能通过涉及更多的数据依赖关系来减少更多的传输数据。

6.根据权利要求2所述的云环境中数据密集型工作流的动态任务分配方法，其特征是步骤4)中，得到最终分配方案，具体为：

基于实例和定义1中给出的11个任务的控制流程，随机生成数据密集型工作流并表示为W＝<T,D,E>，其中T＝{t_i|i＝1,2,…,11}，E＝t₁·(t₂//(t₃+t₄·t₅))·t₆·(t₇//t₈·(t₉//t₁₀))·t₁₁，D的子集满足d_i,j＝1有{d_1,2,d_1,3,d_1,4,d_2,6,d_2,7,d_3,6,d_4,5,d_4,6,d_4,8,d_4,11,d_5,6,d_6,7,d_6,8,d_6,9,d_6,11,d_7,11,d_8,9,d_8,10,d_9,11,d_10,11}；

在执行之前，可以根据算法1和算法2获得并行分支中的每个任务的CT_i和每个任务的MDP_i；

7.根据权利要求2所述的云环境中数据密集型工作流的动态任务分配方法，其特征是步骤4)中，作为比较，给出了一个基于基本规则的分配结果，即每个t_i优先使用CS_i中|TS_p|较多的服务器；在完全相同的输入和执行情况下，得到R’＝{<t₁,s₃>,<t₂,s₃>,<t₄,s₁>,<t₅,s₄>,<t₆,s₃>,<t₇,s₄>,<t₈,s₃>,<t₉,s₁>,<t₁₀,s₃>,<t₁₁,s₃>}，该方案的总传输数据为sumD(R)＝94；与工作流的原始总数据大小相比，R’可以减少一些传输数据，同时它仍然获得比我们的方法获得的R大得多的数据。