CN111722910B

CN111722910B - 一种云作业调度及资源配置的方法

Info

Publication number: CN111722910B
Application number: CN202010567753.6A
Authority: CN
Inventors: 崔得龙; 林建鹏; 彭志平; 李启锐; 何杰光; 邱金波
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2023-07-21
Anticipated expiration: 2040-06-19
Also published as: CN111722910A

Abstract

本发明涉及云计算领域，更具体地，涉及一种云作业调度及资源配置的方法，包括：步骤S1：获取用户上传的作业，建立作业集；步骤S2：将作业集中的作业分配到不同的作业队列；步骤S3：通过作业调度器将作业队列中的作业调度到不同的数据中心；步骤S4：对调度到数据中心的作业进行任务解耦，将作业转化为不同的子任务；步骤S5：通过资源调度器为不同的子任务分配虚拟机，并且以虚拟机为部署单位，部署到相应的服务器。本发明对云作业调度进行多目标优化和全局优化。

Description

一种云作业调度及资源配置的方法

技术领域

本发明涉及云计算领域，更具体地，涉及一种云作业调度及资源配置的方法。

背景技术

随着人工智能和5G通信技术的发展，云计算应用前景将更加广阔，用户数和服务供应商数也将出现爆发式增长。云计算行动方案的持续实施，产业界和学术界两者在云计算领域的投入持续增加，云市场仍保持快速增长的态势。另外，随着理论研究和技术水平的不断完善和进步，云计算已经成为推动人工智能发展的强大动力引擎，进一步提升，大数据、物联网等新兴的应用落地和发展。然而，由于应用规模爆发式壮大，用户数和服务供应商数迅速增加，如何高效实现多用户多云供应商的作业调度与资源配置成为云计算发展的一项重大挑战。良好的调度策略需要在复杂的云环境下，不仅能够实现云任务的高效调度，而且还需要综合考虑用户的服务质量和供应商的收益。在复杂多变的云环境下实现多用户多数据中心高效的作业调度与资源供配置将会成为一项重大挑战。

针对云作业调度的问题学者们研究出了许多方案，其中启发式算法一直是解决云计算调度问题的最常用的解决方法。Alkayal等人提出了一种利用多目标优化(MOO)和粒子群优化(PSO)算法优化作业调度的资源配置新模型，该模型目标是将作业调度到虚拟机过程中，最小化等待时间并最大化***吞吐量。而Hu等人针对工作流调度的可靠性问题，提出一种多云环境下的科学工作流多目标调度算法，目标是在可靠性约束下，最小化工作流的完工时间和成本。还有近年来，在尝试采用强化学习的决策能力和“试错机制”来探索调度问题最优策略的算法。Peng等人结合强化学习和队列理论来解决复杂云环境下的任务调度和资源配置问题。提出的方法巧妙的将调度问题转变成序列决策问题，通过RL智能体不断与云环境交互探索，寻找最优的调度策略。Yi等人针对在动态变化的用户需求和云环境中，实现应用程序的自动伸缩问题，提出一个Q-learning算法的自适应租赁计划生成方法来帮助SaaS供应商做出高效的IaaS设施调整决策，并自动生成最优的租赁策略。上述的方案虽然能解决调度问题，但却仍然存在不少缺陷。首先，大多现存研究只针对调度过程的任务调度阶段或资源配置阶段进行优化，而不是全局优化。然后，大多研究只针对用户服务质量或是云供应商收益作为单一优化目标，而不是多目标优化。因此，目前亟需一种对云作业调度进行多目标优化和全局优化的云作业调度及资源配置的方法。

发明内容

为了解决上述问题，本发明提供一种云作业调度及资源配置的方法，该方法对云作业调度进行多目标优化和全局优化。

本发明采取的技术方案是：

一种云作业调度及资源配置的方法，包括：

步骤S1：获取作业，建立作业集；

步骤S2：将作业集中的作业分配到不同的作业队列；

步骤S3：将作业队列中的作业调度到不同的数据中心；

步骤S4：对调度到数据中心的作业进行任务解耦，将作业转化为不同的子任务；

步骤S5：为不同的子任务分配虚拟机，并且以虚拟机为部署单位，部署到相应的服务器。

具体地，本方案分为两个阶段包括作业调度阶段和资源配置阶段，两个阶段分别具有不同的智能调度器负责调度任务。在作业调度阶段，采用HDDL(HeterogeneousDistributed Deep Learning model)模型作为作业调度器将用户通过互联网上传的作业进行调度，由于海量的用户和众多的数据中心存在错综复杂的地理位置关系。因此，作业调度器将来自地理位置接近的作业聚集到同一作业队列中，形成多个作业队列。作业调度器充分考虑数据中心和用户的地理位置分布，用户作业负载的属性，数据中心的资源配置等因素，为用户作业负载选择最优的数据中心，权衡作业的运行延迟和数据中心的能耗，在保证用户服务质量的同时，尽量减少能耗以提高供应商的收益。在资源配置阶段，采用DQN(Deep Q-network)模型作为资源调度器，资源调度器负责为任务配置虚拟机资源，并将虚拟机部署到数据中心的服务器上执行。资源调度器将调度到数据中心的作业转化为任务，再将任务拆分为一个个子任务，然后根据服务器的负载状态以及动态能耗调整资源配置策略，为任务配置满足其资源需求的虚拟机资源，并部署到特定的服务器上，减少任务延迟和数据中心的能耗，提高用户的服务质量和降低服务供应商的成本。作业调度器和资源调度器综合考虑用户作业延迟和数据中心的能耗对云作业调度进行多目标优化和全局优化。

进一步地，所述步骤S3包括：

步骤S3.1：通过作业队列中的作业训练作业调度器；

所述作业调度器包括作业样本池和多个深度神经网络，用于根据作业属性和数据中心参数将作业队列中的作业调度到不同的数据中心；

步骤S3.2：通过训练好的作业调度器获取调度结果；所述调度结果为作业以最小的作业延迟和能耗消耗满足作业需求的调度方式；

步骤S3.3：根据调度结果进行作业调度。

具体地，作业调度阶段的目标是将多个作业队列中的作业按照调度策略调度到特定的数据中心中。作业调度器，也即HDDL模型由多个异构的深度神经网络(DNN)和作业样本池(Memory)组成，各个DNN的网络层数相同，网络隐藏层节点数不同。HDDL模型扮演的角色是将多个作业调度到不同的数据中心。因为用户作业需求种类各异，并且不同的数据中心在计算能力、带宽、能耗等也存在明显的差异，所以当多个用户通过网络提交需求各异的作业到云数据中心，通过按需付费的方式获取相应的云计算服务时，作业调度器需要根据用户作业需求和各数据中心的属性，来为不同的作业选择合适的数据中心，以最小的延迟和成本代价来执行作业。作业调度器负责在综合考虑用户服务质量和供应商成本的情况下，按照最优的调度策略，将作业队列中的作业调度到多个数据中心。

进一步地，所述步骤S3.1包括：

步骤S3.11：将作业队列中作业的属性表示为作业状态s_t；

步骤S3.12：通过函数将作业状态s_t转化为多个动作决策；

步骤S3.13：通过回报函数计算多个动作决策中每个动作决策的回报值；

步骤S3.14：选取最小回报值对应的动作决策为最优决策，并且将作业状态s_t和最优决策存储进作业样本池中；

步骤S3.15：根据作业样本池中的作业状态s_t和最优决策对深度神经网络进行训练。

具体地，HDDL模型的训练过程：首先将所有队列中的作业属性表示为作业状态s_t，将作业状态s_t作为所有DNN的输入，经过函数转化后，输出多个动作决策通过设定好的回报函数计算每个动作决策能够获得的回报值，取最大或最小回报值的对应的动作决策作为最优决策(在本方案中，回报函数为优化作业延迟和能源消耗，因此取最小的回报值对应的动作决策为最优决策)。然后，将各DNN训练过程中产生的s_t和最优决策作为样本存储到样本池中，随机从样本池中抽取Min-batch批量样本作为各个DNN的公用训练样本集，用于目标为最小化回报值的训练。

进一步地，所述步骤S3.1中深度神经网络的交叉熵损失函数为：

其中，θ^x为第x个深度神经网络的参数，所述深度神经网络的参数由随机梯度下降法进行更新；为第T个动作决策。

进一步地，所述步骤S3.13中的回报函数为：

其中，s为作业状态，d为动作决策，λ^d为延迟的回报值权重，λ^e为能耗的回报值权重，N为作业队列总数，M为每个作业队列的作业总数，为作业的通信延迟，/>为作业的计算延迟，/>为作业的通信能耗，/>为作业的计算能耗。

具体地，作业调度器的优化目标是作业延迟和能源消耗，因此作业调度器包括通信模型和计算模型。通信模型包括通信延迟和通信能耗；计算模型包括计算延迟和计算能耗。

进一步地，所述作业的通信能耗为：

所述作业的通信延迟为：

其中，为数据中心通信功率，β_nm为传输数据量，/>为给作业分配的带宽；

所述作业的计算能耗为：

所述作业的计算延迟为：

其中，为数据中心运行功率，α_nm为计算作业所需的CPU周期，/>为给作业分配的计算周期；

所述给作业分配的带宽为：

其中，A_k为数据中心的作业总数，BW_k为数据中心的带宽；

所述给作业分配的计算周期为：

其中，A_k为数据中心的作业总数，C_k为数据中心的计算能力。

进一步地，所述步骤S5包括：

步骤S5.1：通过子任务训练资源调度器；

所述资源调度器包括智能体和任务样本池，用于根据任务属性为子任务分配虚拟机，根据服务器参数将虚拟机部署到相应的服务器；

步骤S5.2：通过训练好的资源调度器获取部署结果；所述部署结果为子任务以最小的任务延迟和能源消耗满足任务需求的部署方式；

步骤S5.3：根据部署结果进行虚拟机部署。

具体地，资源配置阶段的目标是根据任务的资源需求和服务器的负载状态调整资源配置策略。资源调度器，也即DQN模型由智能体(Agent)和任务样本池(Memory)组成，智能体通过不断与云环境进行交互探索，透过奖罚机制和经验回放机制，累积学习经验，以寻找最优的调度策略。当用户作业传输到数据中心后，需要对具有任务依赖关系的作业流进行任务解耦，按照其拓扑顺序将子任务排列到任务队列中，以确保满足任务之间的依赖性。在本方案中不考虑数据放置因素，忽略数据在同一数据中心的传输成本和时间。数据中心由众多异构的物理服务器链接而成，由于数据中心的服务器硬件配置不同，异构服务器之间的最大负载能力和能耗存在差异。因此，在资源配置的过程中，DQN模型需要为任务分配满足其资源需求的虚拟机资源，部署到特定的服务器上，在保证用户服务质量的同时，实现服务器的负载均衡和减低数据中心能耗的目标。

进一步地，所述步骤S5.1包括：

步骤S5.11：将当前时间步的数据中心的服务器状态输入到智能体；

步骤S5.12：根据服务器状态获取到任务数据集，并且将任务数据集存储进任务样本池中；

步骤S5.13：根据任务样本池中的任务数据集对智能体进行训练；

所述任务数据集为(S_t，α，r，S_t+1)，其中S_t为当前时间步t的数据中心的服务器状态，α为智能体根据服务器状态S_t按照策略π选择的动作，r为进行动作α的回报值，S_t+1为下一时间步t+1数据中心的服务器状态。

具体地，DQN模型的训练过程：首先，云环境将当前时间步t的***状态S_t作为Agent的网络输入，获得Agent按照策略π选择的动作α和回报值r和下一时间步的状态S_t+1，并将任务数据集(S_t，α，r，S_t+1)作为训练样本存储到任务样本池中，待任务样本池中的样本数达到阈值，从中随机抽取Mini-batch数的样本，对智能体进行训练，目标是最大化期望累积折扣回报。

进一步地，所述步骤S5.1中的智能体的均分差损失函数为：

其中，(s，a，r，s’)为任务样本池中任意任务数据集，θ_i为用于计算第i次迭代时的参数，为用于计算第i次迭代时的目标参数，γ∈[0，1]为折扣因子，Q为期望回报值，a’为服务器状态s’下获取最大Q值所采取的动作；

所述参数θ_i关于损失函数的梯度为：

具体地，DQN模型采用Mini-batch训练方法，每个训练回合均从任务样本池中随机选取M个样本(S_t，α，r，S_t+1)，将服务器状态S_t作为在线网络的输入，获得动作α的当前r值，将下一状态S_t+1作为目标网络的输入，获得目标网络中所有动作中的最大回报值Q。计算参数θ关于损失函数的梯度并随机梯度下降法(Stochastic Gradient Descent,SDG)来更新参数θ。网络参数采用延迟更新方法，每若干个训练回合才将当前在线网络的参数值复制给目标网络，更新一次目标网络参数θ～。所述计算参数θ关于损失函数的梯度的公式为：

进一步地，所述资源调度器的总回报函数为：

R_total＝w^d*R_delay+w^ec*R_ec

其中，w^d和w^ec为参数，用于调整R_delay和R_ec的数值，避免两者相差过大；R_delay为任务延迟回报函数，R_ec为能源消耗回报函数；

所述能源消耗回报函数为：

R_ec＝E_total(t)－E_total(t－1)

其中，E_total(t)为数据中心所有服务器在t时刻的总能耗，所述数据中心所有服务器的总能耗为：

其中，为第x个服务器在t时刻的静态能耗，为一个固定常量；/>为第x个服务器在t时刻的动态能耗；

所述服务器的动态能耗为：

其中，U^x(t)为第x个服务器在t时刻的负载率；α_x为参数，表示线性增长率；为第x个服务器在t时刻的最优负载率；β_x为参数，表示非线性增长率；

所述服务器负载率为：

其中，为在t时刻服务器上正运行的虚拟机数量，/>为在t时刻服务器上可运行虚拟机的最大数量。

具体地，资源调度器的优化目标是任务延迟和服务器能源消耗，因此资源调度器的总目标即是最小化回报函数Min(R_total)。服务器能源消耗包括服务器的静态能耗和服务器的动态能耗/>其中服务器的静态能耗/>是常量，服务器的动态能耗/>与服务器的负载率U^x(t)存在复杂关系。每个服务器都存在最优负载率/>当/>时，服务器的动态能耗/>随负载率U^x(t)线性增长，当服务器的动态能耗/>随服务器负载U^x(t)非线性指数增长。若虚拟机成功部署到目标服务器，则回报值为R_delay＝1,否则，R_delay＝-1。

与现有技术相比，本发明的有益效果为：

(1)采用基于深度学习模型的作业调度器完成作业调度，减少任务延迟和数据中心的能耗，提高用户的服务质量和降低服务供应商的成本。

(2)采用深度强化学习的资源调度器在保证用户服务质量的同时，实现服务器的负载均衡和减低数据中心能耗的目标。

(3)作业调度器和资源调度器根据不同阶段的优化目标来完成调度任务，对云作业调度进行多目标优化和全局优化。

附图说明

图1为本发明的框架模型图；

图2为本发明的作业调度器模型图；

图3为本发明的资源调度器模型图；

图4为本发明的仿真实验图1；

图5为本发明的仿真实验图2；

图6为本发明的仿真实验图3；

图7为本发明的仿真实验图4；

图8为本发明的仿真实验图5；

图9为本发明的仿真实验图6；

图10为本发明的仿真实验图7。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例

本实施例提供一种云作业调度及资源配置的方法，图1为本发明的框架模型图，如图所示，包括：

步骤S1：获取作业，建立作业集；

步骤S2：将作业集中的作业分配到不同的作业队列；

步骤S3：将作业队列中的作业调度到不同的数据中心；

进一步地，图2为本发明的作业调度器模型图，如图所示，所述步骤S3包括：

步骤S3.1：通过作业队列中的作业训练作业调度器；

步骤S3.3：根据调度结果进行作业调度。

进一步地，所述步骤S3.1包括：

步骤S3.11：将作业队列中作业的属性表示为作业状态s_t；

步骤S3.12：通过函数将作业状态s_t转化为多个动作决策；

进一步地，所述步骤S3.13中的回报函数为：

进一步地，所述作业的通信能耗为：

所述作业的通信延迟为：

所述作业的计算能耗为：

所述作业的计算延迟为：

所述给作业分配的带宽为：

其中，A_k为数据中心的作业总数，BW_k为数据中心的带宽；

所述给作业分配的计算周期为：

进一步地，图3为本发明的资源调度器模型图，如图所示，所述步骤S5包括：

步骤S5.1：通过子任务训练资源调度器；

步骤S5.3：根据部署结果进行虚拟机部署。

进一步地，所述步骤S5.1包括：

进一步地，所述步骤S5.1中的智能体的均分差损失函数为：

所述参数θ_i关于损失函数的梯度为：

进一步地，所述资源调度器的总回报函数为：

R_total＝w^d*R_delay+w^ec*R_ec

所述能源消耗回报函数为：

R_ec＝E_total(t)－E_total(t－1)

所述服务器的动态能耗为：

所述服务器负载率为：

本实施例针对作业调度阶段和资源配置阶段分别设计仿真实验。

作业调度阶段：

采用的基准算法有随机算法、循环算法RR、贪心算法和经典启发式算法-多目标粒子群算法(MoPSO)。贪心算法即是通过枚举K^M*N种调度方案，计算所有调度方案的回报值Q，选取最小的Q值的方案作为贪心方案，该算法需要耗费大量的计算时间和计算成本，随着数据中心数，队列数，作业数的增加，调度组合数呈指数级增加。

在仿真实验中，设作业队列数N＝3，每个队列包含作业数M＝3，数据中心数K＝3，因此总的调度方案数为3^3*4种。作业的数据量β_nm为取值范围[100,500]MB,并且作业计算周期数与数据量存在关系α_nm＝q*β_nm,q＝330cycles/byte。另外，三个数据中心的计算周期数设置为：1.5*10¹⁵cycle/s，2.5*10¹⁵cycle/s，3.5*10¹⁵cycle/s，运行功率为1.0*10⁵，2.5*10⁵，4.0*10⁵，带宽大小分别为250Mbps，550Mbps，450Mbps，通信功率分别为：0.2,0.6,0.5。实验按照上述参数设置，生成500组作业集作为数据集，每组作业集包含12个作业以及对应的最小Q值，按照8：2比例划分成训练集和测试集。

首先，先对采用HDDL的模型和采用贪心算法的模型进行训练，观察两者所获的Q值比率变化来验证两个模型的收敛性与有效性。

图4为本发明的仿真实验图1，从图中可以看出各个算法在训练过程中Q值比率的变化，如图所示，采用了HDDL的模型随着训练次数的增加，Q值比例逐渐递增。在训练次数达到250回合后，曲线开始收敛，收敛效果稍优于采用了MoPSO算法的模型，并且其收敛值接近1，获得近乎最优的调度效果。

然后，再用采用HDDL的模型与采用了基准算法的模型进行比较，根据模型的任务延迟与能耗的分布来观察不同模型优化效果。

图5为本发明的仿真实验图2，如图所示，采用了不同算法的模型，在w1＝0.5，w2＝0.5时运行100个作业所获得的总延迟和能耗，可以看出，HDDL算法的延迟和能耗均比其他基准算法要更接近贪心Greedy算法。

最后，通过调整两个优化目标：作业延迟和能源消耗，在回报函数所占比重，来验证采用HDDL的模型能否动态调整***优化目标。

图6为本发明的仿真实验图3，如图所示，采用了HDDL的模型在不同的回报值权重下，执行100个任务所获的延迟回报和能耗回报值变化情况。从图中可以明显看出，延迟回报会随着w1的增大而变小，说明当优化目标更偏向于延迟时，作业调度器将会采用使任务延迟更小的调度策略。相反，随着能耗权重的w2减少，能耗将逐渐增加。由此可以看出，HDLL可以依据不用的权重值动态调整优化目标，来满足实际的调度需求，具有较好的灵活性。

在资源配置阶段：

资源配置阶段采用的基准算法是随机算法Random，循环算法RR，最小负载优先算法MLF，最大负载能力优先算法MLCF。其中，最小负载优先算法MLF，即是优先选择当前负载率最小服务器作为目标服务器，该策略能很好实现服务器之间的负载均衡。MLCF最大负载能力优先算法，即是每次优先选择数据中心中负载能力最强的服务器进行任务部署，该策略最大化服务器资源的利用率。

数据中心包含多种异构服务器，且服务器之间硬件配置和负载能力不用。在仿真实验中，设数据中心的服务器数为8个，由4种不同配置的服务器组成，每种服务器各2个。4种服务器的最大负载虚拟机数分别为[40,50,55,60]，最优负载率分别为[0.6,0.65,0.7,0.75]，线性增长率α_x分别为[0.5,0.7,0.9,1.1]，非线性增长率β_x分别为[14,13,11,9]。

图7为本发明的仿真实验图4，4种服务器的动态能耗曲线如图所示，在本仿真实验中，设服务器负载能力越强的，其动态能耗线性增长越快，但受负载率影响越小，非线性增长越慢。回报值权重参数设定为w^d＝1.0，w^ec＝20.0。

首先，选择上述的一个数据中心作为实验对象，观察在特定负载下，采用了不同的基准算法的模型完成任务的所获的总回报值情况，来验证采用了DQN的模型的收敛性和有效性。

图8为本发明的仿真实验图5，如图所示，在集群90％负载下，各算法的完成任务的所获的总回报值情况。由图可知，DQN算法随着训练次数的增加，曲线逐渐收敛。在训练前300回合，DQN回报值曲线逐渐上升，超过Random，RR，MLCF算法，逐渐逼近MLF算法回报值，直到训练300回合后，DQN曲线回报值开始超过MLF曲线，并逐渐收敛。

然后，通过对比不同的集群负载，各种算法完成调度任务所获得总回报值的变化情况，来检验算法在动态变化的集群负载下的优化效果。

图9为本发明的仿真实验图6，如图所示，在不同的集群负载下，各种算法完成调度任务所获得总回报值的变化情况。从图中可以观察到在负载低于65％时，各算法回报值曲线均呈现上升趋势，DQN和MLF回报值曲线相近且优于其他基准算法。在集群负载75％时，DQN和MLF的回报值达到峰值。当负载超过75％时，DQN和MLF回报值都开始下降,但可以明显观察到DQN的下降速度较MLF慢，且回报值优于MLF以及其他基准算法。分析可知，由于MLF算法的策略是优先选择当前负载最小的服务器进行部署，虽然保证了各个服务器的负载均衡，在低负载的情况是较好的调度策略，但在高负载情况下，异构服务器之间的能耗增长速度不同，导致该策略的效果变差。而DQN算法在集群负载较大的情况下，通过从历史经验中学习到异构服务器能耗与负载之间的动态变化关系，按照***的优化目标，生成更合理的调度策略，以获得更好的调度结果。

最后，根据各类服务器的负载分布情况来探索模型从经验中学习到的调度策略。

图10为本发明的仿真实验图7，如图所示，在集群低负载时，弱负载服务器，负载率相对较大，而强负载服务器则负载率相对较小。随着集群负载的增大，强负载服务器的负载率明显增加，接近满负载的状态。由此分析可得，当集群负载低于65％时，弱负载服务器的线性动态能耗增幅小于强负载服务器，调度器选择将更多任务部署到弱负载服务器，会获得更大的收益。但随着负载的增加，强负载服务器的非线性动态能耗增长速度受负载的影响较小，增速比低负载能力的服务器更小。因此，在集群处于高负载时，调度器偏向于将更多的任务部署到强负载能力调度到服务器，以减少集群的总能耗。

上述实验证明，HDDL模型生成近乎最优的调度方案。在资源配置阶段采用深度强化学习模型可解决资源配置问题。DQN调度器能够感知服务器负载变化情况，动态调整资源配置策略，实现减少能耗和任务延迟的优化目标。本方案在复杂的云调度过程中，可基于不同的学习模型来完成不同的调度任务，通过实现各阶段的局部最优，来达到全局近乎最优。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种云作业调度及资源配置的方法，其特征在于，包括：

步骤S1：获取作业，建立作业集；

步骤S2：将作业集中的作业分配到不同的作业队列；

步骤S3：将作业队列中的作业调度到不同的数据中心；

步骤S5：为不同的子任务分配虚拟机，并且以虚拟机为部署单位，部署到相应的服务器；

步骤S3.1：通过作业队列中的作业训练作业调度器；

步骤S3.3：根据调度结果进行作业调度；所述步骤S3.1包括：

步骤S3.11：将作业队列中作业的属性表示为作业状态；

步骤S3.12：通过函数将作业状态/>转化为多个动作决策；

步骤S3.14：选取最小回报值对应的动作决策为最优决策，并且将作业状态和最优决策存储进作业样本池中；

步骤S3.15：根据作业样本池中的作业状态和最优决策对深度神经网络进行训练；步骤S3.1中深度神经网络的交叉熵损失函数为：

其中，为第x个深度神经网络的参数，所述深度神经网络的参数由随机梯度下降法进行更新；/>为第T个动作决策

所述步骤S3.13中的回报函数为：

其中，s为作业状态，d为动作决策，为延迟的回报值权重，/>为能耗的回报值权重，N为作业队列总数，M为每个作业队列的作业总数，/>为作业的通信延迟，/>为作业的计算延迟，/>为作业的通信能耗，/>为作业的计算能耗；

所述作业的通信能耗为：

=/>·/>

所述作业的通信延迟为：

=/>

其中，为数据中心通信功率，/>为传输数据量，/>为给作业分配的带宽；

所述作业的计算能耗为：

=/>·/>

所述作业的计算延迟为：

=/>

其中，为数据中心运行功率，/>为计算作业所需的CPU周期，/>为给作业分配的计算周期；

所述给作业分配的带宽为：

=/>

其中，为数据中心的作业总数，/>为数据中心的带宽；

所述给作业分配的计算周期为：

=/>

其中，为数据中心的作业总数，/>为数据中心的计算能力；

所述步骤S5包括：

步骤S5.1：通过子任务训练资源调度器；

步骤S5.3：根据部署结果进行虚拟机部署；

所述步骤S5.1包括：

所述任务数据集为（，α，r，/>），其中/>为当前时间步t的数据中心的服务器状态，α为智能体根据服务器状态/>按照策略π选择的动作，r为进行动作α的回报值，/>为下一时间步/>数据中心的服务器状态；

步骤S5.1中的智能体的均分差损失函数为：

其中，（s，a，r，s’）为任务样本池中任意任务数据集，为用于计算第i次迭代时的参数，/>为用于计算第i次迭代时的目标参数，γ∈[0，1]为折扣因子，Q为期望回报值，a’ 为服务器状态s’下获取最大Q值所采取的动作；

所述参数关于损失函数的梯度为：

；

所述资源调度器的总回报函数为：

其中，和/>为参数，用于调整/>和/>的数值，避免两者相差过大；/>为任务延迟回报函数，/>为能源消耗回报函数；

所述能源消耗回报函数为：

=/>（t）－/>（t－1）

其中，（t）为数据中心所有服务器在t时刻的总能耗，所述数据中心所有服务器的总能耗为：

（t）=/>

所述服务器的动态能耗为：

=/>

其中，为第x个服务器在t时刻的负载率；/>为参数，表示线性增长率；/>为第x个服务器在t时刻的最优负载率；/>为参数，表示非线性增长率；

所述服务器负载率为：

=/>×100%