CN114327886A

CN114327886A - 一种基于大数据深度学习的动态资源调度方法

Info

Publication number: CN114327886A
Application number: CN202111601656.5A
Authority: CN
Inventors: 李亚平; 曹旦夫; 李素杰; 张华德; 裘冬平; 陈昱含; 张瑜; 王耀先; 谢自力; 葛荡; 张娟; 丁苏宁; 杨建涛; 吴雪峰; 张达; 王珍琼; 索蕾; 陆育; 祝越; 杜鹃
Original assignee: China Oil and Gas Pipeline Network Corp; Pipechina Eastern Crude Oil Storage and Transportation Co Ltd
Current assignee: China Oil and Gas Pipeline Network Corp; Pipechina Eastern Crude Oil Storage and Transportation Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12
Anticipated expiration: 2041-12-24
Also published as: CN114327886B

Abstract

一种基于大数据深度学习的动态资源调度方法，通过利用大数据深度学习集群的资源监控模块，根据各节点资源利用率模型，周期性计算节点资源利用率，并采用基于大数据深度学习的资源调度算法，将大数据深度学习任务部署至最优节点，设置任务资源利用率警告阈值，实现对于是否进行动态迁移大数据深度学习任务的判断。相比于现有技术，该方法客观准确的反映了计算机资源的运行状态，合理部署计算机任务至最优节点，同时实现了对计算机任务的监控，动态迁移资源利用率低下的计算任务，提高了计算机资源利用率。

Description

一种基于大数据深度学习的动态资源调度方法

技术领域

本发明涉及一种基于大数据深度学习的动态资源调度方法,属于深度学习技术领域。

背景技术

随着计算机技术的迅速发展，其在大数据以及云计算技术领域的重要性日益突显。目前，大数据深度学习任务数据量庞大，计算任务众多，在快速响应用户请求的同时，需要将大数据深度学习任务调度至合理节点上执行以提高资源利用率，这需要强大的资源调度技术的支持。

当前，大数据深度学习任务资源调度策略主要是依赖底层的调度策略来进行的，调度策略的优化目标单一，不能客观准确的反映计算机资源的运行状态，导致计算机资源利用率低下。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于大数据深度学习的动态资源调度方法，该方法能够客观准确的反映计算机资源的运行状态，合理部署计算机任务至最优节点，同时实现对计算机任务的监控，动态迁移资源利用率低下的计算任务，提高计算机资源利用率。

为了实现上述目的，本发明提供一种基于大数据深度学习的动态资源调度方法，包括以下步骤：

1)周期性计算资源的平均利用率：

利用大数据深度学***均资源利用率，其中CPU、内存以及存储的平均利用率分别记为：

Node_CPU_avg、Node_Mem_avg、Node_Storage_avg，

计算公式分别如下：

式中，T的取值范围为0.01～0.5s，N表示时间t内采集节点利用量的次数，N＝t/T，且N为向上取整的整数；Node_CPU_{util_i}为一次周期性采集中节点的CPU的利用量，Node_Mem_{util_i}为一次周期性采集中节点的内存的利用量，Node_Storage_{util_i}为一次周期性采集中节点的存储的利用量；Node_CPU为节点的CPU总量，Node_Mem为节点的内存总量，Node_Storage为节点的存储总量；

2)采用打分机制部署计算任务：

根据应用场景为节点CPU、内存以及存储设置对应权值，通过步骤1)中计算得到的CPU、内存以及存储的平均利用率计算得到各节点的服务利用率和节点CPU以及内存的均衡度后，执行打分机制得到节点的打分值Score，将大数据深度学习任务部署至分值最高的节点，其中Score值的计算公式如下：

Node_util＝(Node_CPU_avg*w1)*(Node_Mem_avg*w2)*(Node_Storage_avg*w3)

Node_bal＝|Node_CPU_avg-Node_Mem_avg|；

Score＝10-(Node_util*w4+Node_bal*w5)*10；

式中，Node_util为节点的服务利用率，w1、w2、w3分别为节点CPU、内存及存储的对应权值，由用户根据场景进行设置，三者相加之和为1；Node_bal为节点CPU及内存的均衡度；Score为节点的打分值；w4、w5分别为节点资源利用率及节点均衡度的对应权值，由用户根据场景进行设置，二者相加之和为1；

3)动态迁移大数据深度学习任务：

设置大数据深度学***均资源利用率，通过平均资源利用率加权计算得到大数据深度学习任务的服务利用率，通过比较任务资源利用率警告阈值与深度学习任务的服务利用率Task_util的大小，动态迁移大数据深度学习任务，即当大数据深度学习任务的服务利用率Task_util大于任务资源利用率警告阈值时，通过副本形式将该深度学习任务迁移至其他较优节点，之后删除原节点中的大数据深度学习任务，Task_util值的计算公式如下：

Task_util＝(Task_CPU_avg*w6)*(Task_Mem_avg*w7)*(Task_Storage_avg*w8)；

式中，N表示时间t内采集节点利用量的次数，N＝t/T，且N为向上取整的整数；Task_CPU_avg为计算任务的CPU平均利用率，Task_Mem_avg为深度学***均利用率，Task_Storage_avg为深度学***均利用率，Task_util为深度学习任务的服务利用率，w6、w7、w8分别为计算任务的CPU、内存及存储的对应权值，由用户根据深度学习任务类型进行设置，且三者相加之和为1。

本发明通过利用大数据深度学习集群的资源监控模块，根据各节点资源利用率模型，周期性计算节点资源利用率，并采用基于大数据深度学习的资源调度算法，将大数据深度学习任务部署至最优节点，设置任务资源利用率警告阈值，实现对于是否进行动态迁移大数据深度学习任务的判断。相比于现有技术，该方法客观准确的反映了计算机资源的运行状态，合理部署计算机任务至最优节点，同时实现了对计算机任务的监控，动态迁移资源利用率低下的计算任务，提高了计算机资源利用率。

附图说明

图1是本发明的工作流程框图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于大数据深度学习的动态资源调度方法，包括以下步骤：

1)周期性计算资源的平均利用率：

Node_CPU_avg、Node_Mem_avg、Node_Storage_avg，

计算公式分别如下：

2)采用打分机制部署计算任务：

Node_util＝(Node_CPU_avg*w1)*(Node_Mem_avg*w2)*(Node_Storage_avg*w3)

Node_bal＝|Node_CPU_avg-Node_Mem_avg|；

Score＝10-(Node_util*w4+Node_bal*w5)*10；

3)动态迁移大数据深度学习任务：

Task_util＝(Task_CPU_avg*w6)*(Task_Mem_avg*w7)*(Task_Storage_avg*w8)；

实施例：

步骤1：例在随机时间t＝1s内，以周期T＝0.2，N＝t/T＝5周期性采集各节点(5台节点)大数据深度学***均资源利用率分别为{(0.1，0.2，0.1)，(0.1,0.2,0.3)，(0.2,0.3,0.4)，(0.1,0.03,0.01),(0.2,0.3,0.4)}；

步骤2：根据步骤1中计算的各节点CPU、内存及存储平均资源利用率设置每台节点的CPU、内存及存储对应权值大小w1、w2、w3分别为0.5，0.4，0.1，节点资源利用率及节点均衡度对应权值大小w4、w5分别为0.7，0.3，通过上述公式计算得到各节点的打分值Score分别为{8.72，8.58，7.88，9.349，7.88}，之后将大数据深度学习任务部署至分值为9.349的节点；

步骤3：设置大数据深度学习任务资源利用率警告阈值为0.5，在某一时刻通过Task_util值的计算公式计算得到在步骤B中部署至分值为9.349的节点的大数据深度学习任务的服务利用率Task_util为0.53，其大于大数据深度学习任务资源利用率警告阈值0.5，则将该大数据深度学习任务部署至次高分8.72的节点，之后在分值为9.349的节点上删除该大数据深度学习任务。

Claims

1.一种基于大数据深度学习的动态资源调度方法，其特征在于，包括以下步骤：

1)周期性计算资源的平均利用率：

Node_CPU_avg、Node_Mem_avg、Node_Storage_avg，

计算公式分别如下：

式中，T的取值范围为0.01～0.5s，N表示时间t内采集节点利用量的次数，N＝t/T，且N为向上取整的整数；Node_CPU_{util_i}为一次周期性采集中节点的CPU的利用量，Node_Mem_{util_i}为一次周期性采集中节点的内存的利用量，Node_Storage_{util_i}为一次周期性采集中节点的存储的利用量；Node_CPU为节点的CPU总量，Node_Memm为节点的内存总量，Node_Storage为节点的存储总量；

2)采用打分机制部署计算任务：

Node_util＝(Node_CPU_avg*w1)*(Node_Mem_avg*w2)*(Node_Storage_avg*w3)

Node_bal＝|Node-CPU_avg-Node_Mem_avg|；

Score＝10-(Node_util*w4+Node_bal*w5)*10；

3)动态迁移大数据深度学习任务：

Task_util＝(Task_CPU_avg*w6)*(Task_Mem_avg*w7)*(Task_Storage_avg*w8)；