CN114327886A - 一种基于大数据深度学习的动态资源调度方法 - Google Patents

一种基于大数据深度学习的动态资源调度方法 Download PDF

Info

Publication number
CN114327886A
CN114327886A CN202111601656.5A CN202111601656A CN114327886A CN 114327886 A CN114327886 A CN 114327886A CN 202111601656 A CN202111601656 A CN 202111601656A CN 114327886 A CN114327886 A CN 114327886A
Authority
CN
China
Prior art keywords
node
task
deep learning
cpu
utilization rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111601656.5A
Other languages
English (en)
Other versions
CN114327886B (zh
Inventor
李亚平
曹旦夫
李素杰
张华德
裘冬平
陈昱含
张瑜
王耀先
谢自力
葛荡
张娟
丁苏宁
杨建涛
吴雪峰
张达
王珍琼
索蕾
陆育
祝越
杜鹃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Oil and Gas Pipeline Network Corp
Pipechina Eastern Crude Oil Storage and Transportation Co Ltd
Original Assignee
China Oil and Gas Pipeline Network Corp
Pipechina Eastern Crude Oil Storage and Transportation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Oil and Gas Pipeline Network Corp, Pipechina Eastern Crude Oil Storage and Transportation Co Ltd filed Critical China Oil and Gas Pipeline Network Corp
Priority to CN202111601656.5A priority Critical patent/CN114327886B/zh
Publication of CN114327886A publication Critical patent/CN114327886A/zh
Application granted granted Critical
Publication of CN114327886B publication Critical patent/CN114327886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种基于大数据深度学习的动态资源调度方法,通过利用大数据深度学习集群的资源监控模块,根据各节点资源利用率模型,周期性计算节点资源利用率,并采用基于大数据深度学习的资源调度算法,将大数据深度学习任务部署至最优节点,设置任务资源利用率警告阈值,实现对于是否进行动态迁移大数据深度学习任务的判断。相比于现有技术,该方法客观准确的反映了计算机资源的运行状态,合理部署计算机任务至最优节点,同时实现了对计算机任务的监控,动态迁移资源利用率低下的计算任务,提高了计算机资源利用率。

Description

一种基于大数据深度学习的动态资源调度方法
技术领域
本发明涉及一种基于大数据深度学习的动态资源调度方法,属于深度学习技术领域。
背景技术
随着计算机技术的迅速发展,其在大数据以及云计算技术领域的重要性日益突显。目前,大数据深度学习任务数据量庞大,计算任务众多,在快速响应用户请求的同时,需要将大数据深度学习任务调度至合理节点上执行以提高资源利用率,这需要强大的资源调度技术的支持。
当前,大数据深度学习任务资源调度策略主要是依赖底层的调度策略来进行的,调度策略的优化目标单一,不能客观准确的反映计算机资源的运行状态,导致计算机资源利用率低下。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于大数据深度学习的动态资源调度方法,该方法能够客观准确的反映计算机资源的运行状态,合理部署计算机任务至最优节点,同时实现对计算机任务的监控,动态迁移资源利用率低下的计算任务,提高计算机资源利用率。
为了实现上述目的,本发明提供一种基于大数据深度学习的动态资源调度方法,包括以下步骤:
1)周期性计算资源的平均利用率:
利用大数据深度学***均资源利用率,其中CPU、内存以及存储的平均利用率分别记为:
Node_CPUavg、Node_Memavg、Node_Storageavg
计算公式分别如下:
Figure BDA0003432015170000021
Figure BDA0003432015170000022
Figure BDA0003432015170000023
式中,T的取值范围为0.01~0.5s,N表示时间t内采集节点利用量的次数,N=t/T,且N为向上取整的整数;Node_CPUutil_i为一次周期性采集中节点的CPU的利用量,Node_Memutil_i为一次周期性采集中节点的内存的利用量,Node_Storageutil_i为一次周期性采集中节点的存储的利用量;Node_CPU为节点的CPU总量,Node_Mem为节点的内存总量,Node_Storage为节点的存储总量;
2)采用打分机制部署计算任务:
根据应用场景为节点CPU、内存以及存储设置对应权值,通过步骤1)中计算得到的CPU、内存以及存储的平均利用率计算得到各节点的服务利用率和节点CPU以及内存的均衡度后,执行打分机制得到节点的打分值Score,将大数据深度学习任务部署至分值最高的节点,其中Score值的计算公式如下:
Nodeutil=(Node_CPUavg*w1)*(Node_Memavg*w2)*(Node_Storageavg*w3)
Nodebal=|Node_CPUavg-Node_Memavg|;
Score=10-(Nodeutil*w4+Nodebal*w5)*10;
式中,Nodeutil为节点的服务利用率,w1、w2、w3分别为节点CPU、内存及存储的对应权值,由用户根据场景进行设置,三者相加之和为1;Nodebal为节点CPU及内存的均衡度;Score为节点的打分值;w4、w5分别为节点资源利用率及节点均衡度的对应权值,由用户根据场景进行设置,二者相加之和为1;
3)动态迁移大数据深度学习任务:
设置大数据深度学***均资源利用率,通过平均资源利用率加权计算得到大数据深度学习任务的服务利用率,通过比较任务资源利用率警告阈值与深度学习任务的服务利用率Taskutil的大小,动态迁移大数据深度学习任务,即当大数据深度学习任务的服务利用率Taskutil大于任务资源利用率警告阈值时,通过副本形式将该深度学习任务迁移至其他较优节点,之后删除原节点中的大数据深度学习任务,Taskutil值的计算公式如下:
Figure BDA0003432015170000031
Figure BDA0003432015170000032
Figure BDA0003432015170000033
Taskutil=(Task_CPUavg*w6)*(Task_Memavg*w7)*(Task_Storageavg*w8);
式中,N表示时间t内采集节点利用量的次数,N=t/T,且N为向上取整的整数;Task_CPUavg为计算任务的CPU平均利用率,Task_Memavg为深度学***均利用率,Task_Storageavg为深度学***均利用率,Taskutil为深度学习任务的服务利用率,w6、w7、w8分别为计算任务的CPU、内存及存储的对应权值,由用户根据深度学习任务类型进行设置,且三者相加之和为1。
本发明通过利用大数据深度学习集群的资源监控模块,根据各节点资源利用率模型,周期性计算节点资源利用率,并采用基于大数据深度学习的资源调度算法,将大数据深度学习任务部署至最优节点,设置任务资源利用率警告阈值,实现对于是否进行动态迁移大数据深度学习任务的判断。相比于现有技术,该方法客观准确的反映了计算机资源的运行状态,合理部署计算机任务至最优节点,同时实现了对计算机任务的监控,动态迁移资源利用率低下的计算任务,提高了计算机资源利用率。
附图说明
图1是本发明的工作流程框图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于大数据深度学习的动态资源调度方法,包括以下步骤:
1)周期性计算资源的平均利用率:
利用大数据深度学***均资源利用率,其中CPU、内存以及存储的平均利用率分别记为:
Node_CPUavg、Node_Memavg、Node_Storageavg
计算公式分别如下:
Figure BDA0003432015170000041
Figure BDA0003432015170000042
Figure BDA0003432015170000043
式中,T的取值范围为0.01~0.5s,N表示时间t内采集节点利用量的次数,N=t/T,且N为向上取整的整数;Node_CPUutil_i为一次周期性采集中节点的CPU的利用量,Node_Memutil_i为一次周期性采集中节点的内存的利用量,Node_Storageutil_i为一次周期性采集中节点的存储的利用量;Node_CPU为节点的CPU总量,Node_Mem为节点的内存总量,Node_Storage为节点的存储总量;
2)采用打分机制部署计算任务:
根据应用场景为节点CPU、内存以及存储设置对应权值,通过步骤1)中计算得到的CPU、内存以及存储的平均利用率计算得到各节点的服务利用率和节点CPU以及内存的均衡度后,执行打分机制得到节点的打分值Score,将大数据深度学习任务部署至分值最高的节点,其中Score值的计算公式如下:
Nodeutil=(Node_CPUavg*w1)*(Node_Memavg*w2)*(Node_Storageavg*w3)
Nodebal=|Node_CPUavg-Node_Memavg|;
Score=10-(Nodeutil*w4+Nodebal*w5)*10;
式中,Nodeutil为节点的服务利用率,w1、w2、w3分别为节点CPU、内存及存储的对应权值,由用户根据场景进行设置,三者相加之和为1;Nodebal为节点CPU及内存的均衡度;Score为节点的打分值;w4、w5分别为节点资源利用率及节点均衡度的对应权值,由用户根据场景进行设置,二者相加之和为1;
3)动态迁移大数据深度学习任务:
设置大数据深度学***均资源利用率,通过平均资源利用率加权计算得到大数据深度学习任务的服务利用率,通过比较任务资源利用率警告阈值与深度学习任务的服务利用率Taskutil的大小,动态迁移大数据深度学习任务,即当大数据深度学习任务的服务利用率Taskutil大于任务资源利用率警告阈值时,通过副本形式将该深度学习任务迁移至其他较优节点,之后删除原节点中的大数据深度学习任务,Taskutil值的计算公式如下:
Figure BDA0003432015170000061
Figure BDA0003432015170000062
Figure BDA0003432015170000063
Taskutil=(Task_CPUavg*w6)*(Task_Memavg*w7)*(Task_Storageavg*w8);
式中,N表示时间t内采集节点利用量的次数,N=t/T,且N为向上取整的整数;Task_CPUavg为计算任务的CPU平均利用率,Task_Memavg为深度学***均利用率,Task_Storageavg为深度学***均利用率,Taskutil为深度学习任务的服务利用率,w6、w7、w8分别为计算任务的CPU、内存及存储的对应权值,由用户根据深度学习任务类型进行设置,且三者相加之和为1。
实施例:
步骤1:例在随机时间t=1s内,以周期T=0.2,N=t/T=5周期性采集各节点(5台节点)大数据深度学***均资源利用率分别为{(0.1,0.2,0.1),(0.1,0.2,0.3),(0.2,0.3,0.4),(0.1,0.03,0.01),(0.2,0.3,0.4)};
步骤2:根据步骤1中计算的各节点CPU、内存及存储平均资源利用率设置每台节点的CPU、内存及存储对应权值大小w1、w2、w3分别为0.5,0.4,0.1,节点资源利用率及节点均衡度对应权值大小w4、w5分别为0.7,0.3,通过上述公式计算得到各节点的打分值Score分别为{8.72,8.58,7.88,9.349,7.88},之后将大数据深度学习任务部署至分值为9.349的节点;
步骤3:设置大数据深度学习任务资源利用率警告阈值为0.5,在某一时刻通过Taskutil值的计算公式计算得到在步骤B中部署至分值为9.349的节点的大数据深度学习任务的服务利用率Taskutil为0.53,其大于大数据深度学习任务资源利用率警告阈值0.5,则将该大数据深度学习任务部署至次高分8.72的节点,之后在分值为9.349的节点上删除该大数据深度学习任务。

Claims (1)

1.一种基于大数据深度学习的动态资源调度方法,其特征在于,包括以下步骤:
1)周期性计算资源的平均利用率:
利用大数据深度学***均资源利用率,其中CPU、内存以及存储的平均利用率分别记为:
Node_CPUavg、Node_Memavg、Node_Storageavg
计算公式分别如下:
Figure FDA0003432015160000011
Figure FDA0003432015160000012
Figure FDA0003432015160000013
式中,T的取值范围为0.01~0.5s,N表示时间t内采集节点利用量的次数,N=t/T,且N为向上取整的整数;Node_CPUutil_i为一次周期性采集中节点的CPU的利用量,Node_Memutil_i为一次周期性采集中节点的内存的利用量,Node_Storageutil_i为一次周期性采集中节点的存储的利用量;Node_CPU为节点的CPU总量,Node_Memm为节点的内存总量,Node_Storage为节点的存储总量;
2)采用打分机制部署计算任务:
根据应用场景为节点CPU、内存以及存储设置对应权值,通过步骤1)中计算得到的CPU、内存以及存储的平均利用率计算得到各节点的服务利用率和节点CPU以及内存的均衡度后,执行打分机制得到节点的打分值Score,将大数据深度学习任务部署至分值最高的节点,其中Score值的计算公式如下:
Nodeutil=(Node_CPUavg*w1)*(Node_Memavg*w2)*(Node_Storageavg*w3)
Nodebal=|Node-CPUavg-Node_Memavg|;
Score=10-(Nodeutil*w4+Nodebal*w5)*10;
式中,Nodeutil为节点的服务利用率,w1、w2、w3分别为节点CPU、内存及存储的对应权值,由用户根据场景进行设置,三者相加之和为1;Nodebal为节点CPU及内存的均衡度;Score为节点的打分值;w4、w5分别为节点资源利用率及节点均衡度的对应权值,由用户根据场景进行设置,二者相加之和为1;
3)动态迁移大数据深度学习任务:
设置大数据深度学***均资源利用率,通过平均资源利用率加权计算得到大数据深度学习任务的服务利用率,通过比较任务资源利用率警告阈值与深度学习任务的服务利用率Taskutil的大小,动态迁移大数据深度学习任务,即当大数据深度学习任务的服务利用率Taskutil大于任务资源利用率警告阈值时,通过副本形式将该深度学习任务迁移至其他较优节点,之后删除原节点中的大数据深度学习任务,Taskutil值的计算公式如下:
Figure FDA0003432015160000021
Figure FDA0003432015160000022
Figure FDA0003432015160000023
Taskutil=(Task_CPUavg*w6)*(Task_Memavg*w7)*(Task_Storageavg*w8);
式中,N表示时间t内采集节点利用量的次数,N=t/T,且N为向上取整的整数;Task_CPUavg为计算任务的CPU平均利用率,Task_Memavg为深度学***均利用率,Task_Storageavg为深度学***均利用率,Taskutil为深度学习任务的服务利用率,w6、w7、w8分别为计算任务的CPU、内存及存储的对应权值,由用户根据深度学习任务类型进行设置,且三者相加之和为1。
CN202111601656.5A 2021-12-24 2021-12-24 一种基于大数据深度学习的动态资源调度方法 Active CN114327886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111601656.5A CN114327886B (zh) 2021-12-24 2021-12-24 一种基于大数据深度学习的动态资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111601656.5A CN114327886B (zh) 2021-12-24 2021-12-24 一种基于大数据深度学习的动态资源调度方法

Publications (2)

Publication Number Publication Date
CN114327886A true CN114327886A (zh) 2022-04-12
CN114327886B CN114327886B (zh) 2022-12-16

Family

ID=81013926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111601656.5A Active CN114327886B (zh) 2021-12-24 2021-12-24 一种基于大数据深度学习的动态资源调度方法

Country Status (1)

Country Link
CN (1) CN114327886B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445636A (zh) * 2016-09-28 2017-02-22 郑州云海信息技术有限公司 一种paas平台下的动态资源调度算法
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及***
CN109960585A (zh) * 2019-02-02 2019-07-02 浙江工业大学 一种基于kubernetes的资源调度方法
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和***
CN112000473A (zh) * 2020-08-12 2020-11-27 ***股份有限公司 深度学习模型的分布式训练方法以及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445636A (zh) * 2016-09-28 2017-02-22 郑州云海信息技术有限公司 一种paas平台下的动态资源调度算法
CN109960585A (zh) * 2019-02-02 2019-07-02 浙江工业大学 一种基于kubernetes的资源调度方法
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及***
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和***
CN112000473A (zh) * 2020-08-12 2020-11-27 ***股份有限公司 深度学习模型的分布式训练方法以及装置

Also Published As

Publication number Publication date
CN114327886B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN110413389B (zh) 一种资源不均衡Spark环境下的任务调度优化方法
CN108920153B (zh) 一种基于负载预测的Docker容器动态调度方法
CN102281290B (zh) 一种PaaS云平台的仿真***及方法
CN104317658A (zh) 一种基于MapReduce的负载自适应任务调度方法
CN106250305A (zh) 云计算环境下监控***数据采集周期的自适应控制方法
CN102868763A (zh) 一种云计算环境下虚拟web应用集群节能的动态调整方法
CN111355606B (zh) 面向web应用的容器集群自适应扩缩容***和方法
CN113342510B (zh) 一种水电流域应急指挥云边计算资源协同处理方法
CN111381928B (zh) 一种虚拟机迁移方法、云计算管理平台和存储介质
CN105975345B (zh) 一种基于分布式内存的视频帧数据动态均衡存储管理方法
CN103473134A (zh) 一种异构多核处理器的依赖任务调度方法
CN106775949B (zh) 感知复合应用特征与网络带宽的虚拟机在线迁移优化方法
CN103699433A (zh) 一种于Hadoop平台中动态调整任务数目的方法及***
CN112835698A (zh) 一种基于异构集群的请求分类处理的动态负载均衡方法
CN114637650B (zh) 一种基于Kubernetes集群的弹性伸缩方法
CN113032157B (zh) 一种服务器自动智能扩缩容方法及***
CN110389813A (zh) 一种面向网络靶场的虚拟机动态迁移方法
CN102339233A (zh) 云计算集中管理平台
CN111506408B (zh) 基于关联数据集合的边缘计算任务调度方法
CN115718644A (zh) 一种面向云数据中心的计算任务跨区迁移方法及***
CN116244085A (zh) Kubernetes集群容器组调度方法、装置及介质
CN106445636A (zh) 一种paas平台下的动态资源调度算法
CN109976894B (zh) 一种平台无关的可扩展的分布式***任务调度支撑框架
CN107092649B (zh) 一种面向实时流计算的无感知拓扑替换方法
CN103984588B (zh) 一种基于温度的虚拟机迁移方法及其***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant