CN111026553B - 离线混部作业的资源调度方法及服务器*** - Google Patents

离线混部作业的资源调度方法及服务器*** Download PDF

Info

Publication number
CN111026553B
CN111026553B CN201911282169.XA CN201911282169A CN111026553B CN 111026553 B CN111026553 B CN 111026553B CN 201911282169 A CN201911282169 A CN 201911282169A CN 111026553 B CN111026553 B CN 111026553B
Authority
CN
China
Prior art keywords
load
offline
utilization rate
resource utilization
running time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911282169.XA
Other languages
English (en)
Other versions
CN111026553A (zh
Inventor
叶可江
陈文艳
须成忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201911282169.XA priority Critical patent/CN111026553B/zh
Publication of CN111026553A publication Critical patent/CN111026553A/zh
Application granted granted Critical
Publication of CN111026553B publication Critical patent/CN111026553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/501Performance criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5015Service provider selection

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种离线混部作业的资源调度方法,包括:监测服务器中负载的数据请求类型;在监测到所述负载为离线型负载时,采集所述离线型负载在不同设置参数下的运行时间,所述设置参数包括输入数据量大小、Map、Reduce数据大小、迭代次数、BatchSize大小等;采用LWLR模型对所述运行时间进行训练,预测所述离线型负载的运行时间;根据预测的所述运行时间,选择相应的服务器资源对所述离线型负载进行处理。考虑了离线型负载在不同参数设置下的运行时间的预测,有效实现了服务器中负载资源的合理调度,在合理的资源配置和混部状态下,缩短离线应用的运行时间也能在一定程度上提升容器云服务***性能,保证用户服务体验的质量。

Description

离线混部作业的资源调度方法及服务器***
技术领域
本发明属于云计算和网络技术领域,尤其涉及一种离线混部作业的资源调度方法及服务器***。
背景技术
云计算服务和容器技术出现以来,云服务器通常采用容器云作为降低成本和提高效率的一种方式。容器易于移植、轻量级等特征大大简化了虚拟化的处理过程,但由于容器的隔离性较弱,在离线服务混合部署时会产生将极大的干扰问题。一方面,用户的资源请求非常频繁且多样化,而现有的资源分配策略相对静态,不能实时准确的获取负载的资源需求量,集群管理节点在进行资源分配时难以适应上层应用的动态资源需求的变化以及资源使用的不均衡性,从而降低了云集群的资源利用率;另一方面,基于容器的实时在线服务与离线批处理作业的混合部署在一定程度上提升了容器云集群的性能,但由于容器的弱隔离性,使得这种混部方式也造成了严重的资源碎片和资源抢占问题,进一步增加了作业调度的复杂性。
因此,如何解决容器云中混部负载的资源分配和作业调度问题非常关键。
发明内容
本发明的目的在于提供一种离线混部作业的资源调度方法及服务器***,旨在解决现有技术中无法合理分配服务器资源的技术问题。
第一方面,本发明提供了一种离线混部作业的资源调度方法,包括:
监测服务器中负载的数据请求类型;
在监测到所述负载为离线型负载时,采集所述离线型负载在不同设置参数下的运行时间,所述设置参数包括输入数据量大小、Map、Reduce数据大小、迭代次数、BatchSize大小等;
采用LWLR模型对所述运行时间进行训练,预测所述离线型负载的运行时间;
根据预测的所述运行时间,选择相应的服务器资源对所述离线型负载进行处理。
优选的,所述监测服务器中负载的数据请求类型的步骤包括:
监控运行在服务器中负载的数据读写请求和响应延迟需求;
根据所述数据读写请求和响应延迟需求判断所述负载的数据请求类型。
优选的,所述根据所述数据读写请求和响应延迟需求判断所述负载的数据请求类型的步骤包括:
若所述负载的数据读写请求和响应延迟需求均小于相应的预设阈值,则判定所述负载为在线型负载,否则判定所述负载为离线型负载。
优选的,所述采用LWLR模型对所述运行时间进行训练,预测所述离线型负载的运行时间的步骤之前,所述方法还包括:
对所述离线型负载在不同设置参数下的运行时间进行预处理。
优选的,所述方法还包括:
在监测到所述负载为在线型负载时,采集所述服务器中运行负载的历史资源利用率;
分析所述历史资源利用率的变化趋势;
根据所述变化趋势选择相应模型对未来时刻的资源利用率进行预测;
根据预测的资源利用率选择相应的服务器资源进行处理。
优选的,所述分析所述历史资源利用率的变化趋势的步骤包括:
采用统计分析方法对所述历史资源利用率进行特征画像;
根据所述特征画像确定所述历史资源利用率的变化趋势。
优选的,所述变化趋势包括周期性变化趋势和非周期性变化趋势,所述根据所述变化趋势选择相应模型对未来时刻的资源利用率进行预测的步骤包括:
若为周期性变化趋势,则采用Prophet模型对所述历史资源利用率进行训练,预测未来时刻的资源利用率;
若为非周期性变化趋势,则采用Seq2Seq模型对所述历史资源利用率进行训练,预测未来时刻的资源利用率。
第二方面,本发明提供了一种服务器***,包括:
处理器;以及
与所述处理器通信连接的存储器;其中,
所述存储器存储有可读性指令,所述可读性指令被所述处理器执行时实现如第一方面所述的方法。
第三方面,本发明提供了一种计算机可读性存储介质,其上存储有计算机程序,所述计算机程序在被执行时实现如第一方面的方法。
由于考虑了离线型负载在不同参数设置下的运行时间的预测,虽然离线型负载对延迟要求不高,但在合理的资源配置和混部状态下,缩短离线应用的运行时间也能在一定程度上提升容器云服务***性能,保证用户服务体验的质量。
附图说明
图1是实施例一示出的离线混部作业的资源调度方法的实现流程图;
图2为根据实施例一所示出的离线混部作业的资源调度方法的具体应用流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1是实施例一示出的离线混部作业的资源调度方法的实现流程图。实施例一示出的离线混部作业的资源调度方法适用于服务器***中,服务器***中设置处理器,以进行离线混部作业时资源的合理调度。为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
步骤S110,监测服务器中负载的数据请求类型。
步骤S120,在监测到所述负载为离线型负载时,采集所述离线型负载在不同设置参数下的运行时间。
步骤S130,采用LWLR模型对所述运行时间进行训练,预测所述离线型负载的运行时间。
步骤S140,根据预测的所述运行时间,选择相应的服务器资源对所述离线型负载进行处理。
数据请求类型包括在线型负载和离线型负载类型。由于在线型负载和离线型负载对服务器资源的需求不同,因此,通过预先检测服务器中负载的数据请求类型,判断是在线型负载还是离线型负载类型,在根据具体的数据请求类型进行相应处理,能够更有效提高资源的利用率,实现服务器资源的合理分配。
在监测服务器中负载的数据请求类型时,可监控运行在服务器中负载的数据读写请求和响应延迟需求,进而根据所述数据读写请求和响应延迟需求判断所述负载的数据请求类型。
具体的,若所述负载的数据读写请求和响应延迟需求均小于相应的预设阈值,则判定所述负载为在线型负载,否则判定所述负载为离线型负载。
例如,判断当前负载的数据读写请求q和响应延迟需求t,若q小于给定阈值Q且t小于给定阈值T,则为在线型负载,否则为离线型负载。
不同设置参数包括输入数据量大小D,Map大小M,Reduce数据大小R,迭代次数E,BatchSize大小B。输入数据用x表示,则
(i为第i条记录)
则采集的不同参数的集合为X=[x1 x2 …xn];运行时间是指离线型负载从发起请求到获取最终结果的时间,与不同参数对应的负载运行时间用集合Y表示,则Y=[y1 y2 …yn](n为记录条数)。
在采用LWLR模型对所述运行时间进行训练之前,还可对所述离线型负载在不同设置参数下的运行时间进行预处理,例如,包括删除无效数据、数据格式的转换等,避免因无效数据对训练过程的干扰而降低准确度,以及采用统一格式进行数据的训练,能够有效提高处理效率。
LWLR模型是一种对离散型数据进行回归预测的模型,将处理后的数据输入到LWLR模型进行多次训练后,可作为后续进行离线型负载运行时间的预测模型。
在监测到所述负载为在线型负载时,采集所述服务器中运行负载的历史资源利用率,分析所述历史资源利用率的变化趋势,根据所述变化趋势选择相应模型对未来时刻的资源利用率进行预测,根据预测的资源利用率选择相应的服务器资源进行处理。
具体的,在分析所述历史资源利用率的变化趋势时,采用统计分析方法对所述历史资源利用率进行特征画像,进而根据所述特征画像确定所述历史资源利用率的变化趋势。
通过特征画像,对CPU利用率、内存利用率、磁盘IO大小、网络带宽等时序数据进行处理和可视化,大大提高历史资源利用率变化趋势的分析效率。
可选的,所述变化趋势包括周期性变化趋势和非周期性变化趋势。
在根据所述变化趋势选择相应模型对未来时刻的资源利用率进行预测时,若为周期性变化趋势,则采用Prophet模型对所述历史资源利用率进行训练,预测未来时刻的资源利用率,由于Prophet模型可以设置节假日、特殊时段作为趋势突变点,从而更能适应周期性时序数据的预测;若为非周期性变化趋势,则采用Seq2Seq模型对所述历史资源利用率进行训练,预测未来时刻的资源利用率,由于Seq2Seq模型可以通过修改模型参数,因而更能适应于具有短期突变点的负载资源预测。
例如,图2为根据实施例一所示出的离线混部作业的资源调度方法的具体应用流程图。
由于考虑了离线型负载在不同参数设置下的运行时间的预测,虽然离线型负载对延迟要求不高,但在合理的资源配置和混部状态下,缩短离线应用的运行时间也能在一定程度上提升容器云服务***性能,保证用户服务体验的质量。
实施例二:
本发明实施例二提供了一种服务器***,该服务器***可执行上述任一所示的离线混部作业的资源调度方法的全部或者部分步骤。该服务器***包括:
处理器;以及
与所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一示例性实施例所述的方法,此处将不做详细阐述说明。
在本实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器,上述指令可由服务器***的处理器执行以完成上述离线混部作业的资源调度方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种离线混部作业的资源调度方法,其特征在于,所述方法包括:
监测服务器中负载的数据请求类型;
在监测到所述负载为离线型负载时,采集所述离线型负载在不同设置参数下的运行时间,所述设置参数包括输入数据量大小、Map、Reduce数据大小、迭代次数、BatchSize大小;
采用LWLR模型对所述运行时间进行训练,预测所述离线型负载的运行时间;
根据预测的所述运行时间,选择相应的服务器资源对所述离线型负载进行处理;
其中,所述监测服务器中负载的数据请求类型的步骤包括:
监控运行在服务器中负载的数据读写请求和响应延迟需求;
根据所述数据读写请求和响应延迟需求判断所述负载的数据请求类型;
所述根据所述数据读写请求和响应延迟需求判断所述负载的数据请求类型的步骤包括:
若所述负载的数据读写请求和响应延迟需求均小于相应的预设阈值,则判定所述负载为在线型负载,否则判定所述负载为离线型负载;
所述方法还包括:
在监测到所述负载为在线型负载时,采集所述服务器中运行负载的历史资源利用率;
分析所述历史资源利用率的变化趋势;
根据所述变化趋势选择相应模型对未来时刻的资源利用率进行预测;
根据预测的资源利用率选择相应的服务器资源进行处理;
所述分析所述历史资源利用率的变化趋势的步骤包括:
采用统计分析方法对所述历史资源利用率进行特征画像;
根据所述特征画像确定所述历史资源利用率的变化趋势。
2.如权利要求1所述的方法,其特征在于,所述采用LWLR模型对所述运行时间进行训练,预测所述离线型负载的运行时间的步骤之前,所述方法还包括:
对所述离线型负载在不同设置参数下的运行时间进行预处理。
3.如权利要求2所述的方法,其特征在于,所述变化趋势包括周期性变化趋势和非周期性变化趋势,所述根据所述变化趋势选择相应模型对未来时刻的资源利用率进行预测的步骤包括:
若为周期性变化趋势,则采用Prophet模型对所述历史资源利用率进行训练,预测未来时刻的资源利用率;
若为非周期性变化趋势,则采用Seq2Seq模型对所述历史资源利用率进行训练,预测未来时刻的资源利用率。
4.一种服务器***,其特征在于,所述服务器***包括:
处理器;以及
与所述处理器通信连接的存储器;其中,
所述存储器存储有可读性指令,所述可读性指令被所述处理器执行时实现如权利要求1-3任一项所述的方法。
CN201911282169.XA 2019-12-13 2019-12-13 离线混部作业的资源调度方法及服务器*** Active CN111026553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911282169.XA CN111026553B (zh) 2019-12-13 2019-12-13 离线混部作业的资源调度方法及服务器***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911282169.XA CN111026553B (zh) 2019-12-13 2019-12-13 离线混部作业的资源调度方法及服务器***

Publications (2)

Publication Number Publication Date
CN111026553A CN111026553A (zh) 2020-04-17
CN111026553B true CN111026553B (zh) 2024-04-19

Family

ID=70209124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911282169.XA Active CN111026553B (zh) 2019-12-13 2019-12-13 离线混部作业的资源调度方法及服务器***

Country Status (1)

Country Link
CN (1) CN111026553B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001116A (zh) * 2020-07-17 2020-11-27 新华三大数据技术有限公司 一种云资源容量预测方法及装置
CN112068933B (zh) * 2020-09-02 2021-08-10 成都鱼泡科技有限公司 一种实时分布式数据监听方法
CN112162791B (zh) * 2020-09-25 2022-12-30 天津大学 一种分布式深度学习任务混部后的性能预测方法
CN112269641B (zh) * 2020-11-18 2023-09-15 网易(杭州)网络有限公司 一种调度方法、装置、电子设备及存储介质
CN112860442A (zh) * 2021-03-16 2021-05-28 迅雷计算机(深圳)有限公司 资源配额调整方法、装置、计算机设备和存储介质
CN113157418B (zh) * 2021-04-25 2023-08-25 腾讯科技(深圳)有限公司 服务器资源分配方法和装置、存储介质及电子设备
CN115202889B (zh) * 2022-09-13 2022-12-09 阿里巴巴(中国)有限公司 计算资源调整方法及计算***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595306A (zh) * 2018-04-18 2018-09-28 大连理工大学 一种面向混部云的服务性能测试方法
CN108632365A (zh) * 2018-04-13 2018-10-09 腾讯科技(深圳)有限公司 服务资源调整方法、相关装置和设备
CN110297715A (zh) * 2019-07-02 2019-10-01 北京工业大学 一种基于周期性特征分析的在线负载资源预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108632365A (zh) * 2018-04-13 2018-10-09 腾讯科技(深圳)有限公司 服务资源调整方法、相关装置和设备
CN108595306A (zh) * 2018-04-18 2018-09-28 大连理工大学 一种面向混部云的服务性能测试方法
CN110297715A (zh) * 2019-07-02 2019-10-01 北京工业大学 一种基于周期性特征分析的在线负载资源预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏超 等.混部负载场景下的离线负载资源调度策略.《软件导刊》.2019,第2019年(第8期),第6-10页. *

Also Published As

Publication number Publication date
CN111026553A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111026553B (zh) 离线混部作业的资源调度方法及服务器***
CN107911478B (zh) 基于化学反应优化算法的多用户计算卸载方法及装置
US8352951B2 (en) Method and apparatus for utility-based dynamic resource allocation in a distributed computing system
US7644162B1 (en) Resource entitlement control system
Daraghmeh et al. Time series forecasting using facebook prophet for cloud resource management
CN112162865A (zh) 服务器的调度方法、装置和服务器
US7113986B2 (en) System and method for modeling information system capacity and accepting sessions in an information system
CN109558248B (zh) 一种用于确定面向海洋模式计算的资源分配参数的方法及***
CN109117244B (zh) 一种虚拟机资源申请排队机制的实现方法
Benedetti et al. Reinforcement learning applicability for resource-based auto-scaling in serverless edge applications
CN113032102A (zh) 资源重调度方法、装置、设备和介质
CN114741200A (zh) 面向数据中台的计算资源分配方法、装置及电子设备
CN103442087B (zh) 一种基于响应时间趋势分析的Web服务***访问量控制装置和方法
CN107203256B (zh) 一种网络功能虚拟化场景下的节能分配方法与装置
CN112214303A (zh) Kubernetes集群自动缩放***
CN110990160A (zh) 一种基于负荷预测的静态安全分析容器云弹性伸缩方法
CN115484167B (zh) 通信网络中的网络切片关断方法、计算机装置及存储介质
CN108900865B (zh) 服务器、转码任务的调度方法及执行方法
CN115840638A (zh) 一种基于资源碎片时空特征感知的函数填充模型及其方法
CN115913967A (zh) 一种云环境下基于资源需求预测的微服务弹性伸缩方法
CN112130979B (zh) 调度任务及训练神经网络模型的方法、装置、终端和介质
CN114936089A (zh) 资源调度方法、***、设备及存储介质
CN114070855B (zh) 资源分配方法、资源分配装置、资源分配***、存储介质
Glatard et al. Probabilistic and dynamic optimization of job partitioning on a grid infrastructure
Huaijun et al. Research and implementation of mobile cloud computing offloading system based on Docker container

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant