CN107220114A - 基于资源统一调度的分布式资源调度方法 - Google Patents

基于资源统一调度的分布式资源调度方法 Download PDF

Info

Publication number
CN107220114A
CN107220114A CN201710374158.9A CN201710374158A CN107220114A CN 107220114 A CN107220114 A CN 107220114A CN 201710374158 A CN201710374158 A CN 201710374158A CN 107220114 A CN107220114 A CN 107220114A
Authority
CN
China
Prior art keywords
resource
available resources
distributed
scheduling
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710374158.9A
Other languages
English (en)
Inventor
孙宇
高景生
张岩
周炼赤
赵朋川
宋鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201710374158.9A priority Critical patent/CN107220114A/zh
Publication of CN107220114A publication Critical patent/CN107220114A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于资源统一调度的分布式资源调度方法,其中,包括:确定可用资源的内容;将收集到的可用资源封装成可用资源列表;确定各分布式计算框架的优先级;按照分布式计算框架的优先级的由高到低顺序,由分布式计算框架选择可用资源列表中的资源,每个分布式计算框架选择完毕后,更新可用资源列表,直至所有的分布式计算框架都选择完毕或可用资源列表中没有可用资源;从确定可用资源的内容重新开始本方法。本发明的基于资源统一调度的分布式资源调度方法,实现了共享集群的资源,以及对资源进行统一使用。

Description

基于资源统一调度的分布式资源调度方法
技术领域
本发明涉及分布式运算框架技术领域,特别涉及一种基于资源统一调度的分布式资源调度方法。
背景技术
不同的分布式运算框架(Spark,Hadoop,ES,MPI,Cassandra等)中的不同任务往往需要的资源(内存,CPU,网络IO等)不同,它们运行在同一个集群中,会相互干扰,任务之间由资源争用导致效率下降,运维成本升高。
发明内容
本发明的目的在于提供一种统一资源调度的分布式资源调度的方法,用于解决避免任务之间由资源争用导致效率下降的问题。
本发明一种统一资源调度的分布式资源调度的方法,其中,包括:确定可用资源的内容;将收集到的可用资源封装成可用资源列表;确定各分布式计算框架的优先级;按照分布式计算框架的优先级的由高到低顺序,由分布式计算框架选择可用资源列表中的资源,每个分布式计算框架选择完毕后,更新可用资源列表,直至所有的分布式计算框架都选择完毕或可用资源列表中没有可用资源;从确定可用资源的内容重新开始本方法。
根据本发明的统一资源调度的分布式资源调度的方法的一实施例,其中,可用资源包括资源调度从节点的可用CPU和可用内存。
根据本发明的统一资源调度的分布式资源调度的方法的一实施例,其中,资源列表包括:可用的资源调度从节点集合,每个资源调度从节点集合包括:资源调度从节点的编号,可用CPU和可用内存信息。
根据本发明的统一资源调度的分布式资源调度的方法的一实施例,其中,每个分布式计算框架选择完毕后,更新可用资源列表,并将更新后的可用资源列表发送给次一优先级的分布式计算框架。
根据本发明的统一资源调度的分布式资源调度的方法的一实施例,其中,分布式计算框架按照其内部的计算需求,根据可用资源列表中的资源信息,选择所需的可用资源。
本发明的统一资源调度的分布式资源调度的方法,提供一种资源调度机制避免任务之间由资源争用导致效率下降,同时考虑到资源利用率,运维成本,数据共享等因素,一般希望将所有这些框架部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用。
附图说明
图1所示为本发明基于统一资源调度的分布式资源调度***的模块图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1所示为本发明基于统一资源调度的分布式资源调度***的模块图,如图1所示,包括:资源调度主节点M、资源调度从节点S1、资源调度从节点S2、分布式计算框架f1、分布式计算框架f2。
如图1所示,资源调度主节点M负责集群整体资源的统计、资源的一级调度和具体执行任务的下发。包括以下三个组件:资源统计器:负责接收集群中资源调度从节点上报的可用资源信息;一级调度器:将汇总的资源信息发送给已注册的分布式计算框架;任务下发器:负责将分布式计算任务下发至资源调度从节点进行执行。
如图1所示,资源调度从节点S1和S2,用于汇报本节点上的可用资源给资源调度主节点,并负责执行具体的任务。包括以下三个组件:资源收集器:监控当前节点上可用的资源;任务监控器:负责接收启动资源调度主节点发送的任务,创建资源隔离容器执行任务;资源隔离容器:负责根据指定的资源独立运行的,相互间进程隔离的轻量级虚拟机。
如图1所示,分布式计算框架f2负责具体资源的二级调度和任务分解,需要注册到资源调度主节点上。包括以下三个主要组件:注册器:向资源调度主节点注册,申请监控集群资源;任务:在资源调度从节点上执行的具体工作,每个任务包含运行时所需要的资源信息;二级调度器:接收资源调度主节点一级调度器发送的可用资源信息,根据自身任务所需的资源将任务确定到某个资源调度从节点进行执行。
如图1所示,本发明基于资源统一调度的分布式资源调度方法的一实施例包括:资源调度从节点s1收集机器可用资源,本实施例可以包括4个CPU,4G内存并告知资源调度主节点M。资源调度从节点s2收集机器上可用资源包括2个CPU和1G内存,并告知资源调度主节点M。
图1中的调度顺序1-8与本实施例的基于资源统一调度的分布式资源调度方法的步骤对应,确定分布式计算框架f1与分布式计算框架f2的优先级次序,如分布式计算框架f1优先级高,资源调度主节点M将收集到的可用资源封装成可用资源列表,本实施例为[{s1,4cpu,4g},{s2,2cpu,1g}],即资源调度从节点s1和资源调度从节点s2的可调用的CPU和内存,按照一定优先级首先发送给分布式计算框架f1。
分布式计算框架f1根据资源列表的内容决定每个资源调度从节点执行哪些任务。分布式计算框架f1决定在资源调度从节点s2上运行任务task1(此任务消耗2个CPU,1G内存),在资源调度从节点s1上运行任务task2(此任务消耗1个CPU,2G内存),并将此决定封装成任务分配列表[{f1,task1,s2,2cpu,1g},{f1,task2,s1,1cpu,2g}]告知资源调度主节点M。
资源调度主节点M接收到分布式计算框架f1的任务分配列表将任务分布式计算框架f1的task2下发至资源调度从节点s1,由资源调度从节点s1负责创建资源隔离容器执行任务。
资源调度主节点M接收到分布式计算框架f1的任务分配列表将分布式计算框架f1的任务task1下发至资源调度从节点s2,由资源调度从节点s2负责创建资源隔离容器执行任务。
资源调度主节点M重新计算剩余可用资源,将剩余可用资源列表[{s1,3cpu,2g}]发送给下一优先级的分布式框架f2。
分布式计算框架f2根据资源列表决定在资源调度从节点s1上运行任务task1(此任务消耗2个CPU,2G内存),并将此决定封装成任务分配列表[{f2,task1,s1,2cpu,2g}]告知资源调度主节点M。
资源调度主节点M接收到分布式计算框架f2的任务分配列表将任务分布式计算框架f2的task1下发至s1,由资源调度从节点s1负责创建资源隔离容器执行任务。
等待指定的一段时间,重复步骤1。
本发明基于资源统一调度的分布式资源调度方法,快速高效的完成对某个分布式计算所需资源的分配最核心的就是调度机制,本方法采用两层调度算法:首先由资源调度主节点的一级调度器粗粒度地将资源给某个分布式计算框架,然后由框架的二级调度器实现内部的细粒度的资源调度。实现了共享集群的资源,以及资源的统一使用
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种资源统一调度的分布式资源调度方法,其特征在于,包括:
确定可用资源的内容;
将收集到的可用资源封装成可用资源列表;
确定各分布式计算框架的优先级;
按照分布式计算框架的优先级的由高到低顺序,由分布式计算框架选择可用资源列表中的资源,每个分布式计算框架选择完毕后,更新可用资源列表,直至所有的分布式计算框架都选择完毕或可用资源列表中没有可用资源;
从确定可用资源的内容重新开始本方法。
2.如权利要求1所述的资源统一调度的分布式资源调度方法,其特征在于,可用资源包括资源调度从节点的可用CPU和可用内存。
3.如权利要求1所述的资源统一调度的分布式资源调度方法,其特征在于,资源列表包括:可用的资源调度从节点集合,每个资源调度从节点集合包括:资源调度从节点的编号,可用CPU和可用内存信息。
4.如权利要求1所述的资源统一调度的分布式资源调度方法,其特征在于,每个分布式计算框架选择完毕后,更新可用资源列表,并将更新后的可用资源列表发送给次一优先级的分布式计算框架。
5.如权利要求1所述的资源统一调度的分布式资源调度方法,其特征在于,分布式计算框架按照其内部的计算需求,根据可用资源列表中的资源信息,选择所需的可用资源。
CN201710374158.9A 2017-05-24 2017-05-24 基于资源统一调度的分布式资源调度方法 Pending CN107220114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710374158.9A CN107220114A (zh) 2017-05-24 2017-05-24 基于资源统一调度的分布式资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710374158.9A CN107220114A (zh) 2017-05-24 2017-05-24 基于资源统一调度的分布式资源调度方法

Publications (1)

Publication Number Publication Date
CN107220114A true CN107220114A (zh) 2017-09-29

Family

ID=59944793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710374158.9A Pending CN107220114A (zh) 2017-05-24 2017-05-24 基于资源统一调度的分布式资源调度方法

Country Status (1)

Country Link
CN (1) CN107220114A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170417A (zh) * 2017-12-29 2018-06-15 曙光信息产业(北京)有限公司 一种在mesos集群中集成高性能的作业调度框架的方法和装置
CN109634749A (zh) * 2018-12-20 2019-04-16 厦门商集网络科技有限责任公司 一种分布式统一调度方法及设备
CN111459678A (zh) * 2020-04-02 2020-07-28 上海极链网络科技有限公司 一种资源调度方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722576A (zh) * 2012-06-05 2012-10-10 西安未来国际信息股份有限公司 一种云计算环境下数据库加密保护***和加密保护方法
CN102722413A (zh) * 2012-05-16 2012-10-10 上海兆民云计算科技有限公司 一种桌面云集群使用的分布式资源调度方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722413A (zh) * 2012-05-16 2012-10-10 上海兆民云计算科技有限公司 一种桌面云集群使用的分布式资源调度方法
CN102722576A (zh) * 2012-06-05 2012-10-10 西安未来国际信息股份有限公司 一种云计算环境下数据库加密保护***和加密保护方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
柯尊旺: "一种Mesos平台下多资源调度算法的研究与改进", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
胡俊: "集群环境下聚类算法的并行化研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170417A (zh) * 2017-12-29 2018-06-15 曙光信息产业(北京)有限公司 一种在mesos集群中集成高性能的作业调度框架的方法和装置
CN108170417B (zh) * 2017-12-29 2022-02-11 曙光信息产业(北京)有限公司 一种在mesos集群中集成高性能的作业调度框架的方法和装置
CN109634749A (zh) * 2018-12-20 2019-04-16 厦门商集网络科技有限责任公司 一种分布式统一调度方法及设备
CN109634749B (zh) * 2018-12-20 2020-10-27 厦门商集网络科技有限责任公司 一种分布式统一调度方法及设备
CN111459678A (zh) * 2020-04-02 2020-07-28 上海极链网络科技有限公司 一种资源调度方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN105808328B (zh) 任务调度的方法、装置和***
CN107038069B (zh) Hadoop平台下动态标签匹配DLMS调度方法
US6732139B1 (en) Method to distribute programs using remote java objects
CN108762896A (zh) 一种基于Hadoop集群任务调度方法及计算机设备
WO2019001092A1 (zh) 负载均衡引擎,客户端,分布式计算***以及负载均衡方法
CN104375882B (zh) 匹配于高性能计算机结构的多级嵌套数据驱动计算方法
CN106919445A (zh) 一种在集群中并行调度容器的方法和装置
JP2010122758A (ja) ジョブ管理装置、ジョブ管理方法およびジョブ管理プログラム
CN104239144A (zh) 一种多级分布式任务处理***
CN113886034A (zh) 任务调度方法、***、电子设备及存储介质
CN112596902A (zh) 基于cpu-gpu协同计算的任务调度方法及装置
CN103365729A (zh) 一种基于任务类型的动态MapReduce 调度方法及***
CN103503412B (zh) 用于调度资源的方法及装置
CN104123182A (zh) 基于主从架构的MapReduce任务跨数据中心调度***及方法
CN107220114A (zh) 基于资源统一调度的分布式资源调度方法
CN110308984A (zh) 一种用于处理地理分布式数据的跨集群计算***
CN108510150A (zh) 一种基于边缘计算的纺纱cps及其实时任务处理方法
CN115292016A (zh) 基于人工智能的任务调度方法及相关设备
CN105553732B (zh) 一种分布式网络模拟方法及***
CN104579864A (zh) 用于飞机的数据通信网络
CN113010283A (zh) 线上服务方法、装置、电子设备和可读存储介质
CN103595654A (zh) 基于多核CPU的HQoS实现方法、装置及网络设备
CN109976873B (zh) 容器化分布式计算框架的调度方案获取方法及调度方法
CN103269431B (zh) 一种云转码实现方法及装置
CN104346220B (zh) 一种任务调度方法与***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170929

RJ01 Rejection of invention patent application after publication