CN112363811A - 一种人工智能计算资源调度方法及计算机可读存储介质 - Google Patents

一种人工智能计算资源调度方法及计算机可读存储介质 Download PDF

Info

Publication number
CN112363811A
CN112363811A CN202011280247.5A CN202011280247A CN112363811A CN 112363811 A CN112363811 A CN 112363811A CN 202011280247 A CN202011280247 A CN 202011280247A CN 112363811 A CN112363811 A CN 112363811A
Authority
CN
China
Prior art keywords
node
nodes
cluster
scheduling
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011280247.5A
Other languages
English (en)
Other versions
CN112363811B (zh
Inventor
黄洋
王迎雪
袁柳
王亚珅
刘弋峰
孙留英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mengyu Information Technology Co ltd
Electronic Science Research Institute of CTEC
Original Assignee
Shanghai Mengyu Information Technology Co ltd
Electronic Science Research Institute of CTEC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mengyu Information Technology Co ltd, Electronic Science Research Institute of CTEC filed Critical Shanghai Mengyu Information Technology Co ltd
Priority to CN202011280247.5A priority Critical patent/CN112363811B/zh
Publication of CN112363811A publication Critical patent/CN112363811A/zh
Application granted granted Critical
Publication of CN112363811B publication Critical patent/CN112363811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种人工智能计算资源调度方法及计算机可读存储介质,本发明可通过设置多个Kubernet Scheduler调度器并发调度来筛选得到满足不同条件的节点集合,然后取不同节点集合的交集得到最终的可用节点集合,最后从该可用节点集合中选取节点来执行具体的任务,从而大大提升了任务调度效率,也即本发明通过对调度性能的整体优化,有效的提升了调度的执行速度和效率,相比于现有Kuberbets Scheduler原始调度***,在同等环境下,本发明的调度效率可提升30%左右,这样针对集群规模比较大的***有明显的优势。所以本发明有效克服了现有平台的一些缺点,提高了生产效率,具有较高的利用价值。

Description

一种人工智能计算资源调度方法及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种人工智能计算资源调度方法及计算机可读存储介质。
背景技术
在人工智能模型训练和测试场景下,大部分时间需要将模型和数据放在后台进行长时间的训练测试。因此要求训练测试环境能够做到无人工干预的情况自行调度和执行,调度***要能够根据当前***资源的分布和使用情况,自动将要训练测试的模型调度到合适的工作点进行运算,最后输出运算结果数据。
目前大部分人工智能计算调度***都是依靠Kubernets Scheduler容器调度组件,结合Docker容器虚拟化技术,实现对人工智能计算资源的调度和管理。但是原生的Kubernets Scheduler的资源调度***本身随着集群规模的增大、调度任务的增多可能会存在性能上的瓶颈,直接会影响整个人工智能计算训练平台的处理能力和计算资源的利用率,最终会导致大量的训练和测试任务长时间堆积,得不到调用和执行。因此如何对以kebuernets Scheduler为核心的调度***进行优化,以提升调度的效率成为现在亟待需要解决的问题。
发明内容
本发明提供了一种人工智能计算资源调度方法及计算机可读存储介质,以解决现有技术中集群节点调度效率低的问题。
第一方面,本发明提供了一种人工智能计算资源调度方法,该方法包括:从节点集群中筛选得到以下的节点集合:筛选任务可用的节点,得到第一节点集合,检查节点标签Label匹配任务指定的nodeSelector的节点,得到第二节点集合,筛选具有任务处理资源的节点,得到第三节点集合,过滤掉任务需要的端口Port1与宿主机存在的端口Port2存在冲突的节点,得到端口可用的第四节点集合;选取所述第一节点集合、所述第二节点集合、所述第三节点集合与第四节点集合的交集,得到预选后的可用节点的最小集合Minhosts,从所述最小集合Minhosts中选择节点,并将任务绑定到选择的节点上。
可选地,所述从节点集群中筛选得到以下的节点集合之前,所述方法还包括:预选最优节点集群。
可选地,所述预选最优节点集群,包括:根据节点集群规模大小,确定遍历节点集群的范围,并在所确定的遍历节点集群范围内选取最优节点集群。
可选地,所述根据节点集群规模大小,确定遍历节点集群的范围,并在所确定的遍历节点集群范围内选取最优节点集群,包括:设置节点数阈值,当节点集群内的节点数大于所述节点数阈值,则在所述节点集群内选择预定数量的节点来遍历,并确定最优节点集群;而当节点集群内的节点数小于等于所述节点数阈值,则遍历节点集群内所有的节点来确定最优节点集群。
可选地,所述筛选任务可用的节点,得到第一节点集合,包括:从所述最优节点集群中,针对每个节点进行网络socket连接尝试,筛选出正常节点作为所述第一节点集合。
可选地,所述检查节点标签Label为根据节点的GPU卡的类型所设定的标签。
可选地,所述筛选具有任务处理资源的节点,得到第三节点集合,包括:从所述最优节点集群中,优先选取GPU资源最多的节点,然后再循环检测内存资源最多的节点以及CPU资源最多的节点,根据Totalgpu>Totalram>Totalcpu的顺序选择得到第三节点集合。
可选地,所述从所述最小集合Minhosts中选择节点,包括:通过Kubernet Scheduler调度器为所述最小集合Minhosts中的每个节点按照预设评分标准进行打分,选择分数最高的节点作为最终所选择的节点。
可选地,所述方法还包括:实时查询任务执行情况,并触发执行失败的任务在任务队列排队等待重新执行。
第二方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任一种所述的人工智能计算资源调度方法。
本发明有益效果如下:
本发明可通过设置多个Kubernet Scheduler调度器并发调度来筛选得到满足不同条件的节点集合,然后取不同节点集合的交集得到最终的可用节点集合,最后从该可用节点集合中选取节点来执行具体的任务,从而大大提升了任务调度效率,也即本发明通过对调度性能的整体优化,有效的提升了调度的执行速度和效率,相比于现有KuberbetsScheduler原始调度***,在同等环境下,本发明的调度效率可提升30%左右,这样针对集群规模比较大的***有明显的优势。所以本发明有效克服了现有平台的一些缺点,提高了生产效率,具有较高的利用价值。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明第一实施例提供的一种人工智能计算资源调度方法的流程示意图;
图2是本发明第一实施例提供的另一种集群节点的智能调度方法的流程示意图。
具体实施方式
本发明实施例针对现有集群节点调度效率低的问题,可通过设置多个KubernetScheduler调度器并发调度来筛选得到满足不同条件的节点集合,然后取不同节点集合的交集得到最终的可用节点集合,最后从该可用节点集合中选取节点来执行具体的任务,从而大大提升了任务调度效率,也即本发明通过对调度性能的整体优化,有效的提升了调度的执行速度和效率,相比于现有Kuberbets Scheduler原始调度***,在同等环境下,本发明的调度效率可提升30%左右,这样针对集群规模比较大的***有明显的优势。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明第一实施例提供了一种人工智能计算资源调度方法,参见图1,该方法包括:
S101、从节点集群中筛选得到以下的节点集合:筛选任务可用的节点,得到第一节点集合,检查节点标签Label匹配任务指定的nodeSelector的节点,得到第二节点集合,筛选具有任务处理资源的节点,得到第三节点集合,过滤掉任务需要的端口Port1与宿主机存在的端口Port2存在冲突的节点,得到端口可用的第四节点集合;
S102、选取各个节点集合的交集,即选取所述第一节点集合、所述第二节点集合、所述第三节点集合与第四节点集合的交集,得到预选后的可用节点的最小集合Minhosts
S103、从所述最小集合Minhosts中选择节点,并将任务绑定到选择的节点上。
也就是说,本发明实施例是针对Kubernets Scheduler容器调度组件,结合Docker容器虚拟化技术来对人工智能计算资源的调度和管理,通过设置多个Kubernet Scheduler调度器并发调度来筛选得到满足不同条件的节点集合,然后取不同节点集合的交集得到最终的可用节点集合,最后从该可用节点集合中选取节点来执行具体的任务,从而大大提升了任务调度效率,也即本发明是通过对调度性能的整体优化,有效的提升了调度的执行速度和效率。
总体来说,本发明实施例是结合人工智能训练和测试使用场景的实际需求特点,将上层调度逻辑(即任务调度)与底层Kubernets Scheduler调度(即资源调度)相结合。通过优化Scheduler调度策略和算法,以此来提升Kubernets Scheduler调度器在人工智能计算资源调度场景下的调度性能。
进一步地,本发明实施例所述从节点集群中筛选得到以下的节点集合之前,所述方法还包括:预选最优节点集群。
具体来说,本发明实施例是根据节点集群规模大小,确定遍历节点集群的范围,并在所确定的遍历节点集群范围内选取最优节点集群。
具体地,本发明实施例是首先设置节点数阈值,当节点集群内的节点数大于所述节点数阈值,则在所述节点集群内选择预定数量的节点来遍历,并确定最优节点集群;而当节点集群内的节点数小于等于所述节点数阈值,则遍历节点集群内所有的节点来确定最优节点集群。
也即,本发明实施例是根据实际情况来设置一个具体的节点数阈值,在该节点数阈值之上的,则定义为大集群,所以仅针对该打集群进行局部遍历即可,而对于小于该节点数阈值的集群,则可进行全集群的遍历,从而在提高效率的基础上,节省***资源。
需要说明的是本发明实施例所述的节点数阈值的具体数值,本领域技术人员可以任意进行设定,本发明对此不作具体限定。
进一步地,本发明实施例所述筛选任务可用的节点,得到第一节点集合,包括:从所述最优节点集群中,针对每个节点进行网络socket连接尝试,筛选出正常节点作为所述第一节点集合。
另外,本发明实施例所述检查节点标签Label为根据节点的GPU卡的类型所设定的标签。
具体实施例是,本发明实施例所述筛选具有任务处理资源的节点,得到第三节点集合,包括:从所述最优节点集群中,优先选取GPU资源最多的节点,然后再循环检测内存资源最多的节点以及CPU资源最多的节点,根据Totalgpu>Totalram>Totalcpu的顺序选择得到第三节点集合。以及通过Kubernet Scheduler调度器为所述最小集合Minhosts中的每个节点按照预设评分标准进行打分,选择分数最高的节点作为最终所选择的节点。
进一步地,本发明实施例所述方法还包括:实时查询任务执行情况,并触发执行失败的任务在任务队列排队等待重新执行。
下面将结合图2通过一个具体的例子对本发明实施例所述的方法包括:
S1、进行集群最优解预选OptimalSolution,根据集群规模大小,设定遍历范围,也即选取全局最优解和局部最优解。
具体来说,在实际生产过程中,其实只要能找出N个节点Node,并在这N个节点Node中选择得分最高的Node即能满足任务需求即可,而不需要遍历所有的节点,这样可以大大减少计算时间,同时也不会对的调度结果产生太大的影响。
例如,本发明实施例以集群规模100节点为一个节点数阈值,100台及以下采用全局最优解,即需要对所有100个节点全部进行遍历,而对100台以上节点,则使用局部最优解,也即设定局部遍历,算法数算式:Maxlocal_nodes=max(5,50–节点总数/125),获取最优节点集群M。
S2、进行可用工作节点选择MatchNodeStatus,通过在每个节点设置socket侦听端口,针对从步骤S1中筛选出来的最优节点集群M中进行逐一网络socket连接尝试,这样可以更直接的探测出步骤S1筛选的节点是否正常(例如开机、网络联通状态等是否正常),以避免节点自身的心跳上报与***节点状态更新不及时出现误选的情况,通过步骤S2筛选出第一节点集合N;
S3、进行MatchNodeSelector匹配,即对从步骤S1中筛选出来的最优节点集群M检查节点标签(Label)是否匹配Pod指定的nodeSelector,具体实施时,本发明实施例主要是根据GPU卡的类型来分类打标签,如Pod指定的Label是Nvidia-Tesla-v100即所有Label是Nvidia-Tesla-v100节点被选中,筛选出第二节点集合P;
S4、进行资源PodFitsResources预选,针对从步骤S1中筛选出来的节点集合M检查过滤节点是否有足够资源(如CPU、内存以及GPU等)满足任务Pod的运行需求,实际使用过程中更多的依赖于GPU的资源,因此本发明对资源的过滤增加了算法处理,根据Totalgpu>Totalram>Totalcpu的顺序进行选择,优先选取GPU资源最多的节点,然后再循环检测过滤内存、CPU。为了保证节点本身***资源不被占用(即给***预留一部分CPU、内存资源,以免***因资源全部被占用而无法正常工作),本发明在PodFitsResources预选策略中增加了预留了***CPU、内存sys_cpu_reserver和sys_ram_reserver参数配置,在PodFitsResources预选时需要剔除这部分的预留资源。这样通过步骤S4筛选出第三节点集合Q;
S5、检测Pod容器运行占用的端口是否与主机冲突,针对从步骤S1中筛选出来的节点M,检测创建的Pod需要的端口Port1与宿主机存在的端口Port2冲突则过滤掉该主机节点,经过筛选得到预选阶段候选的第四节点集合R;
S6、将步骤S2~S5分别产生的节点集合取交集
Figure BDA0002780527800000071
其中,n为所有节点集合的总数,i取不同数据代表为不同的节点交集,交集后即得到预选后的可用主机,即节点,的最小集合Minhosts。然后Kubernet Scheduler调度器会进行优选,给每个节点按照评分标准进行打分,最终选取合适的节点将Pod绑定到该节点上。
S7、上层调度逻辑还可触发任务查询,实时更新任务执行的结果,并将结果返回到业务层的调度线程,如果底层调度失败执行则任务管理线程重新将该任务insert任务队列的队尾,等待下次调度执行,这样一次调度任务完成。
在具体实施时,本发明实施例是通过设置将步骤S2~S5进行并行执行,即可将步骤S2~S5通过设置多个Kubernet Scheduler调度器并发调度筛选策略,以提升调度速率,步骤S7通过上层的业务的多线程机制,可以并发轮询任务队列。因此,通过调度性能的整体优化,有效的提升了人工智能计算资源调度速度和效率,通过上下层调度相结合对比原始Kuberbets Scheduler原始调度***同等环境下,经测试调度效率可提升30%左右,这样针对集群规模比较大的***有明显的优势。所以,本发明有效克服了现有平台的一些缺点,提高了生产效率,具有较高的利用价值。
进一步地,本发明实施例还可从提升Scheduler的规模开始,即增加集群维持多个Scheduler调度器和podQueue,如根据请求GPU资源的类型,通过API Server设置将createPod请求指定给不同的调度器Scheduler,实现类似分布式调度的原理,避免单个Scheduler调度器在高并发时候的单点瓶颈问题。
总体来说,本发明实施例提供的人工智能计算资源调度方法可适用于大部分利用Kubernets-Scheduler调度器的场景,该方法还可配置多种调度策略和调度优化参数,灵活多样,适应不同用户和不同业务的调度需求。并可适用于任何类型的人工智能AI模型训练和测试场景,最大程度做到了业务无关性。
本发明第二实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现本发明第一实施例中任一种所述的人工智能计算资源调度方法。
本发明实施例的相关内容可参见本发明第一实施例进行理解,在此不做详细论述。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (10)

1.一种人工智能计算资源调度方法,其特征在于,包括:
从节点集群中筛选得到以下的节点集合:筛选任务可用的节点,得到第一节点集合,检查节点标签Label匹配任务指定的nodeSelector的节点,得到第二节点集合,筛选具有任务处理资源的节点,得到第三节点集合,过滤掉任务需要的端口Port1与宿主机存在的端口Port2存在冲突的节点,得到端口可用的第四节点集合;
选取所述第一节点集合、所述第二节点集合、所述第三节点集合与第四节点集合的交集,得到预选后的可用节点的最小集合Minhosts,从所述最小集合Minhosts中选择节点,并将任务绑定到选择的节点上。
2.根据权利要求1所述的方法,其特征在于,所述从节点集群中筛选得到以下的节点集合之前,所述方法还包括:预选最优节点集群。
3.根据权利要求2所述的方法,其特征在于,所述预选最优节点集群,包括:
根据节点集群规模大小,确定遍历节点集群的范围,并在所确定的遍历节点集群范围内选取最优节点集群。
4.根据权利要求3所述的方法,其特征在于,所述根据节点集群规模大小,确定遍历节点集群的范围,并在所确定的遍历节点集群范围内选取最优节点集群,包括:
设置节点数阈值,当节点集群内的节点数大于所述节点数阈值,则在所述节点集群内选择预定数量的节点来遍历,并确定最优节点集群;
而当节点集群内的节点数小于等于所述节点数阈值,则遍历节点集群内所有的节点来确定最优节点集群。
5.根据权利要求2所述的方法,其特征在于,所述筛选任务可用的节点,得到第一节点集合,包括:
从所述最优节点集群中,针对每个节点进行网络socket连接尝试,筛选出正常节点作为所述第一节点集合。
6.根据权利要求1所述的方法,其特征在于,
所述检查节点标签Label为根据节点的GPU卡的类型所设定的标签。
7.根据权利要求2所述的方法,其特征在于,所述筛选具有任务处理资源的节点,得到第三节点集合,包括:
从所述最优节点集群中,优先选取GPU资源最多的节点,然后再循环检测内存资源最多的节点以及CPU资源最多的节点,根据Totalgpu>Totalram>Totalcpu的顺序选择得到第三节点集合。
8.根据权利要求1所述的方法,其特征在于,所述从所述最小集合Minhosts中选择节点,包括:
通过Kubernet Scheduler调度器为所述最小集合Minhosts中的每个节点按照预设评分标准进行打分,选择分数最高的节点作为最终所选择的节点。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
实时查询任务执行情况,并触发执行失败的任务在任务队列排队等待重新执行。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现权利要求1-9中任意一项所述的人工智能计算资源调度方法。
CN202011280247.5A 2020-11-16 2020-11-16 一种人工智能计算资源调度方法及计算机可读存储介质 Active CN112363811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011280247.5A CN112363811B (zh) 2020-11-16 2020-11-16 一种人工智能计算资源调度方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011280247.5A CN112363811B (zh) 2020-11-16 2020-11-16 一种人工智能计算资源调度方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112363811A true CN112363811A (zh) 2021-02-12
CN112363811B CN112363811B (zh) 2023-04-07

Family

ID=74516217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011280247.5A Active CN112363811B (zh) 2020-11-16 2020-11-16 一种人工智能计算资源调度方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112363811B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228354A (zh) * 2017-12-29 2018-06-29 杭州朗和科技有限公司 调度方法、***、计算机设备和介质
CN109684065A (zh) * 2018-12-26 2019-04-26 北京云联万维技术有限公司 一种资源调度方法、装置及***
CN109815009A (zh) * 2018-12-28 2019-05-28 周口师范学院 一种csp下的资源调度与优化方法
CN109960585A (zh) * 2019-02-02 2019-07-02 浙江工业大学 一种基于kubernetes的资源调度方法
CN110008024A (zh) * 2019-04-02 2019-07-12 广西大学 一种多维约束下基于延迟决策的容器调度方法以及装置
US20190243914A1 (en) * 2018-02-08 2019-08-08 Adam Lugowski Parallel query processing in a distributed analytics architecture
US20200019444A1 (en) * 2018-07-11 2020-01-16 International Business Machines Corporation Cluster load balancing based on assessment of future loading
CN110908791A (zh) * 2018-09-14 2020-03-24 北京京东尚科信息技术有限公司 调度方法、调度装置和调度***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228354A (zh) * 2017-12-29 2018-06-29 杭州朗和科技有限公司 调度方法、***、计算机设备和介质
US20190243914A1 (en) * 2018-02-08 2019-08-08 Adam Lugowski Parallel query processing in a distributed analytics architecture
US20200019444A1 (en) * 2018-07-11 2020-01-16 International Business Machines Corporation Cluster load balancing based on assessment of future loading
CN110908791A (zh) * 2018-09-14 2020-03-24 北京京东尚科信息技术有限公司 调度方法、调度装置和调度***
CN109684065A (zh) * 2018-12-26 2019-04-26 北京云联万维技术有限公司 一种资源调度方法、装置及***
CN109815009A (zh) * 2018-12-28 2019-05-28 周口师范学院 一种csp下的资源调度与优化方法
CN109960585A (zh) * 2019-02-02 2019-07-02 浙江工业大学 一种基于kubernetes的资源调度方法
CN110008024A (zh) * 2019-04-02 2019-07-12 广西大学 一种多维约束下基于延迟决策的容器调度方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
星环科技: "《五分钟了解k8s调度器kube-scheduler》", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/56088355》 *

Also Published As

Publication number Publication date
CN112363811B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109960585B (zh) 一种基于kubernetes的资源调度方法
US9430388B2 (en) Scheduler, multi-core processor system, and scheduling method
US8510747B2 (en) Method and device for implementing load balance of data center resources
CN111045795A (zh) 资源调度方法及装置
WO2024021489A1 (zh) 一种任务调度方法、装置及Kubernetes调度器
CN110221920B (zh) 部署方法、装置、存储介质及***
CN112416585A (zh) 面向深度学习的gpu资源管理与智能化调度方法
JP2022539955A (ja) タスクスケジューリング方法及び装置
CN113032102B (zh) 资源重调度方法、装置、设备和介质
CN113672391B (zh) 一种基于Kubernetes的并行计算任务调度方法与***
CN114153580A (zh) 一种跨多集群的工作调度方法及装置
CN114356543A (zh) 一种基于Kubernetes的多租户机器学习任务资源调度方法
CN114968601B (zh) 一种按比例预留资源的ai训练作业的调度方法和调度***
CN111767145A (zh) 容器调度***、方法、装置和设备
CN114968566A (zh) 一种面向共享式gpu集群下的容器调度方法及装置
CN110764915A (zh) 一种针对kubernetes主节点选择的优化方法
CN112217727B (zh) 多度量维度的路由选择方法、装置、计算机设备及存储介质
CN113391914A (zh) 任务调度方法和装置
CN116483547A (zh) 资源调度方法、装置、计算机设备和存储介质
CN112363811B (zh) 一种人工智能计算资源调度方法及计算机可读存储介质
CN113127179A (zh) 资源调度方法、装置、电子设备及计算机可读介质
CN110851245A (zh) 一种分布式异步任务调度方法及电子设备
CN114461356A (zh) 调度器进程数量的控制方法、IaaS云平台调度***
CN117632461A (zh) 任务调度方法、装置、存储介质及计算机设备
CN111708799A (zh) Spark任务处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant