CN113886069A - 一种资源分配方法、装置、电子设备及存储介质 - Google Patents
一种资源分配方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113886069A CN113886069A CN202111050492.1A CN202111050492A CN113886069A CN 113886069 A CN113886069 A CN 113886069A CN 202111050492 A CN202111050492 A CN 202111050492A CN 113886069 A CN113886069 A CN 113886069A
- Authority
- CN
- China
- Prior art keywords
- target
- task
- resource
- application instance
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45562—Creating, deleting, cloning virtual machine instances
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45575—Starting, stopping, suspending or resuming virtual machine instances
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种资源分配方法、装置、电子设备及存储介质,其中,方法包括:在监听到发生任务新增事件的情况下,获取与任务新增事件对应的进行容器化部署的目标任务的任务配置文件;按照任务配置文件中指示的目标任务包含的应用实例的资源占用量,将应用实例预调度到至少一个候选节点中的目标节点上,以使目标节点的可用资源中资源占用量的资源被应用实例预占用;在应用实例均预调度成功的情况下,将应用实例调度到目标节点上。本申请先确定目标任务中的应用实例均可以被预调度之后,才对各个应用实例进行真正的调度,可以有效提高资源的使用效率,并且可以提高由各个候选节点构成的资源池的对任务的吞吐量。
Description
技术领域
本申请涉及资源调度技术领域,尤其涉及一种资源分配方法、装置、电子设备及存储介质。
背景技术
在Kubernetes(一种容器组管理***,简称为K8s)中,最基本的运行单元是Pod,Pod中可以包含多个容器,但一般来说,一个Pod中仅仅包含一个容器。
Kubernetes中的分布式任务是指,一个任务Job(Job指的是一次性任务,通过Job可以并行运行多个容器,当其任务执行完以后,就自动退出,集群也不再重新将其唤醒)中包含了多个Pod,多个Pod分别做运算,再根据某种协议将运算的结果合并。分布式任务可以突破单机性能的限制,让多台机器为整个运算服务,能够加快运算的速度。
在相关技术中,当用户通过Kubernetes创建了一个Job,且目前资源池中的资源只能够使这个Job下的部分Pod可以被调度并运行,则会造成Job无法启动,且资源池中被该Job已持有的资源无法被其它Job使用的情况;此外,当存在多个待启动的Job,且目前资源池中的资源只能够使其中一个Job下的所有Pod被调度时,会出现每个Job都持有了部分Pod的资源而不释放,导致每个Job都无法启动的情况;进而上述情况均会导致资源的浪费。
针对相关技术中存在的进行资源分配时出现资源浪费的技术问题,目前尚未提供有效的解决方案。
发明内容
为了解决相关技术中进行资源分配时出现资源浪费的技术问题,本申请提供了一种资源分配方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种资源分配方法,包括:
在监听到发生任务新增事件的情况下,获取与所述任务新增事件对应的进行容器化部署的目标任务的任务配置文件,其中,所述任务新增事件用于指示对所述目标任务进行资源分配;
按照所述任务配置文件中指示的所述目标任务包含的应用实例的资源占用量,将所述应用实例预调度到至少一个候选节点中的目标节点上,以使所述目标节点的可用资源中所述资源占用量的资源被所述应用实例预占用,其中,所述可用资源的可用资源量大于或者等于所述资源占用量;
在所述应用实例均预调度成功的情况下,将所述应用实例调度到所述目标节点上,其中,所述预调度成功用于指示在对每个所述应用实例进行预调度之后,每个所述候选节点的剩余资源的资源量大于等于0。
可选地,如前述的方法,在所述获取与所述任务新增事件对应的进行容器化部署的目标任务的任务配置文件之前,所述方法还包括:
获取由目标对象创建的所述任务配置文件;
将所述任务配置文件存储至目标数据库中,其中,所述任务新增事件为将所述任务配置文件存储至所述目标数据库中。
可选地,如前述的方法,所述获取与所述任务新增事件对应的目标任务的任务配置文件包括:
从所述目标数据库中获取与所述任务新增事件对应的所述任务配置文件。
可选地,如前述的方法,所述应用实例的数量为多个,且所述候选节点的数量为多个;
所述按照所述任务配置文件中指示的所述目标任务包含的应用实例的资源占用量,将所述应用实例预调度到至少一个候选节点中的目标节点上,以使所述目标节点的可用资源中所述资源占用量的资源被所述应用实例预占用包括:
在各个所述候选节点的所述可用资源量之和大于或等于各个所述应用实例的所述资源占用量之和的情况下,依次将多个所述应用实例预调度到多个所述候选节点中的至少一个所述目标节点上,以使所述目标节点的可用资源中所述资源占用量的资源被所述应用实例预占用,其中,一个所述应用实例调度到一个所述目标节点上。
可选地,如前述的方法,所述按照每个所述应用实例的资源占用量以及所述目标节点的可用资源量,依次将多个所述应用实例预调度到多个所述候选节点中的至少一个所述目标节点上,包括:
按照每个所述应用实例对应的调度次序,确定当前待处理的目标应用实例;
确定所述目标应用实例预调度到的第一目标节点,其中,所述第一目标节点为多个所述候选节点中,可用资源量大于所述目标应用实例的资源占用量,且可用资源量最少的节点;
将所述目标应用实例预调度到所述第一目标节点上。
可选地,如前述的方法,在所述将所述目标应用实例预调度到所述第一目标节点上之后,所述方法还包括:
使用所述第一目标节点的可用资源量与所述目标应用实例的资源占用量的差值,对所述第一目标节点的可用资源量进行更新。
可选地,如前述的方法,在所述将所述应用实例调度到所述目标节点上之前,所述方法还包括:
将所述应用实例与目标节点之间的对应关系存储至目标存储***中,以使所述目标节点在监听到自身被绑定有所述应用实例之后,根据所述应用实例创建目标容器,并启动所述目标容器运行所述应用实例。
第二方面,本申请实施例提供了一种资源分配装置,包括:
文件获取模块,用于在监听到发生任务新增事件的情况下,获取与所述任务新增事件对应的进行容器化部署的目标任务的任务配置文件,其中,所述任务新增事件用于指示对所述目标任务进行资源分配;
预调度模块,用于按照所述任务配置文件中指示的所述目标任务包含的应用实例的资源占用量,将所述应用实例预调度到至少一个候选节点中的目标节点上,以使所述目标节点的可用资源中所述资源占用量的资源被所述应用实例预占用,其中,所述可用资源的可用资源量大于或者等于所述资源占用量;
调度确定模块,用于在所述应用实例均预调度成功的情况下,将所述应用实例调度到所述目标节点上,其中,所述预调度成功用于指示在对每个所述应用实例进行预调度之后,每个所述候选节点的剩余资源的资源量大于等于0。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现如前述任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行如前任一项所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,通过先确定目标任务中的应用实例均可以被预调度之后,才对各个应用实例进行真正的调度,可以避免在直接对应用实例进行调度时,因为当前候选节点无法向目标任务提供足够资源,导致目标任务中某些应用实例无法被调度,因而目标任务无法被执行的情况,同时,由于目标任务中已被调度的应用实例持续占用着资源而不释放,容易出现其它任务因为无法获取足够的资源而无法执行的情况;进而,通过本实施例中的方法可以有效提高资源的使用效率,并且可以提高由各个候选节点构成的资源池的对任务的吞吐量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种资源分配方法的流程图;
图2为本申请另一实施例提供的一种资源分配方法的流程图;
图3为本申请另一实施例提供的一种资源分配方法的流程图;
图4为本申请应用例提供的一种资源分配方法的流程图;
图5为本申请实施例提供的一种资源分配装置的框图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在相关技术中,Kubernetes提供了Job(管理工作类容器,一个或多个Pod的集合)用于对计算任务进行容器化部署,当用户通过Kubernetes创建了一个Job,这个Job下的Pod可能会被调度,也可能不会被调度。比如:一个Job1下关联了10个Pod,其中6个Pod能被调度并运行,另外4个处于等待的状态,但是当使用分布式任务运行深度学习的训练,即分布式训练(一般而言,深度学习需要对大量的训练数据进行运算,单机无法满足需求,因此分布式训练是深度学习的主流方式)时,必须10个Pod都运行,才能进行训练,必须等待另外4个Pod启动,才能继续运行。无疑,在另外4个任务运行之前,这个Job1既持有6个Pod的资源而不释放,同时还等待被释放4个任务的资源。这带来了资源的浪费。
另一种情况下,如果目前资源池有4个资源,而存在Job2和Job3,Job2和Job3下分别有4个Pod,在相关技术中,会存在Job2获得了1个Pod的资源,而Job3获得了3个Pod的资源,此时,这Job2和Job3都无法正常启动,但是资源却都被占用了。如果剩余资源没有增加的话,这两个任务将永远无法正常启动。
由此可知,相关技术中的资源调用,如果能有一种新的调度方式,能够解决这样的调度困境,将能大大提高整个***的吞吐量。
为了解决上述技术问题,根据本申请实施例的一个方面,提供了一种资源分配方法。可选地,在本实施例中,上述属性信息的获取方法可以应用于的由终端和服务器所构成的硬件环境中。服务器通过网络与终端进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库,用于为服务器提供数据存储服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端可以并不限定于为PC、手机、平板电脑等。
本申请实施例的资源分配方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。其中,终端执行本申请实施例的资源分配方法也可以是由安装在其上的客户端来执行。
以由服务器来执行本实施例中的资源分配方法为例,图1为本申请实施例提供的一种资源分配方法,包括如下所述步骤S101至S103:
步骤S101,在监听到发生任务新增事件的情况下,获取与任务新增事件对应的进行容器化部署的目标任务的任务配置文件,其中,任务新增事件用于指示对目标任务进行资源分配。
本申请的资源分配方法的应用于需要根据任务对资源进行分配,以使任务获取运行所需的资源的应用场景;例如,在Kubernetes中,对Job进行资源分配的场景,此外,还可以是其他场景。以在Kubernetes中,对进行容器化部署的Job(即,目标任务)进行资源分配的场景为例,对于一个新增的JobI,由于需要确定给该JobI分配多少资源,因此需要获取该JobI的任务配置文件。
任务配置文件中可以是用于创建目标任务JobI所需的配置文件,任务配置文件中包含目标任务JobI中的所有Pod,以及各个Pod所需的资源,资源的类型可以包括但不限于:存储资源、内存资源以及CPU资源等等。任务配置文件可以是由用户在特定存储位置创建得到的文件,在任务配置文件创建完成之后,即可视为发生了用于触发对任务配置文件对应的目标任务进行资源分配的任务新增事件。
例如,可以按照预设频率监听(例如,每5s监听一次)是否存在新生成或新写入的任务配置文件,当监听到某一存储位置新写入有一任务配置文件时,即判定发生任务新增事件,然后读取得到最新写入的任务配置文件。
步骤S102,按照任务配置文件中指示的目标任务包含的应用实例的资源占用量,将应用实例预调度到至少一个候选节点中的目标节点上,以使目标节点的可用资源中资源占用量的资源被应用实例预占用,其中,可用资源的可用资源量大于或者等于资源占用量。
在获取任务配置文件之后,由于任务配置文件是对应于目标任务的,且其中包含目标任务JobI中的所有Pod,以及各个Pod所需的资源,每个Pod即为一个应用实例,因此,基于任务配置文件可以确定出目标任务包含的所有应用实例,以及每个应用实例的资源占用量。
资源占用量可以是目标任务中各个应用实例Pod所需占用的资源的总和,例如,假设目标任务JobI中包括的每个应用实例Pob所需的资源都一致时,并且每个Pod所需的资源记为一个单位资源(例如,内存2GB-10个CPU运算单元-20GB存储资源)时,则该目标任务JobI的资源占用量为4个单位资源。在一般情况下,一个Job至少包括一个Pod,并且每个Pod需要分配至同一个处理节点Node中运行。
候选节点可以是用于提供运算资源的节点,候选节点可以包括一个或多个,由多个候选节点可以构成资源池,每个候选节点所能够提供的运算资源都是有限的,因此,当候选节点中的可用资源量会随着运行的任务的增加而减少,其中,目标节点则是目标任务中的某一个应用实例被调度至的节点。并且,在未确定目标任务中的各个应用实例均可以被分配对应的资源的情况下,可以只将应用实例预调度到至少一个候选节点中的目标节点上,以使目标节点的可用资源中资源占用量的资源被应用实例预占用;即,目标节点上的可用资源中资源占用量的资源只是暂时被应用实例预占用,而未将该目标节点上的可用资源中资源占用量的资源用于运行该应用实例,通过此方式可以避免同一个资源被重复分配给多个应用实例;若最后目标任务包含的应用实例都可以被预调度到某一个目标节点上,则可以使应用实例占用对应的预占用的资源;若最后目标任务包含的至少一个应用实例无法被预调度到任一个候选节点上,则使目标任务的所有应用实例解除预占用对应的资源,以使被预占用的资源释放,并用于预分配给其他任务的应用实例。
例如,当应用实例只存在1个,候选节点存在3个时,先确定应用实例的资源占用量L1,然后确定各个候选节点的可用资源量L2,L3,L4;最后根据L1分别与L2,L3,L4之间的数量关系,选择得到可用资源量大于L1的候选节点作为目标节点。
步骤S103,在应用实例均预调度成功的情况下,将应用实例调度到目标节点上,其中,预调度成功用于指示在对每个应用实例进行预调度之后,每个候选节点的剩余资源的资源量大于等于0。
预调度成功可以是目标任务中的应用实例在被调度至应用实例对应的目标节点后,每个目标节点中的剩余的资源量仍然大于或等于0;即,预调度成功不会出现目标节点被调度的应用实例所需的资源量大于其本身可用资源量的情况;进一步的,在与目标任务对应的所有预调度中,每个资源只能被一个预调度的应用实例占用。
当每个应用实例均预调度成功之后,即说明目标任务可以通过一个目标节点或多个目标节点的组合执行,因此,将各个应用实例调度至每个应用实例对应的目标节点上。
例如,当目标任务存在2个应用实例A、B,存在3个候选节点a、b、c时,在按照前述步骤S102中的方法确定应用实例A可以被预调度至候选节点a中(即,候选节点a的可用资源量大于或等于应用实例A的资源占用量),应用实例B可以被预调度至候选节点b中(即,候选节点b的可用资源量大于或等于应用实例B的资源占用量)时,则将应用实例A调度至候选节点a,应用实例B调度至候选节点b中,以完成对目标任务的资源调度。
通过本实施例中的方法,先确定目标任务中的应用实例均可以被预调度之后,才对各个应用实例进行真正的调度,可以避免在直接对应用实例进行调度时,因为当前候选节点无法向目标任务提供足够资源,导致目标任务中某些应用实例无法被调度,因而目标任务无法被执行的情况,同时,由于目标任务中已被调度的应用实例持续占用着资源而不释放,容易出现其它任务因为无法获取足够的资源而无法执行的情况;进而,通过本实施例中的方法可以有效提高资源的使用效率,并且可以提高由各个候选节点构成的资源池的对任务的吞吐量。
如图2所示,在一些实施例中,如前述的方法,在所述步骤S101获取与任务新增事件对应的进行容器化部署的目标任务的任务配置文件之前,方法还包括如下所述步骤S201和S202:
步骤S201,获取由目标对象创建的任务配置文件。
目标对象可以是需要为目标任务获取运算服务的配置人员,任务配置文件则是目标对象用于创建目标任务的文件。
可选的,需要创建Kubernetes中的新的CRD(Custom Resource Definition,定制资源对象)资源,来管理下面的各个Pod,因为Kubernetes原生的Job无法满足gangscheduler。可以建立新资源IQJob(即,任务配置文件),IQJob与现有技术中的Job相比,增加了PodSetuuid字段,相比于Job任务配置文件中通过PodSetuuid字段可以定义目标任务的UUID(通用唯一识别码,Universally Unique Identifier),Pod的数量,每个Pod所需的各类资源的资源量。
步骤S202,将任务配置文件存储至目标数据库中,其中,任务新增事件为将任务配置文件存储至目标数据库中。
目标数据库可以是用于存储任务配置文件的数据库,当任务配置文件存储至目标数据库之后,可以按照预设的监听频率,通过预设的查询接口对数据库进行监听,当确认目标数据库中新增了任务配置文件之后,则确定发生了任务新增事件。
例如,Kubernete API server得到IQJob(即,任务配置文件)之后,会将其记录到etcd(即,目标数据库,etcd是一个高可用的Key/Value存储***,主要用于分享配置和服务发现)中。通过list_and_watch接口可以发现etcd中新增了一个IQJob,并且得到这个IQJob的全部内容。
通过本实施例中的方法,可以实时获取新增的任务配置文件,进而可以提高任务处理的及时性。
在一些实施例中,如前述的方法,所述步骤S101获取与任务新增事件对应的目标任务的任务配置文件包括:
从目标数据库中获取与任务新增事件对应的任务配置文件。
由前述实施例步骤S201和S202可知,任务配置文件存储于目标数据库中;因此,可以从目标数据库中获取该任务配置文件。
例如,基于任务新增事件,可以确定目标数据库中新写入了一个任务配置文件,然后可以通过数据库中各个文件的写入时间,即可查询到最新写入的文件,并可确认该文件即为任务新增时间对应的任务配置文件。
通过本实施例中的方法,可以快速获取目标数据库中新增的任务配置文件,以便于后期快速基于任务配置文件对目标任务进行资源分配。
在一些实施例中,如前述的方法,应用实例的数量为多个,且候选节点的数量为多个;
所述步骤S102按照任务配置文件中指示的目标任务包含的应用实例的资源占用量,将应用实例预调度到至少一个候选节点中的目标节点上,以使目标节点的可用资源中资源占用量的资源被应用实例预占用包括:
在各个候选节点的可用资源量之和大于或等于各个应用实例的资源占用量之和的情况下,按照每个应用实例的资源占用量,依次将多个应用实例预调度到多个候选节点中的至少一个目标节点上,以使目标节点的可用资源中资源占用量的资源被应用实例预占用,其中,一个应用实例调度到一个目标节点上。
可用资源量之和可以是对各个候选节点的可用资源进行累加后得到;资源占用量之和可以是对目标任务的各个应用实例的资源占用量进行累加之后得到,并且可以基于任务配置文件中各个应用实例对应的配置内容,确定各个应用实例的资源占用量。由于目标任务只有在其中的每个应用实例都能够被调度到目标节点上之后,该目标任务才能够被执行,因此,只有在各个候选节点的可用资源量之和大于或等于各个应用实例的资源占用量之和的情况下,才有必要进行预调度。
在满足候选节点的可用资源量之和大于或等于各个应用实例的资源占用量之和的情况下,则可以基于每个应用实例的资源占用量以及每个候选节点的可用资源量之间的关系,确定每个应用实例预调度到的目标节点,以使目标节点的可用资源中资源占用量的资源被应用实例预占用,目标节点上的可用资源中资源占用量的资源只是暂时被应用实例预占用,而未将该目标节点上的可用资源中资源占用量的资源用于运行该应用实例,通过此方式可以避免同一个资源被重复分配给多个应用实例。进一步的,一个应用实例只需要调度到一个目标节点上,而一个目标节点可以被调度有多个应用实例。
例如,在确定每个应用实例Pod的资源占用量之后,可以依次对每个应用实例Pod进行判断,将所有候选节点Node中每个应用实例Pod可以预调度到的候选节点Node作为目标节点,并建立应用实例Pod与目标节点之间的对应关系,可选的,可以依次将每个应用实例Pod的资源占用量与各个候选节点Node的可用资源量进行比对,当确定候选节点Node1的可用资源量大于或等于应用实例Pod的资源占用量时,即将应用实例Pod调度到作为目标节点的该候选节点Node1上。
通过本实施例中的方法,可以在各个候选节点的可用资源量之和大于或等于各个应用实例的资源占用量之和的情况下,按照每个应用实例的资源占用量的情况下,才对应用实例进行调度,进而可以避免由于可用资源量之和小于资源占用量之和导致的无法完成对所有应用实例进行预调度的情况,可以有效提高预调度的效率。
如图3所示,在一些实施例中,如前述的方法,所述步骤按照每个应用实例的资源占用量以及目标节点的可用资源量,依次将多个应用实例预调度到多个候选节点中的至少一个目标节点上,包括如下所述步骤S301至S303:
步骤S301,按照每个应用实例对应的调度次序,确定当前待处理的目标应用实例。
调度次序可以是预先确定的用于指示对各个应用实例进行调度的次序,每个应用实例都有对应的调度次序。可选的,调度次序可以是预先人为设定的,还可以是按照其他策略进行排序得到,例如:按照每个应用实例的资源占用量,当资源占用量中包括多个类型的资源(例如,内存、CPU、GPU、磁盘等等)时,可以通过确定用于进行排序的资源类型的单个资源占用量对各个应用实例进行排序,得到应用实例对应的调度次序。一般情况下,各个调度次序都是按序排列的。
当前一应用实例被预调度完成之后,基于前一应用实例的调度次序即可确定当前待处理的应用实例,并将其记为目标应用实例。
步骤S302,确定目标应用实例预调度到的第一目标节点,其中,第一目标节点为多个候选节点中,可用资源量大于目标应用实例的资源占用量,且可用资源量最少的节点。
可以根据可用资源量由小至大的顺序对候选节点进行排序,并且按照该排序依次与目标应用实例的资源占用量进行比对,当确定某一可用资源量满足目标应用实例的资源占用量时,则可以筛选到可用资源量大于目标应用实例的资源占用量,且可用资源量最少的第一目标节点。
步骤S303,将目标应用实例预调度到第一目标节点上。
在确定了满足步骤S302中条件的第一目标节点之后,即可将目标应用实例预调度到第一目标节点上,以通过目标应用实例的资源占用量占用第一目标节点上对应的资源量。
通过本实施例中的方法,通过选择得到可用资源量大于目标应用实例的资源占用量,且可用资源量最少的节点作为第一目标节点,可以使候选节点在被调度有目标应用实例之后,剩余的资源量最少,可以有效减少资源的浪费。
在一些实施例中,如前述的方法,在将目标应用实例预调度到第一目标节点上之后,方法还包括如下所述步骤S401:
步骤S401,使用第一目标节点的可用资源量与目标应用实例的资源占用量的差值,对第一目标节点的可用资源量进行更新。
第一目标节点的可用资源量为目标应用实例预调度至第一目标节点之前可用的资源量;进而差值则为目标应用实例预调度至第一目标节点之后,第一目标节点可用的资源量。
在得到差值之后,后期若还需要对该第一目标节点分配应用实例,则需要基于差值判断第一目标节点是否满足待分配的应用实例的需求,因此,需要通过差值对第一目标节点的可用资源量进行更新,否则会出现即使预调度成功,在真实调度时,也会出现因为可用资源量不足,而无法将预调度的应用实例真实调度至第一目标节点的情况。
在一些实施例中,如前述的方法,在将应用实例调度到目标节点上之前,方法还包括如下所述步骤S501:
步骤S501,将应用实例与目标节点之间的对应关系存储至目标存储***中,以使目标节点在监听到自身被绑定有应用实例之后,根据应用实例创建目标容器,并启动目标容器运行应用实例。
目标存储***可以是如前述实施例中所述的etcd,并且,可以通过K8s scheduler将应用实例与目标节点之间的对应关系写入etcd。
目标节点上运行的kubelet通过list and watch接口,可以监听得到了被绑定到自身的应用实例pod,然后根据应用实例创建目标容器,并启动目标容器运行应用实例。
通过本实施例中的方法,可以使各个目标节点根据对应关系启动目标容器运行应用实例。
如图4所示为应用前述任一实施例中方法的应用例:
1.接收用户创建的IQJob(即,任务配置文件),IQJob中参数的格式与创建Job(即,目标任务)格式一致。
2.K8s API server(提供了K8s各类资源对象(Pod,RC,Service等)的增删改查及watch等HTTP Rest接口,是整个***的数据总线和数据中心)得到请求之后,会将其记录到etcd(即,目标数据库)中。
3.IQJob Controller通过list_and_watch接口(用于对etcd进行监听的接口)可以发现etcd中新增了一个IQJob之后,从etcd中得到这个IQJob的全部内容。
4.首先去查询K8s API server获得当前所有Node(即,候选节点)的资源使用情况。
5.根据IQJob中的Pod(即,应用实例)的内容,初始化PodSet(用于判断各个候选节点的可用资源量之和是否大于或等于各个应用实例的资源占用量之和),在确定各个候选节点的可用资源量之和是否大于或等于各个应用实例的资源占用量之和之后,再判断是否每一个Pod都可以被调度到Node上。
6.如果可以则通过gang scheduler(一个kube-batch作业(kube-batch job)可能有多个Pod,这些Pod要不全部执行,要不一个都不执行)的调度,并将请求K8s Scheduler做真实的调度。
7.K8s Scheduler将调度的信息,即Pod与Node的对应关系写入etcd(即,与目标数据库一致的目标存储***)。
8.此时,Node上运行的kubelet(在每个Node节点上运行的主要“节点代理”)通过list and watch接口对etcd进行监听,根据对应关系得到了被绑定到自身的Pod,然后启动container运行被绑定到自身的Pod。
如图5所示,根据本申请另一方面的一个实施例,还提供了一种资源分配装置,包括:
文件获取模块1,用于在监听到发生任务新增事件的情况下,获取与任务新增事件对应的进行容器化部署的目标任务的任务配置文件,其中,任务新增事件用于指示对目标任务进行资源分配;
预调度模块2,用于按照任务配置文件中指示的目标任务包含的应用实例的资源占用量,将应用实例预调度到至少一个候选节点中的目标节点上,以使目标节点的可用资源中资源占用量的资源被应用实例预占用,其中,可用资源的可用资源量大于或者等于资源占用量;
调度确定模块3,用于在应用实例均预调度成功的情况下,将应用实例调度到目标节点上,其中,预调度成功用于指示在对每个应用实例进行预调度之后,每个候选节点的剩余资源的资源量大于等于0。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的装置,还包括:
获取模块,用于获取由目标对象创建的任务配置文件;
文件存储模块,用于将任务配置文件存储至目标数据库中,其中,任务新增事件为将任务配置文件存储至目标数据库中。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的装置,文件获取模块1,用于从目标数据库中获取与任务新增事件对应的任务配置文件。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的装置,应用实例的数量为多个,且候选节点的数量为多个;
预调度模块2,用于在各个候选节点的可用资源量之和大于或等于各个应用实例的资源占用量之和的情况下,依次将多个应用实例预调度到多个候选节点中的至少一个目标节点上,以使目标节点的可用资源中资源占用量的资源被应用实例预占用,其中,一个应用实例调度到一个目标节点上。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的装置,预调度模块2包括:
第一确定单元,用于按照每个应用实例对应的调度次序,确定当前待处理的目标应用实例;
第二确定单元,用于确定目标应用实例预调度到的第一目标节点,其中,第一目标节点为多个候选节点中,可用资源量大于目标应用实例的资源占用量,且可用资源量最少的节点;
预调度单元,用于将目标应用实例预调度到第一目标节点上。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的装置,还包括:
更新模块,用于使用第一目标节点的可用资源量与目标应用实例的资源占用量的差值,对第一目标节点的可用资源量进行更新。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的装置,还包括:
对应关系存储模块,用于将应用实例与目标节点之间的对应关系存储至目标存储***中,以使目标节点在监听到自身被绑定有应用实例之后,根据应用实例创建目标容器,并启动目标容器运行应用实例。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请的另一个实施例,还提供一种电子设备,包括:如图6所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供一种计算机可读存储介质,存储介质包括存储的程序,其中,程序运行时执行上述方法实施例的方法步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种资源分配方法,其特征在于,包括:
在监听到发生任务新增事件的情况下,获取与所述任务新增事件对应的进行容器化部署的目标任务的任务配置文件,其中,所述任务新增事件用于指示对所述目标任务进行资源分配;
按照所述任务配置文件中指示的所述目标任务包含的应用实例的资源占用量,将所述应用实例预调度到至少一个候选节点中的目标节点上,以使所述目标节点的可用资源中所述资源占用量的资源被所述应用实例预占用,其中,所述可用资源的可用资源量大于或者等于所述资源占用量;
在所述应用实例均预调度成功的情况下,将所述应用实例调度到所述目标节点上,其中,所述预调度成功用于指示在对每个所述应用实例进行预调度之后,每个所述候选节点的剩余资源的资源量大于等于0。
2.根据权利要求1所述的方法,其特征在于,在所述获取与所述任务新增事件对应的进行容器化部署的目标任务的任务配置文件之前,所述方法还包括:
获取由目标对象创建的所述任务配置文件;
将所述任务配置文件存储至目标数据库中,其中,所述任务新增事件为将所述任务配置文件存储至所述目标数据库中。
3.根据权利要求2所述的方法,其特征在于,所述获取与所述任务新增事件对应的目标任务的任务配置文件包括:
从所述目标数据库中获取与所述任务新增事件对应的所述任务配置文件。
4.根据权利要求1所述的方法,其特征在于,所述应用实例的数量为多个,且所述候选节点的数量为多个;
所述按照所述任务配置文件中指示的所述目标任务包含的应用实例的资源占用量,将所述应用实例预调度到至少一个候选节点中的目标节点上,以使所述目标节点的可用资源中所述资源占用量的资源被所述应用实例预占用包括:
在各个所述候选节点的所述可用资源量之和大于或等于各个所述应用实例的所述资源占用量之和的情况下,依次将多个所述应用实例预调度到多个所述候选节点中的至少一个所述目标节点上,以使所述目标节点的可用资源中所述资源占用量的资源被所述应用实例预占用,其中,一个所述应用实例调度到一个所述目标节点上。
5.根据权利要求4所述的方法,其特征在于,所述依次将多个所述应用实例预调度到多个所述候选节点中的至少一个所述目标节点上,包括:
按照每个所述应用实例对应的调度次序,确定当前待处理的目标应用实例;
确定所述目标应用实例预调度到的第一目标节点,其中,所述第一目标节点为多个所述候选节点中,可用资源量大于所述目标应用实例的资源占用量,且可用资源量最少的节点;
将所述目标应用实例预调度到所述第一目标节点上。
6.根据权利要求5所述的方法,其特征在于,在所述将所述目标应用实例预调度到所述第一目标节点上之后,所述方法还包括:
使用所述第一目标节点的可用资源量与所述目标应用实例的资源占用量的差值,对所述第一目标节点的可用资源量进行更新。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在所述将所述应用实例调度到所述目标节点上之前,所述方法还包括:
将所述应用实例与目标节点之间的对应关系存储至目标存储***中,以使所述目标节点在监听到自身被绑定有所述应用实例之后,根据所述应用实例创建目标容器,并启动所述目标容器运行所述应用实例。
8.一种资源分配装置,其特征在于,包括:
文件获取模块,用于在监听到发生任务新增事件的情况下,获取与所述任务新增事件对应的进行容器化部署的目标任务的任务配置文件,其中,所述任务新增事件用于指示对所述目标任务进行资源分配;
预调度模块,用于按照所述任务配置文件中指示的所述目标任务包含的应用实例的资源占用量,将所述应用实例预调度到至少一个候选节点中的目标节点上,以使所述目标节点的可用资源中所述资源占用量的资源被所述应用实例预占用,其中,所述可用资源的可用资源量大于或者等于所述资源占用量;
调度确定模块,用于在所述应用实例均预调度成功的情况下,将所述应用实例调度到所述目标节点上,其中,所述预调度成功用于指示在对每个所述应用实例进行预调度之后,每个所述候选节点的剩余资源的资源量大于等于0。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111050492.1A CN113886069A (zh) | 2021-09-08 | 2021-09-08 | 一种资源分配方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111050492.1A CN113886069A (zh) | 2021-09-08 | 2021-09-08 | 一种资源分配方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113886069A true CN113886069A (zh) | 2022-01-04 |
Family
ID=79008655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111050492.1A Pending CN113886069A (zh) | 2021-09-08 | 2021-09-08 | 一种资源分配方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886069A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490068A (zh) * | 2022-01-28 | 2022-05-13 | 北京秒如科技有限公司 | 一种边缘计算网络的资源编排方法 |
CN114598666A (zh) * | 2022-02-24 | 2022-06-07 | 阿里巴巴(中国)有限公司 | 资源处理方法及资源调度方法 |
CN114780232A (zh) * | 2022-03-25 | 2022-07-22 | 阿里巴巴(中国)有限公司 | 云应用调度方法、装置、电子设备及存储介质 |
-
2021
- 2021-09-08 CN CN202111050492.1A patent/CN113886069A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490068A (zh) * | 2022-01-28 | 2022-05-13 | 北京秒如科技有限公司 | 一种边缘计算网络的资源编排方法 |
CN114598666A (zh) * | 2022-02-24 | 2022-06-07 | 阿里巴巴(中国)有限公司 | 资源处理方法及资源调度方法 |
WO2023160418A1 (zh) * | 2022-02-24 | 2023-08-31 | 阿里巴巴(中国)有限公司 | 资源处理方法及资源调度方法 |
CN114780232A (zh) * | 2022-03-25 | 2022-07-22 | 阿里巴巴(中国)有限公司 | 云应用调度方法、装置、电子设备及存储介质 |
CN114780232B (zh) * | 2022-03-25 | 2023-04-07 | 阿里巴巴(中国)有限公司 | 云应用调度方法、装置、电子设备及存储介质 |
WO2023179387A1 (zh) * | 2022-03-25 | 2023-09-28 | 阿里巴巴(中国)有限公司 | 云应用调度方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471727B (zh) | 一种任务处理方法、装置及*** | |
US10003500B2 (en) | Systems and methods for resource sharing between two resource allocation systems | |
CN109582466B (zh) | 一种定时任务执行方法、分布式服务器集群及电子设备 | |
CN113886069A (zh) | 一种资源分配方法、装置、电子设备及存储介质 | |
KR100509794B1 (ko) | 데이터베이스 관리시스템을 이용하는 작업들의 실시간 처리를 위한 스케줄링 방법 | |
CN110096336B (zh) | 数据监控方法、装置、设备和介质 | |
US9319281B2 (en) | Resource management method, resource management device, and program product | |
CN111104227B (zh) | 一种K8s平台的资源控制方法、装置及相关组件 | |
CN111464659A (zh) | 节点的调度、节点的预选处理方法、装置、设备及介质 | |
JPWO2007072544A1 (ja) | 情報処理装置、計算機、リソース割り当て方法及びリソース割り当てプログラム | |
CN107343023B (zh) | 一种Mesos管理集群中的资源分配方法、装置及电子设备 | |
CN113835865A (zh) | 一种任务部署方法和装置、电子设备和存储介质 | |
CN112148468A (zh) | 一种资源调度方法、装置、电子设备及存储介质 | |
CN112860387A (zh) | 分布式任务调度方法、装置、计算机设备及存储介质 | |
CN114625533A (zh) | 分布式任务调度方法、装置、电子设备及存储介质 | |
CN111709723A (zh) | Rpa业务流程智能处理方法、装置、计算机设备和存储介质 | |
CN112540829A (zh) | 容器组驱逐方法、装置、节点设备及存储介质 | |
CN114629960A (zh) | 资源调度方法、装置、***、设备、介质和程序产品 | |
CN116483546B (zh) | 分布式训练任务调度方法、装置、设备及存储介质 | |
CN113419839A (zh) | 多类型作业的资源调度方法、装置、电子设备及存储介质 | |
CN111831408A (zh) | 异步任务处理方法、装置、电子设备及介质 | |
CN110188258B (zh) | 使用爬虫获取外部数据的方法及装置 | |
CN112527490A (zh) | 节点资源管控方法、装置、电子设备及存储介质 | |
CN111143033B (zh) | 基于可伸缩操作***的操作执行方法及装置 | |
CN113127289A (zh) | 一种基于yarn集群的资源管理方法、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |