CN109936604A

CN109936604A - 一种资源调度方法、装置和***

Info

Publication number: CN109936604A
Application number: CN201711362963.6A
Authority: CN
Inventors: 张皓天; 苏磊; 靳江明
Original assignee: Beijing Tusimple Future Technology Co Ltd
Current assignee: Beijing Tusimple Technology Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2019-06-25
Anticipated expiration: 2037-12-18
Also published as: CN109936604B

Abstract

本发明公开一种资源调度方法、装置和***，以解决现有技术中GPU资源利用率较低的技术问题。方法包括：监控每个宿主机中各GPU的可分配资源；在接收到新任务时，确定新任务对应的需求资源；根据宿主机中的各GPU的可分配资源，确定出可分配资源满足所述需求资源的目标GPU；从所述目标GPU的可分配资源中为所述新任务分配资源，并将所述新任务分配给所述目标GPU所在的宿主机。采用本发明技术方案，不仅提高GPU资源利用率，而且提高任务执行效率和速度。

Description

一种资源调度方法、装置和***

技术领域

本发明涉及计算机领域，特别涉及一种资源调度方法、一种资源调度装置和一种资源调度***。

背景技术

目前，基于master-worker模式的分布式计算集群***运用越来越广泛(例如docker容器集群)，基于master-worker模式的分布式计算集群***包括master端服务器和多个worker端宿主机。master端服务器用于接收新任务、给新任务分配资源和给worker宿主机分配任务等；worker宿主机用于接收新任务，并执行所述新任务。

分布式计算集群***中，master端服务器在给新任务分配资源时，将worker宿主机中的一整块或多块GPU(Graphics Processing Unit，图形处理器)的全部资源分配给同一个任务，即一个任务占用一整块或多块GPU的全部资源。

Master端服务器在接收到新任务时，判断worker端宿主机上是否存在未分配给任何一个任务的整块GPU，若不存在则等待执行中任务执行完毕后再给新任务分配一个或多个整块GPU资源。但是，在实际使用中，一个任务往往并不是时时刻刻100％的使用已分配的整块GPU资源，例如可能会在很长一段时间内该任务仅使用了整块GPU中的30％或50％的资源，该GPU中的其他资源处于空闲状态。因此，现有的资源分配方式并不能充分、合理的利用整块GPU的资源，GPU资源利用率较低。

发明内容

鉴于上述问题，本发明提供一种资源调度方法、装置和***，以解决现有技术中GPU资源利用率较低的技术问题。

本发明实施例，第一方面提供一种资源调度方法，所述方法应用于master-worker模式的分布式计算集群中的master端服务器，该方法包括：

监控每个宿主机中各GPU的可分配资源；

在接收到新任务时，确定新任务对应的需求资源；

根据宿主机中的各GPU的可分配资源，确定出可分配资源满足所述需求资源的目标GPU；

从所述目标GPU的可分配资源中为所述新任务分配资源，并将所述新任务分配给所述目标GPU所在的宿主机。

本发明实施例中，第二方面提供一种资源调度方法，该方法适用于master-worker模式的分布式计算集群中的worker端宿主机，方法包括：

确定宿主机中各GPU中的可分配资源；

将各GPU的可分配资源发送给master端服务器；

执行所述master端服务器分配的任务。

本发明实施例中，第三方面提供一种资源调度装置，该装置设置在master-worker模式的分布式计算集群中的master端服务器，装置包括：

监控单元，用于监控每个宿主机中各GPU的可分配资源；

解析单元，用于在接收到新任务时，确定新任务对应的需求资源；

确定单元，用于根据宿主机中的各GPU的可分配资源，确定出可分配资源满足所述需求资源的目标GPU；

分配单元，用于从所述目标GPU的可分配资源中为所述新任务分配资源，并将所述新任务分配给所述目标GPU对应的宿主机。

本发明实施例中，第四方面提供一种资源调度装置，该装置设置在master-worker模式的分布式计算集群中的worker端宿主机中，装置包括：

资源确定单元，用于确定宿主机中各GPU中的可分配资源；

通信单元，用于将各GPU的可分配资源发送给master端服务器；

执行单元，用于执行所述master端服务器分配的任务。

本发明实施例中，第五方面提供一种资源调度***，包括master端服务器和分别与所述master端服务器连接的多个worker端宿主机，其中：

master端服务器，用于监控每个宿主机中各GPU的可分配资源；在接收到新任务时，确定新任务对应的需求资源；根据宿主机中的各GPU的可分配资源，确定出可分配资源满足所述需求资源的目标GPU；从所述目标GPU的可分配资源中为所述新任务分配资源，并将所述新任务分配给所述目标GPU对应的宿主机；

宿主机，用于确定宿主机中GPU的可分配资源，并将可分配资源发送给master端服务器，以及执行所述master端服务器分配的任务。

本发明实施例中，针对master-worker模式的分布式计算集群，master端服务器监控每个宿主机中各GPU的可分配资源；在接收到的新任务时，并不是直接将GPU的整块资源全部分配给新任务，而是按照新任务的需求资源从GPU的可分配资源中分配与需求资源相应大小的资源量。采用本发明技术方案，同一块GPU资源分配给执行中任务之后若还有剩余的可分配资源时，还能将该GPU的可分配资源分配给其他任务使用，从而能够实现多个任务共用同一块GPU的资源，充分利用GPU资源，解决现有技术中一个任务独占整块GPU资源而导致GPU资源利用率低的问题；并且，由于采用本发明技术方案使得与现有技术具有相同的GPU资源量的情况下可以供更多的任务使用，接收到新任务时能够及时为新任务分配资源，整体能够提高任务执行速度和效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例中资源调度***的结构示意图；

图2为本发明实施例中设置在master端服务器中的资源调度装置的结构示意图之一；

图3为本发明实施例中在资源池中记录的各GPU的可分配资源量的示意图；

图4为本发明实施例中设置在master端服务器中的资源调度装置的结构示意图之二；

图5为本发明实施例中在任务信息维护单元中维护的宿主机对应的任务信息的示意图；

图6为对图5中的任务信息进行更新后的示意图；

图7为本发明实施例中确定单元的结构示意图之一；

图8为本发明实施例中确定单元的结构示意图之二；

图9为本发明实施例中确定单元的结构示意图之三；

图10为本发明实施例中设置在worker端宿主机中的资源调度装置的结构示意图；

图11为本发明实施例中设置在master端服务器中的资源调度方法的流程图；

图12为实现图11中的步骤103的流程图之一；

图13为实现图11中的步骤103的流程图之二；

图14为实现图11中的步骤103的流程图之三；

图15为实现图11中的步骤103的流程图之四；

图16为实现图11中的步骤103的流程图之五；

图17为本发明实施例中设置在worker端宿主机中的资源调度方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明技术方案适用于所有mster-worker模式的分布式计算集群，例如docker容器集群、引擎计算集群等。本申请对于具体的分布式计算集群不做严格限定。

实施例一

如图1所示为资源调度***的结构示意图，在资源调度***为mster-worker模式的分布式计算集群，在分布式计算集群包括master服务器和多个分别与master服务器通信连接的worker端宿主机。

Master服务器可通过设置在该master服务器上的master程序实现以下功能：实时或周期性地监控每个宿主机中各GPU的可分配资源；接收新任务，并解析新任务对应的任务参数得到新任务对应的需求资源；根据各宿主机中的各GPU的可分配资源，确定出可分配资源满足所述新任务的需求资源的目标GPU；从目标GPU的可分配资源中为所述新任务分配资源，并将所述新任务分配给所述目标GPU所在的宿主机，以便由该目标GPU所在的宿主机调用相应的worker程序执行所述新任务。

每个worker端宿主机可通过设置在宿主机上的worker程序实现以下功能：实时或周期性地确定该worker程序所在的宿主机上的各GPU的可分配资源，并将各GPU的可分配资源发送给master端服务器，以及执行master服务器分配给该宿主机的任务。

本发明实施例中，宿主机将该宿主机上的各GPU对应的可分配资源发送给master端服务器的机制有多种，本申请不做严格限定。例如，worker程序周期性地主动将其所在的宿主机上的各GPU的可分配资源同步给master端服务器；还例如，master端服务器周期性地向各个宿主机发送资源获取请求，各宿主机中的worker程序根据接收到的资源获取请求将其所在宿主机上的各GPU的可分配资源发送给master端服务器；还例如，master端服务器可以周期性地轮询各个宿主机，worker程序在master端服务器轮询到其所在的宿主机时，将该宿主机上的各GPU的可分配资源发送给master端服务器。

为便于本领域技术人员进一步理解本发明技术方案，下面分别从master端服务器和worker端宿主机对本发明技术方案进行详细的描述。

实施例二

master端服务器中的master程序可通过该master的子程序scheduler(即资源调度装置)实现前述功能，该资源调度装置的结构如图2所示，可包括监控单元11、解析单元12、确定单元13和分配单元14，其中：

监控单元11，用于监控每个宿主机中各GPU的可分配资源。

解析单元12，用于在接收到新任务时，确定新任务对应的需求资源。

本发明实施例中，解析单元12接收到新任务时，通过预置的解析规则解析新任务对应的任务参数，以得到新任务对应的需求资源，例如任务参数中包含新任务的身份信息(如名称或ID等)、新任务需要的GPU资源信息(GPU资源信息包括GPU张数、占用每张GPU的资源量)。

确定单元13，用于根据宿主机中的各GPU的可分配资源，确定出可分配资源满足所述需求资源的目标GPU。

分配单元14，用于从所述目标GPU的可分配资源中为所述新任务分配资源，并将所述新任务分配给所述目标GPU对应的宿主机。

本发明实施例中，监控单元11监控每个宿主机中各GPU的可分配资源可通过但不仅限于以下方式实现：

监控单元11建立资源池(即resource pool)，在该资源池中动态记录每个宿主机中各GPU的可分配资源量，如图3所示，宿主机(用H1表示)包含3张GPU(分别用H1G1、H1G2、H1G3表示)，H1G1、H1G2、H1G3分别对应的可分配资源量为N11、N12、N13。监控单元11在从宿主机中接收该宿主机上各GPU对应的可分配资源时，根据接收到的各GPU对应的可分配资源更新资源池中相应GPU对应的可分配资源量。

当然本领域技术人员还可以通过其他方式监控每个宿主机中各GPU的可分配资源，例如通过建立动态列表，在该动态列表中记录每个宿主机中各个GPU的可分配资源量的信息，实时或周期性的维护该动态列表中的信息。

本发明实施例中，确定单元13从监控单元11中获取各宿主机中的各GPU的可分配资源，以确定出可分配资源满足所述新任务对应的需求资源的目标GPU。

优选地，为及时更新资源池中的各GPU对应的可分配资源量，分配单元14在从目标GPU的可分配资源中为新任务分配资源后，将目标GPU及其分配给新任务的资源量同步给监控单元11，由监控单元11及时更新该目标GPU的可分配资源量。以图3所示H1G1为目标GPU为例，在从该H1G1的可分配资源中为新任务分配资源之前H1G1的可分配资源量为N11，当分配单元14从目标GPU的可分配资源中为新任务分配量为M1的资源之后，则该目标GPU的可分配资源变为N11-M1。

优选地，为进一步及时获知各宿主机中的任务信息，所述资源调度装置还可进一步包括任务信息维护单元15，如图4所示，其中：

任务信息维护单元15，用于记录各宿主机对应的任务信息，其中任务信息包括宿主机上所有的执行中任务、分配给每个执行中任务的GPU资源信息，GPU资源信息包括：执行中任务对应的GPU以及占用每张GPU的资源量。

如图5所示，宿主机H1中包含3张GPU(分别用H1G1、H1G2、H1G3表示)，宿主机H1中包含两个任务(分别用任务A1和任务A2表示)，其中：任务A1对应H1G1、H1G2，H1G1分配给任务A1的资源量为M11，H1G2分配给任务A1的资源量为M12；任务A2对应H1G3，H1G3分配给任务A2的资源量为M21。

优选地，为及时更新各宿主机对应的任务信息，本发明实施例中，分配单元14在从目标GPU的可分配资源中为新任务分配资源后，将目标GPU及其分配给新任务的资源量同步给任务信息维护单元15，以便任务信息维护单元15及时更新目标GPU所在宿主机对应的任务信息。以图5所示的H1G2的为目标GPU为例，新任务用任务3表示，新任务则宿主机H1对应的任务信息如图6所示，新增任务3，任务3对应H1G2，H1G2为任务3分配的资源量为M31。

优选地，本发明实施例中，各宿主机在执行完某一任务之后，释放该任务对应的资源，并将该任务执行完毕的状态信息和该任务占用的资源信息同步给监控单元11和任务信息维护单元15，以便监控单元11、任务信息维护单元15更新信息。

本发明实施例中，GPU的可分配资源可以是GPU中的空闲资源，也可以是GPU中的可共享资源，还可以是GPU中的空闲资源和可共享资源。GPU的空闲资源是指GPU中未分配给执行中任务的资源，GPU的可共享资源是指GPU中已分配给执行中任务的资源中的预测在一段时间内未被执行中任务利用的部分资源。例如，以图5所示的H1G1为例，假设H1G1的资源总量为N1，H1G1目前包含任务A1和任务A2，其中H1G1分配给任务A1的资源量为M11，分配给任务A2的资源量为M12，其中任务A1在一段时间内仅占用M11’的资源量，任务A2在一段时间内仅占用M12’的资源量，则H1G1中的空闲资源为N1-M11-M12，H1G1中的可共享资源包括(M11-M11’)和(M12-M12’)。下面分别以示例1、示例2和示例3进行描述。

示例1

在示例1中，GPU的可分配资源为GPU中的空闲资源，确定单元13的结构如图7所示，包括判断子单元131和确定子单元132，其中：

判断子单元131，用于判断宿主机中的各GPU中是否存在可分配资源大于等于所述需求资源的候选GPU，若存在候选GPU则触发确定子单元132；

确定子单元132，用于从所述候选GPU中选取其中一个GPU作为目标GPU。

确定子单元132可以从候选GPU中随机选取一个GPU作为目标GPU，也可以从候选GPU中选取可分配资源最少的GPU作为目标GPU，本申请不作严格限定。

优选地，判断子单元131确定不存在候选GPU时，若新任务的优先级较高，为确保高优先级任务能够及时执行，前述判断子单元131进一步用于：若不存在候选GPU时，判断宿主机中是否存在优先级低于所述新任务、且分配的资源大于等于所述需求资源的可抢占任务；若存在可抢占任务，则从所述可抢占任务中选取一个目标任务，将所述目标任务的资源分配给所述新任务，并将所述新任务分配给所述目标任务所在的宿主机。若不存在可抢占任务，则将新任务放入预置的阻塞池中等待分配资源。

示例2

在示例2中，GPU的可分配资源为GPU中的可共享资源。确定单元13的结构可参见图7所示，包括判断子单元131和确定子单元132，其中判断子单元131和确定子单元132的具体功能可参见示例1，在此不再赘述。

优选地，由于GPU的可共享资源为该GPU中已经分配给一个执行中任务的资源中的一部分，该执行中任务可能在一段时间之后需要的资源量有所增加，为确保该执行中任务能够顺利执行完毕，本发明实施例中，设定GPU的可共享资源只能分配给优先级比该GPU中任意一个执行中任务都低的新任务，因此，在示例2中，确定子单元132从候选GPU选取一个GPU作为目标GPU，具体为：从所述候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

优选地，判断子单元131确定不存在候选GPU时，若新任务的优先级较高，为确保高优先级任务能够及时执行，前述判断子单元131进一步用于：若判断不存在候选GPU时，判断宿主机中是否存在优先级低于所述新任务、且分配的资源大于等于所述需求资源的可抢占任务；若存在可抢占任务，则从所述可抢占任务中选取一个目标任务，将所述目标任务的资源分配给所述新任务，并将所述新任务分配给所述目标任务所在的宿主机。若不存在可抢占任务，则将新任务放入预置的阻塞池中等待分配资源。

本发明实施例中，master程序可以周期性地从阻塞池中选取优先级最高或者放置在阻塞池中时间最长的任务，将选取的任务作为新任务发送给分析单元12。

示例3

在示例3中，GPU的可分配资源为GPU中的空闲资源和可共享资源，所述确定单元13的结构如图8所示，包括第一判断子单元133、第一确定子单元134、第二判断子单元135和第二确定子单元136，其中：

第一判断子单元133，用于判断宿主机的各GPU中是否存在空闲资源大于等于所述需求资源的第一候选GPU，若存在第一候选GPU则触发第一确定子单元134，若不存在第一候选GPU则触发第二判断子单元135；

第一确定子单元134，用于从所述第一候选GPU中选取一个GPU作为目标GPU；

第二判断子单元135，用于判断宿主机的各GPU中是否存在可共享资源大于等于所述需求资源的第二候选GPU；若存在第二候选GPU时触发第二确定子单元136；

第二确定子单元136，用于从所述第二候选GPU中选取一个GPU作为目标GPU。

优选地，第二确定子单元136具体用于：从所述第二候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

优选地，在第一判断子单元133确定不存在第一候选GPU时，若新任务的优先级较高，为确保高优先级任务能够及时执行，前述第一判断子单元133进一步用于：判断宿主机中是否存在优先级低于所述新任务、且分配的资源大于等于所述需求资源的可抢占任务；若存在可抢占任务，则从所述可抢占任务中选取一个目标任务，将所述目标任务的资源分配给所述新任务，并将所述新任务分配给所述目标任务所在的宿主机；若不存在可抢占任务，则触发第二判断子单元135。

优选地，为确保新任务能够及时被执行，前述图7所示的确定单元13还可进一步包括第三判断子单元137和第三确定子单元138，如图9所示，其中：

所述第二判断子单元135进一步用于：若不存在第二候选GPU时触发第三判断子单元137；

第三判断子单元137，用于判断宿主机的各GPU中是否存在空闲资源与可共享资源的总和大于等于所述需求资源的第三候选GPU，若存在第三候选GPU则触发第三确定子单元138，若不存在第三候选GPU则将新任务放入预置的阻塞池中等待分配资源；

第三确定子单元138，用于从所述第三候选GPU中选取一个GPU作为目标GPU。

优选地，本发明实施例中，第三确定子单元138具体用于：从所述第二候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

实施例三

本发明实施例三中，worker端宿主机中的worker程序可通过如图10所示的资源调度装置实现，该资源调度装置包括资源确定单元21、通信单元22和执行单元23，其中：

资源确定单元21，用于确定宿主机中各GPU中的可分配资源。

通信单元22，用于将各GPU的可分配资源发送给master端服务器。

执行单元23，用于执行master端服务器分配给所述宿主机的任务。

优选地，本发明实施例三中，GPU的可分配资源可以是GPU的空闲资源，也可以是GPU的可共享资源，还可以是GPU的空闲资源和可共享资源。

在一个实例中，GPU的可分配资源为GPU的空闲资源，则资源确定单元21具体用于：监控宿主机中各GPU中未分配给执行中任务的空闲资源，并将空闲资源作为可分配资源。

在另一个实例中，GPU的可分配资源为GPU的可共享资源，则资源确定单元21具体用于：预测宿主机中各GPU中已分配给执行中任务的资源中在一段时间内未被执行中任务利用的可共享资源，并将可共享资源作为可分配资源。

在又一个实例中，GPU的可分配资源为GPU的空闲资源和可共享资源，则资源确定单元21具体用于：监控宿主机中各GPU中未分配给执行中任务的空闲资源，以及预测宿主机中各GPU中已分配给执行中任务的资源中在一段时间内未被执行中任务利用的可共享资源，并将所述空闲资源和可共享资源作为可分配资源。

本发明实施例中，资源确定单元21预测宿主机中各GPU中已分配给执行中任务的资源中在一段时间内未被执行中任务利用的可共享资源，具体实现可如下：通过监测各GPU中各执行中任务在历史时间段内的资源利用率，预测未来一段时间内该GPU内各执行中任务的资源利用率，将预测未来一段时间内未使用的那部分资源作为可共享资源。例如某一GPU中包含一个执行中任务A，分配给任务A的GPU资源量为M，监控得到该任务A在一段时间T内的资源利用率一直低于50％，则可以预测在下一时间段内该任务A的资源利用率仍然不超付50％，此时，将任务A的GPU资源量M中的50％确认为未来一时间段的可共享资源。

优选地，所述执行单元23具体用于：在接收到使用目标GPU的空闲资源执行新任务的第一指令时，利用所述目标GPU的空闲资源执行所述新任务；以及，在接收到使用目标GPU的可共享资源执行新任务的第二指令时，利用所述目标GPU的可共享资源执行所述新任务。

优选地，执行单元23进一步用于：当检测到GPU中的高优先级任务需要使用更多资源时，停止运行所述GPU中的低优先级任务，并将分配给低优先级任务的可共享资源分配给所述高优先级任务。

实施例四

基于前述实施例二所示的资源调度装置，本发明实施例四提供一种资源调度方法，所述方法应用于master-worker模式的分布式计算集群中的master端服务器，方法的流程图如图11所示，包括：

步骤101、监控每个宿主机中各GPU的可分配资源；

步骤102、在接收到新任务时，确定新任务对应的需求资源；

步骤103、根据宿主机中的各GPU的可分配资源，确定出可分配资源满足所述需求资源的目标GPU；

步骤104、从所述目标GPU的可分配资源中为所述新任务分配资源，并将所述新任务分配给所述目标GPU所在的宿主机。

在一个具体实例中，所述可分配资源为GPU中的空闲资源，或者可分配资源为GPU中的可共享资源，所述步骤103具体实现可如图12所示，包括：

步骤A1、判断宿主机中的各GPU中是否存在可分配资源大于等于所述需求资源的候选GPU；若存在候选GPU则执行步骤A2；

步骤A2、从所述候选GPU中选取其中一个GPU作为目标GPU。

优选地，若所述可分配资源为GPU中的可共享资源时，所述步骤A2具体包括：从所述候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

优选地，图11所示的流程图中的步骤A1中进一步包括以下步骤：若不存在候选GPU时执行步骤A3～步骤A5，如图13所示：

步骤A3、判断宿主机中是否存在优先级低于所述新任务、且分配的资源大于等于所述需求资源的可抢占任务；若存在可抢占任务则执行步骤A4，若不存在可抢占任务则执行步骤A5；

步骤A4、从所述可抢占任务中选取一个目标任务，将所述目标任务的资源分配给所述新任务，并将所述新任务分配给所述目标任务所在的宿主机。

步骤A5、将新任务放入预置的阻塞池中等待分配资源。

在另一个实例中，可分配资源包括GPU中的空闲资源和可共享资源，所述步骤103具体实现可如图14所示，包括：

步骤B1、判断宿主机的各GPU中是否存在空闲资源大于等于所述需求资源的第一候选GPU；若存在第一候选GPU则执行步骤B2，若不存在第一候选GPU则执行步骤B3；

步骤B2、从所述第一候选GPU中选取一个GPU作为目标GPU；

步骤B3、判断宿主机的各GPU中是否存在可共享资源大于等于所述需求资源的第二候选GPU；若存在第二候选GPU则执行步骤B4；

步骤B4、从所述第二候选GPU中选取一个GPU作为目标GPU。

步骤B4具体用于：从所述第二候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

优选地，为确保高优先级的任务能够及时执行，在执行图14所示流程的步骤B3之前，可进一步包括步骤B5～步骤B6，如图15所示：

步骤B5、判断宿主机中是否存在优先级低于所述新任务、且分配的资源大于等于所述需求资源的可抢占任务；若存在可抢占任务则执行步骤B6，若不存在可抢占任务则执行步骤B3；

步骤B6、从所述可抢占任务中选取一个目标任务，将所述目标任务的资源分配给所述新任务，并将所述新任务分配给所述目标任务所在的宿主机。

优选地，在前述图14、图15所示的流程中，若不存在第二候选GPU，还可进一步包括步骤B7～B8，如图16所示在图15中还进一步包括步骤B7～B8；

步骤B7、判断宿主机的各GPU中是否存在空闲资源与可共享资源的总和大于等于所述需求资源的第三候选GPU；若存在第三候选GPU，则执行步骤B8，若不存在第三候选GPU则将新任务放入阻塞池中等待分配资源；

步骤B8、从所述第三候选GPU中选取一个GPU作为目标GPU。

优选地，步骤B8具体用于：从所述第三候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

实施例五

基于前述实施例三提供的一种资源调度装置的相同构思，本发明实施例五提供一种资源调度方法，该方法适用于master-worker模式的分布式计算集群中的worker端宿主机，如图17所示，该方法包括：

步骤201、确定宿主机中各GPU中的可分配资源；

步骤202、将各GPU的可分配资源发送给master端服务器；

步骤203、执行master端服务器分配给所述宿主机的任务。

在一个实例中，GPU的可分配资源为GPU中的空闲资源，所述步骤201具体实现如下：监控宿主机中各GPU中未分配给执行中任务的空闲资源，并将空闲资源作为可分配资源。

在另一个实例中，GPU的可分配资源为GPU中的可共享资源，所述步骤201具体实现可如下：预测宿主机中各GPU中已分配给执行中任务的资源中的在一段时间内未被执行中任务利用的可共享资源，并将可共享资源作为可分配资源。

又一个实例中，GPU的可分配资源为GPU中的空闲资源和可共享资源，所述步骤201具体实现可如下：监控宿主机中各GPU中未分配给执行中任务的空闲资源，以及，预测宿主机中各GPU中已分配给执行中任务的资源中的在一段时间内未被执行中任务利用的可共享资源，并将所述空闲资源和可共享资源作为可分配资源。

优选地，所述步骤203具体包括：当接收到使用目标GPU的空闲资源执行新任务的第一指令时，利用所述目标GPU的空闲资源执行所述新任务；当接收到使用目标GPU的可共享资源执行新任务的第二指令时，利用所述目标GPU的可共享资源执行所述新任务。

优选地，所述步骤203进一步包括以下步骤：当检测到GPU中的高优先级任务需要使用更多资源时，停止运行所述GPU中的低优先级任务，并将分配给低优先级任务的可共享资源分配给所述高优先级任务。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件固件、软件或者他们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用它们的基本编程技能就能实现的。

本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的上述实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括上述实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种资源调度方法，其特征在于，所述方法应用于master-worker模式的分布式计算集群中的master端服务器，方法包括：

监控每个宿主机中各图形处理器GPU的可分配资源；

在接收到新任务时，确定新任务对应的需求资源；

2.根据权利要求1所述的方法，其特征在于，可分配资源为GPU中的空闲资源，或者可分配资源为GPU中的可共享资源；

根据宿主机中的各GPU的可分配资源，确定出可分配资源满足所述需求资源的目标GPU，具体包括：

判断宿主机中的各GPU中是否存在可分配资源大于等于所述需求资源的候选GPU；

若存在候选GPU，则从所述候选GPU中选取其中一个GPU作为目标GPU。

3.根据权利要求2所述的方法，其特征在于，若所述可分配资源为GPU中的可共享资源时，从所述候选GPU中选取其中一个GPU作为目标GPU，具体包括：

从所述候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

若不存在候选GPU，则：判断宿主机中是否存在优先级低于所述新任务、且分配的资源大于等于所述需求资源的可抢占任务；若存在可抢占任务，则从所述可抢占任务中选取一个目标任务，将所述目标任务的资源分配给所述新任务，并将所述新任务分配给所述目标任务所在的宿主机。

5.根据权利要求1所述的方法，其特征在于，可分配资源包括GPU中的空闲资源和可共享资源；

判断宿主机的各GPU中是否存在空闲资源大于等于所述需求资源的第一候选GPU；

若存在第一候选GPU，则从所述第一候选GPU中选取一个GPU作为目标GPU；

若不存在第一候选GPU，则判断宿主机的各GPU中是否存在可共享资源大于等于所述需求资源的第二候选GPU；

若存在第二候选GPU，则从所述第二候选GPU中选取一个GPU作为目标GPU。

6.根据权利要求5所述的方法，其特征在于，在判断宿主机的各GPU中是否存在可共享资源大于等于所述需求资源的第二候选GPU之前，还包括：

判断宿主机中是否存在优先级低于所述新任务、且分配的资源大于等于所述需求资源的可抢占任务；

若存在可抢占任务，则从所述可抢占任务中选取一个目标任务，将所述目标任务的资源分配给所述新任务，并将所述新任务分配给所述目标任务所在的宿主机；

若不存在可抢占任务，则执行所述判断宿主机的各GPU中是否存在可共享资源大于等于所述需求资源的第二候选GPU的步骤。

7.根据权利要求5或6所述的方法，其特征在于，还包括：

若不存在第二候选GPU，则：判断宿主机的各GPU中是否存在空闲资源与可共享资源的总和大于等于所述需求资源的第三候选GPU；若存在第三候选GPU，则从所述第三候选GPU中选取一个GPU作为目标GPU。

8.根据权利要求5或6所述的方法，其特征在于，从所述第二候选GPU中选取一个GPU作为目标GPU，具体包括：从所述第二候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU；

和/或，从所述第三候选GPU中选取一个GPU作为目标GPU，具体包括：从所述第三候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

9.一种资源调度方法，其特征在于，该方法适用于master-worker模式的分布式计算集群中的worker端宿主机，方法包括：

确定宿主机中各图像处理器GPU中的可分配资源；

将各GPU的可分配资源发送给master端服务器；

执行master端服务器分配给所述宿主机的任务。

10.根据权利要求9所述的方法，其特征在于，所述确定宿主机中各GPU中的可分配资源，具体包括：

监控宿主机中各GPU中未分配给执行中任务的空闲资源，并将空闲资源作为可分配资源；

和/或，预测宿主机中各GPU中已分配给执行中任务的资源中的在一段时间内未被执行中任务使用的可共享资源，并将可共享资源作为可分配资源。

11.根据权利要求10所述的方法，其特征在于，执行master端服务器分配给所述宿主机的任务，具体包括：

当接收到使用目标GPU的空闲资源执行新任务的第一指令时，利用所述目标GPU的空闲资源执行所述新任务；

当接收到使用目标GPU的可共享资源执行新任务的第二指令时，利用所述目标GPU的可共享资源执行所述新任务。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

当检测到GPU中的高优先级任务需要使用更多资源时，停止运行所述GPU中的低优先级任务，并将分配给低优先级任务的可共享资源分配给所述高优先级任务。

13.一种资源调度装置，其特征在于，所述装置设置在master-worker模式的分布式计算集群中的master端服务器，装置包括：

监控单元，用于监控每个宿主机中各图形处理器GPU的可分配资源；

14.根据权利要求13所述的装置，其特征在于，可分配资源为GPU中的空闲资源或者可分配资源为GPU中的可共享资源；

所述确定单元具体包括：

判断子单元，用于判断宿主机中的各GPU中是否存在可分配资源大于等于所述需求资源的候选GPU，若存在候选GPU则触发确定子单元；

确定子单元，用于从所述候选GPU中选取其中一个GPU作为目标GPU。

15.根据权利要求14所述的装置，其特征在于，若所述可分配资源为GPU中的可共享资源时，所述确定子单元具体用于：从所述候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

16.根据权利要求14或15所述的装置，其特征在于，所述判断子单元进一步用于：若不存在候选GPU时，判断宿主机中是否存在优先级低于所述新任务、且分配的资源大于等于所述需求资源的可抢占任务；若存在可抢占任务，则从所述可抢占任务中选取一个目标任务，将所述目标任务的资源分配给所述新任务，并将所述新任务分配给所述目标任务所在的宿主机。

17.根据权利要求13所述的装置，其特征在于，可分配资源包括GPU中的空闲资源和可共享资源；

所述确定单元具体包括：

第一判断子单元，用于判断宿主机的各GPU中是否存在空闲资源大于等于所述需求资源的第一候选GPU，若存在第一候选GPU则触发第一确定子单元，若不存在第一候选GPU则触发第二判断子单元；

第一确定子单元，用于从所述第一候选GPU中选取一个GPU作为目标GPU；

第二判断子单元，用于判断宿主机的各GPU中是否存在可共享资源大于等于所述需求资源的第二候选GPU；若存在第二候选GPU时触发第二确定子单元；

第二确定子单元，用于从所述第二候选GPU中选取一个GPU作为目标GPU。

18.根据权利要求17所述的装置，其特征在于，第一判断子单元在触发第二判断子单元之前，进一步用于：判断宿主机中是否存在优先级低于所述新任务、且分配的资源大于等于所述需求资源的可抢占任务；若存在可抢占任务，则从所述可抢占任务中选取一个目标任务，将所述目标任务的资源分配给所述新任务，并将所述新任务分配给所述目标任务所在的宿主机；若不存在可抢占任务，则触发第二判断子单元。

19.根据权利要求17或18所述的装置，其特征在于，所述确定单元还包括第三判断子单元和第三确定子单元，所述第二判断子单元进一步用于：若不存在第二候选GPU时触发第三判断子单元；

第三判断子单元，用于判断宿主机的各GPU中是否存在空闲资源与可共享资源的总和大于等于所述需求资源的第三候选GPU，若存在第三候选GPU则触发第三确定子单元；

第三确定子单元，用于从所述第三候选GPU中选取一个GPU作为目标GPU。

20.根据权利要求17或18所述的装置，其特征在于，第二确定子单元具体用于：从所述第二候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU；

和/或，第三确定子单元具体用于：从所述第三候选GPU中选取一个包含的执行中任务的优先级均高于新任务的GPU作为目标GPU。

21.一种资源调度装置，其特征在于，该装置设置在master-worker模式的分布式计算集群中的worker端宿主机中，装置包括：

资源确定单元，用于确定宿主机中各图像处理器GPU中的可分配资源；

通信单元，用于将各GPU的可分配资源发送给master端服务器；

执行单元，用于执行master端服务器分配给所述宿主机的任务。

22.根据权利要求21所述的装置，其特征在于，所述资源确定单元，具体用于：

和/或，预测宿主机中各GPU中已分配给执行中任务的资源中在一段时间内未被执行中任务使用的可共享资源，并将可共享资源作为可分配资源。

23.根据权利要求21所述的装置，其特征在于，所述执行单元具体用于：

在接收到使用目标GPU的空闲资源执行新任务的第一指令时，利用所述目标GPU的空闲资源执行所述新任务；

以及，在接收到使用目标GPU的可共享资源执行新任务的第二指令时，利用所述目标GPU的可共享资源执行所述新任务。

24.根据权利要求23所述的装置，其特征在于，所述执行单元进一步用于：当检测到GPU中的高优先级任务需要使用更多资源时，停止运行所述GPU中的低优先级任务，并将分配给低优先级任务的可共享资源分配给所述高优先级任务。

25.一种资源调度***，其特征在于，包括master端服务器和分别与所述master端服务器连接的多个worker端宿主机：

master端服务器，用于监控每个宿主机中各GPU的可分配资源；在接收到新任务时，确定新任务对应的需求资源；根据宿主机中的各GPU的可分配资源，确定出可分配资源满足所述需求资源的目标GPU；从所述目标GPU的可分配资源中为所述新任务分配资源，并将所述新任务分配给所述目标GPU所在的宿主机；

宿主机，用于确定宿主机中各GPU的可分配资源，并将可分配资源发送给master端服务器，以及执行所述master端服务器分配的任务。