CN112363811A

CN112363811A - 一种人工智能计算资源调度方法及计算机可读存储介质

Info

Publication number: CN112363811A
Application number: CN202011280247.5A
Authority: CN
Inventors: 黄洋; 王迎雪; 袁柳; 王亚珅; 刘弋峰; 孙留英
Original assignee: Shanghai Mengyu Information Technology Co ltd; Electronic Science Research Institute of CTEC
Current assignee: Shanghai Mengyu Information Technology Co ltd; Electronic Science Research Institute of CTEC
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-12
Anticipated expiration: 2040-11-16
Also published as: CN112363811B

Abstract

本发明公开了一种人工智能计算资源调度方法及计算机可读存储介质，本发明可通过设置多个Kubernet Scheduler调度器并发调度来筛选得到满足不同条件的节点集合，然后取不同节点集合的交集得到最终的可用节点集合，最后从该可用节点集合中选取节点来执行具体的任务，从而大大提升了任务调度效率，也即本发明通过对调度性能的整体优化，有效的提升了调度的执行速度和效率，相比于现有Kuberbets Scheduler原始调度***，在同等环境下，本发明的调度效率可提升30％左右，这样针对集群规模比较大的***有明显的优势。所以本发明有效克服了现有平台的一些缺点，提高了生产效率，具有较高的利用价值。

Description

一种人工智能计算资源调度方法及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种人工智能计算资源调度方法及计算机可读存储介质。

背景技术

在人工智能模型训练和测试场景下，大部分时间需要将模型和数据放在后台进行长时间的训练测试。因此要求训练测试环境能够做到无人工干预的情况自行调度和执行，调度***要能够根据当前***资源的分布和使用情况，自动将要训练测试的模型调度到合适的工作点进行运算，最后输出运算结果数据。

目前大部分人工智能计算调度***都是依靠Kubernets Scheduler容器调度组件，结合Docker容器虚拟化技术，实现对人工智能计算资源的调度和管理。但是原生的Kubernets Scheduler的资源调度***本身随着集群规模的增大、调度任务的增多可能会存在性能上的瓶颈，直接会影响整个人工智能计算训练平台的处理能力和计算资源的利用率，最终会导致大量的训练和测试任务长时间堆积，得不到调用和执行。因此如何对以kebuernets Scheduler为核心的调度***进行优化，以提升调度的效率成为现在亟待需要解决的问题。

发明内容

本发明提供了一种人工智能计算资源调度方法及计算机可读存储介质，以解决现有技术中集群节点调度效率低的问题。

第一方面，本发明提供了一种人工智能计算资源调度方法，该方法包括：从节点集群中筛选得到以下的节点集合：筛选任务可用的节点，得到第一节点集合，检查节点标签Label匹配任务指定的nodeSelector的节点，得到第二节点集合，筛选具有任务处理资源的节点，得到第三节点集合，过滤掉任务需要的端口Port₁与宿主机存在的端口Port₂存在冲突的节点，得到端口可用的第四节点集合；选取所述第一节点集合、所述第二节点集合、所述第三节点集合与第四节点集合的交集，得到预选后的可用节点的最小集合Min_hosts，从所述最小集合Min_hosts中选择节点，并将任务绑定到选择的节点上。

可选地，所述从节点集群中筛选得到以下的节点集合之前，所述方法还包括：预选最优节点集群。

可选地，所述预选最优节点集群，包括：根据节点集群规模大小，确定遍历节点集群的范围，并在所确定的遍历节点集群范围内选取最优节点集群。

可选地，所述根据节点集群规模大小，确定遍历节点集群的范围，并在所确定的遍历节点集群范围内选取最优节点集群，包括：设置节点数阈值，当节点集群内的节点数大于所述节点数阈值，则在所述节点集群内选择预定数量的节点来遍历，并确定最优节点集群；而当节点集群内的节点数小于等于所述节点数阈值，则遍历节点集群内所有的节点来确定最优节点集群。

可选地，所述筛选任务可用的节点，得到第一节点集合，包括：从所述最优节点集群中，针对每个节点进行网络socket连接尝试，筛选出正常节点作为所述第一节点集合。

可选地，所述检查节点标签Label为根据节点的GPU卡的类型所设定的标签。

可选地，所述筛选具有任务处理资源的节点，得到第三节点集合，包括：从所述最优节点集群中，优先选取GPU资源最多的节点，然后再循环检测内存资源最多的节点以及CPU资源最多的节点，根据Total_gpu>Total_ram>Total_cpu的顺序选择得到第三节点集合。

可选地，所述从所述最小集合Min_hosts中选择节点，包括：通过Kubernet Scheduler调度器为所述最小集合Min_hosts中的每个节点按照预设评分标准进行打分，选择分数最高的节点作为最终所选择的节点。

可选地，所述方法还包括：实时查询任务执行情况，并触发执行失败的任务在任务队列排队等待重新执行。

第二方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现上述任一种所述的人工智能计算资源调度方法。

本发明有益效果如下：

本发明可通过设置多个Kubernet Scheduler调度器并发调度来筛选得到满足不同条件的节点集合，然后取不同节点集合的交集得到最终的可用节点集合，最后从该可用节点集合中选取节点来执行具体的任务，从而大大提升了任务调度效率，也即本发明通过对调度性能的整体优化，有效的提升了调度的执行速度和效率，相比于现有KuberbetsScheduler原始调度***，在同等环境下，本发明的调度效率可提升30％左右，这样针对集群规模比较大的***有明显的优势。所以本发明有效克服了现有平台的一些缺点，提高了生产效率，具有较高的利用价值。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明第一实施例提供的一种人工智能计算资源调度方法的流程示意图；

图2是本发明第一实施例提供的另一种集群节点的智能调度方法的流程示意图。

具体实施方式

本发明实施例针对现有集群节点调度效率低的问题，可通过设置多个KubernetScheduler调度器并发调度来筛选得到满足不同条件的节点集合，然后取不同节点集合的交集得到最终的可用节点集合，最后从该可用节点集合中选取节点来执行具体的任务，从而大大提升了任务调度效率，也即本发明通过对调度性能的整体优化，有效的提升了调度的执行速度和效率，相比于现有Kuberbets Scheduler原始调度***，在同等环境下，本发明的调度效率可提升30％左右，这样针对集群规模比较大的***有明显的优势。以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本发明第一实施例提供了一种人工智能计算资源调度方法，参见图1，该方法包括：

S101、从节点集群中筛选得到以下的节点集合：筛选任务可用的节点，得到第一节点集合，检查节点标签Label匹配任务指定的nodeSelector的节点，得到第二节点集合，筛选具有任务处理资源的节点，得到第三节点集合，过滤掉任务需要的端口Port₁与宿主机存在的端口Port₂存在冲突的节点，得到端口可用的第四节点集合；

S102、选取各个节点集合的交集，即选取所述第一节点集合、所述第二节点集合、所述第三节点集合与第四节点集合的交集，得到预选后的可用节点的最小集合Min_hosts；

S103、从所述最小集合Min_hosts中选择节点，并将任务绑定到选择的节点上。

也就是说，本发明实施例是针对Kubernets Scheduler容器调度组件，结合Docker容器虚拟化技术来对人工智能计算资源的调度和管理，通过设置多个Kubernet Scheduler调度器并发调度来筛选得到满足不同条件的节点集合，然后取不同节点集合的交集得到最终的可用节点集合，最后从该可用节点集合中选取节点来执行具体的任务，从而大大提升了任务调度效率，也即本发明是通过对调度性能的整体优化，有效的提升了调度的执行速度和效率。

总体来说，本发明实施例是结合人工智能训练和测试使用场景的实际需求特点，将上层调度逻辑(即任务调度)与底层Kubernets Scheduler调度(即资源调度)相结合。通过优化Scheduler调度策略和算法，以此来提升Kubernets Scheduler调度器在人工智能计算资源调度场景下的调度性能。

进一步地，本发明实施例所述从节点集群中筛选得到以下的节点集合之前，所述方法还包括：预选最优节点集群。

具体来说，本发明实施例是根据节点集群规模大小，确定遍历节点集群的范围，并在所确定的遍历节点集群范围内选取最优节点集群。

具体地，本发明实施例是首先设置节点数阈值，当节点集群内的节点数大于所述节点数阈值，则在所述节点集群内选择预定数量的节点来遍历，并确定最优节点集群；而当节点集群内的节点数小于等于所述节点数阈值，则遍历节点集群内所有的节点来确定最优节点集群。

也即，本发明实施例是根据实际情况来设置一个具体的节点数阈值，在该节点数阈值之上的，则定义为大集群，所以仅针对该打集群进行局部遍历即可，而对于小于该节点数阈值的集群，则可进行全集群的遍历，从而在提高效率的基础上，节省***资源。

需要说明的是本发明实施例所述的节点数阈值的具体数值，本领域技术人员可以任意进行设定，本发明对此不作具体限定。

进一步地，本发明实施例所述筛选任务可用的节点，得到第一节点集合，包括：从所述最优节点集群中，针对每个节点进行网络socket连接尝试，筛选出正常节点作为所述第一节点集合。

另外，本发明实施例所述检查节点标签Label为根据节点的GPU卡的类型所设定的标签。

具体实施例是，本发明实施例所述筛选具有任务处理资源的节点，得到第三节点集合，包括：从所述最优节点集群中，优先选取GPU资源最多的节点，然后再循环检测内存资源最多的节点以及CPU资源最多的节点，根据Total_gpu>Total_ram>Total_cpu的顺序选择得到第三节点集合。以及通过Kubernet Scheduler调度器为所述最小集合Min_hosts中的每个节点按照预设评分标准进行打分，选择分数最高的节点作为最终所选择的节点。

进一步地，本发明实施例所述方法还包括：实时查询任务执行情况，并触发执行失败的任务在任务队列排队等待重新执行。

下面将结合图2通过一个具体的例子对本发明实施例所述的方法包括：

S1、进行集群最优解预选OptimalSolution，根据集群规模大小，设定遍历范围，也即选取全局最优解和局部最优解。

具体来说，在实际生产过程中，其实只要能找出N个节点Node，并在这N个节点Node中选择得分最高的Node即能满足任务需求即可，而不需要遍历所有的节点，这样可以大大减少计算时间，同时也不会对的调度结果产生太大的影响。

例如，本发明实施例以集群规模100节点为一个节点数阈值，100台及以下采用全局最优解，即需要对所有100个节点全部进行遍历，而对100台以上节点，则使用局部最优解，也即设定局部遍历，算法数算式：Max_{local_nodes}＝max(5,50–节点总数/125)，获取最优节点集群M。

S2、进行可用工作节点选择MatchNodeStatus,通过在每个节点设置socket侦听端口，针对从步骤S1中筛选出来的最优节点集群M中进行逐一网络socket连接尝试，这样可以更直接的探测出步骤S1筛选的节点是否正常(例如开机、网络联通状态等是否正常)，以避免节点自身的心跳上报与***节点状态更新不及时出现误选的情况，通过步骤S2筛选出第一节点集合N；

S3、进行MatchNodeSelector匹配，即对从步骤S1中筛选出来的最优节点集群M检查节点标签(Label)是否匹配Pod指定的nodeSelector，具体实施时，本发明实施例主要是根据GPU卡的类型来分类打标签，如Pod指定的Label是Nvidia-Tesla-v100即所有Label是Nvidia-Tesla-v100节点被选中，筛选出第二节点集合P；

S4、进行资源PodFitsResources预选，针对从步骤S1中筛选出来的节点集合M检查过滤节点是否有足够资源(如CPU、内存以及GPU等)满足任务Pod的运行需求，实际使用过程中更多的依赖于GPU的资源，因此本发明对资源的过滤增加了算法处理，根据Total_gpu>Total_ram>Total_cpu的顺序进行选择，优先选取GPU资源最多的节点，然后再循环检测过滤内存、CPU。为了保证节点本身***资源不被占用(即给***预留一部分CPU、内存资源，以免***因资源全部被占用而无法正常工作)，本发明在PodFitsResources预选策略中增加了预留了***CPU、内存sys_cpu_reserver和sys_ram_reserver参数配置，在PodFitsResources预选时需要剔除这部分的预留资源。这样通过步骤S4筛选出第三节点集合Q；

S5、检测Pod容器运行占用的端口是否与主机冲突，针对从步骤S1中筛选出来的节点M，检测创建的Pod需要的端口Port₁与宿主机存在的端口Port₂冲突则过滤掉该主机节点，经过筛选得到预选阶段候选的第四节点集合R；

S6、将步骤S2～S5分别产生的节点集合取交集

其中，n为所有节点集合的总数，i取不同数据代表为不同的节点交集，交集后即得到预选后的可用主机，即节点，的最小集合Minhosts。然后Kubernet Scheduler调度器会进行优选，给每个节点按照评分标准进行打分，最终选取合适的节点将Pod绑定到该节点上。

S7、上层调度逻辑还可触发任务查询，实时更新任务执行的结果，并将结果返回到业务层的调度线程，如果底层调度失败执行则任务管理线程重新将该任务insert任务队列的队尾，等待下次调度执行，这样一次调度任务完成。

在具体实施时，本发明实施例是通过设置将步骤S2～S5进行并行执行，即可将步骤S2～S5通过设置多个Kubernet Scheduler调度器并发调度筛选策略，以提升调度速率，步骤S7通过上层的业务的多线程机制，可以并发轮询任务队列。因此，通过调度性能的整体优化，有效的提升了人工智能计算资源调度速度和效率，通过上下层调度相结合对比原始Kuberbets Scheduler原始调度***同等环境下，经测试调度效率可提升30％左右，这样针对集群规模比较大的***有明显的优势。所以，本发明有效克服了现有平台的一些缺点，提高了生产效率，具有较高的利用价值。

进一步地，本发明实施例还可从提升Scheduler的规模开始，即增加集群维持多个Scheduler调度器和podQueue，如根据请求GPU资源的类型，通过API Server设置将createPod请求指定给不同的调度器Scheduler，实现类似分布式调度的原理，避免单个Scheduler调度器在高并发时候的单点瓶颈问题。

总体来说，本发明实施例提供的人工智能计算资源调度方法可适用于大部分利用Kubernets-Scheduler调度器的场景，该方法还可配置多种调度策略和调度优化参数，灵活多样，适应不同用户和不同业务的调度需求。并可适用于任何类型的人工智能AI模型训练和测试场景，最大程度做到了业务无关性。

本发明第二实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现本发明第一实施例中任一种所述的人工智能计算资源调度方法。

本发明实施例的相关内容可参见本发明第一实施例进行理解，在此不做详细论述。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种人工智能计算资源调度方法，其特征在于，包括：

从节点集群中筛选得到以下的节点集合：筛选任务可用的节点，得到第一节点集合，检查节点标签Label匹配任务指定的nodeSelector的节点，得到第二节点集合，筛选具有任务处理资源的节点，得到第三节点集合，过滤掉任务需要的端口Port₁与宿主机存在的端口Port₂存在冲突的节点，得到端口可用的第四节点集合；

选取所述第一节点集合、所述第二节点集合、所述第三节点集合与第四节点集合的交集，得到预选后的可用节点的最小集合Min_hosts，从所述最小集合Min_hosts中选择节点，并将任务绑定到选择的节点上。

2.根据权利要求1所述的方法，其特征在于，所述从节点集群中筛选得到以下的节点集合之前，所述方法还包括：预选最优节点集群。

3.根据权利要求2所述的方法，其特征在于，所述预选最优节点集群，包括：

根据节点集群规模大小，确定遍历节点集群的范围，并在所确定的遍历节点集群范围内选取最优节点集群。

4.根据权利要求3所述的方法，其特征在于，所述根据节点集群规模大小，确定遍历节点集群的范围，并在所确定的遍历节点集群范围内选取最优节点集群，包括：

设置节点数阈值，当节点集群内的节点数大于所述节点数阈值，则在所述节点集群内选择预定数量的节点来遍历，并确定最优节点集群；

而当节点集群内的节点数小于等于所述节点数阈值，则遍历节点集群内所有的节点来确定最优节点集群。

5.根据权利要求2所述的方法，其特征在于，所述筛选任务可用的节点，得到第一节点集合，包括：

从所述最优节点集群中，针对每个节点进行网络socket连接尝试，筛选出正常节点作为所述第一节点集合。

6.根据权利要求1所述的方法，其特征在于，

所述检查节点标签Label为根据节点的GPU卡的类型所设定的标签。

7.根据权利要求2所述的方法，其特征在于，所述筛选具有任务处理资源的节点，得到第三节点集合，包括：

从所述最优节点集群中，优先选取GPU资源最多的节点，然后再循环检测内存资源最多的节点以及CPU资源最多的节点，根据Total_gpu>Total_ram>Total_cpu的顺序选择得到第三节点集合。

8.根据权利要求1所述的方法，其特征在于，所述从所述最小集合Min_hosts中选择节点，包括：

通过Kubernet Scheduler调度器为所述最小集合Min_hosts中的每个节点按照预设评分标准进行打分，选择分数最高的节点作为最终所选择的节点。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

实时查询任务执行情况，并触发执行失败的任务在任务队列排队等待重新执行。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现权利要求1-9中任意一项所述的人工智能计算资源调度方法。