CN114996018A

CN114996018A - 面向异构计算的资源调度方法、节点、***、设备及介质

Info

Publication number: CN114996018A
Application number: CN202210676039.XA
Authority: CN
Inventors: 季知祥; 王晓辉; 刘凯毅; 张颉; 杨迎春
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-02

Abstract

本发明公开了一种面向异构计算的资源调度方法、节点、***、设备及介质，***包括：应用接口抽象模块，用于提供应用模块资源申请交互接口，以获取用户在算力网络提交的作业任务；算力资源调度模块，用于对所述作业任务调度分配，将作业任务分配到虚拟算力资源；算力路由模块，用于将计算任务由算力节点调度到算力资源调度模块的物理计算节点；资源动态感知模块，用于对整个算力资源池资源实时感知，基于整个算力资源池实时感知对所述虚拟算力资源中作业任务进行分发；及算力节点资源模块，用于根据作业任务从虚拟算力资源映射到对应的算力节点中进行执行。本发明将分布零散、异构的计算资源进行统一管理和调度，实现对算力资源的高效利用。

Description

面向异构计算的资源调度方法、节点、***、设备及介质

技术领域

本发明涉及通信网络计算领域，特别是涉及一种面向异构计算的资源调度方法、节点、***、设备及介质。

背景技术

随着互联网技术的飞速发展，数据规模呈指数级增长。大数据技术的不断进步使得数据资源已成为重要的生产要素，很多产业都通过对海量数据的分析处理从而提取出有价值的信息，而对海量数据的分析和处理需要有强有力的算力支撑。

目前诸多数据处理场景，算力资源相对分散，通常仅仅依靠数据中心或者终端的算力进行处理，难以满足日益增长的数据规模对算力需求的日益剧增。因此需要将分布在云、边、端的算力进行统一管理，满足日益增长的算力需求。近年来随着边缘计算、分布式计算技术的不断发展，计算资源的管理从早期的集中管理向云计算、边缘计算之间的协同调度方向演进。

目前采取的方法中，第一种是基于交叉总线的异构计算***，该方法将异构计算***分为异构计算核心、片外存储部分、总线***以及节点等部分，每个节点对应一个异构计算中心，节点之间从纵向和横向分别交叉连接，形成交叉总线，充分发挥芯片的高性能、可扩展性等优势。第二种是通过专用高速网络连接各节点，通过管理节点处理用户提交的数据和计算任务，均衡分配给计算节点上的计算设备进行处理，使用CUDA或者OpenGL异构编程模型充分利用GPU的高浮点运算能力。

基于交叉总线的异构计算***，通过交叉总线将不同节点连接起来，意味着其所能连接的计算节点相对集中，对于分布较为分散的异构计算资源不能有效的进行管理。在算力资源扩充的时候，需要对总线进行重新设计，缺乏灵活性。使用CUDA或者OpenGL异构编程模型的异构计算框架，数据I/O操作需要专门的分布式文件***进行处理，由管理节点进行用户提交的数据及计算任务的管理，一旦管理节点出现故障，***就没法继续运行。而基于CUDA或OpenGL的异构编程模型仅适合GPU设备的异构计算，对异构资源的利用比较有限。

发明内容

针对上述存在的不足，本发明的目的是提供一种面向异构计算的资源调度方法、节点、***、设备及介质，本发明调度***通过构建面向异构计算的资源调度***，将分布零散、异构的计算资源进行统一管理和调度，实现对算力资源的高效利用。

为达到上述目的，本发明采用以下技术方案予以实现：

一种面向异构计算的资源调度方法，包括：

获取用户在算力网络提交的作业任务；

将作业任务分配到虚拟算力资源，用于资源动态感知模块基于整个算力资源池实时感知对所述虚拟算力资源中作业任务进行分发，将作业任务从虚拟算力资源映射到算力节点，使得作业任务在被分配算力任务的算力节点中执行。

作为本发明的进一步改进，所述资源动态感知模块基于整个算力资源池实时感知对所述作业任务进行分发，考虑算力资源当前可用数量、健康状况、消耗情况，根据算力资源节点网络拓扑结构进行实时感知。

作为本发明的进一步改进，所述将作业任务从虚拟算力资源映射到算力节点，是基于构建的虚拟算力单元与算力物理设备的映射关系，根据不同虚拟算力单元当前使用情况，对虚拟算力单元管理和调度。

一种面向异构计算的资源调度节点，包括：

获取单元，用于获取用户在算力网络提交的作业任务；

分配单元，用于将作业任务分配到虚拟算力资源池，用于资源动态感知模块基于整个算力资源池实时感知对所述作业任务进行分发，将作业任务从虚拟算力资源映射到算力节点，使得作业任务在被分配算力任务的算力节点中执行。

一种面向异构计算的资源调度***，包括：

应用接口抽象模块，用于提供应用模块资源申请交互接口，以获取用户在算力网络提交的作业任务；

算力资源调度模块，用于对所述作业任务调度分配，将作业任务分配到虚拟算力资源；

算力路由模块，用于将计算任务由算力节点调度到算力资源调度模块的物理计算节点；

资源动态感知模块，用于对整个算力资源池资源实时感知，基于整个算力资源池实时感知对所述虚拟算力资源中作业任务进行分发，从虚拟算力资源进行映射至算力节点；

及算力节点资源模块，其包括多个算力节点，用于根据作业任务从虚拟算力资源映射到对应的算力节点中进行执行。

作为本发明的进一步改进，所述算力节点资源模块中，不同的算力节点包含不同的计算资源，每个算力节点包含一个服务组件，用于将本算力节点同类算力虚拟化为虚拟算力，不同的算力节点通过互联网/局域网进行连接；所有算力节点构成算力资源池。

作为本发明的进一步改进，所述资源动态感知模块中，对整个算力资源池资源实时感知是对异构算力可用数量、算力资源当前消耗情况、资源健康状态进行管理得到实时感知结果。

作为本发明的进一步改进，所述算力路由模块包括算力资源节点网络拓扑结构单元、算力路由控制单元、算力路由转发单元；算力路由控制单元根据作业任务对算力资源的需求结合算力节点信息控制算力资源节点网络拓扑结构单元生成算力拓扑，进一步生成算力感知的新路由表；算力路由转发用于与算力资源调度模块交互包括算力路由标识、算力路由寻址。

作为本发明的进一步改进，所述算力资源调度模块中，对所述作业任务调度分配包括作业任务选择、计算资源分配、日志管理，控制节点及数据采用冗余备份。

作为本发明的进一步改进，所述应用接口抽象模块中提供了应用模块资源申请交互接口包括数据传输接口、资源调度抽象接口，作业任务生命周期管理接口。

作为本发明的进一步改进，还包括应用模块，所述应用模块设置在所述应用接口抽象模块的上层，应用模块具有连接不同应用以运行在整个资源池上的统一接口。

作为本发明的进一步改进，所述算力节点具有逻辑运算能力、神经网络运算能力和并行计算能力。

一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述面向异构计算的资源调度方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述面向异构计算的资源调度方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明调度***通过构建面向异构计算的资源调度***，将分布零散、异构的计算资源进行统一管理和调度，实现对算力资源的高效利用。具体是构建了分层的异构计算的资源调度***，自下而上分别为算力节点资源模块，资源动态感知模块和算力路由模块，算力资源调度模块，应用接口抽象模块，应用模块。算力节点资源模块的每个算力节点包含一个服务组件，负责本算力节点算力资源发现和管理。资源动态感知模块对本层对整个算力资源池资源实时感知。算力路由模块负责将计算任务由抽象算力单元调度到物理计算节点。算力资源调度模块负责作业任务调度分配、计算资源分配、日志管理等，也包含租户管理功能，实现对计算资源租户的配置管理。应用接口抽象模块提供了应用模块资源申请交互接口，方便应用申请算力资源。

附图说明

图1为本发明一种面向异构计算的资源调度方法流程图；

图2为本发明实施例一种面向异构计算的资源调度节点示意图；

图3为本发明面向异构计算的资源调度***图；

图4为本发明虚拟算力单元与算力物理设备的映射示意图(以GPU虚拟化为例)；

图5为本发明算力资源调度机制示意图；

图6为本发明一种电子设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明的目的是提供一种分层的异构计算的资源调度***，它通过将应用与物理硬件解耦合，将计算资源的池化以及虚拟化，充分发挥异构计算资源的算力潜能。

如图1所示，本发明一种面向异构计算的资源调度方法，应用于算力资源调度模块，包括：

获取用户在算力网络提交的作业任务；

算力资源调度模块通过对用户在算力网络提交的作业任务获取，并进行分配，资源动态感知模块基于整个算力资源池实时感知对所述虚拟算力资源中作业任务进行分发，提高分发效率，并将作业任务从虚拟算力资源映射到算力节点，能够实现计算资源使用的高效、灵活，充分发挥计算资源的算力潜能。

作为本发明的可选实施例，所述资源动态感知模块基于整个算力资源池实时感知对所述作业任务进行分发，考虑算力资源当前可用数量、健康状况、消耗情况，根据算力资源节点网络拓扑结构进行实时感知。

基于整个算力资源池实时感知对有助于资源的高效利用，提高后续分配效率。

作为本发明的可选实施例，所述将作业任务从虚拟算力资源映射到算力节点，是基于构建的虚拟算力单元与算力物理设备的映射关系，根据不同虚拟算力单元当前使用情况，对虚拟算力单元管理和调度。

如图2所示，本发明还提供一种面向异构计算的资源调度节点，包括：

获取单元，用于获取用户在算力网络提交的作业任务；

本发明的面向异构计算的资源调度节点应用于算力资源调度模块，实现作业任务调度分配，将作业任务分配到虚拟算力资源。

本发明第三个目的是提供一种面向异构计算的资源调度***，包括：

本发明调度***通过构建面向异构计算的资源调度***，将分布零散、异构的计算资源进行统一管理和调度，实现对算力资源的高效利用。

下面参照附图并结合实例对本发明做进一步详细描述。但是本发明不限于所给出的例子。

如图3所示，构建分层的异构计算的资源调度***，自下而上分别为算力节点资源模块，资源动态感知模块和算力路由模块，算力资源调度模块，应用接口抽象模块，应用模块。算力节点资源模块的每个算力节点包含一个服务组件，负责本算力节点算力资源发现和管理。

其中，所述资源动态感知模块对本层对整个算力资源池资源实时感知。算力路由模块负责将计算任务由抽象算力单元调度到物理计算节点。算力资源调度模块负责作业任务调度分配、计算资源分配、日志管理等，也包含租户管理功能，实现对计算资源租户的配置管理。应用接口抽象模块提供了应用模块资源申请交互接口，方便应用申请算力资源。

通过将应用与物理硬件解耦合，将计算资源的池化以及虚拟化，充分发挥异构计算资源的算力潜能。

本发明的异构算力组网，采用分层结构。具体结构为：

最底层为算力节点资源模块，不同的算力节点包含CPU(X86，ARM等)、GPU、NPU、TPU等计算资源，每个算力节点包含一个服务组件，该组件负责本算力节点算力资源发现和管理，将本算力节点同类算力虚拟化为虚拟算力。不同的算力节点通过互联网/局域网进行连接。所有算力节点构成算力资源池。

算力节点资源模块的上层为资源动态感知模块与算力路由模块，资源动态感知模块对整个算力资源池资源实时感知，具体来说，对异构算力可用数量、算力资源当前消耗情况、资源健康状态等进行管理。

算力路由模块：该层基于抽象后的算力资源，综合考虑网络状况和计算资源状况，将计算任务调度到物理计算节点。该层包括算力资源节点网络拓扑结构、算力路由控制、算力路由转发等功能。算力路由控制根据作业任务对算力资源的需求结合算力节点信息生成算力拓扑，进一步生成算力感知的新路由表。算力路由转发包括算力路由标识、算力路由寻址等功能。

资源动态感知模块及算力路由模块的上层为算力资源调度模块，本层负责作业任务调度分配，包括作业任务选择(确定依赖条件、作业任务优先级、资源配额等)、计算资源分配(资源调度、资源抢占、弹性扩容等)、日志管理等，本层也包含租户管理功能，实现对计算资源租户的配置管理。为提高框架的可靠性，控制节点及数据采用冗余备份，一旦当前负责资源调度的节点设备失效，由备用节点接管。

算力资源调度模块上层为应用接口抽象模块，提供了应用模块资源申请交互接口，数据传输接口，资源调度抽象接口，作业任务生命周期管理接口等。

应用接口抽象模块的上层为应用模块，该框架提供了统一接口，使得不同应用都可以透明无感知的运行在整个资源池上。

该框架将应用与物理硬件解耦合，应用通过应用接口抽象模块调用逻辑的计算单元，由算力资源调度模块将逻辑计算单元根据应用的实际需求匹配到具体的物理计算设备上。对于用户来说，通过计算资源的池化以及虚拟化，能够实现计算资源使用的高效、灵活，充分发挥计算资源的算力潜能。

算力度量方面，不同应用对算力有着不同的需求。如实时性类的推理任务，对于网络时延要求比较高，对计算能力要求相对较低。而AI训练类的业务，训练数据规模通常比较大，神经网络层级比较复杂，对计算能力和存储能力要求都比较高。考虑将算力分为逻辑运算能力、神经网络运算能力、并行计算能力等类别。具体来说，逻辑运算能力通常使用的计算硬件以CPU为代表，考虑用TOPS进行计算能力度量。神经网络计算能力：主要针对AI密集计算任务，对机器学习、深度学习等应用加速计算，运算能力根据浮点运算能力(TFLOPS/s)和显存大小衡量。并行计算能力：通常用于处理大量类型统一的数据，属于通用计算能力，用浮点计算能力(TFLOPS/s)来衡量。

作为本发明的可选方案，图4为虚拟算力单元与算力物理设备之间的映射关系，以GPU为例。构建虚拟算力单元与算力物理设备的映射关系，在算力资源调度模块，根据不同虚拟算力单元当前使用情况，对虚拟算力单元管理和调度。任务的分发由资源动态感知模块完成，具体任务的分发考虑算力资源当前可用数量、健康状况、消耗情况，根据算力资源节点网络拓扑结构进行。

作为本发明的可选方案，图5是算力资源调度机制图。用户在算力网络提交作业任务后，由算力资源调度器负责算力资源的调度，将作业任务分配到虚拟算力资源，由算力资源管理器负责将作业任务从虚拟算力资源映射到算力节点，最终的作业任务的最终执行在被分配算力任务的算力节点进行。

通过构建面向异构计算的资源调度***，将分布零散、异构的计算资源进行统一管理和调度，实现对算力资源的高效利用。

如图6所示，本发明提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述面向异构计算的资源调度方法的步骤。

所述面向异构计算的资源调度方法包括以下步骤：

获取用户在算力网络提交的作业任务；

本发明第还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述面向异构计算的资源调度方法的步骤。

所述面向异构计算的资源调度方法包括以下步骤：

获取用户在算力网络提交的作业任务；

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种面向异构计算的资源调度方法，其特征在于，包括：

获取用户在算力网络提交的作业任务；

2.根据权利要求1所述的一种面向异构计算的资源调度方法，其特征在于，

所述资源动态感知模块基于整个算力资源池实时感知对所述作业任务进行分发，考虑算力资源当前可用数量、健康状况、消耗情况，根据算力资源节点网络拓扑结构进行实时感知。

3.根据权利要求1所述的一种面向异构计算的资源调度方法，其特征在于，

所述将作业任务从虚拟算力资源映射到算力节点，是基于构建的虚拟算力单元与算力物理设备的映射关系，根据不同虚拟算力单元当前使用情况，对虚拟算力单元管理和调度。

4.一种面向异构计算的资源调度节点，其特征在于，包括：

获取单元，用于获取用户在算力网络提交的作业任务；

5.一种面向异构计算的资源调度***，其特征在于，包括：

6.根据权利要求5所述的一种面向异构计算的资源调度***，其特征在于，

所述算力节点资源模块中，不同的算力节点包含不同的计算资源，每个算力节点包含一个服务组件，用于将本算力节点同类算力虚拟化为虚拟算力，不同的算力节点通过互联网/局域网进行连接；所有算力节点构成算力资源池。

7.根据权利要求5所述的一种面向异构计算的资源调度***，其特征在于，

所述资源动态感知模块中，对整个算力资源池资源实时感知是对异构算力可用数量、算力资源当前消耗情况、资源健康状态进行管理得到实时感知结果。

8.根据权利要求5所述的一种面向异构计算的资源调度***，其特征在于，

所述算力路由模块包括算力资源节点网络拓扑结构单元、算力路由控制单元、算力路由转发单元；算力路由控制单元根据作业任务对算力资源的需求结合算力节点信息控制算力资源节点网络拓扑结构单元生成算力拓扑，进一步生成算力感知的新路由表；算力路由转发用于与算力资源调度模块交互包括算力路由标识、算力路由寻址。

9.根据权利要求5所述的一种面向异构计算的资源调度***，其特征在于，

所述算力资源调度模块中，对所述作业任务调度分配包括作业任务选择、计算资源分配、日志管理，控制节点及数据采用冗余备份。

10.根据权利要求5所述的一种面向异构计算的资源调度***，其特征在于，所述应用接口抽象模块中提供了应用模块资源申请交互接口包括数据传输接口、资源调度抽象接口，作业任务生命周期管理接口。

11.根据权利要求5所述的一种面向异构计算的资源调度***，其特征在于，还包括应用模块，所述应用模块设置在所述应用接口抽象模块的上层，应用模块具有连接不同应用以运行在整个资源池上的统一接口。

12.根据权利要求5所述的一种面向异构计算的资源调度***，其特征在于，所述算力节点具有逻辑运算能力、神经网络运算能力和并行计算能力。

13.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-3任一项所述面向异构计算的资源调度方法的步骤。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-3任一项所述面向异构计算的资源调度方法的步骤。