WO2024032587A1

WO2024032587A1 - Gpu资源使用方法、gpu虚拟化方法以及作业调度装置、集群

Info

Publication number: WO2024032587A1
Application number: PCT/CN2023/111673
Authority: WO
Inventors: 李孟轩; 张冠一
Original assignee: 第四范式（北京）技术有限公司
Priority date: 2022-08-09
Filing date: 2023-08-08
Publication date: 2024-02-15
Also published as: CN117632447A

Abstract

一种GPU资源使用方法、虚拟化方法及作业调度装置、集群。将GPU切分成多个虚拟GPU。针对至少一个虚拟GPU，将至少部分主机内存作为显存交换区，分配给虚拟GPU，使虚拟GPU的可用显存大于虚拟GPU的板载显存。将应用或任务针对虚拟GPU的显存申请请求替换为基于统一地址空间的显存申请请求，以使在虚拟GPU的当前可用板载显存不足的情况下，能够基于统一地址空间将板载显存中的至少部分数据交换到显存交换区。由此，显存交换区可以充当虚拟显存，增大虚拟GPU的可用线程，解决GPU的算力利用率和显存利用率不能兼顾的问题，与此同时通过将应用或任务针对虚拟GPU的显存申请请求替换为基于统一地址空间的显存申请请求，使应用或任务能够无感知地使用虚拟显存。

Description

GPU资源使用方法、GPU虚拟化方法以及作业调度装置、集群

本公开要求申请日为2022年8月9日、申请号为202210950598.5、发明名称为“GPU资源使用方法、GPU虚拟化方法以及作业调度装置、集群”的中国专利申请的优先权。

技术领域

本公开涉及计算机领域，特别是涉及一种GPU资源使用方法、GPU虚拟化方法以及作业调度装置、集群。

背景技术

现代图形处理单元(Graphics Processing Unit，GPU)最初是作为Windows视频游戏的加速器，但在过去20年中已演变为用于高性能计算和人工智能应用程序的企业服务器处理器。

现在，GPU在超级计算、人工智能训练和推理、药物研究、金融建模和医学成像中处于性能领先地位。在CPU不够快的情况下，它们也被应用于更主流的任务，例如在GPU驱动的关系数据库中。GPU比CPU更适合处理企业数据中心和超大规模网络中人工智能和机器学习所需的许多计算。CPU可以处理工作，但需要更长的时间。由于GPU旨在通过将复杂的数学问题分解为它们同时处理的单独任务来并行解决复杂的数学问题，因此它们可以更快地解决这些问题。

当企业采购了大量GPU服务器后，如何提升GPU的利用率是企业节省采购成本的重要问题。一方面，很多AI的应用或任务并不足以将一张GPU的算力或显存完全占满，但为了不造成应用或任务间的互相干扰需要独占一张GPU，这样GPU上的资源便造成了浪费。另一方面，K8S是越来越被广泛采用的容器编排和集群组织工具，但是K8S对于GPU的管理是任务独占的，也会导致利用率低下。

为了提升GPU的利用率，GPU虚拟化技术被广泛开发和应用。

GPU虚拟化技术通过将GPU切分成多个更小粒度的虚拟GPU，用每个虚拟GPU来运行算力和显存消耗更小的应用或任务，达到提升GPU利用率的目的。

然而，在某些场景下GPU算力的利用率和显存利用率并不成正比。例如在模型推理A/B test、notebook调研等场景下算力的利用率远小于显存的利用率。如果希望将算力更充分地利用起来，就需要将GPU切分成粒度更小的虚拟GPU，如果使用传统GPU虚拟化方案的话，会使得每个虚拟GPU的显存很小，无法正常支撑单个应用或任务；而如果为了满足显存要求将GPU切分成粒度较大的虚拟GPU，则GPU的算力便会有空闲。

因此，需要一种能够在提升GPU资源整体利用率的同时，解决GPU的算力利用率和显存利用率不能兼顾的问题的方案。

发明内容

本公开要解决的一个技术问题是提供一种能够在提升GPU资源整体利用率的同时，解决GPU的算力利用率和显存利用率不能兼顾的问题的方案。

根据本公开的第一个方面，提供了一种GPU资源使用方法，包括：将GPU切分成多个虚拟GPU；针对至少一个虚拟GPU，将至少部分主机内存作为显存交换区，分配给虚拟GPU，以使虚拟GPU的可用显存大于虚拟GPU的板载显存；以及将应用或任务针对所述虚拟GPU的显存申请请求替换为基于统一地址空间的显存申请请求，以使在虚拟GPU的当前可用板载显存不足的情况下，能够基于统一地址空间将板载显存中的至少部分数据交换到显存交换区。

根据本公开的第二个方面，提供了一种GPU虚拟化方法，包括：将GPU切分成多个虚拟GPU；针对至少一个虚拟GPU，将至少部分主机内存作为显存交换区，分配给虚拟GPU，以使虚拟GPU的可用显存大于虚拟GPU的板载显存。

根据本公开的第三个方面，提供了一种作业调度装置，包括：调度器组件，被配置为将容器类作业调度到一个或多个GPU上，将GPU切分成一个或多个虚拟GPU，每个虚拟GPU对应容器类作业中的一个容器，每个容器对应一个应用或任务，应用或任务运行在容器中，其中，针对至少一个虚拟GPU，调度器组件还将至少部分主机内存作为显存交换区，分配给虚拟GPU，以使虚拟GPU的可用显存大于虚拟GPU的板载显存；劫持库，被配置为截取应用或任务对GPU的调用请求，对于需要使用虚拟显存的应用或任务，劫持库还将申请显存使用的接口设置为基于统一地址空间的显存申请接口。

根据本公开的第三个方面，还提供了一种Kubernetes集群，包括：多个GPU节点，每个GPU节点包括一个或多个GPU；以及部署在至少一个GPU节点上的作业调度装置，作业调度装置为本公开第二个方面述及的GPU资源管理装置。

根据本公开的第四个方面，还提供了一种GPU虚拟化装置，包括：切分模块，被配置为将GPU切分成多个虚拟GPU；分配模块，被配置为针对至少一个虚拟GPU，将GPU所在主机的部分内存作为显存交换区，分配给虚拟GPU，以使得虚拟GPU的可用显存大于虚拟GPU的板载显存。

根据本公开的第五个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面的方法。

根据本公开的第六个方面，提供了一种计算机可读存储介质，其上存储有可执行代码，当可执行代码被计算设备的处理器执行时，使处理器执行如上述第一方面的方法。

由此，本公开通过将主机内存作为显存交换区，分配给虚拟GPU，使得显存交换区可以充当虚拟显存增大虚拟GPU的可用显存，解决在出于充分利用算力而将GPU切分成粒度较小的虚拟GPU时，虚拟GPU的板载显存不足以支撑单个应用或任务的问题，进而能够解决GPU的算力利用率和显存利用率不能兼顾的问题。在此基础上，本公开通过将应用或任务针对虚拟GPU的显存申请请求替换为基于统一地址空间的显存申请请求，使应用或任务能够无感知地使用虚拟显存(即显存交换区)。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了本公开对GPU进行虚拟化的原理示意图。

图2示出了根据本公开一个实施例的作业调度装置的结构示意图。

图3示出了劫持库的原理示意图。

图4示出了针对vGPU任务的整体处理流程示意图。

图5示出了根据本公开一个实施例的GPU虚拟化装置的结构示意图。

图6示出了根据本公开一个实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了本公开对GPU进行虚拟化的原理示意图。

参见图1，可以将GPU切分为多个虚拟GPU。GPU，可以是指一张物理GPU卡。切分粒度可以根据需要灵活设置。虚拟GPU也可以称为vGPU。

针对至少一个虚拟GPU，可以将GPU所在主机(如服务器)的至少部分主机内存作为显存交换区，分配给该虚拟GPU，以使该虚拟GPU的可用显存大于该虚拟GPU的板载显存。板载显存，是指集成在物理GPU卡上的显存，也即物理GPU卡自身提供的显存。板载显存，也可称为物理显存。

对于分配了显存交换区的虚拟GPU而言，当该虚拟GPU的板载显存不够用时，可以将板载显存中的一部分空间释放出来，供当前程序使用。其中，被释放的空间中的数据被保存到显存交换区。当需要使用被释放的空间中的数据时，可以再将显存交换区中的数据交换到板载显存中。

由此，在显存交换区的作用下，虚拟GPU的总的可用显存大于该虚拟GPU的板载显存。也就是说，作为显存交换区的内存，可以充当虚拟GPU的虚拟显存，起到增大虚拟GPU的可用显存的效果。虚拟GPU的总的可用显存等于虚拟GPU的板载显存加上为虚拟GPU分配的显存交换区。

本公开通过使用内存作为显存交换区，可以实现超过板载显存的可用显存，使得在出于充分利用GPU资源的目的而将GPU切分成粒度较小的虚拟GPU时，无需担心因切分得到的虚拟GPU的板载显存较小而不能支撑单个应用或任务，因此能够在提升GPU资源整体利用率的同时，解决GPU的算力利用率和显存利用率不能兼顾的问题，且可以帮助客户更灵活地设置GPU虚拟化的切分粒度，以最大程度的提升GPU的资源利用率。

一个虚拟GPU可以被一个应用或任务独占使用。需要使用显存交换区的应用或任务，可以是指运行过程中需要使用的最大显存超过虚拟GPU的板载显存的应用或任务。

在一个实施例中，为了使上层的应用或任务可以无感知地使用显存交换区，本公开提出，对于需要使用显存交换区的应用或任务，可以将应用或任务针对虚拟GPU的显存申请请求替换为基于统一地址空间的显存申请请求。

统一地址空间可以视为将主机内存和设备内存(即GPU的板载显存)映射到的一个统一的(虚拟)地址空间中。在统一地址空间中，不再区分内存和显存，从而为内存和显存之间自由进行数据交换提供了支持。

因此，本公开通过应用或任务针对虚拟GPU的显存申请请求(即默认显存申请请求)替换为，基于统一地址空间的显存申请请求，使得在虚拟GPU的当前可用板载显存不足的情况下，能够基于统一地址空间将板载显存中的至少部分数据交换到显存交换区。

本公开可以利用劫持库截取应用或任务对虚拟GPU的调用请求，并将应用或任务申请显存所使用的默认接口替换为基于统一地址空间的显存申请接口，以实现将应用或任务针对虚拟GPU的显存申请请求替换为基于统一地址空间的显存申请请求。

在Cuda8以及后续的Cuda版本中提出了统一地址空间的概念。在统一地址空间中，不再区分设备内存(显存)和主机内存，所有设备内存和主机内存的数据交换由Linux内核与Nvidia内核模块中的HMM组件自动进行，不再需要用户手动通过调用CuMemcpyDtoH或者CuMemcpyHtoD来控制。这种控制机制使得内存和显存的自由交换成为可能，从而可以使得内存当作显存的交换区来使用。

本公开可以将默认的显存申请接口(cuMemAlloc)替换为基于统一地址空间的显存申请接口(cuMemAllocManaged)。在基于统一地址空间的显存申请接口请求使用的显存超过虚拟GPU的当前可用板载显存的情况下，可以由***组件(如Nvidia驱动中的内核模块部分与Linux内核中的HMM组件)自动将板载显存中存放的至少部分数据交换到显存交换区，以释放至少部分板载显存，满足应用或任务的显存使用需求。

可见，本公开通过替换Cuda调用链，将普通的显存申请替换为基于统一地址空间的显存申请，使得应用或任务在具备虚拟显存使用能力的同时，整个过程对应用或任务无感。

本公开述及的GPU可以部署在K8S集群中，K8S集群是基于Kubernetes的GPU集群，包括多个GPU节点，每个GPU节点可以包括一个或多个GPU。其中，GPU节点可以是指GPU服务器。在K8S集群中，应用或任务可以部署在容器(Container)中，容器能够为应用或任务的运行提供环境支持，应用或任务需要使用的虚拟GPU可以挂载容器中，以被应用或任务独占使用。

为了灵活设置GPU虚拟化的切分粒度，本公开提出，虚拟化信息可以由用户基于集群和上层应用或任务的实际情况设置。虚拟化信息可以表征对GPU进行切分的粒度大小和/或为虚拟GPU分配的显存交换区的大小。

例如，虚拟化信息可以包括最大虚拟GPU数量和虚拟显存大小。最大虚拟GPU数量用于限定一张物理卡最多可以切分成多少个虚拟GPU。虚拟显存大小用于限定需要为虚拟GPU配置的虚拟显存的大小。虚拟显存大小可以用“虚拟显存倍数”这一指标表示，虚拟显存倍数是指虚拟显存是实际板载显存的倍数，例如虚拟显存倍数设置为10，则表示虚拟显存为实际板载显存的10倍。

由此，在将GPU切分成多个虚拟GPU时，可以以切分得到的虚拟GPU的数量不大于最大虚拟GPU数量为条件，将GPU切分成多个虚拟GPU；在将至少部分主机内存作为显存交换区，分配给虚拟GPU时，可以将与虚拟显存大小相等的主机内存作为显存交换区，分配给虚拟GPU。

为了避免任务间的影响，一个虚拟GPU可以分配给一个应用或任务使用，本方案会基于上文设置的虚拟化参数限制任务对于GPU的访问和使用，因此，一个应用或任务的运行状态的变动，不会影响其他虚拟GPU上的应用或任务。在为应用或任务分配虚拟GPU时，可以获取应用或任务的资源需求信息，资源需求信息用于表征应用或任务所需的GPU资源。应用或任务在运行过程中不同状态下所需的GPU资源可能不同，应用所需的GPU资源可以是指应用或任务整个运行过程中所需的最大GPU资源。根据资源需求信息，可以选择能够满足应用或任务所需的GPU资源的虚拟GPU。

资源需求信息可以包括算力使用比例和显存使用大小。算力使用比例用于表征应用或任务需要使用的GPU算力比例，单位为％。如GPU算力比例设置为10，则可以将应用或任务调度到GPU算力比例为10％以上的虚拟GPU上。显存使用大小的单位可以为MB，如显存使用大小设置为1024，则应用或任务会占用1024MB的GPU显存。

为了实现容器对于虚拟GPU透明化的使用，本公开提出，创建容器时需要设置与虚拟GPU对应的环境变量，可以包括但不限于容器标识、挂载进容器的虚拟GPU的标识、容器能够访问的GPU资源上限。容器标识可以是通用唯一识别码(Universally Unique Identifier，UUID)，用于下文提到的调度器插件识别容器。虚拟GPU的标识可以是容器内能访问的GPU设备编号，用于容器内外的设备映射。容器能够访问的GPU资源上限可以是指，虚拟GPU所能提供的最大GPU资源，可以包括显存以及算力使用比例上限。基于环境变量可以将虚拟GPU挂载在容器中，并启动容器以在容器中运行应用或任务。

本公开还可以对虚拟GPU的资源使用情况进行监测。可选地，还可以实时输出(如可视化展示)虚拟GPU的资源使用情况。

至此，结合图1就本公开的GPU虚拟化方法以及GPU资源使用方法涉及的基本流程做了说明。本公开还提出了一种支持云原生的作业调度装置，适于部署在K8S集群中需要使用GPU虚拟化的节点上，以支持云原生的方式对容器类作业进行调度。

容器类作业，是指向K8S集群提交的包含vGPU资源的pod、deployment、job等作业。容器类作业，也可以称为vGPU任务。容器类作业可以涉及一个或多个容器，在K8S中，Pod是K8S管理的最小单位，一个Pod中可以包含多个容器。每个容器中可以运行一个应用或任务。容器中应用或任务的运行所需的GPU资源可以是指vGPU资源，即一个应用或任务可以独占使用一个vGPU。vGPU资源可以用于表征每个应用或任务所需的vGPU的资源大小，如GPU算力比例和使用的显存大小。

如图2所示，作业调度装置200可以包括调度器组件210和劫持库220。在一个实施例中，作业调度装置200还可以包括图中虚线框所示的设备组件230、挂载组件240、监测组件250以及标记组件260中的一个或多个。各组件可以通过chart的方式进行打包。

调度器组件210可以被配置为根据容器类作业对GPU资源的需求信息，将容器类作业调度到一个或多个GPU上，并将GPU切分成一个或多个虚拟GPU，每个虚拟GPU对应容器类作业中的一个容器，每个容器对应一个应用或任务，应用或任务运行在容器中。其中，对于已经投入使用的GPU，调度器组件可以对其剩余算力和显存进行切分，得到虚拟GPU。

针对至少一个虚拟GPU，调度器组件210还可以将至少部分主机内存作为显存交换区，分配给虚拟GPU，以使虚拟GPU的可用显存大于虚拟GPU的板载显存。调度器组件210可以根据容器类作业中的vGPU资源信息，对GPU进行切分。vGPU资源信息可以包括vGPU的个数以及各个vGPU需要提供的最大资源信息，如算力上限和显存上限。

调度器组件210，也可以称为调度器插件。调度器组件210可以是对K8S集群中的Scheduler extender进行改进得到的对所有vGPU任务进行调度的调度器插件，该调度器插件可以记为4PD-vGPU-Scheduler。

调度器组件210可以劫持并接管所有vGPU任务的调度，统筹所有集群的GPU资源并将任务分配(即调度)到合适的GPU节点上的某几个GPU上面去。原版的K8S官方调度器只支持按照个数分配GPU，其所分配到的GPU视为独占资源，其它应用或任务无法使用。与之相比，本公开的调度器组件210可以支持任务指定需要使用的GPU资源(如显存大小和算力使用比例)，通过将应用或任务调度到满足需求的虚拟GPU上，支持任务支持只使用GPU的一部分显存和算力，从而可以让多个任务共享一个GPU的资源。

劫持库220被配置为截取应用或任务对GPU的调用请求。对于需要使用虚拟显存的应用或任务，劫持库220还将申请显存使用的接口(如cuMemAlloc)设置(如替换)为基于统一地址空间的显存申请接口(如cuMemAllocManaged)，以使在虚拟GPU的当前可用板载显存不足的情况下，能够基于统一地址空间将所述板载显存中的至少部分数据交换到显存交换区。在基于统一地址空间的显存申请接口申请使用的显存大于当前可用板载显存的情况下，可以利用***组件(如HMM组件)自动将板载显存中存放的至少部分数据交换到显存交换区，以释放至少部分板载显存。

劫持库220可以是对现有组件Hooked Cuda Driver(即CUDA劫持库)进行改进得到的。劫持库本身是现有技术，但是现有技术中的劫持库不支持多卡切分，也无法直接在K8S上使用。本公开可以为劫持库增加与调度器组件210进行通讯的功能，使得K8S集群可以动态地控制各个应用或任务。

如上文所述，Cuda8以及后续的Cuda版本中提出了统一地址空间的概念，在统一地址空间中，不再区分设备内存(显存)和主机内存，所有设备内存和主机内存的数据交换由Linux内核与Nvidia内核模块中的HMM组件自动进行，不再需要用户手动通过调用CuMemcpyDtoH或者CuMemcpyHtoD来控制。这种控制机制使得内存和显存的自由交换成为可能，从而可以使得内存当作显存的交换区来使用。

本公开通过创造性地将统一地址空间、劫持库的技术应用到GPU复用领域，由劫持库220(也即Cuda劫持库)替换Cuda调用链，将普通的显存申请替换成为“统一地址空间”的申请，从而使得任务在完全无感知的情况下具有使用内存当作显存交换区的能力。

劫持库220可以通过劫持符号调用的方式，劫持所有上层的调用请求，经过处理后转发给下层真正的CUDA执行库。图3示出了劫持库的原理示意图。

如图3所示，劫持库(Libcudaso)位于驱动层(Nvidia GPU Driver)与Cuda运行时(Cuda Runtime)层之间，所以可以截取Cuda运行时向驱动所发送的所有请求。在这个基础上，劫持库还可以可以被配置为检查应用或任务申请使用的显存是否大于为其分配的显存，并在应用或任务申请使用的显存不大于为其分配的显存的情况下，将显存申请请求发送给下层驱动，如GPU驱动。例如，劫持库可以针对每个容器进行分别进行显存和算力的统计，进行相应的合法性检查(申请的显存不能超过分配的显存大小)后传递给下层驱动。下层驱动可以通过调用接口函数ioctl控制图形处理单元(Nvdia GPU)。其中，劫持库可以是利用半虚拟化(Para Virtualization)对客户机操作***(Guest OS)进行修改而增加的接口(cuda API)，如可以在Libcuda上添加一个虚拟化层以构建劫持库。客户机操作***中的应用(CUDA Application)可以通过调用库(CUDA Library) 以静态连接(Static link)的方式连接到Cuda运行时，以支持应用的运行。可以以动态连接(Dynamic link)的方式通过调用函数dlopen将劫持库挂载到运行时。

设备组件230被配置为将劫持库220挂载(也即映射)进容器，并在容器中设置预加载库，以使得在容器中的进程启动前强制挂载劫持库。

设备组件230，也可以称为设备插件。设备组件230可以是对K8S集群中的Device Plugin(即设备插件)进行改进得到的。改进后的设备器插件可以记为4PD-vGPU-Device Plugin。设备组件230负责将Cuda劫持库(libvgpu.so)映射到容器内部，并在容器中设置预加载库(如预加载文件/etc/ld.so.preload)。/etc/ld.so.preload的功能是让任何进程启动之前强制挂载libvgpu.so，保证用户无法自行绕开vGPU直接访问GPU。由此，容器内部所有对于Cuda的调用都会经过劫持库转发。

挂载组件240可以被配置为通过与调度器组件210通信，获取虚拟GPU的标识。虚拟GPU的标识用于标识虚拟GPU的设备编号，挂载组件240可以根据虚拟GPU的标识将虚拟GPU挂载进容器。其中，挂载组件240可以连同相应驱动库一并挂载进容器。

挂载组件240位于容器层，可以是对nvidia-container-runtime进行改进得到的。改进后的nvidia-container-runtime可以记为4PD-nvidia-container-runime。对比普通的nvidia-container-runtime，挂载组件240多了与调度器组件210的通讯，根据通讯挂载组件240可以将调度器组件210分配给容器的vGPU真正地挂载进入容器中。

挂载组件240还可以被配置为通过与调度器组件210通信，获取虚拟GPU的GPU资源信息，并将GPU资源信息记录在容器的环境变量中。GPU资源信息可以是指虚拟GPU能够提供的GPU资源上限，如显存上限以及算力上限。容器的环境变量中的GPU资源信息，也即容器能够访问(即使用)的GPU资源。根据环境变量可以创建并启动容器。创建并启动容器的操作可以交由容器运行时runc执行。

监测组件250可以记为4PD-VGPU-monitor，被配置为监测vGPU的资源使用情况，如可以监测预先设定的一些衡量指标metrics。监测组件250还可以向外推送metrics，方便整个集群实时监控并可视化vGPU资源。

标记组件260可以被配置为针对容器类作业中的每个容器，将能够唯一标识容器的容器标识记录在容器的环境变量中，方便调度器组件210识别。可以采用通用唯一识别码(Universally Unique Identifier，UUID)作为容器标识。标记组件260可以是指K8S中的MutatingWebhook。

图4示出了针对vGPU任务的整体处理流程示意图。

图4中所示各步骤可以由本公开的作业调度装置中的相应组件执行。具体而言，步骤S410、步骤S420可以由标记组件执行；步骤S340、步骤S440以及步骤S480可以由调度器组件执行；步骤S450可以由设备组件执行；步骤S460可以由挂载组件执行。

参见图4，在步骤S410，当任务提交时，首先可以由标记组件检查vGPU任务中是否存在vGPU资源。若检查到vGPU资源，则可以执行步骤S420至步骤S460的流程，通过对GPU进行虚拟化，使应用或任务能够使用虚拟显存，特别是能够无感知地使用虚拟显存。若未检查的vGPU资源，则表明提交的任务不需要对GPU进行虚拟化，因此可以执行步骤S470，执行默认的调度流程。

在步骤S420，针对发现每个vGPU资源添加容器UUID，以方便挂载组件识别对应的容器。每个vGPU资源对应一个容器，vGPU资源也即容器需要使用的vGPU资源。

在步骤S430，对集群中的GPU节点进行筛选。

在步骤S440，对筛选得到的GPU节点进行打分。

通过筛选和打分，可以最终选择最合适的GPU节点(如得分最高的一个或多个GPU节点)执行vGPU任务。例如，可以首先筛选支持虚拟化的GPU节点，然后对根据GPU节点上的当前GPU剩余算力、支持的切分粒度等对GPU节点进行打分，选取最合适(即得分最高)的GPU节点，并对最终选取的GPU节点中的GPU进行切分，得到一个或多个满足需求的vGPU。

在步骤S450，添加劫持库挂载。

当任务被提交到对应的GPU节点上后，可以挂载CUDA劫持库libvgpu.so以及预加载文件/etc/ld.so.preload。

在步骤S460，设置环境变量。

在执行完步骤S450之后，可以将任务提交到容器层，在容器层的nvidia container runtime会与vGPU调度器进行通讯，并获取vGPU对应的GPU序号，及对应能使用的显存以及利用率上限，分别将其填入以下3个环境变量：NVIDIA_VISIBLE_DEVICES，CUDA_DEVICE_MEMORY_LIMIT，CUDA_DEVICE_SM_LIMIT。其中，第一个环境变量用于控制挂载进容器的GPU设备编号，第二、第三个环境变量用于控制对于GPU的访问，分别为本容器能访问的显存以及利用率的上限。

最后根据这些环境变量，可以调用nvidia-container-cli进行具体GPU设备和相应驱动库的挂载，并交由runc启动容器。

综上，本公开讨论了能够实现虚拟显存能力的基于云原生方案的GPU虚拟化技术，从产品和技术层面给出了解决上述缺陷的完整流程和解决方案。本公开的方案可以基于云原生K8S技术实现，能够直接适配到云原生场景下。因此，本公开可以实现为一种支持虚拟显存的云原生GPU虚拟化方案。基于本公开的作业调度装置实现的云原生GPU虚拟化方案，主要包括组件部署阶段、应用或任务创建阶段、应用或任务运行阶段。

在组件部署阶段，可以将GPU资源管理装置中的各个组件安装至K8S集群中需要使用GPU虚拟化的节点上，在部署的过程中需要设定“虚拟显存倍数”和“最大vGPU个数”等参数，用户可以根据集群和上层应用或任务的实际情况进行设置。这两个参数是本方案的新增参数，其作用可以参考前文相关描述。

在应用或任务创建阶段，用户需要结合该应用或任务对GPU资源的消耗情况和集群内GPU卡的算力/显存大小来设定“使用的GPU算力比例”和“使用的GPU显存大小”等参数，灵活设定每个应用或任务所需要的算力和显存大小。这两个参数也是本本公开的新增参数。

在应用户或任务运行这个阶段，应用或任务会使用所设定的参数在虚拟GPU上运行，并且每个虚拟GPU上的应用不会相互干扰，用户变动某个应用或任务的运行状态并不会影响其他虚拟GPU上的应用或任务。

预期达到的效果是每个应用或任务使用的显存大小总和可以超过实际物理GPU的总显存量，且在推理场景下且GPU算力没有打满的情况下每个应用或任务的性能与不使用GPU虚拟化时基本一致，损耗在10％以内。这是由于推理任务的局部性较强，显存和内存的交换不会过于频繁从而引发很大的性能衰减，损耗这里指的是推理场景下请求处理时间的增加部分。

本公开通过复用GPU可以实现在一个GPU上部署多个AI应用(如推理模型)。

在现有技术中可以通过多模型加载方式(如选择Nvidia Triton server,torchserve,tf-serving中的多模型加载方式)实现在一个GPU上部署多个推理模型。例如，Nvidia针对推理场景推出了Nvidia triton server推理引擎，可以在一个GPU上加载多个推理模型。再例如，许多AI训练框架也推出了对应的推理服务引擎，他们可以在一个任务中同时加载多个模型，并针对每个模型提供推理服务。这种多模型加载方式的是缺陷在于，这种技术往往只能适用于特定的几种模型，例如tf-serving只能加载tensorflow模型，torchserve只能加载torch模型，就连适用性最广的nvidia triton server针对pytorch也只能加载pytorch script模型，无法覆盖所有应用场景。本公开的GPU复用方案则可以覆盖所有应用场景。

在现有技术中也可以通过选择其它的GPU虚拟化方案实现在一个GPU上部署多个推理模型。但是现在比较流行的GPU虚拟化方案大多都无法适配到私有化部署的云原生场景，例如nvidiavGPU所提供的虚拟化能力是针对虚拟机场景的，例如，目前一些企业提出的qgpu与cgpu方案都是针对其公有云的场景。上述的方案都很难直接适配到云原生场景下。本公开则可以直接适配到云原生场景中，实现为一种云原生GPU虚拟化方案。

本公开述及的推理模型可以是指神经网络模型。神经网络模型可被用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等。所述神经网络模型旨在针对相关场景中的对象或事件有关的问题进行预测。例如，可用于预测图像类别、预测图像中文字、预测文本类别、预测语音情感类别、预测欺诈交易、预测广告点击率、预测商品价格等等，使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。

在一个实施例中，神经网络模型可被用于的场景包括但不限于以下场景：

图像处理场景，包括：光学字符识别OCR、人脸识别、物体识别和图片分类；更具体地举例来说，OCR可应用于票据(如***)识别、手写字识别等，人脸识别可应用安防等领域，物体识别可应用于自动驾驶场景中的交通标志识别，图片分类可应用于电商平台的“拍照购”、“找同款”等。

语音识别场景，包括可通过语音进行人机交互的产品，如手机的语音助手(如苹果手机的Siri)、智能音箱等；

自然语言处理场景，包括：审查文本(如合同、法律文书和客服记录等)、垃圾内容识别(如垃圾短信识别)和文本分类(情感、意图和主题等)；

自动控制场景，包括：矿井组调节操作预测、风力发电机组调节操作预测和空调***调节操作预测；具体的对于矿井组可预测开采率高的一组调节操作，对于风力发电机组可预测发电效率高的一组调节操作，对于空调***，可以预测满足需求的同时节省能耗的一组调节操作；

智能问答场景，包括：聊天机器人和智能客服；

业务决策场景，包括：金融科技领域、医疗领域和市政领域的场景，其中：

金融科技领域包括：营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测；

医疗领域包括：疾病筛查和预防、个性化健康管理和辅助诊断；

市政领域包括：社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理)；

推荐业务场景，包括：新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐；

搜索场景，包括：网页搜索、图像搜索、文本搜索、视频搜索等；

异常行为检测场景，包括：国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等。

本公开上文结合图1所描述的GPU虚拟化方法还可以实现为一种GPU虚拟化装置。

GPU虚拟化装置的功能单元可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图5所描述的功能单元可以组合起来或者划分成子单元，从而实现上述公开的原理。因此，本文的描述可以支持对本文描述的功能单元的任何可能的组合、或者划分、或者更进一步的限定。

下面就GPU虚拟化装置可以具有的功能单元以及各功能单元可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图5，GPU虚拟化装置500可以包括切分模块510和分配模块520。

切分模块510被配置为将GPU切分成多个虚拟GPU。

分配模块520被配置为针对至少一个虚拟GPU，将GPU所在主机的部分内存作为显存交换区，分配给虚拟GPU，以使得虚拟GPU的可用显存大于虚拟GPU的板载显存。

GPU虚拟化装置500还可以包括第一获取模块，被配置为获取虚拟化信息，虚拟化信息包括最大虚拟GPU数量和虚拟显存大小。切分模块可以以切分得到的虚拟GPU的数量不大于最大虚拟GPU数量为条件，将GPU切分成多个虚拟GPU。分配模块可以将与虚拟显存大小相等的主机内存作为显存交换区，分配给虚拟GPU。

GPU虚拟化装置500还可以包括第二获取模块和分配模块，第二获取模块被配置为获取资源需求信息，资源需求信息用于表征应用或任务所需的GPU资源。分配模块被配置为根据资源需求信息，为应用或任务分配虚拟GPU。

GPU虚拟化装置500还可以包括替换模块，被配置为将应用或任务针对所述虚拟GPU的显存申请请求替换为基于统一地址空间的显存申请请求，以使在所述虚拟GPU的当前可用板载显存不足的情况下，能够基于统一地址空间将所述板载显存中的至少部分数据交换到所述显存交换区。替换模块可以利用劫持库截取应用或任务对虚拟GPU的调用请求，并将应用或任务申请显存所使用的默认接口替换为基于统一地址空间的显存申请接口。

应用或任务可以运行在容器中。GPU虚拟化装置500还可以包括设置模块、挂载模块以及启动模块。设置模块被配置为设置容器的环境变量，环境变量包括容器标识、挂载进容器的虚拟GPU的标识、容器能够访问的GPU资源上限。挂载模块被配置为基于环境变量将虚拟GPU挂载进容器中。启动模块被配置为启动容器，以在容器中运行应用或任务。

GPU虚拟化装置500还可以包括监测模块，被配置为对虚拟GPU的资源使用情况进行监测。

本公开还可以实现为一种Kubernetes集群，包括多个GPU节点，每个所述GPU节点包括一个或多个GPU；以及部署在至少一个所述GPU节点上的作业调度装置，作业调度装置可以是上文结合图2所描述的GPU资源管理装置。

图6示出了根据本公开一个实施例的可用于实现上述GPU资源使用方法或GPU虚拟化方法的计算设备的结构示意图。

参见图6，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器610可以包括各种类型的存储单元，例如***内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可执行代码，当可执行代码被处理器620处理时，可以使处理器620执行上文述及的GPU资源使用方法或GPU虚拟化方法。

上文中已经参考附图详细描述了根据本公开的GPU资源使用方法、GPU虚拟化方法以及作业调度装置、集群。

此外，根据本公开的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本公开还可以实施为一种计算机可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本公开的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本公开的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种GPU资源使用方法，包括：

将GPU切分成多个虚拟GPU；

针对至少一个所述虚拟GPU，将至少部分主机内存作为显存交换区，分配给所述虚拟GPU，以使所述虚拟GPU的可用显存大于所述虚拟GPU的板载显存；以及

将应用或任务针对所述虚拟GPU的显存申请请求替换为基于统一地址空间的显存申请请求，以使在所述虚拟GPU的当前可用板载显存不足的情况下，能够基于统一地址空间将所述板载显存中的至少部分数据交换到所述显存交换区。
根据权利要求1所述的方法，将应用或任务对所述虚拟GPU的显存申请请求替换为基于统一地址空间的显存申请请求，包括：

利用劫持库截取应用或任务对虚拟GPU的调用请求，并将应用或任务申请显存所使用的默认接口替换为基于统一地址空间的显存申请接口。
根据权利要求1所述的方法，还包括：

获取虚拟化信息，所述虚拟化信息包括最大虚拟GPU数量和虚拟显存大小，

其中，将GPU切分成多个虚拟GPU，包括：以切分得到的虚拟GPU的数量不大于所述最大虚拟GPU数量为条件，将GPU切分成多个虚拟GPU，

将所述GPU所在设备的部分内存作为显存交换区，分配给所述虚拟GPU，包括：将与所述虚拟显存大小相等的主机内存作为显存交换区，分配给所述虚拟GPU。
根据权利要求1所述的方法，还包括：

获取资源需求信息，所述资源需求信息用于表征应用或任务所需的GPU资源；

根据所述资源需求信息，为应用或任务分配虚拟GPU。
根据权利要求4所述的方法，所述资源需求信息包括使用的GPU算力比例和使用的显存大小。
根据权利要求1所述的方法，应用或任务运行在容器中，该方法还包括：

设置容器的环境变量，所述环境变量包括容器标识、挂载进容器的虚拟GPU的标识、所述容器能够访问的GPU资源上限；

基于所述环境变量将所述虚拟GPU挂载进容器中；以及

启动所述容器，以在所述容器中运行应用或任务。
根据权利要求1所述的方法，还包括：

对所述虚拟GPU的资源使用情况进行监测。
一种GPU虚拟化方法，包括：

将GPU切分成多个虚拟GPU；

针对至少一个所述虚拟GPU，将至少部分主机内存作为显存交换区，分配给所述虚拟GPU，以使所述虚拟GPU的可用显存大于所述虚拟GPU的板载显存。
一种作业调度装置，包括：

调度器组件，被配置为将容器类作业调度到一个或多个GPU上，将所述GPU切分成一个或多个虚拟GPU，每个虚拟GPU对应容器类作业中的一个容器，每个容器对应一个应用或任务，所述应用或任务运行在所述容器中，其中，针对至少一个所述虚拟GPU，所述调度器组件还将至少部分主机内存作为显存交换区，分配给所述虚拟GPU，以使所述虚拟GPU的可用显存大于所述虚拟GPU的板载显存；

劫持库，被配置为截取应用或任务对GPU的调用请求，对于需要使用虚拟显存的应用或任务，所述劫持库还将申请显存所使用的接口设置为基于统一地址空间的显存申请接口。
根据权利要求9所述的装置，

所述劫持库还被配置为检查应用或任务申请使用的显存是否大于为其分配的显存，并在应用或任务申请使用的显存不大于为其分配的显存的情况下，将显存申请请求发送给驱动。
根据权利要求9所述的装置，还包括：

设备组件，被配置为将所述劫持库挂载进容器，并在所述容器中设置预加载库，以使得在所述容器中的进程启动前强制挂载所述劫持库。
根据权利要求9所述的装置，还包括：

挂载组件，被配置为通过与所述调度器组件通信，获取所述虚拟GPU的虚拟GPU标识，并根据所述虚拟GPU标识将所述虚拟GPU挂载进容器。
根据权利要求12所述的装置，

所述挂载组件还被配置为通过与所述调度器组件通信，获取所述虚拟GPU的GPU资源信息，并将所述GPU资源信息记录在所述容器的环境变量中。
根据权利要求9所述的装置，还包括：

监测组件，被配置为监测并输出所述虚拟GPU的资源使用情况。
根据权利要求9所述的装置，还包括：

标记组件，被配置为针对所述容器类作业中的每个容器，将能够唯一标识容器的容器标识记录在所述容器的环境变量中。
一种Kubernetes集群，包括：

多个GPU节点，每个所述GPU节点包括一个或多个GPU；以及

部署在至少一个所述GPU节点上的作业调度装置，所述作业调度装置为权利要求9至15中任何一项所述的GPU资源管理装置。
一种GPU虚拟化装置，包括：

切分模块，被配置为将GPU切分成多个虚拟GPU；

分配模块，被配置为针对至少一个所述虚拟GPU，将所述GPU所在主机的部分内存作为显存交换区，分配给所述虚拟GPU，以使得所述虚拟GPU的可用显存大于所述虚拟GPU的板载显存。
一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至8中任何一项所述的方法。
一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被计算设备的处理器执行时，使所述处理器执行如权利要求1至8中任何一项所述的方法。