CN117573371B - 一种对于基于图形处理器运行的服务的调度方法和装置 - Google Patents
一种对于基于图形处理器运行的服务的调度方法和装置 Download PDFInfo
- Publication number
- CN117573371B CN117573371B CN202410040401.3A CN202410040401A CN117573371B CN 117573371 B CN117573371 B CN 117573371B CN 202410040401 A CN202410040401 A CN 202410040401A CN 117573371 B CN117573371 B CN 117573371B
- Authority
- CN
- China
- Prior art keywords
- service
- video memory
- memory capacity
- consumed
- processors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000015654 memory Effects 0.000 claims abstract description 207
- 238000003860 storage Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本说明书实施例提供了一种对于基于图形处理器运行的服务的调度方法和装置,该方法包括:获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量;获取多个图形处理器上各自运行的服务实例的种类和数量,其中,每个图形处理器上运行一到多种服务的服务实例,每种服务的服务实例运行于一到多个图形处理器上;根据多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,确定各种服务的服务实例分别消耗的预测显存容量,所述预测显存容量用于向基于图形处理器运行的服务实例分配显存。
Description
技术领域
本说明书一个或多个实施例涉及图形处理器和服务调度领域,尤其涉及一种对于基于图形处理器运行的服务的调度方法和装置。
背景技术
目前,很多计算服务,例如机器学习服务,均依赖图形处理器(GPU,GraphicsProcessing Unit)进行计算。但是,图形处理器的显存资源通常是有限的,而例如小型的机器学习服务,往往只需要少量的显存。为了更高效地利用图形处理器资源,现有的常规服务调度方法是将多个服务混合部署在一台配置图形处理器的机器上。但是,这种现有服务调度方式,存在浪费显存资源,或机器存在足够显存资源而服务无法部署的问题。
发明内容
本说明书一个或多个实施例描述了一种对于基于图形处理器运行的服务的调度方法和装置,可以根据多个图形处理器上已运行的服务的显存总消耗量、以及服务种类,确定各种服务的消耗显存的预测量,并根据预测量进行服务的部署。从而,可以显著提高在基于图形处理器运行的服务的部署和运行中,对于显存资源的利用率。以及,降低机器实际存在足够显存而服务部署失败的问题的发生率,解决现有技术的不足。
根据第一方面,提供了一种对于基于图形处理器运行的服务的调度方法,所述方法包括:
获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量;
获取多个图形处理器上各自运行的服务实例的种类和数量,其中,每个图形处理器上运行一到多种服务的服务实例,每种服务的服务实例运行于一到多个图形处理器上;
根据多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,确定各种服务的服务实例分别消耗的预测显存容量,所述预测显存容量用于向基于图形处理器运行的服务实例分配显存。
在一种可能的实施方式中,根据多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例,确定所述预定种类的服务中各种服务的实例消耗的预测显存容量,包括:
将所述多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,带入多个图形处理器对应的多个预设不等式,所述预设不等式用于表示所述图形处理器上运行的服务实例消耗的预测显存容量之和,大于等于所述图形处理器的消耗显存容量、且小于等于所述图形处理器的总显存容量;
求解所述多个预设不等式,得到各种服务的服务实例消耗的预测显存容量。
在一种可能的实施方式中,求解所述多个预设不等式,得到各种服务的单一实例消耗的预测显存容量,包括:
求解所述多个预设不等式,得到各种服务的服务实例消耗的初步预测容量,以各个图形处理器上运行的服务实例消耗的预测显存容量之和、与图形处理器的消耗显存容量的差,趋向于变小为目的,更新所述初步预测容量,得到所述预测显存容量。
在一种可能的实施方式中,各个所述服务实例分别基于虚拟容器运行。
在一种可能的实施方式中,还包括,将所述预测显存容量写入服务调度器包括的服务资源账本,用于服务调度器根据所述服务资源账本,向基于图形处理器运行的服务实例分配显存。在一种可能的实施方式中,所述子图匹配任务包括依据批量同步并行BSP计算模式的多个超步,所述第一子步骤对应所述多个超步中的第一超步。
在一种可能的实施方式中,所述每个图形处理器上运行一到多种服务的服务实例,包括:
每个图形处理器上运行目标服务种类集合中的一到多种服务的服务实例;
确定各种服务的服务实例分别消耗的预测显存容量,包括:
确定目标服务种类集合中的各种服务的服务实例分别消耗的预测显存容量。
在一种可能的实施方式中,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量,包括:
响应于目标服务种类集合的变更,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量。
在一种可能的实施方式中,所述目标服务种类集合的变更,包括:向目标服务种类集合添加或移除服务种类。
根据第二方面,提供了一种对于基于图形处理器运行的服务的调度装置,所述装置包括:
第一获取单元,配置为,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量;
第二获取单元,配置为,获取多个图形处理器上各自运行的服务实例的种类和数量,其中,每个图形处理器上运行一到多种服务的服务实例,每种服务的服务实例运行于一到多个图形处理器上;
预测单元,配置为,根据多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,确定各种服务的服务实例分别消耗的预测显存容量,所述预测显存容量用于向基于图形处理器运行的服务实例分配显存。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面所述的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面所述的方法。利用以上各个方面中的方法、装置、计算设备、存储介质中的一个或多个,可以显著提高在基于图形处理器运行的服务的部署和运行中,对于显存资源的利用率。以及,降低机器实际存在足够显存而服务部署失败的问题的发生率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出通过平均分配显存部署服务的方案的示意图;
图2示出通过人工预测显存使用量部署服务的方案的示意图;
图3示出本说明书实施例提供的一种对于基于图形处理器运行的服务的调度方法的示意图;
图4示出本说明书实施例提供的一种对于基于图形处理器运行的服务的调度方法的流程图;
图5示出本说明书另一实施例提供的一种对于基于图形处理器运行的服务的调度方法的示意图;
图6示出本说明书实施例提供的确定各种服务的显存预测消耗量的过程的示意图;
图7示出本说明书实施例提供一种对于基于图形处理器运行的服务的调度装置的结构图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,目前很多计算服务,例如机器学习服务,均依赖图形处理器(GPU,Graphics Processing Unit)进行计算。即这些计算服务,通常都部署在配置GPU的机器上。但是,图形处理器的显存资源通常是有限的,例如一些图形处理器的显存资源为16~24G。而例如一些机器学习服务的运行,往往只需要少量的显存。例如,以一种小型的机器学习模型BERT(Bidirectional Encoder Representations from Transformers,来自Transformer的双向编码器)为例,其运行往往只需要1~2G的显存。为了更高效地利用图形处理器,现有的常规服务调度方法是将多个服务混合部署在一台配置图形处理器的机器上。而在生产环境中,为了保持服务之间的独立性,使得不同服务的运行不互相干扰,通常可以使用虚拟化技术(例如虚拟容器)实现服务间的资源隔离。例如,每个机器学习服务都通过一个虚拟容器提供对外服务接口,多个容器共享物理机上的一张GPU显卡(或简称GPU卡)。其中,GPU显卡通常由显示芯片(即图形处理器,GPU)、显示存储器(简称显存)等部分组成。为方便描述,GPU显卡的显存可以简称为GPU的显存。但是,一般而言,在虚拟化之后,由于硬件和权限的限制,难以获取到每个容器服务实际占用的显存,而只可以通过例如执行脚本去定时获取整台物理机整体的显存使用量。
而通常例如部署线上机器学***均分配显存部署服务的方案的示意图。如图1所示的例子中,各种服务(例如包括服务A、服务B)的服务实例在部署时,被分配的显存容量均为虚拟卡的显存容量,例如为4G。例如这种方案的本质是对于各种服务平均分配显存。但是,这种方案的缺点在于,不能区别不同服务的实际显存使用,常常造成显存资源的浪费和服务部署失败的问题。比如一张虚拟卡有4G显存,而其分配的服务实际只用了2G,从而浪费剩余的2G显存。而浪费显存资源又可以导致本应被部署的服务因为缺乏显存而部署失败。
另一种确定各种服务的显存申请量的方案,是通过人工预测不同服务的显卡消耗量。根据这种方案,在部署各种服务时,用于部署服务的调度器(或称为服务调度器)可以根据内置的资源账本中记录的各种服务的显存使用量为各种服务申请显存资源,而资源账本中各种服务的显存使用量则可以通过人工预测填写。图2示出通过人工预测显存使用量部署服务的方案的示意图。如图2所示,各种服务(例如包括服务A、服务B)的服务实例在被部署时,可以根据人工填写到账本中的不同预测值,分配其使用的显存。但是,这种方案的缺点在于,人工填写的预测值和服务在运行中的实际显存量常常存在差距。在实际生产场合中,常常出现人工填写的预测值与服务运行时实际使用的显存量差距较大的情况,包括超出实际使用的显存量、或少于实际使用的显存量的情况。在一个例子中,一种服务可以申请1G显存却实际使用了10G显存。在另一个例子中,另一种服务也可以申请10G却实际使用了1G。这种账本中记录的预测使用量和实际使用量不匹配的问题,也会造成显存资源的浪费和服务部署失败的问题。
为了解决上述技术问题,本说明书实施例提供了一种对于基于图形处理器运行的服务的调度方法。其核心思想是:获取多个图形处理器分别已用于运行服务的消耗显存容量、多个图形处理器分别具有的总显存容量,以及多个图形处理器上分别运行的服务实例的种类和数量。根据以上获取数据,确定各种服务的服务实例分别消耗的预测显存容量,并将其写入服务调度器的资源账本中,用于服务调度器例如向此后部署的服务分配显存。图3示出本说明书实施例提供的一种对于基于图形处理器运行的服务的调度方法的示意图。如图3所示的例子中,服务调度器例如获取多个GPU(例如GPU1、GPU2、GPU3...)上分别已用于运行服务的消耗显存容量、分别具有的消耗显存容量、以及分别运行的服务实例的种类(即服务种类)和数量。根据获取的这些数据,可以确定各种服务的服务实例运行中消耗的预测显存容量,并将其写入服务调度器的资源账本,用于服务调度器根据资源账本,分配此后运行的服务实例(例如服务X的服务实例,服务X包含于确定出其预测显存容量的服务种类之中)使用的显存。
通过该方法,可以在无法直接获取各种服务在运行中实际消耗的显存量的情况下,自动估计出各种服务在运行中实际消耗的显存量的预测值,并根据上述预测值分配各种服务的占用显存。大大减轻了基于GPU运算的服务调度中浪费显存资源的问题,以及降低了机器存在足够显存资源而服务无法部署的问题的发生率。
下面将详细描述本说明书实施例提供的一种对于基于图形处理器运行的服务的调度方法。图4示出本说明书实施例提供的一种对于基于图形处理器运行的服务的调度方法的流程图。如图4所示,该方法至少包括如下步骤:
步骤S401,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量、以及多个图形处理器上各自运行的服务实例的种类和数量,其中,每个图形处理器上运行一到多种服务的服务实例,每种服务的服务实例运行于一到多个图形处理器上;
步骤S403,根据多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,确定各种服务的服务实例分别消耗的预测显存容量,所述预测显存容量用于向基于图形处理器运行的服务实例分配显存。
首先,在步骤S401,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量、以及多个图形处理器上各自运行的服务实例的种类和数量。通常,每个图形处理器上可以运行一到多种服务的服务实例,每种服务的服务实例可以运行于一到多个图形处理器上。服务(Service),可以是用于提供特定功能的程序。服务实例(service instance)是服务的一个具体实例。在实际生产环境中,例如云计算环境或虚拟化环境中,每种服务通常可以有多个实例,并可以部署在不同的GPU机器上。在不同的实施例中,运行时的各个服务实例可以独立接收和响应服务请求,或与其他服务实例进行通信和协作。例如图5所示的例子中,服务A的不同实例可以例如部署于GPU1、GPU3上,服务B的不同实例可以部署于GPU1、GPU2上。在不同的实施例中,各个图形处理器上运行的服务的具体类型和作用可以不同,本说明书对此不做限制。在一个实施例中,图形处理器上运行的服务可以例如用于运行机器学习模型。在不同的具体实施例中,图形处理器上运行的不同服务可以用于运行不同具体类型的机器学习模型。在一个例子中,例如可以运行BERT((Bidirectional Encoder Representations from Transformers)模型、Transformer模型、GNN(图神经网络)或CNN(卷积神经网络)中的一种或多种。
如前所述,在一些生产场景中,可以通过虚拟容器实现服务间的资源隔离,以避免不同服务的运行互相干扰,例如每个服务都运行于一个虚拟容器之中,并通过该虚拟容器提供对外的接口。因此,在一个实施例中,各个服务实例可以分别基于虚拟容器运行。在不同的具体实施例中,服务实例可以基于不同具体类型的虚拟容器运行,本说明书对此不做限制。
一般而言,多个图形处理器上运行的服务种类是可以确定的。在一个实施例中,这些确定的服务种类例如可以组成目标服务种类集合。从而,在一个具体的实施例中,每个图形处理器上可以运行目标服务种类集合中的一到多种服务的服务实例。
实际生产场合中,目标服务种类集合中服务种类可以发生变更,例如有新的(通过这些图形处理器运行的)服务部署上线或有已部署的(通过这些图形处理器运行的)服务下线。因此,当目标服务种类集合中服务种类发生变更时,可以启动对于变更后的目标服务种类集合中的各个服务种类消耗的显存的预测。可以理解,目标服务种类集合中服务种类可以发生多次变更,对于各个服务种类消耗的显存的预测也可以多次启动。因此,在一个实施例中,可以响应于目标服务种类集合的变更,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量。在一个具体的实施例中,目标服务种类集合的变更,可以包括:向目标服务种类集合添加或移除服务种类。
在确定多个图形处理器的消耗显存容量、总显存容量、各自运行的服务实例的种类和数量之后,可以在步骤S403,根据多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,确定各种服务的服务实例分别消耗的预测显存容量,所述预测显存容量用于向基于图形处理器运行的服务实例分配显存。
该步骤中,可以根据步骤S401中获得的多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量。计算出各种服务的服务实例分别消耗的预测显存容量。在上述图形处理器上运行服务种类构成目标服务种类集合的实施例中,可以确定目标服务种类集合中的各种服务的服务实例分别消耗的预测显存容量。
在不同的实施例中,确定各种服务的服务实例消耗的预测显存容量的具体方式可以不同。图6示出本说明书实施例提供的确定各种服务的显存预测消耗量的过程的示意图。在如图6所示的实施例中,可以将所述多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,带入多个图形处理器对应的多个预设不等式,所述预设不等式用于表示所述图形处理器上运行的服务实例消耗的预测显存容量之和,大于等于所述图形处理器的消耗显存容量、且小于等于所述图形处理器的总显存容量;以及,求解所述多个预设不等式,得到各种服务的服务实例消耗的预测显存容量。为了得到与各个服务的实际消耗显存更接近的预测显存容量,还可以通过求解预设不等式得到各个服务消耗的初步预测容量,并根据预定的优化条件,对于初步预测容量进行优化,从而得到预测显存容量。因此,在一个具体的实施例中,可以求解所述多个预设不等式,得到各种服务的服务实例消耗的初步预测容量,以各个图形处理器上运行的服务实例消耗的预测显存容量之和、与图形处理器的消耗显存容量的差,趋向于变小为目的,更新所述初步预测容量,得到所述预测显存容量。例如,在一个具体的例子中,例如使用3个GPU卡GPU1、GPU2、GPU3运行服务A、服务B和服务C。其中,GPU1、GPU2、GPU3均拥有24G显存,GPU1上运行服务A和服务B,共消耗5G显存;GPU2上运行服务B和服务C,共消耗7G显存;GPU3上运行服务A和服务C,共消耗6G显存。进而,可以得到3个GPU卡对应的以下不等式方程组:
其中,a、b和c分别是服务A、服务B和服务C消耗的预测显存容量,a>=0,b>=0,c>=0;
求解不等式组(1),得到a、b和c的解,分别为。即服务A、服务B和服务C所消耗显存的预测显存容量的初步区间(即初步预测容量),即服务A所消耗显存的预测显存容量处于区间,服务B所消耗显存的预测显存容量处于区间,服务C所消耗显存的预测显存容量处于区间。
进而,可以根据公式
优化a、b和c的值,得到预测显存容量的最终值,即a=2、b=3、c=4。
在确定预测显存容量之后,可以将其用于向基于图形处理器运行的服务实例分配显存。如前所述,在一些场景中,部署服务的调度器(或称服务调度器)可以在部署各种服务时,根据内置的资源账本中记录的各种服务的显存使用量为各种服务申请显存资源。所以,可以将确定的预测显存容量作为各种服务的显存使用量,写入调度器的内置账本,用于调度器在此后部署各种服务时申请显存资源,如图6所示。因此,在一个实施例中,可以将所述预测显存容量写入服务调度器包括的服务资源账本,用于服务调度器根据所述服务资源账本,向基于图形处理器运行的服务实例分配显存。
综上所述,该方法的优点在于:一方面,可以在无法直接获取各种服务在运行中实际消耗的显存量的情况下,自动计算出各种服务在运行中实际消耗的显存量的精确的预测值,并根据上述预测值分配各种服务的占用显存。从而,大大降低了在基于GPU运算的服务调度中由于对显存消耗量估计不准确,导致对于分配的显存资源的浪费,提高了显存资源的利用率。另一方面,显著的降低了出现机器存在足够显存资源而服务无法部署的问题的概率,提高了同等资源条件下服务部署的成功率。
另一方面,与上述方法过程相对应的,本说明书实施例还披露一种对于基于图形处理器运行的服务的调度装置。图7示出本说明书实施例提供一种对于基于图形处理器运行的服务的调度装置的结构图。如图7所示,该装置700包括:
获取单元701,配置为,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量、以及多个图形处理器上各自运行的服务实例的种类和数量,其中,每个图形处理器上运行一到多种服务的服务实例,每种服务的服务实例运行于一到多个图形处理器上;
预测单元702,配置为,根据多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,确定各种服务的服务实例分别消耗的预测显存容量,所述预测显存容量用于向基于图形处理器运行的服务实例分配显存。
本说明书实施例又一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书实施例再一方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
需要理解,本文中的“第一”,“第二”等描述,仅仅为了描述的简单而对相似概念进行区分,并不具有其他限定作用。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员应该可以意识到,本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。
Claims (10)
1.一种对于基于图形处理器运行的服务的调度方法,包括:
获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量、以及多个图形处理器上各自运行的服务实例的种类和数量,其中,每个图形处理器上运行一到多种服务的服务实例,每种服务的服务实例运行于一到多个图形处理器上;
将所述多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,带入多个图形处理器对应的多个预设不等式,所述预设不等式用于表示所述图形处理器上运行的服务实例消耗的预测显存容量之和,大于等于所述图形处理器的消耗显存容量、且小于等于所述图形处理器的总显存容量;求解所述多个预设不等式,得到各种服务的单一服务实例消耗的预测显存容量,所述预测显存容量用于向基于图形处理器运行的服务实例分配显存。
2.根据权利要求1所述的方法,其中,求解所述多个预设不等式,得到各种服务的单一服务实例消耗的预测显存容量,包括:
求解所述多个预设不等式,得到各种服务的服务实例消耗的初步预测容量,以各个图形处理器上运行的服务实例消耗的预测显存容量之和、与图形处理器的消耗显存容量的差,趋向于变小为目的,更新所述初步预测容量,得到所述预测显存容量。
3.根据权利要求1所述的方法,其中,各个所述服务实例分别基于虚拟容器运行。
4.根据权利要求1所述的方法,还包括,将所述预测显存容量写入服务调度器包括的服务资源账本,用于服务调度器根据所述服务资源账本,向基于图形处理器运行的服务实例分配显存。
5.根据权利要求1所述的方法,其中, 所述每个图形处理器上运行一到多种服务的服务实例,包括:
每个图形处理器上运行目标服务种类集合中的一到多种服务的服务实例;
得到各种服务的单一服务实例消耗的预测显存容量,包括:
得到目标服务种类集合中的各种服务的单一服务实例分别消耗的预测显存容量。
6.根据权利要求5所述的方法,其中,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量,包括:
响应于目标服务种类集合的变更,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量。
7.根据权利要求6所述的方法,其中,所述目标服务种类集合的变更,包括:向目标服务种类集合添加或移除服务种类。
8.一种对于基于图形处理器运行的服务的调度装置,所述装置包括:
获取单元,配置为,获取多个图形处理器各自已用于运行服务的消耗显存容量、多个图形处理器各自对应的总显存容量、以及多个图形处理器上各自运行的服务实例的种类和数量,其中,每个图形处理器上运行一到多种服务的服务实例,每种服务的服务实例运行于一到多个图形处理器上;
预测单元,配置为,将所述多个图形处理器的消耗显存容量、多个图形处理器各自的总显存容量,以及多个图形处理器上各自运行的服务实例的种类和数量,带入多个图形处理器对应的多个预设不等式,所述预设不等式用于表示所述图形处理器上运行的服务实例消耗的预测显存容量之和,大于等于所述图形处理器的消耗显存容量、且小于等于所述图形处理器的总显存容量;求解所述多个预设不等式,得到各种服务的单一服务实例消耗的预测显存容量,所述预测显存容量用于向基于图形处理器运行的服务实例分配显存。
9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项的所述的方法。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410040401.3A CN117573371B (zh) | 2024-01-09 | 2024-01-09 | 一种对于基于图形处理器运行的服务的调度方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410040401.3A CN117573371B (zh) | 2024-01-09 | 2024-01-09 | 一种对于基于图形处理器运行的服务的调度方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117573371A CN117573371A (zh) | 2024-02-20 |
CN117573371B true CN117573371B (zh) | 2024-03-29 |
Family
ID=89864527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410040401.3A Active CN117573371B (zh) | 2024-01-09 | 2024-01-09 | 一种对于基于图形处理器运行的服务的调度方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117573371B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112870726A (zh) * | 2021-03-15 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 图形处理器的资源分配方法、装置和存储介质 |
CN112905333A (zh) * | 2021-01-23 | 2021-06-04 | 招商新智科技有限公司 | 用于分布式视频智能分析平台的算力负载调度方法及装置 |
CN115643299A (zh) * | 2022-09-22 | 2023-01-24 | 北京鹰瞳科技发展股份有限公司 | 服务部署方法、装置及电子设备 |
CN115828571A (zh) * | 2022-11-28 | 2023-03-21 | 东北大学 | 基于cpu+gpu异构并行的连铸坯在线温度场预测方法 |
CN115981871A (zh) * | 2023-03-17 | 2023-04-18 | 苏州万店掌网络科技有限公司 | 一种gpu资源调度方法、装置、设备及存储介质 |
CN116010092A (zh) * | 2022-12-28 | 2023-04-25 | 中国电信股份有限公司 | 显存资源分配方法及装置 |
CN116881009A (zh) * | 2023-07-19 | 2023-10-13 | 咪咕视讯科技有限公司 | Gpu资源调度方法、装置、电子设备和可读存储介质 |
-
2024
- 2024-01-09 CN CN202410040401.3A patent/CN117573371B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905333A (zh) * | 2021-01-23 | 2021-06-04 | 招商新智科技有限公司 | 用于分布式视频智能分析平台的算力负载调度方法及装置 |
CN112870726A (zh) * | 2021-03-15 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 图形处理器的资源分配方法、装置和存储介质 |
CN115643299A (zh) * | 2022-09-22 | 2023-01-24 | 北京鹰瞳科技发展股份有限公司 | 服务部署方法、装置及电子设备 |
CN115828571A (zh) * | 2022-11-28 | 2023-03-21 | 东北大学 | 基于cpu+gpu异构并行的连铸坯在线温度场预测方法 |
CN116010092A (zh) * | 2022-12-28 | 2023-04-25 | 中国电信股份有限公司 | 显存资源分配方法及装置 |
CN115981871A (zh) * | 2023-03-17 | 2023-04-18 | 苏州万店掌网络科技有限公司 | 一种gpu资源调度方法、装置、设备及存储介质 |
CN116881009A (zh) * | 2023-07-19 | 2023-10-13 | 咪咕视讯科技有限公司 | Gpu资源调度方法、装置、电子设备和可读存储介质 |
Non-Patent Citations (2)
Title |
---|
TBEM: Testing-Based GPU-Memory Consumption Estimation for Deep Learning;Liu, Haiyi;IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC Volume10;20220820;39674-39680 * |
大规模云计算服务器优化调度问题的最优二元交换算法研究;王万良;臧泽林;陈国棋;屠杭垚;王宇乐;陆琳彦;;通信学报;20190509(第05期);184-195 * |
Also Published As
Publication number | Publication date |
---|---|
CN117573371A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | {AntMan}: Dynamic scaling on {GPU} clusters for deep learning | |
CN111966500B (zh) | 资源调度方法、装置、电子设备及存储介质 | |
CN112084002B (zh) | 云环境下微服务***的弹性伸缩方法、***、介质及设备 | |
CN107688495B (zh) | 调度处理器的方法及设备 | |
US11755369B2 (en) | Techniques for container scheduling in a virtual environment | |
Kang et al. | ConVGPU: GPU management middleware in container based virtualized environment | |
US11334477B2 (en) | Virtualization of multiple coprocessor memory | |
US11409576B2 (en) | Dynamic distribution of a workload processing pipeline on a computing infrastructure | |
US11797167B2 (en) | User interface for management of a dynamic video signal processing platform | |
CN112256430A (zh) | 容器的部署方法、装置、设备及存储介质 | |
CN115048216A (zh) | 一种人工智能集群的资源管理调度方法、装置和设备 | |
El Haj Ahmed et al. | KubCG: A dynamic Kubernetes scheduler for heterogeneous clusters | |
CN116010092A (zh) | 显存资源分配方法及装置 | |
CN110096339A (zh) | 一种基于***负载实现的扩缩容配置推荐***及方法 | |
CN113377529B (zh) | 一种智能加速卡及基于智能加速卡的数据处理方法 | |
US20210389994A1 (en) | Automated performance tuning using workload profiling in a distributed computing environment | |
CN117573371B (zh) | 一种对于基于图形处理器运行的服务的调度方法和装置 | |
US12001866B2 (en) | Harvest virtual machine for utilizing cloud-computing resources | |
CN115964128A (zh) | 一种异构gpu资源管理和调度方法和*** | |
Ahrens et al. | PaTraCo: a framework enabling the transparent and efficient programming of heterogeneous compute networks | |
CN107562510B (zh) | 一种应用实例的管理方法及管理设备 | |
CN113254143B (zh) | 虚拟化网络功能网元编排调度方法、装置和*** | |
CN114237902A (zh) | 一种服务部署方法、装置、电子设备及计算机可读介质 | |
CN111399983B (zh) | 基于容器编排调度服务的调度方法及装置 | |
US20220318656A1 (en) | Model parameter sharing between inference application instances in processing unit of information processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |