CN113674137A - 基于lru策略最大化提升显存利用率的模型加载方法 - Google Patents

基于lru策略最大化提升显存利用率的模型加载方法 Download PDF

Info

Publication number
CN113674137A
CN113674137A CN202111001401.5A CN202111001401A CN113674137A CN 113674137 A CN113674137 A CN 113674137A CN 202111001401 A CN202111001401 A CN 202111001401A CN 113674137 A CN113674137 A CN 113674137A
Authority
CN
China
Prior art keywords
time
utilization rate
model
period
video memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111001401.5A
Other languages
English (en)
Inventor
钟靖
吴小炎
吴名朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Whale Cloud Technology Co Ltd
Original Assignee
Whale Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Whale Cloud Technology Co Ltd filed Critical Whale Cloud Technology Co Ltd
Priority to CN202111001401.5A priority Critical patent/CN113674137A/zh
Publication of CN113674137A publication Critical patent/CN113674137A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于LRU策略最大化提升显存利用率的模型加载方法,该方法包括以下步骤:构建与部署人脸识别、人像对比、人体分析三个模型并配置实例;启动定时任务,每相隔10分钟获取该段时间内GPU的实时利用率,并计算该时间段内的平均GPU利用率;通过最优资源调度策略调度计算滑动平均显存使用率;根据该段时间内的数据信息,通过最优资源调度策略预测得到下一段时间所需的实例数量;根据模型在下一段时间所需的实例数量与模型已使用的实例数量对实例数量进行调整。有益效果:通过LRU调度策略,使模型动态启停,解决了多模型共享显存低利用率的痛点,提升显存的利用率,进而节约资源。

Description

基于LRU策略最大化提升显存利用率的模型加载方法
技术领域
本发明涉及显存技术领域,具体来说,涉及基于LRU策略最大化提升显存利用率的模型加载方法。
背景技术
大企业做数字化转型的时候,必定会面临AI场景,有AI应用和AI能力的需求,在真正的AI能力的生产过程中,必定存在AI能力的调用,通常是基于AI能力开放平台对外提供API实现,基于模型版本之上做AI能力的上架和部署,在能力部署时,存在单模型和多模型组合部署,显然多模型组合部署更能体现资源利用的价值,在多模型部署的基础之上,需要解决CPU、GPU、内存、显存资源共享问题。而在AI能力(多模型)的日常生产过程中,必定存在应用上、不同时间段上对模型调用量存在差异化诉求,需要解决同一AI能力中A模型密集型调用和B模型零散型甚至零调用的差异化,从而导致A模型资源不足,B模型资源浪费;并且存在运行态模型置换的诉求,即同一能力包含多个模型(A、B、C),且每个模型都启动多个实例,前期资源仅能支撑有调用量的A和B此时C无调用请求,在后期生产运行当中会出现B无调用量C有调用量的需求,造成资源的占用与浪费。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出基于LRU策略最大化提升显存利用率的模型加载方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
基于LRU策略最大化提升显存利用率的模型加载方法,该方法包括以下步骤:
构建与部署人脸识别、人像对比、人体分析三个模型并配置实例;
启动定时任务,每相隔10分钟获取该段时间内GPU的实时利用率,并计算该时间段内的平均GPU利用率;
通过最优资源调度策略调度计算滑动平均显存使用率;
根据该段时间内的数据信息,通过最优资源调度策略预测得到下一段时间所需的实例数量;
根据模型在下一段时间所需的实例数量与模型已使用的实例数量对实例数量进行调整;
通过最优资源调度策略最终实现显存利用率的最大化。
进一步的,所述构建与部署人脸识别、人像对比、人体分析三个模型并配置实例包括以下步骤:
通过AI平台配置人脸识别、人像对比、人体分析三个模型能力;
给人脸识别、人像对比、人体分析三个模型分别配置6个可弹性伸缩的实例;
将人脸识别、人像对比、人体分析三个模型配置到同一显卡;
通过容器管理平台部署启动人脸识别、人像对比、人体分析三个模型。
进一步的,所述启动定时任务,每相隔10分钟获取该段时间内GPU的实时利用率,并计算该时间段内的平均GPU利用率包括以下步骤:
启动定时任务,每相隔10分钟通过资源监控工具获取该段时间内GPU的实时资源利用率;
将获取的GPU实时利用率存入,供后面最优资源调度策略(LRU)调度使用;
最优资源调度策略调度中心循环从远程字典服务获取某段时间数据,对该段时间内的GPU实时利用率进行采样,通过计算得到该段时间内的平均GPU利用率。
进一步的,所述每相隔10分钟通过资源监控工具获取该段时间内GPU的实时资源利用率包括以下步骤:
分别获取三个模型在第一时间段内、第二时间段内分析的图片数量;
分别获取三个模型在第一时间段内分析的图片数量与第二时间内分析的图片的数量以及三个模型在1秒钟所能分析的最大图片数量,进行计算得到GPU实时资源利用率。
进一步的,所述计算得到GPU实时资源利用率的公式如下:
Figure 117371DEST_PATH_IMAGE001
其中,A表示GPU的实时资源利用率,i,j分别第一时间段、第二时间段,且i>j,Ci表示模型在第一时间段内分析的图片数量,Cj表示模型在第二时间段内分析的图片j数量,M表示模型在1秒钟所能分析的最大图片数量。
进一步的,所述通过计算得到该段时间内的平均GPU利用率的计算公式如下:
Figure 726207DEST_PATH_IMAGE002
其中,
Figure 837382DEST_PATH_IMAGE003
表示平均GPU利用率,I表示一段时间内实时GPU实时利用率的采样次数,J表示模型运行实例数量。
进一步的,所述通过最优资源调度策略调度计算滑动平均显存使用率的计算公式如下:
Figure 785747DEST_PATH_IMAGE004
其中,
Figure 753703DEST_PATH_IMAGE005
为模型在 t时段的滑动平均显存使用率,
Figure 286053DEST_PATH_IMAGE006
为模型在 t时段的平均GPU利用率,且在不使用滑动平均模型时
Figure 997657DEST_PATH_IMAGE005
=
Figure 800528DEST_PATH_IMAGE006
,β为0-1的加权随机数,上述公式中β设定为0.9;
且上述公式可展开如下:
Figure 939385DEST_PATH_IMAGE007
将时间t到1各个时刻的使用率填入公式,即可计算出Ut在t到1时刻的滑动平均显存使用率。
进一步的,所述数据信息包括平均资源利用率、每个模型已使用的实例数量、GPU最大利用率以及GPU最小利用率。
进一步的,所述通过最优资源调度策略(LRU策略)预测得到下一段时间所需的实例数量的计算公式如下:
Figure 460496DEST_PATH_IMAGE008
其中,Z表示模型下一段时间所需的实例数量,
Figure 710212DEST_PATH_IMAGE009
表示表示滑动平均显存使用率,Zo为模型已使用的pod数量,p表示最大利用率,p表示最小利用率。
本发明的有益效果为:针对多模型共享显存的场景,通过LRU调度策略,使模型动态启停,解决了多模型共享显存低利用率的痛点,即将多模型的显存占用进行有效分配,对低使用率的模型分配更少的显存资源,对高使用率的模型提供更多的显存资源,从而提升显存的利用率,进而节约资源;通过glances实时监控,提升容器切换的实时性;通过redis快速缓存,提升模型切换的高速性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于LRU策略最大化提升显存利用率的模型加载方法的流程图;
图2是根据本发明实施例的基于LRU策略最大化提升显存利用率的模型加载方法中技术实现流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了基于LRU策略最大化提升显存利用率的模型加载方法。
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的基于LRU策略最大化提升显存利用率的模型加载方法,该方法包括以下步骤:
S1、构建与部署人脸识别、人像对比、人体分析三个模型并配置实例;
其中,步骤S1包括以下步骤:
S11、通过AI平台配置人脸识别、人像对比、人体分析三个模型能力;
S12、给人脸识别、人像对比、人体分析三个模型分别配置6个可弹性伸缩的实例;
S13、将人脸识别、人像对比、人体分析三个模型配置到同一显卡;
S14、通过容器管理平台(rancher)部署启动人脸识别、人像对比、人体分析三个模型。
S2、启动定时任务,每相隔10分钟获取该段时间内GPU的实时利用率,并计算该时间段内的平均GPU利用率;
其中,步骤S2包括以下步骤:
S21、启动定时任务,每相隔10分钟通过资源监控工具(Glances)获取该段时间内GPU的实时资源利用率;
此外,步骤S21包括以下步骤:
S211、分别获取三个模型在第一时间段内、第二时间段内分析的图片数量;
其中,人脸识别模型,1-10分钟内处理的图片数C1:12021张,10-20分钟内处理的图片数C2:8782张;
人像对比模型,1-10分钟内处理的图片数C1:49389张,10-20分钟内处理的图片数C2:30287张;
人体分析模型,1-10分钟内处理的图片数C1:120789张,10-20分钟内处理的图片数C2:152573张。
S212、分别获取三个模型在第一时间段内分析的图片数量与第二时间内分析的图片的数量以及三个模型在1秒钟所能分析的最大图片数量,进行计算得到GPU实时资源利用率,其计算公式如下:
Figure 633169DEST_PATH_IMAGE001
其中,A表示GPU的实时资源利用率,i,j分别第一时间段、第二时间段,且i>j,Ci表示模型在第一时间段内分析的图片数量,Cj表示模型在第二时间段内分析的图片j数量,M表示模型在1秒钟所能分析的最大图片数量。
此外,人脸识别模型最多图片处理数M(每秒):50张;
人像对比模型最多图片处理数M(每秒):112张;
人体分析模型最多图片处理数M(每秒):258张。
S22、将获取的GPU实时利用率存入,供后面最优资源调度策略(LRU)调度使用;
S23、最优资源调度策略(LRU)调度中心循环从远程字典服务(redis)获取某段时间数据,对该段时间内的GPU实时利用率进行采样,通过计算得到该段时间内的平均GPU利用率,其计算公式如下:
Figure 138667DEST_PATH_IMAGE002
其中,
Figure 209391DEST_PATH_IMAGE003
表示平均GPU利用率,I表示一段时间内实时GPU实时利用率的采样次数,J表示模型运行实例数量。
此外,人脸识别模型平均GPU资源利用率U:35.20%;
人像对比模型平均GPU资源利用率U:81.67%;
人体分析模型平均GPU资源利用率U:88.29%。
S3、通过最优资源调度策略调度计算滑动平均显存使用率,且计算公式如下:
Figure 200481DEST_PATH_IMAGE004
其中,
Figure 977944DEST_PATH_IMAGE005
为模型在 t时段的滑动平均显存使用率,
Figure 87633DEST_PATH_IMAGE006
为模型在 t时段的平均GPU利用率,且在不使用滑动平均模型时
Figure 317757DEST_PATH_IMAGE005
=
Figure 174854DEST_PATH_IMAGE006
,β为0-1的加权随机数,上述公式中β设定为0.9;
且上述公式可展开如下:
Figure 806824DEST_PATH_IMAGE007
将时间t到1各个时刻的使用率填入公式,即可计算出Ut在t到1时刻的滑动平均显存使用率。
S4、根据该段时间内的数据信息,通过最优资源调度策略(LRU策略)预测得到下一段时间所需的实例数量;
其中,所述数据信息包括平均资源利用率、每个模型已使用的实例数量、GPU最大利用率以及GPU最小利用率。
所述通过最优资源调度策略(LRU策略)预测得到下一段时间所需的实例数量的计算公式如下:
Figure 701793DEST_PATH_IMAGE008
其中,Z表示模型下一段时间所需的实例数量,
Figure 684793DEST_PATH_IMAGE009
表示表示滑动平均显存使用率,Zo为模型已使用的pod数量,p表示最大利用率,p表示最小利用率。
S5、根据模型在下一段时间所需的实例数量与模型已使用的实例数量对实例数量进行调整;
S6、通过最优资源调度策略(LRU)最终实现显存利用率的最大化。
如图2所示,以下通过具体技术手段与流程对本方法进行进一步的解释与说明:
通过定时任务每10分钟调用Glances接口,获取各个模型的显存使用情况。Glances能够很好的监控模型显存使用情况,并且提供接口实时反馈给应用端。
获取Glances返回,写入redis缓存。Java的LinkedHashMap实现了LRU 算法,原理即是基于双向链表记录***、访问的规则,在***、访问元素时,变换链表。LinkedHashMap默认***作为排序,可以设定accessOrder为True,来使得排序依据访问情况,具体内部实现逻辑与HashMap类似,可以根据***、访问排序主要是重写了newNode、afterNodeAccess访问,该方法实现了对双向链表的操作,***时将元素更新至链表尾部,访问时将数据更新至链表头部。
定时任务每分钟去获取LRU缓存中各个模型的显存占用率,调用rancher接口,把最近最少使用或者不怎么使用显存的模型降低实例数,更甚是停用模型,达到显存的最优利用。rancher自成一套包括网络,存储,负载均衡,dns的容器模块,它们运行在Linux之上,为上层提供统一基础设施服务,非常方便提供接口和界面对容器进行管理。
监控任务代码实现如下:
package com.iwhalecloud.aiFactory.aiinference;
import com.iwhalecloud.aiFactory.aiGateway.common.RancherUtil;
import com.iwhalecloud.aiFactory.aiGateway.common.interceptor.GpuUseInfo;
import com.iwhalecloud.aiFactory.aiResource.aiCmdb.host.vo.GpuData;
import com.iwhalecloud.aiFactory.aiinference.AirModelService;
import org.quartz.Job;
import org.quartz.JobExecutionContext;
import org.quartz.JobExecutionException;
import java.util.List;
/**
* @author zj
* @Description: 定时监控模型显存使用情况,并根据显存占用率启停模型
* @since 2021/5/20 14:24
*/
public class LRUJob implements Job {
/**
* 定时监控模型显存使用情况,并根据显存占用率启停模型
**/
@Override
public void execute(JobExecutionContext context) throwsJobExecutionException {
//1.查询使用中的所有显存
List<GpuData> gpuDataList = getGpuList();
for (GpuData gpuData : gpuDataList) {
//2.查询共享同一显存的模型列表
List<AirModelService> airModelServiceList = getModelByGpu(gpuData);
for (AirModelService airModelService :airModelServiceList) {
//3.调用Glances接口,查询模型的显存占用率
GpuUseInfo gpuUseInfo = getModelGpuInfoByGlances(airModelService);
//4.将模型显存暂用率写入redis缓存
putModelGpuUseInfo(gpuData.getId().toString() + "-"+ airModelService.getId().toString(), gpuUseInfo);
}
//5.根据模型最近使用情况启停模型
dealModelByGpu(gpuData, airModelServiceList);
}
}
/**
* 根据模型最近使用情况启停模型
**/
private void dealModelByGpu(GpuData gpuData, List<AirModelService> airModelServiceList) {
for (AirModelService airModelService : airModelServiceList) {
if (!isStart(airModelService) && isLRUStart(gpuData,airModelService)) { //模型处于停止状态,且达到启动条件
//5.1启动模型
RancherUtil.start(airModelService);
}
else if (isStart(airModelService) && isLRUStop(gpuData,airModelService)) { //模型处于启动状态,且达到停止条件
//5.2停止模型
RancherUtil.stop(airModelService);
}
}
}
}
Glances监控数据以及接口如表1所示:
表1
Figure 80002DEST_PATH_IMAGE010
Glances提供了监控数据获取接口,调用glances接口将容器显存使用情况存入redis缓存,为后面的LRU调度提供数据支撑。
LRU缓存实现:
package com.iwhalecloud.aiFactory.aiinference;
import java.util.LinkedHashMap;
import java.util.Map;
/**
* @author zj
* @Description: LRU缓存
* @since 2021/5/20 15:11
*/
public class LRUCache {
private int cacheSize;
private LinkedHashMap<Integer,Integer> linkedHashMap;
public LRUCache(int capacity) {
this.cacheSize = capacity;
linkedHashMap = new LinkedHashMap<Integer,Integer>(capacity,0.75F,true){
@Override
protected boolean removeEldestEntry(Map.Entry eldest) {
return size()>cacheSize;
}
};
}
public int get(int key) {
return this.linkedHashMap.getOrDefault(key,-1);
}
public void put(int key,int value) {
this.linkedHashMap.put(key,value);
}
}
根据显存利用率,使用LRU策略缓存判断启停代码实现:
package com.iwhalecloud.aiFactory.aiinference;
import com.iwhalecloud.aiFactory.aiinference.AirModelService;
public class RancherUtil {
//启动模型
public static boolean start(AirModelService airModelService) {
//调用rancher接口,启动模型
return startModelByRancher(airModelService);
}
//停止模型
public static boolean stop(AirModelService airModelService) {
//调用rancher接口,停止模型
return sotpModelByRancher(airModelService);
}
}
综上所述,借助于本发明的上述技术方案,针对多模型共享显存的场景,通过LRU调度策略,使模型动态启停,解决了多模型共享显存低利用率的痛点,即将多模型的显存占用进行有效分配,对低使用率的模型分配更少的显存资源,对高使用率的模型提供更多的显存资源,从而提升显存的利用率,进而节约资源;通过glances实时监控,提升容器切换的实时性;通过redis快速缓存,提升模型切换的高速性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,该方法包括以下步骤:
构建与部署人脸识别、人像对比、人体分析三个模型并配置实例;
启动定时任务,每相隔10分钟获取该段时间内GPU的实时利用率,并计算该时间段内的平均GPU利用率;
通过最优资源调度策略调度计算滑动平均显存使用率;
根据该段时间内的数据信息,通过最优资源调度策略预测得到下一段时间所需的实例数量;
根据模型在下一段时间所需的实例数量与模型已使用的实例数量对实例数量进行调整;
通过最优资源调度策略最终实现显存利用率的最大化。
2.根据权利要求1所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述构建与部署人脸识别、人像对比、人体分析三个模型并配置实例包括以下步骤:
通过AI平台配置人脸识别、人像对比、人体分析三个模型能力;
给人脸识别、人像对比、人体分析三个模型分别配置6个可弹性伸缩的实例;
将人脸识别、人像对比、人体分析三个模型配置到同一显卡;
通过容器管理平台部署启动人脸识别、人像对比、人体分析三个模型。
3.根据权利要求2所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述启动定时任务,每相隔10分钟获取该段时间内GPU的实时利用率,并计算该时间段内的平均GPU利用率包括以下步骤:
启动定时任务,每相隔10分钟通过资源监控工具获取该段时间内GPU的实时资源利用率;
将获取的GPU实时利用率存入,供后面最优资源调度策略调度使用;
最优资源调度策略调度中心循环从远程字典服务获取某段时间数据,对该段时间内的GPU实时利用率进行采样,通过计算得到该段时间内的平均GPU利用率。
4.根据权利要求3所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述每相隔10分钟通过资源监控工具获取该段时间内GPU的实时资源利用率包括以下步骤:
分别获取三个模型在第一时间段内、第二时间段内分析的图片数量;
分别获取三个模型在第一时间段内分析的图片数量与第二时间内分析的图片的数量以及三个模型在1秒钟所能分析的最大图片数量,进行计算得到GPU实时资源利用率。
5.根据权利要求4所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述计算得到GPU实时资源利用率的公式如下:
Figure 31661DEST_PATH_IMAGE001
其中,A表示GPU的实时资源利用率,i,j分别第一时间段、第二时间段,且i>j,Ci表示模型在第一时间段内分析的图片数量,Cj表示模型在第二时间段内分析的图片j数量,M表示模型在1秒钟所能分析的最大图片数量。
6.根据权利要求5所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述通过计算得到该段时间内的平均GPU利用率的计算公式如下:
Figure 997343DEST_PATH_IMAGE002
其中,
Figure 116609DEST_PATH_IMAGE003
表示平均GPU利用率,I表示一段时间内实时GPU实时利用率的采样次数,J表示模型运行实例数量。
7.根据权利要求6所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述通过最优资源调度策略调度计算滑动平均显存使用率的计算公式如下:
Figure 306282DEST_PATH_IMAGE004
其中,
Figure 143788DEST_PATH_IMAGE005
为模型在 t时段的滑动平均显存使用率,
Figure 146117DEST_PATH_IMAGE006
为模型在 t时段的平均GPU利用率,且在不使用滑动平均模型时
Figure 447785DEST_PATH_IMAGE005
=
Figure 746042DEST_PATH_IMAGE006
,β为0-1的加权随机数,上述公式中β设定为0.9;
且上述公式可展开如下:
Figure 133161DEST_PATH_IMAGE007
将时间t到1各个时刻的使用率填入公式,即可计算出Ut在t到1时刻的滑动平均显存使用率。
8.根据权利要求7所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述数据信息包括平均资源利用率、每个模型已使用的实例数量、GPU最大利用率以及GPU最小利用率。
9.根据权利要求8所述的基于LRU策略最大化提升显存利用率的模型加载方法,其特征在于,所述通过最优资源调度策略预测得到下一段时间所需的实例数量的计算公式如下:
Figure 440646DEST_PATH_IMAGE008
其中,Z表示模型下一段时间所需的实例数量,
Figure 268925DEST_PATH_IMAGE009
表示滑动平均显存使用率,Zo为模型已使用的pod数量,pmax表示最大利用率,pmin表示最小利用率。
CN202111001401.5A 2021-08-30 2021-08-30 基于lru策略最大化提升显存利用率的模型加载方法 Pending CN113674137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111001401.5A CN113674137A (zh) 2021-08-30 2021-08-30 基于lru策略最大化提升显存利用率的模型加载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111001401.5A CN113674137A (zh) 2021-08-30 2021-08-30 基于lru策略最大化提升显存利用率的模型加载方法

Publications (1)

Publication Number Publication Date
CN113674137A true CN113674137A (zh) 2021-11-19

Family

ID=78547341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111001401.5A Pending CN113674137A (zh) 2021-08-30 2021-08-30 基于lru策略最大化提升显存利用率的模型加载方法

Country Status (1)

Country Link
CN (1) CN113674137A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117687802A (zh) * 2024-02-02 2024-03-12 湖南马栏山视频先进技术研究院有限公司 一种基于云平台的深度学***台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170195247A1 (en) * 2015-12-31 2017-07-06 EMC IP Holding Company LLC Method and apparatus for cloud system
CN111158908A (zh) * 2019-12-27 2020-05-15 重庆紫光华山智安科技有限公司 一种基于kubernetes的提高GPU利用率的调度方法及装置
CN111506404A (zh) * 2020-04-07 2020-08-07 上海德拓信息技术股份有限公司 一种基于Kubernetes的共享GPU调度方法
CN113051060A (zh) * 2021-04-10 2021-06-29 作业帮教育科技(北京)有限公司 一种基于实时负载的gpu动态调度方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170195247A1 (en) * 2015-12-31 2017-07-06 EMC IP Holding Company LLC Method and apparatus for cloud system
CN111158908A (zh) * 2019-12-27 2020-05-15 重庆紫光华山智安科技有限公司 一种基于kubernetes的提高GPU利用率的调度方法及装置
CN111506404A (zh) * 2020-04-07 2020-08-07 上海德拓信息技术股份有限公司 一种基于Kubernetes的共享GPU调度方法
CN113051060A (zh) * 2021-04-10 2021-06-29 作业帮教育科技(北京)有限公司 一种基于实时负载的gpu动态调度方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117687802A (zh) * 2024-02-02 2024-03-12 湖南马栏山视频先进技术研究院有限公司 一种基于云平台的深度学***台
CN117687802B (zh) * 2024-02-02 2024-04-30 湖南马栏山视频先进技术研究院有限公司 一种基于云平台的深度学***台

Similar Documents

Publication Publication Date Title
US10990540B2 (en) Memory management method and apparatus
US7665090B1 (en) System, method, and computer program product for group scheduling of computer resources
US6442661B1 (en) Self-tuning memory management for computer systems
US8195798B2 (en) Application server scalability through runtime restrictions enforcement in a distributed application execution system
CN113674133B (zh) Gpu集群共享显存***、方法、装置及设备
US8078574B1 (en) Network acceleration device cache supporting multiple historical versions of content
JP2005092875A (ja) スレッドスケジューリングを使用してデータスループットを向上させるためのシステムおよび方法
US9086920B2 (en) Device for managing data buffers in a memory space divided into a plurality of memory elements
EP1782205A2 (en) Autonomically tuning the virtual memory subsystem of a computer operating system
US6286088B1 (en) Memory management system and method for relocating memory
CN112698943A (zh) 资源分配方法、装置、计算机设备以及存储介质
CN108038062B (zh) 嵌入式***的内存管理方法和装置
CN100361094C (zh) 一种节省全局变量内存空间的方法
US7904688B1 (en) Memory management unit for field programmable gate array boards
CN113674137A (zh) 基于lru策略最大化提升显存利用率的模型加载方法
CN111984425A (zh) 用于操作***的内存管理方法、装置及设备
US6631446B1 (en) Self-tuning buffer management
CN111857992A (zh) 一种Radosgw模块中线程资源分配方法和装置
US6807588B2 (en) Method and apparatus for maintaining order in a queue by combining entry weights and queue weights
CN117271137A (zh) 一种多线程的数据分片并行方法
CN107924363A (zh) 使用存储器管理单元的自动化存储器管理
US20090019097A1 (en) System and method for memory allocation management
CN114327862B (zh) 一种内存分配方法、装置、电子设备及存储介质
CN117435343A (zh) 内存的管理方法及装置
CN109408412B (zh) 内存预取控制方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211119

RJ01 Rejection of invention patent application after publication