CN113674137A

CN113674137A - 基于lru策略最大化提升显存利用率的模型加载方法

Info

Publication number: CN113674137A
Application number: CN202111001401.5A
Authority: CN
Inventors: 钟靖; 吴小炎; 吴名朝
Original assignee: Whale Cloud Technology Co Ltd
Current assignee: Whale Cloud Technology Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-19

Abstract

本发明公开了基于LRU策略最大化提升显存利用率的模型加载方法，该方法包括以下步骤：构建与部署人脸识别、人像对比、人体分析三个模型并配置实例；启动定时任务，每相隔10分钟获取该段时间内GPU的实时利用率，并计算该时间段内的平均GPU利用率；通过最优资源调度策略调度计算滑动平均显存使用率；根据该段时间内的数据信息，通过最优资源调度策略预测得到下一段时间所需的实例数量；根据模型在下一段时间所需的实例数量与模型已使用的实例数量对实例数量进行调整。有益效果：通过LRU调度策略，使模型动态启停，解决了多模型共享显存低利用率的痛点，提升显存的利用率，进而节约资源。

Description

基于LRU策略最大化提升显存利用率的模型加载方法

技术领域

本发明涉及显存技术领域，具体来说，涉及基于LRU策略最大化提升显存利用率的模型加载方法。

背景技术

大企业做数字化转型的时候，必定会面临AI场景，有AI应用和AI能力的需求，在真正的AI能力的生产过程中，必定存在AI能力的调用，通常是基于AI能力开放平台对外提供API实现，基于模型版本之上做AI能力的上架和部署，在能力部署时，存在单模型和多模型组合部署，显然多模型组合部署更能体现资源利用的价值，在多模型部署的基础之上，需要解决CPU、GPU、内存、显存资源共享问题。而在AI能力（多模型）的日常生产过程中，必定存在应用上、不同时间段上对模型调用量存在差异化诉求，需要解决同一AI能力中A模型密集型调用和B模型零散型甚至零调用的差异化，从而导致A模型资源不足，B模型资源浪费；并且存在运行态模型置换的诉求，即同一能力包含多个模型（A、B、C），且每个模型都启动多个实例，前期资源仅能支撑有调用量的A和B此时C无调用请求，在后期生产运行当中会出现B无调用量C有调用量的需求，造成资源的占用与浪费。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出基于LRU策略最大化提升显存利用率的模型加载方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

基于LRU策略最大化提升显存利用率的模型加载方法，该方法包括以下步骤：

构建与部署人脸识别、人像对比、人体分析三个模型并配置实例；

启动定时任务，每相隔10分钟获取该段时间内GPU的实时利用率，并计算该时间段内的平均GPU利用率；

通过最优资源调度策略调度计算滑动平均显存使用率；

根据该段时间内的数据信息，通过最优资源调度策略预测得到下一段时间所需的实例数量；

根据模型在下一段时间所需的实例数量与模型已使用的实例数量对实例数量进行调整；

通过最优资源调度策略最终实现显存利用率的最大化。

进一步的，所述构建与部署人脸识别、人像对比、人体分析三个模型并配置实例包括以下步骤：

通过AI平台配置人脸识别、人像对比、人体分析三个模型能力；

给人脸识别、人像对比、人体分析三个模型分别配置6个可弹性伸缩的实例；

将人脸识别、人像对比、人体分析三个模型配置到同一显卡；

通过容器管理平台部署启动人脸识别、人像对比、人体分析三个模型。

进一步的，所述启动定时任务，每相隔10分钟获取该段时间内GPU的实时利用率，并计算该时间段内的平均GPU利用率包括以下步骤：

启动定时任务，每相隔10分钟通过资源监控工具获取该段时间内GPU的实时资源利用率；

将获取的GPU实时利用率存入，供后面最优资源调度策略（LRU）调度使用；

最优资源调度策略调度中心循环从远程字典服务获取某段时间数据，对该段时间内的GPU实时利用率进行采样，通过计算得到该段时间内的平均GPU利用率。

进一步的，所述每相隔10分钟通过资源监控工具获取该段时间内GPU的实时资源利用率包括以下步骤：

分别获取三个模型在第一时间段内、第二时间段内分析的图片数量；

分别获取三个模型在第一时间段内分析的图片数量与第二时间内分析的图片的数量以及三个模型在1秒钟所能分析的最大图片数量，进行计算得到GPU实时资源利用率。

进一步的，所述计算得到GPU实时资源利用率的公式如下：

；

其中，A表示GPU的实时资源利用率，i，j分别第一时间段、第二时间段，且i>j，C_i表示模型在第一时间段内分析的图片数量，C_j表示模型在第二时间段内分析的图片j数量，M表示模型在1秒钟所能分析的最大图片数量。

进一步的，所述通过计算得到该段时间内的平均GPU利用率的计算公式如下：

；

其中，

表示平均GPU利用率，I表示一段时间内实时GPU实时利用率的采样次数，J表示模型运行实例数量。

进一步的，所述通过最优资源调度策略调度计算滑动平均显存使用率的计算公式如下：

；

其中，

为模型在 t时段的滑动平均显存使用率，

为模型在 t时段的平均GPU利用率，且在不使用滑动平均模型时

=

，β为0-1的加权随机数，上述公式中β设定为0.9；

且上述公式可展开如下：

；

将时间t到1各个时刻的使用率填入公式，即可计算出U_t在t到1时刻的滑动平均显存使用率。

进一步的，所述数据信息包括平均资源利用率、每个模型已使用的实例数量、GPU最大利用率以及GPU最小利用率。

进一步的，所述通过最优资源调度策略（LRU策略）预测得到下一段时间所需的实例数量的计算公式如下：

；

其中，Z表示模型下一段时间所需的实例数量，

表示表示滑动平均显存使用率，Z_o为模型已使用的pod数量，p表示最大利用率，p表示最小利用率。

本发明的有益效果为：针对多模型共享显存的场景，通过LRU调度策略，使模型动态启停，解决了多模型共享显存低利用率的痛点，即将多模型的显存占用进行有效分配，对低使用率的模型分配更少的显存资源，对高使用率的模型提供更多的显存资源，从而提升显存的利用率，进而节约资源；通过glances实时监控，提升容器切换的实时性；通过redis快速缓存，提升模型切换的高速性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于LRU策略最大化提升显存利用率的模型加载方法的流程图；

图2是根据本发明实施例的基于LRU策略最大化提升显存利用率的模型加载方法中技术实现流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了基于LRU策略最大化提升显存利用率的模型加载方法。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的基于LRU策略最大化提升显存利用率的模型加载方法，该方法包括以下步骤：

S1、构建与部署人脸识别、人像对比、人体分析三个模型并配置实例；

其中，步骤S1包括以下步骤：

S11、通过AI平台配置人脸识别、人像对比、人体分析三个模型能力；

S12、给人脸识别、人像对比、人体分析三个模型分别配置6个可弹性伸缩的实例；

S13、将人脸识别、人像对比、人体分析三个模型配置到同一显卡；

S14、通过容器管理平台（rancher）部署启动人脸识别、人像对比、人体分析三个模型。

S2、启动定时任务，每相隔10分钟获取该段时间内GPU的实时利用率，并计算该时间段内的平均GPU利用率；

其中，步骤S2包括以下步骤：

S21、启动定时任务，每相隔10分钟通过资源监控工具（Glances）获取该段时间内GPU的实时资源利用率；

此外，步骤S21包括以下步骤：

S211、分别获取三个模型在第一时间段内、第二时间段内分析的图片数量；

其中，人脸识别模型，1-10分钟内处理的图片数C1：12021张，10-20分钟内处理的图片数C2：8782张；

人像对比模型，1-10分钟内处理的图片数C1：49389张，10-20分钟内处理的图片数C2：30287张；

人体分析模型，1-10分钟内处理的图片数C1：120789张，10-20分钟内处理的图片数C2：152573张。

S212、分别获取三个模型在第一时间段内分析的图片数量与第二时间内分析的图片的数量以及三个模型在1秒钟所能分析的最大图片数量，进行计算得到GPU实时资源利用率，其计算公式如下：

；

此外，人脸识别模型最多图片处理数M（每秒）：50张；

人像对比模型最多图片处理数M（每秒）：112张；

人体分析模型最多图片处理数M（每秒）：258张。

S22、将获取的GPU实时利用率存入，供后面最优资源调度策略（LRU）调度使用；

S23、最优资源调度策略（LRU）调度中心循环从远程字典服务（redis）获取某段时间数据，对该段时间内的GPU实时利用率进行采样，通过计算得到该段时间内的平均GPU利用率，其计算公式如下：

；

其中，

此外，人脸识别模型平均GPU资源利用率U：35.20%；

人像对比模型平均GPU资源利用率U：81.67%；

人体分析模型平均GPU资源利用率U：88.29%。

S3、通过最优资源调度策略调度计算滑动平均显存使用率，且计算公式如下：

；

其中，

为模型在 t时段的滑动平均显存使用率，

=

，β为0-1的加权随机数，上述公式中β设定为0.9；

且上述公式可展开如下：

；

S4、根据该段时间内的数据信息，通过最优资源调度策略（LRU策略）预测得到下一段时间所需的实例数量；

其中，所述数据信息包括平均资源利用率、每个模型已使用的实例数量、GPU最大利用率以及GPU最小利用率。

所述通过最优资源调度策略（LRU策略）预测得到下一段时间所需的实例数量的计算公式如下：

；

其中，Z表示模型下一段时间所需的实例数量，

S5、根据模型在下一段时间所需的实例数量与模型已使用的实例数量对实例数量进行调整；

S6、通过最优资源调度策略（LRU）最终实现显存利用率的最大化。

如图2所示，以下通过具体技术手段与流程对本方法进行进一步的解释与说明：

通过定时任务每10分钟调用Glances接口，获取各个模型的显存使用情况。Glances能够很好的监控模型显存使用情况，并且提供接口实时反馈给应用端。

获取Glances返回，写入redis缓存。Java的LinkedHashMap实现了LRU 算法，原理即是基于双向链表记录***、访问的规则，在***、访问元素时，变换链表。LinkedHashMap默认***作为排序，可以设定accessOrder为True，来使得排序依据访问情况，具体内部实现逻辑与HashMap类似，可以根据***、访问排序主要是重写了newNode、afterNodeAccess访问，该方法实现了对双向链表的操作，***时将元素更新至链表尾部，访问时将数据更新至链表头部。

定时任务每分钟去获取LRU缓存中各个模型的显存占用率，调用rancher接口，把最近最少使用或者不怎么使用显存的模型降低实例数，更甚是停用模型，达到显存的最优利用。rancher自成一套包括网络，存储，负载均衡，dns的容器模块，它们运行在Linux之上，为上层提供统一基础设施服务，非常方便提供接口和界面对容器进行管理。

监控任务代码实现如下：

package com.iwhalecloud.aiFactory.aiinference；

import com.iwhalecloud.aiFactory.aiGateway.common.RancherUtil；

import com.iwhalecloud.aiFactory.aiGateway.common.interceptor.GpuUseInfo；

import com.iwhalecloud.aiFactory.aiResource.aiCmdb.host.vo.GpuData；

import com.iwhalecloud.aiFactory.aiinference.AirModelService；

import org.quartz.Job；

import org.quartz.JobExecutionContext；

import org.quartz.JobExecutionException；

import java.util.List；

/**

* @author zj

* @Description：定时监控模型显存使用情况，并根据显存占用率启停模型

* @since 2021/5/20 14：24

*/

public class LRUJob implements Job {

/**

* 定时监控模型显存使用情况，并根据显存占用率启停模型

**/

@Override

public void execute(JobExecutionContext context) throwsJobExecutionException {

//1.查询使用中的所有显存

List<GpuData> gpuDataList = getGpuList()；

for (GpuData gpuData ： gpuDataList) {

//2.查询共享同一显存的模型列表

List<AirModelService> airModelServiceList = getModelByGpu(gpuData)；

for (AirModelService airModelService ：airModelServiceList) {

//3.调用Glances接口，查询模型的显存占用率

GpuUseInfo gpuUseInfo = getModelGpuInfoByGlances(airModelService)；

//4.将模型显存暂用率写入redis缓存

putModelGpuUseInfo(gpuData.getId().toString() + "-"+ airModelService.getId().toString()， gpuUseInfo)；

}

//5.根据模型最近使用情况启停模型

dealModelByGpu(gpuData， airModelServiceList)；

}

/**

* 根据模型最近使用情况启停模型

**/

private void dealModelByGpu(GpuData gpuData， List<AirModelService> airModelServiceList) {

for (AirModelService airModelService ： airModelServiceList) {

if (!isStart(airModelService) && isLRUStart(gpuData，airModelService)) { //模型处于停止状态，且达到启动条件

//5.1启动模型

RancherUtil.start(airModelService)；

}

else if (isStart(airModelService) && isLRUStop(gpuData，airModelService)) { //模型处于启动状态，且达到停止条件

//5.2停止模型

RancherUtil.stop(airModelService)；

}

Glances监控数据以及接口如表1所示：

表1

Glances提供了监控数据获取接口，调用glances接口将容器显存使用情况存入redis缓存，为后面的LRU调度提供数据支撑。

LRU缓存实现：

package com.iwhalecloud.aiFactory.aiinference；

import java.util.LinkedHashMap；

import java.util.Map；

/**

* @author zj

* @Description： LRU缓存

* @since 2021/5/20 15：11

*/

public class LRUCache {

private int cacheSize；

private LinkedHashMap<Integer，Integer> linkedHashMap；

public LRUCache(int capacity) {

this.cacheSize = capacity；

linkedHashMap = new LinkedHashMap<Integer，Integer>(capacity，0.75F，true){

@Override

protected boolean removeEldestEntry(Map.Entry eldest) {

return size()>cacheSize；

}

}；

}

public int get(int key) {

return this.linkedHashMap.getOrDefault(key，-1)；

}

public void put(int key，int value) {

this.linkedHashMap.put(key，value)；

}

根据显存利用率，使用LRU策略缓存判断启停代码实现：

package com.iwhalecloud.aiFactory.aiinference；

import com.iwhalecloud.aiFactory.aiinference.AirModelService；

public class RancherUtil {

//启动模型

public static boolean start(AirModelService airModelService) {

//调用rancher接口，启动模型

return startModelByRancher(airModelService)；

}

//停止模型

public static boolean stop(AirModelService airModelService) {

//调用rancher接口，停止模型

return sotpModelByRancher(airModelService)；

}

综上所述，借助于本发明的上述技术方案，针对多模型共享显存的场景，通过LRU调度策略，使模型动态启停，解决了多模型共享显存低利用率的痛点，即将多模型的显存占用进行有效分配，对低使用率的模型分配更少的显存资源，对高使用率的模型提供更多的显存资源，从而提升显存的利用率，进而节约资源；通过glances实时监控，提升容器切换的实时性；通过redis快速缓存，提升模型切换的高速性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。