CN112559147B - 基于gpu占用资源特点的动态匹配方法、***和设备 - Google Patents

基于gpu占用资源特点的动态匹配方法、***和设备 Download PDF

Info

Publication number
CN112559147B
CN112559147B CN202011443445.9A CN202011443445A CN112559147B CN 112559147 B CN112559147 B CN 112559147B CN 202011443445 A CN202011443445 A CN 202011443445A CN 112559147 B CN112559147 B CN 112559147B
Authority
CN
China
Prior art keywords
task
gpu
resources
training
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011443445.9A
Other languages
English (en)
Other versions
CN112559147A (zh
Inventor
胡广泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Workway Shenzhen Information Technology Co ltd
Original Assignee
Workway Shenzhen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Workway Shenzhen Information Technology Co ltd filed Critical Workway Shenzhen Information Technology Co ltd
Priority to CN202011443445.9A priority Critical patent/CN112559147B/zh
Publication of CN112559147A publication Critical patent/CN112559147A/zh
Application granted granted Critical
Publication of CN112559147B publication Critical patent/CN112559147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于GPU占用资源特点的动态匹配算法、***和设备,通过获取训练模型任务,对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。在深度学***台用户将训练模型的任务提交给平台去调度任务以及分配资源,综合考虑资源量以及资源占用时间,增加了资源分配的维度,利用时间和空间这两个维度更加合理地规划资源调度,达到整体任务的平均执行效率的显著幅提升。

Description

基于GPU占用资源特点的动态匹配方法、***和设备
技术领域
本发明涉及信息技术领域,尤其涉及一种基于GPU占用资源特点的动态匹配方法、***和设备。
背景技术
在现有技术中,在深度学***台用户将训练模型的任务提交给平台去调度任务以及分配资源,此时,传统调度只考虑资源量的多少,基于资源量的数量进行调度和分配,导致资源分配合理度较低,整体任务的平均执行效率较低。
发明内容
有鉴于此,本发明提供一种基于GPU占用资源特点的动态匹配方法、***和设备,至少部分解决现有技术中存在的问题。
为了解决上述问题,本发明提供了以下技术方案:
一种基于GPU占用资源特点的动态匹配方法,所述方法包括:
获取训练模型任务;
对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
进一步地,所述对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,具体包括:
判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;
基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
进一步地,所述对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,具体包括:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
进一步地,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
本发明还提供一种基于GPU占用资源特点的动态匹配***,用于执行如上所述的方法,所述***包括:
任务获取单元,用于获取训练模型任务;
任务分析单元,用于对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
资源分配单元,用于基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
任务执行单元,用于根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
进一步地,所述任务分析单元具体用于:
判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;
基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
进一步地,所述任务分析单元具体用于:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
进一步地,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
本发明还提供一种终端设备,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如上所述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上所述的方法。
本发明所提供的基于GPU占用资源特点的动态匹配方法,通过获取训练模型任务,对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。在深度学***台用户将训练模型的任务提交给平台去调度任务以及分配资源,综合考虑资源量以及资源占用时间,增加了资源分配的维度,利用时间和空间这两个维度更加合理地规划资源调度,达到整体任务的平均执行效率的显著幅提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明所提供的基于GPU占用资源特点的动态匹配方法一种具体实施方式的流程图;
图2为图1所示方法的具体实现流程图;
图3为本发明所提供的基于GPU占用资源特点的动态匹配***种具体实施方式的结构框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
请参考图1,图1为本发明所提供的基于GPU占用资源特点的动态匹配方法一种具体实施方式的流程图。
在一种具体实施方式中,该基于GPU占用资源特点的动态匹配方法包括以下步骤:
S1:获取训练模型任务;
S2:对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。在实际使用场景中,如图2所示,***接收到提交的任务后,对任务特性一无所知,则需要提供预置训练环境,将任务在预置训练环境下执行迭代几次,收集任务在执行过程中对网络、GPU、内存的占用情况,从而将收集到的任务特征交给任务分析器进行分析。判断该模型训练任务在执行过程中参数张量的分布情况,最终决定是否需要等待空闲GPU卡全部集中在一台机器设备上来执行任务。每个任务都会有自己的执行优先级,这个优先级不是连续的数字,而是离散化的一级一级的自然数来代表优先级高低。这样长期处在排队得不到执行的任务,可以提升任务优先级优先被执行。
S3:基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。仍以图2所示使用场景为例,用户将未知任务提交给平台,平台将任务放到队列中,队列中的任务等待获取资源然后被执行。这个过程中需计算任务的优先等级。应当理解的是,任务的优先级是动态调整的,为了避免过于频繁的优先级更新,设定任务的优先级更新时间间隔为30分钟。
S4:根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。也就是说,根据具体优先级最高的任务的资源分配策略,***分配资源运行模型训练任务,同时将运行过程中相关网络、内存、GPU的利用率进行记录。最终任务完成以后,将经验更新到***知识库中。
如图2所示,当任务分析器对任务进行分析,分为两类任务去按照两种不同方法进行资源分配,第一种情况是该类任务从来没有在平台***中被执行过,知识库中找不到该类任务的过往历史执行数据,***会根据在预置环境中试运行测量预估出资源分配策略,第二种情况是可以在知识库中找到过往历史执行数据,***会根据历史执行情况的统计分布,得到一个最佳资源分配策略。
具体地,在第一种情况下,步骤S2具体包括:
S201:判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;
S202:收集网络占用情况和模型张量特征;
S203:查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;
S204:基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;
S205:根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
在第二种情况下,步骤S2具体包括:
S211:判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
S212:收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
S213:根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
其中,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
在实际使用过程中,该方法可以应用到60个GPU(15台GPU服务器,每台服务器有4块GPU卡)规模的集群中,任务平均执行时间比之前基于YARN资源调度框架提升了5.5倍,缩短了任务的等待时长。
在上述具体实施方式中,本发明所提供的基于GPU占用资源特点的动态匹配方法,通过获取训练模型任务,对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。在深度学***台用户将训练模型的任务提交给平台去调度任务以及分配资源,综合考虑资源量以及资源占用时间,增加了资源分配的维度,利用时间和空间这两个维度更加合理地规划资源调度,达到整体任务的平均执行效率的显著幅提升。
除了上述方法,本发明还提供一种基于GPU占用资源特点的动态匹配***,用于执行如上所述的方法,在一种具体实施方式中,如图3所示,所述***包括:
任务获取单元100,用于获取训练模型任务;
任务分析单元200,用于对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
资源分配单元300,用于基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
任务执行单元400,用于根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
当任务分析器对任务进行分析,分为两类任务去按照两种不同方法进行资源分配,第一种情况是该类任务从来没有在平台***中被执行过,知识库中找不到该类任务的过往历史执行数据,***会根据在预置环境中试运行测量预估出资源分配策略,第二种情况是可以在知识库中找到过往历史执行数据,***会根据历史执行情况的统计分布,得到一个最佳资源分配策略。
则在第一种情况下,所述任务分析单元具体用于:
判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;
基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
在第二种情况下,所述任务分析单元具体用于:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
其中,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
在上述具体实施方式中,本发明所提供的基于GPU占用资源特点的动态匹配***,通过获取训练模型任务,对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。在深度学***台用户将训练模型的任务提交给平台去调度任务以及分配资源,综合考虑资源量以及资源占用时间,增加了资源分配的维度,利用时间和空间这两个维度更加合理地规划资源调度,达到整体任务的平均执行效率的显著幅提升。
本发明还提供一种终端设备,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如上所述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于GPU占用资源特点的动态匹配方法,其特征在于,所述方法包括:
获取训练模型任务;
对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;具体包括:判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;收集网络占用情况和模型张量特征;查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
2.根据权利要求1所述的动态匹配方法,其特征在于,所述对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,具体包括:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
3.根据权利要求1或2所述的动态匹配方法,其特征在于,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
4.一种基于GPU占用资源特点的动态匹配***,用于执行如权利要求1-3任一项所述的方法,其特征在于,所述***包括:
任务获取单元,用于获取训练模型任务;
任务分析单元,用于对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;所述任务分析单元具体用于:判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;收集网络占用情况和模型张量特征;查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
资源分配单元,用于基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
任务执行单元,用于根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
5.根据权利要求4所述的动态匹配***,其特征在于,所述任务分析单元具体用于:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
6.根据权利要求4或5所述的动态匹配***,其特征在于,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
7.一种终端设备,其特征在于,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-3任一项所述的方法。
CN202011443445.9A 2020-12-08 2020-12-08 基于gpu占用资源特点的动态匹配方法、***和设备 Active CN112559147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011443445.9A CN112559147B (zh) 2020-12-08 2020-12-08 基于gpu占用资源特点的动态匹配方法、***和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011443445.9A CN112559147B (zh) 2020-12-08 2020-12-08 基于gpu占用资源特点的动态匹配方法、***和设备

Publications (2)

Publication Number Publication Date
CN112559147A CN112559147A (zh) 2021-03-26
CN112559147B true CN112559147B (zh) 2024-04-19

Family

ID=75062757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011443445.9A Active CN112559147B (zh) 2020-12-08 2020-12-08 基于gpu占用资源特点的动态匹配方法、***和设备

Country Status (1)

Country Link
CN (1) CN112559147B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490094B (zh) * 2022-04-18 2022-07-12 北京麟卓信息科技有限公司 一种基于机器学习的gpu显存分配方法及***
CN115248728B (zh) * 2022-09-21 2023-02-03 之江实验室 面向智能计算的分布式训练任务调度方法、***和装置
CN115392143B (zh) * 2022-10-31 2023-03-24 北京大学 一种基于深度强化学习的移动储能充放电时空规划方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699440A (zh) * 2012-09-27 2014-04-02 北京搜狐新媒体信息技术有限公司 一种云计算平台***为任务分配资源的方法和装置
WO2017127976A1 (zh) * 2016-01-25 2017-08-03 华为技术有限公司 一种用于增量式学习云***的训练、调度方法及相关设备
CN109284871A (zh) * 2018-09-30 2019-01-29 北京金山云网络技术有限公司 资源调整方法、装置和云平台
CN109542603A (zh) * 2018-11-22 2019-03-29 北京航空航天大学 一种提高不同优先级任务间隔离性的多维资源隔离***
CN110389820A (zh) * 2019-06-28 2019-10-29 浙江大学 一种基于v-TGRU模型进行资源预测的私有云任务调度方法
CN111176852A (zh) * 2020-01-15 2020-05-19 上海依图网络科技有限公司 资源分配方法、装置、芯片及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699440A (zh) * 2012-09-27 2014-04-02 北京搜狐新媒体信息技术有限公司 一种云计算平台***为任务分配资源的方法和装置
WO2017127976A1 (zh) * 2016-01-25 2017-08-03 华为技术有限公司 一种用于增量式学习云***的训练、调度方法及相关设备
CN109284871A (zh) * 2018-09-30 2019-01-29 北京金山云网络技术有限公司 资源调整方法、装置和云平台
CN109542603A (zh) * 2018-11-22 2019-03-29 北京航空航天大学 一种提高不同优先级任务间隔离性的多维资源隔离***
CN110389820A (zh) * 2019-06-28 2019-10-29 浙江大学 一种基于v-TGRU模型进行资源预测的私有云任务调度方法
CN111176852A (zh) * 2020-01-15 2020-05-19 上海依图网络科技有限公司 资源分配方法、装置、芯片及计算机可读存储介质

Also Published As

Publication number Publication date
CN112559147A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112559147B (zh) 基于gpu占用资源特点的动态匹配方法、***和设备
CN111176852B (zh) 资源分配方法、装置、芯片及计算机可读存储介质
CN110474852B (zh) 一种带宽调度方法及装置
CN110389816B (zh) 用于资源调度的方法、装置以及计算机可读介质
CN110413412B (zh) 一种基于gpu集群资源分配的方法和装置
CN111176840B (zh) 分布式任务的分配优化方法和装置、存储介质及电子装置
CN114518945A (zh) 一种资源调度方法、装置、设备及存储介质
CN112181613B (zh) 异构资源分布式计算平台批量任务调度方法及存储介质
CN113946431A (zh) 一种资源调度方法、***、介质及计算设备
CN116467082A (zh) 一种基于大数据的资源分配方法及***
CN114661482B (zh) 一种gpu算力管理方法、介质、设备及***
CN114896068A (zh) 资源分配方法、资源分配装置、电子设备及存储介质
CN109783236B (zh) 用于输出信息的方法和装置
CN111796933A (zh) 资源调度方法、装置、存储介质和电子设备
CN107203256B (zh) 一种网络功能虚拟化场景下的节能分配方法与装置
CN117032937B (zh) 基于gpu的任务调度方法、电子装置和存储介质
CN113301087B (zh) 资源调度方法、装置、计算设备和介质
CN112650449A (zh) 缓存空间的释放方法、释放***、电子设备及存储介质
CN110955524A (zh) 服务器优化调度方法
CN116010051A (zh) 一种联邦学习多任务调度方法及装置
CN113129098B (zh) 一种订单分配方法及装置
CN111459651B (zh) 一种负载均衡方法、装置、存储介质及调度***
CN114896070A (zh) 一种用于深度学习任务的gpu资源分配方法
CN111796934B (zh) 任务下发方法、装置、存储介质和电子设备
CN114257515A (zh) 一种带宽二次调度方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant