CN102541640B - 一种集群gpu资源调度***和方法 - Google Patents

一种集群gpu资源调度***和方法 Download PDF

Info

Publication number
CN102541640B
CN102541640B CN201110446323.XA CN201110446323A CN102541640B CN 102541640 B CN102541640 B CN 102541640B CN 201110446323 A CN201110446323 A CN 201110446323A CN 102541640 B CN102541640 B CN 102541640B
Authority
CN
China
Prior art keywords
gpu
task
child node
module
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110446323.XA
Other languages
English (en)
Other versions
CN102541640A (zh
Inventor
汤伟宾
吴鸿伟
罗佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201110446323.XA priority Critical patent/CN102541640B/zh
Publication of CN102541640A publication Critical patent/CN102541640A/zh
Application granted granted Critical
Publication of CN102541640B publication Critical patent/CN102541640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种集群图形处理器GPU资源调度***,该***包括集群初始化模块、GPU主节点以及若干个GPU子节点;所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果。本发明提供的集群GPU资源调度***和方法能够实现GPU资源的充分利用,使多个计算任务并行执行,此外,还能够实现集群中各子节点GPU的即插即用。

Description

一种集群GPU资源调度***和方法
技术领域
 本发明涉及计算机网络技术领域,尤其涉及一种集群GPU资源调度***和方法。
背景技术
近年来,图形处理器(Graphic Processing Unit,GPU)在硬件架构上已取得持续的高速发展,已经演变为拥有强大的计算能力的高度并行、多线程及多处理核心的处理器,它采用不同于中央处理器(Central Processing Unit,CPU)的单指令多线程 (Single Instruction Multiple Thread,SIMT)体系结构,增加了编程的灵活性。GPU 专用于解决可表示为数据并行计算的问题,即绝大部分数据元素具有相同的数据路径,而具有极高的计算密度(数学运算与存储器运算的比率),这样可隐藏存储器访问延迟。凭借其强大的计算能力,GPU并行技术对传统的CPU应用发起了强有力的冲击,其已被广泛运用于视频转码、物理模拟、地球表层测绘以及网络安全等热门研究领域。
如何充分利用GPU的并行计算能力来解决复杂运算的问题,已经成为当今GPU技术的研究热点之一。然而在实际应用中,单个GPU往往无法承载复杂的计算任务,因此需要将多个GPU组成一个GPU集群,以完成复杂的计算任务,现有技术中通常采用基于单主机多GPU卡的调度方式对资源进行调度以完成复杂的计算任务,但是该方式存在计算能力有限且扩展性差等缺点。
此外,GPU在执行任务时,其使用权是不可剥夺不可抢占的,因此如何高效地调度GPU资源,以充分发挥其并行计算能力,是目前各种高性能计算应用中迫切需要解决的问题。
发明内容
有鉴于此,本发明提供一种集群GPU资源调度***和方法,用以解决现有的单个GPU无法承载复杂计算任务,且现有的集群GPU资源调度方式效率不高、且集群中的GPU卡无法即插即用的问题。本发明提供的集群GPU资源调度***和方法能够实现GPU资源的充分利用,使多个计算任务并行执行,此外,还能够实现集群中各子节点GPU的即插即用。
本发明提供的一种集群图形处理器GPU资源调度***,包括:集群初始化模块、GPU主节点以及若干个GPU子节点;所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果;
其中,所述GPU子节点包括:
子任务接收模块,用于接收所述GPU主节点分配给本GPU子节点的子任务;子任务执行模块,用于对所述子任务接收模块接收的子任务进一步细分,为本GPU子节点的每个流处理器分配子任务细块,并行执行各子任务细块;结果返回模块,用于将本GPU子节点的子任务计算结果返回给所述GPU主节;心跳发送模块,用于向所述GPU主节点定时发送包括子节点的ID号、计算能力及执行的任务信息的心跳信号。
所述GPU主节点包括:任务接收模块,用于负责接收用户输入的任务;任务划分模块,用于将任务接收模块提供的用户输入的任务划分为若干个子任务,并提供给GPU资源调度模块;GPU资源调度模块,用于根据收到的各GPU子节点的心跳信号,按计算能力对本集群中的GPU子节点资源进行归类和维护,并根据任务的优先级为收到的各任务指定对应计算能力的GPU子节点,以公平调度的方式调度为各任务所选取的GPU子节点;结果处理模块,用于接收处理各GPU子节点返回的子任务计算结果;资源回收模块,用于根据结果处理模块返回的任务执行结果,回收已完成子任务的GPU子节点资源;心跳处理模块,用于将各GPU子节点提供的包括子节点的ID号、计算能力及执行的任务信息的心跳信号提供给GPU资源调度模块。
本发明提供的一种集群图形处理器GPU资源调度方法,包括以下步骤:
步骤1:GPU主节点接收用户输入的任务;
步骤2:所述GPU主节点将接受的用户输入的任务划分为若干个子任务;
步骤3:GPU主节点将所述若干个子任务分配到若干个GPU子节点上;
步骤4:各GPU子节点执行各自的子任务;
步骤5:各GPU子节点向所述GPU主节点返回子任务的计算结果;
步骤6:所述GPU主节点处理子任务计算结果,向用户返回完整任务计算结果;
步骤7:所述GPU主节点收回已完成任务的GPU子节点资源;
步骤8:GPU主节点执行或等待下一任务;
其中,所述步骤4包括:
步骤4.1:GPU子节点接收子任务;
步骤4.2:GPU子节点根据收到的子任务为本地GPU的每个流处理器分配子任务细块;
步骤4.3:设置所述各流处理器的执行参数;
步骤4.4:所述各流处理器并行执行各自被分配到的子任务细块。
上述集群GPU资源调度方法还包括步骤:所述 GPU子节点定时向所述GPU主节点发送包含GPU子节点的ID号、计算能力及及执行的任务信息的心跳信号。
上述方法中,所述步骤1执行之前,还包括所述GPU主节点的初始化步骤,包括:步骤A:初始化所述GPU主节点的任务接收模块;步骤B:初始化所述GPU主节点的任务划分模块;步骤C:往任务优先级队列里面加载上次关闭前未完成或执行失败的任务;步骤D:初始化所述GPU主节点的GPU资源调度模块;步骤E:初始化所述GPU主节点的结果处理模块、资源回收模块和心跳处理模块。
上述方法中,所述步骤1执行之前,还包括所述GPU子节点的初始化步骤,包括:初始化子任务接收模块、心跳发送模块和结果返回模块;所述GPU子节点采集自身的ID号、计算能力及及执行的任务信息,作为心跳信号发送给所述GPU主节点;所述GPU子节点等待所述GPU主节点的调度。
上述方法中,所述步骤3包括:
步骤3.1:所述GPU主节点根据所述GPU子节点的计算能力对GPU子节点资源进行归类;
步骤3.2:所述GPU主节点记录每个GPU子节点的ID号、计算能力、任务的名称和状态;
步骤3.3:所述GPU主节点为不同优先级的任务指定对应计算能力的GPU子节点;
步骤3.4:所述GPU主节点以公平调度的方式调度上一步骤中所选取的GPU子节点。
本发明提供的集群GPU资源调度方法将所有GPU资源组成一个集群,由主节点统一调度多个子节点的GPU,各级子节点对任务进行层层划分,充分利用了GPU资源的并行计算能力,能够完成大型的复杂任务的快速并行处理,本发明提供的集群GPU资源调度***不仅能够高性能地实现多个计算任务的并行执行,而且***中的GPU子节点可以随意拔插。本发明提供的方案特别适合处理高复杂度的计算任务,尤其是集群GPU资源调度的应用场合。
附图说明
图1是本发明实施例提供的一种集群GPU资源调度***结构示意图;
图2是本发明实施例提供的GPU主节点初始化流程图;
图3是本发明实施例提供的GPU子节点初始化流程图;
图4是本发明实施例提供的一种集群GPU资源调度方法流程图;
图5是为任务划分示意图;
图6是图4所示步骤S43的详细流程图;
图7是图4所示步骤S44的详细流程图。
具体实施方式
为解决现有技术中的问题,本发明实施例提供一种集群GPU资源调度***和方法,本发明提供的方案将所有GPU资源组成一个集群,由主节点统一调度集群中的各个子节点,各子节点只需设置唯一的ID编号及计算能力,并将自身信息发送给主节点,主节点根据收到的各字节点的信息对其进行GPU资源归类;对于输入的任务,主节点将该任务进行基本划分后分配到各个子节点上,各被调度的子节点将子任务进一步划分成细块以匹配GPU的并行计算模式。
以下结合附图,具体说明本发明实施例。
图1为本发明实施例提供的一种集群GPU资源调度***结构示意图,该***包括:集群初始化模块1、集群主控模块2以及若干个GPU子节点3。其中,集群初始化模块1用于对集群中的集群主控模块2以及若干个GPU子节点3进行初始化,负责集群主控模块2和子节点3的任务准备。集群主控模块2为集群中预先指定的GPU主节点,用于接收用户输入的任务,并将该任务划分为若干个子任务,并通过调度各GPU子节点3,将若干个子任务分配到多个GPU子节点3上。每个GPU子节点3用于执行子任务并向集群主控模块2返回任务执行结果。
以下为方便说明,将集群主控模块2统称为GPU主节点。
如图1中所示,GPU主节点(集群主控模块2)包括:任务接收模块4、任务划分模块5、GPU资源调度模块6、结果处理模块7、资源回收模块8和心跳处理模块9。其中,任务接收模块4用于负责接收用户输入的任务。任务划分模块5用于将任务接收模块4提供的用户输入的任务划分为一系列的子任务,确保各个子节点接收的子任务负载均衡,并将划分好的子任务提供给GPU资源调度模块6。GPU资源调度模块6用于根据心跳处理模块9提供的各GPU子节点的心跳信号,按计算能力对本集群中的GPU子节点资源进行归类和维护,根据GPU子节点资源归类结果和任务划分模块5提供的子任务的优先级,为各子任务指定对应计算能力的GPU子节点,并以公平调度的方式调度为各子任务所选取的GPU子节点,完成子任务在GPU子节点上的分发。结果处理模块7用于接收处理各子节点返回的任务计算结果。资源回收模块8用于根据结果处理模块返回的任务执行结果,回收已完成子任务的GPU子节点资源,通知GPU资源调度模块6已回收的GPU子节点资源,使已回收的GPU子节点资源加入GPU资源调度模块6可调度的资源池中等待调度。心跳处理模块9用于将各GPU子节点提供的包括子节点的ID号、计算能力及执行的任务信息的心跳信号提供给GPU资源调度模块6。
如图1中所示,每个子节点3包括:子任务接收模块10、子任务执行模块11、结果返回模块12和心跳发送模块13。其中,子任务接收模块10用于接收GPU主节点的GPU资源调度模块6分配给本GPU子节点的子任务。子任务执行模块11用于对子任务接收模块10接收的子任务进一步细分,为本GPU的每个流处理器分配子任务细块,并行执行各子任务细块。结果返回模块12用于将本GPU子节点的子任务计算结果返回给GPU主节点中的结果处理模块7。心跳发送模块13用于向GPU主节点的心跳处理模块9定时发送心跳信号,以证明自己仍活跃于集群中,其中,所述心跳信号包括子节点的ID号、计算能力及执行的任务信息。
本发明实施例提供的集群GPU资源调度***中包括多个GPU资源,由一个指定的GPU主节点统一调度若干个GPU子节点,对于输入的任务,GPU主节点先对其进行基本划分,以分配到各个GPU子节点上,而GPU子节点上执行的子任务会被进一步划分成细块,以匹配GPU的并行计算模式,这种GPU资源调度***能够进行高复杂度的高性能计算。
本发明实施例还提供一种采用上述集群GPU调度***的集群GPU资源调度方法,需要预先初始化主节点和子节点,具体如图2和图3所示,以下分别进行说明。
图2是本发明实施例提供的GPU主节点初始化流程图,包括以下步骤:
S21:初始化任务接收模块。其中包括任务接收模块中的任务队列清理、内存分配、服务侦听等工作。
S22:初始化任务划分模块。其中包括任务划分模块的内存分配及数据清零等工作。
S23:往任务优先级队列里面加载上次关闭前未完成或执行失败的任务。其中,所述优先级任务队列存储的是未处理的任务,并按优先级排序,则一旦集群中有空闲GPU资源,就可优先执行队列中优先级最高的任务。当GPU主节点初始化结束后,一旦有新的任务来临,新的任务也按照任务的优先级加载到所述任务优先级队列中。
S24:初始化GPU资源调度模块。其中,资源调度模块根据收到的子节点心跳信息更新自身所存储的集群各个GPU子节点的状态信息,所述GPU子节点的状态信息包括子GPU子节点的ID号和计算能力等信息。此外,资源调度模块根据GPU子节点的计算能力对当前集群中的GPU子节点进行资源归类。
S25:初始化辅助模块。所述辅助模块包括GPU主节点中的结果处理模块、资源回收模块和心跳处理模块,此步骤包括:初始化结果处理模块、资源回收模块和心跳处理模块,完成各模块的内存分配及数据清零等工作; 
图2所示的GPU主节点初始化完成后,GPU主节点开始执行任务优先级队列中的任务,并等待新任务。具体的任务执行过程在下文中进行描述。
图3是本发明实施例提供的GPU子节点初始化流程图,包括以下步骤:
S31:初始化子任务接收模块、心跳发送模块和结果返回模块。此步骤中主要完成各相应模块的内存分配及数据清零等工作; 
S32:采集GPU子节点自身的ID号及计算能力信息,作为心跳信号发送给GPU主节点,通知主节点做子节点资源的状态信息更新;
S33:GPU子节点等待GPU主节点的调度。
本发明实施例提供的一种集群GPU资源调度方法流程图如图4所示,当集群中的GPU主节点和GPU子节点都已初始化完成后,集群GPU资源调度步骤包括:
S41:GPU主节点接收用户输入的任务。
S42:GPU主节点将接收的用户输入的任务划分为一序列子任务。此步骤是通过GPU主节点的任务划分模块将用户输入的任务划分为一序列子任务,以便这一序列子任务能够在多个GPU子节点上并行执行,确保GPU资源的公平调度及充分利用。图5所示为任务划分示意图,图5中,GPU主节点将当前任务划分成3个子任务,并将3个子任务分配给子节点1、子节点3和子节点8进行处理。
S43:GPU主节点调度GPU子节点资源,将若干个子任务分配到若干个GPU子节点上。本步骤用于对GPU子节点资源进行归类,维护和管理各个GPU子节点的状态,并完成子任务在GPU子节点上的分发,主要包括:(1)资源归类:根据GPU子节点的计算能力对GPU子节点资源进行归类,即:将不同计算能力的GPU子节点资源会被归为不同类别,并将不同类别的子节点资源信息存储于资源调度模块的可调度的资源池中,从而GPU主节点在调度子节点时可实现对不同优先级任务的区分调度;(2)资源维护,记录每个子节点的ID号、计算能力、任务的名称和状态;(3)优先级调度:为不同优先级的任务指定对应计算能力的GPU子节点资源;(4)按公平调度方式调度上一步骤(3)中所选取的GPU子节点资源,即:将与当前任务的子任务分发到上一步骤(3)中所选取的与当前任务的优先级相对应的若干个GPU子节点上,确保各个资源能被充分利用,实现负载均衡。
S44:各GPU子节点配置各自的并行运行参数,并执行各自的子任务。
S45:任务执行完毕,GPU子节点向GPU主节点返回子任务的计算结果;
S46:GPU主节点处理计算结果。此步骤中主节点收集各个子节点的子任务计算结果,并将所有子任务组合成一个完整的任务计算结果返回给用户。
S47:GPU主节点收回已完成任务的GPU子节点资源,并将其加入可调度的资源池中等待调度。此步骤中,对已收回的GPU子节点资源再次进行资源归类,将收回的GPU子节点资源加入可调度的资源池中等待调度。
S48:GPU主节点执行或等待下一任务。此处所述的下一任务是指优先级高于任务优先级队列中所有任务的新任务,或者是任务优先级队列中优先级最高的任务。
图4所示集群GPU资源调度方法还包括心跳触发步骤,即:GPU子节点定时向GPU主节点发送心跳信号,以证明自己仍活跃于集群中。所述心跳信号包含子节点的ID号、计算能力以及执行的任务信息。该心跳信号能使GPU主节点实时掌控子节点的状态。
上述步骤S43的GPU资源调度流程如图6所示,包括:
S601:当前任务的子任务序列输入;此处所述的子任务序列为当前任务被GPU主节点划分所得到的一序列子任务;
S602:确定当前任务的优先级;
S603:判断当前任务的优先级是否高于任务优先级队列中其他等待的任务,若否,则跳到S604;是则跳到S605;
S604:将当前任务加入到任务优先级队列,并执行S605;
S605:判断是否有可用GPU子节点资源,如果有,则执行S608,否则执行S606;
S606:等待GPU子节点资源的释放;
S607:查询GPU子节点资源,并跳转到步骤S605;
S608:选取优先级最高的任务,为该任务的指定相应的GPU子节点资源,并维护选取的GPU子节点资源的状态;此步骤中,如果S601中到来的当前任务优先级高于任务优先级队列中其他等待的任务,则S601中到来的当前任务即为此步骤所选取的任务,如果S601中到来的当前任务优先级低于任务优先级队列中其他等待的任务,则此步骤中选取的是任务优先级队列中优先级最高的任务。
S609:按公平调度方式将当前优先级最高的任务的子任务分发给所选取的GPU子节点。
图7所示为图4的步骤 S44中各GPU子节点执行各自的子任务流程图,包括以下步骤:
S71:GPU子节点接收子任务;
S72:GPU子节点再次对子任务进行细分:为GPU的每个流处理器分配子任务细块,以实现子任务细块并行计算;
S73:设置各流处理器的执行参数。主要包括:设置各流处理器分为几个块,每个块包含几个线程等执行参数。
S74:各流处理器并行执行各自被分配到的子任务细块。
综上所述,本发明提供的集群GPU资源调度方案将所有GPU资源组成一个集群,由主节点统一调度,充分利用GPU资源的并行计算能力,子节点可以随意拔插,只需设置唯一的ID编号及计算能力,再发送给主节点,主节点会把它加入对应的GPU资源归类中,各级节点对任务进行层层划分,以完成大任务的快速并行处理;本发明特别适合高复杂度的高性能计算,特别是集群GPU调度的应用场合。
上述实施例仅用来进一步说明本发明提供的一种集群GPU资源调度***和调度方法,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种集群图形处理器GPU资源调度***,其特征在于,包括:集群初始化模块、GPU主节点以及若干个GPU子节点;
所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;
所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;
所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果;
其中,所述GPU子节点包括:
子任务接收模块,用于接收所述GPU主节点分配给本GPU子节点的子任务;子任务执行模块,用于对所述子任务接收模块接收的子任务进一步细分,为本GPU子节点的每个流处理器分配子任务细块,并行执行各子任务细块;结果返回模块,用于将本GPU子节点的子任务计算结果返回给所述GPU主节点;心跳发送模块,用于向所述GPU主节点定时发送包括子节点的ID号、计算能力及执行的任务信息的心跳信号;
所述GPU主节点包括:
任务接收模块,用于负责接收用户输入的任务;
任务划分模块,用于将任务接收模块提供的用户输入的任务划分为若干个子任务,并提供给GPU资源调度模块;
GPU资源调度模块,用于根据收到的各GPU子节点的心跳信号,按计算能力对本集群中的GPU子节点资源进行归类和维护,并根据任务的优先级为收到的各任务指定对应计算能力的GPU子节点,以公平调度的方式调度为各任务所选取的GPU子节点;
结果处理模块,用于接收处理各GPU子节点返回的子任务计算结果;
资源回收模块,用于根据所述结果处理模块返回的任务执行结果,回收已完成子任务的GPU子节点资源;
心跳处理模块,用于将各GPU子节点提供的包括子节点的ID号、计算能力及执行的任务信息的心跳信号提供给所述GPU资源调度模块。
2.一种集群图形处理器GPU资源调度方法,其特征在于,包括以下步骤:
步骤1:GPU主节点接收用户输入的任务;
步骤2:所述GPU主节点将用户输入的任务划分为若干个子任务;
步骤3:GPU主节点将所述若干个子任务分配到若干个GPU子节点上;
步骤4:各GPU子节点执行各自的子任务;
步骤5:各GPU子节点向所述GPU主节点返回子任务的计算结果;
步骤6:所述GPU主节点处理子任务计算结果,向用户返回完整任务计算结果;
步骤7:所述GPU主节点收回已完成任务的GPU子节点资源;
步骤8:GPU主节点执行或等待下一任务;
其中,所述步骤4包括:
步骤4.1:GPU子节点接收子任务;
步骤4.2:GPU子节点根据收到的子任务为本地GPU的每个流处理器分配子任务细块;
步骤4.3:设置所述各流处理器的执行参数;
步骤4.4:所述各流处理器并行执行各自被分配到的子任务细块;
所述步骤3包括:
步骤3.1:所述GPU主节点根据所述GPU子节点的计算能力对GPU子节点资源进行归类;
步骤3.2:所述GPU主节点记录每个GPU子节点的ID号、计算能力、任务的名称和状态;
步骤3.3:所述GPU主节点为不同优先级的任务指定对应计算能力的GPU子节点;
步骤3.4:所述GPU主节点以公平调度的方式调度上一步骤中所选取的GPU子节点。
3.如权利要求2所述的一种集群GPU资源调度方法,其特征在于,该方法还包括:所述 GPU子节点定时向所述GPU主节点发送包含GPU子节点的ID号、计算能力及执行的任务信息的心跳信号。
4.如权利要求3所述的一种集群GPU资源调度方法,其特征在于,所述步骤1执行之前,还包括所述GPU主节点的初始化步骤,包括:
步骤A:初始化所述GPU主节点的任务接收模块;
步骤B:初始化所述GPU主节点的任务划分模块;
步骤C:往任务优先级队列里面加载上次关闭前未完成或执行失败的任务;
步骤D:初始化所述GPU主节点的GPU资源调度模块;
步骤E:初始化所述GPU主节点的结果处理模块、资源回收模块和心跳处理模块。
5、如权利要求3所述的一种集群GPU资源调度方法,其特征在于,所述步骤1执行之前,还包括所述GPU子节点的初始化步骤,包括:
初始化子任务接收模块、心跳发送模块和结果返回模块;
所述GPU子节点采集自身的ID号、计算能力及及执行的任务信息,作为心跳信号发送给所述GPU主节点;
所述GPU子节点等待所述GPU主节点的调度。
CN201110446323.XA 2011-12-28 2011-12-28 一种集群gpu资源调度***和方法 Active CN102541640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110446323.XA CN102541640B (zh) 2011-12-28 2011-12-28 一种集群gpu资源调度***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110446323.XA CN102541640B (zh) 2011-12-28 2011-12-28 一种集群gpu资源调度***和方法

Publications (2)

Publication Number Publication Date
CN102541640A CN102541640A (zh) 2012-07-04
CN102541640B true CN102541640B (zh) 2014-10-29

Family

ID=46348596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110446323.XA Active CN102541640B (zh) 2011-12-28 2011-12-28 一种集群gpu资源调度***和方法

Country Status (1)

Country Link
CN (1) CN102541640B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805440B2 (en) 2013-11-22 2017-10-31 Intel Corporation Method and apparatus to improve performance of chained tasks on a graphics processing unit

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530194B (zh) * 2012-07-05 2015-05-20 腾讯科技(深圳)有限公司 软件***实现方法和软件***
US9195521B2 (en) 2012-07-05 2015-11-24 Tencent Technology (Shenzhen) Co., Ltd. Methods for software systems and software systems using the same
CN102866918B (zh) * 2012-07-26 2016-02-24 中国科学院信息工程研究所 面向分布式编程框架的资源管理***
CN103064955A (zh) * 2012-12-28 2013-04-24 华为技术有限公司 查询规划方法及装置
CN104035818A (zh) * 2013-03-04 2014-09-10 腾讯科技(深圳)有限公司 多任务调度的方法及装置
CN104123185A (zh) * 2013-04-28 2014-10-29 ***通信集团公司 一种资源调度方法、装置及***
CN103268263B (zh) * 2013-05-14 2016-08-10 讯美电子科技有限公司 一种动态调整多图形处理器负载的方法及***
CN104580338B (zh) * 2013-10-29 2018-09-07 华为技术有限公司 一种业务处理方法、***及设备
CN104268007A (zh) * 2014-01-07 2015-01-07 深圳市华傲数据技术有限公司 一种事件请求分布式调度方法和***
CN104253850A (zh) * 2014-01-07 2014-12-31 深圳市华傲数据技术有限公司 一种任务分布式调度方法和***
US9632761B2 (en) 2014-01-13 2017-04-25 Red Hat, Inc. Distribute workload of an application to a graphics processing unit
CN103970854B (zh) * 2014-05-05 2017-05-17 神华集团有限责任公司 Sap ecc端与sap bw端之间增量凭证信息同步方法
CN103970611A (zh) * 2014-05-05 2014-08-06 神华集团有限责任公司 基于计算机集群的任务处理方法
EP3191946A4 (en) * 2014-09-12 2018-03-21 INTEL Corporation Facilitating dynamic parallel scheduling of command packets at graphics processing units on computing devices
CN104407923A (zh) * 2014-10-31 2015-03-11 百度在线网络技术(北京)有限公司 基于单节点触发的集群任务均衡方法和装置
CN105900064B (zh) * 2014-11-19 2019-05-03 华为技术有限公司 调度数据流任务的方法和装置
CN106155811B (zh) * 2015-04-28 2020-01-07 阿里巴巴集团控股有限公司 资源服务装置、资源调度方法和装置
CN104793996A (zh) * 2015-04-29 2015-07-22 中芯睿智(北京)微电子科技有限公司 一种并行计算设备的任务调度方法及任务调度装置
CN106325996B (zh) 2015-06-19 2019-11-19 华为技术有限公司 一种gpu资源的分配方法及***
CN106293893B (zh) 2015-06-26 2019-12-06 阿里巴巴集团控股有限公司 作业调度方法、装置及分布式***
CN105245617A (zh) * 2015-10-27 2016-01-13 江苏电力信息技术有限公司 一种基于容器的服务器资源供给方法
CN106888400B (zh) * 2015-12-15 2019-05-10 中国电信股份有限公司 一种用于实现转码任务调度的方法和***
CN105677486B (zh) * 2016-01-08 2019-03-22 上海交通大学 数据并行处理方法及***
CN106980533B (zh) * 2016-01-18 2020-04-28 杭州海康威视数字技术股份有限公司 基于异构处理器的任务调度方法、装置及电子设备
CN105786523B (zh) * 2016-03-21 2019-01-11 北京信安世纪科技股份有限公司 数据同步***及方法
CN105975334A (zh) * 2016-04-25 2016-09-28 深圳市永兴元科技有限公司 任务分布式调度方法及***
CN106095586A (zh) * 2016-06-23 2016-11-09 东软集团股份有限公司 一种任务分配方法、装置及***
CN108241532A (zh) * 2016-12-23 2018-07-03 北京奇虎科技有限公司 Gpu资源的管理分配方法和管理分配装置
CN107067365A (zh) * 2017-04-25 2017-08-18 中国石油大学(华东) 基于深度学习的分布嵌入式实时视频流处理***及方法
CN109213593B (zh) * 2017-07-04 2022-05-10 阿里巴巴集团控股有限公司 用于全景视频转码的资源分配方法、装置和设备
CN107608786A (zh) * 2017-08-25 2018-01-19 北京科技大学 一种基于gpu和分布式计算的高层建筑群震害分析方法
CN107590589A (zh) * 2017-08-25 2018-01-16 北京科技大学 基于gpu集群的城市一般建筑群震害分析的计算加速方法
CN107577534A (zh) * 2017-08-31 2018-01-12 郑州云海信息技术有限公司 一种资源调度方法及装置
CN108235114A (zh) * 2017-11-02 2018-06-29 深圳市商汤科技有限公司 视频流的内容解析方法和***、电子设备、存储介质
US10475151B2 (en) * 2017-11-06 2019-11-12 Basemark Oy Graphics engine resource management and allocation system
CN108132840B (zh) * 2017-11-16 2021-12-03 浙江工商大学 一种分布式***中的资源调度方法及装置
CN108196951B (zh) * 2018-01-30 2021-10-15 成都信息工程大学 Gpu流域径流模拟分布式调度***及方法
CN108874518B (zh) * 2018-05-21 2021-05-11 福建省数字福建云计算运营有限公司 一种任务调度方法及终端
CN110602505A (zh) * 2018-06-13 2019-12-20 贵州白山云科技股份有限公司 一种基于多gpu的视频转码方法及装置
CN110673944B (zh) * 2018-07-03 2022-09-09 杭州海康威视数字技术股份有限公司 执行任务的方法和装置
CN110879707B (zh) * 2018-09-06 2022-10-14 迈普通信技术股份有限公司 编译任务执行方法及装置
CN109828833B (zh) * 2018-11-02 2020-09-29 上海帆一尚行科技有限公司 一种神经网络训练任务的排队***及其方法
CN110347504B (zh) * 2019-06-28 2020-11-13 中国科学院空间应用工程与技术中心 众核计算资源调度方法及装置
CN110377425A (zh) * 2019-07-16 2019-10-25 浙江大华技术股份有限公司 设备中的任务执行方法、装置、存储介质及电子装置
CN110399221A (zh) * 2019-07-23 2019-11-01 江苏鼎速网络科技有限公司 数据处理方法、***及终端设备
CN110475128B (zh) * 2019-08-02 2021-09-28 视联动力信息技术股份有限公司 一种视频转码方法、装置、电子设备和存储介质
CN110716800B (zh) * 2019-10-09 2021-07-09 广州华多网络科技有限公司 任务调度方法及装置、存储介质及电子设备
CN110874271B (zh) * 2019-11-20 2022-03-11 山东省国土测绘院 一种海量建筑图斑特征快速计算方法及***
CN110717853B (zh) * 2019-12-12 2020-05-22 武汉精立电子技术有限公司 一种基于嵌入式gpu的光学图像处理***
CN113360186A (zh) * 2020-03-04 2021-09-07 北京希姆计算科技有限公司 任务调度方法、装置、电子设备及计算机可读存储介质
CN113296921B (zh) * 2020-04-07 2022-05-27 阿里巴巴集团控股有限公司 云资源调度方法、节点、***及存储介质
CN111831330B (zh) * 2020-07-10 2022-02-01 深圳致星科技有限公司 用于联邦学习的异构计算***设备交互方案
CN112667901B (zh) * 2020-12-31 2024-04-26 中国电子信息产业集团有限公司第六研究所 一种社交媒体数据的获取方法及***
CN113377540A (zh) * 2021-06-15 2021-09-10 上海商汤科技开发有限公司 集群资源调度方法及装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073546A (zh) * 2010-12-13 2011-05-25 北京航空航天大学 一种云计算环境中分布式计算模式下的任务动态调度方法
CN102096602A (zh) * 2009-12-15 2011-06-15 ***通信集团公司 一种任务调度方法及其***和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6222530B1 (en) * 1998-08-21 2001-04-24 Corporate Media Partners System and method for a master scheduler

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096602A (zh) * 2009-12-15 2011-06-15 ***通信集团公司 一种任务调度方法及其***和设备
CN102073546A (zh) * 2010-12-13 2011-05-25 北京航空航天大学 一种云计算环境中分布式计算模式下的任务动态调度方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805440B2 (en) 2013-11-22 2017-10-31 Intel Corporation Method and apparatus to improve performance of chained tasks on a graphics processing unit

Also Published As

Publication number Publication date
CN102541640A (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN102541640B (zh) 一种集群gpu资源调度***和方法
Liu et al. Adaptive asynchronous federated learning in resource-constrained edge computing
Kaur et al. Container-as-a-service at the edge: Trade-off between energy efficiency and service availability at fog nano data centers
CN112465129B (zh) 片内异构人工智能处理器
US7647590B2 (en) Parallel computing system using coordinator and master nodes for load balancing and distributing work
CN102027452B (zh) 调度器中的调度集合
CN100449478C (zh) 用于实时多线程处理的方法和装置
CN103279390B (zh) 一种面向小作业优化的并行处理***
Tao et al. Dynamic resource allocation algorithm for container-based service computing
CN105718479A (zh) 跨idc大数处理架构下执行策略生成方法、装置
CN103488775A (zh) 一种用于大数据处理的计算***及计算方法
Bansal et al. Dynamic task-scheduling in grid computing using prioritized round robin algorithm
CN111694675B (zh) 任务调度方法及装置、存储介质
CN102135949A (zh) 基于图形处理器的计算网络***、方法及装置
CN105187327A (zh) 一种分布式消息队列中间件
CN114996018A (zh) 面向异构计算的资源调度方法、节点、***、设备及介质
Wang et al. An efficient and non-intrusive GPU scheduling framework for deep learning training systems
CN104239555A (zh) 基于mpp的并行数据挖掘架构及其方法
CN107329822B (zh) 面向多源多核***的基于超任务网的多核调度方法
CN111858027A (zh) 一种软件机器人协同处理方法及***
CN105677467A (zh) 基于量化标签的Yarn资源调度器
JPWO2011142227A1 (ja) コンピュータ・システム、方法及びプログラム
CN113138849A (zh) 一种计算资源调度和迁移方法、相关装置及***
CN116166396A (zh) 调度模型的训练方法、装置、电子设备及可读存储介质
Meddeber et al. Tasks assignment for Grid computing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120704

Assignee: Xiaoma Baoli (Xiamen) Network Technology Co.,Ltd.

Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Contract record no.: X2023350000042

Denomination of invention: A Cluster GPU Resource Scheduling System and Method

Granted publication date: 20141029

License type: Common License

Record date: 20230301