CN111400021A

CN111400021A - 一种深度学习方法、装置及***

Info

Publication number: CN111400021A
Application number: CN201910000910.2A
Authority: CN
Inventors: 丛鹏宇
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2020-07-10
Anticipated expiration: 2039-01-02
Also published as: CN111400021B

Abstract

本发明提供一种深度学***台的控制节点，调度第二资源子集群中的资源，执行第二任务队列中的深度学***台，所述第二任务队列中的深度学***台。本发明的实施例，可以在支持绝大多数深度学***台，降低调用大数据平台上的数据时的网络开销。

Description

一种深度学习方法、装置及***

技术领域

本发明涉及云计算技术领域，尤其涉及一种深度学习方法、装置及***。

背景技术

目前，图形处理器(Graphics Processing Unit，GPU)由于强大的计算能力，被广泛用于人工智能相关领域，特别是深度学习相关算法任务中，GPU可大大加速模型的训练和推理速度。对于较大规模的数据或者较大的模型，经过单个GPU甚至单机多个GPU加速后仍然需要耗费较长的计算时间，因此GPU服务器集群是人工智能算法研究与应用中不可或缺的组成部分。

Kubernetes(K8s)是目前主流的容器编排与管理工具，是容器化、微服务时代的重要技术之一，社区强大，发展迅速，目前已经有效地支持了CPU、内存、GPU等资源的隔离与调度。

具体的，K8s-Docker是目前多数集群式深度学***台比如Hadoop，调用大数据平台上的数据比较复杂，需要较多的网络开销。

发明内容

本发明实施例提供一种深度学***台的问题。

第一方面，本发明实施例提供了一种深度学习方法，包括：

获取用户提交的深度学习任务；

将所述深度学习任务分配到与所述深度学习任务的类型对应的任务队列中；

调度第一资源子集群中的资源，执行第一任务队列中的深度学习任务；

通过大数据平台的控制节点，调度第二资源子集群中的资源，执行第二任务队列中的深度学习任务；

其中，所述第一任务队列中的深度学***台，所述第二任务队列中的深度学***台。

第二方面，本发明实施例提供了一种深度学习装置，包括：

获取模块，用于获取用户提交的深度学习任务；

分配模块，用于将所述深度学习任务分配到与所述深度学习任务的类型对应的任务队列中；

第一执行模块，用于调度第一资源子集群中的资源，执行第一任务队列中的深度学习任务；

第二执行模块，用于通过大数据平台的控制节点，调度第二资源子集群中的资源，执行第二任务队列中的深度学习任务；

第三方面，本发明实施例提供了一种深度学习***，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述深度学习方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时可实现上述深度学习方法的步骤。

本发明实施例的深度学***台的控制节点，调度第二资源子集群中的资源，执行第二任务队列中的深度学***台的深度学***台，降低调用大数据平台上的数据时的网络开销。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的深度学习方法的流程图；

图2为本发明具体实例的资源分配方式的示意图；

图3为本发明具体实例的深度学习过程的示意图；

图4为本发明实施例的深度学习装置的结构示意图；

图5为本发明实施例的深度学习***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先指出的是，本发明实施例中的深度学***台的深度学***台应用场景)，又可以适用于非基于大数据平台的深度学***台的深度学***台，降低调用大数据平台上的数据时的网络开销。

参见图1所示，本发明实施例提供了一种深度学习方法，应用于深度学习***，所述方法包括如下步骤：

步骤101：获取用户提交的深度学习任务。

其中，此步骤中的深度学***台，或者非基于大数据平台(即不是基于大数据平台)。当非基于大数据平台时，相应的深度学习任务可以理解为主流深度学习任务。

步骤102：将所述深度学习任务分配到与所述深度学习任务的类型对应的任务队列中。

可以理解的，由于上述深度学***台，或者非基于大数据平台，因此本发明实施例中所涉及到的任务队列可以包括两类任务队列，分别为基于大数据平台的任务队列和非基于大数据平台的任务队列。

具体实现时，上述步骤102的任务分配过程可借助深度学习***中的任务分类器实现。

步骤103：调度第一资源子集群中的资源，执行第一任务队列中的深度学习任务。

步骤104：通过大数据平台的控制节点，调度第二资源子集群中的资源，执行第二任务队列中的深度学习任务。

其中，所述第一任务队列中的深度学***台，所述第二任务队列中的深度学***台。所述第一资源子集群可包括至少一个资源子集群，所述第二资源子集群可包括至少一个资源子集群。

可以理解的，为了实现兼容大数据平台的目的，可将深度学***台的任务队列中的深度学***台的任务队列中的深度学***台的需求。

可选的，本发明实施例中的资源可选为GPU资源。

本发明实施例中，具体实现时，为非基于大数据平台的深度学***台的深度学***台的控制节点(比如Hadoop平台的Yarn主节点)管理。具体的，步骤104可包括：

将第二任务队列中的深度学***台的控制节点，由所述大数据平台的控制节点，调度所述第二资源子集群中的资源，执行所述第二任务队列中的深度学习任务。

这样，借助大数据平台的控制节点来执行任务，可以降低调用大数据平台上的数据时的网络开销。

本发明实施例中，在执行任务队列中的深度学习任务时，可依据FIFO(FirstInput First Output，先进先出)原则进行执行。

可选的，步骤103中执行第一任务队列中的深度学习任务可包括：

按照先进先出的方式依次执行所述第一任务队列中的深度学习任务。

可选的，步骤104中执行第二任务队列中的深度学习任务可包括：

按照先进先出的方式依次执行所述第二任务队列中的深度学习任务

这样，依据FIFO原则执行任务队列中的任务，可以保证在先的任务优先被执行，满足用户需求。

本发明实施例中，为了保证用户提交的深度学习任务的执行效率，除了为深度学习任务划分对应的资源子集群外，还可从整个资源集群划分出一个或多个混合子集群，该混合子集群中的资源为候选资源，以便某类资源子集群中的资源不足时，调用混合子集群中的资源。

可选的，当步骤103中第一资源子集群中的资源无法满足第一任务队列中的深度学习任务的需求时，所述方法还包括：

调度第三资源子集群中的资源，执行第一任务队列中的深度学习任务；其中，所述第三资源子集群中的资源为候选资源。

可选的，当步骤104中第二资源子集群中的资源无法满足第二任务队列中的深度学习任务的需求时，所述方法还包括：

接收大数据平台的控制节点发送的资源请求消息；

根据所述资源请求消息，从第四资源子集群中选取资源分配至所述第二资源子集群中；其中，所述第四资源子集群中的资源为候选资源；

通过所述大数据平台的控制节点，调度分配资源后的第二资源子集群中的资源，执行所述第二任务队列中的深度学习任务。

可以理解的，第三资源子集群和第四资源子集群可以相同，也可以不相同。第三资源子集群可包括划分的至少一个资源子集群，第四资源子集群可包括划分的至少一个资源子集群。

这样，借助候选资源的划分，可增多学习任务的可选资源，从而保证用户提交的深度学习任务的执行效率。

可以理解的，在将整个资源集群划分为多个资源子集群(包括混合子集群)时，基于实际需求，可动态调整每个资源子集群中的资源。

下面，结合具体实例对本发明实施例中深度学习过程进行说明。

目前，基于Hadoop的大数据平台的深度学***台。基于此，本发明具体实例中可实现基于K8s和Yarn的混合资源调度的深度学***台。

本发明具体实例中，以基于K8s和Yarn的混合资源调度，以及GPU资源为例，参见图2所示，可将整个GPU集群划分成三个子集群，分别为K8s子集群、混合子集群和Yarn子集群，并利用深度学***台Hadoop，以借助Hadoop平台的Yarn主节点进行资源调度。

其中，K8s子集群完全由K8s主节点管理，用于执行基于K8s+Docker的资源调度的深度学***台的Yarn主节点管理，用于执行基于Spark+Yarn的资源调度的任务；混合子集群在其他两类子集群资源不足时，依据FIFO原则执行两种类型的任务。此三类子集群中的GPU数量可视实际情况而定。

对于上述三类子集群的管理过程可如下所示：K8s子集群在未接收到任务时，相应GPU资源全部处于空闲状态，而接收到新任务时分配GPU资源，任务完成后释放GPU资源；Yarn子集群在初始时由K8s主节点将全部GPU资源封装成若干个虚机，交给Yarn主节点管理；混合子集群在另外两个子集群资源不足(K8s子集群中的GPU资源完全被占用，或Yarn子集群中的GPU资源无法满足基于Spark+Yarn的深度学习任务)时，根据新任务类型临时分配资源给新任务，待该任务完成后释放资源。

参见图3所示，本发明具体实例中的深度学习过程可包括如下步骤：

S1：用户提交深度学习任务(以下简称为：任务)；

S2：任务分类器接收到用户提交的任务后，根据框架数据类型和框架类型判断其任务类型，并将基于大数据平台的任务(比如Tensorflow或Caffe类)分配到Spark+Yarn任务队列，其他任务(非基于大数据平台)分配到K8s+Docker任务队列；

S3：对于K8s+Docker任务队列，依据FIFO原则即按照进入队列的顺利，依次取出任务，提交给K8s主节点，而K8s主节点首先向K8s子集群发布任务(即调用K8s子集群中的GPU资源执行任务)，如果K8s子集群中的资源不足，则将向混合子集群发布任务，而如果混合子集群中的资源同样不足，任务将进入等待状态，直到资源充足再执行；任务执行完毕立即释放资源；

S4：对于Spark+Yarn任务队列，依据FIFO原则即按照进入队列的顺利，依次取出任务，提交给大数据平台的Yarn主节点，对于不使用GPU的任务，提交到原Spark集群执行，对于使用GPU的任务，首先提交到Yarn子集群执行(即调用Yarn子集群中的GPU资源执行任务)，如果Yarn子集群中的资源不足，则向K8s主节点申请从混合子集群中分配资源扩充Yarn子集群，而如果混合子集群中的资源同样不足，任务将进入等待状态，直到资源充足再执行；涉及到混合子集群的任务执行完毕立即通知K8s主节点，释放资源。

上述实施例对本发明的深度学习方法进行了说明，下面将结合实施例和附图对本发明中的深度学习装置进行说明。

参见图4所示，本发明实施例提供了一种深度学习装置，应用于深度学习***，包括：

获取模块41，用于获取用户提交的深度学习任务；

分配模块42，用于将所述深度学习任务分配到与所述深度学习任务的类型对应的任务队列中；

第一执行模块43，用于调度第一资源子集群中的资源，执行第一任务队列中的深度学习任务；

第二执行模块44，用于通过大数据平台的控制节点，调度第二资源子集群中的资源，执行第二任务队列中的深度学习任务；

本发明实施例中，所述第二执行模块44具体用于：

将所述第二任务队列中的深度学***台的控制节点，由所述大数据平台的控制节点，调度所述第二资源子集群中的资源，执行所述第二任务队列中的深度学习任务。

可选的，所述第一执行模块43具体用于：

按照先进先出的方式依次执行所述第一任务队列中的深度学习任务；

和/或，

所述第二执行模块44具体用于：

按照先进先出的方式依次执行所述第二任务队列中的深度学习任务。

可选的，当所述第一资源子集群中的资源无法满足所述第一任务队列中的深度学习任务的需求时，所述第一执行模块43还用于：

调度第三资源子集群中的资源，执行所述第一任务队列中的深度学习任务；

或者，

当所述第二资源子集群中的资源无法满足所述第二任务队列中的深度学习任务的需求时，所述装置还包括：

接收模块，用于接收所述大数据平台的控制节点发送的资源请求消息；

所述分配模块42还用于：根据所述资源请求消息，从第四资源子集群中选取资源分配至所述第二资源子集群中；

所述第一执行模块44还用于：通过所述大数据平台的控制节点，调度分配资源后的第二资源子集群中的资源，执行所述第二任务队列中的深度学习任务。

其中，所述第三资源子集群中的资源为候选资源，所述第四资源子集群中的资源为候选资源。

可选的，上述资源为GPU资源。

此外，本发明实施例还提供了一种深度学习***，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述深度学习方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图5所示，本发明实施例还提供了一种深度学习***，包括总线51、收发机52、天线53、总线接口54、处理器55和存储器56。

在本发明实施例中，所述深度学习***还包括：存储在存储器56上并可在处理器55上运行的计算机程序。

具体的，所述计算机程序被处理器55执行时可实现如下步骤：

获取用户提交的深度学习任务；

在图5中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由处理器55代表的一个或多个处理器和存储器56代表的存储器的各种电路链接在一起。总线51还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口54在总线51和收发机52之间提供接口。收发机52可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器55处理的数据通过天线53在无线介质上进行传输，进一步，天线53还接收数据并将数据传送给处理器55。

处理器55负责管理总线51和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器56可以被用于存储处理器55在执行操作时所使用的数据。

可选的，处理器55可以是CPU、ASIC、FPGA或CPLD。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可实现上述深度学习方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种深度学习方法，其特征在于，包括：

获取用户提交的深度学习任务；

2.根据权利要求1所述的方法，其特征在于，所述通过大数据平台的控制节点，调度第二资源子集群中的资源，执行第二任务队列中的深度学习任务，包括：

3.根据权利要求1所述的方法，其特征在于，所述执行第一任务队列中的深度学习任务，包括：

和/或，

所述执行第二任务队列中的深度学习任务，包括：

4.根据权利要求1所述的方法，其特征在于，当所述第一资源子集群中的资源无法满足所述第一任务队列中的深度学习任务的需求时，所述方法还包括：

或者，

当所述第二资源子集群中的资源无法满足所述第二任务队列中的深度学习任务的需求时，所述方法还包括：

接收所述大数据平台的控制节点发送的资源请求消息；

根据所述资源请求消息，从第四资源子集群中选取资源分配至所述第二资源子集群中；

通过所述大数据平台的控制节点，调度分配资源后的第二资源子集群中的资源，执行所述第二任务队列中的深度学习任务；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述资源为图形处理器GPU资源。

6.一种深度学习装置，其特征在于，包括：

获取模块，用于获取用户提交的深度学习任务；

7.根据权利要求6所述的装置，其特征在于，所述第二执行模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述第一执行模块具体用于：

和/或，

所述第二执行模块具体用于：

9.一种深度学习***，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的深度学习方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的深度学习方法的步骤。