CN111860835A

CN111860835A - 一种神经网络模型训练方法和装置

Info

Publication number: CN111860835A
Application number: CN202010690926.3A
Authority: CN
Inventors: 赵仁明
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-30

Abstract

本发明公开了一种神经网络模型训练方法和装置，方法包括：将训练使用的数据集上传到集中存储设备并提交训练任务；由主机根据训练任务确定具有计算力资源的多个节点，并将训练任务拆分为若干训练任务片段分别调度到多个节点；在每个节点上创建调用计算力资源的多个容器并部署深度学习框架和脚本接口；由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息，将与训练任务片段对应的数据集分片；依次对每个数据集分片下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本。本发明能够集中管理数据集，减少数据冗余，提升训练速度，减少资源成本。

Description

一种神经网络模型训练方法和装置

技术领域

本发明涉及人工智能领域，更具体地，特别是指一种神经网络模型训练方法和装置。

背景技术

智能技术与实体经济结合与迭代过程中，算法、算力与数据都处在高高在上的位置，一般企业没有技术能力和成本去获取这些东西。对于大部分企业而言，招聘高级AI专家以及在研发时间上需要投入的成本太高，数据管理困难，数据冗余度高，训练速度慢。因此将复杂的AI技术进行封装，搭建一个零门槛的AI平台，用AI赋能不同的行业就变得非常有意义。

针对现有技术中深度学习数据难以管理、高冗余、处理速度慢、成本高的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种神经网络模型训练方法和装置，能够集中管理数据集，减少数据冗余，提升训练速度，减少资源成本。

基于上述目的，本发明实施例的第一方面提供了一种神经网络模型训练方法，包括执行以下步骤：

将训练使用的数据集上传到集中存储设备，并基于数据集和执行训练使用的脚本提交训练任务；

由主机根据训练任务确定具有计算力资源的多个节点，并将训练任务拆分为若干训练任务片段分别调度到多个节点；

在每个节点上创建调用计算力资源的多个容器，并为每个容器部署深度学习框架和脚本接口；

由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息，并根据元数据信息将与训练任务片段对应的数据集分片；

依次对每个数据集分片执行以下步骤：下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本，其中，响应于前一个数据集分片的后一步骤和后一个数据集分片的前一步骤均执行完成而执行后一个数据集分片的后一步骤。

在一些实施方式中，由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息包括：获取对应的训练任务片段的数据集总大小、数据集中文件个数、数据集消息摘要；

根据元数据信息将与训练任务片段对应的数据集分片包括：根据数据集总大小和预设的单位分片大小将与训练任务片段对应的数据集分片。

在一些实施方式中，依次对每个数据集分片执行以下步骤：下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本包括：

由节点的节点代理进程控制本地缓存从集中存储设备读取数据集分片以下载并保存到本地缓存中；

由节点代理进程控制本地缓存将保存到本地缓存中的数据集分片以文件形式置入本地缓存队列；

由容器的环境代理进程通过节点代理进程确定本地缓存队列中具有数据集分片的文件，并控制容器内存从本地缓存队列中读取数据集分片的文件以加载并保存到容器内存中；

由环境代理进程控制容器内存将保存到容器内存中的数据集分片以文件形式从本地缓存队列移除并置入容器内存队列；

由环境代理进程使用预设的脚本数据库作为脚本接口以封装的形式导入并执行脚本，以使用数据集分片训练深度学习框架。

在一些实施方式中，使用数据集分片训练深度学习框架包括：由深度学习框架将数据集分片的数据转化成张量，将张量发送到计算力资源执行矩阵计算，并使用矩阵计算的结果重构深度学习框架的参数。

在一些实施方式中，集中存储设备、本地缓存、和容器内存在数据平面上通信；节点代理进程和环境代理进程在不同于数据平面的控制平面上通信。

在一些实施方式中，计算力资源包括图形处理单元、中央处理单元、内存储器、和/或固态硬盘。

在一些实施方式中，集中存储设备使用网络文件***、Hadoop分布式文件***、或Luster文件***。

本发明实施例的第二方面提供了一种神经网络模型训练装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，程序代码在被运行时依次执行以下步骤：

在一些实施方式中，由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息包括：获取对应的训练任务片段的数据集总大小、数据集中文件个数、数据集消息摘要；根据元数据信息将与训练任务片段对应的数据集分片包括：根据数据集总大小和预设的单位分片大小将与训练任务片段对应的数据集分片。

本发明具有以下有益技术效果：本发明实施例提供的神经网络模型训练方法和装置，通过将训练使用的数据集上传到集中存储设备，并基于数据集和执行训练使用的脚本提交训练任务；由主机根据训练任务确定具有计算力资源的多个节点，并将训练任务拆分为若干训练任务片段分别调度到多个节点；在每个节点上创建调用计算力资源的多个容器，并为每个容器部署深度学习框架和脚本接口；由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息，并根据元数据信息将与训练任务片段对应的数据集分片；依次对每个数据集分片执行以下步骤：下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本，其中，响应于前一个数据集分片的后一步骤和后一个数据集分片的前一步骤均执行完成而执行后一个数据集分片的后一步骤的技术方案，能够集中管理数据集，减少数据冗余，提升训练速度，减少资源成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的神经网络模型训练方法的流程示意图；

图2为本发明提供的神经网络模型训练方法的整体结构示意图；

图3为本发明提供的神经网络模型训练方法的节点内流程示意图；

图4为本发明提供的神经网络模型训练方法的多容器-数据集分片执行顺序示意图；

图5为本发明提供的神经网络模型训练方法的以节点为中心的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够集中管理数据集，减少数据冗余的神经网络模型训练方法的一个实施例。图1示出的是本发明提供的神经网络模型训练方法的流程示意图。

所述的神经网络模型训练方法，如图1所示，包括执行以下步骤：

步骤S101：将训练使用的数据集上传到集中存储设备，并基于数据集和执行训练使用的脚本提交训练任务；

步骤S103：由主机根据训练任务确定具有计算力资源的多个节点，并将训练任务拆分为若干训练任务片段分别调度到多个节点；

步骤S105：在每个节点上创建调用计算力资源的多个容器，并为每个容器部署深度学习框架和脚本接口；

步骤S107：由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息，并根据元数据信息将与训练任务片段对应的数据集分片；

步骤S109：依次对每个数据集分片执行以下步骤：下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本，其中，响应于前一个数据集分片的后一步骤和后一个数据集分片的前一步骤均执行完成而执行后一个数据集分片的后一步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

下面根据图2所示的具体实施例进一步阐述本发明的具体实施方式。

对于一个AI计算平台，首先将用户的训练样本数据集上传至平台，进行统一存储。当用户需要进行训练时，首先选择需要使用的训练数据集。之后指定训练所需要的计算力资源量(如内存、CPU和GPU)。之后AI计算平台会根据计算力的情况，自动选择集群内的主机，并分配算力资源。并使训练数据集对于主机的计算力资源可见。

用户上传数据集时，首先上传至平台的集中存储,例如LusterFS/NFS/HDFS(网络文件***、Hadoop分布式文件***、Luster文件***)。每个Node节点为待调度的物理机节点，其中有GPU/CPU/内存/SSD硬盘等资源。根据用户申请使用的计算力资源，进行资源调度，选择合适的Node节点，创建Pod，同时将集中存储的对应数据集挂载至Pod。每个物理机节点的SSD硬盘做为该节点的数据集缓存磁盘。当调度完成时，会通过网络，优先拉取至对应计算节点的SSD磁盘。

如图3所示，Node节点执行模型的训练任务，数据集使用NFS Server存储的数据集。在训练的物理机节点存在一个进程node agent。在训练使用的物理机节点上创建训练任务时，会为任务创建容器。每个容器中均预置了训练使用的深度学习框架(Framework)，py lib软件包，env agent进程。在深度学习训练任务启动时(即该容器启动时)，会自动启动env agent进程。

其中node agent的作用是，访问NFS的挂载路径。获取此次训练需要使用的数据集的信息，例如数据集总大小，数据集文件个数等。Node agent将NFS目录中对应的数据集拷贝至本地的缓存(即local disk cache)，在数据拷贝复制完成之后，将对应的文件入localdisk cache的队列(代表该数据已经在disk cache中ready)。

Local disk cache目录被挂载至每一个容器中，同时容器中的env agent进程，可以通过接口与node agent进行通信。Env agent进程可以通过接口查询到local diskcache队列的状态及其对应的文件。Env agent从队列中读取数据，并加载至对应的容器的内存，并将数据从local disk cache队列出队列，加入自身的memory队列(代表该数据已经在memory中ready)。

对于env agent进程，它提供了一个python的接口层(图中的py lib)。可以在容器中通过pip的方式，预装这个py lib。这样在用户编写训练脚本时，就可以通过导入这个封装，然后调用py lib的一个python api来使用数据集了。

数据集的传输过程中，需要经历6个阶段，这6个阶段分别是：

1、获取NFS Server上数据集的总大小，数据集中文件个数、数据集MD5摘要等信息，进行数据集的分片；

2、读取NFS Server上指定的数据集的指定分片，将数据分片传输至本地，写入local cache磁盘；

3、从本地local cache磁盘打开指定分片的文件，读取数据至内存；

4、训练框架从内存中读取指定分片数据，将数据转换成tensor；

5、在需要时，训练框架将指定数据传递至GPU显存；

6、GPU从显存读取tensor数据，进行矩阵计算。

具体数据分片的方式，可以按照每64MB大小的一个数据块为一个分片。1至4由平台提供机制进行处理，5和6需要例如tensorflow这样的深度学习framework进行处理。将这6个阶段按流水线进行处理后，实际效果如图4所示，假设数据管道中需要的Phase个数为m，每个Phase的执行时间是t，每个数据集有n个shard，则在采用该方法前，对于一个1280MB的数据集(20个shard)，其数据传输所需要的时间T是：

T＝n*t*m(m＝6,n＝20)

使用本方法后，1280MB的数据集被分成20个shard。则需要的传输时间T是：

T＝m*t+(n-1)*t(m＝6,n＝20)

由此可知，使用该技术将会大大减少数据传输所需要的时间。

以节点为中心的整体流程参见图5。用户将数据集上传至AIStation平台的共享存储中；用户编写好训练的脚本，其中训练脚本中使用了py lib所提供的api，用户指定训练任务需要的资源，选择训练所需要的数据集；用户提交训练任务之后，训练任务调度到指定节点，获取对应的容器镜像，按照训练任务资源的需求创建指定的容器；进行数据集的获取，缓存，写入内存等一系列pipeline的动作流程。

从上述实施例可以看出，本发明实施例提供的神经网络模型训练方法，通过将训练使用的数据集上传到集中存储设备，并基于数据集和执行训练使用的脚本提交训练任务；由主机根据训练任务确定具有计算力资源的多个节点，并将训练任务拆分为若干训练任务片段分别调度到多个节点；在每个节点上创建调用计算力资源的多个容器，并为每个容器部署深度学习框架和脚本接口；由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息，并根据元数据信息将与训练任务片段对应的数据集分片；依次对每个数据集分片执行以下步骤：下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本，其中，响应于前一个数据集分片的后一步骤和后一个数据集分片的前一步骤均执行完成而执行后一个数据集分片的后一步骤的技术方案，能够集中管理数据集，减少数据冗余，提升训练速度，减少资源成本。

需要特别指出的是，上述神经网络模型训练方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于神经网络模型训练方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种能够集中管理数据集，减少数据冗余的神经网络模型训练装置的一个实施例。神经网络模型训练装置包括：

处理器；和

从上述实施例可以看出，本发明实施例提供的神经网络模型训练装置，通过将训练使用的数据集上传到集中存储设备，并基于数据集和执行训练使用的脚本提交训练任务；由主机根据训练任务确定具有计算力资源的多个节点，并将训练任务拆分为若干训练任务片段分别调度到多个节点；在每个节点上创建调用计算力资源的多个容器，并为每个容器部署深度学习框架和脚本接口；由每个节点从集中存储设备分别获取对应的训练任务片段的元数据信息，并根据元数据信息将与训练任务片段对应的数据集分片；依次对每个数据集分片执行以下步骤：下载到节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对深度学习框架执行通过脚本接口导入的脚本，其中，响应于前一个数据集分片的后一步骤和后一个数据集分片的前一步骤均执行完成而执行后一个数据集分片的后一步骤的技术方案，能够集中管理数据集，减少数据冗余，提升训练速度，减少资源成本。

需要特别指出的是，上述神经网络模型训练装置的实施例采用了所述神经网络模型训练方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述神经网络模型训练方法的其他实施例中。当然，由于所述神经网络模型训练方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述神经网络模型训练装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种神经网络模型训练方法，其特征在于，包括执行以下步骤：

将训练使用的数据集上传到集中存储设备，并基于所述数据集和执行训练使用的脚本提交训练任务；

由主机根据所述训练任务确定具有计算力资源的多个节点，并将所述训练任务拆分为若干训练任务片段分别调度到多个所述节点；

在每个所述节点上创建调用计算力资源的多个容器，并为每个所述容器部署深度学习框架和脚本接口；

由每个所述节点从所述集中存储设备分别获取对应的所述训练任务片段的元数据信息，并根据所述元数据信息将与所述训练任务片段对应的数据集分片；

依次对每个所述数据集分片执行以下步骤：下载到所述节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对所述深度学习框架执行通过所述脚本接口导入的所述脚本，其中，响应于前一个所述数据集分片的后一步骤和后一个所述数据集分片的前一步骤均执行完成而执行后一个所述数据集分片的后一步骤。

2.根据权利要求1所述的方法，其特征在于，由每个所述节点从所述集中存储设备分别获取对应的所述训练任务片段的元数据信息包括：获取对应的所述训练任务片段的数据集总大小、数据集中文件个数、数据集消息摘要；

根据所述元数据信息将与所述训练任务片段对应的数据集分片包括：根据所述数据集总大小和预设的单位分片大小将与所述训练任务片段对应的数据集分片。

3.根据权利要求2所述的方法，其特征在于，依次对每个所述数据集分片执行以下步骤：下载到所述节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对所述深度学习框架执行通过所述脚本接口导入的所述脚本包括：

由所述节点的节点代理进程控制所述本地缓存从所述集中存储设备读取所述数据集分片以下载并保存到所述本地缓存中；

由所述节点代理进程控制所述本地缓存将保存到所述本地缓存中的所述数据集分片以文件形式置入本地缓存队列；

由所述容器的环境代理进程通过所述节点代理进程确定所述本地缓存队列中具有所述数据集分片的文件，并控制所述容器内存从本地缓存队列中读取所述数据集分片的文件以加载并保存到所述容器内存中；

由所述环境代理进程控制所述容器内存将保存到所述容器内存中的所述数据集分片以文件形式从所述本地缓存队列移除并置入容器内存队列；

由所述环境代理进程使用预设的脚本数据库作为所述脚本接口以封装的形式导入并执行所述脚本，以使用所述数据集分片训练所述深度学习框架。

4.根据权利要求3所述的方法，其特征在于，使用所述数据集分片训练所述深度学习框架包括：

由所述深度学习框架将所述数据集分片的数据转化成张量，将所述张量发送到计算力资源执行矩阵计算，并使用所述矩阵计算的结果重构所述深度学习框架的参数。

5.根据权利要求3所述的方法，其特征在于，所述集中存储设备、所述本地缓存、和所述容器内存在数据平面上通信；所述节点代理进程和所述环境代理进程在不同于所述数据平面的控制平面上通信。

6.根据权利要求1所述的方法，其特征在于，所述计算力资源包括图形处理单元、中央处理单元、内存储器、和/或固态硬盘。

7.根据权利要求1所述的方法，其特征在于，所述集中存储设备使用网络文件***、Hadoop分布式文件***、或Luster文件***。

8.一种神经网络模型训练装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时依次执行以下步骤：

将训练使用的数据集上传到所述集中存储设备，并基于所述数据集和执行训练使用的脚本提交训练任务；

由所述主机根据所述训练任务确定具有计算力资源的多个节点，并将所述训练任务拆分为若干训练任务片段分别调度到多个所述节点；

9.根据权利要求8所述的装置，其特征在于，由每个所述节点从所述集中存储设备分别获取对应的所述训练任务片段的元数据信息包括：获取对应的所述训练任务片段的数据集总大小、数据集中文件个数、数据集消息摘要；

10.根据权利要求8所述的装置，其特征在于，依次对每个所述数据集分片执行以下步骤：下载到所述节点的本地缓存、加入本地缓存队列、加载到容器内存、加入容器内存队列、由容器调用计算力资源对所述深度学习框架执行通过所述脚本接口导入的所述脚本包括：