CN115081619A

CN115081619A - 一种面向异构集群加速分布式训练的方法及***

Info

Publication number: CN115081619A
Application number: CN202210695496.3A
Authority: CN
Inventors: 杜海舟; 黄晟
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-20

Abstract

本发明公开了一种面向异构集群加速分布式训练的方法及***，包括：收集所有计算节点的性能数据，并对所需训练数据进行动态分配；对局部iteration更新次数进行分配，使得所有计算节点在近乎相同的时间点完成任务；采用深度强化学习策略缩减所述训练数据的训练时间，并将梯度数据上传至参数服务器；循环迭代，直至训练epoch达到设定值。通过数据动态分配模块、负载均衡模块以及屏障控制模块的协同工作减少每一轮用于等待掉队节点的时间开销，提高集群计算资源利用率，对整个训练过程实现加速并保证不降低最终的模型精度。

Description

一种面向异构集群加速分布式训练的方法及***

技术领域

本发明涉及分布式计算领域和深度学习领域，尤其涉及一种面向异构集群加速分布式训练的方法及***。

背景技术

近年来深度学习已经广泛应用于许多现实世界的问题，从计算机视觉到自然语言处理。然而，深度神经网络的训练非常耗时，特别是在大型模型和大数据上，单台机器在大型数据集上训练大型模型已经变得困难。在大数据浪潮的推动下，从2005年至今训练数据增长了至少六十倍，例如，ImageNet数据集包含1400万张图像，涵盖2万多个类别。于此同时深度神经网络模型的复杂度也随之呈现***式的增长，例如Open-AI最新提出的语言模型GPT-3含有1300亿参数，训练一个GPT-3模型需要“355个GPU年”(一块GPU运行355年的运算量)，光是训练费用就高达460万美元，在一颗NVIDIA M40 GPU上用ResNet-50训练ImageNet需要14天，如果用一个串行程序在单核CPU上训练可能需要几十年才能完成，故而通常采用分布式集群进行训练。集群中有两种不同的角色，一是参数服务器，其作用主要为收集计算节点的梯度信息执行聚合操作，二是计算节点，其作用是用于训练神经网络，把计算得到的梯度信息上传到参数服务器上。一般一轮迭代的流程是：1)计算节点从参数服务器上下载最新的参数至本地；2)计算节点使用最新的参数计算梯度数据；3)计算节点将梯度数据上传到参数服务器，参数服务器等待所有计算节点上传完毕后聚合梯度数据并更新模型。

然而，现实世界中的大多数集群都包含不同时代和类型的GPU(图形处理器)和CPU(中央处理器)，具有不同的计算能力，在异构环境中，速度较慢GPU的计算节点很容易成为掉队者，导致在每一轮迭代中都需要花费很长的时间等待这些掉队者，从而导致计算资源利用率低下，训练加速效果不尽人意，训练效率远低于理想状态下的同构训练环境。针对此问题，本发明提出了一种基于负载均衡的自适应训练方法，提高计算资源利用率并加速训练。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：在异构环境中，速度较慢GPU的计算节点很容易成为掉队者，导致在每一轮迭代中都需要花费很长的时间等待这些掉队者，从而导致计算资源利用率低下，训练加速效果不理想的问题。

为解决上述技术问题，本发明提供如下技术方案：收集所有计算节点的性能数据，并对所需训练数据进行动态分配；对局部iteration更新次数进行分配，使得所有计算节点在近乎相同的时间点完成任务；采用深度强化学习策略缩减所述训练数据的训练时间，并将梯度数据上传至参数服务器；循环迭代，直至训练epoch达到设定值。

作为本发明所述的面向异构集群加速分布式训练的方法的一种优选方案，其中：所述对所需训练数据进行动态分配包括，

构建异构分布式GPU服务器，并采用参数服务器架构进行网络通信；

采用每秒可计算样本数量对所述所有计算节点的性能数据进行量化指标；

根据性能按照比例对所述性能数据进行数据切分。

作为本发明所述的面向异构集群加速分布式训练的方法的一种优选方案，其中：包括，

控制节点根据采集到的所有计算节点的性能数据进行训练参数调节，需要调节的所述训练参数包括每个计算节点一轮epoch中所需的数据切分、每个iteration局部更新次数。

所述深入强化学习策略包括状态空间、动作空间以及奖励函数。

作为本发明所述的面向异构集群加速分布式训练的方法及***的一种优选方案，其中：所述状态空间包括，

当前的培训进度，包括每个工人的全局同步指标和局部迭代指标；

当前的培训准确性或培训损耗；

等待其他工人的成本时间。

作为本发明所述的面向异构集群加速分布式训练的方法及***的一种优选方案，其中：所述动作空间包括，

Agent每个epoch开始时对动作值进行调整，所述动作值包括增加、减少和不改变，相对应的数学定义为将所述最小公倍数得到的值调整为+1倍、-1倍、0倍。

作为本发明所述的面向异构集群加速分布式训练的方法及***的一种优选方案，其中：所述奖励函数包括，

利用t2时刻的精度和t1时刻的精度求解增量精度

其中，

表示t2-t1时刻的增量精度，acc_t2表示t2时刻的精度，acc_t1表示t1时刻的精度；

基于所述增量精度

和训练的步数step，求出增量率p，

其中，p表示增量率，

表示t2-t1时刻的增量精度，t2、t1表示时间，step表示训练的步数；

基于所述增量率p和历史记录中増量率最佳值p*获取增长率r，

其中，p表示增量率，p*表示历史记录中増量率最佳值，r表示增长率。

作为本发明所述的面向异构集群加速分布式训练的方法及***的一种优选方案，其中：还包括，

利用增长率r判断Agent行动是否有效；

若增长率r大于1，则行动有效，设置奖励值为1；

若增长率r等于1，则设置奖励值为0；

若增长率r小于1，则行动无效，设置奖励值为-1。

作为本发明所述的面向异构集群加速分布式训练的方法及***的一种优选方案，其中：包括，

利用所述最小公倍数算法算出次优的局部更新次数，使得每个局部iteration的等待时间最小，并将所述次优的局部更新次数分配给每个计算节点。

作为本发明所述的面向异构集群加速分布式训练的方法及***的一种优选方案，其中：所述每个计算节点相互独立地进行训练，直至局部更新次数满足所述次优的局部更新次数，并将梯度数据上传至所述参数服务器；

循环迭代，直至训练epoch达到设定值。

作为本发明所述的一种采用面向异构集群加速分布式训练的方法的***的一种优选方案，其中：数据动态分配模块、负载均衡模块以及屏障控制模块；

数据动态分配模块，负责切分训练数据；

负载均衡模块，负责指定每个计算节点本地更新的次数；

屏障控制模块，负责动态调节计算节点上传梯度数据的时间节点。

本发明的有益效果：本发明基于负载均衡思想解决了在异构集群中进行分布式训练存在的资源利用率低下、训练速度慢的问题。通过数据动态分配模块、负载均衡模块以及屏障控制模块的协同工作减少每一轮用于等待掉队节点的时间开销，提高集群计算资源利用率，对整个训练过程实现加速并保证不降低最终的模型精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种面向异构集群加速分布式训练的方法的基本流程示意图；

图2为本发明一个实施例提供的一种面向异构集群加速分布式训练的方法的ResNet101数据集的各对比方法的损失值对比图；

图3为本发明一个实施例提供的一种面向异构集群加速分布式训练的方法的DesnseNet121模型的各对比方法的损失值对比图；

图4为本发明一个实施例提供的一种面向异构集群加速分布式训练的方法的ResNet101数据集的各对比方法的准确率时序图；

图5为本发明一个实施例提供的一种面向异构集群加速分布式训练的方法的DesnseNet121模型的各对比方法的准确率时序图；

图6为本发明一个实施例提供的一种面向异构集群加速分布式训练的方法及***的整体构架示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1和图6，为本发明的一个实施例，提供了一种面向异构集群加速分布式训练的方法及***，包括：

S1：收集所有计算节点的性能数据，并对所需训练数据进行动态分配。需要说明的是：

对所需训练数据进行动态分配包括，

采用每秒可计算样本数量对所有计算节点的性能数据进行量化指标；

根据性能按照比例对性能数据进行数据切分。

S2：对局部iteration更新次数进行分配，使得所有计算节点在近乎相同的时间点完成任务。需要说明的是：

控制节点根据采集到的所有计算节点的性能数据进行训练参数调节，需要调节的训练参数包括每个计算节点一轮epoch中所需的数据切分、每个iteration局部更新次数，其中一个iteration为使用一个样本训练一次。

利用最小公倍数算法算出次优的局部更新次数，使得每个局部iteration的等待时间最小，并将次优的局部更新次数分配给每个计算节点。

S3：采用深度强化学习策略缩减训练数据的训练时间，并将梯度数据上传至参数服务器。需要说明的是：

深入强化学习策略包括状态空间、动作空间以及奖励函数。

(1)状态空间包括，

当前的培训准确性或培训损耗；

等待其他工人的成本时间。

(2)动作空间包括，

动作决定了每个计算节点局部iteration的次优的局部更新次数，Agent每个epoch开始时对动作值进行调整，动作值包括增加、减少和不改变，相对应的数学定义为将最小公倍数得到的值调整为+1倍、-1倍、0倍。

(3)奖励函数包括，

利用t2时刻的精度和t1时刻的精度求解增量精度

其中，

基于增量精度

和训练的步数step，求出增量率p，

其中，p表示增量率，

基于增量率p和历史记录中増量率最佳值p*获取增长率r，

利用增长率r判断Agent行动是否有效；

若增长率r大于1，则行动有效，设置奖励值为1；

若增长率r等于1，则设置奖励值为0；

若增长率r小于1，则行动无效，设置奖励值为-1。

S4：循环迭代，直至训练epoch达到设定值。需要说明的是：

每个计算节点相互独立地进行训练，直至局部更新次数满足次优的局部更新次数，并将梯度数据上传至参数服务器；

循环迭代，直至训练epoch达到设定值。

一次epoch是指将所有数据训练一遍的次数，epoch所代表的数字是指所有数据被训练的总轮数，当训练总轮数达到设定值时，停止训练。

一种采用面向异构集群加速分布式训练的方法的***包括，数据动态分配模块、负载均衡模块以及屏障控制模块；

数据动态分配模块，负责切分训练数据；

负载均衡模块，负责指定每个计算节点本地更新的次数；

本发明基于负载均衡思想解决了在异构集群中进行分布式训练存在的资源利用率低下、训练速度慢的问题。通过数据动态分配模块、负载均衡模块以及屏障控制模块的协同工作减少每一轮用于等待掉队节点的时间开销，提高集群计算资源利用率，对整个训练过程实现加速并保证不降低最终的模型精度。

实施例2

参照图2至图5，为本发明的第二个实施例，该实施例不同于第一个实施例的是，提供了一种面向异构集群加速分布式训练的方法及***的验证测试，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

测试环境采用4块异构显卡，分别是1块NVIDIA 2080Ti显卡，1块3080显卡，1块NVIDIAT4显卡和1块NVIDIA 1080Ti显卡，四块显卡分别安置在4台服务器上，这四台服务器组成一个异构集群，采用训练ResNet-101和DenseNet121网络对收敛速度进行比较。

为了对本方法中采用的技术效果加以验证说明，本实施例选择的不同方法和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

本实施例中将采用经典的本地SGD、传统的分布式SGD以及多层网络本地SGD和本方法对训练过程中的训练精度和损失值以及训练速度进行对比。

通过图2可以发现本发明在相同的训练时间内损失值下降的更快，能达到一个比较稳定的值，而多层网络本地SGD的由于值考虑网络因素故而损失值下降速度没有本方法快，分布式SGD的和本地SGD都遭受严重的异构性影响，每一轮迭代都需要花费大量的时间等待最慢的节点故而损失值下降速度最慢。

本发明主要适用于稠密网络的训练，如具有大量全连接层的稠密模型或类似于GPT-3的语言模型等，例如本例中使用的DenseNet121即属于具有大量全连接层的稠密模型。通过图3可以发现本发明在相同的训练时间内损失值下降的更快，能达到一个比较稳定的值，而多层网络本地SGD的由于值考虑网络因素故而损失值下降速度没有本方法快，分布式SGD的和本地SGD都遭受严重的异构性影响，每一轮迭代都需要花费大量的时间等待最慢的节点故而损失值下降速度最慢。

本文通过在第50个Epoch阶段设置学习率衰减，其变化对应于图中的跳跃点，故而可以发现本发明最先完成50个Epoch的计算，同时在相同的训练时间内可以达到更高的精度，而多层网络本地SGD只考虑了网络因素故而单位时间内的计算资源利用率没有本方法高，故而收敛速度仅次于本方法，分布式SGD的和本地SGD都遭受严重的异构性影响，每一轮迭代都需要花费大量的时间等待最慢的节点故而模型收敛速度最慢，如图4所示。

本发明主要适用于稠密网络的训练，如具有大量全连接层的稠密模型或类似于GPT-3的语言模型等，例如本例中使用的DenseNet121即属于具有大量全连接层的稠密模型。本文通过在第50个Epoch阶段设置学习率衰减，其变化对应于图中的跳跃点，故而可以发现本发明最先完成50个Epoch的计算，同时在相同的训练时间内可以达到更高的精度，而多层网络本地SGD只考虑了网络因素故而单位时间内的计算资源利用率没有本方法高，故而收敛速度仅次于本方法，分布式SGD的和本地SGD都遭受严重的异构性影响，每一轮迭代都需要花费大量的时间等待最慢的节点故而模型收敛速度最慢，如图5所示。

结果如下图2～3所示，本实施例分别在ResNet101数据集和DesnseNet121模型上对收敛速度进行比较，设置训练时间为1小时，批量大小为512，显然，本方法加在同类群中表现良好；相反，传统的分布式SGD在异构集群中不能很好地执行，原因是大部分的训练时间都是处于空闲状态，分布式SGD虽然具有最高的收敛精度，但其收敛速度非常缓慢。如图4～5所示，在ResNet101数据集和DesnseNet121模型上对训练精度进行比较，对于NLP任务，将epoch设置为3,批量大小设置为128,学习率设置为2e-5；结果表明，基于局部SGD的方法比传统的SGD方法要快得多；本方法比分布式SGD快31％，但准确度略有下降，这是因为Local SGD方法由于通信次数少造成的丢失信息，因此最终的精度会略微降低，但仍然处于可接受范围内，可以忽略不计。本方法可以有效提高计算资源的利用率，在单位时间内可以迭代更多训练数据，因此，在相同的端到端的训练时间内，可以获得更高的准确率，可以大幅减少训练所需要的时间。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。