CN113312178A

CN113312178A - 一种基于深度强化学习的流水线并行训练任务分配方法

Info

Publication number: CN113312178A
Application number: CN202110563603.2A
Authority: CN
Inventors: 毛莺池; 屠子健; 吴俊�; 平萍; 郭宏乐; 徐淑芳
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-27

Abstract

本发明公开一种基于深度强化学习的流水线并行训练任务分配方法，步骤为：初始化深度学习模型，并把该模型载入；建立对目标深度学习模型运行时分析方案，构建模型参数文本库；根据获取的模型参数文本信息，构建任务分配预测网络；使用策略梯度训练预测网络，直至生成最优流水线并行任务分配方案；按照生成的最优任务分配方案，在异构计算节点中部署模型，完成训练任务。本发明有效避免节点计算能力和网络带宽差差异带来的负载不均衡问题，提高模型训练速度，并且模型参数越大，提升效果越明显。

Description

一种基于深度强化学习的流水线并行训练任务分配方法

技术领域

本发明涉及一种基于深度强化学习的流水线并行训练任务分配方法，属于计算机流水线技术领域。

背景技术

深度神经网络广泛应用于各种领域，取得了超越人类的预测效果。随着模型的精度等要求越来越高，模型参数规模和计算需求越来越大，训练模型成为一个计算十分密集和耗时的任务。研究人员经常使用分布式计算机集群加速模型训练过程。流水线并行训练是一种新的训练方法。该方法将待训练模型的层划分为若干分组，每个分组对应不同流水线阶段。流水线***同时处理多个批次训练数据，使得流水线***满负荷运行在稳定状态。在稳定状态下，所有阶段都在执行不同批次训练样本的前向与后向传递任务，具有较高的***利用率。大部分情况下，流水线并行训练中通信数据量远小于数据并行训练，因为其仅需在阶段边界之间传递激活值与梯度。由于模型并不总是在可用训练节点中均等分割，可在某些流水线阶段使用数据并行保证流水线负载均衡。流水线并行训练可以有效解决数据并行的通信瓶颈和传统模型并行的硬件效率问题。然而，实际使用的***具有强异构性，每个计算节点具有不同的计算能力与网络传输能力。机房内计算节点之间网络传输能力强，机房之间计算节点通过骨干网络连接，网络传输能力较差。针对这些无法独立完成训练任务的老旧集群，研究如何聚合异构计算节点完成模型训练任务，具有重要意义。

发明内容

发明目的：为了克服现有方法中的问题，针对节点计算能力和网络带宽差差异带来的负载不均衡问题，本发明提供一种基于深度强化学习的流水线并行训练任务分配方法，提高模型训练速度，实现良好的负载均衡，保证流水线的工作效率。

技术方案：一种基于深度强化学习的流水线并行训练任务分配方法，包括如下步骤：

(1)初始化深度学习模型，并把该模型载入；

(2)建立待训练模型短暂运行的分析方案：记录模型详细信息，包括模型总层数、每一层的名称、计算时间、计算量、参数量、激活值大小等，利用记录的模型信息构建待训练模型参数文本库；

(3)根据获取的模型参数文本信息，构建任务分配预测网络；

(4)使用任务分配预测网络为待训练模型生成流水线并行训练方案；

(5)按照该流水线并行训练方案执行训练，采样求平均得到单个批次平均训练时间；

(6)计算任务分配方案的奖励函数，反向更新任务分配预测网络中的参数；

(7)判断是否生成训练时间最小的任务分配方案，是则输出该方案，否则返回步骤(4) 继续迭代；

(8)按照输出方案将模型部署到异构计算节点中，得到针对拟训练目标网络的流水线并行训练分配方案。

进一步的，所述步骤(3)中任务分配预测网络结构如下：

(3.1)任务划分网络，负责将模型中所有层划分为若干分组；

(3.2)任务分配网络，负责将每个分组任务分配到对应的计算节点中。

进一步的，所述步骤(4)中流水线并行训练方案的具体步骤如下：

(4.1)基于前馈神经网络的任务划分；

(4.2)基于注意力机制的任务分配。

进一步的，所述步骤(4.1)中基于前馈神经网络的任务划分的具体步骤如下：

(4.1.1)在模型中，每一层都对应着不同的操作，将操作名称转换为词向量；

(4.1.2)模型每一层的参数指标包括参数量、计算量与生成激活值大小。根据模型结构定义计算每一层需要的参数量，单位用MB表示；根据每一层参数量与对应计算操作估算其需要的计算量，单位用GFLOPS表示；根据每一层参数量与对应计算操作，估算出其每一层的生成的激活值大小，单位用MB表示；

(4.1.3)对模型逐层编号，编号从1开始，使用编号表示当前层关联的下一层，由于模型中每一层相关联的下一层数量不同，每个编号分配2位编码宽度，如无下一层信息，则使用-0.1填充；

(4.1.4)遍历模型中的每一层，经过上述4.1.1-4.1.3的处理步骤后，每一层得到对词向量进行编号后的向量信息，将这些向量信息输入到任务划分网络，任务划分网络预测出DNN 模型每一层的划分结果——模型分组结果。

进一步的，所述步骤(4.2)中基于注意力机制的任务分配的具体步骤如下：

(4.2.1)将任务划分网络预测得到的模型分组结果，通过编码器处理生成语义向量，顺序传入解码器；

(4.2.2)解码器按照分组顺序分配计算节点；

(4.2.3)在解码器进行预测的每个步骤中利用注意力机制，将上一步骤所分配的计算节点编号传入解码器，生成当前步骤计算节点分配结果；

(4.2.4)将模型划分结果与任务分配结果(4.2.3中的计算节点分配结果)部署在实际计算节点中，得到整体的任务分配方案。

进一步的，所述步骤(6)中奖励函数和更新参数的具体步骤如下：

模型在任务分配方案ρ的条件下训练一个批次的总时间定义为t(ρ)，包括一次前向计算、一次后向传播和一次参数更新，以秒为时间单位，故定义对于给定任务分配方案ρ的奖励函数为：

预测网络应最小化R_ρ的期望值以达到较好的训练效果。故定义损失函数J(θ_g,θ_d)为：

其中θ_g和θ_d分别表示任务划分网络和任务分配网络的参数，p(g；θ_g)表示任务划分网络生成分组结果g的概率，p(d|g；θ_d)表示任务分配网络根据分组结果g生成任务分配结果d 的概率。

分组结果的变化使预测得到的任务分配方案对应的运行时间相差很大，引入指数移动平均线以更好地反映预测分配方案的实际执行时间，预测网络的参数θ_g和θ_d梯度为：

其中Base为奖励R_ρ的指数移动平均值。

进一步的，所述步骤(7)中判断是否生成训练时间最小的任务分配方案的具体步骤如下：

流水线***总训练时间包括各阶段内的计算时间与阶段间的数据通信时间两部分。流水线并行任务分配的目标是最小化单个批次训练完成总时间，也就是最小化流水线***单个训练批次所有阶段的计算时间和通信时间。对于给定的模型G，定义T_l为每一层的总计算时间，包括前向和后向传递计算。a_l为每一层的输出激活值大小(也是后向传递的输入梯度的大小)。 w_l为每一层的参数量。若在每个阶段中使用m个计算节点进行数据并行训练，那么对于该阶段的第l层，每个计算节点之间需要互相通信的参数量为W_l ^m。假设将模型层划分为S个分组，对应流水线中S个阶段。任务分配方法目标是找到最优的流水线并行任务分配，使得T最小。任务分配方法的优化目标可表示为：

其中A_s表示阶段s内计算总时间，C_s表示阶段s和阶段s+1之间的通信时间。假设阶段 s使用m个计算节点对模型中p→q层使用数据并行进行训练，则A_s表示阶段s内计算时间与参数同步时间的最大值，C_s表示阶段s和阶段s+1之间传输边界层中间结果的最大通信时间，其分别可表示为：

其中

为当前分组所有层的总计算时间，

为当前分组中所有层的最大参数同步时间，a_q为第q层的输出激活值大小。B(i,j)表示计算节点i与j之间的带宽；D_s表示在阶段s中使用的计算节点集合，|D_s|即为计算节点数量。

有益效果：本发明与现有技术相比具有以下优点：

本发明针对节点计算能力和网络带宽差差异带来的负载不均衡问题，根据获取的模型参数文本信息，构建任务分配预测网络，使用策略梯度训练预测网络，直至生成最优流水线并行任务分配方案，提高模型训练速度，实现良好的负载均衡，保证流水线的工作效率。

附图说明

图1为具体实施例中异构集群拓扑示例图；

图2为具体实施例中基于深度强化学习的流水线并行训练任务分配方法示例图；

图3为本发明的流程图；

图4为具体实施例中预测网络整体结构示例图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

图1为本发明的异构集群拓扑应用场景。

集群1与集群2通过骨干网络带宽B₁连接，集群1与集群2内部计算节点计算能力不同，并且互连带宽不同，分别为B₂、B₃，通常B₂<B₃。针对这些无法独立完成DNN训练任务的老旧集群，研究如何聚合异构计算节点完成DNN模型训练任务，具有重要意义。

图2为基于深度强化学习的流水线并行训练任务分配方法示例图。

对DNN模型进行运行时分析，获取模型层数、名称、参数量、计算量等信息。根据获取的模型参数文本信息，构建任务分配预测网络，使用策略梯度训练预测网络，直至生成最优流水线并行任务分配方案。按照生成的最优任务分配方案，在异构计算节点中部署模型，完成训练任务。

图3为基于深度强化学习的流水线并行训练任务分配方法流程图。

步骤A：初始化深度学习模型，并把该模型载入。建立待训练模型短暂运行的分析方案，记录模型详细信息，包括模型总层数、每一层的名称、计算时间、计算量、参数量、激活值大小等，构建待训练模型参数文本库。

步骤B：根据获取的模型参数文本信息，构建任务分配预测网络。其中任务划分网络，负责将模型中所有层划分为若干分组；任务分配网络，负责将每个分组任务分配到对应的计算节点中。

步骤C：使用预测网络为待训练DNN模型生成流水线并行训练任务分配方案ρ，其中包含基于前馈神经网络的任务划分以及基于注意力机制的任务分配。

步骤C1：对于基于前馈神经网络的任务划分，在DNN模型中，每一层都对应着不同的操作，如卷积操作、池化操作、全连接操作等。由于操作名称都是字符类型，将其转换为词向量。故对每一层操作名称进行编码并建立一个字典库，训练过程中这个字典库也会不断更新；模型每一层的参数指标包括参数量、计算量与生成激活值大小。根据模型结构定义计算每一层需要的参数量，单位用MB表示；根据每一层参数量与对应计算操作估算其需要的计算量，单位用GFLOPS表示；根据每一层参数量与对应计算操作，估算出其每一层的生成的激活值大小，单位用MB表示。每个指标分配4位编码宽度，即参数指标总编码宽度为12 位；DNN模型由若干层组合而成。每一层的输出结果作为另一层的输入。对DNN模型逐层编号，编号从1开始。使用编号表示当前层关联的下一层。由于模型中每一层相关联的下一层数量不同，每个编号分配2位编码宽度。如无下一层信息，则使用-0.1填充；对于给定DNN模型，遍历模型中的每一层，经过上述的处理步骤后，每一层得到32位向量信息。将这些信息输入到任务划分网络，预测出DNN模型每一层的划分结果。

步骤C2：对于基于注意力机制的任务分配，将任务划分网络预测得到的DNN模型分组结果，通过编码器RNN处理生成语义向量，顺序传入解码器；解码器RNN按照分组顺序分配计算节点；在解码器进行预测的每个步骤中利用注意力机制，将上一步骤所分配的计算节点编号传入解码器，生成当前步骤计算节点分配结果；将DNN模型划分结果与任务分配结果部署在实际计算节点中，得到整体的任务分配方案。

图4为预测网络整体结构示例图

DNN划分网络采用前馈神经网络，最后一层是Softmax层，输出大小等于分组的数量。任务分配网络采用基于注意力机制的Seq2Seq模型。DNN划分网络将模型中每一层划分到对应分组。一旦所有层都被分组，使用分组中所有层的平均信息生成该分组的词向量，并将这些分组的词向量作为输入传递给任务分配网络。任务分配网络为每个分组任务分配对应计算节点。按照任务划分与分配网络的结果部署DNN模型，即得到最终的流水线任务分配方案。

对于典型流水线并行示例。

假设共有5层的DNN模型被划分为4个分组，前3层分别位于不同分组，后2层划分至同一分组。每个分组对应流水线***中一个阶段。向***中注入多个训练数据，各个阶段根据分组顺序以流水线方式依次执行训练任务。图中阶段1、2、3通过配置多个计算节点，使用数据并行进行训练，提高该阶段内训练吞吐量。数据并行与流水线并行方法相结合，可以降低流水线各阶段计算时间差异，保证流水线具有较高的吞吐量。可以看到该流水线*** 中数据通信主要存在于各阶段边界。

步骤D：按照该方案执行训练，采样求平均得到单个批次平均训练时间t(ρ)，计算奖励函数，反向更新预测网络中的参数。

DNN模型在任务分配方案ρ的条件下训练一个批次的总时间定义为t(ρ)，包括一次前向计算、一次后向传播和一次参数更新，以秒为时间单位，故定义对于给定任务分配方案ρ的奖励函数为：

其中Base为奖励R_ρ的指数移动平均值。

步骤E：判断是否生成训练时间最小的任务分配方案，是则输出该方案，否则返回步骤C 继续迭代。判断是否生成训练时间最小的任务分配方案的具体步骤如下：

其中

为当前分组所有层的总计算时间，

为当前分组中所有层的最大参数同步时间，a_q为第q层的输出激活值大小。

步骤F：按照该方案将模型部署到异构计算节点中，得到针对拟训练目标网络的流水线并行训练分配方案。

Claims

1.一种基于深度强化学习的流水线并行训练任务分配方法，其特征在于，包括如下步骤：

(1)初始化深度学习模型，并把该模型载入；

(2)建立待训练模型短暂运行的分析方案：记录模型详细信息，包括模型总层数、每一层的名称、计算时间、计算量、参数量、激活值大小，利用记录的模型信息构建待训练模型参数文本库；

(3)根据获取的模型参数文本信息，构建任务分配预测网络；

(7)判断是否生成训练时间最小的任务分配方案，是则输出该方案，否则返回步骤(4)继续迭代；

2.根据权利要求1所述的基于深度强化学习的流水线并行训练任务分配方法，其特征在于，所述步骤(3)中任务分配预测网络结构如下：

(3.1)任务划分网络，负责将模型中所有层划分为若干分组；

3.根据权利要求1所述的基于深度强化学习的流水线并行训练任务分配方法，其特征在于，所述步骤(4)中流水线并行训练方案的具体步骤如下：

(4.1)基于前馈神经网络的任务划分；

(4.2)基于注意力机制的任务分配。

4.根据权利要求3所述的基于深度强化学习的流水线并行训练任务分配方法，其特征在于，所述步骤(4.1)中基于前馈神经网络的任务划分的具体步骤如下：

(4.1.1)在模型中，每一层都对应着不同的操作，将其转换为词向量；

(4.1.2)模型每一层的参数指标包括参数量、计算量与生成激活值大小；根据模型结构定义计算每一层需要的参数量；根据每一层参数量与对应计算操作估算其需要的计算量；根据每一层参数量与对应计算操作，估算出其每一层的生成的激活值大小；

(4.1.3)对模型逐层编号；

(4.1.4)遍历模型中的每一层，经过上述的处理步骤后，每一层得到向量信息，将这些信息输入到任务划分网络，预测出DNN模型每一层的划分结果——模型分组结果。

5.根据权利要求3所述的基于深度强化学习的流水线并行训练任务分配方法，其特征在于，所述步骤(4.2)中基于注意力机制的任务分配的具体步骤如下：

(4.2.2)解码器按照分组顺序分配计算节点；

(4.2.4)将模型划分结果与任务分配结果部署在实际计算节点中，得到整体的任务分配方案。

6.根据权利要求1所述的基于深度强化学习的流水线并行训练任务分配方法，其特征在于，所述步骤(6)中奖励函数和更新参数的具体步骤如下：

其中θ_g和θ_d分别表示任务划分网络和任务分配网络的参数，p(g；θ_g)表示任务划分网络生成分组结果g的概率，p(d|g；θ_d)表示任务分配网络根据分组结果g生成任务分配结果d的概率；

其中Base为奖励R_ρ的指数移动平均值。

7.根据权利要求1所述的基于深度强化学习的流水线并行训练任务分配方法，其特征在于，所述步骤(7)中判断是否生成训练时间最小的任务分配方案的具体步骤如下：

流水线***总训练时间包括各阶段内的计算时间与阶段间的数据通信时间两部分；流水线并行任务分配的目标是最小化单个批次训练完成总时间，也就是最小化流水线***单个训练批次所有阶段的计算时间和通信时间；对于给定的模型G，定义T_l为每一层的总计算时间，包括前向和后向传递计算；a_l为每一层的输出激活值大小；w_l为每一层的参数量。若在每个阶段中使用m个计算节点进行数据并行训练，那么对于该阶段的第l层，每个计算节点之间需要互相通信的参数量为W_l ^m；假设将模型层划分为S个分组，对应流水线中S个阶段；任务分配方法目标是找到最优的流水线并行任务分配，使得T最小；任务分配方法的优化目标可表示为：

其中A_s表示阶段s内计算总时间，C_s表示阶段s和阶段s+1之间的通信时间。假设阶段s使用m个计算节点对模型中p→q层使用数据并行进行训练，则A_s表示阶段s内计算时间与参数同步时间的最大值，C_s表示阶段s和阶段s+1之间传输边界层中间结果的最大通信时间，其分别可表示为：

其中

为当前分组所有层的总计算时间，

8.根据权利要求4所述的基于深度强化学习的流水线并行训练任务分配方法，其特征在于，对模型逐层编号，编号从1开始，使用编号表示当前层关联的下一层，由于模型中每一层相关联的下一层数量不同，每个编号分配2位编码宽度，如无下一层信息，则使用-0.1填充。