CN109255439A

CN109255439A - 一种多个gpu并行的dnn模型训练方法和装置

Info

Publication number: CN109255439A
Application number: CN201710564223.4A
Authority: CN
Inventors: 龚轶凡; 靳江明; 苏磊
Original assignee: Beijing Tusimple Future Technology Co Ltd
Current assignee: Beijing Tusimple Technology Co Ltd
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2019-01-22
Anticipated expiration: 2037-07-12
Also published as: CN109255439B

Abstract

本发明公开一种多个GPU并行的DNN模型训练方法和装置，用于解决现有技术中多个GPU并行训练DNN模型时存在的训练精度低的问题。该方法包括：在前向传播处理过程中，接收前向BN输入数据子集；确定全局前向BN输入数据均值集合；根据全局前向BN输入数据均值集合，对前向BN输入数据子集进行前向BN处理，得到前向BN输出数据子集；在后向传播处理过程中，接收后向BN输入数据子集；确定全局后向BN输入数据均值集合；根据全局后向BN输入数据均值集合、后向BN输入数据子集和全局前向BN数据均值集合，对前向BN输入数据子集进行后向BN处理，得到前向BN输入数据子集中每个数据的梯度。

Description

一种多个GPU并行的DNN模型训练方法和装置

技术领域

本发明涉及信息处理领域，特别涉及一种多个图形处理单元(GraphicsProcessing Unit，GPU)并行的深度神经网络(Deep Neutral Network，DNN)模型训练方法和装置。

背景技术

目前在对图片进行分类和分割的深度学习中，会进行DNN模型训练。现有技术中存在一种多个GPU并行训练的方法。将一张或多张图片的数据(或称为全局数据)按照GPU的数量分为多个数据子集，并将这多个数据子集对应分配给多个GPU，各GPU使用分配的数据子集对DNN模型进行训练，以提高训练的效率。具体地在实际处理的过程中，在一个训练周期内，***将获得的一批训练数据(data batch)(例如多张图片)按照已有的GPU卡数目，分成相应份数的数据子集(sub batch)，并将数据子集分发给对应的GPU卡。在训练时，每一块GPU卡上会预先加载一套完整的待训练的DNN模型，再使用分配到的数据子集去训练该DNN模型。

由于每块GPU获得的数据不同，就会导致不同GPU卡训练出来的DNN模型权重的梯度存在差异。

这种情况下会进行模型同步操作，即将不同GPU上训练出来的梯度进行归约合并，确定得到相同的梯度，再用该归约合并得到的梯度去更新每块GPU上的模型权重。

通过上述方案，多GPU并行训练DNN模型的效率提高了，但是整体训练的精度下降了，并且在GPU的数量越多时，精度下降的越明显。

发明内容

鉴于上述问题，本发明提供了一种多个GPU并行的DNN模型训练方法和装置，用以解决现有技术中多个GPU并行训练DNN模型时存在的训练精度低的问题。

根据本申请的一个方面，一些实施例中提供了一种多个GPU并行的DNN模型训练方法，包括：多个GPU中的一个GPU在对分配到的数据子集进行DNN模型训练时，在前向传播处理过程中，接收前向归一化(BN)输入数据子集；确定全局前向BN输入数据均值集合；根据所述全局前向BN输入数据均值集合，对所述前向BN输入数据子集进行前向BN处理，得到前向BN输出数据子集；

在后向传播处理过程中，接收后向BN输入数据子集，所述后向BN输入数据子集是所述前向BN输出数据子集的梯度集合；确定全局后向BN输入数据均值集合；根据所述全局后向BN输入数据均值集合、所述后向BN输入数据子集和所述全局前向BN数据均值集合，对所述前向BN输入数据子集进行后向BN处理，得到所述前向BN输入数据子集中每个数据的梯度。

根据本申请的一个方面，一些实施例中提供了一种多GPU并行的DNN模型训练装置，所述装置设置在多个GPU的每个GPU中，所述装置包括：前向归一化(BN)处理单元，用于在前向传播处理过程中，接收前向BN输入数据子集；确定全局前向BN输入数据均值集合；根据所述全局前向BN输入数据均值集合，对所述前向BN输入数据子集进行前向BN处理，得到前向BN输出数据子集；后向BN处理单元，用于在后向传播处理过程中，接收后向BN输入数据子集，所述后向BN输入数据子集是所述前向BN输出数据子集的梯度集合；确定全局后向BN输入数据均值集合；根据所述全局后向BN输入数据均值集合、所述后向BN输入数据子集和所述全局前向BN数据均值集合，对所述前向BN输入数据子集进行后向BN处理，得到所述前向BN输入数据子集中每个数据的梯度。

通过本申请实施例提供的方法和装置，多个GPU并行训练DNN模型时，在前向BN处理过程中引入了全局前向BN输入数据的均值集合，在后向BN处理过程中引入了全局后向BN输入数据的均值集合，能够弥补GPU未获得全部数据进行DNN模型训练的缺陷，能够基于全局数据的均值情况进行前向BN处理和后向BN处理、得到与单个GPU进行全局数据训练时的相似的全局梯度、提高训练精度，从而能够解决现有技术中多个GPU并行训练时训练精度低的问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1a为现有技术中多个GPU并行的DNN模型训练的示意图；

图1b为现有技术中多个GPU并行的DNN模型训练的训练精度和检验精度图；

图2为本申请实施例提供的多个GPU并行的DNN模型训练方法的流程图；

图3a为图2中步骤201的一种处理流程图；

图3b为图2中步骤201的一种处理流程图；

图3c为图2中步骤201的一种处理流程图；

图4a为图2中步骤202的一种处理流程图；

图4b为图2中步骤202的一种处理流程图；

图4c为图2中步骤202的一种处理流程图；

图5为本申请实施例提供的多个GPU并行的DNN模型训练装置的结构框图；

图6为实施图2所示方法的模型训练精度图；

图7为实施图2所示方法的模型检验精度图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在现有技术中，在进行多GPU并行训练DNN模型时，由于每个GPU分配到的数据子集是全局数据的一部分，使用数据子集训练DNN会导致不同GPU训练出来的模型权重的梯度存在差异，此时将不同GPU上训练出来的梯度进行归约合并，得到相同的梯度，再用该梯度去更新每个GPU上的模型权重，会导致多GPU并行训练的模型的精度比单GPU时训练的精度要低，而且在GPU的数量越多时，精度下降的越明显。

本申请的发明人在解决上述技术问题的过程中，发现多GPU并行的DNN模型训练方法中，归一化(Batch Normalization，BN)层进行数据间操作，主要对该GPU上进入BN层的数据子集(即BN层输入数据子集)计算全部数据的均值和方差，再使用该均值和方差对数据子集中的每个数据进行归一化处理。具体如图1a所示，多个GPU包括GPU 0、GPU 1和GPU 2，GPU0、GPU 1和GPU 2分别使用分配到的数据子集Sub Batch 0、Sub Batch 1和Sub Batch 2对其内预载的DNN模型进行训练，在前向处理过程中，对进入BN层的数据子集进行BN处理，在后向处理之后将不同GPU上训练出来的梯度进行归约合并，确定得到相同的梯度，再用该确定得到的梯度去更新每块GPU上的模型权重。

但是在前向处理的过程中，由于每个GPU上的数据子集只是全局数据的一部分，各个GPU之间的数据存在差异，BN层中计算出来的数据子集的均值和方差都不一样，使用均值和方差对每个数据进行归一化处理，进一步扩大了各GPU上的数据的局部性，从而导致各GPU计算出的梯度方向并非全局下降方向、以及训练精度低的问题。如图1b所示，3个GPU并行的DNN模型训练精度(如图1b中细实线所示)相比于单GPU对全局数据进行DNN模型训练时的精度(如图1b中粗实线所示)下降了7％左右，而3个GPU并行的检验精度(如图1b中细虚线所示)比单GPU时的检验精度(如图1b中粗实线所示)下降了15％左右。当GPU数量进一步增加时，精度会进一步下降。

针对该问题，在本申请实施例提供的方法中，多个GPU并行训练DNN模型时，在进行前向传播处理的过程中，对全局前向BN输入数据确定全局前向BN输入数据均值集合，并根据该全局前向BN输入数据均值集合，对进入BN层的前向BN输入数据子集进行前向BN处理，并且在后向BN处理过程中，将前向BN处理输出的数据子集的梯度集合作为后向BN的输入，并对全局后向BN输入数据确定全局后向BN输入数据均值集合，根据该全局后向BN输入数据均值集合对前向BN输入数据子集进行后向BN处理，确定得到前向BN输入数据的梯度；由于在前向BN处理过程中引入了全局前向BN输入数据的均值集合，在后向BN处理过程中引入了全局后向BN输入数据的均值集合，能够弥补GPU未获得全部数据进行DNN模型训练的缺陷，能够基于全局数据的均值情况进行前向BN处理和后向BN处理、得到与单个GPU进行全局数据训练时的相似的全局梯度、提高训练精度，从而能够解决现有技术中多个GPU并行训练DNN模型时训练精度低的问题。

下面对本申请实施例提供的方法和装置进行详细说明。

实施例一

参见图2，本申请实施例提供了一种多个GPU并行的DNN模型训练方法，该方法的处理流程包括：

步骤201，多个GPU中的一个GPU在对分配到的数据子集进行DNN模型训练时，在前向传播处理过程中，接收前向归一化(BN)输入数据子集；确定全局前向BN输入数据均值集合；根据所述全局前向BN输入数据均值集合，对所述前向BN输入数据子集进行前向BN处理，得到前向BN输出数据子集；

步骤202，在后向传播处理过程中，接收后向BN输入数据子集，所述后向BN输入数据子集是所述前向BN输出数据子集的梯度集合；确定全局后向BN输入数据均值集合；根据所述全局后向BN输入数据均值集合、所述后向BN输入数据子集和所述全局前向BN数据均值集合，对所述前向BN输入数据子集进行后向BN处理，得到所述前向BN输入数据子集中每个数据的梯度。

本申请提供的方法在前向传播处理过程中，根据确定的全局前向BN输入数据均值集合，对前向BN输入数据子集进行前向BN处理，在后向传播处理过程中，根据确定的全局后向BN输入数据均值集合、后向BN输入数据子集和全局前向BN数据均值集合，对所述前向BN输入数据子集进行后向BN处理，能够弥补GPU没有获得全部数据进行DNN模型训练的缺陷，能够基于全局数据的均值情况进行前向BN处理和后向BN处理、得到与单个GPU进行全局数据训练时的相似的全局梯度、提高训练精度，从而能够解决现有技术中多个GPU并行训练DNN模型时存在的训练精度低的问题。

下面对前向传播处理过程中的前向BN处理和后向传播处理过程中的后向BN处理进行详细说明。

本发明实施例中，前述步骤201中，确定全局前向BN输入数据均值集合具体可通过但不仅限于以下两种方式实现：

方式1、多个GPU中，选取一个GPU作为主GPU，其他GPU为从GPU，由主GPU确定全局前向BN输入数据均值集合，并将该全局前向BN输入数据均值集合发送给其他各从GPU，从GPU无需再独立计算全局前向BN输入数据均值集合。

方式2、多个GPU不分主从，每个GPU分别独立确定全局前向BN输入数据均值集合。

基于方式1，当GPU为主GPU时，确定全局前向BN输入数据均值集合可通过以下步骤A1～步骤A4实现：

步骤A1、主GPU根据所述前向BN输入数据子集确定所述GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；

步骤A2、接收来自其它各从GPU的前向BN输入数据子集均值集合；

步骤A3、根据所述主GPU的前向BN输入数据子集均值集合和其它各从GPU的前向BN输入数据子集均值集合，确定全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值；

步骤A4、将所述全局前向BN输入数据均值集合发送给其它各从GPU。

基于方式1，当GPU为从GPU时，确定全局前向BN输入数据均值集合可通过以下步骤B1～步骤B3实现：

步骤B1、从GPU根据所述前向BN输入数据子集确定所述从GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；

步骤B2、将所确定的前向BN输入数据子集均值集合发送给多个GPU中的主GPU；

步骤B3、接收来自所述主GPU的所述全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值。

基于方式2，确定全局前向BN输入数据均值集合可通过以下步骤C1～步骤C3实现：

步骤C1、根据所述前向BN输入数据子集确定所述GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；

步骤C2、将所述GPU的前向BN输入数据子集均值集合发送给其它GPU；

步骤C3、接收来自其它各GPU的前向BN输入数据子集均值集合；

步骤C4、根据所述GPU的前向BN输入数据子集均值集合和其它各GPU的前向BN输入数据子集均值集合，确定所述全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值。

其中步骤A1、步骤B1和步骤C1的实现方式相同。其中方式1、方式2中，GPU根据多个GPU的输入数据子集均值集合确定所述全局前向BN输入数据均值集合的方式也相同。

以下针对前述方式1中的主GPU、方式1中的从GPU以及方式2中的每个GPU，前述步骤201的具体实现进行详细的描述，分别参见图3a、图3b和图3c。

图3a示出了图2中步骤201的详细处理过程，包括如下的处理流程：

步骤2011，接收前向BN输入数据子集，该前向BN输入数据子集为在前向传播处理过程中输入到BN层的数据子集，具体可表示为B_i＝{x_i,j}(j＝1,2,…m_i)，B_i为所述GPU为第i个GPU时的前向BN输入数据子集，x_i,j为所述前向BN输入数据子集中的数据，m_i为所述前向BN输入数据子集中的数据的数量；

步骤2012，在所述GPU为多个GPU中的主GPU的情况下，所述主GPU根据所述前向BN输入数据子集确定所述主GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；

在本申请的一些实施例中，可以根据公式确定所述前向BN输入数据子集的均值，根据公式确定所述前向BN输入数据子集的平方均值；

其中，μ_i为所述GPU为第i个GPU时的前向BN输入数据子集的均值，v_i为所述GPU为第i个GPU时的前向BN输入数据子集的平方均值；

在本申请的其实实施例中，也可以根据其它方法来确定前向BN输入数据子集的均值和平方均值，这些方法对于本领域普通技术人员而言是熟知的，在这里不再赘述；

步骤2013，接收来自其它各从GPU的前向BN输入数据子集均值集合；

步骤2014，根据所述主GPU的前向BN输入数据子集均值集合和其它各从GPU的前向BN输入数据子集均值集合，确定全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值；并将所述全局前向BN输入数据均值集合发送给其它各从GPU；

在本申请的一些实施例中，可以根据公式确定所述全局前向BN输入数据的均值，根据公式确定所述全局前向BN输入数据的平方均值；

其中，n为所述多个GPU的数量，m_i为第i个GPU的前向BN输入数据子集中的数据的数量，μ_i为第i个GPU的前向BN输入数据子集的均值，μ为所述全局前向BN输入数据的均值，v_i为第i个GPU的前向BN输入数据子集的平方均值，v为所述全局前向BN输入数据的平方均值；

在本申请的其它实施例中，也可以根据其它方法来确定全局前向BN输入数据的均值和平方均值，本领域普通技术人员可以根据具体的应用场景选择具体的算法，本申请这里不一一列举；

步骤2015，根据所述全局前向BN输入数据的均值和平方均值，确定全局前向BN输入数据的方差；

在本申请的一些实施例中，可以根据公式σ²＝v-μ²确定所述全局前向BN输入数据的方差，其中，σ²为所述全局前向BN输入数据的方差，v和μ如步骤2014中所示，分别为所述全局前向BN输入数据的平方均值和均值；

在本申请的其它实施例中，也可以根据其它方法来确定全局前向BN输入数据的方差，本领域技术人员可以根据具体的应用场景选择具体的算法，本申请这里不一一列举；

步骤2016，根据所述全局前向BN输入数据的方差对所述前向BN输入数据子集中的每个数据进行前向BN操作，得到前向BN后数据子集；

在本申请的一些实施例中，可以根据公式对所述前向BN输入数据子集中的每个数据进行前向BN操作，其中，如上所述x_i,j为所述前向BN输入数据子集中的数据，m_i为所述前向BN输入数据子集中的数据的数量，μ为所述全局前向BN输入数据的均值，σ²为所述全局前向BN输入数据的方差，ε为固定的极小非零值、防止除零情况的发生，为所述前向BN后数据子集中的数据；

步骤2017，对所述前向BN后数据子集中每个数据进行偏移操作，得到所述前向BN输出数据子集。

在本申请的一些实施例中，可以根据公式对所述前向BN后数据子集中每个数据进行偏移操作，其中，γ、β为偏移参数，为所述前向BN后数据子集中的数据，y_i,j为所述前向BN输出数据子集中的数据。

在上述前向传播处理过程中，GPU确定全局前向BN输入数据均值和平方均值，对前向BN输入数据子集进行的基于全局前向BN输入数据均值和平方均值的BN处理，能够弥补GPU未获得全部数据进行前向BN处理的缺陷，能够基于全局数据的均值情况进行前向BN处理。

图3a所示的处理过程描述了多个GPU中的主GPU的前向BN处理工作原理，从GPU的前向BN处理工作原理与主GPU的前向BN处理工作原理的区别在于上述步骤2012-2014，其它处理过程与图3a所示的步骤2011和2015-2017相同，下面参考图3b对从GPU的前向BN处理处理过程进行说明，图3b中与图3a中相同的处理步骤不再赘述。

步骤2011，接收前向BN输入数据子集；

步骤2012’，在所述GPU为多个GPU中的从GPU的情况下，所述从GPU根据所述前向BN输入数据子集确定所述从GPU的前向BN输入数据子集均值集合；确定前向BN输入数据子集均值集合的方法与步骤2012相同，这里不再赘述；

步骤2013’，将所确定的前向BN输入数据子集均值集合发送给多个GPU中的主GPU；

步骤2014’，接收来自所述主GPU的所述全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值；

在多个GPU分为主/从GPU的情况下，由主GPU确定全局前向BN输入数据均值集合，从GPU接收主GPU所确定的全局前向BN输入数据均值集合，能够节省从GPU的处理资源。

在本申请的其它一些实施例中，也可以不区分主/从GPU，每个GPU独立确定全局前向BN输入数据均值集合。各独立GPU的前向BN处理工作原理与主GPU的前向BN处理工作原理的区别在于上述步骤2012-2014，其它处理过程与图3a所示的步骤2011和2015-2017相同，下面参考图3c对各GPU的处理过程进行说明，图3c中与图3a中相同的处理步骤不再赘述。

步骤2011，接收前向BN输入数据子集；

步骤2012”，根据所述前向BN输入数据子集确定所述GPU的前向BN输入数据子集均值集合；确定前向BN输入数据子集均值集合的方法与步骤2012相同，这里不再赘述；

步骤2013”，将所确定的前向BN输入数据子集均值集合发送给其它各GPU；接收来自其它各GPU的前向BN输入数据子集均值集合；

步骤2014”，根据所述GPU的前向BN输入数据子集均值集合和其它各GPU的前向BN输入数据子集均值集合，确定所述全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值；确定全局前向BN输入数据均值集合的方法与步骤2014相同，这里不再赘述；

在多个GPU中的各个GPU为独立GPU的情况下，各GPU分别各自确定全局前向BN输入数据均值集合，各GPU之间的操作独立性高，不依赖于其它GPU的处理结果。

下面对后向传播处理过程的BN处理进行说明。

本发明实施例中，前述步骤202中，确定全局后向BN输入数据均值集合具体可通过但不仅限于以下两种方式实现：

方式1、多个GPU中，选取一个GPU作为主GPU，其他GPU为从GPU，由主GPU确定全局后向BN输入数据均值集合，并将该全局后向BN输入数据均值集合发送给其他各从GPU，从GPU无需再独立计算全局后向BN输入数据均值集合。

方式2、多个GPU不分主从，每个GPU分别独立确定全局后向BN输入数据均值集合。

方式1中主GPU确定全局后向BN输入数据均值集合可通过以下的步骤D1～D4实现：

步骤D1、主GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述主GPU的后向BN输入数据子集均值集合，所述后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

步骤D2、接收来自其它各从GPU的后向BN输入数据子集均值集合；

步骤D3、根据所述主GPU的后向BN输入数据子集均值集合和其它各从GPU的后向BN输入数据子集均值集合，确定所述全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值；

步骤D4、将所述全局后向BN输入数据均值集合发送给其它各从GPU。

方式1中从GPU确定全局后向BN输入数据均值集合可通过以下的步骤E1～E3实现：

步骤E1、所述从GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述从GPU的后向BN输入数据子集均值集合，所述从GPU的后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

步骤E2、将所确定的后向BN输入数据子集均值集合发送给多个GPU中的主GPU；

步骤E3、接收来自所述主GPU的全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值。

方式2中各GPU可通过以下步骤F1～F4实现：

步骤F1、所述GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述GPU的后向BN输入数据子集均值集合，所述GPU的后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

步骤F2、将所述GPU的后向BN输入数据子集均值集合发送给其它各GPU；

步骤F3、接收来自其它各GPU的后向BN输入数据子集均值集合；

步骤F4、根据所述GPU的后向BN输入数据子集均值集合和其它各GPU的后向BN输入数据子集均值集合，确定所述全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值。

其中步骤D1、步骤E1和步骤F1的实现方式相同。其中方式1、方式2中，GPU根据多个GPU的后向BN输入数据子集均值集合确定所述全局前向BN输入数据均值集合的方式也相同。

以下针对前述方式1中的主GPU、方式1中的从GPU以及方式2中的每个GPU，前述步骤202的具体实现进行详细的描述，分别参见图4a、图4b和图4c。

图4a示出了图2中步骤202的详细处理过程，包括如下的处理流程：

步骤2021，接收后向BN输入数据子集，该后向BN输入数据子集是上述步骤2017中确定得到的前向BN输入数据子集的梯度集合，具体可表示为G_i为所述GPU为第i个GPU时的后向BN输入数据子集，是预定的损失函数，y_i,j为所述前向BN输出数据子集中的数据，为y_i,j的梯度、也即后向BN输入数据子集中的数据；

步骤2022，在所述GPU为多个GPU中的主GPU的情况下，所述主GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述主GPU的后向BN输入数据子集均值集合，所述后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

在本申请的一些实施例中，可以根据公式确定所述后向BN输入数据子集均值，其中，为所述GPU为第i个GPU时的后向BN输入数据子集均值；

在本申请的一些实施例中，可以根据公式确定所述前向BN梯度校正数据均值，其中，φ_i为所述GPU为第i个GPU时的前向BN梯度校正数据均值；

步骤2023，接收来自其它各从GPU的后向BN输入数据子集均值集合；

步骤2024，根据所述主GPU的后向BN输入数据子集均值集合和其它各从GPU的后向BN输入数据子集均值集合，确定全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值；将所述全局后向BN输入数据子集均值集合发送给其它各从GPU；

在本申请的一些实施例中，可以根据公式确定所述全局后向BN输入数据均值，其中，n为所述多个GPU的数量，m_i为第i个GPU的前向BN输入数据子集的数据的数量，为第i个GPU的前向BN输出数据子集梯度均值，为所述全局后向BN输入数据均值；

在本申请的一些实施例中，可以根据公式确定所述全局前向BN梯度校正数据均值，其中，φ_i为第i个GPU的前向BN梯度校正数据均值，φ为所述全局前向BN梯度校正数据均值；

步骤2025，根据所述后向BN输入数据子集确定所述前向BN后数据子集中每个数据的梯度；

在本申请的一些实施例中，可以根据公式确定所述前向BN后数据子集中每个数据的梯度，其中，是预定的损失函数，γ为偏移参数，为所述前向BN后数据子集中数据的梯度；

步骤2026，根据所述全局前向BN输入数据均值集合、全局后向BN输入数据均值和全局前向BN梯度校正数据均值，确定所述全局前向BN输入数据的方差的梯度；

在本申请的一些实施例中，根据公式确定所述全局前向BN输入数据的方差的梯度，其中，σ²为全局前向BN输入数据的方差，ε为固定的极小非零值，φ为所述全局前向BN梯度校正数据均值，为所述全局前向BN输出数据梯度均值，γ为偏移参数，为所述全局前向BN输入数据的方差的梯度；

步骤2027，根据所述全局前向BN输入数据均值集合、所述全局前向BN梯度校正数据均值确定全局前向BN输入数据均值的梯度；

在本申请的一些实施例中，根据公式确定所述全局前向BN输入数据均值的梯度，其中，σ²为全局前向BN输入数据的方差，ε为固定的极小非零值，φ为所述全局前向BN梯度校正数据均值，γ为偏移参数，是所述全局前向BN输入数据均值的梯度；

步骤2028，根据所述前向BN后数据子集中每个数据的梯度、所述全局前向BN输入数据的方差的梯度、所述全局前向BN输入数据均值的梯度、所述全局前向BN输入数据均值集合和所述全局前向BN输入数据的均值，确定所述前向BN输入数据子集中每个数据的梯度；

在本申请的一些实施例中，根据公式确定所述前向BN输入数据子集中每个数据的梯度，其中，为上述步骤2025中确定的前向BN后数据子集中每个数据的梯度，σ²为全局前向BN输入数据的方差，ε为固定的极小非零值，为上述步骤2026中确定的全局前向BN输入数据的方差的梯度，是上述步骤2027中确定的全局前向BN输入数据均值的梯度，是所述前向BN输入数据子集中的数据x_i,j的梯度。

在上述后向传播处理过程中，将前向BN处理后输出的前向BN输出数据子集的梯度集合作为后向BN处理的输入，GPU确定全局后向BN输入数据均值集合，基于全局前向BN输入数据均值集合以及全局后向BN输入数据均值集合，对前向BN输入数据子集进行后向BN处理，能够弥补GPU未获得全部数据进行DNN模型训练的缺陷，能够基于全局数据的均值情况进行前向BN处理和后向BN处理，得到与单GPU进行全局数据训练时相似的数据的全局梯度，对模型训练的精度能够达到与单GPU对全局数据进行训练时的相似的精度；从而本申请提出的多GPU并行的DNN模型训练方法能够解决现有技术中存在的多个GPU并行训练DNN模型时存在的训练精度低的问题。

图4a所示的处理过程描述了多个GPU中的主GPU的后向BN处理工作原理，从GPU的后向BN处理工作原理与主GPU的后向BN处理工作原理的区别在于上述步骤2022-2024，其它处理过程与图4a所示的步骤2011和2025-2028相同，下面参考图4b对从GPU的后向BN处理处理过程进行说明，图4b中与图4a中相同的处理步骤不再赘述。

步骤2021，接收后向BN输入数据子集；

步骤2022’，在所述GPU为多个GPU中的从GPU的情况下，所述从GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述从GPU的后向BN输入数据子集均值集合，所述从GPU的后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

步骤2023’，将所确定的后向BN输入数据子集均值集合发送给多个GPU中的主GPU；

步骤2024’，接收来自所述主GPU的全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值；

步骤2028，根据所述前向BN后数据子集中每个数据的梯度、所述全局前向BN输入数据的方差的梯度、所述全局前向BN输入数据均值的梯度、所述全局前向BN输入数据均值集合和所述全局前向BN输入数据的均值，确定所述前向BN输入数据子集中每个数据的梯度。

在多个GPU分为主/从GPU的情况下，由主GPU确定全局后向BN输入数据均值集合，从GPU接收主GPU所确定的全局后向BN输入数据均值集合，能够节省从GPU的处理资源。

在本申请的其它一些实施例中，也可以不区分主/从GPU，每个GPU独立确定全局后向BN输入数据均值集合。各独立GPU的后向BN处理工作原理与主GPU的后向BN处理工作原理的区别在于上述步骤2022-2024，其它处理过程与图4a所示的步骤2021和2025-2028相同，下面参考图4c对各GPU的处理过程进行说明，图4c中与图4a中相同的处理步骤不再赘述。

步骤2021，接收后向BN输入数据子集；

步骤2022”，所述GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述GPU的后向BN输入数据子集均值集合，所述GPU的后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

步骤2023”，将所述GPU的后向BN输入数据子集均值集合发送给其它各GPU；接收来自其它各GPU的后向BN输入数据子集均值集合；

步骤2024”，根据所述GPU的后向BN输入数据子集均值集合和其它各GPU的后向BN输入数据子集均值集合，确定所述全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值；

在多个GPU中的各个GPU为独立GPU的情况下，各GPU分别各自确定全局后向BN输入数据均值集合，各GPU之间的操作独立性高，不依赖于其它GPU的处理结果。

在图2至图4c所示处理方法的基础上，本申请实施例提供的多GPU并行的DNN模型训练方法还进一步地包括如下处理：根据全局前向BN输入数据的均值集合和全局后向BN输入数据均值集合，确定BN层训练参数的梯度，所述训练参数包括上述的偏移参数γ和β。

在本申请的一些实施例中，可以根据公式确定偏移参数γ的梯度，根据公确定偏移参数β的梯度，其中，为所述GPU为第i个GPU时的偏移参数γ的梯度，为所述GPU为第i个GPU时的偏移参数β的梯度。

确定出偏移参数γ和β的梯度后，可以利用该确定的梯度和梯度下降算法来更新γ和β的值，达到优化DNN模型的目的。

下面对本申请实施例提供的多个GPU并行的DNN模型训练装置进行说明，该装置设置于多个GPU中的每个GPU中，该GPU对分配到的数据子集进行DNN模型训练，图5示出了该装置的结构框图，该装置包括：前向BN处理单元51和后向BN处理单元52。

前向BN处理单元51，用于在前向传播处理过程中，接收前向BN输入数据子集；确定全局前向BN输入数据均值集合；根据所述全局前向BN输入数据均值集合，对所述前向BN输入数据子集进行前向BN处理，得到前向BN输出数据子集；

其中，在本申请的一些实施例中，所述前向BN处理单元51确定全局前向BN输入数据均值集合，包括：在所述GPU为多个GPU中的主GPU的情况下，所述主GPU根据所述前向BN输入数据子集确定所述GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；接收来自其它各从GPU的前向BN输入数据子集均值集合；根据所述主GPU的前向BN输入数据子集均值集合和其它各从GPU的前向BN输入数据子集均值集合，确定全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值；将所述全局前向BN输入数据均值集合发送给其它各从GPU。

在本申请的另一些实施例中，所述前向BN处理单元确定全局前向BN输入数据均值集合，包括：在所述GPU为多个GPU中的从GPU的情况下，所述从GPU根据所述前向BN输入数据子集确定所述从GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；将所确定的前向BN输入数据子集均值集合发送给多个GPU中的主GPU；接收来自所述主GPU的所述全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值。

在本申请的另一些实施例中，所述前向BN处理单元51确定全局前向BN输入数据均值集合，包括：根据所述前向BN输入数据子集确定所述GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；将所述GPU的前向BN输入数据子集均值集合发送给其它GPU；接收来自其它各GPU的前向BN输入数据子集均值集合；根据所述GPU的前向BN输入数据子集均值集合和其它各GPU的前向BN输入数据子集均值集合，确定所述全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值。

所述前向BN处理单元51确定所述GPU的前向BN输入数据子集均值集合，包括：根据公式确定所述前向BN输入数据子集的均值，其中，Β_i＝{x_i,j}(j＝1,2,…m_i)，Bi为所述GPU为第i个GPU时的前向BN输入数据子集，x_i,j为所述前向BN输入数据子集中的数据，mi为所述前向BN输入数据子集中的数据的数量，μ_i为所述GPU为第i个GPU时的前向BN输入数据子集的均值；根据公式确定所述前向BN输入数据子集的平方均值，其中，ν_i为所述GPU为第i个GPU时的前向BN输入数据子集的平方均值。

所述前向BN处理单元51确定全局前向BN输入数据均值集合，包括：根据公式确定所述全局前向BN输入数据的均值，其中，n为所述多个GPU的数量，μ_i为第i个GPU的前向BN输入数据子集的均值，m_i为第i个GPU的前向BN输入数据子集中的数据的数量，μ为所述全局前向BN输入数据的均值；据公式确定所述全局前向BN输入数据的平方均值，其中，ν_i为第i个GPU的前向BN输入数据子集的平方均值，ν为所述全局前向BN输入数据的平方均值。

所述前向BN处理单元51对所述前向BN输入数据子集进行前向BN处理，包括：根据所述全局前向BN输入数据的均值和平方均值，对所述前向BN输入数据子集中的每个数据进行前向BN操作，得到前向BN后数据子集；对所述前向BN后数据子集中每个数据进行偏移操作，得到所述前向BN输出数据子集。

所述前向BN处理单元51对所述前向BN输入数据子集中的每个数据进行前向BN操作，包括：

根据公式σ²＝ν-μ²确定所述全局前向BN输入数据的方差，其中，ν为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，σ²为所述全局前向BN输入数据的方差；

根据公式对所述前向BN输入数据子集中的每个数据进行前向BN操作，其中，Β_i＝{x_i,j}(j＝1,2,…m_i)，B_i为所述GPU为第i个GPU时的前向BN输入数据子集，x_i,j为所述前向BN输入数据子集中的数据，m_i为所述前向BN输入数据子集中的数据的数量，μ为所述全局前向BN输入数据的均值，σ²为所述全局前向BN输入数据的方差，ε为固定的极小非零值，为所述前向BN后数据子集中的数据。

所述前向BN处理单元51对所述前向BN后数据子集中每个数据进行偏移操作，包括：根据公式对所述前向BN后数据子集中每个数据进行偏移操作，其中，γ、β为偏移参数，为所述前向BN后数据子集中的数据，y_i,j为所述前向BN输出数据子集中的数据。

所述前向BN处理单元51，还用于：将所述全局前向BN输入数据均值集合发送给其它各GPU；或者，将所述GPU的前向BN输入数据子集均值集合发送给其它各GPU。

后向BN处理单元52，用于在后向传播处理过程中，接收后向BN输入数据子集，所述后向BN输入数据子集是所述前向BN处理单元51进行前向BN处理后、得到的前向BN输出数据子集的梯度集合；确定全局后向BN输入数据均值集合；根据所述全局后向BN输入数据均值集合、所述后向BN输入数据子集和所述全局前向BN数据均值集合，对所述前向BN输入数据子集进行后向BN处理，得到所述前向BN输入数据子集中每个数据的梯度。

其中，所述后向BN处理单元52确定全局后向BN输入数据均值集合，包括：在所述GPU为多个GPU中的主GPU的情况下，根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述主GPU的后向BN输入数据子集均值集合，所述后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；接收来自其它各从GPU的后向BN输入数据子集均值集合；根据所述主GPU的后向BN输入数据子集均值集合和其它各从GPU的后向BN输入数据子集均值集合，确定全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值；将所述全局后向BN输入数据均值集合发送给其它各从GPU。

在本申请的一些实施例中，所述后向BN处理单元52确定全局后向BN输入数据均值集合，包括：在所述GPU为多个GPU中的从GPU的情况下，所述从GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述从GPU的后向BN输入数据子集均值集合，所述从GPU的后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；将所确定的后向BN输入数据子集均值集合发送给多个GPU中的主GPU；接收来自所述主GPU的全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值。

在本申请的另一些实施例中，所述后向BN处理单元确定全局后向BN输入数据均值集合，包括：所述GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述GPU的后向BN输入数据子集均值集合，所述GPU的后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；将所述GPU的后向BN输入数据子集均值集合发送给其它各GPU；接收来自其它各GPU的后向BN输入数据子集均值集合；根据所述GPU的后向BN输入数据子集均值集合和其它各GPU的后向BN输入数据子集均值集合，确定所述全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值。

所述后向BN处理单元52确定所述GPU的后向BN输入数据子集均值集合，包括：根据公式确定所述后向BN输入数据子集均值，其中，为所述GPU为第i个GPU时的后向BN输入数据子集，是预定的损失函数，y_i,j为所述前向BN输出数据子集中的数据，为y_i,j的梯度，为所述GPU为第i个GPU时的后向BN输入数据子集均值；根据公式确定所述前向BN梯度校正数据均值，其中，Β_i＝{x_i,j}(j＝1,2,…m_i)为所述GPU为第i个GPU时的前向BN输入数据子集，x_i,j为所述前向BN输入数据子集中的数据，m_i为所述前向BN输入数据子集中的数据的数量，φ_i为所述GPU为第i个GPU时的前向BN梯度校正数据均值。

所述后向BN处理单元52确定所述全局后向BN输入数据子集均值集合，包括：根据公式确定所述全局后向BN输入数据均值，其中，n为所述多个GPU的数量，m_i为第i个GPU的前向BN输入数据子集的数据的数量，为第i个GPU的前向BN输出数据子集梯度均值，为所述全局后向BN输入数据均值；根据公式确定所述全局前向BN梯度校正数据均值，其中，φ_i为第i个GPU的前向BN梯度校正数据均值，φ为所述全局前向BN梯度校正数据均值。

所述后向BN处理单元52对所述前向BN输入数据子集进行后向BN处理，包括：根据所述后向BN输入数据子集确定所述前向BN后数据子集中每个数据的梯度；根据所述全局前向BN输入数据均值集合、全局后向BN输入数据均值和全局前向BN梯度校正数据均值，确定所述全局前向BN输入数据的方差的梯度；根据所述全局前向BN输入数据均值集合、所述全局前向BN梯度校正数据均值确定全局前向BN输入数据均值的梯度；根据所述前向BN后数据子集中每个数据的梯度、所述全局前向BN输入数据的方差的梯度、所述全局前向BN输入数据均值的梯度、所述全局前向BN输入数据均值集合和所述全局前向BN输入数据的均值，确定所述前向BN输入数据子集中每个数据的梯度。

所述后向BN处理单元52确定所述前向BN后数据子集中每个数据的梯度，包括：根据公式确定所述前向BN后数据子集中每个数据的梯度，其中，为所述GPU为第i个GPU时的后向BN输入数据子集，是预定的损失函数，y_i,j为所述前向BN输出数据子集中的数据，为y_i,j的梯度，γ为偏移参数，为所述前向BN后数据子集中数据的梯度。

所述后向BN处理单元52确定全局前向BN输入数据的方差的梯度，包括：根据公式确定所述全局前向BN输入数据的方差的梯度，其中，σ²为全局前向BN输入数据的方差，σ²＝ν-μ²，ν为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，ε为固定的极小非零值，φ为所述全局前向BN梯度校正数据均值，为所述全局前向BN输出数据梯度均值，γ为偏移参数，为所述全局前向BN输入数据的方差的梯度。

所述后向BN处理单元52确定全局前向BN输入数据均值的梯度，包括：根据公式确定所述全局前向BN输入数据均值的梯度，其中，σ²为全局前向BN输入数据的方差，σ²＝ν-μ²，ν为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，ε为固定的极小非零值，φ为所述全局前向BN梯度校正数据均值，γ为偏移参数，是所述全局前向BN输入数据均值的梯度。

所述后向BN处理单元52确定所述前向BN输入数据子集中每个数据的梯度，包括：根据公式确定所述前向BN输入数据子集中每个数据的梯度，其中，为所述前向BN后数据子集中每个数据的梯度，σ²为全局前向BN输入数据的方差，σ²＝ν-μ²，ν为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，ε为固定的极小非零值，为所述全局前向BN输入数据的方差的梯度，是所述全局前向BN输入数据均值的梯度，是所述前向BN输入数据子集中的数据x_i,j的梯度。

所述后向BN处理单元52，还用于：根据全局前向BN输入数据的均值集合和全局后向BN输入数据均值集合，确定BN层训练参数的梯度，所述BN层训练参数包括偏移参数γ和β。

所述后向BN处理单元52可以根据如下公式确定偏移参数γ的梯度，其中，φ为所述全局前向BN梯度校正数据均值，μ为所述全局前向BN输入数据的均值，为所述全局前向BN输出数据梯度均值，σ²为全局前向BN输入数据的方差，σ²＝ν-μ²，ν为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，ε为固定的极小非零值，m_i为所述GPU为第i个GPU时的前向BN输入数据子集的数据的数量，为所述GPU为第i个GPU时的偏移参数γ的梯度。

所述后向BN处理单元52可以根据如下公式确定偏移参数β的梯度，其中，为所述全局前向BN输出数据梯度均值，m_i为所述GPU为第i个GPU时的前向BN输入数据子集的数据的数量，为所述GPU为第i个GPU时的偏移参数β的梯度。

通过图5所示的装置，在后向传播处理过程中，根据确定的全局后向BN输入数据均值集合、后向BN输入数据子集和全局前向BN数据均值集合，对所述前向BN输入数据子集进行后向BN处理，能够进一步弥补数据不全导致的数据差异扩大的问题；从而能够得到与单个GPU进行全局数据训练时的相似的梯度、多个GPU之间一致的数据梯度、提高训练精度，从而能够解决现有技术中多个GPU并行训练DNN模型时，由于各GPU之间数据梯度不一致导致存在的训练精度低的问题。

下面对本申请实施例提供的多个GPU并行的DNN模型训练方法在实际应用中的情况进行说明。

在具体应用的过程中，可以将图2、图3a和图4a所示的处理过程结合到深度学习训练框架MXNet中，实现完整的可执行的技术方案。MXNet的***设计可分为C++层和Python层。C++层主要负责任务调度，内存优化，计算图形优化等***级功能，Python层主要功能是封装完整的训练过程，并提供与用户交互的接口。在MXNet中，传统Python层的训练过程如下：

在实际实现的过程中，对C++层和Python层都会有所修改，修改后可以正常调用Python接口，应用本申请实施例提供的多个GPU并行的DNN模型训练方法后，Python层的训练过程如下：

实施上述处理后，可以明显的提高训练精度和检验精度，图6示出了3个GPU并行训练和单个GPU训练的训练精度对比情况，其中，可以显著地发现应用本申请提供的多个GPU的并行训练方法的训练精度(如图6中实线所示的3GPU并行全局数据训练精度)接近于单GPU全局数据训练时的训练精度(如图6中粗虚线所示的单GPU训练精度)，而现有技术中的多GPU并行训练时的训练精度(如图6中细虚线所示的3GPU并行局部数据训练精度)则明显要低于单GPU全局数据训练时的训练精度。图7示出了3个GPU并行训练和单个GPU训练的检验精度对比情况，其中，应用本申请提供的多个GPU的并行训练方法的检验精度(如图7中虚线所示的3GPU并行全局数据检验精度)接近于单GPU全局数据训练时的检验精度(如图7中粗实线所示的单GPU检验精度)，而现有技术中的多GPU并行训练时的检验精度(如图7中细实线所示的3GPU并行局部数据检验精度)则明显要低于单GPU全局数据训练时的检验精度。从图中可以看出应用本申请实施例提供的方法训练的模型精度，可以达到与单GPU训练时相似的精度，并且比现有技术中多GPU并行训练的方法训练的模型精度提高15％左右。

以上是本发明的核心思想，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多个图形处理单元并行的深度神经网络模型训练方法，其特征在于，包括：

多个图形处理单元GPU中的一个GPU在对分配到的数据子集进行DNN模型训练时，在前向传播处理过程中，接收前向归一化BN输入数据子集；确定全局前向BN输入数据均值集合；根据所述全局前向BN输入数据均值集合，对所述前向BN输入数据子集进行前向BN处理，得到前向BN输出数据子集；

在后向传播处理过程中，接收后向BN输入数据子集，所述后向BN输入数据子集是所述前向BN输出数据子集的梯度集合；确定全局后向BN输入数据均值集合；根据所述全局后向BN输入数据均值集合、所述后向BN输入数据子集和所述全局前向BN输入数据均值集合，对所述前向BN输入数据子集进行后向BN处理，得到所述前向BN输入数据子集中每个数据的梯度。

2.根据权利要求1所述的方法，其特征在于，确定全局前向BN输入数据均值集合，包括：

在所述GPU为多个GPU中的主GPU的情况下，所述主GPU根据所述前向BN输入数据子集确定所述GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；

接收来自其它各从GPU的前向BN输入数据子集均值集合；

根据所述主GPU的前向BN输入数据子集均值集合和其它各从GPU的前向BN输入数据子集均值集合，确定全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值；

将所述全局前向BN输入数据均值集合发送给其它各从GPU。

3.根据权利要求2所述的方法，其特征在于，确定前向BN输入数据子集均值集合，包括：

根据公式确定所述前向BN输入数据子集的均值，其中，B_i＝{x_i，j}(j＝1，2，...m_i)，B_i为所述GPU为第i个GPU时的前向BN输入数据子集，x_i，j为所述前向BN输入数据子集中的数据，m_i为所述前向BN输入数据子集中的数据的数量，μ_i为所述GPU为第i个GPU时的前向BN输入数据子集的均值；

根据公式确定所述前向BN输入数据子集的平方均值，其中，v_i为所述GPU为第i个GPU时的前向BN输入数据子集的平方均值。

4.根据权利要求2所述的方法，其特征在于，确定全局前向BN输入数据均值集合，包括：

根据公式确定所述全局前向BN输入数据的均值，其中，n为所述多个GPU的数量，μ_i为第i个GPU的前向BN输入数据子集的均值，m_i为第i个GPU的前向BN输入数据子集中的数据的数量，μ为所述全局前向BN输入数据的均值；

根据公式确定所述全局前向BN输入数据的平方均值，其中，v_i为第i个GPU的前向BN输入数据子集的平方均值，v为所述全局前向BN输入数据的平方均值。

5.根据权利要求2所述的方法，其特征在于，对所述前向BN输入数据子集进行前向BN处理，包括：

根据所述全局前向BN输入数据的均值和平方均值，对所述前向BN输入数据子集中的每个数据进行前向BN操作，得到前向BN后数据子集；

对所述前向BN后数据子集中每个数据进行偏移操作操作，得到所述前向BN输出数据子集。

6.根据权利要求5所述的方法，其特征在于，对所述前向BN输入数据子集中的每个数据进行前向BN操作，包括：

根据公式σ²＝v-μ²确定全局前向BN输入数据的方差，其中，v为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，σ²为所述全局前向BN输入数据的方差；

根据公式对所述前向BN输入数据子集中的每个数据进行前向BN操作，其中，B_i＝{x_i，j}(j＝1，2，...m_i)，B_i为所述GPU为第i个GPU时的前向BN输入数据子集，x_i，j为所述前向BN输入数据子集中的数据，m_i为所述前向BN输入数据子集中的数据的数量，μ为所述全局前向BN输入数据的均值，σ²为所述全局前向BN输入数据的方差，ε为固定的极小非零值，为所述前向BN后数据子集中的数据。

7.根据权利要求5所述的方法，其特征在于，对所述前向BN后数据子集中每个数据进行偏移操作，包括：

根据公式对所述前向BN后数据子集中每个数据进行偏移操作，其中，γ、β为偏移参数，为所述前向BN后数据子集中的数据，y_i，j为所述前向BN输出数据子集中的数据。

8.根据权利要求1所述的方法，其特征在于，确定全局前向BN输入数据均值集合，包括：

在所述GPU为多个GPU中的从GPU的情况下，所述从GPU根据所述前向BN输入数据子集确定所述从GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；

将所确定的前向BN输入数据子集均值集合发送给多个GPU中的主GPU；

接收来自所述主GPU的所述全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值。

9.根据权利要求1所述的方法，其特征在于，确定全局前向BN输入数据均值集合，包括：

根据所述前向BN输入数据子集确定所述GPU的前向BN输入数据子集均值集合，所述前向BN输入数据子集均值集合包括：所述前向BN输入数据子集的均值和平方均值；

将所述GPU的前向BN输入数据子集均值集合发送给其它GPU；

接收来自其它各GPU的前向BN输入数据子集均值集合；

根据所述GPU的前向BN输入数据子集均值集合和其它各GPU的前向BN输入数据子集均值集合，确定所述全局前向BN输入数据均值集合，所述全局前向BN输入数据均值集合包括：全局前向BN输入数据的均值和平方均值。

10.根据权利要求5所述的方法，其特征在于，确定全局后向BN输入数据均值集合，包括：

在所述GPU为多个GPU中的主GPU的情况下，所述主GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述主GPU的后向BN输入数据子集均值集合，所述后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

接收来自其它各从GPU的后向BN输入数据子集均值集合；

根据所述主GPU的后向BN输入数据子集均值集合和其它各从GPU的后向BN输入数据子集均值集合，确定所述全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值；

将所述全局后向BN输入数据均值集合发送给其它各从GPU。

11.根据权利要求10所述的方法，其特征在于，确定所述GPU的后向BN输入数据子集均值集合，包括：

根据公式确定所述后向BN输入数据子集均值，其中，为所述GPU为第i个GPU时的后向BN输入数据子集，l是预定的损失函数，y_i，j为所述前向BN输出数据子集中的数据，为y_i，j的梯度，为所述GPU为第i个GPU时的后向BN输入数据子集均值；

根据公式确定所述前向BN梯度校正数据均值，其中，B_i＝{x_i，j}(j＝1，2，...m_i)为所述GPU为第i个GPU时的前向BN输入数据子集，x_i，j为所述前向BN输入数据子集中的数据，m_i为所述前向BN输入数据子集中的数据的数量，φ_i为所述GPU为第i个GPU时的前向BN梯度校正数据均值。

12.根据权利要求10所述的方法，其特征在于，确定所述全局后向BN输入数据子集均值集合，包括：

根据公式确定所述全局后向BN输入数据均值，其中，n为所述多个GPU的数量，m_i为第i个GPU的前向BN输入数据子集的数据的数量，为第i个GPU的前向BN输出数据子集梯度均值，为所述全局后向BN输入数据均值；

根据公式确定所述全局前向BN梯度校正数据均值，其中，φ_i为第i个GPU的前向BN梯度校正数据均值，φ为所述全局前向BN梯度校正数据均值。

13.根据权利要求10所述的方法，其特征在于，对所述前向BN输入数据子集进行后向BN处理，包括：

根据所述后向BN输入数据子集确定所述前向BN后数据子集中每个数据的梯度；

根据所述全局前向BN输入数据均值集合、全局后向BN输入数据均值和全局前向BN梯度校正数据均值，确定所述全局前向BN输入数据的方差的梯度；

根据所述全局前向BN输入数据均值集合、所述全局前向BN梯度校正数据均值确定全局前向BN输入数据均值的梯度；

根据所述前向BN后数据子集中每个数据的梯度、所述全局前向BN输入数据的方差的梯度、所述全局前向BN输入数据均值的梯度、所述全局前向BN输入数据均值集合和所述全局前向BN输入数据的均值，确定所述前向BN输入数据子集中每个数据的梯度。

14.根据权利要求13所述的方法，其特征在于，确定所述前向BN后数据子集中每个数据的梯度，包括：

根据公式确定所述前向BN后数据子集中每个数据的梯度，其中，为所述GPU为第i个GPU时的后向BN输入数据子集，l是预定的损失函数，y_i，j为所述前向BN输出数据子集中的数据，为y_i，j的梯度，γ为偏移参数，为所述前向BN后数据子集中数据的梯度。

15.根据权利要求13所述的方法，其特征在于，确定全局前向BN输入数据的方差的梯度，包括：

根据公式确定所述全局前向BN输入数据的方差的梯度，其中，σ²为所述全局前向BN输入数据的方差，σ²＝v-μ²，v为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，ε为固定的极小非零值，φ为所述全局前向BN梯度校正数据均值，为所述全局前向BN输出数据梯度均值，γ为偏移参数，为所述全局前向BN输入数据的方差的梯度。

16.根据权利要求13所述的方法，其特征在于，确定全局前向BN输入数据均值的梯度，包括：

根据公式确定所述全局前向BN输入数据均值的梯度，其中，σ²为所述全局前向BN输入数据的方差，σ²＝v-μ²，v为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，ε为固定的极小非零值，φ为所述全局前向BN梯度校正数据均值，γ为偏移参数，是所述全局前向BN输入数据均值的梯度。

17.根据权利要求13所述的方法，其特征在于，确定所述前向BN输入数据子集中每个数据的梯度，包括：

根据公式确定所述前向BN输入数据子集中每个数据的梯度，其中，为所述前向BN后数据子集中每个数据的梯度，σ²为所述全局前向BN输入数据的方差，σ²＝v-μ²，v为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，ε为固定的极小非零值，为所述全局前向BN输入数据的方差的梯度，是所述全局前向BN输入数据均值的梯度，是所述前向BN输入数据子集中的数据x_i，j的梯度。

18.根据权利要求10所述的方法，其特征在于，所述方法还包括：

根据全局前向BN输入数据的均值集合和全局后向BN输入数据均值集合，确定BN层训练参数的梯度，所述BN层训练参数包括偏移参数γ和β。

19.根据权利要求18所述的方法，其特征在于，根据公式确定偏移参数γ的梯度，其中，φ为所述全局前向BN梯度校正数据均值，μ为所述全局前向BN输入数据的均值，为所述全局前向BN输出数据梯度均值，σ²为所述全局前向BN输入数据的方差，σ²＝v-μ²，v为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，ε为固定的极小非零值，m_i为所述GPU为第i个GPU时的前向BN输入数据子集的数据的数量，为所述GPU为第i个GPU时的偏移参数γ的梯度。

20.根据权利要求18所述的方法，其特征在于，根据公式确定偏移参数β的梯度，其中，为所述全局前向BN输出数据梯度均值，m_i为所述GPU为第i个GPU时的前向BN输入数据子集的数据的数量，为所述GPU为第i个GPU时的偏移参数β的梯度。

21.根据权利要求5所述的方法，其特征在于，确定全局后向BN输入数据均值集合，包括：

在所述GPU为多个GPU中的从GPU的情况下，所述从GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述从GPU的后向BN输入数据子集均值集合，所述从GPU的后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

将所确定的后向BN输入数据子集均值集合发送给多个GPU中的主GPU；

接收来自所述主GPU的全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值。

22.根据权利要求5所述的方法，其特征在于，确定全局后向BN输入数据均值集合，包括：

所述GPU根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述GPU的后向BN输入数据子集均值集合，所述GPU的后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

将所述GPU的后向BN输入数据子集均值集合发送给其它各GPU；

接收来自其它各GPU的后向BN输入数据子集均值集合；

根据所述GPU的后向BN输入数据子集均值集合和其它各GPU的后向BN输入数据子集均值集合，确定所述全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值。

23.一种多个图形处理单元并行的深度神经网络模型训练装置，其特征在于，所述装置设置在多个GPU的每个GPU中，所述装置包括：

前向归一化BN处理单元，用于在前向传播处理过程中，接收前向BN输入数据子集；确定全局前向BN输入数据均值集合；根据所述全局前向BN输入数据均值集合，对所述前向BN输入数据子集进行前向BN处理，得到前向BN输出数据子集；

后向BN处理单元，用于在后向传播处理过程中，接收后向BN输入数据子集，所述后向BN输入数据子集是所述前向BN输出数据子集的梯度集合；确定全局后向BN输入数据均值集合；根据所述全局后向BN输入数据均值集合、所述后向BN输入数据子集和所述全局前向BN数据均值集合，对所述前向BN输入数据子集进行后向BN处理，得到所述前向BN输入数据子集中每个数据的梯度。

24.根据权利要求23所述的装置，其特征在于，所述前向BN处理单元确定全局前向BN输入数据均值集合，包括：

接收来自其它各从GPU的前向BN输入数据子集均值集合；

将所述全局前向BN输入数据均值集合发送给其它各从GPU。

25.根据权利要求24所述的装置，其特征在于，所述前向BN处理单元确定所述GPU的前向BN输入数据子集均值集合，包括：

26.根据权利要求24所述的装置，其特征在于，所述前向BN处理单元确定全局前向BN输入数据均值集合，包括：

27.根据权利要求24所述的装置，其特征在于，所述前向BN处理单元对所述前向BN输入数据子集进行前向BN处理，包括：

对所述前向BN后数据子集中每个数据进行偏移操作，得到所述前向BN输出数据子集。

28.根据权利要求27所述的装置，其特征在于，所述前向BN处理单元对所述前向BN输入数据子集中的每个数据进行前向BN操作，包括：

根据公式σ²＝v-μ²确定所述全局前向BN输入数据的方差，其中，v为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，σ²为所述全局前向BN输入数据的方差；

29.根据权利要求27所述的装置，其特征在于，所述前向BN处理单元对所述前向BN后数据子集中每个数据进行偏移操作，包括：

30.根据权利要求23所述的装置，其特征在于，所述前向BN处理单元确定全局前向BN输入数据均值集合，包括：

31.根据权利要求23所述的装置，其特征在于，所述前向BN处理单元确定全局前向BN输入数据均值集合，包括：

将所述GPU的前向BN输入数据子集均值集合发送给其它GPU；

接收来自其它各GPU的前向BN输入数据子集均值集合；

32.根据权利要求27所述的装置，其特征在于，所述后向BN处理单元确定全局后向BN输入数据均值集合，包括：

在所述GPU为多个GPU中的主GPU的情况下，根据所述后向BN输入数据子集和所述前向BN输入数据子集确定所述主GPU的后向BN输入数据子集均值集合，所述后向BN输入数据子集均值集合包括后向BN输入数据子集均值和前向BN梯度校正数据均值；

接收来自其它各从GPU的后向BN输入数据子集均值集合；

根据所述主GPU的后向BN输入数据子集均值集合和其它各从GPU的后向BN输入数据子集均值集合，确定全局后向BN输入数据均值集合，所述全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值；

将所述全局后向BN输入数据均值集合发送给其它各从GPU。

33.根据权利要求32所述的装置，其特征在于，所述后向BN处理单元确定所述GPU的后向BN输入数据子集均值集合，包括：

34.根据权利要求32所述的装置，其特征在于，所述后向BN处理单元确定所述全局后向BN输入数据子集均值集合，包括：

35.根据权利要求32所述的装置，其特征在于，所述后向BN处理单元对所述前向BN输入数据子集进行后向BN处理，包括：

36.根据权利要求35所述的装置，其特征在于，所述后向BN处理单元确定所述前向BN后数据子集中每个数据的梯度，包括：

37.根据权利要求35所述的装置，其特征在于，所述后向BN处理单元确定全局前向BN输入数据的方差的梯度，包括：

38.根据权利要求35所述的装置，其特征在于，所述后向BN处理单元确定全局前向BN输入数据均值的梯度，包括：

39.根据权利要求335所述的装置，其特征在于，所述后向BN处理单元确定所述前向BN输入数据子集中每个数据的梯度，包括：

40.根据权利要求32所述的装置，其特征在于，所述后向BN处理单元，还用于：

41.根据权利要求40所述的装置，其特征在于，所述后向BN处理单元根据公式确定偏移参数γ的梯度，其中，φ为所述全局前向BN梯度校正数据均值，μ为所述全局前向BN输入数据的均值，为所述全局前向BN输出数据梯度均值，σ2为所述全局前向BN输入数据的方差，σ²＝v-μ²，v为所述全局前向BN输入数据的平方均值，μ为所述全局前向BN输入数据的均值，ε为固定的极小非零值，m_i为所述GPU为第i个GPU时的前向BN输入数据子集的数据的数量，为所述GPU为第i个GPU时的偏移参数γ的梯度。

42.根据权利要求40所述的装置，其特征在于，所述后向BN处理单元根据公式确定偏移参数β的梯度，其中，为所述全局前向BN输出数据梯度均值，m_i为所述GPU为第i个GPU时的前向BN输入数据子集的数据的数量，为所述GPU为第i个GPU时的偏移参数β的梯度。

43.根据权利要求27所述的装置，其特征在于，所述后向BN处理单元确定全局后向BN输入数据均值集合，包括：

接收来自所述主GPU的全局后向BN输入数据均值集合包括：全局后向BN输入数据均值和全局前向BN梯度校正数据均值。

44.根据权利要求27所述的装置，其特征在于，所述后向BN处理单元确定全局后向BN输入数据均值集合，包括：

将所述GPU的后向BN输入数据子集均值集合发送给其它各GPU；

接收来自其它各GPU的后向BN输入数据子集均值集合；