CN112261023A

CN112261023A - 一种卷积神经网络的数据传输方法和装置

Info

Publication number: CN112261023A
Application number: CN202011104673.3A
Authority: CN
Inventors: 罗建刚
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-22

Abstract

本发明公开了一种卷积神经网络的数据传输方法和装置，方法包括基于数据划分方式将待传输的数据划分为多个数组，并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤：调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组；调用通信资源对压缩数组执行基于传输方式的规约；调用通信资源对压缩数组执行基于传输方式的聚合；调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组。本发明能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。

Description

一种卷积神经网络的数据传输方法和装置

技术领域

本发明涉及神经网络领域，更具体地，特别是指一种卷积神经网络的数据传输方法和装置。

背景技术

逐渐成熟的机器学习算法，如深度神经网络(DNN)、卷积神经网络(CNN)等，可以在许多实际应用中实现前所未有的性能并解决了许多领域的难题，例如语音识别、文本处理以及图像识别等。但是在单图形处理单元(GPU)上往往需要很长时间进行训练，效率过低一定程度上制约了其应用。减少训练时间最广泛使用的方法是执行数据并行训练。在数据并行训练中，每个GPU都具有模型参数的完整副本，并且GPU经常与参与训练的其他GPU交换参数，这导致了极大的通信成本，并且在通信缓慢时成为***瓶颈。

为了解决训练时的通信瓶颈，可以从硬件和软件两个方面解决。在硬件方面采用更先进的GPU互联技术；在软件方面采用先进的现代通信库。在现有的通信方法中应用较多的是环形通信方法，其可以有效的采用Pipeline技术，使其具有良好的扩展性，在大数据量传输时应用较多。但是在低速网络的限制下，例如在部分PCIE连接下，其传输速度仅有7.5GB/s左右，这已经逐渐成为了GPU计算的瓶颈。而在多节点传输的情况下，往往要通过网络传输，这对GPU交互计算产生了更为严重的制约。

针对现有技术中卷积神经网络的通信数据量大、耗时长、拖慢整体任务处理进度的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种卷积神经网络的数据传输方法和装置，能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。

基于上述目的，本发明实施例的第一方面提供了一种卷积神经网络的数据传输方法，包括基于数据划分方式将待传输的数据划分为多个数组，并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤：

调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组；

调用通信资源对压缩数组执行基于传输方式的规约；

调用通信资源对压缩数组执行基于传输方式的聚合；

调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组。

在一些实施方式中，对数组执行稀疏化压缩以生成压缩数组包括：

从数组中提取每个元素的值和位置，形成数对；

将值为零的元素数对删除；

将剩余的元素数对组合形成压缩数组。

在一些实施方式中，还包括：在将值为零的元素数对删除后，还基于预定的过滤阈值而额外地删除值小于过滤阈值的元素数对。

在一些实施方式中，数据划分方式和传输方式均基于处理单元拓扑而决定。

在一些实施方式中，处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。

在一些实施方式中，数据划分方式为基于处理单元数量的平均分配；传输方式为环形传输或环形全规约传输；处理单元拓扑为环形拓扑。

在一些实施方式中，还包括：在执行基于传输方式的聚合的同时，还开始调用计算资源对其下一数组执行稀疏化压缩。

在一些实施方式中，还包括：为卷积神经网络预先建立传输接口，并基于传输接口对压缩数组执行基于传输方式的规约和聚合。

本发明实施例的第二方面提供了一种卷积神经网络的数据传输装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，程序代码在被运行时基于数据划分方式将待传输的数据划分为多个数组，并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤：

调用通信资源对压缩数组执行基于传输方式的规约；

调用通信资源对压缩数组执行基于传输方式的聚合；

在一些实施方式中，数据划分方式和传输方式均基于处理单元拓扑而决定；处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。

本发明具有以下有益技术效果：本发明实施例提供的卷积神经网络的数据传输方法和装置，通过调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组；调用通信资源对压缩数组执行基于传输方式的规约；调用通信资源对压缩数组执行基于传输方式的聚合；调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组的技术方案，能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的卷积神经网络的数据传输方法的流程示意图；

图2为本发明提供的卷积神经网络的数据传输方法的模块化执行图；

图3为本发明提供的卷积神经网络的数据传输方法的流水线示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种在保证收敛精度的情况下降低通信数据量的卷积神经网络的数据传输方法的一个实施例。图1示出的是本发明提供的卷积神经网络的数据传输方法的流程示意图。

所述的卷积神经网络的数据传输方法，如图1所示，包括基于数据划分方式将待传输的数据划分为多个数组，并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤：

步骤S101，调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组；

步骤S103，调用通信资源对压缩数组执行基于传输方式的规约；

步骤S105，调用通信资源对压缩数组执行基于传输方式的聚合；

步骤S107，调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，计算机程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，计算机的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

从数组中提取每个元素的值和位置，形成数对；

将值为零的元素数对删除；

将剩余的元素数对组合形成压缩数组。

下面根据图2、3所示的具体实施例进一步阐述本发明的具体实施方式。

参见图2，框架主要的分为三大部分：①深度学习框架数据传输接口的建立，包括pytorch、TF、mxnet等，数据传输接口与nccl保持一致，保证程序的通用性。②拓扑的建立与选择，根据gpu的架构建立、并结合数据量的大小等因素去选择延迟更低的拓扑。根据不同的拓扑，传输方式有所不同，数据划分的方式也有一定的区别，以环形通信为例，每个GPU每次会拿到Size/N的数据(Size为待传输数据的总大小，N为GPU个数)。③稀疏化压缩通信部分，其中稀疏化的存储方式采用的为行压缩方式，由于传输均化为一维数组形式，则只需元素值以及列标即可表达。例如传输数组为：

(0,6,0,0,7,0,0,0,0,0,0,0,2,0,0,1)

可表达为：

(1,4,12,15)(6,7,2,1)

可以看出在稀疏化为25％的情况下，传输量仅为原先数据量的50％。并且稀疏压缩后的矩阵可以在压缩情况下进行规约操作(求和、取最大值等)，因此相对于传统的压缩方法拥有更高的加速效果。

但是稀疏化压缩与解压会占用计算时间影响其程序效率。在优化减少压缩解压时间的同时，和之前传统压缩时采取了相同的策略，采用pipeline来隐藏稀疏化压缩时间，提高程序效率。在环形聚合时会以如图3所示的方式来同步开启第二过程的压缩，并且由于环形聚合和环形规约主要占用通信带宽对于计算资源占用不大因此可以利用流水线在传输过程中对于下次传输数据做稀疏化压缩处理，以隐藏压缩时间，提高程序效率。

本发明实施例以环形和树型通信为基础，采用了稀疏化压缩的方法，减少了传输时数据量，提升了传输带宽。在稀疏化程度为源数据的1/n的情况下，最高可以获得n/2倍的加速比。经测试验证当取得合适的阈值的时候不会对深度学习框架产生负面的收敛效果。可以看出，通过数据稀疏化有效的提高了GPU的通信带宽，在保证深度学习模型收敛的情况下。在一定程度上解决了GPU低速网络，通信效率较低的问题。

从上述实施例可以看出，本发明实施例提供的卷积神经网络的数据传输方法，通过调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组；调用通信资源对压缩数组执行基于传输方式的规约；调用通信资源对压缩数组执行基于传输方式的聚合；调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组的技术方案，能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。

需要特别指出的是，上述卷积神经网络的数据传输方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于卷积神经网络的数据传输方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种在保证收敛精度的情况下降低通信数据量的卷积神经网络的数据传输装置的一个实施例。卷积神经网络的数据传输装置包括：

处理器；和

调用通信资源对压缩数组执行基于传输方式的规约；

调用通信资源对压缩数组执行基于传输方式的聚合；

从上述实施例可以看出，本发明实施例提供的卷积神经网络的数据传输装置，通过调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组；调用通信资源对压缩数组执行基于传输方式的规约；调用通信资源对压缩数组执行基于传输方式的聚合；调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组的技术方案，能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。

需要特别指出的是，上述卷积神经网络的数据传输装置的实施例采用了所述卷积神经网络的数据传输方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述卷积神经网络的数据传输方法的其他实施例中。当然，由于所述卷积神经网络的数据传输方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述卷积神经网络的数据传输装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种卷积神经网络的数据传输方法，其特征在于，包括基于数据划分方式将待传输的数据划分为多个数组，并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤：

调用计算资源在源处理单元对所述数组执行稀疏化压缩以生成压缩数组；

调用通信资源对所述压缩数组执行基于传输方式的规约；

调用通信资源对所述压缩数组执行基于传输方式的聚合；

调用计算资源在目标处理单元对所述压缩数组执行解压缩以提取所述数组。

2.根据权利要求1所述的方法，其特征在于，对所述数组执行稀疏化压缩以生成压缩数组包括：

从所述数组中提取每个元素的值和位置，形成数对；

将值为零的元素数对删除；

将剩余的元素数对组合形成所述压缩数组。

3.根据权利要求2所述的方法，其特征在于，还包括：在将值为零的元素数对删除后，还基于预定的过滤阈值而额外地删除值小于所述过滤阈值的元素数对。

4.根据权利要求1所述的方法，其特征在于，所述数据划分方式和所述传输方式均基于处理单元拓扑而决定。

5.根据权利要求4所述的方法，其特征在于，所述处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。

6.根据权利要求5所述的方法，其特征在于，所述数据划分方式为基于处理单元数量的平均分配；所述传输方式为环形传输或环形全规约传输；所述处理单元拓扑为环形拓扑。

7.根据权利要求1所述的方法，其特征在于，还包括：在执行基于传输方式的聚合的同时，还开始调用计算资源对其下一数组执行稀疏化压缩。

8.根据权利要求1所述的方法，其特征在于，还包括：为卷积神经网络预先建立传输接口，并基于所述传输接口对所述压缩数组执行基于传输方式的规约和聚合。

9.一种卷积神经网络的数据传输装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时基于数据划分方式将待传输的数据划分为多个数组，并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤：

调用通信资源对所述压缩数组执行基于传输方式的规约；

调用通信资源对所述压缩数组执行基于传输方式的聚合；

10.根据权利要求9所述的装置，其特征在于，所述数据划分方式和所述传输方式均基于处理单元拓扑而决定；所述处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。