CN112261023A - 一种卷积神经网络的数据传输方法和装置 - Google Patents

一种卷积神经网络的数据传输方法和装置 Download PDF

Info

Publication number
CN112261023A
CN112261023A CN202011104673.3A CN202011104673A CN112261023A CN 112261023 A CN112261023 A CN 112261023A CN 202011104673 A CN202011104673 A CN 202011104673A CN 112261023 A CN112261023 A CN 112261023A
Authority
CN
China
Prior art keywords
array
transmission
processing unit
data
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011104673.3A
Other languages
English (en)
Inventor
罗建刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011104673.3A priority Critical patent/CN112261023A/zh
Publication of CN112261023A publication Critical patent/CN112261023A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Neurology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种卷积神经网络的数据传输方法和装置,方法包括基于数据划分方式将待传输的数据划分为多个数组,并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤:调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组;调用通信资源对压缩数组执行基于传输方式的规约;调用通信资源对压缩数组执行基于传输方式的聚合;调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组。本发明能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。

Description

一种卷积神经网络的数据传输方法和装置
技术领域
本发明涉及神经网络领域,更具体地,特别是指一种卷积神经网络的数据传输方法和装置。
背景技术
逐渐成熟的机器学习算法,如深度神经网络(DNN)、卷积神经网络(CNN)等,可以在许多实际应用中实现前所未有的性能并解决了许多领域的难题,例如语音识别、文本处理以及图像识别等。但是在单图形处理单元(GPU)上往往需要很长时间进行训练,效率过低一定程度上制约了其应用。减少训练时间最广泛使用的方法是执行数据并行训练。在数据并行训练中,每个GPU都具有模型参数的完整副本,并且GPU经常与参与训练的其他GPU交换参数,这导致了极大的通信成本,并且在通信缓慢时成为***瓶颈。
为了解决训练时的通信瓶颈,可以从硬件和软件两个方面解决。在硬件方面采用更先进的GPU互联技术;在软件方面采用先进的现代通信库。在现有的通信方法中应用较多的是环形通信方法,其可以有效的采用Pipeline技术,使其具有良好的扩展性,在大数据量传输时应用较多。但是在低速网络的限制下,例如在部分PCIE连接下,其传输速度仅有7.5GB/s左右,这已经逐渐成为了GPU计算的瓶颈。而在多节点传输的情况下,往往要通过网络传输,这对GPU交互计算产生了更为严重的制约。
针对现有技术中卷积神经网络的通信数据量大、耗时长、拖慢整体任务处理进度的问题,目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种卷积神经网络的数据传输方法和装置,能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。
基于上述目的,本发明实施例的第一方面提供了一种卷积神经网络的数据传输方法,包括基于数据划分方式将待传输的数据划分为多个数组,并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤:
调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组;
调用通信资源对压缩数组执行基于传输方式的规约;
调用通信资源对压缩数组执行基于传输方式的聚合;
调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组。
在一些实施方式中,对数组执行稀疏化压缩以生成压缩数组包括:
从数组中提取每个元素的值和位置,形成数对;
将值为零的元素数对删除;
将剩余的元素数对组合形成压缩数组。
在一些实施方式中,还包括:在将值为零的元素数对删除后,还基于预定的过滤阈值而额外地删除值小于过滤阈值的元素数对。
在一些实施方式中,数据划分方式和传输方式均基于处理单元拓扑而决定。
在一些实施方式中,处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。
在一些实施方式中,数据划分方式为基于处理单元数量的平均分配;传输方式为环形传输或环形全规约传输;处理单元拓扑为环形拓扑。
在一些实施方式中,还包括:在执行基于传输方式的聚合的同时,还开始调用计算资源对其下一数组执行稀疏化压缩。
在一些实施方式中,还包括:为卷积神经网络预先建立传输接口,并基于传输接口对压缩数组执行基于传输方式的规约和聚合。
本发明实施例的第二方面提供了一种卷积神经网络的数据传输装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时基于数据划分方式将待传输的数据划分为多个数组,并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤:
调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组;
调用通信资源对压缩数组执行基于传输方式的规约;
调用通信资源对压缩数组执行基于传输方式的聚合;
调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组。
在一些实施方式中,数据划分方式和传输方式均基于处理单元拓扑而决定;处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。
本发明具有以下有益技术效果:本发明实施例提供的卷积神经网络的数据传输方法和装置,通过调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组;调用通信资源对压缩数组执行基于传输方式的规约;调用通信资源对压缩数组执行基于传输方式的聚合;调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组的技术方案,能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的卷积神经网络的数据传输方法的流程示意图;
图2为本发明提供的卷积神经网络的数据传输方法的模块化执行图;
图3为本发明提供的卷积神经网络的数据传输方法的流水线示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种在保证收敛精度的情况下降低通信数据量的卷积神经网络的数据传输方法的一个实施例。图1示出的是本发明提供的卷积神经网络的数据传输方法的流程示意图。
所述的卷积神经网络的数据传输方法,如图1所示,包括基于数据划分方式将待传输的数据划分为多个数组,并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤:
步骤S101,调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组;
步骤S103,调用通信资源对压缩数组执行基于传输方式的规约;
步骤S105,调用通信资源对压缩数组执行基于传输方式的聚合;
步骤S107,调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,计算机程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,计算机的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,对数组执行稀疏化压缩以生成压缩数组包括:
从数组中提取每个元素的值和位置,形成数对;
将值为零的元素数对删除;
将剩余的元素数对组合形成压缩数组。
在一些实施方式中,还包括:在将值为零的元素数对删除后,还基于预定的过滤阈值而额外地删除值小于过滤阈值的元素数对。
在一些实施方式中,数据划分方式和传输方式均基于处理单元拓扑而决定。
在一些实施方式中,处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。
在一些实施方式中,数据划分方式为基于处理单元数量的平均分配;传输方式为环形传输或环形全规约传输;处理单元拓扑为环形拓扑。
在一些实施方式中,还包括:在执行基于传输方式的聚合的同时,还开始调用计算资源对其下一数组执行稀疏化压缩。
在一些实施方式中,还包括:为卷积神经网络预先建立传输接口,并基于传输接口对压缩数组执行基于传输方式的规约和聚合。
下面根据图2、3所示的具体实施例进一步阐述本发明的具体实施方式。
参见图2,框架主要的分为三大部分:①深度学习框架数据传输接口的建立,包括pytorch、TF、mxnet等,数据传输接口与nccl保持一致,保证程序的通用性。②拓扑的建立与选择,根据gpu的架构建立、并结合数据量的大小等因素去选择延迟更低的拓扑。根据不同的拓扑,传输方式有所不同,数据划分的方式也有一定的区别,以环形通信为例,每个GPU每次会拿到Size/N的数据(Size为待传输数据的总大小,N为GPU个数)。③稀疏化压缩通信部分,其中稀疏化的存储方式采用的为行压缩方式,由于传输均化为一维数组形式,则只需元素值以及列标即可表达。例如传输数组为:
(0,6,0,0,7,0,0,0,0,0,0,0,2,0,0,1)
可表达为:
(1,4,12,15)(6,7,2,1)
可以看出在稀疏化为25%的情况下,传输量仅为原先数据量的50%。并且稀疏压缩后的矩阵可以在压缩情况下进行规约操作(求和、取最大值等),因此相对于传统的压缩方法拥有更高的加速效果。
但是稀疏化压缩与解压会占用计算时间影响其程序效率。在优化减少压缩解压时间的同时,和之前传统压缩时采取了相同的策略,采用pipeline来隐藏稀疏化压缩时间,提高程序效率。在环形聚合时会以如图3所示的方式来同步开启第二过程的压缩,并且由于环形聚合和环形规约主要占用通信带宽对于计算资源占用不大因此可以利用流水线在传输过程中对于下次传输数据做稀疏化压缩处理,以隐藏压缩时间,提高程序效率。
本发明实施例以环形和树型通信为基础,采用了稀疏化压缩的方法,减少了传输时数据量,提升了传输带宽。在稀疏化程度为源数据的1/n的情况下,最高可以获得n/2倍的加速比。经测试验证当取得合适的阈值的时候不会对深度学习框架产生负面的收敛效果。可以看出,通过数据稀疏化有效的提高了GPU的通信带宽,在保证深度学习模型收敛的情况下。在一定程度上解决了GPU低速网络,通信效率较低的问题。
从上述实施例可以看出,本发明实施例提供的卷积神经网络的数据传输方法,通过调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组;调用通信资源对压缩数组执行基于传输方式的规约;调用通信资源对压缩数组执行基于传输方式的聚合;调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组的技术方案,能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。
需要特别指出的是,上述卷积神经网络的数据传输方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于卷积神经网络的数据传输方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种在保证收敛精度的情况下降低通信数据量的卷积神经网络的数据传输装置的一个实施例。卷积神经网络的数据传输装置包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时基于数据划分方式将待传输的数据划分为多个数组,并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤:
调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组;
调用通信资源对压缩数组执行基于传输方式的规约;
调用通信资源对压缩数组执行基于传输方式的聚合;
调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组。
在一些实施方式中,数据划分方式和传输方式均基于处理单元拓扑而决定;处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。
从上述实施例可以看出,本发明实施例提供的卷积神经网络的数据传输装置,通过调用计算资源在源处理单元对数组执行稀疏化压缩以生成压缩数组;调用通信资源对压缩数组执行基于传输方式的规约;调用通信资源对压缩数组执行基于传输方式的聚合;调用计算资源在目标处理单元对压缩数组执行解压缩以提取数组的技术方案,能够在保证收敛精度的情况下降低通信数据量以提高传输效率、降低等待时间、提高整体速度。
需要特别指出的是,上述卷积神经网络的数据传输装置的实施例采用了所述卷积神经网络的数据传输方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述卷积神经网络的数据传输方法的其他实施例中。当然,由于所述卷积神经网络的数据传输方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述卷积神经网络的数据传输装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种卷积神经网络的数据传输方法,其特征在于,包括基于数据划分方式将待传输的数据划分为多个数组,并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤:
调用计算资源在源处理单元对所述数组执行稀疏化压缩以生成压缩数组;
调用通信资源对所述压缩数组执行基于传输方式的规约;
调用通信资源对所述压缩数组执行基于传输方式的聚合;
调用计算资源在目标处理单元对所述压缩数组执行解压缩以提取所述数组。
2.根据权利要求1所述的方法,其特征在于,对所述数组执行稀疏化压缩以生成压缩数组包括:
从所述数组中提取每个元素的值和位置,形成数对;
将值为零的元素数对删除;
将剩余的元素数对组合形成所述压缩数组。
3.根据权利要求2所述的方法,其特征在于,还包括:在将值为零的元素数对删除后,还基于预定的过滤阈值而额外地删除值小于所述过滤阈值的元素数对。
4.根据权利要求1所述的方法,其特征在于,所述数据划分方式和所述传输方式均基于处理单元拓扑而决定。
5.根据权利要求4所述的方法,其特征在于,所述处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。
6.根据权利要求5所述的方法,其特征在于,所述数据划分方式为基于处理单元数量的平均分配;所述传输方式为环形传输或环形全规约传输;所述处理单元拓扑为环形拓扑。
7.根据权利要求1所述的方法,其特征在于,还包括:在执行基于传输方式的聚合的同时,还开始调用计算资源对其下一数组执行稀疏化压缩。
8.根据权利要求1所述的方法,其特征在于,还包括:为卷积神经网络预先建立传输接口,并基于所述传输接口对所述压缩数组执行基于传输方式的规约和聚合。
9.一种卷积神经网络的数据传输装置,其特征在于,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时基于数据划分方式将待传输的数据划分为多个数组,并且针对每个数组均响应于其上一数组开始聚合而依次执行以下步骤:
调用计算资源在源处理单元对所述数组执行稀疏化压缩以生成压缩数组;
调用通信资源对所述压缩数组执行基于传输方式的规约;
调用通信资源对所述压缩数组执行基于传输方式的聚合;
调用计算资源在目标处理单元对所述压缩数组执行解压缩以提取所述数组。
10.根据权利要求9所述的装置,其特征在于,所述数据划分方式和所述传输方式均基于处理单元拓扑而决定;所述处理单元拓扑基于卷积神经网络使用的处理单元的数量和架构而确定。
CN202011104673.3A 2020-10-15 2020-10-15 一种卷积神经网络的数据传输方法和装置 Pending CN112261023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011104673.3A CN112261023A (zh) 2020-10-15 2020-10-15 一种卷积神经网络的数据传输方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011104673.3A CN112261023A (zh) 2020-10-15 2020-10-15 一种卷积神经网络的数据传输方法和装置

Publications (1)

Publication Number Publication Date
CN112261023A true CN112261023A (zh) 2021-01-22

Family

ID=74243614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011104673.3A Pending CN112261023A (zh) 2020-10-15 2020-10-15 一种卷积神经网络的数据传输方法和装置

Country Status (1)

Country Link
CN (1) CN112261023A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022222578A1 (zh) * 2021-04-21 2022-10-27 华为技术有限公司 一种聚合通信的方法、***和计算机设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621514A (zh) * 2009-07-24 2010-01-06 北京航空航天大学 网络数据的压缩方法、网络***和融合中心设备
US20150067009A1 (en) * 2013-08-30 2015-03-05 Microsoft Corporation Sparse matrix data structure
CN106775598A (zh) * 2016-12-12 2017-05-31 温州大学 一种基于gpu的压缩稀疏矩阵的对称矩阵构造方法
CN108229644A (zh) * 2016-12-15 2018-06-29 上海寒武纪信息科技有限公司 压缩/解压缩神经网络模型的装置、设备和方法
US20190190538A1 (en) * 2017-12-18 2019-06-20 Facebook, Inc. Accelerator hardware for compression and decompression
CN110134636A (zh) * 2018-02-09 2019-08-16 中兴通讯股份有限公司 模型训练方法、服务器和计算机可读存储介质
CN110377288A (zh) * 2018-04-13 2019-10-25 赛灵思公司 神经网络压缩编译器及其编译压缩方法
CN110909870A (zh) * 2018-09-14 2020-03-24 中科寒武纪科技股份有限公司 训练装置及方法
CN111324630A (zh) * 2020-03-04 2020-06-23 中科弘云科技(北京)有限公司 基于mpi的神经网络架构搜索并行化方法和设备
CN111699695A (zh) * 2017-12-06 2020-09-22 V-诺瓦国际有限公司 用于对接收到的经编码数据集进行解码的方法和设备
CN111737540A (zh) * 2020-05-27 2020-10-02 中国科学院计算技术研究所 一种应用于分布式计算节点集群的图数据处理方法和介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621514A (zh) * 2009-07-24 2010-01-06 北京航空航天大学 网络数据的压缩方法、网络***和融合中心设备
US20150067009A1 (en) * 2013-08-30 2015-03-05 Microsoft Corporation Sparse matrix data structure
CN106775598A (zh) * 2016-12-12 2017-05-31 温州大学 一种基于gpu的压缩稀疏矩阵的对称矩阵构造方法
CN108229644A (zh) * 2016-12-15 2018-06-29 上海寒武纪信息科技有限公司 压缩/解压缩神经网络模型的装置、设备和方法
CN111699695A (zh) * 2017-12-06 2020-09-22 V-诺瓦国际有限公司 用于对接收到的经编码数据集进行解码的方法和设备
US20190190538A1 (en) * 2017-12-18 2019-06-20 Facebook, Inc. Accelerator hardware for compression and decompression
CN110134636A (zh) * 2018-02-09 2019-08-16 中兴通讯股份有限公司 模型训练方法、服务器和计算机可读存储介质
CN110377288A (zh) * 2018-04-13 2019-10-25 赛灵思公司 神经网络压缩编译器及其编译压缩方法
CN110909870A (zh) * 2018-09-14 2020-03-24 中科寒武纪科技股份有限公司 训练装置及方法
CN111324630A (zh) * 2020-03-04 2020-06-23 中科弘云科技(北京)有限公司 基于mpi的神经网络架构搜索并行化方法和设备
CN111737540A (zh) * 2020-05-27 2020-10-02 中国科学院计算技术研究所 一种应用于分布式计算节点集群的图数据处理方法和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022222578A1 (zh) * 2021-04-21 2022-10-27 华为技术有限公司 一种聚合通信的方法、***和计算机设备

Similar Documents

Publication Publication Date Title
CN110390385B (zh) 一种基于bnrp的可配置并行通用卷积神经网络加速器
CN108108809B (zh) 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法
WO2021109699A1 (zh) 人工智能加速器、设备、芯片及数据处理方法
WO2022105805A1 (zh) 数据的处理方法及存算一体芯片
CN107066239A (zh) 一种实现卷积神经网络前向计算的硬件结构
WO2022001141A1 (zh) 一种gpu通信方法、设备以及介质
CN112333234B (zh) 分布式机器学习训练方法、装置、电子设备及存储介质
US11948352B2 (en) Speculative training using partial gradients update
CN111079923B (zh) 适用于边缘计算平台的Spark卷积神经网络***及其电路
US20230244537A1 (en) Efficient gpu resource allocation optimization method and system
CN114356578B (zh) 自然语言处理模型的并行计算方法、装置、设备及介质
WO2022110860A1 (zh) 基于硬件环境的数据操作方法、装置、设备及存储介质
WO2019001323A1 (zh) 信号处理的***和方法
CN112905530A (zh) 片上架构、池化计算加速器阵列、单元以及控制方法
CN117273084A (zh) 神经网络模型的计算方法、装置、电子设备及存储介质
CN110600020B (zh) 一种梯度传输方法及装置
US20230306236A1 (en) Device and method for executing lstm neural network operation
CN112261023A (zh) 一种卷积神经网络的数据传输方法和装置
CN109740619B (zh) 用于目标识别的神经网络终端运行方法和装置
CN107894957B (zh) 面向卷积神经网络的存储器数据访问与插零方法及装置
US20230083565A1 (en) Image data processing method and apparatus, storage medium, and electronic device
CN110163793B (zh) 卷积计算加速方法和装置
CN116431562B (zh) 一种基于加速处理器的多头注意力机制融合计算分配方法
CN115130672B (zh) 一种软硬件协同优化卷积神经网络计算的方法及装置
WO2020238106A1 (zh) 一种数据处理方法、电子装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210122

RJ01 Rejection of invention patent application after publication