CN107085562A - 一种基于高效复用数据流的神经网络处理器及设计方法 - Google Patents

一种基于高效复用数据流的神经网络处理器及设计方法 Download PDF

Info

Publication number
CN107085562A
CN107085562A CN201710179097.0A CN201710179097A CN107085562A CN 107085562 A CN107085562 A CN 107085562A CN 201710179097 A CN201710179097 A CN 201710179097A CN 107085562 A CN107085562 A CN 107085562A
Authority
CN
China
Prior art keywords
computing unit
loaded
data
weight
data flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710179097.0A
Other languages
English (en)
Other versions
CN107085562B (zh
Inventor
韩银和
许浩博
王颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201710179097.0A priority Critical patent/CN107085562B/zh
Publication of CN107085562A publication Critical patent/CN107085562A/zh
Application granted granted Critical
Publication of CN107085562B publication Critical patent/CN107085562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8053Vector processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出一种基于高效复用数据流的神经网络处理器及设计方法,涉及神经网络模型计算的硬件加速技术领域,该处理器包括至少一存储单元,用于存储操作指令与运算数据;至少一计算单元,用于执行神经网络计算;控制单元,与所述至少一存储单元、所述至少一计算单元相连,用于经由所述至少一存储单元获得所述至少一存储单元存储的操作指令,并且解析所述操作指令以控制所述至少一计算单元;其中所述运算数据采用高效复用数据流的形式。本发明在神经网络处理过程中采用高效复用数据流,每次只需向计算单元阵列中的一列计算单元载入权重和数据,降低了片上数据带宽、提高了数据共享率、提升了能量效率。

Description

一种基于高效复用数据流的神经网络处理器及设计方法
技术领域
本发明涉及神经网络模型计算的硬件加速技术领域,特别涉及一种基于高效复用数据流的神经网络处理器及设计方法。
背景技术
随着机器学习技术的不断发展,深度神经网络已经成为认知与识别任务的最佳解决方案,在识别检测和计算机视觉领域引起了广泛关注,尤其在图像识别领域,深度神经网络已到达甚至超越人类的辨识准确度。
深度学***台或嵌入式平台中的适用性不高因此该技术在嵌入式设备或低开销数据中心等领域应用时存在严重的能效问题和运算速度瓶颈。
深度神经网络的规模不断扩大,增加了数据传送和数据计算的需求,由于在很多情况下数据传输比数据计算更消耗能量,因此,本发明提供一种基于高效复用数据流的神经网络处理器,通过优化神经网络处理器的数据调度方式,减少了数据传输带宽、增加了权重和数据的复用率、降低片上存储量,实现了工作能耗的降低。
发明内容
针对现有技术的不足,本发明提出一种基于高效复用数据流的神经网络处理器及设计方法。
本发明提出一种基于高效复用数据流的神经网络处理器,包括:
至少一存储单元,用于存储操作指令与运算数据;
至少一计算单元,用于执行神经网络计算;
控制单元,与所述至少一存储单元、所述至少一计算单元相连,用于经由所述至少一存储单元获得所述至少一存储单元存储的操作指令,并且解析所述操作指令以控制所述至少一计算单元;
其中所述运算数据采用高效复用数据流的形式。
所述神经网络处理器包括存储结构、控制结构、计算结构。
在所述计算单元阵列中,位于相同列的计算单元共享一组相同的数据;位于相同行的计算单元载入相同的一组权重,在每个计算周期,每个计算单元仅会载入一组权重的一个元素;位于不同行的计算单元会载入不同的权重。
计算单元中每组数据按照神经网络层深度方向排列,计算单元内不同行间的运算提现了计算单元的并行度。
所述高效复用数据流每次只载入一列数据与权重进入计算单元阵列,并且载入的数据与权重仅在相邻两列间传播。
本发明还提出一种基于高效复用数据流的神经网络处理器的设计方法,包括:
设置至少一存储单元,存储操作指令与运算数据;
设置至少一计算单元,执行神经网络计算;
设置控制单元,与所述至少一存储单元、所述至少一计算单元相连,经由所述至少一存储单元获得所述至少一存储单元存储的操作指令,并且解析所述操作指令以控制所述至少一计算单元;
其中所述运算数据采用高效复用数据流的形式。
所述神经网络处理器包括存储结构、控制结构、计算结构。
在所述计算单元阵列中,位于相同列的计算单元共享一组相同的数据;位于相同行的计算单元载入相同的一组权重,在每个计算周期,每个计算单元仅会载入一组权重的一个元素;位于不同行的计算单元会载入不同的权重。
计算单元中每组数据按照神经网络层深度方向排列,计算单元内不同行间的运算提现了计算单元的并行度。
所述高效复用数据流每次只载入一列数据与权重进入计算单元阵列,并且载入的数据与权重仅在相邻两列间传播。
由以上方案可知,本发明的优点在于:
本发明在神经网络处理过程中采用高效复用数据流,每次只需向计算单元阵列中的一列计算单元载入权重和数据,降低了片上数据带宽、提高了数据共享率、提升了能量效率。
附图说明
图1是本发明提供的神经网络处理器结构框图;
图2是本发明提供的具有数据共享功能的计算单元阵列示意图;
图3是本发明提供的高效复用数据流示意图。
具体实施方式
本发明目的为提供一种基于高效复用数据流的神经网络处理器及设计方法,该处理器在现有神经网络处理器***中采用时间维-空间维数据流并采用权重压缩的方法,降低了片上数据带宽、提高了数据共享率并减少了无效计算,进而提升了神经网络处理器的运算速度及运行能量效率。
为实现上述目的,本发明提供的基于高效复用数据流的神经网络处理器,包括:
至少一个存储单元,用于存储操作指令和运算数据;
至少一个计算单元,用于执行神经网络计算;以及控制单元,与所述至少一个存储单元和所述至少一个计算单元相连,用于经由所述至少一个存储单元获得所述至少一个存储单元存储的指令,并且解析该指令以控制所述至少一个计算单元;
一种基于时间维-空间维的高效复用数据流进行数据传输及计算,所述高效复用数据流每次只载入一列数据和权重进入计算单元阵列,并且数据和权重仅在相邻两列间传播,具有低数据带宽和高数据共享率的特点。
为了使本发明的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本发明进一步详细说明,应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明旨在提供一种基于高效复用数据流的神经网络处理器,在神经网络处理过程中采用高效复用数据流,每次只需向计算单元阵列中的一列计算单元载入权重和数据,降低了片上数据带宽、提高了数据共享率、提升了能量效率。
本发明提供的神经网络处理基于存储-控制-计算的结构;
存储结构用于存储参与计算的数据及处理器操作指令;
控制结构包括译码电路,用于解析操作指令,生成控制信号以控制片上数据的调度与存储以及神经网络计算过程;
计算结构包括算术逻辑单元,用于参与该处理器中的神经网络计算操作,压缩数据在计算结构中实现计算操作。
图1为本发明提供的一种神经网络处理器***101,该***架构由六个部分构成,包括输入数据存储单元102、控制单元103、输出数据存储单元104、权重存储单元105、指令存储单元106、计算单元阵列107。
输入数据存储单元102用于参与计算的数据,该数据包括原始特征图数据和参与中间层计算的数据;输出数据存储单元104包括计算得到的神经元响应值;权重存储单元105用于存储已经训练好的神经网络权重;指令存储单元106存储参与计算的指令信息,指令被解析来实现神经网络计算。
控制单元103分别与输出数据存储单元104、权重存储单元105、指令存储单元106、计算单元107,控制单元103获得保存在指令存储单元106中的指令并且解析该指令,控制单元103可根据解析指令得到的控制信号控制计算单元进行神经网络计算。
计算单元107用于根据控制单元103的产生的控制信号来执行相应的神经网络计算。计算单元107与一个或多个存储单元相关联,计算单元107可以从与其相关联的输入数据存储单元102中的数据存储部件获得数据以进行计算,并且可以向该相关联的输出数据存储单元104写入数据。计算单元107完成神经网络算法中的大部分运算,即向量乘加操作等。
图2为本发明设计的一种适用于高效复用数据流的计算单元阵列示意图。该计算单元阵列由m*n个计算单元组成,每个计算单元完成数据和神经网络权重的卷积运算。在计算单元阵列中,位于相同列的计算单元共享一组相同的数据;位于相同行的计算单元会载入相同的一组权重值,在每个计算周期,每个计算单元仅会载入一组权重值的一个元素;位于不同行的计算单元会载入不同的权重值。
本发明提供一种应用于神经网络处理的高效复用数据流。所述高效复用数据流的特征包括:
(1)参与神经网络运算的数据按照神经网络层深度排列方式载入至计算单元中。
(2)计算单元包含n行,行方向代表了计算单元的并行度。
(3)计算单元内,数据和权重在列方向上进行传播和移动,可以增加数
据和权重的复用率。
图3以3*2的计算单元(PE)阵列为例,详细阐述本发明提供的计算单元阵列通过高效复用数据流进行神经网络计算的过程。如图3,两组权重权重0和权重1的规模大小均为2*2*4,数据规模大小为4*2*4,权重依据其空间位置被分为四组,其中位于相同x轴和相同y轴的权重元素被分为一组,权重0的四组权重分别为Ax、Bx、Cx和Dx(x=0,1,2,3),权重1的四组权重分别为ax、bx、cx和dx(x=0,1,2,3)。PE的具体工作过程如下:
在第0个周期,数据①②③分别载入到计算单元PE00、PE01和PE02中,权重0中的权重元素A0载入到计算单元PE00中,数据①和权重元素A0在计算单元PE00中进行乘法等相关操作;同时数据①②③共享至计算单元PE00、PE01和PE02中,权重1中权重元素a0载入到计算单元PE10中,数据①和权重元素a0在计算单元PE10中进行乘法等相关操作;
在第1个周期,权重元素A0向右移动至计算单元PE01中,权重元素A1载入到计算单元PE00中;同时权重元素a0向右移动至计算单元PE11中,权重元素a1载入到计算单元PE10中;
在第2个周期,权重元素A0和A1同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素A2载入到计算单元PE00中;同时,权重元素a0和a1同时右移,分别载入到计算单元PE12和计算单元PE11中,权重元素a2载入到计算单元PE10中;
在第3个周期,权重元素A1和A2同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素A3载入到计算单元PE00中,此时权重0的第一组权重元素Ax(x=0,1,2,3)已全部载入至计算单元阵列中;同时,权重元素a1和a2同时右移,分别载入到计算单元PE12和计算单元PE11中,权重元素a3载入到计算单元PE10中,此时权重1的第一组权重元素ax(x=0,1,2,3)已全部载入至计算单元阵列中;
在第4个周期,权重元素A2和A3同时右移,分别载入到计算单元PE02和计算单元PE01中,下一组权重元素Bx(x=0,1,2,3)中的第一个元素B0载入到计算单元PE00中,此外数据②载入至计算单元PE00中;同时,权重元素a2和a3同时右移,分别载入到计算单元PE12和计算单元PE11中,下一组权重元素bx(x=0,1,2,3)中的第一个元素b0载入到计算单元PE10中,数据②共享至计算单元PE10中;
在第5个周期,权重元素A3和B0同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素B1载入到计算单元PE00中,此外数据③载入至计算单元PE01中;同时,权重元素a3和b0同时右移,分别载入到计算单元PE12和计算单元PE11中,权重元素b1载入到计算单元PE10中,此外数据③载入至计算单元PE11中;
在第6个周期,权重元素B0和B1时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素B2载入到计算单元PE00中,此外数据④载入至计算单元PE02中;同时,权重元素b0和b1时右移,分别载入到计算单元PE12和计算单元PE11中,权重元素b2载入到计算单元PE10中,数据④共享至计算单元PE12中;
在第7个周期,权重元素B1和B2同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素B3载入到计算单元PE00中,此时权重0的第二组权重元素Bx(x=0,1,2,3)已全部载入至计算单元阵列中;同时,权重元素b1和b2同时右移,分别载入到计算单元PE12和计算单元PE11中,权重元素b3载入到计算单元PE10中,此时权重1的第二组权重元素bx(x=0,1,2,3)已全部载入至计算单元阵列中;
在第8个周期,权重元素B2和B3同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素C0载入到计算单元PE00中,此外数据⑤载入至计算单元PE00中;同时,权重元素b2和b3同时右移,分别载入到计算单元PE12和计算单元PE11中,权重元素c0载入到计算单元PE10中,数据⑤共享至计算单元PE10中;
在第9个周期,数据⑥分别载入到计算单元PE01中,权重元素C0向右移动至计算单元PE01中,权重元素C1载入到计算单元PE00中;同时,数据⑥共享到计算单元PE11中,权重元素c0向右移动至计算单元PE11中,权重元素c1载入到计算单元PE10中;
在第10个周期,权重元素C0和C1同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素C2载入到计算单元PE00中,此外数据⑦载入至计算单元PE02中;同时,权重元素c0和c1同时右移,分别载入到计算单元PE12和计算单元PE11中,权重元素c2载入到计算单元PE10中,数据⑦共享至计算单元PE12中;
在第11个周期,权重元素C1和C2同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素C3载入到计算单元PE00中,此时权重0的第三组权重元素Cx(x=0,1,2,3)已全部载入至计算单元阵列中;同时,权重元素c1和c2同时右移,分别载入到计算单元PE12和计算单元PE11中,权重元素c3载入到计算单元PE10中,此时权重1的第三组权重元素cx(x=0,1,2,3)已全部载入至计算单元阵列中;
在第12个周期,权重元素C2和C3同时右移,分别载入到计算单元PE02和计算单元PE01中,权重0中下一组权重元素Dx(x=0,1,2,3)中的第一个元素D0载入到计算单元PE00中,此外数据⑥载入至计算单元PE00中;同时,权重元素c2和c3同时右移,分别载入到计算单元PE02和计算单元PE01中,权重1中下一组权重元素dx(x=0,1,2,3)中的第一个元素d0载入到计算单元PE10中,数据⑥共享至计算单元PE00中;
在第13个周期,权重元素C3和D0同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素D1载入到计算单元PE00中,此外数据⑦载入至计算单元PE01中;同时,权重元素c3和d0同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素d1载入到计算单元PE00中,数据⑦共享至计算单元PE01中;
在第14个周期,权重元素D1和D0同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素D2载入到计算单元PE00中,此外数据⑧载入至计算单元PE02中;同时,权重元素d1和d0同时右移,分别载入到计算单元PE02和计算单元PE01中,权重元素d2载入到计算单元PE00中,数据⑧共享至计算单元PE02中;
在第15个周期,权重元素D2和D1同时右移,分别载入到计算单元PE2和计算单元PE01中,权重元素D3载入到计算单元PE00中;同时,权重元素d2和d1同时右移,分别载入到计算单元PE2和计算单元PE01中,权重元素d3载入到计算单元PE00中;
在第16个周期,权重元素D3和D2同时右移,分别载入到计算单元PE02和计算单元PE01中;同时,权重元素d3和d2同时右移,分别载入到计算单元PE12和计算单元PE11中;
在第17个周期,权重元素D3右移,载入到计算单元PE02中,此时上述权重规模大小为2*2*4与数据规模大小为4*2*4的卷积运算结束;同时,权重元素d3右移,载入到计算单元PE12中,此时上述权重规模大小为2*2*4与数据规模大小为4*2*4的卷积运算结束。
本发明还提出一种基于高效复用数据流的神经网络处理器的设计方法,包括:
设置至少一存储单元,存储操作指令与运算数据;
设置至少一计算单元,执行神经网络计算;
设置控制单元,与所述至少一存储单元、所述至少一计算单元相连,经由所述至少一存储单元获得所述至少一存储单元存储的操作指令,并且解析所述操作指令以控制所述至少一计算单元;
其中所述运算数据采用高效复用数据流的形式。
所述神经网络处理器包括存储结构、控制结构、计算结构。
在所述计算单元阵列中,位于相同列的计算单元共享一组相同的数据;位于相同行的计算单元载入相同的一组权重,在每个计算周期,每个计算单元仅会载入一组权重的一个元素;位于不同行的计算单元会载入不同的权重。
计算单元中每组数据按照神经网络层深度方向排列,计算单元内不同行间的运算提现了计算单元的并行度。
所述高效复用数据流每次只载入一列数据与权重进入计算单元阵列,并且载入的数据与权重仅在相邻两列间传播。综上所述,本发明针对能量效率低这一问题,提供了一种高效复用数据流,减少了数据带宽,增加了数据复用率,有效提高了处理器的能量效率。
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合,均应属于本发明保护的范围。

Claims (10)

1.一种基于高效复用数据流的神经网络处理器,其特征在于,包括:
至少一存储单元,用于存储操作指令与运算数据;
至少一计算单元,用于执行神经网络计算;
控制单元,与所述至少一存储单元、所述至少一计算单元相连,用于经由所述至少一存储单元获得所述至少一存储单元存储的操作指令,并且解析所述操作指令以控制所述至少一计算单元;
其中所述运算数据采用高效复用数据流的形式。
2.如权利要求1所述的基于高效复用数据流的神经网络处理器,其特征在于,所述神经网络处理器包括存储结构、控制结构、计算结构。
3.如权利要求1所述的基于高效复用数据流的神经网络处理器,其特征在于,在所述计算单元阵列中,位于相同列的计算单元共享一组相同的数据;位于相同行的计算单元载入相同的一组权重,在每个计算周期,每个计算单元仅会载入一组权重的一个元素;位于不同行的计算单元会载入不同的权重。
4.如权利要求1所述的基于高效复用数据流的神经网络处理器,其特征在于,计算单元中每组数据按照神经网络层深度方向排列,计算单元内不同行间的运算提现了计算单元的并行度。
5.如权利要求1所述的基于高效复用数据流的神经网络处理器,其特征在于,所述高效复用数据流每次只载入一列数据与权重进入计算单元阵列,并且载入的数据与权重仅在相邻两列间传播。
6.一种基于高效复用数据流的神经网络处理器的设计方法,其特征在于,包括:
设置至少一存储单元,存储操作指令与运算数据;
设置至少一计算单元,执行神经网络计算;
设置控制单元,与所述至少一存储单元、所述至少一计算单元相连,经由所述至少一存储单元获得所述至少一存储单元存储的操作指令,并且解析所述操作指令以控制所述至少一计算单元;
其中所述运算数据采用高效复用数据流的形式。
7.如权利要求6所述的基于高效复用数据流的神经网络处理器的设计方法,其特征在于,所述神经网络处理器包括存储结构、控制结构、计算结构。
8.如权利要求6所述的基于高效复用数据流的神经网络处理器的设计方法,其特征在于,在所述计算单元阵列中,位于相同列的计算单元共享一组相同的数据;位于相同行的计算单元载入相同的一组权重,在每个计算周期,每个计算单元仅会载入一组权重的一个元素;位于不同行的计算单元会载入不同的权重。
9.如权利要求6所述的基于高效复用数据流的神经网络处理器的设计方法,其特征在于,计算单元中每组数据按照神经网络层深度方向排列,计算单元内不同行间的运算提现了计算单元的并行度。
10.如权利要求6所述的基于高效复用数据流的神经网络处理器的设计方法,其特征在于,所述高效复用数据流每次只载入一列数据与权重进入计算单元阵列,并且载入的数据与权重仅在相邻两列间传播。
CN201710179097.0A 2017-03-23 2017-03-23 一种基于高效复用数据流的神经网络处理器及设计方法 Active CN107085562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710179097.0A CN107085562B (zh) 2017-03-23 2017-03-23 一种基于高效复用数据流的神经网络处理器及设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710179097.0A CN107085562B (zh) 2017-03-23 2017-03-23 一种基于高效复用数据流的神经网络处理器及设计方法

Publications (2)

Publication Number Publication Date
CN107085562A true CN107085562A (zh) 2017-08-22
CN107085562B CN107085562B (zh) 2020-11-03

Family

ID=59615185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710179097.0A Active CN107085562B (zh) 2017-03-23 2017-03-23 一种基于高效复用数据流的神经网络处理器及设计方法

Country Status (1)

Country Link
CN (1) CN107085562B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578098A (zh) * 2017-09-01 2018-01-12 中国科学院计算技术研究所 基于脉动阵列的神经网络处理器
CN107918794A (zh) * 2017-11-15 2018-04-17 中国科学院计算技术研究所 基于计算阵列的神经网络处理器
CN108628799A (zh) * 2018-04-17 2018-10-09 上海交通大学 可重构的单指令多数据脉动阵列结构、处理器及电子终端
CN109272112A (zh) * 2018-07-03 2019-01-25 北京中科睿芯科技有限公司 一种面向神经网络的数据重用指令映射方法、***及装置
CN109697135A (zh) * 2017-10-20 2019-04-30 上海寒武纪信息科技有限公司 存储装置及方法、数据处理装置及方法、电子装置
CN110716751A (zh) * 2018-07-12 2020-01-21 赛灵思公司 高并行度计算平台、***及计算实现方法
WO2020133463A1 (zh) * 2018-12-29 2020-07-02 华为技术有限公司 神经网络***及数据处理技术
CN111401543A (zh) * 2020-06-08 2020-07-10 深圳市九天睿芯科技有限公司 一种全片上存储的神经网络加速器及其实现方法
CN113435570A (zh) * 2021-05-07 2021-09-24 西安电子科技大学 可编程卷积神经网络处理器、方法、设备、介质、终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184366A (zh) * 2015-09-15 2015-12-23 中国科学院计算技术研究所 一种时分复用的通用神经网络处理器
US9477925B2 (en) * 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
WO2016186823A1 (en) * 2015-05-21 2016-11-24 Google Inc. Batch processing in a neural network processor
CN106203621A (zh) * 2016-07-11 2016-12-07 姚颂 用于卷积神经网络计算的处理器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477925B2 (en) * 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
WO2016186823A1 (en) * 2015-05-21 2016-11-24 Google Inc. Batch processing in a neural network processor
CN105184366A (zh) * 2015-09-15 2015-12-23 中国科学院计算技术研究所 一种时分复用的通用神经网络处理器
CN106203621A (zh) * 2016-07-11 2016-12-07 姚颂 用于卷积神经网络计算的处理器

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578098A (zh) * 2017-09-01 2018-01-12 中国科学院计算技术研究所 基于脉动阵列的神经网络处理器
CN109697135B (zh) * 2017-10-20 2021-03-26 上海寒武纪信息科技有限公司 存储装置及方法、数据处理装置及方法、电子装置
CN109697135A (zh) * 2017-10-20 2019-04-30 上海寒武纪信息科技有限公司 存储装置及方法、数据处理装置及方法、电子装置
CN107918794A (zh) * 2017-11-15 2018-04-17 中国科学院计算技术研究所 基于计算阵列的神经网络处理器
CN108628799A (zh) * 2018-04-17 2018-10-09 上海交通大学 可重构的单指令多数据脉动阵列结构、处理器及电子终端
CN108628799B (zh) * 2018-04-17 2021-09-14 上海交通大学 可重构的单指令多数据脉动阵列结构、处理器及电子终端
CN109272112B (zh) * 2018-07-03 2021-08-27 北京中科睿芯科技集团有限公司 一种面向神经网络的数据重用指令映射方法、***及装置
CN109272112A (zh) * 2018-07-03 2019-01-25 北京中科睿芯科技有限公司 一种面向神经网络的数据重用指令映射方法、***及装置
CN110716751A (zh) * 2018-07-12 2020-01-21 赛灵思公司 高并行度计算平台、***及计算实现方法
WO2020133463A1 (zh) * 2018-12-29 2020-07-02 华为技术有限公司 神经网络***及数据处理技术
CN111401543A (zh) * 2020-06-08 2020-07-10 深圳市九天睿芯科技有限公司 一种全片上存储的神经网络加速器及其实现方法
CN113435570A (zh) * 2021-05-07 2021-09-24 西安电子科技大学 可编程卷积神经网络处理器、方法、设备、介质、终端
CN113435570B (zh) * 2021-05-07 2024-05-31 西安电子科技大学 可编程卷积神经网络处理器、方法、设备、介质、终端

Also Published As

Publication number Publication date
CN107085562B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN107085562A (zh) 一种基于高效复用数据流的神经网络处理器及设计方法
CN106447034B (zh) 一种基于数据压缩的神经网络处理器、设计方法、芯片
CN104915322B (zh) 一种卷积神经网络硬件加速方法
CN106951395B (zh) 面向压缩卷积神经网络的并行卷积运算方法及装置
CN107153873B (zh) 一种二值卷积神经网络处理器及其使用方法
CN109543832B (zh) 一种计算装置及板卡
CN109190756A (zh) 基于Winograd卷积的运算装置及包含该装置的神经网络处理器
JP2020530916A (ja) チップ装置および関連製品
CN106529670A (zh) 一种基于权重压缩的神经网络处理器、设计方法、芯片
CN107578098A (zh) 基于脉动阵列的神经网络处理器
CN108416436A (zh) 使用多核心处理模块进行神经网络划分的方法及其***
CN107886167A (zh) 神经网络运算装置及方法
CN107689948A (zh) 应用于神经网络硬件加速***的高效数据访存管理装置
CN107918794A (zh) 基于计算阵列的神经网络处理器
KR20130090147A (ko) 신경망 컴퓨팅 장치 및 시스템과 그 방법
CN110348574A (zh) 一种基于zynq的通用卷积神经网络加速结构及设计方法
CN106650924A (zh) 一种基于时间维和空间维数据流压缩的处理器、设计方法
CN103617150A (zh) 一种基于gpu的大规模电力***潮流并行计算***及其方法
CN107423816A (zh) 一种多计算精度神经网络处理方法和***
CN110321997A (zh) 高并行度计算平台、***及计算实现方法
Kono et al. Scalability analysis of tightly-coupled FPGA-cluster for lattice boltzmann computation
CN107256424A (zh) 三值权重卷积网络处理***及方法
CN103049241A (zh) 一种提高cpu+gpu异构装置计算性能的方法
CN108205704A (zh) 一种神经网络芯片
CN110580519B (zh) 一种卷积运算装置及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant