CN107085562A

CN107085562A - 一种基于高效复用数据流的神经网络处理器及设计方法

Info

Publication number: CN107085562A
Application number: CN201710179097.0A
Authority: CN
Inventors: 韩银和; 许浩博; 王颖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-03-23
Filing date: 2017-03-23
Publication date: 2017-08-22
Anticipated expiration: 2037-03-23
Also published as: CN107085562B

Abstract

本发明提出一种基于高效复用数据流的神经网络处理器及设计方法，涉及神经网络模型计算的硬件加速技术领域，该处理器包括至少一存储单元，用于存储操作指令与运算数据；至少一计算单元，用于执行神经网络计算；控制单元，与所述至少一存储单元、所述至少一计算单元相连，用于经由所述至少一存储单元获得所述至少一存储单元存储的操作指令，并且解析所述操作指令以控制所述至少一计算单元；其中所述运算数据采用高效复用数据流的形式。本发明在神经网络处理过程中采用高效复用数据流，每次只需向计算单元阵列中的一列计算单元载入权重和数据，降低了片上数据带宽、提高了数据共享率、提升了能量效率。

Description

一种基于高效复用数据流的神经网络处理器及设计方法

技术领域

本发明涉及神经网络模型计算的硬件加速技术领域，特别涉及一种基于高效复用数据流的神经网络处理器及设计方法。

背景技术

随着机器学习技术的不断发展，深度神经网络已经成为认知与识别任务的最佳解决方案，在识别检测和计算机视觉领域引起了广泛关注，尤其在图像识别领域，深度神经网络已到达甚至超越人类的辨识准确度。

深度学***台或嵌入式平台中的适用性不高因此该技术在嵌入式设备或低开销数据中心等领域应用时存在严重的能效问题和运算速度瓶颈。

深度神经网络的规模不断扩大，增加了数据传送和数据计算的需求，由于在很多情况下数据传输比数据计算更消耗能量，因此，本发明提供一种基于高效复用数据流的神经网络处理器，通过优化神经网络处理器的数据调度方式，减少了数据传输带宽、增加了权重和数据的复用率、降低片上存储量，实现了工作能耗的降低。

发明内容

针对现有技术的不足，本发明提出一种基于高效复用数据流的神经网络处理器及设计方法。

本发明提出一种基于高效复用数据流的神经网络处理器，包括：

至少一存储单元，用于存储操作指令与运算数据；

至少一计算单元，用于执行神经网络计算；

控制单元，与所述至少一存储单元、所述至少一计算单元相连，用于经由所述至少一存储单元获得所述至少一存储单元存储的操作指令，并且解析所述操作指令以控制所述至少一计算单元；

其中所述运算数据采用高效复用数据流的形式。

所述神经网络处理器包括存储结构、控制结构、计算结构。

在所述计算单元阵列中，位于相同列的计算单元共享一组相同的数据；位于相同行的计算单元载入相同的一组权重，在每个计算周期，每个计算单元仅会载入一组权重的一个元素；位于不同行的计算单元会载入不同的权重。

计算单元中每组数据按照神经网络层深度方向排列，计算单元内不同行间的运算提现了计算单元的并行度。

所述高效复用数据流每次只载入一列数据与权重进入计算单元阵列，并且载入的数据与权重仅在相邻两列间传播。

本发明还提出一种基于高效复用数据流的神经网络处理器的设计方法，包括：

设置至少一存储单元，存储操作指令与运算数据；

设置至少一计算单元，执行神经网络计算；

设置控制单元，与所述至少一存储单元、所述至少一计算单元相连，经由所述至少一存储单元获得所述至少一存储单元存储的操作指令，并且解析所述操作指令以控制所述至少一计算单元；

其中所述运算数据采用高效复用数据流的形式。

所述神经网络处理器包括存储结构、控制结构、计算结构。

由以上方案可知，本发明的优点在于：

本发明在神经网络处理过程中采用高效复用数据流，每次只需向计算单元阵列中的一列计算单元载入权重和数据，降低了片上数据带宽、提高了数据共享率、提升了能量效率。

附图说明

图1是本发明提供的神经网络处理器结构框图；

图2是本发明提供的具有数据共享功能的计算单元阵列示意图；

图3是本发明提供的高效复用数据流示意图。

具体实施方式

本发明目的为提供一种基于高效复用数据流的神经网络处理器及设计方法，该处理器在现有神经网络处理器***中采用时间维-空间维数据流并采用权重压缩的方法，降低了片上数据带宽、提高了数据共享率并减少了无效计算，进而提升了神经网络处理器的运算速度及运行能量效率。

为实现上述目的，本发明提供的基于高效复用数据流的神经网络处理器，包括：

至少一个存储单元，用于存储操作指令和运算数据；

至少一个计算单元，用于执行神经网络计算；以及控制单元，与所述至少一个存储单元和所述至少一个计算单元相连，用于经由所述至少一个存储单元获得所述至少一个存储单元存储的指令，并且解析该指令以控制所述至少一个计算单元；

一种基于时间维-空间维的高效复用数据流进行数据传输及计算，所述高效复用数据流每次只载入一列数据和权重进入计算单元阵列，并且数据和权重仅在相邻两列间传播，具有低数据带宽和高数据共享率的特点。

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明旨在提供一种基于高效复用数据流的神经网络处理器，在神经网络处理过程中采用高效复用数据流，每次只需向计算单元阵列中的一列计算单元载入权重和数据，降低了片上数据带宽、提高了数据共享率、提升了能量效率。

本发明提供的神经网络处理基于存储-控制-计算的结构；

存储结构用于存储参与计算的数据及处理器操作指令；

控制结构包括译码电路，用于解析操作指令，生成控制信号以控制片上数据的调度与存储以及神经网络计算过程；

计算结构包括算术逻辑单元，用于参与该处理器中的神经网络计算操作，压缩数据在计算结构中实现计算操作。

图1为本发明提供的一种神经网络处理器***101，该***架构由六个部分构成，包括输入数据存储单元102、控制单元103、输出数据存储单元104、权重存储单元105、指令存储单元106、计算单元阵列107。

输入数据存储单元102用于参与计算的数据，该数据包括原始特征图数据和参与中间层计算的数据；输出数据存储单元104包括计算得到的神经元响应值；权重存储单元105用于存储已经训练好的神经网络权重；指令存储单元106存储参与计算的指令信息，指令被解析来实现神经网络计算。

控制单元103分别与输出数据存储单元104、权重存储单元105、指令存储单元106、计算单元107，控制单元103获得保存在指令存储单元106中的指令并且解析该指令，控制单元103可根据解析指令得到的控制信号控制计算单元进行神经网络计算。

计算单元107用于根据控制单元103的产生的控制信号来执行相应的神经网络计算。计算单元107与一个或多个存储单元相关联，计算单元107可以从与其相关联的输入数据存储单元102中的数据存储部件获得数据以进行计算，并且可以向该相关联的输出数据存储单元104写入数据。计算单元107完成神经网络算法中的大部分运算，即向量乘加操作等。

图2为本发明设计的一种适用于高效复用数据流的计算单元阵列示意图。该计算单元阵列由m*n个计算单元组成，每个计算单元完成数据和神经网络权重的卷积运算。在计算单元阵列中，位于相同列的计算单元共享一组相同的数据；位于相同行的计算单元会载入相同的一组权重值，在每个计算周期，每个计算单元仅会载入一组权重值的一个元素；位于不同行的计算单元会载入不同的权重值。

本发明提供一种应用于神经网络处理的高效复用数据流。所述高效复用数据流的特征包括：

(1)参与神经网络运算的数据按照神经网络层深度排列方式载入至计算单元中。

(2)计算单元包含n行，行方向代表了计算单元的并行度。

(3)计算单元内，数据和权重在列方向上进行传播和移动，可以增加数

据和权重的复用率。

图3以3*2的计算单元(PE)阵列为例，详细阐述本发明提供的计算单元阵列通过高效复用数据流进行神经网络计算的过程。如图3，两组权重权重0和权重1的规模大小均为2*2*4，数据规模大小为4*2*4，权重依据其空间位置被分为四组，其中位于相同x轴和相同y轴的权重元素被分为一组，权重0的四组权重分别为Ax、Bx、Cx和Dx(x＝0,1,2,3)，权重1的四组权重分别为ax、bx、cx和dx(x＝0,1,2,3)。PE的具体工作过程如下：

在第0个周期，数据①②③分别载入到计算单元PE00、PE01和PE02中，权重0中的权重元素A0载入到计算单元PE00中，数据①和权重元素A0在计算单元PE00中进行乘法等相关操作；同时数据①②③共享至计算单元PE00、PE01和PE02中，权重1中权重元素a0载入到计算单元PE10中，数据①和权重元素a0在计算单元PE10中进行乘法等相关操作；

在第1个周期，权重元素A0向右移动至计算单元PE01中，权重元素A1载入到计算单元PE00中；同时权重元素a0向右移动至计算单元PE11中，权重元素a1载入到计算单元PE10中；

在第2个周期，权重元素A0和A1同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素A2载入到计算单元PE00中；同时，权重元素a0和a1同时右移，分别载入到计算单元PE12和计算单元PE11中，权重元素a2载入到计算单元PE10中；

在第3个周期，权重元素A1和A2同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素A3载入到计算单元PE00中，此时权重0的第一组权重元素Ax(x＝0,1,2,3)已全部载入至计算单元阵列中；同时，权重元素a1和a2同时右移，分别载入到计算单元PE12和计算单元PE11中，权重元素a3载入到计算单元PE10中，此时权重1的第一组权重元素ax(x＝0,1,2,3)已全部载入至计算单元阵列中；

在第4个周期，权重元素A2和A3同时右移，分别载入到计算单元PE02和计算单元PE01中，下一组权重元素Bx(x＝0,1,2,3)中的第一个元素B0载入到计算单元PE00中，此外数据②载入至计算单元PE00中；同时，权重元素a2和a3同时右移，分别载入到计算单元PE12和计算单元PE11中，下一组权重元素bx(x＝0,1,2,3)中的第一个元素b0载入到计算单元PE10中，数据②共享至计算单元PE10中；

在第5个周期，权重元素A3和B0同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素B1载入到计算单元PE00中，此外数据③载入至计算单元PE01中；同时，权重元素a3和b0同时右移，分别载入到计算单元PE12和计算单元PE11中，权重元素b1载入到计算单元PE10中，此外数据③载入至计算单元PE11中；

在第6个周期，权重元素B0和B1时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素B2载入到计算单元PE00中，此外数据④载入至计算单元PE02中；同时，权重元素b0和b1时右移，分别载入到计算单元PE12和计算单元PE11中，权重元素b2载入到计算单元PE10中，数据④共享至计算单元PE12中；

在第7个周期，权重元素B1和B2同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素B3载入到计算单元PE00中，此时权重0的第二组权重元素Bx(x＝0,1,2,3)已全部载入至计算单元阵列中；同时，权重元素b1和b2同时右移，分别载入到计算单元PE12和计算单元PE11中，权重元素b3载入到计算单元PE10中，此时权重1的第二组权重元素bx(x＝0,1,2,3)已全部载入至计算单元阵列中；

在第8个周期，权重元素B2和B3同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素C0载入到计算单元PE00中，此外数据⑤载入至计算单元PE00中；同时，权重元素b2和b3同时右移，分别载入到计算单元PE12和计算单元PE11中，权重元素c0载入到计算单元PE10中，数据⑤共享至计算单元PE10中；

在第9个周期，数据⑥分别载入到计算单元PE01中，权重元素C0向右移动至计算单元PE01中，权重元素C1载入到计算单元PE00中；同时，数据⑥共享到计算单元PE11中，权重元素c0向右移动至计算单元PE11中，权重元素c1载入到计算单元PE10中；

在第10个周期，权重元素C0和C1同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素C2载入到计算单元PE00中，此外数据⑦载入至计算单元PE02中；同时，权重元素c0和c1同时右移，分别载入到计算单元PE12和计算单元PE11中，权重元素c2载入到计算单元PE10中，数据⑦共享至计算单元PE12中；

在第11个周期，权重元素C1和C2同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素C3载入到计算单元PE00中，此时权重0的第三组权重元素Cx(x＝0,1,2,3)已全部载入至计算单元阵列中；同时，权重元素c1和c2同时右移，分别载入到计算单元PE12和计算单元PE11中，权重元素c3载入到计算单元PE10中，此时权重1的第三组权重元素cx(x＝0,1,2,3)已全部载入至计算单元阵列中；

在第12个周期，权重元素C2和C3同时右移，分别载入到计算单元PE02和计算单元PE01中，权重0中下一组权重元素Dx(x＝0,1,2,3)中的第一个元素D0载入到计算单元PE00中，此外数据⑥载入至计算单元PE00中；同时，权重元素c2和c3同时右移，分别载入到计算单元PE02和计算单元PE01中，权重1中下一组权重元素dx(x＝0,1,2,3)中的第一个元素d0载入到计算单元PE10中，数据⑥共享至计算单元PE00中；

在第13个周期，权重元素C3和D0同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素D1载入到计算单元PE00中，此外数据⑦载入至计算单元PE01中；同时，权重元素c3和d0同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素d1载入到计算单元PE00中，数据⑦共享至计算单元PE01中；

在第14个周期，权重元素D1和D0同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素D2载入到计算单元PE00中，此外数据⑧载入至计算单元PE02中；同时，权重元素d1和d0同时右移，分别载入到计算单元PE02和计算单元PE01中，权重元素d2载入到计算单元PE00中，数据⑧共享至计算单元PE02中；

在第15个周期，权重元素D2和D1同时右移，分别载入到计算单元PE2和计算单元PE01中，权重元素D3载入到计算单元PE00中；同时，权重元素d2和d1同时右移，分别载入到计算单元PE2和计算单元PE01中，权重元素d3载入到计算单元PE00中；

在第16个周期，权重元素D3和D2同时右移，分别载入到计算单元PE02和计算单元PE01中；同时，权重元素d3和d2同时右移，分别载入到计算单元PE12和计算单元PE11中；

在第17个周期，权重元素D3右移，载入到计算单元PE02中，此时上述权重规模大小为2*2*4与数据规模大小为4*2*4的卷积运算结束；同时，权重元素d3右移，载入到计算单元PE12中，此时上述权重规模大小为2*2*4与数据规模大小为4*2*4的卷积运算结束。

设置至少一存储单元，存储操作指令与运算数据；

设置至少一计算单元，执行神经网络计算；

其中所述运算数据采用高效复用数据流的形式。

所述神经网络处理器包括存储结构、控制结构、计算结构。

所述高效复用数据流每次只载入一列数据与权重进入计算单元阵列，并且载入的数据与权重仅在相邻两列间传播。综上所述，本发明针对能量效率低这一问题，提供了一种高效复用数据流，减少了数据带宽，增加了数据复用率，有效提高了处理器的能量效率。

应当理解，虽然本说明书是按照各个实施例描述的，但并非每个实施例仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

以上所述仅为本发明示意性的具体实施方式，并非用以限定本发明的范围。任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合，均应属于本发明保护的范围。

Claims

1.一种基于高效复用数据流的神经网络处理器，其特征在于，包括：

至少一存储单元，用于存储操作指令与运算数据；

至少一计算单元，用于执行神经网络计算；

其中所述运算数据采用高效复用数据流的形式。

2.如权利要求1所述的基于高效复用数据流的神经网络处理器，其特征在于，所述神经网络处理器包括存储结构、控制结构、计算结构。

3.如权利要求1所述的基于高效复用数据流的神经网络处理器，其特征在于，在所述计算单元阵列中，位于相同列的计算单元共享一组相同的数据；位于相同行的计算单元载入相同的一组权重，在每个计算周期，每个计算单元仅会载入一组权重的一个元素；位于不同行的计算单元会载入不同的权重。

4.如权利要求1所述的基于高效复用数据流的神经网络处理器，其特征在于，计算单元中每组数据按照神经网络层深度方向排列，计算单元内不同行间的运算提现了计算单元的并行度。

5.如权利要求1所述的基于高效复用数据流的神经网络处理器，其特征在于，所述高效复用数据流每次只载入一列数据与权重进入计算单元阵列，并且载入的数据与权重仅在相邻两列间传播。

6.一种基于高效复用数据流的神经网络处理器的设计方法，其特征在于，包括：

设置至少一存储单元，存储操作指令与运算数据；

设置至少一计算单元，执行神经网络计算；

其中所述运算数据采用高效复用数据流的形式。

7.如权利要求6所述的基于高效复用数据流的神经网络处理器的设计方法，其特征在于，所述神经网络处理器包括存储结构、控制结构、计算结构。

8.如权利要求6所述的基于高效复用数据流的神经网络处理器的设计方法，其特征在于，在所述计算单元阵列中，位于相同列的计算单元共享一组相同的数据；位于相同行的计算单元载入相同的一组权重，在每个计算周期，每个计算单元仅会载入一组权重的一个元素；位于不同行的计算单元会载入不同的权重。

9.如权利要求6所述的基于高效复用数据流的神经网络处理器的设计方法，其特征在于，计算单元中每组数据按照神经网络层深度方向排列，计算单元内不同行间的运算提现了计算单元的并行度。

10.如权利要求6所述的基于高效复用数据流的神经网络处理器的设计方法，其特征在于，所述高效复用数据流每次只载入一列数据与权重进入计算单元阵列，并且载入的数据与权重仅在相邻两列间传播。