CN108416434B

CN108416434B - 针对神经网络的卷积层与全连接层进行加速的电路结构

Info

Publication number: CN108416434B
Application number: CN201810120895.0A
Authority: CN
Inventors: 韩军; 蔡宇杰; 曾晓洋
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2021-06-04
Anticipated expiration: 2038-02-07
Also published as: CN108416434A

Abstract

本发明属于集成电路设计技术领域，具体为一种可同时加速卷积层与全连接层的电路结构。本发明电路结构包括五部分：用于数据读取的特征/权重预取模块、用于提升数据复用率的局部缓存、用于实现矩阵乘法的矩阵运算单元、用于累加临时输出结果的临时数据累加模块以及负责数据回写的输出控制模块。该电路使用特殊的映射方法，将卷积层的运算以及全连接层的运算映射到一个固定大小的矩阵运算单元上。该电路对特征以及权重的内存排布方式进行调整，从而极大地提高了电路的访存效率。同时，电路模块的调度采用流水线的机制，使每个时钟周期所有的硬件单元都处于工作状态，提高了硬件单元使用率，从而提高了电路的工作效率。

Description

针对神经网络的卷积层与全连接层进行加速的电路结构

技术领域

本发明属于集成电路设计技术领域，具体涉及一种针对神经网络的卷积层与全连接层进行加速的电路结构。

背景技术

上世纪60年代，Hubel等人通过对猫视觉皮层细胞的研究，提出了感受野这个概念，到80年代，Fukushima在感受野概念的基础之上提出了神经认知机的概念，可以看作是卷积神经网络的第一个实现网络，神经认知机将一个视觉模式分解成许多子模式（特征），然后进入分层递阶式相连的特征平面进行处理，它试图将视觉***模型化，使其能够在即使物体有位移或轻微变形的时候，也能完成识别。

卷积神经网络是多层感知机的变种。由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来。视觉皮层的细胞存在一个复杂的构造。这些细胞对视觉输入空间的子区域非常敏感，我们称之为感受野，以这种方式平铺覆盖到整个视野区域。这些细胞可以分为两种基本类型，简单细胞和复杂细胞。简单细胞最大程度响应来自感受野范围内的边缘刺激模式。复杂细胞有更大的接受域，它对来自确切位置的刺激具有局部不变性。卷积神经网络结构包括：卷积层，降采样层，全连接层。每一层有多个特征图，每个特征图通过一种卷积滤波器提取输入的一种特征，每个特征图有多个神经元。

卷积神经网络由于其巨大的计算量，现在很难在移动终端上进行本地运算，而大多通过云计算的方式得以实现。而卷积神经网络超过百分之九十的运算量都在于卷积层以及全连接层的计算上，通常人们为这两种运算分别设计一个单独的加速电路，从而引入了多余的芯片面积。

本发明提出了一种可同时加速卷积层与全连接层的电路结构，通过对于神经网络每一层的特征与权重进行重新排序的方法，使其均可映射到同一个矩阵运算单元（乘法器与加法器的阵列）上。从而提高了硬件的复用效率，减少芯片面积，这也意味着电路在单位面积下可以获得更高的运算吞吐率。

发明内容

本发明的目的在于针对神经网络的卷积层与全连接层的运算加速，提供一种可同时加速卷积层与全连接层的电路结构，以提高硬件复用效率，减少芯片面积。

本发明提供的针对神经网络的卷积层与全连接层进行加速的电路结构，通过将运算展开的方法使卷积层与全连接层均可映射到同一个矩阵运算单元上；并通过对神经网络每一层的特征与权重进行重新排序的方法，来减少因为展开后特征、权重读取地址的不连续而带来的访存性能损失。

本发明提供的电路结构，包括特征/权重预取模块、局部缓存、矩阵运算单元、临时数据累加模块以及输出控制模块；其中：

所述特征/权重预取模块，用于从外部存储器（DRAM）中将新的特征以及权重数据取出并放入局部缓存中，同时替换旧的、不再使用的数据。除神经网络的第一层特征外，其余的所有特征、权重均按一定方式进行重新排布过的，而第一层特征也是按照一定方式进行重新排布过的，这由软件实现；因此特征/权重预取模块不需要实现重新排布的功能；

所述局部缓，存用于缓存矩阵运算单元所需的输入数据。无论是卷积层还是全连接层，其运算中都存在着大量的数据复用，因此，局部缓存存储这些可以被复用的数据，减少对外部存储器的访问量；

所述矩阵运算单元，是一乘法器与加法器的阵列，用于实现矩阵的运算。在对特征与权重进行重新排列后，卷积层与全连接层的运算均映射为一系列的矩阵运算，这些矩阵运算通过多次调用矩阵运算模块来实现；

所述临时数据累加模块，用于累加矩阵运算模块送出的数据。在多次累加后，将累加的结果（下一层网络的输入特征）送给输出控制模块；

所述输出控制模块，负责将累加后的结果按照上述同样的重新排布方式顺序写回外部存储器。

在将卷积层运算映射为矩阵运算的过程中，需要将输入特征拉成一系列的行向量，并把卷积核展开成二维矩阵。因此传统的内存空间分配方法会导致特征/权重预取模块需要读取的地址不再连续从而降低访存效率。对特征以及权重进行重新排布，保证了特征/权重预取模块读取地址的连续性，从而极大地提高了电路的访存效率。所述特征、权重按一定方式进行重新排布的流程如下：

如图4，对于一个大小为C_in*H*W的输入特征，将其切为H*W个长条，每个长条的长度为C_in。再将这H*W个长条中的数据以顺序地址的形式写入内存中。从低地址开始，第0个长条中的数据存储在0到C_in-1个数据对应的内存空间中，第1个长条中的数据存储在C_in到2*C_in-1个数据对应的内存空间中，以此类推，最后一个长条（第H*W-1个）中的数据存储在(H*W-1)*C_in到C_in*H*W*C_in-1个数据对应的内存空间中。换句话说，特征在内存中的展开顺序是C_in=> W => H（传统的内存空间分配方法为W => H => C_in）。

卷积核包含了C_out个大小为C_in*H*W个子权重矩阵，将每一个子权重矩阵按照输入特征的形式进行排布，即可完成对权重内存分布的重新调整。即权重特征在内存中的展开顺序是C_in => W => H => C_out（传统的内存空间分配方法为W => H => C_in => C_out）。

本发明中，特征/权重预取模块、局部缓存、矩阵运算单元、临时数据累加模块和输出控制模块的调度上都采用流水线的机制，使每个时钟周期所有的硬件单元都处于工作状态，提高了硬件单元使用率，减少芯片面积，从而提高了电路的工作效率。

本发明的有益效果在于：卷积层与全连接层可以共用同一个运算电路，使得硬件可以得到充分的复用，并且适应各种卷积神经网络的结构。同时，输出控制模块将每一层的输出按照预期的排布顺序写回外部存储器。因此除了第一层之外，其他所有层的特征全是排布好了的，不需要为数据的重新排布付出成本。而卷积神经网络的权重在推理阶段是不会发生改变的，即只需要在***初始化时将权重重新排布一次。

附图说明

图1电路基本框图。

图2为全连接层的运算转换为卷积层的运算的示意图。

图3为将卷积层的运算映射成矩阵运算的示意图。

图4为特征以及权重的内存排布方式示意图。

图5为将任意规模的矩阵运算分解为多次固定大小矩阵运算的示意图。

具体实施方式

本发明中，可同时加速卷积层与全连接层的电路的基本框图如图1所示。该设计的工作过程如下：输入每一层的特征与对应的权重，它们以权利要求书5所述的外部存储器（DRAM）中。首先，特征/权重预取模块将即将参与运算的特征与权重从外部存储器中读取出来并放入局部缓存中。新的数据会将局部缓存里旧的、不再使用的数据替换掉；接着，控制电路按照运算的顺序，从局部缓存中取出即将参与运算的特征与权重，并将它们送给矩阵运算单元。在对特征与权重进行重新排列后，卷积层与全连接层的运算均映射为一系列的矩阵运算；矩阵运算单元的输出结果写入临时数据累加模块。在进行多次矩阵运算之后，累加的结果是该层运算的部分输出特征。输出控制模块负责将这些部分输出特征按照特定的排布顺序写回外部存储器。在当前层的所有运算都完成后，该电路可以开始进行下一层网络的运算。

其中，卷积层与全连接层的运算均映射为一系列的矩阵运算，具体流程说明如下：

首先，将全连接层的运算转换为卷积层的运算，如图2所示。设输入特征为一个形状为C_in*H*W的立方体，其意义为：输入有C_in个通道，每个通道的大小为H*W。对于全连接层，通常的操作为将输入矩阵重新排列成为一个长度为C_in*H*W的行向量，再将这个向量与一个高为C_in*H*W、宽为C_out的权重矩阵做乘法。矩阵乘法的结果是一个长度为C_out的行向量，这个行向量就是当前层传给下一层网络的特征。为了将全连接层运算转换为卷积层的运算，需要将高为C_in*H*W、宽为C_out的权重矩阵拆分为C_out个子权重矩阵，分别记为K0, K1, K2,……, Kn （n=C_out-1）。每一个子权重矩阵均为一个形状为C_in*H*W的立方体。将每一个子权重矩阵分别与输入特征做卷积，由于它们的形状完全相同（均为C_in*H*W），因此每次卷积的结果均为一个标量，其值等于特征矩阵与权重矩阵做内积的结果。对于C_out个子权重矩阵，一共可以得到C_out个标量。将这C_out个标量连成一个向量，便得到当前网络层（全连接层）的输出。根据这种方法，一个全连接层可以转换为一个输入特征与卷积核大小均为C_in*H*W，输出通道数为C_out的卷积操作。

其次，将卷积层的运算映射成矩阵运算，如图3所示。输入特征的大小为C_in*H*W，卷积核（权重）的大小为C_in*K*K，一共有C_out个卷积核，对应于C_out个输出通道。为了得到每个输出通道的第一个像素点，将所需的C_in*K*K个输入特征拉成一个行向量，并把C_out个卷积核展开成一个高C_out宽C_in*K*K的矩阵。将特征行向量与权重矩阵相乘，得到一个长度为C_out的行向量，这个行向量的每一个元素代表每个输出通道的第一个像素点。为了算出所有的像素点，需要进行H*W次这样的矩阵运算。通过这种方法可以将卷积层运算转换为H*W次矩阵运算，其中矩阵的高为C_out，宽为C_in*K*K。这是一个维度相当大的矩阵，且大小随着卷积层的变化而变化，不适合硬件的实现，因此需要将这样的矩阵运算分解为多个固定大小的矩阵运算。

最后，将上述矩阵运算分解为多个固定大小的矩阵运算。

图5描述了如何用一个固定大小为H_F*W_F的矩阵运算单元来实现H*W的矩阵运算的过程。为了实现H*W的矩阵运算，需要调用ceil(H/H_F)*ceil(W/W_F)次大小为H_F*W_F的矩阵运算单元（ceil表示向上取整）。第一次运算所使用到的数据为原矩阵的一个子矩阵，它位于原矩阵的0至 W_F-1行及0至 H_F-1列。第一次运算的输出为一个长度为W_F的标量，这个标量作为临时数据输出到临时数据累加模块中；第二次运算所使用的数据依旧为原矩阵的一个子矩阵，它位于原矩阵的0至 W_F-1行及H_F至2*H_F-1列，它表示了按列方向进行迭代运算。第二次运算的输出依旧为一个长度为W_F的标量。在进行ceil(H/H_F)次迭代后，列方向迭代完毕，共产生ceil(H/H_F)个长度为W_F的标量。这些标量之合便是H*W的矩阵运算的前W_F个运算结果。运用相同方法可以计算出余下的W-W_F个结果。因此，一个任意规模的矩阵运算可以分解为多次固定大小矩阵运算。

例如，用一个大小为64*16的矩阵运算单元来实现100*32的矩阵运算的过程如下。为了实现100*32的矩阵运算，需要调用ceil(100/64)*ceil(32/16)=4次大小为64*16的矩阵运算单元。第一次运算所使用到的数据为原矩阵的一个子矩阵，它位于原矩阵的0至 15行及0至 63列，如图5(a)的中的红框（即内框）所示。第一次运算的输出为一个长度为16的标量，这个标量作为临时数据输出到临时数据累加模块中；第二次运算所使用的数据依旧为原矩阵的一个子矩阵，它位于原矩阵的0至15行及64至99列。由于这次运算只用到了矩阵运算单元的100-64=36列，因此需要将余下28列的数据输入补0。第二次运算的输出依旧为一个长度为16的标量，它与第一次运算结果之和，便是这个16*100的矩阵运算的前16个运算结果。通过同样的方法可以算出余下的16个结果，因此，一个任意规模的矩阵运算可以分解为多次固定大小矩阵运算。

固定大小的矩阵运算单元的输出结果存储在临时数据累加模块。待累加完毕，累加模块将累加的结果（下一层网络的输入特征）送给输出控制模块，输出控制模块负责将累加后的结果按照一定的排布顺序写回外部存储器，从而完成当前层（既可以是卷积层，又可以是全连接层）的运算。

在将卷积层运算映射为矩阵运算的过程中，需要将输入特征拉成一系列的行向量，并把卷积核展开成矩阵。若使用传统的内存空间分配方法，外部存储器的访问带宽将成为整个***的瓶颈，因为此时特征/权重预取模块需要读取的地址将会变得不再连续。为了保证特征/权重预取模块读取的数据所在地址的连续性，需要对特征以及权重的内存排布方式进行调整。

在每一层运算结束时，输出控制模块将每一层的输出按照预期的排布顺序写回外部存储器。因此除了第一层之外，其他所有层的特征全是排布好了的，不需要为数据的重新排布付出成本。而卷积神经网络的权重在推理阶段是不会发生改变的，即只需要在***初始化时将权重重新排布一次。所以说将特征与权重在内存中的排布方式进行调整所需付出的代价是相当小的。

Claims

1.一种针对神经网络的卷积层与全连接层进行加速的电路结构，其特征在于，通过将运算展开的方式使卷积层与全连接层均映射到同一个矩阵运算单元上；并通过对神经网络每一层的特征与权重进行重新排序的方式，来减少因为展开后特征、权重读取地址的不连续而带来的访存性能损失；其电路结构包括特征/权重预取模块、局部缓存、矩阵运算单元、临时数据累加模块以及输出控制模块；其中：

所述特征/权重预取模块，用于从外部存储器中将新的特征以及权重数据取出并放入局部缓存中，同时替换旧的、不再使用的数据；除神经网络的第一层特征外，其余的所有特征、权重均按照一定的方式进行重新排布过，而第一层特征的重新排布也是按照一定的方式重新排布过的，因此特征/权重预取模块不需要实现重新排布的功能；

所述局部缓存用于缓存矩阵运算单元所需的输入数据；

所述矩阵运算单元，用于实现矩阵的运算；在对特征与权重进行重新排列后，卷积层与全连接层的运算均映射为一系列的矩阵运算，这些矩阵运算通过多次调用矩阵运算模块来实现；

所述临时数据累加模块，用于累加矩阵运算模块送出的数据；在多次累加后，将累加的结果即下一层网络的输入特征，送给输出控制模块；

所述输出控制模块，负责将累加后的结果按上述重新排布方式顺序写回外部存储器；

所述特征、权重按照一定的方式进行重新排布，具体流程为：

设对于一个大小为C_in*H*W的输入特征，将其切为H*W个长条，每个长条的长度为C_in；再将这H*W个长条中的数据以顺序地址的形式写入内存中；从低地址开始，第0个长条中的数据存储在0到C_in-1个数据对应的内存空间中，第1个长条中的数据存储在C_in到2*C_in-1个数据对应的内存空间中，以此类推，最后一个长条中的数据存储在(H*W-1)*C_in到C_in*H*W*C_in-1个数据对应的内存空间中；

设卷积核包含C_out个大小为C_in*H*W个子权重矩阵，将每一个子权重矩阵按照输入特征的形式进行排布，即完成对权重内存分布的重新调整。

2.根据权利要求1所述的针对神经网络的卷积层与全连接层进行加速的电路结构，其特征在于，特征/权重预取模块、局部缓存、矩阵运算单元、临时数据累加模块和输出控制模块的调度采用流水线的机制，使每个时钟周期所有的硬件单元都处于工作状态。

3.根据权利要求1所述的针对神经网络的卷积层与全连接层进行加速的电路结构，其特征在于，所述卷积层与全连接层的运算映射为一系列的矩阵运算，具体流程如下：

首先，将全连接层的运算转换为卷积层的运算；设输入特征为一个形状为C_in*H*W的立方体，其意义为：输入有C_in个通道，每个通道的大小为H*W；对于全连接层，通常的操作为将输入矩阵重新排列成为一个长度为C_in*H*W的行向量，再将这个向量与一个高为C_in*H*W、宽为C_out的权重矩阵做乘法；为了将全连接层运算转换为卷积层的运算，将高为C_in*H*W、宽为C_out的权重矩阵拆分为C_out个子权重矩阵，分别记为K0, K1, K2, ……, Kn ，n=C_out-1；每一个子权重矩阵均为一个形状为C_in*H*W的立方体；将每一个子权重矩阵分别与输入特征做卷积，它们的形状完全相同均为C_in*H*W；每次卷积的结果均为一个标量，其值等于特征矩阵与权重矩阵做内积的结果；对于C_out个子权重矩阵，一共得到C_out个标量；将这C_out个标量连成一个向量，便得到当前网络层即全连接层的输出；于是，一个全连接层转换为一个输入特征与卷积核大小均为C_in*H*W，输出通道数为C_out的卷积操作；

其次，将卷积层的运算映射成矩阵运算；输入特征的大小为C_in*H*W，卷积核即权重的大小为C_in*K*K，一共有C_out个卷积核，对应于C_out个输出通道；为了得到每个输出通道的第一个像素点，将所需的C_in*K*K个输入特征拉成一个行向量，并把C_out个卷积核展开成一个高C_out宽C_in*K*K的矩阵；将特征行向量与权重矩阵相乘，得到一个长度为C_out的行向量，这个行向量的每一个元素代表每个输出通道的第一个像素点；算出所有的像素点，即进行H*W次这样的矩阵运算；于是，将卷积层运算转换为H*W次矩阵运算，其中矩阵的高为C_out，宽为C_in*K*K；

最后，将这样的矩阵运算分解为多个固定大小的矩阵运算。

4.根据权利要求3所述的针对神经网络的卷积层与全连接层进行加速的电路结构，其特征在于，将所述矩阵运算分解为多个固定大小的矩阵运算的流程为：

设需要运算的矩阵为H*W，分解用于运算的固定大小的矩阵为H_F*W_F，于是需要调用ceil(H/H_F)*ceil(W/W_F)次大小为H_F*W_F的矩阵运算单元，ceil表示向上取整；第一次运算所使用到的数据为原矩阵的一个子矩阵，它位于原矩阵的0至 W_F-1行及0至 H_F-1列；第一次运算的输出为一个长度为W_F的标量，这个标量作为临时数据输出到临时数据累加模块中；第二次运算所使用的数据依旧为原矩阵的一个子矩阵，它位于原矩阵的0至 W_F-1行及H_F至2*H_F-1列，它表示了按列方向进行迭代运算；第二次运算的输出依旧为一个长度为W_F的标量；在进行ceil(H/H_F)次迭代后，列方向迭代完毕，共产生了ceil(H/H_F)个长度为W_F的标量；这些标量之和便是H*W的矩阵运算的前W_F个运算结果；以此类推，计算出余下的W-W_F个结果。