CN108537331A

CN108537331A - 一种基于异步逻辑的可重构卷积神经网络加速电路

Info

Publication number: CN108537331A
Application number: CN201810296728.1A
Authority: CN
Inventors: 陈虹; 陈伟佳; 王登杰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-14

Abstract

本发明为一种基于异步逻辑的可重构卷积神经网络加速电路，包括基本运算单元PE(Processing Element)、由PE组成的运算阵列以及可配置的池化单元PU(Pooling Unit)三个组成部分。首先该电路采用可重构电路的基本架构，能够针对不同的卷积神经网络模型将运算阵列进行重构；其次该电路整体基于异步逻辑，使用异步电路中的Click单元产生的局部时钟取代同步电路中的全局时钟并使用多个Click单元级联起来形成的异步流水线结构；最后该电路使用异步全连通的Mesh网络来实现数据的复用，通过降低访问内存的次数来减少功耗。本发明电路一方面在架构上具有灵活、并行度和数据复用率高等优点，同时又比同步逻辑实现的加速电路具有功耗优势，能在较低功耗下大大提高卷积神经网络的运算速度。

Description

一种基于异步逻辑的可重构卷积神经网络加速电路

技术领域

本发明属于集成电路设计技术领域，特别涉及一种基于异步逻辑的可重构卷积神经网络加速电路。

背景技术

近年来，卷积神经网络(Convolutional Neural Network，CNN)成为图像识别领域中最有效的一种模型。由于在传统的计算平台(如CPU、GPU)进行卷积神经网络的运算存在速度慢、功耗大、能效低等一系列问题，卷积神经网络加速电路的设计是目前的一个研究热点。

由于卷积神经网络具有以下特点：不同模型的层数存在差异、同一模型的不同层的计算参数存在差异、卷积层运算量大。如果采用传统的专用集成电路(ASIC)的方式，能获得最大的能效，但只能实现某种特定的卷积神经网络模型且无法更改，因此其通用性受到严重限制。如果采用FPGA进行卷积神经网络的优化，则以牺牲能效的方式扩展了通用性，但此方法对每个不同的卷积神经网络，都需要重新开发并设计新的硬件电路。因此如何保证电路能够运行尽可能多的卷积神经网络模型并维持高能效是目前一个研究难点。

另外目前绝大多数的卷积神经网络加速电路都是基于同步逻辑，即存在一个全局时钟(Global Clock)来统一指挥协调加速电路的工作。由于时钟树的存在，同步加速电路在能效上具有一定的局限性。同时，随着工艺的进步以及各种电子产品对功耗越来越高的约束，同步电路遇到了低功耗等性能瓶颈。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于异步逻辑的可重构卷积神经网络加速电路，能在较低功耗下大大提高卷积神经网络的运算速度。

为了实现上述目的，本发明采用的技术方案是：

一种基于异步逻辑的可重构卷积神经网络加速电路，其特征在于，采用可重构电路的基本架构，从而针对不同的卷积神经网络模型将计算单元阵列进行重构，包括：

片外DRAM，存储输入数据；

控制器，接受主机处理器提供的配置信息，并在每次运算之前将其写入计算单元阵列，配置信息决定了计算单元阵列的调度方法以及数据的复用方法；

输入缓存器，从片外DRAM读取待处理数据；

输入寄存器，从输入缓存器读取待处理数据；

计算单元阵列，从输入寄存器读取待处理数据进行处理；

输出缓冲器，接收计算单元阵列的处理结果，将输出数据发送至片外DRAM；

其中，组成计算单元阵列的各电路模块间通过“请求”、“应答”信号实现握手通信，使电路整体基于异步逻辑。

所述配置信息，根据不同的CNN模型进行配置，或根据同一CNN模型的不同层进行配置。

所述电路整体基于异步逻辑，是通过使用异步电路中的Click单元产生的局部时钟取代同步电路中的全局时钟并使用多个Click单元级联起来形成异步流水线结构的方式实现的。

电路使用异步全连通的Mesh网络来实现数据的复用，通过降低访问内存的次数来减少功耗。

所述计算单元阵列由可配置的池化单元(PU，Pooling Unit)和若干基本运算单元(PE，Processing Element)组成，所述基本运算单元的运算结果输入到所述可配置的池化单元。

所述基本运算单元的控制部分是由异步电路的click单元构成的三级异步流水线，每一级的click单元之间，根据其数据通路之间的组合逻辑延迟进行延迟匹配从而完成整个基本运算单元的自定时性。

所述基本运算单元的工作过程是：首先当请求信号到来时，基本运算单元根据配置信息决定输入数据的来源，同时读入权重值，接着在下一个click单元的控制下输入数据被读入乘法器，完成乘法运算，同时该输入数据被缓存，使得下次运算时，其它基本运算单元能够复用该数据。

所述可配置的池化单元，首先接收运算阵列的每一个基本运算单元的请求信号request，并利用Muller C单元做完成性检测，自动使得每一个基本运算单元完成乘法运算之后才会开始下一步运算。

与现有技术相比，本发明采用动态可重构的架构，即同一个可重构处理器可以针对不同的CNN模型以及同一模型的不同层进行配置，通过实时改变配置信息来改变运算阵列中运算单元的使用模式，例如将其拆分成一些小的运算模块以提高并行度；其次，本发明电路采用异步逻辑，异步逻辑(电路)无时钟，它通过模块间“请求”、“应答”信号来实现握手，从而实现电路模块之间的正常通信。异步电路以其高速、低能耗、低***集成复杂性、规范的网络接口和高抗电磁干扰性的优点，在低功耗电路设计中具有很强的竞争力；最后该电路使用异步全连通的Mesh网络来实现数据的复用，通过降低访问内存的次数来减少功耗。

因此，本发明电路一方面在架构上具有灵活、并行度和数据复用率高等优点，同时又比同步逻辑实现的加速电路具有功耗优势，能在较低功耗下大大提高卷积神经网络的运算速度。

附图说明

图1为本发明的顶层架构示意图。

图2为本发明设计的基本单元PE的结构示意图。

图3为本发明设计的由基本运算单元PE构成的运算阵列示意图。

图4为本发明设计的可重构的池化单元PU的结构示意图。

图5为传统卷积核移动方式(a)与应用本发明电路的“卷池一体”的计算模式中卷积核的移动方式(b)。

图6为池化方法公式示意图。

图7为本发明数据复用方法示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，输入数据存储在片外DRAM中，在每次运算之前，控制器首先将配置信息写入计算单元阵列中，配置信息决定了计算单元阵列的调度方法以及数据的复用方法等。由于该配置所需时间短，使得动态配置成为可能，既可以根据不同的CNN模型进行配置，也可以根据同一模型的不同层进行配置。待处理数据被读进输入缓存器和输入寄存器(Mesh架构)，随后进入计算单元阵列中进行处理，最终通过输出缓冲器得到输出数据。

基于异步逻辑的基本运算单元(PE)如图2所示，该PE的控制部分是由异步电路的click单元构成的三级异步流水线，每一级的click单元之间，根据其数据通路之间的组合逻辑延迟进行延迟匹配从而完成整个PE的“自定时性”，即一次request信号到来之后，click会产生本地控制信号，而这些本地控制信号用以控制数据的流动，本地控制信号产生的间隔与对应的组合逻辑的延迟几乎保持一致，这样使得电路的处理速度大大加快。而当有多个request信号时，PE工作在异步流水的状态下，数据输出的吞吐率就能得到保障。当有仅有1个request信号时，电路不受到关键路径(critical path)的影响，运算速度快。也就是说，无论是处理一次request信号的到来(非流水线模式)，还是多次request信号(流水线模式)，该电路都具有优势。另外，没有request信号时，整个PE单元处于被关断的状态，无动态功耗。

具体地，图2中，在第一个click单元设置方向选择触发器(DFF1)，方向选择触发器在第一个click单元产生的局部时钟的作用下能够将输入的方向信息输出给多路选择器并暂存，该方向信息决定了这一次运算该PE单元接收被乘数的方向；同时利用数据选择器，根据输入的方向信息决定该PE单元接收的被乘数。在第二个click单元设置被乘数触发器(DFF2)，被乘数触发器在第二个click单元产生的局部时钟的作用下能够将输入的被乘数输出给乘法器进行乘法运算。在第三个click单元设置被乘数暂存触发器(DFF3)，被乘数暂存触发器在第三个click单元产生的局部时钟的作用下能够将本次输入的被乘数暂存，以便于下一次运算能够将该被乘数传递给邻近单元。另外，乘数暂存触发器(DFF4)在权重读入请求信号的作用下，将权重数据读入并暂存，将其作为乘数。最终由乘法器执行16位有符号被乘数和16位有符号乘数(权重)的乘法，产生结果为16位有符号数。

每一个PE单元都能将操作数进行存储，并能够将其传输到与之相连的任何一个PE单元，这样就完成了输入数据的大量复用，大大减少了对片外存储器的访问，节约了功耗。PE的工作过程是：首先当请求信号到来时，PE根据配置信息决定输入数据的来源，同时读入权重值，接着在下一个click的控制下输入数据读入乘法器，完成乘法运算，同时该输入数据被缓存，以便下次运算其它PE单元可以复用该数据。

由PE组成的5*5计算单元阵列和输入寄存器阵列(两者合二为一，整个阵列兼有计算和存储的功能)如图3所示，该阵列组成了一个全连通的5*5的mesh网络(其中示出的乘法器，仍是PE单元的乘法器)。可以根据不同的CNN模型来对阵列进行配置，其中的PE单元既可以独立工作，整个阵列也可以协同工作。由于异步电路的“事件驱动”特点，当一个PE单元没有请求信号到来时，整个单元是被完全关断的，这一定程度上降低了功耗。整个阵列的运算结果会输入到可重构的池化单元PU。

图4为可重构的池化单元PU。该单元首先接收运算阵列的每一个PE的请求信号request(表明一次乘法运算已经完成)，并利用Muller C单元做完成性检测，这样自动使得每一个PE完成乘法运算之后才会开始下一步运算。该单元可以通过更改配置信息来决定池化的方式及尺寸。整个运算阵列均可以通过配置信息来决定参与运算的PE、数据的流动方向、池化的类型和尺寸。

具体地，图4中，Muller C单元为异步电路的一个基本单元，作用是当全部输入信号发生变化时，Muller C单元的输出才能发生变化。该Muller C单元接收所有PE单元传来的请求信号request，该信号表明一次乘法运算已经完成，当所有PE的请求信号都到来时，说明所有PE都已经完成乘法运算，此时Muller C单元会向右边的click单元输出一个请求信号request。

PE单元的乘法结果经过第一个加法器(左侧加法器)之后，加法结果经过Relu函数模块，该模块完成卷积神经网络中的Relu操作，具体Relu的数学含义由具体的卷积神经网络模型决定。图中第一个触发器(DFF1)负责缓存一次Relu的结果，该结果即为一次卷积的结果。第二个加法器(右侧加法器)负责实现多次卷积结果的累加，结果输出给选择器。

同时利用比较器(MAX)比较当前产生的卷积结果与之前缓存的卷积结果的大小，数值大的输出给选择器。

选择器通过配置的池化类型信息(pooling_type)决定输出，当需要最大值池化时，输出比较器结果，当需要平均值池化时，输出第二个加法器结果。

第二个触发器(DFF2)负责缓存选择器的输出，缓存的数同时用于下一次的加法以实现累加，以及下一次的最大值比较以实现寻找到最大值。

计数器负责根据池化尺寸决定输出的时间节点。每卷积一次，计数结果加1，当计数器计数结果达到池化尺寸时，产生一个脉冲。举例，例如实现2x2的池化，即4次卷积结果产生1次池化结果，那么当计数结果达到4时，产生一个脉冲。第三个触发器(DFF3)在计数器产生的脉冲作用下，输出池化结果。

为了减少中间数据的存取，本发明电路进行运算时使用一种“卷池一体”的计算模式。如下图5所示比较了传统CNN中卷积核的移动方式和“卷池一体”模式下的卷积核移动方式(图5以5*5输入数据，2*2卷积，2*2池化为例，实际的卷积和池化尺寸由具体的模型决定)。卷积核每移动一次就是整个运算阵列完成一次乘加运算，即产生了一次卷积的结果，多次卷积的结果经池化产生一次池化结果，通常的池化方法为均值池化和最大值池化，相应的公式如下所示。

A_ij为输入的图像的第i行第j列的像素值，即被乘数。

W_ij为为输入的卷积核的第i行第j列的权重值，即乘数。图6为该公具体展开的说明，更好理解。

在传统的加速电路的架构下，如图5(a)，卷积核需要从左至右，从上到下按照顺序在输入数据上滑动，计算出卷积结果后再进行池化，而在本项目设计的架构中，如图5(b)，卷积核滑动的方向是根据每一次的池化结果产生的方向进行移动，这样可以不用保留中间的卷积结果。同时每一次移动之后的计算中都存在大量的数据复用的情况，用异步Mesh网络实现输入数据复用，具体数据复用方法如下图7所示，图7中黑色箭头表示了下一次计算数据的移动方式，如果箭头的尾部来源于其它PE单元则证明下一次不需要从运算阵列以外的存储器获得数据，只需要将紧邻的PE单元的被乘数转入需要这个数的PE单元即可。

以上两点使得数据的存取次数大大减少，达到降低功耗的目的。

Claims

1.一种基于异步逻辑的可重构卷积神经网络加速电路，其特征在于，采用可重构电路的基本架构，从而针对不同的卷积神经网络模型将计算单元阵列进行重构，包括：

片外DRAM，存储输入数据；

输入缓存器，从片外DRAM读取待处理数据；

输入寄存器，从输入缓存器读取待处理数据；

计算单元阵列，从输入寄存器读取待处理数据进行处理；

2.根据权利要求1所述基于异步逻辑的可重构卷积神经网络加速电路，其特征在于，所述配置信息，根据不同的CNN模型进行配置，或根据同一CNN模型的不同层进行配置。

3.根据权利要求1所述基于异步逻辑的可重构卷积神经网络加速电路，其特征在于，所述电路整体基于异步逻辑，是通过使用异步电路中的Click单元产生的局部时钟取代同步电路中的全局时钟并使用多个Click单元级联起来形成异步流水线结构的方式实现的。

4.根据权利要求1所述基于异步逻辑的可重构卷积神经网络加速电路，其特征在于，电路使用异步全连通的Mesh网络来实现数据的复用，通过降低访问内存的次数来减少功耗。

5.根据权利要求1所述基于异步逻辑的可重构卷积神经网络加速电路，其特征在于，所述计算单元阵列由可配置的池化单元(PU，Pooling Unit)和若干基本运算单元(PE，Processing Element)组成，所述基本运算单元的运算结果输入到所述可配置的池化单元。

6.根据权利要求5所述基于异步逻辑的可重构卷积神经网络加速电路，其特征在于，所述基本运算单元的控制部分是由异步电路的click单元构成的三级异步流水线，每一级的click单元之间，根据其数据通路之间的组合逻辑延迟进行延迟匹配从而完成整个基本运算单元的自定时性。

7.根据权利要求6所述基于异步逻辑的可重构卷积神经网络加速电路，其特征在于，所述基本运算单元的工作过程是：首先当请求信号到来时，基本运算单元根据配置信息决定输入数据的来源，同时读入权重值，接着在下一个click单元的控制下输入数据读入乘法器，完成乘法运算，同时该输入数据被缓存，使得下次运算时，其它基本运算单元能够复用该数据。

8.根据权利要求6所述基于异步逻辑的可重构卷积神经网络加速电路，其特征在于，所述可配置的池化单元，首先接收运算阵列的每一个基本运算单元的请求信号request，并利用Muller C单元做完成性检测，自动使得每一个基本运算单元完成乘法运算之后才会开始下一步运算。