CN110516801B

CN110516801B - 一种高吞吐率的动态可重构卷积神经网络加速器

Info

Publication number: CN110516801B
Application number: CN201910718678.6A
Authority: CN
Inventors: 杨晨; 王逸洲; 王小力; 耿莉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-04-22
Anticipated expiration: 2039-08-05
Also published as: CN110516801A

Abstract

本发明一种高吞吐率的动态可重构卷积神经网络加速器架构。其输入输出缓存和权值缓存用于存储来自储外部存储器的数据或者计算过程中产生的数据，以及卷积核数据，将其组织、排列后，以统一的数据流传送到运算阵列中进行计算；运算阵列用于接收来自输入输出缓存和权值缓存的数据，进行卷积操作处理后存储在缓存架构中；输出处理模块用于接收来自运算阵列的数据，选择进行累加、标准化、或者激活函数等操作，并将输出数据存储在输入输出缓存中；控制模块用于向其他模块发送命令，并设计有外部接口，用于和外部***进行通信。本发明通过设计高并行度、高利用率的运算阵列以及高片上数据复用率的缓存架构提高卷积神经网络加速器的性能，降低功耗。

Description

一种高吞吐率的动态可重构卷积神经网络加速器

技术领域

本发明属于神经网络加速器领域，尤其涉及一种高吞吐率的动态可重构卷积神经网络加速器。

背景技术

人工智能是目前热门的计算机科学之一，作为实现人工智能的主要方式，深度学***台。对于深度学习算法的硬件加速，目前通常有三类实现方式——多核CPU、GPU和FPGA，它们的共同特点是可以实现高并行度的计算。然而，现有的硬件实现方式功耗较高，还存在着能量效率(性能/功耗)较低的问题，并不能应用在智能移动终端上，例如智能手机、可穿戴设备或者是自动驾驶汽车等。在此背景下，可重构处理器已经被证明是一种兼具高灵活性和高能量效率的并行计算架构形式，它的优势在于可以根据不同的模型大小来选择合适的资源配置策略，扩大专用处理器使用范围的同时提高处理性能，是多核CPU和FPGA技术进一步发展受到限制的解决途径之一，有可能成为未来实现高效能深度学习SoC的方案之一。

卷积神经网络加速器首先要满足可重构，可配置的要求，支持算法层面上网络结构的不断演进，满足丰富多样的应用场景；其次要满足高性能、低能耗的要求，需要克存储带宽限制，充分利用硬件资源。

发明内容

本发明的目的在于提供一种高吞吐率的动态可重构卷积神经网络加速器，其通过设计高并行度、高利用率的运算单元阵列以及可提升数据复用率的缓存架构提高卷积神经网络加速器的性能，降低功耗，同时设计具有一定的可配置性，可适用于多种应用场景。

本发明采用如下技术方案来实现的：

一种高吞吐率的动态可重构卷积神经网络加速器，包括输入处理模块、权值处理模块、运算阵列、输出处理模块和控制模块；其中，

输入处理模块用于存储来自储外部存储器的数据或者计算过程中产生的数据，将其组织、排列后，以预设的数据结构传送到运算阵列中进行计算；

运算阵列用于接收来自输入处理模块和权值处理模块的数据，进行点乘操作处理后传送至输出处理模块中；

输出处理模块用于接收来自运算阵列的数据，选择进行通道累加、输出转化、池化、标准化、或者激活函数操作，并将输出数据存储在输入处理模块中；

控制器用于向输入处理模块、权值处理模块、运算阵列和输出处理模块发送命令，并设计有外部接口，用于和外部***进行通信。

本发明进一步的改进在于，输入处理模块包括输入输出缓存、输入转换模块和输入转换缓存模块；输入输出缓存的输出端与输入转换模块的输入端连接，输入转换模块的输出端与输入转换缓存模块的输入端连接，输入转换缓存模块的输出端与运算阵列的输入端连接；

输入输出缓存用于接收多输入通道的输入图像数据，并同时将多个输入通道的数据传送至输入转换模块进行转换处理；输入输出缓存也用于存储计算过程中的中间数据，以及将数据读入或写出至外部存储；输入转换缓存模块用于存储来自输入转换模块中产生的数据，并且将数据传送至运算阵列。

本发明进一步的改进在于，输入输出缓存包括缓存片、缓存行、预处理模块和地址解析器；

输入输出缓存包括有64个缓存片，每个缓存片由6个缓存行组成，预处理模块用来处理从输入输出缓存中读出的数据，选择其中的有效数据，地址解析器用于解析输入至输入输出缓存的地址。

本发明进一步的改进在于，权值处理模块包括权值缓存和权值转换模块；权值缓存的输出端与权值转换模块的输入端连接，权值转换模块的输出端与运算阵列的输入端连接；

权值转换模块用于接受每一层卷积网络计算所使用的权值数据，并将数据传送至权值缓存进行转换处理；权值转换模块将转换完毕的权值数据直接传送至运算阵列。

本发明进一步的改进在于，运算阵列包括16×16运算单元阵列，第一通道调度器以及第二通道调度器，每个运算单元均由4×4乘法器阵列组成；每列16个运算单元与第一通道调度器输出端相连，每行16个运算单元与第二通道调度器输出端相连，第一通道调度器输入端与输入输出缓存模块相连，第二通道调度器输入端与权值转换模块相连；

第一通道调度器和第二通道调度器均用于改变卷积运算中不同层次的并行度；乘法器用于进行卷积运算中的点乘运算。

本发明进一步的改进在于，输出处理模块包括激活函数模块、标准化模块、输出转换模块、和通道累加模块；

运算阵列的输出端与通道累加模块的输入端连接，通道累加模块的输入端与输出转换模块的输入端连接，输出转换模块的输入端与标准化模块的输入端连接，标准化模块的输入端和激活函数模块的输入端连接，激活函数模块的输入端和输入输出缓存的输入端连接；

通道累加模块用于对来自运算阵列的多通道数据进行累加，输出转换模块标准化模块用于将累加后的数据进行转换，激活函数模块用于对数据进行标准化处理，用于对数据进行激活。

本发明进一步的改进在于，通道累加模块包括加法器和输出选择模块；

加法器用于将16个输入通道的数据进行累加，输出选择模块用于选择输出多少通道的数据。

本发明具有如下有益的技术效果：

1、加速器采用了Winograd算法来加速卷积运算，可以减少乘法次数，达到在相同乘法器使用情况时，相比于传统加速器实现更高的算法并行度以及吞吐率。

2、加速器的缓存架构有四种片上数据复用机制，可以减小数据访问时间，并可以减小带宽的使用。

3、加速器支持对卷积进行拆分，使得加速器适应多种不同大小卷积核，不同步长卷积。

4、加速器支持组卷积和深度可分离卷积，支持MobileNet等轻量级网络，该类网络具有准确度较高，网络结构较简单，网络参数少的特点。

5、加速器支持卷积、池化、激活函数、标准化、全连接操作。

6、加速器完全可配置，包括输入、输出通道数、输入图像大小、卷积核大小、卷积步长和计算并行度。

7、可以在通用SOC平台上集成加速器，可通过软件平台更便捷的配置多种网络结构。

综上所述，本发明面向卷积神经网络加速领域，通过设计高并行度、高利用率的运算单元阵列以及高数据复用的缓存架构，实现了高吞吐率要求，同时具有一定的可配置性，适用于多种卷积神经网络。

附图说明

图1为本发明高吞吐率的动态可重构卷积神经网络处理器示意图。

图2为输入输出缓存结构示意图。

图3为运算阵列结构示意图。

图4为通道累加模块结构示意图。

图5为四层片上数据复用机制示意图

附图标记说明：

1为输入处理模块，10为输入数据缓存，11为输入转换模块，12为输入转换缓存模块，100为缓存片，101为缓存行，102为预处理模块，103为地址解析模块；

2为权值处理模块，20为权值缓存，21权值转换模块；

3为运算阵列，30为运算单元，31为第一通道调度器，32为第二通道调度器，301为乘法器；

4为输出处理模块，40为激活函数模块，41为标准化模块，42为输出转化模块，43为通道累加模块，430为加法器，431为通道选择模块；

5为控制模块。

具体实施方式

以下结合附图对本发明做出进一步的说明。

如图1所示，本发明提供的一种高吞吐率的动态可重构卷积神经网络加速器，由输入处理模块1、权值处理模块2、运算阵列3、输出处理模块4和控制模块5五个部分组成。

本发明所提出的输入处理模块1和输出处理模块4组成加速器的缓存架构。缓存架构作用是存储输入数据，临时中间数据，输出数据等。输入处理模块1和输出处理模块4共引入四层片上数据复用机制，如图5所示：

1)卷积窗口间数据复用

卷积运算进行时，会有窗口多通道二维输入数据上滑动，当步长小于窗口边长时，横纵方向相邻窗口间的数据是可以复用的，是不需要移出片上了。在本设计中，在输入输出缓存10中，窗口间的数据可以被复用，而且没有冗余的数据被存储。

2)输入数据复用

输入数据的一部分被存储在输入输出缓存10中，并且通过乒乓操作和外部存储交换数据。在进行卷积运算时，可以固定片上数据，切换不同输出通道的卷积核来进行输入数据复用，以此来进行多输出通道卷积的运算，

3)卷积核复用

每一层卷积运算所有的卷积核数据都被存储在片上，所以在进行卷积运算时，可以固定卷积核，而输入数据窗口在输入二维数据上滑动时，可以复用相同的卷积核，从而计算形成一幅完整的图像。

4)层间数据复用

计算当前卷积层时，默认的窗口滑动顺序是从左至右，从上至下。所以当一层卷积计算完成时，一幅图像的前几行都被存储在了片外，最后几行数据被存储在片上，这几行数据是下一层卷积层的输入数据。本发明采用相邻卷积层采用相反的计算方向，也就是下一层卷积层可以复用片上的这几行数据。

本发明所提出的输入转换模块1由以下模块组成，具体的功能及实现如下：

1)输入输出缓存

输入输出缓存10从外部存储接收数据，一般为图像数据，并将数据按照约定结构输出到运算阵列3，作用是将大块的图像数据转为容易处理的小块数据，并且利用块与块之间“行与列”的数据重合，如图2所示，提高数据重复利用率。输入数据缓存10以“乒乓”的方式接受外部数据，即一块存储器接收数据另一块存储器输出数据，反之亦然。具体工作模式如图2，由6个缓存行102组成，当前四个缓存行102提供输入数据，进行计算时，后两个缓存行102从外部缓存接收数据。当前四行数据计算完毕时，结果存储在前两行，并输出到外部缓存，并存外部缓存取得下一轮计算的数据。地址解析模块103用于将外部连续的地址，根据卷积核大小和步长转换为输入输出缓存的地址。预处理模块102用于将读出的数据选区打包为有效数据。如图3所示，运算阵列3包括16×16运算单元30阵列，第一通道调度器31以及第二通道调度器32，每个运算单元均由4×4乘法器阵列301组成；每列16个运算单元30与第一通道调度器31输出端相连，每行16个运算单元与第二通道调度器32输出端相连，第一通道调度器31输入端与输入输出缓存模块12相连，第二通道调度器32输入端与权值转换模块21相连；第一通道调度器31和第二通道调度器32均用于改变卷积运算中不同层次的并行度；乘法器301用于进行卷积运算中的点乘运算。

2)输入转换模块

输入转换模块11用于将预处理模块102输出的4×4数据块按照Winograd算法转化为4×4数据块，转换公式和转换矩阵B如(1)所示：

U＝B^TInB

3)输入转换缓存模块

用于将转换完的数据存储在片上以复用数据。

本发明所提出的权值转换模块2由以下模块组成，具体的功能及实现如下：

1)权值缓存

权值缓存为大小为2.25MB的多BANK存储器。其中有相同于输入输出缓存10的地址解析器和预处理模块，用来将不同大小卷积核，不同步长的卷积所需要的卷积核拆分、整理和输出

2)输入转换模块

权值转换模块21用于将权值缓存20输出的3×3数据块按照Winograd算法转化为4×4数据块，转换公式和转换矩阵G如(2)所示：

V＝GFG^T

本发明所提出的输出计算模块4由以下模块组成，具体的功能及实现如下：

1)激活函数模块

激活函数模块40执行ReLU激活函数，其表达式如公式(3)所示

f(x)＝x(x＞0)；f(x)＝0(x＜＝0) (3)

公式(3)中x表示ReLU激活函数的输入，即为输出转换模块42的输出结果，f表示激活函数模块40的输出。

2)标准化模块

标准化模块41将每一层的输出数据做标准化处理，将结果传送到输出激活函数模块40中。

3)输出转换模块

输出转换模块42用于将通道累加模块43输出的4×4数据块按照Winograd算法转化为2×2数据块，转换公式和转换矩阵A如(4)所示：

Out＝A^TU*VA

4)通道累加模块

通道累加模块的结构如图4，16个输入通道两两相加，共计5层，每一层都可以作为输出，由输出选择模块控制431。

本发明所提出的控制器5向输入处理模块1、权值处理模块2、运算阵列3、输出处理模块4发送控制信号，即通知输入处理模块1、权值处理模块2何时接受外部缓存的数据，何时将数据输送到运算阵列3中；通知输出处理模块4何时接受来自运算阵列3的数据。除此之外，还有连接外部总线的slave接口，将加速器内部缓存和寄存器进行了统一编址。

本发明的性能测试如下：

卷积神经网络加速器的评估指标最主要的是资源、速度和功耗。在测试中，选取卷积神经网络VGG16、AlexNet、MobileNetV1/V2作为目标，将其映射至加速器上。在性能和功耗测试中，将输入数据与卷积核读入到加速器中的输入输出缓存和权值缓存中，统计最终输出结果的时间，结合网络的复杂程度，相除即可得到加速器的速度。功耗的大小取决于实现平台，在此选用Xilinx XCVU9P FPGA作为实现平台。加速器的资源如下表所示：

此外本发明与现有技术在功能和功耗指标下的对比如下表：

由上表可以看出，本发明引入的LUT资源和BRAM资源均较小，虽然DSP使用量比较多，但是单位性能每DSP比较高；本发明可以运行在330MHz下，性能和能效相比于其他对比对象均较高。

此外本发明与现有技术灵活性的对比如下表：

由上表可以看出，本发明在每个配置选项，都有较大的选择范围，所以灵活性较好。

实施例

对于性能指标，本发明的优越性来自于运算单元与缓存架构的设计。首先缓存架构可以在保持高吞吐率、无数据冗余存储的前提下，针对不同参数的卷积，规整输入到PE阵列的数据流，使得加速器具有很强的灵活性，同时简化了运算阵列的设计，使得运算单元的利用率较高。其次在计算卷积时，针对任意参数的卷积，都可以使用Winograd算法加速，使得加速器具有较高的性能。例如对于5*5大小输入数据，3*3卷积核大小，步长为1的卷积操作，传统卷积需要引人入81次乘法操作，而本发明只需要引入25次乘法。对于10*10大小输入数据，5*5卷积核大小，步长为2的卷积操作，传统卷积需要引入100次乘法，而本发明只需要引入64次乘法。

对于资源和功耗指标，由于采用了Winograd卷积加速算法，大量节省了乘法器资源，缓存架构灵活，所以运算阵列简单有效。除此之外缓存架构引入四层片上数据复用机制，见笑了数据的搬移，大量节省了功耗。

对于一个具体的卷积网络，首先要划分算法中硬件处理的部分和软件处理的部分，一般情况下，硬件上只进行卷积层、池化层、全连接层、数据标准化、激活函数操作，其余运算在软件上进行。之后对卷积网络的每一层在软件端进行配置，另外需要确定数据搬移的大小和地址，然后将剩余运算实现。最后在软件端启动加速器，最终计算的结果显示在软件端。

Claims

1.一种高吞吐率的动态可重构卷积神经网络加速器，其特征在于，包括输入处理模块(1)、权值处理模块(2)、运算阵列(3)、输出处理模块(4)和控制模块(5)；其中，

输入处理模块(1)用于存储来自储外部存储器的数据或者计算过程中产生的数据，将其组织、排列后，以预设的数据结构传送到运算阵列(3)中进行计算；

运算阵列(3)用于接收来自输入处理模块(1)和权值处理模块(2)的数据，进行点乘操作处理后传送至输出处理模块(4)中；

输出处理模块(4)用于接收来自运算阵列(3)的数据，选择进行通道累加、输出转化、池化、标准化、或者激活函数操作，并将输出数据存储在输入处理模块(1)中；

控制器(5)用于向输入处理模块(1)、权值处理模块(2)、运算阵列(3)和输出处理模块(4)发送命令，并设计有外部接口，用于和外部***进行通信；

输入处理模块(1)包括输入输出缓存(10)、输入转换模块(11)和输入转换缓存模块(12)；输入输出缓存(10)的输出端与输入转换模块(11)的输入端连接，输入转换模块(11)的输出端与输入转换缓存模块(12)的输入端连接，输入转换缓存模块(12)的输出端与运算阵列(3)的输入端连接；

输入输出缓存(10)用于接收多输入通道的输入图像数据，并同时将多个输入通道的数据传送至输入转换模块(11)进行转换处理；输入输出缓存(10)也用于存储计算过程中的中间数据，以及将数据读入或写出至外部存储；输入转换缓存模块(12)用于存储来自输入转换模块(11)中产生的数据，并且将数据传送至运算阵列(3)；

输入输出缓存(10)包括缓存片(100)、缓存行(101)、预处理模块(102)和地址解析器(103)；输入输出缓存(10)包括有64个缓存片(100)，每个缓存片(100)由6个缓存行(101)组成，预处理模块(102)用来处理从输入输出缓存(10)中读出的数据，选择其中的有效数据，将读出的数据选区打包为有效数据；地址解析器(103)用于解析输入至输入输出缓存(10)的地址，将外部连续的地址，根据卷积核大小和步长转换为输入输出缓存的地址；

输出处理模块(4)包括激活函数模块(40)、标准化模块(41)、输出转换模块(42)、和通道累加模块(43)；运算阵列(3)的输出端与通道累加模块(43)的输入端连接，通道累加模块(43)的输入端与输出转换模块(42)的输入端连接，输出转换模块(42)的输入端与标准化模块(41)的输入端连接，标准化模块(41)的输入端和激活函数模块(40)的输入端连接，激活函数模块(40)的输入端和输入输出缓存(10)的输入端连接；

通道累加模块(43)用于对来自运算阵列的多通道数据进行累加，输出转换模块(42)标准化模块(41)用于将累加后的数据进行转换，激活函数模块(40)用于对数据进行标准化处理，用于对数据进行激活；

通道累加模块(43)包括加法器(430)和输出选择模块(431)；通道累加模块用于对来自运算阵列的多通道数据进行累加，能够将16个输入通道两两相加，共计5层，每一层都能够作为输出，由输出选择模块控制(431)；加法器(430)用于将16个输入通道的数据进行累加，输出选择模块(431)用于选择输出多少通道的数据；

输入处理模块(1)和输出处理模块(4)组成加速器的缓存架构，其共引入了四层片上数据复用机制：

1)卷积窗口间数据复用

卷积运算进行时，有窗口多通道二维输入数据上滑动，当步长小于窗口边长时，横纵方向相邻窗口间的数据是能够复用的，在输入输出缓存10中，窗口间的数据能够被复用，而且没有冗余的数据被存储；

2)输入数据复用

输入数据的一部分被存储在输入输出缓存10中，并且通过乒乓操作和外部存储交换数据；在进行卷积运算时，固定片上数据，切换不同输出通道的卷积核来进行输入数据复用，以此来进行多输出通道卷积的运算；

3)卷积核复用

每一层卷积运算所有的卷积核数据都被存储在片上，所以在进行卷积运算时，固定卷积核，而输入数据窗口在输入二维数据上滑动时，能够复用相同的卷积核，从而计算形成一幅完整的图像；

4)层间数据复用

计算当前卷积层时，默认的窗口滑动顺序是从左至右，从上至下；所以当一层卷积计算完成时，一幅图像的前几行都被存储在了片外，最后几行数据被存储在片上，这几行数据是下一层卷积层的输入数据；采用相邻卷积层采用相反的计算方向，也就是下一层卷积层能够复用片上的这几行数据。

2.根据权利要求1所述的一种高吞吐率的动态可重构卷积神经网络加速器，其特征在于，权值处理模块(2)包括权值缓存(20)和权值转换模块(21)；权值缓存(20)的输出端与权值转换模块(21)的输入端连接，权值转换模块(21)的输出端与运算阵列(3)的输入端连接；

权值转换模块(21)用于接受每一层卷积网络计算所使用的权值数据，并将数据传送至权值缓存(20)进行转换处理；权值转换模块(21)将转换完毕的权值数据直接传送至运算阵列(3)。

3.根据权利要求1所述的一种高吞吐率的动态可重构卷积神经网络加速器，其特征在于，运算阵列(3)包括16×16运算单元(30)阵列，第一通道调度器(31)以及第二通道调度器(32)，每个运算单元均由4×4乘法器阵列(301)组成；每列16个运算单元(30)与第一通道调度器(31)输出端相连，每行16个运算单元与第二通道调度器(32)输出端相连，第一通道调度器(31)输入端与输入输出缓存模块(12)相连，第二通道调度器(32)输入端与权值转换模块(21)相连；

第一通道调度器(31)和第二通道调度器(32)均用于改变卷积运算中不同层次的并行度；乘法器(301)用于进行卷积运算中的点乘运算。