CN108647779B

CN108647779B - 一种低位宽卷积神经网络可重构计算单元

Info

Publication number: CN108647779B
Application number: CN201810318783.6A
Authority: CN
Inventors: 曹伟; 王伶俐; 罗成; 谢亮; 范锡添; 周学功
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2021-06-04
Anticipated expiration: 2038-04-11
Also published as: CN108647779A

Abstract

本发明公开了一种低位宽卷积神经网络可重构计算单元。该单元包括：若干个可重构移位累加模块、多路选通器和量化处理模块；可重构移位累加模块包括控制器、第一寄存器、第二寄存器、第三寄存器和移位累加器；本发明利用网络离散性构建控制器、第一寄存器、第二寄存器、第三寄存器和移位累加器，其通过控制器判断当前周期的定点数数据和指数权重是否为零值，一旦检测当前周期的定点数数据和指数权重为零，则根据第一寄存器发出的第一触发信号和第二寄存器发出的第二触发信号控制所述第三寄存器输出当前周期移位累加数据；本发明既能实现4比特和8比特的灵活定点乘累加运算，还能提高移位累加运算速率，降低运算占用的内存和功耗。

Description

一种低位宽卷积神经网络可重构计算单元

技术领域

本发明涉及可重构计算技术领域，特别是涉及一种低位宽卷积神经网络可重构计算单元。

背景技术

随着人工智能的发展，深度学习在语音识别、计算机视觉和自动驾驶等领域取得了巨大的成功，推动这些领域进一步发展。而推动深度学习研究发展的核心技术便是卷积神经网络。采用卷积神经网络（Convolutional Neural Network）的目标识别技术在2012年举办的大规模图像识别竞赛ILSVRC2012中击败了传统的图像识别方法，宣告了深度学术时代的到来。而随着深度学习技术的不断发展，卷积神经网络结构也被不断优化，识别性能也不断提升。而在2015年举办的大规模图像识别竞赛ILSVRC2015上，卷积神经网络第一次超越人类的图像识别能力。这一里程碑事件标志着深度学习技术的巨大成功。

随着卷积神经网络性能的不断提升，网络结构也变得越来越复杂，对应着更多计算需求和存储需求。为了支持卷积神经网络计算，通常将网络处理流程运行在服务器和数据中心上，与数据中心进行数据交互时，需要传输大量的数据，因此带来极大的延时，阻碍了卷积神经网络在智能手机、智能车等嵌入式设备中的应用。为了解决这一问题，学术界和工业界开始研究如何部署卷积神经网络到嵌入式硬件***的加速器上，因此许多有效的卷积神经网络加速器已经被设计成具有专门的计算单元（PE），通常对不同的卷积神经网络模型使用固定的计算单元。由于卷积神经网络的多样性，当网络模型发生变化时，固定的计算单元可能不适合，这将增加数据移动并损害功率效率。而且，它们的卷积映射方法对于各种卷积参数来说不是很可缩放的，网络形状和计算资源之间会出现不匹配，从而降低资源利用率和性能。因此，如何针对不同网络设计可重构计算单元成为本领域重点研究的内容。

现有的可重构计算单元基本上采用专有DSP（Digital Signal Processing数字信号处理）做计算，而DSP计算单元在设计上是为了浮点型运算设计的，在普通的浮点卷积神经网络硬件设计中，通常采用DSP单元做乘累加运算（Multiply-and-Accumulat，MAC），运用一个DSP可以在一个时钟周期内完成一次乘累加运算。但是DSP计算单元不适合进行对低位宽的乘累加运算，这一缺点使其在低位宽硬件设计上不能发挥其全部能力。

为了解决这一问题，Xilinx公司推出了一种特殊的DSP映射技术，针对Xilinx推出的FPGA芯片设计，使得每个FPGA片上DSP计算单元能够实现并行的两次的八比特乘累加运算。这一技术充分发挥了FPGA片上DSP的计算能力，提高了其FPGA的面积和功耗性能。但是，这一技术适用范围过于狭窄，仅能用于八位宽的定点乘累加运算，不能适用于指数卷积神经网络的特殊运算需求。基于上述问题，如何克服上述问题，成为本领域亟需解决的问题。

发明内容

本发明的目的是提供一种低位宽卷积神经网络可重构计算单元，以实现指数卷积神经网络的运算需求，既能实现4比特和8比特的灵活定点乘累加运算，还能提高移位累加运算速率，降低运算占用的内存和功耗。

为实现上述目的，本发明提供一种低位宽卷积神经网络可重构计算单元，所述低位宽卷积神经网络可重构计算单元应用于指数卷积神经网络的位移累加运算，其包括：若干个可重构移位累加模块、多路选通器和量化处理模块；

所述多路选通器分别与各所述可重构移位累加模块相连，用于选择所述可重构移位累加模块输出的当前周期的移位累加数据；所述量化处理模块，与所述多路选通器相连，用于根据当前周期的移位累加数据进行量化处理，获得量化处理数据；其中：

所述可重构移位累加模块包括控制器、第一寄存器、第二寄存器、第三寄存器和移位累加器；

所述控制器用于判断当前周期的指数权重数据是否为负数；如果当前周期的指数权重数据为负数，则无需数据移位累加操作，等待判断下一周期的指数权重数据；如果当前周期的指数权重数据不为负数，则判断当前周期的指数权重数据是否为0；如果当前周期的指数权重数据不为0，则控制第一寄存器存储当前周期的指数权重数据；当前周期的指数权重数据为0，控制则第一寄存器发出第一触发信号；

所述控制器还用于判断当前周期的定点数数据是否为负数；如果当前周期的定点数数据为负数，则无需数据移位累加操作，等待判断下一周期的定点数数据；如果当前周期的定点数数据不为负数，则判断当前周期的定点数数据是否为0；如果当前周期的定点数数据不为0，则控制第二寄存器存储当前周期的定点数数据；如果当前周期的定点数数据为0，则控制第二寄存器发出第二触发信号；

所述第三寄存器分别与所述第一寄存器、所述第二寄存器相连，所述第三寄存器用于根据所述第一寄存器发出的第一触发信号或所述第二寄存器发出的第二触发信号控制所述第三寄存器输出当前周期的移位累加数据；所述第三寄存器还用于存储上一周期的移位累加数据；

所述移位累加器分别与所述第一寄存器、所述第二寄存器和所述第三寄存器相连，所述移位累加器用于根据所述第一寄存器存储的上一周期的指数权重数据、所述第二寄存器存储的上一周期的定点数数据和所述第三寄存器存储的上一周期的第一移位累加数据确定当前周期的移位累加数据，并将当前周期的移位累加数据存储在所述第三寄存器内。

优选的，所述移位累加器包括：

移位器，分别与所述第一寄存器、所述第二寄存器相连，用于根据所述第一寄存器存储的指数权重数据和所述第二寄存器存储的定点数数据确定移位数据；

累加器，分别与所述移位器、所述第三寄存器相连，用于根据所述移位器确定的移位数据和所述第三寄存器存储的上一周期的第一移位累加数据确定当前周期的移位累加数据。

优选的，所述低位宽可重构移位累加模块还包括：

输出寄存器，与所述第三寄存器相连，用于存储所述第三寄存器输出的当前周期的移位累加数据。

优选的，所述指数权重数据为4比特。

优选的，所述定点数数据为8比特。

优选的，所述移位累加数据为18比特。

优选的，所述量化处理数据为8比特数据。

和现有技术相比，本发明具有以下技术效果：

本发明利用网络的离散性构建控制器、第一寄存器、第二寄存器、第三寄存器、移位累加器，通过控制器判断当前周期的定点数数据和指数权重是否为零值，一旦检测当前周期的定点数数据和指数权重为零，则根据所述第一寄存器发出的第一触发信号和所述第二寄存器发出的第二触发信号控制所述第三寄存器输出当前周期的移位累加数据；既能实现4比特和8比特的灵活定点乘累加运算，还能提高移位累加运算速率，降低运算占用的内存和功耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例低位宽卷积神经网络可重构计算单元结构图；

图2为本发明实施例低位宽可重构移位累加模块结构图。

其中，10、可重构移位累加模块，11、控制器，12、第一寄存器，13、第二寄存器、14、移位器，15、累加器，16、第三寄存器，17、输出寄存器，20、多路选通器，30、量化处理模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例低位宽卷积神经网络可重构计算单元结构图；图2为本发明实施例低位宽可重构移位累加模块结构图，如图1-图2所示，本发明提供一种低位宽卷积神经网络可重构计算单元，所述低位宽卷积神经网络可重构计算单元应用于指数卷积神经网络的位移累加运算，所述低位宽卷积神经网络可重构计算单元包括：多个可重构移位累加模块10、多路选通器20和量化处理模块30；

所述可重构移位累加模块10包括控制器11、第一寄存器12、第二寄存器13、第三寄存器16、移位累加器15。

所述控制器11用于判断当前周期的指数权重数据是否为负数；如果当前周期的指数权重数据为负数，则无需数据移位累加操作，等待判断下一周期的指数权重数据；如果当前周期的指数权重数据不为负数，则判断当前周期的指数权重数据是否为0；如果当前周期的指数权重数据不为0，则控制第一寄存器12存储当前周期的指数权重数据；当前周期的指数权重数据为0，控制则第一寄存器12发出第一触发信号。

所述控制器11还用于判断当前周期的定点数数据是否为负数；如果当前周期的定点数数据为负数，则无需数据移位累加操作，等待判断下一周期的定点数数据；如果当前周期的定点数数据不为负数，则判断当前周期的定点数数据是否为0；如果当前周期的定点数数据不为0，则控制第二寄存器13存储当前周期的定点数数据；如果当前周期的定点数数据为0，则控制第二寄存器13发出第二触发信号。

所述第三寄存器16分别与所述第一寄存器12、所述第二寄存器13相连，所述第三寄存器16用于根据所述第一寄存器12发出的第一触发信号或所述第二寄存器13发出的第二触发信号控制所述第三寄存器16输出当前周期的移位累加数据；所述第三寄存器16还用于存储上一周期的移位累加数据。

所述移位累加器15分别与所述第一寄存器12、所述第二寄存器13、所述第三寄存器16相连，所述移位累加器15用于根据所述第一寄存器12存储的上一周期的指数权重数据、所述第二寄存器13存储的上一周期的定点数数据和所述第三寄存器16存储的上一周期的第一移位累加数据确定当前周期的移位累加数据，并将当前周期的移位累加数据存储在所述第三寄存器16内。

多路选通器20，分别与各所述低位宽可重构移位累加模块10相连，用于选择所述低位宽可重构移位累加模块10输出的当前周期的移位累加数据。

量化处理模块30，与所述多路选通器20相连，用于根据当前周期的移位累加数据进行量化处理，获得量化处理数据。所述量化处理数据为8比特数据。

本发明所述移位累加器15包括：

移位器14，分别与所述第一寄存器12、所述第二寄存器13相连，用于根据所述第一寄存器12存储的指数权重数据和所述第二寄存器13存储的定点数数据确定移位数据。

累加器15，分别与所述移位器14、所述第三寄存器16相连，用于根据所述移位器14确定的移位数据和所述第三寄存器16存储的上一周期的第一移位累加数据确定当前周期的移位累加数据。

本发明所述低位宽卷积神经网络可重构移位累加模块10还包括：输出寄存器17，与所述第三寄存器16相连，用于存储所述第三寄存器16输出的当前周期的移位累加数据。

本发明所述指数权重数据为4比特。

本发明所述定点数数据为8比特。

本发明所述移位累加数据为18比特。

由于卷积神经网络中含有很大一部分的离散性，充分利用网络的离散性能能够极大地提升硬件设计的功率性能，因此为了进一步提升可重构计算单元的性能，本发明扩展研究的卷积神经网络的离散性并利用离散性提升网络的功耗性能。研究表明，在卷积神经网络中约有40%~60%的输入数据是零值，权重数据中也有很大一部分的小数据可以被修剪，并不影响网络的精度，因此包含零值的乘法和加法是无意义的，因为它不影响输出结果，所以本发明一旦检测前周期的定点数数据和指数权重为零，则根据所述第一寄存器12发出的第一触发信号和所述第二寄存器13发出的第二触发信号控制所述第三寄存器16输出当前周期的移位累加数据。

本发明量化处理模块30将18比特的移位累加数据量化处理后得到8比特的量化处理数据。

本发明在移位-累加计算过程中，上一周期的移位累加数据与输出的当前周期的移位累加数据的宽度明显大于定点数数据和指数权重数据的宽度，这是因为在移位-累加计算需要较大的计算范围来避免计算溢出。本发明设置18-bits的当前周期的移位累加数据宽度完全能够容纳下所有的移位-累加操作得到的当前周期的移位累加数据。

本发明采用的xc7z020clg400-2型号的实验板卡进行测试，具有以下优点：（1）采用本发明设计的可重构计算单元提高了移位累加运算速率。经测试，采用普通的可重构乘累加单元的普通神经网络加速器结构占用95个LUT，计算功耗为1.658，采用本发明设计的可重构计算单元的普通神经网络加速器结构仅占用46个LUT，计算功耗仅为1W，显然采用本发明设计的可重构计算单元接近普通乘累加单元运行频率的两倍。（2）本发明设计的可重构计算单元充分利用可重构性能，支持多位宽多配置的网络结构，实现4-8比特的灵活位宽配置。（3）本发明设计的可重构计算单元充分利用了网络的离散性，进一步提升硬件性能。（4）本发明使得指数卷积神经网络能够有效地映射在嵌入式***上，进一步减低其面积和功率开销。

表1可重构计算单元与可重构乘累加单元对比表

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种低位宽卷积神经网络可重构计算单元，其特征在于，所述低位宽卷积神经网络可重构计算单元应用于指数卷积神经网络的位移累加运算，其包括：若干个可重构移位累加模块、多路选通器和量化处理模块；所述多路选通器分别与各所述可重构移位累加模块相连，用于选择所述可重构移位累加模块输出的当前周期的移位累加数据；所述量化处理模块，与所述多路选通器相连，用于根据当前周期的移位累加数据进行量化处理，获得量化处理数据；其中：

2.根据权利要求1所述的低位宽卷积神经网络可重构计算单元，其特征在于，所述移位累加器包括：

3.根据权利要求1所述的低位宽卷积神经网络可重构计算单元，其特征在于，所述可重构移位累加模块还包括：

4.根据权利要求1所述的低位宽卷积神经网络可重构计算单元，其特征在于，所述指数权重数据为4比特。

5.根据权利要求1所述的低位宽卷积神经网络可重构计算单元，其特征在于，所述定点数数据为8比特。

6.根据权利要求1所述的低位宽卷积神经网络可重构计算单元，其特征在于，所述移位累加数据为18比特。

7.根据权利要求1所述的低位宽卷积神经网络可重构计算单元，其特征在于，所述量化处理数据为8比特数据。