CN112734020B

CN112734020B - 卷积神经网络的卷积乘累加硬件加速装置、***以及方法

Info

Publication number: CN112734020B
Application number: CN202011587375.4A
Authority: CN
Inventors: 张志超; 刘忠麟; 王志乾; 王虎; 喻金桃
Original assignee: CETC 15 Research Institute
Current assignee: Clp Taiji Group Co Ltd; CETC 15 Research Institute
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-03-25
Anticipated expiration: 2040-12-28
Also published as: CN112734020A

Abstract

本发明公开了卷积神经网络的卷积乘累加硬件加速装置、***以及方法，涉及人工卷积神经网络技术领域，能够解决基于FPGA的定点DSP硬核设计浮点卷积乘累加达不到线速计算吞吐的问题，将传统的浮点卷积乘累加的线速吞吐提高至少三倍。其中包括卷积乘法计算单元，主要完成输入特征图浮点数据以及输入参数浮点数据的乘法操作，并输出卷积乘法矩阵计算结果浮点数据。卷积加法树计算单元，主要完成同一输出特征图相关联的数据累加功能。卷积前向加法链计算单元，完成多次同一输出特征图相关联的数据累加功能。基于上述方案，本发明能够改进现有卷积乘累加闭环操作模式带来的计算吞吐瓶颈，具有在浮点卷积乘累加计算达到线速计算吞吐能力的效果。

Description

卷积神经网络的卷积乘累加硬件加速装置、***以及方法

技术领域

本发明涉及人工卷积神经网络技术领域，具体涉及一种卷积神经网络的卷积乘累加硬件加速装置、***以及方法。

背景技术

在基于FPGA的卷积神经网络硬件加速计算中，卷积是一种常规的计算操作。受限于加速性能以及FPGA片上资源的约束，大部分基于FPGA的卷积计算都是基于定点操作数的卷积计算进行设计，采用FPGA定点DSP硬核进行定点卷积乘累加操作，在定点卷积乘累加计算中，能够达到线速计算吞吐的能力。现有的基于FPGA定点DSP硬核的卷积乘累加计算存在一个闭环乘累加操作，该操作在定点精度操作模式下延迟低，定点精度操作模式的延迟是一个时钟周期，能够线速吞吐；在浮点精度操作模式下，延迟为多个时钟周期，由于闭环乘累加的计算模式，不能够达到线速计算吞吐要求，极大损耗了FPGA加速浮点卷积神经网络的计算吞吐能力。

因此，在要求更高精度的浮点卷积神经网络加速计算模式下，需要重新设计一种能够线速计算吞吐的浮点卷积乘累加计算方法。

发明内容

有鉴于此，本发明提供了一种卷积神经网络的卷积乘累加硬件加速装置、***以及方法，能够解决基于FPGA的定点DSP硬核设计浮点卷积乘累加达不到线速计算吞吐的问题，将传统的浮点卷积乘累加的线速吞吐提高至少三倍。

为达到上述目的，本发明的技术方案包括：

一种卷积神经网络的卷积乘累加硬件加速装置，包括卷积乘法单元、卷积加法树单元以及卷积前向加法链单元。

卷积乘法单元包括PE×SIMD个浮点乘法器；每个浮点乘法器的输入包括输入特征图数据和输入参数数据，每个浮点乘法器的时延为一个时钟周期以上；其中PE为输入特征图数据的个数，SIMD为输入参数数据的个数，PE和SIMD均为2的幂次方；卷积乘法单元输出PE×SIMD个乘法结果，作为卷积加法树单元单元的输入数据。

卷积加法树单元包括PE个浮点加法树，卷积加法树单元的输入数据为PE×SIMD个乘法结果，并将PE×SIMD个乘法结果，对应每个输入特征图数据的SIMD个乘法结果作为一组，分为PE组分别送入一个浮点加法树。

浮点加法树采用SIMD-1个浮点加法器组成，针对每一组中的SIMD个乘法结果进行加法运算，浮点加法器时延为一个时钟周期以上；卷积加法树单元输出PE个加法树结果，作为卷积前向加法链单元的输入。

卷积前向加法链单元包括PE个加法链，一个加法链的输入数据为对应的一个加法树结果，加法链一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定；卷积前向加法链单元的输出为输出特征图数据，由所有加法链输出的PE个浮点数据组成，输出特征图数据为卷积乘累加结果。

进一步地，每个加法链对一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定，具体为：

每个加法链包括log₂n个加法器，n为需要累加的时钟周期数。

对于当前加法链，其对应的输入数据为其中一个加法树结果。

第pe个加法树结果，pe取值为1～PE。

其中第一个加法器将相邻时钟周期的输入数据进行累加并输出作为第二个加法器的输入；第二个加法器将相邻时钟周期的输入进行累加并输出作为下一个加法器的输入；以此类推；直至最后一个加法器输出当前加法链的输出结果。

本发明另外一个实施例还提供了一种卷积神经网络的卷积乘累加硬件加速***，包括主机和FPGA卷积计算***，二者之间采用PCIe总线连接；

FPGA卷积计算***由内存和片上卷积推理计算逻辑组成；

片上卷积推理计算逻辑包括***控制单元、输入特征图数据缓存调度单元、输入参数数据缓存调度单元、卷积乘累加计算单元以及输出数据缓存调度单元。

输入特征图数据缓存调度单元用于存储输入特征图数据，并将输入特征图数据送入卷积乘累加计算单元。

输入参数数据缓存调度单元用于存储输入参数数据，并将输入参数数据送入卷积乘累加计算单元。

卷积乘累加计算单元采用上述卷积神经网络的卷积乘累加硬件加速装置结构，利用输入特征图数据，对输入参数数据进行卷积乘累加操作，以输出特征图数据作为卷积乘累加结果，送入输出数据缓存调度单元。

输出数据缓存调度单元将卷积乘累加结果送入内存进行存储。

主机通过PCIe总线，从内存读取卷积乘累加结果。

本发明另外一个实施例还提供了一种卷积神经网络的卷积乘累加硬件加速方法，包括如下步骤：

步骤一、分别获取PE个输入特征图数据和SIMD个输入参数数据，PE和SIMD均为2的幂次方；利用PE×SIMD个浮点乘法器针对每个输入特征图数据和每个输入参数数据均进行浮点乘法运算，输出PE×SIMD个乘法结果，作为卷积加法树单元单元的输入数据。

浮点乘法器的时延为一个时钟周期以上。

步骤二、将PE×SIMD个乘法结果，对应每个输入特征图数据的SIMD个乘法结果作为一组，分为PE组分别送入一个浮点加法树，共PE个浮点加法树，输出PE个加法树结果，作为卷积前向加法链单元的输入。

浮点加法树采用SIMD-1个浮点加法器组成，针对每一组中的SIMD个乘法结果进行加法运算，浮点加法器时延为一个时钟周期以上。

步骤三、采用PE个加法链，其中一个加法链的输入数据为对应的一个加法树结果，加法链对一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定；由所有加法链输出的PE个浮点数据组成输出特征图数据，输出特征图数据为卷积乘累加结果。

第pe个加法树结果，pe取值为1～PE；

有益效果：

本发明提供的一种卷积神经网络的卷积乘累加硬件加速装置、***以及方法，针对深度卷积神经网络推理计算，每一层的卷积计算可表示为输入特征图浮点数据以及输入参数浮点数据，通过卷积具体计算，输出为输出特征图浮点数据，多层的深度卷积神经网络结果为逐层按照上述方式迭代计算，最终输出卷积神经网络计算结果。其中包括卷积乘法计算单元，主要完成输入特征图浮点数据以及输入参数浮点数据的乘法操作，并输出卷积乘法矩阵计算结果浮点数据。该单元浮点乘法计算是一个开环输出，避免浮点乘法操作时延导致该部件不能够线速吞吐。卷积加法树计算单元，主要完成同一输出特征图相关联的数据累加功能，采用加法树的操作，使得浮点累加计算能够开环输出，避免浮点累加操作时延导致该部件不能够线速吞吐，最终输出为卷积加法树计算矩阵结果浮点数据。卷积前向加法链计算单元，完成多次同一输出特征图相关联的数据累加功能，该计算部件仍为一个开环的累加输出，避免浮点累加操作时延导致该部件不能够线速吞吐，最终输出为输出特征图浮点数据。基于上述方案，本发明能够改进现有卷积乘累加闭环操作模式带来的计算吞吐瓶颈，具有在浮点卷积乘累加计算达到线速计算吞吐能力的效果。

附图说明

图1为本发明实施例提供的卷积乘法计算矩阵结构图；

图2为本发明实施例提供的卷积加法树计算矩阵结构图；

图3为本发明实施例提供的卷积前向加法链计算矩阵结构图；

图4为本发明实施例提供的基于FPGA加速的卷积推理计算***示意图；

图5为本发明实施例提供的基于前向加法链浮点卷积乘累加计算流程图；

图6为本发明实施例提供的基于FPGA加速的卷积推理计算流程图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种卷积神经网络的卷积乘累加硬件加速装置，包括卷积乘法单元、卷积加法树单元以及卷积前向加法链单元。

卷积乘法单元结构如图1所示，包括PE×SIMD个浮点乘法器；每个浮点乘法器的输入包括输入特征图数据和输入参数数据，每个浮点乘法器的时延为一个时钟周期以上；其中PE为输入特征图数据的个数，SIMD为输入参数数据的个数，PE和SIMD均为2的幂次方；卷积乘法单元输出PE×SIMD个乘法结果，作为卷积加法树单元单元的输入数据。如图1所示，其中输入参数为PE(Process Element)个数据，输入特征图数据为SIMD(SingleInstruction Multiple Data)个数据，图中PE＝4，SIMD＝4；乘法计算结果为PExSIMD个数据。卷积乘法计算矩阵包括PExSIMD个浮点乘法器，输入为Wgt0、Wgt1、Wgt2、Wgt3等输入特征图数据以及Ipt0、Ipt1、Ipt2、Ipt3等输入参数数据。每个浮点乘法器时延可为多个时钟周期，由于开环的设计模式，不影响乘法计算矩阵的计算吞吐能力，能够达到线速计算吞吐。

卷积加法树单元结构如图2所示，包括PE个浮点加法树，卷积加法树单元的输入数据为PE×SIMD个乘法结果，并将PE×SIMD个乘法结果，对应每个输入特征图数据的SIMD个乘法结果作为一组，分为PE组分别送入一个浮点加法树。浮点加法树采用SIMD-1个浮点加法器组成，针对每一组中的SIMD个乘法结果进行加法运算，浮点加法器时延为一个时钟周期以上；卷积加法树单元输出PE个加法树结果，作为卷积前向加法链单元的输入。每个浮点加法器时延可为多个时钟周期，由于开环的设计模式，不影响加法树计算矩阵的计算吞吐能力，能够达到线速计算吞吐。

卷积前向加法链单元结构如图3所示，包括PE个加法链，一个加法链的输入数据为对应的一个加法树结果，加法链一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定；卷积前向加法链单元的输出为输出特征图数据，由所有加法链输出的PE个浮点数据组成，输出特征图数据为卷积乘累加结果。采用开环的加法链设计累加计算，避免了浮点累加单元的多周期计算导致累加结果不能够线速计算吞吐的问题。

本发明实施例中，每个加法链对一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定，具体为：

对于当前加法链，其对应的输入数据为其中一个加法树结果；

第pe个加法树结果，pe取值为1～PE。

本发明另外一个实施例还提供了一种卷积神经网络的卷积乘累加硬件加速***，其结构如图4所示，是一个基于FPGA(Field Programmable Gate Array)加速的卷积推理计算***实例，包括主机部分和基于FPGA加速的卷积推理计算***部分，主机与该***实例通过PCIe(Peripheral Component Interconnect Express)链路进行数据通信和控制。

主机和FPGA卷积计算***，二者之间采用PCIe总线连接。

FPGA卷积计算***由内存和片上卷积推理计算逻辑组成。

主机通过PCIe总线，从内存读取卷积乘累加结果。

基于FPGA加速的卷积推理计算流程如图6所示，第一步进行***初始化、第二步主机将计算数据写入内存，第三步从内存调度输入特征图数据以及权重数据给浮点卷积乘累加计算单元，第四部进行浮点卷积乘累加计算，第五步调度输出特征数据，第六步将输出数据写入内存，第七步，主机从内存去读卷积计算结果。

本发明另外一个实施例提供了一种卷积神经网络的卷积乘累加硬件加速方法，其流程如图5所示，包括如下步骤：

浮点乘法器的时延为一个时钟周期以上。

每个加法链对一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定，具体为：

对于当前加法链，其对应的输入数据为其中一个加法树结果；第pe个加法树结果，pe取值为1～PE。

应用上述卷积神经网络的卷积乘累加硬件加速方案，有如下实例：基于深度学习的卷积神经网络图像分类应用场景，卷积乘累加硬件加速装置完成的是多层卷积神经网络的一层运算，其输入为图片数据或者特征图数据，输入参数为卷积神经网络每一层的具体参数，参数可以通过深度学习训练图像分类器得到，其输出为特征图数据或者最终的图像分类结果数据。

基于卷积的图像滤波算法，其输入为图像数据和滤波器参数，其输出为滤波后的图像数据，卷积乘累加硬件加速装置完成特定滤波参数的图像卷积滤波操作。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种卷积神经网络的卷积乘累加硬件加速装置，其特征在于，包括卷积乘法单元、卷积加法树单元以及卷积前向加法链单元；

所述卷积乘法单元包括PE×SIMD个浮点乘法器；每个浮点乘法器的输入包括输入特征图数据和输入参数数据，每个浮点乘法器的时延为一个时钟周期以上；其中PE为输入特征图数据的个数，SIMD为输入参数数据的个数，PE和SIMD均为2的幂次方；所述卷积乘法单元输出PE×SIMD个乘法结果，作为所述卷积加法树单元的输入数据；

所述卷积加法树单元包括PE个浮点加法树，卷积加法树单元的输入数据为PE×SIMD个乘法结果，并将PE×SIMD个乘法结果，对应每个输入特征图数据的SIMD个乘法结果作为一组，分为PE组分别送入浮点加法树；

所述浮点加法树采用SIMD-1个浮点加法器组成，针对每一组中的SIMD个乘法结果进行加法运算，所述浮点加法器时延为一个时钟周期以上；所述卷积加法树单元输出PE个加法树结果，作为所述卷积前向加法链单元的输入；

所述卷积前向加法链单元包括PE个加法链，一个加法链的输入数据为对应的一个加法树结果，加法链一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定；所述卷积前向加法链单元的输出为输出特征图数据，由所有加法链输出的PE个浮点数据组成，所述输出特征图数据为卷积乘累加结果。

2.如权利要求1所述的装置，其特征在于，所述每个加法链对一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定，具体为：

每个加法链包括log₂n个加法器，n为需要累加的时钟周期数；

对于当前加法链，其对应的输入数据为其中一个加法树结果

第pe个加法树结果，pe取值为1～PE；

其中第一个加法器将相邻时钟周期的输入数据进行累加并输出作为第二个加法器的输入；

第二个加法器将相邻时钟周期的输入进行累加并输出作为下一个加法器的输入；

以此类推；

直至最后一个加法器输出当前加法链的输出结果。

3.一种卷积神经网络的卷积乘累加硬件加速***，其特征在于，包括主机和FPGA卷积计算***，二者之间采用PCIe总线连接；

所述FPGA卷积计算***由内存和片上卷积推理计算逻辑组成；

所述片上卷积推理计算逻辑包括***控制单元、输入特征图数据缓存调度单元、输入参数数据缓存调度单元、卷积乘累加计算单元以及输出数据缓存调度单元；

所述输入特征图数据缓存调度单元用于存储输入特征图数据，并将所述输入特征图数据送入所述卷积乘累加计算单元；

所述输入参数数据缓存调度单元用于存储输入参数数据，并将所述输入参数数据送入所述卷积乘累加计算单元；

卷积乘累加计算单元采用如权利要求1或2所述的卷积神经网络的卷积乘累加硬件加速装置结构，利用所述输入特征图数据，对所述输入参数数据进行卷积乘累加操作，以输出特征图数据作为卷积乘累加结果，送入所述输出数据缓存调度单元；

所述输出数据缓存调度单元将所述卷积乘累加结果送入内存进行存储；

所述主机通过PCIe总线，从内存读取所述卷积乘累加结果。

4.一种卷积神经网络的卷积乘累加硬件加速方法，其特征在于，包括如下步骤：

步骤一、分别获取PE个输入特征图数据和SIMD个输入参数数据，PE和SIMD均为2的幂次方；利用PE×SIMD个浮点乘法器针对每个输入特征图数据和每个输入参数数据均进行浮点乘法运算，输出PE×SIMD个乘法结果，作为所述卷积加法树单元的输入数据；

所述浮点乘法器的时延为一个时钟周期以上；

步骤二、将PE×SIMD个乘法结果，对应每个输入特征图数据的SIMD个乘法结果作为一组，分为PE组分别送入一个浮点加法树，共PE个浮点加法树，输出PE个加法树结果，作为所述卷积前向加法链单元的输入；

所述浮点加法树采用SIMD-1个浮点加法器组成，针对每一组中的SIMD个乘法结果进行加法运算，所述浮点加法器时延为一个时钟周期以上；

步骤三、采用PE个加法链，其中一个加法链的输入数据为对应的一个加法树结果，加法链对一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定；由所有加法链输出的PE个浮点数据组成输出特征图数据，所述输出特征图数据为卷积乘累加结果。

5.如权利要求4所述的方法，其特征在于，所述每个加法链对一个以上时钟周期的输入数据进行累加，加法链的长度根据需要累加的时钟周期数确定，具体为：

对于当前加法链，其对应的输入数据为其中一个加法树结果

第pe个加法树结果，pe取值为1～PE；

以此类推；

直至最后一个加法器输出当前加法链的输出结果。