CN113255897B

CN113255897B - 一种卷积神经网络的池化计算单元

Info

Publication number: CN113255897B
Application number: CN202110655204.9A
Authority: CN
Inventors: 杨晨东; 秦晴; 杨靓; 黄巾; 王硕; 闫鑫; 金玉琳; 程智; 纪虎东; 朱青
Original assignee: Xian Microelectronics Technology Institute
Current assignee: Xian Microelectronics Technology Institute
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2023-07-07
Anticipated expiration: 2041-06-11
Also published as: CN113255897A

Abstract

本发明公开了一种卷积神经网络的池化计算单元，属于数字电路领域。本发明包括36个基本计算单元C0～C35和4个结果计算单元R0～R3；基本计算单元和所述结果计算单元均受表征池化类型的信号控制；当进行池化计算时，输入特征图像整行按顺序从输入端口输入，池化计算流水建立之后，池化计算单元按顺序每周期给出相应的输出图像数据；N个池化计算单元能够同时进行4N个池化尺寸为2x2或3x3的池化计算，或者N个池化尺寸为5x5的池化计算。本发明可根据池化计算的具体类型和尺寸灵活配置，增加了池化计算单元的可用性；该池化计算单元扩展简单，根据需求和***开销灵活确定其计算并行度；输入图像数据复用大大减少了功耗。

Description

一种卷积神经网络的池化计算单元

技术领域

本发明属于数字电路领域，尤其是一种卷积神经网络的池化计算单元。

背景技术

在卷积神经网络中除卷积计算外，还存在池化计算。池化计算的主要目的是为了对特征进行压缩，减少参数量。一般包括最大池化、最小池化、平均池化三种方式，最大池化目前使用最为广泛。以最大池化为例，对特征矩阵进行池化计算，需首先确定池化窗口大小及步长大小，池化窗口会在特征矩阵上以步长为间隔进行滑动，每次滑动都会求出池化窗口中所包含的最大特征值。目前在卷积神经网络加速器中大多只对卷积计算进行加速，很少对池化计算进行加速。虽然池化计算在整个卷积神经网络计算过程中所占比例不高，但随着对计算过程中卷积计算部分的优化及加速，此消彼长，池化计算在功耗和速度上的比重随之增大。采用硬件加速器对池化计算进行加速，可降低卷积神经网络计算的功耗并提高其计算速度。

发明内容

本发明的目的在于克服现有的卷积神经网络中池化计算没有加速手段的缺点，提供一种卷积神经网络的池化计算单元。

为达到上述目的，本发明采用以下技术方案予以实现：

一种卷积神经网络的池化计算单元，包括36个基本计算单元C0～C35和4个结果计算单元R0～R3；

所述基本计算单元和所述结果计算单元均受表征池化类型的信号控制；

当进行池化计算时，输入特征图像整行按顺序从输入端口输入，池化计算流水建立之后，池化计算单元按顺序每周期给出相应的输出图像数据；

N个所述池化计算单元能够同时进行4N个池化尺寸为2x2或3x3的池化计算，或者N个池化尺寸为5x5的池化计算。

进一步的，当池化类型为最大池化时，基本计算单元用于取最大值，结果计算单元用于取最大值，参考值Ref为0。

进一步的，当池化类型为最小池化时，基本计算单元用于取最小值，结果计算单元用于取最小值，参考值Ref应为其所能表示的最大值。

进一步的，当池化类型为平均池化时，基本计算单元用于求和，结果计算单元用于求和后取平均值，参考值Ref为0。

进一步的，当池化尺寸为3x3，池化类型为最大池化时，所述池化计算单元结构由4个完全相同的池化计算结构构成；

输入特征图像Ifmap的第0～2行由Ifmap_input0～Ifmap_input2输入，输入特征图像Ifmap的第1～3行由Ifmap_input3～Ifmap_input5输入，输入特征图像Ifmap的第2～4行由Ifmap_input6～Ifmap_input8输入，输入特征图像Ifmap的第3～5行由Ifmap_input9～Ifmap_input11输入，依此类推，直至完成输入；

流水建立后，输出特征图像Ofmap的第0～3行输出会分别由OUT0～OUT3输出；

当Ofmap第0行计算完成后，输入特征图像Ifmap的4～6行由Ifmap_input0～Ifmap_input2输入，输出特征图像Ofmap的第4行由OUT0输出；

依此类推，完成整个Ifmap的池化计算。

进一步的，具体计算过程如下：

输入特征图像Ifmap的第0行从Ifmap_input0端口输入，第1行从Ifmap_input1端口输入，第2行从Ifmap_input2端口输入；

设第0行的数依次为A0、A1、A2、A4…，以此类推；

时钟周期0，基本计算单元C0输出为A0＝Max(0,A0)；

时钟周期1，基本计算单元C0输出为A1＝Max(0,A1)，基本计算单元C1输出为Max(A0,A1)；

时钟周期2，基本计算单元C0输出为A2＝Max(0,A2)，基本计算单元C1输出为Max(A1,A2)，基本计算单元C2输出为Max(A0,A1,A2)；

时钟周期3，基本计算单元C0输出为A3＝Max(0,A3)，基本计算单元C1输出为Max(A2,A3)，基本计算单元C2输出为Max(A1,A2,A3)；

…

以此类推；池化窗口每周期滑动一次，在时钟周期2之后基本计算单元C2每周期均将池化窗口第0行的比较结果输出；同样，池化窗口第1、2行的比较结果也会在时钟周期2开始分别从基本计算单元C5、基本计算单元C8输出；

时钟周期3，在R0中算出基本计算单元C2、基本计算单元C5、基本计算单元C8计算结果的最大值，即为池化计算结果Ofmap第0行的首个值，并由OUT0输出；

流水建立后，OUT0每周期输出一个Ofmap第0行的值；

在OUT0输出的同时，OUT1～OUT3经相同的逻辑将Ofmap第1行～第3行的结果输出。

进一步的，当池化尺寸为2x2时，输入特征图像Ifmap的第0行及第1行分别从Ifmap_input0和Ifmap_input1输入，Ofmap第0行从OUT0输出；

输入特征图像Ifmap的第1行及第2行分别从Ifmap_input3和Ifmap_input4输入，Ofmap第1行从OUT1输出；

输入特征图像Ifmap的第2行及第3行分别从Ifmap_input6和Ifmap_input7输入，Ofmap第2行从OUT2输出；

输入特征图像Ifmap的第3行及第4行分别从Ifmap_input9和Ifmap_input10输入，Ofmap第3行从OUT3输出；

当Ofmap第0行计算完成后，输入特征图像Ifmap的第4行及第5行分别从Ifmap_input0和Ifmap_input1输入，Ofmap第4行从OUT0输出；

依此类推，完成整个输入特征图像Ifmap的池化计算。

进一步的，当池化尺寸为5x5时，输入特征图像Ifmap的第0～4行分别从Ifmap_input0、Ifmap_input1、Ifmap_input2、Ifmap_input6、Ifmap_input7输入，Ofmap第0行由OUT3输出；

Ofmap第0行计算完成后，将输入特征图像Ifmap的第1～5行输入，Ofmap第1行由OUT3输出；

依此类推，可完成整个输入特征图像Ifmap的池化计算。

与现有技术相比，本发明具有以下有益效果：

本发明的卷积神经网络的池化计算单元，可根据池化计算的具体类型和尺寸灵活配置，增加了该池化计算单元的可用性；该池化计算单元扩展简单，可根据需求和***开销灵活确定其计算并行度；输入图像数据复用可大大减少因访存造成的功耗及性能损失。

附图说明

图1为本发明的池化计算单元结构图；

图2为本发明的池化尺寸为3x3的池化计算单元结构图；

图3为本发明的池化尺寸为2x2的池化计算单元结构图；

图4为本发明的池化尺寸为5x5的池化计算单元结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

本发明提出的池化计算单元结构如图1所示，由36个基本计算单元(C0～C35)和4个结果计算单元(R0～R3)组成，Ref为参考值。

基本计算单元、结果计算单元、参考值均受表征池化类型的信号控制。池化类型为最大池化时，基本计算单元的功能是“取最大值”，结果计算单元的功能是“取最大值”，参考值Ref为0；池化类型为最小池化时，基本计算单元的功能是“取最小值”，结果计算单元的功能是“取最小值”，参考值Ref应为其所能表示的最大值；池化类型为平均池化时，基本计算单元的功能是“求和”，结果计算单元的功能是“求和后取平均值”，参考值Ref为0。

电路根据表征池化尺寸的信号可自动调整结构，从而实现不同的池化计算尺寸。该池化计算单元可同时进行四个池化尺寸为2x2或3x3的池化计算，或者一个池化尺寸为5x5的池化计算。

窗口滑动的过程等效为输入图像数据整行顺序从输入端口输入，保证在一个池化计算单元内输入数据的高效复用。池化计算流水建立之后，池化单元会按顺序每周期给出相应的输出图像数据。

通过简单扩展，可增加池化计算的并行型，提高计算效率。N个池化计算单元可同时进行4N个池化尺寸为2x2或3x3的池化计算，或者N个池化尺寸为5x5的池化计算。

当池化尺寸为3x3，池化类型为最大池化时，本发明的池化计算单元结构等效为图2。参见图2，图2中的电路由4个完全相同的结构构成，每个结构可独立进行池化尺寸为3x3的池化计算。当电路需完成最大池化计算时，C0～C35和R0～R3的功能均为取最大值，Ref为0，图2中的电路可并行进行4个池化尺寸为3x3的最大池化计算。输入特征图像(Ifmap)的第0～2行由Ifmap_input0～Ifmap_input2输入，第1～3行由Ifmap_input3～Ifmap_input5输入，第2～4行由Ifmap_input6～Ifmap_input8输入，第3～5行由Ifmap_input9～Ifmap_input11输入，依此类推。流水建立后，OUT0～OUT3会分别将输出特征图像(Ofmap)的第0～3行输出。当Ofmap第0行计算完成后，Ifmap的4～6行由Ifmap_input0～Ifmap_input2输入，Ofmap的第4行由OUT0输出；依此类推，可完成整个Ifmap的池化计算。

具体计算过程如下：

输入特征图像(Ifmap)的第0行从Ifmap_input0端口输入，第1行从Ifmap_input1端口输入，第2行从Ifmap_input2端口输入。设第0行的数依次为A0、A1、A2、A4…，以此类推。

时钟周期0，C0输出为A0＝Max(0,A0)；

时钟周期1，C0输出为A1＝Max(0,A1)，C1输出为Max(A0,A1)；

时钟周期2，C0输出为A2＝Max(0,A2)，C1输出为Max(A1,A2)，C2输出为Max(A0,A1,A2)；

时钟周期3，C0输出为A3＝Max(0,A3)，C1输出为Max(A2,A3)，C2输出为Max(A1,A2,A3)；

…

池化窗口每周期滑动一次，在时钟周期2之后基本计算单元C2每周期都可将池化窗口第0行的比较结果输出。同样，池化窗口第1、2行的比较结果也会在时钟周期2开始分别从C5、C8输出。时钟周期3，在R0中算出C2、C5、C8计算结果的最大值，即为池化计算结果(Ofmap)第0行的首个值，并由OUT0输出。流水建立后，OUT0每周期可输出一个Ofmap第0行的值。在OUT0输出的同时，OUT1～OUT3经过相同的逻辑会将Ofmap第1行～第3行的结果输出。

当池化尺寸为2x2，图1的电路的逻辑功能等效为图3。Ifmap的第0行及第1行分别从Ifmap_input0和Ifmap_input1输入，Ofmap第0行从OUT0输出；Ifmap的第1行及第2行分别从Ifmap_input3和Ifmap_input4输入，Ofmap第1行从OUT1输出；Ifmap的第2行及第3行分别从Ifmap_input6和Ifmap_input7输入，Ofmap第2行从OUT2输出；Ifmap的第3行及第4行分别从Ifmap_input9和Ifmap_input10输入，Ofmap第3行从OUT3输出；当Ofmap第0行计算完成后，Ifmap的第4行及第5行分别从Ifmap_input0和Ifmap_input1输入，Ofmap第4行从OUT0输出；依此类推，可完成整个Ifmap的池化计算。

当池化尺寸为5x5，图1的电路的逻辑功能等效为图4。Ifmap的第0～4行分别从Ifmap_input0、Ifmap_input1、Ifmap_input2、Ifmap_input6、Ifmap_input7输入，Ofmap第0行由OUT3输出。Ofmap第0行计算完成后，将Ifmap的第1～5行输入，Ofmap第1行由OUT3输出。依此类推，可完成整个Ifmap的池化计算。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种卷积神经网络的池化计算单元，其特征在于，包括36个基本计算单元C0～C35和4个结果计算单元R0～R3；

N个所述池化计算单元能够同时进行4N个池化尺寸为2x2或3x3的池化计算，或者N个池化尺寸为5x5的池化计算；

当池化尺寸为3x3，池化类型为最大池化时，所述池化计算单元结构由4个完全相同的池化计算结构构成；

依此类推，完成整个Ifmap的池化计算；

当池化尺寸为2x2时，输入特征图像Ifmap的第0行及第1行分别从Ifmap_input0和Ifmap_input1输入，Ofmap第0行从OUT0输出；

依此类推，完成整个输入特征图像Ifmap的池化计算；

当池化尺寸为5x5时，输入特征图像Ifmap的第0～4行分别从Ifmap_input0、Ifmap_input1、Ifmap_input2、Ifmap_input6、Ifmap_input7输入，Ofmap第0行由OUT3输出；

依此类推，可完成整个输入特征图像Ifmap的池化计算。

2.根据权利要求1所述的卷积神经网络的池化计算单元，其特征在于，当池化类型为最大池化时，基本计算单元用于取最大值，结果计算单元用于取最大值，参考值Ref为0。

3.根据权利要求1所述的卷积神经网络的池化计算单元，其特征在于，当池化类型为最小池化时，基本计算单元用于取最小值，结果计算单元用于取最小值，参考值Ref应为其所能表示的最大值。

4.根据权利要求1所述的卷积神经网络的池化计算单元，其特征在于，当池化类型为平均池化时，基本计算单元用于求和，结果计算单元用于求和后取平均值，参考值Ref为0。

5.根据权利要求1所述的卷积神经网络的池化计算单元，其特征在于，具体计算过程如下：

设第0行的数依次为A0、A1、A2、A4…，以此类推；

时钟周期0，基本计算单元C0输出为A0＝Max(0,A0)；

…

流水建立后，OUT0每周期输出一个Ofmap第0行的值；