CN113255897B - 一种卷积神经网络的池化计算单元 - Google Patents
一种卷积神经网络的池化计算单元 Download PDFInfo
- Publication number
- CN113255897B CN113255897B CN202110655204.9A CN202110655204A CN113255897B CN 113255897 B CN113255897 B CN 113255897B CN 202110655204 A CN202110655204 A CN 202110655204A CN 113255897 B CN113255897 B CN 113255897B
- Authority
- CN
- China
- Prior art keywords
- ifmap
- pooling
- input
- calculation unit
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Neurology (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种卷积神经网络的池化计算单元,属于数字电路领域。本发明包括36个基本计算单元C0~C35和4个结果计算单元R0~R3;基本计算单元和所述结果计算单元均受表征池化类型的信号控制;当进行池化计算时,输入特征图像整行按顺序从输入端口输入,池化计算流水建立之后,池化计算单元按顺序每周期给出相应的输出图像数据;N个池化计算单元能够同时进行4N个池化尺寸为2x2或3x3的池化计算,或者N个池化尺寸为5x5的池化计算。本发明可根据池化计算的具体类型和尺寸灵活配置,增加了池化计算单元的可用性;该池化计算单元扩展简单,根据需求和***开销灵活确定其计算并行度;输入图像数据复用大大减少了功耗。
Description
技术领域
本发明属于数字电路领域,尤其是一种卷积神经网络的池化计算单元。
背景技术
在卷积神经网络中除卷积计算外,还存在池化计算。池化计算的主要目的是为了对特征进行压缩,减少参数量。一般包括最大池化、最小池化、平均池化三种方式,最大池化目前使用最为广泛。以最大池化为例,对特征矩阵进行池化计算,需首先确定池化窗口大小及步长大小,池化窗口会在特征矩阵上以步长为间隔进行滑动,每次滑动都会求出池化窗口中所包含的最大特征值。目前在卷积神经网络加速器中大多只对卷积计算进行加速,很少对池化计算进行加速。虽然池化计算在整个卷积神经网络计算过程中所占比例不高,但随着对计算过程中卷积计算部分的优化及加速,此消彼长,池化计算在功耗和速度上的比重随之增大。采用硬件加速器对池化计算进行加速,可降低卷积神经网络计算的功耗并提高其计算速度。
发明内容
本发明的目的在于克服现有的卷积神经网络中池化计算没有加速手段的缺点,提供一种卷积神经网络的池化计算单元。
为达到上述目的,本发明采用以下技术方案予以实现:
一种卷积神经网络的池化计算单元,包括36个基本计算单元C0~C35和4个结果计算单元R0~R3;
所述基本计算单元和所述结果计算单元均受表征池化类型的信号控制;
当进行池化计算时,输入特征图像整行按顺序从输入端口输入,池化计算流水建立之后,池化计算单元按顺序每周期给出相应的输出图像数据;
N个所述池化计算单元能够同时进行4N个池化尺寸为2x2或3x3的池化计算,或者N个池化尺寸为5x5的池化计算。
进一步的,当池化类型为最大池化时,基本计算单元用于取最大值,结果计算单元用于取最大值,参考值Ref为0。
进一步的,当池化类型为最小池化时,基本计算单元用于取最小值,结果计算单元用于取最小值,参考值Ref应为其所能表示的最大值。
进一步的,当池化类型为平均池化时,基本计算单元用于求和,结果计算单元用于求和后取平均值,参考值Ref为0。
进一步的,当池化尺寸为3x3,池化类型为最大池化时,所述池化计算单元结构由4个完全相同的池化计算结构构成;
输入特征图像Ifmap的第0~2行由Ifmap_input0~Ifmap_input2输入,输入特征图像Ifmap的第1~3行由Ifmap_input3~Ifmap_input5输入,输入特征图像Ifmap的第2~4行由Ifmap_input6~Ifmap_input8输入,输入特征图像Ifmap的第3~5行由Ifmap_input9~Ifmap_input11输入,依此类推,直至完成输入;
流水建立后,输出特征图像Ofmap的第0~3行输出会分别由OUT0~OUT3输出;
当Ofmap第0行计算完成后,输入特征图像Ifmap的4~6行由Ifmap_input0~Ifmap_input2输入,输出特征图像Ofmap的第4行由OUT0输出;
依此类推,完成整个Ifmap的池化计算。
进一步的,具体计算过程如下:
输入特征图像Ifmap的第0行从Ifmap_input0端口输入,第1行从Ifmap_input1端口输入,第2行从Ifmap_input2端口输入;
设第0行的数依次为A0、A1、A2、A4…,以此类推;
时钟周期0,基本计算单元C0输出为A0=Max(0,A0);
时钟周期1,基本计算单元C0输出为A1=Max(0,A1),基本计算单元C1输出为Max(A0,A1);
时钟周期2,基本计算单元C0输出为A2=Max(0,A2),基本计算单元C1输出为Max(A1,A2),基本计算单元C2输出为Max(A0,A1,A2);
时钟周期3,基本计算单元C0输出为A3=Max(0,A3),基本计算单元C1输出为Max(A2,A3),基本计算单元C2输出为Max(A1,A2,A3);
…
…
以此类推;池化窗口每周期滑动一次,在时钟周期2之后基本计算单元C2每周期均将池化窗口第0行的比较结果输出;同样,池化窗口第1、2行的比较结果也会在时钟周期2开始分别从基本计算单元C5、基本计算单元C8输出;
时钟周期3,在R0中算出基本计算单元C2、基本计算单元C5、基本计算单元C8计算结果的最大值,即为池化计算结果Ofmap第0行的首个值,并由OUT0输出;
流水建立后,OUT0每周期输出一个Ofmap第0行的值;
在OUT0输出的同时,OUT1~OUT3经相同的逻辑将Ofmap第1行~第3行的结果输出。
进一步的,当池化尺寸为2x2时,输入特征图像Ifmap的第0行及第1行分别从Ifmap_input0和Ifmap_input1输入,Ofmap第0行从OUT0输出;
输入特征图像Ifmap的第1行及第2行分别从Ifmap_input3和Ifmap_input4输入,Ofmap第1行从OUT1输出;
输入特征图像Ifmap的第2行及第3行分别从Ifmap_input6和Ifmap_input7输入,Ofmap第2行从OUT2输出;
输入特征图像Ifmap的第3行及第4行分别从Ifmap_input9和Ifmap_input10输入,Ofmap第3行从OUT3输出;
当Ofmap第0行计算完成后,输入特征图像Ifmap的第4行及第5行分别从Ifmap_input0和Ifmap_input1输入,Ofmap第4行从OUT0输出;
依此类推,完成整个输入特征图像Ifmap的池化计算。
进一步的,当池化尺寸为5x5时,输入特征图像Ifmap的第0~4行分别从Ifmap_input0、Ifmap_input1、Ifmap_input2、Ifmap_input6、Ifmap_input7输入,Ofmap第0行由OUT3输出;
Ofmap第0行计算完成后,将输入特征图像Ifmap的第1~5行输入,Ofmap第1行由OUT3输出;
依此类推,可完成整个输入特征图像Ifmap的池化计算。
与现有技术相比,本发明具有以下有益效果:
本发明的卷积神经网络的池化计算单元,可根据池化计算的具体类型和尺寸灵活配置,增加了该池化计算单元的可用性;该池化计算单元扩展简单,可根据需求和***开销灵活确定其计算并行度;输入图像数据复用可大大减少因访存造成的功耗及性能损失。
附图说明
图1为本发明的池化计算单元结构图;
图2为本发明的池化尺寸为3x3的池化计算单元结构图;
图3为本发明的池化尺寸为2x2的池化计算单元结构图;
图4为本发明的池化尺寸为5x5的池化计算单元结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
本发明提出的池化计算单元结构如图1所示,由36个基本计算单元(C0~C35)和4个结果计算单元(R0~R3)组成,Ref为参考值。
基本计算单元、结果计算单元、参考值均受表征池化类型的信号控制。池化类型为最大池化时,基本计算单元的功能是“取最大值”,结果计算单元的功能是“取最大值”,参考值Ref为0;池化类型为最小池化时,基本计算单元的功能是“取最小值”,结果计算单元的功能是“取最小值”,参考值Ref应为其所能表示的最大值;池化类型为平均池化时,基本计算单元的功能是“求和”,结果计算单元的功能是“求和后取平均值”,参考值Ref为0。
电路根据表征池化尺寸的信号可自动调整结构,从而实现不同的池化计算尺寸。该池化计算单元可同时进行四个池化尺寸为2x2或3x3的池化计算,或者一个池化尺寸为5x5的池化计算。
窗口滑动的过程等效为输入图像数据整行顺序从输入端口输入,保证在一个池化计算单元内输入数据的高效复用。池化计算流水建立之后,池化单元会按顺序每周期给出相应的输出图像数据。
通过简单扩展,可增加池化计算的并行型,提高计算效率。N个池化计算单元可同时进行4N个池化尺寸为2x2或3x3的池化计算,或者N个池化尺寸为5x5的池化计算。
当池化尺寸为3x3,池化类型为最大池化时,本发明的池化计算单元结构等效为图2。参见图2,图2中的电路由4个完全相同的结构构成,每个结构可独立进行池化尺寸为3x3的池化计算。当电路需完成最大池化计算时,C0~C35和R0~R3的功能均为取最大值,Ref为0,图2中的电路可并行进行4个池化尺寸为3x3的最大池化计算。输入特征图像(Ifmap)的第0~2行由Ifmap_input0~Ifmap_input2输入,第1~3行由Ifmap_input3~Ifmap_input5输入,第2~4行由Ifmap_input6~Ifmap_input8输入,第3~5行由Ifmap_input9~Ifmap_input11输入,依此类推。流水建立后,OUT0~OUT3会分别将输出特征图像(Ofmap)的第0~3行输出。当Ofmap第0行计算完成后,Ifmap的4~6行由Ifmap_input0~Ifmap_input2输入,Ofmap的第4行由OUT0输出;依此类推,可完成整个Ifmap的池化计算。
具体计算过程如下:
输入特征图像(Ifmap)的第0行从Ifmap_input0端口输入,第1行从Ifmap_input1端口输入,第2行从Ifmap_input2端口输入。设第0行的数依次为A0、A1、A2、A4…,以此类推。
时钟周期0,C0输出为A0=Max(0,A0);
时钟周期1,C0输出为A1=Max(0,A1),C1输出为Max(A0,A1);
时钟周期2,C0输出为A2=Max(0,A2),C1输出为Max(A1,A2),C2输出为Max(A0,A1,A2);
时钟周期3,C0输出为A3=Max(0,A3),C1输出为Max(A2,A3),C2输出为Max(A1,A2,A3);
…
…
池化窗口每周期滑动一次,在时钟周期2之后基本计算单元C2每周期都可将池化窗口第0行的比较结果输出。同样,池化窗口第1、2行的比较结果也会在时钟周期2开始分别从C5、C8输出。时钟周期3,在R0中算出C2、C5、C8计算结果的最大值,即为池化计算结果(Ofmap)第0行的首个值,并由OUT0输出。流水建立后,OUT0每周期可输出一个Ofmap第0行的值。在OUT0输出的同时,OUT1~OUT3经过相同的逻辑会将Ofmap第1行~第3行的结果输出。
当池化尺寸为2x2,图1的电路的逻辑功能等效为图3。Ifmap的第0行及第1行分别从Ifmap_input0和Ifmap_input1输入,Ofmap第0行从OUT0输出;Ifmap的第1行及第2行分别从Ifmap_input3和Ifmap_input4输入,Ofmap第1行从OUT1输出;Ifmap的第2行及第3行分别从Ifmap_input6和Ifmap_input7输入,Ofmap第2行从OUT2输出;Ifmap的第3行及第4行分别从Ifmap_input9和Ifmap_input10输入,Ofmap第3行从OUT3输出;当Ofmap第0行计算完成后,Ifmap的第4行及第5行分别从Ifmap_input0和Ifmap_input1输入,Ofmap第4行从OUT0输出;依此类推,可完成整个Ifmap的池化计算。
当池化尺寸为5x5,图1的电路的逻辑功能等效为图4。Ifmap的第0~4行分别从Ifmap_input0、Ifmap_input1、Ifmap_input2、Ifmap_input6、Ifmap_input7输入,Ofmap第0行由OUT3输出。Ofmap第0行计算完成后,将Ifmap的第1~5行输入,Ofmap第1行由OUT3输出。依此类推,可完成整个Ifmap的池化计算。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (5)
1.一种卷积神经网络的池化计算单元,其特征在于,包括36个基本计算单元C0~C35和4个结果计算单元R0~R3;
所述基本计算单元和所述结果计算单元均受表征池化类型的信号控制;
当进行池化计算时,输入特征图像整行按顺序从输入端口输入,池化计算流水建立之后,池化计算单元按顺序每周期给出相应的输出图像数据;
N个所述池化计算单元能够同时进行4N个池化尺寸为2x2或3x3的池化计算,或者N个池化尺寸为5x5的池化计算;
当池化尺寸为3x3,池化类型为最大池化时,所述池化计算单元结构由4个完全相同的池化计算结构构成;
输入特征图像Ifmap的第0~2行由Ifmap_input0~Ifmap_input2输入,输入特征图像Ifmap的第1~3行由Ifmap_input3~Ifmap_input5输入,输入特征图像Ifmap的第2~4行由Ifmap_input6~Ifmap_input8输入,输入特征图像Ifmap的第3~5行由Ifmap_input9~Ifmap_input11输入,依此类推,直至完成输入;
流水建立后,输出特征图像Ofmap的第0~3行输出会分别由OUT0~OUT3输出;
当Ofmap第0行计算完成后,输入特征图像Ifmap的4~6行由Ifmap_input0~Ifmap_input2输入,输出特征图像Ofmap的第4行由OUT0输出;
依此类推,完成整个Ifmap的池化计算;
当池化尺寸为2x2时,输入特征图像Ifmap的第0行及第1行分别从Ifmap_input0和Ifmap_input1输入,Ofmap第0行从OUT0输出;
输入特征图像Ifmap的第1行及第2行分别从Ifmap_input3和Ifmap_input4输入,Ofmap第1行从OUT1输出;
输入特征图像Ifmap的第2行及第3行分别从Ifmap_input6和Ifmap_input7输入,Ofmap第2行从OUT2输出;
输入特征图像Ifmap的第3行及第4行分别从Ifmap_input9和Ifmap_input10输入,Ofmap第3行从OUT3输出;
当Ofmap第0行计算完成后,输入特征图像Ifmap的第4行及第5行分别从Ifmap_input0和Ifmap_input1输入,Ofmap第4行从OUT0输出;
依此类推,完成整个输入特征图像Ifmap的池化计算;
当池化尺寸为5x5时,输入特征图像Ifmap的第0~4行分别从Ifmap_input0、Ifmap_input1、Ifmap_input2、Ifmap_input6、Ifmap_input7输入,Ofmap第0行由OUT3输出;
Ofmap第0行计算完成后,将输入特征图像Ifmap的第1~5行输入,Ofmap第1行由OUT3输出;
依此类推,可完成整个输入特征图像Ifmap的池化计算。
2.根据权利要求1所述的卷积神经网络的池化计算单元,其特征在于,当池化类型为最大池化时,基本计算单元用于取最大值,结果计算单元用于取最大值,参考值Ref为0。
3.根据权利要求1所述的卷积神经网络的池化计算单元,其特征在于,当池化类型为最小池化时,基本计算单元用于取最小值,结果计算单元用于取最小值,参考值Ref应为其所能表示的最大值。
4.根据权利要求1所述的卷积神经网络的池化计算单元,其特征在于,当池化类型为平均池化时,基本计算单元用于求和,结果计算单元用于求和后取平均值,参考值Ref为0。
5.根据权利要求1所述的卷积神经网络的池化计算单元,其特征在于,具体计算过程如下:
输入特征图像Ifmap的第0行从Ifmap_input0端口输入,第1行从Ifmap_input1端口输入,第2行从Ifmap_input2端口输入;
设第0行的数依次为A0、A1、A2、A4…,以此类推;
时钟周期0,基本计算单元C0输出为A0=Max(0,A0);
时钟周期1,基本计算单元C0输出为A1=Max(0,A1),基本计算单元C1输出为Max(A0,A1);
时钟周期2,基本计算单元C0输出为A2=Max(0,A2),基本计算单元C1输出为Max(A1,A2),基本计算单元C2输出为Max(A0,A1,A2);
时钟周期3,基本计算单元C0输出为A3=Max(0,A3),基本计算单元C1输出为Max(A2,A3),基本计算单元C2输出为Max(A1,A2,A3);
…
…
以此类推;池化窗口每周期滑动一次,在时钟周期2之后基本计算单元C2每周期均将池化窗口第0行的比较结果输出;同样,池化窗口第1、2行的比较结果也会在时钟周期2开始分别从基本计算单元C5、基本计算单元C8输出;
时钟周期3,在R0中算出基本计算单元C2、基本计算单元C5、基本计算单元C8计算结果的最大值,即为池化计算结果Ofmap第0行的首个值,并由OUT0输出;
流水建立后,OUT0每周期输出一个Ofmap第0行的值;
在OUT0输出的同时,OUT1~OUT3经相同的逻辑将Ofmap第1行~第3行的结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110655204.9A CN113255897B (zh) | 2021-06-11 | 2021-06-11 | 一种卷积神经网络的池化计算单元 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110655204.9A CN113255897B (zh) | 2021-06-11 | 2021-06-11 | 一种卷积神经网络的池化计算单元 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255897A CN113255897A (zh) | 2021-08-13 |
CN113255897B true CN113255897B (zh) | 2023-07-07 |
Family
ID=77187774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110655204.9A Active CN113255897B (zh) | 2021-06-11 | 2021-06-11 | 一种卷积神经网络的池化计算单元 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255897B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304925A (zh) * | 2018-01-08 | 2018-07-20 | 中国科学院计算技术研究所 | 一种池化计算装置及方法 |
CN109165733A (zh) * | 2018-07-11 | 2019-01-08 | 中国人民解放军国防科技大学 | 多输入多输出矩阵最大值池化向量化实现方法 |
CN110383330A (zh) * | 2018-05-30 | 2019-10-25 | 深圳市大疆创新科技有限公司 | 池化装置和池化方法 |
CN110399977A (zh) * | 2018-04-25 | 2019-11-01 | 华为技术有限公司 | 池化运算装置 |
CN110942145A (zh) * | 2019-10-23 | 2020-03-31 | 南京大学 | 基于可重构计算的卷积神经网络池化层、硬件实现方法及*** |
CN111242295A (zh) * | 2020-01-20 | 2020-06-05 | 清华大学 | 一种可配置池化算子的方法及电路 |
WO2020258529A1 (zh) * | 2019-06-28 | 2020-12-30 | 东南大学 | 一种基于bnrp的可配置并行通用卷积神经网络加速器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019084788A1 (zh) * | 2017-10-31 | 2019-05-09 | 深圳市大疆创新科技有限公司 | 用于神经网络的运算装置、电路及相关方法 |
US20190205738A1 (en) * | 2018-01-04 | 2019-07-04 | Tesla, Inc. | Systems and methods for hardware-based pooling |
US20200090023A1 (en) * | 2018-09-14 | 2020-03-19 | Huawei Technologies Co., Ltd. | System and method for cascaded max pooling in neural networks |
-
2021
- 2021-06-11 CN CN202110655204.9A patent/CN113255897B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304925A (zh) * | 2018-01-08 | 2018-07-20 | 中国科学院计算技术研究所 | 一种池化计算装置及方法 |
CN110399977A (zh) * | 2018-04-25 | 2019-11-01 | 华为技术有限公司 | 池化运算装置 |
CN110383330A (zh) * | 2018-05-30 | 2019-10-25 | 深圳市大疆创新科技有限公司 | 池化装置和池化方法 |
CN109165733A (zh) * | 2018-07-11 | 2019-01-08 | 中国人民解放军国防科技大学 | 多输入多输出矩阵最大值池化向量化实现方法 |
WO2020258529A1 (zh) * | 2019-06-28 | 2020-12-30 | 东南大学 | 一种基于bnrp的可配置并行通用卷积神经网络加速器 |
CN110942145A (zh) * | 2019-10-23 | 2020-03-31 | 南京大学 | 基于可重构计算的卷积神经网络池化层、硬件实现方法及*** |
CN111242295A (zh) * | 2020-01-20 | 2020-06-05 | 清华大学 | 一种可配置池化算子的方法及电路 |
Non-Patent Citations (4)
Title |
---|
Area and Energy Efficient 2D Max-Pooling For Convolutional Neural Network Hardware Accelerator;Bin Zhao 等;《IECON 2020 The 46th Annual Conference of the IEEE Industrial Electronics Society》;423-427 * |
Efficient convolution pooling on the GPU;Shunsuke Suita 等;《J.Parallel Distrib.Comput.》;222-229 * |
基于CUDA加速的目标检测算法研究;王润强;《中国优秀硕士学位论文全文数据库信息科技辑》;I138-235 * |
基于FPGA的卷积神经网络加速方法研究及实现;仇越;《中国优秀硕士学位论文全文数据库信息科技辑》;I140-675 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255897A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409511B (zh) | 一种用于动态可重构阵列的卷积运算数据流调度方法 | |
CN111242289A (zh) | 一种规模可扩展的卷积神经网络加速***与方法 | |
CN112465110B (zh) | 一种卷积神经网络计算优化的硬件加速装置 | |
CN110807522B (zh) | 一种神经网络加速器的通用计算电路 | |
CN110362293B (zh) | 乘法器、数据处理方法、芯片及电子设备 | |
CN110515587B (zh) | 乘法器、数据处理方法、芯片及电子设备 | |
CN111008003A (zh) | 数据处理器、方法、芯片及电子设备 | |
CN111008691B (zh) | 一种权值和激活值都二值化的卷积神经网络加速器架构 | |
CN110531954B (zh) | 乘法器、数据处理方法、芯片及电子设备 | |
CN110673823B (zh) | 乘法器、数据处理方法及芯片 | |
CN112734020B (zh) | 卷积神经网络的卷积乘累加硬件加速装置、***以及方法 | |
CN113255897B (zh) | 一种卷积神经网络的池化计算单元 | |
CN114519425A (zh) | 一种规模可扩展的卷积神经网络加速*** | |
CN111610963B (zh) | 芯片结构及其乘加计算引擎 | |
CN113918120A (zh) | 计算装置、神经网络处理设备、芯片及处理数据的方法 | |
CN110766136B (zh) | 一种稀疏矩阵与向量的压缩方法 | |
CN112395549A (zh) | 一种用于矩阵乘法密集型算法的可重构矩阵乘法加速*** | |
CN116167425A (zh) | 一种神经网络加速方法、装置、设备及介质 | |
CN113031912A (zh) | 乘法器、数据处理方法、装置及芯片 | |
CN112836793B (zh) | 浮点可分离卷积计算加速装置、***以及图像处理方法 | |
CN112308217B (zh) | 一种卷积神经网络加速方法及*** | |
CN209879493U (zh) | 乘法器 | |
CN114065923A (zh) | 一种卷积神经网络的压缩方法、***及加速装置 | |
CN110807479A (zh) | 一种基于Kmeans算法的神经网络卷积计算加速方法 | |
CN112346703B (zh) | 一种用于卷积神经网络计算的全局平均池化电路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |