CN107392309A - 一种基于fpga的通用定点数神经网络卷积加速器硬件结构 - Google Patents

一种基于fpga的通用定点数神经网络卷积加速器硬件结构 Download PDF

Info

Publication number
CN107392309A
CN107392309A CN201710810528.9A CN201710810528A CN107392309A CN 107392309 A CN107392309 A CN 107392309A CN 201710810528 A CN201710810528 A CN 201710810528A CN 107392309 A CN107392309 A CN 107392309A
Authority
CN
China
Prior art keywords
convolution
buffer area
controller
characteristic pattern
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710810528.9A
Other languages
English (en)
Inventor
陆生礼
韩志
庞伟
李硕
周世豪
沈志源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University - Wuxi Institute Of Technology Integrated Circuits
Southeast University
Original Assignee
Southeast University - Wuxi Institute Of Technology Integrated Circuits
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University - Wuxi Institute Of Technology Integrated Circuits, Southeast University filed Critical Southeast University - Wuxi Institute Of Technology Integrated Circuits
Priority to CN201710810528.9A priority Critical patent/CN107392309A/zh
Publication of CN107392309A publication Critical patent/CN107392309A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F5/00Methods or arrangements for data conversion without changing the order or content of the data handled
    • G06F5/06Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于FPGA的通用定点数神经网络卷积加速器硬件结构,包括:通用AXI4高速总线接口,通用GPIO接口;提供通用的存储器硬件并且支持高并行的读写操作;通用卷积器可对定点数精度配置,可配置卷积操作大小,在完成数据存储后可配合高并行的读写进行高并行的卷积运算;通用读写控制单元,包含对ram、rom、Fifo的读写控制逻辑以及地址产生逻辑;通用状态控制器,针对卷积层和读写、计算过程做出相应的单元运行反应,控制整体的计算流程;通用卷积结果缓存器,采用对卷积结果分段式累加的方法,高速并行对处理结果进行缓存和向总线发送。本发明在基于Yolo算法的人脸检测和基于CNN的人脸识别应用中得到验证,体现出极高的运行速度和较高的数据精度。

Description

一种基于FPGA的通用定点数神经网络卷积加速器硬件结构
技术领域
本发明涉及电子信息以及深度学习技术领域,尤其涉及一种基于FPGA(Field-Programmable Gate Array,现场可编程门阵列)的通用定点数神经网络卷积加速器硬件结构。
背景技术
随着Hinton等人于2006年提出深度学***台如无人机、机器人等应用卷积神经网络构建例如语音识别、人脸识别、图像识别等各种应用。由于卷积神经网络的计算量非常巨大,需要GPU(Graphic Processing Unit,图形处理器)、FPGA、ASIC(Application Specific Integrated Circuit,专用集成电路)等硬件的计算支持,例如以英伟达公司为代表,围绕GPU布局的硬件加速芯片,能够满足高性能的卷积计算,但其需要复杂的***设备支持,移动平台难以支撑GPU这类处理器,另外ASIC虽然具有高性能低功耗的优点,但是其需根据具体的应用而进行专用设计,设计灵活性低。
现场可编程门阵列(FPGA)中有大量的硬件逻辑资源,是一块全部由开放式门组成的计算机芯片,它具有动态可重构的特点,可以进行灵活的编程,可添加各种新功能满足各种协议标准和规范。将FPGA应用于移动工作平台来实现卷积神经网络的卷积计算是有效的解决方案。
在以往的研究中使用FPGA做卷积神经网络加速器的通常会将特征图数据和权重、偏置数据直接在片上存储,由于参数数量巨大,会导致硬件开销会很大,需要高性能的FPGA,同时存储空间会占用更多的读写功耗。另外从通用性来讲,由于卷积层各层数据收发逻辑不同,需要对每一层做相应的处理,给开发带来了许多不便。
为了提高卷积器的通用性,并减少大容量存储空间的使用,设计通用的卷积加速器是更好的选择。与将整个神经网络移植到FPGA不同,卷积加速器只做网络中的卷积计算,不进行特征图、卷积核、偏置这些多维数据的处理,因而大量的数据可存储在外部存储器,通过DMA(Direct Memory Access,直接内存存取)完成外部存储器和卷积器之间的数据交互,这种将类似于CPU+FPGA的结构主要解决以下两个方面的问题。
一是降低了FPGA端运算逻辑的复杂度以及数据的读写功耗。仅有FPGA端逻辑来控制大量数据的读写,会对存储器进行大量的访问,读写控制逻辑极其复杂,且功耗提高不可避免,同时这些逻辑不具有复用性,即对于网络中各层,均需专门设计控制逻辑,给FPGA设计到来很多困难。而CPU去处理读写仅需对内存进行操作,给设计复杂度带来明显的降低。
二是以通用的加速器的形式对CPU计算数据完成加速。该通用性应该可以应对不同网络的卷积运算,具有高度可配置的能力。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于FPGA的通用定点数神经网络卷积加速器硬件结构,能够提高运算速度和降低能耗。
为实现上述目的,本发明实施例提出了一种基于FPGA的通用定点数神经网络卷积加速器硬件结构,包括:AXI4总线接口,所述AIX4总线接口为通用总线结构,可将所述加速器挂载至任意使用该协议的总线设备上工作;高并行卷积核与特征图数据缓存区,所述高并行卷积核与特征图数据缓存区用于缓存来自总线上的待计算数据,包括卷积神经网络的卷积核、偏置参数和相对应的特征图数据用于卷积,所述高并行卷积核与特征图数据缓存区为通用缓存区,可缓存神经网络中各个层次对应的待计算数据,所述高并行卷积核与特征图数据缓存区由多个子缓存区共同构成,可以进行高速的并行数据访问。分段式卷积结果缓存区,所述分段式卷积结果缓存区用于存放卷积计算的结果数据,采用分段式的方式进行缓存。卷积计算器,所述卷积计算器用于完成缓存区数据的卷积计算并返回计算的结果给分段式卷积结果缓存区。缓存区控制器,所述缓存区控制器用于控制来自总线的数据存放逻辑、由缓存区向卷积计算单元发送数据的控制逻辑以及计算结果的分段式缓冲逻辑。状态控制器,所述状态控制器用于控制卷积器工作流程,包括接收、缓存、计算、再缓存、发送和等待接收。直接存取控制器,所述直接存取控制器用于完成外部存储器和处理器与各类缓存区的数据传输。
另外,根据本发明上述实施例的基于FPGA的通用定点数神经网络卷积加速器硬件结构还可以具有如下附加的技术特征:
在本发明的一个实施例中,所述AXI4总线接口,与所述直接存取控制器之间通过总线FIFO(First Input First Output)做为一级缓存,所述直接存取控制器再与主处理器或者其他外部存储器通过总线链接,一级缓存FIFO与所述缓存区之间同样通过总线连接。
在本发明的一个实施例中,所述高并行卷积核与特征图数据缓存区由所述缓存区控制器控制所有缓存sram(Static Random Access Memory)的读写使能和地址操作,所述高并行卷积核与特征图数据缓存区由64个特征图子缓存区,64个卷积核子缓存区共同构成,在数据存储时串行依次进入子缓存区,读出时使用统一的地址并行读出。
在本发明的一个实施例中,所述分段式卷积结果缓存区由63个FIFO组成,其中63个FIFO依次分为32个一组、16个一组、8个一组、4个一组、2个一组、1个一组,以存放所述卷积计算单元的计算累加结果,所述分段式卷积结果缓存区的写使能由所述卷积计算单元给出,读出逻辑由所述缓存区控制器控制。
在本发明的一个实施例中,所述卷积计算器为通用定点数计算器,以DSP48为基础,由并行的64个计算单元和计算结果累加逻辑组成,单个时钟可同时进行64个乘加计算,计算数据由所述高并行卷积核与特征图数据缓存区提供,并将计算结果缓存至所述分段式卷积结果缓存区。
在本发明的一个实施例中,所述状态控制器由5个状态构成,分别对应等待、缓存、计算、发送,其中缓存态又分为卷积核缓存、特征图缓存。每个状态又将相应信号分发到各个子模块。
在本发明的一个实施例中,所述直接存取控制器在作为主设备和从设备均遵循AXI4总线协议。数据接收和发送均经过该控制器缓冲,输入和输出均由FIFO提供数据流缓存。
本发明的有益效果为:本发明实施例提出的基于FPGA的通用定点数神经网络卷积加速器硬件结构,在通用FPGA平台上实现了高速、通用的卷积神经网络卷积运算,理论上可实现无限大复杂度的卷积运算,适用于任何使用卷积运算的神经网络加速,具有高度的通用性,此外具有比以往单FPGA实现计算有更低的设计复杂度和更高的通用性,比单CPU、GPU实现计算有更高的计算速度和便携性。本发明在基于Yolo算法的人脸检测和基于CNN的人脸识别应用中得到验证,在100MHz的工作频率下,每秒可以完成64亿次乘累加操作,数据精度精确到小数点后4位,误差不超过5%。
附图说明
图1是本发明的结构图;
图2是高并行卷积核与特征图数据缓存区结构示意图;
图3是卷积计算器工作示意图;
图4是卷积结果累加示意图;
图5是状态控制器示意图。
具体实施方式
下面结合附图对本发明的实施例作更进一步的说明,所述实施例的实例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面结合附图描述根据本发明实施例提出的基于FPGA的通用定点数神经网络卷积加速器硬件结构。参照图1所示,该基于FPGA的通用定点数神经网络卷积加速器硬件结构包括:直接存取控制器、AXI4总线接口协议、高并行缓存区(高并行卷积核与特征图数据缓存区)、卷积计算器、分段式缓存区(分段式卷积结果缓存区)、缓存区控制器、状态控制器。
其中,在本发明的实施例中,所述AXI4总线接口,与所述直接存取控制器之间通过总线FIFO做为一级缓存,所述直接存取控制器再与主处理器或者其他外部存储器通过总线连接,一级缓存FIFO与所述缓存区之间同样通过总线连接。
在本发明的实施例中,所述高并行卷积核与特征图数据缓存区由所述缓存区控制器控制所有缓存sram的读写使能和地址操作,所述高并行卷积核与特征图数据缓存区由64个特征图子缓存区,64个卷积核子缓存区共同构成,在数据存储时串行依次进入子缓存区,读出时使用统一的地址并行读出。
在本发明的实施例中,所述分段式卷积结果缓存区由63个FIFO组成,其中63个FIFO依次分为32个一组、16个一组、8个一组、4个一组、2个一组、1个一组,以存放所述卷积计算单元的计算累加结果,所述分段式卷积结果缓存区的写使能由所述卷积计算单元给出,读出逻辑由所述缓存区控制器控制。
在本发明的实施例中,所述卷积计算器为通用定点数计算器,以DSP48为基础,由并行的64个计算单元和计算结果累加逻辑组成,单个时钟可同时进行64个乘加计算,计算数据由所述高并行卷积核与特征图数据缓存区提供,并将计算结果缓存至所述分段式卷积结果缓存区。
在本发明的实施例中,所述状态控制器由5个状态构成,分别对应等待、缓存、计算、发送,其中缓存态又分为卷积核缓存、特征图缓存。每个状态又将相应信号分发到各个子模块。
在本发明的实施例中,所述直接存取控制器在作为主设备和从设备均遵循AXI4总线协议。数据接收和发送均经过该控制器缓冲,输入和输出均由FIFO提供数据流缓存
进一步的,参照图2所示,为在本发明的实施例中高并行卷积核与特征图数据缓存区示意图。缓存区下分特征图缓存区和卷积核缓存区,每个缓存区又分别由64个子缓存构成,各自缓存区均有对应的ID编号,ID由0到63;各子缓存区大小由所执行卷积大小有关,例如,如计算大小为3×3的卷积计算,则配置卷积核子缓存区大小为9,单次数据接收共计64×9=576个数据,特征图子缓存区每次缓存数据量应与卷积核匹配,可得应是9的倍数,本例单个子缓存区缓存936个数据,共计936×64=59904个数据。
上述缓存区的数据输入来自总线,由总线串行发送至缓存区,数据输出指向卷积计算器,由地址和控制线控制并行发送,可实现高速计算。地址和控制线输入来自缓存区控制器,写地址和写使能与子缓存区ID相对应,按照由0到63的顺序依次将数据缓存至子区,同时当前数据应存放位置由缓存控制器决定,并以写使能的方式来控制写入区域。输出时卷积核与特征图应同时输出,对应并行卷积计算器的数据需求。
参照图3所示,待计算数据并行进入卷积器,每个时钟共计64组卷积核、特征图进入卷积器计算,对于大小为3×3的卷积计算,卷积器共需十个时钟计算出结果,其中前九个时钟执行乘累加,第十个时钟发送结果至后续累加器。
参照图4所示,其中卷积处理单元(Processing Convolution Unit,简称PCU)为并行64的结构。对卷积处理单元进行编号,ID为0~63,后续累加器第十个时钟接收到卷积器结果后,在第十一个时钟对ID为0、1的输出求和,对ID为2、3的输出求和,对ID为4、5的输出求和,依此类推,直到ID为62、63的输出求和,所得32个和并行存放在标记为32_sum_0、32_sum_1…32_sum_31的32个FIFO中,第十二个时钟将第十一个时钟相邻两个累加和再累加,相当于ID为0、1、2、3的累加和,4、5、6、7的累加和、依此类推,存放在标记为16_sum_0、16_sum_1…16_sum_15的16个FIFO中,第十三个时钟将第十二个时钟相邻两个累加和再累加,相当于ID为0、1、2、3、4、5、6、7的累加和,8、9、10、11、12、13、14、15的累加和,依此类推,存放在标记为8_sum_0、8_sum_1…8_sum_7的8个FIFO中;第十四个时钟将第十三个时钟相邻两个累加和再累加,相当于ID为0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15的累加和,依此类推,存放在标记为4_sum_0、4_sum_1…4_sum_3的4个FIFO中;第十五个时钟将第十四个时钟相邻两个累加和再累加,相当于ID为0、1…31的累加和,依此类推,存放在标记为2_sum_0、2_sum_1的2个FIFO中;第十六个时钟将第十五个时钟相邻两个累加和再累加,相当于ID为0、1、2…63的累加和,依此类推,存放在标记为1_sum_0的1个FIFO中。对于上述所有x_sum_y形式的编号,其中x表示该类型FIFO的个数,y表示该类型FIFO编号。
参照图5所示,为状态控制器状态转换示意图,以下所述信号均为状态转换控制器内部工作信号,五个状态依次为空状态(idle),写特征图(wmap),写卷积核(wwei),卷积器计算(cal),计算结果发送(send)。初始化时状态机进入idle,等待ram_flag(来自外部处理器),当ram_flag为001时,进入wwei,当ram_flag为010时,进入wmap,当send状态结束时,返回idle,等待下一次数据写入。
wmap状态:一旦进入该状态,所有的map_mem使能端m_ena拉高,同时所有的weight_mem使能w_ena拉低。当data_vld有效时,开始接收数据,ram写地址addra_m_tmp开始从0累加,每累加到935,map_id_flag_tmp0加1,指示开始写第二个ram,依次类推,直至写完最后一个ram。写完后等待ram_flag的高位拉高,一旦拉高则表明本次数据发送完成,可以计算,则进入计算状态。
wwei状态:一旦进入该状态,所有的weight_mem使能端w_ena拉高,同时所有的map_mem使能m_ena拉低。当data_vld有效时,开始接收数据,ram写地址addra_w_tmp开始从0累加,每累加到8,weight_id_flag_tmp0加1,指示开始写第二个ram,依次类推,直至写完最后一个ram。写完后等待ram_flag的高位拉高,一旦拉高则表明本次数据发送完成,可以计算,则进入计算状态。
cal状态:一旦进入该状态,start_tmp拉高,表明PCU即将使能,开始计算,weight读地址addrb_w_tmp和map读地址addrb_m开始从0累加,以从各自ram中读取相应数据,每累加到9次,则停止一个时钟,以与PCU输出数据同步。当addrb_m的值为936时,标志所有数据均已计算完成,calculate_done拉高,同时两组读地址复位,下个时钟将进入send状态。
send状态:send过程需要对layer(来自外部处理器)敏感,每发送完一次所有数据,或者每次进入到新的layer,会给bias_addr(存放偏置的rom地址)一个该层所对应的起始地址,在该层内,每计算完一次所发送数据则bias_addr加1,超出该层上边界后重新回到起始地址,直至该层计算结束,发送完成后回到idle状态。根据layer的指示,会按所需数据为多少个卷积结果累加和从对应的32_sum_y、16_sum_y、8_sum_y、4_sum_y、2_sum_y、1_sum_y FIFO中取数据以发送至总线。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims (7)

1.一种基于FPGA的通用定点数神经网络卷积加速器硬件结构,其特征在于,包括:
AXI4总线接口,所述AIX4总线接口为通用总线结构,可将所述加速器挂载至任意使用AXI4总线协议的总线设备上工作;
高并行卷积核与特征图数据缓存区,所述高并行卷积核与特征图数据缓存区用于缓存来自总线上的待计算数据,包括卷积神经网络的卷积核、偏置参数和相对应的特征图数据用于卷积,所述高并行卷积核与特征图数据缓存区为通用缓存区,可缓存神经网络中各个层次对应的待计算数据,所述高并行卷积核与特征图数据缓存区由多个子缓存区共同构成,可进行高速的并行数据访问;
分段式卷积结果缓存区,所述分段式卷积结果缓存区用于存放卷积计算的结果数据,采用分段式的方式进行缓存;
卷积计算器,所述卷积计算器用于完成高并行卷积核与特征图数据缓存区数据的卷积计算并返回计算的结果给分段式卷积结果缓存区;
缓存区控制器,所述缓存区控制器用于控制来自总线的数据存放逻辑、由缓存区向卷积计算单元发送数据的控制逻辑以及计算结果的分段式缓冲逻辑;
状态控制器,所述状态控制器用于控制卷积器工作流程,包括接收、缓存、计算、再缓存、发送和等待接收;
直接存取控制器,所述直接存取控制器用于完成外部存储器和处理器与高并行卷积核与特征图数据缓存区和分段式卷积结果缓存区的数据传输;
所述高并行卷积核与特征图数据缓存区和分段式卷积结果缓存区分别通过AXI4总线接口连接直接存取控制器;直接存取控制器通过AXI4总线连接外部存储器和处理器;卷积计算器的输入端和输出端分别连接高并行卷积核与特征图数据缓存区和分段式卷积结果缓存区;缓存区控制器通过地址和控制线分别连接高并行卷积核与特征图数据缓存区和分段式卷积结果缓存区;状态控制器的输入端和输出端分别通过控制线连接外部存储器和处理器、缓存区控制器。
2.如权利要求1所述的基于FPGA的通用定点数神经网络卷积加速器硬件结构,其特征在于,所述AXI4总线接口,与所述直接存取控制器之间通过总线FIFO做为一级缓存,所述直接存取控制器再与外部存储器和处理器通过总线链接,一级缓存FIFO与所述高并行卷积核与特征图数据缓存区和分段式卷积结果缓存区之间均通过总线连接。
3.如权利要求1所述的基于FPGA的通用定点数神经网络卷积加速器硬件结构,其特征在于,所述高并行卷积核与特征图数据缓存区由所述缓存区控制器控制所有缓存sram的读写使能和地址操作,所述高并行卷积核与特征图数据缓存区由64个特征图子缓存区,64个卷积核子缓存区共同构成,在数据存储时串行依次进入子缓存区,读出时使用统一的地址并行读出。
4.如权利要求1所述的基于FPGA的通用定点数神经网络卷积加速器硬件结构,其特征在于,所述分段式卷积结果缓存区由63个FIFO组成,其中63个FIFO依次分为32个一组、16个一组、8个一组、4个一组、2个一组、1个一组,以存放所述卷积计算单元的计算累加结果,所述分段式卷积结果缓存区的写使能由所述卷积计算单元给出,读出逻辑由所述缓存区控制器控制。
5.如权利要求1所述的基于FPGA的通用定点数神经网络卷积加速器硬件结构,其特征在于,所述卷积计算器为通用定点数计算器,以DSP48为基础,由并行的64个计算单元和计算结果累加逻辑组成,单个时钟可同时进行64个乘加计算,计算数据由所述高并行卷积核与特征图数据缓存区提供,并将计算结果缓存至所述分段式卷积结果缓存区。
6.如权利要求1所述的基于FPGA的通用定点数神经网络卷积加速器硬件结构,其特征在于,所述状态控制器由5个状态构成,分别对应等待、缓存、计算、发送,其中缓存态又分为卷积核缓存、特征图缓存,每个状态又将相应信号分发到各个子模块。
7.如权利要求1所述的基于FPGA的通用定点数神经网络卷积加速器硬件结构,其特征在于,所述直接存取控制器在作为主设备和从设备均遵循AXI4总线协议,数据接收和发送均经过该控制器缓冲,输入和输出均由FIFO提供数据流缓存。
CN201710810528.9A 2017-09-11 2017-09-11 一种基于fpga的通用定点数神经网络卷积加速器硬件结构 Pending CN107392309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710810528.9A CN107392309A (zh) 2017-09-11 2017-09-11 一种基于fpga的通用定点数神经网络卷积加速器硬件结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710810528.9A CN107392309A (zh) 2017-09-11 2017-09-11 一种基于fpga的通用定点数神经网络卷积加速器硬件结构

Publications (1)

Publication Number Publication Date
CN107392309A true CN107392309A (zh) 2017-11-24

Family

ID=60349647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710810528.9A Pending CN107392309A (zh) 2017-09-11 2017-09-11 一种基于fpga的通用定点数神经网络卷积加速器硬件结构

Country Status (1)

Country Link
CN (1) CN107392309A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862650A (zh) * 2017-11-29 2018-03-30 中科亿海微电子科技(苏州)有限公司 加速计算二维图像cnn卷积的方法
CN108009631A (zh) * 2017-11-30 2018-05-08 睿视智觉(深圳)算法技术有限公司 一种基于fpga的vgg-16通用处理模块及其控制方法
CN108197699A (zh) * 2018-01-05 2018-06-22 中国人民解放军国防科技大学 针对卷积神经网络硬件加速器的调试模块
CN108389183A (zh) * 2018-01-24 2018-08-10 上海交通大学 肺部结节检测神经网络加速器及其控制方法
CN108520297A (zh) * 2018-04-02 2018-09-11 周军 可编程深度神经网络处理器
CN108549935A (zh) * 2018-05-03 2018-09-18 济南浪潮高新科技投资发展有限公司 一种实现神经网络模型的装置及方法
CN108595379A (zh) * 2018-05-08 2018-09-28 济南浪潮高新科技投资发展有限公司 一种基于多级缓存的并行化卷积运算方法及***
CN108805267A (zh) * 2018-05-28 2018-11-13 重庆大学 用于卷积神经网络硬件加速的数据处理方法
CN108805272A (zh) * 2018-05-03 2018-11-13 东南大学 一种基于fpga的通用卷积神经网络加速器
CN109034025A (zh) * 2018-07-16 2018-12-18 东南大学 一种基于zynq的人脸关键点检测***
CN109086879A (zh) * 2018-07-05 2018-12-25 东南大学 一种基于fpga的稠密连接神经网络的实现方法
CN109146067A (zh) * 2018-11-19 2019-01-04 东北大学 一种基于FPGA的Policy卷积神经网络加速器
CN109416756A (zh) * 2018-01-15 2019-03-01 深圳鲲云信息科技有限公司 卷积器及其所应用的人工智能处理装置
CN109800867A (zh) * 2018-12-17 2019-05-24 北京理工大学 一种基于fpga片外存储器的数据调用方法
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器
CN110009103A (zh) * 2019-03-26 2019-07-12 深兰科技(上海)有限公司 一种深度学习卷积计算的方法和装置
WO2019136747A1 (zh) * 2018-01-15 2019-07-18 深圳鲲云信息科技有限公司 反卷积器及其所应用的人工智能处理装置
CN110135554A (zh) * 2019-03-25 2019-08-16 电子科技大学 一种基于fpga的卷积神经网络硬件加速架构
CN110147251A (zh) * 2019-01-28 2019-08-20 腾讯科技(深圳)有限公司 用于计算神经网络模型的架构、芯片及计算方法
CN110321997A (zh) * 2018-03-31 2019-10-11 北京深鉴智能科技有限公司 高并行度计算平台、***及计算实现方法
CN110333827A (zh) * 2019-07-11 2019-10-15 山东浪潮人工智能研究院有限公司 一种数据加载装置和数据加载方法
WO2020001401A1 (zh) * 2018-06-27 2020-01-02 杭州海康威视数字技术股份有限公司 深度神经网络中的网络层运算方法及装置
CN110705701A (zh) * 2019-09-05 2020-01-17 福州瑞芯微电子股份有限公司 一种高并行度的卷积运算方法和电路
CN110826707A (zh) * 2018-08-10 2020-02-21 北京百度网讯科技有限公司 应用于卷积神经网络的加速方法和硬件加速器
CN110956257A (zh) * 2018-09-26 2020-04-03 龙芯中科技术有限公司 神经网络加速器
CN110991632A (zh) * 2019-11-29 2020-04-10 电子科技大学 一种基于fpga的异构神经网络计算加速器设计方法
CN110991634A (zh) * 2019-12-04 2020-04-10 腾讯科技(深圳)有限公司 人工智能加速器、设备、芯片及数据处理方法
CN111401541A (zh) * 2020-03-10 2020-07-10 湖南国科微电子股份有限公司 一种数据传输控制方法及装置
CN111582453A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 生成神经网络模型的方法和装置
CN111684470A (zh) * 2018-02-08 2020-09-18 三星电子株式会社 神经网络的动态存储器映射
CN111752879A (zh) * 2020-06-22 2020-10-09 深圳鲲云信息科技有限公司 一种基于卷积神经网络的加速***、方法及存储介质
CN113673690A (zh) * 2021-07-20 2021-11-19 天津津航计算技术研究所 一种水下噪声分类卷积神经网络加速器
CN113869494A (zh) * 2021-09-28 2021-12-31 天津大学 基于高层次综合的神经网络卷积fpga嵌入式硬件加速器
WO2022041188A1 (zh) * 2020-08-31 2022-03-03 深圳市大疆创新科技有限公司 用于神经网络的加速器、方法、装置及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033732A (zh) * 2010-12-17 2011-04-27 浙江大学 基于fpga的高速低延迟浮点累加器及其实现方法
US20110252008A1 (en) * 2003-05-23 2011-10-13 Chamberlain Roger D Intelligent Data Storage and Processing Using FPGA Devices
CN105426517A (zh) * 2015-12-02 2016-03-23 上海越峰信息科技有限公司 一种具有图像处理功能的智能存储设备
CN106228238A (zh) * 2016-07-27 2016-12-14 中国科学技术大学苏州研究院 现场可编程门阵列平台上加速深度学习算法的方法和***
CN106875012A (zh) * 2017-02-09 2017-06-20 武汉魅瞳科技有限公司 一种基于fpga的深度卷积神经网络的流水化加速***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110252008A1 (en) * 2003-05-23 2011-10-13 Chamberlain Roger D Intelligent Data Storage and Processing Using FPGA Devices
CN102033732A (zh) * 2010-12-17 2011-04-27 浙江大学 基于fpga的高速低延迟浮点累加器及其实现方法
CN105426517A (zh) * 2015-12-02 2016-03-23 上海越峰信息科技有限公司 一种具有图像处理功能的智能存储设备
CN106228238A (zh) * 2016-07-27 2016-12-14 中国科学技术大学苏州研究院 现场可编程门阵列平台上加速深度学习算法的方法和***
CN106875012A (zh) * 2017-02-09 2017-06-20 武汉魅瞳科技有限公司 一种基于fpga的深度卷积神经网络的流水化加速***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN ZHANG ET AL: "Optimizing fpga-based accelerator design for deep convolutional neural networks", 《PROCEEDINGS OF THE 2015 ACM/SIGDA INTERNATIONAL SYMPOSIUM ON FIELD-PROGRAMMABLE GATE ARRAYS》 *
JIANTAO QIU ET AL: "Going Deeper with Embedded FPGA Platform for Convolutional Neural Network", 《FPGA’16 :PROCEEDINGS OF THE 2016 ACM/SIGDA INTERNATIONAL SYMPOSIUM ON FIELD-PROGRAMMABLE GATE ARRAYS》 *
LIU Z ET AL: "Throughput-Optimized FPGA Accelerator for Deep Convolutional Neural Networks", 《ACM TRANSACTIONS ON RECONFIGURABLE TECHNOLOGY AND SYSTEMS》 *

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862650A (zh) * 2017-11-29 2018-03-30 中科亿海微电子科技(苏州)有限公司 加速计算二维图像cnn卷积的方法
CN107862650B (zh) * 2017-11-29 2021-07-06 中科亿海微电子科技(苏州)有限公司 加速计算二维图像cnn卷积的方法
CN108009631A (zh) * 2017-11-30 2018-05-08 睿视智觉(深圳)算法技术有限公司 一种基于fpga的vgg-16通用处理模块及其控制方法
CN108197699A (zh) * 2018-01-05 2018-06-22 中国人民解放军国防科技大学 针对卷积神经网络硬件加速器的调试模块
CN108197699B (zh) * 2018-01-05 2020-04-07 中国人民解放军国防科技大学 针对卷积神经网络硬件加速器的调试模块
CN109416756A (zh) * 2018-01-15 2019-03-01 深圳鲲云信息科技有限公司 卷积器及其所应用的人工智能处理装置
WO2019136747A1 (zh) * 2018-01-15 2019-07-18 深圳鲲云信息科技有限公司 反卷积器及其所应用的人工智能处理装置
CN110178146A (zh) * 2018-01-15 2019-08-27 深圳鲲云信息科技有限公司 反卷积器及其所应用的人工智能处理装置
WO2019136764A1 (zh) * 2018-01-15 2019-07-18 深圳鲲云信息科技有限公司 卷积器及其所应用的人工智能处理装置
CN110178146B (zh) * 2018-01-15 2023-05-12 深圳鲲云信息科技有限公司 反卷积器及其所应用的人工智能处理装置
CN108389183A (zh) * 2018-01-24 2018-08-10 上海交通大学 肺部结节检测神经网络加速器及其控制方法
CN111684470A (zh) * 2018-02-08 2020-09-18 三星电子株式会社 神经网络的动态存储器映射
CN111684470B (zh) * 2018-02-08 2023-10-24 三星电子株式会社 神经网络的动态存储器映射
CN110321997A (zh) * 2018-03-31 2019-10-11 北京深鉴智能科技有限公司 高并行度计算平台、***及计算实现方法
CN110321997B (zh) * 2018-03-31 2021-10-19 赛灵思公司 高并行度计算平台、***及计算实现方法
CN108520297A (zh) * 2018-04-02 2018-09-11 周军 可编程深度神经网络处理器
CN108520297B (zh) * 2018-04-02 2020-09-04 周军 可编程深度神经网络处理器
CN108549935A (zh) * 2018-05-03 2018-09-18 济南浪潮高新科技投资发展有限公司 一种实现神经网络模型的装置及方法
CN108805272A (zh) * 2018-05-03 2018-11-13 东南大学 一种基于fpga的通用卷积神经网络加速器
CN108595379A (zh) * 2018-05-08 2018-09-28 济南浪潮高新科技投资发展有限公司 一种基于多级缓存的并行化卷积运算方法及***
CN108805267B (zh) * 2018-05-28 2021-09-10 重庆大学 用于卷积神经网络硬件加速的数据处理方法
CN108805267A (zh) * 2018-05-28 2018-11-13 重庆大学 用于卷积神经网络硬件加速的数据处理方法
WO2020001401A1 (zh) * 2018-06-27 2020-01-02 杭州海康威视数字技术股份有限公司 深度神经网络中的网络层运算方法及装置
CN109086879A (zh) * 2018-07-05 2018-12-25 东南大学 一种基于fpga的稠密连接神经网络的实现方法
CN109034025A (zh) * 2018-07-16 2018-12-18 东南大学 一种基于zynq的人脸关键点检测***
CN110826707A (zh) * 2018-08-10 2020-02-21 北京百度网讯科技有限公司 应用于卷积神经网络的加速方法和硬件加速器
CN110826707B (zh) * 2018-08-10 2023-10-31 北京百度网讯科技有限公司 应用于卷积神经网络的加速方法和硬件加速器
CN110956257A (zh) * 2018-09-26 2020-04-03 龙芯中科技术有限公司 神经网络加速器
CN109146067A (zh) * 2018-11-19 2019-01-04 东北大学 一种基于FPGA的Policy卷积神经网络加速器
CN109146067B (zh) * 2018-11-19 2021-11-05 东北大学 一种基于FPGA的Policy卷积神经网络加速器
CN109800867A (zh) * 2018-12-17 2019-05-24 北京理工大学 一种基于fpga片外存储器的数据调用方法
CN110147251A (zh) * 2019-01-28 2019-08-20 腾讯科技(深圳)有限公司 用于计算神经网络模型的架构、芯片及计算方法
CN109934339B (zh) * 2019-03-06 2023-05-16 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器
CN110135554A (zh) * 2019-03-25 2019-08-16 电子科技大学 一种基于fpga的卷积神经网络硬件加速架构
CN110009103A (zh) * 2019-03-26 2019-07-12 深兰科技(上海)有限公司 一种深度学习卷积计算的方法和装置
CN110333827A (zh) * 2019-07-11 2019-10-15 山东浪潮人工智能研究院有限公司 一种数据加载装置和数据加载方法
CN110705701B (zh) * 2019-09-05 2022-03-29 瑞芯微电子股份有限公司 一种高并行度的卷积运算方法和电路
CN110705701A (zh) * 2019-09-05 2020-01-17 福州瑞芯微电子股份有限公司 一种高并行度的卷积运算方法和电路
CN110991632A (zh) * 2019-11-29 2020-04-10 电子科技大学 一种基于fpga的异构神经网络计算加速器设计方法
CN110991634A (zh) * 2019-12-04 2020-04-10 腾讯科技(深圳)有限公司 人工智能加速器、设备、芯片及数据处理方法
CN110991634B (zh) * 2019-12-04 2022-05-10 腾讯科技(深圳)有限公司 人工智能加速器、设备、芯片及数据处理方法
CN111401541A (zh) * 2020-03-10 2020-07-10 湖南国科微电子股份有限公司 一种数据传输控制方法及装置
CN111582453B (zh) * 2020-05-09 2023-10-27 北京百度网讯科技有限公司 生成神经网络模型的方法和装置
CN111582453A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 生成神经网络模型的方法和装置
CN111752879B (zh) * 2020-06-22 2022-02-22 深圳鲲云信息科技有限公司 一种基于卷积神经网络的加速***、方法及存储介质
CN111752879A (zh) * 2020-06-22 2020-10-09 深圳鲲云信息科技有限公司 一种基于卷积神经网络的加速***、方法及存储介质
WO2022041188A1 (zh) * 2020-08-31 2022-03-03 深圳市大疆创新科技有限公司 用于神经网络的加速器、方法、装置及计算机存储介质
CN113673690A (zh) * 2021-07-20 2021-11-19 天津津航计算技术研究所 一种水下噪声分类卷积神经网络加速器
CN113673690B (zh) * 2021-07-20 2024-05-28 天津津航计算技术研究所 一种水下噪声分类卷积神经网络加速器
CN113869494A (zh) * 2021-09-28 2021-12-31 天津大学 基于高层次综合的神经网络卷积fpga嵌入式硬件加速器

Similar Documents

Publication Publication Date Title
CN107392309A (zh) 一种基于fpga的通用定点数神经网络卷积加速器硬件结构
CN104915322B (zh) 一种卷积神经网络硬件加速方法
CN107169563B (zh) 应用于二值权重卷积网络的处理***及方法
CN107657581A (zh) 一种卷积神经网络cnn硬件加速器及加速方法
CN108805272A (zh) 一种基于fpga的通用卷积神经网络加速器
CN104899182B (zh) 一种支持可变分块的矩阵乘加速方法
CN102208005B (zh) 一种2-d卷积器
KR101076245B1 (ko) 상대 주소 발생
CN104238993A (zh) 微处理器集成电路的向量矩阵乘积加速器
CN108537331A (zh) 一种基于异步逻辑的可重构卷积神经网络加速电路
CN110490311A (zh) 基于risc-v架构的卷积神经网络加速装置及其控制方法
CN106683158A (zh) 一种GPU纹理映射非阻塞存储Cache的建模结构
US11934826B2 (en) Vector reductions using shared scratchpad memory
CN107301455A (zh) 用于卷积神经网络的混合立方体存储***及加速计算方法
US10990524B2 (en) Memory with processing in memory architecture and operating method thereof
CN107957976A (zh) 一种计算方法及相关产品
CN108629406A (zh) 用于卷积神经网络的运算装置
CN110647719B (zh) 基于fpga的三维fft计算装置
CN108009126A (zh) 一种计算方法及相关产品
CN101201933B (zh) 绘图处理单元及方法
CN107957975A (zh) 一种计算方法及相关产品
CN109948113A (zh) 一种基于fpga的二维fft加速器
CN105955896A (zh) 一种可重构dbf算法硬件加速器及控制方法
CN109446478A (zh) 一种基于迭代和可重构方式的复协方差矩阵计算***
CN106959936A (zh) 一种fft的硬件加速实现装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124

RJ01 Rejection of invention patent application after publication