CN109598338B - 一种基于fpga的计算优化的卷积神经网络加速器 - Google Patents

一种基于fpga的计算优化的卷积神经网络加速器 Download PDF

Info

Publication number
CN109598338B
CN109598338B CN201811493592.XA CN201811493592A CN109598338B CN 109598338 B CN109598338 B CN 109598338B CN 201811493592 A CN201811493592 A CN 201811493592A CN 109598338 B CN109598338 B CN 109598338B
Authority
CN
China
Prior art keywords
weight
data
calculation
area
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811493592.XA
Other languages
English (en)
Other versions
CN109598338A (zh
Inventor
陆生礼
庞伟
舒程昊
范雪梅
吴成路
邹涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING SAMPLE TECHNOLOGY CO LTD
Southeast University-Wuxi Institute Of Integrated Circuit Technology
Southeast University
Original Assignee
NANJING SAMPLE TECHNOLOGY CO LTD
Southeast University-Wuxi Institute Of Integrated Circuit Technology
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING SAMPLE TECHNOLOGY CO LTD, Southeast University-Wuxi Institute Of Integrated Circuit Technology, Southeast University filed Critical NANJING SAMPLE TECHNOLOGY CO LTD
Priority to CN201811493592.XA priority Critical patent/CN109598338B/zh
Publication of CN109598338A publication Critical patent/CN109598338A/zh
Application granted granted Critical
Publication of CN109598338B publication Critical patent/CN109598338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于FPGA的计算优化的卷积神经网络加速器,包括AXI4总线接口、数据缓存区、预取数据区、结果缓存区、状态控制器及PE阵列;数据缓存区用于缓存通过AXI4总线接口从外部存储器DDR中读取的特征图数据、卷积核数据和索引值;预取数据区用于从特征图子缓存区预取需要并行输入PE阵列的特征图数据;结果缓存区用于缓存每行PE的计算结果;状态控制器用于控制加速器工作状态,实现工作状态间的转换;PE阵列用于读取预取数据区和卷积核子缓存区中的数据进行卷积操作。此种加速器利用参数稀疏性、重复权重数据和激活函数Relu的特性,提前结束冗余计算,减少计算量,并通过减少访存次数来降低能耗。

Description

一种基于FPGA的计算优化的卷积神经网络加速器
技术领域
本发明属于电子信息以及深度学习领域,特别涉及一种基于FPGA(FiledProgrammable Gate Array)的计算优化的卷积神经网络加速器硬件结构。
背景技术
近年来,深度神经网络的使用增长迅速,对世界经济和社会活动产生了重大影响。深度卷积神经网络技术在许多机器学习领域受到广泛关注,包括语音识别、自然语言处理和智能图像处理,特别是图像识别领域,深度卷积神经网络取得了一些显著的成果。在这些领域中,深度卷积神经网络能够实现超越人类的准确性。深度卷积神经网络的卓越性源自于它能够对大量数据进行统计学习之后从原始数据中提取高级特征。
深度卷积神经网络是众所周知的计算密集型网络,而卷积操作占总操作数的90%以上。通过利用卷积计算时的运行信息和算法结构来减少这些大量的计算,即减少推理所需工作成为了新一轮的热点研究方向。
深度卷积神经网络的高精度是以高计算复杂度为代价的。除了计算密集,卷积神经网络需要存储数百万甚至近亿的参数。这种网络的大尺寸对底层加速硬件提出了吞吐量和能量效率的挑战。
目前,已经提出了基于FPGA、GPU(Graphic Processing Unit,图形处理器)和ASIC(Application Specific Integrated Circuit,专用集成电路)设计的各种加速器来提高深度卷积神经网络的性能。基于FPGA的加速器由于其性能好,能量效率高,开发周期短,重构能力强等优点被广泛研究。与通用架构不同,FPGA允许用户定制所设计硬件的功能,以适应各种资源和数据使用模式。
基于前述分析,现有技术中存在卷积计算时冗余计算量过大的问题,本案由此产生。
发明内容
本发明的目的,在于提供一种基于FPGA的计算优化的卷积神经网络加速器,其利用参数稀疏性、重复权重数据和激活函数Relu的特性,提前结束冗余计算,减少计算量,并通过减少访存次数来降低能耗。
为了达成上述目的,本发明的解决方案是:
一种基于FPGA的计算优化的卷积神经网络加速器,包括AXI4总线接口、数据缓存区、预取数据区、结果缓存区、状态控制器及PE阵列;
AXI4总线接口为通用的总线接口,可以将加速器挂载到任意使用AXI4协议的总线设备上工作;
数据缓存区用于缓存通过AXI4总线接口从外部存储器DDR中读取的特征图数据、卷积核数据和索引值;数据缓存区包含M个特征图子缓存区和C个卷积核子缓存区,每列PE对应配置一个卷积核子缓存区,根据实际计算的每层参数决定实际使用的特征图子缓存区个数;其中,特征图子缓冲区个数M根据卷积神经网络当前层卷积核大小、输出特征图大小、卷积窗口偏移确定;
预取数据区用于从特征图子缓存区预取需要并行输入PE阵列的特征图数据;
结果缓存区包含R个结果子缓存区,每行PE对应配置一个结果子缓存区,用于缓存每行PE的计算结果;
状态控制器用于控制加速器工作状态,实现工作状态间的转换;
PE阵列由FPGA实现,用于读取预取数据区和卷积核子缓存区中的数据进行卷积操作,不同列的PE计算得到不同输出特征图,不同行的PE计算得到同一输出特征图的不同行。PE阵列包含R*C个PE单元;每个PE单元包含两种计算优化模式,预先激活模式和权重重复模式。
上述PE单元包含输入缓存区、权重缓存区、输入检索区、权重检索区、PE控制单元、预先激活单元和可配置乘累加单元,输入缓存区和权重缓存区分别用于存放卷积计算所需要的特征图数据和权重数据;输入检索区和权重检索区分别用于存放查找特征图数据和权重数据的索引值;PE控制单元用于控制PE单元工作状态,读取索引区索引值,根据索引值读取缓存区的数据,送入乘累加单元计算,并配置乘累加单元模式和是否启动预先激活单元;预先激活单元用于检测卷积计算的部分和,若部分和小于0,则停止计算输出0;乘累加单元用于进行卷积计算,可配置为正常乘累加计算模式,或利用权重重复的计算优化模式。
上述PE控制单元确定乘累加单元的卷积计算优化模式为预先激活模式或权重重复模式,针对每一层选择不同计算优化模式;确定方法是:采用两位模式标志位确定计算优化模式,高位为0进行正常乘累加计算;高位为1为利用权重重复的计算优化模式;低位为0不进行预先激活;低位为1为预先激活模式。
上述权重检索区包含多个权重子检索区,权重按从正到负、零权重最后的顺序写入权重子缓冲区,对应的输入索引值和权重索引值也按该顺序写入检索区;将权重和索引值排序的操作离线完成;卷积计算时,根据权重索引值,依次读取权重缓冲区的权重。
上述权重索引值用一位权重变换标志位来表示是否更换计算权重,标志位为0,则权重不变,延用上一时钟权重;标志位为1,则权重改变,下一时钟按顺序读取权重子缓冲区中的下一权重。
上述PE单元包含两种计算优化模式,为预先激活模式和权重重复模式,预先激活模式是指实时监控卷积部分和正负,若为负则反馈给PE控制单元终止计算,直接输出Relu结果零,若为正则继续卷积计算;权重重复模式是指对于权重相同的卷积操作,先将对应权重相同的特征图数据相加,再和权重相乘,减少乘法次数和对权重数据的访存次数。
上述权重重复模式中,在权重变换标志位为0时的输入特征图先做累加操作,并将累加结果保存在寄存器中。在权重变换标志位为1时,做完累加操作后,将累加的部分和送入乘法单元和权值相乘,并把结果存入寄存器中。
上述状态控制器由7个状态构成,分别为:等待、写特征图、写输入索引、写卷积核、写权重索引、卷积计算、计算结果发送,每个状态将相应的控制信号发送到相应的子模块,完成相应功能。
上述AXI4总线接口数据位宽大于单个权重或特征图数据位宽,故将多个数据拼接成一个多位数据发送,提高数据传输速度。
采用上述方案后,本发明利用卷积计算时的运行信息和算法结构,减少了冗余无用的计算和参数数据的读取,并利用FPGA硬件平台对卷积神经网络进行加速,可以提高DCNN的实时性,实现了较高的计算性能,并且降低了能耗。
附图说明
图1是本发明的结构示意图;
图2是本发明PE结构示意图;
图3是输入索引和权值索引工作示意图;
图4是预先激活单元工作示意图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
如图1所示,为本发明设计的卷积神经网络加速器硬件结构,以PE阵列大小以16*16,卷积核大小3*3,卷积核步长1为例,其工作方式如下:
PC通过PCI-E接口将数据分区缓存在外部存储器DDR中,数据缓存区通过AXI4总线接口读取特征图数据按行缓存在3个特征图子缓存区中,输入索引值以相同方式缓存在特征图子缓存区。通过AXI4总线接口读取的权重数据依次缓存在16个卷积核子缓存区,权重索引值以相同方式缓存在卷积核子缓存区。预取缓存区按行顺序依次读取3个特征图子缓存区数据,共读取3*18个16位特征图数据,每个时钟周期并行输出16个位特征图数据,并行输入3个特征图数据。预取缓存区的输出数据送入PE阵列每行第一PE,并依次传递给每行相邻PE。输入索引值以相同方式送入PE阵列。输入特征图数据缓存在每个PE的输入子缓存区中,输入索引值缓存在输入检索区中。权重数据和权重索引值通过16个卷积核子缓冲区,并行输入PE阵列每列第一个PE中,并依次传递个每列相邻PE。最终缓存在PE中的权重子缓存区和权重检索区中。PE单元根据配置的计算优化模式,根据索引值,从输入子缓存区和权重子缓存区中读取数据,进行卷积计算,并将累加结果并行送入16个结果子缓存区,每行PE的计算结果存放在同一个结果子缓存区中。
结合图2所示,PE单元可以通过两位模式标志位S1S0配置两种计算优化模式,预先激活模式和权重重复模式。S1S0配置为01时为预先激活模式,启动预先激活单元,对乘累加操作的部分和结果进行监测,如果部分和值为负,则提前输出Relu结果0并停止当前卷积窗计算;S1S0配置为10时为权重重复模式,启动输入累加单元,对权重相同的乘法操作,先做加法,将输入数据先进行累加存储在寄存器中,直到权重发生改变,将累加结果送入乘累加单元,进行乘累加操作。当权重为0时,PE单元将关闭计算单元,直接输出部分和结果。
参照图3,PE控制单元通过输入索引值,依次从输入子缓存区取特征图数据送入计算单元。权值索引值用一位权重变换标志位来表示,若权重索引值为0则权重不变,若权重索引值为1则按顺序读取下一权重。权重和索引值按权值从正到负顺序排列,零权重放在最后,该排序工作离线完成。如图3所示,前四个输入数据对应着同一权值x,中间两个输入数据对应着同一权值y,最后三个输入数据对应着同一权值z。
参照图4,预先激活单元启用后,将部分和值和零值进行比较,若部分和值大于零则继续计算输出最终结果;若部分和值小于零,则将终止计算信号发送给PE控制单元,PE控制单元关闭计算,直接输出Relu后的结果零。
将卷积运算展开为向量乘累加操作使得网络结构和硬件架构更加匹配,根据运算信息和算法结构简化计算,提高了计算效率并降低了能耗。本实施例具体状态转换过程如下:
初始化后加速器进入等待状态,状态控制器等待AXI4总线接口发送的状态信号state,当state为00001时,进入写卷积核状态;当state为00010时,进入写权重索引状态;当state为00100时,进入写特征图状态;当state为01000时,进入写输入索引状态;当数据接收完毕后,等待state为10000,进入卷积计算状态。当计算结束后,自动跳入发送计算结果状态,并在发送完成后跳回等待状态。
写特征图:若进入该状态,等待AXI4总线接口数据有效信号拉高,同时依次使能3个特征图子缓存区,第一个子缓存区存储特征图第一行数据;第二个子缓存区存储特征图第二行数据;第三个子缓存区存储特征图第三行数据;特征图第四行数据跳回存储在第一个子缓存区中…按此顺序存储完特征图数据后,第一个时钟周期取三个子缓存区存储的特征图第一、二、三行的第一个数据送入预取缓存区;第二个时钟周期取三个子缓存区存储的特征图第四、五、六三行的第一个数据送入预取缓存区…在特征图行遍历后,按此顺序依次取第二、三…个数据送入预取缓存区。预取缓存区共存储3*18个特征图数据,存储完成后,每个时钟周期并行输出16个特征图数据送入PE阵列每行第一个PE中,并依次传递给每行相邻PE,最终存储在PE的输入子缓存区中。
写输入索引:若进入该状态,按特征图数据存储模式,最终将数据存储在PE的输入检索区中。
写卷积核:若进入该状态,等待AXI4总线接口数据有效信号拉高,同时依次使能16个卷积核子缓存区,第一个卷积核子缓存区存储第一个输出通道对应的卷积核值;第二个卷积核子缓存区存储第二个输出通道对应的卷积核值…16个卷积核子缓存区存储完毕后,每个子缓存区每个时钟输出一个数据,16个权重数据并行输入PE阵列每列第一个PE,并依次传递个同列相邻PE,最终缓存在PE单元中的权重缓冲区中。
写权重索引:若进入该状态,按卷积核数据存储模式,最终将数据存储在PE的权重检索区中。
卷积计算:若进入该状态,PE控制单元根据模式标志位S1S0配置PE单元的计算优化模式,并根据权重索引值和输入索引值,从权重子缓冲区和输入子缓冲区中读取数据送入乘累加单元进行计算,当进行了3*3*输入通道数次乘累加计算后,标志着所有数据都已计算完成,下个时钟将跳入发送计算结果状态。
发送计算结果:若进入该状态,计算结果从16个计算结果缓存区中依次读出。将每个计算结果缓存区中的第一个输出通道数据取出,每四个拼凑成一个64位输出数据,通过AXI4总线接口发送到外部存储器DDR。依次将16个输出通道数据都发送到外部存储器DDR中,加速器跳回等待状态。
通过状态控制器可以对参数进行修改,支持修改运行时图像大小,卷积核大小,步长大小,输出特征图大小,输出通道数多少。利用运行状态和算法结构,跳过冗余计算,因此减少了不必要的计算和访存,提高了卷积神经网络加速器效率,并降低了能耗。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种基于FPGA的计算优化的卷积神经网络加速器,其特征在于:包括AXI4总线接口、数据缓存区、预取数据区、结果缓存区、状态控制器及PE阵列;
所述数据缓存区用于缓存通过AXI4总线接口从外部存储器DDR中读取的特征图数据、卷积核数据和索引值;数据缓存区包含M个特征图子缓存区和C个卷积核子缓存区;
预取数据区用于从特征图子缓存区预取需要并行输入PE阵列的特征图数据;
PE阵列由FPGA实现,包含R*C个PE单元,每列PE单元对应配置一个卷积核子缓存区,根据实际计算的每层参数决定实际使用的特征图子缓存区个数;所述PE阵列用于读取预取数据区和卷积核子缓存区中的数据进行卷积操作,不同列的PE单元计算得到不同输出特征图,不同行的PE计算得到同一输出特征图的不同行;
所述PE单元包含输入缓存区、权重缓存区、输入检索区、权重检索区、PE控制单元、预先激活单元和乘累加单元,其中,输入缓存区和权重缓存区分别用于存放卷积计算所需要的特征图数据和权重数据,输入检索区和权重检索区分别用于存放查找特征图数据和权重数据的索引值;PE控制单元用于控制PE单元工作状态,读取索引区索引值,根据索引值读取缓存区的数据,送入乘累加单元计算,并配置乘累加单元模式和是否启动预先激活单元;预先激活单元用于检测卷积计算的部分和,若部分和小于0,则停止计算输出0;乘累加单元用于进行卷积计算,能够配置为正常乘累加计算模式或利用权重重复的计算优化模式;
所述PE控制单元确定乘累加单元的卷积计算优化模式为预先激活模式或权重重复模式,针对每一层选择不同计算优化模式;确定方法是:采用两位模式标志位确定计算优化模式,高位为0进行正常乘累加计算;高位为1为利用权重重复的计算优化模式;低位为0不进行预先激活;低位为1为预先激活模式;
所述PE单元包含两种计算优化模式,为预先激活模式和权重重复模式,预先激活模式是指实时监控卷积部分和正负,若为负则终止计算,直接输出Relu结果零,若为正则继续卷积计算;权重重复模式是指对于权重相同的卷积操作,先将对应权重相同的特征图数据相加,再和权重相乘,减少乘法次数和对权重数据的访存次数;
结果缓存区包含R个结果子缓存区,每行PE单元对应配置一个结果子缓存区,用于缓存每行PE单元的计算结果;
状态控制器用于控制加速器工作状态,实现工作状态间的转换。
2.如权利要求1所述的一种基于FPGA的计算优化的卷积神经网络加速器,其特征在于:所述权重检索区包含多个权重子检索区,权重按从正到负、零权重最后的顺序写入权重子缓冲区,对应的输入索引值和权重索引值也按该顺序写入检索区;将权重和索引值排序的操作离线完成;卷积计算时,根据权重索引值,依次读取权重缓冲区的权重。
3.如权利要求2所述的一种基于FPGA的计算优化的卷积神经网络加速器,其特征在于:所述权重索引值用一位权重变换标志位来表示是否更换计算权重,标志位为0,则权重不变,延用上一时钟权重;标志位为1,则权重改变,下一时钟按顺序读取权重子缓冲区中的下一权重。
4.如权利要求3所述的一种基于FPGA的计算优化的卷积神经网络加速器,其特征在于:所述权重重复模式中,在权重变换标志位为0时的输入特征图先做累加操作,并将累加结果保存在寄存器中;在权重变换标志位为1时,做完累加操作后,将累加的部分和送入乘法单元和权值相乘,并把结果存入寄存器中。
5.如权利要求1所述的一种基于FPGA的计算优化的卷积神经网络加速器,其特征在于:所述状态控制器由7个状态构成,分别为:等待、写特征图、写输入索引、写卷积核、写权重索引、卷积计算、计算结果发送,每个状态将相应的控制信号发送到相应的子模块,完成相应功能。
6.如权利要求1所述的一种基于FPGA的计算优化的卷积神经网络加速器,其特征在于:所述AXI4总线接口将多个数据拼接成一个多位数据发送。
CN201811493592.XA 2018-12-07 2018-12-07 一种基于fpga的计算优化的卷积神经网络加速器 Active CN109598338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811493592.XA CN109598338B (zh) 2018-12-07 2018-12-07 一种基于fpga的计算优化的卷积神经网络加速器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811493592.XA CN109598338B (zh) 2018-12-07 2018-12-07 一种基于fpga的计算优化的卷积神经网络加速器

Publications (2)

Publication Number Publication Date
CN109598338A CN109598338A (zh) 2019-04-09
CN109598338B true CN109598338B (zh) 2023-05-19

Family

ID=65961420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811493592.XA Active CN109598338B (zh) 2018-12-07 2018-12-07 一种基于fpga的计算优化的卷积神经网络加速器

Country Status (1)

Country Link
CN (1) CN109598338B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097174B (zh) * 2019-04-22 2021-04-20 西安交通大学 基于fpga和行输出优先的卷积神经网络实现方法、***及装置
CN110222835A (zh) * 2019-05-13 2019-09-10 西安交通大学 一种基于零值检测的卷积神经网络硬件***及运算方法
CN110163295A (zh) * 2019-05-29 2019-08-23 四川智盈科技有限公司 一种基于提前终止的图像识别推理加速方法
CN110059808B (zh) * 2019-06-24 2019-10-18 深兰人工智能芯片研究院(江苏)有限公司 一种卷积神经网络的数据读取方法及数据读取装置
CN110390383B (zh) * 2019-06-25 2021-04-06 东南大学 一种基于幂指数量化的深度神经网络硬件加速器
CN110390384B (zh) * 2019-06-25 2021-07-06 东南大学 一种可配置的通用卷积神经网络加速器
CN110399883A (zh) * 2019-06-28 2019-11-01 苏州浪潮智能科技有限公司 图像特征提取方法、装置、设备及计算机可读存储介质
CN110378468B (zh) * 2019-07-08 2020-11-20 浙江大学 一种基于结构化剪枝和低比特量化的神经网络加速器
CN110414677B (zh) * 2019-07-11 2021-09-03 东南大学 一种适用于全连接二值化神经网络的存内计算电路
CN112166454A (zh) * 2019-08-21 2021-01-01 深圳市大疆创新科技有限公司 神经网络的特征图装载方法及设备
CN110673786B (zh) * 2019-09-03 2020-11-10 浪潮电子信息产业股份有限公司 数据缓存的方法和装置
CN110705687B (zh) * 2019-09-05 2020-11-03 北京三快在线科技有限公司 卷积神经网络硬件计算装置及方法
CN110738312A (zh) * 2019-10-15 2020-01-31 百度在线网络技术(北京)有限公司 用于数据处理的方法、***、设备和计算机可读存储介质
US11249651B2 (en) * 2019-10-29 2022-02-15 Samsung Electronics Co., Ltd. System and method for hierarchical sort acceleration near storage
CN110910434B (zh) * 2019-11-05 2023-05-12 东南大学 基于fpga高能效实现深度学习视差估计算法的方法
CN111062472B (zh) * 2019-12-11 2023-05-12 浙江大学 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法
CN111178519B (zh) * 2019-12-27 2022-08-02 华中科技大学 卷积神经网络加速引擎、卷积神经网络加速***及方法
CN113095471B (zh) * 2020-01-09 2024-05-07 北京君正集成电路股份有限公司 一种提高检测模型效率的方法
CN111414994B (zh) * 2020-03-03 2022-07-12 哈尔滨工业大学 一种基于FPGA的Yolov3网络计算加速***及其加速方法
CN111416743B (zh) * 2020-03-19 2021-09-03 华中科技大学 一种卷积网络加速器、配置方法及计算机可读存储介质
CN111340198B (zh) * 2020-03-26 2023-05-05 上海大学 基于fpga的数据高度复用的神经网络加速器
CN111898743A (zh) * 2020-06-02 2020-11-06 深圳市九天睿芯科技有限公司 一种cnn加速方法及加速器
CN111898733B (zh) * 2020-07-02 2022-10-25 西安交通大学 一种深度可分离卷积神经网络加速器架构
CN111984548B (zh) * 2020-07-22 2024-04-02 深圳云天励飞技术股份有限公司 神经网络计算装置
CN112149814A (zh) * 2020-09-23 2020-12-29 哈尔滨理工大学 一种基于fpga的卷积神经网络加速***
CN112187954A (zh) * 2020-10-15 2021-01-05 中国电子科技集团公司第五十四研究所 一种离线文件在测控数据链传输中的流量控制方法
CN112580793B (zh) * 2020-12-24 2022-08-12 清华大学 基于时间域存内计算的神经网络加速器及加速方法
CN114692847B (zh) * 2020-12-25 2024-01-09 中科寒武纪科技股份有限公司 数据处理电路、数据处理方法及相关产品
CN112668708B (zh) * 2020-12-28 2022-10-14 中国电子科技集团公司第五十二研究所 一种提高数据利用率的卷积运算装置
CN113094118B (zh) * 2021-04-26 2023-05-30 深圳思谋信息科技有限公司 数据处理***、方法、装置、计算机设备和存储介质
CN113780529B (zh) * 2021-09-08 2023-09-12 北京航空航天大学杭州创新研究院 一种面向fpga的稀疏卷积神经网络多级存储计算***
CN113869494A (zh) * 2021-09-28 2021-12-31 天津大学 基于高层次综合的神经网络卷积fpga嵌入式硬件加速器
CN114780910B (zh) * 2022-06-16 2022-09-06 千芯半导体科技(北京)有限公司 用于稀疏化卷积计算的硬件***和计算方法
CN115311536B (zh) * 2022-10-11 2023-01-24 绍兴埃瓦科技有限公司 图像处理中稀疏卷积处理方法及装置
CN116187408B (zh) * 2023-04-23 2023-07-21 成都甄识科技有限公司 稀疏加速单元、计算方法及稀疏神经网络硬件加速***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076915A1 (en) * 2008-09-25 2010-03-25 Microsoft Corporation Field-Programmable Gate Array Based Accelerator System
US20180032859A1 (en) * 2016-07-27 2018-02-01 Samsung Electronics Co., Ltd. Accelerator in convolutional neural network and method for operating the same
CN108241890A (zh) * 2018-01-29 2018-07-03 清华大学 一种可重构神经网络加速方法及架构
CN108537334A (zh) * 2018-04-26 2018-09-14 济南浪潮高新科技投资发展有限公司 一种针对cnn卷积层运算的加速阵列设计方法
CN108665059A (zh) * 2018-05-22 2018-10-16 中国科学技术大学苏州研究院 基于现场可编程门阵列的卷积神经网络加速***
CN108805272A (zh) * 2018-05-03 2018-11-13 东南大学 一种基于fpga的通用卷积神经网络加速器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076915A1 (en) * 2008-09-25 2010-03-25 Microsoft Corporation Field-Programmable Gate Array Based Accelerator System
US20180032859A1 (en) * 2016-07-27 2018-02-01 Samsung Electronics Co., Ltd. Accelerator in convolutional neural network and method for operating the same
CN108241890A (zh) * 2018-01-29 2018-07-03 清华大学 一种可重构神经网络加速方法及架构
CN108537334A (zh) * 2018-04-26 2018-09-14 济南浪潮高新科技投资发展有限公司 一种针对cnn卷积层运算的加速阵列设计方法
CN108805272A (zh) * 2018-05-03 2018-11-13 东南大学 一种基于fpga的通用卷积神经网络加速器
CN108665059A (zh) * 2018-05-22 2018-10-16 中国科学技术大学苏州研究院 基于现场可编程门阵列的卷积神经网络加速***

Also Published As

Publication number Publication date
CN109598338A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109598338B (zh) 一种基于fpga的计算优化的卷积神经网络加速器
CN110390385B (zh) 一种基于bnrp的可配置并行通用卷积神经网络加速器
US11574659B2 (en) Parallel access to volatile memory by a processing device for machine learning
CN104915322B (zh) 一种卷积神经网络硬件加速方法
WO2020258528A1 (zh) 一种可配置的通用卷积神经网络加速器
CN108805272A (zh) 一种基于fpga的通用卷积神经网络加速器
CN108537331A (zh) 一种基于异步逻辑的可重构卷积神经网络加速电路
CN111105023B (zh) 数据流重构方法及可重构数据流处理器
CN108427990A (zh) 神经网络计算***和方法
CN113743599B (zh) 一种卷积神经网络的运算装置及服务器
CN112487750A (zh) 一种基于存内计算的卷积加速计算***及方法
Liu et al. FPGA-NHAP: A general FPGA-based neuromorphic hardware acceleration platform with high speed and low power
CN103927270A (zh) 一种面向多个粗粒度动态可重构阵列的共享数据缓存装置及控制方法
EP3859535A1 (en) Streaming access memory device, system and method
CN111488051A (zh) 基于cpu和fpga协同计算的云端深度神经网络优化方法
Song et al. BRAHMS: Beyond conventional RRAM-based neural network accelerators using hybrid analog memory system
Kang et al. A framework for accelerating transformer-based language model on ReRAM-based architecture
US11526305B2 (en) Memory for an artificial neural network accelerator
Tao et al. Hima: A fast and scalable history-based memory access engine for differentiable neural computer
US11436486B2 (en) Neural network internal data fast access memory buffer
CN117271953A (zh) 一种用于优化快速傅里叶变换的存内计算加速电路及方法
CN112183744A (zh) 一种神经网络剪枝方法及装置
CN103577160A (zh) 一种面向大数据的特征提取并行处理方法
US20220164127A1 (en) Memory for an Artificial Neural Network Accelerator
CN115222028A (zh) 基于fpga的一维cnn-lstm加速平台及实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant