CN111898733A - 一种深度可分离卷积神经网络加速器架构 - Google Patents

一种深度可分离卷积神经网络加速器架构 Download PDF

Info

Publication number
CN111898733A
CN111898733A CN202010628683.0A CN202010628683A CN111898733A CN 111898733 A CN111898733 A CN 111898733A CN 202010628683 A CN202010628683 A CN 202010628683A CN 111898733 A CN111898733 A CN 111898733A
Authority
CN
China
Prior art keywords
calculation
computation
data
convolution
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010628683.0A
Other languages
English (en)
Other versions
CN111898733B (zh
Inventor
孙宏滨
任杰
李宝婷
张旭翀
汪航
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010628683.0A priority Critical patent/CN111898733B/zh
Publication of CN111898733A publication Critical patent/CN111898733A/zh
Application granted granted Critical
Publication of CN111898733B publication Critical patent/CN111898733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种深度可分离卷积神经网络加速器架构,包括:外部存储器,用于存储输入的待处理图片的像素数据和深度可分离卷积神经网络的权重数据;特征图缓存,用于暂存从所述外部存储器读取的待处理图片像素数据以及神经网络计算的特征图结果;权重缓存,用于暂存从所述外部存储器读取的深度可分离卷积神经网络的权重数据;计算引擎模块,用于对从所述特征图缓存与权重缓存分别读取特征图数据与权重数据进行卷积计算;控制配置模块,用于配置所述计算引擎模块的计算模式以及控制所述特征图缓存与权重缓存的读写。本发明优化了深度可分离卷积的计算顺序,在提高并行性的同时减少了访存成本。

Description

一种深度可分离卷积神经网络加速器架构
技术领域
本发明属于卷积神经网络的加速计算领域,具体涉及一种深度可分离卷积神经网络加速器架构。
背景技术
近些年来,随着人工智能的飞速发展,深度学习正在成为机器学习领域中越来越重要的一部分。与传统算法不同,深度学习可以完成那些需要高度抽象的任务,比如计算机视觉与自然语言处理等。虽然神经网络在性能上表现出色,但是随着应用场景不断复杂化,网络的规模也随之变得越来越大,网络运算量骤然提升,因此出现了深度可分离卷积神经网络,其在基本不损失精度的情况下,大幅度降低了运算量,一定程度加快了计算速度。
目前在现有计算平台上实现深度可分离卷积神经网络存在许多瓶颈。深度可分离卷积神经网络将一个卷积层分解为一个深度卷积和一个1*1的点卷积,这样虽然减少了计算量,但在现有卷积神经网络加速器上执行计算时并不能获得令人满意的性能,原因在于现有的神经网络加速器架构往往采用统一的计算引擎,分时部署不同卷积层的计算,然而深度可分离卷积将一层标准卷积拆分为了两层,增加了计算层的数量,增加了片上与片外的数据传输,造成了大量的能量消耗,因此,针对深度可分离卷积神经网络设计一种高效的硬件架构具有重要意义。
发明内容
为了解决轻量化神经网络中深度可分离卷积所带来的高访存成本,以及计算架构不够灵活,无法将深度可分离卷积与标准卷积统一起来,本发明提供了一种深度可分离卷积神经网络加速器架构,优化了深度可分离卷积的计算顺序,在提高并行性的同时减少了访存成本。
本发明解决其技术问题所采用的具体技术方案是:
一种深度可分离卷积神经网络加速器架构,包括:
外部存储器,用于存储输入的待处理图片的像素数据和深度可分离卷积神经网络的权重数据;
特征图缓存,用于暂存从所述外部存储器读取的待处理图片像素数据以及神经网络计算的特征图结果;
权重缓存,用于暂存从所述外部存储器读取的深度可分离卷积神经网络的权重数据;
计算引擎模块,用于对从所述特征图缓存与权重缓存分别读取特征图数据与权重数据进行卷积计算;
控制配置模块,用于配置所述计算引擎模块的计算模式以及控制所述特征图缓存与权重缓存的读写。
本发明进一步的改进在于,所述特征图缓存具有完全相同的两个缓存a与b,用于存储初始图片像素数据以及中间层的计算结果,每一层计算由其中一个缓存a读入特征图的像素数据,将结果存入缓存b,下一层由缓存b读入特征图像素数据,再将结果存入缓存a,二者交替读写。
本发明进一步的改进在于,所述计算引擎模块包括动态可重配置计算单元阵列,其计算单元进行乘加计算,用于实现卷积神经网络的卷积,加法树用于实现对不同输入通道的计算结果累加,BN模块用于批标准化计算,Relu计算模块用于实现激活函数,池化模块用于实现全局平均池化,其工作模式由控制配置模块配置,部分和缓存用于存储一维卷积的部分和。
本发明进一步的改进在于,所述计算引擎模块将二维卷积拆分为多个行方向上的一维卷积,并将行方向上一维卷积的计算结果存入到计算引擎模块的部分和缓存中。
本发明进一步的改进在于,所述计算引擎模块中每个计算单元都配有一个本地权重缓存,计算单元进行计算时从本地的缓存中读入权重数据。
本发明进一步的改进在于,所述计算引擎模块的计算单元阵列采用动态可重配置架构,根据计算层的输入通道与输出通道数来配置计算单元阵列。
本发明进一步的改进在于,所述计算引擎模块采用两种基于行的计算顺序,当特征图数据相较权重数据多时,因此先将所有输出通道特征图的同一行计算完毕,再切换下一行,采用如下公式表示:
Figure BDA0002567624430000031
其中N为输出通道数,M为输入通道数,n为当前输出通道数,m为当前输入通道数,fh为输入特征图行数,fw为输入特征图列数,kh为卷积核行数,h为二维数据的行,kw为卷积核列数,w为二维数据的列,in为输入特征图,filter为权重,out为输出特征图;
当权重数据相较特征图数据多时,先按行计算完一组输出通道的特征图再切换下一组通道的特征图,计算顺序采用如下公式表示:
Figure BDA0002567624430000032
本发明进一步的改进在于,所述控制配置模块配置每个计算模块的计算模式,根据不同参数实现标准卷积层,深度可分离卷积层,全连接层多种计算模式。
与现有技术相比,本发明提供了一种深度可分离卷积神经网络加速器架构,具有以下有益的技术效果:
本发明提供的一种深度可分离卷积神经网络加速器架构,通过可重配置的计算单元动态分配执行深度卷积与点卷积计算的硬件资源,尽可能让深度可分离卷积神经网络的深度卷积与点卷积的计算速度匹配,提高了深度卷积与点卷积的并行度,从而提高了硬件资源利用率,缩短了计算周期。本发明通过采用基于图像行的计算顺序,将二维卷积拆分为多个一维卷积,节省了片上存储,同时根据不同计算层特征图数据与权重数据的大小采用两种计算顺序,在特征图数据较大时,存储一行中间结果和全部权重,在权重数据较大时,存储全部中间结果和部分权重,从而进一步减少片上存储。
附图说明
图1为本发明的***架构;
图2为卷积计算单元结构示意图;
图3为计算DWC与PWC的示意图;其中图3(a)为标准卷积层计算,图3(b)为深度可分离卷积情况1,图3(c)为深度可分离卷积情况2,图3(d)为深度可分离卷积情况3,图3(e)为全连接层;
图4为计算单元阵列动态配置示意图;其中图4(a)为计算引擎DWC部分,图4(b)为计算引擎PWC部分;
图5为两种基于行的计算顺序示意图;其中图5(a)为基于行的计算顺序1,图5(b)为基于行的计算顺序2。
具体实施方式
下面结合附图和实施例对本发明做进一步详细的说明。
如图1所示,本发明提供的一种深度可分离卷积神经网络加速器架构,包括外部存储器,特征图缓存,权重缓存,控制配置模块,以及计算引擎模块。数据从外部存储器通过存储器接口读入到特征图缓存中,同时权重也从外部存储器读入到权重缓存,计算引擎在控制模块的配置下分别从特征图与权重缓存中读入需要计算的数据,将这些数据分配到计算单元阵列中去依次执行乘加运算,批标准化运算,激活函数计算,然后将中间层结果存入到特征图缓存。
图2所示为本实施例所述的卷积计算模块结构的示意图,主要由一个乘加计算阵列与一行加法树组成,在进行卷积计算时不同输入通道的特征图数据在计算单元阵列的不同行进行并行计算,计算单元阵列不同列的输出在经过加法树对该列计算单元输出结果求和后分别输出不同输出通道的特征图激活值。乘加计算阵列由乘加计算单元构成,每个计算单元包括权重缓存,乘法器,加法器,寄存器计数器,多路选择器。每个计算单元将特征图的数据与权重相乘后,根据条件与偏置或者部分和相加后,将结果送入多路选择器,同时计数器计数,选择器根据计数器的状态来选择将乘加的结果存入寄存器或输出。加法树则由一组以流水线方式工作的加法器构成,共分为5级,可在5个周期内计算32个加数的和。
下面对整个流程的各个步骤做详细说明:
1、计算单元阵列配置
DWC与PWC需要计算速度匹配,以此来提高推理速度,但是由于DWC计算层的特征图大小与通道数存在很大的差异,在一层上具有较高效率的计算单元配置在另一层上可能会表现低效,在对DWC与PWC之间计算时间覆盖的情况进行分析后,本发明根据输入通道与输出通道分情况来配置计算单元阵列,对速度与片上存储进行折中考虑,提高了***的效率。因此在每一层卷积计算之前,首先由动态配置控制器根据当前计算层的相关特征对计算单元阵列进行配置以高效完成当前层的计算任务。如图3所示,计算单元(PE)可配置为深度卷积模式PE、点卷积模式PE和全连接模式PE,计算单元阵列根据内部计算单元的不同配置模式分别可以执行标准卷积层(STC)、深度可分离卷积层(DSC)和全连接层(FC)三种卷积层,不同计算模式对应于计算单元的不同配置。
(1)标准卷积层:
在计算标准卷积层时,以MobilenetV1为例,其标准卷积层的特征图固定有3个输入通道,32个输出通道,所以将计算单元阵列每4行分为一组,共8组,每组使用3行分别计算3个不同的输入通道,使用32列分别计算32个不同的输出通道,同时输入激活值还可以在8组计算单元上并行,如图3(a)所示。
(2)全连接层
计算单元阵列中所有的计算单元都配置为全连接模式,以达到最大的资源利用率,如图3(e)所示。
(3)深度可分离卷积层
在计算深度可分离卷积层时,将计算单元阵列按列分为两部分,将一些列配置为深度卷积模式,用于执行深度卷积的计算,计算单元阵列中其余列配置为点卷积模式,用于执行点卷积的计算,两部分可以在一定程度上并行。在对DWC与PWC之间计算时间覆盖的情况进行分析后,本发明根据输入通道与输出通道分四种情况灵活的配置计算单元的计算模式,提高计算单元的利用率,加快推理速度。假设输入通道为M,输出通道为N,卷积核大小为K2,输入特征图大小为F2,输入并行度Tm(计算单元行数),输出并行度Tn(配置为点卷积的计算单元列数),假设计算单元列数为K2+Tn,具体方法如下:
(1)当M<TmK2,N<TnK2时,计算单元的前K2列配置为深度卷积模式,其余列配置为点卷积模式,如图3(b)。
(2)当M>TmK2,N<TnK2时,此时仍要分两种情况,当F>K时,计算单元的前K2列配置为深度卷积模式,其余列配置为点卷积模式,如图3(b);当F<K时,计算单元的前M/Tm列配置为深度卷积模式,其余列配置为点卷积模式,如图3(c)。
(3)当M<TmK2,N>TnK2时,计算单元的前1列配置为深度卷积模式,其余列配置为点卷积模式,如图3(d)。
(4)当M>TmK2,N>TnK2时,计算单元的前M/Tm列配置为深度卷积模式,其余列配置为点卷积模式,如图3(c)。
2、卷积层计算
卷积层的计算可以表示为当前输出通道数n、当前输入通道数m、输入特征图行数fh、输入特征图列数fw、卷积核行数kh和卷积核列数kw六个变量的嵌套循环,其嵌套顺序对架构的面积和能效有重大影响。本发明根据计算层的特点分别采用两种基于图像行的计算顺序,在深度卷积与浅层点卷积计算时,特征图数据较多而权重数据较少,因此先将所有输出特征图的同一行计算完毕,再切换下一行,计算顺序可用如下公式表示:
Figure BDA0002567624430000071
其中N为输出通道数,M为输入通道数,h为二维数据的行,w为二维数据的列,out为输出特征图,in为输入特征图,filter为卷积核。
在深层点卷积计算时特征图数据较少而权重数据较多,因此先计算完一组输出通道的特征图再切换下一组通道,计算顺序可用如下公式表示:
Figure BDA0002567624430000072
其中out为输出特征图,in为输入特征图,filter为卷积核,在点卷积中,Kh与Kw都为1。
由于在深度可分离卷积计算模式中将计算单元阵列分成两部分,分别配置为点卷积模式和深度卷积模式,基于此结构,深度卷积与点卷积就有了并行计算的可能性,但由于其数据存在依赖关系,无法直接开始并行计算,需要一个启动过程来预先准备点卷积计算需要的数据。下面对深度可分离卷积基于行的计算过程做详细说明:
(1)深度卷积
如图4(a)所示,将二维卷积拆分为多个一维卷积来进行计算。其顺序如图5所示,首先将卷积核的一行与特征图对应位置的数据进行乘加运算得到部分和,然后卷积核在输入特征图上滑动,得到一行的部分和,如果当前层的输入通道大于计算单元行数,则重复上述过程直至所有输入通道计算完毕,进行第二行计算时与第一行类似,但是需要在像素数据与卷积核乘加计算后加上第一行对应的部分和得到第二行的部分和。第三行同理,在像素数据与卷积核乘加计算后加上第二行对应的部分和即可得到第一行深度卷积的输出特征图。当深度卷积产生输出结果后,点卷积便可以开始计算,后续深度卷积计算过程与上述流程类似,直至计算完所有输入行。
(2)点卷积
如图4(b)所示,深度卷积的计算结果广播到同行所有点卷积计算单元,与卷积核做乘加计算,再将计算结果送入加法树模块,加法树对列方向上的计算结果进行求和,即可得到计算单元行数数目的输入通道的和,当所有输入通道求和完毕后,即可得到点卷积的最终结果,每列结果对应于不同输出通道。在浅层时,计算顺序与深度卷积相同,如图5(a)所示,首先将卷积核在点卷积的输入(即深度卷积的输出)上滑动,直到一行计算完毕,如果当前层的输入通道大于计算单元行数,则切换下一组输入通道直至所有输入通道计算完毕,此时切换下一行直至所有行计算完毕,如果输出通道未计算完毕则重复上述过程直至完成当前层计算。在深层时,PWC的计算顺序发生改变,如图5(b)所示首先将卷积核在点卷积的输入(即深度卷积的输出)上滑动,直到一行计算完毕,此时切换下一行计算直至当前输入通道的特征图计算完毕后切换下一组输入通道,直至所有输入通道计算完毕,如果输出通道未计算完毕则重复上述过程直至完成当前层计算。图中灰色标注的权重数据需要暂时存储在片上,而白色标注的则不需要。
所述实施例在计算MobilenetV1时,可以减少68.4%的片上存储开销,同时计算周期数减少29.7%。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (8)

1.一种深度可分离卷积神经网络加速器架构,其特征在于,包括:
外部存储器,用于存储输入的待处理图片的像素数据和深度可分离卷积神经网络的权重数据;
特征图缓存,用于暂存从所述外部存储器读取的待处理图片像素数据以及神经网络计算的特征图结果;
权重缓存,用于暂存从所述外部存储器读取的深度可分离卷积神经网络的权重数据;
计算引擎模块,用于对从所述特征图缓存与权重缓存分别读取特征图数据与权重数据进行卷积计算;
控制配置模块,用于配置所述计算引擎模块的计算模式以及控制所述特征图缓存与权重缓存的读写。
2.根据权利要求1所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述特征图缓存具有完全相同的两个缓存a与b,用于存储初始图片像素数据以及中间层的计算结果,每一层计算由其中一个缓存a读入特征图的像素数据,将结果存入缓存b,下一层由缓存b读入特征图像素数据,再将结果存入缓存a,二者交替读写。
3.根据权利要求1所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述计算引擎模块包括动态可重配置计算单元阵列,其计算单元进行乘加计算,用于实现卷积神经网络的卷积,加法树用于实现对不同输入通道的计算结果累加,BN模块用于批标准化计算,Relu计算模块用于实现激活函数,池化模块用于实现全局平均池化,其工作模式由控制配置模块配置,部分和缓存用于存储一维卷积的部分和。
4.根据权利要求3所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述计算引擎模块将二维卷积拆分为多个行方向上的一维卷积,并将行方向上一维卷积的计算结果存入到计算引擎模块的部分和缓存中。
5.根据权利要求3所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述计算引擎模块中每个计算单元都配有一个本地权重缓存,计算单元进行计算时从本地的缓存中读入权重数据。
6.根据权利要求3所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述计算引擎模块的计算单元阵列采用动态可重配置架构,根据计算层的输入通道与输出通道数来配置计算单元阵列。
7.根据权利要求3所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述计算引擎模块采用两种基于行的计算顺序,当特征图数据相较权重数据多时,因此先将所有输出通道特征图的同一行计算完毕,再切换下一行,采用如下公式表示:
Figure FDA0002567624420000021
其中N为输出通道数,M为输入通道数,n为当前输出通道数,m为当前输入通道数,fh为输入特征图行数,fw为输入特征图列数,kh为卷积核行数,h为二维数据的行,kw为卷积核列数,w为二维数据的列,in为输入特征图,filter为权重,out为输出特征图;
当权重数据相较特征图数据多时,先按行计算完一组输出通道的特征图再切换下一组通道的特征图,计算顺序采用如下公式表示:
Figure FDA0002567624420000022
8.根据权利要求3所述的一种深度可分离卷积神经网络加速器架构,其特征在于,所述控制配置模块配置每个计算模块的计算模式,根据不同参数实现标准卷积层,深度可分离卷积层,全连接层多种计算模式。
CN202010628683.0A 2020-07-02 2020-07-02 一种深度可分离卷积神经网络加速器架构 Active CN111898733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010628683.0A CN111898733B (zh) 2020-07-02 2020-07-02 一种深度可分离卷积神经网络加速器架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010628683.0A CN111898733B (zh) 2020-07-02 2020-07-02 一种深度可分离卷积神经网络加速器架构

Publications (2)

Publication Number Publication Date
CN111898733A true CN111898733A (zh) 2020-11-06
CN111898733B CN111898733B (zh) 2022-10-25

Family

ID=73191427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010628683.0A Active CN111898733B (zh) 2020-07-02 2020-07-02 一种深度可分离卷积神经网络加速器架构

Country Status (1)

Country Link
CN (1) CN111898733B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488908A (zh) * 2020-12-18 2021-03-12 时擎智能科技(上海)有限公司 一种计算装置、计算方法、存储介质及终端
CN112862074A (zh) * 2021-02-07 2021-05-28 Oppo广东移动通信有限公司 模型运行方法、装置、电子设备及存储介质
CN113033794A (zh) * 2021-03-29 2021-06-25 重庆大学 基于深度可分离卷积的轻量级神经网络硬件加速器
CN113239898A (zh) * 2021-06-17 2021-08-10 阿波罗智联(北京)科技有限公司 用于处理图像的方法、路侧设备和云控平台
CN113361699A (zh) * 2021-07-16 2021-09-07 安谋科技(中国)有限公司 乘法电路、片上***和电子设备
CN113361687A (zh) * 2021-05-31 2021-09-07 天津大学 适用于卷积神经网络训练加速器的可配置加法树
CN114254740A (zh) * 2022-01-18 2022-03-29 长沙金维信息技术有限公司 卷积神经网络加速计算方法、计算***、芯片及接收机
CN116882467A (zh) * 2023-09-01 2023-10-13 中国科学院长春光学精密机械与物理研究所 面向边缘端的多模式可配置的神经网络加速器电路结构
CN117391149A (zh) * 2023-11-30 2024-01-12 爱芯元智半导体(宁波)有限公司 神经网络输出数据的处理方法、装置及芯片

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133270A (zh) * 2018-01-12 2018-06-08 清华大学 卷积神经网络加速方法及装置
US20180314916A1 (en) * 2015-12-01 2018-11-01 Intel Corporation Object detection with adaptive channel features
CN109284817A (zh) * 2018-08-31 2019-01-29 中国科学院上海高等研究院 深度可分离卷积神经网络处理架构/方法/***及介质
US20190095130A1 (en) * 2017-09-22 2019-03-28 Kabushiki Kaisha Toshiba Operation device and operation system
CN109598338A (zh) * 2018-12-07 2019-04-09 东南大学 一种基于fpga的计算优化的卷积神经网络加速器
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180314916A1 (en) * 2015-12-01 2018-11-01 Intel Corporation Object detection with adaptive channel features
US20190095130A1 (en) * 2017-09-22 2019-03-28 Kabushiki Kaisha Toshiba Operation device and operation system
CN108133270A (zh) * 2018-01-12 2018-06-08 清华大学 卷积神经网络加速方法及装置
CN109284817A (zh) * 2018-08-31 2019-01-29 中国科学院上海高等研究院 深度可分离卷积神经网络处理架构/方法/***及介质
CN109598338A (zh) * 2018-12-07 2019-04-09 东南大学 一种基于fpga的计算优化的卷积神经网络加速器
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIN BAI 等,: "A CNN Accelerator on FPGA Using Depthwise Separable Convolution", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS II: EXPRESS BRIEFS》 *
王春林 等,: "基于脉动阵列的卷积计算模块硬件设计", 《电子技术应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488908A (zh) * 2020-12-18 2021-03-12 时擎智能科技(上海)有限公司 一种计算装置、计算方法、存储介质及终端
CN112862074A (zh) * 2021-02-07 2021-05-28 Oppo广东移动通信有限公司 模型运行方法、装置、电子设备及存储介质
CN113033794A (zh) * 2021-03-29 2021-06-25 重庆大学 基于深度可分离卷积的轻量级神经网络硬件加速器
CN113361687B (zh) * 2021-05-31 2023-03-24 天津大学 适用于卷积神经网络训练加速器的可配置加法树
CN113361687A (zh) * 2021-05-31 2021-09-07 天津大学 适用于卷积神经网络训练加速器的可配置加法树
CN113239898A (zh) * 2021-06-17 2021-08-10 阿波罗智联(北京)科技有限公司 用于处理图像的方法、路侧设备和云控平台
CN113361699A (zh) * 2021-07-16 2021-09-07 安谋科技(中国)有限公司 乘法电路、片上***和电子设备
CN114254740A (zh) * 2022-01-18 2022-03-29 长沙金维信息技术有限公司 卷积神经网络加速计算方法、计算***、芯片及接收机
CN114254740B (zh) * 2022-01-18 2022-09-30 长沙金维信息技术有限公司 卷积神经网络加速计算方法、计算***、芯片及接收机
CN116882467A (zh) * 2023-09-01 2023-10-13 中国科学院长春光学精密机械与物理研究所 面向边缘端的多模式可配置的神经网络加速器电路结构
CN116882467B (zh) * 2023-09-01 2023-11-21 中国科学院长春光学精密机械与物理研究所 面向边缘端的多模式可配置的神经网络加速器电路结构
CN117391149A (zh) * 2023-11-30 2024-01-12 爱芯元智半导体(宁波)有限公司 神经网络输出数据的处理方法、装置及芯片
CN117391149B (zh) * 2023-11-30 2024-03-26 爱芯元智半导体(宁波)有限公司 神经网络输出数据的处理方法、装置及芯片

Also Published As

Publication number Publication date
CN111898733B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN111898733B (zh) 一种深度可分离卷积神经网络加速器架构
CN108805266B (zh) 一种可重构cnn高并发卷积加速器
US20210224125A1 (en) Operation Accelerator, Processing Method, and Related Device
CN111459877B (zh) 基于FPGA加速的Winograd YOLOv2目标检测模型方法
CN108108809B (zh) 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法
US10691996B2 (en) Hardware accelerator for compressed LSTM
CN111242289B (zh) 一种规模可扩展的卷积神经网络加速***与方法
CN109447241B (zh) 一种面向物联网领域的动态可重构卷积神经网络加速器架构
US20180260710A1 (en) Calculating device and method for a sparsely connected artificial neural network
US20230026006A1 (en) Convolution computation engine, artificial intelligence chip, and data processing method
TW202123093A (zh) 實行卷積運算的系統及方法
CN112668708B (zh) 一种提高数据利用率的卷积运算装置
CN109993293B (zh) 一种适用于堆叠式沙漏网络的深度学习加速器
CN110796236B (zh) 多样本多通道卷积神经网络池化的向量化实现方法
CN110766128A (zh) 卷积计算单元、计算方法及神经网络计算平台
CN114742225A (zh) 一种基于异构平台的神经网络推理加速方法
CN113033794B (zh) 基于深度可分离卷积的轻量级神经网络硬件加速器
CN111768458A (zh) 一种基于卷积神经网络的稀疏图像处理方法
Que et al. Recurrent neural networks with column-wise matrix–vector multiplication on FPGAs
Shahshahani et al. Memory optimization techniques for fpga based cnn implementations
CN111931927A (zh) 一种在npu中减少计算资源占用的方法及装置
CN111610963B (zh) 芯片结构及其乘加计算引擎
CN110716751A (zh) 高并行度计算平台、***及计算实现方法
CN113052299A (zh) 基于通信下界的神经网络存内计算装置及加速方法
CN116090518A (zh) 基于脉动运算阵列的特征图处理方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant