CN106951961A - 一种粗粒度可重构的卷积神经网络加速器及*** - Google Patents

一种粗粒度可重构的卷积神经网络加速器及*** Download PDF

Info

Publication number
CN106951961A
CN106951961A CN201710104029.8A CN201710104029A CN106951961A CN 106951961 A CN106951961 A CN 106951961A CN 201710104029 A CN201710104029 A CN 201710104029A CN 106951961 A CN106951961 A CN 106951961A
Authority
CN
China
Prior art keywords
unit
adder
coarseness
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710104029.8A
Other languages
English (en)
Other versions
CN106951961B (zh
Inventor
袁哲
刘勇攀
杨华中
岳金山
李金阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710104029.8A priority Critical patent/CN106951961B/zh
Publication of CN106951961A publication Critical patent/CN106951961A/zh
Application granted granted Critical
Publication of CN106951961B publication Critical patent/CN106951961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/28Indexing scheme for image data processing or generation, in general involving image processing hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种粗粒度可重构的卷积神经网络加速器及***,所述加速器包括多个处理单元簇,所述每个处理单元簇包括若干基本计算单元,所述若干基本计算单元通过一子加法单元连接,所述多个处理单元簇的子加法单元分别连接到一母加法单元;所述每个子加法单元用于产生相邻的若干基本加法单元的部分和,所述母加法单元用于累加所述子加法单元。本发明采用粗粒度可重配的方式,通过SRAM或其他互联单元链接不同的权重与图像轨道,以实现不同的卷积核处理结构,可以高效的支持不同太小的网络和卷积核,同时大量减少重新配置的开销。

Description

一种粗粒度可重构的卷积神经网络加速器及***
技术领域
本发明涉及高能效硬件加速器设计技术领域,更具体地,涉及一种粗粒度可重构的卷积神经网络加速器及***。
背景技术
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络已经成为在图像识别、语音识别等领域最常用的算法,这一类方法需要非常多的计算量,需要设计专用的加速器。在可移动设备中也有很好的应用前景。但由于可移动设备资源受限,目前在GPU和FPGA(Field Programmable Gate Array,现场可编程门阵列)平台上设计的加速器很难在这些要求低功耗、资源受限的平台上使用。
由于卷积神经网络具有多种大小的网络结构和卷积核,专用的卷积网络加速器应该高效的支持这些不同大小的网络以及卷积核。传统的加速器为了支持卷积网络的多样性通常可以被分为两大类;第一大类是指令式加速器,把不同的卷积核计算操作拆解成一条条指令,在同一时刻取出正确的权重数据与图像数据,这种方法需要大量片上带宽和片上存储,在处理小网络是比较高效,但处理大网络时权重数据不可能全部存储在片上,所以能量效率下降严重;第二大类采用细粒度可重构电路的方式来支持不同大小的网络和卷积核,例如采用重构片上网络的方式,给每个处理单元设置一个地址,每次发送数据到对应地址,这种方式虽然在处理不同卷积神经网络时比指令式加速器更加高效,但细粒度重构电路带来了很多额外的能量与重配置开销。
在大规模计算领域中,可重构***是目前体系结构的一个研究热点,它将通用处理器的灵活性和ASIC(Application Specific Integrated Circuits,专用集成电路)的高效性很好地结合起来,是面向大规模计算中比较理想的解决方案。传统DSP(DigitalSignal Processing,数字信号处理)具有运算速度低、硬件结构不可重构、开发升级周期长和不可移植等缺点,在面向大规模计算时,这种缺点就更加明显。ASIC在性能、面积和功耗等方面具有较大优势,但多变的应用需求和快速增长的复杂度使得ASIC的设计和验证难度大,开发周期长,很难满足产品快速应用的要求。在可编程逻辑器件中,虽然Xilinx公司的Virtex-6系列FPGA利用600MHz的DSP48E1slice实现了超过1000GMACS(1×1012次乘累加运算/秒)的性能,但在面向大规模计算时,需要配置的电路规模过大,综合和配置时间过长,且实际工作频率不高,难以保持高性能的同时,追求灵活性和低功耗的目标。
因此,急需设计一种低功耗高能效的专用加速器架构来满足低功耗的可移动设备的使用。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的粗粒度可重构的卷积神经网络加速器及***,采用粗粒度可重配的方式,通过SRAM(Static Random AccessMemory,即静态随机存取存储器)或其他互联单元链接不同的权重与图像轨道,以实现不同的卷积核处理结构,可以高效的支持不同太小的网络和卷积核,同时大量减少重新配置的开销。
根据本发明的一个方面,提供一种粗粒度可重构的卷积神经网络加速器,包括多个处理单元簇,所述每个处理单元簇包括若干基本计算单元,所述若干基本计算单元通过一子加法单元连接,所述多个处理单元簇的子加法单元分别连接到一母加法单元;所述每个子加法单元用于产生相邻的若干基本加法单元的部分和,所述母加法单元用于累加所述子加法单元。
作为优选的,所述基本计算单元包括3×3卷积单元。
作为优选的,所述处理单元簇为4个,所述4个处理单元簇呈正交矩阵排布;所述每个处理单元簇包括4个基本计算单元,所述4个基本计算单元呈正交矩阵排布。
作为优选的,所述每个基本计算单元包括9个呈九宫格排布的乘法器,还包括1个加法器,所述同一列上的3个乘法器的输入寄存器为位移寄存器。
作为优选的,所述每个处理单元簇矩阵每行中相邻的基本计算单元通过权重互联单元连接权重轨道,每列中相邻两个基本计算单元通过图像互联单元连接图像轨道;
所述权重互联单元用于给每个基本计算单元连接权重轨道,通过SRAM控制选择,从权重轨道中选出权重数据给每个基本计算单元;
所述图像互联单元用于连接基本计算单元与图像数据,在SRAM的控制下从图像轨道和上一个基本计算单元的输出集合中选出3个连续的数据。
作为优选的,所述每个处理单元簇中乘法器和加法器在不用时关闭,所述子加法单元和母加法单元在不用时断电。
一种粗粒度可重构的卷积神经网络加速***,包括若干并行的卷积神经网络加速器。
本申请提出一种粗粒度可重构的卷积神经网络加速器及***,采用粗粒度可重配的方式,通过SRAM或其他互联单元链接不同的权重与图像轨道,以实现不同的卷积核处理结构,可以高效的支持不同太小的网络和卷积核,同时大量减少重新配置的开销。通过一种粗粒度可重构的加速器硬件架构,可以用极少的重配置开销支持不同网络,并设计高效支持粗粒度可重构架构的计算单元、支持粗粒度可重配置的互联结构、用小卷积核重构大卷积核的机制,相比于传统可重构FPGA,重配置速度提升了105倍,能量效率达到了18.8倍。相比于传统细粒度可重配的ASIC,重配置时间减少了81.0%,平均能量效率提升了80.0%。
附图说明
图1为根据本发明实施例的粗粒度可重构的卷积神经网络加速器结构示意图;
图2为根据本发明实施例的为粗粒度配置后支持不同大小卷积核的工作模式示意图;
图3为根据本发明实施例的加速器架构配置5x5模式后的等效电路示意图;
图4为根据本发明实施例中细粒度重构ASIC加速器、传统可重构FPGA、本发明的粗粒度可重构的卷积神经网络加速器能效比较示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了一种粗粒度可重构的卷积神经网络加速器,包括多个处理单元簇,所述每个处理单元簇包括若干基本计算单元,所述若干基本计算单元通过一子加法单元连接,所述子加法单元如图1中的ADDB1-ADDB4,所述多个处理单元簇的子加法单元分别连接到一母加法单元,所述母加法单元如图1中所示的ADDB0,所述子加法单元与母加法单元结构相同;所述每个子加法单元用于产生相邻的若干基本加法单元的部分和,所述母加法单元用于累加所述子加法单元。
粒度指一个***可重构组件(或可重构处理单元)操作数据的位宽大小,运算单元的粒度分为细粒度、粗粒度、混合粒度;在本实施例中,所述基本计算单元包括3×3卷积单元,3×3卷积单元为最常用的神经网络卷积核。由于细粒度的可重构会给带来大量的芯片面积和功耗开销。因此,本发明提出一种对3x3卷积核做专门优化,同时通过粗粒度重构的方法支持其他类型卷积核的加速器架构。由于加速器对3x3做了专门的优化,它可以高效的处理3x3的卷积核。由于3x3的卷积核在常用的神经网络所占比重大,可以明显提升效率,通过粗粒的可重配的方法组合这些3x3卷积单元构成更大的核。因此,采用粗粒度可重构的方法支持其他卷积核,在不损失太多性能的前提下大大降低可重配开销。
在本实施例中,所述处理单元簇为4个,所述4个处理单元簇呈正交矩阵排布;所述每个处理单元簇包括4个基本计算单元,如图1中所述的NE11、NE12、NE21、NE22及子加法单元ADDB1组成第一处理单元簇,NE13、NE14、NE23、NE24及子加法单元ADDB2组成第二处理单元簇,NE31、NE32、NE41、NE42及子加法单元ADDB3组成第三处理单元簇,NE33、NE34、NE43、NE44及子加法单元ADDB4组成第四处理单元簇,所述每个处理单元簇中的4个基本计算单元呈正交矩阵排布;如图1中(e)所示,所述子加法单元包括四个输入(如图1中所述的输入0、输入1、输入2、输入3)及buffer;所述四个输入分别连接所述第一处理单元簇、第二处理单元簇、第三处理单元簇、第四处理单元簇;所述buffer作为子加法单元输出(即图中的加法器输出)。
作为优选的,所述每个基本计算单元包括9个呈九宫格排布的乘法器MUL,还包括1个加法器ADD;所述9个乘法器MUL和所述加法器ADD都可以在不用时关闭以节省功耗。同一列上的三个乘法器MUL的输入寄存器为移位寄存器,图像数据会从上向下移动。同时,基本计算单元有输出端口,可以把图像数据移出本单元。
如图1中(d)所示,所述每个处理单元簇矩阵每行中相邻的基本计算单元通过权重互联单元FC连接权重轨道,每列中相邻两个基本计算单元通过图像互联单元IC连接图像轨道;
所述权重互联单元FC用于给每个基本计算单元连接权重轨道,通过SRAM(StaticRandom Access Memory,静态随机存取存储器)控制选择,从权重轨道中选出权重数据给每个基本计算单元;
所述图像互联单元用于连接基本计算单元与图像轨道,由于每个基本计算单元有三列,所以图像互联单元在SRAM的控制下从图像轨道和上一个基本计算单元图像输出的集合中选出三个连续的数据。当需要重新配置芯片时,只需要载入数据到配置SRAM中,即可完成芯片重配置。
作为优选的,所述每个处理单元簇中乘法器和加法器在不用时关闭,所述子加法单元和母加法单元在不用时断电,以节省功耗。
如图2所示,为粗粒度配置后支持不同大小卷积核的工作模式示意图,本发明支持1x1到12x12卷积核大小,可以被配置成16个(1x1)到(3x3)核处理,或者4个(4x4)到(6x6)核和1个(7x7)-(12x12)核。如一个5x5的核,将会有4个基本计算单元和一个子加法单元构成,其中4个基本计算单元中有三个中的部分乘法器会被断电,保证5x5核的大小,同时节省功耗。
如图3所示,为加速器架构配置5x5模式后的等效电路示意图;经过粗粒度重配置,以5x5的核为例,该结构可以形成一个高效的运算结构,其高效利用了两种数据复用模式,从而大大降低数据的搬运,提升计算能效,第一种复用是卷积核内复用,例如一个5x5的卷积核,通过粗粒度重构,在相邻的卷积核之间有4个像素可以被重复使用,不需要重新载入。同时,通过粗粒度重构,每个图像数据会被N个卷积核公用,直到N个卷积核都处理完。这种卷积核间复用也减少了图像数据的搬移,N个卷积核都处理完以后,整个图像数据下移一行,在此基础重复上述过程。同时实现另一个方向的卷积核内数据复用。
如图4所示,为细粒度重构ASIC加速器、传统可重构FPGA、本发明的粗粒度可重构的卷积神经网络加速器能效比较示意图,图中分别为细粒度重构ASIC加速器、传统可重构FPGA、本发明的加速器在AlexNet深度卷积网络、Clarifai网络模型、Overfeat算法、VGG16深度卷积神经网络中应用时的能效比较示意图;从图中可以看出,本发明相比于传统可重构FPGA,重配置速度提升了105倍,能量效率达到了18.8倍。相比于传统细粒度可重配的ASIC,重配置时间减少了81.0%,平均能量效率提升了80.0%。
本实施例中还提供了一种粗粒度可重构的卷积神经网络加速***,包括若干并行的卷积神经网络加速器,由于不同单元之间无数据交换,这种架构并行后带来的收益是线性的。
本申请提出一种粗粒度可重构的卷积神经网络加速器及***,采用粗粒度可重配的方式,通过SRAM或其他互联单元链接不同的权重与图像轨道,以实现不同的卷积核处理结构,可以高效的支持不同太小的网络和卷积核,同时大量减少重新配置的开销。通过一种粗粒度可重构的加速器硬件架构,可以用极少的重配置开销支持不同网络,并设计高效支持粗粒度可重构架构的计算单元、支持粗粒度可重配置的互联结构、用小卷积核重构大卷积核的机制,相比于传统可重构FPGA,重配置速度提升了105倍,能量效率达到了18.8倍。相比于传统细粒度可重配的ASIC,重配置时间减少了81.0%,平均能量效率提升了80.0%。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种粗粒度可重构的卷积神经网络加速器,其特征在于,包括多个处理单元簇,所述每个处理单元簇包括若干基本计算单元,所述若干基本计算单元通过一子加法单元连接,所述多个处理单元簇的子加法单元分别连接到一母加法单元;所述每个子加法单元用于产生相邻的若干基本加法单元的部分和,所述母加法单元用于累加所述子加法单元。
2.根据权利要求1所述的粗粒度可重构的卷积神经网络加速器,其特征在于,所述基本计算单元包括3×3卷积单元。
3.根据权利要求1所述的粗粒度可重构的卷积神经网络加速器,其特征在于,所述处理单元簇为4个,所述4个处理单元簇呈正交矩阵排布;所述每个处理单元簇包括4个基本计算单元,所述4个基本计算单元呈正交矩阵排布。
4.根据权利要求2所述的粗粒度可重构的卷积神经网络加速器,其特征在于,所述每个基本计算单元包括9个呈九宫格排布的乘法器,还包括1个加法器,所述同一列上的3个乘法器的输入寄存器为位移寄存器。
5.根据权利要求3所述的粗粒度可重构的卷积神经网络加速器,其特征在于,所述每个处理单元簇矩阵每行中相邻的基本计算单元通过权重互联单元连接权重轨道,每列中相邻两个基本计算单元通过图像互联单元连接图像轨道;
所述权重互联单元用于给每个基本计算单元连接权重轨道,通过SRAM控制选择,从权重轨道中选出权重数据给每个基本计算单元;
所述图像互联单元用于连接基本计算单元与图像轨道,在SRAM的控制下从图像轨道和上一个基本计算单元的输出集合中选出3个连续的数据。
6.根据权利要求4所述的粗粒度可重构的卷积神经网络加速器,其特征在于,所述每个处理单元簇中乘法器和加法器在不用时关闭,所述子加法单元和母加法单元在不用时断电。
7.一种粗粒度可重构的卷积神经网络加速***,其特征在于,包括若干并行的如权利要求1至6任一所述的卷积神经网络加速器。
CN201710104029.8A 2017-02-24 2017-02-24 一种粗粒度可重构的卷积神经网络加速器及*** Active CN106951961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710104029.8A CN106951961B (zh) 2017-02-24 2017-02-24 一种粗粒度可重构的卷积神经网络加速器及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710104029.8A CN106951961B (zh) 2017-02-24 2017-02-24 一种粗粒度可重构的卷积神经网络加速器及***

Publications (2)

Publication Number Publication Date
CN106951961A true CN106951961A (zh) 2017-07-14
CN106951961B CN106951961B (zh) 2019-11-26

Family

ID=59466600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710104029.8A Active CN106951961B (zh) 2017-02-24 2017-02-24 一种粗粒度可重构的卷积神经网络加速器及***

Country Status (1)

Country Link
CN (1) CN106951961B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491416A (zh) * 2017-08-31 2017-12-19 中国人民解放军信息工程大学 适用于任意维数卷积需求的可重构计算结构及计算调度方法和装置
CN108256628A (zh) * 2018-01-15 2018-07-06 合肥工业大学 基于多播片上网络的卷积神经网络硬件加速器及其工作方式
CN108269224A (zh) * 2017-01-04 2018-07-10 意法半导体股份有限公司 可重新配置的互连
CN108510066A (zh) * 2018-04-08 2018-09-07 清华大学 一种应用于卷积神经网络的处理器
CN108805266A (zh) * 2018-05-21 2018-11-13 南京大学 一种可重构cnn高并发卷积加速器
CN109284827A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 神经网络计算方法、设备、处理器及计算机可读存储介质
CN109919826A (zh) * 2019-02-02 2019-06-21 西安邮电大学 一种用于图计算加速器的图数据压缩方法及图计算加速器
CN109949202A (zh) * 2019-02-02 2019-06-28 西安邮电大学 一种并行的图计算加速器结构
CN110399883A (zh) * 2019-06-28 2019-11-01 苏州浪潮智能科技有限公司 图像特征提取方法、装置、设备及计算机可读存储介质
CN110689125A (zh) * 2017-10-30 2020-01-14 上海寒武纪信息科技有限公司 计算装置
CN110826707A (zh) * 2018-08-10 2020-02-21 北京百度网讯科技有限公司 应用于卷积神经网络的加速方法和硬件加速器
CN110998486A (zh) * 2017-09-01 2020-04-10 高通股份有限公司 超低功率神经元形态人工智能计算加速器
CN111126593A (zh) * 2019-11-07 2020-05-08 复旦大学 可重构的自然语言深度卷积神经网络加速器
CN111176727A (zh) * 2017-07-20 2020-05-19 上海寒武纪信息科技有限公司 计算装置以及计算方法
CN111325327A (zh) * 2020-03-06 2020-06-23 四川九洲电器集团有限责任公司 基于嵌入式平台的通用卷积神经网络运算架构与使用方法
CN111340206A (zh) * 2020-02-20 2020-06-26 云南大学 一种基于FPGA的Alexnet前向网络加速器
CN111610963A (zh) * 2020-06-24 2020-09-01 上海西井信息科技有限公司 芯片结构及其乘加计算引擎
CN111860780A (zh) * 2020-07-10 2020-10-30 逢亿科技(上海)有限公司 不规则卷积核卷积神经网络硬件加速***及计算方法
CN112183732A (zh) * 2020-10-22 2021-01-05 中国人民解放军国防科技大学 卷积神经网络加速方法、装置和计算机设备
CN112686228A (zh) * 2021-03-12 2021-04-20 深圳市安软科技股份有限公司 行人属性识别方法、装置、电子设备及存储介质
CN112905526A (zh) * 2021-01-21 2021-06-04 北京理工大学 一种多种类型卷积的fpga实现方法
WO2021189209A1 (zh) * 2020-03-23 2021-09-30 深圳市大疆创新科技有限公司 加速器的检测方法和验证平台
WO2021243839A1 (zh) * 2020-06-04 2021-12-09 南京博芯电子技术有限公司 长短时记忆网络的复合粒度近存储近似加速结构和方法
US11468302B2 (en) 2018-03-13 2022-10-11 Recogni Inc. Efficient convolutional engine
US11531873B2 (en) 2020-06-23 2022-12-20 Stmicroelectronics S.R.L. Convolution acceleration with embedded vector decompression
CN115576895A (zh) * 2022-11-18 2023-01-06 摩尔线程智能科技(北京)有限责任公司 计算装置、计算方法及计算机可读存储介质
US11562115B2 (en) 2017-01-04 2023-01-24 Stmicroelectronics S.R.L. Configurable accelerator framework including a stream switch having a plurality of unidirectional stream links
US11593609B2 (en) 2020-02-18 2023-02-28 Stmicroelectronics S.R.L. Vector quantization decoding hardware unit for real-time dynamic decompression for parameters of neural networks
US11990137B2 (en) 2018-09-13 2024-05-21 Shanghai Cambricon Information Technology Co., Ltd. Image retouching method and terminal device
US12050887B2 (en) 2020-12-11 2024-07-30 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050125369A1 (en) * 2003-12-09 2005-06-09 Microsoft Corporation System and method for accelerating and optimizing the processing of machine learning techniques using a graphics processing unit
CN103984560A (zh) * 2014-05-30 2014-08-13 东南大学 基于大规模粗粒度嵌入式可重构***及其处理方法
WO2015168774A1 (en) * 2014-05-05 2015-11-12 Chematria Inc. Binding affinity prediction system and method
CN105453021A (zh) * 2013-08-01 2016-03-30 经度企业快闪公司 用于原子存储操作的***和方法
CN105488565A (zh) * 2015-11-17 2016-04-13 中国科学院计算技术研究所 加速深度神经网络算法的加速芯片的运算装置及方法
CN106127302A (zh) * 2016-06-23 2016-11-16 杭州华为数字技术有限公司 处理数据的电路、图像处理***、处理数据的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050125369A1 (en) * 2003-12-09 2005-06-09 Microsoft Corporation System and method for accelerating and optimizing the processing of machine learning techniques using a graphics processing unit
CN105453021A (zh) * 2013-08-01 2016-03-30 经度企业快闪公司 用于原子存储操作的***和方法
WO2015168774A1 (en) * 2014-05-05 2015-11-12 Chematria Inc. Binding affinity prediction system and method
CN103984560A (zh) * 2014-05-30 2014-08-13 东南大学 基于大规模粗粒度嵌入式可重构***及其处理方法
CN105488565A (zh) * 2015-11-17 2016-04-13 中国科学院计算技术研究所 加速深度神经网络算法的加速芯片的运算装置及方法
CN106127302A (zh) * 2016-06-23 2016-11-16 杭州华为数字技术有限公司 处理数据的电路、图像处理***、处理数据的方法和装置

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269224A (zh) * 2017-01-04 2018-07-10 意法半导体股份有限公司 可重新配置的互连
US11227086B2 (en) 2017-01-04 2022-01-18 Stmicroelectronics S.R.L. Reconfigurable interconnect
US11675943B2 (en) 2017-01-04 2023-06-13 Stmicroelectronics S.R.L. Tool to create a reconfigurable interconnect framework
US11562115B2 (en) 2017-01-04 2023-01-24 Stmicroelectronics S.R.L. Configurable accelerator framework including a stream switch having a plurality of unidirectional stream links
CN108269224B (zh) * 2017-01-04 2022-04-01 意法半导体股份有限公司 可重新配置的互连
CN109284827A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 神经网络计算方法、设备、处理器及计算机可读存储介质
CN111176727A (zh) * 2017-07-20 2020-05-19 上海寒武纪信息科技有限公司 计算装置以及计算方法
CN111176727B (zh) * 2017-07-20 2022-05-31 上海寒武纪信息科技有限公司 计算装置以及计算方法
CN111221578A (zh) * 2017-07-20 2020-06-02 上海寒武纪信息科技有限公司 计算装置以及计算方法
CN107491416A (zh) * 2017-08-31 2017-12-19 中国人民解放军信息工程大学 适用于任意维数卷积需求的可重构计算结构及计算调度方法和装置
CN107491416B (zh) * 2017-08-31 2020-10-23 中国人民解放军信息工程大学 适用于任意维数卷积需求的可重构计算结构及计算调度方法和装置
US11733766B2 (en) 2017-09-01 2023-08-22 Qualcomm Incorporated Ultra-low power neuromorphic artificial intelligence computing accelerator
CN110998486A (zh) * 2017-09-01 2020-04-10 高通股份有限公司 超低功率神经元形态人工智能计算加速器
CN110998486B (zh) * 2017-09-01 2024-05-31 高通股份有限公司 超低功率神经元形态人工智能计算加速器
CN111160548B (zh) * 2017-10-30 2024-01-12 上海寒武纪信息科技有限公司 计算装置以及计算方法
US11922132B2 (en) 2017-10-30 2024-03-05 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
CN110689125A (zh) * 2017-10-30 2020-01-14 上海寒武纪信息科技有限公司 计算装置
CN111160548A (zh) * 2017-10-30 2020-05-15 上海寒武纪信息科技有限公司 计算装置以及计算方法
CN108256628A (zh) * 2018-01-15 2018-07-06 合肥工业大学 基于多播片上网络的卷积神经网络硬件加速器及其工作方式
US11593630B2 (en) 2018-03-13 2023-02-28 Recogni Inc. Efficient convolutional engine
US11468302B2 (en) 2018-03-13 2022-10-11 Recogni Inc. Efficient convolutional engine
US11645504B2 (en) 2018-03-13 2023-05-09 Recogni Inc. Methods for processing vertical stripes of data in an efficient convolutional engine
US11694069B2 (en) 2018-03-13 2023-07-04 Recogni Inc. Methods for processing data in an efficient convolutional engine with partitioned columns of convolver units
US11694068B2 (en) 2018-03-13 2023-07-04 Recogni Inc. Methods for processing horizontal stripes of data in an efficient convolutional engine
US11580372B2 (en) 2018-03-13 2023-02-14 Recogni Inc. Efficient convolutional engine
WO2019196222A1 (zh) * 2018-04-08 2019-10-17 清华大学 一种应用于卷积神经网络的处理器
CN108510066B (zh) * 2018-04-08 2020-05-12 湃方科技(天津)有限责任公司 一种应用于卷积神经网络的处理器
CN108510066A (zh) * 2018-04-08 2018-09-07 清华大学 一种应用于卷积神经网络的处理器
CN108805266A (zh) * 2018-05-21 2018-11-13 南京大学 一种可重构cnn高并发卷积加速器
CN108805266B (zh) * 2018-05-21 2021-10-26 南京大学 一种可重构cnn高并发卷积加速器
CN110826707B (zh) * 2018-08-10 2023-10-31 北京百度网讯科技有限公司 应用于卷积神经网络的加速方法和硬件加速器
CN110826707A (zh) * 2018-08-10 2020-02-21 北京百度网讯科技有限公司 应用于卷积神经网络的加速方法和硬件加速器
US11996105B2 (en) 2018-09-13 2024-05-28 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
US11990137B2 (en) 2018-09-13 2024-05-21 Shanghai Cambricon Information Technology Co., Ltd. Image retouching method and terminal device
CN109949202A (zh) * 2019-02-02 2019-06-28 西安邮电大学 一种并行的图计算加速器结构
CN109919826B (zh) * 2019-02-02 2023-02-17 西安邮电大学 一种用于图计算加速器的图数据压缩方法及图计算加速器
CN109919826A (zh) * 2019-02-02 2019-06-21 西安邮电大学 一种用于图计算加速器的图数据压缩方法及图计算加速器
CN110399883A (zh) * 2019-06-28 2019-11-01 苏州浪潮智能科技有限公司 图像特征提取方法、装置、设备及计算机可读存储介质
CN111126593B (zh) * 2019-11-07 2023-05-05 复旦大学 可重构的自然语言深度卷积神经网络加速器
CN111126593A (zh) * 2019-11-07 2020-05-08 复旦大学 可重构的自然语言深度卷积神经网络加速器
US11880759B2 (en) 2020-02-18 2024-01-23 Stmicroelectronics S.R.L. Vector quantization decoding hardware unit for real-time dynamic decompression for parameters of neural networks
US11593609B2 (en) 2020-02-18 2023-02-28 Stmicroelectronics S.R.L. Vector quantization decoding hardware unit for real-time dynamic decompression for parameters of neural networks
CN111340206A (zh) * 2020-02-20 2020-06-26 云南大学 一种基于FPGA的Alexnet前向网络加速器
CN111325327B (zh) * 2020-03-06 2022-03-08 四川九洲电器集团有限责任公司 基于嵌入式平台的通用卷积神经网络运算架构与使用方法
CN111325327A (zh) * 2020-03-06 2020-06-23 四川九洲电器集团有限责任公司 基于嵌入式平台的通用卷积神经网络运算架构与使用方法
WO2021189209A1 (zh) * 2020-03-23 2021-09-30 深圳市大疆创新科技有限公司 加速器的检测方法和验证平台
WO2021243839A1 (zh) * 2020-06-04 2021-12-09 南京博芯电子技术有限公司 长短时记忆网络的复合粒度近存储近似加速结构和方法
US11836608B2 (en) 2020-06-23 2023-12-05 Stmicroelectronics S.R.L. Convolution acceleration with embedded vector decompression
US11531873B2 (en) 2020-06-23 2022-12-20 Stmicroelectronics S.R.L. Convolution acceleration with embedded vector decompression
CN111610963A (zh) * 2020-06-24 2020-09-01 上海西井信息科技有限公司 芯片结构及其乘加计算引擎
CN111860780A (zh) * 2020-07-10 2020-10-30 逢亿科技(上海)有限公司 不规则卷积核卷积神经网络硬件加速***及计算方法
CN112183732A (zh) * 2020-10-22 2021-01-05 中国人民解放军国防科技大学 卷积神经网络加速方法、装置和计算机设备
US12050887B2 (en) 2020-12-11 2024-07-30 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
CN112905526A (zh) * 2021-01-21 2021-06-04 北京理工大学 一种多种类型卷积的fpga实现方法
CN112686228A (zh) * 2021-03-12 2021-04-20 深圳市安软科技股份有限公司 行人属性识别方法、装置、电子设备及存储介质
CN112686228B (zh) * 2021-03-12 2021-06-01 深圳市安软科技股份有限公司 行人属性识别方法、装置、电子设备及存储介质
CN115576895A (zh) * 2022-11-18 2023-01-06 摩尔线程智能科技(北京)有限责任公司 计算装置、计算方法及计算机可读存储介质

Also Published As

Publication number Publication date
CN106951961B (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN106951961B (zh) 一种粗粒度可重构的卷积神经网络加速器及***
JP6960700B2 (ja) マルチキャストネットワークオンチップに基づいた畳み込みニューラルネットワークハードウェアアクセラレータおよびその動作方式
Chen et al. Dadiannao: A machine-learning supercomputer
Kim et al. Neurocube: A programmable digital neuromorphic architecture with high-density 3D memory
US11625245B2 (en) Compute-in-memory systems and methods
CN111178519A (zh) 卷积神经网络加速引擎、卷积神经网络加速***及方法
CN205139973U (zh) 基于fpga器件构建的bp神经网络
Furber To build a brain
CN109284817A (zh) 深度可分离卷积神经网络处理架构/方法/***及介质
Kim et al. A highly scalable restricted Boltzmann machine FPGA implementation
CN111242289A (zh) 一种规模可扩展的卷积神经网络加速***与方法
CN109711539A (zh) 运算方法、装置及相关产品
Passas et al. A 128 x 128 x 24gb/s crossbar interconnecting 128 tiles in a single hop and occupying 6% of their area
CN110070182B (zh) 适合人工智能的平台芯片及其制造和设计方法
Kianpour et al. A conventional design for CLB implementation of a FPGA in quantum-dot cellular automata (QCA)
Moradi et al. A memory-efficient routing method for large-scale spiking neural networks
CN109767002A (zh) 一种基于多块fpga协同处理的神经网络加速方法
Hadley et al. Designing a partially reconfigured system
US11934482B2 (en) Computational memory
Kitamura et al. AI Chips on Things for Sustainable Society: A 28-nm CMOS, fully spin-to-spin connected 512-spin, multi-spin-thread, folded halved-interaction circuits method, annealing processing chip
Mazouz et al. Automated offline design-space exploration and online design reconfiguration for CNNs
Morcel et al. Fpga-based accelerator for deep convolutional neural networks for the spark environment
Sait et al. Engineering a memetic algorithm from discrete cuckoo search and tabu search for cell assignment of hybrid nanoscale CMOL circuits
Ascia et al. Networks-on-chip based deep neural networks accelerators for iot edge devices
Maher et al. Intrinsic hardware evolution of neural networks in reconfigurable analogue and digital devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant