CN109978143B - 一种基于simd架构的堆栈式自编码器及编码方法 - Google Patents

一种基于simd架构的堆栈式自编码器及编码方法 Download PDF

Info

Publication number
CN109978143B
CN109978143B CN201910251530.6A CN201910251530A CN109978143B CN 109978143 B CN109978143 B CN 109978143B CN 201910251530 A CN201910251530 A CN 201910251530A CN 109978143 B CN109978143 B CN 109978143B
Authority
CN
China
Prior art keywords
neural network
layer
sram
weight
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910251530.6A
Other languages
English (en)
Other versions
CN109978143A (zh
Inventor
李丽
马博涵
傅玉祥
张衡
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910251530.6A priority Critical patent/CN109978143B/zh
Publication of CN109978143A publication Critical patent/CN109978143A/zh
Application granted granted Critical
Publication of CN109978143B publication Critical patent/CN109978143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明的基于SIMD架构的堆栈式自编码器及编码方法,自编码器包括DMA接口模块、神经网络推理模块以及神经网络训练模块;DMA接口模块主要通过DMA方式从片外DDR读入的数据按分区方式存入片上SRAM,并将最后的运算结果通过DMA方式写回DDR;神经网络的推理运算模块使用已经训练好的权重与偏置对新的样本进行分类推理运算;神经网络的训练模块主要负责从神经网络最后一层逐层向前更新神经网络的权重和偏置。有益效果:本发明的自编码器支持的神经网络层数没有限制,因此支持大规模神经网络的推理与训练,并且通过乒乓操作实现部分计算时间和访存时间的掩盖,有着良好的实用意义和广泛的应用前景。

Description

一种基于SIMD架构的堆栈式自编码器及编码方法
技术领域
本发明涉及人工智能算法的硬件实现领域,尤其涉及一种基于SIMD架构的堆栈式自编码器及编码方法。
背景技术
随着1941年以来电子计算机的发展,技术已经可以创造出机器智能,“人工智能”(Artificial Intelligence)一词最初是在1956年DARTMOUTH学会上提出的,从那以后,研究者们发展了众多理论和原理,人工智能的概念也随之扩展。2007年以前,受限于当时算法和数据等因素,人工智能对芯片还没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。之后由于高清视频以及游戏产业的快速发展,图形处理器(GPU)芯片取得了迅速的发展。因为GPU有更多的逻辑运算单元用于处理数据,属于高并行结构,在处理图形数据和复杂算法方面比CPU更有优势,又因为AI深度学习的模型参数多、数据规模大、计算量大,此后一段时间内GPU代替了CPU,成为当时AI芯片的主流。在人工智能的巨大浪潮下,也有很多厂商处理机器学习算法使用的是现场可编程门阵列(FPGA),FPGA凭借其灵活性高,在工业互联网和工业机器人设备领域有着巨大的发展市场。除了GPU和FPGA两种人工智能算法加速芯片,谷歌推出了一款为特定人工智能算法设计的专用处理器TPU,其芯片面积相对FPGA和GPU更小,功耗也更低。
通信网络是人工智能爆发的基础,随着5G通信时代的来临,万物互联将产生海量的数据,大规模的神经网络需要强大的算力。作为一种重要的神经网络算法,堆栈式自编码算法在人脸识别、地理信息测绘等多种应用场景有着广泛的应用。本发明基于一款可重构智能加速核,提出了一种SIMD架构的堆栈式自编码算法的硬件实现,与GPU、FPGA等一些硬件加速方式相比,该实现方式资源利用率高,硬件实现速度快。作为人工智能算法中的典型算法,该实现方法有着良好的借鉴意义和广泛的应用前景。
发明内容
本发明目的在于克服上述现有技术的不足,有效降低神经网络的训练时间,充分利用存储资源,加快训练以及推理的计算速度,提供了一种基于SIMD架构的堆栈式自编码器及编码方法,具体由以下技术方案实现:
所述基于SIMD架构的堆栈式自编码器,基于神经网络包括:
DMA接口模块,通过DMA方式从片外DDR读入的数据按分区方式存入片上SRAM,并将最后的运算结果通过DMA方式写回DDR;
神经网络推理模块,使用已经训练好的权重与偏置对新的样本进行分类推理运算;神经网络训练模块,根据梯度下降算法将训练样本前向传播后;从神经网络的最后一层反向传播,更新神经网络的权重和偏置。
所述基于SIMD架构的堆栈式自编码器的进一步设计在于,每层神经网络的存储SRAM均含有有4N个源数据存储bank,则将所述SRAM划分为四个部分,每个部分有N个bank,分别为:
SRAM的第一部分,存储输入xj
SRAM的第二部分以及第三部分,存储权重Wij
SRAM的第四部分,存储每层神经网络的计算结果。
常数memory,存放偏置bi
根据上述基于SIMD架构的堆栈式自编码器,提供一种基于SIMD架构的堆栈式自编码方法,该方法包括算法推理过程与算法训练过程,算法推理过程包括:
步骤1-1)初始化第一层所有神经元的输入xj、偏置bi、第一层第一个神经元以及神经网络第二层的所有神经元间的权重Wij
步骤1-2)根据式(1)计算出第二层神经网络第一个神经元的输出,该乘累加的计算过程由32路并行的乘加树的结构完成计算,计算完成后,将第二个神经元的权重Wij搬入SRAM的第三部分;
式(1)中hi表示每层神经网络的计算结果,ai表示的是权重和输入的乘累加和,his()表示的是sigmoid激活函数;
步骤1-3)进行乒乓操作搬入权重,完成神经网络第二层的输出计算,并将计算结果存入SRAM的第四部分;
步骤1-4)将神经网络第二层的输出作为第三层的输入,计算神经网络第三层的输出,覆盖存入SRAM的第一部分。
步骤1-5)按照此存取以及计算方式,得到神经网络最后一层的结果,并将结果从SRAM中读取按照DMA方式写回DDR;
算法训练过程包括前向传播与反向传播,所述前向传播包括如下步骤:
步骤2-1-1)初始化第一层的输入xj以及偏置bi,第一层第一个神经元的权重Wij
步骤2-1-2)根据以及hi=s(ai)计算出第二层第一个神经元的输出,该乘累加的计算过程由32路并行的乘加树的结构完成/>计算,计算完成后,将第二个神经元的权重Wij搬入SRAM的第三部分中,计算第二个神经元的输出结果;
步骤2-1-3)采用乒乓操作搬入权重,将神经网络第二层512个神经元的输出计算完成,存入SRAM的第四部分,并按照DMA方式将数据写回DDR;
步骤2-1-4)将神经网络第二层的输出作为第三层的输入,计算神经网络第三层的输出,覆盖存入SRAM的第一部分;
步骤2-1-5)完成上述步骤,得到神经网络最后一层的结果,并将结果从SRAM中读取并按照DMA方式写回DDR;
所述反向传播中,将标签数据定义为Std,对冲值定义为delta,具体包括如下步骤:
步骤2-2-1)从DDR按照DMA方式读入神经网络标签数据Std,与计算所得的神经网络最后一层数据相减得到神经网络最后一层的误差delta;
步骤2-2-2)将神经网络倒数第二层的转置权重按照DMA方式乒乓读入每个神经元的权重Wji,将权重Wji存入SRAM的第二部分和第三部分,根据式(2)更新偏置和权重,直至最后一层的权重和偏置完成更新;
更新完成后覆盖存入原权重和偏置所在的SRAM的部分,将已更新完毕的偏置和权重按照DMA方式写入DDR;
步骤2-2-3)按照同样的方式计算前一层的对冲值delta,计算更新权重以及偏置,将已更新完毕的偏置和权重按照DMA方式写入DDR;
步骤2-2-4)依次向前一层传播,更新神经网络所有层的权重以及偏置,并写回DDR,完成神经网络的一次训练。
所述基于SIMD架构的堆栈式自编码方法的进一步设计在于,所述步骤1-5)如果神经网络总层数为奇数层,则从SRAM的第一部分中读取最后一层的结果;如果神经网络总层数为偶数层,则从SRAM的第四部分中读取最后一层的结果。本发明的优点如下:
本发明的基于SIMD架构的堆栈式自编码器支持的神经网络层数没有限制,因此支持大规模神经网络的推理与训练,并且通过乒乓操作实现部分计算时间和访存时间的掩盖,有着良好的实用意义和广泛的应用前景。
附图说明
图1是堆栈式自编码算法中单个自编码器示意图。
图2是多个单一的自编码器堆叠成为自编码器整体的示意图。
图3是基于SIMD架构的堆栈式自编码方法的流程图。
图4是堆栈式自编码算法推理部分以及训练部分前向传播部分计算实现示意图。
图5是堆栈式自编码算法存储方式示意图。
具体实施方式
以下结合附图,对本发明的技术方案进行详细说明。
本实施例的自编码器如图1所示,分为输入层、隐藏层、输出层,多个单一的自编码器堆栈后将形成如图2所示的堆栈式自编码器,堆栈式自编码器由一层输入、多层隐藏层和一层输出层组成,最后是否需要Softmax分类器根据实际需求定义。
该自编码器主要由DMA接口模块、神经网络推理模块以及神经网络训练模块组成。本发明通过对神经网络每层运算结果的乒乓存储以及对神经网络每层各个神经元权重的乒乓存储,使得资源可以获得最大化利用,同时根据SRAM的分区进行数据搬运,整合计算结果,提高算法运算速度。
下面以本发明的一个实施例实现进行详细说明,并搭建了一款基于SystemC语言的周期精确***级仿真模型进行验证。实施例中神经网络共有7层,神经网络从前往后每层的神经元个数分别为:1024、512、256、128、256、512、1024个,神经网络的输入、权重、偏置等数据均为IEEE754标准的32位浮点数,若以4PE(Processing Element,其中含有4个复数乘法器、4个复数加法器、1个实数加法器、1个实数乘法器、1一个超越函数)计算阵列为例(对应32个bank,每个bank深度假定设为4K,bank位宽为64位),则一个bank的一个地址存储2个源数据。以下将以此实施例并结合附图对本发明的技术方案作进一步的介绍。
算法硬件实现流程图如图3所示,在该算法开始前,需要先将所有层与层间的权重转置后存储于DDR中,以便于训练更新权重使用,训练与推理过程详细步骤如下:
堆栈式自编码算法的推理环节过程如下:
S1:初始化第一层的1024个神经元的输入xj、偏置bi,第一层第一个神经元与神经网络第二层的512个神经元间的权重Wij,如图5所示,将输入xj存储于第0-7个bank中,权重存储于8-15个bank中,偏置bi存储于常数存储器中。
S2:根据以及hi=s(ai)计算出第二层第一个神经元的输出,该乘累加的计算过程整体硬件架构如图4所示,由32路并行的乘加树的结构完成计算。计算完成后,将第二个神经元的权重Wij搬入第三部分bank_3。
S3:乒乓搬入权重,将神经网络第二层的输出计算完成。存入SRAM的第四部分bank_4。
S4:神经网络第二层的输出作为第三层的输入,计算神经网络第三层的输出,覆盖存入SRAM的第一部分bank_1。
S5:按照此存取以及计算方式,得到神经网络最后一层的结果,并将结果从SRAM中读取按照DMA方式写回DDR(如果神经网络总层数为奇数层,则从SRAM的第一部分bank_1中读取;如果神经网络总层数为偶数层,则从SRAM的第四部分bank_4中读取)。
堆栈式自编码算法的训练环节过程如下:
算法训练环节分为前向传播与反向传播,前向传播与算法推理环节唯一的不同是需要将每层的计算结果通过DMA方式写回DDR,以用于反向传播使用,反向传播使用的是梯度下降算法。
前向传播:
S1:初始化第一层的输入xj以及偏置bi,第一层第一个神经元的权重Wij
S2:根据以及hi=s(ai)计算出第二层第一个神经元的输出,该乘累加的计算过程整体硬件架构如图4所示,由32路并行的乘加树的结构完成计算。计算完成后,将第二个神经元的权重Wij搬入第三部分bank_3中,计算第二个神经元的输出结果。
S3:乒乓搬入权重,将神经网络第二层512个神经元的输出计算完成。存入SRAM的第四部分bank_4即第24-31个bank中,并按照DMA方式将数据写回DDR。
S4:神经网络第二层的输出作为第三层的输入,计算神经网络第三层的输出,覆盖存入SRAM的第一部分bank_1即第0-7个bank中。
S5:按照此存取以及计算方式,得到神经网络最后一层即神经网络第7层的结果,并将结果从SRAM中读取按照DMA方式写回DDR,本例神经网络总层数是7层,为奇数层,则从SRAM的第一部分bank_1即0-7个bank中读取。
反向传播(梯度下降):
将标签数据定义为Std,对冲值定义为delta。
S6:从DDR按照DMA方式读入神经网络标签数据Std,与计算所得的神经网络最后一层第7层数据相减得到神经网络最后一层的误差delta。
S7:将神经网络倒数第二层的转置权重按照DMA方式乒乓读入每个神经元的权重Wji,将其存入SRAM的第二部分bank_2和第三部分bank_3,根据偏置和权重的更新方法,更新最后一层的权重和偏置。
更新完成后覆盖存入原权重和偏置所在的SRAM的部分,将已更新完毕的偏置和权重按照DMA方式写入DDR。
S8:按照同样的方式计算前一层的对冲值delta,并计算更新权重以及偏置,同样的方式写入DDR。
S9:依次向前一层传播,更新神经网络所有层的权重以及偏置,并写回DDR,完成神经网络的一次训练。
本发明将堆栈式自编码算法中的输入和权重存储于SRAM划分的不同区域中,能够无冲突的访存计算所需的变量,并通过乒乓操作以及计算资源的分时复用,实现了该算法计算过程的快速实现,从而大大提高了资源利用率与硬件实现速度,因此该实现方式应用前景广泛。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种基于SIMD架构的堆栈式自编码器,基于神经网络,其特征在于包括:
DMA接口模块,通过DMA方式从片外DDR读入的数据按分区方式存入片上SRAM,并将最后的运算结果通过DMA方式写回DDR;
神经网络推理模块,使用已经训练好的权重与偏置对新的样本进行分类推理运算;
神经网络训练模块,根据梯度下降算法将训练样本前向传播后;从神经网络的最后一层反向传播,更新神经网络的权重和偏置;每层神经网络的存储SRAM均含有4N个源数据存储bank,则将所述SRAM划分为四个部分,每个部分有N个bank,分别为:
SRAM的第一部分,存储输入xj
SRAM的第二部分以及第三部分,存储权重Wij
SRAM的第四部分,存储每层神经网络的计算结果;
常数memory,存放偏置bi
所述自编码器分为输入层、隐藏层、输出层,堆栈式自编码器由一层输入、多层隐藏层和一层输出层组成,最后是否需要Softmax分类器根据实际需求定义。
2.如权利要求1所述的基于SIMD架构的堆栈式自编码器的编码方法,其特征在于包括算法推理过程与算法训练过程,算法推理过程包括:
步骤1-1)初始化第一层所有神经元的输入xj、偏置bi、第一层第一个神经元以及神经网络第二层的所有神经元间的权重Wij
步骤1-2)根据式(1)计算出第二层神经网络第一个神经元的输出,乘累加的计算过程由32路并行的乘加树的结构完成计算,计算完成后,将第二个神经元的权重Wij搬入SRAM的第三部分;
式(1)中hi表示每层神经网络的计算结果,ai表示的是权重和输入的乘累加和,his()表示的是sigmoid激活函数;
步骤1-3)进行乒乓操作搬入权重,完成神经网络第二层的输出计算,并将计算结果存入SRAM的第四部分;
步骤1-4)将神经网络第二层的输出作为第三层的输入,计算神经网络第三层的输出,覆盖存入SRAM的第一部分;
步骤1-5)按照此存取以及计算方式,得到神经网络最后一层的结果,并将结果从SRAM中读取按照DMA方式写回DDR;
算法训练过程包括前向传播与反向传播,所述前向传播包括如下步骤:
步骤2-1-1)初始化第一层的输入xj以及偏置bi,第一层第一个神经元的权重Wij
步骤2-1-2)根据以及hi=s(ai)计算出第二层第一个神经元的输出,该乘累加的计算过程由32路并行的乘加树的结构完成/>计算,计算完成后,将第二个神经元的权重Wij搬入SRAM的第三部分中,计算第二个神经元的输出结果;
步骤2-1-3)采用乒乓操作搬入权重,将神经网络第二层512个神经元的输出计算完成,存入SRAM的第四部分,并按照DMA方式将数据写回DDR;
步骤2-1-4)将神经网络第二层的输出作为第三层的输入,计算神经网络第三层的输出,覆盖存入SRAM的第一部分;
步骤2-1-5)完成上述步骤,得到神经网络最后一层的结果,并将结果从SRAM中读取并按照DMA方式写回DDR;
所述反向传播中,将标签数据定义为Std,对冲值定义为delta,具体包括如下步骤:
步骤2-2-1)从DDR按照DMA方式读入神经网络标签数据Std,与计算所得的神经网络最后一层数据相减得到神经网络最后一层的误差delta;
步骤2-2-2)将神经网络倒数第二层的转置权重按照DMA方式乒乓读入每个神经元的权重Wji,将权重Wji存入SRAM的第二部分和第三部分,根据式(2)更新偏置和权重,直至最后一层的权重和偏置完成更新;
更新完成后覆盖存入原权重和偏置所在的SRAM的部分,将已更新完毕的偏置和权重按照DMA方式写入DDR;
步骤2-2-3)按照同样的方式计算前一层的对冲值delta,计算更新权重以及偏置,将已更新完毕的偏置和权重按照DMA方式写入DDR;
步骤2-2-4)依次向前一层传播,更新神经网络所有层的权重以及偏置,并写回DDR,完成神经网络的一次训练。
3.根据权利要求2所述的基于SIMD架构的堆栈式自编码器的编码方法,其特征在于:所述步骤1-5)如果神经网络总层数为奇数层,则从SRAM的第一部分中读取最后一层的结果;如果神经网络总层数为偶数层,则从SRAM的第四部分中读取最后一层的结果。
CN201910251530.6A 2019-03-29 2019-03-29 一种基于simd架构的堆栈式自编码器及编码方法 Active CN109978143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910251530.6A CN109978143B (zh) 2019-03-29 2019-03-29 一种基于simd架构的堆栈式自编码器及编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910251530.6A CN109978143B (zh) 2019-03-29 2019-03-29 一种基于simd架构的堆栈式自编码器及编码方法

Publications (2)

Publication Number Publication Date
CN109978143A CN109978143A (zh) 2019-07-05
CN109978143B true CN109978143B (zh) 2023-07-18

Family

ID=67081767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910251530.6A Active CN109978143B (zh) 2019-03-29 2019-03-29 一种基于simd架构的堆栈式自编码器及编码方法

Country Status (1)

Country Link
CN (1) CN109978143B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11861513B2 (en) * 2020-07-13 2024-01-02 International Business Machines Corporation Methods for detecting and monitoring bias in a software application using artificial intelligence and devices thereof
CN114202067A (zh) * 2021-11-30 2022-03-18 山东产研鲲云人工智能研究院有限公司 面向卷积神经网络加速器的带宽优化方法及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8627189B2 (en) * 2009-12-03 2014-01-07 Microsoft Corporation High performance digital signal processing in software radios
CN106991477B (zh) * 2016-01-20 2020-08-14 中科寒武纪科技股份有限公司 一种人工神经网络压缩编码装置和方法
CN108446766A (zh) * 2018-03-21 2018-08-24 北京理工大学 一种快速训练堆栈自编码深度神经网络的方法

Also Published As

Publication number Publication date
CN109978143A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
Chen et al. ReGAN: A pipelined ReRAM-based accelerator for generative adversarial networks
CN105892989B (zh) 一种神经网络加速器及其运算方法
Razlighi et al. Looknn: Neural network with no multiplication
CN111967468B (zh) 一种基于fpga的轻量级目标检测神经网络的实现方法
CN107169563B (zh) 应用于二值权重卷积网络的处理***及方法
KR102142889B1 (ko) 스파스 연결용 인공 신경망 계산 장치와 방법
CN107153873B (zh) 一种二值卷积神经网络处理器及其使用方法
Han Efficient methods and hardware for deep learning
CN107239824A (zh) 用于实现稀疏卷积神经网络加速器的装置和方法
CN110363294A (zh) 利用网络中的路径来表示神经网络以提高神经网络的性能
CN106650922A (zh) 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作***
CN108665063B (zh) 用于bnn硬件加速器的双向并行处理卷积加速***
CN108108811A (zh) 神经网络中的卷积计算方法和电子设备
CN107578095A (zh) 神经网络计算装置及包含该计算装置的处理器
CN106022468A (zh) 人工神经网络处理器集成电路及该集成电路的设计方法
CN106485317A (zh) 一种神经网络加速器以及神经网络模型的实现方法
CN110543939B (zh) 一种基于fpga的卷积神经网络后向训练的硬件加速实现装置
CN110309911A (zh) 神经网络模型验证方法、装置、计算机设备和存储介质
CN107256424A (zh) 三值权重卷积网络处理***及方法
CN109978143B (zh) 一种基于simd架构的堆栈式自编码器及编码方法
CN108171328A (zh) 一种卷积运算方法和基于该方法的神经网络处理器
Xia et al. Neural synaptic plasticity-inspired computing: A high computing efficient deep convolutional neural network accelerator
CN115828831A (zh) 基于深度强化学习的多芯粒芯片算子放置策略生成方法
CN113792621A (zh) 一种基于fpga的目标检测加速器设计方法
CN108805277A (zh) 基于多fpga的深度信念网络加速平台及其设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant