CN115600647A - 一种面向稀疏神经网络加速的bit级计算的模型架构*** - Google Patents

一种面向稀疏神经网络加速的bit级计算的模型架构*** Download PDF

Info

Publication number
CN115600647A
CN115600647A CN202211293289.1A CN202211293289A CN115600647A CN 115600647 A CN115600647 A CN 115600647A CN 202211293289 A CN202211293289 A CN 202211293289A CN 115600647 A CN115600647 A CN 115600647A
Authority
CN
China
Prior art keywords
input
weight
output
computation
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211293289.1A
Other languages
English (en)
Inventor
陈松
孙文浩
孙文迪
白雪飞
康一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211293289.1A priority Critical patent/CN115600647A/zh
Publication of CN115600647A publication Critical patent/CN115600647A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向稀疏神经网络加速的bit级计算的模型架构***,通过训练将权重bit中的1个数剪枝到不超过特定值,有效的降低了权重bit计算数目,同时相比直接将权重位宽剪枝至低bit,又保留了更多信息量。配合硬件架构的跳‘0’bit操作,实现了神经网络的硬件加速。因此,至少部分地克服了现有技术中直接降低了权重bit计算数目,从而造成剪枝位宽较少或精度损失较大的问题。

Description

一种面向稀疏神经网络加速的bit级计算的模型架构***
技术领域
本发明涉及稀疏神经网络计算技术领域,尤其涉及一种面向稀疏神经网络加速的bit级计算的模型架构***。
背景技术
随着基于深度学习的人工智能技术的飞速发展,高能效深度学习的***设计显得尤为重要,对计算效率的要求也是越来越高。为提升神经网络的性能,研究者通过模型量化的方式来降低神经网络的计算需求。
神经网络的权重可由高精度的浮点数量化至精度较低的定点数,且对于不同的网络,权重量化的位宽不一。为利用权重量化提升性能,大量研究者致力于在bit级计算实现硬件加速。目前用于bit级计算加速的主要方法为,通过直接将权重剪枝到低bit,从而达到加速的效果,然而,该方法会造成较大的信息损失,从而造成剪枝位宽较少或精度损失较大。
发明内容
本发明的目的是提供一种面向稀疏神经网络加速的bit级计算的模型架构***,可以降低bit计算数量,同时维持一定的信息量,使性能大大提升。
本发明的目的是通过以下技术方案实现的:
一种面向稀疏神经网络加速的bit级计算的模型架构***,包括:控制器、计算阵列、输入数据缓存、后处理单元、输出数据缓存、压缩模块和输出特征图聚类模块;其中:
所述控制器,用于控制模型架构的其他部分;
所述输入数据缓存,用于从片外缓存中读取输入图片或者结合片外缓存中的聚类结果从片外缓存读取输入特征图,以及计算阵列对应的权重数据,并缓存供计算阵列使用;其中,所述权重数据预先进行了剪枝,将每个权重中bit为1的个数剪枝到不超过设定的数目W;
所述计算阵列,用于从所述输入数据缓存中读取输入图片或者输入特征图,以及权重数据,并执行神经网络的卷积运算;
所述后处理单元,用于对所述计算阵列输出的卷积运算结果进行后处理,获得输出特征图;
所述输出数据缓存,用于缓存输出特征图;
所述压缩模块,用于将输出特征图转换成压缩格式并存入所述片外缓存;
所述输出特征图聚类模块,用于对所有输出特征图进行聚类,并将聚类结果存入片外缓存中。
由上述本发明提供的技术方案可以看出,通过训练将权重bit中的1个数剪枝到不超过特定值,有效的降低了权重bit计算数目,同时相比直接将权重位宽剪枝至低bit,又保留了更多信息量。配合模型架构的跳‘0’bit操作,实现了神经网络的硬件加速。因此,至少部分地克服了现有技术中直接降低了权重bit计算数目,从而造成剪枝位宽较少或精度损失较大的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种面向稀疏神经网络加速的bit级计算的模型架构***的示意图;
图2为本发明实施例提供的一种模型剪枝方法的流程图;
图3为本发明实施例提供的对权重进行剪枝、压缩与后续计算的流程图;
图4为本发明实施例提供的一种计算单元的示意图;
图5为本发明实施例提供的聚类流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
下面对本发明所提供的一种面向稀疏神经网络加速的bit级计算的模型架构***进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
本发明实施例提供一种面向稀疏神经网络加速的bit级计算的模型架构***,如图1所示,包括:控制器(TOP Controller)、计算阵列、输入数据缓存(Input Buffer)、后处理单元(Post-pro Module)、输出数据缓存(Ouput Buffer)、压缩模块(CompreModule)和输出特征图聚类模块(Channel Clustering Module)。
所述控制器,用于控制模型架构的其他部分,从而完成整个稀疏矩阵的计算流程。
所述输入数据缓存,用于从片外缓存中读取输入图片或者结合片外缓存中的聚类结果从片外缓存中读取输入特征图,以及计算阵列对应的权重数据,并缓存供计算阵列使用;其中,所述权重数据预先进行了剪枝,将每个权重中bit为1的个数剪枝到不超过设定的数目W。
所述计算阵列,用于从所述输入数据缓存中读取输入图片或者输入特征图,以及权重数据,并执行神经网络的卷积运算。
所述后处理单元,用于对所述计算阵列输出的卷积运算结果进行后处理(激活函数、池化等),获得输出特征图。
所述输出数据缓存,用于缓存输出特征图。
所述压缩模块,用于将输出特征图转换成压缩格式并存入所述片外缓存。
所述输出特征图聚类模块,用于对所有输出特征图进行聚类,并将聚类结果存入片外缓存中。
为了便于理解,下面针对***的各个部分以及所涉及的剪枝方法进行介绍。
一、模型剪枝方法。
本发明实施例中,提供一种模型剪枝方法,将每个权重中bit为1的个数剪枝到不超过设定的数目W。主要流程如图2所示,包括:
步骤1、设定剪枝目标,即数目W。
步骤2、统计每个权重中bit为1的数目,如果超过数目W,则按bit从低到高的顺序将超出数目的部分剪枝,然后重新训练,并检查精度。示例性的:假设剪枝目标为4(即W=4),现有权重‘10101111’,其bit中为’1‘的个数为6,因此我们需要将超过4的部分剪枝,即按bit从低到高的顺序依次将第0位和第1位剪枝掉。
步骤3、若超出精度损失范围,则停止剪枝,并保存当前的权重以及权重1bit个数N。
步骤4、若未超出精度损失范围,则返回步骤2。
设初始权重的位宽(权重的bit位数)为M,则其初始信息量为2M,即2M个数。剪枝后的权重‘1’bit个数为W,即不超过W个1在M个位置,因此其信息量为
Figure BDA0003902049010000041
相比直接将权重位宽剪枝到W,其信息量增大了
Figure BDA0003902049010000042
倍,其中,
Figure BDA0003902049010000043
表示在M中取i个数的组合数。因此,本发明能部分地克服了现有技术中直接降低了权重bit计算数目,从而造成剪枝位宽较少或精度损失较大的问题。
如图3所示,展示了对权重进行剪枝、压缩与计算的流程图,示例性的:初始权重二进制表示为W0(10101011)和W1(00101001),剪枝后变为W0(10100000)和W1(00101000),随后将权重压缩成bit值为‘1’的bit所处的位置信息,分别为序列{7,5}和{5,3}然后送入到PE中计算,从而跳过权重中bit为’0’的计算,缩短计算时间。
二、***各个部分说明。
1、计算阵列。
如图1所示,计算阵列的最小单元为计算单元(Process Element,PE),假设所述计算阵列包含M行N列的计算单元,其中,M与N均为大于1的整数。
本发明实施例中,每行计算单元之间能共享同一个输入图片或者输入特征图;每列计算单元之间计算同一个通道的输出特征图。具体的:第一列计算单元的输入为输入图片或者输入特征图,以及权重数据,当前列计算单元的卷积运算结果作为同一列中上一行计算单元的输入;第一行的N个计算单元的卷积运算结果即为计算阵列输出的卷积运算结果。
图1中,使用斜线填充的箭头IFM&Weight涵盖了输入图片、输入特征图与权重数据。
本发明实施例中,所述计算单元包括:移位相加单元,通过移位和/或相加操作(bit级乘法操作)来计算卷积结果;地址计算子单元,用于结合卷积结果计算输出特征图部分和(卷积计算时的中间结果)的地址;部分和缓存子单元,用于缓存输出特征图部分和的地址并结合相邻计算单元的部分和进行部分和的累加,输出完整的部分和作为所属计算单元的运算结果,如图1所示,使用圆点填充的箭头Psum(Partial sum)表示部分和,每列计算单元的部分和累加结果,由最底端的计算单元向上传播至最顶部单元,传播过程中不断累加,最终得到每列的最终结果。
如图4所示,展示了计算单元的主要结构示意图。计算单元包括四个输入端口,分别输入:非零的输入特征图Inz、权重Wnz_bit、输入特征图及权重的行列地址(Irow、Icol、Wrow、Wcol)、相邻计算单元的部分和Psumin,(Wrow,Wcol)为输入特征图的行列地址,(Irow,Icol)为权重的行列地址,其中,非零的输入特征图Inz以及权重Wnz_bit输入至移位相加单元(图3中使用符号“<<”表示),输入特征图权重的行列地输入至地址计算子单元(AddrCmp),相邻计算单元的部分和输入至部分和缓存子单元(Psum Buffer)。
本发明实施例中,考虑到初始特征图中存在零或非零的元素,为了缩短计算时间,只将特征图中的非零元素输入到计算单元参与计算。
计算单元的内部计算主要分为两个阶段,本地计算阶段和相邻PE累加阶段。在本地计算阶段时,计算单元接收非零的输入特征图Inz与权重Wnz_bit,在移位相加单元中完成bit级乘法,同时根据Irow、Icol、Wrow和Wcol,计算输出特征图的部分和地址,并存入到部分和缓存中。在相邻计算单元累加阶段,当前计算单元与相邻的计算单元进行部分和累加,最终得到完整的部分和通过输出端口Psumout输出。
2、输入数据缓存。
如图1所示,所述输入数据缓存的数目与所述计算阵列中计算单元的行数M相同,每一个输入数据缓存均单独与计算阵列中每一行第一个计算单元连接。
3、后处理单元。
如图1所示,所述后处理单元的数目与计算阵列中计算单元的列数N相同,第一行的N个计算单元均单独连接一个后处理单元,由后处理单元对相应计算单元的卷积运算结果计算激活函数计算与池化运算,获得单个通道的输出特征图。
4、输出数据缓存。
如图1所示,所述输出数据缓存的数目与后处理单元的数目相同,将后处理单元数目的单个通道的输出特征图缓存。
5、压缩模块。
如图1所示,所述压缩模块的数目与输出数据缓存的数目相同,用于对输出数据缓存中的输出特征图进行压缩。
6、输出特征图聚类模块。
所述输出特征图聚类模块,主要负责将稀疏度相近的特征图聚集在一起,例如,单个输出特征图共有64个元素,其中有40个零元素,24个非零元素,统计每个输出特征图的非零元素个数,最后将稀疏度相近的特征图(非零元素个数)接近的聚集起来。所述输出特征图聚类模块包括:数据长度缓存子单元,用于记录所有输出数据缓存中的输出特征图中的非零元素个数;排序子单元,用于根据输出特征图中的非零元素个数对通道序号排序;通道序号缓存子单元,用于缓存聚类后的输出特征图通道序号(即聚类结果);选择器子单元,用于连接输出数据缓存与片外缓存的数据通道,如图1所示,聚类结果将通过DDR AXI(基于总线协议的DDR接口)存入片外缓存(DRAM)。聚类流程如图5所示,假设有4个输入特征图I0~I3,则需分两次导入至1x2的计算单元阵列中计算。首先记录每个特征图的非零元素个数,分别为8,4,7,3,然后将其按大小排序,最后按大小将特征图聚类,之后分别以I0和I2,I1和I3的次序导入计算阵列中计算。
三、***工作流程。
本发明实施例中,***工作流程由控制器控制,主要流程包括:从外部将权重,初始输入图片导入片外缓存(DRAM)中,本发明处理的网络包含多层,第一层处理的是输入图片,输出结果存储于片外缓存,前一层的输出作为后一层的输入,后一层处理的输入特征图,读取自上所述片外缓存;然后由输入缓存单元读取部分权重数据(当前层的部分权重数据)。随后将权重数据解压后与输入特征图传输至计算阵列;计算阵列主要完成卷积计算中的乘累加操作;后处理单元负责将乘累加结果做激活、池化等操作,然后得到输出特征图;输出缓存负责存储输出特征图;随后将输出特征图送往压缩模块转换成压缩格式(可减少片外缓存的存储量,以及减少计算时间),以及由输出特征图聚类模块根据每个输出特征图的非零元素个数大小排序,将稀疏度相近的特征图聚类在一起以便后一层的数据负载均衡。最终将压缩模块的输出结果存储入片外缓存,作为后一层的输入装载至输入缓存单元,如此周而复始,直至最后一层;聚类结果缓存在通道序号缓存子单元中再通过DDR AXI存入片外缓存,后一层根据聚类结果中的通道序号读取片外缓存中的特征图。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种面向稀疏神经网络加速的bit级计算的模型架构***,其特征在于,包括:控制器、计算阵列、输入数据缓存、后处理单元、输出数据缓存、压缩模块和输出特征图聚类模块;其中:
所述控制器,用于控制模型架构的其他部分;
所述输入数据缓存,用于从片外缓存中读取输入图片或者结合片外缓存中的聚类结果从片外缓存读取输入特征图,以及计算阵列对应的权重数据,并缓存供计算阵列使用;其中,所述权重数据预先进行了剪枝,将每个权重中bit为1的个数剪枝到不超过设定的数目W;
所述计算阵列,用于从所述输入数据缓存中读取输入图片或者输入特征图,以及权重数据,并执行神经网络的卷积运算;
所述后处理单元,用于对所述计算阵列输出的卷积运算结果进行后处理,获得输出特征图;
所述输出数据缓存,用于缓存输出特征图;
所述压缩模块,用于将输出特征图转换成压缩格式并存入所述片外缓存;
所述输出特征图聚类模块,用于对所有输出特征图进行聚类,并将聚类结果存入片外缓存中。
2.根据权利要求17所述的一种面向稀疏神经网络加速的bit级计算的模型架构***,其特征在于,所述将每个权重中bit为1的个数剪枝到不超过设定的数目W的步骤包括:
步骤1、设定数目W;
步骤2、统计每个权重中bit为1的数目,如果超过数目W,则按bit从低到高的顺序将超出数目的部分,然后重新训练,并检查精度;
步骤3、若超出精度损失范围,则停止剪枝,并保存当前的权重以及权重1bit个数W;
步骤4、若未超出精度损失范围,则返回步骤2。
3.根据权利要求1所述的一种面向稀疏神经网络加速的bit级计算的模型架构***,其特征在于,所述计算阵列包含M行N列的计算单元;第一列计算单元的输入为输入图片或者输入特征图,以及权重数据,当前列计算单元的卷积运算结果作为同一列中上一行计算单元的输入;第一行的N个计算单元的卷积运算结果即为计算阵列输出的卷积运算结果;其中,M与N均为大于1的整数。
4.根据权利要求3所述的一种面向稀疏神经网络加速的bit级计算的模型架构***,其特征在于,所述计算单元包括:
移位相加单元,通过移位和/或相加操作来计算卷积结果;
地址计算子单元,用于结合卷积结果计算输出特征图部分和的地址;
部分和缓存子单元,用于缓存输出特征图部分和的地址并结合相邻计算单元的部分和进行部分和的累加,输出完整的部分和作为所属计算单元的运算结果。
5.根据权利要求4所述的一种面向稀疏神经网络加速的bit级计算的模型架构***,其特征在于,所述计算单元包括四个输入端口,分别输入:非零的输入特征图、权重、输入特征图与权重的行列地址、相邻计算单元的部分和;
其中,非零的输入特征图以及权重输入至移位相加单元,输入特征图与权重的行列地输入至地址计算子单元,相邻计算单元的部分和输入至部分和缓存子单元。
6.根据权利要求1或3所述的一种面向稀疏神经网络加速的bit级计算的模型架构***,其特征在于,所述输入数据缓存的数目与所述计算阵列中计算单元的行数M相同,每一个输入数据缓存均单独与计算阵列中每一行第一个计算单元连接。
7.根据权利要求1或3所述的一种面向稀疏神经网络加速的bit级计算的模型架构***,其特征在于,所述后处理单元的数目与计算阵列中计算单元的列数N相同,第一行的N个计算单元均单独连接一个后处理单元,由后处理单元对相应计算单元的卷积运算结果计算激活函数计算与池化运算,获得单个通道的输出特征图。
8.根据权利要求1所述的一种面向稀疏神经网络加速的bit级计算的模型架构***,其特征在于,所述输出数据缓存的数目与后处理单元的数目相同,将后处理单元数目的单个通道的输出特征图缓存。
9.根据权利要求1或8所述的一种面向稀疏神经网络加速的bit级计算的模型架构***,其特征在于,所述输出特征图聚类模块包括:
数据长度缓存子单元,用于记录所有输出数据缓存中的输出特征图中的非零元素个数;
排序子单元,用于根据输出特征图中的非零元素个数对通道序号排序;
通道序号缓存子单元,用于缓存聚类后的输出特征图通道序号;
选择器子单元,用于连接输出数据缓存与片外缓存的数据通道。
CN202211293289.1A 2022-10-21 2022-10-21 一种面向稀疏神经网络加速的bit级计算的模型架构*** Pending CN115600647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211293289.1A CN115600647A (zh) 2022-10-21 2022-10-21 一种面向稀疏神经网络加速的bit级计算的模型架构***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211293289.1A CN115600647A (zh) 2022-10-21 2022-10-21 一种面向稀疏神经网络加速的bit级计算的模型架构***

Publications (1)

Publication Number Publication Date
CN115600647A true CN115600647A (zh) 2023-01-13

Family

ID=84848683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211293289.1A Pending CN115600647A (zh) 2022-10-21 2022-10-21 一种面向稀疏神经网络加速的bit级计算的模型架构***

Country Status (1)

Country Link
CN (1) CN115600647A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167430A (zh) * 2023-04-23 2023-05-26 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于均值感知稀疏的目标检测模型全局剪枝方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167430A (zh) * 2023-04-23 2023-05-26 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于均值感知稀疏的目标检测模型全局剪枝方法及设备
CN116167430B (zh) * 2023-04-23 2023-07-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于均值感知稀疏的目标检测模型全局剪枝方法及设备

Similar Documents

Publication Publication Date Title
CN109063825B (zh) 卷积神经网络加速装置
CN107679622B (zh) 一种面向神经网络算法的模拟感知计算架构
CN112329910B (zh) 一种面向结构剪枝结合量化的深度卷积神经网络压缩方法
CN113344179B (zh) 基于fpga的二值化卷积神经网络算法的ip核
CN111209972A (zh) 基于混合连通性深度卷积神经网络的图像分类方法及***
CN115600647A (zh) 一种面向稀疏神经网络加速的bit级计算的模型架构***
CN108647184B (zh) 一种动态比特位卷积乘法实现方法
CN112286864A (zh) 加速可重构处理器运行的稀疏化数据处理方法及***
CN111105007A (zh) 用于目标检测的深度卷积神经网络的压缩加速方法
CN113516236A (zh) 基于zynq平台的vgg16网络并行加速处理方法
CN111008698B (zh) 用于混合压缩循环神经网络的稀疏矩阵乘法加速器
CN112329545B (zh) 基于zcu104平台的卷积神经网络实现及其在水果识别中的应用的处理方法
CN113762491B (zh) 一种基于fpga的卷积神经网络加速器
CN113902097A (zh) 针对稀疏化cnn神经网络模型的游程编码加速器及方法
CN110766136B (zh) 一种稀疏矩阵与向量的压缩方法
US11526328B2 (en) Computation method and apparatus exploiting weight sparsity
CN107783935A (zh) 基于动态精度可配运算的近似计算可重构阵列
CN115879530B (zh) 一种面向rram存内计算***阵列结构优化的方法
CN113392963B (zh) 基于fpga的cnn硬件加速***设计方法
CN115688892A (zh) 一种稀疏权重Fused-Layer卷积加速器结构的FPGA实现方法
Wang et al. TB-DNN: A thin binarized deep neural network with high accuracy
CN109117114B (zh) 一种基于查找表的低复杂度近似乘法器
CN113673693A (zh) 深度神经网络压缩的方法
CN109886394A (zh) 嵌入式设备中三值神经网络权值处理方法及装置
CN110764602B (zh) 用于降低存储开销的汇流阵列

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination