CN109886400B - 基于卷积核拆分的卷积神经网络硬件加速器***及其计算方法 - Google Patents

基于卷积核拆分的卷积神经网络硬件加速器***及其计算方法 Download PDF

Info

Publication number
CN109886400B
CN109886400B CN201910123822.1A CN201910123822A CN109886400B CN 109886400 B CN109886400 B CN 109886400B CN 201910123822 A CN201910123822 A CN 201910123822A CN 109886400 B CN109886400 B CN 109886400B
Authority
CN
China
Prior art keywords
module
data
convolution
calculation
convolution kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910123822.1A
Other languages
English (en)
Other versions
CN109886400A (zh
Inventor
倪伟
梁修壮
储萍
徐春琳
王月恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910123822.1A priority Critical patent/CN109886400B/zh
Publication of CN109886400A publication Critical patent/CN109886400A/zh
Application granted granted Critical
Publication of CN109886400B publication Critical patent/CN109886400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于卷积核拆分的卷积神经网络硬件加速器***及计算方法,包括零填充模块、控制模块、卷积核和数据拆分模块、卷积核权重缓存模块、数据缓存模块、片内地址索引模块、核心计算模块和中间结果缓存模块;零填充模块用于卷积核权重和图片数据的零填充处理;控制模块用于控制相关模块运行;卷积核和数据拆分模块用于产生拆分控制信号;卷积核权重缓存模块和数据缓存模块用于存储零填充后的卷积核权重和图片数据;片内地址索引模块用于产生地址索引;核心计算模块用于计算数据;中间结果缓存模块用于存储中间计算结果。本发明能提高运算并行度、降低硬件复杂度,从而适用于大型卷积计算。

Description

基于卷积核拆分的卷积神经网络硬件加速器***及其计算 方法
技术领域
本发明涉及到大规模神经网络的计算,尤其涉及对神经网络大型卷积计算的硬件并行加速计算。
背景技术
卷积神经网络(CNN)最早起源于20世纪60年代,是两位神经生物学家Hubel和Wiesel研究发现猫的视觉皮层的不同细胞会根据光线不同的走向而被激活,并以此建立了细胞对图像的激活和转化的模型,为卷积神经网络的出现奠定了基础。到1980年日本科学家K.Fukushima提出了神经认知机的概念,被认为是卷积神经网络的第一个实现原型。
近几年人工智能深度学习的兴起,卷积神经网络重新受到越来越广泛的关注。一方面是由于大数据时代下人们对大量快速变化数据的分类、识别、标注和检测等处理的需求。另一方面是计算机和集成电路等相关领域的发展使卷积神经网络的快速运行成为可能。与深度学习的其它模型相比,卷积神经网络卷积核权重共享结构使其模型更接近生物的神经网络结构,模型复杂度低、识别精度高等优势使得卷积神经网络被广泛用于图像识别、语音识别、人脸识别等应用中。
但由于CNN模型具有数据量大、计算投入高、存储密集等特点,并且随着识别精度要求的提高还会增加,使得卷积神经网络在诸如自动驾驶之类的实时***上成为挑战。虽然理论上卷积神经网络可以在硬件中大规模的并行实现,但受到带宽、计算资源、存储等资源的限制,尤其在面对大型卷积计算时不够灵活。
发明内容
为了解决上述不足之处,本发明提出了一种基于卷积核拆分的卷积神经网络硬件加速器***及其计算方法,以期能通过拆分的方法简化卷积计算,提高运算并行度、利用数据重用和计算单元的通用性,降低硬件复杂度,从而适用于大型卷积计算。
为实现上述目的,本发明采用如下技术方案:
本发明一种基于卷积核拆分的卷积神经网络硬件加速器***的特点包括:零填充模块、控制模块、卷积核和数据拆分模块、卷积核权重缓存模块、数据缓存模块、片内地址索引模块、核心计算模块和中间结果缓存模块;
所述控制模块控制所述片内地址索引模块产生所需读取数据的地址索引;
在所述控制模块的控制下,所述零填充模块根据所述地址索引分别从片外存储器读取相应的卷积核权重和图片数据并进行零填充处理,得到零填充处理后的卷积核权重和图片数据并重新发送给所述片外存储器;
在所述控制模块的控制下,所述卷积核权重缓存模块和数据缓存模块根据所述地址索引分别从片外存储器中读取零填充处理后的卷积核权重数据和图片数据;
所述卷积核和数据拆分模块从所述控制模块中获取拆分格式,并根据所述拆分格式产生拆分控制信号给所述核心计算模块;
所述核心计算模块根据所述拆分控制信号从所述卷积核权重缓存模块和所述数据缓存模块中按照所述拆分格式边读取边拆分所述零填充处理后的卷积核权重数据和图片数据,并对拆分后的卷积核权重数据和图片数据进行卷积、池化和非线性激活运算,从而得到中间计算结果和最终结果并分别发送给所述中间结果缓存模块和片外存储器。
本发明所述的卷积神经网络硬件加速器***的特点也在于:
所述零填充模块是将大小为N×N的数据块分别在第N行的下方增加m行和第N列的右侧增加m列,从而扩展为(N+m)×(N+m)的数据块,且新增的m列和m行中的数据全部用“0”填充;零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除。
所述核心计算模块包含:卷积计算单元、加法树单元、非线性激活单元、池化单元和复用器;
所述卷积计算单元是由若干个卷积计算基本处理单元构成的PE阵列组成;
所述PE阵列中的每个卷积计算基本处理单元从数据缓存模块中分别读取各自所需的零填充处理后的图片数据,同时利用所述复用器从所述卷积核权重缓存模块中分别读取各自所需的零填充处理后的卷积核权重数据用于进行卷积计算,得到若干个卷积计算结果并传递给所述加法树单元;
所述加法树单元对若干个卷积计算结果进行加法运算后再加上卷积偏置值,得到加法树的计算结果并传递给所述非线性激活模块进行非线性激活处理,得到激活结果发送到所述池化模块进行降维处理;得到池化后的结果并作为中间计算结果发送给所述中间结果缓存模块。
本发明一种基于卷积核拆分的卷积神经网络硬件加速器***的计算方法的特点是按如下步骤进行:
步骤1、所述卷积神经网络硬件加速器根据主机的计算控制指令获取所需读取数据的地址索引;并根据所述地址索引分别从片外存储器读取大小为N×N的卷积核权重和图片数据并在第N行的下方增加m行和第N列的右侧增加m列,从而扩展为(N+m)×(N+m)的卷积核权重和图片数据,且新增的m列和m行中的数据全部用“0”填充,从而得到零填充处理后的卷积核权重和图片数据;
步骤2、所述卷积神经网络硬件加速器从所述计算控制指令中获取拆分格式,且零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除;
步骤3、所述卷积神经网络硬件加速器根据所述拆分格式利用自身PE阵列中的每个卷积计算基本处理单元对所述零填充处理后的图片数据进行边读取边拆分处理,同时利用复用器分别读取各自所需的零填充处理后的卷积核权重数据,得到拆分后的卷积核权重数据和图片数据再进行卷积、池化和非线性激活运算,从而得到中间计算结果和最终结果并发送给所述片外存储器。
与现有的技术相比,本发明的有益效果体现在:
本发明根据需要对卷积核和输入图片进行填充,再把大卷积核拆分成若干个小卷积核进行卷积计算,从而通过拆分的方法简化了卷积计算,同时充分利用神经网络卷积运算的结构特点,降低了卷积的规模,减少了计算硬件资源的使用,避免了大规模计算,充分利用了数据重用性加速卷积计算,使卷积神经网络的计算数据传递更加灵活方便。
附图说明
图1是本发明卷积神经网络加速器***结构图;
图2是本发明核心计算模块结构图;
图3是本发明零填充处理示意图;
图4是本发明卷积核和数据拆分示意图;
图5是本发明输入数据拆分实例图;
图6是本发明拆分之后进行单次卷积计算示意图
图7是本发明PE中乘累加块示意图;
图8是本发明11×11卷积核的卷积计算示意图;
图9是本发明拆分之后整体卷积计算实现图;
具体实施方式
本实施例中,如图1所示,是一种基于卷积核拆分方法的卷积神经网络硬件加速器***,用于通过硬件电路的方式配合主机加速卷积神经网络中的大规模卷积运算,包括:零填充模块、控制模块、卷积核和数据拆分模块、卷积核权重缓存模块、数据缓存模块、片内地址索引模块、核心计算模块和中间结果缓存模块;
首先,主机将需要进行加速运算的神经网络参数,包括卷积层和池化层数量,每层输入数据的尺寸大小、步长大小、卷积核尺寸、片外存储器中存储权重数据和图片数据区域的起始地址给控制模块。控制模块根据主机提供的参数控制片内地址索引模块产生所需读取图片数据的地址索引;
在控制模块的控制下,零填充模块根据地址索引分别从片外存储器读取相应的卷积核权重和图片数据并进行零填充处理,得到零填充处理后的卷积核权重和图片数据并重新发送给片外存储器;具体实施中,零填充模块将大小为N×N的数据块分别在第N行的下方增加m行和第N列的右侧增加m列,从而扩展为(N+m)×(N+m)的数据块,且新增的m列和m行中的数据全部用“0”填充;零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除。
本实施例中,以深度卷积神经网络AlexNet为例,存在尺寸分别为11×11、5×5和3×3的三种卷积核。对于3×3卷积核,因其已可以直接用于卷积计算,无需零填充处理。5×5卷积核,在其下方和右侧分别增加一个全“0”行和一个全“0”列,使其扩展为6×6的卷积核,如图3所示。11×11卷积核也按照此方法进行类似处理。对于输入图片数据,AlexNet中不同层所处理的输入数据大小不同,以第一层卷积层为例,输入图片数据大小为227×227×3,其中3表示输入图像的通道数。按照上述方法变为228×228×3。其他尺寸的输入图片,也按照此方式进行类似处理。
在控制模块的控制下,卷积核权重缓存模块和数据缓存模块根据地址索引分别从片外存储器中读取零填充处理后的卷积核权重数据和图片数据;
卷积核和数据拆分模块从控制模块中获取拆分格式,并根据拆分格式产生拆分控制信号给核心计算模块;
具体实施中,核心计算模块由卷积计算单元、加法树单元、非线性激活单元、池化单元和复用器(MUX)组成,如图2所示,并根据拆分控制信号从卷积核权重缓存模块和数据缓存模块中按照拆分格式边读取边拆分零填充处理后的卷积核权重数据和图片数据。本实施例中,将零填充处理后的6×6卷积核拆分为4个3×3的卷积核,12×12卷积核拆分为9个4×4的卷积核。由于新填充的数值为0,所以卷积运算时的乘积也是0,对计算结果不会产生影响,这样就把5×5的卷积计算拆分成4个3×3卷积计算块,如图4所示,从而实现并行卷积计算和复用计算单元。输入图片也按照此方法进行类似处理,以AlexNet第一层卷积层为例,输入图片尺寸为228×228×3,将228×228的输入图片以4×4小矩阵为单位拆分成57×57个小矩阵,如图5所示。核心计算模块对拆分后的卷积核权重数据和图片数据进行卷积、池化和非线性激活运算,从而得到中间计算结果和最终结果并分别发送给中间结果缓存模块和片外存储器。
拆分之后的单次卷积计算具体实现方式如图6所示,以卷积核的尺寸11×11为例,输出公式为
Figure BDA0001972922120000051
其中
Figure BDA0001972922120000052
表示卷积计算,卷积计算公式变为:
Figure BDA0001972922120000053
卷积计算单元是由若干个卷积计算基本处理单元构成的PE阵列组成;PE阵列中的每个卷积计算基本处理单元是由一个个基本的乘累加计算块(MAC)组成,如图7所示,一个MAC包含两个输入端口in_a和in_b,一个输出端口out,一个乘法器一个加法器以及一个寄存器,寄存器的初始值设置为0。各个MAC从数据缓存模块中分别读取各自所需的零填充处理后的图片数据到各个乘法器的输入端口in_b,同时利用复用器从卷积核权重缓存模块中分别读取各自所需的零填充处理后的卷积核权重数据到各个乘法器的输入端口in_a中用于进行乘法运算,结果送至加法器中,并与寄存器中所存储的上一次乘累加结果进行累加,进行卷积计算,每个时钟周期可以完成一次拆分后的4×4卷积计算,如图8所示。
以计算AlexNet的第一层卷积层为例,计算过程如图9所示,其中W1到W9为卷积核拆分后的9个小卷积核,R、C表示拆分后输入数据的行和列。一个卷积核尺寸的卷积计算被分到3个PE中计算完成,经过3个时钟周期后加载3个PE内的数据到加法树模块累加,最终得出卷积计算结果。由于移动的步长为4,一个4×4输入图片数据块可以同时加载到其它PE中,如R3C1、R3C2、R3C3被分别同时加载到9个PE中,第1个卷积输出结果在第3个时钟由PE1、PE2、PE3计算的值累加得到,第2个卷积输出结果在第4个时钟由PE4、PE5、PE6计算的值累加得到,第3个卷积输出结果在第5个时钟由PE7、PE8、PE9计算的值累加得到,第4个卷积输出结果在第6个时钟再由PE1、PE2、PE3计算的值累加得到,以此类推。在PE内部不需要在考虑数据复用的问题,每个传递到PE阵列中的输入图片数据只需要参与一次卷积计算即可,简化了计算。
当一个卷积核内的9块输入数据全都读取到PE阵列并完成计算后,再把PE中积累的16个卷积计算结果传递给加法树单元进行累加计算,得出输出结果存储到中间结果缓存中,PE中的每个数据的计算是并行执行的,当所有数据加载到3个PE中后,3个PE每3个时钟周期就可以得到一个输出结果,而且计算仅用到了3个小规模的计算阵列,节省硬件资源的同时提高了速度。
加法树单元对若干个卷积计算结果进行加法运算后再加上卷积偏置值,得到加法树的计算结果并传递给非线性激活模块进行非线性激活处理,得到激活结果发送到池化模块进行降维处理;得到池化后的结果并作为中间计算结果发送给中间结果缓存模块。
具体实施中,加速器以多级流水线方式进行计算,其中,卷积核权重缓存和数据缓存是按照每一层的需求被分割成许多个小的缓存块。采用乒乓缓存结构,每一层至少包括一个卷积核权重缓存,两个输入缓存,其中两个输入缓存始终保持一个缓存在接受数据的状态另一个在读取数据的状态,这样提高了效率。
本实施例中,一种基于卷积核拆分的卷积神经网络硬件加速器***的计算方法是按如下步骤进行:
步骤1、卷积神经网络硬件加速器根据主机的计算控制指令获取所需读取数据的地址索引;并根据地址索引分别从片外存储器读取大小为N×N的卷积核权重和图片数据并在第N行的下方增加m行和第N列的右侧增加m列,从而扩展为(N+m)×(N+m)的卷积核权重和图片数据,且新增的m列和m行中的数据全部用“0”填充,从而得到零填充处理后的卷积核权重和图片数据;
步骤2、卷积神经网络硬件加速器从计算控制指令中获取拆分格式,且零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除;
步骤3、卷积神经网络硬件加速器根据拆分格式利用自身PE阵列中的每个卷积计算基本处理单元对零填充处理后的图片数据进行边读取边拆分处理,同时利用复用器分别读取各自所需的零填充处理后的卷积核权重数据,得到拆分后的卷积核权重数据和图片数据再进行卷积、池化和非线性激活运算,从而得到中间计算结果和最终结果并发送给片外存储器。
综上所述,本发明能够通过拆分的方法简化神经网络中大规模卷积计算,具有提高运算并行度、数据重用和计算单元的通用性,降低了硬件复杂度,从而适用于采用硬件的方式灵活实现大规模卷积计算的优点。

Claims (3)

1.一种基于卷积核拆分的卷积神经网络硬件加速器***,其特征包括:零填充模块、控制模块、卷积核和数据拆分模块、卷积核权重缓存模块、数据缓存模块、片内地址索引模块、核心计算模块和中间结果缓存模块;
所述控制模块控制所述片内地址索引模块产生所需读取数据的地址索引;
在所述控制模块的控制下,所述零填充模块根据所述地址索引分别从片外存储器读取相应的卷积核权重和图片数据并进行零填充处理,得到零填充处理后的卷积核权重和图片数据并重新发送给所述片外存储器;
其中,所述零填充模块是将大小为N×N的数据块分别在第N行的下方增加m行和第N列的右侧增加m列,从而扩展为(N+m)×(N+m)的数据块,且新增的m列和m行中的数据全部用“0”填充;零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除;
在所述控制模块的控制下,所述卷积核权重缓存模块和数据缓存模块根据所述地址索引分别从片外存储器中读取零填充处理后的卷积核权重数据和图片数据;
所述卷积核和数据拆分模块从所述控制模块中获取拆分格式,并根据所述拆分格式产生拆分控制信号给所述核心计算模块;
所述核心计算模块根据所述拆分控制信号从所述卷积核权重缓存模块和所述数据缓存模块中按照所述拆分格式边读取边拆分所述零填充处理后的卷积核权重数据和图片数据,并对拆分后的卷积核权重数据和图片数据进行卷积、池化和非线性激活运算,从而得到中间计算结果和最终结果并分别发送给所述中间结果缓存模块和片外存储器。
2.根据权利要求1所述的卷积神经网络硬件加速器***,其特征是:所述核心计算模块包含:卷积计算单元、加法树单元、非线性激活单元、池化单元和复用器;
所述卷积计算单元是由若干个卷积计算基本处理单元构成的PE阵列组成;
所述PE阵列中的每个卷积计算基本处理单元从数据缓存模块中分别读取各自所需的零填充处理后的图片数据,同时利用所述复用器从所述卷积核权重缓存模块中分别读取各自所需的零填充处理后的卷积核权重数据用于进行卷积计算,得到若干个卷积计算结果并传递给所述加法树单元;
所述加法树单元对若干个卷积计算结果进行加法运算后再加上卷积偏置值,得到加法树的计算结果并传递给所述非线性激活模块进行非线性激活处理,得到激活结果发送到所述池化模块进行降维处理;得到池化后的结果并作为中间计算结果发送给所述中间结果缓存模块。
3.一种基于卷积核拆分的卷积神经网络硬件加速器***的计算方法,其特征是按如下步骤进行:
步骤1、所述卷积神经网络硬件加速器根据主机的计算控制指令获取所需读取数据的地址索引;并根据所述地址索引分别从片外存储器读取大小为N×N的卷积核权重和图片数据并在第N行的下方增加m行和第N列的右侧增加m列,从而扩展为(N+m)×(N+m)的卷积核权重和图片数据,且新增的m列和m行中的数据全部用“0”填充,从而得到零填充处理后的卷积核权重和图片数据;
步骤2、所述卷积神经网络硬件加速器从所述计算控制指令中获取拆分格式,且零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除;
步骤3、所述卷积神经网络硬件加速器根据所述拆分格式利用自身PE阵列中的每个卷积计算基本处理单元对所述零填充处理后的图片数据进行边读取边拆分处理,同时利用复用器分别读取各自所需的零填充处理后的卷积核权重数据,得到拆分后的卷积核权重数据和图片数据再进行卷积、池化和非线性激活运算,从而得到中间计算结果和最终结果并发送给所述片外存储器。
CN201910123822.1A 2019-02-19 2019-02-19 基于卷积核拆分的卷积神经网络硬件加速器***及其计算方法 Active CN109886400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910123822.1A CN109886400B (zh) 2019-02-19 2019-02-19 基于卷积核拆分的卷积神经网络硬件加速器***及其计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910123822.1A CN109886400B (zh) 2019-02-19 2019-02-19 基于卷积核拆分的卷积神经网络硬件加速器***及其计算方法

Publications (2)

Publication Number Publication Date
CN109886400A CN109886400A (zh) 2019-06-14
CN109886400B true CN109886400B (zh) 2020-11-27

Family

ID=66928599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910123822.1A Active CN109886400B (zh) 2019-02-19 2019-02-19 基于卷积核拆分的卷积神经网络硬件加速器***及其计算方法

Country Status (1)

Country Link
CN (1) CN109886400B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390382B (zh) * 2019-06-20 2023-08-04 东南大学 一种带新型特征图缓存模块的卷积神经网络硬件加速器
CN110414672B (zh) * 2019-07-23 2022-11-01 江苏鼎速网络科技有限公司 卷积运算方法、装置及***
CN110533164B (zh) * 2019-08-05 2023-04-07 西安交通大学 一种面向卷积神经网络加速器的Winograd卷积拆分方法
CN110688616B (zh) * 2019-08-26 2023-10-20 陈小柏 一种基于乒乓ram的条带阵列的卷积模块及其运算方法
CN112580675A (zh) * 2019-09-29 2021-03-30 北京地平线机器人技术研发有限公司 图像处理方法及装置、计算机可读存储介质
CN112712461B (zh) * 2019-10-24 2024-04-19 Tcl科技集团股份有限公司 一种图像反卷积处理方法、装置及终端设备
CN110796245B (zh) * 2019-10-25 2022-03-22 浪潮电子信息产业股份有限公司 卷积神经网络模型的计算方法及装置
CN110807522B (zh) * 2019-10-31 2022-05-06 合肥工业大学 一种神经网络加速器的通用计算电路
CN112765540B (zh) * 2019-11-01 2024-02-20 中科寒武纪科技股份有限公司 数据处理方法、装置及相关产品
CN112470138A (zh) * 2019-11-29 2021-03-09 深圳市大疆创新科技有限公司 计算装置、方法、处理器和可移动设备
CN113052291B (zh) * 2019-12-27 2024-04-16 上海商汤智能科技有限公司 数据处理方法和装置
CN111260037B (zh) * 2020-02-11 2023-10-13 深圳云天励飞技术股份有限公司 图像数据的卷积运算方法、装置、电子设备及存储介质
CN111767246B (zh) * 2020-06-09 2024-03-05 上海寒武纪信息科技有限公司 数据处理方法、相关设备及计算机可读介质
CN111767243A (zh) * 2020-06-09 2020-10-13 上海寒武纪信息科技有限公司 数据处理方法、相关设备及计算机可读介质
CN113807489B (zh) * 2020-06-17 2024-04-02 安徽寒武纪信息科技有限公司 用于执行反卷积操作的方法、板卡及其计算装置
CN111860809B (zh) * 2020-06-18 2024-03-15 清华大学 采用填充后图像传感芯片进行首层卷积层处理的方法
CN111800636A (zh) * 2020-07-06 2020-10-20 南京大学 一种基于卷积自动编码算法的图像压缩硬件加速器装置
CN111860780A (zh) * 2020-07-10 2020-10-30 逢亿科技(上海)有限公司 不规则卷积核卷积神经网络硬件加速***及计算方法
CN112100118B (zh) * 2020-08-05 2021-09-10 中科驭数(北京)科技有限公司 神经网络计算方法、装置和存储介质
CN112052941B (zh) * 2020-09-10 2024-02-20 南京大学 一种应用于cnn网络卷积层的高效存算***及其运算方法
CN112215745A (zh) * 2020-09-30 2021-01-12 深圳云天励飞技术股份有限公司 图像处理方法、装置及电子设备
TWI768497B (zh) * 2020-10-07 2022-06-21 大陸商星宸科技股份有限公司 智慧處理器、資料處理方法及儲存介質
CN112614043B (zh) * 2020-12-16 2023-04-07 上海壁仞智能科技有限公司 用于卷积的方法、计算设备和计算机可读存储介质
CN112668708B (zh) * 2020-12-28 2022-10-14 中国电子科技集团公司第五十二研究所 一种提高数据利用率的卷积运算装置
CN113255898B (zh) * 2021-06-16 2022-08-02 合肥工业大学 基于Winograd算法的卷积神经网络硬件加速器及计算方法
CN113448624B (zh) * 2021-07-15 2023-06-27 安徽聆思智能科技有限公司 数据存取方法及装置、***、ai加速器
CN113780544B (zh) * 2021-11-10 2022-04-05 南京风兴科技有限公司 大卷积核硬件实现方法、计算机设备及可存储介质
CN114202067A (zh) * 2021-11-30 2022-03-18 山东产研鲲云人工智能研究院有限公司 面向卷积神经网络加速器的带宽优化方法及相关设备
CN114169514B (zh) * 2022-02-14 2022-05-17 浙江芯昇电子技术有限公司 一种卷积硬件加速方法及卷积硬件加速电路
CN115982530A (zh) * 2023-03-13 2023-04-18 苏州浪潮智能科技有限公司 加速器运算控制方法、***、存储介质、装置及设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380479B2 (en) * 2015-10-08 2019-08-13 International Business Machines Corporation Acceleration of convolutional neural network training using stochastic perforation
AU2016203619A1 (en) * 2016-05-31 2017-12-14 Canon Kabushiki Kaisha Layer-based operations scheduling to optimise memory for CNN applications
US9646243B1 (en) * 2016-09-12 2017-05-09 International Business Machines Corporation Convolutional neural networks using resistive processing unit array
CN107451654B (zh) * 2017-07-05 2021-05-18 深圳市自行科技有限公司 卷积神经网络的加速运算方法、服务器及存储介质
CN108171317B (zh) * 2017-11-27 2020-08-04 北京时代民芯科技有限公司 一种基于soc的数据复用卷积神经网络加速器
CN107862378B (zh) * 2017-12-06 2020-04-24 芯原微电子(上海)股份有限公司 基于多核的卷积神经网络加速方法及***、存储介质及终端
CN108108809B (zh) * 2018-03-05 2021-03-02 山东领能电子科技有限公司 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法
CN108710941A (zh) * 2018-04-11 2018-10-26 杭州菲数科技有限公司 用于电子设备的神经网络模型的硬加速方法和装置
CN109146065B (zh) * 2018-09-30 2021-06-08 中国人民解放军战略支援部队信息工程大学 二维数据的卷积运算方法及装置

Also Published As

Publication number Publication date
CN109886400A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109886400B (zh) 基于卷积核拆分的卷积神经网络硬件加速器***及其计算方法
CN111459877B (zh) 基于FPGA加速的Winograd YOLOv2目标检测模型方法
CN111967468B (zh) 一种基于fpga的轻量级目标检测神经网络的实现方法
CN109409511B (zh) 一种用于动态可重构阵列的卷积运算数据流调度方法
CN110348574B (zh) 一种基于zynq的通用卷积神经网络加速结构及设计方法
CN110210610B (zh) 卷积计算加速器、卷积计算方法及卷积计算设备
CN111445012B (zh) 一种基于fpga的分组卷积硬件加速器及其方法
CN111626414B (zh) 一种动态多精度神经网络加速单元
CN111898733B (zh) 一种深度可分离卷积神经网络加速器架构
US20230026006A1 (en) Convolution computation engine, artificial intelligence chip, and data processing method
CN111859273A (zh) 矩阵乘法器
WO2022007266A1 (zh) 一种卷积神经网络的加速方法及装置
CN111210019B (zh) 一种基于软硬件协同加速的神经网络推断方法
CN114781629B (zh) 基于并行复用的卷积神经网络的硬件加速器及并行复用方法
WO2022007265A1 (zh) 一种膨胀卷积加速计算方法及装置
CN111768458A (zh) 一种基于卷积神经网络的稀疏图像处理方法
EP4374296A1 (en) Hybrid machine learning architecture with neural processing unit and compute-in-memory processing elements
Lin et al. A high-speed low-cost CNN inference accelerator for depthwise separable convolution
CN111814972B (zh) 一种基于fpga的神经网络卷积运算加速方法
CN116090518A (zh) 基于脉动运算阵列的特征图处理方法、装置以及存储介质
KR20240058084A (ko) 뉴럴 네트워크들에 대한 병렬 깊이별 프로세싱 아키텍처들
CN112561943B (zh) 一种基于脉动阵列卷积运算数据复用的图像处理方法
US20230047364A1 (en) Partial sum management and reconfigurable systolic flow architectures for in-memory computation
CN114925780A (zh) 一种基于fpga的轻量级cnn分类器的优化提速方法
CN110930290B (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant