CN110516801B - 一种高吞吐率的动态可重构卷积神经网络加速器 - Google Patents
一种高吞吐率的动态可重构卷积神经网络加速器 Download PDFInfo
- Publication number
- CN110516801B CN110516801B CN201910718678.6A CN201910718678A CN110516801B CN 110516801 B CN110516801 B CN 110516801B CN 201910718678 A CN201910718678 A CN 201910718678A CN 110516801 B CN110516801 B CN 110516801B
- Authority
- CN
- China
- Prior art keywords
- data
- input
- module
- output
- cache
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 61
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000009825 accumulation Methods 0.000 claims abstract description 19
- 230000004913 activation Effects 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims description 65
- 239000010410 layer Substances 0.000 claims description 32
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 239000011229 interlayer Substances 0.000 claims description 2
- 238000004806 packaging method and process Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7807—System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
- G06F15/781—On-chip cache; Off-chip memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7867—Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
- G06F15/7871—Reconfiguration support, e.g. configuration loading, configuration switching, or hardware OS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明一种高吞吐率的动态可重构卷积神经网络加速器架构。其输入输出缓存和权值缓存用于存储来自储外部存储器的数据或者计算过程中产生的数据,以及卷积核数据,将其组织、排列后,以统一的数据流传送到运算阵列中进行计算;运算阵列用于接收来自输入输出缓存和权值缓存的数据,进行卷积操作处理后存储在缓存架构中;输出处理模块用于接收来自运算阵列的数据,选择进行累加、标准化、或者激活函数等操作,并将输出数据存储在输入输出缓存中;控制模块用于向其他模块发送命令,并设计有外部接口,用于和外部***进行通信。本发明通过设计高并行度、高利用率的运算阵列以及高片上数据复用率的缓存架构提高卷积神经网络加速器的性能,降低功耗。
Description
技术领域
本发明属于神经网络加速器领域,尤其涉及一种高吞吐率的动态可重构卷积神经网络加速器。
背景技术
人工智能是目前热门的计算机科学之一,作为实现人工智能的主要方式,深度学***台。对于深度学习算法的硬件加速,目前通常有三类实现方式——多核CPU、GPU和FPGA,它们的共同特点是可以实现高并行度的计算。然而,现有的硬件实现方式功耗较高,还存在着能量效率(性能/功耗)较低的问题,并不能应用在智能移动终端上,例如智能手机、可穿戴设备或者是自动驾驶汽车等。在此背景下,可重构处理器已经被证明是一种兼具高灵活性和高能量效率的并行计算架构形式,它的优势在于可以根据不同的模型大小来选择合适的资源配置策略,扩大专用处理器使用范围的同时提高处理性能,是多核CPU和FPGA技术进一步发展受到限制的解决途径之一,有可能成为未来实现高效能深度学习SoC的方案之一。
卷积神经网络加速器首先要满足可重构,可配置的要求,支持算法层面上网络结构的不断演进,满足丰富多样的应用场景;其次要满足高性能、低能耗的要求,需要克存储带宽限制,充分利用硬件资源。
发明内容
本发明的目的在于提供一种高吞吐率的动态可重构卷积神经网络加速器,其通过设计高并行度、高利用率的运算单元阵列以及可提升数据复用率的缓存架构提高卷积神经网络加速器的性能,降低功耗,同时设计具有一定的可配置性,可适用于多种应用场景。
本发明采用如下技术方案来实现的:
一种高吞吐率的动态可重构卷积神经网络加速器,包括输入处理模块、权值处理模块、运算阵列、输出处理模块和控制模块;其中,
输入处理模块用于存储来自储外部存储器的数据或者计算过程中产生的数据,将其组织、排列后,以预设的数据结构传送到运算阵列中进行计算;
运算阵列用于接收来自输入处理模块和权值处理模块的数据,进行点乘操作处理后传送至输出处理模块中;
输出处理模块用于接收来自运算阵列的数据,选择进行通道累加、输出转化、池化、标准化、或者激活函数操作,并将输出数据存储在输入处理模块中;
控制器用于向输入处理模块、权值处理模块、运算阵列和输出处理模块发送命令,并设计有外部接口,用于和外部***进行通信。
本发明进一步的改进在于,输入处理模块包括输入输出缓存、输入转换模块和输入转换缓存模块;输入输出缓存的输出端与输入转换模块的输入端连接,输入转换模块的输出端与输入转换缓存模块的输入端连接,输入转换缓存模块的输出端与运算阵列的输入端连接;
输入输出缓存用于接收多输入通道的输入图像数据,并同时将多个输入通道的数据传送至输入转换模块进行转换处理;输入输出缓存也用于存储计算过程中的中间数据,以及将数据读入或写出至外部存储;输入转换缓存模块用于存储来自输入转换模块中产生的数据,并且将数据传送至运算阵列。
本发明进一步的改进在于,输入输出缓存包括缓存片、缓存行、预处理模块和地址解析器;
输入输出缓存包括有64个缓存片,每个缓存片由6个缓存行组成,预处理模块用来处理从输入输出缓存中读出的数据,选择其中的有效数据,地址解析器用于解析输入至输入输出缓存的地址。
本发明进一步的改进在于,权值处理模块包括权值缓存和权值转换模块;权值缓存的输出端与权值转换模块的输入端连接,权值转换模块的输出端与运算阵列的输入端连接;
权值转换模块用于接受每一层卷积网络计算所使用的权值数据,并将数据传送至权值缓存进行转换处理;权值转换模块将转换完毕的权值数据直接传送至运算阵列。
本发明进一步的改进在于,运算阵列包括16×16运算单元阵列,第一通道调度器以及第二通道调度器,每个运算单元均由4×4乘法器阵列组成;每列16个运算单元与第一通道调度器输出端相连,每行16个运算单元与第二通道调度器输出端相连,第一通道调度器输入端与输入输出缓存模块相连,第二通道调度器输入端与权值转换模块相连;
第一通道调度器和第二通道调度器均用于改变卷积运算中不同层次的并行度;乘法器用于进行卷积运算中的点乘运算。
本发明进一步的改进在于,输出处理模块包括激活函数模块、标准化模块、输出转换模块、和通道累加模块;
运算阵列的输出端与通道累加模块的输入端连接,通道累加模块的输入端与输出转换模块的输入端连接,输出转换模块的输入端与标准化模块的输入端连接,标准化模块的输入端和激活函数模块的输入端连接,激活函数模块的输入端和输入输出缓存的输入端连接;
通道累加模块用于对来自运算阵列的多通道数据进行累加,输出转换模块标准化模块用于将累加后的数据进行转换,激活函数模块用于对数据进行标准化处理,用于对数据进行激活。
本发明进一步的改进在于,通道累加模块包括加法器和输出选择模块;
加法器用于将16个输入通道的数据进行累加,输出选择模块用于选择输出多少通道的数据。
本发明具有如下有益的技术效果:
1、加速器采用了Winograd算法来加速卷积运算,可以减少乘法次数,达到在相同乘法器使用情况时,相比于传统加速器实现更高的算法并行度以及吞吐率。
2、加速器的缓存架构有四种片上数据复用机制,可以减小数据访问时间,并可以减小带宽的使用。
3、加速器支持对卷积进行拆分,使得加速器适应多种不同大小卷积核,不同步长卷积。
4、加速器支持组卷积和深度可分离卷积,支持MobileNet等轻量级网络,该类网络具有准确度较高,网络结构较简单,网络参数少的特点。
5、加速器支持卷积、池化、激活函数、标准化、全连接操作。
6、加速器完全可配置,包括输入、输出通道数、输入图像大小、卷积核大小、卷积步长和计算并行度。
7、可以在通用SOC平台上集成加速器,可通过软件平台更便捷的配置多种网络结构。
综上所述,本发明面向卷积神经网络加速领域,通过设计高并行度、高利用率的运算单元阵列以及高数据复用的缓存架构,实现了高吞吐率要求,同时具有一定的可配置性,适用于多种卷积神经网络。
附图说明
图1为本发明高吞吐率的动态可重构卷积神经网络处理器示意图。
图2为输入输出缓存结构示意图。
图3为运算阵列结构示意图。
图4为通道累加模块结构示意图。
图5为四层片上数据复用机制示意图
附图标记说明:
1为输入处理模块,10为输入数据缓存,11为输入转换模块,12为输入转换缓存模块,100为缓存片,101为缓存行,102为预处理模块,103为地址解析模块;
2为权值处理模块,20为权值缓存,21权值转换模块;
3为运算阵列,30为运算单元,31为第一通道调度器,32为第二通道调度器,301为乘法器;
4为输出处理模块,40为激活函数模块,41为标准化模块,42为输出转化模块,43为通道累加模块,430为加法器,431为通道选择模块;
5为控制模块。
具体实施方式
以下结合附图对本发明做出进一步的说明。
如图1所示,本发明提供的一种高吞吐率的动态可重构卷积神经网络加速器,由输入处理模块1、权值处理模块2、运算阵列3、输出处理模块4和控制模块5五个部分组成。
本发明所提出的输入处理模块1和输出处理模块4组成加速器的缓存架构。缓存架构作用是存储输入数据,临时中间数据,输出数据等。输入处理模块1和输出处理模块4共引入四层片上数据复用机制,如图5所示:
1)卷积窗口间数据复用
卷积运算进行时,会有窗口多通道二维输入数据上滑动,当步长小于窗口边长时,横纵方向相邻窗口间的数据是可以复用的,是不需要移出片上了。在本设计中,在输入输出缓存10中,窗口间的数据可以被复用,而且没有冗余的数据被存储。
2)输入数据复用
输入数据的一部分被存储在输入输出缓存10中,并且通过乒乓操作和外部存储交换数据。在进行卷积运算时,可以固定片上数据,切换不同输出通道的卷积核来进行输入数据复用,以此来进行多输出通道卷积的运算,
3)卷积核复用
每一层卷积运算所有的卷积核数据都被存储在片上,所以在进行卷积运算时,可以固定卷积核,而输入数据窗口在输入二维数据上滑动时,可以复用相同的卷积核,从而计算形成一幅完整的图像。
4)层间数据复用
计算当前卷积层时,默认的窗口滑动顺序是从左至右,从上至下。所以当一层卷积计算完成时,一幅图像的前几行都被存储在了片外,最后几行数据被存储在片上,这几行数据是下一层卷积层的输入数据。本发明采用相邻卷积层采用相反的计算方向,也就是下一层卷积层可以复用片上的这几行数据。
本发明所提出的输入转换模块1由以下模块组成,具体的功能及实现如下:
1)输入输出缓存
输入输出缓存10从外部存储接收数据,一般为图像数据,并将数据按照约定结构输出到运算阵列3,作用是将大块的图像数据转为容易处理的小块数据,并且利用块与块之间“行与列”的数据重合,如图2所示,提高数据重复利用率。输入数据缓存10以“乒乓”的方式接受外部数据,即一块存储器接收数据另一块存储器输出数据,反之亦然。具体工作模式如图2,由6个缓存行102组成,当前四个缓存行102提供输入数据,进行计算时,后两个缓存行102从外部缓存接收数据。当前四行数据计算完毕时,结果存储在前两行,并输出到外部缓存,并存外部缓存取得下一轮计算的数据。地址解析模块103用于将外部连续的地址,根据卷积核大小和步长转换为输入输出缓存的地址。预处理模块102用于将读出的数据选区打包为有效数据。如图3所示,运算阵列3包括16×16运算单元30阵列,第一通道调度器31以及第二通道调度器32,每个运算单元均由4×4乘法器阵列301组成;每列16个运算单元30与第一通道调度器31输出端相连,每行16个运算单元与第二通道调度器32输出端相连,第一通道调度器31输入端与输入输出缓存模块12相连,第二通道调度器32输入端与权值转换模块21相连;第一通道调度器31和第二通道调度器32均用于改变卷积运算中不同层次的并行度;乘法器301用于进行卷积运算中的点乘运算。
2)输入转换模块
输入转换模块11用于将预处理模块102输出的4×4数据块按照Winograd算法转化为4×4数据块,转换公式和转换矩阵B如(1)所示:
U=BTInB
3)输入转换缓存模块
用于将转换完的数据存储在片上以复用数据。
本发明所提出的权值转换模块2由以下模块组成,具体的功能及实现如下:
1)权值缓存
权值缓存为大小为2.25MB的多BANK存储器。其中有相同于输入输出缓存10的地址解析器和预处理模块,用来将不同大小卷积核,不同步长的卷积所需要的卷积核拆分、整理和输出
2)输入转换模块
权值转换模块21用于将权值缓存20输出的3×3数据块按照Winograd算法转化为4×4数据块,转换公式和转换矩阵G如(2)所示:
V=GFGT
本发明所提出的输出计算模块4由以下模块组成,具体的功能及实现如下:
1)激活函数模块
激活函数模块40执行ReLU激活函数,其表达式如公式(3)所示
f(x)=x(x>0);f(x)=0(x<=0) (3)
公式(3)中x表示ReLU激活函数的输入,即为输出转换模块42的输出结果,f表示激活函数模块40的输出。
2)标准化模块
标准化模块41将每一层的输出数据做标准化处理,将结果传送到输出激活函数模块40中。
3)输出转换模块
输出转换模块42用于将通道累加模块43输出的4×4数据块按照Winograd算法转化为2×2数据块,转换公式和转换矩阵A如(4)所示:
Out=ATU*VA
4)通道累加模块
通道累加模块的结构如图4,16个输入通道两两相加,共计5层,每一层都可以作为输出,由输出选择模块控制431。
本发明所提出的控制器5向输入处理模块1、权值处理模块2、运算阵列3、输出处理模块4发送控制信号,即通知输入处理模块1、权值处理模块2何时接受外部缓存的数据,何时将数据输送到运算阵列3中;通知输出处理模块4何时接受来自运算阵列3的数据。除此之外,还有连接外部总线的slave接口,将加速器内部缓存和寄存器进行了统一编址。
本发明的性能测试如下:
卷积神经网络加速器的评估指标最主要的是资源、速度和功耗。在测试中,选取卷积神经网络VGG16、AlexNet、MobileNetV1/V2作为目标,将其映射至加速器上。在性能和功耗测试中,将输入数据与卷积核读入到加速器中的输入输出缓存和权值缓存中,统计最终输出结果的时间,结合网络的复杂程度,相除即可得到加速器的速度。功耗的大小取决于实现平台,在此选用Xilinx XCVU9P FPGA作为实现平台。加速器的资源如下表所示:
此外本发明与现有技术在功能和功耗指标下的对比如下表:
由上表可以看出,本发明引入的LUT资源和BRAM资源均较小,虽然DSP使用量比较多,但是单位性能每DSP比较高;本发明可以运行在330MHz下,性能和能效相比于其他对比对象均较高。
此外本发明与现有技术灵活性的对比如下表:
由上表可以看出,本发明在每个配置选项,都有较大的选择范围,所以灵活性较好。
实施例
对于性能指标,本发明的优越性来自于运算单元与缓存架构的设计。首先缓存架构可以在保持高吞吐率、无数据冗余存储的前提下,针对不同参数的卷积,规整输入到PE阵列的数据流,使得加速器具有很强的灵活性,同时简化了运算阵列的设计,使得运算单元的利用率较高。其次在计算卷积时,针对任意参数的卷积,都可以使用Winograd算法加速,使得加速器具有较高的性能。例如对于5*5大小输入数据,3*3卷积核大小,步长为1的卷积操作,传统卷积需要引人入81次乘法操作,而本发明只需要引入25次乘法。对于10*10大小输入数据,5*5卷积核大小,步长为2的卷积操作,传统卷积需要引入100次乘法,而本发明只需要引入64次乘法。
对于资源和功耗指标,由于采用了Winograd卷积加速算法,大量节省了乘法器资源,缓存架构灵活,所以运算阵列简单有效。除此之外缓存架构引入四层片上数据复用机制,见笑了数据的搬移,大量节省了功耗。
对于一个具体的卷积网络,首先要划分算法中硬件处理的部分和软件处理的部分,一般情况下,硬件上只进行卷积层、池化层、全连接层、数据标准化、激活函数操作,其余运算在软件上进行。之后对卷积网络的每一层在软件端进行配置,另外需要确定数据搬移的大小和地址,然后将剩余运算实现。最后在软件端启动加速器,最终计算的结果显示在软件端。
Claims (3)
1.一种高吞吐率的动态可重构卷积神经网络加速器,其特征在于,包括输入处理模块(1)、权值处理模块(2)、运算阵列(3)、输出处理模块(4)和控制模块(5);其中,
输入处理模块(1)用于存储来自储外部存储器的数据或者计算过程中产生的数据,将其组织、排列后,以预设的数据结构传送到运算阵列(3)中进行计算;
运算阵列(3)用于接收来自输入处理模块(1)和权值处理模块(2)的数据,进行点乘操作处理后传送至输出处理模块(4)中;
输出处理模块(4)用于接收来自运算阵列(3)的数据,选择进行通道累加、输出转化、池化、标准化、或者激活函数操作,并将输出数据存储在输入处理模块(1)中;
控制器(5)用于向输入处理模块(1)、权值处理模块(2)、运算阵列(3)和输出处理模块(4)发送命令,并设计有外部接口,用于和外部***进行通信;
输入处理模块(1)包括输入输出缓存(10)、输入转换模块(11)和输入转换缓存模块(12);输入输出缓存(10)的输出端与输入转换模块(11)的输入端连接,输入转换模块(11)的输出端与输入转换缓存模块(12)的输入端连接,输入转换缓存模块(12)的输出端与运算阵列(3)的输入端连接;
输入输出缓存(10)用于接收多输入通道的输入图像数据,并同时将多个输入通道的数据传送至输入转换模块(11)进行转换处理;输入输出缓存(10)也用于存储计算过程中的中间数据,以及将数据读入或写出至外部存储;输入转换缓存模块(12)用于存储来自输入转换模块(11)中产生的数据,并且将数据传送至运算阵列(3);
输入输出缓存(10)包括缓存片(100)、缓存行(101)、预处理模块(102)和地址解析器(103);输入输出缓存(10)包括有64个缓存片(100),每个缓存片(100)由6个缓存行(101)组成,预处理模块(102)用来处理从输入输出缓存(10)中读出的数据,选择其中的有效数据,将读出的数据选区打包为有效数据;地址解析器(103)用于解析输入至输入输出缓存(10)的地址,将外部连续的地址,根据卷积核大小和步长转换为输入输出缓存的地址;
输出处理模块(4)包括激活函数模块(40)、标准化模块(41)、输出转换模块(42)、和通道累加模块(43);运算阵列(3)的输出端与通道累加模块(43)的输入端连接,通道累加模块(43)的输入端与输出转换模块(42)的输入端连接,输出转换模块(42)的输入端与标准化模块(41)的输入端连接,标准化模块(41)的输入端和激活函数模块(40)的输入端连接,激活函数模块(40)的输入端和输入输出缓存(10)的输入端连接;
通道累加模块(43)用于对来自运算阵列的多通道数据进行累加,输出转换模块(42)标准化模块(41)用于将累加后的数据进行转换,激活函数模块(40)用于对数据进行标准化处理,用于对数据进行激活;
通道累加模块(43)包括加法器(430)和输出选择模块(431);通道累加模块用于对来自运算阵列的多通道数据进行累加,能够将16个输入通道两两相加,共计5层,每一层都能够作为输出,由输出选择模块控制(431);加法器(430)用于将16个输入通道的数据进行累加,输出选择模块(431)用于选择输出多少通道的数据;
输入处理模块(1)和输出处理模块(4)组成加速器的缓存架构,其共引入了四层片上数据复用机制:
1)卷积窗口间数据复用
卷积运算进行时,有窗口多通道二维输入数据上滑动,当步长小于窗口边长时,横纵方向相邻窗口间的数据是能够复用的,在输入输出缓存10中,窗口间的数据能够被复用,而且没有冗余的数据被存储;
2)输入数据复用
输入数据的一部分被存储在输入输出缓存10中,并且通过乒乓操作和外部存储交换数据;在进行卷积运算时,固定片上数据,切换不同输出通道的卷积核来进行输入数据复用,以此来进行多输出通道卷积的运算;
3)卷积核复用
每一层卷积运算所有的卷积核数据都被存储在片上,所以在进行卷积运算时,固定卷积核,而输入数据窗口在输入二维数据上滑动时,能够复用相同的卷积核,从而计算形成一幅完整的图像;
4)层间数据复用
计算当前卷积层时,默认的窗口滑动顺序是从左至右,从上至下;所以当一层卷积计算完成时,一幅图像的前几行都被存储在了片外,最后几行数据被存储在片上,这几行数据是下一层卷积层的输入数据;采用相邻卷积层采用相反的计算方向,也就是下一层卷积层能够复用片上的这几行数据。
2.根据权利要求1所述的一种高吞吐率的动态可重构卷积神经网络加速器,其特征在于,权值处理模块(2)包括权值缓存(20)和权值转换模块(21);权值缓存(20)的输出端与权值转换模块(21)的输入端连接,权值转换模块(21)的输出端与运算阵列(3)的输入端连接;
权值转换模块(21)用于接受每一层卷积网络计算所使用的权值数据,并将数据传送至权值缓存(20)进行转换处理;权值转换模块(21)将转换完毕的权值数据直接传送至运算阵列(3)。
3.根据权利要求1所述的一种高吞吐率的动态可重构卷积神经网络加速器,其特征在于,运算阵列(3)包括16×16运算单元(30)阵列,第一通道调度器(31)以及第二通道调度器(32),每个运算单元均由4×4乘法器阵列(301)组成;每列16个运算单元(30)与第一通道调度器(31)输出端相连,每行16个运算单元与第二通道调度器(32)输出端相连,第一通道调度器(31)输入端与输入输出缓存模块(12)相连,第二通道调度器(32)输入端与权值转换模块(21)相连;
第一通道调度器(31)和第二通道调度器(32)均用于改变卷积运算中不同层次的并行度;乘法器(301)用于进行卷积运算中的点乘运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910718678.6A CN110516801B (zh) | 2019-08-05 | 2019-08-05 | 一种高吞吐率的动态可重构卷积神经网络加速器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910718678.6A CN110516801B (zh) | 2019-08-05 | 2019-08-05 | 一种高吞吐率的动态可重构卷积神经网络加速器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516801A CN110516801A (zh) | 2019-11-29 |
CN110516801B true CN110516801B (zh) | 2022-04-22 |
Family
ID=68625251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910718678.6A Active CN110516801B (zh) | 2019-08-05 | 2019-08-05 | 一种高吞吐率的动态可重构卷积神经网络加速器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516801B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111399374B (zh) * | 2020-02-27 | 2021-01-19 | 哈尔滨工业大学 | 基于rbf神经网络的线性输出调节跟踪控制方法及*** |
CN111738433B (zh) * | 2020-05-22 | 2023-09-26 | 华南理工大学 | 一种可重配置的卷积硬件加速器 |
CN112100118B (zh) * | 2020-08-05 | 2021-09-10 | 中科驭数(北京)科技有限公司 | 神经网络计算方法、装置和存储介质 |
CN112132275B (zh) * | 2020-09-30 | 2024-06-18 | 南京风兴科技有限公司 | 一种并行计算方法及装置 |
CN112540946B (zh) * | 2020-12-18 | 2024-06-28 | 清华大学 | 可重构处理器及其上多种神经网络激活函数计算方法 |
WO2022126630A1 (zh) * | 2020-12-18 | 2022-06-23 | 清华大学 | 可重构处理器及其上多种神经网络激活函数计算方法 |
CN112597079B (zh) * | 2020-12-22 | 2023-10-17 | 上海安路信息科技股份有限公司 | 卷积神经网络加速器的数据回写*** |
EP4080354A1 (en) | 2021-04-23 | 2022-10-26 | Nxp B.V. | Processor and instruction set |
CN113191493B (zh) * | 2021-04-27 | 2024-05-28 | 北京工业大学 | 一种基于fpga并行度自适应的卷积神经网络加速器 |
CN115276642A (zh) | 2021-04-29 | 2022-11-01 | 恩智浦美国有限公司 | 具有电平转换器的光耦合器电路 |
CN112990157B (zh) * | 2021-05-13 | 2021-08-20 | 南京广捷智能科技有限公司 | 一种基于fpga的图像目标识别加速*** |
CN113313251B (zh) * | 2021-05-13 | 2023-05-23 | 中国科学院计算技术研究所 | 一种基于数据流架构的深度可分离卷积融合方法及*** |
CN113255898B (zh) * | 2021-06-16 | 2022-08-02 | 合肥工业大学 | 基于Winograd算法的卷积神经网络硬件加速器及计算方法 |
CN113298237B (zh) * | 2021-06-23 | 2024-05-14 | 东南大学 | 一种基于fpga的卷积神经网络片上训练加速器 |
CN113254391B (zh) * | 2021-06-25 | 2021-11-02 | 之江实验室 | 一种神经网络加速器卷积计算和数据载入并行方法及装置 |
CN113705773B (zh) * | 2021-07-27 | 2023-09-19 | 西安交通大学 | 用于图神经网络推理的动态可重构pe单元及pe阵列 |
CN113592088B (zh) * | 2021-07-30 | 2024-05-28 | 中科亿海微电子科技(苏州)有限公司 | 基于细粒度卷积计算结构的并行度确定方法及*** |
CN113962361B (zh) * | 2021-10-09 | 2024-04-05 | 西安交通大学 | 一种面向基于Winograd的CNN加速器***的数据无冲突调度方法 |
CN114327676B (zh) * | 2021-12-28 | 2024-07-19 | 北京航天自动控制研究所 | 一种面向卷积神经网络的高可靠加速器 |
CN116306853A (zh) * | 2023-03-28 | 2023-06-23 | 重庆大学 | 一种精度与吞吐率可调的高能效神经网络计算架构 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909970A (zh) * | 2017-01-12 | 2017-06-30 | 南京大学 | 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块 |
CN107169560A (zh) * | 2017-04-19 | 2017-09-15 | 清华大学 | 一种自适应可重构的深度卷积神经网络计算方法和装置 |
CN108182471A (zh) * | 2018-01-24 | 2018-06-19 | 上海岳芯电子科技有限公司 | 一种卷积神经网络推理加速器及方法 |
CN108241890A (zh) * | 2018-01-29 | 2018-07-03 | 清华大学 | 一种可重构神经网络加速方法及架构 |
CN108805266A (zh) * | 2018-05-21 | 2018-11-13 | 南京大学 | 一种可重构cnn高并发卷积加速器 |
CN109409511A (zh) * | 2018-09-25 | 2019-03-01 | 西安交通大学 | 一种用于动态可重构阵列的卷积运算数据流调度方法 |
CN109447241A (zh) * | 2018-09-29 | 2019-03-08 | 西安交通大学 | 一种面向物联网领域的动态可重构卷积神经网络加速器架构 |
CN109948774A (zh) * | 2019-01-25 | 2019-06-28 | 中山大学 | 基于网络层捆绑运算的神经网络加速器及其实现方法 |
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203621B (zh) * | 2016-07-11 | 2019-04-30 | 北京深鉴智能科技有限公司 | 用于卷积神经网络计算的处理器 |
CN107229967B (zh) * | 2016-08-22 | 2021-06-15 | 赛灵思公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
CN107679620B (zh) * | 2017-04-19 | 2020-05-26 | 赛灵思公司 | 人工神经网络处理装置 |
CN108171317B (zh) * | 2017-11-27 | 2020-08-04 | 北京时代民芯科技有限公司 | 一种基于soc的数据复用卷积神经网络加速器 |
-
2019
- 2019-08-05 CN CN201910718678.6A patent/CN110516801B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909970A (zh) * | 2017-01-12 | 2017-06-30 | 南京大学 | 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块 |
CN107169560A (zh) * | 2017-04-19 | 2017-09-15 | 清华大学 | 一种自适应可重构的深度卷积神经网络计算方法和装置 |
CN108182471A (zh) * | 2018-01-24 | 2018-06-19 | 上海岳芯电子科技有限公司 | 一种卷积神经网络推理加速器及方法 |
CN108241890A (zh) * | 2018-01-29 | 2018-07-03 | 清华大学 | 一种可重构神经网络加速方法及架构 |
CN108805266A (zh) * | 2018-05-21 | 2018-11-13 | 南京大学 | 一种可重构cnn高并发卷积加速器 |
CN109409511A (zh) * | 2018-09-25 | 2019-03-01 | 西安交通大学 | 一种用于动态可重构阵列的卷积运算数据流调度方法 |
CN109447241A (zh) * | 2018-09-29 | 2019-03-08 | 西安交通大学 | 一种面向物联网领域的动态可重构卷积神经网络加速器架构 |
CN109948774A (zh) * | 2019-01-25 | 2019-06-28 | 中山大学 | 基于网络层捆绑运算的神经网络加速器及其实现方法 |
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110516801A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516801B (zh) | 一种高吞吐率的动态可重构卷积神经网络加速器 | |
CN109447241B (zh) | 一种面向物联网领域的动态可重构卷积神经网络加速器架构 | |
CN108805266B (zh) | 一种可重构cnn高并发卷积加速器 | |
US20230325348A1 (en) | Performing concurrent operations in a processing element | |
CN109102065B (zh) | 一种基于PSoC的卷积神经网络加速器 | |
CN108108809B (zh) | 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法 | |
CN110348574B (zh) | 一种基于zynq的通用卷积神经网络加速结构及设计方法 | |
CN111898733B (zh) | 一种深度可分离卷积神经网络加速器架构 | |
CN110751280A (zh) | 一种应用于卷积神经网络的可配置卷积加速器 | |
US10768856B1 (en) | Memory access for multiple circuit components | |
CN110222818B (zh) | 一种用于卷积神经网络数据存储的多bank行列交织读写方法 | |
CN108170640B (zh) | 神经网络运算装置及应用其进行运算的方法 | |
CN112418396B (zh) | 一种基于fpga的稀疏激活感知型神经网络加速器 | |
CN111860773B (zh) | 处理装置和用于信息处理的方法 | |
CN111160542B (zh) | 集成电路芯片装置及相关产品 | |
CN111340198A (zh) | 基于fpga的数据高度复用的神经网络加速器 | |
CN113516236A (zh) | 基于zynq平台的vgg16网络并行加速处理方法 | |
CN114462587B (zh) | 一种用于光电混合计算神经网络的fpga实现方法 | |
CN111079908B (zh) | 片上网络数据处理方法、存储介质、计算机设备和装置 | |
CN111506344A (zh) | 一种基于脉动阵列架构的深度学习硬件*** | |
US20230376733A1 (en) | Convolutional neural network accelerator hardware | |
CN116822600A (zh) | 一种基于risc-v架构的神经网络搜索芯片 | |
CN109993290B (zh) | 集成电路芯片装置及相关产品 | |
CN114723029A (zh) | 一种基于混合多行数据流策略的dcnn加速器 | |
CN115081600A (zh) | 执行Winograd卷积的变换单元、集成电路装置及板卡 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |