CN108090565A - 一种卷积神经网络并行化训练加速方法 - Google Patents
一种卷积神经网络并行化训练加速方法 Download PDFInfo
- Publication number
- CN108090565A CN108090565A CN201810037896.9A CN201810037896A CN108090565A CN 108090565 A CN108090565 A CN 108090565A CN 201810037896 A CN201810037896 A CN 201810037896A CN 108090565 A CN108090565 A CN 108090565A
- Authority
- CN
- China
- Prior art keywords
- layer
- batch
- local error
- error
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种卷积神经网络并行化训练加速方法,提出了mixed‑batch思想,应用于CPU与FPGA组成的整机***,主要解决在大规模的卷积神经网络结构下,利用FPGA对一个batch的样本并行训练时,存在存储空间不足的问题,可应用于计算机视觉领域的图像识别,目标检测。上述方法包括以下步骤:1、在数据预处理阶段,将原始训练库的样本随机重排。2、在前馈计算阶段,数据以batch形式写入共享内存,基于OpenCL语言实现的卷积神经网络各个层内并行处理,在网络的首个全连接层随机读取前一层batch中的一个样本的数据,并计算该层的输出。3、在更新局部误差阶段,用首个全连接层的局部误差随机更新前一层batch中某个样本的局部误差,其余的各个层并行计算局部误差。
Description
技术领域
本发明属于计算机领域,尤其涉及一种基于FPGA的卷积神经网络并行化训练加速方法。
背景技术
FPGA,即现场可编程门阵列,是一种高性能、低功耗、可编程的数字电路芯片。FPGA内部主要包含一系列可编程逻辑块(CLB)和互联线,除此之外,还包含DSP、BRAM等模块。逻辑块可以被配置后执行复杂的逻辑组合功能,互联线负责将不同的逻辑块、DSP以及输入相连组成一个完整电路结构。对于计算密集型算法,通用处理器依赖于冯若依曼体系,需要进行取指令、指令译码最终执行机器码的过程,并且通用处理器的计算资源是以乘法器、加法器这样量级的硬件单元组成的,如果架构配置与算法的数学模型相差甚远,则会造成硬件资源的浪费。而FPGA的具有可编程的优点,开发人员可以重复地对底层的晶体管电路编程,配置最节省且足够计算的硬件资源,晶体管利用率更高。因此,在针对特定应用下,FPGA比通用处理器能耗比更高。
传统的FPGA应用开发,需要使用硬件编程语言(verilog或VHDL等)完成RTL级逻辑设计,开发人员需要对硬件电路有较高的理解与把握,存在开发门槛高、开发周期长、难以升级维护等缺点,而目前,深度学习算法不断演进与更新,使用传统的方式开发成本较高。因此,需要一种可以快速实现卷积神经网络的训练的技术,跟进不断变化的算法。
卷积神经网络是一种经典的人工神经网络,在图像分类、目标检测、语音识别、视频识别和自然语言处理等领域有广泛应用。近年来,随着人工智能的快速发展,卷积神经网络的网络泛化能力和识别精确度都有了很大的提高。文献“Wang D,An J,Xu K.PipeCNN:AnOpenCL-Based FPGA Accelerator for Large-Scale Convolution Neuron Networks[J].arXiv preprint arXiv:1611.02450,2016.”提出使用流水线的方式执行OpenCL内核函数,但其缺点是内核函数只能单线程执行。文献“Liu L,Luo J,Deng X,et al.FPGA-basedAcceleration of Deep Neural Networks Using High Level Method[C]//P2P,Parallel,Grid,Cloud and Internet Computing(3PGCIC),2015 10th InternationalConference on.IEEE,2015:824-827.”介绍了一种基于mini-batch的随机梯度下降法应用于在FPGA上并行训练深度神经网络的方法。但该文献仅研究了神经网络的mini-batch梯度下降方法,并且随着网络的结构越来越复杂,网络的深度不断加深,网络层的类型不断增加,使用mini-batch的梯度下降法时,批量的输入样本数据规模增大,会超过FPGA的全局内存容量,增加内存读写时间,而使用随机梯度下降法,每次训练使用单个样本的效率较低。因此,需要一种在不显著牺牲训练准确度的前提下,应用于FPGA设备的降低训练时间的训练方法。
发明内容
本发明的目的在于针对上诉现有技术存在的问题,提供一种卷积神经网络的训练方法,能在较低的内存带宽下完成卷积神经网络模型的快速训练,内存带宽是指单位时间内读写的字节数。
本发明提供一种卷积神经网络模型的训练方法,所述方法包括:
在嵌入式FPGA平台下,CPU作为控制设备,FPGA作为计算设备,在FPGA上实现卷积神经网络中各个层的并行处理,为模型结构参数和可训练参数分配CPU和FPGA都可以访问的共享内存,结构参数包括卷积核数量、卷积核大小、平均池化因子大小等参数,可训练参数是指网络权重、偏置等参数。
根据待训练卷积神经网络中每个层的类型设置不同batch规模的特征图像的输出与局部误差,并为其分配内存空间。batch规模指每次从训练集中选取的样本数量,多个样本组成一个batch。
共享内存通过对齐的方式分配,使用DMA(直接存储器访问)的方式由主机向FPGA设备传输数据,整个训练过程,共享内存的数据在网络层之间不断计算并传递。
前馈计算时,在全连接层随机读取上一层batch中的一个特征图像的数据,并记录其在batch中的序号,反向传播计算时,使用在序号对应的标签数据计算输出层误差。
更新局部误差时,根据误差反向传播算法的链式计算法则,单个样本的网络层直接更新从输出层反向传播的局部误差,而最后一个batch规模的网络层使用后一层局部误差随机更新当前某一个样本的局部误差,之前batch规模的网络层依次并行更新相应的多个样本的局部误差。
当计算卷积层的局部误差时,如果下一层是池化层,采用平均池化方式,并使用误差缩放因子λ参数乘以池化层的局部误差,得到卷积层相应神经元的局部误差值,达到微调整卷积核参数和偏置的目标。
对于batch规模的卷积层,计算该batch的平均梯度,并行更新卷积核参数。计算该batch的平均局部误差,并行更新偏置参数。
对于单个样本的全连接层,计算单个特征图像的梯度,并行更新权重参数。计算单个特征图像的局部误差,并行更新偏置参数。
当前batch更新完之后,再重新传输下一个batch的数据,直置到达预设的迭代次数或误差低于阈值后停止训练。
附图说明
图1是本发明的卷积神经网络并行化训练方法整体流程图;
图2是本发明的卷积神经网络并行化训练方法中单次迭代的流程图;
图3是本发明的卷积神经网络并行化训练方法中的数据流向示意图;
图4是根据一示例性实施例示出的一种卷积层局部误差更新方法实现原理示意图。
具体实施方式
以下结合附图对本发明的方法做进一步详细描述。
图1所示为本发明实施例中的基于FPGA的卷积神经网络并行化训练方法实现流程,包括以下步骤:
将FPGA设备通过PCIe总线与CPU通信,在CPU端对训练库中的样本重新随机排列,根据OpenCL标准,为待训练的卷积神经网络模型的每个层的输出、局部误差分配CPU和FPGA都能访问的共享内存,分配内存空间大小分为两种batch规模大小,对卷积层和池化层,每个神经元保存某个固定数量(大于1)的多个样本的输出和局部误差,对全连接层,每个神经元只是保存单个样本的输出与局部误差。除此之外,对卷积层而言,还需要分配卷积核和偏置的内存空间,内存空间大小根据上一层图像尺寸、卷积核尺寸、步长计算得出。对全连接层而言,还需要分配权重和偏置的内存空间,内存空间大小根据上一层神经元数量与当前层神经元数量计算得出,对输出层而言,还需要分配标签数据的内存空间。
对于单次并行训练的实现方法,可参考图2,每个层的特征图像输出与局部误差参考图3,具体实现方案如下:
设定某一固定数量的样本作为一个batch,读入一个batch的样本数据,使用[-0.5.0.5]之间的随机数初始化各个卷积层的初始卷积核和偏置以及各个全连接层的初始权重和初始偏置。
对于卷积层的前馈计算,使用三维空间中的OpenCL核函数对一个batch的特征图像并行地做卷积操作和激活操作,并行粒度是单独地对每个神经元相对应的局部感受野数据取址和计算,得到输出特征图像。
对于池化层的前馈计算,使用三维空间中的OpenCL核函数对一个batch的经过卷积和激活后的特征图像并行地做平均池化操作,并行粒度是单独地对每个神经元相应的局部感受野数据取址和计算,得到输出特征图像。
对于全连接层前馈计算,随机选取上一层一个batch中的某个特征图像,记录取得的特征图像在当前batch中的序号,使用一维空间中的OpenCL核函数对其并行地处理,并行粒度是单独对每个神经元连接的上一层的所有神经元取址和计算,得到神经元输出。
对于输出层前馈计算,使用一维空间中的OpenCL核函数对其并行地处理,并行粒度是单独对每个神经元连接的上一层的所有神经元取址和计算,得到神经元的输出。同时,根据序号读取相应的样本标签数据,使用一维空间的OpenCL核函数对其并行地计算输出误差,并行粒度是单独对每个神经元计算局部误差。
对于单个样本的全连接层的局部误差更新,使用一维空间中的OpenCL核函数直接更新全连接层的局部误差,更新过程使用下式(1):
其中,表示第k层第i个神经元的局部误差,表示第k+1层第j个神经元的局部误差,表示第k层激活函数对输出值的导数。
对于后一层是单个样本的全连接层,batch规模的卷积层使用后一层局部误差随机更新当前某一个样本的局部误差,使用一维空间中的OpenCL核函数更新当前层的局部误差。
对于卷积层的局部误差更新,如果下一层是池化层,参考图4,采用平均池化方式,并使用误差缩放因子λ参数乘以池化层对应神经元的局部误差,得到卷积层相应神经元的局部误差值,更新过程使用下式(2):
其中,表示第k层第i个特征图像的局部误差,表示第k+1层第j个特征图像的局部误差,符号是克罗内克积运算,表示第k层激活函数对特征图像输出值的导数。
其余batch规模的网络层依次使用三维空间的OpenCL核函数并行更新相应的多个样本的局部误差。对于池化层,如果下一层是卷积层,使用下式(3):
其中,表示第k层第i个特征图像的局部误差,表示第k+1层第j个特征图像的局部误差,extend函数是将特征图像的局部误差扩展,扩展部分的值用零初始化,rot180函数将卷积核旋转180度,符号是卷积运算,表示第k层激活函数对特征图像输出值的导数。
对于batch规模的卷积层,计算该batch的特征图像的平均梯度,使用三维空间的OpenCL核函数并行更新卷积核参数。更新过程使用下式(4):
对于batch规模的卷积层,计算该batch的特征图像平均局部误差,使用一维空间的OpenCL核函数并行更新偏置。更新过程使用下式(5):
对于单个样本的全连接层,计算单个特征图像的梯度,使用二维空间的OpenCL核函数并行更新权重参数。更新过程使用下式(6):
对于单个样本的全连接层,计算单个特征图像的局部误差,使用一维空间的OpenCL核函数并行更新偏置参数。更新过程使用下式(7):
上述(4)(5)(6)(7)式中,n表示迭代次数,α表示网络学习率,B表示一个batch的样本数量,对于卷积层,Wij表示上一层第i个特征图与当前层第j个特征图的卷积核参数,表示上一层第i个特征图输出与当前层第j个特征图局部误差的卷积。对于全连接层,Wij表示上一层第i个神经元与当前层第j个神经元权重参数,xi*δj表示上一层第i个神经元输出与当前层第j个神经元局部误差的乘积。
当前batch更新完之后,再重新传输下一个batch的数据,直置到达预设的迭代次数或误差低于阈值后停止训练。
所述卷积神经网络的训练方法适用于但不仅限于以下任意一种模型:
LeNet,AlexNet,VGG-Net,GoogleNet,ResNet。
以上所述仅为本发明的优选实施例而已,并不用限制于本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种卷积神经网络并行化训练方法,其特征在于,包括以下步骤:
1)基于FPGA(现场可编程门阵列)实现的卷积神经网络中各个层的并行处理,为模型结构参数和可训练参数创建CPU和FPGA都可以访问的共享内存,所述结构参数包括各级网络层的输出、局部误差,所述可训练参数包括各级卷积层的卷积核、所述各级卷积层的偏置向量、所述全连接层的权重矩阵和所述全连接层的偏置向量;
2)根据待训练卷积神经网络中每个层的类型创建不同batch规模的特征图像的输出与局部误差内存空间;
3)共享内存通过对齐的方式创建,使用DMA(直接存储器访问)的方式在主机和FPGA设备之间传输数据,整个训练过程,共享内存的数据在网络层之间不断计算并传递;
4)前馈计算时,在全连接层随机读取上一层batch中的一个特征图像的数据,并记录其在batch中的序号,反向传播计算时,使用在序号对应的标签数据计算输出层误差;
5)更新局部误差时,根据误差反向传播算法的链式计算法则,单个样本的网络层直接更新从输出层反向传播的局部误差,而最后一个batch规模的网络层使用后一层局部误差随机更新当前某一个样本的局部误差,之前batch规模的网络层依次并行更新相应的多个样本的局部误差;
6)对于batch规模的卷积层,计算该batch的特征图像的平均梯度,并行更新卷积核参数,计算该batch的平均局部误差,并行更新偏置参数;
7)对于单个样本的全连接层,计算单个特征图像的梯度,并行更新权重参数,计算单个特征图像的局部误差,并行更新偏置参数;
8)当前batch更新完之后,再重新传输下一个batch的数据,直置到达预设的迭代次数或误差低于阈值后停止训练。
2.如权利要求1所述的方法,其特征在于,所述的卷积神经网络中的层不同batch规模的输出和局部误差,batch规模指每次从训练集中选取的样本数量,所述的训练方法中,卷积层和池化层保存的batch规模样本的输出与局部误差,而全连接层保存单个样本输出与局部误差;
所述的卷积神经网络前馈计算过程中,从batch规模的层到单个样本的层计算时,采取随机选择的方式,并记录该样本的序号,利用所述序号对应的标签数据计算输出层的误差;
所述的卷积神经网络反向计算过程中,从单个样本的层到batch规模的层计算时,根据前馈计算中记录的样本序号,完成batch规模的层的局部误差的更新;
当计算卷积层的局部误差时,如果下一层是池化层,采用平均池化方式,并使用误差缩放因子λ参数乘以池化层的局部误差,得到卷积层相应神经元的局部误差值,达到微调整卷积核参数和偏置的目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810037896.9A CN108090565A (zh) | 2018-01-16 | 2018-01-16 | 一种卷积神经网络并行化训练加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810037896.9A CN108090565A (zh) | 2018-01-16 | 2018-01-16 | 一种卷积神经网络并行化训练加速方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108090565A true CN108090565A (zh) | 2018-05-29 |
Family
ID=62182295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810037896.9A Pending CN108090565A (zh) | 2018-01-16 | 2018-01-16 | 一种卷积神经网络并行化训练加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090565A (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830195A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 基于现场可编程门阵列fpga的图像分类方法 |
CN109376843A (zh) * | 2018-10-12 | 2019-02-22 | 山东师范大学 | 基于fpga的脑电信号快速分类方法、实现方法及装置 |
CN109711358A (zh) * | 2018-12-28 | 2019-05-03 | 四川远鉴科技有限公司 | 神经网络训练方法、人脸识别方法及***和存储介质 |
CN109740748A (zh) * | 2019-01-08 | 2019-05-10 | 西安邮电大学 | 一种基于fpga的卷积神经网络加速器 |
CN109783412A (zh) * | 2019-01-18 | 2019-05-21 | 电子科技大学 | 一种深度强化学习加速训练的方法 |
CN109784096A (zh) * | 2019-01-18 | 2019-05-21 | 电子科技大学 | 基于聚类算法的硬件木马检测和剔除方法 |
CN109816108A (zh) * | 2019-02-15 | 2019-05-28 | 领目科技(上海)有限公司 | 深度学习加速装置、设备及方法 |
CN110188863A (zh) * | 2019-04-30 | 2019-08-30 | 杭州电子科技大学 | 一种卷积神经网络的卷积核及其压缩算法 |
CN110263833A (zh) * | 2019-06-03 | 2019-09-20 | 韩慧慧 | 基于编码-解码结构的图像语义分割方法 |
CN110543939A (zh) * | 2019-06-12 | 2019-12-06 | 电子科技大学 | 一种基于fpga的卷积神经网络后向训练的硬件加速实现架构 |
CN110717574A (zh) * | 2018-07-11 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 一种神经网络运行方法、装置及异构智能芯片 |
CN110852428A (zh) * | 2019-09-08 | 2020-02-28 | 天津大学 | 基于fpga的神经网络加速方法和加速器 |
CN111178288A (zh) * | 2019-12-31 | 2020-05-19 | 南京师范大学 | 基于局部误差逐层训练的人体姿态识别方法和装置 |
CN111210019A (zh) * | 2020-01-16 | 2020-05-29 | 电子科技大学 | 一种基于软硬件协同加速的神经网络推断方法 |
CN111325327A (zh) * | 2020-03-06 | 2020-06-23 | 四川九洲电器集团有限责任公司 | 基于嵌入式平台的通用卷积神经网络运算架构与使用方法 |
CN111610963A (zh) * | 2020-06-24 | 2020-09-01 | 上海西井信息科技有限公司 | 芯片结构及其乘加计算引擎 |
CN111788567A (zh) * | 2018-08-27 | 2020-10-16 | 华为技术有限公司 | 一种数据处理设备以及一种数据处理方法 |
CN111931937A (zh) * | 2020-09-30 | 2020-11-13 | 深圳云天励飞技术股份有限公司 | 图像处理模型的梯度更新方法、装置及*** |
CN112101537A (zh) * | 2020-09-17 | 2020-12-18 | 广东高云半导体科技股份有限公司 | Cnn加速器和电子设备 |
CN112396154A (zh) * | 2019-08-16 | 2021-02-23 | 华东交通大学 | 一种基于卷积神经网络训练的并行方法 |
CN112561028A (zh) * | 2019-09-25 | 2021-03-26 | 华为技术有限公司 | 训练神经网络模型的方法、数据处理的方法及装置 |
CN112789627A (zh) * | 2018-09-30 | 2021-05-11 | 华为技术有限公司 | 一种神经网络处理器、数据处理方法及相关设备 |
CN112819140A (zh) * | 2021-02-02 | 2021-05-18 | 电子科技大学 | 基于OpenCL的FPGA一维信号识别神经网络加速方法 |
CN112836787A (zh) * | 2019-11-04 | 2021-05-25 | 百度(美国)有限责任公司 | 通过高效混合并行化减少深度神经网络训练次数 |
CN113239223A (zh) * | 2021-04-14 | 2021-08-10 | 浙江大学 | 一种基于输入梯度正则化的图像检索方法 |
CN113254215A (zh) * | 2021-06-16 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子设备 |
WO2022136977A1 (en) * | 2020-12-26 | 2022-06-30 | International Business Machines Corporation | Filtering hidden matrix training dnn |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN203950307U (zh) * | 2014-06-06 | 2014-11-19 | 中国电子科技集团公司第三十八研究所 | 基于高性能bw100芯片的sar并行处理装置 |
CN104463324A (zh) * | 2014-11-21 | 2015-03-25 | 长沙马沙电子科技有限公司 | 一种基于大规模高性能集群的卷积神经网络并行处理方法 |
CN104915322A (zh) * | 2015-06-09 | 2015-09-16 | 中国人民解放军国防科学技术大学 | 一种卷积神经网络硬件加速方法及其axi总线ip核 |
CN106462800A (zh) * | 2014-04-11 | 2017-02-22 | 谷歌公司 | 使卷积神经网络的训练并行化 |
-
2018
- 2018-01-16 CN CN201810037896.9A patent/CN108090565A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106462800A (zh) * | 2014-04-11 | 2017-02-22 | 谷歌公司 | 使卷积神经网络的训练并行化 |
CN203950307U (zh) * | 2014-06-06 | 2014-11-19 | 中国电子科技集团公司第三十八研究所 | 基于高性能bw100芯片的sar并行处理装置 |
CN104463324A (zh) * | 2014-11-21 | 2015-03-25 | 长沙马沙电子科技有限公司 | 一种基于大规模高性能集群的卷积神经网络并行处理方法 |
CN104915322A (zh) * | 2015-06-09 | 2015-09-16 | 中国人民解放军国防科学技术大学 | 一种卷积神经网络硬件加速方法及其axi总线ip核 |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830195A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 基于现场可编程门阵列fpga的图像分类方法 |
CN110717574A (zh) * | 2018-07-11 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 一种神经网络运行方法、装置及异构智能芯片 |
CN110717574B (zh) * | 2018-07-11 | 2023-07-07 | 杭州海康威视数字技术股份有限公司 | 一种神经网络运行方法、装置及异构智能芯片 |
CN111788567B (zh) * | 2018-08-27 | 2024-04-26 | 华为技术有限公司 | 一种数据处理设备以及一种数据处理方法 |
CN111788567A (zh) * | 2018-08-27 | 2020-10-16 | 华为技术有限公司 | 一种数据处理设备以及一种数据处理方法 |
CN112789627B (zh) * | 2018-09-30 | 2023-08-22 | 华为技术有限公司 | 一种神经网络处理器、数据处理方法及相关设备 |
CN112789627A (zh) * | 2018-09-30 | 2021-05-11 | 华为技术有限公司 | 一种神经网络处理器、数据处理方法及相关设备 |
CN109376843B (zh) * | 2018-10-12 | 2021-01-08 | 山东师范大学 | 基于fpga的脑电信号快速分类方法、实现方法及装置 |
CN109376843A (zh) * | 2018-10-12 | 2019-02-22 | 山东师范大学 | 基于fpga的脑电信号快速分类方法、实现方法及装置 |
CN109711358A (zh) * | 2018-12-28 | 2019-05-03 | 四川远鉴科技有限公司 | 神经网络训练方法、人脸识别方法及***和存储介质 |
CN109740748A (zh) * | 2019-01-08 | 2019-05-10 | 西安邮电大学 | 一种基于fpga的卷积神经网络加速器 |
CN109784096A (zh) * | 2019-01-18 | 2019-05-21 | 电子科技大学 | 基于聚类算法的硬件木马检测和剔除方法 |
CN109784096B (zh) * | 2019-01-18 | 2023-04-18 | 电子科技大学 | 基于聚类算法的硬件木马检测和剔除方法 |
CN109783412B (zh) * | 2019-01-18 | 2022-04-22 | 电子科技大学 | 一种深度强化学习加速训练的方法 |
CN109783412A (zh) * | 2019-01-18 | 2019-05-21 | 电子科技大学 | 一种深度强化学习加速训练的方法 |
CN109816108A (zh) * | 2019-02-15 | 2019-05-28 | 领目科技(上海)有限公司 | 深度学习加速装置、设备及方法 |
CN110188863B (zh) * | 2019-04-30 | 2021-04-09 | 杭州电子科技大学 | 一种适用于资源受限设备的卷积神经网络的卷积核压缩方法 |
CN110188863A (zh) * | 2019-04-30 | 2019-08-30 | 杭州电子科技大学 | 一种卷积神经网络的卷积核及其压缩算法 |
CN110263833A (zh) * | 2019-06-03 | 2019-09-20 | 韩慧慧 | 基于编码-解码结构的图像语义分割方法 |
CN110543939B (zh) * | 2019-06-12 | 2022-05-03 | 电子科技大学 | 一种基于fpga的卷积神经网络后向训练的硬件加速实现装置 |
CN110543939A (zh) * | 2019-06-12 | 2019-12-06 | 电子科技大学 | 一种基于fpga的卷积神经网络后向训练的硬件加速实现架构 |
CN112396154A (zh) * | 2019-08-16 | 2021-02-23 | 华东交通大学 | 一种基于卷积神经网络训练的并行方法 |
CN110852428A (zh) * | 2019-09-08 | 2020-02-28 | 天津大学 | 基于fpga的神经网络加速方法和加速器 |
CN110852428B (zh) * | 2019-09-08 | 2023-10-27 | 天津大学 | 基于fpga的神经网络加速方法和加速器 |
CN112561028A (zh) * | 2019-09-25 | 2021-03-26 | 华为技术有限公司 | 训练神经网络模型的方法、数据处理的方法及装置 |
CN112836787A (zh) * | 2019-11-04 | 2021-05-25 | 百度(美国)有限责任公司 | 通过高效混合并行化减少深度神经网络训练次数 |
CN111178288A (zh) * | 2019-12-31 | 2020-05-19 | 南京师范大学 | 基于局部误差逐层训练的人体姿态识别方法和装置 |
CN111178288B (zh) * | 2019-12-31 | 2024-03-01 | 南京师范大学 | 基于局部误差逐层训练的人体姿态识别方法和装置 |
CN111210019B (zh) * | 2020-01-16 | 2022-06-24 | 电子科技大学 | 一种基于软硬件协同加速的神经网络推断方法 |
CN111210019A (zh) * | 2020-01-16 | 2020-05-29 | 电子科技大学 | 一种基于软硬件协同加速的神经网络推断方法 |
CN111325327A (zh) * | 2020-03-06 | 2020-06-23 | 四川九洲电器集团有限责任公司 | 基于嵌入式平台的通用卷积神经网络运算架构与使用方法 |
CN111610963A (zh) * | 2020-06-24 | 2020-09-01 | 上海西井信息科技有限公司 | 芯片结构及其乘加计算引擎 |
CN112101537A (zh) * | 2020-09-17 | 2020-12-18 | 广东高云半导体科技股份有限公司 | Cnn加速器和电子设备 |
CN112101537B (zh) * | 2020-09-17 | 2021-08-03 | 广东高云半导体科技股份有限公司 | Cnn加速器和电子设备 |
CN111931937B (zh) * | 2020-09-30 | 2021-01-01 | 深圳云天励飞技术股份有限公司 | 图像处理模型的梯度更新方法、装置及*** |
CN111931937A (zh) * | 2020-09-30 | 2020-11-13 | 深圳云天励飞技术股份有限公司 | 图像处理模型的梯度更新方法、装置及*** |
WO2022136977A1 (en) * | 2020-12-26 | 2022-06-30 | International Business Machines Corporation | Filtering hidden matrix training dnn |
GB2621692A (en) * | 2020-12-26 | 2024-02-21 | Ibm | Filtering hidden matrix training DNN |
CN112819140B (zh) * | 2021-02-02 | 2022-06-24 | 电子科技大学 | 基于OpenCL的FPGA一维信号识别神经网络加速方法 |
CN112819140A (zh) * | 2021-02-02 | 2021-05-18 | 电子科技大学 | 基于OpenCL的FPGA一维信号识别神经网络加速方法 |
CN113239223A (zh) * | 2021-04-14 | 2021-08-10 | 浙江大学 | 一种基于输入梯度正则化的图像检索方法 |
CN113254215A (zh) * | 2021-06-16 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090565A (zh) | 一种卷积神经网络并行化训练加速方法 | |
Park et al. | 7.6 A 65nm 236.5 nJ/classification neuromorphic processor with 7.5% energy overhead on-chip learning using direct spike-only feedback | |
Shin et al. | 14.2 DNPU: An 8.1 TOPS/W reconfigurable CNN-RNN processor for general-purpose deep neural networks | |
US9489622B2 (en) | Event-driven universal neural network circuit | |
CN106951926A (zh) | 一种混合架构的深度学习***方法及装置 | |
CN110321997B (zh) | 高并行度计算平台、***及计算实现方法 | |
CN110163356A (zh) | 一种计算装置及方法 | |
CN107766935B (zh) | 多层人造神经网络 | |
CN110383300A (zh) | 一种计算装置及方法 | |
WO2021089009A1 (zh) | 数据流重构方法及可重构数据流处理器 | |
Liu et al. | FPGA-NHAP: A general FPGA-based neuromorphic hardware acceleration platform with high speed and low power | |
Zhang et al. | An asynchronous reconfigurable SNN accelerator with event-driven time step update | |
CN110163350A (zh) | 一种计算装置及方法 | |
CN109272110A (zh) | 基于光子神经网络芯片的光电融合智能信号处理*** | |
Momose et al. | Systems and circuits for AI chips and their trends | |
CN108595379A (zh) | 一种基于多级缓存的并行化卷积运算方法及*** | |
Chen et al. | A 67.5 μJ/prediction accelerator for spiking neural networks in image segmentation | |
Chen et al. | Cerebron: A reconfigurable architecture for spatiotemporal sparse spiking neural networks | |
Zong et al. | Self-slimmed vision transformer | |
Chen et al. | Rgp: Neural network pruning through regular graph with edges swapping | |
Sommer et al. | Efficient hardware acceleration of sparsely active convolutional spiking neural networks | |
Zhang et al. | ReLU $^ 2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs | |
CN107122472A (zh) | 大规模非结构化数据提取方法、其***、分布式数据管理平台 | |
Zhan et al. | Field programmable gate array‐based all‐layer accelerator with quantization neural networks for sustainable cyber‐physical systems | |
Yang et al. | A parallel processing cnn accelerator on embedded devices based on optimized mobilenet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180529 |
|
WD01 | Invention patent application deemed withdrawn after publication |