CN109871949A - 卷积神经网络加速器及加速方法 - Google Patents

卷积神经网络加速器及加速方法 Download PDF

Info

Publication number
CN109871949A
CN109871949A CN201711400439.3A CN201711400439A CN109871949A CN 109871949 A CN109871949 A CN 109871949A CN 201711400439 A CN201711400439 A CN 201711400439A CN 109871949 A CN109871949 A CN 109871949A
Authority
CN
China
Prior art keywords
data
network
beta pruning
convolution
accelerator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711400439.3A
Other languages
English (en)
Inventor
贾泽
吴秉哲
袁之航
孙广宇
吴肇瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hong Diagram Rui Yu (beijing) Technology Co Ltd
Original Assignee
Hong Diagram Rui Yu (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hong Diagram Rui Yu (beijing) Technology Co Ltd filed Critical Hong Diagram Rui Yu (beijing) Technology Co Ltd
Priority to CN201711400439.3A priority Critical patent/CN109871949A/zh
Publication of CN109871949A publication Critical patent/CN109871949A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种卷积神经网络加速器及加速方法。加速器包括卷积运算器、加法器、线性整流函数单元、池化操作单元、乘加单元、片内存储器、卷积权值输入引脚、全连接权值输入引脚。加速方法包括定点化步骤和网络剪枝步骤。通过软硬件协同优化,针对卷积神经网络中每一个卷积层都可以复用一套完整的由多个计算单元组成的卷积模块,从而降低运行时所需的功耗并提高计算速度,解决现有的神经网络加速器存在的功耗高、芯片面积大以及计算速度慢的问题;同时,在一定程度上解决现有的专用集成电路加速器设计缺乏一定的灵活性,难以适配不同的网络结构的不足。

Description

卷积神经网络加速器及加速方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种卷积神经网络加速器及加速方法。
背景技术
近几年来,基于卷积神经网络的算法被广泛运用到各种计算机视觉任务上,比如图像分类、物体检测、图像语义分割等。卷积神经网络起源于人工神经网络,它能自动地提取图像的各种特征,所提取的特征对于图像的平移、缩放、旋转都有很强的适应性,这些特点使得卷积神经网络大规模地取代传统的图像特征提取算法(比如HoG(方向梯度直方图,Histogram of Oriented Gradient)特征、Haar特征)。
发明内容
目前,卷积神经网络的计算主要基于软件编程在通用处理器(CPU)或通用图形处理器(GPU)上实现,但是,现有的各种计算机视觉应用需要离线地运行在各种移动手机、IOT等设备上,这对卷积神经网络计算的实时性和功耗都提出了新的需求。在此需求的驱动下,出现了大量卷积神经网络的加速器。其中,基于专用集成电路(ASIC)的加速器设计能够根据具体的不同应用定制特殊规格的集成电路,从而能够在功耗限制下快速地进行卷积神经网络的计算。现有的专用集成电路加速器设计缺乏一定的灵活性,难以适配不同的网络结构;而且现有大多数加速器都存在功耗高、芯片面积大以及计算速度慢的问题。
为了克服上述现有技术的不足,针对现有流行的卷积神经网络结构,本发明提供一种新的基于专用集成电路的低功耗卷积神经网络加速器及加速方法,通过软硬件协同优化,解决现有的神经网络加速器存在的功耗高、芯片面积大以及计算速度慢的问题;同时,在一定程度上解决现有的专用集成电路加速器设计缺乏一定的灵活性,难以适配不同的网络结构的不足。
根据本发明的一个方面,提供了一种卷积神经网络加速器,其包括卷积运算器、加法器、线性整流函数单元、池化操作单元、乘加单元、片内存储器、卷积权值输入引脚和全连接权值输入引脚,其中:卷积的权值数据通过卷积权值输入引脚进入加速器,其余数据通过片内存储器获取,按对应通道分别送入卷积运算器中;卷积运算器接受数据后进行乘法操作,乘法结果数据和卷积偏移数据送到加法器;加法器将收到的数据进行加法数求和处理,输出数据到线性整流函数单元;线性整流函数单元对数据进行线性整流函数处理,结果送入池化操作单元;池化操作单元对数据进行平均池化操作,如果为末尾卷积,送入乘加单元中,其余情况送入片内存储器中存储待取;全连接权值通过全连接权值输入引脚进入乘加单元后,乘加单元对数据进行乘法和相加操作,将数据通过输出引脚输出。
该卷积神经网络加速器可以采用多层融合的硬件架构,通过架构和算法的交互优化,使得特定的算法层的输出数据能够被有效地缓存在片内存储器中。
该卷积神经网络加速器在电路设计方面可以采用异步电路。
根据本发明的另一方面,提供了一种卷积神经网络加速方法,包括以下步骤:定点化步骤,通过定点化方法处理神经网络,将浮点数通过专用定点算法转化为更低比特数的定点数;网络剪枝步骤,通过网络剪枝方法,自动对网络各个部分进行剪枝处理。
该加速方法的定点化步骤可以包括:针对网络中的权值,设置权值数据量阈值;以设置的权值数据量阈值为中心截取分布,以该分布范围的整数位作为定点化的整数,余下的位数作为符号位和小数位。
该加速方法的定点化步骤可以包括:对于某一层的输出数据,对专用网络进行前向运算之后,得到所有输出数据的分布特征;设置数据量阈值,以设置的数据量阈值为中心截取分布,得到一个数据的大概率分布范围;以该分布范围的整数位设置数据流的定点化的整数,余下的位数作为符号位和小数位。
在该加速方法的网络剪枝步骤中,可以采用剪枝比例自动分配算法,精确调整神经网络的每一层的剪枝比例。
该加速方法还可以包括硬件部署步骤,采用多层融合的架构和异步电路来部署硬件。
在该加速方法的定点化步骤中,可以将浮点数通过专用定点算法转化为8位的定点数。
在该加速方法的网络剪枝方法中,可以对神经网络的每一层建立单独的剪枝参数,通过迭代调整网络的剪枝参数,分别对每层网络进行剪枝处理,裁剪可剪枝权值。
与现有技术相比,本发明的有益效果是:
本发明提供一种新的基于专用集成电路的低功耗卷积神经网络专用加速器及加速方法,针对现有流行的卷积神经网络结构,通过软硬件协同优化,解决现有的神经网络加速器存在的功耗高、芯片面积大以及计算速度慢的问题;同时,在一定程度上解决现有的专用集成电路加速器设计缺乏一定的灵活性,难以适配不同的网络结构的不足。本发明具有硬件灵活性,能够支持多种常用卷积神经网络结构;相比现有的加速器,本发明的芯片整体的面积和功耗都大大减少。
附图说明
图1是根据本发明一实施例的卷积神经网络加速器的硬件结构框图。
图2是根据本发明一实施例的卷积神经网络加速方法的流程图。
图3是根据本发明一实施例的卷积神经网络加速器的设计流程图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
现有的卷积神经网络结构大多由卷积层、池化层、全连接层构成,本发明针对上述网络层设计专用集成电路,在软件及硬件上通过优化方法提升计算速度以及减少计算功耗。由于卷积神经网络层与层之间是独立运算的,通过数据流传递信息进行计算,每一个卷积层都有相同的基本结构,即为卷积核对一个拥有多个通道的特征图进行滑动计算处理。因此,本发明提供的卷积神经网络专用加速器针对每一个卷积层都可以复用一套完整的由多个计算单元组成的卷积模块。
本发明提供一种卷积神经网络加速器,包括加速器芯片、卷积运算器、加法器、线性整流函数单元、池化操作单元、全连接乘加单元、片内存储器、数据输入引脚、输出引脚、卷积权值输入引脚、全连接权值输入引脚;第一层数据通过数据输入引脚进入加速器芯片,卷积的权值数据通过卷积权值输入引脚进入加速器芯片,其余数据通过片内存储器获取,按对应通道分别送入卷积运算器中;卷积运算器接受数据后进行九次乘法实现三乘三卷积中的乘法操作,乘法结果数据和卷积偏移数据送到加法器;加法器将收到的数据进行加法数求和处理,输出数据到线性整流函数单元;线性整流函数单元对数据进行线性整流函数处理,结果送入池化操作单元;池化操作单元对二乘二的数据进行平均池化操作,如果为末尾卷积送入全连接乘加单元中,其余情况送入片内存储器中存储待取;全连接权值通过全连接权值输入引脚进入全连接乘加单元后,全连接乘加单元对数据进行乘法-相加操作,将数据通过输出引脚输出。
为了进一步减少电路的功耗,本发明在硬件架构和电路设计方面也采用了多种优化方法。首先,考虑到片上存储的容量的限制,采用了多层融合的架构,通过架构和算法的交互优化(co-design),保证特定的算法层的输出数据能够被有效地缓存在片上存储中,从而极大减少了片外数据的访存。其次,考虑到目标场景(如可穿戴设备)的数据处理的频次较低,即只有在特定的时间(如设备唤醒后)芯片才工作,因此采用了异步电路的实现方式。在设备休眠状态下,芯片并不消耗功耗,从而极大的减少芯片的整体功耗。
利用上述低功耗卷积神经网络专用加速器,本发明提供一种低功耗卷积神经网络专用加速器加速方法,具体来说,针对现有卷积神经网络结构,基于电路设计了数据可复用的卷积器,根据卷积算法的特点,制定了数据复用的策略,并将其布局到电子电路上。基于专用集成电路,通过软硬件协同优化,针对卷积神经网络中每一个卷积层都可以复用一套完整的由多个计算单元组成的卷积模块,从而降低运行时所需的功耗并提高计算速度;包括以下步骤:
A)通过定点化方法处理神经网络,将浮点数通过专用定点算法转化为更低的比特数的定点数,由此减少硬件资源的使用量,降低集成电路的成本,减少网络的能耗。
定点化方法处理神经网络:人工神经网络中的大量计算,卷积计算浮点数乘法和加法、全连接层计算浮点数乘法和加法、激活函数等操作对于数据有很强的鲁棒性。在一定范围之内,网络对于数据的精度变化不太敏感。传统的通用处理器和通用图形处理器的乘法单元和加法单元一般是针对32位的浮点数甚至64位双精度浮点数设计的,计算开销和能耗较大,而通过定点化处理神经网络使用更低的比特数可以保持网络性能基本不下降。
因此,本发明具体实施时,采用了定点化策略对神经网络加速器进行设计,将浮点数通过专用定点算法转化为8位的定点数,减少了硬件资源的使用量,降低了集成电路的成本,减少了网络的能耗。在本发明的其他实施例中,也可以将浮点数转化为其他比特数的定点数。
B)采用专用网络定点位标定算法,针对专用网络定点化;执行如下操作:
B1)针对网络中的权值,设置权值数据量阈值(如99%的权值数据量作为阈值),以设置的权值数据量阈值为中心截取分布,以该分布范围的整数位作为定点化的整数,余下的位数作为符号位和小数位;
B2)定点算法:对于某一层的输出数据,对专用网络进行前向运算之后,得到所有输出数据的分布特征;设置数据量阈值(如95%数据量),以设置的数据量阈值为中心截取分布,得到一个数据的大概率分布范围;以该分布范围的整数位设置数据流的定点化的整数,余下的位数作为符号位和小数位;
C)通过网络剪枝方法,自动对网络各个部分进行剪枝处理,以保证网络的性能,设计剪枝比例自动分配算法,精确调整神经网络的每一层的剪枝比例,使得网络达到最佳效果;
对网络进行优化之后,网络中还存在大量权值对于网络没有贡献,这些权值称为可剪枝权值。通过裁剪可剪枝权值,可以减少网络的计算量,减少能量消耗。可剪枝权值在卷积层中的数量相较于全连接层较少,而且网络底层的权值更为重要,可剪枝权值较少。因此,本发明通过一种网络剪枝算法自动对网络的各个部分进行剪枝处理,以保证网络的性能。
具体地,对神经网络的每一层建立单独的剪枝参数,分别对每层网络进行剪枝处理,在保证网络模型的测试错误率变化小于某设定值(如5%)对每一层进行最大化的剪枝;通过迭代调整网络的剪枝参数,可以得到一个错误率变化小于某设定值(10%)的网络。最后,通过网络训练,对剪枝后的网络进行最终的微调,使得网络基本保持剪枝之前的性能。
D)通过优化硬件的架构和电路,包括多层融合的架构和异步电路,进一步减少电路的功耗。
本发明提供的基于专用集成电路的低功耗卷积神经网络专用加速器及加速方法,通过软硬件协同优化,解决了现有的神经网络加速器存在的功耗高、芯片面积大以及计算速度慢的问题。
本发明的实施例以人脸过滤任务作为具体的任务。人脸过滤即是将含有人脸的图片保留,过滤掉其他不含人脸的图片。我们首先针对该项任务在GPU上训练卷积神经网络模型,然后使用之前设计的卷积神经网络加速器构建过滤***,自动过滤不含人脸的图片。
由于卷积神经网络层与层之间是独立运算的,通过数据流传递信息进行计算,每一个卷积层都有相同的基本结构,即为卷积核对一个拥有多个通道的特征图进行滑动计算处理。因此,我们设计的加速器的针对每一个层卷积都可以复用一套完整的由多个计算单元组成的卷积模块。
图1是根据本发明一实施例的卷积神经网络加速器的硬件结构框图。如图1所示,卷积神经网络加速器包括卷积运算器(卷积器)、加法器、线性整流函数单元、池化操作单元、乘加单元、片内存储器、卷积权值输入引脚和全连接权值输入引脚。卷积神经网络加速器还包括数据输入引脚和输出引脚。
第一层数据通过数据输入引脚进入加速器芯片,卷积的权值数据通过卷积权值输入引脚进入加速器,其余数据通过片内存储器获取,按对应通道分别送入卷积运算器中。卷积运算器接受数据后进行乘法操作,乘法结果数据和卷积偏移数据送到加法器。加法器将收到的数据进行加法数求和处理,输出数据到线性整流函数单元。线性整流函数单元对数据进行线性整流函数处理,结果送入池化操作单元。池化操作单元对数据进行平均池化操作,如果为末尾卷积,送入乘加单元中,其余情况送入片内存储器中存储待取。全连接权值通过全连接权值输入引脚进入乘加单元后,乘加单元对数据进行乘法和相加操作,将数据通过输出引脚输出。
在本发明一实施例中,卷积神经网络加速器可以采用多层融合的硬件架构,通过架构和算法的交互优化,使得特定的算法层的输出数据能够被有效地缓存在片内存储器中。
在本发明一实施例中,卷积神经网络加速器在电路设计方面可以采用异步电路。
图2是根据本发明一实施例的卷积神经网络加速方法的流程图。该方法包括:定点化步骤,通过定点化方法处理神经网络,将浮点数通过专用定点算法转化为更低比特数的定点数;网络剪枝步骤,通过网络剪枝方法,自动对网络各个部分进行剪枝处理。
在本发明一实施例中,定点化步骤可以包括:针对网络中的权值,设置权值数据量阈值;以设置的权值数据量阈值为中心截取分布,以该分布范围的整数位作为定点化的整数,余下的位数作为符号位和小数位。
在本发明另一实施例中,定点化步骤可以包括:对于某一层的输出数据,对专用网络进行前向运算之后,得到所有输出数据的分布特征;设置数据量阈值,以设置的数据量阈值为中心截取分布,得到一个数据的大概率分布范围;以该分布范围的整数位设置数据流的定点化的整数,余下的位数作为符号位和小数位。
在网络剪枝步骤中,可以采用剪枝比例自动分配算法,精确调整神经网络的每一层的剪枝比例。
在本发明一实施例中,加速方法还可以包括硬件部署步骤,采用多层融合的架构和异步电路来部署硬件。
在定点化步骤中,可以将浮点数通过专用定点算法转化为8位的定点数。
在网络剪枝步骤中,可以对神经网络的每一层建立单独的剪枝参数,通过迭代调整网络的剪枝参数,分别对每层网络进行剪枝处理,裁剪可剪枝权值。
图3是根据本发明一实施例的卷积神经网络加速器的设计流程图。该设计流程可以包括:在云端训练模型;对模型进行剪枝优化;将模型部署至硬件;调试I/O接口;部署到实际生产环境。
在本发明的设计中,通过定点化方法处理神经网络,采用专用网络定点位标定算法,针对专用网络定点化,通过网络剪枝方法,自动对网络各个部分进行剪枝处理,并且通过优化硬件的架构和电路进一步减少电路的功耗。在本发明的设计中采用了各种优化的算法和策略,具体如下:
定点化策略:人工神经网络的算法研究发现,网络中的大量计算:卷积计算浮点数乘法和加法、全连接层计算浮点数乘法和加法、激活函数等操作对于数据有很强的鲁棒性。在一定范围之内,网络对于数据的精度变化不太敏感。传统的通用处理器和通用图形处理器的乘法单元和加法单元一般是针对32位的浮点数甚至64位双精度浮点数设计的,计算开销和能耗较大,而通过定点化处理神经网络使用10位数据甚至更低的比特数可以保持网络性能基本不下降。
因此,我们采用了定点化策略对神经网络加速器进行设计,将浮点数通过专用定点算法转化为8位的定点数,减少了硬件资源的使用量,降低了集成电路的成本,减少了网络的能耗。
专用网络定点位标定算法:定点化数据需要制定定点位置,我们设计了针对专用网络定点化设计的一种方法。浮点数转化成定点需定义小数和整数需求,对于某一层的输出数据,在大量测试数据对专用网络进行前向运算之后,我们得到了所有输出数据的分布特征,以95%数据量作为阈值中心截取分布,得到一个数据的大概率分布范围,以该分布范围的整数位设置数据流的定点化的整数需求,余下的位数作为符号位和小数位。
因为权值在网络中更为重要,权值的变化会对网络产生较大影响。针对网络中的权值,我们以99%的权值数据量作为阈值中心截取分布,以该分布范围的整数位设置定点化的整数需求,余下的位数作为符号位和小数位。
网络剪枝策略及剪枝比例自动分配算法:人工神经网络剪枝是一种对网络进行缩减的有效方法,由于神经网络本身具有很大的冗余性,即使在加入很多正则优化项对网络进行优化之后,网络中还是存在大量权值对于网络没有贡献,我们将它称之为可剪枝权值。通过裁剪可剪枝权值,可以减少网络的计算量,减少能量消耗。可剪枝权值在卷积层中的数量相较于全连接层较少,而且网络底层的权值更为重要,可剪枝权值较少。因此,我们设计了一种算法自动对网络的各个部分进行剪枝处理,以保证网络的性能。
具体地,神经网络的每一层的剪枝比例需要精确调整才能达到最佳的效果,因此我们对神经网络的每一层建立单独的剪枝参数,分别对每层网络进行剪枝处理,在保证网络模型的测试错误率变化小于5%之内对每一层进行最大化的剪枝。通过迭代调整网络的剪枝参数,可以拿到一个错误率变化小于10%的网络。最后,通过网络训练,对剪枝后的网络进行最终的微调,使得网络基本保持剪枝之前的性能。
低功耗架构及电路设计:为了进一步减少电路的功耗,我们在硬件的架构和电路设计方面也采用了多种优化方法。参考图1,本发明提供了低功耗卷积神经网络专用加速器的硬件结构框图。首先,考虑到片上存储的容量的限制,采用了多层融合的架构技术。通过架构和算法的交互优化(co-design),具体根据片上存储容量,选择相邻的两(多)层次进行融合,并且适当缩减算法层次的输入/输出,保证特定的算法层的输出数据能够被有效地缓存在片上存储中,从而极大减少了片外数据的访存。其次,考虑到目标场景(如可穿戴设备)的数据处理的频次较低,即只有在特定的时间(如设备唤醒后)芯片才工作,因此,采用了异步电路的实现方式。在设备休眠状态下,芯片并不消耗功耗,从而极大的减少芯片的整体功耗。
以下实施例中,在将图片输入到卷积神经网络之前,先将图片缩放至32x32,并将给定的RGB图像转化为灰度图。
本实施例采取三层的卷积神经网络作为基本的网络结构。每一层由一个卷积单元构成。其中卷积单元分别由卷积,池化,非线性激活函数三个操作构成。卷积操作以一系列3x3的卷积核为基础,通过这些卷积核与输入做卷积,从而提取相应的特征。我们在本次实验中采取最大值池化,即取给定子区域中的最大值作为提取特征,具体来说,将输入的每一个2x2的子区域中的最大值作为下一层的输入特征。修正线型单元(Rectified LinearUnit,ReLU)作为激活函数。在输入图像经过三层卷积操作过后,在最后添加一层全连接层,使卷积神经网络输出输入图片是否包含人脸的概率,从而预测图片中是否含有人脸。
网络设计完成之后,利用已有深度学习开源框架根据训练数据训练所设计的网络参数。训练完成之后,将模型参数存储在开发板(由SOC芯片和神经网络加速器构成)上,并利用本发明提供的加速器进行卷积神经网络计算。在架构与芯片方面,采用层次融合和异步架构减少功耗。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种卷积神经网络加速器,包括卷积运算器、加法器、线性整流函数单元、池化操作单元、乘加单元、片内存储器、卷积权值输入引脚和全连接权值输入引脚,其中:
卷积的权值数据通过卷积权值输入引脚进入加速器,其余数据通过片内存储器获取,按对应通道分别送入卷积运算器中;
卷积运算器接受数据后进行乘法操作,乘法结果数据和卷积偏移数据送到加法器;
加法器将收到的数据进行加法数求和处理,输出数据到线性整流函数单元;
线性整流函数单元对数据进行线性整流函数处理,结果送入池化操作单元;
池化操作单元对数据进行平均池化操作,如果为末尾卷积,送入乘加单元中,其余情况送入片内存储器中存储待取;
全连接权值通过全连接权值输入引脚进入乘加单元后,乘加单元对数据进行乘法和相加操作,将数据通过输出引脚输出。
2.如权利要求1所述的卷积神经网络加速器,其特征是,采用多层融合的硬件架构,通过架构和算法的交互优化,使得特定的算法层的输出数据能够被有效地缓存在片内存储器中。
3.如权利要求1所述的卷积神经网络加速器,其特征是,电路设计方面采用异步电路。
4.一种卷积神经网络加速方法,包括以下步骤:
定点化步骤,通过定点化方法处理神经网络,将浮点数通过专用定点算法转化为更低比特数的定点数;
网络剪枝步骤,通过网络剪枝方法,自动对网络各个部分进行剪枝处理。
5.如权利要求4所述的方法,其特征是,所述定点化步骤包括:
针对网络中的权值,设置权值数据量阈值;
以设置的权值数据量阈值为中心截取分布,以该分布范围的整数位作为定点化的整数,余下的位数作为符号位和小数位。
6.如权利要求4所述的方法,其特征是,所述定点化步骤包括:
对于某一层的输出数据,对专用网络进行前向运算之后,得到所有输出数据的分布特征;
设置数据量阈值,以设置的数据量阈值为中心截取分布,得到一个数据的大概率分布范围;
以该分布范围的整数位设置数据流的定点化的整数,余下的位数作为符号位和小数位。
7.如权利要求4所述的方法,其特征是,在所述网络剪枝步骤中,采用剪枝比例自动分配算法,精确调整神经网络的每一层的剪枝比例。
8.如权利要求4所述的方法,其特征是,还包括硬件部署步骤,采用多层融合的架构和异步电路来部署硬件。
9.如权利要求4所述的方法,其特征是,在所述定点化步骤中,将浮点数通过专用定点算法转化为8位的定点数。
10.如权利要求4所述的方法,其特征是,在所述网络剪枝步骤中,对神经网络的每一层建立单独的剪枝参数,通过迭代调整网络的剪枝参数,分别对每层网络进行剪枝处理,裁剪可剪枝权值。
CN201711400439.3A 2017-12-22 2017-12-22 卷积神经网络加速器及加速方法 Pending CN109871949A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711400439.3A CN109871949A (zh) 2017-12-22 2017-12-22 卷积神经网络加速器及加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711400439.3A CN109871949A (zh) 2017-12-22 2017-12-22 卷积神经网络加速器及加速方法

Publications (1)

Publication Number Publication Date
CN109871949A true CN109871949A (zh) 2019-06-11

Family

ID=66916814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711400439.3A Pending CN109871949A (zh) 2017-12-22 2017-12-22 卷积神经网络加速器及加速方法

Country Status (1)

Country Link
CN (1) CN109871949A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458285A (zh) * 2019-08-14 2019-11-15 北京中科寒武纪科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN110490302A (zh) * 2019-08-12 2019-11-22 北京中科寒武纪科技有限公司 一种神经网络编译优化方法、装置以及相关产品
CN110751280A (zh) * 2019-09-19 2020-02-04 华中科技大学 一种应用于卷积神经网络的可配置卷积加速器
CN110991631A (zh) * 2019-11-28 2020-04-10 福州大学 一种基于fpga的神经网络加速***
CN111008691A (zh) * 2019-11-06 2020-04-14 北京中科胜芯科技有限公司 一种权值和激活值都二值化的卷积神经网络加速器架构
CN111178518A (zh) * 2019-12-24 2020-05-19 杭州电子科技大学 一种基于fpga的软硬件协同的加速方法
CN111445018A (zh) * 2020-03-27 2020-07-24 国网甘肃省电力公司电力科学研究院 基于加速卷积神经网络算法的紫外成像实时信息处理方法
CN111797985A (zh) * 2020-07-22 2020-10-20 哈尔滨工业大学 一种基于gpu的卷积运算内存访问优化方法
CN112230884A (zh) * 2020-12-17 2021-01-15 季华实验室 目标检测硬件加速器及加速方法
CN113627600A (zh) * 2020-05-07 2021-11-09 合肥君正科技有限公司 一种基于卷积神经网络的处理方法及其***
CN113723599A (zh) * 2020-05-26 2021-11-30 上海寒武纪信息科技有限公司 神经网络计算方法、装置、板卡及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899182A (zh) * 2015-06-09 2015-09-09 中国人民解放军国防科学技术大学 一种支持可变分块的矩阵乘加速方法
CN106355244A (zh) * 2016-08-30 2017-01-25 深圳市诺比邻科技有限公司 卷积神经网络的构建方法及***
CN106529668A (zh) * 2015-11-17 2017-03-22 中国科学院计算技术研究所 加速深度神经网络算法的加速芯片的运算装置及方法
CN106919942A (zh) * 2017-01-18 2017-07-04 华南理工大学 用于手写汉字识别的深度卷积神经网络的加速压缩方法
CN107239829A (zh) * 2016-08-12 2017-10-10 北京深鉴科技有限公司 一种优化人工神经网络的方法
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899182A (zh) * 2015-06-09 2015-09-09 中国人民解放军国防科学技术大学 一种支持可变分块的矩阵乘加速方法
CN106529668A (zh) * 2015-11-17 2017-03-22 中国科学院计算技术研究所 加速深度神经网络算法的加速芯片的运算装置及方法
CN107239829A (zh) * 2016-08-12 2017-10-10 北京深鉴科技有限公司 一种优化人工神经网络的方法
CN106355244A (zh) * 2016-08-30 2017-01-25 深圳市诺比邻科技有限公司 卷积神经网络的构建方法及***
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法
CN106919942A (zh) * 2017-01-18 2017-07-04 华南理工大学 用于手写汉字识别的深度卷积神经网络的加速压缩方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONG-U LEE 等: "Accuracy Guaranteed Bit-Width Optimization", 《IEEE TRANSACTIONS ON COMPUTER-AIDED DESIGN OF INTEGRATED CIRCUITS AND SYSTEMS》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490302A (zh) * 2019-08-12 2019-11-22 北京中科寒武纪科技有限公司 一种神经网络编译优化方法、装置以及相关产品
CN110458285B (zh) * 2019-08-14 2021-05-14 中科寒武纪科技股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN110458285A (zh) * 2019-08-14 2019-11-15 北京中科寒武纪科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN110751280A (zh) * 2019-09-19 2020-02-04 华中科技大学 一种应用于卷积神经网络的可配置卷积加速器
CN111008691A (zh) * 2019-11-06 2020-04-14 北京中科胜芯科技有限公司 一种权值和激活值都二值化的卷积神经网络加速器架构
CN110991631A (zh) * 2019-11-28 2020-04-10 福州大学 一种基于fpga的神经网络加速***
CN111178518A (zh) * 2019-12-24 2020-05-19 杭州电子科技大学 一种基于fpga的软硬件协同的加速方法
CN111445018A (zh) * 2020-03-27 2020-07-24 国网甘肃省电力公司电力科学研究院 基于加速卷积神经网络算法的紫外成像实时信息处理方法
CN111445018B (zh) * 2020-03-27 2023-11-14 国网甘肃省电力公司电力科学研究院 基于加速卷积神经网络算法的紫外成像实时信息处理方法
CN113627600A (zh) * 2020-05-07 2021-11-09 合肥君正科技有限公司 一种基于卷积神经网络的处理方法及其***
CN113627600B (zh) * 2020-05-07 2023-12-29 合肥君正科技有限公司 一种基于卷积神经网络的处理方法及其***
CN113723599A (zh) * 2020-05-26 2021-11-30 上海寒武纪信息科技有限公司 神经网络计算方法、装置、板卡及计算机可读存储介质
CN111797985A (zh) * 2020-07-22 2020-10-20 哈尔滨工业大学 一种基于gpu的卷积运算内存访问优化方法
CN111797985B (zh) * 2020-07-22 2022-11-22 哈尔滨工业大学 一种基于gpu的卷积运算内存访问优化方法
CN112230884A (zh) * 2020-12-17 2021-01-15 季华实验室 目标检测硬件加速器及加速方法

Similar Documents

Publication Publication Date Title
CN109871949A (zh) 卷积神经网络加速器及加速方法
CN110378468A (zh) 一种基于结构化剪枝和低比特量化的神经网络加速器
Pestana et al. A full featured configurable accelerator for object detection with YOLO
CN110458279A (zh) 一种基于fpga的二值神经网络加速方法及***
CN109671020A (zh) 图像处理方法、装置、电子设备和计算机存储介质
CN108764466A (zh) 基于现场可编程门阵列的卷积神经网络硬件及其加速方法
CN110413255A (zh) 人工神经网络调整方法和装置
CN106250939A (zh) 基于fpga+arm多层卷积神经网络的手写体字符识别方法
CN110163359A (zh) 一种计算装置及方法
CN113313243A (zh) 神经网络加速器的确定方法、装置、设备以及存储介质
Li et al. Dynamic dataflow scheduling and computation mapping techniques for efficient depthwise separable convolution acceleration
CN109992866A (zh) 负荷预测模型的训练方法、装置、可读介质及电子设备
CN108960251A (zh) 一种图像匹配描述子生成尺度空间的硬件电路实现方法
CN109325590A (zh) 用于实现计算精度可变的神经网络处理器的装置
CN104978749A (zh) 一种基于fpga的sift图像特征提取***
CN109242091A (zh) 图像识别方法、装置、设备及可读存储介质
Struharik et al. CoNNa–Hardware accelerator for compressed convolutional neural networks
Xiao et al. FPGA-based scalable and highly concurrent convolutional neural network acceleration
CN109992742A (zh) 一种信号处理方法及装置
Chen et al. FPGA implementation of neural network accelerator for pulse information extraction in high energy physics
CN114781650A (zh) 一种数据处理方法、装置、设备以及存储介质
Zong-ling et al. The design of lightweight and multi parallel CNN accelerator based on FPGA
CN108629405A (zh) 提高卷积神经网络计算效率的方法和装置
Xiao et al. Research on fpga based convolutional neural network acceleration method
Ma et al. Optimizing hardware design for human action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190611