CN109871949A

CN109871949A - 卷积神经网络加速器及加速方法

Info

Publication number: CN109871949A
Application number: CN201711400439.3A
Authority: CN
Inventors: 贾泽; 吴秉哲; 袁之航; 孙广宇; 吴肇瑜
Original assignee: Hong Diagram Rui Yu (beijing) Technology Co Ltd
Current assignee: Hong Diagram Rui Yu (beijing) Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2019-06-11

Abstract

本发明公开了一种卷积神经网络加速器及加速方法。加速器包括卷积运算器、加法器、线性整流函数单元、池化操作单元、乘加单元、片内存储器、卷积权值输入引脚、全连接权值输入引脚。加速方法包括定点化步骤和网络剪枝步骤。通过软硬件协同优化，针对卷积神经网络中每一个卷积层都可以复用一套完整的由多个计算单元组成的卷积模块，从而降低运行时所需的功耗并提高计算速度，解决现有的神经网络加速器存在的功耗高、芯片面积大以及计算速度慢的问题；同时，在一定程度上解决现有的专用集成电路加速器设计缺乏一定的灵活性，难以适配不同的网络结构的不足。

Description

卷积神经网络加速器及加速方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种卷积神经网络加速器及加速方法。

背景技术

近几年来，基于卷积神经网络的算法被广泛运用到各种计算机视觉任务上，比如图像分类、物体检测、图像语义分割等。卷积神经网络起源于人工神经网络，它能自动地提取图像的各种特征，所提取的特征对于图像的平移、缩放、旋转都有很强的适应性，这些特点使得卷积神经网络大规模地取代传统的图像特征提取算法(比如HoG(方向梯度直方图，Histogram of Oriented Gradient)特征、Haar特征)。

发明内容

目前，卷积神经网络的计算主要基于软件编程在通用处理器(CPU)或通用图形处理器(GPU)上实现，但是，现有的各种计算机视觉应用需要离线地运行在各种移动手机、IOT等设备上，这对卷积神经网络计算的实时性和功耗都提出了新的需求。在此需求的驱动下，出现了大量卷积神经网络的加速器。其中，基于专用集成电路(ASIC)的加速器设计能够根据具体的不同应用定制特殊规格的集成电路，从而能够在功耗限制下快速地进行卷积神经网络的计算。现有的专用集成电路加速器设计缺乏一定的灵活性，难以适配不同的网络结构；而且现有大多数加速器都存在功耗高、芯片面积大以及计算速度慢的问题。

为了克服上述现有技术的不足，针对现有流行的卷积神经网络结构，本发明提供一种新的基于专用集成电路的低功耗卷积神经网络加速器及加速方法，通过软硬件协同优化，解决现有的神经网络加速器存在的功耗高、芯片面积大以及计算速度慢的问题；同时，在一定程度上解决现有的专用集成电路加速器设计缺乏一定的灵活性，难以适配不同的网络结构的不足。

根据本发明的一个方面，提供了一种卷积神经网络加速器，其包括卷积运算器、加法器、线性整流函数单元、池化操作单元、乘加单元、片内存储器、卷积权值输入引脚和全连接权值输入引脚，其中：卷积的权值数据通过卷积权值输入引脚进入加速器，其余数据通过片内存储器获取，按对应通道分别送入卷积运算器中；卷积运算器接受数据后进行乘法操作，乘法结果数据和卷积偏移数据送到加法器；加法器将收到的数据进行加法数求和处理，输出数据到线性整流函数单元；线性整流函数单元对数据进行线性整流函数处理，结果送入池化操作单元；池化操作单元对数据进行平均池化操作，如果为末尾卷积，送入乘加单元中，其余情况送入片内存储器中存储待取；全连接权值通过全连接权值输入引脚进入乘加单元后，乘加单元对数据进行乘法和相加操作，将数据通过输出引脚输出。

该卷积神经网络加速器可以采用多层融合的硬件架构，通过架构和算法的交互优化，使得特定的算法层的输出数据能够被有效地缓存在片内存储器中。

该卷积神经网络加速器在电路设计方面可以采用异步电路。

根据本发明的另一方面，提供了一种卷积神经网络加速方法，包括以下步骤：定点化步骤，通过定点化方法处理神经网络，将浮点数通过专用定点算法转化为更低比特数的定点数；网络剪枝步骤，通过网络剪枝方法，自动对网络各个部分进行剪枝处理。

该加速方法的定点化步骤可以包括：针对网络中的权值，设置权值数据量阈值；以设置的权值数据量阈值为中心截取分布，以该分布范围的整数位作为定点化的整数，余下的位数作为符号位和小数位。

该加速方法的定点化步骤可以包括：对于某一层的输出数据，对专用网络进行前向运算之后，得到所有输出数据的分布特征；设置数据量阈值，以设置的数据量阈值为中心截取分布，得到一个数据的大概率分布范围；以该分布范围的整数位设置数据流的定点化的整数，余下的位数作为符号位和小数位。

在该加速方法的网络剪枝步骤中，可以采用剪枝比例自动分配算法，精确调整神经网络的每一层的剪枝比例。

该加速方法还可以包括硬件部署步骤，采用多层融合的架构和异步电路来部署硬件。

在该加速方法的定点化步骤中，可以将浮点数通过专用定点算法转化为8位的定点数。

在该加速方法的网络剪枝方法中，可以对神经网络的每一层建立单独的剪枝参数，通过迭代调整网络的剪枝参数，分别对每层网络进行剪枝处理，裁剪可剪枝权值。

与现有技术相比，本发明的有益效果是：

本发明提供一种新的基于专用集成电路的低功耗卷积神经网络专用加速器及加速方法，针对现有流行的卷积神经网络结构，通过软硬件协同优化，解决现有的神经网络加速器存在的功耗高、芯片面积大以及计算速度慢的问题；同时，在一定程度上解决现有的专用集成电路加速器设计缺乏一定的灵活性，难以适配不同的网络结构的不足。本发明具有硬件灵活性，能够支持多种常用卷积神经网络结构；相比现有的加速器，本发明的芯片整体的面积和功耗都大大减少。

附图说明

图1是根据本发明一实施例的卷积神经网络加速器的硬件结构框图。

图2是根据本发明一实施例的卷积神经网络加速方法的流程图。

图3是根据本发明一实施例的卷积神经网络加速器的设计流程图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

现有的卷积神经网络结构大多由卷积层、池化层、全连接层构成，本发明针对上述网络层设计专用集成电路，在软件及硬件上通过优化方法提升计算速度以及减少计算功耗。由于卷积神经网络层与层之间是独立运算的，通过数据流传递信息进行计算，每一个卷积层都有相同的基本结构，即为卷积核对一个拥有多个通道的特征图进行滑动计算处理。因此，本发明提供的卷积神经网络专用加速器针对每一个卷积层都可以复用一套完整的由多个计算单元组成的卷积模块。

本发明提供一种卷积神经网络加速器，包括加速器芯片、卷积运算器、加法器、线性整流函数单元、池化操作单元、全连接乘加单元、片内存储器、数据输入引脚、输出引脚、卷积权值输入引脚、全连接权值输入引脚；第一层数据通过数据输入引脚进入加速器芯片，卷积的权值数据通过卷积权值输入引脚进入加速器芯片，其余数据通过片内存储器获取，按对应通道分别送入卷积运算器中；卷积运算器接受数据后进行九次乘法实现三乘三卷积中的乘法操作，乘法结果数据和卷积偏移数据送到加法器；加法器将收到的数据进行加法数求和处理，输出数据到线性整流函数单元；线性整流函数单元对数据进行线性整流函数处理，结果送入池化操作单元；池化操作单元对二乘二的数据进行平均池化操作，如果为末尾卷积送入全连接乘加单元中，其余情况送入片内存储器中存储待取；全连接权值通过全连接权值输入引脚进入全连接乘加单元后，全连接乘加单元对数据进行乘法-相加操作，将数据通过输出引脚输出。

为了进一步减少电路的功耗，本发明在硬件架构和电路设计方面也采用了多种优化方法。首先，考虑到片上存储的容量的限制，采用了多层融合的架构，通过架构和算法的交互优化(co-design)，保证特定的算法层的输出数据能够被有效地缓存在片上存储中，从而极大减少了片外数据的访存。其次，考虑到目标场景(如可穿戴设备)的数据处理的频次较低，即只有在特定的时间(如设备唤醒后)芯片才工作，因此采用了异步电路的实现方式。在设备休眠状态下，芯片并不消耗功耗，从而极大的减少芯片的整体功耗。

利用上述低功耗卷积神经网络专用加速器，本发明提供一种低功耗卷积神经网络专用加速器加速方法，具体来说，针对现有卷积神经网络结构，基于电路设计了数据可复用的卷积器，根据卷积算法的特点，制定了数据复用的策略，并将其布局到电子电路上。基于专用集成电路，通过软硬件协同优化，针对卷积神经网络中每一个卷积层都可以复用一套完整的由多个计算单元组成的卷积模块，从而降低运行时所需的功耗并提高计算速度；包括以下步骤：

A)通过定点化方法处理神经网络，将浮点数通过专用定点算法转化为更低的比特数的定点数，由此减少硬件资源的使用量，降低集成电路的成本，减少网络的能耗。

定点化方法处理神经网络：人工神经网络中的大量计算，卷积计算浮点数乘法和加法、全连接层计算浮点数乘法和加法、激活函数等操作对于数据有很强的鲁棒性。在一定范围之内，网络对于数据的精度变化不太敏感。传统的通用处理器和通用图形处理器的乘法单元和加法单元一般是针对32位的浮点数甚至64位双精度浮点数设计的，计算开销和能耗较大，而通过定点化处理神经网络使用更低的比特数可以保持网络性能基本不下降。

因此，本发明具体实施时，采用了定点化策略对神经网络加速器进行设计，将浮点数通过专用定点算法转化为8位的定点数，减少了硬件资源的使用量，降低了集成电路的成本，减少了网络的能耗。在本发明的其他实施例中，也可以将浮点数转化为其他比特数的定点数。

B)采用专用网络定点位标定算法，针对专用网络定点化；执行如下操作：

B1)针对网络中的权值，设置权值数据量阈值(如99％的权值数据量作为阈值)，以设置的权值数据量阈值为中心截取分布，以该分布范围的整数位作为定点化的整数，余下的位数作为符号位和小数位；

B2)定点算法：对于某一层的输出数据，对专用网络进行前向运算之后，得到所有输出数据的分布特征；设置数据量阈值(如95％数据量)，以设置的数据量阈值为中心截取分布，得到一个数据的大概率分布范围；以该分布范围的整数位设置数据流的定点化的整数，余下的位数作为符号位和小数位；

C)通过网络剪枝方法，自动对网络各个部分进行剪枝处理，以保证网络的性能，设计剪枝比例自动分配算法，精确调整神经网络的每一层的剪枝比例，使得网络达到最佳效果；

对网络进行优化之后，网络中还存在大量权值对于网络没有贡献，这些权值称为可剪枝权值。通过裁剪可剪枝权值，可以减少网络的计算量，减少能量消耗。可剪枝权值在卷积层中的数量相较于全连接层较少，而且网络底层的权值更为重要，可剪枝权值较少。因此，本发明通过一种网络剪枝算法自动对网络的各个部分进行剪枝处理，以保证网络的性能。

具体地，对神经网络的每一层建立单独的剪枝参数，分别对每层网络进行剪枝处理，在保证网络模型的测试错误率变化小于某设定值(如5％)对每一层进行最大化的剪枝；通过迭代调整网络的剪枝参数，可以得到一个错误率变化小于某设定值(10％)的网络。最后，通过网络训练，对剪枝后的网络进行最终的微调，使得网络基本保持剪枝之前的性能。

D)通过优化硬件的架构和电路，包括多层融合的架构和异步电路，进一步减少电路的功耗。

本发明提供的基于专用集成电路的低功耗卷积神经网络专用加速器及加速方法，通过软硬件协同优化，解决了现有的神经网络加速器存在的功耗高、芯片面积大以及计算速度慢的问题。

本发明的实施例以人脸过滤任务作为具体的任务。人脸过滤即是将含有人脸的图片保留，过滤掉其他不含人脸的图片。我们首先针对该项任务在GPU上训练卷积神经网络模型，然后使用之前设计的卷积神经网络加速器构建过滤***，自动过滤不含人脸的图片。

由于卷积神经网络层与层之间是独立运算的，通过数据流传递信息进行计算，每一个卷积层都有相同的基本结构，即为卷积核对一个拥有多个通道的特征图进行滑动计算处理。因此，我们设计的加速器的针对每一个层卷积都可以复用一套完整的由多个计算单元组成的卷积模块。

图1是根据本发明一实施例的卷积神经网络加速器的硬件结构框图。如图1所示，卷积神经网络加速器包括卷积运算器(卷积器)、加法器、线性整流函数单元、池化操作单元、乘加单元、片内存储器、卷积权值输入引脚和全连接权值输入引脚。卷积神经网络加速器还包括数据输入引脚和输出引脚。

第一层数据通过数据输入引脚进入加速器芯片，卷积的权值数据通过卷积权值输入引脚进入加速器，其余数据通过片内存储器获取，按对应通道分别送入卷积运算器中。卷积运算器接受数据后进行乘法操作，乘法结果数据和卷积偏移数据送到加法器。加法器将收到的数据进行加法数求和处理，输出数据到线性整流函数单元。线性整流函数单元对数据进行线性整流函数处理，结果送入池化操作单元。池化操作单元对数据进行平均池化操作，如果为末尾卷积，送入乘加单元中，其余情况送入片内存储器中存储待取。全连接权值通过全连接权值输入引脚进入乘加单元后，乘加单元对数据进行乘法和相加操作，将数据通过输出引脚输出。

在本发明一实施例中，卷积神经网络加速器可以采用多层融合的硬件架构，通过架构和算法的交互优化，使得特定的算法层的输出数据能够被有效地缓存在片内存储器中。

在本发明一实施例中，卷积神经网络加速器在电路设计方面可以采用异步电路。

图2是根据本发明一实施例的卷积神经网络加速方法的流程图。该方法包括：定点化步骤，通过定点化方法处理神经网络，将浮点数通过专用定点算法转化为更低比特数的定点数；网络剪枝步骤，通过网络剪枝方法，自动对网络各个部分进行剪枝处理。

在本发明一实施例中，定点化步骤可以包括：针对网络中的权值，设置权值数据量阈值；以设置的权值数据量阈值为中心截取分布，以该分布范围的整数位作为定点化的整数，余下的位数作为符号位和小数位。

在本发明另一实施例中，定点化步骤可以包括：对于某一层的输出数据，对专用网络进行前向运算之后，得到所有输出数据的分布特征；设置数据量阈值，以设置的数据量阈值为中心截取分布，得到一个数据的大概率分布范围；以该分布范围的整数位设置数据流的定点化的整数，余下的位数作为符号位和小数位。

在网络剪枝步骤中，可以采用剪枝比例自动分配算法，精确调整神经网络的每一层的剪枝比例。

在本发明一实施例中，加速方法还可以包括硬件部署步骤，采用多层融合的架构和异步电路来部署硬件。

在定点化步骤中，可以将浮点数通过专用定点算法转化为8位的定点数。

在网络剪枝步骤中，可以对神经网络的每一层建立单独的剪枝参数，通过迭代调整网络的剪枝参数，分别对每层网络进行剪枝处理，裁剪可剪枝权值。

图3是根据本发明一实施例的卷积神经网络加速器的设计流程图。该设计流程可以包括：在云端训练模型；对模型进行剪枝优化；将模型部署至硬件；调试I/O接口；部署到实际生产环境。

在本发明的设计中，通过定点化方法处理神经网络，采用专用网络定点位标定算法，针对专用网络定点化，通过网络剪枝方法，自动对网络各个部分进行剪枝处理，并且通过优化硬件的架构和电路进一步减少电路的功耗。在本发明的设计中采用了各种优化的算法和策略，具体如下：

定点化策略：人工神经网络的算法研究发现，网络中的大量计算：卷积计算浮点数乘法和加法、全连接层计算浮点数乘法和加法、激活函数等操作对于数据有很强的鲁棒性。在一定范围之内，网络对于数据的精度变化不太敏感。传统的通用处理器和通用图形处理器的乘法单元和加法单元一般是针对32位的浮点数甚至64位双精度浮点数设计的，计算开销和能耗较大，而通过定点化处理神经网络使用10位数据甚至更低的比特数可以保持网络性能基本不下降。

因此，我们采用了定点化策略对神经网络加速器进行设计，将浮点数通过专用定点算法转化为8位的定点数，减少了硬件资源的使用量，降低了集成电路的成本，减少了网络的能耗。

专用网络定点位标定算法：定点化数据需要制定定点位置，我们设计了针对专用网络定点化设计的一种方法。浮点数转化成定点需定义小数和整数需求，对于某一层的输出数据，在大量测试数据对专用网络进行前向运算之后，我们得到了所有输出数据的分布特征，以95％数据量作为阈值中心截取分布，得到一个数据的大概率分布范围，以该分布范围的整数位设置数据流的定点化的整数需求，余下的位数作为符号位和小数位。

因为权值在网络中更为重要，权值的变化会对网络产生较大影响。针对网络中的权值，我们以99％的权值数据量作为阈值中心截取分布，以该分布范围的整数位设置定点化的整数需求，余下的位数作为符号位和小数位。

网络剪枝策略及剪枝比例自动分配算法：人工神经网络剪枝是一种对网络进行缩减的有效方法，由于神经网络本身具有很大的冗余性，即使在加入很多正则优化项对网络进行优化之后，网络中还是存在大量权值对于网络没有贡献，我们将它称之为可剪枝权值。通过裁剪可剪枝权值，可以减少网络的计算量，减少能量消耗。可剪枝权值在卷积层中的数量相较于全连接层较少，而且网络底层的权值更为重要，可剪枝权值较少。因此，我们设计了一种算法自动对网络的各个部分进行剪枝处理，以保证网络的性能。

具体地，神经网络的每一层的剪枝比例需要精确调整才能达到最佳的效果，因此我们对神经网络的每一层建立单独的剪枝参数，分别对每层网络进行剪枝处理，在保证网络模型的测试错误率变化小于5％之内对每一层进行最大化的剪枝。通过迭代调整网络的剪枝参数，可以拿到一个错误率变化小于10％的网络。最后，通过网络训练，对剪枝后的网络进行最终的微调，使得网络基本保持剪枝之前的性能。

低功耗架构及电路设计：为了进一步减少电路的功耗，我们在硬件的架构和电路设计方面也采用了多种优化方法。参考图1，本发明提供了低功耗卷积神经网络专用加速器的硬件结构框图。首先，考虑到片上存储的容量的限制，采用了多层融合的架构技术。通过架构和算法的交互优化(co-design)，具体根据片上存储容量，选择相邻的两(多)层次进行融合，并且适当缩减算法层次的输入/输出，保证特定的算法层的输出数据能够被有效地缓存在片上存储中，从而极大减少了片外数据的访存。其次，考虑到目标场景(如可穿戴设备)的数据处理的频次较低，即只有在特定的时间(如设备唤醒后)芯片才工作，因此，采用了异步电路的实现方式。在设备休眠状态下，芯片并不消耗功耗，从而极大的减少芯片的整体功耗。

以下实施例中，在将图片输入到卷积神经网络之前，先将图片缩放至32x32，并将给定的RGB图像转化为灰度图。

本实施例采取三层的卷积神经网络作为基本的网络结构。每一层由一个卷积单元构成。其中卷积单元分别由卷积，池化，非线性激活函数三个操作构成。卷积操作以一系列3x3的卷积核为基础，通过这些卷积核与输入做卷积，从而提取相应的特征。我们在本次实验中采取最大值池化，即取给定子区域中的最大值作为提取特征，具体来说，将输入的每一个2x2的子区域中的最大值作为下一层的输入特征。修正线型单元(Rectified LinearUnit,ReLU)作为激活函数。在输入图像经过三层卷积操作过后，在最后添加一层全连接层，使卷积神经网络输出输入图片是否包含人脸的概率，从而预测图片中是否含有人脸。

网络设计完成之后，利用已有深度学习开源框架根据训练数据训练所设计的网络参数。训练完成之后，将模型参数存储在开发板(由SOC芯片和神经网络加速器构成)上，并利用本发明提供的加速器进行卷积神经网络计算。在架构与芯片方面，采用层次融合和异步架构减少功耗。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种卷积神经网络加速器，包括卷积运算器、加法器、线性整流函数单元、池化操作单元、乘加单元、片内存储器、卷积权值输入引脚和全连接权值输入引脚，其中：

卷积的权值数据通过卷积权值输入引脚进入加速器，其余数据通过片内存储器获取，按对应通道分别送入卷积运算器中；

卷积运算器接受数据后进行乘法操作，乘法结果数据和卷积偏移数据送到加法器；

加法器将收到的数据进行加法数求和处理，输出数据到线性整流函数单元；

线性整流函数单元对数据进行线性整流函数处理，结果送入池化操作单元；

池化操作单元对数据进行平均池化操作，如果为末尾卷积，送入乘加单元中，其余情况送入片内存储器中存储待取；

全连接权值通过全连接权值输入引脚进入乘加单元后，乘加单元对数据进行乘法和相加操作，将数据通过输出引脚输出。

2.如权利要求1所述的卷积神经网络加速器，其特征是，采用多层融合的硬件架构，通过架构和算法的交互优化，使得特定的算法层的输出数据能够被有效地缓存在片内存储器中。

3.如权利要求1所述的卷积神经网络加速器，其特征是，电路设计方面采用异步电路。

4.一种卷积神经网络加速方法，包括以下步骤：

定点化步骤，通过定点化方法处理神经网络，将浮点数通过专用定点算法转化为更低比特数的定点数；

网络剪枝步骤，通过网络剪枝方法，自动对网络各个部分进行剪枝处理。

5.如权利要求4所述的方法，其特征是，所述定点化步骤包括：

针对网络中的权值，设置权值数据量阈值；

以设置的权值数据量阈值为中心截取分布，以该分布范围的整数位作为定点化的整数，余下的位数作为符号位和小数位。

6.如权利要求4所述的方法，其特征是，所述定点化步骤包括：

对于某一层的输出数据，对专用网络进行前向运算之后，得到所有输出数据的分布特征；

设置数据量阈值，以设置的数据量阈值为中心截取分布，得到一个数据的大概率分布范围；

以该分布范围的整数位设置数据流的定点化的整数，余下的位数作为符号位和小数位。

7.如权利要求4所述的方法，其特征是，在所述网络剪枝步骤中，采用剪枝比例自动分配算法，精确调整神经网络的每一层的剪枝比例。

8.如权利要求4所述的方法，其特征是，还包括硬件部署步骤，采用多层融合的架构和异步电路来部署硬件。

9.如权利要求4所述的方法，其特征是，在所述定点化步骤中，将浮点数通过专用定点算法转化为8位的定点数。

10.如权利要求4所述的方法，其特征是，在所述网络剪枝步骤中，对神经网络的每一层建立单独的剪枝参数，通过迭代调整网络的剪枝参数，分别对每层网络进行剪枝处理，裁剪可剪枝权值。