CN112465110B

CN112465110B - 一种卷积神经网络计算优化的硬件加速装置

Info

Publication number: CN112465110B
Application number: CN202011279360.1A
Authority: CN
Inventors: 曹学成; 廖湘萍; 丁永林; 李炜
Original assignee: CETC 52 Research Institute
Current assignee: CETC 52 Research Institute
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-09-13
Anticipated expiration: 2040-11-16
Also published as: CN112465110A

Abstract

本发明公开了一种卷积神经网络计算优化的硬件加速装置，包括参数存储模块、调度控制模块、多个加速核模块，各所述加速核模块包括输入图像缓存单元、权重缓存单元、去零处理单元、乘累加运算阵列单元、修正线性单元和输出图像缓存单元。本发明能够保持流水、并行的简单硬件结构，通过去除输入特征图的零值，降低计算量，提升硬件加速性能；并且保持卷积神经网络算法的原始结构，不需要卷积神经网络算法做额外的降低计算量的优化，避免出现网络运算的不规则性，适合各种卷积神经网络算法的硬件加速。

Description

一种卷积神经网络计算优化的硬件加速装置

技术领域

本申请属于计算机技术领域，具体涉及一种卷积神经网络计算优化的硬件加速装置。

背景技术

近年来，深度神经网络的相关算法已经大规模运用于图像处理、音频处理等领域中，对世界经济和社会活动产生了重大影响。深度卷积神经网络技术在许多机器学习领域受到广泛关注，相比传统机器学习算法有更高的精度，而且能够实现超越人类的准确性。

通常卷积神经网络层数越深推理的结果就越准确。但与此同时，网络越深意味着所消耗的计算资源也就越多。在卷积神经网络结构中，层内计算是独立不相关的，而层间计算类似于流水线结构，使用通用处理器实现效率不高。由于卷积神经网络的特殊计算模式，特别适合硬件加速实现。

深度神经网络具有高精确度的优势，但是有着其庞大计算量的缺点，因此如何减少卷神经网络计算量一直是人工智能领域的热门研究方向。如何在兼容更多深度神经网络算法的前提下，同时不增加额外的预处理，保持流水、并行的简单结构，降低计算量，是目前硬件加速的难点。

发明内容

本申请的目的在于提供一种卷积神经网络计算优化的硬件加速装置，显著减少卷积计算量，提升硬件加速性能。

为实现上述目的，本申请所采取的技术方案为：

一种卷积神经网络计算优化的硬件加速装置，所述卷积神经网络计算优化的硬件加速装置包括参数存储模块、调度控制模块、多个加速核模块，各所述加速核模块包括输入图像缓存单元、权重缓存单元、去零处理单元、乘累加运算阵列单元、修正线性单元和输出图像缓存单元，其中：

所述参数存储模块，用于缓存待加速的卷积神经网络及其对应的卷积核；

所述调度控制模块，用于控制多个加速核模块的均衡计算，检测空闲的加速核模块，将待处理的输入特征图数据分配给空闲的加速核模块；

所述输入图像缓存单元，用于接收输入加速核模块的输入特征图数据并缓存；

所述权重缓存单元，用于接收所述参数存储模块输出的卷积核并缓存；

所述去零处理单元，用于去除所述输入特征图数据中的零值；

所述乘累加运算阵列单元，用于卷积核中的权重数据和去零后的输入特征图数据之间的乘累加运算，输出卷积运算结果；

所述修正线性单元，用于将所述卷积运算结果中的负数修正为零值，得到修正结果；

所述输出图像缓存单元，用于缓存修正结果作为输出特征图数据，所述输出特征图数据作为下一层卷积运算的输入特征图数据。

作为优选，所述加速核模块进行的乘累加运算一次可直接处理的最大数据量为：对大小为C*R*N的输入特征图，大小为W*H*N*M的卷积核进行卷积运算；其中，C表示图像的宽度，R表示图像的高度，N表示通道数，W表示卷积核的宽，H表示卷积核的高，M表示卷积核组数。

作为优选，所述输入图像缓存单元为用于缓存输入特征图数据的第一随机存储器，第一随机存储器中共有C*R个地址空间，第一随机存储器中每个地址空间存储一个像素点的N个通道数的数据。

作为优选，所述权重缓存单元为用于缓存权重数据的第二随机存储器，第二随机存储器中共有W*H*N个地址空间，第二随机存储器中每个地址空间存储一个点的M组卷积核的权重数据。

作为优选，所述乘累加运算阵列单元包括M个平行MAC单元，每个MAC单元实现输入特征图数据和一组卷积核的权重数据的乘累加运算。

作为优选，若待处理的输入特征图大小为C’*R’*N’，其中，C’表示待处理图像的宽度，R’表示待处理图像的高度，N’表示待处理图像的通道数；

则若N’>N，输入图像缓存单元使用连续多个地址空间来存储一个像素点的N’个通道数的数据；若C’*R’>C*R，将待处理的输入特征图拆分成多个C*R*N大小块，分发给多个加速核模块运算。

作为优选，所述参数存储模块中，若待处理的卷积核大小为W’*H’*N’*M’，其中，W’表示待处理卷积核的宽，H’表示待处理卷积核的高，N’表示待处理通卷积核的道数，M’表示待处理卷积核的组数；

若M’>M，将卷积核拆分成多个M组的卷积核，分发给多个加速核模块运算；

或者，若M’>M，权重缓存单元使用连续多个地址来存储一个点的M’组卷积核的权重数据。

本申请提供的卷积神经网络计算优化的硬件加速装置，与现有技术相比具有以下有益效果：

(1)本申请保持流水、并行的简单硬件结构，通过去除输入特征图的零值，降低计算量，提升硬件加速性能。

(2)本申请保持卷积神经网络算法的原始结构，不需要卷积神经网络算法做额外的降低计算量的优化，避免出现网络运算的不规则性，适合各种卷积神经网络算法的硬件加速。

附图说明

图1为本申请卷积神经网络计算优化的硬件加速装置的结构示意图；

图2为本申请的输入特征图的存储方式示意图；

图3为本申请的输入特征图去零处理方式示意图；

图4为本申请的卷积核权重数据存储方式示意图；

图5为本申请的卷积乘累加运算工作示意图；

图6为本申请的输出入特征图像存储方式示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

其中一个实施例中，提供一种卷积神经网络计算优化的硬件加速装置，解决目前卷积神经网络所消耗的计算资源多，通用处理器实现效率不高的问题。

如图1所示，本实施例的卷积神经网络计算优化的硬件加速装置包括参数存储模块、调度控制模块、多个加速核模块，并且各加速核模块包括输入图像缓存单元、权重缓存单元、去零处理单元、乘累加运算阵列单元、修正线性单元和输出图像缓存单元。

在卷积计算过程中，各模块单元的应用如下：

参数存储模块用于缓存待加速的卷积神经网络及其对应的卷积核。在实际应用中，参数存储模块实际存储的为编译后的网络层信息，例如可以是存储YOLO系列，或者存储MobileNet系列，作为本次卷积运算过程中待加速优化的神经网络。

调度控制模块用于控制多个加速核模块的均衡计算，检测空闲的加速核模块，将待处理的输入特征图数据(即新的运算请求)分配给空闲的加速核模块。本实施例利用调度控制模块统筹控制所有加速核模块的工作情况，可有效提高各加速核模块的利用率，减少计算等待时间。容易理解的是，检测加速核模块的空闲情况为常规的检测手段，可以是通过标识符或者通过状态进行判断，这里就不再进行赘述。

输入图像缓存单元用于接收输入加速核模块的输入特征图数据并缓存，权重缓存单元用于接收所述参数存储模块输出的卷积核并缓存。

去零处理单元用于去除所述输入特征图数据中的零值。

乘累加运算阵列单元用于卷积核中的权重数据和去零后的输入特征图数据之间的乘累加运算，输出卷积运算结果。

修正线性单元(即激活函数Relu)用于将所述卷积运算结果中的负数修正为零值，得到修正结果。本实施例每层卷积运算后的激活函数Relu操作，会使卷积运算结果的负数全部为零，便于去除每层输入特征图数据中的零，可以极大的降低算法计算量。

输出图像缓存单元，用于缓存修正结果作为输出特征图数据，所述输出特征图数据作为下一层卷积运算的输入特征图数据。

本实施例的卷积神经网络计算优化的硬件加速装置，保持卷积神经网络算法的流水、并行的原始结构，同时结合参数存储模块中切换存储各类卷积神经网络，使本申请的硬件加速装置能够兼容多种卷积神经网络的加速计算；同时利用激活函数Relu将负值变为零的特性，将当前层的输出特征图数据中的负值变为零，以便于下一层进行卷积运算时去除为零的数据，减少计算量，提升硬件加速性能。

在整个卷积计算过程中，通过输入总线获取输入特征图数据和卷积核，并在卷积计算结束后通过输出总线输出最终的计算结果数据。经总线实现数据传输，具有更高的数据传输稳定性和完整性。

容易理解的是，若当前层的输出特征图数据还未完成整个卷积计算，则当前层的输出特征图数据将作为下一层卷积运算的输入特征图数据；若当前层的输出特征图数据已未完成整个卷积计算，则当前层的输出特征图数据将通过输出总线输出。

并且为了提高卷积运算的准确性，在另一实施例中，硬件加速装置还包括偏置缓存单元，偏置缓存单元用于缓存偏置数据，为卷积计算提供偏置补偿。由于权重数据与输入特征图数据的运算具有顺序性，因此需要去零处理单元同时控制权重缓存单元的读地址。若硬件加速装置包括偏置缓存单元，则去零处理单元同时还需要控制偏置缓存单元的读地址。读地址的偏移控制为卷积运算中的常规技术，本实施例中不进行赘述。

具体的，为了保证具有简单的硬件结构，每个加速核模块均存在一次性可处理的最大数据量，也是输入图像缓存单元和权重缓存单元的最大存储量。在一实施例中，设置各加速核模块进行的乘累加运算一次可直接处理的最大数据量为：对大小为C*R*N的输入特征图，大小为W*H*N*M的卷积核进行卷积运算；其中，C表示图像的宽度，R表示图像的高度，N表示通道数，W表示卷积核的宽，H表示卷积核的高，M表示卷积核组数。

如图2所示，在获得输入特征图和权重数据进行存储时，输入图像缓存单元为用于缓存输入特征图数据的第一随机储存器(RAM)，第一随机存储器中共有C*R个地址空间，第一随机存储器中每个地址空间存储一个像素点的N个通道数的数据。

如图3所示，去零处理单元在去除输入特征图中的零值时，依次去除输入图像缓存单元中每个地址空间中存储的零，将原来的N个数据去零整合为L个数据，且N≥L。

如图4所示，权重缓存单元为用于缓存权重数据的第二随机存储器(RAM)，第二随机存储器中共有W*H*N个地址空间，第二随机存储器中每个地址空间存储一个点的M组卷积核的权重数据。

为了保证乘累加运算阵列能够按照单次最大数据量并行计算，在一实施例中，设置乘累加运算阵列单元包括M个平行MAC单元(乘加器)，每个MAC单元实现输入特征图数据和一组卷积核的权重数据的乘累加运算，保证卷积算法具有最大的并行度，显著提高运算效率。

以下通过实施例进一步说明本申请的卷积神经网络计算优化的硬件加速装置的工作流程。

实施例1

在进行卷积计算时，根据加速核的空闲情况，选择马上工作的加速核模块。

从输入总线获取C*R*N的输入特征图像，其中，C表示图像的宽度，R表示图像的高度，N表示图像的通道数，输入图像缓存单元RAM中每个地址空间存储一个像素点的N个通道数的数据。

从输入总线获取W*H*N*M的卷积核，其中，W表示卷积核宽，H表示卷积核高，N表示卷积核的通道数，M表示卷积核组数，权值缓存单元RAM中每个地址空间存储一个点的M组卷积核的权重数据。

从输入图像缓存单元读取平行的一行N个数据(即一个地址空间中的数据)，去零处理单元除去N个数据中为零的数据，转换成串行的L个数据。

如图5所示，乘累加运算阵列单元每个周期取L个数据中的一个数据作为待计算数据，取M组卷积核中与待计算数据处于相同通道数的一个权重数据进行乘累加运算，其中乘累加运算阵列为M个平行MAC单元，每个MAC单元实现一组卷积核与输入特征图数据的乘累加运算。经过W*H*L个周期后出一个像素点的M个通道数的输出特征图数据。

如图6所示，输出图像缓存单元同样为RAM，令该RAM为第三随机存储器，第三随机存储器中每个地址空间存储一个像素点的M个通道数的数据，将输出特征图数据输出进行缓存，并通过激活函数Relu将输出特征图数据中的负值变为零，完成一层的卷积运算，并通过输出总线输出。

以上为本实施例硬件加速装置基于一次最大计算量的计算过程，需要说明的是，若输入的数据超出一次最大计算量，则在卷积运算前需要经过预处理：

对于输入特征图而言：若待处理的输入特征图大小为C’*R’*N’，其中，C’表示待处理图像的宽度，R’表示待处理图像的高度，N’表示待处理图像的通道数；若N’>N，则输入图像缓存单元使用连续多个地址空间来存储一个像素点的N’个通道数的数据，并采用N’/N(取整)个加速核模块对输入特征图进行运算，计算N’/N时按照若余数不为零则商加1进行取整。

例如输入图像缓存单元最大能存储的输入特征图大小C*R*N为20*20*32，当N’为32及以内时，可以存放C*R个点，即20*20；当N’为64或超过32小于64时，可以存放C*R*N/N’个点，即20*20/2，同理类推N’为其他值时的存储情况。

若C’*R’>C*R时，将输入特征图像拆分成多个C*R*N大小块，分发给多个加速核模块运算。在对输入特征图像进行拆分时，若C’*R’不是C*R的整数倍，则可对C’*R’的外边进行补零调整，调整为C*R的整数倍再进行拆分。

例如C’*R’为6*8，而C*R为2*3时，需要对C’*R’的外边进行补零，变成6*9的规格再进行拆分处理。需要说明的是，在实际应用时，为了提高严谨性，对输入特征图像的拆分处理可能还需要考虑边框交叠的问题。

对输入特征图像的拆分可以是由CPU侧的拆分模块完成，由拆分模块进行拆分处理后，将各数据块发送至调度控制模块进行分配，并且支持跳地址读取外部数据。需要说明的是，拆分模块可以作为本实施例硬件加速装置的一部分，也可以作为与本实施例硬件加速装置连接的外部模块。当然对输入特征图像的拆分还可以是由调度控制模块完成。

对于卷积核而言：若待处理的卷积核大小为W’*H’*N’*M’，其中，W’表示待处理卷积核的宽，H’表示待处理卷积核的高，N’表示待处理通道数，M’表示待处理卷积核的组数；若M’>M时，可以将卷积核拆分成多个M组的卷积核，分发给多个加速核模块运算，同理卷积核也可以由相同或相似的拆分模块完成或由参数存储模块完成；或者，若M’>M时，权重缓存单元使用连续多个地址来存储一个点的M’组卷积核的权重数据，这点与输入特征图N’>N时的处理类似，不在进行赘述。

在对输入特征图数据或卷积核进行拆分处理后，通过每个处理运算请求后的加速核模块将输出特征图输出到外部SDRAM缓存的地址，在外部SDRAM缓存中实现拼接。对应每个加速核模块的输出数据每行都跳地址，例如输入特征图像左右拆分，两个输出都是10*20的(先不考虑通道数)，0～9地址存放加速核模块1的数据，10～19存放加速核模块2的数据，20～29地址再存放加速核模块1的数据，30～39再存放加速核模块2的数据，以此类推。

本实施例采用并行计算的结构同时跳过输入图像为零的乘累加运算，从而达到加速神经网络运算的目的。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种卷积神经网络计算优化的硬件加速装置，其特征在于，所述卷积神经网络计算优化的硬件加速装置包括参数存储模块、调度控制模块、多个加速核模块，各所述加速核模块包括输入图像缓存单元、权重缓存单元、去零处理单元、乘累加运算阵列单元、修正线性单元和输出图像缓存单元，其中：

2.如权利要求1所述的卷积神经网络计算优化的硬件加速装置，其特征在于，所述加速核模块进行的乘累加运算一次可直接处理的最大数据量为：对大小为C*R*N的输入特征图，大小为W*H*N*M的卷积核进行卷积运算；其中，C表示图像的宽度，R表示图像的高度，N表示通道数，W表示卷积核的宽，H表示卷积核的高，M表示卷积核组数。

3.如权利要求2所述的卷积神经网络计算优化的硬件加速装置，其特征在于，所述输入图像缓存单元为用于缓存输入特征图数据的第一随机存储器，第一随机存储器中共有C*R个地址空间，第一随机存储器中每个地址空间存储一个像素点的N个通道数的数据。

4.如权利要求2所述的卷积神经网络计算优化的硬件加速装置，其特征在于，所述权重缓存单元为用于缓存权重数据的第二随机存储器，第二随机存储器中共有W*H*N个地址空间，第二随机存储器中每个地址空间存储一个点的M组卷积核的权重数据。

5.如权利要求2所述的卷积神经网络计算优化的硬件加速装置，其特征在于，所述乘累加运算阵列单元包括M个平行MAC单元，每个MAC单元实现输入特征图数据和一组卷积核的权重数据的乘累加运算。

6.如权利要求3所述的卷积神经网络计算优化的硬件加速装置，其特征在于，若待处理的输入特征图大小为C’*R’*N’，其中，C’表示待处理图像的宽度，R’表示待处理图像的高度，N’表示待处理图像的通道数；

7.如权利要求4所述的卷积神经网络计算优化的硬件加速装置，其特征在于，所述参数存储模块中，若待处理的卷积核大小为W’*H’*N’*M’，其中，W’表示待处理卷积核的宽，H’表示待处理卷积核的高，N’表示待处理通卷积核的道数，M’表示待处理卷积核的组数；