CN112668708A

CN112668708A - 一种提高数据利用率的卷积运算装置

Info

Publication number: CN112668708A
Application number: CN202011578577.2A
Authority: CN
Inventors: 廖湘萍; 丁永林; 曹学成; 李炜
Original assignee: CETC 52 Research Institute
Current assignee: CETC 52 Research Institute
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-16
Anticipated expiration: 2040-12-28
Also published as: CN112668708B

Abstract

本发明公开了一种提高数据利用率的卷积运算装置，乘累加单元采用并行结构，将输入特征图数据按照乘累加单元的并行度拆分为多个数据块，卷积运算以数据块为单位计算，重复读取并使用同一数据块，与当前网络层所有的权值完成卷积运算，减少了该数据块重复输入缓存的次数，从而提高了数据利用率以及降低了片内存储容量要求，避免了需要从片外存储中读取特征图数据的过程，显著提升了卷积运算整体效率。

Description

一种提高数据利用率的卷积运算装置

技术领域

本申请属于计算机领域，具体涉及一种提高数据利用率的卷积运算装置。

背景技术

近年来，深度神经网络技术被广泛应用，尤其是在图像处理、语音识别及文本分类应用方面最为突出。深度神经网络具有极佳的精准度，通过分析庞大的数据获取更精准的结果。深度神经网络越深、模拟能力越强，推理的精准度也越高。

卷积神经网络属于深度神经网络。虽然卷积神经网络具有很高的精准度，但是同时随着神经网络层数增多，卷积神经网络算法的计算量也随着变得庞大，对于数据带宽及数据存储的要求也越高。由于硬件实现的资源是有限的，无法实现随着算法计算量的增大而增大。而且卷积神经网络计算过程中存在卷积核窗口需要滑过整个图像的特点，导致卷积运算中会有大量的数据被重复使用。而运算装置的片内存储空间有限，数据需要暂存在外部存储空间，进而导致运算受限于数据带宽，影响运算效率。

发明内容

本申请的目的在于提供一种提高数据利用率的卷积运算装置，减少片内存储容量，提高卷积运算效率。

为实现上述目的，本申请所采取的技术方案为：

一种提高数据利用率的卷积运算装置，所述提高数据利用率的卷积运算装置，包括输入总线、输入数据缓存阵列、乘累加单元阵列、输出数据缓存阵列和输出总线，所述输入数据缓存阵列包括输入特征图数据缓存阵列和权值缓存阵列，所述乘累加单元阵列包括Q个并行的乘累加单元，其中：

所述输入特征图数据缓存阵列，用于从所述输入总线依次获取多个数据块并缓存，所述数据块为按照乘累加单元的并行度Q将输入特征图数据划分得到；

所述权值缓存阵列，用于从所述输入总线获取权值数据并缓存，所述权值数据为一个或多个卷积核的权值数据；

所述乘累加单元阵列，用于数据块与权值数据的乘累加运算，重复读取同一数据块与各卷积核进行乘累加运算，直至完成所有数据块的乘累加运算，输出每一数据块与每一卷积核进行乘累加运算得到的卷积运算结果；

所述输出数据缓存阵列，用于接收所述乘累加单元阵列输出的卷积运算结果，将所有卷积运算结果拼接后得到输出特征图数据并缓存；

所述输出总线，用于将所述输出特征图数据输出。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述按照乘累加单元的并行度Q将输入特征图数据划分，包括：

将大小为R*K*N的输入特征图数据拆分为大小为L*K*N的J个数据块，其中，R为输入特征图数据的高度，K为输入特征图数据的宽度，N为输入特征图数据的通道数，L为数据块的高度，K为数据块的宽度，即为输入特征图数据的宽度，N为数据块的通道数，即为输入特征图数据的通道数。

作为优选，所述输入特征图数据缓存阵列中的每一个地址空间存储Q个像素点数据，采用连续的H*E*N个地址空间存储一个数据块，其中H为卷积核的高度，E为卷积神经网络中当前网络层的步进。

作为优选，所述输入特征图数据划分时，需满足以下约束条件：所述数据块的高度L满足公式如下：

同时所述数据块的数量J、输入特征图数据的高度R、数据块的高度L关系满足公式如下：

R＝L+(L-H+E)*(J-1)

式中，H为卷积核的高度，E为卷积神经网络中当前网络层的步进。作为优选，所述权值数据的大小为H*W*N*M，所述权值缓存阵列的每一个地址空间存储H*W个权值数据，采用连续的N*M个地址空间存储当前的所有权值数据，其中H表示卷积核的高度，W表示卷积核的宽度，N表示卷积核的通道数，M表示卷积核的个数。

本申请提供的提高数据利用率的卷积运算装置，乘累加单元采用并行结构，将输入特征图数据按照乘累加单元的并行度拆分为多个数据块，卷积运算以数据块为单位计算，重复读取并使用同一数据块，与当前网络层所有的权值完成卷积运算，减少了该数据块重复输入缓存的次数，从而提高了数据利用率以及降低了片内存储容量要求，避免了需要从片外存储中读取特征图数据的过程，显著提升了卷积运算整体效率。

附图说明

图1为本申请的提高数据利用率的卷积运算装置的结构示意图；

图2为本申请提高数据利用率的卷积运算装置的乘累加运算示意图；

图3为本申请输入特征图数据缓存阵列缓存数据的示意图；

图4为本申请权值缓存阵列缓存数据的示意图；

图5为本申请具体实例中的数据块缓存示意图；

图6为本申请具体实例中的权值数据缓存示意图；

图7为本申请具体实例中乘累加运算示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

其中一个实施例中，提供一种提高数据利用率的卷积运算装置，以提高卷积神经网络各网络层中的卷积运算效率，以便于满足深度更深的卷积神经网络的计算要求。

如图1所示，本实施例的提高数据利用率的卷积运算装置，包括输入总线、输入数据缓存阵列、乘累加单元阵列、输出数据缓存阵列和输出总线，输入数据缓存阵列包括输入特征图数据缓存阵列和权值缓存阵列，乘累加单元阵列包括Q个并行的乘累加单元(如MAC)，Q取决于硬件资源DSP数量。

输入特征图数据缓存阵列，用于从输入总线依次获取多个数据块并缓存，所述数据块为按照乘累加单元的并行度Q将输入特征图数据划分得到。

权值缓存阵列，用于从所述输入总线获取权值数据并缓存，所述权值数据为一个或多个卷积核的权值。

乘累加单元阵列，用于数据块与权值数据的乘累加运算，如图2所示，在进行乘累加运算时，重复读取同一数据块与各卷积核进行乘累加运算，当完成一个数据块与每一卷积核的乘累加运算后，读取下一数据块与各卷积核进行乘累加运算，直至完成所有数据块的乘累加运算，输出每一数据块与每一卷积核进行乘累加运算得到的卷积运算结果。

输出数据缓存阵列，用于接收所述乘累加单元阵列输出的卷积运算结果，将所有卷积运算结果拼接后得到输出特征图数据并缓存。

输出总线，用于将所述输出特征图数据输出。

本实施例的卷积运算装置中乘累加单元采用并行结构，将输入特征图数据按照乘累加单元的并行度拆分为多个数据块，卷积运算以数据块为单位计算，重复读取并使用同一数据块，与当前网络层所有的权值完成卷积运算，减少了该数据块重复输入缓存的次数，从而提高了数据利用率以及降低了片内存储容量要求，避免了需要从片外存储中读取特征图数据的过程，显著提升了卷积运算整体效率。

容易理解的是，通常在卷积运算过程中会增加偏置数据以提高卷积运算准确性，因此本实施例的卷积运算装置还可以包括设置在输入数据缓存阵列中的偏置缓存阵列，偏置缓存阵列用于缓存偏置数据，且至少能够缓存所有网络层中单层偏置的最大容量。

需要说明的是，本实施例的卷积运算装置运行一次针对卷积神经网络中的一层，即输入的特征图数据、权值数据以及偏置数据通常为当前层计算对应的数据。设置多个本申请的卷积运算装置或者运行多次卷积运算装置以完成整个卷积神经网络中的所有卷积运算。

本实施例中按照乘累加单元的并行度Q将输入特征图数据划分为多个数据块，包括：

如图3所示，当卷积核大小为1*1，步进为1时，将大小为R*K*N的输入特征图数据拆分为大小为L*K*N的J个数据块，其中，R为输入特征图数据的高度，K为输入特征图数据的宽度，同时为数据块的宽度，N为输入特征图数据的通道数，同时为数据块的通道数，L为数据块的高度。拆分为多个数据块后，输入特征图数据缓存阵列中的每一个地址空间存储Q个像素点数据，采用连续的N个地址空间存储一个数据块。

当卷积核大小为3*3，步进为1时，将大小为R*K*N的输入特征图数据拆分为大小为L*K*N的J个数据块。拆分为多个数据块后，输入特征图数据缓存阵列中的每一个地址空间存储Q个像素点数据，采用连续的N*3个地址空间存储一个数据块。

以此类推，若卷积核的大小为H*W，卷积神经网络中当前网络层的步进为E时，其中H表示卷积核的高度，W表示卷积核的宽度，则将输入特征图数据拆分为多个数据块后，输入特征图数据缓存阵列中的每一个地址空间存储Q个像素点数据，采用连续的H*E*N个地址空间存储一个数据块。

本实施例中对输入特征图数据进行拆分时，可以根据经验进行分块，并将分块信息下发给输入数据缓存阵列，便于输入特征图数据缓存阵列根据分块信息通过输入总线获取数据块；也可以根据指定的约束条件求解得到分块信息，并将求解得到的分块信息发送至输入数据缓存阵列。

其中为了得到大小合理的数据块，在一个实施例中在对输入特征图数据划分时，需满足以下约束条件：

1)数据块的高度L满足公式如下：

2)同时所述数据块的数量J、输入特征图数据的高度R、数据块的高度L关系满足公式如下：

R＝L+(L-H+E)*(J-1)

式中，H为卷积核的高度，E为卷积神经网络中当前网络层的步进。

如图4所示，若权值数据的大小为H*W*N*M(应理解为卷积神经网络中单层网络层的所有权值数据)，所述权值缓存阵列的每一个地址空间存储H*W个权值数据，采用连续的N*M个地址空间存储当前的所有权值数据，其中H表示卷积核的高度，W表示卷积核的宽度，N表示卷积核的通道数，M表示卷积核的个数。

当J个大小为L*K*N的数据块与当前层所有的权值数据H*W*N*M乘累加运算完成后，得到J*M组大小为Q的卷积运算结果，经过拼接将卷积运算结果整理成完整的输出特征图数据。本发明利用权值和偏置共享，采用并行计算的结构进行乘累加运算，减少了同一数据块重复输入缓存的次数，从而达到提高数据利用率和减少片内存储容量的目的。

为了进一步提升对本申请提高数据利用率的卷积运算装置，以下提供一个具体实例进行说明。

以输入特征图像大小为6*6*3，输入特征图像分块数为2，卷积核大小为1*1，卷积核个数为4，步进为1，乘累加单元个数为18为例，所述卷积运算装置的工作方式如下：

如图5所示，从输入总线获取输入特征图像数据块，大小为3*6*3，按照图5所示方式将其缓存在阵列中，每一个地址空间存放3*6个像素点，连续存放在3个地址空间中。

需要说明的是，在缓存数据块时，只要在输入特征图数据缓存阵列未存储满的情况下可以预先缓存多个数据块，缓存后的数据块被依次读取并进行卷积运算，而参与卷积运算后的数据块将会被移除，以便于循环存储新的数据块。即本申请中数据块的缓存、运算、移除为一个动态的过程，保证数据运算的高效性。

图5中是已经存储了2个数据块的状态，在实际运算过程中为先获取一个数据块进行运算，运算结束后再获取下一数据块进行缓存并运算。

如图6所示，从输入总线获取权值数据，大小为1*1*3*4，按照图6所示方式将其缓存在权值阵列中，每一个地址空间存储1*1个权值数据，连续存放在3*4个地址空间中。

如图7所示，每次取一个地址空间的3*6个特征图像数据，同时取1*1个权值数据进行乘累加运算，3*6个乘累加单元并行进行乘累加运算。连续取3次特征图像数据和权值数据，并完成一个数据块和一个卷积核的乘累加运算，得到一组大小为18的输出特征图像数据。

此时权值阵列中的权值数据并未取完，重复再读取3次阵列中所述3个地址空间的数据，并且依次读取权值阵列中的权值数据，直到与所有的权值完成乘累加运算，又得到三组大小为18的输出特征图像数据。

当第1块数据块完成运算后，再按照上述方式读取下一数据块的特征图像数据，权值数据重复读取1次。完成卷积运算后，再次得到四组大小为18的输出特征图像数据。

上述总共得到八组大小为18的输出特征图像数据，经过拼接得到完整的输出特征图像，其大小为6*6，通道数为4，完成当前网络层的卷积运算。

本实施例的卷积运算装置，乘累加单元采用并行结构，卷积运算是以输入特征图像数据块为单位计算，重用所述数据块，与当前网络层所有的权值完成卷积运算，减少了该数据块重复输入缓存的次数，从而提高了数据利用率以及降低了片内存储容量要求。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种提高数据利用率的卷积运算装置，其特征在于，所述提高数据利用率的卷积运算装置，包括输入总线、输入数据缓存阵列、乘累加单元阵列、输出数据缓存阵列和输出总线，所述输入数据缓存阵列包括输入特征图数据缓存阵列和权值缓存阵列，所述乘累加单元阵列包括Q个并行的乘累加单元，其中：

所述输出总线，用于将所述输出特征图数据输出。

2.如权利要求1所述的提高数据利用率的卷积运算装置，其特征在于，所述按照乘累加单元的并行度Q将输入特征图数据划分，包括：

3.如权利要求2所述的提高数据利用率的卷积运算装置，其特征在于，所述输入特征图数据缓存阵列中的每一个地址空间存储Q个像素点数据，采用连续的H*E*N个地址空间存储一个数据块，其中H为卷积核的高度，E为卷积神经网络中当前网络层的步进。

4.如权利要求2所述的提高数据利用率的卷积运算装置，其特征在于，所述输入特征图数据划分时，需满足以下约束条件：所述数据块的高度L满足公式如下：

R＝L+(L-H+E)*(J-1)

5.如权利要求1所述的提高数据利用率的卷积运算装置，其特征在于，所述权值数据的大小为H*W*N*M，所述权值缓存阵列的每一个地址空间存储H*W个权值数据，采用连续的N*M个地址空间存储当前的所有权值数据，其中H表示卷积核的高度，W表示卷积核的宽度，N表示卷积核的通道数，M表示卷积核的个数。