WO2020062284A1

WO2020062284A1 - 基于卷积神经网络的图像处理方法和设备，以及无人机

Info

Publication number: WO2020062284A1
Application number: PCT/CN2018/109190
Authority: WO
Inventors: 杨康; 高明明; 谷骞
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-04-02
Also published as: US20210192246A1; CN110770740A

Abstract

一种基于卷积神经网络的图像处理方法和设备以及无人机，可以在处理设备的处理能力有限或者片上存储资源有限的情况下，实现卷积神经网络的计算。该方法包括：按块读取三维3D特征图，其中，所述3D特征图包括多个块；按块对所述3D特征图进行卷积神经网络的处理。

Description

基于卷积神经网络的图像处理方法和设备，以及无人机

版权申明

技术领域

本申请涉及图像处理领域，并且更具体地，涉及一种基于卷积神经网络的图像处理方法和设备。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)是一种人工神经网络，在图像识别等领域有着广泛的应用。典型的CNN包括卷积层、池化层、激活层以及全连接层等，上一层根据输入的数据进行相应的运算，将运算结果输出给下一层，输入的初始数据经过多层的运算之后得到一个最终的结果。

目前的CNN中，每一层在进行相应的运算之后，将结果存储在片外存储器中，例如存储在双倍速率(Double Data Rate，DDR)存储器中，下一层从片外存储器中读取上一层的输出结果，并存储到片上存储器中，然后进行运算。这需要较多的片上存储资源和较强的处理能力。

因此，如何在处理设备的处理能力有限或者片上存储资源有限的情况下，实现卷积神经网络的计算是一项亟待解决的问题。

发明内容

本申请实施例提供一种基于卷积神经网络的图像处理方法和设备以及无人机，可以在处理设备的处理能力有限或者片上存储资源有限的情况下，实现卷积神经网络的计算，并且可以节省存储空间，提高处理效率。

第一方面，提供了一种基于卷积神经网络的图像处理方法，包括：按块从第一片上存储器读取3D特征图，所述3D特征图分为L个块；其中，所述第一片上存储器包括S个第一存储空间，所述S个第一存储空间中的每个所述第一存储空间分别用于存储所述3D特征图包括的L个块中的一个块作为神经网络当前层的输入数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块；按块对所述3D特征图进行卷积神经网络的所述当前层的处理；将所述当前层的输出结果存储到所述第一片上存储器；其中，所述第一片上存储器还包括R个第二存储空间，所述R个第二存储空间中的每个所述第二存储空间分别用于存储所述L个块中一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输出数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输出数据；其中，所述L、所述S和所述R为大于或等于2的整数，所述S和所述R小于所述L。

第二方面，提供了一种基于卷积神经网络的图像处理设备，包括：读取单元，用于按块从第一片上存储器读取3D特征图，所述3D特征图分为L个块；其中，所述第一片上存储器包括S个第一存储空间，所述S个第一存储空间中的每个所述第一存储空间分别用于存储所述3D特征图包括的L个块中的一个块作为神经网络当前层的输入数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块；处理单元，用于按块对所述3D特征图进行卷积神经网络的所述当前层的处理；存储单元，用于将所述当前层的输出结果存储到所述第一片上存储器；其中，所述第一片上存储器还包括R个第二存储空间，所述R个第二存储空间中的每个所述第二存储空间分别用于存储所述L个块中一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输出数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输出数据；其中，所述L、所述S和所述R为大于或等于2的整数，所述S和所述R小于所述L。

第三方面，提供了一种基于卷积神经网络的图像处理设备，包括第一片上存储器和运算电路；其中，所述运算电路用于：按块从第一片上存储器读取3D特征图，所述3D特征图分为L个块；其中，所述第一片上存储器包括S个第一存储空间，所述S个第一存储空间中的每个所述第一存储空间分别用于存储所述3D特征图包括的L个块中的一个块作为神经网络当前层的输入数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块；按块对所述3D特征图进行卷积神经网络的所述当前层的处理；将所述当前层的输出结果存储到所述第一片上存储器；其中，所述第一片上存储器还包括R个第二存储空间，所述R个第二存储空间中的每个所述第二存储空间分别用于存储所述L个块中一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输出数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输出数据；其中，所述L、所述S和所述R为大于或等于2的整数，所述S和所述R小于所述L。

第四方面，提供了一种无人机，包括根据第二方面或第三方面所述的基于卷积神经网络的图像处理设备。

因此，在本申请实施例中，按块从第一片上存储器读取3D特征图，按块对所述3D特征图进行卷积神经网络的当前层的处理，以及将所述当前层的输出结果存储到所述第一片上存储器，按块处理需要较少的片上存储资源和对运算电路的处理能力要求较低，可以在片上存储资源或处理能力不足的情况下，实现对3D特征图的处理，并且进一步地，3D特征图包括的块的数量为L，第一片上存储器包括S个第一存储空间，以及包括R个第二存储空间，其中，S和R小于L，每个第一存储空间分别用于存储一个块的当前层的输入数据，以及每个第二存储空间分别用于存储一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储另一块的输入数据，以及在其中一个所述第二存储空间上存储的一个块的输出数据被读取完毕之后，在所述一个所述第二存储空间上存储另一块的输出数据，可以实现存储空间的重复利用，从而可以节省存储空间，以及由于S和R大于或等于2，可以保证处理的流水线式工作，提高处理效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的卷积神经网络的架构的示意性图。

图2是根据本实施例的3D特征图的示意性图。

图3是根据本申请实施例的池化运算的示意性图。

图4是根据本申请实施例的卷积神经网络的***的架构图。

图5是根据本申请实施例的基于卷积神经网络的图像处理方法的示意性图。

图6是根据本申请实施例的3D特征图的分割方式的示意性图。

图7是根据本申请实施例的3D特征图的分割方式的示意性图。

图8是根据本申请实施例的基于卷积神经网络的图像处理方法的示意性流程图。

图9是根据本申请实施例的第一片上存储器包括的存储空间的存储流水的示意性图。

图10是根据本申请实施例的第一片上存储器包括的存储空间的存储流水的示意性图。

图11是根据本申请实施例的基于卷积神经网络的图像处理设备的示意性图。

图12是根据本申请实施例的基于卷积神经网络的图像处理设备的示意性图。

图13是根据本申请实施例的无人机的示意性图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

卷积神经网络是一种人工神经网络，在图像识别等领域有着广泛的应用。卷积神经网络可以包括输入层、隐藏层和输出层，其中，隐藏层可以包括卷积层、池化(pooling)层、激活层和全连接层等，具体可以如图1所示。

卷积神经网络的各层可以对上一层输出的特征图进行处理(例如，卷积、池化、激活或全连接处理)得到当前层输出的特征图。其中，本申请实施例提到的特征图可以是三维(3D)特征图。其中，可以将3D特征图称为3D特征矩阵。

3D特征图可以理解为多个二维(2D)特征图像堆叠在一起，此处可以将一个2D特征图像称为一个特征(feature)，其中，每个2D特征图像可以分别对应一个图像帧的一个通道，3D特征图可以由一个图像帧得到，也可以有多个图像帧得到，在由一个图像帧得到时，3D特征图的厚度(也即，2D特征图的数量)可以等于图像帧的通道的数量，例如R、G、B三个通道，此处可以将通道称为特征，通道的数量可以理解为特征的数量。

例如，如图2所示，3D特征图的大小为W×H×M，其中，W可以代表宽度方向，H可以代表高度方向，M代表通道方向(也可以称为深度方向或厚度方向)，W×H可以代表2D特征图。

应理解，本申请实施例中的特征还可以具有其他的解释，而非图像帧的通道的表征，本申请实施例不作具体的限定。

还应理解，图1所示的卷积神经网络的架构仅是用于示例性说明，本申请实施例的卷积神经网络还可以具有其他的架构。例如，卷积神经网络不包括激活层，或者激活层可以位于池化层之前等。

为了便于理解，以下将对卷积神经网络的各层的处理进行解释说明。

卷积层的卷积操作可以为利用卷积核(可以为3D卷积核，卷积核也可以被称为滤波器)和3D特征图进行运算后输出一个2D特征图，该运算可以为3D特征图的特征值与卷积核的权值做内积操作。其中，可以采用多个卷积核分别和3D特征图进行运算，则可以得到一个输出的3D特征图，该多个卷积核的大小可以是相同的，但是参数可以是不同的，卷积核的通道方向的大小(也即特征的数量)可以与3D特征图的通道方向的大小相同。

卷积层的卷积运算可以采用滑动卷积核的方式进行，以3D特征图的左上角为起点，滑动卷积核到3D特征图的右下角，产生一个2D特征图，其中，每次滑动卷积核后，运算装置都会从3D特征图中提取一个与卷积核大小相同的3D特征矩阵，将其与卷积核进行内积操作，产生一个输出特征值。在利用多个卷积核执行上述操作之后，可以输出一个3D特征图。

其中，卷积层输出的3D特征图在宽度方向上的大小可以为

其中w ₀代表卷积处理输入的3D特征图在宽度方向上的大小，p ₀代表卷积处理时3D特征图在宽度方向上填充的数据量，k ₀代表卷积处理的卷积核在宽度方向上的大小，s ₀代表卷积处理的卷积核在宽度方向上滑动的步长。

卷积层输出的3D特征图在高度方向上的大小可以为

其中H ₀代表卷积处理输入的3D特征图在高度方向上的大小，p ₁代表卷积处理时3D特征图在高度方向上填充的数据量，k ₁代表卷积处理的卷积核在高度方向上的大小，s ₁代表卷积处理的卷积核在高度方向上滑动的步长。

卷积层输出的3D特征图在通道方向上的大小可以等于采用的卷积核的数量。

池化层的池化操作也可以称下采样(down-samples)操作，其目的是为减少特征映射，当在面临计算量非常大的时候，一个拥有过多特征输入的分类器不易形成，并且容易过拟合。由于卷积后的特征是一种静态属性，所以在两个不同图像区域的特征极可能一样，因此，描述大图像的时候可以对不同位置特征使用聚合统计。池化可以采用滑动窗口的方式，以输入的3D特征图的每个特征的左上角为起点，按照一定的步长，依次滑动窗口到该特征的右下角，产生一个2D特征图。依照上述方式，依次产生所有特征对应的2D特征图后，便可得到该池化层输出的3D特征图。池化常用的运算一般有：最大池化(Max Pooling)、均值池化(Mean Pooling)、高斯池化和可训练池化。

例如，如图3所示，池化窗口为2×2，步长为2，每个最大池化操作可以为对四个数操作后分别获得一个值。

其中，池化层输出的3D特征图在宽度方向上的大小可以为

其中w ₁代表池化处理输入的3D特征图在宽度方向上的大小，p ₂代表池化处理时3D特征图在宽度方向上填充的数据量，k ₂代表池化处理的窗口在宽度方向上的大小，s ₂代表池化处理的窗口在宽度方向上滑动的步长。

池化层输出的3D特征图在高度方向上的大小可以为

其中H ₁代表池化处理输入的3D特征图在高度方向上的大小，p ₃代表池化处理时3D特征图在高度方向上填充的数据量，k ₃代表池化处理的窗口在高度方向上的大小，s ₃代表池化处理的窗口在高度方向上滑动的步长。

池化层输出的3D特征图在通道方向上的大小可以等于池化层输入的3D特征图在通道方向上的大小，也即池化操作的结果可以使得3D特征图的特征数量保持不变。

在激活层的激活操作中，针对3D特征图，可以采用特定的激活函数进行点对点的映射，得到激活层的输出的3D特征图。

在CNN中，在输入的3D特征图经过卷积层、池化层和激活层之后，可以进入全连接层，可以将3D特征图映射为一个长的输入向量并进入输出层。

应理解，以上介绍的各层的操作仅是可用的一种实现方式，仅用于更好地理解本申请，各层操作还可以有其他的实现方式，为了简洁，本申请实施例对此不再赘述。

卷积神经网络的处理可以由处理器来实现，例如可以由现场可编程门阵列(Field Programmable Gate Array，FPGA)或特定应用的集成电路(Application Specific Integrated Circuit，ASIC)实现。

但应理解，本申请实施例并不限于此。

以下结合图4描述本申请实施例的实现卷积神经网络的***架构图，其中，实现卷积神经网络的***可以包括处理器100和片外存储器200。其中，可以将处理器100称为加速器。

如图4所示，处理器100可以包括控制电路110、第一运算电路122、第二运算电路124、直接内存存取(Direct Memory Access，DMA)130和作为片上存储器的静态随机存取存储器(Static Random-Access Memory，SRAM)140。

其中，控制电路110可以控制第一运算电路122和第二运算电路124的运算(例如，运算的数据的大小以及运算的时序等)，控制DMA130的读取时间和读取地址，使DMA130将数据从外部存储器200读入到SRAM140中或从数据从SRAM140写出到外部存储器200，其中，控制电路110可以从片外存储器200中读取指令，用于实现对第一运算电路122和第二运算电路124和DMA130的控制。

第一运算电路122和第二运算电路124可以实现卷积神经网络的相应层的处理，一个运算电路可以实现一个层的运算，一个层的运算可以由多个运算电路并行实现。第一运算电路122和第二运算电路124可以从SRAM 140中读取数据进行相应层的运算，以及可以将运算结果输出到SRAM140中进行存储。第一运算电路122和第二运算电路124内可以包括区分于SRAM的片上存储器，用于存储第一运算电路122和第二运算电路124中的数据，例如，第一运算电路122和第二运算电路124得到的中间结果。

DMA130可以从片外存储器200中读取数据(例如，可以用于第一运算电路122和第二运算电路124的运算的数据)，并存储到SRAM140中，或者，可以从SRAM140中读取数据(例如，第一运算电路122和第二运算电路124的输出的运算结果)，并将数据存储到片外存储器200中。

应理解，图4示出的第一运算电路122和第二运算电路124可以进行同一层的处理，也可以进行不同层的处理。处理器100还可以包括其他数量的运算电路，本申请实施例对此不作具体限定。

应理解，图4所示的***仅仅是本申请实施例的一种实现方式，不应对本申请实施例构成特别的限定。

在卷积神经网络的运算中，每一层在进行相应的运算之后，如果将输出结果存储在片外存储器中，则需下一层从片外存储器中读取上一层的输出结果，，这将导致***需要反复从片外存储器上读取数据，占用***带宽。

或者，如果当前层的输出结果直接输出到下一层，不占用任何存储空间，则当前层的运算电路需要等到下一层的运算电路空闲之后才能将输出结果输出给下一层的运算电路，这种方式加速器整体效率偏低，对电路的设计要求较高，且灵活性不足。

因此，可以将卷积神经网络的3D特征图分割为多个块，按块对3D特征图进行基于卷积神经网络的处理。具体的执行流程例如可以如图5所示。其中，图5所示的方法可以由处理设备来实现，该处理设备可选地可以包括图4所示的处理器100。

可选地，该处理设备可以包括各层的运算电路，各层运算电路可以按照图5所示的方法进行相应层的处理。

或者，该处理设备可以包括控制电路和各层的运算电路，该控制电路可以控制各层的运算电路按照图5所示的方法进行相应层的处理。

或者，该处理设备可以包括控制单元而不包括运算电路，此时，320中的进行基于卷积神经网络的至少两层处理可以是指控制各层的运算电路进行处理。

可选地，本申请实施例中的处理设备可以由FPGA或ASIC实现。由于FPGA或ASCI属于专用集成电路，其可以通过定制硬件加速器实现特定的功能，处理更高效。

但应理解，本申请实施例并不限于此。

在310中，处理设备可以按块读取3D特征图，其中，所述3D特征图包括多个块。

按块读取3D特征图可以是从片外存储器中读取各块包括的数据(此时，可以将读取的块的数据存储到第一片上存储器中)，也可以是从第一片上存储器中读取各块包括的数据。本申请实施例提到的第一片上存储器可以是SRAM。

第一片上存储器可以是二维的，例如存储形式可以为4096×128b，3D特征图的存储(例如，读取还未进行卷积神经网络处理的数据或者经过处理得到的中间输出结果)可以是在2D空间上的扩展，具体可以为每个特征分别引入一个地址，以实现3D空间的访问。

应理解，在本申请实施例中，在特征的数量为1时，该3D特征图的存储可以按照2D的方式进行存储。

此处提到的3D特征图可以未经过卷积神经网络的隐藏层的任一层的处理，或者，也可以已经经过隐藏层的至少一层的处理。

在320中，处理设备可以按块对所述3D特征图进行卷积神经网络的处理。

可选地，按块对所述3D特征图进行的处理可以是按块分别进行同一层的处理。

此时，可以存在一个运算电路，该一个运算电路可以按顺序处理多个块，也即在进行一个块的处理之后，可以进行下一块的处理。或者，也可以存在至少两个运算电路，分别执行该多个块的处理。

可选地，在本申请实施例中，可以按块对所述3D特征图进行卷积神经网络的至少两层的处理。

其中，针对每层处理，可以存在一个运算电路，也可以存在多个运算电路，此时，该多个运算电路可以并行进行该层的处理。

本申请实施例对3D特征图按块读取和进行卷积神经网络的处理，可以在片上存储资源或处理能力不足的情况下，实现对3D特征图的处理。

例如，如果第一片上存储器的存储资源不足，则可以按块读取3D特征图，并将读取的块存储到第一片上存储器，则此时片上只需要存储单个块的输入数据。假设3D特征图在通道方向上被划分为了多个块，则此时每次可以从片外存储器中读取3D特征图的部分特征的数据，存储在第一片上存储器上，然后进行卷积或池化等处理。

再例如，如果单个运算电路的处理能力有限，则单个运算电路可以按块进行运算处理。

可选地，在对每个块进行处理时，将当前层的输出结果存储到第一片上存储器中，一直到被下一层读取。

具体地，各层的运算电路在进行相应层的处理之后，可以将输出结果存储到第一片上存储器中，以及该输出结果不再从第一片上存储器存储到片外存储器中，下一层的运算电路可以从该第一片上存储器中读取由上一层的运算电路在第一片上存储器中输出的运算结果，以进行相应的运算。

例如，用于卷积处理的运算电路可以按块将卷积层的输出结果存储到第一片上存储器中，用于池化处理的运算电路可以在第一片上存储器中读取卷积层存储该输出结果，并按块进行池化层的计算。

本申请实施例提出可以将当前层的输出结果存储到第一片上存储器中，然而考虑到由于第一片上存储器的可用存储空间一般较小，如果待存储的数据量较大，将无法实现存储。

例如，假设CNN的输入数据为W＝224，H＝224和M＝128的224×224×128的3D特征图，以及假设当前网络的隐藏层包括卷积层和池化层。

假设卷积核的数量为128个，卷积核的大小为3×3×128，步长为1，进行卷积层的处理时没有元素填充(no padding)，则卷积的输出结果为222×222×128的3D特征图。以及，假设需要进行窗口为3×3的最大池化，步长为1，进行池化层的处理时没有元素填充，则池化的输出结果为220×220×128的3D特征图。

基于以上的卷积和池化运算，则需要从存储器中读取224×224×128的数据，以及需要将220×220×128的数据输出到存储器中。

针对以上的各步操作，可以得到以下表1中的存储容量。

表1

其中，在以上表1中，“16B对齐，222向上取整为224”或者“16B对齐，220向上取整为224”意味着，在存储过程中，每16个数进行打包存储，具有一个存储地址，此时每行的存储数据需要按照16的倍数进行存储，在每行的数据不够16的情况下，可以填充一些无效数据使得行的数据为16的倍数，例如，无效数据的取值可以为0为255等。此处提到的行也即H＝1的情况下，2D特征图上所包含的数据，一行数据的数据量可以等于W。

应理解，以上以每16个数据进行打包存储为例进行的说明，但应理解，本申请实施例并不限于此，也可以以其他数量的数据进行打包存储，例如，可以以每8个数据进行打包存储，其中，每次打包存储的数据的数据量可以基于存储资源而定。

从上面的计算结果可以看出，除了卷积层的参数之外，其他均不能存储到片上可用空间为512KB的存储器中。

因此，本申请实施例中，按块对3D特征图进行卷积神经网络的至少两层处理，并且在对每个块进行处理时，将当前层的输出结果存储到第一片上存储器中，用于下一层的处理，可以在片上存储资源或处理能力不足的情况下，实现对3D特征图的处理，以及可以避免反复从片外存储资源上读取数据，避免占用过多的***带宽。

并且进一步地，使用第一片上存储器存储输出结果，可以避免前级运算电路(例如，卷积层运算电路)需要等待后级运算电路(例如，池化层运算电路)的空闲时，才能将前级运算电路输出结果输出给后级运算电路，避免电路的灵活性不足。

应理解，按块进行读取和进行卷积神经网络的处理并不意味着在读取数据时，需要把一个块的数据一次性读取完毕，然后进行处理，考虑到各层的运算电路的处理性能，针对单个块中的数据，在进行其中的一层处理时，可以分多次进行读取并进行处理，或者针对单个块中的数据，在进行其中的一层处理时，可以由多个运算电路并行处理。

还应理解，卷积神经网络的处理可以不是全部都按块处理，例如卷积神经网络中的一层是分块处理的，其他层的处理可以是非按块进行的处理(也即将3D特征图作为一个整体进行处理，不再进行块的分割)。该非按块进行的其他层的处理可以位于该按块进行的处理之前，也可以是位于该按块进行的处理之后。

例如，卷积层和池化层可以是按块进行处理的，而激活层和全连接层可以是非按块进行处理的。

再例如，卷积层、池化层和激活层是按块进行处理的，而全连接层可以是非按块进行处理的。

可选地，在本申请实施例中，可以按照第一片上存储器的可用存储容量和/或所述卷积神经网络各层处理所采用的参数，将所述3D特征图分割为多个块，使得对各个块进行处理得到的输出结果可以存储到第一片上存储器中。

其中，此处提到的卷积神经网络各层处理所采用的参数可以理解为在进行各层运算时，对输出结果的大小有影响的参数。

例如，对于卷积层而言，该参数可以为卷积核的大小和卷积核的滑动步长等；而对于池化层而言，该参数可以为池化方式，池化窗口大小以及池化窗口的滑动步长等。

应理解，在本申请实施例中，将3D特征图分割为多个块，在处理设备进行实现时，具体的实现操作可以为确定每个块的大小，按照确定的大小，从3D特征图中读取数据。

例如，可以由本申请实施例中的执行主体处理设备基于第一片上存储器的可用存储容量和/或卷积神经网络各层所采用的参数，确定多个块中每个块的大小，其中，在该处理设备包括如图4所示的处理器100时，该确定操作可以由控制电路110实现。

本申请实施例的处理设备可以不具有实质的块的分割操作，仅是在读取和计算时，按块进行读取和计算。

可选地，在本申请实施例中，各个块的大小和读取顺序可以是预设在处理设备上的，处理设备可以直接基于该预设的大小和读取顺序，按块读取3D特征图。块的大小和读取顺序可以是执行预设操作的主体基于第一片上存储器的可用存储容量和/或卷积神经网络各层所采用的参数确定的。

可选地，如果第一片上存储器的可用存储资源足够存储3D特征图在各层运算的输出结果，则可以不对3D特征图进行块的分割。

例如，对于全局池化而言，相比于最大池化，一个特征通常只有一个数据输出，也就是说，全局池化的输出结果的存储量相比于最大池化的输出结果的存储量小很多，以及相应地，如果该卷积神经网络采用的卷积层的处理的结果输出的也很小，则第一片上存储器可以存储在3D特征图未进行分割的情况下所输出的结果，则可以不对3D特征图进行分割，直接将该3D特征图作为一个整体进行卷积神经网络的处理。

另外，如表1所示，由于卷积层的参数(例如，卷积核等)的数据量相对于特征输入的数据量较少，因此可以尽可能的重用特征的输入数据，也就是可以将特征的输入数据计算的结果存储到第一片上存储器中，无须将该中间结果反复存储到片外存储器中以及从片外存储器中读取，而可以将卷积层的参数存储到片外存储器中，并进行反复的读取。当然，如果第一片上存储期的存储空间足够，可以将卷积层的参数也存储到第一片上存储器中。

可选地，本申请实施例提到的片外存储器可以为双倍速率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory,DDR)等。

可选地，在本申请实施例中，3D特征图被分割成的多个块的大小可以是相同的，也可以是不完全相同的。

例如，可以基于第一片上存储器的可用存储容量，确定最大的块的大小，依次按照该最大的块进行读取和卷积神经网络的处理，直到读取和处理最后一块时，该最后一块的大小可以小于该最大的块的大小。

例如，可以基于第一片上存储器的可用存储容量，确定最大的块的大小，然后基于该最大的块的大小，对3D特征图进行平均分割，分割后的每个块的大小可以小于该确定的最大的块的大小。

可选地，在本申请实施例中，可以在宽度方向、高度方向和通道方向中的至少一个方向上，将3D特征图分割为多个块。

例如，如图6所示，可以将大小为W×H×M的3D特征图在高度方向上进行分割，具体可以得到如(a)中的3个块；或者，可以将大小为W×H×M的3D特征图在通道方向M上进行分割，具体可以得到如(b)中的3个块；或者，可以将大小为W×H×M的3D特征图在宽度方向上进行分割，具体可以得到如(c)中的3个块。

以上图6示出的是在在一个方向上进行块的分割，也可以在至少两个方向上进行块的分割。

例如，如图7中的(a)所示，可以在宽度方向和通道方向进行分割，可以得到9个块；或者，如图7中的(b)所示，可以在高度方向和通道方向进行分割，可以得到9个块；或者，如图7中的(c)所示，可以在宽度方向和高度方向上进行分割，可以得到9个块。

可选地，在本申请实施例中，同一层的多个块的读取地址和写入地址可以是具有一定关系的，例如，可以在存储空间上连续的，或者可以是占用同一存储空间的。该种关系可以预设在处理设备上。此时，在读取一层的其中一个块的输入数据时，其读取地址可以通过同一层上一个块的读取地址得到，或者在写入一层的其中一个块的输出数据时，其写入地址可以通过同一层上一个块的写入地址得到。

例如，在写入一个块的卷积层处理的输出数据之后，可以根据该一个块的输出数据的写入地址，确定另一个块的卷积层的输出数据的写入地址。

再例如，在读取一个块的池化层的输入数据之后，可以根据该一个块的池化层的输入数据的读取地址，确定另一个块的池化层的输入数据的读取地址。

可选地，在本申请实施例中，可以采用覆盖所述卷积神经网络的处理过程中的已被读取的数据的方式，将所述当前层的输出结果存储到第一片上存储器中。

也就是在卷积神经网络的处理过程中，可以循环使用片上缓存，这样可以提高片上缓存的利用率。

其中，处理设备可以确定已被读取的数据的存储地址，并在该存储地址中存储当前层的输出结果。该存储地址可以是物理地址，可以包括起始地址和结束地址。

作为示例性地，第一块的所述当前层的输出结果覆盖的可以为第一块的被所述当前层的读取的数据。应理解，此处提到的第一块中的第一不是为了限定块的处理顺序，仅用于块的区分。

例如，第一块的数据输入到第一片上存储器之后，用于卷积处理的运算电路可以读取该第一片上存储器中输入的数据，然后执行卷积处理，在执行完卷积处理之后，用于卷积处理的运算电路可以覆盖第一片上存储器中该第一块对应的已被读取的数据中的至少部分数据，以存储卷积处理的输出结果，用于池化处理的运算电路可以读取该卷积处理的输出结果，执行池化处理，并将池化处理的输出结果覆盖已被读取的卷积处理的输出结果，以此类推。

其中，随着卷积神经网络处理的进行，各个块对应的中间输出结果所需占用的片上存储空间可能越来越小，此时多余的存储空间可以用来存储其他的数据，例如，其他块的数据等。

为了提高卷积神经网络的效率，可以采用多个处理线(pipeline)并行处理的方式。

其中，可以将每个块的处理过程称为一个处理线，多个处理线并行处理意味着同一个时刻可以存在至少两个块在被处理。

但应理解，多个处理线并行处理并不意味着多个处理线的处理动作必须是一样的，并行处理的至少两个处理线的处理时间上可以是仅存在部分的重叠。

可选地，在本申请实施例中，第一块的所述当前层的输出结果覆盖的为第二块(非第一块的另一块)的已被读取的数据。

也就是说，在3D特征图的其中一个块进行处理时，其所输出的结果可以覆盖第一片上存储器中其他块的已被读取的数据。

在一种实现方式中，第一块的第i+1层的输出结果覆盖第一片上存储器中的第二块的第i层的输出结果，其中，所述第二块的第i层的输出结果为已被读取的数据，其中，所述卷积神经网络包括n层，且i取值从1到n。

其中，在所述卷积神经网络的处理中，所述第i+1层的输入数据从所述第一片上存储器读取的时间+所述第i+1层的计算时间+所述第i+1层的输出数据写入所述第一片上存储器的时间≤所述第i层的输入数据从所述第一片上存储器读取的时间+所述第i层的计算时间+所述第i层的输出数据写入所述第一片上存储器的时间。

例如，为了实现两个处理线并行进行，在第一片上存储器中存储2个块输出后的结果，第一个块的池化过程可以与第二块的卷积过程同步进行，在第一个块的池化过程完成之后，可以将池化处理的输出结果覆盖第一个块的卷积处理的输出结果，以存储到第一片上存储器中，随后可以从第一片上存储器中将该第一个块的池化结果输出到片外存储器中，并在用于存储第一个块的池化结果的存储位置上，将第二个块的卷积结果存储到第一片上存储器中。

其中，池化的计算能力可以匹配卷积的计算时间，也就是说，在***设计上，可以设置以下的条件：

池化层的输入数据从所述第一片上存储器读取的时间+池化计算的时间+池化层的输出数据写入所述第一片上存储器的时间≤卷积层的输入数据从所述第一片上存储器读取的时间+卷积计算的时间+卷积层的输出数据写入所述第一片上存储器的时间。

以下将以CNN的卷积层的输入数据为W＝224，H＝224和M＝128的3D特征图为例进行说明。其中，以下提到的块是按照W×H×M的方式表征的该3D特征图的块的划分方式可以是在高度方向上进行划分，例如，类似于图6中(a)的划分方式。

首先卷积处理的输入的块为224×6×128，卷积核的数量为128个，卷积核的大小可以3×3×128，步长为1，经过卷积处理输出的第一个块大小为222×4×128，需要存储到第一片上存储器的大小为224×4×128＝112KB，后续第二个块可以进一步输入4行数据，结合第一个块的后两行数据，得到第二个块的卷积的输出结果，即大小为224×4×128＝112KB，那么第二个块的卷积的输出结果为112KB，则第一片上存储器存储了两个块的卷积处理的输出结果为224，池化层可以读取第一个块的卷积结果，池化层的滑窗大小为3×3，步长为1，则可以将第一个块的池化结果写入到第一个块的卷积结果的存储空间中，也就是说将6行卷积处理的卷积结果的存储空间用来存储4行池化处理的处理结果，再将第一个块的池化结果从第一片上存储器写入到片外存储器。

在另一种实现方式中，针对输出而言，第一块的第i层的输出结果覆盖第一片上存储器中的另一块的第i层的输出结果，其中，所述另一块的第i层的输出结果为已被第i+1层读取的数据或为已经输出到片外存储器的数据，其中，所述卷积神经网络包括n层，且i取值从1到n。

针对输入而言，第一块的第i层的输入数据覆盖第一片上存储器中的另一块的第i层的输入数据，其中，所述另一块的第i层的输入数据为已被第i层读取的数据，其中，所述卷积神经网络包括n层，且i取值从1到n。

可选地，所述第一片上存储器同时存储至少两个块的同一层的输入数据和/或输出数据。在该种情况下，卷积神经网络的具体实现方式可以如图8所示的方法400。该方法400可以由处理设备实现。

在410中，按块从第一片上存储器读取3D特征图，所述3D特征图包括L个块；其中，所述第一片上存储器包括S个第一存储空间，所述S个第一存储空间中的每个所述第一存储空间分别用于存储所述3D特征图包括的L个块中的一个块的当前层的输入数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输入数据。

其中，该S个第一存储空间存储的当前层的输入数据可以是从片上存储器读取的，此时该当前层可选地可以是卷积神经网络处理的第一层。

或者，该S个第一存储空间存储的当前层的输入数据可以是前一层处理的输出数据。

在420中，按块对所述3D特征图进行卷积神经网络的所述当前层的处理。

在430中，将所述当前层的输出结果存储到所述第一片上存储器；其中，所述第一片上存储器还包括R个第二存储空间，所述R个第二存储空间中的每个所述第二存储空间分别用于存储所述L个块中一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输出数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输出数据；

其中，所述L、所述S和所述R为大于或等于2的整数，所述S和所述R小于所述L。

可选地，在本申请实施例中，在该种实现方式中，当前层的运算电路的数量可以小于S，以及进一步地可以小于R，例如，运算电路的数量为1。

可选地，在本申请实施例中，S可以等于R。

或者，S不等于R。

例如，S个第一存储空间存储的数据作为卷积层的输入数据，R个第二存储空间存储的数据是卷积层的输出数据，以及作为池化层的输出数据，如果池化层的运算电路的数量和/或运算电路的运算能力较强，R个第二存储空间中的数据可以快速被池化层的运算电路读取，则R可以小于S。

可选地，在图8所示的实现方式中，块的分割方向为可以宽度方向和/或高度方向，而不包括通道方向。应理解，此时也可以对一个块在通道方向进行划分，划分为多个子块。

可选地，在本申请实施例中，在卷积神经网络包括至少两层的处理时，每一层的处理均可以对应有第一存储空间和第二存储空间，也就是不同层对应的用于存储输入数据的存储空间是不复用的，以及不同层对应的用于存储输出数据的存储空间完全是不复用的。但是，当前层的第一存储空间是作为前一层的第二存储空间的，以及当前层的第二存储空间是作为下一层的第一存储空间的。

例如，如图9所示，第一片上存储器包括存储空间a1、a2、b1和b2，在存储空间a1和a2中，存储块1和块2的用于卷积处理(池化处理等其他处理同样适用，其中，卷积处理的输入数据可以是从片外存储器读取的，池化处理的输入数据可以是卷积处理的输出数据)的输入数据，用于卷积处理的运算电路分别对块1和块2进行卷积运算，分别将块1和块2卷积处理的输出结果分别存储到存储空间b1和b2，以用于池化层的处理，在进行卷积处理时，可以先读取块1的输入数据进行卷积处理，在块1的卷积处理完毕之后，运算电路可以不用进行等待，而是直接从存储空间a2中读取块2的数据，进行卷积处理，以及在针对块1的输入数据读取完毕之后，可以在存储空间a1中存储块3的用于卷积处理的输入数据，以用于运算电路对块2进行卷积处理完毕之后，读取块3的数据进行卷积处理，同样，在对块2的输入数据读取完毕之后，可以在a2中存储块4的输入数据，并以此类推。

以上举例是假设其中一个块的卷积处理无需采用其他块中的输入数据为例进行说明，在本申请实施例中，一个块的当前层的处理也可以采用其他块的输入数据，此时，所述第一片上存储器同时存储至少三个块的同一层的输入数据和/或该至少三个块同一层的输出数据。

具体地，上述提到的S和/或R可以大于等于3。例如，S个第一存储空间用于存储卷积层的输入数据，以及卷积层对其中一个块进行处理时，需要用到上一个块的数据，则S可以大于或等于3。例如，R个第二存储空间用于存储卷积层的输出数据，该输出数据可以用于池化层的处理，以及池化层对其中一个块进行处理时，需要用到上一个块的数据，则R可以大于或等于3。

例如，如图10所示，第一片上存储器包括存储空间a1、a2、a3、b1、b2和b3，在存储空间a1、a2和a3中，存储块1、块2和块3的用于卷积处理(池化处理等其他处理同样适用，其中，卷积处理的输入数据可以是从片外存储器读取的，池化处理的输入数据可以是卷积处理的输出数据)的输入数据，用于卷积处理的运算电路分别对块1、块2和块3进行卷积运算，分别将块1、块2和块3的卷积处理的输出结果分别存储到存储空间b1、b2和b3中，以用于池化层的处理，在进行卷积处理时，可以先读取块1的输入数据进行卷积处理，在块1的卷积处理完毕之后，运算电路可以不用进行等待，而是直接从存储空间a2中读取块2的数据，进行卷积处理，在块2的卷积处理完毕之后，运算电路可以不用进行等待，而是直接从存储空间a3中读取块3的数据，进行卷积处理；由于块2的处理需要用到块1的数据，所以即使块1被卷积处理完毕，则该块1中的数据需要仍然存储到存储空间a1中；当块2进行卷积处理的数据读取完毕之后，可以在存储空间a1中存储块4的数据，类似地，在块3进行卷积处理的数据读取完毕之后，可以在存储空间a2中存储块5的数据，以及在块4进行卷积处理的数据读取完毕之后，可以在存储空间a3中存储块6的数据。其中，在块2的卷积处理完毕之后，如果没有存储空间a3，此时，由于存储空间1a的数据释放的较晚，此时运算电路需要等待块1a的数据被释放并存储了另一块的数据之后，可以继续进行运算，因此，在该种情况下，需要至少存在3个存储空间用于存储输入数据，以及至少存在3个存储空间用于存储输出数据。

正如上文举例所述，本申请实施例中，一个块的数据被读取完毕可以是指该一个块的数据在当前层的针对任一个块的处理均无需再被读取。

例如，如果该一个块的数据无需用针对另一块进行的当前层的处理时，在当前层针对该一个块的处理读取该块的全部数据之后，该一个块的数据即可认为被读取完毕。

例如，如果该一个块的数据需要用到针对另一块进行的当前层的处理时，在当前层针对该一个块的处理读取该块的全部数据和针对另一块的处理读取该块的至少部分数据之后，该一个块的数据即可认为被读取完毕。

因此，在本申请实施例中，第一片上存储器同时存储至少两个块的同一层的输入数据，可以实现流水式的工作，也就是说***中的运算电路和存储空间可以高效工作，不用进行等待。

可选地，在本申请实施例中，所述第i+1层的输入数据从所述第一片上存储器读取的时间+所述第i+1层的计算时间+所述第i+1层的输出数据写入所述第一片上存储器的时间≤所述第i层的输入数据从所述第一片上存储器读取的时间+所述第i层的计算时间+所述第i层的输出数据写入所述第一片上存储器的时间。此时各个块的大小可选地是相同的，但应理解，本申请实施例并不限于此，各个块的大小也可以不相同，此时，可以增加较大块的计算速度。

例如，为了保证卷积处理输出的数据可以覆盖其他块的数据时，该其他块的数据已经完成了池化操作，可以设置以下的条件：

应理解，针对如何进行各层的输出结果的存储，除了以上的实现方式，本申请实施例还可以具有其他的实现方式，

例如，多个块的处理时间完全是同步的，此时可以存在多个存储空间，分别用于存储各块的数据，其中一个块的当前层的输出结果覆盖的为该块的被所述当前层的读取的数据。

可选地，在本申请实施例中，处理设备可以包括多个运算电路，可以在处理设备上预设每个运算电路需要处理的块以及处理顺序，以及各个运算电路的输出结果的存储方式等。

可选地，可以在处理设备上预先设置一定的规则，按照特定的规则进行数据的存储，或者处理设备可以实时对第一片上存储器的存储空间进行检测，按照检测结果进行数据的存储。

可选地，在本申请实施例中，各层处理的指令之间可以具有依赖关系，该依赖关系可以是处理顺序的依赖关系。

例如，神经网络需要执行C1、C2、C3、P1和C4处理(C为卷积处理，P为池化处理)，P1处理需要等C1处理和读取执行完毕，由此P1处理的输出结果可以存储到C1处理的存储空间中，而C4处理需要等P1处理和读取执行完毕，由此C4的处理结果可以存储到P1处理的存储空间中。

因此，在本申请实施例中编译器(例如，可以由如图4所示的控制电路110实现)可以记录指令之间的依赖关系，以此来防止存储时发***，也即避免没有读取完的数据被新的数据覆盖。

可选地，在本申请实施例中，在对3D特征图的一个块进行卷积神经网络的一层处理时，可以将该层处理的输出结果存储到第一片上存储器中，用于下一层的处理。如果除了下一层的处理需要用到该输出结果，还有其他的操作(例如，当前卷积神经网络的下一层之后的层的处理或者其他卷积神经网络)需要用到该输出结果，则可以将该输出结果存储到片外存储器中。在执行到该其他的操作时，可以从片外存储器中，再次将该输出结果读取到第一片上存储器中，用于该其他的操作。

其中，可以在下一层读取第一片上存储器中的当前层的输出结果之后，将该输出结果读取到片外存储器中，并将该输出结果从第一片上存储器中删除(具体可以被其他数据所覆盖，例如，可以被下一层的输出结果所覆盖)，也可以是在下一层还未从第一片上存储器中读取当前层的输出结果时，即将当前层的输出结果存储到片外存储器，在下一层读取第一片上存储器中的当前层的输出结果之后，可以将该输出结果从第一片上存储器中删除(具体可以被其他数据所覆盖，例如，可以被下一层的输出结果所覆盖)。

如果除了下一层的处理之外没有其它操作需要用到当前层的输出结果，则可以只需将该当前层的输出结果存储到第一片上存储器中，无需再存储到片外存储器中。

可选地，在本申请实施例中，针对第一块进行的处理所采用的数据也需要用到针对第二块(非第一块的另一块)进行的处理时，可以将该数据存储到第一片上存储器中，一直到该数据被用到对针对第二块进行的处理。

此时，该数据可以包括整数个行的数据。该种方式可以用于所述3D特征图在行的方向上(也即宽度方向上)未被分割成两个或两个以上的块，例如，块的分割方式可以如图6中的(a)和(b)所示。

应理解，在本申请实施例中，被两个块共同使用的数据可以理解为是属于前一个块的数据，而不属于下一个块，或者，也可以将该行缓存的数据理解为即属于前一个块，又属于另一个块。

通常，3D特征图的单个特征的数据在存储时，同一个存储地址中的数据为一行内的全部或部分数据，不包括两行及两行以上的数据，此时，本申请实施例中，可以将该种数据的存储方式称为按行存储。

例如，在进行存储时，16个数据可以打包存储到同一个存储地址，读取一个存储地址，可以得到16个数据，一个存储地址的数据不跨越两行，也就是一个存储地址的数据不超出一行的数据。

假设3D特征图的每行数据有128个，如果每个存储地址可以存储16个数据，则可以对应8个存储地址。在3D特征图经过卷积处理之后，每行的数据为127个，则仍然可以对应8个存储地址，只是在其中一个存储地址可以存储7个有效数据以及1个无效数据。

应理解，单个特征的数据在存储时，除了可以按行进行存储之后，也可以按列进行存储，也即，同一个存储地址中的数据为一列内的全部或部分数据，不包括两列及两列以上的数据。

其中，在将第一片上存储器的数据进行释放(也可以称为删除)时，可以按照存储地址进行释放，例如，在一个存储地址中的16个数据被全部读取完毕之后，可以将该16个数据进行释放。

可选地，此处提到的数据可以是输入层输入的数据，也可以是经过卷积神经网络的其中一层处理的输出结果。

作为示例性地，假设卷积处理是卷积神经网络的首次处理，则从片外读取其中一块的数据时，可以将该块中的需要用到另一块的卷积处理的数据缓存在第一片上存储器中，直到该另一块被卷积处理，在这之前不会被其他的数据(例如，第一块的卷积处理的输出结果)所覆盖。

例如，进行卷积处理的窗口为2×2，窗口的滑动步长为1，3D特征图是按照图6中的(a)的方式进行块的分割的，则针对每个特征，前一个块的用于卷积处理的最后一行的数据要用到下一个块，与下一块的第一行的数据共同结合用于进行卷积处理，则此时可以将该前一块的最后一行的数据一直存储到被用于第二块的卷积处理。

再例如，进行卷积层的窗口为3×3，窗口的滑动步长为2，3D特征图是按照图6中的(a)的方式进行块的分割的，则针对每个特征，前一个块的用于卷积处理的最后两行的数据要用到下一个块，与下一块的第一行的数据共同结合用于进行卷积处理，则此时可以将该前一块的最后两行的数据一直存储到被用于第二块的卷积处理。

在对3D特征图进行块的分割的方向包括至少两个方向，且该至少两个方向包括高度方向时，针对同一层的处理，则可以先处理完具有相同宽度位置(也可以称为坐标)和/或通道位置(也可以称为坐标)且在不同高度位置(也可以称为坐标)上的所有块，然后处理另外的具有相同宽度位置和/或通道位置且在不同高度位置上的所有块(以下可以称为优先遍历高度方向上的块)，由此可以实现缓存较少的行数据。

以下将结合图7中的(b)所示的块的分割方式，以及卷积层的处理为为例进行说明。

例如，如图7中的(b)所示的块的分割方式下，可以按照块1b、块4b、块7b、块2b、块5b、块8b、块3b、块6b和块9b的顺序依次进行卷积层的处理。在针对块1b进行卷积层的处理时，需要将块1b的输入数据的最后至少一行数据存储到第一片上存储器中，用于块2b的卷积层的处理，在针对块4b进行卷积层的处理时，需要将块4b的输入数据的最后至少一行数据存储到第一片上存储器中，用于块5b的卷积层的处理，在针对块7b进行卷积层的处理时，需要将块7b的输入数据的最后至少一行数据存储到第一片上存储器中，用于块8b的卷积层的处理，也就是说，在针对块1b、4b和7b的卷积层的处理结束之后，需要第一片上存储器中存储块1b的输入数据的最后至少一行数据、块4b的输入数据的最后至少一行数据，块7b的输入数据的最后至少一行数据。然后进行块2b的卷积层的处理，此时，可以读取并删除块1b的输入数据的最后至少一行数据，但是需要将块2b的输入数据的最后至少一行数据存储到第一片上存储器中，并以此类推。

因此，在该种实现方式中，需要同时存储3个块的输入数据的最后至少一行的数据。

或者，如图7中的(b)所示的块的分割方式下，可以按照块1b、块2b、块3b、块4b、块5b、块6b、块7b、块8b和块9b的顺序依次卷积层的处理。在针对块1b进行卷积层的处理时，需要将块1b的输入数据的最后至少一行数据存储到第一片上存储器中，用于块2b的卷积层的处理，然后针对块2b进行卷积层的处理，此时可以读取并删除块1b的输入数据的最后至少一行数据，以及可以将块2b的输入数据的最后至少一行数据存储到第一片上存储器中，依次类推。

因此，在该种实现方式(也即按照优先遍历高度方向的方式进行块的运算)下，每次只需要存储一个块的最后至少一行数据。

因此，在对3D特征图进行块的分割的方向包括至少两个方向，且该至少两个方向包括高度方向时，可以优先遍历高度方向的块，从而可以实现缓存较少的行数据，减轻片上存储压力。

可选地，假设卷积处理是卷积神经网络的首次处理，后续需要进行池化处理，在其中一个块的数据经过卷积处理之后，可以将输出结果存储到第一片上存储器上，则该块的卷积处理的输出结果可以被全部读取用于第一块的池化处理，但是该块的卷积处理的输出结果的部分数据仍然需要用于另一个块的池化处理，则此时可以保留该部分数据(其他部分数据可以被删除)，直到该部分数据被用于该另一块的池化处理。

当然，在本申请实施例中，各个块之间的数据也可以是独立的，没有重叠的，具体可以为其中一个块所采用的数据不再被另一个块所利用。

作为示例性地，在对3D特征图的宽度进行分割时(例如，如图6中的c的划分方式)，由于数据是按行存储的(也即单行中的多个数据进行打包存储到一个存储地址)，如果其中一个块的数据包括最后一个存储地址的部分数据，则可以不再对该最后一个存储地址进行当前层(例如卷积层或池化层)的处理，则另一个块可以对最后一个存储地址的其他部分数据或全部数据进行当前层的处理；或者，第一块可以对最后一个存储地址的部分数据或全部数据进行当前层的处理，而第二块不再对最后一个存储地址的数据进行当前层的处理。

也就是说，所述3D特征图的单个特征的单行数据对应于多个存储地址，单行数据属于至少两个块，则所述至少两个块中每个块的当前层的被处理数据包括整数个存储地址的数据，且所述至少两个块包括的当前层的被处理数据完全不重合。该种实现可以简化边界处理，从而简化实现的复杂度。

同样地，此处提到的数据可以是卷积神经网络的初始输入的未经任何层的处理的数据，也可以是其中一层的输出结果。

例如，在进行存储时，16个数据可以打包存储到同一个存储地址，读取一个存储地址，则可以得到16个数据，一个存储地址的数据不跨越两行，也就是一个存储地址的数据不超出一行的数据。假设3D特征图的每行数据有128个，则可以对应8个存储地址。则此时，其中一个块的当前层的待处理的数据可以为4个存储地址的数据，另一个块的当前层的待处理的数据可以为另4个存储地址的数据。

应理解，此处提到的块的当前层的被处理的数据的与预先划分的块包括的数据不同。例如，假设每行数据包括128个数据，则进行块的划分时，采用的是不均匀的划分方式，例如，预先划分的第一个块每行包括68个数据，第二块每行包括60个数据，则在实际进行当前层的处理时，针对第一块，每行可以处理64个数据，针对第二块，每行可以处理64个数据。

在本申请实施例中，在进行块的初始分割时，既可以实现每个块的数据仅包括整数个存储地址的数据，且所述至少两个块包括的数据完全不重合。

应理解，本申请实施例并不限于以上的描述，在数据是按行存储(也即单行中的多个数据进行打包存储到一个存储地址)的情况下，如果在宽度方向进行了块的分割，此时，也可以缓存列数据，例如，在图6中的(c)的划分方式下，块1c的最后至少一列的数据可以进行缓存，用于块2c的处理。由于数据是按行存储(也即单行中的多个数据进行打包存储到一个存储地址)的，则针对各行而言，缓存的数据是至少一个存储地址的数据，例如，对于特定行，块1c的数据中，如果用于块2c的处理的数据属于一个存储地址，则此时可以缓存16列的共16个数据用于块2c的处理，如果块1c的数据中，用于块2c的处理的数据属于两个存储地址，则此时可以缓存32列的共32个数据用于块2c的处理。

数据除了按行进行存储外，也可以按列进行存储，也即同一个存储地址中的数据为一列内的全部或部分数据，不包括两列及两列以上的数据。

在数据是按列存储(也即单列中的多个数据进行打包存储到一个存储地址)的情况下，如果在高度方向进行了块的分割，此时，可以缓存行数据，例如，在图6中的(a)的划分方式下，1a的最后至少一行的数据可以进行缓存，用于块2c的处理。由于数据是按列存储的，则针对各列而言，缓存的数据是至少一个存储地址的数据，例如，对于特定列，块1a的数据中，如果用于块2a的处理的数据属于一个存储地址，则此时可以缓存16行的共16个数据用于块2a的处理，如果用于块2a的处理的数据属于两个存储地址，则此时可以缓存32行的共32个数据用于块2a的处理。

在数据是按列存储(也即每行中的多个数据进行打包存储到一个存储空间)的情况下，如果在宽度方向进行了块的分割，此时，可以缓存列数据，例如，在图6中的(c)的划分方式下，1c的最后至少一列(可以是一列，也可以是多列，列的数量与一个存储地址的数据量无关)的数据可以进列缓存，用于块2c的处理。

基于以上描述，在数据按行存储(也即单行中的多个数据进行打包存储到一个存储地址)时，可以在高度方向进行分割，在数据按列(也即单列中的多个数据进行打包存储到一个存储地址)进行存储时，可以在宽度方向进行分割，以此减少缓存数据。

可选地，对3D特征图的分割方法可以影响卷积神经网络的各数据的处理顺序。

作为示例性地，假设存在一组运算电路，该一组处理包括一个卷积电路和一个池化电路，以及一个卷积电路和一个池化电路一次只能处理一个块，则此时块的划分方式影响了数据的处理顺序。

在按照图6中的(a)所示的块的分割方式的情况下，在进行卷积神经网络的计算时，可以依次按照块1a、2a和3a的数据处理顺序进行。

在按照图6中的(b)所示的块的分割方式的情况下，则在进行卷积神经网络的计算时，则可以依次按照块1b、2b和3b的数据处理顺序进行。

在按照图6中的(c)所示的块的分割方式的情况下，则在进行卷积神经网络的计算时，则可以依次按照块1c、2c和3c的数据处理顺序进行。

由此可见，针对不同的块的分割方式，数据的处理顺序可以是不同的。

可选地，在本申请实施例中，在3D特征图的通道方向上分割了多个块的情况下(例如，如图6中的(b)所示的块的分割方式，以及图7中的(a)和(b)所示的块的分割方式)，在进行卷积运算时，由于卷积运算对于多个特征上的同一高度位置和宽度位置上的数据需要进行累加计算，则在对部分特征进行了卷积运算之后，可以在运算电路包括的片上存储器(下文称为第二片上存储器)中存储该部分特征的卷积运算结果，在等到所有特征的卷积运算计算完毕之后，结合所有特征的卷积运算结果进行处理，例如累加处理，以得到一个卷积核对应的卷积层的输出结果或一个2D特征图，并将其输出到第一片上存储器中。

可选地，在本申请实施例中，在3D特征图的通道方向上进行分割的情况下，对于具有相同宽度位置和高度位置的至少两个块而言，如果先对该至少两个块的部分块进行了卷积层的处理，则可以先将该部分块的卷积层的输出结果存储到运算电路包括的片上存储器(下文称为第二片上存储器)中，在所述至少两个块的卷积层的处理进行完毕之后，可以将该至少两个块的卷积结果进行累加处理，以得到一个卷积核对应的卷积层的输出结果，以得到一个卷积核对应的卷积层的输出结果或一个2D特征图，并将其输出到第一片上存储器中。

具体地，可以先将先完成的块的卷积层的输出结果分别存储到第二片上存储器中，在完成了所有的块的卷积层的处理之后，对所有的块的卷积层的处理结果进行累加处理，并将处理结果输出到第一片上存储器中。

或者，可以先将先完成的两个块的卷积层的输出结果进行累加处理并存储到第二片上存储器中，在又完成了一个块的卷积层的处理之后，可以将上次得到的累加结果与该又一个块的卷积层的输出结果进行累加存储到第二片上存储器中，并删除第二存储器之前存储的累加结果，直到累加结果累加了所有的块的卷积层的输出结果，并输出到第一片上存储器。

例如，如图6中的(b)所示的块的分割方式下，在得到了块1b和块2b的卷积处理的结果之后，可以在第二片上存储器中存储该块1b和块2b的卷积处理的结果，在得到块3b的卷积处理的结果之后，可以从第二片上存储器中去读块1b和块2b的卷积处理的结果，以及从第二片上存储器中删除块1b和块2b的卷积处理的结果，结合块1b、2b和3b的卷积处理的结果，向第一片上存储器输出最终的卷积处理的结果。

或者，如图6中的(b)所示的块的分割方式下，在得到了块1b的卷积处理的结果之后，可以在第二片上存储器中存储该块1b的卷积处理的结果，以及在得到了块2b的卷积处理的结果之后，可以在第二片上存储器中存储该块1b和块2b的卷积处理的结果的累加结果，并删除在第二片上存储器中存储的块1b的卷积处理的结果，在得到块3b的卷积处理的结果之后，可以从第二片上存储器中去读块1b和块2b的卷积处理的累加结果，以及从第二片上存储器中删除块1b和块2b的卷积处理的累加结果，结合块1b和块2b的卷积处理的累加结果和3b的卷积处理的结果，向第一片上存储器输出最终的卷积处理的结果。

又例如，如图7中的(a)所示的块的分割方式下，可以按照块1a、块4a、块7a、块2a、块5a、块8a、块3a、块6a和块9a的顺序依进行卷积层的处理，则在得到了块1a的卷积处理的结果之后，可以在第二片上存储器上存储该块1a的卷积处理的结果，在得到了块4a的卷积处理的之后，可以在第二片上存储器上存储该块4a的卷积处理的结果，在得到了块7a的卷积处理的结果之后，可以从第二片上存储器中读取块1a和4a的卷积处理的结果，以及在读取之后从第二片上存储器中删除块1a和4a的卷积处理的结果，并对块1a、4a和7a的卷积处理的结果进行累加运算，并输出到第一片上存储器中；类似地，在得到了块2a的卷积处理的结果之后，可以在第二片上存储器上存储该块2a的卷积处理的结果，在得到了块5a的卷积处理的结果之后，可以在第二片上存储器上存储该块5a的卷积处理的结果，在得到了块8a的卷积处理的结果之后，可以从第二片上存储器中读取块2a和5a的卷积处理的结果，以及在读取之后从第二片上存储器中删除块2a和5a的卷积处理的结果，并可以对块2a、5a和8a的卷积处理的结果进行累加运算，并输出到第一片上存储器中；以及，得到了块3a的卷积处理的结果之后，可以在第二片上存储器上存储该块3a的卷积处理的结果，在得到了块6a的卷积处理的结果之后，可以在第二片上存储器上存储该块6a的卷积处理的结果，在得到了块9a的卷积处理的结果之后，可以从第二片上存储器中读取块3a和6a的卷积处理的结果，以及在读取之后从第二片上存储器中删除块3a和6a的卷积处理的结果，并可以对块3a、6a和9a的卷积处理的结果进行累加运算，并输出到第一片上存储器中。

或者，如图7中的(a)所示的块的分割方式下，可以按照块1a、块4a、块7a、块2a、块5a、块8a、块3a、块6a和块9a的顺序依进行卷积层的处理，则在得到了块1a的卷积处理的结果之后，可以在第二片上存储器上存储该块1a的卷积处理的结果，在得到了块4a的卷积处理的结果之后，可以在第二片上存储器上存储该块1a和块4a的卷积处理的累加结果，并删除块1a的卷积处理的结果，在得到了块7a的卷积处理的结果之后，可以从第二片上存储器读取块1a和块4a的卷积处理的累加结果，以及在读取之后从第二片上存储器删除块1a和块4a的卷积处理的累加结果，并对块1a和块4a的累加结果和块7a的卷积处理的结果进行累加运算，并输出到第一片上存储器中；类似地，在得到了块2a的卷积处理的结果之后，可以在第二片上存储器上存储该块2a的卷积处理的结果，在得到了块5a的卷积处理的结果之后，可以在第二片上存储器上存储该块2a和块5a的卷积处理的累加结果，并删除块2a的卷积处理的结果，在得到了块8a的卷积处理的结果之后，可以从第二片上存储器读取块2a和块5a的卷积处理的累加结果，以及在读取之后从第二片上存储器删除块2a和块5a的卷积处理的累加结果，并对块2a和块5a的累加结果和块8a的卷积处理的结果进行累加运算，并输出到第一片上存储器中；以及，在得到了块3a的卷积处理的结果之后，可以在第二片上存储器上存储该块3a的卷积处理的结果，在得到了块6a的卷积处理的结果之后，可以在第二片上存储器上存储该块3a和块6a的卷积处理的累加结果，并删除块3a的卷积处理的结果，在得到了块9a的卷积处理的结果之后，可以从第二片上存储器读取块3a和块6a的卷积处理的累加结果，以及在读取之后从第二片上存储器删除块3a和块6a的卷积处理的累加结果，并对块3a和块6a的累加结果和块9a的卷积处理的结果进行累加运算，并输出到第一片上存储器中。

又例如，如图7中的(a)所示的块的分割方式下，可以按照块1a、块2a、块3a、块4a、块5a、块6a、块7a、块8a和块9a的顺序依次进行块的卷积层的处理，则在依次获取了块1a、2a、3a、4a、5a、6a的卷积层的处理结果之后，可以分别在第二片上存储器上存储该块1a、2a、3a、4a、5a、6a的卷积层的处理结果；在获取了块7a的卷积层的处理结果之后，可以从第二片上存储器读取块1a和块4a的卷积处理的结果，以及在读取之后删除块1a和块4a的卷积处理的结果，并对块1a、4a和7a的卷积层的处理结果进行累加运算，并向第一片上存储器输出运算结果；在获取了块8a的卷积层的处理结果之后，可以从第二片上存储器读取块2a和块5a的卷积处理的结果，以及在读取之后删除块2a和块5a的卷积处理的结果，并可以对块2a、5a和8a的卷积层的处理结果进行累加运算，并向第一片上存储器输出运算结果；以及，在获取了块9a的卷积层的处理结果之后，可以从第二片上存储器读取块3a和块6a的卷积处理的结果，以及在读取之后删除块3a和块6a的卷积处理的结果，并可以对块3a、6a和9a的卷积层的处理结果进行累加运算，并向第一片上存储器输出运算结果。

或者，如图7中的(a)所示的块的分割方式下，可以按照块1a、块2a、块3a、块4a、块5a、块6a、块7a、块8a和块9a的顺序依次进行块的卷积层的处理，则在依次获取了块1a、2a、3a的卷积层的处理结果之后，可以分别在第二片上存储器上存储该块1a、2a、3a的卷积层的处理结果；在获取了块4a的卷积层的处理结果之后，可以对块1a和4a卷积层的处理结果进行累加运算，并存储到第二片上存储器中，以及删除块1a的卷积层的处理结果；在获取了块5a的卷积层的处理结果之后，可以对块2a和5a卷积层的处理结果进行累加运算，并存储到第二片上存储器中，以及删除块2a的卷积层的处理结果；在获取了块6a的卷积层的处理结果之后，可以对块3a和6a卷积层的处理结果进行累加运算，并存储到第二片上存储器中，以及删除块3a的卷积层的处理结果；在获取了块7a的卷积层的处理结果之后，可以对块1a和4a卷积层的处理的累加结果与块7a的卷积层到的结果进行累加运算，并存储到第一片上存储器中，以及删除第二片上存储器中的块1a和4a的卷积层的处理的累加结果；在获取了块8a的卷积层的处理结果之后，可以对块2a和5a卷积层的处理的累加结果与块8a的卷积层到的结果进行累加运算，并存储到第一片上存储器中，以及删除第二片上存储器中的块2a和5a的卷积层的处理的累加结果；在获取了块9a的卷积层的处理结果之后，可以对块3a和6a卷积层的处理的累加结果与块9a的卷积层到的结果进行累加运算，并存储到第一片上存储器中，以及删除第二片上存储器中的块3a和6a的卷积层的处理的累加结果。

从以上的举例可以看出，在按照图7中的(a)所示的块的分割方式下(也即通道方向和宽度方向均进行块的分割)，在进行卷积层的处理时，如果优先遍历宽度方向(具体地，可以先处理完具有相同高度位置和/或通道位置且在不同宽度位置上的所有块，然后处理另外的具有相同高度位置和/或通道位置且在不同宽度位置上的所有块)，则需要在第二片上存储器中缓存较多的块的卷积处理的结果，如果优先遍历通道方向(具体地，可以先处理完具有相同高度位置和/或宽度位置且在不同通道位置上的所有块，然后处理另外的具有相同高度位置和/或宽度位置且在不同通道位置上的所有块)，则可以在第二片上存储器中缓存较少的块的卷积处理的结果。

类似地，在图7中的(b)所示的块的分割方式下(也即通道方向和高度方向均进行块的分割)，在进行卷积层的处理时，如果优先遍历高度方向，则需要在第二片上存储器中缓存较多的块的卷积处理的结果，如果优先遍历通道方向，则可以在第二片上存储器中缓存较少的块的卷积处理的结果。

然而，正如上文所示，在优先遍历高度方向时，可以在第一片上存储器中缓存较少的行数据。

因此，在通道方向和高度方向均进行块的分割的情况下，可以综合考虑用于卷积处理的累加运算所需进行的存储占用的第二片上存储器的资源量，以及行缓存占用的第一片上存储器的资源量，来确定是先遍历通道方向还是先遍历高度方向。

类似地，在通道方向和宽度方向均进行块的分割的情况下，可以综合考虑用于卷积处理的累加运算所需进行的存储占用的第二片上存储器的资源量，以及列缓存占用的第一片上存储器的资源量，来确定是先遍历通道方向还是先遍历宽度方向。

并且，从以上描述可以看出，运算电路包括的第二片上存储器的存储能力也可以影响到块的分割，例如，如果第二片上存储器的存储能力较小，则可以不在通道方向进行分割。

应理解，在图8所示的方案下，块的分割方向可以为高度方向和/或宽度方向，而不包括通道方向，此时，假设某一块在通道方向被分割为了至少两个子块，所述当前层的处理为卷积层的处理；则可以具有以下两种实现方式。

在一种实现方式中，如果先对所述至少两个子块的部分子块进行了卷积层的处理，则将所述部分子块的卷积层的输出结果分别存储到运算电路包括的第二片上存储器中，在所述至少两个子块的卷积层的处理进行完毕之后，将所述至少两个子块的卷积层的处理结果进行累加处理并输出到所述第二存储空间。

在另一种实现方式中，如果先对所述至少两个子块的部分子块进行了卷积层的处理，先将先完成的子块的卷积层的输出结果进行累加处理并存储到运算电路包括的第二片上存储器中，在完成了又一个子块的卷积层的处理之后，将上次得到的累加结果与所述又一个子块的卷积层的输出结果进行累加存储到所述第二片上存储器中，并删除所述第二片上存储器之前存储的累加结果，直到累加结果累加了所述至少两个子块的卷积层的输出结果，并将所述输出结果存储到第一片上存储器中。

可选地，在本申请实施例中，在进行卷积神经网络的各层的处理时，输入数据的读取方式(例如，滑窗的滑动方式)可以影响到第一片上存储器中的数据的释放。以下是以对块包括的数据按行释放、按列释放或者按照存储地址进行释放为前提的。

在一种实现方式中，假设在宽度方向进行了块的分割且未在高度方向进行块的分割，例如，如图6中的(c)所示的方式，此时，需要在第一片上存储器中存储块1c的至少一列的数据，用于块2c的处理；在进行滑窗的滑动时，如果按照先行再列的方式进行滑动，且滑动的步长为1，则此时需要在块2c的一行的数据被遍历完之后，才能处理下一行的数据，并释放该至少一列的数据中属于该一行的数据；在进行滑窗的滑动时，如果按照先列再行的方式进行滑动，且滑动的步长为1，则此时可以先遍历该至少一列的数据，并释放该放该至少一列的数据。

因此，在对3D特征图进行了宽度方向的块分割且未进行高度方向的块分割时，读取数据时按照先列再行的方式进行读取。

在另一种实现方式中，假设在高度方向进行了块的分割且未在宽度方向进行块的分割，例如，如图6中的(a)所示的方式，此时，需要在第一片上存储器中存储块1a的至少一行的数据，用于块2a的处理；在进行滑窗的滑动时，如果按照先列再行的方式进行滑动，且滑动的步长为1，则此时需要在块1a的一列的数据被遍历完之后，才能处理下一列的数据，并释放该至少一行的数据中属于该一列的数据；在进行滑窗的滑动时，如果按照先行再列的方式进行滑动，且滑动的步长为1，则此时可以先遍历该至少一行的数据，并释放该放该至少一行的数据。

因此，在对3D特征图进行了高度方向的块分割且未进行宽度方向的块分割时，读取数据时按照先行再列的方式进行读取。

并且，上文已经阐述，在数据进按行存储(也即每行中的多个数据进行打包存储到一个存储空间)时，可以在高度方向进行分割，在数据按列(也即每列中的多个数据进行打包存储到一个存储空间)进行存储时，可以在宽度方向进行分割，以此减少第一片上存储器中缓存的数据。

因此，在本申请实施例中，在卷积神经网络的各层的输入数据按行存储，且输入数据的读取方式为先行再列的方式进行读取时，则3D特征图的块的分割方式为在高度方向进行块的分割且在宽度方向不进行块的分割。

以及，由于数据是按行进行存储的，为了避免在宽度方向进行分割，边界处理较复杂(也即上述提到的一个存储地址的数据可能分属于两个块的情况)的问题，可以在高度方向进行分割而不在宽度方向进行分割。

以及，在卷积神经网络的各层的输入数据按列存储，且输入数据的读取方式为先列再行的方式进行读取时，则3D特征图的块的分割方式为在宽度方向进行块的分割且在高度方向不进行块的分割。

以及，由于数据是按列进行存储的，为了避免在高度方向进行分割，边界处理较复杂的问题(也即上述提到的一个存储地址的数据可能分属于两个块的情况)，可以在宽方向进行分割而不在高度方向进行分割。

应理解，以上描述了片上存储器的各块的数据进行释放时，可以按行释放、按列释放或者按照存储空间的地址为单位进行释放，但是本申请实施例并不限于此，也可以按块释放各块的数据，也就是说一个块的数据处理完了片上存储空间可以被释放出来，该种释放方式可以降低控制的复杂度。

可选地，在本申请实施例中，以上提到的块的分割方式、读取顺序、存储空间的复用方式等可以预设在处理设备上的，也可以是由处理设备根据具体情况而定的，例如，可以根据实际所用的卷积神经网络的情况确定的。

例如，在该处理设备可以包括图4所示的处理器100时，可以针对第一运算电路122和第二运算电路124，预设该运算电路需要读取的块的大小，进行数据读取的数据和数据输出的时间；针对DAM130，可以预设从SRAM140中读取数据的时间，读取数据的地址、写入数据的时间以及写入数据的地址等；其中，该预设操作可以是由控制电路110从DDR读取指令之后，对第一运算电路122和第二运算电路124和DAM130的相应操作进行预设的。当然，在本申请实施例中，控制电路110也可以实时实现对其他电路的控制。

图11是根据本申请实施例的基于卷积神经网络的图像处理设备500的示意性框图。该设备500包括：

读取单元510，用于按块从第一片上存储器读取三维3D特征图；其中，所述第一片上存储器包括S个第一存储空间，所述S个第一存储空间中的每个所述第一存储空间分别用于存储所述3D特征图包括的L个块中的一个块的当前层的输入数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输入数据；

处理单元520，用于按块对所述3D特征图进行卷积神经网络的所述当前层的处理；

存储单元530，用于将所述当前层的输出结果存储到所述第一片上存储器；其中，所述第一片上存储器还包括R个第二存储空间，所述R个第二存储空间中的每个所述第二存储空间分别用于存储所述L个块中一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输出数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输出数据；

可选地，在本申请实施例中，所述处理单元520包括的进行所述当前层的处理的运算电路的数量小于所述S。

可选地，在本申请实施例中，所述当前层的输出结果被存储到所述第二存储空间，一直到下一层从所述第二存储空间中读取所述输出结果。

可选地，在本申请实施例中，所述存储单元530进一步用于：

在除所述下一层的处理之外的其他处理需要采用所述当前层的输出结果的情况下，将所述当前层的输出结果存储到片外存储器。

可选地，在本申请实施例中，所述第i+1层的输入数据从所述第一片上存储器读取的时间+所述第i+1层的计算时间+所述第i+1层的输出数据写入所述第一片上存储器的时间≤所述第i层的输入数据从所述第一片上存储器读取的时间+所述第i层的计算时间+所述第i层的输出数据写入所述第一片上存储器的时间，其中，i取值从到n，所述卷积神经网络的处理包括n层。

可选地，在本申请实施例中，在针对所述L个块中的第一块进行当前层的处理所采用的输入数据也需要用到针对另一块进行的当前层的处理时，所述输入数据被存储到所述第一存储空间中，一直到所述数据被用到针对所述另一块进行的处理。

可选地，在本申请实施例中，所述S大于或等于3。

可选地，在本申请实施例中，既需要用到针对所述第一块的处理又需要用到针对所述另一块的处理的数据包括整数个行的数据；

所述3D特征图单个特征的数据在存储时，同一个存储地址中的数据不超出一行的数据。

可选地，在本申请实施例中，所述多个块为对所述3D特征图的高度方向进行分割且对宽度方向未进行分割得到的；在所述多个块中的各个块进行所述当前层的处理时，对输入数据是按照先行再列的方式进行读取的。

可选地，在本申请实施例中，所述处理单元520进一步用于：

在对所述3D特征图进行块的分割的方向包括至少两个方向，且所述至少两个方向包括高度方向的情况下，针对同一层的处理，先处理完具有相同宽度位置和通道位置且在不同高度位置上的所有块，然后处理另外的具有相同宽度位置和通道位置且在不同高度位置上的所有块。

可选地，在本申请实施例中，将所述3D特征图分割为所述L个块的方向包括宽度方向和/或高度方向。

可选地，在本申请实施例中，所述L个块中的第一块在通道方向被分割为了至少两个子块，所述当前层的处理为卷积层的处理；

所述处理单元520进一步用于：

如果先对所述至少两个子块的部分子块进行了卷积层的处理，则将所述部分子块的卷积层的输出结果分别存储到运算电路包括的第二片上存储器中，在所述至少两个子块的卷积层的处理进行完毕之后，将所述至少两个子块的卷积层的处理结果进行累加处理并输出到所述第二存储空间；或者，

如果先对所述至少两个子块的部分子块进行了卷积层的处理，先将先完成的子块的卷积层的输出结果进行累加处理并存储到运算电路包括的第二片上存储器中，在完成了又一个子块的卷积层的处理之后，将上次得到的累加结果与所述又一个子块的卷积层的输出结果进行累加存储到所述第二片上存储器中，并删除所述第二片上存储器之前存储的累加结果，直到累加结果累加了所述至少两个子块的卷积层的输出结果，并将所述输出结果存储到第一片上存储器中。

可选地，在本申请实施例中，所述处理单元520进一步用于：

基于第一片上存储器中可用的存储容量和/或所述卷积神经网络的处理所采用的参数，确定所述多个块中每个块的大小。

可选地，在本申请实施例中，所述第一片上存储器为静态随机存取存储器SRAM。

可选地，在本申请实施例中，所述卷积神经网络的处理包括卷积层处理和池化层处理。

可选地，在本申请实施例中，所述设备500由现场可编程门阵列FPGA或特定应用的集成电路ASIC实现。

应理解，该图像处理设备400可以实现方法300或400中由处理设备实现的相应操作，为了简洁，在此不再赘述。

还应理解，图像处理设备可以由软件实现，可以由硬件实现，也可以由软硬件结合实现，本申请实施例对此不做具体限定。

图12是根据本申请实施例的基于卷积神经网络的图像处理设备600的示意性框图。该设备600包括第一片上存储器610和运算电路620；其中，所述运算电路610用于：

按块从第一片上存储器610读取三维3D特征图；其中，所述第一片上存储器610包括S个第一存储空间，所述S个第一存储空间中的每个所述第一存储空间分别用于存储所述3D特征图包括的L个块中的一个块的当前层的输入数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输入数据；

按块对所述3D特征图进行卷积神经网络的所述当前层的处理；

将所述当前层的输出结果存储到所述第一片上存储器610；其中，所述第一片上存储器610还包括R个第二存储空间，所述R个第二存储空间中的每个所述第二存储空间分别用于存储所述L个块中一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输出数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输出数据；

可选地，在本申请实施例中，进行所述当前层的处理的所述运算电路620的数量小于所述S。

可选地，在本申请实施例中，如图12所示，该设备600还包括直接内存存取DMA640，用于：

可选地，在本申请实施例中，所述第i+1层的输入数据从所述第一片上存储器610读取的时间+所述第i+1层的计算时间+所述第i+1层的输出数据写入所述第一片上存储器610的时间≤所述第i层的输入数据从所述第一片上存储器610读取的时间+所述第i层的计算时间+所述第i层的输出数据写入所述第一片上存储器610的时间，其中，i取值从到n，所述卷积神经网络的处理包括n层。

可选地，在本申请实施例中，所述S大于或等于3。

可选地，在本申请实施例中，所述运算电路620进一步用于：

所述运算电路620进一步用于：

如果先对所述至少两个子块的部分子块进行了卷积层的处理，则将所述部分子块的卷积层的输出结果分别存储到所述运算电路620包括的第二片上存储器中，在所述至少两个子块的卷积层的处理进行完毕之后，将所述至少两个子块的卷积层的处理结果进行累加处理并输出到所述第二存储空间；或者，

如果先对所述至少两个子块的部分子块进行了卷积层的处理，先将先完成的子块的卷积层的输出结果进行累加处理并存储到所述运算电路620包括的第二片上存储器中，在完成了又一个子块的卷积层的处理之后，将上次得到的累加结果与所述又一个子块的卷积层的输出结果进行累加存储到所述第二片上存储器中，并删除所述第二片上存储器之前存储的累加结果，直到累加结果累加了所述至少两个子块的卷积层的输出结果，并将所述输出结果存储到第一片上存储器610中。

可选地，在本申请实施例中，如图12所述，该设备600还包括控制电路630，用于：

基于第一片上存储器610中可用的存储容量和/或所述卷积神经网络的处理所采用的参数，确定所述多个块中每个块的大小。

可选地，在本申请实施例中，所述第一片上存储器610为静态随机存取存储器SRAM。

可选地，在本申请实施例中，所述设备600由现场可编程门阵列FPGA 或特定应用的集成电路ASIC实现。

应理解，该图像处理设备600可以实现方法300或400中由处理设备实现的相应操作，为了简洁，在此不再赘述。

还应理解，图像处理设备400可以对应于图4所示的处理器100，为了简洁，在此不再赘述。

本申请实施例的图像处理设备400或500可以用于无人机中。

图13是根据本申请实施例的无人机700的示意性框图。该无人机700可以包括动力***710、传感***720和处理器730。

其中，该动力***710在处理器730的控制下为该无人机700提供动力；该传感***720包括摄像头722，用于拍摄图像帧；该处理器730用于基于该摄像头722拍摄的图像帧生成3D特征图，按块读取三维3D特征图，其中，所述3D特征图包括多个块；按块对所述3D特征图进行卷积神经网络的处理，卷积神经网络的处理的结果可以用于图像识别，从而可以控制无人机的飞行。

其中，该摄像头722还可以称为摄像组件，或者摄像头可以为无人机包括的用于获取图像帧的摄像组件的一部分。

其中，该处理器730可以用于实现上述方法实施例中的图像处理方法，为了简洁，在此不再赘述。

可选地，该处理器730可以置于飞行控制器中。该处理器730可以由多个处理器组成，例如一个处理器可以用于控制无人机的飞行，一个处理器可以用于进行本申请实施例提到的卷积神经网络的处理。

可选地，该无人机还可以包括片外存储器740，存储向处理器730输入的数据，以及可以存储处理器730输出的数据。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

一种基于卷积神经网络的图像处理方法，其特征在于，包括：

按块从第一片上存储器读取3D特征图，所述3D特征图分为L个块；其中，所述第一片上存储器包括S个第一存储空间，所述S个第一存储空间中的每个所述第一存储空间分别用于存储所述3D特征图包括的L个块中的一个块作为神经网络当前层的输入数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块；

按块对所述3D特征图进行卷积神经网络的所述当前层的处理；

将所述当前层的输出结果存储到所述第一片上存储器；其中，所述第一片上存储器还包括R个第二存储空间，所述R个第二存储空间中的每个所述第二存储空间分别用于存储所述L个块中一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输出数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输出数据；

其中，所述L、所述S和所述R为大于或等于2的整数，所述S和所述R小于所述L。
根据权利要求1所述的方法，其特征在于，进行所述当前层的处理的运算电路的数量小于所述S。
根据权利要求1或2所述的方法，其特征在于，所述当前层的输出结果被存储到所述第二存储空间，一直到下一层从所述第二存储空间中读取所述输出结果。
根据权利要求3所述的方法，其特征在于，所述方法还包括：

在除所述下一层的处理之外的其他处理需要采用所述当前层的输出结果的情况下，将所述当前层的输出结果存储到片外存储器。
根据权利要求1至4中任一项所述的方法，其特征在于，所述第i+1层的输入数据从所述第一片上存储器读取的时间+所述第i+1层的计算时间+所述第i+1层的输出数据写入所述第一片上存储器的时间≤所述第i层的输入数据从所述第一片上存储器读取的时间+所述第i层的计算时间+所述第i层的输出数据写入所述第一片上存储器的时间，其中，i取值从到n，所述卷积神经网络的处理包括n层。
根据权利要求1至5中任一项所述的方法，其特征在于，在针对所述L个块中的第一块进行当前层的处理所采用的输入数据也需要用到针对另一块进行的当前层的处理时，所述输入数据被存储到所述第一存储空间中，一直到所述数据被用到针对所述另一块进行的处理。
根据权利要求6所述的方法，其特征在于，所述S大于或等于3。
根据权利要求6或7所述的方法，其特征在于，既需要用到针对所述第一块的处理又需要用到针对所述另一块的处理的数据包括整数个行的数据；

所述3D特征图单个特征的数据在存储时，同一个存储地址中的数据不超出一行的数据。
根据权利要求8所述的方法，其特征在于，所述多个块为对所述3D特征图的高度方向进行分割且对宽度方向未进行分割得到的；在所述多个块中的各个块进行所述当前层的处理时，对输入数据是按照先行再列的方式进行读取的。
根据权利要求8或9所述的方法，其特征在于，所述按块对所述3D特征图进行卷积神经网络的处理，包括：

在对所述3D特征图进行块的分割的方向包括至少两个方向，且所述至少两个方向包括高度方向的情况下，针对同一层的处理，先处理完具有相同宽度位置和通道位置且在不同高度位置上的所有块，然后处理另外的具有相同宽度位置和通道位置且在不同高度位置上的所有块。
根据权利要求1至10中任一项所述的方法其特征在于，将所述3D特征图分割为所述L个块的方向包括宽度方向和/或高度方向。
根据权利要求11所述的方法，其特征在于，所述L个块中的第一块在通道方向被分割为了至少两个子块，所述当前层的处理为卷积层的处理；

所述按块对所述3D特征图进行卷积神经网络的所述当前层的处理，包括：

如果先对所述至少两个子块的部分子块进行了卷积层的处理，则将所述部分子块的卷积层的输出结果分别存储到运算电路包括的第二片上存储器中，在所述至少两个子块的卷积层的处理进行完毕之后，将所述至少两个子块的卷积层的处理结果进行累加处理并输出到所述第二存储空间；或者，

如果先对所述至少两个子块的部分子块进行了卷积层的处理，先将先完成的子块的卷积层的输出结果进行累加处理并存储到运算电路包括的第二片上存储器中，在完成了又一个子块的卷积层的处理之后，将上次得到的累加结果与所述又一个子块的卷积层的输出结果进行累加存储到所述第二片上存储器中，并删除所述第二片上存储器之前存储的累加结果，直到累加结果累加了所述至少两个子块的卷积层的输出结果，并将所述输出结果存储到第一片上存储器中。
根据权利要求1至12中任一项所述的方法，其特征在于，所述方法还包括：

基于第一片上存储器中可用的存储容量和/或所述卷积神经网络的处理所采用的参数，确定所述多个块中每个块的大小。
根据权利要求1至13中任一项所述的方法，其特征在于，所述第一片上存储器为静态随机存取存储器SRAM。
根据权利要求1至14中任一项所述的方法，其特征在于，所述卷积神经网络的处理包括卷积层处理和池化层处理。
根据权利要求1至15中任一项所述的方法，其特征在于，所述方法由现场可编程门阵列FPGA或特定应用的集成电路ASIC实现。
一种基于卷积神经网络的图像处理设备，其特征在于，包括：

读取单元，用于按块从第一片上存储器读取3D特征图，所述3D特征图分为L个块；其中，所述第一片上存储器包括S个第一存储空间，所述S个第一存储空间中的每个所述第一存储空间分别用于存储所述3D特征图包括的L个块中的一个块作为神经网络当前层的输入数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块；

处理单元，用于按块对所述3D特征图进行卷积神经网络的所述当前层的处理；

存储单元，用于将所述当前层的输出结果存储到所述第一片上存储器；其中，所述第一片上存储器还包括R个第二存储空间，所述R个第二存储空间中的每个所述第二存储空间分别用于存储所述L个块中一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输出数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L 个块中的另一块的输出数据；

其中，所述L、所述S和所述R为大于或等于2的整数，所述S和所述R小于所述L。
根据权利要求17所述的设备，其特征在于，所述处理单元包括的进行所述当前层的处理的运算电路的数量小于所述S。
根据权利要求17或18所述的设备，其特征在于，所述当前层的输出结果被存储到所述第二存储空间，一直到下一层从所述第二存储空间中读取所述输出结果。
根据权利要求19所述的设备，其特征在于，所述存储单元进一步用于：

在除所述下一层的处理之外的其他处理需要采用所述当前层的输出结果的情况下，将所述当前层的输出结果存储到片外存储器。
根据权利要求17至20中任一项所述的设备，其特征在于，所述第i+1层的输入数据从所述第一片上存储器读取的时间+所述第i+1层的计算时间+所述第i+1层的输出数据写入所述第一片上存储器的时间≤所述第i层的输入数据从所述第一片上存储器读取的时间+所述第i层的计算时间+所述第i层的输出数据写入所述第一片上存储器的时间，其中，i取值从到n，所述卷积神经网络的处理包括n层。
根据权利要求17至21中任一项所述的设备，其特征在于，在针对所述L个块中的第一块进行当前层的处理所采用的输入数据也需要用到针对另一块进行的当前层的处理时，所述输入数据被存储到所述第一存储空间中，一直到所述数据被用到针对所述另一块进行的处理。
根据权利要求22所述的设备，其特征在于，所述S大于或等于3。
根据权利要求22或23所述的设备，其特征在于，既需要用到针对所述第一块的处理又需要用到针对所述另一块的处理的数据包括整数个行的数据；

所述3D特征图单个特征的数据在存储时，同一个存储地址中的数据不超出一行的数据。
根据权利要求24所述的设备，其特征在于，所述多个块为对所述3D特征图的高度方向进行分割且对宽度方向未进行分割得到的；在所述多个块中的各个块进行所述当前层的处理时，对输入数据是按照先行再列的方式进行读取的。
根据权利要求24或25所述的设备，其特征在于，所述处理单元进一步用于：

在对所述3D特征图进行块的分割的方向包括至少两个方向，且所述至少两个方向包括高度方向的情况下，针对同一层的处理，先处理完具有相同宽度位置和通道位置且在不同高度位置上的所有块，然后处理另外的具有相同宽度位置和通道位置且在不同高度位置上的所有块。
根据权利要求17至26中任一项所述的设备其特征在于，将所述3D特征图分割为所述L个块的方向包括宽度方向和/或高度方向。
根据权利要求27所述的设备，其特征在于，所述L个块中的第一块在通道方向被分割为了至少两个子块，所述当前层的处理为卷积层的处理；

所述处理单元进一步用于：

如果先对所述至少两个子块的部分子块进行了卷积层的处理，则将所述部分子块的卷积层的输出结果分别存储到运算电路包括的第二片上存储器中，在所述至少两个子块的卷积层的处理进行完毕之后，将所述至少两个子块的卷积层的处理结果进行累加处理并输出到所述第二存储空间；或者，

如果先对所述至少两个子块的部分子块进行了卷积层的处理，先将先完成的子块的卷积层的输出结果进行累加处理并存储到运算电路包括的第二片上存储器中，在完成了又一个子块的卷积层的处理之后，将上次得到的累加结果与所述又一个子块的卷积层的输出结果进行累加存储到所述第二片上存储器中，并删除所述第二片上存储器之前存储的累加结果，直到累加结果累加了所述至少两个子块的卷积层的输出结果，并将所述输出结果存储到第一片上存储器中。
根据权利要求17至28中任一项所述的设备，其特征在于，所述处理单元进一步用于：

基于第一片上存储器中可用的存储容量和/或所述卷积神经网络的处理所采用的参数，确定所述多个块中每个块的大小。
根据权利要求17至29中任一项所述的设备，其特征在于，所述第一片上存储器为静态随机存取存储器SRAM。
根据权利要求17至30中任一项所述的设备，其特征在于，所述卷积神经网络的处理包括卷积层处理和池化层处理。
根据权利要求17至31中任一项所述的设备，其特征在于，所述设备由现场可编程门阵列FPGA或特定应用的集成电路ASIC实现。
一种基于卷积神经网络的图像处理设备，其特征在于，包括第一片上存储器和运算电路；其中，所述运算电路用于：

按块从第一片上存储器读取3D特征图，所述3D特征图分为L个块；其中，所述第一片上存储器包括S个第一存储空间，所述S个第一存储空间中的每个所述第一存储空间分别用于存储所述3D特征图包括的L个块中的一个块作为神经网络当前层的输入数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输入数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块；

按块对所述3D特征图进行卷积神经网络的所述当前层的处理；

将所述当前层的输出结果存储到所述第一片上存储器；其中，所述第一片上存储器还包括R个第二存储空间，所述R个第二存储空间中的每个所述第二存储空间分别用于存储所述L个块中一个块的当前层的输出数据，在其中一个所述第一存储空间上存储的所述L个块中的一个块的输出数据被读取完毕之后，在所述一个所述第一存储空间上存储所述L个块中的另一块的输出数据；

其中，所述L、所述S和所述R为大于或等于2的整数，所述S和所述R小于所述L。
根据权利要求33所述的设备，其特征在于，进行所述当前层的处理的所述运算电路的数量小于所述S。
根据权利要求33或34所述的设备，其特征在于，所述当前层的输出结果被存储到所述第二存储空间，一直到下一层从所述第二存储空间中读取所述输出结果。
根据权利要求35所述的设备，其特征在于，还包括直接内存存取DMA，用于：

在除所述下一层的处理之外的其他处理需要采用所述当前层的输出结果的情况下，将所述当前层的输出结果存储到片外存储器。
根据权利要求33至36中任一项所述的设备，其特征在于，所述第i+1层的输入数据从所述第一片上存储器读取的时间+所述第i+1层的计算时间+所述第i+1层的输出数据写入所述第一片上存储器的时间≤所述第i层的输入数据从所述第一片上存储器读取的时间+所述第i层的计算时间+所述第i层的输出数据写入所述第一片上存储器的时间，其中，i取值从到n，所述卷积神经网络的处理包括n层。
根据权利要求33至37中任一项所述的设备，其特征在于，在针对所述L个块中的第一块进行当前层的处理所采用的输入数据也需要用到针对另一块进行的当前层的处理时，所述输入数据被存储到所述第一存储空间中，一直到所述数据被用到针对所述另一块进行的处理。
根据权利要求38所述的设备，其特征在于，所述S大于或等于3。
根据权利要求38或39所述的设备，其特征在于，既需要用到针对所述第一块的处理又需要用到针对所述另一块的处理的数据包括整数个行的数据；

所述3D特征图单个特征的数据在存储时，同一个存储地址中的数据不超出一行的数据。
根据权利要求40所述的设备，其特征在于，所述多个块为对所述3D特征图的高度方向进行分割且对宽度方向未进行分割得到的；在所述多个块中的各个块进行所述当前层的处理时，对输入数据是按照先行再列的方式进行读取的。
根据权利要求40或41所述的设备，其特征在于，所述运算电路进一步用于：

在对所述3D特征图进行块的分割的方向包括至少两个方向，且所述至少两个方向包括高度方向的情况下，针对同一层的处理，先处理完具有相同宽度位置和通道位置且在不同高度位置上的所有块，然后处理另外的具有相同宽度位置和通道位置且在不同高度位置上的所有块。
根据权利要求33至42中任一项所述的设备其特征在于，将所述3D特征图分割为所述L个块的方向包括宽度方向和/或高度方向。
根据权利要求43所述的设备，其特征在于，所述L个块中的第一块在通道方向被分割为了至少两个子块，所述当前层的处理为卷积层的处理；

所述运算电路进一步用于：

如果先对所述至少两个子块的部分子块进行了卷积层的处理，则将所述部分子块的卷积层的输出结果分别存储到所述运算电路包括的第二片上存储器中，在所述至少两个子块的卷积层的处理进行完毕之后，将所述至少两个子块的卷积层的处理结果进行累加处理并输出到所述第二存储空间；或者，

如果先对所述至少两个子块的部分子块进行了卷积层的处理，先将先完成的子块的卷积层的输出结果进行累加处理并存储到所述运算电路包括的第二片上存储器中，在完成了又一个子块的卷积层的处理之后，将上次得到的累加结果与所述又一个子块的卷积层的输出结果进行累加存储到所述第二片上存储器中，并删除所述第二片上存储器之前存储的累加结果，直到累加结果累加了所述至少两个子块的卷积层的输出结果，并将所述输出结果存储到第一片上存储器中。
根据权利要求33至44中任一项所述的设备，其特征在于，还包括控制电路，用于：

基于第一片上存储器中可用的存储容量和/或所述卷积神经网络的处理所采用的参数，确定所述多个块中每个块的大小。
根据权利要求33至45中任一项所述的设备，其特征在于，所述第一片上存储器为静态随机存取存储器SRAM。
根据权利要求33至46中任一项所述的设备，其特征在于，所述卷积神经网络的处理包括卷积层处理和池化层处理。
根据权利要求33至47中任一项所述的设备，其特征在于，所述设备由现场可编程门阵列FPGA或特定应用的集成电路ASIC实现。
一种无人机，其特征在于，包括根据权利要求17至48中任一项所述的基于卷积神经网络的图像处理设备。