CN111210004A

CN111210004A - 卷积计算方法、卷积计算装置及终端设备

Info

Publication number: CN111210004A
Application number: CN201911410634.3A
Authority: CN
Inventors: 曹庆新
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-29
Anticipated expiration: 2039-12-31
Also published as: WO2021135571A1; US11615607B2; CN111210004B; US20220351490A1

Abstract

本申请适用于深度学习技术领域，提供了一种卷积计算方法、卷积计算装置、终端设备及计算机可读存储介质，包括：将待处理图像输入至深度学习模型，从深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸；根据所述目标尺寸，对所述待分块卷积组中的第一个待分块卷积层的所有输入通道数据进行分块，每个分块的尺寸为所述目标尺寸；根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组的输出结果；将所述待分块卷积组的输出结果输入至所述深度学习模型的指定网络。本申请可通过调整待分块卷积层的分块尺寸，调整带宽消耗，自适应深度学习模型的频繁更新升级。

Description

卷积计算方法、卷积计算装置及终端设备

技术领域

本申请属于深度学习技术领域，尤其涉及一种卷积计算方法、卷积计算装置、终端设备及计算机可读存储介质。

背景技术

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得信息对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习模型通常包括卷积层，卷积层的卷积计算效率的关键点之一是如何节省数据搬运和功耗，如果数据复用做的不好，容易形成带宽瓶颈。现有的卷积计算方法，一旦设计完成，数据复用方式就不可调整，功耗也随着确定，这样对于不同的深度学习模型，就会有不同的效率表现，较难适应深度学习模型频繁更新升级的现状。

发明内容

本申请提供了一种卷积计算方法、卷积计算装置、终端设备及计算机可读存储介质，以通过调整待分块卷积层的分块尺寸，调整带宽消耗，自适应深度学习模型的频繁更新升级。

第一方面，本申请实施例提供了一种卷积计算方法，所述卷积计算方法包括：

获取待处理图像；

将所述待处理图像输入至深度学习模型；

针对所述待处理图像，从所述深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸，其中，所述待分块卷积组包括N个相邻卷积层，N为大于1的整数；

根据所述目标尺寸，对所述待分块卷积组中的第一个待分块卷积层的所有输入通道数据进行分块，每个分块的尺寸为所述目标尺寸；

根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组的输出结果；

将所述待分块卷积组的输出结果输入至所述深度学习模型的指定网络，其中，所述指定网络是指所述深度学习模型中位于所述待分块卷积组之后的网络。

第二方面，本申请实施例提供了一种卷积计算装置，所述卷积计算装置包括：

图像获取模块，用于获取待处理图像；

图像输入模块，用于将所述待处理图像输入至深度学习模型；

参数获取模块，用于针对所述待处理图像，从所述深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸，其中，所述待分块卷积组包括N个相邻卷积层，N为大于1的整数；

数据分块模块，用于根据所述目标尺寸，对所述待分块卷积组中的第一个待分块卷积层的所有输入通道数据进行分块，每个分块的尺寸为所述目标尺寸；

结果获取模块，用于根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组的输出结果；

结果输入模块，用于将所述待分块卷积组的输出结果输入至所述深度学习模型的指定网络，其中，所述指定网络是指所述深度学习模型中位于所述待分块卷积组之后的网络。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述卷积计算方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述卷积计算方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行如上述第一方面所述卷积计算方法的步骤。

由上可见，本方案在通过深度学习模型对待处理图像进行处理(如识别、跟踪)时，从深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸，并根据目标尺寸对待分块卷积组中的第一个待分块卷积层的所有输入通道数据进行分块，根据第一个待分块卷积层的所有输入通道数据的所有分块，完成对待分块卷积组的卷积计算，在卷积计算过程中，并不需要重复从内存中读取数据，减少了对内存的数据访问，提高了卷积计算效率，进而提高了对待处理图像的处理效率，同时通过与上述深度学习模型自适应的目标尺寸对待分块卷积层进行分块，能够减少卷积计算过程中所消耗的数据带宽和参数带宽，自适应深度学习模型的频繁更新升级。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的卷积计算方法的实现流程示意图；

图2a是待分块卷积层的卷积计算示例图；图2b是待分块卷积层的分块缓存示例图；

图3是本申请实施例二提供的卷积实现装置的结构示意图；

图4是本申请实施例三提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

应理解，本实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

参见图1，是本申请实施例一提供的卷积计算方法的实现流程示意图，如图所示该卷积计算方法可以包括以下步骤：

步骤S101，获取待处理图像。

其中，待处理图像可以是指需通过深度学习模型进行处理(如识别、跟踪等)的图像，例如一张照片，通过深度学习模型识别该照片的类别，识别出该照片的类别为人像。

步骤S102，将所述待处理图像输入至深度学习模型。

步骤S103，针对所述待处理图像，从所述深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸。

其中，所述待分块卷积组包括N个相邻卷积层，N为大于1的整数。

在本申请实施例中，深度学习模型(例如卷积神经网络)通常包括至少卷积层，用于对输入通道数据进行特征提取，对输入通道数据中隐含的关联性进行抽象。至少两个卷积层中的第一个卷积层(即第一层卷积层)通常提取一些低级特征(如边缘、线条和角等)，更多层的卷积层能够从低级特征中迭代提取更复杂的特征。

可选的，所述针对所述待处理图像，从所述深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸包括：

获取M组不同的备选参数，其中，一组备选参数包括一个备选卷积组以及与该备选卷积组对应的备选尺寸，M为大于1的整数；

针对所述待处理图像，获取所述M组不同的备选参数中每组备选参数在卷积计算过程中消耗的数据带宽和参数带宽；

从所述M组不同的备选参数中获取数据带宽与参数带宽之和最小的备选参数，并确定该备选参数中的备选卷积组为所述待分块卷积组，该备选参数中的备选尺寸为所述目标尺寸。

在本申请实施例中，可以预先设置M组不同的备选参数，针对每组备选参数中的备选卷积组以及与该备选卷积组对应的备选尺寸，从深度学习模型的所有卷积层中获取上述备选卷积组，根据上述备选尺寸(即与上述备选卷积组对应的备选尺寸)对上述备选卷积组中的第一个备选卷积层的所有输入通道数据进行分块，每个分块的尺寸为上述备选尺寸，根据第一个备选卷积层的所有输入通道数据的所有分块，完成对上述备选卷积组的卷积计算，并获取在卷积计算过程中消耗的数据带宽(即上述备选卷积组与上述备选尺寸组成的一组备选参数在卷积计算过程中消耗的数据带宽)和参数带宽(即上述备选卷积组与上述备选尺寸组成的一组备选参数在卷积计算过程中消耗的参数带宽)。

可选的，所述获取所述M组不同的备选参数中每组备选参数在卷积计算过程中消耗的数据带宽包括：

获取所述每组备选参数在卷积计算过程中从内存加载输入通道数据所消耗的带宽，并确定该带宽为所述每组备选参数在卷积计算过程中消耗的数据带宽。

可选的，所述获取所述M组不同的备选参数中每组备选参数在卷积计算过程中消耗的参数带宽包括：

获取所述每组备选参数在卷积计算过程中从权重缓存或内存加载卷积核所消耗的带宽，并确定该带宽为所述每组备选参数在卷积计算过程中消耗的参数带宽，其中，所述权重缓存是指存储卷积核的缓存。

步骤S104，根据所述目标尺寸，对所述待分块卷积组中的第一个待分块卷积层的所有输入通道数据进行分块，每个分块的尺寸为所述目标尺寸。

在本申请实施例中，可以根据待处理图像，获取第一个待分块卷积层的所有输入通道数据。具体的，获取待处理图像的所有输入通道数据，如果待分块卷积组中第一个待分块卷积层是神经网络的第一个卷积层，则确定待处理图像的输入通道数据为第一个待分块卷积层的所有输入通道数据；如果待分块卷积组中第一个待分块卷积层是神经网络中第g(g为大于1的整数)个卷积层，则确定神经网络中第g-1个卷积层的所有输出通道数据是第一个待分块卷积层的所有输入通道数据，而神经网络中第g-1个卷积层的所有输出通道数据是根据上一层网络(即位于第g-1个卷积层之前的网络)的所有输出通道数据获得的，即所有输出通道数据最终还是根据待处理图像的所有输入通道数据获得的。例如，神经网络共有五个卷积层，可以选择第三个卷积层、第四个卷积层和以及第五个卷积层作为待分块卷积组，那么神经网络中的第三个卷积层为待分块卷积组中的第一个待分块卷积层，神经网络中的第四个卷积层为待分块卷积组中的第二个待分块卷积层，神经网络中的第五个卷积层为待分块卷积组中的第三个待分块卷积层(即最后一个待分块卷积层)，那么待分块卷积组中第一待分块卷积层的所有输入通道数据是神经网络中第二个卷积层的所有输出通道数据，神经网络中第二个卷积层的所有输出通道数据是对神经网络中第一个卷积层的所有输出通道数据进行卷积计算获得的，神经网络中第一个卷积层的所有输出通道数据是对待处理图像的所有输入通道数据进行卷积计算获得的。

在对第一个待分块卷积层的所有输入通道数据进行分块时，第一个待分块卷积层的每个输入通道数据的分块规则相同，且每个分块的尺寸均为目标尺寸。

可选的，在对所述待分块卷积组中的第一个待分块卷积层的所有输入通道数据进行分块之前，还包括：

从内存中获取所述第一个待分块卷积层的所有输入通道数据。

在本申请实施例中，上述内存可以是指终端设备的内存，包括但不限于双倍速率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory，DDR SDRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)。DDR SDRAM为具有双倍数据传输率的SDRAM，其数据传输速度为***时钟频率的两倍，由于速度增加，其传输性能优于传统的SDRAM。SRAM是一种具有静态存取功能的内存，不需要刷新电量即能保存它内部存储的数据。其中，终端设备通过高速接口获取待输入深度学习模型的图像，并将该图像存储在内存中，深度学习模型中位于第一个待分块卷积层之前的各网络(例如位于第一个待分块卷积层之前的卷积层、输入层等)的输出通道数据也通常存储在内存中，那么就需要从内存中获取第一个待分块卷积层的所有输入通道数据。

如图2a所示是待分块卷积层的卷积计算示例图，图中Input data buf是输入通道数据的缓存，数据来自于内存，深度为N1，可以根据设计需要灵活配置；Weight buf是输入权重的缓存(即权重缓存)，数据来自于内存，深度为N2，可以根据设计需要灵活配置；Linebuf是Input data buf和MAC之间的寄存器存储，用于存储正在进行计算的数据行，行数为N3，可以根据设计需要灵活配置；MAC进行乘累加，输出部分和的中间结果；ADD进行部分和的累加，得到最终的输出结果；PSUM BUF用于缓存部分和的数据，深度为N4，可以根据设计需要灵活配置；Output data为输出通道数据。

步骤S105，根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组的输出结果。

可选的，所述根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组的输出结果包括：

根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组中最后一个待分块卷积层的输出结果，并确定所述最后一个待分块卷积层的输出结果为所述待分块卷积层的输出结果。

在本申请实施例中，待分块卷积组中处于第一个待分块卷积层与最后一个待分块卷积层之间的待分块卷积层，可以根据第一个待分块卷积层的所有输入通道数据的所有分块在缓存中进行迭代，在此过程中无需对终端设备的内存进行数据访问，就可获得最后一个待分块卷积层的输出结果，减少了卷积过程对内存的数据访问。其中，最后一个待分块卷积层的输出结果可以是指最后一个待分块卷积层的所有输出通道数据。

在本申请实施例中，在获取到待分块卷积组中最后一个待分块卷积层的输出结果之后，可以将最后一个待分块卷积层的输出结果存储至内存，以便于最后一个待分块卷积层之后的网络从内存中获取最后一个待分块卷积层的输出结果，将最后一个待分块卷积层的输出结果作为该网络的输入，便于深度学习模型中后续网络的处理。

可选的，所述根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组中最后一个待分块卷积层的输出结果包括：

步骤a1，对所述第一个待分块卷积层的所有输入通道数据的第i个分块进行卷积计算，获得所述第一个待分块卷积层的所有输出通道数据的第i个分块，其中，i为大于零且小于或等于分块总数的整数，该分块总数是指所述第一个待分块卷积层的所有输入通道数据进行分块后输入通道数据的分块总数；

步骤a2，根据所述第一个待分块卷积层的所有输出通道数据的第i个分块，获取所述最后一个待分块卷积层的所有输出通道数据的第i个分块；

重复执行步骤a1和a2，直到获取到所述最后一个待分块卷积层的所有输出通道数据的所有分块，并确定所述最后一个待分块卷积层的所有输出通道数据的所有分块为所述最后一个待分块卷积层的输出结果。

在本申请实施例中，在获取最后一个待分块卷积层的所有输出通道数据的所有分块时，可以先根据第一个待分块卷积层的所有输入通道数据的一个分块，获取最后一个待分块卷积层的所有输出通道数据的一个分块，然后再根据第一个待分块卷积层的所有输入通道数据的另一个分块，获取最后一个待分块卷积层的所有输出通道数据的另一个分块，以此类推，遍历完第一个待分块卷积层的所有输入通道数据的所有分块，就可以获得最后一个待分块卷积层的所有输出通道数据的所有分块。

可选的，所述根据所述第一个待分块卷积层的所有输出通道数据的第i个分块，获取所述最后一个待分块卷积层的所有输出通道数据的第i个分块包括：

步骤b，对所述待分块卷积组中第j-1个待分块卷积层的所有输出通道数据的第i个分块进行卷积计算，获取所述待分块卷积组中第j个待分块卷积层的所有输出通道数据的第i个分块，其中，j为大于1且小于或等于N的整数；

重复执行步骤b，直到获取到所述最后一个待分块卷积层的所有输出通道数据的第i个分块。

在本申请实施例中，将第一个待分块卷积层的所有输出通道数据的第i个分块作为第二个待分块卷积层的所有输入通道数据的第i个分块，对第二个待分块卷积层的所有输入通道数据的第i个分块进行卷积计算，获得第二个待分块卷积层的所有输出通道数据的第i个分块，将第二个待分块卷积层的所有输出通道数据的第i个分块作为第三个待分块卷积层的所有输入通道数据的第i个分块，以此类推，直到将最后一个待分块卷积层的前一个待分块卷积层的所有输出通道数据的第i个分块作为最后一个待分块卷积层的所有输入通道数据的第i个分块，并对最后一个待分块卷积层的所有输入通道数据的第i个分块进行卷积计算，即可获取最后一个待分块卷积层的所有输出通道数据的第i个分块。根据上述获取最后一个待分块卷积层的所有输出通道数据的第i个分块的方法，可以获得最后一个待分块卷积层的所有输出通道数据的所有分块。

示例性，待分块卷积组包括三个待分块卷积层，第一个待分块卷积层的输出通道数据是第二个待分块卷积层的输入通道数据，第二个待分块卷积层的输出通道数据是第三个待分块卷积层的输入通道数据，三个待分块卷积层均被分为四个分块，在获取第三个待分块卷积层的所有输出通道数据的分块时，可以先对第一个待分块卷积层的所有输入通道数据的第一个分块进行卷积计算，获得第一个待分块卷积层的所有输出通道数据的第一个分块，将第一个待分块卷积层的所有输出通道数据的第一个分块作为第二个待分块卷积层的所有输入通道数据的第一个分块，并对第二个待分块卷积层的所有输入通道数据的第一个分块进行卷积计算，获得第二个待分块卷积层的所有输出通道数据的第一个分块，将第二个待分块卷积层的所有输出通道数据的第一个分块可作为第三个待分块卷积层的所有输入通道数据的第一个分块，并对第三个待分块卷积层的所有输入通道数据的第一个分块进行卷积计算，就可获得第三个待分块卷积层的所有输出通道数据的第一个分块；接着，对第一个待分块卷积层的所有输入通道数据的第二个分块进行卷积计算，获得第一个待分块卷积层的所有输出通道数据的第二个分块，将第一个待分块卷积层的所有输出通道数据的第二个分块作为第二个待分块卷积层的所有输入通道数据的第二个分块，并对第二个待分块卷积层的所有输入通道数据的第二个分块进行卷积计算，获得第二个待分块卷积层的所有输出通道数据的第二个分块，将第二个待分块卷积层的所有输出通道数据的第二个分块作为第三个待分块卷积层的所有输入通道数据的第二个分块，并对第三个待分块卷积层的所有输入通道数据的第二个分块进行卷积计算，就可获得第三个待分块卷积层的所有输出通道数据的第二个分块；然后，对第一个待分块卷积层的所有输入通道数据的第三个分块进行卷积计算，获得第一个待分块卷积层的所有输出通道数据的第三个分块，将第一个待分块卷积层的所有输出通道数据的第三个分块作为第二个待分块卷积层的所有输入通道数据的第三个分块，并对第二个待分块卷积层的所有输入通道数据的第三个分块进行卷积计算，获得第二个待分块卷积层的所有输出通道数据的第三个分块，将第二个待分块卷积层的所有输出通道数据的第三个分块作为第三个待分块卷积层的所有输入通道数据的第三个分块，并对第三个待分块卷积层的所有输入通道数据的第三个分块进行卷积计算，就可获得第三个待分块卷积层的所有输出通道数据的第三个分块；最后，对第一个待分块卷积层的所有输入通道数据的第四个分块进行卷积计算，获得第一个待分块卷积层的所有输出通道数据的第四个分块，将第一个待分块卷积层的所有输出通道数据的第四个分块作为第二个待分块卷积层的所有输入通道数据的第四个分块，并对第二个待分块卷积层的所有输入通道数据的第四个分块进行卷积计算，获得第二个待分块卷积层的所有输出通道数据的第四个分块，将第二个待分块卷积层的所有输出通道数据的第四个分块作为第三个待分块卷积层的所有输入通道数据的第四个分块，并对第三个待分块卷积层的所有输入通道数据的第四个分块进行卷积计算，获得第三个待分块卷积层的所有输出通道数据的第四个分块；上述获得的第三个待分块卷积层的所有输出通道数据的第一个分块、第二个分块、第三个分块以及第四个分块即为第三个待分块卷积层的所有输出通道数据的所有分块。

可选的，所述对所述待分块卷积组中第j-1个待分块卷积层的所有输出通道数据的第i个分块进行卷积计算，获得所述待分块卷积组中第j个待分块卷积层的所有输出通道数据的第i个分块包括：

将所述第j-1个待分块卷积层的所有输出通道数据的第i个分块分别与所述第j个待分块卷积层的所有输出通道数据对应的卷积核进行卷积计算，获得所述第j个待分块卷积层的所有输出通道数据的第i个分块。

其中，一个待分块卷积层的输出通道数据数量与该待分块卷积层的卷积核数量相同，例如一个待分块卷积层的卷积核数量为2，那该待分块卷积层的所有输入通道数据的分别与两个卷积核进行卷积，得到两个输出通道数据。

可选的，对于所述待分块卷积组中前N-1个待分块卷积层中每个待分块卷积层，在获取到所述每个待分块卷积层的所有输出通道数据的第i个分块之后，还包括：

将所述每个待分块卷积层的所有输出通道数据的第i个分块存储到输出缓存中；

在对每个待分块卷积层的所有输出通道数据的第i个分块进行卷积计算之前，还包括：

从所述输出缓存中获取所述每个待分块卷积层的所有输出通道数据的第i个分块。

在本申请实施例中，在待分块卷积组中每个待分块卷积层获取到自身的所有输出通道数据的一个分块时，就可以将该分块存储到输出缓存(即用于存储输出通道数据的分块的缓存)中，而不存储到内存中，可以减少对内存的数据访问次数，因为一个待分块卷积层在获取自身的所有输出通道数据的一个分块时，需要使用上一个待分块卷积层的所有输出通道数据的分块，将上一个待分块卷积层的所有输出通道数据的分块存储到缓存中，就可以在使用上一个待分块卷积层的所有输出通道数据的分块时直接从缓存中获取，而无需访问内存。

如图2b所示是待分块卷积层的分块缓存示例图，IBUF(即图2a中的Input databuf)中可以存放M1个ti(即输入通道数据的分块)，M1取决于IBUF的深度和ti的尺寸；OBUF(即图2a中的PSUM BUF)中可以存放M2个to(即输出通道数据的分块)，M2取决于OBUF的深度和to的尺寸；WBUF(即图2a中Weight buf)中存放M3个卷积核的参数数据，M3取决WBUF的深度和卷积核的尺寸；从IBUF中取一个ti，然后依次计算to0～toN，直到这个ti完全用完，然后丢弃；WBUF配套提供N个卷积核，用于卷积计算；计算模块可以并行对多个ti进行卷积计算。

通过调整待分块卷积组中第一个待分块卷积层的所有输入通道数据的分块的尺寸，可以调整第一个待分块卷积层的所有输出通道数据的分块的尺寸，以及待分块卷积组中剩余待分块卷积层的所有输入通道数据的分块的尺寸和所有输出通道数据的分块的尺寸，进而可达到数据带宽和参数带宽的调整。

对于一个待分块卷积层，如果该待分块卷积层的输出通道数据的分块的尺寸越小，那么在OBUF中可以并行存放更多的输出通道数据的分块，该待分块卷积层的输入通道数据的分块可以复用的程度越高，相当于该待分块卷积层的输入通道数据的分块的消耗速度变慢，减少了对该待分块卷积层的输入通道数据的分块的数据带宽消耗，但每个卷积核可以计算复用的数据变少，需要重复从WBUF或者内存中读取，增加了对参数带宽的消耗；如果该待分块卷积层的输出通道数据的分块的尺寸越大，那么OBUF中可以并行存放更少的输出通道数据的分块，每个输入通道数据的分块可以复用的程度越少，相当于输入通道数据分块的消耗速度变慢，增加了对输入通道数据分块的数据带宽消耗，但每个卷积核可以计算复用的数据变多，可以减少重复从WBUF或者内存中读取，减少了对参数带宽的消耗。因此，可以通过选择合适的分块尺寸和待分块卷积组，适应性调整数据带宽消耗和参数带宽消耗，减少带宽总消耗。例如，对于第一个待分块卷积层，如果输入图像的尺寸较大，输入通道和输出通道都比较少，那么输入通道的输入数据的数量大，而卷积核的数量小，可以选择尺寸较小的输出通道数据的分块，较为理想的是OBUF中可以存放所有的输出通道数据的分块，那么每个输入通道数据的分块可以复用到所有的输出通道数据的分块，这样只需要从内存加载一次输入通道数据；如果输入图像的尺寸较小，输入通道和输出通道都比较多，那么输入通道的输入数据的数量小，而卷积核的数量大，可以选择较大的输出通道数据的分块，较为理想的是不需要进行分块，这样每个卷积核可以复用到对应输出通道的所有数据，用完就可以丢弃，保证整个卷积核只需要从内存加载一次。其中，可以通过调整第一个待分块卷积层的输入通道数据的分块的尺寸，实现对输出通道数据的分块的尺寸的调整。

步骤S106，将所述待分块卷积组的输出结果输入至所述深度学习模型的指定网络。

其中，所述指定网络是指所述深度学习模型中位于所述待分块卷积组之后的网络，即所述深度学习模型中位于所述待分块卷积组中最后一个待分块卷积层之后的网络，例如池化层、全连接层等。

本申请实施例在通过深度学习模型对待处理图像进行处理时，从深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸，并根据目标尺寸对待分块卷积组中的第一个待分块卷积层的所有输入通道数据进行分块，根据第一个待分块卷积层的所有输入通道数据的所有分块，完成对待分块卷积组的卷积计算，在卷积计算过程中，并不需要重复从内存中读取数据，减少了对内存的数据访问，提高了卷积计算效率，进而提高了对待处理图像的处理效率，同时通过与上述深度学习模型自适应的目标尺寸对待分块卷积层进行分块，能够减少卷积计算过程中所消耗的数据带宽和参数带宽，自适应深度学习模型的频繁更新升级。

参见图3，是本申请实施例二提供的卷积计算装置的示意图，为了便于说明，仅示出了与本申请实施例相关的部分。

所述卷积计算装置包括：

图像获取模块31，用于获取待处理图像；

图像输入模块32，用于将所述待处理图像输入至深度学习模型；

参数获取模块33，用于针对所述待处理图像，从所述深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸，其中，所述待分块卷积组包括N个相邻卷积层，N为大于1的整数；

通道分块模块34，用于根据所述目标尺寸，对所述待分块卷积组中的第一个待分块卷积层的所有输入通道数据进行分块，每个分块的尺寸为所述目标尺寸；

结果获取模块35，用于根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组的输出结果；

结果输入模块36，用于将所述待分块卷积组的输出结果输入至所述深度学习模型的指定网络，其中，所述指定网络是指所述深度学习模型中位于所述待分块卷积组之后的网络。

可选的，所述参数获取模块33包括：

第一获取子模块，用于获取M组不同的备选参数，其中，一组备选参数包括一个备选卷积组以及与该备选卷积组对应的备选尺寸，M为大于1的整数；

第二获取子模块，用于针对所述待处理图像，获取所述M组不同的备选参数中每组备选参数在卷积计算过程中消耗的数据带宽和参数带宽；

参数处理子模块，用于从所述M组不同的备选参数中获取数据带宽与参数带宽之和最小的备选参数，并确定该备选参数中的备选卷积组为所述待分块卷积组，该备选参数中的备选尺寸为所述目标尺寸。

可选的，所述第二获取子模块具体用于：

获取所述每组备选参数在卷积计算过程中从内存加载输入通道数据所消耗的带宽，并确定该带宽为所述每组备选参数在卷积计算过程中消耗的数据带宽；

可选的，所述结果获取模块35具体用于：

可选的，所述结果获取模块35包括：

卷积计算子模块，用于对所述第一个待分块卷积层的所有输入通道数据的第i个分块进行卷积计算，获得所述第一个待分块卷积层的所有输出通道数据的第i个分块，其中，i为大于零且小于或等于分块总数的整数，该分块总数是指所述第一个待分块卷积层的所有输入通道数据进行分块后输入通道数据的分块总数；

分块获取子模块，用于根据所述第一个待分块卷积层的所有输出通道数据的第i个分块，获取所述最后一个待分块卷积层的所有输出通道数据的第i个分块；

分块处理子模块，用于重复所述卷积计算单元和所述分块获取单元，直到获取到所述最后一个待分块卷积层的所有输出通道数据的所有分块，并确定所述最后一个待分块卷积层的所有输出通道数据的所有分块为所述最后一个待分块卷积层的输出结果。

可选的，所述分块获取子模块包括：

第一获取单元，用于对所述待分块卷积组中第j-1个待分块卷积层的所有输出通道数据的第i个分块进行卷积计算，获取所述待分块卷积组中第j个待分块卷积层的所有输出通道数据的第i个分块，其中，j为大于1且小于或等于N的整数；

第二获取单元，用于重复执行所述第一获取子单元，直到获取到所述最后一个待分块卷积层的所有输出通道数据的第i个分块。

可选的，所述第一获取单元具体用于：

可选的，所述分块获取子模块还包括：

存储单元，用于对于所述待分块卷积组中前N-1个待分块卷积层中每个待分块卷积层，在获取到所述每个待分块卷积层的所有输出通道数据的第i个分块之后，将所述每个待分块卷积层的所有输出通道数据的第i个分块存储到输出缓存中；

第三获取单元，用于在对每个待分块卷积层的所有输出通道数据的第i个分块进行卷积计算之前，从所述输出缓存中获取所述每个待分块卷积层的所有输出通道数据的第i个分块。

本申请实施例提供的卷积计算装置可以应用在前述方法实施例一中，详情参见上述方法实施例一的描述，在此不再赘述。

图4是本申请实施例三提供的终端设备的结构示意图。如图4所示，该实施例的终端设备4包括：一个或多个处理器40(图中仅示出一个)、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述卷积计算方法实施例中的步骤

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本申请实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行时实现可实现上述各个方法实施例中的步骤。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种卷积计算方法，其特征在于，所述卷积计算方法包括：

获取待处理图像；

将所述待处理图像输入至深度学习模型；

针对所述待处理图像，从所述深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸，其中，所述待分块卷积组包括N个相邻卷积层，N为大于1的整数；根据所述目标尺寸，对所述待分块卷积组中的第一个待分块卷积层的所有输入通道数据进行分块，每个分块的尺寸为所述目标尺寸；

2.如权利要求1所述的卷积计算方法，其特征在于，所述针对所述待处理图像，从所述深度学习模型的所有卷积层中获取待分块卷积组和分块的目标尺寸包括：

3.如权利要求2所述的卷积计算方法，其特征在于，所述获取所述M组不同的备选参数中每组备选参数在卷积计算过程中消耗的数据带宽包括：

4.如权利要求2所述的卷积计算方法，其特征在于，所述获取所述M组不同的备选参数中每组备选参数在卷积计算过程中消耗的参数带宽包括：

5.如权利要求1所述的卷积计算方法，其特征在于，所述根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组的输出结果包括：

6.如权利要求5所述的卷积计算方法，其特征在于，所述根据所述第一个待分块卷积层的所有输入通道数据的所有分块，获取所述待分块卷积组中最后一个待分块卷积层的输出结果包括：

7.如权利要求6所述的卷积计算方法，其特征在于，所述根据所述第一个待分块卷积层的所有输出通道数据的第i个分块，获取所述最后一个待分块卷积层的所有输出通道数据的第i个分块包括：

8.一种卷积计算装置，其特征在于，所述卷积计算装置包括：

图像获取模块，用于获取待处理图像；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述卷积计算方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述卷积计算方法的步骤。