CN107437110A

CN107437110A - 卷积神经网络的分块卷积优化方法及装置

Info

Publication number: CN107437110A
Application number: CN201710560643.5A
Authority: CN
Inventors: 程健; 李钢; 赵天理
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-07-11
Filing date: 2017-07-11
Publication date: 2017-12-05
Anticipated expiration: 2037-07-11
Also published as: CN107437110B

Abstract

本发明涉及深度神经网络领域，提出了一种卷积神经网络的分块卷积优化方法及装置，旨在解决神经网络中卷积运算在硬件处理***中的处理瓶颈问题，该优化方法包括：选择待分块卷积的卷积层，并确定其分块尺寸上限；根据分块尺寸的上限，确定输入特征图的分块数、分块尺寸；基于分块数、分块尺寸、卷积核尺寸、输入特征图尺寸、输入特征图边界填充尺寸，计算分块特征图的分块边界填充尺寸；基于分块数、分块尺寸、分块边界填充尺寸，构建基于分块边界填充的卷积，并替换原始卷积。本发明大大缓解了卷积神经网络在嵌入式硬件平台运行的资源受限问题，并在读写存储器时最大限度的提高突发长度，提高吞吐量，降低延时，提高效率。

Description

卷积神经网络的分块卷积优化方法及装置

技术领域

本发明涉及深度神经网络技术领域，具体涉及一种卷积神经网络的分块卷积优化方法及装置。

背景技术

深度学习，作为机器学习的一个最前沿的分支，其理论和应用在最近几年得到了飞速的发展。计算机视觉、语音语言处理等传统领域在深度学习的推动下，发展势头尤为迅猛，计算机对于图像视频、语音文字的识别能力甚至超过了人类。一批新兴产业和应用在深度学习的发展浪潮中随之产生，比如自动驾驶汽车、聊天机器人、智能监控、智能家居等等，智能化的应用在人们的日常生活中几乎随处可见。传统的零售业、银行业、保险业等也在大数据和深度学习的推动下，步入互联网发展的新时代。

深度卷积神经网络是深度学***台的诞生和发展，使得训练出高性能的深度神经网络成为可能。

随着深度卷积神经网络在众多研究问题中的成功应用，以及在人工智能发展过程中显示出的强大的推动力，人们开始关注于如何让深度卷积神经网络在更多的应用场景下更好的挥发威力，比如自动驾驶汽车、虚拟现实、大规模数据中心等等。在这样的背景下，嵌入式移动计算和大规模数据中心是两个主要的发展趋势。一方面，如何将深度卷积神经网络部署在灵活性好、性能更高功耗更低的嵌入式设备上，越来越受到学术界和工业界的关注，基于可编程逻辑器件、嵌入式通用图形处理器的深度卷积神经网络加速器设计成为了一个研究热点。另一方面，随着大规模集成电路技术的发展和硬件成本的降低，高性能计算集群被广泛应用，如何通过分布式并行方式高效地处理深度卷积神经网络的运算任务，同样受到了越来越多的关注。然而，由于深度神经网络自身的结构特点，嵌入式和分布式部署过程中均存在着很多难题。

深度卷积神经网络通常由几类基本层组成，如卷积层、全连接层等。每一层的输入输出由若干特征图组成。对于常见的嵌入式平台而言，在不考虑外设存储器的情况下，其芯片自身不具备足够大的存储空间用于存储这些输入输出特征图(运算中间结果)，再加上巨大的网络参数量，使得外设存储器(通常为DRAM)与芯片内部频繁的数据传输是不可避免的。另外，有限的芯片内部计算资源也使得一次性计算神经网络的某一层非常困难，通常需要分批次计算。因此，如何根据嵌入式平台有限的存储和计算资源，将整个神经网络拆分成若干子网络分别运算，具有非常重要的意义。

权值共享是卷积神经网络模型的一个显著特点，其在计算过程中体现为大量操作和数据相互依赖。这种特性对于深度卷积神经网络的嵌入式和分布式部署都提出了挑战。一方面，当深度卷积神经网络部署在嵌入式平台上时，神经网络的运算由于资源受限，通常分批次进行。每个批次的输入数据和输出数据由于大量的批次间依赖关系，使得其在外部存储器(如DRAM)中的存储形式会造成大面积的非连续现象。对这些非连续地址数据的读写操作会造成严重的访问延时，并且引入大量额外功耗。另一方面，当希望深度卷积神经网络拆分为若干子网络并行运行在分布式***上时，由于子网络间的依赖关系，使得计算过程中***不同节点间需要频繁交换数据，这对于传输带宽会造成一定的压力，同时交换数据的过程会引入额外功耗。

分块运算的思想在一些工作中有所运用，但是都没有解决运算过程中的操作和数据依赖问题，这使得网络计算、数据调度的复杂度很难从本质上得到减轻，性能瓶颈依旧存在。

有鉴于此，特提出本发明。

发明内容

为了解决现有技术中的上述问题，即为了解决神经网络中卷积处理在硬件处理***中的处理瓶颈问题，本发明的一方面，提出了一种卷积神经网络的分块卷积优化方法，包括以下步骤：

步骤1，基于预设的卷积神经网络模型，选择作为待分块卷积的卷积层，并确定该卷积层分块尺寸上限；

步骤2，根据输入特征图尺寸和步骤1中得到的所述分块尺寸的上限，确定所述待分块卷积的卷积层的输入特征图的分块数、分块尺寸；

步骤3，基于步骤2中得到的所述输入特征图的分块数、分块尺寸，以及所述待分块卷积的卷积层的卷积核尺寸、输入特征图尺寸、输入特征图边界填充尺寸，计算依据步骤2得到的分块数、分块尺寸分块后的分块特征图的分块边界填充尺寸；

步骤4，基于步骤2中得到输入特征图的分块数、分块尺寸，以及步骤3中得到的分块边界填充尺寸，构建基于分块边界填充的卷积，并替换所述待分块卷积的卷积层中的原始卷积。

优选地，步骤1中选择待分块卷积的卷积层的方法为：

基于预设的卷积神经网络模型、以及运行预设的卷积神经网络模型的处理***，识别所述预设的卷积神经网络模型中存在处理瓶颈的卷积层，选择该卷积层为待分块卷积的卷积层；或者依据外部录入信息指定待分块卷积的卷积层。

优选地，步骤1包括：

步骤11，基于预设的卷积神经网络模型，计算每个卷积层的运算量和输入输出特征图的数据量；

步骤12，基于运行预设的卷积神经网络模型的处理***，分别统计运算资源总量和存储资源总量；

步骤13，识别存在处理瓶颈的卷积层，并以该卷积层待分块卷积的卷积层；所述处理瓶颈为运算资源总量不足以一次性完成整个卷积层的卷积操作，或者存储资源总量不足以一次性存储整个卷积层的输入或输出特征图；

步骤14，基于所述处理***的运算资源总量和存储资源总量，结合预设或给定的运算方法，计算待分块卷积的卷积层输入特征图的分块尺寸上限。

优选地，所述运算资源为能够用于数值和逻辑运算的运算单元；所述存储资源为能够用于存储数据的存储单元。

优选地，步骤2中所述输入特征图的分块尺寸介于所述待分块卷积的卷积层的卷积核尺寸和所述分块尺寸上限之间。

优选地，步骤3中所述分块边界填充尺寸的计算方法包括：

步骤31，计算单通道输出特征图的尺寸[h_out,w_out]，

h_out＝(h_in+2*h_pad-h_k)/h_s+1

w_out＝(w_in+2*w_pad-w_k)/w_s+1

其中，h_out、w_out分别为所述单通道输出特征图竖直方向、水平方向的输出尺寸，[h_in,w_in]为所述待分块卷积的卷积层的单通道输入特征图尺寸，[h_pad,w_pad]为所述待分块卷积的卷积层的边界填充尺寸，[h_k,w_k]为所述待分块卷积的卷积层的卷积核尺寸，[h_s,w_s]为所述待分块卷积的卷积层的卷积核滑动步长；

步骤32，计算分块特征图的边界填充尺寸[h_pp,w_pp]，

其中，h_pp、w_pp分别为分块特征图的竖直方向、水平方向的边界填充尺寸，[h_p_i,w_p_j](1≤i≤h_num,1≤j≤w_num)为所述待分块卷积的卷积层的输入特征图的分块尺寸，[h_num,w_num]为所述待分块卷积的卷积层的输入特征图在竖直方向和水平方向上的分块数。

优选地，步骤4中利用所述基于分块边界填充的卷积替换所述待分块卷积的卷积层中的原始卷积后，生成优化后的卷积神经网络模型；

所述优化后的卷积神经网络模型的模型参数通过如下方法优化：

通过训练集对优化后的卷积神经网络模型进行训练获得；所述优化后的卷积神经网络模型初始的模型参数为在预设的取值范围内随机取值，或者为已训练好的预设卷积神经网络模型的参数。

优选地，所述待分块卷积的卷积层为一个或多个。

本发明的另一方面，提出了一种基于分块卷积的卷积神经网络，包括卷积层，至少一个所述卷积层为待分块卷积的卷积层，所述待分块卷积的卷积层基于上述的卷积神经网络的分块卷积优化方法进行优化得到。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现：上述的卷积神经网络的分块卷积优化方法，或者上述的基于分块卷积的卷积神经网络。

本发明的第四方面，提出了一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

所述程序适于由处理器加载并执行以实现：

上述的卷积神经网络的分块卷积优化方法，或者上述的基于分块卷积的卷积神经网络。

本发明的有益效果如下：

本发明的卷积神经网络的分块卷积优化方法，通过对深度卷积神经网络中存在资源受限问题的卷积层输入特征图进行分块，对每个分块特征图分别进行边界填充，用基于分块的卷积替代原始卷积，从而彻底消除了原始卷积层内不同特征图分块之间的数据依赖，使得卷积能够在独立的分块上分别进行，大大缓解了嵌入式硬件平台的资源受限的问题。独立的分块在外部存储器中能够连续地址存放，相比于分散存放，在读写存储器时能够最大限度的提高突发长度，提高吞吐量，降低延时，提高效率。同时，数据依赖的消除使得整个网络可以拆分为若干相互独立的子网络，便于实现分布式并行运算。

附图说明

图1是本发明一种实施例的卷积神经网络的分块卷积优化方法的流程示意图；

图2是本发明一种实施例的卷积层单通道输入特征图分块及分块边界填充操作示意图；

图3是本发明一种实施例的基于分块卷积得到单通道输出特征图的示意图；

图4是本发明一种实施例的应用分块卷积前后输入特征图块在外部存储器中的数据排布形式示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明实施例的卷积神经网络的分块卷积优化方法，如图1所示，包括：

步骤1，基于预设的卷积神经网络模型，选择作为待分块卷积的卷积层，并确定该卷积层的分块尺寸上限；

步骤3，基于步骤2中得到的所述输入特征图的分块数、分块尺寸，以及待分块卷积的卷积层的卷积核尺寸、输入特征图尺寸、输入特征图边界填充尺寸，计算依据步骤2得到的分块数、分块尺寸分块后的分块特征图的分块边界填充尺寸；

本实施例中，步骤1中选择待分块卷积的卷积层的方法为：基于预设的卷积神经网络模型、以及运行预设的卷积神经网络模型的处理***，识别所述预设的卷积神经网络模型中存在处理瓶颈的卷积层，选择该卷积层待分块卷积的卷积层。当然也可以依据外部录入信息指定待分块卷积的卷积层。因此本发明的卷积神经网络的分块卷积优化方法不仅仅在运算和存储资源受限的处理***中应用，还可以在不存在运算和存储资源受限问题的处理***中应用，以减小处理***的运行压力。

在运算和存储资源受限的处理***中应用时，步骤1可以进一步细化为：

步骤11，基于预设的卷积神经网络模型，计算每个卷积层的运算量和输入输出特征图的数据量；其中，运算量通常以乘加次数计算，输入输出特征图的数据量以字节数计算。

步骤12，基于运行预设的卷积神经网络模型的处理***，分别统计运算资源总量和存储资源总量。

运算资源为能够用于数值和逻辑运算的所有集成或分散在硬件内部的运算单元，比如可编程逻辑器件中的乘法器、加法器、查找表(LUT)等；存储资源为能够用于存储数据的所有集成或分散在硬件内部的存储单元，比如可编程逻辑器件中的触发器(FF)、随机存取存储器(RAM)等。

步骤13，识别存在处理瓶颈的卷积层，并以该卷积层待分块卷积的卷积层；所述处理瓶颈为运算资源总量不足以一次性完成整个卷积层的卷积操作，或者存储资源总量不足以一次性存储整个卷积层的输入或输出特征图。

步骤14，基于所述处理***的运算资源总量和存储资源总量，结合预设或给定的运算方法，计算待分块卷积的卷积层输入特征图的分块尺寸上限。该步骤中，计算分块尺寸上限所依据的预设或给定的运算方法，只要满足以下原则即可：在给定卷积层(即待分块卷积的卷积层)并行运算规模(并行数)的条件下，分块尺寸上限按分块后卷积运算结果的数据量不超过存储资源总量的原则来确定。

本实施例中，步骤2中的输入特征图的分块尺寸介于所述待分块卷积的卷积层的卷积核尺寸和所述分块尺寸上限之间。

本实施例中，步骤3中的分块边界填充尺寸，其计算方法包括：

步骤31，通过公式(1)、(2)计算单通道输出特征图的尺寸[h_out，w_out]，

h_out＝(h_in+2*h_pad-h_k)/h_s+1 (1)

w_out＝(w_in+2*w_pad-w_k)/w_s+1 (2)

其中，h_out、w_out分别为所述单通道输出特征图竖直方向、水平方向的输出尺寸，[h_in,w_in]为所述待分块卷积的卷积层的单通道输入特征图尺寸，[h_pad,w_pad]为所述待分块卷积的卷积层的边界填充尺寸，[h_k，w_k]为所述待分块卷积的卷积层的卷积核尺寸，[h_s,w_s]为所述待分块卷积的卷积层的卷积核滑动步长；

步骤32，通过公式(3)、(4)计算分块特征图的边界填充尺寸[h_pp,w_pp]，

同一个待分块卷积的卷积层中每个通道的特征图分块方法和分块尺寸保持一致，用于分块边界填充的数值可以任意指定。

应该指出的是，在常见的卷积神经网络中，单个通道上的输入输出特征图和卷积核均为正方形，即竖直方向上的尺寸与水平方向上的尺寸保值一致。步骤32是一种更具通用性的表述，其包括但不局限于单个通道特征图内两个维度上的尺寸完全一致的情况。

本实施例的优化方法，还包括更新卷积层后的卷积神经网络模型参数的优化。步骤4中利用所述基于分块边界填充的卷积替换所述待分块卷积的卷积层中的原始卷积后，生成优化后的卷积神经网络模型；优化后的卷积神经网络模型的模型参数通过如下方法优化：通过训练集对优化后的卷积神经网络模型进行训练获得；所述优化后的卷积神经网络模型初始的模型参数为在预设的取值范围内随机取值(模型参数初始赋值的方法在现有技术中有很多种方法可以实现，此处不再赘述)，或者为已训练好的预设卷积神经网络模型的参数。以已训练好的预设卷积神经网络模型的参数作为优化后的卷积神经网络模型初始的模型参数，训练过程相当于对优化后的卷积神经网络模型中分块卷积进行微调，可以更有效的进行参数优化。

本实施例中，所优化的待分块卷积的卷积层可以为一个，也可以为多个。

本发明实施例通过对受资源限制的卷积层输入特征图进行分块，对每个分块分别进行边界填充，利于基于分块的近似卷积运算代替原始卷积运算，消除了不同特征图分块在卷积操作时的数据依赖，使得每个特征图分块在DRAM中能够连续地址存放，大大减少了分散存放情况下的读写延时和额外功耗，从而提高了嵌入式硬件平台上不同存储介质之间数据传输的效率。同时，分块后的网络可以拆分成若干相互独立的子网络，便于实现分布式并行运算。

下面以卷积层单通道特征图分块卷积操作为例对本发明实施例的部分细节进行详细说明。

图2示例性地示出了将单通道输入特征图进行分块操作并进行分块边界填充的过程。在这个实施例中，单通道特征图的尺寸为M*N。假定根据输入特征图分块尺寸上限和实际需要，确定输入特征图的分块尺寸为m*n。于是，原始输入特征图被划分成若干尺寸为m*n的特征图块。紧接着，对这些相互独立的特征图块分别进行边界填充，用于边界填充的数据可以是任意数值。这样，最终得到分块边界填充后的输入特征图，将其作为卷积层的实际输入特征图。

图3示例性地示出了基于分块卷积生成单通道输出特征图的示意图。在本实例中，卷积操作分别在多个特征图分块上独立进行，彼此之间不存在任何的数据依赖。

图4示例性地示出了应用分块卷积前后，输入特征图块在外部存储器(DRAM)中的数据排布形式。可以看到，传统分块方法中，为了得到一个输出特征图块，不仅需要输入特征图中对应位置的区块数据，还需要与之相邻的几个数据块的部分数据。这就直接导致了输入特征图块中的数据分散分布在DRAM中，非连续的排布形式一方面提高了对于DRAM随机访问的设计难度，另一方面不可避免的增加了DRAM的访问延时和额外功耗。而引入分块卷积之后，特征图不同的数据块之间的运算被强行割裂，数据块之间不再产生数据依赖。在这种情况下，要想卷积得到一个输出特征图块，只需要对应位置的一个输入特征图块。而输入特征图块中的数据在DRAM中为连续地址排布，完全避免了DRAM的随机访问，避免了不必要的DRAM访问额外延时和功耗。同时也大大降低了存储管理难度。

以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述，但是，上述实施例的说明仅适用于帮助理解本发明实施例的原理；同时，对于本领域技术人员来说，依据本发明实施例，在具体实施方式以及应用范围之内均会做出改变。

本发明的一种实施例的基于分块卷积的卷积神经网络，包括卷积层，至少一个所述卷积层为待分块卷积的卷积层，所述待分块卷积的卷积层基于上述的卷积神经网络的分块卷积优化方法进行优化得到。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的基于分块卷积的卷积神经网络的有关说明，可以参考前述卷积神经网络的分块卷积优化方法实施例中的对应过程，在此不再赘述。

本发明的卷积神经网络的分块卷积优化方法和基于分块卷积的卷积神经网络可以用通用的计算装置来实现，例如，它们可以集中在单个的计算装置上，例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置，也可以分布在多个计算装置所组成的网络上，它们可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此，本发明不限于任何特定的硬件和软件或者其结合。

本发明的卷积神经网络的分块卷积优化方法和基于分块卷积的卷积神经网络可以使用可编程逻辑器件来实现，也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等)，例如根据本发明的实施例可以是一种计算机程序产品，运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如：采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如：RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于：光存储介质(例如：CD－ROM和DVD)、磁光存储介质(例如：MO)、磁存储介质(例如：磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如：存储卡)和具有内置ROM的媒体(例如：ROM盒)。

本发明的一种实施例的存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现：上述的卷积神经网络的分块卷积优化方法，或者上述的基于分块卷积的卷积神经网络。

本发明的一种实施例的处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；程序适于由处理器加载并执行以实现：上述的卷积神经网络的分块卷积优化方法，或者上述的基于分块卷积的卷积神经网络。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法所固有的要素。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例优化方法、神经网络，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种卷积神经网络的分块卷积优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的卷积神经网络的分块卷积优化方法，其特征在于，步骤1中选择待分块卷积的卷积层的方法为：

3.根据权利要求2所述的卷积神经网络的分块卷积优化方法，其特征在于，步骤1包括：

步骤14，基于所述处理***的运算资源总量和存储资源总量，计算待分块卷积的卷积层输入特征图的分块尺寸上限。

4.根据权利要求3所述的卷积神经网络的分块卷积优化方法，其特征在于，所述运算资源为能够用于数值和逻辑运算的运算单元；所述存储资源为能够用于存储数据的存储单元。

5.根据权利要求1所述的卷积神经网络的分块卷积优化方法，其特征在于，步骤2中所述输入特征图的分块尺寸介于所述待分块卷积的卷积层的卷积核尺寸和所述分块尺寸上限之间。

6.根据权利要求1所述的卷积神经网络的分块卷积优化方法，其特征在于，步骤3中所述分块边界填充尺寸的计算方法包括：

步骤31，计算单通道输出特征图的尺寸[h_out,w_out]，

h_out＝(h_in+2*h_pad-h_k)/h_s+1

w_out＝(w_in+2*w_pad-w_k)/w_s+1

步骤32，计算分块特征图的边界填充尺寸[h_pp,w_pp]，

<mrow> <mi>h</mi> <mo>_</mo> <mi>p</mi> <mi>p</mi> <mo>=</mo> <mi>h</mi> <mo>_</mo> <mi>s</mi> <mo>*</mo> <mo>&lsqb;</mo> <mi>h</mi> <mo>_</mo> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>h</mi> <mo>_</mo> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <mrow> <mo>(</mo> <mi>h</mi> <mo>_</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>h</mi> <mo>_</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>/</mo> <mi>h</mi> <mo>_</mo> <mi>s</mi> <mo>+</mo> <mn>1</mn> <mo>&rsqb;</mo> <mo>/</mo> <mn>2</mn> <mi>h</mi> <mo>_</mo> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow>

<mrow> <mi>w</mi> <mo>_</mo> <mi>p</mi> <mi>p</mi> <mo>=</mo> <mi>w</mi> <mo>_</mo> <mi>s</mi> <mo>*</mo> <mo>&lsqb;</mo> <mi>w</mi> <mo>_</mo> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>w</mi> <mo>_</mo> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <mrow> <mo>(</mo> <mi>w</mi> <mo>_</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>-</mo> <mi>w</mi> <mo>_</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>/</mo> <mi>w</mi> <mo>_</mo> <mi>s</mi> <mo>+</mo> <mn>1</mn> <mo>&rsqb;</mo> <mo>/</mo> <mn>2</mn> <mi>w</mi> <mo>_</mo> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow>

7.根据权利要求1-6中任一项所述的卷积神经网络的分块卷积优化方法，其特征在于，步骤4中利用所述基于分块边界填充的卷积替换所述待分块卷积的卷积层中的原始卷积后，生成优化后的卷积神经网络模型；

8.根据权利要求1-6中任一项所述的卷积神经网络的分块卷积优化方法，其特征在于，所述待分块卷积的卷积层为一个或多个。

9.一种基于分块卷积的卷积神经网络，包括卷积层，其特征在于，至少一个所述卷积层为待分块卷积的卷积层，所述待分块卷积的卷积层基于权利要求1-8任一项所述的卷积神经网络的分块卷积优化方法进行优化得到。

10.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现：权利要求1-8任一项所述的卷积神经网络的分块卷积优化方法，或者权利要求9所述的基于分块卷积的卷积神经网络。

11.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-8任一项所述的卷积神经网络的分块卷积优化方法，或者权利要求9所述的基于分块卷积的卷积神经网络。