CN110414663B

CN110414663B - 神经网络的卷积实现方法及相关产品

Info

Publication number: CN110414663B
Application number: CN201810402644.1A
Authority: CN
Inventors: 曹庆新; 黎立煌; 李炜
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2022-03-25
Anticipated expiration: 2038-04-28
Also published as: CN110414663A

Abstract

本发明提供一种神经网络的卷积实现方法及相关产品，该方法包括：获取输入数据以及权值数据；将所述权值数据切割成核尺寸为[n][m]的多个数据块，并将每个数据块拟合成核尺寸为[A][B]的X个卷积核；以及将每个卷积核与所述输入数据执行卷积运算得到中间结果，将所有的中间结果进行处理得到卷积结果。本申请提供的技术方案具有计算速度快的优点。

Description

神经网络的卷积实现方法及相关产品

技术领域

本申请涉及人工智能技术领域，具体涉及一种神经网络的卷积实现方法及相关产品。

背景技术

随着人工智能技术的日益成熟，各行各业的应用场景和产品需求爆发式增长，人工智能的算法更新迭代速度非常快，硬件计算平台一方面要足够的灵活，以应付灵活多变的算法需求，且研发周期需要尽可能的短，以应付产品竞争压力；对于人工智能计算的算法模型，尤其是神经网络模型，卷积运算属于神经网络模型的基础运算，对于卷积运算中不同的神经网络模型中使用到的核尺寸(英文：KERNEL SIZE)不固定，何种尺寸都有可能被应用到，现有的硬件平台无法支持所有核尺寸的运算和变化，影响卷积运算速度，进而影响用户体验度。

发明内容

本申请实施例提供了一种神经网络的卷积实现及相关产品，通过将不同的核尺寸拟合成标准核尺寸，从而实现标准核尺寸的卷积运算，进而提高了卷积运算速度以及用户体验度。

第一方面，本申请实施例提供一种神经网络的卷积实现方法，所述方法包括如下步骤：

获取输入数据以及权值数据；

将所述权值数据切割成核尺寸为[n][m]的多个数据块，并将每个数据块拟合成核尺寸为[A][B]的X个卷积核；以及将每个卷积核与所述输入数据执行卷积运算得到中间结果，将所有的中间结果进行处理得到卷积结果；

其中，A小于或等于n，B小于或等于m，A、B、m、n及X均为大于或等于1的整数。

可选的，所述将每个数据块拟合成核尺寸为[A][B]的X个卷积核包括：

如果每个数据块不能切割成整数个核尺寸为[A][B]的卷积核，则对每个数据块的边缘补零，补零之后的数据块的核尺寸为[n+b][m+c]，然后将核尺寸为[n+b][m+c]的数据块切割成核尺寸为[A][B]的X个卷积核，其中b、c均为大于或等于0的整数。

可选的，所述将每个数据块]拟合成核尺寸为[A][B]的X个卷积核包括：

如果每个数据块不能切割成整数个核尺寸为[A][B]的卷积核，则将每个数据块切割成核尺寸等于[A][B]的E个卷积核以及核尺寸小于[A][B]的F个卷积核，对F个卷积核的边缘补零，补零之后的F个卷积核的核尺寸为[A][B]，其中，E+F＝X，E和F均为大于或等于零的整数。

可选的，所述核尺寸[A][B]具体包括：核尺寸[2][2]、核尺寸[3][3]或核尺寸[5][5]。

第二方面，提供一种神经网络芯片；

所述神经网络芯片，用于获取输入数据以及权值数据；

所述神经网络芯片，用于将所述权值数据切割成核尺寸为[n][m]的多个数据块，并将每个数据块拟合成核尺寸为[A][B]的X个卷积核；以及将每个卷积核与所述输入数据执行卷积运算得到中间结果，将所有的中间结果进行处理得到卷积结果；；

A小于或等于n，B小于或等于m，A、B、m、n及X均为大于或等于1的整数。

可选的，所述神经网络芯片，还用于在每个数据块不能切割成整数个核尺寸为[A][B]的卷积核时，对每个数据块的边缘补零，补零之后的数据块的核尺寸为[n+b][m+c]，然后将核尺寸为[n+b][m+c]的数据块切割成核尺寸为[A][B]的X个卷积核，其中b、c均为大于或等于0的整数。

可选的，所述神经网络芯片，还用于在每个数据块不能切割成整数个核尺寸为[A][B]的卷积核时，将每个数据块切割成核尺寸等于[A][B]的E个卷积核以及核尺寸小于[A][B]的F个卷积核，对F个卷积核的边缘补零，补零之后的F个卷积核的核尺寸为[A][B]，其中，E+F＝X，E和F均为大于或等于零的整数。

第三方面，提供一种电子装置，该电子装置可以包括第二方面的神经网络芯片。

第四方面，提供一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如第一方面提供的方法。

第五方面，提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行第一方面提供的方法。

实施本申请实施例，具有如下有益效果：

可以看出，本申请提供的技术方案无论该KERNEL SIZE的尺寸n、m为多少，其均将该KERNEL SIZE[n][m]拟合成X个设定核尺寸KERNEL SIZE[A][B]，这样后续执行卷积运算时，始终以KERNEL SIZE[A][B]为基本单元进行卷积的运算，从而使硬件只用匹配KERNELSIZE[A][B]的卷积运算即可，进而提高了卷积运算速度以及用户体验度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种电子装置的结构示意图。

图2是一种神经网络的卷积实现方法的流程示意图。

图3a是本申请提供的一种数据块的切割示意图。

图3b是本申请提供的一种数据块的切割示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请中的电子装置可以包括：服务器、智能摄像设备、智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备(MID，Mobile Internet Devices)或穿戴式设备等，上述电子装置仅是举例，而非穷举，包含但不限于上述电子装置，为了描述的方便，下面实施例中将上述电子装置称为用户设备(User equipment，UE)、终端或电子设备。当然在实际应用中，上述用户设备也不限于上述变现形式，例如还可以包括：智能车载终端、计算机设备等等。

对于上述电子装置，其结构如图1所示，具体的，其可以包括：处理器101、存储器102、神经网络芯片103，其中处理器101与存储器102以及神经网络芯片103之间连接，具体的在一种可选的技术方案中，上述神经网络芯片103可以集成在处理器101内。存储器102可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)等。本发明的技术方案并不局限上述神经网络芯片103是单独设置还是集成在处理器101内。

在一个实施例中，神经网络芯片103，用于获取输入数据以及权值数据。

神经网络芯片103，还用于将所述权值数据切割成核尺寸为[n][m]的多个数据块，并将每个数据块拟合成核尺寸为[A][B]的X个卷积核；以及将每个卷积核与所述输入数据执行卷积运算得到中间结果，将所有的中间结果进行处理得到卷积结果。

可选的，神经网络芯片103，具体用于如果每个数据块不能切割成整数个核尺寸为[A][B]的卷积核，则对每个数据块的边缘补零，补零之后的数据块的核尺寸为[n+b][m+c]，然后将核尺寸为[n+b][m+c]的数据块切割成核尺寸为[A][B]的X个卷积核，其中b、c均为大于或等于0的整数。

可选的，神经网络芯片103，具体用于如果每个数据块不能切割成整数个核尺寸为[A][B]的卷积核，则将每个数据块切割成核尺寸等于[A][B]的E个卷积核以及核尺寸小于[A][B]的F个卷积核，对F个卷积核的边缘补零，补零之后的F个卷积核的核尺寸为[A][B]，其中，E+F＝X，E和F均为大于或等于零的整数。

参阅图2，图2提供一种神经网络的卷积实现方法，该方法由电子装置实现，该电子装置的具体结构可以为如图1所示的电子装置，该方法如图2所示，包括如下步骤：

步骤S201、神经网络芯片103获取输入数据[CI][H][W]以及权值数据[CP][CO][n][m]；

其中，CI为输入数据的深度值，H为输入数据的高度值，W为输入数据的宽度值，CP为权值数据的数量值，CO为权值数据的深度值，[n][m]为权值数据的卷积核尺寸KERNELSIZE，CI＝CP，CI、H、W、CP、CO、n及m均为大于或等于1的整数。

步骤S202、神经网络芯片103将所述权值数据切割成核尺寸为[n][m]的多个数据块，并将每个数据块拟合成核尺寸为[A][B]的X个卷积核；

步骤S203、将每个卷积核与所述输入数据执行卷积运算得到中间结果，将所有的中间结果进行处理得到卷积结果。

上述A小于或等于n，B小于或等于m，A、B、m、n及X均为大于或等于1的整数。

本申请的技术方案的优点在于，无论数据块的KERNEL SIZE的尺寸n、m为多少，神经网络芯片103均将该KERNEL SIZE[n][m]拟合成X个设定核尺寸KERNEL SIZE[A][B]，这样后续执行卷积运算时，始终以KERNEL SIZE[A][B]为基本单元进行卷积的运算。这样设定尺寸的KERNEL SIZE[A][B]能够与对应的硬件计算更好的匹配，从而实现了在计算总量不变的情况下，将一个大尺寸的卷积核拆分成几个设定尺寸的卷积核，以使硬件只需匹配设定尺寸的卷积核，进而提高了卷积运算速度以及用户体验度。

可选的，所述将每个数据块拟合成核尺寸为[A][B]的X个卷积核具体可以包括：

这里以一个实际的例子来说明，假设数据块的KERNEL SIZE[n][m]为KERNEL SIZE[5][5]，卷积核的KERNEL SIZE[A][B]为KERNEL SIZE[3][3]，那么在数据块的KERNEL SIZE[5][5]的行和列分别增加元素值零得到KERNEL SIZE[5+1][5+1]，然后将KERNEL SIZE[5+1][5+1]切割成4个KERNEL SIZE[3][3]，其切割示意图如图3a所示，每个虚线框表示1个KERNEL SIZE[3][3]，这样，一个核尺寸为5*5的数据块即被拟合成4个核尺寸为3*3的卷积核。同理，任何核尺寸的数据块都可以被拟合成X个核尺寸为[A][B]的卷积核，从而使适应核尺寸为[A][B]的卷积核的硬件结构能够兼容所有核尺寸的卷积核，进而提高了硬件结构的计算速度与效率。

这里以一个实际的例子来说明，假设数据块的KERNEL SIZE[n][m]为KERNEL SIZE[5][5]，卷积核的KERNEL SIZE[A][B]为KERNEL SIZE[3][3]，那么在数据块KERNEL SIZE[5][5]切割成4个KERNEL SIZE，分别为，KERNEL SIZE[3][3]，KERNEL SIZE[3][2]、KERNELSIZE[2][3]和KERNEL SIZE[2][2]，然后将KERNEL SIZE[3][2]、KERNEL SIZE[2][3]和KERNEL SIZE[2][2]执行补零操作得到4个KERNEL SIZE[3][3]，其切割示意图如图3b所示，每个虚线框表示1个KERNEL SIZE，这样，一个核尺寸为5*5的数据块即被拟合成4个核尺寸为3*3的卷积核，同理，任何核尺寸的数据块都可以被拟合成X个核尺寸为[A][B]的卷积核，从而使适应核尺寸为[A][B]的卷积核的硬件结构能够兼容所有核尺寸的卷积核，进而提高了硬件结构的计算速度与效率。

以上的KERNEL SIZE的尺寸仅仅为了举例，在实际应用中，并不仅限KERNEL SIZE[3][3]或KERNEL SIZE[5][5]，还可以为其他的尺寸，例如KERNEL SIZE[5][7]、KERNELSIZE[6][6]、KERNEL SIZE[9][9]等等，当然上述KERNEL[A][B]中的A、B两个值也可以不同，本申请并不局限上述A、B的值一定相同。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种神经网络的卷积实现方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种神经网络的卷积实现方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的

另外，在本申请各个实施例中的处理器、芯片可以集成在一个处理单元中，也可以是单独物理存在，也可以两个或两个以上硬件集成在一个单元中。计算机可读存储介质或计算机可读程序可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种神经网络的卷积实现方法，其特征在于，所述方法包括如下步骤：

获取输入数据以及权值数据；

其中，A小于或等于n，B小于或等于m，A、B、m、n及X均为大于或等于1的整数；

所述将每个数据块拟合成核尺寸为[A][B]的X个卷积核包括：

如果每个数据块不能切割成整数个核尺寸为[A][B]的卷积核，则对每个数据块的边缘补零，补零之后的数据块的核尺寸为[n+b][m+c]，然后将核尺寸为[n+b][m+c]的数据块切割成核尺寸为[A][B]的X个卷积核，其中b、c均为大于或等于0的整数；或者，

2.根据权利要求1所述的方法，其特征在于，

所述核尺寸[A][B]具体包括：核尺寸[2][2]、核尺寸[3][3]或核尺寸[5][5]。

3.一种神经网络芯片，其特征在于，

所述神经网络芯片，用于获取输入数据以及权值数据；

所述神经网络芯片，用于将所述权值数据切割成核尺寸为[n][m]的多个数据块，并将每个数据块拟合成核尺寸为[A][B]的X个卷积核；以及将每个卷积核与所述输入数据执行卷积运算得到中间结果，将所有的中间结果进行处理得到卷积结果；

所述神经网络芯片，还用于在每个数据块不能切割成整数个核尺寸为[A][B]的卷积核时，对每个数据块的边缘补零，补零之后的数据块的核尺寸为[n+b][m+c]，然后将核尺寸为[n+b][m+c]的数据块切割成核尺寸为[A][B]的X个卷积核，其中b、c均为大于或等于0的整数；

所述神经网络芯片，还用于在每个数据块不能切割成整数个核尺寸为[A][B]的卷积核时，将每个数据块切割成核尺寸等于[A][B]的E个卷积核以及核尺寸小于[A][B]的F个卷积核，对F个卷积核的边缘补零，补零之后的F个卷积核的核尺寸为[A][B]，其中，E+F＝X，E和F均为大于或等于零的整数。

4.根据权利要求3所述的神经网络芯片，其特征在于，

5.一种电子装置，其特征在于，所述电子装置包括如权利要求3或4中任意一项所述的神经网络芯片。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1或2中任意一项所述的方法。