CN111008982A

CN111008982A - 基于光子神经网络芯片的数据处理方法及相关装置或设备

Info

Publication number: CN111008982A
Application number: CN202010159743.9A
Authority: CN
Inventors: 白冰; 赵斌; 吴建兵; 李智
Original assignee: Photon Arithmetic Beijing Technology Co ltd
Current assignee: Photon Arithmetic Beijing Technology Co ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-04-14

Abstract

本发明提供了一种基于光子神经网络芯片的数据处理方法及相关装置或设备，将待处理图像分割成尺寸不同的多个子图像，然后逐一对每个子图像执行多层卷积处理，并基于每层的卷积核以及中间结果确定与子图像对应的缓冲器尺寸。并从多个缓冲器尺寸中，确定出目标缓冲器尺寸。在本方案中，设定缓冲器尺寸大于等于每层的卷积核以及中间结果所需的缓冲器占用尺寸之和，即保证一个子图像在进行多层卷积时的卷积核与中间数据均能一次性存储在缓冲器中，避免了重复读取数据。且由于子图像的尺寸小于切割前图像的尺寸，而输入多层卷积的图像的尺寸越小，其卷积计算的效率越高。即本方案采用较小的缓冲器尺寸实现降低内存读取带宽的同时提高计算效率。

Description

基于光子神经网络芯片的数据处理方法及相关装置或设备

技术领域

本发明涉及数据计算技术领域，具体涉及一种基于光子神经网络芯片的数据处理方法、装置、存储介质及电子设备。

背景技术

卷积神经网络凭借其局部权值共享的架构特性，在语音识别和图像处理等领域得到了快速的发展。在对图像进行卷积计算时，每一层做完卷积运算后，需要将计算的中间结果以及卷积核存储在缓冲器上。

目前，缓冲器的存储空间有限，不能一次性将全部的卷积核以及中间结果存储，需要重复读取图像，导致缓冲器的空间利用率较低。因此，如何提供一种基于光子神经网络芯片的数据处理方法，能够提高缓冲器的空间利用率，是本领域技术人员亟待解决的一大技术难题。

发明内容

有鉴于此，本发明实施例提供了一种基于光子神经网络芯片的数据处理方法，能够提高缓冲器的空间利用率。

为实现上述目的，本发明实施例提供如下技术方案：

一种基于光子神经网络芯片的数据处理方法，包括：

将待处理图像分割成多个子图像，至少两个所述子图像的尺寸不同；

对每个所述子图像执行多层卷积处理，基于每层的卷积核以及中间结果确定与所述子图像对应的缓冲器尺寸，所述缓冲器尺寸大于等于所述每层的卷积核以及中间结果所需的缓冲器占用尺寸之和；

基于多个所述缓冲器尺寸，确定出目标缓冲器尺寸。

可选的，所述基于每层的卷积核以及中间结果确定与所述子图像对应的缓冲器尺寸，包括：

确定所述每层的卷积核以及所述中间结果所需的缓冲器占用尺寸之和为与所述子图像对应的缓冲器尺寸。

可选的，所述基于多个所述缓冲器尺寸，确定出目标缓冲器尺寸，包括：

确定多个所述缓冲器尺寸的最小值为所述目标缓冲器尺寸。

可选的，还包括：

确定与所述目标缓冲器尺寸对应的子图像的尺寸为目标图像尺寸；

将待处理图像分割成多个与所述目标图像尺寸相同的第一子图像以及至少一个第二子图像，所述第二子图像的尺寸小于所述第一子图像的尺寸；

对所述第一子图像以及所述第二子图像执行多层卷积处理。

一种基于光子神经网络芯片的数据处理装置，包括：

第一分割模块，用于将待处理图像分割成多个子图像，至少两个所述子图像的尺寸不同；

第一确定模块，用于对每个所述子图像执行多层卷积处理，基于每层的卷积核以及中间结果确定与所述子图像对应的缓冲器尺寸，所述缓冲器尺寸大于等于所述每层的卷积核以及中间结果所需的缓冲器占用尺寸之和；

第二确定模块，用于基于多个所述缓冲器尺寸，确定出目标缓冲器尺寸。

可选的，所述第一确定模块包括：

第一确定单元，用于确定所述每层的卷积核以及所述中间结果所需的缓冲器占用尺寸之和为与所述子图像对应的缓冲器尺寸。

可选的，所述第二确定模块包括：

第二确定单元，用于确定多个所述缓冲器尺寸的最小值为所述目标缓冲器尺寸。

可选的，还包括：

第三确定模块，用于确定与所述目标缓冲器尺寸对应的子图像的尺寸为目标图像尺寸；

第二分割模块，用于将待处理图像分割成多个所述目标图像尺寸的第一子图像以及至少一个第二子图像，所述第二子图像的尺寸小于所述第一子图像的尺寸；

处理模块，用于对所述第一子图像以及所述第二子图像执行多层卷积处理。

一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行任意一项上述的基于光子神经网络芯片的数据处理方法。

一种电子设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行任意一项上述的基于光子神经网络芯片的数据处理方法。

基于上述技术方案，本发明提供了一种基于光子神经网络芯片的数据处理方法、装置、存储介质及电子设备，该数据处理方法首先将待处理图像分割成尺寸不同的多个子图像。然后逐一对每个所述子图像执行多层卷积处理，并基于每层的卷积核以及中间结果确定与所述子图像对应的缓冲器尺寸，然后，从多个所述缓冲器尺寸中，确定出目标缓冲器尺寸。可见，在本方案中，设定缓冲器尺寸大于等于每层的卷积核以及中间结果所需的缓冲器占用尺寸之和，即保证一个子图像在进行多层卷积时的卷积核与中间数据均能一次性存储在缓冲器中，避免了重复读取数据。且由于子图像是经过图像切割后的图像，因此子图像的尺寸要小于切割前图像的尺寸，而输入多层卷积的图像的尺寸越小，其卷积计算的效率越高。进一步的，本方案可以确定最小的缓冲器尺寸为目标缓冲器尺寸，或者确定小于预设尺寸的缓冲器尺寸为目标缓冲器尺寸，即能够采用较小的缓冲器尺寸实现降低内存读取带宽的同时提高计算效率的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于光子神经网络芯片的数据处理方法的流程示意图；

图2为本发明实施例提供的一种待处理图像以及卷积核的结构示意图；

图3为本发明实施例提供的一种卷积处理的示意图；

图4为本发明实施例提供的一种卷积处理的又一示意图；

图5为本发明实施例提供的一种卷积处理的又一示意图；

图6为本发明实施例提供的一种卷积处理的又一示意图；

图7为本发明实施例提供的一种基于光子神经网络芯片的数据处理方法的多层卷积处理的示意图；

图8为本发明实施例提供的一种基于光子神经网络芯片的数据处理方法的又一流程示意图；

图9为本发明实施例提供的一种基于光子神经网络芯片的数据处理方法的结构示意图；

图10为本发明实施例提供的一种电子设备的硬件示意图。

具体实施方式

请参阅图1，图1为本发明实施例提供的一种基于光子神经网络芯片的数据处理方法的流程示意图，该基于光子神经网络芯片的数据处理方法用于采用较小的缓冲器尺寸实现降低内存读取带宽的同时提高计算效率，具体包括步骤：

S11、将待处理图像分割成多个子图像，至少两个所述子图像的尺寸不同。

S12、对每个所述子图像执行多层卷积处理，基于每层的卷积核以及中间结果确定与所述子图像对应的缓冲器尺寸，所述缓冲器尺寸大于等于所述每层的卷积核以及中间结果所需的缓冲器占用尺寸之和。

S13、基于多个所述缓冲器尺寸，确定出目标缓冲器尺寸。

在数字图像处理中，待处理的平面数字图像是通过一个像素矩阵进行呈现，图像中每个像素对应着矩阵中的每个元素。例如，假设一个图像的分辨率为1024*768，那么这个矩阵的行数为1024，列数为768。

具体的，在对图像进行处理时，卷积处理是采用一个滤波器小矩阵（卷积核）对表征平面数字图像的像素矩阵中的每个元素进行矩阵计算，计算其周围像素和滤波器矩阵中对应位置的元素的乘积，然后将各乘积进行加和，作为该像素滤波后的新值。其中，卷积核通常为一个方阵，即该矩阵的行数与列数相同。

示意性，结合图2，假设待处理图像为一个5*5的像素矩阵，卷积核为一个3*3的方阵，步长为1，那么进行滤波的过程如下：

首先，如图3所示，将待处理图像中左上角的九个像素与卷积核进行计算，得到各乘积的加和（1*1+2*0+3*1+6*0+7*1+8*0+9*1+8*0+7*1）=27，作为卷积后结果（卷积特征）的第一个新值。其次，如图4所示，沿待处理图像的行方向，移动一步，进行第二个新值的计算，为2*1+3*0+4*1+7*0+8*1+9*0+8*1+7*0+6*1=28。之后，如图5所示，沿待处理图像的行方向，继续向右移动一步，进行第三个新值的计算，为3*1+4*0+5*1+8*0+9*1+0*0+7*1+6*0+5*1=29。以此类推，如图6所示，进行九次卷积计算，得到3*3的卷积特征。

发明人发现，对于多层的卷积处理，是将每一层做完卷积处理后的中间结果以及卷积核均存储在缓冲器中，而由于缓冲器的空间有限，因此不能一次性将神经网络中的全部卷积核以及中间结果进行存储，进而需要重复读取图像，导致计算效率较低，且读取带宽较大。

因此，如图7所示，本方案首先将图像拆分成多个尺寸大小不相同的子图像，然后对每个子图像进行多层卷积处理，并将每层的中间数据以及卷积核存储至缓冲器中，然后确定缓冲器的最小尺寸为每层的卷积核以及中间结果所需的缓冲器占用尺寸之和。可见，本方案能够保证一个子图像在进行多层卷积时的卷积核与中间数据均能一次性存储在缓冲器中，避免了重复读取数据。

且由于子图像是经过图像切割后的图像，因此子图像的尺寸要小于切割前图像的尺寸，因此缓冲器的读取带宽也小于切割前图像的读取带宽，除此，输入多层卷积的图像的尺寸越小，其卷积计算的效率越高。

值得一提的是，在本方案中，可以如上文所述，确定最小的缓冲器尺寸为目标缓冲器尺寸，还可以确定小于预设尺寸的缓冲器尺寸为目标缓冲器尺寸，即能够保证一个子图像在进行多层卷积时的卷积核与中间数据均能一次性存储在缓冲器中即可。

可见，本方案能够采用较小的缓冲器尺寸实现降低内存读取带宽的同时提高计算效率。

示意性的，

以步长（stride）为1的3x3卷积运算，假设输入图像的大小为64x64。此时总共需要进行62x62次卷积运算，每次卷积需要做3x3=9次乘加运算，所以总共的计算次数为34596，而数据量为（假设数据和卷积核都用单精度浮点数2byte）：64x64x2（输入数据）+ 3x3x2（卷积核数据）= 8210 byte，所以运算强度为34596/8210=4.21。

若是输入图像数据大小变为99x99，总共的计算次数为88209，数据量为19620，运算强度为4.5。

可见，当输入图像更大时，所要存储的数据量更大。在实际应用中，图像数据可能更大，即运算强度差距越大。因此，本方案中对图像切块处理可以大幅度减少内存读取带宽，提高计算效率。

具体的，假设待处理图像被切割成尺寸不同的子图像A、子图像B以及子图像C，之后首先对子图像A进行多层卷积处理，不断加载卷积核，直到第一层所有的卷积核与子图像A完成卷积计算，计算结果作为中间结果保存在缓冲器中。然后进行第二层卷积计算，不断加载卷积核，直到第二层所有卷积核与第一层的中间结果完成卷积计算，计算结果作为中间结果存储在缓冲器上，直到所有层均完成卷积处理，此时缓冲器的大小即为该子图像A对应的缓冲器尺寸a。

然后，对对子图像B进行多层卷积处理，不断加载卷积核，直到第一层所有的卷积核与子图像B完成卷积计算，计算结果作为中间结果保存在缓冲器中。然后进行第二层卷积计算，不断加载卷积核，直到第二层所有卷积核与第一层的中间结果完成卷积计算，计算结果作为中间结果存储在缓冲器上，直到所有层均完成卷积处理，此时缓冲器的大小即为该子图像B对应的缓冲器尺寸b。

最后，对子图像C进行多层卷积处理，不断加载卷积核，直到第一层所有的卷积核与子图像C完成卷积计算，计算结果作为中间结果保存在缓冲器中。然后进行第二层卷积计算，不断加载卷积核，直到第二层所有卷积核与第一层的中间结果完成卷积计算，计算结果作为中间结果存储在缓冲器上，直到所有层均完成卷积处理，此时缓冲器的大小即为该子图像C对应的缓冲器尺寸c。

在得到了子图像该子图像A对应的缓冲器尺寸a、子图像B对应的缓冲器尺寸b以及子图像C对应的缓冲器尺寸c后，本实施例进一步基于这三个缓冲器尺寸，可以确定这三个缓冲器尺寸中的最小值为目标缓冲器尺寸。

例如，假设缓冲器尺寸a＞缓冲器尺寸b＞缓冲器尺寸c，那么则可以确定缓冲器尺寸c为目标缓冲器尺寸。

对比可知，目前在对图像进行卷积处理时，需要缓冲器读取待处理图像，如果缓冲器尺寸较小，则不能一次性读取该待处理图像，如果一次性读取该待处理图像，则需要要求缓冲器的尺寸大于等于待处理图像的缓冲器占用尺寸。

而本方案通过对待处理图像进行切割，使得切割后的子图像的尺寸小于待处理图像，因此读取该子图像的缓冲器的尺寸只需保证大于等于该子图像的缓冲器占用尺寸即可，远小于未切割前图像对应的缓冲器占用尺寸。

在上述实施例的基础上，本实施例提供的基于光子神经网络芯片的数据处理方法，如图8所示，还可以包括：

S81、确定与所述目标缓冲器尺寸对应的子图像的尺寸为目标图像尺寸；

S82、将待处理图像分割成多个与所述目标图像尺寸相同的第一子图像以及至少一个第二子图像，所述第二子图像的尺寸小于所述第一子图像的尺寸；

S83、对所述第一子图像以及所述第二子图像执行多层卷积处理。

示意性的，结合上述实施例，上述实施例已经确定了目标缓冲器尺寸为缓冲器尺寸c，而缓冲器尺寸c是子图像C对应的缓冲器尺寸，因此，本实施例首先将子图像C的尺寸确定成目标图像尺寸。

结合上述实施例可知，当待处理图像被切割成子图像C时，其缓冲器的尺寸最小，因此，本实施例，优选将待处理图像切割成多个与子图像C的尺寸相同的第一子图像，其余的被切割后的子图像为第二子图像，在本实施例中，需要使第二子图像的尺寸小于第一子图像，以保证目标缓冲器尺寸足以存储第二子图像在多层卷积处理时涉及的中间结果和卷积核。

可见，本方案能够使用一个较小的缓冲器尺寸，对待处理图像进行多层卷积处理。

在上述实施例的基础上，如图9所示，本发明实施例还提供了一种基于光子神经网络芯片的数据处理装置，包括：

第一分割模块91，用于将待处理图像分割成多个子图像，至少两个所述子图像的尺寸不同；

第一确定模块92，用于对每个所述子图像执行多层卷积处理，基于每层的卷积核以及中间结果确定与所述子图像对应的缓冲器尺寸，所述缓冲器尺寸大于等于所述每层的卷积核以及中间结果所需的缓冲器占用尺寸之和；

第二确定模块93，用于基于多个所述缓冲器尺寸，确定出目标缓冲器尺寸。

其中，所述第一确定模块可以包括：

第一确定单元，用于确定所述每层的卷积核以及所述中间结果所需的缓冲器占用尺寸之和与所述子图像对应的缓冲器尺寸。

其中，所述第二确定模块可以包括：

除此，本发明实施例提供的基于光子神经网络芯片的数据处理装置，还可以包括：

该装置的工作原理请参见上述方法实施例，在此不重复叙述。

基于光子神经网络芯片的数据处理装置包括处理器和存储器，上述第一分割模块、第一确定模块以及第二确定模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来采用较小的缓冲器尺寸实现降低内存读取带宽的同时提高计算效率。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述基于光子神经网络芯片的数据处理方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述基于光子神经网络芯片的数据处理方法。

本发明实施例提供了一种设备，如图10所示，设备包括至少一个处理器101、以及与处理器连接的至少一个存储器102、总线103；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的基于光子神经网络芯片的数据处理方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

基于多个所述缓冲器尺寸，确定出目标缓冲器尺寸。

确定多个所述缓冲器尺寸的最小值为所述目标缓冲器尺寸。

可选的，还包括：

对所述第一子图像以及所述第二子图像执行多层卷积处理。

综上，本发明提供了一种基于光子神经网络芯片的数据处理方法、装置、存储介质及电子设备，该数据处理方法首先将待处理图像分割成尺寸不同的多个子图像。然后逐一对每个所述子图像执行多层卷积处理，并基于每层的卷积核以及中间结果确定与所述子图像对应的缓冲器尺寸，然后，从多个所述缓冲器尺寸中，确定出目标缓冲器尺寸。可见，在本方案中，设定缓冲器尺寸大于等于每层的卷积核以及中间结果所需的缓冲器占用尺寸之和，即保证一个子图像在进行多层卷积时的卷积核与中间数据均能一次性存储在缓冲器中，避免了重复读取数据。且由于子图像是经过图像切割后的图像，因此子图像的尺寸要小于切割前图像的尺寸，而输入多层卷积的图像的尺寸越小，其卷积计算的效率越高。进一步的，本方案可以确定最小的缓冲器尺寸为目标缓冲器尺寸，或者确定小于预设尺寸的缓冲器尺寸为目标缓冲器尺寸，即能够采用较小的缓冲器尺寸实现降低内存读取带宽的同时提高计算效率的目的。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于光子神经网络芯片的数据处理方法，其特征在于，包括：

基于多个所述缓冲器尺寸，确定出目标缓冲器尺寸。

2.根据权利要求1所述的基于光子神经网络芯片的数据处理方法，其特征在于，所述基于每层的卷积核以及中间结果确定与所述子图像对应的缓冲器尺寸，包括：

3.根据权利要求1所述的基于光子神经网络芯片的数据处理方法，其特征在于，所述基于多个所述缓冲器尺寸，确定出目标缓冲器尺寸，包括：

确定多个所述缓冲器尺寸的最小值为所述目标缓冲器尺寸。

4.根据权利要求3所述的基于光子神经网络芯片的数据处理方法，其特征在于，还包括：

对所述第一子图像以及所述第二子图像执行多层卷积处理。

5.一种基于光子神经网络芯片的数据处理装置，其特征在于，包括：

6.根据权利要求5所述的基于光子神经网络芯片的数据处理装置，其特征在于，所述第一确定模块包括：

7.根据权利要求5所述的基于光子神经网络芯片的数据处理装置，其特征在于，所述第二确定模块包括：

8.根据权利要求7所述的基于光子神经网络芯片的数据处理装置，其特征在于，还包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的基于光子神经网络芯片的数据处理方法。

10.一种电子设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1至4中任意一项所述的基于光子神经网络芯片的数据处理方法。