WO2022021073A1

WO2022021073A1 - 神经网络模型的多算子运算方法以及装置

Info

Publication number: WO2022021073A1
Application number: PCT/CN2020/105217
Authority: WO
Inventors: 刘敏丽; 张楠赓
Original assignee: 嘉楠明芯(北京)科技有限公司
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2022-02-03
Also published as: CN116134446A

Abstract

本申请公开了一种神经网络模型的多算子运算方法以及装置。具体实现方案为：获取配置指令，根据配置指令确定多个算子对应的多个运算器件，以及多个运算器件的执行顺序，多个算子是根据运算公式分解得到的，多个运算器件是从运算器件集合中选择的；读取原始图像对应的张量中包含的像素点，得到原始图像数据；按照执行顺序，控制多个运算器件以串行执行的方式对原始图像数据进行处理，输出最终图像数据。能够支持各种神经网络中各种类型的复杂运算，并且运算具有可编程性。同时，运算器件具有可配置性，可重复利用性，有效降低了芯片面积，节省芯片成本。

Description

神经网络模型的多算子运算方法以及装置

技术领域

本申请涉及人工智能领域，尤其涉及多算子运算领域。

背景技术

卷积神经网络中除了卷积运算外还包括激活、池化、批归一化等运算，这些运算在整个卷积神经网络中所占的比重虽然小，但是却至关重要。目前，有两种实现激活、池化、批归一化等运算的方式：第一种方式针对激活、池化、批归一化等运算中的每种运算分别设计了运算模块的硬件，根据实际场景，对多个单独的运算模块的硬件进行多样组合，来完成运算任务。然而，每种运算对应单独一个运算模块的硬件来实现，不仅导致芯片面积增加，生产成本提高，而且，只能实现一种运算模块的硬件仅能实现常规的简单计算，复杂的运算无法实现。第二种方式是利用CPU(中央处理器，central processing unit)、DSP(数字信号处理器，Digital Signal Processing)或GPU(图形处理器，Graphics Processing Unit)等通用的硬件加速器实现激活、池化、批归一化等运算。然而，CPU、DSP或GPU并不是为了神经网络中的激活、池化、批归一化等运算专门设计的，导致运算速率较低。

发明内容

本申请实施例提供一种神经网络模型的多算子运算方法以及装置，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种神经网络模型的多算子运算方法，包括：

获取配置指令，根据所述配置指令确定多个算子对应的多个运算器件，以及所述多个运算器件的执行顺序，所述多个算子是根据运算公式分解得到的，多个运算器件是从运算器件集合中选择的；

读取原始图像对应的张量中包含的像素点，得到原始图像数据；

按照所述执行顺序，控制所述多个运算器件以串行执行的方式对所述原始图像数据进行处理，输出最终图像数据。

在一种实施方式中，所述配置指令包括预设数据长度，所述读取原始图像对应的张量中包含的像素点，得到原始图像数据，包括：

向外部存储器和/或内部本地缓存器发送读请求；

在所述读请求通过的情况下，读取所述原始图像对应的张量中包含的像素点，得到所述原始图像数据；

在所述原始图像数据的长度等于所述预设数据长度的情况下，停止读取所述像素点。

在一种实施方式中，所述配置指令包括预设向量长度，所述读取所述原始图像的张量中包含的像素点，得到所述原始图像数据，包括：

根据所述预设向量长度将所述张量切分成多个向量，所述向量包括多个像素点；

所述向量中，按照排列顺序读取所述像素点，且读取至每个所述像素点时，每个所述像素点被重复读取M1次；

每个所述向量被重复读取M2次，得到所述原始图像数据，其中，M1、M2均大于或等于1。

在一种实施方式中，所述按照所述执行顺序，控制所述多个运算器件以串行执行的方式对所述原始图像数据进行处理，输出最终图像数据，包括：

在一个时钟周期内，控制所述多个运算器件以串行执行的方式对多个像素点对应的原始图像数据进行并行处理，输出所述最终图像数据。

在一种实施方式中，所述配置指令包括每个运算器件的输出端与剩余运算器件的输入端之间的映射关系表，所述按照所述执行顺序，控制所述多个运算器件以串行执行的方式对所述原始图像数据进行处理，输出最终图像数据，包括：

根据所述映射关系表确定所述执行顺序；

根据所述执行顺序，控制所述原始图像数据输入至第一个运算器件进行运算，得到第一中间数据，将所述第一中间数据输入至第二个运算器件进行运算，得到第二中间数据，直至将第N-1中间数据输入至第N个运算器件进行运算，输出最终图像数据，N为大于或等于1的正整数。

在一种实施方式中，所述配置指令包括常量，所述常量是根据所述运算公式分解得到的。

在一种实施方式中，还包括：

对所述最终图像数据进行降采样。

在一种实施方式中，所述原始图像数据、所述第一中间数据至所述第N-1中间数据，以及所述最终图像数据均为16位浮点数的数据格式。

第二方面，本申请实施例提供了一种神经网络模型的多算子运算装置，包括：

配置指令获取模块，用于获取配置指令，根据所述配置指令确定多个算子对应的多个运算器件，以及所述多个运算器件的执行顺序，所述多个算子是根据运算公式分解得到的，多个运算器件是从运算器件集合中选择的；

数据读取模块，用于读取原始图像对应的张量中包含的像素点，得到原始图像数据；

多算子运算模块，用于按照所述执行顺序，控制所述多个运算器件以串行执行的方式对所述原始图像数据进行处理，输出最终图像数据。

在一种实施方式中，所述配置指令包括预设数据长度，所述数据读取模块包括：

读请求发送子模块，用于向外部存储器和/或内部本地缓存器发送读请求；

数据读取子模块，用于在所述读请求通过的情况下，读取所述原始图像对应的张量中包含的像素点，得到所述原始图像数据；

数据读取停止子模块，用于在所述原始图像数据的长度等于所述预设数据长度的情况下，停止读取所述像素点。

在一种实施方式中，所述配置指令包括预设向量长度，所述数据读取子模块，包括：

向量划分单元，用于根据所述预设向量长度将所述张量切分成多个向量，所述向量包括多个像素点；

第一读取单元，用于所述向量中，按照排列顺序读取所述像素点，且读取至每个所述像素点时，每个所述像素点被重复读取M1次；

第二读取单元，用于每个所述向量被重复读取M2次，得到所述原始图像数据，其中，M1、M2均大于或等于1。

在一种实施方式中，所述多算子运算模块用于在一个时钟周期内，控制所述多个运算器件以串行执行的方式对多个像素点对应的原始图像数据进行并行处理，输出所述最终图像数据。

在一种实施方式中，所述配置指令包括每个运算器件的输出端与剩余运算器件的输入端之间的映射关系表，所述多算子运算模块包括：

执行顺序确定子模块，用于根据所述映射关系表确定所述执行顺序；

多算子运算子模块，用于根据所述执行顺序，控制所述原始图像数据输入至第一个运算器件进行运算，得到第一中间数据，将所述第一中间数据输入至第二个运算器件进行运算，得到第二中间数据，直至将第N-1中间数据输入至第N个运算器件进行运算，输出最终图像数据，N为大于或等于1的正整数。

在一种实施方式中，还包括：

降采样模块，用于对所述最终图像数据进行降采样。

第三方面，提供了一种电子设备，包括：

至少一个处理器；以及与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一项的方法。

第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，计算机指令用于使计算机执行上述任一项的方法。

上述申请中的一个实施例具有如下优点或有益效果：由于任意复杂的运算公式都可以分解成多个算子，给多个算子配置对应的多个运算器件，利用多个运算器件以串行执行的方式来对原始图像数据进行处理，输出最终图像数据，所以能够支持各种神经网络中各种类型的复杂运算，并且运算具有可编程性，提高了运算效率。同时，又由于多个算子对应的运算器件是从运算集合中选择的，使得在进行各种复杂运算时，多个运算器件具有可配置性，可重复利用性，每种复杂运算都不需要设计对应的硬件，有效节省了芯片面积，降低芯片成本。由于本实施方式中并未直接利用CPU、DSP或者GPU等通用硬件加速器来执行神经网络模型的各种运算，而是利用本申请提供的神经网络模型的多算子运算装置，避免了与CPU、DSP或者GPU等通用硬件加速器的通信，提高了运算时效性。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的一种神经网络模型的多算子运算方法的示意图；

图2是根据本申请一实施例的一种神经网络模型的多算子运算装置的场景图；

图3是根据本申请另一实施例的一种神经网络模型的多算子运算方法的示意图；

图4是根据本申请一实施例的内部本地缓存器结构图；

图5是根据本申请另一实施例的一种原始图像对应的张量中包含的像素点的读取方法的示意图；

图6是根据本申请一实施例的一种多算子运算方法的场景图；

图7是根据本申请另一实施例的一种神经网络模型的多算子运算装置的场景图；

图8是根据本申请一实施例的一种神经网络模型的多算子运算装置的示意图；

图9是根据本申请另一实施例的一种神经网络模型的多算子运算装置的示意图；

图10是用来实现本申请实施例的一种神经网络模型的多算子运算方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，在一种具体实施方式中，提供了一种神经网络模型的多算子运算方法，包括如下步骤：

步骤S110：获取配置指令，根据配置指令确定多个算子对应的多个运算器件，以及多个运算器件的执行顺序，多个算子是根据运算公式分解得到的，多个运算器件是从运算器件集合中选择的；

步骤S120：读取原始图像对应的张量中包含的像素点，得到原始图像数据；

步骤S130：按照执行顺序，控制多个运算器件以串行执行的方式对原始图像数据进行处理，输出最终图像数据。

一种示例中，如图2所示，神经网络模型的多算子运算装置可以包括依次连接的数据读取模块、多算子运算模块以及数据写出模块。多算子运算模块可以基于网状网格(Meshnet)网络进行设置。

卷积加速器内部包括多算子运算装置和GLB(内部本地缓存器，Global local buffer)，多算子运算装置与GLB连接。卷积加速器外部设置DDR(双倍速率同步动态随机存储器，Double Data Rate synchronous dynamic random-access memory)，多算子运算装置还可以与DDR连接。多算子运算装置中的数据读取模块可以从GLB和/或DDR中读取数据。

GLB和/或DDR中设置有多个存储区域，各个存储区域中可以存储不同的原始图像对应的张量(Tensor)。张量包括原始图像的四个维度：N(帧数，batch)、C(通道数，channels)、H(高度，height)、W(宽度，width)，通常用NCHW来表示四维图像。其中，N表示这批图像的帧数，H表示图像在竖直方向的像素数，W表示在水平方向的像素数，C表示通道数(例如，黑白图像的通道C＝1，而RGB彩色图像的通道数C＝3)。数据读取模块可以从GLB和/或DDR中读取原始图像对应的张量中的每个像素点，原始图像数据可以包括一个像素点的值或者多个像素点的值。

上层软件提供的配置模块用于将任意一个复杂的运算公式拆分成Meshnet网络可以支持的多个基本算子。基本算子可以包括加法算子、乘法算子、开方算子、平方算子、正余弦算子、底求对数算子等基础运算的算子。同时，在硬件层面，需要有对应的运算器件执行各个算子的运算。所以，本实施方式中，设置运算器件集合，运算器件集合用于实现神经网络中激活、池化、批归一化等运算中常用算子的运算。运算器件集合可以包括加法器、乘法器、一对二复制运算器、十六分段线性拟合、二选一运算器、比较器、除法器、二元逻辑运算器、一元逻辑运算器、舍入运算器、开方运算器、平方运算器、正余弦运算器、以e为底求幂运算器、以e为底求对数运算器等。运算器件集合可以根据实际需求进行适应性调整，均在本实施方式的保护范围内。每个运算器件的输入端可以作为多算子运算模块的输入端，用于接收原始图像数据。运算器件集合中的每个运算器件的输出端可以与剩余运算器件的输入端相连接，以保证上一个运算器件输出的中间数据作为下一个运算器件的输入数据，输入至下一个运算器件中继续运算。每个运算器件的输出端也可以作为多算子运算模块的输出端，用于输出最终图像数据。

配置模块从运算器件集合中查询与多个算子对应的多个运算器件(每次运算并不一定用到运算器件集合中的全部的运算器件)，并根据多个算子的数学运算顺序确定多个运算器件的执行顺序。然后，配置模块向多算子运算模块发送配置指令，配置指令包括多个算子对应的多个运算器件以及多个运算器件的执行顺序。

多算子运算模块一方面从配置模块中获取配置指令，另一方面从GLB和/或DDR读取原始图像对应的张量中包含的像素点来获取原始图像数据，并按照执行顺序，控制原始图像数据输入至第一个运算器件进行运算，得到第一中间数据，将第一中间数据输入至第二个运算器件进行运算，得到第二中间数据，直至将第N-1中间数据输入至第N个运算器件进行运算，输出最终图像数据。多算子运算模块中设置有逻辑控制单元，控制多算子运算模块读取原始图像数据、以及按照执行顺序，控制多个运算器件以串行执行的方式对原始图像数据进行处理，输出最终图像数据的整个过程。最后，利用数据写出模块将最终图像数据写入至GLB和/或DDR中。

例如，实现tanh_shrink激活函数(神经网络结构中激活函数的一种)的运算公式为：

将运算公式(1)拆分为以第一个算子为e为底的幂运算的算子，第二个算子为一对二复制运算的算子，第三个算子为一对二复制运算的算子，第四个算子为加法运算的算子、第五个算子为减法运算的算子、第六个算子为除法运算的算子，第七个算子为减法运算的算子。确定对应的运算器件包括第一个运算器件为e为底求幂运算器、第二个运算器件为一对二复制运算器、第三个运算器件为另一个一对二复制运算器、第四个运算器件为加法器、第五个运算器件为减法器、第六个运算器件为除法器、第七个运算器件为另一减法器。按照第一个运算器件至第七个运算器件的执行顺序，控制原始图像数据输入至e为底求幂运算器，得到第一中间数据，将第一中间数据输入至一对二复制运算器，得到第二中间数据，以此类推，从减法器(第七个运算器件)中输出最终图像数据。

本实施方式中，由于任意复杂的运算公式都可以分解成多个算子，给多个算子配置对应的多个运算器件，利用多个运算器件以串行执行的方式来对原始图像数据进行处理，输出最终图像数据，所以能够支持各种神经网络中各种类型的复杂运算，并且运算具有可编程性，提高了运算效率。同时，又由于多个算子对应的运算器件是从运算集合中选择的，使得在进行各种复杂运算时，多个运算器件具有可配置性。针对不同的复杂的数学运算，运算集合中的每个运算器件都可能被重复利用，无需对每种复杂的运算都设计对应的硬件，有效节省了芯片面积，降低芯片成本。

在一种实施方式中，如图3所示，配置指令包括预设数据长度，步骤S120，包括：

步骤S121：向外部存储器和/或内部本地缓存器发送读请求；

步骤S122：在读请求通过的情况下，读取原始图像对应的张量中包含的像素点，得到原始图像数据；

步骤S123：在原始图像数据的长度等于预设数据长度的情况下，停止读取像素点。

一种示例中，数据读取模块可以向DDR(外部存储器)和/或GLB(内部本地缓存器)发送一个或多个读请求。例如，如果请求读取两帧原始图像的张量，那么可以向DDR发送一个读请求，向GLB发送另一个读请求；或者，向DDR发送两个读请求；又或者，向GLB发送两个读请求。数据读取模块可以读取多帧原始图像对应的张量，读取方式和读取张量的数量可以根据实际需求进行适应性调整，均在本实施方式的保护范围内。DDR和/或GLB接收读请求后，反馈允许读取的结果给数据读取模块。然后，数据读取模块读取原始图像对应的张量中包含的像素点，得到原始图像数据，并将原始图像数据发送至多算子运算模块。

具体的，数据读取模块包括映射功能(Map)单元和/或广播功能(Broadcast)单元，可以实现映射功能的读取方式和广播功能的读取方式。GLB是卷积加速器的数据缓存SRAM(静态随机存取存储器，Static Random-Access Memory)，储存空间大，数据读取模块可以直接从GLB中获取数据。如图4所示，GLB可以包含八个独立RAM(随机存取存储器，Random Access Memory)，每个RAM的深度为512，宽度为128bit，分别给这八个独立RAM编号为bank0～bank7。通常，映射功能单元在单个时钟周期内需要一路输入，将一路输入端映射到GLB的八个独立RAM上。GLB在单个时钟周期内响应一个读请求，映射功能单元从bank0～bank7中选择一个bankA(A为0至7的任意整数)，来读取存储在bankA中的张量。广播功能单元在单个时钟周期内需要至少一路输入，将两路输入端映射到八个独立RAM上。GLB在单个时钟周期内响应两个读请求，广播功能单元从bank0～bank7中选择两个bankB和bankC(B、C为0至7的任意整数且B不等于C)，来读取存储在bankB中的一个原始图像对应的张量，以及读取存储在bankC中的另一原始图像对应的张量。另外，数据写出模块在单个时钟周期内会向DDR和/或GLB的一个独立RAM发送写请求，写请求通过后，数据写出模块将最终图像数据写入DDR和/或GLB中。

在DDR和/或GLB确定读请求通过的情况下，数据读取模块可以根据配置指令来读取原始图像的张量中包含的像素点，得到原始图像数据。由于配置模块向数据读取模块发送的配置指令包括预设数据长度，所以在读取的原始图像数据的长度等于预设数据长度的情况下，数据读取模块停止读取像素点。在具体读取像素点的过程中：映射功能单元支持从GLB或DDR中读取一路原始图像对应的张量，将单路原始图像对应的张量看作一维向量，像素点是NCHW中排列的点。映射功能单元按照先行后列的顺序从GLB或DDR中读取像素点，直到整个四维图像读取完成，并将读取的原始图像数据依次发送至多算子运算模块。例如，原始图像对应的张量中NCHW为1*2*30*40，将张量看作一维向量。映射功能单元不一定要将张量中的NCHW所有的像素点都读完，而是根据预设数据长度进行读取。张量中NCHW为1*2*30*40，表示一行包含了40个像素点，如果预设数据长度为120，那么只需要读取三行像素点即可。

本实施方式中，支持从DDR和/或GLB中读写数据，如果是从GLB中读写数据，可以降低DDR的读写带宽。另外，由于配置指令中包括预设数据长度，使得读取像素点更具有灵活性。

在一种实施方式中，如图5所示，配置指令包括预设向量长度，步骤S122，包括：

S1221：根据预设向量长度将张量切分成多个向量，向量包括多个像素点；

S1222：向量中，按照排列顺序读取像素点，且读取至每个像素点时，每个像素点被重复读取M1次；

S1223：每个向量被重复读取M2次，得到原始图像数据，其中，M1、M2均大于或等于1。

在一种示例中，广播功能单元支持GLB和/或DDR中读取多帧原始图像对应的张量。配置模块将配置指令发送至数据读取模块，配置指令中包括预设向量长度。数据读取模块根据预设向量长度将每个张量划分为多个向量(向量的数量大于或等于1)，每个向量的长度等于预设向量长度。每个向量中，重复读取M1次(M1>＝1)第一个像素点，切换到第二个像素点，重复读取M1次第二个像素点，以此类推，直至读取向量中的全部像素点。并且支持重复读取M2(M2>＝1)次单个向量，即第一个向量被重复读取M2次，切换到第二个向量，第二个向量被重复读取M2次，以此类推，直至读取全部的向量。将重复读取后得到的原始图像数据发送至多算子运算模块。当然，配置指令除了包括预设向量长度，还可以包括像素点重复读取次数M1、向量重复读取次数M2等信息。不同的张量、向量长度、像素点重复读取次数M1以及向量重复读取次数M2可以根据实际情况配置，均在本实施方式的保护范围内。

例如，第一原始图像对应的张量中NCHW为1*2*30*40，第二原始图像对应的张量中NCHW为1*3*20*40。假设第一原始图像对应的张量被分成四个向量，每个向量中包括80个像素点，像素点重复读取次数M1＝3，向量重复读取次数M2＝2。那么第一个像素点X0被重复读取三次，得到(X0、X0、X0)，第二个像素点X1被重复读取三次，得到(X1、X1、X1)……直至读完向量中的每个像素点。重复上述过程两次，即将此向量重复读取两次，直至NCHW为1*2*30*40的图像被读取八行之后，结束读取。第二原始图像对应的张量被分成八个向量，每个向量中包括30个像素点，像素点的重复次数M1＝8，向量重复次数M2＝1或M1＝4，M2＝2，那么第一个像素点Y0被重复读取八次，得到(Y0、Y0、Y0、Y0、Y0、Y0、Y0、Y0)，第二个像素点Y1被重复读取八次，得到(Y1、Y1、Y1、Y1、Y1、Y1、Y1、Y1)……直至读完向量中的每个像素点。上述过程一次，直至NCHW为1*3*20*40的图像被读取六行之后，结束读取。如果读取第一原始图像对应的张量中的像素点和第二原始图像对应的张量中的像素点的个数分别达到预设数据长度时，停止读取。预设数据长度＝N1*张量1循环后的长度＝N2*张量2循环后的长度(N1，N2>＝1，整数)。数据读取模块每次从GLB中读取多个像素点，可以将每次读取的多个像素点对应的原始图像数据发送给多算子运算模块，假设M1＝1，这时从GLB读取4个像素点都会送入多算子运算模块。按照执行顺序，控制多个运算器件以串行执行的方式对多个像素点对应的原始图像数据进行处理，输出最终图像数据。

本实施方式中，由于向量中的每个像素点被重复读取M1次，且每个向量被重复读取M2次，自动实现了上采样运算，即最邻近插值方式。

在一种实施方式中，步骤130包括：

在一个时钟周期内，控制多个运算器件以串行执行的方式对多个像素点对应的原始图像数据进行并行处理，输出最终图像数据。

一种示例中，在数据读取模块从DDR和/或GLB中每次读取多个像素点。在一个时钟周期内，数据读取模块将读取的多个像素点对应的原始图像数据发送至多算子运算模块，使得多算子运算模块可以同时对多个像素点对应的原始图像数据进行并行计算。例如，在一个时钟周期内，数据读取模块可以发送四个像素点对应的原始图像数据至多算子运算模块。映射功能中，第0个时钟周期，数据读取模块可以发送第一行四个点X00～X03给多算子运算模块；第1个时钟周期，数据读取模块可以将第一行接下来的四个点X04～X07发送至多算子运算模块，以此类推。广播功能中，假设像素点重复次数M1为3，第0个时钟周期，数据读取模块可发送(X00、X00、X00、X01)给多算子运算模块；第1个时钟周期，数据读取模块可以将(X01、X01、X02、X02)发送给多算子运算模块，以此类推。那么，在多算子运算模块中，每种运算器件可以设置四个，四个相同的运算器件同时工作，并行处理四个像素点对应的原始图像数据。当然，每种运算器件还可以设置更多数量，例如，设置八个加法器、八个减法器等，或者每种运算器件还可以设置较少数量，例如，设置两个或三个加法器、两个或三个减法器等。根据实际需求进行适应性调整，均在本实施方式的保护范围内。

本实施方式中，一个时钟周期内，数据读取模块将多个像素点对应的原始图像数据发送至多算子运算模块中，实现并行运算，有效提高运算效率。

在一种实施方式中，如图3所示，所述配置指令包括每个运算器件的输出端与剩余运算器件的输入端之间的映射关系表，步骤130包括：

步骤131：执行顺序确定子模块，用于根据所述映射关系表确定所述执行顺序；

步骤132：根据执行顺序，控制原始图像数据输入至第一个运算器件进行运算，得到第一中间数据，将第一中间数据输入至第二个运算器件进行运算，得到第二中间数据，直至将第N-1中间数据输入至第N个运算器件进行运算，输出最终图像数据，N为大于或等于1的正整数。

在一种实施方式中，所述配置指令包括确定常量，所述常量是根据所述运算公式分解得到的。

一种示例中，假设运算器件集合中包括27个运算器件，运算器件0到运算器件26。每个运算器件可能包括两个输入端或者三个输入端，一个输出端或者两个输出端。例如，运算器件可以包括两个张量输入端，或者两个常量输入端，又或者是两个张量输入端和一个常量输入端等，根据需求进行设置。张量输入端用于输入原始图像数据或中间图像数据。常量输入端用于输入常量。运算公式中可能会包含常量，例如，运算公式

其中，3.73和5.89都是小数值，配置第一个常量为3.73，第二个常量为5.89。因此，常量的数量与运算公式相关。当然，如果运算公式中没有常量，则可以不用配置常量。

如图6所示，提供一种神经网络模型的多算子运算方法。配置模块用于将运算公式分解得到多个算子，并确定多个算子对应的多个运算器件，根据多个算子的数学运算关系，针对上一个运算器件的输出端与相邻的下一个运算器件的输入端生成映射关系表。映射关系表中，每个运算器件的输入端都会有相应的输出端编号。优选的编号方式是将多个张量输入端(例如两个)、多个常量输入端(例如四个)和所有运算器件输出端统一默认编号，方便将每个运算器件输入端与所有器件输出端、张量输入端、常量输入端映射成表格形式。由于配置指令中包括映射关系表，根据配置指令确定每个运算器件输入端对应的输出端编号，根据编号确定每个运算器件的输出端与剩余运算器件的输入端之间的映射关系。多算子运算模块接收配置模块发送的配置指令，根据映射关系表中每个运算器件的输出端与剩余运算器件的输入端之间的映射关系，确定执行顺序。由于每执行一次运算后，都会***一级寄存器(reg),因此为了保证输入第一张量和第二张量的时序一致，可以调用额外的运算器件对第二张量执行计算。

一种示例中，GLB中不同的存储区域存储不同的原始图像对应的张量(第一张量和第二张量)，数据读取模块从GLB中读取两路原始图像对应的张量中包含的像素点，得到两路原始图像数据。假设将两路张量对应的原始图像数据发送至多算子运算模块。根据配置指令确定了四个运算器件，包括第一运算器件至第四运算器件。第一运算器件为加法器0，第二运算器件为加法器1，第三运算器件为平方运算器，第四运算器件为比较器。如表1所示的映射关系表，两个张量和四个常量与各个运算器件输出端统一编号。两个张量和四个常量统一编号为1～6，即第一张量的编号为1，第二张量的编号为2，第一常量的编号为3、第二常量的编号为4、第三常量的编号为5、第四常量的编号为6。各个运算器件的输出端编号参见映射关系表。根据映射关系表得到执行顺序：加法器0的张量输入端用于输入第一张量对应的原始图像数据，常量输入端用于输入第二常量，加法器0的输出端与加法器1的张量输入端连接；加法器1的张量输入端用于输入第一张量对应的第一中间数据，加法器1的常量输入端对应输入第一常量，加法器1的输出端与平方运算器的张量输入端连接；平方运算器的张量输入端用于输入第一张量对应的第二中间数据，平方运算器的输出端与比较器的张量输入端连接；比较器的张量输入端用于输入第一张量对应的第三中间数据，比较运算器的常量输入端用于输入第三常量，比较器的输出端用于输出最终图像数据。需要指出的是，每个运算器件的任意一个输入端，可以是常量输入、张量输入、或者其他器件的张量输出。运算器件集合中的各个运算器件的输出端与输入端可以由逻辑控制单元控制打开或者关闭，表示可否用来传输数据。具体的，逻辑控制单元根据映射关系表控制各个运算器件的工作状态，如果某个运算器件输入端对应的输出端编号为0，则表示该运算器件将不工作，可以处于关闭状态。

表1 映射关系表

在一种实施方式中，如图3所示，还包括：

步骤S140：对最终图像数据进行降采样。

一种示例中，如图7所示，降采样(Reduce)模块对最终图像数据进行降采样，输入数据可以来自GLB或者DDR或者多算子运算模块，可以对N或者C或者H或者W任意一个维度进行降采样操作。例如，N或者C或者H或者W任意一个维度的求最大值、最小值、求和、求减、求乘积的操作。降采样的输入可以是GLB或者DDR读取回来的数据，也可以是多算子运算模块输出的最终图像数据。如果多算子运算模块不工作的时候，可以将张量对应的原始图像数据直接进行降采样，即对张量中任意一个维度的像素点进行降采样。

在一种实施方式中，原始图像数据的格式、第一中间数据至第N-1中间数据的格式，以及最终图像数据均为16位浮点数的数据格式。

一种示例中，多算子运算模块和降采样模块涉及的运算均为BF16格式的浮点运算，能够有效提高运算精度。可以将BF16(16位浮点数，bfloat)格式的浮点运算替换为INT8格式的定点运算，可以节省多算子运算模块或者降采样模块的硬件面积。

如图8所示，在另一种具体实施方式中，提供了一种神经网络模型的多算子运算装置，包括：

配置指令获取模块110，用于获取配置指令，根据所述配置指令确定多个算子对应的多个运算器件，以及所述多个运算器件的执行顺序，所述多个算子是根据运算公式分解得到的，多个运算器件是从运算器件集合中选择的；

数据读取模块120，用于读取原始图像对应的张量中包含的像素点，得到原始图像数据；

多算子运算模块130，用于按照所述执行顺序，控制所述多个运算器件以串行执行的方式对所述原始图像数据进行处理，输出最终图像数据。本实施方式中，由于本实施方式中并未直接利用CPU、DSP或者GPU等通用硬件加速器来执行神经网络模型的各种运算，而是利用本申请提供的神经网络模型的多算子运算装置，避免了与CPU、DSP或者GPU等通用硬件加速器的通信，提高了运算时效性。

在一种实施方式中，如图9所示，所述配置指令包括预设数据长度，所述数据读取模块120包括：

读请求发送子模块121，用于向外部存储器和/或内部本地缓存器发送读请求；

数据读取子模块122，用于在所述读请求通过的情况下，读取所述原始图像对应的张量中包含的像素点，得到所述原始图像数据；

数据读取停止子模块123，用于在所述原始图像数据的长度等于所述预设数据长度的情况下，停止读取所述像素点。

在一种实施方式中，如图10所示，所述配置指令包括预设向量长度，所述数据读取子模块122，包括：

向量划分单元1221，用于根据所述预设向量长度将所述张量切分成多个向量，所述向量包括多个像素点；

第一读取单元1222，用于所述向量中，按照排列顺序读取所述像素点，且读取至每个所述像素点时，每个所述像素点被重复读取M1次；

第二读取单元1223，用于每个所述向量被重复读取M2次，得到所述原始图像数据，其中，M1、M2均大于或等于1。

在一种实施方式中，如图9所示，所述配置指令包括每个运算器件的输出端与剩余运算器件的输入端之间的映射关系表，所述多算子运算模块130包括：

执行顺序确定子模块131，用于根据所述映射关系表确定所述执行顺序；

多算子运算子模块132，用于根据所述执行顺序，控制所述原始图像数据输入至第一个运算器件进行运算，得到第一中间数据，将所述第一中间数据输入至第二个运算器件进行运算，得到第二中间数据，直至将第N-1中间数据输入至第N个运算器件进行运算，输出最终图像数据，N为大于或等于1的正整数。

在一种实施方式中，如图9所示，还包括：

降采样模块140，用于对所述最终图像数据进行降采样。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的一种神经网络模型的多算子运算方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的一种神经网络模型的多算子运算方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的一种神经网络模型的多算子运算方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的一种神经网络模型的多算子运算方法对应的程序指令/模块(例如，附图8所示的配置指令获取模块110、数据读取模块120以及多算子运算模块130)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的一种神经网络模型的多算子运算方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据一种神经网络模型的多算子运算方法的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至上述电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与上述电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Cr10stal Displa10，LCD)、发光二极管(Light Emitting Diode， LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

一种神经网络模型的多算子运算方法，其特征在于，包括：

获取配置指令，根据所述配置指令确定多个算子对应的多个运算器件，以及所述多个运算器件的执行顺序，所述多个算子是根据运算公式分解得到的，所述多个运算器件是从运算器件集合中选择的；

读取原始图像对应的张量中包含的像素点，得到原始图像数据；

按照所述执行顺序，控制所述多个运算器件以串行执行的方式对所述原始图像数据进行处理，输出最终图像数据。
根据权利要求1所述的方法，其特征在于，所述配置指令包括预设数据长度，所述读取原始图像对应的张量中包含的像素点，得到原始图像数据，包括：

向外部存储器和/或内部本地缓存器发送读请求；

在所述读请求通过的情况下，读取所述原始图像对应的张量中包含的像素点，得到所述原始图像数据；

在所述原始图像数据的长度等于所述预设数据长度的情况下，停止读取所述像素点。
根据权利要求2所述的方法，其特征在于，所述配置指令包括预设向量长度，所述读取所述原始图像的张量中包含的像素点，得到所述原始图像数据，包括：

根据所述预设向量长度将所述张量切分成多个向量，所述向量包括多个像素点；

所述向量中，按照排列顺序读取所述像素点，且读取至每个所述像素点时，每个所述像素点被重复读取M1次；

每个所述向量被重复读取M2次，得到所述原始图像数据，其中，M1、M2均大于或等于1。
根据权利要求1-3任一项所述的方法，其特征在于，所述按照所述执行顺序，控制所述多个运算器件以串行执行的方式对所述原始图像数据进行处理，输出最终图像数据，包括：

在一个时钟周期内，控制所述多个运算器件以串行执行的方式对多个像素点对应的原始图像数据进行并行处理，输出所述最终图像数据。
根据权利要求1所述的方法，其特征在于，所述配置指令包括每个运算器件的输出端与剩余运算器件的输入端之间的映射关系表，所述按照所述执行顺序，控制所述多个运算器件以串行执行的方式对所述原始图像数据进行处理，输出最终图像数据，包括：

根据所述映射关系表确定所述执行顺序；

根据所述执行顺序，控制所述原始图像数据输入至第一个运算器件进行运算，得到第一中间数据，将所述第一中间数据输入至第二个运算器件进行运算，得到第二中间数据，直至将第N-1中间数据输入至第N个运算器件进行运算，输出最终图像数据，N为大于或等于1的正整数。
根据权利要求1所述的方法，其特征在于，所述配置指令包括常量，所述常量是根据所述运算公式分解得到的。
根据权利要求1所述的方法，其特征在于，还包括：

对所述最终图像数据进行降采样。
根据权利要求5所述的方法，其特征在于，所述原始图像数据、所述第一中间数据至所述第N-1中间数据，以及所述最终图像数据均为16位浮点数的数据格式。
一种神经网络模型的多算子运算装置，其特征在于，包括：

配置指令获取模块，用于获取配置指令，根据所述配置指令确定多个算子对应的多个运算器件，以及所述多个运算器件的执行顺序，所述多个算子是根据运算公式分解得到的，所述多个运算器件是从运算器件集合中选择的；

数据读取模块，用于读取原始图像对应的张量中包含的像素点，得到原始图像数据；

多算子运算模块，用于按照所述执行顺序，控制所述多个运算器件以串行执行的方式对所述原始图像数据进行处理，输出最终图像数据。
根据权利要求9所述的装置，其特征在于，所述配置指令包括预设数据长度，所述数据读取模块包括：

读请求发送子模块，用于向外部存储器和/或内部本地缓存器发送读请求；

数据读取子模块，用于在所述读请求通过的情况下，读取所述原始图像对应的张量中包含的像素点，得到所述原始图像数据；

数据读取停止子模块，用于在所述原始图像数据的长度等于所述预设数据长度的情况下，停止读取所述像素点。
根据权利要求10所述的装置，其特征在于，所述配置指令包括预设向量长度，所述数据读取子模块，包括：

向量划分单元，用于根据所述预设向量长度将所述张量切分成多个向量，所述向量包括多个像素点；

第一读取单元，用于所述向量中，按照排列顺序读取所述像素点，且读取至每个所述像素点时，每个所述像素点被重复读取M1次；

第二读取单元，用于每个所述向量被重复读取M2次，得到所述原始图像数据，其中，M1、M2均大于或等于1。
根据权利要求9-11任一项所述的装置，其特征在于，所述多算子运算模块用于在一个时钟周期内，控制所述多个运算器件以串行执行的方式对多个像素点对应的原始图像数据进行并行处理，输出所述最终图像数据。
根据权利要求9所述的装置，其特征在于，所述配置指令包括每个运算器件的输出端与剩余运算器件的输入端之间的映射关系表，所述多算子运算模块包括：

执行顺序确定子模块，用于根据所述映射关系表确定所述执行顺序；

多算子运算子模块，用于根据所述执行顺序，控制所述原始图像数据输入至第一个运算器件进行运算，得到第一中间数据，将所述第一中间数据输入至第二个运算器件进行运算，得到第二中间数据，直至将第N-1中间数据输入至第N个运算器件进行运算，输出最终图像数据，N为大于或等于1的正整数。
根据权利要求9所述的装置，其特征在于，所述配置指令包括常量，所述常量是根据所述运算公式分解得到的。
根据权利要求9所述的装置，其特征在于，还包括：

降采样模块，用于对所述最终图像数据进行降采样。
根据权利要求13所述的装置，其特征在于，所述原始图像数据、所述第一中间数据至所述第N-1中间数据，以及所述最终图像数据均为16位浮点数的数据格式。
一种电子设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。