CN111783971B

CN111783971B - 一种用于深度神经网络的可高度灵活配置的数据后处理器

Info

Publication number: CN111783971B
Application number: CN202010632866.XA
Authority: CN
Inventors: 李思彧; 伍骏; 王维
Original assignee: Shanghai Saifang Technology Co ltd
Current assignee: Shanghai Saifang Technology Co ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2024-04-09
Anticipated expiration: 2040-07-02
Also published as: CN111783971A

Abstract

本发明公开了一种用于深度神经网络的可高度灵活配置的数据后处理器，该处理器的配置方式分为运行前(AOT)配置和运行时(RT)配置，AOT配置方式工作在数据后处理器的硬件实现阶段，用于获得使用者所需要的数据后处理器；RT配置方式工作在深度神经网络加速引擎的运行阶段，此时数据后处理器的硬件实现已经完成。本发明通过AOT配置确定数据后处理器可以使用的硬件资源，通过RT配置确定数据后处理器在运行时的数据处理通路，为数据后处理器的使用者提供了更加灵活的使用方式，方便其在功耗、性能与成本之间做出平衡，同时也避免了因为要适配不同网络层设计专用数据后处理器，降低了硬件成本，满足了成本敏感的深度神经加速引擎的设计需要。

Description

一种用于深度神经网络的可高度灵活配置的数据后处理器

技术领域

本发明涉及到深度神经网络处理器技术领域，尤其涉及一种用于深度神经网络的可高度灵活配置的数据后处理器。

背景技术

深度神经网络是一种被广泛应用的机器学习算法，在深度神经网络中，通常包含了标准卷积层、池化层、全连接层和激活层。目前常见的专用深度神经网络加速器广泛采用了专用硬件电路来支持神经网络中各层网络的运算。这种专用硬件电路通常由MAC矩阵和数据后处理模块构成。数据后处理模块会针对不同的网络层对MAC矩阵输出数据做不同的处理，例如对于卷积层会进行累加计算，另外数据后处理器也能支持数据分块所需要的额外操作。

专用硬件架构虽然能够提供更高的运算速度，但是每一层网络都会由专用的硬件电路实现，因此就会有专用的MAC矩阵和数据后处理模块，这样的架构硬件复用率低，会消耗更多硬件资源，无法满足一些成本敏感的使用场景需求。

发明内容

本发明的目的就在于为了解决上述问题而提供一种用于深度神经网络的可高度灵活配置的数据后处理器。

本发明通过以下技术方案来实现上述目的：

一种用于深度神经网络的可高度灵活配置的数据后处理器，该处理器的配置方式分为运行前(AOT)配置和运行时(RT)配置，AOT配置方式工作在数据后处理器的硬件实现阶段，用于获得使用者所需要的数据后处理器；RT配置方式工作在深度神经网络加速引擎的运行阶段，此时数据后处理器的硬件实现已经完成，加速引擎的控制通路可以根据当前正在执行运算的神经网络层对数据后处理器进行配置，数据后处理器在接收到配置信息后便可以使用其内部对应的数据通路对数据进行处理。

进一步的，AOT配置的工作流程如下：

步骤1：在对配置层进行操作之前，应根据数据后处理器的硬件资源，限制确定数据后处理器的数据位宽和关键数据通路的寄存器个数等数据后处理器需要的配置信息；

步骤2：将配置信息写入配置层的接口中，在写入时，应将所有的配置信息转换为可以被数据后处理器配置层识别的格式；

步骤3：硬件实现层在接收到从配置层传来的配置信息之后，会根据配置信息调整数据后处理器的硬件资源，最终通过硬件生成器获得数据后处理器的硬件设计。

综上可以看出，数据后处理器的AOT配置可以在后处理器的硬件实现阶段调整数据后处理器的硬件资源，从而获得具有不同硬件资源的数据后处理器硬件设计，使其可以满足具有不同硬件资源限制的设计需求。因此，在不同的应用场景中不需要修改数据后处理器的电路设计，只需要将不同需求的硬件资源要求作为配置信息写入后处理器的配置层中即可。

进一步的，RT配置方式的工作流程如下：

步骤1：神经网络加速引擎的控制通路确定数据后处理器需要处理的神经网络层，将相关的配置信息写入数据后处理器的配置寄存器；

步骤2：数据后处理器根据获得的配置信息对输入数据进行处理，为数据选择对应的数据通路，如果此时加速引擎需要进行卷积层或者全连接层的运算，那么数据后处理器会根据前述的处理方式对从MAC矩阵输入的数据进行进一步的累加求和操作，如果此时加速引擎正在进行平均值池化的计算，那么数据后处理器将会进行累加求和，以及求均值操作，此外如果进行按元素处理层操作，后处理器将不会进行运算操作，会直接将数据进行缓存；

步骤3：在完成对输入数据的计算之后，数据后处理器会将数据缓存，并等待输出。

综上可以看出，综上所述RT配置方式是在数据后处理器硬件实现完全确定之后，对数据后处理器进行配置的方式。利用RT配置可以在深度神经网络加速引擎运行时对数据后处理器进行灵活的功能调整，通过这种配置方式可以实现数据后处理器的硬件复用，从而降低硬件成本。

进一步的，该数据后处理器的完整使用流程如下：

步骤1：在对数据后处理器进行硬件设计时，确定硬件资源的限制，对数据后处理器进行AOT配置，通过生成器获得具体的硬件实现；

步骤2：在数据后处理器真正运行时，深度神经网络加速引擎的控制器可以通过配置寄存器对数据后处理器进行配置，从而使数据后处理器可以对不同网络层中MAC阵列的输出数据进行处理。

本发明的有益效果在于：

本发明通过AOT配置确定数据后处理器可以使用的硬件资源，通过RT配置确定数据后处理器在运行时的数据处理通路，为数据后处理器的使用者提供了更加灵活的使用方式，方便其在功耗、性能与成本之间做出平衡，同时也避免了因为要适配不同网络层设计专用数据后处理器，降低了硬件成本，满足了成本敏感的深度神经加速引擎的设计需要。

附图说明

图1为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器的结构设计和工作方式图；

图2为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器的硬件生成器的设计和工作方式图；

图3为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器中AOT配置的工作方式图；

图4为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器中AOT配置的工作流程图；

图5为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器中RT配置的工作流程图；

图6为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器的工作流程图。

具体实施方式

一种用于深度神经网络的可高度灵活配置的数据后处理器，该处理器的配置方式分为运行前(AOT)配置和运行时(RT)配置，AOT配置方式工作在数据后处理器的硬件实现阶段，用于获得使用者所需要的数据后处理器，如图1所示，为实现AOT配置，本发明在数据后处理器的硬件实现阶段，为其设计了专用硬件生成器，硬件生成器分为了配置层和实现层，在配置层中，存放了数据后处理器硬件实现的配置信息，包括了数据后处理器中数据通路的数据位宽，关键数据处理节点的寄存器个数等，同时配置层留出了可以进行操作的接口，使用者可以根据需要填入对应的配置信息，硬件生成器在实现层中加入了接收配置层信息的接口，在获得配置信息之后可以生成对应的数据后处理器硬件设计，图2展示了数据后处理器的硬件生成器的具体设计和工作方式，图3展示了AOT配置方式的工作流程；RT配置方式工作在深度神经网络加速引擎的运行阶段，此时数据后处理器的硬件实现已经完成，加速引擎的控制通路可以根据当前正在执行运算的神经网络层对数据后处理器进行配置，数据后处理器在接收到配置信息后便可以使用其内部对应的数据通路对数据进行处理，图4展示了数据后处理器进行RT配置的工作流程，图5展示了配置寄存器对数据后处理器的配置方式。

优选的，AOT配置的工作流程如下：

优选的，RT配置方式的工作流程如下：

优选的，该数据后处理器的完整使用流程如下：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于深度神经网络的可配置的数据后处理器，其特征在于：该处理器的配置方式分为运行前AOT配置和运行时RT配置，AOT配置方式工作在数据后处理器的硬件实现阶段，用于获得使用者所需要的数据后处理器；RT配置方式工作在深度神经网络加速引擎的运行阶段，此时数据后处理器的硬件实现已经完成，加速引擎的控制通路可以根据当前正在执行运算的神经网络层对数据后处理器进行配置，数据后处理器在接收到配置信息后便可以使用其内部对应的数据通路对数据进行处理；

在数据后处理器的硬件实现阶段，为其设计了专用硬件生成器，硬件生成器分为了配置层和实现层，在配置层中，存放了数据后处理器硬件实现的配置信息，包括了数据后处理器中数据通路的数据位宽，关键数据处理节点的寄存器个数，同时配置层留出了可以进行操作的接口，使用者可以根据需要填入对应的配置信息，硬件生成器在实现层中加入了接收配置层信息的接口，在获得配置信息之后可以生成对应的数据后处理器硬件设计；AOT配置的工作流程如下：步骤1：在对配置层进行操作之前，应根据数据后处理器的硬件资源，限制确定数据后处理器的数据位宽和关键数据通路的寄存器个数；步骤2：将配置信息写入配置层的接口中，在写入时，应将所有的配置信息转换为可以被数据后处理器配置层识别的格式；步骤3：硬件实现层在接收到从配置层传来的配置信息之后，会根据配置信息调整数据后处理器的硬件资源，最终通过硬件生成器获得数据后处理器的硬件设计；

RT配置方式的工作流程如下：步骤1：神经网络加速引擎的控制通路确定数据后处理器需要处理的神经网络层，将相关的配置信息写入数据后处理器的配置寄存器；步骤2：数据后处理器根据获得的配置信息对输入数据进行处理，为数据选择对应的数据通路，如果此时加速引擎需要进行卷积层或者全连接层的运算，那么数据后处理器会对从MAC矩阵输入的数据进行进一步的累加求和操作，如果此时加速引擎正在进行平均值池化的计算，那么数据后处理器将会进行累加求和，以及求均值操作，此外如果进行按元素处理层操作，后处理器将不会进行运算操作，会直接将数据进行缓存；步骤3：在完成对输入数据的计算之后，数据后处理器会将数据缓存，并等待输出。

2.根据权利要求1所述的一种用于深度神经网络的可配置的数据后处理器，其特征在于：该数据后处理器的完整使用流程如下：步骤1：在对数据后处理器进行硬件设计时，确定硬件资源的限制，对数据后处理器进行AOT配置，通过生成器获得具体的硬件实现；步骤2：在数据后处理器真正运行时，深度神经网络加速引擎的控制器可以通过配置寄存器对数据后处理器进行配置，从而使数据后处理器可以对不同网络层中MAC阵列的输出数据进行处理。