CN112597079B

CN112597079B - 卷积神经网络加速器的数据回写***

Info

Publication number: CN112597079B
Application number: CN202011527851.3A
Authority: CN
Inventors: 王天一; 边立剑
Original assignee: Shanghai Anlu Information Technology Co ltd
Current assignee: Shanghai Anlu Information Technology Co ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-10-17
Anticipated expiration: 2040-12-22
Also published as: CN112597079A

Abstract

本发明提供了一种卷积神经网络加速器的数据回写***，包括输入缓存模块、N级写回节点和写回控制模块，所述输入缓存模块用于与计算单元连接，以接收数据，最上一级所述写回节点与所述输入缓存模块连接，一个下一级所述写回节点至少与两个上一级所述写回节点连接，N为大于1的自然数，所述写回控制模块与最下一级所述写回节点连接，以从最下一级所述写回节点接收数据并传输给总线。所述卷积神经网络加速器的数据回写***中，包括N级写回节点，最上一级所述写回节点与所述输入缓存模块连接，一个下一级所述写回节点至少与两个上一级所述写回节点连接，N为大于1的自然数，树状结构将写回节点分级，从而能够提高数据回写的传输效率。

Description

卷积神经网络加速器的数据回写***

技术领域

本发明涉及深度学习技术领域，尤其涉及一种卷积神经网络加速器的数据回写***。

背景技术

现有技术中，云端现场可编程门阵列(Field Programmable Gate Array，FPGA)与边缘端设备相比可以提供大量逻辑和内存资源，但运行在云端的神经网络模型往往比较庞大，在运行的过程中会产生大量的中间结果，而FPGA平台上的片上随机存取存储器(RandomAccess Memory，RAM)资源往往无法缓存所有的数据，因此需要将数据传输到片外存储器上，但现有技术中无法满足并发数据高吞吐率的传输需求，数据传输效率较低。

因此，有必要提供一种新型的卷积神经网络加速器的数据回写***以解决现有技术中存在的上述问题。

发明内容

本发明的目的在于提供一种卷积神经网络加速器的数据回写***，提高卷积神经网络加速器数据回写的传输效率。

为实现上述目的，本发明的所述卷积神经网络加速器的数据回写***，包括：

输入缓存模块，用于与计算单元连接，以接收数据；

N级写回节点，最上一级所述写回节点与所述输入缓存模块连接，一个下一级所述写回节点至少与两个上一级所述写回节点连接，N为大于1的自然数；

写回控制模块，与最下一级所述写回节点连接，以从最下一级所述写回节点接收数据并传输给总线。

所述卷积神经网络加速器的数据回写***的有益效果在于：包括N级写回节点，最上一级所述写回节点与所述输入缓存模块连接，一个下一级所述写回节点至少与两个上一级所述写回节点连接，N为大于1的自然数，树状结构将写回节点分级，从而能够提高数据回写的传输效率。

优选地，所述写回节点包括第一输出缓存单元、选择单元和至少两个接收缓存单元，所述接收缓存单元的输出端与所述选择单元的输入端连接，所述选择单元的输出端与所述第一输出缓存单元的输入端连接。其有益效果在于：写回节点标准化设计，接口简单易用、易移植。

进一步优选地，上一级所述写回节点的数量与下一级所述写回节点的接收缓存单元的数量相适配。其有益效果在于：避免下一级所述写回节点的接收缓存单元浪费。

进一步优选地，所述写回控制模块包括地址映射单元，所述写回控制模块从最下一级所述写回节点接收的数据包括计算单元地址信息和计算结果数据，所述地址映射单元根据计算地址信息和起始地址信息计算写回地址。

进一步优先地，所述写回节点还包括仲裁单元和缓存管理单元，所述仲裁单元与所述选择单元连接，所述缓存管理单元分别与所述接收缓存单元和所述第一输出缓存单元连接。其有益效果在于：能够有效避免数据传输过程中发生冲突。

进一步优选地，所述接收缓存单元包括相互连接的第一缓存状态单元和第一数据缓存单元，所述第一缓存状态单元与所述缓存管理单元连接。其有益效果在于：便于判断所述第一数据缓存单元内是否存在数据。

进一步优选地，所述第一输出缓存单元包括相互连接的第二缓存状态单元和第二数据缓存单元，所述第二缓存状态单元与所述缓存管理单元连接。其有益效果在于：便于判断所述第二数据缓存单元内是否存在数据。

进一步优选地，相互连接的所述写回节点的缓存管理单元相互连接。其有益效果在于：避免产生数据冲突。

进一步优选地，所述输入缓存模块包括输入缓存单元，所述输入缓存单元的数量与最上一级所述写回节点的接收缓存单元的数量相适配。其有益效果在于：避免最上一级所述写回节点的接收缓存单元的浪费。

进一步优选地，所述输入缓存单元包括缓存控制单元、第三数据缓存单元和第二输出缓存单元，所述缓存控制单元分别与所述计算单元、所述第三数据缓存单元以及相对应的所述回写节点的缓存管理单元连接，所述第三数据缓存单元和所述第二输出缓存单元连接。

优选地，最下一级所述写回节点的数量为1。其有益效果在于：能够保证同一时刻仅向总线传输一个数据，避免数据传输出现冲突。

附图说明

图1为本发明一些实施例中仲裁单元的结构框图；

图2为本发明一些实施例中接收缓存单元的结构框图；

图3为本发明一些实施例中第一输出缓存单元的结构框图；

图4为本发明一些实施例中输入缓存单元的结构框图；

图5为本发明一些具体实施例中卷积神经网络加速器的数据回写***的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。除非另外定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

针对现有技术存在的问题，本发明的实施例提供了一种卷积神经网络加速器的数据回写***，基于云端现场可编程门阵列(Field Programmable Gate Array，FPGA)，所述卷积神经网络加速器的数据回写***包括输入缓存模块、N级写回节点和写回控制模块，所述输入缓存模块用于与计算单元连接，以接收数据；最上一级所述写回节点与所述输入缓存模块连接，一个下一级所述写回节点至少与两个上一级所述写回节点连接，N为大于1的自然数；写回控制模块与最下一级所述写回节点连接，以从最下一级所述写回节点接收数据并传输给总线。优选地，最下一级所述写回节点的数量为1。

一些实施例中，所述写回节点包括第一输出缓存单元、选择单元、仲裁单元、缓存管理单元和至少两个接收缓存单元，所述接收缓存单元的输出端与所述选择单元的输入端连接，所述选择单元的输出端与所述第一输出缓存单元的输入端连接，所述仲裁单元与所述选择单元连接，所述缓存管理单元分别与所述接收缓存单元和所述第一输出缓存单元连接。具体地，所述仲裁单元为移位寄存器，所述移位寄存器的位至少为2。

图1为本发明一些实施例中仲裁单元的结构框图。参照图1，所述仲裁单元212包括移位寄存器，所述移位寄存器的位数与与其相连接的所述接收缓存单元的数量相同，例如，与所述仲裁单元212连接的所述接收缓存单元内的数量为4，则所述移位寄存器包括4个位，分别为第一位2121、第二位2122、第三位2123和第四位2124。工作原理以右移位为例，第一时钟周期所述第一位2121为1，所述第二位2122为0，所述第三位2123为0，所述第四位2124为0，第二时钟周期所述第一位2121为0，所述第二位21222为1，所述第三位2123为0，所述第四位2124为0；第三时钟周期所述第一位2121为0，所述第二位2122为0，所述第三位2123为1，所述第四位2124为0；第四时钟周期所述第一位2121为0，所述第二位2122为0，所述第三位2123为0，所述第四位2124为1；且四个时钟周期为一个循环。左移位和所述右移位的原理相同，在此不再详细赘述。

图2为本发明一些实施例中接收缓存单元的结构框图。参照图2，所述接收缓存单元211包括相互连接的第一缓存状态单元2111和第一数据缓存单元2112，所述第一缓存状态单元2111与所述缓存管理单元(图中未示出)连接。进一步，所述第一缓存状态单元2111与所述缓存管理单元连接，当所述第一缓存状态单元2111检测到所述第一数据缓存单元2112内没有存储数据时，向所述缓存管理单元反馈，所述缓存管理单元则标记所述第一数据缓存单元2112为1，当所述第一缓存状态单元2111检测到所述第一数据缓存单元2112内存储有数据时，向所述缓存管理单元反馈，所述缓存管理单元则标记所述第一数据缓存单元2112为0。

图3为本发明一些实施例中第一输出缓存单元的结构框图。参照图3，所述第一输出缓存单元215包括相互连接的第二缓存状态单元2151和第二数据缓存单元2152，所述第二缓存状态单元2151与所述缓存管理单元(图中未示出)连接，所述第二数据缓存单元2152的输入端与所述选择单元(图中未示出)的输出端连接，所述第二数据缓存单元2152的输出端与所述下一级所述写回节点的接收缓存单元的第一数据缓存单元(图中未示出)的输入端或所述回写控制模块(图中未示出)的输入端连接。进一步，所述第二缓存状态单元2151与所述缓存管理单元连接，当所述第二缓存状态单元2151检测到所述第二数据缓存单元2152内没有存储数据时，向所述缓存管理单元反馈，所述缓存管理单元则标记所述第二数据缓存单元2152为1，当所述第二缓存状态单元2151检测到所述第二数据缓存单元2152内存储有数据时，向所述缓存管理单元反馈，所述缓存管理单元则标记所述第二数据缓存单元2152为0。

一些实施例中，相互连接的所述写回节点的缓存管理单元相互连接。。

具体地，当下一级所述写回节点中的接收缓存单元被缓存管理单元标记为1，即所述接收缓存单元内没有存储数据，并且上一级所述写回节点中的输出缓存单元被缓存管理单元标记为1，此时所述输出缓存单元可以根据所述仲裁单元中1所对应的位从接收缓存单元内接收数据。

例如，上一级所述写回节点为第一写回节点，下一级所述写回节点为第二写回节点，所述第一写回节点包括第一接收缓存单元、第二接收缓存单元、第三接收缓存单元、第四接收缓存单元、第一选择单元、第一仲裁单元、第一缓存管理单元和第三输出缓存单元，所述第一接收缓存单元、所述第二接收缓存单元、所述第三接收缓存单元和所述第四接收缓存单元的输出端分别与所述第一选择单元的四个输入端连接，所述第一仲裁单元与所述第一选择单元的控制端连接，所述第一选择单元的输出端与所述第三输出缓存单元连接，所述第一仲裁单元分别与所述第一接收缓存单元、所述第二接收缓存单元、所述第三接收缓存单元、所述第四接收缓存单元和所述第三输出缓存单元连接，以对所述第一接收缓存单元、所述第二接收缓存单元、所述第三接收缓存单元、所述第四接收缓存单元和所述第三输出缓存单元进行1或0的标记；

所述第一写回节点包括第五接收缓存单元、第六接收缓存单元、第七接收缓存单元、第八接收缓存单元、第二选择单元、第二仲裁单元、第二缓存管理单元和第四输出缓存单元，所述第五接收缓存单元、所述第六接收缓存单元、所述第七接收缓存单元和所述第八接收缓存单元的输出端分别与所述第二选择单元的四个输入端连接，所述第二仲裁单元与所述第二选择单元的控制端连接，所述第二选择单元的输出端与所述第四输出缓存单元连接，所述第二仲裁单元分别与所述第五接收缓存单元、所述第六接收缓存单元、所述第七接收缓存单元、所述第八接收缓存单元和所述第四输出缓存单元连接，以对所述第五接收缓存单元、所述第六接收缓存单元、所述第七接收缓存单元、所述第八接收缓存单元和所述第四输出缓存单元进行1或0的标记；

所述第一写回节点和所述第二写回节点相互连接，具体地，所述第三输出缓存单元的输出端与所述第五接收缓存单元的输入端连接，所述第一缓存管理单元与所述第二缓存管理单元连接，当所述第五接收缓存单元内没有存储数据时，所述第二缓存单元向所述第一缓存单元反馈所述第五接收缓存单元的标记为1，当所述第三输出缓存单元内没有存储数据时，所述第一缓存管理单元标记所述第三输出缓存单元为1，此时若所述第一仲裁单元的第一位为1，则所述第一接收缓存单元将其内存储的数据通过所述第一选择单元传输给所述第三输出缓存单元，所述第三输出缓存单元将数据传输给所述第五接收缓存单元。

图4为本发明一些实施例中输入缓存单元的结构框图。参照图4，所述输入缓存模块包括输入缓存单元11，所述输入缓存单元11的数量与最上一级所述写回节点的接收缓存单元的数量相适配，所述输入缓存单元11包括缓存控制单元111、第三数据缓存单元112和第二输出缓存单元113，所述缓存控制单元111分别与所述计算单元(图中未示出)的控制端、所述第三数据缓存单元112以及相对应的所述回写节点的缓存管理单元(图中未示出)连接，所述第三数据缓存单元112的输入端与所述计算单元的数据输出端连接，所述第三数据缓存单元112与所述第二输出缓存单元113连接，所述第二输出缓存单元113的输出端与最上一级所述写回节点的接收缓存单元中的第一数据缓存单元(图中未示出)连接。其中。具体地，所述第三数据缓存单元112为先进先出(First Input First Output，FIFO)存储器。

一些具体实施例中，当最上一级所述写回节点的缓存管理单元向所述缓存控制单元反馈0，即所述第一数据缓存单元内存储有数据，若此时所述第三数据缓存单元内存储有数据，则所述缓存控制单元向所述计算单元发送非空信号，以使所述计算单元停止工作；当最上一级所述写回节点的缓存管理单元向所述缓存控制单元反馈0，即所述第一数据缓存单元内没有存储数据，若此时所述第三数据缓存单元内没有存储数据，则所述缓存控制单元不做处理，或所述缓存控制单元向所述计算单元发送空信号，以使所述计算单元立刻进入工作状态；当最上一级所述写回节点的缓存管理单元向所述缓存控制单元反馈1，即所述第一数据缓存单元内没有存储数据，若此时所述第三数据缓存单元内存储有数据，则所述第二输出缓存单元从所述第三数据缓存单元中读取数据。

一些实施例中，上一级所述写回节点的数量与下一级所述写回节点的接收缓存单元的数量相适配。

一些实施例中，所述写回控制模块包括地址映射单元，所述写回控制模块从最下一级所述写回节点接收的数据包括计算单元地址信息和计算结果数据，所述地址映射单元根据计算地址信息和起始地址信息通过地址映射的方式计算写回地址，并将所述写回地址与所述计算结果数据一同沿总线传输至神经网络加速器的双极随机存取存储器(BRAM)。

一些具体实施例中，本申请中的第二输出缓存单元、第一数据缓存单元、第二数据缓存单元均为随机存取存储器(Random Access Memory，RAM)。

图5为本发明一些具体实施例中卷积神经网络加速器的数据回写***的结构框图。参照图5，所述卷积神经网络加速器的数据回写***100包括输入缓存模块(图中未标示)、2级写回节点20和写回控制模块30。其中，2级写回节点20包括第一级写回节点21和第二级写回节点22，所述第一级写回节点21为所述第二级写回节点22的上一级，所述输入缓存模块10与第一级写回节点21连接，所述第一级写回节点21与所述第二级写回节点22连接，所述第二级写回节点22与所述写回控制模块30连接，所述写回控制模块30与总线(图中未标示)连接。

参照图5，所述输入缓存模块10包括16个输入缓存单元11，16个所述输入缓存单元11与16个计算单元(图中未标示)一一对应连接，以从相对应的计算单元内接收数据。

参照图5，所述第一级写回节点21包括4个写回节点，所述第二级写回节点22包括1个写回节点，所述第一级写回节点21的写回节点和所述第二级写回节点22的写回节点均包括4个接收缓存单元211、1个仲裁单元212、1个选择单元213、1个缓存管理单元214和1个第一输出缓存单元215。其中，所述接收缓存单元211的输入端与所述输入缓存单元11一一对应连接，同一所述写回节点中，4个所述接收缓存单元211的输出端分别与所述选择单元213的4个输入端连接，所述仲裁单元212的输出端与所述选择单元213的控制端连接，所述缓存管理单元214与4个所述接收缓存单元211和所述第一输出缓存单元215连接。

参照图5，所述第一级写回节点21中4个写回节点的第一输出缓存单元215的输出端分别与所述第二级写回节点22中写回节点的4个接收缓存单元211的输入端连接；所述第一级写回节点21中4个写回节点的缓存管理单元214均与所述第二级写回节点22中的缓存管理单元214连接。

虽然在上文中详细说明了本发明的实施方式，但是对于本领域的技术人员来说显而易见的是，能够对这些实施方式进行各种修改和变化。但是，应理解，这种修改和变化都属于权利要求书中所述的本发明的范围和精神之内。而且，在此说明的本发明可有其它的实施方式，并且可通过多种方式实施或实现。

Claims

1.一种卷积神经网络加速器的数据回写***，其特征在于，包括：

输入缓存模块，用于与计算单元连接，以接收数据；

写回控制模块，与最下一级所述写回节点连接，以从最下一级所述写回节点接收数据并传输给总线；

所述写回节点包括第一输出缓存单元、选择单元、至少两个接收缓存单元、仲裁单元和缓存管理单元，所述接收缓存单元的输出端与所述选择单元的输入端连接，所述选择单元的输出端与所述第一输出缓存单元的输入端连接，所述仲裁单元与所述选择单元连接，所述缓存管理单元分别与所述接收缓存单元和所述第一输出缓存单元连接；

上一级所述写回节点的数量与下一级所述写回节点的接收缓存单元的数量相适配；

所述写回控制模块包括地址映射单元，所述写回控制模块从最下一级所述写回节点接收的数据包括计算单元地址信息和计算结果数据，所述地址映射单元根据计算地址信息和起始地址信息计算写回地址。

2.根据权利要求1所述的卷积神经网络加速器的数据回写***，其特征在于，所述接收缓存单元包括相互连接的第一缓存状态单元和第一数据缓存单元，所述第一缓存状态单元与所述缓存管理单元连接。

3.根据权利要求1所述的卷积神经网络加速器的数据回写***，其特征在于，所述第一输出缓存单元包括相互连接的第二缓存状态单元和第二数据缓存单元，所述第二缓存状态单元与所述缓存管理单元连接。

4.根据权利要求1、2或3任一项所述的卷积神经网络加速器的数据回写***，其特征在于，相互连接的所述写回节点的缓存管理单元相互连接。

5.根据权利要求1所述的卷积神经网络加速器的数据回写***，其特征在于，所述输入缓存模块包括输入缓存单元，所述输入缓存单元的数量与最上一级所述写回节点的接收缓存单元的数量相适配。

6.根据权利要求5所述的卷积神经网络加速器的数据回写***，其特征在于，所述输入缓存单元包括缓存控制单元、第三数据缓存单元和第二输出缓存单元，所述缓存控制单元分别与所述计算单元、所述第三数据缓存单元以及相对应的所述写回节点的缓存管理单元连接，所述第三数据缓存单元和所述第二输出缓存单元连接。

7.根据权利要求1所述的卷积神经网络加速器的数据回写***，其特征在于，最下一级所述写回节点的数量为1。