CN111090611A

CN111090611A - 一种基于fpga的小型异构分布式计算***

Info

Publication number: CN111090611A
Application number: CN201811247613.XA
Authority: CN
Inventors: 陈钰文
Original assignee: Shanghai Xuehu Information Technology Co Ltd
Current assignee: Shanghai Xuehu Information Technology Co Ltd
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2020-05-01

Abstract

本发明公开了计算量密集型硬件设计技术领域的一种基于FPGA的小型异构分布式计算***，包括数据输入模块、数据计算模块和数据回传模块；所述数据输入模块，用于将数据打散重组且以流水线形式成串发送至数据计算模块；所述数据计算模块，用于接收数据输入模块，且用于将数据传输给数据回传模块；所述数据回传模块，用于通过乱序回传数据将前级数据输入模块计算输出结果到来的先后数序进行分组，本发明可以最大程度的发挥FPGA流水计算，吞吐量大的优势，非常适合告密的计算需求；在分布式的核心计算单元采用FPGA级联可配置的策略，来根据具体计算需求来进行配置。

Description

一种基于FPGA的小型异构分布式计算***

技术领域

本发明涉及计算量密集型硬件设计技术领域，具体为一种基于FPGA的小型异构分布式计算***。

背景技术

现有的大多数软件开源框架都是基于操作***的，对于操作***是来说，它又是基于硬件单元的，而硬件单元中涉及到计算的核心单元是CPU。目前可能根据厂家的不同或者是指令集的不同，CPU可以分为x86、MIPS、POWERPC、ARM等不同架构，但其本质上都是冯氏体系架构，每一次运算都会化简成单条指令的执行，单条指令再经历访存、取指、译码、执行、写回这些最基本的步骤完成其实际的生命周期。因此从微观上角度分析，每一次计算CPU都会进行比较复杂耗时的指令翻译执行过程。不但如此，对于CPU来说，其多条指令间的执行必须按序执行，即下一条指令必须等待上一条指令执行完成才能继续执行，所以微观上累计的耗时计算将导致宏观实时高密度计算的无法满足。虽然针对CPU的计算性能不足，提出了种种譬如分支预测、超标量、超线程、超频等等优化方段，但其仅仅是优化，其最根本的架构问题并未消除。

针对计算量和复杂度剧增的市场需求，GPU也得到了越来越广泛的应用。GPU较于CPU来说，其具有CPU不具备的数据并行能力，能对数据进行分块并行运算，因此有较大的数据吞吐率，能够比较好的的支持类似多媒体、图像、音视频这种大数据量的流式计算。但是GPU目前对大部分应用也是运行在操作***之上的，也需要和CPU进行交互，其计算过程又在基于CPU框架里绕了一圈，其弊端就显而易见了。此外，更为关键的是，GPU也就仅仅能做数据并行而已，其无法实现深度流水的计算模块，而且进入GPU的数据必须是在一次计算过程中前后没有交叉关系的，一旦数据之间相互关联，就必须等待前一次数据准备完成，才能进入下一次的数据计算。因此虽然实现了数据并行，其实并没有真正使用到，并行的数据必须等之前一次运算的数据完成才能真正进行计算。

现有的分布式计算***的计算单元采用的式冯氏体系架构的CPU或GPU，其中CPU并不适合作为密集型的数据计算，CPU更适合于任务调度，GPU虽然效率较高，但仍只是数据并行，其指令流水深度仍有限，因此这二者并不适合密集型计算；现有的针对加速的FPGA计算模块均采用高性能FPGA芯片通过PCIE协议级联的方式来组合形成FPGA计算块，这样对于PCB设计、成本等方面的要求都会带来很大要求，此外这种方式对FPGA集成的数量会有限制，而且一旦该集成模块中的单块FPGA发生故障，就会造成整个***的瘫痪；在分布式计算***的计算节点，没有采用CPU+NIC的方式接收节点数据。

基于此，本发明设计了一种基于FPGA的小型异构分布式计算***，以解决上述问题。

发明内容

本发明的目的在于提供一种基于FPGA的小型异构分布式计算***，以解决上述背景技术中提出的现有的分布式计算***的计算单元采用的式冯氏体系架构的CPU或GPU，其中CPU并不适合作为密集型的数据计算，CPU更适合于任务调度，GPU虽然效率较高，但仍只是数据并行，其指令流水深度仍有限，因此这二者并不适合密集型计算；现有的针对加速的FPGA计算模块均采用高性能FPGA芯片通过PCIE协议级联的方式来组合形成FPGA计算块，这样对于PCB设计、成本等方面的要求都会带来很大要求，此外这种方式对FPGA集成的数量会有限制，而且一旦该集成模块中的单块FPGA发生故障，就会造成整个***的瘫痪；在分布式计算***的计算节点，没有采用CPU+NIC的方式接收节点数据的问题。

为实现上述目的，本发明提供如下技术方案：一种基于FPGA的小型异构分布式计算***，包括数据输入模块、数据计算模块和数据回传模块；

所述数据输入模块，用于将数据打散重组且以流水线形式成串发送至数据计算模块；

所述数据计算模块，用于接收数据输入模块，且用于将数据传输给数据回传模块；

所述数据回传模块，用于通过乱序回传数据将前级数据输入模块计算输出结果到来的先后数序进行分组。

优选的，所述数据输入模块包括但不局限于CPU、FPGA和DDR硬件模块；

所述FPGA模块，用于数据的接收和数据的打散重组；

所述CPU模块通过QPI协议和FPGA模块高速直连，用于CPU模块快速动态配置FPGA模块收发数据。

优选的，所述数据输入模块还包括至少两组的以太网物理接口，一组所述以太网物理接口，用于接收数据；

另一组所述以太网物理接口，用于数据转发。

优选的，所述数据输入模块还包括重组流水线模块，且用于接收数据的所述以太网物理接口可将串行输入数据展开并并行数据传递给重组流水线模块。

优选的，所述数据计算模块包括至少一组的数据计算单元，且所述数据计算单元包括单组FPGA、DDR和至少两组的以太网物理接口。

优选的，所述数据回传模块包括后级处理模块，且所述后级处理模块，用于将重组数据通过深度流水的方式提高数据吞吐量。

与现有技术相比，本发明的有益效果是：本发明可以最大程度的发挥FPGA流水计算，吞吐量大的优势，非常适合告密的计算需求；在分布式的核心计算单元采用FPGA级联可配置的策略，来根据具体计算需求来进行配置；在数据分发模块和数据回传模块，FPGA通过QPI总线与CPU进行通信，CPU可以直接访问FPGA的内存控制器，可以直接通知FPGA读取写入数据，这样比传统的CPU和FPGA共享内存的方式要省去大量的时间；通过FPGA实现网络协议栈直接收发网络数据包，可以节省CPU在收发校验过程中大量译码执行的时间，总体收发时间能提高一个数量级。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明分布式异构计算***整体框架图；

图2为本发明分布式异构计算***硬件框架图；

图3为本发明图2的具体实施框架图；

图4为本发明图3的左端放大图；

图5为本发明图4的右端连接放大图；

图6为本发明图5的右端连接放大图；

图7为本发明图6的右端连接放大图；

图8为本发明数据计算单元框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-8，本发明提供一种技术方案：一种基于FPGA的小型异构分布式计算***，包括数据输入模块、数据计算模块和数据回传模块；

需要说明的是，***由三部分组成，分别是数据输入模块、数据计算模块和数据回传模块。输入模块由CPU、FPGA和DDR等硬件模块构成。输入数据通过网络传入到输入模块后，直接由FPGA接收，然后将数据打散重组，并以流水线的方式转发出去。输入模块中的CPU通过QPI协议和FPGA高速直连，这里的CPU起到可快速动态配置FPGA收发数据相关策略的功能，不直接参与数据的收发、验证、重组等。输入模块中的FPGA在内部实现完整的TCP/IP协议栈，外部配置一组(共两个)以太网物理接口，一个专门用于接收数据，另一专门用于转发数据。在数据接收一端，将串行输入数据展开成并行数据传递给重组流水线模块；在数据输出一端，在数据转发之前，通过局部倍频方式再将重组流水线模块的并行输出数据转成串行数据。重组完成的数据将以高于输入速率数倍的方式串行分发给后级计算模块。计算模块由一组计算单元构成，每个计算单元为单块FPGA、DDR、两个以太网物理接口。从输入模块分发过来的数据经过交换机之后到达每一个计算单元，计算单元通过内部实现了TCP/IP协议栈的IP来接收数据，并将数据传递给专门计算的IP，计算完成后，再将数据通过以太网接口转发给后级回传模块。数据回传模块硬件组成和数据输入模块相同，但数据回传模块的FPGA是以乱序回传数据，具体是根据前级计算模块计算输出结果到来的先后顺序进行分组。

更进一步的实施方式为，所述数据输入模块包括但不局限于CPU、FPGA和DDR硬件模块；

所述FPGA模块，用于数据的接收和数据的打散重组；

更进一步的实施方式为，所述数据输入模块还包括至少两组的以太网物理接口，一组所述以太网物理接口，用于接收数据；

另一组所述以太网物理接口，用于数据转发。

更进一步的实施方式为，所述数据输入模块还包括重组流水线模块，且用于接收数据的所述以太网物理接口可将串行输入数据展开并并行数据传递给重组流水线模块。

更进一步的实施方式为，所述数据计算模块包括至少一组的数据计算单元，且所述数据计算单元包括单组FPGA、DDR和至少两组的以太网物理接口。

更进一步的实施方式为，所述数据回传模块包括后级处理模块，且所述后级处理模块，用于将重组数据通过深度流水的方式提高数据吞吐量；

如图2所示，本发明所设计的分布式异构计算***硬件框架包括前端数据分发模块、数据计算单元、数据回传单元。图3则是图2的具体设计方案。数据分发模块采用CPU+FPGA的架构，CPU和FPGA通过PCIE或QPI总线连接。前端网络数据通过路由或者交换机输入到数据分发模块，由数据分发模块中的FPGA和其级联的DDR共同进行缓存。如果此时后级计算模块不需要对数据进行重组，由FPGA直接将缓存的数据通过内部集成的数据分发IP单元并行分发出去。如果后级FPGA计算单元需要在计算之前对数据进行重组，直接在FPGA缓冲模块后串行接入数据重组模块，然后再转发给后级计算单元。如果数据重组比较复杂，需要动态进行改变的重组策略的情况下，可将重组需要的操作转换为FPGA内部MIG模块相对应的指令，让后通过CPU和FPGA直连的PCIE或者QPI总线直接发送给FPGA，使FPGA在高效缓冲数据的同时也能快速的改变数据重组的策略。数据计算单元完全由多组单块FPGA组成，其总数量根据实际计算量或者通信任务进行动态分配。单块FPGA中的数据计算单元由内部独有的IPCore完成。数据回传单元的硬件组成与数据分发模块一致，不同在于CPU传送给FPGA的MIG指令以及FPGA内部数据结果重组模块和结果回传模块的具体设计实现。

如图3所示，数据分发模块通过交换机或者其它网络设备与数据计算模块进行级联，数据计算单元再通过另一台交换机或者网络设备与后级数据回传模块级联，使用两组网络设备的原因是为了充分适配计算单元模块中的深度流水结构，保证***的高的数据吞吐能力。

如图4-7所示，数据分发和数据回传模块的硬件架构相同，在FPGA***部分均是配备两个网络物理接口，此物理接口可以是RJ45，或者是ST、SC。对于数据分发模块，其通过一个端口接收网络计算数据，在通过内部专用IPCore以深度流水的方式进行数据重组，然后再由另一端口转发给后级处理模块。通过双端口和深度流水的方式，来极大的提高数据吞吐率。对于数据回传模块，其在内部专用IPCore的设计与数据接收模块不同，数据回传模块的IPCore功能是将乱序到达的计算结果按规律重新打包并附上标签然后在回传给后级模块。数据分发和数据回传模块均在FPGA内部实现网络协议栈。如图8，数据计算单元由单块FPGA加双网络接口组成。根据实际需求，此单块计算单元可以以单个节点进行部署，也可以根据计算任务复杂情况进行局部互联成星型网络或者环形网络，所组成的局部网络和其他节点一起构成该计算***中的计算单元部分。因此，计算单元部分在结构上会计算任务的需求而动态配置。在计算单元的每一个节点内部，均采用专有IPCore进行并行流水计算。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于FPGA的小型异构分布式计算***，其特征在于：包括数据输入模块、数据计算模块和数据回传模块；

2.根据权利要求1所述的一种基于FPGA的小型异构分布式计算***，其特征在于：所述数据输入模块包括但不局限于CPU、FPGA和DDR硬件模块；

所述FPGA模块，用于数据的接收和数据的打散重组；

3.根据权利要求2所述的一种基于FPGA的小型异构分布式计算***，其特征在于：所述数据输入模块还包括至少两组的以太网物理接口，一组所述以太网物理接口，用于接收数据；

另一组所述以太网物理接口，用于数据转发。

4.根据权利要求3所述的一种基于FPGA的小型异构分布式计算***，其特征在于：所述数据输入模块还包括重组流水线模块，且用于接收数据的所述以太网物理接口可将串行输入数据展开并并行数据传递给重组流水线模块。

5.根据权利要求1所述的一种基于FPGA的小型异构分布式计算***，其特征在于：所述数据计算模块包括至少一组的数据计算单元，且所述数据计算单元包括单组FPGA、DDR和至少两组的以太网物理接口。

6.根据权利要求1所述的一种基于FPGA的小型异构分布式计算***，其特征在于：所述数据回传模块包括后级处理模块，且所述后级处理模块，用于将重组数据通过深度流水的方式提高数据吞吐量。