CN115687229A - 一种ai训练板卡及基于此的服务器、服务器集群、分布式训练方法 - Google Patents
一种ai训练板卡及基于此的服务器、服务器集群、分布式训练方法 Download PDFInfo
- Publication number
- CN115687229A CN115687229A CN202211256378.9A CN202211256378A CN115687229A CN 115687229 A CN115687229 A CN 115687229A CN 202211256378 A CN202211256378 A CN 202211256378A CN 115687229 A CN115687229 A CN 115687229A
- Authority
- CN
- China
- Prior art keywords
- training
- chip
- server
- model
- training board
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Multi Processors (AREA)
Abstract
本发明提供一种AI训练板卡,所述AI训练板卡包括:多个AI处理芯片,用于迭代计算其被分配的AI模型的训练数据;多个存储芯片,其与所述AI处理芯片连接,用于存储AI模型的权重参数以及AI处理芯片计算的训练数据;第一网卡芯片以及第一扩展芯片,所述第一扩展芯片用于分别连接所述多个AI处理芯片与第一网卡芯片,用于在所述多个AI处理芯片之间更新所述AI模型的权重参数以及通过第一网卡芯片与其他AI训练板卡的多个AI处理芯片更新所述AI模型的权重参数。
Description
技术领域
本发明涉及计算机***领域,具体来说,涉及计算机***领域中的分布式集群服务器技术领域,更具体地说,涉及一种AI训练板卡及基于此的服务器、服务器集群、分布式训练方法。
背景技术
在过去的十几年里,深度学习发展迅速并在不同的人工智能(ArtificialIntelligence,AI)领域都取得了巨大的成功,诸如图像分类、语音识别、自然语言处理、无人机以及自动驾驶等领域。对于在深度学习领域中取得的技术进步,现有技术大致有两个发展趋势:
趋势一是随着AI模型越来越复杂和训练AI模型的数据集规模越来越庞大,当对复杂的AI模型进行训练时,硬件的计算能力成为了主要的技术瓶颈,针对此问题,现有技术大多采用英伟达(Nvidia)公司推出的图形处理器(Graphics Processing Unit,GPU)加速卡来加速AI模型的训练,但在单张NVIDIA K20 GPU上使用ImageNet数据集训练GoogleNet网络的时间需要21天,过长的训练时间极大的延长了开发AI模型及其部署的周期,而且随着训练任务的复杂化,在对AI模型进行训练时需要更加复杂的网络模型来进行更有效的特征学习,而复杂的网络模型意味着需要更多的模型参数和训练数据来保证模型的泛化能力,因此,研究人员逐渐将研究方向转向至分布式深度学习,期望通过利用更多的计算硬件的方式并行化深度学习的训练任务以降低开发AI模型的迭代周期。
趋势二是目前分布式深度学习训练中的主流方式——数据并行,其通过增大分布式训练过程中所使用的集群服务器节点数目的方式,可以有效降低总计算开销,如图1所示,单节点服务器通常会搭载一个通用CPU、一个高速网络接口控制器(Network InterfaceController,NIC)、4块或8块GPU加速卡以及PCIE(Peripheral Component InterfaceExpress,总线和接口标准)SWITCH芯片,其中,单节点服务器通过高速网络接口控制器与集群服务器通信。具体来说,在分布式训练过程中AI模型的数据集会被划分为多个相同大小的数据子集并分配给每个服务器及其内部的每个GPU加速卡,每台服务器需要根据各自的数据子集对AI模型进行多次迭代训练,在完成一次迭代计算后,服务器节点之间需要进行信息的交互以完成参数的更新。如图2所示,其展示了点对点的分布式架构,在该架构中,每块GPU执行计算任务的同时也要将其计算后的数据通过各自所在服务器唯一的网卡芯片(通常为NIC芯片)进行数据交互以维护并更新权重参数,即每块GPU在完成其梯度的计算后,会通过各自所在服务器唯一的网卡芯片将各自的梯度信息发送给其他所有GPU所在的服务器,同时等待其它GPU通过各自的服务器唯一的网卡芯片把对应的梯度信息发送给自己,然后进行权重的更新和开始下一次的迭代计算。然而,启动新一轮迭代计算任务依赖于上一轮迭代计算任务的结束,且每台服务器都需要计算海量的数据,因此,每台服务器内部会存在严重的带宽竞争问题,即多GPU在同一时刻竞争唯一网卡芯片对外通信的使用权,这样会导致每台服务器承受极大的通信压力、产生大量的通信开销。而且随着AI模型的规模复杂化和训练集群节点规模的扩展,每台服务器各自的唯一的网卡芯片对应的通信开销更会大幅度增长,这种高通信开销的方式严重限制了分布式深度学习原本的高性能及其易扩展的优势。
现有技术在分布式深度学习训练中对单节点服务器通常只配备一个网卡芯片,这样会导致服务器节点之间只能通过各自唯一的网卡芯片进行通信,而且随着分布式训练模型的复杂化和GPU数量的增加,单节点服务器的单个网卡芯片会面临海量的数据流量,尤其是当分布式深度学习的训练过程被划分为几百次的迭代计算以及单节点服务器内多个GPU加速卡并发访问网卡芯片时,可能会导致严重的通信拥塞,继而降低分布式深度学习的训练效率。因此,提升分布式深度学习的训练效率以及单节点服务器对外通信的网络带宽成为了亟待解决的问题。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种AI训练板卡以及基于此AI训练板卡的服务器、分布式集群服务器***和分布式深度学习训练方法。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种AI训练板卡,所述AI训练板卡包括:多个AI处理芯片,用于迭代计算其被分配的AI模型的训练数据;多个存储芯片,其与所述AI处理芯片连接,用于存储AI模型的权重参数以及AI处理芯片计算的训练数据;第一网卡芯片以及第一扩展芯片,所述第一扩展芯片用于分别连接所述多个AI处理芯片与第一网卡芯片,用于在所述多个AI处理芯片之间更新所述AI模型的权重参数以及通过第一网卡芯片与其他AI训练板卡的多个AI处理芯片更新所述AI模型的权重参数。
在本发明的一些实施例中,所述AI处理芯片被配置为昇腾910芯片或者思元370芯片、BM系列芯片、GPU中的任一芯片,所述存储芯片被配置为DDR4 SDRAM芯片,所述第一网卡芯片被配置为Hi1822芯片,所述第一扩展芯片被配置为PEX88048芯片或者PEX88000系列芯片。
根据本发明的第二方面,提供一种服务器,应用于AI模型分布式训练,所述服务器包括:CPU,用于将服务器被分配的所述AI模型的部分数据集划分为多个大小相同的数据子集,其中,每个数据子集分配给一个AI训练板卡;多个如本发明第一方面所述的AI训练板卡,每个AI训练板卡用于对其被分配的数据子集进行迭代计算;第二扩展芯片,用于连接所述CPU与多个AI训练板卡;第二网卡芯片,用于实现其所在的服务器与其他服务器之间的通信。
在本发明的一些实施例中,所述服务器包括多个由CPU、第二扩展芯片、多个如本发明第一方面所述的AI训练板卡组成的单元。
根据本发明的第三方面,提供一种应用于AI模型训练的分布式集群服务器***,所述***包括:多个如本发明第二方面所述的服务器,每个服务器用于对其被分配的所述AI模型的部分数据集进行迭代计算;集群互连***,用于提供服务器之间的网络通信通道。
在本发明的一些实施例中,所述集群互连***包括:多个接入交换机,用于为所述服务器及其内部的AI训练板卡提供网络通信通道;核心交换机,其与所述多个接入交换机连接,用于汇总和转发来自接入交换机的数据。
根据本发明的第四方面,提供一种基于本发明第三方面所述的分布式集群服务器***的AI模型分布式训练方法,所述方法包括如下步骤:S1、基于分布式集群服务器***中服务器的数量,将用于训练AI模型的数据集划分为多个相同大小的第一数据子集并分配给每个服务器,其中,每个服务器对应一个第一子数据集;S2、基于每个服务器中的AI训练板卡的数量,将每个服务器被分配的第一数据子集划分为多个相同大小的第二数据子集并分配给每个AI训练板卡,其中,每个AI训练板卡对应一个第二数据子集;S3、每个AI训练板卡对其各自的第二数据子集进行多次迭代计算直至所述AI模型收敛。
在本发明的一些实施例中,在所述步骤S3中,在每次迭代计算后,获取每个AI训练板卡对应的AI模型权重参数,并将其发送至其他所有AI训练板卡以更新每个AI训练板卡对应的AI模型权重参数。
与现有技术相比,本发明的优点在于:
1、本发明针对现有技术中对AI模型进行分布式深度学习训练时单节点服务器可能面临的通信拥塞的问题,通过对单节点服务器中的每个AI训练板卡配置至少一个NIC芯片以使每个AI训练板卡能够独立通信,提高了单节点服务器对外的网络通信能力、分布式深度学习的训练效率以及集群服务器的扩展性。
2、本发明设计的单个AI训练板卡能够支持2个及以上的AI处理芯片,大幅提升了单个AI训练板卡的计算能力与分布式深度学习的训练能力。
3、本发明设计的AI训练板卡适用于多种AI处理芯片和NIC芯片,可以灵活进行配置,增强了AI训练板卡在不同通信环境中的适应性。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为现有技术中的传统服务器的内部结构示意图;
图2为现有技术中的点对点的分布式架构示意图;
图3为根据本发明实施例的AI训练板卡的内部结构示意图;
图4为根据本发明实施例的AI训练板卡的工作原理示意图;
图5为根据本发明实施例的基于AI训练板卡的分布式集群服务器的工作原理示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如背景技术中提到的,现有技术的分布式深度学习方法通常对单节点服务器只配置一个网卡芯片,这样会使得单节点服务器的单个网卡芯片需要处理海量的数据流量,而且当单节点服务器中的多个GPU加速卡并发访问网卡芯片时会进一步导致单节点服务器面临严重的通信拥塞以及降低分布式深度学习的训练效率。为了解决现有技术中的这些问题,本发明设计了一种AI训练板卡以及基于此AI训练板卡的服务器、分布式集群服务器***和分布式深度学习训练方法,通过在AI训练板卡内部集成新的网卡芯片来实现AI训练板卡之间的通信,并以此提高单节点服务器对外通信的网络带宽,从而进一步提高分布式深度学习的训练效率。
为了更好的理解本发明,首先介绍一下本发明设计的AI训练板卡的应用环境。首先,本发明设计的AI训练板卡需要与服务器配合使用,即在具体的使用过程中需要将AI训练板卡***至服务器主板中进行工作;其次,当服务器主机中配置好AI训练板卡后,服务器主机***会在应用软件的调度下将该台服务器被分配的AI模型的部分数据集通过PCIE接口传输到AI训练板卡中进行迭代计算以获取该台服务器主机计算后的训练数据;最后,将每个AI训练板卡的训练数据与其他AI训练板卡进行通信以更新每个AI训练板卡对应的AI模型的权重参数。需要指出的是,本发明采用的服务器主机***可以是ARM架构或者X86架构,本发明对此不做限定,本发明的AI训练板卡采用的是PCIE X16接口和PCIE 4.0高速通信协议,能够兼容主流的PCIE 3.0协议,本发明对此也不做限定。
下面结合附图及实施例从AI训练板卡的结构、配置了AI训练板卡的服务器的工作过程两个方面详细说明本发明。
一、AI训练板卡的结构
本发明设计的AI训练板卡通过将AI处理芯片和NIC芯片共同集成在AI训练板卡内部以使其具备独立通信的能力,能够直接与其他AI训练板卡进行通信,这样的集成方式增加了其所在服务器对外通信的通道,大幅提升了单台服务器与其他服务器通信的网络带宽。如图3所示,根据本发明的一个实施例,本发明设计的AI训练板卡包括:一个或2个或3个由AI处理芯片和存储芯片组成的计算单元、NIC芯片(即第一网卡芯片)、PCIE SWITCH芯片(本发明中称为第一扩展芯片)以及时钟拓展模块。需要说明的是,PCIE SWITCH芯片的下游端口最多拥有四个IO接口,即最多可以连接四个IO设备,由于第一网卡芯片已占据一个IO接口,故PCIE SWITCH芯片最多连接三个计算单元,如果有其他与PCIE SWITCH芯片具备同样功能且拥有更多个端口的扩展芯片时,AI训练板卡内可配置更多的计算单元,图3中的N表示计算单元的数量,本发明不对其做具体的限定。其中,AI处理芯片用于在AI模型训练时迭代计算其被分配的AI模型的训练数据;存储芯片用于存储AI模型的权重参数以及与其连接的AI处理芯片计算的训练数据;第一网卡芯片用于当前AI训练板卡与其他AI训练板卡之间的通信以使其所在的AI处理芯片基于其他AI训练板卡计算的训练数据更新所述AI模型的权重参数;第一扩展芯片用于连接所有由AI处理芯片和存储芯片组成的计算单元与第一网卡芯片;时钟拓展模块,其时钟信号的输出端分别连接AI处理芯片、第一网卡芯片,为与其连接的各个芯片提供时钟信号,例如,在PCIE协议中100MHZ是PCIE设备的基准时钟,AI训练板卡利用此基础时钟进行内部倍频来为其内部的各个芯片提供时钟信号。根据本发明的一个实施例,AI训练板卡中的多个AI处理芯片通过并联堆叠的方式连接,以此为AI模型的训练提供强大的深度学习训练能力,且AI训练板卡通过其内的第一网卡芯片与其他AI训练板卡进行通信以实现高带宽的网络互联。需要指出的是,本发明的AI处理芯片、存储芯片、第一网卡芯片以及第一扩展芯片的数量可以根据实际通信场景设置,本发明不对上述芯片数量做具体限定。
根据本发明的一个实施例,本发明的AI处理芯片采用的芯片型号为昇腾910芯片,其16位浮点数(FP16)的性能可以达到256TFLOPS,能够为本发明训练AI模型时提供强大的深度学习推理和训练的能力;本发明的存储芯片采用的芯片型号为DDR4 SDRAM芯片,其与AI处理芯片连接,该型号的存储芯片能够为本发明的AI处理芯片提供高带宽的访存保障,以使与该存储芯片连接的AI处理芯片能够高效率的读写存储数据;本发明的第一网卡芯片采用的芯片型号为Hi1822芯片,其能够提供100Gbps高性能带宽,以使其所在的AI训练板卡与其他AI训练板卡能够高速、稳定的通信;由于本发明采用的昇腾910芯片集成了PCIE 4.0和RoCE v2接口,具备PCIE和ROCE协议通信的特点,故本发明的第一扩展芯片采用的芯片型号为PEX88048芯片,其主要作用是扩展其所在CPU的PCIE信号通道,以及将AI训练板卡内所有由AI处理芯片和存储芯片组成的计算单元与第一网卡芯片连接以实现AI处理芯片和NIC芯片的互联管理。
二、配置了AI训练板卡的服务器的工作过程
上述部分主要介绍了AI训练板卡的内部结构及其连接方式,接下来介绍应用有AI训练板卡的服务器的一般结构以及服务器在AI模型的分布式深度学习训练过程中的工作过程。
为了更好的理解配置了本发明的AI训练板卡的服务器在AI模型的分布式深度学习训练过程中的工作过程,首先结合图1说明一下服务器的一般结构,服务器的一般结构通常包括CPU和PCIE SWITCH芯片,现有技术下,在服务器的一般结构的基础上通常会搭载多个GPU加速卡和一个网卡芯片,这种设计方式的缺陷在于每台服务器只有一个网络接口,当有海量的数据需要进行传输时,每台服务器会面临对外通信的网络带宽不足、传输速率低下、通信延迟以及通信受限等问题,针对这些问题,发明人通过在服务器的一般结构的基础上配置多个本发明设计的AI训练板卡来解决上述问题,所述每个AI训练板卡内部都配置有一个网卡芯片,因此,每个AI训练板卡可以不通过服务器的网络接口而直接与其他AI训练板卡通信,极大的扩展了服务器的通信带宽。根据本发明的一个实施例,如图4所示,其示出了包括一个AI训练板卡的服务器的结构,其包括CPU,与所述CPU相连接的PCIE SWITCH芯片(本发明中称为第二扩展芯片),所述第二扩展芯片与所述AI训练板卡的第一扩展芯片的上游端口(Upstream Port)相连接,用于在所述CPU和所述AI训练板卡之间进行通信。其中,在所述AI训练板卡中,第一扩展芯片的下游端口(Downstream Port)分别与AI处理芯片、第一网卡芯片通信。需要指出的是,本发明设计的AI训练板卡中的AI处理芯片、存储芯片、第一网卡芯片以及第一扩展芯片所采用的具体芯片型号均可被替换,例如,AI处理芯片还可以采用思元370芯片、BM系列芯片或者GPU,第一扩展芯片还可以采用PEX88000系列芯片,因此,本发明不对固定的芯片型号做具体限定。
根据本发明的一个实施例,如图5所示,其展示了两台服务器与集群互连***的连接关系及内部结构。其中,图5所示的服务器与图4的服务器的不同在于图5的每个服务器中包括了4个AI训练板卡,而不是一个AI训练板卡。单台服务器中可以配置多个CPU单元,图5中仅展示了单台服务器配置有一个CPU单元时各个芯片的连接关系,所述CPU单元由CPU、第二扩展芯片(图5的实施例中,第二扩展芯片仍然采用的PCIE SWITCH芯片)、多个AI训练板卡组成,且PCIE SWITCH芯片的下游端口最多拥有四个IO接口,即最多连接四个IO设备。因此当四个IO接口中有空闲接口(即所连接的AI训练板卡数量不超过三个)时,所述第二网卡芯片可直接与该PCIE SWITCH芯片连接,而当此四个IO接口均用于连接AI训练板卡时便无法再与第二网卡芯片连接,因此在图5中,还包括一个第三扩展芯片,通过该第三扩展芯片来连接第二网卡芯片。具体来说,第三扩展芯片的上游端口连接其所在服务器中的任一CPU,其下游端口连接第二扩展芯片和第二网卡芯片,其中,第二网卡芯片采用的具体芯片型号与第一网卡芯片可以相同,也可以不同;第二扩展芯片和第三扩展芯片采用的具体芯片型号与第一扩展芯片可以相同,也可以不同。如图5所示,两台服务器之间通过相应的第二网卡芯片相连接,用于传送计算AI模型的数据,以在服务器之间分配计算数据;服务器内的CPU用于将该服务器被分配的AI模型的部分数据集划分为多个大小相同的数据子集,且每个数据子集分配给一个AI训练板卡;每个AI训练板卡用于对其被分配的数据子集进行迭代计算;第二扩展芯片用于连接其所在服务器的CPU与多个AI训练板卡,进行数据的交换;第一服务器中的每个AI训练板卡中的第一网卡芯片,分别与第二服务器中的每个AI训练板卡中的第一网卡芯片进行连接,用于实现其所在的第一服务器与第二服务器之间的通信。需要指出的是,本发明采用的芯片的型号、数量可以根据实际通信环境设置,本发明不对其做具体限定。
仍旧参照图5,接下来介绍利用了本发明的AI训练板卡的服务器在AI模型的分布式深度学习训练过程中的工作过程。基于本发明设计的AI训练板卡的服务器应用于分布式集群服务器***,该分布式集群服务器***包括集群互连***与多个服务器,其中,集群互连***包括一个核心交换机与多个接入交换机。接入交换机用于提供服务器之间的网络通信通道,其通过其上的网络接口与每个AI训练板卡的第一网卡芯片、服务器的第二网卡芯片分别建立网络通信通道以进行AI模型的计算数据的交互,图5中的M表示接入交换机的数量,M可以根据实际通信环境进行设置,本发明不做具体限定;核心交换机分别与每个接入交换机相连接,用于汇总和转发来自接入交换机的数据以实现对AI模型的分布式深度学习训练。在AI模型的分布式深度学习训练过程中,首先集群服务器***中的一个控制服务器(该控制服务器可以是用于AI模型计算的一个服务器,或者是一个用于控制其他服务器的一个专用服务器)会根据服务器的总数量将用于训练AI模型的数据集划分为多个相同大小的第一数据子集并分配给每个服务器,且每个服务器只被分配一个第一子数据集;然后每台服务器根据其内的AI训练板卡的数量将其被分配的AI模型的第一数据子集划分为多个更小的第二数据子集,并通过PCIE总线将所述第二数据子集分配给其内的每个AI训练板卡,其中,每个AI训练板卡只被分配一个第二数据子集;最后每个AI训练板卡对其各自的第二数据子集进行多次迭代计算直至AI模型收敛。其中,在每次迭代计算后,每个AI训练板卡会获取其对应的AI模型权重参数,并将此权重参数通过其内的第一网卡芯片与其他AI训练板卡进行网络通信以更新每个AI训练板卡对应的AI模型权重参数。由此可知,本发明通过AI训练板卡之间通信的方式解决了现有技术的分布式深度学习中单一网络通信接口通信拥塞的问题。
与现有技术相比,本发明的优点在于:
1、本发明针对现有技术中对AI模型进行分布式深度学习训练时单节点服务器可能面临的通信拥塞的问题,通过对单节点服务器中的每个AI训练板卡配置至少一个NIC芯片以使每个AI训练板卡能够独立通信,提高了单节点服务器对外的网络通信能力、分布式深度学习的训练效率以及集群服务器的扩展性。
2、本发明设计的单个AI训练板卡能够支持2个及以上的AI处理芯片,大幅提升了单个AI训练板卡的计算能力与分布式深度学习的训练能力。
3、本发明设计的AI训练板卡适用于多种AI处理芯片和NIC芯片,可以灵活进行配置,增强了AI训练板卡在不同通信环境中的适应性。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种AI训练板卡,其特征在于,所述AI训练板卡包括:
多个AI处理芯片,用于迭代计算其被分配的AI模型的训练数据;
多个存储芯片,其与所述AI处理芯片连接,用于存储AI模型的权重参数以及AI处理芯片计算的训练数据;
第一网卡芯片以及第一扩展芯片,所述第一扩展芯片用于分别连接所述多个AI处理芯片与第一网卡芯片,用于在所述多个AI处理芯片之间更新所述AI模型的权重参数以及通过第一网卡芯片与其他AI训练板卡的多个AI处理芯片更新所述AI模型的权重参数。
2.根据权利要求1所述的AI训练板卡,其特征在于,所述AI处理芯片被配置为昇腾910芯片或者思元370芯片、BM系列芯片、GPU中的任一芯片,所述存储芯片被配置为DDR4 SDRAM芯片,所述第一网卡芯片被配置为Hi1822芯片,所述第一扩展芯片被配置为PEX88048芯片或者PEX88000系列芯片。
3.一种服务器,应用于AI模型分布式训练,其特征在于,所述服务器包括:
CPU,用于将服务器被分配的所述AI模型的部分数据集划分为多个大小相同的数据子集,其中,每个数据子集分配给一个AI训练板卡;
多个如权利要求1-2任一所述的AI训练板卡,每个AI训练板卡用于对其被分配的数据子集进行迭代计算;
第二扩展芯片,用于连接所述CPU与多个AI训练板卡;
第二网卡芯片,用于实现其所在的服务器与其他服务器之间的通信。
4.根据权利要求3所述的服务器,其特征在于,所述服务器包括多个由CPU、第二扩展芯片、多个如权利要求1-2任一所述的AI训练板卡组成的单元。
5.一种应用于AI模型训练的分布式集群服务器***,其特征在于,所述***包括:
多个如权利要求3-4任一所述的服务器,每个服务器用于对其被分配的所述AI模型的部分数据集进行迭代计算;
集群互连***,用于提供服务器之间的网络通信通道。
6.根据权利要求5所述的应用于AI模型训练的分布式集群服务器***,其特征在于,所述集群互连***包括:
多个接入交换机,用于为所述服务器及其内部的AI训练板卡提供网络通信通道;
核心交换机,其与所述多个接入交换机连接,用于汇总和转发来自接入交换机的数据。
7.一种基于权利要求5-6任一所述的分布式集群服务器***的AI模型分布式训练方法,其特征在于,所述方法包括如下步骤:
S1、基于分布式集群服务器***中服务器的数量,将用于训练AI模型的数据集划分为多个相同大小的第一数据子集并分配给每个服务器,其中,每个服务器对应一个第一子数据集;
S2、基于每个服务器中的AI训练板卡的数量,将每个服务器被分配的第一数据子集划分为多个相同大小的第二数据子集并分配给每个AI训练板卡,其中,每个AI训练板卡对应一个第二数据子集;
S3、每个AI训练板卡对其各自的第二数据子集进行多次迭代计算直至所述AI模型收敛。
8.根据权利要求7所述的方法,其特征在于,在所述步骤S3中,在每次迭代计算后,获取每个AI训练板卡对应的AI模型权重参数,并将其发送至其他所有AI训练板卡以更新每个AI训练板卡对应的AI模型权重参数。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序可被处理器执行以实现权利要求7-8所述方法的步骤。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求7-8所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256378.9A CN115687229A (zh) | 2022-10-14 | 2022-10-14 | 一种ai训练板卡及基于此的服务器、服务器集群、分布式训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256378.9A CN115687229A (zh) | 2022-10-14 | 2022-10-14 | 一种ai训练板卡及基于此的服务器、服务器集群、分布式训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687229A true CN115687229A (zh) | 2023-02-03 |
Family
ID=85065643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211256378.9A Pending CN115687229A (zh) | 2022-10-14 | 2022-10-14 | 一种ai训练板卡及基于此的服务器、服务器集群、分布式训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687229A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116074179A (zh) * | 2023-03-06 | 2023-05-05 | 鹏城实验室 | 基于cpu-npu协同的高扩展节点***及训练方法 |
CN116541338A (zh) * | 2023-06-27 | 2023-08-04 | 苏州浪潮智能科技有限公司 | 一种计算***、模型训练方法、装置及产品 |
-
2022
- 2022-10-14 CN CN202211256378.9A patent/CN115687229A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116074179A (zh) * | 2023-03-06 | 2023-05-05 | 鹏城实验室 | 基于cpu-npu协同的高扩展节点***及训练方法 |
CN116541338A (zh) * | 2023-06-27 | 2023-08-04 | 苏州浪潮智能科技有限公司 | 一种计算***、模型训练方法、装置及产品 |
CN116541338B (zh) * | 2023-06-27 | 2023-11-03 | 苏州浪潮智能科技有限公司 | 一种计算***、模型训练方法、装置及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115687229A (zh) | 一种ai训练板卡及基于此的服务器、服务器集群、分布式训练方法 | |
US12001681B2 (en) | Distributed storage system and data processing method | |
TWI803663B (zh) | 一種運算裝置和運算方法 | |
US20220121603A1 (en) | Network-on-chip data processing method and device | |
CN111262917A (zh) | 一种基于fpga云平台的远端数据搬移装置和方法 | |
CN113312283A (zh) | 一种基于fpga加速的异构图学习*** | |
KR20210044180A (ko) | 고급 상호 연결 통신기술을 이용한 ai 훈련 가속화 방법 및 시스템 | |
CN117493237B (zh) | 计算设备、服务器、数据处理方法和存储介质 | |
CN116842998A (zh) | 一种基于分布式优化的多fpga协同训练神经网络方法 | |
CN115033188A (zh) | 一种基于zns固态硬盘的存储硬件加速模块*** | |
CN111860773A (zh) | 处理装置和用于信息处理的方法 | |
US11409839B2 (en) | Programmable and hierarchical control of execution of GEMM operation on accelerator | |
US20230403232A1 (en) | Data Transmission System and Method, and Related Device | |
WO2023134735A1 (zh) | 计算设备、数据处理方法、***及相关设备 | |
CN115879543A (zh) | 一种模型训练方法、装置、设备、介质及*** | |
CN111078286B (zh) | 数据通信方法、计算***和存储介质 | |
EP4142217A1 (en) | Inter-node communication method and device based on multiple processing nodes | |
EP4315168A1 (en) | Sparse machine learning acceleration | |
CN112906877A (zh) | 用于执行神经网络模型的存储器架构中的数据布局有意识处理 | |
WO2020051918A1 (zh) | 神经元电路、芯片、***及其方法、存储介质 | |
CN111767999A (zh) | 数据处理方法、装置及相关产品 | |
CN117114055B (zh) | 面向工业应用场景的fpga二值神经网络加速方法 | |
CN212696010U (zh) | 一种有源配电网实时仿真器的网络通讯接口 | |
US20240201990A1 (en) | Fused Data Generation and Associated Communication | |
US20230259486A1 (en) | Neural processing unit synchronization systems and methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |