WO2020199143A1

WO2020199143A1 - Ai训练网络及方法

Info

Publication number: WO2020199143A1
Application number: PCT/CN2019/081161
Authority: WO
Inventors: 沈胜宇; 吴聿旻
Original assignee: 华为技术有限公司
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2020-10-08
Also published as: CN112042168B; CN112042168A; EP3934205B1; WO2020199560A1; EP3934205A1; US20220012590A1; EP3934205A4

Abstract

一种人工智能训练技术，应用于人工智能AI训练网络，在位于不同服务器的图形处理单元需要通信之前，提前开始建立通信用的光通道，一旦前一个服务器的图形处理单元完成自身的计算后，无需等待或者仅等待少量时间即可立刻把计算结果发送给下一个服务器的图形处理单元，从而节约了AI训练的时间消耗。

Description

AI训练网络及方法

技术领域

本申请涉及人工智能领域，尤其涉及一种AI训练网络及方法。

背景技术

在人工智能领域的AI训练中，使用大量加速器(加速器例如可以是GPU、CPU，可以提供算力)进行计算，计算一个神经网络的最优结构参数，使得该网络能完成特定的工作。所谓“AI训练”，就是给机器“喂”大量的数据，让它慢慢学会识别和区分对象。例如ImageNet1K分类是一种常见的场景，在该场景中可以给定128万张图片，其中包含1000个不同的对象。同时每张照片已经给出了正确的label，即给出了该图片中的对象类别。则AI训练的任务在于找到一个合适的神经网络架构(如Alexnet)和其中每个参数的赋值，使得该网络能够尽可能正确的识别图片中的对象。

在具体实现中，多个加速器使用训练算法进行分别进行计算，并把各自的学习结果合并在一起，并在此分发给每个加速器，然后进入下一次迭代。如此经过多轮迭代运算后，机器就能习得更多的关键细节，从而显得更加智能。相较于中央处理器(CPU)而言，图形处理单元(graphics processing unit，GPU)更适合这类迭代运算，因此GPU更普遍的应用于AI训练。

随着应用场景需求的提升，神经网络规模和数据集规模急剧增长，例如Nvidia DGX-2和*** TPU这样的大规模加速器服务器集群应运而生，以便提高更强的算力。随着高算力加速器集群的规模越来越大，在GPU芯片之间传递数据变得更加频繁，这导致了GPU芯片之间传递数据的快慢对整个训练过程的耗时所造成的影响越来越明显。因此，如何降低建立光通道GPU芯片之间传递数据所耗费的时间，是目前亟需解决的问题。

发明内容

第一方面，提供一种AI训练方法，应用于人工智能AI训练网络，所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接，其中所述第一服务器包括第一图形处理单元，所述第二服务器包括第二图形处理单元，所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接，所述方法包括：第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算；在所述第一图像处理单元完成对第一数据集的AI训练计算之前，触发所述光交叉连接OXC开始进行通道切换，通道切换完成后，所述第一图形处理单元与第二图形处理单元之间的光通道建立成功；所述第一图形单元完成计算后，通过已建立完成的所述光通道发送计算结果给所述第二图形单元；所述第二图形单元使用第二数据流图对所述计算结果进行AI训练计算。

由于现有技术中占有在应用该方法，第一图形处理单元完成自身的计算之后(也就是在有数据需要传输之后)才开始启动通道的建立，因此不得不等待整个通道的建立时间。而在本实施例中，在有数据需要传输之前即开始了通道的建立，一旦位于第一服务器的第一图形处理单元完成自身的计算后，即可立刻把计算结果发送给下一个服务器的图形处理单元。无需等待同道的建立或者仅等待少量时间来等待通道的建立，从而节约了AI训练的时间消耗。

第一方面的第一种可能实现方式中，所述AI训练网络还包括主服务器。其中，所述OXC进行通道切换具体包括：所述OXC接收主服务器的通道建立指令，所述通道建立指令中想携带调整参数；所述OXC按照所述调整参数对光通道进行切换。

该方案提供了一种调整OXC的具体解决方案。

基于第一方面的第一种可能实现方式中，可选的，所述主服务器周期性发送所述通道建立指令给所述OXC。例如，主服务器根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期，以及所述OXC的通道切换时间，获得所述通道建立指令的发送周期。

该方案提供了一种根据两个图形处理单元之间发送数据的规律性，周期性指令OXC进行通道切换的方案。

第一方面的第二种可能实现方式中，OXC是微机电***MEMS或者是硅光SiP。

第二方面，提供一种AI训练网络，对应于上面的AI训练方法，并具有相应的有益效果。

第三方面，提供一种光交叉连接管理方法，光交叉连接OXC分别连接AI训练网络中的第一服务器和AI训练网络中的第二服务器，其中所述第一服务器包括第一图形处理单元，所述第二服务器包括第二图形处理单元，包括：根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期，以及所述OXC的通道切换时间，获得通道建立指令的发送周期；按照所述发送周期，周期性的发送通道切换指令给所述OXC，指示所述OXC进行建立所述第一图像处理单元和所述第二图像处理单元之间的通道。

该方案介绍了如何周期性的建立光交叉OXC中的光通道，以便及时的转发第一图形处理单元需要发送给第二图像处理单元的数据。位于第一服务器的第一图形处理单元完成自身的计算后，无需等待或者仅等待少量时间通道即可立刻把计算结果发送给下一个服务器的图形处理单元，从而节约了AI训练的时间消耗。

第三方面的第一种可能实现方式中，所述OXC进行通道切换具体包括：所述OXC接收主服务器的通道建立指令，所述通道建立指令中想携带调整参数；所述OXC按照所述调整参数对光通道进行调整。

可选的，基于第三方面的第一种可能实现方式：所述主服务器周期性发送所述通道建立指令给所述OXC。此外，在第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算之前，还可以包括：根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期，以及所述OXC的通道切换时间，获得所述通道建立指令的发送周期。

第三方面的第二种可能实现方式中，在第一图形单元完成计算之前，所述通道切换完成。

第三方面的第三种可能实现方式中，微机电***MEMS和硅光SiP中的一种。

第四方面，提供一种光交叉连接管理服务器，例如前述的主服务器，可以执行光交叉连接管理方法，并具有相应的技术效果。

附图说明

图1提供了一种AI训练网络实施例的架构图；

图2提供了一种图像处理单元之间数据流量测量图；

图3提供了一种AI训练实施例流程图；

图4提供了微机电***中进行切换光通道的实施例示意图。

具体实施方式

人工智能(artificial intelligence，AI)训练网络由多台服务器组成服务器阵列，通过运行AI程序执行AI训练。图1提供了一种AI训练网络的架构，如图所示，阵列包括服务器11、服务器12、服务器13和服务器14，所述阵列还包括光交叉连接15、光交叉连接16和光交叉连接17。本发明实施例中的服务器可以是专用服务器、通用服务器、工作站、笔记本电脑等具有运算能力的设备。服务器之间可以通过数据交换网络18通信，数据交换网络18例如是以太网或者光纤通道(fibre channel，FC)。在这些通过数据交换网络互连的服务器中，可以由图中的某一个服务器作为主服务器，而余下的服务器作为从服务器，主服务器可以把命令通过数据交换网络18发送给其他服务器。此外，主服务器可以通过所述数据交换网络18从阵列外部接收AI训练的指令和原始数据。主服务器可以由服务器之间通过程序选举产生也可以由第三方指定，为了方便介绍，把服务器11定义为主服务器，其余服务器是从服务器。需要说明的是，在实际的阵列中还有更多的器件和设备，例如服务器的网络接口卡、内存RAM、输入输出设备，数据交换网络18中的以太网交换机、路由器等，为简介起见，图1中没有示出。

一个完整的AI训练是迭代的运行以下步骤直到计算结果收敛到足够的精度：(1)前向传播：TF将输入数据从上图的左侧输入神经网络，按照算子依赖关系，顺序运行各个算子，直到在上图的右端得到结果；(2)计算损失：将步骤(1)中的到的结果，与正确答案之间的差，作为损失；(3)后向传播：按照链式求导规则，将步骤(2)中的损失，逐级反向传播，得到所有参数的梯度；(4)当每一次迭代的损失值趋于平坦，不再有剧烈的下降，可以进行收敛。从上述步骤(1)、(2)和(3)的迭代运行的特征可知，AI训练的计算量和通讯特征都是迭代重复的。在经过几个迭代之后，就能比较精确的预测在什么时候，会发送多大尺寸的报文，从哪个GPU发送到那个GPU。

服务器中包含中央处理器(CPU)和图形处理单元(GPU)，以服务器11为例，其内部包含了：CPU111、CPU112和GPU113、GPU114。CPU111和CPU112可以通过总线(例如快速路径互连QPI总线或者超传输HT总线)通信或者节点控制器(node controller，NC)通信。CPU111和GPU113之间，以及CPU112和GPU114之间，均可以通过快捷***部件互连标准(peripheral component interconnect express，PCIe)总线通信。除了PCIe之外，ISA、PCI、AGP、AGI与AGU也是可行的GPU接口标准。CPU下发计算命令给GPU，GPU完成CPU下发的计算命令。

每个服务器可以运行一个操作***(OS)，OS之上可以运行AI训练程序，AI训练程序例如：谷张量流(tensorflow，TF)程序、CNTK、Caffe和MXNET。AI训练软件TF需要用户首先给出一个神经网络的结构，称为数据流图，数据流图包括多个算子，算子可以是矩阵乘法、求平均值、求最大值、sigmoid激活函数等。一些算子之间有依赖关系，也就是说：通过一个算子计算得出的输出结果作为另一个算子的输入数据。阵列拥有大量的GPU，为了提高计算效率，需要把算子分散到多个GPU，以便由多个GPU共同完成数据流图的计算。由于GPU分配到的算子之间的依赖关系，导致了GPU之间也产生了依赖关系，即：前一个GPU的输出结果作为下一个GPU的输入数据。由于依赖关系的存在，就需要在GPU之间的通信，为此，这两个GPU所分配到的算子除了包含计算算子(计算算子用于进行函数计算)之外，还有通讯算子(通讯算子用于GPU之间通信)。

发生通信的两个GPU可能属于同一个服务器，也可能属于不同的服务器。当发生通信的2个GPU属于相同的服务器时，可以通过服务器内部的总线进行通信。而当发生通信的2个GPU属于不同的服务器时，需要依靠服务器外部的通信渠道——也就是使用图1中的光交叉连接(OXC)进行通信，例如，GPU113的发出的数据，在依次通过OXC15、OXC17和OXC17之后，可以到达GPU144。OXC也通过以太网或FC连接到数据交换网络18上，以便从以太网接受来自服务器CPU的命令，按照命令调整光开关输入和输出之间的连接关系。光交叉连接(optical cross-connect，OXC)器件包括但不限于微机电***(micro electro mechanical system，MEMS)和硅光(silicon photonics，SiP)。MEMS是微米大小的机械***，其加工技术由半导体加工技术改造而来，操作范围在微米范围内。本申请中提到的MEMS光开关，是由MEMS工艺制造的，能够按照外部指令进行偏转的反射镜组成的阵列，用于把入射的光束，反射到特定的方向。光束的传播可以是在自由空间中进行。MEMS的缺点在于通道切换(从原有通道切换到新建立的通道)的速度很慢，大约10ms左右，比电交换的ns级相差了6个数量级。硅光是使用硅片作为光传导介质的光***，与MEMS不同的是，硅片依靠波导通道同时完成光束的传播和方向保持。硅光能够提供比MEMS更快的通道切换速度。

然而，不论是MEMS还是硅光，从原通道切换到新通道的切换时间对AI训练所耗费的时间而言始终是不可忽略的，因此缩小这个切换时间从而整体上提高AI训练的耗时，是一个需要解决的问题。GPU芯片之间传递数据所耗费的时间包括两部分：切换通道的数据和实际传输数据的时间。本发明实施例可以在需要传输数据之前，提前切换好通道，当需要传输数据时可以直接使用现成的通道，从而减少了切换过程对计算时间的AI训练影响。

图2是在真实AI训练过程中，通过软件界面所截取的两个GPU间数据流量图，图中横坐标是时间(单位：秒)，纵坐标是数据大小(单位：兆字节)，每一个标记点代表一次数据传输。从图中可以看出，数据传输具有明显的时间周期性：每间隔大概200ms的空闲期会发生频繁的数据传输，这样的频繁传输大概持续500ms后结束。数据传输的大小集中在5MB以下，5MB～10MB也有较多分布，10MB～20MB和30～40M有少量分布，根据统计，每一次周期传输的报文总量在GB的数量级。在其他实施场景中，可能偶有不符合周期性规律的情况，但是大多数情况下仍然是周期性的，因此仍然可以使用本发明实施例提供的方案获得收益。

因此，本发明实施例中通过发挥AI训练流量的高度重复特定和可预测性，提前发送通道切换指令给OXC，以便触发通道的切换。第一种通道切换时机：可以在前一个GPU前一个GPU计算完成之前指令OXC建立传输通道，并且在前一个GPU计算完成之前通道完成切换，通道切换完成后可以直接把数据发送给后一个GPU。从而避免有数据传输时才临时建立通道，规避OXC的低切换速度引起的高延时。根据图2的统计可以知道数据的产生是周期性的，主服务器根据过去时刻数据的产生时间，可以预计到后续的数据生成的时刻(也就是流量发生的时刻)、以及通道切换所需要花费的时间，可以计算出触发OXC开始通道建立的最晚时刻。只要OXC在等于或者略微早于这个最晚时刻开始通道的切换，那么新的通道可以在待传输的数据生成之前建立完成。

第二种通道切换时机：在前一个GPU计算完成之前开始(不要求前一个GPU计算完成之前通道切换完成)建立传输通道。这种情况下，时机更加灵活，可以在前一个GPU计算完成之前完成通道的切换，也可以在数据生成完成之后才完成通道的切换，因此第二种通道切换时机涵盖了第一种通道切换时机。如果使用第二种通道切换时机进行对OXC进行通道切换的触发，有可能在通道切换尚未切换完成的时候，前一个GPU已经计算完成。由于只有通道切换完成后数据才能被传输，因此前一个GPU需要等待一段时间才能发送数据给后一个GPU，但是相比于现有技术(在有数据需要传输时才开始触发通道的切换)而言，由于通道切换的开始时间得到了提前，因此仍然节约了时间。

下面参照图3，对本发明AI训练实施例流程进行更详细的介绍。

步骤S11，主服务器11的CPU111运行AI训练程序，使用AI训练程序载入训练数据集以及数据流图。主服务器11把训练数据集和所述数据流图拆分成几个部分，通过数据交换网络18，分别发往所述从服务器12、所述从服务器13以及所述从服务器14，以使得每个服务器分担一部分训练任务。其中，每个从服务器收到的那部分数据流图用于计算收到的那部分数据集，也就是说收到的那部分数据流图和和收到的那部分数据集之间有对应关系。如果把所有服务器的训练任务合起来，就可以组成所述训练数据集以及所述数据流图。

主服务器11在执行执行调度的功能之外，还可以承担一部分所述训练数据集和一部分所述数据流图的计算；主服务器11也可以不承担计算任务，仅仅执行调度的功能。主服务器11拥有处理器和与接口，接口用于和OXC通信，如果主服务器承担计算任务，那么还可以进一步包含图形处理单元。本实施例中共有4个服务器，假设计算任务在它们之间平均分配，那么每个服务器处理：1/4的训练数据集和与1/4的训练数据对应的1/4的数据流图。为了方便后续的介绍，由单个服务器负责的部分训练数据集称为数据一级子集，由单个服务器负责的部分数据流图称为数据流一级子图。

步骤S12，从服务器接收主服务器11发送的所述训练数据一级子集和所述数据流一级子图。从服务器的CPU按照GPU的数量把训练数据一级子集和数据流一级子图再次拆分，一个数据一级子集拆分成多个数据二级子集、一个数据流一级子图拆分成多个数据流二级子图。然后把数据二级子集和数据流二级子图发送给对应的GPU，指令所述GPU对接收到的数据二级子集按照接收到的数据流二级子图进行计算。

各个服务器按照自己的数据流一级子图开始计算自己负责的数据一级子集。具体的计算操作由GPU执行，以服务器12为例，在通过数据交换网络18收到需要自己计算的1/4的训练数据集和1/4的所述数据流图后，服务器12的CPU(CPU121和/或CPU122)把计算任务分配给归属的GPU，例如GPU123和GPU124分别承担1/8的训练数据集和1/8的所述数据流图。

步骤S13，主服务器11(例如CPU111或者CPU112)按照预设的时间周期，发送通道建立指令给OXC。如前所述，GPU之间可能存在依赖关系,由于依赖关系，GPU之间会周期性的发送大量数据，以图2为例，主服务器11周期性的发送指令给OXC，在图2所示的例子中，发送持续时间大致是0.5s(500ms)，发送后的间隔时间大致是0.2s(200ms)，因此这个时间周期可以大致是200ms+500ms＝700ms。因此，每间隔700ms建立一次对应的通道即可。

通道建立指令中包括调整参数，用于指令按照OXC按照所述调整参数对光通道进行调整。本实施例中，调整参数中包括需要调整的镜片的编号以及需要调整的角度。参见图4，本实施例假设GPU123(第二图形处理单元)的输入依赖于GPU113(第一图形处理单元)的输出，那么需要被调整的镜片是位于GPU123和GPU113之间的OXC，也就是MEMS15，MEMS15包括微机电控制器150以及2个反射镜片阵列，每个镜片阵列包括多个镜片，镜片的偏转角度在物理上是可调的。GPU113发出的电信号转换成光信号之后，通过光纤通道151、反射镜152、反射镜153、光纤通道154到达GPU124。如图4所示，在调整之前，反射镜提高的偏转角度是45°，光信号的反射路径是155-156-158，此时如果GPU113发出的数据，那么数据会到达GPU124。调整镜片152和/或镜片153的角度均可以达到修改反射路径的目的，反射路径一旦修改完成也就意味着新的通道建立成功。本实施例中，调整的是反射镜153，当把反射镜15的提高的反射角度调整为30°之后，GPU113和GPU123之间的通道建立成功。主服务器11发送给OXC15的通道建立指令包含的调整参数例如是：{反射镜15，反射镜角度30°}。

为了方便介绍，也可以把GPU113(第一图形处理单元)需要承担的训练数据集和数据流图分别称为第一训练数据集、第一数据流图；把GPU123(第二图形处理单元)需要承担的训练数据集(GPU113的计算结果)和数据流图分别称为第二训练数据集、第二数据流图。

需要说明的是，本实施例中，主服务器11(例如CPU111或者CPU112)按照预设的时间周期，发送通道建立指令给OXC的时机可以早于GPU113发送数据给GPU123的时机，以便提前触发通道的建立。GPU113一旦完成计算，就可以立即通过这个通道把信号发送给GPU123。因此本实施例可以增加有这样的限制：GPU113完成自身分配的训练数据集的计算之前，先要完成GPU113与GPU123之间通道的建立。例如：GPU113发送数据给GPU123的时间周期是2秒，具体而言，分别需要在10秒、12秒、14秒……的时刻发送数据给GPU123，建立通道需要花费0.4秒，那么主服务器11可以通知OXC在9.6秒、11.6秒、13.6秒……之前开始建立GPU113和GPU123之间的通道。这个例子中，和现有技术相比节约了0.4秒的通道建立时间。

需要说明的是，在其他实施例中，“GPU113完成自身分配的训练数据集的计算之前，先要完成GPU113与GPU123之间通道的建立”，这一限制并不是必须的。在其他实施例中，可以不限于在GPU113完成计算之前完成通道的建立，只要在GPU113完成计算之前启动通道的建立即可。例如：GPU113分别需要在10秒、12秒、14秒……发送数据给GPU123，通道建立需要是0.4秒，那么主服务器11可以通知OXC在9.7秒、11.7秒、13.7秒……的时刻开始建立GPU113和GPU123之间的通道。在这个例子中，GPU113在完成计算之后，需要等待0.1秒之后才能把数据通过通道发送给GPU123，和现有技术相比节约了0.3秒的通道建立时间。或者，，那么主服务器11可以通知OXC在9秒、11秒、13秒……的时刻开始建立GPU113和GPU123之间的通道。在这个例子中，通道建立完成之后的0.2秒GPU113才完成计算，和现有技术相比节约了0.4秒的通道建立时间。

需要特别说明的是，在步骤S13-S15中主服务器11所执行的功能，例如发送通道建立指令以及接受通道建立指令的响应，并不限于由主服务器11执行，也可以改由集群中其他服务器或者第三方设备执行。

需要说明的是，步骤S12和步骤S13之间没有依赖关系。二者可以并行执行，也可以任意一个先执行。

步骤S14，MEMS15接收包含调整参数{反射镜15，反射镜角度30°}的通道建立指令，MEMS控制器150按照指令把反射镜15的角度进行调整，调整后反射的光线角度为30°。

经过调整之后，光信号的反射路径155-156-157建立完成，也就是说GPU11和GPU123之间的通道切换完成。微机电***15发送通道建立成功的响应消息给主服务器11，以便告知主服务器11：GPU113和GPU123之间的通道成功建立。主服务器11收到该响应消息之后，主服务器11的CPU把通道建立成功的消息通知给GPU113。

步骤S15，GPU113收到主服务器11发送的通知之后。如果已经完成计算，则可以立即通过光路径155-156-157把计算结果给GPU123，GPU123使用收到的数据进行后续计算。如果未完成计算，则等待完成计算之后，可以立即通过光路径155-156-157发送计算结果给GPU123。GPU123收到GPU113的计算结果后，按照自己的数据流子图进行下一步计算。

由以上步骤可以看出，GPU113一旦完成计算，在MEMS15中已经有现成的通道供其使用，因此可以立即使用MEMS15把数据发给GPU123，由于不用耗费时间等待通道的建立，因此节约了时间。对于MEMS而言，每一次跨服务器的GPU通信可以节约左右10ms，而在一次AI训练中，服务器阵列需要频繁的在不同服务器的GPU之间传输信号，因此应用该实施例可大量节约时间。

在步骤13中提到“预设的时间周期”，OXC中的镜片基于该时间周期提前翻转，下面对如何获得这个周期进行示例性的说明。需要强调的是，该时间周期的获取还可以有更多的办法，此处提供两种以加深本领域人员对实施例的理解。

方法一：由管理员设置。对于同一种类型的AI训练，时间周期是相似性，因此管理员可以根据自身经验掌握这个时间周期，通过人工在软件中设置这个周期的数值。

方法二：由服务器阵列自行获得。对于需要进行GPU之间通信的GPU而言，其收到的子数据流图中除了包含计算算子之外，还可以包含通讯算子，通讯算子可以对GPU之间的依赖关系进行描述。需要发送数据的GPU的子数据流图中拥有“发送”算子，需要接收数据的GPU收到的子数据流图中拥有“接收”算子。当GPU使用通讯算子数据传输时，可以记录这个数据传输的相关信息：源GPU、目的GPU、传输数据量大小、发生的时间点等信息。通过这些信息(这些相关信息可以由源GPU记录或者目的GPU记录或者共同记录)即可以获得如图2所示的GPU之间的流量图，从而掌握GPU之间传输数据的规律性。这些信息可以存放在GPU所在的服务器的存储器中，也可以汇总到一个统一的存放位置，例如汇总到主服务器的存储器中，或者汇总到服务器阵列之外的第三方设备。在持续记录一定时间之后，软件可以掌握时间周期，并把时间周期保存到可被读取的存储位置。

本发明还提供一种程序产品的实施例，运行在主服务器中，程序产品包括程序代码，主服务器运行所述程序代码可以对OXC进行管理，例如：根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期，以及所述OXC的通道切换时间，获得通道建立指令的发送周期；按照所述发送周期，周期性的发送通道切换指令给所述OXC，指示所述OXC进行建立所述第一图像处理单元和所述第二图像处理单元之间的通道。

Claims

一种AI训练方法，应用于人工智能AI训练网络，所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接，其中所述第一服务器包括第一图形处理单元，所述第二服务器包括第二图形处理单元，所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接，所述方法包括：

第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算；在所述第一图形单元完成对所述第一数据集的AI训练计算之前，触发所述OXC开始进行通道切换，通道切换完成后，所述第一图形处理单元与第二图形处理单元之间的光通道建立成功；

所述第一图形单元完成计算后，通过已建立完成的所述光通道发送计算结果给所述第二图形单元；

所述第二图形单元使用第二数据流图对所述计算结果进行AI训练计算。
根据权利要求1所述的AI训练方法方法，其中，所述AI训练网络还包括主服务器，所述OXC进行通道切换具体包括：

所述OXC接收主服务器的通道建立指令，所述通道建立指令中携带调整参数；

所述OXC按照所述调整参数对光通道进行切换。
根据权利要求2所述的AI训练方法方法，其中，所述方法还包括：

所述主服务器周期性发送所述通道建立指令给所述OXC。
根据权利要求3所述的AI训练方法方法，其中，所述方法还包括：在第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算之前，还包括：

根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期，以及所述OXC的通道切换时间，获得所述通道建立指令的发送周期。
根据权利要求1-4任一项所述的AI训练方法方法，其中，所述述通道切换完成的时间是：

在第一图形单元完成计算之前。
根据权利要求1-4任一项所述的AI训练方法方法，其中，所述OXC是：

微机电***MEMS和硅光SiP中的一种。
一种AI训练网络，所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接，其中所述第一服务器包括第一图形处理单元，所述第二服务器包括第二图形处理单元，所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接，其中：

所述第一图形处理单元用于：按照第一数据流图对第一数据集进行AI训练计算，以及通过已建立完成的所述光通道发送计算结果给所述第二图形单元；

所述光交叉连接OXC用于：在所述第一图像处理单元完成对第一数据集的AI训练计算之前，开始进行通道切换，其中，通道切换完成后，所述第一图形处理单元与第二图形处理单元之间的光通道建立成功；

所述第二图形单元用于：使用第二数据流图对所述计算结果进行AI训练计算。
根据权利要求7所述的AI训练网络，其中，所述AI训练网络还包括主服务器，所述包括主服务器用于：

发送通道建立指令给所述OXC，所述通道建立指令中想携带调整参数；

所述OXC按照所述调整参数对光通道进行通道切换。
根据权利要求8所述的AI训练网络，其中，所述主服务器还用于：

周期性发送所述通道建立指令给所述OXC。
根据权利要求9所述的AI训练网络，其中，所述所述主服务器还用于：

根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期，以及所述OXC的通道切换时间，获得所述通道建立指令的发送周期。
根据权利要求7-10任一项所述的AI训练网络，其中，所述光交叉连接OXC进一步用于：

在所述第一图像处理单元完成对第一数据集的AI训练计算之前，完成所述通道切换。
根据权利要求7-10任一项所述的AI训练网络，其中，所述OXC是：

微机电***MEMS和硅光SiP中的一种。
一种光交叉连接管理方法，光交叉连接OXC分别连接AI训练网络中的第一服务器和AI训练网络中的第二服务器，其中所述第一服务器包括第一图形处理单元，所述第二服务器包括第二图形处理单元，包括：

根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期，以及所述OXC的通道切换时间，获得通道建立指令的发送周期；

按照所述发送周期，周期性的发送通道切换指令给所述OXC，指示所述OXC在所述第一图像处理单元完成对第一数据集的AI训练计算之前，建立所述第一图像处理单元和所述第二图像处理单元之间的通道。
一种光交叉连接管理服务器，光交叉连接管理服务器和光交叉连接OXC通信，所述OXC与AI训练网络中的第一服务器和AI训练网络中的第二服务器通信，其中所述第一服务器包括第一图形处理单元，所述第二服务器包括第二图形处理单元，所述光交叉连接管理服务器包括处理器，所述处理器用于：

根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期，以及所述OXC的通道切换时间，获得通道建立指令的发送周期；

按照所述发送周期，周期性的发送通道切换指令给所述OXC，在所述第一图像处理单元完成对第一数据集的AI训练计算之前，指示所述OXC进行建立所述第一图像处理单元和所述第二图像处理单元之间的通道。