CN112799852B

CN112799852B - 逻辑节点的多维sbp分布式签名决策***及其方法

Info

Publication number: CN112799852B
Application number: CN202110386634.5A
Authority: CN
Inventors: 李新奇; 柳俊丞; 李一鹏; 袁进辉
Original assignee: Beijing Oneflow Technology Co Ltd
Current assignee: Beijing Oneflow Technology Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-30
Anticipated expiration: 2041-04-12
Also published as: CN112799852A

Abstract

本发明公开了一种用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，所述SBP分布式签名包括一维SBP分布式签名和多维SBP分布式签名，所述***包括：初始逻辑节点生成组件，生成附有候选SBP分布式签名集合的初始逻辑节点拓扑图；第一维度SBP分布式签名选择组件，基于所计算的传输代价选择与代价最小值所对应的含有所述第一维度分布式描述符的一个或多个候选SBP分布式签名作为当前逻辑节点的候选SBP分布式签名子集；以及第二维度SBP分布式签名选择组件，选择含有第一输入端的第一逻辑张量的第二维度分布式描述符和/或其他输入端的其它逻辑张量的第二维度分布式描述符的候选SBP分布式签名作为所述当前逻辑节点的确定SBP分布式签名。

Description

逻辑节点的多维SBP分布式签名决策***及其方法

技术领域

本公开涉及一种数据处理技术。更具体地说，本公开涉及一种用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***及其方法，从而实现自动并行部署。

背景技术

随着分布式计算的普及，大型的作业或大逻辑张量会通过分割而将不同部分的数据部署到不同的分布式数据处理***的各个计算设备上进行处理，并在各个部分计算过程需要进行中间参数的交互。这样，在具体作业的处理过程中，部署在一个计算设备上的计算中间参数或结果会称为另一个计算设备上的计算任务的输入数据，这会引起计算设备之间的数据传输开销。在作业数据很大的情况下，这种不同计算设备之间的传输开销对于分布式数据处理***而言将造成极大的计算负担。为此，本申请发明人于2020年02月13向中国专利局提出了申请号为“202010090335.2”名称为“逻辑节点的分布式签名决策***及其方法”的发明申请（公告号CN110955734B），该发明专利提出了一种SBP签名决策***能够从全局角度讲静态分布式数据处理***在处理数据过程中的不同计算设备之间的数据交换量最小化，从而减少的数据交互过程产生的开销，这样有效地降低了数据交换对实际运算操作带来的不良影响。该发明专利将通过引用方式作为本申请的一部分包含在本申请的说明书中。

但是随着模型越来越大以及待处理数据也越来越大，在单机无法实现模型处理的情况下，一方面通过提高数据处理设备（例如GPU卡）的内存来满足模型过大的情形，但是通常一张16G的GPU卡的价格要比两张8G的GPU卡的价格还要贵一倍。因此一味提高单机的内存资源是不合算的。因此在有些场景模型太大以至于使用数据并行通信开销太大，或者模型超过GPU显存容量，这种情况必须对模型进行切分，每个设备上只完成一部分模型对应的计算，这称为模型并行。人们通常通过将模型并行方式采用两张或多张内存资源较小的GPU卡来满足模型较大的情况，即进行模型并行的方式满足数据处理的需要。模型并行时不需要在设备间同步模型，但需要在设备间同步数据。当前绝大部分深度学习框架不支持模型并行，或者支持比较弱，需要非常微妙的调整才能高效执行，因此都需要人为经过反复的调试。尽管如此，反复调试的结果也不尽人意。模型并行是业界公认的难题。除了模型并行本身比较复杂之外，模型并行模块与其它并行模式的协同也非常复杂，需要小心的管理上下游之间的数据传输（路由）。而且多数情况下，模型并行带来的通信开销和同步消耗超过数据并行，因此加速比也不及数据并行。但对于单机内存无法容纳的大模型来说，模型并行是一个很好的选择。另一方面，在待处理数据规模也比较大的情况下，也需要通过数据并行来满足需要。但是同时进行模型并行和数据并行的混合并行，目前很多深度学习框架都无法自动实现，因此人们依然需要通过追求大容量的GPU卡来解决并行处理问题，并且在具有大容量的GPU卡的情况下，为了降低人员的劳动量，通常依然选择单一的数据并行方式或模型并行方式来实现数据处理的目的。

而要兼顾大规模数据和大规模模型情形的，采用混合并行，则更为困难。以相邻的两层神经网络为例，如果第一个层次使用数据并行，第二个层次使用模型并行，那么在前向计算时，就需要把数据并行部分的结果经过拷贝（Copy）, Concat 两层路由汇总到模型并行的两个设备上去，如果前后两层在不同的计算设备上执行，那么还需要通过跨机通信。如果这些复杂的数据路由需要用户手工参与管理，那么一方面过于复杂（想象一下数据并行和模型并行的各种组合模式），另一方面极易出错。在理想的情况，这些复杂性应该由深度学***台都不支持这一功能。

因此，人们期望获得一种在小容量GPU卡的分布式计算资源前提下，实现大规模模型和数据处理的技术方案，这样一方面可以实现模型并行，另一方面又能满足与在模型并行情形下同时进行数据并行相同的数据处理效果，并且能够自动实现并行部署。

发明内容

为此，基于本申请的发明人提出的SBP签名决策***，为解决上述我技术问题提供了可能。本申请提出了一种用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，所述SBP分布式签名包括一维SBP分布式签名和多维SBP分布式签名，所述***包括：初始逻辑节点生成组件，接收用户输入的任务配置数据，生成用于所述分布式数据处理***的初始逻辑节点拓扑图，其中源逻辑节点具有指定的SBP分布式签名以及每个初始逻辑节点基于所述任务配置数据附有候选SBP分布式签名集合，所述候选SBP分布式签名集合中的每个SBP分布式签名指定了其所属的初始逻辑节点的每个输入逻辑张量的分布式描述符以及每个输出逻辑张量的分布式描述符；以及第一维度SBP分布式签名选择组件，根据每个已经确定SBP分布式签名的上游逻辑节点的输出端的分布式描述符，针对当前逻辑节点的每一个候选SBP分布式签名，基于每个上游逻辑节点将要并行分布的设备集的数据量、当前逻辑节点将要并行分布的设备集的数据量以及每个上游逻辑节点分布在每个设备上的逻辑张量的大小，计算将每个上游逻辑节点输出端的逻辑张量的分布式描述符变换为当前逻辑节点的对应输入端的逻辑张量的第一维度分布式描述符所需的传输数据的代价，并选择与代价最小值所对应的含有所述第一维度分布式描述符的一个或多个候选SBP分布式签名作为所述当前逻辑节点的候选SBP分布式签名子集，所述第一维度分布式描述符描述了所述对应输入端的逻辑张量的并行方式；以及第二维度SBP分布式签名选择组件，比较所述当前逻辑节点将要并行分布的设备集的每一个计算设备的实际计算资源以及处理按照所述第一维度分布式描述符所确定的对应输入端的逻辑张量和结果逻辑张量所需的计算资源之间的大小，并在所需的计算资源大于实际计算资源时，从所述候选SBP分布式签名子集中选择含有第一输入端的第一逻辑张量的第二维度分布式描述符和/或其他输入端的其它逻辑张量的第二维度分布式描述符的候选SBP分布式签名作为所述当前逻辑节点的确定SBP分布式签名，其中所述确定SBP分布式签名的第一输入端的逻辑张量的第二维度分布式描述符为分割逻辑张量描述符，含有第一逻辑张量将在第一维度分布式描述符所描述的分布的基础上被分割成多个第一分片逻辑张量的预定数量，以及其他逻辑张量的第二维度分布式描述符为广播逻辑张量分布描述符，并含有指定其他逻辑张量将被重复广播的重复次数，其中所述预定数量等于所述预定次数，并且所述当前逻辑节点处理每个第一分片逻辑张量、其他输入端的逻辑张量以及由此获得的结果分片张量所需的计算资源小于每一个计算设备的实际计算资源。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中第一逻辑张量为数据逻辑张量，而其他逻辑张量之一为模型逻辑张量。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中第一逻辑张量为模型逻辑张量，而其他逻辑张量为数据逻辑张量。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中输入端的逻辑张量都为数据逻辑张量。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中第一逻辑张量所需的计算资源量大于其他输入端的其它逻辑张量之一所需的计算资源量。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中所述分布式数据处理***还包括计算图生成组件，用于基于由获得确定SBP分布式签名的逻辑节点构成逻辑节点拓扑图生成任务逻辑计算图，其中当前逻辑节点对应的计算节点的第一输入端之前***分割计算节点、在其它输入端之前***重复广播计算节点以及在输出端之后***集结计算节点。

根据本公开的另一个方面，提供了一种用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，所述SBP分布式签名包括一维SBP分布式签名或多维SBP分布式签名，所述方法包括：初始逻辑节点生成步骤，接收用户输入的任务配置数据，生成用于所述分布式数据处理***的初始逻辑节点拓扑图，其中源逻辑节点具有指定的SBP分布式签名以及每个初始逻辑节点基于所述任务配置数据附有候选SBP分布式签名集合，所述候选SBP分布式签名集合中的每个SBP分布式签名指定了其所属的初始逻辑节点的每个输入逻辑张量的分布式描述符以及每个输出逻辑张量的分布式描述符；以及第一维度SBP分布式签名选择步骤，根据每个已经确定SBP分布式签名的上游逻辑节点的输出端的分布式描述符，针对当前逻辑节点的每一个候选SBP分布式签名，基于每个上游逻辑节点将要并行分布的设备集的数据量、当前逻辑节点将要并行分布的设备集的数据量以及每个上游逻辑节点分布在每个设备上的逻辑张量的大小，计算将每个上游逻辑节点输出端的逻辑张量的分布式描述符变换为当前逻辑节点的对应输入端的逻辑张量的第一维度分布式描述符所需的传输数据的代价，并选择与代价最小值所对应的含有所述第一维度分布式描述符的一个或多个候选SBP分布式签名作为所述当前逻辑节点的候选SBP分布式签名子集，所述第一维度分布式描述符描述了所述对应输入端的逻辑张量的并行方式；以及第二维度SBP分布式签名选择步骤，比较所述当前逻辑节点将要并行分布的设备集的每一个计算设备的实际计算资源以及处理按照所述第一维度分布式描述符所确定的对应输入端的逻辑张量和结果逻辑张量所需的计算资源之间的大小，并在所需的计算资源大于实际计算资源时，从所述候选SBP分布式签名子集中选择含有第一输入端的第一逻辑张量的第二维度分布式描述符和/或其他输入端的其它逻辑张量的第二维度分布式描述符的候选SBP分布式签名作为所述当前逻辑节点的确定SBP分布式签名，其中所述确定SBP分布式签名的第一输入端的逻辑张量的第二维度分布式描述符为分割逻辑张量描述符，含有第一逻辑张量将在第一维度分布式描述符所描述的分布的基础上被分割成多个第一分片逻辑张量的预定数量，以及其他逻辑张量的第二维度分布式描述符为广播逻辑张量分布描述符，并含有指定其他逻辑张量将被重复广播的重复次数，其中所述预定数量等于所述预定次数，并且所述当前逻辑节点处理每个第一分片逻辑张量、其他输入端的逻辑张量以及由此获得的结果分片张量所需的计算资源小于每一个计算设备的实际计算资源。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中第一逻辑张量为数据逻辑张量，而其他逻辑张量之一为模型逻辑张量。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中第一逻辑张量为模型逻辑张量，而其他逻辑张量为数据逻辑张量。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中输入端的逻辑张量都为数据逻辑张量。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中第一逻辑张量所需的计算资源量大于其他输入端的其它逻辑张量之一所需的计算资源量。

根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中所述分布式数据处理***还包括计算图生成组件，用于基于由获得确定SBP分布式签名的逻辑节点构成逻辑节点拓扑图生成任务逻辑计算图，其中当前逻辑节点对应的计算节点的第一输入端之前***分割计算节点、在其它输入端之前***重复广播计算节点以及在输出端之后***集结计算节点。

通过根据本公开的根据本公开的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***和方法，从全局角度将静态分布式数据处理***在处理数据过程中的不同计算设备之间的数据交换量最小化，从而减少的数据交互过程产生的开销，这样有效地降低了数据交换对实际运算操作带来的不良影响。并且能够在大规模模型和大规模数据处理需求下，降低对计算设备的单卡计算资源量的需求，从而降低了所需的硬件成本，另一方面能够自动进行并行部署，尤其是能够自动完成需要人工介入下的混合并行部署情形下实现的相同的数据处理效果。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1所示的是根据本公开的用于分布式数据处理***的逻辑节点的SBP分布式签名决策100的原理示意图。

图2所示的是根据本公开的用于静态分布式数据处理***的逻辑节点分布式签名决策***100的第二部分原理示意图。

图3所示的是根据本公开的分布式数据处理***的逻辑节点分布式签名决策***100决策SBP签名的一种示意结构图。

图4图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第一示意图。

图5图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第二示意图。

图6图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第三示意图。

图7图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第四示意图。

图8图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第五示意图。

图9图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第六示意图。

图10所示的是使用本公开的逻辑节点分布式签名决策***100的静态分布式数据处理***将逻辑节点拓扑图变换成计算图的一个实例。

具体实施方式

下面结合实施例和附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，在下文中，两个可能设备之一可以被称为第一逻辑分布式签名也可以被称为第二逻辑分布式签名，类似地，两个可能设备的另一个可以被称为第二逻辑分布式签名也可以被称为第一逻辑分布式签名。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本领域技术人员更好地理解本公开，下面结合附图和具体实施方式对本公开作进一步详细说明。

深度学习本质上属于特征学习的一种，从这个角度考虑，可以将深度学习直接应用于从原始数据提取特征。而自动编码器是实现特征提取这一功能的重要模型之一。

图1所示的是根据本公开的用于静态分布式数据处理***的逻辑节点分布式签名决策***100的第一部分原理示意图。如图1所示，所述分布式签名决策***100包括初始逻辑节点生成组件110和第一维度SBP分布式签名选择组件120。所述初始逻辑节点生成组件110接收用户输入的任务配置数据，生成用于所述静态分布式数据处理***的初始逻辑节点拓扑图101。在作业输入以后，静态分布式数据处理***会基于用户输入的作业描述，自动将作业分解成众多微小的作业任务，这些众多的微小作业任务由各种操作组元构成，这些操作组元作为逻辑节点彼此前后互联形成初步逻辑张量处理神经网络拓扑图。这些神经网络的每层网络包含了众多的逻辑节点，相邻两层神经网络之间彼此连接，从而为分布式数据处理***中执行实际作业处理的执行体的布置（PLACEMENT）提供了指引。图1中仅仅示意性地给出了一个简单的初始逻辑节点拓扑图101，其中显示了节点A、B、C、D、E、F、L以及K。其他未显示的采用省略方式替代。在实际的数据处理中，初始节点拓扑图101会更复杂。初始逻辑节点拓扑图101包含实现用户所描述的计算任务的基本运算节点。这种初始逻辑节点拓扑图101的生成方式属于本领域常规技术，因此不在此赘述。

在初始逻辑节点拓扑图101的各个初始逻辑节点每个包含多个SBP签名。作为已经由用户配置了SBP签名的源逻辑节点或基于用户的任务描述而确定了SBP签名的初始逻辑节点，例如初始逻辑节点A、E以及B，其仅仅具有唯一的SBP签名，例如初始逻辑节点A的SBP-1，初始逻辑节点C的SBP-2以及初始逻辑节点E的SBP-3。而其他初始逻辑节点则包含有其固有的一些候选SBP签名。如图1中的初始逻辑节点B，其具有多个候选SBP签名，例如三个，包括SBP-1、SBP-2以及SBP-3。其他初始逻辑节点也各自具有不同的候选SBP签名，在此不一一列出。不同的初始逻辑节点根据其具体执行的运算操作不同，会有不同的固定的候选SBP签名。

根据本公开的SBP签名是应用在一种分布式数据处理***中的签名。分布式数据处理***中，由于经常存在数据并行、模型并行以及混合并行以及流式并行等的情形，因此，经常会存在相邻的逻辑节点的任务将被同时部署到不同的计算设备上，因此在实际数据处理过程中，各个计算设备之间会对中间参数进行交换，会导致大量的传输开销。为此，为了减少数据传输开销，需要在初始逻辑节点拓扑图101的基础上，进一步生成更多的逻辑节点，以便完善逻辑节点拓扑图，尤其是减少上下游逻辑节点之间的传输开销，需要使得上下游逻辑节点的数据分布方式所带来的变化最小。为此，本公开为了获得比较好的下游逻辑节点，针对每个逻辑节点指定了逻辑分布式签名。所述逻辑分布式签名是采用逻辑张量的分布式描述符对逻辑节点的签名，每个逻辑张量的分布式描述符描述了每个逻辑张量的在整个计算***中的分布方式，主要包括分割（SPLIT）逻辑张量描述符、广播（BROADCAST）逻辑张量描述符以及部分值（PARTIAL VALUE）逻辑张量描述符。

具体而言，分割（SPLIT）逻辑张量描述符就是描述一个逻辑张量的分割方式，例如将一个张量根据用户的描述在指定的维度上进行分割，并分布到不同的计算设备上进行指定的计算处理。如果一个张量为二维张量，则该张量在其第0维被切割时，则该张量所形成的一批数据的数据逻辑张量的分布式描述符为S(0)，则每个逻辑张量在其输入端获得这种数据逻辑张量的分布式描述符都为S(0)。同样，如果一个张量为二维张量，则该张量在其第1维被切割时，则该张量所形成的一批数据的数据逻辑张量的分布式描述符为S(1)，则每个逻辑张量在其输入端获得这种数据逻辑张量的分布式描述符都为S(1)。类似地，如果待处理的任务数据的维度为更多维度，则会有更多的分布式描述符，例如S(2)、S(3)…等等。这类所提到的数据可以是被处理的数据或模型。如果数据本身被切割，则在分布式数据处理***上形成数据并行处理，如果模型被分割，则在分布式数据处理***上会形成模型并行处理。如果逻辑节点的输入为这种分割（SPLIT）逻辑张量描述符，则在实际数据处理过程中，如果一个逻辑张量的数据大小为T，而该逻辑张量将被分布到四张计算卡上进行数据并行计算，则每张卡上分配到的数据量为四分之一的数据，整个四张卡上的数据量则为T。如果一个张量的分布时先在第0维被分割，之后针对被分割后形成的分片张量再次在第1维上分割，则该张量的分布树描述符则为二维分布式描述符( S(0), S(1))。如果一个张量的分布时先在第0维被分割，之后针对被分割后形成的分片张量再次在第0维上进一步被分割，则该张量的分布树描述符则为二维分布式描述符( S(0), S(0))。以此类推。分布式描述符也可以为三维或更多维。

广播（BROADCAST）逻辑张量描述符是用来描述一个逻辑张量以广播方式在分布式***中进行发布的方式。通常，对于仅仅进行数据并行的数据处理***，模型数据通常被广播到各个计算设备，因此对于被输入到逻辑节点的广播数据采用广播逻辑张量描述符进行描述。在实际数据处理过程中，被广播的数据，在每张实际计算卡上的张量大小都是相同的。如果一个张量的分布时先被广播，之后针对被广播张量在第0维上被分割，则该张量的分布树描述符则为二维分布式描述符( B, S(0))。同样，如果一个张量的分布时先在第0维上被分割，后每个分片张量被广播，则该张量的分布树描述符则为二维分布式描述符(S(0),B)。依次类推。

部分值（PARTIAL VALUE）逻辑张量描述符表示一个逻辑节点的输入或输出逻辑张量为多个同类逻辑张量的部分值。这些部分值包括部分和、部分积、部分“与”结果、部分最大以及部分最小。由于通常会为了对数据进行数据并行处理，因此，在不同设备上对数据的处理是对部分数据的处理。例如有些逻辑张量为S(0)或S(1)，则在一些计算设备上获得结果逻辑张量为S(0)，这些部分计算设备上的结果逻辑张量合并起来就是部分值逻辑张量。将所有设备上的同类数据合并起来才是最后的输出结果。

上述各种逻辑张量的分布式描述符代表了这些逻辑张量在分布式计算***中的分布方式，而这些逻辑张量无论是作为逻辑节点的输入和输出，其各自的分布方式也描述了逻辑节点对操作数据的分布描述。为了描述方便，本公开将这种分布式描述符简称为“SBP描述符”。

为此，随着初始逻辑节点拓扑图101的生成，本公开的初始逻辑节点，也就是一些运算节点也具备了各个输入和输出的数据分布式描述符，这些输入和输出分布式描述符形成了对逻辑节点的一种签名，即采用逻辑张量的分布式描述符对运算逻辑节点的签名。为了方便表述，采用这三种分布式描述符的英文首字母来简称这种签名为“SBP签名”。

根据每个分布式计算***中用户对计算任务的描述和数据并行的要求，这种描述符会包括至少三种S、B以及P。如果对数据和模型存在多种分割方式，则每增加一种分割方式，则增加一种描述符。如果一个张量先后或同时在两个不同维度进行分割，其分布描述符如上所述为二维分布式描述符。如果一个张量采用两种分布方式进行分布，则其分布描述符可以如上所述为二维分布式描述符。如果一个张量先在一个维度进行分割后再对分片张量在同一维度进行分割，其分布描述符如上所述也为二维分布式描述符。以此类推，可以三维或更多维度的分布式描述符。针对每个逻辑节点，其签名都包含了这些描述符的各种组合方式。因此，在根据本公开分布***中，对于一维SBP描述符，至少有三种分布式描述符，通常为有四种分布式描述符，例如如下四种SBP描述符，S(0)、S(1)、P以及B。根据逻辑张量维度数量不同，可以有更多分布式描述符。如果为四种SBP描述符，则可以按照输入输出的排列组合方式形成多种SBP签名。下面列出了一些SBP签名：一维SBP签名的实例，例如： (S(0), B)→S(0)、(S(1), B)→S(1)、P→P、B→B、(S(0), S(1))→P、S(0)→P、S(0)→S(0)、S(0)→S(1)、P→B。对于二维SBP签名，其由二维分布式描述符构成，二维的分布式描述符由一维度分布式描述符组合而成，例如(S(0), S(0))、(S(1), S(1))、(S(0), S(1))、(S(0),B)) 、(S(1), B)) 、(B, B)) 、(P,S(0))等等，二维SBP签名例如：[(S(0), S(0)) (B, B)→(S(0), S(0))]、[(S(1), S(1)) (B, B)→(S(1), S(1))]、[(S(0), B) (S(1), S(1))→(P, S(1))]、[(S(0), B) (B, S(1))→(S(0), S(1))]等等。根据实际情况需要SBP签名也可以更多维度，例如三维或四维以致更多。所有SBP签名是各种SBP描述符组合结果。对于矩阵乘法逻辑节点，如果其输入逻辑张量是在第一维上面切割，其输出结果逻辑张量也是得到第一维上切割。综上所述，S、B、P是用于描述张量在数据处理***中的分布的描述符，而SBP签名利用多个SBP描述符描述逻辑节点的任务操作。每个张量可以有多种SBP描述符，而每个逻辑节点所代表的运算方式可以多种SBP 签名的情形。例如，图1所示的SBP-1可以是(S(0), B)→S(0)这种签名形式，而SBP-2可以是(S(1), B)→S(1)这种签名形式。实际应用中，不同签名形式可以具有不同的编号，这里给出的编号仅仅是为了描述的方便，并不意味着需要对每个签名都赋予一个编号，可以完全没有编号，签名的不同形式彼此之间不需要编号就可以彼此区分。例如SBP-1可以是二维的SBP签名，例如为[(S(0), B) (B, S(1))→(S(0), S(1))]。

可以基于用户的任务描述赋予每个初始逻辑节点如上所述的SBP签名。通常的任务逻辑节点是一些运算操作节点，其执行特定的运算操作，因此其具有特定的候选SBP签名。需要指出的是，并不是每个任务逻辑节点所具备的SBP签名都一样，通常进行乘法操作的任务逻辑节点其SBP签名的输入逻辑张量不包含部分和逻辑张量，因此其输入逻辑张量的SBP描述符不包含分布式描述符P。对于执行加法操作的任务逻辑节点的候选SBP签名则可以包括各种SBP描述符彼此之间或自己之间的任意组合。例如执行矩阵乘法的任务逻辑节点，在仅有数据并行的情况下，其候选SBP签名通常为(S(0), B)→S(0)，(S(1), B)→S(1)， (S(0), S(1))→P等，但不仅此这些，随着技术的发展，以前一些不适合矩阵乘法的签名也可以应用到矩阵乘法，此处仅仅是举例。以二维SBP签名[(S(0), B) (B, S(1))→(S(0), S(1))]，对于具有这种SBP签名的逻辑节点，表示其有两个输入端的张量描述符，即(S(0), B) 和(B, S(1))，以及输出端的张量的描述符(S(0), S(1))，即二维SBP签名的张量描述符也是二维的。第一张量的描述符(S(0), B)表示该第一张量首先在第0维（这里指的是张量自身的维度）进行分割（即第一维的S(0)）成多个第一分片张量，随后对于分割后的多个第一分片张量进行空间上广播或在时间上被连续输出（即第二维的B），第二张量的描述符(B, S(1))表示该第一张量首先进行空间上广播，随后对于广播的第二张量在第1维（这里指的是张量自身的维度）进行分割（即第二维的S(1)）成多个第二分片张量，最后，经过路基节点处理过的第一张量和第二张量形成的结果张量的分布描述符为(S(0), S(1))。每个初始逻辑节点基于所述任务配置数据附有候选逻辑分布式签名集合。所述候选逻辑分布式签名集合中的每个逻辑分布式签名指定了其所属的初始逻辑节点的每个输入逻辑张量的分布式描述符以及每个输出的逻辑张量的分布式描述符。

尽管初始逻辑节点生成组件110生成了初始逻辑节点拓扑图101，但是初始逻辑节点拓扑图101中每个逻辑节点将使用哪种SBP签名所确定的逻辑张量或者说使用哪种分布式逻辑张量以及输入何种分布式逻辑张量，需要进一步确定。

因此，根据本公开的逻辑节点分布式签名决策***100的第一维度SBP分布式签名选择组件120从初始逻辑节点拓扑图101中的源逻辑节点开始，在当前逻辑节点（例如逻辑节点B）的所有上游逻辑节点（例如逻辑节点A和E）的逻辑标签或SBP标签已经被确定时，传输数据量估算单元121基于所述逻辑节点B的所有上游逻辑节点的与逻辑节点B的输入端对应的输出端的分布式描述符，针对逻辑节点B的每一个候选逻辑分布式签名，计算将每个上游逻辑节点输出端的逻辑张量的分布式描述符变换为逻辑节点B的对应输入端的候选逻辑分布式签名之一的逻辑张量的分布式描述符所需的传输的数据的代价。如图1所示，逻辑节点B，其具有很多候选SBP签名，例如SBP-1、SBP-2以及SBP-3。举例而言， SBP-1其可能形式为 (S(1), B)→S(1)或(S(1), P)→S(1)、[(S(0), B) (B, S(1))→(S(0), S(1))]、[(S(0), S(0)) (B, B)→(S(0), S(0))]、[(S(0), B) (S(1), S(1))→(P, S(1))]的签名，初始逻辑节点A的签名SBP-5其可能形式举例而言为 (S(0), B)→S(0)的签名，初始逻辑节点E的签名SBP-3可能形式举例而言为B→B或S(0)→P。每个签名形式中，箭头左侧为输入逻辑张量的分布式描述符，箭头右侧为输出逻辑张量的分布式描述符。为了描述方便，下面将“分布描述符为S(0)的逻辑张量”简称为“S(0)逻辑张量”，将“分布描述符为B的逻辑张量”简称为“B逻辑张量”，将“分布描述符为P的逻辑张量”简称为“P逻辑张量”，同样，将“分布描述符为(S(0), B)的逻辑张量”简称为“(S(0), B)逻辑张量”，将“分布描述符为(B, S(1))的逻辑张量”简称为“(B, S(1))逻辑张量”，将“分布描述符为(P, S(1))的逻辑张量”简称为“(P, S(1))逻辑张量”，将“分布描述符为(S(0), B，S(1))的逻辑张量”简称为“(S(0),B，S(1))逻辑张量”，将“分布描述符为(B, S(1), S(1))的逻辑张量”简称为“(B, S(1), S(1))逻辑张量”，将“分布描述符为(P, S(1), S(0))的逻辑张量”简称为“(P, S(1), S(0))逻辑张量”等等，以此类推。

如图1所示，初始逻辑节点拓扑图101中逻辑节点E的标签SBP-3的形式如果为“S(0)→S(0)”，则其输出逻辑张量分布描述符则为S(0)，因此其输出逻辑张量为S(0)逻辑张量。如果逻辑节点E的签名SBP-3的形式为“B→B”或 “P→P”，则其输出的逻辑张量的分布描述符为B或P，因此其输出逻辑张量为B逻辑张量或P逻辑张量。如果逻辑节点B的候选签名SBP-1（即“(S(0), S(1))→P”）被选择为确定的签名，则其对应节点E的输出端的第一输入端的输入逻辑张量的分布描述符则必须是S(0)，即第一输入端必须获得一个S(1)逻辑张量，而其对应于节点A的输出端的第二输入端的输入逻辑张量的分布描述符则必须是S(0)，即第二输入端必须获得一个S(0)逻辑张量。很显然，此时节点A的输出逻辑张量分布描述符的P与节点B的第一输入端的输入逻辑张量的分布描述符S(0)不符，因此，要使得逻辑节点B执行正确的运算操作，就需要将节点A输出的分布描述符为P的逻辑张量变换为分布描述符为S(0)的逻辑张量。同样，如果节点E输出的逻辑张量的分布描述符为S(0)，则与节点B的第二输入端的量输入张的分布描述符S(1)不一致，因此，要使得逻辑节点B执行正确的运算操作，就需要将节点E输出的分布描述符为S(0)的逻辑张量变换为分布描述符为S(1)的逻辑张量。

在分布式计算***中，由于各个逻辑节点的操作任务尤其是运算任务被切割分布到各个计算设备(例如计算卡CPU、GPU或TPU)上，因此为了最终获得正确的结果，需要不断对中间参数进行同步，这就会涉及到不同计算设备之间的中间参数的交换。当上一逻辑节点的SBP签名所含有的输出逻辑张量的SBP描述符与当前节点的SBP签名的对应输入逻辑张量的SBP描述符不一致时，通常在实际运行过程中进行输出转换，而这个转换过程通常需要获取位于另一个计算设备上的部分数据，以便与本地能够获得的数据一起构成当前逻辑节点输入端所需的数据，从而符合当前逻辑节点的输入端的数据逻辑张量的分布式描述符。这种从另一个设备上获取部分数据的过程将会产生比较大的数据传输开销或传输代价。因此，为当前逻辑节点选择不同的签名会产生不同的数据传输开销或代价。为此，传输数据量估算单元121会对每个未确定签名的逻辑节点估算每个候选签名将会产生的数据传输开销。例如，针对逻辑节点B，针对其三个候选SBP签名分别估算逻辑节点B在采用其中一个SBP签名的情况下会产生的数据传输代价。对于逻辑节点B而言，选择任意一个候选SBP签名都可以实现其操作任务。但是其采用不同的SBP签名情况下，其运行所产生的数据传输代价不同。因此，为了在数据处理过程中使得数据传输代价最小化，需要从各个逻辑节点的候选签名中选择数据传输量最小的签名作为其实际运行过程中的签名。

在初始逻辑节点拓扑图101中处于上下游关系的逻辑节点A和逻辑节点B之间，逻辑节点A可能是源节点，其SBP签名可以由用户配置生成，也可以基于用户的对任务的描述自然生成，或者逻辑节点A的SBP签名已经基本按照本公开的方案进行了决策选择确定，例如逻辑节点A的SBP签名的输出逻辑张量的描述符为S(0)。而作为初始逻辑节点拓扑图101中的逻辑节点B，其具有很多候选SBP签名，其可能包括(S(1),B)→S(1) , B→P , S(1)→P，以及P→B等等但是，从逻辑节点A到逻辑节点B，由于逻辑节点A的输出逻辑张量的分布描述符为S(0)，节点B可以选择的对应输入逻辑张量分布描述符可以为S(1)、B以及P。

因此，当前面一些逻辑节点的签名被确定下来以后，其下游的逻辑节点的SBP签名也基于上游逻辑节点的输出逻辑张量的逻辑分布式描述符（SBP描述符）和下游上游逻辑节点的候选逻辑分布式签名的对应输入逻辑张量的逻辑分布式描述符（SBP描述符）之间的数据传输的代价而最终被选择确定。通过这种方式，对这样当一个逻辑节点的候选SBP签名一旦被选定进行计算，意味着该逻辑节点的各个输入端和输出端的张量的各自的SBP描述符也确定下来，从而计算或估算出当前逻辑节点的数据传输的总代价，并将总代价最小的候选逻辑分布式签名作为该当前逻辑节点的逻辑分布式签名。需要指出的是，如果当前逻辑节点的候选签名中有哪些签名的输入端的逻辑分布式描述符与其上游逻辑节点的输出逻辑张量的逻辑分布式描述符一致，则可以优先选择含有该逻辑分布式描述符的候选逻辑分布式签名，除非该候选逻辑分布式签名的其他输入端逻辑张量的逻辑分布式描述符会导致最后的总代价更大。

图3所示的是根据本公开的分布式数据处理***的逻辑节点分布式签名决策***100决策SBP签名的一种示意结构图。图3是对图1中节点A、B以及E之间的关系的放大示意图。如图3所示，假设逻辑节点E的已经确定的SBP签名SBP-3的输出逻辑张量的分布描述符为S(0)，逻辑节点A的已经确定的SBP签名SBP-5的输出逻辑张量的分布描述符为输入逻辑张量的分布描述符为P，逻辑节点B的候选SBP签名之一SBP-2为(S(1), S(0))→P。因此逻辑节点B的与逻辑节点E的输出逻辑张量的SBP描述符S(0)对应的输入逻辑张量的SBP描述符为S(1)，而逻辑节点B的与逻辑节点A的输出逻辑张量的SBP描述符P对应的输入逻辑张量的SBP描述符为S(0)。因此，要符合逻辑节点B的候选SBP签名的输入逻辑张量分布要求，则需要使得其一个输入的逻辑张量分布从逻辑节点E的输出逻辑张量的SBP描述符S(0)变换为S(1)以及使得其另一个输入的逻辑张量分布从逻辑节点A的输出逻辑张量的SBP描述符P变换为S(0)。这中变换将会在实际数据处理过程中产生数据交换。

图4图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第一示意图。针对图3所示的任务节点B的候选SBP签名SBP-2，假设为(S(1), S(0))→P。为了描述方便，输入源任务节点A和E与接收的汇节点B的任务都分布在同一设备集上。如图4所示，都分布在计算卡GUP 0和GPU 1上。尽管这里只是显示了两张计算卡，实际上源任务节点和汇任务节点可以分布到更多张卡上，也可以分布到不同设备集上。图4显示了图3中的任务节点E的任务的S(0)描述符逻辑张量分布在两张计算卡上的情况下任务节点B的输入端要获得S(0)描述符的逻辑张量的情况下的数据交换过程。

任务节点B的分布在GPU 0的任务节点要获得S(1)，则除了需要直接从获得任务节点E的S(0)描述符所描述的分布在GPU 0上的逻辑张量一半外（采用实线箭头显示了这种数据部分的获取过程），还需要补充从任务节点E的S(0)描述符所描述的分布在GPU 1上的逻辑张量的另外一半（采用虚线箭头显示了这种数据部分的获取过程）。如果逻辑张量的大小为T₁，则从GPU 1上的任务节点E的逻辑张量上传输到任务节点B的分布在GPU 0的任务节点的数据量为T₁/2。与此同时，任务节点B的分布在GPU 1的任务节点要获得S(1)，则除了需要直接从获得任务节点E的S(0)描述符所描述的分布在GPU 1上的逻辑张量一半外（采用实线箭头显示了这种数据部分的获取过程），还需要补充从任务节点E的S(0)描述符所描述的分布在GPU 0上的逻辑张量的另外一半（采用虚线箭头显示了这种数据部分的获取过程）。如果逻辑张量的大小为T₁，则从GPU 0的任务节点E的逻辑张量上传输到任务节点B的分布在GPU 1的任务节点的数据量为T₁/2。因此，将任务节点E的S(0)描述符逻辑张量变换为任务节点B的输入端要获得S(0)描述符的逻辑张量，总的数据传输代价为T₁=（T₁/2+T₁/2）。T₁是源节点上所分布的逻辑张量的大小。在图4中，逻辑张量的大小为S(0)分布在每张卡上阴影部分的张量的大小也就是整个逻辑张量的二分之一。在设备集的数据卡的数量为3、4或5的情况下，其传输代价也还是T₁。

图5图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第二示意图。同样，针对图3所示的任务节点B的候选SBP签名SBP-2，假设为(S(1), S(0))→P。为了描述方便，输入源任务节点A和E与接收的汇节点B的任务都分布在同一设备集上，如图5所示，都分布在计算卡GUP 0、GPU 1以及GUP 2上。尽管这里显示了三张计算卡，这仅仅是为了举例。其也可以与图4所示的那样可以是两张卡。实际上源任务节点和汇任务节点可以分布到更多张卡上，也可以分布到不同设备集上。图5显示了图3中的任务节点A的任务的P描述符逻辑张量分布在两张计算卡上的情况下任务节点B的输入端要获得S(0)描述符的逻辑张量的情况下的数据交换过程。

任务节点B的分布在GPU 0的任务节点要获得S(0)，则除了需要直接从获得任务节点A的P描述符所描述的分布在GPU 0上的逻辑张量三分之一外（采用实线箭头显示了这种数据部分的获取过程），还需要补充任务节点A的P描述符所描述的分布在GPU 1上的逻辑张量的三分之一（采用虚线箭头显示了这种数据部分的获取过程）以及任务节点A的P描述符所描述的分布在GPU 2上的逻辑张量的三分之一。如果A任务节点分布在每张GPU卡上的逻辑张量的大小为T₂，则分布在GPU 0上的任务节点B要获得S(0)逻辑张量，还需要补充从GPU1上的任务节点A的逻辑张量上向任务节点B的分布在GPU 0的任务节点传输数据量T₂/3以及从GPU 2上的任务节点A的逻辑张量上向任务节点B的分布在GPU 0的任务节点传输数据量T₂/3。同样，分布在GPU 1上的任务节点B要获得S(0)逻辑张量，还需要补充从GPU 0上的任务节点A的逻辑张量向任务节点B的分布在GPU 1的任务节点传输数据量T₂/3以及从GPU2上的任务节点A的逻辑张量向任务节点B的分布在GPU 1的任务节点传输数据量T₂/3。类似地，分布在GPU 2上的任务节点B要获得S(0)逻辑张量，还需要补充从GPU 1上的任务节点A的逻辑张量向任务节点B的分布在GPU 2的任务节点传输数据量T₂/3以及从GPU 0上的任务节点A的逻辑张量向任务节点B的分布在GPU 2的任务节点传输数据量T₂/3。因此，图5所示的从P分布式逻辑张量变换成S(0)分布式逻辑张量在实际数据处理过程中的数据传输量为2T₂=（T₂/3+T₂/3+T₂/3+T₂/3+T₂/3+T₂/3）。可选择地，如果任务节点所分布的计算卡的数量为2。则数据的传输量为T₂=（T₂/2+T₂/2）。以此类推，在源节点和汇节点具有相同的设备集的情况下，如果设备集中的卡数量k，则数据的传输量为（k-1）·T₂。

很显然，如上所述，对于逻辑节点B要执行体运算操作，选择签名SBP-2签名（例如签名(S(1), S(0))→P）所需要的数据传输代价是两个输入端的传输代价的总和。综合图4和图5（如果图5中为两张计算卡的情况下），任务节点在候选签名SBP-2情况下，其需要传输的总的数据量为T₁ +2T₂。为此，传输数据量估算单元121针对逻辑节点B的候选签名SBP-1所估算的传输代价需要包含针对该候选签名的两个输入端的传输代价。

根据针对源任务节点和汇任务节点的设备集之间的完全相同的情况可以归纳总结各种SBP描述符彼此之间存在的数据交换量的计算表，如下表1：

表1（源任务节点和汇任务节点的分布设备集完全相同，卡数为K）

变换模式	源任务节点分布逻辑张量的数据量	数据交换量	备注
				S(i) →S(j)	T<sub>1</sub>	0	i=j
S(i) →S(j)	T<sub>1</sub>	T<sub>1</sub> ·(K-1)/K	i≠j
				S→B	T<sub>2</sub>	(K-1) ·T<sub>2</sub>
S→P	T<sub>3</sub>	0
				B→S	T<sub>4</sub>	0
B→B	T<sub>5</sub>	0
				B→P	T<sub>6</sub>	0
P→S	T<sub>7</sub>	(K-1) · T<sub>7</sub>
				P→B	T<sub>8</sub>	2(K-1) · T<sub>8</sub>
P→P	T<sub>9</sub>	0

图6图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第三示意图。其中的源节点的设备集与汇节点的设备集完全不同。即源任务节点E分布在GPU 0和GPU1上，汇任务节点B分布在计算卡GPU 2和GPU 3上。如果分布在各个计算卡上的逻辑张量大小为T₃，在需要传输的数据量为2T₃。

图7图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第四示意图。其中的源节点的设备集与汇节点的设备集完全不同。即源任务节点A分布在GPU 0、 GPU1和GPU 2上，汇任务节点B分布在计算卡GPU 3、GPU 4和GPU 5上。如果分布在各个源任务节点的各个计算卡上的逻辑张量大小为T₄，在需要传输的数据量为9个1/3 T₄，即，3T₄。如果源任务节点所分布的任务集的计算卡的数量为2，则需要传输的数据量为2T₄。如果源任务节点A所分布的任务集的计算卡的数量为Ks，则数据的传输量则为Ks ·T₄。

根据针对源任务节点和汇任务节点的设备集之间的完全不同的情况可以归纳总结各种SBP描述符彼此之间存在的数据交换量的计算表，如下表2：

表2（源任务节点（卡数为K_s)和汇任务节点（卡数为K_d)各自的分布设备集完全不同）

变换模式	源任务节点分布逻辑张量的数据量	数据交换量
			S→S	T<sub>1</sub>	T<sub>1</sub>
S→B	T<sub>2</sub>	K<sub>d</sub> ·T<sub>2</sub>
			S→P	T<sub>3</sub>	T<sub>3</sub>
B→S	T<sub>4</sub>	T<sub>4</sub>
			B→B	T<sub>5</sub>	K<sub>d</sub> ·T<sub>5</sub>
B→P	T<sub>6</sub>	T<sub>6</sub>
			P→S	T<sub>7</sub>	K<sub>s</sub> ·T<sub>7</sub>
P→B	T<sub>8</sub>	(K<sub>s</sub> +K<sub>d</sub> -1)·T<sub>8</sub>
			P→P	T<sub>9</sub>	K<sub>s</sub> ·T<sub>9</sub>

图8图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第五示意图。其中的源节点的设备集与汇节点的设备集不完全相同。即源任务节点E分布在GPU 0和GPU1上，汇任务节点B分布在计算卡GPU 1和GPU 2。如果分布在各个源任务节点所分布的计算卡上的逻辑张量大小为T₅，在需要传输的数据量为3/2 T₃=（1/2 T₃+1/2 T₃+1/2 T₃）。这种情况下，计算没有固定规律，需要根据实际设备集的具体构成以及彼此之间的交集情况进行计算。

图9图示了根据本公开的传输数据量估算单元121估算不同分布式描述符的逻辑张量之间产生的数据传输量的第六示意图。其中的源节点的设备集与汇节点的设备集不完全相同。即源任务节点A分布在GPU 0、 GPU1和GPU 2上，汇任务节点B分布在计算卡GPU 1、GPU 2和GPU 3上。如果分布在各个源任务节点的各个计算卡上的逻辑张量大小为T₆，在需要传输的数据量为在需要传输的数据量为7个1/3 T₄，即，7/3T₄。这种情况下，计算没有固定规律，需要根据实际设备集的具体构成以及彼此之间的交集情况进行计算。

如上所述，传输数据量估算单元121按照上述方式遍历逻辑节点B的所有候选签名SBP-1、SBP-2以及SBP-3，并针对每个签名获取其传输代价。随后，由传输数据量比较单元122会比较每个候选签名下的传输代价，并获取待确定逻辑节点，例如逻辑节点B，的最小传输代价。最后由SBP签名确定单元123将最小传输代价所对应的候选SBP签名确定为该逻辑节点B的最终SBP签名或一个满足这种最小传输代价的候选SBP签名子集。举例而言，如果逻辑节点B的候选SBP签名SBP-2，假设为(S(1), S(0))→P，满足最小传输代价，那么如果候选SBP签名之一SBP-1为[(S(1), (S(1)) ,(S(0), B)→(P, S(1))]，该候选SBP签名之一SBP-1也是满足最小传输代价的。因此，候选SBP签名(S(1), S(0))→P与[(S(1), (S(1)) ,(S(0), B)→(P, S(1))]就构成了逻辑节点B的候选SBP签名子集。

这样第一逻辑节点拓扑图输出组件130基于SBP签名确定单元123针对每个逻辑节点确定的SBP签名，输出第一逻辑节点拓扑图131，构成该第一逻辑节点拓扑图131的每个逻辑节点可以都只附带有一个SBP签名，或者说每个逻辑节点都明确指定了其每个输入逻辑张量的分布方式或分布描述符，并且唯一地确定了其输入逻辑张量的分布方式或分布描述符。可选择地，该第一逻辑节点拓扑图131的有些逻辑节点可能会具有多个满足数据交换代价最小的候选SBP签名，从而形成该逻辑节点的候选SBP签名子集。

图2所示的是根据本公开的用于静态分布式数据处理***的逻辑节点分布式签名决策***100的第二部分原理示意图。提供了一种在候选SBP签名子集中进一步确定SBP签名的方案。举例而言，图10所示的是使用本公开的逻辑节点分布式签名决策***100的静态分布式数据处理***将逻辑节点拓扑图变换成计算图的一个实例，如图10左侧所示，如果逻辑节点N3所分配的计算设备之一的计算资源足以满足对第一逻辑张量1和第二逻辑张量2以及结果逻辑张量3所需的计算资源，则可以直接采用低维度的候选SBP签名，例如一维的候选SBP签名(S(1), S(0))→P。如果逻辑节点N3所分配的计算设备之一的计算资源不满足对第一逻辑张量1和第二逻辑张量2以及结果逻辑张量3所需的计算资源，则本公开提供了另一个多维的候选SBP签名，通过对其中某个输入逻辑张量（例如第一逻辑张量1）进行进一步分割描述，减少对逻辑节点N3所分配的计算设备的计算资源的需求，使得逻辑节点N3所分配的计算设备的计算资源足以满足处理进一步分割后的逻辑张量所需的计算资源。为此，根据本公开的决策***提供了如图2所示的第二维度SBP分布式签名选择组件140。第二维度SBP分布式签名选择组件140的计算资源比较单元141会比较所述当前逻辑节点将要并行分布的设备集的每一个计算设备的实际计算资源以及处理按照所述第一维度分布式描述符所确定的对应输入端的逻辑张量所需的计算资源之间的大小。例如，参见图10所示，获取当前逻辑节点N3的第一逻辑张量1、第二逻辑张量2以及结果逻辑张量3在逻辑节点N3被处理时所需的计算资源，例如内存资源等，同时获取当前逻辑节点N3被部署的计算设备（例如某个GPU或某个CPU或者某个服务器）所能够提供的实际计算资源。如前所述，如果所部署的计算设备足以满足处理当前逻辑节点N3的所有输入逻辑张量和输出逻辑张量所需的计算资源，则SBP签名确定单元143直接确定候选SBP签名子集中维度最低的SBP签名作为当前逻辑节点N3的最终SBP签名，例如(S(1), S(0))→P。

如果所部署的计算设备不足以满足处理当前逻辑节点N3的所有输入逻辑张量和输出逻辑张量（或结果逻辑张量）所需的计算资源，则分布描述符确定单元142选择其中一个输入端的逻辑张量的第二维度SBP描述符。例如，对图10中当前逻辑节点N3的第一逻辑张量1进行进一步分割，使得分割后的每个第一分片逻辑张量1、第二逻辑张量2以及结果分片逻辑张量3被处理时所需的计算资源小于所部署的计算设备的计算资源，这样第一分片逻辑张量1的SBP描述符为(S(1), S(1))。同时分布描述符确定单元142确定第二逻辑张量2的SBP描述符为(S(0), B)，结果分片逻辑张量的SBP描述符则为(P, S(1))。因此，最后当前逻辑节点N3满足计算设备的计算资源的SBP签名则为[(S(1), (S(1)) ,(S(0), B)→(P, S(1))]。该SBP签名的每个SBP描述符的每个维度的描述符上附有分布的预定数量或预定次数。例如第一分片逻辑张量1的SBP描述符(S(1), (S(1))的每个维度SBP描述符S(1)包含了并行部署的计算设备的数量或分割成分片张量的预定数量，而第二逻辑张量2的SBP描述符(S(0), B)为第一维度SBP描述符S(0)包含了并行部署的计算设备的数量或分割成分片张量的预定数量，第二维度SBP描述符B包含了将要重复广播第二逻辑张量2的预定次数。第一逻辑张量1的SBP描述符(S(1), (S(1))的第二维度S(1)所附有的预定数量与第二逻辑张量2的SBP描述符(S(0), B)的第二维度SBP描述符B包含的预定次数相等。同样，结果分片逻辑张量3的SBP描述符则为(P, S(1))，其第二维度的SBP描述符S(1)所包含的预定数量也与第二逻辑张量2的SBP描述符(S(0), B)的第二维度SBP描述符B包含的预定次数相等。SBP签名确定单元143基于分布描述符确定单元142所确定的各个输入端张量的描述符从所述候选SBP分布式签名子集中选择含有第一输入端的第一逻辑张量的第二维度分布式描述符和/或其他输入端的其它逻辑张量的第二维度分布式描述符的候选SBP分布式签名作为所述当前逻辑节点的确定SBP分布式签名。

需要指出的是，分布描述符确定单元142通常在选择第二维度SBP描述符时，通常优先为输入端张量中最大的张量选择分割或并行分布式描述符S，而为其他输入端张量选择广播描述符B。分选择分割的输入张量可以是数据张量，也可以是模型张量。

最后第二逻辑节点拓扑图输出组件150基于SBP签名确定单元143针对每个逻辑节点确定的SBP签名，输出最终的第二逻辑节点拓扑图151，构成第二逻辑节点拓扑图151的每个逻辑节点都只附带有一个SBP签名，或者说每个逻辑节点都明确指定了其每个输入张量的分布方式或分布描述符，并且唯一地确定了其输入张量的分布方式或分布描述符。

返回图2所示，在逻辑节点分布式签名决策***100的第二逻辑节点拓扑图输出组件150输出最终的第二逻辑节点拓扑图151这种任务拓扑图之后，静态分布式数据处理***的计算图生成组件160会基于第二逻辑节点拓扑图151生成计算图，其中每个任务逻辑节点会对应其所分布或并行的计算设备的数量，形成对应数量的计算节点，此外，对于当前逻辑节点对应的计算节点的输入张量的分布描述符和其对应上游计算节点的输出张量的分布描述符不对应的情况，则需要***一个变换计算节点，例如在图10右侧部分显示，计算节点N1和N3之间，***计算节点N4，从而将计算节点N1输出的分布描述符为S(1)的逻辑张量1分割为SBP描述符(S(1), (S(1))的第一分片逻辑张量1，同样在图10的计算节点N2和N3之间，***计算节点N5，从而将计算节点N2输出的分布描述符为P的张量分割为SBP描述符(P,B)的第二逻辑张量2。具体而言，计算节点N4为一个分割计算节点，其对计算节点N1输出的分布描述符为S(1)的逻辑张量1进行处理时，将逻辑张量1在该张量的第1维度上继续执行分割处理（UPACK），将其分割为预定数量的第一分片逻辑张量1，从而该第一分片逻辑张量体现了SBP描述符(S(1), (S(1))所描述的分布结果。分割计算节点N4在执行分割处理时将预定数量的第一分片逻辑张量1逐一输出给计算节点N3（与逻辑节点N3对应）。同时，计算节点N5为一种重复广播计算节点，其对计算节点输出的第二逻辑张量2进行处理时，将第二逻辑张量2进行重复广播输出处理（REPEAT），重复输出预定次数。重复输出的预定次数与第一分片逻辑张量1的预定数量相等。因此，计算节点N3在执行处理时，每次处理的实际张量为第一分片逻辑张量1和第二逻辑张量2，其获得输出结果逻辑张量为结果分片张量3，而不是结果逻辑张量3。这样导致的结果是，计算节点N3在实际处理第一分片逻辑张量1和第二逻辑张量2并获得输出结果分片逻辑张量3的情况下所需的计算资源要比在实际处理第一逻辑张量1和第二逻辑张量2以及获得结果逻辑张量3情况下所需要的计算资源要小得多，并且计算节点N3所部署的计算设备的计算资源能够满足实际计算所需的计算资源，降低了对高成本计算设备的需求。

此外，还需要在计算节点N3之后，***计算节点N6。该计算节点N6为集结计算节点。其对计算节点N3输出的结果分片逻辑张量3执行集结处理（ACCUMULATE），逐一将结果分片逻辑张量3集结成结果逻辑张量3。

尽管上面给出了如何在一些候选SBP签名确定最终SBP签名的常规情况，但是在一些特定的情况下，对于某些逻辑节点，在用户有特殊的配置的情况下或有用户指定的情况下，这些逻辑节点只有用户指定的SBP签名，因此其下游的逻辑节点将基于这种特别指定的上游逻辑节点进行SBP签名的确定。

通过根据本公开的用于分布式数据处理***的逻辑节点的SBP分布式签名决策***，一方面能够从全局角度使得分布式数据处理***在处理数据过程中的不同计算设备之间的数据交换量最小化，从而减少的数据交互过程产生的开销，这样有效地降低了数据交换对实际运算操作带来的不良影响，降低了运算操作的等待时间，从而加快了数据处理速度，更重要的是另一方面能够在大规模模型和大规模数据处理需求下，降低对计算设备的单卡计算资源量的需求，从而降低了所需的硬件成本，另一方面能够自动进行并行部署，尤其是能够自动完成需要人工介入下的混合并行部署情形下实现的相同的数据处理效果。而且，局部出现大张量需要处理情况下导致该大张量所部署计算设备无法满足大张量处理所需计算资源时，通过采用本公开的SBP签名决策***能够消除因为局部大张量而需要增加计算设备计算资源的需求。如果为局部大张量的处理而增加计算设备的计算资源，将导致所增加的计算资源大部分时候处于闲置状态，这也导致了计算资源的浪费。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本公开的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本公开的说明的情况下运用他们的基本编程技能就能实现的。

因此，本公开的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本公开的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本公开，并且存储有这样的程序产品的存储介质也构成本公开。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本公开的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，所述SBP分布式签名包括一维SBP分布式签名和多维SBP分布式签名，所述SBP分布式签名是采用逻辑张量的分布式描述符对逻辑节点的签名，每个逻辑张量的分布式描述符种类包括分割（SPLIT）逻辑张量描述符、广播（BROADCAST）逻辑张量描述符以及部分值（PARTIALVALUE）逻辑张量描述符，所述分割（SPLIT）逻辑张量描述符描述逻辑张量的分割方式，所述广播（BROADCAST）逻辑张量描述符描述逻辑张量以广播方式在分布式数据处理***中进行发布的方式，所述部分值（PARTIAL VALUE）逻辑张量描述符表示一个逻辑节点的输入或输出逻辑张量为多个同类逻辑张量的部分值，逻辑节点的输入和输出逻辑张量各自的分布式描述符描述逻辑节点对操作数据的分布描述，由此形成了对逻辑节点的签名，所述***包括：

初始逻辑节点生成组件，接收用户输入的任务配置数据，生成用于所述分布式数据处理***的初始逻辑节点拓扑图，其中源逻辑节点具有指定的SBP分布式签名以及每个初始逻辑节点基于所述任务配置数据附有候选SBP分布式签名集合，所述候选SBP分布式签名集合中的每个SBP分布式签名指定了其所属的初始逻辑节点的每个输入逻辑张量的分布式描述符以及每个输出逻辑张量的分布式描述符；以及

第一维度SBP分布式签名选择组件，根据每个已经确定SBP分布式签名的上游逻辑节点的输出端的分布式描述符，针对当前逻辑节点的每一个候选SBP分布式签名，基于每个上游逻辑节点将要并行分布的设备集的数据量、当前逻辑节点将要并行分布的设备集的数据量以及每个上游逻辑节点分布在每个设备上的逻辑张量的大小，计算将每个上游逻辑节点输出端的逻辑张量的分布式描述符变换为当前逻辑节点的对应输入端的逻辑张量的第一维度分布式描述符所需的传输数据的代价，并选择与代价最小值所对应的含有所述第一维度分布式描述符的一个或多个候选SBP分布式签名作为所述当前逻辑节点的候选SBP分布式签名子集，所述第一维度分布式描述符描述了所述对应输入端的逻辑张量的并行方式；以及，

第二维度SBP分布式签名选择组件，比较所述当前逻辑节点将要并行分布的设备集的每一个计算设备的实际计算资源以及处理按照所述第一维度分布式描述符所确定的对应输入端的逻辑张量和结果逻辑张量所需的计算资源之间的大小，并在所需的计算资源大于实际计算资源时，从所述候选SBP分布式签名子集中选择含有第一输入端的第一逻辑张量的第二维度分布式描述符和/或其他输入端的其它逻辑张量的第二维度分布式描述符的候选SBP分布式签名作为所述当前逻辑节点的确定SBP分布式签名，其中所述确定SBP分布式签名的第一输入端的逻辑张量的第二维度分布式描述符为分割逻辑张量描述符，含有第一逻辑张量将在第一维度分布式描述符所描述的分布的基础上被分割成多个第一分片逻辑张量的预定数量，以及其他逻辑张量的第二维度分布式描述符为广播逻辑张量分布描述符，并含有指定其他逻辑张量将被重复广播的预定次数，其中所述预定数量等于所述预定次数，并且所述当前逻辑节点处理每个第一分片逻辑张量、其他输入端的逻辑张量以及由此获得的结果分片张量所需的计算资源小于每一个计算设备的实际计算资源。

2.根据权利要求1所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中第一逻辑张量为数据逻辑张量，而其他逻辑张量之一为模型逻辑张量。

3.根据权利要求1所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中第一逻辑张量为模型逻辑张量，而其他逻辑张量为数据逻辑张量。

4.根据权利要求1所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中输入端的逻辑张量都为数据逻辑张量。

5.根据权利要求1所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中第一逻辑张量所需的计算资源量大于其他输入端的其它逻辑张量之一所需的计算资源量。

6.根据权利要求1所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策***，其中所述分布式数据处理***还包括计算图生成组件，用于基于由获得确定SBP分布式签名的逻辑节点构成逻辑节点拓扑图生成任务逻辑计算图，其中当前逻辑节点对应的计算节点的第一输入端之前***分割计算节点、在其它输入端之前***重复广播计算节点以及在输出端之后***集结计算节点。

7.一种用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，所述SBP分布式签名包括一维SBP分布式签名或多维SBP分布式签名，所述SBP分布式签名是采用逻辑张量的分布式描述符对逻辑节点的签名，每个逻辑张量的分布式描述符种类包括分割（SPLIT）逻辑张量描述符、广播（BROADCAST）逻辑张量描述符以及部分值（PARTIALVALUE）逻辑张量描述符，所述分割（SPLIT）逻辑张量描述符描述逻辑张量的分割方式，所述广播（BROADCAST）逻辑张量描述符描述逻辑张量以广播方式在分布式数据处理***中进行发布的方式，所述部分值（PARTIAL VALUE）逻辑张量描述符表示一个逻辑节点的输入或输出逻辑张量为多个同类逻辑张量的部分值，逻辑节点的输入和输出逻辑张量各自的分布式描述符描述逻辑节点对操作数据的分布描述，由此形成了对逻辑节点的签名，所述方法包括：

初始逻辑节点生成步骤，接收用户输入的任务配置数据，生成用于所述分布式数据处理***的初始逻辑节点拓扑图，其中源逻辑节点具有指定的SBP分布式签名以及每个初始逻辑节点基于所述任务配置数据附有候选SBP分布式签名集合，所述候选SBP分布式签名集合中的每个SBP分布式签名指定了其所属的初始逻辑节点的每个输入逻辑张量的分布式描述符以及每个输出逻辑张量的分布式描述符；以及

第一维度SBP分布式签名选择步骤，根据每个已经确定SBP分布式签名的上游逻辑节点的输出端的分布式描述符，针对当前逻辑节点的每一个候选SBP分布式签名，基于每个上游逻辑节点将要并行分布的设备集的数据量、当前逻辑节点将要并行分布的设备集的数据量以及每个上游逻辑节点分布在每个设备上的逻辑张量的大小，计算将每个上游逻辑节点输出端的逻辑张量的分布式描述符变换为当前逻辑节点的对应输入端的逻辑张量的第一维度分布式描述符所需的传输数据的代价，并选择与代价最小值所对应的含有所述第一维度分布式描述符的一个或多个候选SBP分布式签名作为所述当前逻辑节点的候选SBP分布式签名子集，所述第一维度分布式描述符描述了所述对应输入端的逻辑张量的并行方式；以及，

第二维度SBP分布式签名选择步骤，比较所述当前逻辑节点将要并行分布的设备集的每一个计算设备的实际计算资源以及处理按照所述第一维度分布式描述符所确定的对应输入端的逻辑张量和结果逻辑张量所需的计算资源之间的大小，并在所需的计算资源大于实际计算资源时，从所述候选SBP分布式签名子集中选择含有第一输入端的第一逻辑张量的第二维度分布式描述符和/或其他输入端的其它逻辑张量的第二维度分布式描述符的候选SBP分布式签名作为所述当前逻辑节点的确定SBP分布式签名，其中所述确定SBP分布式签名的第一输入端的逻辑张量的第二维度分布式描述符为分割逻辑张量描述符，含有第一逻辑张量将在第一维度分布式描述符所描述的分布的基础上被分割成多个第一分片逻辑张量的预定数量，以及其他逻辑张量的第二维度分布式描述符为广播逻辑张量分布描述符，并含有指定其他逻辑张量将被重复广播的预定次数，其中所述预定数量等于所述预定次数，并且所述当前逻辑节点处理每个第一分片逻辑张量、其他输入端的逻辑张量以及由此获得的结果分片张量所需的计算资源小于每一个计算设备的实际计算资源。

8.根据权利要求7所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中第一逻辑张量为数据逻辑张量，而其他逻辑张量之一为模型逻辑张量。

9.根据权利要求7所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中第一逻辑张量为模型逻辑张量，而其他逻辑张量为数据逻辑张量。

10.根据权利要求7所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中输入端的逻辑张量都为数据逻辑张量。

11.根据权利要求7所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中第一逻辑张量所需的计算资源量大于其他输入端的其它逻辑张量之一所需的计算资源量。

12.根据权利要求7所述的用于多级分布式数据处理***的逻辑节点的多维SBP分布式签名决策方法，其中所述分布式数据处理***还包括计算图生成组件，用于基于由获得确定SBP分布式签名的逻辑节点构成逻辑节点拓扑图生成任务逻辑计算图，其中当前逻辑节点对应的计算节点的第一输入端之前***分割计算节点、在其它输入端之前***重复广播计算节点以及在输出端之后***集结计算节点。