WO2021238305A1

WO2021238305A1 - 一种基于强化学习的通用分布式图处理方法及***

Info

Publication number: WO2021238305A1
Application number: PCT/CN2021/076484
Authority: WO
Inventors: 周池; 罗鹃云; 毛睿
Original assignee: 深圳大学
Priority date: 2020-05-27
Filing date: 2021-02-10
Publication date: 2021-12-02
Also published as: CN111539534A; CN111539534B

Abstract

本申请公开了一种基于强化学习的通用分布式图处理方法及***，基于图论定义分布式数据处理中心形成分布式图，利用预设图切割模型及预设图处理模型，基于预设约束条件利用强化学习的方式对分布式图切割，给每一个顶点分配一个学习自动机，通过训练为顶点找到最适合的数据处理中心，每个顶点在所有数据处理中心的可能性服从一定的概率分布，整个***在每个迭代过程中包含动作选择、顶点迁移、分数计算、强化信号计算、概率更新五个步骤，达到最大迭代次数或者约束条件已经收敛，判断迭代结束。本申请提供通用分布式图处理方法形成的分布式图处理模型是一个通用的分布式图模型，对于不同的优化目标只需要设计不同的分数计算方案以及不同的权重向量。

Description

一种基于强化学习的通用分布式图处理方法及***

技术领域

本申请涉及大规模图分割处理领域，具体涉及一种基于强化学习的通用分布式图处理方法及***。

背景技术

为了高效地进行大规模图处理，通常需要对图进行分割，使得分割后的子图可以并行地进行处理。大规模图分割目前有以下几种经典模型：

启发式模型，传统主流的大规模图处理***Pregel、PowerGraph等都采用的是启发式的分割算法。Pregel默认的分区方法就是通过对顶点id的Hash值进行取模操作以达到增强分区的局部性，减少计算节点之间网络流量的优化目标。PowerGraph默认采用的是贪婪的点切分方式，对于新加进来的边，如果它的某个顶点已经存在于某台机器上，就将该边分配到对应的机器上，从而最小化跨机器的边的数目，减少通信量。这种启发式的图分割算法容易陷入局部最优解，有一些更好的解空间并没有被搜索到。

机器学***衡图分区问题当作顶点分类问题进行解决。但是如果优化目标涉及到网络价格以及带宽的异构性时，nodes的embeddings的计算就十分复杂了。这些已有的用于图分割的机器学习模型适用场景比较单一，当图规模变大、优化目标更复杂时，这些方法就不能很好地解决图分割问题了。

发明内容

因此，本申请要解决的技术问题在于克服现有技术中图切割模型存在易陷入局部最优解、使用场景单一等分割效果差的缺陷，从而提供一种基于强化学习的通用分布式图处理方法及***。

为达到上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种基于强化学习的通用分布式图处理方法，包括如下步骤：基于图论定义分布式数据处理中心形成分布式图，利用预设图切割模型及预设图处理模型，基于预设约束条件对分布式图进行切割；

为分布式图的每个顶点分配一个学习自动机，初始化各顶点在各数据处理中心的概率，基于初始化的概率，所述学习自动机按预设动作选择方法为顶点选择概率最大的数据处理中心；

学习自动机将为顶点选择概率最大的数据处理中心，与其顶点当前所在的数据处理中心作比较，如果不一致，则将顶点迁移至动作对应的数据处理中心中，否则不做任何操作；

每个学习自动机计算其顶点在每一个数据处理中心时的分数，所述分数根据所述预设约束条件确定；

每个学习自动机将最大分数对应的数据处理中心号传播给其顶点的邻居所属的学习自动机，生成相应的权重向量，学习自动机根据所述权重向量为其顶点计算出所有数据处理中心对应的强化信号；

学习自动机根据所述权重向量以及强化信号，更新其顶点在每一个数据处理中心的概率值，指导下一次的动作选择进行迭代；

直至达到预设迭代次数或者所述约束条件收敛，生成满足预设约束条件的分布式图的分割结果。

在一实施例中，所述预设图切割模型为hybrid-cut图切割模型，所述预设图处理模型为GAS图处理模型，利用GAS图处理模型迭代执行顶点计算，所述约束条件为资金预算成本及数据传输时间最小。

在一实施例中，所述数据传输时间表示为收集阶段和应用阶段的数据传输时间之和，第i次迭代的数据传输时间T(i)的计算公式为：

其中，

为1时，表示数据处理中心DCr中的顶点v是master，

为0时，表示DCr中的顶点v是master；

为1时，表示DCr中的顶点v是high-degree，

为0时，DCr中的顶点v是low-degree；

表示在第i次迭代中的收集r阶段从DC _r的副本中向master顶点v传送数据量的大小；

a _v(i)表示在第i次迭代中的应用阶段中从master顶点v向每一个副本发送数据量的大小；

U _r/D _r表示DCr的上传/下载带宽；

R _v表示包含v的副本的数据处理中心DC的集合；

数据处理中心DC之间的通信成本为在收集阶段和应用阶段的上传数据的成本之和，从DC _r将数据上传至网络的单元成本为P _r，所述资金预算成本表示为：

约束条件为：

minT(i) (3)

C _comm(i)≤B (4)

其中，B为使用网络资源的资金预算。

在一实施例中，初始化各顶点在各数据处理中心的概率，所述学习自动机按预设动作选择方法为顶点选择概率最大的数据处理中心的步骤，包括：

初始化顶点v在数据处理中心DC _i的概率P(v _i)为

M为分布式DC的数量；

根据顶点的概率分布获取顶点对于各数据处理中心DC的累积概率，Q(v _i)表示顶点v在数据处理中心DC _i的累积概率，其中，

随机生成一个浮点数r∈[0,1]，如果r小于等于Q(v ₀)，则DC 0将被选中；如果r介于Q(v _k-1)与Q(v _k)(k≥1)之间时，则数据处理中心DC k被选中。

预设一试错参数τ，随机生成一个浮点数r∈[0,1]，如果r≤τ，则学习自动机为其顶点随机选择一个DC；如果r>τ，则学习自动机为其顶点选择P(v _i)值最大的数据处理中心DC。

在一实施例中，每个学习自动机计算其顶点在每一个数据处理中心时的分数，通过以下公式计算：

其中，

表示顶点v在DCi时的分数，B表示使用网络资源的资金预算，T _b表示计算分数之前***整体的数据传输时间，C _b表示计算分数之前***整体的数据传输成本，

表示计算顶点在DCi时***整体的数据传输时间，

表示计算顶点在DCi时***整体的数据传输成本，tw与cw分别表示时间权重以及资金成本权重；在C _b≥B时，cw随着迭代次数的增加从1均匀减少至0，tw随着迭代次数的增加从0均匀增加至1；当C _b<B时，tw随着迭代次数的增加从1均匀减少至0，cw随着迭代次数的增加从0均匀增加至1。

每个学习自动机将最大分数对应的数据处理中心号传播给其顶点的邻居所属的学习自动机，生成相应的权重向量，学习自动机根据所述权重向量为其顶点计算出所有数据处理中心对应的强化信号的步骤，包括：

计算权重向量的参考标准，通过如下公式计算：

其中，

表示当顶点u收到其邻居v传播的标签ρ _v时，其计算权重向量的参考标准，ρ _v表示顶点v最大分数对应的DC，Nbr(v)表示顶点v的邻居顶点集合；

为将顶点v移动至ρ _v，再将顶点u移动至ρ _v后***整体的数据传输时间；

表示将顶点v移动至ρ _v后***整体的数据传输时间；

表示将顶点v移动至ρ _v后***整体的资金成本；

为将顶点v移动至ρ _v，再将顶点u移动至ρ _v后***整体的资金成本；

顶点u在计算完参考标准后，其权重向量更新公式如下：

表示顶点u对于DCρ _v的权重向量，初始化为0；

在计算完顶点对于所有数据处理中心的权重向量后，学习自动机根据权重向量计算出相应的强化信号，计算公式如下：

表示顶点u对于数据处理中心DCi的强化信号，取值为0或者1，分别表示奖励、惩罚信号，

表示顶u对于数据处理中心DC i的权重向量，初始化为0。

在一实施例中，在更新顶点在每一个数据处理中心的概率值的概率值之前，需要获取正则化权重，分为奖励和惩罚正则化权重两部分，其中：

表示顶点v对于DCi的奖励正则化权重，通过以下公式计算：

其中，Neg()为取反函数，

表示顶点v对于数据处理中心DCi的强化信号，

表示顶点v对于DC i的权重向量，

表示顶点v对于DCk的权重向量；

表示顶点v对于DCi的惩罚正则化权重，通过以下公式计算：

其中，

表示顶点v对于数据处理中心DCi的强化信号，

表示顶点v对于DC i的权重向量，

表示顶点v对于DCk的权重向量。

在一实施例中，根据正则化权重对顶点v的概率进行更新，更新顺序按照对于数据处理中心DC的奖励正则化权重从小到大进行，给定顶点v以及DC _i，

在所有奖励正则化权重中最小，优先使用

对所有DC进行概率更新，更新公式如下：

其中，

表示顶点v在第n次迭代中对于DC i的概率，α表示奖励权重，n为迭代次数，j和i均为顶点；

接着学习自动机依次找到更大的

再使用它对所有的DC进行概率更新；学习自动机更新顶点对于其强化信号为

的DC，更新顺序按照对于DC的惩罚正则化权重从小到大进行，假设给定顶点v以及DC _i、DC k，

在所有惩罚正则化权重中最大，

在所有惩罚正则化权重中最小，优先使用

对所有DC进行概率更新，更新公式如下：

其中β表惩罚权重，

表示顶点v在第n次迭代中对于DC j的概率，n为迭代次数，j和i均为顶点；

接着学习自动机会依次找到更大的

以及对应的DC k，再使用

对所有的DC进行概率更新；如果达到预设迭代次数或者约束条件已经收敛，则迭代结束；否则，进入N+1次迭代，第N+1次迭代中的动作选择会以第N次迭代更新后的概率为参考。

第二方面，本申请实施例提供一种基于强化学习的通用分布式图处理***，包括：

分布式图定义及约束条件设置模块，用于基于图论定义分布式数据处理中心形成分布式图，利用预设图切割模型及预设图处理模型，基于预设约束条件对分布式图进行切割；

动作选择模块，用于为分布式图的每个顶点分配一个学习自动机，初始化各顶点在各数据处理中心的概率，基于初始化的概率，所述学习自动机按预设动作选择方法为顶点选择概率最大的数据处理中心；

顶点迁移模块，学习自动机用于将为顶点选择概率最大的数据处理中心，与其顶点当前所在的数据处理中心作比较，如果不一致，则将顶点迁移至动作对应的数据处理中心中，否则，不做任何操作；

分数计算模块，每个学习自动机用于计算其顶点在每一个数据处理中心时的分数，所述分数根据所述预设约束条件确定；

强化信号计算模块，每个学习自动机用于将最大分数对应的数据处理中心号传播给其顶点的邻居所属的学习自动机，生成相应的权重向量，学习自动机根据所述权重向量为其顶点计算出所有数据处理中心对应的强化信号；

概率更新模块，学习自动机用于根据所述权重向量以及强化信号，更新其顶点在每一个数据处理中心的概率值，指导下一次的动作选择进行迭代；

分割结果获取模块，用于直至达到预设迭代次数或者所述约束条件收敛，生成满足预设约束条件的分布式图的分割结果。

第三方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本申请实施例第一方面的基于强化学习的通用分布式图处理方法。

第四方面，本申请实施例提供一种计算机设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本申请实施例第一方面的基于强化学习的通用分布式图处理方法。

本申请技术方案，具有如下优点：

本申请提供的基于强化学习的通用分布式图处理方法及***，基于图论定义分布式数据处理中心形成分布式图，利用预设图切割模型及预设图处理模型，基于预设约束条件利用强化学习的方式对分布式图切割，给每个顶点分配一个学习自动机，通过训练为顶点找到最适合的数据处理中心，每个顶点在所有数据处理中心的可能性服从一定的概率分布，整个***在每个迭代过程中均包含动作选择、顶点迁移、分数计算、强化信号计算、概率更新五个步骤，达到最大迭代次数或约束条件收敛，判断迭代结束。本申请提供通用分布式图处理方法形成的分布式图处理模型是一个自适应性较好的分布式图模型，对于不同的优化目标只需要设计不同的分数计算方案以及不同的权重向量。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中基于强化学习的通用分布式图处理方法的一个具体示例的流程图；

图2为本申请实施例提供的基于强化学习图分割过程进行迭代的流程图；

图3为本申请实施例中基于强化学习的通用分布式图处理***的一个具体示例的原理框图；

图4为本申请实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本申请实施例提供一种基于强化学习的通用分布式图处理方法，可以应用于不同的优化目标，例如在地理分布式图处理***的性能以及成本优化、负载均衡以及性能优化等问题中，如图1所示，包括如下步骤：

步骤S10：基于图论定义分布式数据处理中心形成分布式图，利用预设图切割模型及预设图处理模型，基于预设约束条件，对分布式图进行切割。

本申请实施例以地理分布式图分割处理过程作为举例说明，假设顶点数据没有在数据处理中心(以下简称DC)上备份，且一台机器一次只能执行一个顶点的图处理任务；每个DC的计算资源不受限制，而DC之间的数据通信是地理分布式图处理的性能瓶颈；假设DC之间的连接是没有网络拥塞的，网络的瓶颈仅来自于DC和WAN之间的上行链路(uplink)和下行链路(downlink)带宽；只收取从DC到WAN的上传数据的费用。考虑到成本与性能之间可能存在矛盾对立的情况：当uplink的带宽较大时，可以增加在这个链路上的传输数据，从而达到减少传输时间的目的，但是这个链路的价格可能会相对来说较高从而使得成本变高，因此需要同时优化性能和成本作为优化目标来进行图分割。

首先定义图G(V,E)，V是顶点的集合，E是边的集合，考虑M个地理分布式数据处理中心(以下简称DC)，每个顶点v具有初始位置Lv(Lv∈(0,1,…,M-1)，

表示该顶点v是master顶点，

表示该顶点不是master顶点，Rv是包含顶点v的复制顶点的DC集合，Ur是uplink的带宽，Dr是downlink的带宽。

本申请实施例使用的是hybrid-cut图切割模型，遵循以下规则：给定一个阈值theta，对于顶点v，如果其入度大于等于theta，称其为high-degree型顶点，相反，称其为low-degree顶点。如果顶点v是low-degree的，它的所有入边都分配到它所在的DC，如果顶点v是high-degree的，它的入边将分配到该边对端顶点所在的DC。

本申请实施例使用的是GAS图处理模型，该模型迭代地执行用户定义的顶点计算。每个GAS迭代中有三个计算阶段，即收集(Gather)，应用(Apply)和发散(Scatter)。在收集阶段，每个活动顶点收集邻居的数据，并且求和函数(Sum)被定义为将接收的数据聚合为聚集和(gathered sum)。在应用阶段，每个活动顶点使用聚集和更新其数据。在发散阶段，每个活动顶点激活它在下一次迭代中执行的邻居。全局障碍(global barrier)定义为确保所有顶点在开始下一步之前完成其计算。

第i次迭代中的传输时间可以表示为gather阶段和apply阶段的数据传输时间之和。第i次迭代的传输时间的计算公式为：

其中，

为1时，表示数据处理中心DCr中的顶点v是master，

为0时，表示DCr中的顶点v是master；

为1时，表示DCr中的顶点v是high-degree，

为0时，DCr中的顶点v是low-degree；

U _r/D _r表示DCr的上传/下载带宽；

R _v表示包含v的副本的数据处理中心DC的集合；

DC之间的通信成本是在gather阶段和apply阶段的上传数据的成本之和，定义从DC r将数据上传至Internet的单元成本是P _r，总的通信成本可以表示为：

将地理分布图分割问题表述为约束优化问题，即约束条件为：

minT(i) (3)

C _comm(i)≤B (4)

要解决的地理分布图分割问题即公式(3)、(4)所描述的约束条件下的优化问题。

在定义完地理分布式图各个元素所代表的含义后，需要每一个顶点分配一个学习自动机(以下简称LA)，通过训练为顶点找到最适合它的DC，每个顶点在所有DC的可能性服从一定的概率分布在每个迭代过程中主要包含：动作选择、顶点迁移、分数计算、强化信号生成、概率更新五个步骤，在优化地理分布式图处理***的性能以及成本时的整个工作流程图如图2所示，各步骤的主要功能以及步骤之间的联系如下所述。

步骤S11：为分布式图的每个顶点分配一个学习自动机，初始化各顶点在各数据处理中心的概率，基于初始化的概率，所述学习自动机按预设动作选择方法为顶点选择概率最大的数据处理中心。

在本申请实施例中，定义：P(v _i)表示顶点v在DC i的概率，初始化为

M为分布式DC的数量，Q(v _i)表示顶点v在DC i的累积概率，计算如下：

在一实施例中，LA采用轮盘赌算法为其顶点选择合适的动作(DC)。LA首先根据顶点的概率分布求得顶点对于各DC的积累概率，再随机生成一个浮点数r∈[0,1]。如果r小于等于Q(v ₀)，则DC0将被选中；如果r介于Q(v _k-1)与Q(v _k)(k≥1)之间时，则DCk将被选中。通过这种方式，概率越大的动作被选中的机会越大，但概率小的动作也可能会被选中。当LA选中好的动作(概率大的动作)时，图分割结果更可能会往优化目标的方向进行；当LA选中坏的动作(概率小的动作)，此过程为一个试错过程，在当前看似结果不好的选择可能探索到更好的状态空间。

在另一实施例中，动作选择还可以采用另一种方式：定义试错参数τ＝0.1；随机生成一个浮点数r∈[0,1]。如果r≤τ，则LA会为其顶点随机选择一个DC；如果r>τ，则LA会为其顶点选择P(v _i)值最大的DC。

步骤S12：学习自动机将为顶点选择概率最大的数据处理中心，与其顶点当前所在的数据处理中心作比较，如果不一致，则将顶点迁移至动作对应的数据处理中心中，否则不做任何操作。

本申请实施例LA将从步骤S11中得到的动作与其顶点当前所在的DC作比较，如果不一致，则将顶点迁移至动作对应的DC中，否则，不做任何操作。

步骤S13：每个学习自动机计算其顶点在每一个数据处理中心时的分数，所述分数根据所述预设约束条件确定。

本申请实施例对于每一个LA，都会给其顶点计算顶点在每一个DC时的分数score，首先定义L _v表示顶点v当前所在的DC，T _b表示计算分数之前***整体的数据传输时间，按公式(1)计算得到，

表示计算顶点在DC i时***整体的数据传输时间，C _b表示计算分数之前***整体的数据传输成本，按公式(2)计算得到，

表示计算顶点在DC i时***整体的数据传输成本。

以及

的计算方式为：将顶点v移动至DC i，再分别按照公式(1)、公式(2)进行计算，最后将顶点v移回L _v。

表示顶点v在DC i时的分数，计算方法如下：

在公式(5)中，B表示资金预算，tw与cw分别表示时间权重以及成本权重。在C _b≥B时，cw随着迭代次数的增加从1均匀减少至0，tw随着迭代次数的增加从0均匀增加至1，目的是优先优化图处理***整体的交流成本以及探索更多能够降低***成本的图分区状态；当C _b<B时，tw随着迭代次数的增加从1均匀减少至0，cw随着迭代次数的增加从0均匀增加至1，目的是优先优化图处理***整体的数据传输时间以及减缓传输时间的优化速度，从而达到更好的优化效果。

步骤14：每个学习自动机将最大分数对应的数据处理中心号传播给其顶点的邻居所属的学习自动机，生成相应的权重向量，学习自动机根据所述权重向量为其顶点计算出所有数据处理中心对应的强化信号。

实际应用中，每个LA都会与其它LA进行通信，从而为其顶点生成对于所有DC的强化信号，在计算强化信号之前需要计算顶点对于所有DC的权重向量。每个LA计算完所有DC的分数后，会将最大分数对应的DC号传播给其顶点的邻居所属的LA，这些LA立刻生成相应的权重项向量。

在本实施例中，定义ρ _v表示顶点v最大分数对应的DC，Nbr(v)表示顶点v的邻居顶点集合，

表示将顶点v移动至ρ _v后***整体的数据传输时间；

表示将顶点v移动至ρ _v后***整体的资金成本；

表示当顶点u收到其邻居v传播的标签ρ _v时，其计算权重向量的参考标准，计算公式如下：

需要说明的是，tw、cw、sign(B-C _b)的值和步骤S13中公式(5)的值一样，因为它们在同一个迭代中。顶点u在计算完参考标准后，其权重向量更新公式如下：

表示顶点u对于DCρ _v的权重向量，初始化为0；

在计算完顶点对于所有DC的权重向量，LA会根据权重向量计算出相应的强化信号，公式如下：

其中，

表示顶u对于数据处理中心DC i的权重向量，初始化为0。

步骤15：学习自动机根据所述权重向量以及强化信号，更新其顶点在每一个数据处理中心的概率值，指导下一次的动作选择进行迭代。

在本是实施例中，LA会利用步骤14中得到的权重向量以及强化信号去更新其顶点在每一个DC的概率值，从而指导下一次的动作选择。在此之前，需要先计算正则化权重，分为奖励和惩罚正则化权重两部分。

本实施例定义

表示顶点v对于DC i的奖励正则化权重，

表示顶点v对于DC i的惩罚正则化权重。其中，

的计算方法如下：

其中Neg()是取反函数。

的计算方法如下：

表示顶点v对于数据处理中心DCi的强化信号，

表示顶点v对于DC i的权重向量，

表示顶点v对于DCk的权重向量。

本实施例在得到正则化权重之后，就可以开始对顶点v的概率进行更新。定义

表示顶点v在第n次迭代中对于DC i的概率，LA会首先更新顶点对于其强化信号为

的DC，更新顺序按照对于DC的奖励正则化权重从小到大进行。假设给定顶点v以及DC i，

在所有奖励正则化权重中最小，则优先使用

对所有DC进行概率更新，更新公式如下：

其中α表示奖励权重，公式(11)对DC i的概率进行了增加，对其它DC的概率进行了下调。接着，LA会依次找到更大的

再使用它对所有的DC进行概率更新。这种实施方式的有益效果是最终能够使得

最大的那个DC的概率最大。

接着，LA会更新那些顶点对于其强化信号为

的DC，更新顺序按照对于DC的惩罚正则化权重从小到大进行。假设给定顶点v以及DC i、DC k，

在所有惩罚正则化权重中最大，

在所有惩罚正则化权重中最小，则优先使用

对所有DC进行概率更新，更新公式如下：

其中β表惩罚权重，

表示顶点v在第n次迭代中对于DC j的概率，上述公式(12)对DC k的概率进行了下调，对其它DC的概率进行了增加。接着，LA会依次找到更大的

以及对应的DC k，再使用

对所有的DC进行概率更新。这种实施方式的有益效果是最终能够使得

最小的DC的概率最小。

步骤16：直至达到预设迭代次数或者所述约束条件收敛，生成满足预设约束条件的分布式图的分割结果。

本申请实施例如果达到最大迭代次数或者约束条件已经收敛，那么判断迭代结束。否则，进入N+1次迭代，第N+1次迭代中的动作选择会以第N次迭代更新后的概率为参考，继续执行顶点迁移、分数计算、强化信号计算、概率更新、下一次迭代等操作，直到迭代结束，生成一个满足资金预算且数据传输时间极小的地理分布式图分割结果。

为了验证本申请实施例提供的分布图处理方法的有效性和效率，在真实云和云模拟器上采用真实图形数据集来评估，具体的使用了5种真实图：Gnutella(GN)、WikiVote(WV)、GoogleWeb(GW)、LiveJournal(LJ)和Twitter(TW)，在Amazon EC2和Windows Azure两个云平台上进行真实云的实验，采用基于GAS的PowerGraph***来执行图处理算法，包括pagerank、sssp、subgraph等经典图算法。在PowerGraph中实现了集成了本申请实施例提供的分布图处理方法，在加载时对图进行分割。真实的地理分布DCs和仿真中对真实图形的评估表明，与最先进的地理分布式图处理***的性能以及成本优化算法Geo-Cut相比，本申请实施例提供的分布图处理方法，可以减少高达72％的DC间数据传输时间和高达63％的资金成本，而且负载比较均衡。

本申请提供的实施例可以应用到多个场景，例如：Facebook每天从世界各地的用户那里接收tb级的文本、图像和视频数据。Facebook构建了四个地理分布的DC来维护和管理这些数据。如果考虑这些DC的负载能力以及***响应时间，可以使用本申请实施例提供的方法对图进行分割优化，可以使得DC稳定工作的同时给用户带来好的体验。如果考虑地理分布式环境下的网络异构和成本预算以及***性能，也可以使用本申请实施例提供的方法对图进行分割优化，可以在传输时间和成本预算两个方面得到很好地性能提升。

需要说明的是，本申请实施例只是以地理分布式图切割过程系的性能以及成本优问题作为举例，对分布图处理方法的工作原理做出说明。实际上，本实施例提出的分布式图处理方法形成的处理模型是一个通用的模型，该模型不仅可以解决上述地理分布式图处理***的性能以及成本优化问题，也能解决负载均衡以及性能优化等问题，对于不同的优化目标只需要设计不同的分数计算方案以及不同的权重向量计算方案。

实施例2

本申请实施例提供一种基于强化学习的通用分布式图处理***，如图3所示，包括：

分布式图定义及约束条件设置模块10，用于基于图论定义分布式数据处理中心形成分布式图，利用预设图切割模型及预设图处理模型，基于预设约束条件对分布式图进行切割。此模块执行实施例1中的步骤S10所描述的方法，在此不再赘述。

动作选择模块11，用于为分布式图的每个顶点分配一个学习自动机，初始化各顶点在各数据处理中心的概率，基于初始化的概率，所述学习自动机按预设动作选择方法为顶点选择概率最大的数据处理中心。此模块执行实施例1中的步骤S11所描述的方法，在此不再赘述。

顶点迁移模块12，学习自动机用于将为顶点选择概率最大的数据处理中心，与其顶点当前所在的数据处理中心作比较，如果不一致，则将顶点迁移至动作对应的数据处理中心中，否则，不做任何操作。此模块执行实施例1中的步骤S12所描述的方法，在此不再赘述。

分数计算模块13，每个学习自动机用于计算其顶点在每一个数据处理中心时的分数，所述分数根据所述预设约束条件确定。此模块执行实施例1中的步骤S13所描述的方法，在此不再赘述。

强化信号计算模块14，每个学习自动机用于将最大分数对应的数据处理中心号传播给其顶点的邻居所属的学习自动机，生成相应的权重向量，学习自动机根据所述权重向量为其顶点计算出所有数据处理中心对应的强化信号；此模块执行实施例1中的步骤S14所描述的方法，在此不再赘述。

概率更新模块15，学习自动机用于根据所述权重向量以及强化信号，更新其顶点在每一个数据处理中心的概率值，指导下一次的动作选择进行迭代；此模块执行实施例1中的步骤S15所描述的方法，在此不再赘述。

分割结果获取模块16，用于直至达到预设迭代次数或者所述约束条件收敛，生成满足预设约束条件的分布式图的分割结果。此模块执行实施例1中的步骤S16所描述的方法，在此不再赘述。

本申请实施例提供的基于强化学习的通用分布式图处理***，基于图论定义分布式数据处理中心形成分布式图，利用预设图切割模型及预设图处理模型，基于预设约束条件利用强化学习的方式对分布式图切割，给每一个顶点分配一个学习自动机，通过训练为顶点找到最适合的数据处理中心，每个顶点在所有数据处理中心的可能性服从一定的概率分布，整个***在每个迭代过程中包含动作选择、顶点迁移、分数计算、强化信号计算、概率更新五个步骤，达到最大迭代次数或者约束条件已经收敛，判断迭代结束。本申请提供通用分布式图处理方法形成的分布式图处理模型是一个通用的分布式图模型，对于不同的优化目标只需要设计不同的分数计算方案以及不同的权重向量。

实施例3

本申请实施例提供一种计算机设备，如图4所示，该设备可以包括处理器51和存储器52，其中处理器51和存储器52可以通过总线或者其他方式连接，图4以通过总线连接为例。

处理器51可以为中央处理器(Central Processing Unit，CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器52作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的基于强化学习的通用分布式图处理方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储处理器51所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。

一个或者多个模块存储在存储器52中，当被处理器51执行时，执行实施例1中的基于强化学习的通用分布式图处理方法。

上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本申请的保护范围之中。

Claims

一种基于强化学习的通用分布式图处理方法，其特征在于，包括如下步骤：

基于图论定义分布式数据处理中心形成分布式图，利用预设图切割模型及预设图处理模型，基于预设约束条件对分布式图进行切割；

为分布式图的每个顶点分配一个学习自动机，初始化各顶点在各数据处理中心的概率，基于初始化的概率，所述学习自动机按预设动作选择方法为顶点选择概率最大的数据处理中心；

学习自动机将为顶点选择概率最大的数据处理中心，与其顶点当前所在的数据处理中心作比较，如果不一致，则将顶点迁移至动作对应的数据处理中心中，否则不做任何操作；

每个学习自动机计算其顶点在每一个数据处理中心时的分数，所述分数根据所述预设约束条件确定；

每个学习自动机将最大分数对应的数据处理中心号传播给其顶点的邻居所属的学习自动机，生成相应的权重向量，学习自动机根据所述权重向量为其顶点计算出所有数据处理中心对应的强化信号；

学习自动机根据所述权重向量以及强化信号，更新其顶点在每一个数据处理中心的概率值，指导下一次的动作选择进行迭代；

直至达到预设迭代次数或者所述约束条件收敛，生成满足预设约束条件的分布式图的分割结果。
根据权利要求1所述的基于强化学习的通用分布式图处理方法，其特征在于，所述预设图切割模型为hybrid-cut图切割模型，所述预设图处理模型为GAS图处理模型，利用GAS图处理模型迭代执行顶点计算，所述约束条件为资金预算成本及数据传输时间最小。
根据权利要求2所述的基于强化学习的通用分布式图处理方法，其特征在于，所述数据传输时间表示为收集阶段和应用阶段的数据传输时间之和，第i次迭代的数据传输时间T(i)的计算公式为：

其中，

其中，
为1时，表示数据处理中心DCr中的顶点v是master，
为0时，表示 DCr中的顶点v是master；

为1时，表示DCr中的顶点v是high-degree，
为0时，DCr中的顶点v是low-degree；

表示在第i次迭代中的收集r阶段从DC _r的副本中向master顶点v传送数据量的大小；

a _v(i)表示在第i次迭代中的应用阶段中从master顶点v向每一个副本发送数据量的大小；

U _r/D _r表示DCr的上传/下载带宽；

R _v表示包含v的副本的数据处理中心DC的集合；

数据处理中心DC之间的通信成本为在收集阶段和应用阶段的上传数据的成本之和，从DC _r将数据上传至网络的单元成本为P _r，所述资金预算成本表示为：

约束条件为：

min T(i) (3)

C _comm(i)≤B (4)

其中，B为使用网络资源的资金预算。
根据权利要求3所述的基于强化学习的通用分布式图处理方法，其特征在于，初始化各顶点在各数据处理中心的概率，所述学习自动机按预设动作选择方法为顶点选择概率最大的数据处理中心的步骤，包括：

初始化顶点v在数据处理中心DC _i的概率P(v _i)为
M为分布式DC的数量；

根据顶点的概率分布获取顶点对于各数据处理中心DC的累积概率，Q(v _i)表示顶点v在数据处理中心DC _i的累积概率，其中，

随机生成一个浮点数r∈[0,1]，如果r小于等于Q(v ₀)，则DC 0将被选中；如果r介于Q(v _k-1)与Q(v _k)(k≥1)之间时，则数据处理中心DCk被选中。
根据权利要求3所述的基于强化学习的通用分布式图处理方法，其特征在于，初始化各顶点在各数据处理中心的概率，所述学习自动机按预设动作选择方法为顶点选择概率最大的数据处理中心的步骤，包括：

预设一试错参数τ，随机生成一个浮点数r∈[0,1]，如果r≤τ，则学习自动机为其顶点随机选择一个DC；如果r>τ，则学习自动机为其顶点选择P(v _i)值最大的数据处理中心DC。
根据权利要求4或5所述的基于强化学习的通用分布式图处理方法，其特征在于，每个学习自动机计算其顶点在每一个数据处理中心时的分数，通过以下公式计算：

其中，
表示顶点v在DCi时的分数，B表示使用网络资源的资金预算，T _b表示计算分数之前***整体的数据传输时间，C _b表示计算分数之前***整体的数据传输成本，
表示计算顶点在DCi时***整体的数据传输时间，
表示计算顶点在DCi时***整体的数据传输成本，tw与cw分别表示时间权重以及资金成本权重；在C _b≥B时，cw随着迭代次数的增加从1均匀减少至0，tw随着迭代次数的增加从0均匀增加至1；当C _b<B时，tw随着迭代次数的增加从1均匀减少至0，cw随着迭代次数的增加从0均匀增加至1。
根据权利要求6所述的基于强化学习的通用分布式图处理方法，其特征在于，每个学习自动机将最大分数对应的数据处理中心号传播给其顶点的邻居所属的学习自动机，生成相应的权重向量，学习自动机根据所述权重向量为其顶点计算出所有数据处理中心对应的强化信号的步骤，包括：

计算权重向量的参考标准，通过如下公式计算：

其中，
表示当顶点u收到其邻居v传播的标签ρ _v时，其计算权重向量的参考标准，ρ _v表示顶点v最大分数对应的DC，Nbr(v)表示顶点v的邻居顶点集合；
为将顶点v移动至ρ _v，再将顶点u移动至ρ _v后***整体的数据传输时间；
表示将顶点v移动至ρ _v后***整体的数据传输时间；
表示将顶点v移动至ρ _v后***整体的资金成本；
为将顶点v移动至ρ _v，再将顶点u移动至ρ _v后***整体的资金成本；

顶点u在计算完参考标准后，其权重向量更新公式如下：

表示顶点u对于DCρ _v的权重向量，初始化为0；

在计算完顶点对于所有数据处理中心的权重向量后，学习自动机根据权重向量计算出相应的强化信号，计算公式如下：

表示顶点u对于数据处理中心DCi的强化信号，取值为0或者1，分别表示奖励、惩罚信号，
表示顶u对于数据处理中心DC i的权重向量，初始化为0。
根据权利要求7所述的基于强化学习的通用分布式图处理方法，其特征在于，在更新顶点在每一个数据处理中心的概率值的概率值之前，需要获取正则化权重，分为奖励和惩罚正则化权重两部分，其中：
表示顶点v对于DCi的奖励正则化权重，通过以下公式计算：

其中，Neg()为取反函数，
表示顶点v对于数据处理中心DCi的强化信号，
表示顶点v对于DC i的权重向量，
表示顶点v对于DCk的权重向量；

表示顶点v对于DCi的惩罚正则化权重，通过以下公式计算：

其中，
表示顶点v对于数据处理中心DCi的强化信号，
表示顶点v对于DC i的权重向量，
表示顶点v对于DCk的权重向量。
根据权利要求8所述的基于强化学习的通用分布式图处理方法，其特征在于，根据正则化权重对顶点v的概率进行更新，更新顺序按照对于数据处理中心DC的奖励正则化权重从小到大进行，给定顶点v以及DC _i，
在所有奖励正则化权重中最小，优先使用
对所有DC进行概率更新，更新公式如下：

其中，
表示顶点v在第n次迭代中对于DC i的概率，α表示奖励权重，n为迭代次数，j和i均为顶点；

接着学习自动机依次找到更大的
再使用它对所有的DC进行概率更新；学习自动机更新顶点对于其强化信号为
的DC，更新顺序按照对于DC的惩罚正则化权重从小到大进行，假设给定顶点v以及DC _i、DC k，
在所有惩罚正则化权重中最大，
在所有惩罚正则化权重中最小，优先使用
对所有DC进行概率更新，更新公式如下：

其中β表惩罚权重，
表示顶点v在第n次迭代中对于DC j的概率，n为迭代次数，j和i均为顶点；

接着学习自动机会依次找到更大的
以及对应的DC k，再使用
对所有的DC进行概率更新；如果达到预设迭代次数或者约束条件已经收敛，则迭代结束；否则，进入N+1次迭代，第N+1次迭代中的动作选择会以第N次迭代更新后的概率为参考。
一种基于强化学习的通用分布式图处理***，其特征在于，包括：

分布式图定义及约束条件设置模块，用于基于图论定义分布式数据处理中心形成分布式图，利用预设图切割模型及预设图处理模型，基于预设约束条件对分布式图进行切割；

动作选择模块，用于为分布式图的每个顶点分配一个学习自动机，初始化各顶点在各数据处理中心的概率，基于初始化的概率，所述学习自动机按预设动作选择方法为顶点选择概率最大的数据处理中心；

顶点迁移模块，学习自动机用于将为顶点选择概率最大的数据处理中心，与其顶点当前所在的数据处理中心作比较，如果不一致，则将顶点迁移至动作对应的数据处理中心中，否则，不做任何操作；

分数计算模块，每个学习自动机用于计算其顶点在每一个数据处理中心时的分数，所述分数根据所述预设约束条件确定；

强化信号计算模块，每个学习自动机用于将最大分数对应的数据处理中心号传播给其顶点的邻居所属的学习自动机，生成相应的权重向量，学习自动机根据所述权重向量为其顶点计算出所有数据处理中心对应的强化信号；

概率更新模块，学习自动机用于根据所述权重向量以及强化信号，更新其顶点在每一个数据处理中心的概率值，指导下一次的动作选择进行迭代；

分割结果获取模块，用于直至达到预设迭代次数或者所述约束条件收敛，生成满足预设约束条件的分布式图的分割结果。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1-9任一项所述的基于强化学习的通用分布式图处理方法。
一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-9任一项所述的基于强化学习的通用分布式图处理方法。