CN113240505B

CN113240505B - 图数据的处理方法、装置、设备、存储介质及程序产品

Info

Publication number: CN113240505B
Application number: CN202110507515.0A
Authority: CN
Inventors: 吴子凡; 张潮宇; 陈天健; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2024-05-24
Anticipated expiration: 2041-05-10
Also published as: CN113240505A; WO2022237175A1

Abstract

本发明公开了一种图数据的处理方法、装置、设备、存储介质及程序产品，其中方法包括：在任意一轮迭代过程中，遍历第一子图中的节点，对于遍历到的每一节点，查找节点在第一子图中的邻居节点，根据邻居节点的上一轮迭代过程的特征向量进行聚合操作，得到第一聚合结果，若节点与第二子图中的节点具有连接关系，则根据第一聚合结果与第二聚合结果确定节点的最终聚合结果，其中，第二聚合结果是第二参与方根据节点在第二子图中的邻居节点的上一轮迭代过程的特征向量确定的，根据最终聚合结果，确定节点的本轮迭代过程的特征向量，在迭代次数满足要求后，最后一轮迭代过程的特征向量用于计算节点对应的预测结果，能够有效提高图数据的预测准确性。

Description

图数据的处理方法、装置、设备、存储介质及程序产品

技术领域

本发明涉及数据处理技术领域，尤其涉及一种图数据的处理方法、装置、设备、存储介质及程序产品。

背景技术

随着计算机技术和大数据处理技术的不断发展，深度学习的应用越来越广泛，图神经网络逐渐替代传统的人工设计的图特征，来提取图数据背后所隐藏的价值，进行相关的识别预测处理。例如，基于金融机构构建的图数据，可以识别用户是否存在逾期风险等。

在实际应用中，海量的图数据往往分布在不同的机构，但是由于数据隐私的要求，单个机构无法使用其它机构的数据进行分析处理，导致针对图数据进行预测的准确性较差。

发明内容

本发明的主要目的在于提供一种图数据的处理方法、装置、设备、存储介质及程序产品，旨在提高针对图数据进行预测的准确性。

为实现上述目的，本发明提供一种图数据的处理方法，所述图数据包括第一子图和第二子图，所述第一子图包括属于第一参与方的节点，所述第二子图包括属于第二参与方的节点；所述方法应用于第一参与方，所述方法包括：

在任意一轮迭代过程中，遍历所述第一子图中的节点，对于遍历到的每一节点，执行如下操作：

查找所述节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，得到第一聚合结果；

若所述节点与所述第二子图中的节点具有连接关系，则根据所述第一聚合结果与第二聚合结果确定所述节点的最终聚合结果；其中，所述第二聚合结果是所述第二参与方根据所述节点在所述第二子图中的邻居节点的上一轮迭代过程的特征向量确定的；

根据所述最终聚合结果，确定所述节点的本轮迭代过程的特征向量；在迭代次数满足要求后，最后一轮迭代过程的特征向量用于计算节点对应的预测结果。

可选的，若所述节点与所述第二子图中的节点具有连接关系，则根据所述第一聚合结果与第二聚合结果确定所述节点的最终聚合结果，包括：

若所述节点与所述第二子图中的节点具有连接关系，则向所述第二参与方发送请求信息，所述请求信息用于请求所述第二参与方计算所述节点对应的第二聚合结果并对所述第二聚合结果进行加密；

接收所述第二参与方发送的加密后的第二聚合结果；

根据所述加密后的第二聚合结果，确定所述节点的最终聚合结果。

可选的，所述加密后的第二聚合结果为利用公钥进行加密后的第二聚合结果；根据所述加密后的第二聚合结果，确定所述节点的最终聚合结果，包括：

利用所述公钥对所述第一聚合结果进行加密；

基于随机掩码，对加密后的第一聚合结果与所述加密后的第二聚合结果进行计算，得到加密后的最终聚合结果；

将所述加密后的最终聚合结果发送给第三参与方，以使所述第三参与方利用私钥对所述加密后的最终聚合结果进行解密；

接收第三参与方发送的解密结果，并对所述解密结果进行去随机掩码操作，得到最终聚合结果。

可选的，查找所述节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，包括：

查找所述节点在所述第一子图中的所有邻居节点；

基于有放回的抽样操作，从查找到的邻居节点中选择预设数量的邻居节点；

根据所选择的邻居节点的上一轮迭代过程的特征向量，计算所述第一聚合结果。

可选的，所述方法还包括：

根据属于所述第一参与方的用户账号，构建所述第一子图中的节点；

根据所述第一参与方的用户账号的转账记录，构建第一子图中的节点的连接关系，所述连接关系用于确定邻居节点；

相应的，在迭代次数满足预设要求后，所述方法还包括：

根据所述第一子图中任一节点在最后一轮迭代过程对应的特征向量，确定所述节点对应的用户账号的业务风险信息。

可选的，所述方法还包括：

根据所述第一参与方的用户账号的属性信息，确定所述第一子图中节点对应的初始特征向量；

其中，第一轮迭代过程中使用的上一轮迭代过程的特征向量为所述初始特征向量。

本发明还提供一种图数据的处理装置，所述图数据包括第一子图和第二子图，所述第一子图包括属于第一参与方的节点，所述第二子图包括属于第二参与方的节点；所述装置应用于第一参与方，所述装置包括：

执行模块，用于在任意一轮迭代过程中，遍历所述第一子图中的节点，对于遍历到的每一节点，执行如下操作；

查找模块，用于查找所述节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，得到第一聚合结果；

聚合模块，用于在所述节点与所述第二子图中的节点具有连接关系时，根据所述第一聚合结果与第二聚合结果确定所述节点的最终聚合结果；其中，所述第二聚合结果是所述第二参与方根据所述节点在所述第二子图中的邻居节点的上一轮迭代过程的特征向量确定的；

确定模块，用于根据所述最终聚合结果，确定所述节点的本轮迭代过程的特征向量；在迭代次数满足要求后，最后一轮迭代过程的特征向量用于计算节点对应的预测结果。

本发明还提供一种图数据的处理设备，所述图数据的处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图数据的处理程序，所述图数据的处理程序被所述处理器执行时实现如前述任一项所述的图数据的处理方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图数据的处理程序，所述图数据的处理程序被处理器执行时实现如前述任一项所述的图数据的处理方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一项所述的方法。

本发明中，可以对包含第一子图和第二子图的图数据进行处理，所述第一子图包括属于第一参与方的节点，所述第二子图包括属于第二参与方的节点，在任意一轮迭代过程中，第一参与方可以遍历所述第一子图中的节点，对于遍历到的每一节点，查找所述节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，得到第一聚合结果，若所述节点与所述第二子图中的节点具有连接关系，则根据所述第一聚合结果与第二聚合结果确定所述节点的最终聚合结果，其中，所述第二聚合结果是所述第二参与方根据所述节点在所述第二子图中的邻居节点的上一轮迭代过程的特征向量确定的，根据所述最终聚合结果，确定所述节点的本轮迭代过程的特征向量，在迭代次数满足要求后，最后一轮迭代过程的特征向量用于计算节点对应的预测结果，由于在对节点的分析过程中，融合了第一参与方对第一子图的邻居节点的聚合结果以及第二参与方对第二子图的邻居节点的聚合结果，从而可以更加全面、准确地提取节点的特征，能够在数据互通存在壁垒的情况下，综合利用各方数据，共同实现图数据的处理，有效提高基于图数据进行预测的准确性。

附图说明

图1为本发明实施例提供的一种应用场景示意图；

图2为本发明实施例提供的一种图数据的示意图；

图3为本发明实施例提供的一种图数据的处理方法的流程示意图；

图4为本发明实施例提供的一种图数据处理的***架构图；

图5为本发明实施例提供的另一种图数据的处理方法的流程示意图；

图6为本发明实施例提供的一种图数据的处理装置的结构示意图；

图7为本发明实施例提供的一种图数据的处理设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

关联分析，或者图分析是一类重要的分析方法。通过这类方法，操作人员可以方便地将实体间的关系进行建模分析，判断网络中是否存在特定的连通形式或者重要节点。传统的分析方法主要是以人工设计的图特征为分析对象，诸如PageRank（网页排名）、中心度等等。近些年来，随着深度学习的兴起，图神经网络逐渐替代传统的人工设计的图特征，来提取图数据背后所隐藏的价值。

图神经网络的应用需要依赖图数据来实现，但实际操作中，图数据往往涉及多个机构。受制于数据隐私的相关要求，这些数据无法汇集形成有效的网络以得到更加准确的预测结果。

图1为本发明实施例提供的一种应用场景示意图。如图1所示，机构1和机构2均为银行，且机构1和机构2均具有多个用户账号，例如，机构1包括用户账号A、用户账号B、用户账号C等，机构2包括用户账号D、用户账号E、用户账号F等。所述用户账号具体可以为银行***等。不同用户账号之间的连线代表之间存在转账记录。

基于用户账号之间的转账关系以及用户账号的基本属性信息，可以构建图数据，因为图数据中包含了用户的基本属性信息以及相关的金融特征，因此根据图数据可以对用户账号进行逾期风险预测或者识别非正常账号等，满足监控需求。

在实际应用中，机构1中的用户账号不仅会与本机构内的其它用户账号有转账关系，可能还会与机构2中的用户账号有转账关系。如图1所示，机构1中的用户账号B与本机构的用户账号A、用户账号C有转账关系，还与机构2中的用户账号E具有转账关系。而由于机构间的数据不互通，因此，机构1不能获知机构2中的用户账号E的详细信息，只能够依据本机构的用户账号A和C的详细信息对用户账号B进行分析处理，丢失了用户账号B在其它机构的有效信息，导致预测识别的准确性较差。

有鉴于此，本发明实施例提供一种图数据的处理方法，可以联合不同的参与方对图数据进行处理。所述图数据可以包括第一子图和第二子图，所述第一子图包括属于第一参与方的节点，所述第二子图包括属于第二参与方的节点。以所述图数据应用于金融机构为例，所述第一参与方和第二参与方可以均为金融机构如银行，图数据中的节点可以用于表示用户账号，节点间的连接关系可以用于表示用户账号之间的转账关系。

在对图数据中的节点进行处理时，第一参与方可以根据所述节点在所述第一子图中的邻居节点进行聚合操作，得到第一聚合结果；第二参与方可以根据所述节点在所述第二子图中的邻居节点进行聚合操作，得到第二聚合结果；根据第一聚合结果和第二聚合结果，可以得到节点对应的最终聚合结果；根据最终聚合结果进行后续的处理，可以得到节点对应的预测结果。

图2为本发明实施例提供的一种图数据的示意图。如图2所示，图数据G可以包括第一子图G1和第二子图G2，图中小圆圈代表节点，第一子图G1中包括属于第一参与方的节点v11、v12、v13、v14、v15，第二子图G2这包括属于第二参与方的节点v21、v22、v23、v24，每一节点代表一个用户账号，图中的连线示出了各节点之间的连接关系。

在处理图数据中的节点时，可以有多轮迭代过程。在每一轮迭代过程中，可以遍历所有的节点，对于任一节点，均可以联合多方的数据对其进行分析处理。例如，对于节点v12来说，第一参与方可以根据其在第一子图G1中的邻居节点，即节点v11、v14进行聚合操作，得到第一聚合结果，第二参与方可以根据其在第二子图G2中的邻居节点，即节点v21、v22、v23进行聚合操作，得到第二聚合结果。根据第一聚合结果和第二聚合结果，可以得到节点v12对应的最终聚合结果，根据最终聚合结果，可以确定节点v12在本轮的特征向量，本轮的特征向量用于进行下一轮的聚合操作。在迭代次数满足要求后，最终得到的特征向量可以用于计算预测结果，例如节点v12是否存在逾期风险等。

在本发明实施例提供的方法中，各参与方的数据不出本地，能够在保证数据安全的情况下，联合多方进行图数据的预测。并且，由于在对节点的分析过程中，融合了第一参与方对第一子图的邻居节点的聚合结果以及第二参与方对第二子图的邻居节点的聚合结果，因此，可以更加全面、准确地反映节点的转账关系，从而更加精准地提取节点的资金流转特征，在保证数据安全的基础上，有效提高预测的准确性。

下面结合附图，对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图3为本发明实施例提供的一种图数据的处理方法的流程示意图。所述图数据包括第一子图和第二子图，所述第一子图包括属于第一参与方的节点，所述第二子图包括属于第二参与方的节点。本实施例提供的方法可以应用于第一参与方。所述第一参与方可以通过多轮迭代过程对所述图数据进行处理。如图3所示，在任意一轮迭代过程中，可以遍历所述第一子图中的节点，对于遍历到的每一节点，执行如下操作：

步骤301、查找当前遍历到的节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，得到第一聚合结果。

以当前迭代过程为第k轮迭代过程为例，对于当前遍历到的节点，可以查找该当前节点在第一子图中的邻居节点，其中，邻居节点可以是与当前节点具有直接连接关系的节点，根据邻居节点在第k-1轮的特征向量，可以确定当前节点的第k轮的第一聚合结果。

在k=1时，上一轮迭代过程的特征向量可以为初始特征向量。可选的，可以在进行迭代过程之前，先对图数据中的各个节点进行初始化操作，确定每个节点的初始特征向量。

本发明实施例中，节点的特征向量可以是能够表征节点特征的任意信息。可选的，在得到图数据后，可以根据图数据中的每一节点的属性信息，为所述节点进行赋值，得到对应的初始特征向量。

在第1次迭代过程中，第一参与方可以遍历第一子图中的每一节点，根据当前节点的邻居节点对应的初始特征向量，进行聚合操作，得到当前节点的第一聚合结果。

步骤302、若所述节点与所述第二子图中的节点具有连接关系，则根据所述第一聚合结果与第二聚合结果确定所述节点的最终聚合结果。

其中，所述第二聚合结果是所述第二参与方根据所述节点在所述第二子图中的邻居节点的上一轮迭代过程的特征向量确定的。

可选的，判断任意两个节点是否具有连接关系，可以通过如下方式来实现：判断所述两个节点是否存在预设关联关系，其中，所述预设关联关系可以根据实际需要来设置，有预设关联关系的两个节点在图数据中可以认为是具有连接关系的。所述连接关系可以用于确定邻居节点。

例如，在风控场景中，所述预设关联关系可以为转账关系。具体的，图数据中的节点可以用于表示用户账号，节点间的连接关系可以用于表示用户账号之间的转账关系；若第一子图中的某节点与第二子图中的某节点之间有转账记录，则可以认为两者具有连接关系。又例如，在社交行为分析场景中，图数据中的节点可以用于表示用户，所述预设关联关系可以为家人关系、雇佣关系等。

在第1次迭代过程中，对于第一参与方遍历到的当前节点，若其在第二子图中有邻居节点，则第二参与方可以根据当前节点在第二子图中的邻居节点对应的初始特征向量，进行聚合操作，得到当前节点的第二聚合结果。

第一参与方可以根据当前节点的第1轮迭代过程的第一聚合结果和第二聚合结果，确定所述当前节点的第1轮迭代过程的最终聚合结果。

可选的，所述最终聚合结果可以为第一聚合结果与第二聚合结果之和。

或者，在根据第一聚合结果和第二聚合结果计算最终聚合结果时，可以通过非线性算法，例如通过log函数、指数函数、取最大值、取最小值等，确定最终聚合结果，从而使得结果具有更高的非线性，可以拟合更为复杂的情况。

步骤303、根据所述最终聚合结果，确定所述节点的本轮迭代过程的特征向量。

例如，在确定当前节点第1轮迭代过程的最终聚合结果后，可以根据最终聚合结果，确定当前节点的第1轮迭代过程的特征向量。在第一子图的所有节点遍历完成后，得到所有节点的第1轮迭代过程的特征向量。

在第2轮迭代过程中，根据第1轮迭代过程的特征向量，重复执行上述步骤，得到第2轮迭代过程的特征向量，以此类推，直至得到最后一轮迭代过程的特征向量。在迭代次数满足要求后，最后一轮迭代过程的特征向量可以用于计算节点对应的预测结果。

可选的，对于任一节点来说，可以将该节点最后一轮迭代过程的特征向量输入到预测器，或者，输入到Sigmoid函数，得到对应的预测结果。

在实际应用中，第一参与方和第二参与方可以分别构建图数据中的第一子图和第二子图，第一子图中的节点和第二子图中的节点可以有连接关系。第一参与方可以对第一子图中的节点进行处理，计算该节点在第一子图中的邻居节点的聚合结果，同时从第二参与方获取该节点在第二子图中的邻居节点的聚合结果，并根据各子图对应的聚合结果确定最终聚合结果。

同理，第二参与方也可以采用类似的方法对第二子图进行处理，遍历第二子图中的节点，计算该节点在第二子图中的邻居节点的聚合结果，同时从第一参与方获取该节点在第一子图中的邻居节点的聚合结果，并根据各子图对应的聚合结果确定最终聚合结果。通过第一参与方和第二参与方的上述操作，可以得到图数据中所有节点对应的结果，在节点的原始数据不出本地的情况下完成对图数据的处理。

可选的，本发明实施例中第二参与方的数量可以为多个，相应的，第二子图的数量也可以为多个，每一第二参与方均可以根据第一参与方当前遍历到的节点在对应的第二子图中的邻居节点，计算对应的第二聚合结果并发送给第一参与方，第一参与方根据第一聚合结果以及多个第二聚合结果进行处理，得到最终聚合结果。

本实施例提供的图数据的处理方法，可以对包含第一子图和第二子图的图数据进行处理，所述第一子图包括属于第一参与方的节点，所述第二子图包括属于第二参与方的节点，在任意一轮迭代过程中，第一参与方可以遍历所述第一子图中的节点，对于遍历到的每一节点，查找所述节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，得到第一聚合结果，若所述节点与所述第二子图中的节点具有连接关系，则根据所述第一聚合结果与第二聚合结果确定所述节点的最终聚合结果，其中，所述第二聚合结果是所述第二参与方根据所述节点在所述第二子图中的邻居节点的上一轮迭代过程的特征向量确定的，根据所述最终聚合结果，确定所述节点的本轮迭代过程的特征向量，在迭代次数满足要求后，最后一轮迭代过程的特征向量用于计算节点对应的预测结果，由于在对节点的分析过程中，融合了第一参与方对第一子图的邻居节点的聚合结果以及第二参与方对第二子图的邻居节点的聚合结果，从而可以更加全面、准确地提取节点的特征，能够在数据互通存在壁垒的情况下，综合利用各方数据，共同实现图数据的处理，有效提高针对图数据的预测准确性。

在上述实施例提供的技术方案的基础上，可选的是，可以采用SecureAggregate（安全聚合）函数，对第一聚合结果和第二聚合结果进行安全聚合操作，得到最终聚合结果。下面对SecureAggregate函数的实现原理进行描述。

具体的，若所述节点与所述第二子图中的节点具有连接关系，则根据所述第一聚合结果与第二聚合结果确定所述节点的最终聚合结果，可以包括：若所述节点与所述第二子图中的节点具有连接关系，则向所述第二参与方发送请求信息，所述请求信息用于请求所述第二参与方计算所述节点对应的第二聚合结果并对所述第二聚合结果进行加密；接收所述第二参与方发送的加密后的第二聚合结果；根据所述加密后的第二聚合结果，确定所述节点的最终聚合结果。

其中，在第一子图中遍历到与第二子图中的节点具有连接关系的节点时，才向第二子图发送请求信息以请求第二参与方对其进行处理，能够节约不必要的计算量，有效提高图数据处理的效率。另外，第一参与方与第二参与方之间可以相互传输加密后的聚合结果，有效提高数据传输的安全性。

在一种可选的实现方式中，第一参与方在获取到第二参与方发送的加密后的第二聚合结果后，可以根据加密后的第二聚合结果进行处理，得到最终的聚合结果。

在另一种可选的实现方式中，还可以引入第三参与方对聚合结果进行处理。

可选的，所述加密后的第二聚合结果为利用公钥进行加密后的第二聚合结果。根据所述加密后的第二聚合结果，确定所述节点的最终聚合结果，可以包括：利用所述公钥对所述第一聚合结果进行加密；基于随机掩码，对加密后的第一聚合结果与所述加密后的第二聚合结果进行计算，得到加密后的最终聚合结果；将所述加密后的最终聚合结果发送给第三参与方，以使所述第三参与方利用私钥对所述加密后的最终聚合结果进行解密；接收第三参与方发送的解密结果，并对所述解密结果进行去随机掩码操作，得到最终聚合结果。

图4为本发明实施例提供的一种图数据处理的***架构图。如图4所示，第一参与方对第一子图进行处理，第二参与方对第二子图进行处理，并引入第三参与方作为协作方。第三参与方持有密钥，密钥可以包括公钥和私钥。可选的，可以采用同态加密的方式对计算得到的结果进行加密，加密使用的公钥由第三参与方发送给第一参与方和第二参与方，私钥由第三参与方单独持有。

在对第一子图中的节点进行处理时，第一参与方利用公钥将第一聚合结果进行加密，第二参与方利用公钥将第二聚合结果进行加密，第二参与方将加密后的第二聚合结果发送给第一参与方，第一参与方计算两者之和并加入随机掩码后发送给第三参与方。第三参与方从第一参与方接收到数据后，利用自身的私钥对其进行解密，并发送给第一参与方进行去随机掩码，得到节点的最终聚合结果。

类似的，在对第二子图中的节点进行处理时，第一参与方利用公钥将第一聚合结果进行加密，第二参与方利用公钥将第二聚合结果进行加密，第一参与方将加密后的第一聚合结果发送给第二参与方，第二参与方计算两者之和并加入随机掩码后发送给第三参与方。第三参与方从第二参与方接收到数据后，利用自身的私钥对其进行解密，并将解密后的结果发送给第二参与方，第二参与方对结果进行去随机掩码后得到节点的最终聚合结果。

通过引入独立的第三参与方辅助进行聚合结果的加解密操作，能够有效提高对图数据进行处理的安全性，减少数据泄露风险。

图5为本发明实施例提供的另一种图数据的处理方法的流程示意图。本实施例给出了第一参与方和第二参与方联合进行图数据处理的具体实现方案。如图5所示，所述方法可以包括：

步骤501、根据第一参与方和第二参与方的用户账号及转账记录，构建图数据。

其中，图数据包括第一子图和第二子图，分别由第一参与方和第二参与方进行构建并对节点进行初始化。

可选的，第一参与方可以通过如下方法进行第一子图的构建和初始化：根据属于所述第一参与方的用户账号，构建所述第一子图中的节点；根据所述第一参与方的用户账号的转账记录，构建第一子图中的节点的连接关系，所述连接关系用于确定邻居节点。

举例来说，第一参与方可以为银行，用户账号可以为银行***，第一子图中每一节点代表一个银行***，银行***之间的转账关系可以用于形成节点间的连接关系，例如，银行***A和银行***B之间有转账记录，则银行***A对应的节点和银行***B对应的节点之间可以具有连接线。在后续处理时，直接相连的两个节点可以互为邻居节点。

第二参与方也可以使用类似的方法进行第二子图的构建。

需要说明的是，由于第一参与方的银行***可能会与第二参与方的银行***有转账关系，所以第一子图中可能会存在至少部分节点与第二子图中的节点具有连接关系，第一参与方和第二参与方存储有相应的转账记录，因此可以知道自身具有的节点与其它参与方的节点的连接关系，这些连接关系可以在后续步骤中用于进行聚合操作。

通过上述方法，可以实现基于用户账号及转账关系构建图数据，从而可以基于图数据实现对用户账号的分析，提高了对用户账号监控效率。

步骤502、对图数据中的所有节点进行初始化，得到节点的初始特征向量。

其中，对于任一节点，可以根据其对应的属性信息进行初始化操作。具体的，第一参与方可以根据所述第一参与方的用户账号的属性信息，确定所述第一子图中节点对应的初始特征向量；类似的，第二参与方可以根据所述第二参与方的用户账号的属性信息，确定所述第二子图中节点对应的初始特征向量。其中，第一轮迭代过程中使用的上一轮迭代过程的特征向量为所述初始特征向量。

所述属性信息可以包括用于表征用户账号的属性的任意信息，例如可以包括但不限于：用户的地域、年龄、性别、学历、职业、收入、开卡时间、卡内余额等。

可选的，所述初始化操作可以是指根据属性信息进行赋值操作。一个简单的示例是，年龄在21到30之间，则赋值为000，年龄在31-40之间，则赋值为001。在将属性信息的每一项都完成赋值后，得到对应的初始特征向量。

通过用户账号的属性信息构建初始特征向量，可以快速、有效地梳理出用户的特征并应用于后续的迭代过程，从而基于用户账号的属性信息以及转账关系全面地对其进行分析处理，提高对业务风险信息的预测效果。

步骤503、设置迭代次数k=1。

步骤504、在第k次迭代过程中，遍历图数据中的节点，对于每一节点，第一参与方计算所述节点在第一子图中的第一聚合结果，第二参与方计算所述节点在第二子图中的第二聚合结果，第一参与方或第二参与方根据所述第一聚合结果和第二聚合结果，确定节点的第k轮的特征向量。

具体的，可以遍历图数据中的每一个节点，对于遍历到的每一个节点，均可以执行如下步骤a至步骤d。

步骤a、通过Aggregate（聚合）函数对当前遍历到的节点在第一子图内的邻居节点进行聚合，得到第一聚合结果。

具体的，步骤a可以由第一参与方来执行。第一参与方可以查找所述节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，得到第一聚合结果。

在k=1时，上一轮迭代过程的特征向量为初始特征向量，即，可以根据当前节点的邻居节点的初始特征向量，计算当前节点的第1轮的第一聚合结果。

可选的，查找所述节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，可以包括：查找所述节点在所述第一子图中的所有邻居节点；基于有放回的抽样操作，从查找到的邻居节点中选择预设数量的邻居节点；根据所选择的邻居节点的上一轮迭代过程的特征向量，计算所述第一聚合结果。

其中，有放回的抽样操作，是指从所有邻居节点的集合中选出任一邻居节点后，将选中的邻居节点再放回集合，继续进行抽样，直至抽样次数满足要求，也就是说，任一邻居节点都有可能被抽中一次或多次。

举例来说，节点v的邻居节点包括节点a、节点b和节点c，所述预设数量为3，则经过有放回的抽样操作后，最终选择的邻居节点可能为节点a、节点b、节点a，即，节点a被选中两次，基于选中的三个邻居节点（其中有两个是相同的），可以计算节点v对应的第一聚合结果。

其中，第一聚合结果可以通过Aggregate函数来计算。Aggregate函数可以根据实际需要来设计，例如，可以为均值函数，即，将选择的邻居节点的上一轮迭代过程的特征向量求平均，作为节点的第一聚合结果。

通过在所有邻居节点中进行有放回地抽样操作，可以快速找出预设数量的邻居节点并进行聚合操作，提高了聚合操作的效率，实现了规范化的聚合操作。

进一步的，当需要针对第二子图中的节点进行聚合操作时，第二参与方可以向第一参与方发送请求信息，第一参与方可以根据该请求信息，确定第二子图中的节点在第一子图中的邻居节点，并通过上述方法确定该节点的聚合结果发送给第二参与方，由于采用了有放回地抽样操作，第二参与方不能了解第一子图中每一邻居节点对应的特征向量，从而可以减少第一参与方的数据泄露风险，有效提高了图数据处理的安全性。

步骤b、通过Aggregate函数对所述节点在第二子图内的邻居节点进行聚合，得到第二聚合结果。

具体的，步骤b可以由第二参与方来执行。具体的实现原理和过程可以参见步骤a。

可选的，若某一节点在第一子图或第二子图内没有邻居节点，则相应的参与方可以不计算其对应的聚合结果，或者认为其在第一子图或第二子图中的聚合结果为0。

步骤c、对所述节点的第一聚合结果和第二聚合结果进行安全聚合，得到本轮的最终聚合结果。

具体的，可以采用SecureAggregate函数进行安全聚合操作，具体的实现方案可以参见前述实施例，此处不再赘述。

本实施例中，通过将Aggregate函数分布在不同的参与方，以及通过SecureAggregate函数聚合各方结果，达到综合利用各方数据实现图数据处理的功能。

步骤d、根据所述节点的本轮的最终聚合结果确定所述节点的本轮的特征向量。

可选的，对于每一节点来说，可以根据所述节点的本轮的最终聚合结果与所述节点的上一轮的特征向量，确定所述节点的本轮的特征向量。

可以理解的是，在第k轮迭代过程中，本轮可以是指第k轮，上一轮可以是指第k-1轮，第1轮的上一轮可以是指初始化阶段。

具体的，在第k轮迭代过程中，对于每一节点，可以将所述节点的第k轮的最终聚合结果与所述节点的第k-1轮的特征向量进行CONCAT操作，得到的结果与模型参数相乘，相乘的结果再通过σ函数添加非线性成分，得到最终的结果，根据所述最终的结果确定本轮的特征向量。

可选的，每轮的模型参数可以不同，在第k轮迭代过程中，可以使用第k轮对应的模型参数计算特征向量。

其中，所述模型参数可以是经过训练后得到的模型参数，具体可以是单个参与方利用训练样本集对模型进行训练后得到的，也可以多个参与方对模型进行联合训练后得到的，训练的模型可以参考GraphSAGE或其它图神经网络模型。

可选的，在得到所有节点的最终的结果后，可以对每一节点的最终的结果进行归一化或正则化操作，得到每一节点的本轮的特征向量，从而完成第k轮的迭代操作。

步骤505、判断k是否等于K。若否，则执行步骤506；若是，则执行步骤507。

其中，K为需要迭代的次数，可以根据实际需要来设置。

步骤506、将k的值增加1之后，重新执行步骤504。

步骤507、根据所述图数据中每一节点的最后一轮迭代过程的特征向量，确定对应的预测结果。

其中，步骤507中所使用的特征向量可以是最后一次迭代过程完成后得到的最终的特征向量，即，节点的第K轮的特征向量。对于任一节点来说，可以将该节点的第K轮的特征向量输入到预测器函数，或者输入到sigmoid函数，得到对应的预测结果。

在实际应用中，可以首先进行图数据的构建，构建完成后，对于任一节点v，根据其对应的属性信息x_v，对其进行初始化操作，表示节点v初始化后的值。在第k轮迭代过程中，对于图数据中的每一个节点v，查找节点v的邻居节点u，根据邻居节点u的第k-1轮的特征向量，计算得到节点v在第k轮迭代过程中的最终聚合结果，再根据最终聚合结果、第k-1轮的特征向量以及模型参数等，得到节点v的第k轮迭代过程的特征向量。这样，根据第k-1轮的特征向量可以确定第k轮的特征向量，第k轮的特征向量再用于计算第k+ 1轮的特征向量。在迭代次数达到预设次数K后，根据最终得到的特征向量，确定预测结果。

可选的，对于第一参与方来说，可以在迭代次数满足预设要求后，根据所述第一子图中任一节点在最后一轮迭代过程对应的特征向量，确定所述节点对应的用户账号的业务风险信息。类似的，第二参与方可以根据第二子图中的节点确定对应的用户账号的业务风险信息。

在一种可选的实现方案中，确定用户账号的业务风险信息，可以具体为确定用户账号是否为异常账号，若根据特征向量确定用户账号属于异常账号，则说明该用户账号可能存在不合法的行为，需要上报处理。

在另一种可选的实现方案中，确定用户账号的业务风险信息，可以具体为确定用户账号是否有逾期风险，若根据特征向量确定用户账号存在逾期风险，则需要严密监控，或者调整用户账号的信用等级。

最终预测的业务风险信息的类型可以通过训练过程来确定。例如，若训练过程使用账号是否异常作为标签，则最终得到的模型可以用于预测账号是否异常，若训练过程使用是否逾期作为标签，则最终得到的模型可以用于预测账号是否会出现逾期。

本实施例提供的图数据的处理方法，可以根据用户账号构建所述图数据的节点，根据用户账号的转账记录构建图数据中的节点的连接关系，所述连接关系用于确定邻居节点，根据所述用户账号的属性信息构建所述图数据中节点对应的初始特征向量，最终在经过多次迭代过程后，得到的特征向量可以用于预测用户账号的业务风险信息，能够融合不同参与方的用户账号的信息，共同完成业务风险信息的预测，提高了对业务风险的预测的准确性，及时筛查出异常的用户账号，有效实现了对用户账号的监控。

图6为本发明实施例提供的一种图数据的处理装置的结构示意图。所述图数据包括第一子图和第二子图，所述第一子图包括属于第一参与方的节点，所述第二子图包括属于第二参与方的节点。所述装置可以应用于第一参与方。如图6所示，所述图数据的处理装置可以包括：

执行模块601，用于在任意一轮迭代过程中，遍历所述第一子图中的节点，对于遍历到的每一节点，执行如下操作；

查找模块602，用于查找所述节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，得到第一聚合结果；

聚合模块603，用于在所述节点与所述第二子图中的节点具有连接关系时，根据所述第一聚合结果与第二聚合结果确定所述节点的最终聚合结果；其中，所述第二聚合结果是所述第二参与方根据所述节点在所述第二子图中的邻居节点的上一轮迭代过程的特征向量确定的；

确定模块604，用于根据所述最终聚合结果，确定所述节点的本轮迭代过程的特征向量；在迭代次数满足要求后，最后一轮迭代过程的特征向量用于计算节点对应的预测结果。

其中，所述执行模块601可以在任意一轮迭代过程中，遍历所述第一子图中的节点，对于遍历到的每一节点，可以通过查找模块602、聚合模块603、确定模块604计算其对应的特征向量。

可选的，所述聚合模块603具体用于：

接收所述第二参与方发送的加密后的第二聚合结果；

所述加密后的第二聚合结果为利用公钥进行加密后的第二聚合结果；所述聚合模块603在根据所述加密后的第二聚合结果，确定所述节点的最终聚合结果时，具体用于：

利用所述公钥对所述第一聚合结果进行加密；

可选的，所述查找模块602具体用于：

查找所述节点在所述第一子图中的所有邻居节点；

可选的，所述执行模块601还用于：

相应的，在迭代次数满足预设要求后，所述执行模块601还用于：

可选的，所述执行模块601还用于：

前述任一实施例提供的图数据的处理装置，用于执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

图7为本发明实施例提供的一种图数据的处理设备的结构示意图。如图7所示，所述设备可以包括：存储器701、处理器702及存储在所述存储器701上并可在所述处理器702上运行的图数据的处理程序，所述图数据的处理程序被所述处理器702执行时实现如前述任一实施例所述的图数据的处理方法的步骤。

可选地，存储器701既可以是独立的，也可以跟处理器702集成在一起。

本实施例提供的设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图数据的处理程序，所述图数据的处理程序被处理器执行时实现如前述任一实施例所述的图数据的处理方法的步骤。

本发明实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例所述的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元（Central Processing Unit，简称CPU），还可以是其它通用处理器、数字信号处理器（Digital Signal Processor，简称DSP）、专用集成电路（Application Specific Integrated Circuit，简称ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图数据的处理方法，其特征在于，所述图数据包括第一子图和第二子图，所述第一子图包括属于第一参与方的节点，所述第二子图包括属于第二参与方的节点；所述处理方法应用于第一参与方，所述处理方法包括：

若所述节点与所述第二子图中的节点具有连接关系，则向第二参与方发送请求信息，所述请求信息用于请求所述第二参与方计算所述节点对应的第二聚合结果并对所述第二聚合结果进行加密；其中，所述第二聚合结果是所述第二参与方根据所述节点在所述第二子图中的邻居节点的上一轮迭代过程的特征向量确定的；

接收所述第二参与方发送的加密后的第二聚合结果；所述加密后的第二聚合结果为利用由第三参与方发送的公钥进行加密后的第二聚合结果；

利用由第三参与方发送的公钥对所述第一聚合结果进行加密；

接收第三参与方发送的解密结果，并对所述解密结果进行去随机掩码操作，得到最终聚合结果；根据所述最终聚合结果，确定所述节点的本轮迭代过程的特征向量；在迭代次数满足要求后，最后一轮迭代过程的特征向量用于计算节点对应的预测结果；

根据所述第一子图中任一节点在最后一轮迭代过程对应的特征向量，确定所述节点对应的用户账号的业务风险信息；

其中，所述图数据应用于金融机构，所述第一参与方和所述第二参与方均为金融机构，所述图数据中的节点用于表示用户账号，节点间的连接关系用于表示用户账号之间的转账关系。

2.根据权利要求1所述的方法，其特征在于，查找所述节点在所述第一子图中的邻居节点，根据所述邻居节点的上一轮迭代过程的特征向量进行聚合操作，包括：

查找所述节点在所述第一子图中的所有邻居节点；

3.根据权利要求1所述的方法，其特征在于，还包括：

4.一种执行权利要求1-3任意一项所述的图数据的处理方法的图数据的处理装置，其特征在于，所述图数据包括第一子图和第二子图，所述第一子图包括属于第一参与方的节点，所述第二子图包括属于第二参与方的节点；所述处理装置应用于第一参与方，所述处理装置包括：

聚合模块，用于若所述节点与所述第二子图中的节点具有连接关系，则向第二参与方发送请求信息，所述请求信息用于请求所述第二参与方计算所述节点对应的第二聚合结果并对所述第二聚合结果进行加密；其中，所述第二聚合结果是所述第二参与方根据所述节点在所述第二子图中的邻居节点的上一轮迭代过程的特征向量确定的；接收所述第二参与方发送的加密后的第二聚合结果；所述加密后的第二聚合结果为利用由第三参与方发送的公钥进行加密后的第二聚合结果；利用由第三参与方发送的公钥对所述第一聚合结果进行加密；基于随机掩码，对加密后的第一聚合结果与所述加密后的第二聚合结果进行计算，得到加密后的最终聚合结果；将所述加密后的最终聚合结果发送给第三参与方，以使所述第三参与方利用私钥对所述加密后的最终聚合结果进行解密；接收第三参与方发送的解密结果，并对所述解密结果进行去随机掩码操作，得到最终聚合结果；

确定模块，用于根据所述最终聚合结果，确定所述节点的本轮迭代过程的特征向量；在迭代次数满足要求后，最后一轮迭代过程的特征向量用于计算节点对应的预测结果；

所述执行模块还用于：根据属于所述第一参与方的用户账号，构建所述第一子图中的节点；根据所述第一参与方的用户账号的转账记录，构建第一子图中的节点的连接关系，所述连接关系用于确定邻居节点；根据所述第一子图中任一节点在最后一轮迭代过程对应的特征向量，确定所述节点对应的用户账号的业务风险信息；

5.一种图数据的处理设备，其特征在于，所述图数据的处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图数据的处理程序，所述图数据的处理程序被所述处理器执行时实现如权利要求1-3中任一项所述的图数据的处理方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图数据的处理程序，所述图数据的处理程序被处理器执行时实现如权利要求1-3中任一项所述的图数据的处理方法的步骤。

7.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-3中任一项所述的方法。