CN110059227B

CN110059227B - 一种确定多个样本之间的网络结构的方法及装置

Info

Publication number: CN110059227B
Application number: CN201910059767.4A
Authority: CN
Inventors: 梁琛
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2023-08-04
Anticipated expiration: 2039-01-22
Also published as: CN110059227A

Abstract

本说明书实施例提供了一种确定多个样本之间的全局网络结构的方法和装置，其中，所述多个样本中包括被标注为不同类型的样本，其中，所述不同类型中包括至少一种目标类型，所述方法包括：在获取所述多个样本的至少两个全局网络结构后；首先在每个全局网络结构中，对于所述多个样本中的至少一种目标类型中的每种目标，基于该目标类型的样本各自的与其邻居样本之间的局部网络结构、及各个所述邻居样本的类型，计算该各种目标类型的样本在该网络结构中的聚集性；然后基于各种目标类型的样本在各个全局网络结构中的聚集性，在所述至少两个全局网络结构中确定所述多个样本之间的全局网络结构。

Description

一种确定多个样本之间的网络结构的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机信息处理领域，尤其涉及一种确定多个样本之间的网络结构的方法及装置。

背景技术

多个样本的网络结构(拓扑结构)是对多个样本之间关系的一种描述。基于多个样本之间的网络结构可获取对应于该多个样本的关系网络图。图嵌入算法的输入是关系网络图中所有节点之间的网络结构，以及每个节点的特征。在不同应用中，网络结构和节点的特征均有多种可能性。比如，在保险风控场景，为了判断某个节点(支付宝账户)是不是骗保账户，可以对账户之间的转账关系、设备共用关系、wifi共用关系、好友关系分别构图。这时，网络结构已经有了四种选择。对于图嵌入算法，需要在这些可能的构图中选择一种，输入到算法中。对于不同的网络结构和节点的特征的选择，可能会影响最终分类任务的结果。在目前常用的选择方案中，为每一种网络结构对应的关系图搭建一个图嵌入模型，在分别训练之后，比较这些模型的表现。因此，需要一种更有效的确定样本之间的网络结构的方案。

发明内容

本说明书一个或多个实施例描述了一种确定多个样本之间的网络结构的方法及装置，可以高效地确定适合特定场景的网络结构。

根据第一方面，提供了一种确定多个样本之间的全局网络结构的方法，其中，所述多个样本中包括被标注为不同类型的样本，其中，所述不同类型中包括至少一种目标类型，所述方法包括：

获取所述多个样本的至少两个全局网络结构；

在每个全局网络结构中，对于所述至少一种目标类型中的每种目标类型，基于该目标类型的样本各自的与其邻居样本之间的局部网络结构、及各个所述邻居样本的类型，计算该目标类型的样本在该全局网络结构中的聚集性，其中，所述邻居样本为预定阶数以内的邻居样本；

基于各种目标类型的样本在各个全局网络结构中的聚集性，在所述至少两个全局网络结构中确定所述多个样本之间的全局网络结构。

在一个实施例中，其中，所述至少两个全局网络结构中包括第一网络结构，所述至少一种目标类型包括第一目标类型，在所述第一网络结构中，所述第一目标类型的样本的聚集性对应于第一目标类型的样本与其各阶全部同类型邻居样本之间的聚集性的加权和，其中，所述第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性基于如下两项获取：所述第一目标类型的样本各自的与其n阶邻居样本之间的网络结构、及所述n阶邻居样本各自的类型，其中n为大于0的整数。

在一种可能的实现方式中，其中，所述邻居样本为至多预定阶数的邻居样本。

进一步地，预定阶数为3。

在一种可能的实现方式中，其中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一目标类型的各样本的n阶同类型邻居样本数之和与第一目标类型的各样本的n阶邻居样本数之和的比值。

进一步地，其中，n阶同类型邻居样本数之和与n阶邻居样本数之和分别基于所述第一网络结构对应的邻接矩阵的n次幂获取。

在一种可能的实现方式中，其中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一边值和与第二边值和的比值，所述第一边值和为第一目标类型的各样本与其n阶同类型邻居样本之间的n阶边值之和，所述第二边值和为第一目标类型的各样本与其n阶邻居样本之间的n阶边值之和，其中，n阶边值为两个互为n阶邻居样本的样本之间的n条边的边值的乘积。在一个实施例中，其中，所述多个样本中还包括未知类型的样本。

在一个实施例中，其中，所述多个样本中包括至少两种目标类型的样本，其中，基于各种目标类型的样本在各个全局网络结构中的聚集性，确定所述多个样本之间的全局网络结构包括，在每个全局网络结构中，计算各种目标类型的样本在该全局网络结构中的聚集性之和，以及，基于各个全局网络结构中的聚集性之和确定所述多个样本之间的全局网络结构。

在一种可能的实现方式中，其中，基于各种目标类型的样本在各个全局网络结构中的聚集性，确定所述多个样本之间的全局网络结构包括，基于各种目标类型的样本在各个网络结构中的聚集性、及各个网络结构的所述聚集性之和，确定所述多个样本之间的网络结构。

在一种可能的实现方式中，所述多个样本对应于业务平台中的多个账户，所述多个样本中包括黑样本和白样本，其中，所述黑样本对应于异常账户，所述白样本对应于正常账户。

在一种可能的实现方式中，所述业务为保险业务，所述多个样本之间的至少两个全局网络结构为选自于以下的至少两个全局网络结构：对应于账户间转账关系的网络结构、对应于账户间设备共用关系的网络结构、对应于账户间wifi共用关系的网络结构、以及对应于账户间好友关系的网络结构。

根据第二方面，提供了一种确定多个样本之间的全局网络结构的装置，其中，所述多个样本中包括被标注为不同类型的样本，其中，所述不同类型中包括至少一种目标类型，所述装置包括：

网络结构获取单元，配置为获取所述多个样本的至少两个全局网络结构；

聚集性计算单元，配置为在每个全局网络结构中，对于所述至少一种目标类型中的每种目标类型，基于该目标类型的样本各自的与其邻居样本之间的局部网络结构、及各个所述邻居样本的类型，计算该目标类型的样本在该全局网络结构中的聚集性，其中，所述邻居样本为预定阶数以内的邻居样本；

网络结构确定单元，配置为基于各种目标类型的样本在各个全局网络结构中的聚集性，在所述至少两个全局网络结构中确定所述多个样本之间的全局网络结构。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书一个或多个实施例提供的确定多个样本之间的网络结构的方法及装置，基于目标类型在网络结构中的聚集性从多个网络结构中高效确定适合目标类型的网络结构，从而确定了适合特定场景的网络结构。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本说明书的实施例披露的一种关系网络图的示意图；

图2示出了本说明书的实施例披露的一种确定多个样本之间的全局网络结构的方法的流程图；

图3示出了本说明书的实施例披露的一种关系网络图的示意图；

图4示出了本说明书的实施例披露的另一种关系网络图的示意图；

图5示出了本说明书的实施例披露的又一种关系网络图的示意图；

图6示出了本说明书的实施例披露的又一种关系网络图的示意图；

图7示出了本说明书的实施例披露的一种确定多个样本之间的全局网络结构的装置的结构示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

关系网络图用于描述对节点的特性和节点间的关系。图1示出了根据本说明书实施例的一种关系网络图的示意图。关系网络图中的节点，例如，节点A、节点B、节点C、节点D、节点E、节点F、节点G、节点H、节点I、节点J、节点K、节点L、节点M、节点N，或对应于社交网络中的人或用户，或对应于电子商务中的账户等。节点之间的连线，称为连接边。连接边用于表示节点间存在的关联关系。

也可以说，关系网络中的每一个节点对应于相应场景中的一个样本。与关系网络图中多个节点分别对应的多个样本对应于业务平台中的多个账户，所述多个样本中包括黑样本和白样本，其中，所述黑样本对应于异常账户，所述白样本对应于正常账户。例如，所述业务为保险业务。在保险风控场景中，为了判断某个账户(例如支付宝账户)是不是骗保账户，可利用多个账户间的关联关系进行网络结构构建，从而获取对应于各账户的各个节点之间的关系网络图。基于该关系网络图，通过图嵌入算法可获取各节点的嵌入特征，以判断其中的某个账户是否为骗保账户。在该场景下的样本与各个账户相对应，例如包括账户标识、多维特征各自的特征值等，在样本为标定样本的情况中，所述样本还包括标签值，该标签值指示该样本对应的账户是否为骗保账户。其中，例如将骗保账户对应的样本设定为保险风控场景下需关注的目标类型样本。因此，在特定场景中，节点之间的网络结构也可以说是样本之间的网络结构。

关系网络图中的各个节点之间的连接边共同构成了该关系网络图的网络结构。节点及其之间的网络结构构成了关系网络图。

同样在上述保险风控场景中，通常样本间的关联关系有多种，例如，转账关系、设备共用关系、Wi-Fi共用关系、好友关系等。利用不同种类的关联关系构建得到的网络结构可能不同，使用不同的网络结构判断一个样本是否属于目标类型的结果可能也不同，换言之，不同的网络结构对于特定场景的适用度是不同的。网络结构对场景的适用度是指，网络结构通过图嵌入算法嵌入到机器学习任务后能否得到较好结果或理想结果。以保险风控场景为例，如果采用的网络结构对骗保账户的识别准确率较高，则可以认为该网络结构适用于保险风控场景。可以理解，本说明书实施例不限于保险风控场景，例如，在支付场景中、贷款风控场景中，都可以通过根据本说明书实施例的方案进行对适合于场景的网络结构的选择。

在本说明书实施例中，一个节点的n阶邻居是指与该节点之间具有连接边，且最少边数为n的节点。以节点I为例，其1阶邻居有节点J、节点B，其2阶邻居为节点D、节点A、节点F、节点G，其3阶邻居为节点C、节点E、节点K、节点L、节点H，以此类推，得到节点I的n阶邻居。再以节点G与节点H为例，对于节点G与节点H之间的连接边的条数有两个情况，一种情况是有3条连接边，即节点G与L之间的连接边GL、节点L与节点M之间的连接边LM、节点M与节点H之间的连接边MH、节点H与节点G之间的连接边HG；另一种情况是有一条连接边，即节点G与节点H之间的连接边GH(也可以称为节点H与节点G之间的连接边HG)。此时，节点G与节点H之间的邻居阶数有最少边数确定，即节点G与节点H互为1阶邻居。

图2示出根据本说明书实施例的一种确定多个样本之间的全局网络结构的方法流程图。所述方法可以由任何具有计算、处理能力的装置、设备、平台、设备集群执行。所述全局网络结构与多个样本相互间的关联关系相对应，也就是说，所述全局网络结构由节点(样本)之间的连接边构成，该连接边表示样本之间的关联关系。其中，所述多个样本中包括被标注为不同类型的样本，其中，所述不同类型中包括至少一种目标类型。例如，在风控场景下，包括黑样本(对应于骗保账户)和白样本(正常账户)，黑样本和白样本互为不同类型的样本，其中，例如，可将黑样本设定为目标类型，从而可通过获取黑样本聚集性，从而确定网络结构。

需要说明的是，样本的类型不同是指样本的分类不同，例如，骗保账户与信用良好的账户分别属于不同类型的用户，骗保账户属于骗保类型(黑样本)，信用良好的账户属于信用良好类型(白样本)。不同类型的样本具有不同的标签值。该标签值可以预先标注，例如可以通过人工标定。或者是通过以往其它模型标定。

在本说明书实施例中，利用相同的样本采用不同种类的关联关系分别构建多种关系网络图，即多种关系网络图之间的不同为网络结构的不同，所以下文为了方便描述，用网络结构来指代关系网络图。

目标类型是指场景所关注的目标类型。在判断某个网络结构是否适合某个场景时，通常是判断该网络结构是否适合用于判断未知类型的样本是否属于该场景关注的目标类型。以保险风控场景为例，其目标类型可以为骗保账户对应的类型。在确定特定网络结构是否适合用于判断某个账户是不是骗保账户之后，便可确定该特定网络结构是否适合保险风控场景。

如图2所示，本说明书实施例提供的确定多个样本之间的全局网络结构的方法包括：步骤200，获取所述多个样本的至少两个全局网络结构；步骤202，在每个全局网络结构中，对于所述至少一种目标类型中的每种目标类型，基于该目标类型的样本各自的与其邻居样本之间的局部网络结构、及各个所述邻居样本的类型，计算该目标类型的样本在该全局网络结构中的聚集性，其中，所述邻居样本为预定阶数以内的邻居样本；步骤204，基于各种目标类型的样本在各个全局网络结构中的聚集性，在所述至少两个全局网络结构中确定所述多个样本之间的全局网络结构。

首先，在步骤200中，获取所述多个样本的至少两个全局网络结构。

不同的网络结构是指采用了不同的关联关系构建的网络结构。例如，在上述保险风控场景中，多种不同的网络结构可以为分别采用转账关系、设备共用关系、Wi-Fi共用关系、好友关系等关联关系构建的网络结构。

在一个实施例中，所述多个样本中的各个样本所属的类型均为已知，即每个样本的均被标注了类型。在该示例中，所有样本的类型均已知，没有未知类型的样本干扰，从而使得后续计算得到的聚集性更准确。在确定出来适合目标类型对应的场景的网络结构后，可以使用构建该网络结构的关联关系再次构建网络结构。在再次构建网络结构时，放入未知类型的样本，以实现对未知类型的样本的识别。

在一个实施例中，在步骤200中，所述多个样本中还包括未知类型的样本。在本实施例中，采用未知类型的样本和已知类型的样本共同构建网络结构，确定得到的网络结构可直接用于未知类型的样本的识别，从而无需进行网络结构的再次构建。

然后，在步骤202中，在每个全局网络结构中，对于所述至少一种目标类型中的每种目标类型，基于该目标类型的样本各自的与其邻居样本之间的局部网络结构、及各个所述邻居样本的类型，计算该目标类型的样本在该全局网络结构中的聚集性，其中，所述邻居样本为预定阶数以内的邻居样本。

全局网络结构是指整个关系网络图的网络结构，即，全部样本之间的相互关系。而局部网络结构是指以关系网络图中的某个样本为关注点的该关注样本与其邻居样本之间的网络结构，即，以该关注样本为中心连接点的网络结构。其中，邻居样本包括预定阶数以内的邻居样本，例如，包括三阶以内的邻居样本，即包括一阶邻居样本、二阶邻居样本和三阶邻居样本。

需要说明的是，局部网络结构并非必然为全局网络结构的一部分。在一种情况下，一个局部网络结构可以为全局网络结构的一部分，即该局部网络结构连接的样本并非关系网络图中的所有样本。在一种情况下，当预定阶数足够大时，局部网络结构可以为全局网络结构，即该局部网络结构连接的样本为关系网络图中的所有样本，而其中的一个样本为该局部网络结构关注的样本。

聚集性是指用于反映同类型的样本在网络结构中聚集程度的指标。在网络结构中，同类型的样本之间的关联性越高，则聚集性越高，同类型的样本之间的关联性越低，则聚集性越低。

同类型样本之间的关联性即为网络结果中同类型样本之间相互连接的紧密程度。例如，在上述风控场景中，对于一种网络结构中的全部黑样本，黑样本与黑样本的连接越多，也即在黑样本集合中，各个黑样本之间的关联性越高，而在全部黑样本中，黑样本与白样本的连接较多，也即，黑样本与黑样本之间的关联性较低。

在一个实施例中，如参考图1中所述，黑样本与黑样本之间的连接有多种连接，例如，黑样本与黑样本之间通过一条边连接，其为一阶邻居，或者黑样本与黑样本之间通过两条边连接，其为二阶邻居，在该情况下，二阶邻居之间的连接与一阶邻居之间的连接对黑样本总体关联性的影响程度不同。因此还可以通过对全部黑样本与各个黑样本的不同阶邻居之间的关联性设置权重，总而计算黑样本的整体关联性。

在一个实施例中，所述至少两个全局网络结构中包括第一网络结构，所述至少一种目标类型包括第一目标类型，在所述第一网络结构中，所述第一目标类型的样本的聚集性对应于第一目标类型的样本与其各阶全部同类型邻居样本之间的聚集性的加权和，其中，所述第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性基于如下两项获取：所述第一目标类型的样本各自的与其n阶邻居样本之间的网络结构、及所述n阶邻居样本各自的类型，其中n为大于0的整数。

在一个实施例中，所述邻居样本可以为至多预定阶数的邻居样本。预定阶数可以为1，也可以为2，也可以为3，等等。

在一个实施例中，其中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一目标类型的各样本的n阶同类型邻居样本数之和与第一目标类型的各样本的n阶邻居样本数之和的比值。

在该实施例中，网络结构中的连接边定性地表示关联关系，即两个样本之间存在连接边，就表示两个样本之间具有关联关系，并无需考虑关联关系的高低。因此，对于第一目标类型样本的某一阶的邻居，用第一目标类型的样本个数占所有样本的个数的比值来反映第一目标类型的样本在该阶上的聚集性。

在该实施例中，在任一全局网络结构中，例如，在第一网络结构中，各条边的边值都是等值的，例如都为1，从而可以采用以下公式(1)计算目标类型样本的聚集性η。

其中，B表示第一目标类型的样本，|N^j(i)|表示第一目标类型的样本i的j阶邻居中所有样本数目，表示第一目标类型的样本i的j阶邻居中第一目标类型的样本数目，α_j表示j阶聚集性y_j的权重，j为大于0的整数，k表示预定阶数，其中，j阶聚集性y_j表示第一目标类型样本与其j阶同类型邻居样本之间的聚集性，其如公式(2)所示：

其中，y_j表示全部第一目标类型样本与其j阶同类型邻居样本之间的聚集性，例如，第一目标类型样本为黑样本，|N^j(i)|表示黑样本i的j阶邻居中所有样本数目，表示黑样本i的j阶邻居中黑样本数目。

在一个例子中，可将k设定为3，设定第一目标类型样本为黑样本，即，仅计算黑样本分别与一阶黑样本邻居、二阶黑样本邻居、及三阶黑样本邻居之间的聚集性的加权和。例如，可以设定1阶、2阶、3阶邻居的权重分别为0.7、0.2、0.1。其中，全部黑样本与其一阶黑样本邻居的聚集性即公式(2)中的j＝1时所计算的结果。

类似地，可通过公式(2)获取全部黑样本与其二阶黑样本邻居的聚集性(j为2)、及全部黑样本与其三阶黑样本邻居的聚集性(j为3)。

在上述公式(1)中，通过对目标类型样本各自的预定阶数的同类型邻居样本、和全部类型邻居样本分别进行计数并计算目标类型邻居样本数的占比，而获取目标类型样本的聚集性，在该情况中，同类型邻居样本数、全部类型邻居样本数都是基于各个目标类型样本与其邻居样本之间的局部网络结构而获取，也就是说，基于各个目标类型样本与其邻居样本之间的局部网络结构、及各个邻居样本的类型，获取各个目标类型样本在第一网络结构中的聚集性。

图3示出了根据本说明书实施例的一种关系网络图的示意图；图4示出了根据本说明书实施例的一种关系网络图的示意图。对于图3所示的关系网络图和图4所示的关系网络图，构建两者所用的样本相同，但是采用的关联关系不同。为了方便描述，下文中图3所示的关系网络图可以称为图3所示的网络结构，图4所示的关系网络图可以称为图4所示的网络结构。下面以图3和图4为例进行上述公式(1)的计算。

以图3所示的网络结构为例，可以设定预定阶数为3，1阶、2阶、3阶邻居的权重分别为0.7、0.2、0.1。在图3中，样本M1、样本M2为第一类型的样本，样本W1、样本W2、样本W3为第二类型的样本，X为未知类型的样本。

可以设定第一目标类型为第一类型。对于第一目标类型的样本M1，其各阶邻居中的各类型样本数量如表1所示。

表1

	1阶邻居	2阶邻居	3阶邻居
				第一类型的样本	1	0	0
第二类型的样本	1	1	1
				未知类型的样本	0	0	1

对于第一目标类型的样本(样本M1和样本M2)，其各阶邻居中的各类型样本数量如表2所示。

表2

	1阶邻居	2阶邻居	3阶邻居
				第一类型的样本	2	0	0
第二类型的样本	1	2	2
				未知类型的样本	0	0	1
第一类型的样本占比	2/3	0	0

按照上述公式和各阶的权重进行计算得到第一目标类型的样本在图3所示的网络结构中的聚集性约为0.47。具体地，聚集性η＝0.7×2÷3+0.2×0+0.1×0≈0.47。

以图4所示的网络结构为例，同样可以设定预定阶数为3，1阶、2阶、3阶邻居的权重分别为0.7、0.2、0.1。在图4中，样本M1、样本M2为第一类型的样本，样本W1、样本W2、样本W3为第二类型的样本，X为未知类型的样本。

设定第一目标类型为第一类型。对于第一目标类型的样本(样本M1和样本M2)，其各阶邻居中的各类型样本数量如表3所示。

表3

	1阶邻居	2阶邻居	3阶邻居
				第一类型的样本	0	0	2
第二类型的样本	3	2	0
				未知类型的样本	0	1	1
第一类型的样本占比	0	0	2/3

按照上述公式和各阶的权重进行计算得到第一目标类型的样本在图3所示的网络结构中的聚集性约为0.07。具体地，聚集性η＝0.7×0+0.2×0+0.1×2÷3≈0.07。

显然，相对于图4所示网络结构，图3所示的网络结构，更适合第一目标类型对应的场景。

图5示出了根据本说明书实施例的又一种关系网络图的示意图；图6示出了根据本说明书实施例的又一种关系网络图的示意图。对于图5所示的关系网络图和图6所示的关系网络图，构建两者所用的样本相同，但是采用的关联关系不同。为了方便描述，下文中图5所示的关系网络图可以称为图5所示的网络结构，图6所示的关系网络图可以称为图6所示的网络结构。下面以图5和图6为例进行上述公式(1)的计算。

以图5所示的网络结构为例，可以设定预定阶数为3，1阶、2阶、3阶邻居的权重分别为0.7、0.2、0.1。在图5中，样本M1、样本M2为第一类型的样本，样本W1、样本W2、样本W3为第二类型的样本。

可以设定第一目标类型为第一类型。对于第一目标类型的样本M1，其各阶邻居中的各类型样本数量如表4所示。

表4

	1阶邻居	2阶邻居	3阶邻居
				第一类型的样本	1	0	0
第二类型的样本	1	1	1

对于第一目标类型的样本(样本M1和样本M2)，其各阶邻居中的各类型样本数量如表5所示。

表5

按照上述公式和各阶的权重进行计算得到第一目标类型的样本在图5所示的网络结构中的聚集性约为0.47。具体地，聚集性η＝0.7×2÷3+0.2×0+0.1×0≈0.47。

以图6所示的网络结构为例，同样可以设定预定阶数为3，1阶、2阶、3阶邻居的权重分别为0.7、0.2、0.1。在图6中，样本M1、样本M2为第一类型的样本，样本W1、样本W2、样本W3为第二类型的样本。

设定第一目标类型为第一类型。对于第一目标类型的样本(样本M1和样本M2)，其各阶邻居中的各类型样本数量如表6所示。

表6

	1阶邻居	2阶邻居	3阶邻居
				第一类型的样本	0	0	2
第二类型的样本	3	2	0
				第一类型的样本占比	0	0	1

按照上述公式和各阶的权重进行计算得到第一目标类型的样本在图3所示的网络结构中的聚集性为0.1。具体地，聚集性η＝0.7×0+0.2×0+0.1×1＝0.1。

显然，相对于图6所示网络结构，图5所示的网络结构，更适合第一目标类型对应的场景。

在上文对图3和图4，以及图5和图6的描述中，虽然通过关系网络图获取第一类型样本的各阶邻居样本的数目，本说明书不限于此，例如，可通过关系网络图的邻接矩阵获取所述邻居样本的数目。

需要说明的是，在图3和图4，以及图5和图6中，为了示出各个样本以及样本间的聚集性，而示意性地示出各个样本的位置。实际上，网络结构并不对样本的位置进行设置。

在一个例子中，其中，n阶同类型邻居样本数之和与n阶邻居样本数之和分别基于所述第一网络结构对应的邻接矩阵的n次幂获取。

可以设定第一网络结构的邻接矩阵为邻接矩阵P，邻接矩阵P可以表示为：

P＝[a_ij]_N*N，

其中，第i行第j列的元素a_ij对应于样本i与样本j之间的边值。边值是连接边的值。

如上所述，连接边定性的表示样本之间的关联性，即每条边的边值都可以设为1，因此在本例中，如果两个样本之间存在边，则对应的矩阵元素为1，如果不存在边，则对应的矩阵元素为0。

对于样本i的一阶邻居的个数，为邻接矩阵P中第i行元素的和。对于节点i的二阶邻居的个数，为邻接矩阵P平方后得到的矩阵中第i行元素的和。相应地，对于节点i的n阶邻居的个数，为邻接矩阵P的n次幂后得到的矩阵中第i行元素的和。结合每个样本所属的类型，从而可以得到某一类型的样本的邻居中同类型的样本个数。

在一个实施例中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一边值和与第二边值和的比值，所述第一边值和为第一目标类型的各样本与其n阶同类型邻居样本之间的n阶边值之和，所述第二边值和为第一目标类型的各样本与其n阶邻居样本之间的n阶边值之和，其中，n阶边值为两个互为n阶邻居样本的样本之间的n条边的边值的乘积。

在该实施例中，在网络结构中，各条边的边值不是等值的，即，网络结构中的连接边不但表示样本之间具有关联关系，连接边的边值还对应样本之间关联关系的高低，即关联性的大小。可以预设边值越大，其对应的关联性越大。在构建网络结构时，连接边的边值可以通过采用的关联关系的高低确定得到。对于不同的关联关系，可以预设表示关联关系高低的指标，通过该指标来确定连接边的边值。以关联关系为转账关系为例，可以用样本之间转账的金额来确定其之间连接边的边值，例如，可以假设，转账金额大于1万，则边值可以为0.8；还可以假设，转账金额小于1千，边值可以为0.5。在该情况中，可以采用以下公式(3)计算目标类型样本的聚集性η。

其中，B表示第一目标类型的样本，表示第一目标类型的样本i与其的j阶邻居中所有样本之间的j阶边值和，/>表示第一目标类型的样本i与其的j阶邻居中第一目标类型样本之间的j阶边值和，α_j表示j阶聚集性的权重，j为大于0的整数，k表示预定阶数。将每个第一目标类型的样本与其的j阶邻居中所有样本之间的边值和进行加和，得到j阶邻居的第二边值和。将每个第一目标类型的样本与其的j阶邻居中第一目标类型的之间的边值和进行加和，得到j阶邻居的第一边值和。

如公式(3)中所示，第一目标类型的样本与n(n＝j)阶同类型邻居样本之间的聚集性为第一边值和与第二边值和的比值，所述第一边值和为第一目标类型的各样本与其n阶同类型邻居样本之间的n阶边值之和，所述第二边值和为第一目标类型的各样本与其n阶邻居样本之间的n阶边值之和，其中，边值对应于该边连接的两个邻接样本之间的关联性大小，n阶边值为两个互为n阶邻居样本的样本之间的n条边的边值的乘积，n为大于0的整数。

可通过以下公式(4)来计算第一目标类型的样本i与其的j阶邻居中第二样本之间的j阶边值第二样本为第一目标类型的样本i的j阶邻居中任一样本(不区分样本的类型)。

其中，j为大于0的整数，e_k表示第一目标类型的样本i与第二样本间的最少边数中的第k条边的边值。

可通过以下公式(5)来计算第一目标类型的样本i与其的j阶邻居中第三样本之间的j阶边值第三样本为第一目标类型的样本。

B表示第一目标类型的样本，j为大于0的整数，e_k表示第一目标类型的样本i与第三样本间的最少边数中的第k条边的边值。

n(n＝j)阶边值是指互为n阶邻居样本的样本之间的边值，其中，n为大于0的整数。具体可以为互为n阶邻居样本的样本之间的最少条数边的边值的乘积。以某个样本与其二阶邻居样本中的一个样本之间的边值为例，其为该样本与其二阶邻居样本的该样本之间的最少条数边(即两条边)的边值的乘积。以图3中的样本W1和样本W3为例，两个互为二阶邻居，它们之间的边值为样本W1和样本W2之间的边值乘以样本W2和样本W3之间的边值得到的乘积。可以假设样本W1和样本W2之间的边值为0.8，样本W2和样本W3之间的边值为0.5，则样本W1和样本W3之间的边值为0.8×0.5＝0.4，即样本W1和样本W3之间的边值为0.4。以此类推，可以得到互为n阶邻居样本的样本之间的n阶边值。

通过上述方式，得到各阶邻居样本中各样本之间的第一边值和第二边值。对于第一目标类型的样本，其n阶邻居样本的第一边值为其n阶邻居样本中的第一目标类型的样本与第一目标类型的样本之间的边值；其n阶邻居样本的第二边值为n阶邻居样本中任一样本(不区分类型，为所有样本中的任一个)与另任一样本(不区分类型，为所有样本中的任一个)之间的边值。

然后，对于第一网络结构，计算第一目标类型的n阶邻居样本的第一边值的和与第二边值的和；再计算第一边值和与第二边值和的第二比值，从而获取第一目标类型样本与其n阶同类型邻居样本之间的聚集性。

从而，基于公式(3)获取第一目标类型样本与各阶同类型邻居样本之间的聚集性的加权和，从而获取第一目标类型的样本在第一网络结构中的聚集性。

在一个例子中，其中，第一边值和以及第二边值和分别基于所述第一网络结构对应的邻接矩阵的n次幂获取。

可以设定第一网络结构的邻接矩阵为邻接矩阵P’，邻接矩阵P’可以表示为：

P’＝[a_ij]_N*N，

其中，第i行第j列的元素a’_ij对应于样本i与样本j之间的边值。

在P’中，元素a’_ij为样本i与样本j之间的关联关系的强弱确定得到的。如果样本i与样本j不存在边，即不存在关联关系，则a’_ij为0。

假设样本i为第一目标类型的样本。对于样本i的一阶邻居的第一边值和，为邻接矩阵P’中第i行中第一目标类型的样本对应的元素的和；对于样本i的一阶邻居的第二边值和，为邻接矩阵P’中第i行元素的和。对于样本i的二阶邻接的第一边值和，为邻接矩阵P’平方后得到的中第i行中第一目标类型的样本对应的元素的和；对于节点i的二阶邻居的第二边值和，为邻接矩阵P’平方后得到的矩阵中第i行元素的和。相应地，对于样本i的n阶邻接的第一边值和，为邻接矩阵P’n次幂后得到的矩阵中第i行中第一目标类型的样本对应的元素的和；对于节点i的n阶邻居的第二边值和，为邻接矩阵P’的n次幂后得到的矩阵中第i行元素的和。

上文中虽然以公式(1)和公式(3)为例计算了同类型样本的聚集性，本说明书实施例中对聚集性的计算不限于公式(1)和公式(3)所示的方式，例如，在边值为1的情况中，可通过计算全部黑样本(第一目标类型样本)的各阶黑样本(第一目标类型样本)邻居数的加权和与全部黑样本(第一目标类型样本)的各阶全部类型样本邻居数的加权和的比值，来计算黑样本(第一目标类型样本)的聚集性，等等。

然后，在步骤204中，基于各种目标类型的样本在各个全局网络结构中的聚集性，在所述至少两个全局网络结构中确定所述多个样本之间的全局网络结构。

一般而言，在某个网络结构中，目标类型的样本的聚集性越高；则该网络结构越适合判断未知类型的样本是否属于该目标类型，也越适合关注该目标类型的场景。

同样参考图3和图4所示的网络结构，在图3和图4中，样本M1、样本M2属于第一类型，样本W1、样本W2、样本W3属于第二类型，样本X为的类型未知。可以直观地得出，对于第一类型的样本，其在图3所示的网络结构中的聚集性高于其在图4所示的网络结构中的聚集性；对于第二类型的样本，其在图3所示的网络结构中的聚集性高于其在图4所示的网络结构中的聚集性。并且，对于未知类型的样本X，通过图3所示的网络结构，可以得知其更可能是第二类型的样本；而通过图4所示的网络结构，则难以确定未知类型的样本X的所属类型。

因此，通过目标类型的样本的聚集性可以确定得到对目标类型相关场景适用度较高的网络结构。

在一个实施例中，其中，所述多个样本中包括至少两种目标类型的样本，其中，基于各种目标类型的样本在各个网络结构中的聚集性，确定所述多个样本之间的网络结构包括，在每个全局网络结构中，计算各种目标类型的样本在该全局网络结构中的聚集性之和，以及，基于各个全局网络结构中的聚集性之和确定所述多个样本之间的全局网络结构。

对于某个场景可能需要关注多个目标类型的样本，以保险风控场景，不但需要关注骗保账户，可能也需要关注信用良好的账户。

对于在存在至少两个目标类型的样本情形下，可以分别计算每个目标类型的样本在各个网络结构中的聚集性。对于每一个网络结构，计算至少两个目标类型的样本的聚集性的加和，得到聚集性和。可以基于各个网络结构的聚集性和，对各个网络结构进行排序，选取排在首位的网络结构或者排序靠前的多个网络结构。当选取了排序靠前的多个网络结构时，可以结合各个网络结构的聚集性和、各个网络结构构建的复杂度等综合确定网络结构。网络结构构建的复杂度的确定可以参考现有技术介绍，此次不再赘述。

在一个示例中，其中，基于各种目标类型的样本在各个网络结构中的聚集性之和，确定所述多个样本之间的网络结构包括，基于各种目标类型的样本在各个网络结构中的聚集性、及各个网络结构中的聚集性之和，确定所述多个样本之间的网络结构。

在该示例中，对于在存在至少两个目标类型的样本情形下，综合考虑每一目标类型的样本在各网络结构中的聚集性、所有目标类型的样本的聚集性加和，以确定网络结构。在具体实现时，可以为每个目标类型的样本的聚集性具有预设阈值，将既能满足每个目标类型的样本的聚集性的预设阈值，且所有目标类型的样本的聚集性加和排序靠前的网络结构确定为所需的网络结构。

在本说明书的实施例中，对于使用了不同关联关系构建的多种网络结构，计算与场景相关的目标类型的样本的聚集性，通过各个网络结构中目标类型的样本的聚集性从多种网络结构中确定适用于该场景的网络结构，从而实现了高效地从多种网络结构中确定适合特定场景的网络结构。

另一方面，如图7所示，本说明书的实施例提供了一种确定多个样本之间的全局网络结构的装置700，其中，所述多个样本中包括被标注为不同类型的样本，其中，所述不同类型中包括至少一种目标类型。如图7所示，所述装置700包括：网络结构获取单元701，配置为获取所述多个样本的至少两个全局网络结构；聚集性计算单元702，配置为在每个全局网络结构中，对于所述至少一种目标类型中的每种目标类型，基于该目标类型的样本各自的与其邻居样本之间的局部网络结构、及各个所述邻居样本的类型，计算该目标类型的样本在该全局网络结构中的聚集性，其中，所述邻居样本为预定阶数以内的邻居样本；网络结构确定单元703，配置为基于各种目标类型的样本在各个全局网络结构中的聚集性，在所述至少两个全局网络结构中确定所述多个样本之间的全局网络结构。

在一个示例中，其中，所述邻居样本为至多预定阶数的邻居样本。

在一个示例中，其中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一目标类型的各样本的n阶同类型邻居样本数之和与第一目标类型的各样本的n阶邻居样本数之和的比值。

在一个示例中，其中，n阶同类型邻居样本数之和与n阶邻居样本数之和分别基于所述第一网络结构对应的邻接矩阵的n次幂获取。

在一个示例中，其中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一边值和与第二边值和的比值，所述第一边值和为第一目标类型的各样本与其n阶同类型邻居样本之间的n阶边值之和，所述第二边值和为第一目标类型的各样本与其全部n阶邻居样本之间的n阶边值之和，其中，n阶边值为两个互为n阶邻居样本的样本之间的n条边的边值的乘积。

在一个示例中，其中，所述多个样本中还包括未知类型的样本。

在一个示例中，其中，所述多个样本中包括至少两种目标类型的样本，其中，网络结构确定单元703，配置为，在每个全局网络结构中，计算各种目标类型的样本在该全局网络结构中的聚集性之和，以及，基于各个全局网络结构中的聚集性之和确定所述多个样本之间的全局网络结构。

在一个示例中，网络结构确定单元703，配置为基于各种目标类型的样本在各个网络结构中的聚集性、及各个网络结构中的聚集性之和，确定所述多个样本之间的全局网络结构。

装置700的各功能单元的功能，可参照上文如图2所示的各方法实施例实现。

另一方面，本说明书的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图2所示的方法。

另一方面，本说明书的实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图2所示的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定多个样本之间的全局网络结构的方法，其中，所述多个样本中包括被标注为不同类型的样本，其中，所述不同类型中包括至少一种目标类型，所述方法包括：

获取所述多个样本的至少两个全局网络结构；其中，不同的网络结构是采用不同的关联关系构建的；

2.根据权利要求1所述的方法，其中，所述至少两个全局网络结构中包括第一网络结构，所述至少一种目标类型包括第一目标类型，在所述第一网络结构中，所述第一目标类型的样本的聚集性对应于第一目标类型的样本与其各阶全部同类型邻居样本之间的聚集性的加权和，其中，所述第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性基于如下两项获取：所述第一目标类型的样本各自的与其n阶邻居样本之间的网络结构、及所述n阶邻居样本各自的类型，其中n为大于0的整数。

3.根据权利要求2所述的方法，其中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一目标类型的各样本的n阶同类型邻居样本数之和与第一目标类型的各样本的n阶邻居样本数之和的比值。

4.根据权利要求3所述的方法，其中，n阶同类型邻居样本数之和与n阶邻居样本数之和分别基于所述第一网络结构对应的邻接矩阵的n次幂获取。

5.根据权利要求2所述的方法，其中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一边值和与第二边值和的比值，所述第一边值和为第一目标类型的各样本与其n阶同类型邻居样本之间的n阶边值之和，所述第二边值和为第一目标类型的各样本与其n阶邻居样本之间的n阶边值之和，其中，n阶边值为两个互为n阶邻居样本的样本之间的n条边的边值的乘积。

6.根据权利要求1所述的方法，其中，所述多个样本中还包括未知类型的样本。

7.根据权利要求1所述的方法，其中，所述多个样本中包括至少两种目标类型的样本，其中，基于各种目标类型的样本在各个全局网络结构中的聚集性，确定所述多个样本之间的全局网络结构包括，在每个全局网络结构中，计算各种目标类型的样本在该全局网络结构中的聚集性之和，以及，基于各个全局网络结构中的聚集性之和确定所述多个样本之间的全局网络结构。

8.根据权利要求7所述的方法，其中，基于各种目标类型的样本在各个全局网络结构中的聚集性，确定所述多个样本之间的全局网络结构包括，基于各种目标类型的样本在各个全局网络结构中的聚集性、及各个全局网络结构的所述聚集性之和，确定所述多个样本之间的全局网络结构。

9.一种确定多个样本之间的全局网络结构的装置，其中，所述多个样本中包括被标注为不同类型的样本，其中，所述不同类型中包括至少一种目标类型，所述装置包括：

网络结构获取单元，配置为获取所述多个样本的至少两个全局网络结构；其中，不同的网络结构是采用不同的关联关系构建的；

10.根据权利要求9所述的装置，其中，所述至少两个全局网络结构中包括第一网络结构，所述至少一种目标类型包括第一目标类型，在所述第一网络结构中，所述第一目标类型的样本的聚集性对应于第一目标类型的样本与其各阶全部同类型邻居样本之间的聚集性的加权和，其中，所述第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性基于如下两项获取：所述第一目标类型的样本各自的与其n阶邻居样本之间的网络结构、及所述n阶邻居样本各自的类型，其中n为大于0的整数。

11.根据权利要求10所述的装置，其中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一目标类型的各样本的n阶同类型邻居样本数之和与第一目标类型的各样本的n阶邻居样本数之和的比值。

12.根据权利要求11所述的装置，其中，n阶同类型邻居样本数之和与n阶邻居样本数之和分别基于所述第一网络结构对应的邻接矩阵的n次幂获取。

13.根据权利要求10所述的装置，其中，第一目标类型的样本与其n阶全部同类型邻居样本之间的聚集性为第一边值和与第二边值和的比值，所述第一边值和为第一目标类型的各样本与其n阶同类型邻居样本之间的n阶边值之和，所述第二边值和为第一目标类型的各样本与其n阶邻居样本之间的n阶边值之和，其中，n阶边值为两个互为n阶邻居样本的样本之间的n条边的边值的乘积。

14.根据权利要求9所述的装置，其中，所述多个样本中还包括未知类型的样本。

15.根据权利要求9所述的装置，其中，所述多个样本中包括至少两种目标类型的样本，其中，所述网络结构确定单元还配置为，在每个全局网络结构中，计算各种目标类型的样本在该全局网络结构中的聚集性之和，以及，基于各个全局网络结构中的聚集性之和确定所述多个样本之间的全局网络结构。

16.根据权利要求15所述的装置，所述网络结构确定单元还配置为，基于各种目标类型的样本在各个全局网络结构中的聚集性、及各个全局网络结构的所述聚集性之和，确定所述多个样本之间的全局网络结构。

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。