CN110969526A

CN110969526A - 重叠社群处理方法、装置以及电子设备

Info

Publication number: CN110969526A
Application number: CN201911291105.6A
Authority: CN
Inventors: 王议; 张晓雷; 张弦
Original assignee: Nanjing Sanbaiyun Information Technology Co Ltd
Current assignee: Nanjing Sanbaiyun Information Technology Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-07

Abstract

本申请提供了一种重叠社群处理方法、装置以及电子设备，涉及数据处理技术领域，解决了集群重叠的情况对用户的识别过程造成影响的技术问题。该方法包括：基于多个样本对象之间的关系建立关系图的模型，关系图中包括多个用于表示样本对象的节点，节点对应标注有用于表示行为数据的标签；重复执行下述步骤，直至关系图的模型符合预期：根据标签利用标签传播算法将多个节点划分为多个社群；如果多个社群中存在重叠的社群，则确定重叠的社群中任意两个重叠的社群之间的节点重合度；如果节点重合度大于预设重合度，则将两个重叠的社群进行社群合并；判断社群合并后的关系图的模型是否符合预期。

Description

重叠社群处理方法、装置以及电子设备

技术领域

本申请涉及数据处理技术领域，尤其是涉及一种重叠社群处理方法、装置以及电子设备。

背景技术

目前，在识别用户的欺诈危险程度过程中，需要考虑很多方面的因素。例如，借助个人历史借贷表现、基本收入开支情况及人口统计信息等，以此来识别贷款个人的欺诈危险程度。

但是，在对多个用户进行欺诈危险程度集群划分的过程中，会存在一个用户同时属于两个以上集群的情况，这种集群重叠的情况很容易对用户的识别过程造成影响，导致识别结果不清楚。

发明内容

本发明的目的在于提供一种重叠社群处理方法、装置以及电子设备，以解决集群重叠的情况对用户的识别过程造成影响的技术问题。

第一方面，本申请实施例提供了一种重叠社群处理方法，预先确定多个样本对象的行为数据；所述方法包括：

基于多个所述样本对象之间的关系建立关系图的模型，所述关系图中包括多个用于表示所述样本对象的节点，所述节点对应标注有用于表示所述行为数据的标签；

重复执行下述步骤，直至所述关系图的模型符合预期：

根据所述标签利用标签传播算法将多个所述节点划分为多个社群；

如果多个所述社群中存在重叠的社群，则确定所述重叠的社群中任意两个重叠的社群之间的节点重合度；

如果所述节点重合度大于预设重合度，则将所述两个重叠的社群进行社群合并；

判断社群合并后的所述关系图的模型是否符合预期。

在一个可能的实现中，确定所述重叠的社群中任意两个重叠的社群之间的节点重合度的步骤，包括：

确定所述重叠的社群中任意两个重叠的社群之间的重合节点数量；

计算所述重合节点数量分别在所述两个重叠的社群中全部节点数量的占比，将所述占比作为节点重合度。

在一个可能的实现中，如果所述节点重合度大于预设重合度，则将所述两个重叠的社群进行社群合并的步骤，包括：

如果所述两个重叠的社群对应的所述节点重合度均大于预设重合度，则将所述两个重叠的社群进行社群合并。

在一个可能的实现中，还包括：

根据所述标签的内容，确定所述关系图的模型中每个所述社群的危险概率。

在一个可能的实现中，还包括：

获取待识别对象的行为数据；

根据待识别对象的行为数据，利用所述关系图的模型确定所述待识别对象所属的目标社群；

根据所述目标社群的危险概率，确定所述待识别对象的危险概率。

在一个可能的实现中，根据所述目标社群的危险概率，确定所述待识别对象的危险概率的步骤，包括：

如果所述目标社群的数量为多个，分别确定每个所述目标社群的危险概率；

计算所述待识别对象在所述关系图的模型中对应的目标节点，在每个所述目标社群中的度中心性；

根据所述目标节点在每个所述目标社群中的度中心性的加权平均值，确定所述待识别对象的危险概率。

在一个可能的实现中，所述样本对象为个人用户；

所述行为数据包括下述任意一项或多项：

所述个人用户的历史借贷信息、还款逾期信息、不良记录信息以及多个所述个人用户之间的联系情况。

第二方面，提供了一种重叠社群处理装置，预先确定多个样本对象的行为数据；所述装置包括：

建立模块，用于基于多个所述样本对象之间的关系建立关系图的模型，所述关系图中包括多个用于表示所述样本对象的节点，所述节点对应标注有用于表示所述行为数据的标签；

划分模块，用于根据所述标签利用标签传播算法将多个所述节点划分为多个社群；

确定模块，用于如果多个所述社群中存在重叠的社群，则确定所述重叠的社群中任意两个重叠的社群之间的节点重合度；

合并模块，用于如果所述节点重合度大于预设重合度，则将所述两个重叠的社群进行社群合并；

判断模块，用于判断社群合并后的所述关系图的模型是否符合预期；

所述划分模块、所述确定模块、所述合并模块以及所述判断模块重复执行，直至所述关系图的模型符合预期。

第三方面，本申请实施例又提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的第一方面所述方法。

第四方面，本申请实施例又提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。

本申请实施例带来了以下有益效果：

本申请实施例提供的一种重叠社群处理方法、装置以及电子设备，能够基于多个样本对象之间的关系建立包含了多个节点的关系图的模型，其中，节点能够表示样本对象，节点的标签能够表示样本对象的行为数据，然后，能够重复执行对关系图模型中社群的划分过程，直到判断出关系图的模型符合预期，在该社群划分的过程中，可以根据标签利用标签传播算法将多个节点划分为多个社群，并且，在存在重叠的社群的情况下，能够确定重叠社群的节点重合度，并在该节点重合度大于预设重合度时将两个重叠的社群进行社群合并，本方案中，通过确定重叠的社群之间的节点重合度，再根据节点重合度与预设重合度之间的对比情况，确定是否合并重叠的社群，使最终得到的关系图模型中的社群分布结果更加的合理且符合实际情况，从而减少了划分出的社群重叠的情况对识别过程造成的影响。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种重叠社群处理方法的流程示意图；

图2为本申请实施例提供的重叠社群处理方法中，集群合并示例的示意图；

图3为本申请实施例提供的一种重叠社群处理装置的结构示意图；

图4为示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，无法核验多数据源之间的不一致问题，当贷款人提供的各类信息之间存在矛盾时，因无法识别而低估其欺诈风险。再者，在复杂网络中，存在着一个人所属多个社群的可能性，如果将一个点强行归于一个社群有可能导致对社群或欺诈团伙识别不清。

基于此，本申请实施例提供了一种重叠社群处理方法、装置以及电子设备。通过该方法可以解决集群重叠的情况对用户的识别过程造成影响的技术问题。

下面结合附图对本发明实施例进行进一步地介绍。

图1为本申请实施例提供的一种重叠社群处理方法的流程示意图。其中，预先确定多个样本对象的行为数据。如图1所示，该方法包括：

S110，基于多个样本对象之间的关系建立关系图的模型。

需要说明的是，该关系图中包括多个用于表示样本对象的节点，节点对应标注有用于表示行为数据的标签。

其中，样本对象可以为用户。本步骤中，可以基于多个用户之间的联系情况建立多个用户之间的关系图模型。

重复执行下述步骤，直至关系图的模型符合预期：

S120，根据标签利用标签传播算法将多个节点划分为多个社群。

其中，标签传播算法是一种基于图的半监督学习方法，其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。利用样本间的关系建立关系完全图模型，在完全图中，节点包括已标注和未标注数据，其边表示两个节点的相似度，节点的标签按相似度传递给其他节点。标签数据就像是一个源头，可以对无标签数据进行标注，节点的相似度越大，标签越容易传播。

本步骤中，可以初始化该关系图，将图中每个节点列为单独社群，而多个节点则形成多个社群。然后，根据标签内容利用标签传播算法划分成更加合理的多个社群。

S130，如果多个社群中存在重叠的社群，则确定重叠的社群中任意两个重叠的社群之间的节点重合度。

其中，重叠的社群指的是被划分成的多个社群之间存在重合的节点。例如，某若干个节点既属于A社群中，也属于B社群中。

需要说明的是，节点重合度可以有多种形式，例如，可以是重合的节点数量，也可以是重合的节点在社群中的占比率，等等。

S140，如果节点重合度大于预设重合度，则将两个重叠的社群进行社群合并。

需要说明的是，合并指的是将若干个社群合并为一个社群，即合并后若干个社群全部为同一个社群。

例如，如果重合的节点数量大于预设节点数量，或是重合的节点在社群中的占比率大于预设比率，则将重合的社群合并为一个社群。

S150，判断社群合并后的关系图的模型是否符合预期。如果是，则执行步骤S160；如果否，则重新执行步骤S120。

需要说明的是，符合预期可以有多种标准。例如，可以指通过划分集群使关系图的模型中的节点收敛程度达到预设收敛度，还可以是标签传播过程中的迭代次数符合预设次数，等等。

S160，得到符合预期的关系图的模型。

本申请实施例提供的重叠社群处理方法可以作为一种基于标签传播的社群识别方法，本方法的计算成本较低，较为适合数据处理量较少的情况。通过确定重叠的社群之间的节点重合度，再根据节点重合度与预设重合度之间的对比情况，确定是否合并重叠的社群，使最终得到的关系图模型中的社群分布结果更加的合理且符合实际情况，减少了基于重叠社群的识别过程造成的影响。

下面对上述步骤进行详细介绍。

在一些实施例中，上述步骤S130可以包括如下步骤：

步骤a，确定重叠的社群中任意两个重叠的社群之间的重合节点数量。

步骤b，计算重合节点数量分别在两个重叠的社群中全部节点数量的占比，将占比作为节点重合度。

例如，可以对当前重合的社群进行分析，对其中的重合节点进行计算，得到重合节点的数量，再计算出重合节点的数量在重合社群中全部节点数量中的占比，进而得到节点重合度。

通过重合节点的占比情况来确定节点重合度，使计算出的节点重合度考虑到了重合情况对于整体集群的影响程度，能够使计算出的节点重合度更加合理。

在一些实施例中，上述步骤S140可以包括如下步骤：

如果两个重叠的社群对应的节点重合度均大于预设重合度，则将两个重叠的社群进行社群合并。

示例性的，可以预先设定阈值alpha，该阈值代表两个社群之间的重合度临界值。在计算出重叠社群A和重叠社群B之间的节点重合度后，如果社群A中超过百分之alpha的点已经出现在重叠社群B中，则重叠社群A和重叠社群B合并。

例如，如图2所示，通过步骤S120划分出当前集群后，可能存在由于节点2只连接了节点1和节点3，而没有连接节点4，那么在算节点2的时候算出来的社群就是社群{1,2,3}，而算节点1的时候算出来的是社群{1,2,3,4}，社群{1,2,3}和社群{1,2,3,4}之间的重合度大于预设重合度，则将社群{1,2,3}和社群{1,2,3,4}合并，得到同一个社群{1,2,3,4}。同理，集群{1,2,3,4}与{4,5,6,7}之间的重合节点仅有{4}，该重合度小预设重合度，则集群{1,2,3,4}与{4,5,6,7}之间不合并。

通过根据节点重合度和预设重合度之间的比较结果来确定是否合并重叠集群，既减少不必要的集群合并过程，又使重合程度较大的重叠集群之间得以合理的合并，使合并过程后得到的集群划分结果更加合理且符合实际情况。

在一些实施例中，该方法还可以包括以下步骤：

根据标签的内容，确定关系图的模型中每个社群的危险概率。

在实际应用中，由于社群中的各个节点已经打入了表示样本对象行为的标签，如身份标签，可以根据社群内部各个组成节点的实际情况进行行为相似度匹配，得到各社群的行为属于高危集群行为的概率。

通过表示了样本对象行为的标签内容可以更加精确的确定出社群的危险概率，使社群的危险概率计算结果更加精确、合理。

在一些实施例中，该方法还可以包括以下步骤：

步骤a，获取待识别对象的行为数据；

步骤b，根据待识别对象的行为数据，利用关系图的模型确定待识别对象所属的目标社群；

步骤c，根据目标社群的危险概率，确定待识别对象的危险概率。

例如，对待识别对象查询、回溯过程中，可以调取与待识别对象最相近的社群分布，查找待识别对象所属的目标社群。根据待识别对象所属的目标社群判断待识别对象为高危团伙的概率。

通过待识别对象所属的目标社群的高危团伙的概率来识别待识别对象的危险概率，能够利用与待识别对象联系的社群来对待识别对象进行更加全面的识别，从而使识别结果更加准确、精确。

基于上述步骤a、步骤b和步骤c，上述步骤c可以包括如下步骤：

如果目标社群的数量为多个，分别确定每个目标社群的危险概率；

计算待识别对象在关系图的模型中对应的目标节点，在每个目标社群中的度中心性；

根据目标节点在每个目标社群中的度中心性的加权平均值，确定待识别对象的危险概率。

示例性的，如果目标社群有多个，则分别判断其概率，而后根据中心度加权，即目标节点在目标社群中的度中心性，计算该度中心性的平均加权平均值。

通过目标节点在目标社群中的度中心性及其加权平均值的计算过程，可以更加准确的计算出待识别对象的真实危险概率，使最终确定出的待识别对象危险概率更加准确且合理。

在一些实施例中，样本对象为个人用户；行为数据包括下述任意一项或多项：个人用户的历史借贷信息、还款逾期信息、不良记录信息以及多个个人用户之间的联系情况。

通过本申请实施例提供的重叠社群处理方法，能够使诈骗团伙等危险集群的分类、标签结果更加合理，以更加有效的识别出待识别的个人用户的危险概率。

图3提供了一种重叠社群处理装置的结构示意图。预先确定多个样本对象的行为数据。如图3所示，重叠社群处理装置300包括：

建立模块301，用于基于多个样本对象之间的关系建立关系图的模型，关系图中包括多个用于表示样本对象的节点，节点对应标注有用于表示行为数据的标签；

划分模块302，用于根据标签利用标签传播算法将多个节点划分为多个社群；

第一确定模块303，用于如果多个社群中存在重叠的社群，则确定重叠的社群中任意两个重叠的社群之间的节点重合度；

合并模块304，用于如果节点重合度大于预设重合度，则将两个重叠的社群进行社群合并；

判断模块305，用于判断社群合并后的关系图的模型是否符合预期；

划分模块、确定模块、合并模块以及判断模块重复执行，直至关系图的模型符合预期。

在一些实施例中，第一确定模块具体用于：

确定重叠的社群中任意两个重叠的社群之间的重合节点数量；

计算重合节点数量分别在两个重叠的社群中全部节点数量的占比，将占比作为节点重合度。

在一些实施例中，合并模块具体用于：

在一些实施例中，还包括：

第二确定模块，用于根据标签的内容，确定关系图的模型中每个社群的危险概率。

在一些实施例中，还包括：

获取模块，用于获取待识别对象的行为数据；

第三确定模块，用于根据待识别对象的行为数据，利用关系图的模型确定待识别对象所属的目标社群；

第四确定模块，用于根据目标社群的危险概率，确定待识别对象的危险概率。

在一些实施例中，第四确定模块具体用于：

在一些实施例中，样本对象为个人用户；

行为数据包括下述任意一项或多项：

个人用户的历史借贷信息、还款逾期信息、不良记录信息以及多个个人用户之间的联系情况。

本申请实施例提供的重叠社群处理装置，与上述实施例提供的重叠社群处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

如图4所示，本申请实施例提供的一种电子设备400，包括：处理器401、存储器402和总线，所述存储器402存储有所述处理器401可执行的机器可读指令，当电子设备运行时，所述处理器401与所述存储器402之间通过总线通信，所述处理器401执行所述机器可读指令，以执行如上述重叠社群处理方法的步骤。

具体地，上述存储器402和处理器401能够为通用的存储器和处理器，这里不做具体限定，当处理器401运行存储器402存储的计算机程序时，能够执行上述重叠社群处理方法。

对应于上述重叠社群处理方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述重叠社群处理方法的步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种重叠社群处理方法，其特征在于，预先确定多个样本对象的行为数据；所述方法包括：

重复执行下述步骤，直至所述关系图的模型符合预期：

判断社群合并后的所述关系图的模型是否符合预期。

2.根据权利要求1所述的方法，其特征在于，确定所述重叠的社群中任意两个重叠的社群之间的节点重合度的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，如果所述节点重合度大于预设重合度，则将所述两个重叠的社群进行社群合并的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

获取待识别对象的行为数据；

6.根据权利要求5所述的方法，其特征在于，根据所述目标社群的危险概率，确定所述待识别对象的危险概率的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，所述样本对象为个人用户；

所述行为数据包括下述任意一项或多项：

8.一种重叠社群处理装置，其特征在于，预先确定多个样本对象的行为数据；所述装置包括：

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。