CN109389157A

CN109389157A - 一种用户群识别方法和装置及对象群识别方法和装置

Info

Publication number: CN109389157A
Application number: CN201811072283.5A
Authority: CN
Inventors: 杨建业
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2019-02-26
Anticipated expiration: 2038-09-14
Also published as: CN109389157B

Abstract

本发明提供了一种用户群识别方法和装置及对象群识别方法和装置，其中，用户群识别方法包括：确定用户网络关系图中与预设的模板图相匹配的子图；根据与所述模板图相匹配的子图对应的用户的特征数据和所述模板图对应的用户的特征数据，确定目标子图；确定所述目标子图对应的用户构成用户群。

Description

一种用户群识别方法和装置及对象群识别方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种用户群识别方法和装置及对象群识别方法和装置。

背景技术

无论是信息网络，还是其他类型网络，均存在一个或多个网络节点(这些网络节点可以称为对象)，这些对象通常不是孤立的，相互之间往往通过某种属性或特征连接构成对象群。不同的对象可以根据相互之间的关系形成相同或不同的对象关系网络。在实际应用场景中，这种对象关系网络可以由对象网络关系图进行表示。

以用户为例，用户网络关系网络中可能涉及大量的用户，部分用户可能按某种特征结合形成了群体，这些群体在用户网络关系图中以子图的形式予以展示。但是，基于某些特定需要，需要从这些以子图形式存在的多个对象群进行识别，进而对其采取一些措施。比如，有的群体是具有危害性的，例如，赌博群体、洗钱群体等，则需要从对象关系网络中将其识别出来，并有针对性的进行管控。

因此，如何利用对象网络关系图从大量的对象中识别出目标对象群成为关注的重要问题。

发明内容

鉴于此，本发明实施例提供了一种用户群识别方法和装置及对象群识别方法和装置。

第一方面，本发明实施例提供了一种用户群识别方法，包括：

确定用户网络关系图中与预设的模板图相匹配的子图；

根据与所述模板图相匹配的子图对应的用户的特征数据和所述模板图对应的用户的特征数据，确定目标子图；

确定所述目标子图对应的用户构成用户群。

第二方面，本发明实施例提供了一种用户群识别装置，包括：

第一匹配单元，用于确定用户网络关系图中与预设的模板图相匹配的子图；

第一识别单元，用于根据与所述模板图相匹配的子图对应的用户的特征数据和所述模板图对应的用户的特征数据，确定目标子图；

第一确定单元，用于确定所述目标子图对应的用户构成用户群。

第三方面，本发明实施例提供了一种对象群识别方法，包括：

确定对象网络关系图中与预设的模板图相匹配的子图；

根据与所述模板图相匹配的子图对应的对象的特征数据和所述模板图对应的对象的特征数据，确定目标子图；

确定所述目标子图对应的对象构成对象群。

第四方面，本发明实施例提供了一种对象群识别装置，包括：

第二匹配单元，用于确定对象网络关系图中与预设的模板图相匹配的子图；

第二识别单元，用于根据与所述模板图相匹配的子图对应的对象的特征数据和所述模板图对应的对象的特征数据，确定目标子图；

第二确定单元，用于确定所述目标子图对应的对象构成对象群。

本发明实施例采用的上述至少一个技术方案能够达到以下有益效果：用户群识别方法一方面基于子图的结构，在用户网络关系图中识别出与模板图相匹配的子图；另一方面基于子图对应的用户的特征数据，在与模板图相匹配的子图中确定目标子图，进而得到用户群。该方法综合考虑上述两个方面，能够提高用户群识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种对象群识别方法的流程图；

图2是本发明一个实施例提供的一种用户群识别方法的流程图；

图3是本发明一个实施例提供的一种传销群的模板图；

图4是本发明另一个实施例提供的一种用户群识别方法的流程图；

图5是本发明又一个实施例提供的一种用户群识别方法的流程图；

图6是本发明一个实施例提供的一种用户群识别装置的结构示意图；

图7是本发明一个实施例提供的一种对象群识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种对象群识别方法，该方法可以包括以下步骤：

步骤101：确定对象网络关系图中与预设的模板图相匹配的子图。

对象可以是用户(人)、动物、植物等具有特征数据的主体。

步骤102：根据与模板图相匹配的子图对应的对象的特征数据和模板图对应的对象的特征数据，确定目标子图。

步骤103：确定目标子图对应的对象构成对象群。

对象群识别方法一方面基于子图的结构，在对象网络关系图中识别出与模板图相匹配的子图；另一方面基于子图对应的对象的特征数据，在与模板图相匹配的子图中确定目标子图，进而得到对象群。该方法综合考虑上述两个方面，能够提高对象群识别的准确性。

以下实施例以用户为对象，对用户群识别方法进行详细的说明，其他对象群的识别与用户群类似，此处不再赘述。

如图2所示，本发明实施例提供了一种用户群识别方法，该方法可以包括以下步骤：

步骤201：确定用户网络关系图中与预设的模板图相匹配的子图。

用户网络关系图由不同的用户通过相互间的关联关系构成，关联关系可以为资金流入、流出关系等。例如，用户A向用户B转账，用户B向用户C、用户D转账，则用户A、B、C、D构成用户网络关系图。

模板图为想要识别的用户群具有的关系网络，例如，赌博关系网络、传销关系网络等。以传销关系网络为例，用户分为不同的层次，如“组织者”、“中间代理人”、“底层传销人员”等。如图3所示，是一种传销群的模板图。

匹配过程可以通过现有的子图同构算法实现。

步骤202：根据与模板图相匹配的子图对应的用户的特征数据和模板图对应的用户的特征数据，确定目标子图。

由于不同的用户群可能具有相同的用户结构，即模板图相同，仅从子图的结构判断用户所属的用户群的准确性较低。基于此，本发明实施例在匹配结构的基础上，结合用户的特征数据进行识别，能够提高用户群识别的准确性。

其中，特征数据可以包括“近3个月流入金额”、“近3个月交易对手”等。

步骤203：确定目标子图对应的用户构成用户群。

该方法可以用于识别传销群、赌博群等具有危害的用户群，为管理部门提供决策依据。

在实际应用场景中，用户群识别方法存在两种实施方式，以下将通过不同的实施例对两种实施方式进行详细的说明。

方式1：

在本发明的一个实施例中，步骤202，包括：

a1：根据与模板图相匹配的子图和预设的第一数量，确定第一子图集；其中，第一子图集中包括第一数量与模板图相匹配的子图。

在本发明实施例中，确定用户网络关系图中与模板图相匹配的全部的子图。

当与模板图相匹配的全部的子图的数量不大于预设的第一数量时，确定与模板图相匹配的全部的子图为目标子图。

当与模板图相匹配的全部的子图的数量大于预设的第一数量时，确定多个第一子图集。第一子图集中包括第一数量与模板图相匹配的子图，且各个第一子图集中的子图不完全相同。例如，与模板图相匹配的子图为E、F、G，第一数量为2，则存在三个第一子图集，分别为(E、F)，(F、G)，(E、G)。

a2：根据模板图对应的用户的特征数据和第一子图集对应的用户的特征数据，确定第一子图集的相似得分。

特征数据可以包括通用特征数据和具体特征数据。以传销群的识别为例，通用特征数据可以包括“流入金额”、“流出金额”，具体特征数据可以包括用户所属的平台名等。其中，具体特征数据为用户群所独有的数据。

例如，用户A属于传销平台I，当用户A向传销群的其他用户转账时，转账备注信息中包括“传销平台I”，“传销平台I”即为具体特征数据。

在实际应用场景中，可以根据通用特征数据和具体特征数据确定第一子图集的相似得分，也可以仅通过通用特征数据或具体特征数据确定第一子图集的相似得分。

a3：根据第一子图集的相似得分，确定目标子图。

例如，确定相似得分最高的第一子图集中的子图为目标子图。当然，还可以根据第一子图集的相似得分，确定与模板图相关性较低的子图。

在本发明的一个实施例中，a2具体可以包括：

a21：根据模板图对应的用户的特征数据，确定模板图的第一特征向量。

模板图的第一特征向量可以通过历史识别得到的用户群的特征数据进行确定，具体过程与a22类似，此处不再赘述。

a22：根据第一子图集中各个子图对应的用户的特征数据，确定第一子图集中各个子图的特征向量。

不同的特征数据对应第一特征向量的不同维度。在实际应用场景中，对于数值形式的特征数据，可以将特征数据直接作为子图的特征向量的不同维度，例如，子图的特征向量为(子图对应的用户的流入金额的平均值，子图对应的用户的流出金额的平均值)。还可以对特征数据进行归一化，将归一化后的特征数据作为子图的特征向量的维度。归一化后的特征数据可以通过下式进行计算：

其中，k用于表征归一化后的特征数据，p用于表征子图对应的用户的流入金额的平均值，p用于表征与模板图对应的用户的流入金额的平均值。

对于平台名等文本格式的特征数据，则需要统计特征数据与预设的关键词匹配成功的用户的数量。

以平台名为例，预设的关键词为V，子图对应的用户中，对应的平台名为V的用户的数量为5。可以将5直接作为子图的特征向量的一个维度，还可以利用上述的归一化方法，将归一化后的特征数据作为子图的特征向量的一个维度。在实际应用场景中，预设的关键词的数量可以大于1，此时，可以将不同关键词对应的匹配成功的用户的数量的和，作为子图的特征向量的一个维度。

a23：根据模板图的第一特征向量和第一子图集中各个子图的特征向量，确定第一子图集中各个子图的相似得分。

在本发明实施例中，根据第一公式，确定第一子图集中各个子图的相似得分；

第一公式，包括：

其中，用于表征第一子图集中第k个子图的相似得分，用于表征第一子图集中第k个子图的特征向量，用于表征模板图的第一特征向量，T用于表示转置。

a24：根据第一子图集中各个子图的相似得分，确定第一子图集的相似得分。

可以将第一子图集中各个子图的相似得分之和作为第一子图集的相似得分。

需要说明的是，第一子图集的相似得分的计算并不限于上述提到的方法。还可以根据用户的特征数据，确定各个子图的特征集合，并利用杰卡德相似系数确定第一子图集的相似得分，此处不再赘述。

在不同第一子图集的相似得分相同的情况下，为了使用户群包含更多的客户数量，在本发明的一个实施例中，该方法还包括：根据第一子图集对应的用户，确定第一子图集的差异得分。

此时，a3包括：

a31：根据第一子图集的相似得分和第一子图集的差异得分，确定第一子图集的综合得分。

在实际应用场景中，第一子图集的相似得分和第一子图集的差异得分对第一子图集的综合得分的贡献可以通过对应的权重来体现。当第一子图集的相似得分对应的权重较大时，该方法更关注各个子图对应的用户与模板图对应的用户的相似性，当第一子图集的差异得分对应的权重较大时，该方法更关注用户群所覆盖的用户数。

a32：根据第一子图集的综合得分，确定目标子图。

与相似得分类似，确定综合得分最高的第一子图集对应的子图为目标子图。

在本发明的一个实施例中，根据第一子图集对应的用户，确定第一子图集的差异得分，具体可以包括：

根据第一子图集对应的用户，确定第一子图集中每两个子图的差异得分；根据第一子图集中每两个子图的差异得分，确定第一子图集的差异得分。

其中，根据第一子图集对应的用户，确定第一子图集中每两个子图的差异得分，具体包括：

确定第一子图集中每两个子图的差异得分为第一子图集中每两个子图对应的不同用户的数量；

根据第一子图集中每两个子图对应的不同用户的数量，确定第一子图集中每两个子图的差异得分。

例如，确定第一子图集中每两个子图的差异得分为第一子图集中每两个子图对应的不同用户的数量。例如，子图1对应的用户为A、B、C，子图2对应的用户为A、B、E、F，则子图1和子图2对应的不同用户为C、E、F，即子图1和子图2的差异得分为3。当然，还可以将第一子图集中每两个子图对应的不同用户的数量通过归一化等处理方式转化为第一子图集中每两个子图的差异得分。

综上，方式1考虑了与模板图相匹配的全部的子图，最终得到的用户群的质量较高。该方法适用于与模板图相匹配的子图的数量较小的情况。

方式2：

在本发明的一个实施例中，步骤201，包括：

确定用户网络关系图中预设的第二数量、与模板图相匹配的子图；其中，第二数量、与模板图相匹配的子图构成第二子图集。

与方式1中步骤201不同，方式2确定用户网络关系图中预设的第二数量、与模板图相匹配的子图，并非确定与模板图相匹配的全部的子图。并且，第二数量是实际得到的用户群中包含的子图的数量。

步骤202，包括：

根据模板图对应的用户的特征数据、第二子图集对应的用户的特征数据和用户网络关系图中的剩余子图，更新第二子图集，确定更新后的第二子图集中的子图为目标子图。

其中，剩余子图指的是用户网络关系图中未与模板图匹配过的子图。

在本发明的一个实施例中，根据模板图对应的用户的特征数据、第二子图集对应的用户的特征数据和用户网络关系图中的剩余子图，更新第二子图集，确定更新后的第二子图集中的子图为目标子图，包括：

在用户网络关系图中的剩余子图中确定当前子图，并执行b1。

b1：确定当前子图是否与模板图相匹配，如果是，执行b2，否则，执行b5。

b2：根据模板图对应的用户的特征数据和第二子图集对应的用户的特征数据，确定当前子图替换第二子图集中各个子图的相似增益值。

b3：根据当前子图替换第二子图集中各个子图的相似增益值，在第二子图集中各个子图中确定待替换子图。

b4：根据当前子图和待替换子图，更新第二子图集。

b5：确定剩余子图中是否存在其他剩余子图，如果是，执行步骤b6，否则，执行步骤b7。

其他剩余子图指的是除了当前子图之外，用户网络关系图中未与模板图匹配过的子图。

b6：将其他剩余子图依次作为当前子图执行b1。

b7：确定更新后的第二子图集中的子图为目标子图。

在本发明的一个实施例中，b2包括：

b21：根据模板图对应的用户的特征数据和当前子图对应的用户的特征数据，确定模板图与当前子图的相似值；

b22：根据模板图对应的用户的特征数据和待替换子图对应的用户的特征数据，确定模板图与待替换子图的相似值；

b23：根据模板图与当前子图的相似值和模板图与待替换子图的相似值，确定当前子图替换待替换子图的相似增益值。

实际应用场景中，可以将模板图与当前子图的相似值、模板图与待替换子图的相似值的差值作为当前子图替换待替换子图的相似增益值。

在本发明的一个实施例中，b21具体包括：

b211：根据当前子图对应的用户的特征数据，确定当前子图的特征向量；

b212：根据模板图对应的用户的特征数据，确定模板图的第二特征向量；

b213：根据模板图的第二特征向量和当前子图的特征向量，确定模板图与当前子图的相似值。

b213具体可以包括：根据第二公式，确定模板图与当前子图的相似值；

第二公式，包括：

其中，s₂用于表征模板图与当前子图的相似值，用于表征当前子图的特征向量，用于表征模板图的第二特征向量，T用于表示转置。

其中，模板图的第二特征向量与模板图的第一特征向量类似，当前子图的特征向量与第一子图集中子图的特征向量类似，具体处理过程请参考方式1，此处不再赘述。

b22的具体实施过程请参考b21，此处不再赘述。

考虑到将与模板图的相似值相同或者相近的两个子图同时作为目标子图，可能导致用户群覆盖的用户数较少，为了挖掘出更多的用户，在本发明的一个实施例中，该方法还包括：根据第二子图集对应的用户，确定当前子图替换第二子图集中各个子图的差异增益值。

此时，b3包括：

b31：根据当前子图替换第二子图集中各个子图的相似增益值和当前子图替换第二子图集中各个子图的差异增益值，确定当前子图替换第二子图集中各个子图的综合增益值。

b32：根据综合增益值，在第二子图集中各个子图中确定待替换子图。

在本发明的一个实施例中，b31包括：

b311：根据第二子图集对应的用户，确定待替换子图与第二子图集中各个其他子图的差异值。

具体包括：

确定待替换子图与第二子图集中当前其他子图对应的不同用户的数量；

根据待替换子图与第二子图集中当前其他子图对应的不同用户的数量，确定待替换子图与第二子图集中当前其他子图的差异值。

例如，确定待替换子图与第二子图集中当前其他子图的差异值，为待替换子图与第二子图集中当前其他子图对应的不同用户的数量。

b312：根据第二子图集对应的用户，确定当前子图与第二子图集中各个其他子图的差异值；

b313：根据待替换子图与第二子图集中各个其他子图的差异值和当前子图与第二子图集中各个其他子图的差异值，确定当前子图替换待替换子图的差异增益值。

为了保证用户群的质量，同时减少循环次数，在本发明的一个实施例中，该方法还包括：确定当前子图替换第二子图集中各个子图的相似增益值是否均小于预设的相似增益阈值，如果是，执行b7，否则，执行b3。

相似地，还可以通过综合增益值来控制循环次数，在本发明的一个实施例中，该方法还包括：确定当前子图替换第二子图集中各个子图的综合增益值是否均小于预设的综合增益阈值，如果是，执行b7，否则，执行b3。

方式2在保证用户群质量的同时，降低计算资源的消耗，适用于用户网络关系图中的子图数量较多的情况。

需要说明的是，方式2中相似增益值、差异增益值和综合增益值分别对应于方式1中的相似得分、差异得分和综合得分，具体计算过程请参考方式1，此处不再赘述。

如图4所示，本发明实施例以方式1为例，对用户群识别方法进行详细的说明，该方法包括：

步骤401：确定用户网络关系图中与预设的模板图相匹配的子图。

步骤402：根据与模板图相匹配的子图和预设的第一数量，确定第一子图集；其中，第一子图集中包括第一数量与模板图相匹配的子图。

步骤403：根据模板图对应的用户的特征数据，确定模板图的第一特征向量。

步骤404：根据第一子图集中各个子图对应的用户的特征数据，确定第一子图集中各个子图的特征向量。

步骤405：根据模板图的第一特征向量和第一子图集中各个子图的特征向量，确定第一子图集中各个子图的相似得分。

步骤406：根据第一子图集中各个子图的相似得分，确定第一子图集的相似得分。

步骤407：确定第一子图集中每两个子图的差异得分为第一子图集中每两个子图对应的不同用户的数量。

步骤408：根据第一子图集的相似得分和第一子图集的差异得分，确定第一子图集的综合得分。

步骤409：根据第一子图集的综合得分，确定目标子图。

如图5所示，本发明实施例以方式2为例，对用户群识别方法进行详细的说明，该方法包括：

步骤501：确定用户网络关系图中预设的第二数量、与模板图相匹配的子图；其中，第二数量、与模板图相匹配的子图构成第二子图集。

步骤502：在用户网络关系图中的剩余子图中确定当前子图，并执行步骤503。

步骤503：确定当前子图是否与模板图相匹配，如果是，执行步骤504，否则，执行步骤510；

步骤504：根据模板图对应的用户的特征数据和第二子图集对应的用户的特征数据，确定当前子图替换第二子图集中各个子图的相似增益值。

步骤505：根据第二子图集对应的用户，确定当前子图替换第二子图集中各个子图的差异增益值。

步骤506：根据当前子图替换第二子图集中各个子图的相似增益值和当前子图替换第二子图集中各个子图的差异增益值，确定当前子图替换第二子图集中各个子图的综合增益值；

步骤507：确定当前子图替换第二子图集中各个子图的综合增益值是否均小于预设的综合增益阈值，如果是，执行步骤512，否则，执行步骤508。

步骤508：根据综合增益值，在第二子图集中各个子图中确定待替换子图。

步骤509：根据当前子图和待替换子图，更新第二子图集；

步骤510：确定剩余子图中是否存在其他剩余子图，如果是，执行步骤511，否则，执行步骤512；

步骤511：将其他剩余子图依次作为当前子图执行步骤503；

步骤512：确定更新后的第二子图集中的子图为目标子图。

步骤513：确定目标子图对应的用户构成用户群。

如图6所示，本发明实施例提供了一种用户群识别装置，包括：

第一匹配单元601，用于确定用户网络关系图中与预设的模板图相匹配的子图；

第一识别单元602，用于根据与模板图相匹配的子图对应的用户的特征数据和模板图对应的用户的特征数据，确定目标子图；

第一确定单元603，用于确定目标子图对应的用户构成用户群。

在本发明的一个实施例中，第一识别单元602，用于根据与模板图相匹配的子图和预设的第一数量，确定第一子图集；其中，第一子图集中包括第一数量与模板图相匹配的子图；根据模板图对应的用户的特征数据和第一子图集对应的用户的特征数据，确定第一子图集的相似得分；根据第一子图集的相似得分，确定目标子图。

在本发明的一个实施例中，第一识别单元602，进一步用于根据第一子图集对应的用户，确定第一子图集的差异得分；

第一识别单元602，用于根据第一子图集的相似得分和第一子图集的差异得分，确定第一子图集的综合得分；根据第一子图集的综合得分，确定目标子图。

在本发明的一个实施例中，第一识别单元602，用于根据模板图对应的用户的特征数据，确定模板图的第一特征向量；根据第一子图集中各个子图对应的用户的特征数据，确定第一子图集中各个子图的特征向量；根据模板图的第一特征向量和第一子图集中各个子图的特征向量，确定第一子图集中各个子图的相似得分；根据第一子图集中各个子图的相似得分，确定第一子图集的相似得分。

在本发明的一个实施例中，第一识别单元602，用于根据第一公式，确定第一子图集中各个子图的相似得分；第一公式，包括：

在本发明的一个实施例中，第一识别单元602，用于根据第一子图集对应的用户，确定第一子图集中每两个子图的差异得分；根据第一子图集中每两个子图的差异得分，确定第一子图集的差异得分。

在本发明的一个实施例中，第一识别单元602，用于确定第一子图集中每两个子图的差异得分为第一子图集中每两个子图对应的不同用户的数量。

在本发明的一个实施例中，第一匹配单元601，用于确定用户网络关系图中预设的第二数量、与模板图相匹配的子图；其中，第二数量、与模板图相匹配的子图构成第二子图集；

第一识别单602元，用于根据模板图对应的用户的特征数据、第二子图集对应的用户的特征数据和用户网络关系图中的剩余子图，更新第二子图集，确定更新后的第二子图集中的子图为目标子图。

在本发明的一个实施例中，第一识别单元602，用于在用户网络关系图中的剩余子图中确定当前子图，并执行A1；A1：确定当前子图是否与模板图相匹配，如果是，执行A2，否则，执行A5；A2：根据模板图对应的用户的特征数据和第二子图集对应的用户的特征数据，确定当前子图替换第二子图集中各个子图的相似增益值；A3：根据当前子图替换第二子图集中各个子图的相似增益值，在第二子图集中各个子图中确定待替换子图；A4：根据当前子图和待替换子图，更新第二子图集；A5：确定剩余子图中是否存在其他剩余子图，如果是，执行步骤A6，否则，执行步骤A7；A6：将其他剩余子图依次作为当前子图执行A1；A7：确定更新后的第二子图集中的子图为目标子图。

在本发明的一个实施例中，第一识别单元602，进一步用于根据第二子图集对应的用户，确定当前子图替换第二子图集中各个子图的差异增益值；

第一识别单元602，用于根据当前子图替换第二子图集中各个子图的相似增益值和当前子图替换第二子图集中各个子图的差异增益值，确定当前子图替换第二子图集中各个子图的综合增益值；根据综合增益值，在第二子图集中各个子图中确定待替换子图。

在本发明的一个实施例中，第一识别单元602，用于根据模板图对应的用户的特征数据和当前子图对应的用户的特征数据，确定模板图与当前子图的相似值；根据模板图对应的用户的特征数据和待替换子图对应的用户的特征数据，确定模板图与待替换子图的相似值；根据模板图与当前子图的相似值和模板图与待替换子图的相似值，确定当前子图替换待替换子图的相似增益值。

在本发明的一个实施例中，第一识别单元602，用于根据当前子图对应的用户的特征数据，确定当前子图的特征向量；根据模板图对应的用户的特征数据，确定模板图的第二特征向量；根据模板图的第二特征向量和当前子图的特征向量，确定模板图与当前子图的相似值。

在本发明的一个实施例中，第一识别单元602，用于根据第二公式，确定模板图与当前子图的相似值；第二公式，包括：

在本发明的一个实施例中，第一识别单元602，用于根据第二子图集对应的用户，确定待替换子图与第二子图集中各个其他子图的差异值；根据第二子图集对应的用户，确定当前子图与第二子图集中各个其他子图的差异值；根据待替换子图与第二子图集中各个其他子图的差异值和当前子图与第二子图集中各个其他子图的差异值，确定当前子图替换待替换子图的差异增益值。

在本发明的一个实施例中，第一识别单元602，用于确定待替换子图与第二子图集中当前其他子图对应的不同用户的数量；根据待替换子图与第二子图集中当前其他子图对应的不同用户的数量，确定待替换子图与第二子图集中当前其他子图的差异值。

在本发明的一个实施例中，第一识别单元602，进一步用于确定当前子图替换第二子图集中各个子图的相似增益值是否均小于预设的相似增益阈值，如果是，执行A7，否则，执行A3。

如图7所示，本发明实施例提供了一种对象群识别装置，包括：

第二匹配单元701，用于确定对象网络关系图中与预设的模板图相匹配的子图；

第二识别单元702，用于根据与模板图相匹配的子图对应的对象的特征数据和模板图对应的对象的特征数据，确定目标子图；

第二确定单元703，用于确定目标子图对应的对象构成对象群。

本发明实施例提供了一种用户群识别设备，包括：处理器和存储器；

存储器用于存储执行指令，处理器用于执行存储器存储的执行指令以实现上述任一实施例的用户群识别方法。

本发明实施例提供了一种对象群识别设备，包括：处理器和存储器；

存储器用于存储执行指令，处理器用于执行存储器存储的执行指令以实现上述任一实施例的对象群识别方法。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电，路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用户群识别方法，包括：

确定用户网络关系图中与预设的模板图相匹配的子图；

确定所述目标子图对应的用户构成用户群。

2.如权利要求1所述的用户群识别方法，

所述根据所述模板图对应的用户的特征数据和与所述模板图相匹配的子图对应的用户的特征数据，确定目标子图，包括：

根据与所述模板图相匹配的子图和预设的第一数量，确定第一子图集；其中，所述第一子图集中包括所述第一数量与所述模板图相匹配的子图；

根据所述模板图对应的用户的特征数据和所述第一子图集对应的用户的特征数据，确定所述第一子图集的相似得分；

根据所述第一子图集的相似得分，确定所述目标子图。

3.如权利要求2所述的用户群识别方法，进一步包括：根据所述第一子图集对应的用户，确定所述第一子图集的差异得分；

所述根据所述第一子图集的相似得分，确定所述目标子图，包括：

根据所述第一子图集的相似得分和所述第一子图集的差异得分，确定所述第一子图集的综合得分；

根据所述第一子图集的综合得分，确定所述目标子图。

4.如权利要求2所述的用户群识别方法，

所述根据所述模板图对应的用户的特征数据和所述第一子图集对应的用户的特征数据，确定所述第一子图集的相似得分，包括：

根据所述模板图对应的用户的特征数据，确定所述模板图的第一特征向量；

根据所述第一子图集中各个子图对应的用户的特征数据，确定所述第一子图集中各个子图的特征向量；

根据所述模板图的第一特征向量和所述第一子图集中各个子图的特征向量，确定所述第一子图集中各个子图的相似得分；

根据所述第一子图集中各个子图的相似得分，确定所述第一子图集的相似得分。

5.如权利要求4所述的用户群识别方法，

所述根据所述模板图的第一特征向量和所述第一子图集中各个子图的特征向量，确定所述第一子图集中各个子图的相似得分，包括：

根据第一公式，确定所述第一子图集中各个子图的相似得分；

所述第一公式为：

其中，用于表征所述第一子图集中第k个子图的相似得分，用于表征所述第一子图集中第k个子图的特征向量，用于表征所述模板图的第一特征向量，T用于表示转置。

6.如权利要求3所述的用户群识别方法，

所述根据所述第一子图集对应的用户，确定所述第一子图集的差异得分，包括：

根据所述第一子图集对应的用户，确定所述第一子图集中每两个子图的差异得分；

根据所述第一子图集中每两个子图的差异得分，确定所述第一子图集的差异得分。

7.如权利要求6所述的用户群识别方法，

所述根据所述第一子图集对应的用户，确定所述第一子图集中每两个子图的差异得分，包括：

确定所述第一子图集中每两个子图对应的不同用户的数量；

根据所述第一子图集中每两个子图对应的不同用户的数量，确定所述第一子图集中每两个子图的差异得分。

8.如权利要求1至7中任何一项所述的用户群识别方法，

所述确定用户网络关系图中与预设的模板图相匹配的子图，包括：

确定所述用户网络关系图中与所述模板图相匹配的预设第二数量的子图；其中，所述与所述模板图相匹配的第二数量的子图构成第二子图集；

根据所述模板图对应的用户的特征数据、所述第二子图集对应的用户的特征数据和所述用户网络关系图中的剩余子图，更新所述第二子图集，确定更新后的所述第二子图集中的子图为所述目标子图。

9.如权利要求8所述的用户群识别方法，

所述根据所述模板图对应的用户的特征数据、所述第二子图集对应的用户的特征数据和所述用户网络关系图中的剩余子图，更新所述第二子图集，确定更新后的所述第二子图集中的子图为所述目标子图，包括：

在所述用户网络关系图中的剩余子图中确定当前子图，并执行A1；

A1：确定所述当前子图是否与所述模板图相匹配，如果是，执行A2，否则，执行A5；

A2：根据所述模板图对应的用户的特征数据和所述第二子图集对应的用户的特征数据，确定所述当前子图替换所述第二子图集中各个子图的相似增益值；

A3：根据所述当前子图替换所述第二子图集中各个子图的相似增益值，在所述第二子图集中各个子图中确定待替换子图；

A4：根据所述当前子图和所述待替换子图，更新所述第二子图集；

A5：确定所述剩余子图中是否存在其他剩余子图，如果是，执行步骤A6，否则，执行步骤A7；

A6：将所述其他剩余子图依次作为所述当前子图执行A1；

A7：确定更新后的所述第二子图集中的子图为所述目标子图。

10.如权利要求9所述的用户群识别方法，进一步包括：根据所述第二子图集对应的用户，确定所述当前子图替换所述第二子图集中各个子图的差异增益值；

所述A3，具体包括：

根据所述当前子图替换所述第二子图集中各个子图的相似增益值和所述当前子图替换所述第二子图集中各个子图的差异增益值，确定所述当前子图替换所述第二子图集中各个子图的综合增益值；

根据所述综合增益值，在所述第二子图集中各个子图中确定所述待替换子图。

11.如权利要求9所述的用户群识别方法，

所述A2，具体包括：

根据所述模板图对应的用户的特征数据和所述当前子图对应的用户的特征数据，确定所述模板图与所述当前子图的相似值；

根据所述模板图对应的用户的特征数据和所述待替换子图对应的用户的特征数据，确定所述模板图与所述待替换子图的相似值；

根据所述模板图与所述当前子图的相似值和所述模板图与所述待替换子图的相似值，确定所述当前子图替换所述待替换子图的相似增益值。

12.如权利要求11所述的用户群识别方法，

所述根据所述模板图对应的用户的特征数据和所述当前子图对应的用户的特征数据，确定所述模板图与所述当前子图的相似值，包括：

根据所述当前子图对应的用户的特征数据，确定所述当前子图的特征向量；

根据所述模板图对应的用户的特征数据，确定所述模板图的第二特征向量；

根据所述模板图的第二特征向量和所述当前子图的特征向量，确定所述模板图与所述当前子图的相似值。

13.如权利要求12所述的用户群识别方法，

所述根据所述模板图的第二特征向量和所述当前子图的特征向量，确定所述模板图与所述当前子图的相似值，包括：

根据第二公式，确定所述模板图与所述当前子图的相似值；

所述第二公式为：

其中，s₂用于表征所述模板图与所述当前子图的相似值，用于表征所述当前子图的特征向量，用于表征所述模板图的第二特征向量，T用于表示转置。

14.如权利要求10所述的用户群识别方法，

所述根据所述第二子图集对应的用户，确定所述当前子图替换所述第二子图集中各个子图的差异增益值，包括：

根据所述第二子图集对应的用户，确定所述待替换子图与所述第二子图集中各个其他子图的差异值；

根据所述第二子图集对应的用户，确定所述当前子图与所述第二子图集中各个其他子图的差异值；

根据所述待替换子图与所述第二子图集中各个其他子图的差异值和所述当前子图与所述第二子图集中各个其他子图的差异值，确定所述当前子图替换所述待替换子图的差异增益值。

15.如权利要求14所述的用户群识别方法，

所述根据所述第二子图集对应的用户，确定所述待替换子图与所述第二子图集中各个其他子图的差异值，包括：

确定所述待替换子图与所述第二子图集中当前其他子图对应的不同用户的数量；

根据所述待替换子图与所述第二子图集中当前其他子图对应的不同用户的数量，确定所述待替换子图与所述第二子图集中当前其他子图的差异值。

16.如权利要求9所述的用户群识别方法，

在A2之后，在A3之前，进一步包括：

确定所述当前子图替换所述第二子图集中各个子图的相似增益值是否均小于预设的相似增益阈值，如果是，执行A7，否则，执行A3。

17.一种用户群识别装置，包括：

18.如权利要求17所述的用户群识别装置，

所述第一识别单元，用于根据与所述模板图相匹配的子图和预设的第一数量，确定第一子图集；其中，所述第一子图集中包括所述第一数量与所述模板图相匹配的子图；根据所述模板图对应的用户的特征数据和所述第一子图集对应的用户的特征数据，确定所述第一子图集的相似得分；根据所述第一子图集的相似得分，确定所述目标子图。

19.如权利要求18所述的用户群识别装置，

所述第一识别单元，进一步用于根据所述第一子图集对应的用户，确定所述第一子图集的差异得分；

所述第一识别单元，用于根据所述第一子图集的相似得分和所述第一子图集的差异得分，确定所述第一子图集的综合得分；根据所述第一子图集的综合得分，确定所述目标子图。

20.如权利要求18所述的用户群识别装置，

所述第一识别单元，用于根据所述模板图对应的用户的特征数据，确定所述模板图的第一特征向量；根据所述第一子图集中各个子图对应的用户的特征数据，确定所述第一子图集中各个子图的特征向量；根据所述模板图的第一特征向量和所述第一子图集中各个子图的特征向量，确定所述第一子图集中各个子图的相似得分；根据所述第一子图集中各个子图的相似得分，确定所述第一子图集的相似得分。

21.如权利要求20所述的用户群识别装置，

所述第一识别单元，用于根据第一公式，确定所述第一子图集中各个子图的相似得分；

所述第一公式为：

22.如权利要求19所述的用户群识别装置，

所述第一识别单元，用于根据所述第一子图集对应的用户，确定所述第一子图集中每两个子图的差异得分；根据所述第一子图集中每两个子图的差异得分，确定所述第一子图集的差异得分。

23.如权利要求22所述的用户群识别装置，

所述第一识别单元，用于确定所述第一子图集中每两个子图对应的不同用户的数量；根据所述第一子图集中每两个子图对应的不同用户的数量，确定所述第一子图集中每两个子图的差异得分。

24.如权利要求17-23中任何一项所述的用户群识别装置，

所述第一匹配单元，用于确定所述用户网络关系图中与所述模板图相匹配的预设第二数量的子图；其中，所述与所述模板图相匹配的第二数量的子图构成第二子图集；

所述第一识别单元，用于根据所述模板图对应的用户的特征数据、所述第二子图集对应的用户的特征数据和所述用户网络关系图中的剩余子图，更新所述第二子图集，确定更新后的所述第二子图集中的子图为所述目标子图。

25.如权利要求24所述的用户群识别装置，

所述第一识别单元，用于在所述用户网络关系图中的剩余子图中确定当前子图，并执行A1；A1：确定所述当前子图是否与所述模板图相匹配，如果是，执行A2，否则，执行A5；A2：根据所述模板图对应的用户的特征数据和所述第二子图集对应的用户的特征数据，确定所述当前子图替换所述第二子图集中各个子图的相似增益值；A3：根据所述当前子图替换所述第二子图集中各个子图的相似增益值，在所述第二子图集中各个子图中确定待替换子图；A4：根据所述当前子图和所述待替换子图，更新所述第二子图集；A5：确定所述剩余子图中是否存在其他剩余子图，如果是，执行步骤A6，否则，执行步骤A7；A6：将所述其他剩余子图依次作为所述当前子图执行A1；A7：确定更新后的所述第二子图集中的子图为所述目标子图。

26.如权利要求25所述的用户群识别装置，

所述第一识别单元，进一步用于根据所述第二子图集对应的用户，确定所述当前子图替换所述第二子图集中各个子图的差异增益值；

所述第一识别单元，用于根据所述当前子图替换所述第二子图集中各个子图的相似增益值和所述当前子图替换所述第二子图集中各个子图的差异增益值，确定所述当前子图替换所述第二子图集中各个子图的综合增益值；根据所述综合增益值，在所述第二子图集中各个子图中确定所述待替换子图。

27.如权利要求25所述的用户群识别装置，

所述第一识别单元，用于根据所述模板图对应的用户的特征数据和所述当前子图对应的用户的特征数据，确定所述模板图与所述当前子图的相似值；根据所述模板图对应的用户的特征数据和所述待替换子图对应的用户的特征数据，确定所述模板图与所述待替换子图的相似值；根据所述模板图与所述当前子图的相似值和所述模板图与所述待替换子图的相似值，确定所述当前子图替换所述待替换子图的相似增益值。

28.如权利要求27所述的用户群识别装置，

所述第一识别单元，用于根据所述当前子图对应的用户的特征数据，确定所述当前子图的特征向量；根据所述模板图对应的用户的特征数据，确定所述模板图的第二特征向量；根据所述模板图的第二特征向量和所述当前子图的特征向量，确定所述模板图与所述当前子图的相似值。

29.如权利要求28所述的用户群识别装置，

所述第一识别单元，用于根据第二公式，确定所述模板图与所述当前子图的相似值；

所述第二公式为：

30.如权利要求26所述的用户群识别装置，

所述第一识别单元，用于根据所述第二子图集对应的用户，确定所述待替换子图与所述第二子图集中各个其他子图的差异值；根据所述第二子图集对应的用户，确定所述当前子图与所述第二子图集中各个其他子图的差异值；根据所述待替换子图与所述第二子图集中各个其他子图的差异值和所述当前子图与所述第二子图集中各个其他子图的差异值，确定所述当前子图替换所述待替换子图的差异增益值。

31.如权利要求30所述的用户群识别装置，

所述第一识别单元，用于确定所述待替换子图与所述第二子图集中当前其他子图对应的不同用户的数量；根据所述待替换子图与所述第二子图集中当前其他子图对应的不同用户的数量，确定所述待替换子图与所述第二子图集中当前其他子图的差异值。

32.如权利要求25所述的用户群识别装置，

所述第一识别单元，进一步用于确定所述当前子图替换所述第二子图集中各个子图的相似增益值是否均小于预设的相似增益阈值，如果是，执行A7，否则，执行A3。

33.一种对象群识别方法，包括：

确定对象网络关系图中与预设的模板图相匹配的子图；

确定所述目标子图对应的对象构成对象群。

34.一种对象群识别装置，包括：