CN117573803B

CN117573803B - 基于知识图谱的新客识别方法和装置

Info

Publication number: CN117573803B
Application number: CN202311527886.0A
Authority: CN
Inventors: 阮传宏; 徐兢一; 王驭; 甘江彬; 张邦华; 范佳健
Original assignee: Anhui Credit Bureau Co ltd
Current assignee: Anhui Credit Bureau Co ltd
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2024-04-19
Anticipated expiration: 2043-11-14
Also published as: CN117573803A

Abstract

本发明提供了一种基于知识图谱的新客识别方法、装置、存储介质和电子设备，涉及数据处理技术领域。通过先基于存量客户的若干属性信息构建图数据库以及知识图谱；再基于各个属性节点的边指向的所有客户节点的数量，获取知识图谱中各个属性的权重；随后基于潜在新客的若干属性信息获取潜在新客的每个属性与存量客户的所有属性中的最高相似度；进而获取单一潜在新客与单一存量客户的相似度；再获取潜在新客与所有存量客户的相似度；最后基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。对数据量和数据维度的依赖性不高，尤其适合缺少负样本的场景，符合多数实际商业场景的情况。

Description

基于知识图谱的新客识别方法和装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于知识图谱的新客识别方法、装置、存储介质和电子设备。

背景技术

知识图谱是人工智能的一项分支技术，用于以符号形式描述物理世界中的概念及其相互关系，使用“实体-关系-实体”三元组，以及实体及其相关属性—值对，实体间通过关系相互联结，构成网状的知识结构。知识图谱的图存储在图数据库，图数据库以图论为理论基础，支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。因此知识图谱可以把领域中异构的知识结构化，构建知识间的关联，可以支撑大规模的数据分析需要。而寻找新客户一直都是企业发展的关键课题，如何基于存量客户找到潜在的相似客户是业务拓展的重要方向，也是一项难题。

当前潜在客户相似性拓展的方式主要为基于存量客户进行数据样本的数理统计，再预测未知客户与存量客户的相似性。该过程需要较大的样本数和足够多的数据维度进行支撑，且需要一定量的正负样本来实现监督学习。但是实际业务中，存量客户基本均为正样本，很少情况下会留有负样本。且.基于数理统计的监督学习，不能直观的传导相似性，引入知识图谱，可以通过节点之间边的关系来传导相似，实现客户的相似性拓展。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于知识图谱的新客识别方法、装置、存储介质和电子设备，解决了现有方法在分析潜在客户时，负样本数据获取困难的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明提供了一种基于知识图谱的新客识别方法，该方法包括：

基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱；所述知识图谱包括客户节点和属性节点，所述属性信息包括普通属性和互斥属性；

基于知识图谱中各个属性节点的边指向的所有客户节点的数量，获取知识图谱中各个属性的权重；

基于潜在新客的若干属性信息更新图数据库和知识图谱，并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度；

基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度，获取单一潜在新客与单一存量客户的相似度；

基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度；

基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。

进一步的，所述知识图谱中各个属性的权重的计算方法为：

其中，I表示知识图谱中的属性数量；

w_i表示知识图谱中第i个属性的权重，i＝1，2，…，I；

n_i表示知识图谱中第i个属性对应的边指向的所有客户节点的数量。

进一步的，所述潜在新客的每个属性与存量客户的所有属性中的最高相似度的计算方法为：

S_p＝MAX(Sim(p,q))

其中，S_p表示潜在新客的第p个属性与存量客户的所有属性中的最高相似度；p＝1，2，…，P；P表示潜在新客的属性数量；

Sim(p,q)表示潜在新客的第p个属性与存量客户的第q个属性的相似度；q＝1，2，…，Q；Q表示存量客户的属性数量；

且当潜在新客的第p个属性和存量客户的第q个属性不属于互斥属性时，Sim(p,q)的计算方法为：

其中，e_p表示潜在新客的第p个属性对应的节点在知识图谱中边的数量；

e_q表示存量客户的第q个属性对应的节点在知识图谱中边的数量；

e_conj表示潜在新客的第p个属性对应的节点与存量客户的第q个属性对应的节点在知识图谱中指向同一客户节点的边数量；

当潜在新客的第p个属性和存量客户的第q个属性为互斥属性时，Sim(p,q)的计算方法为：

Sim(p，q)＝MAX(Sim(p，k)×Sim(q，k)

其中，k＝1，2，…，K，k≠p或q，K表示其他属性的数量；

Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度；

Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度。

进一步的，所述单一潜在新客与单一存量客户的相似度的计算方法为：

其中，Sim(NC_z,EC_y)表示潜在新客NC_z与存量客户EC_y的相似度；

NC_z表示第z个潜在新客，EC_y表示第y个存量客户；

w_p表示潜在新客的第p个属性对应的权重，w_p∈{w₁,w₂,…,w_i,…:w_I}；

w_q表示存量客户的第q个属性对应的权重，w_q∈{w₁,w₂,…,w_i,…:w_I}；

{w₁,w₂,…,w_i,…:w_I}表示知识图谱中所有属性的权重。

进一步的，所述潜在新客与所有存量客户的相似度，包括：

按所述单一潜在新客与单一存量客户的相似度从高至低进行排序，并取前10％的相似度来计算平均值作为该潜在新客与所有存量客户的相似度；

且所述基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客，包括：

所述预设阈值由经过监督学习训练的机器学习模型获取，且按所述潜在新客与所有存量客户的相似度从高至低进行排序，并取大于预设阈值的相似度作为新客。

第二方面，提供了一种基于知识图谱的新客识别装置，该装置包括：

知识图谱构建模块，用于基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱；所述知识图谱包括客户节点和属性节点，所述属性信息包括普通属性和互斥属性；

属性权重计算模块，用于基于知识图谱中各个属性节点的边指向的所有客户节点的数量，获取知识图谱中各个属性的权重；

最高相似度计算模块，基于潜在新客的若干属性信息更新图数据库和知识图谱，并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度；

单一客户相似度计算模块，用于基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度，获取单一潜在新客与单一存量客户的相似度；

新客相似度计算模块，用于基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度；

新客识别模块，用于基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。

进一步的，所述知识图谱中各个属性的权重的计算方法为：

其中，I表示知识图谱中的属性数量；

w_i表示知识图谱中第i个属性的权重，i＝1，2，…，I；

S_p＝MAX(Sim(p,q))

Sim(p，q)＝MAX(Sim(p，k)×Sim(q，k)

其中，k＝1，2，…，K，k≠p或q，K表示其他属性的数量；

Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度；

Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度；

且所述单一潜在新客与单一存量客户的相似度的计算方法为：

其中，Sim(NC_z,EC_y)表示潜在新客NC_z与存量客户EC_y的相似度；

NC_z表示第z个潜在新客，EC_y表示第y个存量客户；

{w₁,w₂,…,w_i,…:w_I}表示知识图谱中所有属性的权重。

第三方面，提供了一种存储介质，其存储用于基于知识图谱的新客识别的计算机程序，其中，所述计算机程序使得计算机执行上述的基于知识图谱的新客识别方法。

第四方面，提供了一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行上述的基于知识图谱的新客识别方法。

(三)有益效果

本发明提供了一种基于知识图谱的新客识别方法、装置、存储介质和电子设备。与现有技术相比，具备以下有益效果：

1.本发明实施例的方法能符合多数实际商业场景的情况，解决商业场景下对未知的潜在客户的挖掘与分析，对数据量和数据维度的依赖性不高，尤其适合缺少负样本(拒绝服务)的场景；

2.本发明实施例的方法可解释性强，通过知识图谱可以清楚的可视化存量客户的具体情况，也可以清楚的查看潜在客户与存量客户的相似度情况；

3.本发明实施例的方法运行速度快，将客户数据存放入图数据库后，比一般的数据库具有更快的查询与分析速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程图；

图2为本发明实施例构建的知识图谱的可视化示意图；

图3为本发明实施例的潜在新客的各个属性与存量客户的所有属性的相似度计算方式示意图；

图4为本发明实施例的当潜在新客的第p个属性和存量客户的第q个属性不属于互斥属性时的示意图；

图5为本发明实施例的当潜在新客的第p个属性和存量客户的第q个属性属于互斥属性时的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于知识图谱的新客识别方法、装置、存储介质和电子设备，解决了现有方法在分析潜在客户时，负样本数据获取困难的问题。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1：

如图1所示，本发明提供了一种基于知识图谱的新客识别方法，该方法由计算机执行，该方法包括：

本发明实施例与现有技术相比，具有以下有益效果：

下面对本实施例的具体实现方式进行详细说明：

S1、基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱；

在具体实施时，存量客户作为正样本以建立图数据库，用于存储存量客户的各类加工后的属性信息，可视化为知识图谱后如图2所示，其中较小的圆形节点为客户节点，代表存量客户，较大的圆形节点代表属性节点，属性还可进一步分为普通属性和互斥属性。

属性之间通过指向相同的存量客户而互相关联，客户的普通属性之间不互斥，但互斥属性之间互斥，例如客户的年龄属于互斥属性，例如年龄可以是21～30岁和31～40岁中的一个，同一个用户节点不会同时指向多个互斥属性。

例如，在图2中所有存量客户的所有属性为X＝{x₁,x₂,x₃,…,x₁₀}，共I＝10个属性；其中，x₆和x₇为一对互斥属性，两者不会指向同一个客户；且图2中的x₁,x₂,x₃,x₄,x₅,x₈,x₉,x₁₀为普通属性。

一个属性也会指向多个客户，形成一个簇团，所述簇团为各个属性的边指向的所有客户节点；例如，图2中属性x₂的边指向的所有客户节点作为一个簇团，共有15个用户节点。

以位于图片中心的存量客户对应的客户节点为例，其所有属性为X⁰＝{x₁,x₂,x₃,x₆,x₈,x₉}，共Q＝6个属性。

S2、基于知识图谱中各个属性节点的边指向的所有客户节点的数量，获取知识图谱中各个属性的权重；

在具体实施时，由于所有存量客户都曾接受了企业服务(正样本)，可以认为簇团大的属性对正样本的影响力大，因此可利用属性节点和周围的客户节点形成的簇团的大小推测属性节点对客户行为的影响力(即权重)，具体可采用如下公式获取到各个属性的权重：

其中，I表示知识图谱中的属性数量；

w_i表示知识图谱中第i个属性的权重，i＝1，2，…，I；

n_i表示知识图谱中第i个属性对应的边指向的所有客户节点的数量，i＝1，2，…，I；

S3、基于潜在新客的若干属性信息更新图数据库和知识图谱，并获取潜在新客的第p个属性与存量客户的所有属性中的最高相似度；

在具体实施时，潜在新客的所有属性可表示为X¹，其属性的数量表示为P；存量客户的所有属性可表示为X⁰，其属性的数量表示为Q；

如图3所示，加入知识图谱的潜在新客也同样具有诸多属性信息，图3中的潜在新客的所有属性为X¹＝{x₁,x₂,x₃,x₆,x₉}，共P＝5个属性，某个存量客户的所有属性为X⁰＝{x₄,x₅,x₇,x₈,x₁₀}；x₁,x₂,x₃,x₄,x₅,x₈,x₉,x₁₀为相互不互斥的普通属性，而x₆和x₇为互斥属性；

所述潜在新客的某个属性与存量客户的所有属性中的最高相似度可表示为：

S_p＝MAX(Sim(p,q))

(1)如图4所示，当潜在新客的第p个属性和存量客户的第q个属性不属于互斥属性时，Sim(p,q)可采用如下公式计算：

(2)如图5所示，当潜在新客的第p个属性和存量客户的第q个属性为互斥属性时，属性之间相似度只能通过其他属性间接评价。实际情况中，x₆和x₇会通过所有其他属性K来进行关联，k∈K，Sim(p,q)可采用如下公式计算：

Sim(p,q)＝MAX(Sim(p,k)×Sim(q,k))

其中，潜在新客的第p个属性和存量客户的第q个属性为互斥的子属性；

k＝1，2，…，K，k≠p或q，K表示其他属性的数量；

Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度；

Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度；

S4、基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度，获取单一潜在新客与单一存量客户的相似度；

在具体实施时，潜在新客NC_z与存量客户EC_y的相似度的计算公式如下：

其中，Sim(NC_z,EC_y)表示潜在新客NC_z与存量客户EC_y的相似度；

NC_z表示第z个潜在新客，EC_y表示第y个存量客户；

S5、基于单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度。

在具体实施时，可按所述单一潜在新客与单一存量客户的相似度从高至低进行排序，并取前10％的相似度来计算平均值作为该潜在新客与所有存量客户的相似度。其中，10％为经验值，由人工设定。

S6、基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。

在具体实施时，利用关联性做出合理的业务推测，对相似度最高的潜在新客进行发展，明确其对业务的兴趣与否，在积累发展了一部分新客之后，通过图算法的机器学习，可以通过监督学习训练出有意向的新客户相似度阈值，未来可对相似度大于阈值对潜在客户进行发展。

例如共有100个潜在新客，经过上述步骤可得到各自与存量客户的相似度，共100个，假设预设阈值的初始值为50％，即将相似度前50％的潜在新客作为可发展的新客；后续根据业务新客发展的实际情况，对这个预设阈值进行更新，最终得到这个最优阈值以提高准确度。

实施例2：

一种基于知识图谱的新客获取装置，该装置包括：

实施例3：

一种存储介质，其存储用于基于知识图谱的新客识别的计算机程序，其中，所述计算机程序使得计算机执行如下方法：

实施例4：

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如下步骤：

可理解的是，本发明实施例提供的基于知识图谱的新客获取装置、存储介质以及电子设备与上述基于知识图谱的新客识别方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于知识图谱的新客识别方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，本发明具备以下有益效果：

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识图谱的新客识别方法，其特征在于，该方法包括：

所述潜在新客的每个属性与存量客户的所有属性中的最高相似度的计算方法为：

S_p＝MAX(Sim(p,q))

Sim(p,q)＝MAX(Sim(p,k)×Sim(q,k))

其中，k＝1，2，…，K，k≠p或q，K表示其他属性的数量；

Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度；

Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度；

所述单一潜在新客与单一存量客户的相似度的计算方法为：

其中，Sim(NC_z,EC_y)表示潜在新客NC_z与存量客户EC_y的相似度；

NC_z表示第z个潜在新客，EC_y表示第y个存量客户；

{w₁,w₂,…,w_i,…:w_I}表示知识图谱中所有属性的权重；

2.如权利要求1所述的一种基于知识图谱的新客识别方法，其特征在于，所述知识图谱中各个属性的权重的计算方法为：

其中，I表示知识图谱中的属性数量；

w_i表示知识图谱中第i个属性的权重，i＝1，2，…，I；

3.如权利要求1所述的一种基于知识图谱的新客识别方法，其特征在于，所述潜在新客与所有存量客户的相似度，包括：

4.一种基于知识图谱的新客识别装置，其特征在于，该装置包括：

S_p＝MAX(Sim(p,q))

Sim(p,q)＝MAX(Sim(p,k)×Sim(q,k))

其中，k＝1，2，…，K，k≠p或q，K表示其他属性的数量；

Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度；

Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度；

且单一潜在新客与单一存量客户的相似度的计算方法为：

其中，Sim(NC_z,EC_y)表示潜在新客NC_z与存量客户EC_y的相似度；

NC_z表示第z个潜在新客，EC_y表示第y个存量客户；

{w₁,w₂,…,w_i,…:w_I}表示知识图谱中所有属性的权重；

5.如权利要求4所述的一种基于知识图谱的新客识别装置，其特征在于，所述知识图谱中各个属性的权重的计算方法为：

其中，I表示知识图谱中的属性数量；

w_i表示知识图谱中第i个属性的权重，i＝1，2，…，I；

6.一种存储介质，其特征在于，其存储用于基于知识图谱的新客识别的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-3任一项所述的基于知识图谱的新客识别方法。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1-3任一项所述的基于知识图谱的新客识别方法。