CN117573803B - 基于知识图谱的新客识别方法和装置 - Google Patents

基于知识图谱的新客识别方法和装置 Download PDF

Info

Publication number
CN117573803B
CN117573803B CN202311527886.0A CN202311527886A CN117573803B CN 117573803 B CN117573803 B CN 117573803B CN 202311527886 A CN202311527886 A CN 202311527886A CN 117573803 B CN117573803 B CN 117573803B
Authority
CN
China
Prior art keywords
attribute
stock
potential new
similarity
guest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311527886.0A
Other languages
English (en)
Other versions
CN117573803A (zh
Inventor
阮传宏
徐兢一
王驭
甘江彬
张邦华
范佳健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Credit Bureau Co ltd
Original Assignee
Anhui Credit Bureau Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Credit Bureau Co ltd filed Critical Anhui Credit Bureau Co ltd
Priority to CN202311527886.0A priority Critical patent/CN117573803B/zh
Publication of CN117573803A publication Critical patent/CN117573803A/zh
Application granted granted Critical
Publication of CN117573803B publication Critical patent/CN117573803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于知识图谱的新客识别方法、装置、存储介质和电子设备,涉及数据处理技术领域。通过先基于存量客户的若干属性信息构建图数据库以及知识图谱;再基于各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;随后基于潜在新客的若干属性信息获取潜在新客的每个属性与存量客户的所有属性中的最高相似度;进而获取单一潜在新客与单一存量客户的相似度;再获取潜在新客与所有存量客户的相似度;最后基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。对数据量和数据维度的依赖性不高,尤其适合缺少负样本的场景,符合多数实际商业场景的情况。

Description

基于知识图谱的新客识别方法和装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于知识图谱的新客识别方法、装置、存储介质和电子设备。
背景技术
知识图谱是人工智能的一项分支技术,用于以符号形式描述物理世界中的概念及其相互关系,使用“实体-关系-实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱的图存储在图数据库,图数据库以图论为理论基础,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。因此知识图谱可以把领域中异构的知识结构化,构建知识间的关联,可以支撑大规模的数据分析需要。而寻找新客户一直都是企业发展的关键课题,如何基于存量客户找到潜在的相似客户是业务拓展的重要方向,也是一项难题。
当前潜在客户相似性拓展的方式主要为基于存量客户进行数据样本的数理统计,再预测未知客户与存量客户的相似性。该过程需要较大的样本数和足够多的数据维度进行支撑,且需要一定量的正负样本来实现监督学习。但是实际业务中,存量客户基本均为正样本,很少情况下会留有负样本。且.基于数理统计的监督学习,不能直观的传导相似性,引入知识图谱,可以通过节点之间边的关系来传导相似,实现客户的相似性拓展。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于知识图谱的新客识别方法、装置、存储介质和电子设备,解决了现有方法在分析潜在客户时,负样本数据获取困难的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供了一种基于知识图谱的新客识别方法,该方法包括:
基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱;所述知识图谱包括客户节点和属性节点,所述属性信息包括普通属性和互斥属性;
基于知识图谱中各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;
基于潜在新客的若干属性信息更新图数据库和知识图谱,并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度;
基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度,获取单一潜在新客与单一存量客户的相似度;
基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度;
基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。
进一步的,所述知识图谱中各个属性的权重的计算方法为:
其中,I表示知识图谱中的属性数量;
wi表示知识图谱中第i个属性的权重,i=1,2,…,I;
ni表示知识图谱中第i个属性对应的边指向的所有客户节点的数量。
进一步的,所述潜在新客的每个属性与存量客户的所有属性中的最高相似度的计算方法为:
Sp=MAX(Sim(p,q))
其中,Sp表示潜在新客的第p个属性与存量客户的所有属性中的最高相似度;p=1,2,…,P;P表示潜在新客的属性数量;
Sim(p,q)表示潜在新客的第p个属性与存量客户的第q个属性的相似度;q=1,2,…,Q;Q表示存量客户的属性数量;
且当潜在新客的第p个属性和存量客户的第q个属性不属于互斥属性时,Sim(p,q)的计算方法为:
其中,ep表示潜在新客的第p个属性对应的节点在知识图谱中边的数量;
eq表示存量客户的第q个属性对应的节点在知识图谱中边的数量;
econj表示潜在新客的第p个属性对应的节点与存量客户的第q个属性对应的节点在知识图谱中指向同一客户节点的边数量;
当潜在新客的第p个属性和存量客户的第q个属性为互斥属性时,Sim(p,q)的计算方法为:
Sim(p,q)=MAX(Sim(p,k)×Sim(q,k)
其中,k=1,2,…,K,k≠p或q,K表示其他属性的数量;
Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度;
Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度。
进一步的,所述单一潜在新客与单一存量客户的相似度的计算方法为:
其中,Sim(NCz,ECy)表示潜在新客NCz与存量客户ECy的相似度;
NCz表示第z个潜在新客,ECy表示第y个存量客户;
wp表示潜在新客的第p个属性对应的权重,wp∈{w1,w2,…,wi,…:wI};
wq表示存量客户的第q个属性对应的权重,wq∈{w1,w2,…,wi,…:wI};
{w1,w2,…,wi,…:wI}表示知识图谱中所有属性的权重。
进一步的,所述潜在新客与所有存量客户的相似度,包括:
按所述单一潜在新客与单一存量客户的相似度从高至低进行排序,并取前10%的相似度来计算平均值作为该潜在新客与所有存量客户的相似度;
且所述基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客,包括:
所述预设阈值由经过监督学习训练的机器学习模型获取,且按所述潜在新客与所有存量客户的相似度从高至低进行排序,并取大于预设阈值的相似度作为新客。
第二方面,提供了一种基于知识图谱的新客识别装置,该装置包括:
知识图谱构建模块,用于基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱;所述知识图谱包括客户节点和属性节点,所述属性信息包括普通属性和互斥属性;
属性权重计算模块,用于基于知识图谱中各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;
最高相似度计算模块,基于潜在新客的若干属性信息更新图数据库和知识图谱,并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度;
单一客户相似度计算模块,用于基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度,获取单一潜在新客与单一存量客户的相似度;
新客相似度计算模块,用于基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度;
新客识别模块,用于基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。
进一步的,所述知识图谱中各个属性的权重的计算方法为:
其中,I表示知识图谱中的属性数量;
wi表示知识图谱中第i个属性的权重,i=1,2,…,I;
ni表示知识图谱中第i个属性对应的边指向的所有客户节点的数量。
进一步的,所述潜在新客的每个属性与存量客户的所有属性中的最高相似度的计算方法为:
Sp=MAX(Sim(p,q))
其中,Sp表示潜在新客的第p个属性与存量客户的所有属性中的最高相似度;p=1,2,…,P;P表示潜在新客的属性数量;
Sim(p,q)表示潜在新客的第p个属性与存量客户的第q个属性的相似度;q=1,2,…,Q;Q表示存量客户的属性数量;
且当潜在新客的第p个属性和存量客户的第q个属性不属于互斥属性时,Sim(p,q)的计算方法为:
其中,ep表示潜在新客的第p个属性对应的节点在知识图谱中边的数量;
eq表示存量客户的第q个属性对应的节点在知识图谱中边的数量;
econj表示潜在新客的第p个属性对应的节点与存量客户的第q个属性对应的节点在知识图谱中指向同一客户节点的边数量;
当潜在新客的第p个属性和存量客户的第q个属性为互斥属性时,Sim(p,q)的计算方法为:
Sim(p,q)=MAX(Sim(p,k)×Sim(q,k)
其中,k=1,2,…,K,k≠p或q,K表示其他属性的数量;
Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度;
Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度;
且所述单一潜在新客与单一存量客户的相似度的计算方法为:
其中,Sim(NCz,ECy)表示潜在新客NCz与存量客户ECy的相似度;
NCz表示第z个潜在新客,ECy表示第y个存量客户;
wp表示潜在新客的第p个属性对应的权重,wp∈{w1,w2,…,wi,…:wI};
wq表示存量客户的第q个属性对应的权重,wq∈{w1,w2,…,wi,…:wI};
{w1,w2,…,wi,…:wI}表示知识图谱中所有属性的权重。
第三方面,提供了一种存储介质,其存储用于基于知识图谱的新客识别的计算机程序,其中,所述计算机程序使得计算机执行上述的基于知识图谱的新客识别方法。
第四方面,提供了一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行上述的基于知识图谱的新客识别方法。
(三)有益效果
本发明提供了一种基于知识图谱的新客识别方法、装置、存储介质和电子设备。与现有技术相比,具备以下有益效果:
1.本发明实施例的方法能符合多数实际商业场景的情况,解决商业场景下对未知的潜在客户的挖掘与分析,对数据量和数据维度的依赖性不高,尤其适合缺少负样本(拒绝服务)的场景;
2.本发明实施例的方法可解释性强,通过知识图谱可以清楚的可视化存量客户的具体情况,也可以清楚的查看潜在客户与存量客户的相似度情况;
3.本发明实施例的方法运行速度快,将客户数据存放入图数据库后,比一般的数据库具有更快的查询与分析速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的流程图;
图2为本发明实施例构建的知识图谱的可视化示意图;
图3为本发明实施例的潜在新客的各个属性与存量客户的所有属性的相似度计算方式示意图;
图4为本发明实施例的当潜在新客的第p个属性和存量客户的第q个属性不属于互斥属性时的示意图;
图5为本发明实施例的当潜在新客的第p个属性和存量客户的第q个属性属于互斥属性时的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于知识图谱的新客识别方法、装置、存储介质和电子设备,解决了现有方法在分析潜在客户时,负样本数据获取困难的问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例1:
如图1所示,本发明提供了一种基于知识图谱的新客识别方法,该方法由计算机执行,该方法包括:
基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱;所述知识图谱包括客户节点和属性节点,所述属性信息包括普通属性和互斥属性;
基于知识图谱中各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;
基于潜在新客的若干属性信息更新图数据库和知识图谱,并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度;
基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度,获取单一潜在新客与单一存量客户的相似度;
基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度;
基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。
本发明实施例与现有技术相比,具有以下有益效果:
1.本发明实施例的方法能符合多数实际商业场景的情况,解决商业场景下对未知的潜在客户的挖掘与分析,对数据量和数据维度的依赖性不高,尤其适合缺少负样本(拒绝服务)的场景;
2.本发明实施例的方法可解释性强,通过知识图谱可以清楚的可视化存量客户的具体情况,也可以清楚的查看潜在客户与存量客户的相似度情况;
3.本发明实施例的方法运行速度快,将客户数据存放入图数据库后,比一般的数据库具有更快的查询与分析速度。
下面对本实施例的具体实现方式进行详细说明:
S1、基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱;
在具体实施时,存量客户作为正样本以建立图数据库,用于存储存量客户的各类加工后的属性信息,可视化为知识图谱后如图2所示,其中较小的圆形节点为客户节点,代表存量客户,较大的圆形节点代表属性节点,属性还可进一步分为普通属性和互斥属性。
属性之间通过指向相同的存量客户而互相关联,客户的普通属性之间不互斥,但互斥属性之间互斥,例如客户的年龄属于互斥属性,例如年龄可以是21~30岁和31~40岁中的一个,同一个用户节点不会同时指向多个互斥属性。
例如,在图2中所有存量客户的所有属性为X={x1,x2,x3,…,x10},共I=10个属性;其中,x6和x7为一对互斥属性,两者不会指向同一个客户;且图2中的x1,x2,x3,x4,x5,x8,x9,x10为普通属性。
一个属性也会指向多个客户,形成一个簇团,所述簇团为各个属性的边指向的所有客户节点;例如,图2中属性x2的边指向的所有客户节点作为一个簇团,共有15个用户节点。
以位于图片中心的存量客户对应的客户节点为例,其所有属性为X0={x1,x2,x3,x6,x8,x9},共Q=6个属性。
S2、基于知识图谱中各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;
在具体实施时,由于所有存量客户都曾接受了企业服务(正样本),可以认为簇团大的属性对正样本的影响力大,因此可利用属性节点和周围的客户节点形成的簇团的大小推测属性节点对客户行为的影响力(即权重),具体可采用如下公式获取到各个属性的权重:
其中,I表示知识图谱中的属性数量;
wi表示知识图谱中第i个属性的权重,i=1,2,…,I;
ni表示知识图谱中第i个属性对应的边指向的所有客户节点的数量,i=1,2,…,I;
S3、基于潜在新客的若干属性信息更新图数据库和知识图谱,并获取潜在新客的第p个属性与存量客户的所有属性中的最高相似度;
在具体实施时,潜在新客的所有属性可表示为X1,其属性的数量表示为P;存量客户的所有属性可表示为X0,其属性的数量表示为Q;
如图3所示,加入知识图谱的潜在新客也同样具有诸多属性信息,图3中的潜在新客的所有属性为X1={x1,x2,x3,x6,x9},共P=5个属性,某个存量客户的所有属性为X0={x4,x5,x7,x8,x10};x1,x2,x3,x4,x5,x8,x9,x10为相互不互斥的普通属性,而x6和x7为互斥属性;
所述潜在新客的某个属性与存量客户的所有属性中的最高相似度可表示为:
Sp=MAX(Sim(p,q))
其中,Sp表示潜在新客的第p个属性与存量客户的所有属性中的最高相似度;p=1,2,…,P;P表示潜在新客的属性数量;
Sim(p,q)表示潜在新客的第p个属性与存量客户的第q个属性的相似度;q=1,2,…,Q;Q表示存量客户的属性数量;
(1)如图4所示,当潜在新客的第p个属性和存量客户的第q个属性不属于互斥属性时,Sim(p,q)可采用如下公式计算:
其中,ep表示潜在新客的第p个属性对应的节点在知识图谱中边的数量;
eq表示存量客户的第q个属性对应的节点在知识图谱中边的数量;
econj表示潜在新客的第p个属性对应的节点与存量客户的第q个属性对应的节点在知识图谱中指向同一客户节点的边数量;
(2)如图5所示,当潜在新客的第p个属性和存量客户的第q个属性为互斥属性时,属性之间相似度只能通过其他属性间接评价。实际情况中,x6和x7会通过所有其他属性K来进行关联,k∈K,Sim(p,q)可采用如下公式计算:
Sim(p,q)=MAX(Sim(p,k)×Sim(q,k))
其中,潜在新客的第p个属性和存量客户的第q个属性为互斥的子属性;
k=1,2,…,K,k≠p或q,K表示其他属性的数量;
Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度;
Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度;
S4、基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度,获取单一潜在新客与单一存量客户的相似度;
在具体实施时,潜在新客NCz与存量客户ECy的相似度的计算公式如下:
其中,Sim(NCz,ECy)表示潜在新客NCz与存量客户ECy的相似度;
NCz表示第z个潜在新客,ECy表示第y个存量客户;
wp表示潜在新客的第p个属性对应的权重,wp∈{w1,w2,…,wi,…:wI};
wq表示存量客户的第q个属性对应的权重,wq∈{w1,w2,…,wi,…:wI};
S5、基于单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度。
在具体实施时,可按所述单一潜在新客与单一存量客户的相似度从高至低进行排序,并取前10%的相似度来计算平均值作为该潜在新客与所有存量客户的相似度。其中,10%为经验值,由人工设定。
S6、基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。
在具体实施时,利用关联性做出合理的业务推测,对相似度最高的潜在新客进行发展,明确其对业务的兴趣与否,在积累发展了一部分新客之后,通过图算法的机器学习,可以通过监督学习训练出有意向的新客户相似度阈值,未来可对相似度大于阈值对潜在客户进行发展。
例如共有100个潜在新客,经过上述步骤可得到各自与存量客户的相似度,共100个,假设预设阈值的初始值为50%,即将相似度前50%的潜在新客作为可发展的新客;后续根据业务新客发展的实际情况,对这个预设阈值进行更新,最终得到这个最优阈值以提高准确度。
实施例2:
一种基于知识图谱的新客获取装置,该装置包括:
知识图谱构建模块,用于基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱;所述知识图谱包括客户节点和属性节点,所述属性信息包括普通属性和互斥属性;
属性权重计算模块,用于基于知识图谱中各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;
最高相似度计算模块,基于潜在新客的若干属性信息更新图数据库和知识图谱,并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度;
单一客户相似度计算模块,用于基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度,获取单一潜在新客与单一存量客户的相似度;
新客相似度计算模块,用于基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度;
新客识别模块,用于基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。
实施例3:
一种存储介质,其存储用于基于知识图谱的新客识别的计算机程序,其中,所述计算机程序使得计算机执行如下方法:
基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱;所述知识图谱包括客户节点和属性节点,所述属性信息包括普通属性和互斥属性;
基于知识图谱中各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;
基于潜在新客的若干属性信息更新图数据库和知识图谱,并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度;
基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度,获取单一潜在新客与单一存量客户的相似度;
基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度;
基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。
实施例4:
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如下步骤:
基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱;所述知识图谱包括客户节点和属性节点,所述属性信息包括普通属性和互斥属性;
基于知识图谱中各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;
基于潜在新客的若干属性信息更新图数据库和知识图谱,并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度;
基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度,获取单一潜在新客与单一存量客户的相似度;
基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度;
基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。
可理解的是,本发明实施例提供的基于知识图谱的新客获取装置、存储介质以及电子设备与上述基于知识图谱的新客识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于知识图谱的新客识别方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,本发明具备以下有益效果:
1.本发明实施例的方法能符合多数实际商业场景的情况,解决商业场景下对未知的潜在客户的挖掘与分析,对数据量和数据维度的依赖性不高,尤其适合缺少负样本(拒绝服务)的场景;
2.本发明实施例的方法可解释性强,通过知识图谱可以清楚的可视化存量客户的具体情况,也可以清楚的查看潜在客户与存量客户的相似度情况;
3.本发明实施例的方法运行速度快,将客户数据存放入图数据库后,比一般的数据库具有更快的查询与分析速度。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于知识图谱的新客识别方法,其特征在于,该方法包括:
基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱;所述知识图谱包括客户节点和属性节点,所述属性信息包括普通属性和互斥属性;
基于知识图谱中各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;
基于潜在新客的若干属性信息更新图数据库和知识图谱,并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度;
基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度,获取单一潜在新客与单一存量客户的相似度;
所述潜在新客的每个属性与存量客户的所有属性中的最高相似度的计算方法为:
Sp=MAX(Sim(p,q))
其中,Sp表示潜在新客的第p个属性与存量客户的所有属性中的最高相似度;p=1,2,…,P;P表示潜在新客的属性数量;
Sim(p,q)表示潜在新客的第p个属性与存量客户的第q个属性的相似度;q=1,2,…,Q;Q表示存量客户的属性数量;
且当潜在新客的第p个属性和存量客户的第q个属性不属于互斥属性时,Sim(p,q)的计算方法为:
其中,ep表示潜在新客的第p个属性对应的节点在知识图谱中边的数量;
eq表示存量客户的第q个属性对应的节点在知识图谱中边的数量;
econj表示潜在新客的第p个属性对应的节点与存量客户的第q个属性对应的节点在知识图谱中指向同一客户节点的边数量;
当潜在新客的第p个属性和存量客户的第q个属性为互斥属性时,Sim(p,q)的计算方法为:
Sim(p,q)=MAX(Sim(p,k)×Sim(q,k))
其中,k=1,2,…,K,k≠p或q,K表示其他属性的数量;
Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度;
Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度;
基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度;
所述单一潜在新客与单一存量客户的相似度的计算方法为:
其中,Sim(NCz,ECy)表示潜在新客NCz与存量客户ECy的相似度;
NCz表示第z个潜在新客,ECy表示第y个存量客户;
wp表示潜在新客的第p个属性对应的权重,wp∈{w1,w2,…,wi,…:wI};
wq表示存量客户的第q个属性对应的权重,wq∈{w1,w2,…,wi,…:wI};
{w1,w2,…,wi,…:wI}表示知识图谱中所有属性的权重;
基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。
2.如权利要求1所述的一种基于知识图谱的新客识别方法,其特征在于,所述知识图谱中各个属性的权重的计算方法为:
其中,I表示知识图谱中的属性数量;
wi表示知识图谱中第i个属性的权重,i=1,2,…,I;
ni表示知识图谱中第i个属性对应的边指向的所有客户节点的数量。
3.如权利要求1所述的一种基于知识图谱的新客识别方法,其特征在于,所述潜在新客与所有存量客户的相似度,包括:
按所述单一潜在新客与单一存量客户的相似度从高至低进行排序,并取前10%的相似度来计算平均值作为该潜在新客与所有存量客户的相似度;
且所述基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客,包括:
所述预设阈值由经过监督学习训练的机器学习模型获取,且按所述潜在新客与所有存量客户的相似度从高至低进行排序,并取大于预设阈值的相似度作为新客。
4.一种基于知识图谱的新客识别装置,其特征在于,该装置包括:
知识图谱构建模块,用于基于多个存量客户的若干属性信息构建图数据库以及对应的知识图谱;所述知识图谱包括客户节点和属性节点,所述属性信息包括普通属性和互斥属性;
属性权重计算模块,用于基于知识图谱中各个属性节点的边指向的所有客户节点的数量,获取知识图谱中各个属性的权重;
最高相似度计算模块,基于潜在新客的若干属性信息更新图数据库和知识图谱,并获取潜在新客的每个属性与存量客户的所有属性中的最高相似度;
所述潜在新客的每个属性与存量客户的所有属性中的最高相似度的计算方法为:
Sp=MAX(Sim(p,q))
其中,Sp表示潜在新客的第p个属性与存量客户的所有属性中的最高相似度;p=1,2,…,P;P表示潜在新客的属性数量;
Sim(p,q)表示潜在新客的第p个属性与存量客户的第q个属性的相似度;q=1,2,…,Q;Q表示存量客户的属性数量;
且当潜在新客的第p个属性和存量客户的第q个属性不属于互斥属性时,Sim(p,q)的计算方法为:
其中,ep表示潜在新客的第p个属性对应的节点在知识图谱中边的数量;
eq表示存量客户的第q个属性对应的节点在知识图谱中边的数量;
econj表示潜在新客的第p个属性对应的节点与存量客户的第q个属性对应的节点在知识图谱中指向同一客户节点的边数量;
当潜在新客的第p个属性和存量客户的第q个属性为互斥属性时,Sim(p,q)的计算方法为:
Sim(p,q)=MAX(Sim(p,k)×Sim(q,k))
其中,k=1,2,…,K,k≠p或q,K表示其他属性的数量;
Sim(p,k)表示潜在新客的第p个属性与第k个其他属性的相似度;
Sim(q,k)表示存量客户的第q个属性与第k个其他属性的相似度;
且单一潜在新客与单一存量客户的相似度的计算方法为:
其中,Sim(NCz,ECy)表示潜在新客NCz与存量客户ECy的相似度;
NCz表示第z个潜在新客,ECy表示第y个存量客户;
wp表示潜在新客的第p个属性对应的权重,wp∈{w1,w2,…,wi,…:wI};
wq表示存量客户的第q个属性对应的权重,wq∈{w1,w2,…,wi,…:wI};
{w1,w2,…,wi,…:wI}表示知识图谱中所有属性的权重;
单一客户相似度计算模块,用于基于所述潜在新客的每个属性与存量客户的所有属性中的最高相似度,获取单一潜在新客与单一存量客户的相似度;
新客相似度计算模块,用于基于所述单一潜在新客与单一存量客户的相似度获取潜在新客与所有存量客户的相似度;
新客识别模块,用于基于预设阈值和所有所述潜在新客与所有存量客户的相似度在所有潜在新客中筛选出用于后续发展的新客。
5.如权利要求4所述的一种基于知识图谱的新客识别装置,其特征在于,所述知识图谱中各个属性的权重的计算方法为:
其中,I表示知识图谱中的属性数量;
wi表示知识图谱中第i个属性的权重,i=1,2,…,I;
ni表示知识图谱中第i个属性对应的边指向的所有客户节点的数量。
6.一种存储介质,其特征在于,其存储用于基于知识图谱的新客识别的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-3任一项所述的基于知识图谱的新客识别方法。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1-3任一项所述的基于知识图谱的新客识别方法。
CN202311527886.0A 2023-11-14 2023-11-14 基于知识图谱的新客识别方法和装置 Active CN117573803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311527886.0A CN117573803B (zh) 2023-11-14 2023-11-14 基于知识图谱的新客识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311527886.0A CN117573803B (zh) 2023-11-14 2023-11-14 基于知识图谱的新客识别方法和装置

Publications (2)

Publication Number Publication Date
CN117573803A CN117573803A (zh) 2024-02-20
CN117573803B true CN117573803B (zh) 2024-04-19

Family

ID=89885575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311527886.0A Active CN117573803B (zh) 2023-11-14 2023-11-14 基于知识图谱的新客识别方法和装置

Country Status (1)

Country Link
CN (1) CN117573803B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729444A (zh) * 2017-09-30 2018-02-23 桂林电子科技大学 一种基于知识图谱的个性化旅游景点推荐方法
CN109885693A (zh) * 2019-01-11 2019-06-14 武汉大学 基于知识图谱的快速知识对比方法及***
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN111259137A (zh) * 2020-01-17 2020-06-09 平安科技(深圳)有限公司 知识图谱摘要的生成方法及***
CN111737481A (zh) * 2019-10-10 2020-10-02 北京沃东天骏信息技术有限公司 知识图谱的降噪方法、装置、设备和存储介质
CN114022246A (zh) * 2021-11-05 2022-02-08 平安科技(深圳)有限公司 一种产品信息的推送方法、装置、终端设备和存储介质
CN115631365A (zh) * 2022-09-29 2023-01-20 浙江大学 一种融合知识图谱的跨模态对比零样本学习方法
CN116012060A (zh) * 2022-12-05 2023-04-25 中信银行股份有限公司 一种客户亲密度计算方法、装置、设备及可读存储介质
CN116860981A (zh) * 2022-03-25 2023-10-10 中移动信息技术有限公司 潜在客户挖掘方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210143608A (ko) * 2020-05-20 2021-11-29 삼성전자주식회사 컴퓨팅 장치 및 그 동작 방법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729444A (zh) * 2017-09-30 2018-02-23 桂林电子科技大学 一种基于知识图谱的个性化旅游景点推荐方法
CN109885693A (zh) * 2019-01-11 2019-06-14 武汉大学 基于知识图谱的快速知识对比方法及***
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN111737481A (zh) * 2019-10-10 2020-10-02 北京沃东天骏信息技术有限公司 知识图谱的降噪方法、装置、设备和存储介质
CN111259137A (zh) * 2020-01-17 2020-06-09 平安科技(深圳)有限公司 知识图谱摘要的生成方法及***
CN114022246A (zh) * 2021-11-05 2022-02-08 平安科技(深圳)有限公司 一种产品信息的推送方法、装置、终端设备和存储介质
CN116860981A (zh) * 2022-03-25 2023-10-10 中移动信息技术有限公司 潜在客户挖掘方法及装置
CN115631365A (zh) * 2022-09-29 2023-01-20 浙江大学 一种融合知识图谱的跨模态对比零样本学习方法
CN116012060A (zh) * 2022-12-05 2023-04-25 中信银行股份有限公司 一种客户亲密度计算方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN117573803A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN111966914B (zh) 基于人工智能的内容推荐方法、装置和计算机设备
US20120173465A1 (en) Automatic Variable Creation For Adaptive Analytical Models
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
CN111723292B (zh) 基于图神经网络的推荐方法、***、电子设备及存储介质
CN115203311B (zh) 一种基于数据大脑的行业数据分析挖掘方法及***
Vivekanandan et al. Mining data streams with concept drifts using genetic algorithm
CN113554175B (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
CN116151235A (zh) 文章生成方法、文章生成模型训练方法及相关设备
CN114781611A (zh) 自然语言处理方法、语言模型训练方法及其相关设备
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN112328881A (zh) 文章推荐方法、装置、终端设备及存储介质
CN112256884A (zh) 一种基于知识图谱的数据资产库访问方法和装置
CN117573803B (zh) 基于知识图谱的新客识别方法和装置
CN111325578A (zh) 预测模型的样本确定方法及装置、介质和设备
CN116562274A (zh) 一种目标主题确定方法及装置
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN113010759B (zh) 聚类集合的处理方法、装置、计算机可读介质及电子设备
CN115034762A (zh) 一种岗位推荐方法、装置、存储介质、电子设备及产品
CN112948561B (zh) 一种问答知识库自动扩建的方法和装置
CN110472140B (zh) 对象词推荐方法、装置及电子设备
Arshad et al. A Hybrid System for Customer Churn Prediction and Retention Analysis via Supervised Learning
Zarzour et al. An efficient recommender system based on collaborative filtering recommendation and cluster ensemble
CN114168733A (zh) 一种基于复杂网络的法规检索方法及***
CN114329231A (zh) 对象特征处理方法、装置、电子设备及存储介质
CN113094584A (zh) 推荐学习资源的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant