CN113807436A - 用户挖掘方法、装置、计算机设备及可读存储介质 - Google Patents

用户挖掘方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN113807436A
CN113807436A CN202111090287.8A CN202111090287A CN113807436A CN 113807436 A CN113807436 A CN 113807436A CN 202111090287 A CN202111090287 A CN 202111090287A CN 113807436 A CN113807436 A CN 113807436A
Authority
CN
China
Prior art keywords
user
matched
seed
feature vector
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111090287.8A
Other languages
English (en)
Inventor
翟永青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weikun Shanghai Technology Service Co Ltd
Original Assignee
Weikun Shanghai Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weikun Shanghai Technology Service Co Ltd filed Critical Weikun Shanghai Technology Service Co Ltd
Priority to CN202111090287.8A priority Critical patent/CN113807436A/zh
Publication of CN113807436A publication Critical patent/CN113807436A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能技术,提供了用户挖掘方法、装置、计算机设备及可读存储介质,方法包括:根据目标产品的种子用户的用户数据,确定种子用户的第一原始特征向量;根据目标产品的待匹配用户的用户数据,确定待匹配用户的第二原始特征向量;根据预设的树模型对种子用户的第一原始特征向量进行处理,得到种子用户的第一衍生特征向量;根据树模型对待匹配用户的第二原始特征向量进行处理,得到待匹配用户的第二衍生特征向量;根据种子用户的第一原始特征向量和第一衍生特征向量,以及待匹配用户的第二原始特征向量和第二衍生特征向量,确定待匹配用户与种子用户之间的相似度;根据相似度,从待匹配用户中选取目标产品的潜在目标用户。

Description

用户挖掘方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于相似度匹配的用户挖掘方法、一种基于相似度匹配的用户挖掘装置、一种计算机设备、及一种计算机可读存储介质。
背景技术
随着社交的日益发展,用户的个性化需求越来越多,产品也越来越丰富,销售人员难以及时将产品推送给有需求的用户。
为了帮助产品找到它想要寻找到的目标人群,提高产品人群定向投放效率,通常需要挖掘产品潜在的目标用户。
在现有技术中,可以通过用户画像标签扩展的方法,实现***的挖掘。具体的,该方法是基于平台给定的用户数据,根据现有种子用户所提供的用户标签,在待匹配用户人群的画像标签中找到与种子用户目标标签类似的人群,作为潜在的目标用户。但是,这种方法只从种子用户的用户标签去确定潜在的目标用户,存在种子用户的目标标签数据不全面且难以获取的缺点,而且,该方法并没有全面地去评估种子用户的所有标签,扩展出的潜在目标用户精度不高,效率较低。
还可以通过相似扩展分类模型的方法,实现***的挖掘。具体的,该方法是在先确定非种子用户组成的负样本以及由种子用户组成的正样本之后,利用用户画像信息以及浏览行为信息,将其对应转化为特征矩阵后,训练预先确定的分类模型,将待匹配用户中的非种子用户的用户特征矩阵输入到所述的训练后的分类模型,得到该待匹配用户非种子用户对应的分类结果,根据分类结果用于判断对应的非种子用户是否为所述种子用户的相似用户,将所述种子用户的相似用户作为潜在的目标用户。但是,这种方法有些过于依赖种子用户,但当种子用户特征不明显,且由种子用户组成的正样本和非种子用户的负样本定义比较难以定义时,尤其是在进行新产品的***的挖掘上,会出现挖掘的困难的问题。
发明内容
本发明的一个目的是提供一种能够准确挖掘目标产品的***的新技术方案。
根据本发明的第一方面,提供了一种基于相似度匹配的用户挖掘方法,包括:
步骤S110,根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量;
步骤S120,根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量;
步骤S130,根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度;
步骤S140,根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户。
可选的,所述根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量,包括:
根据所述种子用户的用户数据进行特征提取,得到所述种子用户的原始特征的特征值;
根据所述种子用户的原始特征的特征值,确定所述种子用户的第一原始特征向量;
所述根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量,包括:
根据所述待匹配用户的用户数据进行特征提取,得到所述待匹配用户的原始特征的特征值;
根据所述待匹配用户的原始特征的特征值,确定所述待匹配用户的第二原始特征向量。
可选的,所述根据所述种子用户的原始特征的特征值,确定所述种子用户的第一原始特征向量之前,所述方法还包括:
根据所述种子用户的原始特征的特征值,对所述种子用户进行聚类,删除离群的种子用户。
可选的,所述方法还包括:
对所述原始特征进行分组,得到至少一个特征分组,其中,每个所述特征分组中包括至少一个原始特征;
所述根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度包括:
根据所述种子用户的所述第一原始特征向量,确定所述种子用户对应每一特征分组的第一子特征向量;根据所述待匹配用户的第二原始特征向量,确定所述待匹配用户对应每一特征分组的第二子特征向量;
对于每一特征分组,根据所述种子用户对应该特征分组的第一子特征向量,以及所述待匹配用户对于该特征分组的第二子特征向量,确定所述种子用户和所述待匹配用户对应该特征分组的原始相似度;
根据所述种子用户的第一衍生特征向量和所述待匹配用户的第二衍生特征向量,确定所述种子用户和所述待匹配用户的衍生相似度;
根据所述种子用户和所述待匹配用户对应每一特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度,确定所述种子用户和所述待匹配用户之间的相似度。
可选的,所述根据所述种子用户和所述待匹配用户对应每一特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度,确定所述种子用户和所述待匹配用户之间的相似度,包括:
对所述种子用户和所述待匹配用户对应所有特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度进行求和,得到所述种子用户和所述待匹配用户之间的相似度。
可选的,所述根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户,包括:
根据与所述种子用户之间的相似度,对所述待匹配用户进行降序排序,并获取每个所述待匹配用户的排序值;
选取排序值在设定范围内的待匹配用户,作为所述潜在目标用户。
可选的,所述方法还包括:
根据所述种子用户的用户数据,确定所述种子用户的标签,所述标签用于表示所述种子用户是否购买所述目标产品;
根据所述种子用户的第一原始特征向量和标签,生成训练样本;
基于预设的树模型算法,根据所述训练样本进行机器学习训练,得到所述树模型。
根据本发明的第二方面,提供了一种基于相似度匹配的用户挖掘装置,包括:
原始特征向量确定模块,用于根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量;
衍生特征向量确定模块,用于根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量;
相似度确定模块,用于根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度;
目标用户选取模块,用于根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户。
根据本发明的第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明第一方面所述方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明第一方面所述方法的步骤。
本发明的一个有益效果在于,根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量;根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量;根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度;根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户,可以提高选取的目标产品的潜在目标用户的准确率。
而且,本实施例的方法通过构建全面、丰富的标签,通过相似度挖掘潜在目标用户,可以提升营销活动选人效率,降低运营成本;此外,还能通过智能化获取用户的线上行为数据,进行标签化并构建用户对应的用户特征矩阵;此外,还加入了衍生特征向量,有利于减少因无法采集用户的全部行为而导致构建出的用户特征向量不全面的问题;此外,还能为不同来源的数据提供大类组别分类,有利于提高相似度计算的准确性。可以更有效率地挖掘出与种子用户相似的潜在目标用户,提高了效率,产生了更多的经济效益。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是可用于实现本发明的实施例的计算机设备的硬件配置的一个例子的框图。
图2示出了本发明的实施例的基于相似度匹配的用户挖掘方法的其中一个例子的流程图。
图3示出了本发明的实施例的基于相似度匹配的用户挖掘装置的方框原理图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是可用于实现本说明书任意实施例的基于相似度匹配的用户挖掘方法的计算机设备1000的硬件配置的框图。
该计算机设备1000可以包括但不限于处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、图形处理器GPU、微处理器MCU等,用于执行计算机程序,该计算机程序可以采用比如x86、Arm、RISC、MIPS、SSE等架构的指令集编写。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口、并行接口等。通信装置1400例如能够利用光纤或电缆进行有线通信,或者进行无线通信,具体地可以包括WiFi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。扬声器1700用于输出音频信号。麦克风1800用于采集音频信号。
应用于本公开实施例中,计算机设备1000的存储器1200用于存储计算机程序,该计算机程序用于控制所述处理器1100进行操作以实现根据本公开实施例的方法。技术人员可以根据本公开所公开方案设计该计算机程序。该计算机程序如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。该计算机设备1000可以安装有智能操作***(例如Windows、Linux、安卓、IOS等***)和应用软件。
本领域技术人员应当理解,尽管在图1中示出了计算机设备1000的多个装置,但是,本公开实施例的计算机设备1000可以仅涉及其中的部分装置,例如,只涉及处理器1100和存储器1200等。
本发明实施例的总体构思,是提供一种基于相似度匹配的用户挖掘方法,根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量;根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量;根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度;根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户,可以提高选取的目标产品的潜在目标用户的准确率。
<方法实施例>
在本实施例中,提供一种基于相似度匹配的用户挖掘方法。该方法可以是由计算机设备实施。该计算机设备可以是如图1所示的计算机设备1000。
该基于相似度匹配的用户挖掘方法,如图2所示,包括:步骤S110~S140。
步骤S110,根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量。
在本实施例中,根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量,可以包括:根据所述种子用户的用户数据进行特征提取,得到所述种子用户的原始特征的特征值,再根据所述种子用户的原始特征的特征值,确定所述种子用户的第一原始特征向量。
根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量,可以包括:根据所述待匹配用户的用户数据进行特征提取,得到所述待匹配用户的原始特征的特征值,再根据所述待匹配用户的原始特征的特征值,确定所述待匹配用户的第二原始特征向量。
在本实施例中,种子用户可以是购买了目标产品的用户。
其中,用户数据可以包括用户画像数据和行为数据。用户画像数据,可以是根据用户的属性、行为等数据所预先构建的。行为数据为表示用户行为的数据,可以是通过埋点、留痕等方式所采集得到的。
在本实施例中,原始特征可以是预先选取好的。例如,原始特征可以包括年龄,性别,投资额,投资量,浏览,产品大类,起投金额,风险等级,登录频次,时段,设备,平台新用户,投资用户量,资产管理规模等。
具体的,可以是根据所述种子用户对应每一原始特征的特征值,得到第一原始特征向量。可以是根据所述待匹配用户对应每一原始特征的特征值,得到第二原始特征向量。
在本公开的一个实施例中,在确定所述第一原始特征向量之前,该方法还可以包括:
根据所述种子用户的原始特征的特征值,对所述种子用户进行聚类,删除离群的种子用户。
由于种子用户是在长期积累中形成的,且不同业务人员投放目标是不同的,所以种子人群的成分可能非常复杂,种子人群的特征不明显,可能包含“噪音用户”种子群,需要使用聚类分析方法帮助种子用户群去掉噪音人群种子群。
具体的,可以是根据所述种子用户的原始特征的特征值,对所述种子用户进行聚类,得到至少一个用户类,其中,每个用户类中包括至少一个种子用户;确定每个用户类所包含的种子用户的数量;将数量小于数量阈值的用户类中所包含的种子用户作为离群的种子用户,删除离群的种子用户。
其中,数量阈值可以是预先根据应用场景或具体需求所设定的,例如,该数量阈值可以是5。
步骤S120,根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量。
在本实施例中,预设的树模型,可以是基于XGBoost算法等树模型算法,进行机器学习训练所得到的模型。
在本实施例中,可以是对于每个种子用户,根据该种子用户的第一原始特征向量,以及该种子用户是否购买目标产品的结果,生成该种子用户的训练样本。具体的,可以是根据该种子用户的第一原始特征向量,确定训练样本的特征,根据该种子用户是否购买目标产品的结果,确定训练样本的标签。
基于树模型算法,根据训练样本进行机器学习训练,即可以得到树模型。
树模型算法有特征筛选的功能,在每次***时选取最优的***节点。因此从树的根节点到叶子节点都是筛选出来的局部最优特征,因此可以将这些特征加入模型进行训练。
该树模型中可以包括至少一个回归树,至少一个回归树可以具有相同或不同的最大深度限制。
该树模型中回归树上的每个所述叶子节点具有唯一的节点编号。根据所述种子用户的第一原始特征向量生成所述种子用户的第一预测样本,将所述种子用户的第一预测样本输入所述树模型后,根据所述种子用户的第一预测样本,遍历所述树模型中的回归树。
针对每个所述回归树,根据该回归树上决策点对所述种子用户的第一预测样本中的特征进行判断,将所述种子用户的第一预测样本在该回归树中对应的叶子节点作为目标叶子节点。然后将所述种子用户的第一预测样本在各回归树上对应的所述目标叶子节点的节点编号的集合作为所述树模型的第一处理结果,即所述种子用户的第一衍生特征向量。
根据所述待匹配用户的第而特征向量生成所述待匹配用户的第二预测样本,将所述待匹配用户的第二预测样本输入所述树模型后,根据所述待匹配用户的第二预测样本,遍历所述树模型中的回归树。
针对每个所述回归树,根据该回归树上决策点对所述待匹配用户的第二预测样本中的特征进行判断,将所述待匹配用户的第二预测样本在该回归树中对应的叶子节点作为目标叶子节点。然后将所述待匹配用户的第二预测样本在各回归树上对应的所述目标叶子节点的节点编号的集合作为所述树模型的第二处理结果,即所述待匹配用户的第二衍生特征向量。
在本实施例中,种子用户的用户画像和行为数据在挖掘潜在的潜在目标用户的信息上还不够全面,因此加入用户的产品转化率等变量可以提高***挖掘的准确率。
在本公开的一个实施例中,在将预测样本输入所述树模型之前,还可以对样本进行预处理,包括缺失值处理,字符数类型转化为整数类型等。
步骤S130,根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度。
在本实施例中,根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度可以包括如下所示的步骤S131~S134:
步骤S131,根据所述种子用户的所述第一原始特征向量,确定所述种子用户对应每一特征分组的第一子特征向量;根据所述待匹配用户的第二原始特征向量,确定所述待匹配用户对应每一特征分组的第二子特征向量。
特征分组可以是预先对原始特征进行分组所得到的,每个特征分组中可以包括至少一个原始特征。对应于一个特征分组的子特征向量,可以是根据该特征分组中所包含的原始特征的特征值确定的。
例如,原始特征可以包括年龄,性别,投资额,投资量,浏览,产品大类,起投金额,风险等级,登录频次,时段,设备,平台新用户,投资用户量,资产管理规模等。对原始特征进行分组,可以得到用户属性、用户行为、产品属性、登录信息、市场行情、用户账户等特征分组。在用户属性这一特征分组中,可以包括原始特征年龄,性别等;在用户行为这一特征分组中,可以包括原始特征投资额,投资量,浏览等;在产品属性这一特征分组中,可以包括原始特征产品大类,起投金额,风险等级等;在登录信息这一特征分组中,可以包括原始特征登录频次,时段,设备等;在市场行情这一特征分组中,可以包括原始特征平台新用户,投资用户量等;在用户账户这一特征分组中,可以包括原始特征资产管理规模等。
步骤S132,对于每一特征分组,根据所述种子用户对应该特征分组的第一子特征向量,以及所述待匹配用户对于该特征分组的第二子特征向量,确定所述种子用户和所述待匹配用户对应该特征分组的原始相似度。
在本实施例中,可以是确定所述种子用户对应该特征分组的第一子特征向量,以及所述待匹配用户对于该特征分组的第二子特征向量的余弦相似度,作为所述种子用户和所述待匹配用户对应其中一个特征分组的原始相似度。
步骤S133,根据所述种子用户的第一衍生特征向量和所述待匹配用户的第二衍生特征向量,确定所述种子用户和所述待匹配用户的衍生相似度。
在本实施例中,可以是确定所述种子用户的第一衍生特征向量和所述待匹配用户的第二衍生特征向量的余弦相似度,作为所述种子用户和所述待匹配用户的衍生相似度。
步骤S134,根据所述种子用户和所述待匹配用户对应每一特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度,确定所述种子用户和所述待匹配用户之间的相似度。
在本实施例中,可以是确定所述种子用户和所述待匹配用户对应所有特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度的总和,作为所述种子用户和所述待匹配用户之间的相似度。
步骤S140,根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户。
在一个例子中,可以是选取与所述种子用户之间的相似度最大的设定数量个待匹配用户,作为所述潜在目标用户。
其中,设定数量可以是预先根据应用场景或具体需求所设定的。例如,设定数量可以是1000。
在一个例子中,可以是根据与所述种子用户之间的相似度,对所述待匹配用户进行降序排序,并获取每个所述待匹配用户的排序值;选取排序值在设定范围内的待匹配用户,作为所述潜在目标用户。
其中,设定范围可以是预先根据应用场景或具体需求所设定的。例如,设定范围可以是[1,1500]。
与种子用户之间的相似度最大,即表明待匹配用户购买目标产品的概率越大,因此,潜在目标用户即为目标产品的***。
通过本实施例的方法,根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量;根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量;根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度;根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户,可以提高选取的目标产品的潜在目标用户的准确率。
而且,本实施例的方法通过构建全面、丰富的标签,通过相似度挖掘潜在目标用户,可以提升营销活动选人效率,降低运营成本;此外,还能通过智能化获取用户的线上行为数据,进行标签化并构建用户对应的用户特征矩阵;此外,还加入了衍生特征向量,有利于减少因无法采集用户的全部行为而导致构建出的用户特征向量不全面的问题;此外,还能为不同来源的数据提供大类组别分类,有利于提高相似度计算的准确性。可以更有效率地挖掘出与种子用户相似的潜在目标用户,提高了效率,产生了更多的经济效益。
在本公开的一个实施例中,该方法还可以包括:向所述潜在目标用户推荐所述目标产品。
在本实施例中,通过向潜在目标用户推荐目标产品,可以提高目标产品的购买率,以产生更多的经济效益。
<装置实施例>
在本实施例中,提供一种基于相似度匹配的用户挖掘装置3000,如图3所示,包括原始特征向量确定模块3100、衍生特征向量确定模块3200、相似度确定模块3300和目标用户选取模块3400。所述原始特征向量确定模块3100用于根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量;所述衍生特征向量确定模块3200用于根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量;所述相似度确定模块3300用于根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度;所述目标用户选取模块3400用于根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户。
在本公开的一个实施例中,所述原始特征向量确定模块3100具体用于:
根据所述种子用户的用户数据进行特征提取,得到所述种子用户的原始特征的特征值;
根据所述种子用户的原始特征的特征值,确定所述种子用户的第一原始特征向量;
根据所述待匹配用户的用户数据进行特征提取,得到所述待匹配用户的原始特征的特征值;
根据所述待匹配用户的原始特征的特征值,确定所述待匹配用户的第二原始特征向量。
在本公开的一个实施例中,所述基于相似度匹配的用户挖掘装置3000还可以包括:
用于根据所述种子用户的原始特征的特征值,对所述种子用户进行聚类,删除离群的种子用户的模块。
在本公开的一个实施例中,所述基于相似度匹配的用户挖掘装置3000还可以包括:
用于对所述原始特征进行分组,得到至少一个特征分组的模块,其中,每个所述特征分组中包括至少一个原始特征;
所述相似度确定模块3300具体可以用于:
根据所述种子用户的所述第一原始特征向量,确定所述种子用户对应每一特征分组的第一子特征向量;根据所述待匹配用户的第二原始特征向量,确定所述待匹配用户对应每一特征分组的第二子特征向量;
对于每一特征分组,根据所述种子用户对应该特征分组的第一子特征向量,以及所述待匹配用户对于该特征分组的第二子特征向量,确定所述种子用户和所述待匹配用户对应该特征分组的原始相似度;
根据所述种子用户的第一衍生特征向量和所述待匹配用户的第二衍生特征向量,确定所述种子用户和所述待匹配用户的衍生相似度;
根据所述种子用户和所述待匹配用户对应每一特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度,确定所述种子用户和所述待匹配用户之间的相似度。
在本公开的一个实施例中,所述根据所述种子用户和所述待匹配用户对应每一特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度,确定所述种子用户和所述待匹配用户之间的相似度,包括:
对所述种子用户和所述待匹配用户对应所有特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度进行求和,得到所述种子用户和所述待匹配用户之间的相似度。
在本公开的一个实施例中,所述目标用户选取模块3400具体用于:
根据与所述种子用户之间的相似度,对所述待匹配用户进行降序排序,并获取每个所述待匹配用户的排序值;
选取排序值在设定范围内的待匹配用户,作为所述潜在目标用户。
在本公开的一个实施例中,所述基于相似度匹配的用户挖掘装置3000还可以包括:
用于根据所述种子用户的用户数据,确定所述种子用户的标签的模块,所述标签用于表示所述种子用户是否购买所述目标产品;
用于根据所述种子用户的第一原始特征向量和标签,生成训练样本的模块;
用于基于预设的树模型算法,根据所述训练样本进行机器学习训练,得到所述树模型的模块。
本领域技术人员应当明白,可以通过各种方式来实现基于相似度匹配的用户挖掘装置3000。例如,可以通过指令配置处理器来实现基于相似度匹配的用户挖掘装置3000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现基于相似度匹配的用户挖掘装置3000。例如,可以将基于相似度匹配的用户挖掘装置3000固化到专用器件(例如ASIC)中。可以将基于相似度匹配的用户挖掘装置3000分成相互独立的单元,或者可以将它们合并在一起实现。基于相似度匹配的用户挖掘装置3000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,基于相似度匹配的用户挖掘装置3000可以具有多种实现形式,例如,基于相似度匹配的用户挖掘装置3000可以是任何的提供基于相似度匹配的用户挖掘服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<计算机设备>
本发明还提供了一种计算机设备。
该计算机设备可以包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行本公开中任意实施例的基于相似度匹配的用户挖掘方法的步骤。
通过本发明的实施例的计算机设备,根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量;根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量;根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度;根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户,可以提高选取的目标产品的潜在目标用户的准确率。
而且,本实施例的方法通过构建全面、丰富的标签,通过相似度挖掘潜在目标用户,可以提升营销活动选人效率,降低运营成本;此外,还能通过智能化获取用户的线上行为数据,进行标签化并构建用户对应的用户特征矩阵;此外,还加入了衍生特征向量,有利于减少因无法采集用户的全部行为而导致构建出的用户特征向量不全面的问题;此外,还能为不同来源的数据提供大类组别分类,有利于提高相似度计算的准确性。可以更有效率地挖掘出与种子用户相似的潜在目标用户,提高了效率,产生了更多的经济效益。
<计算机可读介质>
在本实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本实施例中所述的基于相似度匹配的用户挖掘方法的步骤。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种基于相似度匹配的用户挖掘方法,其特征在于,包括:
步骤S110,根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量;
步骤S120,根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量;
步骤S130,根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度;
步骤S140,根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户。
2.根据权利要求1所述的方法,其特征在于,所述根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量,包括:
根据所述种子用户的用户数据进行特征提取,得到所述种子用户的原始特征的特征值;
根据所述种子用户的原始特征的特征值,确定所述种子用户的第一原始特征向量;
所述根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量,包括:
根据所述待匹配用户的用户数据进行特征提取,得到所述待匹配用户的原始特征的特征值;
根据所述待匹配用户的原始特征的特征值,确定所述待匹配用户的第二原始特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述种子用户的原始特征的特征值,确定所述种子用户的第一原始特征向量之前,所述方法还包括:
根据所述种子用户的原始特征的特征值,对所述种子用户进行聚类,删除离群的种子用户。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述原始特征进行分组,得到至少一个特征分组,其中,每个所述特征分组中包括至少一个原始特征;
所述根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度包括:
根据所述种子用户的所述第一原始特征向量,确定所述种子用户对应每一特征分组的第一子特征向量;根据所述待匹配用户的第二原始特征向量,确定所述待匹配用户对应每一特征分组的第二子特征向量;
对于每一特征分组,根据所述种子用户对应该特征分组的第一子特征向量,以及所述待匹配用户对于该特征分组的第二子特征向量,确定所述种子用户和所述待匹配用户对应该特征分组的原始相似度;
根据所述种子用户的第一衍生特征向量和所述待匹配用户的第二衍生特征向量,确定所述种子用户和所述待匹配用户的衍生相似度;
根据所述种子用户和所述待匹配用户对应每一特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度,确定所述种子用户和所述待匹配用户之间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述种子用户和所述待匹配用户对应每一特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度,确定所述种子用户和所述待匹配用户之间的相似度,包括:
对所述种子用户和所述待匹配用户对应所有特征分组的原始相似度,以及所述种子用户和所述待匹配用户的衍生相似度进行求和,得到所述种子用户和所述待匹配用户之间的相似度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户,包括:
根据与所述种子用户之间的相似度,对所述待匹配用户进行降序排序,并获取每个所述待匹配用户的排序值;
选取排序值在设定范围内的待匹配用户,作为所述潜在目标用户。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述种子用户的用户数据,确定所述种子用户的标签,所述标签用于表示所述种子用户是否购买所述目标产品;
根据所述种子用户的第一原始特征向量和标签,生成训练样本;
基于预设的树模型算法,根据所述训练样本进行机器学习训练,得到所述树模型。
8.一种基于相似度匹配的用户挖掘装置,其特征在于,包括:
原始特征向量确定模块,用于根据目标产品的种子用户的用户数据,确定所述种子用户的第一原始特征向量;根据所述目标产品的待匹配用户的用户数据,确定所述待匹配用户的第二原始特征向量;
衍生特征向量确定模块,用于根据预设的树模型对所述种子用户的第一原始特征向量进行处理,得到所述种子用户的第一衍生特征向量;根据所述树模型对所述待匹配用户的第二原始特征向量进行处理,得到所述待匹配用户的第二衍生特征向量;
相似度确定模块,用于根据所述种子用户的所述第一原始特征向量和所述第一衍生特征向量,以及所述待匹配用户的第二原始特征向量和所述第二衍生特征向量,确定所述待匹配用户与所述种子用户之间的相似度;
目标用户选取模块,用于根据所述相似度,从所述待匹配用户中选取所述目标产品的潜在目标用户。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN202111090287.8A 2021-09-16 2021-09-16 用户挖掘方法、装置、计算机设备及可读存储介质 Pending CN113807436A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111090287.8A CN113807436A (zh) 2021-09-16 2021-09-16 用户挖掘方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090287.8A CN113807436A (zh) 2021-09-16 2021-09-16 用户挖掘方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113807436A true CN113807436A (zh) 2021-12-17

Family

ID=78895619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090287.8A Pending CN113807436A (zh) 2021-09-16 2021-09-16 用户挖掘方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113807436A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169508A (zh) * 2022-09-09 2022-10-11 北京云成金融信息服务有限公司 基于供应链平台的数据分析及管理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169508A (zh) * 2022-09-09 2022-10-11 北京云成金融信息服务有限公司 基于供应链平台的数据分析及管理方法

Similar Documents

Publication Publication Date Title
CN111639516B (zh) 基于机器学***台
CN109492772B (zh) 生成信息的方法和装置
CN110543946B (zh) 用于训练模型的方法和装置
CN110472154B (zh) 一种资源推送方法、装置、电子设备及可读存储介质
US11176464B1 (en) Machine learning-based recommendation system for root cause analysis of service issues
CN111861768B (zh) 基于人工智能的业务处理方法、装置、计算机设备及介质
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
US11436446B2 (en) Image analysis enhanced related item decision
CN107644106B (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
CN112579909A (zh) 对象推荐方法及装置、计算机设备和介质
KR20180127622A (ko) 텍스트 데이터 수집 및 분석을 위한 시스템
CN112800919A (zh) 一种检测目标类型视频方法、装置、设备以及存储介质
CN111461757B (zh) 信息处理方法及装置、计算机存储介质、电子设备
US20220129754A1 (en) Utilizing machine learning to perform a merger and optimization operation
CN112990625A (zh) 标注任务的分配方法、装置及服务器
US11682092B2 (en) Updating a document based on transaction analysis
CN114238764A (zh) 基于循环神经网络的课程推荐方法、装置及设备
CN113807436A (zh) 用户挖掘方法、装置、计算机设备及可读存储介质
CN116578925B (zh) 基于特征画像的行为预测方法、装置及存储介质
CN112926341A (zh) 文本数据处理方法、装置
CN115861606B (zh) 一种针对长尾分布文档的分类方法、装置及存储介质
CN112541145A (zh) 一种页面展现方法、装置、设备及存储介质
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN113742593A (zh) 用于推送信息的方法和装置
CN110717101B (zh) 基于应用行为的用户分类方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination