CN113538020B - 获取客群特征关联度方法、装置、存储介质和电子装置 - Google Patents
获取客群特征关联度方法、装置、存储介质和电子装置 Download PDFInfo
- Publication number
- CN113538020B CN113538020B CN202110759001.4A CN202110759001A CN113538020B CN 113538020 B CN113538020 B CN 113538020B CN 202110759001 A CN202110759001 A CN 202110759001A CN 113538020 B CN113538020 B CN 113538020B
- Authority
- CN
- China
- Prior art keywords
- user
- sample
- contribution value
- features
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013145 classification model Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 abstract description 17
- 238000010801 machine learning Methods 0.000 abstract description 13
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
本发明公开了获取客群特征关联度方法、***、存储介质和电子装置,该方法包括:获取用户样本集合和每个用户样本成为目标用户的概率标签,根据概率标签将用户样本集合划分为多个客群;计算每个用户样本的每个用户特征的贡献值;根据贡献值和贡献值阈值,确定每个用户样本的主要用户特征,主要用户特征用于表示每个用户样本被预测为目标用户的主要原因;获取客群中的每个用户样本的主要用户特征为客群的用户特征数据集,在用户特征数据集中计算主要用户特征之间的关联度,关联度用于根据用户的部分用户特征预测用户的主要用户特征。本发明有效解决了解决机器学习算法中样本分类原因不明的问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及获取客群特征关联度方法、装置、存储介质和电子装置。
背景技术
精准营销是营销领域的重中之重,得益于精度高和速度快等特点,机器学习算法在这一得到了非常广泛的应用。机器学习算法用于精准营销领域的思路通常是先基于客户的特征和标签训练一个二分类机器学习,再将训练好的模型预测未知的数据,输出未知数据中每个客户成为目标客户的概率,最后基于此概率判断客户是否属于目标客户,对目标客户进行营销。因为绝大部分机器学习算法属于“黑盒模型”,它们通常只能预测客户是否属于目标客户,却难以给出客户被判断为目标客户的原因,这给后续营销措施的制定带来了困难。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
基于此,有必要针对上述技术问题,提供一种获取客群特征关联度方法、装置、存储介质和电子装置,以至少解决机器学习算法中样本分类原因不明的问题。
一种获取客群特征关联度方法,包括:
获取用户样本集合,样本集合包括多个用户样本,每个用户样本包括多个用户特征,用户特征用于表示用户样本的用户画像;
获取每个用户样本成为目标用户的概率标签,根据概率标签将用户样本集合划分为多个客群;
计算每个用户样本的每个用户特征的贡献值,贡献值用于衡量用户特征对用户样本被预测为目标用户的贡献程度;
根据贡献值和贡献值阈值,确定每个用户样本的主要用户特征,主要用户特征用于表示每个用户样本被预测为目标用户的主要原因;
获取客群中的每个用户样本的主要用户特征为客群的用户特征数据集,在用户特征数据集中计算主要用户特征之间的关联度,关联度用于根据用户的部分用户特征和所述待预测用户所在客群,预测用户的主要用户特征。
在其中一个实施例中,获取每个用户样本成为目标用户的概率标签,包括:
获取用户样本的样本标签,根据样本标签和用户特征确定用户样本的分类模型;
基于分类模型,获取用户样本成为目标用户的概率标签。
在其中一个实施例中,计算每个用户样本的每个用户特征的贡献值,包括:
在客群内,计算每个用户样本的每个用户特征的第一初始贡献值;
将取值为负数的第一初始贡献值替换为零,获取更新后的第二初始贡献值;
将用户特征按照第二初始贡献值由大到小的顺序进行排序得到用户样本的用户特征排序;
基于用户特征排序和第二初始贡献值,计算每个用户样本中的每个用户特征的贡献值。
在其中一个实施例中,计算每个用户样本的每个用户特征的第一初始贡献值的公式包括:
其中,用于表示用户样本的第i个用户特征的第一初始贡献值,“!”用于表示阶乘,“||”用于表示集合中包含元素的个数,F用于表示包含全部用户特征的集合,F\{i}用于表示从F中剔除第i个用户特征后剩下的特征集合,S用于表示F的用户特征子集,f表示分类模型,fs∪{i}(XS∪{i})用于表示将第i个用户特征加入特征子集S后训练的模型,fs(Xs)用于表示基于特征子集S训练的模型。
在其中一个实施例中,基于用户特征排序和第二初始贡献值,计算每个用户样本中的每个用户特征的贡献值,包括:
在用户特征排序中对第二初始贡献值进行累计求和,获取第二初始贡献值的累计求和值;
获取用户特征的第二初始贡献值与累计求和值的比值为用户特征对用户样本的贡献值。
在其中一个实施例中,根据贡献值和贡献值阈值,确定每个用户样本的主要用户特征包括:
将用户样本的用户特征按照贡献值由大到小的顺序,获取用户特征贡献序列;
从用户特征贡献序列中选取目标排名之前的用户特征为用户样本的主要用户特征。
在其中一个实施例中,在用户特征数据集中计算主要用户特征之间的关联度,包括:
在用户特征数据集中获取主要用户特征,计算主要用户特征之间的支持度和置信度;
根据支持度阈值和置信度阈值,求出主要用户特征之间的关联度。
一种获取客群特征关联度装置,包括:
获取单元,用于获取用户样本集合,样本集合包括多个用户样本,每个用户样本包括多个用户特征,用户特征用于表示用户样本的用户画像;
分类单元,用于获取每个用户样本成为目标用户的概率标签,根据概率标签将用户样本集合划分为多个客群;
第一计算单元,用于计算每个用户样本的每个用户特征的贡献值,贡献值用于衡量用户样本被预测为目标用户的贡献程度;
第二计算单元,用于根据贡献值和贡献值阈值,确定每个用户样本的主要用户特征,主要用户特征用于表示每个用户样本被预测为目标用户的主要原因;
相互关联单元,用于获取客群中的每个用户样本的主要用户特征为客群的用户特征数据集,在用户特征数据集中计算主要用户特征之间的关联度,关联度用于根据用户的部分特征和所述待预测用户所在客群,预测用户的主要用户特征。
一种存储介质,其特征在于,存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行以实现以下步骤:
获取用户样本集合,样本集合包括多个用户样本,每个用户样本包括多个用户特征,用户特征用于表示用户样本的用户画像;
获取每个用户样本成为目标用户的概率标签,根据概率标签将用户样本集合划分为多个客群;
计算每个用户样本的每个用户特征的贡献值,贡献值用于衡量用户特征对用户样本被预测为目标用户的贡献程度;
根据贡献值和贡献值阈值,确定每个用户样本的主要用户特征,主要用户特征用于表示每个用户样本被预测为目标用户的主要原因;
获取客群中的每个用户样本的主要用户特征为客群的用户特征数据集,在用户特征数据集中计算主要用户特征之间的关联度,关联度用于根据用户的部分用户特征预测用户的主要用户特征。
一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序执行以实现以下步骤:
获取用户样本集合,样本集合包括多个用户样本,每个用户样本包括多个用户特征,用户特征用于表示用户样本的用户画像;
获取每个用户样本成为目标用户的概率标签,根据概率标签将用户样本集合划分为多个客群;
计算每个用户样本的每个用户特征的贡献值,贡献值用于衡量用户特征对用户样本被预测为目标用户的贡献程度;
根据贡献值和贡献值阈值,确定每个用户样本的主要用户特征,主要用户特征用于表示每个用户样本被预测为目标用户的主要原因;
获取客群中的每个用户样本的主要用户特征为客群的用户特征数据集,在用户特征数据集中计算主要用户特征之间的关联度,关联度用于根据用户的部分用户特征和所述待预测用户所在客群,预测用户的主要用户特征。
上述获取客群特征关联度方法、***、存储介质和电子装置,通过计算用户样本被预测为目标用户的主要用户特征,和客群中用户样本对应的主要用户特征的关联度,能帮助分析用户样本成为目标用户的多个重要原因之间的关联规律,进而用于指导营销,这能提高营销效果。
基于本发明提供的方法,可以解决机器学习算法中样本分类原因不明的问题。
附图说明
图1为一个实施例中获取客群特征关联度的方法的应用场景示意图;
图2为一个实施例中获取客群特征关联度的方法的流程示意图;
图3为另一个实施例中获取客群特征关联度的方法的流程示意图;
图4为又一个实施例中获取客群特征关联度的方法的流程示意图;
图5为又一个实施例中获取客群特征关联度的方法的流程示意图;
图6为一个实施例中获取客群特征关联度的装置的结构示意图;
图7为一个实施例中电子装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词,但除非特别说明,这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说,在不脱离本申请的范围的情况下,第三预设阈值与第四预设阈值可以相同可以不同。
精准营销是营销领域的重中之重,得益于精度高和速度快等特点,机器学习算法在这一得到了非常广泛的应用。机器学习算法用于精准营销领域的思路通常是先基于客户的用户特征和标签训练一个二分类机器学习,再将训练好的模型预测未知的数据,输出未知数据中每个客户成为目标客户的概率,最后基于此概率判断客户是否属于目标客户,对目标客户进行营销。因为绝大部分机器学习算法属于“黑盒模型”,它们通常只能预测客户是否属于目标客户,却难以给出客户被判断为目标客户的原因,这给后续营销措施的制定带来了困难。
目前,在营销领域使用的机器学习算法通常存在解释性差的问题,即营销模型通常只能给出每个客户被预测为目标客户的概率,但是并不知道客户成为目标客户的原因,难以开展有针对性的营销。
针对上述相关技术中存在的问题,本发明实施例提供了一种获取客群用户特征关联度的测试方法,该方法可以应用于图1中的应用场景。图1中包括用户设备101及服务器102。其中,用户设备101一般是用于给用户触发用户请求,并根据用户请求用户样本进行分类,并求出分类主要原因和主要原因之间的关联度。由此,用户设备101可以对训练用户样本集合进行分类,并将分类分析结果发送给服务器102。而服务器102,主要是对用户设备101传输的分析结果进行进一步分析和可视化处理,用于向用户展示分类结果和分类原因之间的关联度。当然,实际实施过程中,服务器102的处理功能也可以直接集成至用户设备101中。
另外,用于处理对比结果的处理设备其形式不一定是服务器,也可以为专门的处理设备,如个人计算机或笔记本电脑。本发明实施例对此不做具体限定。需要说明的是,本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量,比如,“多个”指“至少两个”。
另外,服务器102具体为怎样的处理过程,与图1中应用场景对应的具体用途有关。其中,具体用途可以为不限于应用在精准营销领域中,寻找目标客户被设定为目标客户的深度原因。在图1中在服务器102设置有分类机器模型、可解释算法模型和关联规则算法,服务器102输出分析结果前先基于客户的用户特征和标签,输出用户成为目标客户的概率,然后探究用户被分类为目标客户的主要原因和原因之间的关联规则,根据重要原因和原因之间的关联规则,输出分析结果和主要原因之间的关联度。
结合上述说明可知,图1中应用场景对应的具体用途可以为公司提供潜在客户的精准营销,例如银行在寻找潜在的理财产品用户等领域。因此,无论是哪种用途,均需要先尽可能地提供服务器102的运行环境。
基于此,参见图2,提供了一种获取客群用户特征关联度方法,该方法应用于服务器,且执行主体为服务器为例进行说明,该方法包括如下步骤:
201、获取用户样本集合,样本集合包括多个用户样本,每个用户样本包括多个用户特征,用户特征用于表示用户样本的用户画像;
202、获取每个用户样本成为目标用户的概率标签,根据概率标签将用户样本集合划分为多个客群;
203、计算每个用户样本的每个用户特征的贡献值,贡献值用于衡量用户特征对用户样本被预测为目标用户的贡献程度;
204、根据贡献值和贡献值阈值,确定每个用户样本的主要用户特征,主要用户特征用于表示每个用户样本被预测为目标用户的主要原因;
205、获取客群中的每个用户样本的主要用户特征为客群的用户特征数据集,在用户特征数据集中计算主要用户特征之间的关联度,关联度用于根据待预测用户的部分用户特征和待预测用户所在客群,预测待预测用户的主要用户特征。
在上述步骤S202中,如图3所示,获取每个用户样本成为目标用户的概率标签,包括:
301、获取用户样本的样本标签,根据样本标签和用户特征确定用户样本的分类模型;
302、基于分类模型,获取用户样本成为目标用户的概率标签。
在步骤301中,在相关技术中,针对预测用户样本成为目标用户的概率,需要通过预测目标用户的分类模型,而分类模型的训练则需要通过标注有用户样本标签的用户样本和用户样本的用户特征数据,通过分类模型对用户样本的用户特征数据进行分类识别后,得到识别结果,通过标注的用户样本标签与识别结果之间的差异对分类模型进行训练。
在一个实施例中,上述分类模型为极限梯度提升(Exterme Gradient Boosting,XGBoost)模型。XGBoost模型是基于决策树的集成机器学习算法,它以梯度提升(GradientBoost)为框架。XGBoost模型包括参数和目标函数和待训练模型,通过输入用户样本标签和用户样本用户特征求出用户样本为目标用户的权重,将权重更新至待训练模型中,得到最终的分类模型,上述权重为目标函数的权重,训练好的模型的权重为所求参数,根据参数可以求出用户样本成为目标用户的概率。
在一个实施例中,步骤302之后,还需要将用户样本的用户标签替换为概率标签。
在上述步骤301中,机械模型不限于XGBoost模型,还可以是概率树模型、二分类模型等,上述机械用于对用户样本进行分类和预测即可。
通过上述步骤202,可以求出用户样本为目标用户的概率,但仅仅通过训练机械模型求出用户样本为目标用户的概率,但是对于用户样本成为目标用户的具体原因,还需要具体分析。
在上述步骤S202中,如图4所示,上述根据概率标签,将训练用户样本集合划分为多个客群,包括:
401、将用户样本按照概率标签的概率大小由大到小进行排序,得到用户样本排序序列;
402、根据预设的客群概率范围,将用户样本排序序列划分为多个客群。
在一个实施例中,客群数量为四个,选取第一客群概率范围、第二客群概率范围、第三客群概率范围、第四客群概率范围,上述客群概率范围从第一客群概率范围到第四客群概率范围依次减小。按照从小到大的顺序,从用户样本排序序列中依次取出第一客群、第二客群、第三客群和第四客群。
通过上述步骤,可以将概率相近的用户样本分为一类,便于以客群为单位进行计算用户特征对客群的影响规律,便于后续对客群中的用户特征进行集中计算。
在步骤203中,如图5所示,计算每个用户样本的每个用户特征的贡献值,包括:
501、在客群内,计算每个用户样本的每个用户特征的第一初始贡献值;
502、将取值为负数的第一初始贡献值替换为零,获取更新后的第二初始贡献值;
503、将用户特征按照第二初始贡献值由大到小的顺序进行排序得到用户样本的用户特征排序;
504、基于用户特征排序和第二初始贡献值,计算每个用户样本中的每个用户特征的贡献值。
在步骤501中,上述可解释算法包括沙普利值(Shapley value)法,基于Shapley值法进行联盟成员的利益分配体现了各盟员对联盟总目标的贡献程度,避免了分配上的平均主义,比任何一种仅按资源投入价值、资源配置效率及将二者相结合的分配方式都更具合理性和公平性,也体现了各盟员相互博弈的过程。上述Shapley值法的表达式(1),包括:
其中,“!”表示阶乘,“||”表示训练用户样本集合中包含元素的个数,F表示包含全部用户特征的集合,F\{i}表示从F中剔除第i个用户特征后剩下的用户特征集合,S表示F的子集,表示机器模型,fs∪{i}(XS∪{i})表示将第i个用户特征加入用户特征子集S后训练的模型,fs(Xs)表示基于用户特征子集S训练的模型,所述表示第i个用户特征的Shapley值,上述Shapley值为本发明所求的第一初始贡献值。
上述步骤501中的第一初始贡献值用于衡量用户样本的用户特征被归类到目标用户的影响程度,对于探究影响客群分类的问题,需要在客群内计算用户特征对客群的影响范围。
因此,在步骤502到504中,需要在客群中对用户特征的第一贡献值进行处理,以求取客群单位内,用户特征对于客群分类的影响程度。
具体地,在步骤204中,计算每个用户样本中的每个用户特征的贡献值,包括:在用户特征排序中对第二初始贡献值进行累计求和;获取用户特征的第二初始贡献值与累计求和值的比值为用户特征对用户样本的贡献值。
在一个实施例中,上述求取用户样本用户特征的第一贡献值在用户样本所在客群内的占比的公式(2),包括:
其中,第i个用户样本的第j项用户特征的在用户样本所在客群的占比公式为Sij。
在步骤204中,所述根据所述贡献值和贡献值阈值,确定每个用户样本的主要用户特征包括:将所述用户样本的用户特征按照所述贡献值由大到小的顺序,获取用户特征贡献序列;从所述用户特征贡献序列中选取目标排名之前的用户特征为所述用户样本的主要用户特征。
上述步骤204通过设置目标排名,可以筛选调影响度较小的用户特征。
在步骤205中,探究客群内主要用户特征之间的关联度,一般需要通过支持度和置信度。置信度用于揭示了A出现时,B是否一定会出现,如果出现则其大概有多大的可能出现。如果置信度为100%,则说明了A出现时,B一定出现。假设A和B是市场上的两种商品,就没有理由不进行捆绑销售了。
支持度用于揭示总体参数值落在用户样本统计值某一区内的概率,通过设置支持度阈值进而关联度阈值,可以判断用户样本中A和B是否相互关联。
在一种实施例中,基于可解释算法,计算客群内主要用户特征之间的相互关联规则系,包括:获取主要用户特征,计算客群内,主要用户特征之间的支持度和置信度;根据支持度阈值和置信度阈值,求出主要用户特征之间的关联规则。
在上述步骤205中,计算各个主要原因之间的支持度(s)的计算公式(3)和置信度(I)的计算公式(4)为:
其中,P和Q都表示某个客群内的主要用户特征,主要用户特征P和主要Q不相同,N表示该客群内的用户样本数量;σ(P∪Q)表示该客群的全部用户样本中,能同时包含P和Q这两个主要用户特征的用户样本数量;σ(P)表示该客群的全部用户样本中,包含了P这个主要用户特征的用户样本数量。
分别设定支持度和置信度的阈值,在每个客群内寻找支持度大于等于对应阈值并且置信度大于等于对应阈值的所有规则,这些规则就是对应客群重要用户特征之间的规律,这些规律能揭示对应客群的客户会被预测为目标客户的重要原因之间的关联关系。
在步骤205获取主要用户特征之间的关联度后,可以在获取待预测用户的客群的情况下,根据待预测用户的部分特征和待预测用户客群中的主要特征之间的关联关系,求出待预测用户的部分特征相互关联的主要用户特征。主要用户特征可以用于后续针对带预测用户的精准营销。
在一种实施例中,上述获取客群用户特征关联度的方法可以应用在银行营销领域用于求出目标客户的关联用户特征,根据关联用户特征找出目标客户。
具体地,包括:获取银行客户和客户对应的用户特征,上述用户特征至少包括:客户类型、客户持有理财产品类型、客户登录手机银行频率、客户存量资金等。根据机械模型,找出客户为目标客户的相应概率,并对客户打上对应的概率标签,以得到第二数据。将第二数据按概率降序排序,排名前5%的客户组成第1客群、排名处于5%~20%的客户组成第二客群、排名处于20%~50%的客户组成第3客群、排名处于最后50%的客户组成第4客群。计算每个用户特征对客户成为目标客户的第一贡献值,将第一贡献值数据中小于0的值替换为0,计算客群中每个客户每项用户特征的第一贡献值占比,并按降序排序,再对降序后的数据进行累计求和,求出第i个客户的第j项用户特征的对客群的分类贡献值。设定分类贡献阈值为0.9,寻找每个客户累计求和数据中大于或等于阈值时,排名最靠前的累计求和值所对应的前几个用户特征,作为导致该客户被预测为目标客户的主要用户特征。
如表1所示,将每个客户被预测为目标客户的主要原因为1行数据,每个客群所有客户的主要原因组成的多行数据为用户特征数据集。例如,在银行的营销场景中,第1客群的第三数据集为:
客群1 | 用户特征数据集 |
客户1 | 代发薪客户、持有理财产品、过去3个月购买过定期存款 |
客户2 | 代发薪客户、过去1个月手机银行登录次数超过30次 |
…… | …… |
表1
在用户特征数据集汇总,计算各个主要原因之间的支持度(s)和置信度(I),设定支持度和置信度的阈值,在每个客群内寻找支持度大于等于对应阈值并且置信度大于等于对应阈值的所有规则,这些规则就是对应客群重要用户特征之间的规律。例如,在银行的营销场景中,我们发现某个客群内客户被预测为目标客户的主要原因中,进行了定期存款和购买理财产品之间存在很大关联性。这说明该客群的客户中,进行了定期存款的客户有很大概率会购买理财产品,那么当这类客户发生了定期存款行为后,可以向其推送理财产品,从而提高营销的效果。
上述获取客群用户特征关联度的方法、***、存储介质和电子装置,通过基于可解释算法和关联规则算法提出了一种可以分析目标客群重要用户特征之间规律的方法,该方法能帮助分析客户成为目标客户的多个重要原因之间的关联规律,进而用于指导营销,这能提高营销效果。
结合上述实施例的内容,在一个实施例中,如图6所示,还提供了一种用于实施上述获取客群用户特征关联度的方法的装置,该装置,包括:
获取单元601,用于获取用户样本集合,样本集合包括多个用户样本,每个用户样本包括多个用户特征,用户特征用于表示用户样本的用户画像;
分类单元602,用于获取每个用户样本成为目标用户的概率标签,根据概率标签将用户样本集合划分为多个客群;
第一计算单元603,用于计算每个用户样本的每个用户特征的贡献值,贡献值用于衡量用户样本被预测为目标用户的贡献程度;
第二计算单元604,用于根据贡献值和贡献值阈值,确定每个用户样本的主要用户特征,主要用户特征用于表示每个用户样本被预测为目标用户的主要原因;
相互关联单元605,用于获取客群中的每个用户样本的主要用户特征为客群的用户特征数据集,在用户特征数据集中计算主要用户特征之间的关联度,关联度用于根据用户的部分特征预测用户的主要用户特征。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种高空抛物检测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取用户样本集合,样本集合包括多个用户样本,每个用户样本包括多个用户特征,用户特征用于表示用户样本的用户画像;
获取每个用户样本成为目标用户的概率标签,根据概率标签将用户样本集合划分为多个客群;
计算每个用户样本的每个用户特征的贡献值,贡献值用于衡量用户特征对用户样本被预测为目标用户的贡献程度;
根据贡献值和贡献值阈值,确定每个用户样本的主要用户特征,主要用户特征用于表示每个用户样本被预测为目标用户的主要原因;
获取客群中的每个用户样本的主要用户特征为客群的用户特征数据集,在用户特征数据集中计算主要用户特征之间的关联度,关联度用于根据用户的部分用户特征预测用户的主要用户特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取用户样本的样本标签,根据样本标签和用户特征确定用户样本的分类模型;
基于分类模型,获取用户样本成为目标用户的概率标签。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:
在客群内,计算每个用户样本的每个用户特征的第一初始贡献值;
将取值为负数的第一初始贡献值替换为零,获取更新后的第二初始贡献值;
将用户特征按照第二初始贡献值由大到小的顺序进行排序得到用户样本的用户特征排序;
基于用户特征排序和第二初始贡献值,计算每个用户样本中的每个用户特征的贡献值。
在其中一个实施例中,计算每个用户样本的每个用户特征的第一初始贡献值的公式包括:
其中,用于表示用户样本的第i个用户特征的第一初始贡献值,“!”用于表示阶乘,“||”用于表示集合中包含元素的个数,F用于表示包含全部用户特征的集合,F\{i}用于表示从F中剔除第i个用户特征后剩下的特征集合,S用于表示F的用户特征子集,f表示分类模型,fS∪{i}(XS∪{i})用于表示将第i个用户特征加入特征子集S后训练的模型,fs(Xs)用于表示基于特征子集S训练的模型。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:
在用户特征排序中对第二初始贡献值进行累计求和;
获取用户特征的第二初始贡献值与累计求和值的比值为用户特征对用户样本的贡献值。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:
将用户样本的用户特征按照贡献值由大到小的顺序,获取用户特征贡献序列;
从用户特征贡献序列中选取目标排名之前的用户特征为用户样本的主要用户特征。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:
在用户特征数据集中,获取主要用户特征,计算主要用户特征之间的支持度和置信度;
根据支持度阈值和置信度阈值,求出主要用户特征之间的关联度。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可以存储于一些易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random AccessMemory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(DynamicRandom Access Memory,DRAM)等。
以上实施例的各技术用户特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术用户特征所有可能的组合都进行描述,然而,只要这些技术用户特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以作出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种获取客群特征关联度方法,其特征在于,包括:
获取用户样本集合,所述样本集合包括多个用户样本,每个用户样本包括多个用户特征,所述用户特征用于表示所述用户样本的用户画像;
获取所述每个用户样本成为目标用户的概率标签,根据所述概率标签将所述用户样本集合划分为多个客群;
计算每个用户样本的每个用户特征的贡献值,所述贡献值用于衡量所述用户特征对所述用户样本被预测为所述目标用户的贡献程度;
根据所述贡献值和贡献值阈值,确定每个用户样本的主要用户特征,所述主要用户特征用于表示所述每个用户样本被预测为所述目标用户的主要原因;
获取所述客群中的每个用户样本的主要用户特征为所述客群的用户特征数据集,在所述用户特征数据集中计算所述主要用户特征之间的关联度,所述关联度用于根据待预测用户的部分用户特征和所述待预测用户所在客群,预测所述待预测用户的主要用户特征,所述在所述用户特征数据集中计算所述主要用户特征之间的关联度,包括:
在所述用户特征数据集中获取所述主要用户特征,计算所述主要用户特征之间的支持度和置信度,并分别根据所述支持度和所述置信度,设定对应的支持度阈值和置信度阈值;
根据所述支持度阈值和所述置信度阈值,求出所述主要用户特征之间的关联度。
2.根据权利要求1所述的方法,其特征在于,所述获取所述每个用户样本成为目标用户的概率标签,包括:
获取用户样本的样本标签,根据所述样本标签和所述用户特征确定所述用户样本的分类模型;
基于所述分类模型,获取所述用户样本成为目标用户的概率标签。
3.根据权利要求2所述的方法,其特征在于,所述计算每个用户样本的每个用户特征的贡献值,包括:
在所述客群内,计算每个用户样本的每个用户特征的第一初始贡献值;
将取值为负数的所述第一初始贡献值替换为零,获取更新后的第二初始贡献值;
将所述用户特征按照所述第二初始贡献值由大到小的顺序进行排序得到用户样本的用户特征排序;
基于所述用户特征排序和所述第二初始贡献值,计算所述每个用户样本中的每个用户特征的贡献值。
4.根据权利要求3所述的方法,其特征在于,所述计算每个用户样本的每个用户特征的第一初始贡献值的公式包括:
其中,所述用于表示所述用户样本的第i个用户特征的第一初始贡献值,所述“!”用于表示阶乘,所述“| |”用于表示集合中包含元素的个数,所述F用于表示包含全部用户特征的集合,所述F\{i}用于表示从所述F中剔除第i个用户特征后剩下的特征集合,所述S用于表示所述F的用户特征子集,所述f表示所述分类模型,所述fS∪{i}(XS∪{i})用于表示将第i个用户特征加入所述特征子集S后训练的模型,所述fs(Xs)用于表示基于所述特征子集S训练的模型。
5.根据权利要求3所述的方法,其特征在于,所述基于所述用户特征排序和所述第二初始贡献值,计算所述每个用户样本中的每个用户特征的贡献值,包括:
在所述用户特征排序中对所述第二初始贡献值进行累计求和,获取所述第二初始贡献值的累计求和值;
获取所述用户特征的第二初始贡献值与所述累计求和值的比值为所述用户特征对所述用户样本的贡献值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述贡献值和贡献值阈值,确定每个用户样本的主要用户特征包括:
将所述用户样本的用户特征按照所述贡献值由大到小的顺序,获取用户特征贡献序列;
从所述用户特征贡献序列中选取目标排名之前的用户特征为所述用户样本的主要用户特征。
7.根据权利要求2所述的方法,其特征在于,所述分类模型为极限梯度提升模型或概率树模型或二分类模型。
8.一种获取客群特征关联度装置,其特征在于,包括:
获取单元,用于获取用户样本集合,所述样本集合包括多个用户样本,每个用户样本包括多个用户特征,所述用户特征用于表示所述用户样本的用户画像;
分类单元,用于获取所述每个用户样本成为目标用户的概率标签,根据所述概率标签将所述用户样本集合划分为多个客群;
第一计算单元,用于计算每个用户样本的每个用户特征的贡献值,所述贡献值用于衡量所述用户样本被预测为所述目标用户的贡献程度;
第二计算单元,用于根据所述贡献值和贡献值阈值,确定每个用户样本的主要用户特征,所述主要用户特征用于表示所述每个用户样本被预测为所述目标用户的主要原因;
相互关联单元,用于获取所述客群中的每个用户样本的主要用户特征为所述客群的用户特征数据集,在所述用户特征数据集中计算所述主要用户特征之间的关联度,所述关联度用于根据待预测用户的部分用户特征和所述待预测用户所在客群,预测所述待预测用户的主要用户特征,所述在所述用户特征数据集中计算所述主要用户特征之间的关联度,包括:
在所述用户特征数据集中获取所述主要用户特征,计算所述主要用户特征之间的支持度和置信度,并分别根据所述支持度和所述置信度,设定对应的支持度阈值和置信度阈值;
根据所述支持度阈值和所述置信度阈值,求出所述主要用户特征之间的关联度。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110759001.4A CN113538020B (zh) | 2021-07-05 | 2021-07-05 | 获取客群特征关联度方法、装置、存储介质和电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110759001.4A CN113538020B (zh) | 2021-07-05 | 2021-07-05 | 获取客群特征关联度方法、装置、存储介质和电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113538020A CN113538020A (zh) | 2021-10-22 |
CN113538020B true CN113538020B (zh) | 2024-03-26 |
Family
ID=78126775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110759001.4A Active CN113538020B (zh) | 2021-07-05 | 2021-07-05 | 获取客群特征关联度方法、装置、存储介质和电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113538020B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108961019A (zh) * | 2017-05-17 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 一种用户账户的检测方法和装置 |
CN110264274A (zh) * | 2019-06-21 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 客群划分方法、模型生成方法、装置、设备及存储介质 |
CN110288467A (zh) * | 2019-04-19 | 2019-09-27 | 平安科技(深圳)有限公司 | 数据挖掘方法、装置、电子设备及存储介质 |
WO2019192122A1 (zh) * | 2018-04-03 | 2019-10-10 | 平安科技(深圳)有限公司 | 文档主题参数提取方法、产品推荐方法、设备及存储介质 |
CN111178981A (zh) * | 2020-01-02 | 2020-05-19 | 众安在线财产保险股份有限公司 | 一种广告投放方法、装置、计算机设备及存储介质 |
CN111339443A (zh) * | 2020-03-09 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 用户标签确定方法、装置、计算机设备及存储介质 |
CN111506826A (zh) * | 2020-03-16 | 2020-08-07 | 中国平安人寿保险股份有限公司 | 基于亲密度的用户推荐方法、装置、设备及存储介质 |
CN111612610A (zh) * | 2020-05-27 | 2020-09-01 | 深圳壹账通智能科技有限公司 | 风险预警方法及***、电子设备及存储介质 |
CN112288117A (zh) * | 2019-07-23 | 2021-01-29 | 贝壳技术有限公司 | 目标客户的成交概率预测方法、装置与电子设备 |
CN113298145A (zh) * | 2021-05-24 | 2021-08-24 | 中国邮政储蓄银行股份有限公司 | 标签填充方法及装置 |
CN113298373A (zh) * | 2021-05-20 | 2021-08-24 | 中国建设银行股份有限公司 | 一种金融风险评估方法、装置、存储介质和设备 |
CN113614758A (zh) * | 2020-01-22 | 2021-11-05 | 京东方科技集团股份有限公司 | 设备指标优良性等级预测模型训练方法、监控***和方法 |
CN113963205A (zh) * | 2021-10-20 | 2022-01-21 | 深圳壹账通智能科技有限公司 | 基于特征融合的分类模型训练方法、装置、设备及介质 |
CN116342164A (zh) * | 2023-03-31 | 2023-06-27 | 北京百度网讯科技有限公司 | 目标用户群体的定位方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070050149A1 (en) * | 2005-08-23 | 2007-03-01 | Michael Raskin | Method for Modeling, Analyzing, and Predicting Disjunctive Systems |
US8560490B2 (en) * | 2010-02-22 | 2013-10-15 | International Business Machines Corporation | Collaborative networking with optimized inter-domain information quality assessment |
-
2021
- 2021-07-05 CN CN202110759001.4A patent/CN113538020B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108961019A (zh) * | 2017-05-17 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 一种用户账户的检测方法和装置 |
WO2019192122A1 (zh) * | 2018-04-03 | 2019-10-10 | 平安科技(深圳)有限公司 | 文档主题参数提取方法、产品推荐方法、设备及存储介质 |
CN110288467A (zh) * | 2019-04-19 | 2019-09-27 | 平安科技(深圳)有限公司 | 数据挖掘方法、装置、电子设备及存储介质 |
CN110264274A (zh) * | 2019-06-21 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 客群划分方法、模型生成方法、装置、设备及存储介质 |
CN112288117A (zh) * | 2019-07-23 | 2021-01-29 | 贝壳技术有限公司 | 目标客户的成交概率预测方法、装置与电子设备 |
CN111178981A (zh) * | 2020-01-02 | 2020-05-19 | 众安在线财产保险股份有限公司 | 一种广告投放方法、装置、计算机设备及存储介质 |
CN113614758A (zh) * | 2020-01-22 | 2021-11-05 | 京东方科技集团股份有限公司 | 设备指标优良性等级预测模型训练方法、监控***和方法 |
CN111339443A (zh) * | 2020-03-09 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 用户标签确定方法、装置、计算机设备及存储介质 |
CN111506826A (zh) * | 2020-03-16 | 2020-08-07 | 中国平安人寿保险股份有限公司 | 基于亲密度的用户推荐方法、装置、设备及存储介质 |
CN111612610A (zh) * | 2020-05-27 | 2020-09-01 | 深圳壹账通智能科技有限公司 | 风险预警方法及***、电子设备及存储介质 |
CN113298373A (zh) * | 2021-05-20 | 2021-08-24 | 中国建设银行股份有限公司 | 一种金融风险评估方法、装置、存储介质和设备 |
CN113298145A (zh) * | 2021-05-24 | 2021-08-24 | 中国邮政储蓄银行股份有限公司 | 标签填充方法及装置 |
CN113963205A (zh) * | 2021-10-20 | 2022-01-21 | 深圳壹账通智能科技有限公司 | 基于特征融合的分类模型训练方法、装置、设备及介质 |
CN116342164A (zh) * | 2023-03-31 | 2023-06-27 | 北京百度网讯科技有限公司 | 目标用户群体的定位方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Novel Multidimensional Collaborative Filtering Algorithm Based on Improved Item Rating Prediction;Li, TY;SCIENTIFIC PROGRAMMING;第2021卷;1-14 * |
基于数据挖掘方法的电信行业增值业务精确营销研究;巩建光;;制造业自动化(第02期);221-228 * |
Also Published As
Publication number | Publication date |
---|---|
CN113538020A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363387B (zh) | 基于大数据的画像分析方法、装置、计算机设备及存储介质 | |
US11734233B2 (en) | Method for classifying an unmanaged dataset | |
CN108876600A (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
CN109543925B (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
CN111626821B (zh) | 基于集成特征选择实现客户分类的产品推荐方法及*** | |
CN111178949B (zh) | 服务资源匹配参考数据确定方法、装置、设备和存储介质 | |
CN111080117A (zh) | 设备风险标签的构建方法、装置、电子设备及存储介质 | |
CN112784168B (zh) | 信息推送模型训练方法以及装置、信息推送方法以及装置 | |
CN112396428B (zh) | 一种基于用户画像数据的客群分类管理方法及装置 | |
CN113674087A (zh) | 企业信用等级评定方法、装置、电子设备和介质 | |
CN110019785B (zh) | 一种文本分类方法及装置 | |
Caruana et al. | Mining citizen science data to predict orevalence of wild bird species | |
Song et al. | Asymptotic distribution-free changepoint detection for data with repeated observations | |
García-Donato et al. | Variable selection in the presence of factors: a model selection perspective | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
Frydman et al. | Random survival forest for competing credit risks | |
CN113920366A (zh) | 一种基于机器学习的综合加权主数据识别方法 | |
CN113112186A (zh) | 一种企业评估方法、装置及设备 | |
CN115730125A (zh) | 对象识别方法、装置、计算机设备和存储介质 | |
CN113538020B (zh) | 获取客群特征关联度方法、装置、存储介质和电子装置 | |
CN111291795A (zh) | 人群特征分析方法、装置、存储介质和计算机设备 | |
CN114881761A (zh) | 相似样本的确定方法与授信额度的确定方法 | |
Fitrianto et al. | Development of direct marketing strategy for banking industry: The use of a Chi-squared Automatic Interaction Detector (CHAID) in deposit subscription classification | |
CN108629506A (zh) | 风控模型的建模方法、装置、计算机设备和存储介质 | |
CN113221966A (zh) | 基于F_Max属性度量的差分隐私决策树构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |