CN112508074A - 可视化展示方法、***及可读存储介质 - Google Patents

可视化展示方法、***及可读存储介质 Download PDF

Info

Publication number
CN112508074A
CN112508074A CN202011386790.3A CN202011386790A CN112508074A CN 112508074 A CN112508074 A CN 112508074A CN 202011386790 A CN202011386790 A CN 202011386790A CN 112508074 A CN112508074 A CN 112508074A
Authority
CN
China
Prior art keywords
sample data
different
decision tree
cluster analysis
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011386790.3A
Other languages
English (en)
Other versions
CN112508074B (zh
Inventor
刘颖麒
林家玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Feiquan Cloud Data Service Co ltd
Original Assignee
Shenzhen Feiquan Cloud Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Feiquan Cloud Data Service Co ltd filed Critical Shenzhen Feiquan Cloud Data Service Co ltd
Priority to CN202011386790.3A priority Critical patent/CN112508074B/zh
Publication of CN112508074A publication Critical patent/CN112508074A/zh
Application granted granted Critical
Publication of CN112508074B publication Critical patent/CN112508074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种可视化展示方法,包括:获取不同客户对应的特征数据,以所述特征性数据作为不同客户对应的样本数据;对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,所述聚类分析结果为不同所述样本数据的客户所属的客户类别;根据所述聚类分析结果和所述样本数据构成的训练集,运用所述训练集训练决策树,并对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化。本发明还公开了一种可视化展示***及可读存储介质。可通过聚类分析结果确认客户类别,且可通过决策树使聚类分析操作可视化,以便对不同类别客户制定有针对性的业务策略,提高了业务策略制定的有效性。

Description

可视化展示方法、***及可读存储介质
技术领域
本发明涉及可视化技术领域,尤其涉及一种可视化展示方法、***及可读存储介质。
背景技术
互联网环境下,各公司机构积累了一定的用户数据,进而产生了基于用户数据进行客户分群的需求。而用户数据的特征维度较多,超出人脑的理解与计算范围时,通常需要借助于机器学习领域的算法进行客户分群。
然而,目前的客户分群主要采用聚类模型进行分类。对于聚类分析结果,业务人员通常只能知晓客户分群之后的客户类别,而无从知晓各类客户群之间的具体差异,导致无法根据聚类分析结果,有针对性的制定相应的业务策略。因此,目前的客户分类方案,无法还原聚类分析过程,仅根据聚类分析的聚类分析结果无法区分不同类别客户之间的差异导致无法为不同类别客户制定有效的业务策略。
发明内容
本发明主要目的在于提供一种可视化展示方法、***及可读存储介质,旨在解决现有技术中基于聚类分析的聚类分析结果无法区分不同类别客户之间的差异导致无法为不同类别客户制定有效的业务策略的问题。
为实现上述目的,本发明提供一种可视化展示方法,所述方法包括以下步骤:
获取不同客户对应的特征数据,以所述特征性数据作为不同客户对应的样本数据;
对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,所述聚类分析结果为不同的所述样本数据的客户所属的客户类别;
根据所述聚类分析结果和所述样本数据构成的训练集,运用所述训练集训练决策树,并对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化。
可选地,所述运用所述训练集训练决策树的步骤包括:
将所述训练集中的样本数据作为所述决策树的输入,将所述训练集中的聚类分析结果作为所述决策树的输出,训练决策树。
可选地,所述对运用所述训练集训练的决策树进行可视化展示的步骤包括:
遍历运用所述训练集训练的决策树,获取所述决策树中从输入到输出的每一条决策路径,并获取所述决策树中每一个节点的显示输出信息;
根据所获取的每一条决策路径和每一个节点的显示输出信息对所述决策树进行可视化展示。
可选地,所述特征数据包括多个特征对应的数据,所述对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化的步骤之后,包括:
计算不同特征对应的特征参数,所述特征参数为表征不同特征的重要性的参数;
将决策树中不同特征对应的特征参数进行可视化展示;
根据所展示的特征参数从所述多个特征中确定目标特征,以基于所述目标特征对应的聚类分析结果制定业务策略。
可选地,所述计算不同特征对应的特征参数的步骤之后,所述方法还包括:
依据所述特征参数确定不同特征对应的重要等级;
对不同特征对应的重要等级进行可视化展示,以按照所展示的重要等级为不同类别客户制定相应的业务策略。
可选地,所述对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果的步骤包括:
对所述样本数据进行数据清洗,得到清洗后的目标样本数据;
采用预设分层算法确定所述聚类分析模型的分层数量;
按照所述分层数量,对不同客户对应的所述目标样本数据进行聚类分析,获得不同客户对应的聚类分析结果。
可选地,所述对所述样本数据进行数据清洗的步骤包括:
确定所述样本数据中不同类型对应的特征标签,并确定业务类型;
依据所述特征标签从所述样本数据中筛选出与所述业务类型匹配的样本数据,对所述业务类型对应的样本数据进行数据清洗。
可选地,所述对所述样本数据进行数据清洗的步骤包括:
获取不同特征之间的关联度数据;
依据所述关联度数据从所述样本数据中筛选出相互独立的样本数据;
对筛选出的相互独立的样本数据进行数据清洗。
此外,为实现上述目的,本发明还提供一种可视化展示***,所述可视化展示***包括存储器、处理器及存储在所述处理器上并可在处理器上运行的可视化展示程序,所述处理器执行所述可视化展示程序时实现如上所述的可视化展示方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有可视化展示程序,所述可视化展示程序被处理器执行时实现如上所述的可视化展示方法的步骤。
本发明实施例获取不同客户对应的特征数据,并对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,然后根据所述聚类分析结果和所述样本数据构成的训练集,运用所述训练集训练决策树,并对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化,避免直接对不同客户对应的样本数据进行聚类分析,智能获知聚类分析结果,而无法获知不同类别客户之间的具体差异。通过聚类分析结果和样本数据构成的训练集训练决策树,并对决策树进行可视化展示,使得基于所展示的决策树,可以直观的掌握不同客户类别之间的区别与联系,以便于根据所掌握的区别与联系,有针对性的制定业务策略,提高业务策略制定的有效性。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的可视化展示***结构示意图;
图2是本发明可视化展示方法第一实施例的流程示意图;
图3为本发明可视化展示方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的主要解决方案是:获取不同客户对应的特征数据,以所述特征性数据作为不同客户对应的样本数据;对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,所述聚类分析结果为不同的所述样本数据的客户所属的客户类别;根据所述聚类分析结果和所述样本数据构成的训练集,运用所述训练集训练决策树,并对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化。
目前的客群分类方案通常是采用聚类分析的方式进行分类,但是聚类分析只能输出聚类分析结果,对于分类过程未曾可知,不便于掌握不同聚类分析结果之间的差异,导致无法针对不同聚类分析结果制定有效的业务策略。因而,本发明提出一种可视化展示方法、***及可读存储介质,通过获取不同客户对应的特征数据,并以所述特征性数据作为不同客户对应的样本数据,然后对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,所述聚类分析结果为不同的所述样本数据的客户所属的客户类别,再根据所述聚类分析结果和所述样本数据构成的训练集,运用所述训练集训练决策树,并对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化,避免采用聚类分析操作时无法区分不同类别客户之间的具体差异,导致业务策略制定有效性降低,提高了业务策略制定的有效性。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的可视化展示***结构示意图。
如图1所示,该可视化展示***可以包括:通信总线1002,处理器1001,例如CPU,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的可视化展示***结构并不构成对可视化展示***的限定,可以包括比图示更多或更少的部件,或组合某些部件,或者不同的部件布置。
在图1所示的可视化展示***中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的可视化展示程序,并执行以下操作:
获取不同客户对应的特征数据,以所述特征性数据作为不同客户对应的样本数据;
对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,所述聚类分析结果为不同的所述样本数据的客户所属的客户类别;
根据所述聚类分析结果和所述样本数据构成的训练集,运用所述训练集训练决策树,并对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化。
可选地,处理器1001可以调用存储器1005中存储的可视化展示程序,还执行以下操作:
将所述训练集中的样本数据作为所述决策树的输入,将所述训练集中的聚类分析结果作为所述决策树的输出,训练决策树。
可选地,处理器1001可以调用存储器1005中存储的可视化展示程序,还执行以下操作:
遍历运用所述训练集训练的决策树,获取所述决策树中从输入到输出的每一条决策路径,并获取所述决策树中每一个节点的显示输出信息;
根据所获取的每一条决策路径和每一个节点的显示输出信息对所述决策树进行可视化展示。
可选地,所述特征数据包括多个特征对应的数据,所述对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化的步骤之后,处理器1001调用存储器1005中存储的可视化展示程序,并执行以下操作:
计算不同特征对应的特征参数,所述特征参数为表征不同特征的重要性的参数;
将决策树中不同特征对应的特征参数进行可视化展示;
根据所展示的特征参数从所述多个特征中确定目标特征,以基于所述目标特征对应的聚类分析结果制定业务策略。
可选地,所述计算不同特征对应的特征参数的步骤之后,处理器1001可以调用存储器1005中存储的可视化展示程序,还执行以下操作:
依据所述特征参数确定不同特征对应的重要等级;
对不同特征对应的重要等级进行可视化展示,以按照所展示的重要等级为不同类别客户制定相应的业务策略。
可选地,处理器1001可以调用存储器1005中存储的可视化展示程序,还执行以下操作:
对所述样本数据进行数据清洗,得到清洗后的目标样本数据;
采用预设分层算法确定所述聚类分析模型的分层数量;
按照所述分层数量,对不同客户对应的所述目标样本数据进行聚类分析,获得不同客户对应的聚类分析结果。
可选地,处理器1001可以调用存储器1005中存储的可视化展示程序,还执行以下操作:
确定所述样本数据中不同类型数据对应的特征标签,并确定业务类型;
依据所述特征标签从所述样本数据中筛选出与所述业务类型匹配的样本数据,对所述业务类型对应的样本数据进行数据清洗。
可选地,所述对所述样本数据进行数据清洗,得到清洗后的特征样本数据的步骤之前,处理器1001可以调用存储器1005中存储的可视化展示程序,还执行以下操作:
获取不同特征之间的关联度数据;
依据所述关联度数据从所述样本数据中筛选出相互独立的样本数据;
对筛选出的相互独立的样本数据进行数据清洗。
参照图2,图2为本发明可视化展示方法的第一实施例流程图,本实施例中,所述可视化展示方法包括以下步骤:
步骤S10:获取不同客户对应的特征数据,以所述特征性数据作为不同客户对应的样本数据;
在通过聚类分析划分客户群体时,所获得的聚类分析结果仅为不同客户所属的客户类别,虽然可以满足分类需求,但是无从知晓不同类别客户之间的具体差异,也就无法将聚类分析过程与业务规则对应起来,导致无法依据不同类别客户之间的差异有针对性的更新业务策略。如,若将客户分为3类,这3类客户之间的区别到底是什么,如何为不同的类别制定业务策略,这些都是无法根据聚类分析模型的输出结果得到的。因而,为了避免无法获知不同类别客户之间的具体差异导致无法有效制定业务策略,本实施例中,引入可解释性较强的监督学习模型:决策树。在对样本数据进行聚类分析之后,基于聚类分析模型输出的聚类分析结果训练决策树,以通过决策树使聚类分析操作进行可视化,弥补决策树解释性不强的缺陷。也即,本实施例中的可视化方案可划分为两个部分,第一部分为对样本数据进行聚类分析,第二部分为结合聚类分析结果与不同客户对应的样本数据训练决策树。其中,聚类分析过程是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,而决策树属于分类的范畴,是在已有分类标准下,对新数据进行划分和分类。
具体地,在进行聚类分析之前,先要获取不同客户对应的样本数据。本实施例中以不同客户对应的特征数据作为样本数据,所述特征数据可以是一个特征对应的数据,如收入;也可以是多个特征对应的数据,如,可包括不同客户对应的性别、居住地、年龄、身高、体重、收入和购买次数等表征客户特征的属性信息的数据。并且,不同的业务需求对应不同的业务类型,而不同的业务类型可对应不同的特征数据,如,对于营销业务类型,可包括性别、年龄等表征客户身份的身份特征信息,以及收入水平和购买次数等表征客户购买能力的消费水平信息的特征数据;对于广告业务类型,可包括:性别、年龄等表征客户身份的身份特征信息,以及浏览时长和浏览次数等表征客户喜好的使用习惯信息的特征数据。因而,所获取的样本数据,可根据不同的业务需求进行选取。
在一具体的实施例中,在获取样本数据之后,还需要确定不同样本数据对应的特征标签,以便于后续对不同客户对应的样本数据进行聚类分析。也即,在获取到样本数据之后,为了对这些样本数据进行区分,需要为不同的样本数据添加特征标签,如为表征客户性别的数据添加性别标签,为表征客户年龄的客户添加年龄标签,为表征客户交易金额的数据添加交易金额标签等。在具体的实操过程中,可从企业可获取且第三方供应商可提供的特征标签中,筛选出与业务需求对应的合理特征作为训练聚类分析模型的样本特征。
步骤S20:对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,所述聚类分析结果为不同所述样本数据的客户所属的客户类别;
在获取不同客户对应的样本数据之后,可运用聚类分析模型对所获取的样本数据进行聚类分析,以获得不同客户对应的聚类分析结果,所述聚类分析结果为预先设定的多个客户类别中不同样本数据的客户所属的客户类别,所述客户类别可依据不同的业务需求进行划分。如可依据消费水平划分为高水平客户、中水平客户和低水平客户等,也可根据购买数据或浏览数据等划分为重要客户,潜在客户和可发展客户等。
具体地,可先运用聚类分析算法训练聚类分析模型,该聚类分析算法可以是Kmeans、DBSCAN或GMM等。其中,Kmeans为K均值算法,是基于点与点距离的相似度来计算最佳类别归属,必须提前指定K值,具有速度快,适合发现球形聚类,可发现离群点等特点;DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的空间聚类算法,相对抗噪音(可发现离群点),可以发现任意形状的样本,只要样本点的密度大于某阈值,则将该样本添加到最近的簇中;GMM(Gaussian Mixed Model,混合高斯模型),实质上是一个类别一个模型,具有可理解和速度快等特点。对于训练好的分类模型,由于已经学习客户分类的分类规则,并预先设置多个客户类别,在将样本数据输入聚类分析模型之后即可得到聚类分析结果,也即得到不同客户所属类别。
一具体的实施例中,在对不同客户对应的所述样本数据进行聚类分析之前,为了提高分类的准确性与分类效率,可先对样本数据进行数据清洗,然后在得到清洗后的目标样本数据之后,可采用预设分层算法确定聚类分析模型的分层数量,再按照确定的分层层数,运用聚类分析模型对清洗后的目标样本数据进行聚类分析,即可快速有效的得到不同客户对应的聚类分析结果。其中,预设分层算法可根据聚类分析模型对应的聚类分析算法进行选取,如在聚类分析算法为Kmeans时,可使用手肘方法(elbow method)来确定分层数量。由于Kmeans采用欧式距离确定样本的相似度,于是为了获取更好的聚类分析结果,组内距离应该足够小,为了获得最小的组内距离,可以是采用不同的分层数量,看哪个分层数量组内距离最小,则选择该分层数量为最终分层数量。如,若在分层数量为4层时,组内距离开始达到一定的收敛程度,则将4层确定为最佳的分层数量。此外,对样本数据进行数据清洗的过程可包括:空值处理、奇异值处理、文本数字化处理、归一化处理以及去重处理。其中,(1)空值处理的处理方法多种多样,可结合具体的数据量、数据分布以及业务需求等确定,如在总样本量足够时,可直接删除空值样本,在总样本量较小时,可以考虑填充替代法,以均值、0或-1等对空值进行填充;(2)奇异值处理指的是对不符合业务状况的极值(奇异值)进行处理,如性别特征应该只有两个值,如果有第三个字就是奇异值。通常这样的极值不多,可以直接去除,可如果该奇异值是由于***bug导致的,则可对该奇异值修复后重新生成;(3)文本数字化处理是指对于向性别这种特征,其特征数据为文本值,此时需要将此类文本值转换为数字,以适应于不同的分类模型进行模型训练;(4)归一化处理指不同特征数据的取值范围差异很大,比如交易金额可能成千上万,但是交易次数可能只有2位数时,如果不做任何处理,将使得数据离散程度很高,模型收敛速度将显著下降。通常会采用某种归一化方法进行,比如将所有值减去均值后除以标准差,将值范围统一到[-1,1]之间;(5)去重处理指删除样本数据中重复的数据,保留相同的数据中的1条即可。
另一实施例中,在对样本数据进行数据清洗时,需要先从所获取的不同客户对应的样本数据中筛选出与业务需求对应的样本数据,再对与业务需求对应的样本数据进行数据清洗,以提高聚类分析模型输出的分析结果的可靠性。由于不同的客户群体要实现的业务类型可能存在多种,需要根据具体的业务类型和业务性质对样本数据进行特征筛选。比如,1个支付公司的客户特征包括扫码和刷卡两种交易方式,但是聚类分析时对应的业务类型可能只针对扫码交易业务,那么虽然可获得刷卡交易记录数据,但在训练分层模型时并不需要使用,因而只需筛选出包含刷卡交易记录的样本数据即可,还能提高分类效率。
又一实施例中,在对样本数据进行数据清洗时,为了增加模型训练速度,减少训练的人力和物力成本,需要获取不同特征之间的关联度数据,以根据该关联度数据从样本数据中筛选出相互独立的样本数据。所述关联度数据表征不同特征数据之间的关联,具体可以是相关系数等。在相互关联的样本数据的关联度数据小于预设的关联度阈值时,即可认为这些相互关联的样本数据相互独立;而在相互关联的样本数据的关联度数据超过预设的关联度阈值时,则认为这些相互关联的样本数据相互依赖,此时只需保留其中的一个特征数据即可。预设的关联度阈值,可根据具体的应用需求进行设置,此处不做限定。比如,可以计算各属性特征之间的相关系数,选取相关系数绝对值较低的属性特征来训练模型,如发现交易时间和交易金额的相关系数为0.9,则直接选取其中1个特征,以减少模型训练成本。
当然,在对样本数据进行数据清洗时,可以根据业务类型从样本数据中筛选出与所述业务类型匹配的样本数据进行数据清洗,同时,也可依据不同特征之间的关联度数据从样本数据中筛选出相互独立的样本数据进行数据清洗。并且,对根据业务类型从样本数据中筛选出与所述业务类型匹配的样本数据进行数据清洗的步骤与依据不同特征之间的关联度数据从样本数据中筛选出相互独立的样本数据进行数据清洗的步骤的执行顺序不做限定,可以是按照预设顺序先后执行,也可以是同一时间执行。
步骤S30:根据所述聚类分析结果和所述样本数据构成的训练集,运用所述训练集训练决策树,并对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化;
在获得聚类分析结果之后,即可获知不同客户所述客户类别。然而,为了将样本数据的聚类分析操作可视化,需要将聚类分析结果标记为目标特征,并将标记后的聚类分析结果与所获取的特征数据合并后构成决策树的训练集,运用该训练集来训练决策树。由于决策树具有计算复杂度不高,输出结果易于理解等特点,对运用训练集训练的决策树进行可视化展示,即可弥补聚类分析的输出结果不易理解的缺陷,使得使样本数据的聚类分析过操作可视化。通过所展示的决策树将所述样本数据的聚类分析过程可视化,也即通过可视化展示运用训练集训练的决策树,使得根据所展示的决策树可以直观的确定不同聚类分析结果(不同客户类别)与不同特征之间的关联,以根据聚类分析结果与各特征之间的关联确定不同客户类别之间的差异,使得不仅能够根据聚类分析输出的聚类分析结果确认不同客户之间的客户类别,而且能够根据所展示的决策树确定不同类别客户之间的差异,使得样本数据的聚类分析过程可视化。使样本数据的聚类分析过操作可视化也即使不同类别客户之间的差异可视化。
于是,基于所展示的决策树,业务人员可以快速确定不同类别客户之间的具体差异,根据这些差异可以为不同类别客户提供定制化服务或定制化营销策略等。当然,也可以是由可视化展示***根据所展示的决策树识别出不同类别客户之间的差异,然后根据这些差异自动为不同类别的客户匹配相应的定制化服务或定制化营销策略等。
本实施例通过获取不同客户对应的特征数据,以该特征数据作为不同客户对应的样本数据,然后对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,该聚类分析结果为不同所述样本数据的客户所属的客户类别,再根据聚类分析结果和样本数据构成的训练集,运用训练集训练决策树,并对运用训练集训练的决策树进行可视化展示,使样本数据的聚类分析操作可视化,便于查找不同类别客户之间的差异,避免无法查找到不同类别客户之间的差异导致聚类分析模型的可解释性不强,不利于有针对性的指定业务策略,提高了业务策略制定的有效性。
参照图3,图3为本发明可视化展示方法的第二实施例流程图,本实施例中,所述可视化展示方法包括以下步骤:
步骤S11:获取不同客户对应的特征数据,以所述特征性数据作为不同客户对应的样本数据;
步骤S12:对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,所述聚类分析结果为不同所述样本数据的客户所属的客户类别;
步骤S13:根据所述聚类分析结果和所述样本数据构成的训练集,将所述训练集中的样本数据作为所述决策树的输入,将所述训练集中的聚类分析结果作为所述决策树的输出,训练决策树;
步骤S14:对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化。
本实施例中,在获取不同客户对应的特征数据形成不同客户对应的样本数据,且对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果之后,为了有效训练决策树,使得通过对决策树进行可视化展示,可以还原样本数据的聚类分析过程,以使样本数据的聚类分析操作可视化,需要先选取决策树算法。所选取的决策树算法可以是ID3、C4.5或CART等算法。其中,ID3算法构造的决策树可以有多个分支,但是不能处理特征数据为连续数据的情况,且每次选取的分割数据的特征都是当前的最佳选择,并不关心是否达到最优;C4.5算法是用信息增益比率作为选择分支的准则,通过引入***信息项来惩罚取值较多的特征,弥补ID3中不能处理特征数据连续的问题,但由于连续属性值需要扫描排序,会使C4.5性能下降;CART算法构造的决策树是一棵二叉树,采用二元切分法将数据切成两份,分别进入左子树、右子树,使得每个非叶子节点都有两个孩子,且CART算法既可以用于分类也可以用于回归。由于,不同的决策树算法具有不同的特点,因而可根据具体的应用需求选择相应的决策树算法。在确定决策树算法后,可将训练集中的聚类分析结果作为决策树的输出(叶子节点),将所述样本数据作为所述决策树的输入(根节点与子节点),然后运用确定的决策树算法学习输出与输入的对应关系,也即学习叶子节点与根节点和子节点之间的决策规则,依据该决策规则挤了训练决策树,并对该决策树进行可视化展示。
一实施例中,对运用训练集训练的决策树进行可视化展示时,可以展示决策树中从输入到输出的每一条决策路径,也即从根节点到每一个叶子节点的决策路径,以及决策树中每一个节点的显示输出信息,该显示输出信息可包括:每一个子节点对应的决策条件(如年龄是否为18-20岁,月收入是否为8000等),以及叶子节点对应的聚类分析结果(如好瓜或坏瓜等)等。于是,通过对运用训练集训练的决策树进行遍历,可以获取决策树中从根节点到每一个叶子节点的所有决策路径,以及决策树中每一个节点(包括根节点、叶子节点以及除根节点和叶子节点以外的子节点)对应的显示输出信息,然后按照所获取的决策路径和显示输出信息对决策树进行可视化展示,即可使样本数据的聚类分析操作可视化。
另一实施例中,除了可以对运用训练集训练的决策树进行可视化展示之外,还可以按照不同特征的重要性对运用训练集训练的决策树进行可视化展示,避免按照决策路径进行显示时,在特征较多或决策路径较多等复杂情况下,样本数据的聚类分析操作依然难以理解。具体地,可以先计算不同特征对应的特征参数,该特征参数为表征不同特征的重要性的参数,可以是在训练过程中通过记录不同特征的***总次数,通过总/平均信息增益来对特征的重要性进行量化。例如,可以用特征在整个决策树模型里被使用的次数或者带来的总/平均信息增益来给特征的重要性进行打分,以不同特征对应的分数作为不同特征对应的特征参数;还可以是在训练好的决策树模型,用测试数据对特征的重要性进行量化计算。如,可以先用训练好的决策树模型对测试数据打分,计算出当前业务类型对应的评估指标,然后打乱数据之间的顺序,让数据随机化,对随机化的数据重新进行打分,并计算评估指标;再根据初次计算的评估指标和再次计算的评估指标计算每个特征对应的指标变化率,以指标变化率作为不同特征对应的特征参数;当然,在一些其他的实施例中,也可以是将信息熵或基尼指数减少量的归一化值作为不同特征对应的特征参数。具体可根据业务类型与决策树模型对应的决策算法选用不同的计算方式来计算不同特征对应的特征参数,此处不做限定。然后,按照不同特征对应的特征参数对决策树进行可视化展示,即可根据所展示的特征参数从样本数据中确定目标特征,以重点关注目标特征对应的聚类分析结果,以便于合理制定相应的业务策略。
再一实施例中,在计算得到不同特征对应的特征参数之后,还可依据特征参数对应的参数范围预先划分多个重要等级,然后依据不同特征对应的特征参数从预先划分的多个重要等级中确定不同特征对应的重要等级,直接对不同特征对应的重要等级进行可视化展示,在特征维度过多,如,超过一定数量时,可以更加直观且快速的确定需要重点关注的目标特征,以按照所述重要等级为不同类别客户制定相应的运营策略。
值得注意的是,根据每一条决策路径和每一个节点的显示输出信息进行可视化展示的步骤、根据不同特征对应的特征参数进行可视化展示的步骤,以及根据不同特征对应的重要登记进行可视化展示的步骤,可以是按照预设顺序先后执行,如先显示不同特征对应的决策路径,在展示不同特征对应的特征参数,然后再展示不同特征对应的特征等级;也可以是按照各自独立执行,如,在特征维度超过第一数量时,可以对不同特征对应的特征参数进行可视化展示;在特征维度超过第二数量时,可以对不同特征对应的重要等级进行可视化展示;而在特征为度小于第一数量时,可以对决策路径及结点显示输出信息进行可视化展示。其中,第一数量小于第二数量;当然,也可以是同时执行,也即可以将不同特征对应的决策路径和的特征参数以及重要等级在同一显示界面上同时进行展示,以便结合决策路径和不同特征对应的特征参数区分不同类别客户之间的差异,更加有针对性的制定业务策略。具体的展现形式,可以是以树状图或柱状图等多元化的展现形式进行可视化展示,此处不做具体限定。
本实施例在根据聚类分析结果和样本数据构成训练集后,将训练集中的样本数据作为所述决策树的输入,将所述训练集中的聚类分析结果作为所述决策树的输出,训练决策树,能够构建出与聚类分析操作对应的决策树,由于决策树具有便于可视化且易于理解的特点,对构建的决策树进行可视化展示,即可使样本数据的聚类分析过程可视化,不仅能根据聚类分析结果确认不同客户所属客户类别,而且可以根据可视化展示的决策树确定不同客户类别之间的差异,以便于针对不同类别客户制定个性化的业务策略,提高业务策略制定的可靠性。
此外,本发明实施例还提供一种可视化展示***,所述可视化展示***包括存储器、处理器及存储在所述处理器上并可在处理器上运行的可视化展示程序,所述处理器执行所述可视化展示程序时实现如上所述可视化展示方法的步骤。
此外,本发明实施例还提供一种可读存储介质,所述可读存储介质上存储有可视化展示程序,所述可视化展示程序被处理器执行时实现如上所述的可视化展示方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,电视,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种可视化展示方法,其特征在于,所述可视化展示方法包括以下步骤:
获取不同客户对应的特征数据,以所述特征性数据作为不同客户对应的样本数据;
对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果,所述聚类分析结果为不同所述样本数据的客户所属的客户类别;
根据所述聚类分析结果和所述样本数据构成的训练集,运用所述训练集训练决策树,并对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化。
2.如权利要求1所述的可视化展示方法,其特征在于,所述运用所述训练集训练决策树的步骤包括:
将所述训练集中的样本数据作为所述决策树的输入,将所述训练集中的聚类分析结果作为所述决策树的输出,训练决策树。
3.如权利要求2所述的可视化展示方法,其特征在于,所述对运用所述训练集训练的决策树进行可视化展示的步骤包括:
遍历运用所述训练集训练的决策树,获取所述决策树中从输入到输出的每一条决策路径,并获取所述决策树中每一个节点的显示输出信息;
根据所获取的每一条决策路径和每一个节点的显示输出信息对所述决策树进行可视化展示。
4.如权利要求1所述的可视化展示方法,其特征在于,所述特征数据包括多个特征对应的数据,所述对运用所述训练集训练的决策树进行可视化展示,使所述样本数据的聚类分析操作可视化的步骤之后,包括:
计算不同特征对应的特征参数,所述特征参数为表征不同特征的重要性的参数;
将决策树中不同特征对应的特征参数进行可视化展示;
根据所展示的特征参数从所述多个特征中确定目标特征,以基于所述目标特征对应的聚类分析结果制定业务策略。
5.如权利要求4所述的可视化展示方法,其特征在于,所述计算不同特征对应的特征参数的步骤之后,所述方法还包括:
依据所述特征参数确定不同特征对应的重要等级;
对不同特征对应的重要等级进行可视化展示,以按照所展示的重要等级为不同类别客户制定相应的业务策略。
6.如权利要求1所述的可视化展示方法,其特征在于,所述对不同客户对应的所述样本数据进行聚类分析,获得不同客户对应的聚类分析结果的步骤包括:
对所述样本数据进行数据清洗,得到清洗后的目标样本数据;
采用预设分层算法确定所述聚类分析模型的分层数量;
按照所述分层数量,对不同客户对应的所述目标样本数据进行聚类分析,获得不同客户对应的聚类分析结果。
7.如权利要求6所述的可视化展示方法,其特征在于,所述对所述样本数据进行数据清洗的步骤包括:
确定所述样本数据中不同类型数据对应的特征标签,并确定业务类型;
依据所述特征标签从所述样本数据中筛选出与所述业务类型匹配的样本数据,对所述业务类型对应的样本数据进行数据清洗。
8.如权利要求6所述的可视化展示方法,其特征在于,所述对所述样本数据进行数据清洗的步骤包括:
获取不同特征之间的关联度数据;
依据所述关联度数据从所述样本数据中筛选出相互独立的样本数据;
对筛选出的相互独立的样本数据进行数据清洗。
9.一种可视化展示***,其特征在于,所述可视化展示***包括存储器、处理器及存储在存储器上并可在处理器上运行的可视化展示程序,所述处理器执行所述可视化展示程序时实现权利要求1-8中任一项所述的可视化展示方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有可视化展示程序,所述可视化展示程序被处理器执行时实现如权利要求1-8中任一项所述的可视化展示方法的步骤。
CN202011386790.3A 2020-11-30 2020-11-30 可视化展示方法、***及可读存储介质 Active CN112508074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011386790.3A CN112508074B (zh) 2020-11-30 2020-11-30 可视化展示方法、***及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011386790.3A CN112508074B (zh) 2020-11-30 2020-11-30 可视化展示方法、***及可读存储介质

Publications (2)

Publication Number Publication Date
CN112508074A true CN112508074A (zh) 2021-03-16
CN112508074B CN112508074B (zh) 2024-05-14

Family

ID=74969336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011386790.3A Active CN112508074B (zh) 2020-11-30 2020-11-30 可视化展示方法、***及可读存储介质

Country Status (1)

Country Link
CN (1) CN112508074B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078849A1 (en) * 2005-08-19 2007-04-05 Slothouber Louis P System and method for recommending items of interest to a user
CN103714138A (zh) * 2013-12-20 2014-04-09 南京理工大学 一种基于密度聚类的区域数据可视化方法
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology
CN106682915A (zh) * 2016-12-25 2017-05-17 东北电力大学 一种客户关系管理***中用户聚类分析方法
CN107862342A (zh) * 2017-11-27 2018-03-30 清华大学 提升树模型的可视分析***及方法
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
CN108492194A (zh) * 2018-03-06 2018-09-04 平安科技(深圳)有限公司 产品推荐方法、装置及存储介质
CN109376759A (zh) * 2018-09-10 2019-02-22 平安科技(深圳)有限公司 用户信息分类方法、装置、计算机设备和存储介质
CN110276382A (zh) * 2019-05-30 2019-09-24 平安科技(深圳)有限公司 基于谱聚类的人群分类方法、装置及介质
CN110874604A (zh) * 2018-08-30 2020-03-10 Tcl集团股份有限公司 模型训练方法及终端设备
CN111783840A (zh) * 2020-06-09 2020-10-16 苏宁金融科技(南京)有限公司 一种随机森林模型的可视化方法、装置及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078849A1 (en) * 2005-08-19 2007-04-05 Slothouber Louis P System and method for recommending items of interest to a user
CN103714138A (zh) * 2013-12-20 2014-04-09 南京理工大学 一种基于密度聚类的区域数据可视化方法
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
CN106682915A (zh) * 2016-12-25 2017-05-17 东北电力大学 一种客户关系管理***中用户聚类分析方法
CN107862342A (zh) * 2017-11-27 2018-03-30 清华大学 提升树模型的可视分析***及方法
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
CN108492194A (zh) * 2018-03-06 2018-09-04 平安科技(深圳)有限公司 产品推荐方法、装置及存储介质
CN110874604A (zh) * 2018-08-30 2020-03-10 Tcl集团股份有限公司 模型训练方法及终端设备
CN109376759A (zh) * 2018-09-10 2019-02-22 平安科技(深圳)有限公司 用户信息分类方法、装置、计算机设备和存储介质
CN110276382A (zh) * 2019-05-30 2019-09-24 平安科技(深圳)有限公司 基于谱聚类的人群分类方法、装置及介质
CN111783840A (zh) * 2020-06-09 2020-10-16 苏宁金融科技(南京)有限公司 一种随机森林模型的可视化方法、装置及存储介质

Also Published As

Publication number Publication date
CN112508074B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
US6507851B1 (en) Customer information retrieving method, a customer information retrieving apparatus, a data preparation method, and a database
CN111160992A (zh) 一种基于用户画像体系的营销***
CN110288484B (zh) 一种基于大数据平台的保险分类的用户推荐方法及***
CN106611344A (zh) 挖掘潜在客户的方法及装置
CN109636482B (zh) 基于相似度模型的数据处理方法及***
CN107818334A (zh) 一种移动互联网用户访问模式表征和聚类方法
CN113469730A (zh) 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN112070577A (zh) 一种商品推荐方法、***、设备及介质
CN112200601A (zh) 物品推荐方法、装置及可读存储介质
CN113159881B (zh) 一种数据聚类及b2b平台客户偏好获取方法、***
CN111949887A (zh) 物品推荐方法、装置及计算机可读存储介质
CN112613953A (zh) 一种商品选品方法、***及计算机可读存储介质
CN115131101A (zh) 一种保险产品个性化智能推荐***
KR20210032691A (ko) 네트워크 기반 상품 추천 방법 및 장치
CN111429161A (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
CN114861050A (zh) 一种基于神经网络的特征融合推荐方法及***
US8738459B2 (en) Product recommendation
CN109146606B (zh) 一种品牌推荐方法、电子设备、存储介质及***
US8577814B1 (en) System and method for genetic creation of a rule set for duplicate detection
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN112508074B (zh) 可视化展示方法、***及可读存储介质
Chen et al. Business analytics for used car price prediction with statistical models
CN113627997A (zh) 数据处理方法、装置、电子设备及存储介质
US20230230143A1 (en) Product recommendation system, product recommendation method, and recordingmedium storing product recommendation program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant