CN106682915A - 一种客户关系管理***中用户聚类分析方法 - Google Patents

一种客户关系管理***中用户聚类分析方法 Download PDF

Info

Publication number
CN106682915A
CN106682915A CN201611212713.XA CN201611212713A CN106682915A CN 106682915 A CN106682915 A CN 106682915A CN 201611212713 A CN201611212713 A CN 201611212713A CN 106682915 A CN106682915 A CN 106682915A
Authority
CN
China
Prior art keywords
sigma
data
node
delta
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611212713.XA
Other languages
English (en)
Inventor
王欣
张毅
薛雯
王燕涛
王姣
郑荣
刘碧莹
张磊
齐林林
刘宇航
刘蔚
郑红刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN201611212713.XA priority Critical patent/CN106682915A/zh
Publication of CN106682915A publication Critical patent/CN106682915A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种客户关系管理***中用户聚类分析方法,其特点是:建立了基于客户关系管理***的体系结构、数据挖掘的应用流程以及全新算法的在客户关系管理***一种用户聚类分析方法。能够弥补现有技术客户关系管理***中用户聚类方法缺陷,具有科学合理,准确性高,通用性强,效果佳且简单可靠等优点。

Description

一种客户关系管理***中用户聚类分析方法
技术领域
本发明涉及管理信息***领域,尤其涉及客户关系管理***中的用户聚类分析方法。
背景技术
客户关系管理(Customer Relationship Management,CRM)就是利用现代信息技术,通过对客户进行深层次地跟踪,分析客户的需求,以留住老客户、吸引新客户,并且可以及时地发现忠诚度可能会发生变化的客户,及时地采取措施,维护企业的利益。随着企业经营模式从以“产品”为核心转变为以“客户”为核心,客户关系管理的重要性日益显现。客户关系管理是工业发达国家对以客户为中心的营销的整体解决方案,CRM是从客户实际需求出发,利用现代信息工具,增强企业在客户服务、客户开发及客户发展等方面的执行能力,从而提高企业盈利及客户的满意度,实现客户和企业双赢的管理理念。
客户关系管理***是一种旨在健全、改善企业与客户之间关系的新型管理***。客户关系管理***不仅仅要对客户信息进行管理,更重要的是要利用客户关系进行数据的挖掘,以便更好地了解营销市场的结构、客户的喜好等,以便开发新产品及调整营销策略等。
目前,企业对积累的大量客户数据缺乏深层次的挖掘,使得客户的服务处于落后的地位。为了更好地对客户关系进行研究,将数据挖掘引入到客户关系管理***中是非常必要的。利用数据挖掘可以找出潜在的客户需求模式和消费行为模型,帮助企业提高客户的满意度,降低客户的流失率,提高销售业绩,真正体现企业“以客户为中心”的服务理念。
在国内专利检索中发现,申请号:201510919909.1,名称:一种基于后台数据挖掘维护大客户关系的方法及装置,主要是针对客户关系***数据进行数据挖掘,以建立判定大客户方法与步骤,主要侧重于***体系结构方面;申请号:201310204340.1,名称:一种基于数据挖掘的客户关系管理方法和***,是基于数据挖掘的客户关系管理***建立的主流技术;申请号:201210445332.1,名称:从客户关系管理客户端应用提供企业资源规划功能的技术,主要侧重于CRM应用对企业资源规划(ERP)***的访问的技术和装置。迄今未见有关与本发明技术方案相同的文献报道和实际应用。
发明内容
本发明的目的在于,弥补现有技术客户关系管理***中用户聚类方法缺陷,通过科学的建立了基于客户关系管理***的体系结构、数据挖掘的应用流程以及全新算法,提出一种准确性高,通用性强,效果佳且简单可靠的客户关系管理***中用户聚类分析方法。
实现本发明目的采用的技术方案是,一种客户关系管理***中用户聚类分析方法,它依次包括的步骤有:业务问题的定义、数据的准备和筛选、数据的清洗和预处理(ETL)、抽取的正确可靠的数据、数据的挖掘、模式集合、模型选择与构建、对模型进行评价和解释、当结果满意则指导企业实践活动、且将客户和市场的反馈信息及时送入到数据仓库,便于企业进行快速的反应,当结果不满意则通过模型优化送入模型选择与构建,其特征是,具体步骤是:
(1)对客户关系管理***数据进行采集并分类:为保证训练的模型在之后的聚类中有较好的适应性,***数据应按照***用户规定分类,在不同段中各取至少100组数据作为训练样本;
(2)对客户关系管理***数据做归一化处理:设数据的论域为di=[mi,Mi],设ri=udi(xi),(i=1,2,3,···,n)是模型对属值xi的无量纲值,且ri∈[0,1]
其中,的标准函数,经过归一化,个数据取值范围为[0,1];
(3)利用归一化处理后的数据,初始化隶属度U(t),V(t),其中t为迭代次数;
(4)将V(t)按式(2)更新为V(t+1);
(5)将V(t+1),按式(3)更新为U(t+1);
(6)当|J(t+1)-J(t)|πε,或迭代次数t超过最大迭代次数M时,算法终止;否则转入步骤(2);
(7)聚类算法:约束条件中引入算法数学模型为
其等价于优化问题
其中:dkj=‖xj-vk‖表示样本点xj到类中心vk的欧氏距离,η∈(0,1)为类中心影响程度调节因子参数,
其他参数与式(1)定义相同,式(3)与式(1)相比,显然考虑了数据在每次聚类过程中数据空间上的实际分布特性;
(8)聚类算法中对隶属度引入半监督性质的补偿项Ψ,描述监督信息其表达式为
类间分离度函数Φ描述不同类间的分散度问题,其表达式为
希望类间超平面间隔更大,已知信息样本具有引导聚类的能力,其隶属度值的影响使最终聚类质量尽可能比用随机数聚类的准确性更高,因此,对式(3)做修改,对隶属度引入半监督性质的补偿项和类间分离度函数,得到新的目标函数,进而得到聚类方法的数学模型,其表达形式为
其中:0πηπ1,η为类中心影响因子参数;其他参数与式(3)相同。
对于模型(6),利用Lagrange乘数因子法进行求解,构造Lagrange函数为
得到最优解的迭代公式为
其中为监督信息项,其取值若满足数据xj为已知信息样本,则取值与已知信息相等;否则为零,构成的c×n已知隶属度矩阵;
(9)设PN为训练集,PN中有p个正例和n个反例,对于一个样本集,正例集的PE的概率为p/(p+n),反例集NE的概率为n/(p+n);
一颗决策树可以被看做是具有正、反例集的消息源,消息源产生的消息期望信息是:
设属性A的取值为{A1,A2,Λ,Am},将PN分类为k个子集{PN1,PN2,Λ,PNk},设PNi有pi个正例,ni个反例,子树PNi所需要的期望信息为I(pi,ni),且根为A的树所需要的期望信息为各子树所需的期望信息的加权平均值,即:
以根为A的树进行分类得到的信息增益为:
Gain(A)=I(p,n)-E(A) (12)
选择Gain(A)最大的属性作为该节点的分支属性,对于决策树的每个节点都使用这条原则,直到建立出完整的决策树为止;
(10)决策树生成算法如下:
输入:S:训练样本集,主要由离散属性值描述;
Candidate-attribute:候选属性集合,
输出:一颗决策树,
(a)创建节点N;
(b)IF S都在一个类C THEN;
(c)返回N作为叶结点,标记为类C;
(d)IF Candidate-attribute为Null THEN;
(e)返回N作为叶结点,标记为S中的普通类;//多数表决;
(f)选择Candidate-attribute中具有最高信息增益的属性A;
(g)标记节点N为A;
(h)FOR Each A中的已知值ai;//划分训练样本;
(i)由节点N长出一个条件为A=ai的分支;
(j)设Si是训练样本S中的分支;//一个划分;
(k)IF A=ai为Null THEN;
(l)加上一个树叶,标记为S中最普通的类;
(m)ELSE加上一个由Generate_decision_tree(S,candidate_A)返回的节点;
在求出每个属性的信息增益后,利用函数算出参数,去修正该信息增益,将其作为属性选择及样本划分子集的***度量标准,对于缺少属性值的那些样本,利用相对频率随机概率数进行调整,
具体算法的步骤依次是:统计样本总量、计算训练样本计划属性值信息增益Gain(Q)、修正训练样本计划属性值信息增益Gain’(Q)、根据MAXGain’(Q)的属性划分当前样本值、创建与MAXGain’(Q)属性值对应的根结点A、确定根节点A的下一级结点、求出全部的叶结点、生成决策树,不求出全部的叶结点返回计算训练样本计划属性值信息增益Gain(Q),
为了利用决策树进行聚类结果的分析,需要先定义一些客户价值的分析标准,这些标准以数据表的形式存放在数据库或XML文件中,在定义了客户价值的分析标准之后,利用算法生成决策树来对聚类分析的结构进行解释;
(11)将客户关系管理***的数据库数据作为输入,利用步骤(1)至步骤(10)建立的模型进行聚类,得到相关聚类结果。
本发明一种客户关系管理***中用户聚类分析的方法,应用数据挖掘在客户关系管理***中通过对数据仓库中的数据进行提取,将这些数据作为研究的建模样本;然后利用各种数据挖掘的算法对数据进行挖掘,对挖掘的结果进行分析和建模,对模型进行不断优化,进而得到相关聚类结果。所具有的优点体现在:
1.利用智能计算模型对客户关系管理***数据进行聚类分析,可实现有效聚类,弥补了现有方法的不足,对现有方法起到了较好的辅助作用;
2.不用对客户关系管理***做任何改动,也不需要增加新设备,简单易行;
3.融合多种人工智能计算模型,降低单一模型在聚类中可能出现较大误差的几率,使聚类结果更稳定。
4.其科学合理,准确性高,通用性强,效果佳。
附图说明
图1是一种客户关系管理***中用户聚类分析的数据挖掘流程图;
图2是一种客户关系管理***中用户聚类分析的算法步骤框图;
图3性能指标与监督信息比的变化曲线图。
具体实施方式:
下面利用附图和实施例对本发明一种客户关系管理***中用户聚类分析的方法作进一步说明。
参照图1,本发明的一种客户关系管理***中用户聚类分析方法,依次包括的步骤有:业务问题的定义、数据的准备和筛选、数据的清洗和预处理(ETL)、抽取的正确可靠的数据、数据的挖掘、模式集合、模型选择与构建、对模型进行评价和解释、当结果满意则指导企业实践活动、且将客户和市场的反馈信息及时送入到数据仓库,便于企业进行快速的反应,当结果不满意则通过模型优化送入模型选择与构建。
为了验证算法的合理性,在UCI机器学习数据库中,采用常用于聚类方法检测的Iris数据集、Wine数据集和Balance-scale数据集进行实验,数据集信息列于表1。
表1实验数据集信息
对于每个数据集,随机选取总体样本的10%,20%,30%,40%作为测试集。为了客观进行不同算法性能的优劣比较,设参数m=2,η=0.000 1。
具体步骤如下:
(1)对客户关系***数据进行采集并分类:为保证训练的模型在之后的聚类中有较好的适应性,***数据应按照***用户规定分类。在以上数据集不同段中各取数据作为训练样本。
(2)对客户关系管理***的数据做归一化处理:设数据的论域为di=[mi,Mi],设ri=ud i(xi),(i=1,2,3,···,n)是模型对属值xi的无量纲值,且ri∈[0,1].
其中,的标准函数。经过归一化,个数据取值范围为[0,1]。
(3)利用归一化处理后的数据,初始化隶属度U(t),V(t),其中t为迭代次数;
(4)将V(t)按式(2)更新为V(t+1);
(5)将V(t+1),按式(3)更新为U(t+1);
(6)当|J(t+1)-J(t)|πε,或迭代次数t超过最大迭代次数M时,算法终止;否则转入步骤(2);
(7)聚类算法约束条件中引入算法数学模型为
其等价于优化问题
其中:dkj=‖xj-vk‖表示样本点xj到类中心vk的欧氏距离;η∈(0,1)为类中心影响程度调节因子参数;
其他参数与式(1)定义相同。式(3)与式(1)相比,显然考虑了数据在每次聚类过程中数据空间上的实际分布特性。
(8)聚类算法中对隶属度引入半监督性质的补偿项Ψ,描述监督信息其表达式为
类间分离度函数Φ描述不同类间的分散度问题,其表达式为
希望类间超平面间隔更大。已知信息样本具有引导聚类的能力,其隶属度值的影响使最终聚类质量尽可能比用随机数聚类的准确性更高。因此,对式(3)做修改,对隶属度引入半监督性质的补偿项和类间分离度函数,得到新的目标函数,进而得到聚类方法的数学模型,其表达形式为
其中:0πηπ1,η为类中心影响因子参数;其他参数与式(3)相同。
对于模型(6),利用Lagrange乘数因子法进行求解,构造Lagrange函数为
得到最优解的迭代公式为
其中为监督信息项,其取值若满足数据xj为已知信息样本,则取值与已知信息相等;否则为零。构成的c×n已知隶属度矩阵。
(9)设PN为训练集,PN中有p个正例和n个反例,对于一个样本集,正例集的PE的概率为p/(p+n),反例集NE的概率为n/(p+n)。
一颗决策树可以被看做是具有正、反例集的消息源,消息源产生的消息期望信息是:
设属性A的取值为{A1,A2,Λ,Am},将PN分类为k个子集{PN1,PN2,Λ,PNk}。设PNi有pi个正例,ni个反例,子树PNi所需要的期望信息为I(pi,ni)。且根为A的树所需要的期望信息为各子树所需的期望信息的加权平均值,即:
以根为A的树进行分类得到的信息增益为:
Gain(A)=I(p,n)-E(A) (12)
选择Gain(A)最大的属性作为该节点的分支属性,对于决策树的每个节点都使用这条原则,直到建立出完整的决策树为止。
(10)决策树生成算法如下:
输入:S:训练样本集,主要由离散属性值描述;
Candidate-attribute:候选属性集合。
输出:一颗决策树。
方法:
(a)创建节点N;
(b)IF S都在一个类C THEN;
(c)返回N作为叶结点,标记为类C;
(d)IF Candidate-attribute为Null THEN;
(e)返回N作为叶结点,标记为S中的普通类;//多数表决;
(f)选择Candidate-attribute中具有最高信息增益的属性A;
(g)标记节点N为A;
(h)FOR Each A中的已知值ai;//划分训练样本;
(i)由节点N长出一个条件为A=ai的分支;
(j)设Si是训练样本S中的分支;//一个划分;
(k)IF A=ai为Null THEN;
(l)加上一个树叶,标记为S中最普通的类;
(m)ELSE加上一个由Generate_decision_tree(S,candidate_A)返回的节点;
在求出每个属性的信息增益后,利用函数算出参数,去修正该信息增益,将其作为属性选择及样本划分子集的***度量标准。对于缺少属性值的那些样本,利用相对频率随机概率数进行调整。
如图2所示,具体算法的步骤依次是:统计样本总量、计算训练样本计划属性值信息增益Gain(Q)、修正训练样本计划属性值信息增益Gain’(Q)、根据MAXGain’(Q)的属性划分当前样本值、创建与MAXGain’(Q)属性值对应的根结点A、确定根节点A的下一级结点、求出全部的叶结点、生成决策树,不求出全部的叶结点返回计算训练样本计划属性值信息增益Gain(Q)。
为了利用决策树进行聚类结果的分析,需要先定义一些客户价值的分析标准,这些标准以数据表的形式存放在数据库或XML文件中,在定义了客户价值的分析标准之后,就可以利用算法生成决策树来对聚类分析的结构进行解释。
(11)将客户关系管理***的数据库数据作为输入,利用步骤(1)至步骤(10)建立的模型进行聚类,得到相关聚类结果。
性能评价指标为RI=n0/n,其中n0为测试集的聚类结果与标准数据集对比后得到正确分类样本的平均个数;n为测试数据集的样本总数;RI值越大,表示聚类准确性越大,聚类效果越好。重复5次实验,实验结果RI的平均值列于表2。由表2可见,随着监督信息的增多,聚类的正确率有增大趋势,表明监督信息数据具有指导作用。在Iris数据集、Wine数据集和Balance-scale数据集上性能指标与监督信息比的变化曲线如图3所示。由图3可见:在不同数据集上,RI值随监督信息比值的增大而增大;虽然聚类正确率的上升速度不能按监督信息量的增幅而变化,但总体上仍高于原有聚类算法的聚类精度,进而验证了该算法的合理性和有效性。
表2实验结果RI的比较
综上所述,本发明的聚类算法,在聚类过程中利用已知样本信息减少了信息的浪费,同时考虑了类内紧度信息和类间分散度信息,有效改善原有聚类方法的盲目性.将本发明方法在UCI数据集上进行仿真实验,实验结果表明,本发明所提出的新算法总体上优于其他聚类算法的性能.
本发明一种以硅藻土为原料制备多孔硅/石墨烯复合锂离子电池负极材料的方法所用的原材料均为市售产品,原料易得,便于实施。
本发明实施例中的计算条件、图例等仅用于对本发明作进一步的说明,并非穷举,并不构成对权利要求保护范围的限定,本领域技术人员根据本发明实施例获得的启示,不经过创造性劳动就能够想到其它实质上等同的替代,均在本发明保护范围内。

Claims (1)

1.一种客户关系管理***中用户聚类分析方法,它依次包括的步骤有:业务问题的定义、数据的准备和筛选、数据的清洗和预处理(ETL)、抽取的正确可靠的数据、数据的挖掘、模式集合、模型选择与构建、对模型进行评价和解释、当结果满意则指导企业实践活动、且将客户和市场的反馈信息及时送入到数据仓库,便于企业进行快速的反应,当结果不满意则通过模型优化送入模型选择与构建,其特征是,具体步骤是:
(1)对客户关系管理***数据进行采集并分类:为保证训练的模型在之后的聚类中有较好的适应性,***数据应按照***用户规定分类,在不同段中各取至少100组数据作为训练样本;
(2)对客户关系管理***数据做归一化处理:设数据的论域为di=[mi,Mi],设ri=udi(xi),(i=1,2,3,…,n)是模型对属值xi的无量纲值,且ri∈[0,1]
其中,的标准函数,经过归一化,个数据取值范围为[0,1];
(3)利用归一化处理后的数据,初始化隶属度U(t),V(t),其中t为迭代次数;
(4)将V(t)按式(2)更新为V(t+1);
(5)将V(t+1),按式(3)更新为U(t+1);
(6)当|J(t+1)-J(t)|πε,或迭代次数t超过最大迭代次数M时,算法终止;否则转入步骤(2);
(7)聚类算法:约束条件中引入算法数学模型为
min j ( U , V , λ ) = Σ i = 1 c Σ j = 1 n u i j m d i j 2 - Σ i = 1 c Σ j = 1 n λ j u i j m ln u i j m s . t Σ i = 1 c u i j = 1 , u i j ∈ [ 0 , 1 ] , Σ j = 1 n u i j ∈ ( 0 , n ) , - - - ( 2 )
其等价于优化问题
min j ( U , V ) = Σ i = 1 c Σ j = 1 n δ j m u i j m d i j 2 s . t Σ i = 1 c u i j = 1 , u i j ∈ [ 0 , 1 ] , Σ j = 1 n u i j ∈ ( 0 , n ) , - - - ( 3 )
其中:dkj=‖xj-vk‖表示样本点xj到类中心vk的欧氏距离,η∈(0,1)为类中心影响程度调节因子参数,
δ i = ( Σ k = 1 c d k j 2 ) - 1 ; λ = ( λ 1 , λ 2 , Λ , λ n ) ;
其他参数与式(1)定义相同,式(3)与式(1)相比,显然考虑了数据在每次聚类过程中数据空间上的实际分布特性;
(8)聚类算法中对隶属度引入半监督性质的补偿项Ψ,描述监督信息其表达式为
ψ = Σ i = 1 c Σ j = 1 n ( u i j - u ^ i j ) m , - - - ( 4 )
类间分离度函数Φ描述不同类间的分散度问题,其表达式为
φ = η Σ i = 1 c Σ h = 1 , h ≠ i c | | v i - v h | | 2 , - - - ( 5 )
希望类间超平面间隔更大,已知信息样本具有引导聚类的能力,其隶属度值的影响使最终聚类质量尽可能比用随机数聚类的准确性更高,因此,对式(3)做修改,对隶属度引入半监督性质的补偿项和类间分离度函数,得到新的目标函数,进而得到聚类方法的数学模型,其表达形式为
min j ( U , V ) = Σ i = 1 c Σ j = 1 n δ j m ( u i j - u ^ i j ) m d i j 2 - η Σ i = 1 c Σ j = 1 n δm j m ( u i j - u ^ i j ) m Σ h = i , h ≠ k c | | v i - v j | | 2 , s . t Σ i = 1 c u i j = 1 , u i j ∈ [ 0 , 1 ] , Σ j = 1 n u i j ∈ ( 0 , n ) , - - - ( 6 )
其中:0πηπ1,η为类中心影响因子参数;其他参数与式(3)相同。
对于模型(6),利用Lagrange乘数因子法进行求解,构造Lagrange函数为
J = J ( U , V ) - Σ k = 1 n λ k ( Σ i = 1 c u i j - 1 ) , - - - ( 7 )
得到最优解的迭代公式为
v i = Σδ j m ( u i j - u ^ i j ) m x j - η Σ j = 1 n [ δ j m ( u i j - u ^ i j ) m Σ h = i , h ≠ i c v h Σ j = 1 n δ j m ( u i j - u ^ i j ) m - η ( c - 1 ) Σ j = 1 n δ j m ( u i j - u ^ i j ) m - - - ( 8 )
u i j = u ^ i j + 1 - Σ k = 1 c u ^ i j ( Σ k = 1 N δ j m d i j 2 - ηδ j m Σ h = 1 , h ≠ i c | | v i - v h | | 2 δ j m d k j 2 - ηδ j m Σ h = 1 , h ≠ i c | | v - v h | | 2 ) 1 / ( m - 1 ) , - - - ( 9 )
其中为监督信息项,其取值若满足数据xj为已知信息样本,则取值与已知信息相等;否则为零,构成的c×n已知隶属度矩阵;
(9)设PN为训练集,PN中有p个正例和n个反例,对于一个样本集,正例集的PE的概率为p/(p+n),反例集NE的概率为n/(p+n);
一颗决策树可以被看做是具有正、反例集的消息源,消息源产生的消息期望信息是:
I ( p , n ) = - p p + n log 2 p p + n - n p + n log 2 n p + n - - - ( 10 )
设属性A的取值为{A1,A2,Λ,Am},将PN分类为k个子集{PN1,PN2,Λ,PNk},设PNi有pi个正例,ni个反例,子树PNi所需要的期望信息为I(pi,ni),且根为A的树所需要的期望信息为各子树所需的期望信息的加权平均值,即:
E ( A ) = Σ i = 1 k p i + n i p + n I ( p i , n i ) - - - ( 11 )
以根为A的树进行分类得到的信息增益为:
Gain(A)=I(p,n)-E(A) (12)
选择Gain(A)最大的属性作为该节点的分支属性,对于决策树的每个节点都使用这条原则,直到建立出完整的决策树为止;
(10)决策树生成算法如下:
输入:S:训练样本集,主要由离散属性值描述;
Candidate-attribute:候选属性集合,
输出:一颗决策树,
(a)创建节点N;
(b)IF S都在一个类C THEN;
(c)返回N作为叶结点,标记为类C;
(d)IF Candidate-attribute为Null THEN;
(e)返回N作为叶结点,标记为S中的普通类;//多数表决;
(f)选择Candidate-attribute中具有最高信息增益的属性A;
(g)标记节点N为A;
(h)FOR Each A中的已知值ai;//划分训练样本;
(i)由节点N长出一个条件为A=ai的分支;
(j)设Si是训练样本S中的分支;//一个划分;
(k)IF A=ai为Null THEN;
(l)加上一个树叶,标记为S中最普通的类;
(m)ELSE加上一个由Generate_decision_tree(S,candidate_A)返回的节点;
在求出每个属性的信息增益后,利用函数算出参数,去修正该信息增益,将其作为属性选择及样本划分子集的***度量标准,对于缺少属性值的那些样本,利用相对频率随机概率数进行调整,
具体算法的步骤依次是:统计样本总量、计算训练样本计划属性值信息增益Gain(Q)、修正训练样本计划属性值信息增益Gain’(Q)、根据MAXGain’(Q)的属性划分当前样本值、创建与MAXGain’(Q)属性值对应的根结点A、确定根节点A的下一级结点、求出全部的叶结点、生成决策树,不求出全部的叶结点返回计算训练样本计划属性值信息增益Gain(Q),
为了利用决策树进行聚类结果的分析,需要先定义一些客户价值的分析标准,这些标准以数据表的形式存放在数据库或XML文件中,在定义了客户价值的分析标准之后,利用算法生成决策树来对聚类分析的结构进行解释;
(11)将客户关系管理***的数据库数据作为输入,利用步骤(1)至步骤(10)建立的模型进行聚类,得到相关聚类结果。
CN201611212713.XA 2016-12-25 2016-12-25 一种客户关系管理***中用户聚类分析方法 Pending CN106682915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611212713.XA CN106682915A (zh) 2016-12-25 2016-12-25 一种客户关系管理***中用户聚类分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611212713.XA CN106682915A (zh) 2016-12-25 2016-12-25 一种客户关系管理***中用户聚类分析方法

Publications (1)

Publication Number Publication Date
CN106682915A true CN106682915A (zh) 2017-05-17

Family

ID=58870536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611212713.XA Pending CN106682915A (zh) 2016-12-25 2016-12-25 一种客户关系管理***中用户聚类分析方法

Country Status (1)

Country Link
CN (1) CN106682915A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909178A (zh) * 2017-08-31 2018-04-13 上海壹账通金融科技有限公司 电子装置、失联修复率预测方法和计算机可读存储介质
CN108966448A (zh) * 2018-05-31 2018-12-07 淮阴工学院 一种基于自适应模糊决策树的灯光动态调控方法
CN109885597A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 基于机器学习的用户分群处理方法、装置及电子终端
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成***
CN112508074A (zh) * 2020-11-30 2021-03-16 深圳市飞泉云数据服务有限公司 可视化展示方法、***及可读存储介质
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909178A (zh) * 2017-08-31 2018-04-13 上海壹账通金融科技有限公司 电子装置、失联修复率预测方法和计算机可读存储介质
CN107909178B (zh) * 2017-08-31 2021-06-08 深圳壹账通智能科技有限公司 电子装置、失联修复率预测方法和计算机可读存储介质
CN108966448A (zh) * 2018-05-31 2018-12-07 淮阴工学院 一种基于自适应模糊决策树的灯光动态调控方法
CN109885597A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 基于机器学习的用户分群处理方法、装置及电子终端
CN109885597B (zh) * 2019-01-07 2023-05-30 平安科技(深圳)有限公司 基于机器学习的用户分群处理方法、装置及电子终端
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成***
CN112348583B (zh) * 2020-11-04 2022-12-06 贝壳技术有限公司 用户偏好生成方法与生成***
CN112508074A (zh) * 2020-11-30 2021-03-16 深圳市飞泉云数据服务有限公司 可视化展示方法、***及可读存储介质
CN112508074B (zh) * 2020-11-30 2024-05-14 深圳市飞泉云数据服务有限公司 可视化展示方法、***及可读存储介质
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置
CN115019078B (zh) * 2022-08-09 2023-01-24 阿里巴巴(中国)有限公司 车辆图像处理方法、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN106682915A (zh) 一种客户关系管理***中用户聚类分析方法
Liu et al. A multimodal multiobjective evolutionary algorithm using two-archive and recombination strategies
Charoen-Ung et al. Sugarcane yield grade prediction using random forest with forward feature selection and hyper-parameter tuning
Alvarez et al. An evolutionary algorithm to discover quantitative association rules from huge databases without the need for an a priori discretization
CN109461025A (zh) 一种基于机器学习的电能替代潜在客户预测方法
Limsathitwong et al. Dropout prediction system to reduce discontinue study rate of information technology students
Hu et al. A niching backtracking search algorithm with adaptive local search for multimodal multiobjective optimization
Gajowniczek et al. Comparison of decision trees with Rényi and Tsallis entropy applied for imbalanced churn dataset
Wang et al. Design of the Sports Training Decision Support System Based on the Improved Association Rule, the Apriori Algorithm.
Kurniawan et al. C5. 0 algorithm and synthetic minority oversampling technique (SMOTE) for rainfall forecasting in Bandung regency
CN115018357A (zh) 一种面向生产绩效提升的农户画像构建方法及***
Fayaz et al. An adaptive gradient boosting model for the prediction of rainfall using ID3 as a base estimator
Wang et al. Research on the factors affecting the innovation performance of China’s new energy type enterprises from the perspective of industrial policy
Tuysuzoglu et al. Ensemble methods in environmental data mining
CN103020864A (zh) 玉米良种选育方法
Lai Segmentation study on enterprise customers based on data mining technology
Hassani et al. On the application of data mining to official data
Rattan et al. Applying SMOTE with decision tree classifier for campus placement prediction
Sang English teaching comprehensive ability evaluation system based on K-means clustering algorithm
Hou et al. Prediction of learners' academic performance using factorization machine and decision tree
Sreerama et al. A machine learning approach to crop yield prediction
Li Application of Fuzzy K‐Means Clustering Algorithm in the Innovation of English Teaching Evaluation Method
He et al. A study on evaluation of farmland fertility levels based on optimization of the decision tree algorithm
Tamrakar Student Performance Prediction by means of Multiple Regression
CN108052560A (zh) 一种基于高校数据的数据分析处理方法及就业趋势数据的数据分析处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170517