CN106682915A

CN106682915A - 一种客户关系管理***中用户聚类分析方法

Info

Publication number: CN106682915A
Application number: CN201611212713.XA
Authority: CN
Inventors: 王欣; 张毅; 薛雯; 王燕涛; 王姣; 郑荣; 刘碧莹; 张磊; 齐林林; 刘宇航; 刘蔚; 郑红刚
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2016-12-25
Filing date: 2016-12-25
Publication date: 2017-05-17

Abstract

本发明公开了一种客户关系管理***中用户聚类分析方法，其特点是：建立了基于客户关系管理***的体系结构、数据挖掘的应用流程以及全新算法的在客户关系管理***一种用户聚类分析方法。能够弥补现有技术客户关系管理***中用户聚类方法缺陷，具有科学合理，准确性高，通用性强，效果佳且简单可靠等优点。

Description

一种客户关系管理***中用户聚类分析方法

技术领域

本发明涉及管理信息***领域，尤其涉及客户关系管理***中的用户聚类分析方法。

背景技术

客户关系管理(Customer Relationship Management，CRM)就是利用现代信息技术，通过对客户进行深层次地跟踪，分析客户的需求，以留住老客户、吸引新客户，并且可以及时地发现忠诚度可能会发生变化的客户，及时地采取措施，维护企业的利益。随着企业经营模式从以“产品”为核心转变为以“客户”为核心，客户关系管理的重要性日益显现。客户关系管理是工业发达国家对以客户为中心的营销的整体解决方案，CRM是从客户实际需求出发，利用现代信息工具，增强企业在客户服务、客户开发及客户发展等方面的执行能力，从而提高企业盈利及客户的满意度，实现客户和企业双赢的管理理念。

客户关系管理***是一种旨在健全、改善企业与客户之间关系的新型管理***。客户关系管理***不仅仅要对客户信息进行管理，更重要的是要利用客户关系进行数据的挖掘，以便更好地了解营销市场的结构、客户的喜好等，以便开发新产品及调整营销策略等。

目前，企业对积累的大量客户数据缺乏深层次的挖掘，使得客户的服务处于落后的地位。为了更好地对客户关系进行研究，将数据挖掘引入到客户关系管理***中是非常必要的。利用数据挖掘可以找出潜在的客户需求模式和消费行为模型，帮助企业提高客户的满意度，降低客户的流失率，提高销售业绩，真正体现企业“以客户为中心”的服务理念。

在国内专利检索中发现，申请号：201510919909.1，名称：一种基于后台数据挖掘维护大客户关系的方法及装置，主要是针对客户关系***数据进行数据挖掘，以建立判定大客户方法与步骤，主要侧重于***体系结构方面；申请号：201310204340.1，名称：一种基于数据挖掘的客户关系管理方法和***，是基于数据挖掘的客户关系管理***建立的主流技术；申请号：201210445332.1，名称：从客户关系管理客户端应用提供企业资源规划功能的技术，主要侧重于CRM应用对企业资源规划(ERP)***的访问的技术和装置。迄今未见有关与本发明技术方案相同的文献报道和实际应用。

发明内容

本发明的目的在于，弥补现有技术客户关系管理***中用户聚类方法缺陷，通过科学的建立了基于客户关系管理***的体系结构、数据挖掘的应用流程以及全新算法，提出一种准确性高，通用性强，效果佳且简单可靠的客户关系管理***中用户聚类分析方法。

实现本发明目的采用的技术方案是，一种客户关系管理***中用户聚类分析方法，它依次包括的步骤有：业务问题的定义、数据的准备和筛选、数据的清洗和预处理(ETL)、抽取的正确可靠的数据、数据的挖掘、模式集合、模型选择与构建、对模型进行评价和解释、当结果满意则指导企业实践活动、且将客户和市场的反馈信息及时送入到数据仓库，便于企业进行快速的反应，当结果不满意则通过模型优化送入模型选择与构建，其特征是，具体步骤是：

(1)对客户关系管理***数据进行采集并分类：为保证训练的模型在之后的聚类中有较好的适应性，***数据应按照***用户规定分类，在不同段中各取至少100组数据作为训练样本；

(2)对客户关系管理***数据做归一化处理：设数据的论域为d_i＝[m_i,M_i]，设r_i＝ud_i(x_i)，(i＝1,2,3,···,n)是模型对属值x_i的无量纲值，且r_i∈[0,1]

其中，为的标准函数，经过归一化，个数据取值范围为[0,1]；

(3)利用归一化处理后的数据，初始化隶属度U(t)，V(t)，其中t为迭代次数；

(4)将V(t)按式(2)更新为V(t+1)；

(5)将V(t+1)，按式(3)更新为U(t+1)；

(6)当|J(t+1)-J(t)|πε，或迭代次数t超过最大迭代次数M时，算法终止；否则转入步骤(2)；

(7)聚类算法：约束条件中引入算法数学模型为

其等价于优化问题

其中：d_kj＝‖x_j-v_k‖表示样本点x_j到类中心v_k的欧氏距离，η∈(0，1)为类中心影响程度调节因子参数，

其他参数与式(1)定义相同，式(3)与式(1)相比，显然考虑了数据在每次聚类过程中数据空间上的实际分布特性；

(8)聚类算法中对隶属度引入半监督性质的补偿项Ψ，描述监督信息其表达式为

类间分离度函数Φ描述不同类间的分散度问题，其表达式为

希望类间超平面间隔更大，已知信息样本具有引导聚类的能力，其隶属度值的影响使最终聚类质量尽可能比用随机数聚类的准确性更高，因此，对式(3)做修改，对隶属度引入半监督性质的补偿项和类间分离度函数，得到新的目标函数，进而得到聚类方法的数学模型，其表达形式为

其中:0πηπ1,η为类中心影响因子参数；其他参数与式(3)相同。

对于模型(6)，利用Lagrange乘数因子法进行求解，构造Lagrange函数为

令得到最优解的迭代公式为

其中为监督信息项，其取值若满足数据x_j为已知信息样本，则取值与已知信息相等；否则为零，为构成的c×n已知隶属度矩阵；

(9)设PN为训练集，PN中有p个正例和n个反例，对于一个样本集，正例集的PE的概率为p/(p+n)，反例集NE的概率为n/(p+n)；

一颗决策树可以被看做是具有正、反例集的消息源，消息源产生的消息期望信息是：

设属性A的取值为{A₁,A₂,Λ,A_m}，将PN分类为k个子集{PN₁，PN₂，Λ,PN_k}，设PN_i有p_i个正例，n_i个反例，子树PN_i所需要的期望信息为I(p_i,n_i)，且根为A的树所需要的期望信息为各子树所需的期望信息的加权平均值，即：

以根为A的树进行分类得到的信息增益为：

Gain(A)＝I(p,n)-E(A) (12)

选择Gain(A)最大的属性作为该节点的分支属性，对于决策树的每个节点都使用这条原则，直到建立出完整的决策树为止；

(10)决策树生成算法如下：

输入：S：训练样本集，主要由离散属性值描述；

Candidate-attribute：候选属性集合，

输出：一颗决策树，

(a)创建节点N；

(b)IF S都在一个类C THEN；

(c)返回N作为叶结点，标记为类C；

(d)IF Candidate-attribute为Null THEN；

(e)返回N作为叶结点，标记为S中的普通类；//多数表决；

(f)选择Candidate-attribute中具有最高信息增益的属性A；

(g)标记节点N为A；

(h)FOR Each A中的已知值a_i；//划分训练样本；

(i)由节点N长出一个条件为A＝a_i的分支；

(j)设S_i是训练样本S中的分支；//一个划分；

(k)IF A＝a_i为Null THEN；

(l)加上一个树叶，标记为S中最普通的类；

(m)ELSE加上一个由Generate_decision_tree(S,candidate_A)返回的节点；

在求出每个属性的信息增益后，利用函数算出参数，去修正该信息增益，将其作为属性选择及样本划分子集的***度量标准，对于缺少属性值的那些样本，利用相对频率随机概率数进行调整，

具体算法的步骤依次是：统计样本总量、计算训练样本计划属性值信息增益Gain(Q)、修正训练样本计划属性值信息增益Gain’(Q)、根据MAXGain’(Q)的属性划分当前样本值、创建与MAXGain’(Q)属性值对应的根结点A、确定根节点A的下一级结点、求出全部的叶结点、生成决策树，不求出全部的叶结点返回计算训练样本计划属性值信息增益Gain(Q)，

为了利用决策树进行聚类结果的分析，需要先定义一些客户价值的分析标准，这些标准以数据表的形式存放在数据库或XML文件中，在定义了客户价值的分析标准之后，利用算法生成决策树来对聚类分析的结构进行解释；

(11)将客户关系管理***的数据库数据作为输入，利用步骤(1)至步骤(10)建立的模型进行聚类，得到相关聚类结果。

本发明一种客户关系管理***中用户聚类分析的方法，应用数据挖掘在客户关系管理***中通过对数据仓库中的数据进行提取，将这些数据作为研究的建模样本；然后利用各种数据挖掘的算法对数据进行挖掘，对挖掘的结果进行分析和建模，对模型进行不断优化，进而得到相关聚类结果。所具有的优点体现在：

1.利用智能计算模型对客户关系管理***数据进行聚类分析，可实现有效聚类，弥补了现有方法的不足，对现有方法起到了较好的辅助作用；

2.不用对客户关系管理***做任何改动，也不需要增加新设备，简单易行；

3.融合多种人工智能计算模型，降低单一模型在聚类中可能出现较大误差的几率，使聚类结果更稳定。

4.其科学合理，准确性高，通用性强，效果佳。

附图说明

图1是一种客户关系管理***中用户聚类分析的数据挖掘流程图；

图2是一种客户关系管理***中用户聚类分析的算法步骤框图；

图3性能指标与监督信息比的变化曲线图。

具体实施方式:

下面利用附图和实施例对本发明一种客户关系管理***中用户聚类分析的方法作进一步说明。

参照图1，本发明的一种客户关系管理***中用户聚类分析方法，依次包括的步骤有：业务问题的定义、数据的准备和筛选、数据的清洗和预处理(ETL)、抽取的正确可靠的数据、数据的挖掘、模式集合、模型选择与构建、对模型进行评价和解释、当结果满意则指导企业实践活动、且将客户和市场的反馈信息及时送入到数据仓库，便于企业进行快速的反应，当结果不满意则通过模型优化送入模型选择与构建。

为了验证算法的合理性，在UCI机器学习数据库中，采用常用于聚类方法检测的Iris数据集、Wine数据集和Balance-scale数据集进行实验，数据集信息列于表1。

表1实验数据集信息

对于每个数据集，随机选取总体样本的10％，20％，30％，40％作为测试集。为了客观进行不同算法性能的优劣比较，设参数m＝2，η＝0.000 1。

具体步骤如下：

(1)对客户关系***数据进行采集并分类：为保证训练的模型在之后的聚类中有较好的适应性，***数据应按照***用户规定分类。在以上数据集不同段中各取数据作为训练样本。

(2)对客户关系管理***的数据做归一化处理：设数据的论域为d_i＝[m_i,M_i]，设r_i＝ud _i(x_i),(i＝1,2,3,···,n)是模型对属值x_i的无量纲值，且r_i∈[0,1].

其中，为的标准函数。经过归一化，个数据取值范围为[0,1]。

(4)将V(t)按式(2)更新为V(t+1)；

(5)将V(t+1)，按式(3)更新为U(t+1)；

(7)聚类算法约束条件中引入算法数学模型为

其等价于优化问题

其中:d_kj＝‖x_j-v_k‖表示样本点x_j到类中心v_k的欧氏距离；η∈(0，1)为类中心影响程度调节因子参数；

其他参数与式(1)定义相同。式(3)与式(1)相比，显然考虑了数据在每次聚类过程中数据空间上的实际分布特性。

类间分离度函数Φ描述不同类间的分散度问题，其表达式为

希望类间超平面间隔更大。已知信息样本具有引导聚类的能力，其隶属度值的影响使最终聚类质量尽可能比用随机数聚类的准确性更高。因此，对式(3)做修改，对隶属度引入半监督性质的补偿项和类间分离度函数，得到新的目标函数，进而得到聚类方法的数学模型，其表达形式为

令得到最优解的迭代公式为

其中为监督信息项，其取值若满足数据x_j为已知信息样本，则取值与已知信息相等；否则为零。为构成的c×n已知隶属度矩阵。

(9)设PN为训练集，PN中有p个正例和n个反例，对于一个样本集，正例集的PE的概率为p/(p+n)，反例集NE的概率为n/(p+n)。

设属性A的取值为{A₁,A₂,Λ,A_m}，将PN分类为k个子集{PN₁，PN₂，Λ,PN_k}。设PN_i有p_i个正例，n_i个反例，子树PN_i所需要的期望信息为I(p_i,n_i)。且根为A的树所需要的期望信息为各子树所需的期望信息的加权平均值，即：

以根为A的树进行分类得到的信息增益为：

Gain(A)＝I(p,n)-E(A) (12)

选择Gain(A)最大的属性作为该节点的分支属性，对于决策树的每个节点都使用这条原则，直到建立出完整的决策树为止。

(10)决策树生成算法如下：

输入：S：训练样本集，主要由离散属性值描述；

Candidate-attribute：候选属性集合。

输出：一颗决策树。

方法：

(a)创建节点N；

(b)IF S都在一个类C THEN；

(c)返回N作为叶结点，标记为类C；

(d)IF Candidate-attribute为Null THEN；

(e)返回N作为叶结点，标记为S中的普通类；//多数表决；

(f)选择Candidate-attribute中具有最高信息增益的属性A；

(g)标记节点N为A；

(h)FOR Each A中的已知值a_i；//划分训练样本；

(i)由节点N长出一个条件为A＝a_i的分支；

(j)设S_i是训练样本S中的分支；//一个划分；

(k)IF A＝a_i为Null THEN；

(l)加上一个树叶，标记为S中最普通的类；

(m)ELSE加上一个由Generate_decision_tree(S,candidate_A)返回的节点；

在求出每个属性的信息增益后，利用函数算出参数，去修正该信息增益，将其作为属性选择及样本划分子集的***度量标准。对于缺少属性值的那些样本，利用相对频率随机概率数进行调整。

如图2所示，具体算法的步骤依次是：统计样本总量、计算训练样本计划属性值信息增益Gain(Q)、修正训练样本计划属性值信息增益Gain’(Q)、根据MAXGain’(Q)的属性划分当前样本值、创建与MAXGain’(Q)属性值对应的根结点A、确定根节点A的下一级结点、求出全部的叶结点、生成决策树，不求出全部的叶结点返回计算训练样本计划属性值信息增益Gain(Q)。

为了利用决策树进行聚类结果的分析，需要先定义一些客户价值的分析标准，这些标准以数据表的形式存放在数据库或XML文件中，在定义了客户价值的分析标准之后，就可以利用算法生成决策树来对聚类分析的结构进行解释。

性能评价指标为RI＝n0/n，其中n0为测试集的聚类结果与标准数据集对比后得到正确分类样本的平均个数；n为测试数据集的样本总数；RI值越大，表示聚类准确性越大，聚类效果越好。重复5次实验，实验结果RI的平均值列于表2。由表2可见，随着监督信息的增多，聚类的正确率有增大趋势，表明监督信息数据具有指导作用。在Iris数据集、Wine数据集和Balance-scale数据集上性能指标与监督信息比的变化曲线如图3所示。由图3可见:在不同数据集上，RI值随监督信息比值的增大而增大；虽然聚类正确率的上升速度不能按监督信息量的增幅而变化，但总体上仍高于原有聚类算法的聚类精度，进而验证了该算法的合理性和有效性。

表2实验结果RI的比较

综上所述，本发明的聚类算法，在聚类过程中利用已知样本信息减少了信息的浪费，同时考虑了类内紧度信息和类间分散度信息，有效改善原有聚类方法的盲目性.将本发明方法在UCI数据集上进行仿真实验，实验结果表明，本发明所提出的新算法总体上优于其他聚类算法的性能.

本发明一种以硅藻土为原料制备多孔硅/石墨烯复合锂离子电池负极材料的方法所用的原材料均为市售产品，原料易得，便于实施。

本发明实施例中的计算条件、图例等仅用于对本发明作进一步的说明，并非穷举，并不构成对权利要求保护范围的限定，本领域技术人员根据本发明实施例获得的启示，不经过创造性劳动就能够想到其它实质上等同的替代，均在本发明保护范围内。

Claims

1.一种客户关系管理***中用户聚类分析方法，它依次包括的步骤有：业务问题的定义、数据的准备和筛选、数据的清洗和预处理(ETL)、抽取的正确可靠的数据、数据的挖掘、模式集合、模型选择与构建、对模型进行评价和解释、当结果满意则指导企业实践活动、且将客户和市场的反馈信息及时送入到数据仓库，便于企业进行快速的反应，当结果不满意则通过模型优化送入模型选择与构建，其特征是，具体步骤是：

(2)对客户关系管理***数据做归一化处理：设数据的论域为d_i＝[m_i,M_i]，设r_i＝ud_i(x_i)，(i＝1,2,3,…,n)是模型对属值x_i的无量纲值，且r_i∈[0,1]

(4)将V(t)按式(2)更新为V(t+1)；

(5)将V(t+1)，按式(3)更新为U(t+1)；

(7)聚类算法：约束条件中引入算法数学模型为

\begin{matrix} \min j (U, V, λ) = Σ_{i = 1}^{c} Σ_{j = 1}^{n} u_{i j}^{m} d_{i j}^{2} - Σ_{i = 1}^{c} Σ_{j = 1}^{n} λ_{j} u_{i j}^{m} \ln u_{i j}^{m} \\ s . t Σ_{i = 1}^{c} u_{i j} = 1, u_{i j} &Element; [0, 1], Σ_{j = 1}^{n} u_{i j} &Element; (0, n), \end{matrix} - - - (2)

其等价于优化问题

\begin{matrix} \min j (U, V) = Σ_{i = 1}^{c} Σ_{j = 1}^{n} δ_{j}^{m} u_{i j}^{m} d_{i j}^{2} \\ s . t Σ_{i = 1}^{c} u_{i j} = 1, u_{i j} &Element; [0, 1], Σ_{j = 1}^{n} u_{i j} &Element; (0, n), \end{matrix} - - - (3)

δ_{i} = {(Σ_{k = 1}^{c} d_{k j}^{2})}^{- 1}; λ = (λ_{1}, λ_{2}, Λ, λ_{n});

ψ = Σ_{i = 1}^{c} Σ_{j = 1}^{n} {(u_{i j} - {\hat{u}}_{i j})}^{m}, - - - (4)

类间分离度函数Φ描述不同类间的分散度问题，其表达式为

φ = η Σ_{i = 1}^{c} Σ_{h = 1, h &NotEqual; i}^{c} | | v_{i} - v_{h} | |^{2}, - - - (5)

\begin{matrix} \min j (U, V) = Σ_{i = 1}^{c} Σ_{j = 1}^{n} δ_{j}^{m} {(u_{i j} - {\hat{u}}_{i j})}^{m} d_{i j}^{2} - η Σ_{i = 1}^{c} Σ_{j = 1}^{n} {δm}_{j}^{m} {(u_{i j} - {\hat{u}}_{i j})}^{m} Σ_{h = i, h &NotEqual; k}^{c} | | v_{i} - v_{j} | |^{2}, \\ s . t Σ_{i = 1}^{c} u_{i j} = 1, u_{i j} &Element; [0, 1], Σ_{j = 1}^{n} u_{i j} &Element; (0, n), \end{matrix} - - - (6)

J = J (U, V) - Σ_{k = 1}^{n} λ_{k} (Σ_{i = 1}^{c} u_{i j} - 1), - - - (7)

令得到最优解的迭代公式为

v_{i} = \frac{{Σδ}_{j}^{m} {(u_{i j} - {\hat{u}}_{i j})}^{m} x_{j} - η Σ_{j = 1}^{n} [δ_{j}^{m} {(u_{i j} - {\hat{u}}_{i j})}^{m} Σ_{h = i, h &NotEqual; i}^{c} v_{h}}{Σ_{j = 1}^{n} δ_{j}^{m} {(u_{i j} - {\hat{u}}_{i j})}^{m} - η (c - 1) Σ_{j = 1}^{n} δ_{j}^{m} {(u_{i j} - {\hat{u}}_{i j})}^{m}} - - - (8)

u_{i j} = {\hat{u}}_{i j} + \frac{1 - Σ_{k = 1}^{c} {\hat{u}}_{i j}}{{(Σ_{k = 1}^{N} \frac{δ_{j}^{m} d_{i j}^{2} - {ηδ}_{j}^{m} Σ_{h = 1, h &NotEqual; i}^{c} | | v_{i} - v_{h} | |^{2}}{δ_{j}^{m} d_{k j}^{2} - {ηδ}_{j}^{m} Σ_{h = 1, h &NotEqual; i}^{c} | | v - v_{h} | |^{2}})}^{1 / (m - 1)}}, - - - (9)

I (p, n) = - \frac{p}{p + n} \log_{2} \frac{p}{p + n} - \frac{n}{p + n} \log_{2} \frac{n}{p + n} - - - (10)

E (A) = Σ_{i = 1}^{k} \frac{p_{i} + n_{i}}{p + n} I (p_{i}, n_{i}) - - - (11)

以根为A的树进行分类得到的信息增益为：

Gain(A)＝I(p,n)-E(A) (12)

(10)决策树生成算法如下：

输入：S：训练样本集，主要由离散属性值描述；

Candidate-attribute：候选属性集合，

输出：一颗决策树，

(a)创建节点N；

(b)IF S都在一个类C THEN；

(c)返回N作为叶结点，标记为类C；

(d)IF Candidate-attribute为Null THEN；

(e)返回N作为叶结点，标记为S中的普通类；//多数表决；

(f)选择Candidate-attribute中具有最高信息增益的属性A；

(g)标记节点N为A；

(h)FOR Each A中的已知值a_i；//划分训练样本；

(i)由节点N长出一个条件为A＝a_i的分支；

(j)设S_i是训练样本S中的分支；//一个划分；

(k)IF A＝a_i为Null THEN；

(l)加上一个树叶，标记为S中最普通的类；

(m)ELSE加上一个由Generate_decision_tree(S,candidate_A)返回的节点；