CN104850868A

CN104850868A - 一种基于k-means和神经网络聚类的客户细分方法

Info

Publication number: CN104850868A
Application number: CN201510323644.9A
Authority: CN
Inventors: 刘念
Original assignee: Sichuan You Lian Information Technology Co Ltd
Current assignee: Sichuan You Lian Information Technology Co Ltd
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2015-08-19

Abstract

本发明公开了一种基于k-means和神经网络聚类的客户细分方法，包括步骤：(1)从总体数据中随机抽样，抽取部分数据作为样本数据；(2)对步骤（1）抽取的样本数据进行k-means聚类，计算出每个样本数据所属的类别；(3)将步骤（2）的聚类结果作为训练样本，采用神经网络计算出每个属性每一层的权值，并得到一个训练好的神经网络；(4)将总体数据输入到训练好的神经网络中，计算出其所属的类别。本发明的方法在第一步只是抽取少数样本，抽取到孤立点的概率很低，并且采用BP神经网络计算出每个属性的权值，避免了每个属性对结果影响一样，从而克服了传统的K-means聚类算法的缺点，聚类效果更切合客户细分的实际需求。

Description

一种基于k-means和神经网络聚类的客户细分方法

技术领域

本发明涉及数据挖掘领域，特别涉及一种基于k-means和神经网络聚类的客户细分方法。

背景技术

随着我国加入世界贸易组织后，面对外资银行的进入和金融改革的深化，金融竞争愈发激烈，优质客户逐渐成为银行竞争的焦点。不同类型客户给银行所带来的价值差异是十分明显的，银行可通过识别、区分这种差异，指导其更合理地配置市场销售、服务和管理资源，以较少的投入获取更大的收益，解决这一问题就需要进行客户细分。银行客户细分是指银行在明确的战略、业务模式和特定的市场中，根据客户的属性、行为、需求、偏好以及价值等因素对于客户进行分类，并提供针对的产品、服务和营销模式的过程。

目前，传统上对银行客户细分有经验分类方法和基于统计分析法。经验法的银行客户细分是最原始的划分方法，一般由决策者根据自己经验对客户进行类别划分，具有很强的主观性，细分的结果不客观，缺少说服力。基于统计方法的客户细分是一种量化研究，根据对客户属性特征统计结果进行客户类别划分，细分的结果往往与分类标准具有极强的关联性，如果分类标准不合理，分类的结果也不合理。随着我国银行化信息化建设的不断深入，银行已经积累了大量的个人历史交易数据和客户资料，同时随着网络的发展，将会积累越来越多的客户数据，面对海量的客户数据，传统的客户细分方法更将显得力不从心。近年来。数据挖掘技术得到了迅速的发展，其融合了数据库、人工智能、和统计学等多个领域技术，能够从大量的、不完全的、有噪声的、模糊的原始数据中，挖掘出有用、可信、新颖的信息和知识的过程，其中K-means聚类是一种最重要的数据挖掘方法，其在银行客户细分中得到了广泛的应用。

K-means算法是数据挖掘技术中基于***法的一个经典的聚类算法，因其理论可靠、算法简单、收敛速度快而被广泛应用。K-means算法采用迭代更新的思想，首先随机地选择K个对象初始的代表聚类或簇的中心，再对剩下的每个对象根据其与各个簇的中心的距离将它重新赋给最近的簇，然后重新计算每个簇的中心作为下一次迭代的聚类中心。不断重复这个过程，直到各聚类中心不再变化时终止。迭代使得选取的聚类中心越来越接近真实的簇中心，所以聚类效果越来越好，最后把所有对象划分为K个簇。

传统的K-means算法的具体步骤：

输入:聚类树木K和包含N个对象的数据集X＝{x1,x2,x3,x4,...xn}。

输出：K个聚类簇{s1,s2,s3…sk},使目标函数最小。

具体步骤：

(1)从数据集X中随机选择K个对象作为初始聚类中心c1,c2,c3,…,ck；

(2)逐个将对象xi(i＝1,2,3,…,n)按照欧式距离分配给最近的一个聚类中心cj，1≤j≤K；

(3)重新计算每个簇中新的聚类中心cj，

(4)直到K个聚类中心不再变化，准则函数收敛。

图1为传统的K-means算法的基本流程图。

K-means算法是解决聚类问题的经典算法，这种算法简单快速。但是，传统的K-means算法有着对孤立点敏感的致命缺点，如果数据集中存在孤立点，那么k-means算法的聚类效果就不是很理想。并且在聚类过程中对每一个属性都同等对待，这样就区分不出不同的属性对聚类结果的影响。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种基于k-means和神经网络聚类的客户细分方法，在第一步只是抽取少数样本，这样在样本中抽取到孤立点的概率就很低，可以忽略不计，并且采用BP神经网络计算出每个属性的权值，避免了每个属性对结果影响一样。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于k-means和神经网络聚类的客户细分方法，包括以下步骤：

(1)从总体数据中随机抽样，抽取部分数据作为样本数据；

(2)对步骤(1)抽取的样本数据进行k-means聚类，计算出每个样本数据所属的类别；

(3)将步骤(2)的聚类结果作为训练样本，采用神经网络计算出每个属性每一层的权值，并得到一个训练好的神经网络；

(4)将总体数据输入到训练好的神经网络中，计算出其所属的类别。

优选的，所述神经网络为BP神经网络。

优选的，所述BP神经网络为3层或大于3层的前馈型BP网络。

优选的，所述部分数据不大于总体数据的30％。

优选的，所述部分数据不大于总体数据的15％。

优选的，所述部分数据不大于总体数据的5％。

优选的，所述k-means聚类的聚类数目为5。

优选的，所述步骤(1)中总体数据在随机抽样前先进行数据预处理。

优选的，所述数据预处理采用中心化与标准化变换方法。

与现有技术相比，本发明的有益效果：

1.本发明的方法在第一步只是随机抽取总体数据中的少数样本，这样在样本中抽取到孤立点的概率就很低，可以忽略不计，提高了聚类的正确率；

2.本发明的方法采用BP神经网络计算出每个属性的权值，避免了每个属性对结果影响一样，聚类效果更切合客户细分的实际需求。

附图说明

图1为传统的K-means算法的基本流程图

图2为本发明客户细分方法的具体流程图

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明的基于k-means和神经网络聚类的客户细分方法具体实现步骤如下：

(1)从总体数据中随机抽样，抽取少部分数据作为样本；

(2)对第一步抽取的样本数据进行k-means聚类，计算出每个样本所属的类别；

(3)将第二步的聚类结果作为训练样本，采用BP神经网络计算出每个属性每一层的权值，并得到一个训练好的BP神经网络。

(4)将总体数据输入到第三步训练好的BP神经网络中，计算出其所属的类。

作为本具体实施例的总体数据来自国内某市银行的个人理财业务***中的客户分类数据。输入有2000个银行客户样本，每条记录包括的属性字段有:客户编号、年龄、工作年限、客户月薪、本银行存款数目、银行使用次数、借贷状况及住房情况，总共八个字段。将银行客户客户输出为5大类，即高级客户，大客户，一般客户，小客户，潜在客户。

本发明的方法对客户细分的具体流程图如图2所示，首先对原始数据进行数据预处理。原始数据收集过程中可能因为人为的偏差，数据库含有着不完整、含噪声的数据，同时数据库中记录的各个字段代表不同特征，往往使用不同的度量单位，其值相差十分悬殊。因此，必要对原始数据进行预处理以提高数据质量，从而使数据挖掘过程更加有效、分类更加准确。本发明方法的数据预处理采用中心化与标准化变换方法。中心化目的为了各字段值都有相同的基点，具体执行按照下式进行:

x_{ij}^{'} = x_{ij} - Σ_{i = 1}^{n} x_{ij} / n

其中，x_ij表示第i条记录的第j个字段中的值，n表示记录的总数，表示所有记录在j属性字段中的和，x′_ij表示经过中心化后的第i条记录的第j个字段中的值。

在中心化的基础上再通过标准化对其进行变换，使各字段的变换范围统一，采用零－均值标准化，其根据字段平均值和标准差来进行规范化，具体执行按照下式进行:

{(x_{ij}^{'})}^{'} = (n - 1) x_{ij}^{'} / \sqrt{Σ_{i = 1}^{n} {(x_{ij} - x_{j})}^{2}}

其中，x_j表示所有记录在j属性字段中的值的均值，(x′_ij)′表示经过零一均值标准化后的第i条记录的第j个字段中的0-1范围内的值。

通过数据预测处理后，各字段基点相同、变化范围也一样，其标准差为0，均值为1。

数据预处理后，采用本发明的基于k-means和神经网络的聚类算法对客户进行分类，具体过程如下：

(1)从2000个客户数据中进行数据预处理后产生1000条客户记录，随机抽样300个客户，作为下一步的样本；

(2)对第一步抽取的客户样本数据进行k-means聚类，划分出k个聚类集合，并对每个样本所属的类别进行标记；

(3)将第二步的聚类结果作为人工神经网络的训练样本，采用BP神经网络计算出每个属性每一层的权值，并得到一个训练好的BP神经网络。

(4)将所有客户的数据输入到第三步训练好的神经网络中，计算出其所属的类标号。

通过对比本发明的基于k-means和神经网络聚类的客户细分方法和传统的k-means算法，输入聚类数目K＝5，其对比结果如下表所示：

表1传统K-means算法与本发明方法的客户细分结果对比

从上表得到的分类结果可以看出，本发明的基于k-means和神经网络聚类的客户细分方法，克服了传统的K-means聚类算法的对孤立点敏感和在聚类过程中对每一个属性都同等对待的缺点。由于第一步只是随机抽取少量数据，所以抽取到孤立点的概率很低。从上表的结果可以看出，算法改进后的聚类效果更切合银行客户细分的实际需求，为数据挖掘解决银行***如何利用已有的海量数据进行客户细分问题提供了一条新的途径。

Claims

1.一种基于k-means和神经网络聚类的客户细分方法，其特征在于，包括以下步骤：

(1)从总体数据中随机抽样，抽取部分数据作为样本数据；

(2)对步骤（1）抽取的样本数据进行k-means聚类，计算出每个样本数据所属的类别；

(3)将步骤（2）的聚类结果作为训练样本，采用神经网络计算出每个属性每一层的权值，并得到一个训练好的神经网络；

2.根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法，其特征在于，所述神经网络为BP神经网络。

3.根据权利要求2所述的基于k-means和神经网络聚类的客户细分方法，其特征在于，所述BP神经网络为3层或大于3层的前馈型BP网络。

4.根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法，其特征在于，所述部分数据不大于总体数据的30%。

5.根据权利要求4所述的基于k-means和神经网络聚类的客户细分方法，其特征在于，其特征在于，所述部分数据不大于总体数据的15%。

6.根据权利要求5所述的基于k-means和神经网络聚类的客户细分方法，其特征在于，其特征在于，所述部分数据不大于总体数据的5%。

7.根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法，其特征在于，所述k-means聚类的聚类数目为5。

8.根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法，其特征在于，所述步骤（1）中总体数据在随机抽样前先进行数据预处理。

9.根据权利要求8所述的基于k-means和神经网络聚类的客户细分方法，其特征在于，所述数据预处理采用中心化与标准化变换方法。