CN104850868A - 一种基于k-means和神经网络聚类的客户细分方法 - Google Patents
一种基于k-means和神经网络聚类的客户细分方法 Download PDFInfo
- Publication number
- CN104850868A CN104850868A CN201510323644.9A CN201510323644A CN104850868A CN 104850868 A CN104850868 A CN 104850868A CN 201510323644 A CN201510323644 A CN 201510323644A CN 104850868 A CN104850868 A CN 104850868A
- Authority
- CN
- China
- Prior art keywords
- neural network
- data
- customer segmentation
- segmentation method
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于k-means和神经网络聚类的客户细分方法,包括步骤:(1)从总体数据中随机抽样,抽取部分数据作为样本数据;(2)对步骤(1)抽取的样本数据进行k-means聚类,计算出每个样本数据所属的类别;(3)将步骤(2)的聚类结果作为训练样本,采用神经网络计算出每个属性每一层的权值,并得到一个训练好的神经网络;(4)将总体数据输入到训练好的神经网络中,计算出其所属的类别。本发明的方法在第一步只是抽取少数样本,抽取到孤立点的概率很低,并且采用BP神经网络计算出每个属性的权值,避免了每个属性对结果影响一样,从而克服了传统的K-means聚类算法的缺点,聚类效果更切合客户细分的实际需求。
Description
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于k-means和神经网络聚类的客户细分方法。
背景技术
随着我国加入世界贸易组织后,面对外资银行的进入和金融改革的深化,金融竞争愈发激烈,优质客户逐渐成为银行竞争的焦点。不同类型客户给银行所带来的价值差异是十分明显的,银行可通过识别、区分这种差异,指导其更合理地配置市场销售、服务和管理资源,以较少的投入获取更大的收益,解决这一问题就需要进行客户细分。银行客户细分是指银行在明确的战略、业务模式和特定的市场中,根据客户的属性、行为、需求、偏好以及价值等因素对于客户进行分类,并提供针对的产品、服务和营销模式的过程。
目前,传统上对银行客户细分有经验分类方法和基于统计分析法。经验法的银行客户细分是最原始的划分方法,一般由决策者根据自己经验对客户进行类别划分,具有很强的主观性,细分的结果不客观,缺少说服力。基于统计方法的客户细分是一种量化研究,根据对客户属性特征统计结果进行客户类别划分,细分的结果往往与分类标准具有极强的关联性,如果分类标准不合理,分类的结果也不合理。随着我国银行化信息化建设的不断深入,银行已经积累了大量的个人历史交易数据和客户资料,同时随着网络的发展,将会积累越来越多的客户数据,面对海量的客户数据,传统的客户细分方法更将显得力不从心。近年来。数据挖掘技术得到了迅速的发展,其融合了数据库、人工智能、和统计学等多个领域技术,能够从大量的、不完全的、有噪声的、模糊的原始数据中,挖掘出有用、可信、新颖的信息和知识的过程,其中K-means聚类是一种最重要的数据挖掘方法,其在银行客户细分中得到了广泛的应用。
K-means算法是数据挖掘技术中基于***法的一个经典的聚类算法,因其理论可靠、算法简单、收敛速度快而被广泛应用。K-means算法采用迭代更新的思想,首先随机地选择K个对象初始的代表聚类或簇的中心,再对剩下的每个对象根据其与各个簇的中心的距离将它重新赋给最近的簇,然后重新计算每个簇的中心作为下一次迭代的聚类中心。不断重复这个过程,直到各聚类中心不再变化时终止。迭代使得选取的聚类中心越来越接近真实的簇中心,所以聚类效果越来越好,最后把所有对象划分为K个簇。
传统的K-means算法的具体步骤:
输入:聚类树木K和包含N个对象的数据集X={x1,x2,x3,x4,...xn}。
输出:K个聚类簇{s1,s2,s3…sk},使目标函数最小。
具体步骤:
(1)从数据集X中随机选择K个对象作为初始聚类中心c1,c2,c3,…,ck;
(2)逐个将对象xi(i=1,2,3,…,n)按照欧式距离分配给最近的一个聚类中心cj,1≤j≤K;
(3)重新计算每个簇中新的聚类中心cj,
(4)直到K个聚类中心不再变化,准则函数收敛。
图1为传统的K-means算法的基本流程图。
K-means算法是解决聚类问题的经典算法,这种算法简单快速。但是,传统的K-means算法有着对孤立点敏感的致命缺点,如果数据集中存在孤立点,那么k-means算法的聚类效果就不是很理想。并且在聚类过程中对每一个属性都同等对待,这样就区分不出不同的属性对聚类结果的影响。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于k-means和神经网络聚类的客户细分方法,在第一步只是抽取少数样本,这样在样本中抽取到孤立点的概率就很低,可以忽略不计,并且采用BP神经网络计算出每个属性的权值,避免了每个属性对结果影响一样。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于k-means和神经网络聚类的客户细分方法,包括以下步骤:
(1)从总体数据中随机抽样,抽取部分数据作为样本数据;
(2)对步骤(1)抽取的样本数据进行k-means聚类,计算出每个样本数据所属的类别;
(3)将步骤(2)的聚类结果作为训练样本,采用神经网络计算出每个属性每一层的权值,并得到一个训练好的神经网络;
(4)将总体数据输入到训练好的神经网络中,计算出其所属的类别。
优选的,所述神经网络为BP神经网络。
优选的,所述BP神经网络为3层或大于3层的前馈型BP网络。
优选的,所述部分数据不大于总体数据的30%。
优选的,所述部分数据不大于总体数据的15%。
优选的,所述部分数据不大于总体数据的5%。
优选的,所述k-means聚类的聚类数目为5。
优选的,所述步骤(1)中总体数据在随机抽样前先进行数据预处理。
优选的,所述数据预处理采用中心化与标准化变换方法。
与现有技术相比,本发明的有益效果:
1.本发明的方法在第一步只是随机抽取总体数据中的少数样本,这样在样本中抽取到孤立点的概率就很低,可以忽略不计,提高了聚类的正确率;
2.本发明的方法采用BP神经网络计算出每个属性的权值,避免了每个属性对结果影响一样,聚类效果更切合客户细分的实际需求。
附图说明
图1为传统的K-means算法的基本流程图
图2为本发明客户细分方法的具体流程图
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明的基于k-means和神经网络聚类的客户细分方法具体实现步骤如下:
(1)从总体数据中随机抽样,抽取少部分数据作为样本;
(2)对第一步抽取的样本数据进行k-means聚类,计算出每个样本所属的类别;
(3)将第二步的聚类结果作为训练样本,采用BP神经网络计算出每个属性每一层的权值,并得到一个训练好的BP神经网络。
(4)将总体数据输入到第三步训练好的BP神经网络中,计算出其所属的类。
作为本具体实施例的总体数据来自国内某市银行的个人理财业务***中的客户分类数据。输入有2000个银行客户样本,每条记录包括的属性字段有:客户编号、年龄、工作年限、客户月薪、本银行存款数目、银行使用次数、借贷状况及住房情况,总共八个字段。将银行客户客户输出为5大类,即高级客户,大客户,一般客户,小客户,潜在客户。
本发明的方法对客户细分的具体流程图如图2所示,首先对原始数据进行数据预处理。原始数据收集过程中可能因为人为的偏差,数据库含有着不完整、含噪声的数据,同时数据库中记录的各个字段代表不同特征,往往使用不同的度量单位,其值相差十分悬殊。因此,必要对原始数据进行预处理以提高数据质量,从而使数据挖掘过程更加有效、分类更加准确。本发明方法的数据预处理采用中心化与标准化变换方法。中心化目的为了各字段值都有相同的基点,具体执行按照下式进行:
其中,xij表示第i条记录的第j个字段中的值,n表示记录的总数,表示所有记录在j属性字段中的和,x′ij表示经过中心化后的第i条记录的第j个字段中的值。
在中心化的基础上再通过标准化对其进行变换,使各字段的变换范围统一,采用零-均值标准化,其根据字段平均值和标准差来进行规范化,具体执行按照下式进行:
其中,xj表示所有记录在j属性字段中的值的均值,(x′ij)′表示经过零一均值标准化后的第i条记录的第j个字段中的0-1范围内的值。
通过数据预测处理后,各字段基点相同、变化范围也一样,其标准差为0,均值为1。
数据预处理后,采用本发明的基于k-means和神经网络的聚类算法对客户进行分类,具体过程如下:
(1)从2000个客户数据中进行数据预处理后产生1000条客户记录,随机抽样300个客户,作为下一步的样本;
(2)对第一步抽取的客户样本数据进行k-means聚类,划分出k个聚类集合,并对每个样本所属的类别进行标记;
(3)将第二步的聚类结果作为人工神经网络的训练样本,采用BP神经网络计算出每个属性每一层的权值,并得到一个训练好的BP神经网络。
(4)将所有客户的数据输入到第三步训练好的神经网络中,计算出其所属的类标号。
通过对比本发明的基于k-means和神经网络聚类的客户细分方法和传统的k-means算法,输入聚类数目K=5,其对比结果如下表所示:
表1传统K-means算法与本发明方法的客户细分结果对比
从上表得到的分类结果可以看出,本发明的基于k-means和神经网络聚类的客户细分方法,克服了传统的K-means聚类算法的对孤立点敏感和在聚类过程中对每一个属性都同等对待的缺点。由于第一步只是随机抽取少量数据,所以抽取到孤立点的概率很低。从上表的结果可以看出,算法改进后的聚类效果更切合银行客户细分的实际需求,为数据挖掘解决银行***如何利用已有的海量数据进行客户细分问题提供了一条新的途径。
Claims (9)
1.一种基于k-means和神经网络聚类的客户细分方法,其特征在于,包括以下步骤:
(1)从总体数据中随机抽样,抽取部分数据作为样本数据;
(2)对步骤(1)抽取的样本数据进行k-means聚类,计算出每个样本数据所属的类别;
(3)将步骤(2)的聚类结果作为训练样本,采用神经网络计算出每个属性每一层的权值,并得到一个训练好的神经网络;
(4)将总体数据输入到训练好的神经网络中,计算出其所属的类别。
2.根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法,其特征在于,所述神经网络为BP神经网络。
3.根据权利要求2所述的基于k-means和神经网络聚类的客户细分方法,其特征在于,所述BP神经网络为3层或大于3层的前馈型BP网络。
4.根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法,其特征在于,所述部分数据不大于总体数据的30%。
5.根据权利要求4所述的基于k-means和神经网络聚类的客户细分方法,其特征在于,其特征在于,所述部分数据不大于总体数据的15%。
6.根据权利要求5所述的基于k-means和神经网络聚类的客户细分方法,其特征在于,其特征在于,所述部分数据不大于总体数据的5%。
7.根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法,其特征在于,所述k-means聚类的聚类数目为5。
8.根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法,其特征在于,所述步骤(1)中总体数据在随机抽样前先进行数据预处理。
9.根据权利要求8所述的基于k-means和神经网络聚类的客户细分方法,其特征在于,所述数据预处理采用中心化与标准化变换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510323644.9A CN104850868A (zh) | 2015-06-12 | 2015-06-12 | 一种基于k-means和神经网络聚类的客户细分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510323644.9A CN104850868A (zh) | 2015-06-12 | 2015-06-12 | 一种基于k-means和神经网络聚类的客户细分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104850868A true CN104850868A (zh) | 2015-08-19 |
Family
ID=53850503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510323644.9A Pending CN104850868A (zh) | 2015-06-12 | 2015-06-12 | 一种基于k-means和神经网络聚类的客户细分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104850868A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354208A (zh) * | 2015-09-21 | 2016-02-24 | 江苏讯狐信息科技有限公司 | 一种大数据信息挖掘方法 |
CN105844334A (zh) * | 2016-03-22 | 2016-08-10 | 南京信息工程大学 | 一种基于径向基神经网络的温度插值算法 |
CN106651546A (zh) * | 2017-01-03 | 2017-05-10 | 重庆邮电大学 | 一种面向智慧社区的电子商务信息推荐方法 |
WO2017143932A1 (zh) * | 2016-02-26 | 2017-08-31 | ***股份有限公司 | 基于样本聚类的欺诈交易检测方法 |
CN107274066A (zh) * | 2017-05-19 | 2017-10-20 | 浙江大学 | 一种基于lrfmd模型的共享交通客户价值分析方法 |
CN107633035A (zh) * | 2017-09-08 | 2018-01-26 | 浙江大学 | 一种基于K‑Means&LightGBM模型的共享交通服务reorder预估方法 |
US11900230B2 (en) | 2019-07-17 | 2024-02-13 | Visa International Service Association | Method, system, and computer program product for identifying subpopulations |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100595780C (zh) * | 2007-12-13 | 2010-03-24 | 中国科学院合肥物质科学研究院 | 一种基于模块神经网络的手写体数字自动识别方法 |
CN103926526A (zh) * | 2014-05-05 | 2014-07-16 | 重庆大学 | 一种基于改进的rbf神经网络的模拟电路故障诊断方法 |
CN104156403A (zh) * | 2014-07-24 | 2014-11-19 | 中国软件与技术服务股份有限公司 | 一种基于聚类的大数据常态模式提取方法及*** |
CN106935035A (zh) * | 2017-04-07 | 2017-07-07 | 西安电子科技大学 | 基于ssd神经网络的违章停车车辆实时检测方法 |
-
2015
- 2015-06-12 CN CN201510323644.9A patent/CN104850868A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100595780C (zh) * | 2007-12-13 | 2010-03-24 | 中国科学院合肥物质科学研究院 | 一种基于模块神经网络的手写体数字自动识别方法 |
CN103926526A (zh) * | 2014-05-05 | 2014-07-16 | 重庆大学 | 一种基于改进的rbf神经网络的模拟电路故障诊断方法 |
CN104156403A (zh) * | 2014-07-24 | 2014-11-19 | 中国软件与技术服务股份有限公司 | 一种基于聚类的大数据常态模式提取方法及*** |
CN106935035A (zh) * | 2017-04-07 | 2017-07-07 | 西安电子科技大学 | 基于ssd神经网络的违章停车车辆实时检测方法 |
Non-Patent Citations (1)
Title |
---|
周培毅等: "《基于遗传算法与BP神经网的风力发电机齿轮箱故障诊断研究》", 《华北电力技术》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354208A (zh) * | 2015-09-21 | 2016-02-24 | 江苏讯狐信息科技有限公司 | 一种大数据信息挖掘方法 |
WO2017143932A1 (zh) * | 2016-02-26 | 2017-08-31 | ***股份有限公司 | 基于样本聚类的欺诈交易检测方法 |
CN105844334A (zh) * | 2016-03-22 | 2016-08-10 | 南京信息工程大学 | 一种基于径向基神经网络的温度插值算法 |
CN105844334B (zh) * | 2016-03-22 | 2018-03-27 | 南京信息工程大学 | 一种基于径向基神经网络的温度插值方法 |
CN106651546A (zh) * | 2017-01-03 | 2017-05-10 | 重庆邮电大学 | 一种面向智慧社区的电子商务信息推荐方法 |
CN106651546B (zh) * | 2017-01-03 | 2021-12-07 | 重庆邮电大学 | 一种面向智慧社区的电子商务信息推荐方法 |
CN107274066A (zh) * | 2017-05-19 | 2017-10-20 | 浙江大学 | 一种基于lrfmd模型的共享交通客户价值分析方法 |
CN107633035A (zh) * | 2017-09-08 | 2018-01-26 | 浙江大学 | 一种基于K‑Means&LightGBM模型的共享交通服务reorder预估方法 |
CN107633035B (zh) * | 2017-09-08 | 2020-04-14 | 浙江大学 | 一种基于K-Means&LightGBM模型的共享交通服务reorder预估方法 |
US11900230B2 (en) | 2019-07-17 | 2024-02-13 | Visa International Service Association | Method, system, and computer program product for identifying subpopulations |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
Marqués et al. | On the suitability of resampling techniques for the class imbalance problem in credit scoring | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
WO2021088499A1 (zh) | 一种基于动态网络表征的***虚开识别方法及*** | |
CN111311402A (zh) | 一种基于XGBoost的互联网金融风控模型 | |
WO2017143919A1 (zh) | 一种建立数据识别模型的方法及装置 | |
CN107194803A (zh) | 一种p2p网***人信用风险评估的装置 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN109034194A (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
Silva et al. | Cross country relations in European tourist arrivals | |
Kirkos et al. | Identifying qualified auditors' opinions: a data mining approach | |
CN111754345A (zh) | 一种基于改进随机森林的比特币地址分类方法 | |
CN105426441B (zh) | 一种时间序列自动预处理方法 | |
CN111325248A (zh) | 降低贷前业务风险的方法及*** | |
CN111695597A (zh) | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和*** | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN110377605A (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
Xu et al. | Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode | |
CN112183652A (zh) | 一种联邦机器学习环境下的边缘端偏见检测方法 | |
Qiu et al. | Credit risk scoring analysis based on machine learning models | |
CN106204267A (zh) | 一种基于改进k‑means和神经网络聚类的客户细分*** | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与*** | |
Glennon et al. | Development and validation of credit scoring models | |
Zhang et al. | Research on personal credit scoring model based on multi-source data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150819 |
|
RJ01 | Rejection of invention patent application after publication |