CN114066075A - 一种基于深度学习的客户流失预测方法 - Google Patents
一种基于深度学习的客户流失预测方法 Download PDFInfo
- Publication number
- CN114066075A CN114066075A CN202111386337.7A CN202111386337A CN114066075A CN 114066075 A CN114066075 A CN 114066075A CN 202111386337 A CN202111386337 A CN 202111386337A CN 114066075 A CN114066075 A CN 114066075A
- Authority
- CN
- China
- Prior art keywords
- data
- personal information
- information data
- customer
- msdcn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度学习的客户流失预测方法,包括:步骤1:获取银行客户的个人信息数据;步骤2:利用生成式对抗填补网络模型,对步骤1中获取的个人信息数据进行缺失值填补,再对填补后的个人信息数据进行最大‑最小归一化处理;步骤3:搭建MSDCNN‑LSTM预测模型,步骤4:训练MSDCNN‑LSTM预测模型;步骤5:将客户数据输入到经步骤4训练好的MSDCNN‑LSTM预测模型,得到待测客户的流失概率。其解决了传统机器学习方法在预测大数据下银行客户流失概率时效率低的问题。
Description
技术领域
本发明属于银行数据管理技术领域,具体涉及一种基于深度学习的客户流失 预测方法。
背景技术
随着社会经济的快速发展,银行行业日趋成熟,行业竞争愈演愈烈。一定量 的客户流失会给银行带来巨大损失,客户流失的成本远低于挖掘一位新客户,如 何减少客户的流失以及及时的挽回客户将变得尤为关键。随着人工智能的迅猛发 展,将人工智能技术应用到银行行业的客户分析中,可以有效降低银行行业的运 营成本,提升客户的保持率。
目前大部分研究中使用的都是传统的机器学习方法,需要对数据进行大量的 预处理工作,特别是在特征工程上需要花费大量的时间和精力,随着客户数量的 ***式增长,传统机器学习方法已经无法满足大数据下的银行客户的分析需求。
发明内容
本发明的目的是提供一种基于深度学习的客户流失预测方法,以解决传统机 器学习方法在预测大数据下银行客户流失概率时效率低的问题。
本发明采用以下技术方案:一种基于深度学习的客户流失预测方法,包括:
步骤1:获取银行客户的个人信息数据;所述真实个人信息数据包括客户编 号、信用评分、地方区域特征、性别、年龄、开户时长、存款余额、平均资产增 量、持有金融产品数量、负债额度、活跃度评分、现金平均流入流出比;
步骤2:利用生成式对抗填补网络模型,对步骤1中获取的个人信息数据进 行缺失值填补,再对填补后的个人信息数据进行最大-最小归一化处理;
步骤3:搭建MSDCNN-LSTM预测模型,所述MSDCNN-LSTM预测模型 由三层MSCNN和两层LSTM拼接而成;
步骤4:训练MSDCNN-LSTM预测模型;
步骤5:将客户数据输入到经步骤4训练好的MSDCNN-LSTM预测模型, 得到待测客户的流失概率。
进一步的,步骤1中,对获取的个人信息数据进行缺失值填补的方法为:利 用生成式对抗填补网络模型,生成与所述真实个人信息数据集分布规律相符的时 间序列数据,通过判别生成个人信息数据与真实个人信息数据的差别,根据偏差 训练生成器,如此交替直至判别器无法判别生成数据与真实数据的差别。
进一步的,步骤2中,对填补后的个人信息数据最大-最小归一化处理的具 体方法为:假设所述个人信息数据为X=[X1,X2,...,Xi,...,Xn]∈Rm×n,其中,m为数据特 征个数,n为客户个数,Xi为第i个客户对应m个特征值,即 Xi=[xi,1,xi,2,...,xi,j,...,xi,m]∈Rm×1,
其中,xi,j为第i个客户对应的第j个特征值;
每个值经过最大-最小归一化处理,表示为:
本发明的有益效果是:本发明采用特定的个人信息数据,并根据自建的预测 模型对银行客户的流失进行了预测,使其根据所得到的数据,制定合理的营销策 略,减少客户的流失并且挽回已流失客户,增加经济效益。本麻烦使用深度学习 的方法进行银行客户流失预测,克服了传统手工方法和人工预测方法预测准确率 低、速度慢等特点。
附图说明
图1为本发明一种基于深度学习的客户流失预测方法的方法流程图;
图2为本发明一种基于深度学习的客户流失预测方法的GAIN模型的基本结 构图;
图3为本发明一种基于深度学习的客户流失预测方法的一维MSCNN结构 图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供了一种基于深度学习的客户流失预测方法,如图1所示,包括 以下步骤:
步骤1、获取银行客户的个人信息数据;所述真实个人信息数据包括客户编 号、信用评分、地方区域特征、性别、年龄、开户时长、存款余额、平均资产增 量、持有金融产品数量、负债额度、活跃度评分、现金平均流入流出比;经过相 关系数分析法,以上几种特征与本模型的决策相关程度较高。
步骤2、数据预处理:利用生成式对抗填补网络模型,对步骤1中获取的个 人信息数据进行缺失值填补,再对填补后的个人信息数据进行最大-最小归一化 处理。
首先,对数据进行缺失值填补处理。获得完整的银行客户数据是预测的关键, 在实际应用中,由于数据存储的失败、机械故障导致某段时间数据未能收集等种 种因素,会造成信息采集存储过程中出现缺失情况现象。本发明基于生成式对抗 填补网络(Generative Adversarial Imputation Nets,GAIN)模型,生成与原始数 据集分布规律相符的时间序列数据,从而达到缺失值填补目的,GAIN模型基本 结构如图2所示。利用生成式对抗填补网络模型,生成与所述真实个人信息数据 集分布规律相符的时间序列数据,通过判别生成个人信息数据与真实个人信息数 据的差别,根据偏差训练生成器,如此交替直至判别器无法判别生成数据与真实 数据的差别,以达到通过生成数据进行缺失值填补的目的。
生成式对抗填补网络模型的结构包括生成器和判别器,生成器可以看作一 个样本生成器,通过输入一个随机噪声Z,并且模仿真实数据样本的分布,尽可 能使生成的假样本拥有与真实样本一致的概率分布。与传统的生成式对抗网络相 比,判别器不是判断整个向量的真假,而是试图判别哪些是真实的,哪些是生成 的。交替训练GAIN的生成器与判别器,不断地调整参数,最终使判别器无法判 别出生成器的输出结果是否为真,达到使生成器生成以假乱真数据样本的目的。
由于生成器输出的完整结果中有一部分是真实的,而有一部分是生成的,所 以与原始GAN网络不同的是,判别器在这里不是判断整个向量的真假,而是试 图判别哪些是真实的,哪些是生成的,也可以说是预测M中m的值。通过最大 化正确预测M的概率来训练D,通过最小化D正确预测M的概率来训练G。目标 函数如公式(3)所示:
对于缺失的数据估值尽可能的接近原始数据,生成器的损失函数如公式(5):
然后,对数据进行最大-最小归一化处理。银行客户数据集中各项信息单位 和大小是不同的,并且相应的数据对神经网络的贡献不同,不利于***的计算。 因此为了消除量纲的影响,使用最大-最小归一化方法将数据归一化到[-1,1]的范 围内。假设所述个人信息数据为X=[X1,X2,...,Xi,...,Xn]∈Rm×n,其中,m为数据特征个 数,n为客户个数,Xi为第i个客户对应m个特征值,即Xi=[xi,1,xi,2,...,xi,j,...,xi,m]∈Rm×1,
其中,xi,j为第i个客户对应的第j个特征值;
每个值经过最大-最小归一化处理,表示为:
步骤3、搭建MSDCNN-LSTM预测模型:MSDCNN-LSTM预测模型由3 层MSCNN和2层LSTM拼接而成;MSDCNN提取时间窗口处理得到的数据, 通过LSTM对MSDCNN提取的特征进行序列学习;其中MSCNN通过改变三种 尺度的卷积核F1,F2,F3的大小实现空间不同尺度特征提取。MSDCNN在CNN 层使用多个尺度的卷积核,对于维度较高的个人信息数据集,可以明显提高空间 特征提取能力,MSDCNN相较于其他算法具有更好的特征提取和模型构建表现。 然而,通过CNN直接预测的方法忽略了数据的时间相关性,所以加入LSTM网 络进行时间序列数据的融合,提高了模型的综合预测能力。
本发明的预测模型使用MSDCNN-LSTM融合模型,它由MSCNN和LSTM 组成。MSDCNN提取时间窗口处理得到的数据,然后LSTM对MSDCNN提取 的特征进行序列学习。MSCNN含有三种尺度的卷积核F1,F2,F3,改变卷积核 的大小实现空间不同尺度特征提取,如图3所示。F1,F2,F3同时对输入数据沿 时间序列方向进行卷积操作,步长为1。为了使多尺度卷积后的输出保持相同的 维度,使用了零填充的方法。在卷积操作后均使用Tanh激活函数来增加模型的 非线性。每个尺度的卷积操作表示为
每个尺度的卷积核得到的特征图可以表示为
式中,表示第u个通道的第1到第Fn个卷积核的权重,表示输入序列,表示表示第u个通道的第1到第Fn个卷积核的偏置 项。最后每个通道得到的特征图拼接在一起作为下一层的输入。因此,每个样本 经MSCNN模型处理,得到的输出尺寸为(Nw,Fn×3)。MSCNN模型的多尺度 结构,可以对空间不同尺度特征提取,以便获取更丰富的特征信息。
LSTM模型可以更好地学习时间序列长短期之间的关系,它由输入层、隐藏 层和输出层组成,有三个门控单元和记忆单元。历史信息分别受输入门、遗忘门 和输出门的影响。
步骤4、训练模型:
在模型训练过程中,训练集的误差逐渐减少,测试集的误差反而增加,这就 发生了过拟合现象。在训练过程中减少过拟合主要体现在两部分:在融合模型中 添加L2正则化项和在验证集中使用Early stopping方法。L2正则化是基于L2范 数,可以有效解决过拟合问题。在每一个多尺度卷积层和LSTM层加入L2正则 化,公式表示为
式中Co表示损失函数,λ为正则项系数,w为权重,n为权重参数的数量。
同时,取训练集后5%的数据作为验证集,Early stopping用于在验证集上验证模型的性能。实验设置当验证误差在连续十个Epoch没有下降趋势时,训练过程 将通过Early stopping提前终止。
步骤5、客户流失预测:
将客户数据输入到经步骤4训练好的MSDCNN-LSTM预测模型,得到待测客 户的流失概率。
实施例
获取的客户信息主要包括客户编号、信用评分、地方区域特征、性别、年龄、 开户时长、存款余额、平均资产增量、持有金融产品数量、负债额度、活跃度评 分、现金平均流入流出比。数据集为不同特征客群采样集合,数据总量2800万, 采样平均比例达1:100,共计约20万条客户数据。
下表为选取的数据集前10条数据示例:
采用GAIN模型对原有数据集的缺失值进行填补,对信息提取和采集过程中 缺失的客户年龄,由于信用特征缺失导致的信用评分异常数据,由于客户签约特 征缺失的活跃度评分异常数据等进行填补,填补后的客户信息数据集具备与真实 数据相符的特征,并保证达到98%以上可信度的数据比例。
将预处理过的数据集分为2部分,一部分作为MSDCNN-LSTM预测模型的 输入进行训练,调整时间窗口等参数以优化模型,F1指标评价模型达到0.83。另 一部分作为验证集确保模型的准确率,并验证不存在模型过拟合。
采用本发明所述预处理方法及决策树模型XGBOOST进行客户流失率预测, 选取同样数据集进行模型训练及验证后F1指标仅能达到0.61,因此本发明所述 方案在预测客户流失率方面具有更优性能。
本发明采用特定的个人信息数据,并根据自建的预测模型对银行客户的流失 进行了预测,使其根据所得到的数据,制定合理的营销策略,减少客户的流失并 且挽回已流失客户,增加经济效益。本麻烦使用深度学习的方法进行银行客户流 失预测,克服了传统手工方法和人工预测方法预测准确率低、速度慢等特点。
本发明一种基于深度学习的客户流失预测方法,基于GAIN模型填补样本缺 失值,“复原”完整的数据集,解决银行客户信息采集存储过程中出现样本缺失问 题;并提出MSDCNN-LSTM预测模型,对样本数据空间特征和时间序列的学习, 提高了模型预测精度。通过分析银行客户的数据,以了解会损失哪些客户,进而 预测未来可能会损失的顾客;在此基础上,对将要丢失的人和可能丢失的人进行 提取分类,使用得到的数据进行客户维护的决策。本发明的方法为银行在客户管 理和策略制定上更有针对性,用较低成本实现客户挽留率的改善,减少客户流失 带来的损失提供了一种新方法。
Claims (3)
1.一种基于深度学习的客户流失预测方法,其特征在于,包括:
步骤1:获取银行客户的个人信息数据;所述真实个人信息数据包括客户编号、信用评分、地方区域特征、性别、年龄、开户时长、存款余额、平均资产增量、持有金融产品数量、负债额度、活跃度评分、现金平均流入流出比;
步骤2:利用生成式对抗填补网络模型,对步骤1中获取的个人信息数据进行缺失值填补,再对填补后的个人信息数据进行最大-最小归一化处理;
步骤3:搭建MSDCNN-LSTM预测模型,所述MSDCNN-LSTM预测模型由三层MSCNN和两层LSTM拼接而成;
步骤4:训练MSDCNN-LSTM预测模型;
步骤5:将客户数据输入到经步骤4训练好的MSDCNN-LSTM预测模型,得到待测客户的流失概率。
2.如权利要求1所述的一种基于深度学习的客户流失预测方法,其特征在于,所述步骤1中,对获取的个人信息数据进行缺失值填补的方法为:利用生成式对抗填补网络模型,生成与所述真实个人信息数据集分布规律相符的时间序列数据,通过判别生成个人信息数据与真实个人信息数据的差别,根据偏差训练生成器,如此交替直至判别器无法判别生成数据与真实数据的差别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111386337.7A CN114066075A (zh) | 2021-11-22 | 2021-11-22 | 一种基于深度学习的客户流失预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111386337.7A CN114066075A (zh) | 2021-11-22 | 2021-11-22 | 一种基于深度学习的客户流失预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114066075A true CN114066075A (zh) | 2022-02-18 |
Family
ID=80278860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111386337.7A Pending CN114066075A (zh) | 2021-11-22 | 2021-11-22 | 一种基于深度学习的客户流失预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114066075A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977667A (zh) * | 2023-08-01 | 2023-10-31 | 中交第二公路勘察设计研究院有限公司 | 一种基于改进gain的隧道变形数据填补方法 |
-
2021
- 2021-11-22 CN CN202111386337.7A patent/CN114066075A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977667A (zh) * | 2023-08-01 | 2023-10-31 | 中交第二公路勘察设计研究院有限公司 | 一种基于改进gain的隧道变形数据填补方法 |
CN116977667B (zh) * | 2023-08-01 | 2024-01-26 | 中交第二公路勘察设计研究院有限公司 | 一种基于改进gain的隧道变形数据填补方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108022001A (zh) | 基于pca和分位数回归森林的短期负荷概率密度预测方法 | |
CN108876600A (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
CN113807570B (zh) | 基于XGBoost的水库大坝风险等级评估方法及*** | |
CN108491406B (zh) | 信息分类方法、装置、计算机设备和存储介质 | |
KR20200075120A (ko) | 기업 부도 예측 시스템 및 이의 동작 방법 | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
Udeze et al. | Application of machine learning and resampling techniques to credit card fraud detection | |
CN110674636A (zh) | 一种用电行为分析方法 | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN116248392A (zh) | 一种基于多头注意力机制的网络恶意流量检测***及方法 | |
CN112949821A (zh) | 基于双重注意力机制的网络安全态势感知方法 | |
CN116307103A (zh) | 一种基于硬参数共享多任务学习的交通事故预测方法 | |
CN114066075A (zh) | 一种基于深度学习的客户流失预测方法 | |
CN114579640A (zh) | 一种基于生成式对抗网络的金融时间序列预测***和方法 | |
Yang | Research on financial credit evaluation and early warning system of internet of things driven by computer-aided technology | |
CN113935413A (zh) | 一种基于卷积神经网的配网录波文件波形识别方法 | |
Rofik et al. | The Optimization of Credit Scoring Model Using Stacking Ensemble Learning and Oversampling Techniques | |
Yang et al. | CNN-GRUA-FC stock price forecast model based on multi-factor analysis | |
CN116582309A (zh) | 一种基于GAN-CNN-BiLSTM的网络入侵检测方法 | |
Zhang et al. | Credit risk control algorithm based on stacking ensemble learning | |
Wang et al. | Risk assessment of customer churn in telco using FCLCNN-LSTM model | |
CN114154617A (zh) | 一种基于vfl的低压居民用户异常用电识别方法及*** | |
CN113987536A (zh) | 数据表中字段安全等级确定方法、装置、电子设备及介质 | |
CN112348257A (zh) | 一种多源数据融合与时序分析驱动的选举预测方法 | |
Kavitha et al. | Hybrid ML classifier for loan prediction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |