CN114066075A

CN114066075A - 一种基于深度学习的客户流失预测方法

Info

Publication number: CN114066075A
Application number: CN202111386337.7A
Authority: CN
Inventors: 杜婧; 杨青; 王斌; 李应炜; 何宁; 袁渊; 高媛; 陈若雅; 杜沛
Original assignee: Agricultural Bank of China Shaanxi Branch
Current assignee: Agricultural Bank of China Shaanxi Branch
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-18

Abstract

本发明公开了一种基于深度学习的客户流失预测方法，包括：步骤1：获取银行客户的个人信息数据；步骤2：利用生成式对抗填补网络模型，对步骤1中获取的个人信息数据进行缺失值填补，再对填补后的个人信息数据进行最大‑最小归一化处理；步骤3：搭建MSDCNN‑LSTM预测模型，步骤4：训练MSDCNN‑LSTM预测模型；步骤5：将客户数据输入到经步骤4训练好的MSDCNN‑LSTM预测模型，得到待测客户的流失概率。其解决了传统机器学习方法在预测大数据下银行客户流失概率时效率低的问题。

Description

一种基于深度学习的客户流失预测方法

技术领域

本发明属于银行数据管理技术领域，具体涉及一种基于深度学习的客户流失预测方法。

背景技术

随着社会经济的快速发展，银行行业日趋成熟，行业竞争愈演愈烈。一定量的客户流失会给银行带来巨大损失，客户流失的成本远低于挖掘一位新客户，如何减少客户的流失以及及时的挽回客户将变得尤为关键。随着人工智能的迅猛发展，将人工智能技术应用到银行行业的客户分析中，可以有效降低银行行业的运营成本，提升客户的保持率。

目前大部分研究中使用的都是传统的机器学习方法，需要对数据进行大量的预处理工作，特别是在特征工程上需要花费大量的时间和精力，随着客户数量的 ***式增长，传统机器学习方法已经无法满足大数据下的银行客户的分析需求。

发明内容

本发明的目的是提供一种基于深度学习的客户流失预测方法，以解决传统机器学习方法在预测大数据下银行客户流失概率时效率低的问题。

本发明采用以下技术方案：一种基于深度学习的客户流失预测方法，包括：

步骤1：获取银行客户的个人信息数据；所述真实个人信息数据包括客户编号、信用评分、地方区域特征、性别、年龄、开户时长、存款余额、平均资产增量、持有金融产品数量、负债额度、活跃度评分、现金平均流入流出比；

步骤2：利用生成式对抗填补网络模型，对步骤1中获取的个人信息数据进行缺失值填补，再对填补后的个人信息数据进行最大-最小归一化处理；

步骤3：搭建MSDCNN-LSTM预测模型，所述MSDCNN-LSTM预测模型由三层MSCNN和两层LSTM拼接而成；

步骤4：训练MSDCNN-LSTM预测模型；

步骤5：将客户数据输入到经步骤4训练好的MSDCNN-LSTM预测模型，得到待测客户的流失概率。

进一步的，步骤1中，对获取的个人信息数据进行缺失值填补的方法为：利用生成式对抗填补网络模型，生成与所述真实个人信息数据集分布规律相符的时间序列数据，通过判别生成个人信息数据与真实个人信息数据的差别，根据偏差训练生成器，如此交替直至判别器无法判别生成数据与真实数据的差别。

进一步的，步骤2中，对填补后的个人信息数据最大-最小归一化处理的具体方法为：假设所述个人信息数据为X＝[X₁,X₂,...,X_i,...,X_n]∈R^m×n，其中，m为数据特征个数，n为客户个数，X_i为第i个客户对应m个特征值，即 X_i＝[x_i,1,x_i,2,...,x_i,j,...,x_i,m]∈R^m×1，

其中，x_i,j为第i个客户对应的第j个特征值；

每个值经过最大-最小归一化处理，表示为：

式中，

表示归一化处理后的数据，

和

分别表示第j个特征值的最小值和最大值。

本发明的有益效果是：本发明采用特定的个人信息数据，并根据自建的预测模型对银行客户的流失进行了预测，使其根据所得到的数据，制定合理的营销策略，减少客户的流失并且挽回已流失客户，增加经济效益。本麻烦使用深度学习的方法进行银行客户流失预测，克服了传统手工方法和人工预测方法预测准确率低、速度慢等特点。

附图说明

图1为本发明一种基于深度学习的客户流失预测方法的方法流程图；

图2为本发明一种基于深度学习的客户流失预测方法的GAIN模型的基本结构图；

图3为本发明一种基于深度学习的客户流失预测方法的一维MSCNN结构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了一种基于深度学习的客户流失预测方法，如图1所示，包括以下步骤：

步骤1、获取银行客户的个人信息数据；所述真实个人信息数据包括客户编号、信用评分、地方区域特征、性别、年龄、开户时长、存款余额、平均资产增量、持有金融产品数量、负债额度、活跃度评分、现金平均流入流出比；经过相关系数分析法，以上几种特征与本模型的决策相关程度较高。

步骤2、数据预处理：利用生成式对抗填补网络模型，对步骤1中获取的个人信息数据进行缺失值填补，再对填补后的个人信息数据进行最大-最小归一化处理。

首先，对数据进行缺失值填补处理。获得完整的银行客户数据是预测的关键，在实际应用中，由于数据存储的失败、机械故障导致某段时间数据未能收集等种种因素，会造成信息采集存储过程中出现缺失情况现象。本发明基于生成式对抗填补网络(Generative Adversarial Imputation Nets，GAIN)模型，生成与原始数据集分布规律相符的时间序列数据，从而达到缺失值填补目的，GAIN模型基本结构如图2所示。利用生成式对抗填补网络模型，生成与所述真实个人信息数据集分布规律相符的时间序列数据，通过判别生成个人信息数据与真实个人信息数据的差别，根据偏差训练生成器，如此交替直至判别器无法判别生成数据与真实数据的差别，以达到通过生成数据进行缺失值填补的目的。

生成式对抗填补网络模型的结构包括生成器和判别器，生成器可以看作一个样本生成器，通过输入一个随机噪声Z，并且模仿真实数据样本的分布，尽可能使生成的假样本拥有与真实样本一致的概率分布。与传统的生成式对抗网络相比，判别器不是判断整个向量的真假，而是试图判别哪些是真实的，哪些是生成的。交替训练GAIN的生成器与判别器，不断地调整参数，最终使判别器无法判别出生成器的输出结果是否为真，达到使生成器生成以假乱真数据样本的目的。

生成器，用来观察真实数据的每一部分，然后根据观察的结果填补缺失数据的部分，缺失值填补后的向量用

表示，如下式：

式中，

表示有缺失的小样本数据；M表示与

同大小的二值矩阵；Z为噪声； ⊙表示对应元素相乘。

最终生成器输出的是一个填补后完整的向量

公式为：

由于生成器输出的完整结果中有一部分是真实的，而有一部分是生成的，所以与原始GAN网络不同的是，判别器在这里不是判断整个向量的真假，而是试图判别哪些是真实的，哪些是生成的，也可以说是预测M中m的值。通过最大化正确预测M的概率来训练D，通过最小化D正确预测M的概率来训练G。目标函数如公式(3)所示：

判别器判别输入数据各部分来源，得到的判别矩阵用

表示，为了准确判断 M中的各元素，使用交叉熵损失函数，如公式(4)：

对于缺失的数据估值尽可能的接近原始数据，生成器的损失函数如公式(5)：

然后，对数据进行最大-最小归一化处理。银行客户数据集中各项信息单位和大小是不同的，并且相应的数据对神经网络的贡献不同，不利于***的计算。因此为了消除量纲的影响，使用最大-最小归一化方法将数据归一化到[-1,1]的范围内。假设所述个人信息数据为X＝[X₁,X₂,...,X_i,...,X_n]∈R^m×n，其中，m为数据特征个数，n为客户个数，X_i为第i个客户对应m个特征值，即X_i＝[x_i,1,x_i,2,...,x_i,j,...,x_i,m]∈R^m×1，

其中，x_i,j为第i个客户对应的第j个特征值；

每个值经过最大-最小归一化处理，表示为：

式中，

表示归一化处理后的数据，

和

分别表示第j个特征值的最小值和最大值。

步骤3、搭建MSDCNN-LSTM预测模型：MSDCNN-LSTM预测模型由3 层MSCNN和2层LSTM拼接而成；MSDCNN提取时间窗口处理得到的数据，通过LSTM对MSDCNN提取的特征进行序列学习；其中MSCNN通过改变三种尺度的卷积核F₁，F₂，F₃的大小实现空间不同尺度特征提取。MSDCNN在CNN 层使用多个尺度的卷积核，对于维度较高的个人信息数据集，可以明显提高空间特征提取能力，MSDCNN相较于其他算法具有更好的特征提取和模型构建表现。然而，通过CNN直接预测的方法忽略了数据的时间相关性，所以加入LSTM网络进行时间序列数据的融合，提高了模型的综合预测能力。

本发明的预测模型使用MSDCNN-LSTM融合模型，它由MSCNN和LSTM 组成。MSDCNN提取时间窗口处理得到的数据，然后LSTM对MSDCNN提取的特征进行序列学习。MSCNN含有三种尺度的卷积核F₁，F₂，F₃，改变卷积核的大小实现空间不同尺度特征提取，如图3所示。F₁，F₂，F₃同时对输入数据沿时间序列方向进行卷积操作，步长为1。为了使多尺度卷积后的输出保持相同的维度，使用了零填充的方法。在卷积操作后均使用Tanh激活函数来增加模型的非线性。每个尺度的卷积操作表示为

式中，

表示非线性激活函数，*T表示矩阵*的转置。

为输入序列，W_u,v和b_u,v分别表示第u个尺度中第v个的卷积核的权重和偏置项。

每个尺度的卷积核得到的特征图可以表示为

式中，

表示第u个通道的第1到第F_n个卷积核的权重，

表示输入序列，

表示表示第u个通道的第1到第F_n个卷积核的偏置项。最后每个通道得到的特征图拼接在一起作为下一层的输入。因此，每个样本经MSCNN模型处理，得到的输出尺寸为(N_w，F_n×3)。MSCNN模型的多尺度结构，可以对空间不同尺度特征提取，以便获取更丰富的特征信息。

LSTM模型可以更好地学习时间序列长短期之间的关系，它由输入层、隐藏层和输出层组成，有三个门控单元和记忆单元。历史信息分别受输入门、遗忘门和输出门的影响。

步骤4、训练模型：

在模型训练过程中，训练集的误差逐渐减少，测试集的误差反而增加，这就发生了过拟合现象。在训练过程中减少过拟合主要体现在两部分：在融合模型中添加L2正则化项和在验证集中使用Early stopping方法。L2正则化是基于L2范数，可以有效解决过拟合问题。在每一个多尺度卷积层和LSTM层加入L2正则化，公式表示为

式中C_o表示损失函数，λ为正则项系数，w为权重，n为权重参数的数量。

同时，取训练集后5％的数据作为验证集，Early stopping用于在验证集上验证模型的性能。实验设置当验证误差在连续十个Epoch没有下降趋势时，训练过程将通过Early stopping提前终止。

步骤5、客户流失预测：

将客户数据输入到经步骤4训练好的MSDCNN-LSTM预测模型，得到待测客户的流失概率。

实施例

获取的客户信息主要包括客户编号、信用评分、地方区域特征、性别、年龄、开户时长、存款余额、平均资产增量、持有金融产品数量、负债额度、活跃度评分、现金平均流入流出比。数据集为不同特征客群采样集合，数据总量2800万，采样平均比例达1:100，共计约20万条客户数据。

下表为选取的数据集前10条数据示例：

采用GAIN模型对原有数据集的缺失值进行填补，对信息提取和采集过程中缺失的客户年龄，由于信用特征缺失导致的信用评分异常数据，由于客户签约特征缺失的活跃度评分异常数据等进行填补，填补后的客户信息数据集具备与真实数据相符的特征，并保证达到98％以上可信度的数据比例。

将预处理过的数据集分为2部分，一部分作为MSDCNN-LSTM预测模型的输入进行训练，调整时间窗口等参数以优化模型，F1指标评价模型达到0.83。另一部分作为验证集确保模型的准确率，并验证不存在模型过拟合。

采用本发明所述预处理方法及决策树模型XGBOOST进行客户流失率预测，选取同样数据集进行模型训练及验证后F1指标仅能达到0.61，因此本发明所述方案在预测客户流失率方面具有更优性能。

本发明采用特定的个人信息数据，并根据自建的预测模型对银行客户的流失进行了预测，使其根据所得到的数据，制定合理的营销策略，减少客户的流失并且挽回已流失客户，增加经济效益。本麻烦使用深度学习的方法进行银行客户流失预测，克服了传统手工方法和人工预测方法预测准确率低、速度慢等特点。

本发明一种基于深度学习的客户流失预测方法，基于GAIN模型填补样本缺失值，“复原”完整的数据集，解决银行客户信息采集存储过程中出现样本缺失问题；并提出MSDCNN-LSTM预测模型，对样本数据空间特征和时间序列的学习，提高了模型预测精度。通过分析银行客户的数据，以了解会损失哪些客户，进而预测未来可能会损失的顾客；在此基础上，对将要丢失的人和可能丢失的人进行提取分类，使用得到的数据进行客户维护的决策。本发明的方法为银行在客户管理和策略制定上更有针对性，用较低成本实现客户挽留率的改善，减少客户流失带来的损失提供了一种新方法。

Claims

1.一种基于深度学习的客户流失预测方法，其特征在于，包括：

步骤4：训练MSDCNN-LSTM预测模型；

2.如权利要求1所述的一种基于深度学习的客户流失预测方法，其特征在于，所述步骤1中，对获取的个人信息数据进行缺失值填补的方法为：利用生成式对抗填补网络模型，生成与所述真实个人信息数据集分布规律相符的时间序列数据，通过判别生成个人信息数据与真实个人信息数据的差别，根据偏差训练生成器，如此交替直至判别器无法判别生成数据与真实数据的差别。

3.如权利要求1或2所述的一种基于深度学习的客户流失预测方法，其特征在于，所述步骤2中，对填补后的个人信息数据最大-最小归一化处理的具体方法为：假设所述个人信息数据为X＝[X₁,X₂,...,X_i,...,X_n]∈R^m×n，其中，m为数据特征个数，n为客户个数，X_i为第i个客户对应m个特征值，即X_i＝[x_i,1,x_i,2,...,x_i,j,...,x_i,m]∈R^m×1，

其中，x_i,j为第i个客户对应的第j个特征值；

每个值经过最大-最小归一化处理，表示为：

式中，

表示归一化处理后的数据，

和

分别表示第j个特征值的最小值和最大值。