CN110837931B

CN110837931B - 客户流失预测方法、装置及存储介质

Info

Publication number: CN110837931B
Application number: CN201911086869.1A
Authority: CN
Inventors: 赵维平; 赵存超; 李现伟; 吴正良
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2023-01-31
Anticipated expiration: 2039-11-08
Also published as: CN110837931A

Abstract

本申请公开了一种客户流失预测方法、装置及计算机设备，在获取客户流失预测模型过程中，本申请是按照预设业务的虚拟资源余额对客户进行分类，得到更加细化且体现客户在该预设业务中个人喜好的多个客户群，之后，针对每一个客户群，将通过对相应客户在预设历史时间段内的多个维度的原始特征数据，及据此得到多个维度的衍生特征数据进行预处理，得到该客户群的模型训练样本，极大丰富了模型训练样本的种类，这样，利用机器学习算法，对这些模型训练样本进行训练，大大提高了训练得到的客户流失模型的预测准确性，进而使得业务人员能够据此准确且及时预先得知可能会流失的客户名单，采取合适的政策对这些客户进行挽留，降低客户流失量。

Description

客户流失预测方法、装置及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种客户流失预测方法、装置、***及存储介质。

背景技术

在如今激烈的市场竞争环境中，企业想要发展新客户往往需要花费较大的精力，据统计，发展一位新客户要比维系一位旧客户要多花费近6倍的时间，同时，企业向旧客户推荐产品或服务的成功率在50％左右，而向新客户推荐产品或服务的成功率仅15％。可见，维系好企业的现存客户关系，避免客户流失，对企业而言具有非常重要的意义。

对此，现有技术提出了对客户流失情况进行预测，以使企业能够提前制定相应的策略，留住可能会流失的旧客户，然而，目前训练出的客户流失预测模型的预测结果(即客户流失概率)准确性较低，并不能可靠帮助业务人员挽留真正流失的客户。

发明内容

有鉴于此，本申请提供了一种客户流失预测方法、装置及计算机设备，提高训练得到的客户流失预测模型的预测准确性，据此能够可靠帮助业务人员提前挽留可能要流失的客户。

为实现上述目的，本申请提供了一种客户流失预测方法，所述方法包括：

按照预设业务的虚拟资源余额对客户进行分类，得到多个客户群；

针对每一个所述客户群，获取属于所述客户群的客户在预设历史时间段内的特征数据，其中，所述特征数据包括原始特征数据，及基于所述原始特征数据得到的衍生特征数据，且所述原始特征数据和所述衍生特征数据均包含多个维度的特征；

对所述特征数据进行预处理，得到所述客户群的模型训练样本；

利用机器学习网络，对所述模型训练样本进行训练，得到所述客户群的客户流失预测模型。

可选的，所述获取属于所述客户群的客户在预设历史时间段内的特征数据，包括：

按照行业标准，获取属于所述客户群的客户在预设历史时间段内的第一数量个原始特征数据；

通过预设的至少一个特征衍生方式，对相应的原始特征数据进行处理，得到第二数量个衍生特征数据。

可选的，所述对所述特征数据进行预处理，得到所述客户群的模型训练样本，包括：

按照预设特征处理方式，对所述特征数据进行预处理，得到所述客户群的初始训练样本，其中，所述预设特征处理方式包括缺失值填充方式、盖帽处理方式、群体稳定性指标验证方式及连续型特征分箱方式中的一个或多个组合；

利用多个机器学习网络对所述初始训练样本进行训练，得到相应的模型训练结果；

依据所述模型训练结果，对所述初始训练样本进行排序；

依据排序结果，针对每一类所述初始训练样本，选择第三数量个特征数据确定为待入模训练样本；

对确定出的待入模训练样本进行聚类处理，从得到的每一类待入模训练样本中选择相关性较高的第四数量个待入模训练样本；

由选择出的不同类型的待入模训练样本构成所述客户群的模型训练样本。

可选的，针对每一个所述客户群，所述方法还包括：

获取属于所述客户群的客户在预设历史时间段内，所述预设业务的虚拟资源余额的变化信息；

按照客户流失规则，利用所述变化信息确定出相应客户的流失标签；

按照预设比例，确定出所述客户群中的训练客户集和测试客户集，所述训练客户集和所述测试客户集包含的客户均携带有相应的流失标签；

所述获取属于所述客户群的客户在预设历史时间段内的特征数据，包括：

获取属于所述客户群的训练客户集中的客户，在预设历史时间段内的特征数据。

可选的，所述利用机器学习网络，对所述模型训练样本进行训练，得到所述客户群的客户流失预测模型，包括：

利用多个机器学习网络，对所述模型训练样本进行训练，得到相应的待选预测模型；

依据所述客户群的测试客户集中各客户的流失标签，得到不同待选预测模型的预测准确率；

将最高预测准确率对应的待选预测模型确定为所述客户群的客户流失预测模型。

可选的，所述方法还包括：

获取待测客户群中的待测客户在预设历史时间段内的特征数据；

将所述特征数据输入所述待测客户群对应的客户流失预测模型，得到各待测客户的流失概率及具有最大流失权重的特征数据；

将所述各待测客户的流失概率及具有最大流失权重的特征数据，发送至预设业务人员的绑定终端进行展示。

可选的，所述方法还包括：

利用所述各待测客户的流失概率及流失权重最大的特征数据，生成相应的客户挽留策略；

所述将所述各待测客户的流失概率及流失权重最大的特征数据，发送至预设业务人员的绑定终端进行展示，包括：

将所述各待测客户的流失概率、流失权重最大的特征数据及客户挽留策略，发送至预设业务人员的绑定终端进行展示。

本申请还提供了一种客户流失预测装置，所述装置包括：

分类模块，用于按照预设业务的虚拟资源余额对已有客户进行分类，得到多个客户群；

特征数据获取模块，用于针对每一个所述客户群，获取属于所述客户群的客户在预设历史时间段内的特征数据，其中，所述特征数据包括原始特征数据，及基于所述原始特征数据得到的衍生特征数据，且所述原始特征数据和所述衍生特征数据均包含多个维度的特征；

预处理模块，用于对所述特征数据进行预处理，得到所述客户群的模型训练样本；

模型训练模块，用于利用机器学习网络，对所述模型训练样本进行训练，得到所述客户群的客户流失预测模型。

可选的，所述特征数据获取模块包括：

第一获取单元，用于按照行业标准，获取属于所述客户群的客户在预设历史时间段内的第一数量个原始特征数据；

第二获取单元，用于通过预设的至少一个特征衍生方式，对相应的原始特征数据进行处理，得到第二数量个衍生特征数据。

本申请还提供了一种计算机设备，所述计算机设备包括：

通信接口；

存储器，用于存储实现如上所述的客户流失预测方法的程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如上所述的客户流失预测方法的各个步骤。

经由上述的技术方案可知，本申请提供了一种客户流失预测方法、装置及计算机设备，在获取预测客户流失概率的客户流失预测模型过程中，本申请是按照预设业务的虚拟资源余额对客户进行分类，得到更加细化且体现客户在该预设业务中个人喜好的多个客户群，之后，针对每一个客户群，将通过对相应客户在预设历史时间段内的多个维度的原始特征数据，及据此得到多个维度的衍生特征数据进行预处理，得到该客户群的模型训练样本，极大丰富了模型训练样本的种类，这样，利用机器学习算法，对这些模型训练样本进行训练，大大提高了训练得到的客户流失模型的预测准确性，进而使得业务人员能够据此准确且及时预先得知可能会流失的客户名单，采取合适的政策对这些客户进行挽留，降低客户流失量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请提供的一种客户流失预测方法的一种可选示例的流程图；

图2示出了本申请提供的一种客户流失预测方法中，预测时间的确定方式示意图；

图3示出了本申请提供的一种客户流失预测方法中，获取衍生特征的一种可选方式示意图；

图4示出了本申请提供的一种客户流失预测方法的另一种可选示例的流程图；

图5示出了本申请提供的一种客户流失预测方法的一种可选示例的场景流程图；

图6示出了本申请提供的一种客户流失预测装置的一种可选示例的结构图；

图7示出了本申请提供的一种客户流失预测装置的另一种可选示例的结构图；

图8示出了本申请提供的一种计算机设备的可选硬件结构图；

图9示出了本申请提供的一种客户流失预测***的一种可选示例的结构图。

具体实施方式

本申请通过对现有的客户流失预测模型的获取方法进行分析，虽然现有技术提出针对不同类型的客户，训练不同的客户流失预测模型，但目前对客户的分类，通常是采用聚类算法实现，或者是简单地将客户分为普通客户和VIP客户等，前者无法实现对未知客户的分类，后者分类方式过于简单，对于业务种类较多的银行等类型的企业，不同客户办理业务和产品种类差距较大，这种分类方式并不适用于银行客户。因此，为了改善客户分类方式，本申请提出结合业务及聚类算法，对银行客户进行细分类，具体分类方式可以参照下文实施例相应部分的描述。

另外，针对客户的流失规则的定义，对于游戏类业务，目前通常是将连续k天内，充值金额小于M，充值天数小于D，以及长期不登录和不充值的用户定义为完全流失玩家，将其他用户定义为未完全流失玩家。对于金融类业务，通常是将客户的流失分为换降型、陡降型、波动型、普通型，或者目标月客户日均资产萎缩至目标月前一年月日均资产15％以下等。对于现有的这几种流失规则的定义，均忽视了客户自身行为喜好，且由于银行客户具有多样性，有些客户喜好储蓄，其金融资产稳定性较好；而有些客户喜好投资或大额交易，其金融资产稳定性较差。所以说，单纯从客户交易笔数下降、金融资产下降不足来定义客户流失规则并不准确，这将会影响客户流失预测准确性。对此，本申请提出针对不同类型的银行客户，针对客户资产规模划分多个档次，将客户资产规模的档次降低视为流失，由于客户类型划分考虑到客户自身行为喜好，从而使得这种客户流失规则的定义更加准确。

此外，目前对客户流失预测模型进行训练过程中，所获取的客户相关数据种类比较简单，如客户的基础信息及行为信息；或者如综合情况、客户信息、客户服务、含信用的交割明细流水、资金明细流水及委托明细流水等客户交易数据；或者客户在过去一段时间内的亏损率、交易量、资金净流入、日均资产萎缩情况、佣金率、服务次数等数据。但是，在实际预测银行内客户流失倾向时，还需要考虑客户等级、管户关系、产品构成、忠诚度、稳定性、满意度、活跃度等多维度特征数据，且由于近期数据对客户流失的影响较大，在这些特征数据基础上，还需要衍生一些表征近期的数据变动情况、近期数据占比情况等的衍生特征数据，通过对这些基础特征数据及衍生特征数据进行综合考虑，能够提高客户流失概率的预测准确性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，示出了本申请提出的客户流失预测方法的一种可选示例的流程示意图，该方法可以适用于计算机设备，该计算机设备可以是服务器，如图1所示，该方法可以包括但并不局限于以下步骤：

步骤S11，按照预设业务的虚拟资源余额对客户进行分类，得到多个客户群；

对于银行客户来说，其办理的业务往往会涉及到虚拟资源，如活期/定期虚拟资源、投资虚拟资源、总虚拟资源等，因此，本申请可以获取客户的虚拟资源余额(如金融资产余额)、活期虚拟资源余额(如活期存款余额)、定期虚拟资源余额(如定期存款余额)、投资虚拟资源余额(如投资余额)等特征数据，对这些特征数据进行聚类处理，结合行业经验，将客户分为储蓄型主活期型客户、储蓄型主定期型客户、储蓄型定活均衡型客户、投资储蓄均衡型客户以及投资理财型客户这五个用户群，但并不局限于此。

其中，储蓄型主活期型客户可以是指：月日均投资理财余额占月日均个人金融资产AUM(Asset Under Management，资产管理规模，本申请将其称为个人金融资产)<10％，且活期月日均存款余额占比>＝80％的客户，该个人金融资产AUM＝金融资产余额-贷款余额×计算系数；储蓄型主定期型客户可以是指：月日均投资理财余额占月日均AUM<10％，且活期月日均存款余额占比<＝20％的客户；储蓄型定活均衡型客户可以是指：月日均投资理财余额占月日均AUM<10％，且20％<活期月日均存款余额占比<80％的客户；投资储蓄均衡型客户可以是指：0％<＝月日均投资理财余额占月日均AUM<50％的客户，如月日均投资理财占AUM平均数是30％的客户；投资理财型客户可以是指：月日均投资理财占月日均AUM>＝50％的客户。

需要说明，对于本申请分类得到的上述5个客户群的分类方式，并不局限于上段给出的分类方式，且对于上述分类方式，并不局限于上段给出的占比数值，可以根据实际情况的需求进行调整，本申请不做一一详述。

在获取上述客户群的过程中，本申请是使用的聚类方式实现，所谓聚类就是依据相似性原则，将具有较高相似度的数据的客户划分至同一客户群，将具有较高相异度的数据客户划分至不同客户群，整个过程属于无监督过程。本实施例具体可以采用K-means聚类算法，实现对银行客户的分类，得到多个客户群。

其中，K-means聚类算法也可以称为K-平均或者K-均值，其是一种基于划分的聚类算法，以距离作为数据对象(客户)间相似性度量的标准，具体可以采用欧式距离来计算数据对象间的距离。假设输入样本为T＝X1，X2，...，Xm，聚类过程可以包括：先选择初始化的k个类别中心a1、a2、...、ak，再针对每个样本Xi(i＝1，2，...，m)，将其标记为距离类别中心aj最近的类别j(j＝1，2，...，k)，之后，更新每个类别的类别中心aj为隶属该类别的所有样本的均值，如此重复执行，直到达到预设约束条件。本申请对利用K-means聚类算法，实现上述步骤S11的具体过程不做详述。

步骤S12，针对每一个客户群，获取属于该客户群的客户在预设历史时间段内的特征数据；

其中，预设历史时间段可以是紧邻预测时间段的历史时间段，如图2所示的数据挖掘周期示意图，可以将计划预测客户流失情况的时间点记为观察日(其通常是当前时间)，将预测时间点记为表现日(其通常是未来某个时间点)，那么，可以将该观察日与表现日之间的时间段记为预测时间段，将观察日之前的一段时间(如过去的连续n个月，n数值不做限定)记为预设历史时间段，本申请对这几个时间点和时间段不做限定。

而且，需要说明的是，本申请获取的特征数据可以包括原始特征数据及衍生特征数据，该衍生特征数据将基于该原始特征数据得到，且原始特征数据和衍生特征数据均可以包含多个维度的特征，可见，相对于传统模型训练过程中，直接获取客户相关特征的方式，本申请将会获取更多更细化的客户及业务特征，以提高训练所得客户流失预测模型的准确性，本申请对该原始特征数据及衍生特征数据的具体内容不做限定，可以依据具体企业及其包含的业务类型确定，并不局限于下文列举的数据内容。

在本申请实际应用中，可以利用预设历史时间段(观察期)内得到的客户的行为数据，以及自然属性数据，加工得到用于模型训练所需的模型训练样本的特征数据，以预测客户在表现期内是否会流失。其中，观察期的长短可以取决于上述得到的特征数据，以及可获取的数据的时间范围，表现期的长度主要可以取决于产品特点以及可获取的数据的时间范围。

基于此，本申请可以以过去连续n个月(即预设历史时间段)内获取的特征数据为基础，选取a条客户记录，按照客户流失规则，确定出每个客户的流失标签，如该客户可能会流失的流失标签为1，该客户可能不会流失的流失标签为0，之后，可以按照不同流失标签的预设比例，确定出各客户群中的训练数据集和测试数据集。如以月为单位，按照a1：a2＝7:3这样的预设比例，划分训练数据集和测试数据集，n＝a1+a2，但并不局限于这一预设比例。

应该理解，上述划分出的训练数据集，用来实现客户流失预测模型的训练，而测试数据集用来验证该客户流失预测模型的预测结果的准确性，以得到预测准确率较高的客户流失预测模型。因此，本申请获取的模型训练样本可以来自该训练数据集，即针对每一个客户群，获取其包含各客户在该训练数据集中的特征数据。

作为本申请一可选示例，上述原始特征数据可以依据行业经验确定，如针对各客户群的具体客户特征，从客户基本信息、客户等级、管户关系、金融资产、卡汇总、借记卡交易、贷记卡交易、渠道交易、转账、产品构成、存款、贷款、理财、国债、基金、贵金属、保险、第三方存管、代发工资、忠诚度、稳定性、满意度、活跃度等特征中，选择若干个(如M个)特征，获取该客户群中各客户的相应的特征数据记为原始特征数据，对于不同客户群来说，所选择的M个特征可能不同，本申请不做详述。

而对于基于原始特征数据衍生得到的衍生特征数据，是为了增加模型训练样本的特征数量，缩小较大数据的差距，改变数据分布等，因此，本申请可以采用多种特征衍生方式，对原始特征数据进行处理，本申请对特征衍生方式的内容不作限定。

可选的，本申请可以采用特征汇总、组合、统计及业务定义等多种，如图3所示，实现特征衍生处理，如对于获取的过去n个月的原始特征数据，可以将1、3、6、12等月份(但并不局限于这几个月份)的原始特征数据进行汇总衍生，如图3所示，将最近1/3/6期数据进行汇总，或最近1期数据占最近6期数据比例等等，以提高特征的显著性，使得到的特征更加符合业务逻辑；可以将客户基本信息进行组合，得到组合特征，如年龄性别组合、文化程度和婚姻状态组合等；对原始特征通过统计学方法，可以进一步衍生出平均值、最大值、最小值、标准差等特征数据；还可以从业务角度，对原始特征进行衍生，以得到更多的特征数据等等，但并不局限于本申请列举的这些特征衍生方式。

步骤S13，对特征数据进行预处理，得到所述客户群的模型训练样本；

本申请可以利用预设特征处理方式，如缺失值填充方式、盖帽处理方式、特征稳定性指标验证方式及连续型特征分箱方式等中的一个或多个组合，对特征数据进行预处理，得到模型训练样本，但并不局限于本实施例给出的预处理方法。

其中，缺失值填充方式可以是指：对于缺失值超过某个百分比(如90％)的特征数据可以删除；对缺失值低于90％的特征数据可以进行填充，填充规则可以为：对于数值型数据，如填充均值或者填充0；对于枚举型数据，可以填充众数等，但对于具有缺失值的特征数据，并不局限于本申请这种删除或填充方式。

对于上述盖帽处理方式可以指：通过计算涉及到虚拟资产的特征数据的两个端点，小于低位端点的点值确定为该低位端点值，大于高位端点的点值确定为该高位端点值，比如低位端点是3％，高位端点是97％，但并不局限于此。

对于特征稳定性就是关注该特征的取值随着时间的推移会不会发生大的波动，本申请通过特征稳定性指标验证方式，可以将一些本身不太稳定的特征数据剔除，避免将这类模特征数据输入模型，降低模型训练效率及准确性。

具体的，本申请可以采用群体稳定性指标(population stability index，PSI)指标来平台特征稳定性。由于PSI可以是衡量模型的预测值与实际值偏差大小的指标，因此，本申请通过计算PSI，来评估该特征数据的特征稳定性，进而判断是否保留该特征数据，如特征数据的PSI是否小于阈值，若是，保留该特征数据；反之，删除该特征数据。其中，PSI＝sum(实际占比-预期占比)*ln(实际占比/预期占比)，PSI小于0.1(并不局限于这一阈值)的时候稳定性很高，保留该特征数据；大于0.25的时候稳定性较差，不采用该特征数据，本申请对PSI的具体计算过程不做详述。

基于此，在实际应用中，按照上述PSI的计算方式，可以计算得到上百个特征数据跨度1个月～跨度6个月的PSI，若一个特征数据跨度6月的PSI取值都小于0.1(并不局限于该阈值)，可以认为该特征数据时稳定的；反之，可以认为该特征数据是不稳定的，可以剔除该特征数据。需要说明，关于特征数据的稳定性评估方法，并不局限于本实施例描述的这种实现方式。

对于连续型特征分箱方式可以指：将连续型特征数据按区间做分块映射，实现连续型特征数据的离散化，具体实现方法不做限定，如基于决策树的最大熵，计算分箱阈值(即分割阈值)，将连续型特征数据转换为离散型特征数据，具体实现过程本申请不做详述。

其中，决策树是一种基本的分类与回归方法，呈树形结构，可以表示基于特征数据对实例进行分类的过程。其可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布，本申请对决策树的构建方法不做详述。相对于其他分类模型，决策树具有可读性，分类速度快等优势，且在学习过程中，可以根据损失函数最小化的原则，对训练样本进行训练，以构建决策树模型，可以用来预测新数据的类型，具体实现过程不做详述。

作为本申请一可选示例，本实施例还可以将经过如上述预设特征方式，对特征数据预处理后得到的特征数据记为初始训练样本，之后，还可以对其做进一步筛选，以获取对要训练的客户流失模型较重要的部分特征数据作为模型训练样本，如利用多种机器学习网络，验证各初始训练样本的重要性，再从挑选出的较重要的特征数据中，筛选相关性较高一些特征数据作为模型训练样本等，具体实现过程不做限定。

步骤S14，利用机器学习网络，对模型训练样本进行训练，得到客户群的客户流失预测模型；

本申请实际应用场景中，对于预测结果通常需要基层的业务人员去挽留客户，为了减轻业务人员负担，本申请认为“命中准确”比“命中范围”更重要，即准确率更重要，因此，本申请在训练客户流失预测模型时，可以选择多种机器学习网络进行训练，再从训练得到的各客户流失预测模型中，确定出预测准确性最高的客户流失预测模型，用来实现对实际各待测客户的流失概率的预测。

其中，机器学习网络可以包括：逻辑回归、随机森林以及XGBoost(eXtremeGradient Boosting，极端梯度提升)等。本申请对基于各机器学习网络，对模型训练样本的具体训练过程不做详述，应该理解的，本申请可以预先设定一个相对较高的流失概率阈值(其具体数值不做限定)，这样，在训练过程中，得到某客户的流失概率后，可以与该流失概率阈值进行比较，若模型输出的流失概率小于该流失概率阈值，可以认为相应客户可能不会流失；反之，模型输出的流失概率大于该流失概率阈值，可以认为相应客户可能会流失；通过与预先标注的各客户的流失标签进行比较，来得到本次训练得到的客户流失模型的预测准确性，以挑选预测准确性最高的客户流失预测模型。

本申请中基于逻辑回归网络，训练得到的客户流失模型可以是非线性模型，可以使用sigmoid函数(即逻辑回归函数)实现模型训练，具体实现过程不做详述。

随机森林可以是一个包含多个决策树的分类器，其输出的类别可以是由个别树输出的类别的众数而定，本申请对如何利用随机森林这一机器学习网络，训练得到客户流失预测模型的具体过程不做详述。

XGBoost可以理解为GDBT算法的进化版，GDBT算法是一种迭代的决策树算法，可以由多个决策树组成，将所有决策树的结论累加得到最终答案。而本申请使用的XGBoost引入了复合树和增量学习的概念，由多个决策树组合形成一个最终分类器，且在生成基决策树的时候，每课决策树可以沿着前一棵决策树误差减小的梯度方向进行训练，具体实现过程本申请不做详述。

综上，本申请对于每个客户群的模型训练样本，均可以采用多种机器学习网络进行建模，再从得到的多个客户流失预测模型中，选择预测准确性最高的客户流失预测模型，作为未来预测属于相应客户群的客户的流失概率。所以说，上述步骤S14得到的客户流失预测模型可以是针对相应客户群的客户流失预测的准确性较高的模型。

而且，本申请是结合银行业务类型及客户行为喜好等多方面因素，对银行客户进行分类，有助于提高客户流失预测准确性；另外，针对分类得到的每一客户群，在获取相应的模型训练样本过程中，并不仅仅是获取客户自然属性数据和行为数据，还结合行业经验获取了很多行业内，预测客户流失概率时可能会考虑的多维度特征，且由此衍生出多个表征近期数据变动情况的衍生特征，提高了模型训练样本的丰富性、全面性，进而提高了训练所得客户流失预测模型的输出准确性。

步骤S15，获取待测客户群中的待测客户在预设历史时间段内的特征数据；

按照上述方式预先训练出各客户群对应的客户流失预测模型后，对于任一待测客户群中的待测客户，可以按照上述方式获取其在预设历史时间段内的特征数据，应该理解，此处的预设历史时间段可以是紧邻当前时间的过去几个月，也就是说，在不同时间进行客户流失预测时，对应的预设历史时间段所指的具体时间段会随着改变，但确定该预设历史时间段的方法相同，本申请不再赘述。

需要说明，步骤S15获取的特征数据可以包括各待测客户的原始特征数据及衍生特征数据，这两大类特征数据的获取方式，可以参照上文相应部分的描述。当然，本实施例此处获取的特征数据也可以是经过预处理后的特征数据等，本申请对该特征数据的内容不做限定。

步骤S16，将特征数据输入待测客户群对应的客户流失预测模型，得到各待测客户的流失概率及具有最大流失权重的特征数据；

基于上文对客户流失预测模型的描述，其可以预测客户在未来时间段内可能会流失的流失概率，且对于不同客户群来说，与其包含的客户的流失概率预测更加准确的客户流失预测模型可能不同，所以，在实际应用中，确定任一待测客户群或任意待测客户后，本申请将先选择合适的客户流失预测模型，再将各待测客户的特征数据输入至该客户流失预测模型，得到相应待测客户的流失概率。

与此同时，为了得知主要是什么原因导致客户流失，在客户流失概率模型对特征数据进行处理过程中，会对各特征数据设置相应的流失权重，这样，在预测得到待测客户的流失概率的同时，还可以得到最大流失权重对应的特征数据，即造成客户流失的主要原因。本申请对获取各待测客户的流失概率，及具有最大流失权重的特征数据的具体实现过程不做详述。

步骤S17，将各待测客户的流失概率及具有最大流失权重的特征数据，发送至预设业务人员的绑定终端进行展示。

利用客户流失预测模型，得到相应待测客户群中各待测客户的流失概率，以及具有最大流失权重的特征数据后，可以直接将这些信息发送至如银行大堂经理等预设业务人员的绑定终端，以使预设业务人员能够通过该绑定终端能够及时且直观得知客户流失概率及流失原因，以便具有制定相应的客户挽留策略，进行客户挽留。

当然，本申请还可以在得到各待测客户的流失概率后，将各待测客户的流失概率与预设的客户流失阈值进行对比，得到超过该客户流失阈值的待测客户，即判断为将会流失的待测客户，再将利用预设的客户流失阈值，筛选出的流失客户发送至预设业务人员的绑定终端，这样就不需要业务人员人工判断哪些客户可能会流失，降低了对业务人员的业务要求及工作量。

进一步地，本申请还可以依据客户流失预测模型的输出结果，自动生成相应的客户挽留策略，之后，将该客户挽留策略发送至预设业务人员的绑定终端，以使业务人员直接按照该客户挽留策略进行挽留客户，无需业务人员凭借业务知识，人工制定客户挽留策略，保证了客户挽留策略的可靠性及有效性，进而提高了客户挽留效果。

需要说明，本申请对客户流失预测模型的输出结果的展示方式不作限定，并不局限于上文描述的展示方式，且对于制定客户挽留策略的方法及其包含的内容，本申请均不作限定，可以预先依据业务经验，制定出针对不同类型客户因不同原因而流失的情况，实施的有效的客户挽留策略，这样，确定待测客户及其流失原因后，可以直接选择相应的客户挽留策略即可，但并不局限于这种制定方法。

综上，本申请将利用获取多个维度的原始特征数据，及据此得到多个维度的衍生特征数据，经过预处理得到模型训练样本，提高了模型训练样本的多样性、丰富性及全面性，为准确预测客户流失概率奠定了基础，之后，在模型训练阶段，本实施例是采用多个机器学习网络进行训练，从中选择出预测准确性最高的客户流失预测模型，作为相应客户群的客户流失预测模型，相对于传统模型训练方法中，直接利用统一的机器学习网络进行模型训练，得到客户流失预测模型的方式，本申请所得客户流失预测模型更具有针对性，准确性更高，即提高了对相应类型待测客户的流失概率预测的准确性，另外，本实施例还会将实际预测结果发送至预设业务人员的绑定终端展示，以使业务人员能够通过查看绑定终端实时监控可能流失的客户，并在客户流失前，提前采取相关措施维系客户，大大减轻了海量客户维系成本，降低客户流失量。

参照图4，为本申请提出的客户流失预测方法的另一可选示例的流程示意图，该方法可以适用于计算机设备，如图4所示，该方法可以包括：

步骤S21，按照预设业务的虚拟资源余额对客户进行分类，得到多个客户群；

步骤S22，针对每一个客户群，获取属于该客户群的客户在预设历史时间段内，该预设业务的虚拟资源余额的变化信息；

结合上文描述，该虚拟资源余额的变化信息可以指金融资产余额、活期存款余额、定期存款余额、投资余额等，具体内容可以参照上文相应部分的描述。其中，预设历史时间段可以指如图2所示的观察期，本申请对该预设历史时间段所指的具体实现不做限定。

步骤S23，按照客户流失规则，利用该变化信息确定出相应客户的流失标签，并按照预设比例，确定出该客户群中的训练客户集和测试客户集；

继上文描述，客户流失规则可以是在基于虚拟资源数额确定出多个规模档次的情况下，该客户的虚拟资源余额是否降档，若降档，该客户视为流失，其流失标签记为1；反之，该客户视为未流失，其流失标签记为0，但并不局限于这种客户流失规则。

对于训练客户集和测试客户集的获取过程，可以参照上述实施例相应部分的描述，不再赘述。

步骤S24，按照行业标准，获取属于客户群的训练客户集中的客户，在预设历史时间段内的第一数量个原始特征数据；

步骤S25，通过预设的至少一个特征衍生方式，对相应的原始特征数据进行处理，得到第二数量个衍生特征数据；

本申请对第一数量和第二数量的具体数值不做限定，对于不同的客户群，获取的原始特征数据和衍生特征数据的特征类型及数量可能不同，可以依据具体应用场景确定，而对于原始特征及衍生特征的确定方法，可以参照上述实施例相应部分的描述。

其中，行业标准可以包括本行业在分析客户流失情况的，可能会考虑的特征因素，如银行企业中可能会考虑到的客户基本信息、客户等级、管户关系、金融资产、卡汇总、借记卡交易、贷记卡交易、渠道交易、转账、产品构成、存款、贷款、理财、国债、基金、贵金属、保险、第三方存管、代发工资、忠诚度、稳定性、满意度、活跃度等，对于不同行业，影响客户流失的因素往往不同，其行业标准不同，所确定的原始特征及衍生特征类型也会有所差异，本申请不再一一详述。

步骤S26，按照预设特征处理方式，对第一数量个原始特征数据及第二数量个衍生特征数据进行预处理，得到该客户群的初始训练样本；

其中，所述预设特征处理方式包括缺失值填充方式、盖帽处理方式、群体稳定性指标验证方式及连续型特征分箱方式中的一个或多个组合，但并不局限于列举的这几种特征处理方式。

步骤S27，利用多个机器学习网络对初始训练样本进行训练，得到相应的模型训练结果；

步骤S28，依据模型训练结果，对初始训练样本进行排序；

步骤S29，依据排序结果，针对每一类所述初始训练样本，选择第三数量个特征数据确定为待入模训练样本；

步骤S210，对确定出的待入模训练样本进行聚类处理，从得到的每一类待入模训练样本中选择相关性较高的第四数量个待入模训练样本；

步骤S211，由选择出的不同类型的待入模训练样本构成所述客户群的模型训练样本；

在按照步骤S26描述的方式对原始特征数据和衍生特征数据进行处理后，为了从中筛选出有助于提高适用于该客户群的客户流失预测模型的预测准确性，本申请可以对初筛选得到的初始训练样本做进一步筛选，具体可以利用多种机器学习网络，来获取这些初始训练样本对预测客户流失的重要性。其中，此处选取的机器学习网络可以与训练客户流失预测模型所依据的机器学习网络一致，本申请对该机器学习网络的类型不做限定，可以参照但并不局限于上文实施例描述的逻辑回归、随机森林、XGBoost等机器学习网络，且本申请对如何利用这几种机器学习网络，获取各初始训练样本的重要性的过程不做详述。

本实施例中，可以利用如上文列举的机器学习网络，对初始训练样本进行模型训练，每种模型训练结果可以是按照各初始训练样本的特征重要性进行排序(如按照从高到低的重要性进行排序)，并选取最优的前A(第三数量)个初始训练样本作为待入模特征。

之后，可以利用聚类算法，对选出的所有待入模特征进行聚类处理，得到B(即第四数量)个类的特征数据，再从每一类特征数据中选择出最相关的特征数据构成模型训练样本。需要说明，本申请对上述第三数量和第四数量的具体数值不做限定。

步骤S212，利用多个机器学习网络，对模型训练样本进行训练，得到相应的待选预测模型；

步骤S213，依据客户群的测试客户集中各客户的流失标签，得到不同待选预测模型的预测准确率；

步骤S214，将最高预测准确率对应的待选预测模型确定为该客户群的客户流失预测模型。

在实际应用中，对于不同类型的客户群，其对应的预测客户是否流失的特征可能会有所差异，导致客户流失的主要原因也可能不同，因此，为了实现对不同类型的客户群的客户流失概率的预测，本申请将有针对性地获取各客户群对应的客户流失预测模型，且在获取过程中，为了训练得到预测准确性更高的客户流失预测模型，本实施例提出采用多种机器学习网络分别进行训练，在利用测试客户集中客户的特征数据，对得到的多个待选预测模型的预测准确性进行校验与比较，以选择出各客户群对应的预测准确性最高的待选预测模型，确定为相应客户群的客户流失预测模型。

本申请对如何利用测试客户群中的客户的特征数据及其流失标签，对得到的各待选预测模型进行测试，并确定其预测准确率的方法不作详述。

可选的，结合上文实施例的描述，在确定出各客户群对应的预测准确性最高的客户流失预测模型后，其可以用来实现对相应客户群中客户流失情况的监控，具体的，参展图5所示的场景流程示意图，服务器可以周期或实时获取各待测客户群中各待测客户的特征数据，发送至已训练好的相应的客户流失预测模型中，以得到该测试客户群中各测试客户的流失概率，以及导致客户流失的主要流失原因，将各测试客户的流失概率与预设的客户流失阈值与进行比较，得到客户流失清单，再将该客户流失清单及客户流失原因发送至预设业务人员的绑定终端，以使该业务人员能够及时了解可能会流失的客户名单，以及造成客户流失的主要原因等，从而使该业务人员能够及时制定相应的挽留策略，对这些将要流失的客户进行挽留。

当然，服务器也可以直接制定出相应的客户挽留策略后，将客户流失名单、主要流失原因及该客户挽留策略等信息，再将这些信息直接发送至预设业务人员的绑定终端，这样，预设业务人员能够直观看到哪些客户将要流失，应该采取什么策略对这些客户进行挽留，不需要再人工判断流失客户，人工制定客户流失策略，极大节约了人工成本，且降低了对预设业务人员的业务能力的要求。

参照图6，为本申请实施例提供的一种客户流失预测装置的结构示意图，该装置可以应用于计算机设备，该计算机设备可以是服务器，该装置可以包括：

分类模块11，用于按照预设业务的虚拟资源余额对已有客户进行分类，得到多个客户群；

特征数据获取模块12，用于针对每一个所述客户群，获取属于所述客户群的客户在预设历史时间段内的特征数据；

其中，所述特征数据包括原始特征数据，及基于所述原始特征数据得到的衍生特征数据，且所述原始特征数据和所述衍生特征数据均包含多个维度的特征；

基于此，该特征数据获取模块12可以包括：

预处理模块13，用于对所述特征数据进行预处理，得到所述客户群的模型训练样本；

可选的，该预处理模块13可以包括：

预处理单元，用于按照预设特征处理方式，对所述特征数据进行预处理，得到所述客户群的初始训练样本；

本实施例中，预设特征处理方式可以包括缺失值填充方式、盖帽处理方式、群体稳定性指标验证方式及连续型特征分箱方式中的一个或多个组合，但并不局限于本实施例列举的几种特征处理方式，且对于这几种特征处理方式的具体实现过程，可以参照上述方法实施例相应部分的描述。

样本训练单元，用于利用多个机器学习网络对所述初始训练样本进行训练，得到相应的模型训练结果；

排序单元，用于依据所述模型训练结果，对所述初始训练样本进行排序；

第一选择单元，用于依据排序结果，针对每一类所述初始训练样本，选择第三数量个特征数据确定为待入模训练样本；

第二选择单元，用于对确定出的待入模训练样本进行聚类处理，从得到的每一类待入模训练样本中选择相关性较高的第四数量个待入模训练样本；

模型训练样本确定单元，用于由选择出的不同类型的待入模训练样本构成所述客户群的模型训练样本。

模型训练模块14，用于利用机器学习网络，对所述模型训练样本进行训练，得到所述客户群的客户流失预测模型。

作为本申请一可选实例，在上述各实施例的基础上，如图7所示，该装置还可以包括：

变化信息获取模块15，用于获取属于所述客户群的客户在预设历史时间段内，所述预设业务的虚拟资源余额的变化信息；

流失标签确定模块16，用于按照客户流失规则，利用所述变化信息确定出相应客户的流失标签；

客户集确定模块17，用于按照预设比例，确定出所述客户群中的训练客户集和测试客户集；

其中，所述训练客户集和所述测试客户集包含的客户均携带有相应的流失标签，以用来实现模型的训练。

相应地，上述特征数据获取模块12具体用于获取属于所述客户群的训练客户集中的客户，在预设历史时间段内的特征数据，实现过程可以参照上述实施例相应部分的描述。

可选的，上述模型训练模块14可以包括：

待选预测模型获取单元，用于利用多个机器学习网络，对所述模型训练样本进行训练，得到相应的待选预测模型；

预测准确率获取单元，用于依据所述客户群的测试客户集中各客户的流失标签，得到不同待选预测模型的预测准确率；

客户流失预测模型确定单元，用于将最高预测准确率对应的待选预测模型确定为所述客户群的客户流失预测模型。

在上述各实施例的基础上，如图7所示，上述装置还可以包括：

待测数据获取模块18，用于获取待测客户群中的待测客户在预设历史时间段内的特征数据；

客户流失预测模块19，用于将所述特征数据输入所述待测客户群对应的客户流失预测模型，得到各待测客户的流失概率及具有最大流失权重的特征数据；

数据发送模块110，用于将所述各待测客户的流失概率及具有最大流失权重的特征数据，发送至预设业务人员的绑定终端进行展示。

可选的，上述装置还可以包括：

客户挽留策略生成模块，用于利用所述各待测客户的流失概率及流失权重最大的特征数据，生成相应的客户挽留策略；

上述数据发送模块具体可以用于将各待测客户的流失概率、流失权重最大的特征数据及客户挽留策略，发送至预设业务人员的绑定终端进行展示。

应该理解，上述各模块和单元可以是应用程序的功能模块，关于其实现相应功能的过程，可以参照上述方法实施例相应部分的描述。

本申请实施例还提供了一种存储介质，该存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例中的客户流失预测方法，具体实现过程可以参照上述实施例相应部分的描述，不再赘述。

参照图8，为本申请实施例提供的一种计算机设备的硬件结构图，该计算机设备可以包括：至少一个通信接口21、至少一个存储器22和至少一个处理器23，其中：

上述至少一个通信接口21、至少一个存储器22和至少一个处理器23之间，可以通过通信总线进行数据交互。

通信接口21可以用来接收其他计算机设备发送的数据，及接收其他计算机设备发送的数据等，可以根据实际应用场景的需求确定，本申请对通信接口21的类型及其收发数据内容不做限定。

可选的，上述通信接口21可以是WIFI、GPRS等无线通信模块的接口，也可以包括实现计算机设备内部数据交互的串口、并口等，本申请对通信接口的类型不做限定。

存储器22可以用于存储实现上述客户流失预测方法的程序。

本实施例中，该存储器22可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器23可以用于调用存储器22存储的程序，以实现上述客户流失预测方法的各步骤，具体实现过程可以参照上述方法实施例相应部分的描述，本申请不作赘述。

实际应用中，该处理器23可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

需要说明，对于计算机设备的硬件组成，并不局限于本实施例列举上述几部分，可以根据实际需求，增加或调整组成部分，如还可以配置各种传感器、报警器等等，本申请不再一一列举。

本申请中，上述计算机设备可以是服务器，通过执行如上述方法实施例描述的客户流失预测方法的各步骤，准确且及时实现对各客户群中流失客户的预测，同时还能够预测出造成这类客户流失的主要流失原因，并提前通知相关业务人员及时制定合适的客户挽留策略，提前进行客户挽留，降低客户流失率。

如图9所示，本申请还提供了一种客户流失预测***的结构示意图，该***可以包括服务器31和至少一个终端32，其中：

服务器31可以是如上所述的计算机设备，服务器的组成结构及其功能，可以参照上述计算机设备实施例相应部分的描述。

终端32可以是手机、笔记本电脑、平板电脑、台式电脑、工控机或其他手持设备等电子设备，用户可以通过操作终端32访问服务器31，以获取客户流失名单及流失原因，还可以将采集到的客户相关数据发送至服务器31，以更新服务器31的客户流失预测模型等信息，提高客户流失预测准确性。本申请对终端32的数量及其类型不做限定，对于不同业务人员来说，其使用的终端类型可以相同也可以不同，可以依据该业务人员所办理的具体业务类型确定。

关于服务器与终端之间的数据交互过程，可以参照上图5示出的场景示意图，但并不局限于本实施例描述的应用场景，可以依据实际需求进行适应性调整，本申请不做一一详述。

最后，需要说明，本说明书中的各个实施例均采用递进或并列等方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置、***类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

而且，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、模块或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种客户流失预测方法，其特征在于，所述方法包括：

按照预设业务的虚拟资源余额对客户进行分类，得到多个客户群；所述多个客户群包括：储蓄型主活期型客户、储蓄型主定期型客户、储蓄型定活均衡型客户、投资储蓄均衡型客户以及投资理财型客户；

利用机器学习网络，对所述模型训练样本进行训练，得到所述客户群的客户流失预测模型；

通过预设的至少一个特征衍生方式，对相应的原始特征数据进行处理，得到第二数量个衍生特征数据；

所述对所述特征数据进行预处理，得到所述客户群的模型训练样本，包括：

依据所述模型训练结果，对所述初始训练样本进行排序；

2.根据权利要求1所述的方法，其特征在于，针对每一个所述客户群，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述利用机器学习网络，对所述模型训练样本进行训练，得到所述客户群的客户流失预测模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种客户流失预测装置，其特征在于，所述装置包括：

分类模块，用于按照预设业务的虚拟资源余额对已有客户进行分类，得到多个客户群；所述多个客户群包括：储蓄型主活期型客户、储蓄型主定期型客户、储蓄型定活均衡型客户、投资储蓄均衡型客户以及投资理财型客户；

模型训练模块，用于利用机器学习网络，对所述模型训练样本进行训练，得到所述客户群的客户流失预测模型；

所述特征数据获取模块包括：

第二获取单元，用于通过预设的至少一个特征衍生方式，对相应的原始特征数据进行处理，得到第二数量个衍生特征数据；

预处理单元，用于按照预设特征处理方式，对所述特征数据进行预处理，得到所述客户群的初始训练样本；其中，所述预设特征处理方式包括缺失值填充方式、盖帽处理方式、群体稳定性指标验证方式及连续型特征分箱方式中的一个或多个组合；

7.一种计算机设备，其特征在于，所述计算机设备包括：

通信接口；

存储器，用于存储实现如权利要求1~5任意一项所述的客户流失预测方法的程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如权利要求1~5任意一项所述的客户流失预测方法的各个步骤。