CN110322085A

CN110322085A - 一种客户流失预测方法和装置

Info

Publication number: CN110322085A
Application number: CN201810272573.8A
Authority: CN
Inventors: 刘军; 张帆
Original assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Current assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2019-10-11

Abstract

本发明提供一种客户流失预测方法和装置，该方法包括：获取待预测的客户数据；将所述待预测的客户数据输入至客户流失预测模型中计算流失客户的数据，其中，所述客户流失预测模型是采用多个客户的历史客户数据训练得到。通过上述方式，本发明能够准确对客户流失进行预测，找到有可能流失的客户，从而及时对客户进行挽留，节省客户挽留的成本，且提高挽留的效果，有效解决客户的流失问题。

Description

一种客户流失预测方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种客户流失预测方法和装置。

背景技术

由于客户流失对企业利润影响巨大，当前客户流失问题受到广泛的重视。在竞争越来越激烈的银行业，客户流失问题同样亟待解决。现有的客户流失预测方法为监控客户总资产，当客户总资产额短期内下降较大例如下降25万时，判定客户有可能流失，对客户进行挽留。采用这种客户流失预测方法，预测不够准确，客户挽留成本高且收益较小。

发明内容

有鉴于此，本发明提供一种客户流失预测方法和装置，用于解决现有的客户流失预测方法预测不准确的问题。

为解决上述技术问题，本发明提供一种客户流失预测方法，包括：

获取待预测的客户数据；

将所述待预测的客户数据输入至客户流失预测模型中计算流失客户的数据，其中，所述客户流失预测模型是采用多个客户的历史客户数据训练得到。

优选地，所述将所述待预测的客户数据输入至客户流失预测模型中计算流失客户的数据的步骤之前，还包括：

获取训练样本集，所述训练样本集为多个客户的历史客户数据的集合；

获取至少两个待选的算法模型；

针对每一所述待选的算法模型，根据设置的所述待选的算法模型的参数和输入的训练样本集，对所述待选的算法模型进行训练，得到流失客户的数据；

比较得到的流失客户的数据和基于预定的客户流失定义的阈值确定的真实流失客户的数据，得到比较结果；

当所述比较结果不满足预设条件时，调整所述待选的算法模型的参数，并重新根据调整的所述待选的算法模型的参数和输入的训练样本集对所述待选的算法模型进行训练，直至所述比较结果满足所述预设条件，得到训练完成的算法模型；

对训练完成的算法模型进行评估，得到评估结果；

比较至少两个训练完成的算法模型的评估结果，选择一训练完成的算法模型作为所述客户流失预测模型。

优选地，所述待选的算法模型包括逻辑回归算法模型、Bagging算法模型、随机森林算法模型、AdaBoost算法模型、投票模型、堆栈模型和神经网络算法模型中的至少两个。

优选地，所述对训练完成的算法模型进行评估，得到评估结果的步骤包括：

根据预设评估指标，对对训练完成的算法模型进行评估，所述预设评估指标包括训练样本集预测准确率、测试样本集预测准确率、曲线下面积AUC分数、F分数和Kappa系数中的至少之一，所述测试样本集为多个客户的历史客户数据的集合，所述测试样本集中的客户数据与所述训练样本集中的客户数据不同。

优选地，所述预设评估指标包括：训练样本集预测准确率和测试样本集预测准确率；

所述对训练完成的算法模型进行评估，得到评估结果的步骤包括：

获取测试样本集；

将所述测试样本集输入至所述训练完成的算法模型中，得到流失客户的数据；

根据所述训练样本集训练得到的流失客户的数据和所述真实流失客户的数据，计算所述训练样本集预测准确率；

根据所述测试样本集预测得到的流失客户的数据和所述真实流失客户的数据，计算所述测试样本集预测准确率；

比较所述训练样本集预测准确率和所述测试样本集预测准确率，得到评估结果。

优选地，所述待选的算法模型包括一个算法模型，或者，包括至少两个算法模型；

当所述待选的算法模型包括至少两个算法模型时，其中，所述至少两个算法模型中，一个算法模型作为第二层的算法模型，其余算法模型作为第一层的算法模型；所述针对每一所述待选的算法模型，根据设置的所述待选的算法模型的参数和输入的训练样本集，对所述待选的算法模型进行训练，得到流失客户的数据的步骤包括：

将所述训练样本集输入至所述第一层的算法模型进行训练，得到中间过程数据；

将所述中间过程数据输入至所述第二层的算法模型进行训练，得到流失客户的数据。

优选地，所述选择一训练完成的算法模型作为所述客户流失预测模型的步骤之后，还包括：

获取所述客户流失预测模型输出的客户特征；

将所述客户特征输入决策树模型中，显示基于所述客户特征的决策树图。

优选地，所述历史客户数据中包括预设观察期和预设表现期内的客户数据，所述预设观察期早于所述预设表现期。

优选地，所述历史客户数据中还包括预设稳定期内的客户数据，所述预设稳定期位于所述预设观察期和预设表现期之间。

优选地，所述获取训练样本集的步骤包括：

对待处理的训练样本集进行数据预处理，得到数据预处理后的训练样本集。

优选地，所述数据预处理包括缺失值计算、异常值排除、数据变换、无量纲化和归一化中的至少之一。

优选地，所述获取训练样本集的步骤包括：

采用特征选择模型筛选待处理的训练样本集中的客户特征，确定选择的客户特征，采用选择的客户特征筛选训练样本集。

优选地，所述特征选择模型采用卡方检验、皮尔森相关系数法、极端树特征选择法和递归特征消除法中的至少之一筛选待处理的训练样本集中的客户特征。

通过所述客户流失预测模型计算选择的客户特征的重要性信息；

根据客户特征的重要性信息，调整所述特征选择模型采用的客户特征。

优选地，所述获取训练样本集的步骤包括：

对待处理的训练样本集进行不均衡数据处理，得到处理后的训练样本集，处理后的训练样本集中流失客户和非流失客户的数量之差小于预设阈值。

优选地，所述将所述待预测的客户数据输入至客户流失预测模型中计算流失客户的数据的步骤之后还包括：

获取挽回客户的数据；

根据挽回客户的数据，调整所述客户流失预测模型的参数。

获取挽回客户的数据；

根据挽回客户的数据，调整所述客户流失定义的阈值。

本发明还提供一种客户流失预测装置，包括：

获取模块，用于获取待预测的客户数据；

计算模块，用于将所述待预测的客户数据输入至客户流失预测模型中计算流失客户的数据，其中，所述客户流失预测模型是采用多个客户的历史客户数据训练得到。

优选地，所述客户流失预测装置还包括：

训练模块，用于获取训练样本集，所述训练样本集为多个客户的历史客户数据的集合；获取至少两个待选的算法模型；针对每一所述待选的算法模型，根据设置的所述待选的算法模型的参数和输入的训练样本集，对所述待选的算法模型进行训练，得到流失客户的数据；比较得到的流失客户的数据和基于预定的客户流失定义的阈值确定的真实流失客户的数据，得到比较结果；当所述比较结果不满足预设条件时，调整所述待选的算法模型的参数，并重新根据调整的所述待选的算法模型的参数和输入的训练样本集对所述待选的算法模型进行训练，直至所述比较结果满足所述预设条件，得到训练完成的算法模型；

评估模块，用于对训练完成的算法模型进行评估，得到评估结果；

选择模块，用于比较至少两个训练完成的算法模型的评估结果，选择一训练完成的算法模型作为所述客户流失预测模型。

优选地，所述评估模块，用于根据预设评估指标，对训练完成的算法模型进行评估，所述预设评估指标包括训练样本集预测准确率、测试样本集预测准确率、曲线下面积AUC分数、F分数和Kappa系数中的至少之一，所述测试样本集为多个客户的历史客户数据的集合，所述测试样本集中的客户数据与所述训练样本集中的客户数据不同。

所述评估模块包括：数据子模块、计算子模块和比较子模块，

所述数据子模块，用于获取测试样本集；将所述测试样本集输入至所述训练完成的算法模型中，得到流失客户的数据；

所述计算子模块，用于根据所述训练样本集训练得到的流失客户的数据和所述真实流失客户的数据，计算所述训练样本集预测准确率；根据所述测试样本集预测得到的流失客户的数据和所述真实流失客户的数据，计算所述测试样本集预测准确率；

所述比较子模块，用于比较所述训练样本集预测准确率和测试样本集预测准确率，得到评估结果。

所述训练模块，用于当所述待选的算法模型包括至少两个算法模型时，其中，所述至少两个算法模型中，一个算法模型作为第二层的算法模型，其余算法模型作为第一层的算法模型；将所述训练样本集输入至所述第一层的算法模型进行训练，得到中间过程数据；将所述中间过程数据输入至所述第二层的算法模型进行训练，得到流失客户的数据。

优选地，所述客户流失预测装置还包括：

图形显示模块，用于获取所述客户流失预测模型输出的客户特征；将所述客户特征输入决策树模型中，显示基于所述客户特征的决策树图。

优选地，所述训练模块包括第一处理子模块，用于对待处理的训练样本集进行数据预处理，得到数据预处理后的训练样本集。

优选地，所述训练模块包括筛选子模块，用于采用特征选择模型筛选待处理的训练样本集中的客户特征，确定选择的客户特征，采用选择的客户特征筛选训练样本集。

优选地，所述客户流失预测装置还包括：

第一调整模块，用于通过所述客户流失预测模型计算选择的客户特征的重要性信息；根据客户特征的重要性信息，调整所述特征选择模型采用的客户特征。

优选地，所述训练模块包括第二处理子模块，用于对待处理的训练样本集进行不均衡数据处理，得到处理后的训练样本集，处理后的训练样本集中流失客户和非流失客户的数量之差小于预设阈值。

优选地，所述客户流失预测装置还包括：

第二调整模块，用于获取挽回客户的数据；根据挽回客户的数据，调整所述客户流失预测模型的参数。

优选地，所述客户流失预测装置还包括：

第三调整模块，用于获取挽回客户的数据；根据挽回客户的数据，调整所述客户流失定义的阈值。

本发明还提供了一种客户流失预测装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述程序时实现上述客户流失预测方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述客户流失预测方法中的步骤。

本发明的上述技术方案的有益效果如下：

通过获取待预测的客户数据；将所述待预测的客户数据输入至客户流失预测模型中计算流失客户的数据，本发明能够准确对客户流失进行预测，找到有可能流失的客户，从而及时对客户进行挽留，节省客户挽留的成本，且提高挽留的效果，能够有效解决客户的流失问题。

附图说明

图1为本发明实施例一的客户流失预测方法的流程示意图；

图2为本发明一些优选实施例中一应用场景不同预测算法模型的比较结果示意图；

图3为本发明一些优选实施例的显示模型误差的混淆矩阵示意图；

图4为本发明一些优选实施例的单一模型训练流程示意图；

图5为本发明一些优选实施例的堆栈模型训练流程示意图；

图6为本发明一些优选实施例的一应用场景的客户特征重要性的排序示意图；

图7为本发明实施例二的客户流失预测装置的结构示意图；

图8为本发明一些优选实施例的客户流失预测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例一的客户流失预测方法的流程示意图，该方法包括：

步骤10：获取待预测的客户数据；

步骤20：将待预测的客户数据输入至客户流失预测模型中计算流失客户的数据，其中，客户流失预测模型是采用多个客户的历史客户数据训练得到。

本发明实施例提供的客户流失预测方法，能够准确对客户流失进行预测，找到有可能流失的客户，从而及时对客户进行挽留，节省客户挽留的成本，且提高挽留的效果，能够有效解决客户的流失问题。

下面对如何训练客户流失预测模型进行说明。

在本发明一些实施例中，步骤20之前可包括：

步骤11：获取训练样本集，所述训练样本集为多个客户的历史客户数据的集合；

在一些具体场景中，所述历史客户数据中可以包括预设观察期和预设表现期内的客户数据，所述预设观察期早于所述预设表现期。

进一步地，所述历史客户数据中还包括预设稳定期内的客户数据，所述预设稳定期位于所述预设观察期和预设表现期之间。例如：获取连续的预设观察期(例如：2017年1月至3月)、预设稳定期(例如：2017年4月至5月)、预设表现期(例如：2017年6月至8月)的历史客户数据。

当然，所述预设观察期、预设稳定期和预设表现期可根据用户的需求进行自由设定，更加灵活方便。

步骤12：获取至少两个待选的算法模型；

步骤13：针对每一所述待选的算法模型，根据设置的所述待选的算法模型的参数和输入的训练样本集，对所述待选的算法模型进行训练，得到流失客户的数据；

所述待选的算法模型的参数可以是用户根据需求设定的参数，也可以是软件在处理过程中自动设定的参数，本发明不作限定。

步骤14：比较得到的流失客户的数据和基于预定的客户流失定义的阈值确定的真实流失客户的数据，得到比较结果；

步骤15：当所述比较结果不满足预设条件时，调整所述待选的算法模型的参数，并重新根据调整的所述待选的算法模型的参数和输入的训练样本集对所述待选的算法模型进行训练，直至所述比较结果满足所述预设条件，得到训练完成的算法模型；

步骤14和步骤15的目的是验证预测得到的流失客户的数据是否与基于预定的客户流失定义的阈值确定的真实流失客户的数据基本一致。其中，真实流失客户的数据可根据客户流失定义及基于预定的客户流失定义的阈值计算获得。训练过程中，可以使用基于网格搜索的交叉验证方法，设定一预设条件，根据比较的结果和设定的预设条件，对算法模型的参数进行调优，直至训练完成。例如，可以设定预设条件为：预测的准确率大于或等于75％时，训练完成，比较预测得到的流失客户的数据和真实流失客户的数据，计算预测的准确率，当预测的准确率大于或等于75％时，训练完成；当预测的准确率小于75％时，调整算法模型的参数，重新进行训练，直至预测的准确率大于或等于75％，得到训练完成的算法模型。又如，可以设定预设条件为：算法模型的AUC分数，即曲线下面积(area under thecurve，简称AUC)大于或等于0.8时，训练完成，根据预测得到的流失客户的数据和真实流失客户的数据，得到算法模型的AUC分数，当算法模型的AUC分数大于或等于0.8时，训练完成；当算法模型的AUC分数小于0.8时，调整算法模型的参数，重新进行训练，直至算法模型的AUC分数大于或等于0.8，得到训练完成的算法模型。

步骤16：对训练完成的算法模型进行评估，得到评估结果；

具体的，用户可根据需求设定预设评估指标，对训练完成的算法模型进行评估，得到评估结果。

步骤17：比较至少两个训练完成的算法模型的评估结果，选择一训练完成的算法模型作为所述客户流失预测模型。

上述实施例中，客户流失定义可基于用户的需求、行业标准及经验设定，且能够及时进行调整优化。例如：可设定客户流失为客户在预设表现期内的总资产均值较预设观察期减少，基于预定的客户流失定义的阈值设定为20％，即客户在预设表现期内的总资产均值较预设观察期减少超过20％为客户流失。客户资产包括客户的存款、理财等。可设定该均值为客户的日均值、月均值或季均值。若设定该均值为客户的日均值，即客户的日均存款余额，利用公式“日均值＝每日银行存款的余额合计/天数”分别计算出客户在预设表现期、预设观察期的日均值。如果一客户在预设表现期、预设观察期内的日均值分别为7800元、10000元，则该客户在预设表现期内的日均值较预设观察期减少超过20％，则该客户为流失客户。

当然，基于预定的客户流失定义的阈值也可以包括多个数值，例如设定阈值V1＝30％，V2＝35％，设定客户在预设稳定期内的总资产均值较预设观察期减少小于V2，且在预设表现期内的总资产均值较预设观察期减少超过V1为客户流失。也就是说，在预设稳定期内的总资产均值较预设观察期减少超过35％的客户，被认为是难以挽回的客户，不在关注范围。即在预设稳定期内快速流失的客户直接被过滤掉，减少了数据处理量，提升数据处理的速度和效率。再计算客户在预设表现期、预设观察期内的总资产均值，得到流失客户。若V1和V2的值过高，只有很少的人会被定义为流失，即使预测模型百分之百精确并且在挽留阶段会挽回所有客户，挽留阶段的收益仍然较少；反之，如果V1和V2的值过低，尽管客户有正常消费的涨落，大量客户会被定义为流失，这样收益也会很少。因此，可根据实际情况和需求实时调整阈值V1、V2，以更有效地挽回客户。

优选地，可根据实际需求，预定的客户流失定义可包括多个条件，根据不同的条件分别设置客户流失定义的阈值。例如：可设定客户流失为总资产均值超过5万元的客户，且客户在预设表现期内的总资产均值较预设观察期减少25％。这样，首先对总资产的起点进行限制，重点关注高资产客户的流失，能够进一步提高挽留的效果。

举例来说，在一应用场景中，对某银行2016年及2017年两年的921万条历史客户数据进行抽样，得到276万条数据，可作为训练样本集和测试样本集的数据。提取其中预设观察期日均值大于5万的客户，得到28万条数据。过滤掉预设稳定期日均值较预设观察期减少超过35％的客户，剩余21万条数据。再根据预定的客户流失定义：客户在预设表现期内的总资产均值较预设观察期减少超过30％，对21万条数据进行分类，流失标记为1，非流失标记为0，得到非流失客户为18万人，流失客户为3万人，为真实流失客户的数据。基于相同的预定的客户流失定义，可采用上述训练样本集和测试样本集的数据进行训练，得到预测的流失客户的数据，并与真实流失客户的数据进行比较，直至比较结果满足预设条件，得到训练完成的客户流失预测模型。

上述实施例中，待选的算法模型可以包括逻辑回归算法模型、Bagging算法模型、随机森林算法模型、AdaBoost算法模型、投票模型、堆栈模型和神经网络算法模型中的至少两个。

其中，Bagging算法模型、随机森林算法模型、AdaBoost算法模型、投票模型和堆栈模型都属于集成算法模型，集成算法模型是由多个单一算法模型(仅包含单个算法模型)集成得到的。

逻辑回归算法模型是传统的用于二分类问题的广义线性模型，它将sigmoid函数应用于线性模型的输出，将输出范围压缩到[0，1]范围。

Bagging(Bootstrap aggregating，简称Bagging)算法模型，即套袋法，是一种集成算法，它使用多个强学习器，比如决策树或邻近算法(K-Nearest Neighbor，简称KNN)，用于解决过拟合问题。先从原始数据集中用有放回的抽样方法抽取n个训练样本，如此反复k轮，得到k个数据集。之后每次使用一个训练集用于训练模型，得到k个模型。所有模型都采用一致的算法。最终，对于分类问题，对k个模型预测的结果采用投票的方式得到最终的结果。其中，n和k为正整数。

随机森林算法模型，是Bagging的进化版，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能。其可以取得不错成绩，主要归功于“随机”和“森林”，一个使它具有抗过拟合能力，一个使它更加精准。随机森林使用了CART决策树作为弱学习器。在生成每棵树的时候，每个树选取的特征都仅仅是随机选出的少数特征，一般默认取特征总数m的开方，从而保证了特征随机性，减少了树之间的相关性。

AdaBoost算法模型，以迭代方式建立在弱学习器上，在每次迭代中，都会添加一个新的学习器，而所有现有的学习器都保持不变。所有的学习器根据他们的表现(例如：准确性)进行加权，并且在加入新的学习器之后，对数据进行重新加权：错误分类的样例获得更多的权重，而正确分类的样例减少权重。因此，新的学习器会更多地关注之前的学习器错误分类的样例。

投票模型，选取梯度提升分模型、多项式朴素贝叶斯模型和随机森林算法模型，采用软投票的方式，对各模型预测概率取平均。

堆栈模型，利用两层的算法模型进行训练，将第一层的算法模型的输出作为第二层的单个算法模型的输入来训练算法模型，可融合多个模型进行预测，预测结果更准确。

神经网络算法模型，采用三层神经网络，中间层激活函数使用线性整流函数(Rectified Linear Unit，简称ReLU)，又称修正线性单元，输出层激活函数使用Softmax函数，学习速率为优选0.001，迭代次数为优选1500次，批量数据大小为优选32个。最优参数的选择则基于网格搜索方法。网格指的是不同参数不同取值交叉后形成的一个多维网格空间，网格搜索就是遍历网格空间中的所有情况，对模型进行训练和验证，最终选择出效果最优(例如：测试集准确率最高)的参数组合。其中，通过尝试不同的学习速率：0.001、0.003、0.01、0.03、0.1，不同的迭代次数：500次、1000次以及1500次，不同的批量数据大小：32个、64个以及128个，确定出学习速率、迭代次数、批量数据大小的优选值分别为0.001、1500次、32个。

在本发明的一些优选实施例中，预设评估指标包括训练样本集预测准确率、测试样本集预测准确率、曲线下面积AUC分数、F分数和Kappa系数中的至少之一，所述测试样本集为多个客户的历史客户数据的集合，所述测试样本集中的客户数据与所述训练样本集中的客户数据不同。

其中，可以根据训练完成的算法模型，进行预测获得流失客户的数据，结合该训练样本集中真实流失客户的数据，计算出训练样本集预测准确率。同理，可计算出测试样本集预测准确率。

AUC分数，AUC分数的数值越大，表明分类的精度更高。

F分数是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F分数可以看作是模型准确率和召回率的一种加权平均值，它的最大值是1，最小值是0。F分数越高，说明分类模型越稳健。

Kappa系数是一种衡量分类精度的指标，Kappa系数的计算基于混淆矩阵的。

为了避免模型出现过拟合的情况，优选地，预设评估指标包括：训练样本集预测准确率和测试样本集预测准确率；此时，步骤16包括以下步骤：

步骤161：获取测试样本集；

具体而言，可将获取的历史客户数据分成两部分，其中一部分的历史客户数据作为训练样本集，另一部分的历史客户数据作为测试样本集，例如：其中70％的历史客户数据作为训练样本集，30％的历史客户数据作为测试样本集，如此可以确保数据的一致性。

步骤162：针对每一训练完成的算法模型，输入测试样本集，得到流失客户的数据；

步骤163：根据训练样本集训练得到的流失客户的数据和真实流失客户的数据，计算训练样本集预测准确率；

步骤164：根据测试样本集预测得到的流失客户的数据和真实流失客户的数据，计算测试样本集预测准确率；

步骤165：比较训练样本集预测准确率和测试样本集预测准确率，得到评估结果。

利用训练样本集训练完成的算法模型可能只在该训练样本集上预测效果好，而在其他样本上预测效果差。因此，需要计算训练样本集预测准确率和测试样本集预测准确率，避免训练完成的算法模型出现过拟合的情况。

如果计算出的训练样本集预测准确率和测试样本集预测准确率之差小于或等于设定的比较阈值，即两者差不多，则训练完成的算法模型没有出现过拟合的情况，预测效果佳。如果测试样本集预测准确率比训练样本集预测准确率小很多，两者之差大于设定的比较阈值，则说明训练完成的算法模型存在过拟合的情况，需要进一步进行调整。

进一步地，预设评估指标包括：测试样本集预测准确率和AUC分数。此时，步骤16包括以下步骤：

步骤1601：获取每一训练完成的算法模型的AUC分数；

步骤1602：将每一训练完成的算法模型的AUC分数从高到低排列，选取预设个数的训练完成的算法模型；

步骤1603：获取测试样本集；

步骤1604：针对选取的预设个数的训练完成的算法模型，输入测试样本集，得到流失客户的数据；

该步骤中，可将测试样本集分别输入至步骤1602中选定的训练完成的算法模型中，针对每个选定的模型，得到流失客户的数据。

步骤1605：根据测试样本集预测得到的流失客户的数据和真实流失客户的数据，计算测试样本集预测准确率；

步骤1606：比较测试样本集预测准确率，得到评估结果。

请参阅图2，在一应用场景中，待选的算法模型分别为：逻辑回归算法模型、随机森林算法模型、Bagging算法模型、AdaBoost算法模型、投票模型和神经网络算法模型。针对每个待选的算法模型，输入训练样本集进行训练，得到训练完成的算法模型。获取每一训练完成的算法模型的AUC分数，选出AUC分数最高的3个训练完成的算法模型，分别为：随机森林算法模型、Bagging算法模型和神经网络算法模型。再将测试样本集分别输入至选定的这3个训练完成的算法模型中，得到流失客户的数据，结合真实流失客户的数据，分别计算出这3个模型的测试样本集预测准确率，并进行比较，得到随机森林算法模型的测试样本集预测准确率最高，为81.66％，所以选择随机森林算法模型作为预测客户流失概率的模型。

在本发明的一些优选实施例中，在模型训练期间，可采用混淆矩阵显示模型误差，进行预测模型的误差评估。本实施例中的模型误差是预测为流失但实际并未流失的客户和预测为不流失但实际流失了的客户数量。请参阅图3，纵轴是实际值，即基于预定的客户流失定义的阈值确定的真实流失客户的数据，横轴是预测值，即基于预测算法模型预测的流失客户的数据。将流失标记为1，非流失标记为0，则左上角的区域表示预测值和实际值均为非流失，数据标记为00(第一个位置是预测值，第二个位置是实际值)；右下角的区域表示预测值和实际值均为流失，数据标记为11；左下角的区域表示预测值是非流失，但实际值是流失，数据标记为01；右上角的区域表示预测值是流失，但实际值是非流失，数据标记为10。算法模型误差越小越好，因此模型误差数据中，11和00占比越大越好。在本实施例中，图中的4个区域中分别标记有客户数量，便于让用户更直观地感受分类结果的精度。

在本发明的一些优选实施例中，待选的算法模型可以包括一个算法模型，或者，包括至少两个算法模型。

当待选的算法模型只包括一个算法模型时，请参阅图4，将训练样本集输入至这个算法模型中进行训练，输出流失客户的数据。

当待选的算法模型包括至少两个算法模型时，可以采用堆栈模型的方法进行训练，堆栈模型中采用的算法模型包括至少两个算法模型，所述至少两个算法模型中的算法模型可以为集成算法模型，也可以为其他算法模型，如：传统的机器学习算法模型和神经网络算法模型。具体请参阅图5，堆栈模型利用两层的算法模型进行训练，将第一层的算法模型(即图5中的模型1、模型2和模型3)的输出作为第二层的单个算法模型(即图5中的模型4)的输入来训练算法模型。

具体而言，将至少两个算法模型中的一个算法模型作为第二层的算法模型，其余算法模型作为第一层的算法模型；将训练样本集输入至第一层的算法模型进行训练，得到中间过程数据；将中间过程数据输入至第二层的算法模型进行训练，得到流失客户的数据。

第一层的算法模型可以是梯度提升树算法模型、神经网络算法模型、随机森林算法模型、逻辑回归算法模型和KNN算法模型中的至少一个，第二层的算法模型可以是梯度提升树算法模型、神经网络算法模型、随机森林算法模型、逻辑回归算法模型和KNN算法模型中的任一个。例如：第一层为2个梯度提升树算法模型、2个神经网络算法模型、2个随机森林算法模型、2个逻辑回归算法模型和1个KNN算法模型，第二层为1个梯度提升树模型。

利用堆栈模型对流失客户进行预测，融合了多个模型，比仅采用单一模型的方法预测效果更佳。

在本发明的一些优选实施例中，步骤11可包括：对待处理的训练样本集进行数据预处理，得到数据预处理后的训练样本集。

其中，数据预处理的过程包括数据清洗和数据标准化，其目的是便于数据比较和评估。具体的，数据预处理可包括缺失值计算、异常值排除、数据变换、无量纲化和归一化中的至少之一。无量纲化包括标准化法、区间缩放法等，缺失值计算包括缺失值填充等，数据变换包括多项式数据转换等。例如，对数据进行删除或填充，其中填充可以为补上默认值，比如：零或者平均值。

在本发明的其他实施例中，也可以不对数据进行预处理，利于训练样本集直接进行训练，本发明不作限定。

在本发明的另外一些优选实施例中，步骤11可包括：采用特征选择模型筛选待处理的训练样本集中的客户特征，确定选择的客户特征，采用选择的客户特征筛选训练样本集。

具体而言，筛选出的客户特征是与客户为流失客户的可能性有相关性较为重要的特征。例如：对于银行来说，筛选出的客户特征可以为以下客户特征中的至少一个：成为银行客户的时间长度、个人定期存款、未来3个月理财产品到期金额或最近3个月月平均交易金额。

通常的，对于成为银行客户的时间长度，时间越长的客户，流失可能性越低；对于个人定期存款，有定期存款的客户相比没有定期存款的客户，流失可能性更低；对于未来3个月有理财产品到期的客户，存款到期时，客户面临是否要继续参与银行业务的选择，因此有流失意向的客户便会有意识地撤离；对于最近3个月月平均交易金额，随着交易金额的增加，客户流失会明显升高，因此银行应对频繁交易提高警惕，因为客户在流失之前，会有计划地撤离资金，造成更频繁交易。

未经筛选的客户特征众多，可以包括：客户基本信息、客户产品持有信息、客户购买行为信息、客户交易行为等。其中，客户基本信息包括：开户时长、成为银行客户的时间长度、居住地、性别、年龄、职业、婚姻状态等。客户产品持有信息包括：资产总额、存款季日均、存款余额、是否代发客户、是否本行理财客户、是否持有定期存款、是否持有定活两便、是否我行代扣客户、持有产品数量(包括存款产品数量、贷款产品数量)、本月理财到期笔数、是否开通网银、是否开通手机银行等。客户购买行为信息包括：累计购买定期次数、累计购买定期金额、累计贷款次数、累计贷款金额、累计购买理财次数、累计购买理财金额、最近3个月购买理财产品次数、最近3个月购买理财产品金额、最近3个月购买定期产品次数、最近3个月购买定期产品金额。客户交易行为包括：本月交易笔数、本月交易金额、最后一次交易金额、最近3个月交易笔数、最近第4个月至第6个月交易笔数、最近第7个月至第9个月交易笔数、最近第10个月至第12个月交易笔数、最近3个月月平均交易金额、最近第4个月至第6个月月平均交易金额、最近第7个月至第9个月月平均交易金额、最近第10个月至第12个月月平均交易金额、最后一次交易金额、最近3个月网上银行交易次数、最近3个月网上银行交易金额、最近3个月手机银行交易次数、最近3个月手机银行交易金额、最近3个月第三方交易次数、最近3个月第三方交易金额、最近6个月网上银行交易次数、最近6个月网上银行交易金额、最近6个月手机银行交易次数、最近6个月手机银行交易金额、最近6个月第三方交易次数、最近6个月第三方交易金额、最近一年网上银行交易次数、最近一年网上银行交易金额、最近一年手机银行交易次数、最近一年手机银行交易金额、最近一年第三方交易次数、最近一年第三方交易金额等。

未经筛选的客户特征众多，因此采用特征选择模型进行筛选，选出与客户流失可能性相关的重要客户特征，并去除冗余特征，以对训练样本集进行筛选。

进一步地，特征选择模型采用卡方检验、皮尔森相关系数法、极端树特征选择法和递归特征消除法中的至少之一筛选待处理的训练样本集中的客户特征。

其中，卡方检验是特征选择方法，计算自变量与目标变量间的卡方统计量，保留卡方值相对较大的变量。另外特征变量的值必须非负。例如，如果一个客户特征和流失相关性接近于0，则认为这个客户特征没有任何预测能力，不放入预测模型中。

皮尔森相关系数(Pearson Correlation Coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient)，是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。例如，如果两个客户特征相关性接近于1，可以认为这两个客户特征是同一个，只把其中一个客户特征放入预测模型。

极端树特征选择法是特征选择中的一类方法(embedded嵌入类方法)。该方法是基于训练好的机器学习模型，根据客户特征的重要性删选变量。

递归特征消除法(Recursive Feature Elimination)是一种特征选择方法，基于算法输出的变量系数或者特征重要性，删除重要性小的变量，之后再进行拟合，删除，如此重复。

优选地，可以采用卡方检验和皮尔森相关系数法对客户特征进行粗筛，对粗筛后的客户特征进一步采用极端树特征选择法和递归特征消除法进行筛选。

具体而言，可以先用卡方检验计算各客户特征与客户流失可能性间的相关性，筛选出相关性高的客户特征；再根据皮尔森相关系数计算客户特征之间的相关性，剔除那些与其它客户特征有强相关性的客户特征；之后又根据极端树特征选择法和递归特征消除法，对得到的各客户特征的重要性进行进一步筛选，确定出最终选择的客户特征。最终选择的客户特征的个数记为M个，M是正整数。例如：成为银行客户的时间长度、性别、年龄、资产总额、存款产品数量、本月理财到期笔数、本月交易金额、最近3个月购买定期产品次数、最近3个月月平均交易金额和最近3个月交易笔数。

由于本发明采用的客户流失预测模型均属于分类计算模型，而通常情况下，流失客户比非流失客户少很多，即样本数据不均衡，会导致流失客户不能有效地被分类计算模型识别，预测结果不精准，因此需要进行不均衡数据处理。

在本发明的一些优选实施例中，步骤11可包括：对待处理的训练样本集进行不均衡数据处理，得到处理后的训练样本集，处理后的训练样本集中流失客户和非流失客户的数量之差小于预设阈值。

具体而言，可采取过采样和改变判别特征标准(即改用Kappa系数作为判别特征的方法)来进行不均衡数据处理。即首先采用过采样的方法，例如，合成少数过采样技术(Synthetic Minority Oversampling Technique，简称SMOTE)对原始数据进行处理，使流失客户和非流失客户的数量之差小于预设阈值，也就是使流失客户与非流失客户比例接近1：1。进一步，还可以采用Kappa系数来评估预测模型，判别预测值与实际值间的一致程度，衡量模型的分类精度，验证不均衡数据处理的效果，即进行不均衡数据处理，提高了模型预测值与实际值间的一致程度。

在本发明的一些优选实施例中，为了进一步增加预测模型中所包括的客户特征的可解释性，便于后续处理，步骤17之后，还包括：

步骤18：获取客户流失预测模型输出的客户特征；

步骤19：将客户特征输入决策树模型中，显示基于客户特征的决策树图。

本步骤中，决策树模型是随机森林算法模型比较原始的一种进化状态，将客户特征输入决策树模型中，根据统计量(例如：基尼指数)选择出最能体现客户流失的客户特征，比如：客户大于50岁，流失可能性更大；客户近三个月交易额大于1万元，流失可能性更大，再绘制出决策树图，能更直观地解释选择出的最能体现客户流失的客户特征怎样导致客户流失。

在本发明的一些优选实施例中，步骤17之后，还包括：

步骤31：通过客户流失预测模型计算选择的客户特征的重要性信息；

步骤32：根据客户特征的重要性信息，调整特征选择模型采用的客户特征。

在一应用场景中，采用随机森林算法模型作为客户流失预测模型进行预测，训练的过程中，计算选定的M个客户特征的重要性信息，如图6所示。可以通过基尼不纯度(GiniImpurity)计算选择的各客户特征的重要性，然后对各客户特征的基尼不纯度从大到小进行排序，筛选出X个不纯度值最大的客户特征；或者，通过信息增益(Information Gain)计算出选择的各客户特征的重要性，然后对各客户特征的信息增益从大到小进行排序，筛选出X个信息增益值最大的字段。X为不大于M的正整数。进一步，可根据计算出的各客户特征的重要性，对选定的客户特征进行删选，使得预测结果更为精确。

在本发明的一些优选实施例中，步骤20中，利用客户流失预测模型计算的流失客户的数据可以包括：客户流失的概率、流失客户的名单和流失客户的数量。可以根据网点营销的力量进一步确定流失客户的数据，以利于网点根据自身营销的实际情况对客户进行挽留，提高挽留的效果。

例如：客户流失定义为利用AUC分数高于A1的模型计算出来的未来3个月流失概率高于P1的客户。阈值A1和P1可以基于经验和行业标准进行设定。若设定A1＝0.8，P1＝0.5，如果利用这两个阈值进行预测得到的流失客户数量过多，超出网点营销的力量，即对该网点来说，后续挽留工作量太大，可以只选择流失概率为前N名的客户，N为正整数，N基于网点营销的力量确定；也可以对设定的阈值进行调整，再次进行预测，例如将P1调整为0.7，使得预测的流失客户数量减少。

在本发明的一些优选实施例中，步骤20之后还包括：

步骤30：获取挽回客户的数据；

步骤40：根据挽回客户的数据，调整客户流失预测模型的参数。

也就是说，利用预测的流失客户数据对客户进行维护，实际的挽留过程中，获取到准确率更高的挽回客户的数据，如：有一些客户尽管被预测为流失，实际却不流失，将这些客户修正为不流失。可将修正后的客户数据输入至客户流失预测模型中，调整客户流失预测模型的参数。例如：客户流失预测模型为随机森林算法模型，将修正后的客户数据输入至随机森林算法模型中，调整以下参数中的至少一个：分类器个数(n_estimators)、最大变量数(max_features)、树节点最小样本数(min_samples_leaf)。当然，也可以多次修正客户数据，从而进行多次迭代，以调整客户流失预测模型的参数，获得预测效果更好的客户流失预测模型。调整客户流失预测模型的参数后，再进行预测，预测结果的准确率更高。

获取预测的流失客户的数据后，选取两个相似的网点，例如：两个柜员人数和自助设备数量均类似的银行网点。其中一个作为干预组，根据预测的流失客户的数据，对客户进行挽留，具体的说，根据客户流失概率，将不同流失概率的客户分为五档，例如，一档流失概率为80％-100％，二档为60％-80％，三档为40％-60％，四档为20％-40％，五档为0％-20％，将有限的网点营销力量着重于维护一档客户，可通过情感关怀、礼品赠送和优惠活动等多种方式。另一个为对照组，采用传统方法进行挽留。3个月后，对比两个网点的客户流失率，可以发现，使用本发明的方法后，干预组的客户流失率与去年同期相比下降。而对照组的客户流失率与去年同期基本持平或更高。这一结果表明使用本发明的方法，减少了客户的流失，提高了挽留的效果，优于传统方法。

在本发明的一些优选实施例中，步骤20之后还包括：

步骤300：获取挽回客户的数据；

步骤400：根据挽回客户的数据，调整所述客户流失定义的阈值。

也就是说，利用预测的流失客户数据对客户进行维护，实际的挽留过程中，获取到准确率更高的挽回客户的数据。可将修正后的客户数据输入至客户流失预测模型中，并调整客户流失定义的阈值。例如：客户流失定义为未来3个月流失概率高于P2的客户，阈值P2可以基于经验和行业标准进行设定。某网点在挽留客户之前预计自身最多挽留1万客户，若设定P2＝0.4，采用客户流失预测模型预测得到的流失客户数量为9500人，但该网点在挽留过程中发现，一些客户尽管被预测为流失，实际却不流失，将这些客户修正为不流失，修正后的流失客户数量为9000人，并未充分调动网点的营销力量，可将修正后的客户数据重新输入至客户流失预测模型中，并将客户流失定义的阈值P2调整为0.35，再次进行预测，预测得到的流失客户数量为10500人，使得预测的流失客户名单更为精确，更充分调动网点的营销力量，避免客户的流失。

在另一情况中，该网点在实际挽留过程中发现网点营销的力量比之前预计的要薄弱，可能最多只能挽留6000名客户，因此，将修正后的客户数据重新输入至客户流失预测模型中，并将客户流失定义的阈值P2调整为0.6，再次进行预测，使得预测的流失客户名单更为精确，且预测的流失客户数量减少。

当然，可以多次修正客户数据，并根据实际需求多次调整客户流失定义的阈值，从而进行多次迭代，获得更精确且更适合网点的预测的流失客户数据，以充分调动网点的营销力量，进一步减少客户的流失。

请参阅图7，图7为本发明实施例二的客户流失预测装置的结构示意图，该装置70包括：

获取模块71，用于获取待预测的客户数据；

计算模块72，用于将所述待预测的客户数据输入至客户流失预测模型中计算流失客户的数据，其中，所述客户流失预测模型是采用多个客户的历史客户数据训练得到。

优选地，请参阅图8，所述客户流失预测装置70还包括：

训练模块73，用于获取训练样本集，所述训练样本集为多个客户的历史客户数据的集合；获取至少两个待选的算法模型；针对每一所述待选的算法模型，根据设置的所述待选的算法模型的参数和输入的训练样本集，对所述待选的算法模型进行训练，得到流失客户的数据；比较得到的流失客户的数据和基于预定的客户流失定义的阈值确定的真实流失客户的数据，得到比较结果；当所述比较结果不满足预设条件时，调整所述待选的算法模型的参数，并重新根据调整的所述待选的算法模型的参数和输入的训练样本集对所述待选的算法模型进行训练，直至所述比较结果满足所述预设条件，得到训练完成的算法模型；

评估模块74，用于对训练完成的算法模型进行评估，得到评估结果；

选择模块75，用于比较所述至少两个训练完成的算法模型的评估结果，选择一训练完成的算法模型作为所述客户流失预测模型。

优选地，所述评估模块74，用于根据预设评估指标，对训练完成的算法模型进行评估，所述预设评估指标包括训练样本集预测准确率、测试样本集预测准确率、曲线下面积AUC分数、F分数和Kappa系数中的至少之一，所述测试样本集为多个客户的历史客户数据的集合，所述测试样本集中的客户数据与所述训练样本集中的客户数据不同。

所述评估模块74包括：数据子模块、计算子模块和比较子模块，

所述训练模块73，用于当所述待选的算法模型包括至少两个算法模型时，其中，所述至少两个算法模型中，一个算法模型作为第二层的算法模型，其余算法模型作为第一层的算法模型；将所述训练样本集输入至所述第一层的算法模型进行训练，得到中间过程数据；将所述中间过程数据输入至所述第二层的算法模型进行训练，得到流失客户的数据。

优选地，所述客户流失预测装置70还包括：

优选地，所述训练模块73包括第一处理子模块，用于对待处理的训练样本集进行数据预处理，得到数据预处理后的训练样本集。

优选地，所述训练模块73包括筛选子模块，用于采用特征选择模型筛选待处理的训练样本集中的客户特征，确定选择的客户特征，采用选择的客户特征筛选训练样本集。

优选地，所述客户流失预测装置70还包括：

优选地，所述训练模块73包括第二处理子模块，用于对待处理的训练样本集进行不均衡数据处理，得到处理后的训练样本集，处理后的训练样本集中流失客户和非流失客户的数量之差小于预设阈值。

优选地，所述客户流失预测装置70还包括：

需要说明的是，本实施例的客户流失预测装置与上述客户流失预测方法属于相同的发明构思，该装置中的各模块可分别执行上述客户流失预测方法实施例中对应的步骤，故在此不再赘述，详细请参阅以上对应客户流失预测方法步骤的说明。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述客户流失预测方法中的步骤。

综上所述，本发明能够准确对客户流失进行预测，找到有可能流失的客户，从而及时对客户进行挽留，节省客户挽留的成本，且提高挽留的效果，能够有效解决客户的流失问题。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种客户流失预测方法，其特征在于，包括：

获取待预测的客户数据；

2.根据权利要求1所述的客户流失预测方法，其特征在于，所述将所述待预测的客户数据输入至客户流失预测模型中计算流失客户的数据的步骤之前，还包括：

获取至少两个待选的算法模型；

对训练完成的算法模型进行评估，得到评估结果；

3.根据权利要求2所述的客户流失预测方法，其特征在于，所述待选的算法模型包括逻辑回归算法模型、Bagging算法模型、随机森林算法模型、AdaBoost算法模型、投票模型、堆栈模型和神经网络算法模型中的至少两个。

4.根据权利要求2所述的客户流失预测方法，其特征在于，所述对训练完成的算法模型进行评估，得到评估结果的步骤包括：

根据预设评估指标，对训练完成的算法模型进行评估，所述预设评估指标包括训练样本集预测准确率、测试样本集预测准确率、曲线下面积AUC分数、F分数和Kappa系数中的至少之一，所述测试样本集为多个客户的历史客户数据的集合，所述测试样本集中的客户数据与所述训练样本集中的客户数据不同。

5.根据权利要求2所述的客户流失预测方法，其特征在于，所述获取训练样本集的步骤包括：

6.一种客户流失预测装置，其特征在于，包括：

获取模块，用于获取待预测的客户数据；

7.根据权利要求6所述的客户流失预测装置，其特征在于，还包括：

8.根据权利要求7所述的客户流失预测装置，其特征在于，所述待选的算法模型包括逻辑回归算法模型、Bagging算法模型、随机森林算法模型、AdaBoost算法模型、投票模型、堆栈模型和神经网络算法模型中的至少两个。

9.根据权利要求7所述的客户流失预测装置，其特征在于，

所述评估模块，用于根据预设评估指标，对训练完成的算法模型进行评估，所述预设评估指标包括训练样本集预测准确率、测试样本集预测准确率、曲线下面积AUC分数、F分数和Kappa系数中的至少之一，所述测试样本集为多个客户的历史客户数据的集合，所述测试样本集中的客户数据与所述训练样本集中的客户数据不同。

10.根据权利要求7所述的客户流失预测装置，其特征在于，所述训练模块包括：

筛选子模块，用于采用特征选择模型筛选待处理的训练样本集中的客户特征，确定选择的客户特征，采用选择的客户特征筛选训练样本集。