CN111242358A

CN111242358A - 一种双层结构的企业情报流失预测方法

Info

Publication number: CN111242358A
Application number: CN202010011877.6A
Authority: CN
Inventors: 陈海峰; 杨冬豪
Original assignee: Hangzhou Cezhitong Technology Co Ltd
Current assignee: Hangzhou Cezhitong Technology Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-06-05

Abstract

本发明公开了一种双层结构的企业情报流失预测方法，包括***获取数据集，将数据集划分为训练集和测试集，之后利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。使用双层融合的方法以及相适应的算法，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

Description

一种双层结构的企业情报流失预测方法

技术领域

本发明涉及数据处理领域，尤其涉及一种双层结构的企业情报流失预测方法。

背景技术

时至今日，各类市场日益饱和且竞争激烈，属于行业巨头的市场份额越来越大，各行业企业家们以往关注的重点在于推出新颖的定制服务来吸引新客户，并将已经拥有的客户转换成忠诚客户。而研究表明发展一个新客户的成本远高于维护一个老客户的成本，所以预防老客户的流失是各企业家们必须重视的问题。

因此，客户流失预测技术对于企业挽留老客户和推出各种定制服务来说是十分重要的。比如电信企业，一个流失的客户如果不再使用运营商提供的服务，那么他就再也无法产生任何利润，这对于拥有千万级别数量客户的运营商而言，如果能降低百分之一的客户流失率，那将会带来可观的利润增长。及时并准确识别潜在的流失客户渐渐成为了各大行业巨头企业家们研究的重点。

在客户流失预测领域，机器学习的算法如强化学习算法的应用大幅提高了模型的准确率，但是单个算法在预测准确率上的提升还很有限，所以提升准确率和精确率是客户流失预测模型急需提高的地方。本发明采用双层融合结构以及相适用的算法，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

发明内容

本发明提供的一种双层结构的企业情报流失预测方法，旨在解决现有技术中存在准确率和精确率低的问题。

为实现上述目的，本发明采用以下技术方案：

本发明的一种双层结构的企业情报流失预测方法，包括以下步骤：

获取数据集，将数据集划分为训练集和测试集；

利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标；

将所述分类预测模型的评价指标与对比对象进行结果分析比较。

获取数据集，将数据集划分为训练集和测试集，之后利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。使用双层融合的方法以及相适应的算法，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

作为优选，所述利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，包括：

搭建分类预测模型双层结构，第一层通过相应算法对训练集进行训练，得到第一层数据集；

第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标，其中AdaBoost算法中强分类器的计算公式如下所示：

其中x是输入向量，F(x)是强分类器，f_t(x)是弱分类器，α_t是弱分类器的权重值，是一个正数，T为弱分类器的数量。弱分类器的输出值为+1或-1，分别对应于正样本和负样本。

作为优选，所述将所述分类预测模型的评价指标与对比对象进行结果分析比较，包括：

计算对比对象的评价指标；

将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比，并进行结果分析比较。

作为优选，所述获取数据集，将数据集划分为训练集和测试集，经过训练、验证和测试方法，输出相对应的评估集和测试集。

一种双层结构的企业情报流失预测装置，包括：

获取模块，获取数据集，将数据集划分为训练集和测试集；

计算模块，利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标；

分析模块，将所述分类预测模型的评价指标与对比对象进行结果分析比较。

作为优选，所述计算模块包括：

第一层训练单元，搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，得到第一层数据集；

第二层训练单元，第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标，其中AdaBoost算法中强分类器的计算公式如下所示：

作为优选，所述分析模块包括：

计算单元，计算对比对象的评价指标；

比较单元，将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比，并进行结果分析比较。

作为优选，所述获取模块包括：

划分单元，获取数据集，将数据集划分为训练集和测试集；

输出单元，所述数据集经过训练、验证和测试方法，输出相对应的评估集和测试集。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种双层结构的企业情报流失预测方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述中任一项所述的一种双层结构的企业情报流失预测方法。

本发明具有如下有益效果：

***获取数据集，将数据集划分为训练集和测试集，之后利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。使用双层融合的方法以及相适应的算法，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

附图说明

图1是本发明实施例实现一种双层结构的企业情报流失预测方法第一流程图；

图2是本发明实施例实现一种双层结构的企业情报流失预测方法第二流程图；

图3是本发明实施例实现一种双层结构的企业情报流失预测方法第三流程图；

图4是本发明实施例实现一种双层结构的企业情报流失预测方法具体实施流程图；

图5是本发明实施例实现一种双层结构的企业情报流失预测装置示意图；

图6是本发明实施例实现一种双层结构的企业情报流失预测装置的计算模块示意图；

图7是本发明实施例实现一种双层结构的企业情报流失预测装置的分析模块示意图；

图8是本发明实施例实现一种双层结构的企业情报流失预测装置的获取模块示意图；

图9是本发明实施例实现一种双层结构的企业情报流失预测装置的具体实施流程图；

图10是本发明实施例实现一种双层结构的企业情报流失预测方法的一种电子设备示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在介绍本发明技术方案之前，示例性的介绍一种本发明技术方案可能适用的场景。

示例性的：客户流失预测模型中训练集进行训练是客户流失预测模型中的一个工序。对训练集进行相应的计算处理获得模型分类预测模型的评价指标，以利于后续的分析对比。

客户流失预测模型中的训练单元是必不可少，示例性的，训练集经过训练单元输出相应数据进行分析对比，提高客户流失预测模型的准确率和精确率，完善客户流失预测模型。

示例性的，训练单元采用不同的算法会对客户流失预测模型的准确率和精确率产生一定的影响，为了提高客户流失预测模型的准确率和精确率，可能的，采用双层融合模型以及XGBoost、LightGBM、AdaBoost和加权投票算法进行处理。

显而易见的，现有技术中，客户流失预测模型采用随机森林算法，由此造成的在一些噪音较大的分类或回归问题上会过拟合，导致客户流失预测模型的准确率和精确率偏低，影响预测结果。

使用XGBoost、LightGBM、AdaBoost和加权投票算法和双层融合模型进行处理可以提高客户流失预测模型的准确率和精确率，进一步完善客户流失预测模型。

实施例1

如图1所示，一种双层结构的企业情报流失预测方法，包括以下步骤：

S110、获取数据集，将数据集划分为训练集和测试集；

S120、利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标；

S130、将所述分类预测模型的评价指标与对比对象进行结果分析比较。

根据实施例1可知，***获取数据集，将数据集划分为训练集和测试集，之后利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。此方法可以提高客户流失预测模型的准确率和精确率，进一步完善客户流失预测模型。

实施例2

如图2所示，一种双层结构的企业情报流失预测方法，包括：

S210、获取数据集，将数据集划分为训练集和测试集；

S220、搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，得到第一层数据集；

S230、第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标，其中AdaBoost算法中强分类器的计算公式如下所示：

根据实施例2可知，搭建分类预测模型双层结构，训练集依次经过第一层和第二层，第一层通过相应算法对训练集进行训练得到第二训练集，同时测试集进行预测得到第二测试集，第一层数据集包括第二训练集和第二测试集，其中XGBoost算法的预测模型可以的计算公式如下所示：

其中K为树的总个数，f_k表示第k颗树，

表示样本x_i的预测结果。

分类预测模型的评价指标包括准确率、精准率、召回率和F1值这四个指标。使用双层融合的方法以及相适应的算法，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

实施例3

如图3所示，一种双层结构的企业情报流失预测方法，包括：

S310、获取数据集，将数据集划分为训练集和测试集；

S320、利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标；

S330、计算对比对象的评价指标；

S340、将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比，并进行结果分析比较；

实施例3中所提到的计算对比对象的评价指标，仅仅为示例性的，不是对计算对比对象的评价指标的限定。计算MLP、融合自编码器的MLP、融合实体嵌入的MLP、KNN、LogisticRegression和Bagging对比对象的评价指标，与分类预测模型的评价指标进行对比。客户流失预测模型的准确率和精确率提高，并且客户流失预测模型能够在二分类预测比如信用评估、灾难预测等运用中有不错发挥。

实施例4

如图4所示，一种具体的实施方式可为：

S410、获取数据集，将数据集划分为训练集和测试集；

将数据集划分为训练集和测试集(假设训练集为999条数据，测试集为210条数据)，然后一级分类模型中的单个基础分类器1进行3折交叉验证，使用训练集中的666条作为喂养集，剩余333条作为验证集。

S420、搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，得到第一层数据集；

第一层Stacking层通过XGBoost、LightGBM和AdaBoost算法对数据集进行训练。每次验证使用666条数据训练出一个模型，再用训练出的模型对验证集进行验证得到333条数据，同时对测试集进行预测，得到210条数据。这样经过3次交叉检验，可以得到新特征也就是3*333条预测结果和3*210条测试数据集的预测结果。

接下来会将3*333条预测结果拼接成999行1列的矩阵，标记为训练数据集A1。而对于3*210行的测试数据集的预测结果进行加权平均，得到一个210行1列的矩阵，测试数据集B1。这是单个基础分类器在数据集上的预测结果，如果再集成两个基础分类器，比如基础分类器2、基础分类器3，那么最后会得到A1、A2、A3、B1、B2、B3一共六个矩阵。

最后将A1、A2、A3并列在一起成999行3列的矩阵作为第二训练数据集，B1、B2、B3合并在一起成210行3列的矩阵作为第二测试数据集，第一层数据集包括第二训练数据集和第二测试数据集，让次级分类模型基于第一层数据集再训练。

XGBoost算法的预测模型可以的计算公式如下所示：

其中K为树的总个数，f_k表示第k颗树，

表示样本x_i的预测结果。

LightGBM算法的主要技术如下所示：

Gradient-based One-Side Sampling(GOSS)技术是去掉了很大一部分梯度很小的数据，只使用剩下的去估计信息增益，避免低梯度长尾部分的影响。

Exclusive Feature Bundling(EFB)技术是指捆绑互斥的特征，以减少特征的数量。

histogram算法替换了传统的Pre-Sorted。基本思想是先把连续的浮点特征值离散化成k个整数，同时构造出一个宽度为k的直方图。最开始时将离散化后的值作为索引在直方图中累积统计量，当遍历完一次数据后，直方图累积了离散化需要的统计量，之后进行节点***时，可以根据直方图上的离散值，从这k个桶中找到最佳的划分点，从而能更快的找到最优的分割点，而且因为直方图算法无需像Pre-Sorted那样存储预排序的结果，而只是保存特征离散过得数值，所以使用直方图的方式可以减少对内存的消耗。

S430、第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标。

第二层Voting层搭建好后，对比实验了文章选取的3个基础分类器不同权重下的准确率，最终确定基础分类器权重设置为{{AdaBoost:1}，{XGBoost:1}，{LightGBM:2}。准确率较高的基础分类器可以具有较大的权重值。最终根据计算后概率最高的类确定样本的判定结果。Voting层通过加权投票算法对第一层数据集进行训练，得到分类预测模型的评价指标，分类预测模型的评价指标一般使用准确率，精准率，召回率和F1值这四个指标。

其中AdaBoost算法中强分类器的计算公式如下所示：

S440、计算对比对象的评价指标；

利用公式：

其中accuracy为准确率，precision为精准率，recall为召回率，TP为正确划分为流失客户的样本数；TN为正确划分为非流失客户的样本数；FP为错误划分为流失客户的样本数；FN为错误划分为非流失客户的样本数。计算对比对象MLP、融合自编码器的MLP、融合实体嵌入的MLP、KNN、Logistic Regression和Bagging的评价指标。

S650、将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比，并进行结果分析比较；

本文模型在实验采用的公开数据集上有很好的表现。融合了基于树型模型的5种强模型，同时避免了维度灾难和数据稀疏问题，保证了特征之间的关联性，在可接受范围内的时间复杂度的提升下带来了准确率和精准率的巨大提升，与选取的其他客户流失预测模型相比准确率平均高出8.81％，并且与基于MLP改进后的两种模型相比都高出1.7％以上。而在精准率和召回率方面，本文模型虽然召回率表现一般，但是精准率提高了23％左右。综合对比下，本文提出的模型性能要优于对比实验中的各类模型。能够在二分类预测比如信用评估、灾难预测等运用中有不错发挥。

实施例5

如图5所示，一种双层结构的企业情报流失预测装置，包括：

获取模块10，获取数据集，将数据集划分为训练集和测试集；

计算模块20，利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标；

分析模块30，将所述分类预测模型的评价指标与对比对象进行结果分析比较。

上述装置的一种实施方式可为：获取模块10获取数据集，将数据集划分为训练集和测试集，计算模块20利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，最后，分析模块30将所述分类预测模型的评价指标与对比对象进行结果分析比较。

实施例6

如图6所示，一种双层结构的企业情报流失预测装置的计算模块20包括：

第一层训练单元22，搭建分类预测模型双层结构，第一层通过相应算法对训练集进行训练，得到第一层训练数据集；

第二层训练单元24，第二层通过相应算法对训练数据集进行训练，得到分类预测模型的评价指标。

上述装置的计算模块20的一种实施方式可为：第一层训练单元22搭建分类预测模型双层结构，训练集依次经过第一层和第二层，第一层通过相应算法对训练集进行训练得到第二训练集，同时测试集进行预测得到第二测试集，第一层数据集包括第二训练集和第二测试集，其中XGBoost算法的预测模型可以的计算公式如下所示：

其中K为树的总个数，f_k表示第k颗树，

表示样本x_i的预测结果。

第二层训练单元24第二层通过相应算法对第一层数据集进行训练，其中AdaBoost算法中强分类器的计算公式如下所示：

得到分类预测模型的评价指标，分类预测模型的评价指标包括准确率、精准率、召回率和F1值这四个指标，提高客户流失预测模型的准确率和精确率，进一步的完善客户流失预测模型。

实施例7

如图7所示，一种双层结构的企业情报流失预测装置的分析模块30包括：

计算单元32，计算对比对象的评价指标；

比较单元34，将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比，并进行结果分析比较。

上述装置的分析模块30的一种实施方式可为：计算单元32计算MLP、融合自编码器的MLP、融合实体嵌入的MLP、KNN、Logistic Regression和Bagging对比对象的评价指标，比较单元34将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比，并进行结果分析比较。

实施例8

如图8所示，一种双层结构的企业情报流失预测装置的获取模块10包括：

划分单元12，获取数据集，将数据集划分为训练集和测试集；

输出单元14，所述数据集经过训练、验证和测试方法，输出相对应的评估集和测试集。

上述装置的获取模块10的一种实施方式可为：，由识别单元12获取数据集，将数据集划分为训练集和测试集，然后选择单元14所述数据集经过训练、验证和测试方法，输出相对应的评估集和测试集。

实施例9

如图9所示，一种具体的实施装置可为：

S910、获取数据集，将数据集划分为训练集和测试集；

S920、搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，得到第一层数据集；

XGBoost算法的预测模型可以的计算公式如下所示：

其中K为树的总个数，f_k表示第k颗树，

表示样本x_i的预测结果。

LightGBM算法的主要技术如下所示：

S930、第二层通过相应算法对第一层数据集进行训练，得到分类预测模型的评价指标。

其中AdaBoost算法中强分类器的计算公式如下所示：

S940、计算对比对象的评价指标；

利用公式：

S950、将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比，并进行结果分析比较；

实施例10

如图10所示，一种电子设备，包括存储器1001和处理器1002，所述存储器1001用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1002执行以实现上述的一种双层结构的企业情报流失预测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述的一种双层结构的企业情报流失预测方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器1001中，并由处理器1002执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，存储器1001、处理器1002。本领域技术人员可以理解，本实施例仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器1002可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器1002、数字信号处理器1002(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器1002可以是微处理器1002或者该处理器1002也可以是任何常规的处理器1002等。

存储器1001可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器1001也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器1001还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器1001用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器1001还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims

1.一种双层结构的企业情报流失预测方法，其特征在于，包括以下步骤：

获取数据集，将数据集划分为训练集和测试集；

2.根据权利要求1所述的一种双层结构的企业情报流失预测方法，其特征在于，所述利用XGBoost、LightGBM、AdaBoost和加权投票算法，将所述训练集进行双层训练，输出分类预测模型的评价指标，包括：

搭建分类预测模型双层结构，第一层通过相应算法对数据集进行训练，得到第一层数据集；

其中x是输入向量，F(x)是强分类器，ft(x)是弱分类器，αt是弱分类器的权重值，是一个正数，T为弱分类器的数量。弱分类器的输出值为+1或-1，分别对应于正样本和负样本。

3.根据权利要求2所述的一种双层结构的企业情报流失预测方法，其特征在于，所述将所述分类预测模型的评价指标与对比对象进行结果分析比较，包括：

计算对比对象的评价指标；

4.根据权利要求3所述的一种双层结构的企业情报流失预测方法，其特征在于，所述获取数据集，将数据集划分为训练集和测试集，经过训练、验证和测试方法，输出相对应的评估集和测试集。

5.一种双层结构的企业情报流失预测装置，其特征在于，包括：

获取模块，获取数据集，将数据集划分为训练集和测试集；

6.根据权利要求5所述的一种双层结构的企业情报流失预测装置，其特征在于，所述计算模块包括：

7.根据权利要求6所述的一种双层结构的企业情报流失预测装置，其特征在于，所述分析模块包括：

计算单元，计算对比对象的评价指标；

8.根据权利要求7所述的一种双层结构的企业情报流失预测装置，其特征在于，所述获取模块包括：

划分单元，获取数据集，将数据集划分为训练集和测试集；

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1～4中任一项所述的一种双层结构的企业情报流失预测方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现如权利要求1～4中任一项所述的一种双层结构的企业情报流失预测方法。