CN111242358A - 一种双层结构的企业情报流失预测方法 - Google Patents

一种双层结构的企业情报流失预测方法 Download PDF

Info

Publication number
CN111242358A
CN111242358A CN202010011877.6A CN202010011877A CN111242358A CN 111242358 A CN111242358 A CN 111242358A CN 202010011877 A CN202010011877 A CN 202010011877A CN 111242358 A CN111242358 A CN 111242358A
Authority
CN
China
Prior art keywords
prediction model
data set
training
layer
evaluation index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010011877.6A
Other languages
English (en)
Inventor
陈海峰
杨冬豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Cezhitong Technology Co Ltd
Original Assignee
Hangzhou Cezhitong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Cezhitong Technology Co Ltd filed Critical Hangzhou Cezhitong Technology Co Ltd
Priority to CN202010011877.6A priority Critical patent/CN111242358A/zh
Publication of CN111242358A publication Critical patent/CN111242358A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种双层结构的企业情报流失预测方法,包括***获取数据集,将数据集划分为训练集和测试集,之后利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。使用双层融合的方法以及相适应的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。

Description

一种双层结构的企业情报流失预测方法
技术领域
本发明涉及数据处理领域,尤其涉及一种双层结构的企业情报流失预测方法。
背景技术
时至今日,各类市场日益饱和且竞争激烈,属于行业巨头的市场份额越来越大,各行业企业家们以往关注的重点在于推出新颖的定制服务来吸引新客户,并将已经拥有的客户转换成忠诚客户。而研究表明发展一个新客户的成本远高于维护一个老客户的成本,所以预防老客户的流失是各企业家们必须重视的问题。
因此,客户流失预测技术对于企业挽留老客户和推出各种定制服务来说是十分重要的。比如电信企业,一个流失的客户如果不再使用运营商提供的服务,那么他就再也无法产生任何利润,这对于拥有千万级别数量客户的运营商而言,如果能降低百分之一的客户流失率,那将会带来可观的利润增长。及时并准确识别潜在的流失客户渐渐成为了各大行业巨头企业家们研究的重点。
在客户流失预测领域,机器学习的算法如强化学习算法的应用大幅提高了模型的准确率,但是单个算法在预测准确率上的提升还很有限,所以提升准确率和精确率是客户流失预测模型急需提高的地方。本发明采用双层融合结构以及相适用的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
发明内容
本发明提供的一种双层结构的企业情报流失预测方法,旨在解决现有技术中存在准确率和精确率低的问题。
为实现上述目的,本发明采用以下技术方案:
本发明的一种双层结构的企业情报流失预测方法,包括以下步骤:
获取数据集,将数据集划分为训练集和测试集;
利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
将所述分类预测模型的评价指标与对比对象进行结果分析比较。
获取数据集,将数据集划分为训练集和测试集,之后利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。使用双层融合的方法以及相适应的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
作为优选,所述利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,包括:
搭建分类预测模型双层结构,第一层通过相应算法对训练集进行训练,得到第一层数据集;
第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中AdaBoost算法中强分类器的计算公式如下所示:
Figure BDA0002357430360000021
其中x是输入向量,F(x)是强分类器,ft(x)是弱分类器,αt是弱分类器的权重值,是一个正数,T为弱分类器的数量。弱分类器的输出值为+1或-1,分别对应于正样本和负样本。
作为优选,所述将所述分类预测模型的评价指标与对比对象进行结果分析比较,包括:
计算对比对象的评价指标;
将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比,并进行结果分析比较。
作为优选,所述获取数据集,将数据集划分为训练集和测试集,经过训练、验证和测试方法,输出相对应的评估集和测试集。
一种双层结构的企业情报流失预测装置,包括:
获取模块,获取数据集,将数据集划分为训练集和测试集;
计算模块,利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
分析模块,将所述分类预测模型的评价指标与对比对象进行结果分析比较。
作为优选,所述计算模块包括:
第一层训练单元,搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
第二层训练单元,第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中AdaBoost算法中强分类器的计算公式如下所示:
Figure BDA0002357430360000031
其中x是输入向量,F(x)是强分类器,ft(x)是弱分类器,αt是弱分类器的权重值,是一个正数,T为弱分类器的数量。弱分类器的输出值为+1或-1,分别对应于正样本和负样本。
作为优选,所述分析模块包括:
计算单元,计算对比对象的评价指标;
比较单元,将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比,并进行结果分析比较。
作为优选,所述获取模块包括:
划分单元,获取数据集,将数据集划分为训练集和测试集;
输出单元,所述数据集经过训练、验证和测试方法,输出相对应的评估集和测试集。
一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种双层结构的企业情报流失预测方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述中任一项所述的一种双层结构的企业情报流失预测方法。
本发明具有如下有益效果:
***获取数据集,将数据集划分为训练集和测试集,之后利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。使用双层融合的方法以及相适应的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
附图说明
图1是本发明实施例实现一种双层结构的企业情报流失预测方法第一流程图;
图2是本发明实施例实现一种双层结构的企业情报流失预测方法第二流程图;
图3是本发明实施例实现一种双层结构的企业情报流失预测方法第三流程图;
图4是本发明实施例实现一种双层结构的企业情报流失预测方法具体实施流程图;
图5是本发明实施例实现一种双层结构的企业情报流失预测装置示意图;
图6是本发明实施例实现一种双层结构的企业情报流失预测装置的计算模块示意图;
图7是本发明实施例实现一种双层结构的企业情报流失预测装置的分析模块示意图;
图8是本发明实施例实现一种双层结构的企业情报流失预测装置的获取模块示意图;
图9是本发明实施例实现一种双层结构的企业情报流失预测装置的具体实施流程图;
图10是本发明实施例实现一种双层结构的企业情报流失预测方法的一种电子设备示意图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在介绍本发明技术方案之前,示例性的介绍一种本发明技术方案可能适用的场景。
示例性的:客户流失预测模型中训练集进行训练是客户流失预测模型中的一个工序。对训练集进行相应的计算处理获得模型分类预测模型的评价指标,以利于后续的分析对比。
客户流失预测模型中的训练单元是必不可少,示例性的,训练集经过训练单元输出相应数据进行分析对比,提高客户流失预测模型的准确率和精确率,完善客户流失预测模型。
示例性的,训练单元采用不同的算法会对客户流失预测模型的准确率和精确率产生一定的影响,为了提高客户流失预测模型的准确率和精确率,可能的,采用双层融合模型以及XGBoost、LightGBM、AdaBoost和加权投票算法进行处理。
显而易见的,现有技术中,客户流失预测模型采用随机森林算法,由此造成的在一些噪音较大的分类或回归问题上会过拟合,导致客户流失预测模型的准确率和精确率偏低,影响预测结果。
使用XGBoost、LightGBM、AdaBoost和加权投票算法和双层融合模型进行处理可以提高客户流失预测模型的准确率和精确率,进一步完善客户流失预测模型。
实施例1
如图1所示,一种双层结构的企业情报流失预测方法,包括以下步骤:
S110、获取数据集,将数据集划分为训练集和测试集;
S120、利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
S130、将所述分类预测模型的评价指标与对比对象进行结果分析比较。
根据实施例1可知,***获取数据集,将数据集划分为训练集和测试集,之后利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。此方法可以提高客户流失预测模型的准确率和精确率,进一步完善客户流失预测模型。
实施例2
如图2所示,一种双层结构的企业情报流失预测方法,包括:
S210、获取数据集,将数据集划分为训练集和测试集;
S220、搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
S230、第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中AdaBoost算法中强分类器的计算公式如下所示:
Figure BDA0002357430360000071
其中x是输入向量,F(x)是强分类器,ft(x)是弱分类器,αt是弱分类器的权重值,是一个正数,T为弱分类器的数量。弱分类器的输出值为+1或-1,分别对应于正样本和负样本。
根据实施例2可知,搭建分类预测模型双层结构,训练集依次经过第一层和第二层,第一层通过相应算法对训练集进行训练得到第二训练集,同时测试集进行预测得到第二测试集,第一层数据集包括第二训练集和第二测试集,其中XGBoost算法的预测模型可以的计算公式如下所示:
Figure BDA0002357430360000072
其中K为树的总个数,fk表示第k颗树,
Figure BDA0002357430360000074
表示样本xi的预测结果。
第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中AdaBoost算法中强分类器的计算公式如下所示:
Figure BDA0002357430360000073
其中x是输入向量,F(x)是强分类器,ft(x)是弱分类器,αt是弱分类器的权重值,是一个正数,T为弱分类器的数量。弱分类器的输出值为+1或-1,分别对应于正样本和负样本。
分类预测模型的评价指标包括准确率、精准率、召回率和F1值这四个指标。使用双层融合的方法以及相适应的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
实施例3
如图3所示,一种双层结构的企业情报流失预测方法,包括:
S310、获取数据集,将数据集划分为训练集和测试集;
S320、利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
S330、计算对比对象的评价指标;
S340、将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比,并进行结果分析比较;
实施例3中所提到的计算对比对象的评价指标,仅仅为示例性的,不是对计算对比对象的评价指标的限定。计算MLP、融合自编码器的MLP、融合实体嵌入的MLP、KNN、LogisticRegression和Bagging对比对象的评价指标,与分类预测模型的评价指标进行对比。客户流失预测模型的准确率和精确率提高,并且客户流失预测模型能够在二分类预测比如信用评估、灾难预测等运用中有不错发挥。
实施例4
如图4所示,一种具体的实施方式可为:
S410、获取数据集,将数据集划分为训练集和测试集;
将数据集划分为训练集和测试集(假设训练集为999条数据,测试集为210条数据),然后一级分类模型中的单个基础分类器1进行3折交叉验证,使用训练集中的666条作为喂养集,剩余333条作为验证集。
S420、搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
第一层Stacking层通过XGBoost、LightGBM和AdaBoost算法对数据集进行训练。每次验证使用666条数据训练出一个模型,再用训练出的模型对验证集进行验证得到333条数据,同时对测试集进行预测,得到210条数据。这样经过3次交叉检验,可以得到新特征也就是3*333条预测结果和3*210条测试数据集的预测结果。
接下来会将3*333条预测结果拼接成999行1列的矩阵,标记为训练数据集A1。而对于3*210行的测试数据集的预测结果进行加权平均,得到一个210行1列的矩阵,测试数据集B1。这是单个基础分类器在数据集上的预测结果,如果再集成两个基础分类器,比如基础分类器2、基础分类器3,那么最后会得到A1、A2、A3、B1、B2、B3一共六个矩阵。
最后将A1、A2、A3并列在一起成999行3列的矩阵作为第二训练数据集,B1、B2、B3合并在一起成210行3列的矩阵作为第二测试数据集,第一层数据集包括第二训练数据集和第二测试数据集,让次级分类模型基于第一层数据集再训练。
XGBoost算法的预测模型可以的计算公式如下所示:
Figure BDA0002357430360000091
其中K为树的总个数,fk表示第k颗树,
Figure BDA0002357430360000092
表示样本xi的预测结果。
LightGBM算法的主要技术如下所示:
Gradient-based One-Side Sampling(GOSS)技术是去掉了很大一部分梯度很小的数据,只使用剩下的去估计信息增益,避免低梯度长尾部分的影响。
Exclusive Feature Bundling(EFB)技术是指捆绑互斥的特征,以减少特征的数量。
histogram算法替换了传统的Pre-Sorted。基本思想是先把连续的浮点特征值离散化成k个整数,同时构造出一个宽度为k的直方图。最开始时将离散化后的值作为索引在直方图中累积统计量,当遍历完一次数据后,直方图累积了离散化需要的统计量,之后进行节点***时,可以根据直方图上的离散值,从这k个桶中找到最佳的划分点,从而能更快的找到最优的分割点,而且因为直方图算法无需像Pre-Sorted那样存储预排序的结果,而只是保存特征离散过得数值,所以使用直方图的方式可以减少对内存的消耗。
S430、第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标。
第二层Voting层搭建好后,对比实验了文章选取的3个基础分类器不同权重下的准确率,最终确定基础分类器权重设置为{{AdaBoost:1},{XGBoost:1},{LightGBM:2}。准确率较高的基础分类器可以具有较大的权重值。最终根据计算后概率最高的类确定样本的判定结果。Voting层通过加权投票算法对第一层数据集进行训练,得到分类预测模型的评价指标,分类预测模型的评价指标一般使用准确率,精准率,召回率和F1值这四个指标。
其中AdaBoost算法中强分类器的计算公式如下所示:
Figure BDA0002357430360000101
其中x是输入向量,F(x)是强分类器,ft(x)是弱分类器,αt是弱分类器的权重值,是一个正数,T为弱分类器的数量。弱分类器的输出值为+1或-1,分别对应于正样本和负样本。
S440、计算对比对象的评价指标;
利用公式:
Figure BDA0002357430360000111
Figure BDA0002357430360000112
Figure BDA0002357430360000113
Figure BDA0002357430360000114
其中accuracy为准确率,precision为精准率,recall为召回率,TP为正确划分为流失客户的样本数;TN为正确划分为非流失客户的样本数;FP为错误划分为流失客户的样本数;FN为错误划分为非流失客户的样本数。计算对比对象MLP、融合自编码器的MLP、融合实体嵌入的MLP、KNN、Logistic Regression和Bagging的评价指标。
S650、将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比,并进行结果分析比较;
本文模型在实验采用的公开数据集上有很好的表现。融合了基于树型模型的5种强模型,同时避免了维度灾难和数据稀疏问题,保证了特征之间的关联性,在可接受范围内的时间复杂度的提升下带来了准确率和精准率的巨大提升,与选取的其他客户流失预测模型相比准确率平均高出8.81%,并且与基于MLP改进后的两种模型相比都高出1.7%以上。而在精准率和召回率方面,本文模型虽然召回率表现一般,但是精准率提高了23%左右。综合对比下,本文提出的模型性能要优于对比实验中的各类模型。能够在二分类预测比如信用评估、灾难预测等运用中有不错发挥。
获取数据集,将数据集划分为训练集和测试集,之后利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。使用双层融合的方法以及相适应的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
实施例5
如图5所示,一种双层结构的企业情报流失预测装置,包括:
获取模块10,获取数据集,将数据集划分为训练集和测试集;
计算模块20,利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
分析模块30,将所述分类预测模型的评价指标与对比对象进行结果分析比较。
上述装置的一种实施方式可为:获取模块10获取数据集,将数据集划分为训练集和测试集,计算模块20利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,最后,分析模块30将所述分类预测模型的评价指标与对比对象进行结果分析比较。
实施例6
如图6所示,一种双层结构的企业情报流失预测装置的计算模块20包括:
第一层训练单元22,搭建分类预测模型双层结构,第一层通过相应算法对训练集进行训练,得到第一层训练数据集;
第二层训练单元24,第二层通过相应算法对训练数据集进行训练,得到分类预测模型的评价指标。
上述装置的计算模块20的一种实施方式可为:第一层训练单元22搭建分类预测模型双层结构,训练集依次经过第一层和第二层,第一层通过相应算法对训练集进行训练得到第二训练集,同时测试集进行预测得到第二测试集,第一层数据集包括第二训练集和第二测试集,其中XGBoost算法的预测模型可以的计算公式如下所示:
Figure BDA0002357430360000131
其中K为树的总个数,fk表示第k颗树,
Figure BDA0002357430360000133
表示样本xi的预测结果。
第二层训练单元24第二层通过相应算法对第一层数据集进行训练,其中AdaBoost算法中强分类器的计算公式如下所示:
Figure BDA0002357430360000132
其中x是输入向量,F(x)是强分类器,ft(x)是弱分类器,αt是弱分类器的权重值,是一个正数,T为弱分类器的数量。弱分类器的输出值为+1或-1,分别对应于正样本和负样本。
得到分类预测模型的评价指标,分类预测模型的评价指标包括准确率、精准率、召回率和F1值这四个指标,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
实施例7
如图7所示,一种双层结构的企业情报流失预测装置的分析模块30包括:
计算单元32,计算对比对象的评价指标;
比较单元34,将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比,并进行结果分析比较。
上述装置的分析模块30的一种实施方式可为:计算单元32计算MLP、融合自编码器的MLP、融合实体嵌入的MLP、KNN、Logistic Regression和Bagging对比对象的评价指标,比较单元34将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比,并进行结果分析比较。
实施例8
如图8所示,一种双层结构的企业情报流失预测装置的获取模块10包括:
划分单元12,获取数据集,将数据集划分为训练集和测试集;
输出单元14,所述数据集经过训练、验证和测试方法,输出相对应的评估集和测试集。
上述装置的获取模块10的一种实施方式可为:,由识别单元12获取数据集,将数据集划分为训练集和测试集,然后选择单元14所述数据集经过训练、验证和测试方法,输出相对应的评估集和测试集。
实施例9
如图9所示,一种具体的实施装置可为:
S910、获取数据集,将数据集划分为训练集和测试集;
将数据集划分为训练集和测试集(假设训练集为999条数据,测试集为210条数据),然后一级分类模型中的单个基础分类器1进行3折交叉验证,使用训练集中的666条作为喂养集,剩余333条作为验证集。
S920、搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
第一层Stacking层通过XGBoost、LightGBM和AdaBoost算法对数据集进行训练。每次验证使用666条数据训练出一个模型,再用训练出的模型对验证集进行验证得到333条数据,同时对测试集进行预测,得到210条数据。这样经过3次交叉检验,可以得到新特征也就是3*333条预测结果和3*210条测试数据集的预测结果。
接下来会将3*333条预测结果拼接成999行1列的矩阵,标记为训练数据集A1。而对于3*210行的测试数据集的预测结果进行加权平均,得到一个210行1列的矩阵,测试数据集B1。这是单个基础分类器在数据集上的预测结果,如果再集成两个基础分类器,比如基础分类器2、基础分类器3,那么最后会得到A1、A2、A3、B1、B2、B3一共六个矩阵。
最后将A1、A2、A3并列在一起成999行3列的矩阵作为第二训练数据集,B1、B2、B3合并在一起成210行3列的矩阵作为第二测试数据集,第一层数据集包括第二训练数据集和第二测试数据集,让次级分类模型基于第一层数据集再训练。
XGBoost算法的预测模型可以的计算公式如下所示:
Figure BDA0002357430360000151
其中K为树的总个数,fk表示第k颗树,
Figure BDA0002357430360000152
表示样本xi的预测结果。
LightGBM算法的主要技术如下所示:
Gradient-based One-Side Sampling(GOSS)技术是去掉了很大一部分梯度很小的数据,只使用剩下的去估计信息增益,避免低梯度长尾部分的影响。
Exclusive Feature Bundling(EFB)技术是指捆绑互斥的特征,以减少特征的数量。
histogram算法替换了传统的Pre-Sorted。基本思想是先把连续的浮点特征值离散化成k个整数,同时构造出一个宽度为k的直方图。最开始时将离散化后的值作为索引在直方图中累积统计量,当遍历完一次数据后,直方图累积了离散化需要的统计量,之后进行节点***时,可以根据直方图上的离散值,从这k个桶中找到最佳的划分点,从而能更快的找到最优的分割点,而且因为直方图算法无需像Pre-Sorted那样存储预排序的结果,而只是保存特征离散过得数值,所以使用直方图的方式可以减少对内存的消耗。
S930、第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标。
第二层Voting层搭建好后,对比实验了文章选取的3个基础分类器不同权重下的准确率,最终确定基础分类器权重设置为{{AdaBoost:1},{XGBoost:1},{LightGBM:2}。准确率较高的基础分类器可以具有较大的权重值。最终根据计算后概率最高的类确定样本的判定结果。Voting层通过加权投票算法对第一层数据集进行训练,得到分类预测模型的评价指标,分类预测模型的评价指标一般使用准确率,精准率,召回率和F1值这四个指标。
其中AdaBoost算法中强分类器的计算公式如下所示:
Figure BDA0002357430360000161
其中x是输入向量,F(x)是强分类器,ft(x)是弱分类器,αt是弱分类器的权重值,是一个正数,T为弱分类器的数量。弱分类器的输出值为+1或-1,分别对应于正样本和负样本。
S940、计算对比对象的评价指标;
利用公式:
Figure BDA0002357430360000162
Figure BDA0002357430360000163
Figure BDA0002357430360000164
Figure BDA0002357430360000165
其中accuracy为准确率,precision为精准率,recall为召回率,TP为正确划分为流失客户的样本数;TN为正确划分为非流失客户的样本数;FP为错误划分为流失客户的样本数;FN为错误划分为非流失客户的样本数。计算对比对象MLP、融合自编码器的MLP、融合实体嵌入的MLP、KNN、Logistic Regression和Bagging的评价指标。
S950、将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比,并进行结果分析比较;
本文模型在实验采用的公开数据集上有很好的表现。融合了基于树型模型的5种强模型,同时避免了维度灾难和数据稀疏问题,保证了特征之间的关联性,在可接受范围内的时间复杂度的提升下带来了准确率和精准率的巨大提升,与选取的其他客户流失预测模型相比准确率平均高出8.81%,并且与基于MLP改进后的两种模型相比都高出1.7%以上。而在精准率和召回率方面,本文模型虽然召回率表现一般,但是精准率提高了23%左右。综合对比下,本文提出的模型性能要优于对比实验中的各类模型。能够在二分类预测比如信用评估、灾难预测等运用中有不错发挥。
获取数据集,将数据集划分为训练集和测试集,之后利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,最后将所述分类预测模型的评价指标与对比对象进行结果分析比较。使用双层融合的方法以及相适应的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
实施例10
如图10所示,一种电子设备,包括存储器1001和处理器1002,所述存储器1001用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1002执行以实现上述的一种双层结构的企业情报流失预测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述的一种双层结构的企业情报流失预测方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器1001中,并由处理器1002执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,存储器1001、处理器1002。本领域技术人员可以理解,本实施例仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
处理器1002可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器1002、数字信号处理器1002(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器1002可以是微处理器1002或者该处理器1002也可以是任何常规的处理器1002等。
存储器1001可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器1001也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。进一步地,存储器1001还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器1001用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器1001还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的具体实施例,但本发明的技术特征并不局限于此,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims (10)

1.一种双层结构的企业情报流失预测方法,其特征在于,包括以下步骤:
获取数据集,将数据集划分为训练集和测试集;
利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
将所述分类预测模型的评价指标与对比对象进行结果分析比较。
2.根据权利要求1所述的一种双层结构的企业情报流失预测方法,其特征在于,所述利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,包括:
搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中AdaBoost算法中强分类器的计算公式如下所示:
Figure FDA0002357430350000011
其中x是输入向量,F(x)是强分类器,ft(x)是弱分类器,αt是弱分类器的权重值,是一个正数,T为弱分类器的数量。弱分类器的输出值为+1或-1,分别对应于正样本和负样本。
3.根据权利要求2所述的一种双层结构的企业情报流失预测方法,其特征在于,所述将所述分类预测模型的评价指标与对比对象进行结果分析比较,包括:
计算对比对象的评价指标;
将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比,并进行结果分析比较。
4.根据权利要求3所述的一种双层结构的企业情报流失预测方法,其特征在于,所述获取数据集,将数据集划分为训练集和测试集,经过训练、验证和测试方法,输出相对应的评估集和测试集。
5.一种双层结构的企业情报流失预测装置,其特征在于,包括:
获取模块,获取数据集,将数据集划分为训练集和测试集;
计算模块,利用XGBoost、LightGBM、AdaBoost和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
分析模块,将所述分类预测模型的评价指标与对比对象进行结果分析比较。
6.根据权利要求5所述的一种双层结构的企业情报流失预测装置,其特征在于,所述计算模块包括:
第一层训练单元,搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
第二层训练单元,第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中AdaBoost算法中强分类器的计算公式如下所示:
Figure FDA0002357430350000021
其中x是输入向量,F(x)是强分类器,ft(x)是弱分类器,αt是弱分类器的权重值,是一个正数,T为弱分类器的数量。弱分类器的输出值为+1或-1,分别对应于正样本和负样本。
7.根据权利要求6所述的一种双层结构的企业情报流失预测装置,其特征在于,所述分析模块包括:
计算单元,计算对比对象的评价指标;
比较单元,将所述分类预测模型的评价指标与所述对比对象的评价指标进行对比,并进行结果分析比较。
8.根据权利要求7所述的一种双层结构的企业情报流失预测装置,其特征在于,所述获取模块包括:
划分单元,获取数据集,将数据集划分为训练集和测试集;
输出单元,所述数据集经过训练、验证和测试方法,输出相对应的评估集和测试集。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1~4中任一项所述的一种双层结构的企业情报流失预测方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现如权利要求1~4中任一项所述的一种双层结构的企业情报流失预测方法。
CN202010011877.6A 2020-01-07 2020-01-07 一种双层结构的企业情报流失预测方法 Pending CN111242358A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010011877.6A CN111242358A (zh) 2020-01-07 2020-01-07 一种双层结构的企业情报流失预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010011877.6A CN111242358A (zh) 2020-01-07 2020-01-07 一种双层结构的企业情报流失预测方法

Publications (1)

Publication Number Publication Date
CN111242358A true CN111242358A (zh) 2020-06-05

Family

ID=70876036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010011877.6A Pending CN111242358A (zh) 2020-01-07 2020-01-07 一种双层结构的企业情报流失预测方法

Country Status (1)

Country Link
CN (1) CN111242358A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796343A (zh) * 2020-06-15 2020-10-20 兰州中心气象台(兰州干旱生态环境监测预测中心) 一种基于人工智能算法的强对流天气短时临近识别方法
CN111931648A (zh) * 2020-08-10 2020-11-13 成都思晗科技股份有限公司 一种基于Himawari8波段数据的山火实时监测方法
CN112070535A (zh) * 2020-09-03 2020-12-11 常州微亿智造科技有限公司 电动汽车价格预测方法和装置
CN112153636A (zh) * 2020-10-29 2020-12-29 浙江鸿程计算机***有限公司 一种基于机器学习预测电信业用户携号转出的方法
CN112199417A (zh) * 2020-09-30 2021-01-08 中国平安人寿保险股份有限公司 基于人工智能的数据处理方法、装置、终端及存储介质
CN112330050A (zh) * 2020-11-20 2021-02-05 国网辽宁省电力有限公司营口供电公司 一种基于双层XGBoost考虑多特征的电力***负荷预测方法
CN113674087A (zh) * 2021-08-19 2021-11-19 工银科技有限公司 企业信用等级评定方法、装置、电子设备和介质
CN113827979A (zh) * 2021-08-17 2021-12-24 杭州电魂网络科技股份有限公司 基于LightGBM的游戏流失用户预测方法和***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN108876034A (zh) * 2018-06-13 2018-11-23 重庆邮电大学 一种改进的Lasso+RBF神经网络组合预测模型
CN109389143A (zh) * 2018-06-19 2019-02-26 北京九章云极科技有限公司 一种数据分析处理***及自动建模方法
CN109544197A (zh) * 2017-09-22 2019-03-29 中兴通讯股份有限公司 一种用户流失预测方法和装置
CN109934341A (zh) * 2017-11-13 2019-06-25 埃森哲环球解决方案有限公司 训练、验证以及监测人工智能和机器学习的模型
CN110147803A (zh) * 2018-02-08 2019-08-20 北大方正集团有限公司 用户流失预警处理方法与装置
CN110322085A (zh) * 2018-03-29 2019-10-11 北京九章云极科技有限公司 一种客户流失预测方法和装置
CN110472817A (zh) * 2019-07-03 2019-11-19 西北大学 一种结合深度神经网络的XGBoost集成信用评价***及其方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544197A (zh) * 2017-09-22 2019-03-29 中兴通讯股份有限公司 一种用户流失预测方法和装置
CN109934341A (zh) * 2017-11-13 2019-06-25 埃森哲环球解决方案有限公司 训练、验证以及监测人工智能和机器学习的模型
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN110147803A (zh) * 2018-02-08 2019-08-20 北大方正集团有限公司 用户流失预警处理方法与装置
CN110322085A (zh) * 2018-03-29 2019-10-11 北京九章云极科技有限公司 一种客户流失预测方法和装置
CN108876034A (zh) * 2018-06-13 2018-11-23 重庆邮电大学 一种改进的Lasso+RBF神经网络组合预测模型
CN109389143A (zh) * 2018-06-19 2019-02-26 北京九章云极科技有限公司 一种数据分析处理***及自动建模方法
CN110472817A (zh) * 2019-07-03 2019-11-19 西北大学 一种结合深度神经网络的XGBoost集成信用评价***及其方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796343A (zh) * 2020-06-15 2020-10-20 兰州中心气象台(兰州干旱生态环境监测预测中心) 一种基于人工智能算法的强对流天气短时临近识别方法
CN111931648A (zh) * 2020-08-10 2020-11-13 成都思晗科技股份有限公司 一种基于Himawari8波段数据的山火实时监测方法
CN111931648B (zh) * 2020-08-10 2023-08-01 成都思晗科技股份有限公司 一种基于Himawari8波段数据的山火实时监测方法
CN112070535A (zh) * 2020-09-03 2020-12-11 常州微亿智造科技有限公司 电动汽车价格预测方法和装置
CN112199417A (zh) * 2020-09-30 2021-01-08 中国平安人寿保险股份有限公司 基于人工智能的数据处理方法、装置、终端及存储介质
CN112153636A (zh) * 2020-10-29 2020-12-29 浙江鸿程计算机***有限公司 一种基于机器学习预测电信业用户携号转出的方法
CN112330050A (zh) * 2020-11-20 2021-02-05 国网辽宁省电力有限公司营口供电公司 一种基于双层XGBoost考虑多特征的电力***负荷预测方法
CN113827979A (zh) * 2021-08-17 2021-12-24 杭州电魂网络科技股份有限公司 基于LightGBM的游戏流失用户预测方法和***
CN113674087A (zh) * 2021-08-19 2021-11-19 工银科技有限公司 企业信用等级评定方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN111242358A (zh) 一种双层结构的企业情报流失预测方法
CN112100387B (zh) 用于文本分类的神经网络***的训练方法及装置
WO2017133188A1 (zh) 一种特征集确定的方法及装置
US9218531B2 (en) Image identification apparatus, image identification method, and non-transitory computer readable medium
CN112633419A (zh) 小样本学习方法、装置、电子设备和存储介质
CN113177700B (zh) 一种风险评估方法、***、电子设备及存储介质
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN113435499A (zh) 标签分类方法、装置、电子设备和存储介质
CN112434884A (zh) 一种供应商分类画像的建立方法及装置
CN117523218A (zh) 标签生成、图像分类模型的训练、图像分类方法及装置
Zhang et al. Feature relevance term variation for multi-label feature selection
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN112560463B (zh) 文本多标注方法、装置、设备及存储介质
US20200342287A1 (en) Selective performance of deterministic computations for neural networks
CN112632000B (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN111784246A (zh) 物流路径的估测方法
CN114254588B (zh) 数据标签处理方法和装置
CN113609948B (zh) 一种视频时序动作的检测方法、装置及设备
CN111242449A (zh) 一种企业情报流失预测方法
CN115345248A (zh) 一种面向深度学习的数据去偏方法及装置
CN114091458A (zh) 基于模型融合的实体识别方法和***
CN113656354A (zh) 日志分类方法、***、计算机设备和可读存储介质
CN115393914A (zh) 多任务模型训练方法、装置、设备及存储介质
CN116894209B (zh) 采样点的分类方法、装置、电子设备及可读存储介质
CN116383390B (zh) 一种用于经营管理信息的非结构化数据存储方法及云平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200605