CN111178675A

CN111178675A - 基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备

Info

Publication number: CN111178675A
Application number: CN201911232092.5A
Authority: CN
Inventors: 姜磊; 杨钊; 杨军仓; 陈素琴; 成强; 赵军辉
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-05-19

Abstract

本发明为基于LR‑Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备，能够根据客户行为轨迹准确预测出欠费的违约概率，改变了事后欠费管理的被动局面，减少电力客户欠费风险。其方法包括：确立分析目标，抽取正负样本；收集指标，选取与用电客户欠费风险相关的指标，根据相关的指标衍生形成指标体系；指标预处理，筛选高预测力的指标进入模型；构造基于LR‑Bagging算法模型，根据随机选取样本的子集及步骤3所筛选的指标来训练LR‑Bagging算法模型，模型的终止迭代条件由AUC统计量的变化率决定；把训练后得到的多个逻辑回归模型作为基分类器，把多个基分类器的预测结果的加权平均作为最终的预测概率。

Description

基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备

技术领域

本发明涉及电力领域，具体涉及基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备。

背景技术

供电单位一直秉承“先用电后缴费”的市场规则，该规则建立在享有电能的使用后会在供电公司规定期限内为所消耗的电能付出货币代价的基础上。然而有的用户违背承诺拒缴或者延迟缴纳电费，从而影响到供电企业的资金回收；而无法及时回收电费将严重限制电网企业***，从而影响电力供应，造成恶性循环。欠费风险的有效防范和规避，对电力企业的有效运作起着至关重要的作用，电网在运行期间产生大量数据,可采用数据挖掘技术对其分析，并提取出有价值的信息。然而在指标体系的选取方面，仍需要结合实际业务进行改进。

现有的欠费风险预测模型，在分析了引起电力客户欠费原因的基础上，利用可获得的数据设计了欠费风险识别模型中的关键影响变量，并运用Logistic回归理论与方法建立了可识别电力客户欠费可能性大小的模型，根据可掌握的客户最新资料***出欠费的违约概率，从而改变事后欠费管理的被动局面，达到减少电力客户欠费风险的目的。但是该模型需找到客户群的欠费原因，而在实际工作中，客户欠费原因多样且难以找出所有能够影响客户欠费的原因，因此该模型在指标选取上具有一定的局限性。

发明内容

针对现有技术中存在的问题，本发明提供基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备，能够根据客户行为轨迹准确预测出欠费的违约概率，从而改变了事后欠费管理的被动局面，达到减少电力客户欠费风险的目的。

为实现上述目的，本发明采用的技术方案如下：基于LR-Bagging算法的电费回收风险预测方法，包括以下步骤：

步骤1、确立分析目标，按比例抽取恰当的正负样本；

步骤2、收集指标，分析用电客户的基本信息、历史缴费数据、用电行为数据，选取与用电客户欠费风险相关的指标，并根据相关的指标衍生形成指标体系；

步骤3、指标预处理，筛选高预测力的指标进入模型；

步骤4、构造基于LR-Bagging算法模型，根据随机选取样本的子集及步骤3所筛选的指标来训练LR-Bagging算法模型，模型的终止迭代条件由AUC统计量的变化率决定；把训练后得到的多个逻辑回归模型作为基分类器，通过Bagging算法把多个逻辑回归模型集成后形成一个基于逻辑回归的集成算法，把多个基分类器的预测结果的加权平均作为最终的预测概率。

优选地，步骤3首先通过指标预处理以对指标数据质量进行检验，其次构建衍生变量，对原始指标数据进行处理和加工，以获取更有预测力和解释性的变量，再筛选高预测力的指标进入模型。

优选地，步骤3筛选高预测力的指标进入模型时，用IV值来衡量指标的预测力；

引入WOE证据权重求取IV值；对一个变量进行WOE编码，需要首先把这个变量进行分组处理，其中分组i的WOE编码的计算公式如下：

py_i是分组i中响应客户占样本中所有响应客户的比例，pn_i是分组i中未响应客户占样本中所有未响应客户的比例，y_i是分组i中响应客户的数量，n_i是分组i中未响应客户的数量，y是样本中所有响应客户的数量，n是样本中所有未响应客户的数量；

对于分组i，有一个对应的IV_i值，计算公式如下：

把各分组的IV_i值相加，得到整个变量的IV值：

其中K为变量的分组个数。

本发明基于LR-Bagging算法的电费回收风险预测***，包括：

样本抽取模块，用于确立分析目标，按比例抽取恰当的正负样本；

指标收集模块，用于收集指标，分析用电客户的基本信息、历史缴费数据、用电行为数据，选取与用电客户欠费风险相关的指标，并根据相关的指标衍生形成指标体系；

指标预处理模块，用于对指标进行预处理，筛选高预测力的指标进入模型；

模型构建模块，构造基于LR-Bagging算法模型，根据随机选取样本的子集及所筛选的指标来训练LR-Bagging算法模型，模型的终止迭代条件由AUC统计量的变化率决定；把训练后得到的多个逻辑回归模型作为基分类器，通过Bagging算法把多个逻辑回归模型集成后形成一个基于逻辑回归的集成算法，把多个基分类器的预测结果的加权平均作为最终的预测概率。

本发明的存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时，实现上电费回收风险预测方法的步骤。

本发明的计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述计算机程序时，实现上述电费回收风险预测方法。

本发明构建的模型能够根据客户行为轨迹准确预测出欠费的违约概率，从而改变了事后欠费管理的被动局面，达到减少电力客户欠费风险的目的。与现有技术相比，本发明的有益效果主要为：

选取用电客户的基本信息、缴费渠道信息(例如半年内的缴费渠道偏好)、缴费时长以及电量电费数据构造指标体系，建立基于特征选择改进的LR-Bagging算法模型，选取IV值大于0.02且相关系数小于0.6的指标输入LR_Bagging模型，随机选取样本的子集来训练逻辑回归模型，每一个训练的LR基分类器的记录和字段均通过随机抽样得到，算法的终止迭代条件由AUC统计量的变化率决定。把训练的多个逻辑回归模型作为基分类器，把多个基分类器的预测结果的加权平均作为最终的预测概率。对全体高压用户进行分析预测，选用准确率(Accuracy)、精确率(Precision)、召回率 (Recall)、F1值来评估、验证模型的分类效果，结果表明该算法有效提升了模型的预测力。

附图说明

图1为基于LR-Bagging算法的电费回收风险预测方法的流程图。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步的详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例中基于LR-Bagging算法的电费回收风险预测模型方法，主要包括以下步骤：

步骤1、确立分析目标，抽取样本：全体样本根据地级市进行分层抽样，并且按比例抽取恰当的正负样本；

本实施例选取某省高压用户作为分析对象，选取用电客户的基本信息、半年内(如2018年9月至2019年2月之间)缴费渠道偏好、缴费时长和电量电费数据构建指标体系，随机选取70％的样本作为训练集。由于目标用户占所有样本的比例为5.9％，本实施例在训练模型的过程中，根据每个地级市进行分层抽样，使得训练集中目标与非目标样本比例为1:10；对抽样后的数据，每次随机选取70％的样本训练一个逻辑回归模型，并用来预测原始数据。

本实施例中，提取用电客户的档案数据、电量电费数据、95598客户服务数据以及其他电力营销相关数据(如违约窃电、电力政策等数据)，在对用户欠费相关影响因素进行统计分析的基础上，形成指标体系。以某省全体高压用户为例，选取客户的基本信息、缴费渠道信息、缴费时长信息以及电量电费信息作为指标，并基于上述指标进行衍生，形成指标体系。

步骤3、指标预处理：包括缺失值填充、异常值替换处理，以及对指标进行降维处理，筛选高预测力的指标进入模型；

本实施例中，在步骤2所获取指标数据的基础上，首先通过指标预处理以对指标数据质量进行检验，包括：用户编号的唯一性、样本完整性，以及变量的范围、取值、缺失值、异常值等；其次是构建衍生变量，即对原始指标数据进行处理和加工，以获取更有预测力和解释性的变量，比如客户季节因素、地区因素等，再筛选高预测力的指标进入模型。

本步骤所要完成的模型的变量筛选是比较复杂的过程，需要考虑IV值(Information Value，信息价值或者信息量)，即指标的预测力用IV值来衡量。IV值的作用和信息增益、信息增益比、基尼不纯度类似，都是用于特征选择的，但是构建决策树时，决策树建树的过程本身就会计算特征的重要性，而逻辑回归算法并不要求计算特征重要性，然而不重要的特征掺入模型又会使得模型很容易过拟合，所以在进行逻辑回归算法建模时，先计算IV值进行特征筛选。本实施例引入WOE(Weight of Evidence)证据权重，以求取IV值。WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码，需要首先把这个变量进行分组处理(也叫离散化、分箱等)；分组后，对于第i组(即分组i)，WOE编码的计算公式如下：

其中，py_i是分组i这个组中响应客户(风险模型中，对应的是违约客户，指的是模型中预测变量取值为“是”(即取值为1)的个体)占样本中所有响应客户的比例，pn_i是这个组中未响应客户占样本中所有未响应客户的比例，y_i是这个组中响应客户的数量，n_i是这个组中未响应客户的数量，y是样本中所有响应客户的数量，n是样本中所有未响应客户的数量。

同样，对于分组i，也会有一个对应的IV_i值，计算公式如下：

有了一个变量各分组的IV值，就可以计算整个变量的IV值，方法很简单，就是把各分组的IV_i值相加：

其中K为变量的分组个数。

计算每个变量的IV值和相关性，保留IV值大于0.02且相关性小于0.6的指标进入模型，得到最终进入模型的指标及其对应的IV值。

本步骤的指标变量使用了ECC相关系数进行降维处理，使用IV值筛选具有高预测力的自变量；基于离散变量人工分箱和连续变量进行分位数分箱。

步骤4、模型构建：构造基于LR-Bagging算法模型，根据随机选取样本的子集及步骤3所筛选的指标来训练LR-Bagging算法模型，模型的终止迭代条件由AUC统计量的变化率决定；把训练后得到的多个逻辑回归模型作为基分类器，通过Bagging算法把多个逻辑回归模型集成后形成一个基于逻辑回归的集成算法，把多个基分类器的预测结果的加权平均作为最终的预测概率。

在步骤3对指标进行降维处理后，选取的最优指标进入LR-Bagging算法模型，每次从训练集中取样m个训练样本，训练完毕将取样放回训练集，初始训练样本在某轮训练集中可以出现多次或根本不出现，得到多个训练后的逻辑回归模型。

LR-Bagging算法模型在于每一个训练的基分类器的记录和字段均通过随机抽样得到，且算法的终止迭代准则由AUC统计量的变化率决定，该算法在分类的时候充分考虑了LR的强泛化能力、Bagging的高精确度，以及特征选择带来的LR及分类器的多样性等。

逻辑回归模型为概率型非线性回归模型，是研究二分类观察结果与某些影响因素x₁,x₂,...,x_n之间关系的一种多变量分析方法。设具有n个独立的变量X＝(x₁,x₂,...,x_n),条件概率p(Y＝1|X)为X取值条件下发生的概率，那么逻辑回归模型表示为：

在X取值条件下不发生的概率为：

假设有m个检验样本，观测值分别为y₁,y₂,…y_m，设p_i＝p(y_i＝1|X_i)为给定X_i条件下y_i＝1的概率，则p_i＝p(y_i＝0|X_i)等于1-p_i；由于逻辑回归事件满足伯努利概率，因此

因为各观测样本之间相互独立，那么m个样本的联合分布为各边缘分布的乘积，得到似然函数为：

先求出使得这一似然函数的值最大的参数估计，即求出参数β₀,β₁…β_n使得似然函数L(w)取得最大值，对似然函数L(w)取对数得到：

对(4)式关于β₀,β₁…β_n求偏导得方程组：

解方程组(5)即可得到对应的逻辑回归模型的模型参数β₀,β₁…β_n。

本步骤所训练出的逻辑回归模型为一个弱分类器，用Bagging算法把多个逻辑回归模型集成后，形成一个基于逻辑回归的集成算法。Bagging(Bootstrap aggregating) 算法的思想是LeoBreiman于1994年在他的1篇技术报告“BaggingPredicors”中提出的。Bagging算法的主要思想是给定1个弱学***均的方法对新示例进行预测，得到最终的预测

Bagging算法的流程为：

(1)给定原始数据集S＝(x₁,y₁),(x₂,y₂)…(x_n,y_n)；

(2)对数据集进行初始化；

(3)For t＝1…T；

(4)对于每一次循环t从原始数据集S中采用Booststract采样技术取出m个样本组成新的训练集S'＝(x₁,y₁),(x₂,y₂)…(x_n,y_m)；

(5)在新训练集S'使用基本学习算法进行训练，得到学习模型h_t；

(6)保存t轮学***均的方法集成总的学习器α_t(t＝1,2,…T)，作为T个个体的贡献权重，可取相同的值。

步骤5、模型应用：构造的基于LR-Bagging算法模型能够根据客户行为轨迹准确预测出欠费的违约概率，从而改变了事后欠费管理的被动局面，达到减少电力客户欠费风险的目的。

模型构建后，必须对其准确性进行评估。一个模型的好坏，最重要的评价标准是在实践中的应用效果。首先介绍4个基本的定义：

Ture Positive(TP):指模型预测为1的，并且实际上也是1的观察对象的数量；

True Negative(TN):指模型预测为0，实际上也是0的观测对象数量；

False Positive(FP):指模型预测为1的，实际上是0的观测对象的数量；

False Negtive(FN):指模型预测为0的，实际上是1的观测对象的数量。

基于以上定义构造如下表一所示的混淆矩阵：

表一混淆矩阵

基于以上定义，可延伸出众多的评价指标，本实施例选取准确率(Accuracy)、精确率(Precision)、召回率(Recall)及F1值。

准确率(Accuracy)，顾名思义，就是所有的预测正确(正类负类)占总的比重：

精确率(Precis ion)，即查准率，正确预测为正的占全部预测为正的比例：

召回率(Recall)，即查全率，正确预测为正的占全部实际为正的比例：

F1值，为算数平均数除以几何平均数，且越大越好，将精确率Precision和召回率Recall的上述公式代入下列公式(9)将会发现，当F1值小时，True Positive相对增加，而false相对减少，即Precision和Recall都相对增加，F1对Precision和 Recall都进行了加权。

本发明的验证结果如下表二：

表二验证结果

本发明还提出基于LR-Bagging算法的电费回收风险预测***，其包括：

样本抽取模块，用于实现步骤1，确立分析目标，按比例抽取恰当的正负样本；

指标收集模块，用于实现步骤2，收集指标，分析用电客户的基本信息、历史缴费数据、用电行为数据，选取与用电客户欠费风险相关的指标，并根据相关的指标衍生形成指标体系；

指标预处理模块，用于实现步骤3，对指标进行预处理，筛选高预测力的指标进入模型；

模型构建模块，用于实现步骤4，构造基于LR-Bagging算法模型，根据随机选取样本的子集及步骤3所筛选的指标来训练LR-Bagging算法模型，模型的终止迭代条件由AUC统计量的变化率决定；把训练后得到的多个逻辑回归模型作为基分类器，通过 Bagging算法把多个逻辑回归模型集成后形成一个基于逻辑回归的集成算法，把多个基分类器的预测结果的加权平均作为最终的预测概率。

本发明还提出存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时，实现上电费回收风险预测方法的步骤。

本发明还提出计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述计算机程序时，实现上述电费回收风险预测方法。

本发明基于LR-Bagging算法的电费回收风险预测模型方法、***、存储介质及计算机设备，极大地增强了模型的透明性、可理解性。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于LR-Bagging算法的电费回收风险预测方法，其特征在于，包括以下步骤：

步骤1、确立分析目标，按比例抽取恰当的正负样本；

步骤3、指标预处理，筛选高预测力的指标进入模型；

2.根据权利要求1所述的电费回收风险预测方法，其特征在于，步骤3首先通过指标预处理以对指标数据质量进行检验，其次构建衍生变量，对原始指标数据进行处理和加工，以获取更有预测力和解释性的变量，再筛选高预测力的指标进入模型。

3.根据权利要求1所述的电费回收风险预测方法，其特征在于，步骤3筛选高预测力的指标进入模型时，用IV值来衡量指标的预测力；

对于分组i，有一个对应的IV_i值，计算公式如下：

把各分组的IV_i值相加，得到整个变量的IV值：

其中K为变量的分组个数。

4.根据权利要求1所述的电费回收风险预测方法，其特征在于，步骤4中，设具有n个独立的变量X＝(x₁,x₂,...,x_n),条件概率p(Y＝1|X)为X取值条件下发生的概率，那么所述逻辑回归模型表示为：

其中β₀,β₁…β_n为逻辑回归模型的模型参数。

5.基于LR-Bagging算法的电费回收风险预测***，其特征在于，包括：

模型构建模块，用于构造基于LR-Bagging算法模型，根据随机选取样本的子集及所筛选的指标来训练LR-Bagging算法模型，模型的终止迭代条件由AUC统计量的变化率决定；把训练后得到的多个逻辑回归模型作为基分类器，通过Bagging算法把多个逻辑回归模型集成后形成一个基于逻辑回归的集成算法，把多个基分类器的预测结果的加权平均作为最终的预测概率。

6.根据权利要求5所述的电费回收风险预测***，其特征在于，指标预处理模块首先通过指标预处理以对指标数据质量进行检验，其次构建衍生变量，对原始指标数据进行处理和加工，以获取更有预测力和解释性的变量，再筛选高预测力的指标进入模型。

7.根据权利要求5所述的电费回收风险预测***，其特征在于，指标预处理模块筛选高预测力的指标进入模型时，用IV值来衡量指标的预测力；

对于分组i，有一个对应的IV_i值，计算公式如下：

把各分组的IV_i值相加，得到整个变量的IV值：

其中K为变量的分组个数。

8.根据权利要求5所述的电费回收风险预测***，其特征在于，指标预处理模块对指标进行预处理包括缺失值填充、异常值替换处理，以及对指标进行降维处理。

9.存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时，实现权利要求1-4中任一项所述的电费回收风险预测方法的步骤。

10.计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时，实现权利要求1-4中任一项所述的电费回收风险预测方法。