CN111178675A - 基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备 - Google Patents
基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN111178675A CN111178675A CN201911232092.5A CN201911232092A CN111178675A CN 111178675 A CN111178675 A CN 111178675A CN 201911232092 A CN201911232092 A CN 201911232092A CN 111178675 A CN111178675 A CN 111178675A
- Authority
- CN
- China
- Prior art keywords
- model
- indexes
- index
- clients
- electric charge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004064 recycling Methods 0.000 title claims abstract description 24
- 238000007477 logistic regression Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000005611 electricity Effects 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 12
- 230000008859 change Effects 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 238000013058 risk prediction model Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明为基于LR‑Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备,能够根据客户行为轨迹准确预测出欠费的违约概率,改变了事后欠费管理的被动局面,减少电力客户欠费风险。其方法包括:确立分析目标,抽取正负样本;收集指标,选取与用电客户欠费风险相关的指标,根据相关的指标衍生形成指标体系;指标预处理,筛选高预测力的指标进入模型;构造基于LR‑Bagging算法模型,根据随机选取样本的子集及步骤3所筛选的指标来训练LR‑Bagging算法模型,模型的终止迭代条件由AUC统计量的变化率决定;把训练后得到的多个逻辑回归模型作为基分类器,把多个基分类器的预测结果的加权平均作为最终的预测概率。
Description
技术领域
本发明涉及电力领域,具体涉及基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备。
背景技术
供电单位一直秉承“先用电后缴费”的市场规则,该规则建立在享有电能的使用后会在供电公司规定期限内为所消耗的电能付出货币代价的基础上。然而有的用户违背承诺拒缴或者延迟缴纳电费,从而影响到供电企业的资金回收;而无法及时回收电费将严 重限制电网企业***,从而影响电力供应,造成恶性循环。欠费风险的有效防范和 规避,对电力企业的有效运作起着至关重要的作用,电网在运行期间产生大量数据,可 采用数据挖掘技术对其分析,并提取出有价值的信息。然而在指标体系的选取方面,仍 需要结合实际业务进行改进。
现有的欠费风险预测模型,在分析了引起电力客户欠费原因的基础上,利用可获得 的数据设计了欠费风险识别模型中的关键影响变量,并运用Logistic回归理论与方法建立了可识别电力客户欠费可能性大小的模型,根据可掌握的客户最新资料***出欠费的违约概率,从而改变事后欠费管理的被动局面,达到减少电力客户欠费风险的目的。但是该模型需找到客户群的欠费原因,而在实际工作中,客户欠费原因多样且难以 找出所有能够影响客户欠费的原因,因此该模型在指标选取上具有一定的局限性。
发明内容
针对现有技术中存在的问题,本发明提供基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备,能够根据客户行为轨迹准确预测出欠费的违约 概率,从而改变了事后欠费管理的被动局面,达到减少电力客户欠费风险的目的。
为实现上述目的,本发明采用的技术方案如下:基于LR-Bagging算法的电费回收风险预测方法,包括以下步骤:
步骤1、确立分析目标,按比例抽取恰当的正负样本;
步骤2、收集指标,分析用电客户的基本信息、历史缴费数据、用电行为数据,选 取与用电客户欠费风险相关的指标,并根据相关的指标衍生形成指标体系;
步骤3、指标预处理,筛选高预测力的指标进入模型;
步骤4、构造基于LR-Bagging算法模型,根据随机选取样本的子集及步骤3所筛 选的指标来训练LR-Bagging算法模型,模型的终止迭代条件由AUC统计量的变化率决 定;把训练后得到的多个逻辑回归模型作为基分类器,通过Bagging算法把多个逻辑 回归模型集成后形成一个基于逻辑回归的集成算法,把多个基分类器的预测结果的加权 平均作为最终的预测概率。
优选地,步骤3首先通过指标预处理以对指标数据质量进行检验,其次构建衍生变量,对原始指标数据进行处理和加工,以获取更有预测力和解释性的变量,再筛选高 预测力的指标进入模型。
优选地,步骤3筛选高预测力的指标进入模型时,用IV值来衡量指标的预测力;
引入WOE证据权重求取IV值;对一个变量进行WOE编码,需要首先把这个变量进 行分组处理,其中分组i的WOE编码的计算公式如下:
pyi是分组i中响应客户占样本中所有响应客户的比例,pni是分组i中未响应客户占样本中所有未响应客户的比例,yi是分组i中响应客户的数量,ni是分组i中未响应 客户的数量,y是样本中所有响应客户的数量,n是样本中所有未响应客户的数量;
对于分组i,有一个对应的IVi值,计算公式如下:
把各分组的IVi值相加,得到整个变量的IV值:
其中K为变量的分组个数。
本发明基于LR-Bagging算法的电费回收风险预测***,包括:
样本抽取模块,用于确立分析目标,按比例抽取恰当的正负样本;
指标收集模块,用于收集指标,分析用电客户的基本信息、历史缴费数据、用电 行为数据,选取与用电客户欠费风险相关的指标,并根据相关的指标衍生形成指标体 系;
指标预处理模块,用于对指标进行预处理,筛选高预测力的指标进入模型;
模型构建模块,构造基于LR-Bagging算法模型,根据随机选取样本的子集及所筛选的指标来训练LR-Bagging算法模型,模型的终止迭代条件由AUC统计量的变化率决 定;把训练后得到的多个逻辑回归模型作为基分类器,通过Bagging算法把多个逻辑 回归模型集成后形成一个基于逻辑回归的集成算法,把多个基分类器的预测结果的加权 平均作为最终的预测概率。
本发明的存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时,实现上 电费回收风险预测方法的步骤。
本发明的计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的 计算机程序,所述处理器运行所述计算机程序时,实现上述电费回收风险预测方法。
本发明构建的模型能够根据客户行为轨迹准确预测出欠费的违约概率,从而改变了 事后欠费管理的被动局面,达到减少电力客户欠费风险的目的。与现有技术相比,本发明的有益效果主要为:
选取用电客户的基本信息、缴费渠道信息(例如半年内的缴费渠道偏好)、缴费时长以及电量电费数据构造指标体系,建立基于特征选择改进的LR-Bagging算法模型, 选取IV值大于0.02且相关系数小于0.6的指标输入LR_Bagging模型,随机选取样本 的子集来训练逻辑回归模型,每一个训练的LR基分类器的记录和字段均通过随机抽样 得到,算法的终止迭代条件由AUC统计量的变化率决定。把训练的多个逻辑回归模型作 为基分类器,把多个基分类器的预测结果的加权平均作为最终的预测概率。对全体高压 用户进行分析预测,选用准确率(Accuracy)、精确率(Precision)、召回率 (Recall)、F1值来评估、验证模型的分类效果,结果表明该算法有效提升了模型的预 测力。
附图说明
图1为基于LR-Bagging算法的电费回收风险预测方法的流程图。
具体实施方式
下面结合说明书附图与具体实施方式对本发明做进一步的详细说明,但本发明的实 施方式不限于此。
实施例
如图1所示,本实施例中基于LR-Bagging算法的电费回收风险预测模型方法,主要包括以下步骤:
步骤1、确立分析目标,抽取样本:全体样本根据地级市进行分层抽样,并且按比例抽取恰当的正负样本;
本实施例选取某省高压用户作为分析对象,选取用电客户的基本信息、半年内(如2018年9月至2019年2月之间)缴费渠道偏好、缴费时长和电量电费数据构建指 标体系,随机选取70%的样本作为训练集。由于目标用户占所有样本的比例为5.9%, 本实施例在训练模型的过程中,根据每个地级市进行分层抽样,使得训练集中目标与非 目标样本比例为1:10;对抽样后的数据,每次随机选取70%的样本训练一个逻辑回归模 型,并用来预测原始数据。
步骤2、收集指标,分析用电客户的基本信息、历史缴费数据、用电行为数据,选 取与用电客户欠费风险相关的指标,并根据相关的指标衍生形成指标体系;
本实施例中,提取用电客户的档案数据、电量电费数据、95598客户服务数据以及其他电力营销相关数据(如违约窃电、电力政策等数据),在对用户欠费相关影响因素 进行统计分析的基础上,形成指标体系。以某省全体高压用户为例,选取客户的基本信 息、缴费渠道信息、缴费时长信息以及电量电费信息作为指标,并基于上述指标进行衍 生,形成指标体系。
步骤3、指标预处理:包括缺失值填充、异常值替换处理,以及对指标进行降维处理,筛选高预测力的指标进入模型;
本实施例中,在步骤2所获取指标数据的基础上,首先通过指标预处理以对指标数据质量进行检验,包括:用户编号的唯一性、样本完整性,以及变量的范围、取值、缺 失值、异常值等;其次是构建衍生变量,即对原始指标数据进行处理和加工,以获取更 有预测力和解释性的变量,比如客户季节因素、地区因素等,再筛选高预测力的指标进 入模型。
本步骤所要完成的模型的变量筛选是比较复杂的过程,需要考虑IV值(Information Value,信息价值或者信息量),即指标的预测力用IV值来衡量。IV值 的作用和信息增益、信息增益比、基尼不纯度类似,都是用于特征选择的,但是构建决 策树时,决策树建树的过程本身就会计算特征的重要性,而逻辑回归算法并不要求计算 特征重要性,然而不重要的特征掺入模型又会使得模型很容易过拟合,所以在进行逻辑 回归算法建模时,先计算IV值进行特征筛选。本实施例引入WOE(Weight of Evidence)证据权重,以求取IV值。WOE是对原始自变量的一种编码形式。要对一个 变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等);分组 后,对于第i组(即分组i),WOE编码的计算公式如下:
其中,pyi是分组i这个组中响应客户(风险模型中,对应的是违约客户,指的是 模型中预测变量取值为“是”(即取值为1)的个体)占样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,yi是这个组中响应客户的 数量,ni是这个组中未响应客户的数量,y是样本中所有响应客户的数量,n是样本中 所有未响应客户的数量。
同样,对于分组i,也会有一个对应的IVi值,计算公式如下:
有了一个变量各分组的IV值,就可以计算整个变量的IV值,方法很简单,就是把各分组的IVi值相加:
其中K为变量的分组个数。
计算每个变量的IV值和相关性,保留IV值大于0.02且相关性小于0.6的指标进 入模型,得到最终进入模型的指标及其对应的IV值。
本步骤的指标变量使用了ECC相关系数进行降维处理,使用IV值筛选具有高预测力的自变量;基于离散变量人工分箱和连续变量进行分位数分箱。
步骤4、模型构建:构造基于LR-Bagging算法模型,根据随机选取样本的子集及 步骤3所筛选的指标来训练LR-Bagging算法模型,模型的终止迭代条件由AUC统计量 的变化率决定;把训练后得到的多个逻辑回归模型作为基分类器,通过Bagging算法 把多个逻辑回归模型集成后形成一个基于逻辑回归的集成算法,把多个基分类器的预测 结果的加权平均作为最终的预测概率。
在步骤3对指标进行降维处理后,选取的最优指标进入LR-Bagging算法模型,每次从训练集中取样m个训练样本,训练完毕将取样放回训练集,初始训练样本在某轮训 练集中可以出现多次或根本不出现,得到多个训练后的逻辑回归模型。
LR-Bagging算法模型在于每一个训练的基分类器的记录和字段均通过随机抽样得 到,且算法的终止迭代准则由AUC统计量的变化率决定,该算法在分类的时候充分考虑了LR的强泛化能力、Bagging的高精确度,以及特征选择带来的LR及分类器的多样 性等。
逻辑回归模型为概率型非线性回归模型,是研究二分类观察结果与某些影响因素x1,x2,...,xn之间关系的一种多变量分析方法。设具有n个独立的变量X=(x1,x2,...,xn),条 件概率p(Y=1|X)为X取值条件下发生的概率,那么逻辑回归模型表示为:
在X取值条件下不发生的概率为:
假设有m个检验样本,观测值分别为y1,y2,…ym,设pi=p(yi=1|Xi)为给定Xi条件下yi=1的概率,则pi=p(yi=0|Xi)等于1-pi;由于逻辑回归事件满足伯努利概率,因 此因为各观测样本之间相互独立,那么m个样本的联合分布为各边 缘分布的乘积,得到似然函数为:
先求出使得这一似然函数的值最大的参数估计,即求出参数β0,β1…βn使得似然函数L(w)取得最大值,对似然函数L(w)取对数得到:
对(4)式关于β0,β1…βn求偏导得方程组:
解方程组(5)即可得到对应的逻辑回归模型的模型参数β0,β1…βn。
本步骤所训练出的逻辑回归模型为一个弱分类器,用Bagging算法把多个逻辑回归模型集成后,形成一个基于逻辑回归的集成算法。Bagging(Bootstrap aggregating) 算法的思想是LeoBreiman于1994年在他的1篇技术报告“BaggingPredicors”中提出 的。Bagging算法的主要思想是给定1个弱学***均的方法对新示例进行预测,得到最终 的预测Bagging算法的流程为:
(1)给定原始数据集S=(x1,y1),(x2,y2)…(xn,yn);
(2)对数据集进行初始化;
(3)For t=1…T;
(4)对于每一次循环t从原始数据集S中采用Booststract采样技术取出m个样本组成新的训练集S'=(x1,y1),(x2,y2)…(xn,ym);
(5)在新训练集S'使用基本学习算法进行训练,得到学习模型ht;
(6)保存t轮学***均的方法集 成总的学习器αt(t=1,2,…T),作为T个个体的贡献权重,可取相同的值。
步骤5、模型应用:构造的基于LR-Bagging算法模型能够根据客户行为轨迹准确预测出欠费的违约概率,从而改变了事后欠费管理的被动局面,达到减少电力客户欠费 风险的目的。
模型构建后,必须对其准确性进行评估。一个模型的好坏,最重要的评价标准是在实践中的应用效果。首先介绍4个基本的定义:
Ture Positive(TP):指模型预测为1的,并且实际上也是1的观察对象的数量;
True Negative(TN):指模型预测为0,实际上也是0的观测对象数量;
False Positive(FP):指模型预测为1的,实际上是0的观测对象的数量;
False Negtive(FN):指模型预测为0的,实际上是1的观测对象的数量。
基于以上定义构造如下表一所示的混淆矩阵:
表一混淆矩阵
基于以上定义,可延伸出众多的评价指标,本实施例选取准确率(Accuracy)、精确率(Precision)、召回率(Recall)及F1值。
准确率(Accuracy),顾名思义,就是所有的预测正确(正类负类)占总的比重:
精确率(Precis ion),即查准率,正确预测为正的占全部预测为正的比例:
召回率(Recall),即查全率,正确预测为正的占全部实际为正的比例:
F1值,为算数平均数除以几何平均数,且越大越好,将精确率Precision和召回 率Recall的上述公式代入下列公式(9)将会发现,当F1值小时,True Positive相 对增加,而false相对减少,即Precision和Recall都相对增加,F1对Precision和 Recall都进行了加权。
本发明的验证结果如下表二:
表二验证结果
本发明还提出基于LR-Bagging算法的电费回收风险预测***,其包括:
样本抽取模块,用于实现步骤1,确立分析目标,按比例抽取恰当的正负样本;
指标收集模块,用于实现步骤2,收集指标,分析用电客户的基本信息、历史缴费数据、用电行为数据,选取与用电客户欠费风险相关的指标,并根据相关的指标衍生形 成指标体系;
指标预处理模块,用于实现步骤3,对指标进行预处理,筛选高预测力的指标进入模型;
模型构建模块,用于实现步骤4,构造基于LR-Bagging算法模型,根据随机选取 样本的子集及步骤3所筛选的指标来训练LR-Bagging算法模型,模型的终止迭代条件 由AUC统计量的变化率决定;把训练后得到的多个逻辑回归模型作为基分类器,通过 Bagging算法把多个逻辑回归模型集成后形成一个基于逻辑回归的集成算法,把多个基 分类器的预测结果的加权平均作为最终的预测概率。
本发明还提出存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时,实 现上电费回收风险预测方法的步骤。
本发明还提出计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运 行的计算机程序,所述处理器运行所述计算机程序时,实现上述电费回收风险预测方法。
本发明基于LR-Bagging算法的电费回收风险预测模型方法、***、存储介质及计算机设备,极大地增强了模型的透明性、可理解性。显然,本领域的技术人员可以对本 发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改 和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和 变型在内。
Claims (10)
1.基于LR-Bagging算法的电费回收风险预测方法,其特征在于,包括以下步骤:
步骤1、确立分析目标,按比例抽取恰当的正负样本;
步骤2、收集指标,分析用电客户的基本信息、历史缴费数据、用电行为数据,选取与用电客户欠费风险相关的指标,并根据相关的指标衍生形成指标体系;
步骤3、指标预处理,筛选高预测力的指标进入模型;
步骤4、构造基于LR-Bagging算法模型,根据随机选取样本的子集及步骤3所筛选的指标来训练LR-Bagging算法模型,模型的终止迭代条件由AUC统计量的变化率决定;把训练后得到的多个逻辑回归模型作为基分类器,通过Bagging算法把多个逻辑回归模型集成后形成一个基于逻辑回归的集成算法,把多个基分类器的预测结果的加权平均作为最终的预测概率。
2.根据权利要求1所述的电费回收风险预测方法,其特征在于,步骤3首先通过指标预处理以对指标数据质量进行检验,其次构建衍生变量,对原始指标数据进行处理和加工,以获取更有预测力和解释性的变量,再筛选高预测力的指标进入模型。
3.根据权利要求1所述的电费回收风险预测方法,其特征在于,步骤3筛选高预测力的指标进入模型时,用IV值来衡量指标的预测力;
引入WOE证据权重求取IV值;对一个变量进行WOE编码,需要首先把这个变量进行分组处理,其中分组i的WOE编码的计算公式如下:
pyi是分组i中响应客户占样本中所有响应客户的比例,pni是分组i中未响应客户占样本中所有未响应客户的比例,yi是分组i中响应客户的数量,ni是分组i中未响应客户的数量,y是样本中所有响应客户的数量,n是样本中所有未响应客户的数量;
对于分组i,有一个对应的IVi值,计算公式如下:
把各分组的IVi值相加,得到整个变量的IV值:
其中K为变量的分组个数。
5.基于LR-Bagging算法的电费回收风险预测***,其特征在于,包括:
样本抽取模块,用于确立分析目标,按比例抽取恰当的正负样本;
指标收集模块,用于收集指标,分析用电客户的基本信息、历史缴费数据、用电行为数据,选取与用电客户欠费风险相关的指标,并根据相关的指标衍生形成指标体系;
指标预处理模块,用于对指标进行预处理,筛选高预测力的指标进入模型;
模型构建模块,用于构造基于LR-Bagging算法模型,根据随机选取样本的子集及所筛选的指标来训练LR-Bagging算法模型,模型的终止迭代条件由AUC统计量的变化率决定;把训练后得到的多个逻辑回归模型作为基分类器,通过Bagging算法把多个逻辑回归模型集成后形成一个基于逻辑回归的集成算法,把多个基分类器的预测结果的加权平均作为最终的预测概率。
6.根据权利要求5所述的电费回收风险预测***,其特征在于,指标预处理模块首先通过指标预处理以对指标数据质量进行检验,其次构建衍生变量,对原始指标数据进行处理和加工,以获取更有预测力和解释性的变量,再筛选高预测力的指标进入模型。
7.根据权利要求5所述的电费回收风险预测***,其特征在于,指标预处理模块筛选高预测力的指标进入模型时,用IV值来衡量指标的预测力;
引入WOE证据权重求取IV值;对一个变量进行WOE编码,需要首先把这个变量进行分组处理,其中分组i的WOE编码的计算公式如下:
pyi是分组i中响应客户占样本中所有响应客户的比例,pni是分组i中未响应客户占样本中所有未响应客户的比例,yi是分组i中响应客户的数量,ni是分组i中未响应客户的数量,y是样本中所有响应客户的数量,n是样本中所有未响应客户的数量;
对于分组i,有一个对应的IVi值,计算公式如下:
把各分组的IVi值相加,得到整个变量的IV值:
其中K为变量的分组个数。
8.根据权利要求5所述的电费回收风险预测***,其特征在于,指标预处理模块对指标进行预处理包括缺失值填充、异常值替换处理,以及对指标进行降维处理。
9.存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实现权利要求1-4中任一项所述的电费回收风险预测方法的步骤。
10.计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时,实现权利要求1-4中任一项所述的电费回收风险预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911232092.5A CN111178675A (zh) | 2019-12-05 | 2019-12-05 | 基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911232092.5A CN111178675A (zh) | 2019-12-05 | 2019-12-05 | 基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111178675A true CN111178675A (zh) | 2020-05-19 |
Family
ID=70653875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911232092.5A Pending CN111178675A (zh) | 2019-12-05 | 2019-12-05 | 基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178675A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102074A (zh) * | 2020-10-14 | 2020-12-18 | 深圳前海弘犀智能科技有限公司 | 一种评分卡建模方法 |
CN112116225A (zh) * | 2020-09-07 | 2020-12-22 | 中国人民解放军63921部队 | 装备***的作战效能评估方法、装置和存储介质 |
CN112308293A (zh) * | 2020-10-10 | 2021-02-02 | 北京贝壳时代网络科技有限公司 | 违约概率预测方法及装置 |
CN112331285A (zh) * | 2020-07-10 | 2021-02-05 | 青岛国新健康产业科技有限公司 | 病例分组方法、装置、电子设备及存储介质 |
CN112486842A (zh) * | 2020-12-17 | 2021-03-12 | 中国农业银行股份有限公司 | 一种产品测试方法及装置 |
CN112734560A (zh) * | 2020-12-31 | 2021-04-30 | 深圳前海微众银行股份有限公司 | 变量构造方法、装置、设备及计算机可读存储介质 |
CN113469374A (zh) * | 2021-09-02 | 2021-10-01 | 北京易真学思教育科技有限公司 | 数据预测方法、装置、设备及介质 |
CN113485910A (zh) * | 2021-06-07 | 2021-10-08 | 广发银行股份有限公司 | 一种测试风险预警方法、***、设备及存储介质 |
CN113537607A (zh) * | 2021-07-23 | 2021-10-22 | 国网青海省电力公司信息通信公司 | 停电预测方法 |
CN114491416A (zh) * | 2022-02-23 | 2022-05-13 | 北京百度网讯科技有限公司 | 特征信息的处理方法、装置、电子设备和存储介质 |
CN116433403A (zh) * | 2023-06-14 | 2023-07-14 | 国网安徽省电力有限公司营销服务中心 | 一种基于账款跟踪的电企应收款项预警方法及*** |
CN117391836A (zh) * | 2023-07-26 | 2024-01-12 | 人上融融(江苏)科技有限公司 | 一种基于不同标签的异质集成进行逾期概率建模的方法 |
CN118094339A (zh) * | 2024-04-17 | 2024-05-28 | 中海油田服务股份有限公司 | 地层温度预测方法、装置及计算设备 |
CN114491416B (zh) * | 2022-02-23 | 2024-07-16 | 北京百度网讯科技有限公司 | 特征信息的处理方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251241A (zh) * | 2016-08-02 | 2016-12-21 | 贵州电网有限责任公司信息中心 | 一种基于特征选择改进的LR‑Bagging算法 |
CN109063931A (zh) * | 2018-09-06 | 2018-12-21 | 盈盈(杭州)网络技术有限公司 | 一种预测货运物流司机违约概率的模型方法 |
CN109272396A (zh) * | 2018-08-20 | 2019-01-25 | 平安科技(深圳)有限公司 | 客户风险预警方法、装置、计算机设备和介质 |
CN109727066A (zh) * | 2018-12-27 | 2019-05-07 | 浙江华云信息科技有限公司 | 一种基于XGBoost算法的大工业用电用户负荷预测方法 |
-
2019
- 2019-12-05 CN CN201911232092.5A patent/CN111178675A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251241A (zh) * | 2016-08-02 | 2016-12-21 | 贵州电网有限责任公司信息中心 | 一种基于特征选择改进的LR‑Bagging算法 |
CN109272396A (zh) * | 2018-08-20 | 2019-01-25 | 平安科技(深圳)有限公司 | 客户风险预警方法、装置、计算机设备和介质 |
CN109063931A (zh) * | 2018-09-06 | 2018-12-21 | 盈盈(杭州)网络技术有限公司 | 一种预测货运物流司机违约概率的模型方法 |
CN109727066A (zh) * | 2018-12-27 | 2019-05-07 | 浙江华云信息科技有限公司 | 一种基于XGBoost算法的大工业用电用户负荷预测方法 |
Non-Patent Citations (1)
Title |
---|
吴漾;朱州;: "基于特征选择改进LR-Bagging算法的电力欠费风险居民客户预测", 电子产品世界, no. 04, pages 70 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331285B (zh) * | 2020-07-10 | 2023-01-10 | 青岛国新健康产业科技有限公司 | 病例分组方法、装置、电子设备及存储介质 |
CN112331285A (zh) * | 2020-07-10 | 2021-02-05 | 青岛国新健康产业科技有限公司 | 病例分组方法、装置、电子设备及存储介质 |
CN112116225A (zh) * | 2020-09-07 | 2020-12-22 | 中国人民解放军63921部队 | 装备***的作战效能评估方法、装置和存储介质 |
CN112308293A (zh) * | 2020-10-10 | 2021-02-02 | 北京贝壳时代网络科技有限公司 | 违约概率预测方法及装置 |
CN112102074A (zh) * | 2020-10-14 | 2020-12-18 | 深圳前海弘犀智能科技有限公司 | 一种评分卡建模方法 |
CN112102074B (zh) * | 2020-10-14 | 2024-01-30 | 深圳前海弘犀智能科技有限公司 | 一种评分卡建模方法 |
CN112486842A (zh) * | 2020-12-17 | 2021-03-12 | 中国农业银行股份有限公司 | 一种产品测试方法及装置 |
CN112734560A (zh) * | 2020-12-31 | 2021-04-30 | 深圳前海微众银行股份有限公司 | 变量构造方法、装置、设备及计算机可读存储介质 |
CN112734560B (zh) * | 2020-12-31 | 2024-05-14 | 深圳前海微众银行股份有限公司 | 变量构造方法、装置、设备及计算机可读存储介质 |
CN113485910A (zh) * | 2021-06-07 | 2021-10-08 | 广发银行股份有限公司 | 一种测试风险预警方法、***、设备及存储介质 |
CN113537607A (zh) * | 2021-07-23 | 2021-10-22 | 国网青海省电力公司信息通信公司 | 停电预测方法 |
CN113537607B (zh) * | 2021-07-23 | 2022-08-05 | 国网青海省电力公司信息通信公司 | 停电预测方法 |
CN113469374A (zh) * | 2021-09-02 | 2021-10-01 | 北京易真学思教育科技有限公司 | 数据预测方法、装置、设备及介质 |
CN114491416A (zh) * | 2022-02-23 | 2022-05-13 | 北京百度网讯科技有限公司 | 特征信息的处理方法、装置、电子设备和存储介质 |
CN114491416B (zh) * | 2022-02-23 | 2024-07-16 | 北京百度网讯科技有限公司 | 特征信息的处理方法、装置、电子设备和存储介质 |
CN116433403A (zh) * | 2023-06-14 | 2023-07-14 | 国网安徽省电力有限公司营销服务中心 | 一种基于账款跟踪的电企应收款项预警方法及*** |
CN117391836A (zh) * | 2023-07-26 | 2024-01-12 | 人上融融(江苏)科技有限公司 | 一种基于不同标签的异质集成进行逾期概率建模的方法 |
CN118094339A (zh) * | 2024-04-17 | 2024-05-28 | 中海油田服务股份有限公司 | 地层温度预测方法、装置及计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178675A (zh) | 基于LR-Bagging算法的电费回收风险预测方法、***、存储介质及计算机设备 | |
Wang et al. | Predicting construction cost and schedule success using artificial neural networks ensemble and support vector machines classification models | |
Cho et al. | A hybrid approach based on the combination of variable selection using decision trees and case-based reasoning using the Mahalanobis distance: For bankruptcy prediction | |
CN107633265A (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN110852856B (zh) | 一种基于动态网络表征的***虚开识别方法 | |
Kou et al. | An integrated expert system for fast disaster assessment | |
CN104036360B (zh) | 一种基于磁卡考勤行为的用户数据处理***及处理方法 | |
CN110930198A (zh) | 基于随机森林的电能替代潜力预测方法、***、存储介质及计算机设备 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN113537807A (zh) | 一种企业智慧风控方法及设备 | |
TWI677830B (zh) | 模型中關鍵變量的探測方法及裝置 | |
CN113393316A (zh) | 基于海量大数据、核心算法的贷款全过程精准风控及管理*** | |
CN111090679B (zh) | 基于时序影响和图嵌入的时序数据表示学习方法 | |
CN115545342A (zh) | 一种企业电费回收的风险预测方法与*** | |
KR20130083053A (ko) | 악성 해외건설 프로젝트 판별 시스템 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114066173A (zh) | 资金流动行为分析方法及存储介质 | |
CN113837481A (zh) | 一种基于区块链的金融大数据管理*** | |
Nureni et al. | Loan approval prediction based on machine learning approach | |
Zeng | A comparison study on the era of internet finance China construction of credit scoring system model | |
Lv et al. | Detecting pyramid scheme accounts with time series financial transactions | |
Nascimento et al. | Applying Machine Learning to Improve Collection and to Reduce Write-Offs in Utilities | |
Wasito et al. | TIME SERIES CLASSIFICATION FOR FINANCIAL STATEMENT FRAUD DETECTION USING RECURRENT NEURAL NETWORKS BASED APPROACHES | |
Chandrasekaran et al. | Uncertainty-Aware Functional Analysis for Electricity Consumption Prediction Using Multi-Task Optimization Learning Model | |
CN117593101B (zh) | 基于多维数据的金融风险数据处理分析方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |