CN108364191A

CN108364191A - 基于随机森林和逻辑回归的优质客户优化识别方法及装置

Info

Publication number: CN108364191A
Application number: CN201810027580.1A
Authority: CN
Inventors: 李云亭; 张洪利; 荣以平; 朱伟义; 刘霄慧; 尹明立; 乔学明; 粱波; 王伟; 刘昳娟; 王鑫
Original assignee: State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Shandong Electric Power Co Ltd
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-08-03

Abstract

本发明公开了一种基于随机森林和逻辑回归的优质客户优化识别方法和装置，所述方法包括以下步骤：获取样本客户价值特征，并进行优质性判别；采用样本客户数据，基于随机森林和逻辑回归算法构建优质客户识别模型；基于专家监督法对优质客户识别模型的判断结果进行有效性分析，并基于分析结果训练优质客户优化识别模型；将待识别客户的价值特征作为输入，基于所述优质客户识别模型，判断所述客户是否为优质客户。本发明基于大数据实现了优质客户的精准定位。

Description

基于随机森林和逻辑回归的优质客户优化识别方法及装置

技术领域

本发明属于机器学习领域，尤其涉及一种基于随机森林和逻辑回归的优质客户优化识别方法和装置。

背景技术

随着电力改革深化、售电侧市场的全面放开，国家电网公司各级供电公司均面临着市场竞争压力，为提升电网企业盈利能力和竞争力，增加优质客户的忠诚度、满意度和客户黏性，企业在做好全社会普遍服务的基础上，为优质客户提供优质服务将是各售电主体竞争优质客户的主要手段和策略，必须制定有针对性的竞争服务策略，将有限的服务资源投入到优质客户的身上，与其建立稳定的供用电关系，是电网企业保持长期可持续发展的必然选择。

随着数据量的爆发式增长和业务要求的不断提高，传统的业务***架构已经越来越难满足***运行的要求。大数据技术作为重要的战略资源已经在全球范围内达成共识，数据这一基础性战略资源为分析客户需求和提供针对***，提供了数据支撑。

因此，如何基于大数据实现优质客户的精准定位，是目前需要迫切解决的技术问题。

发明内容

为克服上述现有技术的不足，本发明提供了一种售电侧基于随机森林和逻辑回归的优质客户优化识别方法和装置，所述方法以电网公司客户的用电属性、用电行为、用电特征等海量数据为基础，建立多维度的客户评价指标体系，通过以数据分析方式构建的客户评价模型，对客户进行综合评分，从而实现对优质客户的精准定位。

为实现上述目的，本发明采用如下技术方案：

一种基于随机森林和逻辑回归的优质客户优化识别方法，包括以下步骤：

步骤1：获取样本客户价值特征，并进行优质性判别；

步骤2：采用样本客户数据，基于随机森林和逻辑回归算法构建优质客户识别模型；

步骤3：基于专家监督法对优质客户识别模型的判断结果进行有效性分析，并基于分析结果训练优质客户优化识别模型；

步骤4：将待识别客户的价值特征作为输入，基于所述优质客户识别模型，判断所述客户是否为优质客户。

进一步地，所述步骤1包括：

步骤1.1：根据获取的用户各项用电信息构建客户价值评价特征指标体系；

步骤1.2：根据所述指标体***计样本用户的价值特征，并进行样本用户优质性判别。

进一步地，所述步骤1中价值特征包括用户对应的基本属性、经济价值、负荷价值、发展价值、信用价值、行业价值数据。

进一步地，所述步骤2包括：

步骤2.1：对样本用户数据进行预处理；

步骤2.2：基于随机森林法训练优质客户判断模型；

步骤2.3：采用逻辑回归算法构建优质客户等级判断模型；

步骤2.4：结合优质客户判断模型和优质客户等级判断模型获取优质客户识别模型。

进一步地，所述步骤2.1包括：数据清洗、特征因素量化、特征拓展、特征选择和异常值处理。

进一步地，所述步骤2.2包括：

全特征训练：样本选取全部样本用户数据，模型入参为全部业务指标；

重要特征训练：样本选取全部样本用户数据，模型入参为重要性高的前40％指标；

全特征交叉训练：将样本用户数据平均拆分成10份，每次选择其中9份作为训练样本，剩余1份作为预测样本，循环迭代10次，模型入参为全部业务指标；

重要特征交叉训练：将样本用户数据平均拆分成10份，每次选择其中9份作为训练样本，剩余1份作为预测样本，循环迭代10次，模型入参为重要性高的前40％指标。

作为进一步的优选方案，在模型训练前，所述方法还包括：采用MDA法和MDG法相结合的方式选取重要性指标，通过模型训练，得到指标重要性分析结果。

作为进一步的优选方案，所述方法还包括：建立所述优质客户识别模型升级优化的长效机制，基于专家监督法对优质客户识别模型的判断结果不定期地进行有效性分析，并基于分析结果，重新训练优质客户优化识别模型。

进一步地，所述步骤2.3包括：将优质客户判断模型获取的优质客户通过逻辑回归模型进行综合评分；设置多个综合评分区间，得到优质客户等级判断模型。

进一步地，所述方法还包括：对训练好的模型进行集成，通过数据接口收集用户特征数据，定期开展客户优质等级的判定。

根据本发明的第二目的，本发明还提供了一种基于随机森林和逻辑回归的优质客户优化识别装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的方法。

根据本发明的第三目的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行所述的一种基于随机森林和逻辑回归的优质客户优化识别方法。

本发明的有益效果

1、本发明以电网公司客户的用电属性、用电行为、用电特征等海量数据为基础，采用机器学习的技术手段，实现了优质客户的识别，为针对优质客户提供优质服务提供了保障，有助于提升电网企业竞争力。

2、本发明采用随机森林和逻辑回归相结合的方式进行客户识别模型的训练，所述识别模型能够在识别客户是否优质的基础上，判断客户的优质等级，进一步实现了优质客户的精准定位。

3、本发明建立所述优质客户识别模型升级优化的长效机制，基于专家监督法对优质客户识别模型的判断结果不定期地进行有效性分析，并基于分析结果，重新训练优质客户优化识别模型，通过重新训练模型达到模型版本升级及优化的目的。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明基于随机森林和逻辑回归的优质客户优化识别方法流程图；

图2为本发明优质客户识别模型构建流程图；

图3为本发明基于逻辑回归法形成的客户评分趋势示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和 /或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于随机森林和逻辑回归的优质客户优化识别方法，如图1所示，包括以下步骤：

(一)数据准备阶段

1、建立客户价值评价特征指标体系：

通过收集用户档案信息、经济价值类信息、负荷价值类信息、发展价值类信息、信用价值类信息、行业价值类信息，综合分析各种影响客户综合价值的因素，建立客户价值评价特征指标体系。通过客户集中研讨及客户调研，实现各地市样本用户优质性判别，为模型训练提供数据基础。

依据优质客户为电网公司带来的各种价值特征为基础，梳理客户的各项用电指标，依据客户价值角度对指标进行归类，构建客户评价指标体系，对指标标准化处理，并进行多维度汇总，为判断客户优质特性提供数据基础。

2、确定模型训练样本：

通过与地市专家讨论确定的优质客户指标体系，基于营销业务应用***、用电信息采集***，分别统计出样本用户对应的基本属性、经济价值、负荷价值、发展价值、信用价值、行业价值数据，以此作为模型训练样本。本实施例中对47.4万样本客户用电行为特征数据进行了专家评判，标注了是否优质。

用户属性：户号、户名、行业分类、是否高耗能和用电类别。

经济价值：客户用电给供电企业所带来的盈利情况，如售电均价较高、用电量较大、电费较多的客户。包括：当期售电均价、当期电费、当期电量、累计售电均价、累计电费、累计电量、合同容量和运行容量。

负荷价值：客户在用电过程中表现出来的电力负荷价值，如功率因素较大、平均负荷率高、低谷用电率较好的客户。包括：平均日负荷率、高峰用电率、低谷用电率和力调系数。

发展价值：客户自身用电发展较好的，未来贡献较大的客户，能给公司带来持续的利润贡献。包括：当期电量增长率、近3个月电量增长率、近6个月电量增长率、近一年电量增长率、增容次数和减容次数。

信用价值：信用是供用电双方完成交易的基本保障，能够依法用电、按时交纳电费的客户。包括：电费预收结转率、电费回款逾期天数、电费回款逾期次数、电费回款期、支票退票次数和违约窃电次数。

行业价值：考虑客户的行业发展前景，行业整体用电水平的发展较好。包括：行业电量增长率、行业大类电量增长率和行业小类电量增长率。

在数据准备阶段，还进行了监督源标准制定工作，即作为有效的监督源，它大致应该满足的业务范畴是什么，只有在该业务范畴内产出的监督源，才认为是有效的，可以开展有监督学习的。

本实施例中对47.4万样本客户用电行为特征数据进行了专家评判，标注了是否优质。

(二)数据处理阶段

当今数据库极易受噪声、丢失数据和不一致数据的侵扰，数量太大，并且多半来自多个异构数据源，导致数据质量较低，低质量的数据将导致数据分析的结果不准确，因此在模型训练之前，需要进行数据预处理。本方案的数据预处理主要从特征因素量化、异常值处理、连续变量处理等方面展开。

1、数据清洗

通过数据超限值检验、特征有效性检验、数据空值检验，对数据进行清洗。

超限检查：检查用电量和电费电价均为0的记录并予以删除，用电量和电费电价均为0表示用户都不用电，即都不生产，其相关其他特征也不具特征性。

特征有效性检查：检查用户重要性特征信息过于单一的记录，仅有少数属于重要用户。

空值检查：检查暂停天数字段全空和电费回款逾期天数缺失严重的记录。暂停天数字段全空表示暂停天数全用户都缺失；检查电费回款逾期天数，发现字段记录为空，但具体业务为未逾期。

2、特征因素量化

从营销***或其他***采集来的用户档案、节假日和天气等信息都是用文字或代号表示的，需要对这类变量进行数值化表示。

户名、户号、行业、行业小类、行业大类、高耗能行业、重要性等级等42个字段特征。分类如下：1)用户属性信息；2)经济价值；3)负荷价值；4)发展价值；5) 信用价值；6)行业价值。

因子化转换：(采用0/1/2/3...数字编码来表达)行业、行业小类、行业大类、高耗能行业、重要性等级、用电类别、电压等级、所在区域、投资规模、产能规模、负荷性质；

3、特征拓展：

1)归一化拓展：(将用户数据值设置为[0-1]之内数据作为特征)电费、合同容量、近一年平均售电量、近6个月平均售电量、近3个月平均售电量、运行容量；

2)离散化拓展：(将用户数据值按大小分段作为特征)电费、合同容量、近一年平均售电量、近6个月平均售电量、近3个月平均售电量、运行容量；

3)排序特征拓展：(将用户数据值按大小排序作为特征)电费、合同容量、近一年平均售电量、近6个月平均售电量、近3个月平均售电量、运行容量；

4)量少数据编码拓展：(onehot 0/1编码)增容次数、减容次数、陈欠电费、陈欠电费占比、违约窃电次数。

4、特征选择：

针对用户属性特征，观测数据的分布均衡情况，初步分析这些维度特征对是否优质和需求项的影响。

针对5类价值特征，观测数据的分布均衡情况，初步分析这些维度特征对是否优质和需求项的影响。查看是否具有关联特性。

综合降维，探索尝试多种方法，综合各种方法的结果进行降维。

5、异常值处理

采集数据存在未采集或异常数据的情况，档案类数据也存在缺失的情况，需要针对这部分数据进行缺失值处理，根据不同业务规则选用不同的缺失值处理方法：

默认值替换：对于某些档案中如负荷性质、电压等级的情况，按普遍的业务规则设置默认值进行计算。

个案剔除法：如果缺失值所占比例比较少，且确实的属性比较重要，则采用个案剔除法，剔除掉该条数据。例如用户档案信息中若用户id丢失，则直接剔除掉该条数据。

均值替换法：如果缺失值是数值类型的，则用前后数据的平均值来填充缺失的数据。

如果缺失值是非数值类型的，则用该属性的众数来补齐缺失的数据。

热卡填充法：在数据集中选择一个与缺失数据对象最相似的对象，用该对象的值代替缺失值。

(三)模型训练阶段

本实施例采用随机森林和逻辑回归法进行模型训练，如图2所示。

1、基于随机森林法训练优质客户判断模型

重要性指标选取

采用以下两种方法进行重要性指标选取：一种是基于OOB误差的方法，称为MDA(Mean Decrease Accuracy)；另一种是基于Gini不纯度的方法，称为MDG(Mean DecreaseGini)。两种方法都是标量值越大表示变量越重要。通过模型训练，得到指标重要性分析结果，对比两种方法得到的重要性指标，具体如下表：

表1

排名	MDA	MDG
			1	累计电量	累计电量
2	累计电费	累计电费
			3	当期电费	当期电费
4	当期电量	当期电量
			5	运行容量	运行容量
6	支票退票次数	力调系数
			7	累计售电均价	行业大类电量增长率
8	行业大类电量增长率	年平均日负荷率
			9	力调系数	电费回款期
10	累计电价增长率	行业小类电量增长率

结合以上重要性指标，确定13个指标为重要性指标，具体如下：

表2

序号	重要性指标	对应数据列
			1	累计电量	7
2	累计电费	8
			3	当期电费	5
4	当期电量	4
			5	运行容量	10
6	力调系数	15
			7	支票退票次数	35
8	累计售电均价	9
			9	行业大类电量增长率	39
10	累计电价增长率	24
			11	年平均日负荷率	11
12	电费回款期	34
			13	行业小类电量增长率	38

通过随机森林法对训练数据进行训练及优化，找出用电行为特征值与用户是否优质之间的对应关系，生成判断客户是否优质的模型。

优选地，采用如下训练过程，实现模型逐步调整，从模型稳定性和准确性两个维度开展模型有效性分析：

全特征训练：样本选取全部47.4万户，模型入参为全部业务指标；

重要特征训练：样本选取全部47.4万户，模型入参为重要性高的前40％指标；

全特征交叉训练：将全部样本平均拆分成10份，每次选择其中9份作为训练样本，剩余1份作为预测样本，循环迭代10次,模型入参为全部业务指标；

重要特征交叉训练：将全部样本平均拆分成10份，每次选择其中9份作为训练样本，剩余1份作为预测样本，循环迭代10次，模型入参为重要性高的前40％指标。

其中，通过分析模型输入变量的显著性系数p进行噪声认定，噪声变量将不纳入模型。

本实施例总计收集47.4万条数据，通过数据清洗，剔除掉3.94万条样本用户。模型训练过程共计应用43.5条样本，其中10.06万户为优质客户，33.39万户为非优质客户，优质与非优质样本的比例0.3比1。

2、采用逻辑回归算法构建优质客户等级判断模型

应用逻辑回归算法得到用户为优质客户的概率P及综合评分Y，其中概率 P＝1/(1+exp(-Y))是关于综合评分Y一个非线性函数。综合评分Y是一个连续变量，通过设置不同的综合评分区间，为进一步细分客户优质等级提供数值依据。将全部优质客户通过逻辑回归模型进行综合评分，评分值Y按照从高到低进行排序形成客户评分趋势图，将优质客户按照四分位法进行划分，确定四个等级优质客户评分区间(如图3)，形成优质客户评级标准。以逻辑回归模型计算存量优质客户的Y值，按其Y值判定该客户优质等级。

优质客户识别模型将所有高压用户分为5类，分别是：非优质客户、一级优质客户(等级低)、二级优质客户(等级较低)、三级优质客户(等级较高)、四级优质客户(等级高)。

在当前的47.4万个训练样本中，概率P大于0.5的被分为优质客户，概率小于等于0.5的被分为非优质客户，基于重要特征的模型分类结果准确率达到99.1％。概率 P＝1/(1+exp(-Y))是关于综合评分Y一个非线性函数，综合评分Y可以作为进一步细分客户优质等级的数值依据。评分值Y按照从高到低进行排序形成客户评分趋势图，将优质客户按照四分位法进行划分，确定四个等级优质客户评分区间(如图3)，形成优质客户评级标准。以逻辑回归模型计算存量优质客户的Y值，按其Y值判定该客户优质等级。

所述逻辑回归还用于单一客户的优质评价：

具体到单一优质客户，以逻辑回归作为辅助来进行单一用户优质判别结果的解释。通过对样本数据的分析，得出每个指标的模型系数K。而K值与特征值的乘积Hi的大小代表指标在反映客户优质程度上的贡献度，从而分析出影响客户优质的主要因素，即用户的优质特质。

(四)模型迭代优化

建模模型版本升级优化的长效机制。通过专家监督开展模型判定结果纠正，不定期对模型判定结果进行有效性分析，在分析结果基础上，通过重新训练模型达到模型版本升级及优化的目的。

(五)模型效果评估

运用专家打分的数据，对最佳模型的准确率、召回率进行检验，评估模型效果。

(六)模型部署应用

对训练好的模型进行集成，通过数据接口收集用户特征数据，定期开展客户优质等级的判定。

实施例二

本实施例的目的是提供一种计算装置。

一种基于随机森林和逻辑回归的优质客户优化识别装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

步骤1：获取样本客户价值特征，并进行优质性判别；

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

步骤1：获取样本客户价值特征，并进行优质性判别；

以上实施例二和三的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本发明的有益效果

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于随机森林和逻辑回归的优质客户优化识别方法，其特征在于，包括以下步骤：

步骤1：获取样本客户价值特征，并进行优质性判别；

2.如权利要求1所述的一种基于随机森林和逻辑回归的优质客户优化识别方法，其特征在于，所述步骤1包括：

3.如权利要求1或2所述的一种基于随机森林和逻辑回归的优质客户优化识别方法，其特征在于，所述步骤1中价值特征包括用户对应的基本属性、经济价值、负荷价值、发展价值、信用价值、行业价值数据。

4.如权利要求1所述的一种基于随机森林和逻辑回归的优质客户优化识别方法，其特征在于，所述步骤2包括：

步骤2.1：对样本用户数据进行预处理；

步骤2.2：基于随机森林法训练优质客户判断模型；

步骤2.3：采用逻辑回归算法构建优质客户等级判断模型；

5.如权利要求4所述的一种基于随机森林和逻辑回归的优质客户优化识别方法，其特征在于，所述步骤2.1包括：数据清洗、特征因素量化、特征拓展、特征选择和异常值处理。

6.如权利要求4所述的一种基于随机森林和逻辑回归的优质客户优化识别方法，其特征在于，所述步骤2.2包括：

7.如权利要求4所述的一种基于随机森林和逻辑回归的优质客户优化识别方法，其特征在于，所述步骤2.3包括：将优质客户判断模型获取的优质客户通过逻辑回归模型进行综合评分；设置多个综合评分区间，得到优质客户等级判断模型。

8.如权利要求1所述的一种基于随机森林和逻辑回归的优质客户优化识别方法，其特征在于，所述方法还包括：对训练好的模型进行集成，通过数据接口收集用户特征数据，定期开展客户优质等级的判定。

9.一种基于随机森林和逻辑回归的优质客户优化识别装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行如权利要求1-8任一项所述的一种基于随机森林和逻辑回归的优质客户优化识别方法。