CN112836926A

CN112836926A - 基于电力大数据的企业经营状况评估方法

Info

Publication number: CN112836926A
Application number: CN202011571639.7A
Authority: CN
Inventors: 王茂宁; 邹开欣; 钟羽中; 邓霖
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-12-27
Filing date: 2020-12-27
Publication date: 2021-05-25
Anticipated expiration: 2040-12-27
Also published as: CN112836926B

Abstract

本发明公开了一种基于电力大数据的企业经营状况评估方法，首先对企业原始电力数据特征提取得到二级维度特征，再对二级维度特征提取得到一级维度特征，进一步将孤立森林异常检测算法和K均值聚类算法相结合，对企业经营状况进行评估。本发明通过对原始数据的分级提取，能够更好地从各方面表现企业经营状况；而且本发明能够在尽量少的主观因素和经验因素的影响下挖掘出电力大数据中的企业经营状况信息，以确保企业经营状况评估的准确性。

Description

基于电力大数据的企业经营状况评估方法

技术领域

本发明属于电力大数据应用技术领域，涉及基于电力大数据的企业经营状况评估技术。

背景技术

大数据技术将推动信息技术平台的升级与改造，补充对非结构化数据分析与利用的能力，增强对海量数据资源的价值挖掘能力。电力大数据是电力公司的新型资产，能够促进电力公司的业务管理向更精细、更高效的方向发展。电力大数据中蕴藏了丰富的与用电企业相关的信息。对电力大数据进行分析，可以挖掘出潜藏在电力大数据中的企业经营状况。

随着近来数据可用性，算力和新算法的快速发展，机器学习已逐渐成为实现人工智能(AI)的关键方法之一。机器学习是计算机科学更广泛领域中人工智能的一个子集。它用计算机和算法从“数据”中学习并发现“模式和洞察”，因为在许多情况下，“模式和洞察”就隐藏在“数据”之中。随着时代发展，从业务流程中积累的数据对人类来说理解起来可能非常复杂。然而算法却能够比人更快、更准确地从数据中发掘出“模式和洞察”。

国网甘肃省电力公司兰州供电公司提出了《综合电力用户缴费指标和行业公开指标的电力用户信用评价方法与***》。该***通过注册时间、履约率、偏差份额、平均功率因数、缴费比例、平均缴费天数、欠费百分比、预存百分比等指标，构建电力用户缴费信用评价。通过行业贡献率和行业公开征信等指标，构建电力用户行业信用。对上述指标进行归一化后使用K-means聚类方法分类，获得企业的信用评价等级。上述电力用户信用评价方法与***存在的主要问题是：(1)由于电力数据更多的反映企业的生产经营状况，且公开征信数据中反映的企业信用有限，因此用这些数据评估企业的信用可信度不高；(2)由于需要人为划分聚类中心的数目，不仅会带有主观因素和经验因素影响，而且事先对企业信用程度并不了解，所以信用的等级并不可靠；(3)信用等级是离散变量，因此通过等级体现信用并不能反应同级别之间企业间的信用差别。

由此可见，目前基于电力大数据的利用大多在对电力企业本身的分析和对用电企业信用评估方法，难以客观、有效的反映企业的生产经营情况，进而难以为企业发展提供有效的数据支持。

发明内容

针对目前基于电力大数据对企业用户评价中存在的可靠性差、难以反映各个企业经营状况差异程度的技术现状，本发明目的旨在提供一种电力大数据的企业经营状况评估方法，基于孤立森林异常检测算法给出每个企业的得分，进一步依据得分对企业经营状况进行聚类分析，这样不仅能够更加客观的反映企业经营状况，而且能够反映各个企业间经营状况的差异。

本发明提供的基于电力大数据的企业经营状况评估方法，主要包括以下步骤：

S1数据预处理

依据企业的与用电相关的若干数据集，过滤掉缺少数据集的企业样本，同时对数据集中样本缺失值、零值进行处理。

S2分级特征提取

从预处理的数据集中提取若干用于表征企业用电信息的若干二级维度特征，然后依据二级维度特征，通过孤立森林异常检测算法得到用于表征企业用电信息异常程度的一级维度特征；该步骤包括以下分步骤：

S21依据二级维度特征计算逻辑，从预处理后的数据集中提取二级维度特征值，并对提取的二级维度特征值进行归一化处理；

S22依据归一化处理后的二级维度特征值，通过孤立森林异常检测算法得到相应的一级维度特征值；

S3将各企业的所有一级维度特征值相加得到企业的总异常得分，然后依据给定的标准，判定企业是否经营状况异常，若是则进入步骤S4；若不是，则企业经营状况正常；

S4将所有经营状况异常的企业，通过聚类算法得到经营状况良好的企业和经营状况较差的企业。

上述基于电力大数据的企业经营状况评估方法，步骤S1中，与用电相关的若干数据集包括企业安全基础用电信息数据集、企业用电量数据集、企业结算电量电费数据集、企业应收电费数据集。一些异常数据对分析的准确性有很大的影响。为此，本发明在数据预处理阶段，分别对异常的数据集及数据集中的缺失值进行处理，具体如下：

(1)数据集缺失处理

对于缺少某个数据集的企业样本，直接过滤掉。当某个企业样本中缺少某个数据集时，会直接影响对该企业经营状况的评估。因此，为了提高对企业经营状况评估的准确性，这里直接将这些企业样本滤除。

(2)数据集中缺失值、零值处理

当数据集中存在样本缺失时，可以采用线性插值法进行补全。

由于本发明中所涉及的逻辑运算使用的是相对量，为了避免产生无穷大数或者非数值值，本发明中将为零值的样本使用一个非常小的给定值代替。

上述基于电力大数据的企业经营状况评估方法，步骤S2中，为了能够更好地从各个方面表现企业经营状况，本发明将原始数据特征提取为分级特征，这里是分为两级：用于表征企业用电信息的二级维度特征和用于表征企业用电信息异常程度的一级维度特征。所述二级维度特征包括但不限于安全用电等级分类、用电时长、企业第一给定时间段内用电量分析、月均电量行业水平、企业用电波动情况、用电量差异度、周期性波动、企业第二给定时间段内平均总电量增长趋势，当前累计滞纳欠费及第三给定时间段内滞纳交费次数等。所述一级维度特征包括但不限于基础用电信息、电量水平、电量波动、电量趋势及违约用电信息等。

步骤S21中，二级维度特征计算逻辑如下：

(1)对于安全用电等级分类，依据企业安全用电等级；

(2)对于用电时长，按照年计算，未满1年按1年计算；

(3)对于企业第一给定时间段内用电量分析，依据企业第一给定时间段内电量平均值；

(4)对于月均电量行业水平，依据企业第一给定时间段内电量平均值与行业第一给定时间段内电量平均值的比值；

(5)对于企业用电波动情况，依据企业第一给定时间段内电量标准值与企业第一给定时间段内电量平均值；

(6)对于用电量差异度，依据(企业第一给定时间段内最大用电量-企业最小用电量)与企业第一给定时间段内月电量平均值的比值；

(7)对于周期性波动，包括三个方面：(i)依据企业最近3个月电量标准值与行业最近3个月用电量标准值的比值；(ii)依据企业最近6个月电量标准值与行业最近6个月用电量标准值的比值；(iii)依据企业最近9个月电量标准值与行业最近9个月用电量标准值的比值；

(8)对于企业第二给定时间段内平均总电量增长趋势，依据第二给定时间段内的总用电量月增长率之和/第二给定时间段；

(9)当前累计滞纳欠费，依据统计的累计滞纳金欠费金额；

(10)近第三给定时间段内滞纳交费次数，依据统计的第三给定时间段内滞纳交费次数。

步骤S22中，一级维度特征是由与之相关联的二级维度特征，通过孤立森林异常检测算法得到的。所述基础用电信息与安全用电等级分类和用电时长相关联；所述电量水平与企业第一给定时间段内用电量分析和月均电量行业水平相关联；所述电量波动与企业用电波动情况、用电量差异度和周期性波动相关联；所述电量趋势与企业第二给定时间段内平均总电量增长趋势相关联；所述违约用电信息与当前累计滞纳欠费和第三给定时间段内滞纳交费次数相关联。

步骤S22中，进一步按照以下分步骤，通过孤立森林异常检测算法得到相应的一级维度特征值：

S221利用各企业归一化处理后的所有二级维度特征值构建训练集，然后利用构建的训练集对孤立森林异常检测模型进行训练得到由若干孤立树(isolation tree)组成的孤立森林异常检测模型；

S222遍历各企业，将企业与各一级维度特征相关联的归一化处理后的二级维度特征值输入到训练好的孤立森林异常检测模型中，得到该企业的一级维度特征值。

上述步骤S221中，一个孤立树隔离树的构建过程包括以下分步骤：

S2211从训练集中每个二级维度特征中随机抽取，共抽取

条数据样本构建孤立树训练子集；

S2212从孤立树训练子集中随机选取一个二级维度特征，并在这个特征的所有值范围内随机选一个值，对样本进行二叉划分，将样本中小于该值的划分到节点左边，大于等于该值的划分到节点的右边，得到一个***条件和左右两边的数据集；分别在左右两边的数据集上重复上面过程，直至达到终止条件；终止条件包括以下两项：

1)数据本身不可再分(只包含一个样本，或者全部样本都相同)；

2)孤立树的高度达到

重复上述步骤S2211～S2212，直至孤立树数量达到设定值，所有构建的孤立树组成孤立森林异常检测模型。

上述步骤S222中，按照以下公式得到企业样本一级维度特征参数对应的异常得分：

式中，x表示企业样本一级维度特征参数对应的归一化后二级维度特征参数集合，h(x)表示企业样本x的高度，指从树的根节点需要经历几条边才能够到达叶子节点，E(h(x))表示x在所有孤立树中的平均高度。高度越低，异常得分越高。c(n)表示二叉搜索树的平均路径长度，其计算公式如下：

c(n)＝2H(n-1)-(2(n-1)/n)；

n表述企业数量，H(n-1)表示谐波数：

H(n-1)＝ln(n-1)+ξ；

式中，ξ表示欧拉常数，其值为0.5772156649。

将企业样本一级维度特征参数对应的异常得分进行进一步归一化处理，得到企业样本的归一化异常得分，即一级维度特征值。

上述基于电力大数据的企业经营状况评估方法，步骤S3中，本发明中给定的企业经常状况是否异常的判断标准为：将企业的总异常得分在所有企业的总异常得分最大值乘以0.6以上(即企业的总异常得分大于所有企业的总异常得分最大值乘以0.6)的企业判定为经营状况异常企业。这些经营状态异常的企业仍可分为两个类别：一类是经营状况很好的企业，另一类是经营状况很差的企业。这通过本发明步骤S4来实现。

上述基于电力大数据的企业经营状况评估方法，步骤S4中，采用K均值聚类的方法来实现对经营状况异常企业的聚类，具体包括以下分步骤：

S41从经营状况异常企业中随机选取2个样本分别作为经营状况很好企业的类中心和经营状况很差企业的类中心；

S42计算经营状况异常企业其余样本与两个作为经营状况很好企业类中心和经营状况很差企业类中心的距离；

本步骤可以按照以下公式计算经营状况异常企业其余样本与两个作为经营状况很好企业类中心和经营状况很差企业类中心的距离：

式中，y_i表示第i个企业样本一级维度特征参数；u_k表示第k个聚类中心，这里k＝1，2；y_i，u_k都是p维向量，p表示一级维度参数个数，y_i＝{y_i1,y_i2,…,y_ip},u_k＝{u_k1,u_k2,…,u_kp}。

S43将经营状况异常企业其余样本回归于与之距离最近的经营状况很好企业类中心和经营状况很差企业类中心，完成聚类；

S44根据步骤S43聚类结果，重新计算经营状况很好企业的类中心和经营状况很差企业的类中心；

本步骤，按照以下公式重新计算经营状况很好企业的类中心和经营状况很差企业的类中心；

式中，y_i表示第i个企业样本一级维度特征；u_k表示第k个聚类中心，c_k表示第k个类别的簇，这里k＝1，2；|c_k|表示第k个类别中企业样本个数；

S45判断是否满足聚类终止条件，若满足，则完成对经营状况异常企业的最终聚类，并进入下一步；否则返回步骤S42；

本步骤中，聚类终止条件为经营状况很好企业的类中心和经营状况很差企业的类中心不再发生改变或者达到设置的迭代次数上限阈值，只要满足其一即可；

S46以企业样本经营状况很差企业类中心的距离和与经营状况很好企业类中心的距离的比值，作为企业经营状况得分，对异常企业的企业经营状况进行评估；

本步骤中，通过K均值聚类后可以得到所有企业中经营状况很好和经营状况很坏的类中心(即企业经营状况最好和企业经营状况最差)，类中心在正特征空间(与企业电力表现是正相关的特征)中离原点远的代表表现优异的企业。本步骤中进一步以各个企业样本在原始特征空间中距离坏类中心与好类中心的比值作为企业经营状况得分，比值越大说明该企业样本距离好类中心越近，离坏类中心越远，该企业经营状况越好；否则，比值越小说明该企业样本距离坏类中心越近，离好类中心越远，该企业经营状况越差。因此，通过这一比值可以反映各个企业间经营状况的差异。

与现有技术相比，本发明提供的基于电力大数据的企业经营状况评估方法，具有如下十分突出的优点和有益技术效果：

1、本发明首先对企业原始电力数据特征提取得到二级维度特征，再对二级维度特征提取得到一级维度特征，从而实现对原始数据的分级提取，这样能够更好地从各方面表现企业经营状况，为准确评估企业经营状况提供有效数据。

2、本发明将孤立森林异常检测算法和K均值聚类算法相结合，在尽量少的主观因素和经验因素的影响下挖掘出电力大数据中的企业经营状况信息，以确保企业经营状况评估的准确性。

3、本发明能够反映各个企业之间经营状况的差异。

附图说明

图1为本发明基于电力大数据的企业经营状况评估方法流程示意图。

图2为孤立算法得到的归一化异常得分与E(h(x))关系。

具体实施方式

以下将结合附图给出本发明实施例，并通过实施例对本发明的技术方案进行进一步的清楚、完整说明。显然，所述实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明内容，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

实施例1

本实施例以多家企业用电大数据为基础，通过本发明提供的企业经营状况评估方法来对多家用电企业的经营状况进行评估分析，以进一步对本发明所提供的企业经营状况评估方法进行解释说明。

本实施例提供的基于电力大数据的企业经营状况评估方法，如图1所示，主要包括以下步骤：

S1数据预处理

电力大数据中，与企业用电相关的若干数据集包括企业安全基础用电信息数据集、企业用电量数据集、企业结算电量电费数据集、企业应收电费数据集。一些异常数据对分析的准确性有很大的影响。为此，本实施例在数据预处理阶段，分别对异常的数据集及数据集中的缺失值进行处理，具体如下：

(1)数据集缺失处理

对于缺少某个数据集的企业样本，直接过滤掉。

(2)数据集中缺失值、零值处理

当数据集中存在样本缺失时，可以采用常规的线性插值法进行补全。

由于本实施例中所涉及的逻辑运算使用的是相对量，为了避免产生无穷大数或者非数值值，本发明中将为零值的样本使用一个非常小的给定值0.001代替。

S2分级特征提取

从预处理的数据集中提取若干用于表征企业用电信息的若干二级维度特征，然后依据二级维度特征，通过孤立森林异常检测算法得到用于表征企业用电信息异常程度的一级维度特征。

本实施例所涉及的二级维度特征及相应的特征提取逻辑如表1所示。

表1二级维度特征及相应的特征提取逻辑

注：企业最近N(N＝3,6,9,12)个月电量标准值，即企业最近N个月每个月实际用电量；

一级维度特征与二级维度特征的关联关系如表2所示。

表2一级维度特征与二级维度特征的关联关系

依据前面给出的二级维度特征、相应的特征提取逻辑以及一级维度特征与二级维度特征的关联关系，步骤S2包括以下分步骤：

S21依据二级维度特征计算逻辑，从预处理后的数据集中提取二级维度特征值，并对提取的二级维度特征值进行归一化处理。

首先按照表1给出的二级维度特征及相应的特征提取逻辑，对每个企业进行二级维度特征提取。

然后对一个二级维度特征，按照以下公式对相应的企业样本数据进行归一化处理：

式中，

表示第i个原始企业样本的第j个二级维度特征，x_max,j表示第j个二级维度特征中的原始企业样本最大值，x_min,j是表示第j个二级维度特征中的原始企业样本最小值；x_ij表示归一化后的第i个原始企业样本的第j个二级维度特征；i＝1,2，…，n，n表示企业样本个数；j＝1,2，…，d，d表示二级维度特征的维度。

表3给出了部分企业样本归一化处理后的部分二级维度特征。

表3企业提取的二级维度特征归一化结果

注：周期性波动-95，最近9个月的周期性波动中，第5个月的波动情况

S22依据归一化处理后的二级维度特征值，通过孤立森林异常检测算法得到相应的一级维度特征值。

本步骤进一步按照以下分步骤，通过孤立森林异常检测算法得到相应的一级维度特征值：

S221利用各企业归一化处理后的所有二级维度特征值构建训练集，然后利用构建的训练集对孤立森林异常检测模型进行训练得到由若干孤立树组成的孤立森林异常检测模型。

本实施例中，由各企业归一化处理后的所有二级维度特征值构建的训练集数据为X＝(X₁,X₂,…,X_n)，数据个数为n(企业数量)，对于第i个企业样本，X_i＝(x_i1,x_i2,…,x_id)，d为数据维度(即二级维度特征的个数)，孤立树的数量为100。

一个孤立树(isolation tree)的构建过程包括以下分步骤：

S2211从训练集中每个二级维度特征中随机抽取，共抽取

条数据样本构建孤立树训练子集；

2)孤立树的高度达到

只要满足以上两项中的1项，孤立树的训练即结束。

本步骤中，在不考虑树高度的归一化情况下，对于企业样本的异常得分，定义为：

s(x)＝2^-E(h(x)) (2)；

式中，x表示企业样本一级维度特征参数对应的归一化后二级维度特征参数集合，h(x)表示企业样本x的高度，指从树的根节点需要经历几条边才能够到达叶子节点，E(h(x))表示x在所有孤立树中的平均高度。

利用c(n)(即二叉搜索树的平均路径长度)对上述异常得分进行树高度的归一化。

归一化后的异常得分为：

并将其作为企业样本一级维度特征参数对应的异常得分。

c(n)计算公式如下：

c(n)＝2H(n-1)-(2(n-1)/n) (4)；

n表述企业数量，H(n-1)表示谐波数：

H(n-1)＝ln(n-1)+ξ (5)；

式中，ξ表示欧拉常数，其值为0.5772156649。

s(x)与E(h(x))关系如图2所示。从图中可以看出，s(x,n)得数越接近-0.5，其是异常点的可能性越高；如果得到都比0要大，那么基本可以确定为正常数据；如果所有分数都在0附近，那么数据不包含明显的异常样本。

将第i个样本第l个一级维度特征参数对应的所有归一化后二级维度特征参数输入到训练好的孤立森林异常检测模型中，按照公式(3)得到第i个样本第l个一级维度特征参数对应的异常得分s(X′_i,n)_l，X′_i表示第i个样本第l个一级维度特征参数对应的所有归一化后二级维度特征参数组成的集合。

然后按照以下公式对异常得分s(X′_i,n)_l进行进一步归一化处理，得到第i个样本第l个一级维度特征参数的归一化异常得分，即一级维度特征值y_il：

式中，s(X′,n)_max,l表示所有企业样本中第l个一级维度特征异常得分最大值，s(X′,n)_min,l表示所有企业样本中第l个一级维度特征异常得分最小值；y_il表示第i个样本第l个一级维度特征参数；i＝1,2，…，n，n表示企业样本个数；l＝1,2，…，p，p表示二级维度特征的维度。

按照上述步骤S22，得到的部分企业各一级维度特征值见表4所示。

表4企业提取的一级维度特征结果

企业	基础用电信息	电量水平	违约用电信息	电量趋势	电量波动
						企业1	0	24.57	0	100	80.87
企业2	0	50.91	0	19.92	13.49
						企业3	0	24.38	0	46.95	20.22
企业4	0	6.72	0	0	8.84
						企业5	0	34.70	0	53.30	44.48
企业6	0	5.95	0	0.85	13.51
						企业7	0	5.47	0	82.81	68.78
企业8	0	14.21	0	2.90	75.49
						企业9	0	46.73	88.92	18.27	75.57
企业10	0	2.89	0	5.51	37.90
						企业11	0	10.59	0	4.57	15.99
企业12	0	19.41	0	8.20	17.44
						企业13	0	22.30	0	15.00	40.17
企业14	0	17.52	0	5.80	12.71
						企业15	0	1.67	0	24.19	57.76
…	…	…	…	…	…

S3将各企业的所有一级维度特征值相加得到企业的总异常得分，然后依据给定的标准，判定企业是否经营状况异常，若是则进入步骤S4；若不是，则企业经营状况正常。

本步骤中，给定的企业经常状况是否异常的判断标准为：将企业的总异常得分在所有企业的总异常得分最大值乘以0.6以上(即企业的总异常得分大于所有企业的总异常得分最大值乘以0.6)的企业判定为经营状况异常企业。这些经营状态异常的企业仍可分为两个类别：一类是经营状况很好的企业，另一类是经营状况很差的企业，这通过本发明步骤S4来实现。

本步骤，采用K均值聚类的方法来实现对经营状况异常企业的聚类，具体包括以下分步骤：

S41从经营状况异常企业中随机选取2个样本分别作为经营状况很好企业的类中心和经营状况很差企业的类中心。

S42以欧式距离为距离测度计算经营状况异常企业其余样本与两个作为经营状况很好企业类中心和经营状况很差企业类中心的距离：

S43将经营状况异常企业其余样本回归于与之距离最近的经营状况很好企业类中心和经营状况很差企业类中心，完整聚类。

S44根据步骤S43聚类结果，按照以下公式重新计算经营状况很好企业的类中心和经营状况很差企业的类中心；

式中，y_i表示第i个企业样本一级维度特征；u_k表示第k个聚类中心，c_k表示第k个类别的簇，这里k＝1，2；|c_k|表示第k个类别中企业样本个数。

S45判断是否满足聚类终止条件，若满足，则完整对经营状况异常企业的最终聚类，并进入下一步；否则返回步骤S42。

本步骤中，聚类终止条件为经营状况很好企业的类中心和经营状况很差企业的类中心不再发生改变或者达到设置的迭代次数上限阈值，只要满足其一即可。

S46以企业样本经营状况很差企业类中心的距离和与经营状况很好企业类中心的距离的比值，作为企业经营状况得分，对异常企业的企业经营状况进行评估。

本步骤中，通过K均值聚类后可以得到所有企业中经营状况很好和经营状况很坏的类中心(即企业经营状况最好和企业经营状况最差)，类中心在正特征空间(与企业电力表现是正相关的特征)中离原点远的代表表现优异的企业。

为了反映各个企业间的经营状况差异，本步骤中进一步计算各个企业样本在原始特征空间中距离坏类中心与好类中心的比值，并将其定义为企业经营状况得分，如表5所示。从表5可以看出，比值越大说明该企业样本距离好类中心越近，离坏类中心越远，该企业经营状况越好；否则，比值越小说明该企业样本距离坏类中心越近，离好类中心越远，该企业经营状况越差。

表5企业经营状况得分