CN112101420A

CN112101420A - 一种相异模型下Stacking集成算法的异常用电用户识别方法

Info

Publication number: CN112101420A
Application number: CN202010826507.8A
Authority: CN
Inventors: 程超鹏; 彭显刚; 黄景林; 刘云凯
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-12-18

Abstract

本发明公开了一种相异模型下Stacking集成算法的异常用电用户识别方法，从用电信息采集***中单个用户用电负荷数据的记录情况、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标，提取用户用电特征集，更加有效挖掘数据深层次特征。相比于单一模型，本发明从跨越空间的概念选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型做为Stacking集成结构的基分类模型。基于相异模型、相异特征构建大量模型为基模型进行原特征的学习，从不同层次、不同角度挖掘数据信息，对用户异常用电有更优的识别性能。

Description

一种相异模型下Stacking集成算法的异常用电用户识别方法

技术领域

本发明涉及用电监察的技术领域，尤其涉及到一种相异模型下Stacking集成算法的异常用电用户识别方法。

背景技术

用电侧电力用户异常用电模式背后存在着窃电、欺诈等一系列欺骗性用电行为，所导致的损失称为非技术性损失NTL(Non-Technical Loss)。

非技术性损失在实际运行的电网中普遍存在，对电网的正常运行会产生严重的影响，扰乱地区电网的正常调度，甚至会由于用户私自改接线路而引发安全事故。当今电网公司主要通过加强计量设备管理、采用专用计量箱和人工巡检等方法来识别异常用电用户从而降低非技术性损失。但这些方法需要投入大量的人力物力，且不能及时发现非技术性损失，供电企业的用电检查工作异常艰巨。如何准确及时的检测出配电网异常用电用户，从而减少非技术性损失，挽回巨额的经济损失是供电企业填补电力缺口维护正常用电秩序所需要解决的难题。

异常用电用户识别是指在电网公司的计量数据***中，对用户历史用电数据进行挖掘分析，采用一定手段对异常用电用户进行筛选与识别。如何有效挖掘历史数据信息，以及采用何种算法模型进行精确识别，是异常用电用户识别技术需要解决的主要问题。

为此，现有的技术中，包括有：

(1)对用电历史数据按照均值、最值、方差等统计信息进行特征提取，建立用户用电特征集，输入基于随机森林、SVM等机器学习算法的异常用电检测模型，对用户进行识别。

(2)将用电历史数据预处理后，输入聚类、回归等无监督模型中，输出每个用户的异常得分值。设置惩罚阈值函数，超出阈值范围的做为异常用电的用户。

但现有技术的缺点主要有以下三点：

1)利用无监督模型进行异常检测训练的技术中，针对离群程度设置的阈值函数，其判定是否异常的收敛性相比于有监督模型中用户实际标签的收敛性差，无法区分部分特殊用户用电模式是否异常，不适应于用电行为复杂多样的用户识别情况。

2)对于用电特征指标的建立比较片面，仅仅是简单的统计信息(均值、最值、方差等)或者缺失值、异常值占比等，无法有效挖掘数据深层次特征。

3)提取的用电特征数据内部空间结构和不同特征之间的关系是非常复杂的，识别异常用电用户得算法模型单一，将导致识别方法仅从单一模型角度出发训练数据，无法从不同的数据空间角度以及数据结构角度，对用电特征数据深度挖掘综合分析。

发明内容

本发明的目的在于克服现有技术的不足，提供一种识别精度高的相异模型下Stacking集成算法的异常用电用户识别方法。

为实现上述目的，本发明所提供的技术方案为：

一种相异模型下Stacking集成算法的异常用电用户识别方法，包括以下步骤：

S1、选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型作为Stacking集成结构第一阶段的的基分类模型，Xgboost作为Stacking集成结构第二阶段的元分类器模型；

S2、输入历史用户用电数据；

S3、从用电信息采集***中单个用户用电负荷数据的统计记录、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标，提取用户用电特征集；

S4、结合各用户相应标签，将用户用电特征集分为Stacking模型的训练集与测试集；

S5、利用第一阶段的基分类模型对训练集和测试集进行Stacking转换，得到元训练集和元测试集；

S6、将经过Stacking第一阶段转换后的元训练集以及相对应用户标签输入第二阶段的元分类器模型Xgboost中训练优化，最后输入元测试集进行预测，输出最终的分类结果，判断该用户用电的是否异常。

进一步地，所述步骤S3中，提取统计记录特征时，剔除无意义数据后，利用拉格朗日插值法及线性二次插值法进行数据插值处理。

进一步地，所述步骤S3中，提取时间序列特征时，设置不同的切分粒度、不同的滑动窗口大小，利用时间窗口技术提取特征，并用主成分分析法进行降维处理得到时序特征。

进一步地，所述步骤S3中，提取用户用电相似度特征时，计算每个用户每四周内的用电数据的皮尔逊相关系数以及余弦相似度作为用户的用电相似度特征。

进一步地，所述步骤S5的具体过程如下：

将训练集五折交叉得到训练子集{Flod₁，Flod₂，…，Flod₅}，每个基分类模型均以一个Flod为测试集，其余四份为训练集进行学***均得单个模型对测试集的Stacking转换，综合四个基分类模型得出经Stacking转换后的元测试集。

与现有技术相比，本方案原理及优点如下：

1)从用电信息采集***中单个用户用电负荷数据的记录情况、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标，提取用户用电特征集，更加有效挖掘数据深层次特征。

2)相比于单一模型，本方案从跨越空间的概念选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型做为Stacking集成结构的基分类模型。基于相异模型、相异特征构建大量模型为基模型进行原特征的学习，从不同层次、不同角度挖掘数据信息，对用户异常用电有更优的识别性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种相异模型下Stacking集成算法的异常用电用户识别方法的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所示，本实施例所述的一种相异模型下Stacking集成算法的异常用电用户识别方法，包括以下步骤：

S1、选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型作为Stacking集成结构第一阶段的的基分类模型；

多个相异分类模型下的Stacking集成结构，可从不同的空间角度和结构角度进行数据挖掘，取长补短，综合改进，达到优化结果的目的。因此，本实施例从跨越空间的概念选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型做为Stacking集成结构的基分类模型。其中，SVM分类模型适合于解决非线性问题，相对于神经网络算法无需考虑局部极小值，泛化能力比较强。但对于核函数的高维映射解释力不强，尤其是径向基函数，对缺失数据异常敏感。RF模型做为有监督学习的代表，其参数少不容易出现过拟合现象的优点，使其可以处理高维度的数据，以及随机采样的方式使得RF算法有很强的抗干扰能力，当存在大量的缺失数据时,仍然可以维持较高准确度，RF在面对取值划分较多的特征指标时，决策树在分支节点随机选择特征子集容易忽略更合适的指标属性，RF在这种特征指标上产出的权值是不可信的。以决策树为弱分类器的集成算法GBDT，作为分类模型时，是基于权值的弱分类器的集成，可以灵活处理用户用电特征中连续值和离散值等各种类型的的指标数据。同时，其自带的损失函数对各类型数据异常值的鲁棒性非常强，分类的准确率较高。其缺点在于不能并行训练，计算复杂度大，导致该模型效率低。

相比于机器学习，深度学习对数据有更深一步的扩展，能有效挖掘数据潜在特征。深度森林(Deep Forest)算法是2017年周志华发表论文《Deep Forest:Towards AnAlternative to Deep Neural Networks》中所提出来的一种基于树模型的gcForest深度学习算法。该算法主要分为多粒度扫描以及级联森林两个阶段。每个阶段都包含随机森林与完全随机森林组合，数据集经过多粒度扫描以及级联森林两个阶段的表征学习，使得最终特征矢量包括更多的特征，对数据信息进行更深层次的特征挖掘。gcForest算法超参数少，计算开销小，模型对超参数调节不敏感，同时在运行过程中，能够通过适当的终止，使得模型复杂度可自适应伸缩，作为分类器对特征的训练预测有更高的经确度，本实施例选取深度森林作为基分类模型之一。

另外，本步骤中，将Xgboost作为Stacking集成结构第二阶段的元分类器模型；

相比于基分类器模型需要从不同空间角度、不同类型算法的优缺点进行互补，元分类器模型的选择更偏向于考虑其分类过程中全方位的优化。Xgboost是由2014年陈天奇提出的一种分类算法。在GDBT的基础上，对损失函数进行二阶的泰勒展开，并在目标函数之外加入正则项对整体求最优解，用以权衡目标函数的下降程度，正则项降低了训练模型间的差异性，使学习出来的模型更加简单，降低模型的复杂程度；在特征选择时，借鉴随机森林特征列抽样(column sample)方式，增加了抗过拟合能力；对于输入特征数据缺失、类别one-hot编码以及大量0值的现象，Xgboost在分类的过程中，可以学习出默认的节点***方向，减小对缺失数据的敏感程度，更适合于高维的特征数据训练。因此，本实施例选取Xgboost作为Stacking集成结构的元分类器模型。

S2、输入历史用户用电数据；

S3、从用电信息采集***中单个用户用电负荷数据的统计记录、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标，提取用户用电特征集；具体如下：

用户存在异常用电行为时，用电负荷数据在***中的记录量、数据大小以及变化趋势相比正常用户存在着一定的差别性。因此本实施例从用电信息采集***中单个用户用电负荷数据的记录情况、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标，以某市用电信息采集***中用户用电负荷数据为基础，其中包括异常用户与正常用户，构建Stacking集成结构所需数据集。

(1)统计记录特征：通过对用户用电数据记录量进行统计提取作为用户用电的统计记录特征(Record Feature,RF)，如表1所示。

表1用户统计记录特征指标

(2)时间序列特征：本实施例利用滑动窗口(Sliding Window，SW)技术在不同的切分粒度下滑动，计算时间框内数据的统计指标来提取用电时间序列特征。降低噪声的同时，让相异的分类模型学到不同层次、不同粒度的用户用电信息。由于不同用户的用电习惯复杂多样，导致不同用户的用电周期不同。因此，本实施例以周、月、季三个周期作为不同的切分粒度，1个单位长度为时间窗口大小，对每次滑动窗口中的用户用数据提取统计量作为时间序列特征(Time Feature)。其中，时间序列特征指标如表2所示。

表2用户时间序列特征指标

滑动窗口技术在获取时间序列特征的维数较大，例如：对180个记录数进行特征提取，获得时序特征1788维，造成特征冗余的现象，从而影响模型最终的识别性能。因此，在保证信息不丢失的情况下，利用主成分分析法(Principal Component Analysis，PCA)对时序特征进行降维处理，减少特征冗余，避免特征维数过高而降低检测模型的效率，增强Stacking结构中分类器的泛化能力。

(3)用电相似度特征：用户不同时间段之间的用电相似程度反映了用户不同时间内用电趋势的变化情况，不同时间段的相似度特征对电量骤降、突变的异常用电行为十分敏感,相似度系数的大小表名该用户两个时间段内突变程度。因此，本实施例根据用户用电数据，统计每四周一个时间段的每日用电量为X＝(x₁，x₂，…x₂₈)。其中，某一天维度记录数缺失的进行插补0值；在数据尾部，不足四周的天数进行舍弃。利用皮尔逊相关系数(Pearson Correlation Coefficient，PCC)以及余弦相似度函数来计算用户用电前后相似度系数作为该用户用电相似度特征(Similarity Feature)。

皮尔逊相关系数：

余弦相似度函数：

式中，(x₁，x₂，…，x₂₈)为前一个时间段用户的每日用电量，(y₁，y₂，…，y₂₈)为后一个时间段用户的每日用电量。

结合式(3)与式(4)可知，在皮尔逊相关系数计算中，两个向量先进行中心化(centered)处理后再计算cos函数，是余弦相似度在维度值缺失情况下的一种改进。若直接将两相似度系数作为用户特征指标，将导致用户部分用电前后时间段的两种用电相似度系数结果类似，从而产生特征冗余。因此，在特征提取时，需要对计算所得Pearson系数以及余弦相似度函数进行降维处理，最终得到用户用电相似度特征(Similarity Feature)。

提取用电特征集，结合用户标签构建Stacking集成模型所需的数据集。

S4、结合各用户相应标签，将用户用电特征集分为Stacking模型的训练集S_N＝{(x_n，y_n)，n＝1，2，…，N}与测试集T_M＝{(x_m)，m＝1，2，…，M}；

S5、利用第一阶段的基分类模型对训练集和测试集进行Stacking转换，得到元训练集和元测试集：

步骤S4中所得训练集S_N＝{(x_n，y_n)，n＝1，2，…，N}，测试集T_M＝{(x_m)，m＝1，2，…，M}，其中x为用电特征向量，y为用户标签，选取SVM、GBDT、RF以及Deep Forest作为Stacking第一阶段的基分类器模型。为了保证样本数据的多样性，提高模型的泛化能力，Stacking算法第一阶段的基模型均采用KFold交叉验证的方式来产生预测值。对于单个基分类模型，将训练集S_N分为不交叉的5份训练子集{Flod₁，Flod₂，…，Flod₅}，选取其中一份为基分类模型的测试集，其余4份为训练集，进行循环训练，直到将Flod₁到Flod₅各测试一遍，得到一个基分类模型对训练集的Stacking转换：Y_p＝{(y_p1)，(y_p2)，…，(y_pN)}，则训练集S_N经过Stacking第一阶段转换为元训练集Y_meta＝{(Y₁)，(Y₂)，(Y₃)，(Y₄)}。

在每个基分类模型五轮训练的同时，基分类模型也在原始测试集T_M上生成了k列测试结果，对这k列取平均得T_p＝((T_p1)，(T_p2)，…(T_pm))，作为一个基分类模型对测试集的Stacking转换。综合四个基分类模型得出经Stacking转换后的元测试集T_meta＝{(T₁)，(T₂)，(T₃)，(T₄)}。

为证明本实施例的有效性，下面进行如下仿真实验：

从某市电网用电信息采集***中随机选取7139个电力用户2015年内的用电量数据作为原始数据集，采样间隔为一天，其中包括正常用户及异常用户标签，验证本实施例所提出相异模型下Stacking集成结构的异常用电用户识别方法的有效性。

选取了SVM、GBDT、RF、Deep Forest以及Xgboost五种分类模型进行对比，其中，针对用电特征集结构属性，五种模型的调参结果如下：SVM模型惩罚参数设置为10，选择RBF函数作为kernel，其中gamma值设置为1；RF模型决策树数量以及树最大深度分别为26和17；GBDT模型弱学习器的最大迭代次数与权重缩减系数分别为60和0.15，损失函数C设置"deviance"；Deep Forest分类模型中多粒度扫描时所需的决策树数量K为30，切分窗口window大小为15，shape_1X样本结构为(1，69)，级联森林阶段中完全随机森林与随机森林决策树均设置为67；Xgboost模型设置学习速率learning_rate以及gamma都为0.1，最佳迭代次数n_estimators为550次。

通过混淆矩阵(Confusion Matrix)、准确率(accuracy)、AUC(Area Under Curve)指数和训练时间四个指标来判断评判不同分类方法的优劣，计算所得SVM、GBDT、RF、DeepForest、Xgboost和stacking集成六种分类模型在用电特征集上的实验结果如表3、表4所示。

表3各分类模型的混淆矩阵

表4各分类模型仿真结果对比

由表3、表4可知，检测样本中正常用户1057个，异常用户297个。误检率为实际正常却分类异常的个数与实际正常的比值；检出率为实际与分类均异常的个数与实际异常的比值。其中，相比于其他四种模型，Stacking与Deep Forest模型误检率比较接近，检出率也低，但前者精确率高为93.8％。说明深度学习模型相比于机器学习模型，在分类方面有着较强的数据信息挖掘能力。本实施例Stacking集成结构中加入深度学习为基分类模型之一，更深层次的挖掘数据空间结构信息，提高模型泛化能力。在三种机器学习基分类模型中，SVM模型对缺失值异常敏感，导致精确率最低为86.6％；RF模型抗拟合能力强，相比于SVM、GBDT的AUC的值较大，泛化能力最好；GBDT精确率较高，但计算程度复杂，训练时间长。

综合看来，Stacking结构通过集成多个相异模型，从不同层次的角度观测数据，取长补短综合改进，最终分类效果明显优于其他五种模型。但由于实验过程中每个基分类模型都需要交叉训练五次，导致训练时间较长，一般为多个基模型训练时间之和的五倍左右。在实际的用电监察工作中，异常用电用户检测并非为实时计算任务。供电企业可通过设置固定的程序开始时间，对用户进行异常用电检测识别得出结果。

本实施例所提方法适应于用户类型复杂多样的用电检查工作中，有助于供电企业稽查窃电。在下一阶段工作中，针对多层Stacking集成结构以及不同数据类型的用电侧数据进行深入研究，进而为电网用电检查工作提供更加可靠的理论依据。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种相异模型下Stacking集成算法的异常用电用户识别方法，其特征在于，包括以下步骤：

S2、输入历史用户用电数据；

2.根据权利要求1所述的一种相异模型下Stacking集成算法的异常用电用户识别方法，所述步骤S3中，提取统计记录特征时，剔除无意义数据后，利用拉格朗日插值法及线性二次插值法进行数据插值处理。

3.根据权利要求1所述的一种相异模型下Stacking集成算法的异常用电用户识别方法，所述步骤S3中，提取时间序列特征时，设置不同的切分粒度、不同的滑动窗口大小，利用时间窗口技术提取特征，并用主成分分析法进行降维处理得到时序特征。

4.根据权利要求1所述的一种相异模型下Stacking集成算法的异常用电用户识别方法，其特征在于，所述步骤S3中，提取用户用电相似度特征时，计算每个用户每四周内的用电数据的皮尔逊相关系数以及余弦相似度作为用户的用电相似度特征。

5.根据权利要求1所述的一种相异模型下Stacking集成算法的异常用电用户识别方法，其特征在于，所述步骤S5的具体过程如下：

将训练集五折交叉得到训练子集{Flod₁，Flod₂，...，Flod₅}，每个基分类模型均以一个Flod为测试集，其余四份为训练集进行学***均得单个模型对测试集的Stacking转换，综合四个基分类模型得出经Stacking转换后的元测试集。