CN107492043A

CN107492043A - 窃电分析方法及装置

Info

Publication number: CN107492043A
Application number: CN201710785696.7A
Authority: CN
Inventors: 刘岩; 丁恒春; 袁瑞铭; 易忠林; 巨汉基; 钟侃; 殷庆铎; 史辉; 黄昌宝; 魏彤珈; 崔文武; 郑思达; 田晓溪; 庞富宽; 李文文; 张春娟
Original assignee: Can Stc (beijing) Technology Co Ltd; State Grid Corp of China SGCC; North China Electric Power Research Institute Co Ltd; Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd
Current assignee: Can Stc (beijing) Technology Co Ltd; State Grid Corp of China SGCC; North China Electric Power Research Institute Co Ltd; Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2017-12-19

Abstract

本发明公开了一种窃电分析方法及装置，其中方法包括：采集用户的用电行为数据以及用户的档案数据；将采集的数据制成样本数据，样本数据包括训练数据、测试数据和预测数据，其中，训练数据和测试数据携带标签，标签是根据用户的历史窃电记录一一标记而成；将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型，对模型进行训练与测试；将预测数据加载至训练好的模型，获得用户的窃电行为分析结果。本发明可以实现高效率的、准确的窃电嫌疑分析。

Description

窃电分析方法及装置

技术领域

本发明涉及电力管理技术领域，尤其涉及一种窃电分析方法及装置。

背景技术

窃电是伴随着供电产生之初就一直存在的不法行为，窃电行为给电力部门和人民的生活带来了极大的危害，轻则损坏低压电气设备，损害电力公司的财产利益，重则导致大面积网域停电甚至因窃电造成触电伤亡事故，威胁他人的人身安全。为了打击窃电行为，供电企业一直致力于反窃电的工作中，但是随着科技的发展，窃电手段越来越“高超”，行为越来越隐蔽，反窃电的工作难度也不断增大。

窃电的形式多种多样，但最终目的是修改计量数据，所以大多是通过改变计量装置来进行窃电。传统的反窃电方式主要是更换为更先进的计量装置或增加监督设备。具体分为以下3种方式：

1.合理选取计量设备，比如互感器等，由于计量装置经常会受电流互感器的影响而出现误差，所以互感器的工作环境和互感器倍率很重要，工作人员应该控制好这两个因素。

2.更新电能表，安装具有防窃电方式的电能表。

3.安装对应的电量监视器，监视器可以监察和分析电量实际的运行情况和在线运行的数据，工作人员通过监视器可以基本掌握窃电的相关数据，从而减小排查范围。

这些方法虽然起到了不错的效果，但是总体来说，其不足在于：效率偏低，设备和人力的成本昂贵，并且现在窃电手段又呈现高科技、隐蔽性，传统的反窃电方式已经不再适合，需要新的更有力有效地反窃电方式。

基于BP(back propagation，反向传播)神经网络算法的用户窃电行为分析方法是比较新的一种反窃电方法。BP神经网络算法是机器学习方法的一种，主要通过模仿人类的脑神经***从接受信息到处理以及储存的过程，建立算法模型。BP神经网络分为输入层、隐藏层和输出层三层，将计量装置采集的与窃电相关的源数据作为输入层的输入向量，输入向量通过三层之间的层层映射，建立矩阵函数，输出结果。输出的结果通过反向误差回馈，再迭代计算并且输出结果，直到结果符合要求。该算法智能地分析了用户的窃电行为，减少了人力成本。

但其不足在于：BP神经网络算法会容易陷入局部最小点不足、迭代时间长的问题，所以效果也不是很理想。

发明内容

本发明实施例提供一种窃电分析方法，用以实现高效率的、准确的窃电嫌疑分析，该方法包括：

采集用户的用电行为数据以及用户的档案数据；

将采集的数据制成样本数据，样本数据包括训练数据、测试数据和预测数据，其中，训练数据和测试数据携带标签，标签是根据用户的历史窃电记录一一标记而成；

将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型，对模型进行训练与测试；

将预测数据加载至训练好的模型，获得用户的窃电行为分析结果。

本发明实施例还提供一种窃电分析装置，用以实现高效率的、准确的窃电嫌疑分析，该装置包括：

采集模块，用于采集用户的用电行为数据以及用户的档案数据；

数据处理模块，用于将采集的数据制成样本数据，样本数据包括训练数据、测试数据和预测数据，其中，训练数据和测试数据携带标签，标签是根据用户的历史窃电记录一一标记而成；

训练与测试模块，用于将训练数据和测试数加载至基于Xgboost算法建立的机器学习的模型，对模型进行训练与测试；

分析模块，用于将预测数据加载至训练好的模型，获得用户的窃电行为分析结果。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述窃电分析方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述窃电分析方法的计算机程序。

本发明实施例中，由于是将预测数据加载至基于Xgboost算法建立的机器学习的模型后获得用户的窃电行为分析结果，因此能够很好的针对用于窃电嫌疑分析的许多字段是非线性的特点，由于采用了Xgboost算法，因此可以提高分析效率和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中窃电分析方法的示意图；

图2为本发明实施例中窃电分析方法的具体实例图；

图3为本发明实施例中某用户窃电嫌疑的概率示意图；

图4为本发明实施例中窃电分析装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

传统的反窃电技术，由于大部分都是从检查计量装置入手，拉网式逐户检查，已经不能高效地查获窃电行为。如何高水准地查获窃电用户，已经成为供电企业迫切需要解决的问题。目前，融合机器学习的数据挖掘技术已经广泛应用在了互联网、银行、保险等行业中，而且取得了可观的成绩，但是该技术在电力行业还是初步发展阶段。

发明人注意到：从机器学习角度看，窃电行为的判断是一个分类问题，常用的模型有支持向量机、朴素贝叶斯、随机森林、逻辑回归、GBDT(Gradient Boosting DecisionTree，梯度提升决策树)等。由于窃电嫌疑分析的许多字段是非线性的，而且Xgboost在速度和精度上要优于GBDT，所以方案中选定Xgboost建立模型来分析窃电嫌疑。

下面对具体的将Xgboost算法运用于窃电分析的实施进行说明。

图1为本发明实施例中窃电分析方法的示意图，如图1所示，该方法可以包括：

步骤101、采集用户的用电行为数据以及用户的档案数据；

步骤102、将采集的数据制成样本数据，其中，样本数据包括训练数据、测试数据和预测数据，标签是根据用户的历史窃电记录一一标记而成；

步骤103、将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型，对模型进行训练与测试；

步骤104、将预测数据加载至训练好的模型，获得用户的窃电行为分析结果。

1、数据采集阶段。

对于步骤101的数据采集阶段，实施例中可以如下：

用户的用电行为数据可以包括以下数据其中之一或任意组合：

负荷曲线数据，电压曲线数据，电流曲线数据，日冻结电能示值数据，日冻结电能量数据。

用户的档案数据可以包括以下数据其中之一或任意组合：

电能表信息，用户信息，计量点信息。

实施例中，在数据采集阶段，所用的数据主要是两大类，一类是用户的用电行为数据，一类是用户的档案数据。用户的用电行为数据主要包括负荷曲线数据、电压曲线数据、电流曲线数据、日冻结电能示值数据、日冻结电能量数据等。而用户的档案数据具体可以是将电能表信息、用户信息、计量点信息等多张表按关联关系整合成一张档案表。

实施例中，在采集用户的用电行为数据以及用户的档案数据时，若数据为训练数据和测试数据则用Kettle工具从数据库中采集，若数据为预测数据则用Python工具从数据库中采集。

具体的实施例中，数据采集的方式可以根据模型的用途分为两种，当被模型用作训练数据和测试数据时，用Kettle工具从数据库中抽取；当被模型用作预测数据时，用Python编写代码从数据库中抽取数据。实施例中提供了数据采集的两种情况，若数据为训练数据和测试数据，用Kettle导入，数据的抽取是在模型建立之前，手动抽取数据方便人为观察分析数据；若数据为预测数据，则用Python代码调取数据库的数据，可以直接进行数据清洗，实现数据的自动化抽取。要判断窃电嫌疑的预测数据通过Python代码自动抽取到数据处理接口，处理后的数据作为模型的输入参数，通过模型判断用户的窃电嫌疑。

在步骤101后，还可以采取进一步的处理如下：

2、特征选取阶段。

在采集用户的用电行为数据以及用户的档案数据后，还可以进一步包括：

对采集的数据进行特征选取。

具体的实施例中，特征选取是指从数据的所有特征项选取最有效的一组特征，去除无关特征，降低特征组的维度，从而达到减少运行时间、降低无关特征对分类效果的影响、提高分析结果的准确度等效果。具体实施中，由于窃电嫌疑分析涉及到多张数据表，可以根据窃电涉及的相关异常的概念和专家的经验选取有效特征。例如，在下述实例中总共选取了33个特征项。

3、数据清洗阶段。

对采集的数据进行数据清洗。

具体的实施例中，数据清洗是将源数据中的“脏数据”清洗为干净数据，即满足数据分析要求的数据。通过质量评估，核实数据内容和字段值是否一致，修正错误值。

实施例中，提取有效的特征项，剔除无用字段，并将数据清洗为干净数据。Xgboost算法将数据按行为单位作为一个样本数据，所以清洗后的数据要将某一天多行的数据转成一行，并且通过关联字段将所有表整合成一张数据表，以满足Xgboost算法处理数据的要求。

4、获取样本数据阶段。

步骤102中，将数据制成样本数据，样本数据包括训练数据、测试数据和预测数据，其中，训练数据和测试数据携带标签，标签是根据用户的历史窃电记录一一标记而成。训练数据和测试数据用于机器学习的训练与测试。

具体的实施例中，数据通过上述三个阶段采集并清洗获得，标签是根据用户的历史窃电记录一一标记而成。给数据打标签是将窃电与否作为训练数据和测试数据的已知结果，用于机器学习的训练与测试。例如，在下述实例中，将发生窃电记为1，未发生窃电记为0。实施例中，Xgboost算法通过学习训练数据的规律达到正确分类，训练数据和测试数据包括事件的结果数据。根据窃电的记录给训练数据和测试数据打标签。

5、建模与训练数据阶段。

下面对本阶段的步骤103将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型，对模型进行训练与测试的实施进行说明。实施例中根据综合效果设置Xgboost算法的参数，建立模型，训练模型。Xgboost算法在对样本迭代计算后，生成多棵树，最后将多棵树的结果按权值累加形成最终结果。

实施例中，加载训练数据和测试数据前，可以进一步包括将Xgboost算法的参数设置为以下参数：

分类器每次迭代的模型为：基于树的模型；

需要被最小化的损失函数为：二分类的逻辑回归；

有效数据的度量方法为：auc曲线下面积；

权重的L2正则化项为：50；

学习效率为：0.3。

实施例中，按照一定比例将标记好的样本数据划分为训练数据和测试数据。例如，参数设置完毕后，可以按照12:4的比例加载训练数据和测试数据，对模型进行训练与测试。

具体的实施例中，建立与训练的模型是基于Xgboost算法建立机器学习的模型。在具体实施例中可以在服务器中依次安装Anaconda，Mingw-w64，Git，Pip，Xgboost，并且配置好环境变量，调试环境，确定Python中可以运行Xgboost。设置Xgboost算法中的相关参数，具体可以为：

'booster'：'gbtree'，分类器每次迭代的模型为：基于树的模型。

'objective'：'binary:logistic'，该参数是定义需要被最小化的损失函数。在下述实例中选择的是二分类的逻辑回归，返回预测的概率，即窃电嫌疑的概率0-1。

'eval_metric'：'auc'，该参数指对于有效数据的度量方法，选择的是auc曲线下面积。

'lambda'：50，该参数指权重的L2正则化项，这个参数用来控制xgboost的正则化部分，在减少过拟合上有较大的作用。

'eta'：0.3，指学习效率，通过减少每一步的权重，可以提高模型的鲁棒性。

参数设置完毕，加载携带标签的样本数据，按照12:4的比例划为训练数据和测试数据，对模型进行训练与测试。

6、优化模型阶段。

实施例中，还可以进一步包括：

根据训练和测试效果对数据进行分析后，通过修改数据的特征项和模型参数对模型进行优化。

具体的实施例中，在通过第5阶段建立模型、训练数据、测试数据后，模型初步形成。则可根据训练和测试效果对数据进行分析，通过修改数据的特征项和模型参数对模型进行优化。

7、模型预测阶段。

通过采集模块采集要进行窃电分析的用户的相关数据，并且通过数据处理后加载到模型中，进行预测。如在下述实例中具体得出的模型各个概率的判定指标如表1所示，F值在0.9时最优，得出以下结论：概率在0.9-1之间为重大窃电嫌疑；在0.7-0.8之间为一般窃电嫌疑，需要观察一段时间用电行为；在0.7以下为无窃电嫌疑。

下面以实例进行说明。

图2为本发明实施例中窃电分析方法的具体实例图，如图2所示，可以包括：

首先进入数据采集阶段：

步骤201、输入源数据；

步骤202、判断是训练数据和测试数据，还是预测数据，如果是训练数据和测试数据则转入步骤203，如果是预测数据则转入步骤204；

步骤203、采用Kettle进行数据采集；

步骤204、采用Python进行数据采集；

步骤205、进行特征选取；

进入下一数据清洗阶段：

步骤206、输入特征选取后的数据；

步骤207、判断是否为错误数据，是则转入步骤208，否则转入步骤209；

步骤208、修正错误值；

步骤209、补全缺失值；

步骤210、对数据去重；

进入建立模型阶段：

步骤211、基于Xgboost建立模型；

步骤212、设定算法参数；

步骤213、传入训练数据和测试数据；

步骤214、训练模型；

步骤215、优化模型；

步骤216、判断窃电结果。

采用上述实施例中所选用的具体参数，分析窃电嫌疑，具体得出的模型各个概率的判定指标如表1所示，F值在0.9时最优，得出以下结论：概率在0.9-1之间为重大窃电嫌疑；在0.7-0.8之间为一般窃电嫌疑，需要观察一段时间用电行为；在0.7以下为无窃电嫌疑。

表1模型各个概率的判定指标：

模型指标达到要求指标内，将要预测窃电嫌疑的用户数据传入模型中，通过模型分析得出用户窃电的结果。该模型的输出结果不是用户是否发生了窃电，而是用户发生窃电的概率值，在0-1之间，图3为某用户2015年1月到2016年4月的窃电嫌疑的概率示意图，具体结果如图3所示。

基于同一发明构思，本发明实施例中还提供了一种窃电分析装置，如下面的实施例所述。由于该装置解决问题的原理与窃电分析方法相似，因此该装置的实施可以参见窃电分析方法的实施，重复之处不再赘述。

图4为本发明实施例中窃电分析装置的示意图，如图4所示，该装置可以包括：

采集模块401，用于采集用户的用电行为数据以及用户的档案数据；

数据处理模块402，用于将采集的数据制成样本数据，样本数据包括训练数据、测试数据和预测数据，其中，训练数据和测试数据携带标签，标签是根据用户的历史窃电记录一一标记而成；

训练与测试模块403，用于将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型，对模型进行训练与测试；

分析模块404，用于将预测数据加载至训练好的模型，获得用户的窃电行为分析结果。

一个实施例中，用户的用电行为数据可以包括以下数据其中之一或任意组合：

一个实施例中，用户的档案数据可以包括以下数据其中之一或任意组合：

电能表信息，用户信息，计量点信息。

一个实施例中，采集模块401可以进一步用于在采集用户的用电行为数据以及用户的档案数据时，若数据为训练数据和测试数据则用Kettle工具从数据库中采集，若数据为预测数据则用Python工具从数据库中采集。

一个实施例中，训练与测试模块403可以进一步用于根据训练和测试效果对数据进行分析后，通过修改数据的特征项和模型参数对模型进行优化。

一个实施例中，训练与测试模块403可以进一步用于在加载训练数据和测试数据前，将Xgboost算法的参数设置为以下参数：

分类器每次迭代的模型为：基于树的模型；

需要被最小化的损失函数为：二分类的逻辑回归；

有效数据的度量方法为：auc曲线下面积；

权重的L2正则化项为：50；

学习效率为：0.3。

一个实施例中，训练与测试模块403可以进一步用于在参数设置完毕后，按照12:4的比例加载训练数据和测试数据，对模型进行训练与测试。

一个实施例中，数据处理模块402可以进一步用于在采集用户的用电行为数据以及用户的档案数据后，对采集的数据进行特征选取。

一个实施例中，数据处理模块402可以进一步用于在采集用户的用电行为数据以及用户的档案数据后，对采集的数据进行数据清洗。

综上所述，在本发明实施例提供的技术方案中，采集用户的用电行为数据以及用户的档案数据后，选取特征项，清洗数据，实现数据的融合；然后标记标签，划分样本数据；再建立模型，训练模型；最后进行模型预测。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种窃电分析方法，其特征在于，包括：

采集用户的用电行为数据以及用户的档案数据；

2.如权利要求1所述的方法，其特征在于，用户的用电行为数据包括以下数据其中之一或任意组合：

3.如权利要求1所述的方法，其特征在于，用户的档案数据包括以下数据其中之一或任意组合：

电能表信息，用户信息，计量点信息。

4.如权利要求1所述的方法，其特征在于，在采集用户的用电行为数据以及用户的档案数据时，若数据为训练数据和测试数据则用Kettle工具从数据库中采集，若数据为预测数据则用Python工具从数据库中采集。

5.如权利要求1所述的方法，其特征在于，进一步包括：

6.如权利要求1所述的方法，其特征在于，加载训练数据和测试数据前，进一步包括：将Xgboost算法的参数设置为以下参数：

分类器每次迭代的模型为：基于树的模型；

需要被最小化的损失函数为：二分类的逻辑回归；

有效数据的度量方法为：auc曲线下面积；

权重的L2正则化项为：50；

学习效率为：0.3。

7.如权利要求6所述的方法，其特征在于，参数设置完毕后，按照12:4的比例加载训练数据和测试数据，对模型进行训练与测试。

8.如权利要求1至7任一所述的方法，其特征在于，在采集用户的用电行为数据以及用户的档案数据后，进一步包括：

对采集的数据进行特征选取。

9.如权利要求1至7任一所述的方法，其特征在于，在采集用户的用电行为数据以及用户的档案数据后，进一步包括：

对采集的数据进行数据清洗。

10.一种窃电分析装置，其特征在于，包括：

训练与测试模块，用于将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型，对模型进行训练与测试；

11.如权利要求10所述的装置，其特征在于，用户的用电行为数据包括以下数据其中之一或任意组合：

12.如权利要求10所述的装置，其特征在于，用户的档案数据包括以下数据其中之一或任意组合：

电能表信息，用户信息，计量点信息。

13.如权利要求10所述的装置，其特征在于，采集模块进一步用于在采集用户的用电行为数据以及用户的档案数据时，若数据为训练数据和测试数据则用Kettle工具从数据库中采集，若数据为预测数据则用Python工具从数据库中采集。

14.如权利要求10所述的装置，其特征在于，训练与测试模块进一步用于根据训练和测试效果对数据进行分析后，通过修改数据的特征项和模型参数对模型进行优化。

15.如权利要求10所述的装置，其特征在于，训练与测试模块进一步用于在加载训练数据和测试数据前，将Xgboost算法的参数设置为以下参数：

分类器每次迭代的模型为：基于树的模型；

需要被最小化的损失函数为：二分类的逻辑回归；

有效数据的度量方法为：auc曲线下面积；

权重的L2正则化项为：50；

学习效率为：0.3。

16.如权利要求15所述的装置，其特征在于，训练与测试模块进一步用于在参数设置完毕后，按照12:4的比例加载训练数据和测试数据，对模型进行训练与测试。

17.如权利要求10至16任一所述的装置，其特征在于，数据处理模块进一步用于在采集用户的用电行为数据以及用户的档案数据后，对采集的数据进行特征选取。

18.如权利要求10至16任一所述的装置，其特征在于，数据处理模块进一步用于在采集用户的用电行为数据以及用户的档案数据后，对采集的数据进行数据清洗。

19.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一所述方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至9任一所述方法的计算机程序。