CN113239087A

CN113239087A - 一种反窃电稽查监控方法及***

Info

Publication number: CN113239087A
Application number: CN202110367202.XA
Authority: CN
Inventors: 杨艺宁; 薛阳; 徐英辉; 王聪; 杨柳
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-08-10

Abstract

本发明公开了一种反窃电稽查监控方法及***，包括：获取用户用电历史数据，并对所述用户用电历史数据进行预处理，以获取用户用电处理数据；基于不同类型的窃电手段确定异常事件行为记录表，并根据所述异常行为记录表和用户用电处理数据确定用户的特征数据；构建基于随机森林算法的反窃电稽查监控机器学习模型，并利用所述用户的特征数据进行模型训练和优化，以确定最终的反窃电稽查监控机器学习模型；利用所述最终的反窃电稽查监控机器学习模型对用户的用电数据进行判断，以对所述用户的窃电行为进行监控。本发明能够为现场检查人员提供有效数据依据，提高效率，极大减少一线员工的工作量，大幅降低运营成本，能够为电力企业挽回巨大的经济损失。

Description

一种反窃电稽查监控方法及***

技术领域

本发明涉及电力行业技术领域，并且更具体地，涉及一种反窃电稽查监控方法及***。

背景技术

随着科学技术的发展，通过高科技手段进行窃电的行为增多，这些技术手段不但隐蔽性强，而且不容易控制，用户的窃电量大，查处难度非常大。窃电行为对国家的经济造成了巨大的损失，也对公众的生命财产安全造成了巨大的威胁。

因此，需要一种反窃电稽查监控方法。

发明内容

本发明提出一种反窃电稽查监控方法及***，以解决如何确定用户的窃电行为的问题。

为了解决上述问题，根据本发明的一个方面，提供了一种反窃电稽查监控方法，所述方法包括：

获取用户用电历史数据，并对所述用户用电历史数据进行预处理，以获取用户用电处理数据；其中，所述用户历史数据包括：窃电用户的用电数据和正常用户的用电数据；

基于不同类型的窃电手段确定异常事件行为记录表，并根据所述异常行为记录表和用户用电处理数据确定用户的特征数据；

构建基于随机森林算法的反窃电稽查监控机器学习模型，并利用所述用户的特征数据进行模型训练和优化，使模型通过随机森林算法自动生成若干颗决策树，根据各决策树的投票结果对用户是否存在窃电行为进行判别，以确定最终的反窃电稽查监控机器学习模型；

利用所述最终的反窃电稽查监控机器学习模型对用户的用电数据进行判断，以对所述用户的窃电行为进行监控。

优选地，其中所述对所述用户用电历史数据中的每条用户历史数据进行预处理，以获取用户用电处理数据，包括：

基于pickle将所述用户用电历史数据中的每条用户历史数据转化为pkl格式的二进制文件，以获取用户用电处理数据。

优选地，其中所述不同类型的窃电手段，包括：短接偷电、电能表停转、电能表反转、欠电压法窃电，欠电流法窃电、移相法窃电，扩差法窃电和无表法窃电。

优选地，其中所述根据所述异常事件行为记录表和用户用电处理数据确定用户的特征数据，包括：

对取出的所有异常事件进行计数，以确定异常事件发生次数；

计算异常事件发生的时间节点所对应的用电量的突变度，以确定异常事件时刻用电突变度；

计算异常事件发生的时间节点所对应的台区线损的突变度，以确定异常事件时刻线损突变度；

对所有时间下的用电量突变点的计数，以确定用户用电突变点个数；

计算所有时间下的用电量突变点的时间所对应的线损突变度，以确定用电突变时刻线损突变度；

根据用户日用电量的均值、方差、异常值、突变点、工作日用电量和休息日用电量确定时间序列的空值占比、时间序列0值占比、时间序列异常电占比、时间序列中位数、时间序列方差、时间序列标准化中位数、时间序列标准化方差、突变点个数、突变点跃迁最大值、工作日平均用电量、休息日平均用电量、工作日平均用电比例、休息日平均用电比例和星期用电比例的信息熵。

优选地，其中所述方法还包括：

利用所述最终的反窃电稽查监控机器学习模型确定用户的窃电嫌疑度，并将所述窃电嫌疑度和所述用户的用户信息进行关联输出。

根据本发明的另一个方面，提供了一种反窃电稽查监控***，所述***包括：

数据预处理单元，用于获取用户用电历史数据，并对所述用户用电历史数据进行预处理，以获取用户用电处理数据；其中，所述用户历史数据包括：窃电用户的用电数据和正常用户的用电数据；

特征数据确定单元，用于基于不同类型的窃电手段确定异常事件行为记录表，并根据所述异常行为记录表和用户用电处理数据确定用户的特征数据；

模型确定单元，用于构建基于随机森林算法的反窃电稽查监控机器学习模型，并利用所述用户的特征数据进行模型训练和优化，使模型通过随机森林算法自动生成若干颗决策树，根据各决策树的投票结果对用户是否存在窃电行为进行判别，以确定最终的反窃电稽查监控机器学习模型；

判断单元，用于利用所述最终的反窃电稽查监控机器学习模型对用户的用电数据进行判断，以对所述用户的窃电行为进行监控。

优选地，其中所述数据预处理单元，对所述用户用电历史数据中的每条用户历史数据进行预处理，以获取用户用电处理数据，包括：

优选地，其中所述特征数据确定单元，根据所述异常事件行为记录表和用户用电处理数据确定用户的特征数据，包括：

优选地，其中所述***还包括：

输出单元，用于利用所述最终的反窃电稽查监控机器学习模型确定用户的窃电嫌疑度，并将所述窃电嫌疑度和所述用户的用户信息进行关联输出。

本发明一种反窃电稽查监控方法及***，通过反窃电稽查监控机器学习模型确定窃电的嫌疑用户，能够为现场检查人员提供有效数据依据，提高效率，极大减少一线员工的工作量，大幅降低运营成本，能够为电力企业挽回巨大的经济损失。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的反窃电稽查监控方法100的流程图；

图2为根据本发明实施方式的确定特征数据的示意图；

图3为根据本发明实施方式的不同数据源关联特征的示意图；

图4为根据本发明实施方式的对用户档案数据进行处理的示意图；

图5为根据本发明实施方式的构建模型数据特征集合的示意图；

图6为根据本发明实施方式的用于特征工程的数据分类的示意图；

图7为根据本发明实施方式的确定反窃电稽查监控机器学习模型的过程图；

图8为根据本发明实施方式的随机抽取模型中一个树判断是否窃电的示意图；

图9为根据本发明实施方式的反窃电稽查监控***900的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的反窃电稽查监控方法100的流程图。本发明实施方式提供的反窃电稽查监控方法，通过反窃电稽查监控机器学习模型确定窃电的嫌疑用户，能够为现场检查人员提供有效数据依据，提高效率，极大减少一线员工的工作量，大幅降低运营成本，能够为电力企业挽回巨大的经济损失。如图1所示，本发明实施方式提供的反窃电稽查监控方法100，从步骤101处开始，在步骤101获取用户用电历史数据，并对所述用户用电历史数据进行预处理，以获取用户用电处理数据；其中，所述用户历史数据包括：窃电用户的用电数据和正常用户的用电数据。

在本发明中，通过国网营销业务应用***、用电信息采集***、基于oracle的cx_Oralce接口进行数据接入,模型输入数据部分选择了360天的数据(包含窃电以及非窃电用户)，训练数据2W正样本+5W普通窃电用户。在数据预处理时，将现有的数据基于pickle转化为pkl的二进制文件，以便于保存模型数据进行分析,提高模型运行效率。

在步骤102，基于不同类型的窃电手段确定异常事件行为记录表，并根据所述异常行为记录表和用户用电处理数据确定用户的特征数据。

如图2所示，在本发明中，通过对窃电用户的用电信息和正常用户(非窃电用户)的窃电信息进行特征工程，确定窃电用户特征向量和正常用户特征向量，并将获取的特征向量输入到基于随机森林算法的反窃电稽查监控机器学习模型中进行训练。

在本发明中，首先以窃电手段进行判别，根据短接偷电、电能表停转、电能表反转、欠电压法窃电，欠电流法窃电、移相法窃电，扩差法窃电、无表法窃电等，可得出异常事件行为记录表，记录的信息将是本模型数据权重较大部分，根据此表判断窃电用户的行为，取异常事件发生时间点,以此用户、发生时间、关联出其对应时间的用电量、台区线损，观察其突变度，并取突变度最大值。包括：对取出的所有异常事件进行计数，以确定异常事件发生次数；计算异常事件发生的时间节点所对应的用电量的突变度，以确定异常事件时刻用电突变度；计算异常事件发生的时间节点所对应的台区线损的突变度，以确定异常事件时刻线损突变度；对所有时间下的用电量突变点的计数，以确定用户用电突变点个数；计算所有时间下的用电量突变点的时间所对应的线损突变度，以确定用电突变时刻线损突变度。

然后，根据用户日用电量的均值，方差，异常值，突变点，工作日，休息日用电量等统计信息，包括：统计时间序列的空值占比、时间序列0值占比、时间序列异常电占比、时间序列中位数、时间序列方差、时间序列标准化中位数(<＝>中位数/时间序列最大值)、时间序列标准化方差(<＝>方差/时间序列最大值)、突变点个数、突变点跃迁最大值、工作日平均用电量、休息日平均用电量、工作日平均用电比例、休息日平均用电比例和星期用电比例的信息熵。

在本发明中，对于用户日用电量，特征“用电均值、用电方差、缺失值占比、零值占比、工作日用电占比和双休日用电占比”对应的可能的窃电场景分别为“窃电用户大量窃电导致用电量显著降低、窃电用户窃电导致用电量缺乏季节性波动、窃电用户窃电导致电表记录缺失、窃电用户窃电导致电表无电流通过、窃电用户在工作日窃电和窃电用户在休息日窃电”。

对于用户基本属性，特征“城乡类别、历史窃电记录和用电类型”对应的特征场景分别为“城区窃电和农村窃电存在差异性、评估用户的信用水平和不同用电方式对应的窃电方式存在差异性”。

对于台区日线损量，特征“线损均值、线损用电相关性”对应的特征场景分别为“评估台区整体是否发生窃电以及窃电用户和线损存在负相关”。

对于异常事件，特征“事件类型和发生次数”对应的特征场景分别为“窃电手法不同则异常事件类型不同以及窃电频率或电表本身的故障引起”。

在本发明中，如图3所示，对于日用电量和台区线损，均包括：事件发生节点下的数据和所有时间节点下的数据两种。如图4和5所示，通过对用户档案表、计量点、测量点数据主表、台区档案和线路档案进行关联查询，确定用户档案信息特征数据集。如图6所示，用于特征工程的数据分为：时序类信息、事件类信息和静态类信息三种。其中，时序类信息包括：用户日用电量和台区日线损量。事件类信息包括：用户异常用电事件。静态类信息包括：用户基本信息。

在步骤103，构建基于随机森林算法的反窃电稽查监控机器学习模型，并利用所述用户的特征数据进行模型训练和优化，使模型通过随机森林算法自动生成若干颗决策树，根据各决策树的投票结果对用户是否存在窃电行为进行判别，以确定最终的反窃电稽查监控机器学习模型。

在步骤104，利用所述最终的反窃电稽查监控机器学习模型对用户的用电数据进行判断，以对所述用户的窃电行为进行监控。

优选地，其中所述方法还包括：

随机森林(RF)是一个包含多个决策树的分类器，传统决策树在选择划分属性时是在当前结点的所有候选属性(假定有d个)中选择一个最优属性；而在RF中，对基决策树的每个结点，先从该结点的候选属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数k控制了随机性的引入程度：若令k＝d，则基决策树的构建与传统决策树相同；若令k＝1，则是随机选择一个属性用于划分；显然，抽取的属性数k的选择比较重要，一般推荐k＝log2 d。由此，随机森林的基学习器的“多样性”不仅来自样本的扰动，还来自属性的扰动，使得最终集成的泛化能力进一步提升。对于机器学习中的决策树而言，如果带分类的事物集合可以划分为多个类别当中，则某个类(xi)的信息可以定义如下:l(X＝xi)＝-log2 p(xi)；其中，I(X)用来表示随机变量的信息，p(xi)指是当xi发生时的概率。熵是用来度量不确定性的，当熵越大，X＝xi的不确定性越大，反之越小。对于机器学习中的分类问题而言，熵越大即这个类别的不确定性更大，反之越小。信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好。

随机森林算法可以根据这些窃电用户的特征以及非窃电用户的特征，在子树中对每一个***过程选择部分特征，从所有特征中随机选取一定的特征，之后再在随机选取的特征中选取特征，每棵树重复上述过程，最后投票选择出最正确的分类。此模型可提升反窃电稽查监控***的多样性，从而提升数据的可利用性和结果的预测正确性，同时防止过拟合。随机森林可以在运算量没有显著提高的前提下提高了预测精度,模型选用随机森林，是利用多棵树对样本进行训练并预测的一种分类器。其反复二分数据进行分类或回归，计算量大大降低。在变量(列)的使用和数据(行)的使用上进行随机化，生成很多分类树，再汇总分类树的结果。

结合图7所示，在本发明中，在确定了特征数据后，构建基于随机森林算法的反窃电稽查监控机器学习模型，并通过模型进行训练，通过随机森林算法，算法自动生成若干颗决策树，并根据各决策树的投票结果对用户是否窃电进行判别，训练模型，导出一份训练完后的文件，内含训练完毕的模型，后续预测时将直接调用该文件。然后，利用测试集进行测试和优化。其中，对已知是否为窃电用户的测试集进行特征提取，并将提取出的特征输入到模型中，获取测试集的输出结果，并与真实结果进行比较,以此来优化模型，确定最终的反窃电稽查监控机器学习模型。

当进行监控时，以用户为单位将待监控用户的用电数据的特征序列输入到最终的反窃电稽查监控机器学习模型中，输出嫌疑用户窃电概率嫌疑度,导出txt文件，后将文件导入临时结果数据库,并将用户的其它信息关联出,导入最终数据库。

本发明选取沧州某县进行验证测试工作，对部分嫌疑用户的部分特征进行分析，根据输出结果进行嫌疑度排名，选取其中嫌疑度较高的嫌疑用户，用户检测结果符合预期。

在本发明中，模型输入数据部分选择了360天的数据(包含窃电以及非窃电用户)，从基础表提取出主要的5个特征，训练数据2W正样本+5W普通窃电用户，交叉验证准确率为80％，随机抽取模型中一个树的过程，如图8所示。由100多棵树随机抽取特征，根据训练数据拟合模型后，将新样本输入，执行上述过程，得到结果。训练模型时，第一步将要提取特征，但在进入特征提取前，需要抽取一定比列的训练样本(窃电用户和未发现窃电的用户)，此部分需手动设置，提取完训练样本后，数据将交给feature_extract抽取数据，后续将会调用feature_util中的方法对数据进行转换，于feature_combine中整合成用来训练的数据(特征)，于model_train_script中训练模型，训练完成后将导出一份训练完后的文件，内含训练完毕的模型，后续预测时将直接调用该文件。

预测时，从提取需要预测的数据开始，将先执行preprocess脚本创建需要的临时表，将需要预测的数据从临时表中取出，交给feature_extract抽取数据，此部分代码将会调用feature_util中的方法对数据进行转换，于feature_combine中整合成用来预测的数据，并通过model_predict_util打开训练好的模型文件，将数据导入模型，预测并输出结果，调用output_database中的方法导出txt文件，后使用hadoop命令将文件导入hive的临时表中，根据表内ID信息将住址姓名关联出，导入oracle完成全流程。

图9为根据本发明实施方式的反窃电稽查监控***900的结构示意图。如图9所示，本发明实施方式提供的反窃电稽查监控***900，包括：数据预处理单元901、特征数据确定单元902、模型确定单元903和判断单元904。

优选地，所述数据预处理单元901，用于获取用户用电历史数据，并对所述用户用电历史数据进行预处理，以获取用户用电处理数据；其中，所述用户历史数据包括：窃电用户的用电数据和正常用户的用电数据。

优选地，其中所述数据预处理单元901，对所述用户用电历史数据中的每条用户历史数据进行预处理，以获取用户用电处理数据，包括：

优选地，所述特征数据确定单元902，用于基于不同类型的窃电手段确定异常事件行为记录表，并根据所述异常行为记录表和用户用电处理数据确定用户的特征数据。

优选地，所述模型确定单元903，用于构建基于随机森林算法的反窃电稽查监控机器学习模型，并利用所述用户的特征数据进行模型训练和优化，使模型通过随机森林算法自动生成若干颗决策树，根据各决策树的投票结果对用户是否存在窃电行为进行判别，以确定最终的反窃电稽查监控机器学习模型。

优选地，所述判断单元904，用于利用所述最终的反窃电稽查监控机器学习模型对用户的用电数据进行判断，以对所述用户的窃电行为进行监控。

优选地，其中所述***还包括：

本发明的实施例的反窃电稽查监控***900与本发明的另一个实施例的反窃电稽查监控方法100相对应，在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种反窃电稽查监控方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述用户用电历史数据中的每条用户历史数据进行预处理，以获取用户用电处理数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述不同类型的窃电手段，包括：短接偷电、电能表停转、电能表反转、欠电压法窃电，欠电流法窃电、移相法窃电，扩差法窃电和无表法窃电。

4.根据权利要求1所述的方法，其特征在于，所述根据所述异常事件行为记录表和用户用电处理数据确定用户的特征数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种反窃电稽查监控***，其特征在于，所述***包括：

7.根据权利要求6所述的***，其特征在于，所述数据预处理单元，对所述用户用电历史数据中的每条用户历史数据进行预处理，以获取用户用电处理数据，包括：

8.根据权利要求6所述的***，其特征在于，所述不同类型的窃电手段，包括：短接偷电、电能表停转、电能表反转、欠电压法窃电，欠电流法窃电、移相法窃电，扩差法窃电和无表法窃电。

9.根据权利要求6所述的***，其特征在于，所述特征数据确定单元，根据所述异常事件行为记录表和用户用电处理数据确定用户的特征数据，包括：

10.根据权利要求6所述的***，其特征在于，所述***还包括：