CN113379322A

CN113379322A - 一种基于标签增广的窃电用户判别方法

Info

Publication number: CN113379322A
Application number: CN202110763168.8A
Authority: CN
Inventors: 周玉; 穆卓文; 高凡; 李悦; 黄奇峰; 邵雪松; 王舒; 易永仙; 蔡奇新
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-10

Abstract

一种基于标签增广的窃电用户判别方法，包括：1，采集居民用户的历史用电电流数据；2，对历史用电电流数据进行数据预处理；3，预处理后的数据进行标定得到有标签历史用电电流数据以及无标签历史用电电流数据；4，基于有标签历史用电电流数据对无标签历史用电电流数据的标签进行增广；5，合并标签增广后的数据得到样本集；6，采用机器学习方法对样本集进行训练得到窃电用户判别模型；7，实时采集用户的用电电流数据并输入至训练好的模型中进行判别。本发明的增广算法能够在使用建立判别模型前对标签进行扩充，且增广速率与效率都很高，利用本发明提出的增广算法得到的样本集通过机器学习方法能够实现更高的窃电样本识别准确率。

Description

一种基于标签增广的窃电用户判别方法

技术领域

本发明涉及电力数据分析领域，尤其涉及一种基于标签增广的窃电用户判别方法。

背景技术

电力盗窃是国家电网公司与我国公安机关严厉打击的违法犯罪行为，给国民经济的发展造成了恶劣的影响。及时识别用户的盗电窃电行为，对规范居民用电、维持经济稳定具有重要的意义。传统的防窃电力***中的非技术性损失通常由窃电、计量故障、私搭乱接、私自改变用电性质等异常用电行为造成。一方面，作为未被纳入计费或未被正确计费的电能消费,异常用电给电力部门带来了巨大的经济损失。另一方面，未被监管的异常用电行为，如变更居民用电为商业用电、私接电动汽车充电桩等，严重威胁到电力***的正常运行。这些异常用电行为的长期存在，通常伴随着供电设备的过载、超压带来的电气设备超负荷、***动态不确定性及负载信息不足引发的电能调度不足等等，是电力***的一个重大安全隐患。

降低异常用电行为造成的损失，是世界各国电网长期以来亟待解决的重要问题之一，众多的科研人员投入其中。智能电表的普及和用电信息采集***功能的不断完善，为反窃电工作带来新的改变，目前供电企业己经实现采集***的全覆盖以及电力营销数据的全采集，并且采集异常处理己经趋于日常化。但目前低压居民用户异常用电案例数据严重不足，造成低压居民用户异常用电识别准确率不高且不稳定。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种基于标签增广的窃电用户判别方法，可在居民用户有标签用电数据样本数量小、存在大量无标签数据的前提下，充分利用无标签数据的信息辅助有标签样本进行窃电检测，大大提高窃电行为的判别准确率，具有重要学术意义和工程实用价值。

本发明采用如下的技术方案：

一种基于标签增广的窃电用户判别方法，包括以下内容：

步骤1：采集居民用户的历史用电电流数据；

步骤2：对步骤1采集的历史用电电流数据进行数据预处理；

步骤3：对步骤2预处理后的数据进行标定得到有标签历史用电电流数据以及无标签历史用电电流数据；

步骤4：基于有标签历史用电电流数据对对无标签历史用电电流数据的标签进行增广；

步骤5：将步骤4增广的标签与其原有的无标签历史用电电流数据进行对应，并与步骤3中的有标签数据进行合并得到样本集；

步骤6：采用机器学习方法对步骤5得到的样本集进行训练得到窃电用户判别模型；

步骤7：实时采集用户的用电电流数据并输入至步骤6训练好的模型中进行判别。

在步骤1中，每条历史用电电流数据中包括一天内多个按照一定频率进行采集的历史用电电流数据点。

在步骤2中，数据预处理的方法包括对异常值进行去除以及对缺失值进行填补。

在步骤3中，将历史用电电流数据分为有标签历史用电电流数据以及无标签历史用电电流数据；有标签历史用电数据包括窃电数据以及正常数据。

在步骤4中，对标签进行增广的方法包括以下步骤：

步骤401：基于有标签历史用电电流数据生成矩阵Y_L，并对Y_L中元素进行初始化；基于无标签历史用电电流数据生成矩阵Y_U，并对Y_U中元素进行初始化；之后将两个矩阵进行拼接得到矩阵Y；

步骤402：使用所有历史用电电流数据构建一个图，图中每个节点的坐标对应每条历史用电电流数据中的历史数据点，即数据的维度数对应图的维度数；

步骤403：计算图中所有代表无标签历史用电电流数据的节点的DistRank值；

步骤404：将代表无标签历史用电电流数据的节点按照DistRank值的大小进行排序，并按照这些节点的排序顺序更新标签历史用电电流数据在Y矩阵中的排列顺序；

步骤405：定义图中任意两个节点i和节点j的边权重；

步骤406：计算任意两个节点之间的概率值T_ij；

步骤407：当计算完每个图中每个代表有标签历史用电电流数据的节点转移到每个代表无标签历史用电电流数据的节点的概率后，得到矩阵T，并更新矩阵Y；

步骤408：将更新后Y中有标签历史用电电流数据对应的值按照步骤401初始化的方法重新设置，将Y中无标签历史用电电流数据的标签概率值归一化，使得每一条无标签历史用电电流数据的标签概率值和为1；

步骤409：重复迭代步骤402至步骤407，直至无标签历史用电电流数据标签的概率值收敛或达到最大迭代次数。此时，无标签历史用电电流数据对应的标签为其所在列中拥有最大概率值的列所对应的标签类别。

在步骤401中，矩阵Y_L的维度为L×C，L为有标签历史用电电流数据的数量，C为有标签历史用电电流数据的标签类别个数；Y_L的初始化方法为：若第i个历史用电电流数据为第m类，i＝1,2,3…L,m＝1,2…C,则Y_L中第i行第m列元素为1，第i行其他列元素为0；

矩阵Y_U的维度为U×C，U为所有无标签历史用电电流数据的个数；Y_U的初始化方法为：将矩阵中每个元素的初始值设置为1/C。

在步骤403中，DistRank的计算方法为：

DR(M)是节点M的DistRank值，N为代表有标签历史用电电流数据的节点的总个数，D为历史用电电流数据总维度数，

指第n个代表有标签历史用电电流数据的节点在第d维上的坐标，M^d指节点M在第d维上的坐标。

步骤405中的边权重满足以下关系式：

其中d_ij为节点i和节点j之间的欧式距离，σ为超参数，用于归一化数据，其取值为0-1，

表示节点i在d维上坐标，

表示节点j在d维上的坐标。

概率值T_ij满足以下关系式：

其中，w_kj表示节点k与节点j之间的边权重。

矩阵Y的更新方法为：

Y＝TY。

机器学习方法包括决策树、贝叶斯学习、神经网络。

本发明的有益效果在于，与现有技术相比：本发明提出的基于有标签数据的标签增广方法充分利用了无标签样本数据信息，大大扩大了样本的信息量。本发明的增广算法能够在使用机器学习方法建立判别模型前对标签进行扩充，且增广速率与效率都很高，相比较仅使用原始的有标签样本集，利用本发明提出的增广算法得到的样本集通过机器学习方法能够实现更高的窃电样本识别准确率。

附图说明

图1为本发明电流数据预处理结果图；

图2为利用本发明提出的基于标签增广方法后的窃电数据样本分布图；

图3为利用本发明提出的基于标签增广方法后的正常数据样本分布图；

图4为未使用本发明提出的基于标签增广方法的模型ROC曲线图；

图5为使用本发明提出的基于标签增广方法的模型ROC曲线图；

图6为使用本发明提出的基于标签增广方法前后的随机森林与SVM的模型检测结果对比图；

图7为本发明基于标签增广的窃电用户判别方法流程示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

一种基于标签增广的窃电用户判别方法，其流程图如图7所示，具体包括以下内容：

步骤1：采集居民用户的历史用电电流数据；

历史用电电流数据的数量可以根据实际情况进行调整，历史用电电流数据数量越大最后窃电判别的结果准确的可能性越高。每条历史用电电流数据中包括一天内多个按照一定频率进行采集的历史用电电流数据点，优选的，采集频率为1小时；

在本实施例中，采集了88个用户2017-2020年间间断日期每日每时刻的智能电表的历史用电电流数据，即每日每个用户的历史用电电流数据包含24个历史数据点；

步骤2：对步骤1采集的历史用电电流数据进行数据预处理；

数据预处理包括对异常值进行去除以及对缺失值进行填补；

数据缺失值填补原则如下：

其中，g(x_i)是一条历史用电电流数据中x_i时刻缺失的数据点，g(x_i+1)表示x_i下一时刻的数据点，g(x_i-1)表示x_i上一时刻的数据点；NaN指非数据值，指代某一项为空或缺失。如果x_i时刻前后时刻的数据点不为NaN，那么缺失值为前后时刻数据点的平均值，若前后时刻数据点至少有一项为NaN，那么该缺失数据点填补为0。

对异常值进行删除，若一条历史用电电流数据中有大于四分之一的数据点数值为0，则定义该条历史用电电流数据为异常数据，删除该条历史用电电流数据。在本实施例中，即当每条数据24个数据点中有超过6个数据点的数值为0时，则将该条数据删除。

在本实施例中，经数据预处理后，共得到18617条历史用电电流数据。

步骤3：对步骤2预处理后的数据进行标定；

将历史用电电流数据分为有标签历史用电电流数据以及无标签历史用电电流数据；有标签历史用电数据包括窃电数据以及正常数据；

在本实施例中，供电公司提供了窃电用户名单，通过名单可以共得到2192条有标签历史用电电流数据，16425条无标签历史用电电流数据。有标签历史用电电流数据中窃电数据共有136条，正常数据共有2056条；其余皆为无标签历史用电电流数据。

对标签进行增广的方法如下：

为所有有标签历史用电电流数据生成一个L×C的数据标签矩阵Y_L，其中L为有标签历史用电电流数据的数量，C为有标签历史用电电流数据的标签类别个数，在本实施例中类别为“窃电数据”与“正常数据”，因此标签类别个数C为2；

对于所有有标签历史用电电流数据，若第i个历史用电电流数据为第m类，i＝1,2,3…L,m＝1,2…C,则第i行第m列元素为1，第i行其他列元素为0；为所有无标签历史用电电流数据初始化生成一个U×C的数据标签矩阵Y_U，U为所有无标签历史用电电流数据的个数，其中矩阵中每一个元素的初始化值为1/C，视为无标签历史用电电流数据可以被标识为有标签历史用电电流数据中任意一种类别的概率值。将Y_L和Y_U纵向拼接，形成一个(L+U)行C列的矩阵Y；

步骤402：使用所有历史用电电流数据构建一个图，图中每个节点的坐标对应每条历史用电电流数据中的历史数据点，因此数据的维度数对应图的维度数；

在本实施例中，由于每条历史用电电流数据含有24个数据点，即数据的维度数为24，因此所构建的图的纬度数也为24；图中的每个节点即代表一条历史用电电流数据，图中包含所有有标签和无标签历史用电电流数据。

步骤403：计算图中所有代表无标签历史用电电流数据的节点的其DistRank值，DistRank的计算方法为：

指第n个代表有标签历史用电电流数据的节点在第d维上的坐标。M^d指节点M在第d维上的坐标。

步骤404：将代表无标签历史用电电流数据的节点按照DistRank值的大小进行排序，并按照这些节点的排序顺序更新标签历史用电电流数据在Y矩阵中的排列顺序。

步骤405：定义图中任意两个节点i和节点j的边权重为：

其中d_ij为节点i和节点j之间的欧式距离，σ为超参数，用于归一化数据，其取值为0-1，优选为0.5，取值会对最后的算法收敛结果产生一定的影响，

表示节点i在d维上坐标，

表示节点j在d维上的坐标；

步骤406：计算任意两个节点之间的概率值T_ij，其中，从节点i转移到节点j的概率公式为：

其中，w_kj表示节点k与j之间的边权重；

步骤407：当计算完每个图中每个代表有标签历史用电电流数据的节点转移到每个代表无标签历史用电电流数据的节点的概率后，得到矩阵T，并更新Y，更新方法为：

Y＝TY

矩阵T的维度为(L+U)×(L+U)。

步骤408：将更新后Y中有标签历史用电电流数据对应的值按照步骤401的方法重新设置，将Y中无标签历史用电电流数据的标签概率值归一化，使得每一条无标签历史用电电流数据的标签概率值和为1；

步骤409：重复迭代步骤402至步骤407，直至无标签历史用电电流数据标签的概率值收敛或达到最大迭代次数。此时，无标签历史用电电流数据对应的标签为其所在列中拥有最大概率值的列所对应的标签类别；

无标签历史用电电流数据标签的概率值收敛是指该轮迭代归一化后的概率值与上一轮迭代归一化后的概率值误差小于收敛阈值；

优选的，收敛阈值取0.00001，最大迭代次数取1000；

在本实施例中，原先的无标签数据中有1357条数据被标定为窃电数据，有15068条数据被标定为正常数据。

步骤5：将步骤4增广的标签与其原有的无标签历史用电电流数据进行对应，并与步骤3中原先的有标签数据进行合并得到样本集；

在本实施例中，样本集中共含有标签数据2192条，标定的无标签数据16425条，其中窃电数据总数为1493，分布情况如图2所示；正常数据总数为17124，分布情况如图3所示。

步骤6：采用机器学习方法对步骤5得到的样本进行训练得到窃电用户判别模型；

此处的机器学习方法包括决策树、贝叶斯学习、神经网络。在本实施例中使用的是随机森林与SVM；

步骤7：实时采集用户的用电电流数据并输入至步骤6训练好的模型中进行判别；

利用ROC曲线，AUC值，准确率，召回率，精准率，F2分数进行评判。各指标计算方式如下：

ROC曲线以真阳率作为X轴，假阳率作为Y轴绘制两个变量，真阳率、假阳率计算公式如下：

AUC为ROC曲线下的面积。

其中ROC曲线、AUC值范围为0-1，ROC越靠近左上角、AUC值越大表明模型分类效果越好。

准确率定义为模型对样本分类的准确程度，公式为：

其中，TP为所有正确预测为窃电用电的样本数目，TN为所有正确预测为正常用电的样本数目，FP为预测为窃电用电但实际为正常用电的样本数目，FN为预测为正常用电但实际为窃电用电的样本数目。

F2分数计算公式为：

准确率和F2分数范围为0-1，准确率越大表明模型分类准确度越高，F2分数表示模型对于窃电样本查全的能力，其值越大，窃电样本查全的能力越高。

从图4和图5可以看出，使用了本发明所提出的标签增广的ROC曲线使得模型分类更加准确；图6为只使用随机森林或SVM与结合本发明标签增广与随机森林或SVM后的检测结果对比图。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于标签增广的窃电用户判别方法，其特征在于，所述窃电用户判别方法包括以下步骤：

步骤1：采集居民用户的历史用电电流数据；

步骤2：对步骤1采集的历史用电电流数据进行数据预处理；

2.根据权利要求1所述的基于标签增广的窃电用户判别方法，其特征在于：

在所述步骤1中，每条历史用电电流数据中包括一天内多个按照一定频率进行采集的历史用电电流数据点。

3.根据权利要求1或2所述的一种基于标签增广的窃电用户判别方法，其特征在于：

在所述步骤2中，所述数据预处理的方法包括对异常值进行去除以及对缺失值进行填补。

4.根据权利要求3所述的基于标签增广的窃电用户判别方法，其特征在于：

在所述步骤3中，将历史用电电流数据分为有标签历史用电电流数据以及无标签历史用电电流数据；有标签历史用电数据包括窃电数据以及正常数据。

5.根据权利要求4所述的基于标签增广的窃电用户判别方法，其特征在于：

在所述步骤4中，对标签进行增广的方法包括以下步骤：

步骤405：定义图中任意两个节点i和节点j的边权重；

步骤406：计算任意两个节点之间的概率值T_ij；

步骤409：重复迭代步骤402至步骤407，直至无标签历史用电电流数据标签的概率值收敛或达到最大迭代次数；此时，无标签历史用电电流数据对应的标签为其所在列中拥有最大概率值的列所对应的标签类别。

6.根据权利要求5所述的基于标签增广的窃电用户判别方法，其特征在于：

在所述步骤401中，所述矩阵Y_L的维度为L×C，L为有标签历史用电电流数据的数量，C为有标签历史用电电流数据的标签类别个数；Y_L的初始化方法为：若第i个历史用电电流数据为第m类，i＝1,2,3…L,m＝1,2…C,则Y_L中第i行第m列元素为1，第i行其他列元素为0；

所述矩阵Y_U的维度为U×C，U为所有无标签历史用电电流数据的个数；Y_U的初始化方法为：将矩阵中每个元素的初始值设置为1/C。

7.根据权利要求6所述的一种基于标签增广的窃电用户判别方法，其特征在于：

在所述步骤403中，DistRank的计算方法为：

8.根据权利要求7所述的基于标签增广的窃电用户判别方法，其特征在于：

所述步骤405中的边权重满足以下关系式：

表示节点i在d维上坐标，

表示节点j在d维上的坐标。

9.根据权利要求8所述的基于标签增广的窃电用户判别方法，其特征在于：

所述概率值T_ij满足以下关系式：

其中，w_kj表示节点k与节点j之间的边权重。

10.根据权利要求9所述的基于标签增广的窃电用户判别方法，其特征在于：

矩阵Y的更新方法为：

Y＝TY。

11.根据权利要求10所述的基于标签增广的窃电用户判别方法，其特征在于：

所述机器学习方法包括决策树、贝叶斯学习、神经网络。