CN113379322A - 一种基于标签增广的窃电用户判别方法 - Google Patents
一种基于标签增广的窃电用户判别方法 Download PDFInfo
- Publication number
- CN113379322A CN113379322A CN202110763168.8A CN202110763168A CN113379322A CN 113379322 A CN113379322 A CN 113379322A CN 202110763168 A CN202110763168 A CN 202110763168A CN 113379322 A CN113379322 A CN 113379322A
- Authority
- CN
- China
- Prior art keywords
- current data
- historical
- data
- tag
- consumption current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000003416 augmentation Effects 0.000 title claims abstract description 30
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 238000011423 initialization method Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
Abstract
一种基于标签增广的窃电用户判别方法,包括:1,采集居民用户的历史用电电流数据;2,对历史用电电流数据进行数据预处理;3,预处理后的数据进行标定得到有标签历史用电电流数据以及无标签历史用电电流数据;4,基于有标签历史用电电流数据对无标签历史用电电流数据的标签进行增广;5,合并标签增广后的数据得到样本集;6,采用机器学习方法对样本集进行训练得到窃电用户判别模型;7,实时采集用户的用电电流数据并输入至训练好的模型中进行判别。本发明的增广算法能够在使用建立判别模型前对标签进行扩充,且增广速率与效率都很高,利用本发明提出的增广算法得到的样本集通过机器学习方法能够实现更高的窃电样本识别准确率。
Description
技术领域
本发明涉及电力数据分析领域,尤其涉及一种基于标签增广的窃电用户判别方法。
背景技术
电力盗窃是国家电网公司与我国公安机关严厉打击的违法犯罪行为,给国民经济的发展造成了恶劣的影响。及时识别用户的盗电窃电行为,对规范居民用电、维持经济稳定具有重要的意义。传统的防窃电力***中的非技术性损失通常由窃电、计量故障、私搭乱接、私自改变用电性质等异常用电行为造成。一方面,作为未被纳入计费或未被正确计费的电能消费,异常用电给电力部门带来了巨大的经济损失。另一方面,未被监管的异常用电行为,如变更居民用电为商业用电、私接电动汽车充电桩等,严重威胁到电力***的正常运行。这些异常用电行为的长期存在,通常伴随着供电设备的过载、超压带来的电气设备超负荷、***动态不确定性及负载信息不足引发的电能调度不足等等,是电力***的一个重大安全隐患。
降低异常用电行为造成的损失,是世界各国电网长期以来亟待解决的重要问题之一,众多的科研人员投入其中。智能电表的普及和用电信息采集***功能的不断完善,为反窃电工作带来新的改变,目前供电企业己经实现采集***的全覆盖以及电力营销数据的全采集,并且采集异常处理己经趋于日常化。但目前低压居民用户异常用电案例数据严重不足,造成低压居民用户异常用电识别准确率不高且不稳定。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种基于标签增广的窃电用户判别方法,可在居民用户有标签用电数据样本数量小、存在大量无标签数据的前提下,充分利用无标签数据的信息辅助有标签样本进行窃电检测,大大提高窃电行为的判别准确率,具有重要学术意义和工程实用价值。
本发明采用如下的技术方案:
一种基于标签增广的窃电用户判别方法,包括以下内容:
步骤1:采集居民用户的历史用电电流数据;
步骤2:对步骤1采集的历史用电电流数据进行数据预处理;
步骤3:对步骤2预处理后的数据进行标定得到有标签历史用电电流数据以及无标签历史用电电流数据;
步骤4:基于有标签历史用电电流数据对对无标签历史用电电流数据的标签进行增广;
步骤5:将步骤4增广的标签与其原有的无标签历史用电电流数据进行对应,并与步骤3中的有标签数据进行合并得到样本集;
步骤6:采用机器学习方法对步骤5得到的样本集进行训练得到窃电用户判别模型;
步骤7:实时采集用户的用电电流数据并输入至步骤6训练好的模型中进行判别。
在步骤1中,每条历史用电电流数据中包括一天内多个按照一定频率进行采集的历史用电电流数据点。
在步骤2中,数据预处理的方法包括对异常值进行去除以及对缺失值进行填补。
在步骤3中,将历史用电电流数据分为有标签历史用电电流数据以及无标签历史用电电流数据;有标签历史用电数据包括窃电数据以及正常数据。
在步骤4中,对标签进行增广的方法包括以下步骤:
步骤401:基于有标签历史用电电流数据生成矩阵YL,并对YL中元素进行初始化;基于无标签历史用电电流数据生成矩阵YU,并对YU中元素进行初始化;之后将两个矩阵进行拼接得到矩阵Y;
步骤402:使用所有历史用电电流数据构建一个图,图中每个节点的坐标对应每条历史用电电流数据中的历史数据点,即数据的维度数对应图的维度数;
步骤403:计算图中所有代表无标签历史用电电流数据的节点的DistRank值;
步骤404:将代表无标签历史用电电流数据的节点按照DistRank值的大小进行排序,并按照这些节点的排序顺序更新标签历史用电电流数据在Y矩阵中的排列顺序;
步骤405:定义图中任意两个节点i和节点j的边权重;
步骤406:计算任意两个节点之间的概率值Tij;
步骤407:当计算完每个图中每个代表有标签历史用电电流数据的节点转移到每个代表无标签历史用电电流数据的节点的概率后,得到矩阵T,并更新矩阵Y;
步骤408:将更新后Y中有标签历史用电电流数据对应的值按照步骤401初始化的方法重新设置,将Y中无标签历史用电电流数据的标签概率值归一化,使得每一条无标签历史用电电流数据的标签概率值和为1;
步骤409:重复迭代步骤402至步骤407,直至无标签历史用电电流数据标签的概率值收敛或达到最大迭代次数。此时,无标签历史用电电流数据对应的标签为其所在列中拥有最大概率值的列所对应的标签类别。
在步骤401中,矩阵YL的维度为L×C,L为有标签历史用电电流数据的数量,C为有标签历史用电电流数据的标签类别个数;YL的初始化方法为:若第i个历史用电电流数据为第m类,i=1,2,3…L,m=1,2…C,则YL中第i行第m列元素为1,第i行其他列元素为0;
矩阵YU的维度为U×C,U为所有无标签历史用电电流数据的个数;YU的初始化方法为:将矩阵中每个元素的初始值设置为1/C。
在步骤403中,DistRank的计算方法为:
DR(M)是节点M的DistRank值,N为代表有标签历史用电电流数据的节点的总个数,D为历史用电电流数据总维度数,指第n个代表有标签历史用电电流数据的节点在第d维上的坐标,Md指节点M在第d维上的坐标。
步骤405中的边权重满足以下关系式:
概率值Tij满足以下关系式:
其中,wkj表示节点k与节点j之间的边权重。
矩阵Y的更新方法为:
Y=TY。
机器学习方法包括决策树、贝叶斯学习、神经网络。
本发明的有益效果在于,与现有技术相比:本发明提出的基于有标签数据的标签增广方法充分利用了无标签样本数据信息,大大扩大了样本的信息量。本发明的增广算法能够在使用机器学习方法建立判别模型前对标签进行扩充,且增广速率与效率都很高,相比较仅使用原始的有标签样本集,利用本发明提出的增广算法得到的样本集通过机器学习方法能够实现更高的窃电样本识别准确率。
附图说明
图1为本发明电流数据预处理结果图;
图2为利用本发明提出的基于标签增广方法后的窃电数据样本分布图;
图3为利用本发明提出的基于标签增广方法后的正常数据样本分布图;
图4为未使用本发明提出的基于标签增广方法的模型ROC曲线图;
图5为使用本发明提出的基于标签增广方法的模型ROC曲线图;
图6为使用本发明提出的基于标签增广方法前后的随机森林与SVM的模型检测结果对比图;
图7为本发明基于标签增广的窃电用户判别方法流程示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
一种基于标签增广的窃电用户判别方法,其流程图如图7所示,具体包括以下内容:
步骤1:采集居民用户的历史用电电流数据;
历史用电电流数据的数量可以根据实际情况进行调整,历史用电电流数据数量越大最后窃电判别的结果准确的可能性越高。每条历史用电电流数据中包括一天内多个按照一定频率进行采集的历史用电电流数据点,优选的,采集频率为1小时;
在本实施例中,采集了88个用户2017-2020年间间断日期每日每时刻的智能电表的历史用电电流数据,即每日每个用户的历史用电电流数据包含24个历史数据点;
步骤2:对步骤1采集的历史用电电流数据进行数据预处理;
数据预处理包括对异常值进行去除以及对缺失值进行填补;
数据缺失值填补原则如下:
其中,g(xi)是一条历史用电电流数据中xi时刻缺失的数据点,g(xi+1)表示xi下一时刻的数据点,g(xi-1)表示xi上一时刻的数据点;NaN指非数据值,指代某一项为空或缺失。如果xi时刻前后时刻的数据点不为NaN,那么缺失值为前后时刻数据点的平均值,若前后时刻数据点至少有一项为NaN,那么该缺失数据点填补为0。
对异常值进行删除,若一条历史用电电流数据中有大于四分之一的数据点数值为0,则定义该条历史用电电流数据为异常数据,删除该条历史用电电流数据。在本实施例中,即当每条数据24个数据点中有超过6个数据点的数值为0时,则将该条数据删除。
在本实施例中,经数据预处理后,共得到18617条历史用电电流数据。
步骤3:对步骤2预处理后的数据进行标定;
将历史用电电流数据分为有标签历史用电电流数据以及无标签历史用电电流数据;有标签历史用电数据包括窃电数据以及正常数据;
在本实施例中,供电公司提供了窃电用户名单,通过名单可以共得到2192条有标签历史用电电流数据,16425条无标签历史用电电流数据。有标签历史用电电流数据中窃电数据共有136条,正常数据共有2056条;其余皆为无标签历史用电电流数据。
步骤4:基于有标签历史用电电流数据对对无标签历史用电电流数据的标签进行增广;
对标签进行增广的方法如下:
步骤401:基于有标签历史用电电流数据生成矩阵YL,并对YL中元素进行初始化;基于无标签历史用电电流数据生成矩阵YU,并对YU中元素进行初始化;之后将两个矩阵进行拼接得到矩阵Y;
为所有有标签历史用电电流数据生成一个L×C的数据标签矩阵YL,其中L为有标签历史用电电流数据的数量,C为有标签历史用电电流数据的标签类别个数,在本实施例中类别为“窃电数据”与“正常数据”,因此标签类别个数C为2;
对于所有有标签历史用电电流数据,若第i个历史用电电流数据为第m类,i=1,2,3…L,m=1,2…C,则第i行第m列元素为1,第i行其他列元素为0;为所有无标签历史用电电流数据初始化生成一个U×C的数据标签矩阵YU,U为所有无标签历史用电电流数据的个数,其中矩阵中每一个元素的初始化值为1/C,视为无标签历史用电电流数据可以被标识为有标签历史用电电流数据中任意一种类别的概率值。将YL和YU纵向拼接,形成一个(L+U)行C列的矩阵Y;
步骤402:使用所有历史用电电流数据构建一个图,图中每个节点的坐标对应每条历史用电电流数据中的历史数据点,因此数据的维度数对应图的维度数;
在本实施例中,由于每条历史用电电流数据含有24个数据点,即数据的维度数为24,因此所构建的图的纬度数也为24;图中的每个节点即代表一条历史用电电流数据,图中包含所有有标签和无标签历史用电电流数据。
步骤403:计算图中所有代表无标签历史用电电流数据的节点的其DistRank值,DistRank的计算方法为:
DR(M)是节点M的DistRank值,N为代表有标签历史用电电流数据的节点的总个数,D为历史用电电流数据总维度数,指第n个代表有标签历史用电电流数据的节点在第d维上的坐标。Md指节点M在第d维上的坐标。
步骤404:将代表无标签历史用电电流数据的节点按照DistRank值的大小进行排序,并按照这些节点的排序顺序更新标签历史用电电流数据在Y矩阵中的排列顺序。
步骤405:定义图中任意两个节点i和节点j的边权重为:
步骤406:计算任意两个节点之间的概率值Tij,其中,从节点i转移到节点j的概率公式为:
其中,wkj表示节点k与j之间的边权重;
步骤407:当计算完每个图中每个代表有标签历史用电电流数据的节点转移到每个代表无标签历史用电电流数据的节点的概率后,得到矩阵T,并更新Y,更新方法为:
Y=TY
矩阵T的维度为(L+U)×(L+U)。
步骤408:将更新后Y中有标签历史用电电流数据对应的值按照步骤401的方法重新设置,将Y中无标签历史用电电流数据的标签概率值归一化,使得每一条无标签历史用电电流数据的标签概率值和为1;
步骤409:重复迭代步骤402至步骤407,直至无标签历史用电电流数据标签的概率值收敛或达到最大迭代次数。此时,无标签历史用电电流数据对应的标签为其所在列中拥有最大概率值的列所对应的标签类别;
无标签历史用电电流数据标签的概率值收敛是指该轮迭代归一化后的概率值与上一轮迭代归一化后的概率值误差小于收敛阈值;
优选的,收敛阈值取0.00001,最大迭代次数取1000;
在本实施例中,原先的无标签数据中有1357条数据被标定为窃电数据,有15068条数据被标定为正常数据。
步骤5:将步骤4增广的标签与其原有的无标签历史用电电流数据进行对应,并与步骤3中原先的有标签数据进行合并得到样本集;
在本实施例中,样本集中共含有标签数据2192条,标定的无标签数据16425条,其中窃电数据总数为1493,分布情况如图2所示;正常数据总数为17124,分布情况如图3所示。
步骤6:采用机器学习方法对步骤5得到的样本进行训练得到窃电用户判别模型;
此处的机器学习方法包括决策树、贝叶斯学习、神经网络。在本实施例中使用的是随机森林与SVM;
步骤7:实时采集用户的用电电流数据并输入至步骤6训练好的模型中进行判别;
利用ROC曲线,AUC值,准确率,召回率,精准率,F2分数进行评判。各指标计算方式如下:
ROC曲线以真阳率作为X轴,假阳率作为Y轴绘制两个变量,真阳率、假阳率计算公式如下:
AUC为ROC曲线下的面积。
其中ROC曲线、AUC值范围为0-1,ROC越靠近左上角、AUC值越大表明模型分类效果越好。
准确率定义为模型对样本分类的准确程度,公式为:
其中,TP为所有正确预测为窃电用电的样本数目,TN为所有正确预测为正常用电的样本数目,FP为预测为窃电用电但实际为正常用电的样本数目,FN为预测为正常用电但实际为窃电用电的样本数目。
F2分数计算公式为:
准确率和F2分数范围为0-1,准确率越大表明模型分类准确度越高,F2分数表示模型对于窃电样本查全的能力,其值越大,窃电样本查全的能力越高。
从图4和图5可以看出,使用了本发明所提出的标签增广的ROC曲线使得模型分类更加准确;图6为只使用随机森林或SVM与结合本发明标签增广与随机森林或SVM后的检测结果对比图。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (11)
1.一种基于标签增广的窃电用户判别方法,其特征在于,所述窃电用户判别方法包括以下步骤:
步骤1:采集居民用户的历史用电电流数据;
步骤2:对步骤1采集的历史用电电流数据进行数据预处理;
步骤3:对步骤2预处理后的数据进行标定得到有标签历史用电电流数据以及无标签历史用电电流数据;
步骤4:基于有标签历史用电电流数据对对无标签历史用电电流数据的标签进行增广;
步骤5:将步骤4增广的标签与其原有的无标签历史用电电流数据进行对应,并与步骤3中的有标签数据进行合并得到样本集;
步骤6:采用机器学习方法对步骤5得到的样本集进行训练得到窃电用户判别模型;
步骤7:实时采集用户的用电电流数据并输入至步骤6训练好的模型中进行判别。
2.根据权利要求1所述的基于标签增广的窃电用户判别方法,其特征在于:
在所述步骤1中,每条历史用电电流数据中包括一天内多个按照一定频率进行采集的历史用电电流数据点。
3.根据权利要求1或2所述的一种基于标签增广的窃电用户判别方法,其特征在于:
在所述步骤2中,所述数据预处理的方法包括对异常值进行去除以及对缺失值进行填补。
4.根据权利要求3所述的基于标签增广的窃电用户判别方法,其特征在于:
在所述步骤3中,将历史用电电流数据分为有标签历史用电电流数据以及无标签历史用电电流数据;有标签历史用电数据包括窃电数据以及正常数据。
5.根据权利要求4所述的基于标签增广的窃电用户判别方法,其特征在于:
在所述步骤4中,对标签进行增广的方法包括以下步骤:
步骤401:基于有标签历史用电电流数据生成矩阵YL,并对YL中元素进行初始化;基于无标签历史用电电流数据生成矩阵YU,并对YU中元素进行初始化;之后将两个矩阵进行拼接得到矩阵Y;
步骤402:使用所有历史用电电流数据构建一个图,图中每个节点的坐标对应每条历史用电电流数据中的历史数据点,即数据的维度数对应图的维度数;
步骤403:计算图中所有代表无标签历史用电电流数据的节点的DistRank值;
步骤404:将代表无标签历史用电电流数据的节点按照DistRank值的大小进行排序,并按照这些节点的排序顺序更新标签历史用电电流数据在Y矩阵中的排列顺序;
步骤405:定义图中任意两个节点i和节点j的边权重;
步骤406:计算任意两个节点之间的概率值Tij;
步骤407:当计算完每个图中每个代表有标签历史用电电流数据的节点转移到每个代表无标签历史用电电流数据的节点的概率后,得到矩阵T,并更新矩阵Y;
步骤408:将更新后Y中有标签历史用电电流数据对应的值按照步骤401初始化的方法重新设置,将Y中无标签历史用电电流数据的标签概率值归一化,使得每一条无标签历史用电电流数据的标签概率值和为1;
步骤409:重复迭代步骤402至步骤407,直至无标签历史用电电流数据标签的概率值收敛或达到最大迭代次数;此时,无标签历史用电电流数据对应的标签为其所在列中拥有最大概率值的列所对应的标签类别。
6.根据权利要求5所述的基于标签增广的窃电用户判别方法,其特征在于:
在所述步骤401中,所述矩阵YL的维度为L×C,L为有标签历史用电电流数据的数量,C为有标签历史用电电流数据的标签类别个数;YL的初始化方法为:若第i个历史用电电流数据为第m类,i=1,2,3…L,m=1,2…C,则YL中第i行第m列元素为1,第i行其他列元素为0;
所述矩阵YU的维度为U×C,U为所有无标签历史用电电流数据的个数;YU的初始化方法为:将矩阵中每个元素的初始值设置为1/C。
10.根据权利要求9所述的基于标签增广的窃电用户判别方法,其特征在于:
矩阵Y的更新方法为:
Y=TY。
11.根据权利要求10所述的基于标签增广的窃电用户判别方法,其特征在于:
所述机器学习方法包括决策树、贝叶斯学习、神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763168.8A CN113379322A (zh) | 2021-07-06 | 2021-07-06 | 一种基于标签增广的窃电用户判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763168.8A CN113379322A (zh) | 2021-07-06 | 2021-07-06 | 一种基于标签增广的窃电用户判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113379322A true CN113379322A (zh) | 2021-09-10 |
Family
ID=77581124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110763168.8A Pending CN113379322A (zh) | 2021-07-06 | 2021-07-06 | 一种基于标签增广的窃电用户判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379322A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097137A (zh) * | 2016-06-13 | 2016-11-09 | 国家电网公司 | 一种基于用电信息采集***的差异化防窃电监测*** |
US20170011318A1 (en) * | 2015-07-09 | 2017-01-12 | Johnson Controls Technology Company | Automated monitoring and service provider recommendation platform for hvac equipment |
CN106645934A (zh) * | 2016-12-12 | 2017-05-10 | 国网北京市电力公司 | 基于动态网格离群点的用电行为反窃电诊断方法和装置 |
CN109146705A (zh) * | 2018-07-02 | 2019-01-04 | 昆明理工大学 | 一种用电特征指标降维与极限学习机算法进行窃电检测的方法 |
CN110503136A (zh) * | 2019-07-31 | 2019-11-26 | 国家电网有限公司 | 台区线损异常分析方法、计算机可读存储介质及终端设备 |
CN112257013A (zh) * | 2020-10-19 | 2021-01-22 | 长沙理工大学 | 高损台区基于动态时间弯曲算法的窃电用户识别定位方法 |
CN112308124A (zh) * | 2020-10-21 | 2021-02-02 | 国家电网有限公司 | 一种面向用电信息采集***的智能防窃电方法 |
CN112580684A (zh) * | 2020-11-17 | 2021-03-30 | 平安科技(深圳)有限公司 | 基于半监督学习的目标检测方法、装置及存储介质 |
-
2021
- 2021-07-06 CN CN202110763168.8A patent/CN113379322A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170011318A1 (en) * | 2015-07-09 | 2017-01-12 | Johnson Controls Technology Company | Automated monitoring and service provider recommendation platform for hvac equipment |
CN106097137A (zh) * | 2016-06-13 | 2016-11-09 | 国家电网公司 | 一种基于用电信息采集***的差异化防窃电监测*** |
CN106645934A (zh) * | 2016-12-12 | 2017-05-10 | 国网北京市电力公司 | 基于动态网格离群点的用电行为反窃电诊断方法和装置 |
CN109146705A (zh) * | 2018-07-02 | 2019-01-04 | 昆明理工大学 | 一种用电特征指标降维与极限学习机算法进行窃电检测的方法 |
CN110503136A (zh) * | 2019-07-31 | 2019-11-26 | 国家电网有限公司 | 台区线损异常分析方法、计算机可读存储介质及终端设备 |
CN112257013A (zh) * | 2020-10-19 | 2021-01-22 | 长沙理工大学 | 高损台区基于动态时间弯曲算法的窃电用户识别定位方法 |
CN112308124A (zh) * | 2020-10-21 | 2021-02-02 | 国家电网有限公司 | 一种面向用电信息采集***的智能防窃电方法 |
CN112580684A (zh) * | 2020-11-17 | 2021-03-30 | 平安科技(深圳)有限公司 | 基于半监督学习的目标检测方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
马云波;李英娜;李川;: "基于GRU-Bagging模型的异常用电行为检测", 数据通信, no. 04, 28 August 2020 (2020-08-28) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520272B (zh) | 一种改进苍狼算法的半监督入侵检测方法 | |
CN110852856B (zh) | 一种基于动态网络表征的***虚开识别方法 | |
CN107145966A (zh) | 基于逻辑回归概率分析优化模型的反窃电分析预警方法 | |
CN109902740B (zh) | 一种基于多算法融合并行的再学习工业控制入侵检测方法 | |
Ali et al. | COMSATS University Islamabad | |
CN108470022A (zh) | 一种基于运维管理的智能工单质检方法 | |
CN110689069A (zh) | 一种基于半监督bp网络的变压器故障类型诊断方法 | |
CN104992297A (zh) | 基于大数据平台聚类算法的电费回收风险评估装置及方法 | |
CN112257784A (zh) | 一种基于梯度提升决策树的窃电检测方法 | |
CN113283909A (zh) | 一种基于深度学习的以太坊钓鱼账户检测方法 | |
CN111047428B (zh) | 基于少量欺诈样本的银行高风险欺诈客户识别方法 | |
CN115905959A (zh) | 基于缺陷因子的电力断路器关联性故障分析方法及装置 | |
CN113469457B (zh) | 融合注意力机制的输电线路故障概率预测方法 | |
CN116089843B (zh) | 一种基于数据聚类的新能源结算数据异常检测与预警方法 | |
CN113379322A (zh) | 一种基于标签增广的窃电用户判别方法 | |
CN111507752A (zh) | 基于双向长短期记忆网络的异常用户行为识别方法 | |
CN113191409A (zh) | 标签数据扩充与深度学习的居民异常用电行为检测方法 | |
CN113435494A (zh) | 低压居民用户异常用电识别方法及仿真模拟*** | |
CN115879030A (zh) | 一种针对配电网的网络攻击分类方法和*** | |
CN115187259A (zh) | 基于无监督式机器学习的区块链异常交易识别方法和*** | |
CN114676931A (zh) | 一种基于数据中台技术的电量预测*** | |
CN111126405B (zh) | 换流站监控故障报警信息实时扫描与更新推送方法 | |
CN114818849A (zh) | 基于大数据信息的卷积神经网络和遗传算法的反窃电方法 | |
CN113822771A (zh) | 一种基于深度学习的低误检率窃电检测方法 | |
CN114298819A (zh) | 一种企业信用风险预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |