CN106909933B - 一种三阶段多视角特征融合的窃电分类预测方法 - Google Patents
一种三阶段多视角特征融合的窃电分类预测方法 Download PDFInfo
- Publication number
- CN106909933B CN106909933B CN201710036718.XA CN201710036718A CN106909933B CN 106909933 B CN106909933 B CN 106909933B CN 201710036718 A CN201710036718 A CN 201710036718A CN 106909933 B CN106909933 B CN 106909933B
- Authority
- CN
- China
- Prior art keywords
- stealing
- feature
- client
- cluster
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000012360 testing method Methods 0.000 claims abstract description 37
- 230000005611 electricity Effects 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 241001269238 Data Species 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000035772 mutation Effects 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 7
- 238000007477 logistic regression Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001932 seasonal effect Effects 0.000 claims description 3
- 238000012731 temporal analysis Methods 0.000 claims description 3
- 238000000700 time series analysis Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 238000013459 approach Methods 0.000 abstract description 2
- 238000013480 data collection Methods 0.000 description 5
- 238000012913 prioritisation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R22/00—Arrangements for measuring time integral of electric power or current, e.g. electricity meters
- G01R22/06—Arrangements for measuring time integral of electric power or current, e.g. electricity meters by electronic methods
- G01R22/061—Details of electronic electricity meters
- G01R22/066—Arrangements for avoiding or indicating fraudulent use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Power Engineering (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种三阶段多视角特征融合的用电行为分类预测方法,首先对待分析的客户用电数据,将其作为测试集,并对日用电量、当日电表读数、前一日电表读数中的缺失数据分别用“‑1”和“0”进行填充,形成两份预处理数据;其次,对每份预处理数据,从不同视角来提取特征,对所有视角提取的特征进行合并,使用多个不同的分类预测的机器学习算法进行处理,得出训练集和测试集中的客户的窃电概率;最后,分别用线性模型和树模型对第二个阶段的输出进行预测,然后求均值,获得最终要预测的窃电概率。本发明在现有堆模型的集成学习方法的基础上,增加了数据的多样性、模型的多样性和过拟合处理,从而可以实现对客户窃电概率更加准确的预测。
Description
技术领域
本发明涉及客户用电行为分类预测的机器学习方法,尤其涉及一种三阶段多视角特征融合的窃电分类预测方法。
背景技术
社会经济的发展使得社会用电量逐年增加,受利益驱使,客户异常用电即窃电的现象也日益严重。客户窃电行为不仅给供电企业造成了重大经济损失,也严重影响了正常的供用电秩序。根据国家电网公司统计,近年因客户窃电导致的损失达上千万元。近年来,客户窃电方式也由野蛮窃电发展到设备智能化、手段专业化、行为隐蔽化、实施规模化的高科技窃电,给反窃电工作进一步增加了很大的难度。随着电力***升级,智能电力设备的普及,电网公司可以实时收集海量的客户用电行为数据、电力设备监测数据,为通过大数据分析技术来开展客户的窃电行为预测提供了基础。通过大数据分析技术实现对客户窃电概率的预测,可以科学的开展防窃电监测分析,提高反窃电工作效率,降低窃电行为分析的时间及成本。
在对大量客户的用电行为进行分析时,由于客户量巨大,历史用电数据缺失较为严重,现有的机器学习方法在处理时面临着缺失值处理、特征提取、特征选择和模型融合等多个方面的挑战,不仅对计算资源要求高,而且需要花费大量的时间对数百维、上千维的特征进行组合和选择。同时,单个分类算法还难以获得较好的客户窃电概率的预测结果,因此,研究可以更好适应数据缺失,减少特征选择过程和提高预测精度的方法具有很强的社会需求和很大的经济价值。
发明内容
本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷,提供一种三阶段多视角特征融合的窃电分类预测方法。
本发明为解决上述技术问题采用以下技术方案:
一种三阶段多视角特征融合的窃电分类预测方法,包括如下步骤:
步骤1),对待分析的客户用电数据,将其作为测试集,并对日用电量、当日电表读数、前一日电表读数中的缺失数据分别用“-1”和“0”进行填充,形成两份预处理数据;
步骤2),对每份预处理数据:
步骤2.1),从时间窗口统计、异常突变值统计和时间序列分析这三个视角中选择至少两个视角来提取特征,每个视角提取的特征值的集合作为一个单独的特征簇,然后把提取到的单独的特征簇合并为一个特征簇,并把该各个单独的特征簇以及合并后的特征簇形成的集合作为该预处理数据的特征簇集合;
步骤2.2),对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;
步骤3),对于训练集和测试集中的每一个客户,将其在两份预处理数据中预测得到的各个预测窃电概率组成其预测窃电概率集合;
步骤4),将训练集和测试集中所有客户的预测窃电概率集合作为特征、分别用树分类模型和线性分类模型对测试集进行预测,,得到待分析的客户用电数据中各个客户的最终预测窃电概率;
步骤5),将待分析的客户用电数据中各个客户的最终预测窃电概率分别和预设的窃电概率阈值进行比较,将最终预测窃电概率大于预设的窃电概率阈值的客户划分为窃电客户,将最终预测窃电概率小于等于预设的窃电概率阈值的客户划分为正常客户。
作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,所述步骤2.1)中选择三个视角来提取特征时的详细步骤为:
步骤2.1.1),对每个客户按每个月进行的用电量统计,并将其作为时间窗特征簇,所述用电量统计包括用电量的最大值、最小值、均值和根方差,;
步骤2.1.2),统计日用电量、当日电表读数和前一日电表读数的数值突变情况,并将其作为突变特征簇,所述数值突变情况包括小于前一日电表读数的电表读数、日用电量缺失、当日电表读数缺失、前一日电表读数缺失和日用电量为负数的电表读数;
步骤2.1.3),对每个客户按时间顺序,将日用电量转化为时间序列,分别提取时间序列的峰值个数、波谷个数、均值、分位数、季节性趋势、周期性趋势时间序列特征,作为时序特征簇;
步骤2.1.4),将时间窗特征簇、突变特征簇和时序特征簇合并为一个特征簇;
步骤2.1.5),把时间窗特征簇、突变特征簇、时序特征簇和合并后的特征簇形成的集合作为预处理数据的特征簇集合。
作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,所述步骤2.2)的详细步骤为:
对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;
步骤2.2.1),将训练集的数据按客户随机抽样分成N份训练数据;
步骤2.2.2),对于每份训练数据:
将其作为子验证集、其余N-1份训练数据的合集作为子训练集,依次使用特征簇集合中的每一个特征簇、采用至少一种二分类的分类算法预测该训练数据和测试集中客户的窃电概率;
步骤2.2.3),将步骤2.2.2)中所有训练数据的预测结果进行合并,得到训练集中各个客户的窃电概率的预测值;
步骤2.2.4),对步骤2.2.2)中各份训练数据对应的测试集中的每一份客户的窃电概率求平均值,得到测试集中的各个客户的窃电概率的预测值。
作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,步骤2.2)中采用的二分类的分类算法包含XGBoost、LightGBM、Keras、Nerual Network、Logistic Regression和Gradient Boost Decision Tree。
作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,步骤4)中所述的树分类模型为XGBoost、LightGBM、Keras、Nerual Network、GradientBoosting Decision Tree中的一种。
作为本发明一种三阶段多视角特征融合的窃电分类预测方法进一步的优化方案,步骤4)中所述的线性分类模型为booster设定为gblinear的XGBoost、LogisticRegression、Linear Regression中的一种。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1. 本发明的方法可以使得只需考虑单个视角的特征集内部的特征选择问题,避免了现有方法中在成千上万维的特征中来做特征选择时所需的大量计算资源和时间资源;
2. 相对于现有的机器学习方法或集成学习方法,本发明方法对现实中存在大量缺失数据的数据集更有效,同时通过增加数据集的多样性、模型的多样性和反过拟合,可以在减少计算量的同时,提升预测精度;
3. 本发明的方法在实现过程中无需修改现有客户用电行为分类预测的算法,可充分利用现有的分类预测算法来实现。
附图说明
图1是本发明中三阶段多视角特征融合的原理示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明公开了一种三阶段多视角特征融合的窃电分类预测方法,包括如下步骤:
步骤1),对待分析的客户用电数据,将其作为测试集,并对日用电量、当日电表读数、前一日电表读数中的缺失数据分别用“-1”和“0”进行填充,形成两份预处理数据;
步骤2),对每份预处理数据:
步骤2.1),从时间窗口统计、异常突变值统计和时间序列分析这三个视角中选择至少两个视角来提取特征,每个视角提取的特征值的集合作为一个单独的特征簇,然后把提取到的单独的特征簇合并为一个特征簇,并把该各个单独的特征簇以及合并后的特征簇形成的集合作为该预处理数据的特征簇集合;
步骤2.2),对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;
步骤3),对于训练集和测试集中的每一个客户,将其在两份预处理数据中预测得到的各个预测窃电概率组成其预测窃电概率集合;
步骤4),将训练集和测试集中所有客户的预测窃电概率集合作为特征、分别用树分类模型和线性分类模型对测试集进行预测,得到待分析的客户用电数据中各个客户的最终预测窃电概率;
步骤5),将待分析的客户用电数据中各个客户的最终预测窃电概率分别和预设的窃电概率阈值进行比较,将最终预测窃电概率大于预设的窃电概率阈值的客户划分为窃电客户,将最终预测窃电概率小于等于预设的窃电概率阈值的客户划分为正常客户。
所述步骤2.1)中选择三个视角来提取特征时的详细步骤为:
步骤2.1.1),对每个客户按每个月的用电量进行统计,并将其作为时间窗特征簇,所述用电量统计包括用电量的最大值、最小值、均值和根方差,;
步骤2.1.2),统计日用电量、当日电表读数和前一日电表读数的数值突变情况,并将其作为突变特征簇,所述数值突变情况包括小于前一日电表读数的电表读数、日用电量缺失、当日电表读数缺失、前一日电表读数缺失和日用电量为负数的电表读数;
步骤2.1.3),对每个客户按时间顺序,将日用电量转化为时间序列,分别提取时间序列的峰值个数、波谷个数、均值、分位数、季节性趋势、周期性趋势时间序列特征,作为时序特征簇;
步骤2.1.4),将时间窗特征簇、突变特征簇和时序特征簇合并为一个特征簇;
步骤2.1.5),把时间窗特征簇、突变特征簇、时序特征簇和合并后的特征簇形成的集合作为预处理数据的特征簇集合。
所述步骤2.2)的详细步骤为:
对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;
步骤2.2.1),将训练集的数据按客户随机抽样分成N份训练数据;
步骤2.2.2),对于每份训练数据:
将其作为子验证集、其余N-1份训练数据的合集作为子训练集,依次使用特征簇集合中的每一个特征簇、采用至少一种二分类的分类算法预测该训练数据和测试集中客户的窃电概率;
步骤2.2.3),将步骤2.2.2)中所有训练数据的预测结果进行合并,得到训练集中各个客户的窃电概率的预测值;
步骤2.2.4),对步骤2.2.2)中各份训练数据对应的测试集中的每一份客户的窃电概率求平均值,得到测试集中的各个客户的窃电概率的预测值。
步骤2.2)中采用的二分类的分类算法包含XGBoost、LightGBM、Keras、NerualNetwork、Logistic Regression和Gradient Boost Decision Tree。
步骤4)中所述的树分类模型为XGBoost、LightGBM、Keras、Nerual Network、Gradient Boosting Decision Tree中的一种。
步骤4)中所述的线性分类模型为booster设定为gblinear的XGBoost、LogisticRegression、Linear Regression中的一种。
如图1所示,是本发明的一个实施例中,所用的预处理数据集为2个,提取特征的视角为简化起见只选用了时间窗统计特征和异常突变特征这2个,选用的分类算法为2个,做特征融合时将数据分成5份(N=5)。
本实施例包括下列步骤:
步骤1),对待预测的数据,将缺失的日用电量(KWH)、当日电表读数(KWH_READING)和前一日电表读数(KWH_READING1)分别填充为-1和0,产生两个预处理文件PD1和PD2。
步骤2),对PD1和PD2从时间窗统计特征和异常突变特征这2个不同的视角来分别提取特征,获得V11、V12、V21、V22、V11和V12的合集V1A、V21和V22的合集V2A:
步骤2.1),按客户分组后,将时间按月划分为不同的时间窗口,统计每个时间窗口内的日用电的特征,包括最大值、最小值、中值、均值、0的个数、连续0的个数、十分位数等,作为时间窗特征。对PD1和PD2分别提取时间窗特征,得到V11和V21;
步骤2.2),对客户分组后,按时间从小到大排序后,分别统计日用电量为负数、日用电量为0、当日电表读数小于前一日电表读数等,作为异常突变特征。对PD1和PD2分别提取异常突变特征,得到V12和V22;
步骤2.3),将PD1的多个视角的特征集合并,即将V11和V12合并,得到特征合集V1A;将PD2的多个视角的特征集合并,即将V21和V22合并,得到特征合集V2A;
步骤3),分别对每个特征集采用两种不同的分类预测算法,预测训练集和测试集中的客户的窃电概率:
步骤3.1),对每个特征集,将训练集分为5份(N=5)。
步骤3.2),取任意4份训练数据,用分类预测算法训练模型,然后预测另外一份训练数据和测试数据中客户的窃电概率;
步骤3.3),将步骤3.2)中得到的对训练数据的窃电概率预测数据合并,得到对整个训练集中客户的窃电概率;将步骤3.2)中得到的对测试集中客户的窃电概率预测值求平均,得到对测试集中客户窃电的预测概率;
步骤3.4),用分类预测算法M对每个特征集V11、V12、V1A、V21、V22、V2A分别用步骤3.1),、步骤3.2),、步骤3.3),的步骤,得到对每个特征集的窃电预测概率M11、M12、M1A、M21、M22、M2A;用分类预测算法N(N跟M为不同的分类预测算法)对每个特征集V11、V12、V1A、V21、V22、V2A分别用步骤31)、步骤32)、步骤33)的步骤,得到对每个特征集的窃电预测概率N11、N12、N1A、N21、N22、N2A;
步骤4),将步骤3)对训练集中客户的窃电概率预测值作为训练集输入特征,对测试集的窃电概率预测值作为测试集输入特征,分别用分类预测的树模型和分类预测的线性模型来预测测试集中客户的窃电概率,并对预测结果求平均,得到最终的客户窃电预测结果:
步骤4.1),将步骤3)得到的基础模型的预测概率作为特征,将M11、N11、M12、N12、M1A、N1A、M21、N21、M22、N22、M2A、N2A以客户编号为主键进行连接,用线性分类算法LogisticRegressionClassifier进行分类预测,获得对测试集中客户窃电概率的预测值LA;
步骤4.2),将步骤3)得到的基础模型的预测概率作为特征,将M11、N11、M12、N12、M1A、N1A、M21、N21、M22、N22、M2A、N2A以客户编号为主键进行连接,用树分类算法XGBoost进行分类预测,获得对测试集中客户窃电概率的预测值TA;
步骤4.3),将步骤4.1)和步骤4.2)的客户窃电概率预测值求均值,作为最客户的最终预测窃电概率R;
步骤5),将待分析的客户用电数据中各个客户的最终预测窃电概率分别和预设的窃电概率阈值进行比较,将最终预测窃电概率大于预设的窃电概率阈值的客户划分为窃电客户,将最终预测窃电概率小于等于预设的窃电概率阈值的客户划分为正常客户。
本发明的基本原理是:首先对待分析的客户用电数据的缺失值进行不同的填充,产生多个不同的预处理数据集,增加了数据的多样性,使得后续的特征提取和模型可以更好的利用缺失数据隐含的信息。其次在特征提取过程中,对每个预处理数据集,从时间窗统计、突变值统计和时间序列特征等多个视角来分别构建特征集,并将多个视角的提取的特征合并为一个特征集,这使得对每个预处理数据集的特征可以更好的刻画数据集的特性,同时由于几个特征集是从不同视角出发来构建的,特征集之间的差异性很大,避免了特征之间的相互干扰,减少了特征选择的计算过程。同时,由于对于每个预处理数据集,都构建了一个由多个不同视角的特征簇的特征合集,因此可以较好的融合多个不同视角的特征集,有利于最终的模型融合。在模型构建过程中,采用多个现有的主流分类算法,包括XGBoost、Gradient Boost Decision Tree、Neural Network等算法,增加了算法的多样性,使得不同算法的组合可以更好的从不同的角度刻画数据的特性。最后,采用树模型和线性模型的预测概率的均值作为最终预测结果,可以较好的避免模型的过拟合问题。上述方法用更小的资源实现了对客户窃电概率更精准的分类预测,具有更好的实际工程应用价值。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种三阶段多视角特征融合的窃电分类预测方法,其特征在于,包括如下步骤:
步骤1),对待分析的客户用电数据,将其作为测试集,并对日用电量、当日电表读数、前一日电表读数中的缺失数据分别用“-1”和“0”进行填充,形成两份预处理数据;
步骤2),对每份预处理数据:
步骤2.1),从时间窗口统计、异常突变值统计和时间序列分析这三个视角中选择至少两个视角来提取特征,每个视角提取的特征值的集合作为一个单独的特征簇,然后把提取到的单独的特征簇合并为一个特征簇,并把该各个单独的特征簇以及合并后的特征簇形成的集合作为该预处理数据的特征簇集合;
步骤2.2),对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;
步骤3),对于训练集和测试集中的每一个客户,将其在两份预处理数据中预测得到的各个预测窃电概率组成其预测窃电概率集合;
步骤4),将训练集和测试集中所有客户的预测窃电概率集合作为特征、分别用树分类模型和线性分类模型对测试集进行预测,将得到的两个预测概率值取平均,得到待分析的客户用电数据中各个客户的最终预测窃电概率;
步骤5),将待分析的客户用电数据中各个客户的最终预测窃电概率分别和预设的窃电概率阈值进行比较,将最终预测窃电概率大于预设的窃电概率阈值的客户划分为窃电客户,将最终预测窃电概率小于等于预设的窃电概率阈值的客户划分为正常客户。
2.如权利要求1所述的一种三阶段多视角特征融合的窃电分类预测方法,其特征在于,所述步骤2.1)中选择三个视角来提取特征时的详细步骤为:
步骤2.1.1),对每个客户按每个月的用电量进行统计,并将其作为时间窗特征簇,所述用电量统计包括用电量的最大值、最小值、均值和根方差;
步骤2.1.2),统计日用电量、当日电表读数和前一日电表读数的数值突变情况,并将其作为突变特征簇,所述数值突变情况包括小于前一日电表读数的电表读数、日用电量缺失、当日电表读数缺失、前一日电表读数缺失和日用电量为负数的电表读数;
步骤2.1.3),对每个客户按时间顺序,将日用电量转化为时间序列,分别提取时间序列的峰值个数、波谷个数、均值、分位数、季节性趋势、周期性趋势时间序列特征,作为时序特征簇;
步骤2.1.4),将时间窗特征簇、突变特征簇和时序特征簇合并为一个特征簇;
步骤2.1.5),把时间窗特征簇、突变特征簇、时序特征簇和合并后的特征簇形成的集合作为预处理数据的特征簇集合。
3.如权利要求2所述的一种三阶段多视角特征融合的窃电分类预测方法,其特征在于,所述步骤2.2)的详细步骤为:
对特征簇集合中的每一个特征簇,采用至少一种二分类的分类算法使用该特征簇分别对预设的客户用电数据的训练集、测试集中的每一个客户进行窃电概率预测;
步骤2.2.1),将训练集的数据按客户随机抽样分成N份训练数据;
步骤2.2.2),对于每份训练数据:
将其作为子验证集、其余N-1份训练数据的合集作为子训练集,依次使用特征簇集合中的每一个特征簇、采用至少一种二分类的分类算法预测该子验证集和测试集中客户的窃电概率;
步骤2.2.3),将步骤2.2.2)中所有训练数据的预测结果进行合并,得到训练集中各个客户的窃电概率的预测值;
步骤2.2.4),对步骤2.2.2)中各份训练数据对应的测试集中的每一份客户的窃电概率求平均值,得到测试集中的各个客户的窃电概率的预测值。
4.如权利要求3所述的一种三阶段多视角特征融合的窃电分类预测方法,其特征在于,步骤2.2)中采用的二分类的分类算法包含XGBoost、LightGBM、Keras、Nerual Network、Logistic Regression和Gradient Boost Decision Tree。
5.如权利要求3所述的一种三阶段多视角特征融合的窃电分类预测方法,其特征在于,步骤4)中所述的树分类模型为XGBoost、LightGBM、Keras、Nerual Network、GradientBoosting Decision Tree中的一种。
6.如权利要求3所述的一种三阶段多视角特征融合的窃电分类预测方法,其特征在于,步骤4)中所述的线性分类模型为booster设定为gblinear的XGBoost、LogisticRegression、Linear Regression中的一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710036718.XA CN106909933B (zh) | 2017-01-18 | 2017-01-18 | 一种三阶段多视角特征融合的窃电分类预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710036718.XA CN106909933B (zh) | 2017-01-18 | 2017-01-18 | 一种三阶段多视角特征融合的窃电分类预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106909933A CN106909933A (zh) | 2017-06-30 |
CN106909933B true CN106909933B (zh) | 2018-05-18 |
Family
ID=59206516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710036718.XA Expired - Fee Related CN106909933B (zh) | 2017-01-18 | 2017-01-18 | 一种三阶段多视角特征融合的窃电分类预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106909933B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492043A (zh) * | 2017-09-04 | 2017-12-19 | 国网冀北电力有限公司电力科学研究院 | 窃电分析方法及装置 |
CN107862347A (zh) * | 2017-12-04 | 2018-03-30 | 国网山东省电力公司济南供电公司 | 一种基于随机森林的窃电行为的发现方法 |
CN108490288B (zh) * | 2018-03-09 | 2019-04-16 | 华南师范大学 | 一种窃电检测方法及*** |
CN108961215A (zh) * | 2018-06-05 | 2018-12-07 | 上海大学 | 基于多模态医学影像的帕金森病辅助诊断***和方法 |
CN109359674A (zh) * | 2018-09-27 | 2019-02-19 | 智庭(北京)智能科技有限公司 | 一种基于多模型blending的智能锁异常检测方法 |
CN109858679A (zh) * | 2018-12-30 | 2019-06-07 | 国网浙江省电力有限公司 | 一种结合人机物的反窃电稽查监控***及其工作方法 |
CN110119755A (zh) * | 2019-03-22 | 2019-08-13 | 国网浙江省电力有限公司信息通信分公司 | 基于Ensemble学习模型的电量异常检测方法 |
CN111507507B (zh) * | 2020-03-24 | 2023-04-18 | 重庆森鑫炬科技有限公司 | 基于大数据的月用水量预测方法 |
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
CN112232985B (zh) * | 2020-10-15 | 2023-02-28 | 国网天津市电力公司 | 用于泛在电力物联网的配用电数据监测方法及装置 |
CN112485491A (zh) * | 2020-11-23 | 2021-03-12 | 国网北京市电力公司 | 电力窃取的识别方法及装置 |
CN112561569B (zh) * | 2020-12-07 | 2024-02-27 | 上海明略人工智能(集团)有限公司 | 基于双模型的到店预测方法、***、电子设备及存储介质 |
CN113128567A (zh) * | 2021-03-25 | 2021-07-16 | 云南电网有限责任公司 | 一种基于用电量数据的异常用电行为识别方法 |
CN113435513B (zh) * | 2021-06-28 | 2024-06-04 | 平安科技(深圳)有限公司 | 基于深度学习的保险客户分群方法、装置、设备和介质 |
CN116954591B (zh) * | 2023-06-15 | 2024-02-23 | 天云融创数据科技(北京)有限公司 | 银行领域的广义线性模型训练方法、装置、设备和介质 |
CN117033916A (zh) * | 2023-07-10 | 2023-11-10 | 国网四川省电力公司营销服务中心 | 一种基于神经网络的窃电检测方法 |
CN116933986B (zh) * | 2023-09-19 | 2024-01-23 | 国网湖北省电力有限公司信息通信公司 | 一种基于深度学习的电力数据安全管理*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866321A (zh) * | 2012-08-13 | 2013-01-09 | 广东电网公司电力科学研究院 | 一种自适应的防窃漏电诊断方法 |
CN103778567A (zh) * | 2014-01-21 | 2014-05-07 | 深圳供电局有限公司 | 一种用户异常用电甄别的方法及*** |
CN105069476A (zh) * | 2015-08-10 | 2015-11-18 | 国网宁夏电力公司 | 基于两阶段集成学习的风电异常数据识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070136082A1 (en) * | 2005-12-14 | 2007-06-14 | Southern Company Services, Inc. | System and method for energy diversion investigation management |
-
2017
- 2017-01-18 CN CN201710036718.XA patent/CN106909933B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866321A (zh) * | 2012-08-13 | 2013-01-09 | 广东电网公司电力科学研究院 | 一种自适应的防窃漏电诊断方法 |
CN103778567A (zh) * | 2014-01-21 | 2014-05-07 | 深圳供电局有限公司 | 一种用户异常用电甄别的方法及*** |
CN105069476A (zh) * | 2015-08-10 | 2015-11-18 | 国网宁夏电力公司 | 基于两阶段集成学习的风电异常数据识别方法 |
Non-Patent Citations (2)
Title |
---|
Anomaly detection of power Consumption based on waveform feature recognition;Tang Yijia et al;《The 11th International Conference on Computer Science&Education 》;20161231;587-591 * |
应用大数据技术的反窃电分析;陈文瑛 等;《电子测量与仪器学报》;20161031;第30卷(第10期);1558-1566 * |
Also Published As
Publication number | Publication date |
---|---|
CN106909933A (zh) | 2017-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909933B (zh) | 一种三阶段多视角特征融合的窃电分类预测方法 | |
CN111738462B (zh) | 电力计量装置故障抢修主动服务预警方法 | |
CN111612650B (zh) | 一种基于dtw距离的电力用户分群方法及*** | |
CN110232203B (zh) | 知识蒸馏优化rnn短期停电预测方法、存储介质及设备 | |
CN110082699A (zh) | 一种低压台区智能电能表运行误差计算方法及其*** | |
CN112149873B (zh) | 一种基于深度学习的低压台区线损合理区间预测方法 | |
CN110263827A (zh) | 基于交易规律识别的异常交易检测方法及装置 | |
CN112396234A (zh) | 一种基于时域卷积神经网络的用户侧负荷概率预测方法 | |
CN111582548A (zh) | 一种基于多元用户行为画像的用电负荷预测方法 | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN104346698A (zh) | 基于云计算和数据挖掘的餐饮会员大数据分析和考核*** | |
CN114611738A (zh) | 一种基于用户用电行为分析的负荷预测方法 | |
El Maghraoui et al. | Smart energy management system: A comparative study of energy consumption prediction algorithms for a hotel building | |
CN110009427B (zh) | 一种基于深度循环神经网络的电力销售金额智能预测方法 | |
CN112508254B (zh) | 变电站工程项目投资预测数据的确定方法 | |
CN114021425A (zh) | 电力***运行数据建模与特征选择方法、装置、电子设备和存储介质 | |
CN107274025B (zh) | 一种实现用电模式智能识别与管理的***和方法 | |
Wang et al. | Cloud computing and extreme learning machine for a distributed energy consumption forecasting in equipment-manufacturing enterprises | |
CN114676931B (zh) | 一种基于数据中台技术的电量预测*** | |
Ignatiadis et al. | Forecasting residential monthly electricity consumption using smart meter data | |
CN113837486B (zh) | 一种基于rnn-rbm的配网馈线长期负荷预测方法 | |
CN113449923A (zh) | 一种多模型标的物行情预测方法和装置 | |
CN116611589B (zh) | 主网输变电设备停电窗口期预测方法、***、设备及介质 | |
Tao et al. | Power consumption behavior analysis for customer side flexible resources based on data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210416 Address after: 210046, 66 new model street, Gulou District, Jiangsu, Nanjing Patentee after: NANJING University OF POSTS AND TELECOMMUNICATIONS Patentee after: STATE GRID ELECTRIC POWER RESEARCH INSTITUTE Co.,Ltd. Address before: 210046, 66 new model street, Gulou District, Jiangsu, Nanjing Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180518 |
|
CF01 | Termination of patent right due to non-payment of annual fee |