CN107492043A - 窃电分析方法及装置 - Google Patents
窃电分析方法及装置 Download PDFInfo
- Publication number
- CN107492043A CN107492043A CN201710785696.7A CN201710785696A CN107492043A CN 107492043 A CN107492043 A CN 107492043A CN 201710785696 A CN201710785696 A CN 201710785696A CN 107492043 A CN107492043 A CN 107492043A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- model
- training
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 66
- 230000005611 electricity Effects 0.000 claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 230000003542 behavioural effect Effects 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000013103 analytical ultracentrifugation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000004907 flux Effects 0.000 claims 2
- 238000005457 optimization Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 230000006378 damage Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000512668 Eunectes Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002490 cerebral effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种窃电分析方法及装置,其中方法包括:采集用户的用电行为数据以及用户的档案数据;将采集的数据制成样本数据,样本数据包括训练数据、测试数据和预测数据,其中,训练数据和测试数据携带标签,标签是根据用户的历史窃电记录一一标记而成;将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型,对模型进行训练与测试;将预测数据加载至训练好的模型,获得用户的窃电行为分析结果。本发明可以实现高效率的、准确的窃电嫌疑分析。
Description
技术领域
本发明涉及电力管理技术领域,尤其涉及一种窃电分析方法及装置。
背景技术
窃电是伴随着供电产生之初就一直存在的不法行为,窃电行为给电力部门和人民的生活带来了极大的危害,轻则损坏低压电气设备,损害电力公司的财产利益,重则导致大面积网域停电甚至因窃电造成触电伤亡事故,威胁他人的人身安全。为了打击窃电行为,供电企业一直致力于反窃电的工作中,但是随着科技的发展,窃电手段越来越“高超”,行为越来越隐蔽,反窃电的工作难度也不断增大。
窃电的形式多种多样,但最终目的是修改计量数据,所以大多是通过改变计量装置来进行窃电。传统的反窃电方式主要是更换为更先进的计量装置或增加监督设备。具体分为以下3种方式:
1.合理选取计量设备,比如互感器等,由于计量装置经常会受电流互感器的影响而出现误差,所以互感器的工作环境和互感器倍率很重要,工作人员应该控制好这两个因素。
2.更新电能表,安装具有防窃电方式的电能表。
3.安装对应的电量监视器,监视器可以监察和分析电量实际的运行情况和在线运行的数据,工作人员通过监视器可以基本掌握窃电的相关数据,从而减小排查范围。
这些方法虽然起到了不错的效果,但是总体来说,其不足在于:效率偏低,设备和人力的成本昂贵,并且现在窃电手段又呈现高科技、隐蔽性,传统的反窃电方式已经不再适合,需要新的更有力有效地反窃电方式。
基于BP(back propagation,反向传播)神经网络算法的用户窃电行为分析方法是比较新的一种反窃电方法。BP神经网络算法是机器学习方法的一种,主要通过模仿人类的脑神经***从接受信息到处理以及储存的过程,建立算法模型。BP神经网络分为输入层、隐藏层和输出层三层,将计量装置采集的与窃电相关的源数据作为输入层的输入向量,输入向量通过三层之间的层层映射,建立矩阵函数,输出结果。输出的结果通过反向误差回馈,再迭代计算并且输出结果,直到结果符合要求。该算法智能地分析了用户的窃电行为,减少了人力成本。
但其不足在于:BP神经网络算法会容易陷入局部最小点不足、迭代时间长的问题,所以效果也不是很理想。
发明内容
本发明实施例提供一种窃电分析方法,用以实现高效率的、准确的窃电嫌疑分析,该方法包括:
采集用户的用电行为数据以及用户的档案数据;
将采集的数据制成样本数据,样本数据包括训练数据、测试数据和预测数据,其中,训练数据和测试数据携带标签,标签是根据用户的历史窃电记录一一标记而成;
将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型,对模型进行训练与测试;
将预测数据加载至训练好的模型,获得用户的窃电行为分析结果。
本发明实施例还提供一种窃电分析装置,用以实现高效率的、准确的窃电嫌疑分析,该装置包括:
采集模块,用于采集用户的用电行为数据以及用户的档案数据;
数据处理模块,用于将采集的数据制成样本数据,样本数据包括训练数据、测试数据和预测数据,其中,训练数据和测试数据携带标签,标签是根据用户的历史窃电记录一一标记而成;
训练与测试模块,用于将训练数据和测试数加载至基于Xgboost算法建立的机器学习的模型,对模型进行训练与测试;
分析模块,用于将预测数据加载至训练好的模型,获得用户的窃电行为分析结果。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述窃电分析方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述窃电分析方法的计算机程序。
本发明实施例中,由于是将预测数据加载至基于Xgboost算法建立的机器学习的模型后获得用户的窃电行为分析结果,因此能够很好的针对用于窃电嫌疑分析的许多字段是非线性的特点,由于采用了Xgboost算法,因此可以提高分析效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中窃电分析方法的示意图;
图2为本发明实施例中窃电分析方法的具体实例图;
图3为本发明实施例中某用户窃电嫌疑的概率示意图;
图4为本发明实施例中窃电分析装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
传统的反窃电技术,由于大部分都是从检查计量装置入手,拉网式逐户检查,已经不能高效地查获窃电行为。如何高水准地查获窃电用户,已经成为供电企业迫切需要解决的问题。目前,融合机器学习的数据挖掘技术已经广泛应用在了互联网、银行、保险等行业中,而且取得了可观的成绩,但是该技术在电力行业还是初步发展阶段。
发明人注意到:从机器学习角度看,窃电行为的判断是一个分类问题,常用的模型有支持向量机、朴素贝叶斯、随机森林、逻辑回归、GBDT(Gradient Boosting DecisionTree,梯度提升决策树)等。由于窃电嫌疑分析的许多字段是非线性的,而且Xgboost在速度和精度上要优于GBDT,所以方案中选定Xgboost建立模型来分析窃电嫌疑。
下面对具体的将Xgboost算法运用于窃电分析的实施进行说明。
图1为本发明实施例中窃电分析方法的示意图,如图1所示,该方法可以包括:
步骤101、采集用户的用电行为数据以及用户的档案数据;
步骤102、将采集的数据制成样本数据,其中,样本数据包括训练数据、测试数据和预测数据,标签是根据用户的历史窃电记录一一标记而成;
步骤103、将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型,对模型进行训练与测试;
步骤104、将预测数据加载至训练好的模型,获得用户的窃电行为分析结果。
1、数据采集阶段。
对于步骤101的数据采集阶段,实施例中可以如下:
用户的用电行为数据可以包括以下数据其中之一或任意组合:
负荷曲线数据,电压曲线数据,电流曲线数据,日冻结电能示值数据,日冻结电能量数据。
用户的档案数据可以包括以下数据其中之一或任意组合:
电能表信息,用户信息,计量点信息。
实施例中,在数据采集阶段,所用的数据主要是两大类,一类是用户的用电行为数据,一类是用户的档案数据。用户的用电行为数据主要包括负荷曲线数据、电压曲线数据、电流曲线数据、日冻结电能示值数据、日冻结电能量数据等。而用户的档案数据具体可以是将电能表信息、用户信息、计量点信息等多张表按关联关系整合成一张档案表。
实施例中,在采集用户的用电行为数据以及用户的档案数据时,若数据为训练数据和测试数据则用Kettle工具从数据库中采集,若数据为预测数据则用Python工具从数据库中采集。
具体的实施例中,数据采集的方式可以根据模型的用途分为两种,当被模型用作训练数据和测试数据时,用Kettle工具从数据库中抽取;当被模型用作预测数据时,用Python编写代码从数据库中抽取数据。实施例中提供了数据采集的两种情况,若数据为训练数据和测试数据,用Kettle导入,数据的抽取是在模型建立之前,手动抽取数据方便人为观察分析数据;若数据为预测数据,则用Python代码调取数据库的数据,可以直接进行数据清洗,实现数据的自动化抽取。要判断窃电嫌疑的预测数据通过Python代码自动抽取到数据处理接口,处理后的数据作为模型的输入参数,通过模型判断用户的窃电嫌疑。
在步骤101后,还可以采取进一步的处理如下:
2、特征选取阶段。
在采集用户的用电行为数据以及用户的档案数据后,还可以进一步包括:
对采集的数据进行特征选取。
具体的实施例中,特征选取是指从数据的所有特征项选取最有效的一组特征,去除无关特征,降低特征组的维度,从而达到减少运行时间、降低无关特征对分类效果的影响、提高分析结果的准确度等效果。具体实施中,由于窃电嫌疑分析涉及到多张数据表,可以根据窃电涉及的相关异常的概念和专家的经验选取有效特征。例如,在下述实例中总共选取了33个特征项。
3、数据清洗阶段。
在采集用户的用电行为数据以及用户的档案数据后,还可以进一步包括:
对采集的数据进行数据清洗。
具体的实施例中,数据清洗是将源数据中的“脏数据”清洗为干净数据,即满足数据分析要求的数据。通过质量评估,核实数据内容和字段值是否一致,修正错误值。
实施例中,提取有效的特征项,剔除无用字段,并将数据清洗为干净数据。Xgboost算法将数据按行为单位作为一个样本数据,所以清洗后的数据要将某一天多行的数据转成一行,并且通过关联字段将所有表整合成一张数据表,以满足Xgboost算法处理数据的要求。
4、获取样本数据阶段。
步骤102中,将数据制成样本数据,样本数据包括训练数据、测试数据和预测数据,其中,训练数据和测试数据携带标签,标签是根据用户的历史窃电记录一一标记而成。训练数据和测试数据用于机器学习的训练与测试。
具体的实施例中,数据通过上述三个阶段采集并清洗获得,标签是根据用户的历史窃电记录一一标记而成。给数据打标签是将窃电与否作为训练数据和测试数据的已知结果,用于机器学习的训练与测试。例如,在下述实例中,将发生窃电记为1,未发生窃电记为0。实施例中,Xgboost算法通过学习训练数据的规律达到正确分类,训练数据和测试数据包括事件的结果数据。根据窃电的记录给训练数据和测试数据打标签。
5、建模与训练数据阶段。
下面对本阶段的步骤103将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型,对模型进行训练与测试的实施进行说明。实施例中根据综合效果设置Xgboost算法的参数,建立模型,训练模型。Xgboost算法在对样本迭代计算后,生成多棵树,最后将多棵树的结果按权值累加形成最终结果。
实施例中,加载训练数据和测试数据前,可以进一步包括将Xgboost算法的参数设置为以下参数:
分类器每次迭代的模型为:基于树的模型;
需要被最小化的损失函数为:二分类的逻辑回归;
有效数据的度量方法为:auc曲线下面积;
权重的L2正则化项为:50;
学习效率为:0.3。
实施例中,按照一定比例将标记好的样本数据划分为训练数据和测试数据。例如,参数设置完毕后,可以按照12:4的比例加载训练数据和测试数据,对模型进行训练与测试。
具体的实施例中,建立与训练的模型是基于Xgboost算法建立机器学习的模型。在具体实施例中可以在服务器中依次安装Anaconda,Mingw-w64,Git,Pip,Xgboost,并且配置好环境变量,调试环境,确定Python中可以运行Xgboost。设置Xgboost算法中的相关参数,具体可以为:
'booster':'gbtree',分类器每次迭代的模型为:基于树的模型。
'objective':'binary:logistic',该参数是定义需要被最小化的损失函数。在下述实例中选择的是二分类的逻辑回归,返回预测的概率,即窃电嫌疑的概率0-1。
'eval_metric':'auc',该参数指对于有效数据的度量方法,选择的是auc曲线下面积。
'lambda':50,该参数指权重的L2正则化项,这个参数用来控制xgboost的正则化部分,在减少过拟合上有较大的作用。
'eta':0.3,指学习效率,通过减少每一步的权重,可以提高模型的鲁棒性。
参数设置完毕,加载携带标签的样本数据,按照12:4的比例划为训练数据和测试数据,对模型进行训练与测试。
6、优化模型阶段。
实施例中,还可以进一步包括:
根据训练和测试效果对数据进行分析后,通过修改数据的特征项和模型参数对模型进行优化。
具体的实施例中,在通过第5阶段建立模型、训练数据、测试数据后,模型初步形成。则可根据训练和测试效果对数据进行分析,通过修改数据的特征项和模型参数对模型进行优化。
7、模型预测阶段。
通过采集模块采集要进行窃电分析的用户的相关数据,并且通过数据处理后加载到模型中,进行预测。如在下述实例中具体得出的模型各个概率的判定指标如表1所示,F值在0.9时最优,得出以下结论:概率在0.9-1之间为重大窃电嫌疑;在0.7-0.8之间为一般窃电嫌疑,需要观察一段时间用电行为;在0.7以下为无窃电嫌疑。
下面以实例进行说明。
图2为本发明实施例中窃电分析方法的具体实例图,如图2所示,可以包括:
首先进入数据采集阶段:
步骤201、输入源数据;
步骤202、判断是训练数据和测试数据,还是预测数据,如果是训练数据和测试数据则转入步骤203,如果是预测数据则转入步骤204;
步骤203、采用Kettle进行数据采集;
步骤204、采用Python进行数据采集;
步骤205、进行特征选取;
进入下一数据清洗阶段:
步骤206、输入特征选取后的数据;
步骤207、判断是否为错误数据,是则转入步骤208,否则转入步骤209;
步骤208、修正错误值;
步骤209、补全缺失值;
步骤210、对数据去重;
进入建立模型阶段:
步骤211、基于Xgboost建立模型;
步骤212、设定算法参数;
步骤213、传入训练数据和测试数据;
步骤214、训练模型;
步骤215、优化模型;
步骤216、判断窃电结果。
采用上述实施例中所选用的具体参数,分析窃电嫌疑,具体得出的模型各个概率的判定指标如表1所示,F值在0.9时最优,得出以下结论:概率在0.9-1之间为重大窃电嫌疑;在0.7-0.8之间为一般窃电嫌疑,需要观察一段时间用电行为;在0.7以下为无窃电嫌疑。
表1模型各个概率的判定指标:
模型指标达到要求指标内,将要预测窃电嫌疑的用户数据传入模型中,通过模型分析得出用户窃电的结果。该模型的输出结果不是用户是否发生了窃电,而是用户发生窃电的概率值,在0-1之间,图3为某用户2015年1月到2016年4月的窃电嫌疑的概率示意图,具体结果如图3所示。
基于同一发明构思,本发明实施例中还提供了一种窃电分析装置,如下面的实施例所述。由于该装置解决问题的原理与窃电分析方法相似,因此该装置的实施可以参见窃电分析方法的实施,重复之处不再赘述。
图4为本发明实施例中窃电分析装置的示意图,如图4所示,该装置可以包括:
采集模块401,用于采集用户的用电行为数据以及用户的档案数据;
数据处理模块402,用于将采集的数据制成样本数据,样本数据包括训练数据、测试数据和预测数据,其中,训练数据和测试数据携带标签,标签是根据用户的历史窃电记录一一标记而成;
训练与测试模块403,用于将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型,对模型进行训练与测试;
分析模块404,用于将预测数据加载至训练好的模型,获得用户的窃电行为分析结果。
一个实施例中,用户的用电行为数据可以包括以下数据其中之一或任意组合:
负荷曲线数据,电压曲线数据,电流曲线数据,日冻结电能示值数据,日冻结电能量数据。
一个实施例中,用户的档案数据可以包括以下数据其中之一或任意组合:
电能表信息,用户信息,计量点信息。
一个实施例中,采集模块401可以进一步用于在采集用户的用电行为数据以及用户的档案数据时,若数据为训练数据和测试数据则用Kettle工具从数据库中采集,若数据为预测数据则用Python工具从数据库中采集。
一个实施例中,训练与测试模块403可以进一步用于根据训练和测试效果对数据进行分析后,通过修改数据的特征项和模型参数对模型进行优化。
一个实施例中,训练与测试模块403可以进一步用于在加载训练数据和测试数据前,将Xgboost算法的参数设置为以下参数:
分类器每次迭代的模型为:基于树的模型;
需要被最小化的损失函数为:二分类的逻辑回归;
有效数据的度量方法为:auc曲线下面积;
权重的L2正则化项为:50;
学习效率为:0.3。
一个实施例中,训练与测试模块403可以进一步用于在参数设置完毕后,按照12:4的比例加载训练数据和测试数据,对模型进行训练与测试。
一个实施例中,数据处理模块402可以进一步用于在采集用户的用电行为数据以及用户的档案数据后,对采集的数据进行特征选取。
一个实施例中,数据处理模块402可以进一步用于在采集用户的用电行为数据以及用户的档案数据后,对采集的数据进行数据清洗。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述窃电分析方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述窃电分析方法的计算机程序。
综上所述,在本发明实施例提供的技术方案中,采集用户的用电行为数据以及用户的档案数据后,选取特征项,清洗数据,实现数据的融合;然后标记标签,划分样本数据;再建立模型,训练模型;最后进行模型预测。
本发明实施例中,由于是将预测数据加载至基于Xgboost算法建立的机器学习的模型后获得用户的窃电行为分析结果,因此能够很好的针对用于窃电嫌疑分析的许多字段是非线性的特点,由于采用了Xgboost算法,因此可以提高分析效率和准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (20)
1.一种窃电分析方法,其特征在于,包括:
采集用户的用电行为数据以及用户的档案数据;
将采集的数据制成样本数据,样本数据包括训练数据、测试数据和预测数据,其中,训练数据和测试数据携带标签,标签是根据用户的历史窃电记录一一标记而成;
将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型,对模型进行训练与测试;
将预测数据加载至训练好的模型,获得用户的窃电行为分析结果。
2.如权利要求1所述的方法,其特征在于,用户的用电行为数据包括以下数据其中之一或任意组合:
负荷曲线数据,电压曲线数据,电流曲线数据,日冻结电能示值数据,日冻结电能量数据。
3.如权利要求1所述的方法,其特征在于,用户的档案数据包括以下数据其中之一或任意组合:
电能表信息,用户信息,计量点信息。
4.如权利要求1所述的方法,其特征在于,在采集用户的用电行为数据以及用户的档案数据时,若数据为训练数据和测试数据则用Kettle工具从数据库中采集,若数据为预测数据则用Python工具从数据库中采集。
5.如权利要求1所述的方法,其特征在于,进一步包括:
根据训练和测试效果对数据进行分析后,通过修改数据的特征项和模型参数对模型进行优化。
6.如权利要求1所述的方法,其特征在于,加载训练数据和测试数据前,进一步包括:将Xgboost算法的参数设置为以下参数:
分类器每次迭代的模型为:基于树的模型;
需要被最小化的损失函数为:二分类的逻辑回归;
有效数据的度量方法为:auc曲线下面积;
权重的L2正则化项为:50;
学习效率为:0.3。
7.如权利要求6所述的方法,其特征在于,参数设置完毕后,按照12:4的比例加载训练数据和测试数据,对模型进行训练与测试。
8.如权利要求1至7任一所述的方法,其特征在于,在采集用户的用电行为数据以及用户的档案数据后,进一步包括:
对采集的数据进行特征选取。
9.如权利要求1至7任一所述的方法,其特征在于,在采集用户的用电行为数据以及用户的档案数据后,进一步包括:
对采集的数据进行数据清洗。
10.一种窃电分析装置,其特征在于,包括:
采集模块,用于采集用户的用电行为数据以及用户的档案数据;
数据处理模块,用于将采集的数据制成样本数据,样本数据包括训练数据、测试数据和预测数据,其中,训练数据和测试数据携带标签,标签是根据用户的历史窃电记录一一标记而成;
训练与测试模块,用于将训练数据和测试数据加载至基于Xgboost算法建立的机器学习的模型,对模型进行训练与测试;
分析模块,用于将预测数据加载至训练好的模型,获得用户的窃电行为分析结果。
11.如权利要求10所述的装置,其特征在于,用户的用电行为数据包括以下数据其中之一或任意组合:
负荷曲线数据,电压曲线数据,电流曲线数据,日冻结电能示值数据,日冻结电能量数据。
12.如权利要求10所述的装置,其特征在于,用户的档案数据包括以下数据其中之一或任意组合:
电能表信息,用户信息,计量点信息。
13.如权利要求10所述的装置,其特征在于,采集模块进一步用于在采集用户的用电行为数据以及用户的档案数据时,若数据为训练数据和测试数据则用Kettle工具从数据库中采集,若数据为预测数据则用Python工具从数据库中采集。
14.如权利要求10所述的装置,其特征在于,训练与测试模块进一步用于根据训练和测试效果对数据进行分析后,通过修改数据的特征项和模型参数对模型进行优化。
15.如权利要求10所述的装置,其特征在于,训练与测试模块进一步用于在加载训练数据和测试数据前,将Xgboost算法的参数设置为以下参数:
分类器每次迭代的模型为:基于树的模型;
需要被最小化的损失函数为:二分类的逻辑回归;
有效数据的度量方法为:auc曲线下面积;
权重的L2正则化项为:50;
学习效率为:0.3。
16.如权利要求15所述的装置,其特征在于,训练与测试模块进一步用于在参数设置完毕后,按照12:4的比例加载训练数据和测试数据,对模型进行训练与测试。
17.如权利要求10至16任一所述的装置,其特征在于,数据处理模块进一步用于在采集用户的用电行为数据以及用户的档案数据后,对采集的数据进行特征选取。
18.如权利要求10至16任一所述的装置,其特征在于,数据处理模块进一步用于在采集用户的用电行为数据以及用户的档案数据后,对采集的数据进行数据清洗。
19.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一所述方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至9任一所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710785696.7A CN107492043A (zh) | 2017-09-04 | 2017-09-04 | 窃电分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710785696.7A CN107492043A (zh) | 2017-09-04 | 2017-09-04 | 窃电分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107492043A true CN107492043A (zh) | 2017-12-19 |
Family
ID=60651528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710785696.7A Pending CN107492043A (zh) | 2017-09-04 | 2017-09-04 | 窃电分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107492043A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108490288A (zh) * | 2018-03-09 | 2018-09-04 | 华南师范大学 | 一种窃电检测方法及*** |
CN108551167A (zh) * | 2018-04-25 | 2018-09-18 | 浙江大学 | 一种基于XGBoost算法的电力***暂态稳定判别方法 |
CN108764984A (zh) * | 2018-05-17 | 2018-11-06 | 国网冀北电力有限公司电力科学研究院 | 一种基于大数据的电力用户画像构建方法及*** |
CN109116072A (zh) * | 2018-06-29 | 2019-01-01 | 广东电网有限责任公司 | 窃电分析方法、装置及服务器 |
CN110082699A (zh) * | 2019-05-10 | 2019-08-02 | 国网天津市电力公司电力科学研究院 | 一种低压台区智能电能表运行误差计算方法及其*** |
CN110298513A (zh) * | 2019-07-02 | 2019-10-01 | 国家电网有限公司 | 一种预测购电下发异常的方法 |
CN110346623A (zh) * | 2019-08-14 | 2019-10-18 | 广东电网有限责任公司 | 一种锁定窃电用户的***、方法及设备 |
WO2020041998A1 (zh) * | 2018-08-29 | 2020-03-05 | 财团法人交大思源基金会 | 优化预测模型的建立与预测结果获得***及方法 |
CN111046250A (zh) * | 2018-10-11 | 2020-04-21 | 内蒙古科电数据服务有限公司 | 一种基于大数据分析的窃电对象筛查方法 |
CN111126820A (zh) * | 2019-12-17 | 2020-05-08 | 国网山东省电力公司电力科学研究院 | 反窃电方法及*** |
CN111428930A (zh) * | 2020-03-24 | 2020-07-17 | 中电药明数据科技(成都)有限公司 | 一种基于gbdt的药品患者使用人数的预测方法及*** |
CN112418623A (zh) * | 2020-11-12 | 2021-02-26 | 国网河南省电力公司郑州供电公司 | 基于双向长短时记忆网络和滑动窗输入的反窃电识别方法 |
CN112685461A (zh) * | 2020-12-15 | 2021-04-20 | 国网吉林省电力有限公司电力科学研究院 | 一种基于预判模型的窃电用户判断方法 |
CN113095739A (zh) * | 2021-05-17 | 2021-07-09 | 广东电网有限责任公司 | 一种电网数据异常检测方法及装置 |
CN113282613A (zh) * | 2021-04-16 | 2021-08-20 | 广东电网有限责任公司计量中心 | 专变和低压用户用电分析方法、***、设备及存储介质 |
CN113408676A (zh) * | 2021-08-23 | 2021-09-17 | 国网江西综合能源服务有限公司 | 一种结合云端与边端的窃电用户识别方法及装置 |
CN113435915A (zh) * | 2021-07-14 | 2021-09-24 | 广东电网有限责任公司 | 用户窃电行为检测方法、装置、设备及存储介质 |
CN113589034A (zh) * | 2021-07-30 | 2021-11-02 | 南方电网科学研究院有限责任公司 | 一种配电***的窃电检测方法、装置、设备和介质 |
CN113673564A (zh) * | 2021-07-16 | 2021-11-19 | 深圳供电局有限公司 | 窃电样本生成方法、装置、计算机设备和存储介质 |
CN113744081A (zh) * | 2021-08-23 | 2021-12-03 | 国网青海省电力公司信息通信公司 | 窃电行为分析方法 |
CN114926303A (zh) * | 2022-04-26 | 2022-08-19 | 广东工业大学 | 一种基于迁移学习的窃电检测方法 |
CN111814385B (zh) * | 2020-05-28 | 2023-11-17 | 平安科技(深圳)有限公司 | 预测加工件质量的方法、装置和计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650797A (zh) * | 2016-12-07 | 2017-05-10 | 广东电网有限责任公司江门供电局 | 一种基于集成elm的配电网窃电嫌疑用户智能识别方法 |
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
-
2017
- 2017-09-04 CN CN201710785696.7A patent/CN107492043A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650797A (zh) * | 2016-12-07 | 2017-05-10 | 广东电网有限责任公司江门供电局 | 一种基于集成elm的配电网窃电嫌疑用户智能识别方法 |
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
Non-Patent Citations (1)
Title |
---|
李文彬,张春梅: "多算法融合的电网用电量预测***研究和实现", 《现代计算机》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108490288A (zh) * | 2018-03-09 | 2018-09-04 | 华南师范大学 | 一种窃电检测方法及*** |
CN108490288B (zh) * | 2018-03-09 | 2019-04-16 | 华南师范大学 | 一种窃电检测方法及*** |
CN108551167A (zh) * | 2018-04-25 | 2018-09-18 | 浙江大学 | 一种基于XGBoost算法的电力***暂态稳定判别方法 |
CN108764984A (zh) * | 2018-05-17 | 2018-11-06 | 国网冀北电力有限公司电力科学研究院 | 一种基于大数据的电力用户画像构建方法及*** |
CN109116072A (zh) * | 2018-06-29 | 2019-01-01 | 广东电网有限责任公司 | 窃电分析方法、装置及服务器 |
WO2020041998A1 (zh) * | 2018-08-29 | 2020-03-05 | 财团法人交大思源基金会 | 优化预测模型的建立与预测结果获得***及方法 |
CN111046250A (zh) * | 2018-10-11 | 2020-04-21 | 内蒙古科电数据服务有限公司 | 一种基于大数据分析的窃电对象筛查方法 |
CN111046250B (zh) * | 2018-10-11 | 2023-09-29 | 内蒙古科电数据服务有限公司 | 一种基于大数据分析的窃电对象筛查方法 |
CN110082699A (zh) * | 2019-05-10 | 2019-08-02 | 国网天津市电力公司电力科学研究院 | 一种低压台区智能电能表运行误差计算方法及其*** |
CN110298513A (zh) * | 2019-07-02 | 2019-10-01 | 国家电网有限公司 | 一种预测购电下发异常的方法 |
CN110346623A (zh) * | 2019-08-14 | 2019-10-18 | 广东电网有限责任公司 | 一种锁定窃电用户的***、方法及设备 |
CN111126820B (zh) * | 2019-12-17 | 2023-08-29 | 国网山东省电力公司营销服务中心(计量中心) | 反窃电方法及*** |
CN111126820A (zh) * | 2019-12-17 | 2020-05-08 | 国网山东省电力公司电力科学研究院 | 反窃电方法及*** |
CN111428930A (zh) * | 2020-03-24 | 2020-07-17 | 中电药明数据科技(成都)有限公司 | 一种基于gbdt的药品患者使用人数的预测方法及*** |
CN111814385B (zh) * | 2020-05-28 | 2023-11-17 | 平安科技(深圳)有限公司 | 预测加工件质量的方法、装置和计算机设备 |
CN112418623A (zh) * | 2020-11-12 | 2021-02-26 | 国网河南省电力公司郑州供电公司 | 基于双向长短时记忆网络和滑动窗输入的反窃电识别方法 |
CN112685461A (zh) * | 2020-12-15 | 2021-04-20 | 国网吉林省电力有限公司电力科学研究院 | 一种基于预判模型的窃电用户判断方法 |
CN113282613A (zh) * | 2021-04-16 | 2021-08-20 | 广东电网有限责任公司计量中心 | 专变和低压用户用电分析方法、***、设备及存储介质 |
CN113282613B (zh) * | 2021-04-16 | 2023-05-26 | 广东电网有限责任公司计量中心 | 专变和低压用户用电分析方法、***、设备及存储介质 |
CN113095739A (zh) * | 2021-05-17 | 2021-07-09 | 广东电网有限责任公司 | 一种电网数据异常检测方法及装置 |
CN113435915B (zh) * | 2021-07-14 | 2023-01-20 | 广东电网有限责任公司 | 用户窃电行为检测方法、装置、设备及存储介质 |
CN113435915A (zh) * | 2021-07-14 | 2021-09-24 | 广东电网有限责任公司 | 用户窃电行为检测方法、装置、设备及存储介质 |
CN113673564A (zh) * | 2021-07-16 | 2021-11-19 | 深圳供电局有限公司 | 窃电样本生成方法、装置、计算机设备和存储介质 |
CN113673564B (zh) * | 2021-07-16 | 2024-03-26 | 深圳供电局有限公司 | 窃电样本生成方法、装置、计算机设备和存储介质 |
CN113589034B (zh) * | 2021-07-30 | 2023-08-08 | 南方电网科学研究院有限责任公司 | 一种配电***的窃电检测方法、装置、设备和介质 |
CN113589034A (zh) * | 2021-07-30 | 2021-11-02 | 南方电网科学研究院有限责任公司 | 一种配电***的窃电检测方法、装置、设备和介质 |
CN113744081A (zh) * | 2021-08-23 | 2021-12-03 | 国网青海省电力公司信息通信公司 | 窃电行为分析方法 |
CN113408676A (zh) * | 2021-08-23 | 2021-09-17 | 国网江西综合能源服务有限公司 | 一种结合云端与边端的窃电用户识别方法及装置 |
CN113744081B (zh) * | 2021-08-23 | 2024-05-28 | 国网青海省电力公司信息通信公司 | 窃电行为分析方法 |
CN114926303A (zh) * | 2022-04-26 | 2022-08-19 | 广东工业大学 | 一种基于迁移学习的窃电检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107492043A (zh) | 窃电分析方法及装置 | |
CN112098714B (zh) | 一种基于ResNet-LSTM的窃电检测方法及*** | |
CN107967485B (zh) | 用电计量设备故障分析方法及装置 | |
CN106909933B (zh) | 一种三阶段多视角特征融合的窃电分类预测方法 | |
CN106201871A (zh) | 基于代价敏感半监督的软件缺陷预测方法 | |
CN109784388A (zh) | 窃电用户识别方法和装置 | |
CN110458725A (zh) | 一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端 | |
CN110413775A (zh) | 一种数据打标签分类方法、装置、终端及存储介质 | |
CN112257942B (zh) | 一种应力腐蚀开裂预测方法及*** | |
CN109829733A (zh) | 一种基于购物行为序列数据的虚假评论检测***和方法 | |
CN107180367A (zh) | 一种基于机器学习的车辆估价的方法、存储介质及装置 | |
CN109978870A (zh) | 用于输出信息的方法和装置 | |
CN109001211A (zh) | 基于卷积神经网络的长输管道焊缝检测***及方法 | |
Ray et al. | Short-term load forecasting using genetic algorithm | |
CN109299434B (zh) | 货物海关通关大数据智能评级及抽检率计算*** | |
CN114202243A (zh) | 一种基于随机森林的工程项目管理风险预警方法及*** | |
CN111612149A (zh) | 一种基于决策树的主网线路状态检测方法、***及介质 | |
CN208224474U (zh) | 用电计量设备故障监控装置 | |
CN114548494A (zh) | 一种可视化造价数据预测智能分析*** | |
Jamshidi et al. | Using artificial neural networks and system identification methods for electricity price modeling | |
DE112014006799T5 (de) | Verfahren zur Messung eines Benutzerverhalten-Konsistenzgrades auf Basis eines komplexen Korrespondenzsystems | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
CN116561659A (zh) | 窃电行为检测方法、装置及*** | |
CN110827134A (zh) | 一种电网企业财务健康诊断方法 | |
CN115545342A (zh) | 一种企业电费回收的风险预测方法与*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171219 |
|
RJ01 | Rejection of invention patent application after publication |