CN112101420A - 一种相异模型下Stacking集成算法的异常用电用户识别方法 - Google Patents
一种相异模型下Stacking集成算法的异常用电用户识别方法 Download PDFInfo
- Publication number
- CN112101420A CN112101420A CN202010826507.8A CN202010826507A CN112101420A CN 112101420 A CN112101420 A CN 112101420A CN 202010826507 A CN202010826507 A CN 202010826507A CN 112101420 A CN112101420 A CN 112101420A
- Authority
- CN
- China
- Prior art keywords
- model
- user
- stacking
- training
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 64
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 32
- 230000010354 integration Effects 0.000 title claims abstract description 15
- 238000013145 classification model Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000012847 principal component analysis method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 15
- 238000001514 detection method Methods 0.000 description 8
- 238000007637 random forest analysis Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种相异模型下Stacking集成算法的异常用电用户识别方法,从用电信息采集***中单个用户用电负荷数据的记录情况、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标,提取用户用电特征集,更加有效挖掘数据深层次特征。相比于单一模型,本发明从跨越空间的概念选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型做为Stacking集成结构的基分类模型。基于相异模型、相异特征构建大量模型为基模型进行原特征的学习,从不同层次、不同角度挖掘数据信息,对用户异常用电有更优的识别性能。
Description
技术领域
本发明涉及用电监察的技术领域,尤其涉及到一种相异模型下Stacking集成算法的异常用电用户识别方法。
背景技术
用电侧电力用户异常用电模式背后存在着窃电、欺诈等一系列欺骗性用电行为,所导致的损失称为非技术性损失NTL(Non-Technical Loss)。
非技术性损失在实际运行的电网中普遍存在,对电网的正常运行会产生严重的影响,扰乱地区电网的正常调度,甚至会由于用户私自改接线路而引发安全事故。当今电网公司主要通过加强计量设备管理、采用专用计量箱和人工巡检等方法来识别异常用电用户从而降低非技术性损失。但这些方法需要投入大量的人力物力,且不能及时发现非技术性损失,供电企业的用电检查工作异常艰巨。如何准确及时的检测出配电网异常用电用户,从而减少非技术性损失,挽回巨额的经济损失是供电企业填补电力缺口维护正常用电秩序所需要解决的难题。
异常用电用户识别是指在电网公司的计量数据***中,对用户历史用电数据进行挖掘分析,采用一定手段对异常用电用户进行筛选与识别。如何有效挖掘历史数据信息,以及采用何种算法模型进行精确识别,是异常用电用户识别技术需要解决的主要问题。
为此,现有的技术中,包括有:
(1)对用电历史数据按照均值、最值、方差等统计信息进行特征提取,建立用户用电特征集,输入基于随机森林、SVM等机器学习算法的异常用电检测模型,对用户进行识别。
(2)将用电历史数据预处理后,输入聚类、回归等无监督模型中,输出每个用户的异常得分值。设置惩罚阈值函数,超出阈值范围的做为异常用电的用户。
但现有技术的缺点主要有以下三点:
1)利用无监督模型进行异常检测训练的技术中,针对离群程度设置的阈值函数,其判定是否异常的收敛性相比于有监督模型中用户实际标签的收敛性差,无法区分部分特殊用户用电模式是否异常,不适应于用电行为复杂多样的用户识别情况。
2)对于用电特征指标的建立比较片面,仅仅是简单的统计信息(均值、最值、方差等)或者缺失值、异常值占比等,无法有效挖掘数据深层次特征。
3)提取的用电特征数据内部空间结构和不同特征之间的关系是非常复杂的,识别异常用电用户得算法模型单一,将导致识别方法仅从单一模型角度出发训练数据,无法从不同的数据空间角度以及数据结构角度,对用电特征数据深度挖掘综合分析。
发明内容
本发明的目的在于克服现有技术的不足,提供一种识别精度高的相异模型下Stacking集成算法的异常用电用户识别方法。
为实现上述目的,本发明所提供的技术方案为:
一种相异模型下Stacking集成算法的异常用电用户识别方法,包括以下步骤:
S1、选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型作为Stacking集成结构第一阶段的的基分类模型,Xgboost作为Stacking集成结构第二阶段的元分类器模型;
S2、输入历史用户用电数据;
S3、从用电信息采集***中单个用户用电负荷数据的统计记录、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标,提取用户用电特征集;
S4、结合各用户相应标签,将用户用电特征集分为Stacking模型的训练集与测试集;
S5、利用第一阶段的基分类模型对训练集和测试集进行Stacking转换,得到元训练集和元测试集;
S6、将经过Stacking第一阶段转换后的元训练集以及相对应用户标签输入第二阶段的元分类器模型Xgboost中训练优化,最后输入元测试集进行预测,输出最终的分类结果,判断该用户用电的是否异常。
进一步地,所述步骤S3中,提取统计记录特征时,剔除无意义数据后,利用拉格朗日插值法及线性二次插值法进行数据插值处理。
进一步地,所述步骤S3中,提取时间序列特征时,设置不同的切分粒度、不同的滑动窗口大小,利用时间窗口技术提取特征,并用主成分分析法进行降维处理得到时序特征。
进一步地,所述步骤S3中,提取用户用电相似度特征时,计算每个用户每四周内的用电数据的皮尔逊相关系数以及余弦相似度作为用户的用电相似度特征。
进一步地,所述步骤S5的具体过程如下:
将训练集五折交叉得到训练子集{Flod1,Flod2,…,Flod5},每个基分类模型均以一个Flod为测试集,其余四份为训练集进行学***均得单个模型对测试集的Stacking转换,综合四个基分类模型得出经Stacking转换后的元测试集。
与现有技术相比,本方案原理及优点如下:
1)从用电信息采集***中单个用户用电负荷数据的记录情况、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标,提取用户用电特征集,更加有效挖掘数据深层次特征。
2)相比于单一模型,本方案从跨越空间的概念选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型做为Stacking集成结构的基分类模型。基于相异模型、相异特征构建大量模型为基模型进行原特征的学习,从不同层次、不同角度挖掘数据信息,对用户异常用电有更优的识别性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种相异模型下Stacking集成算法的异常用电用户识别方法的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1所示,本实施例所述的一种相异模型下Stacking集成算法的异常用电用户识别方法,包括以下步骤:
S1、选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型作为Stacking集成结构第一阶段的的基分类模型;
多个相异分类模型下的Stacking集成结构,可从不同的空间角度和结构角度进行数据挖掘,取长补短,综合改进,达到优化结果的目的。因此,本实施例从跨越空间的概念选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型做为Stacking集成结构的基分类模型。其中,SVM分类模型适合于解决非线性问题,相对于神经网络算法无需考虑局部极小值,泛化能力比较强。但对于核函数的高维映射解释力不强,尤其是径向基函数,对缺失数据异常敏感。RF模型做为有监督学习的代表,其参数少不容易出现过拟合现象的优点,使其可以处理高维度的数据,以及随机采样的方式使得RF算法有很强的抗干扰能力,当存在大量的缺失数据时,仍然可以维持较高准确度,RF在面对取值划分较多的特征指标时,决策树在分支节点随机选择特征子集容易忽略更合适的指标属性,RF在这种特征指标上产出的权值是不可信的。以决策树为弱分类器的集成算法GBDT,作为分类模型时,是基于权值的弱分类器的集成,可以灵活处理用户用电特征中连续值和离散值等各种类型的的指标数据。同时,其自带的损失函数对各类型数据异常值的鲁棒性非常强,分类的准确率较高。其缺点在于不能并行训练,计算复杂度大,导致该模型效率低。
相比于机器学习,深度学习对数据有更深一步的扩展,能有效挖掘数据潜在特征。深度森林(Deep Forest)算法是2017年周志华发表论文《Deep Forest:Towards AnAlternative to Deep Neural Networks》中所提出来的一种基于树模型的gcForest深度学习算法。该算法主要分为多粒度扫描以及级联森林两个阶段。每个阶段都包含随机森林与完全随机森林组合,数据集经过多粒度扫描以及级联森林两个阶段的表征学习,使得最终特征矢量包括更多的特征,对数据信息进行更深层次的特征挖掘。gcForest算法超参数少,计算开销小,模型对超参数调节不敏感,同时在运行过程中,能够通过适当的终止,使得模型复杂度可自适应伸缩,作为分类器对特征的训练预测有更高的经确度,本实施例选取深度森林作为基分类模型之一。
另外,本步骤中,将Xgboost作为Stacking集成结构第二阶段的元分类器模型;
相比于基分类器模型需要从不同空间角度、不同类型算法的优缺点进行互补,元分类器模型的选择更偏向于考虑其分类过程中全方位的优化。Xgboost是由2014年陈天奇提出的一种分类算法。在GDBT的基础上,对损失函数进行二阶的泰勒展开,并在目标函数之外加入正则项对整体求最优解,用以权衡目标函数的下降程度,正则项降低了训练模型间的差异性,使学习出来的模型更加简单,降低模型的复杂程度;在特征选择时,借鉴随机森林特征列抽样(column sample)方式,增加了抗过拟合能力;对于输入特征数据缺失、类别one-hot编码以及大量0值的现象,Xgboost在分类的过程中,可以学习出默认的节点***方向,减小对缺失数据的敏感程度,更适合于高维的特征数据训练。因此,本实施例选取Xgboost作为Stacking集成结构的元分类器模型。
S2、输入历史用户用电数据;
S3、从用电信息采集***中单个用户用电负荷数据的统计记录、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标,提取用户用电特征集;具体如下:
用户存在异常用电行为时,用电负荷数据在***中的记录量、数据大小以及变化趋势相比正常用户存在着一定的差别性。因此本实施例从用电信息采集***中单个用户用电负荷数据的记录情况、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标,以某市用电信息采集***中用户用电负荷数据为基础,其中包括异常用户与正常用户,构建Stacking集成结构所需数据集。
(1)统计记录特征:通过对用户用电数据记录量进行统计提取作为用户用电的统计记录特征(Record Feature,RF),如表1所示。
表1用户统计记录特征指标
(2)时间序列特征:本实施例利用滑动窗口(Sliding Window,SW)技术在不同的切分粒度下滑动,计算时间框内数据的统计指标来提取用电时间序列特征。降低噪声的同时,让相异的分类模型学到不同层次、不同粒度的用户用电信息。由于不同用户的用电习惯复杂多样,导致不同用户的用电周期不同。因此,本实施例以周、月、季三个周期作为不同的切分粒度,1个单位长度为时间窗口大小,对每次滑动窗口中的用户用数据提取统计量作为时间序列特征(Time Feature)。其中,时间序列特征指标如表2所示。
表2用户时间序列特征指标
滑动窗口技术在获取时间序列特征的维数较大,例如:对180个记录数进行特征提取,获得时序特征1788维,造成特征冗余的现象,从而影响模型最终的识别性能。因此,在保证信息不丢失的情况下,利用主成分分析法(Principal Component Analysis,PCA)对时序特征进行降维处理,减少特征冗余,避免特征维数过高而降低检测模型的效率,增强Stacking结构中分类器的泛化能力。
(3)用电相似度特征:用户不同时间段之间的用电相似程度反映了用户不同时间内用电趋势的变化情况,不同时间段的相似度特征对电量骤降、突变的异常用电行为十分敏感,相似度系数的大小表名该用户两个时间段内突变程度。因此,本实施例根据用户用电数据,统计每四周一个时间段的每日用电量为X=(x1,x2,…x28)。其中,某一天维度记录数缺失的进行插补0值;在数据尾部,不足四周的天数进行舍弃。利用皮尔逊相关系数(Pearson Correlation Coefficient,PCC)以及余弦相似度函数来计算用户用电前后相似度系数作为该用户用电相似度特征(Similarity Feature)。
皮尔逊相关系数:
余弦相似度函数:
式中,(x1,x2,…,x28)为前一个时间段用户的每日用电量,(y1,y2,…,y28)为后一个时间段用户的每日用电量。
结合式(3)与式(4)可知,在皮尔逊相关系数计算中,两个向量先进行中心化(centered)处理后再计算cos函数,是余弦相似度在维度值缺失情况下的一种改进。若直接将两相似度系数作为用户特征指标,将导致用户部分用电前后时间段的两种用电相似度系数结果类似,从而产生特征冗余。因此,在特征提取时,需要对计算所得Pearson系数以及余弦相似度函数进行降维处理,最终得到用户用电相似度特征(Similarity Feature)。
提取用电特征集,结合用户标签构建Stacking集成模型所需的数据集。
S4、结合各用户相应标签,将用户用电特征集分为Stacking模型的训练集SN={(xn,yn),n=1,2,…,N}与测试集TM={(xm),m=1,2,…,M};
S5、利用第一阶段的基分类模型对训练集和测试集进行Stacking转换,得到元训练集和元测试集:
步骤S4中所得训练集SN={(xn,yn),n=1,2,…,N},测试集TM={(xm),m=1,2,…,M},其中x为用电特征向量,y为用户标签,选取SVM、GBDT、RF以及Deep Forest作为Stacking第一阶段的基分类器模型。为了保证样本数据的多样性,提高模型的泛化能力,Stacking算法第一阶段的基模型均采用KFold交叉验证的方式来产生预测值。对于单个基分类模型,将训练集SN分为不交叉的5份训练子集{Flod1,Flod2,…,Flod5},选取其中一份为基分类模型的测试集,其余4份为训练集,进行循环训练,直到将Flod1到Flod5各测试一遍,得到一个基分类模型对训练集的Stacking转换:Yp={(yp1),(yp2),…,(ypN)},则训练集SN经过Stacking第一阶段转换为元训练集Ymeta={(Y1),(Y2),(Y3),(Y4)}。
在每个基分类模型五轮训练的同时,基分类模型也在原始测试集TM上生成了k列测试结果,对这k列取平均得Tp=((Tp1),(Tp2),…(Tpm)),作为一个基分类模型对测试集的Stacking转换。综合四个基分类模型得出经Stacking转换后的元测试集Tmeta={(T1),(T2),(T3),(T4)}。
S6、将经过Stacking第一阶段转换后的元训练集以及相对应用户标签输入第二阶段的元分类器模型Xgboost中训练优化,最后输入元测试集进行预测,输出最终的分类结果,判断该用户用电的是否异常。
为证明本实施例的有效性,下面进行如下仿真实验:
从某市电网用电信息采集***中随机选取7139个电力用户2015年内的用电量数据作为原始数据集,采样间隔为一天,其中包括正常用户及异常用户标签,验证本实施例所提出相异模型下Stacking集成结构的异常用电用户识别方法的有效性。
选取了SVM、GBDT、RF、Deep Forest以及Xgboost五种分类模型进行对比,其中,针对用电特征集结构属性,五种模型的调参结果如下:SVM模型惩罚参数设置为10,选择RBF函数作为kernel,其中gamma值设置为1;RF模型决策树数量以及树最大深度分别为26和17;GBDT模型弱学习器的最大迭代次数与权重缩减系数分别为60和0.15,损失函数C设置"deviance";Deep Forest分类模型中多粒度扫描时所需的决策树数量K为30,切分窗口window大小为15,shape_1X样本结构为(1,69),级联森林阶段中完全随机森林与随机森林决策树均设置为67;Xgboost模型设置学习速率learning_rate以及gamma都为0.1,最佳迭代次数n_estimators为550次。
通过混淆矩阵(Confusion Matrix)、准确率(accuracy)、AUC(Area Under Curve)指数和训练时间四个指标来判断评判不同分类方法的优劣,计算所得SVM、GBDT、RF、DeepForest、Xgboost和stacking集成六种分类模型在用电特征集上的实验结果如表3、表4所示。
表3各分类模型的混淆矩阵
表4各分类模型仿真结果对比
由表3、表4可知,检测样本中正常用户1057个,异常用户297个。误检率为实际正常却分类异常的个数与实际正常的比值;检出率为实际与分类均异常的个数与实际异常的比值。其中,相比于其他四种模型,Stacking与Deep Forest模型误检率比较接近,检出率也低,但前者精确率高为93.8%。说明深度学习模型相比于机器学习模型,在分类方面有着较强的数据信息挖掘能力。本实施例Stacking集成结构中加入深度学习为基分类模型之一,更深层次的挖掘数据空间结构信息,提高模型泛化能力。在三种机器学习基分类模型中,SVM模型对缺失值异常敏感,导致精确率最低为86.6%;RF模型抗拟合能力强,相比于SVM、GBDT的AUC的值较大,泛化能力最好;GBDT精确率较高,但计算程度复杂,训练时间长。
综合看来,Stacking结构通过集成多个相异模型,从不同层次的角度观测数据,取长补短综合改进,最终分类效果明显优于其他五种模型。但由于实验过程中每个基分类模型都需要交叉训练五次,导致训练时间较长,一般为多个基模型训练时间之和的五倍左右。在实际的用电监察工作中,异常用电用户检测并非为实时计算任务。供电企业可通过设置固定的程序开始时间,对用户进行异常用电检测识别得出结果。
本实施例所提方法适应于用户类型复杂多样的用电检查工作中,有助于供电企业稽查窃电。在下一阶段工作中,针对多层Stacking集成结构以及不同数据类型的用电侧数据进行深入研究,进而为电网用电检查工作提供更加可靠的理论依据。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (5)
1.一种相异模型下Stacking集成算法的异常用电用户识别方法,其特征在于,包括以下步骤:
S1、选取SVM、GBDT、RF以及Deep Forest四种不同种类算法的分类相异模型作为Stacking集成结构第一阶段的的基分类模型,Xgboost作为Stacking集成结构第二阶段的元分类器模型;
S2、输入历史用户用电数据;
S3、从用电信息采集***中单个用户用电负荷数据的统计记录、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标,提取用户用电特征集;
S4、结合各用户相应标签,将用户用电特征集分为Stacking模型的训练集与测试集;
S5、利用第一阶段的基分类模型对训练集和测试集进行Stacking转换,得到元训练集和元测试集;
S6、将经过Stacking第一阶段转换后的元训练集以及相对应用户标签输入第二阶段的元分类器模型Xgboost中训练优化,最后输入元测试集进行预测,输出最终的分类结果,判断该用户用电的是否异常。
2.根据权利要求1所述的一种相异模型下Stacking集成算法的异常用电用户识别方法,所述步骤S3中,提取统计记录特征时,剔除无意义数据后,利用拉格朗日插值法及线性二次插值法进行数据插值处理。
3.根据权利要求1所述的一种相异模型下Stacking集成算法的异常用电用户识别方法,所述步骤S3中,提取时间序列特征时,设置不同的切分粒度、不同的滑动窗口大小,利用时间窗口技术提取特征,并用主成分分析法进行降维处理得到时序特征。
4.根据权利要求1所述的一种相异模型下Stacking集成算法的异常用电用户识别方法,其特征在于,所述步骤S3中,提取用户用电相似度特征时,计算每个用户每四周内的用电数据的皮尔逊相关系数以及余弦相似度作为用户的用电相似度特征。
5.根据权利要求1所述的一种相异模型下Stacking集成算法的异常用电用户识别方法,其特征在于,所述步骤S5的具体过程如下:
将训练集五折交叉得到训练子集{Flod1,Flod2,...,Flod5},每个基分类模型均以一个Flod为测试集,其余四份为训练集进行学***均得单个模型对测试集的Stacking转换,综合四个基分类模型得出经Stacking转换后的元测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010826507.8A CN112101420A (zh) | 2020-08-17 | 2020-08-17 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010826507.8A CN112101420A (zh) | 2020-08-17 | 2020-08-17 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101420A true CN112101420A (zh) | 2020-12-18 |
Family
ID=73754481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010826507.8A Pending CN112101420A (zh) | 2020-08-17 | 2020-08-17 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101420A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633412A (zh) * | 2021-01-05 | 2021-04-09 | 南方电网深圳数字电网研究院有限公司 | 异常用电检测方法、设备及存储介质 |
CN112765451A (zh) * | 2020-12-30 | 2021-05-07 | 中国人寿保险股份有限公司上海数据中心 | 一种基于集成学习算法的客户智能筛选方法和*** |
CN113033089A (zh) * | 2021-03-23 | 2021-06-25 | 中国联合网络通信集团有限公司 | 用电量异常用户识别方法和装置 |
CN113408617A (zh) * | 2021-06-18 | 2021-09-17 | 湘潭大学 | 一种基于XGBoost与Stacking模型融合的非侵入式负荷识别方法 |
CN113435664A (zh) * | 2021-07-15 | 2021-09-24 | 广东电网有限责任公司 | 一种电费异常数据分析方法、装置、终端设备及介质 |
CN113723497A (zh) * | 2021-08-26 | 2021-11-30 | 广西大学 | 基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
CN109635118A (zh) * | 2019-01-10 | 2019-04-16 | 博拉网络股份有限公司 | 一种基于大数据的用户搜索匹配方法 |
CN109753989A (zh) * | 2018-11-18 | 2019-05-14 | 韩霞 | 基于大数据与机器学习的电力用户窃电行为分析方法 |
CN110874373A (zh) * | 2019-12-10 | 2020-03-10 | 杭州岑石能源科技有限公司 | 一种基于机器学习stacking模型的线变关系判定方法 |
CN111160791A (zh) * | 2019-12-31 | 2020-05-15 | 国网北京市电力公司 | 一种基于gbdt算法及因素融合的异常用户识别方法 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
CN111428804A (zh) * | 2020-04-01 | 2020-07-17 | 广东电网有限责任公司 | 一种优化加权的随机森林窃电用户检测方法 |
CN111506618A (zh) * | 2019-12-11 | 2020-08-07 | 国网重庆市电力公司北碚供电分公司 | 一种结合lightgbm-stacking算法的异常用电行为分析方法 |
US20200257697A1 (en) * | 2019-02-08 | 2020-08-13 | Innovaccer Inc. | System and method for extraction and conversion of electronic health information for training a computerized data model for algorithmic detection of non-linearity in a data set |
-
2020
- 2020-08-17 CN CN202010826507.8A patent/CN112101420A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
CN109753989A (zh) * | 2018-11-18 | 2019-05-14 | 韩霞 | 基于大数据与机器学习的电力用户窃电行为分析方法 |
CN109635118A (zh) * | 2019-01-10 | 2019-04-16 | 博拉网络股份有限公司 | 一种基于大数据的用户搜索匹配方法 |
US20200257697A1 (en) * | 2019-02-08 | 2020-08-13 | Innovaccer Inc. | System and method for extraction and conversion of electronic health information for training a computerized data model for algorithmic detection of non-linearity in a data set |
CN110874373A (zh) * | 2019-12-10 | 2020-03-10 | 杭州岑石能源科技有限公司 | 一种基于机器学习stacking模型的线变关系判定方法 |
CN111506618A (zh) * | 2019-12-11 | 2020-08-07 | 国网重庆市电力公司北碚供电分公司 | 一种结合lightgbm-stacking算法的异常用电行为分析方法 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
CN111160791A (zh) * | 2019-12-31 | 2020-05-15 | 国网北京市电力公司 | 一种基于gbdt算法及因素融合的异常用户识别方法 |
CN111428804A (zh) * | 2020-04-01 | 2020-07-17 | 广东电网有限责任公司 | 一种优化加权的随机森林窃电用户检测方法 |
Non-Patent Citations (4)
Title |
---|
ZHIYOU OUYANG ET AL.: "Multi-View Stacking Ensemble for Power Consumption Anomaly Detection in the Context of Industrial Internet of Things", 《IEEE,DOI: 10.1109/ACCESS.2018.2805908》 * |
ZHIYOU OUYANG ET AL.: "Multi-View Stacking Ensemble for Power Consumption Anomaly Detection in the Context of Industrial Internet of Things", 《IEEE,DOI: 10.1109/ACCESS.2018.2805908》, vol. 6, 14 February 2018 (2018-02-14), pages 9623 - 9631, XP011679094, DOI: 10.1109/ACCESS.2018.2805908 * |
黎承旭: "基于大数据的异常用电行为检测算法及应用", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 * |
黎承旭: "基于大数据的异常用电行为检测算法及应用", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》, 15 March 2020 (2020-03-15), pages 042 - 1132 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765451A (zh) * | 2020-12-30 | 2021-05-07 | 中国人寿保险股份有限公司上海数据中心 | 一种基于集成学习算法的客户智能筛选方法和*** |
CN112633412A (zh) * | 2021-01-05 | 2021-04-09 | 南方电网深圳数字电网研究院有限公司 | 异常用电检测方法、设备及存储介质 |
CN112633412B (zh) * | 2021-01-05 | 2024-05-14 | 南方电网数字平台科技(广东)有限公司 | 异常用电检测方法、设备及存储介质 |
CN113033089A (zh) * | 2021-03-23 | 2021-06-25 | 中国联合网络通信集团有限公司 | 用电量异常用户识别方法和装置 |
CN113408617A (zh) * | 2021-06-18 | 2021-09-17 | 湘潭大学 | 一种基于XGBoost与Stacking模型融合的非侵入式负荷识别方法 |
CN113435664A (zh) * | 2021-07-15 | 2021-09-24 | 广东电网有限责任公司 | 一种电费异常数据分析方法、装置、终端设备及介质 |
CN113723497A (zh) * | 2021-08-26 | 2021-11-30 | 广西大学 | 基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101420A (zh) | 一种相异模型下Stacking集成算法的异常用电用户识别方法 | |
CN106101121B (zh) | 一种全网络流量异常抽取方法 | |
US8630962B2 (en) | Error detection method and its system for early detection of errors in a planar or facilities | |
CN107196953A (zh) | 一种基于用户行为分析的异常行为检测方法 | |
CN113962259B (zh) | 一种燃料电池***多模式双层故障诊断方法 | |
Mao et al. | Anomaly detection for power consumption data based on isolated forest | |
CN111556016B (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
Jiang et al. | A family of joint sparse PCA algorithms for anomaly localization in network data streams | |
Bai et al. | Entropic dynamic time warping kernels for co-evolving financial time series analysis | |
Zhao et al. | A novel multivariate time-series anomaly detection approach using an unsupervised deep neural network | |
CN105677791A (zh) | 用于分析风力发电机组的运行数据的方法和*** | |
CN102291392A (zh) | 一种基于Bagging算法的复合式入侵检测方法 | |
Hurst et al. | Big data analysis techniques for cyber-threat detection in critical infrastructures | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及*** | |
CN113125903A (zh) | 线损异常检测方法、装置、设备及计算机可读存储介质 | |
CN115438239A (zh) | 一种自动化异常样本筛选的异常检测方法及装置 | |
Lamirel et al. | A new incremental growing neural gas algorithm based on clusters labeling maximization: application to clustering of heterogeneous textual data | |
Chapel et al. | Anomaly detection with score functions based on the reconstruction error of the kernel PCA | |
CN116595468A (zh) | 隐空间优化的自编码器异常检测方法及*** | |
CN111506636A (zh) | 一种基于自回归和近邻算法的居民用电行为分析的***及方法 | |
Wu et al. | Early anomaly detection in wind turbine bolts breaking problem—Methodology and application | |
CN113723497A (zh) | 基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质 | |
Dražić et al. | Technology matching of the patent documents using clustering algorithms | |
CN117826771B (zh) | 基于ai分析的冷轧机控制***异常检测方法及*** | |
Guo et al. | GNN-Based Energy-Efficient Anomaly Detection for IoT Multivariate Time-Series Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201218 |
|
RJ01 | Rejection of invention patent application after publication |