CN110119755A - 基于Ensemble学习模型的电量异常检测方法 - Google Patents
基于Ensemble学习模型的电量异常检测方法 Download PDFInfo
- Publication number
- CN110119755A CN110119755A CN201910223762.0A CN201910223762A CN110119755A CN 110119755 A CN110119755 A CN 110119755A CN 201910223762 A CN201910223762 A CN 201910223762A CN 110119755 A CN110119755 A CN 110119755A
- Authority
- CN
- China
- Prior art keywords
- electricity
- data
- abnormal
- learning model
- ensemble learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提出了基于Ensemble学习模型的电量异常检测方法,包括对获取到的部分用电数据进行数据整合和用户分类;基于异常审核规则对处理后的用电数据进行特征提取;构建Ensemble学习模型,将特征提取后的数据划分为n组训练集和1个测试集,将训练集导入以ELM为基模型的Ensemble学习模型中进行训练,得到n组分类检测模型;将测试集投入训练好的模型中进行测试,得到n种输出结果;对检测结果进行多数投票决策是否存在电量异常。通过结合用户类别和电量异常审核规则来进行特征抽取,可以把源数据具有强烈的时间序列特点变成具有无序列特点,使得在后面的电量异常检测分类算法的选择上更加具有普适性。同时用多数投票法对多模型预测结果进行投票,提高了异常数据检测率。
Description
技术领域
本发明属于数据分析领域,尤其涉及基于Ensemble学习模型的电量异常检测方法。
背景技术
目前,终端用户用电量数据异常检测已广泛应用于电力行业。对于非法用电行为的检测,电力企业通常采用传统的人工排查或规则库排查等方式,而传统的排查方法往往存在适用性不高、准确率和效率较低等问题。随着智能电网技术的不断发展、智能电表逐步实现全覆盖及用电信息采集***的数据急剧增加,用电信息采集异常几率越来越大,同时终端用户异常用电数据累计也越来越多。庞大而复杂的数据采集***结构与海量的数据流,使得大量异常信息被淹没而无法有效得到检测。
如何有效利用现有的业务数据,结合高效智能的数据分析与机器学习算法挖掘现有业务数据价值,把数据变成智慧决策参考,为供电***电力营销工作提供服务,提高营销服务的效率与质量,是现阶段电力营销部门所面临的主要问题之一。因此,研发智能高效的用户电量异常检测算法是智慧用电管理与电力营销的重要保障。在实际电力***数据库中,异常用电数据量相比于实际用电数据总量往往比较少,造成正常数据和异常数据的分布极度不均衡,给异常用电量检测带来一定的挑战。
发明内容
为了解决现有技术中存在的缺点和不足,本发明提出了基于Ensemble学习模型的电量异常检测方法,应用ELM为基模型构建多个并行检测模型,且用多数投票法对多模型预测结果进行投票,提高了异常数据检测率。
具体的,所述检测方法包括:
从用电数据库中抽取部分用电数据,对获取到的部分用电数据进行数据整合和用户分类,得到处理后的用电数据;
根据电量异常审核规则重新整合正确的电量数据标签;
基于异常审核规则对处理后的用电数据进行特征提取,得到特征提取后的数据;
构建Ensemble学习模型,将提取后的数据划分为n组训练数据集和1个测试数据集,将每组训练数据集分别导入以ELM为基模型的Ensemble学习模型中进行训练,得到n组分类检测模型,将测试数据集分别投入n个训练好的模型中进行测试,得到n种输出结果;
基于n组输出结果,应用多数投票方法对是否存在电量异常进行判断。
可选的,所述从用电数据库中抽取部分用电数据,对获取到的部分用电数据进行数据整合和用户分类,得到处理后的用电数据,包括:
把分布在用电数据库中不同数据源的用户的户号、用电客户类型、年月、电量及对应标签收集、整理、清洗,转换加载到一个新的数据源;
把整合后新数据源的按照用户用电类别划分成高压、低压居民、低压非居民和光伏用户四种类别;
可选的,所述检测方法还包括:基于FH04、FH09、FH10、FH11、FH24和FH28这6种异常审核规则对四种用户类别进行数据标签重新整合,得到处理后的用电数据,具体包括:
应用FH04、FH11和FH28的三种异常审核规则对高压用户整合正确的数据标签;
应用FH04、FH09和FH28的三种异常审核规则对低压居民整合正确的数据标签;
应用FH04、FH10和FH28的三种异常审核规则对低压非居民整合正确的数据标签;
应用FH24异常的审核规则对光伏用户整合正确的数据标签。
可选的,所述基于异常审核规则对处理后的用电数据进行特征提取,得到提取后的数据,包括:
针对异常FH04,分别用上期电量、本期电量减去设定值200的差值作为其中第1-2维特征;
针对异常FH09,分别用月电量减去100的差值、电量的同比和电量环比作为其中第3-5维特征;
针对异常FH10,分别用月电量减去1000的差值、电量的同比和电量环比作为其中第6-8维特征;
针对异常FH11,分别用月电量减去1000的差值、电量的同比和电量环比作为其中第9-11维特征;
针对异常FH28,分别用月电量减去100的差值、电量环比和去年同期电量作为其中第12-14维特征;
针对异常FH24,用电量环比作为其中第15维特征。
可选的,所述基于异常审核规则对处理后的用电数据进行特征提取,得到提取后的数据,还包括:
针对高压用户,抽取关于FH04、FH11和FH28异常审核的第1-2维、9-11维、12-14维特征,其他维数补0;
针对低压居民用户,抽取关于FH04、FH09和FH28异常审核的第1-2维、3-5维、12-14维特征,其他维数补0;
针对低压非居民用户,抽取关于FH04、FH10和FH28异常审核的第1-2维、6-8维、12-14维特征,其他维数补0;
针对光伏用户,抽取关于FH24异常审核的15维特征,其他维数补0。
可选的,所述构建Ensemble学习模型,将提取后的数据划分为n组训练数据集和1个测试数据集,将每组训练数据集分别导入以ELM为基模型的Ensemble学习模型中进行训练,得到n组分类检测模型,将测试数据集分别投入n个训练好的模型中进行测试,得到n种输出结果,包括:
步骤一,将特征抽取后的正常数据平均分成n+1份,记为A1、A2、A3…An,An+1,异常数据分成两份,记为B1和B2;
步骤二,将B1分别和A1、A2、A3…An组合成n份数据集,记为C1、C2、C3…Cn,作为n个训练集,B2和An+1组合成一份数据集,记为Cn+1,作为测试集;
步骤三,将n个训练集依次投入ELM神经网络,选择Sigmoid函数作为激活函数g(x),并设置合适的隐层节点数;
步骤四,随机生成隐层输入权值矩阵wi=[wi1,wi2,...,win]T和偏置向量矩阵bi=[bi1,bi2,...,bin]T;
步骤五,计算隐层节点输出矩阵H以及输出权重β;
步骤六,将n个不同训练集C1、C2、C3…Cn依次经过步骤三至步骤五这几个步骤后,获得n种神经网络参数的分类检测模型;
步骤七,把测试集分别投入这n个训练好的模型中进行测试,得到第1次实验的n种测试结果;
步骤八,再把整个正常数据集和异常数据集分别随机打乱m-1次,把每一次打乱后的数据集依次重复步骤一至步骤七的操作,分别得到第2到第m次实验且每次实验n种测试结果;
其中,n与m的取值为正整数。
可选的,所述基于n组输出结果对是否存在电量异常进行判断,包括:
用多数投票法分别统计每次实验n种分类结果,哪个类的结果占多数,则把此类作为最后的决策,同时获得投票后的异常检测准确率;
把m次实验投票后的准确率取平均值,作为整个实验异常检测准确率。
本发明提供的技术方案带来的有益效果是:
通过结合用户类别和电量异常审核规则来进行特征抽取,可以把源数据具有强烈的时间序列特点变成具有无序列特点,使得在后面的电量异常检测分类算法的选择上更加具有普适性。另外采用前馈式神经网络ELM与Ensemble learning结合,提出一种更适用于不均衡集处理的基于多模型投票机制的几类典型用电异常的检测分类方法。把整个数据集做合理的划分,可以有效的解决原始数据集的不均衡性问题。同时应用ELM构建多个并行检测模型,且用多数投票法对多模型预测结果进行投票,提高了异常数据检测率。在确定网络参数的过程中就无需进行任何迭代步骤,从而大大降低了网络参数的调节时间,速度更快,准确率更高,泛化性能更好。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例提出的基于Ensemble学习模型的电量异常检测方法的流程示意图;
图2为以ELM为基模型的Ensemble学习的多个并行模型结构图。
具体实施方式
为使本发明的结构和优点更加清楚,下面将结合附图对本发明的结构作进一步地描述。
实施例一
如图1和图2所示,首先将用电数据进行数据预处理,根据异常审核规则对预处理后的数据进行特征提取,把特征提取后的数据分成n份测试集和1份训练集,将每组训练集分别导入以ELM为基模型的Ensemble学***均准确率作为最后的异常检测准确率。
本发明结合用户类别和电量异常审核规则来进行特征抽取,可以把源数据具有强烈的时间序列特点变成具有无序列特点,使得在后面的电量异常检测分类算法的选择上更加具有普适性。
本发明采用前馈式神经网络ELM与集成学习(ensemble learning)结合,提出一种更适用于不均衡集处理的基于多模型投票机制的几类典型用电异常的检测分类方法。把整个数据集做合理的划分,可以有效的解决原始数据集的不均衡性问题。同时应用ELM为基模型构建多个并行检测模型,且用多数投票法对多模型预测的结果进行投票,提高了异常数据检测率。Ensemble learning优于单个模型,特别适用于类似电力数据库中异常数据分布不均衡的情况。
本发明相对于基于传统神经网络、支持向量机和最近邻的异常检测算法,在确定网络参数的过程中就无需进行任何迭代步骤,从而大大降低了网络参数的调节时间,速度更快,准确率更高,泛化性能更好。
已知用电量异常检测大部分基于传统的神经网络、随机森林与最近邻算法等,当前检测算法往往都面临模型训练速度缓慢、不适用于极度不均衡大数据集检测、数据的表征能力不够等问题,从而导致检测效果差且模型泛化能力低等问题。因此,针对异常用电数据分布极度不均衡的检测问题,如何建立一种具有表征能力强、泛化能力好、训练速度且快识别率高的检测模型是一个核心问题。结合前馈式神经网络超限学习机(ExtremeLearning Machine,ELM)与集成学习(Ensemble learning)算法,本专利提出一种更适用于不均衡集处理的基于多模型投票机制的几类典型用电异常的检测分类方法。
ELM是一种针对单隐层前馈神经网络(SLFN)的新算法。相对于传统前馈神经网络训练速度慢,容易陷入局部极小值点,学习率的选择敏感等缺点,ELM算法随机产生输入层与隐含层的连接权值及隐含层神经元的阈值,且在训练过程中无需调整,只需要设置隐含层神经元的个数,便可以获得唯一的最优解。与之前的传统训练方法相比,ELM方法具有学习速度快,泛化性能好等优点。
对于一个单隐层的神经网络,假设有n个任意样本(xi,ti),
xi=[xi1,xi2,...,xin]T∈Rn,ti=[ti1,ti2,...,tim]T∈Rm,对于一个有L个隐层节点的单隐层神经网络可以表示为:
其中,g(x)为激活函数,wi=[wi1,wi2,...,win]T为输入权重,βi为输出权重,bi是第i个隐层单元的偏置。wi.xj表示wi和xj的内积。
单隐层神经网络学习的目标是使得输出的误差最小,可以表示为:
即存在βi,wi和bi,使得:
用矩阵表示为:
Hβ=T
其中,H表示隐含层输出:
β表示输出权重,β=[β1,β2,...,βL]T;T为期望输出,T=[T1,T2,...,TL]T。
在ELM算法中,一旦输入权重和隐含层的偏置值被随机确定,它就可以转化为求解一个线性***公式,这样,输出权重就可以确定了,即β=H+T,H+为矩阵H的Moore-Penrose广义逆。
ELM算法如下:给定n个任意样本集(xi,ti)、激活函数g(x)和隐含层节点数L。
1)随机分配隐层节点参数w和b。
2)计算隐含层输出矩阵H。
3)计算输出权重β,β=H+T,T=(t1,...,tN)
基于前述理论基础,本发明提出了基于Ensemble学习模型的电量异常检测方法,应用ELM为基模型构建多个并行检测模型,且用多数投票法对多模型预测结果进行投票,提高了异常数据检测率。
具体的,如图1所示,所述检测方法包括:
11、从用电数据库中抽取部分用电数据,对获取到的部分用电数据进行数据整合和用户分类,得到处理后的用电数据;
12、基于异常审核规则对处理后的用电数据进行特征提取,得到提取后的数据;
13、构建Ensemble学习模型,将提取后的数据划分为n组训练数据集和1个测试数据集,将每组训练数据集分别导入以ELM为基模型的Ensemble学习模型中进行训练,得到n组分类检测模型,将测试数据集分别投入n个训练好的模型中进行测试,得到n种输出结果;
14、基于n组输出结果对是否存在电量异常进行判断。
在实施中,首先将用电数据进行数据预处理,根据异常审核规则进行特征抽取,把特征抽取后的数据分成测试集和训练集,基于训练集进行模型训练得到检测模型;然后把测试集投入训练好的检测模型中进行测试,得到第一次实验的分类结果;最后用多数投票算法对第一次实验的分类结果进行多数投票决策。再随机打乱正常数据集和异常数据集m-1次,把每一次打乱后的数据重复以上步骤。最后取m次实验的投票结果的平均准确率作为最后的异常检测准确率。
具体的,步骤11的具体内容包括:
111、把分布在用电数据库中不同数据源的用户的户号、用电客户类型、年月、电量及对应标签收集、整理、清洗,转换加载到一个新的数据源;
112、把整合后新数据源的按照用户用电类别划分成高压、低压居民、低压非居民和光伏用户四种类别;
113、应用FH04、FH09、FH10、FH11、FH24和FH28这6种异常的审核规则对上述四种类别进行数据标签重新整合,得到处理后的用电数据。
这里步骤113所进行的数据整合内容,包括如下四种具体执行方式:
(1)应用FH04、FH11和FH28的三种异常审核规则对高压用户整合正确的数据标签;
(2)应用FH04、FH09和FH28的三种异常审核规则对低压居民整合正确的数据标签;
(3)应用FH04、FH10和FH28的三种异常审核规则对低压非居民整合正确的数据标签;
(4)应用FH24异常的审核规则对光伏用户整合正确的数据标签。
需要注意的内容为:
1、原始数据标签由于复核人员的不规范操作等原因,造成部分电量标签有误,故需整合一份正确的标签。
2、用户用电类别主要包括高压、低压居民、低压非居民和光伏用户这4种,针对用户类别不同,电量异常检测通过的异常审核规则种类不一样,即在这6种典型电量异常检测中,针对高压用户的异常有FH04、FH11和FH28这3种异常,针对低压居民的电量异常有FH04、FH09和FH28这3种异常,针对低压非居民的电量异常有FH04、FH10和FH28这3种异常,针对光伏用户的电量异常只有FH24异常。
步骤12为基于已有的异常审核规则对存在的异常进行相应处理的步骤:
针对异常FH04,分别用上期电量、本期电量减去设定值200的差值作为其中第1-2维特征;
针对异常FH09,分别用月电量减去100的差值、电量的同比和电量环比作为其中第3-5维特征;
针对异常FH10,分别用月电量减去1000的差值、电量的同比和电量环比作为其中第6-8维特征;
针对异常FH11,分别用月电量减去1000的差值、电量的同比和电量环比作为其中第9-11维特征;
针对异常FH28,分别用月电量减去100的差值、电量环比和去年同期电量作为其中第12-14维特征;
针对异常FH24,用电量环比作为其中第15维特征。
除了上述针对每种异常进行处理外,这里的处理步骤还包括针对前文提出四种类型用户分别进行处理的步骤,具体包括:
针对高压用户,抽取关于FH04、FH11和FH28异常审核的第1-2维、9-11维、12-14维特征,其他维数补0;
针对低压居民用户,抽取关于FH04、FH09和FH28异常审核的第1-2维、3-5维、12-14维特征,其他维数补0;
针对低压非居民用户,抽取关于FH04、FH10和FH28异常审核的第1-2维、6-8维、12-14维特征,其他维数补0;
针对光伏用户,抽取关于FH24异常审核的第15维特征,其他维数补0。
需要注意如下:
异常FH04的审核规则为上期电量为0本期电量大于设定值200;异常FH09的审核规则为月电量设定值100以上、电量同比波动超过正负设定值2和电量环比波动超过正负设定值2;异常FH10的审核规则为月电量设定值1000以上、电量同比波动超过正负设定值0.5和电量环比波动超过正负设定值0.5;异常FH11的审核规则为月电量设定值1000以上、电量同比波动超过正负设定值0.5和电量环比波动超过正负设定值0.5;异常FH24的审核规则为电量环比波动超过正负30%;异常FH28的审核规则为月电量设定值100以上、电量环比波动超过正负设定值200%且去年同期电量为0。
步骤13为建立Ensemble学习模型,并将前文中得到的数据代入模型进行处理的步骤,具体包括:
步骤一,将特征抽取后的正常数据平均分成n+1份,记为A1、A2、A3…An,An+1;异常数据分成两份,记为B1和B2;
步骤二,将B1分别和A1、A2、A3…An组合成n份数据集,记为C1、C2、C3…Cn,作为n个训练集,B2和An+1组合成一份数据集,记为Cn+1,作为测试集;
步骤三,将n组训练集依次投入ELM神经网络,选择Sigmoid函数作为激活函数g(x),并设置合适的隐层节点数;
步骤四,随机生成隐层输入权值矩阵wi=[wi1,wi2,...,win]T和偏置向量矩阵bi=[bi1,bi2,...,bin]T;
步骤五,计算隐层节点输出矩阵H以及输出权重β;
步骤六,将n个不同训练集C1、C2、C3…Cn依次经过步骤三至步骤五这几个步骤后,获得n种神经网络参数的分类检测模型;
步骤七,把测试集分别投入这n个训练好的模型中进行测试,得到第1次实验的n种测试结果;
步骤八,再把整个正常数据集和异常数据集分别随机打乱m-1次,把每一次打乱后的数据集依次重复步骤一至步骤七的操作,分别得到第2到第m次实验且每次实验n种测试结果;
其中,n和m的取值为正整数。
步骤14为在得到多组测试结果后,基于得到的结果进行是否存在异常的判断步骤包括:
141、用多数投票法分别统计每次实验n种分类结果,哪个类的结果占多数,则把此类作为最后的决策,同时获得投票后的异常检测准确率;
142、把m次实验投票后的准确率取平均值,作为整个实验异常检测准确率。
本发明针对传统电量数据异常检测中的不足,结合前馈式神经网络超限学习机(Extreme Learning Machine,ELM)与集成学习(Ensemble learning)算法,本专利提出一种更适用于不均衡集处理的基于多模型投票机制的几类典型用电异常的检测分类方法。本专利以6种出现频率高用电异常检测为例,但实际算法并不局限于6种,易于扩展。
这些典型用电异常包括:
1)上期电量为0且本期电量大于设定值,该异常在电力***标示为FH04;
2)低压居民电量异常波动,该异常在电力***标示为FH09;
3)低压非居民电量异常波动,该异常在电力***标示为FH10;
4)高压电量异常波动,该异常在电力***标示为FH11;
5)光伏电量异常波动,该异常在电力***标示为FH24;
6)环比电量异常波动,该异常在电力***标示为FH28。
上述实施例中的各个序号仅仅为了描述,不代表各部件的组装或使用过程中的先后顺序。
以上所述仅为本发明的实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于Ensemble学习模型的电量异常检测方法,所述检测方法包括:
从用电数据库中抽取部分用电数据,对获取到的部分用电数据进行数据整合和用户分类,得到处理后的用电数据;
根据电量异常审核规则重新整合正确的电量数据标签;
基于异常审核规则对处理后的用电数据进行特征提取,得到特征提取后的数据;
构建Ensemble学习模型,将提取后的数据划分为n组训练数据集和1个测试数据集,将每组训练数据集分别导入以ELM为基模型的Ensemble学习模型中进行训练,得到n组分类检测模型;将测试数据集分别投入n个训练好的模型中进行测试,得到n种输出结果;
基于n组输出结果,应用多数投票方法对是否存在电量异常进行判断。
2.根据权利要求1所述的基于Ensemble学习模型的电量异常检测方法,其特征在于,所述从用电数据库中抽取部分用电数据,对获取到的部分用电数据进行数据整合和用户分类,得到处理后的用电数据,包括:
把分布在用电数据库中不同数据源的用户的户号、用电客户类型、年月、电量及对应标签收集、整理、清洗,转换加载到一个新的数据源;
把整合后新数据源的按照用户用电类别划分成高压、低压居民、低压非居民和光伏用户四种类别。
3.根据权利要求2所述的基于Ensemble学习模型的电量异常检测方法,其特征在于,所述检测方法还包括:基于FH04、FH09、FH10、FH11、FH24和FH28这6种异常审核规则对四种用户类别进行数据标签重新整合,得到处理后的用电数据,具体包括:
应用FH04、FH11和FH28的三种异常审核规则对高压用户整合正确的数据标签;
应用FH04、FH09和FH28的三种异常审核规则对低压居民整合正确的数据标签;
应用FH04、FH10和FH28的三种异常审核规则对低压非居民整合正确的数据标签;
应用FH24异常的审核规则对光伏用户整合正确的数据标签。
4.根据权利要求3所述的基于Ensemble学习模型的电量异常检测方法,其特征在于,所述基于异常审核规则对处理后的用电数据进行特征提取,得到提取后的数据,包括:
针对异常FH04,分别用上期电量、本期电量减去设定值200的差值作为其中第1-2维特征;
针对异常FH09,分别用月电量减去100的差值、电量的同比和电量环比作为其中第3-5维特征;
针对异常FH10,分别用月电量减去1000的差值、电量的同比和电量环比作为其中第6-8维特征;
针对异常FH11,分别用月电量减去1000的差值、电量的同比和电量环比作为其中第9-11维特征;
针对异常FH28,分别用月电量减去100的差值、电量环比和去年同期电量作为其中第12-14维特征;
针对异常FH24,用电量环比作为其中第15维特征。
5.根据权利要求2所述的基于Ensemble学习模型的电量异常检测方法,其特征在于,所述基于异常审核规则对处理后的用电数据进行特征提取,得到提取后的数据,还包括:
针对高压用户,抽取关于FH04、FH11和FH28异常审核的第1-2维、9-11维、12-14维特征,其他维数补0;
针对低压居民用户,抽取关于FH04、FH09和FH28异常审核的第1-2维、3-5维、12-14维特征,其他维数补0;
针对低压非居民用户,抽取关于FH04、FH10和FH28异常审核的第1-2维、6-8维、12-14维特征,其他维数补0;
针对光伏用户,抽取关于FH24异常审核的第15维特征,其他维数补0。
6.根据权利要求1所述的基于Ensemble学习模型的电量异常检测方法,其特征在于,所述构建Ensemble学习模型,将提取后的数据划分为n组训练数据集和1个测试数据集,将每组训练数据集分别导入以ELM为基模型的Ensemble学习模型中进行训练,得到n组分类检测模型,将测试数据集分别投入n个训练好的模型中进行测试,得到n种输出结果,包括:
步骤一,将特征抽取后的正常数据平均分成n+1份,记为A1、A2、A3…An,An+1,异常数据分成两份,记为B1和B2;
步骤二,将B1分别和A1、A2、A3…An组合成n份数据集,记为C1、C2、C3…Cn,作为n个训练集,B2和An+1组合成一份数据集,记为Cn+1,作为测试集;
步骤三,将n个训练集依次投入ELM神经网络,选择Sigmoid函数作为激活函数g(x),并设置合适的隐层节点数;
步骤四,随机生成隐层输入权值矩阵wi=[wi1,wi2,...,win]T和偏置向量矩阵bi=[bi1,bi2,...,bin]T;
步骤五,计算隐层节点输出矩阵H以及输出权重β;
步骤六,将n个不同训练集C1、C2、C3…Cn依次经过步骤三至步骤五这几个步骤后,获得n种神经网络参数的分类检测模型;
步骤七,把测试集分别投入这n个训练好的模型中进行测试,得到第1次实验的n种测试结果;
步骤八,再把整个正常数据集和异常数据集分别随机打乱m-1次,把每一次打乱后的数据集依次重复步骤一至步骤七的操作,分别得到第2到第m次实验且每次实验n种测试结果;
其中,n和m的取值为正整数。
7.根据权利要求1所述的基于Ensemble学习模型的电量异常检测方法,其特征在于,所述基于n组输出结果对是否存在电量异常进行判断,包括:
用多数投票法分别统计每次实验n种分类结果,哪个类的结果占多数,则把此类作为最后的决策,同时获得投票后的异常检测准确率;
把m次实验投票后的准确率取平均值,作为整个实验异常检测准确率;
其中,n和m的取值为正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910223762.0A CN110119755A (zh) | 2019-03-22 | 2019-03-22 | 基于Ensemble学习模型的电量异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910223762.0A CN110119755A (zh) | 2019-03-22 | 2019-03-22 | 基于Ensemble学习模型的电量异常检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110119755A true CN110119755A (zh) | 2019-08-13 |
Family
ID=67520552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910223762.0A Pending CN110119755A (zh) | 2019-03-22 | 2019-03-22 | 基于Ensemble学习模型的电量异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119755A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110824273A (zh) * | 2019-10-31 | 2020-02-21 | 南方科技大学 | 一种微电网孤岛及故障检测方法、装置及存储介质 |
CN110930051A (zh) * | 2019-12-02 | 2020-03-27 | 国网江西省电力有限公司电力科学研究院 | 基于大数据分析的居民需求响应潜力分析***及方法 |
CN111143431A (zh) * | 2019-12-10 | 2020-05-12 | 云南电网有限责任公司信息中心 | 一种智能化量费核查与异常识别*** |
CN111178699A (zh) * | 2019-12-15 | 2020-05-19 | 贵州电网有限责任公司 | 一种调度操作票智能校核***构建方法 |
CN111428772A (zh) * | 2020-03-19 | 2020-07-17 | 南京邮电大学 | 基于k-近邻自适应投票的光伏***深度异常检测方法 |
CN111625516A (zh) * | 2020-01-10 | 2020-09-04 | 京东数字科技控股有限公司 | 检测数据状态的方法、装置、计算机设备和存储介质 |
CN112085258A (zh) * | 2020-08-13 | 2020-12-15 | 国网上海市电力公司 | 一种基于大数据技术的区域光伏发电量异常实时监测方法 |
CN112561580A (zh) * | 2020-12-15 | 2021-03-26 | 广东电网有限责任公司 | 一种用电行为审计方法、装置、设备和介质 |
CN112988728A (zh) * | 2021-03-26 | 2021-06-18 | 云南电网有限责任公司电力科学研究院 | 一种配电网数据清洗方法及装置 |
CN113255792A (zh) * | 2021-06-01 | 2021-08-13 | 广东粤港澳大湾区硬科技创新研究院 | 一种数据异常点检测方法、装置、***、以及存储介质 |
CN115186771A (zh) * | 2022-09-09 | 2022-10-14 | 西安热工研究院有限公司 | 基于dbn-elm的设备耗电特征分类方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243259A (zh) * | 2015-09-02 | 2016-01-13 | 上海大学 | 基于极限学习机的脉动风速快速预测方法 |
CN106650797A (zh) * | 2016-12-07 | 2017-05-10 | 广东电网有限责任公司江门供电局 | 一种基于集成elm的配电网窃电嫌疑用户智能识别方法 |
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
CN108802565A (zh) * | 2018-04-28 | 2018-11-13 | 国网上海市电力公司 | 一种基于机器学习的中压配电网断线不接地故障检测方法 |
-
2019
- 2019-03-22 CN CN201910223762.0A patent/CN110119755A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243259A (zh) * | 2015-09-02 | 2016-01-13 | 上海大学 | 基于极限学习机的脉动风速快速预测方法 |
CN106650797A (zh) * | 2016-12-07 | 2017-05-10 | 广东电网有限责任公司江门供电局 | 一种基于集成elm的配电网窃电嫌疑用户智能识别方法 |
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
CN108802565A (zh) * | 2018-04-28 | 2018-11-13 | 国网上海市电力公司 | 一种基于机器学习的中压配电网断线不接地故障检测方法 |
Non-Patent Citations (2)
Title |
---|
XIAOLAN WANG等: "The research of ELM ensemble learning on multi-class resampling imbalanced data", 《2015 IEEE ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC)》 * |
李培 等: "基于集成ELM的配电网窃电嫌疑用户智能识别", 《科技通报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110824273A (zh) * | 2019-10-31 | 2020-02-21 | 南方科技大学 | 一种微电网孤岛及故障检测方法、装置及存储介质 |
CN110930051A (zh) * | 2019-12-02 | 2020-03-27 | 国网江西省电力有限公司电力科学研究院 | 基于大数据分析的居民需求响应潜力分析***及方法 |
CN111143431A (zh) * | 2019-12-10 | 2020-05-12 | 云南电网有限责任公司信息中心 | 一种智能化量费核查与异常识别*** |
CN111178699A (zh) * | 2019-12-15 | 2020-05-19 | 贵州电网有限责任公司 | 一种调度操作票智能校核***构建方法 |
CN111178699B (zh) * | 2019-12-15 | 2023-05-23 | 贵州电网有限责任公司 | 一种调度操作票智能校核***构建方法 |
CN111625516A (zh) * | 2020-01-10 | 2020-09-04 | 京东数字科技控股有限公司 | 检测数据状态的方法、装置、计算机设备和存储介质 |
CN111625516B (zh) * | 2020-01-10 | 2024-04-05 | 京东科技控股股份有限公司 | 检测数据状态的方法、装置、计算机设备和存储介质 |
CN111428772B (zh) * | 2020-03-19 | 2022-08-23 | 南京邮电大学 | 基于k-近邻自适应投票的光伏***深度异常检测方法 |
CN111428772A (zh) * | 2020-03-19 | 2020-07-17 | 南京邮电大学 | 基于k-近邻自适应投票的光伏***深度异常检测方法 |
CN112085258A (zh) * | 2020-08-13 | 2020-12-15 | 国网上海市电力公司 | 一种基于大数据技术的区域光伏发电量异常实时监测方法 |
CN112561580B (zh) * | 2020-12-15 | 2023-02-17 | 广东电网有限责任公司 | 一种用电行为审计方法、装置、设备和介质 |
CN112561580A (zh) * | 2020-12-15 | 2021-03-26 | 广东电网有限责任公司 | 一种用电行为审计方法、装置、设备和介质 |
CN112988728A (zh) * | 2021-03-26 | 2021-06-18 | 云南电网有限责任公司电力科学研究院 | 一种配电网数据清洗方法及装置 |
CN113255792A (zh) * | 2021-06-01 | 2021-08-13 | 广东粤港澳大湾区硬科技创新研究院 | 一种数据异常点检测方法、装置、***、以及存储介质 |
CN115186771A (zh) * | 2022-09-09 | 2022-10-14 | 西安热工研究院有限公司 | 基于dbn-elm的设备耗电特征分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119755A (zh) | 基于Ensemble学习模型的电量异常检测方法 | |
CN110824270B (zh) | 结合台区线损和异常事件的窃电用户辨识方法及装置 | |
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、***、设备及介质 | |
León et al. | Variability and trend-based generalized rule induction model to NTL detection in power companies | |
CN110222991B (zh) | 基于rf-gbdt的计量装置故障诊断方法 | |
CN110930198A (zh) | 基于随机森林的电能替代潜力预测方法、***、存储介质及计算机设备 | |
CN110458230A (zh) | 一种基于多判据融合的配变用采数据异常甄别方法 | |
CN111738462B (zh) | 电力计量装置故障抢修主动服务预警方法 | |
CN112766550A (zh) | 基于随机森林的停电敏感用户预测方法、***、存储介质及计算机设备 | |
CN110879377B (zh) | 基于深度信念网络的计量装置故障溯源方法 | |
CN102339347A (zh) | 用于技术***的计算机辅助分析的方法 | |
Abdo et al. | A new model of faults classification in power transformers based on data optimization method | |
Najafi et al. | Building characterization through smart meter data analytics: Determination of the most influential temporal and importance-in-prediction based features | |
CN110738232A (zh) | 一种基于数据挖掘技术的电网电压越限成因诊断方法 | |
CN110610121A (zh) | 基于曲线聚类的小时级源荷功率异常数据辨识与修复方法 | |
CN111126445A (zh) | 一种面向智能电表海量数据的多步聚合负荷预测方法 | |
CN112257784A (zh) | 一种基于梯度提升决策树的窃电检测方法 | |
Long et al. | A data-driven combined algorithm for abnormal power loss detection in the distribution network | |
CN110363384A (zh) | 基于深度加权神经网络的异常用电检测方法 | |
CN114662563A (zh) | 一种基于梯度提升算法的工业用电非侵入负荷分解方法 | |
Muzumdar et al. | Analyzing the feasibility of different machine learning techniques for energy imbalance classification in smart grid | |
CN113327047A (zh) | 基于模糊综合模型的电力营销服务渠道决策方法及*** | |
Liu et al. | Bitcoin mining recognition based on community detection with electricity consumption data | |
CN114049033B (zh) | 一种基于用电数据分布的排污企业监测方法 | |
CN111026075A (zh) | 一种基于误差匹配的中低压燃气调压器故障检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190813 |
|
RJ01 | Rejection of invention patent application after publication |