CN109740694A - 一种基于非监督学习的智能电网非技术性损失检测方法 - Google Patents

一种基于非监督学习的智能电网非技术性损失检测方法 Download PDF

Info

Publication number
CN109740694A
CN109740694A CN201910066167.0A CN201910066167A CN109740694A CN 109740694 A CN109740694 A CN 109740694A CN 201910066167 A CN201910066167 A CN 201910066167A CN 109740694 A CN109740694 A CN 109740694A
Authority
CN
China
Prior art keywords
data
cluster
principal component
data set
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910066167.0A
Other languages
English (en)
Inventor
曲正伟
李弘文
王云静
田亚静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN201910066167.0A priority Critical patent/CN109740694A/zh
Publication of CN109740694A publication Critical patent/CN109740694A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于非监督学习的智能电网非技术性损失检测方法,涉及智能电网高级量测体系领域。本发明使用主成分分析方法将原始数据集进行维度规约,即降维处理;基于k‑means方法对于降维处理后的数据进行聚类,将大多数正常数据进行剪枝;结合局部异常因子检测算法(LOF)进行精确数据处理,最终实现异常数据的准确分离,达到检测出非技术型损失的目的;运用ROC曲线来进行检测准确度的评价,验证本方法的可行性可准确性;确定方法并采用仿真工具对其进行仿真分析。本发明提出的检测方法比现有的技术更加简捷高效、实用性和实践性较强,而且可以更有效的提高检测效率,可以节省大量的时间和资源。

Description

一种基于非监督学习的智能电网非技术性损失检测方法
技术领域
本发明涉及智能电网高级量测体系领域,尤其涉及一种基于非监督学习的智能电网非技术性损失检测方法,可以高效快速的检测出智能电网的非技术性损失。
背景技术
近年来,智能电网的发展为电力行业注入了新的活力和希望,同时也对传统电网模式提出了新挑战。随着全球资源和环境压力的增大、电力市场化进程的推进、用户对电能质量和用电可靠性要求的提升等因素使得电力行业面临前所未有的挑战,许多国家和组织提出要建设具有灵活、清洁、安全、经济、友好等性能的智能电网,并将智能电网视为未来电网的发展方向
智能电网的基础是分布式数据传输、计算和控制技术,以及多个供电单元之间数据和控制命令的有效传输技术。在此基础上,电网需要更加高效的通讯、量测体系。为了解决这种需要,产生了智能电网高级量测体系(Advanced Metering Infrastructure,AMI)的概念,AMI在智能电网中扮演着愈加重要的角色。它在***运行、资产管理,特别是负荷响应中所达到的效果显著,逐渐成为整个电力行业中最热门的研究和工程实施项目。
但如此复杂的检测、通讯***,面临的安全威胁也不容小觑。AMI体系有几个关键的特征使其容易受到攻击:
(1)通信体系复杂,部分通信链路带宽有限;
(2)接入了大量的低计算、低存储、低防护能力的设备;
(3)存储了大量敏感的用户数据。
不法分子往往会利用AMI体系下安全防护薄弱特征,对智能电网进行攻击,实施窃电和欺诈等不法用电行为,危及智能电网的安全,像这种与配网侧的用户窃电和一系列欺骗性用电行为有关的电能损失,可以统称为非技术性损失(Nontechnical Loss,NTL)。此举不仅造成电能大量流失,扰乱正常的供用电秩序,同时也给电网的安全运行带来了严重的隐患。据不完全统计,我国每年因为非技术性损失造成的收入损失占总收入的0.5%到3.5%。
目前,国网供电公司采取的反窃电措施大多为:应用专业化的电能表箱和计量箱;将低压出线端闭合至计量装置的导体,此技术是目前反窃电技术中应用最为广泛的方法;安装反窃电智能电能表、丰富电能表功能;提高电采集***的应用率等。但是这些方法大多以研究反窃电装置为主,缺乏足够的反窃电算法用于分析海量的历史用电数据,从而很难发现窃电用户的用电特征。
综上所述,AMI体系使智能电网提升了智能电网的数据采集、处理能力,加强了供给侧与需求侧的联系。但是也增加了电网受到攻击的风险。因此需要采取有效的措施来对非技术性损失进行有效的检测,有效的非技术性损失检测方法能够为供电公司的用电稽查工作提供参考,提高现场检查的命中率,降低运营成本,同时可以节省大量人力物力;对于促进建设坚强智能电网,提高电网的安全性有着非常重要的研究意义。
发明内容
本发明目的在于提供一种基于非监督学习的智能电网非技术性损失检测方法,旨在通过对表征用电行为的用电原始数据进行聚类分析获取异常数据,来判断用电行为异常,以达到智能电网非技术性损失检测,该方法具有简便、高效、考虑因素全面以及实用性高的特点。
为实现上述目的,本发明是通过以下技术方案实现的:一种基于非监督学习的智能电网非技术性损失检测方法,其特征在于:包括如下步骤:
步骤(1)基于一个用电行为可触发多种用电数据;选取多种表征用电行为的用电原始数据作为原始指标数据集,使用主成分分析方法将原始数据集进行维度规约;
步骤(2)使用基于k-means聚类方法,将步骤(1)使用主成分分析法得到的数据集进行聚类,并剔除正常数据,获得异常数据;
步骤(3)基于局部异常因子检测算法对步骤(2)中异常数据进行精确数据处理,实现异常数据的准确分离,完成智能电网非技术性损失检测。
进一步的技术方案在于:在步骤1中,所述原始指标数据集包括趋势指标,变动性指标,波动性指标,后r月平均负荷与所有月平均负荷的比率指标,以及每个用户的负荷序列与所有用户负荷中值序列的相关系数指标。
进一步的技术方案在于:所述趋势指标计算步骤如下:
1)输入电力用户月平均负荷数据集X;
2)计算每个用户负荷时间序列A的n点简单移动平均序列;
3)统计序列A和序列F在各时间点的相对大小,若A在F之下的有u段,每段包含的点数分别为a1,a2,…,au,A在F之上的有v段,每段包含的点数分别为b1,b2,…,bv,则有下述的指标计算:
4)计算上升趋势指标tra和下降趋势指标trb
进一步的技术方案在于:所述变动性指标是指用户用电模式的首位差异度量;包括:
1)前r个月与后r个月平均负荷的差值
式中,xn1和xn2分别为前r个月与后r个月的负荷;
2)前r个月与后r个月离散傅里叶变换的系数序列的差值序列的模
式中,yn1和yn2分别为前后r个月的离散傅里叶变换的系数序列。
进一步的技术方案在于:所述波动性指标为:
1)每个用户H个月负荷序列的标准差sd;
2)前r月负荷序列的标准差bsd_r;
3)后r月负荷序列的标准差esd_r。
进一步的技术方案在于:在步骤1中,使用主成分分析方法将原始指标数据集进行维度规约,具体过程如下:
(1)计算协方差矩阵
假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵:
记原变量指标为:
x1,x2,…,xp (6)
计算协方差矩阵:
∑=(Sij)p×p (7)
式中,
(2)求出Σ的特征值λi及相应的正交化单位特征向量ai
Σ的前m个较大的特征值λ1≥λ2≥…≥λm>0就是前m个主成分对应的方差,λ1对应的单位特征向量ai就是主成分Fi关于原变量的系数,则原变量的第i个主成分Fi为:
Fi=aiX (8)
(3)选择主成分
最终要选择几个主成分,即F1,F2,…,Fm中m的确定是通过方差信息累计贡献率G(m)来确定:
当累计贡献率大于85%时,就认为能够反映原来变量的信息,对应的m就是抽取的前m个主成分;
(4)计算主成分载荷
主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度,原来Xj(j=1,2,…,p)在诸主成分Fi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p):
l(Zi,Xj)=λiaij(i=1,2,…,m;j=1,2,…,p) (10)
若用F1,F2,…,Fm表示原变量X1,X2,…,Xp的m个主成分,即:
进一步的技术方案在于:在步骤2中,k-means聚类方法基本公式为:
式中,dist(xi,xj)表示数据点xi,xj的欧氏距离;D表示数据对象的属性个数;xi,d,xj,d分别表示数据点xi,xj的数据分量;Ck表示第k类簇的类簇中心;Centerk表示第k类簇的更新类簇中心;J表示误差平方和准则函数;R为定义的类簇域半径;
使用k-means聚类方法,将使用主成分分析法得到的数据集进行聚类,并剔除正常数据,具体聚类过程如下:
(1)输入初始数据集X,设置类簇个数k;
(2)在数据集X中随机选择k个点作为初始聚类中心;
(3)采用式(12)计算各点到聚类中心的距离;
(4)依据距离指派数据点到最相似的类簇;
(5)采用式(13)更新类簇中心;
(6)重复步骤(3)至(5),当准则函数(14)收敛时,停止聚类,并输出聚类结果;否则返回步骤(3)继续运算。
进一步的技术方案在于:在步骤3中,局部异常因子检测算法的精确描述建立在以下几个公式基础之上:
Nk(p)={q∈D\{p}|d(p,q)≤k_dist(p)} (16)
reach_distk(p,q)=max{k_dist(q),d(p,q)} (17)
式中,Nk(p)为所有到p的距离不超过k距离的对象集合;d(p,q)为p,q两点的欧氏距离;k_dist(p)为对象p的k距离邻域;reach_distk(p,q)为对象p关于对象q的可达距离;lrdMinpts(p)为对象p的局部可达密度;Nk(p)为所有到p的距离不超过k距离的对象集合;LOFk(p)表示点p的局部离群因子LOF;
具体过程如下:
(1)设置近邻个数k;
(2)设置目标离群点个数m;
(3)输入数据集;
(4)计算每个对象的距离矩阵;
(5)计算任意点p的k距离k_dist(p);
(6)计算任意点p的k距离邻域Nk(p);
(7)计算p点的可达密度;
(8)计算局部离群因子LOF;
(9)对所有点的LOF值进行排序,输出top(m)个离群点;
在此调用k均值聚类算法以提取候选集,其中判断规则为:每类中的对象与类中心的距离如果大于等于该类半径R,则相应的数据对象被提取出来,作为离群点候选集;
另,为提高算法的检测精度,在进行离群点的判断过程中,必须满足两个条件:
(1)离群点筛选条件
式中,pij为对PCA方法处理之后的数据集进行k均值聚类后的第i类元素中的第j项;ni为第i类中含有的数据对象个数;Centerk为聚类的中心;R为聚类的域半径;
(2)离群因子限制条件
LOF(pij)∈LOF(p)top(m) (21)
式中,m为预先设定的检测离群点的个数阈值;
综合两种算法,具体过程如下:
(1)输入原始数据集,离群点预设最少个数m;
(2)PCA降维处理;
(3)降维后的数据集进行k均值聚类;
(4)计算每个类簇的数据个数ni
(5)如果类簇数据个数ni<m,则直接保留该类簇,保留后的类簇包含的数据集记为D;如果ni>m则需根据根据式(20),判断类簇内每个点到类簇中心Centerk的距离是否大于该类簇半径,如果大于,则与数据集D合并成为“离群点候选数据集”D',如果小于,则判断为正常数据,剔除;
(6)运用局部异常因子检测算法进行计算并且排序所有数据点的离群因子,离群因子的筛选结果即实现了非技术性损失的检测。
本发明提出的检测方法相比现有技术更加经济方便、实用性高,而且通过两种算法的整合,有效的避免了k-means方法的检测精度高度依赖于聚类参数的选取,并且离群点是聚类过程的“副产物”,导致其检测精度相对来说不算高;和离群点检测算法通过比较所有数据点的LOF值来判断离群程度,这产生了大量没必要的计算,造成时间成本太高,同时由于中间结果的存储而浪费空间资源的缺点。且本发明提出的将原始数据集运用主成分分析法进行降维处理,提高了算法的整体运算速度;提出的使用ROC曲线方法进行检测精度评估,可以直观的检测方法的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1本发明方法中主成分分析方法的流程图;
图2本发明方法中k-means检测算法的流程图;
图3本发明方法中离群点检测方法(LOF)流程图;
图4本发明方法的技术路线图;
图5本发明方法的总体流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合图1-5进行详细说明。
如图4-5所示,本发明阐述的一种基于非监督学习的智能电网非技术性损失检测方法,具体步骤如下:
(1)基于一个用电行为可触发多种用电数据;选取多种表征用电行为的用电原始数据作为原始指标数据集,使用主成分分析方法将原始数据集进行维度规约;
(1-1)用电特指标数据集
造成异常的用电信息往往不是孤立的,一个行为可能触发多种异常。若仅以单一指标为依据进行检测,则很可能发生遗漏或误判。因此,高效的防非技术性损失工作应当通过对多种异常数据进行综合特征提取,并围绕各种手段引起的可以量化的特征量来展开。
拟提取的数据集中包含N个电力用户H个月的用电数据,用户的用电模式用其月平均负荷来表示,则每个用户的负荷序列可以表示为H维向量,所有用户可以表示为数据集X={xn,n=1,2,…,N}。
在数据集X的基础上可以进一步提取用户用电模式的特征量。
①趋势指标
趋势指标的计算建立在序列移动平均值的基础上。移动平均法是一种分析时间序列的常用工具,可以分为简单移动平均、加权移动平均和指数移动平均等。简单移动平均是某变量的前n个数值的算术平均值。若时间序列表示为{A1A2,…,An},则t时刻的n点移动平均值为Ft={At-1+At-2+…+At-n}/n。
趋势指标计算步骤如下:
1)输入电力用户月平均负荷数据集X;
2)计算每个用户负荷时间序列A的n点简单移动平均序列;
3)统计序列A和序列F在各时间点的相对大小,若A在F之下的有u段,每段包含的点数分别为a1,a2,…,au,A在F之上的有v段,每段包含的点数分别为b1,b2,…,bv,则有下述的指标计算:
4)计算上升趋势指标tra和下降趋势指标trb
②变动性指标
变动性指标是指用户用电模式的首位差异度量。包括:
1)前r个月与后r个月平均负荷的差值
式中,xn1和xn2分别为前r个月与后r个月的负荷;
2)前r个月与后r个月离散傅里叶变换的系数序列的差值序列的模
式中,yn1和yn2分别为前后r个月的离散傅里叶变换的系数序列。
③波动性指标
1)每个用户H个月负荷序列的标准差sd;
2)前r月负荷序列的标准差bsd_r;
3)后r月负荷序列的标准差esd_r。
④其他指标
1)后r月平均负荷与所有月平均负荷的比率;
2)每个用户的负荷序列与所有用户负荷中值序列的相关系数。
(1-2)基于主成分分析方法(PCA)的原始数据集维度规约
提取的特征数量较多且不同特征可能包含重叠信息,为了在低维平面直观地展示各用户的用电模式并高效地挖掘异常用户,有必要对数据集进行维度归约,即降维处理。所谓维度归约就是对数据集进行变换,用数量较少的新属性表示原数据集尽可能多的信息。主成分分析(principal component analysis,PCA)是一种具有代表性的降维方法,其具体实现过程如下:
(1)计算协方差矩阵
假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵:
记原变量指标为:x1,x2,…,xp (6)
计算协方差矩阵:
式中,
(2)求出Σ的特征值λi及相应的正交化单位特征向量ai
Σ的前m个较大的特征值λ1≥λ2≥…≥λm>0就是前m个主成分对应的方差,λ1对应的单位特征向量ai就是主成分Fi关于原变量的系数,则原变量的第i个主成分Fi为:
Fi=aiX (8)
(3)选择主成分
最终要选择几个主成分,即F1,F2,…,Fm中m的确定是通过方差信息累计贡献率G(m)来确定:
当累计贡献率大于85%时,就认为能够反映原来变量的信息,对应的m就是抽取的前m个主成分;
(4)计算主成分载荷
主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度,原来Xj(j=1,2,…,p)在诸主成分Fi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p):
l(Zi,Xj)=λiaij(i=1,2,…,m;j=1,2,…,p) (10)
若用F1,F2,…,Fm表示原变量X1,X2,…,Xp的m个主成分,即:
其具体流程图如图1所示。
(2)基于k-means聚类方法的数据集聚类
k-means算法是一种基于样本间相似性度量的间接聚类方法,属于非监督学习方法中的一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。
k-means聚类方法基本公式为:
式中,dist(xi,xj)表示数据点xi,xj的欧氏距离;D表示数据对象的属性个数;xi,d,xj,d分别表示数据点xi,xj的数据分量;Ck表示第k类簇的类簇中心;Centerk表示第k类簇的更新类簇中心;J表示误差平方和准则函数;R为定义的类簇域半径;
使用k-means聚类方法,将使用主成分分析法得到的数据集进行聚类,并剔除正常数据,具体聚类过程如下:
(1)输入初始数据集X,设置类簇个数k;
(2)在数据集X中随机选择k个点作为初始聚类中心;
(3)采用式(12)计算各点到聚类中心的距离;
(4)依据距离指派数据点到最相似的类簇;
(5)采用式(13)更新类簇中心;
(6)重复步骤(3)至(5),当准则函数(14)收敛时,停止聚类,并输出聚类结果;否则返回步骤(3)继续运算。
其具体流程图如图2所示。
(3)基于局部异常因子检测算法(LOF)与k-means方法相结合进行精确数据处理;
Nk(p)={q∈D\{p}|d(p,q)≤k_dist(p)} (16)
reach_distk(p,q)=max{k_dist(q),d(p,q)} (17)
式中,Nk(p)为所有到p的距离不超过k距离的对象集合;d(p,q)为p,q两点的欧氏距离;k_dist(p)为对象p的k距离邻域;reach_distk(p,q)为对象p关于对象q的可达距离;lrdMinpts(p)为对象p的局部可达密度;Nk(p)为所有到p的距离不超过k距离的对象集合;LOFk(p)表示点p的局部离群因子LOF;
具体过程如下:
(1)设置近邻个数k;
(2)设置目标离群点个数m;
(3)输入数据集;
(4)计算每个对象的距离矩阵;
(5)计算任意点p的k距离k_dist(p);
(6)计算任意点p的k距离邻域Nk(p);
(7)计算p点的可达密度;
(8)计算局部离群因子LOF;
(9)对所有点的LOF值进行排序,输出top(m)个离群点;
其具体流程图如图3所示。
本方法调用k均值聚类算法以提取候选集,其中判断规则为:每类中的对象与类中心的距离如果大于等于该类半径R,则相应的数据对象被提取出来,作为离群点候选集。
为提高算法的检测精度,本文提出的方法在进行离群点的判断过程中,必须满足两个条件:
(1)离群点筛选条件
式中,pij为对PCA方法处理之后的数据集进行k均值聚类后的第i类元素中的第j项;ni为第i类中含有的数据对象个数;Centerk为聚类的中心;R为聚类的域半径;
(2)离群因子限制条件
LOF(pij)∈LOF(p)top(m) (21)
式中,m为预先设定的检测离群点的个数阈值;
综合两种算法,具体过程如下:
(1)输入原始数据集,离群点预设最少个数m;
(2)PCA降维处理;
(3)降维后的数据集进行k均值聚类;
(4)计算每个类簇的数据个数ni
(5)如果类簇数据个数ni<m,则直接保留该类簇,保留后的类簇包含的数据集记为D;如果ni>m则需根据根据式(20),判断类簇内每个点到类簇中心Centerk的距离是否大于该类簇半径,如果大于,则与数据集D合并成为“离群点候选数据集”D',如果小于,则判断为正常数据,剔除;
(6)运用局部异常因子检测算法进行计算并且排序所有数据点的离群因子,离群因子的筛选结果即实现了非技术性损失的检测。
其具体流程图如图5所示。
(4)检测准确度的评价
异常用电模式检测在本质上是二元分类问题,即将所有的用户分为两类:正常用户和异常用户。混淆矩阵是评估分类器可信度的一个基本工具。对于二元分类问题,附图4所示的混淆矩阵显示了分类器所有可能的分类结果,其中行(positive/negative)对应于对象实际所属的类别,列(true/false)表示分类器预测的类别。
其中FP是第一类错误,FN是第二类错误。在混淆矩阵的基础上可以推导出多个分类器的评价指标:
查准率PRE=TP/(TP+FP),表示将正例分对的概率;
漏报率FNR=FN/(FN+TP),表示将正例错分为负例的概率;
真阳性率TPR=TP/(TP+FN),表示在所有实际为阳性的样本中,被正确地判断为阳性之比率;
伪阳性率FPR=FP/(FP+TN),表示在所有实际为阴性的样本中,被错误地判断为阳性之比率。
以上指标从不同方面度量分类结果,这些指标存在两方面的问题。首先,当数据集中的正负样本比例不平衡时这些指标存在严重的问题。以正负样本比例为99:1的极端情况为例,这种情况下,某个分类器只需要将所有样本都判定为正,则分类的准确率就可达99%,但此时的评价指标并不具有参考意义。其次,这些都属于静态指标,而有些分类器的输出结果并不是简单的0或1,而是给出对象属于某个类别的程度,这些分类器取不同的阈值就可以得到不同的分类结果需要用动态的指标来衡量分类器的整体可信度。
ROC(receiver operating characteristic)曲线描述混淆矩阵中FPR和TPR两个指标增长速率的相对关系。对于二元分类模型输出的连续数值,将大于阈值的样本划为正类,小于阈值的样本则划为负类。减小阀值固然能识别出更多的正类,即提高了TPR,但同时也会将更多的负样本划为正类,即提高了FPR。引入ROC曲线即可形象化这一变化过程。ROC曲线上每一个点对应分类器取某个阈值时分类结果的混淆矩阵。
在ROC空间坐标中,点(0,1)表示理想分类器,ROC曲线越接近点(0,1)表示分类效果越好。曲线下面积(area under curve,AUC)用一个数值来表示分类器的好坏,AUC的数值就是ROC曲线下方部分面积的大小,较大的AUC代表了较好的性能表现,AUC=1对应理想分类器。
(5)用matlab软件对算例进行仿真分析;
(5-1)确定算例以及其必要特征;
本发明采用的初始数据集为某变电站3000个电力用户6个月的用电负荷数据,采样间隔为15分钟。用电负荷与用电量两种指标可以相互转化,两者在反映用户用电规律方面本质上是一致的,也可以采用用电量作为描述用户用电模式的特征指标。利用MATLAB7.10进行仿真。3000个电力用户包含2965个正常用户和35个异常用户,异常用户比例为1.67%
(5-2)采用matlab软件编写函数对算例进行仿真分析
通过仿真可知该模型能快速检测出异常用户,即非技术性损失源,在满足准确性和经济性的基础上实现最大准确度的检测出非技术性损失。
以上所述的实施算例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (8)

1.一种基于非监督学习的智能电网非技术性损失检测方法,其特征在于:包括如下步骤:
步骤(1)基于一个用电行为可触发多种用电数据;选取多种表征用电行为的用电原始数据作为原始指标数据集,使用主成分分析方法将原始数据集进行维度规约;
步骤(2)使用基于k-means聚类方法,将步骤(1)使用主成分分析法得到的数据集进行聚类,并剔除正常数据,获得异常数据;
步骤(3)基于局部异常因子检测算法对步骤(2)中异常数据进行精确数据处理,实现异常数据的准确分离,完成智能电网非技术性损失检测。
2.根据权利要求1所述的一种基于非监督学***均负荷与所有月平均负荷的比率指标,以及每个用户的负荷序列与所有用户负荷中值序列的相关系数指标。
3.根据权利要求2所述的一种基于非监督学习的智能电网非技术性损失检测方法,其特征在于:所述趋势指标计算步骤如下:
1)输入电力用户月平均负荷数据集X;
2)计算每个用户负荷时间序列A的n点简单移动平均序列;
3)统计序列A和序列F在各时间点的相对大小,若A在F之下的有u段,每段包含的点数分别为a1,a2,…,au,A在F之上的有v段,每段包含的点数分别为b1,b2,…,bv,则有下述的指标计算:
4)计算上升趋势指标tra和下降趋势指标trb
4.根据权利要求2所述的一种基于非监督学习的智能电网非技术性损失检测方法,其特征在于:所述变动性指标是指用户用电模式的首位差异度量;包括:
1)前r个月与后r个月平均负荷的差值
式中,xn1和xn2分别为前r个月与后r个月的负荷;
2)前r个月与后r个月离散傅里叶变换的系数序列的差值序列的模
式中,yn1和yn2分别为前后r个月的离散傅里叶变换的系数序列。
5.根据权利要求2所述的一种基于非监督学习的智能电网非技术性损失检测方法,其特征在于:所述波动性指标为:
1)每个用户H个月负荷序列的标准差sd;
2)前r月负荷序列的标准差bsd_r;
3)后r月负荷序列的标准差esd_r。
6.根据权利要求1所述的一种基于非监督学习的智能电网非技术性损失检测方法,其特征在于:在步骤1中,使用主成分分析方法将原始指标数据集进行维度规约,具体过程如下:
(1)计算协方差矩阵
假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵:
记原变量指标为:
x1,x2,…,xp (6)
计算协方差矩阵:
∑=(Sij)p×p (7)
式中,
(2)求出Σ的特征值λi及相应的正交化单位特征向量ai
Σ的前m个较大的特征值λ1≥λ2≥…≥λm>0就是前m个主成分对应的方差,λ1对应的单位特征向量ai就是主成分Fi关于原变量的系数,则原变量的第i个主成分Fi为:
Fi=aiX (8)
(3)选择主成分
最终要选择几个主成分,即F1,F2,…,Fm中m的确定是通过方差信息累计贡献率G(m)来确定:
当累计贡献率大于85%时,就认为能够反映原来变量的信息,对应的m就是抽取的前m个主成分;
(4)计算主成分载荷
主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度,原来Xj(j=1,2,…,p)在诸主成分Fi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p):
l(Zi,Xj)=λiaij(i=1,2,…,m;j=1,2,…,p) (10)
若用F1,F2,…,Fm表示原变量X1,X2,…,Xp的m个主成分,即:
7.根据权利要求1所述的一种基于非监督学习的智能电网非技术性损失检测方法,其特征在于:在步骤2中,k-means聚类方法基本公式为:
式中,dist(xi,xj)表示数据点xi,xj的欧氏距离;D表示数据对象的属性个数;xi,d,xj,d分别表示数据点xi,xj的数据分量;Ck表示第k类簇的类簇中心;Centerk表示第k类簇的更新类簇中心;J表示误差平方和准则函数;R为定义的类簇域半径;
使用k-means聚类方法,将使用主成分分析法得到的数据集进行聚类,并剔除正常数据,具体聚类过程如下:
(1)输入初始数据集X,设置类簇个数k;
(2)在数据集X中随机选择k个点作为初始聚类中心;
(3)采用式(12)计算各点到聚类中心的距离;
(4)依据距离指派数据点到最相似的类簇;
(5)采用式(13)更新类簇中心;
(6)重复步骤(3)至(5),当准则函数(14)收敛时,停止聚类,并输出聚类结果;否则返回步骤(3)继续运算。
8.根据权利要求1所述的一种基于非监督学习的智能电网非技术性损失检测方法,其特征在于:在步骤3中,局部异常因子检测算法的精确描述建立在以下几个公式基础之上:
Nk(p)={q∈D\{p}|d(p,q)≤k_dist(p)} (16)
reach_distk(p,q)=max{k_dist(q),d(p,q)} (17)
式中,Nk(p)为所有到p的距离不超过k距离的对象集合;d(p,q)为p,q两点的欧氏距离;k_dist(p)为对象p的k距离邻域;reach_distk(p,q)为对象p关于对象q的可达距离;lrdMinpts(p)为对象p的局部可达密度;Nk(p)为所有到p的距离不超过k距离的对象集合;LOFk(p)表示点p的局部离群因子LOF;
具体过程如下:
(1)设置近邻个数k;
(2)设置目标离群点个数m;
(3)输入数据集;
(4)计算每个对象的距离矩阵;
(5)计算任意点p的k距离k_dist(p);
(6)计算任意点p的k距离邻域Nk(p);
(7)计算p点的可达密度;
(8)计算局部离群因子LOF;
(9)对所有点的LOF值进行排序,输出top(m)个离群点;
在此调用k均值聚类算法以提取候选集,其中判断规则为:每类中的对象与类中心的距离如果大于等于该类半径R,则相应的数据对象被提取出来,作为离群点候选集;
另,为提高算法的检测精度,在进行离群点的判断过程中,必须满足两个条件:
(1)离群点筛选条件
式中,pij为对PCA方法处理之后的数据集进行k均值聚类后的第i类元素中的第j项;ni为第i类中含有的数据对象个数;Centerk为聚类的中心;R为聚类的域半径;
(2)离群因子限制条件
LOF(pij)∈LOF(p)top(m) (21)
式中,m为预先设定的检测离群点的个数阈值;
综合两种算法,具体过程如下:
(1)输入原始数据集,离群点预设最少个数m;
(2)PCA降维处理;
(3)降维后的数据集进行k均值聚类;
(4)计算每个类簇的数据个数ni
(5)如果类簇数据个数ni<m,则直接保留该类簇,保留后的类簇包含的数据集记为D;如果ni>m则需根据根据式(20),判断类簇内每个点到类簇中心Centerk的距离是否大于该类簇半径,如果大于,则与数据集D合并成为“离群点候选数据集”D',如果小于,则判断为正常数据,剔除;
(6)运用局部异常因子检测算法进行计算并且排序所有数据点的离群因子,离群因子的筛选结果即实现了非技术性损失的检测。
CN201910066167.0A 2019-01-24 2019-01-24 一种基于非监督学习的智能电网非技术性损失检测方法 Pending CN109740694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910066167.0A CN109740694A (zh) 2019-01-24 2019-01-24 一种基于非监督学习的智能电网非技术性损失检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910066167.0A CN109740694A (zh) 2019-01-24 2019-01-24 一种基于非监督学习的智能电网非技术性损失检测方法

Publications (1)

Publication Number Publication Date
CN109740694A true CN109740694A (zh) 2019-05-10

Family

ID=66365880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910066167.0A Pending CN109740694A (zh) 2019-01-24 2019-01-24 一种基于非监督学习的智能电网非技术性损失检测方法

Country Status (1)

Country Link
CN (1) CN109740694A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264272A (zh) * 2019-06-21 2019-09-20 山东师范大学 一种移动互联网劳务众包平台任务最优定价预测方法、装置及***
CN110288383A (zh) * 2019-05-31 2019-09-27 国网上海市电力公司 基于用户属性标签的群体行为配电网用电异常检测方法
CN110298552A (zh) * 2019-05-31 2019-10-01 国网上海市电力公司 一种结合历史用电特征的配电网个体功率异常检测方法
CN110309884A (zh) * 2019-07-05 2019-10-08 国网四川省电力公司经济技术研究院 基于泛在电力物联网体系的用电数据异常识别***
CN110852384A (zh) * 2019-11-12 2020-02-28 武汉联影医疗科技有限公司 医学影像质量检测方法、装置和存储介质
CN111125470A (zh) * 2019-12-25 2020-05-08 成都康赛信息技术有限公司 一种提升异常数据挖掘筛选的方法
CN111175626A (zh) * 2020-03-20 2020-05-19 广东电网有限责任公司 一种开关柜绝缘状态异常检测方法
CN112000655A (zh) * 2020-08-26 2020-11-27 广东电网有限责任公司广州供电局 一种变压器负荷数据预处理方法、装置和设备
CN112101765A (zh) * 2020-09-08 2020-12-18 国网山东省电力公司菏泽供电公司 一种配电网运行指标数据异常数据处理方法及***
CN112230056A (zh) * 2020-09-07 2021-01-15 国网河南省电力公司电力科学研究院 基于OFMMK-Means聚类和复合分位数回归多谐波源贡献计算方法
CN112380992A (zh) * 2020-11-13 2021-02-19 上海交通大学 一种加工过程监控数据准确性评估与优化方法及装置
CN112464289A (zh) * 2020-12-11 2021-03-09 广东工业大学 一种隐私数据的清洗方法
CN112966567A (zh) * 2021-02-05 2021-06-15 深圳市品致信息科技有限公司 一种基于pca和聚类和k近邻的坐标定位方法、***、存储介质、终端
CN113723497A (zh) * 2021-08-26 2021-11-30 广西大学 基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质
CN115511106A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 基于时序数据生成训练数据的方法、设备和可读存储介质
CN116910593A (zh) * 2023-09-14 2023-10-20 北京豪迈生物工程股份有限公司 用于化学发光仪器的信号噪声抑制方法及***
CN117808497A (zh) * 2024-03-01 2024-04-02 清华四川能源互联网研究院 基于距离和方向特征的电力碳排放异常检测模块和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106707233A (zh) * 2017-03-03 2017-05-24 广东工业大学 一种基于离群点检测的多边定位方法及装置
CN108593990A (zh) * 2018-06-04 2018-09-28 国网天津市电力公司 一种基于电能用户用电行为模式的窃电检测方法和应用
CN109146705A (zh) * 2018-07-02 2019-01-04 昆明理工大学 一种用电特征指标降维与极限学习机算法进行窃电检测的方法
CN109255726A (zh) * 2018-09-07 2019-01-22 中国电建集团华东勘测设计研究院有限公司 一种混合智能技术的超短期风功率预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106707233A (zh) * 2017-03-03 2017-05-24 广东工业大学 一种基于离群点检测的多边定位方法及装置
CN108593990A (zh) * 2018-06-04 2018-09-28 国网天津市电力公司 一种基于电能用户用电行为模式的窃电检测方法和应用
CN109146705A (zh) * 2018-07-02 2019-01-04 昆明理工大学 一种用电特征指标降维与极限学习机算法进行窃电检测的方法
CN109255726A (zh) * 2018-09-07 2019-01-22 中国电建集团华东勘测设计研究院有限公司 一种混合智能技术的超短期风功率预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘广聪: ""一种基于离群点检测的定位算法"", 《计算机应用于软件》 *
孙毅等: ""基于高斯核函数改进的电力用户用电数据离群点检测方法"", 《电网技术》 *
庄池杰等: ""基于无监督学习的电力用户异常用电模式检测"", 《中国电机工程学报》 *
陶晶: ""基于聚类和密度的离群点检测方法"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288383A (zh) * 2019-05-31 2019-09-27 国网上海市电力公司 基于用户属性标签的群体行为配电网用电异常检测方法
CN110298552A (zh) * 2019-05-31 2019-10-01 国网上海市电力公司 一种结合历史用电特征的配电网个体功率异常检测方法
CN110288383B (zh) * 2019-05-31 2024-02-02 国网上海市电力公司 基于用户属性标签的群体行为配电网用电异常检测方法
CN110298552B (zh) * 2019-05-31 2023-12-01 国网上海市电力公司 一种结合历史用电特征的配电网个体功率异常检测方法
CN110264272A (zh) * 2019-06-21 2019-09-20 山东师范大学 一种移动互联网劳务众包平台任务最优定价预测方法、装置及***
CN110309884A (zh) * 2019-07-05 2019-10-08 国网四川省电力公司经济技术研究院 基于泛在电力物联网体系的用电数据异常识别***
CN110852384B (zh) * 2019-11-12 2023-06-27 武汉联影医疗科技有限公司 医学影像质量检测方法、装置和存储介质
CN110852384A (zh) * 2019-11-12 2020-02-28 武汉联影医疗科技有限公司 医学影像质量检测方法、装置和存储介质
CN111125470A (zh) * 2019-12-25 2020-05-08 成都康赛信息技术有限公司 一种提升异常数据挖掘筛选的方法
CN111175626A (zh) * 2020-03-20 2020-05-19 广东电网有限责任公司 一种开关柜绝缘状态异常检测方法
CN112000655A (zh) * 2020-08-26 2020-11-27 广东电网有限责任公司广州供电局 一种变压器负荷数据预处理方法、装置和设备
CN112230056B (zh) * 2020-09-07 2022-04-26 国网河南省电力公司电力科学研究院 一种基于OFMMK-Means聚类和复合分位数回归多谐波源贡献计算方法
CN112230056A (zh) * 2020-09-07 2021-01-15 国网河南省电力公司电力科学研究院 基于OFMMK-Means聚类和复合分位数回归多谐波源贡献计算方法
CN112101765A (zh) * 2020-09-08 2020-12-18 国网山东省电力公司菏泽供电公司 一种配电网运行指标数据异常数据处理方法及***
CN112380992B (zh) * 2020-11-13 2022-12-20 上海交通大学 一种加工过程监控数据准确性评估与优化方法及装置
CN112380992A (zh) * 2020-11-13 2021-02-19 上海交通大学 一种加工过程监控数据准确性评估与优化方法及装置
CN112464289A (zh) * 2020-12-11 2021-03-09 广东工业大学 一种隐私数据的清洗方法
CN112966567A (zh) * 2021-02-05 2021-06-15 深圳市品致信息科技有限公司 一种基于pca和聚类和k近邻的坐标定位方法、***、存储介质、终端
CN113723497A (zh) * 2021-08-26 2021-11-30 广西大学 基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质
CN115511106A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 基于时序数据生成训练数据的方法、设备和可读存储介质
CN115511106B (zh) * 2022-11-15 2023-04-07 阿里云计算有限公司 基于时序数据生成训练数据的方法、设备和可读存储介质
CN116910593B (zh) * 2023-09-14 2023-11-17 北京豪迈生物工程股份有限公司 用于化学发光仪器的信号噪声抑制方法及***
CN116910593A (zh) * 2023-09-14 2023-10-20 北京豪迈生物工程股份有限公司 用于化学发光仪器的信号噪声抑制方法及***
CN117808497A (zh) * 2024-03-01 2024-04-02 清华四川能源互联网研究院 基于距离和方向特征的电力碳排放异常检测模块和方法
CN117808497B (zh) * 2024-03-01 2024-05-14 清华四川能源互联网研究院 基于距离和方向特征的电力碳排放异常检测模块和方法

Similar Documents

Publication Publication Date Title
CN109740694A (zh) 一种基于非监督学习的智能电网非技术性损失检测方法
Wang et al. Detection of power grid disturbances and cyber-attacks based on machine learning
CN104809658B (zh) 一种低压配网台区线损的快速分析方法
CN108133225A (zh) 一种基于支持向量机的覆冰闪络故障预警方法
CN102955902B (zh) 雷达模拟设备可信度的评估方法及评估***
CN106154163B (zh) 一种电池寿命状态识别方法
CN109165819B (zh) 一种基于改进AdaBoost.M1-SVM的有源配电网可靠性快速评估方法
CN109039503A (zh) 一种频谱感知方法、装置、设备及计算机可读存储介质
CN112735097A (zh) 一种区域滑坡预警方法及***
CN109446812A (zh) 一种嵌入式***固件安全分析方法及***
CN104881735A (zh) 用于支撑智慧城市运行管理的智能电网大数据挖掘***及方法
CN108805193A (zh) 一种基于混合策略的电力缺失数据填充方法
Hussain et al. A novel unsupervised feature‐based approach for electricity theft detection using robust PCA and outlier removal clustering algorithm
CN111242161A (zh) 一种基于智能学习的非侵入式非居民用户负荷辨识方法
CN113780684A (zh) 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法
CN111562541B (zh) 一种应用cart算法实现电能表检测数据管理的软件平台
CN115081933B (zh) 一种基于改进谱聚类的低压用户拓扑构建方法和***
Cao et al. Density-based fuzzy C-means multi-center re-clustering radar signal sorting algorithm
CN112463848A (zh) 检测用户异常行为的检测方法、***、装置和存储介质
Yin et al. Non-intrusive load monitoring by load trajectory and multi-feature based on DCNN
Frank et al. Extracting operating modes from building electrical load data
Zhou et al. Credit card fraud identification based on principal component analysis and improved AdaBoost algorithm
CN114240041A (zh) 配网台区精益化线损分析方法及***
Li et al. Hierarchical clustering driven by cognitive features
CN116260565A (zh) 芯片电磁侧信道分析方法、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510