CN114118460A - 基于变分自编码器的低压台区线损率异常检测方法及装置 - Google Patents

基于变分自编码器的低压台区线损率异常检测方法及装置 Download PDF

Info

Publication number
CN114118460A
CN114118460A CN202111306257.6A CN202111306257A CN114118460A CN 114118460 A CN114118460 A CN 114118460A CN 202111306257 A CN202111306257 A CN 202111306257A CN 114118460 A CN114118460 A CN 114118460A
Authority
CN
China
Prior art keywords
data
line loss
matrix
loss rate
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111306257.6A
Other languages
English (en)
Inventor
朱正谊
许洪华
朱红
马洲俊
钱欣
周冬旭
施萱轩
徐荆州
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd filed Critical Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority to CN202111306257.6A priority Critical patent/CN114118460A/zh
Publication of CN114118460A publication Critical patent/CN114118460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开一种基于变分自编码器的低压台区线损率异常检测方法及装置,利用随机矩阵理论对线损数据进行相关性分析;筛选出线损率影响因子,构建低压台区线损率影响因子指标体系;建立基于变分自编码器的线损率异常检测模型,在隐空间内对输入特征进行建模;采样出异常特征,将产生重构数据的重构概率与阈值相比较对异常值进行识别。本发明实现了对海量线损数据的异常检测,能够为异常台区识别提供参考,同时为低压台区线损精细化管理提供了新的思路。

Description

基于变分自编码器的低压台区线损率异常检测方法及装置
技术领域
本发明涉及电力配电领域,具体涉及一种基于变分自编码器的低压台区线损率异常检测方法及装置。
背景技术
随着社会进步,电能的适用范围越来越广,同时其使用情况也是评估国家发展情况的重要标杆之一。电能在传输过程中,会通过各种电力元件输送给用户,由于在这些电力元器件中存在阻抗,因此电能在到达用户的过程中会损失一部分有功,这部分有功损失就是线损。
低压台区线损率的高低反映着线损管理水平的高低,它作为线损管理的重要组成部分,降低线损率、节约运行成本、使电网可以经济运行是线损管理部门的长期挑战。对线损率进行异常检测的研究,才能对其进行精细化管理,及时锁定异常台区,排查异常原因,提供可靠的故障维护措施,以更好的进行计划管理和设备管理。
传统的异常检测算法可以分为两大类:基于概率统计的异常检测和基于邻近度的异常检测。基于概率统计的异常检测基本步骤为先假设样本数据服从一定的分布,再计算每个点符合该分布的概率,得出异常数据。基于邻近度的异常检测适用于高维数据,但随着数据维度的升高,基于邻近度的异常检测计算复杂度和时间复杂度增加。
近年来,随着深度学习的日益发展,为研究思路开辟了一条新路径。深度学习是用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术,其基本特点是模仿大脑的神经元之间传递,处理信息的模式。目前,深度学习已经在语音识别,自然语言处理,人脸识别,游戏开发等方面取得了优秀的实践结果。其中,变分自编码器模型将深度学习与概率统计相结合,是无监督学习中的一种重要模型。变分自编码器通过重构概率最小化以达到异常检测的目的,利用两个神经网络建立两个概率密度分布模型:一个用于原始输入数据的变分推断,生成隐变量的变分概率分布,称为推断网络;另一个根据生成的隐变量变分概率分布,还原生成原始数据的近似概率分布,称为生成网络。
发明内容
针对现有技术中存在的问题,本发明提供了一种基于变分自编码器的低压台区线损率异常检测方法及装置,利用随机矩阵理论对线损数据进行相关性分析,筛选出线损率影响因子,构建低压台区线损率影响因子指标体系,然后建立基于变分自编码器的线损率异常检测模型,在隐空间内对输入特征进行建模,采样出异常特征,将产生重构数据的重构概率与阈值相比较对异常值进行识别。本发明实现了对海量线损数据的异常检测,能够为异常台区识别提供参考,同时为低压台区线损精细化管理提供了新的思路。
本发明提出一种基于变分自编码器的低压台区线损率异常检测方法,所述方法包括以下步骤:
S1:输入台区运行数据,利用随机矩阵理论对线损数据进行相关性分析;
S2:筛选出线损率影响因子,构建低压台区线损率影响因子指标体系;
S3:建立基于变分自编码器的线损率异常检测模型,在隐空间内对输入特征进行建模;
S4:采样出异常特征,将产生重构数据的重构概率与阈值相比较对异常值进行识别。
优选地,所述台区运行数据包括:城网农网类型、运行容量、居民户数、非居民户数、居民容量、非居民容量、综合倍率、配变户均供电容量、月平均负载率、理论线损率、日功率因数、日最大负载率、日有功电量、日无功电量、总供电量、日上网电量、日发电量。
优选地,所述步骤S1包括:
生成状态数据矩阵Zn1,该矩阵每一行对应每一个台区i天的线损率;
选取一个影响因素,形成影响因素矩阵Zn2,该矩阵每一行表示该影响因素i天的数值;
引入随机矩阵N,该矩阵为非负的随机数矩阵,与矩阵Zn2形式相同,服从正态分布,构建实验矩阵Z和对比矩阵ZN如下所示:
Figure BDA0003340238840000021
对两个矩阵分别用设定的滑动窗口进行采样,滑动窗口行数与矩阵Z相同,对每次采样窗口中的数据进行平均谱半径的计算,直到滑动窗口经过矩阵中全部数据,形成平均谱半径序列。
优选地,其特征在于,
平均谱半径差表示为:
Figure BDA0003340238840000031
KMSR,Z(N)(t),KMSR,Z(t)分别表示实验矩阵Z平均谱半径曲线和对比矩阵ZN平均谱半径曲线,对平均谱半径差值进行积分计算得到相关特性指标SMSR
Figure BDA0003340238840000032
SMSR能够定性表示影响因素与线损率的相关程度。
优选地,所述变分自编码器模型是一种包含隐变量的生成模型,假设在高维空间z中存在隐变量z可以对Z中的先验P(z)采样,存在一组确定性函数f(z;θ),其中θ为参数向量,其目标在于优化θ使得z在从P(z)中采样时可以更大概率的得到近似于X的数据,其公式表达为:P(X)=∫P(X|z;θ)P(z)dz,
优化上述模型,转化为使Q(z|x)的分布N(z|μ(x;θ),σ(x;θ))尽可能逼近P(z)的分布N(0,1),其中
Q(z|x)=N(z|μ(x;θ),σ(x;θ))
μ和σ为任意确定性函数,参数θ从数据中学习得到。
优选地,所述步骤S3包括:
S31:确定变分自编码器的损失函数,根据公式
Figure BDA0003340238840000033
将二进制交叉熵与KL散度作为变分自编码器的损失函数对模型进行优化,其中,μ和σ为任意确定性函数;
S32:使用构建好的变分自编码器模型对输入数据进行训练,通过训练得到变分自编码器的默认参数σ(i),μ(i);
S33:根据σ(i),μ(i)得到关于z的正态分布N(μ(i),σ(i))并从中抽取样本L;
S34:对抽取样本中的每一个数据z进行解码操作得到X′,并将其和X相比较,计算重构概率并在此基础上设置阈值。
优选地,所述步骤S4包括:
将测试集数据输入到训练好的变分自编码器模型中,并根据步骤S34中得到的阈值,结合公式
Figure BDA0003340238840000041
对测试集的数据进行分类,重构概率大于阈值的为正常数据,小于阈值的为异常数据。
优选地,所述步骤S4进一步地包括:
将线损影响因子指标体系与线损率作为变分自编码器模型的输入数据进行训练,模型完成训练后将测试集输入,得到异常检测结果。
优选地,所述步骤S4进一步包括:
所述异常检测模型对每个线损样本进行编码与解码操作,根据样本中相关数据的变化情况动态的得到重构概率,将重构概率与阈值相比较,更为准确的得到异常数据信息。
本发明还提出一种基于变分自编码器的低压台区线损率异常检测装置,包括:
相关性分析模块,输入台区运行数据,利用随机矩阵理论对线损数据进行相关性分析;
指标体系构建模块,与相关性分析模块相连,筛选出线损率影响因子,构建低压台区线损率影响因子指标体系;
模型构建模块,与指标体系构建模块相连,建立基于变分自编码器的线损率异常检测模型,在隐空间内对输入特征进行建模;
异常值识别模块,与模型构建模块相连,采样出异常特征,将产生重构数据的重构概率与阈值相比较对异常值进行识别。
本发明的有益效果在于,与现有技术相比,本发明中一种基于变分自编码器的低压台区线损率异常检测方法能够以现有的用电信息***、营销***等的实际运行数据为依据,利用变分自编码器实现了对海量线损数据的异常检测,能够为异常台区识别提供参考,同时为低压台区线损精细化管理提供了新的思路。
附图说明
图1为本发明中基于变分自编码器的低压台区线损率异常检测方法的流程图;
图2为本发明中有源、无源台区日线损率与相关特征相关性曲线图;
图3为本发明中基于VAE的有源、无源台区日线损率异常检测结果示意图;
图4为本发明中变分自编码器模型图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于变分自编码器的低压台区线损率异常检测方法,包括以下步骤:
S1:输入台区运行数据,利用随机矩阵理论对线损数据进行相关性分析;
其中台区运行数据包括:城网农网类型、运行容量、居民户数、非居民户数、居民容量、非居民容量、综合倍率、配变户均供电容量、月平均负载率、理论线损率、日功率因数、日最大负载率、日有功电量、日无功电量、总供电量、日上网电量、日发电量。
根据随机矩阵关联性分析原理,结合低压台区数据特点,生成矩阵如式(1),该矩阵每一行对应每一个台区i天的线损率,使用m个台区进行计算,即矩阵有m行i列:
Figure BDA0003340238840000051
其中Zn1表示状态数据矩阵,zmi表示第m个台区第i天的线损率。对特征数据也做同样处理,选取一个影响因素,形成影响因素矩阵,该矩阵每一行为该影响因素i天的数值,使用m个台区进行计算,生成矩阵如式(2):
Figure BDA0003340238840000061
其中Zn2表示因素数据矩阵,z’mi表示第m个台区第i天的线损率的影响因素。
同时,引入随机矩阵N,该矩阵为非负的随机数矩阵,与矩阵Zn2形式相同,服从正态分布。构建实验矩阵Z和对比矩阵ZN如式(3)所示:
Figure BDA0003340238840000062
对两个矩阵分别用设定的滑动窗口进行采样,滑动窗口行数与矩阵Z相同,对每次采样窗口中的数据进行平均谱半径的计算,直到滑动窗口经过矩阵中全部数据,形成平均谱半径序列。
平均谱半径计算方法如下:
若矩阵
Figure BDA00033402388400000621
行为N维,列为T维,其中每个元素为满足独立同分布的随机变量:
Figure BDA0003340238840000063
将各个采样时刻的量测数据向量按照时间顺序排列,可以形成一个矩阵
Figure BDA0003340238840000064
该矩阵即为大数据分析的数据源。
在数据源Ω中,可以采用一个NW×TW的分离窗来获取生数据矩阵
Figure BDA0003340238840000065
Figure BDA0003340238840000066
中的元素按式(6)进行标准化处理,得到标准非Hermitian矩阵
Figure BDA0003340238840000067
Figure BDA0003340238840000068
其中,
Figure BDA0003340238840000069
Figure BDA00033402388400000610
Figure BDA00033402388400000611
的均值;
Figure BDA00033402388400000612
Figure BDA00033402388400000613
的标准差;
Figure BDA00033402388400000614
Figure BDA00033402388400000615
的均值且有
Figure BDA00033402388400000616
Figure BDA00033402388400000617
Figure BDA00033402388400000618
的标准差且有
Figure BDA00033402388400000619
T表示分离窗的列数。
对(6)中的矩阵进行计算,求取矩阵
Figure BDA00033402388400000620
Figure BDA0003340238840000071
其中,U为哈尔酋矩阵,
Figure BDA0003340238840000072
表示矩阵
Figure BDA0003340238840000073
的奇异值等价矩阵。
对于L个任意的标准非Hermitian矩阵
Figure BDA0003340238840000074
其矩阵积为
Figure BDA0003340238840000075
Figure BDA0003340238840000076
进行单位化处理,得到标准矩阵
Figure BDA0003340238840000077
Figure BDA0003340238840000078
其中,
Figure BDA0003340238840000079
N表示分离窗的行数。
当N与T趋于无穷且c=N/T不变时,
Figure BDA00033402388400000710
的特征值经验谱分布函数为:
Figure BDA00033402388400000711
其中,c∈(0,1],λ为
Figure BDA00033402388400000712
的特征值。
可见,根据单环定理,
Figure BDA00033402388400000713
的特征值分布于一个环内,外半径为1,内半径为(1-c)L/2。平均谱半径的具体定义如下式:
Figure BDA00033402388400000714
其中,λi(i=1,2,…,N)是矩阵的所有特征值,|λi|为λi在复平面上的分布半径。得到平均谱半径差为:
Figure BDA00033402388400000715
KMSR,Z(N)(t),KMSR,Z(t)分别表示实验矩阵Z平均谱半径曲线和对比矩阵ZN平均谱半径曲线。
两条曲线之差代表了关联特性的大小,差值越大,相关性就越高,反之则相关性越低。为更准确的对相关性进行表达,对平均谱半径差值进行积分计算得到相关特性指标SMSR
Figure BDA00033402388400000716
SMSR能够定性表示影响因素与线损率的相关程度。
S2:筛选出线损率影响因子,构建低压台区线损率影响因子指标体系。
根据SMSR所表示的影响因素与线损率的相关程度,按照实际需求筛选出线损率影响因子,构建低压台区线损率影响因子指标体系。
S3:建立基于变分自编码器的线损率异常检测模型,在隐空间内对输入特征进行建模。
变分自编码器模型是一种包含隐变量的生成模型,假设在高维空间z中存在隐变量z可以对z中的先验P(z)采样。P(z)表示Z的先验概率。
存在一组确定性函数f(z;θ),其中θ为参数向量,其目标在于优化θ使得z在从P(z)中采样时可以更大概率的得到近似于X的数据,即在整个生成过程中最大程度地提高训练集中每个X的概率,其公式表达为:
P(X)=∫P(X|z;θ)P(z)dz (13)
其中,由分布∫P(X|z;θ)代替函数f(z;θ)。在变分自编码器中,数据输出分布通常为高斯分布,如P(X|z;θ)=N(X|f(z;θ),σ2*I),即均值f(z;θ)和协方差,协方差等于单位矩阵I乘以标量σ的平方,σ为超参数。
通过使用高斯分布,可以利用梯度下降等优化算法使f(z;θ)接近X以增加P(z)。
为使P(x)达到最大以提高得到数据近似于X的概率,需知道隐变量所服从的分布情况,但正常情况下该分布无法得知,且极有可能所服从的分布函数非常复杂,因此通过映射来使简单的分布接近于复杂的分布。
假设f(z;θ)由多层网络结构组成,则此网络结构前几层的功能为将简单分布通过映射接近于隐变量的分布,后几层的功能为将隐变量作为输入来生成数据。基于该思想,为简化问题则直接令P(z)=N(0,I),P(z)为标准正态分布。
为明确定义隐变量z以更好采样,通过编码网络对输入样本进行训练以得到隐变量的分布情况。利用函数Q(z|x)来实现编码器的作用,以达到在明确一个X值的条件下,获得使输出数据无限接近于X的z的分布的目的。
利用KL散度使Q(z|x)逼近于理想状态P(z|x),其表达式如下:
Figure BDA0003340238840000091
使用贝叶斯公式将P(z|x)展开获得公式(15):
Figure BDA0003340238840000092
将公式(15)化简得:
Figure BDA0003340238840000093
由上式可以看出,需要log(P(x))取到最大值且D[Q(z|x)||P(z|x)]取得最小值以最大化该公式的结果,因此目标函数表达式为:
Figure BDA0003340238840000094
该公式通过最小化D(Q(z|x)||P(z))以取得最大值,即Q(z|x)尽可能逼近P(z)。对公式(17)进行优化时,为获取一个合适的函数Q,令:
Q(z| x)=N(z|μ(x;θ),σ(x;θ)) (18)
其中,μ和σ为任意确定性函数,参数θ可以从数据中学习得到。则目标函数的优化从Q(z|x)尽可能逼近P(z)转化为Q(z|x)的分布N(z|μ(x;θ),σ(x;θ))尽可能逼近P(z)的分布N(0,1)。
由于变分自编码器采取的是随机采样,无法进行反向传播,为改善这一缺陷,在解码器部分添加重参数技巧。首先对ε~N(0,1)进行采样,即在正态分布中采样,再通过变换z=μ(x)+σ(x)*ε使得相当于从N(μ,σ2)中采样。通过重参数技巧,梯度下降的过程中不再包含采样行为,改为由采样结果代替采样行为参与梯度下降,因此模型可训练。本发明变分自编码器模型如图4。
输入为真实样本,计算均值和协方差,
首先确定变分自编码器的损失函数。
根据公式
Figure BDA0003340238840000095
其中,μ和σ为任意确定性函数,将二进制交叉熵与KL散度作为变分自编码器
的损失函数对模型进行优化;
使用构建好的变分自编码器模型对输入数据进行训练,
其中80%的数据为训练集,剩余20%的数据为验证集,通过训练得到变分自编码器的默认参数σ(i),μ(i);
根据σ(i),μ(i)得到关于z的正态分布N(μ(i),σ(i))并从中抽取样本L;
对抽取样本中的每一个数据z进行解码操作得到X′,并将其和X相比较,计算重构概率并在此基础上设置阈值;
将测试集数据输入到训练好的变分自编码器模型中,并根据上述步骤得到的阈值,结合公式
Figure BDA0003340238840000101
对测试集的数据进行分类,重构概率大于阈值的为正常数据,小于阈值的为异常数据。
在基于变分自编码器的线损率异常检测中,阈值的设置依然重要。
本方法通过对数据经过变分自编码器时重构为原数据的概率大小来判断数据是否为异常数据,当重构概率大于阈值时表示数据有较大可能生成接近于原始数据的数据,为正常数据,而当重构概率小于阈值时则表示数据生成类似原始数据的可能性较小,为异常数据,因此阈值的选择很关键,阈值选择不可过小,否则会因其敏感度过高而将正常数据误判为异常数据,但也不可过大,过大的阈值往往会对异常数据漏判,故在进行试验前先对阈值进行最优选择。
S4:采样出异常特征,将产生重构数据的重构概率与阈值相比较对异常值进行识别。
相应地,本发明还提出一种基于变分自编码器的低压台区线损率异常检测装置,用于实现上述检测方法,包括:
相关性分析模块,输入台区运行数据,利用随机矩阵理论对线损数据进行相关性分析;
指标体系构建模块,与相关性分析模块相连,筛选出线损率影响因子,构建低压台区线损率影响因子指标体系;
模型构建模块,与指标体系构建模块相连,建立基于变分自编码器的线损率异常检测模型,在隐空间内对输入特征进行建模;
异常值识别模块,与模型构建模块相连,采样出异常特征,将产生重构数据的重构概率与阈值相比较对异常值进行识别。
使用经过预处理后的数据作为变分自编码器输入,控制阈值从99.80%变化到99.99%,步长为0.01,每次阈值实验五次去结果平均值。使用F1值对结果进行评估。由于使用多个模型进行预测,为了评价模型预测的性能,需建立评价指标。混淆矩阵是总结分类模型预测结果中一种常见可视化工具,定义如表1所示:
表1混淆矩阵
Figure BDA0003340238840000111
本文使用的度量指标主要包括准确率、精确率、召回率,F1分数,设准确率为A,精确率为P,召回率为R,F1分数为F,其定义如下:
准确率:预测值与真实值相同的样本数据与所有样本数据的比例;
Figure BDA0003340238840000112
精确率:真实值是正常且预测值也为正常的数据占所有预测值为正常数据的比例;
Figure BDA0003340238840000113
召回率:真实值是正常且预测值也为正常的数据占所有真实值为正常的数据的比例;
Figure BDA0003340238840000114
F1分数:精确率与召回率的调和平均;
Figure BDA0003340238840000115
考虑有源和无源台区的差异化特征,将有源和无源台区分开分析。考虑到矩阵维度不宜过大,分别取3780个有源台区和3480个无源台区进行分析,展示部分影响线损率关键因子与线损率的相关性曲线图2。
根据随机矩阵结果,在台区固定属性中挑选出城网农网类型、运行容量、居民户数、非居民户数、居民容量、非居民容量、综合倍率、配变户均供电容量。在台区波动属性中挑选出月平均负载率、理论线损率、日功率因数、日最大负载率、日有功电量、日无功电量、总供电量。同时,针对分布式电源快速发展这一新特点,在有源台区中加入日上网电量、日发电量。根据以上步骤,构建线损影响因子指标体系如表2所示:
表2线损影响因子指标体系
Figure BDA0003340238840000121
将线损影响因子指标体系与线损率作为变分自编码器模型的输入数据进行训练,模型完成训练后将测试集输入,得到异常检测结果如图3所示,异常数据均用圆点标注,其中无源台区测试集共检测出19个异常数据,实际异常数据10个,其中8个被正确检测出;有源台区测试集共检测出30个异常数据,实际异常数据12个,其中8个均被正确检测出。
从异常检测结果可以看出,基于VAE的日线损率异常检测模型鲁棒性较强,可以包容正常数据,也能有效的识别异常数据。该模型对每个线损样本进行编码与解码操作,根据样本中相关数据的变化情况动态的得到重构概率,将重构概率与阈值相比较,可以更为准确的得到异常数据的信息。
在案例中本发明能够得到97.6%的准确率、99.9%的精确率、96.6%的召回率和98.2%的F1值。
本发明的有益效果在于在线损率异常检测方面,基于变分自编码器的异常检测方法对异常数据敏感度适中,可以较好的识别出异常数据,并且不会将正常波动的线损数据识别为异常数据,能真实的反映台区的真实情况。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (17)

1.一种基于变分自编码器的低压台区线损率异常检测方法,其特征在于,所述方法包括以下步骤:
S1:输入台区运行数据,利用随机矩阵理论对线损数据进行相关性分析;
S2:筛选出线损率影响因子,构建低压台区线损率影响因子指标体系;
S3:建立基于变分自编码器的线损率异常检测模型,在隐空间内对输入特征进行建模;
S4:采样出异常特征,将产生重构数据的重构概率与阈值相比较对异常值进行识别。
2.根据权利要求1中所述的方法,其特征在于:
所述台区运行数据包括:城网农网类型、运行容量、居民户数、非居民户数、居民容量、非居民容量、综合倍率、配变户均供电容量、月平均负载率、理论线损率、日功率因数、日最大负载率、日有功电量、日无功电量、总供电量、日上网电量、日发电量。
3.根据权利要求2中所述的方法,其特征在于,所述步骤S1包括:
生成状态数据矩阵Zn1,该矩阵每一行对应每一个台区i天的线损率;
选取一个影响因素,形成影响因素矩阵Zn2,该矩阵每一行表示该影响因素i天的数值;
引入随机矩阵N,该矩阵为非负的随机数矩阵,与矩阵Zn2形式相同,服从正态分布,构建实验矩阵Z和对比矩阵ZN如下所示:
Figure FDA0003340238830000011
对两个矩阵分别用设定的滑动窗口进行采样,滑动窗口行数与矩阵Z相同,对每次采样窗口中的数据进行平均谱半径的计算,直到滑动窗口经过矩阵中全部数据,形成平均谱半径序列。
4.根据权利要求3所述的方法,其特征在于,
平均谱半径差表示为:
Figure FDA0003340238830000012
KMSR,Z(N)(t),KMSR,Z(t)分别表示实验矩阵Z平均谱半径曲线和对比矩阵ZN平均谱半径曲线,对平均谱半径差值进行积分计算得到相关特性指标SMSR
Figure FDA0003340238830000021
SMSR能够定性表示影响因素与线损率的相关程度。
5.根据权利要求4所述的方法,其特征在于,
所述变分自编码器模型是一种包含隐变量的生成模型,假设在高维空间Z中存在隐变量z可以对Z中的先验P(z)采样,存在一组确定性函数f(z;θ),其中θ为参数向量,其目标在于优化θ使得z在从P(z)中采样时可以更大概率的得到近似于X的数据,其公式表达为:P(X)=∫P(X|z;θ)P(z)dz,
优化上述模型,转化为使Q(z|x)的分布N(z|μ(x;θ),σ(x;θ))尽可能逼近P(z)的分布N(0,1),其中
Q(z|x)=N(z|μ(x;θ),σ(x;θ))
μ和σ为任意确定性函数,参数θ从数据中学习得到。
6.根据权利要求5所述的方法,其特征在于,所述步骤S3包括:
S31:确定变分自编码器的损失函数,根据公式
Figure FDA0003340238830000022
将二进制交叉熵与KL散度作为变分自编码器的损失函数对模型进行优化;
S32:使用构建好的变分自编码器模型对输入数据进行训练,通过训练得到变分自编码器的默认参数σ(i),μ(i);
S33:根据σ(i),μ(i)得到关于z的正态分布N(μ(i),σ(i))并从中抽取样本L;
S34:对抽取样本中的每一个数据z进行解码操作得到X′,并将其和X相比较,计算重构概率并在此基础上设置阈值。
7.根据权利要求6所述的方法,其特征在于,所述步骤S4包括:
将测试集数据输入到训练好的变分自编码器模型中,并根据步骤S34中得到的阈值,结合公式
Figure FDA0003340238830000031
对测试集的数据进行分类,重构概率大于阈值的为正常数据,小于阈值的为异常数据。
8.根据权利要求7所述的方法,其特征在于,所述步骤S4进一步地包括:
将线损影响因子指标体系与线损率作为变分自编码器模型的输入数据进行训练,模型完成训练后将测试集输入,得到异常检测结果。
9.根据权利要求8所述的方法,其特征在于,所述步骤S4进一步包括:
所述异常检测模型对每个线损样本进行编码与解码操作,根据样本中相关数据的变化情况动态的得到重构概率,将重构概率与阈值相比较,更为准确的得到异常数据信息。
10.一种基于变分自编码器的低压台区线损率异常检测装置,其特征在于,所述装置包括:
相关性分析模块,输入台区运行数据,利用随机矩阵理论对线损数据进行相关性分析;
指标体系构建模块,与相关性分析模块相连,筛选出线损率影响因子,构建低压台区线损率影响因子指标体系;
模型构建模块,与指标体系构建模块相连,建立基于变分自编码器的线损率异常检测模型,在隐空间内对输入特征进行建模;
异常值识别模块,与模型构建模块相连,采样出异常特征,将产生重构数据的重构概率与阈值相比较对异常值进行识别。
11.根据权利要求10中所述的装置,其特征在于:
所述台区运行数据包括:城网农网类型、运行容量、居民户数、非居民户数、居民容量、非居民容量、综合倍率、配变户均供电容量、月平均负载率、理论线损率、日功率因数、日最大负载率、日有功电量、日无功电量、总供电量、日上网电量、日发电量。
12.根据权利要求11中所述的装置,其特征在于,利用随机矩阵理论对线损数据进行相关性分析包括:
生成状态数据矩阵Zn1,该矩阵每一行对应每一个台区i天的线损率;
选取一个影响因素,形成影响因素矩阵Zn2,该矩阵每一行表示该影响因素i天的数值;
引入随机矩阵N,该矩阵为非负的随机数矩阵,与矩阵Zn2形式相同,服从正态分布,构建实验矩阵Z和对比矩阵ZN如下所示:
Figure FDA0003340238830000041
对两个矩阵分别用设定的滑动窗口进行采样,滑动窗口行数与矩阵Z相同,对每次采样窗口中的数据进行平均谱半径的计算,直到滑动窗口经过矩阵中全部数据,形成平均谱半径序列。
13.根据权利要求12中所述的装置,其特征在于,
平均谱半径差表示为:
Figure FDA0003340238830000042
KMSR,Z(N)(t),KMSR,Z(t)分别表示实验矩阵Z平均谱半径曲线和对比矩阵ZN平均谱半径曲线,对平均谱半径差值进行积分计算得到相关特性指标SMSR
Figure FDA0003340238830000043
SMSR能够定性表示影响因素与线损率的相关程度。
14.根据权利要求13所述的装置,其特征在于,
所述变分自编码器模型是一种包含隐变量的生成模型,假设在高维空间Z中存在隐变量z可以对Z中的先验P(z)采样,存在一组确定性函数f(z;θ),其中θ为参数向量,其目标在于优化θ使得z在从P(z)中采样时可以更大概率的得到近似于X的数据,其公式表达为:P(X)=∫P(X|z;θ)P(z)dz,
优化上述模型,转化为使Q(z|x)的分布N(z|μ(x;θ),σ(x;θ))尽可能逼近P(z)的分布N(0,1),其中
Q(z|x)=N(z|μ(x;θ),σ(x;θ))
μ和σ为任意确定性函数,参数θ从数据中学习得到。
15.根据权利要求14所述的装置,其特征在于,将测试集数据输入到训练好的变分自编码器模型中,结合公式
Figure FDA0003340238830000051
对测试集的数据进行分类,重构概率大于阈值的为正常数据,小于阈值的为异常数据。
16.根据权利要求15所述的装置,其特征在于,将线损影响因子指标体系与线损率作为变分自编码器模型的输入数据进行训练,模型完成训练后将测试集输入,得到异常检测结果。
17.根据权利要求16所述的装置,其特征在于,所述异常检测模型对每个线损样本进行编码与解码操作,根据样本中相关数据的变化情况动态的得到重构概率,将重构概率与阈值相比较,更为准确的得到异常数据信息。
CN202111306257.6A 2021-11-05 2021-11-05 基于变分自编码器的低压台区线损率异常检测方法及装置 Pending CN114118460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111306257.6A CN114118460A (zh) 2021-11-05 2021-11-05 基于变分自编码器的低压台区线损率异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111306257.6A CN114118460A (zh) 2021-11-05 2021-11-05 基于变分自编码器的低压台区线损率异常检测方法及装置

Publications (1)

Publication Number Publication Date
CN114118460A true CN114118460A (zh) 2022-03-01

Family

ID=80380938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111306257.6A Pending CN114118460A (zh) 2021-11-05 2021-11-05 基于变分自编码器的低压台区线损率异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN114118460A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114301719A (zh) * 2022-03-10 2022-04-08 中国人民解放军国防科技大学 一种基于变分自编码器的恶意更新检测方法及模型
CN116562653A (zh) * 2023-06-28 2023-08-08 广东电网有限责任公司 一种分布式能源台区线损监测方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114301719A (zh) * 2022-03-10 2022-04-08 中国人民解放军国防科技大学 一种基于变分自编码器的恶意更新检测方法及模型
CN114301719B (zh) * 2022-03-10 2022-05-13 中国人民解放军国防科技大学 一种基于变分自编码器的恶意更新检测方法及***
CN116562653A (zh) * 2023-06-28 2023-08-08 广东电网有限责任公司 一种分布式能源台区线损监测方法及***
CN116562653B (zh) * 2023-06-28 2023-11-28 广东电网有限责任公司 一种分布式能源台区线损监测方法及***

Similar Documents

Publication Publication Date Title
CN111148118B (zh) 基于时间序列的流量预测和载波关断方法和***
CN110232203B (zh) 知识蒸馏优化rnn短期停电预测方法、存储介质及设备
CN111585948B (zh) 一种基于电网大数据的网络安全态势智能预测方法
US20210027145A1 (en) Fraudulent transaction detection method based on sequence wide and deep learning
CN108881196A (zh) 基于深度生成模型的半监督入侵检测方法
CN114118460A (zh) 基于变分自编码器的低压台区线损率异常检测方法及装置
CN109000930A (zh) 一种基于堆叠去噪自编码器的涡轮发动机性能退化评估方法
CN110570030A (zh) 基于深度学习的风电集群功率区间预测的方法及***
CN109740859A (zh) 基于主成分分析法和支持向量机的变压器状态评估方法及***
CN110852441B (zh) 一种基于改进朴素贝叶斯算法的火灾预警方法
Cortes-Robles et al. Fast-training feedforward neural network for multi-scale power quality monitoring in power systems with distributed generation sources
CN112001644A (zh) 一种配电网运行可靠性检测方法、装置、终端及存储介质
CN112288137A (zh) 一种计及电价和Attention机制的LSTM短期负荷预测方法及装置
CN112949391A (zh) 一种基于深度学习谐波信号分析的智能安检方法
CN113128612B (zh) 电力数据中异常值的处理方法及终端设备
CN113935413A (zh) 一种基于卷积神经网的配网录波文件波形识别方法
CN107770813B (zh) 基于pca与二维偏度特征的lte上行干扰分类方法
CN116681186B (zh) 一种基于智能终端的用电质量分析方法及装置
CN116756575B (zh) 基于bgain-dd网络的非侵入式负荷分解方法
CN108846476A (zh) 一种基于卷积神经网络的智能终端安全等级分类方法
CN116776209A (zh) 一种关口计量装置运行状态辨识方法、***、设备及介质
Jin et al. Deep Machine Learning-Based Asset Management Approach for Oil-Immersed Power Transformers Using Dissolved Gas Analysis
CN116611911A (zh) 基于支持向量机的信用风险预测方法及装置
CN115423370A (zh) 一种继电保护设备健康状态评估方法及装置
Čisar et al. Application of artificial immune networks in continuous function optimizations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination