CN114118460A

CN114118460A - 基于变分自编码器的低压台区线损率异常检测方法及装置

Info

Publication number: CN114118460A
Application number: CN202111306257.6A
Authority: CN
Inventors: 朱正谊; 许洪华; 朱红; 马洲俊; 钱欣; 周冬旭; 施萱轩; 徐荆州
Original assignee: Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-03-01

Abstract

本发明公开一种基于变分自编码器的低压台区线损率异常检测方法及装置，利用随机矩阵理论对线损数据进行相关性分析；筛选出线损率影响因子，构建低压台区线损率影响因子指标体系；建立基于变分自编码器的线损率异常检测模型，在隐空间内对输入特征进行建模；采样出异常特征，将产生重构数据的重构概率与阈值相比较对异常值进行识别。本发明实现了对海量线损数据的异常检测，能够为异常台区识别提供参考，同时为低压台区线损精细化管理提供了新的思路。

Description

基于变分自编码器的低压台区线损率异常检测方法及装置

技术领域

本发明涉及电力配电领域，具体涉及一种基于变分自编码器的低压台区线损率异常检测方法及装置。

背景技术

随着社会进步，电能的适用范围越来越广，同时其使用情况也是评估国家发展情况的重要标杆之一。电能在传输过程中，会通过各种电力元件输送给用户，由于在这些电力元器件中存在阻抗，因此电能在到达用户的过程中会损失一部分有功，这部分有功损失就是线损。

低压台区线损率的高低反映着线损管理水平的高低，它作为线损管理的重要组成部分，降低线损率、节约运行成本、使电网可以经济运行是线损管理部门的长期挑战。对线损率进行异常检测的研究，才能对其进行精细化管理，及时锁定异常台区，排查异常原因，提供可靠的故障维护措施，以更好的进行计划管理和设备管理。

传统的异常检测算法可以分为两大类：基于概率统计的异常检测和基于邻近度的异常检测。基于概率统计的异常检测基本步骤为先假设样本数据服从一定的分布，再计算每个点符合该分布的概率，得出异常数据。基于邻近度的异常检测适用于高维数据，但随着数据维度的升高，基于邻近度的异常检测计算复杂度和时间复杂度增加。

近年来，随着深度学习的日益发展，为研究思路开辟了一条新路径。深度学习是用于建立、模拟人脑进行分析学习的神经网络，并模仿人脑的机制来解释数据的一种机器学习技术，其基本特点是模仿大脑的神经元之间传递，处理信息的模式。目前，深度学习已经在语音识别，自然语言处理，人脸识别，游戏开发等方面取得了优秀的实践结果。其中，变分自编码器模型将深度学习与概率统计相结合，是无监督学习中的一种重要模型。变分自编码器通过重构概率最小化以达到异常检测的目的，利用两个神经网络建立两个概率密度分布模型：一个用于原始输入数据的变分推断，生成隐变量的变分概率分布，称为推断网络；另一个根据生成的隐变量变分概率分布，还原生成原始数据的近似概率分布，称为生成网络。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于变分自编码器的低压台区线损率异常检测方法及装置，利用随机矩阵理论对线损数据进行相关性分析，筛选出线损率影响因子，构建低压台区线损率影响因子指标体系，然后建立基于变分自编码器的线损率异常检测模型，在隐空间内对输入特征进行建模，采样出异常特征，将产生重构数据的重构概率与阈值相比较对异常值进行识别。本发明实现了对海量线损数据的异常检测，能够为异常台区识别提供参考，同时为低压台区线损精细化管理提供了新的思路。

本发明提出一种基于变分自编码器的低压台区线损率异常检测方法，所述方法包括以下步骤：

S1：输入台区运行数据，利用随机矩阵理论对线损数据进行相关性分析；

S2：筛选出线损率影响因子，构建低压台区线损率影响因子指标体系；

S3：建立基于变分自编码器的线损率异常检测模型，在隐空间内对输入特征进行建模；

S4：采样出异常特征，将产生重构数据的重构概率与阈值相比较对异常值进行识别。

优选地，所述台区运行数据包括：城网农网类型、运行容量、居民户数、非居民户数、居民容量、非居民容量、综合倍率、配变户均供电容量、月平均负载率、理论线损率、日功率因数、日最大负载率、日有功电量、日无功电量、总供电量、日上网电量、日发电量。

优选地，所述步骤S1包括：

生成状态数据矩阵Z_n1，该矩阵每一行对应每一个台区i天的线损率；

选取一个影响因素，形成影响因素矩阵Z_n2，该矩阵每一行表示该影响因素i天的数值；

引入随机矩阵N，该矩阵为非负的随机数矩阵，与矩阵Z_n2形式相同，服从正态分布，构建实验矩阵Z和对比矩阵Z_N如下所示：

对两个矩阵分别用设定的滑动窗口进行采样，滑动窗口行数与矩阵Z相同，对每次采样窗口中的数据进行平均谱半径的计算，直到滑动窗口经过矩阵中全部数据，形成平均谱半径序列。

优选地，其特征在于，

平均谱半径差表示为：

K_MSR，Z(N)(t)，K_MSR，Z(t)分别表示实验矩阵Z平均谱半径曲线和对比矩阵Z_N平均谱半径曲线，对平均谱半径差值进行积分计算得到相关特性指标S_MSR：

S_MSR能够定性表示影响因素与线损率的相关程度。

优选地，所述变分自编码器模型是一种包含隐变量的生成模型，假设在高维空间z中存在隐变量z可以对Z中的先验P(z)采样，存在一组确定性函数f(z；θ)，其中θ为参数向量，其目标在于优化θ使得z在从P(z)中采样时可以更大概率的得到近似于X的数据，其公式表达为：P(X)＝∫P(X|z；θ)P(z)dz，

优化上述模型，转化为使Q(z|x)的分布N(z|μ(x；θ)，σ(x；θ))尽可能逼近P(z)的分布N(0，1)，其中

Q(z|x)＝N(z|μ(x；θ)，σ(x；θ))

μ和σ为任意确定性函数，参数θ从数据中学习得到。

优选地，所述步骤S3包括：

S31：确定变分自编码器的损失函数，根据公式

将二进制交叉熵与KL散度作为变分自编码器的损失函数对模型进行优化，其中，μ和σ为任意确定性函数；

S32：使用构建好的变分自编码器模型对输入数据进行训练，通过训练得到变分自编码器的默认参数σ(i)，μ(i)；

S33：根据σ(i)，μ(i)得到关于z的正态分布N(μ(i)，σ(i))并从中抽取样本L；

S34：对抽取样本中的每一个数据z进行解码操作得到X′，并将其和X相比较，计算重构概率并在此基础上设置阈值。

优选地，所述步骤S4包括：

将测试集数据输入到训练好的变分自编码器模型中，并根据步骤S34中得到的阈值，结合公式

对测试集的数据进行分类，重构概率大于阈值的为正常数据，小于阈值的为异常数据。

优选地，所述步骤S4进一步地包括：

将线损影响因子指标体系与线损率作为变分自编码器模型的输入数据进行训练，模型完成训练后将测试集输入，得到异常检测结果。

优选地，所述步骤S4进一步包括：

所述异常检测模型对每个线损样本进行编码与解码操作，根据样本中相关数据的变化情况动态的得到重构概率,将重构概率与阈值相比较，更为准确的得到异常数据信息。

本发明还提出一种基于变分自编码器的低压台区线损率异常检测装置，包括：

相关性分析模块，输入台区运行数据，利用随机矩阵理论对线损数据进行相关性分析；

指标体系构建模块，与相关性分析模块相连，筛选出线损率影响因子，构建低压台区线损率影响因子指标体系；

模型构建模块，与指标体系构建模块相连，建立基于变分自编码器的线损率异常检测模型，在隐空间内对输入特征进行建模；

异常值识别模块，与模型构建模块相连，采样出异常特征，将产生重构数据的重构概率与阈值相比较对异常值进行识别。

本发明的有益效果在于，与现有技术相比，本发明中一种基于变分自编码器的低压台区线损率异常检测方法能够以现有的用电信息***、营销***等的实际运行数据为依据，利用变分自编码器实现了对海量线损数据的异常检测，能够为异常台区识别提供参考，同时为低压台区线损精细化管理提供了新的思路。

附图说明

图1为本发明中基于变分自编码器的低压台区线损率异常检测方法的流程图；

图2为本发明中有源、无源台区日线损率与相关特征相关性曲线图；

图3为本发明中基于VAE的有源、无源台区日线损率异常检测结果示意图；

图4为本发明中变分自编码器模型图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于变分自编码器的低压台区线损率异常检测方法，包括以下步骤：

其中台区运行数据包括：城网农网类型、运行容量、居民户数、非居民户数、居民容量、非居民容量、综合倍率、配变户均供电容量、月平均负载率、理论线损率、日功率因数、日最大负载率、日有功电量、日无功电量、总供电量、日上网电量、日发电量。

根据随机矩阵关联性分析原理，结合低压台区数据特点，生成矩阵如式(1)，该矩阵每一行对应每一个台区i天的线损率，使用m个台区进行计算，即矩阵有m行i列:

其中Z_n1表示状态数据矩阵，z_mi表示第m个台区第i天的线损率。对特征数据也做同样处理，选取一个影响因素，形成影响因素矩阵，该矩阵每一行为该影响因素i天的数值，使用m个台区进行计算，生成矩阵如式(2)：

其中Z_n2表示因素数据矩阵，z’_mi表示第m个台区第i天的线损率的影响因素。

同时，引入随机矩阵N，该矩阵为非负的随机数矩阵，与矩阵Z_n2形式相同，服从正态分布。构建实验矩阵Z和对比矩阵Z_N如式(3)所示：

平均谱半径计算方法如下：

若矩阵

行为N维，列为T维，其中每个元素为满足独立同分布的随机变量：

将各个采样时刻的量测数据向量按照时间顺序排列，可以形成一个矩阵

该矩阵即为大数据分析的数据源。

在数据源Ω中，可以采用一个N_W×T_W的分离窗来获取生数据矩阵

将

中的元素按式(6)进行标准化处理，得到标准非Hermitian矩阵

其中，

为

的均值；

为

的标准差；

为

的均值且有

为

的标准差且有

T表示分离窗的列数。

对(6)中的矩阵进行计算，求取矩阵

其中，U为哈尔酋矩阵，

表示矩阵

的奇异值等价矩阵。

对于L个任意的标准非Hermitian矩阵

其矩阵积为

对

进行单位化处理，得到标准矩阵

其中，

N表示分离窗的行数。

当N与T趋于无穷且c＝N/T不变时，

的特征值经验谱分布函数为：

其中，c∈(0，1]，λ为

的特征值。

可见，根据单环定理，

的特征值分布于一个环内，外半径为1，内半径为(1-c)^L/2。平均谱半径的具体定义如下式：

其中，λ_i(i＝1，2，…，N)是矩阵的所有特征值，|λ_i|为λ_i在复平面上的分布半径。得到平均谱半径差为：

K_MSR，Z(N)(t)，K_MSR，Z(t)分别表示实验矩阵Z平均谱半径曲线和对比矩阵Z_N平均谱半径曲线。

两条曲线之差代表了关联特性的大小，差值越大，相关性就越高，反之则相关性越低。为更准确的对相关性进行表达，对平均谱半径差值进行积分计算得到相关特性指标S_MSR：

S_MSR能够定性表示影响因素与线损率的相关程度。

S2：筛选出线损率影响因子，构建低压台区线损率影响因子指标体系。

根据S_MSR所表示的影响因素与线损率的相关程度，按照实际需求筛选出线损率影响因子，构建低压台区线损率影响因子指标体系。

S3：建立基于变分自编码器的线损率异常检测模型，在隐空间内对输入特征进行建模。

变分自编码器模型是一种包含隐变量的生成模型，假设在高维空间z中存在隐变量z可以对z中的先验P(z)采样。P(z)表示Z的先验概率。

存在一组确定性函数f(z；θ)，其中θ为参数向量，其目标在于优化θ使得z在从P(z)中采样时可以更大概率的得到近似于X的数据，即在整个生成过程中最大程度地提高训练集中每个X的概率，其公式表达为：

P(X)＝∫P(X|z；θ)P(z)dz (13)

其中，由分布∫P(X|z；θ)代替函数f(z；θ)。在变分自编码器中，数据输出分布通常为高斯分布，如P(X|z；θ)＝N(X|f(z；θ)，σ2*I)，即均值f(z；θ)和协方差，协方差等于单位矩阵I乘以标量σ的平方，σ为超参数。

通过使用高斯分布，可以利用梯度下降等优化算法使f(z；θ)接近X以增加P(z)。

为使P(x)达到最大以提高得到数据近似于X的概率，需知道隐变量所服从的分布情况，但正常情况下该分布无法得知，且极有可能所服从的分布函数非常复杂，因此通过映射来使简单的分布接近于复杂的分布。

假设f(z；θ)由多层网络结构组成，则此网络结构前几层的功能为将简单分布通过映射接近于隐变量的分布，后几层的功能为将隐变量作为输入来生成数据。基于该思想，为简化问题则直接令P(z)＝N(0，I)，P(z)为标准正态分布。

为明确定义隐变量z以更好采样，通过编码网络对输入样本进行训练以得到隐变量的分布情况。利用函数Q(z|x)来实现编码器的作用，以达到在明确一个X值的条件下，获得使输出数据无限接近于X的z的分布的目的。

利用KL散度使Q(z|x)逼近于理想状态P(z|x)，其表达式如下：

使用贝叶斯公式将P(z|x)展开获得公式(15)：

将公式(15)化简得：

由上式可以看出，需要log(P(x))取到最大值且D[Q(z|x)||P(z|x)]取得最小值以最大化该公式的结果，因此目标函数表达式为：

该公式通过最小化D(Q(z|x)||P(z))以取得最大值，即Q(z|x)尽可能逼近P(z)。对公式(17)进行优化时，为获取一个合适的函数Q，令：

Q(z| x)＝N(z|μ(x；θ)，σ(x；θ)) (18)

其中，μ和σ为任意确定性函数，参数θ可以从数据中学习得到。则目标函数的优化从Q(z|x)尽可能逼近P(z)转化为Q(z|x)的分布N(z|μ(x；θ)，σ(x；θ))尽可能逼近P(z)的分布N(0，1)。

由于变分自编码器采取的是随机采样，无法进行反向传播，为改善这一缺陷，在解码器部分添加重参数技巧。首先对ε～N(0，1)进行采样，即在正态分布中采样，再通过变换z＝μ(x)+σ(x)*ε使得相当于从N(μ，σ²)中采样。通过重参数技巧，梯度下降的过程中不再包含采样行为，改为由采样结果代替采样行为参与梯度下降，因此模型可训练。本发明变分自编码器模型如图4。

输入为真实样本，计算均值和协方差，

首先确定变分自编码器的损失函数。

根据公式

其中，μ和σ为任意确定性函数，将二进制交叉熵与KL散度作为变分自编码器

的损失函数对模型进行优化；

使用构建好的变分自编码器模型对输入数据进行训练，

其中80％的数据为训练集，剩余20％的数据为验证集，通过训练得到变分自编码器的默认参数σ(i)，μ(i)；

根据σ(i)，μ(i)得到关于z的正态分布N(μ(i)，σ(i))并从中抽取样本L；

对抽取样本中的每一个数据z进行解码操作得到X′，并将其和X相比较，计算重构概率并在此基础上设置阈值；

将测试集数据输入到训练好的变分自编码器模型中，并根据上述步骤得到的阈值，结合公式

在基于变分自编码器的线损率异常检测中，阈值的设置依然重要。

本方法通过对数据经过变分自编码器时重构为原数据的概率大小来判断数据是否为异常数据，当重构概率大于阈值时表示数据有较大可能生成接近于原始数据的数据，为正常数据，而当重构概率小于阈值时则表示数据生成类似原始数据的可能性较小，为异常数据，因此阈值的选择很关键，阈值选择不可过小，否则会因其敏感度过高而将正常数据误判为异常数据，但也不可过大，过大的阈值往往会对异常数据漏判，故在进行试验前先对阈值进行最优选择。

相应地，本发明还提出一种基于变分自编码器的低压台区线损率异常检测装置，用于实现上述检测方法，包括：

使用经过预处理后的数据作为变分自编码器输入，控制阈值从99.80％变化到99.99％，步长为0.01，每次阈值实验五次去结果平均值。使用F1值对结果进行评估。由于使用多个模型进行预测，为了评价模型预测的性能，需建立评价指标。混淆矩阵是总结分类模型预测结果中一种常见可视化工具，定义如表1所示：

表1混淆矩阵

本文使用的度量指标主要包括准确率、精确率、召回率，F1分数，设准确率为A，精确率为P，召回率为R，F1分数为F，其定义如下：

准确率：预测值与真实值相同的样本数据与所有样本数据的比例；

精确率：真实值是正常且预测值也为正常的数据占所有预测值为正常数据的比例；

召回率：真实值是正常且预测值也为正常的数据占所有真实值为正常的数据的比例；

F1分数：精确率与召回率的调和平均；

考虑有源和无源台区的差异化特征，将有源和无源台区分开分析。考虑到矩阵维度不宜过大，分别取3780个有源台区和3480个无源台区进行分析，展示部分影响线损率关键因子与线损率的相关性曲线图2。

根据随机矩阵结果，在台区固定属性中挑选出城网农网类型、运行容量、居民户数、非居民户数、居民容量、非居民容量、综合倍率、配变户均供电容量。在台区波动属性中挑选出月平均负载率、理论线损率、日功率因数、日最大负载率、日有功电量、日无功电量、总供电量。同时，针对分布式电源快速发展这一新特点，在有源台区中加入日上网电量、日发电量。根据以上步骤，构建线损影响因子指标体系如表2所示：

表2线损影响因子指标体系

将线损影响因子指标体系与线损率作为变分自编码器模型的输入数据进行训练，模型完成训练后将测试集输入，得到异常检测结果如图3所示，异常数据均用圆点标注，其中无源台区测试集共检测出19个异常数据，实际异常数据10个，其中8个被正确检测出；有源台区测试集共检测出30个异常数据，实际异常数据12个，其中8个均被正确检测出。

从异常检测结果可以看出，基于VAE的日线损率异常检测模型鲁棒性较强，可以包容正常数据，也能有效的识别异常数据。该模型对每个线损样本进行编码与解码操作，根据样本中相关数据的变化情况动态的得到重构概率,将重构概率与阈值相比较，可以更为准确的得到异常数据的信息。

在案例中本发明能够得到97.6％的准确率、99.9％的精确率、96.6％的召回率和98.2％的F1值。

本发明的有益效果在于在线损率异常检测方面，基于变分自编码器的异常检测方法对异常数据敏感度适中，可以较好的识别出异常数据，并且不会将正常波动的线损数据识别为异常数据，能真实的反映台区的真实情况。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于变分自编码器的低压台区线损率异常检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1中所述的方法，其特征在于：

所述台区运行数据包括：城网农网类型、运行容量、居民户数、非居民户数、居民容量、非居民容量、综合倍率、配变户均供电容量、月平均负载率、理论线损率、日功率因数、日最大负载率、日有功电量、日无功电量、总供电量、日上网电量、日发电量。

3.根据权利要求2中所述的方法，其特征在于，所述步骤S1包括：

4.根据权利要求3所述的方法，其特征在于，

平均谱半径差表示为：

K_MSR,Z(N)(t),K_MSR,Z(t)分别表示实验矩阵Z平均谱半径曲线和对比矩阵Z_N平均谱半径曲线，对平均谱半径差值进行积分计算得到相关特性指标S_MSR：

S_MSR能够定性表示影响因素与线损率的相关程度。

5.根据权利要求4所述的方法，其特征在于，

所述变分自编码器模型是一种包含隐变量的生成模型，假设在高维空间Z中存在隐变量z可以对Z中的先验P(z)采样，存在一组确定性函数f(z；θ)，其中θ为参数向量，其目标在于优化θ使得z在从P(z)中采样时可以更大概率的得到近似于X的数据，其公式表达为：P(X)＝∫P(X|z；θ)P(z)dz，

优化上述模型，转化为使Q(z|x)的分布N(z|μ(x；θ),σ(x；θ))尽可能逼近P(z)的分布N(0,1)，其中

Q(z|x)＝N(z|μ(x；θ),σ(x；θ))

μ和σ为任意确定性函数，参数θ从数据中学习得到。

6.根据权利要求5所述的方法，其特征在于，所述步骤S3包括：

S31：确定变分自编码器的损失函数，根据公式

将二进制交叉熵与KL散度作为变分自编码器的损失函数对模型进行优化；

S33：根据σ(i)，μ(i)得到关于z的正态分布N(μ(i),σ(i))并从中抽取样本L；

7.根据权利要求6所述的方法，其特征在于，所述步骤S4包括：

8.根据权利要求7所述的方法，其特征在于，所述步骤S4进一步地包括：

9.根据权利要求8所述的方法，其特征在于，所述步骤S4进一步包括：

10.一种基于变分自编码器的低压台区线损率异常检测装置，其特征在于，所述装置包括：

11.根据权利要求10中所述的装置，其特征在于：

12.根据权利要求11中所述的装置，其特征在于，利用随机矩阵理论对线损数据进行相关性分析包括：

13.根据权利要求12中所述的装置，其特征在于，

平均谱半径差表示为：

S_MSR能够定性表示影响因素与线损率的相关程度。

14.根据权利要求13所述的装置，其特征在于，

Q(z|x)＝N(z|μ(x；θ),σ(x；θ))

μ和σ为任意确定性函数，参数θ从数据中学习得到。

15.根据权利要求14所述的装置，其特征在于，将测试集数据输入到训练好的变分自编码器模型中，结合公式

16.根据权利要求15所述的装置，其特征在于，将线损影响因子指标体系与线损率作为变分自编码器模型的输入数据进行训练，模型完成训练后将测试集输入，得到异常检测结果。

17.根据权利要求16所述的装置，其特征在于，所述异常检测模型对每个线损样本进行编码与解码操作，根据样本中相关数据的变化情况动态的得到重构概率,将重构概率与阈值相比较，更为准确的得到异常数据信息。