CN110458230A

CN110458230A - 一种基于多判据融合的配变用采数据异常甄别方法

Info

Publication number: CN110458230A
Application number: CN201910740107.2A
Authority: CN
Inventors: 李新家; 祝永晋; 尹飞; 马吉科; 季聪; 许杰雄; 龙玲莉; 杨勤胜; 豆龙龙; 陈远; 臧海祥; 卫志农; 孙国强
Original assignee: Hohai University HHU; Jiangsu Fangtian Power Technology Co Ltd
Current assignee: Hohai University HHU; Jiangsu Fangtian Power Technology Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-11-15

Abstract

本发明公开了一种基于多判据融合的配变用采数据异常甄别方法，包括：对用采数据断点、异常点和现场实际运行数据情况进行统计分析；分别采用原型聚类法、密度聚类法、概率密度法、深度学习方法等四种方法进行异常值的甄别，对四种模型进行“4取2”验证结果，即四种模型有两个模型认为待判定点是异常点，则待判定点为异常点。本发明解决了传统机器学习方法处理海量数据时面临的难度大，效率低、实时性不高等问题。

Description

一种基于多判据融合的配变用采数据异常甄别方法

技术领域

本发明属于电力***配变数据处理技术领域，具体涉及一种基于多判据融合的配变用采数据异常甄别方法。

背景技术

随着计算机、通讯、传感技术的广泛应用、配网运营监测业务的不断推进及大量监测计量装置的部署，配变台区监测获得了海量运行数据、用户用电数据及设备状态数据，对这些数据进行分析、挖掘、抽取与加工，实现配变台区安全经济运行、提升服务质量、拓展电量电费业务成为配网面临的挑战。需特别指出的是，配变台区监测获得的海量电网数据中存在约10％的异常数据，有必要对用采数据质量进行分析，甄别异常数据，从而为开展监测运营业务提供可靠、精确、有效的数据支撑。用采时间序列异常数据出现的主要原因有：

(1)计量装置故障：计量装置包括终端、互感器、接线盒、表计，故障可能存在于任何一个环节中。例如：互感器的电晕呈现局部放电或者完全放电，导致数据收集不准确；接线盒由于接触不良导致的计量数据异常等。

(2)通信信号差：部分地区使用3G信号，导致信号时有时无，部分时段数据传输失败。同时，大型楼宇也会对通信信号产生屏蔽，影响通信。

(3)采集器故障：采集器实现控制范围内所有设备的数据汇总和分配，实现对智能电表控制命令传输的作用。在低压用户中，采集器与计量装置分开，每一个采集器控制多个智能电表。当采集器发生通信或者本体故障时，整个采集范围内所有智能电表用电数据采集失败。

(4)人为因素：主要是不合理用电，使得电表长时间处于超负荷状态以及偷电窃电行为，这都造成用采时间序列异常数据的出现。

用采数据质量的好坏，很大程度上决定了模型分析结果的好坏。因此，在建立分析模型前对用采数据中存在的异常值进行检测甄别是提高数据质量的重要途径。目前常用异常点检测方法主要有：

(1)统计学方法：其最早用于异常点检测，一般分为基于假设检验方法和基于模型方法。由于现实数据挖掘问题多数需在多维空间中寻找异常点，但绝大部分的一致性检验只适用于单属性检验；同时，由于在此法前必须知道数据分布模型，使得此法有很大局限性。

(2)基于距离异常值检测方法：其距离函数和参数不易选择，且只能检测出全局异常点，而不能检测出局部异常点。

(3)基于密度异常值检测方法：其能够检测出全局和局部的异常点，但计算复杂、繁琐，不适用高维数据场合。

(4)基于聚类异常值检测方法：其能够同时发现类和异常点，但一般效率较低、针对性较强。

(5)基于机器学习异常值检测方法：可划分人工神经网络(artificial neuralnetworks,ANN)及支持向量机(support vector machines,SVM)两大类。ANN在处理小规模问题上具有很好的应用效果，但对大规模数据场景效率较低，难以较好解决参数训练问题，且训练过程易陷入局部最优，模型结构和权值设置不当还会严重影响模型精确度。SVM具有更好的泛化能力，但在处理海量样本将面临严峻挑战，且建模较复杂，在实际应用中存在一定难度。

智能电表的电流、电压、有功功率、无功功率曲线中的异常数据直接反应了智能电表的运行状态，此类异常数据属于表记方面的测量异常点以及用户用电异常点。智能电表发生故障往往不是瞬间造成，而是在故障之前的一段时间内处于亚健康运行状态。在此状态下，曲线上的异常数据较为隐蔽，不易通过基本准则来辨别。由于用采数据质量严重影响运营中心等部门分析结果的可信性，而用采异常数据又严重影响着数据质量。此外，用采数据存在断点、缺相、异常高低值等问题，目前一般的用采异常数据甄别规则存在设置过于死板的不足，需要针对性地改进异常值判别规则，以提高异常值检测甄别正确率。

数据挖掘及深度学习理论作为当下计算机领域的研究热点，能够有效的进行高维、复杂、非线性问题的分析与处理，深度学习将训练集事先分成小批量数据进行计算，提高了训练效率。因此，相比较而言，深度学习更适合于进行电流电压等时间序列海量用采数据异常值的检测与甄别，采用深度学习可解决传统机器学习方法在处理海量数据时所存在的占用内存高、运行处理速度慢及难以处理高维特征数据等缺陷。

发明内容

本发明的目的在于提供一种基于多判据融合的配变用采数据异常甄别方法，分别采用原型聚类法、密度聚类法、概率密度法、深度学习方法等四种方法进行异常值的甄别，对四种模型进行“4取2”验证结果，解决了传统机器学习方法处理海量数据时面临的难度大，效率低、实时性不高等问题。

为达到上述目的，本发明采用的技术方案如下：

一种基于多判据融合的配变用采数据异常甄别方法，包括：

获取配变用采原始数据；

对所述配变用采原始数据进行预处理；

将噪声点随机加在预处理后的配变用采原始数据上，形成含异常点的用采数据序列；

分别采用原型聚类法、密度聚类法、概率密度法和深度学习法四种模型对含异常点的用采数据序列进行异常点甄别；

确定配变用采异常数据；所述配变用采异常数据为任意两种模型的异常点甄别结果的交集，然后取所有两两组合确定的交集的并集。

进一步的，所述获取配变用采原始数据，包括：

基于正常运行计量装置采集三相电流、三相电压和有功功率原始数据，采集时间间隔为15min。

进一步的，所述对所述配变用采原始数据进行预处理，包括：

对配变用采原始数据进行缺失值处理以及剔除明显异常值；

所述对配变用采原始数据进行缺失值处理，包括：对连续时间数据集中缺失个别数据，采用线性插值法补齐缺失的数据；对连续时间数据集中缺失大量数据，直接剔除该段数据；

所述剔除明显异常值是指，将三相电流、三相电压和有功功率原始数据中显示为-9999的数据剔除。

进一步的，当所述配变用采原始数据出现大规模数据缺失时，选用数据缺失之前的曲线进行计算。

进一步的，所述噪声点服从正态分布。

进一步的，所述采用原型聚类法对含异常点的用采数据序列进行异常点甄别，包括：

确定聚类属性；包括：选取待检测点电压实际值、待检测点与前一点电压变化值和待检测点与前两点电压变化值作为电压时间序列的聚类属性，选取待检测点电流实际值、待检测点与前一点电流变化值和待检测点与前两点电流变化值作为电流时间序列的聚类属性，选取待检测点有功功率实际值、待检测点与前一点有功功率变化值和待检测点与前两点有功功率变化值作为有功功率时间序列的聚类属性；

根据所述聚类属性，采用k-means算法，将待检测时间序列集聚为4类，并确定各类质心；

根据各类质心，计算各待检测点到最近聚类中心的距离，以及各待检测点到最近聚类中心的相对距离；

将各待检测点到最近聚类中心的相对距离与给定阈值作比较；如果某待检测点到最近聚类中心的相对距离大于给定阈值，则该待检测点是离群点，即异常点。

进一步的，所述采用密度聚类法对含异常点的用采数据序列进行异常点甄别，包括：

分别绘制电压-电流的平面分布图，电流-有功功率的平面分布图，以及电压-有功功率的平面分布图；

对所述平面分布图上的点进行聚类，包括：如果所述平面分布图中的两个点之间的距离不超过设定的最大距离，则划分为一类；其中，电压-电流平面分布图上的点为某相电流时间序列和电压时间序列；电流-有功功率平面分布图上的点为某相电流时间序列和有功功率时间序列；电压-有功功率平面分布图上的点为某相电压时间序列和有功功率时间序列；

循环迭代找出不属于任何类的点即为异常点。

进一步的，所述采用概率密度法对含异常点的用采数据序列进行异常点甄别，包括：

确定模型输入和模型输出；所述模型输入为：对于电流时间序列为待判定点电流与前一点电流的变化值；对于电压时间序列为待判定点电压与前一点电压的变化值；对于有功功率时间序列为待判定点电压与前一点电压的变化值；所述模型输出为：变化值正常范围；

采用核密度函数分别拟合电压、电流及有功功率数据的概率分布，并获得概率密度函数；

对于任一待检测数值d，对概率密度函数的进行积分计算得到出现[d,+∞)数值范围的概率，并与阈值比较，即该概率是否低于3σ对应的概率0.003；若是，则该待检测数值为异常点。

进一步的，所述采用深度学习法对含添加异常点的用采数据序列进行异常点甄别，包括：

采用电流、电压及功率时间序列训练完成的基于长短期记忆网络的深度学习模型，对未来电流、电压或功率数据进行预测，比较预测值和真实值的误差；若预测值偏离真实值超过设定的阈值，则预测值为异常点；

所述长短期记忆网络的深度学习模型为：完成前向计算后，采用误差反向传播算法对模型参数进行更新调整，包括：

t时刻长短期记忆网络的神经元加权输入net_f,t，net_i,t，net_c′,t，net_o,t为：

其中，W_ox、W_fx、W_ix、W_cx、W_oh、W_fh、W_ih、W_ch表示权重，h_t-1是前一时刻LSTM输出，x_t是当前时刻输入，b_f、b_i、b_o、b_c分别为遗忘门结构、输入门结构、输出门结构和当前时刻输入单元的偏置；

t时刻长短期记忆网络的神经元误差项δ_f,t，δ_i,t，δ_c′,t，δ_o,t为：

其中，E为预测误差；

当误差沿时间反向传播时，t-1时刻的误差项δ_t-1为：

其中，为雅可比矩阵；

当误差由当前的l层反向传递到l-1层时，l-1层误差为：

最终，得到权重W_oh、W_fh、W_ih、W_ch为：

其中，W_oh,t，W_fh,t，W_ih,t，W_ch,t分别表示t时刻的权重，上标T表示转置；

权重W_ox、W_fx、W_ix、W_cx为：

b_f、b_i、b_o、b_c为：

其中，b_o,t，b_f,t，b_i,t，b_c,t分别表示t时刻的误差项。

与现有技术相比，本发明的技术方案具有以下有益效果：

(1)本发明方法中使用的深度学习方法，深度学习算法能处理海量数据，并进行高效全面的特征学习，减少人工进行特征学习的低效与不完备，从而使学习的特征的泛化能力更强；

(2)深度学习算法中使用的LSTM神经网络，是长短期记忆网络，是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。计量装置异常运行状态识别模型的主要任务是识别计量装置获取的时间序列数据，LSTM神经网络在处理这个问题上有很好的表现；

(3)在电表获取的运行数据样本集数量不多或者时间序列特性不明显，LSTM的模型表现不佳时，模型中其他三种算法的效果往往会比LSTM的效果好。本发明的多判据融合的算法能应对不同的情况下的异常运行状态识别，泛化性能更好，准确率更高；

(4)本发明方法运用“4取2”方法交叉验证，提高了异常点甄别检出率，降低了异常点甄别的误判率，提升了模型的异常点甄别能力，为运营检测业务提供精确数据保障，电网相关部门工作人员可以依据识别结果进行检修和排查，尽早解决异常电表存在的潜在问题，提高电网运行的安全可靠性。

附图说明

图1为本发明实施例中长短期记忆网络各组成部分结构示意图；

图2为本发明实施例中深度长短期记忆网络结构框架；

图3为本发明实施例中在标准差为6的正态分布误差下原型聚类电压分析结果；

图4为本发明实施例中在标准差为6的正态分布误差下密度聚类分析结果；图4(a)为功率电压平面分布，图4(b)为电压电流平面分布；

图5为本发明实施例中在标准差为6的正态分布误差下概率分布分析结果；

图6为本发明实施例中在标准差为6的正态分布误差下LSTM预测结果及电压真实值；

图7为本发明实施例中在标准差为6的正态分布误差下LSTM预测误差；

图8为本发明实施例中在标准差为8的正态分布误差下原型聚类分析结果；

图9为本发明实施例中在标准差为8的正态分布误差下密度聚类分析结果；图9(a)为功率电压平面分布，图9(b)为电压电流平面分布；

图10为本发明实施例中在标准差为8的正态分布误差下电压真实值及LSTM预测结果；

图11为本发明实施例中在标准差为8的正态分布误差下LSTM模型预测误差；

图12为本发明实施例中49932电表电流及电流变化值曲线；

图13为本发明实施例中29047电表功率及功率变化值曲线；

图14为本发明实施例中45000电表异常值检测曲线；图14(a)为功率及功率变化值曲线；图14(b)为电表电流及电流变化值曲线；

图15为本发明实施例中29047电表电流及功率变化值曲线；

图16为本发明实施例中64258电表电流及功率变化值曲线。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供一种基于多判据融合的配变用采数据异常甄别方法，具体如下：

1)用采数据采集

用采实时数据采集内容主要有各相位电流、电压、有功功率、无功功率和抄表电量。其中，前四项每15min测量一次，每日产生96个数据点，抄表电量每日测量一次。在实际企业的运营监测业务和相关的抄核收工作中，对于各项电流、电压、有功功率及抄表电量的数据质量要求较高。相对而言，对于无功功率的数据质量要求相对较低。而抄表电量与有功功率数据紧密相关，有功功率数据异常则意味着抄表电量数据异常。所以本发明中主要对用采数据的电流、电压和有功功率数据进行分析。在实际用采数据搜集中，主要存在用采数据断点和异常点的问题。

2)用采数据分析，确定异常数据

收集某市江宁区配变台区正常配变和故障配变数据，其中正常配变数据和故障配变数据均为2017年8月1日至8月31日的三相电流、三相电压、正向有功功率数据，时间间隔尺度为15min。对所提供的数据整体概况进行简要分析，主要结论如下：

a)电压数据：提供的全部电压数据中，有数据采集的配变共8208台，总采集数据点数为13,555,680个，总缺失数据(NULL)个数为885,129个，缺失数据占数据总量的比例为6.53％。其中：有6001台配变采集的电压数据完整，无缺失数据。10kV丹佛小镇7#变、五小区5#公用变、江山房产#3变、玉鉴园#2变、二十一世纪现代城#7变、湖山尊邸3#美变、潭桥北园23变、百家湖国际花园B区临街变#1、百家湖国际花园B区临街变#3、百家湖国际花园B区临街变2#变(共10台)的缺失数据比例最大，均为97.92％。

在无缺失的数据中，有2400个数据为-9999，属于明显异常数据，所占比例为0.02％。具体为中粮房产彩云居#1配电所#1主变、#2主变、#3主变和#4主变在8月28日-8月30日采集到的电压数据值，显示为-9999V。

b)电流数据：提供的全部电流数据中，有数据采集的配变共8271台，总的采集数据点数为84,205,344个，总缺失数据(NULL)个数为4,390,384个，总缺失所占比例为5.21％。其中，有4464台配变采集的电流数据完整，无缺失数据。10kV丹佛小镇7#变、中粮房产彩云居#1配电所#1主变、中粮房产彩云居#1配电所#2主变、中粮房产彩云居#1配电所#3主变、义乌商品城#5变、二十一世纪现代城#7变、五小区5#公用变、武夷绿洲#2箱变、江山房产#3变、湖山尊邸3#美变、潭桥北园23变、玉鉴园#2变、百家湖国际花园B区临街变#1、百家湖国际花园B区临街变#3、百家湖国际花园B区临街变2#变(共15台)的缺失数据比例最大，均为97.92％。

在无缺失的数据中，有2195个数据为-9999，属于明显异常数据，所占比例为0.003％，集中在张桥杨二站8月份采集到的电流数据，这些异常电流值全部大于700A。

c)有功功率数据：提供的全部有功功率数据中，有数据采集的配变共8153台，总的采集数据点数为59,650,944个，总缺失数据(NULL)个数为1,748,960个，总缺失所占比例为2.93％。其中，有4111台配变采集的有功功率数据完整，无缺失数据。有122台配变的缺失数据比例并列最大，且均为97.92％。

在数据总体分析的基础上，对原始数据集进行预处理，对于原始数据集进行缺失值处理，明显异常值的剔除。对于缺失值的处理分为两种情况：一是对于连续时间数据集中缺失个别数据，此时使用常用的线性插值方法处理。二是对于连续时间数据集中缺失大量数据，无法进行插值处理，此时直接剔除这部分数据。明显异常值的剔除是指将电压，电流和有功功率数据中显示为-9999的数据剔除。

采用原型聚类法、密度聚类法、概率密度法及深度学习理论共四种模型对电压、电流及有功功率数据进行异常值检测与甄别，目标是从原始数据中查找出异常值数据点，从而提高数据质量，为其他相关业务提供有效的数据支撑。在测试中，取发生故障前1-3个月的A相电流、A相电压、有功功率曲线进行异常点检测。当出现大规模数据缺失时，选用数据缺失之前的曲线进行计算。

3)用采异常数据甄别流程

为验证模型的性能，首先在原始数据的基础上人为加入一定的噪声，测试模型是否能将这些干扰检测出来。在此基础上，将原型聚类法、密度聚类法、概率密度法、深度学习方法等模型用于实际数据，对电压、电流及有功功率原始数据进行异常值的检测。具体实现流程为：

31)基于正常运行计量装置采集的电流、电压、有功数据，在原始数据中增加不同程度的随机噪声与干扰，这些噪声服从正态分布，将正态分布噪声点随机加在原始数据上，原始数据在加入噪声之后模拟为异常点，形成含异常点的时间序列。使用原型聚类法、密度聚类法、概率密度法、深度学习方法四种模型对干扰与噪声进行测试，检验精度。测试中，最终的异常值检测结果为：任意两种及以上模型检测结果均为异常的点即为最终确定的异常点。

32)与步骤31)实现流程相同，对已知故障电表发生故障前的数据进行异常点甄别，采用四种模型分别对电流、电压、有功等数据进行多角度的异常点甄别。

33)对分类的异常点进行分析，寻找规律和共同点。

4)基于多判据融合的用采异常数据甄别

分别采用原型聚类法、密度聚类法、概率密度法、深度学习方法等四种方法进行异常值的甄别，并比较各模型的异常值判定精度。

41)原型聚类法：原型聚类法异常值检测模型输入输出如表1所示。

表1原型聚类法异常值检测模型输入输出

基于原型聚类法的异常值甄别实现步骤为：

a)选取聚类属性；如：对电压时间序列进行异常值甄别时，将电压实际值、电压变化值作为聚类属性，综合考虑电压值高低与变化速度对异常值共同作用。同理，对电流和功率时间序列进行异常值甄别时，其聚类属性分别为电流实际值、电流变化值及功率实际值和功率变化值。

b)采用k-means算法，将样本集聚为4类，并确定各类质心。

c)计算各待判定点到最近聚类中心的距离。

d)计算各待判定点到最近聚类中心的相对距离。

e)与给定阈值作比较。阈值根据各配变台区电压特性进行确定。如果待判定点到最近聚类中心的相对距离大于该阈值，认为该待判定点是离群点。

经过上述步骤，可以得出基于原型聚类法的异常值检测结果。

42)密度聚类法：密度聚类法假定类别可以通过样本分布的紧密程度决定，可以将样本分为密集样本类别和离散样本噪声点。具体步骤如下：

a)按电压、电流、功率三者数据两两之间的关系进行考虑，分别绘制电压-电流的二维平面分布图、电流-功率的平面分布图，以及电压-功率的平面分布图。

b)设置一个最大距离d，当平面分布图中两个点距离超过d时认为它们不是密度可达的，即它们不属于同一类别；

c)循环迭代找出所有密度可达的一系列样本点，将这些点划分为一类。其余不属于任何类的点即为噪声。

密度聚类法异常值检测模型如表2所示。

表2密度聚类法异常值检测模型输入输出

43)概率密度法：基于偏差的数据异常值检测方法主要根据“3σ”准则来判断异常值。如果数据服从正态分布，在“3σ”准则下，异常值定义为测定值中与平均值偏差超过3倍标准差的值。在正态分布假设下，距离平均值3σ之外的值出现概率为此概率属于极个别的小概率事件。式中，σ为原始数据正态分布标准差。

对于测试数据r₁,r₂,…,r_n表示输入的电流、功率或电压时间序列，取算术平均值：

其中，n为电流、功率或电压序列中的样本个数。

及剩余误差值求出均方根偏差为：

则异常值判别依据为：若该值为异常数据；若则r_i为正常数据。

但对于现场实际测量的电压、电流及功率数据，事先难以判断其概率分布类型，且一般情况下不服从正态分布。从而，采用“3σ”准则来判断异常值存在误差较大、难以完整描述电压、电流及功率的概率分布情况。

概率密度法进行异常值甄别模型输入输出如3所示。

表3概率密度法异常值检测模型输入输出

基于概率密度法的异常值检测方法具体实现流程如下：

a)获取电压、电流及功率数据；

b)对电压、电流及功率等不同时间序列进行异常值甄别时，采用核密度函数分别拟合电压、电流及功率数据的概率分布，并获得概率密度函数；

c)对于任一待检测数值d，对概率密度函数的进行积分计算可以计算出现[d,+∞)数值范围的概率，并与阈值比较，即该概率是否低于3σ对应的概率0.003；若是，则该点为异常点；

d)根据比较结果判断是否为异常数据。

经过上述步骤，可以得出基于概率密度法的异常值检测结果。

44)深度学习算法模型

基于深度学习算法的异常值甄别模型依据统计学方法原理，由训练完成的深度学习模型对未来的电流、电压或功率数据进行科学合理的预测，比较预测值和真实值的误差。若预测值远远偏离真实值，则该点即为异常值点。若预测值在真实值附近波动，则该点误差属于正常的随机误差，也即说明该点为正常点。长短期记忆网络具有良好的长时间序列处理能力，能够实现远距离信息的保存与控制，有利于给出准确的电流、电压和功率预测值。因此，本发明在分析长短期记忆网络(long short-term memory，LSTM)基本原理基础上，分别对电流、电压及功率建立长短期记忆网络预测模型，实现对电流、电压及功率时间序列的异常值甄别。深度学习异常值检测模型输入输出如表4所示。

表4深度学习方法异常值检测模型输入输出

传统人工神经网络模型，输入层与隐含层、隐含层与输出层间神经元全连接，且各层神经元间无连接。然而，这种单独孤立的对每个样本处理的方式忽略了前后时刻输入数据间的关联性，对自然语言处理、机器翻译等某些长时间序列问题处理能力较差。递归神经网络(recur-rent neural network，RNN)是深度学习领域中重要的一种网络结构，其典型特征是神经元之间不仅有内部反馈连接，还含有前馈连接。RNN在训练过程中容易出现梯度消失和梯度***问题，导致RNN无法捕捉到远距离输出对当前时刻输出的影响，限制了其广泛的应用与发展。

结合图1说明LSTM结构各部分计算过程，其中，各输入输出变量的具体含义为：x_t为模型输入，表示历史96点的电流、电压和功率；图1(e)中，o_t为LSTM的输出门，表示待预测时刻的电流、电压或功率；E为预测误差，即模型输出的预测值和实际值之差，用于判断是否为异常点。其余变量均为模型的中间变量和参数。

长短期记忆网络的训练算法：完成前向计算后，即可采用误差反向传播算法对模型参数进行更新调整。LSTM需要学习的参数共4组，即：W_f和b_f、W_i和b_i、W_o和b_o，W_c和b_c。为便于推导，将权重矩阵W_f、W_i、W_o、W_c写为分开的两个矩阵：W_fh、W_fx、W_ih、W_ix、W_oh、W_ox、W_ch、W_cx。h_t-1是前一时刻LSTM输出，x_t是当前时刻输入，b_f、b_i、b_o、b_c分别为遗忘门结构、输入门结构、输出门结构和当前时刻输入单元的偏置。

定义t时刻的误差项δ_t为损失函数对输出值的导数，即同时，定义各神经元加权输入及其误差项分别为：

当误差沿时间反向传播时，计算t-1时刻的误差项δ_t-1为：

式中：为雅可比矩阵。

当前时刻单元状态c_t由前一时刻单元状态c_t-1按元素乘以遗忘门f_t，和当前输入单元状态c′_t按元素乘以输入门i_t两部分组成。由于o_t、f_t、i_t、c′_t为h_t-1的函数，利用全导数公式可得：

进一步可得到：

符号表示按元素相乘。

将式(7)代入(6)，即可得到：

由δ_o,t、δ_f,t、δ_i,t、δ_c′,t的定义，可知：

误差由当前的l层反向传递到l-1层时，定义l-1层误差为即误差函数对l-1层加权输入的导数。由于且都是x_t的函数，利用全导数公式得：

从而，得出W_oh、W_fh、W_ih、W_ch各参数梯度为：

W_ox、W_fx、W_ix、W_cx梯度计算公式为：

b_f、b_i、b_o、b_c梯度计算公式为：

基于LSTM的前向计算及误差反向传播算法，可构建如图2所示的深度LSTM网络框架。

55)将四种模型中任意两种模型异常值检测结果均为异常的点作为最终的异常值检测结果。

实施例

本发明实施例首先基于正常运行计量装置采集的电流、电压、有功数据，在原始数据中增加不同程度的随机噪声与干扰，形成异常点，使用上述四种模型对干扰与噪声进行测试，检验精度。测试中，最终的异常值检测结果为四种模型检测结果的交集。通过设置不同程度的随机误差，测试上述四种模型能否有效的将这些异常值点检测出来，以便验证方法的有效性。具体如下：

1)测试1：选取编号为15661的电表，时间范围为2017年5月3日至5月31日共计2785点，其中，A相电压均值228.891V，最大值232.8V，最小值221.9V。随机生成均值为0，标准差为6(A相电压)的正态分布误差，并将这些干扰随机放入电压原始时间序列中。表5为随机误差大小及添加点。

表5人工添加噪声的电压点(小噪声扰动)

a)基于原型聚类法的异常值甄别测试：模型参数设置为：聚类类别为4类、异常值点判断准则阈值尝试设置为2.75、聚类最大循环次数为500。距离函数采用欧式距离：

将某点电压实际值、某点与前一点电压变化值、某点与前两点电压变化值作为聚类属性，综合考虑电压值的高低与变化速度的大小，聚类结果如图3所示，检测正确点数为3点，ID为64、372、2192。

b)基于密度聚类法的异常值甄别测试：模型参数设置为：最大距离设置为0.5、样本点归一化范围为(0,4)、一类别的最少样本个数为5、距离函数为欧式距离计算方法。测试结果如图4(a)和图4(b)所示，异常ID为372、663、995、997、2192。

c)基于概率密度法的异常值甄别测试：图5为电压变化值概率密度曲线，从图5中可以看出，电压变化值集中分布于0附近，电压变化值基本服从正态分布，结合其概率密度函数，可以获得电压变化值出现某一值时的概率。根据“3σ”准则，假设异常电压变化值出现千分之一以下的概率非常小，此时可计算出电压变化值端点值为-1.7516和1.7075。即认为：正常电压变化值范围[-1.7516，1.7075]。不在此范围的即为异常电压变化。

表6为采用概率密度法获得的异常值检测结果。

表6概率密度法异常点搜索结果(小噪声扰动)

d)基于深度学习算法的异常值甄别测试：使用LSTM深度学习算法对电压进行提前一点的预测。模型参数设置为：四层循环神经网络，包括输入层(96×1序列输入)，一层LSTM层(8节点)，一层普通隐含层(4节点)，一层输出层(1节点)。输入输出：使用最近历史96点的数据预测下一时刻的电流值(采样间隔15min)。模型优化为RMSProp(带动量的随机梯度下降算法)，迭代次数为400，训练批数512(训练样本一共2000多个，一次迭代约分为4-5批)，训练样本中验证集所占比率为5％。目标函数为模型输出值与真实值的均方误差MSE。

预测使用前96天数据，ID+96为实际时刻值，图6为预测结果。

图7为LSTM模型误差，即模型预测值减去真实值获得曲线，异常ID为372、866、998、2192、2193。

四种方法有效异常点汇总如表7所示。

表7四种检测方法的异常点搜索结果(小噪声扰动)

结论：采用双交叉的检验方法，在5个设置的异常点中检测出了3个异常点。

遗漏点分析如表8所示。

表8异常检测的遗漏点(小噪声扰动)

序号	添加ID	U原始值(V)	随机误差(V)	U异常点值(V)
					3	663	229.3	-1.4623	227.8377
4	1163	230.6	1.294	231.894

从数据上看，3号异常点的误差为0.63％，5号异常点的误差0.56％，误差较小。A相电压均值228.891V，最大值232.8V，最小值221.9V。且电压的平均变化值为0.4083V(后一个电压值减去前一个电压值)，最大+6.8V，最小-6.7V。因此，这两个随机误差添加之后的电压值偏离原值很小，不易检测出。

2)测试2：改变标准差为8(A相电压)。随机误差及添加点如表9所示。

表9人工添加噪声的电压点(大噪声扰动)

序号	添加ID	U原始值(V)	随机误差(V)	U异常点值(V)
					1	64	227.9	-0.9325	226.9675
2	372	228.2	-5.0017	223.1983
					3	663	229.3	9.4597	238.7597
4	1163	230.6	-1.5734	229.0266
					5	2192	228.6	-4.1232	224.4768

a)使用基于聚类的离群点检测方法：将电压实际值、电压变化值作为聚类属性，综合考虑电压值的高低与变化速度的大小，结果如图8所示，检测正确点数为3点，异常ID为372、663、2192。

b)使用密度聚类异常值检测方法，结果如图9(a)和(b)所示，异常ID为663、994、995、997。

c)使用概率密度算法：

结合其概率密度函数，获得电压变化值出现某一值时的概率：假设出现千分之一以下的概率非常小，即认为：正常电压变化值范围为[-1.9255，1.7397]，不在此范围的即为异常值。表10为概率密度法异常值甄别结果。

表10概率密度法的异常点搜索结果(大噪声扰动)

故障ID	有功功率值(kW)	电压值(V)	电流值(A)
				120	0.0512	231.2	0.061
372	0.0953	228.3	0.187
				373	0.1035	223.1983	0.115
663	0.1092	229.4	0.183
				664	0.0805	238.7597	0.126
828	0.0419	226.5	0.07
				866	0.072	232.6	0.109
977	0.0407	228	0.065
				998	0.0422	222.2	0.067
1163	0.0419	230.8	0.085
				1302	0.0824	228.1	0.12
1314	0.0574	227.2	0.073
				1315	0.0639	225.4	0.132
1780	0.0709	228.6	0.14
				2160	0.0512	228.8	0.096
2192	0.1183	228.4	0.196

d)采用LSTM算法：预测使用前96天数据，ID+96为实际时刻值。图10为电压真实值及LSTM预测结果，图11为LSTM模型误差，即模型预测值减去真实值获得曲线，异常ID为372、663、866、2192、2768。

四种方法有效异常点汇总如表11所示。

表11四种检测方法的异常点搜索结果(大噪声扰动)

测试结论：采用双交叉的检验方法，在5个异常点中检测出了3个异常点。

遗漏点分析如表12所示。

表12异常检测的遗漏点(大噪声扰动)

序号	添加ID	U原始值(V)	U随机误差(V)	U异常点值(V)
					1	64	227.9	-0.9325	226.9675
4	1163	230.6	-1.5734	229.0266

从数据上看，1号异常点的误差为0.41％，5号异常点的误差0.68％，误差较小。A相电压均值228.891V，最大值232.8V，最小值221.9V。且电压的平均变化值为0.4083V(后一个电压值减去前一个电压值)，最大+6.8V，最小-6.7V。因此，这两个随机误差添加之后的电压值偏离原值很小，不易检测出。

3)实际电表的电流和功率测试结果

对电压、电流和功率数据进行异常值检测研究，得出测试电流和功率异常点，测试电表包括已知故障电表和未发现故障电表。

(1)电流变化率过大异常

对编号为49932的电表电流曲线进行分析，其5月7日电流曲线及电流变化值曲线如图12所示。从图中可以看出，在第37点处电流变化值较大，判定为异常值点。

(2)功率变化率过大异常

图13为编号29047电表在5月3日的功率及功率变化值，从图中可以看出，在第62、63及64点处功率变化值较大，判定为异常值点。

图14为编号45000电表在5月22日的异常值甄别功率、电流及其变化值曲线。从图14(a)中可以看出，在第46点处功率变化值较大，属于明显毛刺点，其数值为异常值。而此时图14(b)中的电流变化值较小，没有达到变化值判别阈值，因此第46点电流变化为在正常范围内，不被判断为异常。综上，第46点判定为功率异常。

(3)电流功率相关性异常

图15为编号29047电表在5月2日的A相功率曲线及A相电流曲线，从图中可以看出，在22,34,55及60等四点处，电流和功率相关性存在显著异常，即存在以下两种情况：

1)电流明显上升或维持较大值时，功率呈现异常下降现象或者维持较低值水平；

2)电流明显下降或维持较低值时，功率呈现异常上升现象或者维持较大值水平。

同理如图16，编号为64258的电表，其在5月6日的A相电流和A相功率曲线该图所示。该日的第34,35点出存在相关性异常现象。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于多判据融合的配变用采数据异常甄别方法，其特征在于，包括：

获取配变用采原始数据；

对所述配变用采原始数据进行预处理；

2.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法，其特征在于，所述获取配变用采原始数据，包括：

3.根据权利要求2所述的一种基于多判据融合的配变用采数据异常甄别方法，其特征在于，所述对所述配变用采原始数据进行预处理，包括：

对配变用采原始数据进行缺失值处理以及剔除明显异常值；

4.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法，其特征在于，当所述配变用采原始数据出现大规模数据缺失时，选用数据缺失之前的曲线进行计算。

5.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法，其特征在于，所述噪声点服从正态分布。

6.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法，其特征在于，所述采用原型聚类法对含异常点的用采数据序列进行异常点甄别，包括：

7.根据权利要求1所述的一种基于多判据融合的配变用采数据异常甄别方法，其特征在于，所述采用密度聚类法对含异常点的用采数据序列进行异常点甄别，包括：