CN109145957A

CN109145957A - 基于大数据的配电网异常指标的识别与处理方法及装置

Info

Publication number: CN109145957A
Application number: CN201810836346.3A
Authority: CN
Inventors: 陈蕾; 阙波; 盛晔; 陈彤; 郑贤舜; 叶怡君; 夏惠惠; 叶清泉; 郑圣; 涂金金; 李莉
Original assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2019-01-04
Anticipated expiration: 2038-07-26
Also published as: CN109145957B

Abstract

本发明公开了一种基于大数据的配电网异常指标的识别与处理方法，包括：采集配电网专公变运行实时数据并发送至配网智能运维管控***中，实时数据运行数据存放在分布式数据库HBase中；计算时用SPARK将运行实时数据从HBase数据库中加载至内存中，利用iForest算法识别出运行数据的异常值并将其删除，将剩余数据子集用k‑means算法聚类，聚类后用每个类别相应维度处的平均值填补删掉的异常值。上述方法采用的装置包括：数据采集、加载、剔除、聚类、处理模块。本发明利用分布式数据库HBASE存储专公变运行实时数据，通过大数据的分布式与并行计算框架SPARK对海量数据的高效分析，及时发现配电网运行实时数据的缺陷并做出修正。

Description

基于大数据的配电网异常指标的识别与处理方法及装置

技术领域

本发明属于配电网指标分析领域，具体涉及基于大数据的配电网异常指标的识别与处理方法及装置。

背景技术

配网处于整个电网的末梢，是电力企业面向社会的窗口，配网的运行管理直接关系千家万户，社会责任和影响巨大。随着社会的不断发展，对配网的精益化管理提出了越来越高的要求。配电网具有点多、线长、面广的特点，随着用电信息***的发展，采集装置的日益先进，大部分配网公用配变具备了采集电流、电压、功率的条件，有效的利用公变运行数据对指标进行统计分析，对于及早发现公变运行异常、采集数据质量、传输通道问题具有重要的实际意义。

目前，已提出公变三相不平衡、低电压、重过载等传统指标统计分析，能够较好的反映出配电网公变的运行情况，可以用于及时开展整治工作。然而随着公变运行数据的逐步累积，传统分析方法显得日渐乏力，因此，需要一种能够从数据源头掌控整体情况、更有利于开展整治工作和指定整治措施的分析方法。

发明内容

本发明的目的在于提供基于大数据的配电网异常指标的识别与处理方法及装置，能够有效提高数据质量，从而提高数据分析的效率和准确率，为制定整治措施提供依据，进一步提升配电网运行水平。

为了解决上述技术问题，本发明是通过以下技术方案实现的：基于大数据的配电网异常指标的识别与处理方法，包括以下步骤：

步骤A：采集公变运行数据并发送至用电信息采集***，并将公变运行数据存放在用电信息采集***的HBase数据库中；

步骤B：将公变运行数据从HBase库中加载至分布式内存中；

步骤C：利用iForest算法识别出运行数据的异常值并将其删除；

步骤D：将经过步骤C剩余数据子集用k-means算法聚类；

步骤E：将步骤D聚类后用每个类别相应维度处的平均值填补删掉的异常值。

优选的，步骤C中所述iForest算法识别运行数据异常值，具体为：

C1、对运行数据进行无放回随机抽样；

C2、根据样本数据构造iTree树，即随机选择一个维度，在该维度上随机选择一值作为划分点，将该维度里小于划分点的数据放在当前节点的左子叶，大于划分点的数据放在当前节点的右子叶；

C3、按步骤C2所述操作对子叶迭代，直到数据不可再分或树的高度达到阈值；

C4、按步骤C1、C2、C3所述的操作构建更多iTree树，组成iForest森林；

C5、将全部数据遍历所有iTree树，计算每个数据x在iTree上高度h(x)，由n个iTree树的h(x)计算异常指数s(x,n)，将异常指数超出阈值的数据点作为异常值识别出来。

优选的，步骤C5中h(x)为数据点x距离根节点的层数，异常指数s(x,n)由下式求得：

其中E(h(x))表示h(x)的均值，c(n)则由下式得到：

c(n)＝2H(n-1)-(2(n-1)/n)

其中，H(i)为调和级数，H(i)＝ln(i)+0.5772156649。

优选的，步骤D中所述将剔除掉异常值的剩余数据用k-means算法聚类，具体为：

D1、在剩余数据中随机选择K个点作为初始质心，其中K为指定的参数；

D2、计算其余所有点与质心点的欧氏距离；

D3、将所有与质心点距离值小于阈值的点归为一个聚类簇；

D4、重新计算每个聚类簇的中心点位置并定义其为新的质心；

D5、迭代步骤D2和步骤D3，直到达到设定的迭代次数或质心点位置收敛；

D6、计算聚类的轮廓系数，修改K值，重复步骤D1至D5，选择轮廓系数最高的聚类模型作为最终模型。

优选的，步骤D6中，聚类的轮廓系数S(i)由下式计算得到：

其中a(i)为样本i到同簇其它样本欧氏距离的均值，b(i)为样本i到其它簇所有样本欧氏距离的均值。

基于大数据的配电网异常指标的识别与处理装置，包括：

数据采集模块，采集公变运行数据并发送至用电信息采集***，以供用电信息采集***的HBase数据库存放公变运行数据；

数据加载模块，将公变运行数据从HBase库中加载至分布式内存中；

数据剔除模块，利用iForest算法识别出运行数据的异常值并将其删除；

数据聚类模块，将剩余数据子集用k-means算法聚类；

数据处理模块，将聚类后用每个类别相应维度处的平均值填补删掉的异常值。

优选的，所述数据剔除模块具体包括：

随机抽样单元，对运行数据进行无放回随机抽样；

构造iTree树单元，根据样本数据构造iTree树，即随机选择一个维度，在

该维度上随机选择一值作为划分点，将该维度里小于划分点的数据放在当前

节点的左子叶，大于划分点的数据放在当前节点的右子叶；

迭代单元，对子叶迭代，直到数据不可再分或树的高度达到阈值；

组建iForest森林单元，将更多的iTree树组成iForest森林；

异常识别单元，用于将全部数据遍历所有iTree树，计算每个数据x在iTree上高度h(x)，由n个iTree树的h(x)计算异常指数s(x,n)，将异常指数超出阈值的数据点作为异常值识别出来。

优选的，在所述异常识别单元中：h(x)为数据点x距离根节点的层数，异常指数s(x,n)由下式求得：

其中E(h(x))表示h(x)的均值，c(n)则由下式得到：

c(n)＝2H(n-1)-(2(n-1)/n)

其中，H(i)为调和级数，H(i)＝ln(i)+0.5772156649。

优选的，所述数据聚类模块具体包括：

初始质心建立单元，用于在剩余数据中随机选择K个点作为初始质心，其中K为指定的参数；

欧氏距离计算单元，用于计算其余所有点与质心点的欧氏距离；

聚类簇归类单元，将所有与质心点距离值小于阈值的点归为一个聚类簇；

新质心计算单元，将重新计算每个聚类簇的中心点位置并定义其为新的质心；

收敛单元，用于重复进行迭代，直到达到设定的迭代次数或质心点位置收敛；

模型建立单元，用于计算聚类的轮廓系数，修改K值，重复计算聚类的轮廓系数，选择轮廓系数最高的聚类模型作为最终模型。

优选的，在模型建立单元中：聚类的轮廓系数S(i)由下式计算得到：

与现有技术相比，本发明的优点是：本发明结合用电信息采集***采集的公变电流、电压、功率等运行数据，依托于大数据技术-分布式并行计算框架，采用时间复杂度低、准确率高的iForest算法识别异常数据点，利用收敛速度快、参数少、效果优良的k-means算法对剩余数据子集进行聚类，最终实现将异常值替换为正常值，本发明不但可以提高数据质量，提高后期数据分析的准确率，还能宏观掌控变压器的运行健康情况，发现采集装置和数据传输通道缺陷，对发现设备潜在的故障隐患，确保电力***安全稳定的运行具有重要的实际意义。

具体实施方式

下面的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实施例一：

基于大数据的配电网异常指标的识别与处理方法，包括以下步骤：

步骤A：采集公变电流、电压、功率通过电能表传送至用电信息采集***，并将公变运行数据存放在用电信息采集***的HBase数据库中；

步骤B：将公变运行数据从HBase库中加载至分布式内存中；

步骤C：利用iForest算法识别出运行数据的异常值并将其删除，具体为：

C1、对运行数据进行无放回随机抽样；

C5、将全部数据遍历所有iTree树，计算每个数据x在iTree上高度h(x)，由n个iTree树的h(x)计算异常指数s(x,n)，将异常指数超出阈值的数据点作为异常值识别出来；h(x)为数据点x距离根节点的层数，异常指数s(x,n)由下式求得：

其中E(h(x))表示h(x)的均值，c(n)则由下式得到：

c(n)＝2H(n-1)-(2(n-1)/n)其中，H(i)为调和级数，H(i)＝ln(i)+0.5772156649(欧拉常数)；

步骤D：将经过步骤C剩余数据子集用k-means算法聚类，具体为：

D2、计算其余所有点与质心点的欧氏距离，两个数据点x₁(x₁₁,x₁₂,x₁₃...)和x₂(x₂₁,x₂₂,x₂₃...)的欧氏距离由下式计算：

D3、将所有与质心点距离值小于阈值的点归为一个聚类簇；

D4、重新计算每个聚类簇的中心点位置并定义其为新的质心，每个簇的中心位置由下式计算得到：

其中，N为每个簇中的数据点个数，x_i为每个簇中的数据点的坐标向量；

D6、计算聚类的轮廓系数，修改K值，重复步骤D1至D5，选择轮廓系数最高的聚类模型作为最终模型，聚类的轮廓系数S(i)由下式计算得到：

本发明结合用电信息采集***采集的公变电流、电压、功率等运行数据，依托于大数据技术-分布式并行计算框架，采用时间复杂度低、准确率高的iForest算法识别异常数据点，利用收敛速度快、参数少、效果优良的k-means算法对剩余数据子集进行聚类，最终实现将异常值替换为正常值，本发明不但可以提高数据质量，提高后期数据分析的准确率，还能宏观掌控变压器的运行健康情况，发现采集装置和数据传输通道缺陷，对发现设备潜在的故障隐患，确保电力***安全稳定的运行具有重要的实际意义。

实施例二：

本申请还提出了基于大数据的配电网异常指标的识别与处理的装置，包括：

数据聚类模块，将剩余数据子集用k-means算法聚类；

具体的，所述数据剔除模块包括：

随机抽样单元，对运行数据进行无放回随机抽样；

节点的左子叶，大于划分点的数据放在当前节点的右子叶；

组建iForest森林单元，将更多的iTree树组成iForest森林；

而在异常识别单元中：h(x)为数据点x距离根节点的层数，异常指数s(x,n)由下式求得：

其中E(h(x))表示h(x)的均值，c(n)则由下式得到：

c(n)＝2H(n-1)-(2(n-1)/n)

其中，H(i)为调和级数，H(i)＝ln(i)+0.5772156649。

具体的，所述数据聚类模块具体包括：

而模型建立单元中：聚类的轮廓系数S(i)由下式计算得到：

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.基于大数据的配电网异常指标的识别与处理方法，其特征在于，包括以下步骤：

步骤B：将公变运行数据从HBase库中加载至分布式内存中；

步骤D：将经过步骤C剩余数据子集用k-means算法聚类；

2.如权利要求1所述的基于大数据的配电网异常指标的识别与处理方法，其特征在于，步骤C中所述iForest算法识别运行数据异常值，具体为：

C1、对运行数据进行无放回随机抽样；

3.如权利要求2所述的基于大数据的配电网异常指标的识别与处理方法，其特征在于，步骤C5中h(x)为数据点x距离根节点的层数，异常指数s(x,n)由下式求得：

其中E(h(x))表示h(x)的均值，c(n)则由下式得到：

c(n)＝2H(n-1)-(2(n-1)/n)

其中，H(i)为调和级数，H(i)＝ln(i)+0.5772156649。

4.如权利要求1所述的基于大数据的配电网异常指标的识别与处理方法，其特征在于，步骤D中所述将剔除掉异常值的剩余数据用k-means算法聚类，具体为：

D2、计算其余所有点与质心点的欧氏距离；

D3、将所有与质心点距离值小于阈值的点归为一个聚类簇；

5.如权利要求4所述的基于大数据的配电网异常指标的识别与处理方法，其特征在于，步骤D6中，聚类的轮廓系数S(i)由下式计算得到：

6.基于大数据的配电网异常指标的识别与处理装置，其特征在于，包括：

数据聚类模块，将剩余数据子集用k-means算法聚类；

7.如权利要求6所述基于大数据的配电网异常指标的识别与处理装置，其特征在于，所述数据剔除模块具体包括：

随机抽样单元，对运行数据进行无放回随机抽样；

构造iTree树单元，根据样本数据构造iTree树，即随机选择一个维度，在该维度上随机选择一值作为划分点，将该维度里小于划分点的数据放在当前节点的左子叶，大于划分点的数据放在当前节点的右子叶；

组建iForest森林单元，将更多的iTree树组成iForest森林；

8.如权利要求7所述基于大数据的配电网异常指标的识别与处理装置，其特征在于，在所述异常识别单元中：h(x)为数据点x距离根节点的层数，异常指数s(x,n)由下式求得：

其中E(h(x))表示h(x)的均值，c(n)则由下式得到：

c(n)＝2H(n-1)-(2(n-1)/n)

其中，H(i)为调和级数，H(i)＝ln(i)+0.5772156649。

9.如权利要求6所述基于大数据的配电网异常指标的识别与处理装置，其特征在于，所述数据聚类模块具体包括：

新质心计算单元，将重新计算每个聚类簇的中心点位置并定义其为新的质心；收敛单元，用于重复进行迭代，直到达到设定的迭代次数或质心点位置收敛；

10.如权利要求9所述基于大数据的配电网异常指标的识别与处理装置，其特征在于，在模型建立单元中：聚类的轮廓系数S(i)由下式计算得到：