CN113673551B

CN113673551B - 一种电力计量不良数据辨识方法及***

Info

Publication number: CN113673551B
Application number: CN202110741482.6A
Authority: CN
Inventors: 陈祉如; 代燕杰; 刘轶娟; 郭亮; 荆臻; 杜艳; 董贤光; 张志�; 赵曦
Original assignee: Shandong University; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; State Grid Shandong Electric Power Co Ltd; Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Current assignee: Shandong University; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; State Grid Shandong Electric Power Co Ltd; Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-05-28
Anticipated expiration: 2041-06-30
Also published as: CN113673551A

Abstract

本公开提出了一种电力计量不良数据辨识方法及***，包括：获得原始电力计量数据并进行预处理；将预处理后的电力计量数据进行聚类；判断待测数据与其所属用户的聚类结果是否具有类间相似性，若有，则该数据为准确数据，若没有，则继续判断聚类后的数据是否具有平滑性，若有，则该数据为准确数据，否则为不准确数据即不良数据。通过提出准确性量化指标，将准确性这一电力计量数据的质量特征之一进行更为直观地量化表达。

Description

一种电力计量不良数据辨识方法及***

技术领域

本公开属于电力计量数据辨识技术领域，尤其涉及一种电力计量不良数据辨识方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，电力市场作为实现电力资源优化配置的重要手段，进入了快速发展阶段，电力计量也同时成为了电力市场发展过程中非常重要的基础环节。电力计量数据蕴含着丰富的信息，对于正在发展中的电力市场具有重要意义。通过对电力计量数据的处理和分析，可以获得更多的用户用电方式的信息，从而在电力计量数据缺失时寻找到更佳的拟合和替代方案，并在之后开展零售市场时为用户零售套餐的推荐提供更多有价值的参考。

目前，电力计量技术正在逐步向自动化、智能化的方向发展。电力计量数据的质量相对于人工计量时代已有很大的提升。但是，随着我国生产生活中对于电力需求逐步增加，在实际运行过程中，由电力计量表的计量故障、数据采集传输过程中的干扰等原因，导致电力计量数据质量不稳定的现象依然存在。在电力计量数据质量的衡量方面，数据的完整性、及时性和准确性是主要衡量指标。其中完整性和及时性已有较为完备的评估方法，但准确性作为其中最为重要的衡量指标，其评估方法尚不成熟。

“刘莉,王刚,翟登辉.k-means聚类算法在负荷曲线分类中的应用[J].电力***保护与控制,2011,39(23):65-68+73”、“刘辉舟,周开乐,胡小建.基于模糊负荷聚类的不良负荷数据辨识与修正[J].中国电力,2013,46(10):29-34”等文献提出了不良数据的识别方法，前者通过横向相似性或纵向平滑性来确定不准确数据；后者通过经验确定各类负荷曲线负荷值允许变化的范围，超过该范围的判定为不准确数据。两者均给出了判断不良数据的方法，但提出的不准确数据判定方法较为单一，实际应用中可能存在误判的情况。本方法同时结合了负荷曲线具有的横向相似性和纵向平滑性的特点，较前两者来说考虑得更加全面，可以有效降低误判率。本方法适用于寻找由电磁干扰等原因造成的计量数据采集中个别数据突变而产生的不准确数据。主要针对已经获得的电力计量数据，通过对由电力计量数据中的有功功率组成的日负荷曲线进行分析来辨识不准确数据。

总之，现有技术中关于电力计量不良数据的获取存在的技术问题为：现有技术中存在的不良数据辨识方法大多需要结合除有功功率外的一些数据信息，如结合获取计量数据的***线路结构进行判断等。与之前一些方法不同的是，本方法主要关注的是用户的用电规律和习惯，通过电力计量设备获取的负荷曲线本身，而与获取数据的设备、方式以及所处***的线路结构均无关，更加快捷方便，能对所有可以获取负荷曲线的情况进行不准确数据辨识。

发明内容

为克服上述现有技术的不足，本公开提供了一种电力计量不良数据辨识方法，所寻找的其中不准确数据点能较好地降低误判率。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

第一方面，公开了一种电力计量不良数据辨识方法，包括：

获得原始电力计量数据并进行预处理；

将预处理后的电力计量数据进行聚类；

判断待测数据与其所属用户的聚类结果是否具有类间相似性，若有，则该数据为准确数据，若没有，则判为可疑数据，并继续判断待测数据是否具有平滑性，若有，则该数据为准确数据，否则为不准确数据即不良数据。

进一步的技术方案，将预处理后的电力计量数据进行聚类时将聚类有效性指标C_c与k-means聚类算法相结合，具体为：

确定一个初始聚类数目k值；

从n个样本中选择k个样本作为初始聚类中心；

计算每个样本与聚类中心间的距离；

依照最小距离即误差平方和最小的原则重新划分样本；

计算每一类样本的均值作为新的聚类中心；

若前后两次迭代聚类中心距离变化之和小于阈值，则迭代结束；

计算聚类有效性指标C_c；

选择不同的k值进行上述步骤，并计算聚类有效性指标，从中选取有效性指标值最大的聚类数目k，此时的聚类数目和聚类结果最优。

进一步的技术方案，判断待测数据是否具有类间相似性时，定义类间相似度指标δ(i)：

δ(i)表示待测负荷曲线上第i点数据的类间相似度，LP_c(i)为待测负荷曲线上第i点数据，LP_d(i)为该负荷所属类典型负荷曲线上第i点数据，设定阈值r，认为当δ(i)∈[-r，r]时该数据属于准确数据，反之，当时，该数据被认定为可疑数据。

进一步的技术方案，运用平滑性这一特征对可疑数据进行进一步筛选，平滑性指标可以通过对比可疑数据前后两点的数据进行衡量。

进一步的技术方案，假设负荷曲线LP_c上的第i点被认定为可疑数据，则定义平滑性度量指标ε(i)：

ε(i)表示待测负荷曲线上第i点数据的平滑度。与衡量相似性指标的方法类似，设定阈值u，认为当ε(i)∈[-u，u]时将该数据认定为准确数据，反之，当该可疑数据被认定为不准确数据。

进一步的技术方案，阈值r和u可根据运行经验进行确定。

进一步的技术方案，还包括：计量数据准确性的评估的步骤，具体为：

通过比较不准确数据与所有采样数据的个数可以衡量计量数据的准确度。

第二方面，公开了一种电力计量不良数据辨识***，包括：

电力计量数据获取模块，被配置为：获得原始电力计量数据并进行预处理；

电力计量数据聚类模块，被配置为：将预处理后的电力计量数据进行聚类；

不良数据确定模块，被配置为：判断待测数据与其所属用户的聚类结果是否具有类间相似性，若有，则该数据为准确数据，若没有，则继续判断待测数据是否具有平滑性，若有，则该数据为准确数据，否则为不准确数据即不良数据。

以上一个或多个技术方案存在以下有益效果：

本发明将相关性系数引入聚类有效性评价，以相关性系数来表征样本之间距离，并由此定义了聚类有效性指标C_c。与以往常用的Xie-Beni指标使用欧式距离计算聚类类内距离或类间距离相比，有效性指标C_c从另一方面衡量了聚类算法的有效性。

本发明提出的判断聚类有效性的指标在聚类样本与聚类数目不同时表现为不同的计算结果。当C_c取值最大时，聚类效果最好。由此本发明将传统的k-means聚类算法与有效性指标C_c的计算相结合，通过迭代可以确定最优的聚类数目。

本发明提出了一种基于类内相似性与自身平滑性的电力计量不良数据辨识方法。通过将待测负荷曲线与典型曲线的类内相似性判别与待测负荷曲线自身平滑性判别相结合，能够一定程度上减少由于判别标准单一产生的误判。通过提出准确性量化指标，将准确性这一电力计量数据的质量特征之一进行更为直观地量化表达。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例改进的k-means聚类算法流程图；

图2为本公开实施例基于类内相似性与自身平滑性的不良数据辨识方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种电力计量不良数据辨识方法，首先介绍基于相关系数的聚类效果评价指标：

聚类有效性有多种评价指标，从根本来说均是通过判断聚类结果的类内距离和类间距离来进行量化的有效性判断。一个良好的聚类结果应该实现各类之间的距离尽可能大，而各样本到其聚类中心的距离尽可能小。本发明将相关性系数引入聚类有效性评价，以相关性系数来表征样本之间距离，由此构造出一个新的聚类有效性评价指标C_c。C_c由类内相关性系数和类间相关性系数组成，能够同时反映类内相似性与类间相似性。指标定义过程如下：

首先，类内相关性系数定义为：

其中，α_ci表示第c类第i条负荷曲线的类内相关性系数，x_cb表示第c个聚类结果典型负荷曲线上的第b个数据点，表示第c类典型负荷曲线上各点的均值，x_ib表示第c类中第i条曲线上的第b个数据点，/>表示第c类中第i条曲线的均值，m为每条负荷曲线上数据点的个数。

类间相关性系数定义为：

其中，β_cj表示第c个聚类中的典型负荷曲线与第j类的典型负荷曲线的类间相关性系数，x_cb表示第c个聚类中典型负荷曲线上的第b个数据点，表示第c类典型负荷曲线的数据均值，x_jb则表示第j类典型负荷曲线上的第b个数据点，/>表示第j类典型负荷曲线上的数据均值。

定义聚类有效性指标C_c：

其中，n为样本总数，kc表示第c个聚类中所包含的样本数。由于相关性系数是一个小于1的数，越接近于1说明两者的相关性越强，是类内相关性系数之和，max(β_cj)是类间相关性系数的最大值，将上下两部分相除得到聚类有效性指标C_c。当聚类个数k取不同值时，指标C_c的大小不同，当C_c取值最大时，代表聚类效果越好，由此可得最佳聚类个数。

关于改进的k-means聚类算法

数据归一化

为了在聚类时使数值差距较大的负荷曲线也具有可比性，需要先对数据进行归一化处理。因为在聚类时直接选用每个小时的计量数据点作为特征，不存在量纲不统一的情况，所以选择极值线性归一化公式，公式如下：

其中，LP(i)表示日负荷曲线上第i点的原始数据，表示日负荷曲线上第i点的归一化数据。

将前文中定义的聚类有效性指标C_c与k-means聚类算法相结合，建立使k值确定更有依据的改进k-means聚类算法。参见附图1所述，其基本实施步骤如下：

(1)据经验确定一个k值；

(2)从n个样本中选择k个样本作为初始聚类中心：C[0]，C[1]，...，C[k-1]；

(3)计算每个样本与聚类中心间的距离；样本指电力用户的日负荷曲线，由每小时一个点(全天24个点)或每15分钟一个点(全天96个点)组成的反映用户用电量随时间变化趋势的曲线。可通过电力计量设备获得。

(4)依照最小距离(即误差平方和)的原则重新划分样本；

(5)计算每一类样本的均值作为新的聚类中心，

(6)判断前后两次迭代聚类中心距离变化之和小于阈值，则迭代结束，否则重复步骤(3)、(4)、(5)直到满足条件；

(7)计算聚类有效性指标C_c；

(8)返回(1)，选择不同的k值进行上述步骤，并计算聚类有效性指标C_c，从中选取C_c指标值最大的聚类数目k，认为此时的聚类数目和聚类结果最优。

在具体实施例子中，参见附图2所示，基于类内相似性与自身平滑性的电力计量不良数据辨识方法，具体包括：

(1)不良数据判别

同一用户在生产生活中，在相同类型的工作日或节假日，用电是遵循一定规律的，也即不同日期负荷曲线形状是相似的。而一天内的负荷曲线变化也是有规律的，虽说有用电负荷的突然开启，但与相邻时刻比较，这一变化也是有限度的，也即负荷曲线自身存在一定的平滑性。基于此，在判别不准确数据时，首先使用相似性这一特征。运用比值的方式，通过考察数据的横向相似性寻找不准确数据。假设LP_d为某类典型日负荷曲线，LP_c为某待检测的日负荷曲线。定义类间相似度指标δ(i)：

δ(i)表示待测负荷曲线上第i点数据的类间相似度，LP_c(i)为待测负荷曲线上第i点数据，LP_d(i)为该负荷所属类典型负荷曲线上第i点数据。设定阈值r，认为当δ(i)∈[-r，r]时该数据属于准确数据，反之，当时，该数据被认定为可疑数据。

之后，可以运用平滑性这一特征对可疑数据进行进一步筛选。平滑性这一指标可以通过对比可疑数据前后两点的指标进行衡量，假设负荷曲线LP_c上的第i点被认定为可疑数据，则定义平滑性度量指标ε(i)：

关于上述提到的阈值r和u，在实际应用中，可由电网运行人员根据经验进行确定。

(2)计量数据准确性的评估

计量数据由每个采样点量测所得的数据组成，其中部分采样点的数值因计量装置故障、信号采集或传输受到干扰等导致可能偏离真实值，出现数据不准确问题。因此，通过比较不准确数据与所有采样数据的个数可以衡量计量数据的准确度。由此，本发明定义计量准确度指标μ来衡量日采集计量数据的准确性，指标定义如下：

式中，n_b代表某日负荷计量数据中不准确数据的个数，N表示此日负荷中所有采样点的个数。

(3)一种新的聚类有效性评价指标

聚类算法在进行样本与聚类中心距离计算时多选用欧式距离或马氏距离，然后再用同样的距离计算方法去评估聚类的有效性。由此带来聚类算法适用性的问题。如果选用的距离计算方法对聚类对象不适用的话，由此得出的聚类有效性评价结果也不可信。本发明提出一种基于相关性系数的聚类效果评价指标，从统计学的角度对聚类结果进行评价，可减轻聚类算法评价的片面影响，使评价结果更为合理。

传统的k-means聚类算法在进行聚类时需要人为指定聚类数目k，而k的取值直接关系到聚类效果。如何确定最优的聚类数目k一直以来是聚类算法研究的重要内容。本发明提出的判断聚类有效性的指标在聚类样本与聚类数目不同时表现为不同的计算结果。当C_c取值最大时，聚类效果最好。由此本发明提出一种改进的k-means聚类算法，将传统的k-means聚类算法与有效性指标C_c的计算相结合，通过迭代可以确定最优的聚类数目，使聚类个数的确定更加科学客观。

本发明通过衡量用户日负荷曲线的类内相似性与自身平滑性来寻找其中的不准确数据点。相比于仅通过类内相似性或自身平滑性来寻找负荷曲线中的不准确数据点可能会出现准确数据误判为不准确数据的情况，本发明将两者进行结合，可以较好地降低误判率。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

实施例四

本实施例的目的是提供了一种电力计量不良数据辨识***，包括：

电力计量数据获取模块，被配置为：获得原始电力计量数据并进行预处理；该部分主要硬件设备包括：

用户侧安装的各种电能计量表计：直接实现用户每小时或规定的时段划分用电量、负荷的记录；

电力计量终端：用于对表计所记录计量数据的归集、上送，并接收上层管理端的控制命令；

传输网络：实现计量采集数据传输的网络，包括光纤专网和无线专网等；

数据服务器：用于历史计量数据的存储和分析；

该部分主要硬件设备包括：

应用服务器：用于聚类模块程序存储和执行。

不良数据确定模块，被配置为：判断待测数据是否具有类间相似性，若有，则该数据为准确数据，若没有，则继续判断待测数据是否具有平滑性，若有，则该数据为准确数据，否则为不准确数据即不良数据。

该部分主要硬件设备包括：

应用服务器：用于不良数据确定模块程序存储和执行。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种电力计量不良数据辨识方法，其特征是，包括：

获得原始电力计量数据并进行预处理；

将预处理后的电力计量数据进行聚类；所述将预处理后的电力计量数据进行聚类时将聚类有效性指标C_c与k-means聚类算法相结合；其中，所述聚类有效性指标C_c由类内相关性系数和类间相关性系数组成，能够同时反映类内相似性与类间相似性，具体定义为：

其中，n为样本总数，kc表示第c个聚类中所包含的样本数，α_ci表示第c类第i条负荷曲线与该类中聚类结果典型负荷曲线的类内相关性系数，β_cj表示第c个聚类中的典型负荷曲线与第j类的典型负荷曲线的类间相关性系数；

当聚类个数k取不同值时，指标C_c的大小不同，当C_c取值最大时，代表聚类效果越好，由此可得最佳聚类个数；

判断待测数据与其所属用户的聚类结果是否具有类间相似性，若有，则该数据为准确数据，若没有，则判为可疑数据，并继续判断待测数据是否具有平滑性，若有，则该数据为准确数据，否则为不准确数据即不良数据；

具体的，判断待测的数据是否具有类间相似性时，定义类间相似度指标δ(i)：

δ(i)表示待测负荷曲线上第i点数据的类间相似度，LP_c(i)为待测负荷曲线上第i点数据，LP_d(i)为该负荷所属类典型负荷曲线上第i点数据，设定阈值r，认为当δ(i)∈[-r,r]时该数据属于准确数据，反之，当时，该数据被认定为可疑数据；

运用平滑性这一特征对可疑数据进行进一步筛选，平滑性指标通过对比可疑数据前后两点的数据进行衡量；

假设负荷曲线LP_c上的第i点被认定为可疑数据，则定义平滑性度量指标ε(i)：

ε(i)表示待测负荷曲线上第i点数据的平滑度；设定阈值u，认为当ε(i)∈[-u,u]时将该数据认定为准确数据，反之，当该可疑数据被认定为不准确数据；

还包括：计量数据准确性的评估的步骤，通过比较不准确数据与所有采样数据的个数衡量计量数据的准确度；

具体的，定义计量准确度指标μ来衡量日采集计量数据的准确性，指标定义如下：

2.如权利要求1所述的一种电力计量不良数据辨识方法，其特征是，将预处理后的电力计量数据进行聚类时将聚类有效性指标C_c与k-means聚类算法相结合，具体为：

确定一个初始聚类数目k值；

从n个样本中选择k个样本作为初始聚类中心；

计算每个样本与聚类中心间的距离；

依照最小距离即误差平方和的原则重新划分样本；

计算每一类样本的均值作为新的聚类中心；

计算聚类有效性指标C_c；

3.如权利要求1所述的一种电力计量不良数据辨识方法，其特征是，阈值r根据经验进行确定；

阈值u根据经验进行确定。

4.一种电力计量不良数据辨识***，其特征是，包括：

电力计量数据聚类模块，被配置为：将预处理后的电力计量数据进行聚类；所述将预处理后的电力计量数据进行聚类时将聚类有效性指标C_c与k-means聚类算法相结合；其中，所述聚类有效性指标C_c由类内相关性系数和类间相关性系数组成，能够同时反映类内相似性与类间相似性，具体定义为：

不良数据确定模块，被配置为：判断待测的数据是否具有类间相似性，若有，则该数据为准确数据，若没有，则继续判断待测的数据是否具有平滑性，若有，则该数据为准确数据，否则为不准确数据即不良数据；

判断待测的数据是否具有类间相似性时，定义类间相似度指标δ(i)：

5.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1-3任一所述的方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述权利要求1-3任一所述的方法的步骤。