CN114528949A

CN114528949A - 一种基于参数优化的电能计量异常数据的识别与补偿方法

Info

Publication number: CN114528949A
Application number: CN202210294793.7A
Authority: CN
Inventors: 李伟东; 宋晶晶
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-05-24

Abstract

本发明提供了一种基于参数优化的电能计量异常数据的识别与补偿方法，首先采用改进的粒子群优化的密度聚类算法训练并提取了用户的电能计量负荷数据统计特征，得到各类别用户负荷数据以及各类别用户数据特征。其次，采用基于孤立森林(iForest)的算法对电力数据集进行异常检测，引入遗传算法(genetic algorithm)构造了一个新的异常检测模型GA‑iForest，对负荷数据进行判断并确定异常类型，最后通过训练好的LSTM深度神经网络对数据进行补偿修正，达到了用电计量用户数据补偿的目的,可获得提高电力负荷计量精度的有益效果。

Description

一种基于参数优化的电能计量异常数据的识别与补偿方法

技术领域

本发明涉及一种电力负荷预测技术领域，尤其是涉及一种基于参数优化的电能计量异常数据的识别与补偿方法。

技术背景

随着智能电网技术的不断发展，获取电力数据的途径越来越多，获得的电力运行数据也越来越多。因此，从采集的海量电力运行数据中获取真实可靠的数据变得非常重要。由于大量配套***使用，会生成非结构化的数据，以及多种设备故障、电网波动和通信故障等原因导致大量异常数据出现，对于电能计量数据准确性、实时性和动态性要求影响很大。通过分析异常数据特征，充分挖掘背后蕴藏的重要信息，如故障定位检测、精准负荷预测和需求侧响应等，分析异常产生原因，能够为异常的预防提供参考，进而减少异常发生。因此分析、辨识和修正异常数据具有重大意义。

发明内容

本发明针对上述存在的问题,提出了一种基于参数优化的电能计量异常数据的识别与补偿方法，通过聚类分析、特征提取、异常数据识别来提高电力负荷预测于补偿的精度。

本发明的目的可以通过以下技术方案来实现:一种基于优化选取典型日负荷曲线的电力负荷预测方法,包括以下步骤:

获取负荷原始数据；

对负荷原始数据进行预处理，得到训练数据集；

采用改进的密度聚类算法将各类别用户负荷数据聚类，得到聚类结果并提取用户特征

利用改进的改进的粒子群优化的密度聚类算法，具体过程如下：

输入：样本数据集，样本总数k,聚类数目m，例子种群大小M，最大迭代次数Maxlter.加速常数c1、c2，惯性权重ω，MinPts值。

输出：数据集的m个类簇划分，最优适应度值及其对应的粒子所代表的初始聚类中心和Eps值。

Begin

初始化：设定粒子的位置Z_i的搜索空间为[0.001，k]，k为数据集的平均相异度值；

粒子的速度V_i的搜索空间为[-V_max，+V_max]，设定；V_max＝k

初始化种群P(0)；

For t＝1to最大迭代次数do

计算粒子群体P(t)中个例子个体的DBSCAN聚类结果的适应度；

if粒子适应度值<P_id的适应度值

更新P_id；

end

if粒子适应度值<P_gd的适应度值

更新P_gd

end

分别更新粒子速度和粒子位置；

end for

输出整个搜索空间找到的最小适应度值所对应的类簇划分；

End

算法初始化过程中，数据集的平均相异度D，定义如下:

n为数据集中所有样本的数目，s(i，j)为数据集中样本i与样本j之间的相异度。样本的平均相异度值可以大致描述整个数据集的数据特征，算法将其作为粒子群优化搜索Eps范围空间的上限值。

提取特征输入到异常检测模型GA-iForest中，通过训练完成的模型再对用户负荷数据进行判断并确定异常类型。

其中，GA-iForest模型的构造过程包括：

iForest的优化从GA的基本步骤进行考虑，其中最主要的包括初始化，交叉，变异以及选择。遗传算法优化隔离森林模型构造流程描述如下:

输入:ListN，Time，mp，cp；

ListN:初始的隔离森林种群；

Time:遗传算法优化最大迭代次数；

mp:变异概率；

cp:交叉概率；

输出:最优隔离森林个体List

步骤1.通过对数据集空间不断划分实现iTree以及Forest的构建；

步骤2种群初始化:将单个森林视为一个个体，个体中包含多棵iTree即为每个个体的“基因编码”，每个森林为一个链表List，其中List[i]表示对应的一棵iTree，构建N个个体组成初始化种群ListN(N＝1,2,3,4)即初始种群为List1、List2、List3、List4；

步骤3.For i＝1to Time:

(a)计算每个个体的适应度值，计算初始种群中每个List的适应度值；

(b)交叉，初始群体中的N个链表按照概率cp进行相互交叉,将每个个体链表的前后半段进行互换，即将List1[1...i]与List2[i+1...n]互换，同理List3[i]与List4[i]；经过交叉之后，初始群体中的个体N,由开始的N＝4变成N＝8(List1，List2，List3，...，List8)；

(c)变异，对于交叉产生的单个个体List按照概率mp进行变异，其中List[i]为对应森林中的一棵iTree二叉树，随机选定一棵树List[i]进行变异操作，变异操作即对选定的iTree进行重构；

(d)选择，根据适应度值Fitness去对森林List进行选择，其中Fitness函数由精度与差异度组成，选择的方式参照随机排序规则，对交叉变异后产生的新解与初始群体中的原始个体进行选择，选出下一代N(N＝4)个个体；

(e)如果达到终止条件则输出，否则回到步骤(a)进行下一轮迭代，终止条件为当GA优化过程里连续若干代(Time)中个体的适应度值均高于传统的IsolationForest模型则停止迭代或者达到最大迭代次数；

步骤4.输出:输出为当前群体中的最优个体List，即为具有更优适应度值的森林iForest。

4.根据权力要求1所述的一种基于参数优化的电能计量异常数据的识别与补偿方法，其特征在于，将所述训练集输入到LSTM深度神经网络中进行训练，得到电力负荷预测模型包括：

步骤1.建立LSTM模型。确定需要寻优的参数，神经元数量L1，学习率ε和训练迭代次数k，并确定它们各自寻优的范围。

参数名	参数下限	参数上限	最小速度	最大速度
					神经元个数L	1	400	-2	2
学习率ε	0.001	0.01	-0.001	0.001
					训练次数k	200	1000	-2	2

其中，LSTM时间序列预测模型主要包括以下四个部分：

1)时间序列数据预处理，值得注意的是，由于模型属于学习训练类模型，需要将数据集进行归一化等处理，防止训练过程发散，保证模型训练过程中的收敛性。

2)定义LSTM模型的输入维度、网络层数以及输出维度。

3)设定训练的优化器、模型初始参数以及损失函数，并开始训练。

4)得到训练好的模型，利用训练好的模型对负荷数据进行预测。

步骤2.初始化PSO参数。包括粒子的初始速度和位置，学习权重，训练次数和规模等。

步骤3.确定粒子的适应度函数。本文将预测模型的MAPE值作为粒子的适应度函数，寻找最优模型参数。

步骤4.比较粒子的适应度值。寻找个体最优位置和全局最优位置，更新最优的适应度值。

步骤5.判断是否达到最大迭代次数。如果达到最大迭代次数，将得到的最优参数传给LSTM模型，并进行训练和预测。若未达到要求，则返回步骤(5)。将LSTM的3个超参数作为PSO的待优化参数，适应度函数设置为F(x)＝min(MAPE)(2)其中平均绝对百分比误差(MAPE)是指用电量真实值和预测值之间的百分比误差的平均值：

上式，Y_actual代表负荷的实际值，Y_pre代表负荷的预测值，n表示预测负荷点的个数。同时，设置种群规模为20个，最大迭代次数设50次，学习因子c1＝2，c2＝2。LSTM超参数的设置范围如表1所示。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本申请基于参数优化的电能计量异常数据的识别与补偿方法一实施例的流程示意图。

图2是LSTM内部网络结构。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明进行进一步详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

实施例如图1，一种基于参数优化的电能计量异常数据的识别与补偿方法，包括以下步骤：

步骤1.获取历史电力负荷数据，形成负荷数据集；

步骤2.对负荷数据集进行预处理；

步骤3.采用改进的粒子群优化的密度聚类算法训练并提取了用户的电能计量负荷数据统计特征，得到各类别用户负荷数据以及各类别用户数据特征；

步骤4.采用基于孤立森林(iForest)的算法对电力数据集进行异常检测，引入遗传算法(genetic algorithm)构造了一个新的异常检测模型GA-iForest，对负荷数据进行判断并确定异常类型；

步骤5.通过训练好的LSTM深度神经网络对数据进行补偿修正。主要过程包括：

1.数据预处理

采用最大最小归一化方法，其公式为：

其中，y为归一化结果；

y_max和y_min分别为归一化后变量的最小值与最大时，

x为待归一化变量；

x_max和x_min分别为待归一化变量的最小值与最大值。

2.聚类算法

将得到的训练数据集通过优化的密度聚类算法进行聚类，根据聚类结果，得到各类别用户负荷数据以及各类别用户数据特征。

利用改进粒子群优化密度聚类算法，具体过程如下：

Begin

粒子的速度V_i的搜索空间为[-V_max，+V_max]，设定；V_max＝k

初始化种群P(0)；

For t＝1to最大迭代次数do

计算粒子群体P(t)中个例子个体的DBSCAN聚类结果的适应度；

if粒子适应度值<P_id的适应度值

更新P_id；

end

if粒子适应度值<P_gd的适应度值

更新P_gd

end

分别更新粒子速度和粒子位置；

end for

输出整个搜索空间找到的最小适应度值所对应的类簇划分；

End

算法初始化过程中，数据集的平均相异度D，定义如下:

采用的DBSCAN聚类算法和适应度计算公式如下：

步骤1.根据粒子编码值初始化DBSCAN算法的Eps值，MinPts值固定为5

步骤2.选择数据集合中任意一个不属于任何聚类的核心对象P，创建一个新的聚类；

步骤3.根据该聚类中的核心对象，循环收集密度可达的核心对象加入该聚类，直到没有新的核心对象加入为止；

步骤4.若不存在不属于任何聚类的核心对象，则转步骤5，否则返回步骤2继续执行；

步骤5.将与核心对象密度相连的边界对象归类到相应核心对象所属类簇；

步骤6.根据DBSCAN聚类结果按下式计算粒子适应度值。

其中n为DBSCAN算法聚类结果生成的类簇数目，k为输入的期望聚类个数。根据DBSCAN密度聚类算法的类簇扩展特点，适应度函数通过考察聚类结果的数目与输入的期望聚类个数的符合程度来对聚类结果进行评价，当聚类结果中类簇数目为期望的聚类个数时，适应度函数值为0。

3.GA-iForest模型的构造

输入:ListN，Time，mp，cp；

ListN:初始的隔离森林种群；

Time:遗传算法优化最大迭代次数；

mp:变异概率；

cp:交叉概率；

输出:最优隔离森林个体List

步骤1.通过对数据集空间不断划分实现iTree以及Forest的构建；

步骤3.For i＝1to T:

(e)如果达到终止条件则输出，否则回到步骤〈a)进行下一轮迭代，终止条件为当GA优化过程里连续若干代(Time)中个体的适应度值均高于传统的IsolationForest模型则停止迭代或者达到最大迭代次数；

4.训练电力负荷预测模型

如图2，长短期记忆网络的单元细胞主要包含了输入门(input gate)、输出门(output gate)、遗忘门(forget gate)和细胞状态(Cell State)。其中，三种门结构使LSTM具有了选择性记忆功能，可以控制单元细胞A的记忆过程。具体而言，通过门控制选择性地遗忘一部分无关次要的信息，并对重要的信息进行保留，以此方式扩大网络的记忆范围。输出门在t时刻会产生输出h和状态控制信息C。其中h,与循环神经网络的输出相同，表示模型的预测结果；而C则是表示细胞状态，用来控制细胞内门的开关与否。

其中，LSTM时间序列预测模型主要包括以下四个部分：

2)定义LSTM模型的输入维度、网络层数以及输出维度。

步骤5.判断是否达到最大迭代次数。如果达到最大迭代次数，将得到的最优参数传给LSTM模型，并进行训练和预测。若未达到要求，则返回步骤(5)。

5.其中平均绝对百分比误差(MAPE)是指用电量真实值和预测值之间的百分比误差的平均值：

上式，Y_actual代表负荷的实际值，Y_pre代表负荷的预测值，n表示预测负荷点的个数。同时，设置种群规模为20个，最大迭代次数设50次，学习因子c1＝2，c2＝2。、

综上所述，本发明首先采用改进的粒子群优化的密度聚类算法训练并提取了用户的电能计量负荷数据统计特征，得到各类别用户负荷数据以及各类别用户数据特征。其次，采用基于孤立森林(iForest)的算法对电力数据集进行异常检测，引入遗传算法(geneticalgorithm)构造了一个新的异常检测模型GA-iForest，对负荷数据进行判断并确定异常类型，最后通过训练好的LSTM深度神经网络对数据进行补偿修正，达到了用电计量用户数据补偿的目的,可获得提高电力负荷计量精度的有益效果。

以上所述，详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于参数优化的电能计量异常数据的识别与补偿方法，其特征在于包括：获取电力负荷原始数据，进行数据预处理，将所有数据归一化，得到训练数据集；将得到的训练数据集通过优化的密度聚类算法进行聚类，根据聚类结果，得到各类别用户负荷数据以及各类别用户数据特征；提取特征输入到异常检测模型GA-iForest中，通过训练完成的模型再对用户负荷数据进行判断并确定异常类型；将所述训练集输入到LSTM深度神经网络中进行训练，得到电力负荷预测模型；通过训练好的LSTM深度神经网络对数据进行补偿修正。

2.根据权利要求1所述的一种基于参数优化的电能计量异常数据的识别与补偿方法，其特征在于，所述的数据归一化方法采用最大最小归一化方法，其公式为：

其中，y为归一化结果；

y_max和y_min分别为归一化后变量的最小值与最大时，

x为待归一化变量；

x_max和x_min分别为待归一化变量的最小值与最大值。

利用改进粒子群优化密度聚类算法，具体过程如下：

Begin

粒子的速度V_i的搜索空间为[-V_max，+V_max]，设定；V_max＝k

初始化种群P(0)；

For t＝1 to最大迭代次数do

计算粒子群体P(t)中个例子个体的DBSCAN聚类结果的适应度；

if粒子适应度值<P_id的适应度值

更新P_id；

end

if粒子适应度值<P_gd的适应度值

更新P_gd

end

分别更新粒子速度和粒子位置；

end for

输出整个搜索空间找到的最小适应度值所对应的类簇划分；

End

算法初始化过程中，数据集的平均相异度D，定义如下:

采用的DBSCAN聚类算法和适应度计算公式如下：

步骤6.根据DBSCAN聚类结果按下式计算粒子适应度值。

3.根据权利要求1所述的一种基于参数优化的电能计量异常数据的识别与补偿方法，其特征在于包括：

其中，GA-iForest模型的构造过程包括：

输入:ListN，Time，mp，cp；

ListN:初始的隔离森林种群；

Time:遗传算法优化最大迭代次数；

mp:变异概率；

cp:交叉概率；

输出:最优隔离森林个体List

步骤1.通过对数据集空间不断划分实现iTree以及Forest的构建；

步骤3.For i＝1 to Time:

4.根据权利要求1所述的一种基于参数优化的电能计量异常数据的识别与补偿方法，其特征在于，将所述训练集输入到LSTM深度神经网络中进行训练，得到电力负荷预测模型，包括：

参数名参数下限参数上限最小速度最大速度神经元个数L 1 400 -2 2 学习率ε 0.001 0.01 -0.001 0.001 训练次数k 200 1000 -2 2

其中，LSTM时间序列预测模型主要包括以下四个部分：

2)定义LSTM模型的输入维度、网络层数以及输出维度。

上式，Y_actual代表负荷的实际值，Y_pre代表负荷的预测值，n表示预测负荷点的个数。同时，设置种群规模为20个，最大迭代次数设50次，学习因子c1＝2，c2＝2。