CN114528949A - 一种基于参数优化的电能计量异常数据的识别与补偿方法 - Google Patents
一种基于参数优化的电能计量异常数据的识别与补偿方法 Download PDFInfo
- Publication number
- CN114528949A CN114528949A CN202210294793.7A CN202210294793A CN114528949A CN 114528949 A CN114528949 A CN 114528949A CN 202210294793 A CN202210294793 A CN 202210294793A CN 114528949 A CN114528949 A CN 114528949A
- Authority
- CN
- China
- Prior art keywords
- value
- data
- model
- fitness
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005457 optimization Methods 0.000 title claims abstract description 31
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 230000002068 genetic effect Effects 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000012937 correction Methods 0.000 claims abstract description 3
- 239000002245 particle Substances 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 37
- 230000035772 mutation Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000002955 isolation Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
Abstract
本发明提供了一种基于参数优化的电能计量异常数据的识别与补偿方法,首先采用改进的粒子群优化的密度聚类算法训练并提取了用户的电能计量负荷数据统计特征,得到各类别用户负荷数据以及各类别用户数据特征。其次,采用基于孤立森林(iForest)的算法对电力数据集进行异常检测,引入遗传算法(genetic algorithm)构造了一个新的异常检测模型GA‑iForest,对负荷数据进行判断并确定异常类型,最后通过训练好的LSTM深度神经网络对数据进行补偿修正,达到了用电计量用户数据补偿的目的,可获得提高电力负荷计量精度的有益效果。
Description
技术领域
本发明涉及一种电力负荷预测技术领域,尤其是涉及一种基于参数优化的电能计量异常数据的识别与补偿方法。
技术背景
随着智能电网技术的不断发展,获取电力数据的途径越来越多,获得的电力运行数据也越来越多。因此,从采集的海量电力运行数据中获取真实可靠的数据变得非常重要。由于大量配套***使用,会生成非结构化的数据,以及多种设备故障、电网波动和通信故障等原因导致大量异常数据出现,对于电能计量数据准确性、实时性和动态性要求影响很大。通过分析异常数据特征,充分挖掘背后蕴藏的重要信息,如故障定位检测、精准负荷预测和需求侧响应等,分析异常产生原因,能够为异常的预防提供参考,进而减少异常发生。因此分析、辨识和修正异常数据具有重大意义。
发明内容
本发明针对上述存在的问题,提出了一种基于参数优化的电能计量异常数据的识别与补偿方法,通过聚类分析、特征提取、异常数据识别来提高电力负荷预测于补偿的精度。
本发明的目的可以通过以下技术方案来实现:一种基于优化选取典型日负荷曲线的电力负荷预测方法,包括以下步骤:
获取负荷原始数据;
对负荷原始数据进行预处理,得到训练数据集;
采用改进的密度聚类算法将各类别用户负荷数据聚类,得到聚类结果并提取用户特征
利用改进的改进的粒子群优化的密度聚类算法,具体过程如下:
输入:样本数据集,样本总数k,聚类数目m,例子种群大小M,最大迭代次数Maxlter.加速常数c1、c2,惯性权重ω,MinPts值。
输出:数据集的m个类簇划分,最优适应度值及其对应的粒子所代表的初始聚类中心和Eps值。
Begin
初始化:设定粒子的位置Zi的搜索空间为[0.001,k],k为数据集的平均相异度值;
粒子的速度Vi的搜索空间为[-Vmax,+Vmax],设定;Vmax=k
初始化种群P(0);
For t=1to最大迭代次数do
计算粒子群体P(t)中个例子个体的DBSCAN聚类结果的适应度;
if粒子适应度值<Pid的适应度值
更新Pid;
end
if粒子适应度值<Pgd的适应度值
更新Pgd
end
分别更新粒子速度和粒子位置;
end for
输出整个搜索空间找到的最小适应度值所对应的类簇划分;
End
算法初始化过程中,数据集的平均相异度D,定义如下:
n为数据集中所有样本的数目,s(i,j)为数据集中样本i与样本j之间的相异度。样本的平均相异度值可以大致描述整个数据集的数据特征,算法将其作为粒子群优化搜索Eps范围空间的上限值。
提取特征输入到异常检测模型GA-iForest中,通过训练完成的模型再对用户负荷数据进行判断并确定异常类型。
其中,GA-iForest模型的构造过程包括:
iForest的优化从GA的基本步骤进行考虑,其中最主要的包括初始化,交叉,变异以及选择。遗传算法优化隔离森林模型构造流程描述如下:
输入:ListN,Time,mp,cp;
ListN:初始的隔离森林种群;
Time:遗传算法优化最大迭代次数;
mp:变异概率;
cp:交叉概率;
输出:最优隔离森林个体List
步骤1.通过对数据集空间不断划分实现iTree以及Forest的构建;
步骤2种群初始化:将单个森林视为一个个体,个体中包含多棵iTree即为每个个体的“基因编码”,每个森林为一个链表List,其中List[i]表示对应的一棵iTree,构建N个个体组成初始化种群ListN(N=1,2,3,4)即初始种群为List1、List2、List3、List4;
步骤3.For i=1to Time:
(a)计算每个个体的适应度值,计算初始种群中每个List的适应度值;
(b)交叉,初始群体中的N个链表按照概率cp进行相互交叉,将每个个体链表的前后半段进行互换,即将List1[1...i]与List2[i+1...n]互换,同理List3[i]与List4[i];经过交叉之后,初始群体中的个体N,由开始的N=4变成N=8(List1,List2,List3,...,List8);
(c)变异,对于交叉产生的单个个体List按照概率mp进行变异,其中List[i]为对应森林中的一棵iTree二叉树,随机选定一棵树List[i]进行变异操作,变异操作即对选定的iTree进行重构;
(d)选择,根据适应度值Fitness去对森林List进行选择,其中Fitness函数由精度与差异度组成,选择的方式参照随机排序规则,对交叉变异后产生的新解与初始群体中的原始个体进行选择,选出下一代N(N=4)个个体;
(e)如果达到终止条件则输出,否则回到步骤(a)进行下一轮迭代,终止条件为当GA优化过程里连续若干代(Time)中个体的适应度值均高于传统的IsolationForest模型则停止迭代或者达到最大迭代次数;
步骤4.输出:输出为当前群体中的最优个体List,即为具有更优适应度值的森林iForest。
4.根据权力要求1所述的一种基于参数优化的电能计量异常数据的识别与补偿方法,其特征在于,将所述训练集输入到LSTM深度神经网络中进行训练,得到电力负荷预测模型包括:
步骤1.建立LSTM模型。确定需要寻优的参数,神经元数量L1,学习率ε和训练迭代次数k,并确定它们各自寻优的范围。
参数名 | 参数下限 | 参数上限 | 最小速度 | 最大速度 |
神经元个数L | 1 | 400 | -2 | 2 |
学习率ε | 0.001 | 0.01 | -0.001 | 0.001 |
训练次数k | 200 | 1000 | -2 | 2 |
其中,LSTM时间序列预测模型主要包括以下四个部分:
1)时间序列数据预处理,值得注意的是,由于模型属于学习训练类模型,需要将数据集进行归一化等处理,防止训练过程发散,保证模型训练过程中的收敛性。
2)定义LSTM模型的输入维度、网络层数以及输出维度。
3)设定训练的优化器、模型初始参数以及损失函数,并开始训练。
4)得到训练好的模型,利用训练好的模型对负荷数据进行预测。
步骤2.初始化PSO参数。包括粒子的初始速度和位置,学习权重,训练次数和规模等。
步骤3.确定粒子的适应度函数。本文将预测模型的MAPE值作为粒子的适应度函数,寻找最优模型参数。
步骤4.比较粒子的适应度值。寻找个体最优位置和全局最优位置,更新最优的适应度值。
步骤5.判断是否达到最大迭代次数。如果达到最大迭代次数,将得到的最优参数传给LSTM模型,并进行训练和预测。若未达到要求,则返回步骤(5)。将LSTM的3个超参数作为PSO的待优化参数,适应度函数设置为F(x)=min(MAPE)(2)其中平均绝对百分比误差(MAPE)是指用电量真实值和预测值之间的百分比误差的平均值:
上式,Yactual代表负荷的实际值,Ypre代表负荷的预测值,n表示预测负荷点的个数。同时,设置种群规模为20个,最大迭代次数设50次,学习因子c1=2,c2=2。LSTM超参数的设置范围如表1所示。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请基于参数优化的电能计量异常数据的识别与补偿方法一实施例的流程示意图。
图2是LSTM内部网络结构。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明进行进一步详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例如图1,一种基于参数优化的电能计量异常数据的识别与补偿方法,包括以下步骤:
步骤1.获取历史电力负荷数据,形成负荷数据集;
步骤2.对负荷数据集进行预处理;
步骤3.采用改进的粒子群优化的密度聚类算法训练并提取了用户的电能计量负荷数据统计特征,得到各类别用户负荷数据以及各类别用户数据特征;
步骤4.采用基于孤立森林(iForest)的算法对电力数据集进行异常检测,引入遗传算法(genetic algorithm)构造了一个新的异常检测模型GA-iForest,对负荷数据进行判断并确定异常类型;
步骤5.通过训练好的LSTM深度神经网络对数据进行补偿修正。主要过程包括:
1.数据预处理
采用最大最小归一化方法,其公式为:
其中,y为归一化结果;
ymax和ymin分别为归一化后变量的最小值与最大时,
x为待归一化变量;
xmax和xmin分别为待归一化变量的最小值与最大值。
2.聚类算法
将得到的训练数据集通过优化的密度聚类算法进行聚类,根据聚类结果,得到各类别用户负荷数据以及各类别用户数据特征。
利用改进粒子群优化密度聚类算法,具体过程如下:
输入:样本数据集,样本总数k,聚类数目m,例子种群大小M,最大迭代次数Maxlter.加速常数c1、c2,惯性权重ω,MinPts值。
输出:数据集的m个类簇划分,最优适应度值及其对应的粒子所代表的初始聚类中心和Eps值。
Begin
初始化:设定粒子的位置Zi的搜索空间为[0.001,k],k为数据集的平均相异度值;
粒子的速度Vi的搜索空间为[-Vmax,+Vmax],设定;Vmax=k
初始化种群P(0);
For t=1to最大迭代次数do
计算粒子群体P(t)中个例子个体的DBSCAN聚类结果的适应度;
if粒子适应度值<Pid的适应度值
更新Pid;
end
if粒子适应度值<Pgd的适应度值
更新Pgd
end
分别更新粒子速度和粒子位置;
end for
输出整个搜索空间找到的最小适应度值所对应的类簇划分;
End
算法初始化过程中,数据集的平均相异度D,定义如下:
n为数据集中所有样本的数目,s(i,j)为数据集中样本i与样本j之间的相异度。样本的平均相异度值可以大致描述整个数据集的数据特征,算法将其作为粒子群优化搜索Eps范围空间的上限值。
采用的DBSCAN聚类算法和适应度计算公式如下:
步骤1.根据粒子编码值初始化DBSCAN算法的Eps值,MinPts值固定为5
步骤2.选择数据集合中任意一个不属于任何聚类的核心对象P,创建一个新的聚类;
步骤3.根据该聚类中的核心对象,循环收集密度可达的核心对象加入该聚类,直到没有新的核心对象加入为止;
步骤4.若不存在不属于任何聚类的核心对象,则转步骤5,否则返回步骤2继续执行;
步骤5.将与核心对象密度相连的边界对象归类到相应核心对象所属类簇;
步骤6.根据DBSCAN聚类结果按下式计算粒子适应度值。
其中n为DBSCAN算法聚类结果生成的类簇数目,k为输入的期望聚类个数。根据DBSCAN密度聚类算法的类簇扩展特点,适应度函数通过考察聚类结果的数目与输入的期望聚类个数的符合程度来对聚类结果进行评价,当聚类结果中类簇数目为期望的聚类个数时,适应度函数值为0。
3.GA-iForest模型的构造
iForest的优化从GA的基本步骤进行考虑,其中最主要的包括初始化,交叉,变异以及选择。遗传算法优化隔离森林模型构造流程描述如下:
输入:ListN,Time,mp,cp;
ListN:初始的隔离森林种群;
Time:遗传算法优化最大迭代次数;
mp:变异概率;
cp:交叉概率;
输出:最优隔离森林个体List
步骤1.通过对数据集空间不断划分实现iTree以及Forest的构建;
步骤2种群初始化:将单个森林视为一个个体,个体中包含多棵iTree即为每个个体的“基因编码”,每个森林为一个链表List,其中List[i]表示对应的一棵iTree,构建N个个体组成初始化种群ListN(N=1,2,3,4)即初始种群为List1、List2、List3、List4;
步骤3.For i=1to T:
(a)计算每个个体的适应度值,计算初始种群中每个List的适应度值;
(b)交叉,初始群体中的N个链表按照概率cp进行相互交叉,将每个个体链表的前后半段进行互换,即将List1[1...i]与List2[i+1...n]互换,同理List3[i]与List4[i];经过交叉之后,初始群体中的个体N,由开始的N=4变成N=8(List1,List2,List3,...,List8);
(c)变异,对于交叉产生的单个个体List按照概率mp进行变异,其中List[i]为对应森林中的一棵iTree二叉树,随机选定一棵树List[i]进行变异操作,变异操作即对选定的iTree进行重构;
(d)选择,根据适应度值Fitness去对森林List进行选择,其中Fitness函数由精度与差异度组成,选择的方式参照随机排序规则,对交叉变异后产生的新解与初始群体中的原始个体进行选择,选出下一代N(N=4)个个体;
(e)如果达到终止条件则输出,否则回到步骤〈a)进行下一轮迭代,终止条件为当GA优化过程里连续若干代(Time)中个体的适应度值均高于传统的IsolationForest模型则停止迭代或者达到最大迭代次数;
步骤4.输出:输出为当前群体中的最优个体List,即为具有更优适应度值的森林iForest。
4.训练电力负荷预测模型
如图2,长短期记忆网络的单元细胞主要包含了输入门(input gate)、输出门(output gate)、遗忘门(forget gate)和细胞状态(Cell State)。其中,三种门结构使LSTM具有了选择性记忆功能,可以控制单元细胞A的记忆过程。具体而言,通过门控制选择性地遗忘一部分无关次要的信息,并对重要的信息进行保留,以此方式扩大网络的记忆范围。输出门在t时刻会产生输出h和状态控制信息C。其中h,与循环神经网络的输出相同,表示模型的预测结果;而C则是表示细胞状态,用来控制细胞内门的开关与否。
步骤1.建立LSTM模型。确定需要寻优的参数,神经元数量L1,学习率ε和训练迭代次数k,并确定它们各自寻优的范围。
其中,LSTM时间序列预测模型主要包括以下四个部分:
1)时间序列数据预处理,值得注意的是,由于模型属于学习训练类模型,需要将数据集进行归一化等处理,防止训练过程发散,保证模型训练过程中的收敛性。
2)定义LSTM模型的输入维度、网络层数以及输出维度。
3)设定训练的优化器、模型初始参数以及损失函数,并开始训练。
参数名 | 参数下限 | 参数上限 | 最小速度 | 最大速度 |
神经元个数L | 1 | 400 | -2 | 2 |
学习率ε | 0.001 | 0.01 | -0.001 | 0.001 |
训练次数k | 200 | 1000 | -2 | 2 |
4)得到训练好的模型,利用训练好的模型对负荷数据进行预测。
步骤2.初始化PSO参数。包括粒子的初始速度和位置,学习权重,训练次数和规模等。
步骤3.确定粒子的适应度函数。本文将预测模型的MAPE值作为粒子的适应度函数,寻找最优模型参数。
步骤4.比较粒子的适应度值。寻找个体最优位置和全局最优位置,更新最优的适应度值。
步骤5.判断是否达到最大迭代次数。如果达到最大迭代次数,将得到的最优参数传给LSTM模型,并进行训练和预测。若未达到要求,则返回步骤(5)。
5.其中平均绝对百分比误差(MAPE)是指用电量真实值和预测值之间的百分比误差的平均值:
上式,Yactual代表负荷的实际值,Ypre代表负荷的预测值,n表示预测负荷点的个数。同时,设置种群规模为20个,最大迭代次数设50次,学习因子c1=2,c2=2。、
综上所述,本发明首先采用改进的粒子群优化的密度聚类算法训练并提取了用户的电能计量负荷数据统计特征,得到各类别用户负荷数据以及各类别用户数据特征。其次,采用基于孤立森林(iForest)的算法对电力数据集进行异常检测,引入遗传算法(geneticalgorithm)构造了一个新的异常检测模型GA-iForest,对负荷数据进行判断并确定异常类型,最后通过训练好的LSTM深度神经网络对数据进行补偿修正,达到了用电计量用户数据补偿的目的,可获得提高电力负荷计量精度的有益效果。
以上所述,详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (4)
1.一种基于参数优化的电能计量异常数据的识别与补偿方法,其特征在于包括:获取电力负荷原始数据,进行数据预处理,将所有数据归一化,得到训练数据集;将得到的训练数据集通过优化的密度聚类算法进行聚类,根据聚类结果,得到各类别用户负荷数据以及各类别用户数据特征;提取特征输入到异常检测模型GA-iForest中,通过训练完成的模型再对用户负荷数据进行判断并确定异常类型;将所述训练集输入到LSTM深度神经网络中进行训练,得到电力负荷预测模型;通过训练好的LSTM深度神经网络对数据进行补偿修正。
2.根据权利要求1所述的一种基于参数优化的电能计量异常数据的识别与补偿方法,其特征在于,所述的数据归一化方法采用最大最小归一化方法,其公式为:
其中,y为归一化结果;
ymax和ymin分别为归一化后变量的最小值与最大时,
x为待归一化变量;
xmax和xmin分别为待归一化变量的最小值与最大值。
将得到的训练数据集通过优化的密度聚类算法进行聚类,根据聚类结果,得到各类别用户负荷数据以及各类别用户数据特征。
利用改进粒子群优化密度聚类算法,具体过程如下:
输入:样本数据集,样本总数k,聚类数目m,例子种群大小M,最大迭代次数Maxlter.加速常数c1、c2,惯性权重ω,MinPts值。
输出:数据集的m个类簇划分,最优适应度值及其对应的粒子所代表的初始聚类中心和Eps值。
Begin
初始化:设定粒子的位置Zi的搜索空间为[0.001,k],k为数据集的平均相异度值;
粒子的速度Vi的搜索空间为[-Vmax,+Vmax],设定;Vmax=k
初始化种群P(0);
For t=1 to最大迭代次数do
计算粒子群体P(t)中个例子个体的DBSCAN聚类结果的适应度;
if粒子适应度值<Pid的适应度值
更新Pid;
end
if粒子适应度值<Pgd的适应度值
更新Pgd
end
分别更新粒子速度和粒子位置;
end for
输出整个搜索空间找到的最小适应度值所对应的类簇划分;
End
算法初始化过程中,数据集的平均相异度D,定义如下:
n为数据集中所有样本的数目,s(i,j)为数据集中样本i与样本j之间的相异度。样本的平均相异度值可以大致描述整个数据集的数据特征,算法将其作为粒子群优化搜索Eps范围空间的上限值。
采用的DBSCAN聚类算法和适应度计算公式如下:
步骤1.根据粒子编码值初始化DBSCAN算法的Eps值,MinPts值固定为5
步骤2.选择数据集合中任意一个不属于任何聚类的核心对象P,创建一个新的聚类;
步骤3.根据该聚类中的核心对象,循环收集密度可达的核心对象加入该聚类,直到没有新的核心对象加入为止;
步骤4.若不存在不属于任何聚类的核心对象,则转步骤5,否则返回步骤2继续执行;
步骤5.将与核心对象密度相连的边界对象归类到相应核心对象所属类簇;
步骤6.根据DBSCAN聚类结果按下式计算粒子适应度值。
其中n为DBSCAN算法聚类结果生成的类簇数目,k为输入的期望聚类个数。根据DBSCAN密度聚类算法的类簇扩展特点,适应度函数通过考察聚类结果的数目与输入的期望聚类个数的符合程度来对聚类结果进行评价,当聚类结果中类簇数目为期望的聚类个数时,适应度函数值为0。
3.根据权利要求1所述的一种基于参数优化的电能计量异常数据的识别与补偿方法,其特征在于包括:
提取特征输入到异常检测模型GA-iForest中,通过训练完成的模型再对用户负荷数据进行判断并确定异常类型。
其中,GA-iForest模型的构造过程包括:
iForest的优化从GA的基本步骤进行考虑,其中最主要的包括初始化,交叉,变异以及选择。遗传算法优化隔离森林模型构造流程描述如下:
输入:ListN,Time,mp,cp;
ListN:初始的隔离森林种群;
Time:遗传算法优化最大迭代次数;
mp:变异概率;
cp:交叉概率;
输出:最优隔离森林个体List
步骤1.通过对数据集空间不断划分实现iTree以及Forest的构建;
步骤2种群初始化:将单个森林视为一个个体,个体中包含多棵iTree即为每个个体的“基因编码”,每个森林为一个链表List,其中List[i]表示对应的一棵iTree,构建N个个体组成初始化种群ListN(N=1,2,3,4)即初始种群为List1、List2、List3、List4;
步骤3.For i=1 to Time:
(a)计算每个个体的适应度值,计算初始种群中每个List的适应度值;
(b)交叉,初始群体中的N个链表按照概率cp进行相互交叉,将每个个体链表的前后半段进行互换,即将List1[1...i]与List2[i+1...n]互换,同理List3[i]与List4[i];经过交叉之后,初始群体中的个体N,由开始的N=4变成N=8(List1,List2,List3,...,List8);
(c)变异,对于交叉产生的单个个体List按照概率mp进行变异,其中List[i]为对应森林中的一棵iTree二叉树,随机选定一棵树List[i]进行变异操作,变异操作即对选定的iTree进行重构;
(d)选择,根据适应度值Fitness去对森林List进行选择,其中Fitness函数由精度与差异度组成,选择的方式参照随机排序规则,对交叉变异后产生的新解与初始群体中的原始个体进行选择,选出下一代N(N=4)个个体;
(e)如果达到终止条件则输出,否则回到步骤〈a)进行下一轮迭代,终止条件为当GA优化过程里连续若干代(Time)中个体的适应度值均高于传统的IsolationForest模型则停止迭代或者达到最大迭代次数;
步骤4.输出:输出为当前群体中的最优个体List,即为具有更优适应度值的森林iForest。
4.根据权利要求1所述的一种基于参数优化的电能计量异常数据的识别与补偿方法,其特征在于,将所述训练集输入到LSTM深度神经网络中进行训练,得到电力负荷预测模型,包括:
步骤1.建立LSTM模型。确定需要寻优的参数,神经元数量L1,学习率ε和训练迭代次数k,并确定它们各自寻优的范围。
其中,LSTM时间序列预测模型主要包括以下四个部分:
1)时间序列数据预处理,值得注意的是,由于模型属于学习训练类模型,需要将数据集进行归一化等处理,防止训练过程发散,保证模型训练过程中的收敛性。
2)定义LSTM模型的输入维度、网络层数以及输出维度。
3)设定训练的优化器、模型初始参数以及损失函数,并开始训练。
4)得到训练好的模型,利用训练好的模型对负荷数据进行预测。
步骤2.初始化PSO参数。包括粒子的初始速度和位置,学习权重,训练次数和规模等。
步骤3.确定粒子的适应度函数。本文将预测模型的MAPE值作为粒子的适应度函数,寻找最优模型参数。
步骤4.比较粒子的适应度值。寻找个体最优位置和全局最优位置,更新最优的适应度值。
步骤5.判断是否达到最大迭代次数。如果达到最大迭代次数,将得到的最优参数传给LSTM模型,并进行训练和预测。若未达到要求,则返回步骤(5)。将LSTM的3个超参数作为PSO的待优化参数,适应度函数设置为F(x)=min(MAPE)(2)其中平均绝对百分比误差(MAPE)是指用电量真实值和预测值之间的百分比误差的平均值:
上式,Yactual代表负荷的实际值,Ypre代表负荷的预测值,n表示预测负荷点的个数。同时,设置种群规模为20个,最大迭代次数设50次,学习因子c1=2,c2=2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210294793.7A CN114528949A (zh) | 2022-03-24 | 2022-03-24 | 一种基于参数优化的电能计量异常数据的识别与补偿方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210294793.7A CN114528949A (zh) | 2022-03-24 | 2022-03-24 | 一种基于参数优化的电能计量异常数据的识别与补偿方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114528949A true CN114528949A (zh) | 2022-05-24 |
Family
ID=81626987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210294793.7A Pending CN114528949A (zh) | 2022-03-24 | 2022-03-24 | 一种基于参数优化的电能计量异常数据的识别与补偿方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114528949A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115570228A (zh) * | 2022-11-22 | 2023-01-06 | 苏芯物联技术(南京)有限公司 | 一种焊接管道供气智能反馈控制方法与*** |
CN115834424A (zh) * | 2022-10-09 | 2023-03-21 | 国网甘肃省电力公司临夏供电公司 | 配电网线损异常数据的辨识与修正方法 |
CN115880102A (zh) * | 2023-03-08 | 2023-03-31 | 国网福建省电力有限公司 | 一种电能计量方法、***、设备及存储介质 |
CN116738376A (zh) * | 2023-07-06 | 2023-09-12 | 广东筠诚建筑科技有限公司 | 一种基于振动或磁场唤醒的信号采集识别方法及*** |
CN117150233A (zh) * | 2023-10-30 | 2023-12-01 | 广东电网有限责任公司湛江供电局 | 一种电网异常数据治理方法、***、设备及介质 |
CN117970168A (zh) * | 2024-03-29 | 2024-05-03 | 国网山东省电力公司莱芜供电公司 | 一种双电源转换装置的监测数据高效处理方法 |
-
2022
- 2022-03-24 CN CN202210294793.7A patent/CN114528949A/zh active Pending
Non-Patent Citations (4)
Title |
---|
朱剑飞 等: "基于ARIMA与LSTM在电力负荷预测中的对比讨论", 理论分析, vol. 41, no. 2, 28 February 2022 (2022-02-28), pages 27 - 30 * |
李佳威: "基于GA-iForest与ARIMA-LSTM的WAMS异常数据清洗研究", 中国优秀硕士学位论文全文数据库(信息科技辑), 31 July 2021 (2021-07-31), pages 138 - 192 * |
王晓辉 等: "基于PSO-LSTM的电力负荷预测模型", 上海节能, 28 February 2022 (2022-02-28), pages 164 - 169 * |
王纵虎: "聚类分析优化关键技术研究", 中国博士学位论文全文数据库(信息科技辑), 30 November 2013 (2013-11-30), pages 138 - 19 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115834424A (zh) * | 2022-10-09 | 2023-03-21 | 国网甘肃省电力公司临夏供电公司 | 配电网线损异常数据的辨识与修正方法 |
CN115834424B (zh) * | 2022-10-09 | 2023-11-21 | 国网甘肃省电力公司临夏供电公司 | 配电网线损异常数据的辨识与修正方法 |
CN115570228A (zh) * | 2022-11-22 | 2023-01-06 | 苏芯物联技术(南京)有限公司 | 一种焊接管道供气智能反馈控制方法与*** |
CN115880102A (zh) * | 2023-03-08 | 2023-03-31 | 国网福建省电力有限公司 | 一种电能计量方法、***、设备及存储介质 |
CN116738376A (zh) * | 2023-07-06 | 2023-09-12 | 广东筠诚建筑科技有限公司 | 一种基于振动或磁场唤醒的信号采集识别方法及*** |
CN116738376B (zh) * | 2023-07-06 | 2024-01-05 | 广东筠诚建筑科技有限公司 | 一种基于振动或磁场唤醒的信号采集识别方法及*** |
CN117150233A (zh) * | 2023-10-30 | 2023-12-01 | 广东电网有限责任公司湛江供电局 | 一种电网异常数据治理方法、***、设备及介质 |
CN117150233B (zh) * | 2023-10-30 | 2024-02-13 | 广东电网有限责任公司湛江供电局 | 一种电网异常数据治理方法、***、设备及介质 |
CN117970168A (zh) * | 2024-03-29 | 2024-05-03 | 国网山东省电力公司莱芜供电公司 | 一种双电源转换装置的监测数据高效处理方法 |
CN117970168B (zh) * | 2024-03-29 | 2024-05-28 | 国网山东省电力公司莱芜供电公司 | 一种双电源转换装置的监测数据高效处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114528949A (zh) | 一种基于参数优化的电能计量异常数据的识别与补偿方法 | |
CN113962364B (zh) | 一种基于深度学习的多因素用电负荷预测方法 | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN111401599B (zh) | 一种基于相似性搜索和lstm神经网络的水位预测方法 | |
CN111178611A (zh) | 一种日电量预测的方法 | |
CN111861756B (zh) | 一种基于金融交易网络的团伙检测方法及其实现装置 | |
CN116721537A (zh) | 基于gcn-ipso-lstm组合模型的城市短时交通流预测方法 | |
CN115564114A (zh) | 一种基于图神经网络的空域碳排放短期预测方法及*** | |
CN110990718A (zh) | 一种公司形象提升***的社会网络模型构建模块 | |
CN111695666A (zh) | 一种基于深度学习的风电功率超短期条件概率预测方法 | |
CN117349782B (zh) | 智能数据预警决策树分析方法及*** | |
CN110674636A (zh) | 一种用电行为分析方法 | |
CN104732067A (zh) | 一种面向流程对象的工业过程建模预测方法 | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及*** | |
CN107066468A (zh) | 一种基于遗传算法与最近邻算法的案件检索方法 | |
CN113033898A (zh) | 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及*** | |
CN113537607B (zh) | 停电预测方法 | |
CN112465253B (zh) | 一种城市路网中的链路预测方法及装置 | |
CN115083511A (zh) | 基于图表示学习与注意力的***基因调控特征提取方法 | |
CN112348275A (zh) | 一种基于在线增量学习的区域生态环境变化预测方法 | |
Zheng et al. | Combustion process modeling based on deep sparse least squares support vector regression | |
Mao et al. | An XGBoost-assisted evolutionary algorithm for expensive multiobjective optimization problems | |
Wang | SVR short-term traffic flow forecasting model based on spatial-temporal feature selection | |
Liu et al. | A hybrid model integrating improved fuzzy c-means and optimized mixed kernel relevance vector machine for classification of coal and gas outbursts | |
CN118174294A (zh) | 一种短期电力负荷预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |