CN113919610A - 低压台区线损预测用arima模型构建方法及评估方法 - Google Patents
低压台区线损预测用arima模型构建方法及评估方法 Download PDFInfo
- Publication number
- CN113919610A CN113919610A CN202010644244.9A CN202010644244A CN113919610A CN 113919610 A CN113919610 A CN 113919610A CN 202010644244 A CN202010644244 A CN 202010644244A CN 113919610 A CN113919610 A CN 113919610A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- line loss
- arima model
- arima
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 title claims abstract description 84
- 238000011156 evaluation Methods 0.000 title claims abstract description 49
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 238000009826 distribution Methods 0.000 claims abstract description 46
- 230000000737 periodic effect Effects 0.000 claims abstract description 26
- 238000007689 inspection Methods 0.000 claims abstract description 18
- 238000005259 measurement Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 239000000463 material Substances 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000003064 k means clustering Methods 0.000 description 5
- 241001123248 Arma Species 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000001744 unit root test Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009439 industrial construction Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013112 stability test Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000010971 suitability test Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Pure & Applied Mathematics (AREA)
- Educational Administration (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
Abstract
本发明公开了一种低压台区线损预测用ARIMA模型构建方法及评估方法,属于电网管理技术领域,其特征在于,包括如下步骤:S1、对采集到的电力***中至少一种测量数据或者数据库中一组时序数据进行预处理;S2、对预处理后的时序数据,采用周期差分算子消除周期性影响,并对处理后数据进行ADF单位根平稳性检验,检验不通过则采用差分运算消除增长趋势;S3、通过赤池信息准则确定ARIMA模型阶数,并构建ARIMA模型及其误差预测模型;S4、根据预测模型预测的网损数据残差对ARIMA模型进行自校正,满足残差精度后输出模型。本发明可节省大量人力物力,有利于优化配电网的网络结构。
Description
技术领域
本发明属于电网管理技术领域,具体涉及一种低压台区线损预测用ARIMA模型构建方法及评估方法。
背景技术
近年来,随着工业化建设的快速发展,人类对能源的需求不断上涨。电能作为支撑国民日常生活及经济发展的重要能源,对国家发展起着至关重要的作用。然而电能在生产、输送和分配环节均存在着不可避免的损耗,这不仅会导致资源浪费,还会造成巨大的经济损失。线损即线路损耗,是电网电能损耗的简称,是电能在传输、配置等过程中产生的损耗。由于线损可以反映电网结构和运行方面的合理性、电力企业的技术和经营管理水平,因此,其不仅是针对能源供应企业的一项经济技术指标,还作为国家评估电力企业的重要指标。
低压台区是电力***末端环节,其电压等级较低、拓扑结构不完善、各台区的基础设益建设和电力检测设备相对落后。若采用等值电阻法、潮流迭代法等传统方法计算台区的理论线损率,结果可能与实际线损值差异较大。因此构建快速准确低压台区线损预测模型,可节省大量人力物力,有利于优化配电网的网络结构,对供电企业制定合理的降损措施提供依据有重要意义。
综上所述,构建低压台区线损预测用ARIMA模型构建方法及评估方法具有重大的现实意义。
发明内容
本发明为了解决提供一种低压台区线损预测用ARIMA模型构建方法及评估方法,可节省大量人力物力,有利于优化配电网的网络结构。
本发明的第一目的是提供一种低压台区线损预测用ARIMA模型构建方法,包括如下步骤:
S1、对采集到的电力***中至少一种测量数据或者数据库中一组时序数据进行预处理;
S2、对预处理后的时序数据,采用周期差分算子消除周期性影响,并对处理后数据进行ADF单位根平稳性检验,检验不通过则采用差分运算消除增长趋势;
S3、通过赤池信息准则确定ARIMA模型阶数,并构建ARIMA模型及其误差预测模型;
S4、根据预测模型预测的网损数据残差对ARIMA模型进行自校正,满足残差精度后输出模型。
进一步,所述S1具体为:通过相关设备对电网网损数据进行检测或者从数据库中提取相关时序数据,并构成按照时间顺序的时序数据Pt;
消除数据周期性变化;
通过周期差分算子转换(10)消除周期影响;
(1-Bl)Pt
时序数据平稳性检验;
采用ADF单位根法检测序列数据Pt的平稳性。
更进一步,采用ADF单位根方法对时序数据Pt使用Eviewsk实现单位根检测,若假设检验值s小于1%置信区间,则时序数据Pt严格平稳;若假设检验值s小于5%置信区间,则时序数据Pt平稳;否则时序数据Pt不平稳。
更进一步,所述S2中:消除数据增长趋势具体为:
更进一步,所述S3中:ARIMA模型阶数确定具体为:
使用赤池信息准则判断p与q的参数,通过下式计算AIC值:
AIC=2k-2ln(L)
其中k为模型参数个数,L是似然函数;
选择AIC值最小项作为模型阶数;获得ARIMA模型;
误差预测模型构建具体为:
更进一步,所述S4中:ARIMA模型适应性检验及校正具体为:
本发明的第二目的是提供一种低压台区线损预测用ARIMA模型构建***,包括:
预处理模块,对采集到的电力***中至少一种测量数据或者数据库中一组时序数据进行预处理;
检验模块,对预处理后的时序数据,采用周期差分算子消除周期性影响,并对处理后数据进行ADF单位根平稳性检验,检验不通过则采用差分运算消除增长趋势;
构建模块,通过赤池信息准则确定ARIMA模型阶数,并构建ARIMA模型及其误差预测模型;
自校正模块,根据预测模型预测的网损数据残差对ARIMA模型进行自校正,满足残差精度后输出模型。
本发明的第三目的是提供一种基于上述低压台区线损预测用ARIMA模型构建***的评估方法,包括:
S101、输入台区线损样本数据集,使用肘部法则确定聚类个数k并选择k个样本分别作为初始划分的簇类中心;
S102、将样本数据集内其他对象划分到最近中心点所在的集合,对分配完的每一个簇类,通过计算该簇类内所有数据平均值不断移动聚类中心,重新划分聚类,直到类内误差平方和最小且没有变化时为止;
S103、计算轮廓系数评估数据集中对象之间的相似性度量,该值越接近于1,簇越紧凑,聚类越好;
S104、采用成功度分析法,结合台区线损数据聚类分析结论,确定低压配电网线损的评价标准。
本发明的第四目的是提供一种实现上述低压台区线损预测用ARIMA模型构建方法的信息数据处理终端。
本发明的第五目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的低压台区线损预测用ARIMA模型构建方法。
本发明具有的优点和积极效果是:
通过采用上述技术方案,本发明构建快速准确低压台区线损预测模型,可节省大量人力物力,有利于优化配电网的网络结构,对供电企业制定合理的降损措施提供依据有重要意义。
附图说明
图1是本发明优选实施例的流程图;
图2是本发明优选实施例中一次差分台区线损率时序图;
图3是本发明优选实施例中ARIMA模型Q-Q图;
图4是本发明优选实施例中ARIMA模型预测结果图;
图5是本发明优选实施例中聚类算法流程图;
图6是本发明优选实施例中某县台区线损率分布箱型图;
图7是本发明优选实施例中某县线损率数据肘部法则图;
图8是本发明优选实施例中数据分布状况示意图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下:
请参阅图1至图8;为了解决现有技术的不足,本发明第一阶段获得经过校正的配电***网损非平稳随机ARIMA预测模型,可以实现对未来一段时间的配电***网损预测,第二阶段提供了一种基于K-Means聚类算法的线损评估体系,可以有效评估网损程度以采取处理措施。
本公开第二方面提供了一种基于K-Means聚类算法的线损评估体系。
一种基于K-Means聚类算法的线损评估体系,包括以下步骤:
输入台区线损样本数据集,使用肘部法则确定聚类个数k并选择k个样本分别作为初始划分的簇类中心;
将样本数据集内其他对象划分到最近中心点所在的集合,对分配完的每一个簇类,通过计算该簇类内所有数据平均值不断移动聚类中心,重新划分聚类,直到类内误差平方和最小且没有变化时为止;
计算轮廓系数评估数据集中对象之间的相似性度量,该值越接近于1,簇越紧凑,聚类越好;
采用成功度分析法,结合台区线损数据聚类分析结论,确定低压配电网线损的评价标准,即五类台区线损所对应的的评价等级和评价得分。
表1时间序列数据表
本发明的技术方案为:
具体技术方法理论
时间序列方法能够准确描述等距随机时间序列的随机过程,由于配电网网损变化与用电量及调度方式相关,因此为一个非平稳随机过程。构建考虑非平稳随机过程的配电网网损一般ARIMA模型:
Pt=f(t)+g(t)+X(t) (1)
其中,Pt为有功网损时间序列,f(t)代表Pt的非周期增长趋势分量;g(t)代表Pt的周期性变化分量;X(t)为Pt的平稳随机过程分量;
通过将非平稳随机过程(1)分离周期性趋势和非周期增长趋势后,可以变成一个平稳随机过程,进而通过ARMA进行建模和预测。
一阶差分运算定义为:
d阶差分运算定义为:
定义延迟算子B:
BPt=Pt-1,BkPt=Pt-k (4)
典型的网损ARIMA模型可以描述如下:
Φ(Bs)=1-ΦBs-Φ2B2s-...-ΦQBPs;Θ(Bs)=1-ΘBs-Θ2B2s-...-ΘQBQs。这里,Φi和Θi都是常数,P和Q是阶数,At也是一个ARIMA模型。
进而可以转换为平稳的ARMA模型:
式(6)称为阶数为(p,d,q)的ARIMA模型。εt为均值为0的白噪声平稳序列。
综合式(5)和(6)可以得到:
称式(7)为网损的累积式自回归滑动平均模型,其阶数为(p,d,q)×(P,D,Q)。经过一系列差分和周期性差分运算,非平稳网损随机过程Pt可以转化为平稳随机过程εt。
则Xt的第l部预测为:
由于
1.2本技术公开流程步骤
如图1所示,本公开实施例1提供了一种自校正配电***网损ARIMA预测模型构建方法,包括以下步骤:
对测量装置采集到的电力***的至少一种量测数据或者数据库中一组时序数据进行预处理;
对预处理后的时序数据,采用周期差分算子消除周期性影响,并对处理后数据进行ADF单位根平稳性检验,检验不通过则采用差分运算消除增长趋势;
通过赤池信息准则(AIC准则)确定ARIMA模型阶数,并构建ARIMA模型及其误差预测模型;
根据预测模型预测的网损数据残差对ARIMA模型进行自校正,满足残差精度后输出模型。
具体包括以下方面:
时序数据的提取及构建
ARIMA算法需要时间间隔均等的时间序列作为输入数据。需要通过相关设备对电网网损数据进行检测或者从数据库中提取相关时序数据,并构成按照时间顺序的时序数据Pt。
消除数据周期性变化
通过周期差分算子转换(10)消除周期影响
(1-Bl)Pt (10)
时序数据平稳性检验
ARIMA算法要求输入的时序数据是平稳的,即数据的均值与方差不随时间的变化而产生变化。本方法中采用ADF单位根法检测序列数据Pt的平稳性。
采用ADF单位根方法对时序数据Pt使用Eviewsk实现单位根检测,若假设检验值s小于1%置信区间,则说明时序数据Pt严格平稳,进入第5步;若假设检验值s小于5%置信区间,则说明时序数据Pt平稳,进入第5步;否则时序数据Pt不平稳。
消除数据增长趋势
对时序数据Pt采用公式(3)进行i+1阶差分运算,i为差分运算已进行次数,将得到的新时序序列Pt带入第3步中进行平稳性检测。
ARIMA模型阶数确定
使用赤池信息准则(AIC准则)判断p与q的参数,通过式(12)计算AIC值。
AIC=2k-2ln(L) (12)
其中k为模型参数个数,L是似然函数。
选择AIC值最小项作为模型阶数,此时估计的概率分布最真实分布,模型最接近真实数据。
获得ARIMA模型
将p和q带入公式(7)获得ARIMA模型ME。
误差预测模型构建
ARIMA模型适应性检验及校正
1.3算例分析
选取某园区台区低压配电***网损数据为例,阐述ARIMA模型的建立、检验与预测过程。
(1)时序数据建构
抽取台区在原始数据库中的线损数据,并将其按照时间顺序排列即可生成用户的时序数据。具体的数据结构如图2所示:
(2)时序数据平稳性验证
ARIMA算法要求输入的时序数据是平稳的,即数据的均值与方差不随时间的变化而产生变化。单位根检验的特点是结果比较复杂,但是检验结果更加准确。
ADF检验假设时间序列存在单位根。结果由假设检验值、p值和三个置信区间(1%、5%、10%)的临界值构成,其中假设检验值可用于与三个置信区间的临界值进行比较,若假设检验值小于1%的置信区间临界值,则可严格拒绝原假设;假设检验值小于5%的置信区间临界值,可拒绝原假设,以此类推。p值用于和给定的显著性水平α做比较,若p值小于给定的显著性水平,则说明可以拒绝原假设。在实际的统计检验中,显著性水平取值多为0.05。
对台区数据进行平方根检验,结果如下表2所示:
表2台区线损单位根检验结果
表2中,假设检验值为-1.3345,大于10%置信区间的临界值,同时p值为0.61,远大于给定的显著性水平0.05,因此假设检验结果为无法拒绝时间序列存在单位根的假设,时间序列存在单位根,不是平稳序列。
(3)时间序列平稳化
由于数据带有明显的线性递增趋势,并蕴含着固定的周期,且不是白噪声,因此需要进行差分处理,然后进行平稳性检验,直至序列平稳为止。其中,差分的次数就是模型ARIMA(p,d,q)中d的阶数。
对塔园台区线损率时序曲线进行一阶差分,其图像如图2所示:
从图2中可以看出,一次差分后的时序图不存在线性递增的趋势,曲线振幅相似。对差分后时序进行单位根检验:
表3一阶差分塔园台区线损时序数据单位根检验结果
在上表中p值为0.0012,小于设定的显著性水平α(0.05),且假设检验值为-4.04,小于1%置信区间的临界值(-4.01),因此可以严格拒绝时间序列存在单位根的原假设,一阶差分后的时间序列没有平方根,序列是平稳的。
(4)ARIMA模型阶数确定
选取原数据的前三分之二(前15个数据)作为训练集,进行模型的拟合;后三分之一(后4个数据)作为测试集,进行模型的评估。
进行一阶差分后,时间序列被变换为平稳序列,因此在ARIMA(p,d,q)模型中,d的取值应为1。使用赤池信息准则(AIC准则)判断p与q的参数。AIC准则是一种在统计模型选择中应用广泛的信息准则,主要用于解决模型选择问题,在模型的复杂度和参数个数间达到一定的平衡。使用AIC准则从一组可选模型中选择最优模型时,应该选取AIC值最小的模型。AIC值越小,估计的概率分布就越接近真实分布,模型越接近真实数据。
塔园台区所拟合的部分ARIMA模型及其AIC值如表4所示:
表4部分模型信息及其AIC值
在表4中,AIC值最小的模型的取值为p=2,d=1,q=2,因此最佳的ARIMA模型为ARIMA(2,1,2)。
(5)模型适应性检验
完成模型的识别和参数确定后,需要对模型进行诊断和检验,以求发现所用的模型是否合适,若不合适,应该对建立的模型进行修改。在ARIMA模型中,模型的残差被假定为符合正态分布的随机白噪声序列。若检验结果中模型残差的白噪声符合正态分布,则说明模型非随机白噪声序列。
该步骤可以使用Q-Q图来检验残差的分布。在Q-Q图中,数据越趋向于正态分布,则数据中的点距离图中的直线越近。上节模型残差的Q-Q图如图3所示:
在图3中,数据点均位于直线附近,因此可认为模型的残差符合正态分布,ARIMA(2,1,2)模型有效。
(6)模型误差检验
使用上节中构建的ARIMA(2,1,2)模型进行预测前,先将测试集的数据与模型预测的结果进行对比,评估该模型的误差。即使用拟合台区1月至4月线损数据的模型,预测塔园台区5月的线损数据。模型的预测结果与实际线损率值的对比如表5所示:
表5塔园台区线损率预测值与实际值对比
在对模型的准确度进行评估时,可采用均方根误差(RMSE)指标。该指标越接近0,说明模型与真实数据的拟合程度越高。上表中数据的均方根误差值为0.1519,拟合误差在0.15%上下,说明模型的效果较好。
(7)线损预测
使用ARIMA(2,1,2)模型对后续5月29日、6月5日和6月12日的线损率进行预测,结果如表6所示:
表6台区线损率预测值
定阶的ARIMA模型可以接收一个开始时间和一个结束时间,预测中间的时序数据的值,也可以指定一个步长,模型会从训练数据的最后一个时间点开始,预测指定步长的时序数列。ARIMA(2,1,2)模型所生成的时序图(1月16日至6月12日)与台区线损率时序图(1月16日至5月22日)的对比如图5所示:
在图4中,实线为ARIMA(2,1,2)模型时序曲线,虚线为塔园台区线损率时序曲线。可以看出,两条曲线的趋势吻合,数值误差均未超过0.5%。
一种基于K-Means聚类算法的线损评估体系,包括以下步骤:
输入台区线损样本数据集,使用肘部法则确定聚类个数k并选择k个样本分别作为初始划分的簇类中心;
将样本数据集内其他对象划分到最近中心点所在的集合,对分配完的每一个簇类,通过计算该簇类内所有数据平均值不断移动聚类中心,重新划分聚类,直到类内误差平方和最小且没有变化时为止;
计算轮廓系数评估数据集中对象之间的相似性度量,该值越接近于1,簇越紧凑,聚类越好;
采用成功度分析法,结合台区线损数据聚类分析结论,确定低压配电网线损的评价标准,即五类台区线损所对应的的评价等级和评价得分。
具体包括以下方面:
2.1 K-means聚类分析理论
聚类分析是数据挖掘应用的主要技术之一,可以单独作为一种数据分析方法来使用,也可以作为其他数据挖掘技术的预处理步骤。聚类是将物理或抽象的集合分割为由类似对象组成的多个类的过程,使得同一类中的对象有高度的相似性,而不同类之间对象的差别较大。K-means是应用较广、较高效的一种聚类方法,其思想是把每个元素聚集到其最近中心(均值)类,使同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。
K-means聚类算法的基本策略是:已知一个包含n个样本数据的数据集,以及给定聚类数目k,首先随机选取k个样本分别作为初始划分的簇类中心,然后根据相似性度量函数采用迭代的方法,计算未划分的样本数据到每个聚类中心点的距离,并将该样本数据划分到与之最近的那个聚类中心所在的簇类中,对分配完的每一个簇类,通过计算该簇类内所有数据平均值不断移动聚类中心,重新划分聚类,直到类内误差平方和最小且没有变化时为止。该算法有一个特点,就是每一次迭代过程中都要判断每个样本数据是否正确划分到簇类中,若不正确,重新调整。当全部数据调整完后,再修改簇类中心,进行下一次迭代计算。如果某一次迭代过程中每个数据样本都分配到正确的族类中,则不再调整聚类中心。聚类中心稳定不再变化,标志目标函数收敛,算法结束,最后评价聚类结果。
为了方便描述K-Means算法的聚类步骤,先介绍一些公式和定义:
1)需要进行聚类的数据集s=(x1,x2,…,xn),k个聚类中心为(C1,C2,…,Ck);
K-means算法最常用的计算两个样本对象间的距离度量为欧式距离,定义如下:
其中,xi=(xi1,xi2,…,xip),xj=(xj1,xj2,…,xjp)表示两个p维属性的数据对象。
2)计算所有样本点平均距离的方法,公式如下:
n为数据集样本对象总数,d(xi,xj)为样本点xi和xj的欧氏距离。
3)最常用的目标函数为平方误差准则函数,定义如下:
Ni表示第i个簇集合,ci表示第i个簇的中心。E表示所有数据样本对象与其所属聚类中心的欧氏距离的平方和。
综上所述,聚类算法流程图如图6所示,即K-means算法的步骤如下:
输入:数据集S,假设包含n个数据对象,要划分的簇的数目为K。
输出:符合目标评价函数收敛时的聚类结果。
第一步:从数据集S中随机抽取K个数据对象,作为首次聚类的中心点;
第二步:计算其余各数据对象到聚类中心的距离,然后将各个数据对象划分到离它们最近的中心点所属类中;
第三步:重新计算各个簇的中心,调整所有数据对象的划分,比较与上次聚类的划分是否有变化;
第四步:计算E的值,如果E值收敛,则聚类过程结束,输出聚类结果。否则,返回步骤2继续迭代,直到聚类划分不再改变或者E达到收敛条件。
聚类参数选择及结果评估
使用K-means方法进行聚类时,需要选择合适的聚类个数k,使类簇中的数据对象相似,类簇间的数据对象相异。可以使用畸变程度描述类簇内数据的相似程度与类簇间数据的相异程度,畸变程度越小,说明聚类效果越好。
本实施例使用肘部法则确定聚类个数k。肘部法则是指选定一个k值的范围,然后将不同k值下聚类结果的畸变程度绘制为图像,畸变程度的下降速度由快速转为平缓的点为肘部,即最佳聚类个数。
本实施例使用轮廓系数对聚类效果进行评估,轮廓系数的范围为(-1,1),聚类不正确时轮廓系数为-1,高密度聚类的轮廓系数为1,当轮廓系数在0附近时,说明类簇之间存在重叠现象。当类簇密集且分离状况较好时,轮廓系数更大。
针对簇内某一点i,其轮廓系数计算公式为
其中av(i)等于i向量到它所属簇中其它点的距离的平均值,m(i)为i向量到与它相邻最近的一簇内的所有点的平均距离的最小值。上述中的“距离”即为不相似度,“距离“值越大,代表不相似度程度越高。因此av(i)也表示i向量到所属簇内其他点不相似程度的平均值,m(i)表示向量i到其他簇的平均不相似程度的最小值。
2.2算例分析
为验证本实施例提出算法可以对线损数据合理聚类,以实现根据线损率的分布状况对线损等级进行合理的划分效果。本实施例收集了某县所有台区的20天的线损数据。这20天的数据中均存在部分台区的供售电量其中一方或者均为空值导致线损率无法计算表现为空值的状况,同时也有线损率为负值,无法合理确定其线损情况。某县1月至5月20天的线损数据的详细情况如下表所示:
表7某县台区线损率数据表
从表7中可知,某县20天共记录线损率数据55524条,每天的记录数量从2700条到2800条不等。其中线损率无法计算为空值的有124条;线损率为负值,无法从中得到线损状况的数据共2539条,将上述两种数据从总体中剔除后,剩余数据条数52861条,总体的线损率分布图如图7所示。
如图6所示,底部的长方形区域包含的数据为分布在下四分位数(3.59%)和上分位数(7.2%)中间的数据,绿色线条为线损率均值(6.32%)。黑色圈点代表数据分布中的离群值,在某县线损率的数据分布中,只存在比分布主体更大的离群值。在该图中离群值的判断基准为:上四分位数+1.5*(上四分位数-下四分位数);即大于线损率大于12.615%的台区,均会被归入离群值。离群值的数量为3493个,占总体的6.61%。
本实施例使用肘部法则确定聚类个数k。针对某县线损率数据集的肘部法则图像,如图8所示。在该图中,畸变程度随聚类个数的上升而下降。在聚类个数为5时,曲线开始转向平缓,因此可确定最佳聚类个数k为5。
本实施例使用参数k为5的K-means算法对某县台区线损率数据集进行聚类,聚类的效果使用轮廓系数进行评估。本次聚类结果的轮廓系数如图8所示,聚类结果的轮廓系数为0.547,说明聚类产生了明显的类簇划分,但是部分类簇中可能较为松散,聚类结果可用。
聚类划分的五个线损率的类别区间,以及每一类所包含的线损数据的个数如下表所示:
表8某县台区线损率聚类结果表
从表8可以看出,线损率值较小的第一类和第二类所包含的线损数据个数分别为26588个和20610个,线损率区间越高的类别,所包含的线损数据个数越少。综合上述对某县台区线损率分布状况的描述,可以认为原因是在原数据集的数据分布中,93.39%的数据密集分布在线损率低于12.615%的区间内,其他6.61%的数据分布于线损率高于12.615的区间中,如图8所示。正方形代表线损率区间:小正方形的线损率区间为0.01%到12.615%,大正方形的线损率区间为12.615%到98.58%;黑点代表线损数据。可以看出,在0.01%到12.615%区间内的线损数据之间的距离要大于区间12.615%到98.58%中线损数据之间的距离。而K-means根据数据之间的欧氏距离进行聚类,以此可以解释聚类结果中不同类别中线损数据个数的差距。
2.3线损成功度等级评价标准
由低压配电网线损聚类分析结果可知,低压配电网线损可分为五类。本实施例将采用成功度分析法,确定低压配电网线损的评价标准,即五类台区线损所对应的的评价等级和评价得分。
成功度分析法是项目评估的一种综合分析方法,是指对项目的成功度(即项目实现预期目标的成败程度)给出定性结论,并依据定性结论将项目分为五个等级,各等级标准为:①完全成功,表明项目的各项目标都已全面实现或超过,相对于成本而言,项目取得了巨大的效益和影响;②成功的,表明项目的大部分目标已经实现,相对于成本而言,项目达到预期的效益和影响;③部分成功的,表明项目实现了原定的部分目标,相对于成本而言,项目只取得了一定的效益和影响;④不成功的,表明项目实现的目标非常有限,相对于成本而言,项目几乎没有取得什么效益和影响。⑤失败的,表明项目的目标无法实现,项目不得不终止。
由此,依据成功度分析法的等级标准,结合台区线损数据聚类分析结论,将台区线损标准分为以下五个等级:
1)线损很低。台区线损处于很低的水平,台区运行经济性很好。
2)线损低。台区线损处于低水平,台区运行经济性好。
3)线损较高。台区线损处于较高水平,台区运行经济性较差。
4)线损高。台区线损处于高水平,台区运行经济性差。
5)线损很高。台区线损处于很高水平,台区运行经济性很差。
最后,基于上述台区线损等级标准和台区类别,给出台区线损百分制评价得分标准和台区分类标准,见下表所示:
表9低压配电网线损评价标准
由上表可知低压配电网线损的评价标准,根据台区线损的现状数值和未来预测值,可对应确定出台区线损的评价等级、评价得分和所属类别。
线损成功度等级评价示例
上述低压配电网线损评价方法可应用于台区线损现状水平评价和台区线损未来预测水平评价,下面以部分台区为例给出线损评价过程和结果。
1)台区线损现状水平评价
以某县2019年4月24日223个台区为分析样本,获取各台区的日线损值,并依据上述评价标准确定出各台区的评价等级和类别,确定结果如下。
表10某县部分台区线损现状水平评价结果
2)台区线损未来预测水平评价
以某县塔园台区为例,结合上述确定的塔园台区线损未来预测值,依据上述评价标准确定出塔园台区线损未来预测水平的评价等级和类别,确定结果如下。
表11塔园台区线损率预测值
根据表11结果可得,塔园台区在三个日期的线损预测值均处于5.19%~10.08%区间内,属于合格台区,线损评价得分为80~90分。
一种低压台区线损预测用ARIMA模型构建***,其特征在于,包括:
预处理模块,对采集到的电力***中至少一种测量数据或者数据库中一组时序数据进行预处理;
检验模块,对预处理后的时序数据,采用周期差分算子消除周期性影响,并对处理后数据进行ADF单位根平稳性检验,检验不通过则采用差分运算消除增长趋势;
构建模块,通过赤池信息准则确定ARIMA模型阶数,并构建ARIMA模型及其误差预测模型;
自校正模块,根据预测模型预测的网损数据残差对ARIMA模型进行自校正,满足残差精度后输出模型。
一种实现上述低压台区线损预测用ARIMA模型构建方法的信息数据处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的低压台区线损预测用ARIMA模型构建方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (10)
1.一种低压台区线损预测用ARIMA模型构建方法,其特征在于,包括如下步骤:
S1、对采集到的电力***中至少一种测量数据或者数据库中一组时序数据进行预处理;
S2、对预处理后的时序数据,采用周期差分算子消除周期性影响,并对处理后数据进行ADF单位根平稳性检验,检验不通过则采用差分运算消除增长趋势;
S3、通过赤池信息准则确定ARIMA模型阶数,并构建ARIMA模型及其误差预测模型;
S4、根据预测模型预测的网损数据残差对ARIMA模型进行自校正,满足残差精度后输出模型。
2.根据权利要求1所述的低压台区线损预测用ARIMA模型构建方法,其特征在于,所述S1具体为:通过相关设备对电网网损数据进行检测或者从数据库中提取相关时序数据,并构成按照时间顺序的时序数据Pt;
消除数据周期性变化;
通过周期差分算子转换(10)消除周期影响;
(1-Bl)Pt
时序数据平稳性检验;
采用ADF单位根法检测序列数据Pt的平稳性。
3.根据权利要求2所述的低压台区线损预测用ARIMA模型构建方法,其特征在于,采用ADF单位根方法对时序数据Pt使用Eviewsk实现单位根检测,若假设检验值s小于1%置信区间,则时序数据Pt严格平稳;若假设检验值s小于5%置信区间,则时序数据Pt平稳;否则时序数据Pt不平稳。
7.一种低压台区线损预测用ARIMA模型构建***,其特征在于,包括:
预处理模块,对采集到的电力***中至少一种测量数据或者数据库中一组时序数据进行预处理;
检验模块,对预处理后的时序数据,采用周期差分算子消除周期性影响,并对处理后数据进行ADF单位根平稳性检验,检验不通过则采用差分运算消除增长趋势;
构建模块,通过赤池信息准则确定ARIMA模型阶数,并构建ARIMA模型及其误差预测模型;
自校正模块,根据预测模型预测的网损数据残差对ARIMA模型进行自校正,满足残差精度后输出模型。
8.一种基于权利要求7所述低压台区线损预测用ARIMA模型构建***的评估方法,其特征在于,包括:
S101、输入台区线损样本数据集,使用肘部法则确定聚类个数k并选择k个样本分别作为初始划分的簇类中心;
S102、将样本数据集内其他对象划分到最近中心点所在的集合,对分配完的每一个簇类,通过计算该簇类内所有数据平均值不断移动聚类中心,重新划分聚类,直到类内误差平方和最小且没有变化时为止;
S103、计算轮廓系数评估数据集中对象之间的相似性度量,该值越接近于1,簇越紧凑,聚类越好;
S104、采用成功度分析法,结合台区线损数据聚类分析结论,确定低压配电网线损的评价标准。
9.一种实现权利要求1-6任一项所述低压台区线损预测用ARIMA模型构建方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任一项所述的低压台区线损预测用ARIMA模型构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644244.9A CN113919610A (zh) | 2020-07-07 | 2020-07-07 | 低压台区线损预测用arima模型构建方法及评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010644244.9A CN113919610A (zh) | 2020-07-07 | 2020-07-07 | 低压台区线损预测用arima模型构建方法及评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113919610A true CN113919610A (zh) | 2022-01-11 |
Family
ID=79231453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010644244.9A Pending CN113919610A (zh) | 2020-07-07 | 2020-07-07 | 低压台区线损预测用arima模型构建方法及评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113919610A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964907A (zh) * | 2023-03-17 | 2023-04-14 | 中国人民解放***箭军工程大学 | 复杂***健康趋势预测方法、***、电子设备及存储介质 |
CN117154716A (zh) * | 2023-09-08 | 2023-12-01 | 国网河南省电力公司 | 一种分布式电源接入配电网的规划方法及*** |
-
2020
- 2020-07-07 CN CN202010644244.9A patent/CN113919610A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964907A (zh) * | 2023-03-17 | 2023-04-14 | 中国人民解放***箭军工程大学 | 复杂***健康趋势预测方法、***、电子设备及存储介质 |
CN115964907B (zh) * | 2023-03-17 | 2023-12-01 | 中国人民解放***箭军工程大学 | 复杂***健康趋势预测方法、***、电子设备及存储介质 |
CN117154716A (zh) * | 2023-09-08 | 2023-12-01 | 国网河南省电力公司 | 一种分布式电源接入配电网的规划方法及*** |
CN117154716B (zh) * | 2023-09-08 | 2024-04-26 | 国网河南省电力公司 | 一种分布式电源接入配电网的规划方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022110557A1 (zh) | 一种台区户变关系异常诊断方法及装置 | |
CN105930976B (zh) | 基于加权理想点法的节点电压暂降严重程度综合评估方法 | |
US20150317589A1 (en) | Forecasting system using machine learning and ensemble methods | |
CN112488395A (zh) | 一种配电网线损预测方法及*** | |
CN111401599A (zh) | 一种基于相似性搜索和lstm神经网络的水位预测方法 | |
CN112712203A (zh) | 一种配电网日最高负荷预测方法和*** | |
CN113919610A (zh) | 低压台区线损预测用arima模型构建方法及评估方法 | |
CN111709668A (zh) | 基于数据挖掘技术的电网设备参数风险识别方法及装置 | |
CN113255900A (zh) | 一种考虑改进谱聚类与Bi-LSTM神经网络的冲击性负荷预测方法 | |
CN110110339B (zh) | 一种日前水文预报误差校正方法及*** | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及*** | |
CN117078048A (zh) | 基于数字孪生的智慧城市资源管理方法及*** | |
CN116091118A (zh) | 电价预测方法、装置、设备、介质及产品 | |
CN111882363A (zh) | 销量预测方法、***及终端 | |
CN112330030B (zh) | 业扩物资需求预测***及方法 | |
CN116341290B (zh) | 一种长贮装备可靠性抽样检测方法 | |
CN115511230B (zh) | 一种电能替代潜力分析预测方法 | |
CN110648023A (zh) | 基于二次指数平滑改进gm(1,1)的数据预测模型的建立方法 | |
CN116245379A (zh) | 面向电网建设工程效果评价的指标权重优化方法及装置 | |
CN114169763B (zh) | 一种计量器具需求预测方法、***、计算装置及存储介质 | |
CN116224950A (zh) | 面向无人生产线自组织重构的智能故障诊断方法和*** | |
CN110175705B (zh) | 一种负荷预测方法及包含该方法的存储器、*** | |
CN113780686A (zh) | 一种面向分布式电源的虚拟电厂运行方案优化方法 | |
CN113283881A (zh) | 一种远动信息源的自动审核方法及*** | |
CN113139673A (zh) | 一种预测空气质量的方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220111 |
|
WD01 | Invention patent application deemed withdrawn after publication |