CN116885697A - 一种基于聚类分析与智能算法组合的负荷预测方法 - Google Patents
一种基于聚类分析与智能算法组合的负荷预测方法 Download PDFInfo
- Publication number
- CN116885697A CN116885697A CN202310685046.0A CN202310685046A CN116885697A CN 116885697 A CN116885697 A CN 116885697A CN 202310685046 A CN202310685046 A CN 202310685046A CN 116885697 A CN116885697 A CN 116885697A
- Authority
- CN
- China
- Prior art keywords
- data
- load
- prediction
- cluster
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000007621 cluster analysis Methods 0.000 title claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012417 linear regression Methods 0.000 claims abstract description 7
- 230000005856 abnormality Effects 0.000 claims abstract description 4
- 230000002159 abnormal effect Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 23
- 210000002569 neuron Anatomy 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 239000003795 chemical substances by application Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 230000005611 electricity Effects 0.000 abstract description 16
- 238000011160 research Methods 0.000 abstract description 3
- 238000012217 deletion Methods 0.000 abstract 1
- 230000037430 deletion Effects 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000002407 reforming Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Power Engineering (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及电力技术领域,具体为一种基于聚类分析与智能算法组合的负荷预测方法,首先,收集历史负荷数据、气象数据、日期数据等数据,针对原始数据可能出现缺失、异常及单位不统一等问题,对原始数据进行预处理;其次,基于自适应K‑means算法对代理用户进行聚类画像分类,在此基础上,为不同用户类型选择DNN或SVR智能算法,准确挑选合适预测模型;最后,应用多元线性回归算法(MLR),整合分类预测结果,输出最终负荷预测结果,实现对代理购电用户负荷的准确预测。解决当前针对代理购电负荷预测研究少、预测不准确等问题。
Description
技术领域
本发明涉及电力技术领域,具体为一种基于聚类分析与智能算法组合的负荷预测方法。
背景技术
随着我国电力市场化改革不断推进,工商业目录电价全面取消,针对未能直接参与市场交易的工商业用户,电网企业实施代理购电业务,虽然代理购电是一过渡性政策,但也代表了电力市场化改革的突破性进展。为最大限度控制购电偏差,降低市场风险,保障代理购电各方利益,需准确预测代理用户的用电需求及其特性,但目前少有针对代理购电业务的负荷预测方法研究。
当前,由电网企业代理购电的工商业用户大概有5000万户,海量的用户有不同的用电需求及特性,不同用户受气象、日期、历史负荷数据等因素的影响程度不同,若采用同种预测技术,会导致预测精度不佳,增大电网企业代理购电业务风险。对不同用户分类并选择合适方法预测后,获得多类型用户的负荷预测数据,此时若直接简单相加,结果往往无法反应真实负荷情况。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述存在的问题,提出了本发明。
因此,本发明提出一种基于聚类分析与智能算法组合的负荷预测方法,解决当前由于代理购电相关代理用户负荷变化大,使用单个技术的预测模型无法准确预测的问题,以及为更好实施代理购电相关业务,需准确预测掌握相关用户的用电需求及特性,但不同代理用户的特性不尽相同,现有技术无法针对不同用户准确分类并实施不同预测技术的问题。
为解决上述技术问题,本发明提供如下技术方案:一种基于聚类分析与智能算法组合的负荷预测方法,其特征在于:包括,获取代理用户的历史负荷数据,并收集气象、日期以及外部影响数据;对收集的数据进行数据预处理,包括对异常数据进行修正和规范化处理;基于K-means算法,对预处理后的数据进行分类处理,为不同类型用户应用不同预测模型提供依据;分析各类用户的负荷特性,在横向对比不同的预测模型的效果后,为用户选取并建立最为适合的预测模型;获取多类型用户原始预测数据后,以原始数据为自变量,总负荷为因变量,建立MLR模型,在训练和预测后,经反规范化处理得到最终预测结果。
作为本发明所述一种基于聚类分析与智能算法组合的负荷预测方法的一种优选方案,其中:所述数据预处理包括,对异常数据进行修正和规范化处理包括,缺失值处理、异常值处理和数据的无量纲化处理;所述缺失值处理包括,缺失值连续出现时为连续性缺失,缺失值不连续出现时为孤立性缺失;结合符合数据特性,对连续性缺失数据采用横向特性修正,并设置纵向特征检验,调整补全因子,使补全值满足负荷特性;水平方向相邻时刻差异较小,可使用连续的同类型日相同时刻数据构建修正公式,当缺失日为工作日,则同类型日为工作日;相邻同类型日相似度极高,因此选择距离代补全日前后连续m天的t时刻无异常负荷数据构成校验集,计算集合中各个t时刻的均值以及方差;所述异常数据处理包括,数据传输中会出现一些无法预知的突发事件与故障,导致数据异常,将数据异常点视作数据缺失点,按照缺失性数据进行补全;所述无量纲化处理包括,将数据无量纲化,将具体数据值映射到0-1的区间内,纵坐标不代表现实意义,凸显数据特性,提升模型学习能力。
作为本发明所述一种基于聚类分析与智能算法组合的负荷预测方法的一种优选方案,其中:所述分类处理包括,用K-means算法对代理用户进行分类;所述K-means算法包括,随机选择k个样本作为输入数据集的初始聚类中心{μ1,μ2,μ3....μk};计算k个样本到聚类中心的欧氏距离,并归属至最近的聚类中心,形成k个簇,计算距离度量,更新聚类中心,将聚类中心更新为从属于一个簇全部样本的平均值;重复进行计算样本到聚类中心的欧氏距离,并归属至最近的聚类中心和计算距离度量,更新聚类中心,将聚类中心更新为从属每个簇的全部样本的平均值,直到算法收敛为止。
作为本发明所述一种基于聚类分析与智能算法组合的负荷预测方法的一种优选方案,其中:所述K-means算法还包括,对于线性空间的样本集Pi,i∈{1,2,3....m},维度数为N,应用K-means算法进行分类时,具体为多个聚类中心不迭代的重复计算,直至聚类中心不发生移动,得到最终的聚类中心{B1,B2,B3....BK},此时聚类中心距离簇中样本的距离D最小,距离D的公式如下:
其中,Bi表示每个簇的聚类中心,u为聚类以后簇的个数,Pj代表第i个簇中的数据点,若k值过小,会导致聚类不充分,同时,若初始聚类中心集中于某个小区域内,将导致无法聚类,需确定聚类中心与初始格式。
作为本发明所述一种基于聚类分析与智能算法组合的负荷预测方法的一种优选方案,其中:所述预测模型包括DNN算法与SVR算法;所述SVR算法为支持向量回归,是一种针对回归问题的机器学习模型;所述DNN算法为深度神经网络算法,由输入层、隐含层和输出层构成,每层包含许多神经元,同一层神经元互相独立,相邻层神经元互相连接,深度神经网络包含多个隐含层,其中每个神经元都时非线性,神经元的激活函数有ReLU和Sigmoid;对比浅层神经网络,深度神经网络含复数个隐含层,对非线性关系的学习能力较强,在负荷预测中,采用深度神经网络更好地捕捉输入数据到目标的非线性映射关系;在输入层,x1-xn为输入数据,是由负荷数据序列组成的向量,深度神经网络采用线性恒等式作为激活函数,其中,m为隐含层的层数,c为权重参数,b为偏置参数;每一隐含层输入向量从前一层获取,并与层激活函数组合,实现非线性变换,计算得到的向量输出到下一层神经元,传递至输出向量y。
作为本发明所述一种基于聚类分析与智能算法组合的负荷预测方法的一种优选方案,其中:所述最终预测结果包括,最终预测的总负荷值由多个不同用户群体的负荷累加形成,不同用户群体负荷值与总负荷值间存在天然线性映射关系,令最终负荷y受到多个不同种类用户群体负荷x1,x2,...,xm影响,此时每一类用户群体负荷xj=(j=1,2...m)对于总负荷y关系可近似线性表示,可建立多元线性回归模型进行分析和预测。
作为本发明所述一种基于聚类分析与智能算法组合的负荷预测方法的一种优选方案,其中:所述多元线性回归预测模型包括,
随机误差εi可定义为:
方差和为:
其中,y为输出向量,b0,bj(j=1,2,...,m)为模型回归系数,xj=(j=1,2...m)为自变量。
本发明的另一个目的是提供一种基于聚类分析与智能算法组合的负荷预测方法的***;其能通过构建聚类分析与智能算法的组合的用户***,解决当前针对代理购电负荷预测研究少、预测不准确等问题。
一种基于聚类分析与智能算法组合的负荷预测方法的***,其特征在于:所述***包括,用户数据收集与存储模块,数据预处理模块,数据分类模块,预测模型建立模块,MLR模型建模模块;所述用户数据收集与存储模块,用于获取代理用户的历史负荷数据,并收集气象和日期外部影响数据;所述数据预处理模块,用于对收集的数据进行数据预处理,包括对异常数据进行修正和规范化处理;所述数据分类模块,基于K-means算法,对预处理后的数据进行分类处理,为不同类型用户应用不同预测模型提供依据;所述预测模型建立模块,用于分析各类用户的负荷特性,在横向对比不同的预测模型的效果后,为用户选取并建立最为适合的预测模型;所述MLR模型建模模块,用于获取多类型用户原始预测数据后,以原始数据为自变量,总负荷为因变量,建立MLR模型,在训练和预测后,经反规范化处理得到最终预测结果。
本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现一种基于聚类分析与智能算法组合的负荷预测方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现一种基于聚类分析与智能算法组合的负荷预测方法的步骤。
本发明的有益效果:本发明在新时代电力市场化改革发展背景下,结合代理购电业务特点,可精准预测代理用户负荷,解决当前针对代理购电负荷预测研究少、预测不准确等问题,极大提高代理购电代理用户负荷预测精准度,更好辅助代理购电业务为社会服务。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一种基于聚类分析与智能算法组合的负荷预测方法的方法流程示意图。
图2为本发明一种基于聚类分析与智能算法组合的负荷预测方法的组合算法流程示意图。
图3为本发明一种基于聚类分析与智能算法组合的负荷预测方法所述的K-means算法流程图。
图4为本发明一种基于聚类分析与智能算法组合的负荷预测方法所述的DNN模型结构图。
图5为本发明一种基于聚类分析与智能算法组合的负荷预测方法的***结构图。
图6为本发明一种基于聚类分析与智能算法组合的负荷预测方法的不同预测方法结果曲线对比图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1、图2、图3和图4,为本发明的第一个实施例,提供了一种基于聚类分析与智能算法组合的负荷预测方法。
S1:获取代理用户的历史负荷数据,并收集气象、日期以及外部影响数据。
S2:对收集的数据进行数据预处理,包括对异常数据进行修正和规范化处理。
具体的,对收集的数据进行数据预处理,包括对异常数据进行修正和规范化处理包括,缺失值处理、异常值处理和数据的无量纲化处理。
进一步的,缺失值处理包括,缺失值连续出现时为连续性缺失,缺失值不连续出现时为孤立性缺失;结合符合数据特性,对连续性缺失数据采用横向特性修正,并设置纵向特征检验,调整补全因子,使补全值满足负荷特性;水平方向相邻时刻差异较小,可使用连续的同类型日相同时刻数据构建修正公式,当缺失日为工作日,则同类型日为工作日,修正公式如下:
其中,y(i,t)为待补全的第i日t时刻的数据,β为修补因子。
相邻同类型日相似度极高,因此选择距离代补全日前后连续m天的t时刻无异常负荷数据构成校验集,计算集合中各个t时刻的均值以及方差:
v(t)=σ2
其中,d为校验集中的天数,t为数据缺失的时刻。
此时,定义p(d,t)为第d天的t时刻的负荷偏移率:
将补全数据运行的偏移率设置为:
按照公式计算补全值y(i,t)的偏移率p(i,t),并采用以下方式进行校验:p(i,t)≤η(t),则补全值有效;
p(i,t)>η(t),数据偏移过大,需要调整修补因子的大小重新进行计算,再次校验,直到偏移率满足判别条件的要求。
对于连续性的缺失数据,获取相邻同类型日正常数据后,根据数据变化趋势,通过曲线拟合方式求取:
f=g(y,a1,a2,…,an)=a1g1(y)+a2g2(y)+…+angn(y)
令g1(y)=1,g2(y)=y,g3(y)=y2,依此类推。
将相邻同类型日按日期排序,得到参考日序列,将参考序列中各日对应缺失时刻的数据yk带入下式:
利用最小二乘法:
求极限:
解出参数a1至an,得到拟合曲线公式,根据拟合曲线公式求解出修补值。
所述异常数据处理包括,数据传输中会出现一些无法预知的突发事件与故障,导致数据异常,将数据异常点视作数据缺失点,按照缺失性数据进行补全。
更进一步的,所述无量纲化处理包括,收集的数据量多、种类杂,无法做完单位的完全统一,且数据差异大,选用正常单位时,数据间联系不明显,模型训练时效果不佳,需将数据无量纲化,将具体数据值映射到0-1的区间内,纵坐标不代表现实意义,凸显数据特性,提升模型学习能力,无量纲化方式为:
其中,lnew为无量纲化后的数据,lmax为最大负荷值,lavg为全部负荷数据平均值,lmin为最小负荷值。
S3:基于K-means算法,对预处理后的数据进行分类处理,为不同类型用户应用不同预测模型提供依据。
具体的,参照图3,为K-means算法流程,基于K-means算法,对预处理后的数据进行分类处理,为不同类型用户应用不同预测模型提供依据包括,面对海量代理用户,若不进行分类,直接将负荷数据输入模型训练,无法保证预测准确度,不同用户之间相对独立,但仍存在一定相关性,可应用K-means算法对代理用户进行分类。
进一步的,K-means算法具有稳定快速的优点,但传统的K-means算法需要主观确定聚类数目,面对海量数据时,传统K-means算法易导致分类不合理,降低模型预测效果,为此,基于距离迭代过程构造一种自动确定聚类数目的自适应K-means算法,所述K-means算法的步骤包括,
随机选择k个样本作为输入数据集的初始聚类中心{μ1,μ2,μ3....μk};
计算其他样本到聚类中心的欧式距离,并归属至最近的聚类中心,形成k个簇,欧式距离的定义为:
其中,n为空间为维数,Ak和Bk分别表示A和B的第k个属性;
计算距离度量,更新聚类中心,将聚类中心更新为从属一个簇的全部样本的平均值;
重复进行计算样本到聚类中心的欧式距离,并将其归属至最近的聚类中心和计算距离度量,更新聚类中心,将聚类中心更新为从属每个簇的全部样本的平均值,直到算法收敛为止。
进一步的,对于线性空间的样本集Pi,i∈{1,2,3....m},维度数为N,应用K-means算法进行分类时,可描述为多个聚类中心不迭代的重复计算,直至聚类中心不发生移动,得到最终的聚类中心{B1,B2,B3....BK},此时聚类中心距离簇中样本的距离D最小,距离D的公式如下:
其中,Bi表示每个簇的聚类中心,u为聚类以后簇的个数,Pj代表第i个簇中的数据点,若k值过小,会导致聚类不充分,同时,若初始聚类中心集中于某个小区域内,将导致无法聚类,需确定聚类中心与初始格式。
为自动选择聚类个数k,可引入定量评价指标方法,自适应的关键是合理进行聚类个数评估,引入Davies-Bouldin指数,使用数据集固有数量和特征进行评估,该指数定义如下:
其中,表示集群i的中心到集群j的欧式距离,/>和/>分别表示i和j簇样本到相应簇中心的平均距离,IDBI越小,聚类效果越好,可得到最佳聚类数Kbest。同时,为避免生成过多簇,可利用阈值限制,记为Kmax。
S4:分析各类用户的负荷特性,在横向对比不同的预测模型的效果后,为用户选取并建立最为适合的预测模型。
具体的,最为适合的预测模型包括,提供DNN与SVR两种算法。
进一步的,所述DNN算法为深度神经网络算法,由输入层、隐含层和输出层构成,每层包含许多神经元,同一层神经元互相独立,相邻层神经元互相连接,深度神经网络包含多个隐含层,其中每个神经元都时非线性,神经元的激活函数有ReLU和Sigmoid。
参照图2,为DNN模型结构图,对比浅层神经网络,深度神经网络含复数个隐含层,对非线性关系的学习能力较强,在负荷预测中,采用深度神经网络可更好捕捉输入数据到目标的非线性映射关系。
在输入层,x1-xn为输入数据,是由负荷数据序列组成的向量,深度神经网络采用线性恒等式作为激活函数,其中,m为隐含层的层数,c为权重参数,b为偏置参数。
每一隐含层输入向量从前一层获取,并与层激活函数组合,实现非线性变换,计算得到的向量输出到下一层神经元,传递至输出向量y,
第m层的输出向量a(m)为:
其中,f是激活函数,a是第m层神经元个数,激活函数选用Sigmoid,优点在与数据的传递过程不易发散,计算量较小,可以表示为:
网络的最终输出定义为:
其中,Hd表示为最后一个隐含层的神经元数量。
更进一步的,所述SVR算法为支持向量回归算法,支持向量回归算法是一种针对回归问题的机器学习模型,用D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈R表示给定的训练样本,SVR算法的原理为:
其中,C表示正则化系数,λ∈(f(xi)-yi)是不敏感损失函数,引入松弛变量ξi、对原理公式进行重整:
满足以下条件:
f(xi)-yi≤∈+ξi
使用拉格朗日乘子由拉格朗日乘子法可得到:
令对/>求偏导,偏导方程置为0,可以得到对偶问题:
且满足以下不等式:
算法过程在满足KKT(Karush-Kuhn-Tucker)条件前提下,使用序列最小优化求解。
S5:获取多类型用户原始预测数据后,以原始数据为自变量,总负荷为因变量,建立MLR模型,在训练和预测后,经反规范化处理得到最终预测结果。
具体的,所述最终预测结果包括,最终预测的总负荷值由多个不同用户群体的负荷累加形成,不同用户群体负荷值与总负荷值间存在天然线性映射关系,令最终负荷y受到多个不同种类用户群体负荷x1,x2,...,xm影响,此时每一类用户群体负荷xj=(j=1,2...m)对于总负荷y关系可近似线性表示,可建立多元线性回归模型进行分析和预测,假定总负荷y与各分类用户群体负荷xj=(j=1,2...m)间关系可表示为:
y=b0+b1b1i+b2b2i+...+bmbmi+εi(i=1,2,...,n)
其中,b0,bj(j=1,2,...,m)为模型回归系数;εi为除自变量xj=(j=1,2...m)的影响之外的随机误差。
进一步的,建立多元线性回归预测模型包括,
随机误差εi可定义为:
方差和为:
依据最小二乘法原理:
而对于各变量的样本平均值,其误差平方和为:
其中,对公式进行整理,最终得到规范方程式为:
其中,b0,bj(j=1,2,...,m)为模型回归系数,xj(j=1,2...m)为输入数据自变量,Sij(i,j=1,2...)为误差平方和。
实施例2
参照图5,为本发明的第二个实施例,提供了一种基于聚类分析与智能算法组合的负荷预测方法的***。
具体的,所述***包括,用户数据收集与存储模块(101),数据预处理模块(102),数据分类模块(103),预测模型建立模块(104),MLR模型建模模块(105)。
用户数据收集与存储模块(101),用于获取代理用户的历史负荷数据,并收集气象和日期外部影响数据。
数据预处理模块(102),用于对收集的数据进行数据预处理,包括对异常数据进行修正和规范化处理。
数据分类模块(103),基于K-means算法,对预处理后的数据进行分类处理,为不同类型用户应用不同预测模型提供依据。
预测模型建立模块(104),用于分析各类用户的负荷特性,在横向对比不同的预测模型的效果后,为用户选取并建立最为适合的预测模型。
MLR模型建模模块(105),用于获取多类型用户原始预测数据后,以原始数据为自变量,总负荷为因变量,建立MLR模型,在训练和预测后,经反规范化处理得到最终预测结果。
实施例3
参照图6,为本发明的第三个实施例,本实施例提供一种基于聚类分析与智能算法组合的负荷预测方法,为了验证本发明的有益效果,通过经济效益计算和仿真实验进行科学论证。
具体的,以20个大工业用户与20个一般工商业用户为例,应用K-means算法将其分为若干类型,并总结出结果和特点。
大工业类型1:午间负荷较低伴随日间两个高峰,夜间负荷低;
大工业类型2:夜间负荷高,白天负荷低;
大工业类型3:具备一点周期性,但分类不同的游离用户;
一般工商业类型1:与大工业类型1类似;
一般工商业类型2:晚高峰明显,伴随日间两个高峰;
一般工商业类型3:与大工业类型2类似;
一般工商业类型4:随机性强,无明显周期性。
应当说明的是,分类完成后,选取72个用户数据作为原始数据,经数据预处理后,按K-means方法所述类型进行分类,经小样本测试后,为不同类型用户选取不同预测模型,以提高预测精度,以一般工商业类型1与类型4为例:
一般工商业类型1:
表1一般工商业用户类型1模型精确度结果表
一般工商业类型4:
表2一般工商业用户类型4模型精确度结果表
/>
由表1和表2可知,一般工商业类型1应选择SVR预测模型,而一般工商业类型4应选择DNN预测模型。
为不同类型用户合理选择预测模型后,得出不同类型用户预测值,经MLR算法整合后得出最终预测值。不同方法预测值对比如图6所示。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或于实现本发明不相关的那些特征)。应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于聚类分析与智能算法组合的负荷预测方法,其特征在于:包括,
获取代理用户的历史负荷数据,并收集气象、日期以及外部影响数据;
对收集的数据进行数据预处理,包括对异常数据进行修正和规范化处理;
基于K-means算法,对预处理后的数据进行分类处理,为不同类型用户应用不同预测模型提供依据;
分析各类用户的负荷特性,在横向对比不同的预测模型的效果后,为用户选取并建立最为适合的预测模型;
获取多类型用户原始预测数据后,以原始数据为自变量,总负荷为因变量,建立MLR模型,在训练和预测后,经反规范化处理得到最终预测结果。
2.如权利要求1所述的一种基于聚类分析与智能算法组合的负荷预测方法,其特征在于:所述数据预处理包括,对异常数据进行修正和规范化处理包括,缺失值处理、异常值处理和数据的无量纲化处理;
所述缺失值处理包括,缺失值连续出现时为连续性缺失,缺失值不连续出现时为孤立性缺失;结合符合数据特性,对连续性缺失数据采用横向特性修正,并设置纵向特征检验,调整补全因子,使补全值满足负荷特性;水平方向相邻时刻差异较小,可使用连续的同类型日相同时刻数据构建修正公式,当缺失日为工作日,则同类型日为工作日;相邻同类型日相似度极高,因此选择距离代补全日前后连续m天的t时刻无异常负荷数据构成校验集,计算集合中各个t时刻的均值以及方差;
所述异常数据处理包括,数据传输中会出现一些无法预知的突发事件与故障,导致数据异常,将数据异常点视作数据缺失点,按照缺失性数据进行补全;
所述无量纲化处理包括,将数据无量纲化,将具体数据值映射到0-1的区间内,纵坐标不代表现实意义,凸显数据特性,提升模型学习能力。
3.如权利要求2所述的一种基于聚类分析与智能算法组合的负荷预测方法,其特征在于:所述分类处理包括,用K-means算法对代理用户进行分类;所述K-means算法包括,
随机选择k个样本作为输入数据集的初始聚类中心{μ1,μ2,μ3....μk};
计算k个样本到聚类中心的欧氏距离,并归属至最近的聚类中心,形成k个簇,计算距离度量,更新聚类中心,将聚类中心更新为从属于一个簇全部样本的平均值;
重复进行计算样本到聚类中心的欧氏距离,并归属至最近的聚类中心和计算距离度量,更新聚类中心,将聚类中心更新为从属每个簇的全部样本的平均值,直到算法收敛为止。
4.如权利要求3所述的一种基于聚类分析与智能算法组合的负荷预测方法,其特征在于:所述K-means算法还包括,
对于线性空间的样本集Pi,i∈{1,2,3....m},维度数为N,应用K-means算法进行分类时,具体为多个聚类中心不迭代的重复计算,直至聚类中心不发生移动,得到最终的聚类中心{B1,B2,B3....BK},此时聚类中心距离簇中样本的距离D最小,距离D的公式如下:
其中,Bi表示每个簇的聚类中心,u为聚类以后簇的个数,Pj代表第i个簇中的数据点,若k值过小,会导致聚类不充分,同时,若初始聚类中心集中于某个小区域内,将导致无法聚类,需确定聚类中心与初始格式。
5.如权利要求4所述的一种基于聚类分析与智能算法组合的负荷预测方法,其特征在于:所述预测模型包括DNN算法与SVR算法;
所述SVR算法为支持向量回归,是一种针对回归问题的机器学习模型;
所述DNN算法为深度神经网络算法,由输入层、隐含层和输出层构成,每层包含许多神经元,同一层神经元互相独立,相邻层神经元互相连接,深度神经网络包含多个隐含层,其中每个神经元都时非线性,神经元的激活函数有ReLU和Sigmoid;
对比浅层神经网络,深度神经网络含复数个隐含层,对非线性关系的学习能力较强,在负荷预测中,采用深度神经网络更好地捕捉输入数据到目标的非线性映射关系;
在输入层,x1-xn为输入数据,是由负荷数据序列组成的向量,深度神经网络采用线性恒等式作为激活函数,其中,m为隐含层的层数,c为权重参数,b为偏置参数;
每一隐含层输入向量从前一层获取,并与层激活函数组合,实现非线性变换,计算得到的向量输出到下一层神经元,传递至输出向量y。
6.如权利要求5所述的一种基于聚类分析与智能算法组合的负荷预测方法,其特征在于:所述最终预测结果包括,最终预测的总负荷值由多个不同用户群体的负荷累加形成,不同用户群体负荷值与总负荷值间存在天然线性映射关系,令最终负荷y受到多个不同种类用户群体负荷x1,x2,…,xm影响,此时每一类用户群体负荷xj=(j=1,2…m)对于总负荷y关系可近似线性表示,可建立多元线性回归模型进行分析和预测。
7.如权利要求6所述的一种基于聚类分析与智能算法组合的负荷预测方法,其特征在于:所述多元线性回归预测模型包括,
随机误差εi可定义为:
方差和为:
其中,y为输出向量,b0,bj(j=1,2,…,m)为模型回归系数,xj=(j=1,2…m)为自变量。
8.一种采用如权利要求1~7任一所述的基于聚类分析与智能算法组合的负荷预测方法的***,其特征在于:所述***包括,用户数据收集与存储模块,数据预处理模块,数据分类模块,预测模型建立模块,MLR模型建模模块;
所述用户数据收集与存储模块,用于获取代理用户的历史负荷数据,并收集气象和日期外部影响数据;
所述数据预处理模块,用于对收集的数据进行数据预处理,包括对异常数据进行修正和规范化处理;
所述数据分类模块,基于K-means算法,对预处理后的数据进行分类处理,为不同类型用户应用不同预测模型提供依据;
所述预测模型建立模块,用于分析各类用户的负荷特性,在横向对比不同的预测模型的效果后,为用户选取并建立最为适合的预测模型;
所述MLR模型建模模块,用于获取多类型用户原始预测数据后,以原始数据为自变量,总负荷为因变量,建立MLR模型,在训练和预测后,经反规范化处理得到最终预测结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7任一项所述的一种基于聚类分析与智能算法组合的负荷预测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7任一项所述的一种基于聚类分析与智能算法组合的负荷预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685046.0A CN116885697A (zh) | 2023-06-09 | 2023-06-09 | 一种基于聚类分析与智能算法组合的负荷预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685046.0A CN116885697A (zh) | 2023-06-09 | 2023-06-09 | 一种基于聚类分析与智能算法组合的负荷预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116885697A true CN116885697A (zh) | 2023-10-13 |
Family
ID=88266996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310685046.0A Pending CN116885697A (zh) | 2023-06-09 | 2023-06-09 | 一种基于聚类分析与智能算法组合的负荷预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116885697A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494904A (zh) * | 2023-12-20 | 2024-02-02 | 万物信通(广州)通信信息技术有限公司 | 一种通信能力开放平台负荷预测方法、电子设备以及可读存储介质 |
-
2023
- 2023-06-09 CN CN202310685046.0A patent/CN116885697A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494904A (zh) * | 2023-12-20 | 2024-02-02 | 万物信通(广州)通信信息技术有限公司 | 一种通信能力开放平台负荷预测方法、电子设备以及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rezaei et al. | Stock price prediction using deep learning and frequency decomposition | |
Wang et al. | Forecasting stochastic neural network based on financial empirical mode decomposition | |
Wang et al. | Predicting construction cost and schedule success using artificial neural networks ensemble and support vector machines classification models | |
Schneider et al. | Personalization of deep learning | |
Chen et al. | The study of credit scoring model based on group lasso | |
CN111681022A (zh) | 一种网络平台数据资源价值评估方法 | |
CN110175689A (zh) | 一种概率预测的方法、模型训练的方法及装置 | |
Chou et al. | Imaging time-series with features to enable visual recognition of regional energy consumption by bio-inspired optimization of deep learning | |
CN116885697A (zh) | 一种基于聚类分析与智能算法组合的负荷预测方法 | |
CN112668822A (zh) | 科技成果转化平台共享***、方法、存储介质、手机app | |
Lee et al. | A hybrid approach combining fuzzy C-means-based genetic algorithm and machine learning for predicting job cycle times for semiconductor manufacturing | |
CN115660855A (zh) | 一种融合新闻数据的股票收盘价预测方法 | |
CN114004530B (zh) | 基于排序支撑向量机的企业电力信用分建模方法及*** | |
CN114880538A (zh) | 基于自监督的属性图社团检测方法 | |
Fan et al. | Long‐term intuitionistic fuzzy time series forecasting model based on vector quantisation and curve similarity measure | |
Liu et al. | Towards better time series prediction with model-independent, low-dispersion clusters of contextual subsequence embeddings | |
CN113344589B (zh) | 一种基于vaegmm模型的发电企业串谋行为的智能识别方法 | |
CN110335160A (zh) | 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及*** | |
CN113656707A (zh) | 一种理财产品推荐方法、***、存储介质及设备 | |
Busari et al. | An application of AdaBoost-GRU ensemble model to economic time series prediction | |
CN117371573A (zh) | 基于TrAdaBoost-LSTM的时间序列预测方法、装置及介质 | |
CN116562454A (zh) | 一种应用于bim的长短时注意力机制网络的造价预测方法 | |
CN115759343A (zh) | 一种基于e-lstm的用户电量预测方法和装置 | |
Xie et al. | Exploration of stock portfolio investment construction using deep learning neural network | |
Chen | Visual recognition and prediction analysis of China’s real estate index and stock trend based on CNN-LSTM algorithm optimized by neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |