CN111178611B - 一种日电量预测的方法 - Google Patents

一种日电量预测的方法 Download PDF

Info

Publication number
CN111178611B
CN111178611B CN201911341581.4A CN201911341581A CN111178611B CN 111178611 B CN111178611 B CN 111178611B CN 201911341581 A CN201911341581 A CN 201911341581A CN 111178611 B CN111178611 B CN 111178611B
Authority
CN
China
Prior art keywords
electric quantity
data
user
daily
daily electric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911341581.4A
Other languages
English (en)
Other versions
CN111178611A (zh
Inventor
赵泰龙
韦国惠
王圣竹
黄蔚
郭小璇
郭敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Power Grid Co Ltd
Original Assignee
Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Power Grid Co Ltd filed Critical Guangxi Power Grid Co Ltd
Priority to CN201911341581.4A priority Critical patent/CN111178611B/zh
Publication of CN111178611A publication Critical patent/CN111178611A/zh
Application granted granted Critical
Publication of CN111178611B publication Critical patent/CN111178611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种日用电量预测的方法,所述方法包括:获取在时间段内用户日电量原始数据,并剔除日电量为第一预设值和缺失值总和占比大于第二预设值的用户日电量数据;将所述剔除后的用户日电量数据进行异常值的处理以及缺失值的填补,得到新的用户日电量数据;利用提取的用户重要特征对所述新的用户日电量数据进行聚类处理;基于所述聚类后的用户日电量数据,从天气、节假日类型、星期类型的维度构建衡量用户电量波动的特征;基于LSTM神经网络,利用所述衡量用户电量波动的特征构建用户日电量预测的模型,并对所述模型进行训练;基于所述用户日电量预测的模型以及所述模型训练的结果,对用户日用电量进行预测。在本发明实施中,所述方法更具体地展现用电行为。

Description

一种日电量预测的方法
技术领域
本发明涉及一种电量预测的技术领域,尤其涉及一种日用电量预测的方法。
背景技术
电量预测是指在满足一定精度要求下,充分考虑一些重要的自然条件与社会影响、***运行特性与增容决策等方面,研究或利用一种能够处理过去与未来电量的关系的数学方法,确定未来某特定时刻的电量数值;对电量进行准确预测,可以保证人民生活和社会正常生产,有效地降低电力企业的运行成本,保证电网经济运行,提高社会和经济效益;而电量的影响因素较多,例如地区经济、政策、气候等,这些因素中又确定性的,也有随机性的,这一方面说明了电量预测所需的数据较多,另一方面说明了电量预测结果由于影响因素的随机性在一定程度上具有不确定性,很大程度上增加了电量预测的难度。目前,对于中长期电量的预测技术已经日趋承受,而日电量的预测技术研究相对较少,且日电量信息数据隐藏的用电行为更具体。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种日电量预测的方法,可以预测日用电量,更具体地展现用电行为。
为了解决上述技术问题,本发明实施例提供了一种日用电量预测的方法,所述方法包括:
获取在时间段内用户日电量原始数据,并在所述用户日电量原始数据中剔除日电量为第一预设值和缺失值总和占比大于第二预设值的用户日电量数据,得到剔除后的用户日电量数据;
将所述剔除后的用户日电量数据进行异常值的处理以及缺失值的填补,得到新的用户日电量数据;
利用提取的用户重要特征对所述新的用户日电量数据进行聚类处理,得到聚类后的用户日电量数据;
基于所述聚类后的用户日电量数据,从天气、节假日类型、星期类型的维度构建衡量用户电量波动的特征;
基于LSTM神经网络,利用所述衡量用户电量波动的特征构建用户日电量预测的模型,并对所述模型进行训练;
基于所述用户日电量预测的模型以及所述模型训练的结果,对用户日用电量进行预测。
可选的,所述将所述剔除后的用户日电量数据进行异常值的处理以及缺失值的填补,得到新的用户日电量数据包括:
将所述剔除后的用户中的居民日电量数据进行异常值的处理以及缺失值的填补,得到新的用户中的居民日电量数据;
将所述剔除后的用户中的非居民日电量数据进行异常值的处理以及缺失值的填补,得到新的用户中的非居民日电量数据。
可选的,所述将所述剔除后的用户中的居民日电量数据进行异常值的处理包括:
将所述剔除后的用户中的居民日电量数据中为负值、和0、和全局异常值点的数据置为Nan;
通过计算得出所述剔除后的用户中的居民日电量数据的时间序列级比数,具体公式如下:
Figure BDA0002331490120000021
其中,
Figure BDA0002331490120000022
为时间序列比数,xi为第i天的居民日用电量,xi-1为第i-1天的居民日用电量;
根据所述时间序列级比数对异常值进行判定,并将所述判定为异常值的结果置为Nan。
可选的,所述将所述剔除后的用户中的居民日电量数据进行缺失值的填补包括:
基于所述剔除后的用户中的居民日电量数据,将存在缺失值的数据按每31天作为一个循环输入;
将所述输入的31天数据进行K近邻模型训练;
在K近领模型训练中设置K=3,选取缺失值位置最为相近的三个数据,并使用所述三个数据的均值对所述缺失值进行填补。
可选的,所述将所述剔除后的用户中的非居民日电量数据进行异常值的处理包括:
将所述剔除后的用户中的非居民日电量数据中为负值和0的数据置为Nan,并划分所述非居民日电量数据为三个数据集,所述三个数据集分别为节假日数据集、除节假日外的非工作日数据集和工作日数据集;
所述节假日数据集不做任何处理;所述非工作日数据集基于三倍方差原则对异常值进行判定,并将判定为异常值的结果置为Nan;所述工作日数据集基于级比法查找异常值,并将查找为异常值的结果置为Nan。
可选的,所述将所述剔除后的用户中的非居民日电量数据进行缺失值的填补包括:
将所述剔除后的用户中的非居民日电量数据划分为两个数据集,所述两个数据集分别为节假日数据集和非节假日数据集;
所述节假日数据集基于线性插值法进行填补;所述非节假日数据集基于K近邻法进行填补。
可选的,所述利用提取的用户重要特征对所述新的用户日电量数据进行聚类处理,得到聚类后的用户日电量数据包括:
提取在用户重要特征范围内的所述新的用户日电量数据,并计算所述在用户重要特征范围内的所述新的用户日电量数据、和所有新的用户日电量数据的平均值、标准差、最大值、最小值和中位数;
根据所述平均值、标准差、最大值、最小值和中位数合并组成全部特征D={x1,x2,x3,...xn};
根据全部特征D={x1,x2,x3,...xn},以及k均值算法针对聚类所得划分C={C1,C2,C3,...Cn},得到最小化平方误差,具体公式如下:
Figure BDA0002331490120000031
其中,
Figure BDA0002331490120000032
E为最小化平方误差;X为簇Ci的均值向量。
可选的,所述基于所述聚类后的用户日电量数据,从天气、节假日类型、星期类型的维度构建衡量用户电量波动的特征包括:
利用天气温度特征和以往电量特征对所述聚类后的用户电量数据进行向量描述;其中,所述以往电量特征包括前31天数据的用电量,前31天用电量数据的平均值、最小电量、最大电量、电量方差、电量中位数,前7天日电量的平均电量、最小电量、最大电量、电量方差、电量中位数;所述天气温度特征包括当天温度平均值,当天所属星期几,是否为节假日,是否为节气,所属在一个月中的第几天,所属在一年中的第几个月;
将所述天气温度特征和以往电量特征进行标准化,具体公式如下:
Figure BDA0002331490120000041
其中,
Figure BDA0002331490120000042
为某一天所有用户数据的平均值,std为某一天所有用户数据的标准差。
可选的,所述基于LSTM神经网络,利用所述衡量用户电量波动的特征构建用户日电量预测的模型,并对所述模型进行训练包括:
利用所述衡量用户电量波动的特征构建用户日电量预测的模型;
在所述用户日电量预测的模型中输入LSTM网络的格式为batch_size、time_step、feature_dim的三维矩阵;
对所述三维矩阵进行训练,包括数据随机打乱和预测结果约束。
可选的,所述基于所述用户日电量预测的模型以及所述模型训练的结果,对用户日用电量进行预测,其中,预测值的相对误差率的具体公式如下:
Figure BDA0002331490120000043
在本发明实施中,一种日电量预测的方法可以预测日用电量,更具体地展现日电量信息数据隐藏的用电行为。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的一种日电量预测的方法的流程示意图;
图2是本发明实施例中的LSTM的结构示意图和公式;
图3是本发明实施例中的全连接神经网络示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
请参阅图1,图1是本发明实施例中的一种日电量预测的方法的流程示意图。
如图1所示,一种日电量预测的方法,所述方法包括:
S11:获取在时间段内用户日电量原始数据,并在所述用户日电量原始数据中剔除日电量为第一预设值和缺失值总和占比大于第二预设值的用户日电量数据,得到剔除后的用户日电量数据;
具体的,获取在时间段内用户日电量原始数据包括居民日电量原始数据和非居民日电量原始数据,如表1所示,表1示出居民与非居民日电量模型样本表;在所述居民日电量原始数据和非居民日电量原始数据中剔除日电量为0和缺失值总和占比大于80%的日电量数据,得到剔除后的居民日电量数据和剔除后的非居民日电量数据;需要说明的是,剔除日电量为0和缺失值总和占比大于80%的日电量数据,是由于这些脏数据会影响模型训练,在数据中可以发现有不少用户存在日电量为0的情况,因此,对用户中日电量为0的天数进行统计,如表2所示,标2示出居民和非居民日电量为0数据分布情况。
表1居民与非居民日电量模型样本表
Figure BDA0002331490120000061
表2居民和非居民日电量为0数据分布情况
Figure BDA0002331490120000062
S12:将所述剔除后的用户日电量数据进行异常值的处理以及缺失值的填补,得到新的用户日电量数据;
在本发明具体实施过程中,所述将所述剔除后的用户日电量数据进行异常值的处理以及缺失值的填补,得到新的用户日电量数据包括:将所述剔除后的用户中的居民日电量数据进行异常值的处理以及缺失值的填补,得到新的用户中的居民日电量数据;将所述剔除后的用户中的非居民日电量数据进行异常值的处理以及缺失值的填补,得到新的用户中的非居民日电量数据。
具体的,基于级比法和三倍方差的居民日电量异常值,将所述剔除后的用户中的居民日电量数据进行异常值的处理包括:
将所述剔除后的用户中的居民日电量数据中为负值和0的数据置为Nan;
根据所述剔除后的用户中的居民日电量数据的数据特征和三倍方差异常值原理,找出全局异常值点,并将全局异常值点置为0;在具体实施中,将所述剔除后的用户中的居民日电量数据从大到小按照时间维度进行排序,计算其均值和方差,进而确定其最大值、最小值,即
Figure BDA0002331490120000063
Figure BDA0002331490120000064
通过计算得出所述剔除后的用户中的居民日电量数据的时间序列级比数,具体公式如下:
Figure BDA0002331490120000071
其中,
Figure BDA0002331490120000072
为时间序列比数,xi为第i天的居民日用电量,xi-1为第i-1天的居民日用电量;
根据所述时间序列级比数对异常值进行判定,并将所述判定为异常值的结果置为Nan;在具体实施中,判断原始值是否为Nan,如果为Nan,则不作处理;根据原始值对应的前后两个级比数,进行异常值判定,如果两个级比数都不存在,则根据极大极小值进行判定;若该值在极大极小之外则为异常值,否则为正常点;如果两个级比数有一个存在,至少有一个级比数属于级比阈值
Figure BDA0002331490120000073
之间,其中a大于1,则对应的样本异常值查找结果为原始值,否则为Nan。
具体的,基于K近邻算法,将所述剔除后的用户中的居民日电量数据进行缺失值的填补包括:
基于所述剔除后的用户中的居民日电量数据,将存在缺失值的数据按每31天作为一个循环输入;
将所述输入的31天数据进行K近邻模型训练;在具体实施中,根据特征计算缺失值和其它值的欧式距离:
Figure BDA0002331490120000074
欧氏距离越小说明他们之间的相似度更高。
在K近领模型训练中设置K=3,选取缺失值位置最为相近的三个数据,并使用所述三个数据的均值对所述缺失值进行填补。
具体的,所述将所述剔除后的用户中的非居民日电量数据进行异常值的处理包括:
将所述剔除后的用户中的非居民日电量数据中为负值和0的数据置为Nan,并划分所述非居民日电量数据为三个数据集,所述三个数据集分别为节假日数据集、除节假日外的非工作日数据集和工作日数据集;
所述节假日数据集不做任何处理;
所述非工作日数据集基于三倍方差原则对异常值进行判定,并将判定为异常值的结果置为Nan;在具体实施中,提取所述剔除后的用户中的非居民日电量数据的非工作数据集,计算其均值和方差,进而确定其最大、最小值,即
Figure BDA0002331490120000081
基于三倍方差原则对异常值进行判定,在范围之外则为Nan,范围之内则正常;
所述工作日数据集基于级比法查找异常值,并将查找为异常值的结果置为Nan;在具体实施中,判断原始值是否为Nan,如果为Nan,则不作处理;根据原始值对应的前后2个级比数,进行异常值判定;如果两个级比数都不存在,则根据原始值是否满足三倍方差范围进行判断,如果该值在范围之外则为异常点,否则为正常点;如果两个级比数有一个存在,至少有一个级比数属于
Figure BDA0002331490120000082
之间,其中a大于1,则对应的工作集异常值查找结果为原始值,否则为Nan。
具体的,所述将所述剔除后的用户中的非居民日电量数据进行缺失值的填补包括:
将所述剔除后的用户中的非居民日电量数据划分为两个数据集,所述两个数据集分别为节假日数据集和非节假日数据集;
所述节假日数据集基于线性插值法进行填补;所述非节假日数据集基于K近邻法进行填补。
另外,对选取的1000个非居民用户进行异常值筛选后,统计缺失值情况如表3所示,表3示出非居民用户缺失值查找后的占比情况,由于原始数据本身原因,每个用户都会存在缺失值问题,但是经过筛选后的缺失值情况并没有太过严重。
表3非居民用户缺失值查找后的占比情况
Figure BDA0002331490120000083
S13:利用提取的用户重要特征对所述新的用户日电量数据进行聚类处理,得到聚类后的用户日电量数据;
在本法发明具体实施过程中,所述利用提取的用户重要特征对所述新的用户日电量数据进行聚类处理,得到聚类后的用户日电量数据包括:
提取在用户重要特征范围内的所述新的用户日电量数据,并计算所述在用户重要特征范围内的所述新的用户日电量数据、和所有新的用户日电量数据的平均值、标准差、最大值、最小值和中位数;
根据所述平均值、标准差、最大值、最小值和中位数合并组成全部特征D={x1,x2,x3,...xn};
根据全部特征D={x1,x2,x3,...xn},以及k均值算法针对聚类所得划分C={C1,C2,C3,...Cn},得到最小化平方误差,具体公式如下:
Figure BDA0002331490120000091
其中,
Figure BDA0002331490120000092
E为最小化平方误差;X为簇Ci的均值向量。
需要说明的是,E刻画了簇类样本围绕簇均值向量的紧密程度,其值越小,则簇内样本相似度越高;另外k-means算法的优化目标为:最小化E,即
Figure BDA0002331490120000093
S14:基于所述聚类后的用户日电量数据,从天气、节假日类型、星期类型的维度构建衡量用户电量波动的特征;
在本法发明具体实施过程中,所述基于所述聚类后的用户日电量数据,从天气、节假日类型、星期类型的维度构建衡量用户电量波动的特征包括:
利用天气温度特征和以往电量特征对所述聚类后的用户电量数据进行向量描述,所述天气温度特征和以往电量特征总共55维;其中,所述以往电量特征包括前31天数据的用电量31维,前31天用电量数据的平均值
Figure BDA0002331490120000094
Figure BDA0002331490120000095
最小电量、最大电量、电量方差
Figure BDA0002331490120000096
(xi为当天日电量)、电量中位数5维,前7天日电量的平均电量、最小电量、最大电量、电量方差、电量中位数5维;所述天气温度特征包括当天温度平均值1维,当天所属星期几7维_1到7,是否为节假日2维_0或1,是否为节气2维_0或1,所属在一个月中的第几天1维,所属在一年中的第几个月1维;
将所述天气温度特征和以往电量特征进行标准化,具体公式如下:
Figure BDA0002331490120000097
其中,
Figure BDA0002331490120000098
为某一天所有用户数据的平均值,std为某一天所有用户数据的标准差;具体的,特征进行标准化是将日电量特征数据按比例缩放,使之落入一个小的特定区间;由于特征的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对其进行规范化处理,通过函数变换将其数值映射到某个数值区间。
在具体实施中,将10000个用户组成一个序列{U1,U2,U3,...U10000},其中Ui表示第i个用户,每个用户都有对应的2年左右的日电量数据(总共是789天);对每个用户的数据组成一个时间序列{d1,d2,d3,...d790},其中d790表示该用户第790天的电量;用提取出55维的特征{f11,f12,f13,...f55}对每一天的数据进行表示,得到每一个用户的数据矩阵如下:
Figure BDA0002331490120000101
其中,i为提取的特征的数量55维,j为可以构建特征的天数;需要说明的是,使用了前31的电量来构建特征,并且最后31天用来做测试集,所以能构建特征的天数是789-31-31=727天;fji为该用户第j天,第i个特征;对应的训练目标状态向量也需经过标准化,矩阵格式如下:
Figure BDA0002331490120000102
其中,j为可以构建特征的天数727,yj表示第i天的真实日电量。
S15:基于LSTM神经网络,利用所述衡量用户电量波动的特征构建用户日电量预测的模型,并对所述模型进行训练;
在本法发明具体实施过程中,所述基于LSTM神经网络,利用所述衡量用户电量波动的特征构建用户日电量预测的模型,并对所述模型进行训练包括:
利用所述衡量用户电量波动的特征构建用户日电量预测的模型;
在所述用户日电量预测的模型中输入LSTM网络的格式为batch_size、time_step、feature_dim的三维矩阵。具体的,所述batch_size是训练时候模型每次输入批次的大小;所述time_stamp是训练数据时间节点的长度,在日电量中就是一天就为一个时间节点,训练时可以设置为每一天单独作为一个训练数据进行模型训练,或者可以多天组合起来作为一个训练数据;需要说明的是,所述time_step设置为1为效果最好;所述feature_dim是每一个每一天所提取的特征的维度。
对所述三维矩阵进行训练,包括数据随机打乱和预测结果约束。具体的,所述数据随机打乱,即对输入的训练数据进行随机打乱,增加模型的鲁棒性,即在不同的数据集上预测的准确率相差不大,出现在一个数据集上表现好,在其它数据集上表现不好的情况;所述预测结果约束,即用原始样本的异常值范围来约束预测值,由于训练数据用到的是前7天的温度数据和前31天的电量所以实际预测时候随着时间维度的偏移,训练数据中真实的数据会越来越少,到最后训练的数据都是预测数据,误差叠加,整个预测会偏离;所以这里采用预测值约束,使得数据能继续保持原始数据中的特性,具体处理如下:判断预测值是否在用户3倍方差异常值范围内,即
Figure BDA0002331490120000111
如果在这个范围内,则不作任何处理,如果在此范围之外,则用移动平均法计算前7天电量的平均值对预测值进行替换。
具体的,所述LSTM神经网络是长短期记忆网络,是RNN变种,相比较传统RNN,LSTM解决了RNN所存在的梯度***问题,采用了门控机制来对之前的信息进行过滤,能控制有用信息的保留和无用信息的过滤,在长时间序列问题上有较好表现。结合附图2,附图2示出LSTM的结构示意图和公式,它由输入门,输出门,遗忘门组成,通过控制遗忘门对上一个神经元的内容进行选择,捕捉之前的用电量和今天用电量之间的关系;一个LSTM的单元的输入是上个单元的输出ht-1,上一个状态的单元信息Ct-1和这一状态的输入Xt,然后通过如图2所示的门控制输出这一个状态的ht(在本次项目中是代表每一天日电量特征经LSTM层变换后的日电量表示),这一个状态的单元信息Ct
前向传播
遗忘门:ft=σ(Wf·[ht-1,xt]+bf),对应于图2中从左到右第一个门,具体的如附图3所示,附图3示出全连接神经网络示意图;输入为每一天的向量{f1,f2,f3,...f55}与上次个神经元的输出相结合成的新输入{x1,x2,x3,...x55};每个输入都会和中间层神经元有连接,并且每一次连接都会有相应的权重Wij(代表第i个特征与第j个神经元之间的权重)和偏秩Wij(代表第i个特征与第j个神经元之间的偏秩);对每一个特征和对应神经元的权重做矩阵运算,具体公式如下:
Figure BDA0002331490120000121
Figure BDA0002331490120000122
再通过SOFTMAX函数(SOFTMAX公式为:
Figure BDA0002331490120000123
其中的Zj为第j个日电量特征向量,SOFTMAX函数就是对每一个向量的输出进行对数归一化,使得每个日电量向量都能得到自己输出的概率值)将门输出设置为0或者1,若是0即是忘记前一个状态的单元信息Ct-1,若是1,则是让其输入;简单来说,在日电量预测中,如果前一天的日电量数据对今天的日电量数据影响不大,那遗忘门可以将其输出权重置为0,将这一天的信息遗忘;
输入门:it=σ(Wi·[ht-1,xt]+bi),对应附图2中从左至右第二个门,和遗忘门相同,他通过ht-1和Xt的乘积加上一个bias值,再通过SOFTMAX函数将门输出设置为0或者1,若是0即是忘记住着一个时刻的单元信息输入,若是1,则是让其输入;简单来说,在日电量预测中,是对输入天的特征进行筛选,有比例的输入对应的信息;
输出门:Ot=σ(Wo·[ht-1,xt]+bo),对应附图2中从左至右最后一个门,和遗忘门相同,他通过ht-1和Xt的乘积加上一个bias值(同样是一个全连接神经网络)再通过SOFTMAX函数将门输出设置为0或者1,若是0即是忘记住着一个时刻的输出ht,若是1,则是让其输出;
Figure BDA0002331490120000124
Figure BDA0002331490120000125
是对上一状态的单元信息进行处理,同样和门操作一样,首先经过ht-1和Xt的乘积加上一个bias值(同样是一个全连接神经网络),之后再经过TANH函数的变换,再与上一个状态的单元信息进行融合得到这个状态的信息Ct;在日电量预测中,这一操作是将前几天神经元捕获到的特征与当前天的特征进行融合,提取新的有用的信息;
ht=ot*tanh(Ct),这个公式就是通过输出门控制最后输出此状态的ht
反向传播
对于LSTM进行反向传播求导时候,会涉及到激活函数的求导,即SOFTMAX、TANH函数的求导,他们的求导公式如下所示:
Figure BDA0002331490120000131
Figure BDA0002331490120000132
在某一时间下,对于LSTM网络,最末层1的误差信号为(对于SOFTMAX输出函数):
Figure BDA0002331490120000133
所以则有:
Figure BDA0002331490120000134
Figure BDA0002331490120000135
已知的条件是
Figure BDA0002331490120000136
所以根据链式法则:
输出门梯度:
Figure BDA0002331490120000137
新生成信息梯度:
Figure BDA0002331490120000138
输出门梯度:
Figure BDA0002331490120000139
遗忘门梯度:
Figure BDA00023314901200001310
有了上面三个误差信号,就可以求得参数梯度了,具体公式如下:
输出门相关:
Figure BDA00023314901200001311
新生成信息相关:
Figure BDA00023314901200001312
输入门相关:
Figure BDA0002331490120000141
遗忘门相关:
Figure BDA0002331490120000142
所以再往前面传的误差信号为:
Figure BDA0002331490120000143
S16:基于所述用户日电量预测的模型以及所述模型训练的结果,对用户日用电量进行预测。
在本法发明具体实施过程中,所述基于所述用户日电量预测的模型以及所述模型训练的结果,对用户日用电量进行预测,其中,预测值的相对误差率的具体公式如下:
Figure BDA0002331490120000144
具体的,在模型效果评测上有两类评价策略包括单天误差评测和多天总体误差评测;所述单天误差评测,即连续预测后31天的日电量,然后分别对预测每一天的数据进行评测,由于其后每一次预测都是使用前几天的预测值而非真实值,因此预测准确率会随着时间而衰减;所述多天总体误差评测有三种评测方案,包括:
下月未来7天的预测值加上前面20多天的实际值,即从一个月最后7天开始预测,得到该月最后7天的预测数据,取预测的7天数据与该月的实际数据进行求和与该月总的真实值进行比较得到误差率,具体公式如下:
Figure BDA0002331490120000145
月中的预测值加上前半个月的实际值,即从一个月的月中15号开始预测该月后面十几天的日电量,和该月1-15号的真实数据求和与该月总的真实电量比较得到误差率,具体公式如下:
Figure BDA0002331490120000146
统计历史预测中第一天的总共31的预测值,即对该月的每一天都进行预测(即用上个月31天真实数据预测这个月31天数据,取这个月第一天的预测值,再用上月30天的真实数据加这个月第一天的真实值预测这个月30天的数据和下个月第一天的数据,取这个月第二天的预测值,以此类推,预测31次),并取其第一天的预测结果求和,与该月真实值的总和比较得到误差率,具体公式如下:
Figure BDA0002331490120000151
通过上述方法,对居民日电量预测结果进行分析,分析结果如下:
由于特征提取中温度数据最多只能提供当天之后7天的数据,因此在对单天误差评测时,我们只选取其中前7天的数据;并且从业务需求考虑,这次采用的模型是更偏重于多天总体误差评价结果好的模型,具体如表3和表4,表3示出居民用电量连续天预测单天结果,表4示出居民用电量连续天预测总体结果。
表3居民用电量连续天预测单天结果表
误差范围 第1天 第2天 第3天 第4天 第5天 第6天 第7天
5%以下 16.41% 18.84% 20.05% 19.50% 18.03% 18.07% 12.31%
10%以下 26.32% 30.69% 32.83% 32.00% 29.46% 28.94% 18.28%
15%以下 34.91% 40.49% 43.02% 42.27% 38.85% 37.71% 27.12%
20%以下 42.80% 48.95% 51.77% 50.98% 47.68% 45.79% 36.32%
25%以下 50.13% 56.31% 59.23% 58.59% 55.21% 53.14% 45.84%
30%以下 56.63% 62.65% 65.28% 64.86% 61.96% 59.50% 54.28%
由表3可知,单天误差在15%以下的样本占比在38%左右,并且满足居民误差范围的增长速度,随着误差范围扩大而减小。
表4居民用电量连续天预测总体结果表
Figure BDA0002331490120000152
Figure BDA0002331490120000161
表4可知,为多天总体误差评价结果,其中表第二个指标(月中的预测值加上前半个月的实际值)和第三个指标(统计历史预测中第一天的总共31的预测值)误差范围在30%以内的用户占比都在70%以上,而表中第一个指标(下月未来7天的预测值加上前面20多天的实际值)误差范围在30%以内的用户占比达到了90%,这说明迭代使用预测值进行训练会使得预测准确率大幅降低,在削减了使用预测值进行训练对模型效果带来的影响后,模型预测准确度确实有大幅度提升。
对非居民日电量预测结果分析,分析结果如下:
同样的对于非居民用户,我们提取了前七天的预测结果;同时在模型评估时也是偏重于总体效果较好的模型,具体结果如表5和表6所示,表5示出非居民用电量连续天预测单天结果,表6示出非居民用电量连续天预测总体结果。
表5非居民用电量连续天预测单天结果表
误差范围 第1天 第2天 第3天 第4天 第5天 第6天 第7天
5%以下 22.37% 24.00% 24.16% 25.47% 27.75% 22.47% 22.22%
10%以下 36.05% 39.14% 38.48% 40.18% 44.46% 35.97% 35.62%
15%以下 48.11% 51.46% 49.31% 50.88% 56.75% 47.22% 47.18%
20%以下 58.33% 61.52% 57.62% 59.43% 65.88% 56.63% 57.14%
25%以下 66.54% 69.73% 64.29% 66.20% 72.64% 64.64% 65.72%
30%以下 73.36% 76.15% 69.47% 71.39% 77.60% 71.65% 73.22%
如表5所示,可以看出预测前7天,单天误差在15%以下的样本占比在50%左右,并且满足居民误差范围的增长速度,随着误差范围扩大而减小。相比居民用户来说准确率稍高,但是依然很低。
表6非居民用电量连续天预测总体结果表
Figure BDA0002331490120000171
如表6所示,为多天总体误差评价结果,其中表第二个指标(月中的预测值加上前半个月的实际值)和第三个指标(统计历史预测中第一天的总共31的预测值)误差范围在30%以内的用户占比都在70%以上,而表中第一个指标(下月未来7天的预测值加上前面20多天的实际值)误差范围在30%以内的用户占比达到了90%,同样也说明了迭代使用预测值进行训练会增加误差。
在本发明实施中,一种日电量预测的方法可以预测日用电量,更具体地展现日电量信息数据隐藏的用电行为。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种日用电量预测的方法进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种日用电量预测的方法,其特征在于,所述方法包括:
获取在时间段内用户日电量原始数据,并在所述用户日电量原始数据中剔除日电量为第一预设值和缺失值总和占比大于第二预设值的用户日电量数据,得到剔除后的用户日电量数据;
将所述剔除后的用户日电量数据进行异常值的处理以及缺失值的填补,得到新的用户日电量数据;
利用提取的用户重要特征对所述新的用户日电量数据进行聚类处理,得到聚类后的用户日电量数据,
所述利用提取的用户重要特征对所述新的用户日电量数据进行聚类处理,得到聚类后的用户日电量数据包括:
提取在用户重要特征范围内的所述新的用户日电量数据,并计算所述在用户重要特征范围内的所述新的用户日电量数据、和所有新的用户日电量数据的平均值、标准差、最大值、最小值和中位数;
根据所述平均值、标准差、最大值、最小值和中位数合并组成全部特征D={x1,x2,x3,…xn};
根据全部特征D={x1,x2,x3,…xn},以及k均值算法针对聚类所得到的C={C1,C2,C3,…Cn},最后计算得到最小化平方误差,具体公式如下:
Figure FDA0003698398080000011
其中,
Figure FDA0003698398080000012
E为最小化平方误差;X为簇Ci的均值向量;
基于所述聚类后的用户日电量数据,从天气、节假日类型、星期类型的维度构建衡量用户电量波动的特征,所述基于所述聚类后的用户日电量数据,从天气、节假日类型、星期类型的维度构建衡量用户电量波动的特征包括:
利用天气温度特征和以往电量特征对所述聚类后的用户电量数据进行向量描述;其中,所述以往电量特征包括前31天数据的用电量,前31天用电量数据的平均值、最小电量、最大电量、电量方差、电量中位数,前7天日电量的平均电量、最小电量、最大电量、电量方差、电量中位数;所述天气温度特征包括当天温度平均值,当天所属星期几,是否为节假日,是否为节气,所属在一个月中的第几天,所属在一年中的第几个月;
将所述天气温度特征和以往电量特征进行标准化,具体公式如下:
Figure FDA0003698398080000021
其中
Figure FDA0003698398080000022
为某一天所有用户数据的平均值,std为某一天所有用户数据的标准差;
基于LSTM神经网络,利用所述衡量用户电量波动的特征构建用户日电量预测的模型,并对所述模型进行训练;
基于所述用户日电量预测的模型以及所述模型训练的结果,对用户日用电量进行预测。
2.根据权利要求1所述的一种日用电量预测的方法,其特征在于,所述将所述剔除后的用户日电量数据进行异常值的处理以及缺失值的填补,得到新的用户日电量数据包括:
将所述剔除后的用户中的居民日电量数据进行异常值的处理以及缺失值的填补,得到新的用户中的居民日电量数据;
将所述剔除后的用户中的非居民日电量数据进行异常值的处理以及缺失值的填补,得到新的用户中的非居民日电量数据。
3.根据权利要求2所述的一种日用电量预测的方法,其特征在于,所述将所述剔除后的用户中的居民日电量数据进行异常值的处理包括:
将所述剔除后的用户中的居民日电量数据中为负值、和0、和全局异常值点的数据置为Nan;
通过计算得出所述剔除后的用户中的居民日电量数据的时间序列级比数,具体公式如下:
Figure FDA0003698398080000023
其中,
Figure FDA0003698398080000024
为时间序列比数,xi为第i天的居民日用电量,xi-1为第i-1天的居民日用电量;
根据所述时间序列级比数对异常值进行判定,并将所述判定为异常值的结果置为Nan。
4.根据权利要求2所述的一种日用电量预测的方法,其特征在于,所述将所述剔除后的用户中的居民日电量数据进行缺失值的填补包括:
基于所述剔除后的用户中的居民日电量数据,将存在缺失值的数据按每31天作为一个循环输入;
将所述输入的31天数据进行K近邻模型训练;
在K近领模型训练中设置K=3,选取缺失值位置最为相近的三个数据,并使用所述三个数据的均值对所述缺失值进行填补。
5.根据权利要求2所述的一种日用电量预测的方法,其特征在于,所述将所述剔除后的用户中的非居民日电量数据进行异常值的处理包括:
将所述剔除后的用户中的非居民日电量数据中为负值和0的数据置为Nan,并划分所述非居民日电量数据为三个数据集,所述三个数据集分别为节假日数据集、除节假日外的非工作日数据集和工作日数据集;
所述节假日数据集不做任何处理;所述非工作日数据集基于三倍方差原则对异常值进行判定,并将判定为异常值的结果置为Nan;所述工作日数据集基于级比法查找异常值,并将查找为异常值的结果置为Nan。
6.根据权利要求2所述的一种日用电量预测的方法,其特征在于,所述将所述剔除后的用户中的非居民日电量数据进行缺失值的填补包括:
将所述剔除后的用户中的非居民日电量数据划分为两个数据集,所述两个数据集分别为节假日数据集和非节假日数据集;
所述节假日数据集基于线性插值法进行填补;所述非节假日数据集基于K近邻法进行填补。
7.根据权利要求1所述的一种日用电量预测的方法,其特征在于,所述基于LSTM神经网络,利用所述衡量用户电量波动的特征构建用户日电量预测的模型,并对所述模型进行训练包括:
利用所述衡量用户电量波动的特征构建用户日电量预测的模型;
在所述用户日电量预测的模型中输入LSTM网络的格式为batch_size、time_step、feature_dim的三维矩阵,所述batch_size是训练时候模型每次输入批次的大小,所述time_stamp是训练数据时间节点的长度,所述feature_dim是每一个每一天所提取的特征的维度;
对所述三维矩阵进行训练,包括数据随机打乱和预测结果约束。
8.根据权利要求1所述的一种日用电量预测的方法,其特征在于,所述基于所述用户日电量预测的模型以及所述模型训练的结果,对用户日用电量进行预测,其中,预测值的相对误差率的具体公式如下:
Figure FDA0003698398080000041
CN201911341581.4A 2019-12-23 2019-12-23 一种日电量预测的方法 Active CN111178611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911341581.4A CN111178611B (zh) 2019-12-23 2019-12-23 一种日电量预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911341581.4A CN111178611B (zh) 2019-12-23 2019-12-23 一种日电量预测的方法

Publications (2)

Publication Number Publication Date
CN111178611A CN111178611A (zh) 2020-05-19
CN111178611B true CN111178611B (zh) 2022-09-23

Family

ID=70654002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911341581.4A Active CN111178611B (zh) 2019-12-23 2019-12-23 一种日电量预测的方法

Country Status (1)

Country Link
CN (1) CN111178611B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308305B (zh) * 2020-10-27 2022-12-06 国网浙江省电力有限公司舟山供电公司 一种基于多模型综合的售电量预测方法
CN112712194A (zh) * 2020-12-16 2021-04-27 广西电网有限责任公司梧州供电局 一种用电成本智能优化分析的电量预测方法及装置
CN112711903A (zh) * 2020-12-16 2021-04-27 广西电网有限责任公司梧州供电局 一种用户侧电力负荷的智能优化预测方法及***
CN113239029A (zh) * 2021-05-18 2021-08-10 国网江苏省电力有限公司镇江供电分公司 一种电能表缺失日冻结数据的补全方法
CN113468152A (zh) * 2021-06-04 2021-10-01 国网上海市电力公司 高频用户用电数据清洗方法、***、设备及存储介质
CN113673587B (zh) * 2021-08-12 2024-02-02 国网湖北省电力有限公司电力科学研究院 一种家庭基础日用电量计算方法
CN113760880A (zh) * 2021-09-07 2021-12-07 天津大学 一种水质自动监测数据的预处理方法
CN116029201B (zh) * 2022-12-23 2023-10-27 浙江苍南仪表集团股份有限公司 基于聚类和循环神经网络的燃气流量预测方法及***
CN115809942A (zh) * 2023-02-06 2023-03-17 四川智源能诚售电有限公司 用电量数据预测方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301474A (zh) * 2017-06-19 2017-10-27 武汉大学 一种针对低压用户的基于深度学习的用电量预测方法
CN107967542A (zh) * 2017-12-21 2018-04-27 国网浙江省电力公司丽水供电公司 一种基于长短期记忆网络的售电量预测方法
CN108510006A (zh) * 2018-04-08 2018-09-07 重庆邮电大学 一种基于数据挖掘的企业用电量分析与预测方法
CN109685290A (zh) * 2019-02-11 2019-04-26 南方电网科学研究院有限责任公司 一种基于深度学习的用电量预测方法、装置及设备
CN110245798A (zh) * 2019-06-18 2019-09-17 天津安捷物联科技股份有限公司 一种写字楼电力***月度用电量预测方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301474A (zh) * 2017-06-19 2017-10-27 武汉大学 一种针对低压用户的基于深度学习的用电量预测方法
CN107967542A (zh) * 2017-12-21 2018-04-27 国网浙江省电力公司丽水供电公司 一种基于长短期记忆网络的售电量预测方法
CN108510006A (zh) * 2018-04-08 2018-09-07 重庆邮电大学 一种基于数据挖掘的企业用电量分析与预测方法
CN109685290A (zh) * 2019-02-11 2019-04-26 南方电网科学研究院有限责任公司 一种基于深度学习的用电量预测方法、装置及设备
CN110245798A (zh) * 2019-06-18 2019-09-17 天津安捷物联科技股份有限公司 一种写字楼电力***月度用电量预测方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Intelligent Hybrid Wavelet Models for Short-Term Load Forecasting;Ajay Shekhar Pandey et al.;《 IEEE Transactions on Power Systems》;20100318;第25卷(第3期);第1266-1273页 *

Also Published As

Publication number Publication date
CN111178611A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111178611B (zh) 一种日电量预测的方法
CN115276006B (zh) 一种用于电力集成***的负荷预测的方法及***
CN112070125A (zh) 一种基于孤立森林学***衡数据集的预测方法
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN108733631A (zh) 一种数据评估方法、装置、终端设备及存储介质
CN110674993A (zh) 一种用户负荷短期预测方法和装置
CN109214863B (zh) 一种基于快递数据预测城市房屋需求的方法
CN112735097A (zh) 一种区域滑坡预警方法及***
CN114528949A (zh) 一种基于参数优化的电能计量异常数据的识别与补偿方法
CN113537469B (zh) 一种基于LSTM网络和Attention机制的城市需水预测方法
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN113554466A (zh) 一种短期用电量预测模型构建方法、预测方法和装置
CN110674858A (zh) 一种基于时空关联与大数据挖掘的交通拥堵检测方法
CN112418476A (zh) 一种超短期电力负荷预测方法
CN116148753A (zh) 一种智能电能表运行误差监测***
CN112330441A (zh) 一种中小企业商业价值信用贷款评价方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN113868938A (zh) 基于分位数回归的短期负荷概率密度预测方法、装置及***
Liu et al. Stock price trend prediction model based on deep residual network and stock price graph
CN114462670A (zh) 一种基于lstm模型的用电量预测方法
CN104537383A (zh) 一种基于粒子群的海量组织机构数据分类方法及***
CN113344589A (zh) 一种基于vaegmm模型的发电企业串谋行为的智能识别方法
CN111539492A (zh) 一种基于强化学习的异常用电判决***及方法
Tanamal et al. House price prediction model using random forest in surabaya city
CN115545342A (zh) 一种企业电费回收的风险预测方法与***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant