CN111178587B

CN111178587B - 一种基于spark框架的短期电力负荷快速预测方法

Info

Publication number: CN111178587B
Application number: CN201911243179.2A
Authority: CN
Inventors: 魏世扬; 刘义; 杨超; 蒋丽; 谢胜利
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2022-11-22
Anticipated expiration: 2039-12-06
Also published as: CN111178587A

Abstract

本发明公开了一种基于spark框架的短期电力负荷快速预测方法，该方法将训练两个模型，一个是使用BIRCH并行化算法对历史负荷数据和天气数据进行聚类，得到一个用于异常检测的模型，另一个是使用基于spark技术的lightGBM算法对历史负荷数据和天气数据进行训练，得到一个负荷预测模型，然后这两个模型发送至Spark Streaming集群，用于对实时数据流的聚类和预测；在对实时数据流的聚类和预测中使用kafka集群接收从各种终端发送过来的电力负荷数据流，并将数据流传送到Spark Steaming集群处理，在Spark Steaming集群上完成实时特征提取及归一化处理，使用异常检测模型进行实时聚类，以发现是否有异常数据，然后利用非异常的负荷数据使用负荷预测模型预测下一个时间段的负荷值。

Description

一种基于spark框架的短期电力负荷快速预测方法

技术领域

本发明涉及电力负荷预测技术领域，具体涉及一种基于spark框架的短期电力负荷快速预测方法。

背景技术

随着国家电网的发展，智能用电终端和采集终端数量日益扩大，数据获取越来越便捷，使得各种类型的电力自动化数据出现几何级的增长，呈现出“体量大”、“类型多”、“密度低”和“增速快”的典型大数据特征。

电力***负荷预测是电力***各种安全技术措施的重要组成部分，它和继电保护、稳定计算、短路计算一样，对电力***的安全、经济、稳定运行有着非常重要的作用。负荷预测是电网规划及经营工作的基础，准确的负荷预测有助于提高***运行的安全性和稳定性，能够减少发电成本、可以保证规划的精确。

短期负荷预测是指周以内的负荷预测，可用于安排电力调度计划，包括负荷经济分配，电力***安全性检测，设备检修等。在未来的多变且分布式电网场景中，短期负荷预测变得更加重要。对于短期负荷预测，现有的方法大多将研究的重点放在了对于预测模型的改进或者创新上，如使用创新的机器学习模型用于电力负荷预测、使用改进的机器学习模型用于电力负荷预测等，虽然基于数据驱动的智能模型精度越来越高，但是随着数据量和数据维度的增多，导致智能模型在精度提高的同时，模型的复杂度和训练时间指数级增加，甚至难以收敛。而且，传统的数据管理模式在面对海量数据的存储和处理时效率低下，传统用电负荷数据分析的模式仍是以静态离线数据分析为主，例如，将采集到的数据存储起来，然后定时对数据进行分析，这种方式存在与生产运行***结合不紧密，不利于快速预测***的负荷状况以及及时发现异常现象。在很多场景下，预测***期望对实时到达的数据进行同步处理，以满足预测***对实时性和动态扩展性的需求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于spark框架的短期电力负荷快速预测方法，该方法使用spark框架将BIRCH算法并行化，克服了传统单机算法对大规模负荷数据聚类速度缓慢的问题，还使用kafka和spark streaming实现对电力负荷实时数据流的处理，数据处理后使用负荷预测模型进行预测，实现了对负荷的快速预测，且预测相比单机算法具有更高的精度和效率。

本发明的目的通过下述技术方案实现：

一种基于spark框架的短期电力负荷快速预测方法，包括下述步骤：

步骤一，利用spark技术实现BIRCH算法的并行化算法对历史数据进行聚类，具体如下：

(1)使用python爬虫收集某城市某一时间段内的历史电力负荷数据和对应的历史天气数据从而形成原始数据集，其中负荷数据的时间粒度为5分钟，天气数据时间粒度为1小时，并将其存储在HDFS上，该HDFS是一种Hadoop分布式文件***；

(2)从HDFS中将原始数据集读取到spark集群的内存中转换为所需的弹性分布式数据集RDD，对数据进行缺失数据填充、数据归一化和特征提取，选择的主要特征有时间特征、温度、湿度、露点、天气状况、前两天的同期负荷值和前一天同期负荷值，最后生成训练样本集；

(3)将训练样本集数据分发给spark集群中的每个worker，每个worker在各自的分区建立自己的聚类特征树CF-Tree；

(4)将每个分区建立的聚类特征树CF-Tree进行合并，生成一颗大的聚类特征树CF-Tree，该聚类特征树CF-Tree将作为异常数据检测模型；

步骤二，使用基于spark技术的lightGBM算法训练预测模型的过程，具体如下：

(1)将历史负荷数据和天气数据读取到spark内存中生成原始数据集；

(2)特征工程：①数据清洗：补齐负荷数据和天气数据中的缺失值；②特征选择：选择的主要特征有时间特征、温度、湿度、露点、天气状况、前两天的同期负荷值、前一天同期负荷值和前5分钟的负荷值，由于天气信息的时间粒度为1小时，负荷数据的时间粒度为5分钟，所以使用KNN算法去补全负荷数据中缺失的天气信息；③对特征进行归一化处理；

(3)模型训练：①将上一步骤中所获得的数据切分为训练集和测试集；②在spark平台上实现lightGBM算法的并行化，使用训练集对并行化后的算法进行训练，对模型进行参数调优，最后得到负荷预测模型；

步骤三，实时负荷异常检测和负荷预测，具体如下：

(1)将步骤一和步骤二所生成的异常检测模型和负荷预测模型发送到sparkstreaming集群；

(2)使用kafka集群接收各种终端实时采集到的带有实时负荷值和天气信息的数据，spark streaming集群接收kafka的数据并对数据进行处理，将处理后的数据***到聚类特征树CF-Tree中，如果某条数据点在***过程中导致聚类特征树CF-Tree的叶子节点数量增加，则判定该条数据中负荷值为异常值，反之判定为正常值；

(3)从原始数据集和实时数据流中提取所需负荷值和天气信息，其中所需信息包含时间特征、温度、湿度、露点、天气状况、前两天的同期负荷值、前一天同期负荷值和前五分钟的负荷值信息，其中前五分钟的负荷值为上一步骤中正常数据的负荷值；

(4)将提取后的数据输入到负荷预测模型中，预测下一个五分钟的负荷值，使用RMSE、R2和模型训练时间来评估模型效果。

本发明与现有技术相比具有以下的有益效果：

本发明提出的并行BIRCH算法在训练时所有的样本都在磁盘上，聚类特征树CF-Tree仅仅存了CF节点和对应的指针，这样有利于节约内存，此外BIRCH算法本身具有聚类速度快的优点，只需要一遍扫描训练集就可以建立聚类特征树CF-Tree；本发明中使用spark将算法并行化，进一步提高了训练速度，能有效解决电力***中海量数据处理效率低下的问题。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明对电力大数据环境下高精度和实时性的负荷预测展开了研究，提出了一种基于Spark平台的短期电力负荷快速预测方法(spark是继hadoop之后的新一代大数据分布式处理框架，基于内存计算技术，从而具有更高的计算效率；Spark Steaming是spark针对数据流处理的扩展，适合处理高可扩展性、高吞吐率和容错机制的实时数据流)。本发明将训练两个模型，一个是使用BIRCH并行化算法对历史负荷数据和天气数据进行聚类，得到一个用于异常检测的模型，另一个是使用基于spark技术的lightGBM算法对历史负荷数据和天气数据进行训练，得到一个负荷预测模型，然后这两个模型发送至Spark Streaming集群，用于对实时数据流的聚类和预测；在对实时数据流的聚类和预测中使用kafka集群接收从各种终端发送过来的电力负荷数据流，并将数据流传送到Spark Steaming集群处理，在Spark Steaming集群上完成实时特征提取及归一化处理，使用异常检测模型进行实时聚类，以发现是否有异常数据，将异常负荷报告给相关人员，然后利用非异常的负荷数据使用负荷预测模型预测下一个时间段的负荷值。

本发明将BIRCH算法在spark框架上实现并行化，以解决传统技术对大规模负荷数据聚类速度缓慢的问题；使用基于spark技术的lightGBM算法对历史负荷数据和天气数据进行训练，训练得到一个负荷预测模型，以解决现有智能模型中训练时间长的问题；将上述两个模型放到spark streaming集群上对实时传输进来的数据进行快速处理和分析，实现对实时数据流进行异常数据检测和负荷预测。

具体来说，如图1所示，一种基于spark框架的短期电力负荷快速预测方法，包括下述步骤：

步骤三，实时负荷异常检测和负荷预测，具体如下：

(4)将提取后的数据输入到负荷预测模型中，预测下一个五分钟的负荷值，使用RMSE、R2和模型训练时间来评估模型效果。模型评估结果如附图1所示。

如图1所示，对原始数据进行特征工程后，训练得到异常检测和负荷预测两个模型，将两个模型传输到spark streaming集群，然后读取实时的负荷和天气数据进sparkstreaming集群进行特征工程，因为实时读取的数据可能含有异常的负荷值，因此首先在集群中使用异常检测模型去除掉异常数据，然后再使用负荷预测模型进行预测，最后得到预测结果。

其中提出的负荷预测模型的精度和训练时间相比单机算法有更好的效果，实验结果如下表所示，实验采用纽约市近3年来共34万条电力负荷数据进行实验，其中单机模式采用2核2GB内存的虚拟机进行实验，spark集群模式由3台与单机模式配置一致的虚拟机进行实验，采用均方根误差：RMSE(Root Mean Squard Error)、R2(R-Square)和训练时间来衡量模型的优劣，其中RMSE越小表示模型拟合效果越好，R2越大表示模型拟合效果越好。从下表中可以看出，本发明提出的模型有更低的误差和更短的训练时间。

训练模式	RMSE	R2	训练时间/s
				单机	253.5	0.9611	808
spark集群	247.9	0.9629	445

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于spark框架的短期电力负荷快速预测方法，其特征在于，包括下述步骤：

(3)模型训练：①将步骤二(1)中所获得的原始数据集切分为训练集和测试集；②在spark平台上实现lightGBM算法的并行化，使用训练集对并行化后的算法进行训练，对模型进行参数调优，最后得到负荷预测模型；

步骤三，实时负荷异常检测和负荷预测，具体如下：

(1)将步骤一和步骤二所生成的异常数据检测模型和负荷预测模型发送到sparkstreaming集群；

(3)从原始数据集和实时数据流中提取所需负荷值和天气信息，其中所需信息包含时间特征、温度、湿度、露点、天气状况、前两天的同期负荷值、前一天同期负荷值和前五分钟的负荷值信息，其中前五分钟的负荷值为步骤三(2)中kafka集群接收到的实时负荷值；