CN115730716A

CN115730716A - 基于改进Transformer模型通信基站中长期用电量预测方法

Info

Publication number: CN115730716A
Application number: CN202211433476.5A
Authority: CN
Inventors: 刘元莹; 胡航; 陈永明; 李静; 侯超; 姜苏; 赵瑜; 张懿; 姚鹏; 徐溯; 王雨薇; 徐鸣飞
Original assignee: State Grid Jiangsu Electric Power Co ltd Zhenjiang Power Supply Branch
Current assignee: State Grid Jiangsu Electric Power Co ltd Zhenjiang Power Supply Branch
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-03-03

Abstract

本发明公开了一种基于改进Transformer模型通信基站中长期用电量预测方法，包括步骤：采集运营商设备分摊用电量数据OFP，为1小时级别创建{OFPh1,OFPh2}数据集，为15分钟级别创建OFPm数据集；对用电量数据集进行归一化处理；将归一化后的一维数据集转化为二维数据集，作为用电量预测模型的输入数据；构建基于改进Transformer的通信基站中长期用电量预测模型，导入训练集和验证集，进行超参数搜索；将测试集导入通信基站中长期用电量预测模型，输出结果经过归一化后存储。本发明增强对于长时间序列预测问题的预测容量，降低了时间复杂度和内存使用量，基于稀疏矩阵的注意力机制，只需一个前向步骤即可输出整个解码序列，同时避免推断期间的累积误差传播，高效率获得电量预测效果。

Description

基于改进Transformer模型通信基站中长期用电量预测方法

技术领域

本发明涉及一种基于改进Transformer模型通信基站中长期用电量预测方法，属于人工智能技术领域。

背景技术

伴随电力市场化改革与发展，中长期电量预测已变成电力***规划的重要组成部分，同时也是电力***经济运行的基础，其对于整个电力***规划和运行都有着重要的作用。长序列时间序列预测问题在现实世界中经常遇到，比如通信基站电力消耗规划。在电力市场环境下，通信基站中长期用电量预测的作用越来越重要，预测精度与预测效率的高低不仅对电力***安全稳定运行造成影响，还会影响所有市场参与者(运营商)的经济收益。

申请号为202111411790.9的专利申请公开了一种基于transformer模型的用电量预测方法，涉及人工智能技术领域。该方法在输入层采用多类型变量输入；使用门控关系网络GRN(Gated Relation Network)门控机制对输入变量进行权重计算；采用稀疏注意力进行特征提取；门控残差模块动态处理数据信息；使用门控残差模块和稀疏注意力构建三层解码器。该专利申请可以在输入端对训练数据中的不可靠数据进行抑制,对有用信息进行集中,可以在模型训练过程中动态调节信息的利用率,以此提高模型的训练效果,达到较好的用电量预测效果。申请号为202110898689.4的专利申请公开了一种基于Transformer的电力负荷预测方法，涉及人工智能技术领域。该方法包括获取历史负荷数据和天气数据；分别从历史负荷数据中提取序列特征和趋势特征、及天气数据中提取天气特征,将序列特征、趋势特征及天气特征融合得到融合特征向量序列；利用Transformer模型从融合特征向量序列中提取时序特征信息；根据时序特征信息对电力负荷进行预测。本发明通过将负荷数据的趋势性、周期性、时间信息融入预测模型,使预测模型有很多的特征信息,从而提升预测精度。

上述两个现有的专利申请虽然能够达到较好的短期用电量预测效果，但是针对于长时间序列预测的问题，其采用的规范transformer模型有以下几个局限性：首先，时间复杂度和空间复杂度都是O(n²),其中O表示大O表示法，n代表了序列的长度；其次，和当前许多深度网络模型相同，encoder(编码)和decoder(解码)的结构在应对长序列的输入输出情况下效率上不禁令人满意。在实际的应用场景中，首先，transformer利用自注意力机制构成encoder和decoder模型，自注意力机制为计算其他时刻与本时刻的相似度重要性，其计算自注意力机制的时间复杂度为O(n²)；其次，transformer编码/解码器的堆叠会使得输入长时间序列导致内存占用过大；最后，transformer动态解码使得逐步推理像基于RNN(循环神经网络)的模型一样慢，对于长时间序列预测问题，预测速度会快速下降。

发明内容

本发明的目的在于提供一种基于改进Transformer模型通信基站中长期用电量预测方法，通过采集电量统计数据、运营商设备分摊数据搭建基于改进Transformer模型的通信基站中长期用电量预测模型，并基于建立的算法模型得到预测的通信基站中长期用电量数据。

本发明的目的通过以下技术方案予以实现：

一种基于改进Transformer模型通信基站中长期用电量预测方法，包括以下步骤：

步骤1)：采集运营商设备分摊用电量数据OFP，为1小时级别创建{OFPh1,OFPh2}数据集，为15分钟级别创建OFPm数据集；OFPh1为运营商设备分摊用电量数据小时级别数据集1，OFPh2为运营商设备分摊用电量数据小时级别数据集2；OFPm为运营商设备分摊用电量数据15分钟级别数据集；

每个数据点由目标值和3个运营商相关的设备信息特征组成，目标值为用电量，设备信息特征包括：往期费用、超容次数及明细信息，训练、验证、测试周期分别为16、3、3个月；

步骤2)：对采集的用电量数据集进行归一化处理；

步骤3)：将归一化后的一维数据集转化为有标签的二维数据集，作为基于改进Transformer模型的用电量预测模型的输入数据，其形式如下:

其中，X表示模型输入，Y表示模型输出,t为预测序列的起始时间点，n为模型的序列输入长度，m为模型的序列输出长度；对归一化后的数据依次划分为训练集(train_X,train_Y)、验证集(validate_X,validate_Y)、测试集(test_X,test_Y)；

步骤4)：构建基于改进Transformer的通信基站中长期用电量预测模型，过程如下：

采用PyTorch框架实现没有特殊包依赖的模型代码，对于每一轮训练加入接受集群调度的逻辑代码，做好模型的检查点保存；

采用基于稀疏矩阵的注意力机制，即

其中

是和Q相同维度的稀疏矩阵，Q、K、V是自注意力q、k、v的矩阵形式，q和k是用来计算相似度的权重，v是用来跟权重做加权求和，T表示转置操作，d是输入序列的通道数，softmax为激活函数；

采用评估的近似操作，即：

近似操作将时间和空间复杂度控制到O(LlnL)，O表示大O表示法，L为序列长度；

采用随机梯度下降算法优化损失函数，评价指标采用均方根误差RMSE,计算公式如下：

和平均绝对百分比误差，计算公式如下：

两个指标中，n为序列的长度，在每个预测窗口以步长stride＝1滚动整个集合；其中，

和y_i分别表示i时刻的真实值和预测值；

步骤5)：为获得最佳的模型参数，导入训练集(train_X,train_Y)和验证集(validate_X,validate_Y)，进行超参数搜索；

步骤6)：将测试集(test_X,test_Y)导入已建立的基于改进transformer模型的通信基站中长期用电量预测模型，输出结果经过归一化后形成预测数据prediction_Y，并将test_Y与prediction_Y进行存储，完成预测过程。

本发明的目的还可以通过以下技术措施来进一步实现：

前述步骤2)中：对采集的用电量数据集进行归一化处理的公式为：

其中，x′_i表示经过归一化处理之后通信基站用电量数据，x_i表示原始通信基站用电量数据，x_max和x_min分别表示原始通信基站用电量数据集中的最大值和最小值；

经过归一化处理后的用电量数据形式如下：

[α(1)α(2)α(3)...α(n-1)α(n)]^T

其中，1,2,...,n表示日期，代表时间先后顺序。

前述步骤5)中，超参数搜索调用方法hyperparameter_search进行，采用Adam优化器优化，学习速率从le-4开始，每个时期衰减两倍；Epoch总数为8，batch_size设为32。

与现有技术相比，本发明的有益效果是：本发明适用于中长期通信基站用电量预测，能够在比较高的效率下获得较好的预测效果。其主要优点如下：将预测算法应用于通信基站中长期用电量预测中，生成一组用于比较通信基站实际用电量数据的预测用电量数据，增强对于长时间序列预测问题的预测容量，降低了时间复杂度和内存使用量，基于稀疏矩阵的注意力机制，提炼堆叠层中主要的注意力得分，大幅度降低总的空间复杂度，引入生成式解码获取长时间序列输出，只需一个前向步骤即可输出整个解码序列，同时避免推断期间的累积误差传播，在较高的效率下获得较好的中长期通信基站用电量预测效果。

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

如图1所示本发明基于改进Transformer模型通信基站中长期用电量预测方法，包括以下步骤：

步骤1)：采集运营商设备分摊用电量数据OFP，其为通信基站长期部署中的一个关键指标，我们从镇江市所有的通信基站中收集了两年的运营商设备用电量分摊数据，为探索长时间序列预测问题的间隔尺寸，为1小时级别创建{OFPh1,OFPh2}数据集，为15分钟级别创建OFPm数据集；OFPh1为运营商设备分摊用电量数据小时级别数据集1，OFPh2为运营商设备分摊用电量数据小时级别数据集2；OFPm为运营商设备分摊用电量数据15分钟级别数据集；

步骤2)：利用公式

对采集的用电量数据集进行归一化处理；其中，x′_i表示经过归一化处理之后通信基站用电量数据，x_i表示原始通信基站用电量数据，x_max和x_min分别表示原始通信基站用电量数据集中的最大值和最小值；

经过归一化处理后的用电量数据形式如下：

[α(1)α(2)α(3)...α(n-1)α(n)]^T

其中，1,2,...,n表示日期，代表时间先后顺序；

步骤3)：将归一化后的一维数据集转化为有标签(括号内的数字代表的标签)的二维数据集，作为基于改进Transformer模型的用电量预测模型的输入数据，其形式如下:

采用PyTorch(一个开源的Python深度学***台，将训练任务依据优先级负载均衡到不同的GPU上执行，充分利用计算算力，节省模型训练的时间，对于每一轮训练加入接受集群调度的逻辑代码，做好模型的检查点(checkpoint)保存。

传统的自注意力主要由(query,key,value)组成，

其中q、k、v都是输入参数矩阵变换而来,Q、K、V是q、k、v的矩阵形式，q和k是用来计算相似度的权重，v是用来跟权重做加权求和，Q、K、V来源都是输入序列与矩阵的乘积，本质上都是输入序列的线性变换,T表示转置操作。d是输入序列的通道数，目的是为了防止Q与K转置的内积过大或过小导致梯度较小，softmax为激活函数。第i个注意力被定义为核平滑的概率形式：

自注意力机制需要大O(n),n为序列长度的内存及二次的点积计算代价，这是阻碍长时间序列能力的主要缺点。本发明对传统的自注意力学习注意模式进行定性评估，“稀疏性”得分会形成长尾分布，即少数点积会对主要注意有贡献，而其他点积对可以忽略。第i个稀疏查询评估为：

其中，L为序列长度，上式的第一项是q_i在所有keys的参数指数之和的对数，第二项是算术平均值。

为克服以上缺点，本发明采用基于稀疏矩阵的注意力机制，即

其中

是和Q相同维度的稀疏矩阵，采用评估的近似操作，即：

近似操作将时间和空间复杂度控制到O(LlnL)，O表示大O表示法，L为序列长度。本发明采用基于概率的稀疏自注意力机制有效替代通用的自注意力机制，实现了O(n log n)的时间复杂度和O(n log n)的内存使用率。

本发明实施例实验是在5个随机训练/验证移位的过程中进行，结果采用5次运行的平均值。

对于OFPh1、OFPh2数据集，经常性分量的输入长度从{24，48，96，168，336，720}中选择24小时的倍数；对于OFPm数据集，从{24，48，96，192，288，672}，24小时的倍数中选择。编码层从{6,4,3,2}中选择，解码器层设置为2。多头注意力的头数从{8,16}中选择，多头注意力输出的维度设置为512，编码器的输入序列长度和解码器的起始标记从{24,48,96,168,336,480,720}中24小时的倍数中选择，用于OFPh1、OFPh2数据集。从{24,48,96,192,288,480,672}中24小时的倍数中选择用于OFPm数据集。

在长时间序列预测设置下，在各数据集{6h，12h，24h，72h，168h}h表示小时，逐步延长预测窗口大小，即{1d，2d，7d，14d，30d，40d}d表示天。

本发明采用随机梯度下降算法优化损失函数(是现有的业界通用技术)，评价指标采用均方根误差RMSE,计算公式如下：

和平均绝对百分比误差，计算公式如下：

和y_i分别表示i时刻的真实值和预测值；

步骤5)：为获得最佳的模型参数，导入训练集(train_X,train_Y)和验证集(validate_X,validate_Y)，调用方法hyperparameter_search(transformer中的Trainer接口提供的超参数搜索方法)进行超参数搜索，在编码器中包含一个3层的堆栈和一个1层堆栈，以及一个2层解码器，采用Adam(Adaptive Moment Estimation，自适应矩估计)优化器优化，学习速率从le-4开始，每个时期衰减两倍；Epoch(一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次epoch)总数为8，可以适当提前停止，batch_size(每批样本的大小)设为32；

除上述实施例外，本发明还可以有其他实施方式，凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围内。