CN117094431A - 一种多尺度熵门控的DWTformer气象数据时序预测方法及设备 - Google Patents

一种多尺度熵门控的DWTformer气象数据时序预测方法及设备 Download PDF

Info

Publication number
CN117094431A
CN117094431A CN202310961341.4A CN202310961341A CN117094431A CN 117094431 A CN117094431 A CN 117094431A CN 202310961341 A CN202310961341 A CN 202310961341A CN 117094431 A CN117094431 A CN 117094431A
Authority
CN
China
Prior art keywords
data
time sequence
decomposition
model
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310961341.4A
Other languages
English (en)
Inventor
张冬梅
贾思亮
李江
明俊豪
罗长林
王志莉
王群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center Of Hubei Natural Resources Department
Xiangyang Surveying And Mapping Research Institute
China University of Geosciences
Original Assignee
Information Center Of Hubei Natural Resources Department
Xiangyang Surveying And Mapping Research Institute
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center Of Hubei Natural Resources Department, Xiangyang Surveying And Mapping Research Institute, China University of Geosciences filed Critical Information Center Of Hubei Natural Resources Department
Priority to CN202310961341.4A priority Critical patent/CN117094431A/zh
Publication of CN117094431A publication Critical patent/CN117094431A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种多尺度熵门控的DWTformer气象数据时序预测方法及设备,属于气象时序预测技术领域。基于Transformer网络,设计基于多尺度熵门控的离散小波时序分解模块实现周期项和趋势项自适应分解,以描述不同时间尺度下的数据变化趋势,并引入Wasserstein自注意力机制和指数平滑预测模块分别提取不同频率尺度下的特征,充分挖掘生产数据间的时序依赖关系,提出的DWTformer模型能有效解决具有非线性、非平稳特征的气象数据预测难的问题。本发明提出的改进Transformer时序预测模型——DWTformer,对气象数据进行多尺度的时序特征提取及预测,较好挖掘气象数据潜在的时序依赖关系,提高预测精度,实验结果表明本发明提出一种多尺度熵门控的DWTformer气象数据时序预测方法比现有方法预测精度更高。

Description

一种多尺度熵门控的DWTformer气象数据时序预测方法及 设备
技术领域
本发明涉及气象时序预测技术领域,特别涉及一种多尺度熵门控的DWTformer气象数据时序预测方法及设备。
背景技术
天气变化与人们的生产活动、社会活动、军事活动以及日常生活都有着十分密切的关系。自古以来,人们总是想方设法去预测未来的天气变化,利用有利的天气,避开不利的天气,以减少不必要的损失。现在的天气预报方式主要是通过气象卫星与雷达回波图像,然后用计算机通过数值计算的方法预报天气。然而天气***十分复杂,常常是混沌***,利用计算机进行数值计算的方法耗时长。
对于时序预测研究有着诸多的思想与方法,在众多的方法中,基于***工程的思想,并有效结合新理论和新方法对环境质量,实现量化研究以及有效预测是主要发展趋势。以气象数据为例,由于受气候、气温、人类活动等大量不确定性和复杂性因素的影响,各类气象数据的时间序列具有高度非线性、非平稳等特性,常规的分析、预测方法很难掌握其中的变化规律及变化特性。
浅层的神经网络在解决简单的或者限制较多的问题效果明显,但建模和表示能力有限。深度的神经网络,具有多个隐形层,比传统神经网络更具有结构上的优势,特征抽象能力能强。循环神经网络(RNN)是一类可用于无监督(和有监督)学习的深度网络,在无监督学习模式下,RNN被用来根据先前的数据样本预测未来的数据序列,并且学习过程中没有用到类别信息,因此RNN非常适合序列数据建模。但RNN这类模型受自身结构的局限性存在累计误差和长期依赖现象,不适用于长期的时序预测任务。
谷歌提出的Transformer网络具有比RNN更优秀的序列长程相关性捕捉能力,在长期预测任务中有较好的应用前景。Transformer网络核心的自注意力机制可以较好的挖掘序列元素之间的自相关性,但其时空复杂度为平方级,当进行长期预测时,计算资源开销较大,并且目前针对时序预测的改进工作多针对单一时间尺度的时间序列进行建模,类似气象这类具有高度非线性、非平稳特征的时间序列,难以充分挖掘其潜在的时序依赖关系。
发明内容
本发明要解决的技术问题是:针对类似气象这类具有高度非线性、非平稳特征的时间序列,充分挖掘其潜在的时序依赖关系。
为了解决该技术问题,本发明采取的技术方案是:提供一种多尺度熵门控的DWTformer气象数据时序预测方法及设备,结合时间序列分解方法对Transformer网络进行改进,构建一种深度时序分解网络,具体使用基于多尺度熵门控的离散小波分解模块在模型内部逐步进行时序分解得到序列的周期项和趋势项。
根据本发明的第一方面,一种多尺度熵门控的DWTformer气象数据时序预测方法,包括以下步骤:
S1:获取历史气象数据;
S2:对历史气象数据进行预处理,得到预处理后的历史气象数据;
S3:利用多尺度熵设计门控机制评估数据的复杂性,结合离散小波分解,提出一种基于多尺度熵门控的离散小波时序分解模块;
S4:将基于多尺度熵门控的离散小波时序分解模块嵌入Transformer,构建深度时序分解网络,自动将输入分解为趋势项子序列和周期项子序列,然后通过基于指数平滑的趋势预测模块和基于Wasserstein距离的自注意力机制分别提取两种不同时间尺度子序列中的时序特征并预测,从而得到一种基于多尺度时序分解的DWTformer模型;
S5:将预处理后的历史气象数据输入DWTformer模型中进行预测,判断当前迭代次数是否大于或等于预设最高迭代次数,若是,则进入步骤S8,否则进入步骤S6;
S6、利用DWTformer模型的预测数据和实际数据计算损失函数;
S7、判断损失函数是否满足收敛条件,若是,则进入步骤S8;否则通过优化算法进行误差的反向传播,更新DWTformer模型的权重矩阵和偏置向量,当前迭代次数加一后转到步骤S5;
S8、通过训练好的DWTformer模型输出气象预测数据。
进一步地,步骤S1中,所述历史气象数据包括:
每小时的温度、云覆盖、相对湿度、比湿、风力;其中,温度单位:℃,云覆盖单位:0-1,相对湿度单位:%,比湿单位:kg kg-1,风力单位:m s-1
进一步地,步骤S2中,所述预处理具体包括以下步骤:
S2.1:对缺失历史气象数据进行补全处理,利用均值法平滑处理缺失的历史气象数据:
其中,Xt表示当前时刻的缺失数据,Xt-1表示前一时刻的缺失数据,Xt+1表示后一时刻的缺失数据;
S2.2:对历史气象数据中的异常值进行剔除前后5个数据点的处理操作;
S2.3:按照如下公式将所有历史气象数据进行标准化处理:
其中,X′表示标准化后的数据,X表示标准化前的数据,Xmean表示数据的均值,Xstd表示数据的方差。
进一步地,步骤S3中,所述基于多尺度熵门控的离散小波时序分解模块的构建过程如下:
将预处理后的历史气象数据进行多尺度熵的计算,将多尺度熵的计算结果取均值,当均值大于设定阈值时,该门控单元计算结果为1,进行时序分解;反之,当均值小于或等于设定阈值时,该门控单元计算结果为0,不进行时序分解,具体过程表示为:
其中,MSEGU(X)表示针对X的基于多尺度熵门控的离散小波时序分解模块的构建过程,X表示时间序列输入,MSE(·)表示计算多尺度样本熵,AVG(·)表示求平均值操作,表示向上取整操作,σ表示设定阈值,表示时间序列的波动变化剧烈程度;
当门控单元计算结果为1时,采用离散小波分解方法对该段输入数据进行时序分解,具体分解过程可表示为:
Xs,Xt=DWTDecomp(X)
其中,Xs表示周期项子序列,Xt表示趋势项子序列,DWTDecomp(·)表示离散小波分解过程。
进一步地,步骤S4中,所述基于多尺度时序分解的DWTformer模型的构建过程如下:
DWTformer模型的整体基于Transformer网络的Seq2Seq2结构进行设计,由编码器、解码器两部分组成;
DWTformer模型中编码器主要用于提取输入数据段的周期项注意力特征,在编码器解码过程中通过注意力机制提供时序依赖信息;整个编码器的计算流程表示为:
式中,“_”表示经过DWT分解得到的趋势项部分,编码器不提取趋势项特征;l∈{1,...,N}表示第l层编码器的输出,/>表示经过位置嵌入后的模型输入Xen;/>i∈{1,2}分别表示在第l层编码器中,经过第i个DWT时序分解模块得到的周期项序列;/>表示第l-1层的编码器输出;/>表示第一次输入序列分解的周期项子序列;表示针对第一次分解的周期项子序列再分解的周期项子序列结果;DWTDecomp(·)表示基于多尺度熵门口的离散小波时序分解模块;Wassertein Self-Attention(·)表示基于Wasserstein距离的自注意力机制;FeedForward(·)表示前馈神经网络计算过程;
解码器主要包含两部分,一部分为周期项预测,另一部分为趋势项预测,最终预测结果为两部分之和;周期项预测部分通过编码器-解码器自注意力机制,利用编码器提取到的周期项注意力特征,解码出掩码即待预测的部分;趋势项预测部分将预先分解得到的趋势项序列经过指数平滑预测模块,得到预测值;整个计算流程可表示为:
式中,l∈{1,...,M}表示第l层解码器的输出;/>表示Xdes经过位置编码;/>分别表示在第l层解码器中经过第i个分解模块得到的周期项部分和趋势项部分;Wl,i,i∈{1,2,3}分别表示第l层解码器中趋势项/>的投影矩阵;ESPredict(·)表示指数平滑预测模块;MH Attention(·)表示多头注意力机制。
进一步地,基于多尺度时序分解的DWTformer模型包括输入层、隐藏层和输出层,输入层用于数据的输入,给定包含个变量序列的时间序列X=(x1,x2,x3,...,xn)T,T表示时间步长,n表示输入维度,则基于多尺度时序分解的DWTformer模型表示为:
y^T+n=F(h1,...,hT-1,x1,...,xT)
其中,ht为隐含层状态,ht∈R;F(.)为DWTformer模型隐藏层需要学习的非线性映射函数;y^T+n是模型的预测目标,即为未来n个时间点的输出层的预测输出;T+n为需要预测的时刻;数据序列X=(x1,x2,x3,...,xn)T在整个输入层的输入矩阵表示为(x1,x2,x3,...,xT)∈Rn*T
进一步地,步骤S6中,所述损失函数为均方根误差损失函数。
进一步地,步骤S6中,还包括:对基于多尺度时序分解的DWTforme模型的训练,得到DWTformer模型参数,训练过程如下:
S6.1:从输入数据按照6:2:2的比例划分为训练集、验证集、测试集;
S6.2:将训练集的数据输入DWTformer模型,得到训练集的预测数据;
S6.3:计算训练集的预测数据和实际数据的平均绝对误差、均方根误差和平均误差百分比,并对平均绝对误差、均方根误差和平均误差百分比作为度量指标对模型进行评估,得到优化后的模型参数,并将优化后的模型参数作为DWTformer模型的初始模型参数。
进一步地,步骤S2之后,还包括对所述预处理后的历史气象数据进行编码处理,包括:向量编码、位置编码和时间戳编码,获得编码后的历史气象数据。
根据本发明的另一方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的多尺度熵门控的DWTformer气象数据时序预测方法的步骤。
本发明提供的技术方案具有以下有益效果:
发明通过引入时序分解方法结合Transoformer提出一种基于多尺度时序分解的DWTformer模型,并应用与于时序预测,表现出较好的预测性能。通过基于多尺度熵门控的离散小波时序分解模块将输入模型的序列分解成趋势项和周期项。进一步地,使用基于指数平滑的预测模块对趋势项子序列进行特征提取和预测;进一步地,使用基于Wasserstein距离的自注意力机制对周期项子序列进行特征提取和预测;通过构建多尺度的预测建模策略,能充分挖掘类似气象数据这类具有高度非线性、非平稳时间序列的潜在时序依赖特征。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明一种多尺度熵门控的DWTformer气象数据时序预测方法的预测框架图;
图2为本发明基于多尺度熵门控的离散小波时序分解模块的结构示意图;
图3为本发明离散小波时序分解示意图;
图4为本发明基于指数平滑的趋势预测模块示意图;
图5为本发明DWTformer模型结构示意图;
图6为本发明一种电子设备的结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
参考图1,本发明提供了一种多尺度熵门控的DWTformer气象数据时序预测方法,包括以下步骤:
S1:获取历史气象数据;
S2:对历史气象数据进行预处理,得到预处理后的历史气象数据;
S3:利用多尺度熵设计门控机制评估数据的复杂性,结合离散小波分解,提出一种基于多尺度熵门控的离散小波时序分解模块;
S4:将基于多尺度熵门控的离散小波时序分解模块嵌入Transformer,构建深度时序分解网络,自动将输入分解为趋势项子序列和周期项子序列,然后通过基于指数平滑的趋势预测模块和基于Wasserstein距离的自注意力机制分别提取两种不同时间尺度子序列中的时序特征并预测,从而得到一种基于多尺度时序分解的DWTformer模型;
S5:将预处理后的历史气象数据输入DWTformer模型中进行预测,判断当前迭代次数是否大于或等于预设最高迭代次数,若是,则进入步骤S8,否则进入步骤S6;
S6、利用DWTformer模型的预测数据和实际数据计算损失函数;
S7、判断损失函数是否满足收敛条件,若是,则进入步骤S8;否则通过优化算法进行误差的反向传播,更新DWTformer模型的权重矩阵和偏置向量,当前迭代次数加一后转到步骤S5;
S8、通过训练好的DWTformer模型输出气象预测数据。
作为一种优选地实施方式,所述步骤S2中对数据的预处理具体包括以下步骤:
步骤S2.1、对缺失数据进行补全处理,利用均值法平滑处理缺失的数据:
其中,Xt表示当前时刻的缺失数据,Xt-1表示前一时刻的缺失数据,Xt+1表示前后一时刻的缺失数据;
步骤S2.2、对数据中的异常值进行剔除前后5个数据点的处理操作;
步骤S2.3、按照如下公式将所有数据进行标准化处理:
其中,X1表示标准化后的数据,X表示标准化前数据,Xmean表示数据的均值,Xstd表示数据的方差;
如图2所示,图2中MSE Gate Unit表示均方误差门控单元,DWT Decomp表示DWT时序序列分解,作为一种优选地实施方式,所述步骤S3中基于多尺度熵门控的离散小波时序分解模块的方法具体包括以下步骤:
步骤S3.1、将数据进行多尺度熵的计算,将多尺度熵的计算结果取均值,当其大于设定阈值时,该门控单元计算结果为1,进行时序分解。反之,当小于或等于设定阈值时,该门控单元计算结果为0,不进行时序分解,具体过程表示为:
其中,X表示时间序列输入,MSE(·)表示计算多尺度样本熵,AVG(·)表示求平均值操作,表示向上取整操作,σ表示设定阈值,表示时间序列的波动变化剧烈程度。
步骤S3.2、如果门控单元计算结果为1时,需要对该段输入数据进行时序分解,如图3所示,采用离散小波时序分解,具体分解过程可表示为:
Xs,Xt=DWTDecomp(X)
其中,Xs表示周期项子序列,Xt表示趋势项子序列,DWTDecomp(·)表示离散小波分解过程。
如图4所示,作为一种优选地实施方式,所述步骤S4中基于指数平滑的趋势预测模块的方法具体包括以下步骤:
在指数平滑预测法中,首先给时间序列的前t个数值各自赋予一个权重,这些权重的大小代表了前t个数值对于第t+1个数值的重要程度。随着时间的推移,过去数据所赋予的权值也逐渐减小,以体现新数据重要性。基于指数平滑的趋势预测模块可被定义为:
式中,α为平滑系数,它满足0<α<1,且该系数之和为1。v0是初始状态。α和v0均为可学习的参数。
作为一种优选地实施方式,所述步骤S4中基于Wasserstein距离的自注意力机制包括以下步骤:
步骤S4.1、对标准自注意力机制做如下定义:
(1)p(kj|qi)=k(qi,kj)/∑lk(qi,kl)表示第i个query对所有key的注意力概率分布;
(2)q(kj|qi)=1/LK表示均匀分布,LK表示Q向量的长度,也即输入序列长度;
(3)当p(kj|qi)偏离均匀分布时,则说明query的注意权重起显著作用,反之,则可忽略不计。
步骤S4.2、使用Wasserstein距离公式度量分布与均匀分布之间的相似性,Wasserstein距离公式定义表示为:
式中,Π(P1,P2)表示P1和P2分布组合起来的所有可能的联合分布集合,对于每一种可能的联合分布γ,从中采样(x-y)~γ,得到样本x和y,||x-y||则表示这对样本之间的距离,在联合分布γ下,样本对距离的期望值可表示为E(x,y)~γ[||x-y||]。在所有可能的联合分布下,Wasserstein距离表示为E(x,y)~γ[||x-y||]的下界。
步骤S4.3、将p(kj|qi)和q(kj|qi)带入上式,得到p、q分布之间的相似值:
式中,d(x,y)是成本函数,表示从x到y的成本,d表示p-范数函数,γ是联合分布,其边缘分布是q和p,inf表示下确界即取所有联合分布情况中的最小值。
步骤S4.4、上式中所有的联合分布γ,总成本∫∫γ(x,y)d(x,y)dxdy最小的方案,即要计算的W(q||p),表示p(kj|qi)概率分布与q(kj|qi)均匀分布间的差异。W(q||p)结果较大时,表示该Query的注意力概率分布p(kj|qi)包含长尾分布中的主要注意力。选取结果较大的Query组成矩阵取代标准自注意力机制中的Q矩阵,基于Wasserstein距离的自注意力机制可表示为:
如图5所示,作为一种优选地实施方式,所述步骤S4的DWTformer模型的设计方法如下:
DWTformer模型的整体基于Transformer网络的Seq2Seq2结构进行设计,由编码器(Encoder)、解码器(Decoder)两部分组成。
DWTformer模型中编码器主要用于提取输入数据段的周期项注意力特征,在编码器解码过程中通过注意力机制提供时序依赖信息。整个编码器的计算流程表示为:
式中,“_”表示经过DWT分解得到的趋势项部分,编码器不提取趋势项特征;l∈{1,...,N}表示第l层编码器的输出,/>表示经过位置嵌入后的模型输入Xen;/>i∈{1,2}分别表示在第l层编码器中,经过第i个DWT时序分解模块得到的周期项序列;/>表示第l-1层的编码器输出;/>表示第一次输入序列分解的周期项子序列;表示针对第一次分解的周期项子序列再分解的周期项子序列结果;DWTDecomp(·)表示基于多尺度熵门口的离散小波时序分解模块;Wassertein Self-Attention(·)表示基于Wasserstein距离的自注意力机制;FeedForward(·)表示前馈神经网络计算过程;
编码器主要包含两部分,一部分为周期项预测(Seasonal Init),另一部分为趋势项预测(Trend_-cyclical Init),最终预测结果为两部分之和(Prediction)。周期项预测部分通过编码器-解码器自注意力机制,利用编码器提取到的周期项注意力特征,解码出掩码即待预测的部分;趋势项预测部分将预先分解得到的趋势项序列经过指数平滑预测模块,得到预测值。整个计算流程可表示为:
式中,l∈{1,...,M}表示第l层解码器的输出;/>表示Xdes经过位置编码;/>分别表示在第l层解码器中经过第i个分解模块得到的周期项部分和趋势项部分;Wl,i,i∈{1,2,3}分别表示第l层解码器中趋势项/>的投影矩阵;ESPredict(·)表示指数平滑预测模块;MH Attention(·)表示多头注意力机制。
作为一种优选地实施方式,DWTformer模型包括输入层、隐藏层和输出层,输入层用于历史数据的输入,给定包含个变量序列的时间序列X=(x1,x2,x3,...,xn)T,T表示时间步长,n表示输入维度,则基于DWTformer的时序预测模型表示为:
y^T+n=F(h1,...,hT-1,x1,...,xT)
其中,ht为隐含层状态,ht∈R;F(.)为DWTformer模型隐藏层需要学习的非线性映射函数;y^T+n是模型的预测目标,即为未来n个时间点的输出层的预测输出;T+n为需要预测的时刻;数据序列X=(x1,x2,x3,...,xn)T在整个输入层的输入矩阵表示为(x1,x2,x3,...,xT)∈Rn*T
作为一种优选地实施方式,所述步骤S6和步骤S7中所述的损失函数为均方根误差损失函数。
作为一种优选地实施方式,还包括对DWTformer模型的训练,得到DWTformer模型参数的步骤,训练方法包括以下步骤:
步骤S6.1、从输入数据按照6∶2∶2的比例划分为训练集、验证集、测试集。
步骤S6.2、将训练集的数据输入DWTformer模型,得到训练集的预测数据;
步骤S6.3、计算训练集的预测数据和实际数据的平均绝对误差、均方根误差和平均误差百分比,并对平均绝对误差、均方根误差和平均误差百分比作为度量指标对模型进行评估,得到优化后的DWTformer模型参数,并将优化后的模型参数作为DWTformer模型的初始模型参数。
作为一种优选地实施方式,步骤S2之后,还包括对所述预处理后的历史气象数据进行编码处理,包括:向量编码、位置编码和时间戳编码,获得编码后的历史气象数据。
本发明的一个具体实施例中,将上述方法应用到具体的预测实验中。该实验研究在WeatherBench开源气象时序数据集上进行预测实验。该数据集收集了从1979年到2018年,每小时采集一次的湿度、温度等指标数据。所有数据集均按照时间顺序以6∶2∶2的比例划分为训练集、验证集、测试集。
(1)软硬件环境
实验软硬件配置:操作***为Ubuntu 18.04LTS(64bit);处理器为Intel(R)Xeon(R)Gold 6132,2.60GHz;内存为120G,显卡为Tesla V100 SXM2 32GB;深度学习平台是基于Facebook的开源框架PyTorch1.8;编程语言为Python3.6。
(2)参数设置
模模型训练过程中使用Adam优化算法,初始学***均绝对误差)对各模型预测性能进行评估,定义如下:
式中,n是样本总数,yi是预测值,是真实值。
(3)实例分析
1)单变量预测单变量实验
使用本发明提出的DWTformer模型与Autoformer、Informer、Reformer、LSTNet和LSTM等模型分别进行{48、96、168、336}预测步长的对比实验,实验结果如表1所示。实验结果可以看出,所提出的DWTformer模型表现出较好的预测性能。以注意力机制为核心的Transformer变体模型比传统自回归类模型具有更好的时间序列长程时序依赖捕捉能力,因此Transformer架构类的模型适用于时间序列的长期建模任务。同时可看出DWTformer与Autoformer这类顾及时序多尺度特征的预测模型相对于其他仅考虑单一时间尺度特征的预测模型如Informer、Reformer具有更好的预测性能。
表1单变量预测实验结果
2)多变量预测多变量实验
进行多变量预测实验时,分别使用Autoformer、Informer、Reformer、LSTNet及LSTM等模型作为对比模型,如表2所示。所提出的DWTformer模型在所有时序数据集以及预测长度设置的测试实验中基本取得最优的预测结果。同时,DWTformer以及Autoformer这类引入时序分解技术的改进模型的预测性能要远远优于其余仅考虑时间序列单一时间尺度的时序预测方法。DWTformer模型相较于Autoformer模型充分考虑了原始时间序列的周期性和趋势性分量特征,能更好的挖掘具有非线性、非平稳特征的复杂时间序列的时序依赖关系,DWTformer模型展现了比Autoformer更好的时间序列建模能力。
表2多变量预测实验结果
3)消融实验——基于多尺度熵门控的离散小波时序分解模块
在Transformer网络的基础上添加基于多尺度熵门控的离散小波时序分解模块,对分解后得到的长期趋势项分量的特征提取采用Autoformer取均值方法。对比方案选用Transformer以及使用移动平均法进行时序分解的Transformer,对比实验结果见表3中方案1、4、6,从实验结果可以看出引入时间序列分解的方案4和方案6比未采用时间序列分解的方案1的预测结果要好得多,论文设计的基于多尺度熵门控的离散小波分解模块比Autoformer中基于移动平均法的分解模块预测性能更好。
4)消融实验——基于指数平滑的趋势预测模块
在Transformer网络基础上,统一使用移动平均分解法进行时序分解,标准自注意力机制提取周期项分量的特征,再分别使用Autoformer的取平均的趋势项处理操作和DWTformer的指数平滑趋势预测模块进行对比实验,实验结果见表3中的方案4、5。由实验结果可知,论文设计的基于指数平滑的趋势预测模块相较于趋势项分量取均值的策略具有更好的预测结果。
5)消融实验——Wasserstein-自注意力机制模块
将Transformer网络中的标准自注意力机制替换为Wasserstein-自注意力机制,将其与Transformer以及Autoformer进行对比实验,对Autoformer分解模块只保留自相关机制。具体来说重点对比标准注意力机制、自相关机制以及Wasserstein-自注意力机制这三种注意力的性能,实验结果见表3中的方案1、2、3)。由实验结果可知,Wasserstein-自注意力机制较标准自注意力机制和自相关机制预测结果更优,这是因为Wasserstein-自注意力机制通过先验方式计算出稀疏的主导注意力,不仅提高预测性能,还从时间和空间复杂度上降低模型训练开销。
表3模块消融实验结果
如图6所示,示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述多尺度熵门控的DWTformer气象数据时序预测方法,包括以下步骤:S1:获取历史气象数据;S2:对历史气象数据进行预处理,得到预处理后的历史气象数据;S3:利用多尺度熵设计门控机制评估数据的复杂性,结合离散小波分解,提出一种基于多尺度熵门控的离散小波时序分解模块;S4:将基于多尺度熵门控的离散小波时序分解模块嵌入Transformer,构建深度时序分解网络,自动将输入的历史气象数据分解为趋势项和周期项子序列,然后通过基于指数平滑的趋势预测模块和基于Wasserstein距离的自注意力机制分别提取两种不同时间尺度子序列中的时序特征并预测,从而得到一种基于多尺度时序分解的DWTforme模型;S5:将预处理后的历史气象数据输入DWTformer模型中进行预测,判断当前迭代次数是否大于或等于预设最高迭代次数,若是,则进入步骤S8,否则进入步骤S6;S6、利用预测数据和实际数据计算损失函数;S7、判断损失函数是否满足收敛条件,若是,则进入步骤S8;否则通过优化算法进行误差的反向传播,更新DWTformer模型的权重矩阵和偏置向量,当前迭代次数加一后转到步骤S5;S8、通过训练好的DWTformer模型输出气象预测数据。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random15 Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述多尺度熵门控的DWTformer气象数据时序预测方法,包括以下步骤:S1:获取历史气象数据;S2:对历史气象数据进行预处理,得到预处理后的历史气象数据;S3:利用多尺度熵设计门控机制评估数据的复杂性,结合离散小波分解,提出一种基于多尺度熵门控的离散小波时序分解模块;S4:将基于多尺度熵门控的离散小波时序分解模块嵌入Transformer,构建深度时序分解网络,自动将输入的历史气象数据分解为趋势项和周期项子序列,然后通过基于指数平滑的趋势预测模块和基于Wasserstein距离的自注意力机制分别提取两种不同时间尺度子序列中的时序特征并预测,从而得到一种基于多尺度时序分解的DWTforme模型;S5:将预处理后的历史气象数据输入DWTformer模型中进行预测,判断当前迭代次数是否大于或等于预设最高迭代次数,若是,则进入步骤S8,否则进入步骤S6;S6、利用预测数据和实际数据计算损失函数;S7、判断损失函数是否满足收敛条件,若是,则进入步骤S8;否则通过优化算法进行误差的反向传播,更新DWTformer模型的权重矩阵和偏置向量,当前迭代次数加一后转到步骤S5;S8、通过训练好的DWTformer模型输出气象预测数据。
本发明实施例实施了一种多尺度熵门控的DWTformer气象数据时序预测方法及设备,该方法基于Transformer网络,设计基于多尺度熵门控的离散小波时序分解模块实现周期项和趋势项自适应分解,以描述不同时间尺度下的数据变化趋势,并引入Wasserstein自注意力机制和指数平滑预测模块分别提取不同频率尺度下的特征,充分挖掘生产数据间的时序依赖关系,提出的DWTformer模型能有效解决具有非线性、非平稳特征的气象数据预测难的问题。本发明提出的改进Transformer时序预测模型——DWTformer,对气象数据进行多尺度的时序特征提取及预测,较好挖掘气象数据潜在的时序依赖关系,提高预测精度,实验结果表明本发明提出一种多尺度熵门控的DWTformer气象数据时序预测方法比现有方法预测精度更高。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种多尺度熵门控的DWTformer气象数据时序预测方法,其特征在于,包括以下步骤:
S1:获取历史气象数据;
S2:对历史气象数据进行预处理,得到预处理后的历史气象数据;
S3:利用多尺度熵设计门控机制评估数据的复杂性,结合离散小波分解,提出一种基于多尺度熵门控的离散小波时序分解模块;
S4:将基于多尺度熵门控的离散小波时序分解模块嵌入Transformer,构建深度时序分解网络,自动将输入分解为趋势项子序列和周期项子序列,然后通过基于指数平滑的趋势预测模块和基于Wasserstein距离的自注意力机制分别提取两种不同时间尺度子序列中的时序特征并预测,从而得到一种基于多尺度时序分解的DWTformer模型;
S5:将预处理后的历史气象数据输入DWTformer模型中进行预测,判断当前迭代次数是否大于或等于预设最高迭代次数,若是,则进入步骤S8,否则进入步骤S6;
S6、利用DWTformer模型的预测数据和实际数据计算损失函数;
S7、判断损失函数是否满足收敛条件,若是,则进入步骤S8;否则通过优化算法进行误差的反向传播,更新DWTformer模型的权重矩阵和偏置向量,当前迭代次数加一后转到步骤S5;
S8、通过训练好的DWTformer模型输出气象预测数据。
2.根据权利要求1所述的多尺度熵门控的DWTformer气象数据时序预测方法,其特征在于,步骤S1中,所述历史气象数据包括:
每小时的温度、云覆盖、相对湿度、比湿、风力;其中,温度单位:℃,云覆盖单位:0-1,相对湿度单位:%,比湿单位:kg kg-1,风力单位:m s-1
3.根据权利要求1所述的多尺度熵门控的DWTformer气象数据时序预测方法,其特征在于,步骤S2中,所述预处理具体包括以下步骤:
S2.1:对缺失历史气象数据进行补全处理,利用均值法平滑处理缺失的历史气象数据:
其中,Xt表示当前时刻的缺失数据,Xt-1表示前一时刻的缺失数据,Xt+1表示后一时刻的缺失数据;
S2.2:对历史气象数据中的异常值进行剔除前后5个数据点的处理操作;
S2.3:按照如下公式将所有历史气象数据进行标准化处理:
其中,X'表示标准化后的数据,X表示标准化前的数据,Xmean表示数据的均值,Xstd表示数据的方差。
4.根据权利要求1所述的多尺度熵门控的DWTformer气象数据时序预测方法,其特征在于,步骤S3中,所述基于多尺度熵门控的离散小波时序分解模块的构建过程如下:
将预处理后的历史气象数据进行多尺度熵的计算,将多尺度熵的计算结果取均值,当均值大于设定阈值时,该门控单元计算结果为1,进行时序分解;反之,当均值小于或等于设定阈值时,该门控单元计算结果为0,不进行时序分解,具体过程表示为:
其中,MSEGU(X)表示针对X的基于多尺度熵门控的离散小波时序分解模块的构建过程,X表示时间序列输入,MSE(·)表示计算多尺度样本熵,AVG(·)表示求平均值操作,表示向上取整操作,σ表示设定阈值,表示时间序列的波动变化剧烈程度;
当门控单元计算结果为1时,采用离散小波分解方法对该段输入数据进行时序分解,具体分解过程可表示为:
Xs,Xt=DWTDecomp(X)
其中,Xs表示周期项子序列,Xt表示趋势项子序列,DWTDecomp(·)表示离散小波分解过程。
5.根据权利要求1所述的多尺度熵门控的DWTformer气象数据时序预测方法,其特征在于,步骤S4中,所述基于多尺度时序分解的DWTformer模型的构建过程如下:
DWTformer模型的整体基于Transformer网络的Seq2Seq2结构进行设计,由编码器、解码器两部分组成;
DWTformer模型中编码器主要用于提取输入数据段的周期项注意力特征,在编码器解码过程中通过注意力机制提供时序依赖信息;整个编码器的计算流程表示为:
式中,“_”表示经过DWT分解得到的趋势项部分,编码器不提取趋势项特征;表示第l层编码器的输出,/>表示经过位置嵌入后的模型输入Xen分别表示在第l层编码器中,经过第i个DWT时序分解模块得到的周期项序列;表示第l-1层的编码器输出;/>表示第一次输入序列分解的周期项子序列;/>表示针对第一次分解的周期项子序列再分解的周期项子序列结果;DWTDecomp(·)表示基于多尺度熵门口的离散小波时序分解模块;Wassertein Self-Attention(·)表示基于Wasserstein距离的自注意力机制;FeedForward(·)表示前馈神经网络计算过程;
解码器主要包含两部分,一部分为周期项预测,另一部分为趋势项预测,最终预测结果为两部分之和;周期项预测部分通过编码器-解码器自注意力机制,利用编码器提取到的周期项注意力特征,解码出掩码即待预测的部分;趋势项预测部分将预先分解得到的趋势项序列经过指数平滑预测模块,得到预测值;整个计算流程可表示为:
式中,表示第l层解码器的输出;/>表示Xdes经过位置编码;分别表示在第l层解码器中经过第i个分解模块得到的周期项部分和趋势项部分;Wl,i,i∈{1,2,3}分别表示第l层解码器中趋势项/>的投影矩阵;ESPredict(·)表示指数平滑预测模块;MH Attention(·)表示多头注意力机制。
6.根据权利要求1所述的多尺度熵门控的DWTformer气象数据时序预测方法,其特征在于,基于多尺度时序分解的DWTformer模型包括输入层、隐藏层和输出层,输入层用于数据的输入,给定包含个变量序列的时间序列X=(x1,x2,x3,…,xn)T,T表示时间步长,n表示输入维度,则基于多尺度时序分解的DWTformer模型表示为:
y^T+n=F(h1,…,hT-1,x1,…,xT)
其中,ht为隐含层状态,ht∈R;F(.)为DWTformer模型隐藏层需要学习的非线性映射函数;y^T+n是模型的预测目标,即为未来n个时间点的输出层的预测输出;T+n为需要预测的时刻;数据序列X=(x1,x2,x3,…,xn)T在整个输入层的输入矩阵表示为(x1,x2,x3,…,xT)∈Rn *T
7.根据权利要求1所述的多尺度熵门控的DWTformer气象数据时序预测方法,其特征在于,步骤S6中,所述损失函数为均方根误差损失函数。
8.根据权利要求1所述的多尺度熵门控的DWTformer气象数据时序预测方法,其特征在于,步骤S6中,还包括:对基于多尺度时序分解的DWTforme模型的训练,得到DWTformer模型参数,训练过程如下:
S6.1:从输入数据按照6:2:2的比例划分为训练集、验证集、测试集;
S6.2:将训练集的数据输入DWTformer模型,得到训练集的预测数据;
S6.3:计算训练集的预测数据和实际数据的平均绝对误差、均方根误差和平均误差百分比,并对平均绝对误差、均方根误差和平均误差百分比作为度量指标对模型进行评估,得到优化后的模型参数,并将优化后的模型参数作为DWTformer模型的初始模型参数。
9.根据权利要求1所述的多尺度熵门控的DWTformer气象数据时序预测方法,其特征在于,步骤S2之后,还包括对所述预处理后的历史气象数据进行编码处理,包括:向量编码、位置编码和时间戳编码,获得编码后的历史气象数据。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一项所述的多尺度熵门控的DWTformer气象数据时序预测方法的步骤。
CN202310961341.4A 2023-08-01 2023-08-01 一种多尺度熵门控的DWTformer气象数据时序预测方法及设备 Pending CN117094431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310961341.4A CN117094431A (zh) 2023-08-01 2023-08-01 一种多尺度熵门控的DWTformer气象数据时序预测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310961341.4A CN117094431A (zh) 2023-08-01 2023-08-01 一种多尺度熵门控的DWTformer气象数据时序预测方法及设备

Publications (1)

Publication Number Publication Date
CN117094431A true CN117094431A (zh) 2023-11-21

Family

ID=88774451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310961341.4A Pending CN117094431A (zh) 2023-08-01 2023-08-01 一种多尺度熵门控的DWTformer气象数据时序预测方法及设备

Country Status (1)

Country Link
CN (1) CN117094431A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118158116A (zh) * 2024-05-13 2024-06-07 南昌大学 基于Transformer时序预测模型的网络运行指标预测方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118158116A (zh) * 2024-05-13 2024-06-07 南昌大学 基于Transformer时序预测模型的网络运行指标预测方法及***

Similar Documents

Publication Publication Date Title
Tian Modes decomposition forecasting approach for ultra-short-term wind speed
Khodayar et al. Rough deep neural architecture for short-term wind speed forecasting
CN111242377B (zh) 一种集成深度学习和数据去噪的短期风速预测方法
CN112766078B (zh) 基于emd-svr-mlr与注意力机制的gru-nn的电力负荷层次预测方法
CN111754042A (zh) 基于高斯回归的大气污染物浓度的预测方法及装置
Yu et al. Oil price forecasting with an EMD-based multiscale neural network learning paradigm
CN112508244B (zh) 一种用户级综合能源***多元负荷预测方法
Faraz et al. Stock market prediction-by-prediction based on autoencoder long short-term memory networks
CN117094431A (zh) 一种多尺度熵门控的DWTformer气象数据时序预测方法及设备
CN111222689A (zh) 基于多尺度时间特征的lstm负荷预测方法、介质及电子装置
CN110766060A (zh) 基于深度学习的时间序列相似度的计算方法、***及介质
CN116702831A (zh) 一种考虑数据大量丢失的混合短期风电功率预测方法
CN113609766B (zh) 一种基于深度概率潜隐模型的软测量方法
Liu et al. Soil water content forecasting by ANN and SVM hybrid architecture
CN114065996A (zh) 基于变分自编码学习的交通流预测方法
CN117787470A (zh) 一种基于ewt和集成方法的时序预测方法和***
Springer et al. Robust parameter estimation of chaotic systems
CN116739168A (zh) 一种基于灰色理论与编解码器的径流量预测方法
CN116739161A (zh) 一种融合经验模态分解和Informer模型的海表面温度预测方法
Xu et al. Residual autoencoder-LSTM for city region vehicle emission pollution prediction
CN116628444A (zh) 一种基于改进元学习的水质预警方法
Shaikh et al. Wavelet decomposition impacts on traditional forecasting time series models
Zhang et al. Flexible and efficient spatial extremes emulation via variational autoencoders
Li et al. An innovated integrated model using singular spectrum analysis and support vector regression optimized by intelligent algorithm for rainfall forecasting
Lim et al. Long-term Time Series Forecasting based on Decomposition and Neural Ordinary Differential Equations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination