CN111260124A

CN111260124A - 一种基于注意力机制深度学习的混沌时间序列预测方法

Info

Publication number: CN111260124A
Application number: CN202010031956.3A
Authority: CN
Inventors: 孙媛媛; 王博林; 张书晨; 陈彦光
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-01-11
Filing date: 2020-01-11
Publication date: 2020-06-09

Abstract

本发明属于混沌***技术领域，一种基于注意力机制深度学习的混沌时间序列预测方法，包括以下步骤：(1)构建混沌时间序列数据集，(2)对混沌时间序列进行相空间重构，(3)使用LSTM神经网络模型训练混沌时间序列数据，(4)构建基于预测的注意力机制模型，(5)构建离线训练模型，(6)在线预测。本发明一种基于注意力机制深度学习的混沌时间序列预测方法，模型结构清晰，具有参考价值，可以应用到混沌***的例如金融市场预测或能源预测等方面。

Description

一种基于注意力机制深度学习的混沌时间序列预测方法

技术领域

本发明涉及一种基于注意力机制深度学习的混沌时间序列预测方法，属于混沌***技术领域。

背景技术

混沌***是一种从无序运动中产生有序高维复杂的非线性动力***。混沌的离散情况常表现为混沌时间序列，混沌时间序列是由混沌***生成的具有混沌特性的时间序列，混沌时间序列中蕴涵着***非常丰富的动力学信息，混沌时间序列是混沌理论通向现实世界的一个桥梁，是混沌***的一个重要研究领域。根据Takens相空间延迟重构定理，混沌***的内在规律可以通过混沌时间序列进行重构预测。如何选择或构造预测模型是混沌时间序列预测中的关键问题之一。

近年来，提出了各种混沌时间序列预测模型。例如Volterra滤波器，径向基函数网络，支持向量机，模糊模型等。在这些模型中，神经网络(NN)由于其强大的学习能力和良好的泛化能力成为最广泛使用的模型，尤其是在深度学习出现之后。神经网络在混沌领域中的大多数应用都是基于前馈神经网络，例如径向基函数网络和反向传播网络。尽管如此，传统的基于梯度下降的神经网络学习算法在混沌时间序列预测应用中仍存在一些明显的弊端和局限性，包括：(1)这些模型收敛速度慢，趋于陷入局部最优，影响了预测精度和广泛的应用。(2)由于是静态网络，这些模型在识别混沌动力学***方面有局限性。(3)对于这些网络，确定合适数量的隐藏节点也是一个挑战。目前虽已涌现出许多基于深度学习的混沌时间序列预测方法，尤其是长短时记忆神经网络LSTM，尽管LSTM可以捕获长期依赖关系并弥补递归神经网络RNN训练过程中梯度消失和梯度***的问题，但其对每个隐藏层滑动窗口步长的关注度是一致的，这可能会引起分散注意力的问题，影响混沌时间序列的预测效果。

发明内容

为了克服现有技术中存在的不足，本发明目的是提供一种基于注意力机制深度学习的混沌时间序列预测方法。该方法基于深度神经网络以及注意力机制对多元混沌时间序列进行预测。

为了实现上述发明目的，解决已有技术中所存在的问题，本发明采取的技术方案是：一种基于注意力机制深度学习的混沌时间序列预测方法，包括以下步骤：

步骤1、构建混沌时间序列数据集，利用Lorenz***和Rossler***生成混沌时间序列数据，具体包括以下子步骤：

(a)Lorenz***方程通过公式(1)进行描述，

式中，

和

表示对自变量时间t求导数，a，b，c是Lorenz***参数常量，设置初始值为a＝16,b＝4,c＝45.92，x，y，z表示Lorenz***的状态，设置初始值为x(0)＝y(0)＝z(0)＝1.0，用四阶Runge-Kutta法产生以Δt为时间间隔的混沌时间序列；

(b)为使Lorenz***完全进入混沌状态，丢弃初始瞬态前1000个点；

(c)通过简单的交叉验证生成训练集和测试集，获得具有混沌特性的时间序列；

(d)Rossler***方程通过公式(2)进行描述：

式中，

和

表示对自变量时间t求导数，x，y，z表示Rossler***的状态，设置初始值为x(0)＝y(0)＝z(0)＝1.0，a，b，c是Rossler***参数常量，设置初始值为a＝0.2，b＝0.2，c＝5，用四阶Runge-Kutta法产生以Δt为时间间隔的混沌时间序列；

(e)舍弃掉瞬态，将前20000个点划为训练集,接着5000个点划为测试集；

步骤2、对混沌时间序列进行相空间重构，根据Takens定理进行相空间重构，对于d′维混沌吸引子的一维标量时间序列{x(i):1≤i≤n}都可以在拓扑结构不变情况下找到一个d维嵌入相空间，通过一维的混沌时间序列{x(i)}的不同延迟时间τ来构建d维相空间状态向量，d维相空间状态向量通过公式(3)进行描述：

X_i＝(x(i),…,x(i+(d-1)τ),i＝1,2,…,n-(d-1)τ (3)

式中，X_i表示相空间状态向量，x(i)表示标量时间序列，d表示嵌入维数，τ表示延迟时间，Takens定理证明找到合适的嵌入尺寸，如果延迟坐标的维数是动态***的维数，则在该嵌入维数空间中恢复吸引子，吸引子在嵌入维空间中恢复，在重构空间的轨迹中，动力***保持微分同胚性，设置嵌入维数d＝5，延迟时间τ＝1；

步骤3、使用LSTM神经网络模型训练混沌时间序列数据，LSTM神经网络模型将输入的历史时间序列数据编码成隐藏状态和细胞状态，通过门的设计, LSTM神经网络模型自适应地控制积累信息的强弱，其中每个细胞计算单元的计算过程通过公式(4)-(9)进行描述：

i_t＝σ(W_i[h_t-1,x_t-1]+b_i) (4)

f_t＝σ(W_f[h_t-1,x_t-1]+b_f) (5)

o_t＝σ(W_o[h_t-1,x_t-1]+b_o) (8)

h_t＝o_t tanh(C_t) (9)

式中，i_t，f_t,o_t分别表示输入门、遗忘门和输出门，C_t表示细胞状态，W_i,W_f,W_o,W_C分别表示控制每个门输出的权值矩阵，b_i,b_f,b_C,b_o分别表示i_t,f_t,C_t,和o_t的偏置量， C_t-1表示上一层的细胞，x_t-1表示当前的输入，h_t-1表示上层的隐藏层输出，σ为sigmoid函数，tanh为激活函数，h表示隐层输出；

步骤4、构建基于预测的注意力机制模型，随着输入混沌时间序列长度的增加，训练模型的隐藏层信息会丢失或者引入噪声干扰，预测网络的性能会迅速下降，这里使用注意力机制在所有时间步长上自适应选择相关的隐藏状态信息，具体地，基于先前的预测网络LSTM单元隐藏状态来计算时间t处每个隐藏状态的关注权重通过公式(10)-(12)进行描述：

式中，

表示

在进行tanh变换后得到的隐层状态，

表示任一时刻的LSTM 神经网络模型的隐层状态，W_w表示权重向量，b_w表示偏置向量，V表示投影向量， tanh是激活函数，

为注意力权重表示第i个隐藏状态对于预测的重要性，c_t表示在注意力机制作用下的前后关系向量，是所有隐藏状态{h₁,h₂,…,h_T}的加权和，设置LSTM神经网络模型隐层数T＝11；

步骤5、构建离线训练模型，训练模型使用端到端的方式通过时间反向传播算法BPTT进行训练，损失函数使用均方根误差RMSE函数,设置学习率lr＝0.01，选择Adam算法作为优化算法，训练优化的目标是使模型输出的

逼近真实观测值(y₁,y₂,…,y_n)，均方根误差的计算，通过公式(13)进行描述：

式中，N为样本总数，t表示任一时刻样本，y_t为第i个样本的预测值，

为第i个样本的实际值；

步骤6、在线预测，具体包括以下子步骤：

(a)、将步骤1得到的测试混沌时间序列数据，通过步骤2相空间重构对数据进行处理；

(b)、通过步骤3使用LSTM神经网络模型对混沌时间序列进行预测，利用步骤4构建模型隐藏层的注意力机制模型；

(c)、在步骤5训练模型中优化好参数后,将所学得的参数迁移至预测模型，当预测一段长度为T的时间序列(x₀,x₁,…,x_T-1)时，使用预测模型做间接多步预测, 迭代地将模型预测的输出作为下一步模型的输入,最终得到长度为P预测序列

本发明有益效果是：一种基于注意力机制深度学习的混沌时间序列预测方法，包括以下步骤：(1)构建混沌时间序列数据集，(2)对混沌时间序列进行相空间重构，(3)使用LSTM神经网络模型训练混沌时间序列数据，(4)构建基于预测的注意力机制模型，(5)构建离线训练模型，(6)在线预测。与已有技术相比，本发明一种基于深度学习的混沌时间序列预测方法，模型结构清晰，具有参考价值，可以应用到混沌***的例如金融市场预测或能源预测等方面。

附图说明

图1是本发明方法步骤流程图。

图2是本发明中的深度神经网络模型图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于注意力机制深度学习的混沌时间序列预测方法，包括以下步骤：

(a)Lorenz***方程通过公式(1)进行描述，

式中，

和

(b)为使Lorenz***完全进入混沌状态，丢弃初始瞬态前1000个点；

(d)Rossler***方程通过公式(2)进行描述：

式中，

和

表示对自变量时间t求导数，x，y，z表示Rossler***的状态，设置初始值为x(0)＝y(0)＝z(0)＝1.0，，a，b，c是Rossler***参数常量，设置初始值为a＝0.2,b＝0.2,c＝5，用四阶Runge-Kutta法产生以Δt为时间间隔的混沌时间序列；

X_i＝(x(i),…,x(i+(d-1)τ),i＝1,2,…,n-(d-1)τ (3)

i_t＝σ(W_i[h_t-1,x_t-1]+b_i) (4)

f_t＝σ(W_f[h_t-1,x_t-1]+b_f) (5)

o_t＝σ(W_o[h_t-1,x_t-1]+b_o) (8)

h_t＝o_t tanh(C_t) (9)

式中，i_t，f_t,o_t分别表示输入门、遗忘门和输出门，C_t表示细胞状态，W_i,W_f,W_o,W_C分别表示控制每个门输出的权值矩阵，b_i,b_f,b_C,b_o分别表示i_t,f_t,C_t,和o_t的偏置量， C_t-1表示上一层的细胞，x_t-1表示当前的输入，h_t-1表示上层的隐藏层输出，σ为 sigmoid函数，tanh为激活函数，h表示隐层输出；

式中，

表示

在进行tanh变换后得到的隐层状态，

表示任一时刻的LSTM 神经网络模型的隐层状态，W_w表示权重向量，b_w表示偏置向量，V表示投影向量，tanh是激活函数，

为第i个样本的实际值；

步骤6、在线预测，具体包括以下子步骤：

Claims

1.一种基于注意力机制深度学习的混沌时间序列预测方法，其特征在于包括以下步骤：

(a)Lorenz***方程通过公式(1)进行描述，

式中，

和

(b)为使Lorenz***完全进入混沌状态，丢弃初始瞬态前1000个点；

(d)Rossler***方程通过公式(2)进行描述：

式中，

和

X_i＝(x(i),…,x(i+(d-1)τ),i＝1,2,…,n-(d-1)τ (3)

步骤3、使用LSTM神经网络模型训练混沌时间序列数据，LSTM神经网络模型将输入的历史时间序列数据编码成隐藏状态和细胞状态，通过门的设计,LSTM神经网络模型自适应地控制积累信息的强弱，其中每个细胞计算单元的计算过程通过公式(4)-(9)进行描述：

i_t＝σ(W_i[h_t-1,x_t-1]+b_i) (4)

f_t＝σ(W_f[h_t-1,x_t-1]+b_f) (5)

o_t＝σ(W_o[h_t-1,x_t-1]+b_o) (8)

h_t＝o_t tanh(C_t) (9)

式中，i_t，f_t,o_t分别表示输入门、遗忘门和输出门，C_t表示细胞状态，W_i,W_f,W_o,W_C分别表示控制每个门输出的权值矩阵，b_i,b_f,b_C,b_o分别表示i_t,f_t,C_t,和o_t的偏置量，C_t-1表示上一层的细胞，x_t-1表示当前的输入，h_t-1表示上层的隐藏层输出，σ为sigmoid函数，tanh为激活函数，h表示隐层输出；

式中，

表示

在进行tanh变换后得到的隐层状态，

表示任一时刻的LSTM神经网络模型的隐层状态，W_w表示权重向量，b_w表示偏置向量，V表示投影向量，tanh是激活函数，α_t ⁱ为注意力权重表示第i个隐藏状态对于预测的重要性，c_t表示在注意力机制作用下的前后关系向量，是所有隐藏状态{h₁,h₂,…,h_T}的加权和，设置LSTM神经网络模型隐层数T＝11；

步骤5、构建离线训练模型：训练模型使用端到端的方式通过时间反向传播算法BPTT进行训练，损失函数使用均方根误差RMSE函数,设置学习率lr＝0.01，选择Adam算法作为优化算法，训练优化的目标是使模型输出的

为第i个样本的实际值；

步骤6、在线预测，具体包括以下子步骤：

(c)、在步骤5训练模型中优化好参数后,将所学得的参数迁移至预测模型，当预测一段长度为T的时间序列(x₀,x₁,…,x_T-1)时，使用预测模型做间接多步预测,迭代地将模型预测的输出作为下一步模型的输入,最终得到长度为P预测序列