CN112580848A

CN112580848A - 一种基于pt-lstm的时间序列预测***与方法

Info

Publication number: CN112580848A
Application number: CN202011216135.3A
Authority: CN
Inventors: 于勇强; 郎波; 刘宏宇; 夏欣怡
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-03-30

Abstract

本发明提供了一种基于PT‑LSTM的时间序列预测***与方法，具体包括：基于位置编码获得时间序列数据的表示，不仅能够显性地将时间信息添加到输入数据中，而且还能减弱滑动窗口对划分原始数据过程的干扰；提出了一种能够利用时间序列特性的方法，即位置编码与时间门拓展的LSTM(Position encoding and Time gate LSTM),简记为PT‑LSTM。该方法有两方面的创新，一方面是输入数据表示，以本发明所提出的时间序列数据表示为输入，另一个方面是模型结构优化，设计了一种新的网络结构即T‑LSTM，在T‑LSTM中增加了专门设计的时间门，该时间门主要由时间属性控制，在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段均有部分控制作用；设计了基于PT‑LSTM的预测框架。

Description

一种基于PT-LSTM的时间序列预测***与方法

技术领域

本发明涉及时间序列预测、深度学习领域，涉及一种基于PT-LSTM的时间序列预测系统与方法，用于解决循环神经网络无法利用时间序列特性的问题。

背景技术

时间序列预测在许多领域都有重要的应用，近些年来，随着深度学***均自回归模型(ARIMA)，RNN具有强大的非线性拟合能力，能够很好地捕捉序列间的相关性，适用于各种类型的时间序列。长短期记忆网络(LSTM)和门控循环单元(GRU)是两种常见的RNN结构。根据特征提取阶段对时间属性的不同处理方式，可以将已有工作分为两大类。一类是仅仅处理观测值，而不考虑时间属性，例如对观测值进行小波去噪、经验模态分解(EMD)或STL分解、自编码器等处理；另一类是同时处理观测值和时间属性，但对时间属性的利用很有限，常常是将时间属性作为另一个普通的特征，然后与观测值进行拼接，之后将拼接结果作为输入数据。

无论是否使用了时间属性，已有工作中的预测部分几乎全都由RNN模型完成。但RNN 是依据序列值进行建模的，几乎没有针对时间信息进行特定处理。事实上，受人们作息的影响，许多实际的时间序列与时间有着密切的关系，且时间通常在预测问题中起着指导性作用，例如网络流量、交通流量、用电量。此外，实际时间序列数据的长度往往过长，无法直接输入到RNN中，需要通过滑动窗口将时间序列分割为多个子序列。但不同时间对序列值的影响是不同的，这就使得不同窗口内的序列值差异较大，可能会导致模型实际学到的内容与期望的内容不一致。

位置编码是自然语言处理中给单词添加位置信息的一种有效方式。常见的做法是先将单词位置通过位置编码得到其向量表示，然后与对应位置上单词的嵌入向量表示逐元素相加，最后将相加结果作为输入数据。

发明内容

本发明技术解决问题：克服现有技术的不足，提供了一种基于PT-LSTM的时间序列预测***与方法，该***充分利用了时间序列的特性，即许多时间序列与时间有密切关系，且时间通常在预测问题中起着指导性作用。具体包括：基于位置编码获得时间序列数据的表示，这样不仅能够显性地将时间信息添加到输入数据中，而且还能减弱滑动窗口对划分原始数据过程的干扰；提出了一种能够利用时间序列特性的方法，即位置编码与时间门拓展的 LSTM(Position encoding and Time gate LSTM),简记为PT-LSTM。该方法有两方面的创新，一方面是输入数据表示，以本发明所提出的时间序列数据表示为输入，另一个方面是模型结构优化，设计了一种新的网络结构即T-LSTM，在T-LSTM中增加了专门设计的时间门，该时间门主要由时间属性控制，在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段均有部分控制作用；设计了基于PT-LSTM的预测框架。

本发明提出的一种基于PT-LSTM的时间序列预测***与方法，将位置编码引入到时间序列中，专门设计了一种门控单元即时间门，该时间门主要由时间属性控制，基于时间门设计一种新的网络结构即T-LSTM。本发明的创新包括：

(1)基于位置编码获得时间序列数据的表示。

基于位置编码获得时间序列数据的表示有两个好处，首先是将时间信息显性地添加到输入数据中，其次是减弱了滑动窗口对子序列含义的干扰，因为这种方法将引起这种干扰的根源即时间整合到了序列中，具体而言，本发明将时间属性作为序列值的位置，基于位置编码完成整合过程。

(2)提出了能够利用时间序列特性的方法即PT-LSTM。

PT-LSTM方法有两个创新点，一个是输入数据表示，这部分是基于位置编码完成的，另一个是模型结构优化，提出了时间门拓展的LSTM，简记为T-LSTM。在T-LSTM中增加了专门设计的时间门，该时间门主要由时间属性控制，在模型获取输入数据阶段、更新内部状态阶段、输出最终结果阶段均有部分控制作用。

本发明首先通过滑动窗口将原始时间序列数据划分为多个子序列，划分过程会形成三类子序列，分别是过去观测值子序列、过去时刻子序列、未来观测值子序列。然后将过去观测值子序列和过去时刻子序列同时输入到PT-LSTM方法中，在该方法内部首先通过本发明所提出的时间序列数据表示获得输入数据的向量表示，然后将该向量表示和时间属性同时输入到T-LSTM模型中。通过计算T-LSTM的输出与归一化之后的未来观测值子序列之间的损失来更新模型参数。当模型训练完毕后，便可以使用预测样本进行预测了，此时将PT-LSTM 的输出进行反归一化之后便得到预测值。

本发明采用的技术方案为：一种基于PT-LSTM的时间序列预测***，包括：时间序列数据表示模块、模型设计模块和预测***构建模块。

时间序列数据表示模块：这部分的目的是获得输入数据的表示，采用基于位置编码的输入数据的表示的优点主要有两个。首先是将时间信息显性地添加到输入数据中，其次是减弱了滑动窗口对子序列含义的干扰，因为该表示将引起这种干扰的根源即时间整合到了序列中，具体而言，本发明将时间属性作为序列值的位置，基于位置编码完成整合过程。该过程如下：首先通过位置编码获得时间属性的向量表示，然后对观测值依次进行归一化和全连接层处理，并将结果作为观测值的向量表示，最后将两个向量逐元素相加的结果作为输入数据的表示。

模型设计模块：首先让观测值和时间属性经过时间序列数据表示模块，并将该模块的输出作为T-LSTM中输入门、遗忘门和输出门的输入，然后基于时间属性定义时间门，最后让时间门在模型获取输入数据阶段、更新内部状态阶段、输出最终结果阶段均有部分控制作用。

预测框架构建模块：预测框架包括三个模块，分别是序列预处理模块，位置编码模块以及模型训练模块，序列预处理模块根据预测任务将时间序列数据分为三类子序列，分别是过去观测值子序列、过去时刻子序列和未来观测值子序列。位置编码模块主要是通过位置编码获得过去时刻的向量表示。模型训练模块主要是训练PT-LSTM，训练期间，使用均方误差作为损失函数，该函数的一个输入是PT-LSTM的输出，即预测值，另一个输入是经过归一化的未来观测值，即真实值；使用小批次随机梯度下降法来更新模型参数，使用Adam优化器来优化网络从而最小化均方误差，当PT-LSTM训练完毕后，用于预测，在预测部分，将 PT-LSTM的输出进行反归一化之后的结果作为预测结果。

时间序列数据表示模块具体实现如下

(1)时间属性定义：时间序列数据中与时间相关的属性的子集。可用公式(1)表示，

式中tp_t为t时刻的时间属性，t_a表示数据中与时间相关的所有属性，t_e表示t_a的一个子集。定义中强调子集是因为本发明只关注可能会影响到观测值的那些属性。例如，按照小时采样的网络流量数据中的小时；

(2)针对时间属性进行位置编码，该过程由三个步骤组成，分别是预处理、全连接层和后处理。预处理的功能是对时间属性做一些必要的预处理，例如将用字符串表示的时间属性转换为数值，通过归一化来消除时间属性的单位差异。在实际情况下，由于不同的时间序列数据可能需要不同的预处理，所以本发明使用公式(2)来代表预处理内容，

ts_t＝r(tp_t) (2)

式中r为映射，ts_t为预处理后的时间属性。使用全连接层的原因有两个，首先是消除时间属性与观测值维度的不一致性，其次是使用神经网络来学习时间属性的向量表示。全连接层的输入是ts_t，我们将输出记为tv_t。后处理的目的是增加时间属性维度变换过程的非线性，使得维度变换的结果更好地与观测值序列进行融合。后处理的内容如公式(3)所示，

te_t＝d(tv_t) (3)

式中d为映射，te_t为时间属性的最终编码向量。

(3)在得到te_t后，我们还需要对观测值x_t做一些处理，处理内容包括归一化和全连接层，归一化公式如(4)所示，

xz_t＝scale(x_t) (4)

公式(4)中scale()表示最大值-最小值归一化，可用公式(5)表示，

式中min()表示输入向量v的最小值，max()表示输入向量v的最大值。然后将经过这些处理后的观测值记为z_t；

(4)将te_t与z_t逐元素相加的结果xe_t作为时间序列数据的表示。

模型设计模块的内容如图2所示，这种设计背后的考虑是时间在序列预测问题中经常提供指导信息，这种指导信息应该在模型获取外部数据、更新内部状态、输出最终结果等阶段均发挥作用。更进一步，这种指导信息应该起到补充作用，而不是替代作用。模型设计模块的具体实现如下：

(1)将观测值x_t和时间属性tp_t输入到时间序列数据表示模块，得到输入数据的表示xe_t，然后将xe_t和上一时刻的隐藏状态h_t-1一起作为输入门、遗忘门、输出门和候选状态的输入，具体如公式(6)～(9)所示，

i_t＝σ(W_ixe_t+U_ih_t-1+b_i) (6)

f_t＝σ(W_fxe_t+U_fh_t-1+b_f) (7)

o_t＝σ(W_oxe_t+U_oh_t-1+b_o) (8)

式中σ为sigmoid函数；i_t∈[0，1]^D为输入门、f_t∈[0，1]^D为遗忘门、o_t∈[0，1]^D为输出门，

为候选状态，D为向量的维度，h_t-1为t一1时刻的隐藏状态，其中U_g、W_g、b_g均为学习参数，.g∈{f，i，o，c}。这种做法不仅能使得每个输入数据都带有时间信息，而且还能减弱滑动窗口对子序列含义的干扰。

(2)利用公式(10)计算时间门t_t，

t_t＝σ(W_mtp_t+U_mh_t-1+b_m) (10)

式中tp_t表示t时刻的时间属性，W_m、U_m、b_m均可学习参数；

(3)t_t在模型内部所起的作用是通过公式(10)和(11)实现的，

h_t＝o_t⊙tanh(c_t)+t_t⊙tanh(c_t) (12)

式中c_t为t时刻的内部状态，

为t时刻的候选状态。具体而言，t_t主要有三方面的作用。首先是t_t对t时刻输入信息的控制，体现为在公式(11)中，候选状态不仅要通过输入门的过滤，而且要通过t_t的过滤；其次t_t有助于内部状态存储时间属性，体现为时间属性首先存储在t_t中，然后转移到c_t中；最后t_t对t时刻的输出信息也有控制，体现为在公式(12)中，最终的输出为两部分的相加，其中第一部分受输出门的控制，第二部分受t_t的控制。公式(12)受RetNet的启发，旨在于发挥时间的补充作用。

框架构建模块具体实现如下。

(1)基于滑动窗口将原始时间序列数据划分为三类子序列，内容分别是过去观测值、过去时刻、未来观测值。划分过程主要基于滑动窗口，窗口长度即为子序列长度，窗口通过滑动来形成新的子序列。三种类型的窗口同步滑动，滑动步长为1。划分过程结束会形成许多样本，每个样本由三个子序列组成，分别是过去观测值子序列、过去时刻子序列、未来观测值子序列；

(2)对过去时刻子序列依次进行预处理、全连接层和后处理，并将结果作为过去时刻子序列的向量表示te_t，其中预处理内容参见公式(2)，后处理内容参见公式(3)；

(3)首先对过去观测值子序列进行归一化和全连接层处理，并将结果作为其向量表示，然后将该向量与te_t逐元素相加，并将结果作为时间序列数据的表示xe_t，接着将xe_t作为输入门、遗忘门、输出门和候选状态的输入，tp_t作为时间门的输入。在模型训练期间，目标的预测值是T-LSTM的输出，目标的真实值是经过归一化处理的未来观测值子序列。使用均方误差计算预测值与真实值之间的损失，最后使用梯度下降法更新模型参数，优化器使用 Adam。

本发明的另一方面，提出一种基于PT-LSTM的时间序列预测方法，包括如下步骤：

步骤1、时间序列数据表示：用于对时间序列数据进行向量表示，首先基于位置编码获得时间属性的向量表示，然后对观测值依次进行归一化和全连接层处理，并将结果作为观测值的向量表示，最后将两个向量逐元素相加的结果作为时间序列数据的表示；

步骤2、模型设计：利用时间序列特性的方法，即位置编码与时间门拓展的LSTM(Position encoding and Time gate LSTM)，简记为PT-LSTM，该方法在输入数据表示和模型结构优化两个方面均充分考虑了时间属性，具体的，PT-LSTM以时间序列数据表示为输入，同时设计了T-LSTM网络结构，T-LSTM中包括了本文专门设计的时间门，此时间门由时间属性控制，并在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段均有部分控制作用；

步骤3、预测框架构建：预测框架构建包括序列预处理，位置编码以及模型训练块，序列预处理根据预测任务将时间序列数据分为三类子序列，分别是过去观测值子序列、过去时刻子序列和未来观测值子序列，位置编码通过位置编码获得过去时刻的向量表示，模型训练用于训练PT-LSTM，训练期间，使用均方误差作为损失函数，损失函数的一个输入是PT-LSTM的输出，即预测值，另一个输入是经过归一化的未来观测值，即真实值；使用小批次随机梯度下降法来更新模型参数，使用Adam优化器来优化网络从而最小化均方误差，当PT-LSTM训练完毕后，用于预测，在预测部分，将PT-LSTM的输出进行反归一化之后的结果作为预测结果。

有益效果：

本发明与现有方法相比的主要优点在于：提出了基于位置编码获得时间序列数据表示的方法，该方法不仅能将时间信息显性地添加到输入数据中，而且还能减弱滑动窗口对子序列含义的干扰；提出了能够利用时间序列特性的方法即PT-LSTM,该方法创新的地方有两处，第一处是以本发明所提出的时间序列数据表示为输入。第二处是设计了一种新的网络结构即 T-LSTM，在T-LSTM中增加了专门设计的时间门，该时间门主要由时间属性控制，在模型获取输入数据阶段、更新内部状态阶段、输出最终结果阶段均有部分控制作用。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

在附图中：

图1示出了本发明的时间序列预测框架；

图2示出了本发明所提出的PT-LSTM方法的结构；

图3示出了本发明所提出的时间序列数据表示方法。

具体实施方式

下面参考附图，对本发明的实施例进行详细的说明。

首先对本发明的方法全过程进行说明。

图1示出了本发明示例的基本框架图，该框架由序列预处理、位置编码和模型训练三部分组成。其中序列预处理部分的功能是根据预测任务将时间序列数据分为三类子序列。位置编码部分主要是通过位置编码获得过去时刻的向量表示。模型训练部分主要是训练PT-LSTM。当模型训练完毕后，就可以直接进行预测了，预测时PT-LSTM输出的反归一化结果就是预测值。本发明的***如下：包括：时间序列数据表示模块、模型设计模块和预测框架构建模块；

时间序列数据表示模块如图3所示，具体实现如下。

(1)确定与任务相关的时间属性，时间属性的定义如公式(1)所示，

式中tp_t为t时刻的时间属性，t_a表示数据中与时间相关的所有属性，t_e表示t_a的一个子集。时间属性需要在数据中周期性出现，例如，按照小时采样的网络流量数据中的小时。当有多个周期性出现的时间分量时，这些分量组成了时间属性向量的内容，例如(小时，分钟)；

(2)针对时间属性进行位置编码，该过程由三个步骤组成，分别是预处理、全连接层和后处理，预处理内容由公式(2)表示，

ts_t＝r(tp_t) (2)

式中r为映射，ts_t为预处理后的时间属性。当需要对tp_t进行归一化时，r的表达式为公式(4)。得到ts_t后将其输入到神经网络的全连接层中，全连接层可以使用Pytorch框架中的 torch.nn.Linear方法实现，其输出记为tv_t。后处理的内容如公式(3)所示，

te_t＝d(tv_t) (3)

式中d为映射，te_t为时间属性的最终编码向量，映射d的可选表达式为sin(x)，tanh(x)， sigmoid(x)等；

(3)首先使用公式(4)对观测值x_t进行归一化操作，

xz_t＝scale(x_t) (4)

式中min()表示输入向量v的最小值，max()表示输入向量v的最大值。全连接层同样使用Pytorch框架中的torch.nn.Linear方法实现。然后将经过这些处理后的观测值记为z_t；

模型设计模块的内容如图2所示。模型使用Pytorch框架实现，具体流程如下。

(1)将xe_t和上一时刻的隐藏状态h_t-1一起作为输入门、遗忘门、输出门和候选状态的输入，具体如公式(6)～(9)所示，

i_t＝σ(W_ixe_t+U_ih_t-1+b_i) (6)

f_t＝σ(W_fxe_t+U_fh_t-1+b_f) (7)

o_t＝σ(W_oxe_t+U_oh_t-1+b_o) (8)

为候选状态，D为向量的维度，h_t-1为t-1时刻的隐藏状态，其中U_g、W_g、b_g均为学习参数，.g∈{f，i，o，c}；

(2)利用公式(10)计算时间门t_t，

t_t＝σ(W_mt_pt+U_mh_t-1+b_m) (10)

式中tp_t表示t时刻的时间属性，W_m、U_m、b_m均可学习参数；

(3)t_t所发挥的作用是通过公式(11)和(12)实现的，

h_t＝o_t⊙tanh(c_t)+t_t⊙tanh(c_t) (12)

式中c_t为t时刻的内部状态，

为t时刻的候选状态；

预测框架构建模块的过程如图1所示，具体实现如下。

(3)首先对过去观测值子序列进行归一化和全连接层处理，并将结果作为其向量表示，然后将该向量与te_t逐元素相加，并将结果作为时间序列数据的表示xe_t，接着将xe_t作为输入门、遗忘门、输出门和候选状态的输入，tp_t作为时间门的输入。在模型训练期间，目标的预测值是T-LSTM的输出，目标的真实值是经过归一化处理的未来观测值子序列。使用均方误差计算预测值与真实值之间的损失，最后使用梯度下降法更新模型参数，优化器使用 Adam。。

综上所述，本发明提供的一种基于PT-LSTM的时间序列预测***与方法，基于位置编码获得时间序列数据的表示，提出了能够利用时间序列特性的方法即PT-LSTM,该方法创新的地方有两处，第一处是以本发明所提出的时间序列数据表示和时间属性为输入。第二处是设计了一种新的网络结构即T-LSTM，在T-LSTM中增加了专门设计的时间门，该时间门主要由时间属性控制，在模型获取输入数据阶段、更新内部状态阶段、输出最终结果阶段均有部分控制作用

通过以上的实施方式的描述，本领域的普通技术人员可显而易见地得出其他优点和修改。以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的保护范围应由权利要求限定。

Claims

1.一种基于PT-LSTM的时间序列预测***，其特征在于，包括：时间序列数据表示模块、模型设计模块和预测框架构建模块；

时间序列数据表示模块：用于对时间序列数据进行向量表示，首先基于位置编码获得时间属性的向量表示，然后对观测值依次进行归一化和全连接层处理，并将结果作为观测值的向量表示，最后将两个向量逐元素相加的结果作为时间序列数据的表示；

模型设计模块：利用时间序列特性的方法，即位置编码与时间门拓展的LSTM(Positionencoding and Time gate LSTM)，简记为PT-LSTM，该方法在输入数据表示和模型结构优化两个方面均充分考虑了时间属性，具体的，PT-LSTM以时间序列数据表示为输入，同时设计了T-LSTM网络结构，T-LSTM中包括有专门设计的时间门，此时间门由时间属性控制，并在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段均有部分控制作用；

预测框架构建模块：预测框架包括三个模块，分别是序列预处理模块，位置编码模块以及模型训练模块，序列预处理模块根据预测任务将时间序列数据分为三类子序列，分别是过去观测值子序列、过去时刻子序列和未来观测值子序列，位置编码模块主要是通过位置编码获得过去时刻的向量表示，模型训练模块主要是训练PT-LSTM，训练期间，使用均方误差作为损失函数，损失函数的一个输入是PT-LSTM的输出，即预测值，另一个输入是经过归一化的未来观测值，即真实值；使用小批次随机梯度下降法来更新模型参数，使用Adam优化器来优化网络从而最小化均方误差，当PT-LSTM训练完毕后，用于预测，在预测时，将PT-LSTM的输出进行反归一化之后的结果作为预测结果。

2.根据权利要求1所述一种PT-LSTM的时间序列预测***，其特征在于：时间序列数据表示模块，具体实现如下：

(1)时间属性定义是时间序列数据中与时间相关的属性的子集，用公式(1)表示，

式中tp_t为t时刻的时间属性，t_a表示数据中与时间相关的所有属性，t_e表示t_a的一个子集；

(2)针对t时刻的时间属性进行位置编码，该过程由三个步骤组成，分别是预处理、全连接层和后处理，预处理内容由公式(2)表示，

ts_t＝r(tp_t) (2)

式中r为映射，tp_t表示t时刻的时间属性，ts_t为预处理后的时间属性；得到ts_t后将其输入到神经网络的全连接层中并将输出记为tv_t；后处理的内容如公式(3)所示，

te_t＝d(tv_t) (3)

式中d为映射，te_t为时间属性的最终编码向量；

(3)首先使用公式(4)对观测值x_t进行归一化操作，

xz_t＝scale(x_t) (4)

式中min()表示输入向量v的最小值，max()表示输入向量v的最大值，然后将xz_t作为全连接神经网络的输入，并将该网络的输出记为z_t；

3.根据权利要求1所述一种PT-LSTM的时间序列预测***，其特征在于：模型设计模块的具体实现如下：

i_t＝σ(W_ixe_t+U_ih_t-1+b_i) (6)

f_t＝σ(W_fxe_t+U_fh_t-1+b_f) (7)

o_t＝σ(W_oxe_t+U_oh_t-1+b_o) (8)

为候选状态，D为向量的维度，h_t-1为t-1时刻的隐藏状态，其中U_g、W_g、b_g均为学习参数，g∈{f，i，o，c}；

(2)利用公式(10)计算时间门t_t，

t_t＝σ(W_mtp_t+U_mh_t-1+b_m) (10)

式中tp_t表示t时刻的时间属性，W_m、U_m、b_m均为学习参数；

(3)t_t所发挥的作用是通过公式(11)和(12)实现的，

h_t＝o_t⊙tanh(c_t)+t_t⊙tanh(c_t) (12)

式中c_t为t时刻的内部状态，

为t时刻的候选状态，h_t为t时刻的隐藏状态，⊙表示逐元素相乘。

4.根据权利要求1所述一种基于PT-LSTM的时间序列预测***，其特征在于：预测框架构建模块的具体实现如下：

(1)基于滑动窗口将原始时间序列数据划分为三类子序列，内容分别是过去观测值、过去时刻、未来观测值。划分过程主要基于滑动窗口，窗口长度即为子序列长度，窗口通过滑动来形成新的子序列。三种类型的窗口同步滑动，滑动步长为1，划分过程结束会形成许多样本，每个样本由三个子序列组成，分别是过去观测值子序列、过去时刻子序列、未来观测值子序列；

(3)首先对过去观测值子序列进行归一化和全连接层处理，并将结果作为其向量表示z_t，然后将该向量与te_t逐元素相加，并将结果作为时间序列数据的表示xe_t，接着将xe_t作为输入门、遗忘门、输出门和候选状态的输入，tp_t作为时间门的输入，在模型训练期间，目标的预测值是T-LSTM的输出，目标的真实值是经过归一化处理的未来观测值子序列，使用均方误差计算预测值与真实值之间的损失，最后使用梯度下降法更新模型参数，优化器使用Adam。

5.一种基于PT-LSTM的时间序列预测方法，其特征在于，包括如下步骤：

步骤2、模型设计：利用时间序列特性的方法，即位置编码与时间门拓展的LSTM(Position encoding and Time gate LSTM)，简记为PT-LSTM，该方法在输入数据表示和模型结构优化两个方面均充分考虑了时间属性。具体的，PT-LSTM以时间序列数据表示为输入，同时设计T-LSTM网络结构，T-LSTM中包括了专门设计的时间门，此时间门由时间属性控制，并在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段均有部分控制作用；

步骤3、预测框架构建：预测框架构建包括序列预处理，位置编码以及模型训练块，序列预处理根据预测任务将时间序列数据分为三类子序列，分别是过去观测值子序列、过去时刻子序列和未来观测值子序列，位置编码通过位置编码获得过去时刻的向量表示，模型训练用于训练PT-LSTM，训练期间，使用均方误差作为损失函数，损失函数的一个输入是PT-LSTM的输出，即预测值，另一个输入是经过归一化的未来观测值，即真实值；使用小批次随机梯度下降法来更新模型参数，使用Adam优化器来优化网络从而最小化均方误差，当PT-LSTM训练完毕后，用于预测，在预测时，将PT-LSTM的输出进行反归一化之后的结果作为预测结果。