CN112580848A - 一种基于pt-lstm的时间序列预测***与方法 - Google Patents
一种基于pt-lstm的时间序列预测***与方法 Download PDFInfo
- Publication number
- CN112580848A CN112580848A CN202011216135.3A CN202011216135A CN112580848A CN 112580848 A CN112580848 A CN 112580848A CN 202011216135 A CN202011216135 A CN 202011216135A CN 112580848 A CN112580848 A CN 112580848A
- Authority
- CN
- China
- Prior art keywords
- time
- lstm
- gate
- input
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000006870 function Effects 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 27
- 238000007781 pre-processing Methods 0.000 claims description 26
- 238000010606 normalization Methods 0.000 claims description 21
- 238000013461 design Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000012805 post-processing Methods 0.000 claims description 13
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000036962 time dependent Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 7
- 230000010354 integration Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 101100129336 Dictyostelium discoideum malA gene Proteins 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- LKJPSUCKSLORMF-UHFFFAOYSA-N Monolinuron Chemical compound CON(C)C(=O)NC1=CC=C(Cl)C=C1 LKJPSUCKSLORMF-UHFFFAOYSA-N 0.000 description 1
- 101100190460 Shigella flexneri pic gene Proteins 0.000 description 1
- 241001591005 Siga Species 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 101150086151 hrdB gene Proteins 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 101150102864 rpoD gene Proteins 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 101150117326 sigA gene Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于PT‑LSTM的时间序列预测***与方法,具体包括:基于位置编码获得时间序列数据的表示,不仅能够显性地将时间信息添加到输入数据中,而且还能减弱滑动窗口对划分原始数据过程的干扰;提出了一种能够利用时间序列特性的方法,即位置编码与时间门拓展的LSTM(Position encoding and Time gate LSTM),简记为PT‑LSTM。该方法有两方面的创新,一方面是输入数据表示,以本发明所提出的时间序列数据表示为输入,另一个方面是模型结构优化,设计了一种新的网络结构即T‑LSTM,在T‑LSTM中增加了专门设计的时间门,该时间门主要由时间属性控制,在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段均有部分控制作用;设计了基于PT‑LSTM的预测框架。
Description
技术领域
本发明涉及时间序列预测、深度学习领域,涉及一种基于PT-LSTM的时间序列预测系 统与方法,用于解决循环神经网络无法利用时间序列特性的问题。
背景技术
时间序列预测在许多领域都有重要的应用,近些年来,随着深度学***均自回归模型(ARIMA),RNN具有强大的非线性拟合能力,能 够很好地捕捉序列间的相关性,适用于各种类型的时间序列。长短期记忆网络(LSTM)和门 控循环单元(GRU)是两种常见的RNN结构。根据特征提取阶段对时间属性的不同处理方式, 可以将已有工作分为两大类。一类是仅仅处理观测值,而不考虑时间属性,例如对观测值进 行小波去噪、经验模态分解(EMD)或STL分解、自编码器等处理;另一类是同时处理观测值 和时间属性,但对时间属性的利用很有限,常常是将时间属性作为另一个普通的特征,然后 与观测值进行拼接,之后将拼接结果作为输入数据。
无论是否使用了时间属性,已有工作中的预测部分几乎全都由RNN模型完成。但RNN 是依据序列值进行建模的,几乎没有针对时间信息进行特定处理。事实上,受人们作息的影 响,许多实际的时间序列与时间有着密切的关系,且时间通常在预测问题中起着指导性作用, 例如网络流量、交通流量、用电量。此外,实际时间序列数据的长度往往过长,无法直接输 入到RNN中,需要通过滑动窗口将时间序列分割为多个子序列。但不同时间对序列值的影 响是不同的,这就使得不同窗口内的序列值差异较大,可能会导致模型实际学到的内容与期 望的内容不一致。
位置编码是自然语言处理中给单词添加位置信息的一种有效方式。常见的做法是先将单 词位置通过位置编码得到其向量表示,然后与对应位置上单词的嵌入向量表示逐元素相加, 最后将相加结果作为输入数据。
发明内容
本发明技术解决问题:克服现有技术的不足,提供了一种基于PT-LSTM的时间序列预 测***与方法,该***充分利用了时间序列的特性,即许多时间序列与时间有密切关系,且 时间通常在预测问题中起着指导性作用。具体包括:基于位置编码获得时间序列数据的表示, 这样不仅能够显性地将时间信息添加到输入数据中,而且还能减弱滑动窗口对划分原始数据 过程的干扰;提出了一种能够利用时间序列特性的方法,即位置编码与时间门拓展的 LSTM(Position encoding and Time gate LSTM),简记为PT-LSTM。该方法有两方面的创新, 一方面是输入数据表示,以本发明所提出的时间序列数据表示为输入,另一个方面是模型结 构优化,设计了一种新的网络结构即T-LSTM,在T-LSTM中增加了专门设计的时间门,该 时间门主要由时间属性控制,在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段 均有部分控制作用;设计了基于PT-LSTM的预测框架。
本发明提出的一种基于PT-LSTM的时间序列预测***与方法,将位置编码引入到时间 序列中,专门设计了一种门控单元即时间门,该时间门主要由时间属性控制,基于时间门设 计一种新的网络结构即T-LSTM。本发明的创新包括:
(1)基于位置编码获得时间序列数据的表示。
基于位置编码获得时间序列数据的表示有两个好处,首先是将时间信息显性地添加到输 入数据中,其次是减弱了滑动窗口对子序列含义的干扰,因为这种方法将引起这种干扰的根 源即时间整合到了序列中,具体而言,本发明将时间属性作为序列值的位置,基于位置编码 完成整合过程。
(2)提出了能够利用时间序列特性的方法即PT-LSTM。
PT-LSTM方法有两个创新点,一个是输入数据表示,这部分是基于位置编码完成的, 另一个是模型结构优化,提出了时间门拓展的LSTM,简记为T-LSTM。在T-LSTM中增加了专门设计的时间门,该时间门主要由时间属性控制,在模型获取输入数据阶段、更新内部状态阶段、输出最终结果阶段均有部分控制作用。
本发明首先通过滑动窗口将原始时间序列数据划分为多个子序列,划分过程会形成三类 子序列,分别是过去观测值子序列、过去时刻子序列、未来观测值子序列。然后将过去观测 值子序列和过去时刻子序列同时输入到PT-LSTM方法中,在该方法内部首先通过本发明所 提出的时间序列数据表示获得输入数据的向量表示,然后将该向量表示和时间属性同时输入 到T-LSTM模型中。通过计算T-LSTM的输出与归一化之后的未来观测值子序列之间的损失 来更新模型参数。当模型训练完毕后,便可以使用预测样本进行预测了,此时将PT-LSTM 的输出进行反归一化之后便得到预测值。
本发明采用的技术方案为:一种基于PT-LSTM的时间序列预测***,包括:时间序列 数据表示模块、模型设计模块和预测***构建模块。
时间序列数据表示模块:这部分的目的是获得输入数据的表示,采用基于位置编码的输 入数据的表示的优点主要有两个。首先是将时间信息显性地添加到输入数据中,其次是减弱 了滑动窗口对子序列含义的干扰,因为该表示将引起这种干扰的根源即时间整合到了序列中, 具体而言,本发明将时间属性作为序列值的位置,基于位置编码完成整合过程。该过程如下: 首先通过位置编码获得时间属性的向量表示,然后对观测值依次进行归一化和全连接层处理, 并将结果作为观测值的向量表示,最后将两个向量逐元素相加的结果作为输入数据的表示。
模型设计模块:首先让观测值和时间属性经过时间序列数据表示模块,并将该模块的输 出作为T-LSTM中输入门、遗忘门和输出门的输入,然后基于时间属性定义时间门,最后让 时间门在模型获取输入数据阶段、更新内部状态阶段、输出最终结果阶段均有部分控制作用。
预测框架构建模块:预测框架包括三个模块,分别是序列预处理模块,位置编码模块以 及模型训练模块,序列预处理模块根据预测任务将时间序列数据分为三类子序列,分别是过 去观测值子序列、过去时刻子序列和未来观测值子序列。位置编码模块主要是通过位置编码 获得过去时刻的向量表示。模型训练模块主要是训练PT-LSTM,训练期间,使用均方误差 作为损失函数,该函数的一个输入是PT-LSTM的输出,即预测值,另一个输入是经过归一 化的未来观测值,即真实值;使用小批次随机梯度下降法来更新模型参数,使用Adam优化 器来优化网络从而最小化均方误差,当PT-LSTM训练完毕后,用于预测,在预测部分,将 PT-LSTM的输出进行反归一化之后的结果作为预测结果。
时间序列数据表示模块具体实现如下
(1)时间属性定义:时间序列数据中与时间相关的属性的子集。可用公式(1)表示,
式中tpt为t时刻的时间属性,ta表示数据中与时间相关的所有属性,te表示ta的一个子 集。定义中强调子集是因为本发明只关注可能会影响到观测值的那些属性。例如,按照小时 采样的网络流量数据中的小时;
(2)针对时间属性进行位置编码,该过程由三个步骤组成,分别是预处理、全连接层 和后处理。预处理的功能是对时间属性做一些必要的预处理,例如将用字符串表示的时间属 性转换为数值,通过归一化来消除时间属性的单位差异。在实际情况下,由于不同的时间序 列数据可能需要不同的预处理,所以本发明使用公式(2)来代表预处理内容,
tst=r(tpt) (2)
式中r为映射,tst为预处理后的时间属性。使用全连接层的原因有两个,首先是消除时 间属性与观测值维度的不一致性,其次是使用神经网络来学习时间属性的向量表示。全连接 层的输入是tst,我们将输出记为tvt。后处理的目的是增加时间属性维度变换过程的非线性, 使得维度变换的结果更好地与观测值序列进行融合。后处理的内容如公式(3)所示,
tet=d(tvt) (3)
式中d为映射,tet为时间属性的最终编码向量。
(3)在得到tet后,我们还需要对观测值xt做一些处理,处理内容包括归一化和全连接 层,归一化公式如(4)所示,
xzt=scale(xt) (4)
公式(4)中scale()表示最大值-最小值归一化,可用公式(5)表示,
式中min()表示输入向量v的最小值,max()表示输入向量v的最大值。然后将经过这些 处理后的观测值记为zt;
(4)将tet与zt逐元素相加的结果xet作为时间序列数据的表示。
模型设计模块的内容如图2所示,这种设计背后的考虑是时间在序列预测问题中经常提 供指导信息,这种指导信息应该在模型获取外部数据、更新内部状态、输出最终结果等阶段 均发挥作用。更进一步,这种指导信息应该起到补充作用,而不是替代作用。模型设计模块 的具体实现如下:
(1)将观测值xt和时间属性tpt输入到时间序列数据表示模块,得到输入数据的表示xet, 然后将xet和上一时刻的隐藏状态ht-1一起作为输入门、遗忘门、输出门和候选状态的输入, 具体如公式(6)~(9)所示,
it=σ(Wixet+Uiht-1+bi) (6)
ft=σ(Wfxet+Ufht-1+bf) (7)
ot=σ(Woxet+Uoht-1+bo) (8)
式中σ为sigmoid函数;it∈[0,1]D为输入门、ft∈[0,1]D为遗忘门、ot∈[0,1]D为输出 门,为候选状态,D为向量的维度,ht-1为t一1时刻的隐藏状态,其中Ug、Wg、bg均为学 习参数,.g∈{f,i,o,c}。这种做法不仅能使得每个输入数据都带有时间信息,而且还能减弱滑 动窗口对子序列含义的干扰。
(2)利用公式(10)计算时间门tt,
tt=σ(Wmtpt+Umht-1+bm) (10)
式中tpt表示t时刻的时间属性,Wm、Um、bm均可学习参数;
(3)tt在模型内部所起的作用是通过公式(10)和(11)实现的,
ht=ot⊙tanh(ct)+tt⊙tanh(ct) (12)
式中ct为t时刻的内部状态,为t时刻的候选状态。具体而言,tt主要有三方面的作用。 首先是tt对t时刻输入信息的控制,体现为在公式(11)中,候选状态不仅要通过输入门的过滤, 而且要通过tt的过滤;其次tt有助于内部状态存储时间属性,体现为时间属性首先存储在tt中, 然后转移到ct中;最后tt对t时刻的输出信息也有控制,体现为在公式(12)中,最终的输出为 两部分的相加,其中第一部分受输出门的控制,第二部分受tt的控制。公式(12)受RetNet的 启发,旨在于发挥时间的补充作用。
框架构建模块具体实现如下。
(1)基于滑动窗口将原始时间序列数据划分为三类子序列,内容分别是过去观测值、 过去时刻、未来观测值。划分过程主要基于滑动窗口,窗口长度即为子序列长度,窗口通过 滑动来形成新的子序列。三种类型的窗口同步滑动,滑动步长为1。划分过程结束会形成许 多样本,每个样本由三个子序列组成,分别是过去观测值子序列、过去时刻子序列、未来观 测值子序列;
(2)对过去时刻子序列依次进行预处理、全连接层和后处理,并将结果作为过去时刻 子序列的向量表示tet,其中预处理内容参见公式(2),后处理内容参见公式(3);
(3)首先对过去观测值子序列进行归一化和全连接层处理,并将结果作为其向量表示, 然后将该向量与tet逐元素相加,并将结果作为时间序列数据的表示xet,接着将xet作为输 入门、遗忘门、输出门和候选状态的输入,tpt作为时间门的输入。在模型训练期间,目标 的预测值是T-LSTM的输出,目标的真实值是经过归一化处理的未来观测值子序列。使用均 方误差计算预测值与真实值之间的损失,最后使用梯度下降法更新模型参数,优化器使用 Adam。
本发明的另一方面,提出一种基于PT-LSTM的时间序列预测方法,包括如下步骤:
步骤1、时间序列数据表示:用于对时间序列数据进行向量表示,首先基于位置编码获 得时间属性的向量表示,然后对观测值依次进行归一化和全连接层处理,并将结果作为观测 值的向量表示,最后将两个向量逐元素相加的结果作为时间序列数据的表示;
步骤2、模型设计:利用时间序列特性的方法,即位置编码与时间门拓展的LSTM(Position encoding and Time gate LSTM),简记为PT-LSTM,该方法在输入数据表示和模型结构优化 两个方面均充分考虑了时间属性,具体的,PT-LSTM以时间序列数据表示为输入,同时设 计了T-LSTM网络结构,T-LSTM中包括了本文专门设计的时间门,此时间门由时间属性控 制,并在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段均有部分控制作用;
步骤3、预测框架构建:预测框架构建包括序列预处理,位置编码以及模型训练块,序 列预处理根据预测任务将时间序列数据分为三类子序列,分别是过去观测值子序列、过去时 刻子序列和未来观测值子序列,位置编码通过位置编码获得过去时刻的向量表示,模型训练 用于训练PT-LSTM,训练期间,使用均方误差作为损失函数,损失函数的一个输入是PT-LSTM的输出,即预测值,另一个输入是经过归一化的未来观测值,即真实值;使用小 批次随机梯度下降法来更新模型参数,使用Adam优化器来优化网络从而最小化均方误差, 当PT-LSTM训练完毕后,用于预测,在预测部分,将PT-LSTM的输出进行反归一化之后的 结果作为预测结果。
有益效果:
本发明与现有方法相比的主要优点在于:提出了基于位置编码获得时间序列数据表示的 方法,该方法不仅能将时间信息显性地添加到输入数据中,而且还能减弱滑动窗口对子序列 含义的干扰;提出了能够利用时间序列特性的方法即PT-LSTM,该方法创新的地方有两处, 第一处是以本发明所提出的时间序列数据表示为输入。第二处是设计了一种新的网络结构即 T-LSTM,在T-LSTM中增加了专门设计的时间门,该时间门主要由时间属性控制,在模型 获取输入数据阶段、更新内部状态阶段、输出最终结果阶段均有部分控制作用。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人 员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
在附图中:
图1示出了本发明的时间序列预测框架;
图2示出了本发明所提出的PT-LSTM方法的结构;
图3示出了本发明所提出的时间序列数据表示方法。
具体实施方式
下面参考附图,对本发明的实施例进行详细的说明。
首先对本发明的方法全过程进行说明。
图1示出了本发明示例的基本框架图,该框架由序列预处理、位置编码和模型训练三部 分组成。其中序列预处理部分的功能是根据预测任务将时间序列数据分为三类子序列。位置 编码部分主要是通过位置编码获得过去时刻的向量表示。模型训练部分主要是训练PT-LSTM。 当模型训练完毕后,就可以直接进行预测了,预测时PT-LSTM输出的反归一化结果就是预 测值。本发明的***如下:包括:时间序列数据表示模块、模型设计模块和预测框架构建模 块;
时间序列数据表示模块如图3所示,具体实现如下。
(1)确定与任务相关的时间属性,时间属性的定义如公式(1)所示,
式中tpt为t时刻的时间属性,ta表示数据中与时间相关的所有属性,te表示ta的一个子 集。时间属性需要在数据中周期性出现,例如,按照小时采样的网络流量数据中的小时。当 有多个周期性出现的时间分量时,这些分量组成了时间属性向量的内容,例如(小时,分钟);
(2)针对时间属性进行位置编码,该过程由三个步骤组成,分别是预处理、全连接层 和后处理,预处理内容由公式(2)表示,
tst=r(tpt) (2)
式中r为映射,tst为预处理后的时间属性。当需要对tpt进行归一化时,r的表达式为公 式(4)。得到tst后将其输入到神经网络的全连接层中,全连接层可以使用Pytorch框架中的 torch.nn.Linear方法实现,其输出记为tvt。后处理的内容如公式(3)所示,
tet=d(tvt) (3)
式中d为映射,tet为时间属性的最终编码向量,映射d的可选表达式为sin(x),tanh(x), sigmoid(x)等;
(3)首先使用公式(4)对观测值xt进行归一化操作,
xzt=scale(xt) (4)
公式(4)中scale()表示最大值-最小值归一化,可用公式(5)表示,
式中min()表示输入向量v的最小值,max()表示输入向量v的最大值。全连接层同样使 用Pytorch框架中的torch.nn.Linear方法实现。然后将经过这些处理后的观测值记为zt;
(4)将tet与zt逐元素相加的结果xet作为时间序列数据的表示。
模型设计模块的内容如图2所示。模型使用Pytorch框架实现,具体流程如下。
(1)将xet和上一时刻的隐藏状态ht-1一起作为输入门、遗忘门、输出门和候选状态的 输入,具体如公式(6)~(9)所示,
it=σ(Wixet+Uiht-1+bi) (6)
ft=σ(Wfxet+Ufht-1+bf) (7)
ot=σ(Woxet+Uoht-1+bo) (8)
式中σ为sigmoid函数;it∈[0,1]D为输入门、ft∈[0,1]D为遗忘门、ot∈[0,1]D为输出 门,为候选状态,D为向量的维度,ht-1为t-1时刻的隐藏状态,其中Ug、Wg、bg均为学 习参数,.g∈{f,i,o,c};
(2)利用公式(10)计算时间门tt,
tt=σ(Wmtpt+Umht-1+bm) (10)
式中tpt表示t时刻的时间属性,Wm、Um、bm均可学习参数;
(3)tt所发挥的作用是通过公式(11)和(12)实现的,
ht=ot⊙tanh(ct)+tt⊙tanh(ct) (12)
预测框架构建模块的过程如图1所示,具体实现如下。
(1)基于滑动窗口将原始时间序列数据划分为三类子序列,内容分别是过去观测值、 过去时刻、未来观测值。划分过程主要基于滑动窗口,窗口长度即为子序列长度,窗口通过 滑动来形成新的子序列。三种类型的窗口同步滑动,滑动步长为1。划分过程结束会形成许 多样本,每个样本由三个子序列组成,分别是过去观测值子序列、过去时刻子序列、未来观 测值子序列;
(2)对过去时刻子序列依次进行预处理、全连接层和后处理,并将结果作为过去时刻 子序列的向量表示tet,其中预处理内容参见公式(2),后处理内容参见公式(3);
(3)首先对过去观测值子序列进行归一化和全连接层处理,并将结果作为其向量表示, 然后将该向量与tet逐元素相加,并将结果作为时间序列数据的表示xet,接着将xet作为输 入门、遗忘门、输出门和候选状态的输入,tpt作为时间门的输入。在模型训练期间,目标 的预测值是T-LSTM的输出,目标的真实值是经过归一化处理的未来观测值子序列。使用均 方误差计算预测值与真实值之间的损失,最后使用梯度下降法更新模型参数,优化器使用 Adam。。
综上所述,本发明提供的一种基于PT-LSTM的时间序列预测***与方法,基于位置编 码获得时间序列数据的表示,提出了能够利用时间序列特性的方法即PT-LSTM,该方法创新 的地方有两处,第一处是以本发明所提出的时间序列数据表示和时间属性为输入。第二处是 设计了一种新的网络结构即T-LSTM,在T-LSTM中增加了专门设计的时间门,该时间门主 要由时间属性控制,在模型获取输入数据阶段、更新内部状态阶段、输出最终结果阶段均有 部分控制作用
通过以上的实施方式的描述,本领域的普通技术人员可显而易见地得出其他优点和修改。 以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员, 在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术 方案也属于本发明的范畴,本发明的保护范围应由权利要求限定。
Claims (5)
1.一种基于PT-LSTM的时间序列预测***,其特征在于,包括:时间序列数据表示模块、模型设计模块和预测框架构建模块;
时间序列数据表示模块:用于对时间序列数据进行向量表示,首先基于位置编码获得时间属性的向量表示,然后对观测值依次进行归一化和全连接层处理,并将结果作为观测值的向量表示,最后将两个向量逐元素相加的结果作为时间序列数据的表示;
模型设计模块:利用时间序列特性的方法,即位置编码与时间门拓展的LSTM(Positionencoding and Time gate LSTM),简记为PT-LSTM,该方法在输入数据表示和模型结构优化两个方面均充分考虑了时间属性,具体的,PT-LSTM以时间序列数据表示为输入,同时设计了T-LSTM网络结构,T-LSTM中包括有专门设计的时间门,此时间门由时间属性控制,并在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段均有部分控制作用;
预测框架构建模块:预测框架包括三个模块,分别是序列预处理模块,位置编码模块以及模型训练模块,序列预处理模块根据预测任务将时间序列数据分为三类子序列,分别是过去观测值子序列、过去时刻子序列和未来观测值子序列,位置编码模块主要是通过位置编码获得过去时刻的向量表示,模型训练模块主要是训练PT-LSTM,训练期间,使用均方误差作为损失函数,损失函数的一个输入是PT-LSTM的输出,即预测值,另一个输入是经过归一化的未来观测值,即真实值;使用小批次随机梯度下降法来更新模型参数,使用Adam优化器来优化网络从而最小化均方误差,当PT-LSTM训练完毕后,用于预测,在预测时,将PT-LSTM的输出进行反归一化之后的结果作为预测结果。
2.根据权利要求1所述一种PT-LSTM的时间序列预测***,其特征在于:时间序列数据表示模块,具体实现如下:
(1)时间属性定义是时间序列数据中与时间相关的属性的子集,用公式(1)表示,
式中tpt为t时刻的时间属性,ta表示数据中与时间相关的所有属性,te表示ta的一个子集;
(2)针对t时刻的时间属性进行位置编码,该过程由三个步骤组成,分别是预处理、全连接层和后处理,预处理内容由公式(2)表示,
tst=r(tpt) (2)
式中r为映射,tpt表示t时刻的时间属性,tst为预处理后的时间属性;得到tst后将其输入到神经网络的全连接层中并将输出记为tvt;后处理的内容如公式(3)所示,
tet=d(tvt) (3)
式中d为映射,tet为时间属性的最终编码向量;
(3)首先使用公式(4)对观测值xt进行归一化操作,
xzt=scale(xt) (4)
公式(4)中scale()表示最大值-最小值归一化,可用公式(5)表示,
式中min()表示输入向量v的最小值,max()表示输入向量v的最大值,然后将xzt作为全连接神经网络的输入,并将该网络的输出记为zt;
(4)将tet与zt逐元素相加的结果xet作为时间序列数据的表示。
3.根据权利要求1所述一种PT-LSTM的时间序列预测***,其特征在于:模型设计模块的具体实现如下:
(1)将观测值xt和时间属性tpt输入到时间序列数据表示模块,得到输入数据的表示xet,然后将xet和上一时刻的隐藏状态ht-1一起作为输入门、遗忘门、输出门和候选状态的输入,具体如公式(6)~(9)所示,
it=σ(Wixet+Uiht-1+bi) (6)
ft=σ(Wfxet+Ufht-1+bf) (7)
ot=σ(Woxet+Uoht-1+bo) (8)
式中σ为sigmoid函数;it∈[0,1]D为输入门、ft∈[0,1]D为遗忘门、ot∈[0,1]D为输出门,为候选状态,D为向量的维度,ht-1为t-1时刻的隐藏状态,其中Ug、Wg、bg均为学习参数,g∈{f,i,o,c};
(2)利用公式(10)计算时间门tt,
tt=σ(Wmtpt+Umht-1+bm) (10)
式中tpt表示t时刻的时间属性,Wm、Um、bm均为学习参数;
(3)tt所发挥的作用是通过公式(11)和(12)实现的,
ht=ot⊙tanh(ct)+tt⊙tanh(ct) (12)
4.根据权利要求1所述一种基于PT-LSTM的时间序列预测***,其特征在于:预测框架构建模块的具体实现如下:
(1)基于滑动窗口将原始时间序列数据划分为三类子序列,内容分别是过去观测值、过去时刻、未来观测值。划分过程主要基于滑动窗口,窗口长度即为子序列长度,窗口通过滑动来形成新的子序列。三种类型的窗口同步滑动,滑动步长为1,划分过程结束会形成许多样本,每个样本由三个子序列组成,分别是过去观测值子序列、过去时刻子序列、未来观测值子序列;
(2)对过去时刻子序列依次进行预处理、全连接层和后处理,并将结果作为过去时刻子序列的向量表示tet,其中预处理内容参见公式(2),后处理内容参见公式(3);
(3)首先对过去观测值子序列进行归一化和全连接层处理,并将结果作为其向量表示zt,然后将该向量与tet逐元素相加,并将结果作为时间序列数据的表示xet,接着将xet作为输入门、遗忘门、输出门和候选状态的输入,tpt作为时间门的输入,在模型训练期间,目标的预测值是T-LSTM的输出,目标的真实值是经过归一化处理的未来观测值子序列,使用均方误差计算预测值与真实值之间的损失,最后使用梯度下降法更新模型参数,优化器使用Adam。
5.一种基于PT-LSTM的时间序列预测方法,其特征在于,包括如下步骤:
步骤1、时间序列数据表示:用于对时间序列数据进行向量表示,首先基于位置编码获得时间属性的向量表示,然后对观测值依次进行归一化和全连接层处理,并将结果作为观测值的向量表示,最后将两个向量逐元素相加的结果作为时间序列数据的表示;
步骤2、模型设计:利用时间序列特性的方法,即位置编码与时间门拓展的LSTM(Position encoding and Time gate LSTM),简记为PT-LSTM,该方法在输入数据表示和模型结构优化两个方面均充分考虑了时间属性。具体的,PT-LSTM以时间序列数据表示为输入,同时设计T-LSTM网络结构,T-LSTM中包括了专门设计的时间门,此时间门由时间属性控制,并在模型获取输入数据阶段、更新内部状态阶段、输出结果阶段均有部分控制作用;
步骤3、预测框架构建:预测框架构建包括序列预处理,位置编码以及模型训练块,序列预处理根据预测任务将时间序列数据分为三类子序列,分别是过去观测值子序列、过去时刻子序列和未来观测值子序列,位置编码通过位置编码获得过去时刻的向量表示,模型训练用于训练PT-LSTM,训练期间,使用均方误差作为损失函数,损失函数的一个输入是PT-LSTM的输出,即预测值,另一个输入是经过归一化的未来观测值,即真实值;使用小批次随机梯度下降法来更新模型参数,使用Adam优化器来优化网络从而最小化均方误差,当PT-LSTM训练完毕后,用于预测,在预测时,将PT-LSTM的输出进行反归一化之后的结果作为预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011216135.3A CN112580848A (zh) | 2020-11-04 | 2020-11-04 | 一种基于pt-lstm的时间序列预测***与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011216135.3A CN112580848A (zh) | 2020-11-04 | 2020-11-04 | 一种基于pt-lstm的时间序列预测***与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112580848A true CN112580848A (zh) | 2021-03-30 |
Family
ID=75120045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011216135.3A Pending CN112580848A (zh) | 2020-11-04 | 2020-11-04 | 一种基于pt-lstm的时间序列预测***与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580848A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379151A (zh) * | 2021-06-25 | 2021-09-10 | 重庆大学 | 基于Bagging-CNN-GRU的风速超短期预测方法 |
CN113919587A (zh) * | 2021-11-03 | 2022-01-11 | 中大检测(湖南)股份有限公司 | 基于神经网络的地质灾害的预测方法及*** |
CN117350158A (zh) * | 2023-10-13 | 2024-01-05 | 湖北华中电力科技开发有限责任公司 | 一种混合RetNet和AM-BiLSTM算法的电力短期负荷预测方法 |
-
2020
- 2020-11-04 CN CN202011216135.3A patent/CN112580848A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379151A (zh) * | 2021-06-25 | 2021-09-10 | 重庆大学 | 基于Bagging-CNN-GRU的风速超短期预测方法 |
CN113919587A (zh) * | 2021-11-03 | 2022-01-11 | 中大检测(湖南)股份有限公司 | 基于神经网络的地质灾害的预测方法及*** |
CN117350158A (zh) * | 2023-10-13 | 2024-01-05 | 湖北华中电力科技开发有限责任公司 | 一种混合RetNet和AM-BiLSTM算法的电力短期负荷预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816095B (zh) | 基于改进门控循环神经网络的网络流量预测方法 | |
CN112580848A (zh) | 一种基于pt-lstm的时间序列预测***与方法 | |
CN109597891B (zh) | 基于双向长短时记忆神经网络的文本情感分析方法 | |
CN109934261B (zh) | 一种知识驱动参数传播模型及其少样本学习方法 | |
CN113094357B (zh) | 一种基于时空注意力机制的交通缺失数据补全方法 | |
CN111860785A (zh) | 基于注意力机制循环神经网络的时间序列预测方法及*** | |
CN108182259B (zh) | 基于深度长短期记忆神经网络对多变量时间序列分类方法 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN107544904B (zh) | 一种基于深度cg-lstm神经网络的软件可靠性预测方法 | |
CN114611792B (zh) | 一种基于混合CNN-Transformer模型的大气臭氧浓度预测方法 | |
US20230215166A1 (en) | Few-shot urban remote sensing image information extraction method based on meta learning and attention | |
CN111626764A (zh) | 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置 | |
CN112949828A (zh) | 一种基于图学习的图卷积神经网络交通预测方法及*** | |
CN112819136A (zh) | 基于cnn-lstm神经网络模型与arima模型的时间序列预测方法及*** | |
CN110570035A (zh) | 同时建模时空依赖性和每日流量相关性的人流量预测*** | |
CN110866631A (zh) | 基于集成的门递归单元神经网络gru来预测大气污染情况的方法 | |
CN113177666A (zh) | 一种基于非侵入式注意力预处理过程与BiLSTM模型的预测方法 | |
CN114117599B (zh) | 一种盾构姿态位置偏差预测方法 | |
CN114912666A (zh) | 一种基于ceemdan算法和注意力机制的短时客流量预测方法 | |
CN114694379B (zh) | 一种基于自适应动态图卷积的交通流预测方法及*** | |
CN116052254A (zh) | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 | |
CN111895986A (zh) | 一种基于lstm神经网络的mems陀螺仪原始输出信号降噪方法 | |
CN116257759A (zh) | 一种深度神经网络模型的结构化数据智能分类分级*** | |
CN114266201B (zh) | 一种基于深度学习的自注意力电梯困人预测方法 | |
CN111292121A (zh) | 一种基于园区画像的园区负荷预测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210330 |
|
RJ01 | Rejection of invention patent application after publication |