CN114493014A

CN114493014A - 多元时间序列预测方法、***及计算机产品、存储介质

Info

Publication number: CN114493014A
Application number: CN202210107028.XA
Authority: CN
Inventors: 谢鲲; 刘丹; 陈小迪; 张大方; 文吉刚; 李肯立
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-13

Abstract

本发明公开了一种多元时间序列预测方法、***及计算机产品、存储介质，使用两个特征提取编码分别提取长短期历史数据矩阵的时空特征向量，将历史时间序列矩阵输入空间特征提取编码器，生成加权注意力空间特征向量，将加权空间特征向量输入门控循环单元生成时空特征向量；将长期历史数据矩阵提取的时空特征向量输入交互注意力模块生成加权特征向量；将短期历史数据矩阵输入自回归层，生成短期历史时间序列数据的线性预测结果；将加权特征向量和编码特征向量结合输入全连接层生成神经网络预测结果，将神经网络预测结果和自回归层线性预测结果相加得到最终的预测结果。本发明实现了多元时间序列数据精准预测。

Description

多元时间序列预测方法、***及计算机产品、存储介质

技术领域

本发明涉及多元时间序列数据预测领域，具体是一种基于特征提取编码与交互注意力模块的多元时间序列预测方法及***。

背景技术

随着大数据技术的发展以及数据的快速增长，利用时间序列数据来预测其未来时刻的状态有着广泛的应用场景，比如交通线路上的交通流量预测、股票市场上的股票价格预测、不同城市的空气质量指数预测。准确预测新的趋势或潜在的事件往往是用户真正感兴趣的内容，并为未来的决策制定和规划提供强有力的支持，有助于高级应用的实施。然而，针对时间序列数据中复杂的周期模式和依赖性等问题无法很好地建模。业界对以上问题进行了深度研究。

有研究表明，时间序列数据具有复杂的周期模式和时间、空间依赖性，因此通过提取历史时间序列之间的内在关系，准确挖掘短期和长期周期模式，学习时间和空间依赖性，同时有效地结合来自其他变量的信息，实现精准的时间序列预测仍是一个具有挑战性的任务。

为了解决时间序列预测的问题，业界进行了许多探索并提出了许多序列预测方法。总结起来主要为两类：

第一类方法为传统时间序列预测模型。通常指用于时间序列分析/预测的统计学模型^[1,2,3,4]，比如常用的有均值回归、自回归综合移动平均、指数平滑预测法等。主要通过对历史数据的建模分析，抽离出其中的趋势，最后通过对趋势的预测得到未来一段时间需求的变化。优点是复杂度低、计算速度快，可以提供一个预测结果的合理的范围，使用这个合理的范围，在黑盒模型最后输出结果时，帮忙进行后置校准，从而使预测***更加稳定。

然而，这些基于回归的传统模型通常假设时间序列符合某种分布或函数形式，然后在此基础上进行分析和预测。这种分析方法不能捕捉序列中复杂的非线性关系，许多数据集的性能都不令人满意。此外，传统的基于函数分布的模型不适用于多变量序列分析。像自回归综合移动平均(ARIMA)等模型只能捕捉单个序列历史数据的分布信息，不能对真实数据中的复杂模式或依赖项进行建模以及捕捉和整合序列之间的关系。

随着计算能力的提高和机器学习理论的发展，深度神经网络在各个领域得到了越来越广泛的关注，第二类利用机器学习方法提取特征并学习数据相关性进行预测也成为热门的研究方向^[5]。常见的处理方法有使用自编码器^[6]、卷积神经网络^[7]加上循环神经网络^[8,9](如门控循环单元)等。其中自编码器、卷积神经网络用于捕捉每个时刻时序数据内部的空间关系，门控循环单元用于学习时序数据的时间关系，最后对时空关系进行整合用于预测。

然而，传统的递归神经网络由于存在梯度消失^[10]的问题，不能很好地处理长序列和需要长期历史信息的任务。为了解决梯度消失的问题，研究人员提出了短期和长期记忆网络(LSTM)模型和门控循环单位(GRU)模型。后者具有相似的效果，但计算量较小，因此在当今的研究中得到了广泛的应用。在后续的研究中引入注意力机制，使模型选择性地关注所有信息的一部分，同时忽略其他可见的信息。

与单神经网络相比，混合神经网络^[11,12^,13]具有更好的性能。最后，也是最重要的是，我们注意到时间序列数据中存在着复杂的周期模式和时空相关性，采用多任务学习的方法，可以有效地提高模型的泛化性以及准确率。现有的预测算法通常在多变量时间序列间的趋势特征和多周期模式的捕捉能力上存在不足，比如基于并行时空注意力机制的TCN多元时间序列预测方法中，在获取多元时间序列数据时空特征模块，仅对原始输入进行简单的线性变换和归一化方法无法获取历史时间序列数据间复杂的时空相关性，并且TCN需要完整的时间序列才能进行预测，不像RNN只需要维护一个隐藏状态并接受当前输入，便可以生成一个预测，此外，由于TCN的感受视野不够大，在将一个模型从一个对记忆信息需求量少的问题迁移到一个需要更长记忆的问题上时，TCN可能会表现得很差。

[1]Elvin Isufifi,Andreas Loukas,Nathanael Perraudin,and GeertLeus.Forecasting time series with varma recursions on graphs.IEEETransactions on Signal Processing,67(18):4870–4885,2019.

[2]Helmut Lutkepohl.New introduction to multiple time seriesanalysis.Springer Science&Business Media,2005.

[3]Jiahan Li and Weiye Chen.Forecasting macroeconomic time series:Lasso-based approaches and their forecast combinations with dynamic factormodels.International Journal of Forecasting,30(4):996–1015,2014.

[4]George EP Box,Gwilym M Jenkins,Gregory C Reinsel,and Greta MLjung.Time series analysis:forecasting and control.John Wiley&Sons,2015.

[5]Liu,Hanpeng,et al.“CoSTCo:A Neural Tensor Completion Model forSparse Tensors.”Proceedings of the 25th ACM SIGKDD International Conferenceon Knowledge Discovery&Data Mining,2019,pp.324–334.

[6]Fan,Jicong,and Tommy W.S.Chow.“Deep Learning Based MatrixCompletion.”Neurocomputing,vol.266,2017,pp.540–549.

[7]Lecun Y,Bottou L.Gradient-based learning applied to documentrecognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[8]Zhuoning Yuan,Xun Zhou,and Tianbao Yang.Hetero-convlstm:A deeplearning approach to traffiffiffic accident prediction on heterogeneousspatio-temporal data.In Proceedings of the 24th ACM SIGKDD InternationalConference on Knowledge Discovery&Data Mining,pages 984–992,2018.

[9]Xu Zhang,Furao Shen,Jinxi Zhao,and GuoHai Yang.Time seriesforecasting using gru neural network with multi-lag after decomposition.InInternational Conference on Neural Information Processing,pages 523–532.Springer,2017.

[10]Yoshua Bengio,Patrice Simard,and Paolo Frasconi.Learning long-term dependencies with gradient descent is difficult.IEEE transactions onneural networks,5(2):157–166,1994.

[11]Guokun Lai,Wei-Cheng Chang,Yiming Yang,and Hanxiao Liu.Modelinglong-and short-term temporal patterns with deep neural networks.In The 41stInternational ACM SIGIR Conference on Research&Development in InformationRetrieval,pages 95–104,2018.

[12]Huaxiu Yao,Xianfeng Tang,Hua Wei,Guanjie Zheng,and ZhenhuiLi.Revisiting spatial-temporal similarity:A deep learning framework fortraffiffiffic prediction.In Proceedings of the AAAI conference onartifificial intelligence,volume 33,pages 5668–5675,2019.

[13]Zhenxiong Yan,Kun Xie,Xin Wang,Dafang Zhang,Gaogang Xie,KenliLi,and Jigang Wen.Multivariate time series forecasting exploitingtensorprojection embedding and gated memory network.In29thIEEE/ACM InternationalSymposium on Quality of Service,IWQOS2021,Tokyo,Japan,June 25-28,2021,pages1–6.IEEE,2021.

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种多元时间序列预测方法、***及计算机产品、存储介质，克服现有技术无法较好学习复杂的周期模式、时间和空间依赖性、预测精度低的问题，实现对时空关系动态变化的多元时间序列数据进行精准预测。

为解决上述技术问题，本发明所采用的技术方案是：一种多元时间序列预测方法，包括以下步骤：

S1、将历史时间序列数据[X^k-nT，...，X^k-1]划分为长期历史时间序列数据[X^k ^-nT，...，X^k-T-1]和短期历史时间序列数据[X^k-T，...，X^k-1]；T为长期历史时间序列数据或短期历史时间序列数据的长度；

S2、利用所述长期历史时间序列数据[X^k-nT，...，X^k-T-1]和短期历史时间序列数据[X^k-T，...，X^k-1]获取长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k ^-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}和短期历史时间序列的加权注意力空间特征向量[z^k ^-T，...，z^k-1]；将短期历史时间序列数据[X^k-T，...，X^k-1]输入自回归层，获取预测矩阵

S3、利用获取的长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k ^-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}和短期历史时间序列的加权注意力空间特征向量[z^k ^-T，...，z^k-1]分别获取包含时空相关性的特征编码向量序列{m_i}和包含时空相关性的特征编码向量u；

S4、将{m_i}和u输入交互注意力网络，获取注意权值分布向量p_i，通过计算p_i和{m_i}的乘积获得加权特征向量o_i；

S5、将尺寸为T×d的加权特征向量o_i和尺寸为1×d的包含时空相关性的特征编码向量u联合为尺寸为(T+1)×d的新向量，将联合后的新向量输入生成模型，生成非线性的预测矩阵

S6、将生成模型输出的预测矩阵

与自回归层输出的预测矩阵

相加，得到最终的预测结果。

本发明使用特征提取编码器能够显著提升表征学习速度，；通过交互注意力网络可以尽可能的捕获时空特征向量之间的相关性，极大地保留历史数据中蕴含的有效信息，能够实现多元时间序列数据的精准预测。本发明解决了现有技术无法较好学习复杂的周期模式、时间和空间依赖性、预测精度低的问题，实现了对时空关系动态变化的多元时间序列数据的精准预测。步骤S2的具体实现过程包括：将长期历史时间序列数据[X^k-nT，...，X^k-T-1]和短期历史时间序列数据[X^k-T，...，X^k-1]分别通过第一空间特征提取器和第二空间特征提取器，获取长期历史时间序列的空间特征向量[e^k-nT，...，e^k-T-1]和短期历史时间序列的空间特征向量[e^k-T，...，e^k-1]，将[e^k-nT，...，e^k-T-1]和[e^k-T，...，e^k-1]分别输入第一注意力层和第二注意力层，获取长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k ^-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}和短期历史时间序列的加权注意力空间特征向量[z^k ^-T，...，z^k-1]。由于矩阵序列间蕴含着复杂的时空相关性，通过空间特征提取器能够提取矩阵相邻位置的空间关系，采用注意力机制可以进一步获取不同位置数据之间的影响，从而获得加权注意力空间特征向量。

步骤S3的具体实现过程包括：将获取的长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}和短期历史时间序列的加权注意力空间特征向量[z^k-T，...，z^k-1]按时间顺序分别依次输入第一门控循环单元和第二门控循环单元，分别输出包含时空相关性的特征编码向量序列{m_i}和包含时空相关性的特征编码向量u。门控循环单元能够捕捉非线性的时间关系，得到的时空特征向量都保留了历史数据中隐藏的时空信息。

o_i＝p_i×m_i；p_i＝Softmax(u^Tm_i)。

将获取的包含时空相关性的特征编码向量序列{m_i}和包含时空相关性的特征编码向量u输入交互注意力网络，更好地捕捉预测编码器输出的时空特征向量之间的关系。通过计算特征向量的内积和一个Softmax()来获取注意权值分布向量p_i以及加权特征向量O_i。该方法通过交互注意力网络进一步挖掘和动态捕获特征向量矩阵之间的相互依赖关系，因此最终得到的时空特征向量能够极大地保留历史数据中蕴含的有效信息。

步骤S5中，所述生成模型包括多个级联的全连接层。通过权重矩阵对历史时间序列数据进行加权混合及引入激活函数加入非线性关系，最后实现对矩阵不同元素间关系的提取。理论上全连接层越多，特征提取网络的提取能力就越强。

本发明还提供了一种多元时间序列预测***，其包括：

第一特征提取编码器，输入为长期历史时间序列数据[X^k-nT，...，X^k-T-1]，输出为包含时空相关性的特征编码向量序列{m_i}；

第二特征提取编码器，输入为短期历史时间序列的加权注意力空间特征向量[z^k ^-T，...，z^k-1]，输出为包含时空相关性的特征编码向量u；

自回归层，输入为短期历史时间序列数据[X^k-T，...，X^k-1]，输出为预测矩阵

交互注意力网络，输入为包含时空相关性的特征编码向量序列{m_i}和包含时空相关性的特征编码向量u，输出为(T+1)×d的新向量；

生成模型，输入为(T+1)×d的新向量，输出为非线性的预测矩阵

预测模块，用于将生成模型输出的预测矩阵

与自回归层输出的预测矩阵

相加，得到最终的预测结果；

其中，所述长期历史时间序列数据[X^k-nT，...，X^k-T-1]和短期历史时间序列数据[X^k ^-T，...，X^k-1]由历史时间序列数据[X^k-nT，...，X^k-1]划分得到；T为长期历史时间序列数据或短期历史时间序列数据的长度。

本发明提出的多元时间序列预测***，首先通过特征提取编码器对矩阵序列蕴含的时空信息能够提取矩阵相邻位置的空间关系，可以进一步捕获不同时间维度间数据的关联关系，以及捕捉非线性的时间关系，得到的时空特征向量都保留了历史数据中隐藏的时空信息；通过交互注意力网络进一步挖掘和动态捕获特征向量矩阵之间的相互依赖关系，因此最终得到的时空特征向量能够极大地保留历史数据中蕴含的有效信息。该方法通过综合进一步捕获的时空特征向量与当前时刻空间特征向量信息并通过损失函数训练生成模型效果，最终联合自回归层输出的线性预测结果生成未来时刻的预测结果，解决了现有技术无法较好学习复杂的周期模式、时间和空间依赖性、预测精度低的问题，实现了对时空关系动态变化的多元时间序列数据的精准预测。。

所述第一特征提取编码器和第二特征提取编码器的结构相同；其中，所述第一特征提取编码器包括：

第一空间特征提取器，输入为长期历史时间序列数据[X^k-nT，...，X^k-T-1]，输出为长期历史时间序列的空间特征向量[e^k-nT，...，e^k-T-1]；

第一注意力层，输入为[e^k-nT，...，e^k-T-1]，输出为长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}；

第一门控循环单元，输入为长期历史时间序列的加权注意力空间特征向量{[z^k ^-nT，...，z^k-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}，输出为包含时空相关性的特征编码向量序列{m_i}。

采用特征提取编码器能够显著提升模型对序列数据的时空相关性的学习速度。通过特征提取编码器和门控循环单元对矩阵序列蕴含的时空信息能够提取矩阵相邻位置的时空关系，采用注意力层可以进一步捕获不同时间维度间数据的关联关系。其中，门控循环单元能够捕捉非线性的时间关系，得到的时空特征向量都保留了历史数据中隐藏的时空信息。

所述交互注意力网络用于执行包括如下步骤的操作：将{m_i}和u作为自注意力层的输入，获取注意权值分布向量p_i，通过计算p_i和{m_i}的乘积获得加权特征向量o_i，将尺寸为T×d的加权特征向量o_i和尺寸为1×d的包含时空相关性的特征编码向量u联合为尺寸为(T+1)×d的新向量。

作为一个发明构思，本发明还提供了一种计算机可读存储介质，其包括运行于处理器中的程序；所述程序被配置为用于执行本发明所述方法的步骤。

作为一个发明构思，本发明还提供了一种计算机程序产品，包括计算机程序/指令；该计算机程序/指令被处理器执行时实现本发明所述方法的步骤。

本发明中，可以将长期时间序列历史数据序列分成多组，例如，本发明中可以分为7组，针对长期历史时间序列可以设置滑动窗口，从而根据指定窗口的单位长度，使得长短期历史时间序列长度均为T(因为输入的特征提取编码器结构相同，为保证输入的长度均为T，可通过设置滑动窗口方式实现不同组数据输入)。

与现有技术相比，本发明所具有的有益效果为：本发明将历史时间序列数据矩阵按时间顺序逐一排列成序列，该序列蕴含了数据间的空间相关性与时间相关性。将历史时间序列数据划分为长期时间序列历史数据序列和短期时间序列历史数据序列，将其按时间顺序排列作为特征提取编码的输入。基于特征提取编码与交互注意力模块的多元时间序列预测方法，首先通过特征提取编码器和门控循环单元对矩阵序列蕴含的时空信息进行提取。在此过程中由于特征提取编码器能够提取矩阵相邻位置的空间关系，采用注意力层可以进一步捕获不同时间维度间数据的关联关系，且门控循环单元能够捕捉非线性的时间关系，得到的时空特征向量都保留了历史数据中隐藏的时空信息；紧接着该方法通过交互注意力网络进一步挖掘和动态捕获特征向量矩阵之间的相互依赖关系，因此最终得到的时空特征向量能够极大地保留历史数据中蕴含的有效信息；接下来该方法通过综合进一步捕获的时空特征向量与当前时刻空间特征向量信息并通过复合损失函数训练生成模型效果，最终联合自回归层输入的线性预测结果生成未来时刻的预测结果；这个过程中，相较于其他算法，使用时空预测编码能够显著提升表征学习速度，且采用相对均方根误差损失函数和经验相关系数联合训练能够显著加快生成模型的收敛速度；本发明可以从内存组件中将长期历史数据输入特征提取编码器，可以发现，当新时刻数据来临时，只需要执行若干次本发明方法的步骤即可完成数据填充，而非像其它算法一般需要对模型参数进行从头开始训练，因此本发明方法时间复杂度更低，计算复杂度更低；通过引入交互注意力网络可以尽可能的捕获时空特征向量之间的相关性，极大地保留历史数据中蕴含的有效信息，能够实现多元时间序列数据的精准预测。本发明方法采用两个独立的特征提取编码器来准确高效地获取历史时间序列数据间复杂的时空相关性，首先通过卷积神经网络提取数据间的空间特征，通过注意力层对获取的空间特征进行加权，进一步捕获其空间相关性；通过门控循环单元更进一步获取数据的加权注意力时空特征，解决了RNN网络中的长依赖问题；长期历史时间序列数据通过交互注意力网络充分获取不同时间步间的影响，与此同时短期历史时间数据通过自回归组件进一步提高预测准确度和实验鲁棒性。

附图说明

图1为本发明实施例提供的对多元时间序列数据进行未来时刻数据预测的网络模型；

图2为本发明实施例中提取历史时间序列数据中的空间信息并输出空间特征向量的示意图；

图3为本发明实施例中将空间特征向量逐一输入门控循环单元实现对时间相关性提取的示意图；

图4为本发明实施例中结合加权特征向量及短期时间序列时空特征进行神经网络部分的预测示意图。

具体实施方式

本发明实施例提供了一种基于特征提取编码与交互注意力模块的多元时间序列预测方法，包括：

步骤B1，将历史时间序列数据[X^k-nT，...，X^k-1]划分为长期历史时间序列数据[X^k ^-nT，...，X^k-T-1]和短期历史时间序列数据[X^k-T，...，X^k-1]，其中本发明实施例中n取值为8，输入的长短期历史时间序列长度均为T；

B1中所提到的时间序列数据矩阵，行代表时间节点、列代表变量维数，矩阵中的元素值代表对应时刻不同指标的值。

步骤B2，将输入的长度均为T的长期历史时间序列[X^k-nT，...，X^k-T-1]和短期时间序列历史数据序列[X^k-T，...，X^k-1]分别通过由卷积层和多层全连接层构成的空间特征提取器，获取长期历史时间序列的空间特征向量[e^k-nT，...，e^k-T-1]和短期历史时间序列的空间特征向量[e^k-T，...，e^k-1]，紧接着通过注意力层，获取长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}和短期历史时间序列的加权注意力空间特征向量[z^k-T-1，...，z^k]。

其中由卷积层、多层全连接层合理构建的空间特征提取器，主要用于提取历史时间数据序列的空间相关性并以空间特征向量的形式输出。以短期历史时间序列矩阵特征提取编码中的全连接层为例，原始输入[X^k-T，...，X^k-1]通过下式获得该层输出加权注意力空间特征向量：

[z^k-T，...，z^k-1]＝Softmax(f(W·[X^k-T，...，X^k-1]+b))

其中W代表权重矩阵，b为偏执项，f()为激活函数。

通过权重矩阵对历史时间序列数据进行加权混合及引入激活函数加入非线性关系，最后实现对矩阵不同元素间关系的提取。理论上全连接层越多，特征提取网络的提取能力就越强。此步骤可以获取各个矩阵面蕴含的空间相关性，并分别以向量序列的形式输出。

步骤B3，将步骤B2获取的长期历史时间序列的加权注意力空间特征向量{[z^k ^-nT，...，z^k-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}和短期历史时间序列的加权注意力空间特征向量[z^k-T，...，z^k-1]按时间顺序依次输入门控循环单元以学习该序列的时间相关性，分别输出包含时空相关性的特征编码向量序列{m_i}和包含时空相关性的特征编码向量u。一个带有门控循环单元(GRU)的循环层使用ReLU函数作为隐藏的激活函数。t时刻循环单位的隐藏状态可以表示为，

逐一将加权注意力空间特征向量输入门控循环单元(GRU)，获得上下文向量。因此，短期历史矩阵序列[z^k-T，...，z^k-1]输出一个包含时空相关性的特征编码向量u，其中u＝c^k-1，k为时刻值；长期历史矩阵序列{[z^k-nT，...，z^k-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}则输出一个包含时空相关性的特征编码向量序列{m_i}，其中{m_i}＝[c^k-(n-1)T，...，c^k-T-1]。事实上GRU每输入一个加权注意力空间特征向量z^k-n(1≤n≤T)会产生一个对应的上下文向量c^k-n以及一个隐藏状态h^k-n。其中隐藏状态h^k-n用于传递历史信息给下一时刻的输入c^k-n+1。正是有隐藏状态的传递实现了对输入序列的时间相关性的学习。

最终，我们通过特征提取编码器模块，成功将长期历史时间序列[X^k-nT，...，X^k-T-1]转换为包含时空相关性的特征编码向量序列{m_i}。短期时间序列历史数据序列[X^k-T，...，X^k-1]也通过另一个特征提取编码器，得到其包含时空相关性的特征编码向量u，表示公式如下，

m_i＝Encoder_l([X^k-nT，...，X^k-T-1])

u＝Encoder_s([X^k-T，...，X^k-1])；

其中m_i∈R^d，u∈R^d，m_i构成包含时空相关性的特征编码向量序列{m_i}，u为包含时空相关性的特征编码向量。

步骤B4，将步骤B3获取的包含时空相关性的特征编码向量序列{m_i}和包含时空相关性的特征编码向量u输入交互注意力网络，更好地捕捉预测编码器输出的时空特征向量之间的关系，加快计算速度，避免递归神经网络的缺陷。通过计算特征向量的内积和一个Softmax()来计算包含时空相关性的特征编码向量u和多个包含时空相关性的特征编码向量序列{m_i}的注意权值分布向量p_i以及加权特征向量O_i，其计算公式如下：

_pi＝SOftmax(u^Tm_i)；

o_i＝p_i×m_i；

其中Softmax()是

输入的每个{m_i}都有一个相应的加权特征向量o_i，

d为加权特征向量的变量维度。

步骤B5，将经过训练的包含时空特征的加权特征向量o_i与包含时空相关性的特征编码向量u联合，以结合时空相关性与近期时刻数据的信息。

具体来说，将尺寸为T×d的加权特征向量o_i和尺寸为1d的包含时空相关性的特征编码向量u联合为尺寸为(T+1)×d的新向量，将联合后的新向量输入由全连接层构成的生成模型，生成非线性的预测矩阵。全连接层的输出值计算为，

其中b为偏执项，[u；o₁；o₂；…；o_T]是特征向量u和加权特征向量集合{O_i}的连接，

是神经网络部分的预测。

步骤B6，将步骤B5中生成模型输出的预测矩阵

与自回归层输出的预测矩阵

相加，得到最终的预测结果，充分结合时空相关性与短期历史时间序列数据的信息。使用经典的自回归(AR)模型作为线性分量，所有的维数变量共享同一组线性参数。AR模型的表述如下，

其中表示AR分量在时间戳t的的预测结果为

S^ar为输入窗口的大小，AR模型的相关系数为

且和b^ar∈R。

本方法的最终预测是通过整合神经网络部分和AR模型的输出得到的，

在训练过程中，我们采用平均绝对误差和目标函数如下，

其中，N为训练样本数，D为目标数据的维数。所有的神经模型都使用Adam优化器进行训练。

通过相对均方根误差RRSE损失函数和经验相关系数CORR联合训练生成模型训练模型。模型训练期间能够有较快的收敛速度，相对误差有较高精度。

步骤B7，基于已有历史数据循环执行步骤B1到B6进行迭代训练直至收敛。此时模型前期训练完毕，后续时刻开始将长期数据按组输入特征提取模块。

本发明提供的多元时间序列预测算法，通过将空间相关性与时间相关性的多元时间序列数据以一组长期时间序列历史数据矩阵和短期时间序列历史数据矩阵按时间顺序排列作为输入。首先通过特征提取编码器和门控循环单元对矩阵序列蕴含的时空信息能够提取矩阵相邻位置的空间关系，采用注意力层可以进一步捕获不同时间维度间数据的关联关系，门控循环单元能够捕捉非线性的时间关系，得到的时空特征向量都保留了历史数据中隐藏的时空信息；紧接着该方法通过交互注意力网络进一步挖掘和动态捕获特征向量矩阵之间的相互依赖关系，因此最终得到的时空特征向量能够极大地保留历史数据中蕴含的有效信息。该方法通过综合进一步捕获的时空特征向量与当前时刻空间特征向量信息并通过损失函数训练生成模型效果，最终联合自回归层输出的线性预测结果生成未来时刻的预测结果。

这个过程中，相较于其他算法，使用特征提取编码模块能够显著提升表征学习速度且采用相对均方根误差损失函数和经验相关系数联合训练能够显著加快生成模型的收敛速度，因此时间复杂度更低，计算复杂度更低；通过引入交互注意力网络可以尽可能的捕获时空特征向量之间的相关性，极大地保留历史数据中蕴含的有效信息，能够实现多元时间序列数据的精准预测。

通过实验数据进行了验证，本发明方法采用传统的自回归线性模型与非线性神经网络并行，为预测模型的鲁棒性和精准度提供了可靠保证。

通过总结4个多变量数据集Traffic、Electricity、Exchange-Rate和Solar-Energy与6个基线算法采用指标RRSE和CORR的实验结果，参见表1。其中RRSE值越小，实验结果越好；CORR值越大，实验结果越好。我们设置Horizon＝{3,6}，视野越大，预测就越困难。将神经网络与统计算法进行比较，我们也可以直接看到，基于神经网络的算法(即RNN-GRU、DA-RNN、DASNet、MTNet、LSTNet、Our Model)的算法在总体结果上比基于自回归模型(即VAR)的统计算法具有明显的优势，这已被许多研究证实。由于传统的基于自回归的时间序列预测方法的建模能力有限，预测结果并不好。将递归神经网络变体与我们的方法进行比较，RNN-GRU和DA-RNN模型只适用于提取时间特征，而不适用于处理空间特征，并且没有长期记忆能力，因此它们在处理多元时间序列预测任务方面存在明显的缺陷，预测结果较差。将其他混合神经网络与我们的方法进行比较，LSTNet提供了相应的解决方案来提取长期和长期的复杂模式和空间相关性，MTNet使用具有单个内存层的端到端内存网络来学习长期模式，DSANet利用自我注意机制来挖掘多元变量时间序列之间的关系，但由于无法全面地捕获历史时间序列之间的时空相关性和复杂的周期模式，实验效果较差。本发明方法首先将最新的短期历史时间序列数据转换为时空特征向量，并使用长期历史时间序列数据计算加权注意力分布矩阵，最终得到加权时空特征向量序列。直观地说，本发明方法了解了哪段时间支持预测，从而能够对具有周期性模式的数据集产生更好的预测。实验结果表明，本发明方法在绝大多数情况下优于其他预测方法。为了证明本发明的模型设计的有效性，我们进行了仔细的消融研究，结果如表2所示。具体来说，本发明一次删除了模型中的某一个模块，并使用相同的环境和数据集实现了其余的模块。通过删除特征提取编码中的空间特征提取器进行了withoutEncoder实验，由于无法提取历史时间序列数据之间的空间相关性，实验效果欠佳；通过删除交互注意力网络进行了withoutInteractiveAttention实验，由于无法充分获取历史时间序列数据之间的时空相关性，实验效果欠佳；通过删除自回归层进行了withoutAR实验，由于无法获得短期历史时间序列数据的线性预测结果，实验效果欠佳。实验结果表明，删除模型的某一模块将直接影响预测的准确性，从而进一步验证了模型中每一个实验模块的有效性。

表1实验中六种不同方法针对四个不同数据集在不同未来时刻的预测精度

表2实验中本发明在四个不同数据集上进行的消融实验数据

Claims

1.一种多元时间序列预测方法，其特征在于，包括以下步骤：

S1、将历史时间序列数据[X^k-nT，...，X^k-1]划分为长期历史时间序列数据[X^k-nT，...，X^k ^-T-1]和短期历史时间序列数据[X^k-T，...，X^k-1]；T为长期历史时间序列数据或短期历史时间序列数据的长度；

S2、利用所述长期历史时间序列数据[X^k-nT，...，X^k-T-1]和短期历史时间序列数据[X^k ^-T，...，X^k-1]获取长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k ^-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}和短期历史时间序列的加权注意力空间特征向量[z^k ^-T，...，z^k-1]；将短期历史时间序列数据[X^k-T，...，X^k-1]输入自回归层，获取预测矩阵

S6、将生成模型输出的预测矩阵

与自回归层输出的预测矩阵

相加，得到最终的预测结果。

2.根据权利要求1所述的多元时间序列预测方法，其特征在于，步骤S2的具体实现过程包括：将长期历史时间序列数据[X^k-nT，...，X^k-T-1]和短期历史时间序列数据[X^k-T，...，X^k-1]分别通过第一空间特征提取器和第二空间特征提取器，获取长期历史时间序列的空间特征向量[e^k-nT，...，e^k-T-1]和短期历史时间序列的空间特征向量[e^k-T，...，e^k-1]，将[e^k-nT，...，e^k-T-1]和[e^k-T，...，e^k-1]分别输入第一注意力层和第二注意力层，获取长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}和短期历史时间序列的加权注意力空间特征向量[z^k-T，...，z^k-1]。

3.根据权利要求1所述的多元时间序列预测方法，其特征在于，步骤S3的具体实现过程包括：将获取的长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}和短期历史时间序列的加权注意力空间特征向量[z^k-T，...，z^k-1]按时间顺序分别依次输入第一门控循环单元和第二门控循环单元，分别输出包含时空相关性的特征编码向量序列{m_i}和包含时空相关性的特征编码向量u。

4.根据权利要求1所述的多元时间序列预测方法，其特征在于，步骤S4中，o_i＝p_i×m_i；p_i＝Softmax(u^Tm_i)。

5.根据权利要求1所述的多元时间序列预测方法，其特征在于，步骤S5中，所述生成模型包括多个级联的全连接层。

6.一种多元时间序列预测***，其特征在于，包括：

预测模块，用于将生成模型输出的预测矩阵

与自回归层输出的预测矩阵

相加，得到最终的预测结果；

7.根据权利要求6所述的多元时间序列预测***，其特征在于，所述第一特征提取编码器和第二特征提取编码器的结构相同；其中，所述第一特征提取编码器包括：

第一门控循环单元，输入为长期历史时间序列的加权注意力空间特征向量{[z^k-nT，...，z^k-(n-1)T-1]，...，[z^k-2T，...，z^k-T-1]}，输出为包含时空相关性的特征编码向量序列{m_i}。

8.根据权利要求6或7所述的多元时间序列预测***，其特征在于，所述交互注意力网络用于执行包括如下步骤的操作：将{m_i}和u作为自注意力层的输入，获取注意权值分布向量p_i，通过计算p_i和{m_i}的乘积获得加权特征向量o_i，将尺寸为T×d的加权特征向量o_i和尺寸为1×d的包含时空相关性的特征编码向量u联合为尺寸为(T+1)×d的新向量。

9.一种计算机可读存储介质，其特征在于；包括运行于处理器中的程序；所述程序被配置为用于执行权利要求1～5之一所述方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令；其特征在于，该计算机程序/指令被处理器执行时实现权利要求1～5之一所述方法的步骤。