CN114492978A

CN114492978A - 一种基于多层注意力机制的时空序列预测方法及设备

Info

Publication number: CN114492978A
Application number: CN202210067402.8A
Authority: CN
Inventors: 张海涛; 江曼; 韩启龙; 宋洪涛; 王也; 李丽洁; 马志强
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-13

Abstract

本发明提出了一种基于多层注意力机制的时空序列预测方法及设备，本发明基于注意力机制，根据跨领域数据的交叉影响，逐时间步融合多维特征构建历史数据特征，在不引入噪声的前提下，充分利用邻域数据丰富目标区域的特征信息，捕获不同区域时空序列的空间依赖关系。采用LSTM编码器分别捕获时间序列的长期、中期发展模式及短期突变信息，逐步利用注意力机制动态捕获多重时序关系对未来的影响，逐时间步计算相应历史信息的影响权重，最终使用LSTM解码器充分融合多跨度的历史数据，对时空序列进行预测。本发明可以在不引入噪声的前提下，充分利用邻域数据丰富目标区域的特征信息，捕获不同区域时空序列的空间依赖关系。

Description

一种基于多层注意力机制的时空序列预测方法及设备

技术领域

本发明属于时空序列预测技术领域，特别是涉及一种基于多层注意力机制的时空序列预测方法及设备。

背景技术

作为时空数据分析的关键技术，时空序列预测已被广泛应用于智慧城市建设、智能制造升级等领域。在智慧城市建设过程中，准确的空气质量预测有助于监管部门科学发布空气污染预警，迅速完成事故预防和资源分配工作，提高民众生活质量。在智能制造领域，准确的供应链产值预测有助于各企业正确制定生产决策，加强供应链内企业的有机协作，提高工业领域整体产能。

时空序列预测模型的性能受多种因素制约，主要包括：(1)邻域信息匮乏。现有研究大多采用空间插值法解决数据稀疏问题，该方法会引入大量噪声，影响预测精度。(2)空间视图粗糙。现有研究大都将卷积神经网络作为空间视图捕获方法，对空间关系挖掘不彻底。(3)时序关系单一。现有研究大都将序列神经网络作为单一时序关系捕获方法，只考虑时空序列的长期发展模式，或只考虑短期数据的直接作用，没有同时考虑周期性与短期突变的多重影响，对现有时序数据利用不充分。由于序列的空间依赖关系受多种因素动态制约、时间依赖关系兼具周期与突变性等问题，有效的时空序列建模极具挑战性。

在时空序列预测领域，目前常用的分析方法有传统时空序列预测方法和基于机器学***均模型(ARIMA)只能捕获数据间的线性关系，无法拟合序列间复杂的非线性相关性，对时空序列的预测精度较低。作为数据驱动的机器学习方法，人工神经网络(ANN)利用线性阈值单元的集成结构表示复杂非线性函数，在一定程度上可以用于获取时间序列的中长期趋势，但其结果受初始随机权重及阈值影响严重，模型预测性能不稳定，无法满足工业生产等场景对模型可靠性的要求。支持向量机(SVM)利用核函数将输入向量按预设的非线性变换映射至高维空间，利用线性算法分析样本的非线性特征，显著提高了时间序列预测模型的准确性，但该模型对参数和核函数较为敏感，需要结合相关领域知识确定参数，难以建立多领域通用的预测模型。随机森林利用集合算法训练多棵决策树共同进行序列预测，能够有效提取高维特征序列间复杂的非线性关系，但在数据噪声问题严重时容易出现过拟合现象，难以基于低质量的工业大数据进行准确时空序列预测。

随着深度学习技术的发展，具有丰富隐藏层的神经网络在提取样本数据的抽象特征和内在规律方面表现出了较强能力，模型识别及预测精度不断提高，近年来已经在时空序列预测方面取得突破性进展。卷积神经网络可以通过卷积、池化等操作挖掘数据的空间相关性，但序列的空间依赖关系会受到复杂跨域特征的交叉影响，现有研究仅利用卷积神经网络构建空间视图，难以捕获序列间高度动态的空间关系，预测性能有待提高。循环神经网络可以利用反向传播算法不断更新模型中的权重参数，从而提取时间序列的历史发展规律，但现有研究大都只利用循环神经网络捕获单一时序关系，只考虑时间序列的长期发展模式，或只考虑短期历史数据的直接作用，没有同时考虑周期性与突变性的多重影响，对现有时序数据利用不充分。

综上所述，目前的研究工作主要存在的问题是，难以捕获序列间高度动态的空间关系，而且没有同时考虑周期性与突变性的多重影响，预测精度有待提高。

发明内容

本发明为了解决现有技术中的问题，提出一种基于多层注意力机制的时空序列预测方法及设备。

本发明是通过以下技术方案实现的，本发明提出一种基于多层注意力机制的时空序列预测方法，所述方法具体包括以下步骤：

步骤1.获得所有与待预测时空序列相关的时空序列历史监测数据；

步骤2.根据各类时空序列是否会在区域之间扩散传播，对输入模型的时空序列进行划分，将序列划分为直接影响因素、间接影响因素和跨域因素；

步骤3.计算各监测站点间的空间相关性，然后融合多种特征对时空序列的复合影响提取历史数据特征；

步骤4.根据步骤3的输出，计算多粒度时空序列关系；

步骤5.计算不同粒度时序关系对待预测时空序列的影响权重；

步骤6.结合步骤5中得到的影响权重对不同时序关系进行融合，获得待预测时空序列。

进一步地，所述步骤1具体为：空间区域内所有结点的集合为S＝{s₁,s₂,…,s_N}，N为结点数量，用La＝(la₁,la₂,…,la_N)∈R^N分别表示各结点所处的纬度位置，Lo＝(lo₁,lo₂,…,lo_N)∈R^N表示各结点所处的经度位置；给定历史时间窗口T＝{t₁,t₂,…,t_H}，H为时间长度，在历史时间窗口长度为H时，通过传感器收集所有与待预测序列相关的时空序列历史监测数据，表示为X＝(x₁,x₂,…,x_H)∈R^P×N×H，其中P为相关时空序列的数量。

进一步地，在步骤2中：

用I＝(i₁,i₂,…,i_H)∈R^G×N×H表示会对待预测时空序列产生直接影响的特征，这类特征不会在区域之间发生扩散传播现象，其中G为直接影响因素数量；

用O＝(o₁,o₂,…,o_H)∈R^K×N×H表示会对待预测时空序列产生间接影响的特征，其中K为间接影响因素数量；

用V＝(v₁,v₂,…,v_H)∈R^D×N×H表示会对相邻结点间的时空序列产生影响的跨域因素因子，其中D为跨域因素数量。

进一步地，所述步骤3具体为：

提取间接影响因素对于目标时空序列的影响：以各结点所处的纬度位置La∈R^N、各结点所处的经度位置Lo∈R^N和跨域因素V＝(v₁,v₂,…,v_H)∈R^D×N×H作为输入，以“小时”为粒度提取各站点间的动态相关性；所述间接影响因素提取方法如下：

假设目标站点为s_i，历史时间点为t，定性地判断所有站点s_j与目标站点s_i的关联性

若站点s_j在t时间步的状态会对目标站点s_i产生影响，则关联性

的取值为1，否则为0，具体计算方式如下：

其中，la_i是目标站点所处的纬度位置，lo_i是目标站点所处的经度位置，la_j是邻域站点s_j所处的纬度位置，lo_j是邻域站点s_j所处的经度位置，

是邻域站点s_j在t时间步的u风速，

是邻域站点s_j在t时间步的v风速；

定性判断出所有在t时间步的状态会对目标站点s_i产生影响的站点后，定量计算所有站点在t时间步对目标站点的影响程度，方法如下所示：

其中，s_j是所有满足要求

的监测站点，若监测站s_j在t时间步与目标站点s_i的关联性

为0，那么监测站s_j在t时间步对s_i的影响程度

也为0；α为常数；

以跨域因素V＝(v₁,v₂,…,v_D)∈R^D×N×H为输入，利用卷积神经网络逐“小时”提取各站点之间的动态相关性，得到各结点对其他结点时空序列的间接影响：

其中，

是目标结点i在t时间步的跨域因素，

和b都是可训练参数，f是激活函数，

是结点i在t时间步对邻域结点的间接影响；

为结点i在t时间步的影响程度；

假设目标结点为s_i，则邻域结点s_j对目标结点的间接影响程度即为

为准确衡量所有结点对目标结点序列的影响程度，根据结点特征矩阵计算目标结点与各邻域结点的相似性，利用向量积分别计算各邻域结点j对结点i的影响程度，然后利用softmax函数将所有结点在t时间步对目标结点s_i的影响归一化，确保所有邻域结点对目标的影响权重之和为1：

利用两个可训练参数自适应地调节目标结点i的间接特征受到自身及跨域因素的综合影响，得到目标结点在自身与其他所有邻域结点共同影响下的间接历史特征，计算方法如下所示：

其中，σ为RELU函数，W₁与W₂均为可训练参数；

为站点s_i在t时间步的间接历史特征；

表示目标结点i的间接特征，

表示目标结点i与其他邻域结点j的间接特征；

综合考虑间接因素的跨域影响后，考虑间接特征与直接特征在t时间步对目标结点的共同作用，将结点i在t时间步的直接影响因素与间接影响因素在通道维度上进行拼接，得到站点s_i在t时间步的历史特征：

其中，

表示站点s_i在t时间步的单位历史特征；

对每个时间步都执行以上提取方法，从而能够充分考虑结点间复杂的动态相关性，获得历史数据特征Z＝(z₁,z₂,…,z_H)∈R^(G+K)×N×H。

进一步地，在步骤4中：所述计算多粒度时空序列关系包括提取时空序列的长期发展模式的实现方法；

提取时空序列的长期发展模式的具体实现方法如下：

首先，在获得历史数据特征Z＝(z₁,z₂,…,z_H)∈R^(G+K)×N×H的前提下，假设目标时间为f，先提取目标数据在f前一周的发展模式，即长期发展模式，提取步骤如下：

分别将目标时间f前一周内每一日的历史特征输入LSTM，利用编码器结构提取相应的时空序列发展模式：

其中D^d为f前d日的时空序列演化模式，||表示通道维度上的串联操作；h^d和c^d分别为LSTM在前d日的隐藏状态和细胞状态，h_t0表示初始隐藏状态，c_t0表示初始细胞状态；

根据一周内每日的时空序列发展模式，在解码器结构中，利用注意力机制定量计算每日序列特征对长期发展模式的影响程度，综合考虑每日实际情况，准确提取长期发展模式L^f，具体计算过程如下：

其中，h^f-1是解码器在f-1时间步的隐藏状态，W_d是可训练参数。

进一步地，在步骤4中：所述计算多粒度时空序列关系包括提取时空序列的中期发展模式的实现方法：

提取时空序列的中期发展模式的具体实现方法如下：

分别将先前提取的目标时间f前24小时的历史特征输入LSTM单元，得到每个小时的相应隐藏状态：

H^t,(h^t,c^t)＝LSTM(X^t,(h_t0,c_t0))

其中H^t为t时间步的数据特征，h^t和c^t为LSTM在最后一个时间步的隐藏状态和细胞状态；

根据每小时的历史数据特征，在解码器结构中，利用注意力机制定量计算每小时的数据特征对中期发展模式的影响，提取时空序列的中期发展模式M^f，计算过程如下：

其中，h^f-1是解码器在f-1时间步的隐藏状态，W_t是可训练参数。

进一步地，在步骤4中：所述计算多粒度时空序列关系包括提取时空序列的短期突变信息的实现方法；

提取时空序列的短期突变信息的具体实现方法：以历史数据特征作为输入，假设目标时刻为f，提取短期突变信息前，需要判断目标时间步f是否为整个待预测序列中的第1个时间步，如果目标是第1个时间步，则将先前提取的f-1时间步的历史特征X^f-1作为输入，输入LSTM单元，得到神经网络的相应隐藏状态，作为短期突变信息S^f；若目标时间步f不是整个待预测序列中的首个时间步，则将解码器对前一时间步的预测结果Y^f-1作为短期突变信息S^f，保证短期突变信息的时效性。

进一步地，所述步骤5具体为：

在对时间步f进行预测时，将解码器在f-1时间步的隐藏状态h^f-1作为查询向量，利用注意力机制定量计算长期发展模式、中期发展模式与短期突变信息对未来目标序列的影响程度，并利用softmax函数将三者的影响权重归一化：

其中，

是长、中期发展模式与短期突变信息对时间步f的影响权重，h^f ^-1是解码器在f-1时间步的隐藏状态，W_L、W_M与W_S均为可训练参数。

进一步地，所述步骤6具体为：

提取目标序列的长期、中期发展模式与短期突变信息后，综合利用三种模式中蕴含的历史数据信息，预测时刻f的目标序列取值，具体计算方式如下所示：

Y^f＝LSTM(C^f)

其中L^f、M^f和S^f分别是模型根据不同的历史信息提取的时空序列长期发展模式、中期发展模式和短期突变信息，C^f是解码器在f时刻的输入，Y^f即为模型未来时空序列的预测结果；Y＝(y¹,y²,…,y^F)∈R^F×N是N个节点在未来F个时间步的目标时空序列值，即模型输出结果。

本发明还提出一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述基于多层注意力机制的时空序列预测方法的步骤。

与现有技术相比，本发明的有益效果是在不引入噪声的前提下，充分利用邻域数据丰富目标区域的特征信息，捕获不同区域时空序列的空间依赖关系。本发明还可以分别捕获时空序列的长期、中期发展模式及短期突变信息，利用多重时序关系对未来的影响权重，融合多跨度的历史数据对时空序列进行预测。

附图说明

图1是历史数据特征计算方法图；

图2是多重时序关系融合方法图；

图3是基于多层注意力机制的时空序列预测方法结构图；

图4是基于多层注意力机制的时空序列预测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是针对时空序列问题，克服现有技术的不足，提供涉及基于多层注意力机制的时空序列预测方法。本发明基于注意力机制，根据跨领域数据的交叉影响，逐时间步融合多维特征构建历史数据特征，在不引入噪声的前提下，充分利用邻域数据丰富目标区域的特征信息，捕获不同区域时空序列的空间依赖关系。采用LSTM编码器分别捕获时间序列的长期、中期发展模式及短期突变信息，逐步利用注意力机制动态捕获多重时序关系对未来的影响，逐时间步计算相应历史信息的影响权重，最终使用LSTM解码器充分融合多跨度的历史数据，对时空序列进行预测。

结合图1-4，本发明提出一种基于多层注意力机制的时空序列预测方法，所述方法具体包括以下步骤：

所述步骤1具体为：空间区域内所有结点的集合为S＝{s₁,s₂,…,s_N}，N为结点数量，用La＝(la₁,la₂,…,la_N)∈R^N分别表示各结点所处的纬度位置，Lo＝(lo₁,lo₂,…,lo_N)∈R^N表示各结点所处的经度位置；给定历史时间窗口T＝{t₁,t₂,…,t_H}，H为时间长度，在历史时间窗口长度为H时，通过传感器收集所有与待预测序列相关的时空序列历史监测数据，表示为X＝(x₁,x₂,…,x_H)∈R^P×N×H，其中P为相关时空序列的数量。

在步骤2中：

所述步骤3具体为：

的取值为1，否则为0，具体计算方式如下：

是邻域站点s_j在t时间步的u风速，

是邻域站点s_j在t时间步的v风速；

其中，s_j是所有满足要求

的监测站点，若监测站s_j在t时间步与目标站点s_i的关联性

为0，那么监测站s_j在t时间步对s_i的影响程度

也为0；α为常数；

其中，

是目标结点i在t时间步的跨域因素，

和b都是可训练参数，f是激活函数，

是结点i在t时间步对邻域结点的间接影响；

为结点i在t时间步的影响程度；

其中，σ为RELU函数，W₁与W₂均为可训练参数；

为站点s_i在t时间步的间接历史特征；

表示目标结点i的间接特征，

表示目标结点i与其他邻域结点j的间接特征；

其中，

表示站点s_i在t时间步的单位历史特征；

步骤4.根据步骤3的输出，计算多粒度时空序列关系；

在步骤4中：所述计算多粒度时空序列关系包括提取时空序列的长期发展模式的实现方法；

提取时空序列的长期发展模式的具体实现方法如下：

在步骤4中：所述计算多粒度时空序列关系包括提取时空序列的中期发展模式的实现方法：

提取时空序列的中期发展模式的具体实现方法如下：

H^t,(h^t,c^t)＝LSTM(X^t,(h_t0,c_t0))

在步骤4中：所述计算多粒度时空序列关系包括提取时空序列的短期突变信息的实现方法；

所述步骤5具体为：

其中，

所述步骤6具体为：

Y^f＝LSTM(C^f)

其中L^f、M^f和S^f分别是模型根据不同的历史信息提取的时空序列长期发展模式、中期发展模式和短期突变信息，C^f是解码器在f时刻的输入，Y^f即为模型未来时空序列的预测结果；Y＝(y¹,y²,…,y^F)∈R^F×N是N个节点在未来F个时间步的目标时空序列值，即模型输出结果。由于对各时间步的预测不完全依赖上一时间步的输出，该方法也避免了长期序列预测中常见的误差累积问题。

本发明公开的基于多层注意力机制的时空序列预测方法可以达到如下有益效果：在不引入噪声的前提下，充分利用邻域数据丰富目标区域的特征信息，捕获不同区域时空序列的空间依赖关系。本发明还可以分别捕获时空序列的长期、中期发展模式及短期突变信息，利用多重时序关系对未来的影响权重，融合多跨度的历史数据对时空序列进行预测。

以上对本发明所提出的一种基于多层注意力机制的时空序列预测方法及设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多层注意力机制的时空序列预测方法，其特征在于：所述方法具体包括以下步骤：

步骤4.根据步骤3的输出，计算多粒度时空序列关系；

2.根据权利要求1所述的方法，其特征在于：所述步骤1具体为：空间区域内所有结点的集合为S＝{s₁,s₂,…,s_N}，N为结点数量，用La＝(la₁,la₂,…,la_N)∈R^N分别表示各结点所处的纬度位置，Lo＝(lo₁,lo₂,…,lo_N)∈R^N表示各结点所处的经度位置；给定历史时间窗口T＝{t₁,t₂,…,t_H}，H为时间长度，在历史时间窗口长度为H时，通过传感器收集所有与待预测序列相关的时空序列历史监测数据，表示为X＝(x₁,x₂,…,x_H)∈R^P×N×H，其中P为相关时空序列的数量。

3.根据权利要求2所述的方法，其特征在于：在步骤2中：