CN116579447A

CN116579447A - 一种基于分解机制和注意力机制的时间序列预测方法

Info

Publication number: CN116579447A
Application number: CN202211636814.5A
Authority: CN
Inventors: 张林鹏; 李正浩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-08-11

Abstract

本发明涉及一种基于分解机制和注意力机制的时间序列预测方法，属于时间序列预测领域，获取目标数据的历史数据，对历史数据进行预处理，将预处理过的历史数据输入到训练完成的时间序列预测模型中，得到预测序列；所述时间序列预测模型包括可逆标准化模块、时间序列分解模块、时间卷积网络、多头自注意力模块；本发明将时间序列分解模块、时间卷积网络和多头自注意力机制相结合，利用时间序列分解模块获取趋势信息和季节信息，利用多头自注意力机制获取注意力信息，合理设置时间卷积网络结构，实现了对历史时间序列关系的高效挖掘和预测，同时采用可逆标准化模块，增强了数据的分布一致性，能够很好的进行多变量时间序列预测。

Description

一种基于分解机制和注意力机制的时间序列预测方法

技术领域

本发明属于时间序列预测领域，涉及一种基于分解机制和注意力机制的时间序列预测方法

背景技术

时间序列是指一组按照时间上发生的先后顺序进行排列的数据序列，在金融、能源、气象、医疗等领域存在着大量的时间序列数据。挖掘数据与数据之间的关系可以让我们灵活运用已有数据为未来决策提供技术支持。研究如何从大规模、高维度的时间序列数据中获取相关信息，具有很高的实用价值。时间序列预测指的是通过分析时间序列的历史情况，找出时间序列的变化趋势，并根据得出的结论预测未来时间节点下的时间序列数值。

当前的时间序列预测方法主要分为传统时间序列预测方法、基于机器学习的时间序列预测方法、基于深度学习的时间序列预测方法三大类。对于传统时间序列预测方法而言，该类方法是基于历史时间序列的统计特征来对建立统计学模型并求解，存在着参数敏感性高、依赖专业领域知识等缺点；对于基于机器学习的时间序列预测方法而言，现有的方法过度依赖于机器学习模型的选择和特征的发现选择，因此难以进行使用场景的迁移；对于基于深度学习的时间序列预测方法而言，该类方法目前以神经网络类模型为主，但存在着计算复杂度高、历史数据利用不充分等缺点。

发明内容

有鉴于此，本发明的目的在于提供一种基于分解机制和注意力机制的时间序列预测方法。

为达到上述目的，本发明提供如下技术方案：

一种基于分解机制和注意力机制的时间序列预测方法，包括以下步骤：

S1：获取原始时间序列数据集，并对数据集中的数据进行标准化处理，按照比例划分为训练集、验证集、测试集；

S2：对训练集中的时间序列样本进行正标准化处理，得到标准化时间序列；

S3：将标准化时间序列进行时间序列分解，得到初始季节分量和初始趋势分量；

S4：统一输出维度与目标序列相同，将初始季节分量和初始趋势分量处理得到最终季节分量和最终趋势分量；

S5：将标准化时间序列输入到时间卷积网络中，通过多个时间卷积块得到初始预测序列；

S6：将标准化时间序列输入到多头自注意力模块中，得到注意力预测序列；

S7：将最终季节分量、最终趋势分量、初始预测序列、注意力预测序列相加，得到最终预测序列；

S8：对最终预测序列进行逆标准化处理，得到标准化预测序列；

S9：根据标准化预测序列和真实时间序列计算时间序列预测模型的MSE损失函数；

S10：设置初始学习率，使用分段常数衰减调整学习率；

S11：使用Adam算法优化模型，根据学习率动态调整模型参数，当损失函数最小时，完成模型训练；

S12：利用测试集、验证集对训练好的模型进行测试和验证无误后，对时间序列关系进行预测。

进一步，步骤S2所述对训练集中的时间序列样本进行正标准化处理，公式如下：

其中，表示输入序列的平均值，x_i表示第i时刻的时间序列值，N表示输入的时间序列长度；σ表示输入序列的标准差，/>表示经过正标准化处理后的第i时刻的时间序列值。

进一步，步骤S4中所述将初始季节分量和初始趋势分量输入到线性层，统一输出维度与目标序列相同，得到最终季节分量和最终趋势分量，具体包括以下步骤：

S41：根据平均核大小调整数据两端的补全数据，对补全后的数据进行一维平均池化，获得初始趋势分量；

S42：将补全数据与初始趋势分量相减，获得初始季节分量。

进一步，步骤S5所述的时间卷积网络包括六个串联的时间卷积块，每个时间卷积块包含两个一维扩张卷积层、两个剪切层；

步骤S5中所述将标准化时间序列输入到时间卷积网络中，通过多个时间卷积块得到初始预测序列，具体包括：

将标准化时间序列输入到一维扩张卷积层中，然后经过剪切层剪切首部多余的数据，保证预测的信息流传递是单向的，再依次输入一维扩张卷积层和剪切层；采用时间卷积网络提取长短期特征的计算公式为：

其中，表示经过正标准化处理后的时间序列样本，Conv表示一维扩张卷积，Chomp表示剪切层，Dropout表示随机失活函数，ReLU表示非线性激活函数，F_t表示经过一个基本扩张卷积单元处理过的时间序列，F_c表示经过一个时间卷积块处理过的时间序列，Conv1D表示一维卷积，F_T表示经过时间卷积网络提取的时间特征。

进一步，步骤S6所述的将标准化时间序列输入到多头自注意力模块中，得到注意力预测序列，具体包括以下步骤：

S61：将标准化时间序列输入线性层，获得初始时间序列分量；

S62：将初始时间序列分量分别输入三个不同的线性层，获得最终查询分量、最终键值分量、最终数值分量；

S63：对最终查询分量、最终键值分量、最终数值分量进行自注意力运算，得到自注意力预测分量；

S64：将自注意力预测分量输入线性层，调整输出维度，得到注意力预测序列。

进一步，步骤S64中所述得到注意力预测序列的公式如下：

Q＝W_Qx_t

K＝W_Kx_t

V＝W_Vx_t

其中，表示经过正标准化处理后的时间序列样本，Linear表示线性层，x_t表示初始时间序列分量，Q、K、V分别表示查询分量、键值分量、数值分量，W_q、W_K、W_V分别表示查询分量、键值分量、数值分量对应的权值矩阵，F_A表示注意力预测序列，Softmax表示归一化指数函数，K^T表示键值分量的转置分量，d_k表示模型尺度。

进一步，步骤S8所述的对最终预测序列进行逆标准化处理公式如下：

其中，表示最终预测序列，σ表示输入序列的标准差，/>表示输入序列的平均值，表示标准化预测序列。

进一步，步骤S9所述MSE损失函数为：

其中，N表示预测序列的长度，y_p表示预测时间序列值，y_t表示真实时间序列值。

本发明的有益效果在于：本发明设计的时间序列预测方法将时间序列分解模块、时间卷积网络和多头自注意力机制相结合，利用时间序列分解模块获取趋势信息和季节信息，利用多头自注意力机制获取注意力信息，合理设置时间卷积网络结构，实现了对历史时间序列关系的高效挖掘和预测，同时采用了可逆标准化模块，增强了数据的分布一致性，能够很好的进行多变量时间序列预测。与现有技术相比，本发明提出的方法在预测效果上有显著提升，其中，均方误差(MSE)和平均绝对误差(MAE)平均分别提升了15.64％和11.99％，每轮平均训练时间减少了57.15％。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的一种优选实施例的时间序列预测方法的结构图；

图2为本发明的一种可逆标准化模块结构图；

图3为本发明的一种时间序列分解模块结构图；

图4为本发明的一种时间卷积网络结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，本发明提供一种基于分解机制和注意力机制的时间序列预测方法，

该方法包括：获取历史时间序列，对历史数据进行预处理，将预处理过的历史数据输入到训练完成的时间序列预测模型中，得到预测序列；所述时间序列预测模型包括可逆标准化模块、时间序列分解模块、时间卷积网络、多头自注意力模块。

对时间序列预测模型进行训练的过程包括：

S1：获取原始时间序列数据集，并对数据集中的时间序列进行标准化处理，得到训练集、验证集和测试集。所述原始时间序列数据集为Weather、Electricity、ETT、Illness、Traffic、Exchange，所述标准化处理是将计算每列时间序列的均值和标准差，重新对时间序列进行赋值，使其符合高斯分布；

S2：将标准化后的训练集中的时间序列数据样本输入到可逆标准化模块中，进行样本数据的正标准化，得到标准化时间序列；

S3：将标准化时间序列输入到时间序列分解模块中，进行时间序列分解，得到初始季节分量和初始趋势分量；

S4：对初始季节分量和初始趋势分量输入到线性层，统一输出维度与目标序列相同，得到最终季节分量和最终趋势分量；

S8：将最终预测序列输入到可逆标准化模块，对最终预测序列进行逆标准化处理，得到标准化预测序列；

S10：设置初始学习率，使用分段常数衰减调整学习率；

S11：使用Adam算法优化模型，根据学习率动态调整模型参数，当损失函数最小时，完成模型训练。

对时间序列数据集中的时间序列进行划分，对于ETT数据集，训练集、验证集和测试集分别为12、4、4个月的数据，其余数据集按照7:1:2划分为训练集、验证集和测试集，训练集用于时间序列模型的训练，验证集用于在训练过程中对时间序列模型的效果进行检验，测试集用于最终对时间序列模型的预测效果进行评估。

对训练集中的时间序列样本进行正标准化处理的计算公式为：

其中，x_i表示第i时刻的时间序列值，N表示输入的时间序列长度，表示输入序列的平均值，σ表示输入序列的标准差，/>表示经过正标准化处理后的第i时刻的时间序列值。

得到初始趋势分量和初始季节分量的过程包括：

S42：将补全数据与初始趋势分量相减，获得初始季节分量。

时间卷积网络包括六个串联的时间卷积块，一个时间卷积块包含两个一维扩张卷积层、两个剪切层，将标准化时间序列输入到一维扩张卷积层中，然后经过剪切层剪切首部多余的数据，保证预测的信息流传递是单向的，再依次输入一维扩张卷积层和剪切层；六个时间卷积块中的时间卷积扩张率依次为1、2、4、8、16、32，中间的卷积层通道数依次为32、64、128、64、32，首尾卷积层通道数与输入数据保持一致，采用时间卷积网络提取长短期特征的计算公式为：

得到注意力预测序列的过程包括：

得到注意力预测序列的公式：

Q＝W_Qx_t

K＝W_Kx_t

V＝W_Vx_t

对最终预测序列进行逆标准化处理得到标准化预测序列：

根据真实时间序列值和模型预测时间序列值计算时间序列预测模型的MSE损失函数；其表达式为：

为了验证本发明提出方法的有效性，将本发明提出的方法与Autoformer和Informer算法在Weather、Electricity、ETT、Illness、Traffic、Exchange数据集进行预测效果的对比，使用MSE和MAE进行评估，MAE表达式为：

其中，N表示预测序列的长度，y_p表示预测时间序列值，y_t表示真实时间序列值。对于Illness数据集，输入序列长度设置为36，输出序列长度分别为24、36、48、60；对于其他数据集，输入序列长度设置为96，输出序列长度分别为96、192、336、720；结果如表1所示：

表1

此外，将本发明提出的方法与Autoformer和Informer算法在Traffic数据集进行模型效率的对比，使用平均每轮训练时间进行评估，结果如表2所示：

表2

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于分解机制和注意力机制的时间序列预测方法，其特征在于：包括以下步骤：

S10：设置初始学习率，使用分段常数衰减调整学习率；

2.根据权利要求1所述的基于分解机制和注意力机制的时间序列预测方法，其特征在于：步骤S2所述对训练集中的时间序列样本进行正标准化处理，公式如下：

3.根据权利要求1所述的基于分解机制和注意力机制的时间序列预测方法，其特征在于：步骤S4中所述将初始季节分量和初始趋势分量输入到线性层，统一输出维度与目标序列相同，得到最终季节分量和最终趋势分量，具体包括以下步骤：

S42：将补全数据与初始趋势分量相减，获得初始季节分量。

4.根据权利要求1所述的基于分解机制和注意力机制的时间序列预测方法，其特征在于：步骤S5所述的时间卷积网络包括六个串联的时间卷积块，每个时间卷积块包含两个一维扩张卷积层、两个剪切层；

5.根据权利要求1所述的基于分解机制和注意力机制的时间序列预测方法，其特征在于：步骤S6所述的将标准化时间序列输入到多头自注意力模块中，得到注意力预测序列，具体包括以下步骤：

6.根据权利要求5所述的基于分解机制和注意力机制的时间序列预测方法，其特征在于：步骤S64中所述得到注意力预测序列的公式如下：

Q＝W_Qx_t

K＝W_Kx_t

V＝W_Vx_t

7.根据权利要求1所述的基于分解机制和注意力机制的时间序列预测方法，其特征在于：步骤S8所述的对最终预测序列进行逆标准化处理公式如下：

其中，表示最终预测序列，v表示输入序列的标准差，/>表示输入序列的平均值，/>表示标准化预测序列。

8.根据权利要求1所述的基于分解机制和注意力机制的时间序列预测方法，其特征在于：步骤S9所述MSE损失函数为：