CN114139677A

CN114139677A - 一种基于改进gru神经网络的非等间隔时序数据预测方法

Info

Publication number: CN114139677A
Application number: CN202110885221.1A
Authority: CN
Inventors: 孙雁飞; 芦奕霏; 亓晋; 许斌
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2022-03-04

Abstract

本发明揭示了一种基于改进GRU神经网络的非等间隔时序数据预测方法，该方法包括以下步骤：S1：设计连续时间序列下的自适应滑动窗口；S2：面向非等间隔时间序列的GRU模型改进，改进GRU神经网络对划分的序列数据进行预测，并根据S1步骤得到的自适应滑动窗口提供的时间间隔添加调节门，动态调整遗忘信息；S3：引入注意力机制，完成模型训练。本发明设计了一个自适应的滑动窗口，使原来输入的连续时间序列划分为适合模型处理的序列数据，并且实时记录了当前时间步的时间间隔。其次在GRU模型中，本发明针对非等间隔的时间序列做了相应改进，使改进后的模型的预测性能得到一定的提高。

Description

一种基于改进GRU神经网络的非等间隔时序数据预测方法

技术领域

本发明涉及一种基于改进GRU神经网络的非等间隔时序数据预测方法，可用于数据检测技术领域。

背景技术

多维时序数据指的是在日常生活、工业生产以及科学研究等过程中，按照时间顺序记录保存的一系列观测数值，它可以反映出动态***的变化规律以及潜在特性。通过对多维时序数据的观察以及分析，可以挖掘出其中一些有价值的潜在信息与知识，根据这些获取到的信息和知识建立描述数据潜在关系的模型，从而可以对动态***未来的变化趋势做出科学估计，这个分析处理的过程称为数据的预测。由于现实生活中的时序数据往往具有复杂多变的特性，且提取出来的特征变量维度过大，使得对多维时序数据的精准预测存在着巨大的挑战。

循环卷积网络(Recurrent Neural Network，RNN)最初被提出处理序列数据，RNN的基本单元间是参数共享的，且对于输入的历史数据具有一定的记忆性，因此可以对输入序列数据进行特征学习，进而实现数据的预测。然而在面对较长时序数据的预测时，RNN会出现梯度消失和梯度***等问题。

为解决RNN面临较长序列预测出现的问题，有人在RNN的基础上提出了长短期记忆网络(Long Short-Term Memory，LSTM)和门控循环单元(Gated Recurrent Unit，GRU)，两者都可以解决RNN的长期依赖问题，而相比LSTM，GRU的张量操作少，速度更快。但现有GRU在处理连续冗长非等间隔时间序列时，由于无法确定输入模型的时序数据的切分长度，导致其预测时间的不稳定，以及因为无法确定不同时间间隔下重置门遗忘信息的多少而导致其预测性能不佳。

文献《一种基于模糊控制循环神经网络的时序金融数据预测方法》(申请号：CN202010016983.3)提供了一种基于模糊控制循环神经网络的时序金融数据预测方法。该发明将针对金融时序数据中时间间隔非等数据，结合模糊控制，设计出一种新的循环神经网络模型，最终的模型可以将数据集中的时间间隔和数据波动水平信息高效的运用于模型的训练以及预测中，提高模型的预测准确度。

该文献主要针对GRU模型在处理非等间隔时间序列时无法在模型中体现其时间间隔变化的缺陷，通过模糊控制器使记忆层在保留信息的过程中能够对当前数据的波动水平有自适应调整，根据前一时间步的信息和当前时刻到前一时间步的间隔决定记忆层有多少信息从前一时间步保留到当前时间步。

该文献的不足之处是：文献所假设的场景是划分好的时间序列，而在实际场景中，时序数据都是一条连续冗长不间断的时间序列，所以该文献的应用场景受到了极大的限制；其次，该文献利用模糊控制理论确定不同时间间隔下遗忘信息的多少，但对于时间间隔的获取方法并未给出具体说明，无法解决时间间隔的实时变化性问题；最后，针对该文献中利用的模糊控制理论是完全凭经验获得模糊规则及隶属函数即***的设计办法，导致了不完善的模糊规则下模型的预测性能将会大大降低。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提出一种基于改进GRU神经网络的非等间隔时序数据预测方法。

本发明的目的将通过以下技术方案得以实现：一种基于改进GRU神经网络的非等间隔时序数据预测方法，

该方法包括以下步骤：

S1：设计连续时间序列下的自适应滑动窗口，根据窗口内观测到的数据个数恒定不变，以自适应调整窗口大小，并采用完全更新的方式更新窗口内的元素；

S2：面向非等间隔时间序列的GRU模型改进，改进GRU神经网络对划分的序列数据进行预测，并根据S1步骤得到的自适应滑动窗口提供的时间间隔添加调节门，动态调整遗忘信息；

S3：引入注意力机制，完成模型训练，从众多信息中选择出对当前任务目标更关键的信息，有效捕捉数据的动态变化特征，使相关性分析更加准确，时间序列通过注意力机制后能快速捕捉特定范围数据的动态变化特征，提高模型的预测精度，进而完成模型的训练。

优选地，所述S1步骤包括以下步骤：

S10：确定滑动窗口的模型；使用基于元素个数的滑动窗口模型，表示某个时刻窗口内能观测到的数据的个数为恒定，即元素个数守恒；

S11：确定滑动窗口的窗口宽度W；

根据实时传入的数据量的大小x_n动态确定窗口的宽度，即根据给定的元素个数x₀自适应调整窗口大小，当x_n＜x₀，增大窗口宽度，以提高预测的精度，否则，缩小窗口宽度，避免数据量过多导致预测压力过大，预测模型精度不稳；

S12：确定窗口内元素的更新方式

采用完全更新的方式，当传入的数据量大小x_n达到给定的元素个数x₀，计算当前窗口的时间间隔系数δ_t，其计算公式为：

将计算结果与滑动窗口截取的子序列同时传入GRU模型中进行预测，待预测结束后将窗口内的所有数据完全更新，即下一时间步的数据量大小 x_n+1达到给定的元素个数x₀。

优选地，所述S2步骤包括以下步骤：

S20：将X(t)输入到自适应滑动窗口(ASW)中，将序列进行切分，并从窗口中获取当前时间步与上一时间步之间的时间间隔系数δ_t，将其输入调节门中，由调节门中的失效函数确定遗忘信息的多少，失效函数的参考公式为：

Invalid(δ_t)∝1/δ_t (1)

上式表明失效函数与当前时间步t与上一时间步t-1之间的间隔系数δ_t成反比；

S21：在记忆层h_t-1的信息进入到下个记忆层之前，会通过一个调节门来决定有多少信息会通过调节门，并使用激活函数tanh将输入映射到输出，即：

h′_t-1＝h_t-1tanh(1-Invalid(δ_t)) (2)

式中，h′_t-1表示通过调节门处理的前一记忆层信息，h_t-1表示处理前的记忆层信息；

S22：将经过调节的前一记忆层信息输入到重置门r_t中，由其确定被写入到候选集中的信息量，其计算公式为：

r_t＝σ(W_rx_t+U_rh′_t-1+b_r) (3)

式中，σ为sigmoid激活函数，x_t为经过滑动窗口切分的当前时间步的序列数据，W_r、U_r、b_r为重置门的网络参数；

S23：更新门z_t用于控制调节后的前一隐藏层信息保留到当前隐藏层的数量，其计算公式为：

z_t＝σ(W_zx_t+U_zh′_t-1+b_z) (4)

h′_t＝tanh(Wx_t+U(r_t⊙h′_t-1)+b) (5)

上式中，z_t为更新门的输出，h′_t为记忆层候选集的输出，W_z、U_z、b_z为更新门的网络参数，W、U、b为候选集的网络参数；

S24：经过GRU模型的三个单元处理后，得到当前记忆层的输出为：

h_t＝(1-z_t)⊙h′_t-1+z_t⊙h′_t (6)

O_t＝f(W_oh_t) (7)

上式中，O_t为输出层的输出，W_o为输出层的网络参数。

优选地，所述S3步骤包括以下步骤：

S30：将query(Q)和每个key(K)通过点积、拼接或感知器等相似度函数计算得到各时间步的输出层输出结果的权重；

S31：通过softmax函数对得到的权重进行归一化处理；

S32：将权重和与之相对应的value(V)加权求和得出最后的Attention，其计算公式如下：

式中，Q是GRU预测模型中输出层输出O_t的分解向量，

是设定的调节因子；

S33：计算加权后的GRU神经网络模型的预测输出值和实际观测值之间的均方误差，以最小化模型预测值与实际值为目标，使用优化器优化模型参数，对模型反向传播训练，在多批次训练后得到最优预测模型。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明设计了一个自适应的滑动窗口，使原来输入的连续时间序列划分为适合模型处理的序列数据，并且实时记录了当前时间步的时间间隔。其次在GRU 模型中，本发明针对非等间隔的时间序列做了相应改进，使改进后的预测模型的预测性能得到一定的提高。

附图说明

图1为本发明的一种基于改进GRU神经网络的非等间隔时序数据预测模型构建流程示意图。

图2为本发明的面向非等间隔时间序列的改进GRU模型图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明揭示了一种基于改进GRU神经网络的非等间隔时序数据预测方法，如图1所示，该方法包括以下步骤：

在S1步骤中，本技术方案使用基于元素个数的滑动窗口模型，表示某个时刻窗口内能观测到的数据的个数是恒定的，即元素个数守恒。通过此模型可以解决非等间隔连续时序数据的分段问题，避免了当某个时间步内数据量过大或过小导致预测精度不稳定的问题。

具体地，在本技术方案中，所述S1步骤包括以下步骤：

S11：确定滑动窗口的窗口宽度W；

窗口宽度W对于滑动窗口而言至关重要，W的宽度决定了每次截取到的数据点的个数，即观测的数据量。根据实时传入的数据量的大小x_n动态确定窗口的宽度，即根据给定的元素个数x₀自适应调整窗口大小，当 x_n＜x₀，增大窗口宽度，以提高预测的精度，否则，缩小窗口宽度，避免数据量过多导致预测压力过大，预测模型精度不稳。

S12：确定窗口内元素的更新方式

如图2所示为拟设计的改进GRU模型，图中“+”表示加法运算符，“-” 表示负号，“×”表示乘法运算符，X(t)为输入，经过滑动窗口(ASW模块) 处理后得到时间间隔系数δ_t和时间序列x(t)，h_t表示记忆层，既代表当前的输出，又表示下一层的输入。虚线框中的部分为本发明针对非等间隔时间序列，在原有的GRU模型上添加了一个调节门(Regulate-gate)，具体改进在以下步骤中陈述。

所述S2步骤包括以下步骤：

Invalid(δ_t)∝1/δ_t (1)

上述公式表明失效函数与当前时间步t与上一时间步t-1之间的间隔系数δ_t成反比；

h′_t-1＝h_t-1tanh(1-Invalid(δ_t)) (2)

式中，h′_t-1表示通过调节门处理的前一记忆层信息；h_t-1表示处理前的记忆层信息；

r_t＝σ(W_rx_t+U_rh′_t-1+b_r) (3)

z_t＝σ(W_zx_t+U_zh′_t-1+b_z) (4)

h′_t＝tanh(Wx_t+U(r_t⊙h′_t-1)+b) (5)

h_t＝(1-z_t)⊙h′_t-1+z_t⊙h′_t (6)

O_t＝f(W_oh_t) (7)

上式中，O_t为输出层的输出，W_o为输出层的网络参数。

注意力机制的本质是一个query(Q)到一系列(key(K)-value(V)) 键值对的映射。通过Query和Key用来计算对应Value的权重系数，对键值对中元素的Value值进行加权求和得到Attention值，从上述预测模型的输出中得到预测数据的重要特征，具体步骤如下。

所述S3步骤包括以下步骤：

S30：S30：将query(Q)和每个key(K)通过点积、拼接或感知器等相似度函数计算得到各时间步的输出层输出结果的权重；

S31：通过softmax函数对得到的权重进行归一化处理；

式中，Q是GRU预测模型中输出层输出O_t的分解向量，

是设定的调节因子，避免因QK^T的结果过大导致softmax非零即一的极端情况。

基于改进GRU神经网络模型的非等间隔时序数据预测方法的技术关键点主要有两部分：连续时间序列下自适应滑动窗口的设计和面向非等间隔时间序列的GRU模型改进。本技术方案想保护：连续时间序列下自适应滑动窗口的设计和面向非等间隔时间序列的GRU模型改进。

一种基于改进后的GRU网络构建了一个多维时序数据预测模型图的具体流程如图1所示，

输入已有的连续时间序列，根据序列数据设计一个基于时间序列特性的可自适应调整滑动窗口，接收数据的同时，根据时序数据特征，有选择地改变滑动窗口宽度；同时，记录滑动窗口宽度与时间间隔参数，与切分后的时序数据一并输入到改进GRU预测模型中，最后依据预测得到的数据与实际数据设计损失函数，对模型进行多批次反向传播训练，以便更新模型参数完善模型。

使用基于元素个数的滑动窗口设计方法，根据窗口内观测到的数据个数恒定不变，以自适应调整窗口大小，更新窗口内的元素。改进GRU神经网络对切分的序列数据进行预测，并根据自适应滑动窗口提供的时间间隔添加调节门，动态调整遗忘信息。注意力机制(Attention Mechanism，AM)可以从众多信息中选择出对当前任务目标更关键的信息，有效捕捉数据的动态变化特征，使得相关性分析能更加准确，而时间序列通过注意力机制后能快速捕捉特定范围数据的动态变化特征，提高模型的预测精度，进而完成模型的训练。

针对输入的数据时间间隔具有不稳定的特性，在输入数据前添加一个自适应滑动窗口，在自适应切分连续数据的同时获取数据间的时间间隔，从而解决时间间隔的时变问题，提高预测模型的可用性；其次，为了解决多维时序数据下遗忘信息的量不确定导致预测性能不可靠的问题，在GRU 原有模型的重置门之前添加一个调节门，根据接收到的数据实时时间间隔，确定实时状态下的遗忘信息的多少，进而提高模型的预测性能。

本发明可以应用于目前金融领域或者工业领域中实时产生的连续非等间隔多维时序数据。首先设计一个基于元素个数的自适应滑动窗口，将这些连续不间断的序列划分为适合模型处理的间断序列，并将当前时间步的实时时间间隔传入到模型中；其次，GRU模型接收到时间间隔参数，根据设计的调节门中的调节函数进行处理，明确了前一时间步到当前时间步的遗忘信息量，从而计算出当前的预测输出值；最后，通过引入注意力机制，为预测的输出值进行权重衡量，获取数据间的依赖关系，与实际观测值进行误差分析，通过不断更新模型的参数完成预测模型的训练。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于改进GRU神经网络的非等间隔时序数据预测方法，其特征在于：

该方法包括以下步骤：

2.根据权利要求1所述的一种基于改进GRU神经网络的非等间隔时序数据预测方法，其特征在于：所述S1步骤包括以下步骤：

S11：确定滑动窗口的窗口宽度W；

S12：确定窗口内元素的更新方式

将计算结果与滑动窗口截取的子序列同时传入GRU模型中进行预测，待预测结束后将窗口内的所有数据完全更新，即下一时间步的数据量大小x_n+1达到给定的元素个数x₀。

3.根据权利要求1所述的一种基于改进GRU神经网络的非等间隔时序数据预测方法，其特征在于：

所述S2步骤包括以下步骤：

Invalid(δ_t)∝1/δ_t (1)

S21：在记忆层的信息进入到下个记忆层之前，会通过一个调节门来决定有多少信息会通过调节门，并使用激活函数tanh将输入映射到输出，即：

h′_t-1＝h_t-1tanh(1-Invalid(δ_t)) (2)

r_t＝σ(W_rx_t+U_rh′_t-1+b_r) (3)

S23：更新门用于控制调节后的前一隐藏层信息保留到当前隐藏层的数量，其计算公式为：

z_t＝σ(W_zx_t+U_zh′_t-1+b_z) (4)

h′_t＝tanh(Wx_t+U(r_t⊙h′_t-1)+b) (5)

S24：经过GRU模型的三个单元处理后，得到处理后的当前记忆层的输出为：

h_t＝(1-z_t)⊙h′_t-1+z_t⊙h′_t (6)

O_t＝f(W_oh_t) (7)

上式中，O_t为输出层的输出，W_O为输出层的网络参数。

4.根据权利要求1所述的一种基于改进GRU神经网络的非等间隔时序数据预测方法，其特征在于：

所述S3步骤包括以下步骤：

S31：通过softmax函数对得到的权重进行归一化处理；

式中，Q是GRU预测模型中输出层输出O_t的分解向量，

是设定的调节因子；