CN113392139A

CN113392139A - 一种基于关联融合的多元时间序列补全方法及***

Info

Publication number: CN113392139A
Application number: CN202110624648.6A
Authority: CN
Inventors: 刘财政; 刘盛华; 沈华伟; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-14
Anticipated expiration: 2041-06-04
Also published as: CN113392139B

Abstract

本发明提出一种基于关联融合的多元时间序列补全方法和***，包括：获取数据存在缺失的多元时间序列及其对应的标记矩阵；根据多元时间序列中每个时间点的各个属性，得到属性间的关联系数，以构建图G，图G中节点对应属性，节点间的边对应属性间的属性关联系数；通过将图G和待补全矩阵按位相乘，得到中间矩阵，通过神经网络对中间矩阵进行时序处理，得到多元时间序列中各时间点的隐藏状态；根据各时间点的隐藏状态，计算多元时间序列的时间关联性系数；通过将时间关联性系数和各时间点的隐藏状态按位相乘，得到多元时间序列中各时间点的中间状态；在多元时间序列中，对中间状态采用生成式的非线性变换，得到多元时间序列的重构补全数据。

Description

一种基于关联融合的多元时间序列补全方法及***

技术领域

本发明涉及数据挖掘领域，特别涉及一种基于关联融合的多元时间序列补全方法和***。

背景技术

在当今这样一个信息技术高度发达并广泛应用的世界中，人们社会生活的数字化程度越来越高，人们对互联网的依赖也越来越强。多元时间序列数据是按照时间排序的一组随机变量，它通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果。多元时间序列数据本质上反映的是某个或者某些随机变量随时间不断变化的趋势，而多元时间序列预测方法的核心就是从数据中挖掘出这种规律，并利用其对将来的数据做出估计。多元时间序列分析广泛应用在生物，医疗，气象，股票交易等场景中。例如在股票交易场景中，股票交易信息包括时间，股价，交易量，交易者等，其中每个属性叫做元。多元时间序列存在复杂的时间和关联关系，具体来说：(1)属性关联性。多元时间时间序列数据的每一个时间点的各个维度之间存在关联。(2)时间关联性。多元时间序列随时间动态变化，主要反映在自相关性和趋势中。例如气象观测数据，每一小时，每一天，每一周的观测值存在随着时间动态变化的特征。在进行多元时间序列分析时，如图1，数据缺失是大多数科学研究领域中的常见问题。在某些数据集中，丢失率可达到90％，这使得数据难以被使用，其中导致数据缺失的原因是时间序列数据可能来自不同的来源，数据处理不当，信噪比低，测量误差，无响应或删除的异常值以及人为误操作等。数据缺失已被公认是科学研究和企业生产的主要问题，即使最精心设计和执行的研究也会产生缺失值。缺失数据阻碍了解释和理解所研究现象的能力，研究结果很大程度上取决于对这些观察结果的分析，因此，缺失的数据对科学研究的有效性构成了挑战。缺失的值会严重损害对多元时间序列的分析，例如分类或回归、顺序数据集成和预测任务，从而导致对数据补全的需求极高。面对多元时间序列数据补全的高需求，研究人员进行了大量研究，提出了很多模型和方法，当前的方法主要包括以下几类：

(1)基于统计分析的方法：基于统计分析的算法主要可以分为两类，第一类直接删除缺失值，包括简单删除，成对删除和成列删除等。这些基于删除的方法在面对较高的数据缺失率时，将会面临分析性能急剧下降的问题。另一类是用统计值进行填充，包括均值、中间值、众数和最近一次有效观察值。

(2)基于机器学习的方法：传统机器学习把补全问题抽象成矩阵分析和张量分解问题以及K近邻问题，同简单统计分析相比，取得较好的填充效果。

(3)基于深度学习的模型：基于深度学习的方法可以分为三类：1)基于VAE的方法。2)基于LSTM的方法。3)基于GAN的方法。VAE作为一个生成模型，把真实样本通过编码器网络变换成一个理想的数据分布，然后这个数据分布再传递给一个解码器网络，得到生成样本，如果生成样本与真实样本足够接近，就训练出了一个自编码器模型。基于LSTM的方法在一个时间步骤中的每个节点都接收来自上一个节点的输入，并且这可以用一个feedback循环来表示。在每个时间步骤中，取一个输入x_i和前一个节点的输出a_i-1，对其进行计算，并生成一个输出h_i。这个输出被取出来之后再提供给下一个节点。此过程将一直继续，直到所有时间步骤都被评估完成。GAN类算法思想包含两个模型，一个生成模型，一个判别模型，这两个模型一起对抗训练，生成模型产生一些数据去欺骗判别模型，然后判别模型去判断这些数据是真是假，最终在这两个模型训练的过程中，两个模型的能力越来越强，最终达到稳态

基于传统机器学习的方法往往只能进行线性关系挖掘，面对多元时间序列的非线性关系时，其特征抽取能力有限。在多元时间序列中，无论是VAE还是GAN模型，在进行学习时，学习到的模型的表达能力有限。多元时间序列数据通常具有较为复杂的关联关系，现有的模型在多元时间序列补全时，并没有抽取或者显式的抽取多元时间序列数据的关联关系或仅仅是用了时间关系。在进行多元时间序列数据补全时，某些时间点有缺失的，在计算每一个缺失的时间点时，就会存在一定误差，随着计算时序的不断延长，误差将逐步累积，尤其当存在一个连续的时间段数据都缺失时，这类模型无法进行准确补全。

发明内容

针对现有技术的不足，本发明提出一种基于关联融合的多元时间序列补全方法，其中包括：

步骤1、获取数据存在缺失的该多元时间序列，对该多元时间序列的数据缺失位置进行标记，得到标记矩阵。

步骤2、根据该多元时间序列中每个时间点的各个属性，得到属性间的关联系数，以构建图G，图G中节点对应属性，节点间的边对应属性间的属性关联系数；

步骤3、通过将该图G和该待补全矩阵按位相乘，得到中间矩阵X’，通过神经网络对该中间矩阵X’进行时序处理，得到该多元时间序列中各时间点的隐藏状态；

步骤4、根据各时间点的隐藏状态，计算该多元时间序列的时间关联性系数；通过将该时间关联性系数和各时间点的隐藏状态按位相乘，得到该多元时间序列中各时间点的中间状态H’；

步骤5、在该多元时间序列中，对中间状态H’采用生成式的非线性变换，得到该多元时间序列的重构补全数据。

所述的基于关联融合的多元时间序列补全方法，其中还包括：

步骤6、根据该标记矩阵和该重构补全数据，通过下式计算缺失值的重构损失loss：

其中M是该标记矩阵，x是该多元时间序列中未缺失数据，

是通过该重构补全数据补全的该多元时间序列中缺失的数据；

步骤7、判断该重构损失loss是否满足预设条件，若是，则输出该重构补全数据作为最终结果，否则再次执行该步骤2。

所述的基于关联融合的多元时间序列补全方法，其中该步骤2包括：

采用图注意力机制得到第一关联系数：

e_ij＝tanh(w·[x_i|x_j]+b)

其中，x_i和x_j是属性i和属性j的值，其中e_ij表示属性i和相邻节点属性j的第一关联系数，w，b均为神经网络学习的参数；

通过对所有属性i的相邻节点属性j进行正则化，得到该属性关联系数a_ij：

a_ij是图G的第i行和第j列的值，表示的是属性i和属性j的该属性关联系数，N表示属性总数。

所述的基于关联融合的多元时间序列补全方法，其中该步骤3包括基于下式对中间矩阵X’进行时序处理：

H＝LSTM(X’)，其中H＝{h₁，h₂，h₃，...，h_t}是该多元时间序列中各时间点的隐藏状态；

该步骤4包括：

根据时间关联性的不同，进行时间关联系数的计算：

β_mn＝sigmod(w·[h_m|h_n]+δ)

其中，h_m和h_n是LSTM每个时间步m和时间步n计算得到隐藏状态，β_mn是该时间关联系数，w，σ均为神经网络学习的参数。

所述的基于关联融合的多元时间序列补全方法，其中该多元时间序列为环境监测数据，环境监测数据中每个时间点的属性包括温度和气压。

本发明还提出了一种基于关联融合的多元时间序列补全***，其中包括：

模块1，用于获取数据存在缺失的多元时间序列，对该多元时间序列的数据缺失位置进行标记，得到标记矩阵；

模块2，用于根据该多元时间序列中每个时间点的各个属性，得到属性间的关联系数，以构建图G，图G中节点对应属性，节点间的边对应属性间的属性关联系数；

模块3，用于通过将该图G和该待补全矩阵按位相乘，得到中间矩阵X’，通过神经网络对该中间矩阵X’进行时序处理，得到该多元时间序列中各时间点的隐藏状态；

模块4，用于根据各时间点的隐藏状态，计算该多元时间序列的时间关联性系数；通过将该时间关联性系数和各时间点的隐藏状态按位相乘，得到该多元时间序列中各时间点的中间状态H’；

模块5，用于在该多元时间序列中，对中间状态H’采用生成式的非线性变换，得到该多元时间序列的重构补全数据。

所述的基于关联融合的多元时间序列补全***，其中还包括：

模块6，用于根据该标记矩阵和该重构补全数据，通过下式计算缺失值的重构损失loss：

其中M是该标记矩阵，x是该多元时间序列中未缺失数据，

模块7，用于判断该重构损失loss是否满足预设条件，若是，则输出该重构补全数据作为最终结果，否则再次执行该模块2。

所述的基于关联融合的多元时间序列补全***，其中该模块2包括：

采用图注意力机制得到第一关联系数：

e_ij＝tanh(w·[x_i|x_j]+b)

所述的基于关联融合的多元时间序列补全***，其中该模块3包括基于下式对中间矩阵X’进行时序处理：

该模块4包括：

根据时间关联性的不同，进行时间关联系数的计算：

β_mn＝sigmod(w·[h_m|h_n]+δ)

所述的基于关联融合的多元时间序列补全***，其中该多元时间序列为环境监测数据，环境监测数据中每个时间点的属性包括温度和气压。

由以上方案可知，本发明的优点在于：

(1)属性关联融合：融合多元时间序列的属性关联性，更好的建模多元时间序列的属性关联性，抽取更多的的关联信息，进行序列补全。

(2)时间关联融合：融合多元时间序列的时间关联性，对融合后的数据进行生成式的非线性变换来获取序列的重构输出，避免在逐步生成的累计误差传播。

(3)新的数据重构方法：通过借助于标记矩阵，只计算缺失值的重构损失，避免了已存在数据对重构的影响，更好的关注缺失数据补全。

附图说明

图1是多元时间序列的输入数据样例；

图2是本发明方法的总体架构图；

图3是本发明方法属性关联模块示意图；

图4是本发明方法时间关联模块示意图；

图5是本发明方法的实施流程图；

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明流程如图2所示，输入数据X为待补全标记矩阵数据，标记矩阵M表示的是缺失的情况，如果是0表示无缺失，如果是1表示有缺失。整个处理过程包括属性关联和时间关联，属性关联模块分为属性关联系数计算和属性关联分配，时间关联模块分为时间关联系数计算和时间关联系数分配，同时本发明方法提出了新数据重构方法和损失函数计算方法。具体来说：

(1)属性关联系数计算：多元时间序列数据存在关联关系，属性例如环境监测数据的温度和气压，股票交易中的股价和交易量。本发明方法属性关联模块构建一个图G，其中将属性看作构成图的点，属性之间的关联系数看作是构成图的边；本发明方法采用图注意力机制进行关联系数计算，如图3所示，具体包括

e_ij＝tanh(w·[x_i|x_j]+b) 公式(一)

其中，x_i和x_j是多元时间序列中的属性i和属性j的值，其中e_ij表示属性i和属性j的关联系数，w，b均为神经网络学习的参数。

通过标记矩阵M判断输入数据是否存在损失，当输入数据存在缺失时，借鉴DropOut的思路，缺失值在计算表示屏蔽w对应的神经元，使之不参与注意力的计算。通过对所有属性i的相邻节点属性j进行正则化，以提高计算效率，其公式是：

a_ij是图G的第i行和第j列的值，表示的是属性i和属性j的正则化关联系数，N表示属性总数；经过属性关联系数计算得到关联融合的图G，且图G的维度和输入数据X的维度相同。

(2)属性关联系数分配：经过属性关联系数计算得到关联融合的G，且图G的维度和输入的数据X的维度相同。图G和输入数据X做按照位置相乘，得到X’，其计算公式是：

X′＝G*X 公式(三)

X’融合了属性关联系数的分配，同时也保持了时间序列的时序性。

(3)时间关联系数计算：本发明方法设计基于注意力机制的时间关联模块，如图4所示，本模块以属性关联融合模块的输出X’为输入，采用标准的LSTM进行时序处理，计算公式是H＝LSTM(X’)，其中H＝{h₁，h₂，h₃，...，h_t}是LSTM在每个时间点的隐藏状态(LSTM学习到的参数)。

(4)根据时间关联性的不同，进行时间关联系数的计算，计算公式是：

β_mn＝sigmod(w·[h_m|h_n]+δ) 公式(四)

其中，H＝{h₁，h₂，h₃，...，h_t}是LSTM在每个时间点的隐藏状态，h_m和h_n是LSTM每个时间步m和时间步n计算得到隐藏状态，β_mn是时间关联系数，w，σ均为神经网络学习的参数。

A＝{β_mn} 公式(五)

(5)时间关联系数计算：根据时间关联系数和LSTM在每个时间点的隐藏状态，进行时间关联系数分配，计算公式是：

H′＝A*H 公式(六)

其中H＝{h₁，h₂，h₃，...，h_t}是LSTM在每个时间点的隐藏状态，h_i(i＝1，2，3，...t)是H的各个时间点的元素，H’是时间关联模块的输出。

(6)新数据重构方法：在多元时间序列中，对H’采用生成式的非线性变换来获取序列的重构输出，避免了在逐步生成的累计误差传播；

(7)重构损失函数计算方法：在多元时间序列补全中，本方法在设计重构损失函数时，通过借助于标记矩阵，只计算缺失值的重构损失，其计算公式是：

其中M是标记矩阵，x是未缺失数据，

是缺失数据的重构值。

本具体实施例中，实施流程如图5所示，对具体实施过程进行详细叙述。具体实施例如下：

步骤1：数据输入：根据输入数据X，得到标记矩阵M，如图1，使用X和M作为本方法的输入。

步骤2：属性关联融合模块：使用X和M作为本模块的输入，采用公式一和公式二计算属性关联，借鉴DropOut的思路，缺失值在计算表示屏蔽w对应的神经元，使之不参与注意力的计算；并采用公式三分配属性关联系数，得到X’。

步骤3：时间关联融合模块：使用属性关联模块的X’作为输入，采用公式四，公式五计算多元时间序列的时间关联性系数；并采用公式六进行时间关联性系数分配，得到H’。

步骤4：数据重构和损失计算：使用H’作为输入，整体生成重构数据，这里的重构方法采用MLP或者非线性全连接进行数据整体生成。采用公式七的损失函数计算方法。

步骤5：算法输出：初始时，随机初始化一个损失函数的值，当损失函数的值小于某个阈值或者不再减少时，结束，输出重构之后的数据

以下为与上述方法实施例对应的***实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

所述的基于关联融合的多元时间序列补全***，其中还包括：

其中M是该标记矩阵，x是该多元时间序列中未缺失数据，

采用图注意力机制得到第一关联系数：

e_ij＝tanh(w·[x_i]x_j]+b)

该模块4包括：

根据时间关联性的不同，进行时间关联系数的计算：

β_mn＝sigmod(w·[h_m|h_n]+δ)

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，在其他平台上也可以实现相应的方法与工具。因此，本发明不应局限于实施例和附图所公开的内容。

Claims

1.一种基于关联融合的多元时间序列补全方法，其特征在于，包括：

2.如权利要求1所述的基于关联融合的多元时间序列补全方法，其特征在于，还包括：

其中M是该标记矩阵，x是该多元时间序列中未缺失数据，

3.如权利要求1或2所述的基于关联融合的多元时间序列补全方法，其特征在于，该步骤2包括：

采用图注意力机制得到第一关联系数：

e_ij＝tanh(w·[x_i|x_j]+b)

4.如权利要求3所述的基于关联融合的多元时间序列补全方法，其特征在于，该步骤3包括基于下式对中间矩阵X’进行时序处理：

该步骤4包括：

根据时间关联性的不同，进行时间关联系数的计算：

β_mn＝sigmod(w·[h_m|h_n]+δ)

5.如权利要求1所述的基于关联融合的多元时间序列补全方法，其特征在于，该多元时间序列为环境监测数据，环境监测数据中每个时间点的属性包括温度和气压。

6.一种基于关联融合的多元时间序列补全***，其特征在于，包括：

7.如权利要求1所述的基于关联融合的多元时间序列补全***，其特征在于，还包括：

其中M是该标记矩阵，x是该多元时间序列中未缺失数据，

8.如权利要求6或7所述的基于关联融合的多元时间序列补全***，其特征在于，该模块2包括：

采用图注意力机制得到第一关联系数：

e_ij＝tanh(w·[x_i|x_j]+b)

其中，x_i和x_i是属性i和属性j的值，其中e_ij表示属性i和相邻节点属性j的第一关联系数，w，b均为神经网络学习的参数；

9.如权利要求8所述的基于关联融合的多元时间序列补全***，其特征在于，该模块3包括基于下式对中间矩阵X’进行时序处理：

该模块4包括：

根据时间关联性的不同，进行时间关联系数的计算：

β_mn＝sigmod(w·[h_m|h_n]+δ)

10.如权利要求6所述的基于关联融合的多元时间序列补全***，其特征在于，该多元时间序列为环境监测数据，环境监测数据中每个时间点的属性包括温度和气压。