CN113392139A - 一种基于关联融合的多元时间序列补全方法及*** - Google Patents

一种基于关联融合的多元时间序列补全方法及*** Download PDF

Info

Publication number
CN113392139A
CN113392139A CN202110624648.6A CN202110624648A CN113392139A CN 113392139 A CN113392139 A CN 113392139A CN 202110624648 A CN202110624648 A CN 202110624648A CN 113392139 A CN113392139 A CN 113392139A
Authority
CN
China
Prior art keywords
attribute
multivariate
time
time sequence
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110624648.6A
Other languages
English (en)
Other versions
CN113392139B (zh
Inventor
刘财政
刘盛华
沈华伟
程学旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202110624648.6A priority Critical patent/CN113392139B/zh
Publication of CN113392139A publication Critical patent/CN113392139A/zh
Application granted granted Critical
Publication of CN113392139B publication Critical patent/CN113392139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于关联融合的多元时间序列补全方法和***,包括:获取数据存在缺失的多元时间序列及其对应的标记矩阵;根据多元时间序列中每个时间点的各个属性,得到属性间的关联系数,以构建图G,图G中节点对应属性,节点间的边对应属性间的属性关联系数;通过将图G和待补全矩阵按位相乘,得到中间矩阵,通过神经网络对中间矩阵进行时序处理,得到多元时间序列中各时间点的隐藏状态;根据各时间点的隐藏状态,计算多元时间序列的时间关联性系数;通过将时间关联性系数和各时间点的隐藏状态按位相乘,得到多元时间序列中各时间点的中间状态;在多元时间序列中,对中间状态采用生成式的非线性变换,得到多元时间序列的重构补全数据。

Description

一种基于关联融合的多元时间序列补全方法及***
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于关联融合的多元时间序列补全方法和***。
背景技术
在当今这样一个信息技术高度发达并广泛应用的世界中,人们社会生活的数字化程度越来越高,人们对互联网的依赖也越来越强。多元时间序列数据是按照时间排序的一组随机变量,它通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果。多元时间序列数据本质上反映的是某个或者某些随机变量随时间不断变化的趋势,而多元时间序列预测方法的核心就是从数据中挖掘出这种规律,并利用其对将来的数据做出估计。多元时间序列分析广泛应用在生物,医疗,气象,股票交易等场景中。例如在股票交易场景中,股票交易信息包括时间,股价,交易量,交易者等,其中每个属性叫做元。多元时间序列存在复杂的时间和关联关系,具体来说:(1)属性关联性。多元时间时间序列数据的每一个时间点的各个维度之间存在关联。(2)时间关联性。多元时间序列随时间动态变化,主要反映在自相关性和趋势中。例如气象观测数据,每一小时,每一天,每一周的观测值存在随着时间动态变化的特征。在进行多元时间序列分析时,如图1,数据缺失是大多数科学研究领域中的常见问题。在某些数据集中,丢失率可达到90%,这使得数据难以被使用,其中导致数据缺失的原因是时间序列数据可能来自不同的来源,数据处理不当,信噪比低,测量误差,无响应或删除的异常值以及人为误操作等。数据缺失已被公认是科学研究和企业生产的主要问题,即使最精心设计和执行的研究也会产生缺失值。缺失数据阻碍了解释和理解所研究现象的能力,研究结果很大程度上取决于对这些观察结果的分析,因此,缺失的数据对科学研究的有效性构成了挑战。缺失的值会严重损害对多元时间序列的分析,例如分类或回归、顺序数据集成和预测任务,从而导致对数据补全的需求极高。面对多元时间序列数据补全的高需求,研究人员进行了大量研究,提出了很多模型和方法,当前的方法主要包括以下几类:
(1)基于统计分析的方法:基于统计分析的算法主要可以分为两类,第一类直接删除缺失值,包括简单删除,成对删除和成列删除等。这些基于删除的方法在面对较高的数据缺失率时,将会面临分析性能急剧下降的问题。另一类是用统计值进行填充,包括均值、中间值、众数和最近一次有效观察值。
(2)基于机器学习的方法:传统机器学习把补全问题抽象成矩阵分析和张量分解问题以及K近邻问题,同简单统计分析相比,取得较好的填充效果。
(3)基于深度学习的模型:基于深度学习的方法可以分为三类:1)基于VAE的方法。2)基于LSTM的方法。3)基于GAN的方法。VAE作为一个生成模型,把真实样本通过编码器网络变换成一个理想的数据分布,然后这个数据分布再传递给一个解码器网络,得到生成样本,如果生成样本与真实样本足够接近,就训练出了一个自编码器模型。基于LSTM的方法在一个时间步骤中的每个节点都接收来自上一个节点的输入,并且这可以用一个feedback循环来表示。在每个时间步骤中,取一个输入xi和前一个节点的输出ai-1,对其进行计算,并生成一个输出hi。这个输出被取出来之后再提供给下一个节点。此过程将一直继续,直到所有时间步骤都被评估完成。GAN类算法思想包含两个模型,一个生成模型,一个判别模型,这两个模型一起对抗训练,生成模型产生一些数据去欺骗判别模型,然后判别模型去判断这些数据是真是假,最终在这两个模型训练的过程中,两个模型的能力越来越强,最终达到稳态
基于传统机器学习的方法往往只能进行线性关系挖掘,面对多元时间序列的非线性关系时,其特征抽取能力有限。在多元时间序列中,无论是VAE还是GAN模型,在进行学习时,学习到的模型的表达能力有限。多元时间序列数据通常具有较为复杂的关联关系,现有的模型在多元时间序列补全时,并没有抽取或者显式的抽取多元时间序列数据的关联关系或仅仅是用了时间关系。在进行多元时间序列数据补全时,某些时间点有缺失的,在计算每一个缺失的时间点时,就会存在一定误差,随着计算时序的不断延长,误差将逐步累积,尤其当存在一个连续的时间段数据都缺失时,这类模型无法进行准确补全。
发明内容
针对现有技术的不足,本发明提出一种基于关联融合的多元时间序列补全方法,其中包括:
步骤1、获取数据存在缺失的该多元时间序列,对该多元时间序列的数据缺失位置进行标记,得到标记矩阵。
步骤2、根据该多元时间序列中每个时间点的各个属性,得到属性间的关联系数,以构建图G,图G中节点对应属性,节点间的边对应属性间的属性关联系数;
步骤3、通过将该图G和该待补全矩阵按位相乘,得到中间矩阵X’,通过神经网络对该中间矩阵X’进行时序处理,得到该多元时间序列中各时间点的隐藏状态;
步骤4、根据各时间点的隐藏状态,计算该多元时间序列的时间关联性系数;通过将该时间关联性系数和各时间点的隐藏状态按位相乘,得到该多元时间序列中各时间点的中间状态H’;
步骤5、在该多元时间序列中,对中间状态H’采用生成式的非线性变换,得到该多元时间序列的重构补全数据。
所述的基于关联融合的多元时间序列补全方法,其中还包括:
步骤6、根据该标记矩阵和该重构补全数据,通过下式计算缺失值的重构损失loss:
Figure BDA0003101702070000031
其中M是该标记矩阵,x是该多元时间序列中未缺失数据,
Figure BDA0003101702070000032
是通过该重构补全数据补全的该多元时间序列中缺失的数据;
步骤7、判断该重构损失loss是否满足预设条件,若是,则输出该重构补全数据作为最终结果,否则再次执行该步骤2。
所述的基于关联融合的多元时间序列补全方法,其中该步骤2包括:
采用图注意力机制得到第一关联系数:
eij=tanh(w·[xi|xj]+b)
其中,xi和xj是属性i和属性j的值,其中eij表示属性i和相邻节点属性j的第一关联系数,w,b均为神经网络学习的参数;
通过对所有属性i的相邻节点属性j进行正则化,得到该属性关联系数aij
Figure BDA0003101702070000033
aij是图G的第i行和第j列的值,表示的是属性i和属性j的该属性关联系数,N表示属性总数。
所述的基于关联融合的多元时间序列补全方法,其中该步骤3包括基于下式对中间矩阵X’进行时序处理:
H=LSTM(X’),其中H={h1,h2,h3,...,ht}是该多元时间序列中各时间点的隐藏状态;
该步骤4包括:
根据时间关联性的不同,进行时间关联系数的计算:
βmn=sigmod(w·[hm|hn]+δ)
其中,hm和hn是LSTM每个时间步m和时间步n计算得到隐藏状态,βmn是该时间关联系数,w,σ均为神经网络学习的参数。
所述的基于关联融合的多元时间序列补全方法,其中该多元时间序列为环境监测数据,环境监测数据中每个时间点的属性包括温度和气压。
本发明还提出了一种基于关联融合的多元时间序列补全***,其中包括:
模块1,用于获取数据存在缺失的多元时间序列,对该多元时间序列的数据缺失位置进行标记,得到标记矩阵;
模块2,用于根据该多元时间序列中每个时间点的各个属性,得到属性间的关联系数,以构建图G,图G中节点对应属性,节点间的边对应属性间的属性关联系数;
模块3,用于通过将该图G和该待补全矩阵按位相乘,得到中间矩阵X’,通过神经网络对该中间矩阵X’进行时序处理,得到该多元时间序列中各时间点的隐藏状态;
模块4,用于根据各时间点的隐藏状态,计算该多元时间序列的时间关联性系数;通过将该时间关联性系数和各时间点的隐藏状态按位相乘,得到该多元时间序列中各时间点的中间状态H’;
模块5,用于在该多元时间序列中,对中间状态H’采用生成式的非线性变换,得到该多元时间序列的重构补全数据。
所述的基于关联融合的多元时间序列补全***,其中还包括:
模块6,用于根据该标记矩阵和该重构补全数据,通过下式计算缺失值的重构损失loss:
Figure BDA0003101702070000041
其中M是该标记矩阵,x是该多元时间序列中未缺失数据,
Figure BDA0003101702070000052
是通过该重构补全数据补全的该多元时间序列中缺失的数据;
模块7,用于判断该重构损失loss是否满足预设条件,若是,则输出该重构补全数据作为最终结果,否则再次执行该模块2。
所述的基于关联融合的多元时间序列补全***,其中该模块2包括:
采用图注意力机制得到第一关联系数:
eij=tanh(w·[xi|xj]+b)
其中,xi和xj是属性i和属性j的值,其中eij表示属性i和相邻节点属性j的第一关联系数,w,b均为神经网络学习的参数;
通过对所有属性i的相邻节点属性j进行正则化,得到该属性关联系数aij
Figure BDA0003101702070000051
aij是图G的第i行和第j列的值,表示的是属性i和属性j的该属性关联系数,N表示属性总数。
所述的基于关联融合的多元时间序列补全***,其中该模块3包括基于下式对中间矩阵X’进行时序处理:
H=LSTM(X’),其中H={h1,h2,h3,...,ht}是该多元时间序列中各时间点的隐藏状态;
该模块4包括:
根据时间关联性的不同,进行时间关联系数的计算:
βmn=sigmod(w·[hm|hn]+δ)
其中,hm和hn是LSTM每个时间步m和时间步n计算得到隐藏状态,βmn是该时间关联系数,w,σ均为神经网络学习的参数。
所述的基于关联融合的多元时间序列补全***,其中该多元时间序列为环境监测数据,环境监测数据中每个时间点的属性包括温度和气压。
由以上方案可知,本发明的优点在于:
(1)属性关联融合:融合多元时间序列的属性关联性,更好的建模多元时间序列的属性关联性,抽取更多的的关联信息,进行序列补全。
(2)时间关联融合:融合多元时间序列的时间关联性,对融合后的数据进行生成式的非线性变换来获取序列的重构输出,避免在逐步生成的累计误差传播。
(3)新的数据重构方法:通过借助于标记矩阵,只计算缺失值的重构损失,避免了已存在数据对重构的影响,更好的关注缺失数据补全。
附图说明
图1是多元时间序列的输入数据样例;
图2是本发明方法的总体架构图;
图3是本发明方法属性关联模块示意图;
图4是本发明方法时间关联模块示意图;
图5是本发明方法的实施流程图;
具体实施方式
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明流程如图2所示,输入数据X为待补全标记矩阵数据,标记矩阵M表示的是缺失的情况,如果是0表示无缺失,如果是1表示有缺失。整个处理过程包括属性关联和时间关联,属性关联模块分为属性关联系数计算和属性关联分配,时间关联模块分为时间关联系数计算和时间关联系数分配,同时本发明方法提出了新数据重构方法和损失函数计算方法。具体来说:
(1)属性关联系数计算:多元时间序列数据存在关联关系,属性例如环境监测数据的温度和气压,股票交易中的股价和交易量。本发明方法属性关联模块构建一个图G,其中将属性看作构成图的点,属性之间的关联系数看作是构成图的边;本发明方法采用图注意力机制进行关联系数计算,如图3所示,具体包括
eij=tanh(w·[xi|xj]+b) 公式(一)
其中,xi和xj是多元时间序列中的属性i和属性j的值,其中eij表示属性i和属性j的关联系数,w,b均为神经网络学习的参数。
通过标记矩阵M判断输入数据是否存在损失,当输入数据存在缺失时,借鉴DropOut的思路,缺失值在计算表示屏蔽w对应的神经元,使之不参与注意力的计算。通过对所有属性i的相邻节点属性j进行正则化,以提高计算效率,其公式是:
Figure BDA0003101702070000071
aij是图G的第i行和第j列的值,表示的是属性i和属性j的正则化关联系数,N表示属性总数;经过属性关联系数计算得到关联融合的图G,且图G的维度和输入数据X的维度相同。
(2)属性关联系数分配:经过属性关联系数计算得到关联融合的G,且图G的维度和输入的数据X的维度相同。图G和输入数据X做按照位置相乘,得到X’,其计算公式是:
X′=G*X 公式(三)
X’融合了属性关联系数的分配,同时也保持了时间序列的时序性。
(3)时间关联系数计算:本发明方法设计基于注意力机制的时间关联模块,如图4所示,本模块以属性关联融合模块的输出X’为输入,采用标准的LSTM进行时序处理,计算公式是H=LSTM(X’),其中H={h1,h2,h3,...,ht}是LSTM在每个时间点的隐藏状态(LSTM学习到的参数)。
(4)根据时间关联性的不同,进行时间关联系数的计算,计算公式是:
βmn=sigmod(w·[hm|hn]+δ) 公式(四)
其中,H={h1,h2,h3,...,ht}是LSTM在每个时间点的隐藏状态,hm和hn是LSTM每个时间步m和时间步n计算得到隐藏状态,βmn是时间关联系数,w,σ均为神经网络学习的参数。
A={βmn} 公式(五)
(5)时间关联系数计算:根据时间关联系数和LSTM在每个时间点的隐藏状态,进行时间关联系数分配,计算公式是:
H′=A*H 公式(六)
其中H={h1,h2,h3,...,ht}是LSTM在每个时间点的隐藏状态,hi(i=1,2,3,...t)是H的各个时间点的元素,H’是时间关联模块的输出。
(6)新数据重构方法:在多元时间序列中,对H’采用生成式的非线性变换来获取序列的重构输出,避免了在逐步生成的累计误差传播;
(7)重构损失函数计算方法:在多元时间序列补全中,本方法在设计重构损失函数时,通过借助于标记矩阵,只计算缺失值的重构损失,其计算公式是:
Figure BDA0003101702070000072
其中M是标记矩阵,x是未缺失数据,
Figure BDA0003101702070000081
是缺失数据的重构值。
本具体实施例中,实施流程如图5所示,对具体实施过程进行详细叙述。具体实施例如下:
步骤1:数据输入:根据输入数据X,得到标记矩阵M,如图1,使用X和M作为本方法的输入。
步骤2:属性关联融合模块:使用X和M作为本模块的输入,采用公式一和公式二计算属性关联,借鉴DropOut的思路,缺失值在计算表示屏蔽w对应的神经元,使之不参与注意力的计算;并采用公式三分配属性关联系数,得到X’。
步骤3:时间关联融合模块:使用属性关联模块的X’作为输入,采用公式四,公式五计算多元时间序列的时间关联性系数;并采用公式六进行时间关联性系数分配,得到H’。
步骤4:数据重构和损失计算:使用H’作为输入,整体生成重构数据,这里的重构方法采用MLP或者非线性全连接进行数据整体生成。采用公式七的损失函数计算方法。
步骤5:算法输出:初始时,随机初始化一个损失函数的值,当损失函数的值小于某个阈值或者不再减少时,结束,输出重构之后的数据
Figure BDA0003101702070000082
以下为与上述方法实施例对应的***实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于关联融合的多元时间序列补全***,其中包括:
模块1,用于获取数据存在缺失的多元时间序列,对该多元时间序列的数据缺失位置进行标记,得到标记矩阵;
模块2,用于根据该多元时间序列中每个时间点的各个属性,得到属性间的关联系数,以构建图G,图G中节点对应属性,节点间的边对应属性间的属性关联系数;
模块3,用于通过将该图G和该待补全矩阵按位相乘,得到中间矩阵X’,通过神经网络对该中间矩阵X’进行时序处理,得到该多元时间序列中各时间点的隐藏状态;
模块4,用于根据各时间点的隐藏状态,计算该多元时间序列的时间关联性系数;通过将该时间关联性系数和各时间点的隐藏状态按位相乘,得到该多元时间序列中各时间点的中间状态H’;
模块5,用于在该多元时间序列中,对中间状态H’采用生成式的非线性变换,得到该多元时间序列的重构补全数据。
所述的基于关联融合的多元时间序列补全***,其中还包括:
模块6,用于根据该标记矩阵和该重构补全数据,通过下式计算缺失值的重构损失loss:
Figure BDA0003101702070000091
其中M是该标记矩阵,x是该多元时间序列中未缺失数据,
Figure BDA0003101702070000092
是通过该重构补全数据补全的该多元时间序列中缺失的数据;
模块7,用于判断该重构损失loss是否满足预设条件,若是,则输出该重构补全数据作为最终结果,否则再次执行该模块2。
所述的基于关联融合的多元时间序列补全***,其中该模块2包括:
采用图注意力机制得到第一关联系数:
eij=tanh(w·[xi]xj]+b)
其中,xi和xj是属性i和属性j的值,其中eij表示属性i和相邻节点属性j的第一关联系数,w,b均为神经网络学习的参数;
通过对所有属性i的相邻节点属性j进行正则化,得到该属性关联系数aij
Figure BDA0003101702070000093
aij是图G的第i行和第j列的值,表示的是属性i和属性j的该属性关联系数,N表示属性总数。
所述的基于关联融合的多元时间序列补全***,其中该模块3包括基于下式对中间矩阵X’进行时序处理:
H=LSTM(X’),其中H={h1,h2,h3,...,ht}是该多元时间序列中各时间点的隐藏状态;
该模块4包括:
根据时间关联性的不同,进行时间关联系数的计算:
βmn=sigmod(w·[hm|hn]+δ)
其中,hm和hn是LSTM每个时间步m和时间步n计算得到隐藏状态,βmn是该时间关联系数,w,σ均为神经网络学习的参数。
所述的基于关联融合的多元时间序列补全***,其中该多元时间序列为环境监测数据,环境监测数据中每个时间点的属性包括温度和气压。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,在其他平台上也可以实现相应的方法与工具。因此,本发明不应局限于实施例和附图所公开的内容。

Claims (10)

1.一种基于关联融合的多元时间序列补全方法,其特征在于,包括:
步骤1、获取数据存在缺失的该多元时间序列,对该多元时间序列的数据缺失位置进行标记,得到标记矩阵。
步骤2、根据该多元时间序列中每个时间点的各个属性,得到属性间的关联系数,以构建图G,图G中节点对应属性,节点间的边对应属性间的属性关联系数;
步骤3、通过将该图G和该待补全矩阵按位相乘,得到中间矩阵X’,通过神经网络对该中间矩阵X’进行时序处理,得到该多元时间序列中各时间点的隐藏状态;
步骤4、根据各时间点的隐藏状态,计算该多元时间序列的时间关联性系数;通过将该时间关联性系数和各时间点的隐藏状态按位相乘,得到该多元时间序列中各时间点的中间状态H’;
步骤5、在该多元时间序列中,对中间状态H’采用生成式的非线性变换,得到该多元时间序列的重构补全数据。
2.如权利要求1所述的基于关联融合的多元时间序列补全方法,其特征在于,还包括:
步骤6、根据该标记矩阵和该重构补全数据,通过下式计算缺失值的重构损失loss:
Figure FDA0003101702060000011
其中M是该标记矩阵,x是该多元时间序列中未缺失数据,
Figure FDA0003101702060000012
是通过该重构补全数据补全的该多元时间序列中缺失的数据;
步骤7、判断该重构损失loss是否满足预设条件,若是,则输出该重构补全数据作为最终结果,否则再次执行该步骤2。
3.如权利要求1或2所述的基于关联融合的多元时间序列补全方法,其特征在于,该步骤2包括:
采用图注意力机制得到第一关联系数:
eij=tanh(w·[xi|xj]+b)
其中,xi和xj是属性i和属性j的值,其中eij表示属性i和相邻节点属性j的第一关联系数,w,b均为神经网络学习的参数;
通过对所有属性i的相邻节点属性j进行正则化,得到该属性关联系数aij
Figure FDA0003101702060000021
aij是图G的第i行和第j列的值,表示的是属性i和属性j的该属性关联系数,N表示属性总数。
4.如权利要求3所述的基于关联融合的多元时间序列补全方法,其特征在于,该步骤3包括基于下式对中间矩阵X’进行时序处理:
H=LSTM(X’),其中H={h1,h2,h3,...,ht}是该多元时间序列中各时间点的隐藏状态;
该步骤4包括:
根据时间关联性的不同,进行时间关联系数的计算:
βmn=sigmod(w·[hm|hn]+δ)
其中,hm和hn是LSTM每个时间步m和时间步n计算得到隐藏状态,βmn是该时间关联系数,w,σ均为神经网络学习的参数。
5.如权利要求1所述的基于关联融合的多元时间序列补全方法,其特征在于,该多元时间序列为环境监测数据,环境监测数据中每个时间点的属性包括温度和气压。
6.一种基于关联融合的多元时间序列补全***,其特征在于,包括:
模块1,用于获取数据存在缺失的多元时间序列,对该多元时间序列的数据缺失位置进行标记,得到标记矩阵;
模块2,用于根据该多元时间序列中每个时间点的各个属性,得到属性间的关联系数,以构建图G,图G中节点对应属性,节点间的边对应属性间的属性关联系数;
模块3,用于通过将该图G和该待补全矩阵按位相乘,得到中间矩阵X’,通过神经网络对该中间矩阵X’进行时序处理,得到该多元时间序列中各时间点的隐藏状态;
模块4,用于根据各时间点的隐藏状态,计算该多元时间序列的时间关联性系数;通过将该时间关联性系数和各时间点的隐藏状态按位相乘,得到该多元时间序列中各时间点的中间状态H’;
模块5,用于在该多元时间序列中,对中间状态H’采用生成式的非线性变换,得到该多元时间序列的重构补全数据。
7.如权利要求1所述的基于关联融合的多元时间序列补全***,其特征在于,还包括:
模块6,用于根据该标记矩阵和该重构补全数据,通过下式计算缺失值的重构损失loss:
Figure FDA0003101702060000031
其中M是该标记矩阵,x是该多元时间序列中未缺失数据,
Figure FDA0003101702060000033
是通过该重构补全数据补全的该多元时间序列中缺失的数据;
模块7,用于判断该重构损失loss是否满足预设条件,若是,则输出该重构补全数据作为最终结果,否则再次执行该模块2。
8.如权利要求6或7所述的基于关联融合的多元时间序列补全***,其特征在于,该模块2包括:
采用图注意力机制得到第一关联系数:
eij=tanh(w·[xi|xj]+b)
其中,xi和xi是属性i和属性j的值,其中eij表示属性i和相邻节点属性j的第一关联系数,w,b均为神经网络学习的参数;
通过对所有属性i的相邻节点属性j进行正则化,得到该属性关联系数aij
Figure FDA0003101702060000032
aij是图G的第i行和第j列的值,表示的是属性i和属性j的该属性关联系数,N表示属性总数。
9.如权利要求8所述的基于关联融合的多元时间序列补全***,其特征在于,该模块3包括基于下式对中间矩阵X’进行时序处理:
H=LSTM(X’),其中H={h1,h2,h3,...,ht}是该多元时间序列中各时间点的隐藏状态;
该模块4包括:
根据时间关联性的不同,进行时间关联系数的计算:
βmn=sigmod(w·[hm|hn]+δ)
其中,hm和hn是LSTM每个时间步m和时间步n计算得到隐藏状态,βmn是该时间关联系数,w,σ均为神经网络学习的参数。
10.如权利要求6所述的基于关联融合的多元时间序列补全***,其特征在于,该多元时间序列为环境监测数据,环境监测数据中每个时间点的属性包括温度和气压。
CN202110624648.6A 2021-06-04 2021-06-04 一种基于关联融合的环境监测数据补全方法及*** Active CN113392139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110624648.6A CN113392139B (zh) 2021-06-04 2021-06-04 一种基于关联融合的环境监测数据补全方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110624648.6A CN113392139B (zh) 2021-06-04 2021-06-04 一种基于关联融合的环境监测数据补全方法及***

Publications (2)

Publication Number Publication Date
CN113392139A true CN113392139A (zh) 2021-09-14
CN113392139B CN113392139B (zh) 2023-10-20

Family

ID=77618237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110624648.6A Active CN113392139B (zh) 2021-06-04 2021-06-04 一种基于关联融合的环境监测数据补全方法及***

Country Status (1)

Country Link
CN (1) CN113392139B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN108228832A (zh) * 2018-01-04 2018-06-29 南京大学 一种基于距离矩阵的时间序列数据补全方法
CN110837888A (zh) * 2019-11-13 2020-02-25 大连理工大学 一种基于双向循环神经网络的交通缺失数据补全方法
US20210042603A1 (en) * 2018-09-04 2021-02-11 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and storage medium for generating network representation for neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN108228832A (zh) * 2018-01-04 2018-06-29 南京大学 一种基于距离矩阵的时间序列数据补全方法
US20210042603A1 (en) * 2018-09-04 2021-02-11 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and storage medium for generating network representation for neural network
CN110837888A (zh) * 2019-11-13 2020-02-25 大连理工大学 一种基于双向循环神经网络的交通缺失数据补全方法

Also Published As

Publication number Publication date
CN113392139B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Yu et al. Long-term forecasting using tensor-train rnns
Shiri et al. A comprehensive overview and comparative analysis on deep learning models: CNN, RNN, LSTM, GRU
Veres et al. Deep learning architectures for soil property prediction
CN113919441A (zh) 一种基于超图变换网络的分类方法
Kultur et al. Ensemble of neural networks with associative memory (ENNA) for estimating software development costs
CN115618196A (zh) 基于时空特征下的Transformer异常检测方法
CN114445252A (zh) 数据补全方法、装置、电子设备及存储介质
CN114065996A (zh) 基于变分自编码学习的交通流预测方法
CN110781401A (zh) 一种基于协同自回归流实现的Top-n项目推荐方法
CN115168443A (zh) 一种基于gcn-lstm和注意力机制的异常检测方法及***
CN111259264B (zh) 一种基于生成对抗网络的时序评分预测方法
CN117892915A (zh) 基于核算单位的商品碳标签生成方法及***
Patro et al. Uncertainty class activation map (U-CAM) using gradient certainty method
Zhu et al. Multi-scale Transformer-CNN domain adaptation network for complex processes fault diagnosis
US20220027727A1 (en) Online training of neural networks
CN117216525A (zh) 一种基于cnn-lka的稀疏图注意力软测量建模方法
CN116258504B (zh) 银行客户关系管理***及其方法
CN117094431A (zh) 一种多尺度熵门控的DWTformer气象数据时序预测方法及设备
Alghamdi et al. A novel hybrid deep learning model for stock price forecasting
CN113392139B (zh) 一种基于关联融合的环境监测数据补全方法及***
CN115544307A (zh) 基于关联矩阵的有向图数据特征提取与表达方法和***
Ericson et al. Deep Generative Modeling for Financial Time Series with Application in VaR: A Comparative Review
Silva Generalized autoregressive neural network models
CN113011495A (zh) 基于gtn的多元时间序列分类模型及其构建方法
Yuan et al. Multi-scale transition matrix approach to time series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant