CN117909658A - 一种基于循环神经网络的插补方法及*** - Google Patents
一种基于循环神经网络的插补方法及*** Download PDFInfo
- Publication number
- CN117909658A CN117909658A CN202410308801.8A CN202410308801A CN117909658A CN 117909658 A CN117909658 A CN 117909658A CN 202410308801 A CN202410308801 A CN 202410308801A CN 117909658 A CN117909658 A CN 117909658A
- Authority
- CN
- China
- Prior art keywords
- data
- vector
- time
- current
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 82
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims description 222
- 238000012544 monitoring process Methods 0.000 claims description 70
- 230000002441 reversible effect Effects 0.000 claims description 34
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 230000002238 attenuated effect Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 15
- 238000012549 training Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Complex Calculations (AREA)
Abstract
本发明公开一种基于循环神经网络的插补方法及***,涉及数据插补技术领域,先以待插补数据作为输入,利用循环神经网络进行缺失值重建,得到时序预测数据,再利用时序预测数据对待插补数据进行缺失值填充,得到时序插补后数据,以时序插补后数据作为输入,利用空间插补模型进行缺失值重建,得到空间预测数据,最后对时序预测数据和空间预测数据进行融合,得到时空预测数据,利用时空预测数据对待插补数据进行缺失值填充,得到插补完成数据,本发明分别从时序方向和空间方向对数据进行重建,从而达到准确插补数据缺失值的目的。
Description
技术领域
本发明涉及数据插补技术领域,特别是涉及一种基于循环神经网络的插补方法及***。
背景技术
面对监测数据的缺失,传统的插补缺失值的方法旨在快速而又省力的填补缺失部分,这样的思想注定传统的插补方法不能够将整个序列进行关联,从而导致监测数据插补值与原监测数据趋势的偏差。
从上世纪80年代起,人工神经网络在人工智能领域蓬勃发展,人工神经网络是一种运算模型,由大量的节点(或称神经元)相互连接构成,每个节点表示一种特定的输出函数,称为激励函数,每两个节点间的连接都表示一个通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆,人工神经网络的输出则依赖网络的连接方式、权重和激励函数的不同而不同。人工神经网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达,其试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理,从而克服传统方法的线性学习的缺陷,在后续发展中,人工神经网络在面对不同方面的问题时,逐渐衍生出了很多版本,比如卷积神经网络、循环神经网络等。
循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络,此网络着重于输入序列中的时序关系,研究上下文的关联,以更好的理解前后文的关联。例如对于一个语句,孤立的理解单词往往无法准确的得到语句的准确意思,需要将单词有序连接理解才能很好的理解语句的准确意思。为了更好的训练网络和提高效果,一般采用的循环神经网络有双向循环神经网络和长短期记忆网络。近年来,循环神经网络也被用来进行监测数据缺失值的插补,其将有缺失的监测数据按一定的序列长度输入网络,通过网络重建监测数据,然后进行缺失值的填补,这种插补方法相比于传统的插补方法能够大幅提高准确率。
然而,传统的用于插补的循环神经网络往往忽视了空间方向的联系,即忽略了同一时间步不同传感器监测数据之间的联系,导致插补的误差变大。由此,在序列缺失过多的情况下,其填补效果提升的非常有限,有时候甚至还会出现很多不合理的填补状况。
发明内容
本发明的目的是提供一种基于循环神经网络的插补方法及***,针对传统循环神经网络忽视数据空间关系的问题,提出一个由传统的循环神经网络和空间插补模型所组成的时空结合的插补模型,该插补模型能够分别从时序方向和空间方向对数据进行重建,从而达到准确插补数据缺失值的目的。
为实现上述目的,本发明提供了如下方案。
一种基于循环神经网络的插补方法,包括以下步骤。
获取待插补数据;所述待插补数据包括多个时刻中每一时刻对应的监测数据向量;所述监测数据向量包括每一传感器在当前时刻采集的监测值。
以所述待插补数据作为输入,利用循环神经网络进行缺失值重建,得到时序预测数据;所述时序预测数据包括每一时刻对应的时序预测向量;所述时序预测向量包括每一传感器在当前时刻的时序预测值。
利用所述时序预测数据对所述待插补数据进行缺失值填充,得到时序插补后数据;以所述时序插补后数据作为输入,利用空间插补模型进行缺失值重建,得到空间预测数据;所述时序插补后数据包括每一时刻对应的时序插补向量;所述时序插补向量包括每一传感器在当前时刻的时序插补值;所述空间预测数据包括每一时刻对应的空间预测向量;所述空间预测向量包括每一传感器在当前时刻的空间预测值。
对所述时序预测数据和所述空间预测数据进行融合,得到时空预测数据;利用所述时空预测数据对所述待插补数据进行缺失值填充,得到插补完成数据;所述时空预测数据包括每一时刻对应的时空预测向量;所述时空预测向量包括每一传感器在当前时刻的时空预测值。
一种计算机***,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述一种基于循环神经网络的插补方法的步骤。
根据本发明提供的具体实施例,本发明公开了以下技术效果。
本发明用于提供一种基于循环神经网络的插补方法及***,先以待插补数据作为输入,利用循环神经网络进行缺失值重建,得到时序预测数据,再利用时序预测数据对待插补数据进行缺失值填充,得到时序插补后数据,以时序插补后数据作为输入,利用空间插补模型进行缺失值重建,得到空间预测数据,最后对时序预测数据和空间预测数据进行融合,得到时空预测数据,利用时空预测数据对待插补数据进行缺失值填充,得到插补完成数据,针对传统循环神经网络忽视数据空间关系的问题,提出一个由传统的循环神经网络和空间插补模型所组成的时空结合的插补模型,该插补模型能够分别从时序方向和空间方向对数据进行重建,从而达到准确插补数据缺失值的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1所提供的插补方法的方法流程图。
图2为本发明实施例1所提供的插补方法的总体流程图。
图3为本发明实施例1所提供的时序方向的重建流程图。
图4为本发明实施例1所提供的空间方向的重建流程图。
图5为本发明实施例1所提供的训练流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于循环神经网络的插补方法及***,针对传统循环神经网络忽视数据空间关系的问题,提出一个由传统的循环神经网络和空间插补模型所组成的时空结合的插补模型,该插补模型能够分别从时序方向和空间方向对数据进行重建,从而达到准确插补数据缺失值的目的。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:本实施例用于提供一种基于循环神经网络的插补方法,如图1、图2、图3和图4所示,包括以下步骤。
S1:获取待插补数据;所述待插补数据包括多个时刻中每一时刻对应的监测数据向量;所述监测数据向量包括每一传感器在当前时刻采集的监测值。
待插补数据是指含有缺失值的数据,本实施例的插补方法的目的即在于准确确定缺失值,以对待插补数据进行数据插补,得到插补完成数据。
实际应用中,所有传感器均实时采集监测值,所有传感器采集到的监测值组成监测序列,本实施例先读取监测序列信息,在监测序列信息中选取固定窗口的连续数据,即可得到待插补数据,待插补数据包括多个时刻中每一时刻对应的监测数据向量,监测数据向量包括每一传感器在当前时刻采集的监测值,假设共有n个传感器,则监测数据向量包括n个元素值,每一元素值表示一个传感器在当前时刻采集到的监测值,当前时刻t对应的监测数据向量可记为Xt。
本实施例可进一步对每一时刻对应的监测数据向量进行数据归一化,以实现监测数据归一化,以归一化后的监测数据向量作为新的监测数据向量,进行后续步骤。
S2:以所述待插补数据作为输入,利用循环神经网络进行缺失值重建,得到时序预测数据;所述时序预测数据包括每一时刻对应的时序预测向量;所述时序预测向量包括每一传感器在当前时刻的时序预测值。
本实施例所用的循环神经网络可为传统循环神经网络,传统循环神经网络是指最原始的循环神经网络,能够学习时序方向的信息并进行序列重建,常常用于自然语言学习等方面。具体的,该循环神经网络可为采用双向的LSTM核函数的循环神经网络,包括一层隐藏层。
其中,以待插补数据作为输入,利用循环神经网络进行缺失值重建,得到时序预测数据,包括以下步骤。
(1)基于待插补数据的数据缺失情况生成每一时刻对应的当前缺失向量和历史缺失向量,当前缺失向量包括用于表征每一传感器在当前时刻采集到的监测值是否缺失的掩码值,历史缺失向量包括用于表征每一传感器在当前时刻以前采集到的监测值的缺失次数的计数值。
对于每一时刻对应的监测数据向量,对该监测数据向量进行缺失位置辨识,如果监测数据向量中第d个传感器的监测值缺失,则第d个传感器的掩码值为0,如果监测数据向量中第d个传感器的监测值未缺失,则第d个传感器的掩码值为1,n个传感器的掩码值组成当前缺失向量,当前时刻t对应的当前缺失向量可记为Mt,包括n个表示是否缺失的掩码值,掩码值以0和1表示,其中0表示缺失,1表示未缺失,即表示已被监测到。
对于每一时刻,当前时刻对应的历史缺失向量包括n个元素值,每一元素值表示一个传感器的历史序列缺失状况的计数值,其被描述为当前位置的传感器的监测值的历史缺失时步个数。本实施例使用表示在t时刻第d个传感器的计数值,ht表示第d个传感器在t时刻及t时刻之前最后一次有监测值的时刻,/>表示在t时刻第d个传感器的监测值是否缺失的掩码值,若缺失,则/>为0,否则,则/>为1,/>具体描述为下式(1)。
(1)。
式(1)中,ht-1表示第d个传感器在t-1时刻及t-1时刻之前最后一次有监测值的时刻;表示在t-1时刻第d个传感器的计数值;/>表示在t-1时刻第d个传感器的监测值是否缺失的掩码值,若缺失,则/>为0,否则,则/>为1。
通过上式(1),即可计算得到每一个传感器的计数值,所有传感器的计数值组成当前时刻对应的历史缺失向量,当前时刻t对应的历史缺失向量可记为。
基于此,即可获得每一时刻对应的时序信息,包括当前时刻对应的监测数据向量、当前缺失向量和历史缺失向量。
(2)对于每一时刻,以当前时刻对应的监测数据向量、当前缺失向量和历史缺失向量以及当前时刻的上一时刻对应的正向隐藏层向量作为输入,利用循环神经网络的隐藏层计算当前时刻对应的正向隐藏层向量;以当前时刻对应的监测数据向量、当前缺失向量和历史缺失向量以及当前时刻的下一时刻对应的反向隐藏层向量作为输入,利用循环神经网络的隐藏层计算当前时刻对应的反向隐藏层向量。
其中,以当前时刻对应的监测数据向量、当前缺失向量和历史缺失向量以及当前时刻的上一时刻对应的正向隐藏层向量作为输入,利用循环神经网络的隐藏层计算当前时刻对应的正向隐藏层向量,可以包括:利用当前时刻对应的历史缺失向量对当前时刻的上一时刻对应的正向隐藏层向量进行衰减,得到当前时刻对应的正向衰减向量;将当前时刻对应的正向衰减向量和当前时刻的上一时刻对应的正向隐藏层向量进行按位相乘,得到当前时刻对应的正向衰减后向量;基于当前时刻对应的监测数据向量、当前缺失向量和正向衰减后向量计算当前时刻对应的正向隐藏层向量。
其中,以当前时刻对应的监测数据向量、当前缺失向量和历史缺失向量以及当前时刻的下一时刻对应的反向隐藏层向量作为输入,利用循环神经网络的隐藏层计算当前时刻对应的反向隐藏层向量,可以包括:利用当前时刻对应的历史缺失向量对当前时刻的下一时刻对应的反向隐藏层向量进行衰减,得到当前时刻对应的反向衰减向量;将当前时刻对应的反向衰减向量和当前时刻的下一时刻对应的反向隐藏层向量进行按位相乘,得到当前时刻对应的反向衰减后向量;基于当前时刻对应的监测数据向量、当前缺失向量和反向衰减后向量计算当前时刻对应的反向隐藏层向量。
以正向传递为例,先获取循环神经网络在前一时刻生成的具有之前所有时刻的时序信息的正向隐藏层向量Ht-1,对于初始时刻,其上一时刻的正向隐藏层向量是个随机向量,使用循环神经网络将信息向后传递,具体采用LSTM的核结构,对上一时刻的正向隐藏层向量Ht-1和当前时刻的原始序列值(即监测数据向量)Xt进行信息的向后传递,为了体现序列的缺失模式,使用当前时刻的历史缺失向量对上一时刻的正向隐藏层向量Ht-1进行衰减,得到衰减向量。使用/>表示衰减向量,W和b分别表示参数矩阵和偏置向量,则衰减向量可描述为下式(2)。
(2)。
将上一时刻的正向隐藏层向量Ht-1与衰减向量按位相乘,得到一个新的经过衰减的衰减后向量/>。
在将信息向后传递时,采用LSTM核函数计算传递到下一时刻的当前时刻的正向隐藏层向量Ht,将经过衰减的衰减后向量、当前时刻的监测数据向量Xt和当前缺失向量Mt作为输入,用/>表示向量的连接符,则Ht计算可描述为下式(3)。
(3)。
沿正向循环执行上述正向传递步骤,即可得到每一时刻的正向隐藏层向量。
反向传递步骤与上述正向传递步骤相同,只需将上一时刻的正向隐藏层向量Ht-1替换为下一时刻的反向隐藏层向量,便可得到当前时刻的反向隐藏层向量。沿反向循环执行上述反向传递步骤,即可得到每一时刻的反向隐藏层向量。
本实施例采用了双向的循环神经网络,基于上述过程,即可获得每一时刻的正向隐藏层向量和反向隐藏层向量。
(3)对于每一时刻,以当前时刻的上一时刻对应的正向隐藏层向量和当前时刻的下一时刻对应的反向隐藏层向量作为输入,计算得到当前时刻对应的时序预测向量,所有时刻对应的时序预测向量组成时序预测数据。
使用正向隐藏层向量Ht-1和反向隐藏层向量来估计当前时刻的所有时序预测值,使用W和/>分别表示正向参数矩阵和反向参数矩阵,b表示偏置向量,/>表示估计的当前时刻的时序预测向量,则/>具体描述为下式(4)。
(4)。
S3:利用所述时序预测数据对所述待插补数据进行缺失值填充,得到时序插补后数据;以所述时序插补后数据作为输入,利用空间插补模型进行缺失值重建,得到空间预测数据;所述时序插补后数据包括每一时刻对应的时序插补向量;所述时序插补向量包括每一传感器在当前时刻的时序插补值;所述空间预测数据包括每一时刻对应的空间预测向量;所述空间预测向量包括每一传感器在当前时刻的空间预测值。
对于每一时刻,使用估计得到的当前时刻的时序预测向量填补原监测数据向量的缺失,即对于监测数据向量的每一缺失值,令其取时序预测向量相应位置的时序预测值,以对监测数据向量进行插补,得到时序插补向量,所有时刻的时序插补向量组成时序插补后数据。
本实施例中,空间插补模型为全连接网络,包括一层全连接层,该全连接网络的参数矩阵的对角线上的元素值为0,以消除原始值对重建的影响。
以时序插补后数据作为输入,利用空间插补模型进行缺失值重建,得到空间预测数据,可以包括:对于每一时刻,以当前时刻的时序插补向量作为输入,利用全连接网络进行缺失值重建,得到当前时刻的空间预测向量,所有时刻的空间预测向量组成空间预测数据。
具体的,本实施例采用回归的方法对时序重建的时序插补后数据进行传感器数据之间的估计,即空间方向的重建,具体使用全连接网络对其进行重建。在全连接网络中,将进行重建的参数矩阵W的对角值置0,以消除原始值对重建的影响,用W表示参数矩阵,b表示偏置向量,则空间预测向量可以描述为下式(5)。
(5)。
S4:对所述时序预测数据和所述空间预测数据进行融合,得到时空预测数据;利用所述时空预测数据对所述待插补数据进行缺失值填充,得到插补完成数据;所述时空预测数据包括每一时刻对应的时空预测向量;所述时空预测向量包括每一传感器在当前时刻的时空预测值。
其中,对时序预测数据和空间预测数据进行融合,得到时空预测数据,可以包括:对于每一时刻,基于当前时刻对应的历史缺失向量计算得到当前时刻对应的时序权重系数;计算1和当前时刻对应的时序权重系数的差值,得到当前时刻对应的空间权重系数;基于当前时刻对应的时序权重系数和空间权重系数对当前时刻对应的时序预测向量和空间预测向量进行加权融合,得到当前时刻对应的时空预测向量,所有时刻的时空预测向量组成时空预测数据。
具体的,时序方向与空间方向预测值结合包括:计算一个与历史缺失向量,即与序列缺失状况相关的时序权重系数/>来将时序预测向量/>和空间预测向量/>结合到一起,形成最终的重建序列向量(即时空预测向量)Ct,计算公式如下式(6)和式(7)。
(6)。
式(6)中,为激活函数;W为参数矩阵;b为偏置向量。
(7)。
利用时空预测数据对待插补数据进行缺失值填充,得到插补完成数据,可以包括:对于每一时刻,使用估计得到的当前时刻的时空预测向量填补原监测数据向量的缺失,即对于监测数据向量的每一缺失值,令其取时空预测向量相应位置的时空预测值,以对监测数据向量进行插补,得到时空插补向量,所有时刻的时空插补向量组成插补完成数据。
本实施例用于提供一种基于循环神经网络的时空结合的多元时间序列空缺插补方法,基于传统的循环神经网络,进一步结合空间信息,进行数据的重建和填补,其中,结合空间信息是指在时序方向的垂直方向,对于相同时刻的不同传感器的监测值进行数据重建,将相邻的序列联系起来,进行相似重建,将时序方向上重建的序列和空间方向上重建的序列以一定的比例结合,得到时空重建的序列,对原序列缺失的部分,使用时空重建的序列进行填补,完成数据的重建和填补。
本实施例可以应用于土木工程岩土分析领域,传感器可为应力传感器,其安装在待监测的隧道上,对其所在位置的应力进行监测,此时的监测值为应力值,多个应力传感器采集的应力值组成待插补数据,利用上述S1-S4对待插补数据进行插补,完成应力值重建和插补。
如图5所示,本实施例还包括对循环神经网络和全连接网络进行训练的步骤,通过训练确定循环神经网络和全连接网络的网络参数(包括式(2)的W和b、式(3)的LSTMcell、式(4)的W、和b、式(5)的W和b、式(6)的/>、W和b)的取值,在训练的时候,每连续的相同步数将监测序列分解作为网络的输入,将所有监测数据作为训练集和验证集,所有的缺失数据作为测试集(缺失数据的实际值已知),将插补效果最好的模型保留,训练过程包括以下步骤。
(1)获取数据集,数据集包括训练集和测试集,训练集包括多个待插补数据样本,测试集包括多个待插补数据样本和每一待插补数据样本对应的标签数据,标签数据为待插补数据样本对应的不含缺失值的完整数据样本。
本实施例可预先建立多个完整数据样本,对于每一完整数据样本,对该完整数据样本进行监测值的随机删除,即可得到该完整数据样本对应的待插补数据样本。
(2)以训练集中的每一待插补数据样本作为循环神经网络和全连接网络的输入,按照S1-S4的步骤对待插补数据样本进行数据插补,得到该待插补数据样本对应的插补完成数据样本。将得到的插补完成数据样本和待插补数据样本的监测值部分进行比较,评估损失,即以每一待插补数据样本的未缺失监测值和该待插补数据样本对应的插补完成数据样本相应位置的未缺失监测值作为输入,利用第一损失函数计算得到训练损失值,第一损失函数采用平均绝对误差MAE。利用训练损失值对循环神经网络和全连接网络的网络参数进行更新,得到更新后循环神经网络和更新后全连接网络。
(3)以测试集中的每一待插补数据样本作为更新后循环神经网络和更新后全连接网络的输入,按照S1-S4的步骤对待插补数据样本进行数据插补,得到该待插补数据样本对应的插补完成数据样本。以每一插补完成数据样本中位于缺失位置的插补值和标签数据相应位置的监测值作为输入,分别利用第二损失函数和第三损失函数计算得到第二损失值和第三损失值,计算第二损失值和第三损失值的平均值,得到测试损失值,第二损失函数采用平均绝对误差MAE,第三损失函数采用均方根误差RMSE。
(4)判断测试损失值是否连续多次不下降,若是,则结束迭代,以所有迭代中测试损失值最小的更新后循环神经网络和更新后全连接网络作为训练好的循环神经网络和训练好的全连接网络,若否,则判断是否达到最大迭代次数;若是,则结束迭代,以所有迭代中测试损失值最小的更新后循环神经网络和更新后全连接网络作为训练好的循环神经网络和训练好的全连接网络,若否,则继续迭代,以当前迭代的更新后循环神经网络和更新后全连接网络作为下一迭代的循环神经网络和全连接网络,返回步骤(2)。
本实施例中,最大迭代次数可为1000次。
本实施例是基于计算机科学和一些机器学习算法来实现的,所以在实施的时候需要一定的编程和机器学习的基础,可以基于多种编程语言来实现。为了验证此模型的插补效果,选择在一个完整的长江盾构监测数据集上进行验证,数据集包括一组传感器在相同时间步的多元时间序列,即本实施例可利用由长江的某个水下盾构隧道的监测值组成的数据集进行训练,数据集被划分为训练集和测试集,模型于训练集上训练和验证效果,利用测试集评价插补的准确度和效果。为了验证模型在不同的缺失率上的插补准确度,选择对数据集进行不同比率的连续缺失。以Python和其开源算法包为基础,对神经网络的结构进行了构建,在合理选择模型和参数的情况下证实该方法可以提高插补的准确率。
本实施例用于提供一种基于循环神经网络的多元时间序列空缺的插补方法,主要用于解决在监测数据大量缺失的场景下,传统的统计或机器学习的方法还原数据困难的问题,采用循环神经网络和空间估计结合的方法,提高了还原数据的准确率。时序方向的重建流程包括:对于特定的连续时间序列的某个时刻,首先获得该时刻的各个特征的历史缺失向量、归一化后的监测数据向量Xt以及掩码向量(当前缺失向量)Mt,然后使用LSTM的核函数进行序列正向和反向的各个隐藏层向量的计算,最后结合使用这两个向量进行时序方向的数据的重建。空间方向的重建流程包括:对于时序方向得到的重建序列,先用其将原序列中的缺失部分填补,然后使用全连接网络对序列进行空间方向的回归重建,其具体做法是对于每一个时刻,其中的每一个特征使用其他特征的值进行回归重建。最后使用一个与掩码向量和历史缺失向量有关的可学习的参数对时序方向重建的序列和空间方向重建的序列进行结合,得到最后的重建序列。
本实施例在采用双向的LSTM核函数的循环神经网络的基础上,采用一个全连接层在每个时间步进行空间方向的重建,之后将两者以一个可学习的参数进行数值结合,得到缺失值的预测值。
本实施例适用于解决传统插补方法不准确和传统循环神经网络方法忽视空间方向的信息的问题,通过时空结合对缺失序列进行重建,最后获得更为准确的插补结果。对于具有缺失的监测数据可以将其视为不完整的时间序列,本实施例对其还原的做法具体而言可以分为两个步骤,第一步是对同一传感器采集的基于时间的序列数据进行时序数据的填补,这一步使用循环神经网络对所有的数据进行估计,具体做法是采用自回归方法配合循环神经网络特有的处理时序数据的能力,将所有的数据使用当前序列的其余监测值进行估计(缺失视为默认值,一般为0),以形成一个新的时间序列,之后根据已知的监测数据对其进行优化;第二步是进行空间方向的估计,形成一个新的预测序列,空间方向的估计指的是对于同一时间的不同传感器所采集到的数据组,采用回归的方法,对所有的数据进行估计,之后根据已知的监测数据进行优化。在一个真实的长江隧道监测数据集上,此方法的精确度相比于传统的插补方法可以提升很多。
实施例2。
本实施例用于提供一种计算机***,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现实施例1所述一种基于循环神经网络的插补方法的步骤。
本说明书中每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于循环神经网络的插补方法,其特征在于,包括:
获取待插补数据;所述待插补数据包括多个时刻中每一时刻对应的监测数据向量;所述监测数据向量包括每一传感器在当前时刻采集的监测值;
以所述待插补数据作为输入,利用循环神经网络进行缺失值重建,得到时序预测数据;所述时序预测数据包括每一时刻对应的时序预测向量;所述时序预测向量包括每一传感器在当前时刻的时序预测值;
利用所述时序预测数据对所述待插补数据进行缺失值填充,得到时序插补后数据;以所述时序插补后数据作为输入,利用空间插补模型进行缺失值重建,得到空间预测数据;所述时序插补后数据包括每一时刻对应的时序插补向量;所述时序插补向量包括每一传感器在当前时刻的时序插补值;所述空间预测数据包括每一时刻对应的空间预测向量;所述空间预测向量包括每一传感器在当前时刻的空间预测值;
对所述时序预测数据和所述空间预测数据进行融合,得到时空预测数据;利用所述时空预测数据对所述待插补数据进行缺失值填充,得到插补完成数据;所述时空预测数据包括每一时刻对应的时空预测向量;所述时空预测向量包括每一传感器在当前时刻的时空预测值。
2.根据权利要求1所述的一种基于循环神经网络的插补方法,其特征在于,以所述待插补数据作为输入,利用循环神经网络进行缺失值重建,得到时序预测数据,具体包括:
基于所述待插补数据的数据缺失情况生成每一时刻对应的当前缺失向量和历史缺失向量;所述当前缺失向量包括用于表征每一传感器在当前时刻采集到的监测值是否缺失的掩码值;所述历史缺失向量包括用于表征每一传感器在当前时刻以前采集到的监测值的缺失次数的计数值;
对于每一时刻,以当前时刻对应的监测数据向量、当前缺失向量和历史缺失向量以及当前时刻的上一时刻对应的正向隐藏层向量作为输入,利用循环神经网络的隐藏层计算当前时刻对应的正向隐藏层向量;以当前时刻对应的监测数据向量、当前缺失向量和历史缺失向量以及当前时刻的下一时刻对应的反向隐藏层向量作为输入,利用循环神经网络的隐藏层计算当前时刻对应的反向隐藏层向量;
对于每一时刻,以当前时刻的上一时刻对应的正向隐藏层向量和当前时刻的下一时刻对应的反向隐藏层向量作为输入,计算得到当前时刻对应的时序预测向量;所有时刻对应的时序预测向量组成时序预测数据。
3.根据权利要求2所述的一种基于循环神经网络的插补方法,其特征在于,以当前时刻对应的监测数据向量、当前缺失向量和历史缺失向量以及当前时刻的上一时刻对应的正向隐藏层向量作为输入,利用循环神经网络的隐藏层计算当前时刻对应的正向隐藏层向量,具体包括:
利用当前时刻对应的历史缺失向量对当前时刻的上一时刻对应的正向隐藏层向量进行衰减,得到当前时刻对应的正向衰减向量;
将当前时刻对应的正向衰减向量和当前时刻的上一时刻对应的正向隐藏层向量进行按位相乘,得到当前时刻对应的正向衰减后向量;
基于当前时刻对应的监测数据向量、当前缺失向量和正向衰减后向量计算当前时刻对应的正向隐藏层向量。
4.根据权利要求2所述的一种基于循环神经网络的插补方法,其特征在于,以当前时刻对应的监测数据向量、当前缺失向量和历史缺失向量以及当前时刻的下一时刻对应的反向隐藏层向量作为输入,利用循环神经网络的隐藏层计算当前时刻对应的反向隐藏层向量,具体包括:
利用当前时刻对应的历史缺失向量对当前时刻的下一时刻对应的反向隐藏层向量进行衰减,得到当前时刻对应的反向衰减向量;
将当前时刻对应的反向衰减向量和当前时刻的下一时刻对应的反向隐藏层向量进行按位相乘,得到当前时刻对应的反向衰减后向量;
基于当前时刻对应的监测数据向量、当前缺失向量和反向衰减后向量计算当前时刻对应的反向隐藏层向量。
5.根据权利要求1所述的一种基于循环神经网络的插补方法,其特征在于,所述空间插补模型为全连接网络。
6.根据权利要求5所述的一种基于循环神经网络的插补方法,其特征在于,以所述时序插补后数据作为输入,利用空间插补模型进行缺失值重建,得到空间预测数据,具体包括:
对于每一时刻,以当前时刻对应的时序插补向量作为输入,利用全连接网络进行缺失值重建,得到当前时刻对应的空间预测向量;所有时刻对应的空间预测向量组成空间预测数据。
7.根据权利要求2所述的一种基于循环神经网络的插补方法,其特征在于,对所述时序预测数据和所述空间预测数据进行融合,得到时空预测数据,具体包括:
对于每一时刻,基于当前时刻对应的历史缺失向量计算得到当前时刻对应的时序权重系数;计算1和当前时刻对应的时序权重系数的差值,得到当前时刻对应的空间权重系数;基于当前时刻对应的时序权重系数和空间权重系数对当前时刻对应的时序预测向量和空间预测向量进行加权融合,得到当前时刻对应的时空预测向量;所有时刻对应的时空预测向量组成时空预测数据。
8.一种计算机***,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述一种基于循环神经网络的插补方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410308801.8A CN117909658B (zh) | 2024-03-19 | 2024-03-19 | 一种基于循环神经网络的插补方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410308801.8A CN117909658B (zh) | 2024-03-19 | 2024-03-19 | 一种基于循环神经网络的插补方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117909658A true CN117909658A (zh) | 2024-04-19 |
CN117909658B CN117909658B (zh) | 2024-05-14 |
Family
ID=90697494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410308801.8A Active CN117909658B (zh) | 2024-03-19 | 2024-03-19 | 一种基于循环神经网络的插补方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117909658B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115827335A (zh) * | 2023-02-06 | 2023-03-21 | 东南大学 | 基于模态交叉方法的时序数据缺失插补***以及插补方法 |
CN116682557A (zh) * | 2023-06-05 | 2023-09-01 | 东南大学 | 一种基于小样本深度学习的慢性病并发症早期风险预警方法 |
US20230350402A1 (en) * | 2022-04-28 | 2023-11-02 | Tianjin University | Multi-task learning based rul predication method under sensor fault condition |
CN117390962A (zh) * | 2023-10-27 | 2024-01-12 | 桂林电子科技大学 | 一种基于二阶循环神经网络的空气质量预测方法 |
-
2024
- 2024-03-19 CN CN202410308801.8A patent/CN117909658B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230350402A1 (en) * | 2022-04-28 | 2023-11-02 | Tianjin University | Multi-task learning based rul predication method under sensor fault condition |
CN115827335A (zh) * | 2023-02-06 | 2023-03-21 | 东南大学 | 基于模态交叉方法的时序数据缺失插补***以及插补方法 |
CN116682557A (zh) * | 2023-06-05 | 2023-09-01 | 东南大学 | 一种基于小样本深度学习的慢性病并发症早期风险预警方法 |
CN117390962A (zh) * | 2023-10-27 | 2024-01-12 | 桂林电子科技大学 | 一种基于二阶循环神经网络的空气质量预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117909658B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090558B (zh) | 一种基于长短期记忆网络的时间序列缺失值自动填补方法 | |
CN111191841B (zh) | 一种电力负荷预测方法、装置、计算机设备及存储介质 | |
CN111027686B (zh) | 一种滑坡位移的预测方法、装置及设备 | |
US20200272905A1 (en) | Artificial neural network compression via iterative hybrid reinforcement learning approach | |
CN111245673B (zh) | 一种基于图神经网络的sdn时延感知方法 | |
CN111027732B (zh) | 一种多风电场出力场景的生成方法及*** | |
CN112468326A (zh) | 基于时间卷积神经网络的访问流量预测方法 | |
CN112213771A (zh) | 地震波阻抗反演方法及装置 | |
CN115903741B (zh) | 一种工业控制***数据异常检测方法 | |
CN111383741A (zh) | 医学成像模型的建立方法、装置、设备及存储介质 | |
CN112365033B (zh) | 一种风电功率区间预测方法、***及存储介质 | |
CN114626479A (zh) | 基于变分自编码时序分解的时间序列异常检测方法和设备 | |
CN111714124B (zh) | 磁共振电影成像方法、装置、成像设备及存储介质 | |
CN114694379B (zh) | 一种基于自适应动态图卷积的交通流预测方法及*** | |
CN115660135A (zh) | 基于贝叶斯方法和图卷积的交通流预测方法及*** | |
Liseune et al. | Leveraging latent representations for milk yield prediction and interpolation using deep learning | |
CN117909658B (zh) | 一种基于循环神经网络的插补方法及*** | |
Ibarguengoytia et al. | Any time probabilistic reasoning for sensor validation | |
CN111930728B (zh) | 一种设备的特征参数和故障率的预测方法及*** | |
CN111275751B (zh) | 一种无监督绝对尺度计算方法及*** | |
CN113298131A (zh) | 一种基于注意力机制的时序数据缺失值插补方法 | |
CN117785522A (zh) | 利用经训练机器学习模型执行根本原因分析的方法和*** | |
CN116166642A (zh) | 基于引导信息的时空数据填补方法、***、设备及介质 | |
CN116482679A (zh) | 利用深度自编码器进行雷达与光电数据缺失值插补方法 | |
CN114399901B (zh) | 一种控制交通***的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |